全自研?扒皮OPPO影像专用NPU,到底有什么用?

12月8号OPPO首次披露了这枚叫做MariSilicon X,由台积电6nm制程制造的影像专用NPU芯片。消息出来,有人沸腾(比如我),有人理智,有人冷嘲热讽。毕竟当时什么信息都没有,除了情感上能宣泄一下之外,没法说什么。今天这颗芯片正式发布,并且很快会用于下代基于高通骁龙8Gen1平台的FindX旗舰机上。那么,我们就来认真审视一下这颗芯片到底有什么用,特别是在高通或者联发科SoC性能这么强劲的情况下,这颗芯片能起到多大的作用。

全自研?扒皮OPPO影像专用NPU,到底有什么用?

Marisilicon X是一枚专门用于影像处理的NPU芯片,它拥有OPPO完全自主研发的内核IP:MariLumi影像处理单元和MariNeuro AI计算单元。这里必须强调一下,鉴于6nm及更先进制程下OPPO无法取得相关的IP,OPPO也没有兴趣购买第三方IP构建自己的芯片,这枚芯片的影像处理单元IP和AI计算单元IP完全自研。

全自研?扒皮OPPO影像专用NPU,到底有什么用?

如果用最简单的话来描述Marisilicon X到底是什么?严格来说,它既不是ISP,也不是NPU,而是一枚DSA特定领域架构,面向计算摄影的简易SoC,它包括了影像处理单元和AI计算单元,以及片上内存等几个主要部分,其复杂程度远超过传统意义上的ISP或者NPU。

Marisilicon X在计算摄影流程中,位于什么样的工作位置呢?它工作在最前端的RAW域,直接接受来自CMOS的RAW域信息,这颗芯片有20bit的恐怖位宽,最大支持到20bit的RAW域信息和20bit的HDR Fusion。Marisilicon X在最前端处理完信息之后,把RAW域信息交给SoC输出。

全自研?扒皮OPPO影像专用NPU,到底有什么用?

而传统基于SoC,如骁龙888 ISP的处理过程是什么样呢?以FindX3 Pro为例,它仅仅在YuV域才介入计算摄影的算法处理,包括HDR和多帧合成。此时,图像已经经历了多次压缩处理,细节丢失严重。如果这么说大家无法理解的话,直接展示样张,请注意直接用RAW域数据进行后期处理和JPG直出(也就是FindX3 Pro计算输出完毕的样张)的区别。该样张来自我对FindX3 Pro的详测,选取了10bit色深 RAW文件和8bit计算摄影直出JPG的对比:

全自研?扒皮OPPO影像专用NPU,到底有什么用?

这是FindX3 Pro 10bit RAW在Lightroom中打开后的样子,请注意模特面部的细节和这件亮绿色小西服的特征。

全自研?扒皮OPPO影像专用NPU,到底有什么用?

在FindX3 Pro评测里,我指出,RAW保留的原始信息是骁龙888 ISP后期在YuV域上展开计算然后输出JPG这种压缩再压缩无法比拟的。而Marisilicon X所做的事情,就是在RAW域直接介入计算,包括高达20bit的超级HDR和多帧合成处理。这样做有两个好处,第一个好处是在RAW域就做超量计算后再输出给SoC,画面细节和计算效果得到最大程度的保证;第二个好处就是给SoC减压,特别在极端复杂场景下的动态视频(例如4K夜景视频),SoC能从容不迫地输出视频。这个过程非常容易测试,在新一代FindX上市之后,比较一下4K夜景视频、极端环境下的拍摄(需要超高动态范围支撑的场景和极暗光,超逆光场景)手机的计算速度,整体发热情况和流畅度就清楚了。

全自研?扒皮OPPO影像专用NPU,到底有什么用?

当然,这一切需要Marisilicon X真的具备强悍的计算性能和卓越的制造工艺。台积电6nm制程是公认的先进制程,这使得MariSilicon X能在不大的Die上同时集成ISP/NPU和片上内存,不再需要共享系统的LPDDR5内存。先来看看这颗芯片的处理能力,它的MariNeuro AI计算单元在int8精度下实现了

全自研?扒皮OPPO影像专用NPU,到底有什么用?

18TOPS的恐怖算力和11.6TOPS/W的能效比。

因为计算流程的改变,搭配Marisilicon X使用的骁龙8Gen1平台可以在RAW域就提供如此巨量的算力对最高20bit的RAW信息进行计算。这在过去是做不到的,特别是视频应用。

骁龙888的NPU运行AI降噪算法的时候,只能做到2FPS的性能且耗能巨大,而前置的Marisilicon X可以轻松实现40FPS的处理能力,功耗仅为797mW。从这一点上,至少在计算摄影领域,把Marisilicon X叫做骁龙8Gen1的救星也不为过。

全自研?扒皮OPPO影像专用NPU,到底有什么用?

全自研?扒皮OPPO影像专用NPU,到底有什么用?

除了20bit RAW域高速实时处理能力,Marisilicon X还提供了对20bit Ultra HDR的性能支持,4倍于FindX3 Pro的动态范围。过去其实头部厂家都有自己的HDR算法,但受限于SoC的能力,一直很难满血发挥。Marisilicon X在RAW域就介入HDR的计算,这是手机领域里非常罕见的。

为了让这颗计算摄影处理器达到最佳的性能,OPPO为它设计了影像专用内存子系统。

全自研?扒皮OPPO影像专用NPU,到底有什么用?

一般来说,AI神经网络在运算过程中会不断地展开,有很大的feature map,这些数据如果通过系统内存去读的话会产生较高的读写延迟,以及额外的系统能耗开销。OPPO在NPU内部提供了一个超高速片上SRAM缓存去加速AI神经网络的运算,这个片上缓存的数据交换速度达到万亿比特/s。

除了片上缓存之外,Marisilicon X也内置了Extra LPDDR 4X内存,它可以提供8.5GB/s的速度。这个扩展内存帮系统整体带宽提高了17%,并且专为前置的计算摄影服务。

在之前那篇关于OPPO为何要造芯片的文章里,我提出一个观点:“OPPO想获得和自身市场地位相配的资本市场评价和消费者评价,就必须自研核心技术,做全流程的自研体系。”以计算摄影为例,OPPO已经提出了全链路10bit(随着RAW精度的提高和算力提升,未来可能会升级到12或者18bit)的概念,这意味OPPO必须采用自研的SoC(或者Marisilicon X这样的RAW域专用计算摄影处理器),自研或者算法固化,独占定制的CMOS、完全自研的算法和特别设计的光学模组来达到真正的全链路10bit。这个过程缺一不可。苹果这么干,成功了;华为这么干,也成功了;无论是索尼或者三星公开市场的CMOS,亦或是大立光舜宇公开市场的光学模组,再或者高通或联发科的旗舰级SoC,都只能为所有客户做普适性优化,不可能为某家厂商做深度的,有特色的优化。联合研发,一般情况下能参与到产品需求定义、功能定义、原型机测试和算法联合开发就已经相当不易,像华为那种从麒麟SoC到独占RYYB CMOS再到XD Fusion体系一条龙的研发,这在公开市场是不可能的。华为和苹果很早就意识到公开市场的产品和方案无法满足成本优势和差异化优势的需求,只能走自研的道路。

全自研?扒皮OPPO影像专用NPU,到底有什么用?

如果说FindX3世代OPPO提出的全链路10bit是从影像信号采集、计算、输出、显示进行定义的话,那么这次独占RGBW的IMX709和Marisilicon X的加入,才是真正全链路10bit RAW计算影像的历史开端。Reno7 Pro上那颗IMX709充其量只能算残血版,因为它获取的信息依然经过压缩最后交给天玑1200进行处理。而真正的满血版猫眼感光自拍,应该来自于IMX709的RAW域配合Marisilicon X的前端计算能力。OPPO把这个叫做RGBW Pro。

传统的RGBW是采用猜色的方式进行RGB的输出,后果很明显,就是降噪遇到挑战且有可能偏色。当有了MariSilicon X作为SoC和CMOS Sensor之间的中间桥梁时,就可以让Sensor直接出RGGB和W。也就是说它的W信息不需要再被转化掉,由MariSilicon X处理之后再进行feature RGBW再给到SoC。这样的处理的方式的话,在Image SNR(信噪比)方面会提升8.6个dB,因为是两条RAW(RGGB+WWWW)流程处理,在图像解析率方面会提升1.7倍。这是非常惊人且实用的表现。

所以小结一下,OPPO这颗自研IP的影像专用NPU,它最核心的作用,就是在最前端的RAW域提供高达18TOPS的算力和11.6TOPS/w的能效比。在RAW域提供20bit精度的RAW计算能力和20bit位宽的Ultra HDR计算能力,同时把计算结果输出给SoC。这颗芯片解决了全链路影像流程中信息采集和计算的问题,为SoC后端提供了比以往压缩过的信息量丰富得多的信息,从而从根本上解决了噪音、画质、色彩等核心问题。

全自研?扒皮OPPO影像专用NPU,到底有什么用?

全自研?扒皮OPPO影像专用NPU,到底有什么用?

最后,我们再来探讨一下OPPO为什么要做芯片。因为目前基于公开市场解决方案的移动设备影像能力到了天花板,OEM们不可能依靠高通、索尼、联发科、三星去解决差异化的需求问题。所谓的联合研发把能做的,该做的,不该做的都干了,但依然没有达到苹果和华为的那个效果。原因上面说过了,公开市场芯片和算法无法针对某个特定的产品设计需求进行独特优化,但是全流程自研的芯片和算法,却可以。为了打造真正的高端产品,满足产品定义,OPPO只能选择最难的路,当然也有人做成功的路——自研芯片,独占Sensor和自研算法。先从感知较强的计算影像领域开始做,以后再涉及其他方面。

这是业务发展的需求。从企业战略来说,OPPO到了一个需要重新定义公司属性的时候。根据CounterPoint的2021年Q3全球手机厂商份额数据,欧加集团(合并OPPO+realme+一加),目前欧加国内市占率第一,全球份额前三。如此庞大的得份额,依然无法满足用户对差异化体验的需求。就像我说的,躺在公开市场解决方案基础上的份额,那叫养蛊,终于一天会被吃掉。在发育的过程中,能否异化裂变出别人没有的优势,这确实是OPPO当下最需要考虑的事情。做一家优秀的Fabless(无晶圆厂半导体设计公司),先从先进制程下自研IP的影像处理器开始做起,通过独占Sensor,真正掌握端到端的计算摄影差异化能力,这是接下来进军CPU和GPU的良好开端。CPU和GPU,都可以购买ARMv9的IP授权,但自研IP的能力也不能丢。

全自研?扒皮OPPO影像专用NPU,到底有什么用?

OPPO是个敢为天下后的企业,做一家Fabless,又是个后起之秀,做长期主义的主人,耐得住寂寞,我们才能看到OPPO发布高性能SoC的那一天,希望这一天来的不晚。

展开阅读全文

页面更新:2024-04-29

标签:三星   华为   影像   算法   芯片   流程   内存   能力   市场   信息

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top