十一长假前夕,Intel在美国亚利桑那州凤凰城举办了一场Tech Tour US技术之旅活动。
这也是继以色列(晶圆厂)、马来西亚(封装厂)、中国台北(电脑展)之后,第四次此类活动。
活动期间,我们参观了位于凤凰城的Fab 42/52晶圆厂,还提前了解了下一代酷睿Ultra处理器Panther Lake、下一代至强6+处理器Clearwater Forest的架构与技术细节,现在和大家分享!
首先强调一点,Panther Lake、Clearwater Forest此次解密的仅限架构设计、技术特性,而产品型号、规格参数、性能表现将在后续正式发布的时候公开。
【Intel 18A工艺与先进封装:四季度量产】
Panther Lake、Clearwater Forest是首个采用Intel 18A工艺的量产产品,这也是在美国本土最先进的制程工艺。
Intel 18A的技术特性之前已经讲了多次,如今量产在即,再做一次简单的回顾总结。
Intel 18A标志着半导体制程工艺的一次重大突破,尤其是它首次加入了两大全新革命性技术:RibbonFET全环绕晶体管、PowerVia背部供电。
二者结合,彻底颠覆了多年来的晶体管与晶圆结构,奠定了Intel称之为“埃米时代”的基础,在密度、性能、能效等各方面都带来了显著变化。
RibbonFET其实是GAA全环绕晶体管结构的一种实现方式,台积电、三星也都有类似的技术,但具体设计各有各的特色。
RibbonFET采用4条垂直堆叠的纳米带(Nano Ribbons)结构,使得栅极能够完全包围沟道,再加上沟道结构和栅极控制的优化,相比传统FinFET立体晶体管结构,驱动电流可增强20%,晶体管开关速度可提升15%。
同时,它还能有效减少漏电现象,支持八个不同的逻辑阈值电压,芯片设计也可以更加灵活。
另外,RibbonFET还融入了Intel的诸多工艺创新,包括全新的栅极光刻工艺、功函数工程优化、短沟道效应控制等等。
PowerVia背部供电就比较好理解了,就是将传统上位于晶圆正面的供电电路,转移到背面,这可是Intel独有的,也是第一家投入量产的,台积电和三星都不具备。
多年来,晶圆设计都是将信号线(Signal)、供电线(Power)混合分布在晶体管之上,也就是晶圆的正面,但随着晶体管尺寸不断缩小,信号线、供电线布线越来越拥挤,功耗能效、信号干扰等问题越来越凸显。
PowerVia将供电层移至晶体管或者说晶圆的背面,并在每个标准单元中嵌入纳米级硅通孔(nano TSV),从而实现了供电线与信号线的分离,晶体管的供电路径变得更加直接高效。
这么做可以大大提高供电效率,减少损耗,降低芯片整体功耗;
可以有效减少压降(IR Drop)最多达30%,提升芯片运行频率最多6%;
可以减少甚至消除信号干扰,实现更好的信号完整性;
可以提升标准单元利用率最多达10%,进一步提高晶体管密度。
当然,单纯使用背部供电,成本会显著增加,但是Intel PowerVia是一个完整方案,同时还有一系列配套优化,包括减少金属层、遮罩数量、工序步骤,以及精简正面工艺等等,使得综合成本显著低于传统正面供电工艺。
按照Intel给出的数据,同样是M0-M2金属层直接印刷EUV工艺,PowerVia加持的Intel 18A对比Intel 3,遮罩数量减少了44%,工序步骤减少了42%。
RibbonFET、PowerVia两大变革结合,使得Intel 18A对比Intel 3综合能效提升最多15%、同等性能下功耗降低最多25%、芯片密度提升30%。
当然,这些指标只是工艺层面的,落实到处理器产品层面还要结合架构、规格的变化。
对于大家非常关心的18A量产进度,Intel也给出了明确的时间表。
目前,18A早在2024年第三季度就已经投入试产,目前正在美国亚利桑那州、俄勒冈州两地的工厂积极推进,缺陷密度不断降低,计划量产时间是今年第四季度,正好和Panther Lake的发布计划相符合。
Intel还强调,18A的良品率和Intel过往15年的工艺水平基本相当,甚至更好一些。
除了先进工艺,Intel还有着丰富的先进封装技术,可以分为EMIB、Foveros两大家族,各自又衍生出了不同的版本,满足不同的封装需求。
Panther Lake就使用了2019年便已量产、久经考验的Foveros-S 2.5D封装技术,结合EMIB,将不同模块(Die)堆叠封装在一个被动无源基础模块之上,实现高效互联互通,方便灵活放大或缩小规模,而且成本可控。
【Panther Lake整体布局设计:三大版本】
接下来,我们就看看Panther Lake的整体架构设计,通过这一节你可以了解到它的概况,想深入研究每个模块单元细节的可以继续往后翻。
注意,Panther Lake是一款专门定位移动市场的处理器,包括笔记本、二合一本、迷你机、掌机等,但没有桌面版,Intel桌面的下次更新要等到后年的Nova Lake。
按照Intel的说法,Panther Lake的设计目标有三:
一是提高架构灵活性,满足更广阔的市场需求,进一步推广和普及AI PC;
二是性能的伸缩性,可满足计算、图形、AI等各种消费级负载的需求;
三是领先的能效,带来出色的每瓦特性能和续航时间。
Panther Lake在很大程度上可以视为Lunar Lake、Arrow Lake的结合体,融合了二者的众多设计和优点,尤其同时拥有前者的超高能效、后者的灵活性能。
最终,Panther Lake带来了超过50%的CPU、GPU性能提升,而且依然拥有极高的能效,做到了鱼与熊掌也可兼得,这在历史上是相当罕见的。
从这个意义上讲,Lunar Lake虽然没有直接的后继者,但是除了整合封装内存,其实很多设计都延续了下来,后边你会在Panther Lake上不断看到Lunar Lake的影子。
Lunar Lake架构的卓越无需多言,它第一次实打实地证明,x86架构也可以有极高的能效,能让笔记本拥有20小时以上的超长续航,足以媲美苹果。
Arrow Lake架构其实也很出色,性能不俗的同时能效非常好,尤其是在移动端,但是Intel最大甚至可以说唯一的失误,就是几乎原封不动把它也用在了桌面上,导致绝对性能远不如竞品,严重影响了产品和品牌的形象。
Panther Lake延续了Chiplets芯粒设计,但布局又发生了变化。
Meteor Lake、Arrow Lake都是计算、图形、SoC、IO四大模块组成,Lunar Lake简化为计算、平台控制器两部分。
Panther Lake则改成了计算、图形、平台控制器三个模块,统一封装在基础模块之上,还有一两个填料模块用于保持整体形状、压力的平衡。
计算模块自然就是各种计算引擎,主要就是CPU核心与缓存,同时还有内存控制器、NPU 5 AI引擎、Xe媒体与显示引擎、IPU 7.5图形处理引擎(也就是DSP)。
其中,CPU核心包括最多4个P核、8个E核、4个LPE核。
P核每个有自己的二级缓存,E核还是每四个一组共享二级缓存(4MB),P核+E核组成“性能簇”,集体共享三级缓存。
LPE核单独组成“能效簇”,一如既往它和E核都是每四个一组共享二级缓存(4MB)、没有三级缓存,但是频率相对更低或者说能效更高,并拥有独立的电源管理和内存连接,放置在了一个单独的供电岛上。
Panther Lake还设计了一个单独的Home Agent(HA),同时在性能簇、能效簇分别设计了一个Coherency Agent(CA),从而加强不同核心的互通,保持整个系统所有核心、缓存的一致性。这俩也都是来自Lunar Lake。
除了二三级缓存,计算模块内还单独设置了内存侧缓存(MSC)。
这是从Lunar Lake上借鉴而来的,主要服务LPE核和I/O引擎,容量还是8MB,可以减少对系统内存的依赖,提升延迟与带宽,降低功耗。
MSC放置在计算模块里,所有的IP都可以高效地访问它,包括CPU、NPU、IPU、媒体与显示引擎、甚至是I/O,从而降低功耗、提升性能,有点像SLC系统缓存。
内存控制器放置在计算模块的边缘,支持两种内存,一是LPDDR5X,最高频率9600MT/s,最大容量96GB。
二是DDR5,最高频率7200MT/s,最大容量128GB。
另外,它也支持LPCAMM2内存形态,更加灵活,不像LPDDR内存那样是焊接在主板上的,可以拆卸、更换、升级。
NPU已经进化到第五代,但并没有盲目追求更高的算力,而是提高性能面积比、能效比,其中能效面积比提升了超过40%,并新增支持FP8精度。
INT8精度下,NPU 5的算力为50 TOPS,对比Arrow Lake-H上第三代的13 TOPS可谓翻天覆地,但对比Lunar Lake上第四代的48 TOPS几乎没变。
对比竞品,它和AMD Strix Point系列完全相同,远不及高通骁龙X2 Elite系列的80 TOPS。
因为在Intel看来,GPU始终都是AI运算的主要引擎,NPU只适合持续运行、追求极致能效的特定负载,不需要过高的算力。
IPU也就是DSP单元紧挨着LPE核能效簇,非常小,但变化很大,支持3个并发摄像头,基于AI的降噪、局部色调映射,基于硬件的交错式HDR,可拍摄1600万像素照片、120FPS慢动作视频,功耗也降低了1.5W。
Xe媒体与显示引擎没有和Xe GPU放在一起,而是安排在了计算模块内,同样挨着LPE能效簇,新增支持AVC(H.264)/AV1 10-bit编解码、索尼XAVC-H/HS/S编解码。
GPU核显做成了单独的一个模块,升级到最新Xe3架构,这也是该架构的首秀,领先于独立显卡。
核心数量也增加到最多12个,搭配12个光追引擎、16MB二级缓存,算力可高达120 TOPS。
相比之下,Lunar Lake、Arrow Lake GPU算力最高分别为67 TOPS、77 TOPS。
图形模块、计算模块之间,采用了第二代Fabric连接通道,两边各设置了一个D2D直连接口,确保彼此的高速低延迟连接,以及全系统的一致性。
这部分,同样继承自Lunar Lake。
Panther Lake设计了三种不同芯片,CPU、GPU、内存、PCIe各不相同,各个模块的外观尺寸也不一样,但它们共享同样的封装与接口。
工艺方面,计算模块全都是Intel 18A,平台控制器模块都是台积电N6,图形模块则是Intel 3、台积电N3E两种混用,都放置在Intel自家制造的基础模块上。
Intel表示,每个模块采用何种工艺,是基于性能、能效、成本、量产进度、团队安排等多方面的综合考虑,会根据产品需求,灵活选择合适的代工服务和具体制程。
第一种,CPU 8核心,包括4P+4LPE,类似Lunar Lake,GPU 4核心,内存支持LPDDR5X-6800、DDR5-6400,PCIe扩展支持8条4.0、4条5.0。
注意它只有一个填充模块,因为图形模块和计算模块正好等宽,平台控制器模块和计算模块则正好等长。
第二种,CPU是满血的16核心,包括4P+8E+4LPE,也就是多了8个E核,GPU还是4核心,内存支持提高到LPDDR5X-8533、DDR5-7200,PCIe扩展增强为8条4.0、12条5.0。
它有两个填充模块,因为计算模块加长了很多,平台控制器模块也加长了但还是没赶上计算模块,只能再加一条填充模块。
相比其他两个版本,它支持更多PCIe 5.0通道,适合搭配独立显卡和更多的SSD。
第三种,CPU还是16核心,GPU也是满血的12核心,内存支持一方面继续提高到LPDDR5X-9600,一方面丢弃了DDR5,PCIe扩展支持又回到了8条4.0、4条5.0。
它也是两个填充模块,GPU旁边的因为图形模块的骤然增大而随之变大了很多,而计算模块旁边的因为平台控制器模块的缩小而变大了不少。
可以看出,二、三种的计算模块相同,一、二种的图形模块相同,一、三种的平台控制器模块相同。
这就是Chiplets设计的好处之一,可以灵活搭配不同模块,组成不同的产品。
三种不同芯片里,NPU、IPU、Xe媒体与显示引擎、无线连接性都是完全一样的,没有区别。
至于为何内存频率乃至类型都不一样,PCIe扩展也不尽相同,这是Intel结合市场定位与目标用户而设计的。
另外,个人感觉Intel不应该把最强的12核心核显仅限于搭配16核心CPU,中低端也可以有一些。
当然,它们都是芯片层面的设计,SKU型号的区别又不一样,不同OEM也可能会单独定制,比如更高的内存频率等等。
【P/E核架构解析:小核、超小核的雄起】
12代酷睿以来,Intel处理器一直坚持P+E核的异构混合架构设计,俗称大小核。
很多用户对此颇有微词,坦白来说,大小核在诞生初期确实也存在不少问题,其中之一就是E核性能偏弱。
但是多次迭代升级之后,E核早已不再是弱鸡,可以更灵活地承担更多的计算任务,贡献甚至超过了之前的虚拟超线程,这也是超线程取消的原因之一,等于让E核承担超线程的责任。
另外,LPE核也在最近几代成为标配,从开始的毫无存在感,到如今已经成为主力,完全可以独立应付日常多任务负载。
当然,线程调度管理也日益成熟起来,多种核心的调度分配越来越得心应手,尤其这一代又发生了很大变化,堪称一次飞跃!
可以说,经过多年发展,Intel的大小核战略终于初见成效,P核提升单线程性能和吞吐量,E核提升多线程性能和多任务并行能力,LPE核提升能效,彼此灵活搭配,用在笔记本上可以秒杀AMD,只是说实话,它并不太适合桌面领域,Intel不太应该强硬全面推广。
P、E、LPE核进化史,特别注意Lunar Lake。
当时官方称Lunar Lake由P核、E核组成,但现在修订为P核、LPE核的组合,从而让LPE核一直都在,E核则出现了一次缺席。
如何却分E核、LPE核?除了相对频率高低,更关键的是看三级缓存,E核和P核共享一组三级缓存,LPE则没有三级缓存。
另外,最早的Meteor Lake、最新的Panther Lake都是E核、LPE核采用相同架构,Arrow Lake则是唯一一次E核、LPE架构不同。
Panther Lake再次同时升级了P核、E核架构,代号分别为Cougar Cove、Darkmont,继续在保持高能效的同时提升性能,尤其是优化提升IPC。
同时,新架构都针对18A工艺做了针对性的设计和优化。
虽然说Intel如今的架构基本都和工艺实现了完全解耦,但仍然需要相应的优化才能将二者更好地结合在一起,对于提高性能、能效和良品率都有莫大好处,尤其是18A变化太大,首次引入了RibbonFET、PowerVia。
Cougar Cove P核的架构设计细节没有过多展开,只介绍了一些大概,包括优化PPA(性能功耗与面积)、增强分支预测、更宽调度(横跨分配/重命名/退休单元)、18个执行端口、升级TLB容量达50%、VEC/INT分离乱序执行引擎、AI电源管理、16.67MHz精细频率调节、内存消歧等等。
每个核心具备192KB一级指令缓存、48KB一级数据缓存、最多3MB二级缓存。
分支预测这个大家应该都不陌生了,是影响现代处理器性能的两大关键因素之一(另一个是缓存),是任何一次架构升级都要重点改进的地方,简单讲就是判断程序分支的进行方向。
显然,它的精度和准确率越高,整体的执行效率就越高,性能和能效自然也就越高。
Panther Lake的分支预测单元(BPU)很大程度上还是借鉴了Lunar Lake上的高效设计,并继续深入优化,精度、容量、效率、延迟全面增强。
所谓内存消歧,指的是访存指令数据依赖性是基于内存地址的,在重命名阶段无法确定,只有计算出地址之后才可以确定依赖关系,分为推测性、非推测性,这种机制可以让性能更加可靠。
值得一提的是,16.67MHz频率精度,这个来自于Arrow Lake。
另外,PPT上提到最大18MB共享三级缓存,应该指的是P核、E核集体共享的容量,毕竟二者不分家,也就是这代三级缓存最大就是18MB。
Arrow Lake-H上虽然有24MB,但是有6个P核,所以平均下来这代还是多了一点。
Darkmont E核因为也用在新一代至强Clearwater Forest的上边,所以介绍得很详细,正好也非常有必要让大家多了解了解E/LPE核,它们绝非累赘。
总的来说,这次E核的主要变化包括增强分支预测(寻找指令更迅速)、增强深度队列(并行更好)、增大二级缓存带宽(每时钟周期128字节)、动态预取器控制(不同负载的响应能力更好)、微代码性能提升(支持更多指令)、内存消歧、26个分派端口、AI吞吐量提升,等等。
在前端,Darkmont的主要变化有:更大的64KB一级指令缓存、更宽更深更精准的分支预测、提升50%的指令带宽(3×32-bit)、9宽度的乱序解码器(3×3)。
乱序执行引擎模块,具备8个宽度的分配与16个宽度的退休单元(增加33%)、416个入口的乱序窗口(增加62.5%),以及多达26个执行端口(增加53%)。
执行引擎部分,标量引擎具备8个整数ALU计算单元(增加100%)、3个载入与4个存储AGU端口、3个跳转端口、2个整数存储数据端口。
矢量引擎具备4个矢量与浮点ALU单元(增加100%)、2个矢量与浮点存储数据端口、4个矢量与浮点堆栈。
缓存子系统,二级缓存的缓存带宽从每时钟周期64B翻番为128B,具备3个载入与2个存储单元,而更深的存储与载入缓冲允许128个二级缓存未命中,还有更高级的预取器。
对比Meteor Lake/Arrow Lake里使用的Crestmont,这一代小核的变化可谓全方位的,从前到后整个架构都进行了全面增强。
当然,这里没有对比Lunar Lake里的Skymont,但同样有着全方位的进步。
另外,从这张图上可以清晰地看出,Lunar Lake、Arrow Lake与Panther Lake之间的CPU核心进化关系,这也是前边说Panther Lake是二者合体的原因之一。
基于全新的P核、E核架构,Panther Lake的单线程性能对比Lunar Lake、Arrow Lake有了最多10%的提升,但类似性能下的功耗骤然降低了最多40%,能效之高可见一斑。
多线程方面,Panther Lake对比Lunar Lake,类似功耗下的性能高了最多50%。
Panther Lake对比Arrow Lake,类似性能下的功耗又低了最多30%。
Intel还特别声称,这一代Darkmont E核的性能,相当于13代酷睿Raptor Cove P核在低功耗下的水准,可以用更低的功耗达成同样的性能,因此无论性能还是能效都强得可怕。
所以在下一节你将会看到,LPE都将承担起更多的责任,直接搞定日常多任务负载,更别提E核了。
【线程调度器飞跃:LPE核不再打酱油而是主力】
12代酷睿引入P+E异构混合架构的同时,Intel就在硬件层面设计了线程调度器机制(Intel Thread Director/ITD),配合操作系统,调度不同核心执行不同负载。
简单来说,ITD会自动识别不同的进程和负载,并对它们进行归类,包括谁更适合运行在哪种核心上、谁的优先级更高等等,基于此制作成一份反馈表,交给操作系统调度器,由其调用不同核心执行不同操作。
显然,这套机制的关键在于识别与分类的精准,保证不同核心分配到最适合自己执行的负载,而且一切都得在电光火石之间完成。
处理器硬件与核心架构不断进化的同时,ITD也在持续改进升级,让调度精度与效率越来越高。
Panther Lake上又完成了一次飞跃,针对更广泛的应用场景,进一步优化和增强了智能线程调度,包括优化分类模型、改进电源管理输入、扩展繁忙场景覆盖范围、同步跨P/E/LPE核执行等,另外还设置了一个操作系统隔离区,将需要能效、计算、混合等不同负载分区域处理。
IDT对于不同类型核心的调度使用也在不断优化。
Raptor Lake 13/14代酷睿还是单芯片,只有P/E核,负载与核心调度相对简单粗暴,就是高负载给P核,低负载给E核,并在二者之间周期性转移线程。
Meteor Lake增加了LPE核,位于单独的SoC模块内,负载调度首先考虑它,不够了再转移到计算模块的E核、P核,但是首次出现的LPE核参与执行的机会并不是很多,而且涉及到跨模块调度,延迟容易偏高。
Lunar Lake只有LPE、P两种核心,跨度有点大,但好处是放在了一个模块内。
Arrow Lake虽然有LPE、E、P三种核心,而且位于同一模块内,但是LPE核只有两个,难堪大任。
Panther Lake可以说是集前代之长,三种核心置于同一模块,而且有四个LPE核,足够承担日常多任务负载,一般办公、娱乐用它就足够了,不够用了再一次调度E核、P核,而如果遇到高强度负载,比如生产力创作、基准测试,则可以直接上P核。
比如视频会议、上网、Office办公、视频直播、简单创作等日常轻度负载,包括多任务并行,可以全权交给4个LPE核搞定,E核、P核几乎完全休眠,只是偶尔可能会被短暂唤醒。
这是因为如今的LPE核经过架构升级,性能已经足够强大,可以说相当于低功耗模式的P核,四个LPE核对付多个低负载是绰绰有余的。
这种情况下,Panther Lake的整机功耗甚至可以比Lunar Lake还要低!
Procyon Office生产力创作这类对于LPE核压力稍大但不会过大的负载,依然会尽可能交给LPE核执行,但可能会有一个LPE核持续工作。
一旦超出了LPE核全力承受的极限,就会尝试E核,一旦E核也不足以应付,或者需要太多E核同时工作,就会直接调动一个P核,但一般也只有一个,并保持持续输出,其他P核和全部E核、LPE核则基本转入休息。
总之原则就是:能用小的不用大的,能用少的不用多的。
CineBench 2024多线程测试,这种需要调动每一个核心全部能力极限测试,自然就会全力开动,所有核心满血输出。
对于游戏来说就复杂一点了,因为不同的游戏,所需要的CPU、GPU资源可能截然不同。
比如《控制》这种,GPU显卡很容易成为瓶颈的,如果按照一般调度原则,会让所有核心参与其中,而且一个或多个P核会持续工作,显然造成浪费。
经过优化增强后,这类负载中就直接让最弱的LPE核全部休息,主要调动最强大的P核以保证性能,并尽量调用E核以尽可能降低功耗,甚至在特定阶段可以只让一个P核持续工作,其他P+E核尽量休息,兼顾能效。
当然,多核心的调度绝不是处理器自己的工作,不但需要操作系统的配合,还要考虑电源管理机制、OEM定制工作模式、平台软件等多重因素。
比如OEM伙伴可以选择将能效比发挥到极致,也可以选择能效曲线上最合适的点,从而满足特定的产品,就像轻薄本、创作本、游戏本的需要显然是截然不同。
好消息是,Panther Lake并不是必须搭配最新版Windows 11,因为IDT的工作是在层面,操作系统只需要配合就行了。
另外很关键的一点就是Windows系统的电源计划,这个对于异构混合架构的发挥也至关重要。
传统的Windows电源计划只有简单粗暴的高性能、平衡、节能几个档位,都是固定的、静态的,而且需要手动选择切换。
现在,Intel带来了“智能体验优化器”(Intelligent Experience Optimizer)。
它可以由系统软件开启,在平衡模式下进行智能自动切换,按照系统运行需要或者偏性发挥更高性能,或者偏向发挥更高能效、更低功耗,期间完全不需要手动干预。
【GPU核显:Xe3架构首秀 迎来多帧生成】
Intel Xe一直坚持独显、核显两条腿走路,而且核显还走到了独显的前头,比如Lunar Lake率先集成了第二代Battlemage Xe2架构,锐炫B580/B570之后才跟上。
Panther Lake则率先集成了新一代Celestial Xe3架构,不过命名上却划归锐炫B系列。
至于新架构独显,还不知道什么时候发布的下一代锐炫C系列才会跟上,但从路线图上看独显版Xe3架构将会叫做Xe3P,应该是代表性能更强。
核显版Xe3主要是增强了架构灵活性,并在性能上进行了深度优化,包括第三代Xe核心、增强光追单元、提升XVE矢量引擎利用率、增强图形固定功能,等等。
Xe核心的基本内部结构完全没变,还是包含8个512-bit XVE矢量引擎、8个2048-bit XMX AI加速引擎,不过两种引擎都做了增强,共享一级缓存容量也增大了1/3,来到342KB。
XVE矢量引擎的线程增加了最多25%,新增支持可变寄存器分配、FP8量化,同时继续支持SIMD16原生ALU逻辑计算、3路并发、拓展数学与FP4。
XMX引擎继续提升性能,每时钟周期操作数分别提高到TF32 1024、FP16/BF16 2048、INT8 4096、INT4/INT2 8192,整体算力提高到了最多120TOPS,但不支持FP4。
光追单元变化不是很大,支持异步光追的动态光线管理。
图形固定功能方面,支持URB管理器,AF各向异性过滤行提升2倍,模板测试速率提升2倍。
同样频率下,Xe3的诸多微架构理论指标都有了长足的进步,比如色彩混合+10%、GEMM +50%、FP32/INT32 +50%、光线与三角形交互+1倍、16x AF sRGB +1倍、网格渲染+1.4倍、离散读取+1.7倍、高寄存器压力着色器+2.1倍、深度写入+6.4倍。
当然,这些都是纯理论性能指标,不代表实际渲染性能,但也可以看出Xe3作为一次小改,仍有着显著的提升。
反映到实际性能上,Intel官方宣称Panther Lake Xe3对比Lunar Lake Xe2的性能可提升超过50%,当然功耗也高得多。
对比Arrow Lake Xe则将能效提升了超过40%,只需要少得多的功耗,就能达成后者的峰值性能。
Xe3的基本组成单元还是渲染切片(Render Slice),不过增大了规模,每一组从4个Xe核心、4个光追单元加强为6个Xe核心、6个光追单元。
Panther Lake的核显有两种版本,一种是4个Xe核心,搭配8/16核心CPU,但不清楚是6核心精简下来的,还是原生4核心,如果后者和Xe2架构的就一样了。
它有32个XMX引擎(大致相当于传统32个传统流处理器)、32个XVE引擎、4个光追单元、1条几何流水线、4个采样器、2个像素后端、4MB三级缓存。
另一种是12个Xe核心,搭配16核心CPU,但规格上不是4核心版本简单乘4,而是重新配置过的,包括96个XMX引擎、96个XVE引擎、12个光追单元、2条几何流水线、12个采样器、4个像素后端、16MB二级缓存。
大缓存可以显著降低GPU与CPU之间的互连拥堵问题,实际游戏中最多可节省达36%。
此外,Xe3架构还带来了一项重磅技术,XeSS3 MFG多帧生成,甚至AMD都还没有做到这一点!
它和NVIDIA DLSS 4的多帧生成类似,也是提取已有帧画面中的运动矢量、深度信息,利用XMX引擎的AI处理能力,结合光流、运动矢量信息进行混合重建,生成新的帧画面。
它也是一帧可生成最多四帧,能将帧率提升4倍左右,并且可以在驱动中选择强制2x、3x、4x帧生成,或者由游戏控制。
结合XeSS SR超分技术,它同样能让画面中15/16的像素都是AI生成的,而非原生渲染的。
凡是已经支持XeSS2 FG帧生成的游戏,都可以直接支持XeSS3 MFG多帧生成,无需单独适配。
至于多帧生成能否适配老显卡,暂未可知。
当然,帧生成、多帧生成都必须配合XeSS LL低延迟技术,要么同时打开,要么同时关闭,从而降低帧生成后的高延迟。
XeSS LL低延迟也有两种实现方式,一是游戏内置原生支持,效果最好,二是通过驱动强制打开,不算完美但总比没有强。
有趣的是,Intel还开发了一个小软件,可以分别显示原生渲染帧率、多帧生成帧率,可以看到确实做到了4倍提升。
【NPU 5:不盲目追求高算力 更在意高效率】
NPU的历史不算长,但在各家的AI战略中,它都是非常关键的一环,和CPU、GPU共同组成AI计算矩阵,各有各的长处。
无论是Intel、AMD,还是高通、联发科乃至苹果,都是这么做的。
Intel一直坚持XPU策略,CPU、GPU、NPU都要利用起来,各司其职。
NPU的优势是超高能效,适合持续运行特定负载,尤其是后台负载,比如视频会议效果、游戏助手、AI助手等。
CPU的优势是快速响应,适合对响应速度要求很高、但负载不是很重的负载,比如语音转文字。
GPU的优势是算力强、带宽高,适合对性能需求极高的繁重负载,包括游戏、内容创作等。
根据Intel的观察,目前的AI负载中,主要跑GPU能占到超过60%,NPU利用率正在快速提升已经超过20%,CPU则有10%以上。
当然,CPU、GPU、NPU三者也不是彼此隔离的,同样一个AI应用,可以将不同负载分配给不同引擎,达到尽可能高的性能和效率。
Lunar Lake上搭载的NPU是第四代(Arrow Lake第三代),具备6个神经计算引擎、12个增强SHAVE DSP、优化的MAC阵列,最大算力48 TOPS。
Panther Lake NPU升级到了第五代,架构方面没有太大变化,最大变化就是将每一组MAC阵列的规模直接扩大一倍,同时减少了前后端的诸多单元,使之更加高效。
可以理解为将原来的两组MAC合并,共享前后端单元。
这样一来,NPU 5 NCE(神经计算引擎)的数量从6个变成3个,SHAVE DSP、推理流水线、数据转换单元、激活函数单元、载入存储单元等等随之全部减半,但是MAC阵列大大增强到了12K。
另外还有256KB二级缓存、4.5MB便签内存(SPM)用于存储占用部分地址空间的数据或指令。
Panther Lake NPU的算力最高为50 TOPS,相比Lunar Lake上的48 TOPS几乎没有增长,持平AMD,远低于骁龙X2 Elite系列的80 TOPS。
不过可以看到,Panther Lake NPU的面积比Lunar Lake上缩小了很多,单位面积的算力能是猛增了超过40%。
正是Intel NPU的发展思路,不盲目追求高算力,因为GPU才是最适合跑高算力负载的,NPU的优势就是高能效,在尽可能小的面积、尽可能低的功耗下发挥适合的算力,才是最适合NPU的做法。
硬件变化的同时,NPU 5也针对最新AI负载做了优化适配,比如新增加了原生FP8数据格式,包括E4M3和E5M2两种格式。
FP8相比于FP16虽然牺牲了一些精度,但是可以大大减少内存/显存占用,吞吐量、能效也都高了一倍。
INT8/FP8都支持16×16×16矩阵计算,每时钟周期均为4096 MAC,FP16则是16×16×8计算和2048 MAC。
格式转换单元增强后,针对原生FP32后期处理流水线做了架构上的重构,广泛支持FP32、FP16、BF16、FP8、INT8、INT4。
至于NVIDIA力推的FP4,Intel表示会保持观察,视需要而定,毕竟它还远不是行业标准,各有各的实现方式(NVIDIA的就直接叫做NVFP4)。
事实上,FP8也还没有成为IEEE754组织行业标准,但是Intel强调对它的支持与行业主流基本对比,对比NVIDIA支持的FP8差别很细微,并且推理前可以直接转换,对实际应用和性能表现基本没有影响。
Panther Lake三大AI引擎的总算力最高为180 TOPS,其中GPU最强达120 TOPS,NPU次之为50 TOPS,CPU最弱为10 TOPS。
这种算力分布,是非常符合它们各自的负载应用需求的。
【IPU 7.5:摄像头的好搭档】
IPU,即“图像处理器”,很多人可能会感到陌生,但说起ISP(图像信号处理器),应该就都很熟悉了。
IPU其实就是Intel单独给ISP取得一个名字,使之也属于某种XPU。
IPU或者说ISP最核心的作用之一就是处理来自摄像头、麦克风的图像信息,包括曝光、白平衡、对焦等,用在笔记本上最主要的应用场景就是视频会议。
作为一种集成式ISP,IPU不需要本地独立缓存、微控制器,可以不受限制地进行更高级时域的处理,直接访问CPU、GPU、NPU这些计算引擎,而且可编程。
虽然国人在视频会议中不太喜欢开摄像头,但欧美截然相反,尤其是疫情后,居家远程办公的比例一直很高,视频会议就成了刚需场景。
数据显示,22%的美国人居家远程办公,75%的美国公司经常开视频会议,每人每年花在视频会议上的时间可能长达50天。
同时,视觉处理也是智能边缘时代的关键任务,包括无人智能化场景、安全监控、工业化、汽车驾驶等。
Intel IPU一直都很低调,但是已经有十多年历史,Panther Lake上已经是7.5代,主要变化有三点:
一是支持交错式HDR(sHDR)。
基于硬件加速,结合长短双曝光,可获得更清晰、更真实、色彩更逼真的视频画面,最高支持4K分辨率,还能节省最多1.5W的功耗。
二是支持基于AI的降噪。
可改进暗光环境下的图像与视频质量,与CPU/NPU联合,提升帧率和锐度,让画面更干净,最高支持500万像素摄像头。
三是支持基于AI的本地色调映射。
还是改进暗光画质,包括更好的对比度、消除光晕效果、消除色彩鬼影等等。
另外,IPU 7.5还支持三摄像头并发,支持1600万像素拍照与ZSL(零快门延迟)。
如果你的笔记本摄像头不是很好,IPU 7.5还是挺有帮助的。
【连接:Wi-Fi 7 R2与蓝牙6.0】
从改变时代的迅驰笔记本开始,Intel就一直非常重视无线连接,并且始终处于遥遥领先的地位。
Panther Lake率先支持最新的Wi-Fi 7 R2标准规范,相比初版Wi-Fi 7重点提升了网络性能、可靠性和能效,包括多连接重配置、受限TWT(目标唤醒时间)、单链接eMLSR(增强多连接单射频)、P2P通道协调、MIMO增强、混合自动重复请求(HARQ)、低延迟操作等。
可惜,Wi-Fi 7 R2中的很多新特性,都需要用到6GHz通道,与国内无缘。
Panther Lake还支持全新的蓝牙6.0,已经发布一年多了,支持蓝牙信道探测、基于决策的广播过滤、监视广播设备、ISOAL(等时适配层)增强、LL扩展功能组、帧间隔更新等新特性,还有更好的蓝牙LE音频,比如Auracast广播能力。
软件层面,Intel还带来了高级蓝牙监视、双向QoS管理、AI感知QoS等。
最后,一图看懂Panther Lake的新变化和提升!
更新时间:2025-10-10
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号