回顾酷睿Ultra的成长史,会发现产品诞生到发布之间,英特尔都承担着来自各方的多重压力。而在压力之下,破釜沉舟的技术革新让也人印象深刻。从Meteor Lake在架构设计上大改开始,到Lunar Lake的效能、GPU和AI性能大幅更新,两代酷睿Ultra着实拿出了不少令人惊艳的产品。但无奈成本和市场压力,让英特尔以更快的速度进行产品迭代,被反复提及的Panther Lake终于正式摆上了台面。
Panther Lake从诞生之初就自带很多光环,它即能拥有Lunar Lake长续航与AI性能,也具备比Arrow Lake更好的多线程表现,更重要的是,它是英特尔18A制程的第一款产品,并且用上了NPU 5和Xe3 GPU,将AI性能提升到了180 TOPS,足足提升50%。
距离Lunar Lake发布仅一年时间,就能看到产品力再度大幅提升的Panther Lake,光凭这一点,就让人觉得很不“英特尔”,一点都不挤牙膏。
那么这次挤爆牙膏的性能究竟从何而来?在前段时间,笔者有幸参观了英特尔位于亚利桑那州的Fab 52晶圆厂,获取了关于Panther Lake更多细节。这款即将奠定未来笔记本电脑基调的处理器,会发生什么样的变化,趁着解禁,惯例奉上一年一度的技术浅析。
为了方便阅读,笔者将Panther Lake的大致变化和特点放在第一章节,如果时间有限,看完第一章节概览即可。而如果你对Panther Lake有更多兴趣,其余的章节会向你分享Darkmont E-Core、Cougar Cove P-Core,以及NPU 5、Xe3 GPU的更多细节。
概览:来自18A的战斗力
Panther Lake延续了Meteor Lake以来多个模块(Tile)和多种制程拼接的设计理念,尽可能小的模块能够更好的良率,并通过英特尔自家的Foveros-S 2.5D实现连接,实现效能、成本的最大化利用。这也给Panther Lake架构设计奠定了一个主要基调,即:通过架构创新实现更广泛的市场适配、全负载性能扩展与每瓦性能提升。
围绕这个基调,Panther Lake实现了三个方向的升级:
提升架构灵活性:以满足更广泛的市场需求,例如对应游戏本、轻薄本或者边缘计算场景,可以在Panther Lake同一架构下提供不同的产品;
全负载性能扩展:覆盖CPU、GPU、NPU三大关键升级,全维度性能提升;
能效优先:持续追求每瓦性能表现,注重性能与功耗平衡。
借助架构上的可扩展支持,Panther Lake技能够实现Lunar Lake上超强的x86能效表现,也可以实现Arrow Lake上诸如多线程的性能扩展能力。更确切的说,英特尔将每一个模块的IP进行独立设计,通过成熟且成本可控的Foveros-S 2.5D完成封装,从而实现第二代可扩展架构(Scalable Fabric Gen 2),满足不同的细分市场。
这里让我们先说结论。Panther Lake架构根据产品细分目前做成了三个版本,坊间听到的数个版本多个数量的CPU与GPU以及I/O搭配,均是基于这三个版本而来,它们分别是:
8 Core + 4 Xe3
计算模块(Compute Tile)由Intel 18A打造,包含4个P-Core,4个LP E-Core,共计8核。计算模块内还包含用于摄像头增强的IPU 7.5,50 AI TOPS算力的NPU 5,8MB内存侧缓存,内存最高支持LPDDR5x-6800,DDR5-6400。
GPU模块(GPU Tile)为4个Xe3核心,包含4个光线追踪单元。平台控制模块(PCD Tile)提供8条PCIe 4.0和4条PCIe 5.0,共计12条PCIe通道,同时最高支持4个Thunderbolt 4,2个USB 3.2,8个USB 2.0,Wi-Fi 7(R2),蓝牙6.0。
可以看到,这个版本是唯一不带E-Core的版本,定位于超低电压版本。在线程管理上与现在的Lunar Lake类似。
16 Core + 4 Xe3
计算模块(Compute Tile)由Intel 18A打造,包含4个P-Core,8个E-Core,4个LP E-Core,共计16个核心。同时也包含IPU 7.5,50 AI TOPS算力的NPU 5,8MB内存侧缓存,内存最高支持LPDDR5x-8533,DDR5-7200。
GPU模块(GPU Tile)为4个Xe3核心,包含4个光线追踪单元。平台控制模块(PCD Tile)提供8条PCIe 4.0和12条PCIe 5.0,共计20条PCIe通道,同时最高支持4个Thunderbolt 4,2个USB 3.2,8个USB 2.0,Wi-Fi 7(R2),蓝牙6.0。
这个版本拥有更多的PCIe通道,以及提供了对DDR5内存的多样化支持,明显是为了匹配独立显卡版本的游戏笔记本、移动工作站所准备的。
16 Core + 12 Xe3
计算模块(Compute Tile)由Intel 18A打造,包含4个P-Core,8个E-Core,4个LP E-Core,共计16个核心。同时也包含IPU 7.5,50 AI TOPS算力的NPU 5,8MB内存侧缓存,内存最高支持LPDDR5x-9600。由于更多的连接通道留给了12核Xe3,因此不再额外支持DDR5内存。
GPU模块(GPU Tile)高达12个Xe3核心,包含12个光线追踪单元,仅凭GPU模块就能提供120 AI TOPS算力,配合CPU的10 AI TOPS和NPU 5的50 AI TOPS,在XPU的调度协同下,整个处理器可以获得180 AI TOPS算力,相对上一代Lunar Lake提升了50%。顺带一提,AMD因为缺乏XPU协同调度能力,不同CPU、GPU、NPU之间的算力是比较难实现协同调度的,因此AMD在宣传AI性能的时候,会有意规避这一点。
平台控制模块(PCD Tile)提供8条PCIe 4.0和4条PCIe 5.0,共计12条PCIe通道,同时最高支持4个Thunderbolt 4,2个USB 3.2,8个USB 2.0,Wi-Fi 7(R2),蓝牙6.0。
在笔者看来,这也是英特尔工程师们对于Panther Lake定义的完全体,也是旗舰级便携笔记本、Windows游戏掌机的最终展现形态。
这样的架构优势在于,通过Foveros-S 2.5D,在封装下就可以满足应付所有场景的设计,GPU模块属于独立IP,不仅可以交给台积电制造,还可以根据产品安排提供诸如4核Xe3或者12核Xe3版本,所有的I/O IP都集中在了平台控制模块(Platform Controller Tile,PCD Tile)中,主要的计算单元、媒体引擎则聚集在计算模块(Compute Tile)中。
值得注意的是,Panther Lake中采用英特尔18A制程工艺主要是指计算模块(Compute Tile),GPU模块(GPU Tile)和平台控制模块(PCD Tile)则根据不同的版本使用不同的工艺制程,比如4核Xe3来自于Intel 3制程工艺,12核Xe3则来自于台积电。
三款型号的整体对比图如下。英特尔在正式推出酷睿Ultra 300系列产品的时候,会根据产品定位对这三个型号进行一定核心删减,从而细分出不同定位的产品。而文章中提到的IPU 7.5,NPU 5,Xe3核显以及连接性等细节,文章的后半部分都会提供详细的解释。
所有核心和电源管理通过升级后的Intel Thread Director线程调度器完成,在调度逻辑上,按照LP E-Core,E-Core,再到P-Core进行分配。升级后的线程调度器扩展了实际繁忙的应用范围,支持跨核心类型的并发执行反馈,因此也可以更好的避免效能核心抢性能核心工作的尴尬。
即插即用(PnP)决策从软件层迁移到了SoC硬件层,以实现更精确的功耗控制,保证在AC/DC电源连接模式、效能/续航模式、Windows/Chrome/Linux跨平台系统下电源控制的一致性。
另外,Panther Lake也宣布正式支持LPCAMM2内存模组,在英特尔DEMO区笔者看到了来自美光英睿达LPCAMM2 8533 MT/s产品展示。
无论对比酷睿Ultra 200系列的Lunar Lake还是Arrow Lake,Panther Lake的提升都是惊人的。
在CPU方面,Panther Lake相比Lunar Lake单线程性能提升高于10%,相同功耗下,Panther Lake相比Lunar Lake、Arrow Lake在多线程性能表现上50%的提升。其中Panther Lake相比Arrow Lake,在相同的多线程性能下,功耗还可以降低30%。
GPU部分提升则更为明显,12核Xe3可以直观的带来50%的性能提升。
NPU 5部分则是AI TOPS/面积利用率提升了40%,换而言之,NPU 5虽然仅从Lunar Lake NPU 4的48 TOPS提升到了现在的50 TOPS,但占用面积小将近一半。
从整体来看,Panther Lake相对Lunar Lake降低了10%的功耗,相对Arrow Lake降低了40%的功耗。另外由于IPU 7.5的性能加强,Panther Lake相对Lunar Lake在相同的硬件HDR场景下,功耗可以降低1.5W。
基本上来说,Panther Lake通过更细的模块化架构、18A制程工艺、组件升级实现了灵活扩展、性能提升、效能提升的核心目标,因此也不限于CPU、GPU、NPU的加量,还在于线程调度器、电源管理、跨场景应用体验一致性的提升。在概览结束后,接下来让我们进入正题。
Darkmont E-Core:多线程与节能的主角
现在我们知道,Panther Lake的计算模块(Compute Tile)带来了两个全新的IP,分别是Cougar Cove P-Core和Darkmont E-Core,两款核心都针对18A制程工艺进行优化,无论P-Core还是E-Core都提升了IPC性能,并且在较低的功耗下拥有更好的表现,确保笔记本在离电状态下拥有相同的性能,以及拥有更长的续航。
Panther Lake多线程提升的优势在于使用了最多12个Darkmont作为E-Core提供多线程支持,进而让Panther Lake多线程能力和节能上有显著提升。
值得注意,Darkmont不仅用在E-Core中,也用在LP E-Core中,同时也是至强6+(Xeon 6+)处理器Clearwater Forest的计算核心,帮助至强6+一举拿下288核壮举,后续我们会有专门的文章进行详细说明。
与Meteor Lake和Lunar Lake的E-Core相似,每4个E-Core为1个计算集群,无论哪个型号,E-Core和LP E-Core数量都将是4的倍数。每1个计算集群E-Core会共享4MB L2缓存。
E-Core和LP E-Core虽然在架构上相同,但是缓存的访问策略是不一样的。LP E-Core不直接与L3缓存(即LLC末级缓存)直接连接,而是通过一致性代理(Coherency Agent,CA)实现跨集群的数据同步与仲裁。
E-Core则是由L3缓存(即LLC末级缓存)上的一致性代理(Coherency Agent,CA)进行统一调度。
这里有一个小彩蛋。Lunar Lake的E-Core实际上也是不与LLC末级缓存环(L3缓存环)连接,如果按照Panther Lake的定义,Lunar Lake的E-Core应该属于LP E-Core,这样也正好与Panther Lake的8 Core版本类似。实际上由于一致性代理(Coherency Agent,CA)的存在,两者在沟通的逻辑层不存在任何阻碍,主要还是根据能耗策略对核心进行命名,方便了解。而事实上,在最新的Roadmap中,英特尔也是这么定义的。
现在我们把关注点放到核心微架构上。这次E-Core架构代号为Darkmont,不仅应用在Panther Lake上,至强6+处理器同样使用Darkmont E-Core作为核心,进而构建出288核的强力产品。
Darkmont可以看成上一代酷睿Ultra 200系列中E-Core的Skymont的进阶,例如在执行引擎(Execution Engine)中增加多项式乘法单元(CLMUL)硬件单元,同时乱序引擎的退役(Retirement)也提升至16宽,比Crestmont的8宽和Skymont的12宽都要高。
这里英特尔使用的是上一代至强E-Core Crestmont与Darkmont进行对比,主要围绕前端、乱序引擎、执行引擎、内存子系统、性能与能效提升的维度展开。
先是前端(Front-End)设计提升了指令处理效率。Darkmont拥有64KB指令缓存,结合增强型分支预测期,能够减少指令获取延迟。指令带宽支持3x 32bit并行,对比Crestmont提升50%,并采用3个3宽乱序解码器(3-wide out-of-order decoders),解码能力对比Crestmont从6宽提升至9宽,以此获得更好的指令解码并行度。
Darkmont与Skymont一样,微操作队列(μOP)容量从Crestmont的64项扩展至96项,减少指令在队列中的阻塞。
乱序引擎(Out-of-Order Engine)用于增强并行处理能力。Darkmont支持8宽分配(Allocation/Rename),相比Crestmont的6宽分配有所提升。由于处理器流水线中,指令的执行是一个多阶段的过程,当一条指令完成了其所需的所有操作后,它就会从乱序引擎中退役(Retirement),以便为下一条指令腾出空间。这里英特尔将Crestmont的8宽退役(Retirement)增加到16宽,也相对于Skymont的12宽退役有所提升。
另外Darkmont乱序执行窗口容量达到416项目,远超Crestmont的256项,能更充分地发现程序中的数据并行性,减少指令依赖导致的等待。调度端口从Crestmont的17个增加至26个,可同时调度更多操作至执行单元。
接下来是执行引擎(Execution Engine)针对计算与向量处理进行优化,在执行引擎中分为标量引擎(Scalar engine)和向量引擎(Vector engine)。标量引擎包括8个整数ALU(Scalar ALU)、3个跳转端口(JMP),向量引擎包括4个128b向量FMA(浮点乘加)单元、4个向量/浮点ALU、2个向量/浮点存储数据端口,地址生成包括4个AGU(地址生成单元)、2个整数存储数据端口。
值得注意的是,多项式乘法(Carry-Less Multiplication, CLMUL)是此次在执行引擎中新增的单元,Skymont中是没有的。
接下来是核心内存子系统(Core Memory Subsystem),主要聚焦低延迟、高带宽与高容错。包括32KB支持ECC的L1数据缓存,4MB L2共享缓存。L2缓存带宽从Crestmont的64B/cycle提升至128B/cycle,数据吞吐量翻倍,相对于Skymont持平。
在内存访问优化方面,提供3路加载(Load)、2路存储(Store),配备深度加载/存储缓冲,支持128个未完成的L2缺失(Outstanding L2 Misses),减少内存等待导致的性能损耗。现在全缓存层级集成高级预取器,能识别多种数据流模式,提前加载数据。在容错方面,支持数据污染防护(Data Poisoning)、可恢复机器检查(Recoverable Machine Check)、核心锁步(Core Lockstep),并兼容52位物理地址。
这里放出Crestmont与Darkmont的对比:
从能效表现上,Darkmont相对Crestmont有着明显优势,得益于前端带宽、乱序窗口和执行端口扩容,IPC(每时钟周期指令数)显著提升。同时Darkmont也帮助英特尔至强6+性能相比至强6780E提升1.9倍性能,全负载范围内能效提升23%,服务器整合比达到8:1,这对欧美供电不平均地区而言很有吸引力。可以这么说,Darkmont无论在至强还是Panther Lake上,都发挥了很重要的作用。
Cougar Cove P-Core:18A的高光时刻
Panther Lake的18A制程工艺可以总结为4个关键技术点,即:
库与阵列启用(Library and array enabling):确保核心IP在18A工艺下稳定运行
密度优化(Density):提升芯片单位面积的晶体管密度
供电设计(Power delivery):适配先进工艺的低功耗供电需求
信号完整性(Signal integrity):减少高频信号干扰,保障核心稳定运行
在18A的条件下,Cougar Cove P-Core主打单线程性能与高吞吐,并且在架构上有所优化。包括配备18个执行端口(Execution ports),深度指令窗口(Deep Instruction Window)为576条,支持8宽解码(Decode)、8宽分配(Allocation/Rename)。同时TLB(Translation Lookaside Buffer)容量提升1.5倍,内存消歧(Memory disambiguation)减少内存访问冲突,也使得流水线更为稳定灵活。
Cougar Cove在架构上继承自Lion Cove,因此多层缓存设计中包含了1个具备4周期延迟的48KB L0D缓存,1个9周期延迟的192KB L1D缓存,以及1个17周期的3MB L2缓存。这意味着在9个时钟周期内,可以获得L0D+L1D的240KB缓存。同时数据转换后备缓冲区(DTLB)为128项,以提升命中率。
Cougar Cove还会通过3个地址生成单元(Address Generation Unit,AGU)以进一步提升存储性能。负载单元和存储单元管道数量均达到3个,在英特尔早年的架构设计中,负载单元通常多于存储单元。可以看到,CPU中投入更多缓存设计,以应对CPU系统愈发复杂的问题已经变成未来趋势。
此外,Cougar Cove还具备AI电源管理,AI能够以自适应方式动态响应实际的实时操作条件,以实现更高的持续性能。以往的固定档位调节只能以100MHz进行调整,现在更细的时钟粒度可以做到16.67MHz为一个间隔,从而获得更好的功耗管理。
此外,Cougar Cove还包括6个整数ALU单元(Arithmetic Logic Unit),3个跳转单元(Jump Units),3个移位单元(Shift Units),3个64乘法单元。Cougar Cove与Lion Cove一样,注重构建大规模分区(Partition)以减少物理边界,一次提升硅片面积利用率,降低设计成本和复杂度。
另外分支预测(BPU)也是Cougar Cove的关键模块,主要集中提升效率,提升容量减少BPU延迟,同时结合I-TLB和I-CACHE协同工作,确保分支预测后指令快速获取,提升整体执行效率。
缓存和线程调度
在进入GPU模块章节之前,这里有必要额外开个小章节来说明缓存系统和线程调度。主要围绕内存侧缓存(Memory-Side Cache)和新版的线程调度器(Intel Thread Director)展开。
内存侧缓存(Memory-Side Cache)是Panther Lake处理器中用于优化内存访问效率的关键组件,核心作用是帮助处理器改善延迟、提升带宽、降低功耗。无论任何版本的Panther Lake,都增加了单独的8MB内存侧缓存(Memory-Side Cache)。
内存侧缓存可做作为DRAM内存与计算模块、I/O模块之间的中间缓存,可将高频访问的数据暂存于本地,以减少核心直接访问DRAM内存的次数,从而显著降低数据读取延迟,同时提升单位时间内的数据传输带宽,保障多任务、高负载下的性能稳定。
同时内存侧缓存还可以答复减少计算模块与DRAM内存的数据交互量,降低DRAM Traffic。由于DRAM功耗与数据交互频率直接相关,内存侧缓存的出现能够进一步帮助Panther Lake降低功耗,提升每瓦性能。
除此之外,内存侧缓存还可以给I/O、GPU、IPU和媒体引擎体统缓存支持,优化不同组件之间内存交互效率,避免诸如视频编解码、图形渲染时密集I/O任务导致的内存访问瓶颈。
内存侧缓存是多模块组合之下必然且创新型的产物,能够很好的提升全平台协同性能。
这时候 Panther Lake的缓存一致性与系统协同也成为内存侧缓存和共享缓存都需要解决的问题。针对这一情况,Panther Lake在缓存系统中设置了一致性代理(Coherency Agent,CA)和归属代理(Home Agent,HA)作为协同。
其中一致性代理(Coherency Agent,CA)存在于L3共享缓存和LP E-Core的L2共享缓存中,主要作用是实现集群内及跨集群的数据同步与仲裁,并且作为末级缓存(LLC),即L3共享缓存、P-Core、E-Core与第二代可扩展架构(Scalable Fabric Gen 2)的接口。主要用于监测集群内核心对缓存数据的访问请求(如读、写、修改),避免多个核心同时操作同一数据导致的不一致问题。
不同集群之间的一致性代理(Coherency Agent,CA)还通过第二代可扩展架构(Scalable Fabric Gen 2)实现跨集群的缓存数据同步,确保全处理器范围内的数据准确性。并从而简化核心、缓存、GPU模块、平台控制模块(PCD Tile)之间数据交互流程,减少延迟,进而提升数据访问效率。
内存测缓存(Memory-Side Cache)则采用的是归属代理(Home Agent,HA),需要承担内存访问管理与系统级一致性保障,协调全处理器的DRAM内存操作。包括对所有DRAM访问请求的排序,确保内存操作按逻辑顺序执行,避免因并发访问导致的内存数据混乱。管理内存地址映射,定位数据在内存或缓存中的存储位置,优化数据读取路径。
归属代理(Home Agent,HA)还会与一致性代理(Coherency Agent,CA)协同工作,当缓存中无目标数据时,归属代理(Home Agent,HA)负责发起内存访问请求,并将获取的数据分发至对应的核心或缓存,同时更新系统一致性状态,保障数据在缓存与内存间的同步。
从整体上来看。一致性代理(Coherency Agent,CA)注重集群内部、跨集群之间的缓存数据一致性维护,归属代理(Home Agent,HA)注重DRAM全系统访问排序与管理,从而实现多核心、多模块架构下的高效协同能力。
在Darkmont E-Core章节中,我们解释了Lunar Lake E-Core不接入L3缓存环,在物理上更像Panther Lake的LP E-Core。因此在Panther Lake配置中,每个P-Core拥有3MB L2缓存,每4个E-Core共享L2缓存,LP E-Core的L2缓存对比Meteor Lake和Arrow Lake在容量上是翻倍的。
线程调度器(Intel Thread Director)一直是处理器中调度不同核心工作的重要模块,特别是从Meteor Lake混合核心开始,调度功能变得愈发重要。
在调度理念上,Panther Lake线程调度器(Intel Thread Director)遵循LP E-Core、E-Core、P-Core的顺序,并进行了关键性增强。比如针对P-Core和E-Core优化分类模型,扩展繁忙的场景应用。
同时PC软件和游戏已经呈现出集中化的趋势,大部分软件和游戏已经能够被轻松识别,因此线程调度器(Intel Thread Director)能够更好的对正在运行的应用进行识别,增强跨场景线程表现,自动适配办公软件、游戏、渲染等应用的不同负载。另外线程调度器也会协同软件系统OS实现效能、混合、无分区多种模式调度,针对性的匹配Team、Cinebench、DirectX 12游戏线程调度优化。
伴随着线程调度器(Intel Thread Director)升级,Panther Lake也打通了IP到OS垂直整合的链路,从Cougar Cove和Darkmont IP的架构优化,到线程调度,再到软件层的电源管理策略,都可以更好实现。
例如OEM自定模式中可以提供更精密的性能、功耗调整,动态的提供电源分配,提供能效比。在现场,英特尔展示了Panther Lake在CINEBENCH 2024单线程场景和UL Procyon Office中,基准性能提升19%。
另外,用户也可以通过Intel Intelligent Experience Optimizer自动优化Windows电源管理模式,自动获得续航与性能上的动态调节。原本笔记本模式调整可能只有2-3档模式调整,比如省电-平衡-性能,现在通过Intel Intelligent Experience Optimizer,笔记本自己就可以拥有数百档的动态自能调节,这个过程无需用户手动。
Xe3 GPU与XeSS-MFG多帧生成
即便是获得了NVIDIA的投资,英特尔Xe3 GPU从目前来看仍有着自己的野心。如果不出意外,正式发布的时候,搭配12核Xe3 GPU的产品很可能会是市面上的最强核显,游戏掌机和轻薄笔记本处理能力再向上提升一个层级,这也是笔者最为期待的。
在现场,英特尔还大方展示了更强悍的Xe3P GPU的存在,至于用在什么地方,英特尔表示以后再告诉我们,但可以确定的是,Battlemage独显已经箭在弦上。
Xe3 GPU会根据不同配置给与4核到12核的配置,制程工艺包括Intel 3和台积电N3E,这也从侧面展示了Panther Lake极强的扩展能力。
Xe3作为英特尔新一代图形加速核心,展现了极强的纸面性能,相对上一代Lunar Lake GPU可以获得50%的图形性能提升,50%的AI TOPS提升,相较于Arrow Lake H GPU有40%的能效比提升。
在底层架构上,Xe3依然沿用了渲染切片(Render Slice)设计,包括4Xe和12Xe两种变体。每一个Xe3 Core内都包含8个512-bit向量引擎(XVE),8个2048-bit矩阵加速引擎(XMX)。每个Xe3内海拥有1个光线追踪单元(RTU),以及用于光线追踪的BVH缓存,支持动态光线管理与异步光线追踪。
在缓存系统上,Xe3拥有16MB L2缓存,12个采样器(samplers)和12个像素后端(pixel backends)。
每个Xe3 Core还会匹配1个XMX引擎,单个XMX引擎现在可以在每个时钟周期内处理1024次TF32运算、2048次FP16/BF16运算、4096次INT8运算、8192次INT4/INT2运算,相比Xe2提升33%。整体GPU AI算力达120TOPS,进而让XeSS2和XeSS-MFG多帧生成提供AI砝码,同时也能更好的满足AI创作的任务。
在功能上,Xe3与微软合作,支持DirectX Cooperative Vectors,将矩阵乘法加速引入着色器,提供2倍各向异性过滤速率、2倍模板测试速率,同时命令前端(Command Front End)提升25%现成,支持可变寄存器分配与FP8反量化。
Xe3架构相比Xe2有明显优势,例如在无SIMD32溢出+可变寄存器的场景中,性能可以达到Xe2的7.4倍,计算着色器可达2.7倍,计算与像素着色器、异步计算调用场景中,Xe3性能也普遍在Xe2的1.5倍到3.1倍之间。
Panther Lake在单帧延迟上也有明显提升。同样场景下,12核Xe3单帧延迟可以从45.44ms降低至22.84ms。
AI的增强让XeSS也进阶到超分辨率(XeSS-SR)搭配XeSS-MFG多帧生成(Multi-Frame Generation)的形式。在逻辑上与DLSS-MFG多帧生成类似,无需借助硬件光流加速器,通过深度、运动向量(Motion Vectors),让1帧原始画面获得最高4帧的画面输出,配合超分XeSS-SR,效果可以获得成倍的提升。
在现场,英特尔通过DEMO演示了第一人称射击游戏,虽然看不到实际帧率,实际效果已经与独显旗鼓相当了。
AI增强游戏画质并非没有缺点。为了避免生成画面导致的画质劣化,英特尔会通过Presentmon增强工具监控原生画面与生成画面的动画误差,确保流畅度稳定性。同时生成帧会结合光流投影、运动向量、深度差值等多个维度,确保生成画面与原生画面风格转一致,进而减少伪影和卡顿。另外与NVIDIA DLSS 4一样,在游戏中也会提供2X到4X帧生成,允许用户自行调节。
降低系统延迟和加载时间也是Panther Lake的关注点。英特尔提出了云端预编译着色器概念。即在云端收集游戏着色器后,通过预编译优化和图形分发服务推送到终端,在游戏安装的同时就会直接加载优化后的着色器,以降低首次启动游戏的等待时间。
另外Panther Lake还引入了Intelligent Bias Control v2防止游戏帧率骤降,通过固件启发式算法(Firmware Heuristics),提供 GPU 时钟频率提示(Hinting)与平衡(Balancing),优先保障GPU游戏性能,自动为Xe Core配置更多功耗预算,避免因功耗不足导致的性能瓶颈。
在英特尔的展示中,12核Xe3在17W TDP、1080p中等画质下,表现远超Xe2的Intel Arc 140V GPU,包括《黑神话:悟空》《战神:诸神黄昏》《赛博朋克 2077》平均FPS提升10%,99% Low FPS提升25%,卡顿大幅减少。
需要注意的是,Xe媒体引擎独立于GPU模块,内置在计算模块中,提供了AVC、H.265(HEVC)、VP9、XAVC-H/S/HS支持,新增10-bit AVC编解码,这也使得Panther Lake更为专业。
NPU 5:原生支持FP8
Panther Lake中的NPU 5相比Lunar Lake NPU 4进行了大幅更新,首次原生支持FP8,在面积更小的情况下获得更高的性能。同时NPU 5也很克制的将AI算力控制在了50 TOPS,如果按照NPU 4的面积,NPU 5是有机会做到性能成倍提升的。
NPU 5同样使用了模块化设计,包含3个神经计算引擎(NCE),多个数字信号处理器(SHAVE DSP)。其中每个神经计算引擎(NCE)包含MAC阵列(矩阵乘法与卷积阵列),支持INT8、FP8和FP16,单周期可处理4096次INT8/FP8运算、2048次FP16运算。
NPU 5内还包含4.5MB Scratchpad RAM作为临时存储,256KB L2缓存,是NPU 4的两倍。
由于NPU 5原生支持FP8,使得在处理BF8/E4M3、HF8/E5M2等FP8数据类型时,内存占用可以减少50%,吞吐量提升2倍,在Stable Diffusion任务中,能耗上会有更好的表现。同时NPU 5还支持ReLU、PReLU、GELU、Tanh等非线性激活函数,重构数据转换流水线,原生支持
FP32/FP16/BF16/FP8/INT8/INT4精度转换。
NPU 5带来的50 TOPS算力主要用于AI PC场景中本地LLM推理、AI助手、实时图像增强等工作。CPU的10 TOPS则用来完成VNNI和AVX轻量AI任务,GPU的120 TOPS则是用来支持游戏和内容创作AI重载任务。
在XPU的统一调度下,Panther Lake总计可以做到180 TOPS的AI算力,相对于Lunar Lake提升50%。
在DEMO现场,英特尔展示了诸多基于Panther Lake平台实现的AI应用,以证明产品对现有AI应用已经提供了很好的兼容性。
IPU 7.5:AI之外的图像增强
不是所有的场景处理都需要AI硬件进行增强的,例如摄像头和屏幕HDR增强,实际上都可以通过IPU完成。Panther Lake IPU 7.5作为最新版本的IPU,主要围绕视频会议、智能边缘视觉场景展开,这也是Panther Lake可以应用于边缘计算的关键核心之一,在工控领域,自动驾驶系统、医疗患者监测、安全防护监测、工业质量控制,都可以依赖于IPU 7.5来完成。
这也是英特尔在整合部门之后,Panther Lake还将承担起PC领域之外的业务扩展工作。
IPU 7.5作为图像信号处理器(ISP)的核心,被用于解决场景、光学元件和传感器带来的成像问题,处理流程涉及场景、光学元件、传感器,并最终输出包运动、光照、色彩、深度等图像信息。具有处理速度快,节能,专职专用的特点。自从英特尔在2014年推出IPU 2开始,十年期间IPU升级没有间断过。
Panther Lake IPU 7.5最高支持3个摄像头并发,核心处理模块包含传感器与光学引擎(镜头与色彩补偿、高画质去马赛克等)、噪声与纹理引擎(空间降噪、AI 降噪等)、色彩处理引擎(自适应色彩还原、裁剪缩放等),还具备相机 3A 统计(自动曝光、自动白平衡、自动对焦)与防抖功能。
得益于8MB内存侧缓存中归属代理(Home Agent,HA)可以对所有模块的换从调动,IPU 7.5还可以与CPU、GPU、NPU产生联动,进而实现AI增强图像处理,突破本地SRAM对时间域处理(Temporal Processing)的限制。
IPU 7.5可实现最高500万像素摄像头在弱光环境下的图像清晰度,提升帧率与锐度,优化色调映射。另外还可以获得AI色调映射可增强对比度,避免光晕、色彩失真,保证时间域行为稳定。
在播放4K HDR视频时,IPU 7.5通过协同多个传感器,通过双曝光与自适应曝光控制,保留高光与阴影细节,同等画质下,帮助笔记本节省1.5W功率。
另外IPU 7.5还支持最高1600万像素静态图像,实现零快门延迟。可拍摄1080P 120帧慢动作视频。
Wi-Fi 7 R2与蓝牙Core 6.0
最后是无线性能。Panther Lake提供了Intel Wi-Fi 7 BE211 CRF模块,对应Intel Killer 1775,支持Wi-Fi 7 R2标准,CNVio 3接口支持11Gbps速率,相比CNVio 2的5Gbps提升了120%。另外蓝牙模块支持蓝牙Core 6.0和LE Audio。
Wi-Fi 7 R2主要集中在效率与稳定性上,增强动态管理活跃链路的资源分配、IoT设备优先级分配,单射频客户端实现MLO,避免P2P流量干扰设备。为特定设备分配固定时间片,实现可预测的延迟与可靠性,适配AI推理、实时协作等场景。
蓝牙Core 6.0则注重音频体验和功能升级,包括LE Audio低功耗音频,Auracast广播,提升助听器兼容性,支持多组音频流同步,实现不同设备之间无缝切换等等。
写在最后:新希望
无论性能还是能耗,英特尔Panther Lake给人的第一印象都非常深刻。按照计划,Panther Lake的实际搭载产品将会在CES2026正式展出,英特尔还有几个月的时间调试18A性能,以确保最终表现。
如果一切顺利,Panther Lake综合性能无疑会有大幅度提升,轻薄本在成本可控的前提下向长续航和高性能进发,高性能本的多线程和游戏性表现也会更为突出。英特尔18A制程工艺已经给我们留足悬念,接下来只需要给点耐心,把舞台交给下一代酷睿Ultra。
更新时间:2025-10-10
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号