文|馒头
编辑|江娱迟
最近ARM搞了波大动作本周官宣了最新移动处理器IPC1、移动GPUIPG1,还有号称“为AI而生”的Lumex计算子系统(CSS)。
这架势看上去是想给AI领域大洗牌,但ARM能掌握这么大的市场吗?
咱们顺着这波操作捋一捋,看看这些新东西到底啥样,也聊聊其中的门道。
先看C1处理器家族,划分得很清晰:中杯C1-nano对应旧款A5xx,大杯C1-pro对应A7xx,超大杯C1-premium和“超大桶”C1-ultra则接替X9xx。
ARM还特意强调“不生产小杯”,定位很明确。
不过大家都懂,厂商PPT数据常像CLTC续航,实际难跑满,但翻旧资料对比仍有意义。
今年超大核提升幅度和往年差不多,中核能效在PPT上进步更显著,不少人盲猜发哥9500的低功耗能效可能有惊喜。
C1的关键数据得记牢:C1-ultra对比X925单核性能+25%,C1-premium比C1-ultra面积减少35%,C1-pro游戏能效+16%(大概率对比A725),C1-nano功耗-26%(可能对比A520)。
还有个细节,所有LumexCSS的IP已在3nm完成验证,但ARM没说参与的代工厂是谁,留了个悬念。
再看同属Lumex家族的MaliG1GPU,今年ARM接着吹光追(RTcores)。
G1更新了光追单元RTUv2,性能直接翻倍,最贴心的是闲置时光追单元不耗电,对手机续航很友好。
演示环节有个震撼数据:光追组件占总渲染管线的比例,从2023年15%涨到2025年50%,但参考对象是3DMarkSolarBay,和实际游戏场景未必一致,光追普及还得打问号。
演示里还打破个刻板印象:《原神》2021-2023年GPU需求涨28.5%,《绝区零》比2023年《原神》再涨10%,看来它不仅吃CPU,对显卡要求也不低。
不过MaliG1ultra的细节没多讲,只给了对标G925的PPT:性能+20%、AI推理+20%、每帧能耗-9%、光追×2。
G1家族划分也有意思:6核以下是G1-pro,6-9核是G1-premium,10核以上是ultra,核心多吹性能,核心少吹能效,ARM想两头赢。
顺便提下,LumexCSS参考平台用的是12CU的MaliC1-ultra,大概率是发哥9500要官宣的GPU。
但去年玄戒G925堆了16CU,对应的C116CU该叫啥,成了个小疑问。
聊完硬件,就得说Lumex的核心“SME2”。这是集成在CPU里的矩阵计算加速模块,也是本次大会重点。
要知道大部分AI计算都是矩阵运算,比如Transformer模型的核心算子,就是超大型稀疏矩阵乘法,而矩阵运算并行度高,GPU本就擅长,可ARM为啥偏要给CPU加这模块?
答案藏在矩阵乘法的“臭毛病”里:计算效率和可扩展性没法兼顾。
GPU算得快,但运算单元是焊死的,若矩阵尺寸超了、不支持稀疏矩阵,效率就骤降;CPU虽慢,却能逐指令编程,兼容性好,一次开发多端部署。
ARM懂这道理,也清楚自己在AI生态的位置(和树莓派“一桌吃饭”),所以往CPU塞加速指令集,想靠兼容性拉开发者。
不过ARM设备多怕功耗,开发者移植AI模型,先不说赚钱,CPU效率能不能跑起来都是问题。
这次SME2做了优化:加了更多指令集,支持FP8低精度路径,能高效处理压缩数据。
而且SME2在CPU里运行,继承了CPU的优点,延迟低(大语言模型里叫“首字延迟”)、多设备兼容。
ARM也放了跑分:FPGA上的Lumex跑GB对象识别,用SME比不用能耗-28%、性能+12%,但这大概率是实验室最优结果。
其他数据还有:SME2给谷歌安全模型提速20%,C1-ultra用SME2跑AI性能+5倍、效率+3倍,可对比对象是同有SME2的C1-pro,属于“大核欺小核”,数字唬人而已。
ARM没提的SME2缺点更关键:为它定制的框架(尤其是FP8、FP4短数据类型),老CPU根本没法加速。
每种指令集只支持特定数据类型,若数据落在SME2独有范围,其他ARMCPU就“不兼容、跑不了”,像英伟达20系显卡强开DLSS4效果差一样。
还有张PPT显示,有SME2的CPU跑FP16提升5倍,跑FP8却只提3倍,越适合移动设备的量化数据,CPU加速效果越差,ARM想让移动设备靠CPU随意跑AI,大概率没戏。
但也不用慌,多数消费者只知道“新设备AI性能是老的2-5倍”,这种共识或许能让开发者先做兼容。
而ARM的下一步棋已备好:今年8月发布的Arm神经技术(ArmNSS),2026年将引入GPU,号称能降50%运行消耗。
这是少见的提前一年放重大特性,ARM还备了开发文档、UE5/Vulkan模拟,甚至给游戏工作室提供基座模型,说提前发布是为了让开发者创新,也像是在提前铺路。
前几天会议还说,未来GPU上的NSS单元会负责“拼帧计算”,我不全信但也不否认可能。
这让人想起英伟达TensorCore:最初负责DLSS,后来转向Transformer,游戏反而成了次要。
说不定明年ARM就会改口“为啥要把AI跑在移动CPU上”,只要NSS能兼容现在的SME2、SME、SVE,或能一键编译,开发者之前踩的坑才算没白踩。
ARM这串操作,是在移动AI生态下大棋:用CPU兼容性拉开发者,用GPU加速器补效率,靠PPT数据吸引消费者,同时为未来迭代铺路。
虽有不少疑问,但不可否认,作为移动芯片IP巨头,它的每一步都影响着我们的手机、平板。对普通用户来说,能看到芯片性能和AI体验进步,终归是好事。
你是更期待发哥9500的表现,还是对NSS明年落地更感兴趣?也可以说说对SME2这种CPUAI加速方案的看法,咱们接着聊。
[免责声明]文章描述过程、图片都来源于网络,此文章旨在倡导社会正能量,无低俗等不良引导。如涉及版权或者人物侵权问题,请及时联系我们,我们将第一时间删除内容!如有事件存疑部分,联系后即刻删除或作出更改
更新时间:2025-09-16
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号