5 月 10 日消息,科技媒体 notebookcheck 5 月 9 日发布博文,报道称英伟达首款 ARM 架构的「超级芯片」GB10 Grace Blackwell 现身 GeekBench 跑分库,性能数据虽有波动,但单核性能已能与高端 ARM 和 x86 处理器一较高下。
这款由黄仁勋亲自站台、联发科深度参与研发的芯片,凭借3.9GHz主频的Cortex-X925核心与突破性的异构计算架构,在Geekbench测试中斩获单核2960分、多核10682分的成绩,标志着ARM阵营首次在高性能计算领域对x86架构发起实质性冲击。
GB10超级芯片采用台积电3nm工艺,集成20个ARMv9.2架构核心,其中10个Cortex-X925超大核主频达3.9GHz,创下ARM处理器商用频率新纪录。
这一设计突破源于Arm最新终端计算子系统(CSS)的赋能:Cortex-X925单线程性能较前代提升36%,AI推理性能暴涨59%,配合Blackwell GPU的第五代Tensor Core,形成每秒1000万亿次FP4精度AI运算的恐怖算力。
更值得关注的是NVLink-C2C互连技术,其带宽是PCIe 5.0的五倍,成功构建CPU+GPU统一内存模型。在华硕Ascent GX10的实测中,128GB LPDDR5X内存与4TB NVMe SSD组成的全局内存系统,使得2000亿参数大模型推理延迟降低40%,彻底打破传统GPU的内存墙限制。
这种架构创新在处理Llama 3.1等万亿参数模型时优势显著,双机互联方案可支撑4050亿参数模型的实时交互。
在Geekbench测试中,GB10多核跑分破万的表现已超越AMD锐龙9 7950X,单核性能与苹果M3 Max持平。但真正的革命性突破体现在AI工作负载:1000 TOPS的AI算力密度是A100的3倍,能效比却提升2.2倍。在Stable Diffusion XL模型训练中,GB10的每瓦性能是H100的1.8倍,这得益于Blackwell架构的FP4量化优化与Grace CPU的近存计算设计。
Project DIGITS的实测数据更具说服力:在70B参数Llama-3微调任务中,GB10的迭代速度较A100集群提升52%,而功耗降低60%。这种能效优势在边缘计算场景更具战略价值——当行业还在争论数据中心该用GPU还是ASIC时,GB10已将超算级算力塞进16L机箱,功耗控制在450W以内。
GB10的发布不仅是芯片技术的突破,更是AI开发范式的重构。
英伟达同步推出的DGX Spark平台,通过CUDA-X AI库与Arm Kleidi软件的深度整合,实现从桌面到云端的无缝衔接。开发者在Ascent GX10上训练的模型,可零成本迁移至DGX Cloud或Omniverse平台,这种软硬协同的生态壁垒,远比硬件参数更具杀伤力。
市场反应印证了这种战略成功,Project DIGITS预售首日即获超2万订单,华硕GX10的预订量突破5万台。更深远的影响在于,GB10证明ARM架构完全可承载万亿参数模型训练,这或将颠覆数据中心CPU市场格局。当亚马逊Graviton3还在冲击服务器市场时,英伟达已用GB10叩开AI超算的大门。
在台积电3nm产能紧缺的当下,GB10选择用架构创新替代制程竞赛。其20核设计包含10个Cortex-A725能效核,在视频编码等轻负载场景功耗低至8W,这种异构调度策略为ARM服务器芯片指明方向。联发科参与设计的痕迹,在基带集成与5G支持上尤为明显——GB10内置的ConnectX-7网卡支持Wi-Fi 7与蓝牙5.3,预示着AI超算与通信基带的融合趋势。
从CES 2025到COMPUTEX 2025,GB10的轨迹勾勒出英伟达的战略转型,当CUDA生态遭遇RISC-V挑战,用ARM架构反制x86不失为妙招;当数据中心算力增长趋缓,将超算能力下沉至桌面端或成新增长极。这场由GB10引发的算力革命,或许刚刚拉开序幕。
更新时间:2025-05-12
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号