新一轮算力革命来袭!英伟达首款ARM超级芯片GB10曝光

5 月 10 日消息,科技媒体 notebookcheck 5 月 9 日发布博文,报道称英伟达首款 ARM 架构的「超级芯片」GB10 Grace Blackwell 现身 GeekBench 跑分库,性能数据虽有波动,但单核性能已能与高端 ARM 和 x86 处理器一较高下。

这款由黄仁勋亲自站台、联发科深度参与研发的芯片,凭借3.9GHz主频的Cortex-X925核心与突破性的异构计算架构,在Geekbench测试中斩获单核2960分、多核10682分的成绩,标志着ARM阵营首次在高性能计算领域对x86架构发起实质性冲击。

ARM核心突破与异构计算融合

GB10超级芯片采用台积电3nm工艺,集成20个ARMv9.2架构核心,其中10个Cortex-X925超大核主频达3.9GHz,创下ARM处理器商用频率新纪录。

这一设计突破源于Arm最新终端计算子系统(CSS)的赋能:Cortex-X925单线程性能较前代提升36%,AI推理性能暴涨59%,配合Blackwell GPU的第五代Tensor Core,形成每秒1000万亿次FP4精度AI运算的恐怖算力。

更值得关注的是NVLink-C2C互连技术,其带宽是PCIe 5.0的五倍,成功构建CPU+GPU统一内存模型。在华硕Ascent GX10的实测中,128GB LPDDR5X内存与4TB NVMe SSD组成的全局内存系统,使得2000亿参数大模型推理延迟降低40%,彻底打破传统GPU的内存墙限制。

这种架构创新在处理Llama 3.1等万亿参数模型时优势显著,双机互联方案可支撑4050亿参数模型的实时交互。

在Geekbench测试中,GB10多核跑分破万的表现已超越AMD锐龙9 7950X,单核性能与苹果M3 Max持平。但真正的革命性突破体现在AI工作负载:1000 TOPS的AI算力密度是A100的3倍,能效比却提升2.2倍。在Stable Diffusion XL模型训练中,GB10的每瓦性能是H100的1.8倍,这得益于Blackwell架构的FP4量化优化与Grace CPU的近存计算设计。

Project DIGITS的实测数据更具说服力:在70B参数Llama-3微调任务中,GB10的迭代速度较A100集群提升52%,而功耗降低60%。这种能效优势在边缘计算场景更具战略价值——当行业还在争论数据中心该用GPU还是ASIC时,GB10已将超算级算力塞进16L机箱,功耗控制在450W以内。

从硬件定义到软件赋能

GB10的发布不仅是芯片技术的突破,更是AI开发范式的重构。

英伟达同步推出的DGX Spark平台,通过CUDA-X AI库与Arm Kleidi软件的深度整合,实现从桌面到云端的无缝衔接。开发者在Ascent GX10上训练的模型,可零成本迁移至DGX Cloud或Omniverse平台,这种软硬协同的生态壁垒,远比硬件参数更具杀伤力。

市场反应印证了这种战略成功,Project DIGITS预售首日即获超2万订单,华硕GX10的预订量突破5万台。更深远的影响在于,GB10证明ARM架构完全可承载万亿参数模型训练,这或将颠覆数据中心CPU市场格局。当亚马逊Graviton3还在冲击服务器市场时,英伟达已用GB10叩开AI超算的大门。

后摩尔时代的算力进化论

在台积电3nm产能紧缺的当下,GB10选择用架构创新替代制程竞赛。其20核设计包含10个Cortex-A725能效核,在视频编码等轻负载场景功耗低至8W,这种异构调度策略为ARM服务器芯片指明方向。联发科参与设计的痕迹,在基带集成与5G支持上尤为明显——GB10内置的ConnectX-7网卡支持Wi-Fi 7与蓝牙5.3,预示着AI超算与通信基带的融合趋势。

从CES 2025到COMPUTEX 2025,GB10的轨迹勾勒出英伟达的战略转型,当CUDA生态遭遇RISC-V挑战,用ARM架构反制x86不失为妙招;当数据中心算力增长趋缓,将超算能力下沉至桌面端或成新增长极。这场由GB10引发的算力革命,或许刚刚拉开序幕。

展开阅读全文

更新时间:2025-05-12

标签:科技   英伟   芯片   架构   模型   性能   参数   多核   功耗   内存   华硕

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top