AMD全局AI战略揭秘:硬撼英伟达,从更强GPU到开源革命

全球AI芯片市场的硝烟从未如此浓烈,AMD今日举行的Advancing AI大会,将成为挑战英伟达地位的关键转折点。在现场第一时间发出本文,解析本次大会的核心发布与战略布局。 太平洋时间2025年6月12日上午9:30,AMD董事会主席及首席执行官苏姿丰(Lisa Su)博士登上圣何塞会议中心的舞台,宣布了业界瞩目的下一代Instinct MI350系列GPU,并剧透了预计明年推出的MI400,以及构建开放AI 生态系统的进展。此外,她强调了全新的、开放的机架级设计及路线图,甚至将领先的机架级AI性能规划已经延伸至2027年以后。

除了硬件上的不断迭代,AMD真正的挑战还在于ROCm软件生态系统的建设,其持续突破也是业界的关注重点,最新版本ROCm 7已经面向生成式AI和高性能计算工作负载日益增长的需求做足准备。 此外,包括Meta、甲骨文、微软等生态合作伙伴,都在会上展示了由AMD驱动的AI进展,特别是甲骨文首批采用了AMD Instinct MI355X GPU打造开放机架级AI基础设施。这既是AMD Instinct系列GPU的“里程碑时刻”,也证明了市场对于打造多元化的基础设施持有浓厚兴趣,得益于全新架构的计算集群设计,如今的AMD正在迎来一波新的AI高性能设备的市场风口。 在全球AI硬件市场突破4000亿美元规模的背景下,AMD这场大会承载着行业对多元化AI算力格局的深切期待。从Lisa Su博士所阐述的全面的端到端集成 AI 平台愿景,以及基于行业标准构建的、开放且可扩展的机架级AI基础设施来看,AMD正在通过一系列广泛的硬件、软件和解决方案组合,加速打造开放AI生态系统,硬撼英伟达在AI芯片领域的绝对地位。

Instinct MI350系列GPU:AI算力提升4倍,推理性能暴增35倍

AMD发布了Instinct MI350 系列 GPU,为生成式 AI 和高性能计算设定了性能、能效和可扩展性的新基准。该系列包含了基于CDNA 4架构打造的Instinct MI350X和MI355X GPU及平台,采用了台积电的3nm工艺,集成1850亿晶体管。MI350系列实现了代际AI计算性能提升4倍,以及推理性能代际“飞跃式”提升35倍,这是其挑战英伟达的最新技术武器之一,也代表了AMD目前在AI加速计算领域的实力。 内存带宽和容量优势是AMD对抗英伟达尖端GPU芯片的重要筹码,该优势在Instinct MI350系列GPU上得到进一步放大,其内存容量(288GB HBM3E)和带宽(最高 8TB/s)性能表现十分抢眼,使得推理和训练工作都能获得更好的吞吐量,特别适用于对AI并行化算力负载要求较高的生成式AI模型训练和推理任务。

图:MI350系列提供更快的AI推理速度、支持更大的模型

MI350系列在封装方面的三大创新点包括:首先是延续小芯片设计,N3P工艺的计算芯片(XCD)堆叠在N6工艺的I/O芯片(IOD)上,集成 AMD Infinity Fabric AP互联总线,这种异构集成既能提升性能又能降低功耗;其次是封装技术,采用成熟的COWOS-S封装而非更昂贵的COWOS-L;第三,采用混合键合架构,3D堆叠提升计算密度,2.5D集成HBM3E显存和互联技术。

图:MI350系列在封装和小芯片领域的创新

Instinct MI350系列提供风冷和直接液冷的灵活配置,风冷机架中最多可部署64 个 GPU,直接液冷机架中最多可部署128个GPU,提供高达2.6 exaFLOPS 的 FP4/FP6 性能。这意味着在基于行业标准的基础设施上,能够实现更快的AI应用部署并能够降低成本。

图表:Instinct MI350系列具体规格

图:Instinct MI355X系列GPU在内存和带宽方面的具体表现

图:AMD Instinct MI350 系列专为严苛工作负载而设计

根据Lisa Su博士的介绍,AMD Instinct MI300X系列GPU相比英伟达B200,每美元可处理的Token数量提升高达40%,这其实是对性价比的直接量化,相当于在运行大语言模型(LLM)时,单位成本下的计算效率提升40%。 值得注意的是,Tokens/$并非纯算力对比,而是更贴近用户的实际成本考量出发,这也是AMD“硬刚”英伟达最先进GPU的核心考量。

此外,在主流大模型推理任务中,AMD Instinct MI355X系列吞吐量超越了英伟达B200和GB200,关键数据如下:

同样,在大模型的训练和微调方面,AMD Instinct MI355系列与英伟达B200、GB200相比,也展现出了有竞争力的性能,关键数据如下:

目前看来,MI350系列GPU的生态系统势头非常强劲,处于准备就绪、随时部署的状态。它将通过领先的云服务提供商(包括主要超大规模云厂商和下一代新锐云厂商)广泛上市,戴尔 (Dell)、慧与 (HPE) 和超微 (Supermicro) 等顶级OEM厂商正在将MI350系列解决方案集成到他们的平台中,提供强大的混合AI 基础设施。

ROCm 7超过3.5倍推理性能提升,引领开放AI革命

除了硬件方面的不断迭代优化,AMD真正的挑战还在于ROCm软件生态系统的建设,这也是AMD能否真正撼动英伟达的关键。AMD 对 ROCm 的愿景是通过一个开放、可扩展且专注于开发者的平台,为所有人解锁创新潜能。 根据Lisa Su博士的介绍,过去一年中,ROCm 迅速成熟,可提供领先的推理性能,扩展了训练能力,并深化了与开源社区的集成。如今,ROCm驱动着全球最大型的一些AI平台,支持Llama、DeepSeek 等主流模型,特别是在最新的ROCm 7版本中实现了超过 3.5 倍的推理性能提升。

凭借持续的更新、先进的FP4等数据类型以及FAv3等新算法,ROCm 不仅赋能下一代 AI 性能,同时以超越闭源替代方案的速度推动着vLLM和SGLang等开源框架的发展。 “ROCm 不仅是在追赶——它正在引领开放的 AI 革命”,Lisa Su博士强调。随着 AI 应用从研究转向真实世界的企业部署,ROCm 也在同步演进。ROCm企业级AI 将一套全栈式MLOps 平台推向台前,凭借支持超过 180万个 Hugging Face 模型的开箱即用体验,以及行业基准测试的引入,ROCm提供用于微调、合规、部署和集成的开箱即用工具,以实现安全、可扩展的AI。

在提升开发者体验方面,AMD提供更多的开箱即用工具、实时CI仪表板、丰富的技术资料以及活跃的开发者社区,让开发者在ROCm上构建应用变得前所未有的简单。此外,AMD还推出了开发者云(Developer Cloud),让开发者能够即时、无障碍地访问ROCm和AMD GPU。无论是优化大型语言模型还是扩展推理平台,ROCm 7、AMD开发者云都为开发者提供了快速从实验迈向生产所需的全套工具, 在AMD直面英伟达的生态竞争方面,多年以来,CUDA的发展积累是AMD必须面对的挑战。Lisa Su博士指出,ROCm 正以开源速度、开发者优先的设计理念和突破性性能,开启 AI 创新纪元。从推理到训练再到全栈部署,其架构专为伴随 AI 未来演进而扩展设计。而随着 ROCm 7 与 AMD 开发者云的推出,AMD才刚刚启程。

明年见面:Instinct MI400 系列与 “Helios” AI 机柜

AMD的产品路线图也显示出前所未有的“激进”。根据Lisa Su博士公布的蓝图,AMD计划以大约每年一次的周期发布新品:MI325X于2024年第四季度上市,MI350系列在2025年推出,MI400系列则将在2026年推出。这一发布节奏与英伟达“一年一次AI GPU新品发布”的计划直接对标,表明AMD已准备好与英伟达展开长期、持续的正面竞争。

从目前了解到的信息来看,AMD Instinct MI400 系列将实现巨大的跨代性能飞跃,为大规模训练和分布式推理提供完整的机柜级解决方案。其关键性能创新包括:432GB的 HBM4 内存;19.6TB/s的内存带宽;40 PFLOPS的FP4性能和20 PFLOPS的FP8性能;300GB/s 的横向扩展带宽。

此外还有Helios AI 机柜基础设施,从底层开始构建,旨在将下一代领先的硬件——包括 AMD EPYC “Venice” CPU、Instinct MI400系列GPU和Pensando “Vulcano” AI 智能网卡——与 ROCm 软件统一整合为一个完全集成的解决方案。 Helios 设计为一个统一的系统,支持一个紧密耦合的纵向扩展域(scale-up domain),最多可容纳72个MI400系列GPU,提供每秒260太字节的纵向扩展带宽,并支持 Ultra Accelerator Link。

Lisa Su博士表示,“当我们展望以即将推出的 MI400系列和‘Helios’机柜架构为标志的AI 新时代时,Instinct MI400 系列将树立全新标杆——赋能企业快速行动、智能扩展,全面释放生成式AI与高性能计算的无限潜能。” 目前,70%的顶级AI客户已采用了AMD的GPU产品,通过最新发布的MI350系列和下一代MI400系列和 Helios机柜基础设施等,Lisa Su博士对于在AI领域的发展前景信心十足。

业界首款超以太网AI NIC,为下一代AI部署做好准备

为了充分满足未来AI工作负载需求、兼容开放生态系统,使客户在降低资本支出的同时,能够保持面向未来基础设施扩展的灵活性,AMD推出了业界首款支持超以太网联盟(UEC)特性的AI智能网卡——AMD Pensando Pollara 400,该AI智能网卡专为加速后端网络应用而设计,实现了400千兆比特每秒(Gbps)的以太网传输速率。 如下图所展示,AMD Pensando Pollara 系列AI智能网卡在RoCEv2协议下,能够提供领先业界的RDMA性能,较主流竞品提升 20%,在RCCL吞吐量测试中,Pollara是英伟达CX7的1.1倍、博通Thor2的1.2倍。

值得强调的还有AMD Pensando Pollara 400 AI智能网卡的可编程特性,它基于AMD的第三代全硬件可编程Pensando P4引擎,客户可启用UEC功能,为网络监控与性能调优注入智能化能力。依托全可编程P4引擎,用户可通过升级使任何Pollara 400网卡适配新行业标准(包括UEC制定的规范),从而助力企业、云服务提供商及研究人员最大化基础设施投资价值。 凭借400Gbps的GPU间通信速度,该网卡可显著加速以下场景任务完成时间:训练超大规模AI模型、部署下一代AI模型、开展前沿技术研究等。此外,它具备智能网络监控功能,能够大幅缩减传统网络监控与性能调优耗时,在执行网络负载均衡的同时,能够实时监控网络指标,使运维团队能在潜在网络问题升级为严重故障前主动识别并处理。

写在最后

AI芯片竞争早已超出单纯的技术参数比拼,演变为软硬件系统性能、生态构建等能力的综合实力比拼。 面对英伟达的先发优势,AMD需要的不仅是GPU晶体管数量的领先,更是一场从开发习惯到产业标准、生态的全方位变革。今日Advancing AI大会,Lisa Su博士揭幕的不仅是芯片,也是AMD重塑AI算力版图的宣言。 正如Lisa Su博士所强调的,AMD 是唯一具备全面覆盖数据中心、边缘及终端设备端到端AI能力的供应商,拥有支撑全栈AI所需的广度产品阵容与深厚软件实力。目前,AMD已在构建市场核心竞争力的基石——涵盖底层产品、关键技术及客户生态方面取得重大突破。 AMD坚信,凭借数据中心AI业务的规模化扩张(2024年营收超50亿美元,未来数年将增长至数百亿美元年营收),AMD正步入一条长期高速增长轨道。
展开阅读全文

更新时间:2025-06-14

标签:科技   英伟   全局   战略   系列   性能   模型   开发者   博士   基础设施   机架   芯片   网卡

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top