今天市场走的很强,特别是在阿里还将加大资本开支之后,整个AI科技方向快速拉升。
从近期的市场来看,市场对阿里的动态关注度持续在提升。
笔者刚刚花了快3个小时,把今天阿里的云栖大会都看了一遍,确实有些印象深刻。
可以说相较以往,本次云栖大会更侧重技术与产品发布,七款大模型技术产品,覆盖语言、语音、视觉、多模态、代码等模型领域。
在这里面,笔者发现有一个方向值得我们来关注,那就是超节点,这次阿里发了磐久AI超节点,单柜128卡,百纳秒延迟,Pb/s级互联带宽。
磐久AI Infra2.0 128超节点服务器
因为超节点在前几天的hw也有所提到,另外之前市场也关注了一波昇腾384超节点。
我们不妨花点时间来好好了解一下当下超节点是什么?背后发展的逻辑是什么?产业趋势如何?
先说结论:超节点(Super Node)的本质,不是堆硬件,是解决AI训练中的“通信延迟”问题。
你可以把它理解为:把几十甚至上百张GPU,用一条“高速专线”连在一起,让它们像在同一台电脑里工作。
因为目前AI训练架构存在短板,跨服务器通信依赖外部网络,延迟高、带宽低,GPU大量时间在“等数据”,算力利用率常下降。
而“超节点”(Super Node)则采用Scale-Up架构,通过高速互联技术(如NVLink、hw的UB、阿里PPU)将上百个AI芯片深度整合,形成一个逻辑上的“单台超级计算机”。
而“超节点”干的事,就是把多台服务器“粘”成一个逻辑上的“单机”,通过NVLink、UB总线、PPU+HPN等高速互联技术,实现:
延迟从微秒级降到百纳秒级(0.1μs vs 10μs);
带宽冲到1800GB/s以上;
支持GPU间直接访问内存,减少数据拷贝。
如果大家了解AI训练,就知道它意味着训练周期从30天缩到15天,省下的不只是时间,还有数百万美元的电费和机会成本。
所以,超节点不是“更多GPU”,而是“让已有的GPU更高效”。
超节点最早由英伟达提出(NVL72),hw随后推出昇腾384,现在阿里云也来了个128卡磐久。
目前超节点发展呈现三大方向:
1、技术路线
英伟达:NVLink + InfiniBand + CUDA,软硬一体,体验好但成本高、绑定深;
hw:昇腾芯片 + CloudMatrix 384,全栈自研;
阿里云:自研CIPU 2.0 + HPN8.0 + 开放架构,支持多种AI芯片。
阿里此次强调的开放架构,与AWS Nitro系统在理念上有相似之处,外围接口开放。它的目标不是卖服务器,而是让客户用更低的成本跑AI任务,从而吸引更多流量上云。
2、从“单点突破”到“系统集成”
早期大家比的是“一张卡多快”,现在比的是“一百张卡怎么连”。
超节点已进入“系统工程”阶段,比如Cable Tray铜连接、液冷散热、高密度背板。
比如网络用HPN、ETH-X等新架构,试图用以太网挑战NVLink。
3、规模并不是优势
规模越大,超节点的组网越简单,运维成本越低。
但代价是:功耗、散热、可靠性挑战指数级上升。
超节点不是越大越好,而是要在“效率”和“成本”之间找平衡点。
阿里云发布超节点,市场上“核心合作伙伴”跳出来蹭热度。
但现实是,我们要从产业发展的趋势(也就是第二大点的逻辑)出发,集中在三个环节:
1、高速互连硬件:铜缆、交换芯片
因为超节点需要Pb/s级带宽,柜内短距传输,Cable Tray铜连接方案兴起。
Serdes速率向112Gbps甚至224Gbps演进,对高速连接器要求极高。
部分公司在该领域已有订单落地,具备一定技术壁垒
2、高密度服务器
阿里这次是128卡/柜,功耗可达数百千瓦,对电源、散热、结构设计要求极高。
这类生意看似“传统”,具备强粘性。
3、国产AI芯片
比如阿里云强调“开放架构”,支持多种AI芯片,可能为部分国产芯片厂商带来新的合作机会。
过去因为AI生态相对比较封闭,现在阿里提供了一个“非NVidia”的入口。
但要注意,最终还得看芯片性能、软件栈成熟度、性价比。
当全球AI竞争进入“万卡级训练、万亿参数模型”的深水区,拼的可能不再是单点性能,或许是系统整合能力。
超节点,可能正是这场竞赛的重要一环。
特别声明:以上内容绝不构成任何投资建议、引导或承诺,仅供学术研讨。
如果觉得资料有用,希望各位能够多多支持,您一次点赞、一次转发、随手分享,都是小猎豹坚持的动力~
更新时间:2025-09-25
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号