云栖大会,阿里云重磅技术发布速览!

刚刚,阿里云在云栖大会上进行了一系列重磅技术发布,不说废话,我带大家快速过一下↓

AI基础设施的三大升级

①算力底座:磐久128超节点。

采用开放架构,兼容多种AI芯片,不再被单一GPU架构绑定,并提供更高性价比。

【磐久超节点真机】

②网络升级:HPN8.0

带宽拉到800G,可支撑数十万张GPU卡组成的大集群,适配训推一体化场景。

【HPN 8.0 可预期网络】

③存储突破:CPFS+OSS

CPFS单客户端吞吐性能提升到40GB/s,直击大模型训练刚需;对象存储OSS的Vector Bucket 让向量存储成本下降95%。

「算力疲软、网络瓶颈、存储成本」,大模型时代,算存网的三大难题,阿里云一步到位,全部帮你搞定。

【AI Stack国产大模型一体机】

灵骏智算集群

前面是算存网的独立升级,而灵骏则是组团干大活儿↓

支持10万卡规模的稳定互联,在万亿参数MoE模型的训练中,有效训练时长占比超过 99%。

阿里云用一系列手段来提升容错率和训练效率:比如通过容器服务优化将GPU故障发现与自愈效率提升 85%,模型冷启动时延降低 90%。

所以,个个能打的算存网+组团能力,最终阿里云打造出了一台“AI Cloud Computer”。

PAI × 通义:1+1>2

主论坛环节,阿里放出了最强模型Qwen3-Max,性能超过GPT5、Claude Opus4,跻身全球前三。

并展示了最新的通义模型家谱↓

接下来,阿里云PAI平台登场,与Qwen组起了CP。

阿里云PAI平台与通义大模型的联合优化,展现了全栈协同的放大效应↓

训练层:MoE调度机制让通义千问训练加速比提升 3倍;长序列分块优化,使通义万相单样本训练耗时降低 28.1%。

推理层:推理吞吐TPS提升71%,推理时延TPOT下降70.6%,扩容时长缩短79.6%。

这波秀肌肉的背后是底层算力、调度系统和上层大模型训推三位一体,提升效果拉满。

阿里巴巴CEO吴泳铭说

“阿里云正在全力打造一台全新的AI超级计算机,它同时拥有最领先的AI基础设施和最领先的模型,两者可以在产品设计和运行架构上高度协同,从而确保在阿里云上调用和训练通义千问模型时,能达到最高效率。”

从目前云栖大会这些硬核发布看,阿里云干得不错,至少这台AI超级计算机的雏形,像模像样了。

附录:AI云能力比较1

展开阅读全文

更新时间:2025-09-25

标签:科技   阿里   重磅   大会   技术   模型   架构   效率   节点   集群   基础设施   网络   卡规   性能

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top