DeepSeek-V4-Flash连续两周登顶OpenRouter全球调用榜,三款模型同时跻身月度调用前十,月调用总量超17万亿tokens。而更值得关注的一组数据是:上周中国大模型周调用量达11.13万亿,已经超过美国近3倍,全球前三占了两席。
所有人都在讨论大模型的参数竞赛,但我想说一个被忽略的事实:中国AI基础设施,已经接住了全球最大规模的调用需求。这背后,国产算力底座的通用能力,才是真正的隐形破局点,到底是谁在支撑这一切?

OpenRouter模型使用量图表及排行榜 · 展示DeepSeek等模型的周度及月度token调用
打开OpenRouter最新应用榜单就能发现,排名前两位的Hermes Agent和OpenClaw,月调用量合计超过17万亿tokens,这个数字已经超过了绝大多数头部大模型的总调用量。
这不是简单的数值增长,而是需求结构的彻底重构:原来Token消耗的绝对主力,已经从普通聊天机器人,变成了会规划、会调用工具、能自我进化的Agent系统。
一个Agent完成单次复杂任务,动辄触发上百轮大模型调用,还要搭配数十次工具执行,再加上长记忆存储产生的数据,单次任务的负载就能飙升至数百GB甚至TB级。
这种以「万亿」为单位的高强度并发,正在把旧基础设施的每一块短板都无限放大。
过去针对单轮对话设计的算力架构,根本扛不住Agent带来的连续并发调用。很多看似参数达标、跑分优秀的模型,一到高负载场景就出现推理延迟升高、吞吐骤降的问题。
而在全球开发者调用市场,中国模型能拿到这么高的调用量,恰恰说明基础设施已经能接住这种级别的洪水冲击。

OpenRouter应用月度调用量排行榜 · 展示Hermes Agent等应用的token调用数据
此前坊间曾有猜测:DeepSeek V4推迟发布,是因为在和昇腾做深度适配,甚至有人误以为昇腾会变成某家厂商的「专有硬件」。这个猜想,恰恰说反了事情的本质。
不是昇腾为某款模型削足适履,而是现在所有头部大模型,都走到了同一个路口,撞上了同一个方向的三座大山。昇腾只是提前把通用解法准备好了而已。
MoE架构用稀疏激活提升了计算效率,但代价是专家分散在不同计算卡上,每次推理都需要大量卡间通信。通信,反而成了性能瓶颈。
昇腾的MegaMoE融合算子,把MoE推理原本分开执行的五个步骤,合并成一个大算子,让通信和计算尽可能并行推进。实测数据显示,Prefill场景性能可以提升20%到30%,Decode场景也有10%以上的收益。
现在头部大模型基本都标配百万token上下文,模型侧用稀疏注意力压缩计算量,但百万级KVCache对内存的压力实打实存在。传统单机前缀缓存容量有限,跨机器又无法共享,集群越大缓存利用率反而越低。
昇腾推出的全局KVCache池化方案,通过MemFabric实现跨节点内存统一编址,再搭配HIXL零拷贝传输,把多台机器的物理内存融合成了一个全局大池。这套方案让Agent场景的Prefill性能提升了4倍以上,任何需要百万上下文的模型都能受益。
低精度推理已经从「能不能压缩」进入了「压缩后是否可靠」的新阶段。传统全局量化方式碰到参数分布差异大的MoE模型,一个异常值就会拽偏整个缩放范围。
行业现在开始转向Microscaling分组量化格式,但真正能从硬件层原生支持这套标准的平台并不多。昇腾950系列专门做了块缩放因子计算单元和MXFP矩阵乘法加速器,再搭配MindStudio一键生成量化权重,开发者根本不需要手动处理细节。
通信、内存、精度,这是所有头部大模型部署时都会遇到的共性问题,而昇腾给出了一套通用的系统性解决方案。
今年4月智谱GLM-5.1、MiniMax M2.7、DeepSeek V4三个头部模型密集开源,昇腾全部做到了发布即支持,能有这个覆盖速度,靠的就是底层能力的通用性。
很多人过去总觉得,中国大模型都是建立在海外算力基础上的,缺了底层芯片就玩不转。但现在的事实已经给出了完全不同的答案。
从DeepSeek V4完成与昇腾的全栈适配,到三家头部模型密集开源都实现发布即支持,我们已经能看到一条完整的国产AI链路:底层有自主研发的昇腾芯片,中间有通用的AI软硬件平台,上层有不断突破的头部大模型,终端已经接到了全球开发者的大规模调用需求。
这是一套完整的、自主可控的国产AI生态闭环,不靠海外任何环节,就能打造出全球调用量第一的顶尖大模型。这个突破,比单个模型参数多几个零,意义要大得多。
新浪财经的数据显示,上周全球AI大模型总调用量达到31.8万亿tokens,连续六周保持上涨,中国大模型的周调用量达到11.13万亿,已经超过美国近3倍,而且连续五周稳居全球第一。全球调用量前三里,有两个都是中国模型。
这个结果不是天上掉下来的,是底层基础设施提前布局、模型厂商持续创新共同带来的。当Agent时代的负载还在不断膨胀,下一个万亿级模型随时会来,这套已经被验证过的通用底座,能接住的远不止DeepSeek。
我们聊了太多模型参数、跑分榜、技术路线之争,但很少有人注意到基础设施的作用。其实,大模型行业竞争到最后,拼的就是谁的基础设施能接住更大规模的真实负载。
价格下调拉动调用量增长这个现象,也侧面验证了这个逻辑:只要基础设施能扛,开发者用脚投票就会把更多需求给到性价比更高、性能更稳的中国模型。小米MiMo-V2.5系列降价后,短短一周调用量增长超过999%就是最好的证明。
真正的产业自主,从来不是某一个环节突破,而是从底层算力到上层应用全链条都能自己说了算。
现在DeepSeek的三款模型霸占OpenRouter前十,中国模型周调用量超过美国近3倍,这些数字不是给行业吹牛皮的资本,而是给所有开发者的信心:在国产生态上,一样能做出全球顶尖的大模型,一样能承接全球最大规模的用户需求。
未来回头看,2026年的这场调用量反超,大概率会被当成国产AI生态真正成熟的标志性事件。我们花了这么多年补底层芯片、做基础设施,现在终于到了收获成果的时候,下一个能改变世界的AI应用,大概率就会诞生在这套自主生态之上。
#AI家庭四大件让家更有温度##芯片##5G##DeepSeek##华为#
更新时间:2026-06-05
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302034844号