ATH后,阿里开始亮底牌了

文:王智远 | ID:Z201440

今天阿里发了Qwen3.6-Plus。

千问3.6系列的第一款模型,编程能力接近Claude系列,100万Token上下文窗口。

往前倒两天,4月1日,Wan2.7-Image,图像生成和编辑统一模型;3月30日,Qwen3.5-Omni,全模态大模型,215项全球最佳性能。

四天,三个模型。全模态感知、图像生成、Agent编程,完全不同的方向,这是ATH事业群成立两周以来的第一次集中亮相。

不知道你有没有想过:三个方向完全不同的模型,为什么偏偏选在同一个窗口期发?

01

先说结论,我认为,这三个模型单独看,每一个都是各自赛道上的常规迭代;拼在一起看就不一样了。

Omni管感知,Wan2.7管生成,Qwen3.6-Plus管执行。加在一起,刚好覆盖了一个完整Agent工作流的三个阶段。

不信,我们拆开来看。

先说Omni,全模态,能听能看;支持113种语言和方言,在音视频理解这类任务上拿了215项全球最佳,超过了谷歌的Gemini-3.1 Pro。

这个模型有一个细节值得多说两句。它长出了一种能力:

打开摄像头,对着一张手画的草图说你想要什么,哪怕描述的是一个带复杂产品逻辑的界面,它也能直接给你生成一个可以跑的原型。动动嘴就能编程。

关键在于,这个能力不是团队刻意训练出来的。

它是模型在多模态能力持续扩展的过程中,自己长出来的,感知能力积累到某个临界点之后,它开始能做一些设计者自己都没预料到的事情。

再看Wan2.7-Image,做图像生成的。

AI生图这个领域有两个老问题。一个叫「标准脸」,生出来的人长得都一样,审美疲劳。一个叫「色彩盲盒」,你没法精确控制画面的配色。

Wan2.7针对这两个痛点做了专门优化,捏脸可以从骨相、眼眸到五官全方位定制;配色上做了一个调色盘功能,用户可以用色值精确控制颜色的数量和占比。

在人类偏好盲测中,Wan2.7的文生图能力超过了GPT-Image1.5和国内主流模型;它还有一个跟今天这个话题直接相关的特性:支持被龙虾调用,让Agent画画。

也就是说,Agent的能力边界又往外推了一步,之前能写代码、能查资料、能总结文档,现在还能做设计了。

然后是今天发的Qwen3.6-Plus。

阿里给它的定位「国内最强编程模型」。数据上看,确实站得住。好几个主流的编程和Agent能力评测里,3.6-Plus可以匹敌Claude Opus 4.5,显著超过了参数量两倍甚至三倍于它的GLM-5和Kimi-K2.5。

这些评测的名字你不用记,记住它们测什么的就行:

一个测能不能修真实项目的Bug,一个测能不能操作终端,还有几个测在龙虾里能不能完成一个完整任务。所以,三者指向同一件事:模型的价值正在从「生成文本」迁移到「完成任务」。

3.6-Plus还做了一件很有针对性的事。

它在训练过程中,集中对市面上主流的Agent框架做了优化适配,包括OpenClaw、Claude Code等等;100万Token的上下文窗口,意味着它可以一次性装下一个中等规模项目的完整代码库。

你看,一个团队做出一个好模型不稀奇,三个放在一起,这说明背后有统一的节奏。

02

这个节奏从哪来?两周前阿里成立了ATH事业群,这件事大家都知道了,我不重复。

我想聊它的名字:Alibaba Token Hub。嗯,不叫AI实验室,不叫大模型中心,叫,Hub。

Token是什么?我们跟AI对话、让它写代码、让它画图,消耗的都是Token。它是AI世界的燃料。Hub是枢纽,是集散中心。

我们可以把ATH理解成一个Token炼油厂和加油站网络。

通义实验室是上游油田,负责把原油炼出来;MaaS平台是管道,负责把油输送出去;千问APP、悟空、AI创新这些应用,是下游的加油站,直接面向开车的人。

吴泳铭给这个事业群定的使命也是这个逻辑:创造Token、输送Token、应用Token。你看,你又听说过。

不过,这个命名有意思的地方在于,它暗含了一个判断:AI这门生意的核心资产是Token的流转效率。

什么是流转效率?

现在有两家自来水公司,水的质量差不多,都是达标的。

一家只有水厂,水造出来了,但管网不行,送到用户家里要绕三道弯,水压不稳,有时候拧开龙头半天没水;另一家从水厂到管网到龙头全是自己的,拧开就来,水压稳定,24小时不断。

你说用户会选谁?显然,用户会选后者。

对应到AI里,模型就是水厂,平台是管网,应用就是用户家里的水龙头。水质(模型能力)固然重要,达到一定水准后,用户感受到的差距是水压,打开龙头的那一瞬间,水能不能立刻出来。

Token流转效率,讲的就是这件事:从模型生成Token,到用户在应用中实际使用,链路有多短、响应有多快、损耗有多小。

这个判断不只阿里一家在做。

有消息说OpenAI内部已经把核心考核从日活用户切到了每日Token消耗量;两家公司,一个在旧金山,一个在杭州,得出了同一个结论。

所以,ATH名字透露了阿里对AI商业化的底层思考。Agent时代,衡量一家AI公司值不值钱的指标,正在从多少人在用,变成消耗多少Token,谁的Token管线跑得最顺,谁就离钱最近。

03

上面说了,三个团队同时交卷,背后肯定有统一的节奏。ATH搭了一条Token管线,从生产到运输到消费,听起来很完整。

问题是,这个管道通不通?

毕竟市面上每家模型公司都在说「模型应用协同」,这个词我听了一年多了,已经没什么信息量了。关键在于,大家说的「协同」,根本不是同一件事。

我试着把它拆成三层来看。

第一层:接入层。

模型更新了,应用端改个版本号、发篇公告,模型团队和应用团队各干各的,发布完才临时对接。就像两支球队,比赛打完了才第一次见面握手。绝大多数公司,停留在这一层。

第二层,同步层。

模型还没正式发布,应用端就已经在联合调试了。两个团队从立项开始,就清楚对方在做什么。模型训练方向会考虑应用需求,应用产品设计也会提前适配模型能力边界。

等模型一上线,应用直接同步交付。ATH这一轮,做到的就是这一层。我为什么这么判断?

因为有几个细节对得上。

Qwen3.6-Plus专门对OpenClaw、Qwen Code、Claude Code这些主流Agent框架做了优化适配。

你想,如果模型和应用各干各的,模型不可能在训练阶段就去适配特定框架。它这么做,说明模型还没成型,就已经知道将来给谁用、怎么用。

同理,Omni能通过API直接被龙虾、Claude Code调用,处理长音视频和文档;Wan2.7支持Skill调用,Agent可以直接用它生成图像。三个模型都是出厂就自带适配接口。

再看应用端:悟空、千问APP、QoderWork,全都在Qwen3.6发布的同一时间点官宣接入,是一起冲线的。

这种节奏,必须在立项、定方向的早期,就把模型和应用放在一起统筹。ATH把五个业务整合进同一个事业群、统一负责人,本质上就是从组织上保证这件事能落地。

第三层:飞轮层。

应用跑起来后,真实用户数据回流,指导下一代模型训练;模型更好用,带来更多用户与调用量;更多调用又产生更多数据,形成正向循环。

这一层,说实话,我目前没有完整证据证明已经完全跑起来,但有几个前置信号很关键:

沙利文今年2月的报告显示,2025年下半年中国企业级大模型日均调用量,千问占比冲到32.1%,比上半年17.7%几乎翻倍,增幅第一。

调用量暴涨,意味着真实场景的反馈数据在快速积累,飞轮的燃料正在备齐。

而且,你看千问现在的客户构成。

一汽红旗把千问智能体接进了智能座舱,汽车行业。达能亚太跟阿里云合作,基于千问搭供应链和营销的Agent,消费品行业

西门子用千问做工业机器人,工程师口述就能搭建生产线,制造业;海外更不用说,亚马逊、英伟达、Meta都在基于千问做产品,斯坦福李飞飞团队也在用千问做前沿研究。

场景越多元,数据越丰富,飞轮一旦转起来,惯性就会非常大。我的观点是:判断一条Token管线有没有真正跑通,就看两点:

一,模型发布后,应用跟上的速度够不够快;二,外部开发者是不是真的在用模型做自己的产品。

从这两个标准看,ATH第一轮已经及格。而大部分模型公司,还卡在第一层。

04

及格只是起点,现在还有一个更关键的问题摆在所有人面前:这轮大模型竞争,最后到底比的是什么?

现在牌桌上玩家一点不少,智谱、字节、腾讯、百度,全都往Agent方向冲。当所有人都在做同一件事时,必须想明白:真正的壁垒到底在哪?

模型能力算壁垒吗?不算。

现在跑分领先的窗口期越来越短,很快就被追上;龙虾生态适配算壁垒吗?OpenClaw本身就是开源的,谁都能做适配。你能优化,别人也能。

那真正的胜负手在哪?

我认为,最容易被忽视、却最可能决定终局的,是这条Token管线在企业侧的纵深。

我们先算一笔很简单的账。

一个普通C端用户,用龙虾玩一下午,写写代码、总结几篇文档,也就消耗几十万Token。玩完觉得新鲜,关掉就没了,可能一周都不打开,下次再用,说不定就换别家模型了。

企业不一样。

把AI Agent嵌进客服系统,一天处理几千工单;嵌进供应链,每天自动跑数据分析;嵌进产品设计,设计师天天用它出方案。这种Token消耗是日复一日、稳定持续的,跟水电费一样。

更关键的是:企业一旦把AI嵌入核心业务,基本不会轻易换。

换一个聊天工具的成本是零,换一套跑在业务里的AI系统,要重新对接数据、重新训流程、重新让员工适应。切换成本非常高。

哪个生意更值钱,一目了然。

C端Token消费像卖矿泉水,一瓶一瓶的,今天买你明天买他;B端Token消费像铺自来水管,一旦接通了,水费按月交,谁也不会吃饱了没事去换一套管道。

这就是悟空事业部存在的意义。

它是ATH成立时,第一次公开亮相的全新部门,定位非常清晰:B端AI原生工作平台,把模型能力深度扎进企业工作流。而且有消息透露,阿里还计划逐步把淘宝、支付宝、阿里云的B端商业服务全部整合进来。

阿里做这件事,有一个别人几乎没法复制的先天优势。

钉钉沉淀了多少企业?阿里云覆盖了多少行业?淘宝商家生态有多大体量?这些客户,不是ATH要从零去找的,因为他们本来就在阿里生态里。

ATH要做的,只是把Token管线接到这些客户已有的工作流里;对纯模型公司来说,获客是最难的一关;但对阿里来说,客户就坐在隔壁桌。

当越来越多企业的核心工作流,跑在千问的Token之上,以后比拼的,就是基础设施绑定。

顺便说一句,ATH这个名字还有另一层意思:All Time High,表面看,是个讨巧的双关,但里面野心是真的,阿里想做的,绝不止一个普通大模型。

Qwen3.6-Plus是千问3.6系列的第一款,后面还有Max版本;Token管线刚跑完第一轮,第二轮其实已经在路上了。

能不能交得更快,我们走着看。

展开阅读全文

更新时间:2026-04-03

标签:科技   阿里   底牌   模型   能力   管线   用户   团队   龙虾   工作流   数据   公司

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302034844号

Top