本期要点:真正该比的不是榜单
你好,我是王煜全,这里是王煜全要闻评论。
最近,全国不少省份都在中考或即将开考。都说东亚人最会考试,但没想到,这个应试思维也被带到了AI领域。
几天前,X平台上有人问马斯克,中国大模型大概什么时候能达到Anthropic Claude Fable 5的水平?
马斯克回了一句,大概2027年一季度。但很快,中国某AI公司的创始人就回应:不需要那么久。
之后,马斯克补充道,如果只看benchmark,也就是基准测试,也许会更快;但如果按真实世界实用性来衡量,2027年一季度追上也已经很厉害了。
也就是说,马斯克同意中国大模型公司能快速考出好成绩,但不一定能应对真实世界的需求。

这跟大家常说的伪学霸“高分低能”几乎是一回事。现在,中国的一部分大模型好像也获得了这样的标签。
但我们认为,所谓“追上 Fable 5”,其实是个伪命题,而且也没有必要。
很明显,随着Fable 5的出现,AI的“刷题时代”已经结束,追不追上Fable 5已经不重要了,重要的是,你的AI是否能真正成为生产力。
分数之争
为什么说“追上 Fable 5”是伪命题?
因为这个说法既没法被证明,也没法被证伪。
比如,你究竟看哪个benchmark?
是Deep Research,即深度研究?还是编程?或者是长程任务?是看单个任务还是复杂任务?是要求成本相同,还是不计成本?是单模型还是多模型编队?标准不同,结论完全不同。
目前比较受关注的是三个新测试。
第一个是OpenRouter Fusion的DRACO测试。
在这个测试中,把Gemini 3 Flash、Kimi K2.6、DeepSeek V4 Pro编在一起跑深度研究类问题,得分已经接近Fable 5,说明多模型协作能提高深度研究的答案质量。
第二个是FrontierSWE,测的是几小时到十几小时级别的复杂任务,包括系统优化、大型代码构建、应用机器学习研究。
在这个测试里,智谱的GLM-5.2得分排名前列,只稍微落后Claude和GPT。
第三个,是AA-Briefcase,是Artificial Analysis新出的长程任务测试。在这个测试中,智谱的GLM-5.2也仅在Claude Fable 5、Claude Opus 4.8之后,排名第三,已经进入长程工程的第一梯队。

只看这些成绩,当然可以说,国产模型将很快追上Fable 5。
可是,这里面的最大问题是,你有高分,但为什么开发者们还是首选Claude或GPT,而不把你当首选模型呢?为什么只是在需要省钱的时候才会考虑试一试?
这里面的原因,可能连我们自己的大模型公司都说不清,或不敢明说。
但这至少说明了一点,这些测试的分数只能证明你不差,却没办法量化你和最领先模型在真实世界中的表现还有多大差距。
终局
那该如何证明你的实力呢?
不应该总是对标所谓最强模型,更不是看哪个测试的分数更高一点,我们想强调的是,要有终局思维。
比如,如果能证明你的AI模型可以把脑力劳动变成可执行、可监督、可纠错的自动化流程,就是一个重要的阶段性节点。
我们一直有一个判断,工业时代,机器把体力劳动自动化;AI时代,大模型以及AI Agent就是要把脑力劳动自动化。
这就像是,工业化的终极目标,是打造完全自动化的生产线,整个产线上完全不需要人的参与,从头到尾完全由机器负责执行,人只是这个生产线的设计者和监督者,以及在出现错误时作为介入者。
未来,在各类脑力劳动中,人类也将从具体的执行中解放出来,变成智能系统的设计者、监督者、验收者和异常处理者。

这次Fable 5的革命之处,其实也并不完全在于比其他模型聪明多少,而是在于它能让整个工作流程持续推进,不会总出错,或者说出错了也会自我修复,直到交付最终结果,而且整个过程不太需要人的参与。
其中要克服的,大多是工程性难题,比如如何降低幻觉率,如何把任务拆解,还有工具调用,任务执行,以及把结果验证的流程内化到模型之中等等。
这个时候,中国模型如果还在一心刷榜,想用分数来证明自己,无疑就像是别人已经走上工作岗位、靠解决真实难题而赚到钱了,你却还在用高考成绩证明自己是个所谓的人才。
中国标准
那中国模型可以怎么做呢?我们也在这儿提一些不成熟的想法,供大家参考。
既然已经看到,中国AI模型真正要证明的是自己具有生产力,就不应该只追别人的榜单,我们自己也可以拿出可检验的生产力标准。
这就像是,考试只能证明你是个比较聪明认真的学生,榜单回答的也只是你的模型比较聪明,但无法向企业和开发者证明你能很好地把活干了。
我们觉得,这套生产力标准应该至少能向别人表明三件事。
第一,我们的模型能听懂任务、拆解任务、并自主执行任务。
能听懂是第一步,能拆解是“会干活”的基础,能自主执行是从AI助手到自动化生产线的跨越。
第二,还要证明,我们的模型能不断降低人在整个生产流程中的介入水平。
比如过程能否追踪、错误率能否不断下降,特别是能否自主修复错误。
第三,就是生产力能否量化。
这不仅是证明你能写文章、画画、做视频、写代码,更是要证明你能解决哪些实际问题、能替代多少人工环节、能创造多少商业价值。
我想,把这些数字和相关案例拿出来,比任何测试都有说服力。
因为所有要用AI的企业,其实不关心你在榜单排第几,它们只关心你是否稳定、能替代多少工作、能创造多少价值。
我们觉得,只要中国的AI模型,能坚持朝着“把脑力劳动做成自动化生产线”的这个方向不断突破,证明自己已经能在真实世界里大幅提高生产力,就不用去证明自己是否超过Fable 5,也不用费劲去跟马斯克打嘴仗,也会得到大家的认可和应用。
最后,也想做个小调研,你觉得中国AI模型和Claude以及GPT这些前沿模型差距大不大?可否分享一下你的具体案例?
以上就是今天的内容!
王煜全要闻评论,我们明天见。
更新时间:2026-06-24
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034844号