马斯克说中国AI明年才能追上Fable 5，但真的“分水岭”是这个

本期要点：真正该比的不是榜单

你好，我是王煜全，这里是王煜全要闻评论。

最近，全国不少省份都在中考或即将开考。都说东亚人最会考试，但没想到，这个应试思维也被带到了AI领域。

几天前，X平台上有人问马斯克，中国大模型大概什么时候能达到Anthropic Claude Fable 5的水平？

马斯克回了一句，大概2027年一季度。但很快，中国某AI公司的创始人就回应：不需要那么久。

之后，马斯克补充道，如果只看benchmark，也就是基准测试，也许会更快；但如果按真实世界实用性来衡量，2027年一季度追上也已经很厉害了。

也就是说，马斯克同意中国大模型公司能快速考出好成绩，但不一定能应对真实世界的需求。

这跟大家常说的伪学霸“高分低能”几乎是一回事。现在，中国的一部分大模型好像也获得了这样的标签。

但我们认为，所谓“追上 Fable 5”，其实是个伪命题，而且也没有必要。

很明显，随着Fable 5的出现，AI的“刷题时代”已经结束，追不追上Fable 5已经不重要了，重要的是，你的AI是否能真正成为生产力。

分数之争

为什么说“追上 Fable 5”是伪命题？

因为这个说法既没法被证明，也没法被证伪。

比如，你究竟看哪个benchmark？

是Deep Research，即深度研究？还是编程？或者是长程任务？是看单个任务还是复杂任务？是要求成本相同，还是不计成本？是单模型还是多模型编队？标准不同，结论完全不同。

目前比较受关注的是三个新测试。

第一个是OpenRouter Fusion的DRACO测试。

在这个测试中，把Gemini 3 Flash、Kimi K2.6、DeepSeek V4 Pro编在一起跑深度研究类问题，得分已经接近Fable 5，说明多模型协作能提高深度研究的答案质量。

第二个是FrontierSWE，测的是几小时到十几小时级别的复杂任务，包括系统优化、大型代码构建、应用机器学习研究。

在这个测试里，智谱的GLM-5.2得分排名前列，只稍微落后Claude和GPT。

第三个，是AA-Briefcase，是Artificial Analysis新出的长程任务测试。在这个测试中，智谱的GLM-5.2也仅在Claude Fable 5、Claude Opus 4.8之后，排名第三，已经进入长程工程的第一梯队。

只看这些成绩，当然可以说，国产模型将很快追上Fable 5。

可是，这里面的最大问题是，你有高分，但为什么开发者们还是首选Claude或GPT，而不把你当首选模型呢？为什么只是在需要省钱的时候才会考虑试一试？

这里面的原因，可能连我们自己的大模型公司都说不清，或不敢明说。

但这至少说明了一点，这些测试的分数只能证明你不差，却没办法量化你和最领先模型在真实世界中的表现还有多大差距。

终局

那该如何证明你的实力呢？

不应该总是对标所谓最强模型，更不是看哪个测试的分数更高一点，我们想强调的是，要有终局思维。

比如，如果能证明你的AI模型可以把脑力劳动变成可执行、可监督、可纠错的自动化流程，就是一个重要的阶段性节点。

我们一直有一个判断，工业时代，机器把体力劳动自动化；AI时代，大模型以及AI Agent就是要把脑力劳动自动化。

这就像是，工业化的终极目标，是打造完全自动化的生产线，整个产线上完全不需要人的参与，从头到尾完全由机器负责执行，人只是这个生产线的设计者和监督者，以及在出现错误时作为介入者。

未来，在各类脑力劳动中，人类也将从具体的执行中解放出来，变成智能系统的设计者、监督者、验收者和异常处理者。

这次Fable 5的革命之处，其实也并不完全在于比其他模型聪明多少，而是在于它能让整个工作流程持续推进，不会总出错，或者说出错了也会自我修复，直到交付最终结果，而且整个过程不太需要人的参与。

其中要克服的，大多是工程性难题，比如如何降低幻觉率，如何把任务拆解，还有工具调用，任务执行，以及把结果验证的流程内化到模型之中等等。

这个时候，中国模型如果还在一心刷榜，想用分数来证明自己，无疑就像是别人已经走上工作岗位、靠解决真实难题而赚到钱了，你却还在用高考成绩证明自己是个所谓的人才。

中国标准

那中国模型可以怎么做呢？我们也在这儿提一些不成熟的想法，供大家参考。

既然已经看到，中国AI模型真正要证明的是自己具有生产力，就不应该只追别人的榜单，我们自己也可以拿出可检验的生产力标准。

这就像是，考试只能证明你是个比较聪明认真的学生，榜单回答的也只是你的模型比较聪明，但无法向企业和开发者证明你能很好地把活干了。

我们觉得，这套生产力标准应该至少能向别人表明三件事。

第一，我们的模型能听懂任务、拆解任务、并自主执行任务。

能听懂是第一步，能拆解是“会干活”的基础，能自主执行是从AI助手到自动化生产线的跨越。

第二，还要证明，我们的模型能不断降低人在整个生产流程中的介入水平。

比如过程能否追踪、错误率能否不断下降，特别是能否自主修复错误。

第三，就是生产力能否量化。

这不仅是证明你能写文章、画画、做视频、写代码，更是要证明你能解决哪些实际问题、能替代多少人工环节、能创造多少商业价值。

我想，把这些数字和相关案例拿出来，比任何测试都有说服力。

因为所有要用AI的企业，其实不关心你在榜单排第几，它们只关心你是否稳定、能替代多少工作、能创造多少价值。

我们觉得，只要中国的AI模型，能坚持朝着“把脑力劳动做成自动化生产线”的这个方向不断突破，证明自己已经能在真实世界里大幅提高生产力，就不用去证明自己是否超过Fable 5，也不用费劲去跟马斯克打嘴仗，也会得到大家的认可和应用。

最后，也想做个小调研，你觉得中国AI模型和Claude以及GPT这些前沿模型差距大不大？可否分享一下你的具体案例？

以上就是今天的内容！

王煜全要闻评论，我们明天见。

展开阅读全文

更新时间：2026-06-24

标签：科技分水岭中国明年模型长程生产力测试脑力劳动真实分数监督者标准

1 2 3 4 5

马斯克说中国AI明年才能追上Fable 5，但真的“分水岭”是这个

许昌学院：氢燃料电池领域取得重要研究进展

美国质问：光刻机怎么跑中国去了？ASML不忍了，直接戳破美方诡计

我国成功发射通信技术试验卫星二十六号A星

主力抢筹，6.23主力资金最大买入个股名单

创新药大爆发，多股涨停

一条中国新规，让新加坡银行股暴跌！联合早报急了：凭啥拖累我们

超级上市潮令美股融资成本飙升

银行存款大局已定！从2026年下半年起，存款超50万的要留心了

人民币狂飙！央行连夜出手踩刹车，这波升值到底是福是祸？

孩子需要的是自驱型成长，而非家长的操控

想让孩子当学霸？直接让他当老师

端午寄温情，邯郸明仁医院守护母婴美好时光

未成年人防性侵手册，请家长孩子查收！

孩子一点挫折就崩溃？脆弱不是天生，根源全在家长日常养育

李登科直言热巴杨紫缺顶级电影资源，业内发言吵翻全网

美国质问：光刻机怎么跑中国去了？ASML不忍了，直接戳破美方

一条中国新规，让新加坡银行股暴跌！联合早报急了：凭啥拖累

法国急眼了？法式鹅肝被中国制造降维打击，奢侈品成“白菜

欧洲紧盯C919大修报告，中国这招让空客急了，双管齐下！

从皮革跨界半导体兴业科技回应股价提前涨停

中国这款女帝游戏，上线就爆卖，连刘晓庆都爱玩？

什么东西全中国只有深圳蛇口有？

四十年绘蓝图到底六千米架索道入云——中国恩菲黄山

日本芯片设备出口崩了12%，中国国产化率突破35%，谁在卡谁

继六氟化钨断供后，东陶停供中国，日本材料霸权要凉了