文|史中
2026年4月12日 11:39
最近,张雪机车拿到了 WSBK 的分站赛冠军,张雪提到一个深刻的认知:
我们国家汽车产业链非常齐全!只要有图纸,中国百分百做得出来,不比欧日美差!
从本质上说,张雪机车登顶,是整个中国工业化能力的一次“涌现”。


你可能不知道的是,就在张雪机车夺冠的五天前,一个中国的 AI 同样在顶级的比赛中力压一堆老外,夺得了榜首。
这场夺冠同样是中国 AI 工程化能力的一次“涌现”。而且,过程也同样充满了争执、反转和热血戏码。。。
这个比赛,叫做 MLE-Bench;夺得榜首的 AI,就是百度的伐谋 2.0。
我简单给你念叨念叨。

1、MLE-Bench 比的是个啥?
所有智能(包括人脑和 AI)的基本功能,都可以概括为:在一个巨大的解空间里,搜索更好的解。
有点抽象,举个例子吧:
眼前有无数个乒乓球,每个球上都有个数字,智能的目标,就是要找出数字更大的那个球。
由于乒乓球总数是无限的,谁也不敢说找到了数字最大的球,但你总可能找到数字更大的球。

也就是说,智能的进化,在理论上是永无止境的。
智能的行为虽然都是搜索,但可以分成两类:
一类是找答案。
比如下围棋的 AlphaGo,它就是在所有的可能点位里,搜索到更好的落子点位。

一类是找方法。
比如制作 AlphaGo 的工程师们,就是在所有可能的架构里,搜索出一个更好的架构,让它下棋能力更强。

说白了, 找答案就相当于开摩托车的瓦伦丁,找方法就相当于造摩托车的张雪。
这俩都挺难,但难点不一样。

MLE-Bench 比赛,就是“找方法”的比赛,相当于一堆“张雪”来比谁有办法造出更牛的车。
它总共有七十多道赛题,大概长这样:
给定一堆过去的房价数据,你要造一个系统,预测未来的房价。
给定一堆 X 光片,你要造一个系统,从中识别乳腺癌。
给定一堆地震仪传感器数据,你要造一个系统,预测火山啥时候喷发。
这些题的数据都是取自真实世界已经发生过事情,所以是有标准答案的。谁搞出来的系统预测能力强,一目了然。
即便如此,还是有一帮人叽歪起来了。。。

随便给你截图一些试题类型,你感受一下。(机翻的)
2、穿越者
之前我给大家介绍过百度伐谋(参考《百度造了个做题家》),这个 AI 系统就是专门“找方法”的,参加 MLE-Bench 可以说是门当户对。
我给伐谋起了外号,叫“莫得感情的做题家”。
确实,参加比赛的时候,伐谋只会低头干活,情商没有一点。。。
自从 2025 年 10 月第一次提交结果,伐谋就拿到了 43.56 分,第一名;12 月又提交了一次结果,59.56 分,第一名。

但到了 2026 年 2 月,杀出了个程咬金。
一家创业企业 Disarray 提交的结果直接拿到了 77.78 分,远远超过伐谋。

伐谋没意见,第二就第二呗,继续努力。
但不久,社区里就开始对 Disarray 产生了一浪接一浪的质疑声。
具体来说是这样的:
MLE-Bench 使用的数据集叫 Kaggle,它分为公有集和私有集两个部分。标准用法是:公有集做题目,私有集做答案。
但 MLE-Bench 的组委会(OpenAI)没拿到答案这部分,于是把题目掰成了两半,一半做“新题目”,一半做“新答案”。
这样在技术上可行,但可想而知新题目和新答案这两部分在网上都是能公开找到的。。。
Disarray 团队倒没有照抄答案(照抄答案肯定得 100 分嘛),而是做了一个“判官”,系统每提交一次答案,验证器就告诉它:你这个方法有没有达到及格线。
注意,不是告诉它得了多少分,只是告诉它“及格”还是“不及格”。

这是 Disarray 团队的解释。
这个局面很微妙:你不能说它抄答案,但是标准答案又确实对它的训练产生了影响。
“穿越了,但又没完全穿越。。。”姿势相当薛定谔。
Disarray 到底算不算作弊,整个社区吵疯了,从二月初吵到了三月底。

一位老哥对 Disarray 的反驳。
压力给到赛事组委会。取消成绩,还是不取消成绩?
最后组委会也做出了一个薛定谔的决定:单开一个附加榜单,把“穿越者”挪到了那里。。。
这么一来,伐谋又成了第一。
伐谋说:行。
3、做题家
最有喜感的是:
一堆人在身边群殴,伐谋还只干一件事:做题。。。

吵得最激烈的二月底,伐谋突然举手。大家以为他要参战,结果伐谋说:老师,那个,我又提交了一版答案!
正是这版答案,拿到了 64.44 分,也就是此时此刻的榜首。
这一版本的背后,还有个有趣的内幕:
当时的吵架,伐谋内部同学不可能看不到,甚至也讨论过要不要跟随这种“擦边方法”,但大家一致否决了。
倒也不是什么道德洁癖,主要原因是:伐谋的目的是解决真实世界中的策略进化问题。
比如,在汽车设计时,怎么找到更好的风阻模拟方案?在银行里,怎么找到更好的金融风控策略?

真实世界里,天王老子来了也没办法穿越。。。你得老老实实拿出真功夫。
说到这儿,我正好给你快速解释一下伐谋到底是怎么工作的。
1、面对一个工业难题,人类把当前探索出的最佳方案输入伐谋,作为起点。
2、伐谋会在这个起点上,生成无数个备选改进方案。然后把这些方案分成不同“种群”。
3、每个“种群”会作为新的起点,继续生成改进方案,分裂出新的种群。就像地球上的物种进化一样,它会一直产生稀奇古怪的新物种,每个物种都是一个“带数字的乒乓球”。
4、随着时间推进,进化树不断延展,总会找到数字更大的乒乓球,也就是”更好的方案”!

但是,请注意!这个进化有个终极限制——资源。
算力是宝贵的,时间也是有限的。你必须在最短的时间里,用最少的搜索次数,演化出最好的物种。就像 AlphaGo 必须在有限的时间内找到最好的落子位置一样。
说到根本,这考验的是伐谋背后的那个法宝:演化策略。
4、成为造物主
啥是演化策略呢?
现在假设你是伐谋。
你同时生成了 100 个方案“种群”,你怎么知道接下来哪个种群更有希望产生你要的物种呢?
你得大概判断出哪个方向更“有戏”。
这个判断“有多大戏”的角色,就叫“验证器”。
每生成一个种群,你都得用验证器验证看一下它靠不靠谱。这个验证器可能包括:硬约束评估、逻辑评估、直觉评估等等好多模块。
在进化树上,生成器决定树杈的生长,验证器决定树杈的停止生长。
生成器和验证器的指标、参数,以及它们的配合规则,共同构成了演化策略!

伐谋能达到 MLE-Bench 榜单第一,本质上证明了它的演化策略是最强的。
而演化策略要想保持稳定发挥,还要坐落在一个基础之上,那就是——长程记忆。
这其实很好理解,整个演化任务是一个超大的单一任务,没有办法把它切割成独立的小任务。
这意味着,你无论走多远,都不能忘了为什么出发。
据我了解 ,百度这群狼灭从几年以前就投重兵在“超长程记忆”的研发上。在这方面,他们是有点儿存货的。

就算有了超屌的演化策略,有了超长的记忆能力,还是不够,这两样都需要坐落在一个更大的基础之上——基础设施。
在我看来,对百度的基础设施最精准的评价就是:全栈。
内行一看“全栈”,就知道含金量了,这意味着从底层芯片到云计算架构,到上层的关键系统,都必须是自己家的。全球能做到“全栈”的 AI 厂商,半个巴掌就能数出来。(参考《难得百度这么有松弛感》)

还是借用张雪那个逻辑,这一切不仅是百度的努力,本质上更是中国 AI 工程化能力的涌现。
虽然在比赛中得到了第一,但伐谋背后的这群师傅真正在乎的,是在真实世界中得到第一。
如果每个行业的普通人都能上手伐谋,在赛博空间里用 AI 模拟出亿万年生物进化的汹涌,他们就不再是普通人,而是自己行业的造物主。
无数“造物主”站在这片土地上,才能诞生无穷无尽的张雪时刻。
更新时间:2026-04-15
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034844号