在人工智能的赛场上，也刚刚上演了一次“张雪时刻”？！

文｜史中

2026年4月12日 11:39

最近，张雪机车拿到了 WSBK 的分站赛冠军，张雪提到一个深刻的认知：

我们国家汽车产业链非常齐全！只要有图纸，中国百分百做得出来，不比欧日美差！

从本质上说，张雪机车登顶，是整个中国工业化能力的一次“涌现”。

你可能不知道的是，就在张雪机车夺冠的五天前，一个中国的 AI 同样在顶级的比赛中力压一堆老外，夺得了榜首。

这场夺冠同样是中国 AI 工程化能力的一次“涌现”。而且，过程也同样充满了争执、反转和热血戏码。。。

这个比赛，叫做 MLE-Bench；夺得榜首的 AI，就是百度的伐谋 2.0。

我简单给你念叨念叨。

1、MLE-Bench 比的是个啥？

所有智能（包括人脑和 AI）的基本功能，都可以概括为：在一个巨大的解空间里，搜索更好的解。

有点抽象，举个例子吧：

眼前有无数个乒乓球，每个球上都有个数字，智能的目标，就是要找出数字更大的那个球。
由于乒乓球总数是无限的，谁也不敢说找到了数字最大的球，但你总可能找到数字更大的球。

也就是说，智能的进化，在理论上是永无止境的。

智能的行为虽然都是搜索，但可以分成两类：

一类是找答案。

比如下围棋的 AlphaGo，它就是在所有的可能点位里，搜索到更好的落子点位。

一类是找方法。

比如制作 AlphaGo 的工程师们，就是在所有可能的架构里，搜索出一个更好的架构，让它下棋能力更强。

说白了，找答案就相当于开摩托车的瓦伦丁，找方法就相当于造摩托车的张雪。

这俩都挺难，但难点不一样。

MLE-Bench 比赛，就是“找方法”的比赛，相当于一堆“张雪”来比谁有办法造出更牛的车。

它总共有七十多道赛题，大概长这样：

给定一堆过去的房价数据，你要造一个系统，预测未来的房价。
给定一堆 X 光片，你要造一个系统，从中识别乳腺癌。
给定一堆地震仪传感器数据，你要造一个系统，预测火山啥时候喷发。

这些题的数据都是取自真实世界已经发生过事情，所以是有标准答案的。谁搞出来的系统预测能力强，一目了然。

即便如此，还是有一帮人叽歪起来了。。。

随便给你截图一些试题类型，你感受一下。（机翻的）

2、穿越者

之前我给大家介绍过百度伐谋（参考《百度造了个做题家》），这个 AI 系统就是专门“找方法”的，参加 MLE-Bench 可以说是门当户对。

我给伐谋起了外号，叫“莫得感情的做题家”。

确实，参加比赛的时候，伐谋只会低头干活，情商没有一点。。。

自从 2025 年 10 月第一次提交结果，伐谋就拿到了 43.56 分，第一名；12 月又提交了一次结果，59.56 分，第一名。

但到了 2026 年 2 月，杀出了个程咬金。

一家创业企业 Disarray 提交的结果直接拿到了 77.78 分，远远超过伐谋。

伐谋没意见，第二就第二呗，继续努力。

但不久，社区里就开始对 Disarray 产生了一浪接一浪的质疑声。

具体来说是这样的：

MLE-Bench 使用的数据集叫 Kaggle，它分为公有集和私有集两个部分。标准用法是：公有集做题目，私有集做答案。

但 MLE-Bench 的组委会（OpenAI）没拿到答案这部分，于是把题目掰成了两半，一半做“新题目”，一半做“新答案”。

这样在技术上可行，但可想而知新题目和新答案这两部分在网上都是能公开找到的。。。

Disarray 团队倒没有照抄答案（照抄答案肯定得 100 分嘛），而是做了一个“判官”，系统每提交一次答案，验证器就告诉它：你这个方法有没有达到及格线。

注意，不是告诉它得了多少分，只是告诉它“及格”还是“不及格”。

这是 Disarray 团队的解释。

这个局面很微妙：你不能说它抄答案，但是标准答案又确实对它的训练产生了影响。

“穿越了，但又没完全穿越。。。”姿势相当薛定谔。

Disarray 到底算不算作弊，整个社区吵疯了，从二月初吵到了三月底。

一位老哥对 Disarray 的反驳。

压力给到赛事组委会。取消成绩，还是不取消成绩？

最后组委会也做出了一个薛定谔的决定：单开一个附加榜单，把“穿越者”挪到了那里。。。

这么一来，伐谋又成了第一。

伐谋说：行。

3、做题家

最有喜感的是：

一堆人在身边群殴，伐谋还只干一件事：做题。。。

吵得最激烈的二月底，伐谋突然举手。大家以为他要参战，结果伐谋说：老师，那个，我又提交了一版答案！

正是这版答案，拿到了 64.44 分，也就是此时此刻的榜首。

这一版本的背后，还有个有趣的内幕：

当时的吵架，伐谋内部同学不可能看不到，甚至也讨论过要不要跟随这种“擦边方法”，但大家一致否决了。

倒也不是什么道德洁癖，主要原因是：伐谋的目的是解决真实世界中的策略进化问题。

比如，在汽车设计时，怎么找到更好的风阻模拟方案？在银行里，怎么找到更好的金融风控策略？

真实世界里，天王老子来了也没办法穿越。。。你得老老实实拿出真功夫。

说到这儿，我正好给你快速解释一下伐谋到底是怎么工作的。

1、面对一个工业难题，人类把当前探索出的最佳方案输入伐谋，作为起点。
2、伐谋会在这个起点上，生成无数个备选改进方案。然后把这些方案分成不同“种群”。
3、每个“种群”会作为新的起点，继续生成改进方案，分裂出新的种群。就像地球上的物种进化一样，它会一直产生稀奇古怪的新物种，每个物种都是一个“带数字的乒乓球”。
4、随着时间推进，进化树不断延展，总会找到数字更大的乒乓球，也就是”更好的方案”！

但是，请注意！这个进化有个终极限制——资源。

算力是宝贵的，时间也是有限的。你必须在最短的时间里，用最少的搜索次数，演化出最好的物种。就像 AlphaGo 必须在有限的时间内找到最好的落子位置一样。

说到根本，这考验的是伐谋背后的那个法宝：演化策略。

4、成为造物主

啥是演化策略呢？

现在假设你是伐谋。

你同时生成了 100 个方案“种群”，你怎么知道接下来哪个种群更有希望产生你要的物种呢？

你得大概判断出哪个方向更“有戏”。

这个判断“有多大戏”的角色，就叫“验证器”。

每生成一个种群，你都得用验证器验证看一下它靠不靠谱。这个验证器可能包括：硬约束评估、逻辑评估、直觉评估等等好多模块。

在进化树上，生成器决定树杈的生长，验证器决定树杈的停止生长。

生成器和验证器的指标、参数，以及它们的配合规则，共同构成了演化策略！