这个周末,许多人都在关注第 66 届国际数学奥林匹克竞赛(IMO)的结果。
中国队以 王者归来 之势,重夺冠军宝座。六名队员不负众望,斩获 6 枚金牌,其中更有两位同学获得满分,最终以 231 分 的团队总成绩碾压全场。
与此同时,在另一个专门为 AI 开设的「赛场」上,数学评测平台 MathArena.ai 对当前最顶尖的一批公开大模型,进行了一场 IMO 2025 摸底测试。
结果却令人大失所望。表现最好的 Google Gemini 2.5 Pro 也仅得到 13 分,距离 19 分的铜牌线 仍有巨大鸿沟。
很多人都在评论说:「AI 连铜牌都拿不到,AGI 看来还很远」。
然而,就在大家以为这便是 AI 数学能力的上限时,OpenAI 突然投下了一颗重磅炸弹 。
OpenAI 研究员 Alexander Wei 在 X 上官宣:OpenAI 最新的实验性推理大语言模型,在 IMO 2025 中,取得了金牌水平的成绩!
在与人类选手遵守完全相同规则的情况下,OpenAI 的内部实验模型在 2025 年 IMO 试题上,6 道题解出 5 道,总共拿到 35 分。
根据今年的分数线,35 分,足以摘得一枚金牌 。
更关键的是,这一成就的背后,并非依赖某个「数学特长生」模型,而是源于通用人工智能方法的突破。
这不仅是 AI 在数学领域的里程碑,更可能预示着,一个由 AI 加速的科学发现新范式,正以前所未有的速度向我们驶来。
首先,我们来看看这次成就的含金量到底有多高。
国际数学奥林匹克(IMO),被誉为中学生数学竞赛的「世界杯」,是全球公认的衡量顶尖数学解题能力的巅峰舞台。其试题以极高的难度、深度和对创造性思维的要求而闻名。
IMO 试卷一共有 6 道题目,每题 7 分,总分 42 分。对于人类考生来说,竞赛分为两天,每天有 4.5 小时的时间解答题目。
今年的题目中,第六题最难,仅有 5 人获得 6 分满分。而金/银/铜牌的分数线分别是 35/28/19 分。
在 MathArena 的测评中,研究人员采用了极其消耗资源的 best-of-32 策略:
他们让每个模型针对一道题目,先生成 32 个不同的答案。然后,再让模型自己(LLM-as-a-judge),对这 32 个答案进行评判,最终选出自己认为最强的一个版本,提交给人类专家评分。
研究人员称,这「代表了模型在合理资源预算范围内所能达到的最佳水平。」
然而,大模型们的得分却普遍不高。
当大家普遍认为 2025 年的 AI 模型进展并不足以解答 IMO 题目时,OpenAI 掏出了秘密武器。
OpenAI 虽然没有开放这款神秘模型的访问,但公布了测试的细节:
最终的评分也极其严格。OpenAI 邀请了三位前 IMO 奖牌得主,对模型提交的每一份证明进行独立打分。只有在三位评审员达成一致共识后,分数才被最终确定。
结果是,这个神秘的实验模型在 2025 年的 6 道 IMO 题目中,成功解决了 P1 到 P5,仅在公认难度最高的 P6 上未能给出解法。最终得分 35/42。
这意味着,OpenAI 的模型首次获得了 IMO 金牌。
值得一提的是,OpenAI 已经将模型生成的 5 道题的完整证明过程,在 GitHub 上公开发布,供全球的数学家和 AI 研究者审阅。
链接:
https://github.com/aw31/openai-imo-2025-proofs/
这标志着 AI 的推理能力,已经正式踏入了需要顶尖人类智慧才能企及的领域。
为什么攻克 IMO 对 AI 如此重要?因为它不仅仅是一个更难的数学题库,更代表了对机器推理能力在两个维度上的终极考验。
AI 在数学推理上的进步,可以看作是所需「思考时间」的不断拉长:
从 0.1 分钟到 100 分钟,这背后是 1000 倍 的推理复杂度跃迁。IMO 的题目通常没有固定的解法,需要选手在数小时内,不断尝试各种策略、从特例中寻找规律、提出并验证猜想,最终构建出一个完整且严谨的证明。
以往的很多 AI 任务,比如下棋或者蛋白质结构,都有一个明确、可被计算机轻松验证的奖励信号。但 IMO 的答案是长达数页的自然语言证明,其正确性、严谨性和优雅性都难以被简单量化。
这使得传统的强化学习(RL)范式在此处失灵。如何让模型学会在没有清晰奖励信号的情况下,生成一段逻辑严密、无懈可击的复杂论证?这是一个根本性的难题。
有趣的是,从 MathArena 的评测中我们还能发现,AI 的丢分方式也和人类截然不同。
人类选手在 IMO 比赛中,得分往往是两极分化的 0 分或 7 分(满分),但 AI 却经常获得部分分数。
比如在第 5 题上,评测发现模型常常能识别出正确的解题策略,但却无法完成后续的证明。
这恰恰和人类相反——对于顶尖选手来说,一旦找到正确思路,完成证明反而是相对容易的部分。
这种差异凸显了 AI 与人类在推理路径上的根本不同,也再次证明了 IMO 作为衡量机器高级推理能力标尺的意义。
最让 OpenAI 团队感到兴奋的,并非仅仅是结果本身,而是达成这一结果的方法。
OpenAI 总裁 Greg Brockman 和项目负责人 Alexander Wei 都反复强调,这次的成功并非来自专门为数学优化的狭隘方法论,而是来自于通用 AI 方法的根本性突破。
背后的秘诀是什么?Alexander 提到了两点:
虽然 OpenAI 并未透露技术细节,但我们可以从中解读出关键信息。
「通用强化学习」意味着,这套方法论的目标是提升模型普适的推理能力,而不仅仅是数学能力。这意味着,同样的进步可以被迁移到编程、科学研究、法律等其他所有需要复杂推理的领域。
「测试时计算扩展」则延续了 o1/o3 的推理 Scale law,模型并非简单地生成一个答案,而是利用大量的计算资源进行一种深度的「思考」过程。这其中可能包括但不限于:生成多个不同的解题路径、对每个路径进行自我批判和评估、验证中间步骤、最终选择最优的证明进行输出。
总而言之,OpenAI 走的不是训练数学特长生的捷径,而是通过提升 AI 核心的、通用的认知能力,最终「顺便」解决了 IMO 难题。这是一条更困难,但影响也更深远的道路。
IMO 金牌这一成就,其意义甚至超出了技术圈,直接在 AI 安全和对齐社区引发了剧烈震动。
因为在许多资深研究者眼中,「AI 获得 IMO 金牌」一直是一个衡量 AGI 发展进程的关键哨点事件。
这里就不得不提到一段尘封已久的「赌局」。
2021 年,RLHF 的提出者、被誉为 AI 对齐领域最有影响力的研究者之一的 Paul Christiano,与著名的 AI 末日论者 Eliezer Yudkowsky 就 AI 何时能获得 IMO 金牌进行过一次公开预测。
当时,Paul 认为 AI 在 2025 年底前获得 IMO 金牌的概率只有 8%。而 Eliezer 则认为概率至少有 16%。
Paul 当时甚至立下一个 Flag,他表示如果 AI 真的在 2025 年前拿到 IMO 金牌,这将是 AI 技术发展可能比预期更快的有力证据。他会将他对 「AI 硬起飞」(hard takeoff) 的概率预测,从 30% 提高到 50%。
什么是「硬起飞」?
这指的是 AGI 的发展在极短时间内(从几个月到几天甚至几分钟)呈现爆炸性、失控性的自我加速。与之相对的是「软起飞」(slow takeoff),即 AGI 的能力在数年乃至数十年的时间里平稳增长。
「硬起飞」之所以令人恐惧,是因为它意味着人类社会和制度将几乎没有时间做出反应和适应,从而带来巨大的、不可预测的风险。
Paul Christiano 一直是「软起飞」理论的主要支持者。而如今,这个他自己设定的、足以让他改变核心看法的里程碑事件,竟然真的提前发生了。
可以说,OpenAI 的这项成果,不仅是一次技术突破,更是一记警钟,它让整个领域不得不重新评估 AGI 的发展速度和潜在风险。AI 的未来,可能比我们最大胆的想象,来得更快、更猛烈。
这次的成果也再次印证了 AI 发展的指数级速度。
回顾历史,才能感受到 AI 进步的速度有多么惊人:
就连项目负责人 Alexander Wei 自己也承认,他严重低估了 AI 的进化速度。他在 2021 年读博期间,曾为导师预测 2025 年 7 月的 AI 数学水平,当时他预测 AI 在 MATH 基准测试上的得分率能达到 30% 就不错了,并且认为其他人的预测都过于乐观。
结果,现实不是 30% 的 MATH,而是 IMO 金牌。
这令人不禁畅想,下一步会是什么?
OpenAI 团队成员 Sheryl Hsu 给出了一个大胆的预测:如果明年模型就能推导出新的数学定理,并为原创性数学研究做出贡献,她一点也不会感到惊讶!
最后,大家最关心的问题来了:这个强大的模型,是传说中的 GPT-5 吗?我们什么时候能用上?
Alexander Wei 在公告中给出了明确的说明。
OpenAI 很快将发布 GPT-5,但需要澄清的是:这个获得 IMO 金牌的 LLM 是一个实验性的研究模型。我们没有计划在未来几个月内发布任何具备这种级别数学能力的产品。
这说明:
这也许是一种秀肌肉的表态,我们可以合理猜测,当前公开可用的模型(如 ChatGPT、Claude、Gemini)与公司内部是最前沿的研究模型之间,存在着一定的能力代差。
今天,我们有幸瞥见了 AI 推理能力所能达到的惊人高度。它提醒我们,在讨论 AI 的潜力和未来的同时,我们必须意识到,我们所看到的,永远只是冰山一角。
OpenAI 团队 X 发贴:
更新时间:2025-07-21
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号