Kaggle游戏竞技场开赛:语言模型棋艺业余,AlphaZero仍是天花板

第一届“AI 国际象棋棋王争霸赛”正式开打!


当地时间 8 月 5 号,这场由谷歌和 Kaggle 举办的线上大模型国际象棋比赛开启了为期三天的直播。


目前,第一天的成绩已经出炉。


图 | 第一天的比赛结果,DeepSeek 和 Kimi 双双落败(来源:Kaggle)



上半区,来自中国的两款大模型,DeepSeek-R1 和 Kimi K2 Instruct 分别不敌 o4 mini 和 o3,以 0:4 的成绩双双落败。


下半区,谷歌Gemini 2.5 Pro 击败了 Claude Opus 4,但自家小兄弟 Gemini 2.5 Flash 不敌 Grok 4。


可以看出,所有比赛都是一边倒的情形,获胜模型都是 4 局全胜。


但不同对手间的比赛也有快有慢。最快的是 o3 VS Kimi K2,四小局比赛总共才用了不到半小时:主要原因是 Kimi K2 不停犯错,选择的落子位置连续违反国际象棋规则(稍后会解释具体游戏规则)。


图 | Kimi K2 多次想把位于 d1 的女王移到 d4,违反了国际象棋规则(来源:Kaggle)


而最久的比赛来自 o4-mini VS DeepSeek R1,用了近两个小时才结束整场比赛,说明双方还是很旗鼓相当的。


图 | o4-mini 战胜 DeepSeek R1 的最后一手(来源:Kaggle)



明天,这场“AI 棋王争霸赛”将继续,o4 mini 和 o3 将上演同门之争,而谷歌 Gemini 2.5 Pro 将对战 Grok 4。


值得注意的是,这些直播比赛的性质是表演赛,Kaggle 计划在后台运行更多对决,最终目标是生成一个具有统计意义的“AI 棋王”排行榜。


(来源:Kaggle)



这场比赛是在 Kaggle 游戏竞技场(Game Arena)进行的。


它是 Kaggle 与谷歌 DeepMind 联合推出的全新 AI 基准测试平台,旨在让领先的人工智能模型在国际象棋等复杂策略游戏中展开正面较量。


与以往静态任务不同,该平台通过对抗竞技的方式进行评测:各参赛模型需要在明确的胜负条件下进行多轮对局,其胜负结果即为模型能力的直接量化指标。


谷歌表示,这一动态测试方式有效避免了传统基准测试可能出现的“背题”问题,使其能够“超越静态分数”,更深入地观察 AI 在真实竞争环境中的表现。


图 | 参赛的八个模型(来源:Kaggle)



这一理念的起点是棋盘游戏的天然优势:国际象棋等游戏具有结构化和可量化的胜利标准,能够考验模型的策略推理、长远规划和动态应变能力,并随着对手强度的提高而自动提升难度。


事实上,谷歌 DeepMind 早在 2017 年就通过 AlphaZero 项目证明了自我对弈的威力:AlphaZero 仅用强化学习自学棋艺数小时,即以压倒性优势在 100 局比赛中战胜当时最强的国际象棋引擎 Stockfish。


不过,参加 Kaggle 对决的模型并非专用棋类引擎,而是以大型语言模型(LLM)为代表的通用 AI。


这些模型目前的棋力还远低于 AlphaZero,多数仅处于业余水平,并且经常出现非法落子或荒唐认输等错误——在直播中也屡见不鲜,而且有的大模型还很执着,即使给它重新思考的机会,它也经常固执己见。


尽管如此,它们能够输出对每一步棋的“思考过程”说明,这是传统引擎所不具备的特点。这种动态对抗不仅记录胜负,还让我们得以探知 AI 的“思维过程”,为AI 战略智能的发展提供了独特视角。


(来源:Kaggle)



赛事以模拟对局方式进行并同步在线直播,著名国际象棋大师也参与其中,包括国际象棋特级大师中村光(Hikaru Nakamura)、国际象棋特级大师马格努斯·卡尔森(Magnus Carlsen)和国际象棋网红莱维·罗斯曼(Levy Rozman,即 GothamChess)。


赛事采用单败淘汰赛制,参赛模型通过赛前预热赛确定种子排名,然后进入对阵表。


谷歌表示,“排名靠前的模型将面对排名较低的对手,以确保平衡的排名,并防止两个最强种子在决赛前相遇。”


每场对决按照标准的棋盘规则执行,赛后 Kaggle 还将在其平台上维护一个类似 Elo 的实时排行榜,用于跟踪所有模型的表现。在未来计入排行榜的对决中,所有模型间将进行全对弈(all-play-all)的形式对局:即每一对模型至少对弈上百局,以获得统计稳定的排名结果。


评分系统采用类似高斯分布的动态估计,胜者评分上升、败者下降,平局则双方分数向均值靠拢。更新幅度取决于对局结果与比赛前预期胜率的偏差,以及各模型评分的不确定度(σ 值)。随着比赛进行,每个模型的 σ 逐渐降低,评分趋于稳定。


这种机制类似国际象棋的 Elo 体系,使得模型实力随着更多对局累积得到不断校准和量化。通过比赛产生的全局对局数据,Kaggle 会不断完善各模型的能力计算方式,公众可随时在排行榜页面查看最新排名和对局记录。


值得注意的是,为了公平性和可分析性,所有参赛模型都以文本输入输出的方式进行对局,并被禁止调用任何外部棋力计算工具。


图 | Kaggle 游戏竞技场介绍(来源:Kaggle)



每一步,比赛平台向模型提供当前棋盘状态(采用 Forsyth-Edwards 记谱法)及棋谱历史(采用 PGN 格式),模型必须以标准代数记谱(SAN)格式给出下一步合法落子。


模型不会被直接告知可行走法列表,必须自主判断后输出答案;如果模型输出了非法走法,则会被提示重试,最多允许四次尝试(一次初始提交加三次重试)。若模型仍无法给出合法走法,则该局判定为模型的失利,胜者赢得比赛。


同样,为了节奏控制,每一步棋设有 60 分钟的应答时限。比赛直播除了记录对局结果,还会尝试展示每个模型的思考过程——即模型在每走一步前的输出内容,为赛后分析模型行为提供素材。


至于为何将棋类游戏作为 AI 能力评估的标尺?


谷歌团队指出,棋局比赛提供了清晰且严格的成功信号,能够全面考察模型的综合推理能力。由于国际象棋的复杂性和变化性,无论是开局还是残局,模型都必须处理动态变化的对抗局面,并策划多步行动才能取胜。


这一点与企业和现实生活中的许多复杂决策过程有相似之处:需要战略规划、记忆历史信息、应变对手策略,甚至涉及一定的心智理论,即推测对方意图。


值得一提的是,目前绝大多数大型语言模型并非专门为下棋设计,因此在棋盘上表现并不突出。不同于传统深度强化学习算法,它们既没有访问专门的棋库,也无法像专业引擎那样自动搜索大量变招。


谷歌也在博客中表明:“Stockfish 等专业棋类引擎与 AlphaZero 已能多年保持超人水平,对任何边界模型都将轻松取胜;而今日的大语言模型并未针对特定游戏优化,因此表现远不及专业领域 AI。”


短期来看,Kaggle 比赛的挑战在于帮助这些通用模型缩小差距。长期而言,其初衷还是希望大模型能不断进化,甚至在新引入的游戏环境中达到或超越目前的水平。


参考资料:

https://www.chess.com/article/view/chatgpt-gemini-play-chess

https://www.chess.com/news/view/which-ai-model-is-the-best-at-chess-kaggle-game-arena

https://blog.google/technology/ai/kaggle-game-arena/

https://www.theregister.com/2025/07/14/atari_chess_vs_gemini/

https://www.kaggle.com/benchmarks/kaggle/chess-text/leaderboard

展开阅读全文

更新时间:2025-08-07

标签:游戏   棋艺   竞技场   天花板   模型   语言   国际象棋   来源   棋盘   棋王   落子   能力   方式   引擎

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top