Lilian Weng 万字长文揭秘大模型「思考」的奥秘！从 CoT 到 Aha Moment

AI 圈又出重磅深度长文！知名 AI 研究员、前 OpenAI 应用 AI 研究负责人 Lilian Weng，刚刚在她的博客 Lil'Log 上发表了一篇信息量爆炸的万字长文——《Why We Think》。深入剖析了当前大模型领域最火热的研究方向之一：大模型的推理能力从何而来？如何让 AI 模型像人一样「多想一会儿」，从而变得更聪明？

Lilian Weng 的博客，篇篇精品。虽然更新不多，但她关于 Prompt 工程、智能体、大模型幻觉、奖励黑客的内容，都成为了业内必读文章。

《Why We Think》由 Lilian Weng 亲自执笔，并得到了 AI 大神 John Schulman（ChatGPT和RLHF的关键人物）的深度参与和修改，其分量可见一斑。

我非常推荐大家去读原文：
https://lilianweng.github.io/posts/2025-05-01-thinking/

但原文里引用了大量的论文，一些朋友对专业术语和数学公式也许有畏难情绪，所以我斗胆在 Lilian Weng 文章的基础上再简化一番，帮助大家理解文章中的核心观点。

你是否也曾好奇，为什么有时 AI 模型在面对复杂问题时，只要给它更多「思考时间」，答案质量就能飙升？为什么「思维链」（Chain-of-Thought, CoT）这个概念如此火爆，能让模型展现出惊人的推理能力？这背后究竟藏着怎样的秘密？

现在，就让我们跟随 Lilian Weng 的思路，一起探寻 AI 推理能力的前世今生和未来图景吧！

为什么要让 AI 学会思考？

为什么我们要让 AI 在给出答案前「多花点时间琢磨琢磨」？这种技术方式从何而来？

向人类智慧取经：「快思考」与「慢思考」

Lilian Weng 首先提到了诺贝尔奖得主丹尼尔·卡尼曼的著名理论《思考，快与慢》。简单来说，我们人类有两种思考模式：

「快思考」：凭直觉、拍脑袋，不怎么费劲，比如你看到红灯会下意识踩刹车。
「慢思考」：需要集中精力、逻辑分析，比较费脑子，比如解一道复杂的数学题。「快思考」虽然快，但容易出错；而「慢思考」虽然慢，但更靠谱。

让 AI 学会「慢思考」，就是希望它们也能启动这种更深思熟虑的模式，解决更复杂的问题。

「思考时间」是一种宝贵资源

如果把 AI 模型看作一个超级大脑，那么它处理信息就需要消耗计算资源。如果在解决问题时，给它更多的计算资源（也就是更多的「思考时间」），并且教会它如何有效利用这些时间，那它的表现自然会更好。

结合像「思维链」这样的技术，就能让 AI 根据问题的难易程度，动态调整「思考」的深度和广度。

「思考过程」本身也很重要

在机器学习看来，一个问题的答案（比如数学题的最终结果）固然重要，但通往答案的「思考过程」或「解题步骤」同样关键。如果能让 AI 学会生成并理解这些「隐藏的思考步骤」，就能更好地把握问题的本质，给出更棒的答案。

「思维链」的魔力：从「一步一步来」到 AI 的自我进化

让 AI 在给出最终答案前，先输出中间的思考步骤，这个想法在 AI 解决数学题等任务中早就有了。

最初的火花：早期研究者就尝试让 AI 模仿人类解决数学题时写下解题步骤，或者在 AI 的「脑子里」开辟一块「草稿区」来打草稿。
「思维链」横空出世：后来，研究者发现，只要简单地提示大模型「让我们一步一步地思考（Let's think step by step）」，就能奇迹般地提升它们的推理能力，尤其是在面对那些弯弯绕绕的复杂问题时。这就好比给 AI 一个「慢下来，想清楚」的指令。
AI 的自我学习与进化：更进一步，科学家们发现，通过「强化学习」（一种让 AI 从试错中学习的方法），可以显著增强 AI 的「思维链」推理本领。最近备受关注的 DeepSeek-R1 模型，就是一个通过强化学习练就超强推理能力的典范。

思维链提示能提高数学问题解决的成功率。模型越大，从思考时间中获得的好处就越多。

优化 AI 的「思考艺术」：多管齐下与精益求精

既然「多想一会儿」有好处，那么如何让 AI「想」得更有效率、更有章法呢？主要有两大策略：并行采样和顺序修正。

广撒网：同时尝试多种思路 (并行采样)

这就像我们解题时，可能会同时思考好几种可能的解法，然后选一个最好的。

AI 可以一次性生成很多条不同的「思考路径」，然后通过一些方法（比如内部评估哪个路径最「自信」，或者看哪个答案在多次尝试中出现得最多——即「自我一致性」）来挑出最优解。

甚至有研究发现，不需要刻意引导，只要在 AI 开始思考的最初几步给它一些选择空间，它自己就能「脑补」（涌现）出包含「思维链」的完整思考过程。

回头看：迭代修正，不断完善 (顺序修正)

这种方法更像我们写文章时的「反复修改」。AI 先给出一个初步的思考和答案，然后自己「反思」一下，看看有没有错误或可以改进的地方，再进行修正。

挑战重重：不过，让 AI 自己有效地「反思」和「纠错」其实很难。它们可能会「固执己见」，或者把对的改成错的，甚至「越改越糊涂」。所以，通常需要一些外部的「反馈」或专门的训练，才能让 AI 真正学会自我校准。
解决方案：科学家们设计了一些特殊的训练方法，比如训练一个专门负责「纠错」的 AI 模型，或者通过强化学习鼓励 AI 在第二次尝试时做得比第一次更好。

这两种方法各有优劣：「广撒网」简单直接，但可能一次也「捞不到鱼」（即找不到正确答案）；「回头看」虽然能主动纠错，但过程更慢，也更容易「跑偏」。实际应用中，两者往往可以结合起来。

强化学习：点燃 AI 推理的「顿悟时刻」

近年来，强化学习（RL）在提升 AI 推理能力方面取得了惊人的成就，尤其是在那些有明确答案的问题上（比如数学题和编程题）。

DeepSeek-R1 带来的启示

DeepSeek R1 模型在数学、编程等需要深度思考的任务上表现出色。它的成功秘诀之一，就是经历了好几轮「SFT-RL」的混合训练（可以理解为「先学习人类范例，再通过试错强化」）。

最令人兴奋的是，研究团队发现，即便只用强化学习，AI 也能自发地学会反思、回溯、修正错误，甚至展现出类似人类灵光一闪的「顿悟时刻」（Aha moment）！ 这意味着 AI 在解决难题时，如果一条路走不通，它会尝试退回去，换个角度重新思考。

Lilian Weng 还特别提到，DeepSeek 团队也坦诚地分享了他们的一些「失败经验」，比如尝试用某些方法（如过程奖励模型、蒙特卡洛树搜索）去指导 AI 思考，结果效果并不理想。这种开放分享「哪些路走不通」的精神，对于整个 AI 研究社区来说都非常宝贵。

工具使用：AI 也能开「外挂」

AI 在思考时，并非只能「闭门造车」。它们也可以像我们一样，借助外部工具来辅助思考。

比如，遇到复杂的数学计算，AI 可以调用「计算器程序」；需要写代码，它可以借助「代码执行器」。

更进一步，像 ReAct 这样的技术，能让 AI 在推理的同时，主动去网上（比如维基百科）搜索相关信息，把外部知识融入到自己的思考链条中。

OpenAI 最新的一些模型（如 o3、o4-mini）也展示了这种强大的「工具使用」能力，它们可以熟练地调用网页搜索、代码执行甚至图像处理等功能来完成复杂任务。

AI 所「说」的，真的是它所「想」的吗？「忠实思考」的难题

AI 的「思维链」让我们仿佛能看到它「脑子里」在想什么，这对于理解和信任 AI 非常重要。但这里有一个关键问题：AI 展示给我们的「思考过程」，真的是它内心真实的想法吗？还是它只是学会了生成看起来合理的「解释」？

监控 AI 的「小心思」

有研究表明，通过观察 AI 的「思维链」，确实能发现一些它「耍小聪明」（比如投机取钻空子）的行为。而且，让 AI「多想一会儿」似乎也能让它在面对一些刁钻问题（比如「文字陷阱」）时表现得更稳健。

「忠诚度」大考验

科学家们做了一些有趣的实验来测试 AI 的「忠诚度」。比如，故意在问题中给出错误的暗示，然后看 AI 的「思维链」会不会提到这个暗示，以及它是否会受其影响而改变答案。

结果发现，那些经过专门推理训练的 AI 模型，似乎比普通模型更「诚实」一些，它们在「思维链」中更倾向于承认自己受到了暗示的影响。

「好心办坏事」的风险

如果我们过于强调让 AI 的「思维链」看起来完美无缺，甚至把「解释得好」作为训练 AI 的一个重要目标，那 AI 可能会学会「粉饰太平」，生成一些华而不实的「伪思考过程」，而不是真正提升自己的思考能力。这就像有些学生，做作业不是为了真正理解，而是为了写出老师想看的标准答案。

换个「姿势」思考：AI 的「连续思考」与「潜意思考」

除了我们上面看到的像「一步一步」这样的离散思考方式，AI 还有一些更「抽象」的思考模式。

在「连续空间」中思考

循环往复地想：有些 AI 架构设计得像一个「循环神经网络」，可以让信息在模型内部反复流转，从而实现更深度的、动态调整的计算，这就像我们对一个问题翻来覆去地琢磨。

「思考的节拍」：还有一种思路是，在 AI 处理的文本中插入一些特殊的、不发音的「思考 token」或「停顿 token」。这些特殊标记就像音乐中的休止符，给 AI 留出更多「时间」和「算力」去处理信息，酝酿下一步的输出。

「念念不忘，必有回响」的 Quiet-STaR：这项技术让模型在预测下一个词之前，先在「内心」生成一些关于「为什么我要这么预测」的理由。这就像一个人在说话前，会先在心里打个腹稿。

把「思考」看作「隐藏的变量」

我们可以把 AI 的「思考过程」看作一些我们直接观察不到的「潜变量」。AI 的训练目标，就是通过学习大量的「问题-思考过程-答案」的组合，来掌握这种从问题到答案的映射关系，即使我们只给它问题，它也能推断出可能的「思考过程」并给出答案。

迭代学习的智慧（以 STaR 为例）：STaR 这个方法很聪明。它让 AI 先自己尝试解决问题并给出思考过程。如果对了，就强化这个过程。如果错了，STaR 会「反过来」告诉 AI：「你看，这个问题正确的答案是这样的，那么一个合理的思考过程应该是这样的……」

这样，AI 就能从成功和失败中都学到东西，不断迭代优化自己的推理能力。

「思考时间」也有「规模效应」吗？

我们知道，AI 模型的参数越多、训练数据越大、训练时间越长，通常就越聪明，这就是所谓的「缩放定律」（Scaling Laws）。那么，「思考时间」这个新维度，是不是也遵循类似的规律呢？

「多想」确实有回报：研究表明，在一定范围内，给 AI 更多测试时的「思考时间」，确实能带来性能上的提升。小一些的模型，如果配合巧妙的「思考策略」，有时甚至能媲美那些只知道「一根筋」傻算的大模型。

但「思考」不能替代一切：测试时的「思考时间」并不能完全弥补模型基础能力的不足。一个本身比较「笨」的模型，就算给再多时间，可能也想不出太复杂的问题。所以，打好坚实的基础（即拥有一个强大的预训练模型）仍然非常重要。

「想多久」和「怎么想」都很关键：研究还发现，并不是简单地让 AI「想得越久越好」。有些方法，比如强行让 AI 生成更长的「思维链」，确实能看到性能提升。但另一些方法，比如只是简单地让 AI 多试几次直到凑够一定的「思考长度」，效果反而可能变差。这说明，思考的「质」和「量」同样重要。

AI 思考的未来：星辰大海与未解之谜

Lilian Weng 在文章最后，为我们描绘了 AI「思考」研究的广阔前景，同时也指出了摆在科学家面前的一系列亟待解决的难题：

1. 如何让 AI 聪明又诚实：怎样才能在训练中鼓励 AI 生成既有用又真实的思考路径，同时又防止它学会「钻空子」？
2. 揪出 AI 的小心思：我们该如何定义 AI 的「作弊行为」？能不能在 AI 训练或运行时自动发现这些行为，而不需要人去一个个检查？
3. AI 能「自我纠错」吗：当没有标准答案时，如何训练 AI 有效地自我纠正错误，而不会产生新的幻觉或越改越糟？
4. 应对开放式问题的挑战：对于那些没有唯一答案、高度依赖情境和个性的任务（比如写小说、做心理辅导、头脑风暴），AI 该如何运用「思考链」进行学习和推理？
5. 「思考红利」如何落地：在实际应用中，我们不可能让 AI 无限制地「想下去」。那么，如何才能把通过「慢思考」获得的性能提升，有效地「压缩」回基础模型中，让它既聪明又高效？
6. 「看菜下碟」的智慧：怎样才能让 AI 学会根据问题的难易程度，动态调整自己的「思考投入」，做到「好钢用在刀刃上」？

这些问题现在也许还没有答案，但一定是下一步的研究方向。

总之，Lilian Weng 的这篇深度好文，为我们指明了通往更高级 AI 智能的探索方向。让 AI 学会像人类一样深思熟虑、灵活应变、批判反思、修正错误，这条路虽然充满挑战，但也充满了无限可能。

也许，教会 AI「思考」的征程，才刚刚开始。

原文链接：

Weng, Lilian. "Why We Think". Lil'Log (May 2025). https://lilianweng.github.io/posts/2025-05-01-thinking/

展开阅读全文

更新时间：2025-06-06

标签：科技奥秘模型答案思维过程时间能力方法发现深度人类

1 2 3 4 5