Lilian Weng 万字长文揭秘大模型「思考」的奥秘!从 CoT 到 Aha Moment

AI 圈又出重磅深度长文!知名 AI 研究员、前 OpenAI 应用 AI 研究负责人 Lilian Weng,刚刚在她的博客 Lil'Log 上发表了一篇信息量爆炸的万字长文——《Why We Think》。深入剖析了当前大模型领域最火热的研究方向之一:大模型的推理能力从何而来?如何让 AI 模型像人一样「多想一会儿」,从而变得更聪明?

Lilian Weng 的博客,篇篇精品。虽然更新不多,但她关于 Prompt 工程、智能体、大模型幻觉、奖励黑客的内容,都成为了业内必读文章。

《Why We Think》由 Lilian Weng 亲自执笔,并得到了 AI 大神 John Schulman(ChatGPT和RLHF的关键人物)的深度参与和修改,其分量可见一斑。

我非常推荐大家去读原文
https://lilianweng.github.io/posts/2025-05-01-thinking/

但原文里引用了大量的论文,一些朋友对专业术语和数学公式也许有畏难情绪,所以我斗胆在 Lilian Weng 文章的基础上再简化一番,帮助大家理解文章中的核心观点。


你是否也曾好奇,为什么有时 AI 模型在面对复杂问题时,只要给它更多「思考时间」,答案质量就能飙升?为什么「思维链」(Chain-of-Thought, CoT)这个概念如此火爆,能让模型展现出惊人的推理能力?这背后究竟藏着怎样的秘密?

现在,就让我们跟随 Lilian Weng 的思路,一起探寻 AI 推理能力的前世今生和未来图景吧!

为什么要让 AI 学会思考?

为什么我们要让 AI 在给出答案前「多花点时间琢磨琢磨」?这种技术方式从何而来?

向人类智慧取经:「快思考」与「慢思考」

Lilian Weng 首先提到了 诺贝尔奖得主丹尼尔·卡尼曼的著名理论《思考,快与慢》。简单来说,我们人类有两种思考模式:

让 AI 学会「慢思考」,就是希望它们也能启动这种更深思熟虑的模式,解决更复杂的问题。

「思考时间」是一种宝贵资源

如果把 AI 模型看作一个超级大脑,那么它处理信息就需要消耗计算资源。如果在解决问题时,给它更多的计算资源(也就是更多的「思考时间」),并且教会它如何有效利用这些时间,那它的表现自然会更好。

结合像「思维链」这样的技术,就能让 AI 根据问题的难易程度,动态调整「思考」的深度和广度。

「思考过程」本身也很重要

在机器学习看来,一个问题的答案(比如数学题的最终结果)固然重要,但通往答案的「思考过程」或「解题步骤」同样关键。如果能让 AI 学会生成并理解这些「隐藏的思考步骤」,就能更好地把握问题的本质,给出更棒的答案。

「思维链」的魔力:从「一步一步来」到 AI 的自我进化

让 AI 在给出最终答案前,先输出中间的思考步骤,这个想法在 AI 解决数学题等任务中早就有了。

思维链提示能提高数学问题解决的成功率。模型越大,从思考时间中获得的好处就越多。

优化 AI 的「思考艺术」:多管齐下与精益求精

既然「多想一会儿」有好处,那么如何让 AI「想」得更有效率、更有章法呢?主要有两大策略:并行采样和顺序修正。

广撒网:同时尝试多种思路 (并行采样)

这就像我们解题时,可能会同时思考好几种可能的解法,然后选一个最好的。

回头看:迭代修正,不断完善 (顺序修正)

这种方法更像我们写文章时的「反复修改」。AI 先给出一个初步的思考和答案,然后自己「反思」一下,看看有没有错误或可以改进的地方,再进行修正。

这两种方法各有优劣:「广撒网」简单直接,但可能一次也「捞不到鱼」(即找不到正确答案);「回头看」虽然能主动纠错,但过程更慢,也更容易「跑偏」。实际应用中,两者往往可以结合起来。

强化学习:点燃 AI 推理的「顿悟时刻」

近年来,强化学习(RL)在提升 AI 推理能力方面取得了惊人的成就,尤其是在那些有明确答案的问题上(比如数学题和编程题)。

DeepSeek-R1 带来的启示

DeepSeek R1 模型在数学、编程等需要深度思考的任务上表现出色。它的成功秘诀之一,就是经历了好几轮「SFT-RL」的混合训练(可以理解为「先学习人类范例,再通过试错强化」)。

最令人兴奋的是,研究团队发现,即便只用强化学习,AI 也能自发地学会反思、回溯、修正错误,甚至展现出类似人类灵光一闪的「顿悟时刻」(Aha moment)! 这意味着 AI 在解决难题时,如果一条路走不通,它会尝试退回去,换个角度重新思考。

Lilian Weng 还特别提到,DeepSeek 团队也坦诚地分享了他们的一些「失败经验」,比如尝试用某些方法(如过程奖励模型、蒙特卡洛树搜索)去指导 AI 思考,结果效果并不理想。这种开放分享「哪些路走不通」的精神,对于整个 AI 研究社区来说都非常宝贵。

工具使用:AI 也能开「外挂」

AI 在思考时,并非只能「闭门造车」。它们也可以像我们一样,借助外部工具来辅助思考。

AI 所「说」的,真的是它所「想」的吗?「忠实思考」的难题

AI 的「思维链」让我们仿佛能看到它「脑子里」在想什么,这对于理解和信任 AI 非常重要。但这里有一个关键问题:AI 展示给我们的「思考过程」,真的是它内心真实的想法吗?还是它只是学会了生成看起来合理的「解释」?

监控 AI 的「小心思」

有研究表明,通过观察 AI 的「思维链」,确实能发现一些它「耍小聪明」(比如投机取钻空子)的行为。而且,让 AI「多想一会儿」似乎也能让它在面对一些刁钻问题(比如「文字陷阱」)时表现得更稳健。

「忠诚度」大考验

科学家们做了一些有趣的实验来测试 AI 的「忠诚度」。比如,故意在问题中给出错误的暗示,然后看 AI 的「思维链」会不会提到这个暗示,以及它是否会受其影响而改变答案。

结果发现,那些经过专门推理训练的 AI 模型,似乎比普通模型更「诚实」一些,它们在「思维链」中更倾向于承认自己受到了暗示的影响。

「好心办坏事」的风险

如果我们过于强调让 AI 的「思维链」看起来完美无缺,甚至把「解释得好」作为训练 AI 的一个重要目标,那 AI 可能会学会「粉饰太平」,生成一些华而不实的「伪思考过程」,而不是真正提升自己的思考能力。这就像有些学生,做作业不是为了真正理解,而是为了写出老师想看的标准答案。

换个「姿势」思考:AI 的「连续思考」与「潜意思考」

除了我们上面看到的像「一步一步」这样的离散思考方式,AI 还有一些更「抽象」的思考模式。

在「连续空间」中思考

把「思考」看作「隐藏的变量」

我们可以把 AI 的「思考过程」看作一些我们直接观察不到的「潜变量」。AI 的训练目标,就是通过学习大量的「问题-思考过程-答案」的组合,来掌握这种从问题到答案的映射关系,即使我们只给它问题,它也能推断出可能的「思考过程」并给出答案。

迭代学习的智慧(以 STaR 为例):STaR 这个方法很聪明。它让 AI 先自己尝试解决问题并给出思考过程。如果对了,就强化这个过程。如果错了,STaR 会「反过来」告诉 AI:「你看,这个问题正确的答案是这样的,那么一个合理的思考过程应该是这样的……」

这样,AI 就能从成功和失败中都学到东西,不断迭代优化自己的推理能力。

「思考时间」也有「规模效应」吗?

我们知道,AI 模型的参数越多、训练数据越大、训练时间越长,通常就越聪明,这就是所谓的「缩放定律」(Scaling Laws)。那么,「思考时间」这个新维度,是不是也遵循类似的规律呢?

AI 思考的未来:星辰大海与未解之谜

Lilian Weng 在文章最后,为我们描绘了 AI「思考」研究的广阔前景,同时也指出了摆在科学家面前的一系列亟待解决的难题:

  1. 1. 如何让 AI 聪明又诚实:怎样才能在训练中鼓励 AI 生成既有用又真实的思考路径,同时又防止它学会「钻空子」?
  2. 2. 揪出 AI 的小心思:我们该如何定义 AI 的「作弊行为」?能不能在 AI 训练或运行时自动发现这些行为,而不需要人去一个个检查?
  3. 3. AI 能「自我纠错」吗:当没有标准答案时,如何训练 AI 有效地自我纠正错误,而不会产生新的幻觉或越改越糟?
  4. 4. 应对开放式问题的挑战:对于那些没有唯一答案、高度依赖情境和个性的任务(比如写小说、做心理辅导、头脑风暴),AI 该如何运用「思考链」进行学习和推理?
  5. 5. 「思考红利」如何落地:在实际应用中,我们不可能让 AI 无限制地「想下去」。那么,如何才能把通过「慢思考」获得的性能提升,有效地「压缩」回基础模型中,让它既聪明又高效?
  6. 6. 「看菜下碟」的智慧:怎样才能让 AI 学会根据问题的难易程度,动态调整自己的「思考投入」,做到「好钢用在刀刃上」?

这些问题现在也许还没有答案,但一定是下一步的研究方向。

总之,Lilian Weng 的这篇深度好文,为我们指明了通往更高级 AI 智能的探索方向。让 AI 学会像人类一样深思熟虑、灵活应变、批判反思、修正错误,这条路虽然充满挑战,但也充满了无限可能。

也许,教会 AI「思考」的征程,才刚刚开始。

原文链接:

Weng, Lilian. "Why We Think". Lil'Log (May 2025). https://lilianweng.github.io/posts/2025-05-01-thinking/

展开阅读全文

更新时间:2025-05-19

标签:科技   奥秘   模型   答案   思维   过程   时间   能力   方法   发现   深度   人类

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top