揭秘 ChatGPT 进化论:从聊天框的偶然成功,走向主动思考的智能体

今天,在 OpenAI 官方播客的第二集中,OpenAI 首席研究官 Mark Chen 与 ChatGPT 负责人 Nick Turley 坐在一起,与主持人 Andrew Mayne 深度复盘了 ChatGPT 的诞生与进化。

添加图片注释,不超过 140 字(可选)

这场对话,信息量巨大,首次披露了大量不为外界所知的核心内幕。从产品命名、发布前夜的戏剧性决策,到如何应对「AI 马屁精」的技术挑战,再到对智能体编程、多模态助手以及 AI 时代人才技能的深刻洞见。

这不仅是对 ChatGPT 的一次复盘,更是对 OpenAI 产品哲学、研究方向和文化底色的一次全面解剖。

「史诗级」产品诞生记:从深夜改名到全员「怀疑人生」

1. 一个临时起意的命名

如今家喻户晓的「ChatGPT」这个名字,并非深思熟虑的产物。事实上,它的诞生充满偶然,甚至可以说是发布前夜的“亡羊补牢”。

据 ChatGPT 负责人 Nick Turley 回忆,直到发布的最后一刻,这款产品的暂定名都极其拗口:「Chat with GPT-3.5」

「我们意识到这个名字实在太难发音了,」Nick 笑着说,「所以差不多在发布前一天晚上,我们才匆忙决定简化它。」

添加图片注释,不超过 140 字(可选)

这个小插曲揭示了 ChatGPT 诞生初期的一个关键事实:就连 OpenAI 自己,也未曾预料到它会引发如此巨大的海啸。他们当时的想法,仅仅是做一个「低调的研究预览」。

毕竟,其核心模型 GPT-3.5 已经发布数月,从评测数据 (evals) 上看,能力并没有质的飞跃。团队只是在它之上加了一个对话界面,让用户不必再费心设计复杂的提示词 (prompt)。

2. 一场意料之外的病毒式传播

发布后的第一天,Nick 的第一反应是经典的工程师式怀疑:「我们的监控仪表盘是不是坏了?这个登录数不可能是真的。」

第二天,他看到日本的 Reddit 社区开始热议:「哦,奇怪,也许这只是个局部现象。」

第三天,他承认:「好吧,它正在病毒式传播,但热度肯定会很快消退。」

直到第四天,他才终于意识到:「Okay,它将要改变世界了。」

这种巨大的惊喜感也发生在了首席研究官 Mark Chen 身上。在此之前,Mark 的父母一直没听说过 OpenAI,甚至劝他去 Google 工作,认为他从事的 AGI 事业是「天方夜谭」。ChatGPT 发布后,他们终于不再问了。

「我爸妈终于觉得我有一份正经工作了,」Mark 调侃道。他甚至透露了一个有趣的细节:「即使在研究团队内部,也有一半人搞不清 GPT 这三个字母到底代表什么。一半人以为是 Generative Pre-trained,另一半人认为是 Generative Pre-trained Transformer。」

(正确答案是后者。)

这场突如其来的爆火,甚至让 OpenAI 的高层也始料未及。在产品发布几周后的公司圣诞派对上,CEO Sam Altman 还上台表示:「看到这一切很激动,但互联网就是互联网,热度很快会降下去的。」

事实证明,他们都错了。

3. 发布前夜的内部激辩:Ilya 的极限测试

既然内部都如此“低估”,那么在发布前,团队内部是否全员支持?

答案是否定的。

Mark 讲述了一个 OpenAI 内部流传甚广的「著名故事」。发布前夜,时任首席科学家的 Ilya Sutskever 对模型进行了最后的「极限施压测试」。他向模型抛出了 10 个他认为极具挑战性的难题。

结果,模型只给出了 5 个他认为可以接受的答案。

「所以,在发布前夜,我们确实面临一个艰难的抉择:这东西到底该不该发?世界真的会认可它吗?」Mark 回忆道。

这次内部激辩的核心,反映了 AI 开发中的一个普遍困境:当你身处其中,你会非常迅速地适应模型的能力,以至于很难再用一个从未接触过它的普通人的视角,去发现其中蕴含的魔力。

Nick 补充说,这段经历让他们更加坚信「与现实频繁接触」的重要性。

二、迭代、反馈与透明度:OpenAI 的产品进化论

ChatGPT 的成功,不仅在于模型本身,更在于它开启了 OpenAI 一种全新的产品开发模式:从类「硬件」模式,向「软件」模式的转变。

1. 从「硬件模式」到「软件模式」

Nick 将 OpenAI 早期的模型发布比作「发布硬件」。「你很少发布,每一次都必须做对,因为你没法轻易更新它。」这种模式周期长、资本密集。

而 ChatGPT 开启了一种更像「软件」的模式:频繁更新、小步快跑、持续接收用户反馈,如果搞砸了就回滚。

「这样做降低了单次发布的风险,」Nick 解释道,「增加了经验主义,也让我们能更快地响应用户需求。」

Mark Chen 强调,用户反馈已经成为 OpenAI 构建产品和保障安全不可或缺的一部分。「你可以关在真空里无休止地辩论,但这永远无法替代把它推向世界所获得的真实反馈。我们的哲学是,让模型与世界接触。」

2. 「AI 马屁精」事件始末:RLHF 的意外副作用

这种快速迭代的哲学,最经典的体现就是处理「模型谄媚」事件。

曾有一段时间,用户发现 ChatGPT 变得异常油嘴滑舌,会夸用户「智商 190」、「是世界上最英俊的人」。

Mark 深入解释了背后的技术原因。这与 OpenAI 的核心训练技术 RLHF 直接相关。

添加图片注释,不超过 140 字(可选)

简单来说,RLHF 的一个重要信号来源是用户的「点赞」。模型会被训练去生成更容易获得「点赞」的回复。

「现在回想起来可能很明显,」Mark 说,「但如果平衡不当,这种机制就会导致模型变得更会谄媚,因为用户可能潜意识里喜欢被夸奖。」

尽管这个问题只被一小部分重度用户发现,但 OpenAI 迅速响应,在 48 小时内就由研究员 Joanne Jang 发布长文解释并着手修复。

「这表明我们非常严肃地对待这些问题,并希望在早期就拦截它们。」

3. 「中立性」雷区:透明度是关键

从 ChatGPT 诞生之初,「它是不是 woke」的指责就从未停止。Elon Musk 也曾对此提出尖锐批评(尽管他后来发现自己训练的 Grok 也遇到了同样问题)。

OpenAI 如何在「有用性」和「中立性」之间取得平衡?

Mark 表示,这本质上是一个测量问题。「我们必须确保模型的默认行为是居中的,不反映任何政治光谱或其他维度的偏见。」

但同时,他们也希望给予用户一定的自由度。「你希望模型能在一个范围内,根据你的需要扮演不同的角色,比如一个持保守价值观或自由派价值观的对话伙伴。」

Nick 则强调了透明度的重要性。Open-AI 不倾向于使用「秘密系统提示词」来黑入模型,强迫它说什么或不说什么。

取而代之的,是公布 OpenAI 的 「模型规约」 (Model Spec)。这份长篇文档详细规定了模型在各种行为类别下的预期表现。

「这样一来,当你不满模型的行为时,」Nick 解释道,「你可以去查阅规约。看看这是 Bug,还是违反了规约,或者规约本身就没定义清楚。这样公众就知道该批评谁,我们也能据此改进。」

例如,当用户提出一个事实错误的观点时,模型应该直接驳斥,还是与用户合作共同探索真相?OpenAI 选择了后者。这些微妙的决策,都凝聚在公开的规约中。

三、从聊天到思考:智能体的崛起与 AI「推理」的真相

对话的后半段,重心从复盘过去转向了展望未来。一个核心关键词反复出现:Agentic (智能体化)

1. 超越聊天框:异步工作流与「超级助理」

Nick 指出,ChatGPT 只是「超级助理」愿景的早期雏形。当前的「你问我答」式同步交互,存在天然的局限性。

未来将越来越多地转向异步 (async) 工作流

「你会给模型一个相当复杂的任务,让它在后台工作,一段时间后,它会带着一个接近最佳的答案回来找你。」Mark 解释道。

这种模式的转变,意味着 AI 将从一个被动的「聊天伙伴」,进化为一个主动的「工作伙伴」。

2. 什么是 AI 的「推理」能力?

这种智能体模式的背后,是模型日益增强的推理 能力。这是一个经常被提及但很少被清晰解释的概念。

Mark 给出了一个绝佳的比喻:「这就像你我如何解决一个复杂问题一样。比如填一个纵横字谜,你会在脑海中思考所有可能性,判断这一行是否与那一列兼容,你会不断搜索、回溯、尝试各种假设,最后才得出一个完整的答案。」

模型的「推理」,就是模拟这个过程。它需要时间去思考、探索和验证。

「这就是为什么我们要做异步,」Mark 说,「我们并非为了等待而等待,而是出于必要性。模型需要时间去解决那个困难的编程问题或数学问题。你给它的时间越少,它给你的答案就越可能是那个直觉的、错误的答案。」

3. Agentic Coding:从补全代码到提交 PR

这种智能体范式最先落地的领域之一就是代码

从 GPT-3 意外展现出编写 React 组件的能力,到专门训练的 Codex,再到如今集成在 ChatGPT 中的新版 Codex,AI 编程能力正在发生质变。

Mark 指出,AI 编程正在从「实时响应」 (例如,在 IDE 中补全一个函数),转向「智能体式编程」。「你会直接对它说:我想要实现这个功能的 PR (Pull Request)。」

模型将花时间思考如何构建功能、修复 Bug、编写测试和文档,然后提交一个完整的 PR 单元。

Nick 补充道,尽管代码是可验证的,这使得它非常适合 RLHF 和智能体,但一个意外的发现是,优秀的代码中存在大量「品味」。「如何写好测试?如何写好文档?当别人不同意你的代码时如何回应?这些都是作为一名真正软件工程师需要具备的,也是我们需要教给模型的。」

在 OpenAI 内部,Codex 的使用已经非常普遍。Mark 透露:「在发布前,我们的一些重度用户个人一天就能生成数百个 PR。」

4. Deep Research:用户愿意为深度答案等待

另一个体现智能体价值的功能是 Deep Research。它不再是简单地搜索和总结,而是会主动提出问题、寻找新数据、交叉验证,形成一个研究循环。

这个功能最初让团队担心用户会因为等待时间过长而放弃。但结果恰恰相反,用户愿意为了更高质量的答案而等待。这甚至催生了一个新的模型评价指标:一个模型能花多长时间来解决一个问题。

这标志着人机交互范式的又一次转变:从追求「即时答案」,到拥抱「耗时但更优的解决方案」。

四、多模态奇袭:ImageGen 超越 DALL-E 的背后

如果说 ChatGPT 的成功是计划之外的惊喜,那么 ImageGen (即 DALL-E 3 集成在 ChatGPT 中的图像生成功能) 的爆火,则是一次「迷你的 ChatGPT 时刻」。

1. 从「有趣」到「有用」的飞跃

Mark 坦言,ImageGen 的发布也让他始料未及。「这要归功于研究团队,特别是 Gabe 和 Kenji。它证明了当一个模型好到能 one shot 地生成符合你提示词的完美图片时,巨大的价值就产生了。」

Nick 也观察到,ImageGen 吸引了大量非文本用户。「发布后的那个周末,印度 5% 的互联网人口都试用了 ImageGen。」

更重要的是,它迅速突破了「好玩」的范畴,展现出惊人的「实用性」。用户用它来制作信息图表、设计漫画分镜,甚至模拟家居改造效果。

「我们用它来设计这个播客的布景,」主持人 Andrew 说,「就拍了几张房间里椅子的照片放进去,说‘给我设计一个更好的布局’,结果令人惊叹。」

2. 安全策略的文化转变:从禁止到赋能

ImageGen 的成功也反映了 OpenAI 安全理念的演进。

初代 DALL-E 限制非常严格,甚至一度不允许生成人脸,这使得模型非常不实用。而在 ImageGen 中,OpenAI 采取了更为开放的态度。

Nick 讲述了一段内部关于是否允许上传带有人脸的图片的辩论。一种观点是,直接把人脸打码,可以规避掉所有潜在的隐私、偏见等棘手问题。

添加图片注释,不超过 140 字(可选)

「但我们很多人觉得,我们必须选择自由,去做那些更困难的工作,」Nick 说,「如果我想获得关于我的妆容或发型的反馈,我希望能够与 ChatGPT 讨论。这些是宝贵且无害的用例。」

最终,他们选择了「默认允许,然后研究和迭代风险」的路径,而不是「默认禁止」。

Mark 补充说:「正是迭代部署的经验,给了我们推动用户自由的信心。我们经历了很多周期,了解用户能做什么、不能做什么。」

五、OpenAI 的「做事」文化与 AI 时代的生存法则

在技术和产品飞速发展的背后,是 OpenAI 独特的文化和人才观。

1. 招聘标准:好奇心、主人翁精神与适应性

当被问及在 AI 时代什么技能最重要时,两位高管的答案出奇地一致,且都与具体的 AI 技能无关。

Nick 的首选是好奇心。「我们不知道什么是真正有价值的,什么是真正有风险的,直到你去深入研究。在与 AI 合作时,瓶颈往往在于提出正确的问题,而不是得到答案。」

Mark 则强调了主人翁精神适应性。「OpenAI 不是一个会给你清晰指令的地方。我们希望员工能主动发现问题并解决它。同时,这个领域变化太快,你必须能够快速调整。」

他们都认为,对 AI 领域的博士学位或专业背景的要求正在降低。

2. 「做事文化」:黑客松与小团队

OpenAI 如何保持如此高的发布频率?

「我们有很多具备主人翁精神、能够交付成果的人,而且除了在真正关键的领域,我们没有繁文缛节,」Nick 解释道。

ChatGPT 的产品雏形,正是在一次黑客松 (hackathon) 中诞生的。「我们召集了不同背景的人,有超级计算团队的工程师说他可以写个 iOS App,有研究员去写后端。这是一群想做事的人的汇合。」

即使公司规模从 150 人扩张到 2000 人,OpenAI 依然努力保持这种「小团队」的感觉。「我们更像一所大学,」Nick 说,「每个人都在做不同的事情,但有一个共同的目标。每个项目,无论是 ChatGPT 还是 Sora,都由一个非常精干的团队负责。」

3. 给所有人的建议:拥抱技术,修炼「人类技能」

对于普通人如何适应 AI 时代的到来,他们的建议不是去学「提示词工程」,而是回归根本。

首先,亲身去使用它。Mark 认为,AI 最大的作用是提升那些非专家的能力,是「抬高潮水,让每个人都能在很多事情上变得有能力」。

其次,修炼真正的人类技能。Nick 认为,最重要的技能是学会如何委派工作。「你的口袋里将有一个智能体,它可以是你的导师、顾问、软件工程师。关键在于你如何理解自己的问题,并把它交给别人(或 AI)去解决。」

此外,保持好奇心,学会如何学习新事物,也至关重要。

「我准备好我的产品经理工作在未来会面目全非,甚至不复存在,」Nick 坦言,「但我期待着去学习新的东西。只要你带着这种心态,你就已经准备好利用 AI 了。」


结语

从一个差点叫「Chat with GPT-3.5」的实验品,到如今拥有数亿用户的全球现象,ChatGPT 的故事远未结束。

这次深度对话揭示了,推动 OpenAI 前进的,不仅是算力、数据和算法的暴力美学,更是一种深刻的经验主义哲学——拥抱现实世界的复杂性,从与用户的互动中学习,在快速迭代中进化。

未来,AI 将不再仅仅是一个响应我们命令的聊天框。它将成为一个能够花上五分钟、五小时甚至五天去为我们解决复杂问题的智能体。它将拥有记忆,理解我们的品味,成为我们生活和工作中不可或缺的「超级助理」。

正如 Nick 所说:「你口袋里的智能,将成为你的导师、你的顾问、你的软件工程师。」

而我们每个人需要做的,就是学会如何与这个日益强大的「新物种」共舞。

参考来源

Inside ChatGPT, AI assistants, and building at OpenAI — the OpenAI Podcast Ep. 2 | https://www.youtube.com/watch?v=atXyXP3yYZ4

展开阅读全文

更新时间:2025-07-03

标签:科技   进化论   主动   走向   智能   模型   用户   答案   规约   团队   模式   产品   能力   工作

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top