GPT-5发布:不搞黑科技,主打实用便宜

北京时间2025年8月8日凌晨,OpenAI 发布了外界期待已久的新模型GPT-5。

OpenAI CEO山姆·奥特曼在社交媒体上表示,“这次最强调的,是现实中的实用性以及普及性。”

不过,一个月前,他在播客可不是这么说的。他极力渲染了这次模型在智能上的提升,已经到达“博士水平”。

他说自己那天早上向GPT-5请教了一封邮件没看懂的地方,结果给出的答案让他有种在自己最擅长领域被人工智能超越的无力感,“坐在那里愣了一会儿,这是那种‘天啊,来了’的时刻。”

观看完发布会,南方周末记者发现,相较从GPT-3到GPT-4的那种“震撼”,GPT-5 其实更像是一个旧模型的合集。

在GPT-5官方介绍中,OpenAI 在文件最开头的部分详细解释了GPT-5和之前旧模型的继承关系。比起过去发布的单一大模型, GPT-5准确来说不是一个独立的大语言模型,而是一个系统。

它可以回答大多数问题,以一个更深度的推理模型用于解决更复杂的问题,还配备一个实时路由器,能根据对话类型、复杂性、工具需求和明确意图快速决定使用哪种模型。

OpenAI CEO山姆·奥特曼在社交媒体上表示,“这次最强调的,是现实中的实用性以及普及性。”视觉中国 图

至于幻觉问题,OpenAI 在发布会上强调它是世界上最可靠、回答最真实的模型。OpenAI还特别强调了GPT-5 在医疗问题上的进步,在挑战性健康对话中的幻觉比 OpenAI o3 减少8倍,在潜在紧急情况下的错误比 GPT-4o减少50倍以上,比 OpenAI o3 减少8倍以上。

但第三方测评机构的数据显示,GPT-5的幻觉情况并不乐观。Vectara 是全球最知名的大语言模型幻觉检测的权威,这家公司的机器学习小组联合负责人鲍盛告诉南方周末记者,他第一时间对GPT-5进行了幻觉测试,结果发现GPT-5-think的幻觉率是1.3%,这个成绩在vectara 的幻觉排行榜排名第十一名,而前一代模型OpenAI o3在这个排行榜中是第三名。

更让人失望的是,“GPT-5还有三个小点的版本, mini、minimal、nano,同样比之前的小版本模型有更多幻觉。”

“没有达到博士级专家表现”

肖特特是硅谷一家AI初创公司的创始人,博士毕业于加州大学伯克利分校的人工智能实验室。全程观看了发布会之后,肖特特却发现了一个让他“有些崩溃”的错误。

他告诉南方周末记者,发布会上,OpenAI 用GPT-5介绍了伯努利原理以及飞机产生升力的原因,却犯了一个常见的错误,“这个是飞行员第一堂课就要学习的知识”。

OpenAI原本展示的是GPT-5用于教育场景的能力,结果不仅文字描述是错的,生成的可交互模型也不符合常理和描述,“它的文字描述中说,升力跟空气在机翼上方流动距离长有关系,但这是错的。同时,你看到它画的机翼的形状是对称的,这种机翼现实中基本不采用,正常的机翼应该下面是平的,上面是带着弧度的,尽管文字中直接描述了这种弧度差异。”

肖特特还专门向Anthropic的大模型Claude提出同样的问题,结果Claude生成的模型是正确的。

发布会上,OpenAI 用GPT-5介绍了伯努利原理以及飞机产生升力的原因,却犯了一个常见的错误。图片来源:发布会现场截图。

发布会上还有一个错误,引发了讨论。一个对GPT-5的性能跑分情况介绍中,图标中对Y轴的理解出现了错误,“69.1小于了52.8”。引发讨论之后,山姆·奥特曼马上也在社交媒体上尴尬回应:“看来要 GPT-6 才能搞定了,不过在官方博客上是没有错的。”

按照OpenAI 的说法,这一次重点训练了GPT-5说“我不知道”的能力。通过将GPT-5置于部分或完全不可行的任务中,并奖励其诚实承认无法完成任务的行为。比起此前无所不知的大模型们,GPT-5会更勇于承认失败。

从2023年3月14日发布GPT-4,到今天发布GPT-5,间隔两年四个月之久。在这个时间段里,围绕着GPT-5最大的悬念就是,能否再次验证scaling law(规模化法则)?

作为这一轮大模型行业的信念基石,OpenAI 过去每一次模型发布都一定程度上夯实了这一信念。从GPT-3到GPT-4的飞跃,被视为scaling law的最重要例证。

scaling law的本质就是“大力出奇迹”,训练的数据越多,参数越高,智能水平也会越高。不是一个被科学验证过的理论,而是一种经验观察。

奥特曼用三个身份类比了OpenAI的三代模型:GPT-3像是高中生,偶有灵光闪现但常伴挫败感;GPT-4像大学生,具备真实智慧与实用价值;GPT-5则如同按需召唤各领域的博士级专家,随时助力达成目标。

仅仅从发布会demo展示的情况来看,肖特特认为,“没有达到预期的博士级专家表现,确实没有看到其他模型都没有的新能力。”

“预训练时代已经结束了”?

值得关注的是,山姆·奥特曼当天穿的是乔布斯标志性的黑套头衫搭配牛仔裤,比起以往针对同行的炫技,这次发布会更像是面向普通人的一次宣讲。

ChatGPT的负责人尼克·特利坦言,“这个模型给人感觉真的很好,我认为人们会真切地感受到这一点,特别是那些平时不怎么研究模型的普通用户。”

之前最新模型必须付费体验,但这一次,OpenAI首次对免费用户开放了最先进模型的体验机会,付费用户则不受次数限制。

OpenAI还推出了各种不同价格的模型,让用户有更多高性价比的选择。另外,OpenAI 正在悄悄降价。这次定价显示,标准版GPT-5为每百万输入Token 1.25 美元,每百万输出Token 10美元,GPT-5 mini版与Nano 版则更便宜。

这次GPT-5三个模型的API价格,比GPT-4最便宜的Preview版本还要低。

另一方面,OpenAI 还将继续烧钱,计划在未来三年半内烧掉450亿美元,主要用于租用服务器。据36氪报道,GPT-5的训练成本高达5亿美元。此前披露的信息显示,GPT-4训练成本是1亿美元。

烧了更多钱,但chatGPT-5 智能并没有出现等量飞跃。事实上,早在 2024 年年底,前OpenAI联合创始人、SSI创始人伊利亚·苏茨克维在演讲当中就宣布,“预训练时代已经结束了。”

作为ChatGPT的缔造者,伊利亚·苏茨克维开启了预训练时代,如今他已经放弃了这条路。在他看来,数据就像是化石燃料,数据增长已经触顶,依赖于海量数据的预训练模型将难以为继,AI即将进入“后石油时代”。

从目前情况来看,GPT-5佐证了伊利亚·苏茨克维的观点。相较预训练高昂的成本,其带来的智能收益已经没有吸引力。

OpenAI也在寻找新的叙事,这个月它公布了用户数据,周活跃用户数即将达到7亿,较2025年3月的5亿,它的用户正在快速增长。

这次发布会的重心也是聚焦于提高用户在产品细节上的体验,比如说,不再需要用户选择,而是模型自己“快速决定使用哪种模型”。

南方周末记者体验发现,之前在使用时可以自主选择模型,现在只能使用GPT-5这一个模型。对不知道该如何选择的用户来说,确实提供了方便,但对于想选择模型的用户来说,这意味着剥夺了用户的选择权。

GPT-5 还会更加注意提供情绪价值。当你向GPT-5 询问得了癌症怎么办,它首先会安慰你的情绪,而不是直接给出回答。

更有趣的是,它还有多种人物性格可以供用户选择,分别是犬儒 、机器人 、倾听者、学霸。

同时,它最大程度地减少了逢迎行为。初步在线测量显示,GPT-5 -main的逢迎发生率对于免费用户下降69%,对于付费用户下降75%。此前,为了取悦用户,模型常常会顺着用户的意思说,而不是给出客观、真实或有挑战性的回答。

OpenAI o3 约有4.8%的回应被标记为欺骗,而 GPT-5-thinking约有2.1%的回应被标记为欺骗,这表明欺骗发生率降低。

不可否认的是,GPT-5仍然是世界上最先进的通用模型,可是在细分市场当中,它正在失去技术优势。

最明显的就是编程能力,Anthropic已经成为编程应用市占率最高的公司。

这次GPT-5也在努力提高编程能力夺回市场,已经可以一键生成网页。根据权威的软件工程测试基准SWE-bench测试,GPT-5以74.9%的成绩超过了Anthropic的Claude Opus 4.1,成为新王。但是两者差距并不大。

最令OpenAI担忧的是,当年参与GPT-5的很多核心人员的名字,如今已经在Meta超级智能团队的名单里。最近几个月,Meta创始人扎克伯格一直以上亿美元的签字费挖人。

南方周末记者 罗欢欢

责编 顾策

展开阅读全文

更新时间:2025-08-11

标签:科技   便宜   模型   用户   山姆   幻觉   南方周末   发布会   机翼   升力   错误   美元

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号

Top