OpenAI意识到它犯了一个可怕的错误

OpenAI声称已经找到了导致“幻觉”的原因，即人工智能模型倾向于编造事实上不正确的答案。

这是困扰整个行业的一个主要问题，大大削弱了这项技术的实用性。更糟糕的是，专家们发现，随着人工智能模型的能力越来越强，这个问题正变得越来越严重。

因此，尽管前沿人工智能模型在部署过程中产生了天文数字的费用，但在面对不知道答案的提示时，它们仍然容易做出不准确的声明。

这个问题是否有解决方案仍然是一个热议的话题，一些专家认为，幻觉是科技本身固有的。换句话说，大型语言模型可能是我们开发对事实主张有可靠把握的人工智能的死胡同。

在上周发表的一篇论文中，OpenAI的一个研究团队试图给出一个解释。他们认为，大型语言模型之所以产生幻觉，是因为当它们被创造出来时，它们被激励去猜测，而不是承认自己根本不知道答案。

论文写道，幻觉“之所以持续存在，是因为大多数评估的评分方式——语言模型被优化为优秀的考生，而在不确定的情况下猜测可以提高考试成绩”。

通常情况下，AI的输出是以二元方式进行分级的，当它给出正确的回应时奖励它，当它给出错误的回应时惩罚它。

简单来说，换句话说，猜测是奖励——因为它可能是正确的——而不是人工智能承认它不知道答案，无论如何都会被评为不正确。

因此，在“自然统计压力”下，大型语言模型更容易产生幻觉，而不是“承认不确定性”。

OpenAI在一篇博客文章中写道：“大多数计分板都会根据准确率对模型进行优先级和排名，但错误比弃权更糟糕。”

换句话说，OpenAI表示，它——以及整个行业的所有模仿者——在训练人工智能的方式上犯了一个严重的结构性错误。

这个问题能否得到纠正将是一个很大的问题。OpenAI声称这个问题“有一个直接的解决方案”：“惩罚自信错误比惩罚不确定性更多，并对不确定性的适当表达给予部分信任。”

展望未来，评估需要确保“他们的评分不鼓励猜测，”博客文章写道。“如果主记分牌继续奖励幸运的猜测，模型就会继续学习猜测。”

该公司的研究人员在论文中总结道：“对主流评估的简单修改可以重新调整激励机制，奖励适当的不确定表达，而不是惩罚他们。”“这可以消除抑制幻觉的障碍，并为未来细致入微的语言模型的研究打开大门，例如，具有更丰富的语用能力。”

这些对评估的调整将如何在现实世界中发挥作用还有待观察。虽然该公司声称其最新的GPT-5模型产生的幻觉更少，但用户基本上没有被打动。

目前，人工智能行业将不得不继续考虑这个问题，因为它证明了数百亿美元的资本支出和飙升的排放量是合理的。

OpenAI在其博客文章中承诺：“幻觉仍然是所有大型语言模型的一个基本挑战，但我们正在努力进一步减少它们。”

展开阅读全文

更新时间：2025-12-08

标签：科技可怕意识错误模型人工智能幻觉语言不确定性答案都会方式论文

1 2 3 4 5

西贝坍塌引三大媒体集体发文：预制菜争议：知情权信任与行业变革

最近预制菜那可是闹得沸沸扬扬，人民日报、新华社、央视这三大媒体集体发文，直接把预制菜的争议焦点给挑明了。你说这预制菜，到底咋就惹出这么大动静呢？今天咱就好好唠唠。这预制

观点 | 如何看待“印度制造”？战略上藐视，战术上重视！

本文共4840 字阅读预计20 分钟作者|星海老局本期编辑| 龙风穆本期审核 | 单敏敏图源：“星海情报局”微信公众号9月10日，iPhone17系列发布了，科技年货了属于是。不过，比起越

曝iPhone 18系列无缘屏下Face ID 仅灵动岛区域缩窄

【CNMO科技消息】近日，国内有数码博主爆料称，苹果iPhone 18系列将不会采用屏下Face ID技术，也非此前传闻的单摄挖孔屏设计，仅对屏幕顶部的"灵动岛"区域进行小幅缩窄。苹果Face I

京津冀鲁大学生比拼智能精密装配

9月14日，2025年中国大学生机械工程创新创意大赛智能精密装配赛京津冀鲁联赛在河北省石家庄市栾城区航空中心举行。本次联赛吸引了来自清华大学、北京理工大学、河北科技大学

他，四川乐山新晋富豪：一年卖出8000吨夫妻肺片，如今身价50亿

带上紫燕，回家吃饭！他原本手握粉笔，站在三尺讲台，是一名安稳的人民教师，然而命运却把他推向了一个飘着卤香、冒着热气的卤味摊。更让人没想到的是，这个“半路出家”的教书先生，不

马德里会谈生变，特朗普要求34国对华加税，中方四字回应反将两军

大家都知道，9月14日至17日中美代表团将在西班牙马德里举行新一轮经贸会谈，主要讨论美单边关税措施、滥用出口管制及TikTok等经贸问题。中方的代表是由中国国务院副总理何立峰

环保央企百亿重大资产重组即将达成

9月11日，国家电投集团远达环保股份有限公司（以下简称“远达环保”）发布公告称，根据上交所并购重组审核委员会公告，上交所并购重组审核委员会定于9月17日召开2025年第16次并购重组

惠州司法拍卖：车牌号为粤L46F51风行牌的车辆（车辆识别代号：017027）

标的物名称：车牌号为粤L46F51风行牌的车辆（车辆识别代号：017027）起拍价：15,306元开拍时间：2025年9月29日10时至2025年9月30日10时止上拍平台：淘宝网司法拍卖平台拍卖链接： https://s

降价1421万元，黄山市一家康养酒店第四次拍卖，被人1700万竞得

9月14日，黄山市司法拍卖市场上，迎来了一宗重量级的房地产拍卖，位于黄山市黄山区太平湖镇上坡村绿地太平湖度假公寓康养酒店再次拍卖，起拍价只有1700万元，最终只有一个人报名竞拍，

20cm跌停210万封单，财务造假加欺诈发行强制退市，6万股东傻眼！

出不去，根本出不去，就是前天挂单也一样出不去，跌停封单太大了，超210万。已经发布公告明牌的强制退市风险股，没有资金愿意进场抄底，所以谁都出不去。st东通，周末发布强制退市风险提

东北雨姐带货粉条厂未缴罚款被强制执行671万

大象新闻记者王瑞麟企查查APP显示，近日，朝阳县六河粉条制造有限公司新增一则被执行信息，执行标的671.76万余元，执行法院为辽宁省朝阳市朝阳县人民法院。信息显示，该公司成立于20

一批信用卡被盗刷，银行紧急公告

9月13日凌晨，上海浦东发展银行股份有限公司信用卡中心发布《关于我行万事达卡交易情况的说明》。其中提到：“近期，上海浦东发展银行股份有限公司信用卡中心监测到部分我行万事

罗永浩凌晨回应西贝贾国龙；瑞士新规“过于苛刻”，瑞银考虑迁往美国；波兰总统签署决议：同意北约部队驻扎领土丨每经早参

每经记者：王琳每经编辑：程鹏,张喜威,王瀚黎,潘海福~~~文末有福利~~~标题点睛：9月13日，罗永浩曾表示“停战”，并说自己要去忙正事了。然而，14日，西贝创始人贾国龙的表态截图完整版

预制板房“全拆”进入倒计时？有三类人已抢占先机！

最近我们在探访几个老城区的时候发现，很多预制板楼房的问题还是挺严重的。比如有的老房子隔音效果差，停车困难，还有的老房子已经出现墙体开裂，地基下沉…这些问题都严重影响着居

中方高层登上专机前，特朗普摊牌了，要求32国对华加税

北京这边刚准备登机，华盛顿那头就掀桌子了。在中美第四轮经贸磋商即将启动的前夜，一场“隔空喊话”的交锋把局势推向了新一轮紧张。中方宣布对美芯片启动“双重调查”，而特朗普

上滑加载更多 ↓

OpenAI意识到它犯了一个可怕的错误

西贝坍塌引三大媒体集体发文：预制菜争议：知情权信任与行业变革

观点 | 如何看待“印度制造”？战略上藐视，战术上重视！

曝iPhone 18系列无缘屏下Face ID 仅灵动岛区域缩窄

京津冀鲁大学生比拼智能精密装配

他，四川乐山新晋富豪：一年卖出8000吨夫妻肺片，如今身价50亿

马德里会谈生变，特朗普要求34国对华加税，中方四字回应反将两军

环保央企百亿重大资产重组即将达成

惠州司法拍卖：车牌号为粤L46F51风行牌的车辆（车辆识别代号：017027）

降价1421万元，黄山市一家康养酒店第四次拍卖，被人1700万竞得

20cm跌停210万封单，财务造假加欺诈发行强制退市，6万股东傻眼！

东北雨姐带货粉条厂未缴罚款被强制执行671万

一批信用卡被盗刷，银行紧急公告

罗永浩凌晨回应西贝贾国龙；瑞士新规“过于苛刻”，瑞银考虑迁往美国；波兰总统签署决议：同意北约部队驻扎领土丨每经早参

预制板房“全拆”进入倒计时？有三类人已抢占先机！

中方高层登上专机前，特朗普摊牌了，要求32国对华加税

环球影业掌门为《速9》上太空道歉：“错误无法挽回”

58岁李若彤科技美后颜值大回春！穿无袖针织衫阔腿裤，嫩得

曹德旺赌对了！何超琼现身福耀科技大：千金拧螺丝，本事值千

关晓彤半夜喝酒发朋友圈，父亲点赞分手传闻文章，答案显而

中国商务部双公告反击美芯片制裁，中美科技战攻守易形！

中方敦促美方立即纠正错误做法！

孙菲菲离婚，虽不完美，但很完整！坦诚是结束婚姻最体面的方

孙颖莎谈卫冕：无论输赢都是收获，庆祝方式是请大家吃饭！

第九届河北省旅发大会石家庄分会场 | 用7国语言向石家

唐山圣吉科技有限公司成立注册资本20万人民币