“智力”下降！研究报告称GPT-4能力明显下降

作为开发市面上热度最高的AI聊天机器人的公司——OpenAI可以说在最近倍受关注。

在此前Open-AI公布了其大型语言模型的最新版本——GPT-4，用来替代之前在使用的GPT-3.5。

据官方介绍，GPT-4 是一个超大的多模态模型，也就是说，它的输入可以是文字，还可以是图像。

GPT-4比以前的版本“更大”，这意味着它已经借助比之前版本的模型进行了更多数据的训练，并且在模型文件中有更多的权重，从而使得它的运行成本更高。

就任务而言，GPT-4的表现比之前版本的模型更好，它可以遵循自然语言的复杂指令并生成技术或创意内容，而且它可以还更深入地做到这一点：它支持生成和处理多达32768个标记（约25000个文本单词），从而实现比前辈更长的内容创建或文本分析。

OpenAI表示，GPT-4错误答案更少，而且也会减少偏离话题的可能，也尽可能不会再谈论禁忌话题，甚至在许多标准化测试中比人类表现得都要更好一些。

例如，GPT-4在模拟律师考试的成绩在考生中排名前10%左右，在SAT阅读考试中排名前7%左右，在SAT数学考试中排名前11%左右。相比之下，GPT-3.5在律师考试中的得分一般都是倒数10%左右。

但在最近，不少用户反映称最近使用GPT-4的ChatGPT好像不如之前聪明了。

今日消息，来自斯坦福大学和加州大学伯克利分校的研究团队近日对 GPT-4 进行了深入研究，对比了今年 3 月和 6 月在处理数学问题、生成执行代码和完成视觉推理任务上的差异，发现 “智力”显著下降。

以评估GPT-4 数学能力的“17077 是质数吗？”问题为例，6月的GPT-4产生了错误的答案，认为该数字并非质数。而且GPT-4并没有提供相关解释，准确率从97.6%下降到2.4%。

相比之下，GPT-3.5确实有所改善，最初在3月份产生了错误的答案，在6月份产生了正确的答案。

GPT-4的能力在编码区域也有所下降。研究人员构建了一个新的代码生成数据集，其中包含了LeetCode“容易”类别中的 50 个问题，并评估了AI模型生成的可直接执行程度。

与3月份相比，GPT-4的直接可执行版本从52%下降到10%。这些代在代码前后添加了额外的引号，让其变为注释状态，不可执行。

据之前相关媒体介绍称，有网友表示最近 OpenAI 采用 MOE 重新设计了架构，导致性能受到影响，最终使得ChatGPT的“智力”下降，但是官方一直没有明确答复。

目前相关的讨论仍在继续，感兴趣的小伙伴可以保持关注。

展开阅读全文

页面更新：2024-03-19

标签：斯坦福大学质数相比之下智力模型答案错误能力版本数学代码考试

1 2 3 4 5

苹果教育优惠MacBook Pro真香，但对创作者，我推荐这款RTX轻薄本

互联网打工人对于生产力设备的要求一般都相对讲究，比如专业设计师、创意工作者这类人群在笔记本电脑等生产力工具的选择是更偏向专业性和实用性，因为对工作效率有所要求，所以选择的笔记本大都搭载标压处理器、以及RTX光

阅文集团发布阅文妙笔大模型、浙大推出表格控制型TableGPT、詹姆斯卡梅隆：AI的武器化是最大的危险...... - Meta元宇宙指北播报

太长不看版阅文集团发布阅文妙笔大模型上海：支持生产性互联网服务平台引入垂类大模型、产业元宇宙、AR等技术浙江大学推出表格控制型 TableGPT创维汽车发布车载语音大模型“小维 GPT”Meta与微软合作推出开源模型 Llam

华硕将推出新款ROG与新世纪福音战士联名产品，包括主板、显卡、电源和机箱等

华硕宣布，其ROG品牌将会在7月21日至23日期间，于ROG BilibiliWorld 2023主舞台带来一套联名款“神装”。经过对海报的解析，可以看到多款新世纪福音战士联名产品，包括主板、显卡、散热器、电源、机箱和外设等。比如占据中间

浪潮云作为标杆厂商入选Gartner中国ICT技术成熟度曲线

近日，国际权威IT研究与咨询顾问机构Gartner正式发布《Hype Cycle for ICT in China, 2023》报告，凭借独具前瞻性的战略布局以及创新性的实践案例，浪潮云在多云、社区云领域被Gartner评为标杆厂商。Gartner认为，数字化转型

轻薄本最强U！Redmi Book Pro 15 2023锐龙版测评

在今年5月，Redmi Book 14在4000元级价位凭借2.8K 120Hz屏、12代英特尔酷睿H45处理器等越级配置火速出圈，也让很多预算更高、期待更大屏幕尺寸的“Pro”玩家对更高端的型号产生了前所未有的期待。两个月之后，Redmi Book P

30年前，有9位专家拒绝在三峡同意书上签字，如今担忧应验了吗？

在当代中国，三峡大坝是一项备受争议的巨型水利工程，也是世界上最大的水电站之一。然而，这个工程在实施之初就面临着来自9位专家的担忧和反对。他们拒绝在三峡同意书上签字，对工程的安全性和环境影响提出了严肃的质疑。如

热力未来城市规划的“重要参谋”

参考消息网7月21日报道英国广播公司网站近日刊发一篇文章，题为《城市适应热浪的简单方法》，作者是露西·谢里夫。文章摘编如下：蓝色的丝带蜿蜒穿过布拉格的鸟瞰图，给占据卫星图像大部分面积的火红、艳橙和亮黄的浓重组合

四川自贡首家民营企业博士后科研工作站在高新区授牌成立

秦勇封面新闻记者刘恪生7月18日，自贡首家民营企业博士后科研工作站，在兴储世纪科技股份有限公司授牌成立。据悉，这也是时隔17年后，自贡再度获批设立国家博士后科研工作站。据了解，落户自贡高新区的兴储世纪科技股份有限

微星RTX 4060 Ti 16GB版测试出炉部分游戏不敌8GB版

英伟达全新的GeForce RTX 4060 Ti 16GB版本现已正式已经上市了，不过英伟达并没有向往常那样为新款显卡安排常规的评测解禁等流程，很多厂商也不打算提供评测使用的产品，加上目前产品刚刚上市且产品并不多，导致目前仍未有详

点亮“新”版图激活“新”动力

近年来，麒麟区聚焦快递物流、外卖送餐、网络直播等新业态，实施“新心向党·逐梦麒麟”专项行动，从强化组织领导、扩大覆盖面、加强关心等方面入手，积极探索新业态新就业群体党建工作新路径，切实增强党在新兴领域的号召力、

廊坊开发区出台《人才强区建设方案》

打造京津之间富有创新能力创业活力人才聚集高地近日，在位于廊坊开发区的新奥能源研究院实验室内，新奥集团首席产业技术创新总监、新奥能源研究院常务副院长李全正在进行高温超导磁体研究测试。“开发配备高温超导磁体的

董秘离婚，被前妻曝光“操纵股价协议”，方便老板减持！老板：我不知情

每经记者：程雅每经编辑：王月龙,文多7月20日晚，秀强股份（SZ300160，股价6.14，市值47.46亿元）回复了交易所的关注函。此前，有媒体报道称，公司时任董秘张小伟（甲方）于2016年11月6日与操盘方吴伟（乙方）签署合作协议，约定甲方出资2亿元，

海岱楼 - “镇”兴路上的淄博

大众网记者董玉歌淄博报道镇域经济，是区县域经济重要的内容，是发展壮大区县域经济的重要途径，作为区县域经济发展的基本单元，镇域经济高质量发展事关全局。7月18日至20日，由淄博市委网信办、大众网联合主办的“聚焦产业

48V、60V、72V电池，搭载多少瓦电机最耐用？告诉你真实答案！

上滑加载更多 ↓

“智力”下降！研究报告称GPT-4能力明显下降

苹果教育优惠MacBook Pro真香，但对创作者，我推荐这款RTX轻薄本

阅文集团发布阅文妙笔大模型、浙大推出表格控制型TableGPT、詹姆斯卡梅隆：AI的武器化是最大的危险...... - Meta元宇宙指北播报

华硕将推出新款ROG与新世纪福音战士联名产品，包括主板、显卡、电源和机箱等

浪潮云作为标杆厂商入选Gartner中国ICT技术成熟度曲线

轻薄本最强U！Redmi Book Pro 15 2023锐龙版测评

30年前，有9位专家拒绝在三峡同意书上签字，如今担忧应验了吗？

热力未来城市规划的“重要参谋”

四川自贡首家民营企业博士后科研工作站在高新区授牌成立

微星RTX 4060 Ti 16GB版测试出炉部分游戏不敌8GB版

点亮“新”版图激活“新”动力

廊坊开发区出台《人才强区建设方案》

董秘离婚，被前妻曝光“操纵股价协议”，方便老板减持！老板：我不知情

最新！油价将迎来“三连涨”

海岱楼 - “镇”兴路上的淄博

48V、60V、72V电池，搭载多少瓦电机最耐用？告诉你真实答案！

阅文集团发布阅文妙笔大模型、浙大推出表格控制型Ta

48V、60V、72V电池，搭载多少瓦电机最耐用？告诉你真实答

海豚模拟器宣布放弃登陆Steam 不会影响正常版本开发

我有两个老婆，应该怎么调理身体？医生告诉你答案！

世界上最严重错误工程：耗费巨额资金，建成一笔烂账！中国占

美团再出手大模型，独家投资「智谱AI」- Long China 50

小扎今天搞了个大新闻，想把大模型变成下一个“安卓”

（体育）2023“驾驭未来”全国青少年车辆模型教育竞赛总决

（科技）美国斯坦福大学校长因学术不当行为辞职

世界上最严重错误工程：耗费巨额资金，建成一堆垃圾！中国占