清华大模型报告：文心一言中文理解、数学等多项能力全球第一

最近，由清华大学基础模型研究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架，正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。

评测共包含了14个海内外具有代表性的模型，在人类对齐能力评测中，文心一言4.0表现位居国内第一，其中在中文推理、中文语言等评测上，文心一言分数领先，和其他模型拉开明显差距，中文理解上，文心一言4.0领先优势明显，领先第二名GLM-4 0.41分，GPT-4系列模型表现较差，排在中下游，并且和第一名文心一言4.0分差超过1分。

在语义理解中的数学能力上，文心一言4.0与Claude-3并列全球第一； GPT-4系列模型位列第四五，其他模型得分在55分附近较为集中，明显落后第一梯队；而在语义理解中的阅读理解能力上，文心一言4.0超过GPT-4 Turbo、Claude-3以及GLM-4拿下榜首。

在安全性评测上，国内模型文心一言4.0拿下最高分（89.1分），Claude-3仅列第四。

展开阅读全文

页面更新：2024-04-23

标签：中文模型能力清华大学中下游中关村梯队语义清华数学报告系列国内全球

1 2 3 4 5

清华大模型报告：文心一言中文理解、数学等多项能力全球第一

日订单减少338万单！美团销量走低，王兴再“不敢”碰预制菜了？

AI合集测评！每个人都能用它来赚钱！

方太和老板油烟机谁更值得买？全方位“对比”解读，结果一目了然

宽体机C929机翼为何让俄罗斯制造，自家造不香吗？背后的原因是？

欧莱雅兰珍珍：加大对科技女生的支持和赋能，为更多女孩点亮科学之路

微信缴电费不显示余额了这是为何？

电动汽车芯片需求疲软，分析师预测长期增长潜力，市盈率低至14倍

“返老还童”有可能实现？南京大学学者有重大发现

卫星通信和红外惨遭阉割，华为Pura 70不香了？网友：不如Mate 60

向世界宣布，中国天眼有重大突破！15国申请用它，近900小时观测

我把55寸电视换成“85寸”电视后，有些话不吐不快，太真实了！

好消息传来！中国成功研制氮化镓量子光源芯片，全球首个！

世界最快的轻型运动飞机，来自河北沧州

辛巴VS快手：电商巨头掀起波澜，究竟谁将笑到最后？

呼和浩特新机场命名正式获批

好消息传来！中国成功研制氮化镓量子光源芯片，全球首个！

日本没想到，美国也没想到，如今的中国广东，已成为全球焦点

“全球战塑”，世纪华通与ChinaJoy发起全球游戏人减塑行

清华大学告诉你中文AI谁最强

以旧换新优惠力度大，TCL Q10K系列新品发布，电视品类置换

不止影像出众，华为nova 12系列带你解锁五一出游大片拍

撼与科技推出嵌入式锐炫系列显卡：面向边缘市场，提供五年

“全球战塑”，世纪华通与ChinaJoy发起全球游戏人减塑行

海信发布《黑神话：悟空》游戏定制电视E8N系列

Kimi、文心一言、豆包等8款AI模型哪个更适合你？附测试