文心一言多项指标“遥遥领先” 清华权威报道公布

最近，由清华大学基础模型研究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架，正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》。评测共包含了14个海内外具有代表性的模型，结果显示：文心一言4.0表现亮眼，与国际一流模型水平接近，且差距已经逐渐缩小，名副其实为国内头部模型。

例如在人类对齐能力评测中，文心一言4.0表现优异，位居国内第一，其中在中文推理、中文语言等评测上，文心一言遥遥领先，和其他模型拉开明显差距，中文理解上，文心一言4.0领先优势明显，领先第二名GLM-4 0.41分，GPT-4系列模型表现较差，排在中下游，并且和第一名文心一言4.0分差超过1分。

在语义理解中的数学能力上，文心一言4.0与Claude-3并列全球第一； GPT-4系列模型位列第四五，其他模型得分在55分附近较为集中，明显落后第一梯队；而在语义理解中的阅读理解能力上，文心一言4.0超过GPT-4 Turbo、Claude-3以及GLM-4拿下榜首。

而在企业选择大模型最看重的安全性评测上，国内模型文心一言4.0表现亮眼，力压国际一流模型GPT-4系列模型和Claude-3拿下最高分（89.1分），Claude-3仅列第四。

值得注意的是，文心一言不仅在技术能力上过硬，在应用落地上也是一路领先。自去年3月16日文心一言首发至今，用户数已突破2亿，每天API调用量也突破了2亿。

推广

【如果您有新闻线索，欢迎向我们报料，一经采纳有费用酬谢。报料微信关注：ihxdsb，报料QQ：3386405712】

展开阅读全文

页面更新：2024-04-23

标签：清华大学日文中下游语义清华遥遥领先中文模型差距指标能力权威系列国内

1 2 3 4 5

文心一言多项指标“遥遥领先” 清华权威报道公布

“中国天眼”的新消息，必须和这些照片一起看！

不服跑个分？华为Pura70麒麟9010对比骁龙8Gen3 实际体验对比

航天英雄翟志刚：最有资格担任神舟十八号指令长的不二人选

丑闻曝光！大量专家被国家点名通报，涉及多所重点大学

新疆低空经济加速“起飞”

深江铁路滨海湾站站房工程即将开工，计划2027年5月竣工

“坚若磐石：市场顶尖十强手机耐用性大比拼”

云南昭通至四川西昌高速公路全线首片钢箱梁成功架设

三个月蒸发3175亿！7.8亿人都救不了拼多多？网友直呼：自作自受

新中式火遍全球常熟服饰产业带携手跨境电商加速出海

科技资讯｜氮化镓量子光源芯片研究取得重大进展等

从“垃圾废物”中生产“航空喷气燃料”

台积电定调，转战美国、日本制芯，预计成本增加10-30%

这就是被"制裁"的俄罗斯！网友:看到中文雷碧傻眼了,评论笑不活了

黄仁勋：人形机器人制造成本或比预期要低，花钱买车不如买机器人

这就是被"制裁"的俄罗斯！网友:看到中文雷碧傻眼了,评论

全国职工马拉松系列赛事将于5月19日开跑

中国内地至沙特阿拉伯首条定期直飞的客运航线正式开通

习水县第二幼儿园开展2024年世界地球日系列活动

“春去谷雨至童趣喜相见”-洋河世纪锦园幼儿园亲子春

APM Monaco × 杨紫限定系列发布

国内最大！在青海试制成功

大事！大事！大事！4月20日12点20分，国内发生三大件社会性事

今日文案-那些能让你的朋友圈瞬间被秒赞的句子！

人民日报每日文摘‖ 夜色难免薄凉但前行必有曙光