昆仑万维：天工通用大模型推理能力超过GPT-3.5和LLaMA2

北京商报讯（记者杨月涵）9月16日，昆仑万维发布消息称，在权威推理榜单Benchmark GSM8K 测试中，昆仑万维自研的通用基座大模型天工大模型以80%的正确率脱颖而出，大幅领先GPT-3.5（57.1%）和LLaMA2-70B（56.8%），“标志着天工大模型的推理能力达到全球领先，接近GPT-4”。

消息提到，天工大模型不仅在推理性能上有着强大的竞争力，在MMLU、C-EVAL、HumanEval等三项数据集测试中也同样表现出色。在MMLU数据集测试中，天工大模型以65%准确率超越了LLaMA-65B的63.4%；在C-EVAL数据集测试中，天工大模型以65%准确率超越了GPT3.5的54.4%。在HumanEval数据集测试中，天工大模型以37.2%的准确率超过了PaLM-540B（26.2%）、LLaMA-65B（23.7%）、LLaMa2 -70B（30.5%）。

展开阅读全文

页面更新：2024-03-03

标签：天工模型正确率基座准确率脱颖而出北京大幅竞争力能力数据万维

1 2 3 4 5

昆仑万维：天工通用大模型推理能力超过GPT-3.5和LLaMA2

我国迎来第20届全国科普日活动

安全意识+1，这份防骗视频攻略助你百“骗”不侵

锂电池储能系统在穿梭油船上的应用与实验原理

狂卖2.5亿的“智商税”？广东夫妇惨遭打脸，网友：网红又翻车了

1954年解放军击落民航客机事件，遭美军报复，两架战斗机被击落

9.17就在刚刚！华为动了谁的蛋糕？水军毁掉一个国产品牌不遗余力

委内瑞拉将搭中国飞船载人登月，2发长征10号成本高，要收费吗？

中国北美增复多条航线！温哥华200旅客被紧急疏散！

女航天员是怎样“炼”成的？刘洋为家乡学子上了生动的开学“第一课”

“斯诺登事件”对互联网治理的三方面影响

印月球车1天半走8米，玉兔号972天走了118.9米，两者有什么不一样

候机厅全是按摩椅？山西太原机场最新回应三分钟新闻早知道

Avalonia开发（一）环境搭建

聪明的刘伟元，被人坑了，他居然没吱声？

这个暑假哪些文旅消费最出圈？有哪些新特点？专家解读

大数据帮忙“扫黄”？若符合以下特征，你有可能“涉黄”而

数据说｜今年暑期济南门票订单增长超2倍，哪家景区是人气

北京一家人去东莞，吃了几样特色菜，对价格质疑：这是东莞物

外媒评iPhone 15 Pro Max：近年最具竞争力的苹果旗舰

推进“文化+科技”深度融合北京出版集团与北京科协展

中关村人工智能大模型产业集聚区启动建设

（社会）北京：感受科技乐趣

清华汪玉创始公司浮出水面，要做大模型一体机，仍是师生组

乐山大佛两旁“哼哈二将”风化严重将消失？景区：正收集数

北京推出城市夜游指南推荐榜评选，并征集巡游北京文旅短