全球最大中英文语义向量模型训练数据集发布

北京日报客户端 | 记者孙奇茹

全球大模型研发进入如火如荼的爆发期，而激烈的竞争与高昂的成本，也同时推动着开源崛起成为人工智能发展的关键推动力量。智源研究院近日在北京人工智能产业峰会发布面向中英文语义向量模型训练的大规模文本对数据集MTP（massive text pairs）。这是全球最大的中、英文文本对训练数据集，数据规模达3亿对，具有规模巨大、主题丰富、数据质量高三大特征，旨在推动解决中文模型训练数据集缺乏问题，推动人工智能协同创新发展。

通用语义向量模型是决定大模型性能的关键组件，可以链接外模型与外部知识。智源相关负责人向记者比喻道，向量模型可以理解为大模型的“知识外挂”，能够使得大模型完成训练后，在应用时仍然能搜索最新知识，防止训练数据过时。而由“关联文本”为基本元素的优质训练数据，是构建通用语义向量模型的核心要素。

本次开源的MTP数据集是智源BGE中英文语义向量模型训练所用中英文数据。得益于大规模、高质量的训练数据，开源可商用的智源BGE模型自发布以来，就凭借优秀的中英文语义检索精度与整体语义表征能力成为广受社区欢迎的语义向量模型：在大规模向量模型权威排行榜 MTEB上排名稳居第一，在全球知名的人工智能开源社区Hugging Face累计下载量达到数十万，并被 LangChain等全球多个知名开源项目集成。

北京智源研究院副院长兼总工程师林咏华在发布环节中说道：“语义向量模型在大模型落地产业中起到十分重要的作用，但往往被忽略了。我们希望这次大规模数据集、以及语义向量模型的开源，能帮助更多团队加快实现大模型产业落地。”

数据对大模型训练起着至关重要的基础作用。构建高质量开源数据集，特别是用于训练基础模型的开源数据集对大模型发展意义重大，然而中文社区却鲜少数据开源贡献者。“数据可以说是AI大模型最重要的一个要素，大家认识不同，但是总的来说几乎所有人都认为数据的质量对模型智能水平影响最高，差不多要超过60%。”北京智源人工智能研究院院长黄铁军在2023年国家网络安全宣传周活动上曾说道。

据了解，作为科技部与北京市支持建设的人工智能新型研发机构，智源持续进行包括数据在内的大模型全栈技术开源，持续贡献高质量中文数据集建设与数据资源开源开放。2021年，其推出全球最大语料库WuDaoCorpora，开放200GB高质量低风险中文语料，由400余个产学研单位合作，已有770多个研发团队申请，为微软、哈佛大学、斯坦福大学、华为、阿里巴巴、腾讯、鹏城实验室等提供数据服务，有效支撑全球大模型相关研究。今年开放的最大规模、可商用、持续更新的中文开源指令数据集COIG，由来自全球40余个机构的100多名工程师共同参与，创造了跨越国界、紧密合作的全球数据开源故事。

目前，智源也在推动各方共建大规模高质量中文数据库，以盘活我国高质量中文数据资源，加快数据处理相关标准、技术、工具和支撑平台研发，提高数据处理效率。

展开阅读全文

页面更新：2024-04-17

标签：向量语义中英文模型数据人工智能北京中文研究院全球

1 2 3 4 5

全球最大中英文语义向量模型训练数据集发布

2023世界公众科学素质促进大会举行

京东发布乡村振兴“奔富计划”五大行动

波音公司报告：到2042年，中国将需要8560架新商用飞机

全国大学生电子设计竞赛（新疆赛区）比赛11支参赛队伍晋级全国赛

「图片新闻」第九届中国·嘉峪关国际短片电影展短片电影高质量发展论坛现场

华为全联接大会2023顺德站将于9月26日启幕

海口—三明—南京航线旅客吞吐量超20万人次

新兴业态需创新护航

河北省首家水文科普教育基地正式揭牌

1280°C！钢板过粗轧机，水流瞬间雾化

药明合联无锡基地新厂房投产，将实现产能翻番

我国各学科最具影响力期刊论文数量首居世界第一

有关科研成果敲响警钟-生命之树的多个分支遭受“砍伐”

公牛数据线遭华为识破！鸿蒙系统揭秘充电陷阱，网友哭笑不得！

「市场」最新中国折叠屏手机份额华为第一 OPPO第二

公牛数据线遭华为识破！鸿蒙系统揭秘充电陷阱，网友哭笑不

全球智能手机三季度出货2.93亿部同比仍有下滑但下滑

73岁奶奶从威尼斯徒步到北京！创造世界纪录

北京时间10月30日下午，乒乓球传来王曼昱、陈梦的最新消

京东、阿里巴巴等企业后，又一家中国企业宣布加入联合国

北京时间10月30日下午，女篮传来李月汝的最新消息！

全球连线｜中阿博览会开幕在即各界人士送祝福

天士力与华为云签约共建中医药大模型，助力传统中药行业

北京时间10月30日下午，中国男篮传来张镇麟的新消息！

大模型出版行业深度应用创新成果“版阅AI内容服务平台