百川智能发布Baichuan-13B 开源可免费商用

日前，百川智能正式发布参数量130亿的通用大语言模型Baichuan-13B-Base、对话模型Baichuan-13B-Chat及其INT4/INT8两个量化版本。

未来大模型生态开源闭源并存已经是不争的事实，如同iOS与安卓。但闭源会要求企业访问公网以及难以定制化适配，使用场景受限。而开源能够使企业轻松地借助专有数据进行微调和私有化部署，进而促进百行千业的良性发展生态。

Baichuan-13B中英文大模型是百川智能发布的第二款通用大语言模型，而在前不久的6月15日，百川智能就已经推出了首款70亿参数量的中英文语言模型Baichuan-7B。

预训练模型“底座”因其灵活的可定制性，适合具有一定开发能力的开发者和企业，而普通用户则更关注具有对话功能的对齐模型。因此百川智能在发布预训练模型Baichuan-13B-Base的同时还发布了其对话模型Baichuan-13B-Chat，Baichuan-13B-Chat部署简单、开箱即用，极大降低了开发者的体验成本。

相比此前发布的Baichuan-7B，Baichuan-13B在1.4万亿token数据集上训练，超过LLaMA-13B 40%。

在语言模型中，上下文窗口长度对于理解和生成与特定上下文相关的文本至关重要。Baichuan-13B上下文窗口长度为4096，不同于Baichuan-7B的RoPE编码方式，Baichuan-13B使用了ALiBi位置编码技术，能够处理长上下文窗口，甚至可以推断超出训练期间读取数据的上下文长度，从而能够更好的捕捉文本中上下文的相关性，做出更准确的预测或生成。

作为一款中英文双语大模型，Baichuan-13B采用了相对平衡的中英文语料配比和多语言对齐语料，从而在中英两种语言上表现均很优异。在同等参数量的开源模型中堪称实力担当，能更好满足商业化场景需求。

有些模型为了能在评测中取得更好的成绩，会在基座模型和对话模型上引入较多针对benchmark的优化。此举虽然可以在榜单上获取更高的分数，但是没有本质地提升模型的基础能力，并且在下游任务中易产生回复长度短、质量低的问题，造成高分低能的现象。百川智能的Baichuan-13B-Base和Baichuan-13B-Chat未针对任何benchmark测试进行专项优化，保证了模型的纯净度，具有更高的效能和可定制性。

众所周知大模型的训练成本极高，在海量算力的成本压力下OpenAI和谷歌都选择了闭源来保证自家大模型的优势地位。但是从计算机科学与人工智能的发展历程来看，开源始终对软件技术乃至IT技术发展有着巨大的推动作用。

据悉，Baichuan-13B-Base 不仅对学术研究完全开放，所有开发者均可通过邮件向百川智能申请授权，在获得官方商用许可后即可免费商用。

并且，为了尽可能降低模型的使用门槛，百川智能同时开源了Baichuan-13B-Chat的INT8和INT4两个量化版本，在近乎无损的情况下可以很方便的将模型部署在如3090等消费级显卡上。

本次百川智能发布的Baichuan-13B中英文大语言模型，凭借百亿参数量已经展现出可以媲美千亿模型的能力，大大降低企业部署和调试的使用成本，让中国开源大模型商业化进入真正可用阶段。

同时，其开源模型的代码完全公开，所有人都可以随时查看，算法透明，不仅有利于研究人员深入探索和研究模型原理，并且有利于建立和深化公众对大模型的信任。

百川智能创始人王小川表示，期待国内大模型行业以及垂直领域能够在此基础上开发出更多优秀产品及行业应用，让技术在真实、丰富的应用场景中快速迭代创新。“我们愿与众多企业、开发者一道为国内开源社区的生态繁荣贡献自己的力量。”

展开阅读全文

页面更新：2024-03-05

标签：语料智能上下文开发者中英文模型成本参数语言企业

1 2 3 4 5

百川智能发布Baichuan-13B 开源可免费商用

（科技）中日青年学者共话人工智能技术应用与发展

2.34万亿美元！孟晚舟官宣，美媒：我们错了！不该把华为事件闹大

“颜宁之问”为什么没得到亮眼答案，最新回应……

400万粉丝网红发布擦边视频被封：永久封禁！禁止其直播带货

腾讯出手投资英国游戏公司

data.ai发布“2023年度发行商大奖”名单三七互娱入围全球20强

南京共有24所！2022年下半年江苏省优质幼儿园名单来啦！

世界人口日丨我国多措并举保障妇女儿童健康权益

4款三轮车亮相，2099元起，最大续航200公里，雅迪、爱玛都出手了

11年前，被父亲强迫在雪地裸跑的3岁小男孩，如今成就惊艳四方

电动车带俩娃罚款100元，二胎宝妈灵魂拷问：交警能帮着送一个吗

幼儿园花式“摸家底”？家长神操作反套路，网友：技高一筹

为什么天天夸女儿，还是被嫌弃

利津县利津街道中心幼儿园开展暑期培训活动

小学鸡娃三年后才发现，过去焦虑的这5件事，就是在浪费时间

（科技）中日青年学者共话人工智能技术应用与发展

清华&中国气象局大模型登Nature：「鬼天气」预报时

从零开始构建一个电影知识图谱实现KBQA智能问答[上篇]

专访美国国家工程院院士张捷：人工智能“听觉”领域前景

Python的四种用途：数据分析、网站开发、人工智能和游戏

安全平台上线，狂飙的大模型须系上“安全带”

智能技术拓宽应用场景激发数字化转型新活力

元宇宙聊天室｜大模型“涌现”下的商业机遇：“百模大战”

中国民营企业重大突破！这款火箭，拿下“全球首发”

金融大模型的构建与挑战：要求私有部署，安全合规是关键