在人工智能领域,有一款新的中文语言模型崭露头角,名为Colossal-LLaMA-2。这款模型经过了长达15小时的训练,仅使用数千元的算力,却在性能上超越了同级别的中文模型,而且它是开源的,可商用。这引发了开源社区的热情,并拓展了大型模型在各种应用中的可能性。
然而,构建一款从头开始训练的大型模型成本颇高,有人戏称需要花费数千万美元才能达到这一水平,这让许多企业和开发者望而却步。那么,如何以更低的成本来实现自己的大型模型呢?
性能表现方面,Colossal-LLaMA-2在常见的中英文评测榜单上都表现出色,尤其是在英文MMLU榜单中,它在低成本增量预训练下表现突出,克服了灾难性遗忘的问题,在7B规模的模型中脱颖而出。在中文榜单中,它的表现远超其他基于LLaMA-2的中文汉化模型,与原始LLaMA-2相比,中文能力有了质的飞跃。
Colossal-AI团队为了更全面地评估模型的性能,不仅仅依赖于量化指标,还进行了人工评估,包括对训练过程中的损失记录的分析。令人惊讶的是,他们仅仅使用了约85B个token和数千元的算力成本就取得了如此令人瞩目的效果,而市面上的大型模型通常需要数万亿个token的训练成本。
与原始的LLaMA-2相比,Colossal-LLaMA-2不仅在中文能力上有了显著提升,还进一步提升了其英文能力,使其能够与开源社区中的同规模预训练模型媲美。
Colossal-AI团队秉承开源原则,完全开源了他们的训练流程、代码和权重,并提供了一个全面的评估框架ColossalEval,以实现低成本的可复现性。
这一方案不仅可以轻松应用于各种垂类领域,还可以用于从头开始训练大型模型的低成本构建,为AI领域的创新提供了更多可能性。
本文内容来自于网络,若与实际情况不相符或存在侵权行为,请联系删除。
页面更新:2024-03-20
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号