Meta发布了LLaMA,4个基础模型,参数范围从7B到65B
LLaMA-13B在大多数基准测试中的性能优于OPT和GPT-3 175B。LLaMA-65B可与Chinchilla 70 B和PaLM 540B竞争。
与Chinchilla、PaLM或GPT-3不同,LLaMA只使用公开可用的数据集,而大多数现有模型依赖于非公开可用的数据。
所有的模型都在至少1T的令牌上进行了训练,远远超过了该规模下通常使用的令牌数量。 有趣的是,即使在1T令牌之后,7B模型性能仍在改进。
在常识推理、闭卷问题回答和阅读理解方面,LLaMA-65B在几乎所有基准测试中都优于Chinchilla 70B和PaLM 540B。
LLaMA-65B在GSM8k上的性能优于Minerva-62B,尽管它尚未在任何数学数据集上进行微调。在MATH基准测试中,它优于PaLM-62B(但远低于Minerva-62B)。
在代码生成基准测试中,LLaMA-62 B优于cont-PaLM(62 B)以及PaLM-540 B。
已开源:/facebookresearch/llama
作为一个最小的、可自由修改的和可读的示例来加载LLaMA模型和运行推理。
页面更新:2024-02-09
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号