Meta发布了大语言模型LLaMA:4个基础模型,参数范围从7B到65B

Meta发布了LLaMA,4个基础模型,参数范围从7B到65B

LLaMA-13B在大多数基准测试中的性能优于OPT和GPT-3 175B。LLaMA-65B可与Chinchilla 70 B和PaLM 540B竞争。

与Chinchilla、PaLM或GPT-3不同,LLaMA只使用公开可用的数据集,而大多数现有模型依赖于非公开可用的数据。

所有的模型都在至少1T的令牌上进行了训练,远远超过了该规模下通常使用的令牌数量。 有趣的是,即使在1T令牌之后,7B模型性能仍在改进。

在常识推理、闭卷问题回答和阅读理解方面,LLaMA-65B在几乎所有基准测试中都优于Chinchilla 70B和PaLM 540B。

LLaMA-65B在GSM8k上的性能优于Minerva-62B,尽管它尚未在任何数学数据集上进行微调。在MATH基准测试中,它优于PaLM-62B(但远低于Minerva-62B)。

在代码生成基准测试中,LLaMA-62 B优于cont-PaLM(62 B)以及PaLM-540 B。

已开源:/facebookresearch/llama

作为一个最小的、可自由修改的和可读的示例来加载LLaMA模型和运行推理。

展开阅读全文

页面更新:2024-02-09

标签:模型   令牌   基准   示例   最小   可读   加载   有趣   性能   参数   语言   基础   数据

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top