Llama3 中文版本地环境搭建和部署实战ollama版

这两天科技新闻中Llama 3消息刷爆了，中国时间 2024 年 4 月 19 日 0 点 0 分，Meta Llama 3 发布。模型以开源形式提供，包含 8B 和 70B 两种参数规模，涵盖预训练和指令调优的变体。Llama 3 支持多种商业和研究用途，并已在多个行业标准测试中展示了其卓越的性能。

项目开源地址

https://github.com/meta-llama/llama3

模型已经在Hugging Face上可以下载了

周末写了一篇文章关于《Llama3 中文版本地环境搭建和部署实战》收到很多小伙伴欢迎，但是也有的小伙伴给我提出问题了。我介绍了原生通过python依赖环境安装的方式有点复杂，另外之前的项目中为了做4B量化在本地电脑上运行起来，我们也修改了作者的代码。有没有更简单方法来实现部署呢？因为这2天Llama3 非常火爆，所以也出现了N个中文微调版本。

联通微调版：https://www.modelscope.cn/models/UnicomAI/Unichat-llama3-Chinese/summary
Openbuddy微调版：https://www.modelscope.cn/models/OpenBuddy/openbuddy-llama3-8b-v21.1-8k/summary
zhichen微调版：https://github.com/seanzhang-zhichen/llama3-chinese
shenzhi-wang微调版：https://huggingface.co/shenzhi-wang/Llama3-8B-Chinese-Chat
Rookie微调版：https://github.com/Rookie1019/Llama-3-8B-Instruct-Chinese
破解安全限制系列（暂时只支持英文）：

Unholy：https://huggingface.co/Undi95/Llama-3-Unholy-8B
neural-chat：https://hf-mirror.com/Locutusque/llama-3-neural-chat-v1-8b
dolphin：https://huggingface.co/cognitivecomputations/dolphin-2.9-llama3-8b

llama3 Moe增强版：计划中
llama3 Pro（加block版）：

ORPO + 2block：https://github.com/linjh1118/Llama3-Chinese-ORPO

v-llama3 多模态图文版：（支持视觉问答）

Bunny-Llama-3-8B-V：https://wisemodel.cn/models/BAAI/Bunny-Llama-3-8B-V
llava-llama-3-8b：https://huggingface.co/xtuner/llava-llama-3-8b-v1_1

多模态版本也出来了。真的是让人惊喜啊。本来计划打算使用llama.cpp项目对中文版大模型做模型转换，转换成GGUF支持ollama部署方式的模型格式了。今天在huggingface 上面已经出现了带有GGUF格式的模型文件了

有了gguf格式的模型文件这样我们就不需要通过llama.cpp项目进行模型格式转换了。

另外ollama 模型仓库中我们也发现了别人微调过中文版本Llama3

不过因为考虑到模型下载量，这里面模型质量到底是什么样子的赞也不干保证。所以我们还是在huggingface上面下载gguf格式的模型文件把。

1.模型下载

1.1 我们选择zhouzr/Llama3-8B-Chinese-Chat-GGUF 这个人模型下载，为什么选择这个模型呢，因为这个版本的模型支持多种量化模型（Q2、Q3、Q4、Q5、Q6）

根据我们电脑上显卡内存大小我们选择Llama3-8B-Chinese-Chat.q4_k_m.GGUF 模型文件。

将这个模型文件下载到本地电脑上（F:AILlama3-8B-Chinese-Chat-GGUF）

解下来我们需要编写Modelfile 实现模型的自定义。Modelfile 文件格式如下

FROM ./Llama3-8B-Chinese-Chat.q4_k_m.GGUF
TEMPLATE """{{ if .System }}<|start_header_id|>system<|end_header_id|>

{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>

{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>

{{ .Response }}<|eot_id|>"""
PARAMETER stop "<|start_header_id|>"
PARAMETER stop "<|end_header_id|>"
PARAMETER stop "<|eot_id|>"
PARAMETER stop "<|reserved_special_token"

编写好Modelfile 文件，这个文件和模型文件放到同级目录

接下来我们在本地电脑上启动ollama.exe 文件（关于ollama的安装这里就不在详细介绍了）

启动好后，我们在windows cmd窗口中执行 ollama list

这里就可以列举出我们之前下载好的支持ollama模型镜像文件。

接下来我们切换到F:AILlama3-8B-Chinese-Chat-GGUF 模型文件目录下。

接下来我们输入自定义模型创建命令

ollama create llama3-Chinese:8B -f Modelfile

接下来会显示模型创建记录

通过以上方式我们完成了模型自定义创建。

输入 ollama list 这时候我们会看到新创建模型镜像文件

我们运行这个模型 ollama run llama3-Chinese:8B，输入完成后模型加载中，稍等1分钟左右进入命令行交互界面

我们输入问题“你好，你是谁？” 这个时候模型给我们返回消息了，速度还挺快的。因为考虑到命令行输入不方面，另外也没办法实现多轮对话，我们可以借助chatbox 客户端工具来测试。关于chatbox 安装这个也不过多讲解。

chatbox 下载地址https://github.com/Bin-Huang/chatbox/releases

我们打开chatbox 设置好ollama

根据上面截图完成ollama 在chatbox上的设置。其中3 下拉模型是会加载ollama list 展现的模型，我们选择我们要测试的

llama3-Chinese:8B 即可。

下面我们展示一下chatbox 上的测试。

问题1 鸡柳是鸡身上哪个部位啊？

问题2 两千块钱买什么新车好？

问题3 我同时吸入氧气和氢气是不是就等于我在喝水了

问题4 蓝牙耳机坏了，去医院挂牙科还是耳科？

问题5 给我用python写一个二分法算法

总体来说这个版本的量化还是不错的，运行速度也挺快的。另外我的显存消耗大概 7.5G

1.2 Unichat-llama3-Chinese-8B-GGUF

我们在huggingface 看到还有联通版本的模型，下面我们也对这个模型进行测试一下。

下面的模型下载已经编写Modelfile 和上面的类似，这里就不详细展开了。贴一下Modelfile文件

FROM ./Unichat-llama3-Chinese-8B.Q4_K_M.gguf
TEMPLATE """{{ if .System }}<|start_header_id|>system<|end_header_id|>

{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>

{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>

{{ .Response }}<|eot_id|>"""
PARAMETER stop "<|start_header_id|>"
PARAMETER stop "<|end_header_id|>"
PARAMETER stop "<|eot_id|>"
PARAMETER stop "<|reserved_special_token"

创建模型

ollama create Unichat-llama3-Chinese:8B -f Modelfile

下面我们之间用chatbox 对联通版本量化模型测试对比一下效果

我们重新开一个聊天窗口

问题1：鸡柳是鸡身上哪个部位啊？

这个解释的不好。

问题2：两千块钱买什么新车好？

这个没回答到点子上。

问题3：我同时吸入氧气和氢气是不是就等于我在喝水了

这个回答让我比较失望。

问题4：蓝牙耳机坏了，去医院挂牙科还是耳科？

答非所问。

总结：这个联通版本模型测试下来完全不行，对比下来是没有上面的第一个模型效果好，看来微调还是要看下载量和口碑等要素。

好了今天的分享就到这里结束了，感兴趣的小伙伴可以留言点赞加关注，我们后面可以给大家介绍自己做模型转换及模型量化，这样质量有的保证。

说明：以上测试的题目从“ruzhiba”题库里面选取的，有需要的小伙伴可以留言，私信给我。

展开阅读全文

页面更新：2024-04-26

标签：下载量耳科氢气实战中文版模型版本格式环境文件测试项目电脑

1 2 3 4 5

Llama3 中文版本地环境搭建和部署实战ollama版

字节跳动与TikTok斥资700万美元用于游说和广告，对抗潜在美国禁令

川籍航天员再上天！一起翻开神十八指令长叶光富的成长相册

惊爆！日本核污水排放再开启，山东各市辐射值最新数据曝光！

ChatGPT一天“吃”50万度电，AI热潮下美国上演电力“抢夺战”，核能、地热和燃料电池成新希望

长文带你了解九号全系列（附参数对比）

江苏厉害了，一个省飞出三位航天员！终于赶上了大河南

牺牲太大！王亚平曾谈太空之旅的辛酸，落地后身体弱连路都走不了

如果有一天刘强东成为世界首富，请千万不要意外

ASML背上中芯国际的“哑巴亏”？外媒：2000亿市值损失，转折点？

“绵阳造”机器人亮相2024德国汉诺威工业博览会现场收获多国合作意向订单

中国学者成功研发柔性纤维电池：从爬山虎获得启示、外力破坏仍可供电

以前的手机有模有样，现在的手机一模一样

发射成功率100%！今晚“出征”的“神箭”还有两手“独门绝技”

85英寸电视机买什么牌子好？好评榜前五的品牌

国际航线“上新”，释放啥信号？

科大讯飞刘庆峰：中美通用大模型差距在半年到一年半，如果

增长300%！汕尾获批省自然科学基金项目6个

女程序员电脑前写代码，头顶烟雾缭绕，网友：大脑高速运转冒

《原神》4.6版本「两界为火，赤夜将熄」更新说明

汶上县特殊教育学校获批2023年度国际足联公益项目执行

华为回应Pura 70一键消除衣服,网友喊话不要优化，附上测

不吹不黑，当一回华为Pura 70系列裁判，不聊参数只讲各版

有人一年刷100多遍，这个《三体》改编的沉浸科幻体验剧

联合国世界粮食计划署甘肃学龄前儿童营养改善试点项目

浙江兰溪在香港推介投资环境