Llama3 中文版本地环境搭建和部署实战ollama版

这两天科技新闻中Llama 3消息刷爆了,中国时间 2024 年 4 月 19 日 0 点 0 分,Meta Llama 3 发布。模型以开源形式提供,包含 8B 和 70B 两种参数规模,涵盖预训练和指令调优的变体。Llama 3 支持多种商业和研究用途,并已在多个行业标准测试中展示了其卓越的性能。

项目开源地址

https://github.com/meta-llama/llama3

模型已经在Hugging Face上可以下载了

周末写了一篇文章关于《Llama3 中文版本地环境搭建和部署实战》收到很多小伙伴欢迎,但是也有的小伙伴给我提出问题了。我介绍了原生通过python依赖环境安装的方式有点复杂,另外之前的项目中为了做4B量化在本地电脑上运行起来,我们也修改了作者的代码。有没有更简单方法来实现部署呢?因为这2天Llama3 非常火爆,所以也出现了N个中文微调版本。

多模态版本也出来了。真的是让人惊喜啊。本来计划打算使用llama.cpp项目对中文版大模型做模型转换,转换成GGUF支持ollama部署方式的模型格式了。今天在huggingface 上面已经出现了带有GGUF格式的模型文件了



有了gguf格式的模型文件这样我们就不需要通过llama.cpp项目进行模型格式转换了。

另外ollama 模型仓库中我们也发现了别人微调过中文版本Llama3

不过因为考虑到模型下载量,这里面模型质量到底是什么样子的赞也不干保证。所以我们还是在huggingface上面下载gguf格式的模型文件把。

1.模型下载

1.1 我们选择zhouzr/Llama3-8B-Chinese-Chat-GGUF 这个人模型下载,为什么选择这个模型呢,因为这个版本的模型支持多种量化模型(Q2、Q3、Q4、Q5、Q6)


根据我们电脑上显卡内存大小我们选择Llama3-8B-Chinese-Chat.q4_k_m.GGUF 模型文件。

将这个模型文件下载到本地电脑上(F:AILlama3-8B-Chinese-Chat-GGUF)

解下来我们需要编写Modelfile 实现模型的自定义。Modelfile 文件格式如下

FROM ./Llama3-8B-Chinese-Chat.q4_k_m.GGUF
TEMPLATE """{{ if .System }}<|start_header_id|>system<|end_header_id|>

{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>

{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>

{{ .Response }}<|eot_id|>"""
PARAMETER stop "<|start_header_id|>"
PARAMETER stop "<|end_header_id|>"
PARAMETER stop "<|eot_id|>"
PARAMETER stop "<|reserved_special_token"

编写好Modelfile 文件,这个文件和模型文件放到同级目录

接下来我们在本地电脑上启动ollama.exe 文件(关于ollama的安装这里就不在详细介绍了)

启动好后,我们在windows cmd窗口中执行 ollama list

这里就可以列举出我们之前下载好的支持ollama模型镜像文件。

接下来我们切换到F:AILlama3-8B-Chinese-Chat-GGUF 模型文件目录下。

接下来我们输入自定义模型创建命令

ollama create llama3-Chinese:8B -f Modelfile


接下来会显示模型创建记录


通过以上方式我们完成了模型自定义创建。

输入 ollama list 这时候我们会看到新创建模型镜像文件


我们运行这个模型 ollama run llama3-Chinese:8B,输入完成后模型加载中,稍等1分钟左右进入命令行交互界面


我们输入问题“你好,你是谁?” 这个时候模型给我们返回消息了,速度还挺快的。因为考虑到命令行输入不方面,另外也没办法实现多轮对话,我们可以借助chatbox 客户端工具来测试。关于chatbox 安装这个也不过多讲解。

chatbox 下载地址https://github.com/Bin-Huang/chatbox/releases

我们打开chatbox 设置好ollama


根据上面截图完成ollama 在chatbox上的设置。其中3 下拉模型是会加载ollama list 展现的模型,我们选择我们要测试的

llama3-Chinese:8B 即可。

下面我们展示一下chatbox 上的测试。

问题1 鸡柳是鸡身上哪个部位啊?


问题2 两千块钱买什么新车好?


问题3 我同时吸入氧气和氢气是不是就等于我在喝水了


问题4 蓝牙耳机坏了,去医院挂牙科还是耳科?


问题5 给我用python写一个二分法算法

总体来说这个版本的量化还是不错的,运行速度也挺快的。另外我的显存消耗大概 7.5G

1.2 Unichat-llama3-Chinese-8B-GGUF

我们在huggingface 看到还有联通版本的模型,下面我们也对这个模型进行测试一下。


下面的模型下载 已经编写Modelfile 和上面的类似,这里就不详细展开了。贴一下Modelfile文件

FROM ./Unichat-llama3-Chinese-8B.Q4_K_M.gguf
TEMPLATE """{{ if .System }}<|start_header_id|>system<|end_header_id|>

{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>

{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>

{{ .Response }}<|eot_id|>"""
PARAMETER stop "<|start_header_id|>"
PARAMETER stop "<|end_header_id|>"
PARAMETER stop "<|eot_id|>"
PARAMETER stop "<|reserved_special_token"

创建模型

ollama create Unichat-llama3-Chinese:8B -f Modelfile



下面我们之间用chatbox 对联通版本量化模型测试对比一下效果


我们重新开一个聊天窗口

问题1:鸡柳是鸡身上哪个部位啊?

这个解释的不好。

问题2:两千块钱买什么新车好?


这个没回答到点子上。

问题3:我同时吸入氧气和氢气是不是就等于我在喝水了

这个回答让我比较失望。

问题4:蓝牙耳机坏了,去医院挂牙科还是耳科?


答非所问。


总结:这个联通版本模型测试下来完全不行,对比下来是没有上面的第一个模型效果好,看来微调还是要看下载量和口碑等要素。

好了今天的分享就到这里结束了,感兴趣的小伙伴可以留言点赞加关注,我们后面可以给大家介绍自己做模型转换及模型量化,这样质量有的保证。

说明:以上测试的题目从“ruzhiba”题库里面选取的,有需要的小伙伴可以留言,私信给我。

展开阅读全文

页面更新:2024-04-26

标签:下载量   耳科   氢气   实战   中文版   模型   版本   格式   环境   文件   测试   项目   电脑

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top