LaWGPT：基于中文法律知识的大型语言模型

github仓库

嘿，大家好！今天我在 GitHub 上发现了一个名叫 LaWGPT 的项目，真是个有意思的发现！现在就来和大家分享一下！

LaWGPT 是一个基于中文法律知识的大型语言模型，公开发布于2023年5月13日。它在通用中文语言模型（如 Chinese-LLaMA 和 ChatGLM等）的基础上进行了增强，加入了专门的法律词汇，并经过广泛的中文法律语料预训练，从而提高了模型对法律语义的理解能力。此外，该模型还使用了基于对话的问答数据集和中国司法考试数据进行微调，进一步加强了对法律内容的理解和处理能力。

LaWGPT 使用的模型是 LaWGPT-7B-alpha，它是基于 Chinese-LLaMA-7B 模型构建的，并经过使用30万个法律问答对数据的微调。有些许的厉害！

现在，让我们来看一下 LaWGPT 生成的一些示例输出：

欠了信用卡的钱还不上要坐牢吗？

请问加班工资怎么算？

不过，需要注意的是，LaWGPT 在当前阶段存在一些局限性。由于计算资源和数据规模有限等因素，模型可能在记忆和语言能力方面有一些弱点，导致在处理事实知识任务时可能出现不准确的情况。此外，与人类意图的一致性仍处于早期阶段，这意味着模型可能会生成一些不可预测的有害或价值不一致的内容。模型的自我认知和中文理解能力仍有改进的空间。

因此，在使用 LaWGPT 之前，请务必了解这些局限性，以避免产生误解和不必要的麻烦。如果你有任何问题，建议先查阅常见问题解答或之前的问题，看看是否能解决你的疑问。让我们保持礼貌地讨论，共同构建一个和谐的社区。

想要安装 LaWGPT 吗？首先，你需要完成一些设置步骤。从 LaWGPT 的代码库中下载代码，创建一个 Python 3.10 的环境，安装所需的依赖项。最后启动WebUI，这样你就可以轻松地调整参数并查询你需要的法律问题了。如果你的显卡显存小于16GB，就不要尝试了，显存不够。Colab 也不太适合，因为只有12GB的内存，不够用。但是你可以使用 CPU 方式运行，虽然会慢一些，但也能运行。

关于二次训练，如果使用了8张 Tesla V100-SXM2-32GB，二次训练阶段大约需要耗时24小时/轮次，微调阶段大约需要耗时12小时/轮次。

如果你对这个项目感兴趣，可以在这个项目的 GitHub 地址上找到更多信息和源代码：https://github.com/pengxiao-song/LaWGPT

好啦，今天的分享就到这里。敬请期待更多令人激动的科技更新！感谢大家一直以来的支持，你们真的太棒了！

展开阅读全文

页面更新：2024-03-01

标签：中文模型语言轮次法律知识局限性显存阶段能力法律数据

1 2 3 4 5

LaWGPT：基于中文法律知识的大型语言模型

啤酒五巨头年报收官，高端产品线争夺激烈重庆啤酒、华润啤酒承压？

新能源汽车优势渐显助力汽车出口“弯道超车”

“除了性生活就是打麻将”，中国一千多个县城人们经济情况如何？

授信审核把关不严赣州银行厦门分行被罚135万元

北京前4月财政收入2439.2亿元

平陆运河建设新技术首次亮相广西先进技术展

惠州惠阳：严禁商品房交易环节出现首付贷及零首付

十四五国家重点研发计划“中国新一代奶粉研制”项目启动，飞鹤牵头承担

当“小”岗位走上“大”舞台

江西城际铁路大布局，多达12条，总里程长1330公里，总投资1469亿

乌鲁木齐市蓝领创业就业基地多业态蓄势待发

国轩高科发布重要公告！与大众有关！

大湾区航运联合交易中心启动共建，南沙与多方签署合作协议

5月22日养老金调整通知来了!上涨3.8%，企退职工能涨300元以上吗

汤姆猫现3.53亿元折价大宗交易

在开放协同中锻造更强的创新能力

大模型、火箭等集中亮相，共展出近300个展项，首日游客超4

非法转移数据到美国，美巨头被罚近百亿人民币！

一个读取excel数据处理完成后读入数据库的例子

用数据说话：欧战表现被全面吊打，法甲还配称作“五大联赛

分享一个不输于chatGPT的大语言模型，国内可直接访问！

「视觉探索」柔情绰态，媚于语言

让高质量数据“动”起来

民法典宣传普法活动开讲，法律专家释疑三大旅游关注热点

长了5cm！杰伦-格林透露自己目前身高198 官方数据为193