2023年11月23日00:45:07评论591 views字数 2398阅读7分59秒阅读模式

写在前面

之前ChatGLM推出3了，奈何自身条件不允许，CPU运行半天出不来结果，索性放弃。幸好这次拿到了朋友的机器，虽然显存不高，但是双卡共16G也满足运行的最低要求，于是乎准备研究一波，尝试双卡部署一下。

之前已经装好了环境，参考：使用双Tesla P4 N卡配置torch机器学习环境

环境配置

关于ChatGLM3不过多介绍了，支持工具回调，支持代码执行，是我挺喜欢的一个开源模型，这次直接给出了技术文档

（文档内容不做截图因为有水印）https://lslfd0slxc.feishu.cn/wiki/HIj5wVxGqiUg3rkbQ1OcVEe5n9g

先下载源码

git clone https://github.com/THUDM/ChatGLM3.git

然后装一下requirements.txt，因为之前已经装好了torch，所以注释掉

（超详细）双N卡尝试部署ChatGLM3

pip3 install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

太慢了，加上国内源

（超详细）双N卡尝试部署ChatGLM3

随后，基础环境装好了。

ChatGLM3给了多种运行方式，其中包含基础demo（basic_demo目录下）和综合demo（包含工具执行，代码解释的综合性demo，在composite_demo）

这里我先以方便双卡运行为主，运行basic_demo

关于综合Demo可以参考如下链接，本文不提及

https://github.com/THUDM/ChatGLM3/blob/main/composite_demo/README.md

另外：运行web_demo.py发现丢了个mdtex2html的库，装一下

（超详细）双N卡尝试部署ChatGLM3

pip3 install mdtex2html -i https://pypi.tuna.tsinghua.edu.cn/simple

项目运行

因为网络问题无法访问到huggingface，所以我准备使用魔塔社区的模型仓库来下载与逆行，要简单修改一下来源，通过transformers库中的方法找的是huggingface的模型

（超详细）双N卡尝试部署ChatGLM3

这里参考魔塔社区的README.md

https://www.modelscope.cn/models/ZhipuAI/chatglm3-6b/summary

（超详细）双N卡尝试部署ChatGLM3

简单修改为 modelscope的方法，先下载modelscope库

pip3 install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple

然后如下是修改后的 1-20行代码

import osfrom modelscope import AutoModel, AutoTokenizerimport gradio as grimport mdtex2htmlfrom utils import load_model_on_gpusimport torch
MODEL_PATH = os.environ.get('MODEL_PATH', 'ZhipuAI/chatglm3-6b')TOKENIZER_PATH = os.environ.get("TOKENIZER_PATH", MODEL_PATH)DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu'
tokenizer = AutoTokenizer.from_pretrained(TOKENIZER_PATH, trust_remote_code=True)if 'cuda' in DEVICE: # AMD, NVIDIA GPU can use Half Precision    model = AutoModel.from_pretrained(MODEL_PATH, trust_remote_code=True).to(DEVICE).eval()else: # CPU, Intel GPU and other GPU can use Float16 Precision Only    model = AutoModel.from_pretrained(MODEL_PATH, trust_remote_code=True).float().to(DEVICE).eval()
# 多显卡支持，使用下面两行代替上面一行，将num_gpus改为你实际的显卡数量from utils import load_model_on_gpusmodel = load_model_on_gpus("ZhipuAI/chatglm3-6b", num_gpus=2)

（超详细）双N卡尝试部署ChatGLM3

如图，总共改了三个地方：

transformers改为modelscope
模型的仓库由THUDM/chatglm3-6b 修改为ZhipuAI/chatglm3-6b
打开了多显卡支持的注释，注释了原来的mode加载方式，同时修改仓库名称

同时，因为load_model_on_gpus函数是utils.py中实现的，我们也需要把utils.py中的transformers改为modelscope，如图所示

（超详细）双N卡尝试部署ChatGLM3

然后执行，接下来就是漫长的等待

（超详细）双N卡尝试部署ChatGLM3

然后就正常执行了，这个时候我们可以再开一个窗口执行如下命令来查看显卡的情况

watch -n 1 nvidia-smi

（超详细）双N卡尝试部署ChatGLM3

可以看到，已经分配到两个卡了，完美运行

使用

浏览器访问服务器地址

（超详细）双N卡尝试部署ChatGLM3

很快啊，几秒钟就回复了，为啥我要从这里看呢？

（超详细）双N卡尝试部署ChatGLM3

因为前端报错了，估计是在插入DOM节点的时候出问题了。疑似是gradio的问题，感觉和我用纯命令行的XShell有关（个人猜测）。

总结

虽然最后的结果展示有点小失败，但是整体上是成功的，我完全可以自己写个web，通过接口的方式进行调用。

踩坑结果：本次终于可以用上ChatGLM3，同时搞定了多卡执行，学到了很多。

终于凑足了能低配完美运行的资源了，这可比之前我mps推理的时候，20分钟回复你好强多了。

END

原文始发于微信公众号（飞羽技术工坊）：（超详细）双N卡尝试部署ChatGLM3

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

（超详细）双N卡尝试部署ChatGLM3

环境配置

项目运行

使用

总结

K8S命令速查宝典，建议收藏，少走弯路！

2600 万份简历裸奔！钓鱼、人肉搜索与诈骗将如何上演

网络安全职场，其实是普遍缺乏信任的，这才是职场的常态！

美国解除对中国EDA禁令：本土EDA仍需实现高端突破

如何不吹芯片提取eMMC

NSFOCUS旧友记大嘴妹秦波

加拿大以国家安全为由打压中国企业，海康威视被迫关闭加拿大业务

【厂商不承认的漏洞】某设备接口未授权实现任意密码修改

企业级私有 docker 镜像仓库 Harbor

Docker常见指令大全，全背会爽到起飞！

发表评论

在线咨询

微信