目前各种AI大模型层出不穷。如AI换脸,AI克隆声音都是通过训练自己的大模型来实现的。而想要训练自己的大模型,是对自己的硬件有所要求的,尤其是对显卡的要求!
在工作中,我们需要跑一些大模型,如通义千问、Llama。该怎么办呢?
如果自己买卡,A100、H100不仅贵,还大概率买不到。自己买几张4090跑起来又有各种bug,多卡协同不是一般的难。
这时我们可以使用云服务器,轻松在云上部署训练自己的AI,而无需繁重的实体显卡负担和运维成本。据了解,阿里云的DeepGPU
加速工具就是解决这个问题的优秀方案。少量花费即可完成复杂的训练和部署工作,同等价位能获得更好的产品体验,极高性价比。
本文,我们基于deepgpu-llm
和fastchat
快速搭建通义千问web在线服务。看看如何快速搭建自己的AI大模型。
购买服务器
我们直接购买阿里云GPU云服务器。对于小体量用户,推荐用新用户优惠尝鲜。
购买地址: https://www.aliyun.com/product/ecs/gpu
当然,不管是包年包月还是按量付费。官方都是有优惠价格的。
😘包年包月优惠规则
型号规格 | 条件 | 优惠 |
---|---|---|
gn5 (P100-16G) | 新客专享,限新购,限1个实例 | 购买时长1~11个月 5折,购买时长 1~2年 4折。 |
gn5 (P100-16G) | 限新购、续费、升级 | 购买时长1~12个月 6折 |
gn6i (T4-16G) | 新客专享,限新购 | 1~11个月 5折 1~2年 4折 |
gn6v (V100-16G) | 新客专享,限新购 | 1~11个月 5折 1~2年 4折 |
ecs.gn7i-c32g1.8xlarge | 新客专享,限新购 | 1~11个月 5折 1~2年 4折 |
😘按量付费优惠规则
型号规格 | 条件 | 优惠 |
---|---|---|
gn5(P100-16G) | 新客专享,限新购 | 100小时内 0.9折 |
ecs.gn6i-c16g1.4xlarge | 新客专享,限新购 | 100小时内 1.9折 |
ecs.gn6v-c8g1.2xlarge | 新客专享,限新购 | 100小时内 0.9折 |
ecs.gn7i-c32g1.8xlarge | 新客专享,限新购 | 100小时内 1.9折 |
在高于同类型配置的情况下,比其他厂商优惠更多。
选择deepgpu-llm镜像
在镜像栏目:点击云市场镜像
,搜索deepgpu-llm
,找到预装deepgpu-llm的ubuntu 22.04
系统点击使用。
完善订单其余关键字段,下单购买。购买后等待镜像部署完成,就可以通过ssh登录了。接下来,我们在控制台中配置SSH相关信息。并登录服务器。
检查GPU状态
我们输入下面命令,查看GPU状态。
nvidia-smi
下载通义千问模型
从modelscope
官网搜索目标模型,找到其唯一的模型ID,如qwen/Qwen1.5-4B-Chat
,利用下面命令进行下载。
aptinstall -y git-lfs
mkdir -p deepgpu/models
cddeepgpu/models/
git-lfs clone https://modelscope.cn/qwen/Qwen1.5-4B-Chat.git
✈️检查deepgpu-llm和transformers安装状态
下载模型可能需要一点时间,我们可以新开一个ssh连接,检查下关键组件的状态,命令如下所示
pip list | grepdeepgpupip list | greptransformers
效果如下:
☢️安装基于deepgpu-llm的fastchat
astchat
本身无法直接支持deepgpu-llm
,所以需要使用二次开发后的fastchat。具体安装方法如下
pip3 install jinja2==3.1.2 plotly pydantic==1.10.13 gradio==3.50.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip3 install --upgrade setuptools wheel pip -i https://pypi.tuna.tsinghua.edu.cn/simple
pip3 install https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/fschat_deepgpu-0.2.31%2Bpt2.1-py3-none-any.whl -i https://pypi.tuna.tsinghua.edu.cn/simple --use-pep517
😅配置环境变量
配置必要的环境变量。建议配置到开机启动项!
export DEEPGPU_CB=True
🐸启动fastchat控制器
python3.10 -m fastchat.serve.controller --host localhost --port 21001
注意,其他项目启动时,需要指定--controller-address
与这里的地址端口一致。
🐻❄️启动基于deepgpu-llm加速的qwen1.5-4b模型worker
在第1个GPU上部署deepgpu-llm
加速的qwen1.5-4b
模型,CUDA_VISIBLE_DEVICES
指定GPU ID
,--model-names
指定使用deepgpu-llm
加速(名称上带deepgpu字段即可),--model-path
指定2.2
节下载的模型目录。
模型加载完成后出现下图所示内容,说明worker已经正常运行了。
📧启动基于transformers框架的qwen1.5-4b模型worker
在第2个GPU上部署基准transformers
框架的qwen1.5-4b
模型,CUDA_VISIBLE_DEVICES
指定GPU ID
,--model-names
指定不使用deepgpu-llm
加速(名称上不带deepgpu字段即可),--model-path
指定2.2
节下载的模型目 录。
CUDA_VISIBLE_DEVICES=1 python3.10 -m fastchat.serve.model_worker --model-names qwen-4b-base --model-path /root/deepgpu/models/Qwen1.5-4B-Chat --worker http://localhost:21003 --controller-address http://localhost:21001 --host localhost --port 21003
模型加载完成后出现下图所示内容,说明worker已经正常运行了。
🤖启动基于gradio的web服务
参考下面命令启动fastchat
自带的gradio web
服务,其中gradio_web_server_multi
可以同时运行两个模型进行对比,gradio_web_server
为单一模型web服务。
python3.10 -m fastchat.serve.gradio_web_server_multi --controller-url http://localhost:21001 --host 0.0.0.0 --port 5001 --model-list-mode reload
python3.10 -m fastchat.serve.gradio_web_server --controller-url http://localhost:21001 --host 0.0.0.0 --port 5001 --model-list-mode reload
😥浏览web页面
打开浏览器,访问http://ip:5001
,访问就可以看到如下图所示的页面了
❤️对话体验
在打开的页面中,输入文本进行对话,对比输出结果和速度。
至此,整个部署过程完成。
总结
利用GPU服务器,我们不仅可以跑自己的大模型,还可以利用Hashcat等工具跑密码。高速,便捷,你值得拥有!
点击阅读原文,获取更多优惠!
原文始发于微信公众号(kali笔记):利用云服务器搭建自己的Ai大模型
- 左青龙
- 微信扫一扫
- 右白虎
- 微信扫一扫
评论