【原创】Ubuntu Server 18.04上，使用一张4060Ti显卡本地部署DeepSeek V3大模型训练

2025年2月5日23:56:58评论117 views字数 4556阅读15分11秒阅读模式

【原创】Ubuntu Server 18.04上，使用一张4060Ti显卡本地部署DeepSeek V3大模型训练

在Ubuntu Server 18.04上，使用一张4060Ti显卡本地部署DeepSeek V3大模型训练。首先，我需要理清楚步骤，确保每个环节都正确。不过，用户提到的DeepSeek V3可能是指某个特定的大模型，但我不太确定是否有公开的版本，或者是否是企业内部的模型。所以可能需要先确认这一点，但假设用户已经获取了该模型的代码和权重。

首先，系统环境方面，Ubuntu 18.04虽然较老，但应该还是支持的。不过可能需要升级一些组件。比如，CUDA的支持情况，4060Ti属于较新的显卡，需要安装合适的驱动和CUDA版本。4060Ti基于Ada Lovelace架构，需要至少CUDA 11.8以上，推荐CUDA 12.x。而Ubuntu 18.04的默认软件源可能没有最新的驱动，所以需要添加PPA或者从NVIDIA官网下载驱动。

接下来是安装NVIDIA驱动。用户需要先禁用nouveau驱动，然后通过apt安装驱动，或者使用.run文件。可能更推荐使用官方的.run文件，尤其是当通过apt安装的版本不够新时。不过，使用PPA如graphics-drivers可能也能获得较新的驱动版本。需要确保安装的驱动版本与CUDA兼容。

然后是安装CUDA Toolkit和cuDNN。CUDA Toolkit的版本需要与PyTorch等框架兼容。比如，如果使用PyTorch 2.0+，可能需要CUDA 11.8或12.1。用户需要根据模型的代码要求来选择版本。安装CUDA Toolkit时，可能需要从NVIDIA官网下载，因为旧版Ubuntu的仓库可能没有。同样，cuDNN需要对应CUDA的版本，可能需要注册NVIDIA开发者账号下载。

接下来是Python环境。建议使用conda或venv来管理虚拟环境，避免系统Python的冲突。需要安装PyTorch，并确保PyTorch版本与CUDA版本匹配。例如，使用conda安装PyTorch时指定cudatoolkit=12.1。如果模型代码需要其他库，如transformers、deepspeed等，也需要一并安装。

模型代码和权重部分，用户可能需要从GitHub克隆仓库，并下载预训练权重。这里需要确保目录结构正确，权重文件放在指定位置。如果是Hugging Face的模型，可能可以直接通过from_pretrained方法加载。

训练配置调整是关键。用户只有一张显卡，所以需要将分布式训练相关的设置改为单卡。例如，在DeepSpeed配置中使用zero stage 0或1，调整训练脚本中的batch size，避免显存溢出。4060Ti的显存是16GB，对于大模型训练可能还是有点紧张，可能需要使用梯度累积、混合精度训练（FP16或BF16）来减少显存占用。

启动训练时，使用deepspeed或torchrun命令，指定单卡运行。例如，

deepspeed --num_gpus1 train.py--deepspeed configs/deepspeed_config.json

需要注意训练脚本是否支持单卡模式，有些脚本可能需要修改参数。

另外，可能遇到的问题包括CUDA版本与驱动不兼容，显存不足，依赖库版本冲突等。这时候需要查看错误日志，逐步排查。例如，如果遇到CUDA error，可能需要检查驱动和CUDA版本；显存不足的话，可以减小batch size，或者启用更高效的优化器配置。

最后，建议用户监控GPU使用情况，使用nvidia-smi或nvtop来查看显存和利用率。同时，确保系统有足够的内存和存储空间，特别是大模型需要加载大量数据时。

可能用户没有提到的是，DeepSeek V3是否有特定的依赖项或者自定义的CUDA扩展，如果有的话，还需要安装这些内容，并确保与当前环境兼容。此外，数据准备也是一个重要步骤，需要将训练数据转换为模型接受的格式，并放在正确的路径下。

总结一下，步骤大致是：安装驱动和CUDA环境→设置Python虚拟环境并安装依赖→获取模型代码和权重→调整训练配置以适应单卡→启动训练并监控调试。每个步骤都需要仔细检查版本兼容性，尤其是驱动、CUDA、PyTorch以及模型代码的要求是否一致。

在Ubuntu Server 18.04上使用NVIDIA 4060Ti显卡部署DeepSeek V3大模型训练的步骤如下：

一、系统环境准备

1. 更新系统及内核

sudo apt update && sudo apt upgrade -ysudo reboot  # 推荐重启以应用内核更新

2. 安装NVIDIA驱动

4060Ti需NVIDIA驱动版本>=535

# 添加显卡驱动PPAsudo add-apt-repository ppa:graphics-drivers/ppasudo apt update# 查看推荐驱动版本ubuntu-drivers devices# 安装驱动（示例安装535版本）sudo apt install nvidia-driver-535 -ysudo reboot

3. 验证驱动安装

nvidia-smi  # 应显示GPU信息及CUDA版本（此时显示的是驱动支持的最高CUDA版本）

二、安装CUDA Toolkit和cuDNN

以CUDA 12.1为例（需与模型代码要求匹配）

# 下载CUDA 12.1安装包wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run# 安装CUDAsudo sh cuda_12.1.0_530.30.02_linux.run# 安装时取消勾选Driver（已单独安装驱动）# 设置环境变量echo 'export PATH=/usr/local/cuda-12.1/bin:$PATH' >> ~/.bashrcecho 'export LD_LIBRARY_PATH=/usr/local/cuda-12.1/lib64:$LD_LIBRARY_PATH' >> ~/.bashrcsource ~/.bashrc# 下载cuDNN（需登录NVIDIA官网）# 将下载的tar文件解压并复制到CUDA目录tar -xzvf cudnn-linux-x86_64-8.9.4.25_cuda12-archive.tar.xzsudo cp cudnn-*-archive/include/cudnn*.h /usr/local/cuda/include/sudo cp -P cudnn-*-archive/lib/libcudnn* /usr/local/cuda/lib64/sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*

三、Python环境配置

1. 安装Miniconda

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.shbash Miniconda3-latest-Linux-x86_64.sh# 按照提示完成安装source ~/.bashrc

2. 创建虚拟环境

conda create -n deepseek python=3.10 -yconda activate deepseek

3. 安装PyTorch

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

4. 安装训练依赖

# 基础依赖pip install transformers datasets accelerate sentencepiece# 分布式训练支持pip install deepspeed ninja# 其他可能需要的库pip install tensorboardX matplotlib

四、获取DeepSeek V3模型代码

git clone https://github.com/deepseek-ai/DeepSeek-V3.git  # 假设官方仓库地址cd DeepSeek-V3# 下载模型权重（根据官方指引）# 示例（需替换实际链接）：# wget https://example.com/deepseek_v3_weights.tar.gz# tar -xzvf deepseek_v3_weights.tar.gz

五、训练配置调整

1. 修改DeepSpeed配置（单卡）创建 ds_config.json:

{  "train_batch_size": "auto",  "train_micro_batch_size_per_gpu": 4,  "gradient_accumulation_steps": 2,  "zero_optimization": {    "stage": 2,    "offload_optimizer": {"device": "cpu"}  },  "fp16": {    "enabled": true  }}

2. 修改训练脚本，在训练脚本中设置：

# 单卡训练设置import torchdevice = torch.device("cuda:0")# 关闭分布式训练相关代码# 修改数据加载部分（如使用单卡DataLoader）

六、启动训练

deepspeed --num_gpus 1 train.py   --model_name_or_path ./model_weights   --deepspeed ds_config.json   --batch_size 8   --gradient_accumulation_steps 2   --fp16

七、显存优化技巧（针对16GB显存）

1、梯度检查点技术：

model.gradient_checkpointing_enable()

2、混合精度训练：

# 在启动命令中添加 --fp16 或 --bf16

3、优化批处理大小：

# 根据OOM错误调整--train_micro_batch_size_per_gpu

常见问题排查

1、CUDA版本不匹配：

# 验证环境一致性python -c "import torch; print(torch.__version__, torch.version.cuda)"nvidia-smi  # 检查显示的CUDA版本是否与PyTorch一致

2、显存不足：

减少micro_batch_size

增加gradient_accumulation_steps

使用Zero Stage 3（需调整DeepSpeed配置）

3、驱动兼容性问题：

# 查看内核日志dmesg | grep NVRM# 重新安装驱动（若需要）sudo apt purge nvidia-*sudo apt install nvidia-driver-535

附：资源监控命令

# 实时监控显存watch -n 1 nvidia-smi# 查看系统资源htop

建议根据具体错误日志调整配置，并参考模型仓库的官方文档进行细节调整。

原文始发于微信公众号（灰帽安全）：【原创】Ubuntu Server 18.04上，使用一张4060Ti显卡本地部署DeepSeek V3大模型训练

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

【原创】Ubuntu Server 18.04上，使用一张4060Ti显卡本地部署DeepSeek V3大模型训练

悟空Agent实战：LLaMA-Factory高危0day漏洞挖掘与修复

图神经网络系列六：GCN优化之GAT与lightGCN

关于AI系统的访问控制，看看权威观点

中山大学｜FORGE：驱动大语言模型自动化构建大规模智能合约漏洞数据集

当ChatGPT接入MCP，你的数据是如何被泄露的？

【AI风险通告】LLaMA-Factory存在远程代码执行漏洞（CVE-2025-53002）

启明星辰发布大模型安全威胁框架（附下载链接）

当好的GPT变坏：如何利用受信任的AI工具进行攻击

专题·人工智能安全 | 政府部门DeepSeek私有化部署的安全管理策略研究

大模型注入攻击和防御

发表评论

在线咨询

微信