告别工具链接!手把手教你打造真正可用的内网AI知识库
内网部署DeepSeek,还在到处找工具链接?本文为您带来一套真正可用的离线部署方案!从模型下载、环境配置、数据投喂到权限管理,手把手教您在Windows Server和Linux(支持国产系统!)上搭建安全、高效的内网AI知识库。更有宝塔面板部署教程,让您轻松实现Web访问!
1. 开篇:内网部署的痛,谁懂?
"现在网上的教程,动不动就是
pip install
、git clone
,我们内网用户怎么办?""模型文件几百个G,怎么弄进内网?难道要刻光盘吗?"
"安全第一啊!内网环境,数据泄露可不是闹着玩的!"
相信很多身处内网环境(尤其是政企单位)的朋友,在尝试部署AI大模型时,都遇到过类似的困扰。传统的在线部署方式,在内网环境下寸步难行。现有的教程,又往往过于依赖在线资源和工具链接,忽略了内网用户的实际需求。
别担心!本文将为您带来一套全新的DeepSeek内网部署方案,彻底解决您的烦恼!
我们不仅提供详细的离线安装步骤,还特别关注国产化适配、数据投喂、权限管理等关键问题。更有宝塔面板部署加固Ollama API未授权访问教程,让您轻松实现Web访问!
2. 离线资源准备:有备无患
在开始部署之前,我们需要准备好所有必要的离线资源。这就像盖房子要先准备好砖头、水泥一样,是内网部署的关键一步。
2.1 模型离线包
- 获取渠道:
-
Hugging Face: https://huggingface.co/ (搜索 deepseek
) -
Hugging Face-DeepSeek越狱无审查模型(deepseek-r1-abliteratedk开头的为无内容审查,无限制,无思想钢印,无道德….):https://huggingface.co/huihui-ai -
ollama官方仓库-官方版本https://ollama.com/library/deepseek-r1,可以选择自己需要部署的模型类型,复制右边(ollama run deepseek-r1)的命令在安装了ollama客户端环境下直接命令行粘贴,进行在线下载。 Support/typora-user-images/image-20250217211443577.png) -
ollama官方仓库--DeepSeek越狱无审查模型(deepseek-r1-abliteratedk开头的为无内容审查,无限制,无思想钢印,无道德….):https://ollama.com/huihui_ai/deepseek-r1-abliterated:32b,可以选择自己需要部署的模型类型,复制右边框选的内容在安装了ollama客户端环境下直接命令行粘贴,进行在线下载。 # 这是所有DeepSeek越狱无审查模型各版本的在线下载命令ollama run huihui_ai/deepseek-r1-abliterated:7bollama run huihui_ai/deepseek-r1-abliterated:8bollama run huihui_ai/deepseek-r1-abliterated:14bollama run huihui_ai/deepseek-r1-abliterated:32bollama run huihui_ai/deepseek-r1-abliterated:70b# 下文RAG实现需要的文本向量模型ollama run nomic-embed-text
-
ModelScope: https://modelscope.cn/ (搜索 GGUF deepseek或者其他你需要跑的模型进行下载,GGUF是ollama能直接导入到模型文件后缀
) -
用Lmstudio 下载模型:根据图中框选的位置进行搜索下载自己的模型! 图片根据框选的按钮进行点击找到下载的模型文件:
-
- 找到对应的文件夹下的bge-reranker-v2-m3-FP16.gguf,后缀是gguf格式文件。
-
- 完整性校验:
下载完成后,务必校验模型文件的完整性,防止文件损坏或被篡改。 - Linux/macOS:
sha256sum /path/to/your/model/file
将计算出的SHA256哈希值与官方提供的值进行对比。 - Windows
Get-FileHash-Algorithm SHA256 /path/to/your/model/file
- Linux/macOS:
- 导入内网:
- U盘/移动硬盘:
最简单直接的方式,但要注意物理安全。 - 光盘:
适用于模型文件较大的情况。 - 内网共享文件夹:
如果内网有共享存储,可以通过这种方式传输。 - 安全网闸:
对于安全性要求极高的环境,可以使用安全网闸进行数据交换。 -
文件分割与合并(如果模型文件过大): - Linux:
使用 split
命令分割,cat
命令合并。 - Windows:
使用7-Zip等压缩软件进行分卷压缩和解压。
- Linux:
-
新建Modelfile文件,复制同级模型名称和后缀名到Modelfile中。(模型文件目录你放哪随你,保证导入需要的模型文件和Modelfile在同级目录下即可) -
通过cd 命令进入到你模型文件夹 -
ollama create bge-m3-q8_0-bert_cpp -f Modelfile (bge-m3-q8_0-bert_cpp 替换为你需要导入多模型文件名,回车执行进行导入)
-
ollama list (导入完成后执行这条命令即可看到成功离线导入到模型)
-
- U盘/移动硬盘:
2.2 Ollama离线安装包
- Windows:
从Ollama官网下载安装包后, 拷贝到内网 - Linux:
-
在有网的机器上, 执行 curl -fsSL https://ollama.com/install.sh | sh
, 会自动下载ollama
二进制文件 -
找到 ollama
二进制文件 (通常在/usr/bin
或/usr/local/bin
), 将其拷贝到内网
-
- macOS
同Linux -
ollama官网下载地址:https://ollama.com/download
2.3 客户端离线包
- Lobe Chat(Web界面支持用户管理和权限划分):
- Lobe Chat 官方私有化部署手把手教程:https://lobehub.com/zh/docs/self-hosting/start
Lobe Chat提供了 Docker 镜像,供你在自己的私有设备上部署 LobeChat 服务。使用以下命令即可使用一键启动 LobeChat 服务:$ docker run -d -p 3210:3210 -e OPENAI_API_KEY=sk-xxxx -e ACCESS_CODE=lobe66 --name lobe-chat lobehub/lobe-chat如果你需要通过代理使用 OpenAI 服务,你可以使用 OPENAI_PROXY_URL 环境变量来配置代理地址(代理平台我自用的是云雾API,访问地址进行注册充值即可:https://yunwu.ai/register?aff=PBpy):$ docker run -d -p 3210:3210 -e OPENAI_API_KEY=sk-xxxx -e OPENAI_PROXY_URL=https://api-proxy.com/v1 -e ACCESS_CODE=lobe66 --name lobe-chat lobehub/lobe-chat
根据框选部分进行设置和选择分组
点击复制按钮,即可获取可用的OpenAI的API-Key。
修改命令
-e OPENAI_API_KEY=sk-xxxx -e OPENAI_PROXY_URL=https://api-proxy.com/v1 修改为获取到的API-KEY,URL修改为下文所示 -e OPENAI_API_KEY=sk-xxxx -e OPENAI_PROXY_URL=https://https://yunwu.ai/v1 #完整命令如下: $ docker run -d -p 3210:3210 -e OPENAI_API_KEY=sk-xxxx -e OPENAI_PROXY_URL=https://https://yunwu.ai/v1 -e ACCESS_CODE=aianquangongfang(个人自定义访问认证码) --name lobe-chat lobehub/lobe-chat 运行Docker命令进行一键部署即可
docker save -o lobe-chat.tar lobehub/lobe-chat
docker load -i lobe-chat.tar
-
将 lobe-chat.tar
拷贝到内网 -
在内网服务器加载
-
-
-
保存镜像
-
-
-
在联网机器上拉取docker镜像
-
2.4 (可选) RAG 依赖离线包(rag-web-ui)
如果您需要使用 RAG(检索增强生成) 功能,还需要准备以下离线资源:
基于 RAG (Retrieval-Augmented Generation) 的知识库管理在线搭建教程:https://github.com/rag-web-ui/rag-web-ui/blob/main/README.zh-CN.md
-
保存镜像 docker save -o xxx.tar 镜像name(如:lobehub/lobe-chat,可以通过执行docker ps -a 查看镜像anme)
将
xxx.tar
拷贝到内网在内网服务器加载docker load -i xxx.tar
3. 内网环境部署 (多平台详细步骤)
3.1 Windows Server部署
- Ollama安装:
双击Ollama安装包,按照提示进行安装。 - 环境变量配置:
-
右键“此电脑” -> 属性 -> 高级系统设置 -> 环境变量。 -
在“系统变量”中,新建或编辑以下变量: OLLAMA_HOST
: 0.0.0.0:11434
(如果需要内网其他机器访问,如果不需要修改为:localhost:11434)OLLAMA_MODELS
: 模型文件存放路径(可选,你在线下载拷贝到内网到模型文件目录放哪你就修改为对应放置目录的绝对路径)
- 如果需要通过代理访问外部网络,还需要设置
HTTP_PROXY
和HTTPS_PROXY
。 -
修改后需要重启 Ollama
服务. 或者, 您也可以在 Windows 服务管理器中手动重启 Ollama 服务。
-
- 客户端安装与连接:
- LLStudio/Chatbox/Cherry-Studio:
安装过程与在线环境类似,只需将服务器地址配置为Ollama的地址和端口即可。 - Lobe Chat(Web部署):
- 启动:
docker compose up -d
- 访问:
浏览器打开 http://<服务器IP>:3010
- 启动:
-
-
特别注意 OLLAMA_BASE_URL
和OLLAMA_API_MODEL
的配置
- 配置
.env
文件:
(参考基于 RAG (Retrieval-Augmented Generation) 的知识库管理在线搭建教程章节)
-
-
-
使用之前下载的 Docker 镜像 (推荐) -
或者拷贝代码
- 安装Docker和Docker Compose:
(如果尚未安装)。 - 准备Lobe Chat代码/镜像:
-
- LLStudio/Chatbox/Cherry-Studio:
- 经验(Windows):
- Windows 防火墙配置:
使用 netsh advfirewall firewall
命令或者 Windows Defender 防火墙图形界面,配置允许入站规则,放行 Ollama 服务 (TCP 11434 端口) 和 Lobe Chat 服务 (TCP 3010 端口),确保内网其他用户能够访问服务。 - Windows Server 版本兼容性:
本教程在 Windows Server 2019 和 Windows Server 2022 上经过测试验证。对于更早期的 Windows Server 版本,可能需要考虑兼容性问题,例如 Docker 版本、系统依赖库等。 - 常见问题排查:
使用 Get-Process -Name ollama
,Get-Service Ollama
等 PowerShell 命令检查 Ollama 服务运行状态。查看 Windows 事件查看器,分析系统日志和应用程序日志,定位启动失败或运行异常问题。
- Windows 防火墙配置:
3.2 Linux Server部署
- Ollama安装:
将之前下载的 ollama
二进制文件复制到/usr/local/bin
,并赋予执行权限:sudocp ollama /usr/local/bin/sudochmod +x /usr/local/bin/ollama
- 环境变量配置:
[Unit]Description=Ollama Service After=network.target[Service]User=youruser # 替换为您的用户名WorkingDirectory=/path/to/ollama # Ollama的工作目录ExecStart=/usr/local/bin/ollama serveEnvironment="OLLAMA_HOST=0.0.0.0:11434"Environment="OLLAMA_MODELS=/path/to/your/models" Restart=always[Install]WantedBy=multi-user.target
-
启用服务: sudo systemctl enable ollamasudo systemctl start ollama
-
-
-
编辑 ~/.bashrc
或/etc/profile
文件(建议使用~/.bashrc
,仅对当前用户生效):export OLLAMA_HOST="0.0.0.0:11434"export OLLAMA_MODELS="/path/to/your/models"# 可选export HTTP_PROXY="http://your-proxy-server:port"# 可选export HTTPS_PROXY="http://your-proxy-server:port"# 可选
-
使配置生效: source ~/.bashrc # 或 source /etc/profile
- 也可以通过
systemd
来管理Ollama服务,确保重启后自动启动。 systemd
服务配置示例 (/etc/systemd/system/ollama.service
):
-
- 客户端部署:
- LLStudio/Chatbox/Cherry-Studio:
参考在线部署。 - Lobe Chat(Web部署):
-
安装 Docker, Docker Compose. -
准备Lobe Chat代码/镜像。 -
配置 .env
文件。 -
启动: docker compose up -d
-
- LLStudio/Chatbox/Cherry-Studio:
-
- 发行版兼容性:
本教程在 Ubuntu Server, CentOS, Debian 等主流 Linux 发行版上验证通过。不同发行版在包管理器 (apt, yum, dnf) 和 systemd 版本上可能存在差异,请根据您的发行版选择合适的安装命令和 systemd 配置。( 请参考 Handy-Ollama 项目中 Linux 发行版兼容性列表 ) - systemd 服务管理最佳实践:
使用 systemctl status ollama
,systemctl logs ollama
命令监控 Ollama 服务状态和日志输出,方便问题排查。配置Restart=on-failure
或Restart=always
确保 Ollama 服务意外退出后自动重启,提高系统稳定性。 - ulimit 性能优化:
对于高并发访问场景,可以适当调整 Linux 系统的 ulimit
参数,例如ulimit -n 65535
增加 Ollama 服务允许打开的最大文件描述符数量,提升性能。( 请参考 Handy-Ollama 项目中 Linux 性能调优部分 ) - 防火墙配置:
使用 firewall-cmd
(CentOS, RHEL) 或ufw
(Ubuntu, Debian) 命令配置防火墙规则,允许 TCP 11434 和 TCP 3010 端口入站流量,保障服务可访问性。例如,sudo firewall-cmd --permanent --add-port=11434/tcp && sudo firewall-cmd --reload
(CentOS)。
- 发行版兼容性:
3.3 macOS部署
- Ollama安装:
curl -fsSL https://ollama.com/install.sh | sh
或者使用 Homebrew: brew install ollama
- 环境变量配置:
-
编辑 ~/.zshrc
或~/.bash_profile
文件:export OLLAMA_HOST="0.0.0.0:11434"export OLLAMA_MODELS="/path/to/your/models"# 可选export HTTP_PROXY="http://your-proxy-server:port"# 可选export HTTPS_PROXY="http://your-proxy-server:port"# 可选
-
使配置生效: source ~/.zshrc # 或者 source ~/.bash_profile
-
- 客户端安装与连接:
(参考 Linux) - macOS 版本兼容性:
本教程在 macOS Monterey, Ventura, Sonoma 等主流版本上测试通过。早期 macOS 版本可能存在兼容性问题,建议升级到较新的 macOS 版本以获得最佳兼容性和安全性。( 请参考 Handy-Ollama 项目中 macOS 版本兼容性说明 ) - macOS 安全性设置:
macOS 默认开启 Gatekeeper 和 SIP (System Integrity Protection) 安全机制。在安装 Ollama 和 Lobe Chat 客户端时,如果遇到权限提示,请根据 macOS 安全提示进行授权。对于 SIP,非必要情况下不建议关闭。 - LaunchAgents / LaunchDaemons 管理 Ollama 服务:
使用 macOS 的 launchctl
命令和 LaunchAgents 或 LaunchDaemons 配置文件 (~/Library/LaunchAgents/
,/Library/LaunchDaemons/
) 管理 Ollama 服务,实现开机自动启动、后台运行和资源监控等功能。( 请参考 Handy-Ollama 项目中 macOS LaunchAgents/LaunchDaemons 配置示例 ) - macOS 性能监控与调优:
使用 macOS 自带的 “活动监视器” (Activity Monitor.app) 监控 Ollama 服务的 CPU, 内存, 磁盘和网络资源占用情况。根据监控数据,调整 Ollama 线程数 ( OLLAMA_NUM_THREAD
) 和模型加载策略,优化性能。
- macOS 版本兼容性:
4. 离线数据投喂 (实现方式两种,新手推荐6:通过Cherry Studio客户端进行喂数据实现RAG方法)
- 准备数据
-
将您的文档 (txt, pdf, docx, md 等) 拷贝到内网服务器
-
- 文档格式处理:
pip install python-docx # 使用离线安装包# 示例代码from docx import Documentdocument = Document('your_document.docx')text = 'n'.join([paragraph.text for paragraph in document.paragraphs])
- Markdown:
可以直接使用
- Markdown:
-
- PDF:
# 例如, 使用 pdfminer.sixpip install pdfminer.six # 使用离线安装包# 提取文本pdf2txt.py your_document.pdf -o output.txt
- DOCX:
- PDF:
- 文本预处理:
- 分块:
将长文本切分成 小块, 例如每 500 个字符一块 - 清洗:
去除特殊符号, HTML 标签等 - 分词
(中文) pip install jieba # 离线安装#示例import jiebatext = "这是一段测试文本"seg_list = jieba.cut(text, cut_all=False)print(" / ".join(seg_list))
- 分块:
- 向量化:
from sentence_transformers import SentenceTransformermodel = SentenceTransformer('/path/to/your/embedding/model') # 离线模型路径sentences = ["这是第一段文本", "这是第二段文本"]embeddings = model.encode(sentences)
-
下载离线 embedding 模型, 例如 bge-large-zh-v1.5
-
使用 sentence-transformers
-
- 构建向量数据库
import chromadbclient = chromadb.Client() # 默认使用本地存储# 创建 collectioncollection = client.create_collection("my_collection")# 添加数据collection.add( embeddings=embeddings, documents=["这是第一段文本", "这是第二段文本"], metadatas=[{"source": "doc1"}, {"source": "doc2"}], ids=["id1", "id2"])
- ChromaDB
:
- ChromaDB
- 通过Cherry Studio客户端进行喂数据实现RAG(推荐此方法,简单适合新手)
先点击齿轮设置按钮,点击添加导入文本向量模型,
复制name-导入模型ID处,点击添加
添加完成后显示这样
根据框选部分进行点击设置添加模型
选择离线导入到文本向量模型确认添加
5. 访问控制与权限管理
5.1 Ollama API访问控制
- Nginx反向代理 + Basic Authentication:
(参考之前章节的Nginx配置示例) - IP白名单:
在防火墙或Nginx配置中,只允许特定的IP地址访问Ollama API。
5.2 Lobe Chat访问控制
- 设置强密码:
在 .env
文件中设置ACCESS_CODE
,并使用强密码。 - (可选)LDAP/AD集成:
如果您的内网环境有LDAP或AD服务器,可以将Lobe Chat与LDAP/AD集成,实现统一的用户身份验证。
5.3 宝塔面板对Ollama API访问控制安全设置
-
宝塔面板安装教程看官网:https://www.bt.cn/new/index.html - 修改默认端口:
修改宝塔面板的默认端口(8888),防止被扫描和攻击。 -
根据初始进入的用户指导,一键按照必要的网站环境。 - 禁用不必要的服务:
在宝塔面板的“软件商店”中,禁用不必要的服务。 - 防火墙:
在宝塔面板的“安全”中,配置防火墙规则,只允许必要的端口。 -
Ollama API 通过反向代理访问加入401用户密码访问认证:
根据提示输入
点击设置进入配置
根据自己需求设置用户名密码,路径默认 / 即可,点击确认即可,这样ollama的默认接口访问就需要401的用户名密码认证,解决了API未授权访问问题。也可以通过设置IP黑白名单进行限制来源访问。
6. 国产化适配
6.1 操作系统兼容性
- 已测试兼容:
-
麒麟 (Kylin) -
统信 (UOS) - 其他主流国产Linux发行版(请根据您的实际测试结果补充)
-
- 可能遇到的问题:
-
依赖库缺失:使用 apt
、yum
或其他包管理器安装缺少的依赖库。 -
软件源配置:可能需要配置国产操作系统的软件源。
-
6.2 CPU架构兼容性
-
目前 Ollama 主要支持 x86 架构 -
ARM 架构 -
理论上支持, 但需要自行编译 -
某些模型可能不兼容
-
-
国产CPU (鲲鹏, 飞腾, 龙芯等) -
如果是ARM 架构, 理论上可行, 但需要测试
-
6.3 硬件兼容性
-
GPU: -
NVIDIA GPU 支持最好 -
国产GPU (例如, 华为昇腾) 理论上可以通过 ROCm 支持, 但需要自行配置
-
7. 总结与展望
本文详细介绍了如何在内网环境中离线部署DeepSeek,并集成了Ollama、多客户端和RAG技术。特别关注了国产化适配、数据安全和访问控制等问题,希望能够为内网用户提供一套真正可用的AI部署方案。
未来,随着AI技术的不断发展,内网AI应用将越来越普及。我们将继续关注内网AI部署的最新动态,为大家带来更多实用的教程和经验分享!
8.部分参考文章来源
https://datawhalechina.github.io/handy-ollama/#/(动手学 Ollama 教程,轻松上手实现大模型本地化部署,快速在本地管理以及运行大模型,让 CPU 也可以玩转大模型推理部署!)
9.文中提到的内网部署的离线模型安装包和软件包下载
DeepSeek离线部署资源包
链接:https://pan.quark.cn/s/c6f1447341c8
提取码:ePbE
快速秒级部署
10.DeepSeek 的在线/离线部署全面教程到此完结
接下来AI安全工坊会聚焦如何利用DeepSeek、OpenAI等大模型实现贴合企业、政务、个人多个层面业务工作的实战化AI工作流和应用开发,帮助政企单位及个人达到覆盖日常工作自动化和业务提效提能提质,实现政企及个人的降本增效目标。
围绕”AI公务员“为主题进行开发一款Deepseek体制内办公笔杆子材料封神的AI图形化“外挂”工具,实现AI政务工作报告等文案精准编写,实现提效提能,解放自己。
11.显卡安装的注意点(来自公众号读者:Mercurius.Lu)
Ollama默认是CPU+GPU运行,优先使用CPU资源,显卡驱动不要装普遍默认的Game版,Game版是用于游戏画面渲染的,去Nvidia官网下载Studio版,Studio用于图形处理和数据运算,还要安装CUDA驱动和CUDNN,再到系统变量里新建OLLAMA_GPU_LAYER和CUDA_VISIBLE_DEVICES这两个变量,前者的值填cuda,后者的值填显卡的UUID(不知道可以用nvidia-smi -L命令查),这样就会一直在GPU运行了,CPU/GPU占用率可以用ollama ps命令查看。
12.推荐系统学习教程:
1.https://github.com/ninehills/blog/issues/97(大语言模型(LLM)学习路径和资料汇总,想要系统)
2.https://datawhalechina.github.io/handy-ollama/#/ (动手学 Ollama 教程,轻松上手实现大模型本地化部署,快速在本地管理以及运行大模型,让 CPU 也可以玩转大模型推理部署!)
3.https://github.com/ninehills/blog/issues/121 (DeepSeek R1 阅读清单)
4.https://www.yiios.com/post/gou-jian-gao-xing-neng-prompt-zhi-lu-jie-gou-hua-prompt/ (构建高性能 Prompt 之路——结构化 Prompt)
13.制作教程不易,如方便可以点击下方”喜欢作者“安全赞助一下作者(金额不限),帮助作者充能,带来更好的干货内容和AI工具。感谢🙏
下载
DeepSeek离线部署资源包
链接:https://pan.quark.cn/s/c6f1447341c8
提取码:ePbE
免责声明:
本教程仅供参考。请根据你的实际情况进行部署和配置。对于因使用本教程造成的任何问题或损失, 我不承担任何责任.
原文始发于微信公众号(AI安全工坊):独家!DeepSeek内网部署“保姆级”教程:离线安装+国产化适配+数据投喂+安全加固!(附离线资源包)
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
2025年3月11日 下午1:35 1F
DeepSeek离线部署资源包
2025年3月11日 下午3:07 B1
@ scott 链接:https://pan.quark.cn/s/c6f1447341c8
提取码:ePbE