MZ33-AR1(
5950 元)
EPYC 9115(5400 元)或者 EPYC 9135(7900 元)
DDR5 5600MHz 64GB x 12(22800 元)
1TB SSD(338 元)
850W 电源(349 元)
CPU 散热器(294 元)
内存散热器(368 元)
机箱(187 元)
总计:35686 元(选择
EPYC 9135 则为
38186 元
号主研究了下,该文部署 使用了
“大内存页技术”
何为“大内存页技术”?
大内存页技术(Huge Pages)是优化计算机内存管理的核心机制,主要用于解决传统小内存页(如4KB)带来的性能瓶颈问题,在部署DeepSeek等大语言模型时能显著提升效率。
一、大内存页技术的核心原理
1、减少页表开销
传统4KB内存页需维护庞大的页表项,而大内存页(如2MB或1GB)可减少页表层级和条目数量,降低内存管理开销。
2、提高TLB命中率
TLB(Translation Lookaside Buffer)缓存虚拟地址到物理地址的映射关系。大内存页使单个TLB条目覆盖更大物理内存范围,减少缓存失效次数,提升内存访问效率。
3、降低内存碎片化
大内存页以连续块分配,减少内存碎片对性能的负面影响4。
二、大内存页对DeepSeek部署的意义
在DeepSeek本地化部署中,大内存页技术通过以下方式优化性能:
1、加速模型加载与推理
DeepSeek模型参数和中间计算数据量庞大(如7B模型需20GB存储1),大内存页可减少内存分页次数,加快数据加载速度。
2、缓解高并发场景下的延迟
当部署环境面临高并发请求时(如企业级推理集群),大内存页通过提升TLB命中率,降低内存访问延迟,改善用户响应体验。
3、适配异构硬件环境
在分布式推理场景(如多GPU或昇腾集群),大内存页可优化跨节点数据传输效率,减少内存带宽占用。
在 CPU 推理方案中:内存带宽直接影响生成速度;CPU 核心数影响预填充和并发输出速度;SSD 读写速度影响模型加载速度和Prompt Cache 读写速度;CPU 主频对性能影响较小。所以在硬件选型中应按照如下优先级分配预算:
“内存带宽” > “CPU 核心数” > “SSD 读写速度”> “CPU 主频”
1、CPU坚挺
他们选了AMD EPYC 9005系列处理器(比如9115或9135),这货有64核128线程!
普通服务器喜欢用双CPU插槽,但玄武实验室发现:双CPU会抢内存带宽,就像两辆车挤一条车道,反而更慢!所以他们只用单路CPU,把内存通道全占满。
2、内存强硬
大模型推理最吃内存带宽,模型思考的速度,很大程度也取决于数据能在内存里跑多快。
在他们的方案里,主板12个内存通道全部插满!单条内存选64GB DDR5-5600MHz,12条共768GB,装下模型后还剩空间缓存上下文。
默认频率5600MHz?不行!进BIOS一键超到6000MHz,带宽再提7%
3、SSD固态硬盘
高速SSD,读写速度最高,提升加载模型权重文件(671B大小700多GB,机械硬盘十几兆每秒的速度太慢。
文中提到 为什么用 CPU 就能推理参数高达 671B 的大模型呢?
DeepSeek 是一种高稀疏度的 MoE(Mixture of Experts)模型,每层包含 256 个专家(Expert),但实际推理时,每生成一个 Token 仅激活其中的 8 个专家。这种“按需激活”机制意味着,尽管模型总参数高达 671B,但实际参与计算的参数只有约 37B,仅占整体参数量的 5.5%。因此,大幅降低了推理过程对计算资源的需求,纯 CPU 部署如此规模的模型成为可能。
每秒输出约 10 个汉字,且整机功耗和噪音和家用台式机类似。
在 CPU 推理方案中:内存带宽直接影响生成速度;CPU 核心数影响。
玄武实验室也强调了这套方案只适用于个人和小团队使用,
高并发大量用户使用,还是得高性能得GPU才能跑得起来
原文始发于微信公众号(Hacking黑白红):4W搞定DeepSeek-R1-671B私有化部署方案!
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论