ollama 在 Tesla V100S 上跑 deepseek-r1:70b 是种什么体验?

admin 2025年2月12日14:49:11评论257 views字数 1604阅读5分20秒阅读模式
之前测试了在128G内存无显卡的服务器上跑deepseek-r1:70b模型,实测推理速度比较慢。
这次找了台带显卡的服务器试试,服务器的GPU信息为tesla v100s,使用命令行查看显卡信息:
$ nvidia-smi
ollama 在 Tesla V100S 上跑 deepseek-r1:70b 是种什么体验?
显卡 tesla v100s 是v100的升级版,功耗250W,显存有32G。
ollama 在 Tesla V100S 上跑 deepseek-r1:70b 是种什么体验?
在 deepseek 中查询Tesla V100S的性能参数:
Tesla V100S 是 V100 的升级版,主要提升显存带宽和计算频率,适合需要高吞吐量与混合精度计算的任务。其高 FP64 性能使其在传统 HPC 领域仍具竞争力,而 Tensor Core 则优化了 AI 工作负载。
  1. 架构

    • 基于 Volta 架构,专为高性能计算(HPC)和 AI 优化,支持混合精度计算。

  2. 计算核心

    • CUDA 核心数量:5,120 个

    • Tensor Core 数量:640 个(第三代 Tensor Core,支持 FP16/FP32/INT8 等混合精度计算)

  3. 显存配置

    • 显存容量:32 GB HBM2

    • 显存带宽:1,134 GB/s(较 V100 的 900 GB/s 显著提升)

    • 显存位宽:4,096-bit

  4. 计算性能

    • FP16/FP32:130 TFLOPS

    • INT8:260 TOPS

    • 单精度浮点(FP32):16.4 TFLOPS

    • 双精度浮点(FP64):8.2 TFLOPS

    • Tensor Core 性能(混合精度):

  5. 功耗与散热

    • TDP:250 W(与 V100 相同)

    • 支持被动散热或主动散热设计,适用于数据中心部署。

  6. 互连技术

    • NVLink 2.0:支持多卡互连,总带宽高达 300 GB/s(双向)。

    • PCIe 接口:PCIe 3.0 x16(与 V100 相同,未升级至 PCIe 4.0)。

  7. 应用场景

    • 深度学习训练与推理:凭借 Tensor Core 和高速显存,适合大规模模型(如 Transformer、CNN)。

    • 科学计算:高 FP64 性能适用于流体力学、气候模拟等 HPC 任务。

    • 数据中心加速:支持虚拟化(vGPU)和多实例 GPU(MIG)技术,可分割为多个独立实例。

  8. 关键升级(对比 V100)

    • 显存带宽提升:从 900 GB/s 增至 1,134 GB/s,提升数据吞吐效率。

    • 核心频率提高:基础频率与加速频率均小幅提升,增强计算性能。

    • 显存容量:可选 32 GB(V100 最大 32 GB,但早期版本有 16 GB)。

ollama 将 70b 模型跑起来后,显卡后台数据如下。刚开始功耗为38W,32G的显存基本上用完了。因为70b模型有43G,显存装不下就会使用内存。
$ nvidia-smi
ollama 在 Tesla V100S 上跑 deepseek-r1:70b 是种什么体验?
$ free -g$ ollama ps
ollama 在 Tesla V100S 上跑 deepseek-r1:70b 是种什么体验?
查看内存使用,发现内存还剩14G,32G的显存全用完了。CPU和GPU使用占比分别为 26%/74%,计算主要使用的是GPU。
运行期间,系统负载很小,基本没影响,对CPU影响不大,主要使用的是GPU。
ollama 在 Tesla V100S 上跑 deepseek-r1:70b 是种什么体验?
通过 chatbox 配置 ollama API 问了一个简单的问题,你是谁?
ollama 在 Tesla V100S 上跑 deepseek-r1:70b 是种什么体验?
显示调用的是 deepseek-r1:70b 的模型。录了一个GIF动图,回答问题还算流畅,没有之前在纯CPU下那么卡,但距官方的流畅度还有差距。
ollama 在 Tesla V100S 上跑 deepseek-r1:70b 是种什么体验?
总结:使用 32G 显存的 Tesla V100S 跑倒数第二大的 deepseek-r1:70b 模型是没问题的。对于671b满血大模型,单卡估计跑不动,主要是太大了,404G的大小,无论是内存还是显存都装不下。后面是应用对接的测试。
在 chatbox 中的任务完成效果如下:
ollama 在 Tesla V100S 上跑 deepseek-r1:70b 是种什么体验?
试完 chatbox 的对话功能。后面又测试了写代码的功能是否完备。对接了 vscode + cline , 接入 ollama API 后的效果如下:
ollama 在 Tesla V100S 上跑 deepseek-r1:70b 是种什么体验?
cline 配置如下:
ollama 在 Tesla V100S 上跑 deepseek-r1:70b 是种什么体验?
等了一会,对比官方API,使用ollama调API写程序感觉一直在思考无用的东西,半天也写不出一行代码。不知道是否需要使用提示词,再叠加生成速度慢,暂时放弃。
全文完。

原文始发于微信公众号(生有可恋):ollama 在 Tesla V100S 上跑 deepseek-r1:70b 是种什么体验?

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年2月12日14:49:11
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   ollama 在 Tesla V100S 上跑 deepseek-r1:70b 是种什么体验?https://cn-sec.com/archives/3730201.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息