$ nvidia-smi
-
架构
-
基于 Volta 架构,专为高性能计算(HPC)和 AI 优化,支持混合精度计算。
-
计算核心
-
CUDA 核心数量:5,120 个
-
Tensor Core 数量:640 个(第三代 Tensor Core,支持 FP16/FP32/INT8 等混合精度计算)
-
显存配置
-
显存容量:32 GB HBM2
-
显存带宽:1,134 GB/s(较 V100 的 900 GB/s 显著提升)
-
显存位宽:4,096-bit
-
计算性能
-
FP16/FP32:130 TFLOPS
-
INT8:260 TOPS
-
单精度浮点(FP32):16.4 TFLOPS
-
双精度浮点(FP64):8.2 TFLOPS
-
Tensor Core 性能(混合精度):
-
功耗与散热
-
TDP:250 W(与 V100 相同)
-
支持被动散热或主动散热设计,适用于数据中心部署。
-
互连技术
-
NVLink 2.0:支持多卡互连,总带宽高达 300 GB/s(双向)。
-
PCIe 接口:PCIe 3.0 x16(与 V100 相同,未升级至 PCIe 4.0)。
-
应用场景
-
深度学习训练与推理:凭借 Tensor Core 和高速显存,适合大规模模型(如 Transformer、CNN)。
-
科学计算:高 FP64 性能适用于流体力学、气候模拟等 HPC 任务。
-
数据中心加速:支持虚拟化(vGPU)和多实例 GPU(MIG)技术,可分割为多个独立实例。
-
关键升级(对比 V100)
-
显存带宽提升:从 900 GB/s 增至 1,134 GB/s,提升数据吞吐效率。
-
核心频率提高:基础频率与加速频率均小幅提升,增强计算性能。
-
显存容量:可选 32 GB(V100 最大 32 GB,但早期版本有 16 GB)。
$ nvidia-smi
$ free -g
$ ollama ps
原文始发于微信公众号(生有可恋):ollama 在 Tesla V100S 上跑 deepseek-r1:70b 是种什么体验?
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论