NVLink 对显卡集群的影响有多大?

zhuwd · 2025-2-15 08:36:39 · 623 次点击
组了 8 台 NVIDIA A100-PCIE-40GB ,用 Ollama 跑了 Deepseek 的 70B 版本,理论上性能是足够的,但是思考时间特别长,显存的占用率也不是很高,功率甚至连五分之一都没达到,不知道问题出在什么地方
举报· 623 次点击
登录 注册 站外分享
5 条回复  
neteroster 小成 2025-2-15 08:41:35
1. 都用这些设备了不用 sglang 跑去用 ollama 这种干啥 2. 没多大并发占用当然不会高,bs=1 decode 是显存带宽瓶颈。
zhuwd 楼主 小成 2025-2-15 08:43:25
@neteroster 感谢!!小白刚上手,搜了下都是用 ollama 在部署,这就去看一下 sglang
hertzry 初学 2025-2-15 09:44:14
NVLink 需要专门的硬件交换机,你这 PCIe 版用不了。
TimeNewRome 小成 2025-2-15 10:35:16
deepseek 对 IO 要求很高。楼主的 token 输出慢,多半是因为 IO 传输存在瓶颈。 所以最好的解决办法,应该是换成 NVLINK 而不是继续用 PCIE 。 PCIE 通道数有上限,会严重拖慢 IO 速度。
liuyuncai 初学 2025-2-15 10:35:56
被多机互联的通信带宽限制了,而且你这个是 PCIE 的,GPU 通信也被限制了
返回顶部