AI 大模型的分布式存储方案

现在的大模型动辄几十 G 几百 G ，如果只是在 GPU 节点本地部署和训练，那么磁盘 I/O 是不需要考虑太多的，但是如果是在集群中部署，一般集群会有专门的计算节点（ GPU)和专门的存储节点，计算节点只负责运行 AI 程序，不会有大容量存储本地的模型文件，而交给专门的存储节点存储。

问题来了，如果是以前的 web 微服务，那么瞬时读写数据量不会那么大（对单个程序来说），但是大模型加载需要从磁盘读取，如果要求必须在几秒内或几十秒内读取完毕并加载到计算节点的 GPU 上，那么对存储节点的读写性能和网络性能要求就很高了，

想问一下针对大模型的分布式存储解决方案一般是怎么样的？现在有针对大模型读写 I/O 场景的存储系统优化吗？

zhlxsh · 2024-10-25 11:09:09

买好网卡，上 ib 。

fcten · 2024-10-25 11:23:42

计算节点也都是有存储的，没必要省那点钱。计算节点又不会经常换，只有第一次部署的时候需要从分布式存储加载一下，几分钟的事，并没有很大压力。不存在必须要几秒内加载完成的情况。
即使是训练，也是到了一个 checkpoint 才保存一次。存储一般不会成为瓶颈。

paopjian · 2024-10-25 11:32:34

如果才几百 G,不考虑专门留个大内存服务器吗,内存当硬盘用,用光纤连接,估计瓶颈就在 CPU 和 IO 上了

sampeng · 2024-10-25 11:46:13

你这个故事有点像：我就 1G 内存，怎么读 100G 文件一个故事