AI 大模型的分布式存储方案

nakroy · 2024-10-25 10:50:37 · 100 次点击
现在的大模型动辄几十 G 几百 G ,如果只是在 GPU 节点本地部署和训练,那么磁盘 I/O 是不需要考虑太多的,但是如果是在集群中部署,一般集群会有专门的计算节点( GPU)和专门的存储节点,计算节点只负责运行 AI 程序,不会有大容量存储本地的模型文件,而交给专门的存储节点存储。

问题来了,如果是以前的 web 微服务,那么瞬时读写数据量不会那么大(对单个程序来说),但是大模型加载需要从磁盘读取,如果要求必须在几秒内或几十秒内读取完毕并加载到计算节点的 GPU 上,那么对存储节点的读写性能和网络性能要求就很高了,

想问一下针对大模型的分布式存储解决方案一般是怎么样的?现在有针对大模型读写 I/O 场景的存储系统优化吗?
举报· 100 次点击
登录 注册 站外分享
7 条回复  
zhlxsh 小成 2024-10-25 11:09:09
买好网卡,上 ib 。
fcten 小成 2024-10-25 11:23:42
计算节点也都是有存储的,没必要省那点钱。计算节点又不会经常换,只有第一次部署的时候需要从分布式存储加载一下,几分钟的事,并没有很大压力。不存在必须要几秒内加载完成的情况。
即使是训练,也是到了一个 checkpoint 才保存一次。存储一般不会成为瓶颈。
paopjian 小成 2024-10-25 11:32:34
如果才几百 G,不考虑专门留个大内存服务器吗,内存当硬盘用,用光纤连接,估计瓶颈就在 CPU 和 IO 上了
sampeng 小成 2024-10-25 11:46:13
你这个故事有点像:我就 1G 内存,怎么读 100G 文件一个故事
返回顶部