设为首页
收藏本站
开启辅助访问
全部
问与答
创意
技术
酷工作
生活
交易
资源
节点
飞墙
Follow
明白贴
影视
报酬
登录
注册
飞社-令人惊奇的创意工作者社区-
›
首页
›
程序员
›
AI 大模型的分布式存储方案
FSHEX=FIND+SHARE+EXPRESS
飞社-令人惊奇的创意工作者社区- 是一个关于发现分享表达的地方
现在登录
没有账号?
立即注册
推荐主题
›
现在经济这么差的么
›
EcoPaste - 免费开源剪贴板神器,斩获 2.4k
›
大家怎么看待 cg 这件事情
›
是去是留?
›
观贴《各位对小区野猫什么态度》有感
今日热议主题
听说 OLED 显示器显示文本有彩边,在 macOS
两行代码自动检测、安装和引用多个 Python
黑五买什么?
年底了,深圳小伙伴出显示器吗?自提
WeClipper - 极简剪切板助手 - v0.2.0 - 极
发现一个 SUNO 音乐 API 无水印版本!支持
反 Microsoft Edge 浏览器联盟成立了 🤣🤣
EdgeCD AI 开源 Blog 基于 remix 建立在 Cl
iOS 油管 app 如何过滤掉广告呢?
这段话是否正确?「取余这个运算,只有 Pyt
AI 大模型的分布式存储方案
nakroy
· 2024-10-25 10:50:37 · 100 次点击
现在的大模型动辄几十 G 几百 G ,如果只是在 GPU 节点本地部署和训练,那么磁盘 I/O 是不需要考虑太多的,但是如果是在集群中部署,一般集群会有专门的计算节点( GPU)和专门的存储节点,计算节点只负责运行 AI 程序,不会有大容量存储本地的模型文件,而交给专门的存储节点存储。
问题来了,如果是以前的 web 微服务,那么瞬时读写数据量不会那么大(对单个程序来说),但是大模型加载需要从磁盘读取,如果要求必须在几秒内或几十秒内读取完毕并加载到计算节点的 GPU 上,那么对存储节点的读写性能和网络性能要求就很高了,
想问一下针对大模型的分布式存储解决方案一般是怎么样的?现在有针对大模型读写 I/O 场景的存储系统优化吗?
举报
·
100 次点击
登录
注册
站外分享
微信扫一扫
QQ分享
微博分享
豆瓣分享
复制链接
显示全部
|
最新评论
7 条回复
沙发
zhlxsh
小成
2024-10-25 11:09:09
买好网卡,上 ib 。
板凳
fcten
小成
2024-10-25 11:23:42
计算节点也都是有存储的,没必要省那点钱。计算节点又不会经常换,只有第一次部署的时候需要从分布式存储加载一下,几分钟的事,并没有很大压力。不存在必须要几秒内加载完成的情况。
即使是训练,也是到了一个 checkpoint 才保存一次。存储一般不会成为瓶颈。
地板
paopjian
小成
2024-10-25 11:32:34
如果才几百 G,不考虑专门留个大内存服务器吗,内存当硬盘用,用光纤连接,估计瓶颈就在 CPU 和 IO 上了
5#
sampeng
小成
2024-10-25 11:46:13
你这个故事有点像:我就 1G 内存,怎么读 100G 文件一个故事
返回顶部