各位老哥, 接到老板需求需要迁移深度学习平台从[旧服务器]到[新服务器]: 需要把这些旧服务器环境, 数据, 和 llm 的模型参数全部搬迁到一个新服务器

[旧服务器介绍] 是 ubuntu 系统, 然后通过 pytorch, trasnformers 等框架进行大语言模型的训练, 然后使用 conda 进行 python 的包管理[大概的意思, 标准的深度学习环境]. 旧服务器下载了三个 70b 的模型,用于本地部署.

[新服务器介绍] 新服务器有安全保护限制不能够连接到互联网. 也就是说, pip install, apt install 以及下载模型参数都不被允许.

[可能的方案] 我个人有限的认知是通过 docker 一次性打包.

我接到的通知是, 我只能够通过在机房内通过物理上传的方式进行实验环境的移植. 老哥们有什么好的方法和建议, 能够方便的做这个移植的事情吗?[小弟从未搞过离线移植]

举报· 658 次点击
登录 注册 站外分享
5 条回复  
chihiro2014 小成 2024-11-11 10:06:35
把硬盘拔了,装到新服务器
defunct9 初学 2024-11-11 10:06:41
docker 是行不通的。直接打包旧服务器的东西,然后传到新服务器上即可。难度不大,就是细节,不要遗漏
rjagge 楼主 小成 2024-11-11 10:08:59
@defunct9 为什么 docker 行不通呢?
rjagge 楼主 小成 2024-11-11 10:09:17
@defunct9 [直接打包旧服务器的东西] 我的理解是打包 conda 环境, apt 依赖, 数据和模型; 还有其它我遗漏的吗
rjagge 楼主 小成 2024-11-11 10:10:12
@chihiro2014 那必然是不行的....我们原来的服务器还要继续使用..
返回顶部