本地部署 DeepSeek-R1 671B 千亿大模型流程

snowkylin · 2025-1-31 11:46:28 · 2182 次点击
https://snowkylin.github.io/blogs/a-note-on-deepseek-r1.html

(以下介绍就是 DeepSeek R1 写的,我觉得还挺厉害的,我是写不出来……)

🚀 测试模型:
1.73-bit 量化版( 158GB ,每秒 7-8 个词)
4-bit 量化版( 404GB ,每秒 2-4 个词)

💻 硬件需求:
1.73-bit:内存+显存 ≥ 200GB
4-bit:内存+显存 ≥ 500GB
实测配置:4 块 RTX4090 显卡( 96G 显存) + 384G DDR5 内存

⚡ 性能对比:
短文本生成:1.73-bit 速度碾压,长文本会卡到 1-2 词/秒
瓶颈竟是 CPU 和内存,GPU 全程摸鱼(利用率 1-3% 😂)

🤖 模型性格差异:
1.73-bit:毒舌傲娇,敢怼 ChatGPT:
“哼!还在用老古董 ChatGPT ?(◔‸◔) 我的训练费可没烧穿钱包!”
4-bit:安全标兵,拒绝一切危险发言,全程官方脸 😇

🔧 部署步骤:
下载+合并 GGUF 文件
装 Ollama + 调参数( GPU 分层加载)
跑模型,内存炸了?减层数!
可选:搭配 OpenWebUI 变身高配版 ChatGPT !

✨ 总结:
1.73-bit 版性价比超高,适合短平快任务!长对话会变树懒…🦥
完整教程在博客,硬核玩家速来试试!👉
举报· 2182 次点击
登录 注册 站外分享
20 条回复  
fcten 小成 2025-1-31 12:05:32
MoE 模型的主要瓶颈在于内存/显存带宽,对算力的要求比较小。你的这个配置的瓶颈全在内存带宽上,GPU 妥妥打酱油。 用 24 通道的双路服务器主板,纯 CPU 跑 Q8 量化的模型也能达到 6 ~ 8 token/s 的速度。可以参考: https://x.com/carrigmat/status/1884244369907278106
snowkylin 楼主 初学 2025-1-31 12:09:40
@fcten 是的,所以我在正文里写了,文中测试的这套配置对于跑大规模 LLM 推理并不是最有性价比的(我用这个只是因为我手上刚好有,主要是做训练用)。如果纯做 LLM 推理,目前最有性价比的新机方案我觉得可能是高配大内存的 Mac Studio 。 https://x.com/ggerganov/status/1884358147403571466
vpsvps 小成 2025-1-31 14:05:44
请问 1.73-bit 量化版( 158GB 大小的模型) 一个 4090 24G 加上 160G 内存 可以跑起来吗? 不是需要 7 块 4090 吗?
snowkylin 楼主 初学 2025-1-31 14:16:20
@vpsvps 可以,会比较慢(可能大约 2-3 token/s ,取决于内存带宽和 cpu 规模)
vpsvps 小成 2025-1-31 14:31:21
@snowkylin #4 谢谢回复,用 ollama 就可以吧,显存用完就会调用内存, 比如 我的服务器有 8 块 4090 ,内存 640G ,能跑得动 671b 404GB 这个,就是速度慢点是吧?
snowkylin 楼主 初学 2025-1-31 14:42:10
@vpsvps 是的可以 详细可以看正文 https://snowkylin.github.io/blogs/a-note-on-deepseek-r1.html
BanShe 小成 2025-1-31 15:19:54
马克一下。我缺显卡😂
googlefans 小成 2025-1-31 15:55:06
出个教程
vpsvps 小成 2025-1-31 15:57:21
@snowkylin #6 👍,这种方式是不是不能直接使用 ollama run deepseek-r1:671b 从 ollama 上下载,404G 的,而需要在 huginnface 上下载? Download the model files (.gguf) from HuggingFace (better with a downloader, I use XDM), then merge the seperated files into one
123下一页
返回顶部