用 M4 Max MacBook Pro + 128GB RAM 跑大模型

yibie · 2025-3-18 18:29:42 · 418 次点击

M4 Max MacBook Pro + 128GB RAM 跑大模型:

  • 模型使用 70GB 大小的 QwQ-32B ,精度 16 bit
  • LM Studio 显示的 CPU 使用率没有跑满,不过风扇开始启动了
  • 内存使用 63GB 左右
  • 除了风扇启动之外,其它程序的操作没有影响
  • QwQ-32B 在推理方面很强,推理过程当中不停地产生新的问题,然后自问自答
举报· 418 次点击
登录 注册 站外分享
3 条回复  
yinmin 小成 2025-3-18 20:32:15
能跑到多少 tokens/秒?另外,8bit 的 70B 模型跑的性能如何?
yibie 楼主 初学 2025-3-18 20:58:04
8bit 还不知道,之前跑 Gemma3 应该是 8 bit 精度的,20 token/s 吧,不过这个速度不恒定,看模型会不会自己卡,但一般超过 10 token/s
yibie 楼主 初学 2025-3-18 20:58:31
@yinmin 8bit 还不知道,之前跑 Gemma3 应该是 8 bit 精度的,20 token/s 吧,不过这个速度不恒定,看模型会不会自己卡,但一般超过 10 token/s
返回顶部