用 M4 Max MacBook Pro + 128GB RAM 跑大模型

M4 Max MacBook Pro + 128GB RAM 跑大模型：

yinmin

能跑到多少 tokens/秒？另外，8bit 的 70B 模型跑的性能如何？

yibie

8bit 还不知道，之前跑 Gemma3 应该是 8 bit 精度的，20 token/s 吧，不过这个速度不恒定，看模型会不会自己卡，但一般超过 10 token/s

yibie

@yinmin 8bit 还不知道，之前跑 Gemma3 应该是 8 bit 精度的，20 token/s 吧，不过这个速度不恒定，看模型会不会自己卡，但一般超过 10 token/s