买大内存 MacBook 的一个意外好处——私人 AI 服务器

MacBook Pro M1 Max 64G 可以跑 DeepSeek R1 的大模型当 AI 服务器，当年想都没想过还有这个用途。

之前本机跑 Llama 3 性能并不好，能力不如大部分收费的模型，但是如今有了 DeepSeek ，一下就山鸡变凤凰，相当于本地跑个 Chatgpt o4 mini 的水平，这就很够用了。

当然 70B 模型虽然能跑动，回答速度是比较慢的，目测大概 3 tokens/s ，只能用来问适合思考的问题，例如我问了个黑洞视线的问题，花了大约 2 分钟才输出完毕。但是如果降低点要求用 32B 模型，输出能快到 15 tokens/s ，基本和线上服务相似，就非常可用了：

winson030

64 的可以搞搞。我这 8gb 的 air 还是 api 吧。

qdwang

私人本地跑大模型，没什么实际意义的。 1 你只能跑小一些的模型，联网的同公司模型只要比你大，总归性能比你好。 2 费内存。你模型不载入内存，每次都要冷启动，你模型载入内存，永远占去一大块。 3 费电，如果是不插电的笔记本，很快电费完了。 4 速度慢除非你 1. 非常注重隐私 2. 工作环境没网 3. 大量本地 rag 需求

dilidilid

没啥用，玩两次绝大部分人还是会去用线上大模型

chiaf

64G 还是太小了。跑 sd 的模型还是挺耗内存的。

allpass2023

比较好奇，只是耗内存/显存吗？运行的时候 CPU 和 GPU 占用是怎么样的？

wsbqdyhm

@qdwang #2 说到点子了，没什么意义。就安装的时候玩一玩，然后换到其他的，时候卸载前玩玩

234ygg

我用 ubuntu server 上的 4090 跑 32b ，显存占用 21864/24564MiB ，GPU 推理功耗 350w 电感唧唧叫，完成推理后不释放显存的话功耗大概 15w ，吐第一个字的等待时间较久，后续我肉眼感觉大概是三五十 token/s ，反正比我阅读速度快多了。纯中文对话的限定条件下，32b 的水平大概比 openai 官方目前实装的 3.5 turbo API 差不多，远不如网页订阅版的 4o 和 openai 官方的 4o api （请注意不是第三方假 4o api ）。整体上我评价为可以作为非常靠谱的中文翻译模型使用了，比之前的外国宝宝们强在能稳定输出中文，其他没看到任何进步。

ZeroClover

用 Apple Silicon 跑 LLM 的都建议阅读： https://blog.hjc.im/apple-uma-for-llms-problems.html 基本就属于能跑个玩，但是 Token 生成速度不具备实用价值如果专门买 Mac 跑 LLM ，那只能说。。。特别是 DeepSeek 的 API 便宜得就像不要钱

arischow

模型换成社区做的 R1 distilled