MacBook Pro M1 Max 64G 可以跑 DeepSeek R1 的大模型当 AI 服务器,当年想都没想过还有这个用途。



之前本机跑 Llama 3 性能并不好,能力不如大部分收费的模型,但是如今有了 DeepSeek ,一下就山鸡变凤凰,相当于本地跑个 Chatgpt o4 mini 的水平,这就很够用了。

当然 70B 模型虽然能跑动,回答速度是比较慢的,目测大概 3 tokens/s ,只能用来问适合思考的问题,例如我问了个黑洞视线的问题,花了大约 2 分钟才输出完毕。但是如果降低点要求用 32B 模型,输出能快到 15 tokens/s ,基本和线上服务相似,就非常可用了:

举报· 2084 次点击
登录 注册 站外分享
19 条回复  
winson030 小成 2025-1-29 08:48:59
64 的可以搞搞。我这 8gb 的 air 还是 api 吧。
qdwang 小成 2025-1-29 08:51:31
私人本地跑大模型,没什么实际意义的。 1 你只能跑小一些的模型,联网的同公司模型只要比你大,总归性能比你好。 2 费内存。你模型不载入内存,每次都要冷启动,你模型载入内存,永远占去一大块。 3 费电,如果是不插电的笔记本,很快电费完了。 4 速度慢 除非你 1. 非常注重隐私 2. 工作环境没网 3. 大量本地 rag 需求
dilidilid 小成 2025-1-29 09:50:07
没啥用,玩两次绝大部分人还是会去用线上大模型
chiaf 小成 2025-1-29 10:23:43
64G 还是太小了。 跑 sd 的模型还是挺耗内存的。
allpass2023 小成 2025-1-29 10:31:15
比较好奇,只是耗内存/显存吗? 运行的时候 CPU 和 GPU 占用是怎么样的?
wsbqdyhm 小成 2025-1-29 11:27:11
@qdwang #2 说到点子了,没什么意义。就安装的时候玩一玩,然后换到其他的,时候卸载前玩玩
234ygg 小成 2025-1-29 12:54:00
我用 ubuntu server 上的 4090 跑 32b ,显存占用 21864/24564MiB ,GPU 推理功耗 350w 电感唧唧叫,完成推理后不释放显存的话功耗大概 15w ,吐第一个字的等待时间较久,后续我肉眼感觉大概是三五十 token/s ,反正比我阅读速度快多了。 纯中文对话的限定条件下,32b 的水平大概比 openai 官方目前实装的 3.5 turbo API 差不多,远不如网页订阅版的 4o 和 openai 官方的 4o api (请注意不是第三方假 4o api )。 整体上我评价为可以作为非常靠谱的中文翻译模型使用了,比之前的外国宝宝们强在能稳定输出中文,其他没看到任何进步。
ZeroClover 小成 2025-1-29 14:32:19
用 Apple Silicon 跑 LLM 的都建议阅读: https://blog.hjc.im/apple-uma-for-llms-problems.html 基本就属于能跑个玩,但是 Token 生成速度不具备实用价值 如果专门买 Mac 跑 LLM ,那只能说。。。 特别是 DeepSeek 的 API 便宜得就像不要钱
arischow 小成 2025-1-29 14:33:33
模型换成社区做的 R1 distilled
12下一页
返回顶部