@fcten 是的,所以我在正文里写了,文中测试的这套配置对于跑大规模 LLM 推理并不是最有性价比的(我用这个只是因为我手上刚好有,主要是做训练用)。如果纯做 LLM 推理,目前最有性价比的新机方案我觉得可能是高配大内存的 Mac Studio 。
https://x.com/ggerganov/status/1884358147403571466
@snowkylin #6 👍,这种方式是不是不能直接使用 ollama run deepseek-r1:671b 从 ollama 上下载,404G 的,而需要在 huginnface 上下载?
Download the model files (.gguf) from HuggingFace (better with a downloader, I use XDM), then merge the seperated files into one