飞社-令人惊奇的创意工作者社区-程序员8x4090 离线部署 Qwen2.5 求助

fid

@Livid #6 等多来几台服务器试试集群（），目前环境较为封闭，可用设备只有一台 8x4090

Azure99

lmdeploy≈sglang>vllm ，个人偏好是这样

Fanhz

可以试下 sglang

mythabc

1. 为什么单张可用 60%？把其他任务都集中到 4 张显卡上，剩余 4 张用于跑 72b-awq 。多卡不建议超过 4 张，因为通信成本。 2. vllm 支持量化模型的。生产上用的最多的就是 vllm ，然后是 sglang （但是个人体感 sglang 比 vllm 稳定一些，因为版本都在不断迭代，所以仅是时效性的使用感受）。ollama 基于 llama.cpp ，这个项目最初就是用于在资源有限环境把模型 offload 到内存里跑起来的，一般就是个人玩具使用。 3. 喜欢一键的话，可以试一下 xinference ，有 docker 镜像，挺好用。 4. web 方案其实是各种 web client + openai style api ，各个推理引擎以 openai style api 将接口提供出来，兼容各类应用。

kenvix

用 32B Q8 远不如 72B Q4 。参数量带来的提升远大于提升精度

oldfans

Ollama 是 llama.cpp 的一个前端。 llama.cpp 支持多 GPU ，但不支持张量并行，单一并发同时只有一张卡在跑，多卡还有通信的开销，所以会比单卡还慢（前提是单卡的显存足够放模型）。 vLLM 支持在多卡上推理量化模型。 4-bit 的 Qwen2.5 72B 应该比未量化的 Qwen2.5 32B 要好。 Qwen2.5 可以试试用同系列的小参数量模型做推测解码（ Speculative decoding ），应该会快不少。