15 条回复  ·  1796 次点击
fid 楼主 初学 2024-12-2 22:07:50
@Livid #6 等多来几台服务器试试集群(),目前环境较为封闭,可用设备只有一台 8x4090
Azure99 初学 2024-12-2 23:20:22
lmdeploy≈sglang>vllm ,个人偏好是这样
Fanhz 初学 2024-12-2 23:21:06
可以试下 sglang
mythabc 小成 2024-12-2 23:34:09
1. 为什么单张可用 60%? 把其他任务都集中到 4 张显卡上,剩余 4 张用于跑 72b-awq 。多卡不建议超过 4 张,因为通信成本。 2. vllm 支持量化模型的。生产上用的最多的就是 vllm ,然后是 sglang (但是个人体感 sglang 比 vllm 稳定一些,因为版本都在不断迭代,所以仅是时效性的使用感受)。ollama 基于 llama.cpp ,这个项目最初就是用于在资源有限环境把模型 offload 到内存里跑起来的,一般就是个人玩具使用。 3. 喜欢一键的话,可以试一下 xinference ,有 docker 镜像,挺好用。 4. web 方案其实是各种 web client + openai style api ,各个推理引擎以 openai style api 将接口提供出来,兼容各类应用。
kenvix 小成 2024-12-3 00:14:11
用 32B Q8 远不如 72B Q4 。参数量带来的提升远大于提升精度
oldfans 小成 2024-12-3 01:15:52
Ollama 是 llama.cpp 的一个前端。 llama.cpp 支持多 GPU ,但不支持张量并行,单一并发同时只有一张卡在跑,多卡还有通信的开销,所以会比单卡还慢(前提是单卡的显存足够放模型)。 vLLM 支持在多卡上推理量化模型。 4-bit 的 Qwen2.5 72B 应该比未量化的 Qwen2.5 32B 要好。 Qwen2.5 可以试试用同系列的小参数量模型做推测解码( Speculative decoding ),应该会快不少。
12
返回顶部