20241230 - vLLM + Qwen2.5-Coder-32B-Instruct 驱动的新的标签系统

FSHEX 除了节点之外，也会根据主题内容生成 3 个 tag 。

之前这个系统用的是 Boson NLP 提供的服务，不过他们后来停止了这个 API 服务。

然后这件事情就搁置了一段时间。

最近用 vLLM 部署了 Qwen2.5-Coder-32B-Instruct ，然后尝试用 prompt 的方式来为主题生成标签。虽然某些时候会产生无限循环，但是大部分情况下效果很不错。

目前大概 2 - 3 秒可以分析完一个主题并生成 3 个 tag 。

Tubbs · 2024-12-30 16:36:38

vLLM 部署确实很方便，用的什么设备部署的呢？

yangyaofei · 2024-12-30 16:45:57

可以用 guided 参数让模型输出固定格式的内容 https://docs.vllm.ai/en/latest/usage/structured_outputs.html, 在加上两部输出(先输出标签格式随意, 输出内容用 LLM 再格式化为 json), 可以获得很好的效果, 当然 prompt 和模型够强够好一部也没问题. 还有, 我好奇为啥用 coder

Donaldo · 2024-12-30 16:47:53

同一张卡，同一个 CUDA 版本，vllm 我实测比 ollama 快几个 token/s 。

Livid · 2024-12-30 16:51:21

@yangyaofei 也试过 Llama 和 QwQ-32B-Preview Llama 会在输入是中文内容的情况，依然给出英文结果。 QwQ 的输出结果大部分情况下太自由发挥了。 Qwen2.5-Coder 的结果是最稳定的。 Google 的 Gemini 2.0 效果也很好，但是免费额度和频率限制不太够用。

Livid · 2024-12-30 16:52:16

另外一个考虑就是因为这里大部分的内容，估计和 Coder 的训练内容也是重合的。