模型部署的姿势

小白想问问现在的模型一般都是怎么部署的？直接用 python 的框架部署上去吗？还是导出给 c++部署？看到好像 onnx 部署的文章好像很稀少，大伙都是直接用 python 部署的吗？

Hans999632

我是用 vllms ，或者 ollama ，不过 ollama 慢，实在不行直接用本地模型

anivie

@Hans999632 本地模型？这不都是本地的吗

qiniu2025

用 flashai.com.cn 下载整合包,win 或者 mac 无需任何安装配置,下载解压运行,开箱即用, 内置聊天+知识库+翻译应用

anivie

@qiniu2025 我不是在问怎么用大模型，是在问怎么部署这些大模型 https://i.imgur.com/N9E3iZ2.png

qiniu2025

@anivie 你要在哪里部署?PC 端还是服务器,并发不重要就无脑上 ollama

neteroster

个人简单用用 llama.cpp 就行，要生产环境或者有高并发 / 高性能要求的推荐 sglang ，会比 vllm 快。