本地 4xV100 平台部署 Qwen2.5 72B GPT-Q int4 ,命令如下:
lmdeploy serve api_server ./Qwen2.5-72B-Instruct-GPTQ-Int4 --cache-max-entry-count 0.4 --model-format gptq --tp 4
在 CodeGeeX 插件中启用本地模型,配置自定义提示词:
You are Qwen, created by Alibaba Cloud. You are a helpful assistant. You are profound in coding.
我会给你我的代码片段,结构如下<|code_prefix|>:光标前的代码
<|code_middle|>:你需要在这后面预测光标处的代码
<|code_suffix|>:光标后的代码
你需要根据光标前后的代码给我中间的代码;不要废话,不要输出 code_suffix 、code_prefix 、code_middle ;不要将代码放在代码块内;只输出纯代码
生成速度能到 80 tps ,补全几乎无延迟,实际使用体验代码能力和 Deepseek api 不相上下,但是响应速度快三到四倍。
目前的痛点在于 CodeGeeX 本地模式不支持直接引用文件,想问问有推荐的 vscode 插件吗?
|