这个我测试过,最好用的是 berth 模型,响应时间快,资源消耗小。不太长的短句输入足够了。
开源的可以参考 https://github.com/renatoviolin/next_word_prediction ,下载模型需要可以翻墙,或者设置 HF_ENDPOINT=https://hf-mirror.com 使用国内镜像。
英文的使用 bert-base-uncased 模型,中文使用 bert-base-chinese 模型比较好。我之前在阿里云上部署测试过,网络延迟 200ms 左右,本地部署的话 50ms 左右延迟(当然我本机是 M3 Max ,计算性能高很多)。 |