有无用于输入法联想的本地（小）大模型

国内的输入法都是偷隐私大户，尤其是开了云联想输入一个字上传一个字
现在用的 fcitx ，虽然干净也能导入词库但是没有联想很多时候还是得一个字一个字打
但是这个根据前面的内容生成最可能的后面的内容的场景简直就是大模型的拿手好活啊，理论上这个场景下只需要很小的上下文输入/输出范围，模型可以裁剪到非常小，不需要多少性能也能跑

所以有没有开源的项目在做这个方向的？

luckykong

难，需要区分不同软件，获取上下文，不容易做。
要不然容易把 word 里的上文，用来预测微信里和妹子聊天，
或者把跟女朋友调情的上文，用来预测跟上司的聊天，
都挺可怕的

ospider

iOS 的就内置了 transformer 啊，去年还是前年的 WWDC 特地说了

liangdi

这个想法我也想过，不过用了各种模型的补全功能后，目前阶段可能存在不太好调和的平衡点：
即速度和效果的平衡。
小模型效果不好，大模型速度慢，输入是需要非常快速的联想的，对比程序员的代码补全，模型的联想时间稍微长一点还能接受，但是输入就不一定能接受了，不然产品就变成了另外的形态：输入后等待补全，选择继续...

rbw

可以反向操作，学形码（比如五笔、虎码），打字也还是一个一个字打，但不用去看候选框。这样不会出现隐私和候选不合适的问题。

1yndonn3u

有相同需求，持续关注···

xfxz

@liangdi 有没有可能先用模型跑出最常用的一些词的词频，形成固定搭配；再内置一个 mini 模型来解决实时联想的问题。

wancaibida

手机这么搞会不会比较耗电 🤔️

newdongyuwei

这个我测试过，最好用的是 berth 模型，响应时间快，资源消耗小。不太长的短句输入足够了。

开源的可以参考 https://github.com/renatoviolin/next_word_prediction ，下载模型需要可以翻墙，或者设置 HF_ENDPOINT=https://hf-mirror.com 使用国内镜像。

英文的使用 bert-base-uncased 模型，中文使用 bert-base-chinese 模型比较好。我之前在阿里云上部署测试过，网络延迟 200ms 左右，本地部署的话 50ms 左右延迟（当然我本机是 M3 Max ，计算性能高很多）。

GeekGao

我觉得最简单的就是部署 Phi-3 这类的小模型，不过如果是跨终端使用的话，还是要自己建立一个推理服务，实现相关的 API 和输入法对接程序