飞社-令人惊奇的创意工作者社区-程序员约 192GB 短信样本如何标记分类？

keakon

先用 LLM 标注一部分，比如 1 万条，人工校对一下。然后用 bert 类的模型，例如 roberta 加几层预测标签来训练。

这玩意是个体力活，有多少人工，就有多少智能

bbxx11

zap 短信，不需要联网，有个本地小模型，一直在用还可以

lisongeee

不联网下还是有方式从网络传递数据哦

https://github.com/orgs/gkd-kit/discussions/199

xing7673

@noqwerty 提交反馈在 app store 上直接提交或者调用邮箱或者跳转到 github 提 issue 都可以，直接 app 内置反馈组件我觉得费事费力又不讨好用户

wu67

大可不必这么麻烦.

正常来说, 短信过滤只需要两道工序, 1 是用关键词黑名单直接 ban, 2 是用关键词白名单把步骤 1 筛出来的恢复正常. 能解决绝大部分辣鸡短信. 搞什么模型、AI 来处理, 有点杀鸡用牛刀的感觉了

naclfish2333

使用大模型并没有 op 想象的那么久，我之前才用 vllm 部署 glm-4 ，用 3090 一个下午就把整个中文维基的标题分类完了。那个数量差不多也是几百万条。

注意，一定是用 vllm 部署，这个框架的并发能力强的可怕。部署完就 python 写个脚本，并发写到 500 干他就完了。