约 192GB 短信样本如何标记分类?

andforce · 2024-9-24 23:28:16 · 215 次点击
之前开发了一个《垃圾短信过滤 App 》- [胖鱼信使]( https://apps.apple.com/app/id6448448856)

## 为什么要重新造轮子?
主要是 2 个原因:
1: 市面上没有`完全不联网`的垃圾短信过滤 App
2: 想学习一下人工智能分类

## 192.36 GB 纯文本短信数据

上架研发初期,垃圾短信的训练样本都是来自互联网,然后加上自己和家人的几百条数据,

偶尔有用户会给我回馈几条,还能处理。

后来想更提高一把模型准确性,想多搞点样本,有个用户提供了这些个短信数据。

> 192,184,722,019 字节(磁盘上的 192.36 GB )

纯文本数据,这也太多了。。。。

有什么工具能对其进行批量标注吗?
举报· 215 次点击
登录 注册 站外分享
25 条回复  
naclfish2333 初学 2024-9-25 12:47:17
使用大模型并没有 op 想象的那么久,我之前才用 vllm 部署 glm-4 ,用 3090 一个下午就把整个中文维基的标题分类完了。那个数量差不多也是几百万条。

注意,一定是用 vllm 部署,这个框架的并发能力强的可怕。部署完就 python 写个脚本,并发写到 500 干他就完了。
wu67 小成 2024-9-25 11:43:13
大可不必这么麻烦.

正常来说, 短信过滤只需要两道工序, 1 是用关键词黑名单直接 ban, 2 是用关键词白名单把步骤 1 筛出来的恢复正常. 能解决绝大部分辣鸡短信. 搞什么模型、AI 来处理, 有点杀鸡用牛刀的感觉了
xing7673 小成 2024-9-25 11:12:08
@noqwerty 提交反馈在 app store 上直接提交或者调用邮箱或者跳转到 github 提 issue 都可以,直接 app 内置反馈组件我觉得费事费力又不讨好用户
lisongeee 小成 2024-9-25 10:01:17
不联网下还是有方式从网络传递数据哦

https://github.com/orgs/gkd-kit/discussions/199
bbxx11 小成 2024-9-25 10:00:46
zap 短信,不需要联网,有个本地小模型,一直在用 还可以
keakon 小成 2024-9-25 09:58:13
先用 LLM 标注一部分,比如 1 万条,人工校对一下。然后用 bert 类的模型,例如 roberta 加几层预测标签来训练。

这玩意是个体力活,有多少人工,就有多少智能
magicZ 小成 2024-9-25 09:46:39
@zoharSoul 哥们,瓶颈在算力啊,一台 4090 部署 Qwen2.5 也就同时处理几十个请求。
zoharSoul 小成 2024-9-25 09:44:07
@andforce #2 你并发 1w 个协程不就好了...
yushi17 小成 2024-9-25 09:41:24
fasttext 啊
me1onsoda 小成 2024-9-25 09:32:39
@andforce #12 gpt 就有这个 api ,用就是了
123下一页
返回顶部