30 条回复  ·  3279 次点击
InkAndBanner 小成 2025-9-22 11:49:43
@dem0ns #18 抱歉 没有 我们是阿里系的 优先用 qwen
AutumnVerse 初学 2025-9-22 11:49:44
这不就是多源对比纠错吗? 完整方案应该是这样的,3 个源 ocr 对比,如果有 2 个源一样,就直接取用,3 个全都不一样,丢给大模型或人工纠错。 纠错结果丢给 ocr 模型二次训练
MIUIOS 初学 2025-9-22 11:50:24
我遇到你这个问题,我的做法是 OCR 出来后丢给 llm 大模型去修复
malusama 小成 2025-9-22 11:52:19
直接 ocr 丢给 LLM 修复呗。 你这样一致的能有多少,准确率上去了不得看看能召回多少吗? 你这都没有多少是输出一致的吧
AutumnVerse 初学 2025-9-22 11:53:14
@Julaoshi 不可能,机器学习网络参数是固定的,无论你什么尺寸,前向传播前都会 resize 成固定尺寸 你觉得识别率高了仅仅是插针拉伸裁剪之类的算法导致识别结果不一样了而已,从算法原理上放大不可能影响识别率
Insolitude 初学 2025-9-22 12:16:16
调用过 Google 的 ai ocr 的接口,效果感觉还不如本地的 ocr ,,可能手写体 ai 会更好点。让 llm 优化传统 ocr 的结果,感觉是个不错的思路。目前我用的本地 ocr 主要就中文的标点会识别成英文标点的问题,发给 llm 很容易解决。
syscall 初学 2025-9-22 13:47:17
@Julaoshi 模型目标尺寸训练时定死了. 即使是动态 shape, 但同样的设置下模型接收的输入尺寸就是一样的.
8355 小成 2025-9-22 13:58:51
@Suinn #2 那如果是这样的话,大模型产生幻觉了导致大模型返回的错误值,此时安业务逻辑无法识别了那怎么处理?
canteon 初学 2025-9-22 14:03:17
人工校对
tusj 初学 2025-9-22 14:09:23
先 OCR 识别生成文本结果,再大模型对文本纠正一下低级错误。这样组合怎样?
返回顶部