飞社-令人惊奇的创意工作者社区-程序员这样是否可以保证 OCR 识别率接近百分之 100

InkAndBanner

@dem0ns #18 抱歉没有我们是阿里系的优先用 qwen

AutumnVerse

这不就是多源对比纠错吗？完整方案应该是这样的，3 个源 ocr 对比，如果有 2 个源一样，就直接取用，3 个全都不一样，丢给大模型或人工纠错。纠错结果丢给 ocr 模型二次训练

MIUIOS

我遇到你这个问题，我的做法是 OCR 出来后丢给 llm 大模型去修复

malusama

直接 ocr 丢给 LLM 修复呗。你这样一致的能有多少，准确率上去了不得看看能召回多少吗？你这都没有多少是输出一致的吧

AutumnVerse

@Julaoshi 不可能，机器学习网络参数是固定的，无论你什么尺寸，前向传播前都会 resize 成固定尺寸你觉得识别率高了仅仅是插针拉伸裁剪之类的算法导致识别结果不一样了而已，从算法原理上放大不可能影响识别率

Insolitude

调用过 Google 的 ai ocr 的接口，效果感觉还不如本地的 ocr ，，可能手写体 ai 会更好点。让 llm 优化传统 ocr 的结果，感觉是个不错的思路。目前我用的本地 ocr 主要就中文的标点会识别成英文标点的问题，发给 llm 很容易解决。

syscall

@Julaoshi 模型目标尺寸训练时定死了. 即使是动态 shape, 但同样的设置下模型接收的输入尺寸就是一样的.

@Suinn #2 那如果是这样的话，大模型产生幻觉了导致大模型返回的错误值，此时安业务逻辑无法识别了那怎么处理？

canteon

人工校对

tusj

先 OCR 识别生成文本结果，再大模型对文本纠正一下低级错误。这样组合怎样？