飞社-令人惊奇的创意工作者社区-程序员这样是否可以保证 OCR 识别率接近百分之 100

2en

@RotkPPP 识别模糊粘连的号码 ocr 不如视觉模型

Suinn

@paopjian 对，因为主要是账单的数字识别，文本上不会有太多

Julaoshi

忘了哪里看到的，似乎可以先放大再进行 OCR ，这样识别准确率就会提高

gbw1992

阿里已经有了我前些阵子测试了一下效果只能说一般

Suinn

@gbw1992 一般主要是体现在出现了大量的 False Rejection 吗，其实这个方案只有能保证识别出来的没问题，我觉得就 ok 了

surbomfla

但这样做计算开销比较大

InkAndBanner

我们使用了 QwenVL2.5 7B 在资质图片场景下做了大量的结构化信息提取，总的效果还是比 OCR 要好的，但是存在一定幻觉比如信息自动补全，和联想的情况。如果图片重点字段出现的位置类似可以在对话的时候提供左上和右下两个点位的坐标来提示模型提取重点区域会优化提取效果。至于 ocr 信息辅助模型进行提取，也是已经验证过的好办法，但是模型结果用来和 ocr 做对比我觉得只会在一些对准确容忍度非常低的场景如金融票据才会采用。但是金融票据往往是标准票据 ocr 已经很能打了，非标场景才是 VL 模型的发挥阵地

Suinn

@InkAndBanner 感谢分享，vlm 这块你们有试过 InternVL 或者 glmVL 吗，看最近的分数都挺高但是不知道实际能力和 qwen 比如何

dem0ns

既然是代码+代码实现 100%，那为什么不一步到位？既然能够一步到位，那么早就该有 100%的 OCR 。

MIUIOS

还有一个缺陷吧，速度下去了

浏览过的版块