30 条回复  ·  3278 次点击
2en 初学 2025-9-22 10:53:01
@RotkPPP 识别模糊粘连的号码 ocr 不如视觉模型
Suinn 楼主 小成 2025-9-22 10:54:28
@paopjian 对,因为主要是账单的数字识别,文本上不会有太多
Julaoshi 初学 2025-9-22 10:54:42
忘了哪里看到的,似乎可以先放大再进行 OCR ,这样识别准确率就会提高
gbw1992 小成 2025-9-22 11:08:55
阿里已经有了 我前些阵子测试了一下 效果只能说一般
Suinn 楼主 小成 2025-9-22 11:15:35
@gbw1992 一般主要是体现在出现了大量的 False Rejection 吗,其实这个方案只有能保证识别出来的没问题,我觉得就 ok 了
surbomfla 初学 2025-9-22 11:19:38
但这样做计算开销比较大
InkAndBanner 小成 2025-9-22 11:37:54
我们使用了 QwenVL2.5 7B 在资质图片场景下做了大量的结构化信息提取 ,总的效果还是比 OCR 要好的,但是存在一定幻觉 比如信息自动补全,和联想的情况。如果图片重点字段出现的位置类似 可以在对话的时候 提供左上和右下两个点位的坐标 来提示模型提取重点区域 会优化提取效果。至于 ocr 信息辅助模型进行提取,也是已经验证过的好办法,但是模型结果用来和 ocr 做对比 我觉得只会在一些对准确容忍度非常低的场景 如金融票据才会采用。但是金融票据往往是标准票据 ocr 已经很能打了,非标场景才是 VL 模型的发挥阵地
Suinn 楼主 小成 2025-9-22 11:44:10
@InkAndBanner 感谢分享,vlm 这块你们有试过 InternVL 或者 glmVL 吗,看最近的分数都挺高但是不知道实际能力和 qwen 比如何
dem0ns 小成 2025-9-22 11:47:14
既然是代码+代码实现 100%,那为什么不一步到位?既然能够一步到位,那么早就该有 100%的 OCR 。
MIUIOS 初学 2025-9-22 11:49:41
还有一个缺陷吧,速度下去了
返回顶部