15 条回复  ·  1679 次点击
BluePadge 初学 2025-4-1 18:05:19
https://i.imgur.com/dp0RyRh.png Google AI Studio 中的 Gemini pro 2.5 识别结果
PRStarDust 小成 2025-4-1 21:40:24
试了一下 RapidOCR-API ,直接跳过了繁体哈哈哈 ```json { "0": { "dt_boxes": [ [ 206, 354 ], [ 513, 355 ], [ 513, 392 ], [ 206, 390 ] ], "rec_txt": "那我无论如何", "score": "0.9971" }, "1": { "dt_boxes": [ [ 228, 394 ], [ 490, 394 ], [ 490, 430 ], [ 228, 430 ] ], "rec_txt": "都要试一下", "score": "0.9877" } } ```
LanhuaMa 小成 2025-4-2 03:10:13
要不是现在的 vision llm 无法返回每个字的坐标,传统 OCR 估计直接被淘汰了 因为就算是人眼,识别文字也要靠上下文。比方说有些人可能会把蘿蔔看成葡萄。但是如果我说,“我要用蘿蔔插你屁眼囉”,那这两个字是什么一眼就明白了
icemaple 小成 2025-4-2 08:48:09
一直在用 abbyy
SakuraYuki 小成 2025-4-2 08:48:16
@pxiphx891 #8 bob ,调用自带的 ocr 接口
bigshawn 初学 2025-4-2 09:23:18
现在 OCR 我都丢给 Gemini ,我儿子小学 5 年级,字很差的 400 字作文 OCR 就错了 3 个字
12
返回顶部