|  |      1supermama      99 天前 只能自己训练 | 
|  |      2xomix      99 天前 前两天看到一个人搞了个 iPhone8 ,拿官方的 ocr 接口直接搞 ocr 服务器。 还有一个是微信 ocr 直接用,不知道你能不能用上。 另外你文中提到的问题是 ocr 分区识别的问题,你这是打算让 ai 直接帮你做了?那你可能需要写清楚你的需求,试着让 ai 从图片处理开始走流程。 | 
|  |      3ersic      99 天前 站内发过一个微信 ocr 模型的,https://www.v2ex.com/t/1120897 | 
|  |      48820670      99 天前 via Android pdf 的可以看 mineru | 
|  |      5Maroontor      99 天前 Paddle 的准确率太低了 | 
|  |      6iorilu      99 天前 腾讯那个应该可以, 虽然模型不大, 但至少是专门训练的 其他不是专门训练成功率低没意义 我认为至少成功准确率 99%以上才有用, 要有大厂训练一个开源的就好了, 很多地方可以用 | 
|      8Sh1xin OP @xomix 我是想让 OCR 识别出来的结果。直接发送给 AI ,根据提示词可以获得我所需要的内容。但是现在部分场景检测框重合,OCR 输出的格式就错了,AI 识别有问题 | 
|  |      9test00001      99 天前 pdf 我没试过,不过 gemini 模型对图片的 ocr 还是蛮好的。 | 
|      11Sh1xin OP @test00001 gemini 不是开源的,没法私有化部署,不考虑。之前也试过直接发给 GPT O3 模型,识别效果特别好。可惜没法私有化部署。直接把图片发送给 gemma 3 27b 的话,识别的文字错误率太高,不可用 | 
|  |      12Ipsum      99 天前 不怕出事,就用 wx 的那个 ocr 。训练得很好。 | 
|      13xinyu391      99 天前 可以用我司的 文档解析服务 支持 图片,pdf (扫描档,电子档),公式,表格等。 https://www.textin.com/market/detail/xparse | 
|      14visper      99 天前 yolo 训练,识别出框,然后通过框把图片截图出来再给 paddleocr. | 
|      15hmxxmh      99 天前 pdf 的试一下 minerU 和 docing, 图片用 yolov8+ppocr | 
|  |      16SanjinGG      99 天前 自己优化,要不就买商用的 | 
|  |      17fannheyward      99 天前 https://github.com/chatdoc-com/OCRFlux 识别效果和准确率都非常好 | 
|  |      18evan1 PRO | 
|  |      19andyskaura      99 天前 https://github.com/golangboy/wxocr 微信的 ocr 谁有 clone 吗? | 
|      20thealert      99 天前 paddleocr 的准确率不行,都不如 chatgpt | 
|  |      22iorilu      99 天前 @andyskaura 一大堆 fork 阿, 点进去看 | 
|      23stacke      99 天前  1 当时 fork 了一个微信 OCR ,不知道还能不能用: https://github.com/Git-cup/wxocr | 
|  |      24Rorysky      99 天前 这需求属于上古场景,还不需要动用 llm 吧 | 
|  |      25xiadengmaX1      99 天前 paddleocr 的参数调一调吧 | 
|      26alexsz      99 天前 扫描件的 OCR 结果不可靠,无解 | 
|      27anyx      99 天前 部分业务场景 OCR 识别粘连,多个相近的文本识别为同一个检测框;以及原本就是多行的文本,但是需求是要转换成一行 ----------------------------- 看来你需要的是多模态识别能力,可以试试 qweb2.5-vl 系列模型 | 
|      28anyx      99 天前 qwen2.5-vl 7b 的模型识别效果就很好了 | 
|      29nno      99 天前 检测框出问题是因为你模型输入图片分辨率太低 | 
|      30johnnyyeen      99 天前 问一下楼主,Geema 3 对比以前深度学习模型解决方案,有很大提升吗? | 
|      31bigtear      99 天前 via Android 直接上多模态大模型,没必要加个 ocr | 
|      36Mithril      99 天前 这个你可以调一下 paddle 的参数试试。 在 det 里面的 unclip ,dilation ,db_threshold 都可以改改看,然后找个合适的参数。 除非识别率特别低,不然多模态的大模型部署成本还是挺高的,没什么换的必要。 | 
|  |      37iorilu      99 天前 没有好的私有化部署方案很正常 因为这个服务现在是可以卖钱的, 就像 claude 4 一样 如果人人能自己部署且有很好效果, 怎么可能拿来卖钱呢 能卖钱的总是有些独有优化方案的 | 
|  |      38my3157      99 天前 via Android ollama + markitdown 试试,先统一处理为 markdown ,后续再分情况处理 | 
|      41apkapb      99 天前 很好奇楼主的图片到底是什么样,居然 wxocr 都不行 | 
|  |      42skiy      99 天前 via iPhone  1 @andyskaura https://github.com/golangboy/wxocr/tree/3909467 不用查看别人的 fork 。直接看项目的 Active ,把最后的 commit id 弄出来就行了。强制覆盖不影响原代码还存在的问题。 | 
|  |      43beginor      99 天前 没有人直接用 qwen 2.5 vl 32b 的么, 一步到位多好? 用一张 48G 的 4090 妖卡来跑,效果比 paddleocr ocrflux 这些基于 qwen vl 3b/7b 进行二次训练模型好不少 | 
|      44Sh1xin OP | 
|      46wwhc      99 天前 Qwen 2.5 vl 有 72B 的,性能很好了,建议楼主可以试试 | 
|  |      47andyskaura      99 天前 @skiy 这是真学到了 感谢 | 
|  |      48zhangjianxinnet      99 天前 @Sh1xin  试试直接用 GLM-4v-thinking-9b 我用起来很 nice 给好提示词 基本能按照原来的比例生成 markdown | 
|      49JingKeWu      99 天前 这个我正好做过  使用 OnnxOCR 模型  部署在腾讯云函数服务 | 
|      50Sh1xin OP 感谢各位指导🙏,目前在线验证 Qwen2.5-VL-32B 识别效果非常好,除了部分数字场景千分位和小数点识别错误,其他都 OK 。私有化部署验证中 | 
|      54Alias4ck      99 天前 微信 ocr 用过不太行 | 
|  |      55tool2dx      99 天前 试完了,32B 效果可以,比 7B 好不少. 显存占用 26G 左右,推理速度还是比较快. 但是表格图片不能过于复杂,太复杂后会漏文字,估计是大模型的通病,过长注意力集中会下降. 想要效果好,最好还是对图片进行自动切分,识别后自动合并,让识别文字数量保持在可控范围内. |