V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
busterian
V2EX  ›  问与答

windows 平台 ocr 软件有什么好的选择

  •  
  •   busterian · 2023-04-28 11:09:54 +08:00 · 3632 次点击
    这是一个创建于 365 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我现在用的是天若 ocr 调用百度的接口,速度还可以就是准确率差点。微信电脑版点开图片自带 ocr 准确率挺高的,v 友有什么好建议?

    35 条回复    2024-01-29 15:16:40 +08:00
    GuryYu
        1
    GuryYu  
       2023-04-28 11:19:54 +08:00
    PowerToys 里面有个离线的 OCR 工具
    freedgw
        2
    freedgw  
       2023-04-28 11:22:57 +08:00 via Android
    白描,这个收费几块钱吧,但识别准确度很好;
    然后 gitee 上还有一个天若 OCR 离线版,我之前用的比较多,应该也是够用的;
    现在我主要用的 quicker ,里面有个 OCR 动作,但是这个软件功能太多了,单纯 OCR 的话可能不太推荐专门去下这个
    mainjzb
        3
    mainjzb  
       2023-04-28 11:24:52 +08:00
    PowerToys 里的 ORC 一言难尽,好像是调的 windows 系统级的 ORC 。目前看来是最拉跨的。被苹果和微信的 ORC 吊打
    datocp
        4
    datocp  
       2023-04-28 12:56:56 +08:00
    上次找了一个 汉王 PDF OCR ,似乎挺牛逼的,转换出来的是真正的 word 文档,不是图片。不知道跟原始的格式是否有关系。
    daocyang
        5
    daocyang  
       2023-04-28 13:00:32 +08:00
    微信电脑版的 ocr 识别目前用起来很顺手
    idragonet
        6
    idragonet  
       2023-04-28 13:09:01 +08:00
    @daocyang #5 微信电脑版算了,笔画多的字识别率一塌糊涂。
    busterian
        7
    busterian  
    OP
       2023-04-28 13:15:56 +08:00
    @idragonet 那你倒是说个能用的啊, 付费的也可
    idragonet
        8
    idragonet  
       2023-04-28 13:27:15 +08:00
    @busterian #7 QQ 截图是云识别,这个识别率高!
    jacy
        9
    jacy  
       2023-04-28 14:00:35 +08:00
    右键-打开方式-word
    jack4in
        10
    jack4in  
       2023-04-28 14:16:03 +08:00
    @busterian
    paddleocr
    dengqixun
        11
    dengqixun  
       2023-04-28 14:20:41 +08:00 via Android
    @jacy word 识别字体变化多,格式复杂一点的文档错别字太多了
    Yukiteru
        12
    Yukiteru  
       2023-04-28 14:40:34 +08:00 via Android
    text-grab ,开源的,powertoys 的 orc 也是基于这个
    djoiwhud
        13
    djoiwhud  
       2023-04-28 15:17:52 +08:00
    一哥是毛子的 abbyy
    XIU2
        14
    XIU2  
       2023-04-28 15:21:36 +08:00   ❤️ 2
    翻了翻书签,找到了下面几个 OCR 相关的,你可以挨个试试(记得移除地址中的空格)。

    这四个都是离线的 OCR 软件(最后一个是 天若 OCR 离线版):
    https://github. com/xushengfeng/eSearch
    https://github. com/hiroi-sora/Umi-OCR
    https://github. com/xksoft/OcrHelper
    https://gitee.com/wanglifree/tianruoocr-cl

    这个我记得是论坛里人做的,虽然是个在线网站,但都是在浏览器端本地实现的 OCR:
    https://ocr. zjyl1994. com

    这个支持 OCR 但没说是离线还是在线的:
    https://gitee. com/smartoldfish/ocr-assistant
    sadfQED2
        15
    sadfQED2  
       2023-04-28 15:25:12 +08:00 via Android
    免费,不要钱,安装方便且没广告,识别率还高的。只有 qq 微信
    goodgame
        16
    goodgame  
       2023-04-28 15:41:44 +08:00
    tesseract 怎么样?没怎么用过,有没有用过的大哥讲一下?
    tutustream
        17
    tutustream  
       2023-04-28 15:45:15 +08:00
    我买了迅捷 ocr 的会员
    ungrown
        18
    ungrown  
       2023-04-28 16:04:51 +08:00   ❤️ 1
    @goodgame #16 tesseract 本身挺好,但是用起来并不方便。这玩意性能不弱,架构不落后,功能接口丰富,背后也一直有大厂在推着它走。但是,喂给它的图像必须够清晰,换句话说,预处理这块,它不负责。排版、格式、方向的识别,也是,它不负责,虽然它也提供这方面的功能接口,但用户得自己构建前置处理的环节。总之,这东西,不是傻瓜化的开箱即用的解决方案。字符清晰、明暗统一、排列整齐的文本图片,它能给出让人满意的结果,否则的话,消化不良。
    ungrown
        19
    ungrown  
       2023-04-28 16:15:34 +08:00
    要么各种大厂的云端接口,免费或者付费,但说实话其实良莠不齐,各有短板。
    你还可以试试 EasyOCR ,我玩过还行,不过跟 paddleocr 一样,基于机器学习,所以设备算力不能太弱。
    或者就拿 tesseract 自己折腾。
    abbyy 是绝对的独一档,不过不知道它有没有编程调用接口。

    然后,提供个邪门,你知道漫画汉化这块吗,对 OCR 的需求很大。过去技术欠发展那也没人多寻思,都是汉化组手工修图、人肉翻译校对润色。但现在有了一整套自动化、半自动化方案,从图片预处理、去噪锐化拉伸、画面增强、角度扶正,到文字区识别、语言自动监测、多方 API 并行调用、格式排版自动识别,最后按照原图上的文本位置和排版自动将译文嵌入图中,用户只要手动选择、编辑、润色一下,讲真搞这玩意的那帮人虽然离第一梯队还有距离,但是完成度相当牛逼。社区驱动能做到这种程度,背后的需求肯定很大,搞不好成人色情漫画的汉化需求也是个大头。不过不是完全开源的,还收费,但如果能跟背后的团队联系上的话不妨去取取经。
    ErikaGao
        20
    ErikaGao  
       2023-04-28 16:15:57 +08:00
    RapidOCR ?自己本地起个服务就行,是 PaddleOCR 的模型导出版本 https://github.com/RapidAI/RapidOCR
    shangyu7
        21
    shangyu7  
       2023-04-28 18:06:40 +08:00
    Umi-OCR 离线版的,挺准确
    vincentV2
        22
    vincentV2  
       2023-04-28 18:10:48 +08:00
    试试这款,准确率高,速度快。
    https://www.textin.com/experience/text_recognize_3d1
    Tan35haha
        23
    Tan35haha  
       2023-04-28 19:36:28 +08:00
    白描? 用的还可以
    dobelee
        24
    dobelee  
       2023-04-28 19:49:31 +08:00
    https://github.com/xushengfeng/eSearch
    这个简单用了段时间还可以。
    n18255447846
        25
    n18255447846  
       2023-04-28 20:57:48 +08:00
    @goodgame 中文识别不太行,不如百度 paddleocr
    miaomiao888
        26
    miaomiao888  
       2023-04-28 21:42:02 +08:00
    离线的基本都不好用,识别率不高,百度、腾讯、微信都一般,白描好像是基于有道,似乎比百度要稍好点。
    可以试试 PandaOCR.Pro (这是个名字不是域名)激活后试试里面的合合 OCR 或火山 OCR (字节跳动)接口,识别质量都挺高,合合应该算是业界识别质量最好的,没人能打。
    EngAPI
        27
    EngAPI  
       2023-04-28 22:08:04 +08:00
    Umi-OCR 用的是飞桨,准确率还行
    hammy
        28
    hammy  
       2023-04-28 23:38:44 +08:00
    白描
    QQ
    微信

    少量的话,虽然看起来滑稽但是 QQ 可能是最好用的。。。。
    opengps
        29
    opengps  
       2023-04-28 23:47:46 +08:00
    quicker 里添加了一个截图 ocr ,很方便
    yuanix
        30
    yuanix  
       2023-04-29 02:39:22 +08:00 via Android
    QQ 比 powertoy 好用,PDF 文件的话,Adobe reader 支持 ocr 。
    imycc
        31
    imycc  
       2023-04-29 05:07:32 +08:00   ❤️ 1
    之前也想找个离线的 ocr ,找着找着发现微信跟飞书的截图都支持 ocr 了。。遂放弃
    732870147
        32
    732870147  
       2023-04-29 05:18:24 +08:00 via Android
    在用 pearocr ,支持 PWA ,离线可用
    https://pearocr.com/
    streetShop
        33
    streetShop  
       364 天前
    推荐白描
    FaneLau
        34
    FaneLau  
       364 天前 via Android
    识别打印文件还是手写字?如果是识别打印文件,我觉得扫描王( Cam scanner )的准确率比白描高很多。前阵子识别很多公文的 PDF 文件,扫描王识别结果几乎没有错误,白描的错字相对多一些。两者都可以登录网页版进行识别,白描我是买了会员,扫描王好像普通用户是有限制识别次数不然要花钱买会员,我当时是用教育邮箱注册的账号所以能免费使用没有次数限制。
    pluto0x0
        35
    pluto0x0  
       89 天前
    @GuryYu PowerToys 的 OCR 就是 windows 自带的识别,能把 k 识别成 l<。太恐怖了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1114 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 23:21 · PVG 07:21 · LAX 16:21 · JFK 19:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.