V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
niselover
V2EX  ›  程序员

批量 ocr 扫描件,格式特殊,求思路

  •  
  •   niselover · 2022-09-30 01:56:11 +08:00 · 1854 次点击
    这是一个创建于 545 天前的主题,其中的信息可能已经有所发展或是发生改变。

    扫描件格式特殊,一般的 ocr api 都不能满足,需要自定义识别, 还需要批量化处理的能力, 求教怎么思路去实现?

    vx: d2FuZ3NhbnhpYQ==

    11 条回复    2022-10-02 12:57:46 +08:00
    paopjian
        1
    paopjian  
       2022-09-30 08:17:16 +08:00 via Android
    扫描件格式再特殊,也能变成图片吧,难道是加密文件?
    pony2335
        2
    pony2335  
       2022-09-30 08:28:15 +08:00
    感觉除了格式转换,没其他思路
    jifengg
        3
    jifengg  
       2022-09-30 08:48:33 +08:00
    楼主“格式特殊”指的是文字排版特殊,以及你希望 ocr 之后能够获得指定区域的内容吧。类似身份证 ocr 。
    百度云我知道有一个,可以自定义 ocr 模板的,楼主可以看看。其他云按理应该也是有的。
    kujio
        4
    kujio  
       2022-09-30 08:59:37 +08:00
    百度云不行,推荐阿里云,还有楼主是什么特殊格式,我公司之前刚做过扫描随货单自动入库的,单据都是乱七八糟格式的,现在识别率还行。
    dreasky
        5
    dreasky  
       2022-09-30 09:35:08 +08:00
    百度开源 paddleOCR
    v2exblog
        6
    v2exblog  
       2022-09-30 10:00:43 +08:00
    最好整个图片模板,不然不知道有多复杂
    niselover
        7
    niselover  
    OP
       2022-09-30 13:38:52 +08:00
    @paopjian
    @jifengg
    对对 文字排版特殊
    paciychen85
        8
    paciychen85  
       2022-09-30 14:58:06 +08:00
    最近也有跟 OP 相似的需求,表格截图类型的图片,有没有好的 ocr 软件?最好支持导出成 excel
    0bSer7er
        9
    0bSer7er  
       2022-09-30 17:11:35 +08:00
    最近正好在看 OCR ,阿里云有自定义排版的 api ,公司注册有免费额度,可以看一下
    encro
        10
    encro  
       2022-09-30 20:30:06 +08:00
    @kujio
    @0bSer7er

    @dreasky

    作为这方面的较深度用户,确实百度不如阿里,特别是这两年,百度算法根本就是开源实现,效果都一般。
    阿里自己的算法不公开,效果不错,
    而且比直接用阿里也比直接用百度更便宜很多,量不是特别多,比自己部署更便宜。
    dreasky
        11
    dreasky  
       2022-10-02 12:57:46 +08:00
    @encro 场景不一样 有些敏感扫描件有保密需求 只能单机
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3280 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 14:10 · PVG 22:10 · LAX 07:10 · JFK 10:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.