V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Iamnotfish
V2EX  ›  问与答

Python 有什么脚本可以爬 PDF 的吗?

  •  
  •   Iamnotfish · 2019-12-19 06:52:38 +08:00 · 1568 次点击
    这是一个创建于 1561 天前的主题,其中的信息可能已经有所发展或是发生改变。
    GOOGLE 查了一下,大概都是推荐 PYPDF2+SCAPY 的方法,有前辈试过吗?我看 PYPDF2 那个项目原作者早就不维护了。或者还有什么别的方法可以爬 PDF 吗?求指教不胜感激!
    2 条回复    2019-12-19 08:10:59 +08:00
    binux
        1
    binux  
       2019-12-19 07:12:16 +08:00
    PDF 最近十年有什么变化吗?
    你需要担心的不是库而是文字定位和扫描件
    zeromake
        2
    zeromake  
       2019-12-19 08:10:59 +08:00 via Android
    https://github.com/pikepdf/pikepdf 如果说是 pdf 解析库可以考虑用这个
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1970 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 16:22 · PVG 00:22 · LAX 09:22 · JFK 12:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.