首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
BryceBu
V2EX  ›  Python

[求助] Python 读取电子发票 PDF 文件数据缺失

  •  
  •   BryceBu · 7 天前 · 884 次点击

    我用 pdfplumber 之类的库读取文件,仅能读到一点点数据

    用 pdf2image 转化成图片就是下面这样 👇

    在线 PDF 转 IMG 倒是完整的数据,可是不符合使用要求

    我怀疑是不是因为签名啥的,因为用 WPS 打开的时候有提示来着 👇

    请问有没有解决办法?

    6 回复  |  直到 2020-01-14 17:15:10 +08:00
    xiri
        1
    xiri   7 天前 via Android
    pdf 对信息自动化处理来说简直是噩梦🙃
    EricInBj
        2
    EricInBj   7 天前
    应该有错误输出的,大概率是字体缺失?
    BryceBu
        3
    BryceBu   7 天前
    @EricInBj 感谢 我发现没解析出来的字体都是 STSong-Light

    我在网上下载了这个字体然后安装,结果都是华文宋体???

    然后再读取 PDF 结果还是缺失的
    PopRain
        4
    PopRain   7 天前
    我觉得是类库不支持嵌入字体
    Rorysky
        5
    Rorysky   7 天前
    pymupdf 试试
    BryceBu
        6
    BryceBu   7 天前
    刚刚在 Ubuntu 上试了一下,可以识别了

    我下载的 STSong-light 字体文件都不能安装

    看来原因还是 Windows 不支持这个字体?
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2657 人在线   最高记录 5168   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 28ms · UTC 01:51 · PVG 09:51 · LAX 17:51 · JFK 20:51
    ♥ Do have faith in what you're doing.