V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
ZAXON
V2EX  ›  Python

做了一个破解字体反爬虫的小工具

  •  
  •   ZAXON ·
    zxjlm · Dec 17, 2020 · 3197 views
    This topic created in 1969 days ago, the information mentioned may be changed or developed.

    找了一份面向监狱编程的实习工作🤣,在破解某个网址的字体反爬虫的时候,觉得这种反爬虫思路很是新奇,主要就是做映射字典这种精神污染的工作过于折磨,宁愿去搞 js 逆向,至少能让自己感觉是在干技术活儿😣

    所以为了避免话半天的时间去做映射字典,我花了一天的时间做了一个破解工具(😩)

    部了个Demo,有兴趣的可以玩玩,用的是阿里云的学生机,配置抗不住,所以加了个文件限制,即使是这样也不知道能撑住几个人一起用,崩了的话可以看看github上面的.

    希望这个小工具能够给和我从事同样工作的人们提供到帮助😃

    Supplement 1  ·  Dec 18, 2020

    另外OCR的图片都是uni956C.png这种理想情况下的,OCR识别率不高会不会是过拟合了,我在这方面也只是有所了解,不知道有没有大佬给个优化方向😅

    5 replies    2020-12-18 18:23:18 +08:00
    daiqiangbudainiu
        1
    daiqiangbudainiu  
       Dec 17, 2020
    好东西,看之前先顶一下
    leafleave
        2
    leafleave  
       Dec 17, 2020
    所以进能够使用网站提供的小样本进行测试
    错别字:进→仅
    ZAXON
        3
    ZAXON  
    OP
       Dec 18, 2020
    @leafleave 嗯,目前是依赖于 chineseocr_lite 做本地的 OCR,不过也提供了百度的接口,有条件的话用第三方接口识别率可能会更高。
    我也不知道现在国内的 OCR 哪家比较厉害,计划是再加一个腾讯的接口。
    毕竟 OCR 不能保证 100%的识别率,这也是做成 web 服务的原因,最后必须要经过一次人工核对的。
    leafleave
        4
    leafleave  
       Dec 18, 2020
    有没有可能在 ocr 之后再利用输入法的词库检测出来可能的错别字,再尝试匹配其他相近的字符,这样可以提高准确率
    ZAXON
        5
    ZAXON  
    OP
       Dec 18, 2020
    @leafleave 本质上这是通过将字体文件(fft\woff\woff2)中的每个字转换为 png 图片,来后针对每一张图片做 OCR 。有兴趣的话可以看看[实现思路]( https://blog.harumonia.moe/font-antispider-cracker/)。

    最终是对含有单个字的图片进行识别,而不是对一段话的识别。

    你说的这个思路倒是可以通过引进不同的 OCR 方式来检测出有争议的识别结果。
    其实目前程序的设计还是有问题的。比如如果使用了第三方 OCR 做增补,这个增补只是针对本地 OCR 没识别出来的图片,而不是本地 OCR 识别错的图片(蛋疼的是这个错误只有人工能判断)。诸如此类的,我计划等周末再琢磨琢磨提高准确率的方法。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   916 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 38ms · UTC 21:02 · PVG 05:02 · LAX 14:02 · JFK 17:02
    ♥ Do have faith in what you're doing.