V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
plart
V2EX  ›  Python

收集整理 Python 爬虫的工具,求 PR

  •  
  •   plart · 2018-08-07 11:13:29 +08:00 · 3090 次点击
    这是一个创建于 2333 天前的主题,其中的信息可能已经有所发展或是发生改变。

    对于 Python 的学习,有个关键又极其适合练手的应用场景——网络爬虫。

    之前在做类似项目的时候,发现总是会找不到合适的工具以及不清楚对应工具的应用方法及场景,所以想要整理一份小集合,希望可以帮助自己以及其他有需求的人,目前我简单整理了一下,但是有些说明是直接复制的英文,没有翻译,以及可能感觉格式、板式,尚需完善,但是自己暂时没有太多想法,希望有人可以帮助自己共同进步。

    page 地址 page

    项目地址(强烈建议 PR )https://github.com/lartpang/spyder_tool

    11 条回复    2018-08-19 19:41:38 +08:00
    timboy
        1
    timboy  
       2018-08-07 11:22:40 +08:00
    phantomjs 已经不被新版 selenium 支持了,得用 Headless Chrome( http://chromedriver.storage.googleapis.com/index.html)和 Headless Firefox(这个暂时没用过)
    beny2mor
        2
    beny2mor  
       2018-08-07 11:22:52 +08:00
    先观望( watch )下
    timboy
        3
    timboy  
       2018-08-07 11:28:40 +08:00
    charles 也可以做抓包
    SpiderXiantang
        4
    SpiderXiantang  
       2018-08-07 13:00:20 +08:00   ❤️ 1
    工具:Fiddler/Chrome(调试 js)
    渲染:Pyqt5/scrapy-splash
    解析:lxml/re
    下载:requests/aiohttp(异步)
    队列:Queue(爬虫队列)
    增速:thread/mutilprocessing/gevent
    数据库:pymysql/redis/sqlalchemy(ORM)
    其他:fack-user-agent
    brucedone
        5
    brucedone  
       2018-08-07 14:59:09 +08:00
    https://github.com/BruceDone/awesome-crawler , 已经有类似的了,收集的也相对齐全
    xFrank
        6
    xFrank  
       2018-08-07 17:19:26 +08:00
    缺失最重要组件:验证码识别
    hellwys1
        7
    hellwys1  
       2018-08-07 17:58:29 +08:00
    mark
    tanglijun
        8
    tanglijun  
       2018-08-08 09:53:28 +08:00
    还有最重要也是最容易忽略的一点:数据分析
    这个归纳的挺好的 https://www.zhihu.com/question/20899988/answer/58388759
    plart
        9
    plart  
    OP
       2018-08-09 13:19:44 +08:00
    @brucedone 感谢
    plart
        10
    plart  
    OP
       2018-08-09 13:21:32 +08:00
    我会再考虑下这个仓库存在的必要性,或者说进一步进行提升。
    plart
        11
    plart  
    OP
       2018-08-19 19:41:38 +08:00
    进行了一下想法的调整,感觉仓库存在是值得滴。

    且行且看吧!
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5458 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 07:28 · PVG 15:28 · LAX 23:28 · JFK 02:28
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.