V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
zstone123
V2EX  ›  Python

爬虫新手求助

  •  
  •   zstone123 · 2018-07-26 11:18:27 +08:00 · 5134 次点击
    这是一个创建于 2311 天前的主题,其中的信息可能已经有所发展或是发生改变。
    想要爬一些网站练手,纸上谈兵太无聊了。
    求可爬网站(反爬策略对新手友好的那种)
    28 条回复    2018-07-29 19:56:42 +08:00
    ml1344677
        1
    ml1344677  
       2018-07-26 11:32:27 +08:00   ❤️ 8
    反爬策略仅限于验证码的网站:安居客(拿下某地所有房源数据)
    封禁 IP 的网站:房天下(拿下某地所有房源数据)
    不封禁 IP 但是传给你错误数据的网站:高德地图(点击某个 POI 点出现某地块轮廓,要求大量爬取轮廓)
    通过翻页方式和异步加载限制爬虫的网站:豆瓣(个人认为主要考察爬取策略)
    dbow
        2
    dbow  
       2018-07-26 11:34:24 +08:00
    亚马逊试试?
    OpenJerry
        3
    OpenJerry  
       2018-07-26 13:22:44 +08:00 via Android
    还在上学的话可以试试爬学校教务,做个教务的命令行客户端,或者自动抢课之类的
    XxxxD
        4
    XxxxD  
       2018-07-26 13:43:33 +08:00
    目前遇到的挺多都还挺友好的,试试盗版小说网站和图片网站
    tt67wq
        5
    tt67wq  
       2018-07-26 14:04:11 +08:00   ❤️ 1
    wzwwzw
        6
    wzwwzw  
       2018-07-26 15:53:42 +08:00
    淘宝,京东,各大电商网站。
    LeungV2
        7
    LeungV2  
       2018-07-26 15:57:16 +08:00
    PY 爬虫吗? 好像挺好玩的
    zdnyp
        8
    zdnyp  
       2018-07-26 15:58:54 +08:00
    看兴趣呀,比如喜欢玩 LOL 的,把各个英雄的出场率、胜率啥的都抓来,喜欢音乐的就爬音乐站,喜欢电影的爬电影站...
    实在没啥兴趣,搞爬虫干啥...
    unforgiven
        9
    unforgiven  
       2018-07-26 16:46:30 +08:00   ❤️ 2
    如果你是新手 只是练练手的话 最好的实验对象是色情小网站
    alen
        10
    alen  
       2018-07-26 16:55:41 +08:00
    Lwf1995
        11
    Lwf1995  
       2018-07-26 17:58:35 +08:00 via Android
    @unforgiven 同意,我试过。哇咔咔。
    Lwf1995
        12
    Lwf1995  
       2018-07-26 17:59:24 +08:00 via Android
    @Lwf1995 哎,已经是老油条了,这种事情都不感觉到不好意思了。想当年我还是个看见妹子就脸红的小男生
    yykrlc
        13
    yykrlc  
       2018-07-26 18:13:58 +08:00
    搜狗.微信欢迎你。XX 小网站一般需要翻墙爬比较快...
    nciyuan
        14
    nciyuan  
       2018-07-26 19:51:28 +08:00 via Android
    感觉之前 wget -m 就把 Apache Httpd 整站爬下来了.........是不是我有错片场了?
    0x5f
        15
    0x5f  
       2018-07-26 20:19:21 +08:00
    爬电影站 小电影站只要爬的慢一点 不会反爬
    Leigg
        16
    Leigg  
       2018-07-26 20:27:46 +08:00 via iPhone
    www.bigcilin.com ,旅途愉快
    dd99iii
        17
    dd99iii  
       2018-07-26 20:58:24 +08:00
    按兴趣
    easylee
        18
    easylee  
       2018-07-26 21:12:32 +08:00
    开着梯子干 91 啊,绝对好爬,兄弟爬到了记得发我一份哈。
    tuding
        19
    tuding  
       2018-07-26 21:43:10 +08:00
    这车开得猝不及防
    Linxing
        20
    Linxing  
       2018-07-27 00:31:33 +08:00
    今日头条爬一波吧
    ithou
        21
    ithou  
       2018-07-27 01:59:21 +08:00 via Android
    教务系统吧。期末考试过后成绩还没出完,所以我前几天做了一个爬虫,实时推送教务成绩到邮箱。 链接就不给了,因为每个学校不一样。
    JCZ2MkKb5S8ZX9pq
        22
    JCZ2MkKb5S8ZX9pq  
       2018-07-27 02:28:57 +08:00
    之前看过几个慈善筹款网站,可以看看资金流量、存量和发起人频度等等的,能有所发现。
    zhangpeter
        23
    zhangpeter  
       2018-07-27 07:18:22 +08:00
    你可以看一下我的 Python 爬虫项目集合:
    https://github.com/zhang0peter/spider
    MES
        24
    MES  
       2018-07-27 09:17:00 +08:00
    yukun666
        25
    yukun666  
       2018-07-27 09:21:20 +08:00
    zstone123
        26
    zstone123  
    OP
       2018-07-27 10:48:24 +08:00
    @wzwwzw 好像这几个对新手都不太友好
    wzwwzw
        27
    wzwwzw  
       2018-07-27 15:32:18 +08:00
    @zstone123 京东还是好点
    sxd96
        28
    sxd96  
       2018-07-29 19:56:42 +08:00
    学校教务处成绩啊课表啊抢课啊,是不错的,入门这个挺好,还可以给同学用,有成就感。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   938 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 21:27 · PVG 05:27 · LAX 13:27 · JFK 16:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.