V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
cnta
V2EX  ›  Python

爬虫豆瓣电影评论使用代理还是被 403 了

  •  
  •   cnta · 2017-06-10 13:37:51 +08:00 · 5673 次点击
    这是一个创建于 2755 天前的主题,其中的信息可能已经有所发展或是发生改变。

    代理 IP 理论上是从网站申请的高匿代理,写的爬虫程序是判断某个 IP 被封了后换一个代理 IP 继续爬。

    response=requests.get(url,proxies=proxy).text

    但是之后发现爬久了之后返回的 response 是 403 的页面,不用代理 IP 也是 403,难道是发现了我自己主机的 IP 吗?(代理 IP 是可用的)

    16 条回复    2017-06-11 10:58:04 +08:00
    abcbuzhiming
        1
    abcbuzhiming  
       2017-06-10 16:12:37 +08:00
    发现了你的行为是爬虫然后直接封你的代理 ip 而已,现在很多网站都有根据日志进行行为分析的能力,绝大部分人的写的爬虫行为都太机械,操作时间固定严格精确,稍微分析一下就明白操作者不是人类。
    prasanta
        2
    prasanta  
       2017-06-10 16:22:52 +08:00   ❤️ 3
    豆瓣一定很气,明明有接口,还是这么多人爬
    popok
        3
    popok  
       2017-06-10 16:44:24 +08:00 via iPhone
    @prasanta 哈哈哈,干脆下次 403 页面直接提示用 api 好了
    cnta
        4
    cnta  
    OP
       2017-06-10 16:54:52 +08:00
    @abcbuzhiming 但是我的代理 IP 换了也还是被封了,是可以认为使用的代理 IP 没有访问过豆瓣的网页的情况下也被 403 了
    cnta
        5
    cnta  
    OP
       2017-06-10 16:56:23 +08:00
    @prasanta 接口似乎访问速率有限制吧
    ericFork
        6
    ericFork  
       2017-06-10 16:57:15 +08:00
    豆瓣好可怜,好多学爬虫的新手都拿豆瓣做练手对象
    cnta
        7
    cnta  
    OP
       2017-06-10 16:58:38 +08:00
    @ericFork 我是学数据库原理做课设想采集点数据 orz 要求百万条数据左右(本来打算生成),觉得既然如此就采集点真正有意义的数据好玩些--
    kkx
        8
    kkx  
       2017-06-10 17:02:36 +08:00 via iPhone   ❤️ 1
    user agent 都不加 --
    cnta
        9
    cnta  
    OP
       2017-06-10 17:10:05 +08:00
    @kkx 明白了,确实没加 user agent。这里面会暴露出自己用 python 请求网站的信息。应该这里和原因有很大关系,谢谢。但是奇怪的是,如果是按照这个原因来防止爬虫的话,为啥不在开始的时候就 403 呢?而是在我爬取了大概 20 分钟后,对我所有的 ip 进行 403
    kkx
        10
    kkx  
       2017-06-10 17:25:47 +08:00 via iPhone
    @cnta 达到了豆瓣的规则的 limit 了吧 这种属于最基本的 一行代码的事 实时的 有的网站有很多高级的玩法 什么 beacon 啊 javascript 执行啊 路径历史判断啊 到最后只好开一个 selenium 完全拟人操作
    herozzm
        11
    herozzm  
       2017-06-10 17:33:32 +08:00 via Android
    几秒换一个代理,限制抓取频率
    @prasanta 接口没有直接抓取那么全吧
    LeoEatle
        12
    LeoEatle  
       2017-06-10 19:05:16 +08:00 via iPhone
    豆瓣确实有接口,但是使用要求比较高,个人开发者现在是不开放的
    dsg001
        13
    dsg001  
       2017-06-10 19:56:38 +08:00
    90%以上的爬虫 demo 都是豆瓣
    cnta
        14
    cnta  
    OP
       2017-06-10 20:11:21 +08:00
    @dsg001 还有煎蛋妹子图
    creatorYC
        15
    creatorYC  
       2017-06-11 09:16:10 +08:00
    @dsg001 还有知乎(斜眼笑)
    dsg001
        16
    dsg001  
       2017-06-11 10:58:04 +08:00
    @cnta 好孩子不会爬妹子图

    @creatorYC 知乎属于进阶爬虫
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5776 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 02:48 · PVG 10:48 · LAX 18:48 · JFK 21:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.