V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
tianxiacangshen
V2EX  ›  PHP

网站日志找到大量 Python -urllib/2.7 之类的,是爬虫吗?

  •  
  •   tianxiacangshen · 2017-05-04 20:30:39 +08:00 · 7066 次点击
    这是一个创建于 2789 天前的主题,其中的信息可能已经有所发展或是发生改变。
    2017-05-04 06:08:14 120.xx.xxx.xxx GET / - 80 - 58.211.2.120 Python-urllib/2.7 200 0 0 54

    持续两三天了,每秒钟几十次记录,这是网站被攻击还是有人采集内容?
    32 条回复    2017-07-16 11:44:37 +08:00
    misaka19000
        1
    misaka19000  
       2017-05-04 21:11:01 +08:00 via Android
    这爬虫还把自己给暴露出来。。。神奇
    woshinide300yuan
        2
    woshinide300yuan  
       2017-05-04 21:11:46 +08:00
    这不是明显的该屏蔽的吗 - -
    billlee
        3
    billlee  
       2017-05-04 21:54:55 +08:00   ❤️ 2
    耿直的爬虫
    notes
        4
    notes  
       2017-05-04 22:17:57 +08:00 via Android
    目测新手,用的还是自带的 urllib
    Yc1992
        5
    Yc1992  
       2017-05-04 22:18:55 +08:00 via Android   ❤️ 1
    脚本小子
    wspsxing
        6
    wspsxing  
       2017-05-04 22:59:57 +08:00
    UA 都不改一下,差评妥妥的。
    ywgx
        7
    ywgx  
       2017-05-04 23:06:42 +08:00
    留着过年?
    LokiSharp
        8
    LokiSharp  
       2017-05-04 23:07:42 +08:00
    估计故意的。。。看看有没有人处理
    richardma
        9
    richardma  
       2017-05-05 01:08:54 +08:00
    猖狂的爬虫,23333
    tonychow
        10
    tonychow  
       2017-05-05 01:11:52 +08:00
    显然爬虫, 都不知道隐藏下 UA
    araraloren
        11
    araraloren  
       2017-05-05 08:29:07 +08:00
    ~~
    再明显不过的爬虫了。。
    封了 IP 呗
    crackhopper
        12
    crackhopper  
       2017-05-05 08:43:18 +08:00
    666666
    yanzixuan
        13
    yanzixuan  
       2017-05-05 08:50:08 +08:00
    连 UA 都不知道改的,估计是新手。另外你们的网站不设置一个 Limiter,限制一下一天的总的访问次数么?
    如果对方换 IP,你就限制下 1 分钟 /1 小时之内的访问次数吧。
    tttty
        14
    tttty  
       2017-05-05 09:41:13 +08:00
    请问一下,如果遇到爬虫直接封 IP,这样不是会导致共用公网 IP 的用户误伤吗.. 比如校园网、网吧什么的?
    hard2reg
        15
    hard2reg  
       2017-05-05 09:52:20 +08:00 via iPhone
    弱弱的问下,requests 的默认 ua 是啥
    jy02201949
        16
    jy02201949  
       2017-05-05 09:52:42 +08:00
    真是耿直啊,而且还在用 urllib,新手随便抄了网上哪个教程弄的爬虫吧
    anexplore
        17
    anexplore  
       2017-05-05 09:58:35 +08:00
    使用验证码机制啊
    pyufftj
        18
    pyufftj  
       2017-05-05 10:01:03 +08:00
    @hard2reg 和 urllib 差不多,也带着 python 字样的,反正一眼就能识别出来的那种。。
    pyufftj
        19
    pyufftj  
       2017-05-05 10:01:49 +08:00
    @tttty 只封一个不就行了吗。。
    kinghui
        20
    kinghui  
       2017-05-05 10:08:30 +08:00
    @tttty 有可能封一个省市, 因为某些省市的某个运行商可能就一个出口 ip.
    hard2reg
        21
    hard2reg  
       2017-05-05 10:12:18 +08:00 via iPhone
    @kinghui 就一个出口😂 ip 是多稀缺
    em70
        22
    em70  
       2017-05-05 10:12:58 +08:00
    @tttty 只封 24 小时,不会有太大影响,别考虑太多小概率事件
    tttty
        23
    tttty  
       2017-05-05 11:12:58 +08:00
    @kinghui 太可怕了...
    @em70 嗯 好的
    liuxu
        24
    liuxu  
       2017-05-05 11:31:52 +08:00
    我虽然是个爬虫,但我行事坦荡,从不遮遮掩掩
    fuxkcsdn
        25
    fuxkcsdn  
       2017-05-05 11:35:44 +08:00   ❤️ 1
    @hard2reg
    >>> import requests
    >>> requests.get('http://httpbin.org/user-agent').text
    u'{\n "user-agent": "python-requests/2.12.3"\n}\n'
    hsmocc
        26
    hsmocc  
       2017-05-05 15:20:30 +08:00 via iPhone
    封 IP 显然是下策啊,一段时间内访问次数达到一个上限后出验证码吧
    tianxiacangshen
        27
    tianxiacangshen  
    OP
       2017-05-05 16:52:16 +08:00
    @hsmocc 这样的话 每一次访问都要查询(次数)+插入数据库,不是很占用资源吗
    doublleft
        28
    doublleft  
       2017-05-05 17:33:06 +08:00
    @tttty 是啊,会误伤! 我们公司不知道哪个傻比天天疯狂刷 v 站,我现在挂着代理上的……
    dsg001
        29
    dsg001  
       2017-05-05 17:52:51 +08:00
    这种 UA 直接返回乱码数据呗
    qinbingchen
        30
    qinbingchen  
       2017-05-05 21:40:26 +08:00
    难道这是我?
    flyshu
        31
    flyshu  
       2017-05-06 10:43:42 +08:00
    新手刚看了知乎的入门教程来练手了
    dreamcountry
        32
    dreamcountry  
       2017-07-16 11:44:37 +08:00
    我的网站也有大量的这种日志,这些人真是闲的蛋疼
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3258 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 12:10 · PVG 20:10 · LAX 04:10 · JFK 07:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.