V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
GASALA
V2EX  ›  问与答

请问怎样禁止这个叫wumii无觅的网站对内容的抓取

  •  
  •   GASALA · 2013-12-15 16:40:56 +08:00 · 5149 次点击
    这是一个创建于 4025 天前的主题,其中的信息可能已经有所发展或是发生改变。
    这个叫wumii无觅的网站未经允许随意抓取我们的原创内容,我们一发文章基本上秒速就被抓去,跟对方邮件沟通完全置之不理。他们抓取内容后有两种展现方式,一种是用框架直接打开我们网页,一种是下面这种直接抓内容到他们网站上。

    http://www.wumii.com/item/c0CpGgOA

    请问要怎样在服务器日志里面快速找出这个叫wumii无觅的网站的爬虫ip并禁掉它?或者仅仅屏蔽掉这个网站的ip就可以?
    25 条回复    1970-01-01 08:00:00 +08:00
    ooh
        1
    ooh  
       2013-12-15 16:48:13 +08:00   ❤️ 1
    关键是找出他的机器ip,给他点porn?
    sanddudu
        2
    sanddudu  
       2013-12-15 16:50:09 +08:00   ❤️ 1
    如果对方还有良心,UA里会用 XX-Spider 这样的字符表示
    完全无节操,模拟客户端访问,那就在发一篇文章之后看着请求日志,如果发现有可疑ip就查日志
    GASALA
        3
    GASALA  
    OP
       2013-12-15 16:50:31 +08:00
    @ooh 嗯,我在日志文件里面没办法确定哪个是他们的。
    GASALA
        4
    GASALA  
    OP
       2013-12-15 16:52:50 +08:00
    @sanddudu 嗯,常规几个搜索引擎的都有标识,但是这个网站实在没有看到有明显的标识,看来只能一个一个排除?那工作量好大,日志文件很大。
    ooh
        5
    ooh  
       2013-12-15 16:56:16 +08:00
    @GASALA 哎,你看看他们网站ip是多少,找找看日志里面有没有,一般来说他访问时间很固定,可能一天就那么几次,也有可能是手动触发,所以说要找到他很难,可以试试检查header各个参数来揪出来,问题是恐怕不止一个在爬吧,让他去吧
    GASALA
        6
    GASALA  
    OP
       2013-12-15 16:57:42 +08:00
    @ooh 查过了,日志里面没有网站所在的ip。嗯,工作量好大,看来只能随他去了
    sanddudu
        7
    sanddudu  
       2013-12-15 16:58:23 +08:00
    @GASALA 看了下,估计不止一个爬虫。这下难说了,通过能沟通的渠道看看。
    Kirkcong
        8
    Kirkcong  
       2013-12-15 17:08:36 +08:00
    直接律师函即可,这样就不适用避风港原则了。
    Livid
        9
    Livid  
    MOD
       2013-12-15 17:09:35 +08:00
    给 2 个小时的日志样本来看看吧。
    zeinima
        10
    zeinima  
       2013-12-15 20:44:45 +08:00
    取证保存公证
    找个律师发封律师信
    zeinima
        11
    zeinima  
       2013-12-15 20:45:04 +08:00
    法制不健全的受害者就是普通人
    snowhs
        12
    snowhs  
       2013-12-15 21:44:53 +08:00
    > 我们希望加入的人有以下特征
    > 1. 正直。

    摘自 http://www.wumii.com/about/jobs

    我咳嗽刚好一点又笑到发作了...
    snowhs
        13
    snowhs  
       2013-12-15 21:48:26 +08:00
    btw, 我就引用一下内容,不对事情本身发表意见。
    rove
        14
    rove  
       2013-12-15 21:54:01 +08:00
    跑个题,Greader以前也可以对内容直接抓取···
    lovejoy
        15
    lovejoy  
       2013-12-15 22:52:15 +08:00
    虎嗅 ? 发律师函吧,不标明是spider,而且你们访问量应该比较大,日志确实难分析,或者明天发篇文章黑下对方?
    abbatuu
        16
    abbatuu  
       2013-12-15 23:32:48 +08:00   ❤️ 2
    技术仅仅是一个层面的东西
    你还可以选择
    1 工商局投诉 深圳二木科技有限公司
    2 为它做一些广告 当然是负面的 每一篇文章内容前增加一句注释 wumii无良 盗取内容
    3 联合其他被盗受损的客户 寻求法律支持
    binux
        17
    binux  
       2013-12-15 23:40:48 +08:00
    发一篇文章,首先限制奇数IP不可见,5分钟后放开。如果在这时间内对方抓去了,那就排除掉一半了,如此往复
    binux
        18
    binux  
       2013-12-15 23:45:06 +08:00   ❤️ 3
    突然想到这个太麻烦了。。
    直接文章里面插入一个编码,每次访问都不同,抓去之后看他抓的那个编码对应的请求信息就完了。
    yingluck
        19
    yingluck  
       2013-12-15 23:58:34 +08:00
    @binux 好办法! 还可以与IP运算 与客户端信息运算 直接显示在文章中 到时候直接看这个随机数就行了
    isy
        20
    isy  
       2013-12-16 00:07:00 +08:00
    @binux 这样岂不是文章缓存不了?访问量大的会不会直接死掉。
    binux
        21
    binux  
       2013-12-16 00:12:22 +08:00
    @isy 看在哪层做咯,应用服务器出来的结果依旧缓存起来,增加一层专门添加这个串,性能不会太差
    比如用openresty
    txlty
        22
    txlty  
       2013-12-16 04:28:17 +08:00   ❤️ 1
    有个办法是批量连接访客IP的80端口,如果哪个IP是通的,就有服务器嫌疑。

    其实这个问题在技术上无解。如果采集程序在工作场所的PC上,由PC端上传入库。工作场所是adsl拨号产生的动态IP,怎么封?
    txlty
        23
    txlty  
       2013-12-16 04:53:39 +08:00   ❤️ 1
    如果采集方使用的不是100%模拟浏览器(不请求图片、不执行JS),那么是有办法抓出采集者IP的。

    访问文章页面->记录访客IP,(延迟n秒后)通过页面一段JS以ajax方式发出一个请求,响应端收到请求后 删除IP记录 或 标记IP为正常访问。
    这样,留下来的就是机器人IP。如果是固定IP那就好办了。注意别把搜索蜘蛛当采集爬虫了。
    wzxjohn
        24
    wzxjohn  
       2013-12-16 09:42:36 +08:00 via Android
    看了大家的方法让我顿时觉得,原来还能这么玩!受教了!
    underone
        25
    underone  
       2013-12-16 10:21:08 +08:00   ❤️ 1
    直接微博上去@林承仁 比较有效吧
    在无觅初创的时候,还是很用过一阵的,没想到现在变成这样……
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3871 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 04:15 · PVG 12:15 · LAX 20:15 · JFK 23:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.