V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
yeyeye
V2EX  ›  问与答

YisouSpider[神马搜索]这是在 CC 攻击还是在抓取网站?它会给我们流量吗?

  •  1
     
  •   yeyeye · 2016-01-11 15:06:48 +08:00 · 2792 次点击
    这是一个创建于 3000 天前的主题,其中的信息可能已经有所发展或是发生改变。
    这些个参数,根本就不是我网站所拥有的,一上网搜索 YisouSpider 的神马搜索引擎站长都是想骂人, YisouSpider 蜘蛛的抓取速度又快,神马搜索的蜘蛛竟然还在网址后面加随机参数和值!

    我就想问问,这个破搜索引擎真的会给你们来流量吗?

    说真的,降低一下频率很难么……?遵守 robots.txt 很难么?我真是不懂这些做搜索引擎的。

    网上还说神马搜索是阿里的,微博话题是#阿里神马搜索#……

    神马搜索的网站 http://m.sm.cn http://sm.cn http://www.yisou.com [一搜搜索引擎] (电脑打不开搜索页面)

    网站日志截图

    网站日志备用图
    http://i11.tietuku.com/a1dbfcc03ee42b8a.png

    网友抱怨的就不发图了,大家自己点开就能看到鸟
    https://www.baidu.com/s?wd=YisouSpider
    https://www.google.com/#q=YisouSpider
    18 条回复    2016-01-12 21:19:11 +08:00
    yeyeye
        1
    yeyeye  
    OP
       2016-01-11 15:20:55 +08:00
    最最不理解的就是在网址后面加随机参数,这不是 CC 攻击玩的那一套么……
    popu111
        2
    popu111  
       2016-01-11 21:04:49 +08:00 via Android   ❤️ 1
    一般都是直接 ban ,好歹 yisou 还看 robots.txt , 360 那种直接无视的才让人蛋疼(不过 360 有流量,一年见不到一个 yisou 来的人)
    yeyeye
        3
    yeyeye  
    OP
       2016-01-11 21:24:12 +08:00
    @popu111 看 robots 或许是好的,但是随机加参数访问还过快,这就有点太奇葩。合理的弄好,虽然不会爱,但是也不太会抱怨就是了。
    popu111
        4
    popu111  
       2016-01-11 21:30:26 +08:00 via Android   ❤️ 1
    @yeyeye yisou 蜘蛛被抱怨好多年了,还是先 disallow 吧
    yeyeye
        5
    yeyeye  
    OP
       2016-01-11 22:26:58 +08:00
    @popu111 我收不到你的 @
    popu111
        6
    popu111  
       2016-01-11 22:30:12 +08:00 via Android   ❤️ 1
    @yeyeye 不知为何我好像被降权的很厉害,发个贴都能变 3 天前
    @Livid 能请问一下我有什么大过错么?
    Hello1995
        7
    Hello1995  
       2016-01-11 22:46:16 +08:00 via Android   ❤️ 1
    如果你用 Apache:

    ine On

    RewriteCond %{HTTP_USER_AGENT} .*(FooSpider) [NC]
    RewriteRule ^.*$ http://zheshiyigebucunzaidewangzhan.com/ [R=301,L]

    FooSpider 自行修改。
    Andy1999
        8
    Andy1999  
       2016-01-11 22:50:56 +08:00 via iPhone   ❤️ 1
    这点流量都扛不住么?
    Hello1995
        9
    Hello1995  
       2016-01-11 22:53:16 +08:00 via Android   ❤️ 1
    7# 更正: RewriteEngine On
    dzxx36gyy
        10
    dzxx36gyy  
       2016-01-12 00:31:52 +08:00 via Android   ❤️ 1
    宜搜不但会发起 cc 一般的抓取,而且还会把页面转码,你的网页在手机端的宜搜结果是被宜搜转码的,并不会给你带来流量,可谓毒瘤……
    Hello1995
        11
    Hello1995  
       2016-01-12 00:57:14 +08:00 via Android   ❤️ 1
    @dzxx36gyy 不是宜搜,是一搜。“神马搜索”
    msg7086
        12
    msg7086  
       2016-01-12 01:02:28 +08:00   ❤️ 1
    @Andy1999 能抗住不代表就要去抗。
    别人扇你一巴掌也不会让你残疾,不代表别人就可以扇你玩了啊。

    @yeyeye 直接 ip ban 一个段就好了,轻松愉快。
    Andy1999
        13
    Andy1999  
       2016-01-12 01:18:47 +08:00 via iPhone   ❤️ 1
    @msg7086 我觉得无所谓 你这比喻有问题
    LEFT
        14
    LEFT  
       2016-01-12 07:14:20 +08:00 via iPhone   ❤️ 1
    你把包括 360 , yisou 在内的🕷️,统统重定向到 127.0.0.1 了
    dzxx36gyy
        15
    dzxx36gyy  
       2016-01-12 11:50:31 +08:00   ❤️ 1
    @Hello1995 sorry ,一不小心叫错了,不过没搞错对象……宜搜的是 Easou ,这个 Yisou 我一直叫错_(:з」∠)_
    doublleft
        16
    doublleft  
       2016-01-12 12:22:31 +08:00   ❤️ 1
    现在啊 招了几个阿里出来的就好意思说是阿里领军,搞了几个百度的就敢说自己和巨头合作。
    我在阿里擦过玻璃,送过外卖,也算是上市公司合伙人了?
    yeyeye
        17
    yeyeye  
    OP
       2016-01-12 14:22:03 +08:00
    @Andy1999 看了一下频繁的时候 1 秒 5 次访问( php 页面)……那岂不是一天可以接受 45 万左右的流量……也正是最近看了日志才觉得写个过滤垃圾流量是很有必要的(很多扫漏洞的,有的一天暴力破解后台密码坚持了几天几夜,我还用的是虚拟主机,就害怕被管理咔嚓了)

    如果是缓存到了倒也没关系……但是这搜索引擎居然还在随机字符……而且 wordpress 连 404 都是动态处理的,页面处理时间 0.5 秒左右!于是昨天忍无可忍写了个拦截的,每个请求消耗 0.0005 秒左右检查特征(符合规则就封 ip ,爽),但是大部分垃圾流量都干掉了。

    @dzxx36gyy 蛋疼啊,原来如此,果断屏蔽!

    @msg7086 wordpress 每个 404 页面 pv 要浪费 0.5 秒去处理,真心蛋疼

    @doublleft 从一定程度上说,你在上班期间,你就是这个公司的一部分,当别人说 XXX 公司怎么怎么样的时候……说的不是公司……其实是人啊!
    msg7086
        18
    msg7086  
       2016-01-12 21:19:11 +08:00
    #17 @yeyeye 这话说得不完全对。
    有时候说的是人。
    有时候说的是领导人 / 管理层。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5415 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 39ms · UTC 08:46 · PVG 16:46 · LAX 01:46 · JFK 04:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.