robots.txt里限制了爬虫的时间段和频次,百度不管不顾
sudo cat access.log |grep 'http://www.baidu.com/search/spider.html' | awk '{print $1}' | awk -F'.' '{print $1"."$2"."$3"."$4}'
一早上 5个ip段 300多ip死劲爬啊 - -
123.125.71.0
220.181.108.0
180.76.15.0
220.181.38.0
183.60.243.0
列举部分IP
220.181.108.103
220.181.108.107
220.181.108.97
220.181.108.85
220.181.108.120
220.181.108.102
220.181.108.87
220.181.108.83
220.181.108.77
220.181.108.93
220.181.108.109
220.181.108.90
220.181.108.119
220.181.108.81
220.181.108.104
220.181.108.91
220.181.108.114
220.181.108.99
220.181.108.108
220.181.108.92
220.181.108.101
123.125.71.91
123.125.71.81
123.125.71.110
123.125.71.115
123.125.71.107
123.125.71.108
123.125.71.96
123.125.71.80
123.125.71.94
123.125.71.89
123.125.71.95
123.125.71.98
123.125.71.111
123.125.71.101
123.125.71.88
123.125.71.103
123.125.71.97
123.125.71.113
180.76.15.149
180.76.15.137
180.76.15.159
180.76.15.140
180.76.15.150
180.76.15.136
180.76.15.155
180.76.15.152
180.76.15.160
180.76.15.163
180.76.15.157
180.76.15.158
180.76.15.134
180.76.15.161
180.76.15.151
180.76.15.142
180.76.15.145
1
tabris17 2015-07-06 11:11:21 +08:00
|
2
9hills 2015-07-06 11:11:39 +08:00
User-agent: Baiduspider
Disallow: / User-agent: baiduspider Disallow: / |
3
laoertongzhi 2015-07-06 11:18:15 +08:00
百度有脸吗?
我怎么不晓得 |
4
lonelygo 2015-07-06 11:29:19 +08:00
脸是什么?baidu问你呢
|
5
zent00 2015-07-06 11:33:27 +08:00
有些事大家知道就好,不用讲出来,楼上几位这么说百度,小心有洗地的人来骂你们是喷子。
|
6
yakczh 2015-07-06 11:40:49 +08:00 1
A 用户做个A网站
莆田民营医院花100块钱买了A的关键字,用户在百毒搜A,搜出来一大堆狗皮膏药的广告 A 用户觉得这好象有点不大对劲,问百毒这到底咋回事 百毒说这是我的盈利模式,你花200块钱把关键字买回去就搜索结果就导向你的网站了 莆田医院再花300买回去,你再花400买回来,这就是传说中的市场经济啊,我等着数钱啊 你问百毒,你要脸吗? 百毒:我要钱啊,给钱啊,我已经叉开双腿了,给钱来上我啊,come'on baby |
8
yakczh 2015-07-06 11:44:20 +08:00
象google这种笨蛋就不会搞市场经济赚钱
|
9
vbs 2015-07-06 11:48:30 +08:00
楼主能贴下robots.txt吗
|
10
undeflife OP @tabris17 我知道百度站长上可以设频次,但是我没试过,不太乐意为了这个去注册账号什么的,问题是不管怎么样,300多ip同时来这像话吗?
|
11
Hello1995 2015-07-06 12:25:19 +08:00 via Android
楼主可以尝试把 UA 里带有 "baidu" 字样的全给屏蔽了。
|
12
df4VW 2015-07-06 12:31:57 +08:00
是
|
13
mliilm 2015-07-06 12:51:03 +08:00
robots.txt 里设置的爬虫的时间段和频次百度应该是不认的.
但是 disallow 百度是严格遵守的. 可以把你觉得不重要的给 disallow 掉. 300多个 IP 同时来算什么, 几千个几万个的都有. 尤其最近百度升级了 spider, 开始支持 JS 了, 有时候触发的 JS 有问题的话, 同时并发的可就更多了. 百度暂时根本控制不住这些. 最好的办法就是站长工具里控制下频率. 或者干脆 disallow 掉. 如果还是不行的话, 那就升级服务器吧. |
14
cst4you 2015-07-06 12:59:04 +08:00 2
nginx 里禁止 Baiduspider 即可, 你可以302回baidu.com, 百度判断你作弊, 立即拔你毛, 这样永远就不会受它骚扰了
|
16
undeflife OP @mliilm 是我少见多怪了啊?那请问下是出于什么样目的会几千个几万ip同时爬呢?google遵守了我们robots.txt设置的爬虫的时间段和频次,每次也就几个ip而已,收录的网页数却比百度要多了一倍.
|
18
iyaozhen 2015-07-06 13:41:38 +08:00
百度应该是不支持时间段和频次的。
|
19
lyragosa 2015-07-06 13:44:49 +08:00
ban掉即可。
|
20
predator 2015-07-06 15:31:18 +08:00
不知道得罪了谁,一个月给我刷了4000万外链
然后才发现……正常内容百度不上心的,垃圾外链爬得可起劲了,最高峰的时候网站流量70%+是被百度消耗掉了 |
21
liujiantao 2015-07-06 15:36:34 +08:00
百度站长工具可以自定义的吧好像
|
22
mornlight 2015-07-06 15:58:44 +08:00
搜索引擎更新网站的robots.txt 需要一段时间,不是立即生效的。
|
24
wtdd 2015-07-06 20:03:50 +08:00
话说认识两个哥们儿去了百度数年后,人品从中等水平逐渐进入不厚道水平了,技术进步相对不大,嘴上忽悠水平明显见涨
|
26
laiyingdong 2015-07-07 04:06:53 +08:00 via Android
百度懒得管这么长的玩意 除非你是淘宝
|