如何屏蔽搜索引擎蜘蛛

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 3628 天前的主题，其中的信息可能已经有所发展或是发生改变。

为了给服务器减轻压力，如何屏蔽各大搜索引擎蜘蛛？或者各大蜘蛛IP段？

搜索引擎

蜘蛛

屏蔽

15 条回复 • 2015-01-20 23:23:34 +08:00

liuchen9586

2015-01-17 08:51:55 +08:00

网站根目录下建立个robots.txt文件
然后内容写上

User-agent: *
Disallow: /

就行了

Chipper

2015-01-17 08:52:47 +08:00

在网站的根目录里建立一个robots文件即可。

xfspace

2015-01-17 08:53:52 +08:00

http://www.v2ex.com/t/70813

fising

2015-01-17 08:54:54 +08:00 via iPad

除了robots文件，最好能在服务器层面deny

typcn

2015-01-17 09:08:07 +08:00

我之前尝试过拒绝 UA 中含有 360 的请求，结果 360 搜索非常正常地收录了我的最新内容。

kiritoalex

2015-01-17 09:26:31 +08:00 via Android

@typcn 360爬虫不遵循robots协议，只能屏蔽IP

hjc4869

2015-01-17 09:34:24 +08:00 via iPhone

@kiritoalex 360不支持https吧

kiritoalex

2015-01-17 09:40:04 +08:00 via iPhone

@hjc4869 应该是

kiritoalex

2015-01-17 09:43:29 +08:00 via iPhone

最有效的方式是屏蔽搜索引擎整个的IP段，对于遵循robots的爬虫可以直接放robots.txt.不遵循的也只好屏蔽整个IP段了（比如腾讯搜搜和360的爬虫）

overlords

2015-01-17 10:44:23 +08:00

使用dnspod的用户可以在给搜索引擎特地执行一个IP；如127.0.0.1 搞定了；

miao

2015-01-17 14:06:55 +08:00

好吧. 我的网站巴不得天天爬虫来爬

mornlight

2015-01-17 14:11:52 +08:00

robots 有个缓存期，如果需要立马有效的话，nginx里屏蔽UA

enjoyzhou

2015-01-18 01:43:30 +08:00

只是减少服务器压力，可以通过搜索引擎站长平台调整抓取频率，无需全部禁止的

ctsed

2015-01-18 13:22:00 +08:00

http://zhanzhang.baidu.com/pressure/index # 站点管理 > 抓取频次

https://www.google.com/webmasters/tools/settings # 网站设置 > 抓取速度

kimmykuang

2015-01-20 23:23:34 +08:00

国内很多spider是不遵守robots协议的，比如360，明着不要脸的，我们现在采用的方法还是用go实现了一套逻辑去分析用户行为，最终还是为了去ban spider ip，结合着fail2ban使用