scrapy 怎么设置爬虫跳到下一个 start_url？

我现在是每个网站一个 start_url ，一个网站爬 1000(举个例子)个页面之后就跳到下一个网站进行爬取，
宁雨 2015/12/18 18:04:40
这种效果应该怎么实现？

我试了一种方法，就是在爬取量达到 1000 个页面之后就把这个网站的域名从 allowed_domain 中去掉，这样的效果是爬虫依然从这个网站上爬取就是会把这个网站的 url 全部忽略，有没有有经验的同学指点一下

start_url

网站

爬取

爬取量

3 条回复 • 2015-12-19 10:13:32 +08:00

fangdingjun

2015-12-18 18:26:53 +08:00

设定一个条件，当条件为 True 时
yield scrapy.Request

ningyu

2015-12-18 18:31:05 +08:00

@fangdingjun 能具体点吗，是在 parse_url 里面 yield ？

fangdingjun

2015-12-19 10:13:32 +08:00

在 scrapy 的回调函数里停止返回 scrapy.Request 对象, scrapy 就会停止抓取
你只需要在每次返回 scrapy.Request 时计数，在计数到达 1000 后停止返回 Request 即可