看了 scrapy 官方说明文档，遇到几个问题恳请大家指点

1、对于下面的 parse_item 方法，请问为什么要用 yield 返回，把 yield 删除，直接执行 scrapy.Request 会有何问题呢，或者是用 return 来返回 Request()又如何呢？ 
def parse_item(self, response): 
        item = MyItem()  
        yield scrapy.Request(item_details_url, self.parse_details, meta={'item': item}) 

2、文档在描述“ CrawlSpider ”用法时警告到： 
“当编写爬虫规则时，请避免使用 parse 作为回调函数。 由于 CrawlSpider 使用 parse 方法来实现其逻辑，如果 您覆盖了 parse 方法，crawl spider 将会运行失败。” 
但是我看到有的爬虫程序中，参数用的是 CrawlSpider，并且自己重写了 parse 函数，在 parse 函数中用 yield 返回 Request 时，把 parse_item 作为回调函数，也是可以运行的。 
这是否说明上面的警告其实是不正确的？ 


3、在描述“ CrawlSpider ”用法时还解释了对如下爬取规则的用法： 
class scrapy.contrib.spiders.Rule(link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, process_request=None) 
文档提到：“ follow 是一个布尔(boolean)值，指定了根据该规则从 response 提取的链接是否需要跟进。 如果 callback 为 None，follow 默认设置为 True，否则默认为 False。” 
我的问题是，如果 callback 为 None，这个时候对于链接要跟进，请问跟进是什么意思？ 既然没有回调函数，那要如何处理当前页面呢？ 

4、关于下载器中间件，文档提到：“ DOWNLOADER_MIDDLEWARES 字典里的中间件会根据顺序(order)进行排序，最后得到启用中间件的有序列表: 第一个中间件是最靠近引擎的，最后一个中间件是最靠近下载器的”  
我的问题如下： 
首先，是否所有在字典里的中间件都一定会被调用，有没有可能只调用其中排在前面的某几个，而其余中间件的 process_request()方法不会被执行？如果是这样，什么情况下会如此？ 

其次，既然是按照顺序依序调用中间件，那为什么要强调靠近引擎和靠近下载器？这个说法有什么特殊意义么？

none

Parse

函数

yield

6 replies • 2017-09-21 23:21:02 +08:00

mrzys

Sep 21, 2017 via Android

回答 1，使用 yield 的时候就是一个迭代器，可以不断 yield 新的 request，但是你用 return，就只会返回一个 request。

mrzys

Sep 21, 2017 via Android

这里的 yield 的值可以是 request 也可以是一个 item，如果是一个 item 就会调用 pipeline，如果设置的话。这里应该是为了降低内存的使用率所以直接返回一个列表。另外不知道是不是使用协程来控制对 parse 方法的调用。

PythonAnswer

Sep 21, 2017 via Android

x. 可以用最新版的 scrapy

x. parse 方法是设计好的，不要写个重名函数覆盖了。如果想重载，可以自己实现 parse 并加上想要的功能，但这不符合 scrapy 思想

x. 中间件顺序，请参考 scrapy 架构图，那张十字排列的 png

sunwei0325

Sep 21, 2017

现在都 1.4 了吧, 怎么还看这么古老版本的文档呢

saximi

Sep 21, 2017

@PythonAnswer 我用的 scrapy 是最新的，但是看的文档是 http://scrapy-chs.readthedocs.io/zh_CN/latest/ 这个网址的 0.25 中文版本，因为英文不好，所以只好看中文版本。
那张 png 的图我看了，我知道中间件是按照右侧带的序号作为顺序来执行的，但是我不知道反正都是下载器中间件，为何要强调靠近引擎还是靠近下载器，这毕竟和执行顺序无关，做这个强调有什么意义么？

PythonAnswer

Sep 21, 2017

中间件是有顺序的，middleware 这个概念，你可以参考下 django 里面的 middleware，摆放都是有顺序的。

比如做一碗阳春面。你抓来的数据只是面条，然后想煮成面。

1. 碗里放盐和味精
2. 放面条和汤
3. 搅拌
4. 撒上葱花点缀

中间件的顺序可不能乱了，不然面条就不好看。