scrapy 的 item 队列把内存挤爆

scrapy 出来的时候还没什么 serverless 的概念，都是靠堆机器的方式来增加抓取规模，但是它的 IO 和计算没有分离，必然造成你现在这个局面。
一旦你加入队列来把 IO 和计算分离之后，你会发现你也用不上什么 scrapy 自己的东西了。
除非你的清洗是视频转码之类的众生平等的耗时任务，如果是单纯搞搞字符串之类的，可以使用 cloudflare worker 把计算部分分离出去，甚至把 IO 部分也可以分离出去（ IO 等待不计时，deno deploy 也是）。

mayli

56 天前

CONCURRENT_ITEMS

Maerd

47 天前

pipeline 处理 item 比抓取还慢？那要考虑你的储存架构设计方式了，自己存东西怎么会比爬慢

如果暂时无法解决，将 item 队列从内存队列换为磁盘队列即可，这样会 spider 在 yield item 的时候，item 会被先序列化到磁盘上，就不占用内存了

还有楼上说的 io 和计算没分离纯属没怎么用过 scrapy

baozaodexiaomila

32 天前

理论上 pipeline 这里只做数据存储过程，其他业务相关的东西不应该对抓取的结果进行处理，先将 item 通过 pipeline 存到 mongodb 或者 redis 等数据库中，这里作为原始数据，后续的操作应当在这个数据库上搞一个业务数据库来进行处理，就算不另外搞一个数据库，那么业务操作也应该开启新的进程去单独处理数据