scrapy 如何解决写数据库性能问题

大家好，请问：
目前一个项目，scrapy 目前一分钟抓取 7000 条。需要把数据写入数据库。

而 Pipelines 好像是分析一条 insert into 一条，性能很低。
INSERT INTO table_name (列 1, 列 2,...) VALUES (值 1, 值 2,....)

请问是我的操作方法有问题，还是说可以把数据一批批写入提高效率，如：
INSERT INTO table_name (列 1, 列 2,...) VALUES (值 1, 值 2,....)， (值 1, 值 2,....)， (值 1, 值 2,....)， (值 1, 值 2,....)

insert

into

Scrapy

values

20 replies • 2017-06-19 14:07:01 +08:00

misaka19000

Jun 17, 2017 via Android

要是我就换 Redis

panda0

Jun 17, 2017

bazingaterry

Jun 17, 2017 via iPhone

先丢进 Redis，再写个中间件处理后再入库吧……

360safe

Jun 17, 2017

scrapy 批量化写入方案怎么样呢？如果想实现的话如何实现呢？

iyaozhen

Jun 17, 2017 via Android

你这数据量算少了。insert 批量插入就行

360safe

Jun 17, 2017

@iyaozhen 请问在 scrapy 里批量的思路是什么？

iyaozhen

Jun 17, 2017 via Android

@360safe 简单的话就是把每个 value 存着，然后搞个全局计数器，到了一定数量后拼成一个大 SQL，执行就行

zts1993

Jun 17, 2017

异步 mysql 驱动。或者用发队列，避免阻塞

Allianzcortex

Jun 17, 2017 via iPhone

executemany

360safe

Jun 17, 2017

@Allianzcortex executemany 看上去与 NSERT INTO table_name (列 1, 列 2,...) VALUES (值 1, 值 2,....)， (值 1, 值 2,....)， (值 1, 值 2,....)， (值 1, 值 2,....) 类似，只是更清晰。

360safe

Jun 17, 2017

@iyaozhen 请问如何将每个 value 存着，是通过一个全局变量吗？还是在 Pipelines 中实现？

ming2050

Jun 17, 2017

先往队列里写，然后再写 consumer 消费掉，这样就不影响采集速度了

360safe

Jun 17, 2017

问题应该解决了：

MySQLStorePipeline 定义了一个 article_items 集合用于存储 spider 爬到的 item，当 items 数量达到 1000 时，批量写入数据库。如果接受到 item 就单条写入数据库，会比批量写入慢很对，爬虫的效率会慢一个数量级。

http://kekefund.com/2016/03/31/scrapy-learn/

slixurd

Jun 17, 2017

7000 条一分钟,数据库写压力 117QPS
这么低的压力都嫌慢,说明配置超级垃圾
用这么低配的 MySQL,上 Redis 的意义在哪,浪费资源么,23333

360safe

Jun 17, 2017

不是啊，用的阿里云 RDS，远程的。你这样提醒了我，一会弄一个本地的中转一下。

misaka19000

Jun 17, 2017 via Android

@slixurd 哈哈，没有想到这种情况

360safe

Jun 17, 2017

@slixurd 也有阿里云的 Redis，不过远程的估计。。。。我试试本地的 MySQL。

owenliang

Jun 18, 2017

你先试试批量提交能到多少。。

NaVient

Jun 19, 2017

扔到ＭＱ这种异步队列里，再异步插入不就行了

360safe

Jun 19, 2017

嗯嗯，谢谢大家。最终解决方法是：
因为每次一条 insert into 插入速度很慢，用了一个全局变量存着值，5000 条 executemany 写入一次远程阿里云数据库。

批量后完全满足一分钟过滤 7000 条的需求。（本地数据库也受不了一条条插入。）