写了一个基于 Tornado 的图片爬虫: https://github.com/RealHacker/python-gems/tree/master/image_crawler
成果展示:
只需要两步:
- 在 ini 文件中设置几个选项:
; start url for crawler
starturl = http://pic.kdslife.com/
; regexes for links and image urls
linkregex=http://pic.kdslife.com/content_.*.html
imgregex=http://img.club.pchome.net/.*.jpg
; integer>=1, larger politeness means slower crawling
; but also less likely to be denied service
politeness=3
; the directory to store the downloaded images
imgdir=E:/kds/
; the min size of images that you want to download
minwidth=200
minheight=200
python crawler.py http://start-url-to-crawl
然后就等着收获吧!
欢迎报 bug ,提需求。
1
Tink 2015-09-21 23:58:23 +08:00
原来大家都好这口
|
2
wangleineo OP @Tink 人家只是研究爬虫,图片看也不看全删掉的 :)
|
3
Tink 2015-09-22 00:01:59 +08:00
@wangleineo 大家都懂 233
|
4
kchum 2015-09-22 00:25:28 +08:00 via iPad
先收藏 😁
|
5
veau 2015-09-22 07:59:27 +08:00
原来大家都好这口
|
6
vietor 2015-09-22 08:26:35 +08:00 via Android
加数据库支持,关键字搜索, Web 预览,才行
|
7
radio777 2015-09-22 10:06:32 +08:00
硬盘不够大啊
|
8
alohathomas 2015-09-22 11:38:10 +08:00
小白表示不知道怎么用。
|
10
nisnaker 2015-09-22 11:55:13 +08:00
我靠, v2 真有人叫 all
|
11
jamesfuxk 2015-09-22 14:02:15 +08:00
请问下,你是针对什么网站爬的?
|
12
zkzipoo 2015-09-22 14:54:47 +08:00
1.登陆模块?
2.命名规则? |
13
zhajming 2015-09-22 15:14:25 +08:00
|
14
onlyxuyang 2015-09-22 18:52:01 +08:00 via Android
@zhajming 有水印 非高清 …… 差评…… 不抓……
|
15
wangleineo OP @vietor 额 scrapy 好像都没有这么多功能吧
@jamesfuxk 图片站 @zkzipoo 命名规则现在就是简单的 4 位数字 @zhajming @onlyxuyang 只是拿这个站做个例子,改配置就可以爬别的网站。 |
16
scenix 2015-09-23 12:56:48 +08:00
哈哈 你这是把全站都爬下来的节奏啊。
我闲着没事写过一个从 1024 指定帖子页爬图转成 PDF 的,众所周知的原因还支持 socks5 代理。 https://github.com/scenix007/1024toPDF |
17
gaocegege 2015-09-23 22:34:52 +08:00
咋不用 scrapy 啥的呢~
|