宅男福利 - 一个图片爬虫，基于 Tornado 协程 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 3401 天前的主题，其中的信息可能已经有所发展或是发生改变。

写了一个基于 Tornado 的图片爬虫： https://github.com/RealHacker/python-gems/tree/master/image_crawler

成果展示：

只需要两步：
- 在 ini 文件中设置几个选项：

; start url for crawler
starturl  = http://pic.kdslife.com/

; regexes for links and image urls
linkregex=http://pic.kdslife.com/content_.*.html
imgregex=http://img.club.pchome.net/.*.jpg

; integer>=1, larger politeness means slower crawling
; but also less likely to be denied service
politeness=3

; the directory to store the downloaded images
imgdir=E:/kds/

; the min size of images that you want to download
minwidth=200
minheight=200

执行python crawler.py http://start-url-to-crawl

然后就等着收获吧！

欢迎报 bug ，提需求。

17 条回复 • 2015-09-23 22:34:52 +08:00

1

Tink

2015-09-21 23:58:23 +08:00

原来大家都好这口

2

wangleineo

OP

2015-09-21 23:59:46 +08:00

@Tink 人家只是研究爬虫，图片看也不看全删掉的：）

3

Tink

2015-09-22 00:01:59 +08:00

@wangleineo 大家都懂 233

4

kchum

2015-09-22 00:25:28 +08:00 via iPad

先收藏 😁

5

veau

2015-09-22 07:59:27 +08:00

原来大家都好这口

6

vietor

2015-09-22 08:26:35 +08:00 via Android

加数据库支持，关键字搜索， Web 预览，才行

7

radio777

2015-09-22 10:06:32 +08:00

硬盘不够大啊

8

alohathomas

2015-09-22 11:38:10 +08:00

小白表示不知道怎么用。

9

nisnaker

2015-09-22 11:54:37 +08:00

新手表示也想练手，请各位不吝推荐图片站~~
@all

10

nisnaker

2015-09-22 11:55:13 +08:00

我靠， v2 真有人叫 all

11

jamesfuxk

2015-09-22 14:02:15 +08:00

请问下，你是针对什么网站爬的？

12

zkzipoo

2015-09-22 14:54:47 +08:00

1.登陆模块？
2.命名规则？

13

zhajming

2015-09-22 15:14:25 +08:00

http://pic.kdslife.com/ ？？

14

onlyxuyang

2015-09-22 18:52:01 +08:00 via Android

@zhajming 有水印非高清 …… 差评…… 不抓……

15

wangleineo

OP

2015-09-22 21:54:53 +08:00

@vietor 额 scrapy 好像都没有这么多功能吧
@jamesfuxk 图片站
@zkzipoo 命名规则现在就是简单的 4 位数字
@zhajming @onlyxuyang 只是拿这个站做个例子，改配置就可以爬别的网站。

16

scenix

2015-09-23 12:56:48 +08:00

哈哈你这是把全站都爬下来的节奏啊。

我闲着没事写过一个从 1024 指定帖子页爬图转成 PDF 的，众所周知的原因还支持 socks5 代理。

https://github.com/scenix007/1024toPDF

17

gaocegege

2015-09-23 22:34:52 +08:00

咋不用 scrapy 啥的呢~

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 5467 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 40ms · UTC 09:19 · PVG 17:19 · LAX 01:19 · JFK 04:19
Developed with CodeLauncher
♥ Do have faith in what you're doing.