技术渣，谁给写个爬虫，感谢

爬虫

详情

感谢

图片

137 条回复 • 2019-06-19 17:22:49 +08:00

1 2

❮

❯

1

niknik

2019-05-21 16:40:54 +08:00

怎么说

2

jtwor

2019-05-21 16:42:14 +08:00

https://www.cnblogs.com/fnng/p/3576154.html 看这个我记得虫师还有个 Selenium 教程

3

tabris17

2019-05-21 16:43:11 +08:00

45

如果谢谢有用的话，还要印钞厂干嘛

4

alw

2019-05-21 16:45:39 +08:00

本人懒，谁给钱让我赖活着，感谢。
（要爬什么不说，给什么回报不说，就只想别人帮忙，还得去问你：请问你需要解决什么问题？）

5

onecode

OP

2019-05-21 16:46:54 +08:00

3

没人写，我自己写了啊

6

wqzjk393

2019-05-21 16:49:37 +08:00

贴个 csdn 的。。我记得之前学异步协程时候拿来测试过，直接复制下来就能跑。。。（ https://blog.csdn.net/ns2250225/article/details/78448955 ）

7

Ct5T66PVR1bW7b2z

2019-05-21 16:49:46 +08:00 via Android

不报个价，谁给你写

8

AFuture

2019-05-21 16:49:51 +08:00 via iPhone

看到 5 楼的回复....楼主你倒是自己写啊

9

aaa5838769

2019-05-21 16:50:11 +08:00

1

自己写吧，用不到太多的技术难点吧。

10

onecode

OP

2019-05-21 16:52:23 +08:00

@AFuture 上班不能写，下班回去写，公司监控访问的网址

11

vinew

2019-05-21 16:59:32 +08:00 via iPhone

响应数据看着像 json，可以考虑用 shell 爬，然后用 jq 命令处理 json

12

Immortal

2019-05-21 17:00:54 +08:00

30

看到 5l 有点想笑
"你们不赶紧抢着写,要被我自己写了!"

13

cuebyte

2019-05-21 17:01:09 +08:00

我來幫你寫

14

onecode

OP

2019-05-21 17:01:56 +08:00

11

为啥你们就不访问 url 看一下呢，伤心

15

gjf

2019-05-21 17:04:42 +08:00 via Android

这也简单了吧？

16

lithiumii

2019-05-21 17:05:44 +08:00

最近流行以爬虫的名义开车？

17

Eytoyes

2019-05-21 17:14:46 +08:00

我怀疑你在开车，但我好像有证据

18

cyssxt

2019-05-21 17:22:11 +08:00 via iPhone

技术车

19

ctro15547

2019-05-21 17:22:32 +08:00

不用怀疑我感觉你就是在开车已经保留证据

20

ttimasdf

2019-05-21 17:22:37 +08:00

NSFW.

21

exceloo

2019-05-21 17:24:21 +08:00

艹，NSFW，能不开车吗？

22

onecode

OP

2019-05-21 17:24:43 +08:00

简单的 uwp 程序已经写好，微软不给我上架，老是被拒，难过

23

zdnyp

2019-05-21 17:25:19 +08:00

铐起来

24

zgcwkj

2019-05-21 17:31:07 +08:00

偷偷的发个小广告 https://blog.zgcwkj.top/archives/807.html

25

lepig

2019-05-21 17:34:26 +08:00

@zgcwkj 我只想求结果。不想要源码哈哈哈

26

opengps

2019-05-21 17:34:40 +08:00

妹子图？似乎是在开车。。。

27

ben1024

2019-05-21 17:34:52 +08:00

开车？

28

tikazyq

2019-05-21 17:36:07 +08:00

请关注爬虫平台 Crawlab

Github: tikazyq/crawlab

29

kY8mbXW833Lu28xn

2019-05-21 17:36:38 +08:00 via Android

感谢楼主。

30

registerrr

2019-05-21 17:37:14 +08:00

好奇这是个网站吗？网站首页是个啥？ http://adr.meizitu.net/是 403 https://www.meizitu.net/也打不开，只有 https://i2.meizitu.net/能打开，但是是个朦胧月色？ What ？？？

31

opengps

2019-05-21 17:38:00 +08:00

这玩意。。。 https://s2.ax1x.com/2019/05/21/VStiu9.png

32

ben1024

2019-05-21 17:38:26 +08:00

```
<?php
$jsons = file_get_contents('http://adr.meizitu.net/wp-json/wp/v2/posts?page=1&per_page=20');
$json_arr = json_decode($jsons, true);
foreach ($json_arr as $value) {
file_put_contents($value['id'].'.jpg', file_get_contents($value['thumb_src']));
}
```

33

baicheng10

2019-05-21 17:39:55 +08:00

1

还好吧，点开看了一个，标题看着像车，假车那种。
MARK 一下，后面看搜集一点，说不定能用上呢。

34

ben1024

2019-05-21 17:44:58 +08:00

毛遂自荐
https://github.com/MasterCloner/Cornerstone

35

zgcwkj

2019-05-21 17:49:23 +08:00

@lepig 额，就是结果，win 程序，不用 python 环境的那种

36

wq2016

2019-05-21 17:54:07 +08:00

重新学也就 20 分钟，还跑来发个帖

37

whitehack

2019-05-21 17:54:37 +08:00

开车吗？。。。。那我开个飞机吧 https://737max.tk

38

deepdark

2019-05-21 17:56:54 +08:00 via Android

1

我怀疑你在开车，而且我有证据

39

zhtttyecho

2019-05-21 17:57:56 +08:00

偷偷收藏一下，应该没人发现吧

40

sheeta

2019-05-21 18:00:40 +08:00

我怀疑你在开车，证据已经保存下来了

41

foxyier

2019-05-21 18:00:43 +08:00

刚从旁边的车下来，怎么稀里糊涂又上了另一辆

42

brust

2019-05-21 18:01:34 +08:00

http://adr.meizitu.net/wp-json/wp/v2/posts?page=1&per_page=20 图片详情 http://adr.meizitu.net/wp-json/wp/v2/i?id=152201
这接口图片都给出来有什么好爬的

43

CEBBCAT

2019-05-21 18:06:32 +08:00 via Android

V2 转型煎蛋，下一帖就是 XX 女装

44

HFX3389

2019-05-21 18:08:05 +08:00

你好骚啊！

45

R18

2019-05-21 18:08:55 +08:00 via Android

兄弟你的口味真独特

46

996icu

2019-05-21 18:10:44 +08:00

我怀疑你在开车

47

miniwade514

2019-05-21 18:13:47 +08:00

楼主搞好了能否贴个 github 地址，纯学习

48

Norie

2019-05-21 18:59:38 +08:00 via Android

实锤开车

49

yearliny

2019-05-21 19:00:49 +08:00

这么良好的格式要什么爬虫，PowerShell 就搞定了。
```powershell
$json=Invoke-WebRequest "http://adr.meizitu.net/wp-json/wp/v2/posts?page=1&per_page=20" -Method Get | ConvertFrom-Json
$wc = New-Object System.Net.WebClient
foreach ($i in $json) {
$wc.DownloadFile($i.thumb_src, $json[0].thumb_src.LastIndexOf("/") + 1)
}
```

50

TMaize

2019-05-21 19:10:00 +08:00 via Android

之前爬过，我有全站的数据😂

51

jsnjfz

2019-05-21 19:14:36 +08:00

meizitu 的爬虫在 github 上搜下应该有

52

dabaibai

2019-05-21 19:16:33 +08:00

你头像能快速写出爬虫啊..
golang 真香

53

ddzy

2019-05-21 19:17:00 +08:00

都误会楼主了, 慢点, 晕车

54

renmu123

2019-05-21 19:23:32 +08:00 via Android

我网盘还有这网站 10g 的资源

55

zoyopo

2019-05-21 19:24:24 +08:00

orz

56

YAHIKO0

2019-05-21 19:30:32 +08:00

妹子图不是早就没有了吗

57

javen73

2019-05-21 19:30:48 +08:00

？？？我怀疑你再开车，但我没有证据

58

luckyjack

2019-05-21 19:31:11 +08:00

花式开车

59

RLinux

2019-05-21 19:32:55 +08:00

这个都这么多人回复为啥我的没人理的~~~

60

baiducom

2019-05-21 19:32:57 +08:00 via Android

咳咳咳好吧ヽ( ￣д￣;)ノ

61

Constellation39

2019-05-21 19:42:12 +08:00

疑车有据

62

0x4F5DA2

2019-05-21 19:47:42 +08:00

我怀疑你在搞黄色，我好像也有证据

63

iwishing

2019-05-21 20:03:55 +08:00

@yearliny
改了一下你的
$json=Invoke-WebRequest "http://adr.meizitu.net/wp-json/wp/v2/posts?page=1&per_page=20" -Method Get -UseBasicParsing| ConvertFrom-Json
$wc = New-Object System.Net.WebClient
foreach ($i in $json) {
$output = split-path -Leaf $i.thumb_src
$wc.DownloadFile($i.thumb_src,$output)
}

64

zackwu

2019-05-21 20:08:34 +08:00

你这个是假车，我这有辆真车： https://paste.ubuntu.com/p/2nxbtRtqFX/

用法自寻（逃

65

Atukey

2019-05-21 20:11:44 +08:00

极速车

66

Shiyq

2019-05-21 20:19:20 +08:00

2

没意思（我好了）

67

claysec

2019-05-21 20:27:45 +08:00 via iPhone

空手套白狼？（滑稽）

68

zzh1224

2019-05-21 20:31:24 +08:00

你的开车技术真的一流

69

bld2018

2019-05-21 21:08:14 +08:00

不是有成品发布过吗？

70

canwex

2019-05-21 21:41:57 +08:00

import requests
import json

url = 'https://adr.meizitu.net/wp-json/wp/v2/posts?page={}&per_page={}'
per_page = 100
page = 52

print('##### spider start #####')
while True:
page += 1
json_data = requests.get(url.format(page, per_page))
data = json.loads(json_data.text)

if not isinstance(data, list):
print('##### spider end #####')
break

for item in data:
thumb_src = item['thumb_src']
title = item['title'] + '.jpg'
print('[+] downloading {} ...'.format(title))
meizi = requests.get(thumb_src)
if meizi.status_code == 200:
with open(title, 'wb') as f:
f.write(meizi.content)

71

fuchunliu

2019-05-21 21:58:17 +08:00 via Android

@keith1126 拿来就可以开，不用加油嘛😏

72

zzzzzzzzzp

2019-05-21 22:21:52 +08:00

[{"id":181372,"title":"辣妹温心怡情趣内衣 SM 诱惑丰胸美臀身材热辣销魂","img_num":46,"thumb_src":"https:\/\/i2.meizitu.net\/2019\/04\/23a25.jpg","thumb_src_min":"https:\/\/i2.meizitu.net\/thumbs\/2019\/05\/181372_23a25_236.jpg"},{"id":180743,"title":"大胸女神恩一雪白玉兔诱人呈现手捧巨乳再掀性感狂潮".....

73

wpzero

2019-05-21 22:34:04 +08:00 via iPhone

😄

74

calebx

2019-05-21 22:34:46 +08:00

早说吗！

75

tt0411

2019-05-21 22:47:56 +08:00

要啥爬虫, 一行命令的事情

curl -s http://adr.meizitu.net/wp-json/wp/v2/posts?page=1&per_page=20 | jq -r '.[] | .thumb_src' | xargs -IX curl -s -O X

76

azh7138m

2019-05-21 22:52:49 +08:00 via Android

@niknik 好人一生平安？（

77

harvies

2019-05-21 23:34:03 +08:00

import json
import os

import requests

if __name__ == '__main__':
flag = True
page = 1
while flag:
print("page:" + str(page))
list_html = requests.get("http://adr.meizitu.net/wp-json/wp/v2/posts?page=" + str(page) + "&per_page=20")
content = list_html.content
json_loads = json.loads(content)
if isinstance(json_loads, list):
print(json_loads)
for list_item in json_loads:
id_ = list_item['id']
title = list_item['title']
print(title)
detail_html = requests.get("http://adr.meizitu.net/wp-json/wp/v2/i?id=" + str(id_))
detail_json = json.loads(detail_html.content)
print(detail_json)
str_content_ = detail_json['content']
content__split = str_content_.split(',')
print('downloading ' + str(content__split))
for detail_item in content__split:
print(detail_item)
rfind = detail_item.rfind('/')
file_name = detail_item[rfind + 1:len(detail_item)]
folder_path = "./images/" + title + '/'
if not os.path.exists(folder_path):
os.makedirs(folder_path)
requests_get = requests.get(detail_item)
with open(folder_path + file_name, "wb") as f:
f.write(requests_get.content)
else:
code_ = json_loads['code']
if code_ != 'rest_post_invalid_page_number':
print(code_)
else:
print(code_ + " exit")
flag = False
page += 1