1
niknik 2019-05-21 16:40:54 +08:00
怎么说
|
2
jtwor 2019-05-21 16:42:14 +08:00
https://www.cnblogs.com/fnng/p/3576154.html 看这个 我记得虫师还有个 Selenium 教程
|
3
tabris17 2019-05-21 16:43:11 +08:00 45
如果谢谢有用的话,还要印钞厂干嘛
|
4
alw 2019-05-21 16:45:39 +08:00
本人懒,谁给钱让我赖活着,感谢。
(要爬什么不说,给什么回报不说,就只想别人帮忙,还得去问你:请问你需要解决什么问题?) |
5
onecode OP 没人写,我自己写了啊
|
6
wqzjk393 2019-05-21 16:49:37 +08:00
贴个 csdn 的。。我记得之前学异步协程时候拿来测试过,直接复制下来就能跑。。。( https://blog.csdn.net/ns2250225/article/details/78448955 )
|
7
Abbeyok 2019-05-21 16:49:46 +08:00 via Android
不报个价,谁给你写
|
8
AFuture 2019-05-21 16:49:51 +08:00 via iPhone
看到 5 楼的回复....楼主你倒是自己写啊
|
9
aaa5838769 2019-05-21 16:50:11 +08:00 1
自己写吧,用不到太多的技术难点吧。
|
11
vinew 2019-05-21 16:59:32 +08:00 via iPhone
响应数据看着像 json,可以考虑用 shell 爬,然后用 jq 命令处理 json
|
12
Immortal 2019-05-21 17:00:54 +08:00 30
看到 5l 有点想笑
"你们不赶紧抢着写,要被我自己写了!" |
13
cuebyte 2019-05-21 17:01:09 +08:00
我來幫你寫
|
14
onecode OP 为啥你们就不访问 url 看一下呢,伤心
|
15
gjf 2019-05-21 17:04:42 +08:00 via Android
这也简单了吧?
|
16
lithiumii 2019-05-21 17:05:44 +08:00
最近流行以爬虫的名义开车?
|
17
Eytoyes 2019-05-21 17:14:46 +08:00
我怀疑你在开车,但我好像有证据
|
18
cyssxt 2019-05-21 17:22:11 +08:00 via iPhone
技术车
|
19
ctro15547 2019-05-21 17:22:32 +08:00
不用怀疑 我感觉你就是在开车 已经保留证据
|
20
ttimasdf 2019-05-21 17:22:37 +08:00
NSFW.
|
21
exceloo 2019-05-21 17:24:21 +08:00
艹,NSFW,能不开车吗?
|
22
onecode OP 简单的 uwp 程序已经写好,微软不给我上架,老是被拒,难过
|
23
zdnyp 2019-05-21 17:25:19 +08:00
铐起来
|
24
zgcwkj 2019-05-21 17:31:07 +08:00
|
26
opengps 2019-05-21 17:34:40 +08:00
妹子图?似乎是在开车。。。
|
27
ben1024 2019-05-21 17:34:52 +08:00
开车?
|
28
tikazyq 2019-05-21 17:36:07 +08:00
请关注爬虫平台 Crawlab
Github: tikazyq/crawlab |
29
1024MB 2019-05-21 17:36:38 +08:00 via Android
感谢楼主。
|
30
registerrr 2019-05-21 17:37:14 +08:00
好奇这是个网站吗?网站首页是个啥? http://adr.meizitu.net/是 403 https://www.meizitu.net/也打不开,只有 https://i2.meizitu.net/能打开,但是是个朦胧月色? What ???
|
31
opengps 2019-05-21 17:38:00 +08:00
|
32
ben1024 2019-05-21 17:38:26 +08:00
```
<?php $jsons = file_get_contents('http://adr.meizitu.net/wp-json/wp/v2/posts?page=1&per_page=20'); $json_arr = json_decode($jsons, true); foreach ($json_arr as $value) { file_put_contents($value['id'].'.jpg', file_get_contents($value['thumb_src'])); } ``` |
33
baicheng10 2019-05-21 17:39:55 +08:00 1
还好吧,点开看了一个,标题看着像车,假车那种。
MARK 一下,后面看搜集一点,说不定能用上呢。 |
34
ben1024 2019-05-21 17:44:58 +08:00
|
36
wq2016 2019-05-21 17:54:07 +08:00
重新学也就 20 分钟,还跑来发个帖
|
37
whitehack 2019-05-21 17:54:37 +08:00
开车吗?。。。。那我开个飞机吧 https://737max.tk
|
38
deepdark 2019-05-21 17:56:54 +08:00 via Android 1
我怀疑你在开车,而且我有证据
|
39
zhtttyecho 2019-05-21 17:57:56 +08:00
偷偷收藏一下,应该没人发现吧
|
40
sheeta 2019-05-21 18:00:40 +08:00
我怀疑你在开车,证据已经保存下来了
|
41
foxyier 2019-05-21 18:00:43 +08:00
刚从旁边的车下来, 怎么稀里糊涂又上了另一辆
|
42
brust 2019-05-21 18:01:34 +08:00
|
43
CEBBCAT 2019-05-21 18:06:32 +08:00 via Android
V2 转型煎蛋,下一帖就是 XX 女装
|
44
HFX3389 2019-05-21 18:08:05 +08:00
你好骚啊!
|
45
R18 2019-05-21 18:08:55 +08:00 via Android
兄弟你的口味真独特
|
46
996icu 2019-05-21 18:10:44 +08:00
我怀疑你在开车
|
47
miniwade514 2019-05-21 18:13:47 +08:00
楼主搞好了能否贴个 github 地址,纯学习
|
48
Norie 2019-05-21 18:59:38 +08:00 via Android
实锤开车
|
49
yearliny 2019-05-21 19:00:49 +08:00
这么良好的格式要什么爬虫,PowerShell 就搞定了。
```powershell $json=Invoke-WebRequest "http://adr.meizitu.net/wp-json/wp/v2/posts?page=1&per_page=20" -Method Get | ConvertFrom-Json $wc = New-Object System.Net.WebClient foreach ($i in $json) { $wc.DownloadFile($i.thumb_src, $json[0].thumb_src.LastIndexOf("/") + 1) } ``` |
50
TMaize 2019-05-21 19:10:00 +08:00 via Android
之前爬过,我有全站的数据😂
|
51
jsnjfz 2019-05-21 19:14:36 +08:00
meizitu 的爬虫在 github 上搜下应该有
|
52
dabaibai 2019-05-21 19:16:33 +08:00
你头像 能快速写出爬虫啊..
golang 真香 |
53
ddzy 2019-05-21 19:17:00 +08:00
都误会楼主了, 慢点, 晕车
|
54
renmu123 2019-05-21 19:23:32 +08:00 via Android
我网盘还有这网站 10g 的资源
|
55
a55455 2019-05-21 19:24:24 +08:00
orz
|
56
YAHIKO0 2019-05-21 19:30:32 +08:00
妹子图不是早就没有了吗
|
57
javen73 2019-05-21 19:30:48 +08:00
???我怀疑你再开车,但我没有证据
|
58
luckyjack 2019-05-21 19:31:11 +08:00
花式开车
|
59
RLinux 2019-05-21 19:32:55 +08:00
这个都这么多人回复 为啥我的没人理的~~~
|
60
baiducom 2019-05-21 19:32:57 +08:00 via Android
咳咳咳 好吧ヽ(  ̄д ̄;)ノ
|
61
Constellation39 2019-05-21 19:42:12 +08:00
疑车有据
|
62
0x4F5DA2 2019-05-21 19:47:42 +08:00
我怀疑你在搞黄色,我好像也有证据
|
63
iwishing 2019-05-21 20:03:55 +08:00
@yearliny
改了一下你的 $json=Invoke-WebRequest "http://adr.meizitu.net/wp-json/wp/v2/posts?page=1&per_page=20" -Method Get -UseBasicParsing| ConvertFrom-Json $wc = New-Object System.Net.WebClient foreach ($i in $json) { $output = split-path -Leaf $i.thumb_src $wc.DownloadFile($i.thumb_src,$output) } |
64
keith1126 2019-05-21 20:08:34 +08:00
|
65
Atukey 2019-05-21 20:11:44 +08:00
极速车
|
66
Shiyq 2019-05-21 20:19:20 +08:00 2
没意思(我好了)
|
67
claysec 2019-05-21 20:27:45 +08:00 via iPhone
空手套白狼?(滑稽)
|
68
zzh1224 2019-05-21 20:31:24 +08:00
你的开车技术真的一流
|
69
bld2018 2019-05-21 21:08:14 +08:00
不是有成品发布过吗?
|
70
canwex 2019-05-21 21:41:57 +08:00
import requests
import json url = 'https://adr.meizitu.net/wp-json/wp/v2/posts?page={}&per_page={}' per_page = 100 page = 52 print('##### spider start #####') while True: page += 1 json_data = requests.get(url.format(page, per_page)) data = json.loads(json_data.text) if not isinstance(data, list): print('##### spider end #####') break for item in data: thumb_src = item['thumb_src'] title = item['title'] + '.jpg' print('[+] downloading {} ...'.format(title)) meizi = requests.get(thumb_src) if meizi.status_code == 200: with open(title, 'wb') as f: f.write(meizi.content) |
72
zzzzzzzzzp 2019-05-21 22:21:52 +08:00
[{"id":181372,"title":"辣妹温心怡情趣内衣 SM 诱惑 丰胸美臀身材热辣销魂","img_num":46,"thumb_src":"https:\/\/i2.meizitu.net\/2019\/04\/23a25.jpg","thumb_src_min":"https:\/\/i2.meizitu.net\/thumbs\/2019\/05\/181372_23a25_236.jpg"},{"id":180743,"title":"大胸女神恩一雪白玉兔诱人呈现 手捧巨乳再掀性感狂潮".....
|
73
wpzero 2019-05-21 22:34:04 +08:00 via iPhone
😄
|
74
calebx 2019-05-21 22:34:46 +08:00
早说吗!
|
75
tt0411 2019-05-21 22:47:56 +08:00
要啥爬虫, 一行命令的事情
curl -s http://adr.meizitu.net/wp-json/wp/v2/posts?page=1&per_page=20 | jq -r '.[] | .thumb_src' | xargs -IX curl -s -O X |
77
harvies 2019-05-21 23:34:03 +08:00
import json
import os import requests if __name__ == '__main__': flag = True page = 1 while flag: print("page:" + str(page)) list_html = requests.get("http://adr.meizitu.net/wp-json/wp/v2/posts?page=" + str(page) + "&per_page=20") content = list_html.content json_loads = json.loads(content) if isinstance(json_loads, list): print(json_loads) for list_item in json_loads: id_ = list_item['id'] title = list_item['title'] print(title) detail_html = requests.get("http://adr.meizitu.net/wp-json/wp/v2/i?id=" + str(id_)) detail_json = json.loads(detail_html.content) print(detail_json) str_content_ = detail_json['content'] content__split = str_content_.split(',') print('downloading ' + str(content__split)) for detail_item in content__split: print(detail_item) rfind = detail_item.rfind('/') file_name = detail_item[rfind + 1:len(detail_item)] folder_path = "./images/" + title + '/' if not os.path.exists(folder_path): os.makedirs(folder_path) requests_get = requests.get(detail_item) with open(folder_path + file_name, "wb") as f: f.write(requests_get.content) else: code_ = json_loads['code'] if code_ != 'rest_post_invalid_page_number': print(code_) else: print(code_ + " exit") flag = False page += 1 |
79
xiaobai987 2019-05-21 23:40:01 +08:00
图片地址都好爬 关键是 怎么样把地址全部快速爬下来 网站反爬很坑爹
|
80
A1321A 2019-05-22 00:00:25 +08:00
车个屁,你们这也配叫车?笑出前列腺液....https://github.com/94se/94se---/wiki
|
81
linvaux 2019-05-22 00:23:08 +08:00 via Android
果然特么十个爬虫九个都是妹子图
|
82
qinghon 2019-05-22 00:28:41 +08:00 via Android
#80
is or contains sexually obscene content 举报了 |
83
ningfeng 2019-05-22 00:31:33 +08:00 via Android
确实不能算车,meizitu 连点都不漏,婴儿车吗?
|
84
jsnjfz 2019-05-22 00:39:58 +08:00
|
86
lonelygo 2019-05-22 01:26:05 +08:00
从疑车无据到真车,你们城里人真会玩。
|
87
EscYezi 2019-05-22 01:28:22 +08:00 via iPhone
meizitu 这个网站我爬过🌚不过是直接解析网页里的图片链接,似乎没有做任何反爬的措施🌚
|
88
BBCCBB 2019-05-22 08:14:45 +08:00
我怀疑你在开车,但我又没有证据..
再者说了, 你怎么穿着品如的衣服??? |
89
Pi7bo1 2019-05-22 08:40:03 +08:00
诸君各显神通啊
|
90
tony2lord 2019-05-22 08:40:09 +08:00
我怀疑你在开车,但是。。。我好了
|
91
usingnamespace 2019-05-22 08:43:41 +08:00 via iPhone
@onecode 有什么访问的 爬虫入门爬的网站
|
92
codebear01 2019-05-22 08:43:54 +08:00
看到 meizitu 我就知道一定不简单
|
93
TimFire 2019-05-22 08:48:40 +08:00
不是怀疑在开车,是肯定在开车,特么我点开后直接被公司的上网行为管控给屏蔽了,我要举报楼主
坏笑:) |
95
Variazioni 2019-05-22 09:02:06 +08:00
我怀疑你在开车。。而且我有证据。。\u8fa3\u59b9\u6e29\u5fc3\u6021\u60c5\u8da3\u5185\u8863SM\u8bf1\u60d1\u4e30\u80f8\u7f8e\u81c0\u8eab\u6750\u70ed\u8fa3\u9500\u9b42
|
96
likaka 2019-05-22 09:16:08 +08:00
放我下车
|
97
wildcat007 2019-05-22 09:41:49 +08:00
本来以为是··
结果居然是·· 我怀疑你在开车,而且楼上很多人都有证据了!!! |
98
dfjslkjdf 2019-05-22 10:21:36 +08:00
lz 好人,lz 一生平安?
|
99
aaronhua 2019-05-22 10:26:13 +08:00
开车。。。倒不如直接点开看呢。
|
100
thisisusername 2019-05-22 10:38:19 +08:00
|