首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
onecode
V2EX  ›  Python

技术渣,谁给写个爬虫,感谢

  •  
  •   onecode · 247 天前 · 13427 次点击
    这是一个创建于 247 天前的主题,其中的信息可能已经有所发展或是发生改变。
    137 回复  |  直到 2019-06-19 17:22:49 +08:00
    1  2  
    onecode
        101
    onecode   246 天前
    @usingnamespace 博客园啊
    RyanOne
        102
    RyanOne   246 天前
    你这直接是 json 了 ,PowerShell 的 Invoke-WebRequest 一把梭
    cway
        103
    cway   246 天前
    你的意思是把所有图片都爬下来,想想都很刺激呢
    doctortao
        104
    doctortao   246 天前
    最近流行以学习爬虫为名的开车?破站药丸啊。
    jwh199588
        105
    jwh199588   246 天前
    你是想干什么,直接通过链接将图片下载到本地吗
    loryyang
        106
    loryyang   246 天前
    我很早写过一个爬桌面背景图片的爬虫,说实话,如果有反爬,就会难很多。至于谁给你写一个?写了也不给你
    PS:有些*黄 图*网站,会很卡,其实不是他网站问题,而是好多人在爬他
    dongya
        107
    dongya   246 天前
    您尝试访问的网站类型属于[访问网站 /成人内容]已经被上网策略[ACL]拒绝访问。如果有疑问,请联系网络管理员。
    pecopeco
        108
    pecopeco   246 天前
    口味太重。。。爬不动。。
    killerv
        109
    killerv   246 天前
    本人穷,谁给点钱
    killerv
        110
    killerv   246 天前
    楼主好像在开车
    hhhfffhhh
        111
    hhhfffhhh   246 天前
    爬了
    都不是高清的 还带水印 没啥意思

    有高清的不带水印的吗?手动狗头
    xiaobai9927
        112
    xiaobai9927   246 天前
    这都是现成的接口了,还不会爬啊。。。
    我怀疑楼主在开车。。。
    cway
        113
    cway   246 天前
    这其实不算爬虫了,提交 http 请求获得 json 返回值,然后根据一定规则在电脑里建以 title 为名的文件夹,把图片都下载进去
    DeWhite
        114
    DeWhite   246 天前
    @whitehack 这架飞机真实
    DeWhite
        115
    DeWhite   246 天前
    @A1321A 厉害了,开飞机。
    我怀疑本贴很多人都开飞机,证据确凿了。
    dorothyREN
        116
    dorothyREN   246 天前
    我怀疑你在开车,而且我好像也有证据
    c4f36e5766583218
        117
    c4f36e5766583218   246 天前
    c4f36e5766583218
        118
    c4f36e5766583218   246 天前
    [Imgur]( )
    dunn
        119
    dunn   246 天前
    一点都不助人为乐

    爬虫
    xavier007
        120
    xavier007   246 天前
    关键时刻还得看拍黄片(PHP)
    ```php
    $i =1;
    while (true) {
    $content = file_get_contents("http://adr.meizitu.net/wp-json/wp/v2/posts?page={$i}&per_page=40");
    $array = json_decode($content, true);
    var_dump($array);
    if ($array && count($array) > 0) {
    foreach ($array as $one) {
    $thumb_src = file_get_contents($one['thumb_src']);
    file_put_contents('./img/' . $one['title'] . '.jpg', $thumb_src);
    }
    } else {
    break;
    }
    usleep(1000);
    $i++;
    }
    ```
    510908220
        121
    510908220   246 天前
    写个个简单的。
    Rizio
        122
    Rizio   246 天前
    直接看 pronhub 不好?再不然 C6
    nikolausliu
        123
    nikolausliu   246 天前
    @registerrr 我也好奇这个网站首页是什么
    Tuuure
        124
    Tuuure   246 天前 via Android
    @onecode #22 那就做个爬虫工具,爬取网页上所有的图片链接并显示。
    CatTom
        125
    CatTom   246 天前
    貌似所有写爬虫的人第一练手都是妹子图(手动狗头)
    jaylee77
        126
    jaylee77   246 天前
    这个贴我已经收藏了
    Kazuhira
        127
    Kazuhira   246 天前 via Android
    DIY...
    sethverlo
        128
    sethverlo   246 天前
    能不能在标题里加个 NSFW ……
    tikazyq
        129
    tikazyq   246 天前
    写好的爬虫可以用爬虫平台 Crawlab 来管理,试一下呗,https://github.com/tikazyq/crawlab
    fank99
        130
    fank99   245 天前
    我怀疑你在开车。但我又没有证据
    rffan
        131
    rffan   245 天前
    哇,我都不敢点开你的 JSON 里面的值。这车开的不错,我收藏一下。
    evlos
        132
    evlos   245 天前 via iPhone
    Dick-driven Development 简称 DDD
    overkazaf
        133
    overkazaf   245 天前
    import os
    import time
    import requests
    import sys

    def fetch(total_page, per_page):
    url_prefix = "http://adr.meizitu.net/wp-json/wp/v2/posts?"
    image_path = "./images"

    if not os.path.exists(image_path):
    os.mkdir(image_path)

    os.chdir(image_path)

    for i in range(1, int(total_page)):
    url = url_prefix + "page=" + str(i) + "&per_page=" + str(per_page)
    r = requests.get(url)
    d = r.json()
    for item in d:
    img_src = item['thumb_src']
    cmd = "wget -c " + img_src
    os.system(cmd)
    time.sleep(0.1)
    print 'Images have been succefully downloaded to ./images folder'

    if __name__ == "__main__":
    if len(sys.argv) == 3:
    [f, total_page, per_page] = sys.argv
    fetch(total_page, per_page)
    else:
    fetch(18, 100)



    我是雷锋,拿走不谢
    overkazaf
        134
    overkazaf   245 天前
    格式有问题,codes 改到这里了: https://shimo.im/docs/uuUDfLT1yTgWtNFm/
    hhzc
        135
    hhzc   218 天前
    @zhtttyecho 110 的无门槛今天还能领吗?
    zhtttyecho
        136
    zhtttyecho   218 天前
    @hhzc 活动截止到 6 月 18 号蛤,话说,你为什么在这个帖子艾特我。。。
    hhzc
        137
    hhzc   218 天前
    @zhtttyecho 那帖回复提示权限不够,所以在这里试试。
    1  2  
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   913 人在线   最高记录 5168   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 26ms · UTC 18:16 · PVG 02:16 · LAX 10:16 · JFK 13:16
    ♥ Do have faith in what you're doing.