V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
JianBingXia
V2EX  ›  Python

新手刚学 gevent,请帮忙看看我写的代码

  •  
  •   JianBingXia · 2016-09-22 15:07:47 +08:00 · 4370 次点击
    这是一个创建于 2991 天前的主题,其中的信息可能已经有所发展或是发生改变。

    麻烦帮我看看下面的代码,我这里在最后会报错,不知什么原因.

    gevent.hub.LoopExit: ('This operation would block forever', <Hub at 0x2f62af8 select default pending=0 ref=0>)

    还有我这段代码有什么问题吗?有哪些地方可以优化,求赐教.

    我是新手,代码可能比较 low,求"教做人".

    谢谢. (还请jiandan同学放过....我就是学习下)

    # -*- coding:utf-8 -*-
    
    import gevent
    import gevent.queue
    import requests
    from lxml import etree
    
    url_queue = gevent.queue.JoinableQueue(100)
    headers = {
        'User-Agent': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
    }
    
    
    def spider():
        while True:
            url = url_queue.get()
            if url is None:
                url_queue.task_done()
                break
    
            try:
                html = requests.get(url, headers=headers, timeout=1).content
                selector = etree.HTML(html)
                title = selector.xpath('//a[@href="%s"]/text()' % url)[0]
                print(title)
            except Exception as e:
                print(e)
    
    
    if __name__ == '__main__':
        urls = [
            'http://jandan.net/2016/09/22/migrants-choice.html',
            'http://jandan.net/2016/09/22/farting-really-good.html',
            'http://jandan.net/2016/09/22/special-cleaner.html',
            'http://jandan.net/2016/09/22/hand-mobile-phone.html',
            'http://jandan.net/2016/09/22/beer-you-order.html',
            'http://jandan.net/2016/09/22/pigeons-can-read.html',
            'http://jandan.net/2016/09/22/snake-inter-species.html',
            'http://jandan.net/2016/09/21/north-koreas-internet-2.html',
            'http://jandan.net/2016/09/21/mona-lisa-overrated.html',
            'http://jandan.net/2016/09/21/antikythera-ancient-skeleton.html',
            'http://jandan.net/2016/09/21/mentality-fish.html',
            'http://jandan.net/2016/09/21/things-smuggled-space.html',
            'http://jandan.net/2016/09/21/water-bear.html',
            'http://jandan.net/2016/09/21/oldest-fishing-hooks.html',
            'http://jandan.net/2016/09/21/b-21-raider.html',
            'http://jandan.net/2016/09/21/paper-cuts-hurt.html',
            'http://jandan.net/2016/09/21/cat-ecological-disaster.html',
            'http://jandan.net/2016/09/21/pluto-owns-heart.html',
            'http://jandan.net/2016/09/21/a-teenage-girl.html',
            'http://jandan.net/2016/09/21/light-drive-men.html',
            'http://jandan.net/2016/09/21/ai-analyses-mammograms.html',
            'http://jandan.net/2016/09/21/burnt-cheese.html',
            'http://jandan.net/2016/09/21/black-hole-spaghetti.html',
            'http://jandan.net/2016/09/21/womens-pubic-hair.html'
        ]
        for url in urls:
            url_queue.put(url)
        threads = []
        for i in range(1, 3):
            threads.append(gevent.spawn(spider))
        gevent.joinall(threads)
    
    
    第 1 条附言  ·  2016-09-22 15:48:04 +08:00

    上面判断queue为空应该改成

    if url_queue.empty():
                url_queue.task_done()
                break
    url = url_queue.get()
    

    这样就不报错了

    但是我还是不知道这样使用协程gevent是否正确?

    怎么感觉对IO阻塞没有起到任何作用呢?

    12 条回复    2016-09-23 09:48:33 +08:00
    Sylv
        1
    Sylv  
       2016-09-22 15:35:03 +08:00 via iPhone
    哈,邀请煎蛋网首席技术官 colt 前来围观 @kungfuchicken
    JianBingXia
        2
    JianBingXia  
    OP
       2016-09-22 15:42:42 +08:00
    @Sylv 666
    sylecn
        3
    sylecn  
       2016-09-22 15:46:17 +08:00
    看到好几个问题:

    1. 为什么要自己写 Queue ,不用 gevent.pool?
    2. 为什么用了 reqeusts 但是没有做 monkey patching ?这样引入 gevent 的好处全没了。
    3. spider() 的 while 循环,队列和 gevent thread 的使用,这里是一团糟。

    如果只是为了功能,建议全部用 gevent.pool 重写。如果想自己学着用 blocking queue ,需要先继续学习,然后重写。可以多看看别人的代码。学习内容不需要局限在 python 和 gevent. 多线程的东西都是相通的。
    JianBingXia
        4
    JianBingXia  
    OP
       2016-09-22 15:49:12 +08:00
    @sylecn 十分感谢,我这就去"补课"
    qwer1234asdf
        5
    qwer1234asdf  
       2016-09-22 17:09:52 +08:00 via iPhone
    @sylecn 如楼主代码所示,即使没打猴子布丁也不能说没有了一点 gevent 的作用了吧,打上了,只是将 python 里的很多调用改成了携程方式而已……不知道我的理解对不对
    qwer1234asdf
        6
    qwer1234asdf  
       2016-09-22 17:15:50 +08:00 via iPhone
    @sylecn 另外,文档也声明猴子布丁是 evil 的,我目前也在一个爬虫中用到了 gevent ,遇到了两个问题:其一,我的爬虫运行时会有插入数据库的操作,打上布丁后,一直报数据库连接池益处的错误,这个倒是通过增大连接池解决了。另一个问题是,爬虫跑着的时候,会莫名其妙的报段错误,没打布丁前,从未出现过这个问题……
    qwer1234asdf
        7
    qwer1234asdf  
       2016-09-22 17:25:31 +08:00 via iPhone
    @sylecn 最后,我以为,楼主这种方式,携程的粒度比较大……我也是类似的方式,不过没有用到 queue 之类的……爬到了数据直接入库和存盘
    kungfuchicken
        8
    kungfuchicken  
       2016-09-22 18:06:55 +08:00   ❤️ 2
    已经关注,反爬虫系统规则跟着楼主更新....
    sylecn
        9
    sylecn  
       2016-09-22 18:20:38 +08:00
    >> 即使没打猴子布丁也不能说没有了一点 gevent 的作用了吧,打上了,只是将 python 里的很多调用改成了携程方式而已……不知道我的理解对不对

    @qwer1234asdf 这个程序主要的阻塞就是在 requests.get(),这里没有做 monkey patching 等同于整个程序是同步的。你可以把正确实现的版本,使用 monkey patching 和不使用,执行时间做一个对比。取决于你的网络状况和使用的 gevent 线程数,使用 monkey patching 的版本应该快好几倍。

    在 gevent, tornado 这种基于 coroutine 的异步机制下,只要一个严重耗时的地方阻塞,其它地方不阻塞就失去意义了,因为所有代码都是在一个 OS 级别的 thread 来执行的。

    >> 文档也声明猴子布丁是 evil 的 以及你的数据库问题

    gevent 不是万能的。测试其它软件库和 gevent 的兼容性是软件作者的责任。如果同时使用 gevent 和数据库,就要用支持 gevent 的数据库连接资源池。这些在 gevent 文档或者示范代码里面有。

    >> 最后,我以为,楼主这种方式,携程的粒度比较大

    这个我就不回复了,如果要讨论颗粒度,你先把正确代码摆出来再讨论比较好。
    lennyh
        10
    lennyh  
       2016-09-22 18:44:49 +08:00
    为什么要用 gevent ? Python 3.5 的 async/awati 不是很好用吗……
    qwer1234asdf
        11
    qwer1234asdf  
       2016-09-22 20:54:45 +08:00 via iPhone
    @sylecn mark 一下
    JianBingXia
        12
    JianBingXia  
    OP
       2016-09-23 09:48:33 +08:00
    @kungfuchicken :-) 看我的眼神= =
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1005 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 19:40 · PVG 03:40 · LAX 11:40 · JFK 14:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.