推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
dbow
V2EX  ›  Python

multiprocess.Queue 造成的性能问题

  •  
  •   dbow ·
    maliubiao · Aug 24, 2019 · 1312 views
    This topic created in 2469 days ago, the information mentioned may be changed or developed.
    一天抓取千万级别 html 网页, 需要用并行的方式实时解析网页, 但是 lxml 性能太挫, 换成 pugixml 之后也还不够速度, 同时得用 24 核心并行处理, 最后并行跑了半天内存爆了。
    找原因发现, 是 multiprocess.Queue 有 get(), put()有严重的性能问题, 出入一下, 需要 0.1s 之久, 太糟糕。 然后就是换成用 redis 出入队列在多进程之间共享数据, 问题解决。

    https://imgur.com/MlqCPuh
    No Comments Yet
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3569 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 10:32 · PVG 18:32 · LAX 03:32 · JFK 06:32
    ♥ Do have faith in what you're doing.