一天抓取千万级别 html 网页, 需要用并行的方式实时解析网页, 但是 lxml 性能太挫, 换成 pugixml 之后也还不够速度, 同时得用 24 核心并行处理, 最后并行跑了半天内存爆了。
找原因发现, 是 multiprocess.Queue 有 get(), put()有严重的性能问题, 出入一下, 需要 0.1s 之久, 太糟糕。 然后就是换成用 redis 出入队列在多进程之间共享数据, 问题解决。
https://imgur.com/MlqCPuh
找原因发现, 是 multiprocess.Queue 有 get(), put()有严重的性能问题, 出入一下, 需要 0.1s 之久, 太糟糕。 然后就是换成用 redis 出入队列在多进程之间共享数据, 问题解决。
https://imgur.com/MlqCPuh