V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
Lateautumn
V2EX  ›  Python

深夜兴奋,想要开源个代理池,大家能否帮我把把关,目前还未实现

  •  
  •   Lateautumn · 2018-10-13 01:57:38 +08:00 · 2712 次点击
    这是一个创建于 2231 天前的主题,其中的信息可能已经有所发展或是发生改变。

    具体地址在这里,由于写的有点匆忙,就请大家见谅啦,https://github.com/lateautunm/aioip

    7 条回复    2018-10-15 11:45:58 +08:00
    munn
        1
    munn  
       2018-10-13 10:33:59 +08:00 via iPhone
    厉害了 手动支持
    Lateautumn
        2
    Lateautumn  
    OP
       2018-10-13 13:18:43 +08:00
    @munn 没有没有,辣鸡一只
    SpiderXiantang
        3
    SpiderXiantang  
       2018-10-13 14:20:57 +08:00
    免费代理池最大的问题是可用率
    dorothyREN
        4
    dorothyREN  
       2018-10-13 15:19:04 +08:00
    有个问题就是怎么验证有效性,或者多长时间验证一次有效性。
    Lateautumn
        5
    Lateautumn  
    OP
       2018-10-14 01:21:36 +08:00
    @SpiderXiantang 对,就是因为网络上爬来的 IP 数据格式比较乱,可用性比较低,才更需要实时,快速准确的识别有效的 IP,所以对于这个项目来说,最重要的也就是关于大数据方面的处理,这个可能以后需要更加精准的优化,目前来说只是希望用 kafka 做个实时流处理。
    Lateautumn
        6
    Lateautumn  
    OP
       2018-10-14 01:35:29 +08:00
    @dorothyREN 这个是两个问题,( 1 ) Q:怎么验证有效性; A:若是抓取的 IP 有有效时间根据有效时间来判断,如果没有,则是根据比较大众的方法,采用将 IP 作为代理去访问网站看是不是连接的上( 2 )多长时间验证一次有效性:这个时间间隔主要也是考虑到有些网站的 IP 会显示最后验证时间,所以根据这个来判断, 我会将这个时间设置为 1 分钟。
    有个很严重的问题就是 IP 数量非常大的时候,以每分钟去验证 IP 会有难度,这个我觉得以后也是一个有优化空间的点。
    asszxx123123
        7
    asszxx123123  
       2018-10-15 11:45:58 +08:00
    顶楼主一个。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1190 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 18:31 · PVG 02:31 · LAX 10:31 · JFK 13:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.