首页   注册   登录
endoffight

endoffight

Always explorer.
🏢  PHPer & Pythoner
V2EX 第 69144 号会员,加入于 2014-07-28 09:30:37 +08:00
今日活跃度排名 1061
endoffight 最近回复了
1 小时 5 分钟前
回复了 KasuganoSoras 创建的主题 分享创造 SakuraPanel - 开源、基于 Frp 的内网穿透管理面板
感谢楼主的付出!
k20pro 大魔王
28 天前
回复了 Guidoo 创建的主题 问与答 这两天种草了群晖的 NAS,求拔草!
不要买 arm 的就行
36 天前
回复了 koolob 创建的主题 北京 起诉自如后续,终于拿到判决书了
我是在各种渠道投诉自如,最后免责退租,赔了水电费和搬家费,也是各种折腾
@xjoker

这个问题其实之前考虑过,因为池子可能不是给某一个爬虫使用,所以当时考虑到创建多个池子,然后针对每一个池配置一个检测代理是否可用的规则,所以我在开发的时候预留了 master 和 worker 模式,master 负责爬,每个 work 会维护自己的池子,m 会把采集到的代理分发到所有 w 中。

但是检测一个代理 IP 是否可用,仅仅靠 http code==200 应该是不够的,遇到 API 类型的 url,可能要解析一下,然后判断某个字段是否正确;或者 html 中出现了某个关键字;还可能有更复杂的判断模式,当时想很多东西,撸代码的时候觉得还是先把基本功能实现了再说。

综上,目前这个项目还是属于初级阶段,代理池时作为一个中立的池子。而你说的这个 feature 等有了 M/W 模式后就很好实现了。现阶段想满足你的需求修改 proxy 的 TestProxy 方法为你自己的逻辑即可。
@xjoker 目前用的是 ip.cip.cc ,这个 url 直接返回客户端 ip,方便比较

是有需求吗?
49 天前
回复了 gamesover 创建的主题 Docker 有没有轻量级的 docker 部署方案
rancher
关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2312 人在线   最高记录 5168   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.3 · 25ms · UTC 01:34 · PVG 09:34 · LAX 17:34 · JFK 20:34
♥ Do have faith in what you're doing.