首页   注册   登录
 yumenoks 最近的时间轴更新

yumenoks

V2EX 第 310203 号会员,加入于 2018-04-20 14:38:10 +08:00
一个爬虫的过滤问题
Python  •  yumenoks  •  93 天前  •  最后回复来自 yumenoks
6
如何限制 Linux 本机只能访问国内的 IP?
Linux  •  yumenoks  •  95 天前  •  最后回复来自 yumenoks
21
yumenoks 最近回复了
93 天前
回复了 yumenoks 创建的主题 Python 一个爬虫的过滤问题
@ClericPy IP 倒不是瓶颈,不是针对单站爬行的,每个站只会访问 1-2 次而已
上服务器吧,一个月 300 左右的,
然后把数据库分离出来,丢到阿里云啥的,
服务器可以弄 2 台,或者 1 台多 IP,然后开 1 台 linux 跑 web,一台 window 跑关关采集.
看你自己的预算了.
94 天前
回复了 yumenoks 创建的主题 Python 一个爬虫的过滤问题
@alanv2 开始是直接获取整个页面的链接,然后进行过滤,对 URL 的长度,后缀进行了过滤,
如果设置成 域名带有 WWW 的才保存的话,数量就很少.如果不这样设置的话就会跑到蜘蛛池里面去.所以有点尴尬.
94 天前
回复了 yumenoks 创建的主题 Python 一个爬虫的过滤问题
@cwjokaka 只爬去一个 url 的主页的链接,
baiduwp.com 了解下?
95 天前
回复了 yumenoks 创建的主题 Linux 如何限制 Linux 本机只能访问国内的 IP?
@greenskinmonster ipset 也可以用这个命令么?
iptables -A OUTPUT -m geoip ! --destination-country CN -j DROP
97 天前
回复了 ladypxy 创建的主题 Python Python 中 if..else 的优化。。。
if 'keyword' in list_a[0]:
if list_a[1] == A:
=============
这里可不可以这个 if 'keyword' in list_a[0] and list_a[1] == A:
97 天前
回复了 yumenoks 创建的主题 Linux 如何限制 Linux 本机只能访问国内的 IP?
@AlynxZhou 不太成,防火墙规则没那么广泛哈哈,还是自己定义的好
只有我是用 aiohttp 撸简易的分布式爬虫吗?..
关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2312 人在线   最高记录 5043   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.3 · 13ms · UTC 14:30 · PVG 22:30 · LAX 07:30 · JFK 10:30
♥ Do have faith in what you're doing.