V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  iannil  ›  全部回复第 37 页 / 共 43 页
回复总数  852
1 ... 29  30  31  32  33  34  35  36  37  38 ... 43  
2014-08-14 13:39:11 +08:00
回复了 kennedy32 创建的主题 问与答 58 同城的 flash 问题
同楼主,于是之后我就不上58了。
2014-08-12 02:36:44 +08:00
回复了 hjiang 创建的主题 酷工作 AVOS Cloud 又招聘了:DevOps(新增)、iOS、Android
赞态度,赞文化
2014-08-12 02:21:01 +08:00
回复了 newstar 创建的主题 程序员 自动提取微信公众号内容网站的实现
其实我想问,楼主,头像是你嘛?
2014-08-12 00:34:05 +08:00
回复了 eyworldwide 创建的主题 酷工作 阿里安全 UED:只招比我们牛逼的人
有个硕士说想去。
硕士都称渣了,我等如何活下去
2014-08-11 17:03:12 +08:00
回复了 SarahDeng 创建的主题 酷工作 成都创业团队招 CTO
@SarahDeng 各种东西都外包,你们确实需要一个cto,嗯嗯
pathon是神马?and 用Yaf为啥不用phalcon啊?
2014-08-11 14:55:34 +08:00
回复了 shyrock 创建的主题 Python web scraper 的核心逻辑,请高手指点
2014-08-11 14:52:32 +08:00
回复了 shyrock 创建的主题 Python 想用 SAE 自动登陆 CHH 刷积分,但是发现登陆的时候有验证码
6楼是正解,你先在浏览器上手动输入验证码啥的登录,然后获得登录后的cookie,cookie是保存你登录状态与个人信息的,所以你下次去签到就带着这个登录后的cookie去签到,就可以绕过登录时的验证码了。

当然,如果目标网站在服务端会定时清掉你的cookie,此方法就不ok了。此时你需要社会工程学帮助!!也就是当程序发现cookie失效时,程序自动获取新的验证码图片,通过实时通讯工具如微信发送给你自己,你手机上回复你人肉识别的验证码内容给服务器,即可继续了。

当然,如果你有钱买人工给你输入验证码就当我啥也没说!!或者你用ocr识别,尽快错误率很高,哪怕服务器会因此把你干掉你也乐此不疲,也当我啥也没说!!如果目标服务器财大气粗,你这么频繁输入错误的验证码登录也不把你干掉,也当我啥也没说!!
2014-08-11 14:38:19 +08:00
回复了 shyrock 创建的主题 Python web scraper 的核心逻辑,请高手指点
基本是对的,但一个网页的链接有n多,也就是说你会遇到一个页面开始,然后1*n*n*n这种方式展开的链接个数,同时链接会有重复的,于是如何保存已抓取的链接和如何把满足某些条件的链接筛选出来会是你需要解决的一个新问题。

好了,当你有一个链接处理机制来帮助你管理你抓取的所有链接后,你爬虫的抓取效率变得非常高效,高效到你的爬虫因此被目标网站屏蔽了,你该如何解决?改header头的东西我就不多说了,只说关键的屏蔽ip怎么解决?
你需要将你的爬虫做成分布式,由中央服务器作为任务调度中心,处理抓取的页面,将要抓取的链接分发到各个辖属机器。
辖属机器只做一件事,就是向中央服务器请求任务,并把请求来的任务执行后将结果返回给调度中心。每个辖属机器是一台几十块一年的虚拟机即可,我们要的是辖属机器的ip而已。

好了,现在你由n多个ip分散在n个机器中替你做抓取,数据统一集中在你隐藏在幕后的中央服务器里,效率非常高,一般你控制的好,目标服务器不会发现某个ip请求过于频繁,流量过高,但是事情有可能就是那么变态!目标服务器还是发现了你!把你所有的小爬虫都干掉了!怎么办?

你需要优化调度中心的东西,你的中央服务器不能只简单的把任务平均分给各个辖属机器,你需要实时的监控各个辖属机器的任务数量与执行状态,任务过高的辖属机器得让他歇歇,免得他被干掉,这事为啥不在辖属机器里做呢?因为我们用的是几十块一年的虚拟机啊!!成本啊!!你有钱买几千块一年的机器当我没说啊!!

好了,现在你的任务调度中心很智能的保证每个辖属机器的任务不会过高,如果你嫌效率还是低,再开一个虚拟机就好了。ip也有很多,访问频率和流量你也控制的很好,链接管理也控制的很好,基本上爬虫的框架就有个雏形了。

什么?你只问核心逻辑?那就这些了。
请用命令行
至今没找到满意的mac下svn图形界面客户端
2014-08-11 14:21:28 +08:00
回复了 SarahDeng 创建的主题 酷工作 成都创业团队招 CTO
在v2ex看招聘帖是个让人心情愉悦的事呢
祝楼主找到满意的cto
2014-08-10 14:21:45 +08:00
回复了 jemygraw 创建的主题 分享创造 我又来了,宣传我们的小社区,Go 友团
27寸屏幕打开,背景图没有铺满屏幕
2014-08-07 14:34:50 +08:00
回复了 Tianpu 创建的主题 分享创造 自动封锁采集器、自动评论、垃圾蜘蛛
@Tianpu tor是个好办法,但tor的问题在于连接tor的成本过高以及速度上的限制,无法稳定高速的进行抓取操作。
2014-08-07 14:30:53 +08:00
回复了 Tianpu 创建的主题 分享创造 自动封锁采集器、自动评论、垃圾蜘蛛
@dong3580 是的, 如果完全不考虑效率问题,操作速度以及操作习惯完全与人一致的爬虫是无法屏蔽的。
但是对爬虫来说,效率是必定要考虑的,因为如果爬虫速度比人还慢,就会丢失了一半的价值,另一半的价值是爬虫不知疲倦没有情绪。
2014-08-07 01:29:18 +08:00
回复了 Tianpu 创建的主题 分享创造 自动封锁采集器、自动评论、垃圾蜘蛛
@66CCFF 代理成本也不低,因为你需要雇佣技术人员针对这些代理写一套检测有效性、分配ip、联合调度等内容的程序。另外,代理也有相同的问题,就是如果要绕过防火墙,必须要由proxy,也就是代理服务器主动发起连接。
1 ... 29  30  31  32  33  34  35  36  37  38 ... 43  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5448 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 40ms · UTC 09:14 · PVG 17:14 · LAX 01:14 · JFK 04:14
Developed with CodeLauncher
♥ Do have faith in what you're doing.