This topic created in 3637 days ago, the information mentioned may be changed or developed.
爬虫在爬取网站时为了防止被封 IP ,可以使用代理、伪装 user agent 、降低访问频率等方法来避免被对方识别出来。
但如果对方是需要登录的网站怎么办呢?有些网站是必须在登录之后才能显示内容,那么在登录之后再使用代理、伪装 user agent 都已经没有了意义。
如果是这样的情况,应该怎样做才能不被对方识别呢?
14 replies • 2016-06-11 23:53:53 +08:00
 |
|
1
x8 Jun 10, 2016
在要求登录的情况下,无论怎样,对方都可以统计单个 cookie 在单位时间内的访问量从而做出限制。所以,要么降低访问频率,要么获取足够多的 cookie
|
 |
|
2
qqmishi Jun 10, 2016 via Android
多注册几个号,过一段时间就切换
|
 |
|
4
omg21 Jun 10, 2016
@ lizon 是的,我也想不出更好的方法了,降低频率的话,每天的采集量根本没法完成。
|
 |
|
5
murmur Jun 10, 2016
好几千的采集。。在盗抄别人的资料么 那不得多投资一点 毕竟抄来就是免费复制了
|
 |
|
6
eoo Jun 10, 2016 via Android
看情况
|
 |
|
7
lslqtz2 Jun 10, 2016
只能选择降低频率,别无他法。 因为账号要钱,要封号分分钟爽。 或者你可以试试看爆弱口令,但希望渺茫。。
|
 |
|
8
lslqtz2 Jun 10, 2016
打 osu 打了一半,突然想到一个好点子,暂停时还 miss 了一个。。 可以把标题采集下来,不采集内容,当用户访问时实时采集并保存。
|
 |
|
9
lslqtz2 Jun 10, 2016
一年可以换成月吗?非得年》
|
 |
|
10
haozibi Jun 10, 2016 via Android
目测某论文网站,某知
|
 |
|
11
x8 Jun 11, 2016
@ omg21 转变下思路,如果确实有需要,不如联系下网站,看看能不能有偿提供你需要的东西
|
 |
|
12
dynaguy Jun 11, 2016
看到像樓主這樣厚顏無恥,然後被封 IP ,我只有 2333333333333
|
 |
|
14
badcode Jun 11, 2016
假想:你爬的站的站长也在看你发的贴? 有趣
|