首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
V2EX
›
程序员
请教range生成随机数枚举链接的效率问题?
kenneth
·
2012-12-09 16:59:31 +08:00
· 2314 次点击
这是一个创建于 4374 天前的主题,其中的信息可能已经有所发展或是发生改变。
我想要枚举一个网站的链接。比如百度贴吧
http://tieba.baidu.com/p/1
.
..
...
http://tieba.baidu.com/p/2019334701
http://tieba.baidu.com/p/2019334702
http://tieba.baidu.com/p/2019334703
用range枚举检查链接是否存在,如何能够高效,快速的检查?
range(0,2019334703,1)
这样枚举检查,我觉得效率不高,有没有办法高效的检查方法,比如弄到内存中。
求高手指点赐教。
枚举
range
链接
2 条回复
•
1970-01-01 08:00:00 +08:00
1
best1a
2012-12-09 17:09:53 +08:00
当时爬A站的投稿,也是类似的
http://www.acfun.tv/v/ac493489
当时也没想到啥好方法,就弄了一个类来分配爬取的范围,然后N条线程请求
但这样做不知道会不会被百度检测到异常。。。
2
kenneth
OP
2012-12-09 17:30:24 +08:00
@
best1a
哥们你的问题应该和我类似,除开爬虫的问题,主要的问题是生成链接的效率问题。链接生成以后,现在我考虑可以异步,比如用gevent。
我现在希望找到一个高效的生成链接的方法。希望读到内存去。
关于
·
帮助文档
·
博客
·
API
·
FAQ
·
实用小工具
·
2182 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 40ms ·
UTC 01:20
·
PVG 09:20
·
LAX 17:20
·
JFK 20:20
Developed with
CodeLauncher
♥ Do have faith in what you're doing.