V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
k1995
V2EX  ›  问与答

自己做的一个百度云盘搜索引擎,大家支持下。嘻嘻

  •  1
     
  •   k1995 · 2015-10-08 20:24:45 +08:00 · 7760 次点击
    这是一个创建于 3122 天前的主题,其中的信息可能已经有所发展或是发生改变。

    之前也写过百度云盘爬虫,不过结果是来自 Google 自定义搜索结果,这次自己写了一个百度云盘爬虫程序, 2 天爬取了 60W 数据,其实能够能多,主要是百度有反爬虫机制,爬了几分钟后需要 5 分钟后再次爬取。
    网址: http://pan.whatsoo.com
    刚刚上线,许多功能还在更新。。。

    第 1 条附言  ·  2016-09-29 00:36:55 +08:00

    已开源 github 地址

    讨论交流请在github 中文社区 发帖

    19 条回复    2020-01-10 10:20:39 +08:00
    abelyao
        1
    abelyao  
       2015-10-08 22:29:38 +08:00
    竟然没人回复…
    60W 数据太少啦,搜个 “苍井空” 都说没结果,怎么可能呢~ 试了一下深度搜索果然还是有的~
    那你就弄两个 IP 嘛,每个爬 5 分钟轮流~ 爬个 600W / 6000W 数据之后可以直接卖数据咯~
    k1995
        2
    k1995  
    OP
       2015-10-08 23:06:41 +08:00
    前两天才开始爬,数据量确实有点少。以后弄个分布式爬虫,应该就开了
    abelyao
        3
    abelyao  
       2015-10-08 23:13:29 +08:00 via iPhone
    @k1995 相比之下更好奇你的爬虫 [抠鼻]
    xiaoz
        4
    xiaoz  
       2015-10-09 08:48:52 +08:00
    mark ,已收藏。
    lycos
        5
    lycos  
       2015-10-09 09:33:45 +08:00
    没有公开的 隐私设置的 可以爬到吗?
    k1995
        6
    k1995  
    OP
       2015-10-09 09:41:43 +08:00
    @lycos 这个,还真没研究过。估计不行
    easychen
        7
    easychen  
       2015-10-11 14:22:39 +08:00   ❤️ 1
    弱弱的问一句,从哪儿找百度的网盘的文件索引?直接用 site:pan.baidu.com 搜, 70 多页以后就不显示数据了。
    fishlee
        8
    fishlee  
       2015-10-11 15:01:52 +08:00 via Android
    分布式爬虫不好控制
    k1995
        9
    k1995  
    OP
       2015-10-11 16:11:21 +08:00   ❤️ 2
    @easychen 肯定不是用 site:pan.baidu.com 直接分析百度云数据包,爬取好友列表
    easychen
        10
    easychen  
       2015-10-11 16:33:24 +08:00
    @k1995 thanks :)
    BuilderQiu
        11
    BuilderQiu  
       2015-10-12 00:34:36 +08:00   ❤️ 1

    k1995
        12
    k1995  
    OP
       2015-10-12 10:46:48 +08:00 via Android
    @BuilderQiu 嗯,我昨天在调试,手误,很快就改回来了
    inmyfree
        13
    inmyfree  
       2015-10-12 11:47:28 +08:00
    @BuilderQiu
    @k1995

    哈哈, ThinkPHP
    cdwyd
        14
    cdwyd  
       2015-10-14 09:25:21 +08:00
    你好,怎么过的百度反爬虫机制,测试连续请求 50 次左右 就被屏蔽了
    k1995
        15
    k1995  
    OP
       2015-10-14 09:36:34 +08:00 via Android   ❤️ 1
    @cdwyd 1 ,降低爬去频率,比如 2 秒请求一次
    2 ,屏蔽只是一段时间,几分钟后会自动恢复,所以可以继续爬取
    k1995
        16
    k1995  
    OP
       2015-12-08 16:49:28 +08:00
    whatsoo#com 已被墙,需要的朋友可以访问新域名 http://pan.ibying.com
    sadara
        17
    sadara  
       2016-02-03 14:02:57 +08:00
    开源吗?怎么授权
    k1995
        18
    k1995  
    OP
       2016-02-03 14:49:22 +08:00
    @sadara 过段时间会开源,近期较忙,==
    jabingu
        19
    jabingu  
       2020-01-10 10:20:39 +08:00
    新域名不行,打开是博彩网站
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5501 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 969ms · UTC 01:40 · PVG 09:40 · LAX 18:40 · JFK 21:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.