V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
ke1vin
V2EX  ›  问与答

想利用爬虫做一个豆瓣小组发帖搜索引擎,讨论下可行性

  •  
  •   ke1vin · 2018-03-14 22:07:20 +08:00 · 3377 次点击
    这是一个创建于 2226 天前的主题,其中的信息可能已经有所发展或是发生改变。

    打算做一个针对豆瓣小组发帖内容的搜索引擎:定向一些热门活跃小组(八卦组,逼组还有你懂的),根据用户名称,标题 /内容和话题回复进行搜索,搜索结果的每一项需要包含:标题,内容概要以及话题的前几张图片(如果带有图片的话)。

    初步设想是用 nodejs (或者 python )去定时爬数据,爬虫程序挂在云上,爬下来的数据包含图片都存在 MongoDB 里。因为豆瓣小组的 API 本身是开放的(详见 https://www.douban.com/group/topic/33507002/ )。

    针对某个小组的话题列表,话题内容以及话题回复都是可以通过 API 获取到的。所以使用 API 爬数据而不是获取网页页面解析数据。

    那么问题来了,跑这样一个程序需要多大内存以及硬盘空间?以上方案是否合理?第一次做爬虫程序,请指教。

    6 条回复    2018-08-19 21:37:11 +08:00
    ke1vin
        1
    ke1vin  
    OP
       2018-03-14 22:57:44 +08:00
    come on
    golmic
        2
    golmic  
       2018-03-14 23:04:10 +08:00 via Android
    需要做的话我可以提供技术支持。我的联系方式公众号 pydatame 有
    ke1vin
        3
    ke1vin  
    OP
       2018-03-15 10:18:52 +08:00
    我在想如果一直跑爬虫的话总有一天硬盘会满
    ke1vin
        4
    ke1vin  
    OP
       2018-03-15 10:18:58 +08:00
    要怎么做
    isolove
        5
    isolove  
       2018-03-16 04:13:12 +08:00
    有这样的搜索引擎就好了,继续此物搜索发帖回帖记录
    an93
        6
    an93  
       2018-08-19 21:37:11 +08:00
    楼主 这个搜索引擎你搞出来了吗
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   4373 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 41ms · UTC 05:32 · PVG 13:32 · LAX 22:32 · JFK 01:32
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.