首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  程序员

大数据量下基于 ES 的统计分析怎么做?

  •  
  •   shoumu · 2016-06-02 21:20:26 +08:00 · 6720 次点击
    这是一个创建于 1238 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有下面的一个需求,请问一下大家有什么好的方案? 现在有亿级别的新闻文本数据,每条文本有超过二十个的属性(比如新闻正文、译文、时间、国家、地点等),已经使用 es 对这些数据建了索引。

    现在要根据提供的关键词进行检索,对检索到的前 N 条( N 可能为 2000 、 5000 、 10000 、 100000 等)数据进行分析,主要是针对各个属性进行统计,比如统计各个国家的新闻数量。

    目前是直接通过 es 拿到结果做统计,但是非常慢,有什么好的方案吗?

    7 回复  |  直到 2016-06-03 20:17:56 +08:00
        1
    ligyxy   2016-06-02 21:23:24 +08:00 via Android
    Spark cluster
        2
    Numbcoder   2016-06-02 22:52:25 +08:00
    试试这个 druid.io
        3
    fcicq   2016-06-02 22:54:58 +08:00
    带宽和 IOPS 就是单机水平那就不可能指望有突破啊.
        4
    shoumu   2016-06-03 09:35:41 +08:00
    @fcicq
    带宽和 IOPS 都好说,这里想先看看有啥好的方案
        5
    shoumu   2016-06-03 09:35:55 +08:00
    @ligyxy
    @Numbcoder
    谢谢两位,我先去看看
        6
    SmiteChow   2016-06-03 16:19:49 +08:00
    我觉得你的 ES 部署方式有问题,是分布式的么?
        7
    shoumu   2016-06-03 20:17:56 +08:00
    @SmiteChow
    是分布式的
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   974 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 25ms · UTC 21:45 · PVG 05:45 · LAX 14:45 · JFK 17:45
    ♥ Do have faith in what you're doing.