V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
hktony
V2EX  ›  Redis

千万级数据的去重的性能问题,欢迎一起讨论!

  •  
  •   hktony · 2015-08-02 21:55:35 +08:00 · 6281 次点击
    这是一个创建于 3386 天前的主题,其中的信息可能已经有所发展或是发生改变。
    场景:需要对redis中的不同的千万级set集合之间做去重,一直使用sdiff,但是随着数据量的增大,sdiff命令变得越来越不可靠,容易导致cpu过高,导致redis长时间无响应。
    目前redis已经做了一致性哈希的分片,16台redis节点集群,每个set集合平均分到16台redis节点上。除了横向扩展,是否有更为高效的去重方案取代redis的sdiff命令?
    8 条回复    2015-09-05 17:50:57 +08:00
    kslr
        1
    kslr  
       2015-08-02 22:28:44 +08:00
    允许有误差么? 可以看看布隆过滤器 ( 3亿级的数据正在用
    zhicheng
        2
    zhicheng  
       2015-08-02 22:32:53 +08:00   ❤️ 1
    允许多大的误差?可以看看 HyperLogLog https://en.wikipedia.org/wiki/HyperLogLog
    fszaer
        3
    fszaer  
       2015-08-02 22:54:11 +08:00
    @zhicheng
    然而 redis中的 HyperLogLog 只能求近似基数
    如何应用到去重中???
    Lax
        4
    Lax  
       2015-08-03 12:52:35 +08:00
    @fszaer HLL 可以根据返回值判断是否已经被计数过。
    jiehuangwei
        5
    jiehuangwei  
       2015-08-03 17:54:26 +08:00
    去重用这个 Bloom Filter
    hktony
        6
    hktony  
    OP
       2015-09-01 16:25:17 +08:00
    @kslr 不允许有误差, bloom filter 算法误差率最低可以控制在多少?
    @jiehuangwei bloom filter 可以对两个不同集合之间做差集吗?
    kslr
        7
    kslr  
       2015-09-01 16:49:06 +08:00
    @hktony 这个需求适合 redis 的集合
    hktony
        8
    hktony  
    OP
       2015-09-05 17:50:57 +08:00
    @kslr 现在其实就是用 redis 的 set 集合两两做差集做的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1193 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 18:20 · PVG 02:20 · LAX 10:20 · JFK 13:20
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.