V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
JCZ2MkKb5S8ZX9pq
V2EX  ›  问与答

压缩数据用指数曲线好,还是对数曲线好?

  •  
  •   JCZ2MkKb5S8ZX9pq · 2020-02-24 11:55:07 +08:00 · 1564 次点击
    这是一个创建于 1780 天前的主题,其中的信息可能已经有所发展或是发生改变。
    • 假设有一组数据,跨越幅度比较大,小数值较多,大数值较少。
    • 如果直接显示的话,比如曲线或者柱图,大数值显示之后,小数值就会被压缩到接近 0 轴,不易观察。
    • 之前我都是把数值直接用指数变形,y = y^(1/5),类似这样越大的数据压缩越多,但还能保持相对位置关系。
    • 刚才看到一个别人做的数据,用的对数曲线,类似y = log2(y),因为数值没有小于 1 的,所以也还行。
    • 想问问这两种各有什么利弊嘛?
    第 1 条附言  ·  2020-03-02 00:09:54 +08:00

    测试了一下

    32gUSS.png

    8 条回复    2020-03-02 00:16:34 +08:00
    ryd994
        1
    ryd994  
       2020-02-24 13:34:18 +08:00 via Android
    为什么不用浮点数?
    ryd994
        2
    ryd994  
       2020-02-24 13:36:04 +08:00 via Android
    我懂你意思了。这要看情况。
    论文和金融上用对数比较多
    因为很多数据之间就是对数关系
    所以对数转换之后就是一条直线,非常直观
    ylrshui
        3
    ylrshui  
       2020-02-24 14:04:44 +08:00 via iPhone
    当然是对数,把指数变化变为线性变化;开 5 次幂后的曲线无法直观观察数据变化
    autoxbc
        4
    autoxbc  
       2020-02-24 16:10:30 +08:00
    这个好像叫心理物理学,有两个著名定律

    1. 韦伯-费希纳定律(Weber-Fechner law)
    2. 斯蒂文思幂定律(Stevens's power law)

    分别对应上面的两种数据处理方式

    具体适用范围不知道,我觉得还是和数据来源有关
    比如描述噪声的分贝等级是第一种
    描述亮度变换的 Gamma 曲线是第二种
    JCZ2MkKb5S8ZX9pq
        5
    JCZ2MkKb5S8ZX9pq  
    OP
       2020-02-24 20:52:38 +08:00
    @ryd994
    我的数据都是访问量,粉丝数这类的,比较随机,不是某一种指数的增长曲线。
    比方说有 99 个人的粉丝都在几十万,但有 1 个博主粉丝破千万了,放在一个图表里就需要考虑显示的优化。

    @ylrshui
    我本来感觉是计算效率可能有点不一样。
    视觉上的话 5 次幂我用过,看也看得出。
    开幂其实一个指数不变底变,一个底不变指数变。我等会儿画出来看看。
    ylrshui
        6
    ylrshui  
       2020-02-24 23:11:45 +08:00 via iPhone
    @JCZ2MkKb5S8ZX9pq 数据范围对开 5 次幂的影响较大,范围较小,开 5 次幂压缩太过,范围太大,压缩不够,这种方法处理出的数据仍是指数关系。对数则将指数关系转化为线性关系,数据范围的影响就要小的多,具有通用性
    JCZ2MkKb5S8ZX9pq
        7
    JCZ2MkKb5S8ZX9pq  
    OP
       2020-03-02 00:16:01 +08:00
    @ylrshui 测试了一下,数据直接用的新浪的 ncov,log 用的 e。

    相对关系都能表现出来。
    对数压缩完之后,数据更近一点。但通过调整底数或幂,都可以变。
    对数计算好像快一丢丢。
    对数 1 需要稍微做点处理,显示 0 的话不符合直觉。

    简单来说,两种好像区别并不大。
    JCZ2MkKb5S8ZX9pq
        8
    JCZ2MkKb5S8ZX9pq  
    OP
       2020-03-02 00:16:34 +08:00
    @ylrshui 具体见 append 中的图片
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1810 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 16:27 · PVG 00:27 · LAX 08:27 · JFK 11:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.