V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
wwttc
V2EX  ›  问与答

K-Means 算法如何选择 k?

  •  
  •   wwttc · 2014-12-22 09:19:04 +08:00 · 4024 次点击
    这是一个创建于 3653 天前的主题,其中的信息可能已经有所发展或是发生改变。
    如何选择将数据集分为几个cluster?有什么常用的标准吗?
    11 条回复    2014-12-22 14:33:39 +08:00
    rock_cloud
        1
    rock_cloud  
       2014-12-22 09:25:23 +08:00
    我一般根据数据的特点来选择,不过目前有些算法是可以自动确定K值的。
    楼主可以去看看Rival penalized competitive learning,一个很神奇的聚类算法。
    robbielj
        2
    robbielj  
       2014-12-22 09:52:31 +08:00
    不是euclidean distance么
    xunyu
        3
    xunyu  
       2014-12-22 09:57:34 +08:00
    这个看你数据内容了
    ooxxcc
        5
    ooxxcc  
       2014-12-22 10:58:22 +08:00
    1到n都试一下,看看哪个比较内聚
    xudshen
        6
    xudshen  
       2014-12-22 11:18:40 +08:00
    @ooxxcc +1
    ligyxy
        7
    ligyxy  
       2014-12-22 12:05:51 +08:00
    基本思路和stepwise一样
    lcxseima
        8
    lcxseima  
       2014-12-22 12:38:23 +08:00
    K-Means选择K本来就是直接关系结果好坏,大概还是根据数据集然后经验做判断吧。资源允许就多试试咯。
    Todd_Leo
        9
    Todd_Leo  
       2014-12-22 14:06:57 +08:00
    你可以用Elbow Method, Gap Statistics, 轮廓系数还有Hopkins统计量来评估簇数. 当然Elbow Method是最简单最直观的
    meta
        10
    meta  
       2014-12-22 14:32:47 +08:00
    基本上就是用眼睛看,本来k-means这种玩意儿就是用来试着分类的,又没什么准确结果。一次不行多换几个参数刷几次呗。
    efi
        11
    efi  
       2014-12-22 14:33:39 +08:00
    empirically
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1034 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 68ms · UTC 23:12 · PVG 07:12 · LAX 15:12 · JFK 18:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.