V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ALLROBOT
V2EX  ›  程序员

v2ex 根据文章提取标签,用的什么模型?

  •  
  •   ALLROBOT · 2023-02-27 13:08:14 +08:00 · 2185 次点击
    这是一个创建于 639 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题,V2EX 发帖后,下面自动生成标签,感觉标签划分挺正确的,模型想拿来参考参考

    能发 github 链接供参考学习?

    8 条回复    2023-02-28 07:32:22 +08:00
    leimao
        1
    leimao  
       2023-02-27 13:24:28 +08:00
    经典的是 Latent Dirichlet Allocation 模型
    https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation
    fengleiyidao
        2
    fengleiyidao  
       2023-02-27 13:50:09 +08:00
    划分正确么?比如隔壁一帖的 tag ,我就感觉驴唇不对马嘴啊 https://www.v2ex.com/t/919496
    SeeWlind
        3
    SeeWlind  
       2023-02-27 13:54:48 +08:00
    NLP
    ALLROBOT
        4
    ALLROBOT  
    OP
       2023-02-27 14:15:01 +08:00 via Android
    @fengleiyidao 大多数情况比较正确,只要正文标题写清晰了

    @leimao 自动标签生成用的这模型?

    @SeeWlind 自然语言处理。。听君一席话,如听一席话
    weidaizi
        5
    weidaizi  
       2023-02-27 14:44:33 +08:00   ❤️ 2
    @fengleiyidao 我觉得那个帖子,"硕大无比" 划分的挺正确的呀 (doge
    leimao
        6
    leimao  
       2023-02-27 15:02:09 +08:00
    @ALLROBOT Topic Modeling 的历史有二十多年了
    veike
        7
    veike  
       2023-02-27 21:26:53 +08:00 via Android
    jieba 就可以😄
    OpenSSH
        8
    OpenSSH  
       2023-02-28 07:32:22 +08:00
    我点开了你的帖子的“标签”这个标签,第一个就看到了站长 2014 年发的这个帖子 /t/96918 ,用的是 jieba
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3403 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 11:52 · PVG 19:52 · LAX 03:52 · JFK 06:52
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.