V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
laoyuan
V2EX  ›  自然语言处理

有做过nlp中文分词的么,从生语料建立一个领域词典,有哪些可以参考的资料?

  •  
  •   laoyuan · 2013-02-04 10:51:48 +08:00 · 7377 次点击
    这是一个创建于 4308 天前的主题,其中的信息可能已经有所发展或是发生改变。
    关于中文分词,绝大多数资料、模型都是已经有词典了,如何更准的切分。那么从生语料建立词典,如果写程序做,有人分享下经验么?我感觉应该需要一定的人工工作,还好我要做的是小型词典,可以接受了。
    2 条回复    1970-01-01 08:00:00 +08:00
    joyjy
        1
    joyjy  
       2013-02-04 12:11:51 +08:00
    直接用中科院分词就挺好的。

    自己搞的话,常见的就是TF-IDF、互信息,隐马尔可夫模型。
    互信息:I=log(p(xy)/p(x)*p(y)),用于判断字串是否总是组合出现 -> 组合概率高的可能是词。从单字开始到分隔符(标点符号)依次计算,可以得出候选词概率矩阵。
    TF-IDF:TF-词在整体语料中出现的频率,IDF-出现词的语料块在整体语料中的频率,可以用于从候选词中筛选。
    隐马尔可夫模型:推断分词的最优路径。
    nigelvon
        2
    nigelvon  
       2013-02-04 12:15:19 +08:00
    以前做过用大量语料来统计的,不过效果和效率没有用词典的好。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3156 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 12:26 · PVG 20:26 · LAX 04:26 · JFK 07:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.