首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
V2EX  ›  问与答

中文分词有哪些技术难点?另外,性能(每秒 xxx MB 文本)会是大家考虑的实际问题么?

  •  
  •   gowl · 2018-02-25 04:42:44 +08:00 · 2038 次点击
    这是一个创建于 626 天前的主题,其中的信息可能已经有所发展或是发生改变。

    或者说,有哪家分词算法可以自信地说能做到无限接近 100 %正确?

    22 回复  |  直到 2018-02-26 12:01:38 +08:00
        1
    nikoo   2018-02-25 05:51:39 +08:00   ♥ 11
    我买楼主要看心情
        2
    lsvih   2018-02-25 08:34:37 +08:00 via iPhone
    中文没分隔符,有消岐、oov 等一堆难点

    当然会考虑速度

    现在还没有无限接近 100% 的
        3
    liuhaotian   2018-02-25 08:45:19 +08:00 via iPhone
    @nikoo 你这句话我读了三遍才读明白😂
        4
    schoolers   2018-02-25 08:59:51 +08:00
    @nikoo 你这句话我读了两遍才读明白😂
        5
    misaka19000   2018-02-25 09:19:43 +08:00 via Android
    你这句话我读了三遍也没读明白
        6
    misaka19000   2018-02-25 09:20:31 +08:00 via Android
    @nikoo 你这句话我读了三遍也没读明白😂
        7
    Baymaxbowen   2018-02-25 09:37:11 +08:00 via Android   ♥ 1
    北京大学你是分成一个词还是两个词?
        8
    nfroot   2018-02-25 09:54:19 +08:00 via Android   ♥ 1
    南京市长江大桥
        9
    murmur   2018-02-25 10:00:16 +08:00   ♥ 1
    中文分词的最大难点还是网络用语 尤其是带反和谐部分的
        10
    BingoXuan   2018-02-25 11:36:55 +08:00 via Android
    @misaka19000
    正确:我 买楼 主要 看 心情
    错误:我 买 楼主 要 看 心情
    所以说中文分析很做到正确
        11
    BingoXuan   2018-02-25 11:37:29 +08:00 via Android
    @BingoXuan
    分析 -> 分词
        12
    takato   2018-02-25 15:12:47 +08:00   ♥ 1
    为什么需要分词?
        13
    takato   2018-02-25 15:14:15 +08:00   ♥ 2
    从我的理解来看,如果要清晰做到理解语义。
    则分词这个方法从架构上可能就是错误的。
    因为分词要求词和词彻底分开,但词之间可能是以概率方式表示某种语义的。
        14
    gowl   2018-02-26 06:52:18 +08:00
    @takato 内行~
        15
    gowl   2018-02-26 07:42:55 +08:00
    @takato 我能模模糊糊地感知你的意思,但是不能完全领会,能不能举两个例子啊~
        16
    gowl   2018-02-26 07:45:52 +08:00
    @Baymaxbowen 我觉得应该分一个词~
        17
    gowl   2018-02-26 07:48:19 +08:00
    @murmur 感谢点拨
        18
    gowl   2018-02-26 07:49:49 +08:00
    今天听一 个朋友说做分词最好的机构似乎是一家台湾的机构
        19
    takato   2018-02-26 09:50:22 +08:00   ♥ 2
    @gowl 举个例子,鱼,鱼子,鱼子酱。三者是不同的东西,但又不是完全无关的东西。现有的分词逻辑中,相当于是将不同的词作为了独立元素。你会注意到是否将鱼子酱作为一个词,其实是一件很头疼的事情。。。
    这是因为语义的联系在 字 的层面上就已经存在了,而词的本质是字的排列组合。

    比如:

    鱼对于鱼子的意思,是有贡献的。
    而鱼子对于鱼子酱的意思,也是有贡献的。

    所有的字的组合构成了最完整的词的含义。

    所以用 字 构成了基本元素的模型可能会比词保留更完整的语义信息。
        20
    takato   2018-02-26 09:51:37 +08:00   ♥ 1
    @gowl 这也是为什么有人会弄出词向量这种东西。。
        21
    gowl   2018-02-26 11:07:01 +08:00
    @takato 谢谢指点🙏
        22
    yybeta   2018-02-26 12:01:38 +08:00
    自己试过好多,目前离线用 jieba,API 用 boson,https://bosonnlp.com/demo 可以试试,可能是中文做得最好的。
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2700 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 24ms · UTC 12:22 · PVG 20:22 · LAX 04:22 · JFK 07:22
    ♥ Do have faith in what you're doing.