首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
宝塔
V2EX  ›  Python

有没有现成的拼音分词工具?

  •  
  •   czhfrank · 140 天前 via iPhone · 1623 次点击
    这是一个创建于 140 天前的主题,其中的信息可能已经有所发展或是发生改变。
    比如一段英文字符 jintiantianqibucuo 可以拆分为 jin tian tian qi bu cuo。如果不符合拼音规则则返回输入非拼音的提示

    如果有现成的就最好了,省的重写一个
    7 回复  |  直到 2019-07-03 21:13:31 +08:00
        1
    yuikns   140 天前
    我还以为是中文分词呢,刚想推荐一下 IKAnalyzer... 这个枚举不是超简单么?

    我过了一遍所有 utf-8 中文字符然后用 pinyin4j 帮你枚举了一下 XD

    #file-pinyin_tokenlizer-py
        2
    yuikns   140 天前
    输入是 jintianxtianqibucuo 其中 tian[x]tian 有问题,所以输出 ['jin', 'tian', 'invalid:x', 'tian', 'qi', 'bu', 'cuo']。
    不玩啦
        3
    czhfrank   140 天前 via iPhone
    @yuikns 谢谢老哥,我回去看下。主要就是怕自己拼音规则写的不完整
        4
    gladuo   140 天前
    @yuikns 不过还有一些 badcase 还是蛮难的其实,比如 xianshi (西安市)是 xi'an'shi 还是 xian'shi ;或者 xuanzhuan (旋转)是 xuan'zhuan 还是 xu'an'zhuan ;以 声母 分隔,是硬边界,但是还有一些软边界是 韵母 分隔,简化的话。。。就是列个高频词表匹配一下,通用的话是不是还得整个 language model 什么的,没再仔细想了
        5
    yuikns   140 天前 via iPad
    @gladuo 对。常见问题是 xian 到底是西安还是鲜凭借没有分割的拼音乱猜也没用。

    要死只是算个人 possibility 那简单,手头有几个 g 微博语料做个 ngram 很容易,不过确定性就不可知了
        6
    yuikns   140 天前 via iPad
    @gladuo 倒是陕西的拼音 Shaanxi,这种需要额外 knowledge 的比较烦不能一步搞定
        7
    czhfrank   139 天前 via iPhone
    @yuikns 已经很好了,shaanxi 严格来说确实不是拼音,是英文名了
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4281 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 29ms · UTC 08:42 · PVG 16:42 · LAX 00:42 · JFK 03:42
    ♥ Do have faith in what you're doing.