1
kkzxak47 2016-06-02 00:48:18 +08:00 via Android
中文 分词 从 我 做起
|
2
binux 2016-06-02 01:07:05 +08:00
可以用 character based 啊
|
3
YUX 2016-06-02 01:54:21 +08:00
可以用 Jieba /Python
|
4
maemolee 2016-06-02 02:07:25 +08:00
最近一个报纸的标题:儿子生性病母倍感骄傲。
一般来说的分段方式是:儿子生性病,母倍感骄傲。 然而正确分段方式是:儿子生性,病母倍感骄傲。 说明断句在多元文化融合的今天,是有多么的重要。 |
5
v2014 2016-06-02 06:34:47 +08:00
有空格多浪费纸啊,现在有大数据,根据上下文统计下概率,基本上也就很准确了,再说有的人断句也是不正确的,
就和楼上说的一样,很多人第一眼肯定是第一种断法,感觉不对,才有第二种断法,现在机器分词就差这种改正了。 |
6
243205964 2016-06-02 08:02:21 +08:00 via Android
我记得在微博上,小娜 一直在分词,一开始我还奇怪,知道看到此贴。
|
8
bugeye 2016-06-02 08:31:53 +08:00
中文使用空格的话,不如灭绝算了。 4 楼那个根本不是规范可读的中文,英语写的差,一样不可读不可交流。
|
9
crysislinux 2016-06-02 09:07:47 +08:00 1
@bugeye 就是。什么叫“儿子生性”。活了这么多年都不知道这是啥意思
|
10
Nothentai 2016-06-02 09:10:01 +08:00 3
@crysislinux
生性在广东话里面就是 懂事乖巧的意思 |
12
mrjoel 2016-06-02 09:18:26 +08:00 via Android
记得中文连标点系统都没有的时代嘛
|
14
ChaosPark 2016-06-02 10:46:37 +08:00
句读之不知
|
15
imcoddy 2016-06-02 10:46:53 +08:00 5
这不光是空格就能解决的问题吧,比如这个:
人生要经历四个阶段 喜欢上一个人 喜欢上一个人 喜欢上一个人 喜欢上一个人 |
16
yuanlai 2016-06-02 10:49:11 +08:00 3
@sensui7
@Nothentai 所以,中文还得分东北话和广东话,以后说中文之前,先写声明了? <!DOCTYPE 中文> <中文 lang="东北话"> <meta charset="沈阳"> <!DOCTYPE html PUBLIC "-//PuTongHua//DTD XHTML 1.0 Transitional//中文" "http://www.普 putonghua.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.zhongwen.org/1999/xhtml"> |
17
jsonline 2016-06-02 10:49:12 +08:00
中文的乐趣不就在这里嘛……
|
18
sarours 2016-06-02 10:50:36 +08:00 via iPhone
看完评论,感觉还是古文比较好懂,因为大部分都是意会。外文在我看来跟文言文是一个套路
|
19
stcasshern 2016-06-02 10:52:15 +08:00
@sarours 古文连标点都没有。。也不好懂。。。
|
20
ChaosPark 2016-06-02 10:52:22 +08:00
中文添加空格分词对人来说实用性有限,刚才和同事聊天,同事说:典型的程序员思维,让人去适应计算机。
|
21
sensui7 OP 其实我不是说给中文添加分词, 这当然是不可能了, 我只是说, 中文词汇(不是字)原生就像英文那样有明确的分割就好了, 我不是说语言的优劣, 只是说拉丁文字用有限的字母, 然后单词之间有空格, 这确实很方便计算机处理.
如果计算机是中国人发明的, 不知道是否更能容易处理?我觉得还是不太可能. |
23
cst4you 2016-06-02 11:25:42 +08:00
这个我想起来 QQ 上面那种不能好好说话乱加空格的人
|
24
zgk 2016-06-02 11:47:29 +08:00 via Android
中文不断句有时候会有歧义
“你根本不懂什么叫做爱”,“以前我喜欢一个人,现在我喜欢一个人”,还有 4 楼那个😂 (高考修改病句这些是有语病的) |
25
downsky 2016-06-02 11:48:15 +08:00
英文的分词是区别前字与后字,不然无法阅读。而中文天生就不需要这样的他词,每个字都是独立可区别的。
|
26
RqPS6rhmP3Nyn3Tm 2016-06-02 12:14:33 +08:00 via Android
跟空格分词没关系,语法功能标点符号已经承担了。中国长期言文不一致,没有这个必要。
|
27
xiaozhizhu1997 2016-06-02 12:52:27 +08:00 via Android
有人想过韩文么,他们那个空格分词…
|
28
sarours 2016-06-02 13:15:26 +08:00 via iPhone
@stcasshern
首先,顾问是有标点符号的,只不过比较单一,没现在这么多。 其次,文言文在掌握以后,是比较好理解稳重的意境,或者大概的意思,而且很简洁。现在的很多外语其实跟文言文差不多。 其实跟编程语言是很类似的,学习一大堆知识,然后我说的一小句话,可能代表很长的一段意思。 最后,楼主的困扰是基于白话文造成的,但是,不可避免的,如果没有白话文的普及,中国现在识字识礼的人……呵呵 |
29
pandashuai 2016-06-02 13:15:58 +08:00
最近标题党不是很流行吗,每次都引诱我点进去,却发现不是自己想的那样。。。
|
31
cocacold 2016-06-02 13:27:17 +08:00
中文博大精深,岂是我辈可以理解的。
![124293403.jpg]( https://ooo.0o0.ooo/2016/06/02/574fc552ed670.jpg) |
32
jwenwang 2016-06-02 13:41:34 +08:00
http://bosonnlp.com/ 玻森中文语义分析做得挺厉害的
|
33
Dlad 2016-06-02 13:42:05 +08:00
数学之美
马尔可夫链 |
34
est 2016-06-02 14:14:09 +08:00
我有一个 trick 可以免费做到中文加空格。谁给我 10 元我就告诉他
|
37
maemolee 2016-06-02 15:43:57 +08:00
|
38
maemolee 2016-06-02 15:46:19 +08:00
|
39
wheatcuican 2016-06-02 20:42:37 +08:00
@imcoddy 汉字真是博大精深,服!
|
40
dingyaguang117 2016-06-02 21:36:17 +08:00 via iPhone
南京市长江大桥
|
41
JackBlack2006 2016-06-02 22:28:18 +08:00
有这种疑问的难道不是语体教吗?
小学时候文言文句读就是重点内容之一了吧 |
42
ibigbug 2016-06-03 00:12:14 +08:00
工信处女干事每月经过下属科室都要亲口交代 24 口交换机等技术性器件的安装工作
|
43
click 2016-06-03 00:27:34 +08:00
明明有标点,你不用,怪谁?
|
45
mcblack 2016-06-03 15:06:10 +08:00
感觉现有很多人都不会去好好认真的标点分开
|
46
Stlin 2016-06-03 19:39:37 +08:00
可 以 有 的
|
47
qgy18 2016-06-03 21:45:10 +08:00 via iPhone
@maemolee ,之前看到一个报道,里面有一句「这样的 /大学生活 /也不错」,然而看成:
这样的大学生 /活也不错 |
52
davin 2016-06-13 16:52:19 +08:00
下雨天留客天留我不留
|
53
sensui7 OP |
54
iahu 2016-07-28 16:21:31 +08:00
有时候用标点并不合适。打字聊天也会经常给一些关键的字词加上空格。
|