1
clino 2012-11-09 11:23:57 +08:00
要看你要怎么使用这些数据了
如果要用数据库,那你要想清楚如何用数据库来表达 |
2
013231 2012-11-09 11:29:30 +08:00
= =b 拼寫檢查通常是用貝葉斯算法做的, 不是靠蠻力收集錯詞.
http://www.ruanyifeng.com/blog/2012/10/spelling_corrector.html http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/ |
3
thedevil7 OP @clino
因为没学过数据库, 我有一个比较直观的想法不知行不行得通. 1.一个表: 正确词汇 - 错误词汇(们). 因为可能的错误词汇成百上千, 所以不知这样效率会不会不高. 2.两个表: 1. 正确词汇. 可能附带其他内容. 2. 错误词汇 - 正确词汇(可能有多项). 这样只要在错误词汇表里面找到了对应的项目就能得到正确词汇. @013231 真巧, 我看的是下面这篇文章. http://blog.youxu.info/spell-correct.html |
4
clino 2012-11-09 15:11:23 +08:00
@thedevil7 同意楼上所说"拼寫檢查通常是用貝葉斯算法做的, 不是靠蠻力收集錯詞"
你用记错词的办法比较生硬,不能鉴别没有碰到过的新的错词 |
5
thedevil7 OP @clino 我原本打算产生编辑距离为 1, 2 的错词, 看来这个方法比较笨, 请问如何做才是比较聪明的办法? 感谢指教.
|
7
thedevil7 OP @clino 那个帖子就是我这个方法.......... 况且那个博文(至少代码)是抄的... 原文译文为 3l 中给出的地址, 其中有原文地址.
|
9
013231 2012-11-09 18:46:40 +08:00
|
10
thedevil7 OP |