怎么找出近似的汉字？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1870 天前的主题，其中的信息可能已经有所发展或是发生改变。

想找出笔划差别细微的汉字。
比如 [余] 和 [佘] ， [茶] 和 [荼] 。
一种思路是在给定字体下，渲染成固定尺寸的图片，然后 bitmap 比较汉明距离。
但这样碰到偏旁缩放的字可能会误判，比如 [侯] 和 [候] 。
python 下有啥现成的轮子嘛？
或者大家还有啥别的思路嘛？

第 1 条附言 · 2019-03-14 18:04:57 +08:00

补充说明：

我需要的结果，就是要做出映射表。
需要包含的字库，差不多是思源/萍方/雅黑的交集。
使用目的，是混淆文字。
按一定规则，混淆文字，以最小影响阅读体验的代价，做内容保护和溯源。
所以需要能够量化差异，仅选取差异小于阈值的字。
等于是个汉字不可逆加密。

其它混淆方法：插空格、discus插乱码、部分字转拼音、部分字转繁体等等，我也知道。
但就想到这个了，想试看看怎么实现。
通过笔划判断应该不行，理由见20楼。

汉字

笔划

bitmap

Python

67 条回复 • 2020-08-11 21:16:18 +08:00

vJianZhen

2019-03-14 17:18:58 +08:00

建一个映射表，把所有近似字都录入进去

ymcj001

2019-03-14 17:19:51 +08:00 via Android

@vJianZhen 足够暴力

x86

2019-03-14 17:20:29 +08:00

参考下手写输入法

lastpass

2019-03-14 17:24:37 +08:00 via Android

常用字就 3 千，
字型相似的汉字有限且不多。
直接映射。
简单粗暴还好用。

jingxyy

2019-03-14 17:27:01 +08:00

没毛病，1 楼靠谱

danielmiao

2019-03-14 17:29:54 +08:00

可以先对图片侵蚀和膨胀，最后对图片异或处理，简单的话就简单的判断 1 的比重用阈值处理，复杂就扔到神经网络，做一批训练样本，学习下

vJianZhen

2019-03-14 17:32:57 +08:00

@ymcj001 汉字本来就少啊。楼主也没说具体需求。这种办法好得很

JCZ2MkKb5S8ZX9pq

2019-03-14 17:37:44 +08:00

@vJianZhen 我就想问怎么建映射表
你说的方法手动一个个比？

JCZ2MkKb5S8ZX9pq

2019-03-14 17:38:26 +08:00

@lastpass 我就是想问映射表哪儿来？

pkokp8

2019-03-14 17:39:11 +08:00 via Android

五笔？

ifxo

2019-03-14 17:39:33 +08:00

没办法的，用嘴当然好做了

lastpass

2019-03-14 17:39:42 +08:00 via Android

另外:别去分析图片。
直接通过区位码读点阵字库的点阵内容就好。

JCZ2MkKb5S8ZX9pq

2019-03-14 17:41:28 +08:00

@lastpass 区位码我去看看哦
而且因为是找近似字，范围应该不限于常用字，而是常用的 unicode 大字库了，比如微软雅黑 /思源 /萍方的交集，差不多这个范围里找。

lastpass

2019-03-14 17:42:09 +08:00 via Android

回复 @JCZ2MkKb5S8ZX9pq 搜索了一下。有对应的书籍。是否全面就不知道了。人工穷举也是个办法啊。比你花费时间去写程序跑出来结果更快更简单呀。

JCZ2MkKb5S8ZX9pq

2019-03-14 17:45:12 +08:00

@lastpass 查了下
[GB 2312 - 维基百科，自由的百科全书]( https://zh.wikipedia.org/wiki/GB_2312)
16~55 区（ 3755 个）：常用汉字（也称一级汉字），按拼音排序；
56~87 区（ 3008 个）：非常用汉字（也称二级汉字），按部首 /笔画排序；
按拼音排序，好像并不适合用来做识别。

lastpass

2019-03-14 17:47:04 +08:00 via Android

JCZ2MkKb5S8ZX9pq 非常好找。直接鄙视链最底端的百度文库都有。
https://m.baidu.com/sf_edu_wenku/view/35840bfebe23482fb5da4c04.html?re=view

ebingtel

2019-03-14 17:47:04 +08:00

别用图片比较吧……每个汉字都有自己的笔画(网上很多开源的)，感觉可以根据笔画向量来查找

JCZ2MkKb5S8ZX9pq

2019-03-14 17:47:10 +08:00

@lastpass 人工穷举不太可能啊，字太多了，排序又不规则，两两比较就算只有 3000 个，这也太夸张了。况且很多近似字都是冷门生僻字，字库范围就不能按 3000 来算。

JCZ2MkKb5S8ZX9pq

2019-03-14 17:49:30 +08:00

@lastpass 感谢提供的百度链接，但这个不大符合我的预期。
一方面近似度差了点，一方面不够量化，多近多远没个准。

JCZ2MkKb5S8ZX9pq

2019-03-14 17:52:42 +08:00

@pkokp8 @ebingtel 我自己手机就用的笔划输入法，真的不行。
笔划是天上一脚地上一脚，差个位置差很远。
比如
[林] 横竖撇捺横竖撇捺
[扶] 横竖撇捺横横撇捺

JCZ2MkKb5S8ZX9pq

2019-03-14 17:53:45 +08:00

@pkokp8 @ebingtel 打错了是 [枎]

tyrealgray

2019-03-14 17:54:54 +08:00 via Android

介意问一下楼主打算做一个什么系统用于哪方面吗？

dorentus

2019-03-14 17:55:09 +08:00

http://lars.yencken.org/datasets/phd/

JCZ2MkKb5S8ZX9pq

2019-03-14 18:05:24 +08:00

@tyrealgray 我在 append 里补充了一下

shyrock

2019-03-14 18:21:24 +08:00

可以用字型输入法的编码来比较吧，比如五笔。

gliyechen

2019-03-14 18:24:06 +08:00

1 楼方法不是挺好的嘛还可以用在不同字体

lneoi

2019-03-14 18:24:09 +08:00

如果说找相近汉字, 不能只在常用汉字表里面互相比对吧,还得看异体字,国外汉字什么的?

xml123

2019-03-14 18:31:11 +08:00

http://www.matrix67.com/blog/archives/2907

across

2019-03-14 18:34:14 +08:00

除了暴力计算（感觉 CUDA 派上用场了？），估计只能靠输入法收集用户数据了.

做好了估计还能当个商业库呢~~

jdhao

2019-03-14 19:01:46 +08:00 via Android

计算图像相似度？(一个猜想，不一定对

tusj

2019-03-14 19:09:49 +08:00

我一直好奇十几年前流行的火星文字，是怎么搞出来的。
有没可能用它来做混淆？

c4f36e5766583218

2019-03-14 19:57:00 +08:00

按一定规则，混淆文字，以最小影响阅读体验的代价，做内容保护和溯源???
按你这方法混淆了那文章含义不是变样了？句子不通了啊~

hdjs5264

2019-03-14 20:04:11 +08:00

emmmm，你这需求不就是火星文？

glacer

2019-03-14 20:08:51 +08:00

能否拿到汉字的像素值？比如在 8x8 的矩阵中，空白点像素为 0，笔画点像素为 1，得到一个 64 位的向量。然后通过一些相似度算法计算即可。

nccer

2019-03-14 20:11:51 +08:00

火星文?

rekulas

2019-03-14 20:14:39 +08:00

直接导入深度学习文字识别库，准确率>60 的就是

mxtob

2019-03-14 20:18:24 +08:00 via iPhone

之前在思否看过一个解答。用 gd 库绘画需要 2 个比对文字，然后用图片相似度算法

JCZ2MkKb5S8ZX9pq

2019-03-15 01:39:41 +08:00

@c4f36e5766583218 我觉得这个主要还是看比例，比如五千字的文章里换掉五个字，应该问题不大。再比如我这段话里就焕掉了—个字，但对阅読的影响应该不会很大。

JCZ2MkKb5S8ZX9pq

2019-03-15 01:48:39 +08:00

黑色占比 0.13484312996031747

黑色占比 0.16272941468253968

差别比例 0.48925163811932404

=====

进展汇报

试了几种图形识别的方式，都不大完美。
即便用点阵字体+bitmap 纯黑白，也不大理想。
况且我希望的结果是混淆人眼识别，有些比如 [辛] 和 [幸] 和 [亲] ，程序会觉得 13 更接近。
所以感觉这个问题比预想的还复杂一点。

笔划近似的确是一个思路，但还没想好怎么量化。