CN106598920B - 一种笔画编码结合汉字点阵的形近字分类方法 - Google Patents
一种笔画编码结合汉字点阵的形近字分类方法 Download PDFInfo
- Publication number
- CN106598920B CN106598920B CN201611065190.0A CN201611065190A CN106598920B CN 106598920 B CN106598920 B CN 106598920B CN 201611065190 A CN201611065190 A CN 201611065190A CN 106598920 B CN106598920 B CN 106598920B
- Authority
- CN
- China
- Prior art keywords
- stroke
- chinese character
- character
- chinese
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000012216 screening Methods 0.000 claims description 2
- 239000004615 ingredient Substances 0.000 abstract 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Document Processing Apparatus (AREA)
- Controls And Circuits For Display Device (AREA)
Abstract
本发明提供了一种笔画编码结合汉字点阵的形近字分类方法,通过对汉字对应的笔画编码进行统计,以笔画结构出现频率将汉字进行分类生成数据表,每种笔画成分对应包含此成分的汉字集合;然后对集合进行筛选,滤除笔画成分较短和较长的集合,将后者添加到形近字数据库中;对过滤后的汉字集合采用汉字点阵比较的方法进行进一步处理,通过比较同一汉字集合内的汉字的点阵,将相似率较低的汉字滤除,将处理后的汉字集合添加到形近字数据库中;通过以上步骤,就得到了包含大部分汉字的形近字数据库,查询一个汉字的形近字只需要查询其所在的表就可得到它的形近字。本发明提高了形近字分类效率,节约了分类所消耗的时间,获得了较为准确的形近字数据。
Description
技术领域
本发明属于语言处理领域,特别涉及一种汉字形近字分类方法。
背景技术
汉字由简单的几种笔画组成,但由于它们在二维空间排列组合,便形成了种类繁多、结构复杂的汉字。构成汉字字形的各种特定的点和线,也是汉字的最小结构单位。根据楷书书写要求,从落笔到抬笔即为一笔,又叫一画,合称笔画,笔画的具体形状叫笔形。由此产生的各种字根形成了众多形态结构相似的汉字,被称为形近字。
形近字的识别涉及字形识别。字形识别服务于生活的方方面面,如手写输入,从图像中获取汉字信息,纸质文本转录等,并且这项技术在生活中已经得到了广泛的应用。汉字的字形识别对于如今的技术而言已经不存在问题,对印刷体来说识别精度更高。获取汉字点阵是字形识别的第一步。在汉字的点阵字库中,每个字节的每个位都代表一个汉字的一个点,每个汉字都是由一个矩形的点阵组成,0代表没有,1代表有点,将0和1分别用不同颜色画出,就形成了一个汉字。通过点阵的比较就可以发现字形结构之间的相关性。
笔顺编码是为了记录汉字笔画的书写顺序而设定的具体的笔画的编号。其中,1代表横,2代表竖,3代表撇,4代表捺,5代表折,另外,提为横,点为捺,竖勾为竖,横折为折,竖提为竖,这样所有字就可用1、2、3、4、5这5个符号表示,如图2所示,“李”字的笔画编码是横、竖、撇、捺、折、竖、横,转换成编号是:1234521。笔顺编码包含了汉字的笔画顺序和结构信息,对汉字结构的对比识别有一定作用,但由于编码并未精确表示汉字的基础部件,所以编码所包含的汉字信息并不完整。
识别形近字的意义在于,不仅可以帮助使用字形编码输入方式时,如五笔、郑码、手写等输入法,帮助用户提供易错参考,校验文本正确性,还可以应用于儿童识字教学作为参考实例,同时,对系统性的研究汉字结构特点有一定帮助。目前,形近字的识别多为人工收集方式,工作量大,费时费力。
发明内容
为了解决上述问题,本发明提供了一种用于汉字形近字分类的方法,该方法实现了机器对形近字自动的分类,为人节约了大量时间和精力。
本发明解决其技术问题采用的技术方案是:提供一种用于汉字形近字分类的语言处理方式,包括如下步骤:
步骤一、统计笔画编码表中所有笔画结构出现的频度,将出现次数低于10次的笔画结构滤除并排序,将包含相应笔画结构的汉字组成一个集合对应于此笔画结构,由此得到若干个汉字集合;
步骤二、对步骤一得到的汉字集合进行筛选,滤除编码长度小于4的笔画结构对应的汉字集合,将剩余的汉字集合添加到形近字数据库中,每个集合生成一张形近字表;
步骤三、对步骤二得到的汉字集合中的汉字进行点阵比较并计算平均相似度,把平均相似度较低的汉字滤除,得到处理后的汉字集合,将其以步骤二中相同的方法保存到形近字数据库中。
优选的,所述步骤三种汉字点阵比较采用对位比较的方法,计算得到两个汉字的相似度,将点阵表示为由0,1表示的16×16矩阵,有汉字笔画的位置为1,反之为0,相似度计算公式如下:
其中,i,j为一个汉字集合中两个汉字的标号,Xij表示两个汉字的相似度,m代表矩阵的行,n代表矩阵的列,Wimn代表汉字i的m行n列的值,Wjmn代表汉字j的m行n列的值。
优选的,所述步骤三中汉字集合中每个汉字的平均相似度计算如下:
其中,Sn代表字n的平均相似度,i代表字i,n代表字n,Li代表字i的笔画编码长度,Ln代表字n的笔画编码长度,Xin代表两个字的相似度,N代表集合中除去字n的字的总数。
本发明的有益效果在于:先对汉字通过分析其笔画编码的特征进行较粗略的形近字分类,节约了要对所有字进行分类所需大量的时间精力,效率大大提高;但由于笔画编码和笔画之间并不是一一对应,这样的分类还需要进一步优化,汉字点阵的比较的作用就在于此,它的使用可以滤除分类中不正确的成分,提高了结果的精确度;两种方法的结合,实现了由多到少,由粗到精的处理的过程,既保证了方法的效率,又达到所需的正确率。
附图说明
图1是本发明的流程图;
图2是笔画编码实例图;
图3是包含相同笔画成分但字形不相似汉字实例图;
图4是相似汉字点阵对比图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案做具体阐述。
如图1所示,本发明提供了一种用于形近字分类的语言处理方法分为以下三个步骤:
一、从网上下载UNICODE汉字笔画编码表,是一个所有20902个汉字(U+4E00~U+9FA5)的笔画顺序表,部分如表1所示。
表1部分UNICODE汉字笔画编码表
其中1表示“横”;2表示“竖”;3表示“撇”;4表示“捺”;5表示“折”统计所有笔画结构出现的频度。笔画编码表汉字排列顺序由其笔画长度由短到长依次排列,每个汉字对应一个笔画编码,对其的分析过程为:由上到下依次分析每个字所包含的笔画成分,如果笔画成分之前未出现过,则将其保存为一类,其出现次数记为1,如果遇到出现过的笔画成分,则将其出现次数加一;将此表遍历后,就得到了所有笔画结构的出现次数,将出现次数低于10次的特例滤除并依次排序,就完成了笔画结构的统计。在两万个汉字中统计得到笔画和对应集合包含汉字数表,部分如下表2所示。然后,将以上步骤筛选得到的笔画结构即高频度笔画结构作为标志,如“511”(折横横)、“112”(横横竖)等,将包含相应笔画结构的汉字组成一个集合对应于此笔画结构,由此得到大量有交集的汉字集合,并保存到数据库中,生成待处理的数据表。
表2笔画成分及对应的汉字数量分类表
二、对于已有的汉字集合表,显然笔画成分1、2、3、4、5出现会最多,它们对应的表中汉字数也最多,但由于标志笔画成分太短,包含的形态信息有限,其集合中的汉字没有任何突出的共同特点,所以需要滤除较短笔画结构即编码长度小于4的笔画结构对应的汉字集合,其中也包含12(横竖)、25(竖折)等常见笔画成分,并结合其出现次数判断其是否具有特征,包含汉字数过多的笔画成分则不具有特征;但就较长笔画结构,编码长度大于9的笔画结构来说,如3412515415,包含此结构的字有翕、翖、噏、嶖等,它们已经具有较强的相似相似性,集合中也几乎不会含有不相似的成分,如表3所示,较长笔画结构对应的汉字数据表可直接复制添加到形近字数据库中,就可生成一张形近字表。形近字表添加完成后,为了后续处理需要将较长笔画结构对应的汉字集合也同样滤除。
表3形近字表
序号 | 汉字 | Unicode编码 | 笔顺编码 |
09871 | 翕 | 7FD5 | 341251541541 |
09872 | 翖 | 7FD6 | 341251541541 |
14580 | 噏 | 564F | 251341251541541 |
14630 | 嶖 | 5D96 | 252341251541541 |
15207 | 潝 | 6F5D | 441341251541541 |
15347 | 嬆 | 5B06 | 531341251541541 |
16224 | 歙 | 6B59 | 3412515415413534 |
16492 | 熻 | 71BB | 4334341251541541 |
18765 | 蹹 | 8E79 | 2512121341251541541 |
19361 | 闟 | 95DF | 25112511341251541541 |
三、通过以上步骤后,对于剩下汉字集合,可能会出现这样的情况,如图3所示,113533所代表的汉字集合中,会有“埸”、“啄”两个字,虽然都包含113533成分,但却不相似,这由于笔画编码的不精确引起的,笔画编码存在把横、横折钩、提表示为1的简化情况。所以需要把汉字集合中的汉字进行点阵比较,把那些特例,即平均相似度较低的汉字滤除,得到处理后的新的汉字表,将其以同步骤二中相同的方法保存到形近字数据库中,才能完成形近字的统计分类工作。
对于同一集合内的汉字的点阵比较,其基本方法是将两个汉字的点阵对位相乘,如果有重叠部分则结果为1,反之为0,重叠越多其相似度越高,譬如,如图4所示,说和悦字,共有38个点重合,而“说”字一共63个点,重合点占了60%。形态上相似的字会有更多的重叠,其相似度也相应的高于不相似的组合。本发明采用汉字的16*16点阵,将两个汉字的相似度具体定义如下:
其中,i,j为两个汉字的标号,Xij表示两个汉字的相似度,m代表矩阵的行,n代表矩阵的列,Wimn代表汉字i的m行n列的值,Wjmn代表汉字j的m行n列的值。
要在集合中滤除不具有集合内大多数汉字所具有特征的特例,就需要汉字在集合内平均相似度的计算,以此来滤除平均相似度低的汉字。因为笔画编码长度,即汉字总的笔画数的不同,汉字的结构就可能不同,如寸和付字,一个为独体结构,一个为左右结构,点阵的对比会出现误差,所以平均相似度的计算以加权方式进行,以减小这种情况的误差的影响,具体算法如下:
其中,Sn代表字n的平均相似度,i代表字i,n代表字n,Li代表字i的笔画编码长度,Ln代表字n的笔画编码长度,Xin代表两个字的相似度,N代表集合中除去字n的字的总数。笔画编码长度相差越大的汉字,计算此平均相似度中就会有更高的权值,以此减小误差。然后计算所有汉字集合中汉字的平均相似度的平均值,将低于平均水平一定百分比的汉字排除,根据实际需要可以设置70%、80%等不同的数值。
以1.泮(44143112)、2.胖(351143112)、3.拌(12143112)、4.绊(55143112)、5.班(1121431121)五个字为例子说明:
计算汉字两两的相似度,也就是代表两汉字点阵重叠的点数,计算得到以下相似度:
其中,X12显然等于X21,所以没有列出后者,然后再利用前述平均相似度计算每个字在当前表中的平均相似度,五个字的笔画编码长度分别为L1=8、L2=9、L3=8、L4=8、L5=10。
S1=24.18
同理,算出S2=23.62、S3=23.60、S4=19.75、S5=16.78,汉字集合中所有汉字平均相似度的平均值为21.586,80%*21.586=17.2688,5.班(1121431121)字低于这个值,所以滤除;至于从一组数据中筛选滤出低于平均水平的数据的方法有很多,在此不再赘述。
由于一个汉字包含不止一种特征信息,所以根据不同的特征信息可能同时包含在多个形近字表中,例如,“斩”字和“折”、“近”等字会归为一类,也会和“轨”、“转”等字分为一类。在查询形近字的时候就需要查出所有包含此字的形近字表,将多张表中的重复结果滤除再合并,就可得到某个字完整的形近字表。
通过以上实施方式,很好地实现了本发明的目的,本发明通过利用汉字笔顺编码所提供的特征信息对汉字形近字进行筛选,进一步通过汉字点阵比较提高了系统精度,很好的协调了效率和准确度,使人从繁重的手工统计中解放出来,使形近字的获取更加快捷方便。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方案中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
Claims (3)
1.一种笔画编码结合汉字点阵的形近字分类方法,其特征在于,包括以下步骤:
步骤一、统计笔画编码表中所有笔画结构出现的频度,将出现次数低于10次的笔画结构滤除并排序,将包含相应笔画结构的汉字组成一个集合对应于此笔画结构,由此得到若干个汉字集合;
步骤二、对步骤一得到的汉字集合进行筛选,滤除编码长度小于4的笔画结构对应的汉字集合,将剩余的汉字集合添加到形近字数据库中,每个集合生成一张形近字表;
步骤三、对步骤二得到的汉字集合中的汉字进行点阵比较并计算平均相似度,求所有汉字的相似平均度的平均值,将低于平均值80%对应的汉字滤出,得到处理后的汉字集合,将其以步骤二中相同的方法保存到形近字数据库中。
2.根据权利要求1所述的笔画编码结合汉字点阵的形近字分类方法,其特征在于:所述步骤三种汉字点阵比较采用对位比较的方法,计算得到两个汉字的相似度,将点阵表示为由0,1表示的16×16矩阵,有汉字笔画的位置为1,反之为0,相似度计算公式如下:
其中,i,j为一个汉字集合中两个汉字的标号,Xij表示两个汉字的相似度,m代表矩阵的行,n代表矩阵的列,Wimn代表汉字i的m行n列的值,Wjmn代表汉字j的m行n列的值。
3.根据权利要求1或2所述的笔画编码结合汉字点阵的形近字分类方法,其特征在于:所述步骤三中汉字集合中每个汉字的平均相似度计算如下:
其中,Sn代表字n的平均相似度,i代表字i,n代表字n,Li代表字i的笔画编码长度,Ln代表字n的笔画编码长度,Xin代表两个字的相似度,N代表集合中除去字n的字的总数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611065190.0A CN106598920B (zh) | 2016-11-28 | 2016-11-28 | 一种笔画编码结合汉字点阵的形近字分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611065190.0A CN106598920B (zh) | 2016-11-28 | 2016-11-28 | 一种笔画编码结合汉字点阵的形近字分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106598920A CN106598920A (zh) | 2017-04-26 |
CN106598920B true CN106598920B (zh) | 2019-09-27 |
Family
ID=58595365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611065190.0A Active CN106598920B (zh) | 2016-11-28 | 2016-11-28 | 一种笔画编码结合汉字点阵的形近字分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106598920B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344387B (zh) * | 2018-08-01 | 2023-12-19 | 北京奇艺世纪科技有限公司 | 形近字字典的生成方法、装置和形近字纠错方法、装置 |
CN109597971B (zh) * | 2018-12-03 | 2022-12-20 | 上海理工大学 | 生成盲文字和盲文字库的方法及该盲文字库的使用方法 |
CN109285394A (zh) * | 2018-12-04 | 2019-01-29 | 王洪涛 | 一种基于脑科学研究的汉字启蒙教育系统及方法 |
CN110097002B (zh) * | 2019-04-30 | 2020-12-11 | 北京达佳互联信息技术有限公司 | 形近字确定方法、装置、计算机设备和存储介质 |
CN111222590B (zh) * | 2019-12-31 | 2024-04-12 | 咪咕文化科技有限公司 | 形近字确定方法、电子设备和计算机可读存储介质 |
CN111695333B (zh) * | 2020-06-24 | 2022-09-13 | 华侨大学 | 一种商标字形相似度检测方法、装置及设备 |
CN112990176B (zh) * | 2021-04-09 | 2023-07-18 | 北京有竹居网络技术有限公司 | 书写质量评价方法、装置和电子设备 |
CN113626554B (zh) * | 2021-08-17 | 2023-08-25 | 北京计算机技术及应用研究所 | 一种计算汉语文档哈希值的方法 |
CN115881005A (zh) * | 2022-09-23 | 2023-03-31 | 四川长虹网络科技有限责任公司 | 一种基于笔画点阵的lcd汉字显示方法 |
CN116597453B (zh) * | 2023-05-16 | 2024-08-20 | 暗物智能科技(广州)有限公司 | 一种形近字单字识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1144357A (zh) * | 1996-05-07 | 1997-03-05 | 胡正云 | 汉字数码编排方法 |
CN1153943A (zh) * | 1996-05-15 | 1997-07-09 | 田维和 | 九九分级制编码法(包括形序分级编码法与音序分级编码法)及10×10键盘创制方案 |
CN101984436A (zh) * | 2010-11-19 | 2011-03-09 | 无敌科技(西安)有限公司 | 一种汉字形近字的查询装置及方法 |
CN102981767A (zh) * | 2012-11-28 | 2013-03-20 | 中国地质大学(武汉) | 一种单个汉字手写识别方法及系统 |
-
2016
- 2016-11-28 CN CN201611065190.0A patent/CN106598920B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1144357A (zh) * | 1996-05-07 | 1997-03-05 | 胡正云 | 汉字数码编排方法 |
CN1153943A (zh) * | 1996-05-15 | 1997-07-09 | 田维和 | 九九分级制编码法(包括形序分级编码法与音序分级编码法)及10×10键盘创制方案 |
CN101984436A (zh) * | 2010-11-19 | 2011-03-09 | 无敌科技(西安)有限公司 | 一种汉字形近字的查询装置及方法 |
CN102981767A (zh) * | 2012-11-28 | 2013-03-20 | 中国地质大学(武汉) | 一种单个汉字手写识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106598920A (zh) | 2017-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106598920B (zh) | 一种笔画编码结合汉字点阵的形近字分类方法 | |
CN103699523B (zh) | 产品分类方法和装置 | |
CN108427953A (zh) | 一种文字识别方法及装置 | |
CN103838835B (zh) | 一种网络敏感视频检测方法 | |
CN111507351B (zh) | 一种古籍文档数字化的方法 | |
CN101719142B (zh) | 基于分类字典的稀疏表示图片文字检测方法 | |
Rausch et al. | Docparser: Hierarchical document structure parsing from renderings | |
CN107463607A (zh) | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 | |
CN114092700B (zh) | 基于目标检测和知识图谱的古文字识别方法 | |
CN105608454A (zh) | 基于文字结构部件检测神经网络的文字检测方法及系统 | |
CN106170002A (zh) | 一种中文仿冒域名检测方法及系统 | |
CN112527981B (zh) | 开放式信息抽取方法、装置、电子设备及存储介质 | |
CN106650748A (zh) | 一种基于卷积神经网络的汉字识别方法 | |
CN107273295A (zh) | 一种基于文本混乱度的软件问题报告分类方法 | |
CN109857912A (zh) | 一种字形识别方法、电子设备及存储介质 | |
CN114881698A (zh) | 广告合规审核方法、装置、电子设备及存储介质 | |
CN102360436B (zh) | 一种基于部件的联机手写藏文字符的识别方法 | |
CN109918648B (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
Roy et al. | Word retrieval in historical document using character-primitives | |
Rothacker et al. | Bag-of-features HMMs for segmentation-free Bangla word spotting | |
CN112084308A (zh) | 用于文本类型数据识别的方法、系统及存储介质 | |
CN111241329A (zh) | 基于图像检索的古文字考释方法和装置 | |
CN105938547A (zh) | 一种纸质水文年鉴数字化方法 | |
CN109472020A (zh) | 一种特征对齐中文分词方法 | |
CN110609936A (zh) | 一种模糊地址数据智能分类的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |