CN1231830C - 码元用笔划集合数表示法及用途 - Google Patents
码元用笔划集合数表示法及用途 Download PDFInfo
- Publication number
- CN1231830C CN1231830C CN 01139523 CN01139523A CN1231830C CN 1231830 C CN1231830 C CN 1231830C CN 01139523 CN01139523 CN 01139523 CN 01139523 A CN01139523 A CN 01139523A CN 1231830 C CN1231830 C CN 1231830C
- Authority
- CN
- China
- Prior art keywords
- stroke
- code element
- group
- word
- yards
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000000178 monomer Substances 0.000 claims description 11
- 238000005452 bending Methods 0.000 abstract 1
- 238000007792 addition Methods 0.000 description 5
- 238000005266 casting Methods 0.000 description 2
- 229940074869 marquis Drugs 0.000 description 2
- VBUNOIXRZNJNAD-UHFFFAOYSA-N ponazuril Chemical compound CC1=CC(N2C(N(C)C(=O)NC2=O)=O)=CC=C1OC1=CC=C(S(=O)(=O)C(F)(F)F)C=C1 VBUNOIXRZNJNAD-UHFFFAOYSA-N 0.000 description 2
- 230000007306 turnover Effects 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000005194 fractionation Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
Landscapes
- Document Processing Apparatus (AREA)
Abstract
码元用笔划集合数表示法及用途,属于汉字编码技术领域。是一种汉字编码的码元用数字表示的方法。把单字分解成单笔划后a:把同种笔划集合在一起,用总数表示码元;b:用1、2、3、4、5依次代表横、竖、撇、捺、折,按笔顺两笔结合一组,分别用组内笔划的代表数字相加形成码元。可用此法对汉字编码,又可结合字母作区别码,用区别码对汉字和二字词的编码只有3码,简单直观明确易用。用于电脑输入和检索。
Description
技术领域 本发明属于电子计算机的中文输入法及其应用的技术领域。
背景技术 电子计算机的中文输入,一般是把汉字编码以后用键盘输入的方法。但目前的汉字编码,第一类用英文字母作码元,如五笔字型、智能A、B、C输入法等;第二类编码的输入法用数字作码元,如区位输入法和手机上常用的单笔画输入法。(以上各种输入法参阅资料是中国版本图书馆CZP数据核字2000第49640号《电脑随身宝典》/舒目著—珠海出版社2000年10)。其中第一类编码中采用字母,难学难记,远不如数字码简单,但上述的数字码,如区位码是把数千汉字一一规定为不同的数字码,无法一一记清,不能快速实用,而手机上的单笔画码,采用5个数字代替5种单笔画,码元符号太小,对汉字编码时,编码太长(多达六位),而且重码多。特别是某个字的偏旁笔画多时输入速度更慢,如对“露”字的编码就长。可见采取单笔画形成码元,编码长且重码率高,需要用先进的方法代替。
发明内容 本发明是这样实现的。在电脑的中文输入时,可以对汉字按字形编码,把单个汉字拆成横、竖、撇、捺、折5种单笔画,其中横含提,捺含点,折为汉字中一切带转折或带转变的笔画。a直接把这个汉字的拆分的单笔画的同种笔画各自算在一起,看5种笔画各自有多少,如果某种笔画算在一起的总数小于6,就用它的实际总数表示这种笔画的码元,如果某种笔画算在一起等于6或多于6,就用6表示这种笔画的码元;如果这个汉字缺少某种笔画,则用o表示。5种笔画都有了相应的码元,我们可以按横、竖、撇、捺、折顺序把5个码元连排起来,就是该字的编码,这种编码方法可以用于电脑中文输入,它规则简单,任何疑难的字可以见字即输。本文把这种汉字拆成5种单笔画,再把5种单笔画各自集合一起(就是算在一起),用各自算在一起的数字作为码元的方法叫做和集法。我们可以这样用和集法对字典上所有汉字编码统一整理,按从小到大的顺序整理起来,制成数字检索表。
b对汉字编码时,将汉字拆成单笔画,并用1、2、3、4、5分别依次表示横、竖、撇、捺、折,其特征在于:把拆成的单笔画按书写顺序每两笔画结合为一组,余下的单笔画也算一组,接着把各组内的单笔画的代表数字相加,用加起来的结果数字表示这组笔画的码元,但规定折加折时用0表示。如果组内只有一个单笔画,则可以用这个单笔画的代表数字表示为码元,这样,汉字按笔顺每两笔一组(最后剩余一笔也算一组),都用1个数字表示为码元,本发明把这种方法叫做并集法。并集法适应于任何汉字,也就是任何汉字都可以按笔顺两笔一组形成数字码元,按笔顺把各码元连排起来,就是该字的编码。但是这样对于笔画多的字编码过长。为了克服此缺点,减少重码字,本发明进一步规定,将所有汉字分成两类(两类和为全部汉字),第一类是不拆分两半的单字,本文叫单体字,第二类是可以拆分两半的单字,本文叫双体字。双体字包括一切合体字和其它带有偏旁部首的字,但偏旁部首必须是两画和两画以上,偏旁部首只有一画的字叫单体字(如九生用),显然:这样的分类界限清楚,也很直观。单体字用并集法编码步骤,是按书写顺序每两笔画结合一组,若余下单笔画也算一组,然后把组内笔画代表数字相加,用相加结果表示码元。但每个字编码时按书写顺序取足4码为止,取4码以后的笔画不用,若取不够4码,有几码算几码,直接断码。
用并集法对双体字编码。先把双体字分成两半,左右型的,左半算首半,右边算后半,上下型的上边算首半,下边算后半。带偏旁部首的双体字偏旁部首的算一半,其余笔画算一半,但先写的算首半,后写的算后半,编码方法是取首半的第一组笔画的码元(即把第1组笔画的两个代表数字相加),为第1码,接着按书写顺序取后半的各组笔画的码元,共取足4码为止,4码以后的笔画删去不用,不足4码的有多少算多少,直接断码。
如果遇到分不清是单体字还是双体字或偏旁部首拆不准时,可以在编码时作一字两码处理,即不同的处理都能打出字来。
通过上述,任何汉字无论是单体还是双体或者是分不准确的字都能用并集法形成数字编码,且不超过4码。具此,我们可以把字典上所有汉字都编成数字码,然后统一从小到大整理起来,按单字和编码以及在字典上位置的页码制成检字表,用以代替部首法查字典、词典、电子词典等。
具体实施方式 实施例1:用和集法对汉字编码
1、首先将单个汉字分解成5种单笔画,即横(含横与提)、竖(不带构)、撇、捺(含捺与点)、折(所有带转弯或带转折的笔画),并按横竖撇捺折归为五类后,将五类笔画分别算在一起,看各自总共有多少。
2、如果算在一起的总数小于6,用它的实际总数表示这种笔画的码元;如果集合起来的总数等于6或多于6,都用6表示这种笔画的码元;如果该单字确少某种笔画,则用0表示。
3、按横竖撇捺折顺序把各码元连排起来,就是该字的外码。
如:“侯”字,拆分为单笔画是:撇、竖、折、横、撇、横、横、撇、捺,算在一起共有3个横,3就是横笔的对应码元;共有1个竖,竖的对应码元是1;共有3个撇,撇的对应码元是3;共有1个捺,捺的对应码元是1;共有1个折,折的码元是1,然后按横竖撇捺折连排起来为31311,它就是“侯”的编码。
再如:“汉”字,拆分后单笔画为点、点、提、折、捺,算在一起只有一个横(即提),则横的对应码元是1。“汉”字没有竖笔,竖的对应码元是0;没有撇笔,撇的对应码元也是0;有2个点和1个捺,捺的对应码元是3;有1个折笔,折的对应码元是1,连排起来,“汉”的对应码元是10031。
再如:“瞿”字,其横笔为10个超过6个,以6为代表,则横笔的码元为6,有4个竖笔,竖的码元是4,1个撇,撇的码元是1,一个点,捺的码元是1,两个折,折的码元是2,连排起来,则“瞿”字的外码是64112。
用这样的方法也可对任何汉字编码。
实施例2:用并集法对汉字编码
把单字分成两类(两类之和是全体汉字)
第一类是不拆分两半的单字,本文叫单体字,第二类是可以拆分两半的单字,本文叫双体字。双体字包括一切合体字和其它带有偏旁部首的字,但偏旁部首必须是两画和两画以上,偏旁部首只有一画的字叫单体字(如九生用),显然:这样的分类界限清楚,也很直观。
1、对单体字编码先把单体字折成横竖撇捺点五种单笔画,横含提,捺含点,折为一切带转折和带转变的笔画。分成五单笔画后,分别1、2、3、4、5依次代表横竖撇捺折,按书写顺序,每两笔画组合为一组,余下一个单笔画也算一组,然后把组内的单笔画的代表数字明加表示为码元,但折与折用0表示码元。然后依书写顺序连取4码为止,4码以后的笔画不用,若取不足4码,有几码算几码,直接断码不动。
如对“大”编外码,可将“大”的笔画分组为第一组横撇,则1+3=4,4为第一组的码元;第二组笔画只有一笔捺,捺的代表数字是4,则4就是第二组的码元,所以大的编码是44。
2、对双体字编码
①先将双体字分为两半,左右型分为左右两半,上下型分为上下型两半,带两画或两画以上偏旁部首的,偏旁部首为一半,余下的为另一半。但先写的为首半,后写的为后半。
②按并集法取首半的第一组笔画的码元,就是把第一组笔画内的两个代表数字相加形成码元,接着用同样方法取后半的各组笔画的码元,再按书写前后的顺序连排起来,形成该字的数字外码。但是超过4码的汉字只取前4码,即在编码中,只要编够4码就停止。也就是说不算一个字有多少组笔画,在编码时,最多取不超过4组(按笔顺)。
如对“雇”的编码,先分两半“户”与“隹”,取“户”的第一组笔画点折的码元即4+5为9,再对“隹”连取三码为撇竖——3+2为5,点横——4+1为5,横横——1+1为2,到此为止,形成雇的外码9552。
用以上的方法,可以对任何单个汉字编成不超过4码的外码。
这样的数字外码形成后,可以按从小到大的顺序排起来,数字都对应着单字,而且都有单字在字典上的页码数,具此整理后可制成检字表,设计电脑字典,从而可以代替部首法、笔画法,用于查字典、词典。
如:整理后的检字表摘录如附表
注:本附表的页码数是指《新华字典》(1998年修订本)的页码数。
如用于检索其它字词典,则页码数按该字词典中的单字所在的页码确定。
编码 | 单字 | 页码数 |
…… | …… | …… |
3721 | 351 | |
3723 | 草 | 44 |
3726 | 莳 | 135 |
3727 | 菖 | 51 |
3728 | 萌 | 337 |
3729 | 荟 | 203 |
3731 | 苗 | 342 |
…… | …… | …… |
Claims (2)
1、一种用数字作为码元的汉字输入法,在汉字编码时把汉字拆成横、竖、撇、捺、折五种单笔画,
a其特征在于把拆成的单笔画的同种笔画各自算在一起,用各自的总数表示这种笔画的码元,但超过6的都用6表示,不足6的就用实际数表示,如果这个汉字缺少某种笔画,则用0表示这种笔画的码元,然后按横、竖、撇、捺、折顺序把5个码元连排起来,这5位数字就是这个汉字的编码;
b把汉字拆成单笔画后,分别用1、2、3、4、5依次代表横、竖、撇、捺、折,其特征在于:按书写顺序,每两笔结合为一组,余下的单笔画也独成一组,接着把组内的单笔画的代表数字相加,用加起来的结果数字表示这组笔画的码元,但规定折加折用0表示,如果组内只有一个单笔画,则用这个笔画的代表汉字表示为码元;
——将所有汉字分为单体、双体两大类,单体字用并集法编码时,把该字每两笔结合为一组,若余下一笔也算一组,把组内代表数字相加为码元;但规定折加折为0,然后按书写顺序连取4码,超过4码的笔画不用,不足4码的有几码算几码,直接断码;
——双体字的编码,取双体字前半的第一组笔画,即该字的第一第二笔画,两个代表数字相加为第一码,然后用同样方法在双体字的后半按书写顺序取第二、第三、第四码,超过4码的笔画不用,不足4码的直接断码不动。
2、根据权利要求1所述的方法,其特征在于其用途是可以形成两种不同的数字编码各自单独用于电脑、手机的中文输入,也可以按各自的方法对字典上所有汉字统一编码,按从小到大顺序整理,按单字对应编码对应字典页码制成汉字检索表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 01139523 CN1231830C (zh) | 2001-11-20 | 2001-11-20 | 码元用笔划集合数表示法及用途 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 01139523 CN1231830C (zh) | 2001-11-20 | 2001-11-20 | 码元用笔划集合数表示法及用途 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1420422A CN1420422A (zh) | 2003-05-28 |
CN1231830C true CN1231830C (zh) | 2005-12-14 |
Family
ID=4675255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 01139523 Expired - Fee Related CN1231830C (zh) | 2001-11-20 | 2001-11-20 | 码元用笔划集合数表示法及用途 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1231830C (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103164466B (zh) * | 2011-12-16 | 2016-08-31 | 李瑞民 | 冷僻汉字的笔顺子字检索法 |
CN103543841B (zh) * | 2013-11-13 | 2017-03-15 | 罗嗣孝 | 汉字唯一拆分输入法 |
CN109271610A (zh) * | 2018-07-27 | 2019-01-25 | 昆明理工大学 | 一种汉字的向量表达方法 |
-
2001
- 2001-11-20 CN CN 01139523 patent/CN1231830C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1420422A (zh) | 2003-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1231830C (zh) | 码元用笔划集合数表示法及用途 | |
CN115393866A (zh) | 一种基于深度学习的工尺谱谱字识别系统及方法 | |
CN1209697C (zh) | 单双笔汉字数码输入法及其键盘 | |
CN105912139A (zh) | 一种模块化笔画编码汉字对应识别的方法 | |
CN1069351A (zh) | 汉字直观音形编码输入法及键盘 | |
CN87105289A (zh) | 汉字形音编码法 | |
CN1032986C (zh) | 笔顺码计算机汉字输入方法 | |
CN1138198C (zh) | 千里码——一种简易的汉字编码计算机输入方法 | |
CN1208885A (zh) | 汉字标准部首笔顺编码及其输入方法 | |
CN1049749C (zh) | 汉字矢量输入方法及其键盘 | |
CN1117311C (zh) | 25键形码汉字电脑输入法 | |
CN1028457C (zh) | 一种笔画数码加声码的汉字计算机输入系统 | |
CN1226021A (zh) | 计算机七三汉字输入法 | |
CN1036359C (zh) | 计算机汉字反切编码输入法 | |
CN1193763A (zh) | 认字码编码方法及其输入键盘 | |
CN1523477A (zh) | 三五数码 | |
CN1588353A (zh) | 数码字典查字方法 | |
CN1226683C (zh) | 完全跳跃录入汉字法 | |
CN1427323A (zh) | 三五声码 | |
CN102637077A (zh) | 用于计算机汉字输入的音、形、调混合编码方法 | |
CN1542593A (zh) | 五笔区形中文输入法 | |
CN1148196A (zh) | 文字式音形汉字输入方法 | |
CN86105505A (zh) | 汉字输入方法及其所用键盘 | |
CN1456963A (zh) | 一笔字型汉字输入法及键盘 | |
CN1216374A (zh) | 计算机汉字笔序码键盘输入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |