CN1420422A - 码元用笔划集合数表示法及用途 - Google Patents
码元用笔划集合数表示法及用途 Download PDFInfo
- Publication number
- CN1420422A CN1420422A CN 01139523 CN01139523A CN1420422A CN 1420422 A CN1420422 A CN 1420422A CN 01139523 CN01139523 CN 01139523 CN 01139523 A CN01139523 A CN 01139523A CN 1420422 A CN1420422 A CN 1420422A
- Authority
- CN
- China
- Prior art keywords
- stroke
- sign indicating
- code element
- indicating number
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 123
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 230000033764 rhythmic process Effects 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000007185 Stork enamine alkylation reaction Methods 0.000 abstract 1
- 150000001875 compounds Chemical class 0.000 description 10
- 239000000178 monomer Substances 0.000 description 8
- 229940074869 marquis Drugs 0.000 description 6
- VBUNOIXRZNJNAD-UHFFFAOYSA-N ponazuril Chemical compound CC1=CC(N2C(N(C)C(=O)NC2=O)=O)=CC=C1OC1=CC=C(S(=O)(=O)C(F)(F)F)C=C1 VBUNOIXRZNJNAD-UHFFFAOYSA-N 0.000 description 6
- 239000000203 mixture Substances 0.000 description 4
- 238000003825 pressing Methods 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 238000005266 casting Methods 0.000 description 3
- 238000005194 fractionation Methods 0.000 description 3
- 230000007306 turnover Effects 0.000 description 3
- 206010011469 Crying Diseases 0.000 description 2
- 235000014676 Phragmites communis Nutrition 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 230000009182 swimming Effects 0.000 description 2
- 239000002023 wood Substances 0.000 description 2
- 244000000383 Allium odorum Species 0.000 description 1
- 235000018645 Allium odorum Nutrition 0.000 description 1
- 240000007087 Apium graveolens Species 0.000 description 1
- 235000015849 Apium graveolens Dulce Group Nutrition 0.000 description 1
- 235000010591 Appio Nutrition 0.000 description 1
- 244000025254 Cannabis sativa Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 239000008141 laxative Substances 0.000 description 1
- 230000002475 laxative effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000008188 pellet Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Landscapes
- Document Processing Apparatus (AREA)
Abstract
码元用笔划集合数表示法及用途,属于汉字编码技术领域。是一种汉字编码的码元用数字表示的方法。把单字分解成单笔划后a:把同种笔划集合在一起,用总数表示码元;b:用1、2、3、4、5依次代表横、竖、撇、捺、折,按笔顺两笔结合一组,分别用组内笔划的代表数字相加形成码元。可用此法对汉字编码,又可结合字母作区别码,用区别码对汉字和二字词的编码只有3码,简单直观明确易用。用于电脑输入和检索。
Description
一种汉字编码的
码元用数字表示的方法和这种方法的用途,本发明的名称是
码元用笔划
集合数表示法及用途,以下简称:
积笔法。
本文中凡下边加横线连在一起的字表示这几个字合起来为一个词以下同。本发明属
电子计算机应用软件的设计技术领域,更确切的说,属于汉字编码方法用其应用的技术领域。
汉字(含由汉字组成的词和短语)的编码是指用字母或数字及其它符号排列成一串,形成不同的
序列,各个既定的序列分别表示对应的汉字。这一串序列,本文叫做汉字对应的
外码,构成
外码的字母、数字、符号(每个位置上只有一个)本文叫做
外码的
码元(本文简称
码 元)。
目前的汉字编码,基本上为两类。第一类,用字母和非数字符号作码元,即码元中不含有数字符,如:
五笔字型输入法、
智能ABC输 入法,(参阅资料是中国版本图书馆CIP数据核字2000第49640号《电脑随身宝典》/舒月编著--珠海:珠海出版社2000.10)。第二类编码方法是用数字作
码元。如:
区位码输入法(参阅资料同上),及手机上常采用的
笔划输入法,即把单个汉字分成横(含提)、竖、撇、捺(含点)、折(一切带转折的和带转弯的单笔划),再依次用1、2、3、4、5代表。在第一类编码方法中,虽各有各的优点,但是,就电脑
键盘输入而言,
键符包括数字键,而上述方法中没有使用数字作
码 元,仅用数字作
重码字的序号。这样,没有充分利用键盘符,结果在制定某种编码方案时,用来表示码元的键符相对较少,码元符号数相对不足。这就造成编码时
重码字多。为了尽量减少
重码字,只有多设定
规则或者增加外码的可达长度(即编码时部分字的外码较长,例如:五笔字型编码多的达4位,智能ABC可达5位)。这样在编码应用于电脑输入时就减慢输入速度。而在第二类编码中,如
区位输入法虽使用数字且无重码,但要把数千汉字分别一一规定成不同的
区位码,难学难记;而
笔划输入法使用的
码元只有五个数字,码元符号太少,形成外码时某些汉字的外码太长(多达六位等)、而且重码字更多,特别是某个字的偏旁笔划多时输入速度更慢,(如:对“露”的编码输入就慢)。再者,目前的汉字检索如查字等,当按字形查字时,通常用
偏旁部首法进行很难快捷,需要用较好的方法代替。
本发明的目的如下:
如果对上述编码方法进行改进,在编码时,可以采用尽量多的数字,(即阿拉伯数字的1、2、3、4、5、6、7、8、9、0,和小数点.合起来共11个,以下同)作码元,设计用不同的单个数字表示不同的码元,然后再利用数字码元编码。以此作
码元,
码元的数目就比
笔划 输入法中
码元数目多,这样在编码时,就可以形成较多的序列编码,就可以减少
重码字。而且纯数字
外码整理后可以制成汉字检索表。
而且进一步,码元选用数字加字母和其它符号。以此作码元,码元的数目就更多,这样编码时,就可以形成较多的序列时以利于减少重码字。把这些方法综合起来,可以制定一个综合的电脑
中文输入方案。据此就可以用一种总的构思形成不同的应用,构思出一个总原理,多应用、多用途、多功效的发明方案,这便是本发明的目的。
本发明是这样实现的。
一般对汉字编码有按字形和按字音两种。在按字音编码时可以采用双拼法,(见《电脑随身宝典》第二、3节),即用该字的声母和韵母各取一个字母后组成两码
外码。但是这样对
同音字过多的
重码无法区别。为了区别
同音字,进一步可以在双拼形成的两码后边加一个不同的
表符对
同音字进行区别。这样,单字的外码表示为:声母码+韵母码+区别码,本文把加在双拼后边区别同音字的
表符叫
区别码。
而在按字形编码中,把单个汉字按横、竖、撇、捺、折共五种单笔划拆分,然后,a、不用下边b的方法,b、用下边方法,即用1、2、3、4、5共5个数字分别依次代表横、竖、撇、捺、折,且按书写顺序对拆分后的单笔划每两个笔划结合为一组,若余下一个单笔划无法与其它笔划结合(包括这个单笔划后边是特殊规定整体不折分的“卄”与“口”等特殊构件或这个单笔划在该字最后一笔,)该单笔划也为一组。在此基础上,本发明的特征是:将拆分后的单笔划按以下两种方法集合起来用数字表示。a:在a种情况下(即仅在把某个单字拆分为五种单笔划后,紧接着)把这个单字的同种笔划集合在一起,集合后形成的结果用数字表示,作为这种笔划的对应码元,但“集合后形成的结果用数字表示”的含义包括以下内容:
1、集合后没有某种笔划用“0”或“.”之一表示(如“木”字中没有折笔划,就用“0”或“.”之一表示)
2、如果某种笔划的总数超过一个既定的数字(超过4、或超过5、或超过6、或7、或8、或9、或10)都按这个既定的数字表示。
3、不超过既定数字的,仍用同种笔划的实际数表示。
总之,用以上方法,可以将任何汉字,形成五种码元,这种把单字
同种笔划集合起来用
数字表示
码元的方法本文简称“
和集法”。
本发明还可以是,根据a所述的方法,其特征在于单字用
和集法形成5种码元后按横、竖、撇、捺、折顺序排列起来,形成的序列就是该单字的外码。当然横、竖、撇、捺、折,前后顺序可以互换位置,但无论哪种设定是等效的,一种编码方案只能有一种设定。用这样的方法可以把任何汉字都编成5码
外码。
这样的外码,可应于电脑、手机中文输入及整理后用于汉字检索。
b、在b种情况下(即单笔划用1、2、3、4、5代表横、竖、撇、捺、折和每两笔划分一组余下单笔划也算一组),接着把已划分为组的组内单笔划代表数字相加,用加法的结果的数字表示这组的对应码元。这句话的意思详述如下:把单字中已划分为组的,组内
单笔划用它们的
代表数字加起来,用加起来的运算结果的数(不超过10,最多是10)表示码元,但不足10个仍用原数,如果加起来是10,(如“幼”中第一级笔划折与折,5+5=10)可用“0”或“.”之一表示,即幼的第一组笔划对应码元是“0”或“.”。但只能选用二者之一。但如果组内只有一笔,则可以就用这个单笔划的代表数字表示码元,或者另外规定如下:将这个单笔划的代表数字再加上这个数字,用这个结果表示码元;或者将这个数乘以2,用乘以2的结果表示码元或者都加上5(或4、或3、或2、或1)将这个数的结果表示码元,须提出的是在某一种编码方案中单笔划只能择用上述方法之一种
表示法统一运作,其是无论选择那一种方法是等效的。
如:单字“大”,第一组笔划是横和撇,可横的代表数字1和撇的代表数字3,1+3为4,4就是第一组笔划的码元,第二组笔划只有一笔捺,捺的代表数字是4,可以把4作为第二组笔划的码元,也可以把第二组的码元表示为4+4为8,也可以把第二组的码元表示为4×2=8,也可以把第二组的码元表示为4+5=9等,但只能选择一个,以选择前者的方法为佳,即“大”字的第二组笔划的对应码元是4为佳。
本发明还可以是:所有的单个汉字都可分成以下两种情况:甲、该字结构中不含“卄”与“口”的任一个或全部(如:玉、汉、元);乙、该字含有“卄”与“口”的其中一个或全部。(如:芩、叶、哎)具此,本发明的特征还可以是:根据b所述的方法在拆分单字时,遇到该字结构中含有“卄”或“口”时,“卄”和“口”都不折分,视为一个整体,也作为一组笔划集合,用“1”代表“卄”作对应码元,用“.”代表“口”作为码元,或用“.”代表卄,用“1”代表“口”,但某一种编码方案只能选前者或后者之一种
表示法,不能混淆。而且还要注意,“卄”的含义是单字中形状是卄(如
草字头)的构件,只能与其它笔划相邻而不能相交,如甘中卄不算含“艹”;口的含义是汉字中的小“口”结构,必须不与其它笔划相交且中间空。“囚”与“中”等就不算含“口”。而且“艹”或“口”前有某单笔划时,该单笔划因后边有整体不拆的构件“卄”或“口”,所以这个单笔划也算一组。如:单字“或”在折分时第一笔横,因后边有“口”,横独自算一组。
总之,用这样的方法适用任何汉字单字。
本文把这种对单个汉字笔划按书写顺序分组再将组内笔划
集合起来形成
码元的方法,简称
“并集法”。
本发明还可以是:用
并集法形成的
码元,直接进行汉字编码(就是说专用此方法直接产生产品:一种编码方案。)这种编码方案的方法如下:甲、单个汉字的编码,单个汉字分成两类(两类之和为全部汉字)第一类是不拆分两半的单字,本文叫
单体字,、第二类为可拆分两半的单字,本文叫
双体字。
双体字包括一切
合体字和带
偏旁部首的汉字,但如果
偏旁部首只有一划不算
双体字,双体字以外的汉字都叫单体字。偏旁部首只有一划的单字也叫
单体字(如:九、生、用)显然,这样分类两者界限清楚。规定对
单体字(即不可分为两半的汉字的编码,按下法进行。
先按
并集法形成该字的各个码元。
再把形成的码元按书写顺序排列起来形成一个序列,该序列就是这个字的
外码。如:对“或”字编码。先将“或”字笔划拆分为组即横;口,横与折,撇与点,其对应码元1、.、6、7。再按顺序连起来1.67,它就是“或”字的外码。
同理“天”字划组后横与横,撇与捺,则“天”的外码是27。
对
双体字(如:“打、泳、送、房)编码,如下,先将
双体字分为两半,左右型分左右两半,上下型分上下两半。带偏旁部首的单字(但偏旁部首必是两划或两划以上),偏旁部首算一半,余下的算另一半。但先起笔写的一半的叫
首半,后写的一半叫
后半。编码方法是取
首半的第一组笔划的
码元为该字第一码,接着依次取
后半各组笔划的
码元,取完为止。然后和前半第一码按顺序连起来,就是这个字的处码。如:“镪”字分为两半即“金”与“强”,取金的第一码撇与横为4,再依次取“强”笔划分组,为折与横、折、口、竖与折、横与竖、横与点,故“镪”字外码是465.735。同理:“抢”的外码是670,当然还可以附加以下规定,即如果一个字单字的外码多于四码,则只取前4码,4码以后的删去,不足4码的不动。
如果一旦遇到初学者对单字拆分不准确的情况(如:分不清某字是
单体字,还是
双体字时,或偏旁部首拆不准等,)可以在编码时作出一字两码的处理,两码是一个字,象拼音中的
多音字一样。当然,为了编码一元化,也可以不如此处理。这样,所有汉字的单字都可以编成不超过4码的数字
外码。这种用
并集法码元形成的数字
外码编法,本文简称
并集数字编码法。这种用
并集数字编码法形成的外码能很方便的应用于电脑和手机中文输入。而且用此法对字典中全部汉字统一编码后,再按一定的顺序整理使可用于制成汉字词检索表,也可以给电脑设计字典、词典功能。
本发明还可以是:用
并集汉字编码法对
中文的
二字词和
多字词短语编写简码。
甲、两字词的简码。取第一个字的前两码和第二字的前两码,按前后顺序排列起来共4码组成两字词的简码。如:“伟大”,“伟”的第一、二码是52;“大”的第一、二码是44连起来5244就是“伟大”的简码。
同理,可以把任何两字词组成4码简码。
乙、三字词的简码。取三字词中第一个字第一、二码;再取第二个字第一码;再取第三个字的第一码共4码连起来便是。
丙、4字词和4字以上词或短语的简码,依次取第一、二、三个字的首码,再取最后一个字的首码,按前后顺序连起来共4码便是。
本发明还可以是,当某种汉字编码是先用双拼法对单个单字编成统一的两码表示后(即该单字的声母码+韵母码,各用一个字母表示)可以在两码后再加上一个
区别码表示,
区别码的
表符的选择对象(即用以代表某一个区别码的某个符号),即
表符可以不仅包括字母和非数字符号,而且本发明的特征是表符还包括用
并集法形成的数字
码元,即是说
区别码中不仅含有字母(如a、b、c)和非数字符号,如:(;、:、?)作
表符,而且含有单个数字作表符(如:.、0、1、2、3),这种区别码可用于单个汉字和二字词编码,这也是b种所述的方法最主要用途。具体应用的编码方案主要内容如下:
甲、单字编码。把所有单个汉字分成两类。第一类是左右型字(如:侯、明、唱)。第二类非左右型,即除上者以外的所有汉字,(如:房、区、露、杰)两者规定有明确的界限。
乙、然后,凡左右形一律分为两半(左半和右半,左右形中最左的偏旁算左半,其余算右半,但偏旁必须是两划或两划以上)。再接着取左半的名称首字母(用双拼法只一个字母表示,至于左半的名称,即
分体字的发音或左偏旁的名称按字典规范。如果其左半无有名称则用一符号代替(如规定V或?二者之一)。再接着,用这个字母或符号作为整个字(左右两半合起来,)的区别码如:“泳”的左半是
三 点水,故用首字平s表示
区别码,同理“推”的左半是
提手边,
提手 边的双拼首字母是t,故“推”的区别码是t;
丙、在左右型字除外的一切非左右型字中其区别码是这样表示的。即取该字按书写顺序的第一组笔划后用
并集法产生的码元作区别码(注意:遇“廿”与“口”时,按并法的规定“卄”用1表示,“口”用“.”表示,且某一笔划后边是“卄”或“口”,用这一笔划的代表数作码元。)如:“太”的第一组笔划横与撇,码元是1+3=4,4就是太的
区别码,同理“芩”字中
区别码是1,“叫”的
区别码是k,“可”字的区别是6,这样所有的单字都可以按此形成
区别码,而且每个汉字都可形成声母码+韵母码+区别码的三码外码。这种汉字编码方法本文简称
双拼三码法。
丁、如上在单字中形成的区别码,形成以后接着可以对中文的二字词编写简码,步骤如下:取二字词第一个字的声母,接着取第一个的区别码,再接着取第二个字的区别区,一共三码,按前后顺序排列起来共三码组成该二字词的简码。如:“岁月”的简码如下。取“岁”的声母s,再取“岁”的区别码7(不是韵母),月的区别码8,s78便是“岁月”的简码。
同理可以把任何二字词用上法编成三码简码,这种把
中文中
两字 词的编写的简码的方法,本文也叫
双拼三码法。
本发明还可以是根据上述的方法把
中文三字词和三字以上的词编成简码。步骤是:取该词中第一个字的声母(用双拼方法)接着取第一个字的
区别码,接着取第二个字的
区别码和未尾字的
区别码共4码组成编码(注意后三码取的是区别码不是韵母码。)如“东道王”一词的简码是d6z2。从以上的叙述中,可以看本发明在一种总原理和指导思想下,形成了数字
码元,而且,分别有不同的应用,产生了
和积编 码法,
并集编码法和
并集码元作
区别码的编码法。但无论哪种编码,都必然要应用于电脑中文输入。而且,一个可行的电脑
中文输入方案,往往是几种编码方法的互相结合和配合。因此,本发明应用后形成的几种输入法可以设计在一个输入方案系统中,就可以在遇到熟字时用双拼三码法输入(3码输入),遇到生字时用
并集数字外码法输入(4码输入)遇到冷僻字弄不准笔顺时用和集编码法(5码输入)三者分工协作、互相配合,输入时就快捷又无疑难,真正是:看见字即能输入。而不比再设“z键”或“万能键”等模糊输入或其它帮助功能,也不必翻页选择。
不难看出,本发明有不少优点。首先它采用的方法有时也要拆分汉字,但这种拆分的规则都很明确,不使用“一般......”等字语,逻辑分明。再者,拆分时取相邻笔划,(不像有的拆分字根时把相交笔划拆开),拆分就容易。即是把“廿”与“口”的部件折分出来,也不于其它笔划相交,再即是把单字分两半,也是从两笔划以上的偏旁部首折起,都很容易,不像有的编码规则把相交的笔划拆开就比较难且易多元化。用
并集法编码在操作过程中,仅使用简单的加法,脑子很快就反映出结果,操作快捷。特别是本发明的
双拼三码法,所有单字编码都不超过三码(当然要比多达4码的输入要快)而且,
双拼 三码法的
区别码设定比较巧妙。首先编码时,把字分为左右型为一类,非左右型为另一类,至于
左右型只看它的左
分体字或左偏旁(而且不是一笔划),这样的规定很明确、直观、简单、易记,容易学习和操作,而第二类字即
非左右型字它包括了除左右型之外的一切单字,取码时不分为两半,只取它的第一组笔划,这也很明确、简单、易学易用。所以用
双拼三码法,脑子会很快反映出声母、韵母、
区别码,想区别码时只想该字的字首,不必细看字的其它笔划,所以输入就快。而且,两者结合起来区别码
表符就多,重码字就少(熟字几乎没有)。但如果不用本方法,而仅仅把
偏旁部首的代表字母作为
区别码,那么就很难操作。因为字典上就有许多难检字搞不准
偏旁部首,再者
偏旁 部首只有一划的字也很难识别等等,导至学习者无所适从,望洋兴叹。
再者如果在设计软件时,把本发明的几种应用结合起来用于一个输入系统,几种方法互相分工、互相补充协作,无疑可以形成一个较好的中文输入方案。
实施例1:
用
集笔法中的
和集法形成的
码元对单个汉字进行编码
(本文简称
愚公法)
1、首先将单个汉字分解成5种单笔划,即横(含横与提)、竖(不带构)、撇、捺(含捺与点)、折(单笔划中所有带转弯或带转折的笔划),并按横竖撇捺折归为五类后,将五类笔划分别集合起来,看各自总共有多少。
2、如果集合起来的总数小于6,用它的实际总数表示这种笔划的码元;如果集合起来的总数等于6或多于6,都用6表示这种笔划的码元;如果该单字确少某种笔划,则用0表示。
3、按横竖撇捺折顺序把各
码元连排起来,就是该字的
外码。
如:“侯”字,拆分为单笔划是:撇、竖、折、横、撇、横、横、撇、捺,集合起来共有3个横,3就是横笔的对应
码元;共有1个竖,竖的对应码元是1;共有3个撇,撇的对应
码元是3;共有1个捺,捺的对应码元是1;共有1个折,折的
码元是1。然后按横竖撇捺折连排起来为31311,它就是“侯”的
外码。
再如:“汉”字,拆分后单笔划为点、点、提、折、捺,集合起来,只有一个横(即提),则横的对应码元是1。“汉”字没有竖笔,竖的对应码元是0:没有撇笔,撇的对应
码元也是0;有2个点和1个捺,捺的对应
码 元是3;有1个折笔,折的对应
码元是1,连排起来,“汉”的对应
码元是10031。
再如:“瞿”字,其横笔为10个超过6个,以6为代表,则横笔的码元为6,有4个竖笔,竖的码元是4,1个撇,撇的码元是1,一个点,捺的码元是1,两个折,折的码元是2,连排起来,则“瞿”字的
外码是64112。
用这样的方法也可以对任何汉字编码。
例2:用
和集法对汉字编码
规定某个单字如果缺少某个笔划,则某种笔划的对应码元用“·”表示;如果单字种某种笔划总数超过9,用“9”表示对应码元。其它的规定同例1。(和例1不同的不用“0”表示缺少的某种笔划码元,也不用6表示笔划总数超过6的对应码元。如果单字中某种笔划不超过9,仍用实际数字表示码元。)例如,“候”字的外码仍是31311,汉字的外码却是1·11,“瞿”字的外码却是94112。
用这样的方法也可以对任何汉字编码。
例3用
集笔法之
并集法对汉字编码(本文简称
并集编码法)
先确定一下
并集法的内容,即总的规则如下:
在对单个汉字编码时,先把单字拆分为单笔划,共5种。即横(含提)、竖、撇、捺(含点)、折(一切带转折和转弯的笔画),再分别依次用1、2、3、4、5代表;再按书写顺序,每两笔为一组集合起来,如遇到“艹”和“口”不折分,整体算一组,“艹”与“口”前分组后余下的单笔划也算一组,其它两笔结合后余下的一笔也算一组,再把组内的两个笔划的代表数字相加起来的结果表示这组
码元。(但规定折与折笔划结合的码元是数字0)
“艹”整体为一组,
码元用1表示;
“口”整体为一组,
码元用·表示;
单笔划为一组的用单笔划的代表数字表示码元。
下边按此规则编码:
一、单个汉字的编码
把单个汉字分成两类(两类之和为全部汉字)。
第一类是不拆分为两半的单字,叫
单体字。即这个单字不含两划以上的
偏旁部首,更不是
合体字,但只含一划的偏旁部首的字在此列。如:片、甲、成、丁、正、不、韭、也、书、内、义、丸、丹、飞。
第二类是拆分为两半的字,叫
双体字,如:侯、池、送、鹏、房、病、票。
双体字包括除第一类字外的一切单字,含一切
合体字和带有
偏旁部首的字(但
偏旁部首必须是两划或两划以上)。
三、对
单体字编码按下进行
1、先用
并集法形成该字的码元,即用以上的规则。
2、再把以上码元按前后顺序排列起来,形成一个序列,就是该字的
外 码。
如对“大”编
外码,可将“大”的笔画分组为第一组横撇,则1+3=4,4为第一组的
码元:
第二组笔划只有一笔捺,捺的代表数字是4,则4就是第二组的
码元,所以大的
外码是44。
再如对“或”字编码,将“或”折分为笔划组。
第一组只有一笔横(后边有口,无法与其它单笔划相加,故为单笔为一组,码元是1;
第二组是口(整体算一组),码元是·;
第三组是提折,1+5=6,码元是6;
第四组是撇点,3+4=7,码元是7。
连排起来为1·67,就是“或”的
外码,同理天的
外码是27。
3、对
双体字编码
①先将
双体字分为两半,左右型分为左右两半,上下型分为上下型两半,带两划或两划以上
偏旁部首的,偏旁部首为一半,余下的为另一半。但先写的为首半,后写的为后半。
②按
并集法取首半的第一组笔划的码元,接着用
并集法取后半的各组笔画的码元,再按书写前后的顺序连排起来,形成该字的数字外码。
③可以将超过4码的汉字只取前4码,即在编码中,只要编够4码就停止。也就是说不管一个字有多少组笔划,在编码时,最多取不超过4组(按笔顺)。
如对“雇”的编码,先分两半“户”与“隹”,取“户”的第一组笔画点折的
码元即4+5为9,再对“隹”连取三码为撇竖——5,点横——5,横横——2,到此为止,形成雇的
外码9552。
用以上的方法,可以对任何单个汉字编成不超过4码的
外码。
这样的数字
外码形成后,可以按从小到大的顺序排起来,数字都对应着单字,而且都有单字在字典上的页码数,具此整理后可制成检字表,设计电脑字典,也可以制成检字表,并标明该单字在字典上的页码数,从而可以代替
部首法、
笔划法,用于查字典、词典。
如:整理后的检字表摘录如下:
注:本实例右边的
页码数是指《新华字典》(1998年修订本)的页码数。如用于检索其它字词典,则页码数按该字词典中的单字所在的页码确定。
编码 | 单字 | 页码数 |
…… | …… | …… |
1721 | 351 | |
1723 | 草 | 44 |
1726 | 莳 | 135 |
1727 | 菖 | 51 |
1728 | 明 | 337 |
1729 | 荟 | 203 |
1731 | 苗 | 342 |
…… | …… | …… |
例4.用
并集汉字编码法对二字词和多字词及短语编简码。
一、两字词的简码。
按例3中的方法形成两字词中第一个单字的前两码和第二个单字中的前两码,按前后顺序连排起来共4码组成两字词的简码。如:“英明”“英”的前2码是17,明的前2码为77,连起来1777就是英明的简码。同理,可以把任何两字词编成4码简码(纯数字)。
二、三字词的简码。
接例3的方法形成码元,取第一个字的前2码,取第二个字的第一码,取第三个字的第一码共4码组成简码。如:“莫须有”第一个字“莫”的前2码17,第二个字“须”的第1码是6,第三个字“有”的第1码是4,则1764就是“莫须有”的简码。
三、四字和四字以上的词的简码。
接例3的方法形成码元,取前3个字的第一码和最后一个字的第一码按顺序连排起来共4码组成简码。如:“一日千里”取各自的第一码连排起来为1747,“世界贸易组织”第一、二、三字首码378和最后一个字“织”的首码0连排起来为3780便是。
例5、用区别码对汉字编码(本文简称
双拼三码法)。
此方案可把所有汉字(单字)一律编为三码。但如果没定有简码字和键盘字,这些字可以不用此法。三码顺序如下:声母码+韵母码+区别码;其中声母码和韵母码用
双拼法处理各用一个字母表示,可以采用《电脑随身宝典》一书中的第71面之定义。
至于区别码的设定如下:
1、首先把汉字分为左右型或非左右型两类,两类之和为所有汉字。左右型即汉字的字形是左右结构、左中右结构和含
走之底建字旁的单字,单字若有左偏旁(必须是两划或两划以上的偏旁)都在比列,除此之外的所有汉字都是非左右型(包括单体字和除了带
走之底建字旁偏旁的一切包围型字和上下型、交叉型等)二者界限明确。
2、凡是左右型字,一律取其左半(左半可以是偏旁,也可以是双体字之分字,然后看左半的各称用双拼法拼音,拼音的首字母就是
区别码。)如“侯”字左半是
单立人,首字母是d,d就是侯的区别码。再如:“送”的左半边
走之底,z就是码元,“鹏”左半是月字边,Y就是码元。同理“泳”的左半是
三点水,
区别码是三点水双拼的首字母s,但是左半的名称必须确定,按中文归范。但左半无法命名的用?表示。这样任何左右型字都有了自己的对应
区别码。
3、在非左右型字中,不管这个字是什么结构,一律取该字书写顺序的第一组笔划,再用并集法形成的码元作区别码(至于如何按并集法取码按例3中的规则,不再引述),如“大”字的第一组笔划是横与撇,大的区别码是3,同理“芹”的区别码是1(因第一组是廿)同理“兄”的区别码是“.”(因“口”是第一组)这样所有的非左右型单字都有了自己的
区别码。由于左右型字和非左右型字合起来就是所有汉字。因此,任何汉字都有自己对应的
区别码。
4、在此基础上,所有的汉字都可形成:声母码+韵母码+区别码的三码外码。
5、当单个汉字都有了含区别码的三码外码后,我们还可以对两个单字组成的词编写简码。
编
两字词的
外码的简码的方法如下:
1、取
两字词中首个单字的声母(但声母必须是用双拼方法产生的一个字母)作为简码的第一码。
2、接着取首字(同上的单字)的区别码作简码的第二码。
3、再接着取后个单字的区别码为第三码。这样,首字声母码+首字区别码+后字区别码共三码组成该
词组的简码。如:对“汉字”这个两字词编写简码先取首字“汉”的声母h,再取首字“汉”的区别码s(即
三点水的首字母s)再取后字“字”的区别码(第一、二笔划点与点的代表数字相加为8)“汉字”的外码简码就hs8。同理两字词“音标”的简码,取首字“音”的声母y,首字“音”的区别码5,后字“标”的区别码m(即标的
偏旁木的首字母),y5m即“音标”的简码。同理“影响”的简码是yjk。用这样方法可以对任何二字词编写简码。
本文把这种用声母和两个区别码表示
二字词简码的方法也叫
双拼三码法。
Claims (9)
1、一种汉字编码的
码元用数字表示的方法,在编码时,把单字用双拼法形成声、韵两码再加
区别码;也可以把单字折分成横、竖、撇、捺、折单笔划,然后a:不用b法,b:用下边方法即用1、2、3、4、5分别依次代表横、竖、撇、捺、折再按书写顺序每两笔划为一组余下的单笔划无法与其它单笔划相加时也为一组;本发明的特征是,把拆分后的单笔划,按以下两种方法集合起来形成
码元:
a、在a种情况下把一个单字中相同种的笔划集合起形成
码元,按一定的规则用数字表示集合起来的总数;b、在b种情况下,把已分成组的组内笔划的代表数字相加起来作为这组的码元,但规定组内两笔划都是折,则用数字“0”或“.”之一表示对应码元。
2、根据1、b:所述的方法,其特征在于如果组内只有一个单笔划,则这组的对应码元表示数字是这个单笔的代表数字或单笔的代表数字再加上此数,或将单笔的代表数字乘以2或将单笔的数字加上5、或4、或3、或2、或1,但一种编码方案只能用各“或者”之一种。
3、在上种情况下,如果某个汉字的结构中含有“卄”“口”二者之一或全部,根据权力要求1、b:所述的方法,其特征还在于可以把“卄”和“口”当成一个整体不拆分作为一组,用“数字1”代表“卄”作
码元,用小数点“.”代表“口”作
码元,或者用“数字1”表示口:用“.”表示“卄”,但一种编码方案,只能选择或前或后之一。
4、根据权力要求1、a所述的方法其特征还在于,某个汉字的某种笔划超过6划时,都用“6”表示这种笔划的总数、作对应
码元,某个字缺少的某种笔划,缺少笔划用“数字0”表示,其余的都仍用该种笔划的实际总数表示。
5、根据权力要求1、a所述的方法其特征还在于把单字中拆分后用
和集法形成的各种笔划的码元,按横、竖、撇、捺、折、顺序排列起来形成单字的
外码。
6、根据权力要求1、b:所述的方法,其特征还在于可专用
并集法将单个汉字分组结合后形成的码元除删去不取的外,按顺序排列起来形成该字的数字
外码。
7、根据权力要求1、b:所述的方法其特征还在于可以用并集法产生的汉字
码元,结合非数字的
表符,共用作为
区别码的
表符,从而形成同音字的
区别码。
8、根据权力要求1、b和7所述的方法其特征还在于其用途已一是:可以用1、b和7方法形成的
区别码对任何单个汉字编成三码
外码也可以用
区别码对两字词编成三码简码。
9、根据权力要求5、6,所述的方法其特征还在于其用途之一是:形成的两种数字
外码各自都可单独用于电脑、手机中文输入也都可分别整理后,分别用于汉字(含词)检索、编成电脑字(词)典检索表和字典词典检索表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 01139523 CN1231830C (zh) | 2001-11-20 | 2001-11-20 | 码元用笔划集合数表示法及用途 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 01139523 CN1231830C (zh) | 2001-11-20 | 2001-11-20 | 码元用笔划集合数表示法及用途 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1420422A true CN1420422A (zh) | 2003-05-28 |
CN1231830C CN1231830C (zh) | 2005-12-14 |
Family
ID=4675255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 01139523 Expired - Fee Related CN1231830C (zh) | 2001-11-20 | 2001-11-20 | 码元用笔划集合数表示法及用途 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1231830C (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103164466A (zh) * | 2011-12-16 | 2013-06-19 | 李瑞民 | 冷僻汉字的笔顺子字检索法 |
CN103543841A (zh) * | 2013-11-13 | 2014-01-29 | 罗嗣孝 | 汉字唯一拆分输入法 |
CN109271610A (zh) * | 2018-07-27 | 2019-01-25 | 昆明理工大学 | 一种汉字的向量表达方法 |
-
2001
- 2001-11-20 CN CN 01139523 patent/CN1231830C/zh not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103164466A (zh) * | 2011-12-16 | 2013-06-19 | 李瑞民 | 冷僻汉字的笔顺子字检索法 |
CN103543841A (zh) * | 2013-11-13 | 2014-01-29 | 罗嗣孝 | 汉字唯一拆分输入法 |
CN109271610A (zh) * | 2018-07-27 | 2019-01-25 | 昆明理工大学 | 一种汉字的向量表达方法 |
Also Published As
Publication number | Publication date |
---|---|
CN1231830C (zh) | 2005-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1043210A (zh) | 字根编码输入法及其设备 | |
CN1141633C (zh) | 计算机二十四部首汉字排序输入法 | |
CN1420422A (zh) | 码元用笔划集合数表示法及用途 | |
CN102511021A (zh) | 一种数序码元键盘及其信息输入方法 | |
CN1435749A (zh) | 汉字笔音码输入法及键盘 | |
CN101038517A (zh) | 一种汉字形声编码输入法 | |
CN1184554C (zh) | 计算机汉字汉易码输入方法及键盘 | |
CN1034245C (zh) | 缅文字型智能四码输入系统 | |
CN1062361C (zh) | 音形派生键形码计算机汉字输入方法 | |
CN1167994C (zh) | 一二三四输入法 | |
CN1196057C (zh) | 一码二形数字编码汉字输入方法 | |
CN1028457C (zh) | 一种笔画数码加声码的汉字计算机输入系统 | |
CN1052200A (zh) | 音形义字词兼容编码系列及键盘 | |
CN1088211C (zh) | 汉字正负单数部首数码输入法 | |
CN1159642C (zh) | 简化汉字声形码输入方法 | |
CN1056007C (zh) | 一种以汉字音角特征为信息元的计算机汉字输入方法 | |
CN103412656A (zh) | 一种汉字韵母笔形合成音形码 | |
CN1052314C (zh) | 一种汉字二维数码的计算机键盘输入方法 | |
CN1109284C (zh) | 汉字多息码计算机输入方法 | |
CN1146572A (zh) | 正字法汉字编码 | |
CN1558310A (zh) | 汉字辅元音形码输入法 | |
CN1060277C (zh) | 以句子为输入单位的计算机汉字编码输入方法 | |
CN1160883A (zh) | 声双码计算机汉字输入法 | |
CN1256446A (zh) | 首部余部笔画数字编码汉字输入法及其键盘 | |
CN86105505A (zh) | 汉字输入方法及其所用键盘 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |