CN101093421A - 汉字的四笔层次形码及形音的数字编码输入方法 - Google Patents
汉字的四笔层次形码及形音的数字编码输入方法 Download PDFInfo
- Publication number
- CN101093421A CN101093421A CN 200610086821 CN200610086821A CN101093421A CN 101093421 A CN101093421 A CN 101093421A CN 200610086821 CN200610086821 CN 200610086821 CN 200610086821 A CN200610086821 A CN 200610086821A CN 101093421 A CN101093421 A CN 101093421A
- Authority
- CN
- China
- Prior art keywords
- code
- input
- key
- parts
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明是汉字的四笔层次形码及形音的数字编码输入方法,主体是4笔形码和数码。形码将编码部件归纳为51组,以5:5:9:7将26个键分为点横撇竖4类,每键最多3组。用层次法对70244个国标汉字进行编码,重码极少。GB2312汉字用3码更为快捷,借助符号键就可实现3键无重码输入。数码专为手机输入GB2312汉字设计。字形数码采用3个层次部件码和1个九宫结构码,重码不超过7个,即5键就能输入任1个字。以声韵双拼为基础的拼音数码,将双拼中的5个韵母系列按板块顺次排列,形成双拼输入;再将双拼字母映射转化为4个数字码,就成了可同时作有、无音调双重输入的编码,平均单字输入在5键左右,非常简明快捷。
Description
本发明是一种汉字的四笔层次形码及形音的数字编码输入方法。是一种用于计算机、手机汉字输入,以及信息交换、信息处理用的综合编码输入方法。其核心是针对汉字的两维图形特征和造字特点,尽量利用编码资源,融合了笔划、部件、双拼、首尾码等输入方法,进行了系统、全面的整合,形成了以层次3码为核心,键盘资源利用配置合理的四笔编码输入架构体系。对GB2312中的6763个汉字,是采用3个编码的最佳选择,比五笔等输入方法整整少了1键;对GB18030的27533个汉字,则是增加1个层次,采用4个编码,也是恰到好处,和目前流行的4码体系相比无疑是一种质的突破。
人人都会跑步,能创造纪录并非易事。编码人人会编,要得到大众的认可,更难上加难。我一直在追求速度,在我的97、99版编码方法中,都是采用了30多个编码符,目的就在于此。现在是用26个字母,实现了对国标2312的3键输入,是基于本人对汉字编码的执着和永不满足的进取,经历了一个漫长的,10多年的逐步精炼、众多反复、优化、简化的形成过程。终于将形、音、数整合到一起,形成了1个完整的编码体系。本发明在易学、码长、速度等3个方面都全面地创造了新的纪录。
我体验特别深刻的是,编码的易学性比速度更重要,现在社会上流行的拼音、汉王笔输入,就是以准入门坎低而易于被广大民众接受。所以我把部件的归类和笔划紧紧地联系起来,彻底地降低了门坎,解决了易学性的问题。在我的形码输入中,无须单独去记忆部件的多少,只要按部件的首、次笔划或整体特征,就能对号入座。其特点是:
1、部件的归类是主要的,例如,大,如果是编码部件,应该用什么代码,在哪儿能找到它。大字横起笔,代码肯定在第2行的9个字母之中;横后有撇,那就是第2个字母s。实际记忆量非常少。
2、以3为中心,找到了码长和速度的最佳切入点。3是和自然对数的底最近的整数,排列和变化是恰到好处。
3、充分发挥了符号键的示根和释放重码的功能。方法是输入某代码键后,表明已进入汉字的输入状态,此时的符号键已不能起到输入符号的作用;便令之作为字根的窗口显示,并通过对应的符号键输入该字根字。也可作简码的代码,从而实现单字3键无重码的输入。这种于教于学于输为一体的方式,定会受到社会的欢迎。
下面就6项权利要求作简要说明。分别是:1.编码体系共性特征。2.简体形码。3.简体数码。4.简体音码。5简体音数码。6.大字符集形码。
一、汉字的造字特点、键盘资源的编码体系架构设计
1.先介绍一下韩码的编码资源架构设置,如下表。
韩码总体构架配置一览表 (表1)
符、数 | 符号、数字键输入功能不变的前题下,增添如下功能 | ||||||
汉字 | 汉字输入进程 | ||||||
类 | 第1键 | 第2键 | 第3键 | 第4键 | 输入内容提示 | ||
简形四笔 | 字母 | 1符 | 符或数 | 无 | 非常用根、符 | ||
1-10符 | 无 | 无 | 高频简码字、重码 | ||||
字母 | 符 | 无 | 独体、双根、简字 | ||||
字母 | 字母 | 无(符) | 全码字、重码极少 | ||||
形数 | 数 | 数 | 数 | 结构数 | GB2312全部 | ||
音码 | 字母 | 音标符 | 韵母字 | ||||
字母 | 符或数 | 全拼字 | |||||
字母 | 字母或符 | 词 | |||||
字母 | 字母或符 | 词 | |||||
音数 | 数 | 0数 | 音标符 | 1级简码字 | |||
0 | 2级简码字 | ||||||
数 | 数或符 | 0 | 3级简码字 | ||||
数 | 数或符 | 全码 | |||||
大字集韩码 | 字母 | 1符 | 符或数 | 非常用根 | |||
1-10符 | 独体、简码字 | ||||||
字母 | 符或数 | 双根、重码字 | |||||
字母 | 符 | 3根、重码字 | |||||
字母 | 4根以上字 |
2、汉字的特点和层次编码。
在国标基本字符集中,大多数常用字都是两根、3根字,例如:″包″是双根字,饱、泡、炮、疱、胞、抱、苞这一系列字都是由包加不同的边旁组成的3根字,读音似包,加上边旁就有了不同的意思,有明显的层次特点。所以用3码长,1个从意,两个从音是形码的理想编码选择。26个字母的3次方等于17576,相当于6763个字的2.6倍,相当于27533个字的63.8%,所以相应的3、4码长是最少的选择。对大字符集则采用层次4码,即在3码的基础上增加1个层次编码。
3、要实现最少的3键输入的关键是,字根的代码分布是不是能做到均匀,象5笔字形码那样只用了25个代码,而且用平均的方式分配很不平均的5个版块。我关注的焦点是怎么才能够让编码分布尽量地均匀?首先想到的是4笔,因为5笔中的折笔所占汉字的比例比较少,所占资源却不少,而横起笔类最多。如果把折笔融入4笔之中,相互融合,就能带来更多的灵活性,便能克服这一矛盾,便能更合理地利用有限的编码空间。
4、本发明几乎是充分完美地找到了对26个代码的4笔5∶5∶9∶7的比例分类,正好完整地分为3行,不仅好记,而且从编码后分别对6763个、27533个汉字的编码数据库代码统计,即相当于各输入一遍的26个字母键次数据统计,实际比例和所占资源的比例,惊人的吻合,误差甚微。
5、语言文字是难以分割的两个部分,在汉字的输入实践中,拼音输入和形码有互补作用,汉语拼音只有417个音节,编码要容易得多,尽管重码率很高,仍然为大众所喜爱,特别是在某些场合,往往有以音找字的实际需要,所以我将它们集成在一起,并衍生出数码的输入。特别是音数编码必须在相对稳定的拼音码表的基础上进行,而且其韵母在26键上的定位,除aoeIu5个字母以外,几乎没有过多的联系,所以本人大胆地采用按板块顺序排列的方法,即按第1行排列u7 o3两个系列10个键位,第2行a5 e 4两个系列9个键位,第3行只有I,占7个键位,其中只有u和I有少量交叉。请注意:这里我一直在用键位这个词,而忽略字母本身,这在作韵母数码输入时,界定特别简明,简化了思维层次,非常便于记忆。而我在拼音权利要求也仅此而已。
二、关于简体形码的说明
对于汉字编码来讲,最适用的就是形码,就好象用什么钥匙开什么锁一样。但是简化字是例外,这是因为为了简化,打破了造字的常规,以最少的笔划,笔形来区别常用字,很难用整齐划一的方法进行高效的编码,所以形成了瓶颈,成为最难啃的骨头。本简体形码针对实际情况,在立足于部件编码的基础上,充分利用符号的剩余资源,1是作字根部件的代码显示,2是作简码、重码直接输入,实现了3键无重码的硕果。具体有如下几点需特别说明一下:
1、编码部件或多或少,最终要落实到26个代码上,所以部件恰当的分类是关键。在简体形码中体现在对部件的约50个具体的归类。再分配到26个代码键上,平均每键只有两个记忆单元。其中以横笔的9个代码的分类比较复杂一点,代码J、L中都以横折的起笔为主,其区别从系列部件示例中就能看出,其中前者是直角左钩,后者是非直角、右钩的差别。如尸、巳、已、己从J,了、廴、乙从L。可见部件的多少并不重要,只要记住分类特征就可以了。这说明实际需要的记忆量甚少。这些笔划、特征都相近的字,有了简码直接输入分流,重码当然会少。
2、利用了符号键的剩余可用资源,即在不影响现有符号键功能的情况下的资源,具体讲就是进入输入状态(击过第1代码键后)时,符号键设定为示根、简码、重码区键、词选择键使用。这可谓是完美的设定,从而保证了极低的重码率。
3、在2312中有40个边旁,在输字过程中很少用到,本体系设定1个专用符(`)及后续符号显示,格式是代码+(`)+指定符,几乎不占代码资原。
4、由于简体形码设定3码长,结构码只能用于前两个代码所存在的相互关系。有4种情况,1、独体字的首尾码、或拆分码;2、左右两部件码;3、上下两部件码;4、交包两部件码。结构码分别用4行中的1行符号代替。当某1类过量时,为减少重码,相互允许兼容,以提高输入速度。
5、本法是采用层次编码的方法,主体是两个编码和3个编码。由于设定码长为3个,3码以上字的输入,就得有所选择,这就是层次编码的方法,恰恰符合汉字自身的造字特点,具体举例如下。
i.层次编码的取舍与书写次序无关。例如,″弩″字,发音从奴,是一种和弓相似的器物。枷和架,都从木,木是首选的编码,与书写次序无关。
ii.汉字的造字特点有明显的层次性。如,″母″可以看成是1个独体字,也可看成是组字部件,可单独直接用1根1符输入。编码是母加横人头成每,每加攵成敏,敏加糸成繁,繁加艹头成蘩,分别由1、2、3、4、5,即5个部件组成了5个层次的汉字,母、每、敏、繁、蘩。
iii.在取码时,对组成部件数多于码长的字,就存在取舍的问题。方法是:对任意繁杂的汉字,包括繁体字,首先是找出突出的部首部件(但不一定是首位编码部件),再找出剩余部分的首尾部件码,并按书写顺序排列。这里取和排是两个不同的概念。简体形码设定3码长,对蘩、繁两个多于3个部件的汉字编码,根据设定进行取舍:对″蘩″字,″蘩″字的突出部件″艹″,剩余部分是″繁″字,再取首部件横″人″、尾部件″糸″是取第1、第2、第5的3个部件的代码;对″繁″字,则是先找出″糸″,剩余部分是″敏″字,再取首部件横″人″,尾部件″攵″的代码,分别是第2、和第3个部件;按书写次序排列,那就应该是第1、第3、第4,3个部件代码。用代码表示分别就是:hzv和zzv。
iv.有几种非常规编码取码设定想说明一下(羸、成、匕、刁、凹):
1、嬴、羸的第3编码,依据特征省略原则,把女、羊等设定为必取的编码;编码分别为tov和tow。
2、贰、成、武、载、越、藏等中的带弋、戈。本法规定此类部件,单列弋类从k,粘连从粘部件类,如藏的第2个部件,编码从竖折从u;成的首部件代码是s;越中的部件从横竖折,代码是a;它们的全码分别是:贰-kfy,成-sj′,武-akl,载-fl′,越-fia,藏-hua。
3、匕视为点类捺折从e,并把比的首部件(即规范中的43号部件)视同匕部件,从e。因为此部件按笔顺规范应从横,按书写习惯应从竖,加上平衡单键负担的需要,以减少a u编码分布量,故唯一特殊约定从e键。
4、把提视为撇更为形似。如刁的编码从jb。
5、有些独体字,象凹、凸等笔划特征不明显,而总的形象特征十分明显,就以形分别约定代码,编码分别从u、y。
三、关于2312形数码输入版块的说明
形数码是基于权利要求1所述的3点式层次编码,加上3点式结构体系的1种输入方法,需要强调解释说明是:
1.编码部件在9个数字键上的设定,强调以2∶3∶2∶2的比例,具体的点、横、撇、竖和数字的对应关系完全可以重新设定,是次要的。
2.表4是将部件落实到具体数字键上的列表,是表3的延伸。有利于尽快地确定可靠的代码。在数码码表中,关键在于中间1项的规则设定,部件举例只是极少数。好在1个类型除横笔3种外,只有两种选择,和笔划码麻烦的笔顺相比,非常简明,而速度则快多了,是非常实用的编码方法。
3.简体汉字常分为独体字、双根字、3根字、多根(4根以上)字4种。3根字的编码最简单,笔划少的单根字用笔划编码,部件多的4根以上多根字用层次编码,双根字的编码首先要选择、确定不拆分的部首部件,再拆分剩余部件,这就是3码长优先原则,给常用高频汉字让出了编码资源空间,用0作简码中断键使用。象重、垂、朱等字,可以独体字以1级简码直输入,也可以拆2原则拆分为双码输入,结构第4码设定为2;和常用部首组合形成双根字时,都属于拆分部件,数字编码分别为79,75,74。其中朱的拆分没有采用通常惯用的丿、未,似乎朱和人、木有更多的联系吧。如果错了改一下也非常容易。
4.简体形数码的简码是加0输入,设定原则是:1级简码一定是高频字,2级简码是该字的前两个编码的前提下设定的,3级简码同3个部件码,只是确保无重码的直接输入。简码表从略。
四、GB2312音码输入的说明
拼音输入是比较简单的一种输入方法,只有417个音节。常用的有全拼和双拼两大类型,声母23个,无多大变化。韵母35个,还有3个声韵母,共38个。如用26个英文字母作为代码,无重音码的设定会有多种组合方案。本法在保证音节无重码的基础上,强调了3个关键词,板块、顺次和键位。
1、代码的板块设定
本法设定的方案是和形码5、5、9、7板块设定相似,将拼音韵母u、o、a、e、I的5个系列,约定以7∶3∶5∶4∶7的比例分配在26个代码键位上,这是形码的板块设定方法的延伸,也是后续音数码输入的前提条件。这种全新的5个系列设定的好处是,上行、中行各两个韵母系列,下行1个韵母系列,界限分明,只有u I系列有少量交互。设定依据是:a系列5个,o系3个,e系4个。很显然,a和e正好占第2行的9个代码,是理想的选择。剩下3个的I o u 系列,o正好在第1行的右侧,这就在左侧留下了7个代码、键位,还有第3行的7个。剩下两个Iu韵母系列,理当各占1个。其中u本来就在第1行的左侧7个代码之中,故将u系列安排在第1行,I就在第3行了。
2、顺次的设定
第2行的两个韵母系列,a和e正好占9个代码,完全按英文字母的自然顺次排列。
在第1行中的o系3个中,o从字母o,ong在右侧从p,o和u之间有字母I,所以o u设定在I键位上,且和u系的uo有对称的联系。u靠近o,将u键设定为uo,这样就形成uo ou o ong的排列。故将u改在q上,完全按从左至右的字母自然顺序排列。
第3行I系列的排列是考虑到韵母使用的频度和in ing和字母n联系。将I设定在v键上,左右各成顺序设定。
韵母的交互只有4个,Iang从ua,uang从Ia,具有互换、对等色彩。iao随uang之后从uai,v从o键。
3、键位
按板块、顺次设定的结果,其实质就是要建立键位的概念,这一构想在后续的音数码输入时显得更为重要。即在标准键盘中有1个相对稳定的位置,在实际输入时,能形象地找到韵母在键盘中的相对位置,也给数字编码带来了方便。
4、韵母的输入
无声母输入时,可以用26个字母中剩余的3个键中的1个,作虚拟声母键作声韵双拼设置。本法采用的是用符号键分别设定无声调输入和声调输入。好处是有了更多的选择,而且从击键难度上几乎没有增加,和窗口提示和翻页功能具有呼应的作用,具有音调设定功能,毕竟有减少重码的好处。
5、音调和翻页功能
在进入输入状态,即击过首键后,如此键有韵母输入,会弹出提示窗口。击过第2键后,一定会弹出提示窗口。提示窗会有15个分类汉字提示输入键,每类3个,可直接选中输入。还有5个翻页键,分别是4声和无声调5类,选中便进行分类翻页,翻页后便能同时提示20(10个符号和10个数字)个选择。
6、拼音的词条输入,和单字输入是并行的。当输入1个音节后继续输入代码时,便自动进入词的输入状态。由于本法韵母板块顺次设定的良好前提,和常用单字的简码设定,只要拼音准确可靠,指法熟练,输入非常快捷方便。
五、2312音数码的说明
音数码的键位代码表(表6、7)中的数字排列,实质上是9个数字的行、列的排列,共81个代码。因为英文字母26个,加上1个虚拟字母,共27个,正好用其中的3分之1代之。其余的54个,又可以分为两组。2、2组合,可以形成4种排列,和4个声调相对应。这就形成了音数码的基本架构。下面是9、9排序表,对无声调音数码和4声音数码排序分配,有多种方案。
拼音数字输入键位数码参考表
11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 |
21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 |
31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 |
41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 |
51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 |
61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 |
71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 |
81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 |
91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 |
1.拼音输入时,只要依照拼音的键位设定,按键位编码输入即可。例如;
1) 欲输入汉字″创″,其拼音是chuang,声母ch设定在v键位,韵母uang依据表5的约定,从z键位。v键位是第8组第1键,编码是87;z键位是第7组第1键,编码是77。那4个编码就应该是8777。在2312中发音是chuang共有6个汉字,1声有窗、疮,2声有床,3声有闯,4声有怆、创。6中选1。如果是输入闯字,是3声,只有1个字,在4声调输入时,输入3声码8471,就能直接输入,无须选择。
2) 欲输入汉字″儿″,拼音是er,按韵母+虚键的约定,er从J键位,第6组第1个键,数码是64,虚键算第9组第2键,数码是98,全码就应该是6498,在2312中发音是er的汉字共有2声5个,3声6个,4声2个,共13个汉字。儿从2声,是5个2声汉字之一。如果设定是简码,用0数字键直接输入,就无须选择了。
2.如想给拼音加声调输入,按韵母+0、声母+韵母、或声母+韵母+5声调输入汉字。那就在4码、或3码的基础上,再增加1个声调数码,由提示键选择输入。
i.以输入汉字″创″为例,在输入编码8777后,再输1个声调码4,即输入87774表示4声,就会显示怆、创两个4声字。
ii.以输入汉字″儿″为例,在输入6498后,再输数字代码2,即输入64982后,就会显示包括″儿″在内的5个2声汉字。如果设定6490为其简码,那就能4键直接输入。
3.4声数字码输入更为简明,是更为高效的数码输入方法,声调隐藏在4个数字编码之中。原理是将键盘中的键位,分别用两组代码,若设定1+1=1声,1+2=2声,2+1=3声,2+2=4声,即2*2=4有4种组合,代表着4声。还以输入(创)的4声、”(儿)(er)的2声,其拼音键位不变,代码则不同了。其编码就应是8474和6795,结果分别是2中选1,和5中选1。(注:如果以虚拟声母设计,那编码就可以以特定键位数字代码或虚拟声母编码输入。用虚拟声母码时,(er)的2声数字码是9261)由于声调输入和无声调输入占用各自的编码空间,不相交,实现了有、无声调直接输入的方便选择。
4.简码用0作中断符,输入特定的常用高频字,记忆的投入会给自己带来输入快捷的丰厚回报。简码的设定有两个原则,1是中断前的编码要符合编码规则,2是相同的编码所包含汉字中,使用频度相对较高,在无实测依据的情况下,起码在主观是这样认为的。现以设定高频字”的”的简码为例。的的声母是,是4区第3个字,其编码的第1个数字肯定是4,的算是特高频字,所以可以设作1级简,编码定为40。则击4、0两个数字后就输入的了。
六、关于18030字符集,繁体形码的输入说明
中文传统的部首有189个,例如鹿、龙、鼠、麦等,本法对这些传统的部首,都尊重传统,根据层次码的编码方法,都可当作1个部件来处理。对于象由3个原字组成的厵字,以及3个金、3个龙、4个鱼组成的字等。也可当作部件处理,而在部件表中,没有列出。如果象这类重复率很低的编码部件逐一列出,那编码部件也就太多了。如果把3个原、3个龙看成整体,按本编码规则,取首笔、次笔或整体特征代码,那就是取厂、立这两个部件的代码,这样反而简明得多。这正是层次编码的优点。所以在部件表中,没有明确说明到底用了多少个部件,进行了编码。很显然,本编码体系虽然是形码,但不同于常人所理解的纯部件码的概念。大字符集的主体是繁体字,面对千变万化的汉字,由于写法的不同,形体不同,编码也就应该有所不同。以寿字为例,就有若干种写法。为此,本法只能以某个字库为依据,比如以宋体字库为例,进行原则性的编码。如下所示16个繁体字具有一定的代表性。由于笔划多,特用大号显示。在解释时按16个次序号代之。
如何处理和如何规范这些繁体字的编码?本法对此有很强的适应性。归纳有起来有6项处分原则,变来变去,其编码也就不难找到。
下面就具体的8个编码规则作简要的归纳性说明,适用于整个编码体系。
1、码长优先原则是针对少笔汉字和多笔划汉字在同一编码体系中,减少重码的一项措施。上述1、2、9、16号这4个字,1号3个部件,要拆成4个会增添更多的麻烦。2号光右侧的寿字就由6个分列部件组成,按码长优先原则,该取3个部件码,再根据下述总体平衡原则取码。9号字笔划很多,总体上只分为两个部分,根据码长优原则,最好是将第2个部分,分成两到3个编码,这就涉及部件设定原则。16号字是由3个原字组成,首先要提到的都带有寿字,但写法不同。
2、部件设定原则主要有两条,1是在汉字的拆分中使用的频度,过少就不一定有设定价值。2是看这样的设定是否有利于输入的简化,而与分、交无关。在本法中,将一口、一日视为编码部件,是有利于编码部件在26个字母代码的总体平衡。以上述第6、7号两个字为例,都涉及到口天吴的两种写法。可将7号字的第3部分,按搭接分成两部件,前1部件仍从代码u,后1部件应从代码s,都能方便地对号入座。其后1部件在9号字中就要用到,符合部件设定原则。所以依据码长优先原则和此部件设定原则,9号字的编码就该是vou;或vous。
3、对号入座原则是降低汉字编码输入准入门坎的简明方法。不管部件多少,最终还是要落实到具体的代码上,才能以编码输入汉字。1号具有明显的3个分列部分,正好用3个代码,加1个结构码。依据对号入座原则,1号的第2个部件是口,从代码o,第3个部件是寸,从代码k,第1个部件特殊,依照书写习惯是横、横、横折、口、竖等,和韦的特征非常相似,所以对号入座,从3横、右开口特征的g代码。9号字的第3、4部件,对号入座从u和s。
4、特征省略原则在赢系列汉字中尤为突出,变化的只在中间的贝、女、羊等,其贝、女、羊就是特征,其余部分可以归一、或用双码。在本系统中是设定亡、口作为另外两个编码件,编码分别是:t和o。所以在本编码体系中,把这样的特征部件,视为不可缺部件。另外,象凹、凸、及3001中的487编号的部件,都以总体特征设定代码,分别从u y和u。
5、总体平衡原则在2号字的右侧寿字6个部件的取舍中有所体现。要在6个中取3个部件设代码,根据此总体平衡原则,取首、中、末比较平衡,即士、工、寸3个部件比较合适。则2号的4个编码就是yfjk。
6、成字优先原则是为了迎合大众的日常习惯设定的一项原则。通常所说的口天吴,那就优先考虑口、天这两个部件为吴的两部件码,其后才会考虑用口、一、大的3个部件码。这一原则在独体字的拆分中,尤为突出。例如:末、束等。
7、交重拆2原则是针对象重、垂、串等交重复杂部件设定的一项原则。设定再复杂的分列部件,最多只能拆分为两个代码。这里要说的是,最多只能用两个代码表示,同一笔划不允在两个代码中重复体现。上述3个字拆分代码分别设定为:bu bh oi。其中串的代码不允许是io。这是因为串在书写的过程中,次序是口、口、丨,后面的口和丨是联贯的,而和前口不联贯。
8、简码设定在本体系中是一项通用原则,在前面简体形码、数码部分就有所介绍、应用,这里重点提一下两字节区汉字在此板块中的兼容问题。在简体形码板块中,码长设定为3,作为输入的实际操作者不可能区分哪些就是2字节汉字,所以在18030中,都以同一规则编码。3级简码空间特大,其3根码常以空格键输入,4根以上字用4根码,很少有重码。
在本体系繁体输入中,需要说明的实在是太多了,无法一一作出说明。现将前面提到的16个字的编码依次抄录如下,从中也能了解编码的内在联系:Gok/ yfjk vjpi utya mtop vous vous ianc msyx ouoo vxym dbo,Vpps otwn sisi sssi其中6、7两个字是重码,在余下的14个字中,只有2、3、9号字是2中选1有重码,其余11个汉字都是4键无重码直接输入,平均4.3键。可见实际重码率是很低的。
七、关于GF3001符合性的说明
GF3001看来是五笔字形码的衍生物,我曾努力符合这个规范要求,其交不拆原则总感到非常的别扭。其中以榷的编码最为突出。如果没有交不拆的规定,其编码非常简单,由木、冖、隹3个编码部件组成,正好符合3个码长。有了这项规定,不仅增添了3001中的第456号编码部件,还多出了与之搭接的1竖,还有剩下的部分,也不是常用的汉字部件,是按带点处理,还是不带点处理呢?总之,此项规定不仅给编码设计者增添了麻烦,还给千千万万的使用者增添了麻烦。我明白,规范毕竟是规范,我99发明被1票否决,就是先例。后来我发现,此项规定早就被规范的制定者违反了。理由是:在560个编码部件中的第410号部件,举例是渊的繁体字写法,那么,对4字节区,内码是E76E这类字的编码该如何处理呢?中间有没有一小横,依据我从网上得到的资料,好象是没有。如果是,那为什么把联系左右的一横去除呢?还是出于无奈,按交不拆原则,就这样设定呢?按理第456号部件该有中间的一横,我在560个部件中,没有找到这样的新的部件。这就是说规范的设计者自己就违反了交不拆原则,也许是弄错了。但可以肯定,交不拆原则的设定,没有必要,更没有好处。所以,我权衡再三,最后还是决定打破这一禁令。
按理据拆分是我追求的目标,这对繁体字的拆分非常得当,简体字本身的设定就是不讲理据的,所以很难定论。好在本法设定的是一种编码部件归类、设定代码的一种方法,不是最终的编码设定,在编码的使用中、会进行必要的修改,得到进一步的完善。能得到使用者认可,让使用者节省时间是我最大的快慰。
八、本发明的优越性能
本发明是汉字的全方位的输入方法,最难处理的是2312字符集的3码长的编码输入,渡过了这个坎,后面的大字符集的4码长,库容增加十几倍,就容易多了。拼音输入是以进入门坎低见长,缺点是重码特多,但毕竟能找到所需的汉字,是大家所常用的一种输入方法。,实际上拼音只有417个音节,和几千、几万的汉字库相比,要相差1个到两个数量级,只是小菜一碟。加上在此前提下的4位数字编码的成功,拼音也就顺其自然地成了我的编码体系中的一部分了。
在前言中我已讲过,我把易学性、减少记忆量、降低进了门坎,作为自己设计的首要理念。特别是在此基础上实现了部件定位的高度均匀性,这就为3键无重码输入奠定了良好的基础条件。据编码数据库的初步统计,未作简码设定前的全码,能3码直接输入的汉字占总数的64%,点笔类的总击键数占击键总数的20%,竖笔占19%,横笔占35%,撇笔占26%。非常符合26个键的5∶5∶9∶7的所占比例。这是最突出的成功之处。
音码的同音节字特多,无声调输入时,多达100多个,作4声输入时多到50多个。变通翻页、超大的简码空间、和词输入的窗口提示、自动转换功能,连续输入时的软件支持,将为使用者提供了众多的选择余地。
数码输入是本法的重要组成部分,形数码也好,音数码也好,码长都设定为4位数字,只是形码重码较少,在简码设定前,重码最多只有7-8个,音码多到50多个。
下面以列宁、胡锦涛的两段话,都是78个字,作为实际输入例,说明韩码输入的实际性能,作为说明的结尾。
1、列宁在国家与革命中讲的一段话是:
被压迫阶级的解放,不仅非进行暴力革命不可,而且非消灭统治阶级所建立的、体现这种脱离的国家政权机构不可。这是马克思对革命的任务做了具体的历史的分析后得出的绝对肯定结论。
我将这段话,分别用简形码、形数码,音码、音数码进行了输入演示,根据示例的单字输入统计,包括空格键、翻页键在内,平均单字单输击键如下表:
首例单输击键数分类表
输入法 | 代码 | 总击键数 | 汉字数 | 平均击键数 | 备注 |
简形码 | 26 | 199 | 78 | 2.55 | 不计空格1.99键 |
形数码 | 10 | 296 | 78 | 3.8 | |
音码 | 26 | 285 | 78 | 3.65 | |
无声调音码 | 9 | 451 | 78 | 5.78 | |
4声音码 | 9 | 383 | 78 | 4.91 | 全码 |
4声音码 | 10 | 336 | 78 | 4.3 | 用了简码 |
2、再举胡锦涛同志在西柏坂的一段讲话是:
我们永远不能忘记他们为党和人民建立的丰功伟绩,永远不能忘记他们用生命培育的奋斗精神,一定要继承和发扬他们的优秀品质和崇高精神,做到为党和人民的事业生命不息、奋斗不止。(78字)
译成韩形码是:b;xq q,fbq s vye tr qj x;xq r I;bo x,jlg tw b g’ jh,xg vgy q,fbq s vye tr qj x;xq nf z;mofto ty;b sp;wd rg qo,a- rj a vru le bo vk kl x;xq bxke bn ooo ndx bo irq to rg qo,xdz afp r I;bo x,jl b g.p’z;mo s nr sp;wd s I[
平均单字单输击键数如下:如不包括空格键共163个字符,163/78=2.09(键),设空格=0.6键计,则再加42乘0.6=25.2键,188/78=2.41(键)。
由于从简体转换成繁体字,可能不够全面,故表中未列繁体。好在本说明的第11页,对第9页的16个大号繁体字有过输入示例,16个中只有5个有重码,平均单字击键4.3键。在这里所说的平均击键数是单字单输,如果再加上词的智能软件,那输入速度还有大幅度地提高,这是在此基础上的后续工作,前景无量。
Claims (6)
1、一种汉字的集成四笔划融合层次码的编码(输入)方法,是一种用于汉字信息交换、信息处理的,集形(含GB2312、GB18030)、音(GB2312)、数(GB2312)为一体的综合编码方法。这是在本人专利号分别为97106282.x和991144058的基础上,依据国家对编码发明的强制性标准和规范的要求,新近研究、设计、优化出的全新的综合编码体系。对GB2312采用的是层次3码的方式,对GB18030则增加了1个层次,采用了层次4码的方法,这是体系的主体,故叫汉字的集成四笔划融合层次码(简称韩码或四笔)的编码(输入)方法。四笔根据实际需要,在总体上设定了5个输入版块,其中对GB2312,形码有标准键盘输入和10个数字键输入两种,音码的主体是数字输入,兼有26字母的拼音输入,共4个输入版块;还有适用于GB18030的大字符集形码输入版块。在本编码体系中,四笔形码最为复杂,其核心输入架构又拓展到音码和数码,这就形成了一种综合的编码输入方法。其总体特征在于:
(1)形码编码部件以点(捺)、竖、横、撇(提)4笔分类,将五笔中的折笔依起笔从点、竖、横、撇4笔之中,分别以通用键盘的26个英文字母为代码,按5、5、9、7的键盘自然顺序从左到右、从上至下依次排列。对编码库的分类统计表明,5、5、9、7配置的配置恰到好处。详见后续简(2)基础部件(2312简)代码分类设置表,和繁(6)增补部件(18030繁)代码分类设置表。
(2)本法所述层次编码方法,是根据汉字的造字层次,采取逆向思维的方式,逐层取根码的编码方法,特点是编码部件可以是笔划、部首,独体字,也可以是多根字,具有明显的变通特征和省略,所以字根、部件总数难以界定。例如原字,单独输入时用3个明显的根部件输入,而由3个原、4个原组成的字,只把原看成1个编码部件,只取首部件(厂)的代码,把以后的白、小都视为省略,也没把原’计入编码部件之中。对层次不够分明的多部件组成的复杂汉字,是先找出突出的偏旁部首,然后看后续是取两个编码,还是3个编码。取两码时取剩余部分的首尾码,取3码时再找出突出部件码,由于最多只取4码,所以经两轮后只剩两码了。如蘩、繁、敏字等。
(3)本法以3个代码为核心基础,对2312字符集,形码最多取3个编码部件,并转换成字母输入;数码转换成3个数字,再增加1个3部件所形成的3点式9类结构码输入。在18030的大字符集中有27533个汉字,取4码才能满足输入的需要。3根字输入,或者是加空格,或者是增加1个9类结构码输入。3根9类结构码在繁体形码中和形数码中9个数字的结构码两者完全兼容。具体见下表:
结构码分类表(表1)
注;表中下行的数字为数字结构代码、标点符号因键盘设计的差异为暂定代码,是按标准键盘排列的键位设置,本质是9类结构代码,允许具体符号的变动。
双根结构码分4种,即左右(,。)、上下(;′)、交包(/、)、粘联即拆分的独体字([ ])等8个符号表示,包括剩余的3个(-=`)共11个符号键,(`)作汉字符号的专用输入键,(-)中数专用,(=)作字根字专用;也兼作两级简码键使用。单根时10个符号键,作重码区别键和1级简码键使用,以显示代码所包含的内容,能起到邦助学习的作用。
2、根据权利要求1所述的汉字的集成四笔划融合层次码的编码(输入)方法,对GB2312的汉字编码输入,四笔形码基本集的编码特征在于:
字根26代码分类设置、采用了恰到好处的3代码编码体系和合理有效地使用了符号键的剩余资源。对独体字尽量用单根简码、双根字用两级简码,或独体字拆2、和双根字都用双码,再加符号键的结构码、正如权利要求1(3)表1所述。3根用3码,4根以上的多部件字也用3码,取码方法如前条3款所述,把码长降低到了最低的限度。编码部件,按笔划或总体特征归纳成约50个大类,详见下页代码表:
(2312字符集)字根代码分类设置表(表2)
3、根据权利要求1所述的汉字的集成四笔划融合层次码的编码(输入)方法,四笔形数码是主要适用于手机的汉字输入、涵盖2312字符集的一种编码方法。其特征在于:
四笔编码部件以点2、横3、撇2、竖2的比例,设定在1-9的9个数字键上。独体字(含40个字符),3笔以下用笔划3码,1笔重1笔,两笔重次笔;多笔独体字或直接取3个编码,或取总根码、加拆2(首尾)码(凸、凹、垂等);双根字取部首码,和非部首部件拆2双码;3根字取3根码、多根字取层次3根码。部件编码取3个,再加一个同权利要求1(3)表1中的数字键所示的3点式结构码,码长为4。其中单根字的结构码除适用3点式结构码外,用结构码数字1输入。这样就给常用高频汉字让出简码资源空间,0数字键作为中断、简码键使用。加0作1、2、3级简码输入。设定码表如下:
数码归类表(表3)
数码设置表(表4)
4、根据权利要求1所述的汉字的集成四笔划融合层次码的编码(输入)方法,韩码拼音输入是设定声母ch=v,zh=I,sh=e键,其它声母从原键。其韵母有多种设定。有了声母(含虚拟)、韵母,就能以双拼输入汉字。本发明是将A、O、E、I、U这5个系列,划定5个区域设定键位代码,依据字母的自然顺序排列,这样的键位设定非常容易变换到数字输入状态,从而使手机的汉字输入,以双拼的规律输入非常简单。其特征在于:
拼音韵母代码键位表的板块、顺次和键位特点,和具体的符号键的窗口提示、变通翻页设定功能。
拼音韵母代码键位表(表5)
在拼音进入输入状态,即击过首键(声母或韵母)后,如果此键有韵母输入,会弹出提示窗口。击过第2键(即声母后续韵母键)后,一定会弹出音节的提示窗口。提示窗会有15个分类汉字提示输入键,每类3个,可直接选中输入。还有5个翻页键,分别是4声和无声调5类,选中便进行分类翻页,翻页后便能同时提示20(10个符号和10个数字)个选择,这样就减少了层次。
5、根据权利要求1所述的汉字的集成四笔划融合层次码的编码(输入)方法,和权利要求4所述的拼音韵母(见表5)的设定,其韵母的区域顺序定位,为音数变换、应用到手机的汉字输入中创造了极为有利的条件。其特征在于:
以标准键盘的26个字母键位,再加1个虚拟键位,共27个,正好以1-9个数字排列作代码,键位码长为2,共81种,其中27个作为拼音无声调编码,54个作为有声调编码。由此可见,有声调输入和无声调直接输入可以有各自的编码空间,互不干扰,无需切换便可任意变通输入。同时令数字零键作中断键使用。
在拼音数码输入的码表中,都有虚拟键位代码这一项,在双拼中可以设定某虚拟声母,也可用此作无声母字的虚拟声母,韵母直接输入的后虚拟代码。无声调输入和4声输入是并行的。根据九九行列排序,具体的设置方法大体上有行、列、错3种设置,各有利弊。以行设置最为简明,都包含无声调输入和4声输入两个部分。
行设置的输入方法是:以前3行作为无声调输入的板块,后6行为4声输入板块。见下列表6、表7、表8。
键位行排列无声调拼音数码设定表(表6)
键位列排列4声调拼音前数码设定表(表7)
键位列排列4声调拼音后数码设定表(表8)
列设置是:以前3列作为无声调输入的板块,后6列为4声输入板块。(略)
错设置即斜角设置也有其特长。特别是不常用4声输入,只用无声调输时,显得思维更为简捷。错设置是以标准键盘3个代码字母为1组,将27个键位分成9组,分别用1-9个数字代表,变化的只是后面1个数字代码,共9个数字的变化。这9个数字又要分成3组,分配给3个键位作代码。不外是,123、456、789;或者是147、258、369这两种组合。实际上它们是等价的。在本法示例中设定如表9、表10所示。拼音数码输入时,只要将设定的声韵键位转换成4位数码,就可以作数码输入了。详见下面数码设定表(表9)、(表10)。
键位无声调拼音数码设定表(表9)
键位4声拼音数码设定表(表10)
6、根据权利要求1所述的汉字的集成四笔划融合层次码的编码(输入)方法,对GB18030的大字符集中27533个汉字的编码,是在GB2312中的6763个汉字基础上的后续编码部分,设定码长改为4,新添编码部件的大部分和GF3001中的560个部件相同的,只是编码部件总量大为减少,新增不同的部件很少,如表中两手写部件。其特征在于:
繁体编码部件是依据本法设定的码长优先、部件设定、对征入座、总体平衡、特征省略、成字优先、交重拆2和简码设定原则等8项编码基本规则,对GB18030的27533个汉字,反复进行了编码输入优化,形成了如下表11所示的新添编码部件设置。部件分类和原简体形码部件的分类完全相同,具体设置如下表11。
繁体新添部件设置表(表11)
注:表中未提及的3001部件,在本编码体系中省略,手写部件为3001中没有的本法新设部件。这此部件集中在Q、Y、U、I等19个字母上,W、E、R、T等7个字母上没有增加故在表中略去。表中部件累计会随部件的删改而有所改变。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200610086821 CN101093421A (zh) | 2006-06-20 | 2006-06-20 | 汉字的四笔层次形码及形音的数字编码输入方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200610086821 CN101093421A (zh) | 2006-06-20 | 2006-06-20 | 汉字的四笔层次形码及形音的数字编码输入方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101093421A true CN101093421A (zh) | 2007-12-26 |
Family
ID=38991706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200610086821 Pending CN101093421A (zh) | 2006-06-20 | 2006-06-20 | 汉字的四笔层次形码及形音的数字编码输入方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101093421A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102759990A (zh) * | 2012-08-07 | 2012-10-31 | 苗逢春 | 一种汉字输入教学码 |
CN101930292B (zh) * | 2009-06-18 | 2013-12-18 | 徐州捷诺软件科技有限公司 | 汉字的形音数的综合编码输入方法和应用 |
CN104123011B (zh) * | 2009-06-18 | 2021-08-13 | 徐州捷诺软件科技有限公司 | 汉字和汉语拼音的编码输入方法 |
-
2006
- 2006-06-20 CN CN 200610086821 patent/CN101093421A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101930292B (zh) * | 2009-06-18 | 2013-12-18 | 徐州捷诺软件科技有限公司 | 汉字的形音数的综合编码输入方法和应用 |
CN104123011B (zh) * | 2009-06-18 | 2021-08-13 | 徐州捷诺软件科技有限公司 | 汉字和汉语拼音的编码输入方法 |
CN102759990A (zh) * | 2012-08-07 | 2012-10-31 | 苗逢春 | 一种汉字输入教学码 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101556574A (zh) | 基于用户意愿的计算机智能起名 | |
CN101093421A (zh) | 汉字的四笔层次形码及形音的数字编码输入方法 | |
CN101598976A (zh) | 汉字输入拼块音新方案 | |
CN101930292B (zh) | 汉字的形音数的综合编码输入方法和应用 | |
CN102799282A (zh) | 笔画字根全息码汉字输入法 | |
CN102279650A (zh) | 简单规范输入法 | |
CN103207684A (zh) | 音素字母双拼输入法 | |
CN101587381B (zh) | 音形汉字无重码输入法 | |
CN101517573A (zh) | 表意文字数据库系统及其处理方法 | |
Montgomery et al. | The New Encyclopedia of Southern Culture: Volume 5: Language | |
CN104123011A (zh) | 汉字和汉语拼音的编码输入方法和应用 | |
CN102253726A (zh) | 一种计算机汉字数字笔画的输入方法及键盘技术 | |
CN104951096A (zh) | 汉字编码八类笔形座标形码输入法 | |
CN103176614A (zh) | 多键共击速录 | |
CN100545790C (zh) | 计算机汉字信息猎头码输入法 | |
CN103777771B (zh) | 易捷速录系列输入方法 | |
van Ostade | Introduction to Late Modern English | |
Downey | All forms of writing | |
CN101706685A (zh) | 一种汉字输入法 | |
CN100381983C (zh) | 通俗五笔字根编码的汉字输入方法 | |
CN1028386C (zh) | 电脑汉字象形编码输入计算机的方法 | |
CN1609765B (zh) | 活字码中文字根输入法及其键盘 | |
CN107256092A (zh) | 汉字数字形码快速输入法 | |
CN1595340A (zh) | 通俗五笔字型法及其键盘 | |
CN101086687A (zh) | 一种首末码汉字输入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20071226 |