CN1246759C - 一种采用根素码的计算机汉字输入方法 - Google Patents
一种采用根素码的计算机汉字输入方法 Download PDFInfo
- Publication number
- CN1246759C CN1246759C CN 03100076 CN03100076A CN1246759C CN 1246759 C CN1246759 C CN 1246759C CN 03100076 CN03100076 CN 03100076 CN 03100076 A CN03100076 A CN 03100076A CN 1246759 C CN1246759 C CN 1246759C
- Authority
- CN
- China
- Prior art keywords
- radical
- key
- chinese character
- root
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明属于计算机汉字输入技术领域,涉及一种采用根素码的计算机汉字输入方法,该方法把汉字拆分为字根作为汉字编码的元素,从字根中提取出构成字根的形状特征信息元素作为根素,根据根素的所属信息中的一种或几种建立字根分类规则对字根进行分类;把字根根据其所属类别和代表键盘键位的键码对应;根据字根对应的键码或结合字息码对汉字编码;该汉字编码中所含键码的种类、个数、排列顺序分别表示输入汉字要击的键、击键的次数及顺序,依次击汉字编码中键码对应的键位,输入汉字。本发明使根码在易于学习的基础上减少了码长和根码键码数,提高了输入效率,且有利于在移动电话等以数字键为主的汉字输入系统中推广。
Description
技术领域
本发明属于计算机汉字输入技术领域,特别涉及一种键盘汉字编码输入方法。
背景技术
目前,信息处理系统输入字符的方法很多,主要以键盘输入为主,语音输入、手写输入等只是辅助手段。现有的键盘汉字编码输入法种类很多,申请专利的有1800多种,通常根据其编码分类,有的编码同汉字的各种特征信息无联系,直接建立一个编码字典,如区位码、电报码,这类编码毫无规律,学习记忆非常不便;有的编码和汉字的各种信息有联系,这种编码有利于学习记忆,除非特殊说明,以下所指的输入法都指这类输入法。
汉字的数量很多,而键盘的键不可能做得和汉字一样多,因此绝大多数汉字要击多次或多个键输入,通过汉字输入系统的转换程序,把击键得到的代码根据汉字编码字典转化为汉字代码,从而达到输入汉字的目的。编写输入法的目的是确定输入汉字的要击的键及击键的顺序和次数。但因为不同的键盘其布局不同,输入字符的方法也不全相同,且直接规定每个汉字对应的击键方法既繁琐又不现实,因此要把每个键用一个字母、数字或特定的键名来代表并称之为键码,微软的输入法生成器及部分输入法中称之为码元,但有的输入法中的“码元”实质是字根,为避免引起歧义,本输入法称之为键码。一般键码在各种普通键盘上都可直接或间接输入,特殊键码要设计专门的键及键盘与之对应。这样就可把汉字和键位的对应转化为和编码对应,编码是由一定数量的键码按一定顺序排列构成的,编码中所含键码的种类、个数、排列顺序分别表示输入汉字要击的键、击键的次数及顺序,编码中含键码的个数称为码长,所有用来编码的键码组成键码集,把汉字用编码表示就构成编码字典。这样创造输入法的过程主要是为汉字编码的过程。
汉字编码和汉字要尽量一一对应且使键码和汉字之间有一定的联系规则,使人能够根据汉字编码规则从汉字的音形意等信息得出其编码。汉字的信息很多,声音、字形、书写顺序、字意等都是汉字的信息;还有一种信息是把汉字根据一定的规则拆分为字根(也有的输入法中称之为字元、构件、字体等),先把字根根据其音、形、意等信息和键码对应,再根据汉字所含字根种类、数量、及字根在汉字中的结构顺序等信息为汉字编码。由于绝大部分编码利用汉字的音、形信息编码,因此通常把编码分为“拼音码”、“拼形码”、“音形码”等几种,下面分别对上述几种编码作一介绍:
(1)拼音码。
拼音码以汉字的拼音信息为基础编码,多利用汉字的声母和韵母信息,也有的把声调信息用来编码。把拼音字母和英文字母一一对应的编码称为全拼码,把韵母用某些单字母对应的称为双拼码。由于双拼码把韵母简化为一个字母,击键次数少于全拼码,输入速度有所提高,但双拼布局需要记忆。拼音码对熟悉拼音的人来说极易掌握,但由于重音字太多,重码率很高,输入速度慢。有的拼音码输入法可以连续输入整个句子,系统自动识别汉字,如果识别有误,要返回到这个汉字,在屏幕的提示下改正,一般而言,系统将识别出大部分的汉字,但仍有一部分汉字需要挑选,因此它的输入速度仍受到一定的限制。
(2)拼形码。
拼形码只根据汉字字形信息编码。多数拼形码把汉字拆分为字根,每个字根对应一个键码,根据汉字的结构信息把字根对应的键码排列,取此键码排列的全部或一部分作为汉字编码。如中国专利申请号是85100837的输入法编码就是把汉字拆分为字根的输入法。由于如何拆分汉字没有统一的标准,且拆分出的字根数往往大于键码数,因此要解决汉字拆分与把字根分类和键码对应的问题。在解决字根和键码对应的问题上,有的根据字根的笔划信息把字根分类和键码对应;有的根据字根和英文字母的形似把字根和键码对应;有的根据字根间的形似或把某些字根看作是某个字根的变体归为一类;有的根据字根的拼音信息把字根分类和键码对应;有的利用字根的意义把字根分类和键码对应;还有的根据字根的笔划、笔顺、笔划数等信息综合起来把字根分类;但这些字根分类方法都存在规律性不强、分类规则不严格统一等缺点。规律性不强指分类规则不明显,往往把形状相似作为分类原则,而不能用逻辑性的语言把分类规则概括出来。不严格指只有一部分字根的分类符合规则,另一部分字根的分类不符合规则,即其规则是描述性的,不是用以规定字根的分类,而是用以解释为什么把这些字根归为一类,也就是说某一类别里的字根虽然符合其分类规则,但符合这一分类规则的字根却不都归在这一类字根里。不统一指存在不一致的分类方法,一部分字根用这种方法分类,另一部分却用另一种方法分类;或先用某一方法分类,再用另一种方法细分,使分类规则很难掌握。因此现有技术的字根分类规则不能用简明的语言概括出来,更不能根据其分类规则推理出字根的类别,需用表格或键盘键位图详细规定字根的分类及字根和键码的对应,有的虽有明确的分类规则,但往往要对字根规定一些记忆的东西,其实质是形式上的规则,把不符合规则的字根附加一个特征,或者说不是根据字根的特征建立分类规则,而是先建立分类规则,再设法使字根符合规则,如把没有读音的字根规定读音,这个附加读音的过程就需要记忆。由于以上原因,拆分汉字的拼形码在学习时需记忆的东西很多,学起来很慢,但由于它重码率很低,经一段时间的学习,一旦熟练掌握,输入速度很快。另有少数拼形码不把汉字拆分,直接利用汉字的笔划、笔顺、结构、形状等信息编码,如利用汉字四角的形状信息编码,利用汉字的起笔、末笔、头两笔、末两笔等信息编码。如中国专利申请号为98121593.9的输入法编码就是利用四角号码编码的拼形码。这类形码不存在汉字拆分的问题,但对汉字的编码不符合汉字的构造规律,编码也很难掌握。
(3)音形码或形音码。
音形码中含有根据汉字拼音信息编码的音码和根据汉字字形信息编码的形码。形音码也属于音形码,只是形码在编码的前面,音码在后面。音形码中多取汉字拼音的声母作音码,也有的采用全拼或双拼作音码,还有的把音调也作为编码信息。形码编码和拼形码相似。把汉字拆分的音形码多采用汉字的声母作音码;不把汉字拆分的音形码多采用汉字的全拼或双拼作音码。和拼形码相比,音形码的优点是由于有了音码作区分,形码部分的编码相对简单,学起来更容易。但现有的音形码和拼形码有共同的缺点,拆分汉字的音形码存在字根分类及汉字拆分等问题;不拆分汉字的音形码中,有的采用了双拼加形码的方案,双拼布局增加了记忆量,有的虽不采用双拼方案,但其形码和拼形码一样都不好掌握,有的利用笔划和笔顺信息为汉字编形码,虽然能够建立较严格的规则,但对汉字的编码不符合人们对汉字的习惯理解,如中国专利申请号为97118358.9输入法编码。值得一提的是由于先用音码把汉字分类,形码编码对重码率的要求大大降低,拆分汉字的音形码可以利用字根的读音把它分类,对没有读音的字根,或为其规定读音,或根据其形状编码。由于这类音形码以音为主,编码方案简单明了,易于掌握,但在处理没有读音或读音很少有人知道的字根时有困难,且由于主要以字根读音分类,不利于优化组合字根以及减少根码键码的数量。
音和形是汉字的两种最重要的信息,对两种信息的不同利用产生的效果有很大不同,因此把编码分为拼音码、拼形码、音形码具有一定的科学性,但在编码时采取拆分汉字的方案和不拆分汉字的方案产生的效果也有很大不同,而上述分法在区分编码方案是否把汉字拆分这方面有困难,因此本输入法引入了“字息码”和“根码”的概念,字息码指根据汉字本身的信息编的码,根码指把汉字拆分为字根,把每一字根对应一个键码,把字根对应的键码按一定的规则组合排列、取舍构成的汉字编码。根据编码是否含有字息码或根码,把汉字编码分为全字码、全根码和混码三种,下面介绍一下这三种编码的结构特征及和音形码、拼音码、拼形码之间的区别与联系:
(1)、全字码:这种编码中只含有字息码。拼音码都是全字码;不把汉字拆分的音形码和拼形码也是全字码,如中国专利申请号为00114633.5的输入法编码就属于不把汉字拆分的音形码,也属于全字码。由于拼音是汉字本身的信息中最易掌握的,也最易实现,因此全字码大部分是拼音码。
(2)、全根码:这种编码中只含有根码,如中国专利申请号为02115608.5和85100837的输入法编码就属于全根码,也属于拼形码。由于是根据汉字的字形拆分汉字,所以全根码都是拼形码,拼形码大部分是全根码。
(3)、混码:这种编码既含有字息码又含有根码,字息码和根码按一定的规则组合排列构成混码。大部分音形码属于混码,这种音形码音码即字息码,形码即根码,如中国专利申请号为00122403.4的输入法编码。理论上讲混码可以是拼形码,实际上由于用字形信息编字息码远不如用拼音信息方便实用,几乎所有的混码都是音形码。
全字码、全根码和混码各有优缺点,全字码特点就是前面讲的拼音码和不把汉字拆分的音形码、拼形码的特点。其共同点是不拆分汉字,因此不存在汉字拆分及字根分类和键码对应等问题。
全根码和混码的共同点是都把汉字拆分为字根,编根码的过程也一样,不同点是混码还含有字息码。因为把汉字拆为几部分,就相当于利用几个字根的信息来为汉字编码,由于可利用的信息多了,就可减少重码,缩短码长,但全根码和混码也有一个共同的缺点:即“汉字拆分”和“字根分类”比较难于掌握。
由此可见,各种编码都有各自的优缺点,有的优缺点具有不可替代性,如拼形码可输入不知读音的汉字,而拼音码可输入对拼形码而言是难拆的和特殊的汉字。因此有的输入法里含有几种编码,就是想利用各种编码的优点。但一种输入法含有几种编码绝不等于它具有了几种编码的优点,因为输入汉字时一次只能用一种编码,而且各种编码的综合优势肯定不同,绝大多数时候要用那种主要的、具有综合优势的编码,只有在特殊情况下才切换到其他编码。因此现有的键盘汉字编码输入法虽然很多,但其编码易学与好用的矛盾仍未得到很好的的解决,输入速度快,重码率低的编码往往难于掌握,而易于掌握的编码又存在着输入速度慢的缺点。
为了克服现有技术的不足,解决汉字编码易学与好用之间的矛盾问题,就得选择最有利于解决此问题的编码类型,并进一步找出其存在的根本问题,因为不同类型的编码有不同的特点。拼音码由于其固有的特点决定了其易学不好用的特点,不拆分汉字的音形码和拼形码,由于把汉字看作一个整体,所利用的信息有限,即使能使重码率很低,但其编码也比较难掌握。因此若想充分利用汉字的各种信息,就不可忽略绝大部分汉字是由某些更基本的部件组合构成的这一事实,而这点和英文的单词由字母组成很相似,利用此特点更有利于解决编码易学与好用的问题,因此要用全根码或混码来解决此问题。但传统的汉字构成理论中没有统一的汉字拆分标准,不同的拆分原则会得到不同的字根集,因此全根码和混码首先要解决“汉字拆分”的问题。如果单纯解决此问题并不难,因为绝大部分汉字是合体字,我们在学习合体字时都很自然的把汉字拆分为更简单的部件来学习记忆,并且总结出构字能力强的偏旁部首用于教学和检索,只要遵循汉字的构成规律,并对易引起误解的汉字作出明确的规定即可很容易的解决汉字拆分问题。但问题在于构成汉字的基本部件太多了,约有五、六百种左右,要把这么多的部件都作为字根编码,如果没有有效的字根分类方法,势必使每个键码对应的字根数很多,造成学习记忆困难,因此现有的混码和全根码多把字根数控制在一定范围内,并把传统的汉字部件拆分为更基本的部件,由此造成汉字拆分问题。如“吞”字,几乎每个人都会把它看作是“天”和“口”的合体字,但如因为“天”的组字能力不强而不把它编为字根,就得把它拆为“一、大、口”或“二、人、口”编码,这必然不符合常理,使编码不容易掌握。即使是控制字根数,字根数也往往远大于键码数,因此要根据一定的规则决定把哪些字根归为一类,及决定把各类字根对应哪些键码,这就是“字根分类和键码对应”的问题。可以看出,汉字拆分与字根分类是一对矛盾,两者不可兼顾。汉字的拆分从某种意义上讲是汉字本身所决定的,要真正解决易学与好用的问题,就不得擅自改变传统的汉字拆分规则,这样就把所有的问题都集中在字根分类和键码对应的问题上了。怎样把字根分类并和键码对应才能使编码达到易学好用的目的呢?
要使编码易学,其字根分类要使其编码满足三个条件:(1)字根分类规则要简单明了,严格统一,不能把毫无联系或联系很勉强的字根归为一类。(2)字根分类的数量(即根码键码数)不能太多,这一方面是因为键码多了不利于在键盘上对应,另一方面是因为根码键码多了不易学习记忆。(3)分类要直观,不可把抽象的逻辑方法用于汉字编码,因为汉字是一种表形文字,抽象的逻辑方法不符合人们对汉字的习惯理解。
要使编码好用,其字根分类要满足两个条件:(1)汉字平均码长要短;(2)重码率要低。这两个要求是相互制约的,从概率上讲,和二者相关的因素有三个:键码数、码长、编码汉字的数量。键码和码长共同决定可用码的多少。可用码指可用来编码的所有码的数量,是键码在规定码长内的所有排列。如键码数为25码长固定为4的全根码,其可用码的数量为254个,即390625个。可用码越多,编码汉字的数量越少,重码率越低。一般而言,编码汉字的数量是一定的,对GB2312,其数量为6763个。因此可用码数量越多即键码越多、码长越长重码率越低。由于码长越短输入速度越快,故键码越多,即字根分类种类越多越好用,这显然和前面易学的要求相矛盾。这就是字根分类种类多少的问题。
当然,字根分类和键码对应并不是简单的概率问题,这一方面是因为要根据一定的规则为字根分类,不能把字根随机分类,也不可能使各类字根中的数量都相等或相近,另一方面是因为汉字有很多重音字,形近字,各种字根在汉字中出现的概率差别也很大。这样在要求键码尽量多的条件下各个键码在汉字编码中出现的次数要尽量平均,这样才能充分利用可用码,减少重码率。要达到这一要求就得在统计分析的基础上对字根进行优化组合,这样既可以降低重码率,又可以在保证重码率不变的情况下减少键码的数量。但优化组合的结果往往使组合在一起的字根没有共同的特征,或和字根分类规则相冲突。这就是字根分类和优化组合之间的矛盾问题。
全根码和混码虽然面临着共同的问题,但面临问题的侧重点有所不同。因为全根码编根码时面对的是要编码的全部汉字,而混码由于首先把汉字用字息码分类,在编根码时面对的编码汉字是根据字息码分类后的各类汉字的数量,其平均值是全部汉字的数量除以字息码键码的数量。因此从理论上讲,在保持重码率不变的条件下,根码部分的键码数和码长都可以减少,即混码更有利于解决字根分类种类多少的问题。正因为如此,近几年混码占编码总数的比例较大。但混码只是在结构原理上为解决编码易学好用的矛盾提供了条件,并没有为字根分类带来便利,相反,如想利用混码减少根码键码数,反而会增加字根分类的难度。因为如果减少根码键码,字根总数不变,每个键码对应的字根数会增加,给字根分类带来困难;若减少字根总数,又给拆分汉字带来困难;若强行按字根的公知信息建立严格的字根分类规则,又和字根优化组合相冲突。因此现有的混码虽对字根分类作了许多有益的尝试,如利用字根读音分类,但由于没有发现汉字字根构成的普遍规律,没有突破利用传统信息分类的局限性,没有建立严格统一且能兼顾字根优化组合的字根分类规则,其根码键码相对全根码键码的数量多数没有减少,和全根码相比也就没有多少优势,这也是混码虽然从理论上讲有优势,但实际上混码并未取代全根码成为主流编码的原因。而全根码除了字根分类和键码对应问题,还面临字根分类种类多少的问题,但若字根分类的问题解决了,也可在保持重码率不变的情况下改变根码分类需记忆的现状,使根码更容易掌握。
由此同见,对全根码和混码而言,其根本问题是解决字根分类和键码对应的问题,即在建立严格统一的字根分类规则的基础上兼顾字根优化组合。这个问题解决了,就可改变字根的分类需要记忆的现状,并可在减少根码键码数的同时增加字根总数,继而解决汉字拆分问题,实现根码编码易于掌握的目的,解决汉字编码易学与好用的矛盾。
发明内容
本发明的目的是为克服已有技术字根分类和键码对应问题的不足之处,为此提出一种采用根素码的计算机汉字输入方法,突破了只利用公知的字根信息如读音、笔划、笔顺、笔划数、形似等信息为字根分类的局限性,在发现字根构成规律的基础上,创造性地提出了“根素”分类原理,利用根素的各种信息建立了严格统一的字根分类规则,可通过字根分类规则推理出字根类别,并通过灵活选取根素解决了字根分类和优化组合的矛盾,使根码在易于学习的基础上减少了码长和根码键码数,提高了输入效率,且有利于在移动电话等以数字键为主的汉字输入系统中推广。
本发明提出的一种采用根素码的计算机汉字输入方法,包括以下步骤:
1)把汉字拆分为字根作为汉字编码的元素,从字根中提取出构成字根的形状特征信息元素作为根素,根据根素的所属信息、数量信息、笔划笔顺位置信息、是否由完整笔划构成信息中的一种或几种建立字根分类规则对字根进行分类;
2)把字根根据其所属类别和代表键盘键位的键码对应;
3)根据字根对应的键码或结合字息码对汉字编码;
4)该汉字编码中所含键码的种类、个数、排列顺序分别表示输入汉字要击的键、击键的次数及顺序,依次击汉字编码中键码对应的键位,输入汉字。
本发明的方案说明如下:
本发明所述根素是在为字根分类时所体现出来的构成字根的形状特征信息元素,所述形状特征指平面几可图形的直线段、曲线段的种类、数量、方向角度及相互位置等信息的综合,即仅把字根作为一幅平面几何图形来对待,忽略构成字根的笔划笔顺等信息。根素在字根中的存在形式是构成字根的一个或几个图形局部或全部,其作用是利用根素的各种信息为字根分类,作为根素的具体元素可以和笔划、笔划组合、偏旁部首、字根、汉字中和某些具体元素的形状相同,也可以是由笔划或线条构成的一种全新的形状元素。本发明提出“根素”这一分类原理的创造性不是体现在是否发现了现有汉字输入技术领域不存在的字部件,而是体现在发现了字根是在某些形状特征元素的基础上延伸扩展得到的这一字根构成规律,并利用这一规律从字根中提取出一定数量的形状元素作为根素对字根分类,这些形状元素是构成字根的组成部分,同时也是字根的形状特征。传统的汉字构成理论没有发现这一规律,现有的输入法编码中也没有发现并利用这一规律为字根分类,而只利用了笔划、笔顺、读音及字根的整体形状相似或变体变形等字根信息。根素不同于传统汉字构成理论中的笔划、偏旁部首,也不同于字根、笔划组合。笔划和偏旁部首是根据相关标准确立的已经公认的汉字构成部件,笔划是书写楷体汉字时从起笔到落笔形成的连续的线条,其最初的作用是构成汉字,在汉字编码时,可以作为字根编码,也可以利用起笔、末笔、笔顺、笔划数等信息为字根分类;偏旁部首是经常出现的汉字构成部件,其最初作用是用于检素和教学,实质是根据汉字中含有的偏旁部首把汉字分类,在汉字编码时可以作为字根编码,但仅用偏旁部首编码效果并不理想,往往和非偏旁部首的字根结合为汉字编码。字根是在为汉字编码时从汉字中拆分出的汉字构成部件,它可以是笔划、偏旁部首、笔划组合或汉字,字根没有固定的内容,它们随编码的不同而不同,其最初作用是为汉字编码,因而是随汉字编码的需要出现的。笔划组合也是汉字构成部件,是两个以上笔划构成的可以用作字根的具有固定形状的汉字部件,不包含汉字、笔划、偏旁部首等公知部件,它在传统汉字构成理论及汉字编码中都没有明确的定义,它的出现是因为不同编码的字根集往往不同,同一笔划组合,有的编码中拆分,有的编码中却不拆分,因此就把可作为字根编码的非传统汉字部件统称为笔划组合。可以看出,上述几种概念虽有明显不同,但也有一定的联系,如果仅从形状上看,构成各种概念的元素集合完全相同的可能性很小,但却存在着交叉归属现象,即一个几何图形在不同的条件下有不同的定义,例如“口”,在文章中它是个汉字,在部首检索时它是个偏旁部首,在为字根编码时它可以是个字根。构成根素的具体元素在形状上也和现有公知部件存在着交叉归属现象,因此不能从各种概念的具体元素来区分它们。要理解根素的本质并和现有的汉字部件区分就要从它们的定义、作用、各种属性特征来分析。从定义中可以看出,根素和现有的汉字构成部件的最大区别在于根素仅具有形状特征,忽略了其他的笔划笔顺等特征,仅把根素和字根看作是一幅几何图形,可以把几何图形放大或缩小,但图形的直线段或曲线段的数量、相互位置关系、方向角度等信息却有固定的内容,而现有的汉字构成部件都是由笔划构成的,其构成信息是以笔划为单位的。笔划是汉字及汉字构成部件特有的属性,如果把“口”看作是汉字,则它除具有方框形的几何特征外,还具有笔划笔顺等信息特征,而根素正是忽略了字根的笔划笔顺等信息特征,仅抓住了其形状特征。在判断某一字根中是否含有某一根素时,不允许添加图形,但允许擦除任何部分图形,只要剩余部分的图形形状可以构成根素的形状特征,就可以认为此字根中含有这个根素,而其他部件却不同。例如,以“身、电、壬、弓”等为字根,以“目、日、口、
亻、、乚”为根素,则可以认为“身”字根含有一个“目”根素,四个“日”根素,6个“口”根素,一个“”根素;“电”字根含有三个“日”字根、三个
根素、九个“口”根素,一个“乚”根素;“壬”字根含有“亻”根素;“弓”字根含有“”根素。但如果以“身、田、壬、弓”为汉字,以“目、日、口、
亻、”为字根、偏旁部首或笔划,则不会认为“身”含有“目、日、口”字根、“电”含有“
、口”字根、“壬”含有“亻”偏旁、“弓”含有“”笔划。可以看出,只要某一根素中的某一局部的形状特征和根素的特征相同,就可认为其含有此根素,而不管其他部分如何,也不管是否破坏了笔划笔顺,而汉字中的笔划、偏旁部首和字根的存在依据都是以笔划为基础的。根素在字根中的存在是客观的,由于根素具有固定的几何特征,利用根素可以建立严格统一的字根分类规则,而不仅仅是用来对字根的分类作解释性的说明。构成字根的根素很多,可以根据汉字编码的需要选择不同的根素来为字根分类,这就可以使字根分类既有严格的规则又有很大的灵活性,可以解决字根分类的严格性和优化组合的矛盾,满足汉字编码的需要。
从作用来看,笔划的最初作用和根素不同,但随着汉字编码的发展,用笔划为字根分类的编码为数不少。现有技术典型的利用笔划、笔顺信息为字根分类的编码主要有三类:第一类是如上所述的“五笔字型”编码,先利用字根起笔把字根分为几类,再根据其他方法如第二笔笔划、相似、变形等规则细分;第二类是先利用字根的笔划数把字根先分为几类,再根据其他方法细分,如中国专利申请号为96100816.4和01108148.1的编码;第三类是根据笔划和笔顺为字根分类,典型的方法是把基本笔划两两组合成笔划对为字根分类,如中国专利申请号为00129107.6编码。第一类和第二类由于先用起笔笔划或笔划数把字根分了类,再用其他方法细分时就容易多了,但这样会使分类的方法复杂化,虽然有利于建立比较严格的规则,但不利于学习记忆,即使如此,其细分方法仍没有可推理的逻辑规则,往往仍根据形似,变形等方法为字根分类,其分类规则仍局限于解释分类、增强记忆的作用,不能根据分类规则反推出字根的所属类别。第三类编码虽然规则简明,逻辑性好,但根据笔顺判断不附合人们对汉字的习惯思维,输入速度很难提高,同时也不利于字根优化组合。而本输入法编码对字根的分类方法是基于根素的基础上的,根素和笔划的不同前面已说明,虽然有些根素和笔划在形状上可能一样,但由于根素和笔划的定义及在字根中的存在形式不同,它们在字根中的属性及在分类时的作用都有了根本性的变化,用形状一样的根素和笔划为字根分类就可能产生不同的结果,如可认为“九”含有“乚”根素,但不可认为“九”含有“乚”笔划。笔划的种类是有限的,固定的,由于笔划的最初作用是构成汉字,并不适应汉字编码的需要,而根素由于仅具有形状特征,它突破了笔划的局限性,不管它是不是笔划,也不管它是不是其他什么已知部件,只要它是一些字根的标志性特征元素,就可以作为根素来为字根分类,由此产生出既能兼顾字根优化组合,又能为字根严格分类的效果,并且分类规则简单明了、符合传统汉字拆分习惯,和现有技术利用笔划为字根分类相比有实质的变化和进步。当然,以上所述仅就字根分类方法进行比较,许多编码由于没有采用音形码或混码方案,和本输入法编码所属类别也不一样。
从作用来看,偏旁部首、字根和根素的作用都不同,字根的作用是为汉字编码,偏旁部首也可作为字根来为汉字编码,而根素的作用是用来为字根分类。用字根或偏旁部首为字根分类虽不大可能,但把某些字根看作是某个字根的变体或形似字根并归为一类的输入法编码却为数不少。用变体或形似原则为字根分类的结果可能和用根素为字根分类的结果有很少部分相同或相似,这不能说明变体和形似的分类原则与根素的分类规则相同或相似,而恰恰说明汉字和字根的构成是有规律的,但现有技术只根据字根构成规律的表象来为字根分类,只看到表面的相似现象,没有发现字根的根本的、内在的规律,也就不能建立严格统一的分类规则,无法把其规则贯彻始终。而实际上汉字及字根表面相似的背后是有其内在构成规律的,而且有适合汉字编码需要的规律,只是现有技术中没有发现而已。例如中国专利申请号为85100837的“五笔字型”输入法中,虽然其分类规则是用字根的起笔和第二笔来为字根分类,但其规则并没有贯彻始终,而且在许多地方应用了形似规则,如把“且”和“目”归在一类,但并没有把含有“目”根素的所有字根都归为一类:把“丬、冫、丷、”归在一类,但并没有把所有含有两个“丶”根素的字根都归为一类:把“田、甲、皿”归为一类,但却没有发现它们都含有
根素并进一步把含有
根素的字根都归为一类。当然,“五笔字型”和本输入法的主要编码混码并不是一种编码类型,而是属于全根码。现有的把汉字拆分为字根的编码虽然很多,但对字根分类的原理只有有数的几个类别,根据对千余种输入法的分析统计,对字根的分类方法主要有读音法、起笔笔划法、笔划数法、形似或变体法、字意法、字根和字母形似、综合法等,根据字根的形似、变体把字根分类的编码为数不少,其分类方法大同小异,这一方面是因为已有的分类方法说不清其分类的原则以及和现有技术的区别,只好把专利保护范围局限在具体的分类规则里,另一方面其他用形似、变体原理把字根分类的编码很容易在同一编码原理下做出不同的解释,结果造成申请专利的编码虽多,但真正有突破的编码很少,这也是输入法编码层出不穷的原因之一。由于变体和形似都没有明确的含义,不同的人会从不同的角度把不同的字根看作是某个字根的变体或形似字根,因而采用变体或形似为字根分类只能起解释其分类的原因、帮助记忆的作用,而不能根据某个字根的变体或形似规则推理出哪些字根是属于一类的,至于应该把哪些字根归为一类,要根据其字根分类表通过记忆来完成。即使有比较明确的分类规则,但其规则往往只适用于已归于某一类的字根,并不是所有符合规则的字根都归为这一类。而根素是构成字根的基本形状特征元素,字根中所含有的根素是客观的,是不以个人的意志为转移的,因为根素实质仅是一种几何图形,它的几何特征是固定的,允许把几何特征相同、大小比例不同的图形看作是同一根素,但不允许把几何特征作变形或近似处理。如根据形似理论可能把“广、厂、
”、“冖、宀”、“、山、彐、巾”分别归为一类,但它们具有不同的形状特征,不作同一根素理解。如果把它们用根素来分类,有可能把一部分归为一类,如分别用“厂、冖、彐”作根素,会把“广、厂”、“冖、宀”、“、彐”分别归为一类,若另选根素,如根据后面的几个实施例提取的根素分类,其结果又不一样,但无论用哪些根素分类,其结果都是根据规则推理出来的,是严格统一的。这也正是用根素为字根分类的优点所在。
所述根素的所属信息指某一字根是否含有某一特定根素,只要任意局部或全部的形状特征和某一根素的形状特征相同,则判定此字根从属于含有这一根素的类别。所述数量信息指字根中含有特定根素的数量。所述笔划笔顺位置信息指当笔划由根素构成时,根素所构成的笔划是字根中的第几个笔划。所述是否由完整笔划构成信息是指字根中的根素是否由完整笔划构成,如在判断某一字根是否含有某一由完整笔划构成的根素时,就不可以认为“身”字根含有“目、日、口”根素,不可以认为“电”字根含有
根素,因为“身”和“电”,虽然含有这些根素,但这些根素不是由完整的笔划构成的。之所以又引入了笔划笔顺信息,是因为根素虽然仅具有几何形状特征,但根素构成的字根除了具有几何形状特征外,还具有笔划笔顺信息,且有的根素也可能是由笔划构成的。在判断某一字根是否含有某一根素时忽略其笔划笔顺信息,是为了突破笔划笔顺的限制,使根素在字根中的存在更具有普遍性,有利于为字根分类。但忽略了笔划笔顺并不等于其不存在,仅意味着不受笔划的限制,并不排斥笔划笔顺,突破了笔划笔顺的限制也不等于根素就不可由笔划构成。本输入法可以只根据根素在字根中的上述信息为字根分类,必要情况下,也可以在上述信息的基础上结合其它信息来为字根分类,如根素在字根中的上、下、左、右、内、外位置信息、字根的读音信息、字根的结构信息为字根分类,这样做的好处是为字根分类时更有利于优化组合。
所述字根根据其所属类别和键码对应是把各类字根指定一个键码,但字根在根据其类别和键码对应时可能造成“交叉归属”问题,即有的字根根据分类规则可能同时属于两种或两种以上的类别,如起笔笔划由某一根素构成的字根可能同时也含有另外一根素,这样它既属于“起笔笔划由某一根素构成”类的字根,又属于“含有某一根素”类的字根。为解决这一问题,本发明创造性的提出字根分类和键码对应的优先级别的概念,把每一类字根对应一个键码,并把各个键码规定编码优先级别,当某一字根根据分类规则同时属于两种或两种以上类别时,取其中编码优先级别高的键码作为其对应的键码;或首先规定各类字根的特征,然后规定各类字根的分类优先级别,确定某一具体字根的类别时,先判断它是否具有分类优先级别最高的类别所描述的特征,如果具有,则判定其属于这一类,而不再继续判断它是否属于其它比这类字根分类优先级别低的类别,如果不具有,则继续判断它是否具有分类优先级别比它低一级的类别的特征,这样直至判断出它属于某一种类别后就不再继续判断它是否属于其它优先级别更低的类别,这样每个字根就只属于一种类别,这种类别的字根所对应的键码即这个字根对应的键码;或建立字根分类规则,使字根的共有特征具有有选择的排它性,具有排它性的类别特征里包含一个前提条件,这个前提条件的内容是确定具有该类别所描述的特征的字根首先不具有其它特定某几类字根所具有的特征。三种方法虽形式各异,但其实质、作用及达到的效果一样的,它们的共同点是在为字根分类和键码对应时确立一个分类、对应的优先级别,根据优先级别的高低来确定字根的所属类别或对应的键码,第一种方法在对应时确立优先级别,第二种方法在分类时确立优先级别,第三种方法是把优先级别的内容规定在分类规则里了。后两种方法和第一种方法的不同点在于使每个字根只属于一种类别,现有输入法中的编码多采用图表规定字根分类和键码对应,因此每个字根只属于一种类别,这样本输入法的字根和键码对应的规则也就和现有技术一样,只规定各类字根对应的键码就可以了。值得一提的是除非不顾字根优化组合刻意选取根素或确立分类规则,否则用根素的多种信息为字根分类很难避免字根交叉归属问题,尤其是同时利用所属信息和位置信息时,即使通过分类规则避免交叉归属的问题,用根素的分类法除了要规定某个字根属于哪个类别,还要规定其不属于某些特定类别,即分类规则间存在着排他性,这也可以看作是用根素为字根分类和现有技术的字根分类方法不同的特征之一,因为现有技术往往用图表规定字根的分类和对应的键码,不存在交叉归属问题,有的虽建立了一定的规则,但其规则不严格统一,不是用以推理字根分类,而是用以解释分类,因此避免了可能出现的交叉归属现象。
笔划有两种,一种是基本笔划,只有四个“一”、“丨”、“ノ”、“丶”,其他笔划都是基本笔划的组合或延展,称为延展笔划。根素里也可能含有其他更基本的根素。为此把不是由基本笔划构成的根素分为两种,基本根素和延展根素,基本根素指构成延展根素的根素,延展根素指由基本根素经延展或组合构成的根素,两者都是相对概念。如以“乚”、“九”、“十”、“木”、
“田”、“中”、“皿”、“日”、“目”作为根素,由于“九”中含有“乚”,故“乚”是“九”的基本根素,“九”是“乚”的延展根素。以此类推,是“田”、“中”、“皿”的基本根素;“田”、“目”是“日”的延展根素:“十”是“木”的基本根素。如某字根中含有两个根素,且一个是另一个的基本根素,如果根据任意一根素分类,字根都属同一类别,则认为它含有哪个根素都无所谓,但一般认为其含有延展根素,如“身”为字根,“目”、“日”为根素,则认为“身”字根含“目”根素;如果根据两根素分类,字根不属同一类别,要看作是“交叉归属”现象,根据分类或编码优先级别确定字根对应的类别或键码。
所述把汉字拆分为字根,实际就是提取字根的过程。提取字根的多少和汉字拆分规则直接相关,而两者又和汉字编码原理有关,或者说受限于字根分类方法。在没有解决字根分类问题时字根数是不宜取很多的,只能减少字根,牺牲汉字的传统拆分习惯。由于没有传统的汉字拆分标准及字根的定义,不同的编码有不同的字根集,其数量从十几个到几百个不等,而本输入法由于解决了字根分类问题,无论多少字根都可用本分类方法为其分类,因此本输入法编码字根的提取不受限制,对汉字拆分最好以传统的汉字构成理论为基础。最基本的原则应是:笔划交连的汉字部件不拆分,有明显分离的部件拆分,不宜把单独一笔作字根编码,传统的偏旁部首大部分可作为字根编码,但象“角、麻、羽”等有明显分离部件的部首不宜作字根处理。应当指出,由于本发明解决了字根分类的难题,任何字根集都可用根素的原理分类,提取字根和为字根分类可看作是两个相互独立的步骤。汉字拆分规则的好坏对编码的易学易用性也很重要,由于传统汉字拆分习惯没有统一的标准,而汉字的结构又多种多样,必须参照传统习惯制定规则,为此本发明提出汉字的拆分方案,把汉字、笔划组合和偏旁部首分为两种结构:字根结构和组合结构,字根结构指不可再分为字根的结构,组合结构指可再分为两个以上字根的结构。字根结构有四种:相关结构、交叉结构、融合结构、笔划相连结构。组合结构有两种:汉字相连结构和分离结构。上述概念的具体含义将在实施例中解释。实施例一、三、四、五提取的字根为586个,实施例二中提取的字根为612个,但这些字根集并不是唯一的、固定的,由于对汉字结构的理解不同,对字根的提取也会有所不同,因此允许根据本输入法的汉字拆分规则提取出不同于实施例的字根集,也允许对个别字根根据字根分类规则做出不同分类,或者说允许有容错码。当然,由于本输入法的发明点在于对字根的分类方法,也可提出不同的汉字拆分规则并结合根素原理为字根分类。
所述根据字根对应的键码对汉字编码是把汉字对应键码进行排列组合构成根码,或把根码和字息码组合的过程,即汉字编码中必含有根码,可以只根据根码编全根码,也可以把根码和字息码结合编混码。根码键码一般按书写及结构顺序排列,即参照传统的“先上后下,先左后右,先外后内”顺序排列。可以通过取舍键码限制码长,取全部键码时就是不限制码长,取部分键码就是限制码长。由于混码、全根码、拼音码各有特点,如全根码可输入不知读音的字,全拼码可输入难拆的已知读音的字。可根据需要只编混码,也可根据特殊需要只编全根码,或混码和全根码都含有,还可以含有拼音码。由于用字息码尤其是音码可有效离散根码重码,含音码的混码最能体现本输入法编码易学好用的特点,因此最好三种编码都含有,输入时以混码为主,全根码用来输入生辟字,全拼码用来查询混码或全根码的编码。要使三种码互相没有重码,应使根码键码集和字息码键码集的交集为空集,即根码键码集中不含有字息码键码,字息码键码集中也不含有根码键码,且根码键码集中不含有拼音码中韵母部分的第一个字母。这样以混码输入汉字时,输入下一个汉字的字息码将自动结束前一个汉字的根码输入,中间不必输入其他键分隔键码,但在某些码之间切换时要输入一个特定的切换键,如空格键等。可根据汉字拼音的声母信息为汉字编字息码,对没有声母的汉字,取汉字拼音的首字母或规定某个特定键码作其字息码。这时字息码即音码,根码即形码,混码即音形码或形音码。可以把声母和英文字母键位一一对应,也可把声母和映射键对应,如用键码Z、C、S分别对应声母ZH、CH、SH,再如击某一特定键一次对应声母G,击两次对应声母H。也可根据汉字的其他信息如形、意等信息编字息码,如根据汉字的结构信息不同,把上下、左右、包围、半包围等不同结构的汉字各归为一类并编字息码;再如根据汉字的起笔笔划、末笔笔划或四角形状的不同把汉字各归一类并编字息码。
所述键入汉字编码输入汉字是汉字输入的最后环节。编写编码的目的是让人根据编码输入汉字,创造一种输入法最主要的工作是创建汉字编码,但最终输入汉字还是离不开键盘键入,因此要把汉字编码和具体键盘上的键位联系起来。键码和键盘上的键位的对应随汉字输入系统的不同而不同,即同一键码在不同的键盘上可能有不同的输入方法。如移动电话等键位比较少的汉字输入系统,往往只有10个数字键及几个特殊的字符键或功能键,这种情况下,只能利用组合键或特定的击键方法输入某些字符,有的采用连续击键次数的不同输入不同的字符,有的采用组合键的方法输入不同的字符,即同时按几个键或先按某个键切换,再按键输入字符。对键盘上不能直接表示的键码还可以指定特定的键位来对应它,这些特定的键位即这些键码的映射键;有时对某些可直接在键盘上键入的键码,出于某种目的,也可以用不是这个键码对应的其他键位来对应,这些键位也是映射键。例如输入法键码集为“A、B、C、D、E、F、G、H、I”的键码可以用“1、2、3、4、5、6、7、8、9”对应的键位来键入。上述键码和键位的不同对应及用映射键和键码对应的实质都是代码转换或者说概念代替,这个过程是由汉字输入系统的制造者在编写软件或制造硬件时完成,也可以在软件编写时设置为由用户在使用时自已指定映射键,因此它随键盘或目的的不同而不同。本输入法不设专用键盘,标准101键盘或其他普通键盘都适用于本输入法,实施方案中所指的键码可以用各种键盘的映射键来键入。本输入法适用于各种汉字输入系统,如计算机汉字处理系统、移动电话(手机)、信息电话、电子计事本、汉字排版系统、中外文翻译机,电报机等。
对重码字可采用识别码区分,识别码可以根据汉字本身信息编码,如根据汉字的读音编识别码;也可以根据特定字根信息编码,如根据最后一个字根信息编码;还可以是一个和汉字无关系的特定键码。
以往的输入法由于没有统一、严格的字根分类规则,需用图表定义字根的种类、数量及字根分类和键码的对应。而本输入法由于有了严格的字根分类规则,可以通过汉字拆分规则及字根分类和键码对应规则推理出字根对应的键码及汉字编码,但由于汉字结构的复杂性及使用者对规则的理解不同,极少数汉字及字根不同的使用者可能有不同的理解,因此字根对应的键码和汉字编码也不应是唯一的、固定的,具体实施例提供的字根分类和键码对应图只起帮助理解编码原理的作用,对易引起误解的汉字及字根应有多个编码和它对应以增加易学性,即编写容错码。
可以根据单字编码对词组编词组码以提高输入速度。也可以对单字或词组编简码以提高输入速度,取汉字或词组编码的一部分就构成简码。
本输入法解决汉字输入领域字根分类和键码对应问题的技术方案同现有技术方案对比有三点进步:(1)现有技术方案只利用了字根的传统信息为字根分类,没有从字根中提取出专为字根分类的形状特征信息元素。而本发明发现了字根是在某些形状特征元素的基础上延伸扩展得到的这一字根构成规律,并利用这一规律从字根中提取出一定数量的形状元素作为根素对字根分类,在提取根素时忽略字根的笔划笔顺信息,而把字根仅看作是一幅几何图形,也不管它是不是已知的未知的汉字部件,只要它是某些字根所共有的标志性几何特征,就可以把它提取出来作为一个根素为字根分类。几何特征具有客观性和统一性,因此可以据此建立严格统一、可推理的字根分类规则,改变了字根分类规则只起增强记忆的现状,可只根据分类规则推理出的字根的所属类别。(2)现有输入法技术的另一个局限性在于在应用笔划等公知部件为字根分类时,也没有充分利用其各种信息,往往根据笔划所在位置、笔顺、笔划数或形似、变体等单一信息对字根分类,这也是造成信息量少,字根分类和优化组合难以结合的原因之一。而本输入法充分利用根素的所属信息、数量信息、笔划笔顺位置信息、是否由完整笔划构成信息等对字根分类,又由于构成字根的根素很多,经过优选根素并灵活选用信息,就可在建立严格统一的字根分类规则时兼顾字根的优化组合,解决了字根分类和优化组合之间的矛盾。(3)现有的输入法技术中之所以没有采用公知汉字部件(如笔划)在字根中的各种信息来为字根分类,一方面是因为其分类规则本身解释性的,不严格的,没有形成明确的信息概念,另一方面还因为用汉字部件的多种信息为字根分类有一个潜在的困难,即交叉归属问题。本输入法运用优先级的概念,采用推理的方法成功地解决了这个困难,使采用多种信息的分类规则不但不互相矛盾,而且可通过调整优先顺序进行优化组合。
综上所述,发现字根构成的基本规律,提出“根素”这一分类原理并充分利用根素在字根中的各种信息为字根分类、运用优先级的概念解决可能出现的字根和键码对应的问题,是本输入法解决汉字编码易学与好用之间矛盾的关键因素,也是本输入法的发明点所在。具体的讲,本输入法技术方案和现有技术方案相比有如下有益效果:
第一、现有输入法的根码编码没有严格统一的字根分类规则,其描述性的规则仅起解释字根分类的作用,用以帮助记忆,不能达到不用字根分类和键码对应表而仅根据字根分类和键码对应规则推理出字根对应的键码的要求,而本输入法由于利用根素在字根中的各种信息建立了严格统一的字根分类规则,并运用优先级别的概念解决了可能出现的字根和键码对应的“交叉归属”问题,可用简单的规则推理出字根的所属类别,使根码保留了编码直观、输入效率高的优点,克服了其字根分类需记忆、不易学习掌握的缺点。
第二、现有输入法的根码键码太多,不易学习和记忆,而本输入法由于利用根素及根素在字根中的各种信息解决了字根分类和优化组合之间的矛盾,每一类字根中的字根数可以取很多,在兼顾传统汉字拆分习惯的基础上减少了根码键码数,使根码的编码易于学习掌握。
第三、现有输入法编码中有的字根分类规则是一些抽象的逻辑规则,而本输入法根据字根的形状信息分类,分类方法直观,符合人们对汉字习惯理解。
第四、现有输入法的根码中的字根受分类方法限制往往数量很少,使汉字拆分不符合常理,而本输入法由于解决了字根分类和优化组合的矛盾,可用少量键码对应大量字根,实施例中所录入的字根多达五、六百个,这一方面可使汉字拆分符合传统习惯,另一方面使单个汉字含有字根的平均数减少了,减少了码长,提高了输入效率。
第五、现有输入法的根码键码数相对很多,且字根分类规则往往和键码有关,而本输入法由于利用根素为字根分类,可以根据不同的键盘的特点灵活确定键码数,且字根分类不依赖其对应的键码,可以为每一类字根任意指定键码,这一方面有利于灵活安排键盘中的键码布局,另一方面有利于在不同类型的键盘中推广本输入法,尤其是当采用十个数字键作为根码键码集时,有利于在移动电话等以数字键为主的汉字输入系统中推广,当应用于这些领域时,可用映射键来输入键盘上不能直接输入的键码。
第六、现有输入法的混码中的根码键码数相对很多,且字根分类规则往往和键码有关,很难实现字息码和根码的分离,而本输入法由于采用根素为字根分类,字根分类不依赖其对应的键码,可以使根码键码集和字息码键码集的交集为空集,使根码键码中不含有拼音码中韵母部分的第一个字母。这样做有三点好处,一是可以在一种输入法中含有多种编码以利用其各自的优点,可通过全拼码查询混码或全根码以提高编码的易学性,且各种码之间互相没有重码,如同时含有混码、全根码、全拼码三种编码;二是可使码长不必固定,使结构简单的常用汉字码长很短,使编码自动区分,含根码的简码后面不必输入结束键,提高了输入速度;三是可以使词组编码和单字编码之间无重码,可以录入大量词组以提高输入速度。
附图说明
图1是实施例1和实施例4采用的根素、字根、编码优先级别与键码之间的对应关系。
图2是实施例2采用的根素、字根、类别、与键码之间的对应关系。
图3是实施例3和实施例5采用的根素、字根、分类优先级别、类别与键码之间的对应关系。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
本编码原理适合GB2312的全部汉字及非国标的汉字和繁体字,以下实施例中的字根是在GB2312的6763个汉字及其对应的繁体字的基础上得出的,对GB2312以外的简体、繁体汉字中的字根,可以参照以下实施例分类并和键码对应。以下五个实施例对应的三个附图只起参照作用,在实际编码时对某些容易引起误解的字根可以对应两个以上的键码。编写三个附图的目的是为了学习和理解本输入法的编码原理和规则,并不是本输入法唯一的不变的字根和键码的对应,可以在本输入法编码原理和规则的基础上编写出与附图有一定差异图表。
实施例一:
A、把汉字拆分为字根,汉字拆分规则如下:
(1)、单独的一笔不作为字根编码,除单独一点“丶”外,其余的在编码时将其忽略,即每个字根至少由两笔构成,如“鲁、威、与”等字中的“一”忽略不编码。所述单独一笔指不和其他笔划相连且靠近它的笔划都互相连接或交叉的笔划,如“豆”字的第一笔就是单独一笔,而最后一笔由于其附近的笔划“丷”也不相连,因此它不是单独一笔,而是和“丷”相关构成“”作为一个字根。“彳、纟、饣”虽是偏旁,但由于单独一笔被忽略,其编码分别同“亻、
ク”的编码。一笔构成的汉字按字根编码规则编码,如“一、乙”。
(2)、汉字、笔划组合和偏旁部首都有两种结构:字根结构和组合结构,字根结构指不可再分为两个以上字根的结构,组合结构指可再分为两个以上字根的结构。字根结构有四种:相关结构、交叉结构、融合结构、笔划相连结构。组合结构有两种:汉字相连结构和分离结构。
相关结构指每一笔划都不和其他笔划相连且有固定的对应关系的结构,如“二、儿、三、川、氵、州、
等。之所以不把相关结构分开,是因为由两笔构成的相关结构,分开后都是单独的一笔,不能构成字根,如“二、儿”等字;由三笔以上构成的相关结构,分开时容易引起歧义,或者说有多种分法,如“三”就可分为“一、二”或“二、一”再如“氵、灬”,分别有两、三种分法。
交叉结构指至少存在一个交叉点,且其它笔划都相连的结构,如“丙、吏、事、
等。
融合结构是两个以上的“丶”根素被其它相连或交叉的笔划分隔开构成的结构,如“为、办、米、火、亦、半”等,即至少有两个“丶”根素,且有至少两笔相连或交叉。
笔划相连结构指任意笔划都与其他笔划有至少一个接触点相连构成的结构,但笔划之间没有交叉点,如果从通过某一连接点的直线把它分开成两部分,任意一部分都不能构成多于两笔的汉字,或虽有一部分可构成多于两笔的汉字,但另一部分少于两笔,如“面、而、宀、正、斤、日、自”等不可拆分,而“百”由于可拆为“
日”,故可拆分。
汉字相连结构是由汉字和汉字、笔划组合或偏旁部首相连构成的结构,即至少有一个汉字,且拆分后的各部分至少由两笔构成,如“右、石、占、先、足、元、示、云、支、舌、早、百、糸”等。注意汉字相连结构是汉字和其他部件相连构成,而不是相交或相分离构成,即拆分时只允许从笔划连接点分,不可根据笔划书写顺序拆分,也不可从交叉点拆分,如不可把“里”分为“日、土”,不可把“天”分为“二、人”。
分离结构指构成汉字的汉字、笔划组合及偏旁部首间有明显界限,且从分界处分开的部件都在两笔以上,如“结、相、树、晶、问、因、髟”等字。
(3)、由于“丶”多不和其他笔划相连,可单独对含有“丶”根素的汉字、偏旁部首和笔划组合作如下拆分规定:(a)和其他笔划相交的笔划不作“丶”根素理解,如“斥、匆、丸”等字中的末笔划。(b)“亠”和其他笔划相分离时,可以单独作字根,如“高、亢”;和其他笔划或汉字相连或相关时,不单独作字根,如“玄、卞、衣、立、市”等。(c)“人、八、入、丷、ハ”理解为含有两个“丶”根素。当两点的中间没有其他笔划夹杂时,由于不是融合结构,可单独作字根,如“六、只,羊、关、共、令、会、兴、今、欠、穴、”等,和其它笔划交叉时不作两点理解,也不作一点理解,如“两、丙、内、大、天”等。(d)“米、来、火、灭”由于含有“人”或“八”,因此应当理解为含有三个以上“丶”根素。(e)含有两点以上的汉字、偏旁部首或笔划组合当能拆出字时要拆分,如“羽、应”;点被相连笔划半包围时可作为字根,如“
夕、
”;点被不相连的笔划分割成几部分时要拆分,如“卵、丽、多”;其余的要以相关结构或融合结构作为一个整体不拆分,如“、豸、心、衤、
癶”等。(f)宋体字中的短撇、短提和短竖在和点对应形成相关结构时作“丶”根素理解,如
丬、”,不和点相关的要分别作“ノ、一、丨”理解。
B、提取根素并根据根素的信息对字根分类,字根根据其所属类别和键码对应:
(1)提取根素:提取如下根素用于为字根分类,“一”、“丨”、“十”、“丿”、“ノ”、“乚”、
“”、“丶”、“口”、“彐”、
“木”、“中”。其中,“丿”是由“丨”和“ノ”连接构成的,因而可以认为“户、尸”等字根含有“口”根素。
(2)根据根素的所属信息、数量信息、笔划笔顺位置信息对字根分类;
1)、起笔笔划仅由“一”根素构成的字根归为1类。
2)、起笔笔划仅由“丨”根素构成的字根或含有由完整笔划构成的“十”根素并且“十”根素在字根中左右居中上下靠上的字根归为2类,如“土、十、木”属于2类,而“干、艹、扌”虽含“十”根素,但“十”根素不左右居中或不上下靠上或不是由完整笔划构成,因而不属于2类。
3)、起笔笔划仅由“ノ”或“丿”根素构成的字根归为3类。
5)、含有一个“丶”根素的字根归为5类。
6)、含有两个“丶”根素且不含有“木”根素的字根归为6类。
7)、含有三个或三个以上“丶”根素的字根归为7类。
8)、含有“口”根素的字根归为8类。
9)、含有“彐”或
根素且仅含有一个
根素时
中不夹杂其他笔划同时字根中也不含有“中”根素的字根归为9类。如“中、虫、
虽含有
根素,但由于含有“中”根素或
中夹杂其他笔划,因而不属于9类;而
皿、申”由于含有两个以上的
根素,因此即使含有“中”根素,也属于9类。
10)、不属于上述9类字根的字根归为0类。
(3)字根根据其所属类别和键码对应:
如“字根分类规则”所述的“1、2、3、4、5、6、7、8、9、0”类字根分别对应“1、2、3、4、5、6、7、8、9、0”10个键码,或以其他10个键码和10类字根相对应。键码编码优先级别由低到高的顺序为:0、1、2、3、4、5、6、7、8、9,或另规定一种优先级别顺序。当某一字根根据“字根分类规则”属于两种或两种以上类别时,即对应两个以上的键码时,取其中优先级别最高的键码和它对应。例如“事”字根,它起笔笔划仅由“一”根素构成,既含有“口”根素,又含有“彐”根素,根据分类规则它分别属于1、8、9类,分别对应键码1、8、9,在编码时取其中编码优先级别最高的键码,即键码9和“事”字根对应。
(4)容错码规定:
对根据字根分类和键码对应规则确定字根对应的键码容易引起误解的字根可对应两个以上的键码,如“夷、弗”两字根含有“”根素,从宋体字看也含有“口”根素,但从其他字体或根据使用者的习惯理解可能认为它们不含有“口”根素,这种特殊字根可以指定其含有哪一个根素,如在本实施例和实施例二中指定它们属于含有“”根素的类别,而实施例三中指定它们属于含有“口”根素的字根,因此最好在实际编码时使之对应两个键码,这样含有这些字根的汉字将有两个以上的编码与之对应。也允许对结构类型不明显的汉字有不同的拆分,因此有的汉字在一种编码里有几个编码与之对应,这几个码中取最合理的一种作首选码,其余的作为容错码。
C、根据字根对应的键码对汉字编码:
每个汉字可编四种码:混码、拼音码和全根码,其中混码又分两种:形音码和音形码。也可只编其中的一种或几种码。但必须含有音形码。下面分别描述它们的取码规则:
(1)音形码和形音码:把汉字在键盘上的输入编码分为两部分,一部分是声码,一部分是形码。声码加形码即构成汉字的音形码。形码加声码即构成汉字的形音码。
声码编码规则:取汉字读音的声母所对应的字母作为汉字的声码,声母B、P、M、F、D、T、N、L、G、K、H、J、Q、X、ZH、CH、SH、R、Z、C、S、Y、W分别对应键码B、P、M、F、D、T、N、L、G、K、H、J、Q、X、ZH、CH、SH、R、Z、C、S、Y、W。声母不同的多音字分别对应不同的声码,对没有声母的汉字,规定字母O作为其声码,或以其他非根码键码作为其声码。可以把拼音的头两个字母为YI的汉字的声码规定为I。声母是CH、SH、ZH的汉字的声码可以分别规定为C、S、V。
形码编码规则:编码顺序按“先上后下,先左后右,先外后内”的顺序把字根对应的键码排列,内外结构指一部分被另一部分四面包围的结构,如“围、国、困”等字,“可、厅、凶、同、爽、巫、幽”等字属于上下结构,“还、区”等字属于左右结构。最大码长为3,多于3个键码的汉字取前2个键码和最后一个键码构成汉字的根码,不多于3码的有几码取几码。
(2)全根码:编码顺序同形码编码顺序,最大码长为4,多于4个键码的汉字取前3个键码和最后一个键码构成汉字的全根码,不多于4码的有几码取几码。
(3)、拼音码:以全拼方案编码。
上述几种码所对应的键码可以用其他键码或映射键代替,若使几种码之间没有重码,应使根码键码集和声码键码集的交集为空集,即根码键码集中不含有声码键码,声码键码集中也不含有根码键码,且根码键码集中不含有拼音码中韵母部分的第一个字母。这样以混码输入汉字时,输入下一个汉字的字息码将自动结束前一个汉字的根码输入,中间不必输入其他键分隔编码,但在某些码之间切换时要输入一个特定的切换键,如空格键等。
D、对重码汉字加识别码区分,识别码规则如下:
音形码、形音码和全根码在一种编码内有重码的汉字在重码汉字的编码后面再加一个识别码来区分。加识别码后仍有重码的再输入一次识别码。识别码有两类,一类是拼音识别码,一类是字形识别码。有拼音识别码的用拼音识别码,没有拼音识别码的用字形识别码来区分。
(1)、拼音识别码:重码字中,如果其拼音中含有A、E、U,就分别以A、E、U作识别码,当拼音中含有两个以上的识别码时,取排在前面的作为其识别码。也可以用A、E、U以外的键码作拼音识别码。
(2)、字形识别码:拼音中不含有A、E、U的汉字用字形识别码来区分重码,规定字形识别码为数字0。也可以用0以外的键码作为字形识别码。
上述识别码所用的键码可以用其他键码或映射键代替,为使几种码之间没有重码,应使识别码键码集和声码键码集的交集为空集。
E、为词组编码,词组编码规则如下:
此编码规则适用于音形码。拼音码、全根码和形音码的词组编码可以参照此规则建立词组编码规则。(1)双字词:第一字声码+第二字声码+第一字形码首码+第二字形码首码+第二字形码尾码。(2)三字词:第一字声码+第二字声码+第三字声码+第三字形码首码+第三字形码尾码。(3)四字以上词:第一字声码+第二字声码+第三字声码+最后一字声码+最后一字形码首码。词组编码有重码的可在重码词组编码后加识别码输入,其识别码为词组编码的最后一个键码,加识别码后仍有重码的汉字可再输入一次识别码。
F、为汉字或词组编简码,简码规则如下:
单字和词组的编码可以在不引起重码的前提下为常用汉字和词组编简码。取汉字或词组编码的一部分作汉字的编码就构成简码。单字简码:一级简码取汉字编码的第一个键码;二级简码取汉字编码的前两个键码;三级简码取汉字编码的前三个键码。
词组简码:一级简码取词组编码的前两个键码,二级简码取词组编码的前三个键码,三级简码取词组编码的前四个键码。
G、特殊规定:(1)字根“匚、凹、凸、
和键码“0”对应,
字根属于含有“彐”根素的类别。(2)“乙、一、乚”在整字的字尾且不和其他笔划相连时可作为一个字根编码,如“乞、旦、鸟、孔”等字,“旧、引”中的“丨”的根码为2。
H、键入汉字编码输入汉字。
以实施例一的汉字编码规则为基础,建立一个字根分类和键码对应图,如附图图1所示。根据图1及实施例一的各条规则就可以编制编码字典,下面举例说明:
音形码:娥005 高G588 海H736 与Y41 事S9 粥V474 嘴Z829
形音码:娥050 高5886 海736H 与41Y 事9S 粥474V 嘴829Z
全根码:娥05 高5848 海736 与4l 事9 粥474 嘴8249
拼音码:娥E 高GAO 海HAI 与YU 事SHI 粥ZHOU 嘴ZUI
根据编码字典编写应用软件安装在汉字输入系统中,汉字或词组编码中所含键码的种类、个数、排列顺序分别表示输入汉字要击的键、击键的次数及顺序,确定键码和汉字输入系统键盘键位的对应关系,依次击汉字或词组编码中键码对应的键位,就可输入汉字或词组。对有重码的汉字或词组,可从第二个重码字开始在其编码后加识别码,如“永、么、尤、玉”的编码都是Y5,后三个汉字编码加识别码为“么Y5A、尤Y50、玉Y5U”,再如“无、卫、韦、万、”的编码都是W4,后三个汉字编码加识别码为“无W4、卫W4E、韦W4EE、万W4A”,输入“么、尤、玉、卫、韦、万”等字时在输入编码Y5、W4后再输入识别码就可不用选字输入。
实施例二:
A、把汉字拆分为字根,汉字拆分规则如下:
(1)、单独的一笔不作为字根编码,除单独一点“丶”外,其余的在编码时将其忽略或同其附近的笔划构成一个字根,即每个字根至少由两笔构成。一笔构成的汉字按字根编码规则编码,如“一、乙”。
(2)、相关结构、交叉结构、融合结构、笔划相连结构的汉字、笔划组合或偏旁部首作为字根不拆分。汉字相连结构和分离结构的汉字、笔划组合或偏旁部首拆分。
(3)、由于“丶”多不和其他笔划相连,可单独对含有“丶”根素的字和笔划组合作如下拆分规定:(a)“亠”和其他笔划相分离时,可以单独作字根,如“高、亢”;和其他笔划或汉字相连或相关时,不单独作字根,如“玄、卞、衣、立、市”等。(b)“人、八、入”不和其他笔划交叉时理解为含有两个“丶”根素。(c)“米、来、火、灭”由于含有“人”字根或“八”字根,因此应当理解为含有三个以上点根素。(d)含有两点以上的汉字、偏旁部首或笔划组合当能拆出字时要拆分,如“羽、应”;点被相连笔划半包围时可作为字根,如“
、夕、
点被不相连的笔划分割成几部分时要拆分,如“卵、丽、多”;其余的要以相关结构或笔划相连结构作为一个整体不拆分,如“、豸、心、衤、
癶”等。(e)宋体字中的短撇、短提和短竖在和点对应时作点理解,如“
丬、”,不和点相关的要分别作“ノ、一、丨”理解。
B、提取根素并根据根素的信息对字根分类,字根根据其所属类别和键码对应:
(1)提取根素:提取如下几种根素为字根分类,“一”、“丨”、“”、“乚”、“”、“冂”、
“ㄅ”、“丶”、“亠”、“冖”、“弋”、“厶”、“ハ”、“丷”、“口”、
“彐”、“日”、“罒”、“田”、“目”、“月”、“木”。
(2)根据根素的所属信息、数量信息、笔划笔顺位置信息、是否由完整笔划构成信息对字根分类:
1)字根有读音且拼音的声母为“B”或“Y”的属于GB2312的常用字字根归为1类。
2)、不属于上述第1类字根,含有“彐”、“日”、“罒”、“田”、“目”或“月”等网格状根素的字根归为2类。
4)、不属于上述3类字根,含有三个及三个以上“丶”根素的字根归为4类。
5)、不属于上述4类字根,含有“丷”或“ハ”根素且“ハ”根素不和其他笔划相交同时字根中不含有“木”根素的字根或其他只含有两个“丶”根素的字根归为5类。
6)、不属于上述5类字根,含有“亠”、“宀”、“弋”、“厶”等根素的字根或其他只含有一个“丶”根素的字根归为6类。
7)、不属于上述6类字根,含有
“”、
或“”的延展根素“ㄅ”、“冂”等根素且所含根素是由完整笔划构成的字根归为7类。如“九”字根,虽含有
根素,但
不是由完整的笔划构成,故“九”字根不属于7类字根。
8)、不属于上述7类字根,末笔笔划仅由“”根素构成的字根归为8类。
9)、不属于上述8类字根,末笔笔划仅由“丨”根素构成的字根归为9类。
10)、不属于上述9类字根,末笔笔划仅由“一”根素构成的字根归为10类。
11)、不属于上述10类字根的字根归为0类。
(3)字根根据其所属类别和键码对应:
如“字根分类规则”所述的“0、1、2、3、4、5、6、7、8、9、10”11类字根分别对应“0、V、9、8、7、6、5、4、3、2、1”11个键码,或对应“A、B、C、D、E、F、G、H、I、J、K”11个键码,或对应其他11个键码。
(4)容错码规定:同实施例一。
C、根据字根对应的键码对汉字编码:
以汉字的字形信息编字息码,把汉字的笔划分为5种,横、竖、撇、点、折,把汉字根据结构分两种:左右结构字和非左右结构字,字息码的取码规则为:
1)、起笔为横“一”的左右结构汉字归为l类。
2)、起笔为横“一”的非左右结构汉字归为2类。
3)、起笔为竖“丨”的左右结构汉字归为3类。
4)、起笔为竖“丨”的非左右结构汉字归为4类。
5)、起笔为撇“丿”的左右结构汉字归为5类。
6)、起笔为撇“丿”的非左右结构汉字归为6类。
7)、起笔为点“丶”的左右结构汉字归为7类。
8)、起笔为点“丶”的非左右结构汉字归为8类。
9)、起笔为折类笔划的汉字归为9类。
上述9类汉字对应的字息码分别为1、2、3、4、5、6、7、8、9,或对应其他9个键码。
根码编码规则:编码顺序按“先上后下,先左后右,先外后内”的顺序把字根对应的键码排列,内外结构指一部分被另一部分四面包围的结构,如“围、国、困”等字,“可、厅、凶、同、爽、巫、幽”等字属于上下结构,“还、区”等字属于左右结构。最大码长为4,多于4个键码的汉字取前3个键码和最后一个键码构成汉字根码,不多于4码的有几码取几码。
把字息码和根码组合排列构成混码。
D、对重码汉字加识别码区分,识别码规则如下:
末笔为横的汉字的识别码为1,末笔为竖的汉字的识别码为2,末笔为捺或点的汉字的识别码为3,其余汉字的识别码为0。
E、键入汉字编码输入汉字。
以实施例二的汉字编码规则为基础,建立一个字根分类和键码对应图,如附图图2所示。根据图2及实施例二的各条规则就可以编制编码字典,下面举例说明:
马94 高85848 海7716 但528 事29 身69 板130V 嘴38149
根据编码字典编写应用软件安装在汉字输入系统中,汉字编码中所含键码的种类、个数、排列顺序分别表示输入汉字要击的键、击键的次数及顺序,确定键码和汉字输入系统键盘键位的对应关系,依次击汉字编码中键码对应的键位,就可输入汉字。对有重码的汉字,可从第二个重码字开始在其编码后加识别码输入。
实施例三:
A、把汉字拆分为字根,汉字拆分规则同实施例一。
B、提取根素并根据根素的信息对字根分类,字根根据其所属类别和键码对应:
(1)提取根素:提取如下根素用于为字根分类,“一”、“丨”、“十”、“ノ”、“丿”、“亻”、“”、“乚”、“丶”、“口”、“日”、“”、
“木”。其中,“丿”是由“丨”和“ノ”连接构成的,因而可以认为“月、户、尸”等字根分别含有“日”或“口”根素。
(2)根据根素的所属信息、数量信息、笔划笔顺位置信息对字根分类:
1)、起笔笔划仅由“一”根素构成的非成字字根归为1类,起笔笔划仅由“一”根素构成的成字字根归为2类。
2)、起笔笔划仅由“丨”根素构成的字根或含有由完整笔划构成的“十”根素并且“十”根素在字根中左右居中上下靠上的字根归为3类。
3)、起笔笔划仅由“ノ”根素构成的非成字字根归为4类,起笔笔划仅由“丿”根素构成的字根或起笔笔划仅由“ノ”根素构成的成字字根或含有“亻”根素的字根归为5类。
4)、含有“”或“乚”根素的字根归为6类。
5)、只含有两个“丶”根素且两“丶”相对形成“八”字形的字根归为8类,其余只含有两个“丶”根素的字根归为7类。
6)、含有三个或三个以上“丶”根素的字根归为9类。
7)、“口”字根归为10类,含有“口”根素的非“口”字的字根归为11类。
8)、只含有一个“丶”根素且“丶”在字根上方的字根归为13类,只含有一个“丶”根素且“丶”不在上方的归为12类。
10)、不在以上9条所列的字根归为0类。
上述16类字根分类的优先级别从低到高的顺序为:0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15或另行规定一特定优先级别。确定某一具体字根的类别时,先判断它是否具有分类优先级别最高的类别所描述的特征,如果具有,则判定其属于这一类,而不再继续判断它是否属于其它比这类字根分类优先级别低的类别,如果不具有,则继续判断它是否具有分类优先级别比它低一级的类别所描述的特征,这样直至判断出它属于某一种类别后就不再继续判断它是否属于其它优先级别更低的类别。例如“臣”字根,它起笔为“一”,又含有“口”根素,根据分类规则首先判断它是否属于15类,它不属于15类,再往下判断,它不属于14类,也不属于12和13类,但属于11类,至此就不再判断它是否属于其他类别,即“虫”字根属于11类。
(3)字根根据其所属类别和键码对应:
如“字根分类规则”所述的0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15类字根对应的键码分别为“0、1、A、2、3、E、4、6、U、7、8、I、V、5、9、0”,或以其他16个键码和16类字根相对应。
(4)容错码规定:同实施例一。
C、根据字根对应的键码对汉字编码:
字息码为汉字读音的声母所对应的字母,即声码,声母B、P、M、F、D、T、N、L、G、K、H、J、Q、X、ZH、CH、SH、R、Z、C、S、Y、W分别对应键码B、P、M、F、D、T、N、L、G、K、H、J、Q、X、ZH、CH、SH、R、Z、C、S、Y、W。对没有声母的汉字,规定字母R作为其声码,或以其他非根码键码作为其声码。声母是CH、SH、ZH的汉字的声码可以分别规定为C、S、Z。
根码编码规则:编码顺序按“先上后下,先左后右,先外后内”的顺序把字根对应的键码排列,内外结构指一部分被另一部分四面包围的结构,如“围、国、困”等字,“可、厅、凶、同、爽、巫、幽”等字属于上下结构,“还、区”等字属于左右结构。最大码长为3,多于3个键码的汉字取前2个键码和最后一个键码构成汉字的根码,不多于3码的有几码取几码。
根码和声码组合,根码在前构成形音码,声码在前构成音形码。
D、对重码汉字加识别码区分,汉字识别码为数字0。
E、键入汉字编码输入汉字。
以实施例三的汉字编码规则为基础,建立一个字根分类和键码对应图,如附图图3所示。根据图3及实施例三的各条规则就可以编制编码字典,下面举例说明:
音形码、混码:娥 R05 高 G588 海 H736 从 CUU 事 S0 身 S9代DE5 嘴 Z820
形音码、混码:娥 05R 高 588G 海 736H 从 UUC 事 0S 身 9S代E5D 嘴 820Z
根据编码字典编写应用软件安装在汉字输入系统中,汉字编码中所含键码的种类、个数、排列顺序分别表示输入汉字要击的键、击键的次数及顺序,确定键码和汉字输入系统键盘键位的对应关系,依次击汉字编码中键码对应的键位,就可输入汉字。对有重码的汉字,可从第二个重码字开始在其编码后加识别码输入。
实施例四:
A、把汉字拆分为字根,汉字拆分规则同实施例一。
B、提取根素并根据根素的信息对字根分类,字根根据其所属类别和键码对应,提取根素及字根分类和键码对应规则同实施例一。
C、根据字根对应的键码对汉字编码:
根据汉字读音的声母信息编字息码,汉字声母是B、C、D、F、G、H、J、K、L、M、N、P、Q、R、S、T、W、X、Y、Z的字息码分别为1、11、2、22、3、33、4、44、5、55、6、66、7、77、8、88、9、99、0、00。对没有声母的汉字,规定声母R对应的字息码77作为其字息码。声母是CH、SH、ZH的汉字的声码分别为C、S、Z对应的声码11、8、00。
根码编码规则:编码顺序按“先上后下,先左后右,先外后内”的顺序把字根对应的键码排列,内外结构指一部分被另一部分四面包围的结构,如“围、国、困”等字,“可、厅、凶、同”等字属于上下结构,“还、区”等字属于左右结构。最大码长为4,多于4个键码的汉字取前3个键码和最后一个键码构成汉字的根码,不多于4码的有几码取几码。
字息码和根码组合构成混码。
D、键入汉字编码输入汉字。
根据图1及实施例四的各条规则就可以编制编码字典,根据编码字典编写应用软件安装在汉字输入系统中,汉字编码中所含键码的种类、个数、排列顺序分别表示输入汉字要击的键、击键的次数及顺序,确定键码和汉字输入系统键盘键位的对应关系,依次击汉字编码中键码对应的键位,就可输入汉字。
实施例五:
A、把汉字拆分为字根,汉字拆分规则同实施例三。
B、提取根素并根据根素的信息对字根分类,字根根据其所属类别和键码对应,提取根素及字根分类和键码对应规则同实施例三。
C、根据字根对应的键码对汉字编码:
(1)、本身是字根的汉字的编码分两部分,一部分是其本身对应的根码,另一部分是其头三个笔划对应的键码按书写顺序排列得到的笔划码,把根码和笔划码组合排列构成其编码。笔划码按如下规则取:把笔划分五种,横、竖、撇、点、折,分别对应键码1、2、3、4、5,按书写顺序把笔划对应的键码排列,多于3笔的取前3个键码,少于等于3个笔划的有几码取几码。
(2)、本身不是字根的汉字的编码根据字根在汉字中的位置,编码顺序按“先上后下,先左后右,先外后内”的顺序把字根对应的键码排列,内外结构指一部分被另一部分四面包围的结构,如“围、国、困”等字,“可、厅、凶、同”等字属于上下结构,“还、区”等字属于左右结构。最大码长为5,多于5个键码的汉字取前4个键码和最后一个键码构成汉字的根码,不多于5码的有几码取几码。
D、键入汉字编码输入汉字。
根据图3及实施例五的各条规则就可以编制编码字典,下面举例说明:
马 4551 高 5848 海 736 从 UU 事 0125 身 9325 代 E5 嘴82430
根据编码字典编写应用软件安装在汉字输入系统中,汉字编码中所含键码的种类、个数、排列顺序分别表示输入汉字要击的键、击键的次数及顺序,确定键码和汉字输入系统键盘键位的对应关系,依次击汉字编码中键码对应的键位,就可输入汉字。
Claims (9)
1、一种采用根素码的计算机汉字输入方法,包括以下步骤:
1)把汉字拆分为字根作为汉字编码的元素,从字根中提取出构成字根的形状特征信息元素作为根素,根据根素的所属信息、数量信息、笔划笔顺位置信息、是否由完整笔划构成信息中的一种或几种建立字根分类规则对字根进行分类;
2)把字根根据其所属类别和代表键盘键位的键码对应;
3)根据字根对应的键码或结合字息码对汉字编码;
4)该汉字编码中所含键码的种类、个数、排列顺序分别表示输入汉字要击的键、击键的次数及顺序,依次击汉字编码中键码对应的键位,输入汉字。
2、根据权利要求l所述的采用根索码的计算机汉字输入方法,其特征是:所述把字根根据其所属类别和代表键盘键位的键码对应,是把每一类字根对应一个键码,并把各个键码规定编码优先级别,当某一字根根据分类规则同时属于两种或两种以上类别时,取其中优先级别最高的键码作为其对应的键码。
3、根据权利要求1所述的采用根素码的计算机汉字输入方法,其特征是:所述把字根根据其所属类别和代表键盘键位的键码对应,是首先规定各类字根的特征,然后规定各类字根的分类优先级别,确定某一具体字根的类别时,先判断它是否具有分类优先级别最高的类别所描述的特征,如果具有,则判定其属于这一类,而不再继续判断它是否属于其它比这类字根分类优先级别低的类别,如果不具有,则继续判断它是否具有分类优先级别比它低一级的类别的特征,这样直至判断出它属于某一种类别后就不再继续判断它是否属于其它优先级别更低的类别,这样每个字根就只属于一种类别,这种类别的字根所对应的键码即为这个字根对应的键码。
4、根据权利要求1所述的采用根素码的计算机汉字输入方法,其特征是:所述的建立字根分类规则,是使字根的共有特征具有有选择的排它性,具有排它性的类别特征里包含一个前提条件,这个前提条件的内容是确定具有该类别所描述的特征的字根首先不具有其它特定某几类字根所具有的特征。
5、根据权利要求1、2、3或4所述的采用根素码的计算机汉字输入方法,其特征是:所述汉字的编码包含根据汉字拼音的声母信息编码的字息码,对没有声母的汉字,根据汉字拼音的首字母编字息码或直接指定某个键码作为其字息码。
9、根据权利要求l、2、3或4所述的采用根素码的计算机汉字输入方法,其特征是:所述的把汉字拆分为字根的规则中含有如下几条规则中的一条或几条:
a、单独的一笔划不作为编码元素,除单独一点“丶”外,其余的在编码时将其忽略;
b、相关结构、交叉结构、融合结构、笔划相连结构的汉字、偏旁部首或笔划组合作为字根不拆分。汉字相连结构和分离结构的汉字、偏旁部首或字根拆分;
c、一点不作字根,必须和其他汉字、笔划组合构成字根,且不可忽略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 03100076 CN1246759C (zh) | 2003-01-09 | 2003-01-09 | 一种采用根素码的计算机汉字输入方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 03100076 CN1246759C (zh) | 2003-01-09 | 2003-01-09 | 一种采用根素码的计算机汉字输入方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1420427A CN1420427A (zh) | 2003-05-28 |
CN1246759C true CN1246759C (zh) | 2006-03-22 |
Family
ID=4789772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 03100076 Expired - Fee Related CN1246759C (zh) | 2003-01-09 | 2003-01-09 | 一种采用根素码的计算机汉字输入方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1246759C (zh) |
-
2003
- 2003-01-09 CN CN 03100076 patent/CN1246759C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1420427A (zh) | 2003-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1023916C (zh) | 简繁五笔字根汉字输入系统 | |
CN1246759C (zh) | 一种采用根素码的计算机汉字输入方法 | |
CN1260530A (zh) | 汉语形声字编码输入方法 | |
CN1121645C (zh) | 音形字理码汉字输入方法 | |
CN1166997C (zh) | 汉字免拆分快速输入法 | |
CN1257445C (zh) | 音义码汉字输入方法 | |
CN1259615C (zh) | 字母键盘和数字键盘通用汉字输入法及其左半字形识别法 | |
CN1020052C (zh) | 形元汉字信息处理方法及其键盘 | |
CN1123819C (zh) | 计算机汉字键位码输入方法 | |
CN1073248C (zh) | 几何母根编码的计算机汉字输入方法 | |
CN1292333C (zh) | 一种方块字的输入法 | |
CN1256644C (zh) | 一种偏旁部首汉字输入方法 | |
CN1156744C (zh) | 元根码汉字输入方法 | |
CN1092815C (zh) | 一种汉字辞书检索和微机输入法及键盘 | |
CN1058342C (zh) | 汉字编码的计算机输入方法 | |
CN1604017A (zh) | 基于一健一字的汉字特征定位编码复合输入方法 | |
CN1374577A (zh) | 英文字母键盘和数字键盘通用汉字电脑输入法及其键盘 | |
CN1591293A (zh) | 汉字拼形输入法 | |
CN1081773A (zh) | “多声递推联想”汉语词字编码 | |
CN1073539A (zh) | 汉字拼音编码及输入方法 | |
CN1317906A (zh) | 移动通信与计算机信息处理中英文数字化输入集成系统 | |
CN1093654C (zh) | 结构码汉字输入法及使用的通用键盘 | |
CN1120408C (zh) | 一种计算机结构声读汉字输入方法 | |
CN1734404A (zh) | 音码和识别音码、级库技术、笔码和数字笔码 | |
CN1421766A (zh) | 汉字双笔码输入法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20060322 Termination date: 20160109 |
|
EXPY | Termination of patent right or utility model |