CN1836199B - 以词为单位的字符输入方法 - Google Patents
以词为单位的字符输入方法 Download PDFInfo
- Publication number
- CN1836199B CN1836199B CN2004800234193A CN200480023419A CN1836199B CN 1836199 B CN1836199 B CN 1836199B CN 2004800234193 A CN2004800234193 A CN 2004800234193A CN 200480023419 A CN200480023419 A CN 200480023419A CN 1836199 B CN1836199 B CN 1836199B
- Authority
- CN
- China
- Prior art keywords
- sign indicating
- indicating number
- characters
- speech
- chinese character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 103
- 230000008676 import Effects 0.000 claims description 26
- 230000006835 compression Effects 0.000 claims description 8
- 238000007906 compression Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 4
- 238000013518 transcription Methods 0.000 claims description 3
- 230000035897 transcription Effects 0.000 claims description 3
- 230000006872 improvement Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 210000001072 colon Anatomy 0.000 description 4
- 230000007812 deficiency Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 239000004575 stone Substances 0.000 description 3
- 239000002023 wood Substances 0.000 description 3
- 238000005266 casting Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 101000695861 Arabidopsis thaliana Brefeldin A-inhibited guanine nucleotide-exchange protein 5 Proteins 0.000 description 1
- 102100036068 FERM domain-containing protein 8 Human genes 0.000 description 1
- 101710195878 FERM domain-containing protein 8 Proteins 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
- G06F3/0237—Character input methods using prediction or retrieval techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/018—Input/output arrangements for oriental characters
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明针对目前数字键盘上汉字输入速度慢、效率低,以及在各种语言输入系统中输入汉字、阿拉伯数字、标点符号、英文字母等字符时必须切换输入状态的问题,提供了一种通用的以词为单位的字符输入方法。根据汉语拼音归纳出音码和声调码,根据汉字的笔形归纳出部首-字身音码输入方法,对由1个、2个、3个和3个以上字符组成的词,分别按照不同规则输入,可实现拼音、笔形混合输入,以及汉字、阿拉伯数字、标点符号、英文字母等各种字符的混合输入。本发明平均码长短、重码率低、输入效率高,并且拼音、笔形可混合输入、易学易用,并可在不切换输入状态的情况下,混合输入汉字、阿拉伯数字、标点符号、英文字母等各种字符。
Description
技术领域
本发明是一种字符输入方法,特别是利用数字键盘以词为单位输入字符(包括汉字、阿拉伯数字、标点符号、英文字母等)的方法。
背景技术
目前,计算机出现了膝上型、掌上型、微型化的趋势,手机逐渐出现了具备计算机各项功能的趋势,PDA、机顶盒、电子书、手持终端、家用电器、汽车电子、自动柜员机、条码阅读器、数据采集器、游戏控制台、卡拉OK点播机、MP3播放机、公共信息查询终端、双向寻呼机以及固定电话等嵌入式设备也都迫切需要用数字键方便、快捷地输入各种信息,这就要求我们将现有的主要使用英文字母编码的字符输入方法转变为主要使用数字键编码的字符输入方法。
以智能ABC和微软拼音为代表的拼音输入法是人们在PC机上输入汉字的主流输入方法。为提高拼音汉字输入方法的输入效率,发明人于1995年根据《汉语拼音方案》、《汉语拼音正词法基本规则》等规范的汉语知识,发明了拼音混合输入技术(中国专利ZL95102608.9),有效地解决了汉字输入前期易学性和后期效率的矛盾,使主要使用汉语拼音编码的计算机汉字输入变得更为快捷和便利。在该发明中,提出了音码I和音码II的概念。将不带声调符号的汉字拼音中的zh、ch、sh、ng、ü分别变换为η、v,构成压缩拼音码;当压缩拼音码的码长为1时,重复该压缩拼音码构成拼音码,当压缩拼音码的码长大于1时,取压缩拼音码构成拼音码;将拼音码的第一码定为音码I,将除第一码之外的拼音码定为音码II。
但是,在掌上型、微型化电脑以及手机、机顶盒、电子书、手持终端、家用电器、汽车电子、自动柜员机、条码阅读器、数据采集器、游戏控制台、卡拉OK点播机、MP3播放机、公共信息查询终端、双向寻呼机以及固定电话等嵌入式设备领域,汉字输入的效率还比较低。在手机领域输入汉字方面应用较多的是美国特捷通讯(TegicCommunications)公司的T9、摩托罗拉(Motorola)公司的iTAP和加拿大字源(Zi)公司的字能(eZiText)中文输入法,其拼音输入法主要使用2、3、4、5、6、7、8、9这八个数字键,以先输入单字再附加联想功能的方式输入,效率远低于PC机上以词为单位的汉字输入方法。
在这些领域,目前主要的拼音输入方法都是以字为单位输入汉字的主要原因是:如果使用全码(不使用声调),任何一个单字词的汉语拼音码长为1-6码,双字词为2-12码,三字词则为3-18码……编码长,歧义多,不便于输入。如果使用简码,则会增加音节的重码数,反过来也会影响输入效率。
另外,无论是中文或英文以及其他语言的输入系统,在混合输入阿拉伯数字、标点符号、英文字母等信息时,都必须切换输入状态,击键效率低,使用者对此感到极为不便。
本发明针对上述问题,设计了一种通用的以词为单位的字符输入方法,巧妙地解决了上述问题,特别是解决了如何以词为单位输入汉字的难题。该方法不但可以应用于中文输入,而且可广泛应用于英文输入、日文输入、德文输入、法文输入、西班牙文输入等各种语言输入之中。
发明内容
本发明就是鉴于上述现有技术中存在的问题提出的,其目的在于提供一种能利用数字键盘快速输入字符,并且能在不切换输入状态的情况下混合输入任何字符,特别是能利用音码或者部首-字身方法快速输入汉字字符的方法。
为了实现上述目的,本发明提供一种以词为单位的字符输入方法,其特征在于:用数字键盘输入字符,该数字键盘的定义如下,
(音码η分别定义在0、1两个键位上,每个键位定义其中任意两个音码)
按以下规则输入包含汉字的字符:
(1)汉字字符的编码=汉字的音码I对应的数字键+汉字的音码II对应的数字键;数字字符的编码为其本身对应的数字键;英文字母的编码为根据上述数字键盘定义的数字键;标点符号的编码是其读音所对应的编码的第一码所对应的数字键;
(2)如果是由1个字符组成的词,它的编码就是该字符的编码,顺序击键输入该词;
(3)如果是由2个字符组成的词,用组成该词的2个字符的编码(长于N码的取前N码,N为≥1的自然数,如果N<5,编码空间较小,重码过多,效果不好,因此建议N一般大于或等于5),顺序击键输入该词;
(4)如果是由3个字符组成的词,用第一个字符编码的第一码+后两个字符的编码(长于N码的取前N码),顺序击键输入该词;
(5)如果是由3个以上的字符组成的词,用所有字符的编码的第一码+最后一个字符编码的除第一码之外的其余码(长于N码的取前N码),顺序击键输入该词。
此外,如果是由3个或3个以上字符组成的词,用所有字符的编码的第一码+最后一个字符编码的除第一码之外的其余码(长于N码的取前N码),顺序击键输入该词.
此外,按照如下关系,在数字键盘上定义声调码:
当一个词是由两个或两个以上字符组成的,其最后一个字符是汉字,并且该词的编码长度不足N码时,在该词的编码后加最后一个汉字的声调码,顺序击键输入该词。
此外,如果是由1个汉字字符组成的词,也可以用构成该词的汉字的标准汉语拼音对应的数字键,顺序击键输入该词。
此外,当汉字字符的音码I为时,可以将zh、ch、sh作为其音码I的编码;当汉字字符的音码II中有η,可以用ng来代替η构成音码II的编码;汉字字符的编码=汉字的音码I的编码对应的数字键+汉字的音码II的编码对应的数字键。
此外,上述音码定义在键位1上,η定义在键位0上。
此外,如果是由2个或2个以上字符组成的词,用所有字符的编码的第一码+最后一个字符编码的除第一码之外的其余码(长于N码的取前N码),顺序击键输入该词。
此外,针对很多用户并不掌握部分汉字拼音的问题,汉字字符的编码也可以不采用其音码形式,而采用下述部首-字身音码输入方法编码:
(a)取包含且仅包含横“一”、竖“丨”、撇“丿”、点“丶”、折“乛”这五个单笔部首的部首集合,按照横1、竖2、撇3、点4、折5编码,构成其部首码;
规定每一个汉字的部首都是该汉字的第一笔,如果一个汉字是所确定部首集合中的部首之一,或者是由一个部首的变体构成的,则该汉字的编码就是该部首对应的部首码。如“一”1、“乙”5等。
如果一个汉字只有一笔,则该汉字就是一个无字身的汉字,如“一”、“乙”等,否则,该汉字是一个有字身的汉字。对于有字身的汉字,部首之外的部分构成该汉字的字身,如“人”的部首为撇,字身为点;对部首取部首码,对字身取字身码,如“人”的部首码为3,字身码为5;部首码加字身码就是该汉字的编码,具体的取码顺序与部首和字身的相对位置相一致,但最长取N码,即按规则取码后略去第N码以后的部分。字身码的具体取法如下:依照字身的书写顺序按照横1、竖2、撇3、点4、折5的规则逐笔对汉字的字身取码,构成该汉字的字身码。
以上编码就是规范码。任何一个汉字都具有规范码的形式。如N=8时“一”1,“乙”5,“人”34,“大”134,“会”341154,“构”12343554,“码”13251551,“”41431251等。
(b)如果一个汉字的字型是左右型,但其规范码的部首不是位于其左边或者右边的全部部分,而左边或者右边的全部部分可以构成一个汉字;或者一个汉字的字型是上下型,但其规范码的部首不是位于其上边或者下边的全部部分,而上边或者下边的全部部分可以构成一个汉字,则该汉字具有容错码:
i.将上述可以构成汉字的部分定义为虚拟部首,取其音码对应的数字构成汉字的虚拟部首码。如“构”取“木”为虚拟部首,虚拟部首码为68(mu)。
ii.将汉字的虚拟部首外的部分定义为虚拟字身,按照下述规则对虚拟字身进行编码,定义编码结果为虚拟字身码:(1)如果虚拟字身是由1个部分组成的,且该部分是一个部首或一个汉字,则取该部首的部首码或该汉字的音码对应的数字,构成该字身的虚拟字身码;字身既是一个部首同时又是一个汉字的,按照是一个部首处理。如“构”取“勾”为虚拟字身,虚拟字身码为468(gou)。(2)如果虚拟字身是由1个部分组成的,且该部分既不是一个部首,也不是一个汉字,则先确定该汉字虚拟部首码的码长,然后按虚拟字身的书写顺序逐笔对虚拟字身取笔画,最多取N和该汉字的虚拟部首码码长之差个编码,构成该字身的虚拟字身码。如“市”虚拟部首为“巾”,虚拟部首码为546,长度为3,则虚拟字身码为41。(3)如果虚拟字身为2个或者2个以上部分,则对每个部分分别取一码构成该汉字的虚拟字身码:构成1个部首的部分取该部首所对应的部首码的第一码,不构成一个部首但构成一个汉字的部分取该汉字音码对应的数字的第一码,其他情况一律取该部分第一笔对应的部首码。如“”的虚拟部首为“龍”,虚拟字身由两个“龍”组成,虚拟字身码为55(ll)。
iii.按照“虚拟部首码加虚拟字身码就是该汉字的编码,具体的取码顺序与虚拟部首和虚拟字身的相对位置相一致,但最长取N码”的规则组合汉字的虚拟部首码和汉字的虚拟字身码,构成汉字的容错码。
如N=6时“构”取“木”为虚拟部首,“勾”为虚拟字身,容错码为68468(mugou),当然也可以取“勾”为虚拟部首,“木”为虚拟字身,结果相同;“码”取“石”为虚拟部首,“马”为虚拟字身,容错码为0462,当然也可以取“马”为虚拟部首,“石”为虚拟字身,结果相同;“如”取“女”为虚拟部首,“口”为虚拟字身,容错码为68568(nvkou),当然也可以取“口”为虚拟部首,“女”为虚拟字身,结果相同;如“竖”取“立”为虚拟部首,“立”外的部分为虚拟字身,容错码为225454(2254li);再如“”的容错码为54055(“”符合容错码的定义,具有容错码,即虚拟部首第一个“龍”的音码对应的数字540+虚拟字身“龍龍”的编码55),等。
上述汉字规范码和容错码的定义,充分发挥了数字键盘上10个键位的潜能,通过规范码和容错码任意组合混合输入词的编码,可以使形码输入的效率接近小键盘拼音混合输入技术的效率。
为了提高上述部首-字身音码输入方法的易学性,本发明可对上述部首-字身音码输入方法进行改进(以下称为改进1):规定虚拟字身码除了虚拟字身本身是一个汉字仍然取该汉字的音码对应的数字作为汉字的虚拟字身码外,其他情况一律逐笔对虚拟字身取笔画,构成汉字的虚拟字身码。这一改进,简化了虚拟字身码的取码方法,提高了部首-字身音码输入方法的易学性。如“”的虚拟部首为“龍”,虚拟字身由两个“龍”组成,按照本改进,N=6时虚拟字身码由虚拟字身的前3笔(414)构成。
为进一步提高本发明的易学性,本发明还可对上述部首-字身音码输入方法改进如下(以下称为改进2):规定任何情况下一律逐笔对虚拟字身取笔画,构成汉字的虚拟字身码.这一改进,进一步简化了虚拟字身码的取码方法,使容错码的易学性达到了最高程度.如N=6时“理”的编码为112125(规范码),或者920251(取“王”为虚拟部首,“里”为虚拟字身,虚拟部首码为920,虚拟字身码为“里”前三笔对应的数字编码251),或者112154(取“里”为虚拟部首,“王”为虚拟字身,虚拟部首码为54,虚拟字身码为“王”前四笔对应的数字编码1121),等等.
在上述编码规则中,很多汉字都同时具有规范码和容错码,因此,词的编码可能的组合形式多,占用内存空间大,部分嵌入式设备实现起来有一定难度。为此,可对上述部首-字身音码输入方法以及其改进方法进一步改进(以下称为改进3):仅词的最后一个汉字允许使用容错码。如N=6时“计算机”的编码为431234(“机”用规范码),或者436854(“机”用容错码,muji),等等。
此外,上述改进可进一步改进(以下称为改进4):任何一个汉字都仅使用规范码编码,在任何情况下都不使用容错码。如N=6时“计算机”的编码为431234,等等。
此外,上述改进4可进一步改进(以下称为改进5):由2个或者2个以上汉字字符组成的词,当其编码长度不足N码时,在其编码后补0。如N=6时“一一”的全码为110,这样就与“二”的全码11不发生重码,有效降低了由1个汉字组成的词与由2个或者2个以上汉字组成的词的全码发生重码的可能性。
此外,上述方法还可进一步改进(以下称为改进6):由1个汉字字符组成的词,可兼容使用汉字的容错码编码。如N=6时“机”的编码为123435(规范码),或者6854(容错码,muji),这样就加快了由1个汉字字符组成的词的输入速度。
此外,为进一步提高由1个汉字字符组成的词输入的效率,本发明还可对上述方法进行改进(以下称为改进7):在输入过程中,对由1个汉字字符组成的词兼容音码和标准汉语拼音输入。即任何一个由1个汉字字符组成的词,可按上述方法输入,也可用组成该词的汉字的音码,或者其标准汉语拼音输入。这就解决了部分用户对部分汉字的笔画顺序不清楚,难以输入的问题。在具体实施时,可选择只兼容标准汉语拼音,也可选择只兼容音码,或者可选择同时兼容。这实际上就实现了形音兼容输入。
上述改进本身还可继续改进,如可规定:由2个或者2个以上字符组成的词中的汉字,如果既有规范码,又有容错码时,只使用容错码,不使用规范码。这样可有效减少词的编码的数量,便于嵌入式系统的应用。
上面提到了形音兼容输入,实际上,本发明还可以实现音形混合输入,就是规定在音码输入的过程中,由1个汉字字符组成的词可兼容该汉字的部首-字身音码输入方法输入。
此外,任何一个词的编码可省去其除第一码之外的最后一码、或最后两码、或最后三码、……、或最后(N-1)码,构成该词的简码。
目前,较为流行的重码选择方法主要有两种,一种是将所有重码依次排列,用上下左右键选择,移至所要输入的词后,用ok键选中,这种方法按键很多,效率很低.第二种是长按技术,也就是根据重码排列的顺序,对相应位置的重码,长按对应数字选中.如果当前提示行中没有,用上下键翻页.这种方法比上述技术有很大改进,不过长按比短按耗时长,而且还要找候选词的位置,效率较低.本发明不但可以使用上述两种方法中的任何一种方法进行重码选择,而且还可在上述简码的基础上,创造性地提出了三行提示功能这一全新的重码选择方法,实现所有词,以及全码和简码的混合输入,进一步提高输入效率.三行提示功能的具体方式是:
对于输入的任何编码,将编码本身作为一个候选词(该候选词是全部由数字构成的)。如输入234567后,最少有一个重码,就是234567本身。每个提示行显示3个重码。为了快捷输入,用ok、*、#分别选择3个重码。
上述数字候选词一般排列在提示行第一屏的第二位,但在任何情况下,当输入的编码(无论全码还是简码)除该数字候选词外不存在对应的词,则第一位显示数字,第二位、第三位显示为空。
除了这种情况外:(a)当键入编码的码长为1时,第一位为汉字(全码或者简码),或者英文字母,或者其他字符,第二位为数字,第三位为标点符号,然后将其他全码长度为1位的排列在后面,随后是所有简码为1位的词。(b)当键入编码长于1位时,当有对应的全码时,第一位显示全码中最常用的那个词,第二位显示数字,第三位显示简码中最常用的那个词(如果没有任何对应的简码,则继续显示其他全码),随后显示剩余的全码重码,然后是所有的简码重码;当编码没有对应的全码时,第一位显示最常用的那个简码,第二位显示数字,随后显示其他全部简码。
这种三行提示功能最大的优点就是不用长按就可以输入,无论重码在提示行任何一屏的第一、第二、第三个位置,用上、下键翻页找到对应重码(第一屏无须按上下键翻页)后,都可以分别按ok、*、#直接输入,效率比长按技术大为提高。如按24后“卜”、“24”、“北京”出现在提示行的第一、第二、第三位,直接按#输入“北京”,按*键输入“24”,按ok键输入“卜”。如果输入其编码后该词并没有出现在提示行的第一屏,按上、下键翻页即可,如按24后应该可以输入“北京市”(简码可为24),但输入24后提示行第一屏显示的是“卜”、“24”、“北京”,没有“北京市”,这时向下翻页一定可以找到“北京市”这个词。
本发明所提到的“音码”,是指音码I+音码II。所提到的“汉字字符”,是指汉字本身。
本发明所提到的“字符”是指任意一个字符集(如ISO 10646或Unicode、GB18030、GBK、GB2312、BIG5等等,以及其扩展集或子集)中的字符。
本发明的字符输入方法,在中文输入系统中,标点符号的编码是其中文读音所对应的音码的第一码所对应的数字键;在非中文输入系统中,标点符号的编码是该标点符号的相应外文单词的第一个字母所对应的数字键。例如,在英文输入系统中,标点符号的编码是该标点符号的相应英文单词的第一个字母所对应的数字键,比如,标点符号“,”的编码是“comma”的第一个字母“c”所对应的数字“2”。再比如,标点符号“.”的编码是“dot”的第一个字母“d”所对应的数字“3”,则“.net”的编码为“3638”,“.com”的编码为“3266”,等等。其他标点符号,可以依此规则类推。
具体实施方式
实施方法一:选定键盘定义为:
编码规则为:N=8,采用改进5的编码规则。即汉字的编码按部首-字身音码输入方法的规范码确定,词的编码规则是:所有字符的编码的第一码+最后一个字符编码的除第一码之外的其余码(长于N码的取前N码)。按照这一词的编码规则对词编码后,由2个或者2个以上汉字字符组成的词,当其编码长度不足N码时,在其编码后补0。按照上述规则,只要确定了最长编码长度N,所有词的编码就唯一确定了。这样,占用的计算机内存小,系统开销少,很容易实现。
则生成了一种以词为单位的字符输入方法。如:“三”的编码为“111”(规范码);“个”的编码为“342”(规范码);“三个”的编码为“13420”(“三”的规范码的第一码+“个”的规范码,编码总长度不足N码补0);“计算机”的编码为“43123435”(“计”的规范码的第一码点+“算”的规范码的第一码撇+“机”的规范码),“不进则退”编码为“11251154”(前三字的规范码的第一码横横竖+最后一个汉字“退”的规范码的前五码);“印度尼西亚”编码为“34511224”(撇点折横+“亚”的规范码的前四码);“中华人民共和国”的编码为“23351325”(竖撇撇折横撇+“国”的规范码的前2码);“T9”的编码为“89”(“t”+“9”);“123456”的编码为“123456”;“智能ABC”的编码为“35222”(“智”、“能”各取规范码的第一码,即撇、折,+“A”2、“B”2、“C”2);“Mobile”的编码为“662453”(“M”+“o”+“b”+“i”+“l”+“e”);“:”的编码为(冒号的音码的第一码对应的数字),“”的编码为“4222”,“:)”的编码为65(冒号6+括号5)等。
当然,以上编码具有简码形式。例如:“三”简码为“1”或“11”,“三个”简码为“1”或“13”或“134”或“1342”,“计算机”简码为“4”或“43”或“431”或“4312”或“43123”或“431234”或“4312343”,“不进则退”简码为“1”或“11”或“112”或“1125”或“11251”或“112511”或“1125115”;“印度尼西亚”简码为“3”或“34”或“345”或“3451”或“34511”或“345112”或“3451122”;“中华人民共和国”简码为“2”或“23”或“233”或“2335”或“23351”或“233513”或“2335132”;“T9”简码为“8”;“123456”简码为“1”或“12”或“123”或“1234”或“12345”;“智能ABC”简码为“3”或“35”或“352”或“3522”;“Mobile”简码为“6”或“66”或“662”或“6624”或“66245”,“”简码为“422”、“42”、“4”,“:)”的编码为6等。
上述编码方法在实施过程中,采用三行提示功能.如按3时第一位显示“的”(所有全码和简码为3的词中最常用的那个词),第二位显示“3”,第三位显示“,”,这样数字和标点符号等非汉字中文信息可快速输入;再如按24时第一位显示“卜”(全码中最常用的那个词),第二位显示“24”,第三位显示“北京”(简码中最常用的那个词),效率比对比技术中的T9新的笔画输入法要高;再如按133111时第一位显示“133111”,第二位、第三位没有对应重码不显示,可直接输入数字,等等.
这一实施方法,当然也可以采用改进4,唯一的区别就是当由2个或者2个以上汉字组成的词,当其编码长度不足N码时,也不在其编码后补0。如“三个”的编码为“1342”,简码为“134”、“13”、“1”。
实施方法二:选定键盘定义同实施方法一。N=6,采用改进5和改进7的编码规则。在具有实施方法一的优点的同时,对于部分笔画顺序不清楚的汉字可直接用标准汉语拼音或者音码输入。
词的编码(全码和简码)与实施方法一的不同之处在于长于6码的取前6码,如“中华人民共和国”的编码为“233513”。此外,由1个汉字组成的词可兼容标准汉语拼音或者音码输入,如“码”不但可以用实施方法一的方式输入,也可以用拼音62(ma),以及其简码6输入;“帮”不但可以用实施方法一的方式输入,也可以用拼音2264(bang)以及其简码226、22、2输入,或者用音码220(baη)以及其简码22、2输入,等等。
当然,在具体实施时,可以只使用标准汉语拼音,也可以只使用音码,也可以两者同时使用。
实施方法三:选定键盘定义同实施方法一。N=6,采用改进5、6、7的编码规则,且容错码的规定按照基本的编码规则确定。
其他编码与实施方法二相同,但由1个汉字组成的词还可兼容容错码输入,如“码”不但可用实施方法二的方式输入,也可以用其容错码0462(虚拟部首为石、虚拟字身为码,编码为0462,即)输入,当然也可以用0462的简码046、04、0输入,再如“”既可用实施方法二的方式输入,也可以用容错码56055(loηll)及其简码5605、560、56、5输入,等等。
由于由1个汉字组成的词可以采用容错码的方式输入,由1个汉字组成的词的输入效率大大提高。
实施方法四:选定键盘定义同实施方法一。N=6,采用改进3、7的编码规则,且容错码的规定按照基本的编码规则确定。
其他编码与实施方法三相同,但词的最后一个汉字可用容错码编码,且当由2个或者2个以上汉字组成的词的编码长度不足N码时,也不在其编码后补0。如N=6时“计算机”的编码为431234(“机”用规范码),或者436854(“机”用容错码,muji);“机”的编码为123435(规范码),或者6854(容错码,muji),当然上述编码也都具有简码形式,如“计算机”的简码为43123、4312、431、43、4或者43685、4368、436等,“机”的简码为12345、1234、123、12、1或者685、68、6,等等。
由于所有词的最后一个汉字都可以采用容错码的方式输入,词的输入效率大大提高。
实施方法五:选定键盘定义同实施方法一.N=6,汉字字符采用部首-字身音码输入方法编码,词的编码规则为所有字符编码的第一码+最后一个字符编码的除第一码之外的其余码(长于6码的取前6码),并且采用改进7.
其他编码与实施方法四相同,但由2个或者2个以上字符组成的词,其除最后一个汉字外的其他汉字也可使用容错码输入,且由汉字组成的由2个或者2个以上字符组成的词即使编码总长度不足N码,也不在后面补0。如“机构”的编码为:“机”的编码的第一码为1(规范码的第一码)或者6(容错码的第一码),“构”的编码的前5码为12343(规范码)或者68468(容错码,mugou),则“机构”的编码为112343、612343、168468、668468,其简码为11234、1123、112、11、1或者61234、6123、612、61、6或者16846、1684、168、16或者66846、6684、668、66,等等。
在这一实施方案中,组成词的任何一个汉字,既可以使用规范码编码,也可以使用容错码编码,两者可任意组合,这对用户而言,是十分方便的。同时,由于这样的方案使用10个数字键进行输入,可以充分发挥数字键盘的潜能,输入效率也很高,可与小键盘拼音混合输入技术的输入速度相媲美。
在实施方法三、四、五中,如果容错码的规定按照改进1或者改进2的编码规则确定,则只是部分汉字的容错字身码部分发生了变化,具体实现方式与这些实施方法基本类似。如采用改进1后,实施方法五中的“机构”,以及实施方法三、四、五中的“机”、“构”的编码都没有变化,但实施方法三、四、五中的“”的编码发生了变化,原来其容错字身码为55,现在变为414。再如采用改进2后实施方法五中的“机构”,以及实施方法三、四、五中的“机”、“构”的编码也都发生了变化,“机”的编码为123435(规范码)或者6835(容错码,mu35),“构”的编码为123435(规范码)或者683554(容错码,mu3554),则“机构”的编码为112343、612343、168355、668355,当然它们的简码也相应发生了变化,如“机”的简码为12345、1234、123、12、1或者683、68、6,等等。
实施方法六:对实施方法五进行以下限定:当一个汉字既有规范码,又有容错码的时候,在对由2个或者2个以上字符组成的词编码的时候,只使用汉字的容错码编码。这样,可使由2个或者2个以上字符组成的词的编码数目大大减少。
其他编码与实施方法五相同,但由2个或者2个以上字符组成的词中的汉字,如果只有规范码、没有容错码时使用规范码,其他任何情况,只使用容错码,不使用规范码。如“机构”的编码为668468(“机”取容错码的第一码,“构”取容错码的前5码),简码为66846、6684、668、66,等等。这一改进方案,总编码数目小,占用的计算机空间少,这对部分内存空间要求严格的嵌入式设备是非常适合的。
实施方法七 选定键盘定义为:
编码规则为:N=6,汉字采用音码编码。词的编码规则为:所有字符的编码的第一码+最后一个字符编码的除第一码之外的其余码(长于6码的取前6码),且规定当一个词是由两个或两个以上字符组成的,其最后一个字符是汉字字符,并且该词的编码长度不足N码时,在该词的编码后加最后一个汉字的声调码。
则生成了一种以词为单位的字符输入方法。如:“三”的编码为“726”(san);“个”的编码为“42”(ge);“三个”的编码为“7424”(s+ge+4);“计算机”的编码为“57541”(j+s+ji+1),“不进则退”编码为“259884”(b+j+z+tui);“印度尼西亚”编码为“936992”(y+d+n+x+ya);“中华人民共和国”的编码为“147644”“T9”的编码为“89”(“t”+“9”);“123456”的编码为“123456”;“智能ABC”的编码为“16222”;“Mobile”的编码为“662453”(“M”+“o”+“b”+“i”+“l”+“e”);“:”的编码为(冒号的音码的第一码对应的数字),的编码为“4222”,“:)”的编码为65(冒号6+括号5)等。
以上编码都具有简码形式,例如:“三”的简码为“72”或“7”,“个”的简码为“4”,“三个”的简码为“742”、“74”或“7”,“计算机”的简码为“5754”、“575”、“57”或“5”,“不进则退”的简码为“25988”、“2598”、“259”、“25”、“2”,“印度尼西亚”的简码为“93699”、“9369”、“936”、“93”或“9”,“中华人民共和国”的简码“14764”、“1476”、“147”、“14”或“1”,“T9”的简码为“8”,“123456”的简码为“12345”、“1234”、“123”、“12”或“1”,“智能ABC”的简码为“1622”、“162”、“16”或“1”,“Mobile”的简码为“66245”、“6624”、“662”、“66”或“6”,的简码为“422”、“42”或“4”,“:)”的简码为“6”。
实施方法八选定键盘及编码规则同实施方案七,并规定由一个汉字字符组成的词可以兼容标准汉语拼音输入。
其他编码与实施方案七完全相同,但由一个汉字字符组成的词,也可以用其标准汉语拼音输入,如“准”不但可以用实施方案七的方法输入,也可以用9486(zhun)输入,或者其简码948、94、9输入,等等。
实施方法九选定键盘及编码规则同实施方案八,并规定如果是由2个字符组成的词,用组成该词的2个字符的编码(长于N码的取前N码)输入。
其他编码与实施方案八完全相同,但由2个字符组成的词,编码规则发生了变化,如“三个”的编码为“726434”(san+ge+4),其简码为7、72、726、7264、72643等.其优点是:对于所有由汉字组成、且由音码编码的词(不包含由汉语拼音编码的由1个汉字组成的词)而言,由1个汉字组成的词码长为2-4码,由2个或者3个汉字组成的词码长为5-6码,其他词码长一律为6码,由1个汉字组成的词与由2个或者2个以上汉字组成的词的全码不发生重码,便于计算机处理.
实施方法十选定键盘及编码规则同实施方案九,并规定如果是由3个字符组成的词,用第一个字符编码的第一码+后两个字符的编码(长于N码的取前N码)。
其他编码与实施方案九完全相同,但由3个字符组成的词,编码规则发生了变化,如“计算机”的编码为“578265”(j+suan+j),其简码为5、57、578、5782、57826等。其优点是:“计算”的编码为“547826”(ji+suah),简码为5、54、547、5478、54782,“计算机系”的编码为“575944”(j+s+j+xi+4),简码为5、57、575、5759、57594,“计算”和“计算机”的简码除了码长为1时相同外,其他情况都不一样,同时“计算机系”和“计算机”的简码除了码长为1和2时相同外,其他情况也都不一样,可以使三字词得到最快捷的输入。
实施方法十一选定键盘及编码规则同实施方案十,并规定当汉字字符的音码I为时,可以将zh、ch、sh作为其音码I的编码;当汉字字符的音码II中有η,可以用ng来代替η构成音码II的编码;汉字字符的编码=汉字的音码I的编码对应的数字键+汉字的音码II的编码对应的数字键。
其他编码与实施方案十完全相同,但如果组成词的字符有汉字,且该汉字的标准汉语拼音的前两码为zh、ch或者sh,或者后两码为ng时,该词的编码具有容错码的形式,即当汉字字符的音码I为 时,可以将zh、ch、sh作为其音码I的编码;当汉字字符的音码II中有η,可以用ng来代替η构成音码II的编码;汉字字符的编码=汉字的音码I的编码对应的数字键+汉字的音码II的编码对应的数字键。如“准备”符合上述条件,不但可以按照实施方案十的方法输入,还具有容错码“948622”(zhun+be)的形式,“标准化”可以按照实施方案十的方法输入,还具有容错码“294864”(b+zhun+h)的形式,当然,这些容错码也具有简码的形式,等等。
实施方法十二 选定键盘及编码规则同实施方案十,并规定由一个汉字字符组成的词可以兼容部首-字身音码输入方式输入。
其他编码与实施方案十完全相同,但由一个汉字字符组成的词,不但可以按照实施方案十的方法输入,也可以用部首-字身音码输入方式编码输入。如“机”可以兼容其规范码123435,以及容错码6854(muji)输入,这些编码也具有简码的形式,等等。
本发明与现有技术相比,具有以下显著优点:
1、以词为单位输入,平均码长短,重码率低,输入效率高;
2、对于汉字,可以实现拼音-笔形混合输入,提高了输入效率;
3、本发明的字符输入方法的学习起点低,编码自然流畅,易学易用;
4、通用性强,在不切换输入状态的情况下,可以混合输入汉字、数字、标点符号、英文字母等各种字符,大大提高了输入效率。
Claims (14)
1.一种以词为单位的字符输入方法,其特征在于:用数字键盘输入字符,该数字键盘的定义如下,
将不带声调符号的汉字拼音中的zh、ch、sh、ng、ü分别变换为η、v,构成压缩拼音码,当压缩拼音码的码长为1时,重复该压缩拼音码构成拼音码,当压缩拼音码的码长大于1时,取压缩拼音码构成拼音码,将拼音码的第一码定为音码I,将除第一码之外的拼音码定为音码II,
音码η分别定义在0、1两个键位上,每个键位定义其中任意两个音码;
按以下规则以词为单位输入字符:
(1)汉字字符的编码=汉字的音码I对应的数字键+汉字的音码II对应的数字键;数字字符的编码为其本身对应的数字键;英文字母的编码为该英文字母对应的上述数字键盘上的数字键;标点符号的编码是其读音所对应的编码的第一码所对应的数字键;
(2)如果是由1个字符组成的词,它的编码就是该字符的编码,顺序击键输入该词;
(3)如果是由2个字符组成的词,用组成该词的2个字符的编码,长于N码的取前N码,N为≥1的自然数,顺序击键输入该词;
(4)如果是由3个字符组成的词,用第一个字符编码的第一码+后两个字符的编码,长于N码的取前N码,顺序击键输入该词;
(5)如果是由3个以上的字符组成的词,用所有字符的编码的第一码+最后一个字符编码的除第一码之外的其余码,长于N码的取前N码,顺序击键输入该词。
2.根据权利要求1所述的以词为单位的字符输入方法,其特征在于:替代上述(4),如果是由3个字符组成的词,用所有字符的编码的第一码+最后一个字符编码的除第一码之外的其余码,长于N码的取前N码,顺序击键输入该词。
3.根据权利要求1或2所述的以词为单位的字符输入方法,其特征在于:按照如下关系,在数字键盘上定义声调码:
当一个词是由两个或两个以上字符组成的,其最后一个字符是汉字字符,并且该词的编码长度不足N码时,在该词的编码后加最后一个汉字的声调码,顺序击键输入该词。
4.根据权利要求3所述的以词为单位的字符输入方法,其特征在于:如果是由1个汉字字符组成的词,也可以用构成该词的汉字的标准汉语拼音对应的数字键,顺序击键输入该词。
7.根据权利要求4所述的以词为单位的字符输入方法,其特征在于:替代上述(3),如果是由2个字符组成的词,用所有字符的编码的第一码+最后一个字符编码的除第一码之外的其余码,长于N码的取前N码,顺序击键输入该词。
8.根据权利要求4所述的以词为单位的字符输入方法,其特征在于:在输入过程中,对由一个汉字字符组成的词兼容部首-字身音码输入方式输入,所述部首-字身音码输入方式为:
(a)取包含且仅包含横“一”、竖“丨”、撇“丿”、点“丶”、折“乛”这五个单笔部首的部首集合,按照横1、竖2、撇3、点4、折5编码,构成其部首码;
规定每一个汉字的部首都是该汉字的第一笔,如果一个汉字是所确定部首集合中的部首之一,或者是由一个部首的变体构成的,则该汉字的编码就是该部首对应的部首码;
如果一个汉字只有一笔,则该汉字就是一个无字身的汉字,否则,该汉字是一个有字身的汉字,对于有字身的汉字,部首之外的部分构成该汉字的字身;对部首取部首码,对字身取字身码;部首码加字身码就是该汉字的编码,具体的取码顺序与部首和字身的相对位置相一致,但最长取N码,即按规则取码后略去第N码以后的部分;字身码的具体取法如下:依照字身的书写顺序按照横1、竖2、撇3、点4、折5的规则逐笔对汉字的字身取码,构成该汉字的字身码;
以上编码就是规范码,任何一个汉字都具有规范码的形式;
(b)如果一个汉字的字型是左右型,但其规范码的部首不是位于其左边或者右边的全部部分,而左边或者右边的全部部分可以构成一个汉字;或者一个汉字的字型是上下型,但其规范码的部首不是位于其上边或者下边的全部部分,而上边或者下边的全部部分可以构成一个汉字,则该汉字具有容错码:
i.将上述可以构成汉字的部分定义为虚拟部首,取其音码对应的数字构成汉字的虚拟部首码;
ii.将汉字的虚拟部首外的部分定义为虚拟字身,按照下述规则对虚拟字身进行编码,定义编码结果为虚拟字身码:(1)如果虚拟字身是由1个部分组成的,且该部分是一个部首或一个汉字,则取该部首的部首码或该汉字的音码对应的数字,构成该字身的虚拟字身码;字身既是一个部首同时又是一个汉字的,按照是一个部首处理;(2)如果虚拟字身是由1个部分组成的,且该部分既不是一个部首,也不是一个汉字,则先确定该汉字虚拟部首码的码长,然后按虚拟字身的书写顺序逐笔对虚拟字身取笔画,最多取N和该汉字的虚拟部首码码长之差个编码,构成该字身的虚拟字身码;(3)如果虚拟字身为2个或者2个以上部分,则对每个部分分别取一码构成该汉字的虚拟字身码:构成1个部首的部分取该部首所对应的部首码的第一码,不构成一个部首但构成一个汉字的部分取该汉字音码对应的数字的第一码,其他情况一律取该部分第一笔对应的部首码;
iii.按照“虚拟部首码加虚拟字身码就是该汉字的编码,具体的取码顺序与虚拟部首和虚拟字身的相对位置相一致,但最长取N码”的规则组合汉字的虚拟部首码和汉字的虚拟字身码,构成汉字的容错码。
9.根据权利要求4所述的以词为单位的字符输入方法,其特征在于:任何一个词的编码可省去其除第一码之外的最后一码、或最后两码、或最后三码、……、或最后(N-1)码,构成该词的简码。
10.根据权利要求4所述的以词为单位的字符输入方法,其特征在于:标点符号的编码是其中文读音所对应的音码的第一码所对应的数字键。
11.根据权利要求4所述的以词为单位的字符输入方法,其特征在于:标点符号的编码是该标点符号的相应英文单词的第一个字母所对应的数字键。
12.根据权利要求4所述的以词为单位的字符输入方法,其特征在于:利用三行提示来进行重码选择,即对于输入的任何编码,将数字编码本身作为一个候选词,该候选词一般排列在提示行第一屏的第二位,但在任何情况下,当输入的编码除该数字候选词外不存在对应的词,则第一位显示数字,第二位、第三位显示为空;
除了上述情况外:(a)当键入编码码长为1时,第一位为汉字,或者英文字母,或者其他字符,第二位为数字,第三位为标点符号,然后将其他全码长度为1位的排列在后面,随后是所有简码为1位的词;(b)当键入编码长于1时,当有对应的全码时,第一位显示全码中最常用的那个词,第二位显示数字,第三位显示简码中最常用的那个词,如果没有任何对应的简码,则继续显示其他全码,随后显示剩余的全码重码,然后是所有的简码重码;当编码没有对应的全码时,第一位显示最常用的那个简码,第二位显示数字,随后显示其他全部简码;
无论重码在提示行任何一屏的第一、第二、第三个位置,用上、下键翻页找到对应重码后,第一屏无须按上下键翻页,都可以分别按ok、*、#直接输入。
13.根据权利要求4所述的以词为单位的字符输入方法,其特征在于:N=6。
14.根据权利要求4所述的以词为单位的字符输入方法,其特征在于:7≤N≤10。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN03153755.3 | 2003-08-20 | ||
CNB031537553A CN100362455C (zh) | 2003-08-20 | 2003-08-20 | 以词为单位的数字化汉字计算机输入方法 |
CN200310113427.4 | 2003-11-10 | ||
CNA2003101134274A CN1542594A (zh) | 2003-11-10 | 2003-11-10 | 以词为单位的汉字的通用计算机输入方法 |
CN 200410058195 CN1737735A (zh) | 2004-08-18 | 2004-08-18 | 以词为单位的数字键盘汉字计算机输入方法 |
CN200410058195.1 | 2004-08-18 | ||
PCT/CN2004/000967 WO2005043369A1 (en) | 2003-08-20 | 2004-08-19 | Character input method based on “phrase” as unit |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1836199A CN1836199A (zh) | 2006-09-20 |
CN1836199B true CN1836199B (zh) | 2010-05-05 |
Family
ID=34556682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2004800234193A Expired - Fee Related CN1836199B (zh) | 2003-08-20 | 2004-08-19 | 以词为单位的字符输入方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN1836199B (zh) |
WO (1) | WO2005043369A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7395203B2 (en) | 2003-07-30 | 2008-07-01 | Tegic Communications, Inc. | System and method for disambiguating phonetic input |
CN113253853B (zh) * | 2021-03-29 | 2023-01-10 | 周长河 | 一种计算机和手机的汉字输入方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1201177A (zh) * | 1998-05-21 | 1998-12-09 | 王照璐 | 汉字电脑输入音形码及其输入键盘 |
CN1050432C (zh) * | 1995-12-25 | 2000-03-15 | 中国中文信息学会 | 全拼双拼规范码汉字输入方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1309343A (zh) * | 2000-02-16 | 2001-08-22 | 赵钢 | 数字键盘汉字拆形首音输入法 |
CN1306236A (zh) * | 2000-03-25 | 2001-08-01 | 中国科学院长春应用化学研究所 | 汉字偏旁部首首字母输入法 |
CN1147779C (zh) * | 2000-12-15 | 2004-04-28 | 戴尔晗 | 一种利用数字码输入汉字的拼音输入方法及其键盘 |
-
2004
- 2004-08-19 CN CN2004800234193A patent/CN1836199B/zh not_active Expired - Fee Related
- 2004-08-19 WO PCT/CN2004/000967 patent/WO2005043369A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1050432C (zh) * | 1995-12-25 | 2000-03-15 | 中国中文信息学会 | 全拼双拼规范码汉字输入方法 |
CN1201177A (zh) * | 1998-05-21 | 1998-12-09 | 王照璐 | 汉字电脑输入音形码及其输入键盘 |
Also Published As
Publication number | Publication date |
---|---|
WO2005043369A1 (en) | 2005-05-12 |
CN1836199A (zh) | 2006-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7256769B2 (en) | System and method for text entry on a reduced keyboard | |
CN100462901C (zh) | Gb拼音输入法 | |
CN102830809A (zh) | 汉字编码输入法 | |
CN101017397A (zh) | 计算机汉字输入系统及输入方法 | |
CN101140485A (zh) | 音形编码汉字输入法 | |
CN1836199B (zh) | 以词为单位的字符输入方法 | |
CN102750009B (zh) | 一种无切换汉字输入法及键盘 | |
CN100520685C (zh) | 一种汉字拼音识别码输入法 | |
CN101751140B (zh) | 现代藏文字母和键盘键位一一对应的输入法 | |
CN104850240A (zh) | 一种基于手机20键位输入法的显示键盘及其输入方法 | |
CN100371865C (zh) | 应用于数目字键盘的汉字输入法及相应的电子产品 | |
Po et al. | Six-digit stroke-based Chinese input method | |
CN101021753A (zh) | 汉字在手机及计算机上用五笔画十四部首的输入方法 | |
CN101105724B (zh) | 一种拼音简化、字母数字化汉字混合输入法及键盘 | |
CN101008870A (zh) | 一种双拼输入的数字小键盘及其输入法 | |
CN100371862C (zh) | 以词为单位的通用数字键盘汉字输入方法 | |
CN1333325C (zh) | 象形字直观编码输入法 | |
CN102012749A (zh) | 汉字十笔画编码 | |
CN102622098B (zh) | 新音形编码汉字输入法 | |
CN101122820A (zh) | 笔画输入法 | |
CN101561712B (zh) | 一种应用十二键朝鲜文字键盘输入朝鲜文字的方法 | |
CN101907928A (zh) | 一种汉字元拼拼音扩展输入方法 | |
CN101782808A (zh) | 汉字输入方法及汉字输入平台 | |
CN1409201A (zh) | 计算机彝文字输入法 | |
CN103488309A (zh) | 汉字简拼加部件数字输入法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
DD01 | Delivery of document by public notice |
Addressee: Liu Xiangdong Document name: Notification of Termination of Patent Right |
|
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100505 Termination date: 20120819 |