CN1612091A - 字母形状匹配汉字输入方法 - Google Patents
字母形状匹配汉字输入方法 Download PDFInfo
- Publication number
- CN1612091A CN1612091A CN 200310104499 CN200310104499A CN1612091A CN 1612091 A CN1612091 A CN 1612091A CN 200310104499 CN200310104499 CN 200310104499 CN 200310104499 A CN200310104499 A CN 200310104499A CN 1612091 A CN1612091 A CN 1612091A
- Authority
- CN
- China
- Prior art keywords
- chinese
- character
- letter
- stroke
- chinese character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000010422 painting Methods 0.000 claims description 5
- 230000008676 import Effects 0.000 claims description 4
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000004069 differentiation Effects 0.000 claims description 2
- 230000003203 everyday effect Effects 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 abstract 1
- 230000015572 biosynthetic process Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 239000002689 soil Substances 0.000 description 4
- 241001494479 Pecora Species 0.000 description 3
- 235000013339 cereals Nutrition 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 235000008429 bread Nutrition 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 235000015170 shellfish Nutrition 0.000 description 2
- 239000004575 stone Substances 0.000 description 2
- 239000002023 wood Substances 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 235000006200 Glycyrrhiza glabra Nutrition 0.000 description 1
- 206010019233 Headaches Diseases 0.000 description 1
- 206010061218 Inflammation Diseases 0.000 description 1
- 241000909578 Nectandra Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 235000013351 cheese Nutrition 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001037 epileptic effect Effects 0.000 description 1
- 238000009313 farming Methods 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 230000004054 inflammatory process Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 239000004570 mortar (masonry) Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明涉及根据字母的形状对汉字进行编码从而将汉字输入计算机的方法。本发明的汉字输入方法在计算机键盘上输入汉字,所述方法包括:分类步骤:用字母作为形状与该字母相似的汉字的笔画或笔画组合的代码;输入步骤:根据汉字的结构依汉字的书写顺序,用每个笔画或笔画组合的代码输入该汉字。利用字母的形状代表与其相似的汉字笔画或笔画组合,其表达方式直观明了从而易于掌握和记忆。
Description
技术领域
本发明涉及一种计算机中文输入方法。确切地说,本发明涉及根据字母的形状对汉字进行编码从而将汉字输入计算机的方法。
技术背景
中国语言属于非拉丁语系,其书写字符为汉字。一个汉字是代表某种概念或物体的抽象符号。一个汉字的图形表达是笔画在二维方块中的造形,而笔画则是笔在纸上书写时的一次勾画。汉字的笔画可以是1到64笔之间,如’一’和’
字,许多汉字的笔画在15笔以上。中文字量庞大,字典中收录的汉字有的多达5万个以上。部首是汉字的基本单元,最常用编排汉字的方法是采用部首排序法。字典中的汉字排列首先按部首分类,其次按笔画数,然后再按基本笔画次序。汉语拼音排序法则是按拼音字母顺序,语音声调以及笔画次序等。一般而言,汉字的书写形式和排序结构与拉丁文字相比要复杂许多。
尽管汉文书写复杂,但它却是一种表形传意文字系统。汉语造字的基本法则是象形,指事,会意,形声,假借和转注。汉字的形成来源于它所描绘的物体和它要表达的意思。经过不断的简化和抽象,汉字外形逐渐演化,一个字成为中文发音的一个音节并传达某种意思。外形上看现代与古代汉字相比有着很大的差异,但是每个汉字都是代表某种抽象物体或意念的特征则没有改变。汉字是一种表形,达意和形声结合的文字,是一种面向对象的人类高级形式的文字(Object-Oriented Human AdvancedNotation-OOHAN)。
汉字以部首归类表征字与字之间的共同属性。汉字部首的重复使用构造出同属性字类中的不同字形,而每个汉字在组词中重复使用以表达不同的字义。因此,汉字库虽然浩大,但常用的汉字大约只在三千至五千个左右。汉字外形能传达被描述对象的类,形,声,意等信息,从而帮助人们识别和记忆。
图形汉字具有很强的重复使用特性,它表形达意,形声结合是一种十分优异的文字系统。然而,汉字的应用在计算机资讯时代面临着巨大挑战。计算机采用ASCII七位编码代表128个字母符,该系统处理英文字符相当方便。另一种编码是ANSI八位系统,它有256个字符包括欧洲所有语言的字母。与字母文字相比较,中文在计算机科学中的状况却不是那么幸运。因为中文字库的基本字符庞大,很难想象用一个键盘可以包含所有汉字而又能方便地掌握这样的键盘。文字输入是一种最常用的人与计算机对话手段,然而中文在这一领域面临着唯一严峻挑战。中文键盘输入已经有多种方法,它们主要地归纳于下述三大类。
一种方法是以汉字的发音为根据如汉语拼音法。拼音输入法只需要很少训练就能使用,但是使用者必须准确掌握标准发音。汉语中许多是同音字,即一音多字,要从众多同音字中查找所需汉字则速度慢而且会中断计算机运行。
第二类输入法是以汉字的字形为依据。例如王码五笔画法,它用字母去代替一百八十余汉字部首,并将字母键分为五个区域。使用者一般根据五笔结构规则,用字母所代表的字根去组构汉字作为输入。这种输入方法的主要缺点是记忆量大以及培训费时,因为一个字母要代表多个字根,而且字母与它所代表的字根之间基本上没有任何意义上的关联。
第三类中文输入方法基本上是对上述两种方法加之以某种技巧的综合应用。一般说,采用现有的中文输入法都相当复杂。特别是对于一个以汉语为第二语言的外国人,现行的以发音,字形或混合应用为依据的汉字输方法对他(她)们都是另人头痛而难以掌握的。
在当今信息技术时代,如何有效地在计算机上输入中文和快速处理中文软体是急迫有待解决的课题。中文是一种面向对象的语种,然而作为人机对话的一种交换方式,汉字输入碰到了一些困难。本发明是一种中文输入方法,用英文字母简易而有效地去代表汉字,为计算机中文处理开辟了一条崭新的路径。
发明内容
根据本发明的一个方面,提供一种计算机汉字输入方法,在计算机键盘上输入汉字,所述方法包括:
分类步骤:用字母作为形状与该字母相似的汉字的笔画或笔画组合的代码;
输入步骤:根据汉字的结构依汉字的书写顺序,用每个笔画或笔画组合的代码输入该汉字。
本发明的编码主要是采用形状比照法把汉字转换成字母单词,在计算机学科和信息技术领域采用本发明的编码具有下列主要优点:
利用字母的形状代表与其相似的汉字笔画或笔画组合,其表达方式直观明瞭从而易于掌握和记忆。
字母和汉字笔画基本上一一对映。利用字母外形和有关法则可将汉字转换成字母单词,反之由本发明的编码亦可辨认其所代表的汉字原型。虽然有时人为辨认并非直接明瞭,但它远远比从拼音到汉字要准确和有效。
与字母和字母联合所对应的笔画或单个汉字可以刻印在计算机键盘上。本发明的编码的形成是用字母所代表的笔画按一定规则仿构汉字,因此无须费力地背记众多的汉字本发明的编码。
计算机采用本发明的编码作中文输入如同英文一样容易,高效和准确。现有汉字输入法只不过是某种意义上的技巧法,而本发明的编码方法则是一种中西结合的文字表达方法。
用本发明的编码字符代表汉字所形成的是一种语言文字,计算机中普遍使用的一字节编码操作系统和软件可以用来处理本发明的编码支持的中文资料,如同处理英文等字母文字系统一样,差别只在于文字显示有所不同。
中文字词典采用本发明的编码字符编排可按字母顺序,其汉字检索比现有部首和拼音法更方便和高效率。
附图说明
图1所示为汉字的基本结构;
图2所示为汉字的包围结构,四面包围和三边包围;
图3所示为汉字的角边结构,它包括左上角,右上角,左下角和右下角;
图4所示为汉字的树干结构
图5本发明的编码中文采用的计算机键盘布局;其中:
M:两字母以上字元的重复因子;Ms:三重复因子;和Mm:四重复因子。
u:字母联合因子。
‘:单引号代表汉字的右上角点。
具体实施方式
英语是一种以语音为基础的字母文字,用字母作计算机输入易于学习,使用方便,高效而准确。中文则是一种象征符号文字。构成中文字的三要素是形,声和意,其表达在于清晰明澈,其记忆容易和适用于不同的发音方言。本发明吸收字母和象征文字两者的优点,提出一种用字母外形对汉字进行编码输入的方法。
本发明的主导思想是探寻一种简单易学的方法,赋予每一个汉字唯一的字母编码,称之为本发明的汉字编码。每个汉字可以有两种形式:繁体和简体,如同英文的字母有大写和小写两种形式一样。如果一个汉字只有一种形式,则认为这个字的繁,简体是相同的。本发明的编码主要是选用字母元的外形而不是发音作为汉字的相应笔画,一个本发明的编码的形成是以简体汉字作为模仿标本,尽可能地用英文字母所代表的外形来仿构汉字。
本发明的汉字编码可以是一个字母或者多个字母,它相当於英文中的一个字母单词。
从笔画到字母,定义字母笔画六原则
比配两种完全不同类型文字元素的外形,将汉字转换成字母形式的文字面临着许多困难。中文字汇量大,汉字本身造形复杂而且许多字所包含的笔画繁多。另一方面,字母系统中可利用的字母图象却太贫泛而很难完美地表现汉字的艺术造形。最为困难的是:只用较少的字母能模仿多笔画的汉字,而所形成的字母单词还要具有可辨识性,即由字母单词也可以认知其所代表的汉字原型。
本发明的汉字编码以键盘符号26个字母加上单引号’为编码符号,为了能直观而又简单地用字母符号代替相应的汉字笔画,本发明提出用字母定义汉字基本笔画的六项原则,具体说明如下。
(1)象形
用字母的大小写形状代表与其最相似的汉字笔画或笔画组合。例如:/A,日/B,工/I,讠/i,亅/l,口/o,人/R,/r,丷/v,乂/X和丿/y等。采用单引号表示笔画的右上方点,如弋/t’。另外,在字母与笔画相似的基础上,有些本发明编码的单词与汉字相象,如卯/cyp,北/db,中/dp,右/fo,石/Jo和从/RR等。
(2)转借
借用英文中的某些用法表征汉字的某种笔画。例如英文的量词a,在本发明编码中用a表示中文的一或作为笔画横。借用表征英文单词复数形式的s表示汉字笔画的字母重复,如一/a,二/as,三/ass,彡/yss以及口/o和品/oss等。以及借用英文Multiple(乘数)的第一个字母M作汉字块单元的重复,Ms为三次重复,和Mm为四重复。如又/aX,双/MaX,叒/MsaX,叕/MmaX和火/vR,炎/MvR,焱/MsvR,燚/MmvR。
(3)配对
除大小写字母取其外形代表汉字笔画外,用含有两个字母的联合来定义更多的笔画组合或单个常用字。两字母配对是由除u以外的任一字母加上后缀u或个别字母加后缀s构成,它所代表的笔画与它的第一个字母所代表的笔画往住有某种关联。它们或者表示笔画的延续,如:ナ/f与大/fu,丿/y与厂/yu。它们或者表示u前后字画之间有交接如:贝/Nr与内/Nur,丂/ah与亐/aauh,和引/Sl与弗/Suyl等。而不/bu是唯一地采用发音字母作其本发明编码的字符。
(4)类同
汉字是在二维平面方格内的造形,笔画英姿多态,用字母模仿汉字只能简单而抽象。在不影响一个本发明的汉字编码唯一性的基础上,类同是对于某些相似字画赋予同一的字符串。例如:水,氺,
都用vk表示,这里v表示两点。字例有″水/vk″,″录/Qvk″(彐/Q),″函/Uzvk″,″乑/yvk”等。但是’隶’的标识符是Qlvs,以区别它和录/Qvk的异同。还有少数类同的汉字在单独使用时须加以区别,方法是在不常用字的本发明编码的字符后加字母i。例如月/Nas和
/Nasi,但是在复合字中它们的字符是相同的,如:服/NaspaX和有/fNas。另外,还有少数汉字在写法和笔画顺序上完全相同,只是笔画位置上有差异。所采用的区分办法仍然是在不常用字的本发明编码的字符后加字母i。例如标/tmaTm和柰tmaTmi,易/Bhys和昒/Bhysi等。
(5)拼写
本发明的汉字编码读音与汉字固有发音一样,如fu读大(da4或dai4),B读日(er4)等。为了帮助记忆,本发明编码的中文采用英语元音字母代表最常用汉字笔画,使本发明编码的的字母单词易读易记。英语元音字母与对应的笔画是:一/a,丶/e,讠/i,口/o,和笔画捺ㄟ/us。例如下面这些汉字都拼记容易:用/Nat,耳/Test,讨/ite,不/bu和部首钅/rat,车/fat等。
(6)指定
有的字母很难找到与之有相似处的汉字笔画,因而賦于它们以特定的常用字画。这样的字母有疒/D,千/G,井/ku,彐/Q和酉/qu等。
组构形状匹配汉字编码采用笔画表达三元素:字母,联合和模式
由单个字母所代表的某一笔画或笔画组合称之为字母笔画,而二字母联合可用来表征多笔画的组合则已如前所述。为了帮助记忆,字母笔画和二字母联合笔画可以刻印在计算机键盘上(参见图5计算机键盘布局)。值得指出的是,在计算机上键入本发明的编码时,虽然字母的大小写所表示的笔画有所不同,但是大小写字母差异对鉴别一个汉字的影响非常小。根据对已建立的一万七千七百多个形状匹配汉字编码字库进行索检(它代表两万余繁简体汉字),结果显示仅有少于1.12%的汉字字符须要根据字母的大小写不同加以区别。不过,在书写中采用大小写字母可以清晰表达笔画,其汉字的可识别性较强。例如字符表达A/
a/一和o/口,其汉字’合’的形状匹配汉字编码是Aao。尽管在键入’合’字时用字母aao,AAO或Aao都一样,显然在人为观察时用Aao可以清晰映现’合’字原形。
汉字中某些笔画的组合图案常常用于多个字体之中,如多笔画部首。部首可以用字母笔画,二字母联合或它们的组合来标记,如日/B,隹/ru,木/tm和矢/rfu。然而有些部首和笔画的组合图案或者有多种拆字方案或者较难分拆,因此有必要赋予这类笔型图案以某种固定的字母单词,把该单词表达称为图案的笔型模式。多种拆字方案的例子有:
目=口+||+口(ovo)或口+=(Oas);模式选用:目/ovo
用字母组合象形表达汉字部首的有:
止/Lb,衣/jk,礻/jm,巳/ee,辶/iL,廴/zL等。
对于多笔画部首则采用″头二尾一″三字母的简略记法,即用部首的头两个和最后一个的字母笔画,来表示其笔型模式。例如:
舟/eNe,鬼/eOe,黑/Ovv,和髟/Ezs等,其中s为彡的最后一字母。
另外,还有少量难以分拆的常用汉字也采用笔型模式表达,如:
长/tk,非/Fes,也/eeh,已/eey等。
一般说采用本发明的编码代表汉字,其字母个数远远少於对应汉字的笔画数量。例如代表简体’龙’和繁体’龍’的本发明的编码是f’Ly。而四龙本发明的汉字编码表达为
/Mmf’Ly,从64笔画汉字转换成6字母的本发明的编码,其反向映像即从字母单词Mmf’Ly到汉字也是显而易见的。然而,许多汉字的结构是相当复杂的,把一个汉字转换成字母需要在一定的笔顺规则和构字规则的指导下完成。
依形排码,遵从本发明的编码笔顺规则
西方文字从左到右由字母排列组合,中文字则是笔画在二维空间的构图。书写汉字时笔画有先后顺序,撑握好中文的笔画规律对赋予汉字以正确的字母符有着直接关联。汉字的笔画顺序与它的结构有关,本发明的编码的字母个数和顺序与其对应汉字的笔画和顺序有关,具体笔顺规则叙述如下。
(1)汉字基本结构的笔画顺序
图1表示汉字块的基本结构,笔画从上至下,从左到右和先撇后捺。本发明的编码的字母顺序基本遵循同样的法则,即从上至下:三/ass,合/Aao;从左到右:从/RR,川/yll;先撇后捺:入/yus,大/fu。
(2)汉字的包围结构
汉字的基本笔顺规律还有:从外到内(如”同”),先进后封(如”回”)。在本发明的编码中象形地指定某些字母表示汉字的包围框架,其结构如图2所示。包围框架包含三面包围和四面包围,本发明的编码的字母顺序是:先框架后框内。
三面包围框架的字例:丑/csx,山/Ul,区/CX,同/Nao。它不完全遵循汉字的书写笔顺规律,如’山’字的书写笔顺是”先中间再两边”。
四面包围框架的字例:田/Ox,回/Oo和困/Otm等。这一条与″先进后封″的规律也不吻合。注意,大写字母O表示四面包围结构的外框,而小写o代表汉字口。
如果笔画与边框有相交,一般加用字母u表示有交连,例如:内/Nur,典/Nuham和申/oux。
(3)汉字的角边结构
在本发明的编码中文里,以某些字母作汉字的角边框架如图3所示。本发明的编码字符的顺序是写先角边再角内,例如,左上角:汉字中这种结构比较少见,仅列入:北/db;右上角:继/EaLvtm,进/ilku,廷/zLGa;左下角:司/gao,匋/hrxu,卂/Zx,和右下角:有/fNas,屋/pzexa,石/Jo,庆/jufu等。
(4)汉字的树干结构
汉字中有些笔画彼此相交,其中以某一笔画为主体,其它笔画依附於这个主笔。这样的笔画结构称之为树干结构,如图4所示。树干结构中本发明的编码的字母顺序是先树干再其它,例如:
T:干/Ta,平/Tva,示/aTm。
G/千:禾/Gm,乎/Gv,乖/Gdb。
Y:羊/Yass,美/Yazfu,屰/Yau。
本发明的编码构成规则
组构本发明的汉字编码主要是用形状比照法由字母象形仿构汉字。汉字的结构往往很复杂,而且可以利用的字母形状又十分贫乏,因此字母仿构汉字只能是既抽象又模糊。另一方面,一个汉字可能有多种方案用字母象形地去仿构,本发明的编码的形成不是从众多选项中随意挑选,而恰恰相反它是有章可循。这个章程即是本发明的编码字符构成规则:
(1)键盘笔画的规范性
如果一个汉字或笔画组合所对应的字母或联合已列入本发明的编码字符键盘表格之中,则总是选用已定义的最简单字母表达。例如已有字母’f’代表笔画ナ,则不可用代表横的’a’和代表撇的’y’去重构ナ。又如已知’大’的本发明的编码字符是’fu’,则不可用ナ/f和代表捺的’us’去重构。
(2)笔型模式的规范性
如果一个汉字或笔画组合图案已定义为一个笔型模式,则总是应用笔型模式的字母单词来代表它的本发明的编码,而不是用其它方式重构。例如部首’水’的笔型模式是’vk’,而不能用ayk取代,尽管ayk之表达亦有一定合理性。又例如汉字’衣’和其部首衤的模式是jk,则不可用eJk或isyk来重构。
(3)单字或字块主干框架的突现性
一个汉字无论其单独存在或隶属于某个其它汉字块中,当这个汉字可以用树干结构或者其它形式表达,并且所用字母个数相同时,则总是用树干结构的字母来表达它,以突出映射字形主干和轮廊。例如汉字’干’的字母表达是干/Ta而不是ax;正确表达’羊’字用羊/Yass而不是用vTas。又例如,在边角和包围结构中,都采用先框架再其它的笔顺规则。如围/Otag,过/iLte和建/zLQat等,这些边框都代表汉字中的部首,采用本发明的编码字母排序同样可将同部首的汉字归类于一处。
(4)字符表达的简短性
如果一个汉字可能有多种方案用字母象形地去仿构时,总是选取所用字母数较少的表达。例如’万’字,它的正确字母表达是’Jg’,因为有字母与笔画对照关系’丆/J’和’
/g’。而不采用另外的表达如(ayg),这里a表示横和y代表撇,尽管其表达似乎并没有错误。另外,如果一个汉字可能有多种方案表达而所用字母个数相同,则选用大写字母较少的那种表达。例如’南’的本发明的编码正确表达是南/xNvax而不是xNYas。又如采用新/isvatmjT而不是isvTamjT,和用贝/Nr而不是NR来取代。
键盘布局
本发明的编码利用英文26个字母的大小写字符和单引号作为编码的基本符号,编构的主导思想是尽可能地用英文字母所代表的外形来仿构简体汉字。为了帮助记忆,英文字母和以u或s为后缀的两字母联合所代表的笔画或单个汉字可以标记在键盘上。即在每个按键字母的右侧,右下侧和下侧分别标记字母的大写,小写和二字母联合所代表的笔画或单个汉字。 本发明的编码中文采用的计算机键盘布局如图5所示,下述表格则详细给出它们的对照关系和说明。
表一字母与笔画对照表
编辑本发明的编码实例
一个本发明的编码代表一个汉字的繁简体,而它的形成则以汉字简体为模仿标本。把汉字转换成字母形式的文字,本发明提出了六项原则定义字母表达汉字笔画。组构本发明的编码的三个基本元素是:字母笔画,联合笔画和笔型模式。把汉字正确地转换成本发明的编码字母单词,要遵循本发明所提出的笔顺规则和构成规则。更多编码示例列举如下:
文 亠 乂 韬 韦 爫 臼
is X ta yW Fga
g
武 一 弋 止 (角结构) 略 田 夊 口
a t’ Lb Ox rX o
坚 丨 丨 又 土 船 舟 几 口
l l aX xa eN yz o
e
利 禾 刂 器 口 口 犬 口 口
Gm ll o s f’u o s
多 夕 夕 谋 讠 甘 木
M by i hu tm
树
Y ass v a o N at
神 礻 申 ( 交 洲 氵 丶丿 丶丨 丶丨
有 )
jm oux w Ms el
科 禾 丶 丶
技 扌 十 又
Gm e s t ty x aX
n u y k O x
叶 口 十 茂 卄 J 弋 丿
o x H J t’ y
城 土 J
弋 丿 区 匚 乂 (包 围 结构
)
xa J g t’ y C X
物 牜 勹 丿 丿 奇 大 可
et h y s fu go
y
新 亠 丷 一 木 斤 洲 氵 丶丿 丶丨 丶丨
is v a tm jT w Ms el
阳 阝 日 逻 辶 罒 夕 (角 结构
)
P B iL olo by
乐
小 土 土
c de xa
宝 丶 冖 王 丶 地 土 也
e n zu e xa eeh
发明者已建立一个含一万七千七百多个本发明的编码的字库,它代表二万余繁简体汉字。计算机测试是在英文版Windows XP Home Edition视窗操作系统下进行,计算机程序为VB-6,采用国际编码Unicode显示汉字。通过对该汉字库进行索检,有如下统计结果:
本发明的编码平均长度:6.33(个字母)
本发明的编码长度大于9占总字数的百分比:6.42%
索捡出每个汉字的平均击键次数:4.88/每字
最大击键次数:12次/每字
击键次数大于6占总字数的百分比:4.14%
本发明的编码的重叠率为0,如果把一个字母的大写和小写视为同一字符,其重叠率则为:1.12%
如果从17700余汉字字库中检索最常用500个汉字,有如下主要结果:
本发明的编码平均长度:4.32(字母)
平均击键次数:3.97/每字
一般而论,汉字字库越小,平均击键次数越低。
简略本发明的编码,组词输入及其它
本输入法亦具有其它功能,帮助用户有效而方便地输入汉字。这些功能包括:简略本发明的编码汉字输入,多字词组和自定义词组输入,以及高频先等常用汉字输入功能。
本发明的编码字符长度与它所代表的汉字形状有关,一些本发明的汉字编码长度大于4。为了减少中文输入字符的次数,采用基于上述本发明的编码原码的简略编码。限定简略本发明的编码字符长度最大不超过4位。当一个本发明的汉字编码长度小于或等于4时,其简略码与原码相同。若本发明的编码字符长度大于4,其简略码的形成则按某种方式从本发明的编码中择取4个字母。本简略码采用简单的”前三后一”方案,即:前三位与本发明的编码原码相同,简缩码的第四位则选用本发明的编码的最后一个字母符。仍然以上述编辑实例中的汉字为例,把本发明的编码与相对应的”前三后一”简略码例举如下:
文 韬 武 略 坚 船 利 器 | |
本发明的编码简略 | isX tagyWF at’Lb OxrXo llaXx eNeyzo Gmll osf’ga a uosisX taga at’b Oxro llaa eNeo Gml osfs |
码 | 多 谋 善 用 神 洲 科 技 |
本发明的编码简略码 | Mby ihutm Yassv Nat jmoux wMsel Gmest tyxaao XMby ihum Yaso Nat jmox wMsl Gmet tyxX |
必须指出,当一个字母的大小写作为不同字符看待时,本发明的编码重叠率为零;即使把大小字母视为同一字符,如前所述,其重叠率亦非常之小。然而在简略码表达中其字符长度的降底,则是以产生众多的重码为代价。并且采用简略码作输入时,使用者必须思考:已击键的次数,汉字的笔画顺序从起始位跳至末位的变换,从可能的众多重码中选取所需要的汉字等诸因素。因此,采用简略编码并非总是比使用本发明的编码的原码优越。例如上述″韬″的简略本发明的编码为:taga,其重码如下:
taga:1:韫 2:韝 3:韬
但是,当采用″韬″的原码作输入时,键入前四位字符tagy已经从测试字库(含17700余字)中唯一地查找到″韬″字。
当然有些汉字,特别是那些含多笔画部首的汉字,采用简略编码作计算机输入确实方便和迅速。如船/eNeyzo字,需要键入6个字符才能唯一地从字库中搜寻出该字。一般地,中文输入采用本发明的编码,简略码或它们的混合应用。
如同简略本发明的编码一样,汉字词组的输入则是按某种方式从词组的本发明的编码中择取4个字母符。
两字词组的输入:取首尾,首尾字符。如:文韬/iXta,武略abOo;
三字词组的输入:取首,首,首尾字符,如:武汉市/awen,其原码:at’Lb waX eTn;
四字词组的输入:取首,首,首,尾字符,如:文韬武略(itao);
多字词组的输入:取4个字母符,词组头两个汉字的首,和词组尾两个字的尾。如:中华人民共和国(dRoe),其原码:中/dp 华/Rbx 人/R 民/pt 共/Ham 和/Gmo 国/Ozue。
在上述说明中如果一个本发明的汉字编码只有一个字母符,则上述″首尾″用同一字符,如″星期日″的本发明的编码为Bytz huamNas B,其三字词组为BhBB。
同样地,采用词组输入使字库的重码率上升,汉字库容量增大。一般地,很难找到一个容量适当,又能供不同用户方便使用的词组字库码。本输入法亦具有自定义词组和高频先见功能,其实现是利用计算机的记忆功能由软体程序设计完成。
本发明的编码中文的主要应用
本发明提出用字母仿构汉字的法则和规律,代表本发明的汉字编码字符相当於英文中的一个母单词。本发明的编码的书写形式是一种字母文字系统,它在计算机中文文字处理中有着广泛而优异的应用前景。
本发明的编码的一个主要应用是作计算机中文输入。本发明的编码标记主要采用外形比照法,用字母笔画,联合笔画和笔型模式抽象地仿写简化汉字,本发明的编码单词与汉字一一对应。本发明的编码表达方式直观明瞭和简短,从而易于掌握和记忆。中文输入以本发明的编码字符为媒介,如同输入英文的字母单词一样,使用方便,高效和准确。
由于代表本发明的汉字编码所形成的是一种字母表达文字,计算机处理本发明的编码字符如同处理欧美文字资料一样,使中西文字处理系统之间具有广泛兼容性,唯一差别只在于文字显示不同。计算机中普遍使用的一字节编码操作系和软件可以用来处理本发明的编码支持的中文资料。例如,英文单字的改错功能可以借用来更正本发明的编码的错误键入;运用对字母单词的查寻功能可以用来查找本发明的编码所代表的汉字;利用对字母的排序功能,可按本发明的编码字符顺序重新编辑汉字字典和词典,其汉字检索比现有部首和拼音法更方便和高效率。
结束语
本发明的编码中文介绍如何把汉字转换成字母单词,以及它的一些主要应用。显然,图形汉字与语音字母所表达的是完全不同形式的文字,两者之间的变换必然存在某种模糊性。然而,事物的模糊性是客观存在的普遍规律之一。因此,记忆和掌握本发明所提出的字母笔画和本发明的编码规则,是成功应用本发明的编码中文的关键所在。本发明开创了一门新的学科领域,为计算机中文信息处理和汉字字词典编排开辟了一条崭新的路径。
Claims (18)
1.一种计算机汉字输入方法,在计算机键盘上输入汉字,所述方法包括:
分类步骤:用字母作为形状与该字母相似的汉字的笔画或笔画组合的代码;
输入步骤:根据汉字的结构依汉字的书写顺序,用每个笔画或笔画组合的代码输入该汉字。
2.如权利要求1的计算机汉字输入方法,其中的分类步骤用字母的大小写形状代表与其最相似的汉字笔画或笔画组合。
3.如权利要求1的计算机汉字输入方法,其中的分类步骤借用英文中的用法表征汉字的笔画。
4.如权利要求1的计算机汉字输入方法,其中的分类步骤用含有两个字母的联合来定义笔画组合或单个常用字。
5.如权利要求1的计算机汉字输入方法,其中的分类步骤对于相似字画赋予同一的字符串。
6.如权利要求1的计算机汉字输入方法,其中的分类步骤用英语元音字母代表最常用汉字笔画。
7.如权利要求1的计算机汉字输入方法,在分类步骤中,如果某些字母找不到与之有相似处的汉字笔画,则赋于它们以特定的常用字画。
8.如权利要求3的计算机汉字输入方法,其中借用表征英文单词复数形式的s表示汉字笔画的字母重复;借用英文Multiple的第一个字母M作汉字块单元的重复,Ms为三次重复,和Mm为四重复。
9.如权利要求4的计算机汉字输入方法,其中两字母联合是由除后缀字母以外的任一字母加上后缀字母构成,两字母联合所代表的笔画与它的第一个字母所代表的笔画有连接关系。
10.如权利要求9的计算机汉字输入方法,其中汉字字母可以是u或s。
11.如权利要求1的计算机汉字输入方法,其中的分类步骤中,为了将相似的汉字在单独使用时加以区别,在不常用字的本发明编码的字符后加字母区别字母。
12.如权利要求1的计算机汉字输入方法,其中的分类步骤中,如果汉字在写法和笔画顺序上完全相同,只是笔画位置上有差异,所采用的区分办法仍然是在不常用字的本发明编码的字符后加区别字母。
13.如权利要求11或12的计算机汉字输入方法,其中的区别字母是i。
14.如权利要求1的计算机汉字输入方法,其中当一个汉字有多个可能的编码时,采用以下规则选取编码:
如果一个汉字或笔画组合所对应的字母或联合已列入键盘,则总是选用已定义的最简单字母表达;
如果一个汉字或笔画组合图案已定义为一个笔型模式,则总是应用笔型模式的字母单词来代表它的本发明的编码,而不是用其它方式重构;
一个汉字无论其单独存在或隶属于某个其它汉字块中,当这个汉字可以用树干结构或者其它形式表达,并且所用字母个数相同时,则总是用树干结构的字母来表达它,以突出映射字形主干和轮廊;
如果一个汉字可能有多种方案用字母象形地去仿构时,总是选取所用字母数较少的表达。
15.如权利要求1的计算机汉字输入方法,其中的分类步骤中,汉字多笔画部首的编码可以进行简略编码,采用”前二后一”方案,即:前二位与不简略的编码原码相同,简略码的第三位则选用编码的最后一个字母符。
16.如权利要求1的计算机汉字输入方法,其中字母形状匹配汉字所形成的编码构成一种表达汉字的字母书写文字。
17.如权利要求1的计算机汉字输入方法,其中的分类步骤中,汉字编码可以进行简略编码,采用”前三后一”方案,即:前三位与不简略的编码原码相同,简略码的第四位则选用编码的最后一个字母符。
18.如权利要求1的计算机汉字输入方法,其中词组输入的规则如下:
两字词组的输入:取首尾、首尾字符;
三字词组的输入:取首、首、首尾字符;
四字词组的输入:取首、首、首、尾字符;
多字词组的输入:取4个字母,词组头两个汉字的首,和词组尾两个字的尾。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200310104499 CN1612091A (zh) | 2003-10-30 | 2003-10-30 | 字母形状匹配汉字输入方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200310104499 CN1612091A (zh) | 2003-10-30 | 2003-10-30 | 字母形状匹配汉字输入方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1612091A true CN1612091A (zh) | 2005-05-04 |
Family
ID=34757006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200310104499 Pending CN1612091A (zh) | 2003-10-30 | 2003-10-30 | 字母形状匹配汉字输入方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1612091A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824793A (zh) * | 2016-05-25 | 2016-08-03 | 潘昌仁 | 将汉字转化为数字及拉丁字母的处理系统、方法和装置 |
-
2003
- 2003-10-30 CN CN 200310104499 patent/CN1612091A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824793A (zh) * | 2016-05-25 | 2016-08-03 | 潘昌仁 | 将汉字转化为数字及拉丁字母的处理系统、方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1023916C (zh) | 简繁五笔字根汉字输入系统 | |
CN1026525C (zh) | 智能五笔双拼码计算机汉字输入方法 | |
CN1015218B (zh) | 字根编码输入法及其设备 | |
CN1648828A (zh) | 去多义性语音输入系统和方法 | |
CN1342276A (zh) | 键盘输入设备、方法和系统 | |
CN101038508A (zh) | Gb拼音输入法 | |
CN1612091A (zh) | 字母形状匹配汉字输入方法 | |
CN87105564A (zh) | 一种汉字输入方法及其输入键盘 | |
CN85100868A (zh) | 多文种电脑 | |
CN1166997C (zh) | 汉字免拆分快速输入法 | |
CN1121645C (zh) | 音形字理码汉字输入方法 | |
CN1129058C (zh) | 仿真拼音汉字输入法 | |
CN1123819C (zh) | 计算机汉字键位码输入方法 | |
CN1055434A (zh) | 字符的图元输入方法及其键盘 | |
CN85100087A (zh) | 《中文声数编码》方案及其实现方法 | |
CN1108552C (zh) | 拼音汉字完善汉字法(phf) | |
CN1220127C (zh) | 双分汉字与双分输入法及合成字模 | |
CN1120408C (zh) | 一种计算机结构声读汉字输入方法 | |
CN1015751B (zh) | 计算机汉字十笔字拼写输入方法 | |
CN1109283C (zh) | 利用计算机键盘的拼音汉词编码输入法 | |
CN1374577A (zh) | 英文字母键盘和数字键盘通用汉字电脑输入法及其键盘 | |
CN1063370A (zh) | 一种汉语汉字的罗马字母拼写法及适用输入设备 | |
CN1026829C (zh) | 中文头尾码输入法及其键盘装置 | |
CN1324441C (zh) | 一种计算机汉字输入方法 | |
CN1409240A (zh) | 一种全新的表征万物和字词的音象形信息系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20050504 |
|
C20 | Patent right or utility model deemed to be abandoned or is abandoned |