CN1262474A - 二十四部首汉字排序编码法及其键盘 - Google Patents
二十四部首汉字排序编码法及其键盘 Download PDFInfo
- Publication number
- CN1262474A CN1262474A CN 99115226 CN99115226A CN1262474A CN 1262474 A CN1262474 A CN 1262474A CN 99115226 CN99115226 CN 99115226 CN 99115226 A CN99115226 A CN 99115226A CN 1262474 A CN1262474 A CN 1262474A
- Authority
- CN
- China
- Prior art keywords
- code
- chinese
- stroke
- sign indicating
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 150000001875 compounds Chemical class 0.000 claims description 21
- 238000005498 polishing Methods 0.000 claims description 7
- 230000000877 morphologic effect Effects 0.000 claims description 5
- 238000013518 transcription Methods 0.000 claims description 5
- 230000035897 transcription Effects 0.000 claims description 5
- 241000282994 Cervidae Species 0.000 claims description 4
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 claims description 4
- 239000010931 gold Substances 0.000 claims description 4
- 229910052737 gold Inorganic materials 0.000 claims description 4
- 235000015170 shellfish Nutrition 0.000 claims description 4
- 239000002689 soil Substances 0.000 claims description 4
- 239000004575 stone Substances 0.000 claims description 4
- 239000002023 wood Substances 0.000 claims description 4
- 238000005096 rolling process Methods 0.000 claims description 3
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 claims description 2
- 230000007812 deficiency Effects 0.000 claims description 2
- 239000000835 fiber Substances 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 3
- 210000004556 brain Anatomy 0.000 description 7
- 230000008676 import Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 239000012467 final product Substances 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 235000019082 Osmanthus Nutrition 0.000 description 2
- 241000333181 Osmanthus Species 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000035515 penetration Effects 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 206010016173 Fall Diseases 0.000 description 1
- 241001448624 Miliaria Species 0.000 description 1
- 235000009827 Prunus armeniaca Nutrition 0.000 description 1
- 244000018633 Prunus armeniaca Species 0.000 description 1
- 235000019013 Viburnum opulus Nutrition 0.000 description 1
- 244000071378 Viburnum opulus Species 0.000 description 1
- 239000004411 aluminium Substances 0.000 description 1
- XAGFODPZIPBFFR-UHFFFAOYSA-N aluminium Chemical compound [Al] XAGFODPZIPBFFR-UHFFFAOYSA-N 0.000 description 1
- 229910052782 aluminium Inorganic materials 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000007799 cork Substances 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000004317 gizzard Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 150000007524 organic acids Chemical class 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
一种计算机汉字输入编码法及其键盘,根据汉字字形进行编码,将汉字笔画分为横、竖、撇、点、折五类并以数码1至5对应编码;采用特选的24个汉字常用部首并分布在键位上作为编码,再将一些常用汉字字根归类于这些特选部首,归类字根与对应的特选部首取同一编码;汉字编码以笔画和特选部首为笔形编码单元,加上汉字拼音码,可分别组成的形音四码、形音五码和全形码且无需切换。本发明系统规范,简明易学,高效好用,重码率极低,字词分流,适合面广。
Description
本发明涉及一种用于计算机汉字输入的编码及其键盘,也可以用于汉字排序和汉字字典检索。
目前国内外公布的汉字输入编码法已逾千种,总的情况是:输入速度快的不好学,容易学的输入速度慢,专业型方案与普及型方案难以统一。同时,汉字编码也没有和汉字排序、字典检索查字很好地结合起来。至今还没有一种公认的易学、快速、规范、适合在各类人员中普及推广的较理想的汉字编码方案。
“五笔字型”是以字形编码,优点是重码少,输入速度较快,对专职打字员是一个较实用的方案;缺点是难学难记,编码字根多,优选的125种字根实际有190多个,大多数非成字字根有形状而无统一的名称和读音,有的字根和汉字拆分不规范;一般需经专门训练并经常使用,方能熟练掌握,在广大非专职打字员和中小学生中难以普及。自然码以音为主,以形为辅,输入时以词为主导,字词混合编码,高频先见,选择同音词时利用软件智能处理,在输入词语时有一定优势;缺点是输入单字时需熟练掌握双拼代码及168个部首,记忆量仍偏大,同时用户需熟练掌握汉字拼音和读音标准,虽有南方音输入方式,但不能从根本上解决问题,难以在方言地区及中老年用户中普及。国内应用比较广泛、影响较大的其它汉字编码法虽各有特色,但都有改进而无突破,也都还存在着类似的一些不尽人意之处,如字词重码、字词混编、用户自定义词组不方便、不适应大字库汉字编码和繁体字编码等等,也没有做到把汉字排序与查字有机地结合起来,影响了进一步普及推广,而众多初学者和广大中小学生面临一个“选码难”的问题。
本发明的目的在于提供一种具有理论支持、系统规范、简明易学、高效好用、字词分流、适合面广的计算机汉字输入编码法及其键盘,用户在其同一编码体系中不用切换,即可兼容形音码、全形码等码式和繁体字编码,适合配置大字库及大词库,可预留用户词库专用编码空间,并与一种新式快速查字法高度统一,其编码本身具有相对独立性。本发明适合各种不同知识背景、各种不同输入方式(如看打、听打、想打)及方言地区的专职与非专职的用户,尤其适合中小学生学习使用。
本发明的技术方案如下:
本发明包括形音四码、形音五码和全形码,形音四码编码模式是本发明的首选方式和基础模式,该模式包括了形音码简体单字、形音码繁体单字、全形码简体或繁体单字、形音码词组输入等内容。形音四码汉字编码根据汉字字形进行编码,将汉字笔画分为横、竖、撇、点、折五类并以数码1~5对应编码;采用特选的二十四个汉字常用部首并分布在键盘键位上作为编码,再将一些常用汉字字根归类于这些特选部首之中,归类字根与对应的特选部首取同一编码;汉字编码以笔画和特选部首为笔形编码单元,加上汉字拼音码,所组成的形音四码编码包括:
(第一笔形码)+(字型码)+(第二笔形码)+(首音码)
(1)、将汉字分为独体字和合体字,独体字的第一笔形码取该字的首笔画加次笔画编码,第二笔形码取该字的末笔画编码;
(2)、合体字拆分为前偏、后旁二个部分,前偏取字的左、上、外部分,后旁取字的右、下、内部分;当前偏为特选部首或归类字根时,第一笔形码取该特选部首或归类字根之编码,否则第一笔形码取该前偏的首、次笔画;当后旁为特选部首或归类字根时,第二笔形码取该特选部首或归类字根之编码,否则第二笔形码取后旁的首、次笔画编码;对上下结构汉字,则第二笔形码取该字最下面第一个字根的首、次笔画编码,该字根为特选部首或归类字根则取相应编码;取笔形码时,若汉字笔画不足则以自定义的零码补足;本发明将特选部首和归类字根统称为模块;
(3)、首音码取汉字拼音的第一个字母;
(4)、将汉字结构分为独体型、左右型、外内型、上下型并定义相应的编码,作为汉字的字型码。
本发明将汉字字形分为整字、前偏后旁、字根、笔画四个层次,笔形码根据这四个层次进行拆分取码。
本发明为避免传统字形码的编码字根过多的缺陷,提出汉字形式化部首的概念,将汉字部首大幅度精简到24个,部首位置一律固定在合体字的左、上位置。本发明的特选部首包括:
王、艹、石、酉、车(車)、虫、忄、口、贝(貝)、日、禾、亻、、钅(金)、月、讠(言)、火、氵、衤、土、木、女、扌、纟(糹)
归类字根包括:
古、莫、丁、立、产、、山、辶、门、田、口、目、日、气、术、分、主、麻、鹿、士
本发明将汉字左半部为特选部首或汉字上半部为“艹、”且不带其它附加成分的汉字称为部首字,否则为非部首字;除部首为“艹、”的字外,其它部首字都为左右结构字。如″桂、呼″是部首字,″杰、郢″为非部首字。
本发明汉字编码所组成的全形码包括:
(第一笔形码)+(字型码)+(第二笔形码)+(第三笔形码)
其中的第三笔形码的取码规则如下:
(1)、独体字的第三笔形码取该字的第三、四笔画编码,对不足三画的独体字取零码补齐;如:十F8ZZ,三G8GZ,开G8HR,重T8GM,白R8GN,由M8GF,大D8YZ
(2)、合体字的第三笔形码取后旁第二个字根为特选部首或归类字根时则取相应编码,否则取该后旁第二字根的首、次笔画编码;
(3)、若合体字的后旁只有一个字根、前偏由两个或两个以上字根组成,前偏第二个字根为特选部首或归类字根时则第三笔形码取其相应编码,否则第三笔形码取该前偏第二字根的首、次笔画编码;
(4)、若按上述取码规则仍无第三笔形码,则用零码补齐。
全形码主要是针对追求高速盲打以“看打”为主要工作方式的专职打字员,其特点是不论字词,其常规编码不用音码,使打字员避免大脑在字形和字音之间来回的“软切换”;从文字序列视觉输入的方块汉字平面图形直接指挥空间脑(大脑右半球)动作,把与该动作对应的手指运动系列当作输出响应,而无需把此作业介入语言脑(大脑左半球)中。全形码对“看打”方式,由于思维单一,降低了脑思维活动,强化了手本能动作,大脑负担轻,容易训练成反射式击键,速度较快。而由于全形码与形音码之间的转换无需用户按键切换,用户可随心所欲进行编码输入。
本发明汉字编码所组成的形音五码编码包括:
(第一笔形码)+(字型码)+(第二笔形码)+(首音码)+(韵母码)
其中的首音码和韵母码组成完整的拼音码,在键盘上均设有对应的键码作为编码。形音五码向下兼容全形码、形音四码各种码式,包括简码、定码、特码等,不足五码者以空格键结束。形音五码是为了更适合“想打”方式,为大字库(如收字6万左右的古今全汉字集)、大词库(如十万以上的词库)拓展编码空间,也为了使汉字编码准文字化能达到或接近实用水平。形音五码重码少,编码空间可达1000万以上,可装大字库和特大词库(十万条以上),特别适合从事古籍整理及应用古文较多的用户。
为给汉字更好地合理排序,减少重码,本发明将部首字分出单列,在独体型、左右型、上下型、外内型四种基本字型中,将其中的左右型汉字又进一步细分为三种,一种是前偏为特选部首而后旁为上下型结构,简称为部上型字;一种是前偏为特选部首而后旁为非上下型结构,简称为部非型字;其它的左右结构汉字归为一种,简称为次左型字;则字型分为四类共六种,字型码包括六个码元;为避免编码方式的切换,在用于形音码简体字编码、形音码繁体字编码、全形码时分别采用键盘上不同的六个键码,具体对应关系如下:
部上型 部非型 次左型 上下型 外内型 独体型形音码简体字字型码 U I O L V A形音码繁体字字型码 1 2 3 4 5 6全形码汉字字型码 , . / ; 〔 8全形码汉字字型码符号 f1 f2 f3 f4 f5 f6六种字型的字例 铅桂 铁湖 很部船 古杏夯 国区为 天井重
本发明的字型码元在键盘上用三组不同的键符(字母、数字、符号)表示,使编码具有更大的灵活性。形音四码、形音五码的字型码采用U、I、O、L、V、A六字母,就与代表首音字母的19个键码划清了界限,互不混淆,使字词分流成为可能。而字型码采用数码1~6,即成为形音码繁体字输入方式,用户可非常方便地按简体或繁体字形输入,而输出的都是繁体字。例如″党″字既可按简体编码L4ED输入,又可按繁体″
″输入,输出皆为″
″。从而做到简繁兼容,简繁分流,简繁混排,更为灵活方便有效。全形码的字型码则充分利用键盘上的符号键,以f1~f6表示符号。形音四码简体或繁体字编码、全形码均为四码,第二码的字型码分别采用三组不同的键符,使各码式明显区别开来,因此这三种码式可互相混用,无需切换,不会相互重码,使汉字输入具有极大的灵活性。对专职录入员,为进一步减少重码,使高速盲打更加得心应手,本发明采用独创的无切换双码式共容互补技术,对所剩不多的重码字一法处理,即按形音码编码方式产生的一级汉字重码单独列出,改用全形码编码方式输入(反之亦然),则专职录入员不用增加太多的记忆量,可轻松地实现一级汉字零重码,单字动态重码率降至万分之一左右。
按上述单字编码法,都有一定数量的重码,若出现两字重码(三字重码的极少,亦可按下述方法处理,无四字以上重码),按字的使用频率,最常用的字分别选作一、二、三级简码字,较不常用的按正常编码,并排在选择行首位,可不用选择数字键直接上屏;有简码的高频字亦可按正常编码输入,但排在选择行第二或第三位,需用数字键选择,这样既能减少重码,又减轻了初学者的记忆负担,用多了自然就能记住哪些字要用简码输入,其动态重码率可降至1%以下。
本发明上述的特选部首、归类字根、五类笔画、笔形码的数字笔画码、首音码、韵母码在键盘上的分布如下:键码 特选部首 归类字根 笔画 笔形数码 首音字母 韵母Q 33 q iuW 钅(金) 分 34 w ia,uaE 月 35 z e,eiR 亻 32 r,a,e,o uan,üanT 禾 气 丿(撇) 31 t ue,üeY 讠(言) 主麻 丶(点) 41 y uaiU (空码) 42I 火 鹿 43 iO 氵 44 uo,oP 衤 45 p un,ünA 车(車) 15 aS 酉 丁 14 s ong,iongD 石 13 d uang,iangF 艹 古莫 12 f en,engG 王 一(横) 11 g uH 虫 立产 丨(竖) 21 h angJ 忄 山辶 22 j anK 口 门 23 k aoL 贝(貝) 田口 24 aiZ (零码) 00X 纟(糹) 55 x ieC 扌 54 c iaoV 女 53 uiB 木 术 52 b ouN 土 士 乙(折) 51 n,l in,ingM 日 曰目 25 m ian
其中的笔形数码既可作为笔形码代表特选部首、笔画或归类字根,也可作为拼音码代表相应的首音码或韵母码,构成全数字编码。
上述的笔形数码为两位数,在表示笔画码时每一位表示相应的笔画,如横竖笔画组合的数码为12;但横竖笔画组合分为横竖相交、横竖不相交两种,横竖相交笔画的编码码元为F(12),横竖不相交笔画归于S(14)。
结合附图可以更进一步说明本发明。
图1为本发明的汉字输入键盘布局图;
图2为本发明的笔形码在汉字方块结构中的取码位置示意图。
图1反映了本发明的特选部首、归类字根、字型码、笔画、数码在键盘上的分布状况。图2中列出了笔形码在对12种常见汉字结构取码的示例,图中每一种汉字结构中划分的若干个小格表示组成汉字的若干个字根,每一小格代表一个字根,小格中的数字表示所取笔形码的序号,″1、2、3″分别表示第一、二、三笔形码。例如图2G表示上中下型结构的汉字,如″章″字,第一笔形码取上层字根(前偏),第二笔形码取下层字根,第三笔形码职中层字根;图2H表示上中下型结构、下层为左中右结构汉字,如″嬴″字,其第三笔形码取下层之中间字根之编码;图2K表示外内型、内部为左右结构汉字,如″痱″字,第三笔形码取内部第二字根编码;图2L为外内型、内部为上下结构汉字,如″序″字,第三笔形码取内部最下一个字根编码。
关于五类笔画的具体说明如下:
笔画类型 | 1位数代码 | 2位数代码 | 键码 | 笔画走向 | 笔画及说明 |
横竖撇点折 | 12345 | 1121314151 | GHTYN | 左→右上→下右上→左下左上→右下(捺)带转折 | 一(横) (挑)丨(竖) (短竖) (竖左钩)丿(撇) (短撇)丶(点) (捺)带转折和钩(除竖左钩外)的笔画 |
其中的空码U除在单字编码第二码表示字型码外,处于其它位置时为空码。
本发明考虑到广大方言地区的人普通话读音不准,不仅对声母Z、C、S与ZH、CH、SH未加区分,对声母L与N也作了合并处理,统一于声母N,又将零声母字的首音A、E、O统统归于声母R(因为以R为声母的汉字较少),声母Z与ZH的首音Z改用字母E,键位Z作为零码。这样处理后,首音码被压缩到19个,使汉字集按首音码分布的频率大体上平均;而将腾出来的六个字母U、I、O、L、V、A分别对应数码1~6,作为字型码代表六种不同的字型,字母Z作为零码。正是由于19个首音码与6个字型码之间的巧妙分工,共容互补,为字词分流、简繁兼容、双码式共容(即在同一编码模式中,无需切换和加转换键,可任意用形音码或全形码输入同一个汉字而不致引起与其它编码混淆和重码)和一级汉字零重码创造了条件,也是本发明的特色。
在本发明中,笔画码可采用一位或两位数码,而特选部首、归类字根、首音字母、韵母等都与二位的笔形数码有着对应关系,因此本发明的三种汉字编码都可采用纯数字编码。如全形码将各笔形码及字型码取其数码作编码,构成七位数的全形数字码。这种纯数字编码适用于各种带有数字键的计算机设备,如计算器、电话、快译通、手机等体积小、只有数字键的设备。可利用词码、简码等,使数字码更为简洁实用。
本发明汉字编码设置了三级简码,其中:
(1)、一级简码共48个,其中24个最高频字取其首音码加空格键,另外24个次高频字取首音码加右单引号’键码;
(2)、二级简码编码取汉字的第一笔形码加首音码,再加空格键结束;以二级简码输入汉字二字词时,采用前定码和后定码:
前定码为:(首字第一笔形码)+(首字首音码)+(末字首音码)
后定码为:(首字首音码)+(零码Z)+(末字第一笔形码)+(末字首音码)
二级简码字不但考虑了字的使用频度,更兼顾了字的构词能力,多是构词能力很强的常用字,具有以字定词的功能,进而做到见码知字词。前定码和后定码可以一字确定二字词的前一字或后一字,这不但增加了二级简码字的实用性和趣味性,又丰富了二字词的构词编码方式,使编码方式更加灵活,为大词库二字词无重码创造了条件;只要记住了为数不多的一、二级简码字,通过以字定词滚雪球式的方式,使汉字编码向准文字化方向前进了一大步。
(3)、三级简码编码包括:
(第一笔形码)+(字型码)+(第二笔形码)+(空格键)。
三级简码字主要作为一级汉字中的多音字、重码字和少数容易读错音的字的编码,虽与二字词前定码同为三码,但第二码分别是首音码、字型码,不会混淆。
本发明根据全形码还可扩展出另一种汉字编码,称为全形半音码,它包括:
(汉字全形码)+(后旁首音码)
其中的后旁首音码为汉字后旁之成字字根的汉语拼音首音码;若后旁不成字,取后旁中第一个成字字根的拼音首音码;若后旁中无成字字根,则后旁首音码取零码Z补齐。后旁首音码称为半音码。对于收字20902个汉字的国际标准汉字集和有六万多字的全汉字集等大字库集,全形半音码能使重码大大减少,又使拆字选码大为简化,更有利于大字集非常用字的盲打输入。例如:
酩S1EKM,舫Q3YVF,螅H1RPX,胗E1WQZ
形音五码和全形半音码单字输入向下兼容四码方式全形码、形音码及简码,不足五码者以空格键结束。可用三种不同码式自由混合使用,不用切换,互不重码;无切换双码式共容互补更发展到无切换三码式共容互补。
本发明对应各种类型编码设有词组输入法,分别以形音四码、全形码、形音五码为基础形成三种汉字词组输入法:
(1)、形音四码的词组输入规则为:
1A、二字词编码为:
(首字第一笔形码)+(首字首音码)+(末字首音码)+(末字第一笔形码)
该码式将两字首音码放在中间连在一起,有利于编码时减少思维在音与形之间来回反复的“软切换”,可提高输入速度,减轻大脑负担,更有利于“想打”方式。例如:汉字OHEO,编码XBMD,笔记QBJY,程度TCDY,印刷EYSN。
二字词简码编码为:(首字首音码)+(末字首音码)+(右单引号’键码)
二字词特码编码为:
(首字首音码)+(末字首音码)+(空码U)+(末字第一笔形码)
由于二字词特码的第三码为空码,不会与其它任何字词编码相混,特码的作用是使二字词编码方式多元化,消除二字词重码,使词组输入更加简便快捷。二字词编码由于有常规编码、简码、特码、前定码、后定码等多种码式,互不混淆,字词也无重码,从而可使超过三万以上的二字词词库重码率为零,使字词总重码率接近零,使高速盲打速度达到最大。
1B、三字词编码为:
(第一字首音码)+(第二字首音码)+(第三字首笔画码)+(第三字首音码)
其中的笔画码分别以键盘上的“,. / ;〔 ”五键代表五类基本笔画“横、竖、撇、点、折”的笔画码,对应符号为f1~f5,但在编码书写形式中,仍用数字1~5表示;例如:共产党GC2D,解放军JF4J,研究生YJ3S,有机酸YJ1S。
1C、四字词编码按顺序分别取四字首音码加数码8,数码8为四字词词型识别码;四字词定码编码则按顺序分别取四字的首音码加右单引号’键码;四字词编码的平均码长只有五,由于四字词专用编码空间达12万以上,不但可容纳所有常用四字词和成语,还可将常用的两个连续的二字词改用四字词编码方式表示,大大提高输入速度。例如:一见如故YJRG8,中国地理EGDN8,银行帐号YHEH8,努力工作NNGE8。四字词定码方式既可分化四字词可能产生的重码,又可使编码本身具有一定的可识别性(结合上下文及首音提示,一般都可以确认或猜出)。
1D、多字词编码按顺序分别取第一、二、三、末字的首音码加数码9,数码9为多字词词型识别码;如:国家标准局GJBJ9,中华人民共和国EHRG9。
(2)、全形码的词组输入规则为:
2A、二字词编码为:
(首字第一笔形码、第二笔形码)+(末字第一笔形码、第二笔形码)
该编码方式可同时兼容形音码的二字词简码、定码与特码,用户可自由混合使用,互不重码。
2B、三字词编码为:
(第一字、第二字、第三字的第一笔形码)+(第三字第二笔形码)
2C、四字词编码为按顺序取各字的第一笔形码;
2D、多字词编码按顺序分别取第一、二、三、末字的第一笔形码;
上述全形码可分别兼容形音码三字词、四字词、多字词输入方式,可自由混合使用,无需切换,互不重码。
(3)、形音五码的词组输入规则为:
3A、二字词编码为:
(首字第一笔形码)+(首字首音码、韵母码)+(末字首音码、韵母码)
二字词简码编码为:(首字首音码)+(末字首音码)+(右单引号’)
二字词前定码编码为:
(首字第一笔形码、首音码)+(空码U)+(末字首音码、韵母码)
见码既能确定首字,又可知末字读音;例如:人口WRUKB
二字词后定码编码为:
(首字首音码)+(零码Z)+(首字韵母码)+(末字第一笔形码、首音码)
此码式首字可知读音,末字可以确定;例如:青春QZNGC
3B、三字词编码为:
(第一字首音码)+(第二字首音码)+(第三字首音码、韵母码)+(空码U)
3C、四字词编码为按顺序取各字的首音码加数码8;
3D、多字词编码为取第一、二、三、末字的首音码加数码9。
本发明的词组编码实现了字词分流,字词无重码,词与词之间接近零重码。
为消除用户自定义词与词库中词的重码,使个人词库的拓展不受限制,本发明利用独有的零码和空码,为用户自定义词组设置专用编码,为个人词库预留了足够的专用编码空间,使自造词不会与字库、词库中原有的字词重码。其编码方式为:
(1)、二字词编码为:
(空码U)+(首字首音码)+(末字首音码)+(末字第一笔形码)
(2)、三字词编码为:(零码Z)+(第一、二、三字的首音码)
(3)、四字词和多字词的编码为:(零码Z)+(第一、三、末字的首音码)。
由于第一码采用零码或空码,既与字库词库中原有的字词划清了界限,互不重码,又可作为个人词库的提示码。
本发明将汉字排序与字典查字有机地结合起来,定义5位数字和1个字母组成汉字检索简码,取码直观快捷,易学好用,查字一步到位,直接翻页。编码规则为:
(1)、独体字:先取首笔画与次笔画之数字码共二位数字,若只有一个笔画的字,则取该笔画的二位数字码。如″乙″字为51。次取独体字字型数字码6,再取末笔画二位数字码,共计五位数字。若字的笔画数不超过两笔,末笔画为零码,用数字00补齐五位数字。最后加上该字首音码字母,即为独体字检索简码。例如:
一11600Y,乙51600Y,二11600R,干11621G,重31611E,秉31641B,吏14641N
在检索简码中,除24个特选部首和20个归类字根以外的所有独体字、不成字独体结构(字根)都只取首、次、末三个笔画编码,不再拆为其它字根。这种拆分原则简明方便,笔顺完全符合汉字书写规范,彻底避免了汉字拆分的不确定性。
(2)、合体字:部首字先取部首的二位数字代码,非部首字先取前偏的首笔画与次笔画的数字码(前偏首字根为归类字根时则取该字根的二位数码);其次是取该字字型数字码,再取后旁的首笔画与次笔画的数字码(后旁取码位置为归类字根时职该字根的二位数码,上下型汉字后旁按最下面一个字根取码),共计5位数字,最后再加上该字首音码,即为该合体字的检索简码。例如:
铝34123N,铁34231T,湘44252X,桂52151G,苦12123K,笔33231B,筑33214E
部首之检索简码首码取该部首之二位数字码,加100A,即为该部首之检索简码,如:王11100A,女53100A。
归类字根之检索简码首码取所在键位之二位数字码,再加110,若归类字根成字,其末码为该字之首音码,若归类字根不成字,其末码为字母V。如:
立21110N,21110V,辶22100V
特选部首与归类字根形音码编码亦按上述原则处理,将其检索简码前五位数字改为相应的三个字母即可。如:″王″的检索简码为11100A,形音码为GUZA;″辶″的检索简码为22100V,形音码为JUZV。
按检索简码查字,简明易学,快速好用,部首及取码位置固定,不用思量,不数笔画,一步到位,直接翻页,比查英文字典还快还好用。独体字只需按首、次、末三笔查字,无难检字,不认识的字按字形五位数字直接翻页查字,在同数码字中查找,即使不加首音码,检索简码同数码字也很少,一般不超过十个,都排在一起,极容易找到所要查的字,同部首的字也排在一起,使检索非常方便,其查字速度比传统部首法快五到十倍,比四角号码法简明易学,无难字,重码少。更为重要的是,该查字法与计算机汉字输入法高度统一,略加变通,即成为形音码,可见字知码,在键盘上按码输入汉字;汉字以数字为主排序,比按英文字母排序更符合中国国情和中国人的心理习惯,更富有中国特色。
以七位的全形数字码组成检索全码,用于汉字排序检索及字典查字(同码者按笔画数和横、竖、撇、点、折的五笔顺序排序)。检索简码适用与小型辞书,例如《新华字典》,检索全码适用于大型辞书,如《康熙字典》。任何入只要学会了本发明的查字法(只要有一本编码字典,无需上机,方便易行),也就学会了计算机汉字编码;由于该查字法简单,易学,实用,规律性好,记忆量少,符合文字规范,尤其适合中小学生学习。
综上所述,本发明以对汉字规律的深刻认识为基础,考虑中国的国情和现实需要,从汉字排序、检索、编码的特定角度,全面系统地分析研究与整体把握汉字的本质特征,首次提出了“汉字是形音互补的平面文字、汉字字形分解四层次理论、前偏后旁、形式化部首、拼音首音归类合并、零码和空码、大脑软切换”等一系列全新的概念和理论,巧妙利用六个字型码的三组不同键符安排,与19个首音码互不干扰,独创了“汉字24部首排序查字、字词分流、词型分流、元切换双码式共容互补、个人词库专用编码空间、以字定词、以词定词”等全新技术,不但字词之间绝无重码(字的第二码为字型码,词的第二码是首音码),词与词之间的重码也极少。本发明具有深厚的理论支持,汉字编码系统规范,重码率极低,简明易学,高效好用,字词分流,适合面广;用户在其同一编码体系中不用切换,即可兼容形音码、全形码等码式和繁体字编码,适合配置大字库及大词库,可预留用户词库专用编码空间,并与一种新式快速查字法高度统一,其编码本身具有相对独立性;键位布局充分考虑指法的谐调性,符合人机工程学原理本发明适合各种不同知识背景、各种不同输入方式(如看打、听打、想打)及方言地区的专职与非专职的用户,尤其适合中小学生学习使用。
Claims (10)
1、一种用于计算机汉字输入的编码法及其键盘,根据汉字字形进行编码,其特征在于将汉字笔画分为横、竖、撇、点、折五类并以数码1~5对应编码;采用特选的二十四个汉字常用部首并分布在键盘键位上作为编码,再将一些常用汉字字根归类于这些特选部首之中,归类字根与对应的特选部首取同一编码;汉字编码以笔画和特选部首为笔形编码单元,加上汉字拼音码,所组成的形音四码编码包括:
(第一笔形码)+(字型码)+(第二笔形码)+(首音码)
(1)、将汉字分为独体字和合体字,独体字的第一笔形码取该字的首笔画加次笔画编码,第二笔形码取该字的末笔画编码;
(2)、合体字拆分为前偏、后旁二个部分,前偏取字的左、上、外部分,后旁取字的右、下、内部分;当前偏为特选部首或归类字根时,第一笔形码取该特选部首或归类字根之编码,否则第一笔形码取该前偏的首、次笔画;当后旁为特选部首或归类字根时,第二笔形码取该特选部首或归类字根之编码,否则第二笔形码取后旁的首、次笔画编码;对上下结构汉字,则第二笔形码取该字最下面第一个字根的首、次笔画编码,该字根为特选部首或归类字根则取相应编码;取笔形码时,若汉字笔画不足则以自定义的零码补足;
(3)、首音码取汉字拼音的第一个字母;
(4)、将汉字结构分为独体型、左右型、外内型、上下型并定义相应的编码,作为汉字的字型码。
2、根据权利要求1所述的编码法及其键盘,其特征在于特选部首包括:
王、艹、石、酉、车(車)、虫、忄、口、贝(貝)、日、禾、亻、、钅(金)、月、讠(言)、火、氵、衤、土、木、女、扌、纟(糹)
归类字根包括:
古、莫、丁、立、产、、山、辶、门、田、口、目、日、气、术、分、主、麻、鹿、士
3、根据权利要求1所述的编码法及其键盘,其特征在于汉字编码所组成的全形码包括:
(第一笔形码)+(字型码)+(第二笔形码)+(第三笔形码)
其中的第三笔形码的取码规则如下:
(1)、独体字的第三笔形码取该字的第三、四笔画编码,对不足三画的独体字取零码补齐;
(2)、合体字的第三笔形码取后旁第二个字根为特选部首或归类字根时则取其相应编码,否则取该后旁第二字根的首、次笔画编码;
(3)、若合体字的后旁只有一个字根、前偏由两个或两个以上字根组成,前偏第二个字根为特选部首或归类字根时则第三笔形码取其相应编码,否则第三笔形码取该前偏第二字根的首、次笔画编码;
(4)、若按上述取码规则仍无第三笔形码,则用零码补齐。
4、根据权利要求1所述的编码法及其键盘,其特征在于汉字编码所组成的形音五码编码包括:
(第一笔形码)+(字型码)+(第二笔形码)+(首音码)+(韵母码)
其中的首音码和韵母码组成完整的拼音码,在键盘上均设有对应的键码作为编码。
5、根据权利要求1或2或3或4所述的编码法及其键盘,其特征在于在独体型、左右型、上下型、外内型四种基本字型中,将其中的左右型汉字又分为三种,一种是前偏为特选部首而后旁为上下型结构,简称为部上型字;一种是前偏为特选部首而后旁为非上下型结构,简称为部非型字;其它的左右结构汉字归为一种,简称为次左型字;则字型分为四类共六种,字型码包括六个码元;为避免编码方式的切换,在用于形音码简体字编码、形音码繁体字编码、全形码时分别采用键盘上不同的六个键码,具体对应关系如下:
部上型 部非型 次左型 上下型 外内型 独体型形音码简体字字型码 U I O L V A形音码繁体字字型码 1 2 3 4 5 6全形码汉字字型码 , . / ; 〔 8全形码汉字字型码代码 f1 f2 f3 f4 f5 f6
6、根据权利要求1或2或3或4所述的编码法及其键盘,其特征在于特选部首、归类字根、五类笔画、笔形码的数字笔画码、首音码、韵母码在键盘上的分布如下:键码 特选部首 归类字根 笔画 笔形数码 首音字母 韵母Q 33 q iuW 钅(金) 分 34 w ia,uaE 月 35 z e,eiR 亻 32 r,a,e,o uan,üanT 禾 气 丿(撇) 31 t ue,üeY 讠(言) 主麻 丶(点) 41 y uaiU (空码) 42I 火 鹿 43 iO 氵 44 uo,oP 衤 45 p un,ünA 车(車) 15 aS 酉 丁 14 s ong,iongD 石 13 d uang,iangF 艹 古莫 12 f en,engG 王 一(横) 11 g uH 虫 立产 丨(竖) 21 h angJ 忄 山辶 22 j anK 口 门 23 k aoL 贝(貝) 田囗 24 aiZ (零码) 00X 纟(糹) 55 x ieC 扌 54 c iaoV 女 53 uiB 木 术 52 b ouN 土 士 乙(折) 51 n,l in,ingM 日 曰目 25 m ian
其中的笔形数码既可作为笔形码代表特选部首、笔画或归类字根,也可作为拼音码代表相应的首音码或韵母码。
7、根据权利要求1所述的编码法及其键盘,其特征在于汉字编码设置了三级简码,其中:
(1)、一级简码共48个,其中24个最高频字取其首音码加空格键,另外24个次高频字取首音码加右单引号’键码;
(2)、二级简码编码取汉字的第一笔形码加首音码,再加空格键结束;以二级简码输入汉字二字词时,采用前定码和后定码:
前定码为:(首字第一笔形码)+(首字首音码)+(末字首音码)
后定码为:(首字首音码)+(零码Z)+(末字第一笔形码)+(末字首音码)
(3)、三级简码编码包括:
(第一笔形码)+(字型码)+(第二笔形码)+(空格键)。
8、根据权利要求1或3所述的编码法及其键盘,其特征在于汉字编码包括:
(汉字全形码)+(后旁首音码)
其中的后旁首音码为汉字后旁之成字根的汉语拼音首音码;若后旁不成字,取后旁中第一个成字字根的拼音首音码;若后旁中无成字字根,则后旁首音码取零码Z补齐。
9、根据权利要求1或3或4所述的编码法及其键盘,其特征在于分别以形音四码、全形码、形音五码为基础形成三种汉字词组输入法:
(1)、形音四码的词组输入规则为:
1A、二字词编码为:
(首字第一笔形码)+(首字首音码)+(末字首音码)+(末字第一笔形码)
二字词简码编码为:(首字首音码)+(末字首音码)+(右单引号’键码)
二字词特码编码为:
(首字首音码)+(末字首音码)+(空码U)+(末字第一笔形码)
1B、三字词编码为:
(第一字首音码)+(第二字首音码)+(第三字首笔画码)+(第三字首音码)
其中的笔画码分别以键盘上的“,. / ;〔 ”五键代表五类基本笔画“横、竖、撇、点、折”的笔画码;
1C、四字词编码按顺序分别取四字首音码加数码8,数码8为四字词词型识别码;四字词定码编码则按顺序分别取四字的首音码加右单引号’键码;
1D、多字词编码按顺序分别取第一、二、三、末字的首音码加数码9,数码9为多字词词型识别码;
(2)、全形码的词组输入规则为:
2A、二字词编码为:
(首字第一笔形码、第二笔形码)+(末字第一笔形码、第二笔形码)
2B、三字词编码为:
(第一字、第二字、第三字的第一笔形码)+(第三字第二笔形码)
2C、四字词编码为按顺序取各字的第一笔形码;
2D、多字词编码按顺序分别取第一、二、三、末字的第一笔形码;
(3)、形音五码的词组输入规则为:
3A、二字词编码为:
(首字第一笔形码)+(首字首音码、韵母码)+(末字首音码、韵母码)
二字词简码编码为:(首字首音码)+(末字首音码)+(右单引号’)
二字词前定码编码为:
(首字第一笔形码、首音码)+(空码U)+(末字首音码、韵母码)
二字词后定码编码为:
(首字首音码)+(零码Z)+(首字韵母码)+(末字第一笔形码、首音码)
3B、三字词编码为:
(第一字首音码)+(第二字首音码)+(第三字首音码、韵母码)+(空码U)
3C、四字词编码为按顺序取各字的首音码加数码8;
3D、多字词编码为取第一、二、三、末字的首音码加数码9。
10、根据权利要求1所述的编码法及其键盘,其特征在于为用户自定义词组设置专用编码,其中:
(1)、二字词编码为:
(空码U)+(首字首音码)+(末字首音码)+(末字第一笔形码)
(2)、三字词编码为:(零码Z)+(第一、二、三字的首音码)
(3)、四字词和多字词的编码为:(零码Z)+(第一、三、末字的首音码)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB991152263A CN1141633C (zh) | 1999-01-22 | 1999-01-22 | 计算机二十四部首汉字排序输入法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB991152263A CN1141633C (zh) | 1999-01-22 | 1999-01-22 | 计算机二十四部首汉字排序输入法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1262474A true CN1262474A (zh) | 2000-08-09 |
CN1141633C CN1141633C (zh) | 2004-03-10 |
Family
ID=5278230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB991152263A Expired - Fee Related CN1141633C (zh) | 1999-01-22 | 1999-01-22 | 计算机二十四部首汉字排序输入法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1141633C (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1327313C (zh) * | 2003-01-09 | 2007-07-18 | 孙国 | 计算机汉字十大结构符型输入法 |
CN100342310C (zh) * | 2002-10-24 | 2007-10-10 | 陈劲松 | 二分汉字编码小键盘输入及其显示方法 |
CN100342312C (zh) * | 2002-10-24 | 2007-10-10 | 陈劲松 | 平行拆分式汉字编码小键盘输入及其显示方法 |
CN100342311C (zh) * | 2002-10-24 | 2007-10-10 | 陈劲松 | 根拆式汉字输入及其显示方法 |
CN100385373C (zh) * | 2002-11-12 | 2008-04-30 | 陈劲松 | 六元平拆式小键盘输入方法 |
CN100555183C (zh) * | 2007-01-22 | 2009-10-28 | 徐贤笃 | 汉字输入法 |
CN102750009A (zh) * | 2012-08-02 | 2012-10-24 | 支前明 | 一种无切换汉字输入法及键盘 |
CN104765837A (zh) * | 2015-04-16 | 2015-07-08 | 刘立德 | 汉字字首排检及信息处理方法 |
CN106445181A (zh) * | 2016-05-13 | 2017-02-22 | 深圳市熊天科技有限公司 | 一种输入法 |
-
1999
- 1999-01-22 CN CNB991152263A patent/CN1141633C/zh not_active Expired - Fee Related
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100342310C (zh) * | 2002-10-24 | 2007-10-10 | 陈劲松 | 二分汉字编码小键盘输入及其显示方法 |
CN100342312C (zh) * | 2002-10-24 | 2007-10-10 | 陈劲松 | 平行拆分式汉字编码小键盘输入及其显示方法 |
CN100342311C (zh) * | 2002-10-24 | 2007-10-10 | 陈劲松 | 根拆式汉字输入及其显示方法 |
CN100385373C (zh) * | 2002-11-12 | 2008-04-30 | 陈劲松 | 六元平拆式小键盘输入方法 |
CN1327313C (zh) * | 2003-01-09 | 2007-07-18 | 孙国 | 计算机汉字十大结构符型输入法 |
CN100555183C (zh) * | 2007-01-22 | 2009-10-28 | 徐贤笃 | 汉字输入法 |
CN102750009A (zh) * | 2012-08-02 | 2012-10-24 | 支前明 | 一种无切换汉字输入法及键盘 |
CN104765837A (zh) * | 2015-04-16 | 2015-07-08 | 刘立德 | 汉字字首排检及信息处理方法 |
CN104765837B (zh) * | 2015-04-16 | 2019-09-13 | 刘立德 | 汉字字首排检及信息处理方法 |
CN106445181A (zh) * | 2016-05-13 | 2017-02-22 | 深圳市熊天科技有限公司 | 一种输入法 |
Also Published As
Publication number | Publication date |
---|---|
CN1141633C (zh) | 2004-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1141633C (zh) | 计算机二十四部首汉字排序输入法 | |
CN1137432C (zh) | 快易码汉字输入法 | |
CN1148637C (zh) | 一种通用数字键盘拼音文字的精确输入方法 | |
CN1034245C (zh) | 缅文字型智能四码输入系统 | |
CN1081004A (zh) | 汉字结构笔顺数字编码方法 | |
CN1072785A (zh) | 无理序号数字综合编码法及其键盘 | |
CN101038517A (zh) | 一种汉字形声编码输入法 | |
CN1196057C (zh) | 一码二形数字编码汉字输入方法 | |
CN1257445C (zh) | 音义码汉字输入方法 | |
CN100339808C (zh) | U码汉字输入法 | |
CN1023843C (zh) | 双位中文电脑键盘的中文输入技术 | |
CN1272693C (zh) | 仿真拼音数字输入法 | |
CN1420422A (zh) | 码元用笔划集合数表示法及用途 | |
CN1530805A (zh) | 中华形码汉字输入系统 | |
CN1060277C (zh) | 以句子为输入单位的计算机汉字编码输入方法 | |
CN1167994C (zh) | 一二三四输入法 | |
CN1244671A (zh) | 数符汉字编码输入法及键盘 | |
CN1538278A (zh) | 一种数码汉字输入法及其键盘 | |
CN1160883A (zh) | 声双码计算机汉字输入法 | |
CN1082217A (zh) | 声形位汉字输入系统 | |
CN1074296A (zh) | 一种汉语声韵音位汉字编码方法 | |
CN1171573A (zh) | 汉字词综合编码及键盘输入法 | |
CN1584804A (zh) | 数字键盘汉字输入法 | |
CN1095502A (zh) | 字元谱汉字编码法(炎黄码)及其键盘 | |
CN1416039A (zh) | 电脑速记易捷码汉字输入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |