CN1006251B - 词字二元编码输入汉字系统及键盘 - Google Patents
词字二元编码输入汉字系统及键盘 Download PDFInfo
- Publication number
- CN1006251B CN1006251B CN86107235.9A CN86107235A CN1006251B CN 1006251 B CN1006251 B CN 1006251B CN 86107235 A CN86107235 A CN 86107235A CN 1006251 B CN1006251 B CN 1006251B
- Authority
- CN
- China
- Prior art keywords
- word
- character
- code
- chinese
- initial consonant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
词字二元编确输入汉字系统及其键盘属于电脑中文信息处理技术领域,键盘是实施该技术的专用设备。中文信息处理的技术关键在于汉字输入,而汉字编码又是汉字输入的“瓶颈”。本发明采用以声代形和联想的方法,将基本字元定义在键盘上,减少了对字元的机械记忆。采用约定俗成的程式编码,好学易记。大量采用词组编码输入。平均码长为2、3键/字,输入速度可达150字/分。因而成为一种理想的实用的中文信息处理技术方案。
Description
词字二元编码输入汉字系统属于电脑中文信息处理技术领域,键盘是实施该技术的专用设备。
当今世界,已进入一个信息化迅速发展的时代,信息工程成为现代科学的三大支柱之一。根据我国国情,在纷繁浩瀚的信息中,主要是中文信息。我们要进行四个现代化建设,要实现办公室自动化、印刷排版现代化、图书情报检索自动化、生产和企业管理现代化,无不涉及中文信息。因而,解决中文信息处理技术问题已成为当务之急。
所谓中文信息处理,应当包括我国各民族的语言信息处理。不过,在各民族语言中,应用最广泛的是汉语,所以这里所谓中文信息处理主要是指汉语信息处理,更确切些讲主要是汉字信息处理。
由于汉字数量繁多,结构复杂,所以在汉字信息处理技术中,关键是汉字的输入技术问题。将汉字输入到计算机(或称电脑)有三种方式。即:语音识别、图形识别和键盘三种输入方式。根据目前情况,语音识别和图形识别输入仅处于试验研制阶段,还谈不上推广应用,主要靠键盘方式输入。键盘虽有大、中、小三种型号,由于大键盘和中键盘设备大投资多,所以也不便于推广。于是,目前解决汉字输入的途径,主要就靠小键盘编码输入这条狭窄的通道了。近年来国内外不言而喻地把“瓶颈”约定为“汉字编码”的代名词,形象而确切地说明了汉字编码在汉字信息处理技术中的重要地位和作用。
关于汉字编码学术研究,我国起步较迟,但发展迅速。近几年来已经研制出400多个方案,上机运行的已有50多种。影响较大的有:河南省计算中心王永民工程师发明的“五笔字型”方案;北京师大李金铠讲师发明的“笔形编码法”;上海工业大学钱伟长教授主持研制的“宏观字形”方案和北京水电部科研所李慧勤工程师发明的“HPX汉字拼形”方案。其中,“五笔字型”方案的主要技术指标:平均码长L=2.8键/字,输入速度:Sj=130字/分。其输入速度要比外文输入还快,鉴定会上专家一致认为已经达到了国际先进水平。但是,也还有不足之处,那就是这一方案不容易掌握,而且掌握后过一段又容易回生。
本发明的目的是:搞出一个大众易于接受、好学易记、平均码长键数少、输入速度快而且准确的汉字键盘编码输入方案。
本发明的目的是这样达到的:提出一种采用词和字两种码元编码,由两种输入法构成的电脑中文信息处理汉字系统以及为实现该系统而设计的以声代形、声形兼容、便于联想的二元输入键盘。
该系统具体是这样构成的:使用GB2312-80区位码和GB1988-80国标码作机内信息交换码,由开发的词字二元声形编码输入法(简称“CZ-Ⅱ)和字元形声编码输入法(简称“字元”)两种输入法构成一个完整的自成体系的汉字键盘编码输入系统,具体结构见图1,其有关程序连接见图2。
汉字编码的难点之一是对字元(亦称字根或部件)的记忆,以前众多方案均采用硬性定义,缺乏内在的联系,其机械记忆量很大。为了减轻对字元的机械记忆量,本发明的键盘是采用如下方法设计的:
1、将有独立名称的基本字元,按照声母定义图(即图3)定义在其名称第一音节声母所在的键位上;
2、将没有独立名称的基本字元,先给它定义一个便于联想的名称,然后按照字元名称联想图(即图4)定义在联想名称第一音节声母所在的键位上;
从而构成了以声代形、声形兼容、便于联想的二元输入键盘,即图6。
关于汉字的结构类型,是汉字编码的难点之二。“五笔字型”方案把汉字的结构拓朴图形归纳为四种字型。汉字结构如此之复杂,结构类型归纳得越少,每一类所包孕的实用字型就越多,应用起来就越困难。本发明适中地归纳为十类,每一类又包孕几种,计21种模图,每种模图按部位结构区域标了顺序号(即图7)。本系统的两种输入法,对于单字的编码、形码都是按结构部位取码,每一部位限取一码,且规定首、次部位取码从高从左、末一部位(包括二字元单字)取码从低从右。
在输入程式方面,本系统采用引导输入。所谓引导输入,就是击引导码后,仅在提示行先显示同码的字或词,再击选择码,才完成输入。对于单字的引导,已是“拼音”、“笔形”多种输入法早已应用的技术,本系统的特征是字词都是引导输入。引导码用字母键实现,选择码用数字键实现。其中“O”用“空格”键实现。引导出来的同码词按降频排列,同码单字按起笔笔形数字代码排列。也就是说:选择码既是单字码的结束符,又按起笔笔形代码定义图(图7)代表笔形信息。
汉字编码的最大难点在于编码原理,要研制出一种大众易于接受的编码原理,需要从大众约定俗成的描述汉语字词的程式中去汲取。我们欣慰地看到:火车上印有“YZ”的车厢,即“硬座”车厢;印有“RZ”的车厢即“软座”车厢;印有“RW”的车厢即“软卧”车厢;印有“XL”的车厢即“行李”车厢。河北石家庄生产的客车上印有“HB”即代表“河北”。国家标准书籍封面上印有“GB”即代表“国标”;河北电视台用“HBXW”表示“河北新闻”。从上述这些例子中悟出一条词组编码的规则,叫做“词组声序编码法”,就是把词组各音节的声母顺序排列编码即是人民大众易于接受的可读性很强的最佳词组编码。
对于一些较长的机关名称,大众也有一条约定俗成的简略规则,例如:国务院“电子振兴办公室”简称为“电振办”,“财务会计”简称为“财会”。“五讲四美三热爱”简称为“五四三”,“中文秘书专业”简称为“中秘专业”,“企业管理专业”简称为“企管专业”等等。从这些例子中我们又悟出一条词组简略规则,叫做“词组声序省略编码法”。也就是把词组一部分音节的声母省略后,再顺序编码。
上述约定俗成的规律,成为本发明的理论依据。本发明关于词和字输入的切换,不用功能键,而直接用引导码的位数控制:一位码或三位码为单字,二位码与四位码为词组,编码规则如下:
一、词组编码规则:
1、二位编码:
对于二音节高频词,用二位字母编码。第一位字母为第一音节的声母(或零声母音节的第一字母,以下同)。第二位字母为第二音节的声母。每一组引导码,可以引导10组一音节同声序词组。被引导出来的同声序词组按降频排列。用对应的数字键选择输入。包括选择键在内,这类词组平均码长为1.5键/字。例如:
引导码 被引导的词组
(注:在屏幕上显示的引导码是小写字母,被引导的二音节词组等于小于10组)。
2、四位编码:
2.1、二音节一般词组的编码:二音节一般词组用两个音节的声母再加上两个音节的首字元代码四位字母顺序编码作引导码。这样,先击两音节的声母,引导出二音节高频词组。如果其中没有所要输入的词组,接着击两个音节的首字元代码,即出现一般二音节词组,平均码长2键/字。例如:
引导码 被引导的词组
i g 0中国 1这个 2照顾 3中共 4只管 5直观 6主管 7壮观 8正规 9珍贵
igdu 0主观
2.2、三音节词组的编码:三音节词组用一 二 三音节的声母加上一个字母“O”补足四位,顺序编码。因为用“O”作声母的字不多,将它用在编码尾部_既使它符合词组码型又是“三音节词组”的标识符。平均码长1.33键/字。例如:
引导码 被引导的词组
gudo 0共产党
gMdo 0国民党
(注:引导码如果满足四位並且无同声序词组,则不用击选择键自动“跳”上屏幕,完成输入。)
2.3、四音节词组的编码:四音节词组用各音节的声母顺序编码。平均码长1键/字。例如:
引导码 被引导的词组
igrm 0中国人民
2.4、五音节词组的编码:五音节以上词组由于其音节数超过了规定的词组码型位数,故采用“词组音序省略编码法”,省去第二音节的声母,用一、三、四、五音节的声母顺序编码。平均码长0.8键/字。例如:
引导码 被引导的词组
igud 0中国共产党
wmfw O为人民服务
2.5、六音节词组的编码:六音节词组省去二、四音节的声母,用一、三、五、六音节的声母顺序编码作引导码。平均码长0.67键/字。例如:
引导码 被引导的词组
iryh O中国人民银行
inyh O中国农业银行
2.6、七音节词组的编码:七音节词组省去二、四、六音节的声母,用一、三、五、七音节的声母顺序编码作引导码,平均码长0.57键/行。例如:
引导码 被引导的词组
irgg O中华人民共和国
irjj O中国人民解放军
2.7、多音节词组的编码:七音节W上词组为多音节词组,对于多音节词组一律用一、三、五、末音节的声母编码,其平均码长小于0.5键/字。例如:
引导码 被引导词组
iixh O中国中文信息研究会
igit O中国共产主义青年团
igmh O中国国际贸易促进委员会
关于词组声形编码详见图8。
二、单字编码:
本发明对于单字的编码原理,也是汲取人民大众约定俗成的描述单字的程式制定的。比如:当人们描述姓张的“张”字,其程式为:“弓-长-张”;当描述合格的“合”字,其程式为:“人-一-口-合”。根据这样的程式,本发明开发了两种编码法:一种是从声开始,加上字的字形信息编码,叫做“声形编码法”;另一种是从形开始,用各部位的字形信息编码字形不足三位者以本字的声母补齐,叫做“形声编码法”。
1、声形编码法:声形编码法的基本程式为:“本字声母-首字元代码-尾字元代码”。具体分为两档:
1.1、高频字:应用频度高的单字称为高频字。对于高频字,仅用“本字”的声母一位码作引导码。每一引导码可引导出10个高频字。不过,其中用字母“O”引导的不是高频字,而是10个较常用的标点符号。同码高频字按其起笔笔形数字代码排列,同时用其代码作选择码,此类单字,平均码长为2键/字。例如:
引导码 被引导单字
i 0这 1正 2占 3重 4赵 5中 6只 7张 8着 9掌
b 0被 1不 2北 3白 4边 5捌 6吧 7比 8八 9半
1.2、一般独体字:对于一般独体字用“本字”声母、字首笔形代码和字尾笔形代码三位编码作引导码。加上选择码,平均码长4键/字。例如.
引导码 被引导的单字
bpx 3秉
1.3、一般合体字:对于一般合体字用“本字”的声母、首字元代码、尾字元代码三位编码作引导码,用字首笔形代码作选择码。平均码长4键/字。例如:
引导码 被引导的单字
vvg 4声
关于单字的声形编码,详见图8。
2、形声编码法:形声编码法从汉字的字形信息开始,选取各结构部位的字形代码,不足三位者加上“本字”的声母,补足三位。具体分三档。
2.1、高频字:这里所说的高频字是从形分析应用频度较高的字。对于高频字仅用首字元代码(独体字仅用字首笔形代码)作引导码。也用字首笔形代码选择,平均码长2键/字。例如:
引导码 被引导的单字
b 3的
t 5中
2.2、次高频字:对于次高频字用第一、二两个字元的代码(或独体字字首和字尾笔形的代码)作引导码,用字首笔形代码作选择码。例如:
引导码 被引导的单字
nz 4好
hh 3秋
2.3、一般二字元合体字:对于一般二字元合体字,用两个字元代码再加上“木字”的声母编码作引导码,用字首笔形代码选择。平均码长4键/字。例如:
引导码 被引导的单字
nvx 4姓
2.4、一般多字元合体字:三字元以上称为多字元合体字。对于多字元合体字,根据汉字结构模图(图7)所标部位,从每一部位各取一字元代码。前两个部位取码从高从左,最后一个部位取码从低从右。例如:
引导码 被引导的合体字
lke 0部
mnf 9数
rfx 3繁
关于单字形声编码详见图9。
三、模糊输入法:
对于上述两种输入法,系统软件支持,都可采用“模糊输入”。所谓“模糊”,即对某些信息搞不清楚。本系统设计的“模糊输入”必须知道第一位码,即“本字”声母或首字元代码。如果知道“本字”声母,就采用声形模糊输入;如果知道首字元代码就采用形声模糊输入。各有三种模糊形式。
1、声形模糊输入形式:
声=VVG(正常声形编码)
声=V?G(第二位码模糊)
声=VV?(第三位码模糊)
声=V??(第二、三位码模糊)
2、形声模糊输入形式:
形=KCX(正常形声编码)
形=K?X(对第二位码模糊)
形=KC?(对第三位码模糊)
形=K??(对第二、三位码模糊)
四、重码处理:
本系统开发的两种输入法,都有重码,虽然重码率不高,但总得处理。系统软件支持,击选择码后,如果有重码,不输入,而是按频度在提示窗再次显示,並报警。再击选择键,才完成输入。
综合上述四种输入法,构成一个独具特色的完整的汉字输入系统。参照系统操作流程图(即图10)可完成综合应用。在输入过程中,如果认识所要输入的字或词,就采用“CZ-Ⅱ”输入;如果不认识所要输入的字,则可改用“字元”输入;倘若对两种输入法中某些信息有模糊,只要知道“本字”的声母或者首字元代码,即可用“模糊输入法”输入。下面结合十二届六中全会公报结尾一段文字,进行编码模拟试验。
以上计137字,其中五音节词组出现两次、四音节词组出现六次、三音节词组出现两次、二音节词组出现三十三次高频单字出现二十次、一般单字仅出现六次。充分体现了以词组输入为主。包括选择键在内,共用219键,平均码长为1.6键/字。较系统平均码长2.3键/字要低一些。
该系统适用于各种型号的电字计算机,智能中英文打字机、电传打字机、汉字终端和电视、电影制作使用的电子字幕机。
本发明与现有技术相比,具有以下优点:
1、采用以声代形、声形兼容和联想的方法设计的词字二元编码输入键盘,便于联想,减轻了对字元的机械记忆量。
2、采用人民大众约定俗成的描述汉语字词的程式编码,易于接受,好学易记。
3、采用以词组编码输入为主,单字编码输入为辅、二元输入,两条腿走路的措施,使平均码长达到L=2.3键/字,使输入速度达到Sj=150字/分。
4、采用引导输入,用字首笔形代码作选择键,既是单字的结束符,又代表笔形信息。专业操作员可按规律盲打,一般操作员可依靠引导击键选择输入,兼顾普及与提高,一举两得。
5、本发明的新颖性在于所提出的词字二元编码理论是国内外第一次提出,填补了中外中文信息处理研究词字二元编码输入这项空白;其创造性在于词字二元输入的切换应用特定的字词引导码型控制;一位或三位为单字、二位或四位为词组;其实用性在于以词组编码输入为主的措施符合现代汉语语言应用实际。
本系统的缺点是占用内存多,约占300K。所以,实现本发明的最好方式是制作汉卡,那样可腾出更多的内存运行其它软件,使系统发挥汉字处理的特殊效益。
附图说明:
图1-系统结构框图
图2-系统有关程序连接图
KD-键盘输入驱动程序
CIP1-区位码输入程序
CIP2-国标码输入程序
CIP3-字元码输入程序
CIP4-CZ-Ⅱ码输入程序
TE-编辑程序
DD-显示驱动程序
图3-声母定义图
图4-字元名称联想图
图5-笔形代码图
图6-二元输入键盘图
图7-汉字部位结构模图
图8-词字二元声形编码一览表
图9-字元形声编码一览表
图10-系统操作流程图
Claims (11)
1、一种根据汉字的结构,声、形信息,采用字和词两种码元,采取以声代形的方案形成的二元输入中文电脑汉字信息处理系统及为实现该系统而设计的以声代形、声形兼容、便于联想的二元输入中文键盘,其特征在于将汉字按照部位结构归纳为十类计二十一种模图,作为取码方位的依据,将汉字的双字母声母zh、ch、sh分别用I、U、V替代,将字形分为有独立名称的基本字元、没有独立名称的基本字元和基本字元以外的非成字字元三类,利用以声代形的方法,对于单字采用“本字声母+首字元代码+尾字元代码”的基本公式编码结构,并用引导码的位数控制字与词切换的二元输入法,和按照上述特征设计的实用键盘。
2、根据权利要求1所述的汉字系统及实用键盘,其特征在于将汉字的结构按照部位归纳为:独立结构、上下结构、左右结构、上中下结构、左中右结构、全包围结构、上半包结构、侧半包结构、下半包结构和品字形结构十大类,其中上下结构又分正上下、下左右、上左右三种,上中下结构又分正上中下和下左中右两种,左中右结构又分正左中右、中上下、右上下三种,全包围结构又分中独立和中上下两种,上半包结构又分左上半包、正上半包、右上半包三种,下半包结构又分左下半包和正下半包两种,在所有模图上都标了取码序号,本系统的两种输入法,对于单字的编码,其形码按照结构部位取码,每一部位限取一码,前两个部位取码从高从左,末一部位取码从低从右。
3、根据权利要求1所述的汉字系统及其实用键盘,其特征在于关于单字本字的字音仅采用其声母作代码,零声母音节用第一字母作代码,其中,双字母声母zh、ch、sh别用在汉语拼音方案中不作声母和零声母音节第一字母使用的I、U、V三个字母替代。
4、根据权利要求1所述的汉字系统及其实用键盘,其特征在于编码方案中关于字元的形码是用如下四种方法定义的:
a.有独立名称的基本字元,如:“艹”(草字头儿)、“讠”(言字旁儿)、“扌”(提手儿)等用其名称的第一音节的声节的声母(如系零声母音节即用第一字母替代声母,下同)作代码,
c.以“Y”、“M”一类高频字母作代码的有传统名称的基本字,例如“雨”(雨字头儿)、“门”(门字框儿)定义一个用信息量少的字母作声母的名称,例如把“雨”叫做“霭字头儿”,把“门”叫做“问字框儿”,从而就把“雨”和“门”别用“A”和“W”作代码,
5、根据权利要求1所述的汉字系统及其实用键盘,其特征在于单字采用本字的声母和构成本字的首字元和末尾字元的代码为码元,采用“本字声母+首字元代码+尾字元代码”的基本公式编码,构成本系统的声形编码法,具体分为两档:高频字用“本字”的声母引导,在提示行提示出十个高频字,用对应的数字键选择输入,一般字用“本字的声母+首字元代码+尾字元代码”三个字母编码,一般独体字用“本字的声母+字首尾笔形代码+字尾笔形代码”三个字母编码。
6、根据权利要求1所述的汉字系统及其实用键盘,其特征在于词码采用组成该词的各音节的声母作词码元,用四位字母编码,其中,两字词用两个字的声母和两个字首字元代码编码,三字词用三个字的声母加上字母“0”编码,四字以上词组用前三个字和最末一个字的声母编码。
7、根据权利要求1、3和4所述的汉字系统及其实用键盘,其特征在于其实用键盘的声码键是按照权利要求3设计的,其形码键是按照权利要求4设计的,构成一个具中西文兼容、声形兼容的中文二元输入键盘。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN86107235.9A CN1006251B (zh) | 1986-10-19 | 1986-10-19 | 词字二元编码输入汉字系统及键盘 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN86107235.9A CN1006251B (zh) | 1986-10-19 | 1986-10-19 | 词字二元编码输入汉字系统及键盘 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN86107235A CN86107235A (zh) | 1988-04-27 |
CN1006251B true CN1006251B (zh) | 1989-12-27 |
Family
ID=4803530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN86107235.9A Expired CN1006251B (zh) | 1986-10-19 | 1986-10-19 | 词字二元编码输入汉字系统及键盘 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1006251B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1996011442A1 (fr) * | 1994-10-05 | 1996-04-18 | Shengyuan Wu | Procede de traitement de donnees de caracteres, et appareil associe |
-
1986
- 1986-10-19 CN CN86107235.9A patent/CN1006251B/zh not_active Expired
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1996011442A1 (fr) * | 1994-10-05 | 1996-04-18 | Shengyuan Wu | Procede de traitement de donnees de caracteres, et appareil associe |
Also Published As
Publication number | Publication date |
---|---|
CN86107235A (zh) | 1988-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1003890B (zh) | 安子介式汉字笔形电脑编码法及其键盘 | |
CN101751144A (zh) | 计算机键盘及数字键盘汉字“声形”输入法 | |
JPS5880729A (ja) | 漢字を入力する方法および装置 | |
CN1006251B (zh) | 词字二元编码输入汉字系统及键盘 | |
CN103376910A (zh) | 无重码双拼输入法 | |
CN103257720A (zh) | 一种中文键盘及基于该键盘的汉字输入法 | |
CN85100868B (zh) | 多文种电脑 | |
CN100498661C (zh) | 汉字2码全拼输入法 | |
CN1607492B (zh) | 数字式电子设备及使用该设备的汉语拼音输入法 | |
GB2238414A (en) | Symbol definition apparatus | |
CN1045878A (zh) | 计算机中文声数编码输入技术 | |
CN1004177B (zh) | 大符号集合坐标编码及输入技术 | |
CN1027839C (zh) | 中华双拼汉字编入的计算机键盘 | |
CN85108511B (zh) | 汉字国标码“压缩密码型”通讯编码方法 | |
CN1306375C (zh) | 中文键盘汉字输入法 | |
CN1327314C (zh) | 以外语为输入单位的计算机汉字编码输入方法 | |
CN111596770A (zh) | 一种新型拼音输入法以及对应的数字输入法 | |
CN1063856C (zh) | 一种拆字拼音的计算机输入键盘及其输入方法 | |
CN100498655C (zh) | 简化汉语拼音两键输入法 | |
CN1005435B (zh) | 一种能生成多种字体的汉字字模发生器 | |
CN1006018B (zh) | 一种汉语词输入方法及其键盘 | |
CN1206582C (zh) | 汉字输入法 | |
CN1460913A (zh) | 一码二形快速中文数字编码输入方法 | |
JPH0441399Y2 (zh) | ||
JPS6446156A (en) | Document producing/editing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C13 | Decision | ||
GR02 | Examined patent application | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C53 | Correction of patent of invention or patent application | ||
CB02 | Change of applicant information |
Address after: Hebei Handan City 4 Hospital No. 25 building 3 unit 3 Applicant after: Li Xingmin Address before: No. 86 Zhonghua North Street, Hebei, Handan Applicant before: Handan City Branch of the Democracy Promotion Association of China |
|
COR | Change of bibliographic data |
Free format text: CORRECT: APPLICANT; FROM: HANDAN BRANCH OF THE DEMOCRACY PROMOTION ASSOCIATION OF CHINA TO: LI XINGMIN |
|
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |