[go: up one dir, main page]

CN1109283C - 利用计算机键盘的拼音汉词编码输入法 - Google Patents

利用计算机键盘的拼音汉词编码输入法 Download PDF

Info

Publication number
CN1109283C
CN1109283C CN97113313A CN97113313A CN1109283C CN 1109283 C CN1109283 C CN 1109283C CN 97113313 A CN97113313 A CN 97113313A CN 97113313 A CN97113313 A CN 97113313A CN 1109283 C CN1109283 C CN 1109283C
Authority
CN
China
Prior art keywords
chinese
speech
joint
alphabet
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN97113313A
Other languages
English (en)
Other versions
CN1172983A (zh
Inventor
赵延胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN 96107547 external-priority patent/CN1142077A/zh
Application filed by Individual filed Critical Individual
Priority to CN97113313A priority Critical patent/CN1109283C/zh
Publication of CN1172983A publication Critical patent/CN1172983A/zh
Application granted granted Critical
Publication of CN1109283C publication Critical patent/CN1109283C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种利用计算机键盘的拼音汉词编码输入方法,该方法是将汉字按其声母、韵母和节调进行编码,将其声母、韵母、节调均用标准英文字母代替,按声母、韵母、节调顺序编码输入计算机即可;这种编码方法是一种在字处理基础上的词句音义汉字编码键盘输入方法,提供了新的汉字编码形式“拼音汉词”和“句言”,汉词、句读、拼音汉词和句言的数学化方法,可以为语言信息处理、汉语信息处理和汉字信息处理提供方法;本发明在不使用人工选字的前提下,使汉字编码无重码,可以读。

Description

利用计算机键盘的拼音汉词编码输入方法
本发明涉及一种利用计算机键盘的汉字编码输入方法。属于计算机汉字信息处理领域。
汉字小键盘输入方法中,按汉字编码所依据的汉字属性来划分,有形码、音码、形音码、音形码四大类。上述汉字编码方法各有利弊,解决问题也多少不同,各种有关介绍很多。上述编码有三个共同的缺点:一是对重码汉字,普遍使用人工选字,给众多使用者造成不便;二是汉字编码不能象英文词那样方便地输入计算机,给计算机普及带来困难;三是各种汉字编码方法,都不能促进汉字信息处理各种应用总是的解决。例如,由周志农先生发明的“自然码输入法”就很有名,主要缺点是:自然码的拼音编码方法,使用人工选字解决重码问题,不能象使用英文词一样方便,汉语分词问题没有解决;自然码的形义编码方法,不能为汉字信息处理各种各样应用问题的解决,提供一个良好的环境。
本发明的目的是为了提供一种可解决汉字信息处理各种应用问题、以字处理为基础、同时进行词句处理、无重码、可以句读的利用计算机键盘的汉字编码输入方法。为此,提供一种新的汉字编码单位“汉词”,在汉字信息处理和汉字编码中,汉词可以对中文语料进行穷尽切分;提供一种新的汉字编码形式拼音汉词,拼音汉词在分词连写、可句读、不使用人工选字、输入跟英文词差不多的条件下,使汉字编码无一个重码;提供一种适宜拼音汉词简码输入的小键盘,以便提供高输入速度;拼音全码使用国际通用的标准小键盘。
本发明的目的可通过如下措施来实现:
一种利用计算机键盘的拼音汉词编码输入方法分为全码和简码两种方式;全码和简码的键盘输入均采用汉词的声母、韵母、节调对应计算机键盘上的字母按上述顺序输入;其中全码和简码声母、节调相同,只有韵母不同;声母采用传统汉语拼音的21个声母外加五个“无读音”的a、i、e、o、u声母共组成26个声母,将26个声母对应分布在计算机键盘上对应的字母键上,汉语拼音中声母“zh、ch、sh”分别用字母“y、w、v”代替;节调按照汉语拼音的“声调”即分为阴平、阳平、上声、去声四类;在每一节调中按类义名称又分为实物名词、抽象名词、代时名词、动作名词、静态名词、过程动词、备用六种,其中每一类节调又按类义名称对应计算机键盘上的字母,阴平、阳平的类义名称“备用”为同一字母,上声、去声的类义名称“备用”为同一字母;全码和简码的韵母不同,其中全码的韵母为38个,每个韵母由键盘上的两个字母代替;简码的韵母为26个,对应计算机上的标准英文键盘的字母;采用全码和简码输入汉词时按汉语习惯分为单音节汉词和双单节汉词;单音节汉词编码采用声母+韵母+节调顺序输入;双单节汉词采用声母+韵母+节调+声母+韵母+节调顺序输入;其中节调输入又分为“字频排序法”和“字义排序法”两种,“字频排序法”是按照汉字的使用频度大小从节调字母顺序依次取字母;“字义排序法”是按节调并对应其类属意义即上述各种“名词”和“动词”取字母。
所述的全码韵母对应的英文字母如下:er-eh、a-al、o-oj、e-ef、ai-ak、ê、ei-ec、ao-ag、ou-od、an-am、en-en、ang-at、eng-eb、ong-oy、i-ih、ia-il、ie-if、iao-ig、iou-id、ian-im、in-in、iang-it、ing-ib、iong-iy、u-uh、ua-ul、uo-uj、uai-uk、uei-uc、uan-um、uen-un、uang-ut、ueng-ub、ü-oh、üe-of、üan-om、ün-on、ng-ob及一个无读音的韵母ot同其英文字母。
所述的简码韵母对应的英文字母如下:er、ia、ot-Q、iou-W、e-E、üan、uan-R、üe、uei-T、ian-Y、u-U、i-I、o、uo-O、ün、uen-P、a-A、iong、ong-S、iang、uang-D、en-F、eng、ueng-G、ang-H、an-J、ao-K、ai-L、ei、ê-Z、ie-X、ü、ua-C、iao-V、ou-B、in、ng-N、ing、uai-M.
所述的节调对应的英文字母如下:阴平-s、t、u、v、w、x、z;阳平-m、n、o、p、q、r、z;上声-g、h、i、j、k、l、y;去声-a、b、c、d、e、f、y;其中各节调中各英文字母对应的类义名称顺序依次为“实物名词、抽象名词、代时名词、动作动词、静态动词、过程动词、备用”。
所述的利用计算机键盘的拼音汉词编码输入方法是以汉词为汉字编码单位,以拼音汉词和拼音句言为汉字编码形式,以汉词和拼音汉词一对一编码,以句言和拼音汉词为输入单位,以句读和汉词为输出单位的汉字音义编码方法如下:(1)以汉词和编码句读为汉字编码单位,由一个汉字和两个汉字组成的汉字编码单位,叫作汉字汉词,一个汉字的汉字汉词叫作“单汉字”或称为“单汉字汉词”;两个汉字的汉字汉词叫作“双汉字”或称为“双汉字汉词”,不加区别时,统称为“汉词”,汉词的数学定义是C2+C1,式中C=0,1,2,3,…的正整数,C表示不同汉字的个数,C1表示单汉字汉词的个数,C2表示双汉字汉词的个数;一个汉词只有一个意义,叫做“类属意义”,简称“类义”,汉词类义的数学模型是H1=log2(C2+C1),式中C>0,H1表示汉词类义的平均信息量,单位是比特,C表示不同汉字的个数,C1表示单汉字汉词类义的个数,C2表示双汉字汉词类义的个数,汉词具有规定的书写形式和意义,输入两个汉词之间按空格键;同两个汉词组成的汉字编码单位,叫做“编码句读”又称句读,句读的汉字编码单位有四种,就是:单汉字+单汉字、单汉字+双汉字、双汉字+单汉字、双汉字+双汉字;(2)以拼音汉词和拼音句言为汉字编码形式,拼音汉词编码使用“全码”、“简码”,两种汉字编码形式;全码和简码分别使用其对应的声母、韵母、节调进行编码,汉语拼音有声韵调的不同章节大约1300个,编码为大约8580个有声韵调的不同的编码,这8580个编码,叫“拼音汉词”,一个声节的拼音汉词叫做“单声节”,两个声节的拼音汉词叫做“双声节”,不加区别时,统称为“拼音汉词”,“拼音汉词”的数学定义是a2+a1,式中a=0、1、2、3、…正整数,a表示不同声节的个数,a1单声节拼音汉词的个数,a2表示双声节拼音汉词的个数;一个拼音汉词只有一个标准语音,就是标准普通话语音,拼音汉词普通话语音的数学模型是H2=log2(a2+a1),式中a>0,H2表示拼音汉词普通话语音的平均信息量,单位是比特,a表示不同声节的个数,a1表示单声节拼音汉词普通话语音的个数,a2表示双声节拼音汉词普通话语音的个数;以8580个声节计算,拼音汉词的总数是7.362498×107个,拼音汉词的熵,即普通话语音的平均信息量是26.134比特;拼音汉词之间采用空格键;单声节由声母、韵母、节调共三部分构成,双声节由声母、韵母、节调、声母、韵母、节调共六部分构成;由两个拼音汉词组成的汉字编码形式叫做“拼音句言”又称“句言”,句言的汉字编码形式有四种:单声节+单声节、单声节+双声节、双声节+单声节、双声节+双声节;(3)汉词和拼音汉词对应编码的基本规则有三条,一个双汉字固定使用一个双声节编码,一个单汉字固定使用一个单声节编码,一个单汉字固定使用一个双声节编码;汉词和拼音汉词对应编码的附加规则有一个,就是汉字的节调字母对应排序的规则;(4)以句言和拼音汉词为输入单位,在两个拼音汉词之间输入一个空格键的前提下,由两个拼音汉词组成的输入单位,叫做“输入句言”又称“句言”,句言后面连击两次空格键,如果单声节用数字1表示,双声节用数字2表示,那么句言的组合形式有四种,就是“1+1”、“1+2”、“2+1”、“2+2”,以拼音汉词为输入单位时,输入一个拼音汉词击一次空格键;(5)以句读和汉词为输出单位,在两个汉词之间输入一个空格键的前提下,由两个汉词组成的输出单位叫做“输出句读”又“句读”,句读后面有两个空格键的距离,如果单汉字用数字1表示,双汉字用数字2表示,那么句读的组合形式有四种就是“1+1”、“1+2”、“2+1”、“2+2”,以汉词为输出单位时,输出一个汉词,后面输入一个空格键。
对上述的方法和键盘作专业技术应用的分类和限定,就适用于一切大、中、小、微型计算机汉字信息处理系统、汉字电传机、汉字电脑打字机、汉字终端机、各类电子印刷排版系统、情报检索和档案管理、办公室自动化系统、专家系统、翻译系统、汉字语音识别系统和汉字字形识别系统、汉字信息通讯系统、广告宣传系统、电话查号系统和公用资信服务系统中。
中文语料,总是由不同的汉字组成的。以GB2312-80中的6763个不同汉字计算,共可构造不同的汉词4.5744932×107个,即一个唯一的汉词集合,每个汉词的熵,即平均信息量是25.447比特,计算方法如下:
当c=6763时,
c2+c1=67632+67631=4.5744932×107(个)
H1=Log2(c2+c1)
=Log24.5744932×107
=25.447(比特)
汉词的数量很大,但现代汉语实际使用的汉词并不多。现代汉语实际使用的汉词,可以根据汉语语法词的数量作对比估算。从形式上看,语法词中的全部双音节词都可以看作是双汉字,全部单音节词都可以看作是单汉字,三音节词、四音节词、五音节以上的词,都可以切分成双汉字和单汉字,两个汉字的语法词组,都是双汉字,还有一些汉词无法跟语法词对比,参看实施例中的例句。实际使用汉词的数量,明显地多于语法词的数量。根据现代通用语法词的数量、发明人估算,现代汉语通用汉词的数理,大约六万个,中文语料覆盖率为99%,其中,中文语料覆盖率为95%,最常用的通用汉词,大约一万二千个。
汉词之间的距离有一个空格就可以了。在汉字编码时,首先把中文语料切分成汉词,然后经本编码方法输入计算机,输出计算机的是分词连写的汉词,也可以是不分词连写的汉字,但最好是汉词。分词连写将对汉字信息处理的各种应用问题,带来无穷无尽的方便和好处。分词连写的重要性,怎么强调都不过分。
汉词的数学定义说明。汉词是一种不同汉字重复排列的方法。参看图4,“信”、“息”、“论”三个不同汉字形的重复排列方法。根据重复排列种数的公式:mn,以及加法定义,就可以计算出汉词的总数。计算汉词的总数,就是汉词的数学定义。从图4汉词原理例图可以看出,由3个不同的单汉字汉词,共计12个不同的汉词,现代汉语实际使用的不同汉词有4个,即:“信”、“息”、“论”、“信息”,其余的8个双汉字汉词备用。“备用”这个道理很简单,在“信息论”没有产生以前,“信息”这个汉词没有人使用,而现在大量使用。
汉词的数学定义,能够使计算机和普通使用者,从总体上把握汉词,能够定量地描述汉词的各种特征,这对汉字信息处理和汉字编码各种问题的解决,是非常有用的。再举一个例子,如果把“通讯功能的开启和停止”。看成是一个句子,那么,共使用了10个不同汉字,使用了6汉词因为本发明规定一个汉词只有一个意义,即“类属意义”,简称“类义”,所以,根据信息论的方法,以及汉词类义的数学模型,可以建立汉词句子类义的数学模型:H3=Log2(c2+c1)n,c≥1,H3表示句子类义的平均信息量,单位:比特;n表示句子里使用汉词的个数;其它同汉词类义的数学模型。
“通讯 功能 的 开启 和 停止”这句话的类义,即这句话意义的平均信息量是当c=10,n=6时,H3=Log2(c2+c1)n=Log2(102+101)6=6×6.781=40.686比特。
对于英文词和汉语语法词来说,进行类似的计算,将是极为因难的。汉词的数学定义,汉词类义的数学模型,句子类义的数学模型,将为第三代汉字编码输入方法,汉字信息处理提供一个良好的工作环境。
本发明汉词数学定义说明。本发明汉词的数学定义,跟汉词的数学定义,没有什么根本地不同,只是写法和数量不同,本发明汉词使用的是声节,是一种以语音为主的汉字编码形式,汉词比本发明汉词要多很多。由于本发明汉词是可以读的,所以,可以对本发明汉词的语音进行定量地描述。本发明规定,一个本发明汉词只有一个语音,不同的本发明汉词就有不同的语音,如果不同的本发明汉词读音相同,即同音不同型,也是不同的语音。本发明汉词语音的信息量和其类义的信息量,计算方法完全一样。如果不同汉字的个数跟不同声节的个数相同,那么,信息量也就相同,这符合常识。本发明汉词普通话语音的数学模型H2=Log2(a2+a1),a>0,将为汉字的语音输入识别与合成提供方法。用本发明汉词编码所组成的编码句子,即普通话语音句,计算方法同“汉词句子类义”的计算方法。只是把“汉词句子类义的数学模型”中的“c”换成“a”,“n”表示语音句中本发明汉词的个数,用H=Log2(c2+c1)n,c>0,n>0
使用声节,不会改变普通话的语音。本发明不使用轻声音节,尺遇轻声汉字,一律标注本调,如在小型字典上查不到汉字本调的,一律用“去声”声调替代。
声节的编码说明。参看图1节调字母表,其中,序号1由节调字母“s、m、g、a”构成,分别表示阴平、阳平、上声、去声四个声调,序号1的四个节调字母跟本发明的声母,韵母组合,可编码1300个不同的声节,相当于使用汉语拼音的四个声调符号跟声母、韵母组合,构造1300个不同的单音节。反复使用序号1的方法,就有了序号2至序号7。其中,序号1至序号6,共可编码不同的声节6×1300=7800个。序号7的情况比较特殊,用一个节调字母“Z”表示阴平和阳平声调,用“Y”表示上声和去声声调。GB2312-80的“一级字”的声调比例,大约是,阴平0.25、阳平0.23、上声0.17、去声0.35,分别以最高的阴平0.25和去声0.35计算,则有,0.25+0.35=0.6,即1300×0.6=780,用“Z”和“Y”两个节调字母可编码不同的声节780个,所以有,7800+780=8580,这就是个80个不同声节的由来。根据本发明汉词的定义,可以计算出,单声节的不同编码形式是个8580个,双声节的不同编码形式是8580×8580=7.36164×107个。本发明汉词编码形式的总数是:8580+85802=7.362498×107;7.362498×107个本发明汉词,是使汉字编码无重码的关键技术。由于本发明汉词的总数是七千余万个,解决汉字编码的重码问题,根本使用不完,所以,本发明规定只使用图1的序号1至序号6的节调字母,序号7的节调字母备用。
声节共使用26个声母,参看图2声母表,其中五个元音声母“a、i、e、o、u”只出现在声母位置上,没有读音,因为本发明不允许没有声母的声节存在,所以,解决办法是,当声节只有韵母没有声母时,韵母的第一字母,必须重写一次,以确保每个声节都有一个声母。因为韵母的第一个字母都是元音字母,这样,跟汉语拼音声母表的21个声母相比,本发明就增加了五个不发音的元音声母,声节的声母表跟汉语拼音的声母表,在使用上没有什么不同。
声节共使用38个韵母,参看图3韵母表。跟汉语拼音的韵母表相比,除了在写法上大多数韵母不同以外,还有四点不同,第一,一般字典的汉语拼音韵母表列出35个韵母,韵母er未列入表内,本发明列入表内;第二,为了使声母和韵母整齐划一,把汉语拼音没列入声母表的声母ng,本发明作为韵母使用,列入韵母表,读音和作用都不变;第三,本发明增加一个无读音韵母,无读音韵母只有书写形式,无读音,作为普通话中无韵母的汉字
Figure C9711331300101
Figure C9711331300102
“唔”的韵母,以使中文语料中的任何一个汉字,在使用本发明编码时,声节都由声母、韵母、节调三部分组成,无一例外;第四,本发明把汉语拼音的韵母“ê”并入韵母“ei”。
本发明汉词全码使用小写英文字母,单声节由四个字母构成,双声节由八个字母构成,本发明汉词简码使用大写英文字母,单声节由三个字母构成,双声节由六个字母构成,本发明汉词的编码形式是确定的。仅看字母的个数,本发明汉词就不会跟英文词或者其它西文词混淆,也不会跟汉语拼音词混淆,声节的界限也不会混淆。本发明汉词最好使用普通话读,也可以使用不标准的普通话读,还可以使用方言语音读。本发明汉词只是一种汉字编码形式,不是汉语拼音词,读音是否标准,不会影响正常使用。
从图5的“意义”,图6的“他们”,可以看出,双声节大约是汉语拼音双音节的49倍,单声节大约是汉语拼音单音节的7倍。以现代汉语同音词最多的“意义、异义、异议、异意、意译、奕奕、翼翼、熠熠”为例,使用汉语拼音书写,只有一种写法“yìyì”重码是八个。使用本发明,只用了双声节的编码八个,没有重码。对于通用的双汉字来说,一个同音双汉字的总数,超过六个的是少数,例如上面提到的“意义”的同音双汉字是八个,通用的同音双汉字要达到36个,是不可能的,即使把古代、现代、未来的都算上,可能性极小,而通用的同音双汉字要达到49个,更是不可能的。当然,中国人姓名、地名、科技专业词汇等使用的双汉字,以及外国人姓名、地名、科技专业词汇翻译成中文后使用的双汉字,属于汉词和本发明汉词的特殊问题,根据用户的要求,发明人将另外处理。
类推,双汉字使用双声节编码无重码,根据第三条基本编码规则,从技术的角度看,就可以保证全部汉字编码无重码。现有的不同汉字就算有十万个,假设都使用双声节编码,也才用去十万个不同的双声节,只占七千余万个双声节的极少数。汉语拼音的双音节,虽然有1300×1300=1.69×106个不同的书写形式,但双音节没有处理同音码,或者说重码的能力。
对句读和句言的说明。“编码句读”和“输出句读”的形式完全相同,只是一个用在编码前的切分,一个用在计算机输出,所以简称相同。“拼音句言”和“输入句言”的简称相同的道理同上。句读是指汉字的三字语和四字语,句言是指汉字编码的三个声节(相当于音节)的四个声节的编码。使用句读的主要目的是,一是为了解决汉字编码的重码问题,当汉字有重码时,使用三字句读编码,三声节句言输入,可以解决重码问题;句读和句言使用最多的形式是三声节“1+2”和“2+1”,因为本发明的双声节即“2”不会有重码,所以,四字语“2+2”不会有重码问题;二是为了使语义更确定,例如,汉语的“三字经”,“四字成语”等,都能表示一个确定的意义或者故事;三是为了把句读和句言作为句处理方法,为准备拼音的本发明汉词和句言输入计算机后,自动转换成汉词和句读输出,提供条件;四是为了使语句更通顺,表达更清楚,五是为了从语句中切分出汉词更方便。
例1:万向节是一种非常灵巧的机械装置。
Figure C9711331300111
A1                A2           A3        A4           A5A11      A12    A21    A22              A41   A42    A61     A62“A1,A2,A4,A5”表示句读,“A3,A11,A12,A21,A22,A41,A42,A51,A52”表示汉词。切分结果如下:
万向节是一种非常灵巧的机械装置。
上述方法叫作“句读切分法”,本发明规定,一个句读必须切分成二个汉词,并且只能切分成二个汉词,因为句读后面使用二个空格,所以,从书面上看,句读跟汉词一样,具有形式标志,这对于计算机自动分词,将会带来许多方便。两个句读叫作“超句读”,两个超句读叫作“次语句”,两个次语句叫作“语句”,两个语句叫作“超语句”等等,根据需要,一直可以两合下去。虽然超句读、语句等没有形式标志,但作为一种算法,将给自然语言理介、机器翻译等带来方便。
例2:他对该事件的意义,持有异议。
使用“句读切分法”切分“例2”,觉得很不顺手,如果把“例2”改写成:“他对于该事件的意义,持有异议。”增加了一个“于”字,觉得好切分一点,但还是不顺手,如果把“例2”改写成:“他对于该事件产生的意义,持有异议。”切分就顺手一点,语句也比较通顺。这说明,句读可以帮助用户在文字表达上,更清楚,具有修辞作用。“例2”虽然读起来不通,但对说明如何进行编码,不会有什么不利影响。
本发明是怎样解决汉字编码重码问题。
用户要学会GB2310-80常用汉字表的3755个汉字的本发明汉词编码,或者学会GB2310-80中的6763个汉字的本发明汉词编码。根据双声节本发明汉词无重码,句言无重码,以及本发明将为所有的常用汉字都备有容错码。在键盘输入时,只要编码属于下面的一项,即可保证无重码。一是同音汉字中的第一轮6个节调序号内的汉字;二是使用双声节本发明汉词输入;三是使用句言输入,才会有重码,解决方法使用编码的基本规则第三条,即一个单汉字固定使用一个双声节编码。
编码的键盘图说明。全码键盘只使用了三个压缩码,即zh用y,ch用w,sh用v表示,全码使用标准英文键盘,因为压缩码只有三个,所以,全码键盘不再画图。
“简码键盘”参看图7,是本发明的专用键盘,简码的键位代码,声母参看图2,韵母参看图3,节调字母参看图1。图7中的键位代码,下面左侧是全码韵母和声母,右侧中括号内是汉语拼音。“/”表示没有对应代码。
本发明汉词编码的附加规则说明。附加规则实际上是三条基本编码规则的一部分,三条基本编码规则都必须使用附加规则,这里是为了叙述更方便,才单独作为一条附加规则列出来的。附加规则就是讲一个声调的6个节调字母,如何跟同音汉字对应排序编码的方法,简称“排序”。
字频排序法,就是根据现代汉语书面语中汉字相对使用频率来“排序”编码的。这一方法比较简单,但规律性差,用户记忆量很大。
字义排序法,发明人认为,汉字不是表示“名称”,就是表示“动作”,所以,把“名称”一类的意义叫作“名词”,动作一类的意义,叫作“动词”。一个汉字的意义虽多,总有一个基本意义。规定一个单汉字汉词只表示基本意义,汉字的其它意义,使用双汉字汉词表示。例如:汉字“打”,基本意义是“用手或器具撞击物体”,单汉字汉词是“动词”,再细分是“动作动词”,汉字“打”的其它意义,总要跟其它汉字连用,即使用双汉字汉词,才能表示,如:
“打手”(名词),实物名词,
“打人”(动词),动作动词,
“打发”(动词),过程动词,
“打量”(动词),静态动词,
“打算”(动词),静态动词,等等。
把单汉字的基本意义分为二大类,又细分为六大类基本意义,虽然“同义”词很多,但并不影响使用。规定一个汉词只有一个意义,使“类义”成为可以计算的,这对汉字信息处理、汉字编码、都将带来方便。字义排序法的主要缺点是记忆量很大。
对六种类义的补充说明:下面的“相当于”都是指汉语中的语法词。
参看图1,
序号1,实物名词,相当于名词中的具体名词。
例如:人、山、水
序号2,抽象名词,相当于名词中的抽象名词。
例如:友、思、政
序号3,代时名词,相当于代词、数量词、时间、处所、方位词等。
例如:他、年、秒、上、东、之、以。
序号4,动作动词,相当于大部分动词
例如:打、放、写
序号5:静态动词,相当于一部分动词、形容词的全部。
例如:是、大、小、好、快、慢
序号6:过程动词,相当于一部分动词,副词、介词、助词、连词、叹词。
例如:漂、流、很、都、在、向、地、的、得、着、了、过、和、哈。
单汉字的类义跟双汉字的类义,有时会发生变化,例如,单汉字汉词“学”是过程动词,“生”是过程动词,双汉字汉词“学生”是实物名词,词义的这一变化过程,叫作“字义排序法”又叫作“形态编码”。
另外,“字义排序法”有例外情况,例如:“他、她、它”都应属于序号3,代时名词,但为了使用上方便,规定:“他”,代时名词,“她”抽象名词,“它”,实物名词。类似的情况还有“地”、“得”、“的”等等,对例外作专门规定,显然是缺点,好在于这样的特殊汉字并不多。
与现有技术相比,本发明的主要优点:
1、本发明汉词编码在可以读的前提下,从技术上作到了使汉字编码没有一个重码。这为普及计算机应用,创造了条件。
2、本发明汉词编码的可读性适应面广,会说普通或者不会普通话的人,都可以使用。
3、编码的基本规则就是三条,从一个汉字的编码到全部汉字的编码,都是这三条基本编码规则。
4、汉字和本发明汉词的数学定义,以及汉词音义句的数学模型将为汉字信息处理各种应用问题的解决提供方法。
5、汉词和本发明汉词的数学定义和音义句的数学模型说明,本发明汉词比英文词更适宜计算机处理。
下面结合附图的图面对本发明的内容说明如下:
图1,节调字母表(类义字母表)
图2,声母表;
图3,韵母表;
图4,汉词原理例图;
图5,“意义”的拼音汉词编码表;
图6,“他们”的拼音汉词编码表;
图7,简码键盘图。
结合附图说明具体实施例:
在使用拼音汉词编码时,首先要从中文语料中切分出汉词。切分汉词,可以看作是使用一个汉字和二个汉字进行修辞的过程。所以,除了在形式上有相似之处外,汉字跟语法词没有任何关系。根据“汉词定义”,是切分汉词的基本方法,图4是切分汉词的基本原理,例1是语法词和汉词的切分结果对比。
例1,①万向节/是/一/种/非常/灵巧/的/机械械装置。(语法词切分)
②万向节是一种非常灵巧的机械装置。(汉词定义切分)
从例1的①和②,可以直观地看出语法词和汉词的不同。语法词的主要问题是词的定义夫法把握,给切分造成困难,而汉词的定义简单明确,就是根据一个汉字和二个汉字进行切分。因为切分汉词跟个人的修辞水平有关,所以,操作者必须是以汉语为母语的具有初中以上文化的人。
对于同一个中文语料,不同的人切分出的汉词,一般地说是一样的。因为人们的倾向,总是希望有最好的修辞表达,总是希望切分出最好的汉词,在同一文化背影下,人们的思维方式,对“好坏”的理解程度,也总是一样的。有例外也是正常的,切分出不同的汉词,可以看作是修辞水平不同,或者是表达方法不同,也就是使用的汉词不同,还可以看作是创新,也可以看作是糟粕,不规范,等等这一切,都有可能发生。一般地说,好的汉词切分结果只有一种,不好的和一般的切分结果是多种我样的,而创新和糟粕,总是极个别的。
汉词切分出来以后,就可以使用本发明汉词进行编码,参看图1至图6,为了便于理解,发明人首先给出例句的汉语语法词和汉语拼音词的书写形式,然后再给出汉词和拼音汉词编码。例2是使用“字频排序法”全码的例句。
例2:
①他/对/该/事/件/的/意义,持/有/异议。(汉语语法词)
②Tā dùi gāi shìjiān de yìyì,chí yǒu yìyì(汉语拼音词)
③他  对   该   事件      的 意义,  持有      异议。(汉词)
④Taisduca gaks vihdjimb defa iihbiiha,wihmiidg iihciihd。
  1    1   1    4    2    1    2   1    1    1    3    [4]
(拼音汉词全码,字频排序法)
在例2的④中,赵词下面的阿拉伯数字1、2、3、4、以及没有使用的5、6,跟图1的节调序号1至序号6中的节调字母一一对应,跟GB2312-80中现代常用汉字表的3755个汉字中每个音节的六个同音汉字一一对应,对应由发明人根据字频规定,参看下面例2的同音汉字统计表中汉字右下侧的数字。在例2的④中,本发明汉词下面的带中括号的阿拉伯数字[1]、[2]、[3]、[4]、[5]、[6],跟图1的节调序号1至序号6中的节调字母一一对应,跟GB2312-80常用汉字表的3755个汉字中每个音节的第七个及更多的同音汉字一一对应,对应由发明人规定,参看下面例2的同音汉字统计表中汉字右下侧的数字。例2的④中使用了[4],只是为了学习和说明方便才标注的,学会了本发明汉词就不必标注了。
下面拼音汉词简码、字义排序法仍然使用例2的句子。
⑤他  对  该  事件   的  意义,  持有   异议。
⑥TAU DTF GLX VIBJYC DEF IIBIIE,WIPIWK IIFIIA。
3  6  6  2  3  6  [2][5]  4  5  6   1(拼音汉字简码、字义排序法)
在⑤中的“该事件”和“持有异议”是句读,其它是汉词。句读后面有二个空格,句读后面有标点符号时,标点符号前加一个空格,表示前面是句读。
在⑥中的“GLX VIBJYC”和“WIPIWK IIFIIA”是句言,其它是本发明汉词空格的规定同⑤中的句读。
例2中的同音汉字统计表,前面标的是汉语拼音,汉字右下角的数学是“字频排序法”中的汉字排序序号,在汉字下方的数学是“字义排序法”中的汉字排序序号。
例2的④中,提到的“对应由发明人规定”,在例2的⑥中,改写成“对应由汉字的基本意义决定,即由类义决定。”汉字的基本意义可以查《现代汉语词典》,或者由发明人提供。
使用本发明汉词简码时,声节如果没有声母,韵母的第一个字母,是指本发明汉词全码的第一个字母,要重复写一次,例如:“瓦”,汉语拼音,“wa”,本发明汉词全码:“uulg”,本发明汉词简码“UGG”。本发明汉词简码不能写成“CCG”。
例2的同音汉字统计表:
1/tā 塌4    他1    它3    她2
     4      3      1      2
例3:
2/duì       兑3  队2  对1
        4    1    6
3/gāi   该1
        6
4/shì       式6    示[5]  士[1]  世[2]  柿[1]  事4    拭[3]  誓[5]  逝[5]  势[2]
        1      4      [1]    [1]    [1]    2      [4]    [4]    [6]    [5]
        是1    嗜[6]  筮[6]  适[5]  仕[6]  侍[2]  释[3]  饰[4]  氏5    市2
        5      [5]    [4]    [5]    [1]    [6]    6      [5]    [2]    3
        恃[6]  室3    视[3]  试[1]
        [5]    [3]    [4]    [6]
(例3使用的“轼”字,属于GB2312-80的次常用字,发明人规定为“轼[2]”。)
5/jiàn荐[2]  槛[4]  鉴[1]  践[5]  贱[5]  见1
5      [1]  [1]    [4]    [5]    4
键[2]  箭6  件2    健[6]  舰[1]  剑5
1      [1]  3      [5]    [1]    [1]
饯[3]  渐4  溅[4]  涧[5]  建3
[4]    [5]  [4]    [1]    6
6/de  的1(根据本发明的规定,轻声汉字如在小型字典上查不到汉字本调的,用去声声调替代,把de写出成de)
7/yì       艺4    抑[2]  易[5]  邑[1]  屹[4]  亿[6]
       2      4      [6]    [1]    [5]    3
       臆[6]  逸[5]  肄[6]  疫[6]  亦[1]  裔[2]
       [1]    [5]    [6]    [1]    [5]    [1]
       意2    毅[3]  忆[3]  义1    益[1]  溢[4]
       [2]    [5]    [6]    5      6      [4]
       诣[2]  议[2]  谊[4]  译[4]  异3    翼[5]
       [5]    1      [5]    [5]    6      [1]
       翌[4]  绎[3]
       [3]    [6]
8/chí       持1  匙2  池3  迟4  弛5  驰6
        4    [1]  1    5    6    [5]
9/yǒu   酉3  有1  友2
        3    5    1
例3:       ①题/西林壁          苏/轼
            横/看/成/岭/侧/成/峰,
            远/近/高/低/各/不同。
            不/识/庐山/真/面目,
            只/缘/身/在/此/山中。(汉语语法词)
②             Ti xiLinBi  Su Shi
            Héng kàn chéng Lǐn cè chéng fēng,
            Yuǎn jìn gāo dí gè bùtóng.
            Bù shíLúshān zhēn miànmù,
            Zhǐ yuán shēn zài cǐ shānzhōng.(汉语拼音)
③             题 西林 壁            苏轼
            横看 成岭 侧 成峰,
              远近 高低 各 不同。
              不识 庐山 真 面目,
              只缘 身在 此 山中。(汉词)
④TIHN XIHSLINN BIHF SUHS VIHB(YIHV)
  2       1    2   6   1   [2]  [4]
     Hebmkama webmlibh cefc webmfebw.
     1    1    1   2   3    1   5
     Oomgjinb gagsdihs gefb buhatoym.
     1    2    1   1   2    1   1
     Buhavihn Luhnvams yens mimamuhb.
     1   [2]   2   1   1    1   2
     Yihjoomm venuzaka cihg vamsyoys.(拼音汉词全码、字频排序法)
     4   [1]   3   1   1    1   1
例3的说明如下:
例3的同音汉字统计表略,其方法同例2的同音汉字统计表。汉字“轼”用的很少,在现代汉语里,只是作为人名使用,按照本发明的第三条基本编码规则,汉字“轼”作为单汉字使用时,必须写成双声节,“vihb(yihv)”
                                                           [2]  [4]即“轼之”,这样写是发明人规定的。小括号()表示括号内的声节不输出汉字,但必须编码输入计算机,作为人名地名使用的“人名类”汉字,据台湾的有关部门统计,大约是二万五千多个,其中的通用汉字还好办,比汉字“轼”用得更少的汉字也不少,对普通使用者来说,学习大量的象“轼之”这样的现代汉语不使用的双汉字及双声节,以及大量的双汉字专用人名及双声节,显然是不合适的。科技专业汉字等,也属于这类问题,对此,发明人将另外设法处理。
汉字“识”和“缘”,虽然是常用汉字,但不在发明人规定的同音汉字中的六个汉字序号之内,但“不识”、“只缘”是双汉字,编码用双声节,“buhavihn”、“yihjoomm”,符合第一条基本编码规则。1   [2]       4  [1]
汉字“侧”、“各”、“真”、“此”、“题”、“壁”、“苏”是单汉字,在发明人规定的六个汉字序号之内,编码用单声节,“cefc”、“gefb”、“yens”、“cihg”、
                                      3        2         1         1
“tihn”、“bihf”、“suhs””,符合第二条编码规则。
   2         6         1
只要是双汉字,就适用于第一条编码规则,一个双汉字固定使用一个双声节编码。大多数常用单汉字适用于第二条基本编码规则,一个单汉字固定使用一个单声节编码。少数常用单汉字、所有的不常用的单汉字及今后新产生的单汉字,适用于第三条基本编码规则,一个单汉字固定使用一个双声节编码。当你对拼音汉词编码熟练应用以后,第三条基本编码规则可以灵活使用,即,一个单汉字可以使用多个相关的双声节编码。例如:汉字“轼”还可以写成双声节“(pibq)vihb”,即“凭轼”,根据使用者的方便,自己决定。但第一条和第二条的基本编码规则是永远不能变的。拼音汉词编码,就是反复使用这三条基本的编码规则。

Claims (5)

1、一种利用计算机键盘的拼音汉词编码输入方法,其特征在于该输入方法分为全码和简码两种方式;全码和简码的键盘输入均采用汉词的声母、韵母、节调对应计算机键盘上的字母按上述顺序输入;其中全码和简码声母、节调相同,只有韵母不同;声母采用汉语拼音的21个声母外加五个“无读音”的a、i、e、o、u声母共组成26个声母,将26个声母对应分布在计算机键盘上对应的字母键上,汉语拼音中声母“zh、ch、sh”分别用字母“y、w、v”代替;节调按照汉语拼音的“声调”即分为阴平、阳平、上声、去声四类;在每一节调中按类义名称又分为实物名词、抽象名词、代时名词、动作名词、静态名词、过程动词、备用六种,其中每一类节调又按类义名称对应计算机键盘上的字母,阴平、阳平的类义名称“备用”为同一字母,上声、去声的类义名称“备用”为同一字母;全码和简码的韵母不同,其中全码的韵母为38个,每个韵母由键盘上的两个字母代替;简码的韵母为26个,对应计算机上的标准英文键盘的字母;采用全码和简码输入汉词时按汉语习惯分为单音节汉词和双单节汉词;单音节汉词编码采用声母+韵母+节调顺序输入;双单节汉词采用声母+韵母+节调+声母+韵母+节调顺序输入;其中节调输入又分为“字频排序法”和“字义排序法”两种,“字频排序法”是按照汉字的使用频度大小从节调字母顺序依次取字母;“字义排序法”是按节调并对应其类属意义即上述各种“名词”和“动词”取字母。
2、如权利要求1所述的利用计算机键盘的拼音汉词编码输入方法,其特征在于所述的全码韵母对应的英文字母如下:er-eh、a-al、o-oj、e-ef、ai-ak、ê、ei-ec、ao-ag、ou-od、an-am、en-en、ang-at、eng-eb、ong-oy、i-ih、ia-il、ie-if、iao-ig、iou-id、ian-im、in-in、iang-it、ing-ib、iong-iy、u-uh、ua-ul、uo-uj、uai-uk、uei-uc、uan-um、uen-un、uang-ut、ueng-ub、ü-oh、üe-of、üan-om、ün-on、ng-ob及一个无读音的韵母ot同其英文字母。
3、如权利要求1所述的利用计算机键盘的拼音汉词编码输入方法,其特征在于所述的简码韵母对应的英文字母如下:er、ia、ot-Q、iou-W、e-E、üan、uan-R、üe、uei-T、ian-Y、u-U、i-I、o、uo-O、ün、uen-P、a-A、iong、ong-S、iang、uang-D、en-F、eng、ueng-G、ang-H、an-J、ao-K、ai-L、ei、ê-Z、ie-X、ü、ua-C、iao-V、ou-B、in、ng-N、ing、uai-M。
4、如权利要求1所述的利用计算机键盘的拼音汉词编码输入方法,其特征在于所述的节调对应的英文字母如下:阴平-s、t、u、v、w、x、z;阳平-m、n、o、p、q、r、z;上声-g、h、i、j、k、l、y;去声-a、b、c、d、e、f、y;其中各节调中各英文字母对应的类义名称顺序依次为“实物名词、抽象名词、代时名词、动作动词、静态动词、过程动词、备用”。
5、如权利要求1所述的利用计算机键盘的拼音汉词编码输入方法,其特征在于以汉词为汉字编码单位,以拼音汉词和拼音句言为汉字编码形式,以汉词和拼音汉词一对一编码,以句言和拼音汉词为输入单位,以句读和汉词为输出单位的汉字音义编码方法如下:(1)以汉词和编码句读为汉字编码单位,由一个汉字和两个汉字组成的汉字编码单位,叫作汉字汉词,一个汉字的汉字汉词叫作“单汉字”或称为“单汉字汉词”;两个汉字的汉字汉词叫作“双汉字”或称为“双汉字汉词”,不加区别时,统称为“汉词”,汉词的数学定义是C2+C1,式中C=0,1,2,3,…正整数,C表示不同汉字的个数,C1表示单汉字汉词的个数,C2表示双汉字汉词的个数;一个汉词只有一个意义,叫做“类属意义”,简称“类义”,汉词类义的数学模型是H1=log2(C2+C1),式中C>0,H1表示汉词类义的平均信息量,单位是比特,C表示不同汉字的个数,C1表示单汉字汉词类义的个数,C2表示双汉字汉词类义的个数,汉词具有规定的书写形式和意义,输入两个汉词之间按空格键;同两个汉词组成的汉字编码单位,叫做“编码句读”又称句读,句读的汉字编码单位有四种,就是:单汉字+单汉字、单汉字+双汉字、双汉字+单汉字、双汉字+双汉字;(2)以拼音汉词和拼音句言为汉字编码形式,拼音汉词编码使用“全码”、“简码”,两种汉字编码形式;全码和简码分别使用其对应的声母、韵母、节调进行编码,汉语拼音有声韵调的不同章节大约1300个,编码为大约8580个有声韵调的不同的编码,这8580个编码,叫“拼音汉词”,一个声节的拼音汉词叫做“单声节”,两个声节的拼音汉词叫做“双声节”,不加区别时,统称为“拼音汉词”,“拼音汉词”的数学定义是a2+a1,式中a=0、1、2、3、…正整数,a表示不同声节的个数,a1单声节拼音汉词的个数,a2表示双声节拼音汉词的个数;一个拼音汉词只有一个标准语音,就是标准普通话语音,拼音汉词普通话语音的数学模型是H2=log2(a2+a1),式中a>0,H2表示拼音汉词普通话语音的平均信息量,单位是比特,a表示不同声节的个数,a1表示单声节拼音汉词普通话语音的个数,a2表示双声节拼音汉词普通话语音的个数;以8580个声节计算,拼音汉词的总数是7.362498×107个;拼音汉词之间采用空格键;单声节由声母、韵母、节调共三部分构成,双声节由声母、韵母、节调、声母、韵母、节调共六部分构成;由两个拼音汉词组成的汉字编码形式叫做“拼音句言”又称“句言”,句言的汉字编码形式有四种:单声节+单声节、单声节+双声节、双声节+单声节、双声节+双声节;(3)汉词和拼音汉词对应编码的基本规则有三条,一个双汉字固定使用一个双声节编码,一个单汉字固定使用一个单声节编码,一个单汉字固定使用一个双声节编码;汉词和拼音汉词对应编码的附加规则有一个,就是汉字的节调字母对应排序的规则;(4)以句言和拼音汉词为输入单位,在两个拼音汉词之间有一个空格的前提下,由两个拼音汉词组成的输入单位,叫做“输入句言”,又称“句言”,句言后面连击两次空格键,如果单声节用数字“1”表示,双声节用数字“2”表示,那么句言的组合形式有四种,就是“1+1”、“1+2”、“2+1”、“2+2”,以拼音汉词为输入单位时,输入一个拼音汉词,击一次空格键;(5)以句读和汉词为输出单位,在两个汉词之间有一个空格的前提下,由两个汉词组成的输出单位,叫做“输出句读”,又称“句读”,句读后面有两个空格键的距离,如果单汉字用数字“1”表示,双汉字用数字“2”表示,那么句读的组合形式有四种就是“1+1”、“1+2”、“2+1”、“2+2”,以汉词为输出单位时,输出一个汉词,后面输入一个空格键。
CN97113313A 1996-05-29 1997-05-28 利用计算机键盘的拼音汉词编码输入法 Expired - Fee Related CN1109283C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN97113313A CN1109283C (zh) 1996-05-29 1997-05-28 利用计算机键盘的拼音汉词编码输入法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN96107547.3 1996-05-29
CN 96107547 CN1142077A (zh) 1996-05-29 1996-05-29 拼音汉词编码
CN97113313A CN1109283C (zh) 1996-05-29 1997-05-28 利用计算机键盘的拼音汉词编码输入法

Publications (2)

Publication Number Publication Date
CN1172983A CN1172983A (zh) 1998-02-11
CN1109283C true CN1109283C (zh) 2003-05-21

Family

ID=25743976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN97113313A Expired - Fee Related CN1109283C (zh) 1996-05-29 1997-05-28 利用计算机键盘的拼音汉词编码输入法

Country Status (1)

Country Link
CN (1) CN1109283C (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861487A (zh) * 2020-11-30 2021-05-28 新绎健康科技有限公司 一种用于对汉字五音进行标注的方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN85102522A (zh) * 1985-04-10 1987-02-04 中国中文信息研究会汉字编码专业委员会 电脑型汉语拼音文字输入法
CN86107214A (zh) * 1986-10-16 1987-08-12 丁飞 一种汉语词输入方法及其键盘
CN1054219C (zh) * 1994-11-03 2000-07-05 王昭宁 一种汉语拼音输入法及其键盘

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN85102522A (zh) * 1985-04-10 1987-02-04 中国中文信息研究会汉字编码专业委员会 电脑型汉语拼音文字输入法
CN86107214A (zh) * 1986-10-16 1987-08-12 丁飞 一种汉语词输入方法及其键盘
CN1054219C (zh) * 1994-11-03 2000-07-05 王昭宁 一种汉语拼音输入法及其键盘

Also Published As

Publication number Publication date
CN1172983A (zh) 1998-02-11

Similar Documents

Publication Publication Date Title
CN1191514C (zh) 处理中文文本的系统和方法
CN1384940A (zh) 以无模式输入将一种文本形式转换成另一种文本形式的语言输入体系结构
CN1648828A (zh) 去多义性语音输入系统和方法
CN1591414A (zh) 一种汉语到盲文的自动翻译转换方法
CN110096715A (zh) 一种融合发音特征汉语-越南语统计机器翻译方法
CN1109283C (zh) 利用计算机键盘的拼音汉词编码输入法
CN1110738C (zh) 笔记本电脑文字输入方法
CN1896923A (zh) 英语巴蜀杆栏式汉字化词型翻译中间文本计算机输入方法
CN1731389A (zh) 盲汉对照编辑排版系统及编辑排版方法
CN1121645C (zh) 音形字理码汉字输入方法
CN1129058C (zh) 仿真拼音汉字输入法
CN1053976C (zh) 全拼双拼混用型中文输入方法
CN1687877A (zh) 中英通双向汉字输入法
CN85100087A (zh) 《中文声数编码》方案及其实现方法
CN1142077A (zh) 拼音汉词编码
CN1123818C (zh) 电拼汉字计算机输入法、所用键盘及其中文内码
CN1801056A (zh) 数字键盘汉字拼音输入法
CN1196989C (zh) 汉字形体示意输入法及其键盘
CN1114146C (zh) 一种汉语语素编码计算机键盘输入法
CN1734404A (zh) 音码和识别音码、级库技术、笔码和数字笔码
CN1037043A (zh) 计算机汉字输入方法
CN1089175C (zh) 规范部首笔画合成输入法
CN1042174C (zh) 全息自然码中文输入系统
CN1182235A (zh) 音素结构注音符号双拼及其加调双拼双打46键式输入法
CN1667548A (zh) 英文字母汉字化书写虚拟笔画和中英文速记符号兼容方案

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee