CN1142077A - 拼音汉词编码 - Google Patents
拼音汉词编码 Download PDFInfo
- Publication number
- CN1142077A CN1142077A CN 96107547 CN96107547A CN1142077A CN 1142077 A CN1142077 A CN 1142077A CN 96107547 CN96107547 CN 96107547 CN 96107547 A CN96107547 A CN 96107547A CN 1142077 A CN1142077 A CN 1142077A
- Authority
- CN
- China
- Prior art keywords
- chinese
- speech
- joint
- character
- zhao
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
拼音汉词编码属于中文信息处理的汉字编码技术领域。本发明提供了一种汉字编码单位“汉字汉词”,又叫作“汉词”。汉词可以对中文语料进行穷尽切分。本发明提供了一种汉字编码形式“拼音汉词”,又叫作“赵词”。赵词在可以读,不使用人工选字的条件下,使用三条编码规则,使全部汉字及今后产生的新汉字,没有一个重码。对于大多数常用汉字,拼音汉词编码在输入电脑时,可以跟英文词输入电脑相媲美。学习拼音汉词编码,需记忆的量很大,但是简单易学,适用性强。
Description
本发明属于中文信息处理领域,主要用于汉字的编码、输入、输出、以及汉语词汇的计算机处理等。
汉字编码方案,目前已有数百种之多,从使用的汉字编码单位看,主要有二种,一种是以汉字为单位编码,另一种是以语法词为单位编码。还有综合使用汉字、语法词、词句,篇章等多种单位的汉字编码方案。上述汉字编码单位各有利弊,解决问题也多少不同,各种有关的介绍很多,这里就不谈了。它们有二个共同的缺点,一是对重码汉字,普遍使用人工选字,给众多使用者造成不便;二是汉字编码不能象英文词那样方便地输入电脑,给电脑普及带来困惑。例如,由北京大学,语言文字应用研究所和昆仑公司联合设计的“CW系统”,就很有名,但也无法作到跟英文词输入电脑相媲美,主要缺点是,重码多,使用人工选字,语法词的切分问题没有解决,在中文信息处理中,无法对中文语料进行穷尽切分,中文语料不分词连写。
本发明的目的是,提供一种新的汉字编码单位汉词,在中文信息处理和汉字编码中,汉词可以对中文语料进行穷尽切分;提供一种新的汉字编码形式赵词,即拼音汉词,赵词在分词连写,可以读,不使用人工选字,输入跟英文词差不多的条件下,使汉字编码没有一个重码。
本发明的技术解决方案是:以普通使用者能够穷尽切分的一个汉字和二个汉字的汉词,作为汉字编码单位;以可以读的,由四个和八个拉丁字母组成的拼音汉词,即赵词,作为汉字编码形式的编码方法。编码规则有三条,第一条编码规则,一个双汉字固定使用一个双声节编码;第二条编码规则,一个单汉字固定使用一个单声节编码;第三条编码规则,一个单汉字固定使用一个双声节编码。下面对本发明的技术解决方案作详细说明:
1)以汉词作为汉字编码单位。由一个汉字和二个汉字组成的汉字编码单位,叫作“汉字汉词”,一个汉字的汉字汉词,叫作“单汉字”,二个汉字的汉字汉词,叫作“双汉字”,不加区别时,统称为“汉词”,汉词具有规定的书写形式和音义,汉词之间有空隔,本发明只使用以汉语为母语的具有初中以上文化的人确定的汉词,汉词是本发明的汉字编码单位。
汉词的定义说明,切分出汉词的唯一依据就是一个汉字和二个汉字,任何中文语料,总可以被切分成一个汉字和二个汉字。就是说,汉词只有形式,没有音义,汉词能够穷尽切分中文语料,就是从这一角度说的。但是,汉词的切分过程就是使用汉词的过程,只要使用汉词,汉词就有音义。就是说,汉词的音义是由使用者给予的,使用的过程,就是产生音义的过程。所以,对切分汉词的人有一定要求,必须是以汉词为母语的具有初中以上文化的人,以确保汉词的切分过程及切分出的汉词符合汉族文化的习惯。汉词的切分过程,又被发明人看作是修辞的过程。普通使用者,可以对汉词进行简单理介,就是,汉词是发明人为了解决汉字编码的重码问题而规定的一种方法,汉词的形式是规定的,音义是规定的,切分汉词就是修辞,也是规定的,只要根据一个汉字和二个汉字去切分汉词,就永远不会出错。本发明只使用从中文语料中切分出的汉词。
汉词有好的切分,一般的切分,不好的切分,三种情况。这三种情况都属于汉词的正常切分。对于同一个中文语料,汉词允许多种切分,至于切分的好坏,属于你个人的修辞水平问题。在一般情况下,切分出的汉词,好坏差别不大。在绝大多数情况下,只能有一种切分选择。例如:“调用机器语言程序。”你只能这样切分,“调用机器语言程序。”其它切分都不如这样切分好。再例如:“通讯功能的开启和停止。”你也只能这样切分,“通讯功能的开启和停止。”这是因为,切分受到文化习惯和汉词定义中的一个汉字和二个汉字的制约。发明人建议使用者,尽量少使用单汉字,多使用双汉字,但不能走极端,要恰到好处。使用和切分汉词有一个熟练过程,使用得多了,你就会悟出些道理,修辞水平也就随之提高。
汉词的数量,可以根据汉语语法词的数量作对比估算。从形式上看,语法词中的全部双音节词,都可以看作是双汉字,全部单音节词,都可以看作是单汉字,三音节词、四音节词、五音节以上的词,都可以切分成双汉字和单汉字,两个汉字的语法词组,都是双汉字,还有一些汉词无法跟语法词对比,参看实施例中的例句。汉词的数量,明显地多于语法词的数量。根据现代通用语法词的数量,发明人估算,现代汉语通用汉词的数量,大约六万个,中文语料覆盖率为99%,其中,中文语料覆盖率为95%,最常用的通用汉词,大约一万二千个。
汉词之间空一个汉字的距离就可以了。在汉字编码时,首先把中文语料切分成汉词,然后经赵词编码输入电脑,输出电脑的是分词连写的汉词,也可以是不分词连写的汉字,但最好是汉词。分词连写将对中文信息处理的各种应用问题,带来无穷无尽的方便和好处。分词连写的重要性,怎么强调都不过分。
2)以赵词为汉字编码形式,“汉语拼音方案”和台湾的“国语注音符号第二式”,分别使用四个声调符号,构造了大约1300个书写音节,本发明使用26个不同的拉丁字母,叫作“节调字母”,又叫作“节调”,替代上述的四个声调符号,不使用轻声,把上述的大约1300个不同的书写音节,编码为大约8580个不同的编码,叫作“声节”,又叫作“书写声节”,由一个声节和二个声节组成的汉字编码形式,叫作“拼音汉词”,一个声节的拼章汉词,叫作“单声节”,二个声节的拼音汉词,叫作“双声节”,不加区别时,统称为“拼音汉词”或者“赵词”,所以,本发明又叫作“赵词编码”,赵词具有确定的书写形式,赵词之间有空隔,单声节由声母、韵母、节调三部分组成,其中,声母由一个拉丁字母构成,韵母由二个拉丁字母构成,节调由一个拉丁字母构成,单声节由四个拉丁字母构成,双声节由八个拉丁字母构成,没有例外,赵词是本发明的汉字编码形式。
现代汉语的普通话语音,有的认为是1200个音节,有的认为是1280个音节,等等。为了称呼和汉字编码的方便,本发明统一一种说法,普通话有1300个口语音节。“口语音节”是指普通话可以读出多少个不同的音节来。“书写音节”是指“汉语拼音方案”和台湾的“注音符号第二式”的音节在用拉丁字母书写时的表现形式。本发明不特别说明时,“音节”是指书写音节。“书写声节”和“声节”是指把“汉语拼音方案”和台湾的“注音符号第二式”中的书写音节编码以后,用拉丁字母书写时的表现形式。使用声节,不会改变普通话的语音。本发明不使用轻声书写音节,凡遇轻声汉字,一律标注本调,如在小型字典上查不到汉字本调的,一律用“去声”声调替代。
声节的构造说明。参看图1节调字母表,其中,序号1由节调字母“s、m、g、a”构成,分别表示阴平、阳平、上声、去声四个声调,序号1的四个节调字母跟本发明的声母,韵母组合,可构造1300个不同的声节,相当于使用汉语拼音的四个声调符号跟声母、韵母组合,构造1300个不同的单音节。反复使用序号1的方法,就有了序号2至序号7。其中,序号1至序号6,共可构造不同的声节6×1300=7800个。序号7的情况比较特殊,用一个节调字母“z”表示阴平和阳平声调,用“y”表示上声和去声声调。GB2312-80的“一级字”的声调比例,大约是,阴平0.25、阳平0.23、上声0.17、去声0.35,分别以最高的阴平0.25和去声0.35计算,则有,0.25+0.35=0.6,即1300×0.6=780,用“z”和“y”两个节调字母可构造不同的声节780个,所以有,7800+780=8580,这就是8580个不同声节的由来。根据赵词的定义,可以计算出,单声节的不同编码形式是8580个,双声节的不同编码形式是8580×8580=7.36164×107个。赵词编码形式的总数是:8580+85802=7.362498×107个;7.362498×107个赵词,是使汉字编码无重码的关键技术。从数学的角度看,赵词的编码形式是一种重复排列的方法,参看图4,图5。根据重复排列种数的公式:mn,可以建立赵词的数学定义,如果用a表示声节,a1表示单声节,a2表示双声节,那么:a1+a2,式中a=0,1,2,3,4……正整数,就是赵词的数学定义。顺便说一句,由于中文信息处理各种应用问题的需要,也可以对汉词作出同样的数学定义,如果用c表示汉字,c1表示一个汉字的汉词,c2表示二个汉字的汉词,那么:c1+c2,式中c=0,1,2,3,4……正整数,就是汉词的数学定义。c和c的一次方在数学表达上是一样的,这里是为了区别汉字和一个汉字的汉词才这样写的,a和a1的区别也是同样的道理。由于赵词的总数是七千余万个,解决汉字编码的重码问题,根本使用不完,所以,本发明规定只使用图1的序号1至序号6的节调字母,序号7的节调字母备用。
声节共使用26个声母,参看图2声母表,其中五个元音声母只出现在声母位置上,没有读音,因为本发明不允许没有声母的声节存在,所以,解决办法是,当声节只有韵母没有声母时,韵母的第一个字母,必须重写一次,以确保每个声节都有一个声母。因为韵母的第一个字母都是元音字母,这样,跟汉语拼音声母表的21个声母相比,本发明就增加了五个不发音的元音声母,除此以外,声节的声母表跟汉语拼音的声母表,在使用上没有什么不同。
声节共使用38个韵母,参看图3韵母表。跟汉语拼音的韵母表相比,除了在写法上大多数韵母不同以外,还有三点不同,第一,一般字典的汉语拼音韵母表列出35个韵母,韵母er未列入表内,本发明列入表内,写作eh;第二,为了使声母和韵母的构造整齐划一,把汉语拼音没列入声母表的声母ng,本发明作为韵母使用,列入韵母表,写作ob,读音和作用都不变;第三,本发明增加一个无读音韵母,写作ot,无读音韵母只有书写形式,没有读音,作为在普通话中无韵母的汉字“噷”、
“唔”的韵母,以使中文语料中的任何一个汉字,在使用本发明编码时,声节都由声母、韵母、节调三部分组成,无一例外。
单声节由四个字母构成,双声节由八个字母构成,赵词的编码形式是确定的,不允许有任何改变,也不能错输一个字母。赵词不允许使用简码,或者缩写。如果一定要使用缩写,可以使用英文词、其它西文词或者汉语拼音词缩写替代,必须备注。仅看字母的个数,赵词就不会跟英文词或者其它西文词混淆,也不会跟汉语拼音词混淆,声节的界限也不会混淆。赵词最好使用普通话读,也可以使用不标准的普通话读,还可以使用方言语音读。赵词只是一种汉字编码形式,不是汉语拼音词,读音是否标准,不会影响正常使用。赵词编码使用国际通用的标准小键盘。
3)汉词和赵词一对一编码,有三条编码规则,一个双汉字固定使用一个双声节编码,一个单汉字固定使用一个双声节编码,哪一个汉词编码单位对应哪一个赵词编码形式,决定权在发明人,以汉字计算,哪一个汉字对应哪一个赵词编码形式,决定权在发明人。
汉词和赵词一对一编码,使用三条编码规则,赵词编码可以从技术上保证汉字编码不出现一个重码汉字。
第一条编码规则,一个双汉字固定使用一个双声节编码。可以解决中文语料中切分出的任何双汉字无重码。
第二条编码规则,一个单汉字固定使用一个单声节编码。可以解决最多8580个单汉字或者汉字无重码。
第三条编码规则,一个单汉字固定使用一个双声节编码。可以解决现有的以及任何可能有的汉字无重码。
据台湾有关部门统计,全部汉字,大约有81684个,发明人将给出有标准普通话读音的全部汉字的赵词编码形式,用户可根据需要,决定选用哪一个汉字以及多少个汉字和赵词编码形式。
从图4的“意义”,图5的“他们”,可以看出,书写形式的数量,双声节大约是汉语拼音双音节的49倍,单声节大约是汉语拼音单音节的7倍。以现代汉语同音词最多的“意义、异义、异议、异意、意译、奕奕、翼翼、熠熠”为例,使用“cw系统”的拼音书写,只有一种写法“yì yì”,重码是八个。使用本发明,只用了双声节的书写形式八个,没有重码。
对于通用的双汉字来说,一个同音双汉字的总数,超过六个的是少数,例如上面提到的“意义”的同音双汉字是八个,通用的同音双汉字要达到36个,是不可能的,即使把古代、现代、未来的都算上,可能性也极小,而通用的同音双汉字要达到49个,更是不可能的。当然,中国人姓名、地名、科技专业词汇等使用的双汉字,以及外国人姓名、地名、科技专业词汇翻译成中文后使用的双汉字,属于汉词和赵词的特殊问题,根据用户的要求,发明人将另外处理。
类推,双汉字使用双声节编码无重码,根据第三条编码规则,就可以保证全部汉字编码无重码。现有的不同汉字就算有十万个,假设都使用双声节编码,也才用去十万个不同的双声节,只占七千余万个双声节的极少数。汉语拼音的书写双音节,虽然有1300×1300=1.69×106个不同的书写形式,遗憾的是,书写双音节没有处理同音码,或者说重码的能力。
以汉语拼音的1300个书写音节计算,每个音节的同音汉字,从一个到数十个不等,每个音节的同音汉字,本发明规定使用单声节编码的汉字有六个,从第七个汉字开始,其余的汉字使用双声节编码。以GB2312-80的“一级字”,又叫作“常用汉字表”的3755个汉字计算,其中使用单声节,即四个拉丁字母编码输入电脑的大约有3267个汉字,约占87%,使用双声节,即八个拉丁字母编码输入电脑的大约有488个汉字,约占13%。一个声节的平均长度是:(3267×4+488×8)÷3755=4.52个拉丁字母。
汉词和赵词,作为方法,还可以用在计算机中文信息处理的所有方面,例如,自然语言理介,机器翻译,电子词典,大文本语料库,数据库与系统设计,语音识别与合成,文体处理,信息检索,自然语言和人机接口,邮电通讯,办公自动化,计算机自动分词,等等。汉词作为汉字编码单位,还可以用于日本汉字和韩国汉字的汉字编码,汉词作为方法,还可以用于日本文语料和韩国文语料的计算机信息处理等自动化处理领域。
由于汉词和赵词是一对一编码的,赵词无重码,可以读,又是分词连写的,可以使用数学方法处理,所以,赵词适合作为中文机器翻译的中间码使用。基于同样的理由,汉词和赵词应用于自然语言理介等中文信息处理各方面时,显然,比使用语法词要方便的多。日本汉字和韩国汉字,以及所有不分词连写的书面语,都有中国汉字的同样问题,他们的分词问题也未能解决,汉词作为方法,同样为他们的计算机信息处理和自动化,带来方便,减少麻烦。
与现有技术相比,本发明的主要优点:
1.赵词编码在可以读的前提下,从技术上作到了使汉字编码没有一个重码。这为普及电脑应用,创造了条件。
2.赵词编码的可读性适应面广,会说普通话或者不会说普通话的人,都可以使用。
3.编码的规则就是三条,从一个汉字的编码到全部汉字的编码,都是这三条编码规则。
4.汉词和赵词的数学定义,将为中文信息处理各种应用问题的解决,提供方法。
5.汉词和赵词的数学定义说明,赵词比英文词更适宜电脑处理。
6.使用本发明,最少需记忆最常用的一万二千个汉词及相应的赵词编码,记忆量很大。但是,一个人长期使用人工选字所耗掉的时间和精力,大大地多于在一定时期内学会一万二千个汉词及相应的赵词所用的时间和精力。
下面结合附图的图面对本发明的内容说明如下:
附图1,节调字母表;
附图2,声母表;
附图3,韵母表;
附图4,“意义”的拼音汉词编码表;
附图5,“他们”的拼音汉词编码表。
结合附图说明具体实施例:
在使用拼音汉词编码时,首先要从中文语料中切分出汉词。切分汉词,可以看作是使用一个汉字和二个汉字进行修辞的过程。所以,除了在形式上有相似之处外,汉词跟语法词没有任何关系。根据汉词定义,是切分汉词的基本方法。例1是语法词和汉词的切分结果对比。
例1.①万向节/是/一/种/非常/灵巧/的/机械装置。(语法词切分)
②万向节是一种非常灵巧的机械装置。(汉词定义切分)
从例1的①和②,可以直观地看出语法词和汉词的不同。语法词的主要问题是词的定义无法把握,给切分造成困难,而汉词的定义简单明确,就是根据一个汉字和二个汉字进行切分。因为切分汉词跟个人的修辞水平有关,所以,操作者必须是以汉语为母语的具有初中以上文化的人。
对于同一个中文语料,不同的人切分出的汉词,一般地说是一样的。因为人们的倾向,总是希望有最好的修辞表达,总是希望切分出最好的汉词,在同一文化背景下,人们的思维方式,对“好坏”的理介程度,也总是一样的。有例外也是正常的,切分出不同的汉词,可以看作是修辞水平不同,或者是表达方法不同,也就是使用的汉词不同,还可以看作是创新,也可以看作是糟粕,不规范,等等这一切,都有可能发生。一般地说,好的汉词切分结果只有一种,不好的和一般的切分结果是多种多样的,而创新和糟粕,总是极个别的。
汉词切分出来以后,就可以使用赵词进行编码,参看图1至图5,为了便于理介,发明人首先给出例句的汉语语法词和汉语拼音词的书写形式,然后再给出汉词和拼音汉词编码。下面介绍两个拼音汉词编码实施例。
例2:
①他/对/该/事/件/的/意义,持/有/异议。(汉语语法词)
(②Tā duì gāi shìji àn de yì yì,chi yǒu yìyì.(汉语拼音词)
③他对该事件的意义,持有异议。(汉词)
④Talsduca gaks vihdjimb defa iihbiiha,wihmiidg iihciihd.
1 1 1 4 2 1 2 1 1 1 3 [4](拼音汉词编码)
在例2的④中,赵词下面的阿拉伯数字1、2、3、4、以及没有使用的5、6,跟图1的节调序号1至序号6中的节调字母一一对应,跟GB2312-80中现代常用汉字表的3755个汉字中每个音节的六个同音汉字一一对应,对应由发明人规定,参看下面例2的同音汉字统计表。赵词下面的带中括号的阿拉伯数字[1]、[2]、[3]、[4]、[5]、[6],跟图1的节调序号1至序号6中的节调字母一一对应,跟GB2312-80常用汉字表的3755个汉字中每个音节的第七个及更多的同音汉字一一对应,对应由发明人规定,参看下面例2的同音汉字统计表。例2的④中只使用了[4],赵词下面的阿拉伯数字,只是为了学习和说明方便才标注的,学会了赵词,就不必标注了。例2的同音汉字统计表,前面标的是汉语拼音,数字一律标在汉字的右下角。
例2的同音汉字统计表:
1/tā 塌4 他1 它3 她2
2/duì 兑3 队2 对1
3/gāi 该1
4/shì 式6 士[1] 世[2] 柿[1] 事4
拭[3] 誓[5] 逝[5] 势[2] 是1 嗜[4]
噬[6] 适[3] 仕[6] 侍[2] 释[3] 饰[4]
氏5 市2 恃[6] 室3 视[3] 试[1](例3使用的“轼”字,属于GB2312-80的次常用字,发明人规定为“轼[2]”。)
5/jiǎn 荐[2] 槛[1] 鉴[1] 践[3] 贱[5] 见1
键[2] 箭6 件2 健[6] 舰[1] 剑5
饯[3] 渐4 溅[4] 涧[5] 建3
6/de 的1(根据本发明的规定,轻声汉字如在小型字典上查不到汉字本调的,用去声声调替代,把dc写成dè。)
7/yì 艺4 抑[2] 易[5] 邑[1] 屹[4] 亿6
臆[6] 逸[5] 肄[6] 疫[6] 亦[1] 裔[2]
意2 毅[3] 忆[3] 义1 益[1] 溢[4]
诣[2] 议[2] 谊[2] 译[4] 异3 翼[5]
翌[4] 绎[3]8/chí 持1 匙2 池3 迟4 弛5 驰69/yǒu 酉3 有1 友2例3: ①题/西林壁 苏/轼
横/看/成/岭/侧/成/峰,
远/近/高/低/各/不同。
不/识/庐山/真/面目,
只/缘/身/在/此/山中。(汉语语法词)② TíXīLíNBì Sū SHìHéng Kàn chéng lǐng cèchéng fēng,Yuǎn jìn gāo dīgèbùt óng。BùshíLúshān zhēn miànmù,Zhi yuán shēn zài cǐshānzhōng。(汉语拼音)③ 题西林壁 苏轼
横看 成岭 侧 成峰。
远近 高低 各 不同。
不识 庐山 真 面目。
只缘 身在 此 山中。(汉词)④TIHN XIHSLINN BIHF SUHS VIHB(YIHV)
2 1 2 6 1 [2] [4]Hebmkama webmlibh cefc webmfebw.
1 1 1 2 3 1 5Oomgjinb gagsdihs gcfb buhatoym.
1 2 1 1 2 1 1Buhavihn Luhnvams ycns mimamuhb.
1 [2] 2 1 1 1 2
Yihjoomm vcnuzaka cihg vamsyoys.(拼音汉词编码)
4 [1] 3 1 1 1 1
例3的说明如下:
例3的同音汉字统计表略,其方法同例2的同音汉字统计表。需要强调的是,哪一个汉词对应哪一个赵词,或者说,哪一个汉字对应哪一个赵词,只能由发明人规定。
汉字“轼”用的很少,在现代汉语里,只是作为人名使用,按照本发明的第三条编码规则,汉字“轼”作为单汉字使用时,必须写成双声节“vihb(yihv)”,即“轼之”,这样写是发明人规定
[2] [4]的。小括号()表示括号内的声节不输出汉字,但必须编码输入电脑。作为人名地名使用的“人名类”汉字,据台湾的有关部门统计,大约是二万五千多个,其中的通用汉字还好办,比汉字“轼”用得更少的汉字也不少,对普通使用者来说,学习大量的象“轼之”这样的现代汉语不使用的双汉字及双声节,以及大量的双汉字专用人名及双声节,显然是不合适的。科技专业汉字等,也属于这类问题,对此,发明人将另外设法处理。
汉字“识”和“缘”,虽然是常用汉字,但不在发明人规定的同音汉字中的六个汉字序号之内,但“不识”,“只缘”是双汉字,编码用双声节,“buhavihn”、“yihjoomm”,符合第一条编
1[2] 4[1]码规则。
汉字“侧”、“各”、“真”、“此”、“题”、“壁”、“苏”是单汉字,在发明人规定的同音汉字中的六个汉字序号之内,编码用单声节,“ccfc”、“gcfb”、“ycns”、“cihg”、
3 2 1 1“tihn”、“bihf”、“suhs”,符合第二条编码规则。
2 6 1
只要是双汉字,就适用于第一条编码规则,一个双汉字固定使用一个双声节编码。大多数常用单汉字适用于第二条编码规则,一个单汉字固定使用一个单声节编码。少数常用单汉字、所有的不常用单汉字及今后新产生的单汉字,适用于第三条编码规则,一个单汉字固定使用一个双声节编码。当你对拼音汉词编码熟练应用以后,第三条编码规则可以灵活使用,即,一个单汉字可以使用多个相关的双声节编码。例如,汉字“轼”还可以写成双声节“(pibq)vihb”,即“凭轼”,根据使用者的方便,自己决定。但
5 [2]第一条和第二条编码规则是永远不能变的。拼音汉词编码,就是反复使用这三条编码规则。
顺便说一句,前面的GB2312-80常用汉字表的3755个汉字中,一个声节的平均长度是4.52个拉丁字母,实际情况是,由于第一条编码规则,一个声节的平均长度在4.00个至4.52个之间。
Claims (3)
1.一种汉字编码方法,其特征在于以汉词为汉字编码单位,以赵词为汉字编码形式,以汉词和赵词一对一编码的汉字编码方法,内容包括:
1)以汉词为汉字编码单位,由一个汉字和二个汉字组成的汉字编码单位,叫作“汉字汉词”,一个汉字的汉字汉词,叫作“单汉字”,二个汉字的汉字汉词,叫作“双汉字”,不加区别时,统称为“汉词”,汉词具有规定的书写形式和音义,汉词之间有空隔,本发明只使用以汉语为母词的具有初中以上文化的人确定的汉词,汉词是本发明的汉字编码单位;
2)以赵词为汉字编码形式,“汉语拼音方案”和台湾的“国语注音符号第二式”,分别使用四个声调符号,构造了大约1300个不同的书写音节,本发明使用26个不同的拉丁字母,叫作“节调字母”,又叫作“节调”,替代上述的四个声调符号,不使用轻声,把上述的大约1300个不同的书写音节,编码为大约8580个不同的编码,这8580个编码,叫作“声节”,又叫作“书写声节”,由一个声节和二个声节组成的汉字编码形式,叫作“拼音汉词”,一个声节的拼音汉词,叫作“单声节”,二个声节的拼音汉词,叫作“双声节”,不加区别时,统称为“拼音汉词”或者“赵词”,所以,本发明又叫作“赵词编码”,赵词具有规定的书写形式,赵词之间有空隔,单声节由声母、韵母、节调三部分组成,其中,声母由一个拉丁字母构成,韵母由二个拉丁字母构成,节调由一个拉丁字母构成,单声节由四个拉丁字母构成,双声节由八个拉丁字母构成,没有例外,赵词是本发明的汉字编码形式;
3)汉词和赵词一对一编码,有三条编码规则,一个双汉字固定使用一个双声节编码,一个单汉字固定使用一个单声节编码,一个单汉字固定使用一个双声节编码,哪一个汉词编码单位对应哪一个赵词编码形式,决定权在发明人,以汉字计算,哪一个汉字对应哪一个赵词编码形式,决定权在发明人。
2.根据权力要求1所述的方法,其特征在于,汉词和赵词作为方法,还可以用在计算机中文信息处理的所有方面,例如,自然语言理介,机器翻译,电子词典,大文本语料库,数据库与系统设计,语音识别与合成,文体处理,信息检索,自然语言和人机接口,邮电通讯,办公自动化,计算机自动分词等等。
3.根据权力要求1所述的方法,其特征在于,汉词作为汉字编码单位,还可以用于日本汉字和韩国汉字的汉字编码,汉词作为方法,还可以用于日本文语料和韩国文语料的计算机信息处理等自动化处理领域。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 96107547 CN1142077A (zh) | 1996-05-29 | 1996-05-29 | 拼音汉词编码 |
CN97113313A CN1109283C (zh) | 1996-05-29 | 1997-05-28 | 利用计算机键盘的拼音汉词编码输入法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 96107547 CN1142077A (zh) | 1996-05-29 | 1996-05-29 | 拼音汉词编码 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1142077A true CN1142077A (zh) | 1997-02-05 |
Family
ID=5119647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 96107547 Pending CN1142077A (zh) | 1996-05-29 | 1996-05-29 | 拼音汉词编码 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1142077A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102339279A (zh) * | 2010-07-21 | 2012-02-01 | 英业达股份有限公司 | 具有声调的拼音翻译与拼音查询系统及其方法 |
-
1996
- 1996-05-29 CN CN 96107547 patent/CN1142077A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102339279A (zh) * | 2010-07-21 | 2012-02-01 | 英业达股份有限公司 | 具有声调的拼音翻译与拼音查询系统及其方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1205572C (zh) | 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构 | |
CN100492350C (zh) | 以无模式输入将一种文本形式转换成另一种文本形式的语言输入体系结构 | |
CN1191514C (zh) | 处理中文文本的系统和方法 | |
CN112507734A (zh) | 一种基于罗马化维吾尔语的神经机器翻译系统 | |
CN1591414A (zh) | 一种汉语到盲文的自动翻译转换方法 | |
Trinh et al. | Applying prediction techniques to phoneme-based AAC systems | |
CN102053719A (zh) | 华文汉字输入法 | |
CN1142077A (zh) | 拼音汉词编码 | |
CN1091895C (zh) | 一种以汉语拼音为基础的计算机汉字输入方案 | |
CN1109283C (zh) | 利用计算机键盘的拼音汉词编码输入法 | |
CN1257444C (zh) | 计算机汉语全音输入法 | |
Ganjavi et al. | ASCII based transcription systems for languages with the Arabic script: The case of Persian | |
CN1350224A (zh) | 两笔优化拼音输入法及其键盘 | |
CN1025135C (zh) | 汉字元音码计算机输入方法及键盘 | |
Willis et al. | A probabilistic flexible abbreviation expansion system for users with motor disabilities | |
CN1257445C (zh) | 音义码汉字输入方法 | |
CN108459735A (zh) | 声韵双击触摸屏汉语拼音输入方法 | |
CN101813979B (zh) | 汉字拼音文字码输入法 | |
CN1485716A (zh) | 普通话拼音汉文输入法及其设备 | |
CN1296807C (zh) | 声声汉字输入法 | |
CN1641550A (zh) | 用数码标示英语英文字母国际音标的计算机信息生成方法 | |
CN1470978A (zh) | 一屏显示全部偏旁和高频单字的方块文字输入方案 | |
CN1248014A (zh) | 按部件首尾码的计算机汉字输入方法及其键盘 | |
CN1088210C (zh) | 六区五位汉语音节和汉字键盘输入方法 | |
CN1108553C (zh) | 通用普及型音元形音汉字编码输入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C01 | Deemed withdrawal of patent application (patent law 1993) | ||
WD01 | Invention patent application deemed withdrawn after publication |