CN106951402A - 新型汉语普通话信息ascii体系码 - Google Patents
新型汉语普通话信息ascii体系码 Download PDFInfo
- Publication number
- CN106951402A CN106951402A CN201710168727.4A CN201710168727A CN106951402A CN 106951402 A CN106951402 A CN 106951402A CN 201710168727 A CN201710168727 A CN 201710168727A CN 106951402 A CN106951402 A CN 106951402A
- Authority
- CN
- China
- Prior art keywords
- chinese
- coding
- standard chinese
- standard
- morpheme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003203 everyday effect Effects 0.000 claims abstract description 48
- 230000010365 information processing Effects 0.000 claims abstract description 11
- 238000005516 engineering process Methods 0.000 claims abstract description 7
- 241001672694 Citrus reticulata Species 0.000 claims description 8
- 238000000034 method Methods 0.000 description 41
- 150000001875 compounds Chemical class 0.000 description 10
- 239000013589 supplement Substances 0.000 description 8
- 239000002253 acid Substances 0.000 description 4
- IISBACLAFKSPIT-UHFFFAOYSA-N bisphenol A Chemical group C=1C=C(O)C=CC=1C(C)(C)C1=CC=C(O)C=C1 IISBACLAFKSPIT-UHFFFAOYSA-N 0.000 description 4
- 241000630665 Hada Species 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 125000004430 oxygen atom Chemical group O* 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 239000004575 stone Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 229940088594 vitamin Drugs 0.000 description 2
- 229930003231 vitamin Natural products 0.000 description 2
- 235000013343 vitamin Nutrition 0.000 description 2
- 239000011782 vitamin Substances 0.000 description 2
- 150000003722 vitamin derivatives Chemical class 0.000 description 2
- OQVYMXCRDHDTTH-UHFFFAOYSA-N 4-(diethoxyphosphorylmethyl)-2-[4-(diethoxyphosphorylmethyl)pyridin-2-yl]pyridine Chemical compound CCOP(=O)(OCC)CC1=CC=NC(C=2N=CC=C(CP(=O)(OCC)OCC)C=2)=C1 OQVYMXCRDHDTTH-UHFFFAOYSA-N 0.000 description 1
- PWHULOQIROXLJO-UHFFFAOYSA-N Manganese Chemical compound [Mn] PWHULOQIROXLJO-UHFFFAOYSA-N 0.000 description 1
- ZLMJMSJWJFRBEC-UHFFFAOYSA-N Potassium Chemical compound [K] ZLMJMSJWJFRBEC-UHFFFAOYSA-N 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 229910052748 manganese Inorganic materials 0.000 description 1
- 239000011572 manganese Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 229910052700 potassium Inorganic materials 0.000 description 1
- 239000011591 potassium Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明是一种汉语普通话语言信息和语义信息编码技术方案,属于中文信息处理领域,主要解决汉语普通话语言信息不能直接用ASCII码进行编码的问题,本发明用ASCII码对汉语普通话常用语素和次常用语素、汉语普通话常用词和非常用词、汉语普通话固定词组和自由词组、汉语普通话常用语素和次常用语素的义位、汉语普通话常用词和非常用词的义位,汉语普通话自由词组的义丛、汉语普通话句子的表述等汉语普通话语言信息和语义信息进行编码,并将这些编码联系为一个体系,从而拓展了中文信息处理技术的广度和深度,为今后中文信息处理和汉语自然语言理解软件的开发提供了一个更好的平台,达到了一个全新的境界。
Description
技术领域
本发明是一种汉语普通话语言信息编码技术方案,属于中文信息处理技术领域。
背景技术
本发明的背景技术是中华人民共和国国家标准GB2312-1980《信息交换用汉字编码字符集·基本集》、《新型汉语信息ASCII码》和《汉语普通话信息ASCII体系码》 。
发明内容
国家标准GB2312-1980《信息交换用汉字编码字符集·基本集》是计算机系统内部处理和存储汉字时使用的代码,在GB2312中规定,编码采用双七位编码方式(即两个字节表示一个汉字),为了与英文字母相区别,汉字机内代码中两个字节的最高位规定为“1”,英文字母的机代码是7位的ASCII码,这种编码在使用范围上有一些限制,例如在一些大中型计算机系统以及在网络通信环境中,要用字节的最高位作奇偶校验的情况下,就不能用这种汉字内部标识方法,而必须考虑设计其他形式的标识信息。国家标准GB2312-1980《信息交换用汉字编码字符集·基本集》只规定了汉字的编码,为了中文信息处理技术发展的需要,必须要对语素、词、语素的义位、词的义位等汉语语言信息进行编码来拓展中文信息处理技术的广度和深度,本编码的独特性在于另辟蹊径以《汉语拼音方案》为基础,直接用ASCII码对汉语普通话语言信息进行编码。
《新型汉语信息ASCII码》(申请号或专利号201510442110.8)是本人2015年7月24日申请的发明专利,该申请在31卷46期2015年11月18日专利公报上予以发布,这项专利的编码方法存在一些瑕疵,例如:没有对汉语普通话自由词组的义丛和汉语普通话句子的表述等汉语普通话信息进行编码的方法,所以有必要改进这项专利。
《新型汉语普通话信息ASCII体系码》(申请号或专利号201610707602.X)是本人2016年8月18日申请的发明专利,该申请在33卷05期2017年02月01日专利公报上予以发布,这项专利增加了对汉语普通话自由词组的义丛和汉语普通话句子的表述等汉语普通话语义信息进行编码的方法,但是没有对汉语普通话用汉字和语素等汉语普通话信息再细分小类进行编码,无法对不同类别的汉语普通话用汉字和语素进行不同的编码标记,所以有必要改进这项专利。
汉语声母的编码
《汉语拼音方案》中规定汉语拼音中有声母“b”、“p”、“m”、“f”、“zh”、“ch”、“sh”等21个声母,本发明以《汉语拼音方案》的声母作为声码。
汉语韵母的编码
《汉语拼音方案》中规定汉语拼音中有韵母“a”、“o”、“e”、“i”、“u”等35个韵母,本发明以《汉语拼音方案》的韵母作为韵码,因ASCII字符集中无ü这个字母的编码,我的解决办法是按照“ü”=u:的方式编码,所以《汉语拼音方案》的4个韵母“ü”、“üe”、“üan”、“ün”分别以“ü”=u:、“üe”=u:e、“üan”=u:an、“ün”=u:n的方式编码,其余韵母不作变更,作为韵码。
汉语声调的编码
《汉语拼音方案》中规定声调符号为:阴平(-)阳平(/)上声(v)去声(\),声调符号标在音节的主要母音上,轻声不标,这种标调方法需要首先确定哪个字母为音节的主要母音,比较复杂,我的解决办法是用5个拉丁字母符号ä、ë、ï、ö、ÿ分别表示阴平、阳平、上声、去声、轻声5个声调,声调标在韵母之后,因为ASCII字符集中没有这5个拉丁字母符号,我认为调码可以用ä=a:、ë=e:、ï=i:、ö=o:、ÿ=y:的方式编码。
汉字不是汉语的语言单位,语素、词和词组是汉语的语言单位,这是一个语言学常识,如果我们不首先将汉语的自身规律研究清楚,则汉语普通话语言信息的编码也就没有科学性可言。汉语词、语素和词组的区分众说纷纭,吕叔湘先生说过,任何对汉语词、语素和词组的区分做过一番思索的人都认为这是个很困难的问题,我认为语素是最小的、有意义的、没有词性的语言单位,词是有意义的、有词性的语言单位,词组是有意义的、没有词性的、可以单独作为一个句子成分的语言单位,词性是词所独有的语法性质,词可以根据词性不同而被划分为不同的词类。
汉语普通话词可以分为21世纪前出现的汉语普通话词和21世纪后出现的汉语普通话词(例如:微信),有同音词的汉语普通话词和无同音词的汉语普通话词(例如:俩), 在汉语普通话中绝大部分单音节汉语词、少部分双音节词和多音节词都有同音词,对汉语普通话词进行编码首先要对汉语普通话词进行区分同音词和同音词排序, 我们可以规定21世纪前出现的汉语普通话词的同音词可以根据其对应汉字的笔画数多寡和相同笔画数第一笔横竖撇点折以此类推的顺序排序,为了避免因新的同音词出现造成原有的同音词排序和编码变更,可以规定21世纪后出现的新同音词无论其对应汉字的是什么,新同音词必须排在出现时间靠前的同音词后面。
国家汉办汉语水平考试部和北京语言学院汉语水平考试中心研制的《汉语水平词汇与汉字等级大纲》收汉语普通话常用词8822词,北京语言学院编纂的《现代汉语频率词典》收汉语普通话常用词8548词,计算机必须像人脑一样优先处理常用词才能提高效率,所以汉语普通话汉语信息的编码首先要进行汉语普通话常用词的编码。
汉语普通话常用词编码
为了区分汉语普通话常用词的同音词,我选定a、e、n、o、u、w、x、z 这8个拉丁字母作为编码字母,根据数学上的抽屉定理,每个同音词在调码后加一个不同的编码字母或编码字母组合,就不会重码,这些编码字母位于调码之后,我们可以将这些编码字母称为后缀编码,所以汉语普通话常用词可以按照以下方法编码:汉语普通话常用词编码=声码+韵码+调码+后缀编码,后缀编码的作用是区别汉语普通话常用词的同音词,如有的汉语普通话常用词没有同音词,可省略后缀编码,如有的汉语普通话常用词的同音词的数量超过7个,可增加aa、ae、an、ao、au、aw、ax、az等拉丁字母组合来作为后缀编码,例如: 从《汉语水平词汇与汉字等级大纲》排查,汉语普通话常用词“世”有7个同音词,根据对应汉字的笔画数多寡和相同笔画数第一笔横竖撇点折的顺序排序,分别是“市”、“式”、“试”、“事”、“视”、“是”、“室”,按照上述方法编码我们可以分别得到以下编码: “世”的编码是:shiï a=shii:a ,“市”的编码是: shiïe=shii:e、“式”的编码是: shiïn=shii:n、“试”的编码是: shiïo=shii:o、“事”的编码是: shiïu=shii:u、“视”的编码是: shiïw=shii:w、“是”的编码是:shiïx=shii:x、“室”的编码是: shiïz=shii:z。
汉语普通话非常用词编码
汉语普通话非常用词编码可以按照以下方法编码:汉语普通话非常用词编码=声码+韵码+调码+s+后缀编码=声码+韵码+调码+汉语普通话非常用词后缀编码,字母s为英语seldom used(罕用的,不常用的)的缩写,汉语普通话非常用词后缀编码的作用是区别汉语普通话非常用词的同音词,如有的汉语普通话非常用词没有同音词则不需要加汉语普通话非常用词后缀编码,如有的汉语普通话非常用词的同音词的数量超过7个,可以增加s+aa、ae、an、ao、au、aw、ax、az等拉丁字母组合作为汉语普通话非常用词后缀编码,如有的汉语普通话非常用词的同音词的数量超过71个,则可以增加s+aaa、aae、aao、aau、aaw、aax、aaz等拉丁字母组合作为汉语普通话非常用词后缀编码。
汉语普通话拉丁词的编码
在汉语普通话中,有一类包含拉丁字母和阿拉伯数字的词,例如:CT、HSK、110、114、C4ISR、MP3等,我们可以把这些词称为汉语普通话拉丁词,这类词的数量比较少而且比较特殊,所以不必再区分汉语普通话常用拉丁词和汉语普通话非常用拉丁词,这类词已广泛用于汉语普通话口语和出版物中,已成为汉语普通话词汇的一部分,对于这类词我们直接用字母和阿拉伯数字编码就可以,例如:“CT”这个汉语普通话拉丁词的编码就是CT,“MP3”这个汉语普通话拉丁词的编码就是MP3。
汉字也不是汉语的语义单位,义位、义丛和表述是汉语的语义单位,这是一个语义学常识,义位是由语汇形式表示的、独立的、概括的、固定的语义单位,语汇形式包括语素、词和固定词组,自由词组的每一项语义称为义丛,句子的每一项句义称为表述,为了汉语语义信息编码技术发展的需要,有必要对汉语普通话中词的义位、自由词组的义丛和句子的表述等汉语普通话语义信息进行编码,像汉语普通话词的分类和排序一样, 义位、义丛和表述也分为21世纪前出现的义位、义丛及表述和21世纪后出现的义位、义丛及表述, 21世纪前出现的义位、义丛及表述的排序可以依据权威语义数据库中其电子数据的信息量多寡来排序,当今世界科学技术发展日新月异,各种新事物和新概念层出不穷,所以新的汉语普通话语义信息将会不断涌现, 为了避免因新的汉语普通话语义信息出现造成排序和编码的变更,可以规定21世纪后出现的汉语普通话语义信息无论其对应的语义数据库中其电子数据的信息量是多少, 这些新的汉语普通话语义信息必须排在出现时间靠前的汉语普通话语义信息后面。
汉语普通话常用词义位编码
义位是由语汇形式表示的、独立的、概括的、固定的语义单位,语汇形式包括语素、词和固定词组,英语中使用的是sememe这一术语,义位与义项是有区别又有联系的概念,严格地讲义位是属于语义学的范畴,义项是属于词典学的范畴,义位和义项还是有区别的,例如:“察”这个汉语普通话词,在《现代汉语词典》中共有2个义项:①仔细看;调查:观~ ②词性:名词,词义:姓,在这2个义项中,第1个义项中的“察”是语素,所以这个义项可以被认为是汉语普通话语素“察”的义位,但是不能被视为汉语普通话词“察”的义位。
词大多有数量不等的义位,词的义位可以依据权威语义数据库中每个词的每一个义位的电子数据的信息量多寡来排序,为了区分汉语普通话语言信息不同的义位,我选择b、d、f、h、i、k、l、t这8个拉丁字母+字母s作为汉语普通话义位编码字母,字母s为英语单词sememe(义位)的缩写,为避免拼读错误,字母s和汉语普通话语言信息编码之间用()隔开,如有的汉语普通话语言信息的义位超过8个,则采用bb、bd、bh、bi、bj、bk、bl、bt 等拉丁字母组合+s+()来进行编码,这些编码我们可以称为义位前缀编码,如有的汉语普通话语言信息只有一个语义信息,也必须加义位前缀编码来进行编码,因为不加义位前缀编码,会造成语言信息的编码与语义信息的编码混淆,所以汉语普通话常用词义位编码可以按照以下方法编码:汉语普通话常用词义位编码=义位前缀编码+(汉语普通话常用词编码),不选择+[ ]进行编码,是因为[ ]为汉语义素标记符号。
例如:汉语普通话中“发电”这个汉语普通话常用词从语义学的角度上看是由①打电报②发出、产生电力这2个义位构成,根据上述编码方法我们可以得到以下编码,“发电”的“打电报”义位编码是bs(faädianö)=bs(faa:diano:), “发电”的“发出、产生电力”的义位编码是ds(faädianö)=ds(faa:diano:), “发电”这个汉语普通话常用词与这2个义位的联系是:faädianö= faa:diano:= bs(faädianö)+ ds(faädianö)= bs(faa:diano:)+ ds(faädianö)。
汉语普通话非常用词义位编码
汉语普通话非常用词义位编码可以按照以下方法进行编码:汉语普通话非常用词义位编码=义位前缀编码+(汉语普通话非常用词编码)。
空字符串的编码
在很多编程语言内,空字符串标记为两个双引号:〞〞,空字符串在构建汉语普通话语言信息编码体系上有很大的作用,例如:汉语普通话常用词“爱戴”只有一个义位①动词,敬爱并拥护,根据以上编码公式“爱戴”的编码是aiödaiö=aio:daio:,“爱戴”的义位“敬爱并拥护”的编码是bs(aiödaiö)=bs(aio:daio:),很明显aiödaiö=aio:daio: ≠bs(aiödaiö)=bs(aio:daio:),所以为了构建完整的汉语普通话语言信息编码体系有必要引入空字符串〞〞这个概念,引入空字符串〞〞这个编码后,我们就可以建立汉语普通话常用词编码与汉语普通话常用词义位编码之间的联系并得到以下编码:aiödaiö=aio:daio:= bs(aiödaiö)+ 〞〞= bs(aio:daio:)+ 〞〞。
汉语普通话拉丁词义位的编码
汉语普通话拉丁词义位编码可以按照以下方法编码:汉语普通拉丁词义位编码=义位前缀编码+(汉语普通话拉丁词编码),例如:“OA”这个汉语拉丁词有1个义位“办公自动化”,根据上述编码方法我们可以得到以下编码:OA=bs(OA)+ 〞〞。
汉语普通话语素的编码
语素是最小的、有意义的、没有词性的语言单位,汉字与汉语语素是有区别又有联系的概念,大多数情况下一个汉字可以记录一个汉语语素,严格地说汉字是属于文字学的范畴,而语素是属于语言学的范畴,汉语普通话语素可分为四类,分别是:①可以单独构成汉语普通话常用词的语素,我们可以称这类语素为汉语普通话常用语素,②不能单独构成汉语普通话常用词的,可以与其它语素结合的,使用频率高的汉语普通话语素,我们可以称这类语素为汉语普通话次常用语素,③可以单独构成汉语普通话非常用词的,使用频率低于汉语普通话常用语素和次常用语素的汉语普通话语素,我们可以称这类语素为汉语普通话中等语素,④不能单独构成汉语普通话非常用词的,可以与其它语素结合的, 使用频率低于汉语普通话常用语素和次常用语素的汉语普通话语素,我们可以称这类语素为汉语普通话补充语素。
汉语普通话常用语素编码可以按照以下方法编码:汉语普通话常用语素编码=声码+韵码+调码+m+后缀编码=声码+韵码+调码+汉语普通话常用语素后缀编码,m为英语moreme(语素)的缩写,例如:汉语普通话常用词“工人”是由“工”和“人”2个汉语普通话常用语素构成的,所以根据上述编码方法,我们可以得到以下编码,并建立各编码之间的联系:gongärenë=gonga:rene:=gongäma+renëma= gonga:ma+rene:ma。
汉语普通话次常用语素编码可以按照以下方法编码:汉语普通话次常用语素编码=声码+韵码+调码+sm+后缀编码=声码+韵码+调码+汉语普通话次常用语素后缀编码, s为英语secondary(第二的)的缩写,m为英语moreme(语素)的缩写。
汉语普通话中等语素编码可以按照以下方法编码:汉语普通话中等语素编码=声码+韵码+调码+mm+后缀编码=声码+韵码+调码+汉语普通话中等语素后缀编码, m为英语middling(中等的)的缩写, m为英语单词moreme(语素)的缩写。
汉语普通话补充语素编码可以按照以下方法编码:汉语普通话补充语素编码=声码+韵码+调码+cm+后缀编码=声码+韵码+调码+汉语普通话中等语素后缀编码, c为英语complementary(补充的)的缩写, m为英语单词moreme(语素)的缩写。
汉语普通话语素义位的编码
语素虽然是最小的、有意义的、无词性的语言单位,但是很多汉语语素还是有多个义位,例如:汉语普通话常用语素“高”的义位有:①姓 ②高度 ③等级在上的 ④从下向上距离大,离地面远 ⑤ 在一般标准或平均程度之上的⑥等级在上的三角行、平行四边形等从底部到顶部(顶点或平行线)的垂直距离,汉语普通话次常用语素“高”的义位有:①敬辞,称赞别人的事务,如:~见、~论,②表示酸根或化合物中比标准酸根多含一个氧原子的,如:~锰酸钾,汉语普通话语素分为4种,所以汉语普通话语素义位编码也有4种编码方法。
汉语普通话常用语素义位编码可以按照以下方法编码:汉语普通话常用语素义位编码=义位前缀编码+(汉语普通话常用词语素编码)。
汉语普通话次常用语素义位编码可以按照以下方法编码:汉语普通话次常用语素义位编码=义位前缀编码+(汉语普通话次常用语素编码)。
汉语普通话中等语素义位编码可以按照以下方法编码:汉语普通话中等语素义位编码=义位前缀编码+(汉语普通话中等语素编码)。
汉语普通话补充语素义位编码可以按照以下方法编码:汉语普通话补充语素义位编码=义位前缀编码+(汉语普通话补充语素编码)。
汉语普通话用汉字的编码
为了建立汉字与汉语普通话语素、汉语普通话词等汉语普通话语言信息的联系,所以有必要对汉字进行编码,与汉语普通话语素类似,汉语普通话用汉字可分为5类,分别是①可以单独记录汉语普通话常用语素的汉字,我们可以称这类汉字为汉语普通话常用语素字,②可以记录汉语普通话次常用语素的汉语普通话用汉字,我们可以称这类汉字为汉语普通话次常用语素字,③可以单独记录汉语普通话中等语素的汉语普通话用汉字,我们可以称这类汉字为汉语普通话中等语素字,④可以记录汉语普通话补充语素的汉语普通话用汉字,我们可以称这类汉字为汉语普通话补充语素字,⑤不能记录汉语普通话语素的汉字,例如:“螃”,我们可以称这类汉字为汉语普通话非语素字。
汉语普通话常用语素字编码可以按照以下方法编码:汉语普通话常用语素字编码=声码+韵码+调码+c+后缀编码=声码+韵码+调码+汉语普通话常用语素字后缀编码,c为英语chinese character(汉字)的缩写。
汉语普通话次常用语素字编码可以按照以下方法编码:汉语普通话次常用语素字编码=声码+韵码+调码+sc+后缀编码=声码+韵码+调码+汉语普通话次常用语素字后缀编码, s为英语secondary(第二的)的缩写,c为英语chinese character(汉字)的缩写。
汉语普通话中等语素字编码可以按照以下方法编码:汉语普通话中等语素字编码=声码+韵码+调码+mc+后缀编码=声码+韵码+调码+汉语普通话中等语素字后缀编码, m为英语middling(中等的)的缩写, c为英语chinese character(汉字)的缩写。
汉语普通话非语素字编码可以按照以下方法编码:汉语普通话非语素字编码=声码+韵码+调码+fc+后缀编码=声码+韵码+调码+汉语普通话非语素字后缀编码, f为英语futile(无效的)的缩写,表示此类汉字不能单独记录汉语普通话语素, c为英语chinesecharacter(汉字)的缩写。
古汉语词和方言词的编码
古汉语和汉语方言中有大量的文言词和方言词,这些词的读音与汉语普通话的读音是有很大差异的,就是专业人士对如何编码也存在着比较大的争议,例如:粤语拼音方案就有香港语言学学会粤语拼音方案、广州话拼音方案和香港教育学院拼音方案等多种拼音方案,为降低计算机处理文言词和方言词的难度,可以将文言词和方言词按照汉语普通话汉字的编码规则进行编码。
古汉语和方言词义位编码
古汉语和方言词义位编码可以按照以下方法编码:古汉语和方言词义位编码=义位前缀编码+(古汉语和方言词汉字编码)。
少数民族词和音译词编码
汉语普通话中有一些少数民族词和音译词例如:“哈达”、“沙发”等,这些词应该按照国家标准《汉语拼音正词法基本规则》,以词为单位按照汉语普通话常用词和非常用词编码规则编码,例如:少数民族词“哈达”的编码是haïdaë=hai:dae:,音译词“沙发”的编码是shaäfaä=shaa:faa:。
少数民族词和音译词义位编码
少数民族词和音译词义位编码可以按照以下方法编码:少数民族词和音译词义位编码=义位前缀编码+(少数民族词和音译词编码)。
汉语普通话固定词组编码
汉语普通话固定词组编码应该按照国家标准《汉语拼音正词法基本规则》,以词为单位编码,如不能全部拆分为词的,可以分拆至语素甚至字母、标点符号,然后再进行编码,文言词和方言词固定词组可以按字分拆,按照汉语普通话汉字的编码方法进行编码,例如:“B族维生素”这个汉语固定词组可以分拆为字母“B”、语素“族”、词“维生素”这3个编码单位进行编码,“率尔操觚”这个文言词固定词组可以分拆为“率”“尔”“操”“觚”这4个编码单位进行编码。
汉语普通话固定词组义位编码
汉语普通话固定词组义位编码可以按照以下方法编码:汉语普通话固定词组义位编码=义位前缀编码+(汉语固定词组编码)。
汉语普通话自由词组编码
汉语普通话自由词组编码应该按照国家标准《汉语拼音正词法基本规则》,以词为单位编码,如不能全部拆分为词的,可以分拆至语素甚至字母、标点符号,然后再进行编码,文言词和方言词自由词组可以按字分拆,按照汉语普通话汉字的编码方法进行编码。
汉语普通话自由词组义丛编码
自由词组的每一项语义称为义丛,义丛可以依据权威语义数据库中每个自由词组的义丛的电子数据的信息量多寡来排序,例如“老工人代表”这个汉语普通话自由词组,有2个义丛,并按照义丛排序规则排序:①年龄老的工人代表(年龄老的,代表全体工人的代表)②老工人的代表(不一定是老人,也可能是代表老工人的青年人和中年人)。
汉语普通话自由词组义丛编码可以按照以下方法编码:汉语普通话自由词组义丛编码=汉语普通话自由词组义丛前缀编码+(汉语自由词组编码),汉语自由词组义丛前缀编码是由g、p、q、y这 4个拉丁字母+字母c构成的,字母c为英语cluster(义丛)的缩写, 如有的汉语自由词组义丛数量超过4个,可增加个gg、gp、gq、gy等拉丁字母组合+字母c作为汉语自由词组义丛前缀编码。
汉语普通话句子编码
汉语普通话句子编码应该按照国家标准《汉语拼音正词法基本规则》以词为单位分拆编码,如不能全部拆分为词的,可以分拆至语素甚至字母、标点符号,然后再进行编码,文言词和方言词句子可以按词分拆,按照汉语普通话汉字的编码方法进行编码。
汉语普通话句子表述编码
句子的每一项句义称为表述,表述可以依据权威语义数据库中每个句子的表述的电子数据的信息量多寡来排序,例如“三百六十行,行行出状元。”这句话有2项句义并按照表述排序规则排序:①每一行都有出类拔萃的行家里手 ②每一行都没有高低贵贱之分,只要热爱自己的本职工作,都会取得优异的成绩,汉语普通话句子表述编码可以按照以下方法编码:汉语普通话句子表述编码=汉语普通话句子表述前缀编码+(汉语句子编码),汉语普通话句子表述前缀编码是由r、 v这 2个拉丁字母+字母f构成的,字母f为英语formulation(表述)的缩写, 如有的汉语普通话句子的表述数量超过2个,可增加rv、rr、 vv、vr等拉丁字母组合+字母f作为汉语句子表述编码前缀,选择r、 v这 2个拉丁字母是因为在汉语拼音中韵母er用做韵尾时写成r, v这个拉丁字母在汉语拼音中只用来拼写外来语、少数民族语和方言,用做后缀编码易发生拼读错误,用做前缀编码+f()隔开则会避免拼读错误。
具体实施方式
一、例如:汉语普通话中“俩”这个常用词从语言学的角度看是由“俩”1个语素构成的,从语义学的角度看是由①两个 ②不多 2个义位构成的,根据上述编码方法我们可以得到以下编码,并建立各编码之间的联系,从而将汉语普通话中词的编码、语素的编码等汉语普通话语言信息编码连成一个编码体系,从而拓展了汉语普通话语言信息编码体系的广度和深度:liaöa=liao:a=liaöma+〞〞= liao:ma+〞〞=bs(liaöa)+ds(liaöa)= bs(liao:a)+ds(liao:a)。
二、例如:汉语普通话常用语素“高”的义位有:①姓 ②高度 ③等级在上的 ④从下向上距离大,离地面远 ⑤ 在一般标准或平均程度之上的⑥等级在上的三角行、平行四边形等从底部到顶部(顶点或平行线)的垂直距离,汉语普通话次常用语素“高”的义位有:①敬辞,称赞别人的事务,②表示酸根或化合物中比标准酸根多含一个氧原子的,如:~锰酸钾,我们可以按照上述编码方法编码,得到以下编码并建立各编码之间的联系:gaoäma=gaoa:ma=bs(gaoäma)+ds(gaoäma)+hs(gaoäma)+is(gaoäma)+js(gaoäma)+ks(gaoäma)= bs(gaoa:ma)+ds(gaoa:ma)+hs(gaoa:ma)+is(gaoa:ma)+js(gaoa:ma)+ks(gaoa:ma)≠gaoäsma=gaoa:sma= bs(gaoäsma)+ds(gaoäsma)= bs(gaoa:sma)+ds(gaoa:sma),通过对汉语普通话语素义位进行编码,我们就可以将汉语普通话语言信息的编码体系推进到语素义位这一级,从而拓展了汉语普通话语言信息编码体系的广度和深度。
三、例如:“他山之石,可以攻玉”这句古诗出自《诗经· 小雅·鹤鸣》,这个句子有3个表述,①别的山上的石头可以用来琢磨玉器 ② 比喻另外一个单位的经验和人才可以为本单位所借鉴和使用 ③ 比喻别人的意见和建议可以帮助自己改正错误和找到解决问题的办法,因为这是一个文言句子,所以这个句子可以按照汉语普通话汉字的编码规则进行编码,根据前述的编码方法,我们可以得到以下编码,并建立各编码之间的联系:taäcashanäca zhiäca shiëco ,keïca yiïn kongäcw yuöce。=r(taäca shanäca zhiäca shiëco ,keïca yiïn kongäcw yuöce。)+v(taäca shanäca zhiäca shiëco ,keïca yiïn kongäcw yuöce。)+rr(taäca shanäca zhiäca shiëco ,keïca yiïn kongäcw yuöce。)= r(taa:ca shana:ca zhia:ca shie:co ,kei:ca yii:n konga:cw you:ce。)+v(taa:cashana:ca zhia:ca shie:co ,kei:ca yii:n konga:cw you:ce。)+rr(taa:ca shana:cazhia:ca shie:co ,kei:ca yii:n konga:cw you:ce。)通过对汉语句子的表述进行编码,我们就可以将汉语普通话语言信息编码体系推进到句子的表述这一级,从而拓展了汉语语言信息编码体系的广度和深度。
我们将按照上述编码方法得到的编码,对照ASCII字符集,就可以将这些编码转换为计算机可以进行信息处理的二进制编码,而按照国家标准GB2312-1980《信息交换用汉字编码字符集·基本集》只能对汉字进行编码,而不能对语素、词、语素的义位、词的义位等汉语语言信息进行编码,所以本发明拓展了中文信息处理技术的广度和深度,为今后汉语自然语言理解软件和中文信息处理软件的开发提供了一个更好的平台,达到了一个全新的境界。
Claims (1)
1.本发明是一种汉语普通话语言信息和语义信息编码技术方案,属于中文信息处理领域,其特征是:用ASCII码对汉语普通话常用语素和次常用语素、汉语普通话常用词和非常用词、汉语普通话固定词组和自由词组、汉语普通话常用语素和次常用语素的义位、汉语普通话常用词和非常用词的义位,汉语普通话自由词组的义丛、汉语普通话句子的表述等汉语普通话语言和语义信息进行编码,并将这些编码联系为一个体系,从而拓展了中文信息处理技术的广度和深度,为今后中文信息处理和汉语自然语言理解软件的开发提供了一个更好的平台,达到了一个全新的境界。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710168727.4A CN106951402A (zh) | 2017-03-21 | 2017-03-21 | 新型汉语普通话信息ascii体系码 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710168727.4A CN106951402A (zh) | 2017-03-21 | 2017-03-21 | 新型汉语普通话信息ascii体系码 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106951402A true CN106951402A (zh) | 2017-07-14 |
Family
ID=59473499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710168727.4A Pending CN106951402A (zh) | 2017-03-21 | 2017-03-21 | 新型汉语普通话信息ascii体系码 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106951402A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117253474A (zh) * | 2023-07-06 | 2023-12-19 | 北京梦见星科技有限公司 | 基于语音识别的在线考试作弊行为检测系统、检测方法 |
-
2017
- 2017-03-21 CN CN201710168727.4A patent/CN106951402A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117253474A (zh) * | 2023-07-06 | 2023-12-19 | 北京梦见星科技有限公司 | 基于语音识别的在线考试作弊行为检测系统、检测方法 |
CN117253474B (zh) * | 2023-07-06 | 2024-02-13 | 北京梦见星科技有限公司 | 基于语音识别的在线考试作弊行为检测系统、检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dong | A history of the Chinese language | |
Sun | Chinese: A linguistic introduction | |
Farghaly et al. | Arabic natural language processing: Challenges and solutions | |
Habash | Introduction to Arabic natural language processing | |
Kaur et al. | HamNoSys to SiGML conversion system for sign language automation | |
Zólyomi | An introduction to the grammar of Sumerian | |
Abid et al. | Speak Pakistan: Challenges in developing Pakistan sign language using information technology | |
David | Descriptive grammar of Bangla | |
Li | The Chinese writing system in Asia: An interdisciplinary perspective | |
US20110275037A1 (en) | System and method of transliterating names between different languages | |
CN102479078B (zh) | 汉语语音码计算机汉语编程方法 | |
Peverelli | The history of modern Chinese grammar studies | |
Dictionary | Translation | |
Gnanadesikan | Dhivehi: The language of the Maldives | |
Al-Barahamtoshy et al. | Arabic text-to-sign (ArTTS) model from automatic SR system | |
Kang | Spoken language to sign language translation system based on HamNoSys | |
Bhagwat et al. | Translation from simple Marathi sentences to Indian sign language using phrase-based approach | |
Youguang | Modernization of the Chinese language | |
CN106372039A (zh) | 汉语普通话信息ascⅱ体系码 | |
CN106951402A (zh) | 新型汉语普通话信息ascii体系码 | |
Ramanujan et al. | What is an akshara? | |
CN107315725A (zh) | 汉语普通话信息ascii集合码 | |
CN107391464A (zh) | 新型汉语普通话信息ascii集合码 | |
CN104020859A (zh) | 计算机双文速录方法 | |
CN103853705A (zh) | 计算机汉语语音与外语语音实时语音字幕翻译方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170714 |
|
WD01 | Invention patent application deemed withdrawn after publication |