CN1120436C

CN1120436C - 用于识别孤立、非相关汉字的语音识别方法和系统

Info

Publication number: CN1120436C
Application number: CN97119643A
Authority: CN
Inventors: 唐道南; 朱晓瑾; 沈丽琴
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1997-09-19
Filing date: 1997-09-19
Publication date: 2003-09-03
Anticipated expiration: 2017-09-19
Also published as: CN1212403A; TW374894B; US6163767A

Abstract

一种可以识别孤立、非相关汉字的语音识别方法和系统。所述方法使用各种类型的汉字描述语言来描述要输入的孤立、非相关汉字，而所述的语音识别系统使用基于汉字描述语言(CDL)的识别器接收人们通过语音输入的各种类型汉字描述语言，在运用CDL语法分析器对其进行分析的基础上由汉字发生器根据分析结果产生相应的汉字。这样，在脱离上下文环境的情况下，也可以可靠地识别出孤立、非相关的汉字。

Description

用于识别孤立、非相关汉字的语音识别方法和系统

本发明一般涉及汉字语音识别技术，更具体地说，涉及孤立、非相关汉字的语音识别技术。

随着现代科学和计算机技术的发展，人与机器之间的信息交换变得越来越重要了。传统的信息交换方式主要是通过键盘输入，通过显示器或打印机输出。在进行汉字输入时，还得记住汉字编码。这种传统的方式非常不方便。如果计算机能获得象人一样的用声音进行信息交流的能力，那么，人与计算机之间便可以通过声音进行对话，这将使人机之间的信息交流发生根本性的变化，能大大提高信息处理的效率。目前在计算机工作者的努力下，已开发出各种语音识别系统。

因为汉字通常具有多个同音或近音字，所以在现有的汉语识别系统中人们借助词、词组或高层语言信息来解决汉字级上的歧义性，以便正确识别出每个汉字。人们一般使用声音模型来确定对应于输入的音节的最大可能汉字是什么，而用词典和储存有高层语言使用模式信息的语言模型来解决汉字级上的歧义性。

然而，在脱离上下文环境的情况下，识别孤立、非相关汉字是非常困难的。其识别结果通常是给出一组具有相同或相似发音的汉字。这样在输入人名、地名等不具有高层语言信息的情况下，语音输入变得极不可靠。另外，当现有的语音识别系统给出的识别结果中包含错误的汉字时，希望能借助语音输入来修改。

综上所述，需要一种智能输入方案以解决在汉语识别系统中一个或多个不相关汉字的识别问题。

根据本发明的第一个方面提供一种在中文语音识别系统中识别孤立、非相关汉字的方法，该方法包括步骤：

·定义至少一种类型的汉字描述语言；

根据要输入的孤立、非相关汉字来选取合适的汉字描述语言，并且通过语言输入所选取的汉字描述语言；

·对输入的汉字描述语言进行语音识别；

·对经过语音识别的汉字描述语言进行语法分析；以及

·根据分析结果产生相应的孤立、非相关汉字。

根据本发明的第二个方面提供一种可以识别孤立、非相关汉字的语音识别系统，该系统包括基于汉字描述语言的语音识别器，用于接收人们通过语音输入的各种类型汉字描述语言，并且对输入的汉字描述语言进行语音识别；汉字描述语言的语法分析器，对基于汉字描述语言的语音识别器输出的汉字描述语言进行语法分析；和，汉字发生器，根据汉字描述语言的语法分析器分析的结果产生相应的汉字。

本发明可以解决汉字语音识别系统中，当通过语音输入一个或多个不相关汉字时，所产生的不可靠识别问题。

通过以下结合附图的说明，会使本发明的优点更加明确。

图1是根据本发明的语音识别系统的功能方框图；

图2是图1中所示的基于CDL(汉字描述语言)语法的语音识别器的功能方框图；

图3为一流程图，说明如何使用基于CDL语法的语言模型；

图4用于解释图1中所示的CDL语法分析器和汉字发生器工作原理；

图5为一流程图，说明如何对输入的汉字描述语言进行语法分析以产生相应的孤立、非相关汉字。

根据本发明的一个实施例，可将汉字描述语言分为以下几类：

A：借助人们常用的特定词来描述一孤立、非相关的汉字。在此我们记为：Type A＝(W)，其中“W”表示特定的词。该词实际上表明一汉字或偏旁部首，例如“mu4 zi3 li3(木子李)”表示“李”，“kou3 tian1 wu2(口天吴)”表示“吴”，“cao3 zi4 tou2(草字头)”表示“艹”。大多数汉字的偏旁部首或用于姓氏等的汉字都可以用A类描述语言来描述。

B：借助构词来描述一个汉字。在此我们记为：Type B＝(W“de(的)”C)。这类描述语言以某一词开头，其后跟着汉字“de的”，然后是该词中的一个字。当用户试图输入单个汉字时，用户可以使用包含该字的某一词来标识它。这样的词理想上应是在声音上易识别的字典中的条目，如日常使用的词、成语、通用名称等。例如：“tai2 wan2de tai2(台湾的台)”用于标识“tai2(台)”，“tai2 dou2 de tai2(抬头的抬)”用于标识“tai2(抬)”，“bao3 bei4 de bei4(宝贝的贝)”用于标识“bei4(贝)”，“zhun3 bei4 de bei4(准备的备)”用于标识“bei4(备)”，“mo4 ming2 qi2 miao4 de mo4(莫名其妙的莫)”用于标识“mo4(莫)”，“deng4 xiao3 ping2 de deng4(邓小平的邓)”用于标识“deng4(邓)”等等。通常类型B中的“C”也可以用来描述多个汉字。例如：“deng4 xiao3 ping2 de xiao3 ping2(邓小平的小平)”用于标识“xiao3 ping2(小平)”，而“da4 cai2xiao3 yong4 de da4 cai2(大材小用的大材)”用于标识“da4 cai2(大材)”。

C：借助汉字的结构信息来描述汉字。汉语是表意字符，大多数汉字可以分解成简单汉字和偏旁部首。于是我们或者可以从一复杂的汉字中减去不需要的部分或者将简单的汉字和偏旁部首加在一起而得到所需的汉字。当找不到包含所希望汉字的词时，可以使用这类描述语言，或者当用户不知道汉字的发音时，也可以使用这类描述语言。根据不同用途，可将C类描述语言进一步细分成：

C1：使用其在复杂汉字中的位置来说明一汉字。在此我们记为：Type C1＝(cd“de(的)”pos)，其中“cd”描述一汉字(或偏旁部首在下文中我们不对它们进行区分)，而“pos”是一位置词。我们使用“cd”代替汉字C本身，是因为对C的识别可能不可靠。位置词“pos”可以是“zuo3 bian1(左边)”“you4 bian1(右边)”，“shang4 mian4(上面)”，“li3 mian4(里面)”，“zhong1 jian1(中间)”等等。例如，“xing2 zheng4 juan4 de xing2 de you4 bian1(行政院的行的右边)”用于描述“chu4(丁)”。

C2：从一汉字中去掉一成份形成一新的汉字。在此我们记为“Type C2＝(cd1 pos“qu4 diao4(去掉)”cd2)。例如：ye3 xu3 deye3 zhong1 jian1 qu4 diao4 yj2 shu4(也许的也中间去掉一竖)”用来描述乜。位置词是任选的。

C3：增加一些成份(汉字或偏旁部首)形成一个更复杂的汉字。类型C3的形式是：(pos1“shi4(是)”cd1，pos2“shi4(是)”cd2…)，用于指明每个汉字成份在最终形成汉字中的位置。例如“zuo3 bian1shi4 ti2 shou3 pang2，you4 bian1 shi4 wu2 chan3 jie1 ji2 de wu2(左边是提手旁，右边是无产阶级的无)”用于标识“fu3(抚)”。注意，第一子句中cd1是类型A，而第二子句中的cd2是类型B。类型C3可以有许多种变化，例如，“shang4 mian4 he2 shan1 po1 de shan1 yi2yang4，xia4 mian4 shi4 yi2 ge4 gu4 ti3 de gu4(上面和山坡的山一样，下面是一个固体的固)”用于描述“gu4(崮)”，“san2 dian3 shui3jia1 shang4 ge4 li4 zao3 zhang1(三点水加上个立早章)”用于描述“zhang1(漳)”。正如这些例子所示出的，类型C3的句法可以覆盖自然语言的大多数模式。这将增强用户友好性。

D.借助字义来描述一个字符。在此我们记为Type＝(C“yi4 si1shi4(意思是)”W)。例如，“jin3 yi4 si1 shi4 yu4 shi2(瑾意思是玉石)”由此给出“jin3(瑾)”。“jin3 ji4 si1 shi4 ji1 huang1(馑意思是饥荒)”由此给出“jin3(馑)”。

E：使用笔画来描述一汉字。所有汉字最终可以被分解成笔画。粗略而计，大约有6类笔画，即：“heng2(横)”，“shu4(竖)”，“pie3(撇)”，“na4(捺)”，“zhe2(折)”，“dian3(点)”。Type E＝(C“bi3 hua4 shi4(笔画是)”n1s1 n2s2 n3s3…)，其中C是任选的，n1、n2、n3是数字，s1、s2、s3是笔画。例如，“ma bi3hua4 shi4 yi4 pie3 yi4 zhe2 yi4 dian3(么笔画是一撇一折一点)”表示“ma(么)”。没有必要给出一字符的所有笔画，只给出一些开始的笔画就足够了。此外，可以将笔画加在一起，例如“wang2 bi3 hua4 shi4san1 heng2 yi2 shu4(王笔画是三横一竖)”，其中汉字“wang2(王)”的三个水平笔画，表示成“san1 heng2(三横)”。此外，还可以简单地给出笔画数，例如“ta1 bi3 hua4 shi4 wu3 hua4(它笔画是五划)”，表示“ta1(它)”。

F：用词语的汉语拼音来表示英文字母。尽管许多中国人对英文字母的发音不清楚，但他们熟细汉语拼音。Type F＝(W“de tou2 yi1ge4 pin1 yin1 zi4 mu3(的头一个拼音字母)”)，或者说，Type F＝(W“de tou2 pin1(的头拼)”)。例如“a1 yi2 de tou2 pin1(阿姨的头拼)”表示“A”，“zhong1 guo2 de tou2 pin1(中国的头拼)”表示“Z”。因为在汉语拼音中“I”“U”“V”不会是第一个字母所以为此设计了三个特殊的规则。我们使用“yi(-，移，以，易等)”用于“I”，“yu(淤，鱼，雨，玉，等)”用于“V”，其它以“y”开始的拼音用于“Y”，即：“yan1(烟)”，yun4(韵)”，等等。类似地，我们使用“wu(屋、无、五、物、等)即表示“U”，其它以“w”开头的拼音用于“W”，即：“wa1(蛙)”，“Weng1(翁)”等等。此外，汉语拼音的最后一个字母也可使用，例如(W“de wei3pin1(的尾拼)”)。

以上各种类型可以同时使用，形成复杂而有效的描述。例如“shang4 mian4 yi2 ge4 cao3 zi4 tou2，xia4 mian4 you4 bian1 shi4 ba1li2 de ba1(上面一个草字头，下面左边是白色的白，下面右边是巴黎的巴)”，这样来描述“pa1(葩)”。

通过以上描述，我们可以看到，用这些汉字描述语言可以方便、准确地确定一个具体的汉字。

根据本发明的用于孤立、非相关汉字的语音识别系统如图1所示。

图1所示的系统由三部分组成：基于CDL的语音识别机、CDL语法分析器和汉字发生器。

为了提高识别精确度，本发明的孤立、非相关汉字语音识别系统采用基于CDL的语音识别机来接收人们通过语音输入的对汉字的描述语言。如图2所示，基于CDL的语音识别机与常规的汉字语音识别机的区别在于语言模型上。通常的汉字语音识别机由词汇表、声音模型、基于统计的语言模型组成，如图2左部分所示。声音模型用于确定对应于输入语音的汉字有可能是什么，而用统计语言模型来解决单个汉字级上的歧义性。为了提高识别的精确度，即为了使孤立、非相关汉字语音识别系统能更好地接收、理解各类CDL语言，常规的语音识别机的统计语言模型上加上了一个基于CDL语法的语言模型。这样，当人们使用CDL语言描述一个汉字时，基于CDL的语音识别机由于具有基于CDL语法的语言模型，就能更好地理解人们的语音输入。假设我们以基于规则的方式针对第一实施例中的各类描述语言建立了语言模型，这样当人们通过语音输入“tai2 wan1 de tai2(台湾的台)”，由于基于CDL的语言模型中已储存有这样的规则，Type B＝(W“de(的)”C)，所以当“tai2 wan2”与统计语言模型中的一词匹配后，很容易将其识别成(W“de(的)”C)类型的描述语言。

图3所示的流程图说明了如何使用基于CDL语法的语言模型。

首先输入以前已识别出的词串h1、h2…hi；根据CDL语法查找h1、h2…hi可能遵循的一些语法规则R1、R2…Rj；找出在所有这些可能的语法规则R1、R2…Ri下，词串h1、h2…hi的下一个词hi+1有哪些可能性，即所有可能成为hi+1的词所组成的集合为S；调整语言模型对词汇集内所有词w的输出概率：P(w|h1、h2…hi)，若w是S以外的词，将概率置为0，再重新归一化以上概率分布；最后输出P(w|h1、h2…hi)，即w在上下文h1、h2…hi中出现的可能性。

将基于CDL语法的语音识别机识别出的结果，即一条符合CDL语言语法的句子送到孤立、非相关汉字的语音识别系统的第二部分，CDL语法分析器，对其进行语法分析。在本实施例中CDL语法分析器所基于的规则如下：

CD：汉字描述

PD：汉字部件描述

POS：位置词

W：一个词

C：一个汉字

n：数词

Type A：＝w

Type B：＝w“de(的)”C

POS：＝“zou3 bian1(左边)”|“you4 bian1(右边)”|“xia4mian4 zuo3 bian1(下面左边)”|…

TypeC1：＝CD“de(的)”POS

TypeC2：＝CD“qu4 diao4(去掉)”[[“yi1(一)”]“ge4(个)”]CD

PD：＝[[POS[“shi4(是)”|“you3(有)”]][“jia1 shang4(加上)”][[“ji1(一)”]“ge4(个)”]]CD|POS“he2(和)”CD“yi2 yang4(一样)”

TypeC3：＝PD|PD TypeC3

TypeD：＝c“yi4 si1 shi4(意思是)”w

STROKES：＝STROKE|STROKE STROKES

TypeE：＝[c]“bi3 hua4 shi4(笔画是)”STROKES

TypeF：＝w“de(的)”“tou2 yi1 ge4 pin1 yin1 zi4 mu3(头一个拼音字母)”|“tou2 pin1(头拼)”|“wei3 pin1(尾拼)”

CDL语法分析器运用以上规则对基于CDL的语音识别机的输出结果进行语法分析，当满足一类语法的定义后，就调用汉字生成器的相应部分产生相应的汉字。这个过程是递归的，直到对整个描述语句完成了语法分析。

汉字生成器由与CDL描述语言相对应的各部分组成。当CDL语法分析器将某一语法规则运用到描述语句上时，就调用汉字生成器的相应的部分。而汉字生成器的相应部分就根据已有的知识产生一汉字。

汉字生成器的组成如下：

CG-A：输入是(W)。简单地通过查表将W翻译成一个汉字。

CG-B：输入是(W，C)，如以上所述W是一词，而C是一汉字。此时识别结果C可能不正确，可能被识别成C的同音字“C～”。CG-B在词“W”中根据声音模型找出与C～发音类似的“C”。

CG-C：输入各种组成成份(汉字或偏旁部首)，位置、和动作(加减等)。应事先建立包含位置成份数据的字典。这样的字典可以根据偏旁部首或笔画数来存储。从该字典中，可形成汉字和分解汉字。可以使用各种查询技术来提高搜索的效率。

CG-D：输入是(C，W)其中W是描述“C”的含义的词。如在CG-B中所述，“C”可能被误识别成“C～”(同音字)。需要一个包含各汉字语义的字典。由于“W”可能并不完全与字典中对“C”的解释相同，所以需要一种计算“语义间距离”的方法。

CG-E：输入是“C”(任选)和其部分或全部笔画信息。需要一个包含每个汉字笔画的字典。如果给出“C”，我们可以使用其声音信息来缩小搜索空间。

CG-F：输入是W。取W的汉语拼音的头一个(或最后一个)字母。

图3给出了CDL语法分析器与汉字生成器的各部分协调工作的情况。

下面就一简单例子说明CDL语法分析器与汉字生成器的工作情况。

假设基于CDL的语音识别机输出的识别结果是：“上面一个草字头，下面左边是白色的白，下面的右边是巴黎的巴”。

白～：表示白的同音字；

巴～：表示巴的同音字；

CDL语法分析的过程如下：上面一个草字头，下面左边是白色的白～，下面右边是巴黎的巴～POS TypeA POS TypeB POS TypeB CD CD CD PD PD PD

TypeC3

CD

对字符发生器相应的部分调用过程下：

CG-A 艹

CG-B 白

CG-B 巴

CG-C 葩

图5以流程图的形式说明了如何对输入的汉字描述语言进行语法分析以产生相应的孤立、非相关汉字。

如图5所示，如果当前归约使用规则TypeA，则查找特定词-单字对照表，找到单字。如果当前归约使用规则TypeB，则按声音相似度找到词中与单字近音的字。如果当前归约使用规则TypeC，则查找位置部首-汉字表，找到汉字。如果当前归约使用规则TypeD，则查找字义及同义词典，并根据发音确定单字。如果当前归约使用规则TypeE，则查笔划字典并根据发音确定单字。如果当前归约使用TypeF，则取词的拼音的头一个或最后一个字母，重复以上过程，直至句子归约终结。

在以上实施例中，基于CDL的语音识别机不是必需的，也可以采用一般的汉语语音识别机。

通过以上结合实施例的描述，可以看出本发明可以可靠地识别出孤立、非相关的汉字。所有这些实施例都是用于说明本发明，而不应看成是对本发明的限制。本发明要求的保护范围由权利要求书来确定。

Claims

1.一种在中文语音识别系统中识别孤立、非相关汉字的方法，其特征在于以下步骤：

·定义至少一种类型的汉字描述语言；

·根据要输入的孤立、非相关汉字来选取合适的汉字描述语言，并且通过语音输入所选取的汉字描述语言；

·对输入的汉字描述语言进行语音识别；

·对经过语音识别的汉字描述语言进行语法分析；以及

.根据分析结果产生相应的孤立、非相关汉字。

2.根据权利要求1的识别孤立、非相关汉字的方法，其特征在于在对输入的汉字描述语言进行语音识别时，使用一个基于汉字描述语言的语法规则的语言模型来提高识别的精确度。

3.根据权利要求2的识别孤立、非相关汉字的方法，其特征在于进一步包括以下步骤：

输入以前已识别出的词串h1、h2…hi；

根据汉字描述语言的语法查找h1、h2…hi可能遵循的一些语法规则R1、R2…Rj；

找出在所有这些可能的语法规则R1、R2…Rj下，词串h1、h2…hi的下一个词hi+1有哪些可能性，即所有可能成为hi+1的词所组成的集合为S；

调整语言模型对词汇集内所有词w的输出概率：P(w|h1、h2…hi)，若w是S以外的词，将概率置为0，再重新归一化以上概率分布；以及

输出P(w|h1、h2…hi)，即w在上下文h1、h2…hi中出现的可能性。

4.根据权利要求1的识别孤立、非相关汉字的方法，其特征在于所述的汉字描述语言可分为以下几种类型：

A：借助人们经常使用的特定词来描述孤立、非相关汉字；

B：借助构词来描述孤立、非相关汉字；

C：利用汉字的结构信息来描述孤立、非相关汉字；

D：通过字义来描述孤立、非相关汉字；

E：使用笔画来描述孤立、非相关汉字；

F：用词语的汉语拼音来描述单个英文字母；

可以用以上各种类型描述语言之一或其组合来描述要输入的孤立、非相关汉字。

5.根据权利要求4的识别孤立、非相关汉字的方法，其特征在于对汉字描述语言进行语法分析并根据分析结果产生相应的孤立、非相关汉字的步骤包括：

如果当前归约使用规则A，则查找特定词-单字对照表，找到单字；

如果当前归约使用规则B，则按声音相似度找到词中与单字近音的字；

如果当前归约使用规则C，则查找位置部首-汉字表，找到汉字；

如果当前归约使用规则D，则查找字义及同义词典，并根据发音确定单字；

如果当前归约使用规则E，则查笔画字典并根据发音确定单字；以及

如果当前归约使用规则F，则取词的拼音的头一个或最后一个字母。

6.一种可以识别孤立、非相关汉字的语音识别系统，其特征在于包括：

·基于汉字描述语言的语法的语音识别器，用于接收人们通过语音输入的各种类型汉字描述语言，并且对输入的汉字描述语言进行语音识别；

·汉字描述语言的语法分析器，对基于汉字描述语言的语法的语音识别器输出的汉字描述语言进行语法分析；

汉字发生器，根据汉字描述语言的语法分析器分析结果产生相应的汉字。