CN1207664C

CN1207664C - 对语音识别结果中的错误进行校正的方法和语音识别系统

Info

Publication number: CN1207664C
Application number: CNB991106954A
Authority: CN
Inventors: 唐道南; 苏辉; 王茜莺; 沈丽琴; 秦勇
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 1999-07-27
Filing date: 1999-07-27
Publication date: 2005-06-22
Anticipated expiration: 2019-07-27
Also published as: US6513005B1; TW449735B; CA2313968A1; CN1282072A

Abstract

本发明公开了一种可以对语音识别结果中的错误进行校正的方法和语音识别系统。本发明的错误校正方法包括步骤：对输出的语音识别结果中的错误进行标记；用基于字形输入的方法输入与标记的错误相对应的正确字符；对基于字形的输入进行识别；显示候选的正确字符；用户从候选的正确字符中选出所需字符；和使用选出的字符代替错误的字符，所述方法的特征在于还包括步骤：使用错误字符的语音信息来对候选的正确字符进行筛选处理。

Description

对语音识别结果中的错误进行校正的方法和语音识别系统

本发明涉及语音识别技术，具体地说涉及使用语音信息对语音识别结果中的错误进行校正的方法和使用该方法的语音识别系统。

语音识别技术是一种利用计算机和数字信号处理技术准确地识别人的语音(如字、词、子句、句子等)的技术。语音识别的基础是提取待识别语音的各种有效特征，形成待识别的语音模式，并与存储在计算机内存中的样本模式相比较，再通过模式分类方法进行识别是什么字、什么词等。语音识别过程是对音节或词等语言成份的识别过程。无疑语音识别是一种快速地将文本输入到计算机中的有效方式。虽然目前对语音识别有大量研究，但由于语言的复杂性，在连续语音、话者无关、大词汇的识别方面还处于探索阶段。识别的准确率永远不会达到100％，所以对语音识别结果中的错误进行校正是必不可少的步骤。

在错误校正过程中各种输入方式的友好性和有效性是非常重要的，因为它们是完成语音识别过程的一部分，并且有可能是用户是否接受语音输入方式的决定性因素。通常采用诸如手写输入或各种基于笔画的输入方式来纠正语音识别结果中的错误，因为语音识别系统的用户一般来说不愿意使用键盘或不熟悉键盘，这些用户更希望使用接近自然书写习惯的基于笔形的手写输入方式，如手写输入、基于笔画或笔画类型的输入方式。但是，由于手写识别技术亦不太成熟，从而降低了校正语音识别结果中的错误的效率。目前各种纠正语音识别结果中的错误的方法都没有利用语音识别过程中产生的有用的语音信息。本发明的目的就是有效地利用语音识别过程中产生的语音信息提高语音识别的纠错效率，即：提高纠错的可靠性和速度。

本发明充分利用在语音识别过程中得到的语音信息使采用各种基于笔形的输入方法对语音识别结果中的错误进行校正的效率得到提高。本发明自动保存和处理来自语音识别过程的有效的语音信息。这是通过内部数据转换以及加入涉及各个统计模型的评估过程来实现的。本发明使用混淆矩阵产生语音模型并将语音模型和字、词级语言模型配合使用来优化纠错处理。

根据本发明的一个方面提供一种对语音识别结果中的错误进行校正的方法，包括：

对输出的语音识别结果中的错误进行标记；

用基于字形输入的方法输入与标记的错误相对应的正确字符；

对基于字形的输入进行识别；

显示候选的正确字符；

用户从候选的正确字符中选出所需字符；和

使用选出的字符代替错误的字符，

所述方法的特征在于还包括步骤：使用错误字符的语音信息来对候选的正确字符进行筛选处理。

根据本发明的另一个方面提供一种语音识别系统，包括：采集用户语音的语音检测装置；对语音模型中的每个发音计算出其与语音采样是否相同的概率估值的发音概率计算装置；根据语言模型计算文字在当前上下文情况下出现的概率估值的文字概率计算装置；对所述发音概率计算装置和文字概率计算装置的计算结果进行综合以得出与联合最大概率值对应的文字作为语音识别结果的文字匹配装置；利用识别结果修改上下文的上下文产生装置；以及文字输出装置，

所述语音识别系统的特征在于还包括一个错误校正装置，用户可以利用该错误校正装置对文字输出装置输出的语音识别结果中的错误进行标记，用基于字形输入的方法输入与标记的错误相对应的正确字符，而所述错误校正装置对基于字形的输入进行识别、产生候选的正确字符并利用错误字符的语音信息对候选的正确字符进行筛选处理。

通过以下结合附图对本发明最佳实施方式进行的详细描述，本发明的其它目的和特征将会更加明显。

图1为根据本发明一个实施例对语音识别结果中的错误进行校正的

具体操作流程；

图2为根据本发明一个实施例对语音识别结果中的错误进行校正的方法的一般流程图；

图3为根据本发明的一个实施例利用从混淆矩阵中得出的语音信息对候选字符进行筛选过程的一般流程图；

图4为现有技术的语音识别系统的构成示意图；

图5为根据本发明一个实施例的可以对识别结果中的错误进行校正的语音识别系统；和

图6为根据本发明一个实施例的错误纠正屏幕。

在图1中示出了根据本发明一个实施例的通过手写输入对语音识别结果中的错误进行校正的操作流程。当发现语音识别结果中存在错误时，可以按如下过程进行校正：

步骤101：用户进行口述，重复多次以得到正确结果；

步骤102：在屏幕上显示语音识别(SR)结果；

步骤103：用户标记待校正的错误；

步骤104：系统使用错误字符的音标来检索与该错误字符相关的语音信息(按统计模型形式)并将语音信息和语言模型配合使用，以对候选者排队并对候选者进行选择；

步骤105：用户借助各种输入方法，如手写输入方法，来输入与标记的错误字符对应的正确字符；

步骤106：当在各种输入过程中完成了识别过程时，系统利用步骤104中的模型对当前候选者清单中的候选者排队以获得较高的准确性和较高的速度；

步骤107：将由此产生的候选者清单的一部分或全部显示在屏幕上；

步骤108：用户通过光标等选择正确的字符。

图2示出了对于采用基于笔画的键盘或手写输入时，语音识别结果中的错误的恢复过程，如图2所示：

步骤201：用户完成第一遍口述；

步骤202：在显示器上显示语音识别(SR)结果；

步骤203：用户检验结果，如果识别结果中没有错误，则不需校正，则输入过程结束。如果在语音识别结果中存在一个或多个错误，用户标记待校正的错误。这可以是由多个字组成的词。用户通常要求显示一个侯选者清单。如果在清单中存在正确的字符，则用户直接到步骤209，否则用户转到步骤204。对于语音识别结果中的每个错误可以重复执行该步骤。

步骤204：用户通过语音输入与标记的错误字符(字、词)对应的正确字符(字、词)。语音识别机将只使用语音模型对其进行译码(即：禁止语言模型)。如果在屏幕上显示出正确的字符(字、词)作为候选者，则用户转到步骤209；

步骤205：如果屏幕上显示的字符(字、词)仍不正确，用户可以重复执行步骤204；

步骤206：当错误持续存在时，用户开始输入正确的字符，即输入字符的笔画序列；

步骤207：系统根据从步骤204中得到的错误字符的发音类型，从混淆矩阵中检索和错误字符相关的统计模型。该模型俘获错误字符的统计意义上来说最有用的特征，它可以由错误字符的第一个声母或拼音字母的分布组成；

步骤208：由步骤207中获得的语音模型和字、词级语言模型配合使用，导出在连续的笔画输入过程中对候选的字符(字、词)的似然性的概率估计。使用这些集成模型对基于笔画输入而产生的候选者进行排列以提高纠错效率；

步骤209：用户通过光标等选择所需的正确字符，并输入其在候选者清单中的序号。

以下结合图3，描述一个根据本发明一个具体的实施例利用从混淆矩阵中得出的语音信息对候选字符进行筛选的过程。

利用来自语音识别过程的语音信息的目的是有效地对候选的字符(字、词)进行排队。以下详细地描述对于给定的错误字符(字、词)，如何从预先产生的混淆矩阵中提取语音信息。还将描述如何在这种概率统计模型的基础上结合语言模型来对候选字符(字、词)进行筛选。

首先介绍如何产生混淆矩阵。假定混淆矩阵是事先由语音输入错误数据产生的，它俘获连续语音输入中所有音节的错误概率。

将汉语中的音节集定义为：

SSet＝{S₁，S₂…，S_N}

为了得到每个识别结果中的错误E的候选者，我们需要得到在给定识别字符的音节和其上下文情况下每个候选者的概率，即：

P(C|S_HE，H)

其中C代表某一候选者，S_HE是识别出的字符的音节序列，包括识别错误字符本身的音节和其最近的历史情况，即：S_HE＝S(H)+S(E)，其中S(H)代表H的音节序列，S(E)代表E的音节序列。H是其语境的历史情况。然后我们根据上述概率值对候选者排队。

使用Bayes规则，我们可以得出

P (C | S_{HE}, H) = \frac{P ({CS}_{HE} H)}{P (S_{HE} H)} = \frac{P (S_{HE} H | C) P (C)}{P (S_{HE} H)}

因为S_HE是纯语音，并且H是纯语言事件，所以我们可以将它们认为是完全独立的变量。并且确定给定的识别出的字符的S_HE和H。所以上述等式可以简化为：

Rank \frac{P (S_{HE} H | C) P (C)}{P (S_{HE} H)} = RankP (S_{HE} | C) P (H | C) P (C)

= Rank \frac{P (C | S_{HE}) P (C | H)}{P (C)} - - - (1)

为了实用，我们将P(C|S_HE)简化为P(C_S|S_E)，其中C_S表示C的音节，S_E是识别错误字符的音节。这种简化表明我们忽略了语音上下文S(H)，并将具有相同音节的字符组成一类。

在训练时，我们采用M个测试者，每个测试者读N个测试语句。我们按音节不管语言模型来对这些测试者的语句进行识别。

对测试语句中的每个音节S_T，如果将其识别为S_D，其中S_D可以是S_T本身，我们将在混淆矩阵中对Count(S_T-S_D)加1。然后，我们可以得到将S_T识别为S_D的概率：

P (S_{D} | S_{T}) = \frac{Count (S_{T} - S_{D})}{ΣCount (S_{T} - S_{M})}

对于所有S_M∈SSet

其中S_T，S_D∈SSet，Count(S_T-S_D)是将S_T识别为S_D的次数，∑Count(S_T-S_M)是一行S_T的累加，它代表S_T被识别为任何音节的总次数S_M∈SSet。我们在最终的混淆矩阵中保存P(S_D|S_T)。

同时，我们可以得到：

P (S_{T}) = \frac{Count (S_{T})}{ΣCount (S_{m})} - - - (2)

对于所有S_M∈训练数据

混淆矩阵

通过使用混淆矩阵，我们得到识别出的音节S_D，并且我们想得到S_D来自于给定的S_T的概率，即(S_T|S_D)。使用Bayes规则，我们得到：

P (S_{T} | S_{D}) = \frac{P (S_{D} | S_{T}) P (S_{T})}{P (S_{D})}

当我们计算P(C_S|S_E)时，

P (C_{S} | S_{E}) = P (S_{T} = C_{S} | S_{D} = S_{E}) = \frac{P (S_{D} = S_{E} | S_{T} = C_{S}) P (S_{T} = C_{S})}{P (S_{D} = S_{E})}

对于所有候选者P(S_D＝S_E)都相同，所以在对候选者排队时，P(S_D＝S_E)是没用的。我们从混淆矩阵中能得到P(S_D＝S_E|S_T＝C_S)以及公式(2)中的P(S_T＝C_S)。

尽管上述方法适合于用户在首次完成他/她的语音输入之后列出候选者并相对于特定的错误字符寻找候选者(上述错误恢复过程中的步骤203)，这里我们将注意力放在用户已重复对错误的字符进行语音输入，但仍失败，并准备采用基于笔形的输入方法的情形(步骤206)。这表明在正确的字符以具体方式读出之后，错误仍然存在。

于是可以由在一具体语音输入环境中记录下来的错误字符来训练混淆矩阵。这种混淆矩阵可以和语言模型一起来使用以对笔形输入过程中产生的候选者进行排队。

为了防止混淆矩阵中各数据项不准确(由于训练数据不充分、不熟悉的发音，等)，可以使用下述方式修改混淆矩陈以补充原始的混淆矩阵方法。我们首先将音节聚集成不同的起始韵母组(包括起始韵母丢失的组)并按上述相同的方式产生韵母混淆矩阵。我们还可以将音节聚集成不同的声母组并产生声母混淆矩陈。这些矩阵将给出两个独立的语音模型，它们可以和字、词级语言模型配合使用来对有效的被认为是正确的字、词的全部的似然做出估计。

图3描述了根据本发明的一个具体实施例利用从混淆矩阵中得出的语音信息对候选者进行筛选的过程。

步骤301：对用户基于笔形的输入进行识别产生候选者清单C＝{C₁，C₂…C_n}；

步骤302：对于候选者清单C＝{C₁，C₂…C_n}中的每一候选者C_i，从混淆矩阵中得出其音节S_Ci与识别错误字符音节S_E的似然性；

步骤303：判断从混淆矩阵中得出的似然性是否大于一阈值S_lim，如果判断结果为小于S_lim则从候选者清单中去掉该候选者，并对下一个候选者执行步骤302；

步骤304：如果判断结果为从混淆矩阵中得出的仍然性大于等于阈值S_lim，则将此候选者保留作为待显示给用户的候选者清单中的成员，对下一个候选者执行步骤302；

步骤305：在对C＝{C₁，C₂…C_n}中所有候选者执行了以上步骤后，将保留在候选者清单中的候选者显示给用户。

例如在某个语音识别过程中将“世”识别成“是”，为了校正错误，我们借助基于笔形的输入方法输入了笔画“一”，这时：

C＝{一厂丁二七十才寸士世}

如果不利用语音信息，正确的“世”在很靠后的位置，但通过以上步骤301-305的处理，显示给用户的候选者清单将是：

C＝{十士世}

由此可以看出借助语音信息可以提高错误校正的效率。

此外，我们可以使用语言模型(LM)来对候选者清单来做进一步限定。为了使用LM来裁剪候选者清单，我们注意到，由于假设错误是发生在单个字输入环境中，我们只需考虑一元文法语言模型。换句话说，在对有效的候选者进行评估和排序过程中，我们仅简单地在语音模型中加入单字频率。我们还可以对语音和语言模型加权，对于不熟悉的题目可以减小语言模型的权值。

此外，对于基于笔画的输入，可以根据笔画或笔画类型序列将所有涵盖的字符集组织成树形结构。当依次输入笔画(笔画类型)时，系统对产生的树形结构进行遍历，只保留有效的分枝。可以使用组合的语音(混淆矩阵)以及语言模型来对当前有效的候选者排队，这是基于它们整体似然值来完成的。

可以对这种声音辅助笔画输入的有效性进行如下的估计。在不借助任何现有的语音信息独立地使用笔画/笔画类型输入系统时，平均需要5.36个笔画才能把常用汉字集中的6763个汉字限制到10个以下候选者上。当我们使用字、词级语言模型来处理多字词时，每个汉字的有效笔画数可以减少到3.12。

当借助现有的语音信息输入笔画时，如果我们假设错误字符的第一个拼音字母90％为正确的，则为了俘获上层10个候选者清单中的正确候选者，所需平均笔画数不会超过2.8(或3.7)。如果假设90％的声母是正确的，则俘获正确候选者所需笔画数不会超过2.5(或3.4)。使用声母和韵母信息的这两个模型共同工作，可以使所需输入的平均笔画数不会超过1.0027。

如果通过长度为100的混淆集的混淆矩阵提供已有的语音信息，而在顶层10个候选者中语音识别机不能提供正确的字符，则需要基于笔画的输入方法。如果10-100混淆集可以涵盖60％的错误字符的正确候选者，我们的初始混淆矩阵数据导致所需输入笔画数为3.572。通过使用语音模型和字符及语言模型可以获得这些数字。通过字词级预测方式，每个字符所需的平均有效笔画数会进一步降低。估计为2.2-2.56。

如果在错误词中有其它错误的字符，则其它错误字符的混淆矩阵与语言模型一起用来分别提供待估测的字符候选者。也可以估计每个字符的平均有效笔画数。

由此可以看出通过使用语音信息可以使语音识别错误的校正效率大大提高。以下描述一下使用这种语音辅助方法的进行错误校正的语音识别系统。

如图4所示，一般的语音识别系统包括一个语音模型7和一个语言模型8。语音模型7包括所识别语言中的常用文字的发音。这种发音是利用统计方法从多数人对某个文字的阅读发音中总结出来的，代表了该文字的一般发音特征。语言模型8包括所识别语言中常用文字的使用方法。

图4所示的连续语音识别系统的工作过程为，语音检测装置1采集用户的语音，例如将语言表示为语音采样，将该语音采样送到发音概率计算装置2。发音概率计算装置2对语音模型7中的每个发音给出其与语音采样是否相同的概率估值。文字概率计算装置5，根据从大量语料中总结出的语言规律，给出对语言模型8中的文字是否是当前上下文情况下应出现的文字的概率估值。文字匹配装置3，将发音概率计算装置2计算的概率估值与文字概率计算装置5计算的概率估值结合起来，计算一个联合概率(该联合概率值表示将语音采样识别为该文字的可能性)，联合概率值最大的文字，作为语音识别的结果。上下文产生装置4利用上述识别结果修改当前的上下文，以便为识别下一个语音采样所用。文字输出装置6输出所识别的文字。

图5示出了根据本发明一个优选实施例的可以对语音识别结果中的错误进行校正的语音识别系统，在该系统中，用户通过基于笔形的输入装置9输入正确的字符，而错误校正装置10要据语音模型7和语言模型8对候选者清单产生装置11产生的候选者清单进行筛选。

基于笔形的输入装置可以是书写板也可以是输入笔画或笔画类型的装置。在不增加硬件的情况可以通过以下几种方式实现笔画输入：

1.使用通用键盘上的一个子区域设计汉字笔画或笔画类型用于输入笔画。笔画类型可以使笔画的输入更为简单和可靠。

2.在错误校正屏幕上设计虚拟的按键集。

3.用户可以使用鼠标来标识所希望的笔画。可以开发一个识别系统来识别整个笔画或笔画类型集。

4.也可以使用语音来输入笔画或笔画类型。

此外，在对语音识别结果中的错误进行校正过程中，当用户标记了错误之后，根据请求可以弹出一个候选者清单。在此我们描述一个错误校正屏幕的设计。如图6所示，该错误校正屏幕由用于输入五种笔画类型的虚拟键盘和其右侧的候选者清单组成。当用户开始使用虚拟键盘输入笔画类型时，其右侧的候选者清单将自动更改，每输入一笔画类型，将显示新的顶层候选者。在同一屏幕上集成候选者清单和虚拟笔画键盘的用户接口将更便于提高错误校正的速度。

以上结合具体实施例描述了根据本发明的对语音识别结果中的错误进行校正的方法和具有错误校正功能的语音识别系统。对于本领域技术人员来说很明显，在不背离本发明的精神前提下，可以对本发明做出许多修改，本发明旨在包括所有这些修改和变型，本发明的保护范围由所附权利要求书来限定。

Claims

1.一种对语音识别结果中的错误进行校正的方法，包括步骤：

对输出的语音识别结果中的错误进行标记；

对基于字形的输入进行识别；

显示候选的正确字符；

用户从候选的正确字符中选出所需字符；和

使用选出的字符代替错误的字符，

2.根据权利要求1的对语音识别结果中的错误进行校正的方法，其特征在于所述语音识别为汉语语音识别，并且所述字符为汉语中的字、词或字、词的组合。

3.根据权利要求1或2的对语音识别结果中的错误进行校正的方法，其特征在于所述错误字符的语音信息来自于语音识别阶段中用户的口述。

4.根据权利要求1或2的对语音识别结果中的错误进行校正的方法，其特征在于所述错误字符的语音信息是在错误校正阶段从用户口述中得到的。

5.根据权利要求1或2的对语音识别结果中的错误进行校正的方法，其特征在于所述语音信息为使用混淆矩阵得出的语音模型。

6.根据权利要求5的对语音识别结果中的错误进行校正的方法，其特征在于所述语音模型和字、词级语言模型配合使用，以对候选的字符进行筛选处理。

7.根据权利要求1或2的对语音识别结果中的错误进行校正的方法，其特征在于使用树形结构来组织候选字符，并使用所述语音信息对树形结构进行裁剪。

8.根据权利要求7的对语音识别结果中的错误进行校正的方法，其特征在于所述语音信息为使用混淆矩阵得出的语音模型。

9.根据权利要求8的对语音识别结果中的错误进行校正的方法，其特征在于所述语音模型可以和字、词级语言模型配合使用，以有效地对树形结构进行裁剪。

10.根据权利要求1或2的对语音识别结果中的错误进行校正的方法，其特征在于：在同一屏幕上集成候选的正确字符和虚拟的笔画键盘。

11.一种可以对语音识别结果中的错误进行校正的语音识别系统，该语音识别系统包括：采集用户语音的语音检测装置；对语音模型中的每个发音计算出其与语音采样是否相同的概率估值的发音概率计算装置；根据语言模型计算文字在当前上下文情况下出现的概率估值的文字概率计算装置；对所述发音概率计算装置和文字概率计算装置的计算结果进行综合以得出与联合最大概率值对应的文字作为语音识别结果的文字匹配装置；利用识别结果修改上下文的上下文产生装置；以及文字输出装置，

12.根据权利要求11的语音识别系统，其特征在于所述语音识别为汉语语音识别，并且所述字符为汉语中的字、词或字、词的组合。

13.根据权利要求11或12的语音识别系统，其特征在于所述错误字符的语音信息来自于语音识别阶段中用户的口述。

14.根据权利要求11或12的语音识别系统，其特征在于所述错误字符的语音信息是在错误校正阶段从用户口述中得到的。

15.根据权利要求11或12的语音识别系统，其特征在于所述语音信息为使用混淆矩阵得出的语音模型。

16.根据权利要求15的语音识别系统，其特征在于所述语音模型和字、词级语言模型配合使用，以对候选的字符进行筛选处理。

17.根据权利要求11或12的语音识别系统，其特征在于使用树形结构来组织候选字符，并使用所述语音信息对树形结构进行裁剪。

18.根据权利要求17的语音识别系统，其特征在于所述语音信息为使用混淆矩阵得出的语音模型。

19.根据权利要求18的语音识别系统，其特征在于所述语音模型可以和字、词级语言模型配合使用，以有效地对树形结构进行裁剪。

20.根据权利要求11或12的语音识别系统，其特征在于：在同一屏幕上集成候选的正确字符和虚拟的笔画键盘。