[go: up one dir, main page]

CN1207664C - 对语音识别结果中的错误进行校正的方法和语音识别系统 - Google Patents

对语音识别结果中的错误进行校正的方法和语音识别系统 Download PDF

Info

Publication number
CN1207664C
CN1207664C CNB991106954A CN99110695A CN1207664C CN 1207664 C CN1207664 C CN 1207664C CN B991106954 A CNB991106954 A CN B991106954A CN 99110695 A CN99110695 A CN 99110695A CN 1207664 C CN1207664 C CN 1207664C
Authority
CN
China
Prior art keywords
character
speech
correct
speech recognition
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB991106954A
Other languages
English (en)
Other versions
CN1282072A (zh
Inventor
唐道南
苏辉
王茜莺
沈丽琴
秦勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CNB991106954A priority Critical patent/CN1207664C/zh
Priority to TW088115493A priority patent/TW449735B/zh
Priority to CA002313968A priority patent/CA2313968A1/en
Priority to US09/624,962 priority patent/US6513005B1/en
Publication of CN1282072A publication Critical patent/CN1282072A/zh
Application granted granted Critical
Publication of CN1207664C publication Critical patent/CN1207664C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种可以对语音识别结果中的错误进行校正的方法和语音识别系统。本发明的错误校正方法包括步骤:对输出的语音识别结果中的错误进行标记;用基于字形输入的方法输入与标记的错误相对应的正确字符;对基于字形的输入进行识别;显示候选的正确字符;用户从候选的正确字符中选出所需字符;和使用选出的字符代替错误的字符,所述方法的特征在于还包括步骤:使用错误字符的语音信息来对候选的正确字符进行筛选处理。

Description

对语音识别结果中的错误 进行校正的方法和语音识别系统
本发明涉及语音识别技术,具体地说涉及使用语音信息对语音识别结果中的错误进行校正的方法和使用该方法的语音识别系统。
语音识别技术是一种利用计算机和数字信号处理技术准确地识别人的语音(如字、词、子句、句子等)的技术。语音识别的基础是提取待识别语音的各种有效特征,形成待识别的语音模式,并与存储在计算机内存中的样本模式相比较,再通过模式分类方法进行识别是什么字、什么词等。语音识别过程是对音节或词等语言成份的识别过程。无疑语音识别是一种快速地将文本输入到计算机中的有效方式。虽然目前对语音识别有大量研究,但由于语言的复杂性,在连续语音、话者无关、大词汇的识别方面还处于探索阶段。识别的准确率永远不会达到100%,所以对语音识别结果中的错误进行校正是必不可少的步骤。
在错误校正过程中各种输入方式的友好性和有效性是非常重要的,因为它们是完成语音识别过程的一部分,并且有可能是用户是否接受语音输入方式的决定性因素。通常采用诸如手写输入或各种基于笔画的输入方式来纠正语音识别结果中的错误,因为语音识别系统的用户一般来说不愿意使用键盘或不熟悉键盘,这些用户更希望使用接近自然书写习惯的基于笔形的手写输入方式,如手写输入、基于笔画或笔画类型的输入方式。但是,由于手写识别技术亦不太成熟,从而降低了校正语音识别结果中的错误的效率。目前各种纠正语音识别结果中的错误的方法都没有利用语音识别过程中产生的有用的语音信息。本发明的目的就是有效地利用语音识别过程中产生的语音信息提高语音识别的纠错效率,即:提高纠错的可靠性和速度。
本发明充分利用在语音识别过程中得到的语音信息使采用各种基于笔形的输入方法对语音识别结果中的错误进行校正的效率得到提高。本发明自动保存和处理来自语音识别过程的有效的语音信息。这是通过内部数据转换以及加入涉及各个统计模型的评估过程来实现的。本发明使用混淆矩阵产生语音模型并将语音模型和字、词级语言模型配合使用来优化纠错处理。
根据本发明的一个方面提供一种对语音识别结果中的错误进行校正的方法,包括:
对输出的语音识别结果中的错误进行标记;
用基于字形输入的方法输入与标记的错误相对应的正确字符;
对基于字形的输入进行识别;
显示候选的正确字符;
用户从候选的正确字符中选出所需字符;和
使用选出的字符代替错误的字符,
所述方法的特征在于还包括步骤:使用错误字符的语音信息来对候选的正确字符进行筛选处理。
根据本发明的另一个方面提供一种语音识别系统,包括:采集用户语音的语音检测装置;对语音模型中的每个发音计算出其与语音采样是否相同的概率估值的发音概率计算装置;根据语言模型计算文字在当前上下文情况下出现的概率估值的文字概率计算装置;对所述发音概率计算装置和文字概率计算装置的计算结果进行综合以得出与联合最大概率值对应的文字作为语音识别结果的文字匹配装置;利用识别结果修改上下文的上下文产生装置;以及文字输出装置,
所述语音识别系统的特征在于还包括一个错误校正装置,用户可以利用该错误校正装置对文字输出装置输出的语音识别结果中的错误进行标记,用基于字形输入的方法输入与标记的错误相对应的正确字符,而所述错误校正装置对基于字形的输入进行识别、产生候选的正确字符并利用错误字符的语音信息对候选的正确字符进行筛选处理。
通过以下结合附图对本发明最佳实施方式进行的详细描述,本发明的其它目的和特征将会更加明显。
图1为根据本发明一个实施例对语音识别结果中的错误进行校正的
具体操作流程;
图2为根据本发明一个实施例对语音识别结果中的错误进行校正的方法的一般流程图;
图3为根据本发明的一个实施例利用从混淆矩阵中得出的语音信息对候选字符进行筛选过程的一般流程图;
图4为现有技术的语音识别系统的构成示意图;
图5为根据本发明一个实施例的可以对识别结果中的错误进行校正的语音识别系统;和
图6为根据本发明一个实施例的错误纠正屏幕。
在图1中示出了根据本发明一个实施例的通过手写输入对语音识别结果中的错误进行校正的操作流程。当发现语音识别结果中存在错误时,可以按如下过程进行校正:
步骤101:用户进行口述,重复多次以得到正确结果;
步骤102:在屏幕上显示语音识别(SR)结果;
步骤103:用户标记待校正的错误;
步骤104:系统使用错误字符的音标来检索与该错误字符相关的语音信息(按统计模型形式)并将语音信息和语言模型配合使用,以对候选者排队并对候选者进行选择;
步骤105:用户借助各种输入方法,如手写输入方法,来输入与标记的错误字符对应的正确字符;
步骤106:当在各种输入过程中完成了识别过程时,系统利用步骤104中的模型对当前候选者清单中的候选者排队以获得较高的准确性和较高的速度;
步骤107:将由此产生的候选者清单的一部分或全部显示在屏幕上;
步骤108:用户通过光标等选择正确的字符。
图2示出了对于采用基于笔画的键盘或手写输入时,语音识别结果中的错误的恢复过程,如图2所示:
步骤201:用户完成第一遍口述;
步骤202:在显示器上显示语音识别(SR)结果;
步骤203:用户检验结果,如果识别结果中没有错误,则不需校正,则输入过程结束。如果在语音识别结果中存在一个或多个错误,用户标记待校正的错误。这可以是由多个字组成的词。用户通常要求显示一个侯选者清单。如果在清单中存在正确的字符,则用户直接到步骤209,否则用户转到步骤204。对于语音识别结果中的每个错误可以重复执行该步骤。
步骤204:用户通过语音输入与标记的错误字符(字、词)对应的正确字符(字、词)。语音识别机将只使用语音模型对其进行译码(即:禁止语言模型)。如果在屏幕上显示出正确的字符(字、词)作为候选者,则用户转到步骤209;
步骤205:如果屏幕上显示的字符(字、词)仍不正确,用户可以重复执行步骤204;
步骤206:当错误持续存在时,用户开始输入正确的字符,即输入字符的笔画序列;
步骤207:系统根据从步骤204中得到的错误字符的发音类型,从混淆矩阵中检索和错误字符相关的统计模型。该模型俘获错误字符的统计意义上来说最有用的特征,它可以由错误字符的第一个声母或拼音字母的分布组成;
步骤208:由步骤207中获得的语音模型和字、词级语言模型配合使用,导出在连续的笔画输入过程中对候选的字符(字、词)的似然性的概率估计。使用这些集成模型对基于笔画输入而产生的候选者进行排列以提高纠错效率;
步骤209:用户通过光标等选择所需的正确字符,并输入其在候选者清单中的序号。
以下结合图3,描述一个根据本发明一个具体的实施例利用从混淆矩阵中得出的语音信息对候选字符进行筛选的过程。
利用来自语音识别过程的语音信息的目的是有效地对候选的字符(字、词)进行排队。以下详细地描述对于给定的错误字符(字、词),如何从预先产生的混淆矩阵中提取语音信息。还将描述如何在这种概率统计模型的基础上结合语言模型来对候选字符(字、词)进行筛选。
首先介绍如何产生混淆矩阵。假定混淆矩阵是事先由语音输入错误数据产生的,它俘获连续语音输入中所有音节的错误概率。
将汉语中的音节集定义为:
SSet={S1,S2…,SN}
为了得到每个识别结果中的错误E的候选者,我们需要得到在给定识别字符的音节和其上下文情况下每个候选者的概率,即:
P(C|SHE,H)
其中C代表某一候选者,SHE是识别出的字符的音节序列,包括识别错误字符本身的音节和其最近的历史情况,即:SHE=S(H)+S(E),其中S(H)代表H的音节序列,S(E)代表E的音节序列。H是其语境的历史情况。然后我们根据上述概率值对候选者排队。
使用Bayes规则,我们可以得出
P ( C | S HE , H ) = P ( CS HE H ) P ( S HE H ) = P ( S HE H | C ) P ( C ) P ( S HE H )
因为SHE是纯语音,并且H是纯语言事件,所以我们可以将它们认为是完全独立的变量。并且确定给定的识别出的字符的SHE和H。所以上述等式可以简化为:
Rank P ( S HE H | C ) P ( C ) P ( S HE H ) = RankP ( S HE | C ) P ( H | C ) P ( C )
= Rank P ( C | S HE ) P ( C | H ) P ( C ) - - - ( 1 )
为了实用,我们将P(C|SHE)简化为P(CS|SE),其中CS表示C的音节,SE是识别错误字符的音节。这种简化表明我们忽略了语音上下文S(H),并将具有相同音节的字符组成一类。
在训练时,我们采用M个测试者,每个测试者读N个测试语句。我们按音节不管语言模型来对这些测试者的语句进行识别。
对测试语句中的每个音节ST,如果将其识别为SD,其中SD可以是ST本身,我们将在混淆矩阵中对Count(ST-SD)加1。然后,我们可以得到将ST识别为SD的概率:
P ( S D | S T ) = Count ( S T - S D ) ΣCount ( S T - S M )
        对于所有SM∈SSet
其中ST,SD∈SSet,Count(ST-SD)是将ST识别为SD的次数,∑Count(ST-SM)是一行ST的累加,它代表ST被识别为任何音节的总次数SM∈SSet。我们在最终的混淆矩阵中保存P(SD|ST)。
同时,我们可以得到:
P ( S T ) = Count ( S T ) ΣCount ( S m ) - - - ( 2 )
    对于所有SM∈训练数据
混淆矩阵
Figure C9911069500102
通过使用混淆矩阵,我们得到识别出的音节SD,并且我们想得到SD来自于给定的ST的概率,即(ST|SD)。使用Bayes规则,我们得到:
P ( S T | S D ) = P ( S D | S T ) P ( S T ) P ( S D )
当我们计算P(CS|SE)时,
P ( C S | S E ) = P ( S T = C S | S D = S E ) = P ( S D = S E | S T = C S ) P ( S T = C S ) P ( S D = S E )
对于所有候选者P(SD=SE)都相同,所以在对候选者排队时,P(SD=SE)是没用的。我们从混淆矩阵中能得到P(SD=SE|ST=CS)以及公式(2)中的P(ST=CS)。
尽管上述方法适合于用户在首次完成他/她的语音输入之后列出候选者并相对于特定的错误字符寻找候选者(上述错误恢复过程中的步骤203),这里我们将注意力放在用户已重复对错误的字符进行语音输入,但仍失败,并准备采用基于笔形的输入方法的情形(步骤206)。这表明在正确的字符以具体方式读出之后,错误仍然存在。
于是可以由在一具体语音输入环境中记录下来的错误字符来训练混淆矩阵。这种混淆矩阵可以和语言模型一起来使用以对笔形输入过程中产生的候选者进行排队。
为了防止混淆矩阵中各数据项不准确(由于训练数据不充分、不熟悉的发音,等),可以使用下述方式修改混淆矩陈以补充原始的混淆矩阵方法。我们首先将音节聚集成不同的起始韵母组(包括起始韵母丢失的组)并按上述相同的方式产生韵母混淆矩阵。我们还可以将音节聚集成不同的声母组并产生声母混淆矩陈。这些矩阵将给出两个独立的语音模型,它们可以和字、词级语言模型配合使用来对有效的被认为是正确的字、词的全部的似然做出估计。
图3描述了根据本发明的一个具体实施例利用从混淆矩阵中得出的语音信息对候选者进行筛选的过程。
步骤301:对用户基于笔形的输入进行识别产生候选者清单C={C1,C2…Cn};
步骤302:对于候选者清单C={C1,C2…Cn}中的每一候选者Ci,从混淆矩阵中得出其音节SCi与识别错误字符音节SE的似然性;
步骤303:判断从混淆矩阵中得出的似然性是否大于一阈值Slim,如果判断结果为小于Slim则从候选者清单中去掉该候选者,并对下一个候选者执行步骤302;
步骤304:如果判断结果为从混淆矩阵中得出的仍然性大于等于阈值Slim,则将此候选者保留作为待显示给用户的候选者清单中的成员,对下一个候选者执行步骤302;
步骤305:在对C={C1,C2…Cn}中所有候选者执行了以上步骤后,将保留在候选者清单中的候选者显示给用户。
例如在某个语音识别过程中将“世”识别成“是”,为了校正错误,我们借助基于笔形的输入方法输入了笔画“一”,这时:
C={一厂丁二七十才寸士世}
如果不利用语音信息,正确的“世”在很靠后的位置,但通过以上步骤301-305的处理,显示给用户的候选者清单将是:
C={十士世}
由此可以看出借助语音信息可以提高错误校正的效率。
此外,我们可以使用语言模型(LM)来对候选者清单来做进一步限定。为了使用LM来裁剪候选者清单,我们注意到,由于假设错误是发生在单个字输入环境中,我们只需考虑一元文法语言模型。换句话说,在对有效的候选者进行评估和排序过程中,我们仅简单地在语音模型中加入单字频率。我们还可以对语音和语言模型加权,对于不熟悉的题目可以减小语言模型的权值。
此外,对于基于笔画的输入,可以根据笔画或笔画类型序列将所有涵盖的字符集组织成树形结构。当依次输入笔画(笔画类型)时,系统对产生的树形结构进行遍历,只保留有效的分枝。可以使用组合的语音(混淆矩阵)以及语言模型来对当前有效的候选者排队,这是基于它们整体似然值来完成的。
可以对这种声音辅助笔画输入的有效性进行如下的估计。在不借助任何现有的语音信息独立地使用笔画/笔画类型输入系统时,平均需要5.36个笔画才能把常用汉字集中的6763个汉字限制到10个以下候选者上。当我们使用字、词级语言模型来处理多字词时,每个汉字的有效笔画数可以减少到3.12。
当借助现有的语音信息输入笔画时,如果我们假设错误字符的第一个拼音字母90%为正确的,则为了俘获上层10个候选者清单中的正确候选者,所需平均笔画数不会超过2.8(或3.7)。如果假设90%的声母是正确的,则俘获正确候选者所需笔画数不会超过2.5(或3.4)。使用声母和韵母信息的这两个模型共同工作,可以使所需输入的平均笔画数不会超过1.0027。
如果通过长度为100的混淆集的混淆矩阵提供已有的语音信息,而在顶层10个候选者中语音识别机不能提供正确的字符,则需要基于笔画的输入方法。如果10-100混淆集可以涵盖60%的错误字符的正确候选者,我们的初始混淆矩阵数据导致所需输入笔画数为3.572。通过使用语音模型和字符及语言模型可以获得这些数字。通过字词级预测方式,每个字符所需的平均有效笔画数会进一步降低。估计为2.2-2.56。
如果在错误词中有其它错误的字符,则其它错误字符的混淆矩阵与语言模型一起用来分别提供待估测的字符候选者。也可以估计每个字符的平均有效笔画数。
由此可以看出通过使用语音信息可以使语音识别错误的校正效率大大提高。以下描述一下使用这种语音辅助方法的进行错误校正的语音识别系统。
如图4所示,一般的语音识别系统包括一个语音模型7和一个语言模型8。语音模型7包括所识别语言中的常用文字的发音。这种发音是利用统计方法从多数人对某个文字的阅读发音中总结出来的,代表了该文字的一般发音特征。语言模型8包括所识别语言中常用文字的使用方法。
图4所示的连续语音识别系统的工作过程为,语音检测装置1采集用户的语音,例如将语言表示为语音采样,将该语音采样送到发音概率计算装置2。发音概率计算装置2对语音模型7中的每个发音给出其与语音采样是否相同的概率估值。文字概率计算装置5,根据从大量语料中总结出的语言规律,给出对语言模型8中的文字是否是当前上下文情况下应出现的文字的概率估值。文字匹配装置3,将发音概率计算装置2计算的概率估值与文字概率计算装置5计算的概率估值结合起来,计算一个联合概率(该联合概率值表示将语音采样识别为该文字的可能性),联合概率值最大的文字,作为语音识别的结果。上下文产生装置4利用上述识别结果修改当前的上下文,以便为识别下一个语音采样所用。文字输出装置6输出所识别的文字。
图5示出了根据本发明一个优选实施例的可以对语音识别结果中的错误进行校正的语音识别系统,在该系统中,用户通过基于笔形的输入装置9输入正确的字符,而错误校正装置10要据语音模型7和语言模型8对候选者清单产生装置11产生的候选者清单进行筛选。
基于笔形的输入装置可以是书写板也可以是输入笔画或笔画类型的装置。在不增加硬件的情况可以通过以下几种方式实现笔画输入:
1.使用通用键盘上的一个子区域设计汉字笔画或笔画类型用于输入笔画。笔画类型可以使笔画的输入更为简单和可靠。
2.在错误校正屏幕上设计虚拟的按键集。
3.用户可以使用鼠标来标识所希望的笔画。可以开发一个识别系统来识别整个笔画或笔画类型集。
4.也可以使用语音来输入笔画或笔画类型。
此外,在对语音识别结果中的错误进行校正过程中,当用户标记了错误之后,根据请求可以弹出一个候选者清单。在此我们描述一个错误校正屏幕的设计。如图6所示,该错误校正屏幕由用于输入五种笔画类型的虚拟键盘和其右侧的候选者清单组成。当用户开始使用虚拟键盘输入笔画类型时,其右侧的候选者清单将自动更改,每输入一笔画类型,将显示新的顶层候选者。在同一屏幕上集成候选者清单和虚拟笔画键盘的用户接口将更便于提高错误校正的速度。
以上结合具体实施例描述了根据本发明的对语音识别结果中的错误进行校正的方法和具有错误校正功能的语音识别系统。对于本领域技术人员来说很明显,在不背离本发明的精神前提下,可以对本发明做出许多修改,本发明旨在包括所有这些修改和变型,本发明的保护范围由所附权利要求书来限定。

Claims (20)

1.一种对语音识别结果中的错误进行校正的方法,包括步骤:
对输出的语音识别结果中的错误进行标记;
用基于字形输入的方法输入与标记的错误相对应的正确字符;
对基于字形的输入进行识别;
显示候选的正确字符;
用户从候选的正确字符中选出所需字符;和
使用选出的字符代替错误的字符,
所述方法的特征在于还包括步骤:使用错误字符的语音信息来对候选的正确字符进行筛选处理。
2.根据权利要求1的对语音识别结果中的错误进行校正的方法,其特征在于所述语音识别为汉语语音识别,并且所述字符为汉语中的字、词或字、词的组合。
3.根据权利要求1或2的对语音识别结果中的错误进行校正的方法,其特征在于所述错误字符的语音信息来自于语音识别阶段中用户的口述。
4.根据权利要求1或2的对语音识别结果中的错误进行校正的方法,其特征在于所述错误字符的语音信息是在错误校正阶段从用户口述中得到的。
5.根据权利要求1或2的对语音识别结果中的错误进行校正的方法,其特征在于所述语音信息为使用混淆矩阵得出的语音模型。
6.根据权利要求5的对语音识别结果中的错误进行校正的方法,其特征在于所述语音模型和字、词级语言模型配合使用,以对候选的字符进行筛选处理。
7.根据权利要求1或2的对语音识别结果中的错误进行校正的方法,其特征在于使用树形结构来组织候选字符,并使用所述语音信息对树形结构进行裁剪。
8.根据权利要求7的对语音识别结果中的错误进行校正的方法,其特征在于所述语音信息为使用混淆矩阵得出的语音模型。
9.根据权利要求8的对语音识别结果中的错误进行校正的方法,其特征在于所述语音模型可以和字、词级语言模型配合使用,以有效地对树形结构进行裁剪。
10.根据权利要求1或2的对语音识别结果中的错误进行校正的方法,其特征在于:在同一屏幕上集成候选的正确字符和虚拟的笔画键盘。
11.一种可以对语音识别结果中的错误进行校正的语音识别系统,该语音识别系统包括:采集用户语音的语音检测装置;对语音模型中的每个发音计算出其与语音采样是否相同的概率估值的发音概率计算装置;根据语言模型计算文字在当前上下文情况下出现的概率估值的文字概率计算装置;对所述发音概率计算装置和文字概率计算装置的计算结果进行综合以得出与联合最大概率值对应的文字作为语音识别结果的文字匹配装置;利用识别结果修改上下文的上下文产生装置;以及文字输出装置,
所述语音识别系统的特征在于还包括一个错误校正装置,用户可以利用该错误校正装置对文字输出装置输出的语音识别结果中的错误进行标记,用基于字形输入的方法输入与标记的错误相对应的正确字符,而所述错误校正装置对基于字形的输入进行识别、产生候选的正确字符并利用错误字符的语音信息对候选的正确字符进行筛选处理。
12.根据权利要求11的语音识别系统,其特征在于所述语音识别为汉语语音识别,并且所述字符为汉语中的字、词或字、词的组合。
13.根据权利要求11或12的语音识别系统,其特征在于所述错误字符的语音信息来自于语音识别阶段中用户的口述。
14.根据权利要求11或12的语音识别系统,其特征在于所述错误字符的语音信息是在错误校正阶段从用户口述中得到的。
15.根据权利要求11或12的语音识别系统,其特征在于所述语音信息为使用混淆矩阵得出的语音模型。
16.根据权利要求15的语音识别系统,其特征在于所述语音模型和字、词级语言模型配合使用,以对候选的字符进行筛选处理。
17.根据权利要求11或12的语音识别系统,其特征在于使用树形结构来组织候选字符,并使用所述语音信息对树形结构进行裁剪。
18.根据权利要求17的语音识别系统,其特征在于所述语音信息为使用混淆矩阵得出的语音模型。
19.根据权利要求18的语音识别系统,其特征在于所述语音模型可以和字、词级语言模型配合使用,以有效地对树形结构进行裁剪。
20.根据权利要求11或12的语音识别系统,其特征在于:在同一屏幕上集成候选的正确字符和虚拟的笔画键盘。
CNB991106954A 1999-07-27 1999-07-27 对语音识别结果中的错误进行校正的方法和语音识别系统 Expired - Lifetime CN1207664C (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CNB991106954A CN1207664C (zh) 1999-07-27 1999-07-27 对语音识别结果中的错误进行校正的方法和语音识别系统
TW088115493A TW449735B (en) 1999-07-27 1999-09-08 Error correction for Chinese speech recognition with alternative input methods
CA002313968A CA2313968A1 (en) 1999-07-27 2000-07-17 A method for correcting the error characters in the result of speech recognition and the speech recognition system using the same
US09/624,962 US6513005B1 (en) 1999-07-27 2000-07-25 Method for correcting error characters in results of speech recognition and speech recognition system using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB991106954A CN1207664C (zh) 1999-07-27 1999-07-27 对语音识别结果中的错误进行校正的方法和语音识别系统

Publications (2)

Publication Number Publication Date
CN1282072A CN1282072A (zh) 2001-01-31
CN1207664C true CN1207664C (zh) 2005-06-22

Family

ID=5274644

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB991106954A Expired - Lifetime CN1207664C (zh) 1999-07-27 1999-07-27 对语音识别结果中的错误进行校正的方法和语音识别系统

Country Status (4)

Country Link
US (1) US6513005B1 (zh)
CN (1) CN1207664C (zh)
CA (1) CA2313968A1 (zh)
TW (1) TW449735B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107293299A (zh) * 2017-06-16 2017-10-24 朱明增 一种提高调度员查找图纸效率的语音识别定位系统

Families Citing this family (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1156741C (zh) * 1998-04-16 2004-07-07 国际商业机器公司 手写汉字识别方法及装置
US6904405B2 (en) * 1999-07-17 2005-06-07 Edwin A. Suominen Message recognition using shared language model
US6996531B2 (en) * 2001-03-30 2006-02-07 Comverse Ltd. Automated database assistance using a telephone for a speech based or text based multimedia communication mode
US6708148B2 (en) * 2001-10-12 2004-03-16 Koninklijke Philips Electronics N.V. Correction device to mark parts of a recognized text
US6986106B2 (en) 2002-05-13 2006-01-10 Microsoft Corporation Correction widget
US20030233237A1 (en) * 2002-06-17 2003-12-18 Microsoft Corporation Integration of speech and stylus input to provide an efficient natural input experience
US7137076B2 (en) 2002-07-30 2006-11-14 Microsoft Corporation Correcting recognition results associated with user input
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
DE10251112A1 (de) * 2002-11-02 2004-05-19 Philips Intellectual Property & Standards Gmbh Verfahren und System zur Spracherkennung
US7120275B2 (en) * 2003-01-16 2006-10-10 Microsoft Corporation Ink recognition for use in character-based applications
US7117153B2 (en) * 2003-02-13 2006-10-03 Microsoft Corporation Method and apparatus for predicting word error rates from text
JP4000095B2 (ja) * 2003-07-30 2007-10-31 株式会社東芝 音声認識方法、装置及びプログラム
US7848573B2 (en) * 2003-12-03 2010-12-07 Microsoft Corporation Scaled text replacement of ink
US7506271B2 (en) * 2003-12-15 2009-03-17 Microsoft Corporation Multi-modal handwriting recognition correction
US8019602B2 (en) * 2004-01-20 2011-09-13 Microsoft Corporation Automatic speech recognition learning using user corrections
KR100750424B1 (ko) * 2004-03-03 2007-08-21 닛본 덴끼 가부시끼가이샤 화상 유사도 산출 시스템, 화상 검색 시스템, 화상 유사도산출 방법 및 화상 유사도 산출용 프로그램
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US7725318B2 (en) * 2004-07-30 2010-05-25 Nice Systems Inc. System and method for improving the accuracy of audio searching
KR100679042B1 (ko) * 2004-10-27 2007-02-06 삼성전자주식회사 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
CN100536532C (zh) * 2005-05-23 2009-09-02 北京大学 自动加配字幕的方法和系统
US7756341B2 (en) * 2005-06-30 2010-07-13 Xerox Corporation Generic visual categorization method and system
US8473295B2 (en) 2005-08-05 2013-06-25 Microsoft Corporation Redictation of misrecognized words using a list of alternatives
US8249873B2 (en) * 2005-08-12 2012-08-21 Avaya Inc. Tonal correction of speech
JP4708913B2 (ja) * 2005-08-12 2011-06-22 キヤノン株式会社 情報処理方法及び情報処理装置
US20070050188A1 (en) * 2005-08-26 2007-03-01 Avaya Technology Corp. Tone contour transformation of speech
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US20070094022A1 (en) * 2005-10-20 2007-04-26 Hahn Koo Method and device for recognizing human intent
US20070132834A1 (en) * 2005-12-08 2007-06-14 International Business Machines Corporation Speech disambiguation in a composite services enablement environment
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
TWI305345B (en) * 2006-04-13 2009-01-11 Delta Electronics Inc System and method of the user interface for text-to-phone conversion
JP2007293595A (ja) * 2006-04-25 2007-11-08 Canon Inc 情報処理装置及び情報処理方法
US8401844B2 (en) 2006-06-02 2013-03-19 Nec Corporation Gain control system, gain control method, and gain control program
US7925505B2 (en) * 2007-04-10 2011-04-12 Microsoft Corporation Adaptation of language models and context free grammar in speech recognition
US8457946B2 (en) * 2007-04-26 2013-06-04 Microsoft Corporation Recognition architecture for generating Asian characters
US20090228273A1 (en) * 2008-03-05 2009-09-10 Microsoft Corporation Handwriting-based user interface for correction of speech recognition errors
US20090326938A1 (en) * 2008-05-28 2009-12-31 Nokia Corporation Multiword text correction
CN101651788B (zh) * 2008-12-26 2012-11-21 中国科学院声学研究所 一种在线语音文本对齐系统及方法
WO2011075890A1 (en) * 2009-12-23 2011-06-30 Nokia Corporation Method and apparatus for editing speech recognized text
JP5158174B2 (ja) * 2010-10-25 2013-03-06 株式会社デンソー 音声認識装置
US9123339B1 (en) * 2010-11-23 2015-09-01 Google Inc. Speech recognition using repeated utterances
US8515751B2 (en) * 2011-09-28 2013-08-20 Google Inc. Selective feedback for text recognition systems
KR20130135410A (ko) * 2012-05-31 2013-12-11 삼성전자주식회사 음성 인식 기능을 제공하는 방법 및 그 전자 장치
US8606577B1 (en) * 2012-06-25 2013-12-10 Google Inc. Visual confirmation of voice recognized text input
US9292487B1 (en) * 2012-08-16 2016-03-22 Amazon Technologies, Inc. Discriminative language model pruning
CN103000176B (zh) * 2012-12-28 2014-12-10 安徽科大讯飞信息科技股份有限公司 语音识别方法和系统
CN103021412B (zh) * 2012-12-28 2014-12-10 安徽科大讯飞信息科技股份有限公司 语音识别方法和系统
CN104007952A (zh) * 2013-02-27 2014-08-27 联想(北京)有限公司 一种输入方法、装置及电子设备
JP5807921B2 (ja) * 2013-08-23 2015-11-10 国立研究開発法人情報通信研究機構 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
CN103699359B (zh) * 2013-12-23 2017-12-29 华为技术有限公司 一种语音命令的校正方法、校正系统和电子设备
US10446141B2 (en) * 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
TWI587281B (zh) * 2014-11-07 2017-06-11 Papago Inc Voice control system and its method
CN105808197B (zh) * 2014-12-30 2019-07-26 联想(北京)有限公司 一种信息处理方法和电子设备
US10176219B2 (en) * 2015-03-13 2019-01-08 Microsoft Technology Licensing, Llc Interactive reformulation of speech queries
EP3089159B1 (en) 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US10049655B1 (en) * 2016-01-05 2018-08-14 Google Llc Biasing voice correction suggestions
US9971758B1 (en) * 2016-01-06 2018-05-15 Google Llc Allowing spelling of arbitrary words
JP6675078B2 (ja) * 2016-03-15 2020-04-01 パナソニックIpマネジメント株式会社 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
CN106297797B (zh) * 2016-07-26 2019-05-31 百度在线网络技术(北京)有限公司 语音识别结果纠错方法和装置
CN106406807A (zh) * 2016-09-19 2017-02-15 北京云知声信息技术有限公司 一种语音修改文字的方法及装置
CN106875949B (zh) * 2017-04-28 2020-09-22 深圳市大乘科技股份有限公司 一种语音识别的校正方法及装置
CN109949828B (zh) * 2017-12-20 2022-05-24 苏州君林智能科技有限公司 一种文字校验方法及装置
US10269376B1 (en) * 2018-06-28 2019-04-23 Invoca, Inc. Desired signal spotting in noisy, flawed environments
CN109800414B (zh) * 2018-12-13 2023-04-18 科大讯飞股份有限公司 语病修正推荐方法及系统
US11869494B2 (en) * 2019-01-10 2024-01-09 International Business Machines Corporation Vowel based generation of phonetically distinguishable words
CN111667813B (zh) * 2019-03-06 2024-04-19 北京精鸿软件科技有限公司 处理文件的方法和装置
CN110032626B (zh) * 2019-04-19 2022-04-12 百度在线网络技术(北京)有限公司 语音播报方法和装置
US10916242B1 (en) * 2019-08-07 2021-02-09 Nanjing Silicon Intelligence Technology Co., Ltd. Intent recognition method based on deep learning network
KR20210064928A (ko) * 2019-11-26 2021-06-03 삼성전자주식회사 전자장치와 그의 제어방법, 및 기록매체
CN110956143A (zh) * 2019-12-03 2020-04-03 交控科技股份有限公司 一种异常行为检测方法、装置、电子设备及存储介质
CN112069805A (zh) * 2019-12-20 2020-12-11 北京来也网络科技有限公司 结合rpa与ai的文本标注方法、装置、设备及存储介质
CN111368918B (zh) * 2020-03-04 2024-01-05 拉扎斯网络科技(上海)有限公司 文本纠错方法、装置、电子设备及存储介质
CN111524517B (zh) * 2020-06-24 2023-11-03 深圳前海微众银行股份有限公司 语音识别方法、装置、设备及存储介质
KR20220013732A (ko) * 2020-07-27 2022-02-04 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN112509581B (zh) * 2020-11-20 2024-03-01 北京有竹居网络技术有限公司 语音识别后文本的纠错方法、装置、可读介质和电子设备
CN113763953A (zh) * 2021-09-07 2021-12-07 中国科学院软件研究所 一种基于连续语音与轨迹纠错的多通道输入方法及终端设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5287275A (en) * 1988-08-20 1994-02-15 Fujitsu Limited Image recognition apparatus and method for recognizing a pattern within an image
US5883986A (en) * 1995-06-02 1999-03-16 Xerox Corporation Method and system for automatic transcription correction
US5768422A (en) * 1995-08-08 1998-06-16 Apple Computer, Inc. Method for training an adaptive statistical classifier to discriminate against inproper patterns
ATE243862T1 (de) * 1998-04-24 2003-07-15 Natural Input Solutions Inc Verfahren zur verarbeitung und korrektur in einer griffelunterstützten benutzerschnittstelle
US6393395B1 (en) * 1999-01-07 2002-05-21 Microsoft Corporation Handwriting and speech recognizer using neural network with separate start and continuation output scores

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107293299A (zh) * 2017-06-16 2017-10-24 朱明增 一种提高调度员查找图纸效率的语音识别定位系统

Also Published As

Publication number Publication date
US6513005B1 (en) 2003-01-28
TW449735B (en) 2001-08-11
CA2313968A1 (en) 2001-01-27
CN1282072A (zh) 2001-01-31

Similar Documents

Publication Publication Date Title
CN1207664C (zh) 对语音识别结果中的错误进行校正的方法和语音识别系统
CN1205572C (zh) 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构
CN1159661C (zh) 用于中文的标记和命名实体识别的系统
Viglino et al. End-to-End Accented Speech Recognition.
CN1156741C (zh) 手写汉字识别方法及装置
EP1141941B1 (en) Handwritten or spoken words recognition with neural networks
KR100656736B1 (ko) 표음 입력 모호성 제거 시스템 및 방법
CN1135485C (zh) 利用计算机系统的日文文本字的识别
AU2015357110B2 (en) Method for text recognition and computer program product
CN1235312A (zh) 连续语音识别中的标点符号自动生成装置及方法
US20070046645A1 (en) Information processing method and information processing device
CN1232226A (zh) 句子处理装置及其方法
CN1688999A (zh) 根据书写文本进行基于可缩放神经网络的语言识别
CN1571980A (zh) 字符串识别
CN1384940A (zh) 以无模式输入将一种文本形式转换成另一种文本形式的语言输入体系结构
CN101067766A (zh) 输入法中取消字符串的方法及文字输入系统
TW200538969A (en) Handwriting and voice input with automatic correction
CN104050255A (zh) 基于联合图模型的纠错方法及系统
CN1862472A (zh) 借由提交不全字和/或任意给定字的不全笔画的表意语言短语的缩写手写输入
CN1224954C (zh) 含有固定和可变语法块的语言模型的语音识别装置
CN1102779C (zh) 中文简繁体字文件转换装置
CN1084502C (zh) 相似字识别方法及装置
CN1056933C (zh) 中文错别字自动订正方法及装置
Liang et al. An efficient error correction interface for speech recognition on mobile touchscreen devices
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NEW ANST COMMUNICATION CO.,LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP.

Effective date: 20090911

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090911

Address after: Massachusetts, USA

Patentee after: Nuance Communications Inc

Address before: American New York

Patentee before: International Business Machines Corp.

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20050622