[go: up one dir, main page]

CN104143330A - 语音识别方法和语音识别系统 - Google Patents

语音识别方法和语音识别系统 Download PDF

Info

Publication number
CN104143330A
CN104143330A CN201310163355.8A CN201310163355A CN104143330A CN 104143330 A CN104143330 A CN 104143330A CN 201310163355 A CN201310163355 A CN 201310163355A CN 104143330 A CN104143330 A CN 104143330A
Authority
CN
China
Prior art keywords
speech recognition
engine
result
entry
recognition engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310163355.8A
Other languages
English (en)
Inventor
刘贺飞
郭莉莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to CN201310163355.8A priority Critical patent/CN104143330A/zh
Publication of CN104143330A publication Critical patent/CN104143330A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

一种语音识别方法和语音识别系统。该语音识别方法包括:针对第一语音识别引擎的词汇表中的每个词条生成用于第二语音识别引擎的对应词条;把所生成的对应词条添加到第二引擎的词汇表中,以与第二引擎的词汇表中的原有词条一起生成组合词汇表;使用第一引擎通过第一引擎的词汇表来识别输入语音;使用第二引擎通过组合词汇表来识别输入语音,以生成与原有词条有关的识别结果和与对应词条有关的识别结果;使用从第二引擎输出的与对应词条有关的识别结果,对第一引擎的识别结果与第二引擎的与原有词条有关的识别结果进行比较并输出比较结果。第一引擎和第二引擎的每个识别结果包括识别出的单词和对应的识别分数。

Description

语音识别方法和语音识别系统
技术领域
本发明涉及语音识别方法和语音识别系统,尤其涉及使用双语音识别引擎进行语音识别的语音识别方法和语音识别系统。
背景技术
语音识别是通过用机器识别用户声音命令来实现人机交互的关键技术,其可以显著改进人机交互的方式以使得用户可以在说出命令的同时完成更多任务。语音识别是通过在线或离线训练得到的语音识别引擎来实现的。语音识别过程通常可以分为训练阶段和识别阶段。在训练阶段中,根据语音识别引擎所基于的数学模型,从训练数据中统计地得到声学模型(acoustic model,AM)和词汇表(lexicon)。在识别阶段中,语音识别引擎使用声学模型和词汇表对输入的语音进行处理,得到语音识别结果。例如,从输入声音的声波图进行特征提取以获得特征向量,然后根据声学模型得到音素(如[i],[o]等)序列,最后从词汇表中定位与音素序列匹配度较高的单词,甚至是句子。
在语音识别系统中,可能加载了多于1个语音识别引擎来同时识别同一语音。例如,第一语音识别引擎可以是说话人相关语音识别(speaker-dependent automatic speech recognition,SD-ASR)引擎,其被训练以识别来自特定说话人的语音并输出包括对应的分数的识别结果。第二语音识别引擎可以是说话人无关语音识别(speaker-independent automatic speech recognition,SI-ASR)引擎,其能够识别来自任何用户的语音并输出包括对应的分数的识别结果。已知由于SD-ASR是由特定说话人的语音训练而成,其声学模型对语音的表示更准确,所以通常SD-ASR提供比SI-ASR更好的识别准确度。另一方面,已知由于SI-ASR是由非特定说话人的语音训练而成,其可以识别多个说话人的语音,所以SI-ASR可以提供比SD-ASR更具有兼容性的识别。因此,把SD-ASR和SI-ASR的识别结果进行结合可以获得既提高语音识别的准确度又具有较好兼容性的优点。
已知一种结合方法是对来自这两个引擎的所有输出候选或识别结果(每一个包括识别出的单词和对应的识别分数)根据它们的识别分数进行重新排序。然而,由于这两个引擎通常具有不同的词汇表和/或声学模型,所以这两个引擎的识别分数的分布也不相同(比如SI-ASR的分数主要分布在“0-0.5”,SD-ASR的分数主要分布在范围“0.5-1”)并且难以对来自这两个引擎的识别分数直接进行比较。
美国专利申请US6836758B2公开了一种用多个语音识别引擎进行语音识别的系统和方法。该方法主要包括:预先设定每个语音识别引擎的识别分数的不同权重,以使得正确识别结果的加权之和最大化并且错误识别结果的加权之和最小化,接下来对各个语音识别引擎的经加权的识别分数进行比较,并且然后输出具有最优加权分数的识别结果。但在该方法中,如果权重被设置得不适当,则识别结果可能比单独使用任何语音识别引擎的情况还要更差。显然,难以针对每个语音识别引擎来设置准确的权重,并且因此难以保证该方法的识别性能优于分别使用各个语音识别引擎的情况。
美国专利申请US7149689公开了一种双引擎语音识别方法,其使用混淆矩阵(confusion matrix)来比较两个语音识别引擎的识别分数。在该方法中,针对每个语音识别引擎而被统计生成的混淆矩阵被转换为交替矩阵(alternative matrix)并且建立把各语音识别引擎的识别结果与交替矩阵交叉比较的程序循环,在交替矩阵中每一列按照最高到最低概率排序。然而,在该方法中,两个语音识别引擎的词汇表必须是相同的。否则,混淆矩阵就将具有不同的词条,交替向量也不能被比较,并且程序循环将不能发现正确的识别结果。
发明内容
本发明的目的在于提供能够简单地且具有较少限制地把来自多个语音识别引擎的识别结果进行合并的语音识别方法和语音识别系统。
本发明的一方面涉及语音识别方法,包括:对应词条生成步骤,针对第一语音识别引擎的词汇表中的每个词条(entry)生成用于第二语音识别引擎的对应词条(counterpart entry);组合词汇表生成步骤,把所生成的对应词条添加到第二语音识别引擎的词汇表中,以与第二语音识别引擎的词汇表中的原有词条一起生成组合词汇表;第一语音识别步骤,使用第一语音识别引擎通过第一语音识别引擎的词汇表来识别输入语音;第二语音识别步骤,使用第二语音识别引擎通过组合词汇表来识别输入语音,以生成与原有词条有关的识别结果和与对应词条有关的识别结果;以及识别结果比较和输出步骤,使用从第二语音识别引擎输出的与对应词条有关的识别结果,对第一语音识别引擎的识别结果与第二语音识别引擎的与原有词条有关的识别结果进行比较并输出比较结果。第一语音识别引擎和第二语音识别引擎的每个识别结果包括识别出的单词和对应的识别分数。
本发明的另一方面涉及语音识别系统,包括:对应词条生成装置,被配置为针对第一语音识别引擎的词汇表中的每个词条生成用于第二语音识别引擎的对应词条;组合词汇表生成装置,被配置为把所生成的对应词条添加到第二语音识别引擎的词汇表中,以与第二语音识别引擎的词汇表中的原有词条一起生成组合词汇表;第一语音识别装置,被配置为使用第一语音识别引擎通过第一语音识别引擎的词汇表来识别输入语音;第二语音识别装置,被配置为使用第二语音识别引擎通过组合词汇表来识别输入语音,以生成与原有词条有关的识别结果和与对应词条有关的识别结果;以及识别结果比较和输出装置,被配置为使用从第二语音识别引擎输出的与对应词条有关的识别结果,对第一语音识别引擎的识别结果与第二语音识别引擎的与原有词条有关的识别结果进行比较并输出比较结果。第一语音识别引擎和第二语音识别引擎的每个识别结果包括识别出的单词和对应的识别分数。
因此,根据本发明的各方面的语音识别方法和语音识别系统,通过使用来自不同语音识别引擎的对应词条,能够简单地比较来自不同语音识别引擎的不同识别结果,而无需如现有技术中那样设置任何权重或对词汇表有任何限制。
附图说明
下面结合具体的实施例,并参照附图,对本发明实施例的上述和其它目的和优点做进一步的描述。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。
图1示出根据本发明的一个实施例的语音识别方法的流程图;
图2示出根据本发明的一个实施例的生成对应词条的过程的框图;
图3示出根据本发明的又一个实施例的生成对应词条的过程的框图;
图4示出根据本发明的一个实施例的用于对识别结果进行比较并输出的流程图;
图5示出根据本发明的另一个实施例的用于对识别结果进行比较并输出的流程图;
图6示出根据本发明的一个实施例的语音识别系统的示例性配置的框图;以及
图7示出能够实施本发明的实施例的计算机系统的硬件配置的框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实施例的所有特征。然而,应该了解,在对实施例进行实施的过程中必须做出很多特定于实施方式的设置,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还应当注意,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与至少根据本发明的方案密切相关的处理步骤和/或系统结构,而省略了与本发明关系不大的其他细节。
首先参照图1描述根据本发明的一个实施例的语音识别方法的流程图。
在步骤S101中,针对第一语音识别引擎的词汇表中的每个词条生成用于第二语音识别引擎的对应词条。
根据本发明的一个实施例,第一语音识别引擎可以是上述的说话人相关语音识别(SD-ASR)引擎,其声学模型例如是基于单词来建立的,例如基于词隐马尔可夫模型(whole-word based HMM)实现;此外,SD-ASR的声学模型也可基于音素来建立,例如基于音素隐马尔可夫模型(phoneme based HMM)实现。第二语音识别引擎可以是上述的说话人无关语音识别(SI-ASR)引擎,其声学模型是基于音素来建立的,例如基于音素隐马尔可夫模型实现。尽管这里列举了这两种具体的语音识别引擎,但是应当理解本发明中的第一语音识别引擎和第二语音识别引擎不限于针对不同用户的SD-ASR和SI-ASR,并可以是其它具有类似需求的不同语音识别引擎。例如,第一和第二语音识别引擎可以是针对不同种类的语言例如英语和汉语而训练的引擎。或者,第一和第二语音识别引擎可以是针对不同使用环境例如安静环境和嘈杂环境而训练的引擎。此外,第一和第二语音识别引擎的声学模型也不限于基于HMM模型实现,也可以基于其它模型实现,例如基于动态时间规整(dynamic time wrapping,DTW)模型实现,只要可适用本发明的原理即可。在下文相关部分中,为了便于说明,将以第一语音识别引擎为SD-ASR和第二语音识别引擎为SI-ASR为例进行描述,并简称为第一引擎SD-ASR和第二引擎SI-ASR。
图2具体示出根据本发明的一个实施例的生成对应词条的过程200的框图。在该实施例中,第一引擎SD-ASR的声学模型是基于单词来建立的。
在201中输入的注册语音是第一引擎SD-ASR训练使用的语音样本,例如是特定用户的语音。输入的注册语音(即,语音样本)例如被麦克风捕获、转换为模拟电信号、经受数字化处理、并随后经受频谱分析,以生成包含特征参数的特征矢量的序列。
在202中这些特征参数可以被提取出来以用于表示输入的注册语音。
在图2上半部分中的203-204示出对于注册语音,使用注册语音的提取出的特征矢量来训练第一引擎SD-ASR的声学模型,训练所得的全部声学模型用于构成第一引擎SD-ASR的词汇表。这里由于第一引擎SD-ASR的声学模型是基于单词来建立的,所以训练结果是单词的声学模型。第一引擎SD-ASR的词汇表的每个词条例如包括标识号(ID)、与注册语音对应的单词(文本)及与注册语音对应的音素序列。
作为训练方法,可以使用通用的训练方法,例如最大似然法(maximum likelihood,ML)或区分性训练(discriminative training,DT)。
此外,为了提高识别过程的效率,可以事先离线地进行训练过程。另一方面,考虑到SD-ASR的词汇表的单词数量通常较少,也可以在线进行训练。
与图2的上半部分并行地,在下半部分的205-206中,对于第一引擎SD-ASR的词汇表中的每个词条,使用与第二引擎SI-ASR相匹配的音素切分装置对与该词条对应的语音样本的所提取出的特征矢量执行音素切分205。之后使用作为音素切分的结果的音素序列来生成用于第二引擎SI-ASR的对应词条206。
这里,音素切分是指使用音素切分装置对输入语音的所提取出的特征矢量的序列重新进行划分并生成音素序列,即被音素切分装置重新训练。典型的音素切分装置例如是phoneme typewriter。在本发明中使用的音素切分装置应该与第二引擎SI-ASR相匹配,这是由于切分所得的音素序列要被用于构成第二引擎SI-ASR的词条。也就是说,音素切分装置的声学模型也是基于音素建立的,例如基于音素隐马尔可夫模型实现,但是与第二引擎SI-ASR的语法规则可能是不同的,所以其训练生成的音素序列与第二引擎SI-ASR的原有词条的音素序列在格式上是相同的,但是内容可以不相同。
根据本发明的一个实施例,若有多于一个的语音样本与该词条对应,则例如可通过如下两种方式来获得作为音素切分的结果的音素序列。一种方式是对与该词条对应的每个语音样本都进行音素切分以获得相应的音素序列,然后使用这些音素序列来生成相应的多个对应词条。另一种方式是把这样获得的不同音素序列合并成一个音素序列,以使用这个音素序列来生成对应词条。例如,合并不同音素序列的简单方法是表决算法或动态时间规整方法。
应该注意,如前面所述,第二引擎SI-ASR的声学模型是基于音素来建立的,所以针对输入语音(例如通用训练语音),第二引擎SI-ASR的训练结果是音素的声学模型。除此之外,第二引擎SI-ASR的声学模型的训练方法与第一引擎SD-ASR类似,因此此处不再重复描述。训练得到的每个音素序列连同至少其代表的单词(文本,如开或停)和标识号(ID)一起构成第二引擎SI-ASR的一个词条,词条的集合形成第二引擎SI-ASR的词汇表。若用于训练第二引擎SI-ASR得到的声学模型的单词(文本)与用于训练SD-ASR得到的声学模型的单词(文本)一致,则其词条对应于第一引擎SD-ASR的词汇表中的具有相同单词的词条。
根据本发明的一个实施例,考虑到第二引擎SI-ASR的训练得到的上述词条的形式,使用作为音素切分的结果的音素序列来生成用于第二引擎SI-ASR的对应词条具体包括:首先,为该音素序列设定与第二引擎SI-ASR的词汇表中的词条的标识号不重复的一个ID。然后,获得该音素序列的单词(文本),例如从第一引擎SD-ASR的词汇表中得到。如果该单词(文本)与第二引擎SI-ASR的词汇表中的某个单词(文本)相同,则可以添加标识例如前缀或后缀以区分。最后,使用ID、单词(文本)及音素序列来生成对应词条。
图3示出了根据本发明的又一个实施例的建立对应词条的过程300的框图。
图3与图2的过程的主要区别是在图3的下半部分的305-307中,不是使用音素切分装置,而是使用与第二引擎SI-ASR相匹配的字音转换(Letter to Sound,LTS)装置对与注册语音相对应的单词(文本)进行字母或文字到声音的转换,从而生成音素序列,进而使用生成的音素序列来生成用于第二引擎SI-ASR的对应词条。
字音转换装置是根据预定规则把输入的字母或文字转换为对应音素的装置。该装置广泛应用于各种语言的语音识别系统中,例如在各种注音软件中,输入文字或字母就得到输出注音。其工作原理是本领域中已知的技术,在此不再对其进行详细描述。在本发明中使用的字音转换装置也应该与第二引擎SI-ASR相匹配。也就是说,字音转换装置的预定规则被设置为使得通过转换所生成的音素序列与第二引擎SI-ASR的原有词条的音素序列在格式上是相同的,但是内容可以不相同。
对于使用生成的音素序列来生成用于第二引擎SI-ASR的对应词条的具体过程可以与上面针对图2描述的类似,在此不再重复描述。
应当注意,尽管此处举例说明了第二引擎SI-ASR的声学模型基于音素建立并且使用所生成的音素序列来生成对应词条,但是这并非限制本发明。第二引擎SI-ASR的声学模型也可以基于音节(syllable)或字(character)建立,在这种情况下,相应的音素切分装置的切分操作和字音转换装置的转换规则也应适应性调整以匹配第二引擎SI-ASR。
回到图1的流程图。接下来,在步骤S102中,把所生成的对应词条添加到第二引擎SI-ASR的词汇表中,以与第二引擎SI-ASR的训练所得的词汇表中的原有词条一起生成组合词汇表。
如前面所述,在组合词汇表中,如果对应词条与原有词条的单词(文本)相同,则可以通过添加标识例如前缀或后缀加以区分。进一步地,还可以通过添加标识例如添加前缀或后缀来区分第二引擎SI-ASR的组合词汇表中的原有词条和新添加的对应词条,以便在形式上清楚地分辨原有词条和对应词条。
此外,由于如前所述那样第二引擎SI-ASR的组合词汇表中的对应词条对应于第一引擎SD-ASR的词汇表中的具有相同单词的词条,所以为了表明这种对应关系,可以建立一个对应关系表来记录第二引擎SI-ASR的组合词汇表中的对应词条和第一引擎SD-ASR的词汇表中的词条的对应关系。当然,不限于这种方式来指示对应关系,例如也可以直接在组合词汇表中通过添加标识例如前缀或后缀来指示这种对应关系。
接下来,在图1的流程图的步骤S103中,对于任意的输入语音,使用第一引擎SD-ASR通过第一引擎SD-ASR的词汇表来识别该输入语音。
接下来,在图1的流程图的步骤S104中,还是对于同样的输入语音,使用第二引擎SI-ASR通过组合词汇表来识别该输入语音,以生成与原有词条有关的识别结果和与对应词条有关的识别结果。
上述的每个识别结果包括识别出的单词和对应的识别分数。当然为了便于进行其他操作,识别结果还可以包括其它项,例如ID等等。
这里应当理解,第二引擎SI-ASR的与对应词条有关的识别结果对应于第一引擎SD-ASR的具有相同单词的识别结果。
接下来,在图1的流程图的步骤S105中,使用从第二引擎SI-ASR输出的与对应词条有关的识别结果,对第一引擎SD-ASR的识别结果与第二引擎SI-ASR的与原有词条有关的识别结果进行比较并输出比较结果。
图4示出在步骤S105中执行的比较和输出操作的一个实施例。如图4所示,在步骤400中输入语音并还可以执行特征提取。对于当前的输入语音,第一引擎SD-ASR输出包括作为第1最优识别结果的识别结果,该第1最优识别结果例如包括单词“テニス”及其对应的识别分数(步骤403)。第二引擎SI-ASR输出包括与原有词条有关的第1最优识别结果的识别结果,该第1最优识别结果例如包括单词“ありがとう”及其对应的识别分数(步骤401),还输出与对应词条有关的识别结果,即单词“teniis”及其对应的识别分数(步骤402)。语音输入和特征提取等的识别过程已经在前面描述过,此处不再重复说明。
接下来对这些识别结果执行比较。在一个方面,判断第二引擎SI-ASR的与原有词条有关的第1最优识别结果的单词“ありがとう”是否为第一引擎SD-ASR的词汇表中的单词(步骤404),也就是说,是否为第一引擎SD-ASR的词汇表的集外词(OOV,out ofvocabulary)。如果不是集外词,则直接输出第一引擎SD-ASR的第1最优识别结果,即“テニス”(步骤407)。
此处,由于SD-ASR的声学模型相对于第一引擎SI-ASR的声学模型的识别准确度更高,所以在上述情况下认为第二引擎SD-ASR的识别结果的置信度高于第一引擎SI-ASR的识别结果的置信度。
在另一个方面,如果第二引擎SI-ASR的与原有词条有关的第1最优识别结果的单词“ありがとう”是第一引擎SD-ASR的词汇表的集外词,则比较第二引擎SI-ASR的与原有词条有关的第1最优识别结果的识别分数和第二引擎SI-ASR的与对应词条有关的识别结果的识别分数,也就是说比较“teniis”的识别分数和“ありがとう”的识别分数(步骤405)。
此处应注意,第二引擎SI-ASR的与对应词条有关的该识别结果对应于第一引擎SD-ASR的第1最优识别结果。
如果与对应词条有关的该识别结果的识别分数、即“teniis”的识别分数较大,则输出第一引擎SD-ASR的第1最优识别结果,即“テニス”(步骤407),否则输出第二引擎SI-ASR的与原有词条有关的第1最优识别结果,即“ありがとう”(步骤406)。
在上述比较过程中,通过借助对应词条的分数,实现了第一引擎SD-ASR和第二引擎SI-ASR的识别结果的比较,并输出优选的结果。由此可见,根据本实施例的语音识别方法没有对识别结果设置任何权重或对词汇表有任何限制,并且因此不需要设计复杂的判决逻辑,使得语音识别过程更加简单高效。
在又一实施例中,在需要输出多于1个识别结果的情况下,可以在后续比较中继续对于第一引擎SD-ASR的全部识别结果中的第N最优识别结果和第二引擎SI-ASR的与原有词条有关的全部识别结果中的第N最优识别结果,重复执行前面所述的针对第1最优识别结果的比较和输出操作,直到输出预定数量的识别结果,此处N是大于1的预定整数,且所述预定数量可根据实际应用需求确定。
在需要输出多个识别结果的情况下,直接继续比较两个引擎的第N最优识别结果的方式可能存在缺陷。例如,假如在第一次比较中在针对第1最优识别结果的操作中输出了第一引擎SD-ASR的第1最优识别结果“テニス”,但是第二引擎SI-ASR的第1最优识别结果有可能优于第一引擎SD-ASR的第2最优识别结果。在这种情况下,如果在第二次比较时直接比较两个引擎的第2最优识别结果,则不论第二次比较中输出第一引擎SD-ASR还是第二引擎SI-ASR的第2最优识别结果,都不如把第二引擎SI-ASR的第1最优识别结果作为本次输出的识别结果。
考虑到上述问题,图5示出在步骤S105中执行的操作的另一个实施例。
如图5的上半部分所示,对于当前的输入语音,第一引擎SD-ASR的识别结果除了前面提到的第1最优识别结果的单词“テニス”及其对应的识别分数之外,还包括第N最优识别结果,N为大于1的整数。这里为了简明而示出了例如前3个最优识别结果“テニス”、“コーヒー”和“二ユース”及其对应的识别分数,但是N不限于此。类似地,对于SI-ASR的识别结果,也示出了与原有词条有关的前3个最优识别结果“ありがとう”、“たかい”和“コーヒー”及其对应的识别分数,以及与对应词条有关的前3个识别结果“teniis”、“koohii”和“niuusu”及其对应的识别分数。
接下来对这些识别结果执行比较。在第一次比较(步骤501-504)中,与参照图4描述的针对第1最优识别结果的比较和输出操作相同,此处不再重复描述。
在第一次比较和输出后进行判断。一方面,如果输出的是第一引擎SD-ASR的第1最优识别结果D1,则从第一引擎SD-ASR的识别结果中移除所输出的识别结果D1,并且如果第二引擎SI-ASR的与原有词条有关的识别结果中含有与所输出的识别结果D1具有相同单词的识别结果,例如Ax,则从与原有词条有关的识别结果中移除该具有相同单词的识别结果Ax(步骤505)。
反之,如果在第二引擎SI-ASR的与原有词条有关的识别结果中不含有与所输出的识别结果D1具有相同单词的识别结果,则不在与原有词条有关的识别结果中进行移除。
在另一方面中,如果第一次输出的是第二引擎SI-ASR的与原有词条有关的第1最优识别结果A1,则从第二引擎SI-ASR的与原有词条有关的识别结果中移除所输出的识别结果A1(步骤506)。应注意,此时不需要在第一引擎SD-ASR的识别结果中进行删除,这是因为输出A1的前提就是A1是第一引擎SD-ASR的集外词,即A1不是第一引擎SD-ASR的词汇表中的单词,自然A1也不在第一引擎SD-ASR的识别结果中。
对于移除后的第一引擎SD-ASR的剩余识别结果和第二引擎SI-ASR的与原有词条有关的剩余识别结果,重复执行针对第1最优识别结果的以上比较、输出和移除操作(步骤500-506)直到已输出预定数量的识别结果(步骤507)。
此外,在重复执行比较、输出和移除操作中,如果第一引擎SD-ASR的剩余识别结果和第二引擎SI-ASR的与原有词条有关的剩余识别结果中任一个为空,则直接输出另一个剩余识别结果中的识别结果,直到已输出预定数量的识别结果(步骤507)。
进一步地,在重复执行比较、输出和移除操作中,如果在某一次比较时在第二引擎SI-ASR的与对应词条有关的识别结果中不存在与第一引擎SD-ASR的当前一个识别结果相对应的识别结果,例如不存在具有相同单词的识别结果或在对应关系表中记录的对应词条的单词,则直接输出第一引擎SD-ASR和第二引擎SI-ASR的在本次比较中的识别结果中识别分数较大的一个识别结果;或者输出两个引擎的识别结果,并由用户确认最终的识别结果。
又进一步地,在重复执行比较、输出和移除操作中,如果第一引擎SD-ASR的剩余识别结果和第二引擎SI-ASR的与原有词条有关的剩余识别结果都为空(步骤508)或已经输出了预定数量的识别结果(步骤507),则步骤S105停止执行且针对当前输入语音的识别操作结束(步骤509)。
根据该实施例的语音识别方法也没有对识别结果设置任何权重或对词汇表有任何限制,并且因此不需要设计复杂的判决逻辑,使得语音识别过程更加简单高效。而且,在需要多个识别结果的情况下,通过从一引擎的识别结果中移除每一次比较中所输出的识别结果,并且如果有的话还从另一引擎的识别结果中移除与所输出的识别结果具有相同单词的识别结果,然后再针对两个引擎的剩余识别结果来执行基于与第1最优识别结果的比较、输出和移除操作类似的操作,可以更准确地获得所需数量的识别结果。
接下来参照图6描述根据本发明的一个实施例的语音识别系统的示例性配置的框图。该语音识别系统包括对应词条生成装置601、组合词汇表生成装置602、第一语音识别装置603、第二语音识别装置604以及识别结果比较和输出装置605。
对应词条生成装置601耦接到第一语音识别引擎的词汇表6031,并且针对第一语音识别引擎的词汇表6031中的每个词条生成用于第二语音识别引擎的对应词条。
组合词汇表生成装置602耦接到对应词条生成装置601,接收对应词条生成装置601生成的对应词条,并把所生成的对应词条添加到第二语音识别引擎的词汇表中,以与第二语音识别引擎的词汇表中的原有词条一起生成组合词汇表6041。
第一语音识别装置603接收输入语音600,并使用第一语音识别引擎通过第一语音识别引擎的词汇表6031来识别输入语音600。
第二语音识别装置604接收相同的输入语音600,使用第二语音识别引擎通过组合词汇表6041来识别输入语音600,以生成与原有词条有关的识别结果和与对应词条有关的识别结果。
识别结果比较和输出装置605耦接到第一语音识别装置603和第二语音识别装置604,接收第一语音识别装置603和第二语音识别装置604的识别结果,并使用从第二语音识别装置604输出的与对应词条有关的识别结果,对第一语音识别装置603的识别结果与第二语音识别装置604的与原有词条有关的识别结果进行比较并输出比较结果。
第一语音识别装置603和第二语音识别装置604的每个识别结果包括识别出的单词和对应的识别分数。
在运行时,首先,对应词条生成装置601和组合词汇表生成装置602可以在训练阶段期间生成对应词条并生成组合词汇表6041。
接下来,在识别阶段期间,第一语音识别装置603和第二语音识别引擎604可以接收相同的输入语音600,并分别使用各自的词汇表来识别输入语音600,以生成各自的识别结果。最后,识别结果比较和输出装置605可以如前面的语音识别方法中所述那样对识别结果进行比较并输出所需的比较结果。
以上描述的装置是用于实施本公开中描述的处理的示例性和/或优选的装置。这些装置可以是硬件单元(诸如场可编程门阵列、数字信号处理器、专用集成电路或计算机等)和/或软件装置(诸如计算机可读程序)。以上并未详尽地描述用于实施各个步骤的装置。然而,只要有执行某个处理的步骤,就可以有用于实施同一处理的对应的装置(由硬件和/或软件实施)。通过所描述的步骤以及与这些步骤对应的装置的所有组合限定的技术方案都被包括在本申请的公开内容中,只要它们构成的这些技术方案是完整并且可应用的。
图7是示出能够实施本发明的实施例的计算机系统的硬件配置的框图。
如图7中所示,计算机系统包括经由系统总线704连接的处理单元701、只读存储器702、随机存取存储器703和输入/输出接口705,以及经由输入/输出接口705连接的输入单元706、输出单元707、存储单元708、通信单元709和驱动器710。程序可以预先记录在作为计算机中内置的记录介质的ROM(只读存储器)702或者存储单元708中。或者,程序可以存储(记录)在可移除介质711中。在本文中,可移除介质711包括例如软盘、CD-ROM(压缩光盘只读存储器)、MO(磁光)盘、DVD(数字多功能盘)、磁盘、半导体存储器等。
输入单元706配置有键盘、鼠标、麦克风等。另外,输出单元707配置有LCD(液晶显示器)、扬声器等。
另外,除了通过驱动器710从以上提到的可移除介质711把程序安装到计算机的配置之外,可以通过通信网络或广播网络把程序下载到计算机以安装在内置存储单元708中。换言之,可以例如以无线方式通过用于数字卫星广播的卫星从下载点向计算机或者以有线方式通过诸如LAN(局域网)或互联网等的网络向计算机传输程序。
如果通过对输入单元706的用户操控等、经由输入/输出接口705向计算机系统输入了命令,则CPU701根据命令来执行ROM702中存储的程序。或者,CPU701把存储单元708中存储的程序加载在RAM703上以执行程序。
因此,CPU701执行根据以上提到的流程图的某些处理或者通过以上提到的框图的配置执行的处理。接下来,如果有必要,则CPU701允许处理的结果例如通过输入/输出接口705从输出单元707输出、从通信单元707传输、在存储单元708中记录等。
另外,程序可以由一个计算机(处理器)执行。另外,程序可以由多个计算机以分布式的方式处理。另外,可以把程序传输给远程计算机执行。
图7所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。
图7所示的计算机系统可以被实施于任何实施例,可作为独立计算机,或者也可作为设备中的处理系统,可以移除一个或更多个不必要的组件,也可以向其添加一个或更多个附加的组件。
可以通过许多方式来实施本发明的方法和系统。例如,可以通过软件、硬件、固件、或其任何组合来实施本发明的方法和系统。上述的方法步骤的次序仅是说明性的,本发明的方法步骤不限于以上具体描述的次序,除非以其他方式明确说明。此外,在一些实施例中,本发明还可以被实施为记录在记录介质中的程序,其包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。
虽然已通过示例详细描述了本发明的一些具体实施例,但是本领域技术人员应当理解,上述示例仅是说明性的而不限制本发明的范围。本领域技术人员应该理解,上述实施例可以被修改而不脱离本发明的范围和实质。本发明的范围是通过所附的权利要求限定的。

Claims (19)

1.一种语音识别方法,包括:
对应词条生成步骤,针对第一语音识别引擎的词汇表中的每个词条生成用于第二语音识别引擎的对应词条;
组合词汇表生成步骤,把所生成的对应词条添加到第二语音识别引擎的词汇表中,以与第二语音识别引擎的词汇表中的原有词条一起生成组合词汇表;
第一语音识别步骤,使用第一语音识别引擎通过第一语音识别引擎的词汇表来识别输入语音;
第二语音识别步骤,使用第二语音识别引擎通过组合词汇表来识别输入语音,以生成与原有词条有关的识别结果和与对应词条有关的识别结果;以及
识别结果比较和输出步骤,使用从第二语音识别引擎输出的与对应词条有关的识别结果,对第一语音识别引擎的识别结果与第二语音识别引擎的与原有词条有关的识别结果进行比较并输出比较结果;
其中第一语音识别引擎和第二语音识别引擎的每个识别结果包括识别出的单词和对应的识别分数。
2.根据权利要求1所述的语音识别方法,其中,对于第一语音识别引擎的词汇表中的每个词条,对应词条生成步骤包括:
取得该词条的语音样本;
使用与第二语音识别引擎相匹配的音素切分装置来对语音样本执行音素切分;以及
使用作为音素切分的结果的音素序列来生成对应词条。
3.根据权利要求1所述的语音识别方法,其中,对于第一语音识别引擎的词汇表中的每个词条,对应词条生成步骤包括:
取得该词条的文本;
使用与第二语音识别引擎相匹配的字音转换装置来生成该词条的文本的音素序列;以及
使用所生成的音素序列来生成对应词条。
4.根据权利要求1-3中任一项所述的语音识别方法,其中,识别结果比较和输出步骤包括:
如果第二语音识别引擎的与原有词条有关的第1最优识别结果的单词是第一语音识别引擎的词汇表中的单词,则直接输出第一语音识别引擎的第1最优识别结果。
5.根据权利要求4所述的语音识别方法,识别结果比较和输出步骤还包括:
如果第二语音识别引擎的与原有词条有关的第1最优识别结果的单词不是第一语音识别引擎的词汇表中的单词,则比较第二语音识别引擎的与原有词条有关的第1最优识别结果的识别分数和与第一语音识别引擎的第1最优识别结果对应的、第二语音识别引擎的与对应词条有关的识别结果的识别分数;
如果与对应词条有关的识别结果的识别分数较大,则输出第一语音识别引擎的第1最优识别结果,否则输出第二语音识别引擎的与原有词条有关的第1最优识别结果。
6.根据权利要求5所述的语音识别方法,识别结果比较和输出步骤还包括:
对于第一语音识别引擎的第N最优识别结果和第二语音识别引擎的与原有词条有关的第N最优识别结果,重复执行针对第1最优识别结果的前述比较和输出操作直到输出预定数量的识别结果,其中N是大于1的预定整数。
7.根据权利要求5所述的语音识别方法,识别结果比较和输出步骤还包括:
在输出第一语音识别引擎的第1最优识别结果的情况下,从第一语音识别引擎的识别结果中移除所输出的识别结果,并且在第二语音识别引擎的与原有词条有关的识别结果中含有与所输出的识别结果具有相同单词的识别结果的情况下从与原有词条有关的识别结果中移除该具有相同单词的识别结果;
在输出第二语音识别引擎的与原有词条有关的第1最优识别结果的情况下,从第二语音识别引擎的与原有词条有关的识别结果中移除所输出的识别结果;
对于第一语音识别引擎的剩余识别结果和第二语音识别引擎的与原有词条有关的剩余识别结果,重复执行针对第1最优识别结果的前述比较、输出和移除操作直到已输出预定数量的识别结果。
8.根据权利要求7所述的语音识别方法,识别结果比较和输出步骤还包括:
如果第一语音识别引擎的剩余识别结果和第二语音识别引擎的与原有词条有关的剩余识别结果中任一个为空,则直接输出另一个剩余识别结果中的识别结果,直到已输出预定数量的识别结果。
9.根据权利要求7所述的语音识别方法,识别结果比较和输出步骤还包括:
如果第一语音识别引擎的剩余识别结果和第二语音识别引擎的与原有词条有关的剩余识别结果都为空,则该识别结果比较和输出步骤停止执行。
10.根据权利要求1-3中任一项所述的语音识别方法,其中,第二语音识别引擎的声学模型是基于音素而被建立的。
11.一种语音识别系统,包括:
对应词条生成装置,被配置为针对第一语音识别引擎的词汇表中的每个词条生成用于第二语音识别引擎的对应词条;
组合词汇表生成装置,被配置为把所生成的对应词条添加到第二语音识别引擎的词汇表中,以与第二语音识别引擎的词汇表中的原有词条一起生成组合词汇表;
第一语音识别装置,被配置为使用第一语音识别引擎通过第一语音识别引擎的词汇表来识别输入语音;
第二语音识别装置,被配置为使用第二语音识别引擎通过组合词汇表来识别输入语音,以生成与原有词条有关的识别结果和与对应词条有关的识别结果;以及
识别结果比较和输出装置,被配置为使用从第二语音识别引擎输出的与对应词条有关的识别结果,对第一语音识别引擎的识别结果与第二语音识别引擎的与原有词条有关的识别结果进行比较并输出比较结果;
其中第一语音识别引擎和第二语音识别引擎的每个识别结果包括识别出的单词和对应的识别分数。
12.根据权利要求11所述的语音识别系统,其中,对应词条生成装置包括:
被配置为取得第一语音识别引擎的词汇表中的每个词条的语音样本的装置;
被配置为使用与第二语音识别引擎相匹配的音素切分装置来对语音样本执行音素切分的装置;以及
被配置为使用作为音素切分的结果的音素序列来生成对应词条的装置。
13.根据权利要求11所述的语音识别系统,其中,对应词条生成装置包括:
被配置为取得第一语音识别引擎的词汇表中的每个词条的文本的装置;
被配置为使用与第二语音识别引擎相匹配的字音转换装置来生成该词条的文本的音素序列的装置;以及
被配置为使用所生成的音素序列来生成对应词条的装置。
14.根据权利要求11-13中任一项所述的语音识别系统,其中,识别结果比较和输出装置包括:
被配置为如果第二语音识别引擎的与原有词条有关的第1最优识别结果的单词是第一语音识别引擎的词汇表中的单词,则直接输出第一语音识别引擎的第1最优识别结果的装置。
15.根据权利要求14所述的语音识别系统,识别结果比较和输出装置还包括:
被配置为如果第二语音识别引擎的与原有词条有关的第1最优识别结果的单词不是第一语音识别引擎的词汇表中的单词,则比较第二语音识别引擎的与原有词条有关的第1最优识别结果的识别分数和与第一语音识别引擎的第1最优识别结果对应的、第二语音识别引擎的与对应词条有关的识别结果的识别分数的装置;以及
被配置为如果与对应词条有关的识别结果的识别分数较大,则输出第一语音识别引擎的第1最优识别结果,否则输出第二语音识别引擎的与原有词条有关的第1最优识别结果的装置。
16.根据权利要求15所述的语音识别系统,识别结果比较和输出装置还包括:
被配置为对于第一语音识别引擎的第N最优识别结果和第二语音识别引擎的与原有词条有关的第N最优识别结果,重复执行针对第1最优识别结果的比较和输出操作直到输出预定数量的识别结果的装置,其中N是大于1的预定整数。
17.根据权利要求15所述的语音识别系统,识别结果比较和输出装置还包括:
被配置为在输出第一语音识别引擎的第1最优识别结果的情况下,从第一语音识别引擎的识别结果中移除所输出的识别结果,并且在第二语音识别引擎的与原有词条有关的识别结果中含有与所输出的识别结果具有相同单词的识别结果的情况下从与原有词条有关的识别结果中移除该具有相同单词的识别结果的装置;
被配置为在输出第二语音识别引擎的与原有词条有关的第1最优识别结果的情况下,从第二语音识别引擎的与原有词条有关的识别结果中移除所输出的识别结果的装置;以及
被配置为对于第一语音识别引擎的剩余识别结果和第二语音识别引擎的与原有词条有关的剩余识别结果,重复执行针对第1最优识别结果的比较、输出和移除操作直到已输出预定数量的识别结果的装置。
18.根据权利要求17所述的语音识别系统,识别结果比较和输出装置还包括:
被配置为如果第一语音识别引擎的剩余识别结果和第二语音识别引擎的与原有词条有关的剩余识别结果中任一个为空,则直接输出另一个剩余识别结果中的识别结果,直到已输出预定数量的识别结果的装置。
19.根据权利要求17所述的语音识别系统,识别结果比较和输出装置还包括:
被配置为如果第一语音识别引擎的剩余识别结果和第二语音识别引擎的与原有词条有关的剩余识别结果都为空,则使该识别结果比较和输出装置停止执行的装置。
CN201310163355.8A 2013-05-07 2013-05-07 语音识别方法和语音识别系统 Pending CN104143330A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310163355.8A CN104143330A (zh) 2013-05-07 2013-05-07 语音识别方法和语音识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310163355.8A CN104143330A (zh) 2013-05-07 2013-05-07 语音识别方法和语音识别系统

Publications (1)

Publication Number Publication Date
CN104143330A true CN104143330A (zh) 2014-11-12

Family

ID=51852488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310163355.8A Pending CN104143330A (zh) 2013-05-07 2013-05-07 语音识别方法和语音识别系统

Country Status (1)

Country Link
CN (1) CN104143330A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105632487A (zh) * 2015-12-31 2016-06-01 北京奇艺世纪科技有限公司 一种语音识别方法和装置
CN108630200A (zh) * 2017-03-17 2018-10-09 株式会社东芝 声音关键字检测装置以及声音关键字检测方法
CN109273000A (zh) * 2018-10-11 2019-01-25 河南工学院 一种语音识别方法
CN109923608A (zh) * 2016-11-17 2019-06-21 罗伯特·博世有限公司 利用神经网络对混合语音识别结果进行评级的系统和方法
CN111723233A (zh) * 2019-03-21 2020-09-29 上海语德教育科技有限公司 一种日语在线学习系统及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1264888A (zh) * 1998-12-17 2000-08-30 索尼国际(欧洲)股份有限公司 半监控说话者自适应
CN1454381A (zh) * 2000-09-08 2003-11-05 高通股份有限公司 在话音识别的说话者独立型和依赖型模式中组合dtw和hmm
CN1454380A (zh) * 2000-07-18 2003-11-05 高通股份有限公司 具有多个话音识别引擎的话音识别系统和方法
US6836758B2 (en) * 2001-01-09 2004-12-28 Qualcomm Incorporated System and method for hybrid voice recognition
CN1633679A (zh) * 2001-12-29 2005-06-29 摩托罗拉公司 用于多级分布式语音识别的方法和装置
CN1856820A (zh) * 2003-07-28 2006-11-01 西门子公司 语音识别方法和通信设备
US7149689B2 (en) * 2003-01-30 2006-12-12 Hewlett-Packard Development Company, Lp. Two-engine speech recognition
US20100169094A1 (en) * 2008-12-25 2010-07-01 Kabushiki Kaisha Toshiba Speaker adaptation apparatus and program thereof

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1264888A (zh) * 1998-12-17 2000-08-30 索尼国际(欧洲)股份有限公司 半监控说话者自适应
CN1454380A (zh) * 2000-07-18 2003-11-05 高通股份有限公司 具有多个话音识别引擎的话音识别系统和方法
CN1454381A (zh) * 2000-09-08 2003-11-05 高通股份有限公司 在话音识别的说话者独立型和依赖型模式中组合dtw和hmm
US6836758B2 (en) * 2001-01-09 2004-12-28 Qualcomm Incorporated System and method for hybrid voice recognition
CN1633679A (zh) * 2001-12-29 2005-06-29 摩托罗拉公司 用于多级分布式语音识别的方法和装置
US7149689B2 (en) * 2003-01-30 2006-12-12 Hewlett-Packard Development Company, Lp. Two-engine speech recognition
CN1856820A (zh) * 2003-07-28 2006-11-01 西门子公司 语音识别方法和通信设备
US20100169094A1 (en) * 2008-12-25 2010-07-01 Kabushiki Kaisha Toshiba Speaker adaptation apparatus and program thereof

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIEMING ZHU等: ""Developing a voice control system for Zigbee-based home automation networks"", 《2010 2ND IEEE INTERNATIONAL CONFERENCE ON》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105632487A (zh) * 2015-12-31 2016-06-01 北京奇艺世纪科技有限公司 一种语音识别方法和装置
CN105632487B (zh) * 2015-12-31 2020-04-21 北京奇艺世纪科技有限公司 一种语音识别方法和装置
CN109923608A (zh) * 2016-11-17 2019-06-21 罗伯特·博世有限公司 利用神经网络对混合语音识别结果进行评级的系统和方法
CN108630200A (zh) * 2017-03-17 2018-10-09 株式会社东芝 声音关键字检测装置以及声音关键字检测方法
CN108630200B (zh) * 2017-03-17 2022-01-07 株式会社东芝 声音关键字检测装置以及声音关键字检测方法
CN109273000A (zh) * 2018-10-11 2019-01-25 河南工学院 一种语音识别方法
CN111723233A (zh) * 2019-03-21 2020-09-29 上海语德教育科技有限公司 一种日语在线学习系统及方法

Similar Documents

Publication Publication Date Title
CN102723080B (zh) 一种语音识别测试系统及方法
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US8498857B2 (en) System and method for rapid prototyping of existing speech recognition solutions in different languages
US10650810B2 (en) Determining phonetic relationships
CN113924619A (zh) 通过流式端到端模型的大规模多语言语音识别
JP6556575B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
US10176809B1 (en) Customized compression and decompression of audio data
JP7485858B2 (ja) 実世界ノイズを使用した音声個性化および連合訓練
JP5062171B2 (ja) 音声認識システム、音声認識方法および音声認識用プログラム
CN101154380B (zh) 说话人认证的注册及验证的方法和装置
JP2017062475A (ja) 名前発音システム及び方法
US6990445B2 (en) System and method for speech recognition and transcription
CN102074234A (zh) 语音变异模型建立装置、方法及语音辨识系统和方法
JP6806662B2 (ja) 音声合成システム、統計モデル生成装置、音声合成装置、音声合成方法
CN104143330A (zh) 语音识别方法和语音识别系统
Le et al. G2G: TTS-driven pronunciation learning for graphemic hybrid ASR
US7302381B2 (en) Specifying arbitrary words in rule-based grammars
JP4996156B2 (ja) 音声信号変換装置
EP1899955A1 (en) Speech dialog method and system
JP2004348552A (ja) 音声文書検索装置および方法およびプログラム
KR101945190B1 (ko) 음성인식 작동 시스템 및 방법
JP7376896B2 (ja) 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム
KR102267276B1 (ko) 학습데이터 확장 및 후처리 정제 기능을 가지는 음성 텍스트 변환 시스템 및 방법
JP6179884B2 (ja) Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム
KR20220116660A (ko) 인공지능 스피커 기능을 탑재한 텀블러 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20180202