CN104978963A

CN104978963A - 语音识别装置、方法以及电子设备

Info

Publication number: CN104978963A
Application number: CN201410138192.2A
Authority: CN
Inventors: 石自强; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2014-04-08
Filing date: 2014-04-08
Publication date: 2015-10-14

Abstract

本发明实施例提供一种语音识别装置、方法和电子设备，该装置包括：识别单元，其用于对语音进行识别，以获得候选关键词；解码单元，其结合语义信息，对所述语音中包含识别出所述候选关键词的语音的语音进行解码，以生成与所述包含识别出所述候选关键词的语音的语音对应的词语网格；计算单元，其根据所述词语网格，计算所述候选关键词的置信度；判断单元，其根据所述置信度，判断是否将所述候选关键词确定为关键词。根据本发明的实施例，能够结合语义信息，进行关键词识别，解决了相似发音导致的误识别问题。

Description

语音识别装置、方法以及电子设备

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别装置、方法以及电子设备。

背景技术

关键词识别（Keyword Recognition，KWR）是语音识别的一个分支，又称关键词检出（Keyword Spotting，KWS），是从语音中识别出一组给定的词，即关键词，而忽略除关键词以外的其它词和各种非话音。关键词识别与连续语音识别的不同之处主要是：连续语音识别要求识别出语音的所有内容，而关键词识别则只要求从语音中识别出关键词即可。

现有技术中，通常基于声学模型来识别语音中的关键词：例如，可以直接根据语音的声学模型，来识别关键词，但这种方法容易产生错误拒绝（False Rejection，FR）和错误接受（False Alarm，FA）；在一些改进的方案中，可以构建填充（Filler）模型来提高关键词识别的准确性，或者，可以在构建填充模型的基础上进一步构建混淆词，从而进一步提高关键词识别的准确性，其中，填充模型和混淆词都是基于声学模型而构建的。

应该注意，上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

现有技术通常是基于声学模型来识别关键词，对于发音与其它词比较接近的关键词而言，错误识别的比率仍然较高。例如，对于许多发音较短的关键词而言，很容易与其它词具有相似的发音，如“师长”与“市场”、“年事”与“您是”、“爱心”与“A型”等，因此，采用现有技术中基于声学模型的关键词识别方法很难准确识别出这些关键词。此外，对于基于填充模型和混淆词的方法而言，还存在这样的缺陷：随着关键词或应用环境的变化，混淆词需要重新设计和训练，无法适应多样化的任务和使用条件。

本发明实施例提供一种语音识别装置、方法以及电子设备，能够结合上下文的语义信息，进行关键词识别，解决了相似发音导致的误识别问题。

根据本发明实施例的第一方面，提供一种语音识别装置，该装置包括：

识别单元，其用于对语音进行识别，以获得候选关键词；

解码单元，其结合语义信息，对所述语音中包含识别出所述候选关键词的语音的语音进行解码，以生成与所述包含识别出所述候选关键词的语音的语音对应的词语网格；

计算单元，其根据所述词语网格，计算所述候选关键词的置信度；

判断单元，其根据所述置信度，判断是否将所述候选关键词确定为关键词。

根据本发明实施例的第二方面，提供一种电子设备，其具有如上述第一方面所述的语音识别装置。

根据本发明实施例的第三方面，提供一种语音识别方法，该方法包括：

对语音进行识别，以获得候选关键词；

结合语义信息，对所述语音中包含识别出所述候选关键词的语音的语音进行解码，以生成与所述包含识别出所述候选关键词的语音的语音对应的词语网格；根据所述词语网格，计算所述候选关键词的置信度；

根据所述置信度，判断是否将所述候选关键词确定为关键词。

本发明的有益效果在于：通过结合语义信息，对初步识别的候选关键词进行进一步地识别，可降低错误识别的概率，提高语音识别的准确性。

参照后文的说明和附图，详细公开了本发明的特定实施方式，指明了本发明的原理可以被采用的方式。应该理解，本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内，本发明的实施方式包括许多改变、修改和等同。

针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在，但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。

附图说明

所包括的附图用来提供对本发明实施例的进一步的理解，其构成了说明书的一部分，用于例示本发明的实施方式，并与文字描述一起来阐释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明实施例1的语音识别装置的组成示意图；

图2是是基于填充模型的关键词识别搜索网络示意图；

图3是本发明实施例1的词语网格示意图；

图4-图7是本发明实施例2的词语网格的示意图；

图8是本发明实施例3的电子设备的系统构成的示意框图；

图9是本发明实施例4的语音识别的方法的流程图。

具体实施方式

参照附图，通过下面的说明书，本发明的前述以及其它特征将变得明显。在说明书和附图中，具体公开了本发明的特定实施方式，其表明了其中可以采用本发明的原则的部分实施方式，应了解的是，本发明不限于所描述的实施方式，相反，本发明包括落入所附权利要求的范围内的全部修改、变型以及等同物。

实施例1

图2是本发明实施例1的语音识别装置的组成示意图，如图2所示，语音识别装置100包括识别单元101、解码单元102、计算单元103和判断单元104。

其中，识别单元101用于对语音进行识别，以获得候选关键词；解码单元102用于结合语义信息，对所述语音中包含识别出所述候选关键词的语音的语音进行解码，以生成与所述包含识别出所述候选关键词的语音的语音对应的词语网格；；计算单元103根据该词语网格，计算该候选关键词的置信度；判断单元104根据该置信度，判断是否将该候选关键词确定为关键词。

由上述实施例可知，通过结合语义信息，对初步识别出的候选关键词进行进一步地识别，可降低错误识别的概率，提高语音识别的准确性。

在本发明实施例中，该语音可以是语音采集设备，如麦克风等设备实时采集的语音，也可以是存储在存储介质上的语音。

下面参照附图，详细说明本发明实施例1的语音识别装置100。

在本发明实施例中，识别单元101用于对语音进行识别，以获得候选关键词。其中，对语音进行识别，可以是对输入该装置的语音进行处理，并提取语音，根据该语音特征获得候选关键词。

在本发明实施例中，识别单元101对该语音进行的处理可以是分帧处理，例如，可以以每帧25毫秒，帧叠为10毫秒的方式将该语音划分为多个帧。

在本发明实施例中，识别单元101可以针对该语音的每一帧，提取该帧的语音特征，例如，可以提取该帧的梅尔频率倒谱系数（Mel-Frequency Cepstral Coefficients，MFCC）及其一阶、二阶差分以及能量等特征。识别单元101提取语音特征的具体方法，可以参考现有技术，本发明实施例不再赘述。

在本发明实施例中，识别单元101可以根据提取出的语音特征，获得候选关键词。识别单元101可以采用现有技术中的任何一种方法来获得候选关键词，例如，可以直接根据语音的声学模型，来获得候选关键词，或者可以基于填充模型来获得候选关键词，或者可以基于填充模型和混淆词来获得候选关键词。以下以基于填充模型的方法为例简要说明。图2是基于填充模型的候选关键词搜索网络示意图，如图2所示，候选关键词和填充模型共同组成并行搜索网络，其中，填充模型可以拟合自然界的各种发音现象，例如背景噪声、咳嗽、喘气等非语言现象，从而吸收非语言发音。通过对候选关键词加上合适的奖赏分或对填充模型给予合适的惩罚分，使得关键词得分超过填充模型得分，从而获得关键词。此外，如图2所示，该并行搜索网络还可以进一步具有混淆词，该混淆词与该候选关键词具有相似的发音，能够提高候选关键词的识别率。

对于上述基于填充模型和基于填充模型与混淆词的关键词识别方法的详细说明，可以参考专利公告文件CN102194454B（发明人李鹏等，发明名称“用于检测连续语音中的关键词的设备和方法”，授权公告日1012年11月28日）和“Improved MandarinKeyword Spotting using Confusion Garbage Model”（作者Shilei Zhang等，ICPR1010）以及上述两个文献所引用的文献，本发明实施例不再赘述。

由于具有相似发音的词语往往具有不同的语义，所以在本实施例中，在识别单元101获得的候选关键词后，结合语义信息对候选关键词进行进一步识别，提高语音识别的准确性。

在本实施例中，解码单元102可以结合语义信息对该语音中包含识别出候选关键词的语音的语音进行解码，以生成与该包含识别出候选关键词的语音的语音对应的词语网格。

其中，该包含识别出候选关键词的语音的语音可以是识别单元101进行识别的全部语音，也可以是识别单元101识别的全部语音中的部分语音，即该全部语音中的一个语音片段，该语音片断中包含识别出候选关键词的语音。

在本实施例中，解码单元102进行解码的该语音片段，可以由识别单元101来指示或通过用户输入的指令来指示。其中，可以根据语音中的停顿来确定该语音片断，例如，在人的正常对话所形成的语音流中，会出现自然停顿，相邻的两个自然停顿之间的语音一般具有较强的语义连贯性，所以，可以将相邻的两个自然停顿之间的语音作为该语音片段进行解码。当然，本发明实施例并不限于此，还可以采用其它方式来得到该语音片段，只要其能够包含识别出该候选关键词的语音即可符合本发明实施例的要求。

在本发明实施例中，解码单元102可以采用现有技术中的方法进行解码，例如，可以使用HTK工具包中的HVite功能进行该解码，其中，HTK是进行语音识别研究的开源工具包，HVite功能可以基于隐马尔可夫模型（Hidden Markov Model，HMM）来进行该解码以生成词语网格。有关HTK工具包以及生成词语网格的详细说明可以参考Steve Young等的“The HTK Book”（Cambridge University Press，2009），本发明实施例不再赘述。

图3是解码单元102所生成的词语网格的结构示意图，如图3所示，词语网格300具有边301、字符或词所在的节点302，以及代表该词语网格起点和终点的节点303和304；该词语网格每一条边对应一个数值，该数值表示该条边上的两个节点之间的转移概率，该转移概率反映节点之间的语义关联性。

在本发明实施例中，计算单元103可以根据由解码单元102生成的该词语网格，计算由识别单元101识别出的候选关键词的置信度，从语义的角度对该候选关键词的正确性进行检验。

在本发明实施例中，计算单元103可以根据该候选关键词与该词语网格的关系，计算该候选关键词的置信度。例如，可以分别采用如下的四种方式，来计算该候选关键词的置信度：

A）当该候选关键词的每一个字符都包含在该词语网格中时，计算单元103可以将该候选关键词的置信度设定为第一值，否则，可以将该候选关键词的置信度设定为第二值，其中，该第一值可以是1，该第二值可以是0。

B）计算单元103可以计算该词语网格中第一边的数值的平均值，将该平均值作为该候选关键词的置信度；其中，该第一边包括与该候选关键词所在节点连接的边、以及与该候选关键词中每一个字符所在节点连接的边。

C）计算单元103可以计算该词语网格中第二边的数值的平均值，将该平均值作为该候选关键词的置信度；其中，该第二边包括与该候选关键词所在节点连接的边、以及除了该候选关键词的每一个字符所在节点之间连接的边以外，与该候选关键词的每一个字符所在节点连接的边。

D）当该词语网格的最优路径上包含该候选关键词的全部字符时，该计算单元103可以将该候选关键词的置信度设定为第一值，否则，可以将该候选关键词的置信度设定为第二值，其中，该第一值可以是1，该第二值可以是0；

其中，该最优路径是指该词语网格中具有最大产生概率的路径，该最优路径可以根据Dijkstra最短路径算法来确定。关于最优路径的确定方式，可以参考现有技术，例如，“Dijkstra,E.W.(1959),“A note on two problems in connexion with graphs”,Numerische Mathematik1:269–271,doi:10.1007/BF01386390”以及“Cormen,ThomasH.;Leiserson,Charles E.;Rivest,Ronald L.;Stein,Clifford(2001).“Section24.3:Dijkstra's algorithm”,Introduction to Algorithms(Second ed.),MIT Press andMcGraw–Hill,pp.595–601,ISBN0-262-03293-7”等文献，本发明实施例不再赘述。

在本发明的实施例中，可以采用上述四种方式之一来计算候选关键词的置信度，但是本发明实施例并不限于此，计算单元103还可以将上述四种方式中的至少两种进行组合，来计算置信度，例如，可以对由上述至少两种方式计算出的置信度进行加权计算，得到最终的置信度。此外，计算单元103还可以采用上述四种方式之外的方式来计算候选关键词的置信度。

在本发明实施例中，判断单元104可以根据该候选关键词的置信度与预设阈值之间的关系，来判断是否将该候选关键词确定为关键词。例如，当该候选关键词的置信度大于预设阈值时，判断单元104可以将该候选关键词确定为关键词，即，确定输入到语音识别装置100的语音中出现了该候选关键词；反之，当该候选关键词的置信度小于该预设阈值时，判断单元104不会将该候选关键词确定为关键词，即，该语音中并没有出现该候选关键词。

在本发明的实施例中，结合语义信息生成词语网格，并根据该词语网格计算初步选出的候选关键词的置信度，从而对初步选出的候选关键词进行进一步的识别，由此，能够提高了语音识别的准确性；此外，与基于填充模型和混淆词的语音识别技术相比，可以无需重新设计或训练混淆词，甚至无需构建混淆词，因而能适用于多样化的任务和使用条件。

实施例2

实施例2提供一种语音识别装置，与实施例1的语音识别装置具有相同的结构。在实施例2中，以解码语音片断为例，说明该语音识别装置的工作原理。在本实施例中，仅对该语音片断进行解码，能够控制生成的词语网格的复杂度，节省计算量。在对全部语音进行解码的情况下，将生成更为复杂的词语网格，但是语音识别装置的工作原理与本实施例相同。

在本发明实施例中，假设输入到语音识别装置100中的语音是“zun jing shi zhangshi chuan tong mei de,xu yao cong wo zuo qi”。

识别单元101对该语音进行识别，获得了候选关键词“师长”，其中，识别出“师长”的语音为“shi zhang”；

解码单元102对包含“shi zhang”的语音片段进行解码，从而生成词语网格。该语音片段可以是该语音中两个自然停顿之间的那部分语音，例如可以是“zun jing shizhang shi chuan tong mei de”。

图4-7是本发明实施例2的词语网格的示意图。图4-7的词语网格具有边401、词或字符所在的节点4021-4026和4031-4038、词语网格起点对应的节点404和词语网格终点对应的节点405，每一条边对应的数值表示这条边上两个节点之间的转移概率；其中，节点4021对应词“师长”，节点4022-4026分别对应字符“师”、“长”、“市”、“场”和“张”，节点4031-4038分别对应该语音片断中其它的字符或词。需要说明的是，图4-7的词语网格只是举例，如果输入的语音发生变化，包含“shi zhang”的语音片断也可能发生变化，解码后生成的词语网格的节点数量、节点上的字符或词、节点间的连接方式以及每条边对应的数值等也可能随之发生变化。

在本发明实施例中，计算单元103可以采用如下的四种方式中的任一种，来计算候选关键词“师长”的置信度：

A）当该候选关键词的每一个字符都包含在该词语网格中时，计算单元103可以将该候选关键词的置信度设定为第一值，例如，在图4中，根据节点4021、4022和4023可知，候选关键词“师长”的每一个字符都包含在该词语网格中，因此，计算单元103可以将候选关键词“师长”的置信度设定为1；反之，如果图4中没有节点4021和4022，即，词语网格中只出现了“长”，那么，可以将候选关键词“师长”的置信度设定为0。

B）计算单元103可以计算该词语网格中第一边的数值的平均值，将该平均值作为该候选关键词的置信度，其中，该第一边包括与该候选关键词所在节点连接的边、以及与该候选关键词中每一个字符所在节点连接的边，例如，如图5所示，计算节点4021、4022和4023所连接的边对应的数值的平均值，该第一边可以是图5中实线所示的边，即节点404与4021之间的边、节点4021与4034之间的边、节点4031与4022之间的边、节点4022与4023之间的边、节点4022与4026之间的边、节点4026与4023之间的边、节点4023与4034之间的边、节点4023与4036之间的边、节点4023与404之间的边。

C）计算单元103可以计算该词语网格中第二边的数值的平均值，将该平均值作为该候选关键词的置信度，其中，该第二边包括与该候选关键词所在节点连接的边、以及除了该候选关键词的每一个字符所在节点之间连接的边以外，与该候选关键词的每一个字符所在节点连接的边，例如，如图6所示，计算节点4021、4022和4023所连接的边中除了连接于节点4022和4023之间的边以外的边所对应的数值的平均值，该第二边可以是图6中实线所示的边：节点404与4021之间的边、节点4021与4034之间的边、节点4031与4022之间的边、节点4023与4034之间的边、节点4023与4036之间的边。

D）当该词语网格的最优路径上包含该候选关键词的全部字符时，计算单元103可以将该候选关键词的置信度设定为第一值，否则，设定为第二值，例如，如图7所示，假设该词语网格的最优路径是由节点404、4031、4024、4025、4036、4037和405连接成的路径，即图7的实线所示的路径，那么，由于该最优路径上并没有包含候选关键词“师长”的全部字符，因此，计算单元103可以将该候选关键词“师长”的置信度设定为0；反之，如果“师长”的全部字符都出现在该最优路径上，则可以将该置信度设定为1。

在本发明实施例中，计算单元103还可以采用上述的四种方式中的至少两种，来计算候选关键词“师长”的至少两个置信度，并计算该至少两个置信度的加权平均值，作为该候选关键词的最终置信度，例如，可以根据下式计算该最终置信度CM，

CM = Σ_{n = 1}^{n = N} {CM}_{n} \times η_{n}

其中，CM_n是第n个置信度的值，η_n是第n个置信度对应的权值，n和N都是自然数，并且2≤n≤4，n≤N。

在本发明实施例中，判断单元104可以在该候选关键词的置信度大于预设阈值时，将该候选关键词确定为关键词；反之，当该候选关键词的置信度小于于预设阈值时，判断单元104可以不将该候选关键词确定为关键词。此外，可以根据置信度的计算方法来设定相应的阈值。

在本发明的实施例中，根据语义信息生成该语音的词语网格，并根据该词语网格计算初步识别出的候选关键词的置信度，从而对该候选关键词进行进一步识别，由此，能够提高语音识别的准确性。

实施例3

实施例3提供一种电子设备，其包括如实施例1、2所述的语音识别装置。该电子设备可以具有语音控制等功能，通过该语音识别装置识别出关键词，并根据该关键词生成相应的控制信号。

图8是本发明实施例的电子设备800的系统构成的一示意框图。如图8所示，该电子设备800可以包括中央处理器801和存储器802；存储器802耦合到中央处理器801。值得注意的是，该图是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

在一个实施方式中，该语音识别装置的功能可以被集成到中央处理器801中。其中，中央处理器801可以被配置为：对语音进行识别，以获得候选关键词；结合语义信息，对所述语音中包含识别出所述候选关键词的语音的语音进行解码，以生成与所述包含识别出所述候选关键词的语音的语音对应的词语网格；根据所述词语网格，计算所述候选关键词的置信度；根据所述置信度，判断是否将所述候选关键词确定为关键词。

中央处理器801还可以被配置为基于填充模型，获得所述候选关键词；

中央处理器801还可以被配置为基于隐马尔可夫模型，进行所述解码；

中央处理器801还可以被配置为当所述候选关键词的每一个字符都包含在所述词语网格中时，所述将所述候选关键词的置信度设为第一值；

中央处理器801还可以被配置为计算所述词语网格中第一边的数值的平均值，将所述平均值作为所述候选关键词的置信度，其中，所述第一边包括与所述候选关键词所在节点连接的边、以及与所述候选关键词中每一个字符所在节点连接的边，每个边的数值表示所述每个边上的一个节点到另一个节点的转移概率；

中央处理器801还可以被配置为计算所述词语网格中第二边的数值的平均值，将所述平均值作为所述候选关键词的置信度，其中，所述第二边包括与所述候选关键词所在节点连接的边、以及除了所述候选关键词的每一个字符所在节点之间连接的边以外，与所述候选关键词的每一个字符所在节点连接的边，每个边的数值表示所述每个边上的一个节点到另一个节点的转移概率；

中央处理器801还可以被配置为当所述词语网格的最优路径上包含所述候选关键词的全部字符时，将所述候选关键词的置信度设为第一值；

中央处理器801还可以被配置为当所述候选关键词的所述置信度大于预设阈值时，将所述候选关键词确定为所述关键词。

在另一个实施方式中，该识别语音中关键词的装置可以与中央处理器801分开配置，例如可以将该识别语音中关键词的装置配置为与中央处理器801连接的芯片，通过中央处理器的控制来实现该识别语音中关键词的装置的功能。

该中央处理器801还能够被配置为根据识别出的关键词，产生与该关键词相应的控制信号，用于控制该电子设备801或其它设备。

如图8所示，电子设备800还可以包括：输入单元803，其可用于向该电子设备输入连续的语音，该输入单元例如可以是麦克风；通信单元804，其可用于向该电设备的外部发送与该关键词对应的该控制指令；显示器805，其可用于对该关键词进行显示；电源806，其用于向该电子设备800提供电力。值得注意的是，电子设备800也并不是必须要包括图8中所示的所有部件；此外，用户设备800还可以包括图8中没有示出的部件，可以参考现有技术。

如图8所示，中央处理器801有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器801接收输入并控制电子设备800的各个部件的操作。

其中，存储器807，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述连续的语音和/或候选关键词，此外还可存储执行有关信息的程序。并且中央处理器801可执行该存储器807存储的该程序，以实现信息存储或处理等。其他部件的功能与现有类似，此处不再赘述。电子设备800的各部件可以通过专用硬件、固件、软件或其结合来实现，而不偏离本发明的范围。

实施例4

本实施例提供一种识别语音中关键词的方法，对应实施例1、2的装置。

图9是本发明实施例识别语音中关键词的方法的示意图，如图6所示，该方法包括：

步骤901，对语音进行识别，以获得候选关键词；

步骤902，结合语义信息，对所述语音中包含识别出所述候选关键词的语音的语音进行解码，以生成与所述包含识别出所述候选关键词的语音的语音对应的词语网格；

步骤903，根据所述词语网格，计算所述候选关键词的置信度；

步骤904，根据所述置信度，判断是否将所述候选关键词确定为关键词。

在本发明实施例中，上述各步骤的原理与实施例1、2中对应的单元相同，此处不再赘述。

本发明实施例还提供一种计算机可读程序，其中当在信息处理装置或用户设备中执行所述程序时，所述程序使得计算机在所述信息处理装置或用户设备中执行实施例4所述的语音识别方法。

本发明实施例还提供一种存储有计算机可读程序的存储介质，其中所述计算机可读程序使得计算机在信息处理装置或用户设备中执行实施例4所述的语音识别方法。

本发明实施例还提供一种计算机可读程序，其中当在信息处理装置或基站中执行所述程序时，所述程序使得计算机在所述信息处理装置或基站中执行实施例4所述的语音识别方法。

本发明实施例还提供一种存储有计算机可读程序的存储介质，其中所述计算机可读程序使得计算机在信息处理装置或基站中执行实施例4所述的语音识别方法。

本发明以上的装置和方法可以由硬件实现，也可以由硬件结合软件实现。本发明涉及这样的计算机可读程序，当该程序被逻辑部件所执行时，能够使该逻辑部件实现上文所述的装置或构成部件，或使该逻辑部件实现上文所述的各种方法或步骤。本发明还涉及用于存储以上程序的存储介质，如硬盘、磁盘、光盘、DVD、flash存储器等。

以上结合具体的实施方式对本发明进行了描述，但本领域技术人员应该清楚，这些描述都是示例性的，并不是对本发明保护范围的限制。本领域技术人员可以根据本发明的精神和原理对本发明做出各种变型和修改，这些变型和修改也在本发明的范围内。

关于包括以上实施例的实施方式，还公开下述的附记：

附记1、一种语音识别装置，该装置包括：

识别单元，其用于对语音进行识别，以获得候选关键词；

附记2、根据附记1所述的装置，其中，所述识别单元基于填充模型，获得所述语音中的所述候选关键词。

附记3、根据附记1所述的装置，其中，所述解码单元基于隐马尔可夫模型，进行所述解码。

附记4、根据附记1所述的装置，其中，

当所述候选关键词的每一个字符都包含在所述词语网格中时，所述计算单元将所述候选关键词的置信度设为第一值。

附记5、根据附记1所述的装置，其中，

所述计算单元计算所述词语网格中第一边的数值的平均值，将所述平均值作为所述候选关键词的置信度，

其中，所述第一边包括与所述候选关键词所在节点连接的边、以及与所述候选关键词中每一个字符所在节点连接的边，每个边的数值表示所述每个边上的一个节点到另一个节点的转移概率。

附记6、根据附记1所述的装置，其中，

所述计算单元计算所述词语网格中第二边的数值的平均值，将所述平均值作为所述候选关键词的置信度，

其中，所述第二边包括与所述候选关键词所在节点连接的边、以及除了所述候选关键词的每一个字符所在节点之间连接的边以外，与所述候选关键词的每一个字符所在节点连接的边，每个边的数值表示所述每个边上的一个节点到另一个节点的转移概率。

附记7、根据附记1所述的装置，其中，

当所述词语网格的最优路径上包含所述候选关键词的每一个字符时，所述计算单元将所述候选关键词的置信度设为第一值。

附记8、根据附记1所述的装置，其中，

当所述候选关键词的所述置信度大于预设阈值时，所述判断单元将所述候选关键词确定为所述关键词。

附记9、一种电子设备，其具有根据附记1-8中任一项所述的语音识别装置。

附记10、一种语音识别方法，该方法包括：

对语音进行识别，以获得候选关键词；

结合语义信息，对所述语音中包含识别出所述候选关键词的语音的语音进行解码，以生成与所述包含识别出所述候选关键词的语音的语音对应的词语网格；

根据所述词语网格，计算所述候选关键词的置信度；

附记11、根据附记10所述的方法，其中，基于填充模型，识别获得语音中的所述候选关键词。

附记12、根据附记10所述的方法，其中，基于隐马尔可夫模型，进行所述解码。

附记13、根据附记10所述的方法，其中，根据所述词语网格，计算所述候选关键词的置信度包括：

当所述候选关键词的每一个字符都包含在所述词语网格中时，将所述候选关键词的置信度设为第一值。

附记14、根据附记10所述的方法，其中，根据所述词语网格，计算所述候选关键词的置信度包括：

计算所述词语网格中第一边的数值的平均值，将所述平均值作为所述候选关键词的置信度，

附记15、根据附记10所述的方法，其中，根据所述词语网格，计算所述候选关键词的置信度包括：

计算所述词语网格中第二边的数值的平均值，将所述平均值作为所述候选关键词的置信度，

附记16、根据附记10所述的方法，其中，根据所述词语网格，计算所述候选关键词的置信度包括：

当所述词语网格的最优路径上包含所述候选关键词的全部字符时，将所述候选关键词的置信度设为第一值。

附记17、根据附记10所述的方法，其中，

当所述候选关键词的所述置信度大于预设阈值时，将所述候选关键词确定为所述关键词。

Claims

1.一种语音识别装置，该装置包括：

识别单元，其用于对语音进行识别，以获得候选关键词；

2.根据权利要求1所述的装置，其中，所述识别单元基于填充模型，获得所述候选关键词。

3.根据权利要求1所述的装置，其中，所述解码单元基于隐马尔可夫模型进行所述解码。

4.根据权利要求1所述的装置，其中，

5.根据权利要求1所述的装置，其中，

6.根据权利要求1所述的装置，其中，

7.根据权利要求1所述的装置，其中，

8.根据权利要求1所述的装置，其中，

9.一种电子设备，其具有根据权利要求1-8中任一项所述的语音识别装置。

10.一种语音识别方法，该方法包括：

对语音进行识别，以获得候选关键词；

根据所述词语网格，计算所述候选关键词的置信度；