CN103971678A

CN103971678A - 关键词检测方法和装置

Info

Publication number: CN103971678A
Application number: CN201310034769.0A
Authority: CN
Inventors: 卢鲤; 张翔; 岳帅; 饶丰; 王尔玉; 李露
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2013-01-29
Filing date: 2013-01-29
Publication date: 2014-08-06
Anticipated expiration: 2033-01-29
Also published as: CN103971678B; US20140236600A1; US9466289B2; WO2014117547A1

Abstract

本申请提供了关键词检测方法和装置。其中，该方法包括：使用IPA音素集合和多个不同语种的数据训练一个声学模型；其中，所述前景模型用于描述关键词对应的音素，所述背景模型用于吸收非关键词对应的音素；利用所述声学模型搭建一个对应的音素解码器；采集待检测的关键词音频样本，利用所述音素解码器对采集的关键词音频样本进行解码得到对应的关键词音素序列；利用所述声学模型检测待测音频，以通过所述声学模型中的前景模型吸收所述待检测音频中与所述关键词音素序列描述的音素相同的音素，而通过所述声学模型中的背景模型吸收所述待检测音频中的非关键词音素。采用本发明，能够提高关键测的检测的灵活性和广泛性。

Description

关键词检测方法和装置

技术领域

本申请涉及互联网技术，特别涉及关键词检测方法和装置。

背景技术

音频关键词检测是语音安全监控中的重要一环，其中最大的难点是语言种类较多，而识别引擎往往只能对某一种语言进行较为准确的识别，导致关键词检测系统很难普适的对各种语言音频进行识别。

基于此，基于音频样本的关键词检测方法应运而生，该方法并不需要具体明确待检测音频的语言种类，下面对该基于音频样本的关键词检测方法进行描述：

首先，利用任意一种语言的音频数据训练得到音素级后验概率的神经网络；

其后，在获得一个待检测的关键词音频样本时，利用神经网络获取该关键词音频样本对应的特征序列，具体就是该关键词音频样本在神经网络训练时候得到的各个音素上的后验概率，形成该关键词音频样本的一种表征形式。

最后，使用滑动窗从特征序列开始逐步向后平移，每一次的平移继续使用神经网络得到每一个滑动窗内的特征表征，之后使用动态时间归整（DTW：Dynamic Time Warping）算法进行弯曲比对，如果特征表征符合的情况下，则输出一次关键词的检出。

至此，完成现有基于音频样本的关键词检测方法的描述。

上述基于音频样本的关键词检测方法中，特征层表征、特征序列基于神经网络提取，具备一定的鲁棒性；另外，该方法使用DTW算法配合滑动窗来检出关键词，而DTW算法是早期语音识别中使用的一种方案，主要适用于孤立词语音识别系统中，其核心思想是基于动态规划，对音频特征在特征层面直接进行比对，因此实现较为简单，实时率较高。

但是，由于人在发声的时候会随着年龄，情绪，环境，健康情况等等外界因素而发生读音的改变，因此，DTW算法不具备非常高的鲁棒性，往往环境噪声就可以导致该关键词检测的精确度大幅下降；

还有，在现有关键词检测方法中，神经网络的训练是基于单一语种，如此，当该语种的音频样本进行关键词检测时会有较好的性能，但是扩充到其他语种之后，由于单一语种的音素集以及数据发音特点限制，在非训练语种的音频上，难以取得较好的识别性能。

发明内容

本申请提供了关键词检测方法和装置，以提高关键词的检测精确度。

本申请提供的技术方案包括：

一种关键词检测方法，该方法包括：

使用国际通用音标IPA音素集合和多个不同语种的数据训练一个声学模型；其中，所述前景模型用于描述关键词对应的音素，所述背景模型用于吸收非关键词对应的音素；

利用所述声学模型搭建一个对应的音素解码器；

采集关键词音频样本，利用所述音素解码器对采集的关键词音频样本进行解码得到对应的关键词音素序列；

利用所述声学模型对待检测音频进行检测，以通过所述声学模型中的前景模型吸收所述待检测音频中与所述关键词音素序列描述的音素相同的音素部分，而通过所述声学模型中的背景模型吸收所述待检测音频中的非关键词音素部分。

一种关键词检测装置，该装置包括：

声学模型训练模块，用于使用国际通用音标IPA音素集合和多个不同语种的数据训练一个声学模型；其中，所述前景模型用于描述关键词对应的音素，所述背景模型用于吸收非关键词对应的音素；

音素解码器模块，用于利用所述声学模型搭建成一个对应的音素解码器；

关键词音频样本采集模块，用于采集关键词音频样本，利用所述音素解码器对采集的关键词音频样本进行解码得到对应的关键词音素序列；

关键测检测模块，用于利用所述声学模型检测所述待检测音频，以通过所述声学模型中的前景模型吸收所述待检测音频中与所述关键词音素序列描述的音素相同的音素部分，而通过所述声学模型中的背景模型吸收所述待检测音频中的非关键词音素部分。

由以上技术方案可以看出，本发明不再使用DTW算法，而是通过对多个不同语种的数据和IPA音素集合训练声学模型，该声学模型融合各个语种的音素，真正的实现了声学模型和语种无关，如此，基于声学模型的识别系统进行关键词的检测，这相比于单纯的DTW算法具有非常大的鲁棒性能优势，也能提高关键测的检测精度。

附图说明

图1为本发明实施例提供的方法流程图；

图2为本发明实施例提供的关键词检索模型示意图；

图3为本发明实施例提供的框架示意图；

图4为本发明实施例提供的前景模型训练流程图；

图5为本发明实施例提供的隐马尔可夫模型结构示意图；

图6为本发明实施例提供的关键词音素序列确定流程图；

图7为本发明实施例提供的PCN线性结构示意图；

图8为本发明实施例提供的步骤603实现流程图；

图9为本发明实施例提供的装置结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本发明提供的方法在进行关键词检测时不再使用DTW算法，而是通过训练声学模型，基于声学模型的识别系统进行关键词的检测，这相比于单纯的DTW算法具有非常大的鲁棒性能优势。

下面对本发明提供的方法进行描述：

参见图1，图1为本发明实施例提供的方法流程图。如图1所示，该流程可包括以下步骤：

步骤101，使用国际通用音标（IPA）音素集合和多个不同语种的数据训练一个声学模型；其中，所述前景模型用于描述关键词对应的音素，所述背景模型用于吸收非关键词对应的音素。

作为本发明的一个实施例，步骤101中，使用IPA音素集合和多个不同语种的数据训练一个声学模型可包括：

采集多个不同语种的音频数据和该音频数据的标注数据；

获取所述多个不同语种中每一语种的音素集合；

将各个音素集合中的音素映射到IPA音素得到IPA音素映射集合；

基于采集的各个语种的音频数据、该音频数据的标注数据、以及所述IPA音素映射集合训练一个声学模型。

IPA，国际通用且被认为音素覆盖面最广泛，基于此，本发明先将采集的各个音频数据所使用的各个语种比如中文、英语等的音素映射到IPA的音素映射到IPA音素得到IPA音素映射集合（也称映射后的音素集合），利用该IPA音素映射集合训练声学模型，能够保证训练出的声学模型融合各个语种的音素，从而真正的实现声学模型和语种无关，便于后续关键词的检测。

还有，本发明中，将各个音素集合中的音素映射到IPA音素得到IPA音素映射集合具体实现时可有多种实现方式，下面仅举出以下三种实现方式。其中，该三种实现方式仅是一种举例，并非用于限定本发明：

方式1：

本方式1比较简单，其是基于预设定的音素映射规则的方法实现。其中，音素映射规则是经由语言学家的研究得到各个语种中音素的发音规律，利用该发音规律与IPA音素的发音规律来建立各个语种中音素与IPA的音素之间的映射关系。基于此，本方式1可直接利用该音素映射规则将各个音素集合中的音素映射到IPA音素得到IPA音素映射集合。

方式2：

本方式2是基于数据驱动的方法。其中，基于数据驱动的方法是通过解码一定数量的特定语种数据，得到特定语种的音素和IPA音素的混淆关系，如果特定语种的一个音素与IPA的一个音素的混淆程度比较大，比如大于第一设定阈值，则就认为这两个音素之间具有映射关系。

方式3：

一般来说，基于数据驱动的方法优于基于音素映射规则的方法，因此，作为本发明的一个实施例，本方式3是上述方式1和方式2的组合，即先基于音素映射规则初步建立语种的音素与IPA音素的映射关系，之后再进行数据驱动的方法修正得到的初步映射关系。

至此，完成上述三种方式的描述。

还有，本发明中，上述如何基于采集的各个语种的音频数据、该音频数据的标注数据、以及所述IPA音素映射集合训练一个声学模型在下文进行了描述。

步骤102，利用所述声学模型搭建一个对应的音素解码器。

步骤103，采集关键词音频样本，利用所述音素解码器对采集的关键词音频样本进行解码得到对应的关键词音素序列。

作为本发明的一个实施例，步骤103中，利用所述音素解码器对采集的关键词音频样本进行解码得到对应的关键词音素序列具体为：

识别采集的关键词音频样本的数量，

在采集的关键词音频样本的数量仅为一个时，利用所述音素解码器对采集的一个关键词音频样本进行解码，将解码之后得到的唯一音素系列确定为所述关键词音素序列；

在采集的关键词音频样本的数量大于1时，利用所述音素解码器对采集的每一个关键词音频样本进行解码得到每一关键词音频样本对应的音素序列，从得到的音素序列中选择一个作为所述关键词音素序列。

至于在所述数量大于1时，如何从得到的音素序列中选择一个作为关键词音素序列这在下文进行了描述，这里暂不赘述。

步骤104，利用所述声学模型对待检测音频进行检测，以通过所述声学模型中的前景模型吸收所述待检测音频中与所述关键词音素序列描述的音素相同的音素部分，而通过所述声学模型中的背景模型吸收所述待检测音频中的非关键词音素部分。

作为本发明的一个实施例，则基于声学模型，本发明构建了图2所示的关键词检索模型。如图2所示，该关键词检索模型由前景模型网络和背景模型网络组成，其中，前景模型网络中KW_1至KW_N表示关键词音素序列，具体由前景模型表征，而背景模型网络中FILLER_1至FILLER_N表示背景模型的所有音素，当待检测音频进入图2所示的模型时，包含关键词的音素会在前景模型网络中吸收，而非关键词部分会被背景模型网络吸收，从而实现关键词的检出。

至此，完成图1所示的流程。对应图1所示的流程，本发明提供了对应的框架示意图，具体如图3所示。

在上面描述中，作为本发明的一个实施例，基于采集的各个语种的音频数据、该音频数据的标注数据、以及所述IPA音素映射集合训练一个声学模型可包括：

对采集的每一语种的音频数据进行特征提取得到对应的音频特征序列；这里，特征提取方式具体实现时可有多种实现形式，比如感知线性预测数据（PLP）、或者为Mel频率倒谱系数（MFCC）数据等，本发明并不具体限定；

从IPA音素映射集合中获取每一音频特征序列对应的特征音素集合；

利用特征音素集合、采集的标注数据分别训练前景模型和背景模型；

利用所述前景模型和背景模型组合成所述声音模型。

下面对如何训练前景模型和背景模型分别进行重点描述：

前景模型训练：

参见图4，图4为本发明实施例提供的前景模型训练流程图。如图4所示，该流程可包括以下步骤：

步骤401，训练种子模型。

这里，训练种子模型就是为特征音素集合中每一音素的三个状态训练最初始的隐马尔可夫模型（HMM：Hidden Markov Model）。也就是说，执行完步骤401，特征音素集合中每一音素就为一个隐马尔可夫模型，该隐马尔可夫模型拓扑结构如图5所示。在图5中，每一音素其中包含三个状态，从左向右时序排列，依次为S1、S2、S3。

在每一个状态上，音素的发射概率是使用混合高斯模型（GMM：Gaussianmixture model）进行估计的，其数学表达式如下式：

p (\overset{&RightArrow;}{x} | λ) = Σ_{i = 1}^{M} p_{i} b_{i} (\overset{&RightArrow;}{x})

（公式1）

其中，是音素对应的特征矢量，i＝1...M是M个高斯分布，p_i为第i个高斯分布的权重，保证每一个高斯分布表示为下式形式：

b_{i} (\overset{&RightArrow;}{x}) = \frac{1}{{(2 π)}^{D / 2} {| Σ_{i} |}^{1 / 2}} \exp {- \frac{1}{2} {(\overset{&RightArrow;}{x} - {\overset{&RightArrow;}{μ}}_{i})}^{'} {Σ_{i}}^{- 1} (\overset{&RightArrow;}{x} - {\overset{&RightArrow;}{μ}}_{i})}

（公式2）

其中，和∑_i分别为第i个高斯分布的均值和方差。

步骤402，单音素模型训练。

本步骤402中，针对每一音素，从之前采集的标注数据中获取与该音素相关的数据，利用该获取的数据对在步骤401形成的该音素最初始的隐马尔可夫模型进行更新，得到单音素模型。

步骤403，上下文音素扩展。

本步骤403之所以执行，主要是考虑到人的声道变化过程，每一个音素的发出都是和上下音素相关联，采用单一音素不足以描述，因此本步骤403，针对特征音素集合中的每一音素，获取该音素的上下文音素，得到三音素，即将过去的单音素变成上下文链接的三音素。

步骤404，决策树聚类。

本步骤404中，决策树聚类实质是对每一三音素的状态进行的聚类，通过该聚类能够适当减少后续生成的三音素模型。

步骤405，高斯分裂训练。

通过高斯分裂训练能够保证在三音素聚类后，对聚类后的三音素进行相应参数的更新，具体可与现有高斯分裂训练方式类似，不再赘述。

步骤406，对经过高斯分裂训练后的聚类三音素进行最小音素错误（MPE：Minimum Phone Error）鉴别性训练，得到三音素模型。

本步骤406具体可与现有MPE训练方式类似，这里不再赘述。

步骤407，基于得到的单音素模型和三音素模型训练出所述前景模型。

至此，完成图4所示流程。

可以看出，通过图4所示流程能够训练出前景模型。至于本发明所述的背景模型，在描述之前，先对该背景模型涉及到的混淆矩阵进行描述：

本发明中，基于图4训练出的单音素模型，计算任意两个单音素模型之间的GMM距离，以得到相似音素的混淆矩阵，将相似程度较高的音素聚类在一起。

其中，作为本发明的一个实施例，得到相似音素的混淆矩阵具体实现时可为：计算任意两个单音素模型之间的GMM距离后，比较该计算的GMM距离与第二设定阈值，如果前者大于后者，则认为该两个单音素模型对应的单音素相似，将相似的单音素聚类在一起并记录至用于描述相似音素的混淆矩阵。比如，通过计算b、p两个单音素模型之间的GMM距离后，发现该计算的GMM距离大于第二设定阈值，则将b、p记录至混淆矩阵，再通过计算d、t两个单音素模型之间的GMM距离后，发现该计算的GMM距离大于第二设定阈值，则将d、t记录至混淆矩阵，至此，该混淆矩阵可为：

|\begin{matrix} b & p \\ d & t \end{matrix}|

至此，完成混淆矩阵的描述。

下面描述背景模型训练：

本发明中，背景模型的训练是通过对前景模型的音素利用上述的混淆矩阵处理实现的，具体实现时可为：利用所述混淆矩阵对所述前景模型中的音素进行处理，以实现同一类的音素用一个对应的混淆音素替代，得到混淆音素集合；通过所述混淆音素集合训练所述背景模型。

可以看出，背景模型训练是基于粗粒度的音素模型实现的，其可以模糊掉一些单音素的发音个性，从而和前景模型中的音素形成更为鲜明的对比，这样可以尽量避免背景模型对语音中关键词的吸收，提高关键词检出召回率。

以上对本发明涉及的前景模型和背景模型进行了描述。

下面对上面描述的在采集的关键词音频样本数量大于1时，如何从得到的音素序列中选择一个作为关键词音素序列：

参见图6，图6为本发明实施例提供的关键词音素序列确定流程图。如图6所示，该流程可包括以下步骤：

步骤601，将得到的每一音素序列作为一个音素序列候选。

举例粤语“管委会”，采集了用于描述这个词的10个关键测音频样本，通过解码后得到下表1所示的10个音素序列：

表1

可以看到，表1示出的10个音素序列都不尽相同，但是其中还是包含着一定的相似性，这里，暂时先将获得的这10个音素序列统称为音素串候选。

步骤602，采用PCN方式将所有音素序列候选组合成PCN线性结构，在所述PCN线性结构中，所有音素序列候选中的音素对应作为所述PCN线性结构的一条边，相似的各个音素对应的边归并至同一个槽，各个槽之间形成了线性连接关系。

基于上述的音素序列候选，如果全部直接进行检测，会由于混淆度过高而导致虚警的大幅增加，因为每个词语的正确发音只有一条或者两条（多音字的情况），因此，本发明采取PCN方式先将多个音素序列候选组合成混淆矩阵的PCN线性结构。

其中，作为本发明的一个实施例，在组合PCN线性结构时主要可包括：

首先，在音素序列候选中选择一个满足设定条件最长的音素序列候选作为基准，而将其它的音素序列候选作为候选基准；

其后，基于动态规划的方法计算基准和候选基准之间的最小编辑距离。其中，在计算最小编辑距离时，将上述的混淆矩阵纳入考虑，具体是：按照相似音素对齐的方式先将两个音素序列候选进行上下排列，以使得同一类的音素归并到一个槽内，如此，以表1为例，则得到的PCN线性结构如图7所示。

在图7所示的PCN线性结构中，每一边上都对应一个音素。以音素k、c、t、h为例，基于相似度考虑，发现音素k、c、t、h相似，能够聚类为同一类，基于此，图7中，将音素k、c、t、h对应的边归至同一个槽内。其它音素原理类似。如此，图7形成了多个槽，而各个槽之间通过线性连接。

步骤603，从所述PCN线性结构中选择出一条路径，将组成该路径的各条边上的音素作为所述关键词音素序列。

作为本发明的一个实施例，步骤603具体实现时可参见图8所示流程。

参见图8，图8为本发明实施例提供的步骤603实现流程图。如图8所示，该流程可包括以下步骤：

步骤801，计算所述PCN线性结构中每一条边上的音素在所有音素序列候选中的出现频率。

比如图7所示的k（0.2），则意味着音素k在所有音素序列候选比如表1中出现的频率。

步骤802，遍历所述PCN线性结构中的每一路径，利用组成该路径的各条边上音素的出现频率计算该路径的得分。

以图7所示PCN线性结构为例，则可以看出该PCN线性结构从左至右存在可能的48条路径，基于此，本步骤802就依赖于组成该各个路径的各条边上音素的出现频率计算该路径的得分。

步骤803，将每一路径的得分从高至低进行排序，选择前N条路径作为备选路径，N大于1。

作为本发明一个实施例，这里，N可取值为3至6。

步骤804，利用N条备选路径分别和所有音素序列候选进行置信度计算，依据计算结果选择一条备选路径作为关键词音素序列。

优选地，本步骤804具体实现时可为：

针对每一条备选路径，

用该备选路径与每一音素序列候选进行强制对齐来进行置信度计算；

将该备选路径与所有音素序列候选进行强制对齐后计算的置信度进行平均值运算，将得到的结果作为该备选路径对应的置信度；

从N条备选路径对应的置信度中选择取值最大的置性度，将该选择的置信度对应的备选路径作为所述关键词音素序列。

其中，本发明中，选择的置信度算法可为声学模型置信度，还可以为神经网络置信度，或者多种置信度融合的方式，本发明并不具体限定。

下面仅以声学模型置信度为例进行描述：

以声学模型置信度为例，则首先，用每一条备选路径对全部的关键词样本进行强制对齐，之后可以计算得出相应的声学模型置信度，基于声学模型的置信度算法分为两个阶段，一个是音素级别的置信度计算，一个是关键词级别的置信度计算。

其中，音素级别的置信度计算如下式：

CM ({ph}_{i}) = \frac{1}{e [i] - b [i] + 1} Σ_{n = b [i]}^{e [i]} \log p (q^{(n)} | o^{(n)})

（公式3）

= \frac{1}{e [i] - b [i] + 1} Σ_{n = b [i]}^{e [i]} \log \frac{p (o^{(n)} | q^{(n)})] (q^{(n)})}{p (o^{(n)})}

而关键词级别的置信度计算如下式：

CM (w) = \frac{1}{m} Σ_{i = 1}^{m} CM ({ph}_{i})

（公式4）

其中，b[i]和e[i]分别为备选路径中音素序列ph_i的起始帧和结束帧，o⁽ⁿ⁾为与备选路径对应的音素序列，q⁽ⁿ⁾表示备选路径中各个音素的状态序列。m表示备选路径所包含的音素个数。

基于上面得到的CM(ph_i)，则从N条备选路径对应的置信度中选择取值最大的置性度，将该选择的置信度对应的备选路径作为所述关键词音素序列具体可通过以下公式实现：

Tr (w_{i}) = \arg \max_{{Tr}_{p} (w_{i})} \frac{1}{N (S (w_{i}))} \underset{j}{Σ} CM ({Tr}_{p} (w_{i}) | S_{j} (w_{i}));

（公式5）

其中，Tr_p(w_i)表示关键词音素序列，这里称为第i个发音序列，S_j(w_i)表示第j个音素序列候选，N(S(w_i))表示音素序列候选的个数。

通过公式5，能够将每一个备选路径对所有音素序列候选的置信度结果进行平均后选择其中得分最高的，也就认为是最符合的备选路径作为该关键词样本的发音。

至此，完成本发明提供的方法描述，下面对本发明提供的装置进行描述：

参见图9，图9为本发明实施例提供的装置结构图。如图9所示，该装置包括：

声学模型训练模块，用于使用IPA音素集合和多个不同语种的数据训练一个声学模型；其中，所述前景模型用于描述关键词对应的音素，所述背景模型用于吸收非关键词对应的音素；

关键词音频样本采集模块，用于采集待检测的关键词音频样本，利用所述音素解码器对采集的关键词音频样本进行解码得到对应的关键词音素序列；

关键测检测模块，利用所述声学模型检测待测音频，以通过所述声学模型中的前景模型吸收所述待检测音频中与所述关键词音素序列描述的音素相同的音素部分，而通过所述声学模型中的背景模型吸收所述待检测音频中的非关键词音素部分。

优选地，如图9所示，本发明中，所述声学模型训练模块可包括：

数据采集单元，用于采集多个不同语种的音频数据和该音频数据的标注数据；

获取单元，用于获取所述多个不同语种中每一语种的音素集合；

映射单元，用于将各个音素集合中的音素映射到IPA音素得到IPA音素映射集合；

训练单元，用于基于采集的各个语种的音频数据、该音频数据的标注数据、以及所述IPA音素映射集合训练一个声学模型。

本发明中，所述训练单元具体实现时可包括：

特征提取子单元，用于对采集的每一语种的每一条音频数据进行特征提取得到对应的音频特征序列，从IPA音素映射集合中获取每一音频特征序列对应的特征音素集合；

训练子单元，用于利用特征音素集合、采集的标注数据分别训练前景模型和背景模型，并利用所述前景模型和背景模型组合成所述声音模型。

其中，所述训练子单元通过以下步骤训练前景模型：

为特征音素集合中每一音素的三个状态训练最初始的隐马尔可夫模型，并从采集的标注数据中获取与该音素相关的数据，利用该获取的数据对最初始的隐马尔可夫模型进行更新，得到单音素模型；

针对标注音素集合中的每一音素，获取该音素的上下文音素，得到三音素，所述标注音素集合为标注数据对应的音素集合；

对获取的每一三音素的状态进行决策树聚类，对聚类后的三音素进行相应参数的更新之后进行最小音素错误MPE鉴别性训练，得到三音素模型；

基于得到的单音素模型和三音素模型训练出所述前景模型。

优选地，本发明中，所述训练子单元进一步计算任意两个单音素模型之间的混合高斯模型GMM距离；比较该计算的GMM距离与第二设定阈值，如果前者大于后者，则认为该两个单音素模型对应的单音素相似，将相似的单音素聚类在一起并记录至用于描述相似音素的混淆矩阵；

基于此，所述训练子单元通过以下步骤训练所述背景模型：

利用所述混淆矩阵对所述前景模型中的音素进行处理，以实现同一类的音素用一个对应的混淆音素替代，得到混淆音素集合；

通过所述混淆音素集合训练所述背景模型。

本发明中，如图9所示，所述关键词音频样本采集模块可包括：

样本采集单元，用于采集关键词音频样本；

确定单元，用于在所述样本采集单元采集到的所述关键词音频样本的数量仅为一个时，利用所述音素解码器对采集的一个关键词音频样本进行解码，将解码之后得到的唯一音素序列确定为所述关键词音素序列；在所述样本采集单元采集到的关键词音频样本的数量大于1时，利用所述音素解码器对采集的每一个关键词音频样本进行解码得到每一关键词音频样本对应的音素序列，从得到的音素序列中选择一个作为所述关键词音素序列。

其中，所述确定单元从得到的音素序列中选择一个作为关键词音素序列包括：

将得到的每一音素序列作为一个音素序列候选；

采用PCN方式将所有音素序列候选组合成PCN线性结构，在所述PCN线性结构中，所有音素序列候选中的音素对应作为所述PCN线性结构的一条边，相似的各个音素对应的边归并至同一个槽，各个槽之间形成了线性连接关系；

通过置信度算法从所述PCN线性结构中选择出一条路径，将组成该路径的各条边上的音素作为所述关键词音素序列。

至此，完成图9所示的装置结构描述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种关键词检测方法，其特征在于，该方法包括：

利用所述声学模型搭建一个对应的音素解码器；

2.根据权利要求1所述的方法，其特征在于，所述利用音素解码器对采集的关键词音频样本进行解码得到对应的关键词音素序列包括：

识别采集的关键词音频样本的数量，

在所述数量仅为一个时，利用所述音素解码器对采集的一个关键词音频样本进行解码，将解码之后得到的唯一音素序列确定为所述关键词音素序列；

在所述数量大于1时，利用所述音素解码器对采集的每一个关键词音频样本进行解码得到每一关键词音频样本对应的音素序列，从得到的音素序列中选择一个作为所述关键词音素序列。

3.根据权利要求1所述的方法，其特征在于，所述使用国际通用音标IPA音素集合和多个不同语种的数据训练一个声学模型包括：

采集多个不同语种的音频数据和该音频数据的标注数据；

获取所述多个不同语种中每一语种的音素集合；

4.根据权利要求3所述的方法，其特征在于，所述将各个音素集合中的音素映射到IPA音素得到IPA音素映射集合包括：

针对各个音素集合中的每一音素，基于预设定的音素映射规则从IPA音素集合中识别出与该音素具有映射关系的IPA音素，将该识别出的IPA音素记录至IPA音素映射集合；或者，

针对各个音素集合中的每一音素，计算该音素与任一IPA音素的混淆度，如果该计算的混淆度大于第一设定阈值，则确定该音素与该IPA音素具映射关系，将该IPA音素记录至IPA音素映射集合；或者，

针对各个音素集合中的每一音素，基于预设定的音素映射规则从IPA音素集合中识别出与该音素具有映射关系的IPA音素，计算该音素与该识别出的IPA音素的混淆度，如果该计算的混淆度大于第一设定阈值，则确定该音素与该IPA音素具映射关系，将该IPA音素记录至IPA音素映射集合。

5.根据权利要求3所述的方法，其特征在于，所述基于采集的各个语种的音频数据、该音频数据的标注数据、以及所述IPA音素映射集合训练一个声学模型包括：

对采集的每一语种的音频数据进行特征提取得到对应的音频特征序列；

利用所述前景模型和背景模型组合成所述声学模型。

6.根据权利要求5所述的方法，其特征在于，所述前景模型通过以下步骤训练：

基于得到的单音素模型和三音素模型训练出所述前景模型。

7.根据权利要求6所述的方法，其特征在于，该方法进一步包括：

计算任意两个单音素模型之间的混合高斯模型GMM距离；

比较该计算的GMM距离与第二设定阈值，如果前者大于后者，则认为该两个单音素模型对应的单音素相似，将相似的单音素聚类在一起并记录至用于描述相似音素的混淆矩阵。

8.根据权利要求7所述的方法，其特征在于，所述背景模型通过以下步骤训练：

通过所述混淆音素集合训练所述背景模型。

9.根据权利要求2所述的方法，其特征在于，所述从得到的音素序列中选择一个作为所述关键词音素序列包括：

将得到的每一音素序列作为一个音素序列候选；

从所述PCN线性结构中选择出一条路径，将组成该路径的各条边上的音素作为所述关键词音素序列。

10.根据权利要求9所述的方法，其特征在于，所述从PCN线性结构中选择出一条路径，将组成该路径的各个边对应的音素作为关键词音素序列包括：

计算所述PCN线性结构中每一条边上的音素在所有音素序列候选中的出现频率；

遍历所述PCN线性结构中的每一路径，利用组成该路径的各条边上音素的出现频率计算该路径的得分；

将每一路径的得分从高至低进行排序，选择前N条路径作为备选路径，N大于1；

利用N条备选路径分别和所有音素序列候选进行置信度计算，依据计算结果选择一条备选路径作为关键词音素序列。

11.根据权利要求10所述的方法，其特征在于，所述利用N条备选路径分别和所有音素序列候选进行置信度计算，依据计算结果选择一条备选路径作为关键词音素序列包括：

针对每一条备选路径，

12.一种关键词检测装置，其特征在于，该装置包括：

13.根据权利要求12所述的装置，其特征在于，所述声学模型训练模块包括：

14.根据权利要求13所述的装置，其特征在于，所述训练单元包括：

15.根据权利要求14所述的装置，其特征在于，所述训练子单元通过以下步骤训练前景模型：

基于得到的三音素模型训练出所述前景模型。

16.根据权利要求15所述的装置，其特征在于，所述训练子单元进一步计算任意两个单音素模型之间的混合高斯模型GMM距离；比较该计算的GMM距离与第二设定阈值，如果前者大于后者，则认为该两个单音素模型对应的单音素相似，将相似的单音素聚类在一起并记录至用于描述相似音素的混淆矩阵；

所述训练子单元通过以下步骤训练所述背景模型：

通过所述混淆音素集合训练所述背景模型。

17.根据权利要求12至16任一所述的装置，其特征在于，所述关键词音频样本采集模块包括：

样本采集单元，用于采集关键词音频样本；

18.根据权利要求17所述的装置，其特征在于，所述确定单元从得到的音素序列中选择一个作为关键词音素序列包括：

将得到的每一音素序列作为一个音素序列候选；