CN107767863A

CN107767863A - 语音唤醒方法、系统及智能终端

Info

Publication number: CN107767863A
Application number: CN201610701651.2A
Authority: CN
Inventors: 吴国兵; 潘嘉; 刘聪; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2016-08-22
Filing date: 2016-08-22
Publication date: 2018-03-06
Anticipated expiration: 2036-08-22
Also published as: CN107767863B

Abstract

本发明公开了一种语音唤醒方法及系统，该方法包括：接收语音数据；获取所述语音数据的第一声学特征；利用所述第一声学特征、第一声学模型及第一解码网络进行唤醒词识别，得到初次唤醒词识别结果；如果所述初次唤醒词识别结果为唤醒词，则判断所述初次唤醒词识别结果是否达到设定目标；如果是，则获取所述语音数据的第二声学特征；利用所述第二声学特征、第二声学模型及第二解码网络进行二次唤醒词识别，得到二次唤醒词识别结果；根据所述二次唤醒词识别结果，确定是否唤醒成功。本发明还提供一种智能终端。利用本发明，可以有效降低语音唤醒系统功耗。

Description

语音唤醒方法、系统及智能终端

技术领域

本发明涉及语音处理领域，具体涉及一种语音唤醒方法、系统及智能终端。

背景技术

语音唤醒通过理解用户语音数据的语义信息，达到唤醒智能终端的目的，该过程无需与设备进行物理接触即可实现，从而解放了人类的双手，打开了人类通往人工智能的第一扇大门，广泛应用于各种智能终端上，如智能穿戴设备、手机、平板电脑、智能家电等。现有方法在进行语音唤醒时，接收到语音数据后，提取语音数据的声学特征，利用提取的声学特征及预先构建的声学模型进行唤醒词识别。

现有的语音唤醒方法存在以下缺点：

(1)由于无法预知用户何时进行人机交互操作，因此需要持续不断地监听，一旦接收到语音数据，立即进行唤醒词识别，这个过程会消耗智能终端大量资源，功耗较大。

(2)为了提高唤醒成功率，现有方法一般使用较大的声学模型及解码网络进行唤醒词识别，进一步增加了语音唤醒功耗，这对于内存较小的智能终端是无法接受的，当功耗过大时，常会出现死机或无应答的情况，大大降低了用户体验度。

发明内容

本发明提供一种语音唤醒方法、系统及智能终端，在保证唤醒成功率的同时，有效降低系统功耗。

为此，本发明提供如下技术方案：

一种语音唤醒方法，包括：

接收语音数据；

获取所述语音数据的第一声学特征；

利用所述第一声学特征、第一声学模型及第一解码网络进行唤醒词识别，得到初次唤醒词识别结果；

如果所述初次唤醒词识别结果为唤醒词，则判断所述初次唤醒词识别结果是否达到设定目标；

如果是，则获取所述语音数据的第二声学特征；

利用所述第二声学特征、第二声学模型及第二解码网络进行二次唤醒词识别，得到二次唤醒词识别结果；所述第二声学模型大于所述第一声学模型，和/或所述第二解码网络大于所述第一解码网络；

根据所述二次唤醒词识别结果，确定是否唤醒成功。

可选地，所述第二声学特征与第一声学特征相同或不同。

可选地，所述第一声学特征为以下任意一种特征：MFCC特征、Bottleneck特征、Filterbank特征。

优选地，所述第一声学模型包括唤醒词声学模型和吸收模型，其中的唤醒词声学模型和吸收模型分别训练，唤醒词声学模型使用基于第一声学特征的GMM-HMM表征，吸收模型采用GMM-HMM来表征；

所述第二声学模型包括唤醒词声学模型和吸收模型，其中的唤醒词声学模型和吸收模型同时训练，二者均使用基于第二声学特征的神经网络模型来表征。

优选地，所述判断所述初次唤醒词识别结果是否达到设定目标包括：

确定当前环境状态；

根据所述环境状态判断所述初次唤醒词识别结果是否达到设定目标。

优选地，所述确定当前环境状态包括：

计算所述语音数据的信噪比；

如果所述信噪比大于设定值，则当前环境状态为安静环境；否则当前环境状态为噪声环境。

优选地，所述根据所述环境状态判断所述初次唤醒词识别结果是否达到设定目标包括：

获取初次唤醒词识别过程中得到的唤醒词和非唤醒词的声学似然度；

根据所述声学似然度计算唤醒词和非唤醒词的声学似然比；

如果所述声学似然比大于与所述环境状态对应的判断阈值，则所述初次唤醒词识别结果达到设定目标。

优选地，所述根据所述二次唤醒词识别结果，确定是否唤醒成功包括：

如果所述二次唤醒词识别结果为唤醒词，则确定唤醒成功。

如果所述二次唤醒词识别结果为唤醒词，则对所述初次唤醒词识别结果和所述二次唤醒词识别结果进行融合，得到融合结果；

根据所述融合结果确定是否唤醒成功。

优选地，所述对所述初次唤醒词识别结果和所述二次唤醒词识别结果进行融合，得到融合结果包括：

分别获取所述初次唤醒识别结果的声学似然比T1和所述二次唤醒识别结果的声学似然比T2；

将所述初次唤醒识别结果的声学似然比T1与所述二次唤醒识别结果的声学似然比T2进行加权组合，得到融合结果T；

所述根据所述融合结果确定是否唤醒成功包括：

如果所述融合结果T大于设定的融合阈值，则唤醒成功；否则唤醒失败。

计算所述初次唤醒识别结果的时长与所述二次唤醒识别结果的时长之间的相似度；

如果所述融合结果大于设定的融合阈值，并且所述相似度大于设定的相似度阈值，则唤醒成功；否则唤醒失败。

一种语音唤醒系统，包括：

接收模块，用于接收语音数据；

第一声学特征获取模块，用于获取所述语音数据的第一声学特征；

初次唤醒模块，用于利用所述第一声学特征、第一声学模型及第一解码网络进行唤醒词识别，得到初次唤醒词识别结果；

判断模块，用于在所述初次唤醒词识别结果为唤醒词时，判断所述初次唤醒词识别结果是否达到设定目标；如果是，则触发第二声学特征获取模块；

所述第二声学特征获取模块，用于获取所述语音数据的第二声学特征；

二次唤醒模块，用于利用所述第二声学特征、第二声学模型及第二解码网络进行二次唤醒词识别，得到二次唤醒词识别结果；所述第二声学模型大于所述第一声学模型，和/或所述第二解码网络大于所述第一解码网络；

确定模块，用于根据所述二次唤醒词识别结果，确定是否唤醒成功。

优选地，所述判断模块包括：

环境状态确定单元，用于确定当前环境状态；

判断单元，用于根据所述环境状态判断所述初次唤醒词识别结果是否达到设定目标。

优选地，所述环境状态确定单元，具体用于计算所述语音数据的信噪比，在所述信噪比大于设定值时，确定当前环境状态为安静环境，否则确定当前环境状态为噪声环境。

优选地，所述判断单元包括：

似然度获取子单元，用于获取初次唤醒词识别过程中得到的唤醒词和非唤醒词的声学似然度；

似然比计算子单元，用于根据所述声学似然度计算唤醒词和非唤醒词的声学似然比，并在所述声学似然比大于与所述环境状态对应的判断阈值时，确定所述初次唤醒词识别结果达到设定目标。

优选地，所述确定模块，具体用于在所述二次唤醒词识别结果为唤醒词时，确定唤醒成功。

优选地，所述确定模块包括：

融合单元，用于在所述二次唤醒词识别结果为唤醒词时，对所述初次唤醒词识别结果和所述二次唤醒词识别结果进行融合，得到融合结果；

第一确定单元，用于根据所述融合结果确定是否唤醒成功。

优选地，所述融合单元，具体用于分别获取所述初次唤醒识别结果的声学似然比T1和所述二次唤醒识别结果的声学似然比T2，并将所述初次唤醒识别结果的声学似然比T1与所述二次唤醒识别结果的声学似然比T2进行加权组合，得到融合结果T；

所述确定单元，具体用于在所述融合结果T大于设定的融合阈值时，确定唤醒成功；否则确定唤醒失败。

优选地，所述确定模块包括：

相似度计算单元，用于计算所述初次唤醒识别结果的时长与所述二次唤醒识别结果的时长之间的相似度；

第二确定单元，用于在所述融合结果大于设定的融合阈值，并且所述相似度大于设定的相似度阈值时，确定唤醒成功；否则确定唤醒失败。

一种智能终端，包括上面所述的语音唤醒系统。

优选地，所述智能终端为以下任意一种：穿戴设备、手机、平板电脑、音箱、家电设备、智能车机。

本发明实施例提供的语音唤醒方法、系统及智能终端，一旦接收到语音数据，即利用较小的声学模型及解码网络进行初次唤醒词识别，在识别到唤醒词，并且初次唤醒词识别结果达到设定目标后，再利用较大的声学模型及解码网络进行二次唤醒词识别。由于初次唤醒的功耗较小，用于持续监听时，可以有效降低唤醒功耗；只有当初次唤醒词识别结果达到设定目标才会开启二次唤醒操作，二次唤醒操作使用较大的声学模型及解码网络，因此有效地保证了唤醒成功率。

进一步地，二次唤醒时，使用学习能力较强的神经网络模型，其具有较强的非线性变换能力，训练得到的模型区分性较强，进一步提高了唤醒成功率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例语音唤醒方法的流程图；

图2是本发明实施例语音唤醒系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

针对现有的语音唤醒方法功耗较大的问题，本发明实施例提供一种语音唤醒方法及系统，一旦接收到语音数据，即利用较小的声学模型及解码网络进行初次唤醒词识别，在识别到唤醒词，并且初次唤醒词识别结果达到设定目标后，再利用较大的声学模型及解码网络进行二次唤醒词识别。

如图1所示，是本发明实施例语音唤醒方法的流程图，包括以下步骤：

步骤101，接收语音数据。

所述语音数据通过智能终端的麦克风接收。

步骤102，获取所述语音数据的第一声学特征。

所述第一声学特征用于初次唤醒，所述第一声学特征可以是MFCC特征，具体提取时，可以先对语音数据进行分帧处理；随后对分帧后的语音数据进行预加重；最后依次提取每帧语音数据的频谱特征。

当然，为了进一步提高声学特征的区分性，第一声学特征也使用区分性较高的声学特征，如Bottleneck特征、Filterbank特征。Bottleneck特征具体提取时，首先提取语音数据的MFCC特征，然后将提取的MFCC特征作为预先构建的深度神经网络模型的输入特征，进行模型训练，提取Bottleneck层输出的特征，作为Bottleneck特征，具体提取方法与现有技术相同，在此不再详述。Filterbank特征的提取也可以采用现有技术，在此亦不再详述。

步骤103，利用所述第一声学特征、第一声学模型及第一解码网络进行唤醒词识别，得到初次唤醒词识别结果。

为了降低唤醒功耗及资源存储，初次唤醒词识别过程采用较小声学模型及较小解码网络对唤醒词进行识别，并且唤醒系统处于实时监听状态，用户任意时刻唤醒时，都可以及时响应。第一声学模型的构建以及第一解码网络的结构将在后面详细说明。

具体解码时，利用预先构建的较小解码网络及声学模型，采用动态规划方法计算每个语音单元的声学特征在第一解码网络的每条路径上的声学得分，将声学得分最高的路径作为最优路径。如果最优路径为唤醒词路径，则识别结果为该路径上的唤醒词；如果识别结果为吸收路径，则识别结果为非唤醒词。

步骤104，如果所述初次唤醒词识别结果为唤醒词，则判断所述初次唤醒词识别结果是否达到设定目标；如果是，则执行步骤105；否则唤醒失败。

为了进一步降低噪声干扰，提高唤醒的准确性，在本发明实施例中，可以根据当前环境状态来确定初次唤醒词识别结果是否达到设定目标。为此，需要首先确定当前环境状态，比如可以根据接收的语音数据的信噪比来确定。具体地，计算所述语音数据的信噪比；如果所述信噪比大于设定值，则当前环境状态为安静环境；否则当前环境状态为噪声环境。

当然，所述环境状态并不限定为安静环境和噪声环境两种，也可以根据实际应用需求划分多种环境状态，从而满足用户的个性化需求，如根据用户每次的唤醒时间，将唤醒环境进一步划分为上午、下午、晚上、凌晨等，不同唤醒环境唤醒词声学似然比阈值根据实验结果或应用需求设定。

在根据所述环境状态判断所述初次唤醒词识别结果是否达到设定目标时，可以预先设定不同环境下的判断阈值，根据当前环境下的判断阈值来确定初次唤醒词识别结果达到设定目标。

比如，根据唤醒词识别过程中相应的唤醒词和非唤醒词的声学似然度，计算唤醒词和非唤醒词的声学似然度之间的比值得到唤醒词的声学似然比，当所述似然比大于阈值时，则认为当前语音数据为非噪声语音数据，开始进行二次唤醒操作，否则唤醒失败，继续接收语音数据。

分别设定不同环境下唤醒词声学似然比阈值，根据当前环境下唤醒词声学似然比阈值，进行唤醒词确认，以上述两种环境状态为例，具体唤醒词确认结果如表1所示，其中，T1为初次唤醒时，唤醒词识别过程中计算得到的唤醒词的声学似然比，thres_clean为安静环境下声学似然比阈值，thres_noise为噪声环境下声学似然比阈值，所述阈值可以根据大量实验结果确定或根据实际应用需求确定。

表1

步骤105，获取所述语音数据的第二声学特征。

所述第二声学特征用于二次唤醒操作。需要说明的是，第二声学特征可以和第一声学特征相同，也可以和第一声学特征不同，具体可以根据应用需求确定。如第一声学特征使用Bottleneck特征时，第二声学特征使用Filterbank特征；当然，二者也可以相同，即第一声学特征和第二声学特征都使用Bottleneck特征。如果第二声学特征和第一声学特征相同，则在步骤106，可以直接使用步骤102中提取出的第一声学特征进行二次唤醒词识别，而无需从语音数据中再重新提取声学特征。

步骤106，利用所述第二声学特征、第二声学模型及第二解码网络进行二次唤醒词识别，得到二次唤醒词识别结果。

需要说明的是，在本发明实施例中所述第二声学模型大于所述第一声学模型，和/或所述第二解码网络大于所述第一解码网络。而且，为了提高唤醒成功率，二次唤醒操作不但使用了较大的声学模型及解码网络，同时考虑了初次唤醒结果。第二声学模型的构建以及第二解码网络的结构将在后面详细说明。

在该步骤中，唤醒词识别过程与初次唤醒时类似，即利用预先构建的较大解码网络及声学模型，采用动态规划方法计算每个语音单元的声学特征在第二解码网络的每条路径上的声学得分，将声学得分最高的路径作为最优路径。如果最优路径为唤醒词路径，则识别结果为该路径上的唤醒词；如果识别结果为吸收路径，则识别结果为非唤醒词。

步骤107，根据所述二次唤醒词识别结果，确定是否唤醒成功。

在得到二次唤醒词识别结果后，确定是否唤醒成功可以有以下几种方式：

1)直接根据二次唤醒词识别结果确定是否唤醒成功。

比如，如果所述二次唤醒词识别结果为唤醒词，则确定唤醒成功，否则唤醒失败。

2)综合考虑二次唤醒词识别结果和初次唤醒词识别结果这两者来确定是否唤醒成功。

比如，对所述初次唤醒词识别结果和所述二次唤醒词识别结果进行融合，得到融合结果；根据所述融合结果确定是否唤醒成功。具体的融合方法举例如下：

分别获取初次唤醒识别结果的声学似然比T1和二次唤醒识别结果的声学似然比T2；

将初次唤醒识别结果的声学似然比T1与二次唤醒识别结果的声学似然比T2进行加权组合，得到融合结果T，如式(1)所示：

T＝α*T1+β*T2 (1)

如果融合结果T大于设定的融合阈值，则唤醒成功；否则唤醒失败。

3)不仅考虑上述融合结果T，还进一步考虑初次唤醒的唤醒词时长与二次唤醒的唤醒词时长之间的相似度。

具体地，首先利用第一声学特征和初次唤醒声学模型对接收语音数据进行状态级切分，得到初次唤醒词识别时，唤醒词时长向量D1，表示为D1＝(d11,d12,…,d1n)；然后利用第二声学特征和二次唤醒声学模型对接收语音数据进行状态级切分，得到二次唤醒词识别时，唤醒词时长向量D2，表示为D2＝(d21,d22,…,d2n)；最后计算时长向量D1与时长向量D2之间的相似度，所述相似度具体可以使用向量之间的余弦距离、欧式距离等表示，距离越小，相似度越高。

以余弦距离为例具体计算方法如式(2)所示：

其中，Dcos为时长向量之间的余弦距离，所述距离越小时，相似度越高。

如果所述融合结果大于设定的融合阈值，并且所述相似度大于设定的相似度阈值，则唤醒成功；否则唤醒失败，继续接收语音数据。

在本发明实施例中，在进行初次唤醒词识别时，采用较小的声学模型及较小的解码网络，在进行二次唤醒词识别时，采用较大的声学模型及较大的解码网络，也就是说，前面所述的第一声学模型小于第二声学模型，和/或第一解码网络小于第二解码网络。

下面分别对这两次唤醒词识别过程中使用的声学模型进行详细说明。

一、第一声学模型

所述第一声学模型包括唤醒词声学模型和吸收模型，所述唤醒词声学模型用于从语音数据中识别出唤醒词，所述吸收模型用于吸收唤醒词之外的各种声音现象，如非唤醒词语音、各种形式的噪声、音乐等。

a)训练唤醒词声学模型

为了在低功耗情况下，提高唤醒成功率，所述唤醒词声学模型使用基于第一声学特征的GMM(Gaussian Mixture Model，高斯混合模型)表征。具体训练时，首先收集大量包含唤醒词的语音数据，提取语音数据的声学特征，所述声学特征与第一声学特征相同，然后基于MLE(Maximum Likelihood Estimation，极大似然准则)训练基于HMM(Hidden MarkovModel，隐马尔可夫模型)的高斯混合模型，再基于此模型进行基于MPE(Minimum PhoneError，最小音素错误准则)的区分性训练，得到唤醒词声学模型。

b)训练吸收模型

所述吸收模型与上述唤醒词声学模型一样，采用GMM-HMM模型来表征。与唤醒词声学模型不同的是，吸收模型的吸收单元是由所有语音单元聚类构成的，吸收模型的个数取决于聚类的类别数，一般在1到100之间。

具体训练时，首先收集大量语音数据，所述语音数据尽可能地包含所有语音单元，所述语音单元如音素、音节等，如收集的语音数据尽可能地包含中文中的所有音节；然后提取语音数据的声学特征，所述声学特征与第一声学特征相同，然后基于极大似然准则训练基于HMM的高斯混合模型，得到每个语音单元的声学模型；随后基于KL(Kullback-Leibler)距离对语音单元的声学模型进行聚类，得到吸收单元，所述吸收单元由语音单元聚类构成的，具体聚类数可以预先根据实验结果设定；最后，将训练数据的标注修改为吸收单元，利用修改后的训练数据重新训练吸收单元对应的声学模型，称为吸收模型，具体训练方法与语音单元声学模型训练方法相同。

例如：修改训练数据标注的方法如下：训练数据标注的语音单元为“zhong1”，在聚类后，语音单元“zhong1”属于类1，即吸收单元1，则只需将训练数据的标注修改为“吸收单元1”即可。

第一解码网络中包含上述唤醒词声学模型和吸收模型。

二、第二声学模型

所述声学模型包括唤醒词声学模型和吸收模型，二次唤醒时，唤醒词声学模型与吸收模型同时训练，二者都使用基于第二声学特征的深度神经网络模型来表征，所述第二声学特征如Filterbank特征，所述深度神经网络结构如前馈神经网络、卷积神经网络或循环神经网络的一种或多种的组合形式，神经网络的隐层数一般为3到8层，每个隐层的节点数一般为2048个。利用收集的大量语音数据进行模型训练，模型训练时，深度神经网络的输入为语音数据的声学特征(即前面提到的第二声学特征)，输出为唤醒词对应的状态及通用语音单元，唤醒词对应的状态用于唤醒词声学模型的构建，通用语音单元用于吸收模型的构建，使用收集的语音数据根据交叉熵准则进行模型训练，训练结束后，得到唤醒词声学模型和吸收模型。

所述第一解码网络和第二解码网络可以通过预先收集的唤醒词文本数据构建得到，具体构建方法与语音识别中解码网络构建方法相同。

本发明实施例提供的语音唤醒方法，在接收到语音数据后，即利用较小的声学模型及解码网络进行初次唤醒词识别，在识别到唤醒词，并且初次唤醒词识别结果达到设定目标后，再利用较大的声学模型及解码网络进行二次唤醒词识别。由于初次唤醒的功耗较小，用于持续监听时，可以有效降低唤醒功耗；只有当初次唤醒词识别结果达到设定目标才会开启二次唤醒操作，二次唤醒操作使用较大的声学模型及解码网络，因此有效地保证了唤醒成功率。

相应地，本发明实施例还提供一种语音唤醒系统，如图2所示，该系统包括：

接收模块201，用于接收语音数据；

第一声学特征获取模块202，用于获取所述语音数据的第一声学特征；

初次唤醒模块203，用于利用所述第一声学特征、第一声学模型及第一解码网络进行唤醒词识别，得到初次唤醒词识别结果；

判断模块204，用于在所述初次唤醒词识别结果为唤醒词时，判断所述初次唤醒词识别结果是否达到设定目标；如果是，则触发第二声学特征获取模块205；

所述第二声学特征获取模块205，用于获取所述语音数据的第二声学特征；

二次唤醒模块206，用于利用所述第二声学特征、第二声学模型及第二解码网络进行二次唤醒词识别，得到二次唤醒词识别结果；所述第二声学模型大于所述第一声学模型，和/或所述第二解码网络大于所述第一解码网络；

确定模块207，用于根据所述二次唤醒词识别结果，确定是否唤醒成功。

需要说明的是，上述第二声学特征与第一声学特征可以相同，也可以不同，具体可以采用MFCC特征、Bottleneck特征、Filterbank特征，这些声学特征的提取可以采用现有技术。如果两次唤醒词识别利用相同的声学特征，则在该系统中，第一声学特征获取模块202需要从语音数据中提取声学特征，第二声学特征获取模块205可以直接从第一声学特征获取模块202获取需要的声学特征即可，或者可以省略第二声学特征获取模块205，即二次唤醒模块206利用第一声学特征获取模块202提取的声学特征进行唤醒词识别。

在本发明实施例的系统中，使用的第一声学模块和第二声学模型可以由相应的模块预先训练。所述模块可以作为该系统的一部分，也可以独立于该系统，对此本发明实施例不做限定。另外，为了降低唤醒功耗及资源存储，初次唤醒词识别过程采用较小声学模型及较小解码网络对唤醒词进行识别，并且唤醒系统处于实时监听状态，用户任意时刻唤醒时，都可以及时响应。第一声学模型包括唤醒词声学模型和吸收模型，其中的唤醒词声学模型和吸收模型分别训练，唤醒词声学模型使用基于第一声学特征的GMM-HMM表征，吸收模型采用GMM-HMM来表征。二次唤醒词识别过程采用较大的声学模型及解码网络，具体地，所述第二声学模型包括唤醒词声学模型和吸收模型，其中的唤醒词声学模型和吸收模型同时训练，二者均使用基于第二声学特征的神经网络模型来表征，所述神经网络模型如DNN、CNN、RNN等。

为了进一步降低噪声干扰，提高唤醒的准确性，在本发明实施例中，所述判断模块204可以根据当前环境状态来确定初次唤醒词识别结果是否达到设定目标。所述判断模块204的一种具体结构可以包括以下两个单元：

环境状态确定单元，用于确定当前环境状态；

比如，环境状态确定单元可以根据语音数据的信噪比来确定当前环境状态，具体地，在所述信噪比大于设定值时，确定当前环境状态为安静环境，否则确定当前环境状态为噪声环境。当然，还可以设定多种环境状态，对此本发明实施例不做限定。

相应地，所述判断单元可以根据唤醒词和非唤醒词的声学似然比进行判断，该判断单元可以包括：似然度获取子单元和似然比计算子单元；其中：

在二次唤醒模块206得到二次唤醒词识别结果后，确定模块207可以有多种方式来确定是否唤醒成功能，比如：

1)确定模块207直接根据二次唤醒词识别结果确定是否唤醒成功，具体地，在所述二次唤醒词识别结果为唤醒词时，确定唤醒成功；否则唤醒失败。

2)确定模块207综合考虑二次唤醒词识别结果和初次唤醒词识别结果这两者来确定是否唤醒成功。相应地，确定模块207具体可以包括以下各单元：

第一确定单元，用于根据所述融合结果确定是否唤醒成功。

3)确定模块207综合考虑上述融合结果、以及初次唤醒的唤醒词时长与二次唤醒的唤醒词时长之间的相似度。相应地，确定模块207具体可以包括以下各单元：

本发明实施例提供的语音唤醒系统，在接收到语音数据后，即利用较小的声学模型及解码网络进行初次唤醒词识别，在识别到唤醒词，并且初次唤醒词识别结果达到设定目标后，再利用较大的声学模型及解码网络进行二次唤醒词识别。由于初次唤醒的功耗较小，用于持续监听时，可以有效降低唤醒功耗；只有当初次唤醒词识别结果达到设定目标才会开启二次唤醒操作，二次唤醒操作使用较大的声学模型及解码网络，因此有效地保证了唤醒成功率。

本发明实施例的语音唤醒系统，可以应用于多种智能终端上，比如穿戴设备、手机、平板电脑、音箱、智能家电等。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音唤醒方法，其特征在于，包括：

接收语音数据；

获取所述语音数据的第一声学特征；

如果是，则获取所述语音数据的第二声学特征；

根据所述二次唤醒词识别结果，确定是否唤醒成功。

2.根据权利要求1所述的方法，其特征在于，所述第二声学特征与第一声学特征相同或不同。

3.根据权利要求2所述的方法，其特征在于，所述第一声学特征为以下任意一种特征：MFCC特征、Bottleneck特征、Filterbank特征。

4.根据权利要求1所述的方法，其特征在于：

所述第一声学模型包括唤醒词声学模型和吸收模型，其中的唤醒词声学模型和吸收模型分别训练，唤醒词声学模型使用基于第一声学特征的GMM-HMM表征，吸收模型采用GMM-HMM来表征；

5.根据权利要求1所述的方法，其特征在于，所述判断所述初次唤醒词识别结果是否达到设定目标包括：

确定当前环境状态；

6.根据权利要求5所述的方法，其特征在于，所述确定当前环境状态包括：

计算所述语音数据的信噪比；

7.根据权利要求5所述的方法，其特征在于，所述根据所述环境状态判断所述初次唤醒词识别结果是否达到设定目标包括：

根据所述声学似然度计算唤醒词和非唤醒词的声学似然比；

8.根据权利要求1至7任一项所述的方法，其特征在于，所述根据所述二次唤醒词识别结果，确定是否唤醒成功包括：

如果所述二次唤醒词识别结果为唤醒词，则确定唤醒成功。

9.根据权利要求1至7任一项所述的方法，其特征在于，所述根据所述二次唤醒词识别结果，确定是否唤醒成功包括：

根据所述融合结果确定是否唤醒成功。

10.根据权利要求9所述的方法，其特征在于，

所述对所述初次唤醒词识别结果和所述二次唤醒词识别结果进行融合，得到融合结果包括：

所述根据所述融合结果确定是否唤醒成功包括：

11.根据权利要求1至7任一项所述的方法，其特征在于，所述根据所述二次唤醒词识别结果，确定是否唤醒成功包括：

12.一种语音唤醒系统，其特征在于，包括：

接收模块，用于接收语音数据；

13.根据权利要求12所述的系统，其特征在于：

14.根据权利要求12所述的系统，其特征在于，所述判断模块包括：

环境状态确定单元，用于确定当前环境状态；

15.根据权利要求14所述的系统，其特征在于，

所述环境状态确定单元，具体用于计算所述语音数据的信噪比，在所述信噪比大于设定值时，确定当前环境状态为安静环境，否则确定当前环境状态为噪声环境。

16.根据权利要求14所述的系统，其特征在于，所述判断单元包括：

17.根据权利要求12至16任一项所述的系统，其特征在于，

所述确定模块，具体用于在所述二次唤醒词识别结果为唤醒词时，确定唤醒成功。

18.根据权利要求12至16任一项所述的系统，其特征在于，所述确定模块包括：

第一确定单元，用于根据所述融合结果确定是否唤醒成功。

19.根据权利要求18所述的系统，其特征在于，

所述融合单元，具体用于分别获取所述初次唤醒识别结果的声学似然比T1和所述二次唤醒识别结果的声学似然比T2，并将所述初次唤醒识别结果的声学似然比T1与所述二次唤醒识别结果的声学似然比T2进行加权组合，得到融合结果T；

20.根据权利要求12至16任一项所述的系统，其特征在于，所述确定模块包括：

21.一种智能终端，其特征在于，包括权利要求12至20任一项所述的语音唤醒系统。

22.根据权利要求21所述的智能终端，其特征在于，所述智能终端为以下任意一种：穿戴设备、手机、平板电脑、音箱、家电设备、智能车机。