CN114155838B

CN114155838B - 语音唤醒方法、装置、电子设备及存储介质

Info

Publication number: CN114155838B
Application number: CN202111532128.9A
Authority: CN
Inventors: 吴思远; 胡郁
Original assignee: iFlytek Co Ltd; University of Science and Technology of China USTC
Current assignee: iFlytek Co Ltd; University of Science and Technology of China USTC
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2025-02-18
Anticipated expiration: 2041-12-14
Also published as: CN114155838A

Abstract

本发明提供一种语音唤醒方法、装置、电子设备及存储介质，其中方法包括：确定待分类语音；基于辅助语音的语音特征与待分类语音的语音特征之间的相关性，以及辅助语音的语音特征与待分类语音的语音特征，确定待分类语音的唤醒类别，辅助语音包括未唤醒语音和/或误唤醒语音；在唤醒类别为唤醒语音时，执行唤醒操作。本发明提供的方法、装置、电子设备及存储介质，能够通过基于辅助语音和待分类语音之间的相关性，以及联合辅助语音和待分类语音的语音特征，得到待分类语音的唤醒类别，实现了在对语音进行唤醒分类时引入辅助语音协助识别的方式，提高了识别唤醒类别的准确率，减少了未唤醒和误唤醒的几率，进而提高了用户的体验度。

Description

语音唤醒方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音唤醒方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术的发展，语音交互也广泛地应用到各种场景。智能语音唤醒系统是语音交互的第一环节，语音唤醒是通过机器学习的方法让机器能够自动的根据一段固定的唤醒词来判断是否进行响应智能语音唤醒系统。

现有语音交互的具体过程一般为首先由麦克风装置接收语音数据，随后通过预置的智能语音唤醒模型去判断当前持续的语音流是否属于预设的唤醒词。如果智能语音唤醒模型的输出累计得分超过预设阈值，则设备处于被唤醒状态，开始应答后续的语音交互。

但现有的智能语音唤醒系统是固定的版本，会在特定场景下出现用户没有对设备发出唤醒指令，但设备被误唤醒的情况，还会因为用户的口音或者发音习惯等因素导致用户说出了正确的唤醒词，但系统识别的结果没有过设置的唤醒门限，导致智能语音唤醒系统很难被唤醒甚至无法唤醒的情况。在用户对使用体验要求越来越高的当下，经常出现未唤醒或误唤醒的情况，会大大影响用户体验，导致用户体验度低。

发明内容

本发明提供一种语音唤醒方法、装置、电子设备及存储介质，用以解决现有技术中智能语音唤醒系统经常出现未唤醒或者误唤醒的情况，导致用户体验度低的缺陷。

本发明提供一种语音唤醒方法，包括：

确定待分类语音；

基于辅助语音的语音特征与所述待分类语音的语音特征之间的相关性，以及所述辅助语音的语音特征与所述待分类语音的语音特征，确定所述待分类语音的唤醒类别，所述辅助语音包括未唤醒语音和/或误唤醒语音；

在所述唤醒类别为唤醒语音时，执行唤醒操作。

根据本发明提供的一种语音唤醒方法，所述基于辅助语音的语音特征与所述待分类语音的语音特征之间的相关性，以及所述辅助语音的语音特征与所述待分类语音的语音特征，确定所述待分类语音的唤醒类别，包括：

基于所述待分类语音的语音特征和所述辅助语音的语音特征之间的相关性，确定注意力权重；

对所述辅助语音的语音特征和所述待分类语音的语音特征进行混合特征提取，得到混合语音特征；

基于所述注意力权重和所述混合语音特征，确定所述待分类语音的唤醒类别。

根据本发明提供的一种语音唤醒方法，所述对所述辅助语音的语音特征和所述待分类语音的语音特征进行混合特征提取，得到混合语音特征，包括：

对所述辅助语音的语音特征与所述待分类语音的语音特征进行特征融合，得到融合语音特征；

对所述融合语音特征进行特征提取，得到高层融合特征；

基于所述高层融合特征和所述辅助语音的语音特征，确定所述混合语音特征。

根据本发明提供的一种语音唤醒方法，所述基于所述注意力权重和所述混合语音特征，确定所述待分类语音的唤醒类别，包括：

基于所述注意力权重中各帧的权重值，对所述混合语音特征中与所述注意力权重中各帧位置相对应的语音特征进行加权，得到所述混合语音特征中各帧对应的语音加权特征；

基于所述混合语音特征中各帧对应的语音加权特征，确定所述待分类语音的唤醒类别。

根据本发明提供的一种语音唤醒方法，所述基于所述待分类语音的语音特征和所述辅助语音的语音特征之间的相关性，确定注意力权重，包括：

基于所述待分类语音中各帧的语音特征和所述辅助语音中与所述待分类语音中各帧位置相对应的语音特征之间的相关性，确定各帧位置的注意力值；

基于所述各帧位置的注意力值，确定所述注意力权重中各帧的权重值。

根据本发明提供的一种语音唤醒方法，所述未唤醒语音基于如下步骤确定：

获取未执行唤醒操作的第一样本语音；

若所述第一样本语音属于唤醒类别的概率大于预设阈值，且在接收到第一样本语音后的预设时间内存在唤醒操作，则确定所述第一样本语音为未唤醒语音。

根据本发明提供的一种语音唤醒方法，所述误唤醒语音基于如下步骤确定：

获取执行唤醒操作的第二样本语音；

对所述第二样本语音的后续语音进行语义识别，得到语义识别结果；

若所述语义识别结果为无语义，则确定所述第二样本语音为误唤醒语音。

本发明还提供一种语音唤醒装置，包括：

确定模块，用于确定待分类语音；

分类模块，用于基于辅助语音的语音特征与所述待分类语音的语音特征之间的相关性，以及所述辅助语音的语音特征与所述待分类语音的语音特征，确定所述待分类语音的唤醒类别，所述辅助语音包括未唤醒语音和/或误唤醒语音；

唤醒模块，用于在所述唤醒类别为唤醒语音时，执行唤醒操作。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音唤醒方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音唤醒方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音唤醒方法的步骤。

本发明提供的语音唤醒方法、装置、电子设备及存储介质，通过辅助语音和待分类语音之间的相关性，以及联合辅助语音和待分类语音的语音特征，得到待分类语音的唤醒类别，实现了在对语音进行唤醒分类时引入辅助语音协助识别的方式，提高了识别唤醒类别的准确率，减少了未唤醒和误唤醒的几率，进而提高了用户的体验度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语音唤醒方法的流程示意图；

图2是本发明提供的获取唤醒类别方法的流程示意图之一；

图3是本发明提供的获取混合语音特征方法的流程示意图；

图4是本发明提供的获取唤醒类别方法的流程示意图之二；

图5是本发明提供的获取未唤醒语音方法的流程示意图；

图6是本发明提供的获取误唤醒语音方法的流程示意图；

图7是本发明提供基于多头注意力的获取语音唤醒类别方法的流程框图；

图8是本发明提供的语音唤醒装置的结构示意图；

图9是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前的智能语音唤醒系统是根据当前音频段的唤醒得分来判断是否响应，因此不可避免就会由于用户口音、发音习惯以及语速等影响出现说了正确的唤醒词，但是唤醒得分没有超过预设的唤醒门限，导致智能语音唤醒系统出现未唤醒的情况；此外，在安静或者噪声的环境下，用户没有对设备发出有效指令，智能语音唤醒系统进行了应答，即出现了误唤醒的情况。并且如果智能语音唤醒系统经常性的出现未唤醒或者误唤醒的情况，那么会大大影响用户体验，导致用户体验度低。

因此，如何提高语音的唤醒分类的准确度，减少未唤醒和误唤醒的频率，以提高用户体验度是本领域亟待解决的技术问题。

针对上述情况，本发明实施例提供了一种语音唤醒方法，图1是本发明提供的语音唤醒方法的流程示意图。如图1所示，该方法包括：

步骤110，确定待分类语音。

具体地，待分类语音是由麦克风实时收入的语音，该待分类语音可以是单独的唤醒词的语音，也可以是带有唤醒词的语句的语音，或者是没有唤醒词的语音，本发明实施例对此不作限制。

步骤120，基于辅助语音的语音特征与待分类语音的语音特征之间的相关性，以及辅助语音的语音特征与待分类语音的语音特征，确定待分类语音的唤醒类别，辅助语音包括未唤醒语音和/或误唤醒语音；

步骤130，在唤醒类别为唤醒语音时，执行唤醒操作。

目前的智能语音唤醒系统多是通过对输入的语音进行编码，再对提取得到的高层语音特征进行解码，从而得到该输入语音的唤醒类别。而在解码过程中，智能语音唤醒系统并没有考虑每一个用户的口音、发音习惯以及语速等信息对唤醒类别预测带来的影响，导致智能语音唤醒系统产生未唤醒和误唤醒的情况。因此，本发明实施例将用户的未唤醒语音和/或误唤醒语音作为辅助语音，在对输入语音的高层语音特征进行解码时，辅助语音协助预测该输入语音的唤醒分类。其中，未唤醒语音是用户出现说了正确的唤醒词，但是由于误判未能响应唤醒的语音，误唤醒语音是用户没有对智能语音唤醒系统发出有效指令，但由于误判发生应答响应的语音。

考虑到辅助语音是由用户的未唤醒语音和/或误唤醒语音构成的，未唤醒语音和/或误唤醒语音记录的是与正确唤醒词发音相近的语音，却因用户的口音、发音以及语速等习惯因素或者噪声等环境因素导致的智能语音唤醒系统的误判操作，因此，本发明实施例将辅助语音的语音特征和待分类语音的语音特征之间的相关性作为用于预测该待分类语音的唤醒类别的参数之一。

同时，考虑到辅助语音为用户的未唤醒语音和/或误唤醒语音，记录着该用户的口音、发音习惯以及语速等信息，辅助语音的语音特征可以对待分类语音的语音特征进行加强，因此，本发明实施例将辅助语音的语音特征信息也作为用于预测该待分类语音的唤醒类型的参数之一。

具体地，辅助语音是由用户的未唤醒语音和/或误唤醒语音构成的，可以从辅助语音提取到该用户的语音特征信息，将辅助语音的语音特征信息和待分类语音特征信息之间的相关性，结合辅助语音的语音特征信息与待分类语音特征信息进行唤醒类别预测，得到该待分类语音的唤醒类别，并且在得到的唤醒类别为唤醒语音时，智能语音唤醒系统执行唤醒操作，然后接收和/或执行后续语音指令。

需要说明的是，根据辅助语音的语音特征和待分类语音特征之间的相关性可以得到两者语音特征的相似度评分，或者是得到是基于两者的语音特征进行注意力交互，从而得到此两者之间的注意力信息，本发明实施例对此不作限制。此外，辅助语音的语音特征和待分类语音特征之间的相关性，结合辅助语音的语音特征与待分类语音特征进行唤醒类别预测可以是辅助语音的语音特征、待分类语音特征以及两者语音信息之间的相关性直接对待分类语音的唤醒类别进行预测，还可以是先对辅助语音的语音特征和待分类语音特征进行特征融合后，再结合待分类语音特征以及两者语音信息之间的相关性对待分类语音的唤醒类别进行预测，本发明实施例对此不作限制。

本发明实施例提供的语音唤醒方法，通过辅助语音和待分类语音之间的相关性，以及联合辅助语音和待分类语音的语音特征，得到待分类语音的唤醒类别，实现了在对语音进行唤醒分类时引入辅助语音协助识别的方式，提高了识别唤醒类别的准确率，减少了未唤醒和误唤醒的几率，进而提高了用户的体验度。

基于上述实施例，图2是本发明提供的获取唤醒类别方法的流程示意图之一。如图2所示，步骤120包括：

步骤210，基于待分类语音的语音特征和辅助语音的语音特征之间的相关性，确定注意力权重。

智能语音唤醒系统可能由于用户的口音、发音以及语速等习惯会在理解语义时产生偏差，导致出现未唤醒或者误唤醒的情形。因此，本发明实施例引入多头注意力机制，用于将待分类语音的语音特征和辅助语音的语音特征之间的相关性转换为注意力权重，供后续唤醒类别预测时基于该注意力权重调整预测结果。

需要说明的是，注意力权重可以是待分类语音中每帧的权重值，针对任一帧而言，此处的权重值可以反映该帧与辅助语音中对应帧之间的相关性，相关性越高，该帧的权重越高，在唤醒类别预测中的重要性越高。

步骤220，对辅助语音的语音特征和待分类语音的语音特征进行混合特征提取，得到混合语音特征；

考虑到辅助语音是用户历史上的未唤醒语音和/或误唤醒语音，在进行待分类语音唤醒类别预测时，可以根据历史的辅助语音中的语音特征获取到用户说话习惯，基于用户说话习惯的共性能更准确地对待分类语音进行唤醒类别预测，即可以根据辅助语音与待分类语音的共性语音特征辅助智能语音唤醒系统预测待分类语音的唤醒类别。

具体地，为了得到辅助语音的语音特征和待分类语音的语音特征的混合语音特征，可以将辅助语音的语音特征和待分类语音的语音特征进行特征融合，然后提取融合后的语音特征的高层语音特征，该高层语音特征可以认为是最终得到的混合语音特征。同时，考虑到该高层语音特征是经过了多层特征提取，为了保证预测唤醒类别的分类的精准度，还可以将该高层语音特征和辅助语音的语音特征进行残差操作后得到最终的混合语音特征，本发明实施例对此不作限制。

步骤230，基于注意力权重和混合语音特征，确定待分类语音的唤醒类别。

需要说明的是，待分类语音的唤醒类别可以先根据混合语音特征进行唤醒类别的预测，将预测的结果根据注意力权重进行调整得到；还可以先将混合语音特征根据注意力权重进行加权处理以得到加权处理后的语音特征，然后基于加权处理后的语音特征预测得到，本发明实施例对此不作限制。

基于上述实施例，图3是本发明提供的获取混合语音特征方法的流程示意图。如图3所示，步骤220包括：

步骤310，对辅助语音的语音特征与待分类语音的语音特征进行特征融合，得到融合语音特征；

步骤320，对融合语音特征进行特征提取，得到高层融合特征；

考虑到在低层对辅助语音的语音特征与待分类语音的语音特征进行特征融合，能够包含更多的语音细节特征，更容易从语音细节特征中发现辅助语音的语音特征与待分类语音的语音特征直接的共性语音特征。因此，本发明实施例先对辅助语音的语音特征与待分类语音的语音特征进行融合。

具体地，将辅助语音的语音特征与待分类语音的语音特征进行特征融合，其中，融合方式可以通过维度拼接(concat特征融合)的方式进行融合，或者融合方式还可以以待分类语音的语音特征的维度为基准，通过特征拼接(Add特征融合)的方式进行融合，本发明实施例对此不作限制。此外，在辅助语音的语音特征与待分类语音的语音特征进行特征融合之后，对融合语音特征进行特征提取，得到高层融合特征。

步骤330，基于高层融合特征和辅助语音的语音特征，确定混合语音特征。

考虑到该高层语音特征是经过了多层特征提取得到的，对于辅助语音本身的信息可能存在损失，为了保证预测唤醒类别的分类的精准度，本发明实施例针对辅助语音的语音特征进行残差操作。需要说明的是，残差操作可以是将高层融合特征和辅助语音的语音特征进行加权操作，还可以是将高层融合特征和辅助语音的语音特征进行标准方差操作，本发明实施例对此不作限制。

基于上述实施例，图4是本发明提供的获取唤醒类别方法的流程示意图之二。如图4所示，步骤230包括：

步骤410，基于注意力权重中各帧的权重值，对混合语音特征中与注意力权重中各帧位置相对应的语音特征进行加权，得到混合语音特征中各帧对应的语音加权特征；

步骤420，基于混合语音特征中各帧对应的语音加权特征，确定待分类语音的唤醒类别。

考虑到在进行待分类语音的唤醒类别预测时，若能够强化有用帧的语音特征并且弱化无用帧的语音特征，则预测的待分类语音的唤醒类别会更加准确，因此，本发明实施例将进行唤醒类别预测的各帧的混合语音特征根据注意力权重中的各帧的权重值进行加权处理。

具体地，以混合语音特征的总帧数为基准，混合语音特征中各帧的语音特征，根据注意力权重中各帧位置相对应帧的权重值进行加权，得到混合语音特征中各帧对应的语音加权特征，再根据步骤410得到的混合语音特征中各帧对应的语音加权特征，对待分类语音进行唤醒类别预测，得到该待分类语音的唤醒类别。

需要说明的是，注意力权重中各帧的权重值表示的是混合语音特征中对应位置的帧的重要度，各帧的重要度在进行预测时能更好的区分唤醒类别。针对任一帧而言，该帧的权重值越高，加权之后的混合语音特征中，该帧对应的语音加权特征越能得到强化和突出，在唤醒类别预测时的区分性越强，该帧的权重值越低，加权之后的混合语音特征中，该帧对应的语音加权特征越会被弱化，在唤醒类别预测时的干扰越小。

基于上述实施例，步骤210包括：

基于待分类语音中各帧的语音特征和辅助语音中与待分类语音中各帧位置相对应的语音特征之间的相关性，确定各帧位置的注意力值；

基于各帧位置的注意力值，确定注意力权重中各帧的权重值。

具体地，将待分类语音中每一帧的语音特征和辅助语音中与待分类语音中与该帧位置相对应的语音特征进行注意力转换，即可得到每一帧位置的注意力值，并且对待分类语音中各帧的注意力值进行归一化得到注意力权重中的各帧的权重值。此处，针对任一帧位置而言，该帧位置的注意力值越大，则说明待分类语音中该帧的语音特征与辅助语音中对应帧对应的语音特征之间的相关性越强，该帧位置的注意力值越小，则说明待分类语音中该帧的语音特征与辅助语音中对应帧对应的语音特征之间的相关性越弱。

考虑到辅助语音中帧数和待分类语音中帧数存在不相同的情况，因此，本发明实施例先对待分类语音和辅助语音中的帧数长度进行整合，使得待分类语音和辅助语音中的帧数相同，再后续计算注意力权重中的各帧的权重值操作。

基于上述任一实施例，本发明还提供一个在没有辅助语音的情况下进行唤醒类别预测的实施例，具体地，在没有辅助语音的情况下，将辅助语音的语音特征设置为空值，先对待分类语音各帧的语音特征进行编码得到各帧的高层语音特征，再对各帧的高层语音特征基于辅助语音的语音特征为空值进行注意力权重的转换，得到各帧的注意力权重，同时对各帧的高层语音特征基于辅助语音的语音特征为空值进行解码，得到的各帧的解码特征，然后将各帧的注意力权重对解码特征进行加权，得到各帧的语音加权特征，最后基于各帧的语音加权特征进行唤醒类别的预测，若唤醒类别为唤醒语音，则执行唤醒操作。

目前由于用户日常交互的使用次数并不多，导致现有的智能语音唤醒在有限的使用次数中出现未唤醒和误唤醒的情况会更少，进一步导致未唤醒语音和误唤醒语音样本难以收集。

因此，如何在使用的过程中收集未唤醒语音和误唤醒语音，并将收集到的未唤醒语音和误唤醒语音应用与唤醒类别预测中是本领域亟待解决的问题。

基于上述任一实施例，图5是本发明提供的获取未唤醒语音方法的流程示意图。如图5所示，步骤110中的未唤醒语音是基于如下步骤确定的：

步骤510，获取未执行唤醒操作的第一样本语音；

具体地，第一样本语音来自于上述实施例中方法中预测的唤醒类别为非唤醒语音的待分类语音。

步骤520，若第一样本语音属于唤醒类别的概率大于预设阈值，且在接收到第一样本语音后的预设时间内存在唤醒操作，则确定第一样本语音为未唤醒语音。

唤醒类别为非唤醒语音可以分为两种情况，一种是用户说出了唤醒词，但未唤醒的语音，另一种是用户的普通交谈的语音，考虑到未唤醒语音的唤醒类别中唤醒语音的概率和唤醒门限的值差距不大，并且会远高普通交谈语音的唤醒类别中唤醒语音的概率，因此，本发明实施例预设阈值用于区分以上两种情况。

同时考虑到，用户在普通交谈中可能会带有唤醒词，该唤醒词的唤醒类别中唤醒语音的概率超过预设阈值，但没有超过唤醒门限，此时用户并不是进行唤醒操作，这样的情况并不应该认为该段唤醒词语音为未唤醒语音，因此，本发明实施例通过预设一个时间段，在这个时间段内，用户进行唤醒操作，则可以认为前一段唤醒类别中唤醒语音的概率超过预设阈值，但没有超过唤醒门限的语音为未唤醒语音。

具体地，当第一样本语音所预测的唤醒类别中的唤醒语音的概率大于预设阈值，该预设阈值小于唤醒门限，此时将接收到第一样本语音的时间作为起始时间，该起始时间之后的预设时间段内，如果用户发起了唤醒指令，智能语音唤醒系统响应执行了唤醒操作，那么将该第一样本语音作为未唤醒语音。

需要说明的是，在第一样本语音作为未唤醒语音之后，可以将该未唤醒语音存储于智能语音唤醒系统中，以供智能语音唤醒系统在进行唤醒类别预测时进行读取调用。其中，未唤醒语音可以以音频的形式存储，也可以以语音特征的形式存储，此时，在有多个未唤醒语音或者误唤醒语音的情况下，可以以相同时长进行分帧，并将各个分帧的语音特征进行融合，本发明实施例对此不作限制。

基于上述任一实施例，图6是本发明提供的获取误唤醒语音方法的流程示意图。如图6所示，步骤110中的误唤醒语音是基于如下步骤确定的：

步骤610，获取执行唤醒操作的第二样本语音；

具体地，第二样本语音来自于上述实施例中方法中预测的唤醒类别为唤醒语音的待分类语音。

步骤620，对第二样本语音的后续语音进行语义识别，得到语义识别结果；

步骤630，若语义识别结果为无语义，则确定第二样本语音为误唤醒语音。

考虑到误唤醒的情况下，在唤醒词的后续语音往往是与人机交互无关的没有意义的交互语音，因此，本发明实施例会对执行了唤醒操作的待分类语音后续的语音进行语义识别。

具体地，在智能语音唤醒系统预测第二样本语音的唤醒类别为唤醒语音之后，会对第二样本语音之后的后续语音进行语义识别，如果识别结果为无语义，即不是人机交互的指令，则将第二样本语音作为误唤醒语音。

需要说明的是，对第二样本语音之后的后续语音进行语义识别可以是在智能语音唤醒系统所在的设备中进行，还可以是将后续语音发送到云端由云端进行语义识别，本发明实施例对此不作限制。

此外，如同未唤醒语音的后续操作一样，在第二样本语音作为误唤醒语音之后，可以将该误唤醒语音存储于智能语音唤醒系统中，以供智能语音唤醒系统在进行唤醒类别预测时进行读取调用。其中，误唤醒语音可以以音频的形式存储，也可以以语音特征的形式存储，此时，在有多个未唤醒语音或者误唤醒语音的情况下，可以以相同时长进行分帧，并将各个分帧的语音特征进行融合，本发明实施例对此不作限制。

本发明实施例提供的语音唤醒方法，通过动态的获取和存储未唤醒语音和误唤醒语音，实时更新辅助语音的信息，实现了对用于的口音、发音习惯和语速等信息的积累，得到了更多且更为精确地辅助语音的语音特征，使得基于辅助语音辅助预测的唤醒类别也更加精准，进一步减少了未唤醒和误唤醒的情况，从而提高了用户的体验感。

图7是本发明提供基于多头注意力的获取语音唤醒类别方法的流程框图。如图7所示：左侧的Source Embedding为待分类语音的Embedding；DropOut、Forward LSTM、ForwardLSTM、DropOut、Add和Projection Layer构成编码网络，其中，DropOut表示信息丢失网络，Forward LSTM表示正向LSTM(Long Short-Term Memory，长短时记忆)网络，Add表示残差网络中的特征融合，Projection Layer表示投影层用于对特征降低维度。

编码网络将待分类语音的Embedding先送入到Dropout网络中，防止因为数据稀疏性带来的过拟合。接着再将其做正向LSTM，通过正向LSTM对每个输入的待分类语音的Embedding进行编码。正向LSTM的输出得到后，然后去除过拟合，再和原始的待分类语音提取的Embedding进行加权，并对加权的特征进行降维，得到待分类语音的语音特征。

中间的Multi-Head Attention为多头注意力层，多头注意力层获取待分类语音的语音特征和辅助语音的语音特征，并根据待分类语音的语音特征和辅助语音的语音特征输出其中，p表示最大帧数，p>1，用以表示注意力权重中各帧的权重值，注意力权重中各帧的权重值表示的是混合语音特征中对应位置的帧的重要度，各帧的重要度在进行预测时能更好的区分唤醒类别，具体计算方法如下：

首先，根据当前的待分类语音的第i帧的语音特征h_i与解码网络中的辅助语音中第i帧的语音特征s_i计算第i帧的注意力值e_i，具体计算方法如下式所示：

e_i＝tanh(W_h×h_i+W_s×s_i+b)

其中，W_h、W_s和b为模型参数，通过音频数据训练得到；

然后，根据第i帧的注意力值计算第i帧的权重值，即重要度，具体计算方法如下式所示：

其中，为第i帧的权重值，p表示最大帧数，p>1。

右侧的Target Embedding为辅助语音的Embedding，DropOut、Forward LSTM、Concat、Forward LSTM、DropOut、Add和Softmax构成解码网络，其中，DropOut表示信息丢失网络，Forward LSTM表示正向LSTM网络，Add表示残差网络中的特征融合，Concat表示将待分类语音的语音特征和辅助语音的语音特征进行特征融合，Softmax表示计算唤醒类别中各类别的概率。

解码网络将辅助语音各帧的Embedding通过正向LSTM提取特征，得到辅助语音的语音特征，并和编码层输出的待分类语音的语音特征进行特征融合，再将融合后的语音特征通过正向LSTM提取高层语音特征，然后将高层语音特征和融合语音特征进行加权，得到各帧的混合语音特征。最后根据注意力层输出的各帧的权重值对各帧的混合语音特征进行加权计算，得到各帧的语音加权特征，并将各帧的语音加权特征输入到Softmax层预测得到唤醒类别中各类别的概率。

下面对本发明提供的语音唤醒装置进行描述，下文描述的语音唤醒装置与上文描述的语音唤醒方法可相互对应参照。

图8是本发明提供的语音唤醒装置的结构示意图。如图8所示，该装置包括：确定模块810，分类模块820和唤醒模块830；

其中，

确定模块810，用于确定待分类语音；

分类模块820，用于基于辅助语音的语音特征与待分类语音的语音特征之间的相关性，以及辅助语音的语音特征与待分类语音的语音特征，确定待分类语音的唤醒类别，辅助语音包括未唤醒语音和/或误唤醒语音；

唤醒模块830，用于在唤醒类别为唤醒语音时，执行唤醒操作。

在本发明实施例中，通过确定模块810，用于确定待分类语音；分类模块820，用于基于辅助语音与待分类语音之间的相关性，以及辅助语音的语音特征与待分类语音的语音特征，确定待分类语音的唤醒类别，辅助语音包括未唤醒语音和/或误唤醒语音；唤醒模块830，用于在唤醒类别为唤醒语音时，执行唤醒操作，实现了在对语音进行唤醒分类时引入辅助语音协助识别的方式，提高了识别唤醒类别的准确率，减少了未唤醒和误唤醒的几率，进而提高了用户的体验度。

基于上述任一实施例，分类模块820中包括：

权重确定子模块，用于基于待分类语音的语音特征和辅助语音的语音特征之间的相关性，确定注意力权重；

特征提取子模块，用于对辅助语音的语音特征和待分类语音的语音特征进行混合特征提取，得到混合语音特征；

预测类别子模块，用于基于注意力权重和混合语音特征，确定待分类语音的唤醒类别。

基于上述任一实施例，特征提取子模块中包括：

融合子模块，用于对辅助语音的语音特征与待分类语音的语音特征进行特征融合，得到融合语音特征；

高层特征提取子模块，用于对融合语音特征进行特征提取，得到高层融合特征；

加权子模块，用于基于高层融合特征和辅助语音的语音特征，确定混合语音特征。

基于上述任一实施例，预测类别子模块中包括：

特征加权子模块，用于基于注意力权重中各帧的权重值，对混合语音特征中与注意力权重中各帧位置相对应的语音特征进行加权，得到混合语音特征中各帧对应的语音加权特征；

确定类别子模块，用于基于混合语音特征中各帧对应的语音加权特征，确定待分类语音的唤醒类别。

基于上述任一实施例，权重确定子模块中包括：

权重计算子模块，用于基于待分类语音中各帧的语音特征和辅助语音中与待分类语音中各帧位置相对应的语音特征之间的相关性，确定各帧位置的注意力值；

各帧权重确定子模块，用于基于各帧位置的注意力值，确定注意力权重中各帧的权重值。

基于上述任一实施例，本发明提供的语音唤醒装置还包括未唤醒语音收集模块，该模块具体包括：

获取子模块，用于获取未执行唤醒操作的第一样本语音；

确定唤醒语音子模块，用于若第一样本语音属于唤醒类别的概率大于预设阈值，且在接收到第一样本语音后的预设时间内存在唤醒操作，则确定第一样本语音为未唤醒语音。

基于上述任一实施例，本发明提供的语音唤醒装置还包括误唤醒语音收集模块，该模块具体包括：

获取子模块，用于获取执行唤醒操作的第二样本语音；

语义识别子模块，用于对第二样本语音的后续语音进行语义识别，得到语义识别结果；

确定唤醒语音子模块，用于若语义识别结果为无语义，则确定第二样本语音为误唤醒语音。

图9示例了一种电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行语音唤醒方法，该方法包括：确定待分类语音；基于辅助语音的语音特征与待分类语音的语音特征之间的相关性，以及辅助语音的语音特征与待分类语音的语音特征，确定待分类语音的唤醒类别，辅助语音包括未唤醒语音和/或误唤醒语音；在唤醒类别为唤醒语音时，执行唤醒操作。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的语音唤醒方法，该方法包括：确定待分类语音；基于辅助语音的语音特征与待分类语音的语音特征之间的相关性，以及辅助语音的语音特征与待分类语音的语音特征，确定待分类语音的唤醒类别，辅助语音包括未唤醒语音和/或误唤醒语音；在唤醒类别为唤醒语音时，执行唤醒操作。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的语音唤醒方法，该方法包括：确定待分类语音；基于辅助语音的语音特征与待分类语音的语音特征之间的相关性，以及辅助语音的语音特征与待分类语音的语音特征，确定待分类语音的唤醒类别，辅助语音包括未唤醒语音和/或误唤醒语音；在唤醒类别为唤醒语音时，执行唤醒操作。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音唤醒方法，其特征在于，包括：

确定待分类语音；

基于辅助语音的语音特征与所述待分类语音的语音特征之间的相关性，以及所述辅助语音的语音特征与所述待分类语音的语音特征，确定所述待分类语音的唤醒类别，所述辅助语音包括未唤醒语音和/或误唤醒语音，所述未唤醒语音为包含正确的唤醒词但是未能响应唤醒的语音，误唤醒语音为没有发出有效指令但是发生应答响应的语音；

在所述唤醒类别为唤醒语音时，执行唤醒操作；

所述基于辅助语音的语音特征与所述待分类语音的语音特征之间的相关性，以及所述辅助语音的语音特征与所述待分类语音的语音特征，确定所述待分类语音的唤醒类别，包括：

2.根据权利要求1所述的语音唤醒方法，其特征在于，所述对所述辅助语音的语音特征和所述待分类语音的语音特征进行混合特征提取，得到混合语音特征，包括：

对所述融合语音特征进行特征提取，得到高层融合特征；

3.根据权利要求1所述的语音唤醒方法，其特征在于，所述基于所述注意力权重和所述混合语音特征，确定所述待分类语音的唤醒类别，包括：

4.根据权利要求1所述的语音唤醒方法，其特征在于，所述基于所述待分类语音的语音特征和所述辅助语音的语音特征之间的相关性，确定注意力权重，包括：

5.根据权利要求1至4中任一项所述的语音唤醒方法，其特征在于，所述未唤醒语音基于如下步骤确定：

获取未执行唤醒操作的第一样本语音；

6.根据权利要求1至4中任一项所述的语音唤醒方法，其特征在于，所述误唤醒语音基于如下步骤确定：

获取执行唤醒操作的第二样本语音；

7.一种语音唤醒装置，其特征在于，包括：

确定模块，用于确定待分类语音；

分类模块，用于基于辅助语音的语音特征与所述待分类语音的语音特征之间的相关性，以及所述辅助语音的语音特征与所述待分类语音的语音特征，确定所述待分类语音的唤醒类别，所述辅助语音包括未唤醒语音和/或误唤醒语音，所述未唤醒语音为包含正确的唤醒词但是未能响应唤醒的语音，误唤醒语音为没有发出有效指令但是发生应答响应的语音；

唤醒模块，用于在所述唤醒类别为唤醒语音时，执行唤醒操作；

所述分类模块具体用于：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述语音唤醒方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音唤醒方法的步骤。