CN113921016A

CN113921016A - 语音处理方法、装置、电子设备以及存储介质

Info

Publication number: CN113921016A
Application number: CN202111207159.7A
Authority: CN
Inventors: 周毅
Original assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Current assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2022-01-11
Also published as: EP4099320A3; US20230106550A1; EP4099320A2

Abstract

本公开提供了语音处理方法、装置、电子设备、存储介质以及程序产品，涉及人工智能技术领域，尤其涉及车联网和智能座舱等技术领域。具体实现方案为：响应于语音交互功能被唤醒，获取被用于唤醒语音交互功能的唤醒语音的唤醒声纹特征；从接收到的交互语音中提取至少一个交互声纹特征，交互语音中包括至少一个单声源交互语音，至少一个单声源交互语音与至少一个交互声纹特征一一对应；从至少一个交互声纹特征中确定与唤醒声纹特征相匹配的目标交互声纹特征；从与目标交互声纹特征相对应的目标单声源交互语音中提取目标语音特征；以及发送目标语音特征，以便基于目标语音特征，进行语音识别。

Description

语音处理方法、装置、电子设备以及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及语音、云计算等技术领域。具体涉及语音处理方法、装置、电子设备、存储介质及程序产品。

背景技术

语音交互是人类比较自然的交互方式。随着人工智能技术的不断发展，已经实现让机器能够听懂人类发出的语音，理解语音中的内在含义，并作出相应的反馈。在进行语音交互过程中，需要进行声学处理、语音识别、语义理解等自然语言理解的操作，还需要进行语音合成的自然语言生成的操作。在真实环境中，众多操作可能会面临环境噪音大、语音中的语义复杂等的问题，为语音交互顺畅、智能地进行造成障碍。

发明内容

本公开提供了一种语音处理方法、装置、电子设备、存储介质以及程序产品。

根据本公开的一方面，提供了一种语音处理方法，包括：响应于语音交互功能被唤醒，获取被用于唤醒所述语音交互功能的唤醒语音的唤醒声纹特征；从接收到的交互语音中提取至少一个交互声纹特征，所述交互语音中包括至少一个单声源交互语音，所述至少一个单声源交互语音与所述至少一个交互声纹特征一一对应；从所述至少一个交互声纹特征中确定与所述唤醒声纹特征相匹配的目标交互声纹特征；从与所述目标交互声纹特征相对应的目标单声源交互语音中提取目标语音特征；以及发送目标语音特征，以便基于所述目标语音特征，进行语音识别。

根据本公开的另一方面，提供了一种语音处理装置，包括：唤醒声纹获取模块，用于响应于语音交互功能被唤醒，获取被用于唤醒所述语音交互功能的唤醒语音的唤醒声纹特征；交互声纹提取模块，用于从接收到的交互语音中提取至少一个交互声纹特征，所述交互语音中包括至少一个单声源交互语音，所述至少一个单声源交互语音与所述至少一个交互声纹特征一一对应；确定模块，用于从所述至少一个交互声纹特征中确定与所述唤醒声纹特征相匹配的目标交互声纹特征；语音特征提取模块，用于从与所述目标交互声纹特征相对应的目标单声源交互语音中提取目标语音特征；以及发送模块，用于发送目标语音特征，以便基于所述目标语音特征，进行语音识别。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用语音处理方法及装置的示例性系统架构；

图2示意性示出了根据本公开实施例的语音处理方法的流程图；

图3示意性示出了根据本公开实施例的确定唤醒语音的声源的流程图；

图4示意性示出了根据本公开实施例的语音处理方法的应用场景示意图；

图5示意性示出了根据本公开另一实施例的语音处理方法的应用场景示意图；

图6示意性示出了根据本公开实施例的语音处理装置的框图；以及

图7示意性示出了根据本公开实施例的适于实现语音处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供了语音处理方法、装置、电子设备、存储介质以及程序产品。

根据本公开的实施例，语音处理方法可以包括：响应于语音交互功能被唤醒，获取被用于唤醒语音交互功能的唤醒语音的唤醒声纹特征；从接收到的交互语音中提取至少一个交互声纹特征，交互语音中包括至少一个单声源交互语音，至少一个单声源交互语音与至少一个交互声纹特征一一对应；从至少一个交互声纹特征中确定与唤醒声纹特征相匹配的目标交互声纹特征；从与目标交互声纹特征相对应的目标单声源交互语音中提取目标语音特征；以及发送目标语音特征，以便基于目标语音特征，进行语音识别。

利用本公开实施例提供的语音处理方法，可以从至少一个交互声纹特征中确定与唤醒声纹特征相匹配的目标交互声纹特征，确定与目标交互声纹特征相对应的唤醒人输出的目标单声源交互语音，实现精准定位语音交互对象，提高语音交互功能的智能性与精准性。同时，可以通过提取目标单声源交互语音中的目标语音特征，发送目标语音特征至服务器，以便服务器基于目标语音特征进行语音识别。可以利用服务器提高语音识别能力。另外，利用目标语音特征作为数据流进行传送，在提高语音识别能力的基础上，提高了数据传送效率。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

图1示意性示出了根据本公开实施例的可以应用语音处理方法及装置的示例性系统架构。

需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用语音处理方法及装置的示例性系统架构可以包括语音交互设备，但语音交互设备可以无需与服务器进行交互，即可实现本公开实施例提供的语音处理方法及装置。

如图1所示，根据该实施例的系统架构100可以包括语音交互设备101、网络102和服务器103。网络102用以在语音交互设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以向语音交互设备101发出唤醒语音，语音交互设备101在确定语音交互功能被唤醒后，可以接收用户发出的交互语音，例如“请预报明天天气”等，语音交互设备101在确定该交互语音的交互声纹特征与唤醒语音的唤醒声纹特征匹配的情况下，提取交互语音中的目标语音特征，并通过网络102与服务器103交互，将目标语音特征发送给服务器103，以便服务器103基于目标语音特征进行语音识别。

语音交互设备101上可以安装有各种通讯客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

语音交互设备101可以是具有声音采集器，例如麦克风，来采集用户的唤醒语音和交互语音。语音交互设备101同时还可以具有声音播放器，例如扬声器，来播放语音交互设备发出的声音。

语音交互设备101可以是任何能够通过语音信号进行交互的电子设备。语音交互设备101可以包括但不限于智能手机、平板电脑、膝上型便携计算机、智能音箱、车载音箱、智能家教机和智能机器人等等。

服务器103可以是提供各种服务的服务器，例如对语音交互设备101发送的目标语音特征进行语音识别、并进行后续例如基于语音识别结果进行搜索、分析等的后台管理服务器(仅为示例)。

服务器103可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

需要说明的是，本公开实施例所提供的语音处理方法一般可以由语音交互设备101执行。相应地，本公开实施例所提供的语音处理装置也可以设置于语音交互设备101中。

应该理解，图1中的语音交互设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的语音交互设备、网络和服务器。

图2示意性示出了根据本公开实施例的语音处理方法的流程图。

如图2所示，该方法包括操作S210～S250。

在操作S210，响应于语音交互功能被唤醒，获取被用于唤醒语音交互功能的唤醒语音的唤醒声纹特征。

在操作S220，从接收到的交互语音中提取至少一个交互声纹特征，交互语音中包括至少一个单声源交互语音，至少一个单声源交互语音与至少一个交互声纹特征一一对应。

在操作S230，从至少一个交互声纹特征中确定与唤醒声纹特征相匹配的目标交互声纹特征。

在操作S240，从与目标交互声纹特征相对应的目标单声源交互语音中提取目标语音特征。

在操作S250，发送目标语音特征，以便基于目标语音特征，进行语音识别。

根据本公开的实施例，唤醒语音可以是指在语音交互功能未唤醒前接收到的语音信号，例如包括唤醒词的语音、或者非唤醒词的语音。

根据本公开的实施例，语音交互功能可以是指能够接收来自用户发出的交互语音，并且能够向用户输出与交互语音相对应的语音反馈结果。

例如，接收来自用户发出的交互语音为“请播放歌曲”的语音指令，并且向用户输出与交互语音相对应的语音反馈结果例如“现在为您播放某歌手的歌曲”。并执行播放该歌曲的操作。

根据本公开的实施例，可以对接收到的唤醒语音进行例如语音识别，得到语音识别结果。基于语音识别结果确定唤醒语音是否满足预定的唤醒规则，在唤醒语音满足预定的唤醒规则的情况下，确定唤醒语音交互功被唤醒。响应于语音交互功能被唤醒，可以从被用于唤醒语音交互功能的唤醒语音中提取唤醒声纹特征，并记录、保存唤醒声纹特征。

根据本公开的实施例，声纹特征可以是指携带了声音的辨识属性的特征，利用声纹特征可以识别不同声音的来源，即声源。例如，可以通过从声音中提取声纹特征，并基于声纹特征识别声音的声源是人还是动物。

根据本公开的实施例，唤醒声纹特征可以是从唤醒语音中提取得到的声纹特征。交互声纹特征可以是从交互语音中提取得到的声纹特征。交互语音是响应于确定唤醒语音成功唤醒语音交互功能后接收到的语音信号。

根据本公开的实施例，交互语音可以包括一个单声源交互语音，但是并不局限于此，还可以包括多个单声源交互语音。多个单声源交互语音可以是多个单声源同时向语音交互设备发出单声源交互语音，由语音交互设备不同的语音信号采集通道采集融合得到的。例如，女孩A和女孩B各自同时发出单声源交互语音，语音交互设备同时接收到女孩A的单声源交互语音以及女孩B的单声源交互语音而形成的包括2个单声源交互语音的交互语音。

根据本公开的实施例，可以从包括至少一个单声源交互语音的交互语音中提取与至少一个单声源交互语音一一对应的至少一个交互声纹特征。从至少一个交互声纹特征中确定与唤醒声纹特征相匹配的目标交互声纹特征。

例如，唤醒语音来自女孩A，通过女孩A的唤醒语音成功唤醒语音交互功能，则可以通过唤醒声纹特征从包括女孩A的单声源交互语音和女孩B的单声源交互语音的交互语音中确定得到与女孩A的单声源交互语音相对应的交互声纹特征为目标声纹特征，进而确定女孩A的单声源交互语音为目标单声源交互语音。可以利用各种语音分离技术，将例如女孩A的单声源交互语音(即目标单声源交互语音)从交互语音中分离提取出来。由此可以排除例如女孩B同时发出的女孩B的单声源交互语音、或者其他场外音的干扰。使得本公开实施例提供的语音处理方法适用于多人同时在场的语音交互应用场景。

根据本公开的实施例，可以从目标单声源交互语音中提取目标语音特征，利用目标语音特征进行语音识别、语义识别，进而实现语音交互功能。

根据本公开的实施例，目标语音特征可以是指基于目标单声源交互语音得到的目标语音特征向量，例如可以是MFCC语音特征(Mel-scaleFrequency CepstralCoefficients，梅尔倒谱系数语音特征)。利用目标语音特征可以对目标单声源交互语音进行语音识别，进而实现与唤醒者的语音交互操作。

根据本公开的实施例，可以在语音交互设备本地端执行基于目标语音特征进行语音识别的操作，完成语音交互。但是并不局限于此，还可以将目标语音特征发送至服务器例如云服务器，利用服务器上配置的语音识别模型来基于目标语音特征进行语音识别。

根据本公开的实施例，利用服务器上配置的语音识别模型来基于目标语音特征进行语音识别，可以在服务器端实时优化语音识别模型，进而通过服务器中配置的语音识别模型来应对语音数据量大、语义复杂度高等的问题。

根据本公开的实施例，也可以将目标单声源交互语音作为数据流从语音交互设备本地端发送至服务器例如云服务器，利用服务器上配置的语音特征提取模型、以及语音识别模型来基于目标单声源交互语音进行完整的语音识别操作。

根据本公开的示例性实施例，利用目标语音特征作为语音交互设备与服务器之间传输的数据流，可以降低传输数据量，提高数据传输速度，且服务器端直接基于目标语音特征进行后续语音识别，提高处理效率。

下面参考图3～图5，结合具体实施例对例如图2所示的语音处理方法做进一步说明。

根据本公开的实施例，在执行操作S210，响应于语音交互功能被唤醒，获取被用于唤醒语音交互功能的唤醒语音的唤醒声纹特征之前，还可以执行如下图3所示的确定唤醒语音的声源的操作。

图3示意性示出了根据本公开实施例的确定唤醒语音的声源的流程图。

如图3所示，语音交互设备310接收到的唤醒语音的声源可以是人声源320，也可以是动物声源330例如狗声源。可以从接收到的唤醒语音中，提取唤醒语音的唤醒声纹特征，例如人声源320的唤醒声纹特征321，以及动物声源330的唤醒声纹特征331。语音交互设备310可以基于唤醒声纹特征，确定唤醒语音的声源。响应于确定唤醒语音的声源为人声源，可以执行基于唤醒语音，确定语音交互功能的唤醒结果的操作。响应于确定唤醒语音的声源为非人声源，例如动物声源，可以停止执行基于唤醒语音，确定语音交互功能的唤醒结果的操作。

根据本公开的实施例，响应于确定唤醒语音的声源为人声源，可以基于唤醒语音，确定语音交互功能的唤醒结果。例如，基于唤醒语音，确定唤醒语音是否满足预定的唤醒规则，在唤醒语音满足预定的唤醒规则的情况下，确定语音交互功能被唤醒，可以记录唤醒声纹特征。在唤醒语音不满足预定的唤醒规则的情况下，确定语音交互功能未被成功唤醒，则停止后续操作。

根据本公开的实施例，可以通过判断唤醒语音的声源是否是人声源的预处理操作，来提高后续确定语音交互功能是否被成功唤醒的准确性和效率，避免因两个声源不同、发出的唤醒语音的音节相近而导致的误判问题。

根据本公开的实施例，操作S230，从至少一个交互声纹特征中确定与唤醒声纹特征相匹配的目标交互声纹特征可以包括如下操作。

例如，针对至少一个交互声纹特征中的每个交互声纹特征，确定交互声纹特征与唤醒声纹特征之间的声纹相似度；以及从至少一个交互声纹特征中确定声纹相似度最高的交互声纹特征，作为目标交互声纹特征。

根据本公开的实施例，至少一个交互声纹特征可以包括第一交互声纹特征、第二交互声纹特征、和第三交互声纹特征。确定三个交互声纹特征各自与唤醒声纹特征之间的声纹相似度。例如，第一交互声纹特征与唤醒声纹特征之间的声纹相似度为90％，第二交互声纹特征与唤醒声纹特征之间的声纹相似度为50％，第三交互声纹特征与唤醒声纹特征之间的声纹相似度为40％。可以对多个声纹相似度由高到低进行排序，从多个声纹相似度中确定排在首位的声纹相似度，即确定声纹相似度最高的结果。例如，第一交互声纹特征与唤醒声纹特征之间的声纹相似度最高。则可以说明第一交互声纹特征与唤醒声纹特征相匹配，可以将第一交互声纹特征确定为目标交互声纹特征。

利用本公开实施例提供的目标声纹特征的确定方法，可以精准识别出唤醒人发出的目标单声源交互语音，使得在语音交互过程中，在包含场外音的情况下，能够智能地、精准地与唤醒人进行语音交互，避免场外音的干扰。

根据本公开的示例性实施例，可以在确定交互声纹特征与唤醒声纹特征之间的声纹相似度后，通过声纹相似度阈值进行初步筛选，剔除声纹相似度小于声纹相似度阈值的结果，再将筛选处理后得到的多个声纹相似度进行由高到低排序，得到排序结果，将排在首位的声纹相似度，确定为声纹相似度最高的结果。

例如，将声纹相似度阈值确定为60％，对上述三个声纹相似度进行筛选，经筛选后，剔除声纹相似度为50％的第二交互声纹特征以及声纹相似度为40％的第三交互声纹特征。可以直接确定声纹相似度为90％的第一交互声纹特征为目标交互声纹特征。省去对多个声纹相似度进行排序的过程。

利用本公开示例性实施例提供的目标声纹特征的确定方法，可以利用筛选的预处理操作，提高确定目标交互声纹特征的处理效率，节省时间，提高用户体验。

根据本公开的实施例，在执行目标声纹特征的确定操作的过程中，不仅可以利用筛选的预处理操作来提高确定目标声纹特征的处理效率，还可以利用确定单声源交互语音的声源来提高确定目标声纹特征的效率。

例如，确定与交互声纹特征相对应的单声源交互语音的声源；以及响应于确定单声源交互语音的声源为人声源，确定交互声纹特征与唤醒声纹特征之间的声纹相似度。

根据本公开的实施例，可以在确定第一交互声纹特征、第二交互声纹特征、和第三交互声纹特征各自与唤醒声纹特征之间的声纹相似度之前，确定第一交互声纹特征、第二交互声纹特征、和第三交互声纹特征各自的声源是否为人声源，在确定声源是人声源的情况下，执行确定声纹相似度的操作。

例如，可以基于第一交互声纹特征、第二交互声纹特征、和第三交互声纹特征，确定第一交互声纹特征、第二交互声纹特征、和第三交互声纹特征各自的声源，在确定第一交互声纹特征的声源为人声源的情况下，可以执行确定第一交互声纹特征与唤醒声纹特征之间是否匹配的操作，例如确定第一交互声纹特征与唤醒声纹特征之间的声纹相似度的操作。在确定第二交互声纹特征的声源与第三交互声纹特征的声源均为动物声源的情况下，可以停止执行确定第二交互声纹特征的声源与第三交互声纹特征各自与唤醒声纹特征之间是否匹配的操作。

利用本公开示例性实施例提供的目标声纹特征的确定方法，可以通过确定交互声纹特征的声源是否是人声源，以及交互声纹特征与唤醒声纹特征之间的声纹相似度是否大于声纹相似度阈值等预处理操作，来提高确定目标交互声纹特征的处理效率和精确度，提高用户体验。

图4示意性示出了根据本公开实施例的语音交互方法的应用场景示意图。

如图4所示，响应于甲用户410通过唤醒语音成功唤醒语音交互设备420的语音交互功能，提取并记录甲用户410的唤醒声纹特征411。甲用户410后续发出单声源交互语音，例如“请问明天天气如何？”。语音交互设备420接收到该交互语音后，可以提取该交互语音中的交互声纹特征，确定交互声纹特征与唤醒声纹特征之间的声纹相似度。基于声纹相似度，确定该交互声纹特征为目标交互声纹特征。语音交互设备420可以将与目标交互声纹特征相对应的单声源交互语音确定为目标单声源交互语音。语音交互设备420利用语音特征提取模型从目标单声源交互语音中提取目标语音特征。

利用语音交互设备420将目标语音特征发送至云服务器430，以便云服务器430基于目标语音特征，利用语音识别模型进行语音识别。

根据本公开的实施例，语音交互设备上可以配置有语音特征提取模型。例如提取梅尔频率倒谱系数(MFCC)、感知线性预测(PLP)、线性预测倒谱系数(LPCC)等短时频谱特征的语音特征提取模型。根据本公开的实施例，可以将目标单声源交互语音输入至语音特征提取模型，得到目标语音特征。根据本公开的实施例，目标语音特征可以是一个矢量序列，由从语音波形中提取反应语音特性的参数组成。反应语音特性的参数可以是例如幅度、短时帧平均能量、短时帧过零率、短时自相关系数等参数。

根据本公开的实施例，云服务器上可以配置有语音识别模型，例如HMM(HiddenMarkov model，隐马尔科夫)模型、词典、N-Gram语言模型(一种基于概率的语言统计模型)中的一种或多种组合的模型。根据本公开的实施例，可以将目标语音特征输入至语音识别模型中，得到语音识别结果。云服务器可以基于语音识别结果执行相对应的查询、搜索等操作，并将执行结果反馈至语音交互设备，以便语音交互设备通过语音反馈给用户。

利用目标语音特征作为数据流进行传送，相比于直接将音频数据作为数据流进行传送，可以降低数据量的传输，提高传输效率。并且，利用云服务器进行语音识别，可以提高语音识别能力。例如，可以实时对语音识别模型进行优化训练，以提高语音识别的识别效率和精确度。

图5示意性示出了根据本公开另一实施例的语音处理方法的应用场景示意图。

如图5所示的语音处理方法与如图4所示的语音处理方法的不同之处在于，在语音交互设备520上同时配置有语音识别模型和语音特征提取模型。在确定目标单声源交互语音后，可以进一步确定目标单声源交互语音的数据量。并预定数据量阈值，将目标单声源交互语音的数据量与预定数据量阈值进行比较。

响应于目标单声源交互语音的数据量大于或等于预定数据量阈值，可以发送目标语音特征至云服务器530，以便云服务器530利用目标语音特征进行语音识别。响应于目标单声源交互语音的数据量小于预定数据量阈值，可以直接在语音交互设备520本地端进行语音识别。

例如，由甲用户510输出的目标单声源交互语音为一句话“请问今日天气如何”，目标单声源交互语音的数据量小于预定数据量阈值，则可以直接利用语音交互设备520上配置的语音识别模型处理目标语音特征，得到语音识别结果。

例如，由甲用户510输出的目标单声源交互语音为一长段话，目标单声源交互语音的数据量大于预定数据量阈值，则可以将目标语音特征传送到云服务器530，利用云服务器530配置的语音识别模型处理数据量大于预定数据量阈值的目标语音特征，得到语音识别结果。

根据本公开的实施例，可以利用预定数据量阈值来对目标单声源交互语音进行不同处理方式的操作，对目标单声源交互语音进行合理分类，例如可以基于数据量确定。由于数据量大于预定数据量阈值的目标单声源交互语音的语音识别、语义理解的难度高于数据量小于预定数据量阈值的目标单声源交互语音的语音识别、语义理解的难度。云服务器上配置的语音识别模型，可以进行实时优化训练，相比配置于语音交互设备上的离线的语音识别模型，云服务器上配置的语音识别模型语音识别能力以及语义理解能力将更强大。利用数据量对目标单声源交互语音进行合理分类，能够更有效、合理的进行后续语音识别操作，在保证语音交互的整体智能性的同时提高处理效率。

图6示意性示出了根据本公开实施例的语音处理装置的框图。

如图6所示，语音处理装置600可以包括唤醒声纹获取模块610、交互声纹提取模块620、确定模块630、语音特征提取模块640、发送模块650。

唤醒声纹获取模块610，用于响应于语音交互功能被唤醒，获取被用于唤醒语音交互功能的唤醒语音的唤醒声纹特征。

交互声纹提取模块620，用于从接收到的交互语音中提取至少一个交互声纹特征，交互语音中包括至少一个单声源交互语音，至少一个单声源交互语音与至少一个交互声纹特征一一对应。

确定模块630，用于从至少一个交互声纹特征中确定与唤醒声纹特征相匹配的目标交互声纹特征。

语音特征提取模块640，用于从与目标交互声纹特征相对应的目标单声源交互语音中提取目标语音特征。

发送模块650，用于发送目标语音特征，以便基于目标语音特征，进行语音识别。

根据本公开的实施例，语音处理装置还可以包括接收模块、接收模块、唤醒结果确定模块，在唤醒声纹获取模块之前：

接收模块，用于从接收到的唤醒语音中，提取唤醒语音的唤醒声纹特征。

声源确定模块，用于基于唤醒声纹特征，确定唤醒语音的声源。

唤醒结果确定模块，用于响应于确定唤醒语音的声源为人声源，基于唤醒语音，确定语音交互功能的唤醒结果。

根据本公开的实施例，确定模块可以包括相似度确定单元、目标确定单元。

相似度确定单元，用于针对至少一个交互声纹特征中的每个交互声纹特征，确定交互声纹特征与唤醒声纹特征之间的声纹相似度。

目标确定单元，用于从至少一个交互声纹特征中确定声纹相似度最高的交互声纹特征，作为目标交互声纹特征。

根据本公开的实施例，相似度确定单元可以包括声源确定子单元、相似度确定子单元。

声源确定子单元，用于确定与交互声纹特征相对应的单声源交互语音的声源。

相似度确定子单元，用于响应于确定单声源交互语音的声源为人声源，确定交互声纹特征与唤醒声纹特征之间的声纹相似度。

根据本公开的实施例，发送模块可以包括数据量确定单元、第一发送单元。

数据量确定单元，用于确定目标单声源交互语音的数据量。

第一发送单元，用于响应于数据量大于或等于预定数据量阈值，发送目标语音特征。

根据本公开的实施例，语音处理装置应用于语音交互设备。

根据本公开的实施例，发送模块可以包括第二发送单元。

第二发送单元，用于利用语音交互设备将目标语音特征发送至云服务器，以便云服务器基于目标语音特征，进行语音识别。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上所述的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上所述的方法。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如语音处理方法。例如，在一些实施例中，语音处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的语音处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语音处理方法，包括：

响应于语音交互功能被唤醒，获取被用于唤醒所述语音交互功能的唤醒语音的唤醒声纹特征；

从接收到的交互语音中提取至少一个交互声纹特征，所述交互语音中包括至少一个单声源交互语音，所述至少一个单声源交互语音与所述至少一个交互声纹特征一一对应；

从所述至少一个交互声纹特征中确定与所述唤醒声纹特征相匹配的目标交互声纹特征；

从与所述目标交互声纹特征相对应的目标单声源交互语音中提取目标语音特征；以及

发送目标语音特征，以便基于所述目标语音特征，进行语音识别。

2.根据权利要求1所述的方法，还包括，在所述响应于语音交互功能被唤醒，获取被用于唤醒所述语音交互功能的唤醒语音的唤醒声纹特征之前：

从接收到的所述唤醒语音中，提取所述唤醒语音的唤醒声纹特征；

基于所述唤醒声纹特征，确定所述唤醒语音的声源；以及

响应于确定所述唤醒语音的声源为人声源，基于所述唤醒语音，确定所述语音交互功能的唤醒结果。

3.根据权利要求1或2所述的方法，其中，所述从所述至少一个交互声纹特征中确定与所述唤醒声纹特征相匹配的目标交互声纹特征包括：

针对所述至少一个交互声纹特征中的每个交互声纹特征，确定所述交互声纹特征与所述唤醒声纹特征之间的声纹相似度；以及

从所述至少一个交互声纹特征中确定声纹相似度最高的交互声纹特征，作为所述目标交互声纹特征。

4.根据权利要求3所述的方法，其中，所述针对所述至少一个交互声纹特征中的每个交互声纹特征，确定所述交互声纹特征与所述唤醒声纹特征之间的声纹相似度包括：

确定与所述交互声纹特征相对应的单声源交互语音的声源；以及

响应于确定所述单声源交互语音的声源为人声源，确定所述交互声纹特征与所述唤醒声纹特征之间的声纹相似度。

5.根据权利要求1所述的方法，其中，所述发送目标语音特征包括：

确定所述目标单声源交互语音的数据量；以及

响应于所述数据量大于或等于预定数据量阈值，发送目标语音特征。

6.根据权利要求1至5任一项所述的方法，其中，所述方法应用于语音交互设备；

所述发送目标语音特征包括：

利用所述语音交互设备将所述目标语音特征发送至云服务器，以便所述云服务器基于所述目标语音特征，进行语音识别。

7.一种语音处理装置，包括：

唤醒声纹获取模块，用于响应于语音交互功能被唤醒，获取被用于唤醒所述语音交互功能的唤醒语音的唤醒声纹特征；

交互声纹提取模块，用于从接收到的交互语音中提取至少一个交互声纹特征，所述交互语音中包括至少一个单声源交互语音，所述至少一个单声源交互语音与所述至少一个交互声纹特征一一对应；

确定模块，用于从所述至少一个交互声纹特征中确定与所述唤醒声纹特征相匹配的目标交互声纹特征；

语音特征提取模块，用于从与所述目标交互声纹特征相对应的目标单声源交互语音中提取目标语音特征；以及

发送模块，用于发送目标语音特征，以便基于所述目标语音特征，进行语音识别。

8.根据权利要求7所述的装置，还包括，在所述唤醒声纹获取模块之前：

接收模块，用于从接收到的所述唤醒语音中，提取所述唤醒语音的唤醒声纹特征；

声源确定模块，用于基于所述唤醒声纹特征，确定所述唤醒语音的声源；以及

唤醒结果确定模块，用于响应于确定所述唤醒语音的声源为人声源，基于所述唤醒语音，确定所述语音交互功能的唤醒结果。

9.根据权利要求7或8所述的装置，其中，所述确定模块包括：

相似度确定单元，用于针对所述至少一个交互声纹特征中的每个交互声纹特征，确定所述交互声纹特征与所述唤醒声纹特征之间的声纹相似度；以及

目标确定单元，用于从所述至少一个交互声纹特征中确定声纹相似度最高的交互声纹特征，作为所述目标交互声纹特征。

10.根据权利要求9所述的装置，其中，所述相似度确定单元包括：

声源确定子单元，用于确定与所述交互声纹特征相对应的单声源交互语音的声源；以及

相似度确定子单元，用于响应于确定所述单声源交互语音的声源为人声源，确定所述交互声纹特征与所述唤醒声纹特征之间的声纹相似度。

11.根据权利要求7所述的装置，其中，所述发送模块包括：

数据量确定单元，用于确定所述目标单声源交互语音的数据量；以及

第一发送单元，用于响应于所述数据量大于或等于预定数据量阈值，发送目标语音特征。

12.根据权利要求7至11任一项所述的装置，其中，所述装置应用于语音交互设备；

所述发送模块包括：

第二发送单元，用于利用所述语音交互设备将所述目标语音特征发送至云服务器，以便所述云服务器基于所述目标语音特征，进行语音识别。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。