CN114648978B

CN114648978B - 一种语音验证处理的方法以及相关装置

Info

Publication number: CN114648978B
Application number: CN202210453885.5A
Authority: CN
Inventors: 朱绍明; 袁添文; 杜念冬; 唐立亮
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2024-08-16
Anticipated expiration: 2042-04-27
Also published as: CN114648978A

Abstract

本申请实施例公开了一种语音验证处理的方法以及相关装置，可应用于人工智能等领域，能够有效地提高与待验证语音对应的说话对象的识别准确度，提升用户体验程度。前述方法包括：获取终端设备发送的待验证信息，待验证信息包括待验证语音、对象标识码以及设备标识码；通过预设模型版本号所对应的神经网络模型确定待验证语音所对应的声纹特征向量；计算声纹特征向量与每个候选声纹特征向量之间的声纹相似度；从声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定目标声纹相似度；在目标声纹相似度大于或等于预设相似阈值时，向终端设备发送验证通过消息，验证通信消息包括对象标识码。

Description

一种语音验证处理的方法以及相关装置

技术领域

本申请实施例涉及音频识别处理技术领域，具体涉及一种语音验证处理的方法以及相关装置。

背景技术

在目标对象的身份识别或者验证等场景中，通常需要对不同对象的声音进行验证，进而根据声纹识别的结果来判断验证是否成功。

在相关方案中，大都是在终端设备中采用离线声纹识别的方式，通过对音频特征进行简单的匹配来实现对象的声音的识别。然而，终端设备易受到硬件资源的限制，使得简单的音频特征匹配的识别方式会导致说明对象的识别准确度较低，进而导致用户体验欠佳。

发明内容

本申请实施例提供了一种语音验证处理的方法以及相关装置，能够有效地提高与待验证语音对应的说话对象的识别准确度，提升用户体验程度；并且将声纹验证处理的过程部署在声纹验证服务器中进行，而不是部署在终端设备中，使得该语音验证的方法能够有效地摆脱终端设备的硬件资源限制，使得终端设备能够支持更多的说话对象进行语音录入，进而实现对更多的说话对象的识别。

第一方面，本申请实施例提供了一种语音验证处理的方法。该方法可以应用于声纹验证服务器。该方法包括：获取终端设备发送的待验证信息，待验证信息包括待验证语音、对象标识码以及设备标识码，其中，对象标识码用于标识说出待验证语音时的目标对象，设备标识码用于标识录入待验证语音时的终端设备；通过预设模型版本号所对应的神经网络模型确定待验证语音所对应的声纹特征向量；计算声纹特征向量与每个候选声纹特征向量之间的声纹相似度，其中，每个候选声纹特征向量为每个说话对象通过终端设备录入各自的语音数据时，基于预设模型版本号所对应的神经网络模型确定的声纹特征向量，说话对象包括目标对象；从声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定目标声纹相似度；在目标声纹相似度大于或等于预设相似阈值时，向终端设备发送验证通过消息，验证通过消息包括对象标识码，验证通过消息用于指示待验证语音验证成功。

第二方面，本申请实施例提供了另一种语音验证处理的方法。该方法应用于终端设备。该方法包括：获取与目标对象对应的待验证语音；向声纹验证服务器发送待验证信息，待验证信息包括待验证语音、对象标识码以及设备标识码，其中，待验证信息用于声纹验证服务器对待验证语音进行验证处理，对象标识码用于标识目标对象，设备标识码用于标识录入待验证语音时的终端设备；接收声纹验证服务器发送的验证通过消息，其中，验证通过消息由声纹验证服务器在目标声纹相似度大于或等于预设相似阈值时发送，目标声纹相似度由待验证语音所对应的声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定得到，验证通过消息包括对象标识码；基于验证通过消息确定待验证语音验证成功。

第三方面，本申请实施例提供一种声纹验证服务器。该声纹验证服务器包括：获取单元、处理单元以及发送单元。其中，获取单元，用于获取终端设备发送的待验证信息，待验证信息包括待验证语音、对象标识码以及设备标识码，其中，对象标识码用于标识说出待验证语音时的目标对象，设备标识码用于标识录入待验证语音时的终端设备。处理单元用于：通过预设模型版本号所对应的神经网络模型确定待验证语音所对应的声纹特征向量；计算声纹特征向量与每个候选声纹特征向量之间的声纹相似度，其中，每个候选声纹特征向量为每个说话对象通过终端设备录入各自的语音数据时，基于预设模型版本号所对应的神经网络模型确定的声纹特征向量，说话对象包括目标对象；从声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定目标声纹相似度。发送单元用于在目标声纹相似度大于或等于预设相似阈值时，向终端设备发送验证通过消息，验证通过消息包括对象标识码，验证通过消息用于指示待验证语音验证成功。

在一些可选的实施方式中，获取单元还用于获取更新后的模型版本号。处理单元还用于基于更新后的模型版本号所对应的神经网络模型，更新每个终端设备中的每个说话对象的语音数据所对应的声纹特征向量。

在一些可选的实施方式中，处理单元还用于：将设备标识码、对象标识码以及更新后的模型版本号进行绑定处理，得到第一绑定关系，并存储第一绑定关系。

在一些可选的实施方式中，验证通过消息包括目标声纹特征向量，目标声纹特征向量与目标声纹相似度对应，目标声纹特征向量用于指示终端设备获取目标对象输入的其他语音命令。

在一些可选的实施方式中，发送单元还用于：在目标声纹相似度小于预设相似阈值时，则向终端设备发送验证失败消息，验证失败消息用于提示待验证语音验证失败。

在一些可选的实施方式中，处理单元用于：从声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定最大值的声纹相似度；将最大值的声纹相似度作为目标声纹相似度。

第四方面，本申请实施例提供了一种终端设备。该终端设备可以包括获取单元、处理单元以及发送单元。其中，获取单元用于获取与目标对象对应的待验证语音。发送单元用于向声纹验证服务器发送待验证信息，待验证信息包括待验证语音、对象标识码以及设备标识码，其中，待验证信息用于声纹验证服务器对待验证语音进行验证处理，对象标识码用于标识目标对象，设备标识码用于标识录入待验证语音时的终端设备。获取单元用于接收声纹验证服务器发送的验证通过消息，其中，验证通过消息由声纹验证服务器在目标声纹相似度大于或等于预设相似阈值时发送，目标声纹相似度由待验证语音所对应的声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定得到，验证通过消息包括对象标识码。处理单元用于基于验证通过消息确定待验证语音验证成功。

在一些可选的实施方式中，验证通过消息包括目标声纹特征向量，目标声纹特征向量与目标声纹相似度对应。获取单元还用于基于目标声纹特征向量获取目标对象输入的其他语音命令。

在一些可选的实施方式中，获取单元还用于接收声纹验证服务器发送的验证失败消息，其中，验证失败消息由声纹验证服务器在目标声纹相似度小于预设相似阈值时发送。处理单元还用于基于验证失败消息确定待验证语音验证失败。

本申请实施例第五方面提供了一种语音验证处理装置，该语音验证处理装置可以包括但不限于上述第三方面中的声纹验证服务器，第四方面中的终端设备等。该语音验证处理装置包括：存储器、输入/输出(I/O)接口和存储器。存储器用于存储程序指令。处理器用于执行存储器中的程序指令，以执行上述第一方面的实施方式对应的语音验证处理的方法；或者执行上述第二方面的实施方式对应的语音验证处理的方法。

本申请实施例第六方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行以执行上述第一方面的实施方式对应的方法；或者执行上述第二方面的实施方式对应的语音验证处理的方法。

本申请实施例第七方面提供了一种包含指令的计算机程序产品，当其在计算机或者处理器上运行时，使得计算机或者处理器执行上述以执行上述第一方面的实施方式对应的方法；或者执行上述第二方面的实施方式对应的语音验证处理的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，由于对象标识码用于标识说出待验证语音时的目标对象，设备标识码用于标识录入待验证语音时的终端设备，因此声纹验证服务器获取终端设备发送的包括有待验证语音、对象标识码以及设备标识码的待验证信息。然后，声纹验证服务器通过预设模型版本号所对应的神经网络模型确定待验证语音所对应的声纹特征向量，并计算声纹特征向量与每个候选声纹特征向量之间的声纹相似度，其中，每个候选声纹特征向量为每个说话对象通过终端设备录入各自的语音数据时，基于预设模型版本号所对应的神经网络模型确定的声纹特征向量。这样，声纹验证服务器可以从声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定目标声纹相似度，并在目标声纹相似度大于或等于预设相似阈值时，向终端设备发送验证通过消息，验证通过消息用于指示待验证语音验证成功。换句话说，通过声纹验证服务器调用预设模型版本号的神经网络模型对待验证语音进行相应的声纹特征向量的提取，并基于声纹特征向量与候选声纹特征向量之间的目标声纹相似度是否大于或等于预设相似阈值来验证该待验证语音，而不是简单地在终端设备中依赖于音频特征的匹配来识别验证该待验证语音，能够有效地提高与该待验证语音对应的说话对象的识别准确度，提升用户体验程度。另外，将声纹验证处理的过程部署在声纹验证服务器中进行，而不是部署在终端设备中，使得该语音验证的方法能够有效地摆脱终端设备的硬件资源限制，使得终端设备能够支持更多的说话对象进行语音录入，进而实现对更多的说话对象的识别。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的系统架构的示意图；

图2示出了本申请实施例提供的语音验证处理的方法的一种流程图；

图3示出了本申请实施例提供的语音验证处理的方法的另一种流程图；

图4示出了本申请实施例中提供的声纹验证服务器的一个结构示意图；

图5示出了本申请实施例中提供的终端设备的一个结构示意图；

图6是本申请实施例提供的语音验证处理装置的一种结构示意图。

具体实施方式

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着人工智能(artificial intelligence,AI)技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

说话对象识别系统是一种能够通过音频或者语音等，识别出对应的说话对象的系统，大都是建立在人工智能的基础上。

本申请实施例提供了一种语音验证处理的方法。本申请实施例提供的语音验证处理的方法是基于人工智能实现的。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能技术包括上述所提及的语音技术、机器学习(machine learning，ML)等方向。例如，可以涉及语音技术中的声纹识别等；也可以涉及机器学习中的深度学习(deep learning)等神经网络。

本申请提供的语音验证处理的方法可以应用于具有数据处理能力的语音验证处理装置，如终端设备、服务器、问答机器人等。其中，所提及的终端设备可以包括但不限于智能手机、台式计算机、笔记本电脑、平板电脑、智能音箱、车载设备、智能手表、可穿戴智能设备、智能语音交互设备、智能家电、飞行器等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器等，本申请不做具体限定。另外，所提及的终端设备以及服务器可以通过有线通信或无线通信等方式进行直接连接或间接连接，本申请不做具体限定。

上述所提及的语音验证处理装置可以具备实施语音处理的能力。所提及的语音处理可以通过人工智能领域中的语音技术来实现。所提及的语音技术的关键技术有自动语音识别技术(automatic speech recognition，ASR)和语音合成技术(text to speech，TTS)以及声纹识别技术。语音技术让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音称为未来最被看好的人机交互方式之一。在本申请实施例中，语音验证处理装置可以通过语音技术中的声纹识别等技术对目标对象说出的待验证语音进行声纹验证。

另外，该语音验证处理装置还可以具备机器学习能力。机器学习(machinelearning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括神经网络等技术。

在本申请实施例提供的语音验证处理的方法中的采用人工智能模型，主要涉及对神经网络的应用，通过神经网络实现对待验证语音进行声纹特征向量的提取等处理。

为了便于理解本申请的技术方案，下面结合系统架构，以终端设备与声纹验证服务器之间的数据交互对本申请实施例提供的语音验证处理的方法进行介绍。图1示出了本申请实施例提供的系统架构的示意图。

如在图1所示出的系统架构中，该系统架构包括终端设备和声纹验证服务器。可选地，该系统架构还可以包括音频存储服务器、嵌入码存储服务器等。在该系统架构中，目标对象可以通过终端设备录入自身说出的待验证语音。然后，终端设备在录入到该待验证语音后，可以向声纹验证服务器发送语音验证请求。而且由于声纹验证服务器已经预先在音频存储服务器中注册并存储有通过各个终端设备录入的音频。嵌入码存储服务器中也已经预先存储有每个音频对应的声纹特征向量。这样，声纹验证服务器在接收到语音验证请求后，可以通过确定出该待验证语音所对应的声纹特征向量后，将该待验证语音所对应的声纹特征向量与预先存储的声纹特征向量进行相似度的匹配，进而通过匹配结果来确定该待验证语音是否验证成功。

示例性地，该系统架构还可以包括嵌入码更新服务器。该嵌入码更新服务器可以从音频存储服务器中获取各个终端设备中各个说话对象录入的音频。然后，嵌入码更新服务器获取更新后的模型版本号所对应的神经网络模型，进而基于更新后的模型版本号所对应的神经网络模型对各个终端设备中各个说话对象录入的音频所对应的声纹特征向量进行更新处理。

需说明，上述所提及的音频存储服务器、嵌入码存储服务器、离线更新嵌入码服务器可以是独立的服务器，也可以是声纹验证服务器中的功能模块等，本申请仅以音频存储服务器、嵌入码存储服务器、离线更新嵌入码服务器为不同的服务器为例进行说明。

下面结合附图，以终端设备与声纹验证服务器之间的数据交互对本申请实施例提供的语音验证处理的方法进行介绍。

图2示出了本申请实施例提供的语音验证处理的方法的一种流程图。如图2所示，该语音验证处理的方法可以包括如下步骤：

201、终端设备获取与目标对象对应的待验证语音。

该示例中，目标对象可以通过终端设备的语音录入端口等，在终端设备上录入相应的待验证语音。所描述的待验证语音可以是一段音频等，本申请不做具体限定。这样，终端设备能够获取到与目标对象对应的待验证语音。

示例性地，终端设备在请求声纹验证服务器对待验证语音进行验证处理之前，还可以先在该声纹验证服务器中完成设备注册。具体地，终端设备可以向声纹验证服务器发起设备登记请求。声纹验证服务器在接收到该设备登记请求后，会为终端设备分配唯一的设备标识码，进而完成设备的注册。需说明，所描述的设备标识码可以用来标识录入待验证语音时的终端设备。

示例性地，终端设备在请求声纹验证服务器对待验证语音进行验证处理之前，终端设备还可以预先录入每个说话对象说出的至少两段音频。然后通过声纹验证服务器将每个说明对象说出的至少两段音频存储在音频存储服务器中。另外，针对每段音频，分别可以使用设备标识码和对象标识码进行标记，这样能够明确出每段音频是由哪个说话对象通过哪个终端设备录入的。

另外，声纹验证服务器可以从音频存储服务器中获取到每个说话对象所对应的至少两段音频中的每段音频。然后，声纹验证服务器可以通过预设模型版本号的神经网络模型对每段音频进行声纹识别处理，得到每段音频对应的声纹特征向量。进而计算这所有音频所对应的声纹特征向量的平均值。这样，声纹验证服务器将该平均值作为对应的说话对象所对应的最终的声纹特征向量。最后，声纹验证服务器还可以将每个说话对象所对应的声纹特征向量存储在嵌入码存储服务器中，进而完成对每个说话对象的声纹注册，使得每个说话对象所对应的最终的声纹特征向量能够作为后续声纹验证处理过程中的匹配标准。

另外，还可以使用设备标识码、对象标识码以及模型版本号对最终得到的声纹特征向量进行标记，能够明确出该最终得到的声纹特征向量是通过哪个版本的神经网络模型对哪个终端设备录入的说话对象所对应的音频进行处理的。

需说明，前述所提及的声纹特征向量有时候也可以称为嵌入码。嵌入码是将说话对象的声纹通过深度学习的方式，转化成一个数值序列，用于表示说话对象的声纹特征。另外，所描述的模型版本号可以用来表示进行声纹特征处理时所使用的神经网络模型。通常情况下，注册过程中所使用的神经网络模型的模型版本号应当与后续声纹验证处理过程中所使用的神经网络模型的模型版本号一致。

这样，在完成上述的设备注册、音频存储以及声纹注册以后，终端设备在获取到与目标对象对应的待验证语音后，便可以向声纹验证服务器发送待验证信息，使得声纹验证服务器能够对该待验证信息中的待验证语音进行验证处理。

202、终端设备向声纹验证服务器发送待验证信息，待验证信息包括待验证语音、对象标识码以及设备标识码，其中，对象标识码用于标识说出待验证语音时的目标对象，设备标识码用于标识录入待验证语音时的终端设备。

该示例中，终端设备在获取到与目标对象对应的待验证语音后，可以携带上设备标识码和对象标识码，向声纹验证服务器发送待验证信息。示例性地，终端设备可以向声纹验证服务器发送声纹验证请求，该声纹验证请求中包括该待验证信息。需说明，该待验证信息中包括待验证语音、设备标识码以及对象标识码。所提及的设备标识码和对象标识码可以参照前述步骤201中所描述的内容进行理解，此处不做赘述。

203、声纹验证服务器通过预设模型版本号所对应的神经网络模型确定待验证语音所对应的声纹特征向量。

该示例中，声纹验证服务器在获取到待验证信息后，可以通过预先模型版本号所对应的神经网络模型对该待验证信息中的待验证语音进行声纹特征的

提取处理，进而得到该待验证语音所对应的声纹特征向量。示例性地，声纹验证服务器可以计算出该待验证语音的Fbank(filter bank)特征，然后通过该预设模型版本号所对应的神经网络模型对该Fbank特征进行处理，进而得到相应的声纹特征向量。应理解，所描述的Fbank特征可以保留更多的元素语音数据。

204、声纹验证服务器计算声纹特征向量与每个候选声纹特征向量之间的声纹相似度，其中，每个候选声纹特征向量为每个说话对象通过终端设备录入各自的语音数据时，基于预设模型版本号所对应的神经网络模型确定的声纹特征向量，说话对象包括目标对象。

该示例中，由于在声纹注册过程中，针对每个终端设备录入的音频，声纹验证服务器已经将每个说话对象通过各个终端设备录入的音频所对应的最终的声纹特征向量存储在嵌入码存储服务器中。因此，声纹验证服务器可以从嵌入码存储服务器中，基于该设备标识码和预设模型版本号获取到该终端设备上的每个说话对象的每个候选声纹特征向量。所描述的每个候选声纹特征向量，可以理解成每个说话对象通过终端设备录入各自的语音数据时，基于预设模型版本号所对应的神经网络模型确定的声纹特征向量。

这样，声纹验证服务器在确定该待验证语音所对应的声纹特征向量后，可以将该待验证语音所对应的声纹特征向量与每个候选声纹特征向量进行余弦相似度的计算处理，进而计算出该声纹特征向量与每个候选声纹特征向量之间的声纹相似度。

205、声纹验证服务器从声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定目标声纹相似度。

该示例中，声纹相似度越高，说明声纹特征向量所对应的待验证语音与已注册语音为同一个说话对象使用相同的终端设备发出的语音。因此，声纹验证服务器在计算出声纹特征向量与每个候选声纹特征向量之间的声纹相似度之后，可以从这计算出得到的所有声纹相似度中确定出最大值的声纹相似度，并将最大值的声纹相似度确定为目标声纹相似度。

示例性地，声纹验证服务器还可以基于该目标声纹相似度，确定出该目标声纹相似度所对应的目标声纹特征向量。

206、声纹验证服务器在目标声纹相似度大于或等于预设相似阈值时，向终端设备发送验证通过消息，验证通过消息包括对象标识码。

该示例中，声纹验证服务器在确定出目标声纹相似度后，可以对该声纹相似度作出判断。示例性地，声纹验证服务器可以将目标声纹相似度与预设相似阈值进行比较，并在判断出该目标声纹相似度大于或等于预设相似阈值的时候，向终端设备发送验证通过消息。所描述的验证通过消息指示了该待验证语音已验证成功。另外，该验证通过消息中还包括了对象标识码，而且由于该对象标识码能够用于标识说出待验证语音时的目标对象。那么，通过将该对象标识码反馈给终端设备，使得终端设备能够获知是哪个说话对象的声纹特征验证通过了。

在一些可选的示例中，声纹验证服务器还可以在目标声纹相似度小于预设相似阈值的时候，向终端设备发送验证失败消息。通过该验证失败消息指示出该待验证语音无法通过验证，进而也说明了相应的目标对象的声纹验证不成功。这样，终端设备在获取到验证失败消息后，便可以获知该待验证语音验证失败。

207、终端设备基于验证通过消息确定待验证语音验证成功。

该示例中，终端设备在接收到声纹验证服务器发送的验证通过消息后，便可以获知该待验证语音已被成功验证。

示例性地，该验证通过消息中还可以包括目标声纹特征向量。这样，终端设备在接收到验证通过消息后，可以解析该验证通过消息，提取出该目标声纹特征向量。然后，终端设备可以基于该目标声纹特征向量获取相应的目标对象输入的其他语音命令。

本申请实施例中，由于对象标识码用于标识说出待验证语音时的目标对象，设备标识码用于标识录入待验证语音时的终端设备，因此声纹验证服务器获取终端设备发送的包括有待验证语音、对象标识码以及设备标识码的待验证信息。然后，声纹验证服务器通过预设模型版本号所对应的神经网络模型确定待验证语音所对应的声纹特征向量，并计算声纹特征向量与每个候选声纹特征向量之间的声纹相似度，其中，每个候选声纹特征向量为每个说话对象通过终端设备录入各自的语音数据时，基于预设模型版本号所对应的神经网络模型确定的声纹特征向量。这样，声纹验证服务器可以从声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定目标声纹相似度，并在目标声纹相似度大于或等于预设相似阈值时，向终端设备发送验证通过消息，验证通过消息用于指示待验证语音验证成功。换句话说，通过声纹验证服务器调用预设模型版本号的神经网络模型对待验证语音进行相应的声纹特征向量的提取，并基于声纹特征向量与候选声纹特征向量之间的目标声纹相似度是否大于或等于预设相似阈值来验证该待验证语音，而不是简单地依赖于音频特征的匹配来识别验证该待验证语音，能够有效地提高与该待验证语音对应的说话对象的识别准确度，提升用户体验程度。另外，将声纹验证处理的过程部署在声纹验证服务器中进行，而不是部署在终端设备中，使得该语音验证的方法能够有效地摆脱终端设备的硬件资源限制，使得终端设备能够支持更多的说话对象进行语音录入，进而实现对更多的说话对象的识别。

图3示出了本申请实施例提供的语音验证处理的方法的另一种流程图。如图3所示，该语音验证处理的方法可以包括如下步骤：

301、终端设备获取与目标对象对应的待验证语音。

示例性地，对于设备注册、音频存储以及声纹注册的过程，具体可以参照前述图2中步骤201所描述的内容进行理解，此处不做赘述。

302、终端设备向声纹验证服务器发送待验证信息，待验证信息包括待验证语音、对象标识码以及设备标识码，其中，对象标识码用于标识说出待验证语音时的目标对象，设备标识码用于标识录入待验证语音时的终端设备。

该示例中，终端设备在获取到与目标对象对应的待验证语音后，可以携带上设备标识码和对象标识码，向声纹验证服务器发送待验证信息。示例性地，终端设备可以向声纹验证服务器发送声纹验证请求，该声纹验证请求中包括该待验证信息。需说明，该待验证信息中包括待验证语音、设备标识码以及对象标识码。所提及的设备标识码和对象标识码可以参照前述步骤301中所描述的内容进行理解，此处不做赘述。

303、声纹验证服务器通过预设模型版本号所对应的神经网络模型确定待验证语音所对应的声纹特征向量。

该示例中，声纹验证服务器在获取到待验证信息后，可以通过预先模型版本号所对应的神经网络模型对该待验证信息中的待验证语音进行声纹特征的提取处理，进而得到该待验证语音所对应的声纹特征向量，具体也可以参照前述图2中的步骤203的内容进行理解，此处不做赘述。

304、声纹验证服务器计算声纹特征向量与每个候选声纹特征向量之间的声纹相似度，其中，每个候选声纹特征向量为每个说话对象通过终端设备录入各自的语音数据时，基于预设模型版本号所对应的神经网络模型确定的声纹特征向量，说话对象包括目标对象。

305、声纹验证服务器从声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定目标声纹相似度。

该示例中，声纹相似度越高，说明声纹特征向量所对应的待验证语音与已注册语音为同一个说话对象使用相同的终端设备发出的语音。因此，声纹验证服务器在计算出声纹特征向量与每个候选声纹特征向量之间的声纹相似度之后，可以从这计算出得到的所有声纹相似度中确定出最大值的声纹相似度，并将最大值的声纹相似度确定为目标声纹相似度。示例性地，声纹验证服务器还可以基于该目标声纹相似度，确定出该目标声纹相似度所对应的目标声纹特征向量。

306、声纹验证服务器在目标声纹相似度大于或等于预设相似阈值时，向终端设备发送验证通过消息，验证通过消息包括对象标识码。

该示例中，声纹验证服务器在确定出目标声纹相似度后，可以对该声纹相似度作出判断。示例性地，声纹验证服务器可以将目标声纹相似度与预设相似阈值进行比较，并在判断出该目标声纹相似度大于或等于预设相似阈值的时候，向终端设备发送验证通过消息。所描述的验证通过消息指示了该待验证语音已验证成功。具体也可以参照前述图2中的步骤306的内容进行理解，此处不做赘述。

307、终端设备基于验证通过消息确定待验证语音验证成功。

该示例中，终端设备在接收到声纹验证服务器发送的验证通过消息后，便可以获知该待验证语音已被成功验证。示例性地，该验证通过消息中还可以包括目标声纹特征向量。这样，终端设备在接收到验证通过消息后，可以解析该验证通过消息，提取出该目标声纹特征向量。然后，终端设备可以基于该目标声纹特征向量获取相应的目标对象输入的其他语音命令。

308、声纹验证服务器获取更新后的模型版本号。

该示例中，为了不断地提高对说话对象的识别验证效果，神经网络模型也需要不断的更新，这就使得在不同场景中针对同一个说话对象录入的音频，可能会使用不同的模型版本号所对应的神经网络模型进行声纹特征向量的提取。基于此，声纹验证服务器可以离线训练神经网络模型后，将更新后的神经网络模型使用新的模型版本号来标识。这样，声纹验证服务器便可以获取到更新后的模型版本号。

309、声纹验证服务器基于更新后的模型版本号所对应的神经网络模型，更新每个终端设备中的每个说话对象的语音数据所对应的声纹特征向量。

该示例中，声纹验证服务器在获取到更新后的模型版本号之后，还可以基于该更新后的模型版本号获取到相应的更新后的神经网络模型，并将原先的神经网络模型替换成更新后的神经网络模型。

当声纹验证服务器完成对所有的神经网络模型的更新后，再开启声纹注册功能。这样，声纹验证服务器能够基于更新后的模型版本号所对应的神经网络模型，更新每个终端设备中的每个说话对象的语音数据所对应的声纹特征向量。这样，便能够将原先在声纹注册过程中预先注册完成的声纹特征向量进行更新，使得更新后的每个终端设备中的每个说话对象的语音数据所对应的声纹特征向量能够更加地贴近于说话对象的真实声纹。

示例性地，声纹验证服务器还可以将设备标识码、对象标识码以及更新后的模型版本号进行绑定处理，得到第一绑定关系，并存储第一绑定关系。需说明，该声纹验证服务器可以将该第一绑定关系存储在嵌入码存储服务器中，具体此处不做限定说明。

本申请实施例中通过声纹验证服务器调用预设模型版本号的神经网络模型对待验证语音进行相应的声纹特征向量的提取，并基于声纹特征向量与候选声纹特征向量之间的目标声纹相似度是否大于或等于预设相似阈值来验证该待验证语音，而不是简单地依赖于音频特征的匹配来识别验证该待验证语音，能够有效地提高与该待验证语音对应的说话对象的识别准确度，提升用户体验程度。另外，将声纹验证处理的过程部署在声纹验证服务器中进行，而不是部署在终端设备中，使得该语音验证的方法能够有效地摆脱终端设备的硬件资源限制，使得终端设备能够支持更多的说话对象进行语音录入，进而实现对更多的说话对象的识别。另外，声纹验证服务器还能够基于更新后的模型版本号所对应的神经网络模型，更新每个终端设备中的每个说话对象的语音数据所对应的声纹特征向量，能够在不影响说话对象使用终端设备的情况下，实现对神经网络模型的迭代更新，并且使得更新后的每个终端设备中的每个说话对象的语音数据所对应的声纹特征向量能够更加地贴近于说话对象的真实声纹。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。可以理解的是为了实现上述功能，包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本申请中所公开的实施例描述的各示例的模块及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

下面对本申请实施例中的声纹验证服务器进行详细描述，图4为本申请实施例中提供的声纹验证服务器一个实施例示意图。如图4所示，该声纹验证服务器可以包括获取单元401、处理单元402以及发送单元403。

其中，获取单元401，用于获取终端设备发送的待验证信息，待验证信息包括待验证语音、对象标识码以及设备标识码，其中，对象标识码用于标识说出待验证语音时的目标对象，设备标识码用于标识录入待验证语音时的终端设备。处理单元402用于：通过预设模型版本号所对应的神经网络模型确定待验证语音所对应的声纹特征向量；计算声纹特征向量与每个候选声纹特征向量之间的声纹相似度，其中，每个候选声纹特征向量为每个说话对象通过终端设备录入各自的语音数据时，基于预设模型版本号所对应的神经网络模型确定的声纹特征向量，说话对象包括目标对象；从声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定目标声纹相似度。发送单元403用于在目标声纹相似度大于或等于预设相似阈值时，向终端设备发送验证通过消息，验证通过消息包括对象标识码，验证通过消息用于指示待验证语音验证成功。

在一些可选的实施方式中，获取单元401还用于获取更新后的模型版本号。处理单元402还用于基于更新后的模型版本号所对应的神经网络模型，更新每个终端设备中的每个说话对象的语音数据所对应的声纹特征向量。

在一些可选的实施方式中，处理单元402还用于：将设备标识码、对象标识码以及更新后的模型版本号进行绑定处理，得到第一绑定关系，并存储第一绑定关系。

在一些可选的实施方式中，发送单元403还用于：在目标声纹相似度小于预设相似阈值时，则向终端设备发送验证失败消息，验证失败消息用于提示待验证语音验证失败。

在一些可选的实施方式中，处理单元402用于：从声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定最大值的声纹相似度；将最大值的声纹相似度作为目标声纹相似度。

下面对本申请实施例中的终端设备进行详细描述，图5为本申请实施例中提供的终端设备一个实施例示意图。如图5所示，该终端设备可以包括获取单元501、发送单元502以及处理单元503。

其中，获取单元501用于获取与目标对象对应的待验证语音。

发送单元502用于向声纹验证服务器发送待验证信息，待验证信息包括待验证语音、对象标识码以及设备标识码，其中，待验证信息用于声纹验证服务器对待验证语音进行验证处理，对象标识码用于标识目标对象，设备标识码用于标识录入待验证语音时的终端设备。获取单元用于接收声纹验证服务器发送的验证通过消息，其中，验证通过消息由声纹验证服务器在目标声纹相似度大于或等于预设相似阈值时发送，目标声纹相似度由待验证语音所对应的声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定得到，验证通过消息包括对象标识码。

处理单元503用于基于验证通过消息确定待验证语音验证成功。

在一些可选的实施方式中，验证通过消息包括目标声纹特征向量，目标声纹特征向量与目标声纹相似度对应。获取单元501还用于基于目标声纹特征向量获取目标对象输入的其他语音命令。

在一些可选的实施方式中，获取单元501还用于接收声纹验证服务器发送的验证失败消息，其中，验证失败消息由声纹验证服务器在目标声纹相似度小于预设相似阈值时发送。处理单元203还用于基于验证失败消息确定待验证语音验证失败。

上面从模块化功能实体的角度对本申请实施例中的声纹验证服务器、终端设备进行描述，下面从硬件处理的角度对本申请实施例中的语音验证处理装置进行描述，所描述的语音验证处理装置可以包括但不限于前述图4所描述的声纹验证服务器、图5所描述的终端设备等等。图6是本申请实施例提供的语音验证处理装置的结构示意图。该语音验证处理装置可因配置或性能不同而产生比较大的差异。该语音验证处理装置可以至少一个处理器601，通信线路607，存储器603以及至少一个通信接口604。

处理器601可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，服务器IC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路607可包括一通路，在上述组件之间传送信息。

通信接口604，使用任何收发器一类的装置，用于与其他装置或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。

存储器603可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储装置，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储装置，存储器可以是独立存在，通过通信线路607与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器603用于存储执行本申请方案的计算机执行指令，并由处理器601来控制执行。处理器601用于执行存储器603中存储的计算机执行指令，从而实现本申请上述实施例提供的语音验证处理的方法。

可选的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，该语音验证处理装置可以包括多个处理器，例如图6中的处理器601和处理器602。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个装置、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，语音验证处理装置还可以包括输出设备605和输入设备606。输出设备605和处理器601通信，可以以多种方式来显示信息。输入设备606和处理器601通信，可以以多种方式接收目标对象的输入。例如，输入设备606可以是鼠标、触摸屏装置或传感装置等。

上述的语音验证处理装置可以是一个通用装置或者是一个专用装置。在具体实现中，语音验证处理装置可以是服务器、终端等或有图6中类似结构的装置。本申请实施例不限定语音验证处理装置的类型。

需说明，图6中的处理器601可以通过调用存储器603中存储的计算机执行指令，使得语音验证处理装置执行如图2或图3对应的方法实施例中的语音验证处理的方法。

具体的，图4中的处理单元402、图5中的处理单元503的功能/实现过程可以通过图6中的处理器601调用存储器603中存储的计算机执行指令来实现。图4中的获取单元401和发送单元403、图5中的获取单元501和发送单元502的功能/实现过程可以通过图6中的通信接口604来实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

上述实施例，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如SSD))等。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音验证处理的方法，其特征在于，应用于声纹验证服务器，包括：

获取终端设备发送的待验证信息，所述待验证信息包括待验证语音、对象标识码以及设备标识码，其中，所述对象标识码用于标识说出所述待验证语音时的目标对象，所述设备标识码用于标识录入所述待验证语音时的所述终端设备；

通过预设模型版本号所对应的神经网络模型确定所述待验证语音所对应的声纹特征向量；

计算所述声纹特征向量与每个候选声纹特征向量之间的声纹相似度，其中，每个所述候选声纹特征向量为每个说话对象通过所述终端设备录入各自的语音数据时，基于所述预设模型版本号所对应的神经网络模型确定的声纹特征向量，所述说话对象包括所述目标对象；所述终端设备录入的语音数据存储于音频存储服务器；所述候选声纹特征向量存储于嵌入码存储服务器；

从所述声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定目标声纹相似度；

在所述目标声纹相似度大于或等于预设相似阈值时，向所述终端设备发送验证通过消息，所述验证通过消息包括所述对象标识码，所述验证通过消息用于指示所述待验证语音验证成功；

通过嵌入码更新服务器从所述音频存储服务器获取每个所述终端设备录入的每个说话对象的语音数据；

通过所述嵌入码更新服务器获取更新后的模型版本号所对应的神经网络模型；

基于所述更新后的模型版本号所对应的神经网络模型，更新所述嵌入码存储服务器中存储的每个所述终端设备录入的每个说话对象的语音数据所对应的声纹特征向量；

将所述预设模型版本号所对应的神经网络模型替换成所述更新后的模型版本号所对应的神经网络模型。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述设备标识码、所述对象标识码以及所述更新后的模型版本号进行绑定处理，得到第一绑定关系；

存储所述第一绑定关系。

3.根据权利要求1至2中任一项所述的方法，其特征在于，所述验证通过消息包括目标声纹特征向量，所述目标声纹特征向量与所述目标声纹相似度对应，所述目标声纹特征向量用于指示所述终端设备获取所述目标对象输入的其他语音命令。

4.根据权利要求1至2中任一项所述的方法，其特征在于，所述方法还包括：

在所述目标声纹相似度小于所述预设相似阈值时，则向所述终端设备发送验证失败消息，所述验证失败消息用于提示所述待验证语音验证失败。

5.根据权利要求1至2中任一项所述的方法，其特征在于，所述从所述声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定目标声纹相似度，包括：

从所述声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定最大值的声纹相似度；

将所述最大值的声纹相似度作为所述目标声纹相似度。

6.一种语音验证处理的方法，其特征在于，应用于终端设备，包括：

获取与目标对象对应的待验证语音；

向声纹验证服务器发送待验证信息，所述待验证信息包括所述待验证语音、对象标识码以及设备标识码，其中，所述待验证信息用于所述声纹验证服务器对所述待验证语音进行验证处理，所述对象标识码用于标识所述目标对象，所述设备标识码用于标识录入所述待验证语音时的所述终端设备；

接收所述声纹验证服务器发送的验证通过消息，其中，所述验证通过消息由所述声纹验证服务器在目标声纹相似度大于或等于预设相似阈值时发送，所述目标声纹相似度由所述待验证语音所对应的声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定得到，所述验证通过消息包括所述对象标识码；所述待验证语音所对应的声纹特征向量是通过预设模型版本号所对应的神经网络模型确定的；每个所述候选声纹特征向量为每个说话对象通过所述终端设备录入各自的语音数据时，基于所述预设模型版本号所对应的神经网络模型确定的声纹特征向量；所述终端设备录入的语音数据存储于音频存储服务器；所述候选声纹特征向量存储于嵌入码存储服务器；

基于所述验证通过消息确定所述待验证语音验证成功；

其中，所述嵌入码存储服务器中存储的每个所述终端设备录入的每个说话对象的语音数据所对应的声纹特征向量，是通过嵌入码更新服务器从所述音频存储服务器获取每个所述终端设备录入的每个说话对象的语音数据，并通过所述嵌入码更新服务器获取更新后的模型版本号所对应的神经网络模型后，基于更新后的模型版本号所对应的神经网络模型进行更新的；所述更新后的模型版本号所对应的神经网络模型用于替换所述预设模型版本号所对应的神经网络模型。

7.根据权利要求6所述的方法，其特征在于，所述验证通过消息包括目标声纹特征向量，所述目标声纹特征向量与所述目标声纹相似度对应；所述方法还包括：

基于所述目标声纹特征向量获取所述目标对象输入的其他语音命令。

8.根据权利要求6或7所述的方法，其特征在于，所述方法还包括：

接收所述声纹验证服务器发送的验证失败消息，其中，所述验证失败消息由所述声纹验证服务器在所述目标声纹相似度小于所述预设相似阈值时发送；

基于所述验证失败消息确定所述待验证语音验证失败。

9.一种声纹验证服务器，其特征在于，包括：

获取单元，用于获取终端设备发送的待验证信息，所述待验证信息包括待验证语音、对象标识码以及设备标识码，其中，所述对象标识码用于标识说出所述待验证语音时的目标对象，所述设备标识码用于标识录入所述待验证语音时的所述终端设备；

处理单元，用于通过预设模型版本号所对应的神经网络模型确定所述待验证语音所对应的声纹特征向量；

所述处理单元，用于计算所述声纹特征向量与每个候选声纹特征向量之间的声纹相似度，其中，每个所述候选声纹特征向量为每个说话对象通过所述终端设备录入各自的语音数据时，基于所述预设模型版本号所对应的神经网络模型确定的声纹特征向量，所述说话对象包括所述目标对象；所述终端设备录入的语音数据存储于音频存储服务器；所述候选声纹特征向量存储于嵌入码存储服务器；

所述处理单元，用于从所述声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定目标声纹相似度；

发送单元，用于在所述目标声纹相似度大于或等于预设相似阈值时，向所述终端设备发送验证通过消息，所述验证通过消息包括所述对象标识码，所述验证通过消息用于指示所述待验证语音验证成功；

10.一种终端设备，其特征在于，包括：

获取单元，用于获取与目标对象对应的待验证语音；

发送单元，用于向声纹验证服务器发送待验证信息，所述待验证信息包括所述待验证语音、对象标识码以及设备标识码，其中，所述待验证信息用于所述声纹验证服务器对所述待验证语音进行验证处理，所述对象标识码用于标识所述目标对象，所述设备标识码用于标识录入所述待验证语音时的所述终端设备；

所述获取单元，用于接收所述声纹验证服务器发送的验证通过消息，其中，所述验证通过消息由所述声纹验证服务器在目标声纹相似度大于或等于预设相似阈值时发送，所述目标声纹相似度由所述待验证语音所对应的声纹特征向量与每个候选声纹特征向量之间的声纹相似度中确定得到，所述验证通过消息包括所述对象标识码；所述待验证语音所对应的声纹特征向量是通过预设模型版本号所对应的神经网络模型确定的；每个所述候选声纹特征向量为每个说话对象通过所述终端设备录入各自的语音数据时，基于所述预设模型版本号所对应的神经网络模型确定的声纹特征向量；所述终端设备录入的语音数据存储于音频存储服务器；所述候选声纹特征向量存储于嵌入码存储服务器；

处理单元，用于基于所述验证通过消息确定所述待验证语音验证成功；

11.一种语音验证处理装置，其特征在于，包括：输入/输出(I/O)接口、处理器和存储器，所述存储器中存储有程序指令；

所述处理器用于执行存储器中存储的程序指令，执行如权利要求1至8中任一所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括指令，当所述指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1至8中任一项所述的方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括指令，当所述指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1至8中任一项所述的方法。