WO2015096429A1

WO2015096429A1 - 通话声音识别方法及装置

Info

Publication number: WO2015096429A1
Application number: PCT/CN2014/080661
Authority: WO
Inventors: 雷杨; 华国栋; 王勿英
Original assignee: 中兴通讯股份有限公司
Priority date: 2013-12-25
Filing date: 2014-06-24
Publication date: 2015-07-02
Also published as: CN104751848A

Abstract

本发明公开了通话声音识别方法及装置，其中，该方法包括：获取进行通话的通话对象的声音样本；将该声音样本与声音模型库中的声音进行比较；根据比较结果对通话声音进行识别。通过本发明解决了相关技术中终端因不能通过通话声音辨别对端通话人的身份，容易导致诈骗事件发生的问题，实现了终端能够通过通话声音辨别对端通话人的身份，提高了安全性。

Description

通话声音识别方法及装置技术领域本发明涉及移动应用领域，具体而言，涉及通话声音识别方法及装置。背景技术目前，通信技术得到了很大的发展，在通信业迅猛发展的同时，利用这些通讯手段进行诈骗的犯罪活动也日渐猖獗，电话诈骗就是其中一种。电话诈骗，即利用电话进行诈骗活动，犯罪分子一种重要的诈骗手段就是通过冒充受害人熟人给受害人打电话来进行诈骗，许多时候，受害人并不能通过声音立即分辨出对端通话人的身份，或者碍于面子没有及时对对方身份提出质疑，因此可能会导致诈骗事件的发生。针对相关技术中，终端因不能通过通话声音辨别对端通话人的身份，容易导致诈骗事件发生的问题，目前还没有提出合理的解决方案。发明内容本发明提供了通话声音识别方法及装置，以至少解决相关技术中终端因不能通过通话声音辨别对端通话人的身份，容易导致诈骗事件发生的问题。根据本发明的一个方面，提供了一种通话声音识别方法，包括：获取进行通话的通话对象的声音样本；将所述声音样本与声音模型库中的声音进行比较；根据比较结果对所述通话声音进行识别。将所述声音样本与声音模型库中的声音进行比较之前，所述方法还包括：对移动终端的通讯录中的联系人的声音进行采样处理和保存，以建立声音模型库，其中，所述声音模型库存储在远程服务器中和 /或所述移动终端中。对所述移动终端的通讯录中的联系人的声音进行采样处理和保存包括：将所述采样得到的声音进行声音特征提取，转化为数字向量，将所述数字向量进行保存。将所述声音样本与声音模型库中的声音进行比较包括：获取所述通话的对方号码；根据所述对方号码在所述声音模型库中查找声音，并将所述声音样本与查找到的声音进行比较。在根据所述对方号码在所述声音模型库中查找声音失败的情况下，所述方法还包括：将所述声音样本与所述声音模型库中所有的声音进行比较。根据比较结果对所述通话声音进行识别包括：在所述声音样本与所述声音模型库中查找到的声音的相似度大于或等于阈值时，则将所述通话对象识别为所述声音模型库中声音模型所对应的用户；在所述声音样本与所述声音模型库中查找到的声音的相似度小于阈值时，则确认所述通话对象为陌生人。所述方法还包括：将所述通话对象的识别结果通知给所述移动终端。根据本发明的另一个方面，还提供了一种通话声音识别装置，包括：获取模块，用于获取进行移动终端通话的通话对象的声音样本；比较模块，设置为将所述声音样本与声音模型库中的声音进行比较；识别模块，设置为根据比较结果对所述通话声音进行识别。所述装置还包括：保存模块，设置为对所述移动终端的通讯录中的联系人的声音进行采样处理和保存，以建立声音模型库，其中，所述声音模型库存储在远程服务器中和 /或所述移动终端中。所述保存模块包括：提取单元，设置为将所述采样得到的声音进行声音特征提取，转化为数字向量；保存单元，设置为将所述数字向量进行保存。所述比较模块包括：获取单元，设置为获取所述通话的对方号码；比较单元，设置为根据所述对方号码在所述声音模型库中查找声音，并将所述声音样本与查找到的声音进行比较。所述比较模块还设置为在根据所述对方号码在所述声音模型库中查找声音失败的情况下，将所述声音样本与所述声音模型库中所有的声音进行比较。所述比较模块和所述识别模块位于所述移动终端中或位于网络侧的服务器中。所述识别模块设置为在所述声音样本与所述声音模型库中查找到的声音的相似度大于或等于阈值时，则将所述通话对象识别为所述声音模型库中声音模型所对应的用户；在所述声音样本与所述声音模型库中查找到的声音的相似度小于阈值时，则确认所述通话对象为陌生人。所述装置还包括：通知模块，设置为将所述通话对象的识别结果通知给所述移动终端。通过本发明，采用了获取进行通话的通话对象的声音样本；将该声音样本与声音模型库中的声音进行比较；根据比较结果对通话声音进行识别，解决了相关技术中终端因不能通过通话声音辨别对端通话人的身份，容易导致诈骗事件发生的问题，实现了终端能够通过通话声音辨别对端通话人的身份，提高了安全性。附图说明此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：图 1是根据本发明实施例的通话声音识别方法的流程图；图 2是根据本发明实施例的通话声音识别装置的框图；图 3是根据本发明实施例的通话声音识别装置的可选框图一；图 4是根据本发明实施例的通话声音识别装置的可选框图二；图 5是根据本发明实施例的通话声音识别装置的可选框图三；图 6是根据本发明实施例的通话声音识别装置的可选框图四；图 7是根据本发明实施例的通话声音识别系统模块组成图；图 8是根据本发明实施例的通话声音识别功能流程图。具体实施方式需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。在本实施例中，提供了一种通话声音识别方法，图 1是根据本发明实施例的通话声音识别方法的流程图，如图 1所示，该流程包括如下步骤：步骤 S102, 获取进行通话的通话对象的声音样本；步骤 S104, 将声音样本与声音模型库中的声音进行比较；步骤 S106, 根据比较结果对通话声音进行识别。通过上述步骤，将获取到的通话对象的声音样本与预先存储在声音模型库中的声音进行比较，根据比较结果识别该通话声音，相比于现有技术中终端不能通过通话声音辨别对端通话人的身份，通过上述步骤可识别通话对端的通话声音，进而对通话对端人的身份进行辨别，方便移动终端用户判断通话对端是否是陌生人。更优地，用户可根据判断的结果选择是否继续通话或者调整通话的内容，还可以选择报警，从而可有效降低手机诈骗事件的发生，提升了安全性。在一种可选的实施例中，在声音样本与声音模型库中的声音进行比较之前，可以预先建立声音模型库。其中，对于声音模型库的建立，可以有多种方式来实现，本实施例中提供了一种比较优的实现方式，在该方式中，声音模型库的建立是通过对移动终端的通讯录中的联系人的声音进行采样处理和保存建立的，其中，声音模型库存储在远程服务器中和 /或该移动终端中。例如，该采样处理可以是在每次接到该联系人的电话时选择录音并得到该联系人的声音样本。这种情况下的录音，用户是知道该联系人的声音的，这样可以得到比较精确的声音样本。声音模型库可以是与每个用户对应的，例如，用户 A和用户 B均有各自的声音模型库。或者，声音数据库还可以至多个用户或者一组用户共享的，例如，一个公司或者一个团体的所有的用户均共享一个声音模型库，该共享的声音模型库可以是各个用户自行录制声音样本之后集中在一起形成的。另外，作为运营商可以提供的一个服务，运营商可以将得到的所有的用户的声音样本作为一个大型的声音模型库，通过该声音模型库可以为用户提供更加全面的声音识别。对联系人的声音进行采样处理和保存，可以有多种实现方式，本实施例中提供了一种比较优的实施方式，在该方式中，可以将该采样得到的声音进行声音特征提取，转化为数字向量，将该数字向量进行保存，进而实现移动终端的通讯录中的联系人的声音进行采样处理和保存。在另一个可选实施例中，获取通话方的方式有很多，有一种比较直接的方式，是获取通话的对方号码，根据对方号码在声音模型库中查找声音，并将声音样本与查找到的声音进行比较。在对方号码存在于移动终端的通讯录中，且该声音模型库是通过此通讯录中的联系人的声音进行采样处理和保存建立的时，直接在声音模型库中查找对方号码在声音模型库中的声音，将声音样本与所查找到的声音进行比较；在对方号码不在移动终端的通讯录中时，查找对方号码在声音模型库中有无相对应的声音，如果有与之对应的声音，将声音样本与所查找到的声音进行比较。更可选地，可以在根据对方号码在声音模型库中查找声音失败的情况下，将声音样本与声音模型库中所有的声音进行比较。可选地，对于声音的识别，可以采用相似度的判别方法，可以在声音样本与声音模型库中查找到的声音的相似度大于或等于阈值时，则将通话对象识别为该声音模型库中声音模型所对应的用户；在声音样本与声音模型库中查找到的声音的相似度小于阈值时，则确认通话对象为陌生人。可选地，还可以将通话对象的识别结果通知给移动终端。在本实施例中还提供了一种通话声音识别装置，该装置用于实现上述装置，在上述装置中已经进行过说明的在此不再赘述，以下该装置中的模块的名称不应当理解为对该模块的限定，例如，获取模块，设置为获取进行通话的通话对象的声音样本，也可以表述为 "一种用于获取进行通话的通话对象的声音样本的模块"，下面所描述的模块的功能可以通过处理器来实现。图 2是根据本发明实施例的通话声音识别装置的框图，如图 2所示，包括：获取模块 22、比较模块 24和识别模块 26。可选地，获取模块 22，设置为获取进行通话的通话对象的声音样本；比较模块 24，设置为将声音样本与声音模型库中的声音进行比较；识别模块 26，设置为根据比较结果对该通话声音进行识别。可选地，比较模块 24和识别模块 26可以位于所述移动终端中或位于网络侧的服务器中。图 3是根据本发明实施例的通话声音识别装置的可选框图一，如图 3所示，该装置还包括：保存模块 32，设置为对移动终端的通讯录中的联系人的声音进行采样处理和保存，以建立声音模型库，其中，声音模型库存储在远程服务器中和 /或该移动终端中。图 4是根据本发明实施例的通话声音识别装置的可选框图二，如图 4所示，保存模块 32包括：提取单元 42，设置为将采样得到的声音进行声音特征提取，转化为数字向量；保存单元 44，设置为将数字向量进行保存。图 5是根据本发明实施例的通话声音识别装置的可选框图三，如图 5所示，比较模块 24包括：获取单元 52，设置为获取通话的对方号码；比较单元 54，设置为根据对方号码在声音模型库中查找声音，并将声音样本与查找到的声音进行比较。可选地，比较模块 24还设置为在根据对方号码在声音模型库中查找声音失败的情况下，将声音样本与声音模型库中所有的声音进行比较。可选地，识别模块 26，设置为在声音样本与声音模型库中查找到的声音的相似度大于或等于阈值时，则将通话对象识别为声音模型库中声音模型所对应的用户；在声音样本与该声音模型库中查找到的声音的相似度小于阈值时，则确认该通话对象为陌生人。图 6是根据本发明实施例的通话声音识别装置的可选框图四，如图 6所示，该装置还包括：通知模块 62，设置为将通话对象的识别结果通知给移动终端。下面结合可选实施例进行说明。在本可选实施例中提出了一种可以通过通话声音辨别说话人身份的移动终端及通话识别方法，用于防止犯罪分子通过冒充手机用户的熟人给受害人打电话来达到诈骗的目的。并且还提供一种移动终端的声音分析装置，这种装置先通过对手机通讯录中的联系人的声音采样、建立一个声音模型库、并存储于远程服务器或移动终端中；在用户使用手机通话过程中，首先对来电的声音进行采样，然后将声音样本上传至远程服务器或移动终端，远程服务器或移动终端将声音样本与声音模型库作匹配或模式分类等手段得出声音相似度的结论，从而识别对端通话人的身份。本可选实施例中的装置包括两个子系统：前端子系统和后端子系统。前端子系统可以包括四个模块，分别是： 1、用户接口界面模块； 2、声音采样模块； 3、声音特征提取模块； 4、通讯接口模块。后端子系统包括 5个模块，分别是： 1、用户配置管理模块； 2、声音特征提取模块； 3、声音模型创建模块； 4、声音识别模块； 5、通讯接口模块。其中，声音识别模块实现了上述比较模块 24和识别模块 26的功能。下面对这些模块进行说明。声音采样模块：负责在通话过程中捕捉对方说话人的声音，然后交给前端子系统的声音特征提取模块。声音特征提取模块：负责将获取到的声音提取特征，转化为数字向量。声音模型创建模块：负责将特征提取后的声音数字向量建立一个声音模型。声音识别模块：用来根据声音识别通话人身份。用户配置管理模块：用户配置后端子系统的门户，设置为对声音模型创建的参数进行设置。用户接口界面模块：用户的操作界面接口。通讯接口模块：负责前端子系统和后端子系统的通信链路维护，可以支持 wifi、 3G网络、本系统内部通信等方式。图 7是根据本发明实施例的通话声音识别系统模块组成图，如图 7所示，前端子系统包括：用户接口界面模块、声音采样模块、声音特征提取模块和通讯接口模块。后端子系统包括：用户配置管理模块、声音特征提取模块、声音识别模块、声音模型创建模块和通讯接口模块。本装置的前端子系统可以部署到用户的智能手机上，而本装置的后端子系统可以部署到用户的智能手机上，也可以部署到后端服务器上。如果后端子系统部署到智能手机上，则前端子系统和后端子系统采用手机操作系统内部通信的通讯方式，如果后端子系统部署到后端服务器上，则前端子系统和后端子系统采用 wifi或 3G网络的通讯方式。后端子系统负责为手机用户创建和存储通讯录中联系人的声音模型，而前端子系统负责采样手机通话过程中对端说话人的声音，然后将采样和特征提取后的声音样本上传至后端子系统，后端子系统根据声音模型库来识别对端说话人。一种典型的应用场景如下：小明在自己新买的手机上安装了本系统，在安装本系统后，小明的朋友小马跟小明通电话，小马的声音模型就被本系统存储下来。若干天之后，有一个自称小马的人使用非通讯录中小马的手机号给小明打电话，此通话人的声音将在本系统的声音模型库中作匹配或模式分类，然后本系统会提示小明此通话人的身份。图 8是根据本发明实施例的通话声音识别功能流程图，如图 8所示，该流程包括如下步骤：

5801 , 手机接到来电。

5802, 本装置的前端子系统会去匹配手机通讯录，确认来电号码是否属于通讯录中的已有号码。如果来电号码属于通讯录中的已有号码，则转入 S803 ; 如果来电号码不属于通讯录中的已有号码，则转入 S804。

5803 , 如果来电号码是属于通讯录中的已有号码，本装置的前端子系统会查询用户通讯录，确认本号码是否在声音模型库中已经有声音模型。如果本号码在声音模型库中已有声音模型，则转到 S804; 否则转到 S807。

S804, 如果此号码已有声音模型，则本装置的前端子系统声音特征提取模块会采样本次通话中对端通话人的声音，并进行特征提取，然后转到 S805。

S805 , 前端子系统将 S804 的声音特征提取模块提取到的声音特征作为入参输入到后端子系统的声音识别模块，声音识别模块根据声音模型库中的声音模型辨别本次通话的对端通话人身份。 S806, 用户接口界面模块模块将对端说话人的身份辨别结果通知本手机用户。

S807, 如果在声音模型库中，来电号码还没有声音模型，则本装置的前端子系统的声音采样模块将采样得到的声音样本使用通讯模块上传给后端子系统，后端子系统的声音特征提取模块会对此声音样本进行特征提取，然后转到 S808。

S808, 后端子系统的声音模型建立模块将特征提取后的声音样本构造声音模型，然后存入声音模型库。采用本可选实施例的方法或装置，区别于以往只能通过人为判断的方式，而是通过非人工的方法对手机通话声音进行辨别，可以有效避免手机用户在电话诈骗中上当受骗。显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。以上该仅为本发明的可选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。工业实用性：本发明涉及移动应用领域，采用了获取进行通话的通话对象的声音样本；将该声音样本与声音模型库中的声音进行比较；根据比较结果对通话声音进行识别，解决了相关技术中终端因不能通过通话声音辨别对端通话人的身份，容易导致诈骗事件发生的问题，实现了终端能够通过通话声音辨别对端通话人的身份，提高了安全性。

Claims

权利要求书

1. 一种通话声音识别方法，包括：获取进行通话的通话对象的声音样本；

将所述声音样本与声音模型库中的声音进行比较；

根据比较结果对所述通话声音进行识别。

2. 根据权利要求 1所述的方法，其中，将所述声音样本与声音模型库中的声音进行比较之前，所述方法还包括：对移动终端的通讯录中的联系人的声音进行采样处理和保存，以建立声音模型库，其中，所述声音模型库存储在远程服务器中和 /或所述移动终端中。

3. 根据权利要求 2所述的方法，其中，对所述移动终端的通讯录中的联系人的声音进行采样处理和保存包括：

将所述采样得到的声音进行声音特征提取，转化为数字向量，将所述数字向量进行保存。

4. 根据权利要求 1中任一项所述的方法，其中，将所述声音样本与声音模型库中的声音进行比较包括：

获取所述通话的对方号码；根据所述对方号码在所述声音模型库中查找声音，并将所述声音样本与查找到的声音进行比较。

5. 根据权利要求 4所述的方法，其中，在根据所述对方号码在所述声音模型库中查找声音失败的情况下，所述方法还包括：

将所述声音样本与所述声音模型库中所有的声音进行比较。

6. 根据权利要求 1至 5中任一项所述的方法，其中，根据比较结果对所述通话声音进行识别包括：在所述声音样本与所述声音模型库中查找到的声音的相似度大于或等于阈值时，则将所述通话对象识别为所述声音模型库中声音模型所对应的用户；在所述声音样本与所述声音模型库中查找到的声音的相似度小于阈值时，则确认所述通话对象为陌生人。

7. 根据权利要求 6所述的方法，其中，所述方法还包括：将所述通话对象的识别结果通知给所述移动终端。

8. 一种通话声音识别装置，包括：获取模块，设置为获取进行移动终端通话的通话对象的声音样本；比较模块，设置为将所述声音样本与声音模型库中的声音进行比较；识别模块，设置为根据比较结果对所述通话声音进行识别。

9. 根据权利要求 8所述的装置，其中，所述装置还包括：保存模块，设置为对所述移动终端的通讯录中的联系人的声音进行采样处理和保存，以建立声音模型库，其中，所述声音模型库存储在远程服务器中和 / 或所述移动终端中。

10. 根据权利要求 9所述的装置，其中，所述保存模块包括：提取单元，设置为将所述采样得到的声音进行声音特征提取，转化为数字向量；

保存单元，设置为将所述数字向量进行保存。

11. 根据权利要求 8所述的装置，其中，所述比较模块包括：获取单元，设置为获取所述通话的对方号码；

比较单元，设置为根据所述对方号码在所述声音模型库中查找声音，并将所述声音样本与查找到的声音进行比较。

12. 根据权利要求 11所述的装置，其中，所述比较模块还设置为在根据所述对方号码在所述声音模型库中查找声音失败的情况下，将所述声音样本与所述声音模型库中所有的声音进行比较。

13. 根据权利要求 11所述的装置，其中，所述比较模块和所述识别模块位于所述移动终端中或位于网络侧的服务器中。

14. 根据权利要求 8所述的装置，其中，所述识别模块设置为在所述声音样本与所述声音模型库中查找到的声音的相似度大于或等于阈值时，则将所述通话对象识别为所述声音模型库中声音模型所对应的用户；在所述声音样本与所述声音模型库中查找到的声音的相似度小于阈值时，则确认所述通话对象为陌生人。

15. 根据权利要求 13所述的装置，其中，所述装置还包括：

通知模块，设置为将所述通话对象的识别结果通知给所述移动终端。