CN101923853B

CN101923853B - 说话人识别方法、设备和系统

Info

Publication number: CN101923853B
Application number: CN2009100869800A
Authority: CN
Inventors: 杨玮玮; 祝宁
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2009-06-12
Filing date: 2009-06-12
Publication date: 2013-01-23
Anticipated expiration: 2029-06-12
Also published as: EP2442302A4; US20120084087A1; WO2010142194A1; CN101923853A; EP2442302A1

Abstract

本发明实施例涉及一种说话人识别方法、设备和系统，其中该说话人识别方法包括：接收媒体网关控制器发送的说话人确认指示；根据所述说话人确认指示执行说话人确认操作，并获取说话人确认操作的结果；将所述说话人确认操作的结果上报至所述媒体网关控制器。本发明实施例媒体网关根据媒体网关控制器发送的说话人确认指示进行说话人确认操作，然后将说话人确认操作的结果上报至媒体网关控制器，实现了在分离架构下通过媒体网关控制协议进行说话人识别。

Description

说话人识别方法、设备和系统

技术领域

本发明实施例涉及通信技术领域，特别涉及一种说话人识别方法、设备和系统。

背景技术

声纹是用电声学仪器显示的携带言语信息的声波频谱，是一种人的个性特征。和指纹类似，世界上任何两个人的声纹图谱都会有差异。声纹识别(Voiceprint Recognition；简称：VPR)是根据人的发音特征识别出某段语音是谁说的。声纹识别也称为说话人识别(Speaker Recognition)。声纹识别包括两个方面：说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)，其中说话人辨认是判断某段语音是若干人中的哪一个所说的；说话人确认是确认某段语音是否是指定的某个人所说的。在一定意义上，说话人辨认可以理解为多次的说话人确认。与语音识别不同的是，声纹识别并不考虑语音中的字词意思，而是利用语音信号中的说话人特征信息识别出说话人的身份。每个说话人的生物特征与其他人都不同，具有唯一性，不易伪造和假冒，利用说话人识别技术进行身份认证具有安全、准确、可靠的特点。因而说话人识别的应用范围广泛，例如说话人辨认可以应用的领域包括：刑侦破案、罪犯跟踪、国防监听、个性化应用等；说话人确认领域包括：证券交易、银行交易、公安取证、个人电脑声控锁、汽车声控锁、身份证、信用卡的认证等。

发明人在实现本发明的过程中至少发现现有技术至少存在如下问题：

现有的说话人识别技术，是应用于传统的客户端-服务器模式的网络架构中，提供说话人识别功能的媒体资源服务器是单一的网络设备，而这种模式无法应用于通信网络中承载与控制分离的架构中。

发明内容

本发明实施例提供一种说话人识别方法、设备和系统，用以解决现有说话人识别无法应用于通信网络中承载与控制分离的架构的问题，实现在分离架构下通过媒体网关控制协议的控制进行说话人识别。

本发明实施例提供一种说话人识别方法，包括：

接收媒体网关控制器发送的说话人确认指示；

根据所述说话人确认指示执行说话人确认操作，并获取说话人确认操作的结果；

将所述说话人确认操作的结果上报至所述媒体网关控制器。

本发明实施例又提供一种说话人识别方法，包括：

向媒体网关发送说话人确认指示；

接收所述媒体网关上报的根据所述说话人确认指示获取的说话人确认操作的结果。

本发明实施例再提供一种媒体网关，包括：

第一接收模块，用于接收媒体网关控制器发送的说话人确认指示；

确认模块，用于根据所述说话人确认指示执行说话人确认操作，并获取说话人确认操作的结果；

上报模块，用于将所述说话人确认操作的结果上报至所述媒体网关控制器。

本发明实施例还提供一种媒体网关控制器，包括：

第一发送模块，用于向媒体网关发送说话人确认指示；

第二接收模块，用于接收所述媒体网关上报的根据所述说话人确认指示获取的说话人确认操作的结果。

本发明实施例还提供一种说话人识别系统，包括：

媒体网关，用于接收媒体网关控制器发送的说话人确认指示；根据所述说话人确认指示执行说话人确认操作，并获取说话人确认操作的结果；将所述说话人确认操作的结果上报至所述媒体网关控制器；

媒体网关控制器，用于向媒体网关发送说话人确认指示；接收所述媒体网关上报的根据所述说话人确认指示获取的说话人确认操作的结果。

本发明实施例提供的说话人识别方法、设备和系统，媒体网关根据媒体网关控制器发送的说话人确认指示进行说话人确认操作，然后将说话人确认操作的结果上报至媒体网关控制器，实现了在分离架构下通过媒体网关控制协议进行说话人识别。

附图说明

图1为本发明实施例中NGN网络中MG和MGC组网示意图；

图2为本发明说话人识别方法第一实施例的流程图；

图3为本发明说话人识别方法第二实施例的流程图；

图4为本发明说话人识别方法第三实施例的信令流程图；

图5为本发明说话人识别方法第四实施例的信令流程图；

图6为本发明说话人识别方法第五实施例的信令流程图；

图7为本发明媒体网关实施例的结构示意图；

图8为本发明媒体网关控制器实施例的结构示意图；

图9为本发明说话人识别系统实施例的结构示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

媒体网关控制器(Media Gateway Controller；简称：MGC)和媒体网关(Media Gateway；简称：MG)是分组网络中的两个关键网元。其中MGC负责呼叫控制功能，MG负责业务承载功能，可以实现呼叫控制平面和业务承载平面的分离，从而充分共享网络资源，简化设备升级和业务扩展，降低开发和维护成本。图1为本发明实施例中下一代网络(Next Generation Network；简称：NGN)网络中MG和MGC组网示意图，如图1所示，媒体网关控制协议(MediaGateway Control Protocol；简称：MGCP)是MG和MGC之间通信的主要协议，例如：H.248/MeGaCo和MGCP协议。其中，MGCP协议版本1由互联网工程任务组(The Internet Engineering Task Force；简称：IETF)于1999年10月制订并于2003年1月修订；H.248/MeGaCo协议版本1由IETF和国际电报联盟(International Telegraph Union；简称：ITU)于2000年11月共同制订并于2003年6月修订；H.248协议版本2由ITU于2002年5月制订并于2004年3月修订；H.248协议版本3由ITU于2005年9月制订。以H.248协议为例，MG上的各种资源被抽象表示为终端(Termination)。终端又分为物理(Physical)终端和临时(Ephemeral)终端，物理终端代表一些具有半永久存在性的物理实体，例如时分复用(Time Division Multiplex；简称：TDM)通道等；临时终端代表一些临时申请、用后释放的公共资源，例如实时传输协议(Real-timeTransport Protocol；简称：RTP)流等。另外，根(Root)终端代表MG整体，终端之间的组合被抽象表示为上下文(Context)。上下文可以包含多个终端，因而以拓扑(Topology)来描述终端间的相互关系，对于还未与其它终端发生关联的终端，由一个称为空(Null)上下文的特殊上下文来表示。基于媒体网关控制协议的抽象模型中，呼叫的接续实际上是对终端和上下文的操作。具体为：通过MGC和MG之间的指示即命令(Command)、请求(Request)和响应(Reply)来完成。命令类型包括添加(Add)、修改(Modify)、删减(Subtract)、移动(Move)、审计值(AuditValue)、审计能力(AuditCapabilities)、通报(Notify)、服务改变(ServiceChange)。命令参数也称为描述符(Descriptor)，分为属性(Property)、信号(Signal)、事件(Event)、统计(Statistic)参数。具有业务相关性的参数逻辑上聚合为包(Package)。

H.248作为媒体网关控制协议，支持媒体网关控制器和媒体网关配合实现媒体资源控制的各种功能。例如，H.248.9定义了一系列扩展机制，支持媒体网关执行自动语音识别(Automatic Speech Recognition；简称：ASR)、文本语音转换(Text to Speech；简称：TTS)、媒体播放(PLAY)、录制(RECORD)等功能。但是，目前的H.248协议还没有配套的机制来支持实现说话人识别的功能，即根据接收到的语音的音频信息进行说话人的辨认或确认。

本发明实施例的主要思想是：在媒体网关控制协议例如：H.248中定义一套信号、事件以及对应参数的机制，以支持MGC和MG的说话人识别功能，例如实现说话人确认操作，此外，说话人辨认操作可以理解为多个说话人确认操作的结果，说话人确认和说话人辨认都属于说话人识别。

图2为本发明说话人识别方法第一实施例的流程图，如图2所示，该说话人识别方法包括：

步骤101、接收媒体网关控制器发送的说话人确认指示。

采用媒体网关控制协议例如H.248进行说话人识别时，媒体网关可以接收媒体网关控制器发送的说话人确认指示，该说话人确认指示可以通过扩展的H.248信号实现，该说话人确认指示中可以携带一些参数，用以指示媒体网关对语音信息进行说话人确认操作。

步骤102、根据所述说话人确认指示执行说话人确认操作，并获取说话人确认操作的结果。

如果媒体网关控制器下发的说话人确认指示中可以通过参数指定一段语音信息的存储地址，媒体网关可以从该存储地址获取需要识别的语音信息；如果说话人确认指示中通过参数指示媒体网关需要接收说话人实时语音信息，媒体网关可以实时的接收说话人的语音信息。媒体网关可以根据自身存储的声纹文件对需要识别的语音信息进行声纹的匹配，执行说话人确认操作，例如：需要识别的语音信息为是否是“张三”的，则媒体网关调出存储的“张三”的声纹文件与该语音信息进行匹配。

步骤103、将所述说话人确认操作的结果上报至所述媒体网关控制器。

媒体网关可以通过通报(Notify)请求消息向媒体网关控制器上报说话人确认操作的结果，说话人确认操作的结果中可以包括匹配是否成功、匹配的相似程度以及说话人相关资料等信息。该上报的过程可以通过事件来实现，在H.248中，事件的检测和上报需要对媒体网关进行设置，设置的方式包括下发或预选配置。事件可以设置在媒体网关的根终端、某特定终端或某特定流上，用以表示不同事件检测的不同使用范围。

在步骤101之前，该说话人识别方法还可以包括建立说话人识别会话的过程，具体为：媒体网关接收所述媒体网关控制器发送的建立说话人确认会话指示，所述建立说话人确认会话指示携带用于说话人确认操作的声纹标识；媒体网关根据所述建立说话人确认会话指示建立说话人识别会话，并获取所述声纹标识对应的声纹文件。

在步骤103之后，该说话人识别方法还可以包括终止说话人识别会话的过程，具体为：媒体网关接收所述媒体网关控制器发送的终止说话人确认会话指示；媒体网关根据所述终止说话人确认会话指示，终止说话人确认会话，并向所述媒体网关控制器返回终止响应消息。

另外，该说话人识别方法中，媒体网关除了可以根据媒体网关控制器的说话人确认指示实现说话人确认的操作之外，还可以进行获取说话人确认操作的中间结果、停止说话人确认操作、声纹文件的查询、删除、确认回滚、媒体网关缓存清理等操作，可以包括以下任一示例：

示例一、对媒体网关的缓存中的语音信息进行说话人确认操作的方法具体为：媒体网关接收所述媒体网关控制器发送的缓存确认指示，根据所述缓存确认指示对媒体网关的缓存中存放的语音信息进行说话人确认操作。

示例二、获取说话人确认操作的中间结果具体为：媒体网关接收所述媒体网关控制器发送的获取中间结果指示，根据所述获取中间结果指示获取并上报当前所执行的说话人确认操作的中间结果。

示例三、停止说话人确认操作具体为：媒体网关接收所述媒体网关控制器发送的停止确认指示，根据所述停止确认指示停止当前所执行的说话人确认操作。

示例四、声纹查询的方法具体为：媒体网关接收所述媒体网关控制器发送的声纹查询指示，所述声纹查询指示携带需要查询的声纹标识，并向所述媒体网关控制器返回根据所述声纹标识获取的查询结果。

示例五、声纹删除的方法具体为：媒体网关接收所述媒体网关控制器发送的声纹删除指示，所述声纹删除指示携带需要删除的声纹标识，并向所述媒体网关控制器返回删除结果。

示例六、确认回滚的方法具体为：媒体网关接收所述媒体网关控制器发送的确认回滚指示，根据所述确认回滚指示丢弃媒体网关最新收集的语音信息。

示例七、缓存清理的方法具体为：媒体网关接收所述媒体网关控制器发送的缓存清理指示，根据所述缓存清理指示丢弃缓存的媒体数据。

由于媒体网关控制器和媒体网关之间是指示与被指示的关系，媒体网关控制器向媒体网关发送的说话人确认指示、获取中间结果指示、停止确认指示、声纹查询指示、声纹删除指示、确认回滚指示、缓存清理指示、建立说话人识别会话指示和终止说话人识别会话指示等都可以为H.248信号的格式，只需要修改H.248信号内携带的参数就可以实现。而媒体网关发送的各种指示执行相应的操作，并向媒体网关控制器返回响应消息。

本实施例媒体网关根据媒体网关控制器发送的说话人确认指示，并根据存储的声纹文件执行说话人确认操作，然后将执行说话人确认操作的结果上报至媒体网关控制器，实现了在分离架构下通过媒体网关控制协议进行说话人识别，采用分离架构进行说话人识别可以方便各种声纹文件资源的共享、维护与更新。

图3为本发明说话人识别方法第二实施例的流程图，如图3所示，该说话人识别方法包括：

步骤201、向媒体网关发送说话人确认指示。

采用媒体网关控制协议例如H.248进行说话人识别时，媒体网关控制器向媒体网关发送说话人确认指示。说话人确认指示通过扩展的H.248信号实现，该说话人确认指示中可以携带一些参数，用以指示媒体网关对语音信息进行说话人确认操作。

步骤202、接收所述媒体网关上报的根据所述说话人确认指示获取的说话人确认操作的结果。

如果媒体网关控制器下发的说话人确认指示中通过可以参数指定一段语音信息的存储地址，媒体网关可以从该存储地址获取需要识别的语音信息；如果说话人确认指示中通过参数指定需要接收说话人实时语音信息，媒体网关可以实时的接收说话人的语音信息。然后媒体网关可以根据自身存储的声纹文件对需要识别的语音信息进行声纹的匹配。媒体网关控制器接收媒体网关上报通报(Notify)请求消息，该通报请求消息中包括需要识别的语音信息与存储的声纹文件的进行说话人确认操作的结果，例如：匹配是否成功、匹配的相似程度以及说话人相关资料等信息。该上报的过程可以通过事件来实现。

在步骤201之前，该说话人识别方法还可以包括建立说话人识别会话的过程，具体为：

媒体网关控制器向所述媒体网关发送建立说话人确认会话指示，所述建立说话人确认会话指示携带用于说话人确认操作的声纹标识。媒体网关根据建立说话人确认会话指示建立说话人识别会话。

在步骤202之后，该说话人识别方法还可以包括终止说话人识别会话的过程，具体为：

媒体网关控制器向所述媒体网关发送终止说话人确认会话指示，并接收所述媒体网关返回的终止响应消息。媒体网关根据终止说话人确认会话指示终止说话人识别会话。

另外，该说话人识别方法除了可以实现说话人识别之外，还可以进行获取说话人确认操作的中间结果、停止说话人确认操作、声纹文件的查询、删除、确认回滚、媒体网关缓存清理等操作，可以包括以下任一示例：

示例一、对媒体网关的缓存中的语音信息进行说话人确认操作的方法具体为：媒体网关控制器向媒体网关发送缓存确认指示，指示所述媒体网关根据所述缓存确认指示对媒体网关的缓存中存放的语音信息进行说话人确认操作。

示例二、获取说话人确认操作的中间结果具体为：媒体网关控制器向媒体网关发送获取中间结果指示，指示所述媒体网关根据所述获取中间结果指示获取并上报当前所执行的说话人确认操作的中间结果。

示例三、停止说话人确认操作具体为：媒体网关控制器向媒体网关发送停止确认指示，指示所述媒体网关根据所述停止确认指示停止当前所执行的说话人确认操作。

示例四、声纹查询的方法具体为：媒体网关控制器向媒体网关发送声纹查询指示，所述声纹查询指示携带需要查询的声纹标识，并接收所述媒体网关返回的根据所述声纹标识获取的查询结果。

示例五、声纹删除的方法具体为：媒体网关控制器向所述媒体网关发送声纹删除指示，所述声纹删除指示携带需要删除的声纹标识，并接收所述媒体网关返回的根据所述声纹标识获取的删除结果。

示例六、确认回滚的方法具体为：媒体网关控制器向媒体网关发送确认回滚指示，指示所述媒体网关根据所述确认回滚指示丢弃媒体网关最新收集的语音信息。

示例七、缓存清理的方法具体为：媒体网关控制器向媒体网关发送缓存清理指示，指示所述媒体网关根据所述缓存清理指示丢弃缓存的媒体数据。

本实施例媒体网关控制器向媒体网关发送携带的需要识别的语音信息的状态的说话人确认指示，指示媒体网关根据存储的声纹文件执行说话人确认操作，接收媒体网关上报的执行说话人确认操作的结果，实现了在分离架构下通过媒体网关控制协议进行说话人识别，方便了各种声纹文件资源的共享、维护与更新。

图4为本发明说话人识别方法第三实施例的信令流程图，如图4所示，在本发明说话人识别方法第一实施例的基础上，该说话人识别方法包括：

步骤301、媒体网关控制器MGC向媒体网关MG发送建立说话人识别会话指示，该说话人识别会话指示可以通过扩展的H.248信号实现，以指示媒体网关创建说话人识别会话例如：说话人确认会话。该建立说话人识别会话指示可以携带在H.248的ADD、MODIFY或MOVE等指示消息中。

可以扩展一个H.248信号指示MG创建说话人确认会话。例如：将该H.248信号命名为“确认会话开始(Start Verification Session；简称：SVS)”信号。该SVS信号的类型可以设置为简洁(Brief；简称：BR)，即该SVS信号可以自动停止或被新的信号描述符替代停止，BR类型的信号没有期满时间的限制。该SVS信号可以定义在现有的包中，或者定义在一个新的包中，例如：定义一个新包，命名为“说话人确认和辨认(Speaker Verification andIdentification)”包。

在该SVS信号中可以定义一些参数，MGC向MC发送SVS信号时可以将SVS信号中定义的参数同时下发给MG，通过这些参数指示MG进行建立说话人识别会话的操作。下面举例介绍SVS信号中可以携带的各种参数的定义方法。

参数一：储存库统一资源标识(Uniform Resource Identifier；简称：URI)

储存库URI(Repository URI；简称：REURI)参数，用以指示建立说话人确认会话所使用或参考的声纹文件所在的储存库标识。REURI参数的类型是字符串型，取值可以是URI格式，也可以其它用以标识资源信息的格式。

参数二：声纹标识

声纹标识(Voiceprint Identifier；简称：VOID)参数，用以表示进行说话人确认操作的声纹文件标识。所述声纹文件用于在说话人识别会话中对说话人语音信息进行匹配。VOID参数所指定的声纹文件可以是已经存在的声纹文件，也可以是新创建的声纹文件。VOID参数的类型可以为字符串型。

参数三：确认模式

确认模式(Verification Mode；简称：MEMO)参数，用以表示确认操作的模式，包括训练模式“Train”和确认模式“Verify”。其中，训练模式是指确认会话将会对某个声纹进行训练；确认模式是使用已经存在的声纹文件对说话人进行确认识别。VEMO参数的类型可以是布尔型，取值“True”时表示训练模式，取值“False”表示确认模式。VEMO参数的类型也可以是枚举型，取值包括“Train”和“Verify”。

参数四：适配控制

适配控制(Adapt Control；简称：ADCO)参数，用以指定在确认操作成功之后是否进行声纹文件资源的更新。其中，ADCO参数取值为“True”，表示MG需要使用在确认会话中收集到的语音信息更新对应说话人的声纹文件；取值为“False”，表示MG不允许更改声纹文件。ADCO参数的类型可以为布尔型。

参数五：最低确认评价

最低确认评价(Minimum Verification Score；简称：MINVS)参数，用以指定说话人确认操作所能接受的最低成功条件。接受条件可以用数值表示，取值可以是从“-100”到“100”之间。MINVS参数缺省的取值可以根据具体的实现决定。MINVS参数的类型可以为整数型。

参数六：最小确认词语数目

最小确认词语数目(Minimum Number of Verification Phrases；简称：MINNVP)参数，用以指定说话人确认操作正确执行所需要有效表达(词汇)的最少数目。MINNVP参数可以用数值表示，取值可以是任何整数。MINNVP参数缺省的取值为“1”。MINNVP参数的类型可以为整数型。一个成功的说话人确认操作，MG接收和处理的有效表达数目需要满足该MINNVP参数的取值。

参数七：最大确认词语数目

最大确认词语数目(Maximum Number of Verification Phrases；简称：MAXNVP)参数，用以指定说话人确认操作必须执行的有效表达(词汇)的最大数目。当MG接收和处理的有效表达数目满足该MAXNVP参数的取值时，MG需要向MGC反馈操作结果，并且不能是“Undecided(未决)”。MAXNVP参数可以用数值表示，取值可以是任何整数，最小值为“1”。MAXNVP参数缺省的取值依赖于具体的实现。MAXNVP参数的类型可以为整数型。

步骤302、媒体网关接收到该说话人识别会话指示例如：SVS信号后根据该说话人识别会话指示中携带的参数建立说话人识别会话，并向媒体网关控制器返回建立响应消息。同时媒体网关可以根据储存库URI(REURI)参数和声纹标识(VOID)参数查找、获取用于进行说话人确认操作的声纹文件。

步骤303、媒体网关控制器向媒体网关发送说话人确认指示，该说话人确认指示可以通过扩展的H.248信号实现，指示媒体网关执行说话人识别操作例如：说话人确认的操作。

MGC可以指示MG对指定的语音信息例如：语音片段进行说话人确认，或者是指示MG接收说话人实时语音信息并进行说话人确认操作。在步骤303或者步骤301中，MGC可以通过设置事件要求MG上报确认结果(VerificationResult)。本实施例中的信号指示及事件指示可以携带在H.248的MODIFY或MOVE等指示消息中。

可以扩展一个H.248信号指示MG执行说话人确认操作。通过该H.248信号的执行，可以实现对声纹文件的训练或适配，或者是确认或辨认某个声明的身份。例如，将该H.248信号命名为“说话人确认(Speaker Verify；简称：SPVE)”信号。该SPVE信号的类型可以设置为BR。该SPVE信号可以定义在现有的包中，或者在定义一个新的包中，例如：前面定义的“说话人确认和辨认(Speaker Verification and Identification)”包中。在该SPVE信号中，可以定义一些参数，MGC向MC发送SPVE信号可以将SPVE信号中定义的参数同时下发给MG，通过这些参数指示MG进行说话人识别的操作。下面举例介绍SPVE信号中可以携带的各种参数的定义方法。

参数一：无输入定时器

无输入定时器(No Input Timeout；简称：NITO)参数，用以指定说话人确认操作中无输入数据的时长阈值条件，即定时器。输入数据可以是用户的语音信息。NITO参数可以用数值表示，NITO参数的类型可以为整数型，取值单位可以为毫秒(milliseconds)。

参数二：声波保存

声波保存(Waveform Save；简称：WASA)参数，用以指定MG是否对用于确认操作的语音数据进行保存。其中，WASA参数的类型可以布尔型，WASA参数取值为“True”，表示MG需要对语音数据进行保存；取值为“False”，表示MG不需要保存语音数据。如果MG对语音数据进行保存，则数据可以用URI格式进行保存，并通过确认结果事件携带给MGC。

参数三：媒体类型

媒体类型(Media Type；简称：METY)参数，用以指定确认操作的音频或视频数据的媒体类型。METY参数的类型可以是字符串型，该METY参数为可选参数，媒体类型信息也可以通过媒体保存文件的后缀名显示。

参数四：表达缓存控制

表达缓存控制(Buffer Utterance Control；简称：BUCO)参数，用以指示当前处理的表达信息是否可以用于后续的确认操作，如果是，则需要将所述表达信息进行缓存。其中，BUCO参数的类型可以为布尔型，BUCO参数取值为“True”，表示MG需要对表达信息相关的语音数据进行缓存，以便用于后续的说话人确认操作；取值为“False”，表示MG不需要缓存。

参数五：输入声波URI

输入声波URI(Input Waveform URI；简称：IWURI)参数，用以指示MG确认操作需要预取和处理的已保存音频内容的URI信息。MG根据该IWURI参数携带的URI对指定存储地址的数据进行预取和处理。如果确认会话的确认模式是“Train”，表示使用该IWURI参数指定URI文件对声纹文件进行训练；如果确认会话的确认模式是“Verify”，则表示使用IWURI参数指定URI文件进行声纹确认。IWURI参数的类型可以为字符串型，取值可以是URI格式，也可以其它用以标识资源信息的格式。IWURI参数为可选，如果MGC在信号中不指定IWURI参数，则表示对实时语音信息进行确认操作。

参数六：语音完成定时器

语音完成定时器(Speech Complete Timeout；简称：SCTO)参数，用以指定说话人确认操作中说话人输入语音所需要的静音时长定时器。SCTO参数用数值表示，取值单位可以是毫秒(milliseconds)。SCTO参数的类型可以为整数型，通常的取值为0.3秒到1.0秒之间，以实际应用为准。

步骤304、MG接收到该说话人确认指示例如：SPVE信号后，向媒体网关控制器返回确认响应消息。通过确认响应消息告知MGC，MG已经收到SPVE信号，可以开始进行说话人确认操作。

步骤305、MG接收或获取需要识别的说话人语音信息，例如：接收说话人通过终端发送的实时语音信息，或查找指定存储地址对应的语音文件，并根据步骤301和步骤303获得的关于说话人确认的各种参数，根据获取的用于确认操作的声纹文件和需要识别的语音信息进行声纹信息的匹配。

步骤306、MG通过通报(Notify)请求消息向MGC上报说话人确认操作的执行结果。如果说话人确认操作失败，则上报说话人确认操作失败的结果；如果说话人确认操作成功，则上报说话人确认操作成功的结果。

在H.248中，事件的检测和上报需要对MG进行设置，设置的方法包括下发或预先配置。为了使能MG上报说话人确认操作的结果，需要在MG上设置该事件，例如：在前面步骤301或303中进行事件的设置。事件可以设置到MG的根(ROOT)终端、某个特定的终端或某个特定的流上，以表示事件检测的不同适用范围。

可以扩展一个H.248事件，表示说话人确认操作执行失败。例如，将该H.248事件命名为“说话人确认失败(Speaker Verification Failure；简称：SPFA)”事件。该SPFA事件可以定义在现有的包中，或者定义在一个新的包中，例如：定义在前面所述的“说话人确认和辨认(Speaker Verificationand Identification)”包中。由MGC下发到MG时，该SPFA事件可以不携带参数；由MG上报到MGC时，该SPFA事件可以携带参数，指示不同的错误返回码，表示不同的错误类型。

可以再扩展一个H.248事件，用以表示说话人确认操作成功，并通过定义参数的方式携带操作的执行结果。该H.248事件所携带的确认结果，取决于事件上报的不同时机，可以是说话人确认操作的中间结果，也可以是执行操作完成的最终结果。例如，将该H.248事件命名为“说话人确认结果(Speaker Verification Results；简称：SPRE)”事件。该SPRE事件可以定义在现有的包中，或者定义在一个新的包中，例如：前面定义的“说话人确认和辨认(Speaker Verification and Identification)”包中。SPRE事件由MGC到MG下发时可以不带参数；SPRE事件由MG到MGC上报时，可以携带参数来表示确认结果数据。其中，说话人确认成功的结果有两种可能的上报方式，一种方式是将确认识别结果作为一个整体字符串上报，例如：采用可扩展多通道注释标记语言(Extensible MultiModal Annotation markuplanguage；简称：EMMA)或者可扩展标记语言(Extensible Markup Language；简称：XML)等的语法格式上报确认结果，这种方式中只需要定义一个事件参数。另一种方式是通过定义多个事件参数将训练结果的信息一一携带上报，下面举例介绍SPRE事件中可以携带的各种参数的定义方法。

参数一：声纹标识

声纹标识(Voiceprint Identifier；简称：VOID)参数，用以指定进行确认操作的声纹文件标识。VOID参数的类型可以为字符串。

参数二：结果类型

结果类型(Score Type；简称：SCTY)参数，用以表示确认匹配结果的不同类型，包括新增(Incremental)和累计(Cumulative)两种。SCTY参数类型可以为布尔型或枚举型。

参数三：决策结果

决策结果(Decision；简称：DE)参数，用以表示确认匹配的结论，包括接受(Accepted)、拒绝(Rejected)和未决(Undecided)三种。DE参数类型可以为枚举型。

参数四：表达长度

表达长度(Utterance Length；简称：UTLE)参数，用以表示新增表达数据或累计表达数据的长度值，UTLE参数的类型可以为整数型，单位为毫秒。

参数五：设备类型

设备类型(Device Type；简称：DETY)参数，用以表示说话人的设备类型信息，例如：蜂窝电话(Cellular Phone)、电介体电话(Electret Phone)、碳精按钮电话(Carbon Button Phone)和未知(Unknown)等。DETY参数类型可以为枚举型。

参数六：性别

性别(Gender；简称：GE)参数，用以表示说话人的性别，包括男性(Male)、女性(Female)和未知(Unknown)三种。GE参数类型可以为枚举型。

参数七：适配类型

适配类型(Adapt Type；简称：ADTY)参数，用以表示声纹文件是否根据表达数据进行适配更新。ADTY参数类型可以为布尔型。

参数八：确认评价

确认评价(Verification Score；简称：VS)参数，用以指定说话人确认操作的匹配评价值。VS参数的类型可以为整数型，取值可以是从“-100”到“100”之间。

参数九：设备商特定信息

设备商特定信息(Vendor Specific Results；简称：VSRE)参数，用以携带其它实现相关的数据信息。VSRE参数的类型可以为字符串型。

此外，在上报成功识别结果的同时，SPRE事件还可以携带如下参数：

参数十：声波保存

声波保存(Waveform Save；简称：WASA)参数，用以携带所保存声波文件的URI信息。WASA参数的类型可以为字符串型。

如果需要在事件中同时携带多个说话人确认结果，则可以将上述参数的类型设置成列表的格式。例如，将参数一：声纹标识设置为字符串列表(Sub-list of String)格式，其中可以携带一个或多个声纹标识。这样，事件中可能会同时包含多个声纹标识，其它的参数则同时携带对应每个声纹标识的识别结果。因此，声纹标识参数是该事件中的关键参数，其它参数取值需要包含与该参数相同数目的条目。如果某个参数中特定的条目不适于对应的声纹标识，则需要将该条目赋值为空(NULL)。

步骤307、媒体网关控制器接收媒体网关上报的说话人确认操作的结果的相关数据后，向媒体网关发送结果响应消息。该结果响应消息用于表示媒体网关收到了媒体网关控制器发送的说话人确认操作的结果。

步骤308、媒体网关控制器向媒体网关发送终止说话人识别会话指示，该终止识别会话指示可以通过扩展的H.248信号实现，以指示媒体网关终止说话人识别会话。

可以扩展一个H.248信号，用以指示MG终止说话人确认会话。例如，将该H.248信号命名为“确认会话终止(End Verification Session；简称：EVS)”信号。该EVS信号的类型可以设置为BR。该EVS信号可以定义在现有的包中，或者定义在一个新的包中，例如：前面定义的“说话人确认和辨认(Speaker Verification and Identification)”包中。在该EVS信号中，可以定义一些参数，MGC向MC发送EVS信号可以将EVS信号中定义的参数同时下发给MG，通过这些参数指示MG进行终止说话人确认会话。EVS信号中可以携带的参数例如：

中止控制(Abort Control；简称：ABCO)参数，用以指定在确认会话终止时声纹信息的操作行为。其中，ABCO参数的类型是布尔型，ABCO参数取值为“True”，表示MG需要丢失在确认会话中收集到的或正在处理的语音信息；ABCO参数取值为“False”，则表示MG保存当前确认会话中收集到的语音信息以及对声纹文件的修改操作。

步骤309、媒体网关接收到该终止说话人识别会话指示例如：EVS信号后，根据终止说话人识别会话指示携带的参数终止说话人识别会话，并向媒体网关控制器返回终止响应消息。

在本实施例中说话人识别方法的基本流程的基础上，可以对各个信号和事件进行进一步的扩展定义，以支持MGC和MG需要具体实现的说话人确认和辨认的功能。

本实施例定义扩展的H.248信号中的各种参数，媒体网关控制器向媒体网关发送由H.248信号表示的说话人确认指示；媒体网关根据说话人确认指示中的参数获取需要识别的语音信息，并根据存储的声纹文件对所述语音信息进行声纹的匹配；然后媒体网关采用定义的H.248事件上报匹配结果，可以实现在分离架构下通过媒体网关控制协议进行说话人识别，采用分离架构进行说话人识别时，各种声纹文件资源的共享、维护与更新方便。

图5为本发明说话人识别方法第四实施例的信令流程图，如图5所示，在本发明说话人识别方法第一、二实施例的基础上，该说话人识别方法还可以包括：

步骤401、媒体网关控制器MGC向媒体网关MG下发声纹查询指示，该声纹查询指示可以通过扩展的H.248信号实现。该声纹查询指示可以携带在H.248的ADD、MODIFY或MOVE等指示消息中。

可以扩展一个H.248信号，用以指示媒体网关MG进行声纹查询操作。例如，将该H.248信号命名为“声纹查询(Voiceprint Query；简称：VOQU)”信号。该VOQU信号的类型可以设置为BR。该VOQU信号可以定义在现有的包中，或者定义在一个新的包中，例如：“说话人确认和辨认(SpeakerVerification and Identification)”包。

在VOQU信号中，可以定义一些参数，MGC向MC发送VOQU信号时可以将VOQU信号中定义的参数，通过这些参数指示MG进行声纹查询操作，下面举例介绍VOQU信号中可以携带的各种参数的定义方法：

参数一：储存库URI

储存库URI(Repository URI；简称：REURI)参数，用以指示需要查询的声纹文件所在的储存库标识。REURI参数的类型可以为字符串型，取值可以是URI格式，也可以其它用以标识资源信息的格式。

参数二：声纹标识

声纹标识(Voiceprint Identifier；简称：VOID)参数，用以指定所查询声纹文件标识。VOID参数的类型可以为字符串型。

参数三：声纹存在

声纹存在(Voiceprint Exists；简称：VOEX)参数，用以指示需要查询的声纹文件是否存在。VOEX参数的类型可以是布尔型，取值“True”表示存在，取值“False”表示不存在。当MGC向MG发送声纹查询指示时，该VOEX参数的取值可以是通配符“$”；MG在响应消息中可以通过对该VOEX参数的赋值来向MGC通知查询结果。

步骤402、媒体网关接收到该声纹查询指示后，例如：VOQU信号后，向媒体网关控制器返回查询响应消息，在查询响应消息可以通过对声纹存在参数例如：VOEX参数的赋值携带查询结果。其中，媒体网关根据储存库URI可以查找到声纹文件所在的储存库标识，根据声纹标识可以查找到需要的声纹文件。如果需要的声纹文件存在，则VOEX参数取值为“True”，如果需要的声纹文件不存在，VOEX参数取值为“False”。

本实施例定义扩展的H.248信号中的各种参数，媒体网关控制器向媒体网关发送由H.248信号表示的声纹查询指示；媒体网关根据声纹查询指示中的参数查询需要的声纹文件，实现了在分离架构下通过媒体网关控制协议进行声纹查询，采用分离架构进行说话人识别可以方便各种声纹文件资源的共享、维护与更新。

图6为本发明说话人识别方法第五实施例的信令流程图，如图6所示，在本发明说话人识别方法第一、二实施例的基础上，该说话人识别方法还可以包括：

步骤501、媒体网关控制器MGC向媒体网关MG发送声纹删除指示，该声纹删除指示可以通过扩展的H.248信号实现。该声纹删除指示可以携带在H.248的ADD、MODIFY或MOVE等指示消息中。

可以扩展一个H.248信号，用以指示媒体网关MG进行声纹删除操作。例如，将该H.248信号命名为“声纹删除(Voiceprint Delete；简称：VODE)”信号。该VODE信号的类型可以设置为BR。该VODE信号可以定义在现有的包中，或者定义在一个新的包中，例如：前面定义的“说话人确认和辨认(SpeakerVerification and Identification)”包。

在VODE信号中，可以定义一些参数，MGC向MC发送VODE信号时可以将VODE信号中定义的参数，通过这些参数指示MG进行声纹删除操作，下面举例介绍VODE信号中可以携带的各种参数的定义方法。

参数一：储存库URI

储存库URI(Repository URI；简称：REURI)参数，用以指示需要删除声纹文件的储存库标识。REURI参数的类型可以为字符串型，取值可以是URI格式，也可以其它用以标识资源信息的格式。

参数二：声纹标识

声纹标识(Voiceprint Identifier；简称：VOID)参数，用以指定所删除声纹文件标识。VOID参数的类型可以为字符串型。

参数三：声纹存在

声纹存在(Voiceprint Exists；简称：VOEX)参数，用以指示需要删除的声纹文件在删除操作开始前是否存在。VOEX参数的类型可以是布尔型，取值“True”表示存在，取值“False”表示不存在。当MGC向MG发送声纹删除指示时，该VOEX参数的取值可以是通配符“$”；MG在响应消息可以中通过对该VOEX参数的赋值来向MGC通知删除结果。

步骤502、媒体网关接收到该声纹删除指示，例如：VODE信号后，向媒体网关控制器返回删除响应消息，在删除响应消息中通过对声纹存在参数例如VOEX参数的赋值携带删除结果。其中，媒体网关根据储存库URI可以查找到声纹文件所在的储存库标识，根据声纹标识可以查找到需要的声纹文件。如果需要的声纹文件在删除操作开始前存在，则VOEX参数取值为“True”，在删除操作开始前不存在，VOEX参数取值为“False”。

本实施例中定义扩展的H.248信号中的各种参数，媒体网关控制器向媒体网关发送由H.248信号表示的声纹删除指示；媒体网关根据声纹删除指示中的参数删除指定的声纹文件，实现了在分离架构下通过媒体网关控制协议的控制进行声纹文件的删除，采用分离架构进行说话人识别可以方便各种声纹文件资源的共享、维护与更新。

除了本发明说话人识别方法第四、第五实施例中介绍的声纹查询、声纹删除的方法之外，该说话人识别方法中还可以包括缓存确认的方法，具体地：MGC向MG发送的缓存确认指示可以通过定义一种扩展的H.248信号实现，例如：将H.248信号命名为缓存确认(Verify from Buffer；简称：VEBU)信号。媒体网关控制器采用VEBU信号可以指示媒体网关对媒体网关的缓存中存放的语音信息进行说话人识别例如：说话人确认的操作。该VEBU信号的类型可以设置为BR。该VEBU信号可以定义在现有的包中，或者定义在一个新的包中，例如：前面定义的“说话人确认和辨认(Speaker Verificationand Identification)”包。媒体网关控制器向媒体网关下发的VEBU信号不需要携带参数。

此外，该说话人识别方法中还可以包括确认回滚的方法，具体地：MGC向MG发送的确认回滚指示可以通过定义一种扩展的H.248信号实现，例如：将H.248信号命名为确认回滚(Verification Rollback；简称：VERO)信号。媒体网关控制器采用VERO信号可以指示媒体网关丢弃媒体网关最新收集的语音信息例如：表达(Utterance)数据。该VERO信号的类型可以设置为BR。该VODE信号可以定义在现有的包中，或者定义在一个新的包中，例如：前面定义的“说话人确认和辨认(Speaker Verification and Identification)”包。媒体网关控制器向媒体网关下发的VERO信号不需要携带参数。

进一步地，该说话人识别方法中还可以包括缓存清理的方法，具体地：MGC向MG发送的缓存清理指示可以通过定义一种扩展的H.248信号实现，例如：将H.248信号命名为缓存清理(Clear Buffer；简称：CLBU)信号。媒体网关控制器采用CLBU信号可以指示媒体网关对当前的缓存空间进行清理，即丢弃当前缓存的内容数据。该CLBU信号的类型可以设置为BR。该CLBU信号可以定义在现有的包中，或者定义在一个新的包中，例如：前面定义的“说话人确认和辨认(Speaker Verification and Identification)”包。媒体网关控制器向媒体网关下发的CLBU信号不需要携带参数。

进一步地，该说话人识别方法中还可以包括获取说话人确认操作的中间结果的方法，具体地：MGC向MG发送的获取中间结果指示可以通过定义一种扩展的H.248信号实现，例如：将H.248信号命名为获取中间结果(GetIntermediate Result；简称：GIR)信号。媒体网关控制器采用GIR信号可以指示媒体网关向媒体网关控制返回当前执行说话人确认操作的中间结果。这个中间结果可能只是一个声纹匹配的过程数据。该GIR信号的类型可以设置为BR。该GIR信号可以定义在现有的包中，或者定义在一个新的包中，例如：前面定义的“说话人确认和辨认(Speaker Verification andIdentification)”包。媒体网关控制器向媒体网关下发的该GIR信号可以携带媒体网关控制器希望获知信息对应的信号参数。参数的设置可以与前面确认结果事件的参数一致，例如：可以包括声纹标识、结果类型、决策结果、表达长度、设备类型、性别、适配类型等参数。参数下发时可以赋值为“$”，媒体网关在响应消息携带结果信息给媒体网关控制器。另外，该信号的实现方法还可以是：信号中不携带任何信号参数；当媒体网关收到该信号时，触发上述“说话人确认结果”事件，即获取当前说话人确认操作的结果，并通过该事件上报结果给媒体网关控制器。

进一步地，该说话人识别方法中还可以包括停止当前的说话人确认操作的方法，具体地：向MG发送的停止确认指示可以通过定义一个扩展的H.248信号实现，用以指示MG停止当前的说话人确认操作。例如，将该H.248信号命名为“停止确认(Stop Verify；简称：STVE)”信号。该STVE信号的类型可以设置为BR。该STVE信号可以定义在现有的包中，或者定义在一个新的包中，例如：前面定义的“说话人确认和辨认(Speaker Verificationand Identification)”包中。与前面终止说话人确认会话信号不同，停止确认信号是停止所执行的当前的说话人确认操作，但不释放识别资源，而终止说话人确认会话则是释放识别会话资源。在该STVE信号中，可以定义一些参数，MGC向MC发送STVE信号可以将STVE信号中定义的参数同时下发给MG，通过这些参数指示MG停止进行中的说话人确认操作。STVE信号中可以携带的参数例如：中止确认(Abort Verification；简称：ABVE)参数，用以指定在停止确认操作时是否上报当前确认操作的结果。其中，ABVE参数的类型是布尔型，ABVE参数取值为“True”，表示MG应该丢弃当前说话人确认操作的执行结果；ABVE参数取值为“False”，则表示MG需要将当前说话人确认操作的执行结果上报给MGC。媒体网关接收到该停止确认指示例如：STVE信号后，停止当前的说话人识别操作，并向媒体网关控制器返回停止响应消息。如果ABVE参数的取值为“False”，则MG触发前面所述的“说话人确认结果”事件，即获取当前说话人确认操作的结果，并通过该事件上报结果给媒体网关控制器。

本发明实施例中通过扩展的H.248信号表示缓存确认指示、获取中间结果指示、停止确认指示、确认回滚指示、缓存清理指示等，媒体网关控制器向媒体网关发送H.248信号，可以实现在分离架构下通过说话人确认过程中的缓存确认、获取中间结果、停止确认、确认回滚、缓存清理等操作，方便了各种声纹文件资源的共享、维护与更新。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图7为本发明媒体网关实施例的结构示意图，如图7所示，该媒体网关包括：第一接收模块71、确认模块72和上报模块73。其中第一接收模块71用于接收媒体网关控制器发送的说话人确认指示，所述说话人确认指示携带需要识别的语音信息的状态。确认模块72用于根据所述说话人确认指示执行说话人确认操作，并获取说话人确认操作的结果。上报模块73用于将所述说话人确认操作的结果上报至所述媒体网关控制器。

具体地，采用媒体网关控制协议例如H.248进行说话人识别时，媒体网关的第一接收模块71接收媒体网关控制器发送的说话人确认指示后，确认模块72根据所述说话人确认指示执行说话人确认操作，并获取说话人确认操作的结果。如果媒体网关控制器下发的说话人确认指示携带了一段指定的语音信息的存储地址，确认模块72可以从该存储地址获取需要识别的语音信息；如果说话人确认指示媒体网关接收说话人实时语音信息的指示，确认模块72可以接收说话人实时的语音信息。然后确认模块72执行说话人确认的操作，例如：根据媒体网关上之前存储的声纹文件对所述语音信息进行声纹的匹配，上报模块73将说话人确认的操作的结果上报至所述媒体网关控制器。其中第一接收模块、确认模块和上报模块进行说话人识别的具体方法，可以参照本发明说话人识别方法第一、第二实施例中的相关描述。

进一步地，该媒体网关还可以包括第一建立会话模块、调用模块。其中第一建立会话模块用于接收所述媒体网关控制器发送的建立说话人确认会话指示，所述建立说话人确认会话指示携带用于说话人确认操作的声纹标识。调用模块用于根据所述建立说话人确认会话指示建立说话人识别会话，并获取所述声纹标识对应的声纹文件。在第一接收模块71接收媒体网关控制器发送的说话人确认指示之前，第一建立会话模块可以接收所述媒体网关控制器发送的建立说话人识别会话指示，调用模块根据所述建立说话人识别会话指示建立说话人识别会话，并可以根据建立说话人识别会话指示中携带的声纹标识查找并调用声纹标识对应的声纹文件，如果建立说话人识别会话指示中携带存储库标识，则可以存储库标识对应的声纹文件存储库中查找声纹标识对应的声纹文件。使确认模块72可以根据该声纹文件对需要识别的语音信息进行声纹的匹配。

该媒体网关还可以包括第一终止会话模块、终止响应模块。其中第一终止会话模块，用于接收所述媒体网关控制器发送的终止说话人确认会话指示。终止响应模块将根据所述终止说话人确认会话指示，终止说话人确认会话，并向所述媒体网关控制器返回终止响应消息。其中第一建立会话模块、调用模块、第一终止会话模块、终止响应模块建立、终止声纹会话连接的具体方法，可以参照本发明说话人识别方法第一、第三实施例中的相关描述。

此外，当媒体网关控制器需要指示媒体网关对的缓存中的语音信息进行说话人确认操作时，媒体网关可以包括：第一缓存确认模块。第一缓存确认模块用于接收所述媒体网关控制器发送的缓存确认指示，根据所述缓存确认指示对媒体网关的缓存中存放的语音信息进行说话人确认操作。

当媒体网关控制器需要指示媒体网关获取说话人确认操作的中间结果时，媒体网关可以包括：第一中间结果模块。第一中间结果模块用于接收所述媒体网关控制器发送的获取中间结果指示，根据所述获取中间结果指示获取并上报当前所执行的说话人确认操作的中间结果。

当媒体网关控制器需要指示媒体网关进行停止说话人确认操作时，媒体网关可以包括：第一停止确认模块，用于接收所述媒体网关控制器发送的停止确认指示，根据所述停止确认指示停止当前所执行的说话人确认操作；

当媒体网关控制器需要指示媒体网关进行声纹文件的查询时，媒体网关还可以包括第一查询指示模块。其中第一查询指示模块用于接收所述媒体网关控制器发送的声纹查询指示，所述声纹查询指示携带需要查询的声纹标识，并向所述媒体网关控制器返回根据所述声纹标识获取的查询结果。查询操作结束后，媒体网关可以向媒体网关控制器返回查询响应消息，告知媒体网关控制器查询结果。其中第一查询指示模块进行声纹查询的具体方法，可以参照本发明说话人识别方法第一、第三、第四实施例中的相关描述。

当媒体网关控制器需要指示媒体网关进行声纹文件的删除时，媒体网关还可以包括第一删除指示模块。其中第一删除指示模块用于接收所述媒体网关控制器发送的声纹删除指示，所述声纹删除指示携带需要删除的声纹标识，并向所述媒体网关控制器返回删除结果。删除操作结束后，媒体网关可以向媒体网关控制器返回删除响应消息，告知媒体网关控制器删除结果。其中第一删除指示模块进行声纹删除的具体方法，可以参照本发明说话人识别方法第一、第三、第五实施例中的相关描述。

当媒体网关控制器需要指示媒体网关进行确认回滚时，媒体网关还可以包括：第一确认回滚模块。第一确认回滚模块用于接收所述媒体网关控制器发送的确认回滚指示，根据所述确认回滚指示丢弃媒体网关最新收集的语音信息。

当媒体网关控制器需要指示媒体网关缓存清理时，媒体网关还可以包括：第一缓存清理模块。第一缓存清理模块用于接收所述媒体网关控制器发送的缓存清理指示，根据所述缓存清理指示丢弃缓存的媒体数据。

本实施例媒体网关的第一接收模块接收媒体网关控制器发送的说话人确认指示，确认模块根据说话人识别指进行说话人确认操作，上报模块将说话人确认操作的结果上报至媒体网关控制器，可以实现在分离架构下通过媒体网关控制协议的控制进行说话人识别，采用分离架构进行说话人识别可以方便各种声纹文件资源的共享、维护与更新。

图8为本发明媒体网关控制器实施例的结构示意图，如图8所示，该媒体网关控制器包括：第一发送模块81和第二接收模块82。其中第一发送模块81用于向媒体网关发送说话人确认指示。第二接收模块82用于接收所述媒体网关上报的根据所述说话人确认指示获取的说话人确认操作的结果。

具体地，采用媒体网关控制协议例如H.248进行说话人识别时，媒体网关控制器的第一发送模块81向媒体网关发送说话人确认指示，媒体网关根据说话人确认指示执行说话人确认操作，并获取说话人确认操作的结果，第二接收模块82接收媒体网关上报的话人确认操作的结果。

进一步地，该媒体网关控制器可以包括第二建立会话模块，用于向所述媒体网关发送建立说话人确认会话指示，所述建立说话人确认会话指示携带用于说话人确认操作的声纹标识。该媒体网关控制器还可以包括第二终止会话模块，用于向所述媒体网关发送终止说话人确认会话指示，并接收所述媒体网关返回的终止响应消息。其中第二建立会话模块、第二终止会话模块指示媒体网关建立、终止声纹会话连接进行说话人识别的具体方法，可以参照本发明说话人识别方法第二、第三实施例中的相关描述。

此外，当媒体网关控制器需要指示媒体网关对的缓存中的语音信息进行说话人确认操作时，媒体网关控制器可以包括：第二缓存确认模块，用于向所述媒体网关发送缓存确认指示，指示所述媒体网关根据所述缓存确认指示对媒体网关的缓存中存放的语音信息进行说话人确认操作。

当媒体网关控制器需要指示媒体网关获取说话人确认操作的中间结果时，媒体网关控制器可以包括：第二中间结果模块，用于向所述媒体网关发送获取中间结果指示，指示所述媒体网关根据所述获取中间结果指示获取并上报当前所执行的说话人确认操作的中间结果。

当媒体网关控制器需要指示媒体网关进行停止说话人确认操作时，媒体网关控制器可以包括：第二停止确认模块，用于向所述媒体网关发送停止确认指示，指示所述媒体网关根据所述停止确认指示停止当前所执行的说话人确认操作。

当媒体网关控制器需要指示媒体网关进行声纹文件的查询时，该媒体网关控制器还可以包括：第二查询指示模块，用于向所述媒体网关发送声纹查询指示，所述声纹查询指示携带需要查询的声纹标识，并接收所述媒体网关返回的根据所述声纹标识获取的查询结果。其中第二查询指示模块指示媒体网关进行声纹查询的具体方法，可以参照本发明说话人识别方法第二、第三、第四实施例中的相关描述。

当媒体网关控制器需要指示媒体网关进行声纹文件的删除时，该媒体网关控制器还可以包括：第二删除指示模块，用于向所述媒体网关发送声纹删除指示，所述声纹删除指示携带需要删除的声纹标识，并接收所述媒体网关返回的根据所述声纹标识获取的删除结果。其中第二删除指示模块指示媒体网关进行声纹删除的具体方法，可以参照本发明说话人识别方法第二、第三、第五实施例中的相关描述。

当媒体网关控制器需要指示媒体网关进行确认回滚时，媒体网关控制器还可以包括：第二确认回滚模块，用于向所述媒体网关发送确认回滚指示，指示所述媒体网关根据所述确认回滚指示丢弃媒体网关最新收集的语音信息。

当媒体网关控制器需要指示媒体网关缓存清理时，媒体网关控制器还可以包括：第二缓存清理模块，用于向所述媒体网关发送缓存清理指示，指示所述媒体网关根据所述缓存清理指示丢弃缓存的媒体数据。

本实施例媒体网关控制器的第一发送模块向媒体网关发送说话人确认指示，指示媒体网关获取对语音信息进行说话人确认操作，第二接收模块接收媒体网关上报的说话人确认操作的结果，可以实现在分离架构下通过媒体网关控制协议进行说话人识别，采用分离架构进行说话人识别可以方便各种声纹文件资源的共享、维护与更新。

图9为本发明说话人识别系统实施例的结构示意图，如图9所示，该说话人识别系统包括：媒体网关91和媒体网关控制器92。其中媒体网关91用于接收媒体网关控制器发送的说话人确认指示；根据所述说话人确认指示执行说话人确认操作，并获取说话人确认操作的结果；将所述说话人确认操作的结果上报至所述媒体网关控制器。媒体网关控制器92用于向媒体网关发送说话人确认指示；接收所述媒体网关上报的根据所述说话人确认指示获取的说话人确认操作的结果。

具体地，采用媒体网关控制协议例如H.248进行说话人识别时，媒体网关91接收媒体网关控制器92发送说话人确认指示，根据所述说话人确认指示可以对语音信息执行说话人确认的操作。其中，如果媒体网关控制器92下发的说话人确认指示包括为一段指定的语音信息的存储地址，媒体网关91可以从该存储地址获取需要识别的语音信息；如果说话人确认指示为接收说话人实时语音信息的指示，媒体网关91可以接收说话人实时的语音信息。然后媒体网关91可以根据存储的声纹文件对获取的语音信息进行声纹的匹配，执行说话人确认的操作，并将说话人确认操作的结果上报至媒体网关控制器92。媒体网关91可以通过通报(Notify)请求消息向媒体网关控制器92上报说话人确认操作的结果，说话人确认操作的结果中可以包括匹配是否成功、匹配的相似程度以及说话人相关资料等信息。该上报的过程可以通过事件来实现。

本实施例中的媒体网关91和媒体网关控制器92可以采用上述的媒体网关和媒体网关控制器实施例中的任意一种媒体网关和媒体网关控制器。媒体网关、媒体网关控制器进行说话人识别的具体方法可以参照本发明说话人识别方法第一、第二、第三实施例中的相关描述。

本实施例媒体网关根据媒体网关控制器发送的说话人确认指示，根据存储的声纹文件对语音信息进行说话人确认的操作，然后将说话人确认操作的结果上报至媒体网关控制器，在分离架构下通过媒体网关控制协议的控制实现说话人识别，采用分离架构进行说话人识别可以方便各种声纹文件资源的共享、维护与更新。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种说话人识别方法，其特征在于，包括：

接收媒体网关控制器发送的说话人确认指示；

将所述说话人确认操作的结果上报至所述媒体网关控制器；

所述接收媒体网关控制器发送的说话人确认指示之前包括：

接收所述媒体网关控制器发送的建立说话人确认会话指示，所述建立说话人确认会话指示携带用于说话人确认操作的声纹标识；

根据所述建立说话人确认会话指示建立说话人识别会话，并获取所述声纹标识对应的声纹文件；

进一步包括：

接收所述媒体网关控制器发送的缓存确认指示，根据所述缓存确认指示对媒体网关的缓存中存放的语音信息进行说话人确认操作；或

接收所述媒体网关控制器发送的获取中间结果指示，根据所述获取中间结果指示获取并上报当前所执行的说话人确认操作的中间结果；或

接收所述媒体网关控制器发送的停止确认指示，根据所述停止确认指示停止当前所执行的说话人确认操作；或

接收所述媒体网关控制器发送的声纹查询指示，所述声纹查询指示携带需要查询的声纹标识，并向所述媒体网关控制器返回根据所述声纹标识获取的查询结果；或

接收所述媒体网关控制器发送的声纹删除指示，所述声纹删除指示携带需要删除的声纹标识，并向所述媒体网关控制器返回删除结果；或

接收所述媒体网关控制器发送的确认回滚指示，根据所述确认回滚指示丢弃媒体网关最新收集的语音信息；或

接收所述媒体网关控制器发送的缓存清理指示，根据所述缓存清理指示丢弃缓存的媒体数据。

2.根据权利要求1所述的说话人识别方法，其特征在于，所述将所述说话人确认操作的结果上报至所述媒体网关控制器之后包括：

接收所述媒体网关控制器发送的终止说话人确认会话指示；

根据所述终止说话人确认会话指示，终止说话人确认会话，并向所述媒体网关控制器返回终止响应消息。

3.一种说话人识别方法，其特征在于，包括：

向媒体网关发送说话人确认指示；

接收所述媒体网关上报的根据所述说话人确认指示获取的说话人确认操作的结果；

所述向媒体网关发送说话人确认指示之前包括：向所述媒体网关发送建立说话人确认会话指示，所述建立说话人确认会话指示携带用于说话人确认操作的声纹标识；

还包括：

向所述媒体网关发送缓存确认指示，指示所述媒体网关根据所述缓存确认指示对所述媒体网关的缓存中存放的语音信息进行说话人确认操作；或

向所述媒体网关发送获取中间结果指示，指示所述媒体网关根据所述获取中间结果指示获取并上报当前所执行的说话人确认操作的中间结果；或

向所述媒体网关发送停止确认指示，指示所述媒体网关根据所述停止确认指示停止当前所执行的说话人确认操作；或

向所述媒体网关发送声纹查询指示，所述声纹查询指示携带需要查询的声纹标识，并接收所述媒体网关返回的根据所述声纹标识获取的查询结果；

或

向所述媒体网关发送声纹删除指示，所述声纹删除指示携带需要删除的声纹标识，并接收所述媒体网关返回的根据所述声纹标识获取的删除结果；

向所述媒体网关发送确认回滚指示，指示所述媒体网关根据所述确认回滚指示丢弃媒体网关最新收集的语音信息；或

向所述媒体网关发送缓存清理指示，指示所述媒体网关根据所述缓存清理指示丢弃缓存的媒体数据。

4.根据权利要求3所述的说话人识别方法，其特征在于，所述接收所述媒体网关上报的根据所述说话人确认指示获取的说话人确认操作的结果之后包括：

向所述媒体网关发送终止说话人确认会话指示，并接收所述媒体网关返回的终止响应消息。

5.一种媒体网关，其特征在于，包括：

上报模块，用于将所述说话人确认操作的结果上报至所述媒体网关控制器；

还包括：第一建立会话模块，用于在所述第一接收模块接收媒体网关控制器发送的说话人确认指示之前，接收所述媒体网关控制器发送的建立说话人确认会话指示，所述建立说话人确认会话指示携带用于说话人确认操作的声纹标识；

调用模块，用于根据所述建立说话人确认会话指示建立说话人识别会话，并获取所述声纹标识对应的声纹文件；

还包括以下模块的任意一项或者多项：

第一缓存确认模块，用于接收所述媒体网关控制器发送的缓存确认指示，根据所述缓存确认指示对媒体网关的缓存中存放的语音信息进行说话人确认操作；

第一中间结果模块，用于接收所述媒体网关控制器发送的获取中间结果指示，根据所述获取中间结果指示获取并上报当前所执行的说话人确认操作的中间结果；

第一停止确认模块，用于接收所述媒体网关控制器发送的停止确认指示，根据所述停止确认指示停止当前所执行的说话人确认操作；

第一查询模块，用于接收所述媒体网关控制器发送的声纹查询指示，所述声纹查询指示携带需要查询的声纹标识，并向所述媒体网关控制器返回根据所述声纹标识获取的查询结果；

第一删除模块，用于接收所述媒体网关控制器发送的声纹删除指示，所述声纹删除指示携带需要删除的声纹标识，并向所述媒体网关控制器返回删除结果；

第一确认回滚模块，用于接收所述媒体网关控制器发送的确认回滚指示，根据所述确认回滚指示丢弃媒体网关最新收集的语音信息；

第一缓存清理模块，用于接收所述媒体网关控制器发送的缓存清理指示，根据所述缓存清理指示丢弃缓存的媒体数据。

6.根据权利要求5所述的媒体网关，其特征在于，还包括：

第一终止会话模块，用于在所述上报模块将所述说话人确认操作的结果上报至所述媒体网关控制器之后，接收所述媒体网关控制器发送的终止说话人确认会话指示；

终止响应模块，用于根据所述终止说话人确认会话指示，终止说话人确认会话，并向所述媒体网关控制器返回终止响应消息。

7.一种媒体网关控制器，其特征在于，包括：

第一发送模块，用于向媒体网关发送说话人确认指示；

第二接收模块，用于接收所述媒体网关上报的根据所述说话人确认指示获取的说话人确认操作的结果；

还包括：第二建立会话模块，用于在所述第一发送模块向媒体网关发送说话人确认指示之前，向所述媒体网关发送建立说话人确认会话指示，所述建立说话人确认会话指示携带用于说话人确认操作的声纹标识；

还包括以下模块的任意一项或者多项：

第二缓存确认模块，用于向所述媒体网关发送缓存确认指示，指示所述媒体网关根据所述缓存确认指示对媒体网关的缓存中存放的语音信息进行说话人确认操作；

第二中间结果模块，用于向所述媒体网关发送获取中间结果指示，指示所述媒体网关根据所述获取中间结果指示获取并上报当前所执行的说话人确认操作的中间结果；

第二停止确认模块，用于向所述媒体网关发送停止确认指示，指示所述媒体网关根据所述停止确认指示停止当前所执行的说话人确认操作；

第二查询模块，用于向所述媒体网关发送声纹查询指示，所述声纹查询指示携带需要查询的声纹标识，并接收所述媒体网关返回的根据所述声纹标识获取的查询结果；

第二删除模块，用于向所述媒体网关发送声纹删除指示，所述声纹删除指示携带需要删除的声纹标识，并接收所述媒体网关返回的根据所述声纹标识获取的删除结果；

第二确认回滚模块，用于向所述媒体网关发送确认回滚指示，指示所述媒体网关根据所述确认回滚指示丢弃媒体网关最新收集的语音信息；

第二缓存清理模块，用于向所述媒体网关发送缓存清理指示，指示所述媒体网关根据所述缓存清理指示丢弃缓存的媒体数据。

8.根据权利要求7所述的媒体网关控制器，其特征在于，还包括：

第二终止会话模块，用于在所述第二接收模块接收所述媒体网关上报的根据所述说话人确认指示获取的说话人确认操作的结果之后，向所述媒体网关发送终止说话人确认会话指示，并接收所述媒体网关返回的终止响应消息。

9.一种说话人识别系统，其特征在于，包括：媒体网关和媒体网关控制器；

所述媒体网关，包括：

第一建立会话模块，用于在所述第一接收模块接收媒体网关控制器发送的说话人确认指示之前，接收所述媒体网关控制器发送的建立说话人确认会话指示，所述建立说话人确认会话指示携带用于说话人确认操作的声纹标识；

所述媒体网关控制器，包括：

第一发送模块，用于向媒体网关发送说话人确认指示；

第二建立会话模块，用于在所述第一发送模块向媒体网关发送说话人确认指示之前，向所述媒体网关发送建立说话人确认会话指示，所述建立说话人确认会话指示携带用于说话人确认操作的声纹标识；

所述说话人识别系统还包括以下特征中的任意一项或者多项：

所述媒体网关还包括：第一缓存确认模块，用于接收所述媒体网关控制器发送的缓存确认指示，根据所述缓存确认指示对媒体网关的缓存中存放的语音信息进行说话人确认操作；相应的，所述媒体网关控制器还包括：第二缓存确认模块，用于向所述媒体网关发送缓存确认指示，指示所述媒体网关根据所述缓存确认指示对媒体网关的缓存中存放的语音信息进行说话人确认操作；

所述媒体网关还包括：第一中间结果模块，用于接收所述媒体网关控制器发送的获取中间结果指示，根据所述获取中间结果指示获取并上报当前所执行的说话人确认操作的中间结果；相应的，所述媒体网关控制器还包括：第二中间结果模块，用于向所述媒体网关发送获取中间结果指示，指示所述媒体网关根据所述获取中间结果指示获取并上报当前所执行的说话人确认操作的中间结果；

所述媒体网关还包括：第一停止确认模块，用于接收所述媒体网关控制器发送的停止确认指示，根据所述停止确认指示停止当前所执行的说话人确认操作；相应的，所述媒体网关控制器还包括：第二停止确认模块，用于向所述媒体网关发送停止确认指示，指示所述媒体网关根据所述停止确认指示停止当前所执行的说话人确认操作；

所述媒体网关还包括：第一查询模块，用于接收所述媒体网关控制器发送的声纹查询指示，所述声纹查询指示携带需要查询的声纹标识，并向所述媒体网关控制器返回根据所述声纹标识获取的查询结果；相应的，所述媒体网关控制器还包括：第二查询模块，用于向所述媒体网关发送声纹查询指示，所述声纹查询指示携带需要查询的声纹标识，并接收所述媒体网关返回的根据所述声纹标识获取的查询结果；

所述媒体网关还包括：第一删除模块，用于接收所述媒体网关控制器发送的声纹删除指示，所述声纹删除指示携带需要删除的声纹标识，并向所述媒体网关控制器返回删除结果；相应的，所述媒体网关控制器还包括：第二删除模块，用于向所述媒体网关发送声纹删除指示，所述声纹删除指示携带需要删除的声纹标识，并接收所述媒体网关返回的根据所述声纹标识获取的删除结果；

所述媒体网关还包括：第一确认回滚模块，用于接收所述媒体网关控制器发送的确认回滚指示，根据所述确认回滚指示丢弃媒体网关最新收集的语音信息；所述媒体网关控制器还包括：第二确认回滚模块，用于向所述媒体网关发送确认回滚指示，指示所述媒体网关根据所述确认回滚指示丢弃媒体网关最新收集的语音信息；

所述媒体网关还包括：第一缓存清理模块，用于接收所述媒体网关控制器发送的缓存清理指示，根据所述缓存清理指示丢弃缓存的媒体数据；相应的，所述媒体网关控制器还包括：第二缓存清理模块，用于向所述媒体网关发送缓存清理指示，指示所述媒体网关根据所述缓存清理指示丢弃缓存的媒体数据。