CN101923856B

CN101923856B - 语音识别训练处理、控制方法及装置

Info

Publication number: CN101923856B
Application number: CN2009100869745A
Authority: CN
Inventors: 祝宁; 杨玮玮
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2009-06-12
Filing date: 2009-06-12
Publication date: 2012-06-06
Anticipated expiration: 2029-06-12
Also published as: US20120078637A1; CN101923856A; EP2431968A1; US8909533B2; EP2431968A4; WO2010142254A1

Abstract

本发明实施例涉及一种语音识别训练处理、控制方法及装置。该语音识别训练处理方法包括：接收媒体网关控制器发送的语音训练开始请求和语音识别请求；根据所述语音训练开始请求和所述语音识别请求中携带的信息进行语音识别训练处理，获取识别训练处理结果；将所述识别训练处理结果反馈给所述媒体网关控制器。本发明实施例在MG和MGC分离架构下，使得MG能够在MGC的控制下实现语音识别训练操作，填补了在MG和MGC分离架构下，进行语音识别训练的技术空白。

Description

语音识别训练处理、控制方法及装置

技术领域

本发明涉及通信技术领域，尤其涉及一种语音识别训练处理、控制方法及装置。

背景技术

随着网络融合的不断发展，下一代网络(Next Generation Network，以下简称：NGN)也随之产生。它是以软交换为核心的，能够提供包括语音、数据、视频和多媒体业务的基于分组技术的综合开放的网络架构，代表了通信网络发展的方向。

图1为现有技术中NGN网络架构的结构示意图，如图1所示，NGN网络结构主要包括：媒体网关(Media Gateway，以下简称：MG)以及媒体网关控制器(Media Gateway Controller，以下简称：MGC)。其中，MGC用于实现呼叫状态的管理以及对MG承载资源的控制；MG用于将媒体流由一种格式转换为另一种格式。例如，将电路交换网中的E1时隙中的媒体流转换为IP网络中的实时传输协议(Realtime Transport Protocol，以下简称：RTP)媒体流，并在MGC的信令控制下实现媒体流的建立、修改、释放以及资源管理。同时，MG还具有网络地址转换的功能。在图1所示的NGN网络架构上可以实现专人语音识别。在具体实现时，MG上预先保存有统一资源标识符(Uniform Resource Identifier，以下简称：URI)，该URI对应着专门的发音人的发音语法和发音特点。MG在接收到专人通过用户终端发送的语音识别请求时，即可根据该URI对专人的语音进行识别处理，从而实现语音信号到机器可识别信号的转换。

在实现本发明的过程中，发明人发现现有技术至少存在如下缺陷：现有的MG无法实现语音识别训练。

发明内容

本发明实施例提供一种语音识别训练处理、控制方法及装置，以解决现有技术中MG无法实现语音识别训练的问题，实现在MG和MGC分离架构下，MG在MGC的控制下能够实现语音识别训练操作的技术效果。

本发明实施例提供一种语音识别训练处理方法，包括：

接收媒体网关控制器发送的语音训练开始请求和语音识别请求；

根据所述语音训练开始请求和所述语音识别请求中携带的信息进行语音识别训练处理，获取识别训练处理结果；

将所述识别训练处理结果反馈给所述媒体网关控制器。

本发明实施例提供一种语音识别训练控制方法，包括：

向媒体网关发送语音训练开始请求和语音识别请求；

接收所述媒体网关根据所述语音训练开始请求和所述语音识别请求中携带的信息进行语音识别训练处理后，反馈的识别训练处理结果。

本发明实施例提供一种媒体网关，包括：

接收模块，用于接收媒体网关控制器发送的语音训练开始请求和语音识别请求；

语音识别训练模块，用于根据所述语音训练开始请求和所述语音识别请求中携带的信息进行语音识别训练处理，获取识别训练处理结果；

反馈模块，用于将语音识别训练模块获取的识别训练处理结果反馈给所述媒体网关控制器。

本发明实施例提供一种媒体网关控制器，包括：

发送模块，用于向媒体网关发送语音训练开始请求和语音识别请求；

结果接收模块，用于接收所述媒体网关根据所述语音训练开始请求和所述语音识别请求中携带的信息进行语音识别训练处理后，反馈的识别训练处理结果。

本发明实施例还提供一种语音识别训练系统，包括：媒体网关控制器和媒体网关，

所述媒体网关控制器用于向媒体网关发送语音训练开始请求后，向所述媒体网关发送语音识别请求；并接收所述媒体网关根据所述语音训练开始请求和所述语音识别请求中携带的信息进行语音识别训练处理后，反馈的识别训练处理结果；

所述媒体网关用于接收媒体网关控制器发送的语音训练开始请求后，接收所述媒体网关控制器发送的语音识别请求；根据所述语音训练开始请求和所述语音识别请求中携带的信息进行语音识别训练处理，获取识别训练处理结果；并将所述识别训练处理结果反馈给所述媒体网关控制器。

本发明实施例中，MG通过接收MGC发送的语音训练开始请求和语音识别请求，可以获取该语音训练开始请求和语音识别请求中携带的信息，通过该信息可以对语音识别训练处理过程进行控制操作。在该语音识别训练处理过程中，MG还可以根据这些参数获取相应的识别训练结果，并将该识别训练结果反馈给MGC，以方便MGC根据该识别训练结果进行后续训练过程的控制。本实施例在MG和MGC分离架构下，使得MG能够在MGC的控制下实现语音识别训练操作，填补了在MG和MGC分离架构下，进行语音识别训练的技术空白。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中NGN网络架构的结构示意图；

图2为本发明语音识别训练处理方法一个实施例的流程图；

图3为本发明语音识别训练控制方法一个实施例的流程图；

图4为本发明方法提供的一个实施例的信令流程图；

图5为本发明媒体网关一个实施例的结构示意图；

图6为本发明媒体网关另一个实施例的结构示意图；

图7为本发明媒体网关控制器一个实施例的结构示意图；

图8为本发明语音识别训练系统一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图2为本发明语音识别处理方法一个实施例的流程图，如图2所示，本实施例的方法包括：

步骤201、接收媒体网关控制器发送的语音训练开始请求和语音识别请求。

举例来说，MGC可以通过扩展的H.248信号向MG发送语音训练开始请求，通过该语音训练开始请求指示MG开始进行语音识别训练。该语音训练开始请求中携带的用于控制语音识别训练的信息可以存储在H.248协议的协议头扩展字段中。MG接收该语音训练开始请求后，可以根据其中携带的信息建立相应的训练会话。

在具体实现过程中，本实施例可以在某个已有的基于H.248协议的数据包或者扩展数据包中扩展信号enrst，该名称是训练开始(Enrolment Start)的缩写。当MG接收到该信号时，即MG接收到语音训练开始请求时，即可触发建立语音识别的训练会话。MG可以使用该语音训练开始请求中携带的信息对语音识别训练的相关操作进行初始化，从而对该语音识别训练的过程进行控制操作，例如，该信息可以包括：当前正在进行训练的短语标识、待训练短语语法的URI、训练新短语过程中必须达到的一致发音次数、达到多少相似度可以判断为一致、不同短语之间的相似程度、当短语被识别后媒体网关向用户终端返回的解释文本、在语音识别训练时某个短语出现的几率、在该短语训练完成后将该波形文件的URI反馈给MGC。然后，MG可以接收MGC发送的语音识别请求，该语音识别请求中携带的信息可以包括：是否将收集到的语音表达(utterance)增加到个人语法(Personal Grammar)中、某些命令字(command word)不允许作为被训练的短语、在识别训练完成时向MGC反馈识别训练处理结果等操作。该语音识别请求指示MG根据该语音识别请求中携带的信息开始对新的语音表达(utterance)进行训练。需要说明的是，上述语音训练开始请求也可以不携带信息，仅触发MG建立训练会话，而语音识别请求可以携带上述全部或部分信息，并建立语音识别会话，在语音识别会话的过程中根据上述信息进行语音识别训练处理，即语音识别的过程也是训练的过程；或者语音训练开始请求携带上述全部或部分信息，并触发MG建立训练会话，而语音识别请求中可以不携带信息，仅触发MG建立语音识别会话。

另外，MG还可以接收MGC发送的训练回滚(Enrolment Rollback)请求，短语训练结束(End Phrase Enrolment)请求，修改短语(Modify Phrase)请求和删除短语(Delete Phrase)请求，以对语音识别训练过程进行控制。

步骤202、根据所述语音训练开始请求和所述语音识别请求中携带的信息进行语音识别训练处理，获取识别训练处理结果；

举例来说，该语音识别训练处理可以包括语音识别处理和语音训练处理。对于语音识别处理来说，可以选择现有技术中的任意一种技术手段实现，不再赘述。而对于语音训练处理来说，由于语音训练开始请求和语音识别请求中携带的参数信息可以对该训练过程进行控制，例如在该短语训练完成后将该波形文件的URI反馈给MGC、是否将收集到的语音表达增加到个人语法中、某些命令字不允许作为被训练的短语、在识别训练完成时向MGC反馈识别训练处理结果等。

步骤203、将所述识别训练处理结果反馈给所述媒体网关控制器。

MG在完成对该短语进行的本次识别训练处理后，可以将识别训练结果反馈给MGC。该识别训练结果可能是训练失败结果或者训练成功结果。其中，训练成功结果有两种可能的参数定义方式来实现上报，一种是将识别训练结果作通过可扩展标记性语言(Extensible Markup Language，以下简称：XML)放在一个字符串中上报，例如采用媒体资源控制协议(Media Resource ControlProtocol，以下简称：MRCP)中报识别训练结果的语法上报，或者通过扩展多个事件参数将识别训练结果的具体信息一一携带上报。

当MGC接收到MG上报的识别训练处理结果时，即可根据该识别训练处理结果判断与当前训练的短语对应的训练过程是否已经满足要求，如果满足要求则MGC可以开始训练下一短语，否则，MGC可以对当前训练的短语继续进行多次训练，直到当前短语的识别训练处理结果满足要求为止。

本实施例中，MG通过接收MGC发送的语音训练开始请求，可以根据该语音训练开始请求建立训练会话，并对后续语音识别训练处理进行初始化，从而对语音识别训练进行控制；通过接收MGC发送的语音识别请求，可以根据其中携带的信息在语音识别的过程中进行语音训练操作。语音训练开始请求和语音识别请求中携带的信息均可以携带在H.248协议的扩展字段中形成H.248信号，而且这些信息可以根据需求任意选择，从而可以根据需求对语音训练标准进行规划。MG根据获取的信息即可进行语音识别训练处理，在该语音识别训练处理的过程中，可以根据MGC发送而来的语音训练开始请求和语音识别请求中携带的信息，进行相应的语音识别训练处理，获取或者记录相关的识别训练结果，并将该识别训练结果反馈给MGC，以方便MGC根据该识别训练结果进行后续训练过程的控制。本实施例在MG和MGC分离架构下，使得MG能够在MGC的控制下实现语音识别训练操作，从而填补了在MG和MGC分离架构下，进行语音识别训练的技术空白。

本发明语音识别训练处理方法提供的另一个实施例中，所述接收媒体网关控制器发送的语音训练开始请求和语音识别请求，包括：接收所述媒体网关控制器发送的语音训练开始请求，根据所述语音训练开始请求建立训练会话后，接收所述媒体网关控制器发送的语音识别请求。本发明语音识别训练处理方法提供的又一个实施例中，所述根据所述语音训练开始请求和所述语音识别请求中携带的信息进行语音识别训练处理，包括：根据所述语音训练开始请求中携带的信息进行语音识别训练的初始化处理；根据所述语音识别请求中携带的信息进行语音识别训练。

本发明语音识别训练处理方法提供的再一个实施例中，该方法还可以包括：

接收所述媒体网关控制器发送的训练回滚请求，并根据所述训练回滚请求放弃记录用户终端当前发送的语音信号。例如，训练回滚请求可以采用扩展H.248信号enrrol实现，该名称是训练回滚(Enrolment Rollback)的缩写。该信号enrrol可以用于MGC指示MG放弃记录用户终端当前发送的语音信号，即忽略说话人通过用户终端发送的最新的一次语音表达(Utterance)。

接收所述媒体网关控制器发送的短语训练结束请求，并根据所述短语训练结束请求启动新的识别训练处理或终止当前的识别训练处理。例如，该短语训练结束请求可以通过扩展H.248信号epenr来实现，该名称是结束短语训练(End Phrase Enrolment)的缩写。该信号epenr用于MGC指示MG提交最新的短语训练或者异常终止(abort)短语训练。后一种情况下被训练的短语没有成功加入个人语法。

接收所述媒体网关控制器发送的短语修改请求，并根据所述短语修改请求修改与所需修改的短语对应的短语参数信息。例如，该短语删除请求可以通过扩展H.248信号modp实现，该名称是修改短语(Modifying Phrase)的缩写。该信号用于MGC指示MG修改个人语法中的参数，可能包括短语标识(phraseID)，短语的自然语言(natural language of the phrase)以及重要性(weight)这些参数中的一个或者多个。

接收所述媒体网关控制器发送的短语删除请求，并根据所述短语删除请求删除与所需删除的短语对应的短语参数信息。例如，该短语修改请求可以通过扩展H.248信号delp实现，该名称是删除短语(Deleting Phrase)的缩写。该信号delp用于MGC指示MG从个人语法中删除一个或者多个短语。

本发明语音识别训练处理方法上述实施例中，可以通过H.248信号接收所述语音训练开始请求和所述语音识别请求。需要说明的是，该语音识别请求也可以对现有的语音识别信号进行复用，在现有的语音识别信号中扩展相应的参数来实现。

本发明上述实施例在MG和MGC分离架构下，使得MG能够在MGC的控制下实现语音识别训练操作，填补了在MG和MGC分离架构下，进行语音识别训练的技术空白。

图3为本发明语音识别训练控制方法一个实施例的流程图，如图3所示，本实施例的方法包括：

步骤301、向媒体网关发送语音训练开始请求和语音识别请求；

举例来说，MGC可以通过扩展的H.248信号向MG发送语音训练开始请求，通过该语音训练开始请求指示MG开始进行语音识别训练。该语音训练开始请求中携带的信息可以存储在H.248协议的协议头扩展字段中。MG接收该语音训练开始请求后，可以根据其中携带的信息建立相应的训练会话。

在具体实现过程中，本实施例可以在某个已有的基于H.248协议的数据包或者扩展数据包中扩展信号enrst，该名称是训练开始(Enrolment Start)的缩写。当MG接收到该信号时，即MG接收到语音训练开始请求时，即可触发建立语音识别的训练会话。MG可以使用该语音训练开始请求中携带的信息对语音识别训练的相关操作进行初始化，从而对该语音识别训练的过程进行控制操作，例如，该信息可以包括：当前正在进行训练的短语标识、待训练短语语法的URI、训练新短语过程中必须达到的一致发音次数、达到多少相似度可以判断为一致、不同短语之间的相似程度、当短语被识别后媒体网关向用户终端返回的解释文本、在语音识别训练时某个短语出现的几率、在该短语训练完成后将该波形文件的URI反馈给MGC。然后，MG可以接收MGC发送的语音识别请求，该语音识别请求中携带的信息可以包括：是否将收集到的语音表达(utterance)增加到个人语法(Personal Grammar)中、某些命令字(command word)不允许作为被训练的短语、在识别训练完成时向MGC反馈识别训练处理结果等操作。该语音识别请求指示MG根据该语音识别请求中携带的信息开始对新的语音表达(utterance)进行训练。需要说明的是，上述语音训练开始请求也可以不携带信息，仅触发MG建立训练会话，而语音识别请求可以携带上述全部信息，并建立语音识别会话，在语音识别会话的过程中根据上述信息进行语音识别训练处理，即语音识别的过程也是训练的过程；或者语音训练开始请求携带上述全部信息，并触发MG建立训练会话，而语音识别请求中不携带信息，仅触发MG建立语音识别会话。

步骤302、接收所述媒体网关根据所述语音训练开始请求和所述语音识别请求中携带的信息进行语音识别训练处理后，反馈的识别训练处理结果。

举例来说，MG在完成对该短语进行的本次识别训练处理后，可以将识别训练结果反馈给MGC。该识别训练结果可能是训练失败结果或者训练成功结果。其中，训练成功结果有两种可能的参数定义方式来实现上报，一种是将识别训练结果作通过XML放在一个字符串中上报，例如采用MRCP中报识别训练结果的语法上报，或者通过扩展多个事件参数将识别训练结果的具体信息一一携带上报。当MGC接收到MG上报的识别训练处理结果时，即可根据该识别训练处理结果判断与当前训练的短语对应的训练过程是否已经满足要求，如果满足要求则MGC可以开始训练下一短语，否则，MGC可以对当前训练的短语继续进行多次训练，直到当前短语的识别训练处理结果满足要求为止。

本实施例中，MGC可以通过向MG发送语音训练开始请求与MG建立训练会话并对后续语音识别训练处理进行初始化，从而对语音识别训练进行控制；然后通过向MG发送语音识别请求，与MG建立语音识别会话，从而使MG根据其中携带的信息在语音识别的过程中进行语音训练操作对语音识别训练进行控制操作。语音训练开始请求和语音识别请求中携带的信息均可以携带在H.248协议的扩展字段中形成H.248信号，而且这些信息可以根据需求任意选择，从而可以根据需求对语音训练标准进行规划。MGC可以根据从MG接收的识别训练结果进行后续训练过程的控制。本实施例在MG和MGC分离架构下，使得MGC能够对MG进行控制，从而实现语音识别训练操作，填补了在MG和MGC分离架构下，进行语音识别训练的技术空白。

本发明语音识别训练控制方法提供的另一实施例中，所述向媒体网关发送语音训练开始请求和语音识别请求，包括：向所述媒体网关发送所述语音训练开始请求；在所述媒体网关根据所述语音训练开始请求建立训练会话后，向所述媒体网关发送所述语音识别请求。

本发明语音识别训练控制方法提供的再一实施例中，还包括：

向所述媒体网关发送训练回滚请求，使所述媒体网关根据所述训练回滚请求放弃记录用户终端当前发送的语音信号。例如，训练回滚请求可以采用扩展H.248信号enrrol实现，该名称是训练回滚(Enrolment Rollback)的缩写。该信号enrrol可以用于MGC指示MG放弃记录用户终端当前发送的语音信号，即忽略说话人通过用户终端发送的最新的一次语音表达(Utterance)。

向所述媒体网关发送短语训练结束请求，使所述媒体网关根据所述短语训练结束请求启动新的识别训练处理或终止当前的识别训练处理。例如，该短语训练结束请求可以通过扩展H.248信号epenr来实现，该名称是结束短语训练(End Phrase Enrolment)的缩写。该信号epenr用于MGC指示MG提交最新的短语训练或者异常终止(abort)短语训练。后一种情况下被训练的短语没有成功加入个人语法。

向所述媒体网关发送短语删除请求，向所述媒体网关根据所述短语删除请求删除与所需删除的短语对应的短语参数信息。例如，该短语删除请求可以通过扩展H.248信号modp实现，该名称是修改短语(Modifying Phrase)的缩写。该信号用于MGC指示MG修改个人语法中的参数，可能包括短语标识(phrase ID)，短语的自然语言(natural language of the phrase)以及重要性(weight)这些参数中的一个或者多个。

向所述媒体网关发送短语修改请求，使所述媒体网关根据所述短语修改请求修改与所需修改的短语对应的短语参数信息。例如，该短语修改请求可以通过扩展H.248信号delp实现，该名称是删除短语(Deleting Phrase)的缩写。该信号delp用于MGC指示MG从个人语法中删除一个或者多个短语。

本发明语音识别训练控制方法上述实施例中，可以通过H.248信号发送所述语音训练开始请求和所述语音识别请求。需要说明的是，该语音识别请求也可以对现有的语音识别信号进行复用，在现有的语音识别信号中扩展相应的参数来实现。

为了进一步说明本发明上述实施例的技术方案，下面以一个具体的实例对本发明的技术方案进行详细说明。

图4为本发明方法提供的一个实施例的信令流程图，如图4所示，本实施例的方法包括：

步骤401、MGC向MG发送语音训练开始请求。该语音训练开始请求中可以携带用于控制语音训练处理的语音训练信息。

MGC可以通过扩展的H.248信号向MG发送语音训练开始请求，通过该语音训练开始请求指示MG开始进行语音识别训练。该语音训练开始请求中携带的用于控制语音训练处理的语音训练参数信息可以存储在H.248协议的协议头扩展字段中。MG接收该语音训练请求后，可以根据其中携带的语音训练参数信息建立相应的训练会话。在具体实现过程中，本实施例可以在某个已有的基于H.248协议的数据包或者扩展数据包中扩展信号enrst。当MG接收到该信号时，即MG接收到语音训练开始请求时，即可触发建立语音训练会话。MG可以使用该语音训练请求中携带的语音训练参数信息对语音训练处理的相关操作进行初始化，从而对该语音训练的过程进行控制操作。

本实施例中，语音训练请求中携带的语音训练参数信息可以包括以下参数信息：

(1)参数pgURI

该参数的数据类型是字符串。该名称是个人语法统一资源标识(PersonalGrammar Uniform Resource Identifier，以下简称：pgURI)的缩写。语音识别训练包括对一个或者多个短语(phrase)的训练。说话人多次重复念指定的短语，媒体网关分析该特定说话人发音的声波特征，达到能够识别的水准，进而在以后的语音识别中使用。pgURI参数中存放要训练的短语的语法的URI。

(2)参数mncp

该参数的数据类型是整数。该名称是最少一致发音次数(MinimumNumber of Consistent Pronunciations，以下简称：mncp)的缩写。在训练一个新短语的时候，要求训练到说话者的发音能够被MG识别出来。mncp参数用来指示训练新短语过程中必须达到的检测到一致发音次数。

(3)参数cont

该参数的数据类型是整数。该名称是一致区间(Consistency Threshold，以下简称：cont)的缩写。范围在0到100。因为H.248协议不支持表示浮点数，所以用该方法表示百分比。例如，10表示10％。该参数用来设定达到多少相似度可以判断为一致(Consistency)。

(4)参数clat

该参数的数据类型是整数。该名称是冲突区间(Clash Threshold，以下简称clat)的缩写。范围在0到100。因为H.248协议不支持表示浮点数，所以用该方法表示百分比。例如，10表示10％。该参数用来设定两个不同短语之间相似程度的。如果两个短语过于相似，对于语音识别的准确性会造成影响。

(5)参数phaid

该参数的数据类型是字符串。该名称是短语标识(Phrase Identity，以下简称：phaid)的缩写。该参数用于标识当前正在进行训练的短语。

(6)参数phaNL

该参数的数据类型是字符串。该名称是短语自然语言(Phrase NaturalLangauge，以下简称：phaNL)的缩写。该参数用于指示当短语被识别后MG向用户终端返回的解释文本。

(7)参数wei

该参数的数据类型是整数。该名称是重要性(Weight，以下简称：wei)的缩写。该参数用于指示在语音识别训练时某个短语出现的几率。

(8)参数sbw

该参数的数据类型是布尔变量。该名称是保存最好波形(Save BestWaveform，以下简称：sbw)的缩写。该参数用于指示MG保存在训练过程中最好的音频波形。MG在该短语训练完成后将该波形文件的URI反馈给GMC。

MG根据上述语音训练参数信息即可对与当前所需识别训练的短语相关的操作信息进行初始化处理。完成初始化处理后，MG即可对该短语后续进行训练的过程进行控制。

步骤402、MG向MGC发送应答消息。

该步骤即表示MG通知MGC训练会话已经建立。

步骤403、MGC向MG发送语音识别请求。该语音识别请求中可以携带用于控制语音识别以及训练处理的语音识别参数信息。

MGC通过发送语音识别请求，指示MG进行语音识别处理。在语音训练会话中，语音识别处理的过程也是语音训练处理的过程。语音识别处理可以采用现有技术中的任意一种方式实现，不再赘述。但是，对应新增的语音训练需求来说，既可以对现有语音识别信号进行复用从而实现参数扩展，又可以生成一个新的H.248信号进行参数扩展。因此，该语音识别参数信息可以存储在H.248协议的协议头扩展字段中或语音识别信号中。本实施例以对现有的easr数据包的asrwgs信号进行参数扩展为例进行说明。

本实施例中，对asrwgs信号扩展如下新参数：

(1)参数eu

该参数的数据类型是布尔变量。该名称是训练表达(Enrol Utterance，以下简称：eu)的缩写。该参数用来指示MG是否将收集到的语音表达(utterance)增加到个人语法(Personal Grammar)中。

(2)参数conph

该参数的数据类型是字符串。该名称是易混淆短语(Confusable phrases，以下简称cpnph)的缩写。该参数指定一些无效的短语。例如，某些命令字(command word)不允许作为被训练的短语。

通过上述语音识别参数信息即可在语音识别过程中，对当前短语进行训练的过程进行控制。

步骤404、MG向MGC发送应答消息。

该步骤即表示MG通知MGC语音识别会话已经建立。

步骤405、MG与用户终端之间进行语音交互。

在步骤405中，MG可以根据步骤401和步骤403获得的关于语音训练处理和语音识别处理的参数信息通过用户终端与说话人进行语音识别训练。该过程可以为：说话人通过用户终端向MG发送语音信号，该语音信号即为参数phaid标识的短语对应的语音信号；MG通过参数pgURI获取该短语对应的语法，并应用参数cont判断该语音信号与该短语对应的语法之间的相似度，从而判断一致性。显然地，该过程根据不同的参数信息还可以包括其它情况。该交互过程可以包括说话人通过用户终端与MG进行多次交互的过程，从而可以获取该说话人关于当前识别训练的短语的多次识别训练过程。而且，MG根据参数phaNL，还可以在该短语被识别后向用户终端返回的解释文本。

步骤406、MG将识别训练处理结果反馈给MGC。

MG在完成对该短语进行的本次识别训练处理后，可以将识别训练结果反馈给MGC。该识别训练结果可能是训练失败结果或者训练成功结果。其中，训练成功结果有两种可能的参数定义方式来实现上报，一种是将识别训练结果作通过XML放在一个字符串中上报，例如采用MRCP中报识别训练结果的语法上报，或者通过扩展多个事件参数将识别训练结果的具体信息一一携带上报。

举例来说，步骤406中，用于上报训练成功结果和训练失败结果的方式既可以采用在现有的用于上报语音识别失败的事件中可以扩展一个新的错误码的方式，该错误码用于标识训练失败结果。也可以另外扩展一个新的基于H.248协议的enrres(Enrolment Results)事件，该事件用于上报训练结果。该事件的参数定义有两种可能的方案，一种方案是定义一个字符串参数用来整体上报全部训练结果信息。另外一种方案是定义多个参数分别携带训练结果中的各项参数信息。参数信息可以包括但不限于如下所述的参数：

(1)参数numcla

该参数numcla的数据类型是整数类型。该名称是冲突次数(Number ofClashes)的缩写。该参数numcla用来携带在本次训练会话中发生语音发音冲突的次数。

(2)参数numgrep

该参数numgrep的数据类型是整数类型。该名称是一致发音次数(Numberof good repetitions)的缩写。该参数numgrep用来携带在本次训练会话中一致发音出现的次数。

(3)参数numrepsn

该参数numrepsn的数据类型是整数类型。该名称是还需一致发音次数(Number of repetitions still needed)的缩写。该参数numrepsn用来携带在本次训练中，如果要将短语加入训练语法还需要的一致发音次数。

(4)参数consta

该参数consta的数据类型是枚举类型，名称是一致状态(ConsistencyStatus)的缩写。该参数consta有两种可能的状态，分别是”一致”和”不一致”。

步骤407、MGC向MG发送应答消息。

该应答消息即表示MGC收到了该识别训练处理结果。

步骤408、MGC根据所述识别训练处理结果判断是否需要重新向所述媒体网关发送语音识别请求，若是，则终止当前短语的训练，并执行步骤401，否则执行步骤403。

MGC根据接收到的识别训练处理结果中携带的参数信息，可以判断该识别训练处理结果是否满足需求，例如训练精度，训练次数等是否符合需求。若是，则MGC可以启动下一短语的训练过程，即发送语音训练开始请求，否则，MGC可以重新向MG发送语音识别请求，通过多次下发语音识别请求来指示MG对同一个短语多次进行语音识别，直到MG获取足够的数据信息保证能够对该说话人(speaker)的该短语进行语音识别。

在语音识别训练的过程中，MGC还可以通过其它一些信号对MG进行控制，例如，可以通过定义新的信号enrrol对最新训练的语音表达进行回滚，还可以定义新的信号epenr结束对某个短语的训练，定义信号对训练的短语进行修改和删除操作，这里就不再一一赘述。

本实施例中，列举了语音训练开始请求和语音识别请求中的一些参数信息，可以理解的是，这些参数信息可以根据需求任意选择，从而可以根据需求对语音训练标准进行规划。本实施例中，MGC可以通过向MG发送语音训练开始请求和语音识别请求对语音识别训练进行控制操作。MGC可以根据从MG接收的识别训练结果进行后续训练过程的控制。本实施例在MG和MGC分离架构下，使得MG能够在MGC的控制下实现语音识别训练操作，填补了在MG和MGC分离架构下，进行语音识别训练的技术空白。

图5为本发明媒体网关一个实施例的结构示意图，如图5所示，本实施例的媒体网关包括：接收模块11、语音识别训练模块12和反馈模块13，该接收模块11用于接收媒体网关控制器发送的语音训练开始请求和语音识别请求；语音识别训练模块12用于根据所述接收模块11接收的所述语音训练开始请求和所述语音识别请求中携带的信息进行语音识别训练处理，获取识别训练处理结果；反馈模块13用于将语音识别训练模块12获取的识别训练处理结果反馈给所述媒体网关控制器。

本实施例的媒体网关与图2所示的语音识别训练处理方法实施例相对应，具体实现原理不再赘述。

图6为本发明媒体网关另一个实施例的结构示意图，如图6所示，本实施例的媒体网关包括：接收模块11、语音识别训练模块12和反馈模块13，该接收模块11用于接收媒体网关控制器发送的语音训练开始请求后，接收所述媒体网关控制器发送的语音识别请求；语音识别训练模块12用于根据所述接收模块11接收的所述语音训练开始请求和所述语音识别请求中携带的信息进行语音识别训练处理，获取识别训练处理结果；反馈模块13用于将语音识别训练模块12获取的识别训练处理结果反馈给所述媒体网关控制器。

其中，所述语音识别训练模块12包括：初始化处理单元121和识别训练单元122。初始化处理单元121用于根据所述语音训练开始请求中携带的信息进行语音识别训练的初始化处理；识别训练单元122用于根据所述语音识别请求中携带的信息进行语音识别训练处理。

进一步地，本实施例的媒体网关还可以包括：训练回滚模块、短语训练结束模块、短语修改模块和/或短语删除模块。该训练回滚模块用于接收所述媒体网关控制器发送的训练回滚请求，并根据所述训练回滚请求放弃记录用户终端当前发送的语音信号；短语训练结束模块用于接收所述媒体网关控制器发送的短语训练结束请求，并根据所述短语训练结束请求启动新的识别训练处理或终止当前的识别训练处理；短语修改模块用于接收所述媒体网关控制器发送的短语修改请求，并根据所述短语修改请求修改与所需修改的短语对应的短语参数信息；短语删除模块用于接收所述媒体网关控制器发送的短语删除请求，并根据所述短语删除请求删除与所需删除的短语对应的短语参数信息。

上述媒体网关实施例中，接收模块通过接收MGC发送的语音训练开始请求，可以根据该语音训练开始请求建立训练会话，并通过语音识别训练模块对后续语音识别训练处理进行初始化，从而对语音识别训练进行控制；接收模块通过接收MGC发送的语音识别请求，可以使语音识别训练模块根据其中携带的信息在进行语音识别的过程中进行语音训练操作。语音训练开始请求和语音识别请求中携带的信息均可以携带在H.248协议的扩展字段中形成H.248信号，而且这些信息可以根据需求任意选择，从而可以根据需求对语音训练标准进行规划。MG根据获取的信息即可进行语音识别训练处理，在该语音识别训练处理的过程中，可以根据MGC发送而来的语音训练开始请求和语音识别请求中携带的信息，进行相应的语音识别训练处理，获取或者记录相关的识别训练结果，并通过反馈模块将该识别训练结果反馈给MGC，以方便MGC根据该识别训练结果进行后续训练过程的控制。本实施例在MG和MGC分离架构下，使得MG能够在MGC的控制下实现语音识别训练操作，从而填补了在MG和MGC分离架构下，进行语音识别训练的技术空白。

图7为本发明媒体网关控制器一个实施例的结构示意图，如图7所示，本实施例的媒体网关控制器包括：发送模块21和结果接收模块22，发送模块21用于向媒体网关发送语音训练开始请求和语音识别请求；结果接收模块22用于接收所述媒体网关根据所述语音训练开始请求和所述语音识别请求中携带的信息进行语音识别训练处理后，反馈的识别训练处理结果。

本实施例的媒体网关控制器与图3所示的语音识别训练控制方法实施例相对应，具体实现原理不再赘述。

本发明媒体网关控制器另一个实施例中，发送模块21还用于向所述媒体网关发送训练回滚请求，使所述媒体网关根据所述训练回滚请求放弃记录用户终端当前发送的语音信号；向所述媒体网关发送短语训练结束请求，使所述媒体网关根据所述短语训练结束请求启动新的识别训练处理或终止当前的识别训练处理；向所述媒体网关发送短语修改请求，使所述媒体网关根据所述短语修改请求修改与所需修改的短语对应的短语参数信息，和/或，向所述媒体网关发送短语删除请求，使所述媒体网关根据所述短语删除请求删除与所需删除的短语对应的短语参数信息。

本发明媒体网关控制器上述实施例中，MGC可以通过发送模块向MG发送语音训练开始请求与MG建立训练会话并对后续语音识别训练处理进行初始化，从而对语音识别训练进行控制；然后通过发送模块向MG发送语音识别请求，与MG建立语音识别会话，从而使MG根据其中携带的信息在语音识别的过程中进行语音训练操作对语音识别训练进行控制操作。语音训练开始请求和语音识别请求中携带的信息均可以携带在H.248协议的扩展字段中形成H.248信号，而且这些信息可以根据需求任意选择，从而可以根据需求对语音训练标准进行规划。MGC可以根据结果接收模块从MG接收的识别训练结果进行后续训练过程的控制。本实施例在MG和MGC分离架构下，使得MGC能够对MG进行控制，从而实现语音识别训练操作，填补了在MG和MGC分离架构下，进行语音识别训练的技术空白。

图8为本发明语音识别训练系统一个实施例的结构示意图，如图8所示，本实施例的语音识别训练系统包括：媒体网关控制器2和媒体网关1，媒体网关控制器2用于向媒体网关1发送语音训练开始请求和语音识别请求；并接收媒体网关1根据所述语音训练开始请求和所述语音识别请求中携带的信息进行语音识别训练处理后，反馈的识别训练处理结果；媒体网关1用于接收媒体网关控制器2发送的语音训练开始请求和语音识别请求；根据所述语音训练开始请求和所述语音识别请求中携带的信息进行语音识别训练处理，获取识别训练处理结果；并将识别训练处理结果反馈给媒体网关控制器2。

上述语音识别训练系统实施例与图4所示的方法实施例相对应，具体实现原理不再赘述。

上述语音识别训练系统实施例中，MGC可以通过向MG发送语音训练开始请求和语音识别请求对语音识别训练进行控制操作。MGC可以根据从MG接收的识别训练结果进行后续训练过程的控制。本实施例在MG和MGC分离架构下，使得MG能够在MGC的控制下实现语音识别训练操作，填补了在MG和MGC分离架构下，进行语音识别训练的技术空白。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种语音识别训练处理方法，其特征在于，包括：

接收媒体网关控制器发送的语音训练开始请求，根据所述语音训练开始请求建立训练会话后，接收所述媒体网关控制器发送的语音识别请求；

将所述识别训练处理结果反馈给所述媒体网关控制器。

2.根据权利要求1所述的语音识别训练处理方法，其特征在于，所述根据所述语音训练开始请求和所述语音识别请求中携带的信息进行语音识别训练处理，包括：

根据所述语音训练开始请求中携带的信息进行语音识别训练的初始化处理；

根据所述语音识别请求中携带的信息进行语音识别训练处理。

3.根据权利要求1所述的语音识别训练处理方法，其特征在于，还包括：

接收所述媒体网关控制器发送的训练回滚请求，并根据所述训练回滚请求放弃记录用户终端当前发送的语音信号；

接收所述媒体网关控制器发送的短语训练结束请求，并根据所述短语训练结束请求启动新的语音识别训练处理或终止当前的语音识别训练处理；

接收所述媒体网关控制器发送的短语修改请求，并根据所述短语修改请求修改与所需修改的短语对应的短语参数信息，和/或，

接收所述媒体网关控制器发送的短语删除请求，并根据所述短语删除请求删除与所需删除的短语对应的短语参数信息。

4.根据权利要求1～3中任一权利要求所述的语音识别训练处理方法，其特征在于，通过H.248信号接收所述语音训练开始请求和所述语音识别请求。

5.一种语音识别训练控制方法，其特征在于，包括：

向媒体网关发送语音训练开始请求；

在所述媒体网关根据所述语音训练开始请求建立训练会话后，向所述媒体网关发送语音识别请求；

6.根据权利要求5所述的语音识别训练控制方法，其特征在于，还包括：

向所述媒体网关发送训练回滚请求，使所述媒体网关根据所述训练回滚请求放弃记录用户终端当前发送的语音信号；

向所述媒体网关发送短语训练结束请求，使所述媒体网关根据所述短语训练结束请求启动新的识别训练处理或终止当前的识别训练处理；

向所述媒体网关发送短语修改请求，使所述媒体网关根据所述短语修改请求修改与所需修改的短语对应的短语参数信息，和/或，

向所述媒体网关发送短语删除请求，使所述媒体网关根据所述短语删除请求删除与所需删除的短语对应的短语参数信息。

7.根据权利要求5或6所述的语音识别训练控制方法，其特征在于，通过H.248信号发送所述语音训练开始请求和所述语音识别请求。

8.一种媒体网关，其特征在于，包括：

接收模块，用于接收媒体网关控制器发送的语音训练开始请求，根据所述语音训练开始请求建立训练会话后，接收所述媒体网关控制器发送的语音识别请求；

语音识别训练模块，用于根据所述接收模块接收的所述语音训练开始请求和所述语音识别请求中携带的信息进行语音识别训练处理，获取识别训练处理结果；

9.根据权利要求8所述的媒体网关，其特征在于，所述语音识别训练模块包括：

初始化处理单元，用于根据所述语音训练开始请求中携带的信息进行语音识别训练的初始化处理；

识别训练单元，用于根据所述语音识别请求中携带的信息进行语音识别训练处理。

10.根据权利要求8所述的媒体网关，其特征在于，还包括：

训练回滚模块，用于接收所述媒体网关控制器发送的训练回滚请求，并根据所述训练回滚请求放弃记录用户终端当前发送的语音信号；

短语训练结束模块，用于接收所述媒体网关控制器发送的短语训练结束请求，并根据所述短语训练结束请求启动新的识别训练处理或终止当前的识别训练处理；

短语修改模块，用于接收所述媒体网关控制器发送的短语修改请求，并根据所述短语修改请求修改与所需修改的短语对应的短语参数信息，和/或，

短语删除模块，用于接收所述媒体网关控制器发送的短语删除请求，并根据所述短语删除请求删除与所需删除的短语对应的短语参数信息。

11.一种媒体网关控制器，其特征在于，包括：

发送模块，用于向媒体网关发送语音训练开始请求，在所述媒体网关根据所述语音训练开始请求建立训练会话后，向所述媒体网关发送语音识别请求；

12.根据权利要求11所述的媒体网关控制器，其特征在于，所述发送模块还用于向所述媒体网关发送训练回滚请求，使所述媒体网关根据所述训练回滚请求放弃记录用户终端当前发送的语音信号；向所述媒体网关发送短语训练结束请求，使所述媒体网关根据所述短语训练结束请求启动新的识别训练处理或终止当前的识别训练处理；向所述媒体网关发送短语修改请求，使所述媒体网关根据所述短语修改请求修改与所需修改的短语对应的短语参数信息，和/或，向所述媒体网关发送短语删除请求，向所述媒体网关根据所述短语删除请求删除与所需删除的短语对应的短语参数信息。

13.一种语音识别训练系统，其特征在于，包括：媒体网关控制器和媒体网关，

所述媒体网关控制器用于向所述媒体网关发送语音训练开始请求，在所述媒体网关根据所述语音训练开始请求建立训练会话后，向所述媒体网关发送语音识别请求；并接收所述媒体网关根据所述语音训练开始请求和所述语音识别请求中携带的信息进行语音识别训练处理后，反馈的识别训练处理结果；

所述媒体网关用于接收所述媒体网关控制器发送的语音训练开始请求，根据所述语音训练开始请求建立训练会话后，接收所述媒体网关控制器发送的语音识别请求；根据所述语音训练开始请求和所述语音识别请求中携带的信息进行语音识别训练处理，获取识别训练处理结果；并将所述识别训练处理结果反馈给所述媒体网关控制器。