CN103117058B

CN103117058B - 基于智能电视平台的多语音引擎切换系统及方法

Info

Publication number: CN103117058B
Application number: CN201210558320.XA
Authority: CN
Inventors: 陈冠霖; 赵波; 刘贤洪; 杨金峰; 毕端
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2012-12-20
Filing date: 2012-12-20
Publication date: 2015-12-09
Anticipated expiration: 2032-12-20
Also published as: CN103117058A

Abstract

本发明涉及智能电视软件平台，其公开了一种基于智能电视平台的多语音引擎切换方法，实现自动查找当前识别效率最高的语音引擎并进行切换，提升用户的语音交互体验。该方法可以概括为：当用户运行语音应用程序使用语音识别功能时，语音引擎选择模块通过语音应用接口获取采集到的语音数据，然后将语音数据发送给每一个语音引擎模块，记录并比较各个语音引擎模块返回识别结果的响应时间，选择响应时间最短的语音引擎模块进行切换。此外，本发明还公开了相应的切换系统，适用于在智能电视中实现快速语音识别功能。

Description

基于智能电视平台的多语音引擎切换系统及方法

技术领域

本发明涉及智能电视软件平台，具体的说，是涉及一种基于智能电视平台的多语音引擎切换系统及方法。

背景技术

随着电视终端智能化、网络化的发展，智能电视可获取的内容得到了极大的丰富，功能也更加的多元化，电视的操控随之变得更加频繁和复杂。语音识别技术在智能电视上的应用大大简化了用户的操作过程，用户体验得到极大提高。由于语音识别需要占用巨大的系统资源，智能电视目前一般都通过网络连接云端服务器来实现语音识别功能；

在服务器中用于实现语音识别功能的语音识别引擎由语音检测模块、特征提取模块和识别搜索模块组成；其中，语音检测模块的功能是进行语音信号的检测和与处理，电视将采集到的原始语音数据送入到该模块，语音信号数据需要在语音检测模块里转换成标准的数据格式（比如：8K，16bit）；同时，利用高效的信号检测算法，判断出语音的起始点和终止点；特征提取模块收到检测后的语音数据流，从中提取得到语音信号的特征矢量流。语音特征是利用数字信号处理技术，从语音信号中提取最反应其本质属性的信息。在这个模块中，需要对语音信号进行预加重、分帧、加窗、品与变换、倒谱变换、差分等处理，最终得到数十维左右的特征矢量；识别搜索模块将收到的未知语音信号特征与引擎内的声学模型库、词典/字典和识别语法信息进行匹配，得到最适合未知语音特征的词序列。这个过程可以简单描述如下：通过检索词典/字典，可以将句子由词序列分解成音素的序列。这种音素的序列与声学模型相结合，就得到更反映其本质属性的声学模型单元序列信息。然后，将原始语音的特征矢量与所有可能的句子候选的声学模型单元序列的信息相互匹配，计算得到其匹配概率，从中挑选出具有最大后验概率的声学模型单元序列。通过该单元序列，可以得到与之对应的词序列，这就是引擎输出给电视的文字序列。

而由于服务器中存在多个语音识别引擎，如果单一的使用某一个固定引擎进行语音识别，不利于智能电视语音识别效率的提升，造成用户语音交互体验不好；因此，如何在多个语音识别引擎之间查找当前最有效率的语音识别引擎并进行切换是语音交互应用中一个亟待解决的问题。

发明内容

本发明所要解决的技术问题是：提出一种基于智能电视平台的多语音引擎切换系统及方法，实现自动查找当前识别效率最高的语音引擎并进行切换，提升用户的语音交互体验。

本发明解决上述技术问题采用的方案是：基于智能电视平台的多语音引擎切换系统，包括：语音引擎选择模块及至少两个语音引擎模块；所有的语音引擎模块由统一的语音引擎接口进行封装，并通过语音引擎接口连接语音引擎选择模块；所述语音引擎选择模块通过语音应用接口与语音应用程序相连。

进一步，所述语音引擎模块用于从语音引擎接口获取语音引擎选择模块传送的语音数据，并对语音数据进行识别，然后向语音引擎选择模块返回识别结果；所述语音引擎选择模块用于在语音应用程序使用语音识别功能时，通过语音应用接口获取采集到的语音数据，将语音数据通过语音引擎接口发送给每一个语音引擎模块，并接收所有语音引擎模块返回的识别结果，记录各个语音引擎模块返回识别结果的响应时间并进行对比，选择响应时间最短的语音引擎模块进行切换，使得语音应用程序可以调用到识别效率最高的语音引擎模块。

进一步，所述选择响应时间最短的语音引擎模块进行切换是指：语音引擎选择模块通过语音引擎接口连接到响应时间最短的语音引擎模块，同时断开与其它语音引擎模块的连接。

此外，本发明还提出了一种相应的基于智能电视平台的多语音引擎切换方法，包括：

a.当用户运行语音应用程序使用语音识别功能时，语音引擎选择模块通过语音应用接口获取采集到的语音数据；

b.语音引擎选择模块将语音数据通过语音引擎接口发送给每一个语音引擎模块；

c.各个语音引擎模块对语音数据进行识别，然后向语音引擎选择模块返回识别结果；

d.语音引擎选择模块记录各个语音引擎模块返回识别结果的响应时间并进行对比，选择响应时间最短的语音引擎模块进行切换。

进一步，步骤d中，所述选择响应时间最短的语音引擎模块进行切换是指：语音引擎选择模块通过语音引擎接口连接到响应时间最短的语音引擎模块，同时断开与其它语音引擎模块的连接。

本发明的有益效果是：通过对各个语音引擎模块返回识别结果的响应时间（即识别速度）进行对比，选择响应时间最短的语音引擎模块进行切换，使得语音应用程序可以调用到识别效率最高的语音引擎模块进行语音识别，从而提升了语音识别的整体识别效率；并且，由于语音应用程序与语音引擎选择模块之间的连接载体（语音应用接口）保持不变，当语音引擎模块发生切换时，语音应用程序无需关注具体是哪一个语音引擎模块发生切换，从而保证了语音识别的稳定性和延续性。

附图说明

图1为本发明中基于智能电视平台的多语音引擎切换系统实现构架图；

图2为本发明中的基于智能电视平台的多语音引擎切换方法的流程图。

具体实施方式

本发明的实现原理是：由于系统中各个语音引擎模块的性能差异，这些模块对语音数据的处理就有快有慢，因此，我们可以通过设置一个语音引擎选择模块来对各个语音引擎模块处理语音数据的响应时间进行记录和比较，从而找出处理时间最短、响应最快的语音引擎模块，然后切换至该语音引擎模块的连接即可，而语音引擎选择模块的引入由于其与语音应用程序之间的应用接口始终未发生改变，因此，同时还能解决系统的稳定性问题。

参见图1，本发明中基于智能电视平台的多语音引擎切换系统包括语音引擎选择模块及多个语音引擎模块；所有的语音引擎模块由统一的语音引擎接口进行封装，并通过语音引擎接口连接语音引擎选择模块；所述语音引擎选择模块通过语音应用接口与语音应用程序相连。

其中，所述语音引擎模块用于从语音引擎接口获取语音引擎选择模块传送的语音数据，并对语音数据进行识别，然后向语音引擎选择模块返回识别结果；所述语音引擎选择模块用于在语音应用程序使用语音识别功能时，通过语音应用接口获取采集到的语音数据，将语音数据通过语音引擎接口发送给每一个语音引擎模块，并接收所有语音引擎模块返回的识别结果，记录各个语音引擎模块返回识别结果的响应时间并进行对比，选择响应时间最短的语音引擎模块进行切换，使得语音应用程序可以调用到识别效率最高的语音引擎模块。

图2给出了切换方法的相应流程，其包括以下实现步骤：

a.当用户运行语音应用程序使用语音识别功能时，语音引擎选择模块通过语音应用接口获取采集到的语音数据；该语音数据来源于智能电视的语音采集设备采集到得音源信号；

b.语音引擎选择模块将语音数据通过语音引擎接口发送给每一个语音引擎模块；由于采用了统一的语音引擎接口进行封装，每一个语音引擎模块都能同时收到同样的语音数据；

d.语音引擎选择模块记录各个语音引擎模块返回识别结果的响应时间并进行对比，选择响应时间最短的语音引擎模块进行切换：语音引擎选择模块通过语音引擎接口连接到响应时间最短的语音引擎模块，同时断开与其它语音引擎模块的连接。此后，语音应用程序都可以通过调用该响应时间最短的语音引擎模块实现快速的语音识别，提升用户的语音交互体验。

Claims

1.基于智能电视平台的多语音引擎切换系统，其特征在于，包括：语音引擎选择模块及至少两个语音引擎模块；所有的语音引擎模块由统一的语音引擎接口进行封装，并通过语音引擎接口连接语音引擎选择模块；所述语音引擎选择模块通过语音应用接口与语音应用程序相连；

所述语音引擎模块用于从语音引擎接口获取语音引擎选择模块传送的语音数据，并对语音数据进行识别，然后向语音引擎选择模块返回识别结果；所述语音引擎选择模块用于在语音应用程序使用语音识别功能时，通过语音应用接口获取采集到的语音数据，将语音数据通过语音引擎接口发送给每一个语音引擎模块，并接收所有语音引擎模块返回的识别结果，记录各个语音引擎模块返回识别结果的响应时间并进行对比，选择响应时间最短的语音引擎模块进行切换，使得语音应用程序可以调用到识别效率最高的语音引擎模块；

所述选择响应时间最短的语音引擎模块进行切换是指：语音引擎选择模块通过语音引擎接口连接到响应时间最短的语音引擎模块，同时断开与其它语音引擎模块的连接。

2.基于智能电视平台的多语音引擎切换方法，应用在如权利要求1所述的系统中，其特征在于，包括：

d.语音引擎选择模块记录各个语音引擎模块返回识别结果的响应时间并进行对比，选择响应时间最短的语音引擎模块进行切换；

步骤d中，所述选择响应时间最短的语音引擎模块进行切换是指：语音引擎选择模块通过语音引擎接口连接到响应时间最短的语音引擎模块，同时断开与其它语音引擎模块的连接。