CN112331204B

CN112331204B - 智能语音识别方法及设备、装置和存储介质

Info

Publication number: CN112331204B
Application number: CN202011327097.9A
Authority: CN
Inventors: 彭泽令; 梁志强; 匡勇建
Original assignee: Zhuhai Jieli Technology Co Ltd
Current assignee: Zhuhai Jieli Technology Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2024-02-20
Anticipated expiration: 2040-11-24
Also published as: CN112331204A

Abstract

本申请涉及一种智能语音识别方法及设备、装置和存储介质。所述智能语音识别方法，包括：控制数据传输单元传输待播放音频信号至外部音响设备进行播放；外部音响设备用于根据待播放音频信号播放产生音响音频信号；获取外部音频信号；外部音频信号包括音频采集单元采集的音响音频信号和语音指令信号；定位外部音频信号中的音响音频信号后分离得到语音指令信号；对语音指令信号进行语音识别。该智能语音识别装置能够消除延时对回声消除准确性的影响，提高语音识别的准确性，同时还能提高与外部音响的适配性。

Description

智能语音识别方法及设备、装置和存储介质

技术领域

本申请涉及智能设备技术领域，特别是涉及一种智能语音识别方法及设备、装置和存储介质。

背景技术

随着智能设备技术的发展，出现了智能语音识别技术，智能语音识别产品如智能音箱的语音识别算法，需要进行回声消除处理。在此过程中，需要对音箱播放的音频数据进行数据回采，该回采数据作为参考信号再进行回声消除处理。

现有技术中，智能音箱的音频回采方法多为通过采样电路及ADC转换为数字信号再通过I2S输入给主芯片，因此，在现有技术中需要一路采样电路和ADC转换模块。然而，在现在非智能语音识别产品中，需要加入智能语音识别功能时，由于该非智能语音识别产品其自身没有采样电路和ADC转换模块，导致无法在一些非智能语音产品上实现智能语音的功能。

对于非智能语音识别音响如果需要增加智能语音识别功能，则需要外设智能语音识别装置，然而智能语音识别装置与音响是相互分离的，两者间的相对位置不固定，使得在实际使用过程中，由于受到距离远近、环境干扰或无线干扰等因素的影响，音频信号在传输中会产生随机延时。而回声消除处理采用的自适应算法对延时的稳定性要求较高，一旦延时过大或随机性过高，会造成自适应算法的运算量巨大且收敛困难，影响最终的语音识别准确率。

发明内容

基于此，有必要针对上述技术问题，提供一种能够降低延时及延时随机性的智能语音识别方法及设备、装置和存储介质。

一种智能语音识别方法，所述方法包括：

控制数据传输单元传输待播放音频信号至外部音响设备进行播放；所述外部音响设备用于根据所述待播放音频信号播放产生音响音频信号；

获取外部音频信号；所述外部音频信号包括音频采集单元采集的音响音频信号和语音指令信号；

定位所述外部音频信号中的音响音频信号后分离得到语音指令信号；

对所述语音指令信号进行语音识别。

在其中一个实施例中，所述定位所述外部音频信号中的音响音频信号后分离得到语音指令信号的步骤包括：

将所述外部音频信号提取最大延时区间的若干个延时段；

分别对每个延时段按照预设的第一固定帧长度分段，并计算每个延时段的二进制位置信息；

根据所述每个延时段的二进制位置信息与预设的所述待播放音频信号的二进制位置信息的误码率定位所述外部音频信号中的音响音频信号的起始位置并提取所述音响音频信号。

在其中一个实施例中，所述方法还包括：

将原始音频数据按预设的第二固定帧长度分为若干个音频段；

采用离散小波变换算法将与若干个校验信息按顺序分别一一嵌入所述音频段的高频分量系数中，获得待播放音频信号；其中，所述校验信息的个数与所述音频段的段数相同。

采用离散小波逆变换算法提取所述外部音频信号中的校验信息；

根据所述校验信息定位所述外部音频信号中所述音响音频信号的位置；

提取所述外部音频信号中的目标信号；所述目标信号为所述音响音频信号对应的信号段；

根据预设的音频幅度补偿值对所述目标信号进行音频补偿，得到所述音响音频信号。

在其中一个实施例中，获得所述音频幅度补偿值的步骤包括：

获取回采信号；所述回采信号为对数据传输单元传输的所述待播放音频信号进行回采得到；

提取所述外部音频信号中的音响音频信号；

根据所述回采信号及所述音响音频信号计算出当前音量下的音频幅度补偿值；

更新存储当前音量的音频幅度补偿值。

在其中一个实施例中，获得所述音频幅度补偿值的步骤还包括：

发送音量等级调节指令至外部音响设备；所述音量等级调节指令用于指示所述外部音响设备调节音量等级；

计算并更新存储不同音量等级对应的音频幅度补偿值，直至遍历全部音量等级。

一种智能语音识别设备，应用如上述的智能语音识别方法，所述装置包括：

数据传输单元，用于传输待播放音频信号至外部音响设备；所述外部音响设备用于根据所述待播放音频信号产生音响音频信号；

音频采集单元，用于采集外部音频信号；所述外部音频信号包括所述音响音频信号及语音指令信号；

主控单元，用于控制所述数据传输单元传输待播放音频信号至所述外部音响设备播放，还用于获取所述音频采集单元反馈的所述外部音频信号，并在定位所述外部音频信号中的音响音频信号后分离得到语音指令信号，对所述语音指令信号进行语音识别。

一种智能语音识别装置，包括：

数据传输控制模块，用于控制数据传输单元传输待播放音频信号至外部音响设备进行播放；所述外部音响设备用于根据所述待播放音频信号播放产生音响音频信号；

外部音频信号获取模块，用于获取外部音频信号；所述外部音频信号包括音频采集单元采集的音响音频信号和语音指令信号；

信号分离模块，用于在定位所述外部音频信号中的音响音频信号后分离得到语音指令信号；

语音识别模块，用于对所述语音指令信号进行语音识别。

一种智能语音识别设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

上述智能语音识别方法及设备、装置和存储介质，控制数据传输单元传输待播放音频信号至外部音响设备播放，利用音频采集单元采集外部音频信号，在外部音频信号中定位到音响音频信号后分离音响音频信号和语音指令信号，对以消除延时对回声消除准确性的影响，提高语音识别的准确性，同时还能提高与外部音响的适配性。

附图说明

为了更清楚地说明本申请实施例或传统技术中的技术方案，下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中，智能语音识别设备的结构示意图；

图2为一个实施例中，智能语音识别设备与外部音响设备的结构示意图；

图3为另一个实施例中，智能语音识别装置与外部音响设备的结构示意图；

图4为一个实施例中，智能语音识别方法的流程示意图；

图5为一个实施例中，定位所述外部音频信号中的音响音频信号后分离得到语音指令信号步骤的流程示意图；

图6为另一个实施例中，智能语音识别方法的流程示意图；

图7为另一个实施例中，定位所述外部音频信号中的音响音频信号后分离得到语音指令信号步骤的流程示意图；

图8为一个实施例中，获得音频幅度补偿值步骤的流程示意图；

图9为一个实施例中，智能语音识别装置控制装置的结构框图。

具体实施方式

为了便于理解本申请，下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的实施例。但是，本申请可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使本申请的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种信号，但这些信号不受这些术语限制。这些术语仅用于区分不同信号。

需要说明的是，当一个元件被认为是“连接”另一个元件时，它可以是直接连接到另一个元件，或者通过居中元件连接另一个元件。此外，以下实施例中的“连接”，如果被连接的对象之间具有电信号或数据的传递，则应理解为“电连接”、“通信连接”等。

在此使用时，单数形式的“一”、“一个”和“所述/该”也可以包括复数形式，除非上下文清楚指出另外的方式。还应当理解的是，术语“包括/包含”或“具有”等指定所陈述的特征、整体、步骤、操作、组件、部分或它们的组合的存在，但是不排除存在或添加一个或更多个其他特征、整体、步骤、操作、组件、部分或它们的组合的可能性。

在其中一个实施例中，如图1所示，提供了一种智能语音识别设备100，包括：

数据传输单元101，用于传输待播放音频信号至外部音响设备200；外部音响设备200用于根据待播放音频信号播放产生音响音频信号；

音频采集单元102，用于采集外部音频信号；外部音频信号包括音响音频信号及语音指令信号；

主控单元103，用于控制数据传输单元101传输待播放音频信号至外部音响设备200播放，还用于获取音频采集单元102反馈的所述外部音频信号，并在定位外部音频信号中的音响音频信号后分离得到语音指令信号，对语音指令信号进行语音识别。

在其中一个实施例中，如图2所示，数据传输单元101包括：

DAC模块1011，用于将原始音频信号或调制信号传输至外部音响设备200的功放单元201。

数字模拟转换器(Digital to analog converter，DAC)是一种将数字信号转换为模拟信号(以电流、电压或电荷的形式)的设备。在很多数字系统中(例如计算机)，信号以数字方式存储和传输，而数字模拟转换器可以将这样的信号转换为模拟信号，从而使得它们能够被外界(人或其他非数字系统)识别。对于不具有无线通信功能的外部音响设备200，可以通过DAC模块1011将信号转换为模拟信号后传输至外部音响设备200的功放单元201进行放大后，通过音频输出单元202播放音频。

在其中一个实施例中，如图3所示，数据传输单元101包括：

通信单元1012，用于将原始音频信号或调制信号传输至外部音响设备200的通信模块203。

对于具有无线通信功能的外部音响设备200，即蓝牙音响，由于其CPU单元204即具有数模转换能力，因此可以直接通过通信单元1012将数字信号传输至外部音响设备200的通信模块203，外部音响设备200接收到数字信号形式的原始音频信号或调制信号后，CPU单元204将其自行转换为模拟信号，并发送至音频输出单元202播放音频。

在其中一个实施例中，如图4所示，提供了一种智能语音识别方法，能够应用于上述智能语音识别设备，以应用于主控单元为例进行说明，所述方法包括：

步骤S100，控制数据传输单元传输待播放音频信号至外部音响设备进行播放；外部音响设备用于根据待播放音频信号播放产生音响音频信号；

步骤S200，获取外部音频信号；外部音频信号包括音频采集单元采集的音响音频信号和语音指令信号；

步骤S300，定位外部音频信号中的音响音频信号后分离得到语音指令信号；

步骤S400，对语音指令信号进行语音识别。

待播放音频信号即需要发送至外部音响设备200进行播放的音频信号，外部音响设备200根据接收到的待播放音频信号进行播放，则会产生音响音频信号。在其中一个实施例中外部音频信号包括外部音响设备200播放的音响音频信号；在其中一个实施例中，外部音频信号还包括当前采集范围内的其他声音信号，例如语音指令信号等。由于受到距离远近、环境干扰或无线干扰等因素的影响，音频信号在传输中会产生随机延时，因此在进行语音识别之前，先对外部音频信号中的音响音频信号进行定位，确定音响音频信号的起始位置，进而在进行抵消训练时能够更加准确，进行抵消训练后能够分离出语音指令信号并对其进行语音识别。

上述智能语音识别方法，控制数据传输单元传输待播放音频信号至外部音响设备播放，利用音频采集单元采集外部音频信号，在外部音频信号中定位到音响音频信号后分离音响音频信号和语音指令信号，对以消除延时对回声消除准确性的影响，提高与音响的适配性。

在其中一个实施例中，如图5所示，所述定位所述外部音频信号中的音响音频信号后分离得到语音指令信号的步骤包括：

步骤S310，将外部音频信号提取最大延时区间的若干个延时段；

步骤S320，分别对每个延时段按照预设的第一固定帧长度分段，并计算每个延时段的二进制位置信息；

步骤S330，根据每个延时段的二进制位置信息与预设的待播放音频信号的二进制位置信息的误码率定位外部音频信号中的音响音频信号的起始位置并提取音响音频信号。

音频信号一般可分为浊音段、清音段和静音段。浊音段为声带振动发出声音所对应的音频段，具有短时能量大、短时平均幅度大、短时过零率低等特点。静音段主要是背景噪声段，平均能量最低、过零率也低。清音段是空气在口腔中的摩擦、冲击或爆破而发出摩擦声音的音频段,平均能量居于前两者之间、过零率高。音频信号能量主要集中在浊音段，通过播放重新采样的音频信号，对浊音段的相对改变是有限的，否则将会失去音频信号的可用价值。基于上述的原理，可将根据音频信号的短时能量定位目标音频：

首先，将待播放音频信号S按固定帧长(3帧、5帧为固定帧长，固定帧长越小，段数越多，延时处理误差越小)M均匀分成L段，并按如下音频信号的短时能量计算公式计算各段浊音幅值的短时能量：

其中，X_L表示第L段音频信号的各采样点幅值；M为当前音频信号的采样点总个数；E_L表示第L段音频信号的短时能量；m为自变量，取值为1～M。

计算，比较E_L和E_L-1两个相邻音频信号的短时能量，如果E_L>E_L-1，则当前音频信号用二进制1表示，反之则用0表示，连续运算，遍历所有音频信号的短时能量(初始音频信号的二进制信息默认取0，从第二段音频信号开始计算对上一音频信号短时能量之比，遍历所有音频信号，得到L位的二进制位置信息，如0XXX)，则可以获得待播放音频数据S的二进制位置信息。

音频采集单元采集的外部音频信号由于延时的存在，外部音频信号中的音响音频信号起始位置未知，不同的起始位置进行第一固定帧长度分段，所得的每段延时段幅值能量可能不同。为找到音响音频信号对应的位置信息，将外部音频信号提取最大延时区间的若干个延时段，分别对每个延时段按照预设的第一固定帧长度分段，即延时nt(n＝0,1,2…)对外部音频信号进行分段，参照上述二进制位置信息获取的方式，分别计算每个延时段的二进制位置信息，比较每一个延时段的二进制位置信息与待播放音频信号的二进制位置信息。二进制位置信息的比较可以通过多种逻辑关系来计算音频位置信息，比如逻辑与、异或、同或等等逻辑关系。示例性地，采用逻辑同或来进行二进制位置信息比较，若某一延时段的二进制位置信息为：1001011010，待播放音频信号二进制位置信息为：1001001010，那么同或的结果为：1111101111，同或结果中0的数目即为错误的码元，1为正确的码元；根据所述的同或结果计算误码率，所述的误码率＝错误码元数/传输总码元数，根据误码率(误码率小于预设的阈值时确定该延时段起始位置与待播放音频信号的起始位置一致)定位外部音频信号中的音响音频信号的起始位置并提取音响音频信号，以分离出语音指令信号。在其中一个实施例中，误码率的预设阈值为10％。

通过上述位置二进制信息获取方法对音响音频信号进行定位，每次只与该上一段浊音能量相比较，不受播放设备、播放设备的音量大小的影响，不存在累计误差，只与播放音源本身和外界声音有关。同时由于待播放音频信号和外部音频信号自身的时长是基本稳定的。故采用上述方法进行音频信号位置定位，能够解决随机延时造成音频文件错位问题。当对齐待播放音频信号和音响音频信号时，如果两者二进制位置信息W与Wi误码率超过设定的某个阀值，则可判断除音响音频信号外，外界还有较大其它声音，从而启动人声识别算法识别人声。

在其中一个实施例中，如图6所示，智能语音识别方法还包括：

步骤S500，将原始音频数据按预设的第二固定帧长度分为若干个音频段；

步骤S600，采用离散小波变换算法将与若干个校验信息按顺序分别一一嵌入音频段的高频分量系数中，获得待播放音频信号；其中，校验信息的个数与音频段的段数相同。

由于人声处于比较低频端，播放的音频文件夹杂着低中高频，人声对播放音频信号干扰主要在低频阶段。此外，人耳听觉系统对音频信号的部分频率成分发生微小变化不敏感的特性，可以通过调节音频片段经小波变换后所得的多级中高频小波系数，进而改变其前后两部分的能量状态来隐藏校验信息。

根据音频离散小波变换的分解公式为：

低频段：

高频段：

其对应的重构公式为：

其中，j和k分别为伸缩因子和平移因子，且只取整数，m是自变量，和/>分别是x(n)投影到V_j和W_j中所得的小波系数，W_j是V_j的正交分量，/>是反映平滑结构的低频系数，成为近似分量，/>是反映精细结构的高频系数，成为细节分量，重构信号的过程为离散小波变换。

示例性的，若最大延时为2s，20ms为一小段，则需要分解得到L＝100段，根据二进制表达关系，至少有7位二进制数；

对原始音频数据按预设的第二固定帧长进行分段，并对每段音频段按顺序进行编号获得位置校验信息W(例如第100段音频段对应的校验信息W为1100100)。采用离散小波变换(Discrete Wavelet Transformation，DWT)算法将校验信息W嵌入原始音频数据的高频分量系数中，从而获得包含位置校验信息的待播放音频信号。

在其中一个实施例中，如图7所示，所述定位外部音频信号中的音响音频信号后分离得到语音指令信号的步骤包括：

步骤S340，采用离散小波逆变换算法提取外部音频信号中的校验信息；

步骤S350，根据校验信息定位外部音频信号中音响音频信号的位置；

步骤S360，提取外部音频信号中的目标信号；目标信号为音响音频信号对应的信号段；

步骤S370，根据预设的音频幅度补偿值对目标信号进行音频补偿，得到音响音频信号。

播放待播放音频信号，通过音频采集单元采集获得包含校验信息的外部音频信号。外部音频信号通过离散小波逆变换(Inverse Discrete Wavelet Transform，IDWT)，提取校验信息W1和回采音频文件S’。通过对比位置校验信息W和W1，可定位音响音频信号对应信号段(即目标信号)的位置，解决随机延时造成的原始音频和播放音频错位的问题。为了消除由于采集距离的远近对外部音频信号中音响音频信号的影响，根据预设的音频幅度补偿值对目标信号进行音频补偿，得到音响音频信号，从而对应的与原始音频数据进行比较，进而实现抵消训练运算，实现准确的人声提取识别。

在其中一个实施例中，如图8所示，获得所述音频幅度补偿值的步骤包括：

步骤S371，获取回采信号；回采信号为回采单元对数据传输单元传输的待播放音频信号进行回采得到；

步骤S372，提取外部音频信号中的音响音频信号；

步骤S373，根据第一回采信号及音响音频信号计算出当前音量下的音频幅度补偿值；

步骤S374，更新存储当前音量的音频幅度补偿值。

从外部音频信号中提取出音响音频信号，结合第一回采信号，采用自适应算法计算出音频幅度补偿值，即音响音频信号与第一回采信号的滤波器系数，在进行回声消除时根据对应音量下的音频幅度补偿值对回采信号进行补偿后，再与音响音频信号进行抵消，从而提取出更为清晰的语音信号。

在不同音量下计算出的音频幅度补偿值可能会存在差异，为了保证第一回采信号的校正精度，将计算出的音频幅度补偿值与外部音响设备的音量建立对应关系，在计算出当前音量下的音频幅度补偿值后，若原来已存有音频幅度补偿值，则用当前计算出的音频幅度补偿值更新存储；若原来未存有，则直接存储当前计算出的音频幅度补偿值。

步骤S375，发送音量等级调节指令至外部音响设备；所述音量等级调节指令用于指示所述外部音响设备调节音量等级；

步骤S376，计算并更新存储不同音量等级对应的音频幅度补偿值，直至遍历全部音量等级。

计算并更新存储当前音量等级下对应的音频幅度补偿值后，重复执行步骤S375，控制外部音响设备再次调节音量等级，并计算调节后的音量等级下对应的音频幅度补偿值，直到计算出所有音量等级的音频幅度补偿值。即为每个音量确定其对应的音频幅度补偿值。例如，在1％的音量等级下，计算出音频幅度补偿值A1，更新或存储1％音量等级的音频幅度补偿值为A1；控制外部音响设备调节至2％音量等级，计算出音频幅度补偿值A2，更新或存储2％音量等级的音频幅度补偿值为A2，重复执行，直至计算出1％-100％各个音量等级下的音频幅度补偿值。

在其中一个实施例中，每间隔预设的周期时间，重新计算各个音量等级下的音频幅度补偿值。

若音频幅度补偿值不进行定期更新，随着环境发生变化，例如智能语音识别装置与外部音响设备间的距离发生了变化、环境噪声发生变化等，则音频幅度补偿值无法满足回采信号的精准补偿，影响语音信息提取精度。

应该理解的是，虽然图4-图8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图4-图8中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中，如图9所示，提供了一种智能语音识别装置，包括：

数据传输控制模块310，用于控制数据传输单元传输待播放音频信号至外部音响设备进行播放；外部音响设备用于根据所述待播放音频信号播放产生音响音频信号；

外部音频信号获取模块320，用于获取外部音频信号；外部音频信号包括音频采集单元采集的音响音频信号和语音指令信号；

信号分离模块330，用于在定位外部音频信号中的音响音频信号后分离得到语音指令信号；

语音识别模块340，用于对语音指令信号进行语音识别。

在其中一个实施例中，信号分离模块330包括：

延时段提取单元，用于将外部音频信号提取最大延时区间的若干个延时段；

第一分段单元，用于分别对每个延时段按照预设的第一固定帧长度分段，并计算每个延时段的二进制位置信息；

第一定位单元，用于根据每个延时段的二进制位置信息与预设的待播放音频信号的二进制位置信息的误码率定位外部音频信号中的音响音频信号的起始位置并提取音响音频信号。

在其中一个实施例中，智能语音识别装置还包括：

第二分段模块，用于将原始音频数据按预设的第二固定帧长度分为若干个音频段；

校验信息嵌入模块，用于采用离散小波变换算法将与若干个校验信息按顺序分别一一嵌入音频段的高频分量系数中，获得待播放音频信号；其中，校验信息的个数与音频段的段数相同。

在其中一个实施例中，信号分离模块330包括：

校验信息提取单元，用于采用离散小波逆变换算法提取所述外部音频信号中的校验信息；

第二定位单元，根据所述校验信息定位所述外部音频信号中所述音响音频信号的位置；

第一提取单元，用于提取所述外部音频信号中的目标信号；所述目标信号为所述音响音频信号对应的信号段；

音频补偿单元，用于根据预设的音频幅度补偿值对所述目标信号进行音频补偿，得到所述音响音频信号。

在其中一个实施例中，智能语音识别装置还包括：

回采模块，用于获取回采信号；所述回采信号为对数据传输单元传输的所述待播放音频信号进行回采得到；

第二提取模块，用于提取所述外部音频信号中的音响音频信号；

音频幅度补偿值计算模块，用于根据所述回采信号及所述音响音频信号计算出当前音量下的音频幅度补偿值；

更新模块，用于更新存储当前音量的音频幅度补偿值。

在其中一个实施例中，智能语音识别装置还包括：

指令发送模块，用于发送音量等级调节指令至外部音响设备；音量等级调节指令用于指示外部音响设备调节音量等级；

遍历计算模块，用于计算并更新存储不同音量等级对应的音频幅度补偿值，直至遍历全部音量等级。

关于智能语音识别装置的具体限定可以参见上文中对于智能语音识别方法的限定，在此不再赘述。上述智能语音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在其中一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

步骤S400，对语音指令信号进行语音识别。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：

步骤S107，发送音量等级调节指令至外部音响设备；音量等级调节指令用于指示外部音响设备调节音量等级；

步骤S108，计算并更新存储不同音量等级对应的音频幅度补偿值，直至遍历全部音量等级。

步骤S372，提取外部音频信号中的音响音频信号；

步骤S373，根据回采信号及音响音频信号计算出当前音量下的音频幅度补偿值；

步骤S374，更新存储当前音量的音频幅度补偿值。

在其中一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

步骤S400，对语音指令信号进行语音识别。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：

步骤S372，提取外部音频信号中的音响音频信号；

步骤S374，更新存储当前音量的音频幅度补偿值。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

在本说明书的描述中，参考术语“有些实施例”、“其他实施例”、“理想实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特征包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性描述不一定指的是相同的实施例或示例。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种智能语音识别方法，其特征在于，所述方法包括：

定位所述外部音频信号中的音响音频信号后分离得到语音指令信号；其中，定位所述外部音频信号中的音响音频信号，包括：将所述外部音频信号提取最大延时区间的若干个延时段，分别对每个延时段按照预设的第一固定帧长度分段，计算每个所述音频信号分段的短时能量，从第二个音频信号分段开始计算当前音频信号分段的短时能量是否大于上一音频信号分段的短时能量；若是，则用第一二进制数码表示所述当前音频信号分段，若否则用第二二进制数码表示所述当前音频信号分段，遍历完所述第二个音频信号分段以及所述第二个音频信号分段之后的音频信号分段之后，获得所述延时段的二进制位置信息；根据所述每个延时段的二进制位置信息与预设的所述待播放音频信号的二进制位置信息的误码率定位所述外部音频信号中的音响音频信号的起始位置并提取所述音响音频信号；

对所述语音指令信号进行语音识别。

2.根据权利要求1所述的智能语音识别方法，其特征在于，在控制数据传输单元传输待播放音频信号至外部音响设备进行播放之前，所述方法还包括：

采用离散小波变换算法将与若干个校验信息按顺序分别一一嵌入所述音频段的高频分量系数中，获得所述待播放音频信号；其中，所述校验信息的个数与所述音频段的段数相同；

定位所述外部音频信号中的音响音频信号，包括：采用离散小波逆变换算法提取所述外部音频信号中的校验信息；根据所述校验信息定位所述外部音频信号中所述音响音频信号的位置；提取所述外部音频信号中的目标信号；所述目标信号为所述音响音频信号对应的信号段；根据预设的音频幅度补偿值对所述目标信号进行音频补偿，得到所述音响音频信号。

3.根据权利要求2所述的智能语音识别方法，其特征在于，获得所述音频幅度补偿值的步骤包括：

提取所述外部音频信号中的音响音频信号；

更新存储当前音量的音频幅度补偿值。

4.根据权利要求3所述的智能语音识别方法，其特征在于，获得所述音频幅度补偿值的步骤还包括：

5.一种智能语音识别设备，其特征在于，应用如权利要求1至4任一项所述的智能语音识别方法，所述设备包括：

主控单元，用于控制所述数据传输单元传输待播放音频信号至所述外部音响设备播放，还用于获取所述音频采集单元反馈的所述外部音频信号，并在定位所述外部音频信号中的音响音频信号后分离得到语音指令信号，对所述语音指令信号进行语音识别；其中，定位所述外部音频信号中的音响音频信号，包括：将所述外部音频信号提取最大延时区间的若干个延时段，分别对每个延时段按照预设的第一固定帧长度分段，计算每个所述音频信号分段的短时能量，从第二个音频信号分段开始计算当前音频信号分段的短时能量是否大于上一音频信号分段的短时能量；若是，则用第一二进制数码表示所述当前音频信号分段，若否则用第二二进制数码表示所述当前音频信号分段，遍历完所述第二个音频信号分段以及所述第二个音频信号分段之后的音频信号分段之后，获得所述延时段的二进制位置信息；根据所述每个延时段的二进制位置信息与预设的所述待播放音频信号的二进制位置信息的误码率定位所述外部音频信号中的音响音频信号的起始位置并提取所述音响音频信号。

6.一种智能语音识别装置，其特征在于，包括：

信号分离模块，用于在定位所述外部音频信号中的音响音频信号后分离得到语音指令信号；其中，信号分离模块包括用于定位所述外部音频信号中的音响音频信号的第一定位单元，所述第一定位单元，具体用于：将所述外部音频信号提取最大延时区间的若干个延时段，分别对每个延时段按照预设的第一固定帧长度分段，计算每个所述音频信号分段的短时能量，从第二个音频信号分段开始计算当前音频信号分段的短时能量是否大于上一音频信号分段的短时能量；若是，则用第一二进制数码表示所述当前音频信号分段，若否则用第二二进制数码表示所述当前音频信号分段，遍历完所述第二个音频信号分段以及所述第二个音频信号分段之后的音频信号分段之后，获得所述延时段的二进制位置信息；根据所述每个延时段的二进制位置信息与预设的所述待播放音频信号的二进制位置信息的误码率定位所述外部音频信号中的音响音频信号的起始位置并提取所述音响音频信号；

语音识别模块，用于对所述语音指令信号进行语音识别。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

校验信息嵌入模块，用于采用离散小波变换算法将与若干个校验信息按顺序分别一一嵌入音频段的高频分量系数中，获得待播放音频信号，以定位所述外部音频信号中的音响音频信号后分离得到所述语音指令信号；其中，校验信息的个数与音频段的段数相同；

信号分离模块包括用于定位所述外部音频信号中的音响音频信号的第二定位单元，所述第二定位单元，具体用于：采用离散小波逆变换算法提取所述外部音频信号中的校验信息；根据所述校验信息定位所述外部音频信号中所述音响音频信号的位置；提取所述外部音频信号中的目标信号；所述目标信号为所述音响音频信号对应的信号段；根据预设的音频幅度补偿值对所述目标信号进行音频补偿，得到所述音响音频信号。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

更新模块，用于更新存储当前音量的音频幅度补偿值。

9.一种智能语音识别设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。