CN109523999A

CN109523999A - 一种提升远场语音识别的前端处理方法和系统

Info

Publication number: CN109523999A
Application number: CN201811602419.9A
Authority: CN
Inventors: 李军锋; 高飞; 颜永红
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-03-26
Anticipated expiration: 2038-12-26
Also published as: CN109523999B

Abstract

本申请提供了一种提升远场语音识别的前端处理方法和系统，其中所述方法包括：对房间冲激响应信号进行计算，得到早期混响信号与晚期混响信号的分割时间点，截取直达声信号和早期混响信号；将直达声信号和早期混响信号与语音库中干净语音信号在时域上进行卷积，得到时域目标信号；将时域目标信号和时域混合信号中除时域目标信号以外的其它信号分别进行计算，得到目标信号能量和其它信号能量，通过目标信号能量和其它信号能量得到理想比值掩蔽；将时域混合信号转换成频域混合信号后，将频域混合信号的幅值和理想比值掩蔽相乘，再使用频域混合信号的相位，得到重构信号。本发明通过理想幅值掩蔽从噪声混响条件下的混合语音中分离出目标信号。

Description

一种提升远场语音识别的前端处理方法和系统

技术领域

本发明涉及音频信号处理领域，尤其涉及一种提升远场语音识别的前端处理方法和系统。

背景技术

随着语音技术的不断发展，语音交互的应用已经非常广泛，大到国家军事小到家用家居个人应用。目前基于语音识别的应用越来越多，如智能家居、服务机器人等，但在真实的语音交互场景中，背景噪声和房间混响会干扰语音的传播，这些干扰不仅对语音质量和语音可懂度度有损害，对语音识别的危害也极大。因此，从这些干扰中分离出语音，对于语音识别而言尤为重要。

基于听觉掩蔽现象的研究，理想二值掩蔽(Ideal Binary Mask，IBM)被提出用于从带噪语音中分离出目标语音，IBM的主要思想是通过一定的局部阈值来保留目标信号比带噪信号能量强的时频单元，去除其他时频单元。很多研究表明IBM可以提升语音的可懂度和语音质量。理想比值掩蔽(Ideal Ratio Mask，IRM)作为IBM的软判决，它可以保留更多的语音的信息，在语音识别性能上会有更好的表现。在噪声环境中，IRM由干净语音的能量与带噪语音的能量比计算得出。当场景变换到混响噪声环境时，现在的做法仍然套用仅有噪声时方法，噪声是加性的，而混响是乘性的，它由直达声、早期反射、晚期混响组成，显然以上方法对于混响的处理是不合理的。

我们一般用房间冲激响应(Room Impulse Response，RIR)来描述房间的混响特性，研究表明房间冲击响应中的直达声和早期反射是对人耳听觉有利的部分，现在一些研究把直达声和前50ms的早期混响作为目标语音，实验结果表明这一掩蔽在噪声混响条件下可以有效的提升语音可懂度和语音质量。但是混响随房间环境的声学特性不同而不同，不同长度的早期反射对语音可懂度上有不同的影响，对于不同混响时间都截取前50ms的方法并不是很好的做法。

发明内容

为了解决上述问题，本发明提出了一种提升远场语音识别的前端处理方法和系统。

为了达到上述目的，本申请的实施例采用如下技术方案：

第一方面，本申请提供一种提升远场语音识别的前端处理方法，包括：对房间冲激响应信号进行计算，得到早期混响信号与晚期混响信号的分割时间点，截取直达声信号和所述早期混响信号；所述房间冲激响应信号依次由所述直达声信号、所述早期混响信号和所述晚期混响信号组成；将所述直达声信号和所述早期混响信号与语音库中干净语音信号在时域上进行卷积，得到时域目标信号；将所述时域目标信号和时域混合信号中除所述时域目标信号以外的其它信号分别进行计算，得到目标信号能量和其它信号能量，通过所述目标信号能量和所述其它信号能量得到理想比值掩蔽；其中所述时域混合信号由所述房间冲激响应信号与所述语音库中语音在时域上进行卷积后，再和噪声信号进行混合得到；将所述时域混合信号转换成频域混合信号后，将所述频域混合信号的幅值和所述理想比值掩蔽相乘，再使用所述频域混合信号的相位，得到重构信号。

在另一个可能的实现中，所述对房间冲激响应信号进行计算，得到早期混响信号与晚期混响信号的分割时间点，包括：通过计算所述房间冲激响应信号的回波密度函数来确定所述房间冲激响应信号的早期混响信号与晚期混响信号的分割时间点，所述回波密度函数NED定义为：

其中，是预期的样本在高斯分布的均值标准差之外的样本的分数，1·{}是一个指标函数，当里面的参数为真返回1，否则返回0，ω(l)是权重函数，δ是当前窗中的所述房间冲激响应信号的标准差；当混响从早期混响变化到后期混响时，NED从0开始接近1，早期混响信号和晚期混响信号的分割时间就定义为晚期混响信号的标准差无限接近于1的时候。

在另一个可能的实现中，所述对房间冲激响应信号进行计算，得到早期混响信号与晚期混响信号的分割时间点，包括：基于所述晚期混响的漫散射场的假设，通过峰态来计算早期混响信号与晚期混响信号的分割时间点，所述峰态是统计过程的四阶矩，所述峰态γ₄定义为：

其中，E为要处理冲击响应x的期望，μ是均值，δ为标准差；所述分割时间定义为滑动窗口中计算的所述峰态到达零时的时间瞬间。

在另一个可能的实现中，所述对房间冲激响应信号进行计算，得到早期混响信号与晚期混响信号的分割时间点，包括：通过房间特性计算早期混响信号与晚期混响信号的分割时间点，所述时间t定义为：

其中，V和S分别为房间的体积和房间的表面积。

在另一个可能的实现中，所述将所述时域目标信号和时域混合信号中除所述时域目标信号以外的其它信号分别进行计算，得到目标信号能量和其它信号能量，通过所述目标信号能量和所述其它信号能量得到理想比值掩蔽，具体包括：将所述时域目标信号和所述其它信号分别做傅里叶变换，计算得到所述目标信号能量和所述其它信号能量；将所述目标信号能量和所述其它信号能量代入理想比值掩蔽公式，得到所述理想比值掩蔽；所述理想比值掩蔽公式IRM(k,l)为：

其中，D(k,l)表示为目标信号能量，R(k,l)表示混合信号能量中除去目标信号能量的其它信号能量，k表示频带索引，l表示帧索引。

在另一个可能的实现中，所述时域混合信号由所述房间冲激响应信号与所述语音库中语音在时域上进行卷积后，再和噪声信号进行混合得到，所述时域混合信号生成方式为：

m(t)＝s(t)·h(t)+n(t)

其中，s(t)表示干净语音信号，h(t)表示房间冲激响应信号，n(t)表示噪声信号，t表示时间索引。

在另一个可能的实现中，所述将所述时域混合信号转换成频域混合信号后，将所述频域混合信号的幅值和所述理想比值掩蔽相乘，再使用所述频域混合信号的相位，得到重构信号，具体包括：

将所述时域混合信号进行短时傅里叶变换后，得到所述频域混合信号；

将所述频域混合信号的幅值和所述理想比值掩蔽相乘，再使用所述频域混合信号的相位，得到重构信号，所述重构信号s′(t)计算公式为：

s′(t)＝istft{M(k,l)×IRM(k,l)×exp[j∠M^f(k,l)]}

其中，istft表示为逆傅里叶运算，M(k,l)表示频域混合信号，∠M^f(k,l)表示频域混合信号的相位，k表示频带索引，l表示帧索引。

第二方面，本申请提供一种提升远场语音识别的前端处理系统，包括：截取单元，用于对房间冲激响应信号进行计算，得到早期混响信号与晚期混响信号的分割时间点，截取直达声信号和所述早期混响信号；所述房间冲激响应信号依次由所述直达声信号、所述早期混响信号和所述晚期混响信号组成；第一生成单元，用于将所述直达声信号和所述早期混响信号与语音库中干净语音信号在时域上进行卷积，得到时域目标信号；第二生成单元，用于将所述时域目标信号和时域混合信号中除所述时域目标信号以外的其它信号分别进行计算，得到目标信号能量和其它信号能量，通过所述目标信号能量和所述其它信号能量得到理想比值掩蔽；其中所述时域混合信号由所述房间冲激响应信号与所述语音库中语音在时域上进行卷积后，再和噪声信号进行混合得到；第三生成单元，用于将所述时域混合信号转换成频域混合信号后，将所述频域混合信号的幅值和所述理想比值掩蔽相乘，再使用所述频域混合信号的相位，得到重构信号。

在另一个可能的实现中，所述第二生成单元具体用于，将所述时域目标信号和所述其它信号分别做傅里叶变换，计算得到所述目标信号能量和所述其它信号能量；将所述目标信号能量和所述其它信号能量代入理想比值掩蔽公式，得到所述理想比值掩蔽；所述理想比值掩蔽公式IRM(k,l)为：

在另一个可能的实现中，所述第三生成单元具体用于，

s′(t)＝istft{M(k,l)×IRM(k,l)×exp[j∠M^f(k,l)]}

本发明通过对不同声学特性的房间冲激响应信号进行计算，截取早期混响信号，然后将早期混响信号和理想比值掩蔽结合，应用于混合语音信号，得到重构信号，实现通过理想幅值掩蔽从噪声混响条件下的混合语音中分离出目标信号。

附图说明

下面对实施例或现有技术描述中所需使用的附图作简单地介绍。

图1为本申请实施例提供的一种提升远场语音识别的前端处理方法的流程图；

图2为本申请实施例提供的房间冲激响应信号组成示意图；

图3为本申请实施例提供的一种提升远场语音识别的前端处理系统的结构框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的单元或具有相同或类似功能的单元。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。

图1为本申请实施例提供的一种提升远场语音识别的前端处理方法的流程图。如图1所示的提升远场语音识别的前端处理方法，具体实现步骤如下：

步骤S102，对房间冲激响应信号进行计算，得到早期混响信号与晚期混响信号的分割时间点，截取直达声信号和早期混响信号。

优选地，如图2所示，本申请中房间冲激响应信号实际上由直达声、早期混响和晚期混响组成，然而直达声和早期混响是对人耳听觉有利的部分，本申请主要通过获取早期混响和晚期混响的分割时间点，然后截取到直达声和早期混响进行处理。

具体地，对房间冲激响应信号升采样到一定频率后，计算出房间冲激响应信号的早期混响信号与晚期混响信号的分割时间点，然后截取到直达声信号和早期混响信号。

其中，对房间冲激响应信号进行升采样到一定频率，是为了方便截取早期混响的时间。

优选地，本申请对房间冲激响应信号升采样到48kHz最佳，当然其它频率下也是可以的。

在一个实施例中，通过计算房间冲激响应信号的回波密度函数来确定房间冲激响应信号的早期混响信号与晚期混响信号的分割时间点，回波密度函数NED定义为：

其中，是预期的样本在高斯分布的均值标准差之外的样本的分数，1·{}是一个指标函数，当里面的参数为真返回1，否则返回0，ω(l)是权重函数，δ是当前窗中的所述房间冲激响应信号的标准差。

当混响从早期混响变化到后期混响时，NED从0开始接近1，早期混响信号和晚期混响信号的分割时间就定义为晚期混响信号的标准差无限接近于1的时候。

在一个实施例中，基于晚期混响的漫散射场的假设，通过峰态来计算早期混响信号与晚期混响信号的分割时间点，峰态是统计过程的四阶矩，峰态γ₄定义为：

其中，E为要处理冲击响应x的期望，μ是均值，δ为标准差；

所述分割时间定义为滑动窗口中计算的所述峰态到达零时的时间瞬间。

在一个实施例中，通过房间特性计算早期混响信号与晚期混响信号的分割时间点，所述时间t定义为：

其中，V和S分别为房间的体积和房间的表面积。

步骤S104，将直达声信号和早期混响信号与语音库中干净语音信号在时域上进行卷积，得到时域目标信号。

优选地，本申请使用的语音库Hub5是英文语音的电话录音，被招募的说话人通过机器人操作员连接，就机器人操作员在通话开始时宣布的一个日常话题进行随意交谈。该语音库的采样频率是8000赫兹。其中，干净语音信号是指没有任何操作的一个实录的语音。

具体地，将直达声信号和早期混响信号降采样为语音信号的采样频率后，和语音库中干净语音信号在时域上进行卷积，得到时域目标信号。

步骤S106，将时域目标信号和时域混合信号中除时域目标信号以外的其它信号分别进行计算，得到目标信号能量和其它信号能量，通过目标信号能量和其它信号能量得到理想比值掩蔽。

优选地，时域混合信号由房间冲激响应信号与语音库中全部语音在时域上进行卷积后，然后再和噪声信号进行混合得到的。时域混合信号生成方式为：

m(t)＝s(t)·h(t)+n(t)

其中，噪声信号是指在真实的语音交互场景中背景噪声，它和房间混响会干扰语音的传播，这些干扰不仅对语音质量和语音可懂度度有损害，而且也会影响语音识别。

具体地，将时域目标信号和时域混合信号中除时域目标信号以外的其它信号分别做傅里叶变换，计算得到目标信号能量D(k,l)和其它信号能量R(k,l)；然后将目标信号能量D(k,l)和其它信号能量R(k,l)能量代入理想比值掩蔽公式，得到理想比值掩蔽。其中理想比值掩蔽公式IRM(k,l)为：

步骤S108，将时域混合信号转换成频域混合信号后，将频域混合信号的幅值和理想比值掩蔽相乘，再使用频域混合信号的相位，得到重构信号。

具体地，将时域混合信号进行短时傅里叶变换后，得到频域混合信号；然后将频域混合信号的幅值和理想比值掩蔽相乘，再使用频域混合信号的相位，得到重构信号，重构信号s′(t)计算公式为：

s′(t)＝istft{M(k,l)×IRM(k,l)×exp[j∠M^f(k,l)]}

图3为本申请实施例提供的一种提升远场语音识别的前端处理系统的结构框图。如图3所示提升远场语音识别的前端处理系统，包括：截取单元301、第一生成单元302、第二生成单元303和第三生成单元304。

截取单元301用于对房间冲激响应信号进行计算，得到早期混响信号与晚期混响信号的分割时间点，截取直达声信号和早期混响信号。

其中，对房间冲激响应信号升采样到一定频率后，计算出房间冲激响应信号的早期混响信号与晚期混响信号的分割时间点，然后截取到直达声信号和早期混响信号。

其中，E为要处理冲击响应x的期望，μ是均值，δ为标准差；

其中，V和S分别为房间的体积和房间的表面积。

第一生成单元302用于将直达声信号和早期混响信号与语音库中干净语音信号在时域上进行卷积，得到时域目标信号。

其中，将直达声信号和早期混响信号降采样为语音信号的采样频率后，和语音库中干净语音信号在时域上进行卷积，得到时域目标信号。

第二生成单元303用于将时域目标信号和时域混合信号中除时域目标信号以外的其它信号分别进行计算，得到目标信号能量和其它信号能量，通过目标信号能量和其它信号能量得到理想比值掩蔽。

m(t)＝s(t)·h(t)+n(t)

其中，将时域目标信号和时域混合信号中除时域目标信号以外的其它信号分别做傅里叶变换，计算得到目标信号能量D(k,l)和其它信号能量R(k,l)；然后将目标信号能量D(k,l)和其它信号能量R(k,l)能量代入理想比值掩蔽公式，得到理想比值掩蔽。其中理想比值掩蔽公式IRM(k,l)为：

第三生成单元304用于将时域混合信号转换成频域混合信号后，将频域混合信号的幅值和理想比值掩蔽相乘，再使用频域混合信号的相位，得到重构信号。

其中，将时域混合信号进行短时傅里叶变换后，得到频域混合信号；然后将频域混合信号的幅值和理想比值掩蔽相乘，再使用频域混合信号的相位，得到重构信号，重构信号s′(t)计算公式为：

s′(t)＝istft{M(k,l)×IRM(k,l)×exp[j∠M^f(k,l)]}

最后说明的是：以上实施例仅用以说明本申请的技术方案，而对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种提升远场语音识别的前端处理方法，其特征在于，包括：

对房间冲激响应信号进行计算，得到早期混响信号与晚期混响信号的分割时间点，截取直达声信号和所述早期混响信号；所述房间冲激响应信号依次由所述直达声信号、所述早期混响信号和所述晚期混响信号组成；

将所述直达声信号和所述早期混响信号与语音库中干净语音信号在时域上进行卷积，得到时域目标信号；

将所述时域目标信号和时域混合信号中除所述时域目标信号以外的其它信号分别进行计算，得到目标信号能量和其它信号能量，通过所述目标信号能量和所述其它信号能量得到理想比值掩蔽；其中所述时域混合信号由所述房间冲激响应信号与所述语音库中语音在时域上进行卷积后，再和噪声信号进行混合得到；

将所述时域混合信号转换成频域混合信号后，将所述频域混合信号的幅值和所述理想比值掩蔽相乘，再使用所述频域混合信号的相位，得到重构信号。

2.根据权利要求1所述的方法，其特征在于，所述对房间冲激响应信号进行计算，得到早期混响信号与晚期混响信号的分割时间点，包括：

通过计算所述房间冲激响应信号的回波密度函数来确定所述房间冲激响应信号的早期混响信号与晚期混响信号的分割时间点，所述回波密度函数NED定义为：

其中，是预期的样本在高斯分布的均值标准差之外的样本的分数，1·{}是一个指标函数，当里面的参数为真返回1，否则返回0，ω(l)是权重函数，δ是当前窗中的所述房间冲激响应信号的标准差；

3.根据权利要求1所述的方法，其特征在于，所述对房间冲激响应信号进行计算，得到早期混响信号与晚期混响信号的分割时间点，包括：

基于所述晚期混响的漫散射场的假设，通过峰态来计算早期混响信号与晚期混响信号的分割时间点，所述峰态是统计过程的四阶矩，所述峰态γ₄定义为：

其中，E为要处理冲击响应x的期望，μ是均值，δ为标准差；

4.根据权利要求1所述的方法，其特征在于，所述对房间冲激响应信号进行计算，得到早期混响信号与晚期混响信号的分割时间点，包括：

通过房间特性计算早期混响信号与晚期混响信号的分割时间点，所述时间t定义为：

其中，V和S分别为房间的体积和房间的表面积。

5.根据权利要求1所述的方法，其特征在于，所述将所述时域目标信号和时域混合信号中除所述时域目标信号以外的其它信号分别进行计算，得到目标信号能量和其它信号能量，通过所述目标信号能量和所述其它信号能量得到理想比值掩蔽，具体包括：

将所述时域目标信号和所述其它信号分别做傅里叶变换，计算得到所述目标信号能量和所述其它信号能量；

将所述目标信号能量和所述其它信号能量代入理想比值掩蔽公式，得到所述理想比值掩蔽；所述理想比值掩蔽公式IRM(k,l)为：

6.根据权利要求1所述的方法，其特征在于，所述时域混合信号由所述房间冲激响应信号与所述语音库中语音在时域上进行卷积后，再和噪声信号进行混合得到，所述时域混合信号生成方式为：

m(t)＝s(t)·h(t)+n(t)

7.根据权利要求1所述的方法，其特征在于，所述将所述时域混合信号转换成频域混合信号后，将所述频域混合信号的幅值和所述理想比值掩蔽相乘，再使用所述频域混合信号的相位，得到重构信号，具体包括：

s′(t)＝istft{M(k,l)×IRM(k,l)×exp[j∠M^f(k,l)]}

8.一种提升远场语音识别的前端处理系统，包括：

截取单元，用于对房间冲激响应信号进行计算，得到早期混响信号与晚期混响信号的分割时间点，截取直达声信号和所述早期混响信号；所述房间冲激响应信号依次由所述直达声信号、所述早期混响信号和所述晚期混响信号组成；

第一生成单元，用于将所述直达声信号和所述早期混响信号与语音库中干净语音信号在时域上进行卷积，得到时域目标信号；

第二生成单元，用于将所述时域目标信号和时域混合信号中除所述时域目标信号以外的其它信号分别进行计算，得到目标信号能量和其它信号能量，通过所述目标信号能量和所述其它信号能量得到理想比值掩蔽；其中所述时域混合信号由所述房间冲激响应信号与所述语音库中语音在时域上进行卷积后，再和噪声信号进行混合得到；

第三生成单元，用于将所述时域混合信号转换成频域混合信号后，将所述频域混合信号的幅值和所述理想比值掩蔽相乘，再使用所述频域混合信号的相位，得到重构信号。

9.根据权利要求8所述的系统，其特征在于，所述第二生成单元具体用于，

10.根据权利要求8所述的系统，其特征在于，所述第三生成单元具体用于，

s′(t)＝istft{M(k,l)×IRM(k,l)×exp[j∠M^f(k,l)]}