CN109901114B

CN109901114B - 一种适用于声源定位的时延估计方法

Info

Publication number: CN109901114B
Application number: CN201910242080.4A
Authority: CN
Inventors: 张承云; 梁龙腾
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2020-10-27
Anticipated expiration: 2039-03-28
Also published as: CN109901114A

Abstract

本发明公开了一种适用于声源定位的时延估计方法，包括对通过两个传声器获得的语音信号进行信号处理，获得最小相位分量的复倒谱；根据所述最小相位分量的复倒谱计算信号最小相位分量频谱和全通分量频谱；利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱计算得到改进的全通分量频谱，并根据所述改进的全通分量频谱计算得到改进的相位加权函数，结合所述改进的全通分量频谱和所述改进的相位加权函数计算互功率谱；通过快速傅里叶反变换方法求解所述互功率谱的互相关函数，并根据所述互相关函数计算得到延迟时间。本发明提供的时延估计方法能够在混响和噪声环境下，有效地减少由噪声和混响带来的影响，从而提高对于噪声的适应性和时延估计的准确度。

Description

一种适用于声源定位的时延估计方法

技术领域

本发明涉及声源定位技术领域，具体涉及到一种适用于声源定位的时延估计方法。

背景技术

近几年来，基于传声器阵列的声源定位技术被广泛应用于各种场景，声源定位技术确定的时延和位置信息为波束成形、语音增强、语音识别、盲信号分离等各种语音算法提供重要的信息。基于时延估计的声源定位技术具备运算成本少、所需要传声器数量较少等优点，因此被广泛应用于各种实时处理环境中。声源定位技术的定位方法分为两步，第一步是估计声波从声源传播到两个传声器之间的时间差，第二步是根据时间差对声源位置进行估计，其中，第一步时间差估计的准确度决定了第二步声源定位的准确度。

现有技术中，基于互功率谱的时延估计方法因其具备运算成本少、定位精确度较高、在低混响(0ms-300ms)下能够估计的优点而被广泛的研究，但其估计性能在混响较高的环境下会下降，从而导致时延估计的准确度降低。针对于此，有学者提出了基于倒谱预滤波的时延估计方法，但是这种方法虽然能够很好的降低混响对时延估计的影响，却容易受到噪声的影响。

发明内容

本发明提供了一种适用于声源定位的时延估计方法，以解决现有技术难以减少噪声和混响带来的影响的技术问题，本发明能够在混响和噪声环境下，有效地减少由噪声和混响带来的影响，从而提高对于噪声的适应性和时延估计的准确度。

为了解决上述技术问题，本发明实施例提供了一种适用于声源定位的时延估计方法，包括：

对通过两个传声器获得的语音信号进行信号处理，获得最小相位分量的复倒谱；

根据所述最小相位分量的复倒谱计算信号最小相位分量的频谱和全通分量信号的频谱；

利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱计算得到改进的全通分量频谱，并根据所述改进的全通分量频谱计算得到改进的相位加权函数，结合所述改进的全通分量频谱和所述改进的相位加权函数计算互功率谱；

通过快速傅里叶反变换方法求解所述互功率谱的互相关函数，并根据所述互相关函数计算得到延迟时间。

作为优选方案，所述利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱计算得到改进的全通分量频谱，并根据所述改进的全通分量频谱计算得到改进的相位加权函数，结合所述改进的全通分量频谱和所述改进的相位加权函数计算互功率谱，具体为：

利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱相乘得到所述改进的全通分量频谱；

根据所述改进的全通分量频谱计算得到所述改进的相位加权函数，结合所述改进的全通分量频谱和所述改进的相位加权函数计算得到所述互功率谱。

作为优选方案，所述对通过两个传声器获得的语音信号进行信号处理，获得最小相位分量的复倒谱，具体为：

通过两个传声器分别获得第一通道语音信号和第二通道语音信号；

对所述第一通道语音信号和所述第二通道语音信号进行信号处理，得到第一通道复倒谱和第二通道复倒谱；

对所述第一通道复倒谱和所述第二通道复倒谱进行同态滤波处理，获得第一通道最小相位分量的复倒谱和第二通道最小相位分量的复倒谱。

作为优选方案，所述对所述第一通道语音信号和所述第二通道语音信号进行信号处理，具体为：

设所述第一通道语音信号为x₁(t)，所述第二通道语音信号为x₂(t)；

对经过滤波、分帧处理后的信号x₁(t)和x₂(t)进行语音端点检测，并选取出同一帧的语音帧，得到对应的y₁(t)和y₂(t)；

分别对y₁(t)和y₂(t)进行离散傅里叶变换处理，得到对应的Y₁(ω)和Y₂(ω)；

根据Y₁(ω)和Y₂(ω)得到所述第一通道复倒谱k₁(n)和所述第二通道复倒谱k₂(n)；其中，k₁(n)＝IFFT(ln(|Y₁(ω)|))，k₂(n)＝IFFT(ln(|Y₂(ω)|))，IFFT为快速傅里叶反变换；

对所述第一通道复倒谱k₁(n)和所述第二通道复倒谱k₂(n)进行同态滤波处理，分别获得所述第一通道最小相位分量的复倒谱k_1min(n)和所述第二通道最小相位分量的复倒谱k_2min(n)；

其中，k_1min(n)＝u*k₁(n)，k_2min(n)＝u*k₂(n)，

N为傅里叶变换的点数。

作为优选方案，所述根据所述最小相位分量的复倒谱计算信号最小相位分量的频谱和全通分量信号的频谱，具体为：

根据所述第一通道最小相位分量的复倒谱k_1min(n)和所述第二通道最小相位分量的复倒谱k_2min(n)计算得到第一通道最小相位分量的频谱Y_1min(ω)和第二通道最小相位分量的频谱Y_2min(ω)，其中，

FFT为快速傅里叶变换；

根据所述第一通道最小相位分量的频谱Y_1min(ω)和所述第二通道最小相位分量的频谱Y_2min(ω)计算得到第一通道全通分量信号的频谱Y_1all(ω)和第二通道全通分量信号的频谱Y_2all(ω)，其中，Y_1all(ω)＝Y₁(ω)/Y_1min(ω)，Y_2all(ω)＝Y₂(ω)/Y_2min(ω)。

通过所述第一通道最小相位分量的频谱Y_1min(ω)获得第一通道最小相位分量的频谱的模值|Y_1min(ω)|，通过所述第二通道最小相位分量的频谱Y_2min(ω)获得第二通道最小相位分量的频谱的模值|Y_2min(ω)|；

将所述第一通道最小相位分量的频谱的模值|Y_1min(ω)|与所述第一通道全通分量信号的频谱Y_1all(ω)相乘，得到第一通道改进全通分量信号的频谱Y_1-nall(ω)；其中，Y_1-nall(ω)＝Y_1all(ω)*|Y_1min(ω)|；

将所述第二通道最小相位分量的频谱的模值|Y_2min(ω)|与所述第二通道全通分量信号的频谱Y_2all(ω)相乘，得到第二通道改进全通分量信号的频谱Y_2-nall(ω)；其中，Y_2-nall(ω)＝Y_2all(ω)*|Y_2min(ω)|；

利用所述第一通道改进全通分量信号的频谱Y_1-nall(ω)和第二通道改进全通分量信号的频谱Y_2-nall(ω)计算得到所述改进的相位加权函数

其中

α＝0.75；

将所述第一通道改进全通分量信号的频谱Y_1-nall(ω)和第二通道改进全通分量信号的频谱Y_2-nall(ω)乘以所述改进的相位加权函数

计算互功率谱G₁₂(ω)；其中，

作为优选方案，所述通过快速傅里叶反变换方法求解所述互功率谱的互相关函数，并根据所述互相关函数计算得到延迟时间，具体为：

通过快速傅里叶反变换方法求解所述互功率谱G₁₂(ω)的互相关函数R₁₂，并得到采样后的延迟时间τ_max；其中，R₁₂(τ)＝IFFT(G₁₂(ω))，τ_max＝argmax_τR₁₂(τ)，IFFT为快速傅里叶反变换；

根据所述采样后的延迟时间τ_max求解采样前的延迟时间delay₁₂，其中，delay₁₂＝τ_max*f_s，f_s为采样频率。

相比于现有技术，本发明实施例的有益效果在于，本发明实施例提供了一种适用于声源定位的时延估计方法，包括：对通过两个传声器获得的语音信号进行信号处理，获得最小相位分量的复倒谱；根据所述最小相位分量的复倒谱计算信号最小相位分量的频谱和全通分量信号的频谱；利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱计算得到改进的全通分量频谱，并根据所述改进的全通分量频谱计算得到改进的相位加权函数，结合所述改进的全通分量频谱和所述改进的相位加权函数计算互功率谱；通过快速傅里叶反变换方法求解所述互功率谱的互相关函数，并根据所述互相关函数计算得到延迟时间。通过在得到全通分量信号的基础上，利用最小相位分量的频谱的模值与全通分量信号的频谱计算得到改进的全通分量频谱，并根据所述改进的全通分量频谱计算得到改进的相位加权函数，结合所述改进的全通分量频谱和所述改进的相位加权函数计算互功率谱，以保证全通分量信号在相位上能够有效的避免混响带来的影响的同时，能够增加信号频谱幅值的作用，从而有效地增加了时延估计方法在噪声下的估计性能，进而提高对于噪声的适应性和时延估计的准确度。其中，通过快速傅里叶反变换方法求解所述互功率谱的互相关函数，并根据所述互相关函数计算得到延迟时间，以使时延估计方法在混响和噪声环境下，能够有效地减少由噪声和混响带来影响，提高其对于噪声的适应性，且同时保留了全通分量信号的抗混响能力，从而使时延峰值的检测更为准确，进而提升时延估计的性能。

附图说明

图1是本发明实施例提供的一种适用于声源定位的时延估计方法的流程示意图；

图2是本发明实施例提供的一种适用于声源定位的时延估计方法的流程算法图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，本发明优选实施例提供了一种适用于声源定位的时延估计方法，包括：

S1、对通过两个传声器获得的语音信号进行信号处理，获得最小相位分量的复倒谱；

在本实施例中，为了实现声源定位，需要利用两个传声器分别接收语音信号，以估计声波从声源传播到两个传声器之间的时间差，然后根据时间差对声源位置进行估计。

S2、根据所述最小相位分量的复倒谱计算信号最小相位分量的频谱和全通分量信号的频谱；

S3、利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱计算得到改进的全通分量频谱，并根据所述改进的全通分量频谱计算得到改进的相位加权函数，结合所述改进的全通分量频谱和所述改进的相位加权函数计算互功率谱；

在本实施例中，利用基于倒谱滤波(Cepstral preflitering,CEP)技术将获得的所述最小相位分量的复倒谱计算最小相位分量的频谱和全通分量信号的频谱，通过在得到全通分量信号的基础上，利用最小相位分量的频谱的模值与全通分量信号的频谱计算得到改进的全通分量频谱，并根据所述改进的全通分量频谱计算得到改进的相位加权函数，结合所述改进的全通分量频谱和所述改进的相位加权函数计算互功率谱，以保证全通分量信号在相位上能够有效的避免混响带来的影响的同时，能够增加信号频谱幅值的作用，从而有效地增加了时延估计方法在噪声下的估计性能，进而提高对于噪声的适应性和时延估计的准确度。

S4、通过快速傅里叶反变换方法求解所述互功率谱的互相关函数，并根据所述互相关函数计算得到延迟时间。

在本发明实施例中，通过快速傅里叶反变换方法求解所述互功率谱的互相关函数，并根据所述互相关函数计算得到延迟时间，以使时延估计方法在混响和噪声环境下，能够有效地减少由噪声和混响带来影响，提高其对于噪声的适应性，且同时保留了全通分量信号的抗混响能力，从而使时延峰值的检测更为准确，进而提升时延估计的性能。

在本发明实施例中，优选的，所述利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱计算得到改进的全通分量频谱，并根据所述改进的全通分量频谱计算得到改进的相位加权函数，结合所述改进的全通分量频谱和所述改进的相位加权函数计算互功率谱，具体为：

根据所述改进的全通分量频谱计算得到所述改进的相位加权函数，结合所述改进的全通分量频谱和所述改进的相位加权函数计算得到所述互功率谱，以使全通分量信号乘以最小相位分量信号的幅值，从而增加时延估计算法在噪声下的估计性能，进而结合广义互相关函数法(Generalized cross correlation,GCC)时延估计技术，能够利用改进的相位加权法进行时延估计。

在本发明实施例中，所述对通过两个传声器获得的语音信号进行信号处理，获得最小相位分量的复倒谱，具体为：

在本实施例中，为实现声源定位，需要通过两个传声器分别获得第一道语音信号和第二通道语音信号，以估计声波从声源传播到两个传声器之间的时间差，然后根据时间差对声源位置进行估计。

在本发明实施例中，所述对所述第一通道语音信号和所述第二通道语音信号进行信号处理，具体为：

其中，k_1min(n)＝u*k₁(n)，k_2min(n)＝u*k₂(n)，

N为傅里叶变换的点数。

在本发明实施例中，所述根据所述最小相位分量的复倒谱计算信号最小相位分量的频谱和全通分量信号的频谱，具体为：

FFT为快速傅里叶变换；

在本发明实施例中，所述利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱计算得到改进的全通分量频谱，并根据所述改进的全通分量频谱计算得到改进的相位加权函数，结合所述改进的全通分量频谱和所述改进的相位加权函数计算互功率谱，具体为：

其中

α＝0.75；

计算互功率谱G₁₂(ω)；其中，

在本实施例中，利用基于倒谱滤波(Cepstral preflitering,CEP)技术将获得的所述最小相位分量的复倒谱计算最小相位分量的频谱和全通分量信号的频谱，通过在得到全通分量信号的基础上，利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱计算得到改进的全通分量频谱，并根据所述改进的全通分量频谱计算得到改进的相位加权函数，利用所述改进的全通分量频谱乘以所述改进的相位加权函数计算互功率谱，以保证全通分量信号在相位上能够有效的避免混响带来的影响的同时，能够增加信号频谱幅值的作用，从而有效地增加了时延估计方法在噪声下的估计性能，进而提高对于噪声的适应性和时延估计的准确度。

在本发明实施例中，所述通过快速傅里叶反变换方法求解所述互功率谱的互相关函数，并根据所述互相关函数计算得到延迟时间，具体为：

根据所述采样后的延迟时间τ_max求解采样前的延迟时间delay₁₂，其中，delay₁₂＝τ_max*f_s，其中f_s为采样频率。

请参见图2，本发明提供的一种适用于声源定位的时延估计方法，其中一种可行的具体实施例的流程如下：

1、利用两个传声器，包括传声器mir₁和传声器mir₂分别对语音信号进行接收，接收到的语音信号为第一通道语音信号和第二通道语音信号，并分别记为x₁(t)和x₂(t)；

2、对两通道的第一通道语音信号和第二通道语音信号x₁(t)和第二通道语音信号x₂(t)进行滤波、分帧处理；

3、对已经过滤波、分帧处理后的信号x₁(t)和x₂(t)分别进行语音端点检测，并选取出同一帧的语音帧，得到对应的y₁(t)和y₂(t)；

4、分别对y₁(t)和y₂(t)进行离散傅里叶变换，得到Y₁(ω)和Y₂(ω)；

5、分别求出Y₁(ω)和Y₂(ω)对应的第一通道复倒谱k₁(n)和第二通道复倒谱k₂(n)，计算过程如下：

k₁(n)＝IFFT(ln(|Y₁(ω)|))，k₂(n)＝IFFT(ln(|Y₂(ω)|))，其中IFFT为快速傅里叶反变换；

6、分别对第一通道复倒谱k₁(n)和第二通道复倒谱k₂(n)进行同态滤波处理，得到对应的第一通道最小相位分量的复倒谱k_1min(n)和第二通道最小相位分量的复倒谱k_2min(n),计算过程如下：

k_1min(n)＝u*k₁(n),k_2min(n)＝u*k₂(n),

N为傅里叶变换的点数；

7、分别求出两通道最小相位分量的频谱：第一通道最小相位分量的频谱Y_1min(ω)和第二通道最小相位分量的频谱Y_2min(ω)，计算过程如下：

其中FFT为快速傅里叶变换；

8、分别求出两通道全通分量的信号的频谱：第一通道全通分量信号的频谱Y_1all(ω)和第二通道全通分量信号的频谱Y_2all(ω)，计算过程如下：

Y_1all(ω)＝Y₁(ω)/Y_1min(ω),Y_2all(ω)＝Y₂(ω)/Y_2min(ω)；

9、取最小相位分量的频谱的模值与全通分量的信号的频谱相乘：利用所述第一通道最小相位分量的频谱的模值|Y_1min(ω)|与所述第一通道全通分量信号的频谱Y_1all(ω)相乘，得到第一通道改进全通分量信号的频谱Y_1-nall(ω)，利用所述第二通道最小相位分量的频谱的模值|Y_2min(ω)|与所述第二通道全通分量信号的频谱Y_2all(ω)相乘，得到第二通道改进全通分量信号的频谱Y_2-nall(ω)，计算过程如下：

Y_1-nall(ω)＝Y_1all(ω)*|Y_1min(ω)|,Y_2-nall(ω)＝Y_2all(ω)*|Y_2min(ω)|；

10、利用第一通道改进全通分量信号的频谱Y_1-nall(ω)和第二通道改进全通分量信号的频谱Y_2-nall(ω)计算得到改进的相位加权函数

计算过程如下：

11、将所述第一通道改进全通分量信号的频谱Y_1-nall(ω)和第二通道改进全通分量信号的频谱Y_2-nall(ω)乘以所述改进的相位加权函数

计算互功率谱G₁₂(ω)，计算过程如下：

其中“'”表示共轭；

12、通过快速傅里叶反变换方法求解所述互功率谱G₁₂(ω)的互相关函数R₁₂,确定峰值所在位置，得到采样后的延迟时间τ_max，计算过程如下：

R₁₂(τ)＝IFFT(G₁₂(ω))，τ_max＝argmax_τR₁₂(τ)，IFFT为快速傅里叶反变换；

13、由采样后的延迟时间τ_max求解得到采样前的延迟时间delay₁₂,计算过程如下：

delay₁₂＝τ_max*f_s，其中f_s为采样频率；

相比于现有技术，本发明实施例提供的一种适用于声源定位的时延估计方法具有如下有益效果：

(1)通过在得到全通分量信号的基础上，利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱计算得到改进的全通分量频谱，并根据所述改进的全通分量频谱计算得到改进的相位加权函数，结合所述改进的全通分量频谱和所述改进的相位加权函数计算互功率谱，以保证全通分量信号在相位上能够有效的避免混响带来的影响的同时，能够增加信号频谱幅值的作用，从而有效地增加了时延估计方法在噪声下的估计性能，进而提高对于噪声的适应性和时延估计的准确度。

(2)通过快速傅里叶反变换方法求解所述互功率谱的互相关函数，并根据所述互相关函数计算得到延迟时间，以使时延估计方法在混响和噪声环境下，能够有效地减少由噪声和混响带来影响，提高其对于噪声的适应性，且同时保留了全通分量信号的抗混响能力，从而使时延峰值的检测更为准确，进而提升时延估计的性能。

(3)与传统的基于CEP倒谱时延估计和互功率谱时延估计相比，本发明通过在全通分量信号上加上最小相位分量信号的模值，以保证全通分量信号在相位上能够有效的避免混响带来的影响，同时增加了信号频谱幅值的作用，从而可以通过结合改进的GCC加权法，使时延估计方法在低信噪比下仍然能够有效估计，从而提升了在低信噪比和混响的情况下的估计准确率。

(4)由于现有的CEP时延估计技术得到的全通分量信号部分频谱模值上相当于被白化，只能结合传统的相位加权，而本发明能够有效的结合各种改进的GCC-Phat等各种算法，使算法对于噪声适应性更好，且同时保留了全通分量信号的抗混响能力。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种适用于声源定位的时延估计方法，其特征在于，包括：

通过快速傅里叶反变换方法求解所述互功率谱的互相关函数，并根据所述互相关函数计算得到延迟时间；

其中，所述对通过两个传声器获得的语音信号进行信号处理，获得最小相位分量的复倒谱，具体为：

通过两个传声器分别获得第一通道语音信号x₁(t)和第二通道语音信号x₂(t)；

对所述第一通道语音信号x₁(t)和所述第二通道语音信号x₂(t)进行信号处理，得到第一通道复倒谱k₁(n)和第二通道复倒谱k₂(n)；

对所述第一通道复倒谱k₁(n)和所述第二通道复倒谱k₂(n)进行同态滤波处理，获得第一通道最小相位分量的复倒谱k_1min(n)和第二通道最小相位分量的复倒谱k_2min(n)；

所述根据所述最小相位分量的复倒谱计算信号最小相位分量的频谱和全通分量信号的频谱，具体为：

根据所述第一通道最小相位分量的复倒谱k_1min(n)和所述第二通道最小相位分量的复倒谱k_2min(n)计算得到第一通道最小相位分量的频谱Y_1min(ω)和第二通道最小相位分量的频谱Y_2min(ω)；

根据所述第一通道最小相位分量的频谱Y_1min(ω)和所述第二通道最小相位分量的频谱Y_2min(ω)计算得到第一通道全通分量信号的频谱Y_1all(ω)和第二通道全通分量信号的频谱Y_2all(ω)；

所述利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱计算得到改进的全通分量频谱，并根据所述改进的全通分量频谱计算得到改进的相位加权函数，具体为：

将所述第一通道最小相位分量的频谱的模值|Y_1min(ω)|与所述第一通道全通分量信号的频谱Y_1all(ω)相乘，得到第一通道改进全通分量信号的频谱Y_1-nall(ω)；其中，Y₁-_nall(ω)＝Y_1all(ω)*|Y_1min(ω)|；

将所述第二通道最小相位分量的频谱的模值|Y_2min(ω)|与所述第二通道全通分量信号的频谱Y_2all(ω)相乘，得到第二通道改进全通分量信号的频谱Y_2-nall(ω)；其中，Y₂-_nall(ω)＝Y_2all(ω)*|Y_2min(ω)|；

其中

2.如权利要求1所述的适用于声源定位的时延估计方法，其特征在于，所述对所述第一通道语音信号和所述第二通道语音信号进行信号处理，具体为：

其中，k_1min(n)＝u*k₁(n)，k_2min(n)＝u*k₂(n)，

N为傅里叶变换的点数。

3.如权利要求2所述的适用于声源定位的时延估计方法，其特征在于，所述根据所述最小相位分量的复倒谱计算信号最小相位分量的频谱和全通分量信号的频谱，具体为：

FFT为快速傅里叶变换；

4.如权利要求3所述的适用于声源定位的时延估计方法，其特征在于，所述结合所述改进的全通分量频谱和所述改进的相位加权函数计算互功率谱，具体为：

计算互功率谱

其中，

5.如权利要求4所述的适用于声源定位的时延估计方法，其特征在于，所述通过快速傅里叶反变换方法求解所述互功率谱的互相关函数，并根据所述互相关函数计算得到延迟时间，具体为：

通过快速傅里叶反变换方法求解所述互功率谱G₁₂(ω)的互相关函数R₁₂，并得到采样后的延迟时间τ_max；其中，R₁₂(τ)＝IFFT(G₁₂(ω))，τ_max＝arg max_τR₁₂(τ)，IFFT为快速傅里叶反变换；