[go: up one dir, main page]

CN109901114B - 一种适用于声源定位的时延估计方法 - Google Patents

一种适用于声源定位的时延估计方法 Download PDF

Info

Publication number
CN109901114B
CN109901114B CN201910242080.4A CN201910242080A CN109901114B CN 109901114 B CN109901114 B CN 109901114B CN 201910242080 A CN201910242080 A CN 201910242080A CN 109901114 B CN109901114 B CN 109901114B
Authority
CN
China
Prior art keywords
spectrum
channel
signal
improved
minimum phase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910242080.4A
Other languages
English (en)
Other versions
CN109901114A (zh
Inventor
张承云
梁龙腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN201910242080.4A priority Critical patent/CN109901114B/zh
Publication of CN109901114A publication Critical patent/CN109901114A/zh
Application granted granted Critical
Publication of CN109901114B publication Critical patent/CN109901114B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种适用于声源定位的时延估计方法,包括对通过两个传声器获得的语音信号进行信号处理,获得最小相位分量的复倒谱;根据所述最小相位分量的复倒谱计算信号最小相位分量频谱和全通分量频谱;利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱计算得到改进的全通分量频谱,并根据所述改进的全通分量频谱计算得到改进的相位加权函数,结合所述改进的全通分量频谱和所述改进的相位加权函数计算互功率谱;通过快速傅里叶反变换方法求解所述互功率谱的互相关函数,并根据所述互相关函数计算得到延迟时间。本发明提供的时延估计方法能够在混响和噪声环境下,有效地减少由噪声和混响带来的影响,从而提高对于噪声的适应性和时延估计的准确度。

Description

一种适用于声源定位的时延估计方法
技术领域
本发明涉及声源定位技术领域,具体涉及到一种适用于声源定位的时延估计方法。
背景技术
近几年来,基于传声器阵列的声源定位技术被广泛应用于各种场景,声源定位技术确定的时延和位置信息为波束成形、语音增强、语音识别、盲信号分离等各种语音算法提供重要的信息。基于时延估计的声源定位技术具备运算成本少、所需要传声器数量较少等优点,因此被广泛应用于各种实时处理环境中。声源定位技术的定位方法分为两步,第一步是估计声波从声源传播到两个传声器之间的时间差,第二步是根据时间差对声源位置进行估计,其中,第一步时间差估计的准确度决定了第二步声源定位的准确度。
现有技术中,基于互功率谱的时延估计方法因其具备运算成本少、定位精确度较高、在低混响(0ms-300ms)下能够估计的优点而被广泛的研究,但其估计性能在混响较高的环境下会下降,从而导致时延估计的准确度降低。针对于此,有学者提出了基于倒谱预滤波的时延估计方法,但是这种方法虽然能够很好的降低混响对时延估计的影响,却容易受到噪声的影响。
发明内容
本发明提供了一种适用于声源定位的时延估计方法,以解决现有技术难以减少噪声和混响带来的影响的技术问题,本发明能够在混响和噪声环境下,有效地减少由噪声和混响带来的影响,从而提高对于噪声的适应性和时延估计的准确度。
为了解决上述技术问题,本发明实施例提供了一种适用于声源定位的时延估计方法,包括:
对通过两个传声器获得的语音信号进行信号处理,获得最小相位分量的复倒谱;
根据所述最小相位分量的复倒谱计算信号最小相位分量的频谱和全通分量信号的频谱;
利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱计算得到改进的全通分量频谱,并根据所述改进的全通分量频谱计算得到改进的相位加权函数,结合所述改进的全通分量频谱和所述改进的相位加权函数计算互功率谱;
通过快速傅里叶反变换方法求解所述互功率谱的互相关函数,并根据所述互相关函数计算得到延迟时间。
作为优选方案,所述利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱计算得到改进的全通分量频谱,并根据所述改进的全通分量频谱计算得到改进的相位加权函数,结合所述改进的全通分量频谱和所述改进的相位加权函数计算互功率谱,具体为:
利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱相乘得到所述改进的全通分量频谱;
根据所述改进的全通分量频谱计算得到所述改进的相位加权函数,结合所述改进的全通分量频谱和所述改进的相位加权函数计算得到所述互功率谱。
作为优选方案,所述对通过两个传声器获得的语音信号进行信号处理,获得最小相位分量的复倒谱,具体为:
通过两个传声器分别获得第一通道语音信号和第二通道语音信号;
对所述第一通道语音信号和所述第二通道语音信号进行信号处理,得到第一通道复倒谱和第二通道复倒谱;
对所述第一通道复倒谱和所述第二通道复倒谱进行同态滤波处理,获得第一通道最小相位分量的复倒谱和第二通道最小相位分量的复倒谱。
作为优选方案,所述对所述第一通道语音信号和所述第二通道语音信号进行信号处理,具体为:
设所述第一通道语音信号为x1(t),所述第二通道语音信号为x2(t);
对经过滤波、分帧处理后的信号x1(t)和x2(t)进行语音端点检测,并选取出同一帧的语音帧,得到对应的y1(t)和y2(t);
分别对y1(t)和y2(t)进行离散傅里叶变换处理,得到对应的Y1(ω)和Y2(ω);
根据Y1(ω)和Y2(ω)得到所述第一通道复倒谱k1(n)和所述第二通道复倒谱k2(n);其中,k1(n)=IFFT(ln(|Y1(ω)|)),k2(n)=IFFT(ln(|Y2(ω)|)),IFFT为快速傅里叶反变换;
对所述第一通道复倒谱k1(n)和所述第二通道复倒谱k2(n)进行同态滤波处理,分别获得所述第一通道最小相位分量的复倒谱k1min(n)和所述第二通道最小相位分量的复倒谱k2min(n);
其中,k1min(n)=u*k1(n),k2min(n)=u*k2(n),
Figure BDA0002009607750000031
N为傅里叶变换的点数。
作为优选方案,所述根据所述最小相位分量的复倒谱计算信号最小相位分量的频谱和全通分量信号的频谱,具体为:
根据所述第一通道最小相位分量的复倒谱k1min(n)和所述第二通道最小相位分量的复倒谱k2min(n)计算得到第一通道最小相位分量的频谱Y1min(ω)和第二通道最小相位分量的频谱Y2min(ω),其中,
Figure BDA0002009607750000032
FFT为快速傅里叶变换;
根据所述第一通道最小相位分量的频谱Y1min(ω)和所述第二通道最小相位分量的频谱Y2min(ω)计算得到第一通道全通分量信号的频谱Y1all(ω)和第二通道全通分量信号的频谱Y2all(ω),其中,Y1all(ω)=Y1(ω)/Y1min(ω),Y2all(ω)=Y2(ω)/Y2min(ω)。
作为优选方案,所述利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱计算得到改进的全通分量频谱,并根据所述改进的全通分量频谱计算得到改进的相位加权函数,结合所述改进的全通分量频谱和所述改进的相位加权函数计算互功率谱,具体为:
通过所述第一通道最小相位分量的频谱Y1min(ω)获得第一通道最小相位分量的频谱的模值|Y1min(ω)|,通过所述第二通道最小相位分量的频谱Y2min(ω)获得第二通道最小相位分量的频谱的模值|Y2min(ω)|;
将所述第一通道最小相位分量的频谱的模值|Y1min(ω)|与所述第一通道全通分量信号的频谱Y1all(ω)相乘,得到第一通道改进全通分量信号的频谱Y1-nall(ω);其中,Y1-nall(ω)=Y1all(ω)*|Y1min(ω)|;
将所述第二通道最小相位分量的频谱的模值|Y2min(ω)|与所述第二通道全通分量信号的频谱Y2all(ω)相乘,得到第二通道改进全通分量信号的频谱Y2-nall(ω);其中,Y2-nall(ω)=Y2all(ω)*|Y2min(ω)|;
利用所述第一通道改进全通分量信号的频谱Y1-nall(ω)和第二通道改进全通分量信号的频谱Y2-nall(ω)计算得到所述改进的相位加权函数
Figure BDA0002009607750000041
其中
Figure BDA0002009607750000042
α=0.75;
将所述第一通道改进全通分量信号的频谱Y1-nall(ω)和第二通道改进全通分量信号的频谱Y2-nall(ω)乘以所述改进的相位加权函数
Figure BDA0002009607750000043
计算互功率谱G12(ω);其中,
Figure BDA0002009607750000044
作为优选方案,所述通过快速傅里叶反变换方法求解所述互功率谱的互相关函数,并根据所述互相关函数计算得到延迟时间,具体为:
通过快速傅里叶反变换方法求解所述互功率谱G12(ω)的互相关函数R12,并得到采样后的延迟时间τmax;其中,R12(τ)=IFFT(G12(ω)),τmax=argmaxτR12(τ),IFFT为快速傅里叶反变换;
根据所述采样后的延迟时间τmax求解采样前的延迟时间delay12,其中,delay12=τmax*fs,fs为采样频率。
相比于现有技术,本发明实施例的有益效果在于,本发明实施例提供了一种适用于声源定位的时延估计方法,包括:对通过两个传声器获得的语音信号进行信号处理,获得最小相位分量的复倒谱;根据所述最小相位分量的复倒谱计算信号最小相位分量的频谱和全通分量信号的频谱;利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱计算得到改进的全通分量频谱,并根据所述改进的全通分量频谱计算得到改进的相位加权函数,结合所述改进的全通分量频谱和所述改进的相位加权函数计算互功率谱;通过快速傅里叶反变换方法求解所述互功率谱的互相关函数,并根据所述互相关函数计算得到延迟时间。通过在得到全通分量信号的基础上,利用最小相位分量的频谱的模值与全通分量信号的频谱计算得到改进的全通分量频谱,并根据所述改进的全通分量频谱计算得到改进的相位加权函数,结合所述改进的全通分量频谱和所述改进的相位加权函数计算互功率谱,以保证全通分量信号在相位上能够有效的避免混响带来的影响的同时,能够增加信号频谱幅值的作用,从而有效地增加了时延估计方法在噪声下的估计性能,进而提高对于噪声的适应性和时延估计的准确度。其中,通过快速傅里叶反变换方法求解所述互功率谱的互相关函数,并根据所述互相关函数计算得到延迟时间,以使时延估计方法在混响和噪声环境下,能够有效地减少由噪声和混响带来影响,提高其对于噪声的适应性,且同时保留了全通分量信号的抗混响能力,从而使时延峰值的检测更为准确,进而提升时延估计的性能。
附图说明
图1是本发明实施例提供的一种适用于声源定位的时延估计方法的流程示意图;
图2是本发明实施例提供的一种适用于声源定位的时延估计方法的流程算法图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,本发明优选实施例提供了一种适用于声源定位的时延估计方法,包括:
S1、对通过两个传声器获得的语音信号进行信号处理,获得最小相位分量的复倒谱;
在本实施例中,为了实现声源定位,需要利用两个传声器分别接收语音信号,以估计声波从声源传播到两个传声器之间的时间差,然后根据时间差对声源位置进行估计。
S2、根据所述最小相位分量的复倒谱计算信号最小相位分量的频谱和全通分量信号的频谱;
S3、利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱计算得到改进的全通分量频谱,并根据所述改进的全通分量频谱计算得到改进的相位加权函数,结合所述改进的全通分量频谱和所述改进的相位加权函数计算互功率谱;
在本实施例中,利用基于倒谱滤波(Cepstral preflitering,CEP)技术将获得的所述最小相位分量的复倒谱计算最小相位分量的频谱和全通分量信号的频谱,通过在得到全通分量信号的基础上,利用最小相位分量的频谱的模值与全通分量信号的频谱计算得到改进的全通分量频谱,并根据所述改进的全通分量频谱计算得到改进的相位加权函数,结合所述改进的全通分量频谱和所述改进的相位加权函数计算互功率谱,以保证全通分量信号在相位上能够有效的避免混响带来的影响的同时,能够增加信号频谱幅值的作用,从而有效地增加了时延估计方法在噪声下的估计性能,进而提高对于噪声的适应性和时延估计的准确度。
S4、通过快速傅里叶反变换方法求解所述互功率谱的互相关函数,并根据所述互相关函数计算得到延迟时间。
在本发明实施例中,通过快速傅里叶反变换方法求解所述互功率谱的互相关函数,并根据所述互相关函数计算得到延迟时间,以使时延估计方法在混响和噪声环境下,能够有效地减少由噪声和混响带来影响,提高其对于噪声的适应性,且同时保留了全通分量信号的抗混响能力,从而使时延峰值的检测更为准确,进而提升时延估计的性能。
在本发明实施例中,优选的,所述利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱计算得到改进的全通分量频谱,并根据所述改进的全通分量频谱计算得到改进的相位加权函数,结合所述改进的全通分量频谱和所述改进的相位加权函数计算互功率谱,具体为:
利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱相乘得到所述改进的全通分量频谱;
根据所述改进的全通分量频谱计算得到所述改进的相位加权函数,结合所述改进的全通分量频谱和所述改进的相位加权函数计算得到所述互功率谱,以使全通分量信号乘以最小相位分量信号的幅值,从而增加时延估计算法在噪声下的估计性能,进而结合广义互相关函数法(Generalized cross correlation,GCC)时延估计技术,能够利用改进的相位加权法进行时延估计。
在本发明实施例中,所述对通过两个传声器获得的语音信号进行信号处理,获得最小相位分量的复倒谱,具体为:
通过两个传声器分别获得第一通道语音信号和第二通道语音信号;
对所述第一通道语音信号和所述第二通道语音信号进行信号处理,得到第一通道复倒谱和第二通道复倒谱;
对所述第一通道复倒谱和所述第二通道复倒谱进行同态滤波处理,获得第一通道最小相位分量的复倒谱和第二通道最小相位分量的复倒谱。
在本实施例中,为实现声源定位,需要通过两个传声器分别获得第一道语音信号和第二通道语音信号,以估计声波从声源传播到两个传声器之间的时间差,然后根据时间差对声源位置进行估计。
在本发明实施例中,所述对所述第一通道语音信号和所述第二通道语音信号进行信号处理,具体为:
设所述第一通道语音信号为x1(t),所述第二通道语音信号为x2(t);
对经过滤波、分帧处理后的信号x1(t)和x2(t)进行语音端点检测,并选取出同一帧的语音帧,得到对应的y1(t)和y2(t);
分别对y1(t)和y2(t)进行离散傅里叶变换处理,得到对应的Y1(ω)和Y2(ω);
根据Y1(ω)和Y2(ω)得到所述第一通道复倒谱k1(n)和所述第二通道复倒谱k2(n);其中,k1(n)=IFFT(ln(|Y1(ω)|)),k2(n)=IFFT(ln(|Y2(ω)|)),IFFT为快速傅里叶反变换;
对所述第一通道复倒谱k1(n)和所述第二通道复倒谱k2(n)进行同态滤波处理,分别获得所述第一通道最小相位分量的复倒谱k1min(n)和所述第二通道最小相位分量的复倒谱k2min(n);
其中,k1min(n)=u*k1(n),k2min(n)=u*k2(n),
Figure BDA0002009607750000081
N为傅里叶变换的点数。
在本发明实施例中,所述根据所述最小相位分量的复倒谱计算信号最小相位分量的频谱和全通分量信号的频谱,具体为:
根据所述第一通道最小相位分量的复倒谱k1min(n)和所述第二通道最小相位分量的复倒谱k2min(n)计算得到第一通道最小相位分量的频谱Y1min(ω)和第二通道最小相位分量的频谱Y2min(ω),其中,
Figure BDA0002009607750000093
FFT为快速傅里叶变换;
根据所述第一通道最小相位分量的频谱Y1min(ω)和所述第二通道最小相位分量的频谱Y2min(ω)计算得到第一通道全通分量信号的频谱Y1all(ω)和第二通道全通分量信号的频谱Y2all(ω),其中,Y1all(ω)=Y1(ω)/Y1min(ω),Y2all(ω)=Y2(ω)/Y2min(ω)。
在本发明实施例中,所述利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱计算得到改进的全通分量频谱,并根据所述改进的全通分量频谱计算得到改进的相位加权函数,结合所述改进的全通分量频谱和所述改进的相位加权函数计算互功率谱,具体为:
通过所述第一通道最小相位分量的频谱Y1min(ω)获得第一通道最小相位分量的频谱的模值|Y1min(ω)|,通过所述第二通道最小相位分量的频谱Y2min(ω)获得第二通道最小相位分量的频谱的模值|Y2min(ω)|;
将所述第一通道最小相位分量的频谱的模值|Y1min(ω)|与所述第一通道全通分量信号的频谱Y1all(ω)相乘,得到第一通道改进全通分量信号的频谱Y1-nall(ω);其中,Y1-nall(ω)=Y1all(ω)*|Y1min(ω)|;
将所述第二通道最小相位分量的频谱的模值|Y2min(ω)|与所述第二通道全通分量信号的频谱Y2all(ω)相乘,得到第二通道改进全通分量信号的频谱Y2-nall(ω);其中,Y2-nall(ω)=Y2all(ω)*|Y2min(ω)|;
利用所述第一通道改进全通分量信号的频谱Y1-nall(ω)和第二通道改进全通分量信号的频谱Y2-nall(ω)计算得到所述改进的相位加权函数
Figure BDA0002009607750000091
其中
Figure BDA0002009607750000092
α=0.75;
将所述第一通道改进全通分量信号的频谱Y1-nall(ω)和第二通道改进全通分量信号的频谱Y2-nall(ω)乘以所述改进的相位加权函数
Figure BDA0002009607750000101
计算互功率谱G12(ω);其中,
Figure BDA0002009607750000102
在本实施例中,利用基于倒谱滤波(Cepstral preflitering,CEP)技术将获得的所述最小相位分量的复倒谱计算最小相位分量的频谱和全通分量信号的频谱,通过在得到全通分量信号的基础上,利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱计算得到改进的全通分量频谱,并根据所述改进的全通分量频谱计算得到改进的相位加权函数,利用所述改进的全通分量频谱乘以所述改进的相位加权函数计算互功率谱,以保证全通分量信号在相位上能够有效的避免混响带来的影响的同时,能够增加信号频谱幅值的作用,从而有效地增加了时延估计方法在噪声下的估计性能,进而提高对于噪声的适应性和时延估计的准确度。
在本发明实施例中,所述通过快速傅里叶反变换方法求解所述互功率谱的互相关函数,并根据所述互相关函数计算得到延迟时间,具体为:
通过快速傅里叶反变换方法求解所述互功率谱G12(ω)的互相关函数R12,并得到采样后的延迟时间τmax;其中,R12(τ)=IFFT(G12(ω)),τmax=argmaxτR12(τ),IFFT为快速傅里叶反变换;
根据所述采样后的延迟时间τmax求解采样前的延迟时间delay12,其中,delay12=τmax*fs,其中fs为采样频率。
在本发明实施例中,通过快速傅里叶反变换方法求解所述互功率谱的互相关函数,并根据所述互相关函数计算得到延迟时间,以使时延估计方法在混响和噪声环境下,能够有效地减少由噪声和混响带来影响,提高其对于噪声的适应性,且同时保留了全通分量信号的抗混响能力,从而使时延峰值的检测更为准确,进而提升时延估计的性能。
请参见图2,本发明提供的一种适用于声源定位的时延估计方法,其中一种可行的具体实施例的流程如下:
1、利用两个传声器,包括传声器mir1和传声器mir2分别对语音信号进行接收,接收到的语音信号为第一通道语音信号和第二通道语音信号,并分别记为x1(t)和x2(t);
2、对两通道的第一通道语音信号和第二通道语音信号x1(t)和第二通道语音信号x2(t)进行滤波、分帧处理;
3、对已经过滤波、分帧处理后的信号x1(t)和x2(t)分别进行语音端点检测,并选取出同一帧的语音帧,得到对应的y1(t)和y2(t);
4、分别对y1(t)和y2(t)进行离散傅里叶变换,得到Y1(ω)和Y2(ω);
5、分别求出Y1(ω)和Y2(ω)对应的第一通道复倒谱k1(n)和第二通道复倒谱k2(n),计算过程如下:
k1(n)=IFFT(ln(|Y1(ω)|)),k2(n)=IFFT(ln(|Y2(ω)|)),其中IFFT为快速傅里叶反变换;
6、分别对第一通道复倒谱k1(n)和第二通道复倒谱k2(n)进行同态滤波处理,得到对应的第一通道最小相位分量的复倒谱k1min(n)和第二通道最小相位分量的复倒谱k2min(n),计算过程如下:
k1min(n)=u*k1(n),k2min(n)=u*k2(n),
Figure BDA0002009607750000111
N为傅里叶变换的点数;
7、分别求出两通道最小相位分量的频谱:第一通道最小相位分量的频谱Y1min(ω)和第二通道最小相位分量的频谱Y2min(ω),计算过程如下:
Figure BDA0002009607750000112
其中FFT为快速傅里叶变换;
8、分别求出两通道全通分量的信号的频谱:第一通道全通分量信号的频谱Y1all(ω)和第二通道全通分量信号的频谱Y2all(ω),计算过程如下:
Y1all(ω)=Y1(ω)/Y1min(ω),Y2all(ω)=Y2(ω)/Y2min(ω);
9、取最小相位分量的频谱的模值与全通分量的信号的频谱相乘:利用所述第一通道最小相位分量的频谱的模值|Y1min(ω)|与所述第一通道全通分量信号的频谱Y1all(ω)相乘,得到第一通道改进全通分量信号的频谱Y1-nall(ω),利用所述第二通道最小相位分量的频谱的模值|Y2min(ω)|与所述第二通道全通分量信号的频谱Y2all(ω)相乘,得到第二通道改进全通分量信号的频谱Y2-nall(ω),计算过程如下:
Y1-nall(ω)=Y1all(ω)*|Y1min(ω)|,Y2-nall(ω)=Y2all(ω)*|Y2min(ω)|;
10、利用第一通道改进全通分量信号的频谱Y1-nall(ω)和第二通道改进全通分量信号的频谱Y2-nall(ω)计算得到改进的相位加权函数
Figure BDA0002009607750000121
计算过程如下:
Figure BDA0002009607750000122
11、将所述第一通道改进全通分量信号的频谱Y1-nall(ω)和第二通道改进全通分量信号的频谱Y2-nall(ω)乘以所述改进的相位加权函数
Figure BDA0002009607750000123
计算互功率谱G12(ω),计算过程如下:
Figure BDA0002009607750000124
其中“'”表示共轭;
12、通过快速傅里叶反变换方法求解所述互功率谱G12(ω)的互相关函数R12,确定峰值所在位置,得到采样后的延迟时间τmax,计算过程如下:
R12(τ)=IFFT(G12(ω)),τmax=argmaxτR12(τ),IFFT为快速傅里叶反变换;
13、由采样后的延迟时间τmax求解得到采样前的延迟时间delay12,计算过程如下:
delay12=τmax*fs,其中fs为采样频率;
相比于现有技术,本发明实施例提供的一种适用于声源定位的时延估计方法具有如下有益效果:
(1)通过在得到全通分量信号的基础上,利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱计算得到改进的全通分量频谱,并根据所述改进的全通分量频谱计算得到改进的相位加权函数,结合所述改进的全通分量频谱和所述改进的相位加权函数计算互功率谱,以保证全通分量信号在相位上能够有效的避免混响带来的影响的同时,能够增加信号频谱幅值的作用,从而有效地增加了时延估计方法在噪声下的估计性能,进而提高对于噪声的适应性和时延估计的准确度。
(2)通过快速傅里叶反变换方法求解所述互功率谱的互相关函数,并根据所述互相关函数计算得到延迟时间,以使时延估计方法在混响和噪声环境下,能够有效地减少由噪声和混响带来影响,提高其对于噪声的适应性,且同时保留了全通分量信号的抗混响能力,从而使时延峰值的检测更为准确,进而提升时延估计的性能。
(3)与传统的基于CEP倒谱时延估计和互功率谱时延估计相比,本发明通过在全通分量信号上加上最小相位分量信号的模值,以保证全通分量信号在相位上能够有效的避免混响带来的影响,同时增加了信号频谱幅值的作用,从而可以通过结合改进的GCC加权法,使时延估计方法在低信噪比下仍然能够有效估计,从而提升了在低信噪比和混响的情况下的估计准确率。
(4)由于现有的CEP时延估计技术得到的全通分量信号部分频谱模值上相当于被白化,只能结合传统的相位加权,而本发明能够有效的结合各种改进的GCC-Phat等各种算法,使算法对于噪声适应性更好,且同时保留了全通分量信号的抗混响能力。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (5)

1.一种适用于声源定位的时延估计方法,其特征在于,包括:
对通过两个传声器获得的语音信号进行信号处理,获得最小相位分量的复倒谱;
根据所述最小相位分量的复倒谱计算信号最小相位分量的频谱和全通分量信号的频谱;
利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱计算得到改进的全通分量频谱,并根据所述改进的全通分量频谱计算得到改进的相位加权函数,结合所述改进的全通分量频谱和所述改进的相位加权函数计算互功率谱;
通过快速傅里叶反变换方法求解所述互功率谱的互相关函数,并根据所述互相关函数计算得到延迟时间;
其中,所述对通过两个传声器获得的语音信号进行信号处理,获得最小相位分量的复倒谱,具体为:
通过两个传声器分别获得第一通道语音信号x1(t)和第二通道语音信号x2(t);
对所述第一通道语音信号x1(t)和所述第二通道语音信号x2(t)进行信号处理,得到第一通道复倒谱k1(n)和第二通道复倒谱k2(n);
对所述第一通道复倒谱k1(n)和所述第二通道复倒谱k2(n)进行同态滤波处理,获得第一通道最小相位分量的复倒谱k1min(n)和第二通道最小相位分量的复倒谱k2min(n);
所述根据所述最小相位分量的复倒谱计算信号最小相位分量的频谱和全通分量信号的频谱,具体为:
根据所述第一通道最小相位分量的复倒谱k1min(n)和所述第二通道最小相位分量的复倒谱k2min(n)计算得到第一通道最小相位分量的频谱Y1min(ω)和第二通道最小相位分量的频谱Y2min(ω);
根据所述第一通道最小相位分量的频谱Y1min(ω)和所述第二通道最小相位分量的频谱Y2min(ω)计算得到第一通道全通分量信号的频谱Y1all(ω)和第二通道全通分量信号的频谱Y2all(ω);
所述利用所述最小相位分量的频谱的模值与所述全通分量信号的频谱计算得到改进的全通分量频谱,并根据所述改进的全通分量频谱计算得到改进的相位加权函数,具体为:
通过所述第一通道最小相位分量的频谱Y1min(ω)获得第一通道最小相位分量的频谱的模值|Y1min(ω)|,通过所述第二通道最小相位分量的频谱Y2min(ω)获得第二通道最小相位分量的频谱的模值|Y2min(ω)|;
将所述第一通道最小相位分量的频谱的模值|Y1min(ω)|与所述第一通道全通分量信号的频谱Y1all(ω)相乘,得到第一通道改进全通分量信号的频谱Y1-nall(ω);其中,Y1-nall(ω)=Y1all(ω)*|Y1min(ω)|;
将所述第二通道最小相位分量的频谱的模值|Y2min(ω)|与所述第二通道全通分量信号的频谱Y2all(ω)相乘,得到第二通道改进全通分量信号的频谱Y2-nall(ω);其中,Y2-nall(ω)=Y2all(ω)*|Y2min(ω)|;
利用所述第一通道改进全通分量信号的频谱Y1-nall(ω)和第二通道改进全通分量信号的频谱Y2-nall(ω)计算得到所述改进的相位加权函数
Figure FDA0002558253080000021
其中
Figure FDA0002558253080000022
2.如权利要求1所述的适用于声源定位的时延估计方法,其特征在于,所述对所述第一通道语音信号和所述第二通道语音信号进行信号处理,具体为:
设所述第一通道语音信号为x1(t),所述第二通道语音信号为x2(t);
对经过滤波、分帧处理后的信号x1(t)和x2(t)进行语音端点检测,并选取出同一帧的语音帧,得到对应的y1(t)和y2(t);
分别对y1(t)和y2(t)进行离散傅里叶变换处理,得到对应的Y1(ω)和Y2(ω);
根据Y1(ω)和Y2(ω)得到所述第一通道复倒谱k1(n)和所述第二通道复倒谱k2(n);其中,k1(n)=IFFT(ln(|Y1(ω)|)),k2(n)=IFFT(ln(|Y2(ω)|)),IFFT为快速傅里叶反变换;
对所述第一通道复倒谱k1(n)和所述第二通道复倒谱k2(n)进行同态滤波处理,分别获得所述第一通道最小相位分量的复倒谱k1min(n)和所述第二通道最小相位分量的复倒谱k2min(n);
其中,k1min(n)=u*k1(n),k2min(n)=u*k2(n),
Figure FDA0002558253080000031
N为傅里叶变换的点数。
3.如权利要求2所述的适用于声源定位的时延估计方法,其特征在于,所述根据所述最小相位分量的复倒谱计算信号最小相位分量的频谱和全通分量信号的频谱,具体为:
根据所述第一通道最小相位分量的复倒谱k1min(n)和所述第二通道最小相位分量的复倒谱k2min(n)计算得到第一通道最小相位分量的频谱Y1min(ω)和第二通道最小相位分量的频谱Y2min(ω),其中,
Figure FDA0002558253080000032
FFT为快速傅里叶变换;
根据所述第一通道最小相位分量的频谱Y1min(ω)和所述第二通道最小相位分量的频谱Y2min(ω)计算得到第一通道全通分量信号的频谱Y1all(ω)和第二通道全通分量信号的频谱Y2all(ω),其中,Y1all(ω)=Y1(ω)/Y1min(ω),Y2all(ω)=Y2(ω)/Y2min(ω)。
4.如权利要求3所述的适用于声源定位的时延估计方法,其特征在于,所述结合所述改进的全通分量频谱和所述改进的相位加权函数计算互功率谱,具体为:
将所述第一通道改进全通分量信号的频谱Y1-nall(ω)和第二通道改进全通分量信号的频谱Y2-nall(ω)乘以所述改进的相位加权函数
Figure FDA0002558253080000041
计算互功率谱
Figure FDA0002558253080000042
其中,
Figure FDA0002558253080000043
5.如权利要求4所述的适用于声源定位的时延估计方法,其特征在于,所述通过快速傅里叶反变换方法求解所述互功率谱的互相关函数,并根据所述互相关函数计算得到延迟时间,具体为:
通过快速傅里叶反变换方法求解所述互功率谱G12(ω)的互相关函数R12,并得到采样后的延迟时间τmax;其中,R12(τ)=IFFT(G12(ω)),τmax=arg maxτR12(τ),IFFT为快速傅里叶反变换;
根据所述采样后的延迟时间τmax求解采样前的延迟时间delay12,其中,delay12=τmax*fs,fs为采样频率。
CN201910242080.4A 2019-03-28 2019-03-28 一种适用于声源定位的时延估计方法 Active CN109901114B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910242080.4A CN109901114B (zh) 2019-03-28 2019-03-28 一种适用于声源定位的时延估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910242080.4A CN109901114B (zh) 2019-03-28 2019-03-28 一种适用于声源定位的时延估计方法

Publications (2)

Publication Number Publication Date
CN109901114A CN109901114A (zh) 2019-06-18
CN109901114B true CN109901114B (zh) 2020-10-27

Family

ID=66953085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910242080.4A Active CN109901114B (zh) 2019-03-28 2019-03-28 一种适用于声源定位的时延估计方法

Country Status (1)

Country Link
CN (1) CN109901114B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110418242B (zh) * 2019-07-30 2021-02-05 西安声必捷信息科技有限公司 声源定向方法、装置及系统
CN113948098B (zh) * 2020-07-17 2025-06-10 华为技术有限公司 一种立体声音频信号时延估计方法及装置
CN117110990B (zh) * 2023-08-11 2025-01-14 广州大学 一种噪声源方向被动定位的方法和装置
CN118746797B (zh) * 2024-09-02 2025-02-14 杭州兆华电子股份有限公司 一种基于复杂混响会议室环境的时延计算方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102347028A (zh) * 2011-07-14 2012-02-08 瑞声声学科技(深圳)有限公司 双麦克风语音增强装置及方法
CN107479030A (zh) * 2017-07-14 2017-12-15 重庆邮电大学 基于分频和改进的广义互相关双耳时延估计方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7769183B2 (en) * 2002-06-21 2010-08-03 University Of Southern California System and method for automatic room acoustic correction in multi-channel audio environments

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102347028A (zh) * 2011-07-14 2012-02-08 瑞声声学科技(深圳)有限公司 双麦克风语音增强装置及方法
CN107479030A (zh) * 2017-07-14 2017-12-15 重庆邮电大学 基于分频和改进的广义互相关双耳时延估计方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"A new cepstral prefiltering technique for estimating time delay under reverberant conditions";Alex Stephenne et al.;《Signal Processing》;19971231;全文 *
"Time delay estimation via minimum-phase and all-pass component processing";Mosayyebpour S et al.;《2013 IEEE International Conference on Acoustics,Speech and Signal Processing》;20131231;全文 *
"基于时延估计的声源定位系统研究";张明翰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20091215(第12期);全文 *
"混响环境下基于倒谱BRIR的双耳互相关声源定位算法";张毅 等;《自动化学报》;20161031;第42卷(第10期);全文 *

Also Published As

Publication number Publication date
CN109901114A (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
US11825279B2 (en) Robust estimation of sound source localization
CN109901114B (zh) 一种适用于声源定位的时延估计方法
WO2020042708A1 (zh) 基于时频掩蔽和深度神经网络的声源方向估计方法
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及系统
CN106226739A (zh) 融合子带分析的双声源定位方法
WO2015196729A1 (zh) 一种麦克风阵列语音增强方法及装置
CN102565759B (zh) 一种基于子带信噪比估计的双耳声源定位方法
CN103165137B (zh) 一种非平稳噪声环境下传声器阵列的语音增强方法
CN106782590A (zh) 基于混响环境下麦克风阵列波束形成方法
CN101263734A (zh) 麦克风阵列用后置滤波器
CN103268766B (zh) 双麦克风语音增强方法及装置
CN116312602A (zh) 基于干扰噪声空间谱矩阵的语音信号波束成形方法
CN110111802A (zh) 基于卡尔曼滤波的自适应去混响方法
Wang et al. Microphone array post-filter based on accurate estimation of noise power spectral density
Tammen et al. Complexity reduction of eigenvalue decomposition-based diffuse power spectral density estimators using the power method
Guo et al. A Robust Dual-Microphone Speech Source Localization Algorithm for Reverberant Environments.
US11462231B1 (en) Spectral smoothing method for noise reduction
JP2010210728A (ja) 音響信号処理方法及び装置
CN101645701B (zh) 一种基于滤波器组的时延估计方法及其系统
Zhu et al. Sound source localization through optimal peak association in reverberant environments
Ji et al. Coherence-Based Dual-Channel Noise Reduction Algorithm in a Complex Noisy Environment.
Yousefian et al. Power level difference as a criterion for speech enhancement
CN108269581A (zh) 一种基于频域相干函数的双麦克风时延差估计方法
Swartling et al. Direction of arrival estimation for speech sources using fourth order cross cumulants
JP4173469B2 (ja) 信号抽出方法、信号抽出装置、拡声装置、送話装置、受信装置、信号抽出プログラム、これを記録した記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant