CN102231280B - 卷积语音信号的频域盲分离排序算法 - Google Patents
卷积语音信号的频域盲分离排序算法 Download PDFInfo
- Publication number
- CN102231280B CN102231280B CN2011101170222A CN201110117022A CN102231280B CN 102231280 B CN102231280 B CN 102231280B CN 2011101170222 A CN2011101170222 A CN 2011101170222A CN 201110117022 A CN201110117022 A CN 201110117022A CN 102231280 B CN102231280 B CN 102231280B
- Authority
- CN
- China
- Prior art keywords
- frequency band
- frequency
- separation
- benchmark
- frequency bands
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Complex Calculations (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提供了一种卷积语音信号的频域盲分离排序算法,对于卷积混叠语音信号,首先由时域转换到频域,在每个频带上使用频域ICA算法进行盲分离,然后使用本发明的排序算法进行排序:(1)选取基准频带进行对准;(2)根据已排序好的基准频带对剩余频带进行排序;(3)标记可能出现排序错误的频带,利用基于分离矩阵的DOA估计进行补充性对准。本发明利用基准频带对准的思想并结合了现有基于频带相关性的排序算法和基于DOA的排序算法两类排序算法的优势,具有很好的鲁棒性和准确性,并且在真实环境中仍然适用。
Description
技术领域
本发明涉及一种解决卷积混合语音信号在频域盲源分离过程中存在的次序不确定性问题的方法,属于语音信号处理领域。
背景技术
盲分离算法是在源信号和混合过程未知的情况下,从观测的混合信号中估计出原始信号的方法。盲分离算法广泛应用于语音信号处理、无线通信、医学信号处理等多个领域。针对卷积盲分离问题,目前主要存在两类算法:第一类是时域分离算法,第二类是频域分离算法。频域语音信号盲分离算法相对于时域盲源分离算法来说,因其较小的计算量和良好的分离性能而受到研究人员的关注。但是频域分离算法也存在两个问题:一个是幅值不确定性,一个是次序不确定性。其中次序不确定性对卷积混合频域盲分离算法的影响非常大,可以说它是卷积混合频域盲分离算法成功与否的最关键因素,也是当前卷积盲分离研究的热点之一。因为次序不确定性会使相邻频带上分离出来的信号连接错误,最终导致分离失败。
目前解决频域盲分离次序不确定问题的方法主要有两大类:第一类是基于到达角估计(DOA)的排序方法,第二类是基于频带间相关性的排序方法。这两类排序算法的优缺点:
(1)基于DOA的排序算法具有很好的鲁棒性,因为在一个频带上的不对准不会影响其他频带;但是该算法准确性较差,计算量大。
(2)基于频带间相关性的排序算法具有较好的准确性,但是鲁棒性较差,因为在一个频带上的不对准会导致连续频带上的排序发生错误。
发明内容
本发明针对现有解决卷积频域盲分离中存在的次序不确定性问题的方法所存在的不足,提出一种具有较好的鲁棒性和准确性的卷积语音信号的频域盲分离排序算法。
本发明的卷积语音信号的频域盲分离排序算法,使用卷积混叠模型,对于卷积混叠语音信号,首先由时域转换到频域,在每个频带上使用频域ICA算法进行盲分离,然后按以下步骤进行排序,实现每个频带的对准:
(1)基准频带的对准:选取基准频带进行对准,在所有频带中选取基准频带,根据对于同一个语音信号在不同频带上能量随时间呈现相似的变化这一特点对基准频带进行排序;
(2)剩余频带的对准:根据已排序好的基准频带对剩余频带进行排序,每个剩余频带都有对应的基准频带,对应的基准频带是指距离该剩余频带最近的基准频带,利用已排序好的基准频带,根据同一语音信号在相邻频带上的幅度相关性这一特点,对每个剩余频带进行排序;
(3)补充性对准:标记可能出现排序错误的频带,利用基于分离矩阵的DOA估计进行补充性对准,对步骤(2)中可能出现对准错误的频带用基于到达角估计(DOA)的排序方法进行重新排序。
所述步骤(1)的具体实现步骤为:
A.选取基准频带,假设相邻基准频带间隔偶数个频带;
B.计算每个基准频带上的能量轮廓,遍历所有可能的排序,最终找到使目标函数最小化的排序即为最终的排序。
所述步骤(2)的具体实现步骤为:
A.根据分离矩阵计算每个频带上分离出来的信号;
B.计算每个剩余频带与对应的基准频带上分离信号的幅度相关性;
C.遍历所有可能的排序,找到幅度相关性最大的排序即为最终的排序。
所述步骤(3)的具体实现步骤为:
A.若在步骤(2)中对于不同的排序,个别频带上幅度相关性相差不大,则这些频带上有可能出现排序错误,对这些频带进行标记;
B.对标记的频带进行基于分离矩阵的DOA估计;
C.对估计出的DOA进行聚类,即找到分离矩阵相应的排序。
上述算法中第(1)步和第(2)步利用了基于频带相关性的排序算法的准确性高的优点,同时通过基准频带的选取在一定程度上克服了其鲁棒性差的缺点。第(3)步利用了基于DOA的排序算法鲁棒性高的优点来进行补充性对准,同时由于步骤三中所需对准的频带数很少,不会过多增加整个排序算法的计算复杂度。
本发明采用基准频带的思想并结合了现有的基于频带间相关性和基于到达角估计(DOA)这两类主要排序算法的优势,具有很好的鲁棒性和准确性。
附图说明
图1是频域盲分离流程框图。
图2是原始语音信号图。
图3是未排序的全局滤波器W(t)*H(t)的冲激响应图。
图4是本发明排序后的全局滤波器W(t)*H(t)的冲激响应图。
图5是经过每一步排序后的NRR比较图。
图6是真实环境下语音采集的房间布局示意图。
图7是真实环境下观测信号、估计信号和真实源信号图。
具体实施方式
本发明所使用的是K×K(K个源信号,K个观测信号)的卷积混叠模型:其中观测信号向量x(n)=[x1(n),x2(n),..,xK(n)]T,源信号向量s(n)=[s1(n),s2(n),..,sK(n)]T(上标“T”表示转置),N为FIR滤波器的长度,是延迟为l时的K×K混合滤波器矩阵,其中hij是第j个源信号到第i个传感器的冲击响应。对于卷积盲分离,目标是寻找L个K×K分离滤波器矩阵W(l),估计出源信号该式经过短时傅里叶变换(STFT)后,卷积混叠模型转换成在每个频带上的瞬时混叠,即在频带fk,τ时间段上有Y(fk,τ)=W(fk)X(fk,τ)。通过频域ICA(独立成分分析)算法,在每个频带上得到K×K的分离矩阵W(fk)。W(fk)每一行为不同源信号的估计向量。要解决次序不确定性,即解决W(fk)所有行的排序问题,使在所有频带上W(fk)的同一行对应于同一个源信号。
频域盲分离流程如图1所示,采用L=2048STFT,其中的交迭系数为0.75。频域ICA采用的是联合对角化算法(JADIAG),接下来,需要解决频域盲分离排序问题,即要寻找正确的排序矩阵P(f),通过W(f)←P(f)W(f)来更新W(f)。对于解决频域盲分离排序问题的算法具体实施方式如下:
1.基准频带的对准。选取基准频带fb=0,(M/L)FS,(2M/L)FS,...,((L-1)/L)FS,其中M为正奇数,FS为采样频率。对于一个语音信号,在不同频带上的能量随时间呈现相似的变化。基于该相似性,对基准频带进行排序。
首先,计算估计信号的零均值能量轮廓的对数值:
其中Yi(fb,τ)是在基准频带fb,时间段τ上的第i个估计信号。
然后,利用“Blind Separation of Speech Mixtures Based on Nonstationarity”in Proc.ofISSPA 2003Conf.,Paris,France,73-76,July 2003.(“基于非平稳性的语音盲分离”,《2003年ISSPA会议论文集》,法国巴黎,73-76,07/2003.)提出的一个目标函数:
其中Ei(·)是第i个源的能量轮廓,通过计算E(∏(i),fb,τ)在所有基准频带上的平均值求得。πi(fb)是指一种排序方式。遍历{1,...,K}所有的排序,能找到一种排序π1(fb),π2(fb),..,πK(fb)使得该目标函数最小,进而得到排序矩阵P(fb)
2.剩余频带的对准。经过步骤1基准频带的对准后还有(1-1/M)L个频带没有进行对准。根据相邻频带间分离信号的幅度相关性进行排序。具体过程如下:对于第j个基准频带fbj=((j-1)M/L)Fs,它的相邻频带为fbj-(M-1)/2,...,fbj-1,fbj+1,fbj+2,...,fbj+(M-1)/2,其中fbj+l=(((j-1)M+l)/L)Fs。在所有T个时间段τ1,τ2,..τT,频带fbj+l上的第i个输出为Yi(fbj+l)=[Yi(fbj+l,τ1),Yi(fbj+l,τ2),...,Yi(fbj+l,τT),],输出矩阵计算Y(fbjj)和(P(fbj+l)Y(fbj+l))T的相关矩阵Corbj+l,矩阵中的元素表示Y(fbj)的第m行与(P(fbj+l)Y(fbj+l))的第n行的相关系数,其中P为排序矩阵。如果剩余频带是对准的,则Corbj+l应类似于一个对角阵,及对角线上的元素值远大于其他元素的值。则对于不同的排序矩阵,最小化目标函数
3.补充性对准。
经过步骤2对准后,绝大部分频带上实现正确的对准,但存在个别频带与其基准频带的相关矩阵Cor,其对角线上的元素值与其他元素的值相差不大。在这些频带上可能会出现对准错误。首先找到这些个别的频带,对于2×2的卷积混叠模型,这些频带上Cor中的元素满足下面的条件:
其中,β为设定的阈值。根据该条件,假设找到Z个可能出现对准错误的频带,记为fq(q=1,2,...,Z),频带fq上的分离矩阵记为W(fq)。根据经典的DOA公式,如在“A robust andprecise method for solving the permutation problem of frequency-domain blind sourceseparation,”4th International Symposium on Independent Component Analysis and Blind SignalSeparation(ICA2003),April 2003,Nara,Japan.(“一种解决频域盲分离排序问题的鲁棒且准确的方法,”第四届独立成分分析和盲信号分离国际研讨会(ICA 2003),2003年4月,日本奈良)在频带fq上估计出源信号的到达角θi(fq)(i=1,2)。
其中W(fq)11,W(fq)12,W(fq)21,W(fq)22是矩阵W(fq)中的4个元素,c为声速,d1和d2是两个麦克风的位置。由上式可以看出W(fq)的每一行决定一个源信号的到达角。
选取一个基准频带fbj,如基准频带fb3,估计两个到达角θ1(fb3),θ2(fb3)。如果(θ1(fb3)-θ2(fb3))(θ1(fq)-θ2(fq))<0,则将W(fq)的两行颠倒顺序。
下面通过两部分实验来验证本发明的性能。第一部分,对人工卷积的语音文件进行盲分离实验。第二部分,采集真实语音环境中的混叠语音进行盲分离实验,展示分离效果。在两部分实验中,使用2×2的卷积混叠模型。
(1)对人工卷积的语音文件进行盲分离实验。
房间的冲击响应是由roomix.m(http://sound.media.mit.edu/ica-bench)生成,它是在真实的3.5m×7m×3m的会议室环境中测量得出的。两个原始语音信号如图2所示,采样率为16kHz,β=0.5。
a.W(t)*H(t)图。经过JADIAG盲分离算法但未对分离矩阵排序时的全局滤波器W(t)*H(t)(W(t)是经过排序后的分离滤波器,H(t)是房间冲击响应即混合滤波器,“*”是卷积符号)如图3所示。经过本发明的排序方法,得到的全局滤波器W(t)*H(t)图,如图4所示,(W(t)*H(t))11和(W(t)*H(t))22相比于(W(t)*H(t))12和(W(t)*H(t))21,包含了全局滤波器绝大部分能量,并且集中在很短的时间段内,相当于两个单位冲击函数。由此可见两个源信号已经被很好地估计出来。
b.NRR比较。
噪声消除率(NRR)定义如下:
其中和分别是估计信号的信噪比和源信号的信噪比,n=1,2,并且n≠l。当计算一个信号或时,将另一个信号视为噪声。Gij(fk)和Hij(fk)分别是G(fk)和H(fk)的第i行第j列,G(fk)=W(fk)H(fk),其中H(fk)是混合矩阵,W(fk)是分离矩阵。可见,NRR越大,证明分离效果越好。经过每一步排序后的NRR值如图5所示,因为第一步是对基准频带进行排序,而基准频带的数目占频带总数的比例很小,所以NRR提升不明显;经过第二步排序后,绝大部分频带实现正确的对准,NRR有了明显的提高;第三步作为对第二步排序的补充性对准,NRR有了一定的改进。
(2)采集真实语音环境中的混叠语音进行盲分离实验。
在如图6所示房间里以12kHz的采样率采集两段语音信号。观测信号的信噪比为11dB。如图7所示,第1行和第2行是两个观测信号,第3行和第4行显示的是估计出的源信号,最后两行显示的是真实的源信号。通过比较估计信号和真实源信号的波形,观测信号已成功实现盲分离,可见本发明在真实环境中也是适用的。
Claims (3)
1.一种卷积语音信号的频域盲分离排序算法,其特征是,使用卷积混叠模型,对于卷积混叠语音信号,首先由时域转换到频域,在每个频带上使用频域ICA算法进行盲分离,然后按以下步骤进行排序,实现每个频带的对准:
(1)基准频带的对准:选取基准频带进行对准,在所有频带中选取基准频带,假设相邻基准频带间隔偶数个频带,根据对于同一个语音信号在不同频带上能量随时间呈现相似的变化这一特点对基准频带进行排序;
(2)剩余频带的对准:根据已排序好的基准频带对剩余频带进行排序,每个剩余频带都有对应的基准频带,对应的基准频带是指距离该剩余频带最近的基准频带,利用已排序好的基准频带,根据同一语音信号在相邻频带上的幅度相关性这一特点,对每个剩余频带进行排序;
(3)补充性对准:标记可能出现排序错误的频带,利用基于分离矩阵的DOA估计进行补充性对准,对步骤(2)中可能出现对准错误的频带用基于到达角估计的排序方法进行重新排序。
2.根据权利要求1所述的卷积语音信号的频域盲分离排序算法,其特征是:所述步骤(2)的具体实现步骤为:
A.根据分离矩阵计算每个频带上分离出来的信号;
B.计算每个剩余频带与对应的基准频带上分离信号的幅度相关性;
C.遍历所有可能的排序,找到幅度相关性最大的排序即为最终的排序。
3.根据权利要求1所述的卷积语音信号的频域盲分离排序算法,其特征是:所述步骤(3)的具体实现步骤为:
A.若在步骤(2)中对于不同的排序,个别频带上幅度相关性相差不大,则这些频带上有可能出现排序错误,对这些频带进行标记;
B.对标记的频带进行基于分离矩阵的DOA估计;
C.对估计出的DOA进行聚类,即找到分离矩阵相应的排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011101170222A CN102231280B (zh) | 2011-05-06 | 2011-05-06 | 卷积语音信号的频域盲分离排序算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011101170222A CN102231280B (zh) | 2011-05-06 | 2011-05-06 | 卷积语音信号的频域盲分离排序算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102231280A CN102231280A (zh) | 2011-11-02 |
CN102231280B true CN102231280B (zh) | 2013-04-03 |
Family
ID=44843840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011101170222A Expired - Fee Related CN102231280B (zh) | 2011-05-06 | 2011-05-06 | 卷积语音信号的频域盲分离排序算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102231280B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102610237A (zh) * | 2012-03-21 | 2012-07-25 | 山东大学 | 两通道卷积混合语音信号盲分离算法的dsp实现系统 |
JP6216550B2 (ja) * | 2013-06-25 | 2017-10-18 | クラリオン株式会社 | フィルタ係数群演算装置及びフィルタ係数群演算方法 |
CN103870875B (zh) * | 2014-03-18 | 2016-08-31 | 中国人民解放军理工大学 | 一种分离时频域混合信号的方法 |
KR20170051856A (ko) * | 2015-11-02 | 2017-05-12 | 주식회사 아이티매직 | 사운드 신호에서 진단 신호를 추출하는 방법 및 진단 장치 |
WO2017094862A1 (ja) * | 2015-12-02 | 2017-06-08 | 日本電信電話株式会社 | 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム |
CN105825866A (zh) * | 2016-05-24 | 2016-08-03 | 天津大学 | 基于模糊系统实时卷积混合盲信号分离自适应步长方法 |
CN106231497B (zh) * | 2016-09-18 | 2022-05-17 | 智车优行科技(北京)有限公司 | 车载扬声器播放音量调整装置、方法及车辆 |
CN106887238B (zh) * | 2017-03-01 | 2020-05-15 | 中国科学院上海微系统与信息技术研究所 | 一种基于改进独立向量分析算法的声信号盲分离方法 |
CN109285557B (zh) * | 2017-07-19 | 2022-11-01 | 杭州海康威视数字技术股份有限公司 | 一种定向拾音方法、装置及电子设备 |
CN108447493A (zh) * | 2018-04-03 | 2018-08-24 | 西安交通大学 | 频域卷积盲源分离分频段多质心聚类排序方法 |
CN110058312B (zh) * | 2018-10-22 | 2020-07-31 | 南方科技大学 | 一种抑制地磁近场噪声干扰的方法、装置及终端设备 |
CN110010148B (zh) * | 2019-03-19 | 2021-03-16 | 中国科学院声学研究所 | 一种低复杂度的频域盲分离方法及系统 |
CN112151061B (zh) * | 2019-06-28 | 2023-12-12 | 北京地平线机器人技术研发有限公司 | 信号排序方法和装置、计算机可读存储介质、电子设备 |
CN112863536A (zh) * | 2020-12-24 | 2021-05-28 | 深圳供电局有限公司 | 环境噪声提取方法、装置、计算机设备和存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101667425A (zh) * | 2009-09-22 | 2010-03-10 | 山东大学 | 一种对卷积混叠语音信号进行盲源分离的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8144896B2 (en) * | 2008-02-22 | 2012-03-27 | Microsoft Corporation | Speech separation with microphone arrays |
CN101819782B (zh) * | 2010-03-10 | 2012-04-18 | 重庆邮电大学 | 一种变步长自适应盲源分离方法及盲源分离系统 |
-
2011
- 2011-05-06 CN CN2011101170222A patent/CN102231280B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101667425A (zh) * | 2009-09-22 | 2010-03-10 | 山东大学 | 一种对卷积混叠语音信号进行盲源分离的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102231280A (zh) | 2011-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102231280B (zh) | 卷积语音信号的频域盲分离排序算法 | |
CN110010148B (zh) | 一种低复杂度的频域盲分离方法及系统 | |
CN101667425A (zh) | 一种对卷积混叠语音信号进行盲源分离的方法 | |
CN103051367B (zh) | 一种基于聚类的同步正交跳频信号盲源分离方法 | |
CN101957443B (zh) | 声源定位方法 | |
CN102074236A (zh) | 一种分布式麦克风的说话人聚类方法 | |
CN104991573A (zh) | 一种基于声源阵列的定位跟踪方法及其装置 | |
CN107884751B (zh) | 一种利用单通道接收信号作信源数目估计的方法 | |
CN104934041B (zh) | 基于多目标优化联合块对角化的卷积盲信号分离方法 | |
CN105738865B (zh) | 信号波形已知条件下的多目标直接定位方法 | |
JP6288561B2 (ja) | ブラインド信号分離方法およびその装置 | |
CN102298097B (zh) | 一种估计云闪雷电脉冲信号到达时间差的方法 | |
CN105845148A (zh) | 基于频点修正的卷积盲源分离方法 | |
CN109583350A (zh) | 一种局部超声阵列信号的高精度去噪方法 | |
CN109669159A (zh) | 基于麦克风十字环阵列的声源定位跟踪装置及方法 | |
CN108447493A (zh) | 频域卷积盲源分离分频段多质心聚类排序方法 | |
CN111580151B (zh) | 一种基于SSNet模型的地震事件到时识别方法 | |
CN102546499A (zh) | 一种实线性调频信号的分数阶信道化接收方法 | |
CN109633270B (zh) | 故障能量区域边界识别及特征提取方法 | |
CN105445699A (zh) | 一种非视距误差消除的测距方法及系统 | |
CN103871422A (zh) | 基于三因子迭代联合块对角化的时域混叠盲信号分离方法 | |
CN103281269B (zh) | 基于改进的排序算法的频域盲源分离算法 | |
CN106448694A (zh) | 一种基于复角检测的欠定盲源分离中的时频单源点提取方法 | |
CN104665875A (zh) | 超声多普勒包络和心率检测方法 | |
CN105429720A (zh) | 基于emd重构的相关时延估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130403 Termination date: 20150506 |
|
EXPY | Termination of patent right or utility model |