CN113189544A - 一种利用活动强度矢量加权移除野点的多声源定位方法 - Google Patents
一种利用活动强度矢量加权移除野点的多声源定位方法 Download PDFInfo
- Publication number
- CN113189544A CN113189544A CN202110465158.6A CN202110465158A CN113189544A CN 113189544 A CN113189544 A CN 113189544A CN 202110465158 A CN202110465158 A CN 202110465158A CN 113189544 A CN113189544 A CN 113189544A
- Authority
- CN
- China
- Prior art keywords
- sound source
- activity intensity
- time
- point
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/22—Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提出一种利用活动强度矢量加权移除野点的多声源定位方法,通过移除在定位过程中贡献较低的时频点以在混响条件下获得更准确的方位估计。首先提取单声源区域。其次,计算单声源区域内部每个点的活动强度矢量和区域平均活动强度矢量,求取点‑区域活动强度权值并对时频点赋权。获取各个声源DOA粗估计方向上的活动强度矢量,计算点‑声源活动强度权值。最后,构建复合权值,对该复合权值进行聚类以移除野点。利用剩余点的复合权值构建的直方图,通过后处理和峰值搜索对声源位置进行估计,最小化野点对定位精度的影响,实现高混响声场景下的多声源精确定位。
Description
技术领域
本发明属于声学领域中的声源定位领域,尤其涉及高混响声场景下的多声源定位问题
背景技术
近年来,声源定位技术因其在音频处理领域的广泛应用而受到各方研究团队的关注,其旨在没有任何关于声源以及录制环境先验知识的条件下,仅利用放置于听音环境中的麦克风录制的听音信号获取所有声源的空间位置信息。声源定位技术的应用包括但不仅限于临境通信、虚拟现实、增强现实等。
在实际应用过程中,由于多声源同时发声造成录制信号的混叠、麦克风阵列结构上的限制,环境中非平稳噪声以及混响的存在等诸多因素都会对声源位置信息的获取产生负面影响,最终导致声源位置估计偏差甚至声源计数错误等问题。针对上述问题,国内外科技工作者开展了大量研究工作,先后提出了基于到达时间差的声源定位技术、基于高分辨率谱估计的定位技术、基于稀疏成分分析的声源定位技术等。其中,基于稀疏成分分析的多声源定位技术利用语音信号在时频域上的稀疏性特征,提出了不相交区间的正交性(W-Disjoint Orthogonality,W-DO)假设,结合阵列接收信号的互相关特性,在时频域上筛选部分时频区域,这些区域仅有单一声源发声或仅由单一声源占主导地位,被称为单声源区域。上述定位方法通过对单声源区域的筛选,进而将多声源定位问题转为单声源定位问题,实现了欠定条件下的多声源定位,在相同的条件下,该方法的定位结果优于同时期其他定位技术。但是,由于W-DO假设在高混响多声源的条件下很难满足,导致检测到的单声源区域中总有不同于主导声源的其他声源成分存在,包含这些声源成分的时频点则因其为对定位精度产生负面影响而被称为野点。实验证明,野点在单声源区域中的比例总是随着混响时间以及声源数目的增加而增加,最终影响声源定位以及计数的精度。
发明内容
本发明针对混响环境下,传统的基于单声源区域的多声源定位方法的检测结果中总有野点混入导致定位精度下降的问题,设计了一种利用活动强度矢量加权移除野点的多声源定位方法。本方法利用单声源区域内部野点的分布特性,对单声源区域内部的所有时频点分两步进行加权,使得野点对应的复合权值远小于所需点对应的复合权值,通过对权值进行二值聚类区分野点和所需点,最终移除野点实现混响条件下的精确定位。本设计基于声场麦克风轻便灵活,能准确捕获声场信息的特点,采用便携式四通道声场麦克风记录声场数据,实现一种可以在混响场景下对多个声源进行精确定位的方法。
设计的总体流程简述如下:
首先,对输入的四路声场麦克风信号进行分帧加窗和短时傅里叶变换操作,得到每一帧信号的时频系数,再将每一帧信号的频带划分为大小相同的时频区域。随后结合声场麦克风各通道的指向性特征,求取每个时频区域内通道间的归一化互相关系数,根据实际情况设计统一的互相关门限将时频区域划分为强相关区域和弱相关区域,并将强相关区域选取为单声源区域。其次,分别计算单声源区域内部每个点的活动强度矢量和区域平均活动强度矢量,计算点活动强度矢量在区域活动强度矢量方向上的分量以衡量区域内每个时频点对整个区域的活动强度的贡献,本设计将归一化后的该分量称其为点-区域活动强度权值。利用单声源区域内部野点的分布特征,对区域内的所有时频点赋权,以削弱野点的活动强度矢量对区域平均活动强度矢量的影响。然后,对加权后的点活动强度矢量进行方向估计以及声源成分均衡,将均衡后的方向估计值绘制为直方统计图,对声源进行DOA粗估计。在得到声源DOA粗估计后,获取各个声源粗估计方向上的活动强度矢量以及各时频点的活动强度矢量,通过计算点活动强度矢量在声源活动强度矢量方向上的分量以衡量每个时频点在其对应声源方向上的贡献,即点-声源活动强度权值。根据野点对应的DOA估计值在统计直方图上的分布特征,对时频点赋权,进一步削弱野点对声源方向估计的影响。最后,利用每个时频点对应的两个权值共同构建复合权值,对该复合权值进行聚类,并将时频点划分为所需点和野点。在移除野点后,利用所需点的复合权值构建的直方图,通过后处理和峰值搜索对声源位置进行估计,最小化野点对定位精度的影响,实现高混响声场景下的多声源定位。
本发明的技术方案为解决混响条件下的多声源定位问题,主要分为以下几个步骤:
步骤1,对四路声场麦克风的接收信号进行加窗分帧和短时傅里叶变换操作,确定时频系数。对变换后的信号划分时频区域,求取归一化互相关系数。对将归一化互相关函数设置统一的门限将时频区域划分为强相关区域与弱相关区域,提取强相关区域作为单声源区域。将单声源区域内部的时频点进行B格式转换,随后计算单声源区域内部每个时频点的活动强度矢量。
步骤2,将时频点的活动强度矢量按照时频区域求取平均,得到每个单声源区域的区域平均活动强度矢量。随后求取单声源区域内每个时频点的活动强度矢量在其所属区域平均活动强度矢量上的分量,将该分量进行归一化获得点-区域活动强度权值。
步骤3,利用各个时频点的活动强度矢量计算其对应的方位估计值,根据各个声源对应的方位估计值数量,移除部分声源成分以实现声源成分均衡,随后结合点-区域活动强度权值与时频点的角度估计值绘制统计直方图,对均衡化后的统计直方图进行声源DOA粗估计。
步骤4,计算声源DOA粗估计方向上的活动强度矢量作为声源活动强度矢量,求取各时频点活动强度矢量在其对应的声源活动强度矢量上的分量,随后进行归一化获得点-声源活动强度权值。
步骤5,结合点-声源活动强度权值与点-区域活动强度权值获得复合权值。
步骤6,对复合权值进行二值聚类,将权值较低组成的聚类定义为野点聚类并予以移除,而权值较高的聚类则作为所需点保留。
步骤7,结合复合权值与时频点的角度估计值再次绘制统计直方图,对该直方图进行后处理和峰值搜索,实现混响条件下的多声源定位。
1.步骤1的实现方式为,首先,对四路声场麦克风接收的时域信号进行加窗分帧与短时傅里叶变换操作
其中,p={1,2,3,4}为声场麦克风通道编号,n=1,2,3...N为帧索引,N为总帧数,t=1,2,3...,T为时序索引,T为帧长,k=1,2,3...,K为频率索引,K为每帧信号对应的频域点数,w(t)为窗函数,xp(n,t)和Xp(n,k)则分别对应时域上,第n帧中的时间点t声场麦克风通道p接收信号与时频域上,第n帧,第k个频点声场麦克风通道p接收信号。其次,在时频域对每一帧信号进一步划分为长度为L的时频区域从而得到时频区域的集合Z,Z由M个时频区域Zm构成,m={1,2,3...,M}为时频区域编号,M可以表示为:
其中|·|为取绝对值运算,rpq(m)则是麦克风通道p和q在时频区域Zm上的归一化互相关函数。然后,对归一化互相关函数设置一个统一的经验阈值用以划分强相关区域与弱相关区域,提取强相关区域作为单声源区域,即,如果时频区域Zm满足下式,则认为其为单声源区域:
rpq(m)<1-ε p≠q
其中ε为由用户根据当前环境设置的经验阈值,大量实验表明,这一阈值选用0.25时具有较强的泛用性,因此本设计沿用这一设定。在找到所有的单声源区域后,利用声场麦克风的指向性特征,对单声源区域内部的时频点进行B格式转换,转换过程参照声场麦克风信号格式转换的标准流程之一。对于时频点(n,k),B格式转换后即可得到全向通道Sw(n,k)和三个指向笛卡尔坐标系正方向的通道信号{Sx(n,k),Sy(n,k),Sy(n,k)}。最后,利用B格式信号计算单声源区域内部每个时频点的活动强度矢量,时频点(n,k)对应的活动强度矢量中各分量可以表示为:
其中ρ为声场传输介质的密度,c为声速,Re{·}代表取实部运算,*代表共轭运算,{Ix,Iy,Iz}分别对应笛卡尔坐标系X,Y,Z坐标轴正方向上的活动强度分量。活动强度矢量则由活动强度分量组成,即:时频点(n,k)对应的活动强度矢量可以表示为I(n,k)=[Ix(n,k),Iy(n,k),Iz(n,k)]。
||·||为向量取模运算,随后求取单声源区域内所有时频点的活动强度矢量在其对应的区域活动强度矢量方向上的分量,并归一化求取该时频点的点-区域活动强度权值,这一过程可以由下式表示:
其中Wp(n,k)为时频点(n,k)对应的点-区域活动强度权值,cos-1(·)为求取反余弦,<·>为向量内积,π为圆周率,本设计中近似取值为3.141,实验验证表明该近似过程可以适用于大部分实验环境。由于野点即是单一时频点中混入多个声源成分和/或混响成分,所以声源数目的增加和/或房间混响时间的增加都会导致野点数量的增加,这就导致步骤1中筛选得到的单声源区域中总会有野点的存在最终干扰定位结果。而点-区域活动强度权值利用区域中野点数目的稀疏性以及角度的随机性,通过区域活动强度矢量的方向更加接近真实声源活动强度矢量的方向这一特性,使得野点获得的权值相较于其他所需点更低,从而削弱野点的影响。
3.步骤3中,首先利用各个时频点的活动强度矢量计算该点对应的方位估计值,该过程利用了B格式信号的建模特性。针对一个声源的水平方位角和仰角,分别选取不同的B格式通道信号即可实现定位,二者并没有明显的区别,因此本设计中仅对水平方位角进行估计。如果时频点(n,k)并非野点,那么Sq(n,k)中应仅有单一声源发声或仅有单一声源的信号能量占主导地位。在上述条件下,时频点(n,k)的水平方角估计可以表示为:
其中tan-1(·)为取反正切值。反之如果时频点(n,k)为野点,那么在多个声源成分的介入下,角度估计将出现误差。在计算得到各时频点的水平方位角估计值后,以帧为单位,根据角度之间的间隔判定每个时频点对应的声源。随后结合历史信息,计算每个声源对应的时频点数量在历史帧中的占比,如果某一声源的占比大于某一设置的经验阈值,则认为该声源为局部优势声源,移除当前帧内所有局部优势声源对应的时频点,最终实现所有声源成分的均衡。结合均衡后各时频点的方位估计值与点-区域活动强度权值绘制统计直方图,对均衡化后的统计直方图进行声源DOA粗估计。DOA粗估计可以通过将直方图进行核密度估计后搜索包络的峰值实现,其中峰值的个数代表了声源的数量,峰值所在的横坐标代表了声源的水平方位角估计值。这里的直方图是由上面给出的点-区域活动强度权值绘制的,其绘制过程可以由下式表示:
其中μ∈[1,360]为水平方位角的可能值,为均衡后所有的单声源区域组成的集合,Y(μ)为DOA粗估计直方图中横坐标为μ处对应的纵坐标数值。在直方图绘制完毕后,通过后处理和峰值搜索获得声源DOA粗估计。
4.在步骤4中,首先选取声源DOA粗估计方向上的活动强度矢量的活动强度矢量作为该声源的声源活动强度矢量,在实际操作中,选取方向最接近于声源DOA粗估计的点活动强度矢量作为声源活动强度矢量,以声源a为例,这一操作可以由下式近似表示:
Ia=I(na,ka)
其中,为声源a的角度粗估计值,(na,ka)为选出的一个时频点,该时频点是角度估计与声源角度粗估计差值最小的时频点。随后将声源a的声源活动强度矢量Ia近似为时频点(na,ka)的点活动强度矢量。本设计结合声源活动强度矢量和点活动强度矢量求取点-声源活动强度权值,这一过程分为两步,首先确定每个时频点对应的声源,这一操作可以由时频点的角度估计到各个声源角度之间的距离判断得出,在直方图中即可表示为:距离当前时频点最近的峰值被选为该时频点对应的声源。随后求取点活动强度矢量在其对应声源活动强度矢量上的分量,并归一化求取该时频点的点-声源活动强度权值,这一过程可以由下式表示:
其中,时频点(n,k)对应的声源为a,Ws(n,k)为时频点(n,k)的点-声源活动强度权值。该权值描述了每个时频点在其对应声源方向上贡献,根据野点在直方图上的分布特性可以得知,野点对应的该权值要远低于其他点计算得到的权值,因此,利用点-声源活动强度权值可以有效降低野点对DOA估计统计直方图的影响。
5.在步骤5中,本设计将点-声源活动强度权值与点-区域活动强度权值相结合,获得完整的用于描述单一时频点在定位过程中的贡献的复合权值,对于时频点(n,k)来说,这一复合权值可以表示为:
Wc(n,k)=Wp(n,k)·Ws(n,k)
复合权值既包含了单一时频点对于其所在区域的局部贡献,同时也包含了在直方图上对某一特定声源的全局贡献。利用复合权值可以较为完整地描述单一时频点在定位过程中对定位某一特定声源的贡献,而这一贡献值的大小则可被用于区分野点和所需点。
6.步骤6,对复合权值进行二值聚类,其聚类结果必定有一个低权值组成的聚类,该聚类的聚类中心相对于另一个聚类的聚类中心较低,将这一聚类定义为野点聚类并予以移除,而聚类中心数值较高的聚类则作为所需点保留,本步操作可以由下式表示:
Wc(n,k|n,k∈Ωr)=0
其中Ωr为野点聚类。由于野点的点-声源活动强度权值与点-区域活动强度权值均远小于其他点,而将二者结合后获得的复合权值则会进一步扩大野点对应的权值与其他点对应权值的差值。不同于设置经验阈值,本设计利用聚类划分野点与所需点,这一操作可以在声场条件未知的条件下实现野点的移除。
7.在步骤7中,结合复合权值与时频点的角度估计值再次绘制统计直方图,该直方图的绘制方式可以表示为:
其中Y′(μ)为用于最终确定声源位置的直方图中,横坐标为μ处纵坐标的取值。随后对该直方图进行后处理,这一常规操作包括核密度估计以及峰值搜索,核密度估计中设置高斯核以对直方图中的毛刺进行平滑,随后搜索平滑后的直方图中的峰值,峰值的个数代表了声源的个数,峰值的横坐标代表声源的水平方位角,最终实现混响条件下的多声源定位。
在筛选得到的单声源区域中,所有的时频点都应由单一声源成分组成或由单一声源成分主导的,此时利用单声源区域内部的时频点即可实现准确的多声源定位。但是在复杂声场环境下,由于混响时间的延长与声源数目的增加,单声源区域的内部总是不可避免的混入野点,这些野点中包含了不可忽视的来自多个声源的直达成分和/或混响成分,而由于这些成分的干扰,利用野点进行的方位估计将有很大概率偏离真实声源的位置。如果在这种情况下仍旧利用单声源区域内部所有的时频点进行多声源定位将会导致算法整体的定位精度甚至声源计数精度大幅度下降。考虑到虽然复杂声场下单声源区域内部总有野点,但是野点的数量仍旧相对较少,即野点的分布是具有稀疏性的。同时由于野点内部的成分较为随机,野点在时频域中出现的位置以及利用野点估计得到的方向均难以预估,即野点的分布是具有随机性的。结合数量野点的这两个分布特性,本设计利用区域平均活动强度矢量设计权值,虽然区域平均活动强度矢量相对于声源方向有所偏移,但是这一偏移量会远小于野点活动强度矢量的偏移量。因此,点活动强度矢量的方向接近于区域平均活动强度矢量方向的时频点更有可能是所需时频点,反之远离区域平均活动强度矢量的时频点则有较大的概率为野点。根据这一特征,本设计设定了点-区域活动强度权值,对活动强度矢量的方向远离区域平均活动强度矢量方向的时频点赋予一个较低的权值以削弱其在单声源区域中的影响。为了能更好地区分野点与所需点,本设计利用野点统计直方图上的分布特性,进一步设定了点-声源活动强度权值以衡量每个时频点在声源的DOA粗估计方向上的贡献。由于点-声源活动强度权值与点-区域活动强度权值都具有赋予野点低权值的这一特性,但是对于每个单独的权值,野点被赋予的权值和所需点被赋予的权值之间的差距并不明显。因此,本设计将点-声源活动强度权值与点-区域活动强度权值以时频点为单位结合为复合权值以期扩大野点与所需点被赋予的权值之差。最后,本设计利用聚类的思想,对复合权值进行二值聚类从而区分野点和所需点,移除权值较低的一组聚类实现野点的移除,保留权值较高的一组聚类同时利用权值绘制直方图,根据时频点在其对应区域以及声源方向上的贡献,即复合权值,作为该时频点在直方图上的数值,进而对归一化统计直方图进行峰值搜索即可准确估计出场景内声源的数量以及各个声源的角度。
有益效果
与传统定位技术相比,本发明通过移除野点成分提高了多声源定位方法的鲁棒性,尤其对复杂声场环境中的多声源定位表现出良好的定位性能,使得野点的比率大幅度下降从而实现精确的定位结果。
附图说明
图1是本设计方法整体框图。
具体实施方法
本实施例用于检测150ms混向下多个声源的位置,声源位于6.0m×4.0m×3.0m的静音室环境内。声场麦克风距地面高度为1.5m,声源位于距声场麦克风1m的水平面上,相邻声源角度间隔60°,声源数目设置为5。信号处理软件为Matlab2014a。
实施时,本发明是算法镶嵌进软件中实现各个流程的自动运行,下面以具体实施步骤结合附图对本发明做进一步说明:具体的工作流程如下:
步骤1:声场麦克风接收信号时-频变换,划分时频区域,提取单声源区域并求取时频点活动强度矢量。
对四路声场麦克风接收的时域信号xp(n,t)进行加窗分帧与短时傅里叶变换操作。
其中,p={1,2,3,4}为声场麦克风通道编号,n=1,2,3...N为帧索引,N为总帧数,t=1,2,3...,T为时序索引,T为帧长,k=1,2,3...,K为频率索引,K为每帧信号对应的频域点数,w(t)为窗函数,xp(n,t)和Xp(n,k)则分别对应时域上,第n帧中的时间点t声场麦克风通道p接收信号与时频域上,第n帧,第k个频点声场麦克风通道p接收信号。随后划分时频区域,将每一帧信号进一步划分为长度为L的M个时频区域Zm,其中m={1,2,3...,M}为时频区域编号,得到时频区域的集合Z,M可以表示为:
其中|·|为取绝对值运算,rpq(m)则是麦克风通道p和q在时频区域Zm上的归一化互相关函数。然后,对归一化互相关函数设置一个统一的经验阈值用以划分强相关区域与弱相关区域,提取强相关区域作为单声源区域,即,如果时频区域Zm满足下式,则认为其为单声源区域:
rpq(m)<1-ε p≠q
其中ε为由用户根据当前环境设置的经验阈值,在本实施例中取0.25作为通道间的互相关门限,但不限于此,大量试验证明选取0.25作为门限具有较高的泛用性,因此本设计沿用这一设定。若时频区域Zm的所有通道间的归一化互相关均大于(1-ε),则认为该时频区域为强相关区域,即,单声源区域。在找到所有的单声源区域后,利用声场麦克风的指向性特征,对单声源区域内部的时频点进行B格式转换,转换过程参照声场麦克风信号格式转换的标准流程之一。对于时频点(n,k),B格式转换后即可得到全向通道Sw(n,k)和三个指向笛卡尔坐标系正方向的通道信号{Sx(n,k),Sy(n,k),Sy(n,k)}。最后,利用B格式信号计算单声源区域内部每个时频点的活动强度矢量,时频点(n,k)对应的活动强度矢量中各分量可以表示为:
其中p为声场传输介质的密度,c为声速,Re{·}代表取实部运算,*代表共轭运算,{Ix,Iy,Iz}分别对应笛卡尔坐标系X,Y,Z坐标轴正方向上的活动强度分量。活动强度矢量则由活动强度分量组成,即:时频点(n,k)对应的活动强度矢量可以表示为I(n,k)=[Ix(n,k),Iy(n,k),Iz(n,k)]。
步骤2:对单声源区域内部的点活动强度矢量按区域求取平均,获得区域平均活动强度矢量,随后求取点-区域活动强度权值。
其中||·||为向量取模运算,随后求取单声源区域内所有时频点的活动强度矢量在其对应的区域活动强度矢量方向上的分量,并归一化求取该时频点的点-区域活动强度权值,这一过程可以由下式表示:
其中Wp(n,k)为时频点(n,k)对应的点-区域活动强度权值,cos-1(·)为求取反余弦,<·>为向量内积,π为圆周率,本设计中近似取值为3.141,实验验证表明该近似过程可以适用于大部分实验环境。由于野点的成因多是因为在单一时频点中混入多个声源成分和/或混响成分,所以声源数目的增加和/或房间混响时间的增加都会导致时频域内野点比例的增加,这就导致步骤1中筛选得到的单声源区域中总会有野点的存在最终干扰定位结果。点-区域活动强度权值则利用了区域中野点数目的稀疏性以及分布的随机性,通过区域活动强度矢量的方向更加接近真实声源活动强度矢量的方向这一特性,使得野点获得的权值相较于其他点更低,从而削弱野点的对定位结果的影响。
步骤3:声源DOA粗估计与点-区域活动强度加权直方图绘制
首先利用各个时频点的活动强度矢量计算该点对应的方位估计值,该过程利用了B格式信号的建模特性。针对一个声源的水平方位角和仰角,分别选取不同的B格式通道信号即可实现定位,二者并没有明显的区别,因此本设计中仅对水平方位角进行估计。如果时频点(n,k)并非野点,那么Sq(n,k)中应仅有单一声源发声或仅有单一声源的信号能量占主导地位。在上述条件下,时频点(n,k)的水平方角估计可以表示为:
其中tan-1(·)为取反正切值。反之如果时频点(n,k)为野点,那么在多个声源成分的介入下,角度估计将出现误差。在计算得到各时频点的水平方位角估计值后,以帧为单位,将角度估计值按从小到大顺序排列,根据角度之间的间隔判定每个时频点对应的声源。在本实施例中取40°作为角度间隔门限,但不限于此,若相邻粗估计角度值的差值大于该设置门限,则表示两个角度粗估计值分属两个声源。随后结合历史信息,计算每个声源对应的时频点数量在历史帧中的占比,如果某一声源的占比大于设置的经验阈值,在本实施例中取0.3作为优势声源比例门限,如果该声源所属时频点的比例大于这一设置门限,则认为该声源为局部优势声源,移除当前帧内所有局部优势声源对应的时频点,最终实现所有声源成分的均衡。结合均衡后各时频点的方位估计值与点-区域活动强度权值绘制统计直方图,对均衡化后的统计直方图进行声源DOA粗估计。DOA粗估计可以通过将直方图进行核密度估计后搜索包络的峰值实现,其中峰值的个数代表了声源的数量,峰值所在的横坐标代表了声源的水平方位角估计值。这里的直方图是由上面给出的点-区域活动强度权值绘制的,其绘制过程可以由下式表示:
步骤4:计算声源活动强度矢量并求取点-声源活动强度权值。
选取声源DOA粗估计方向上的活动强度矢量的活动强度矢量作为该声源的声源活动强度矢量,在实际操作中,选取方向最接近于声源DOA粗估计的点活动强度矢量作为声源活动强度矢量,以声源a为例,这一操作可以由下式近似表示:
Ia=I(na,ka)
其中,为声源a的角度粗估计值,(na,ka)为选出的一个时频点,该时频点是角度估计与声源角度粗估计差值最小的时频点。随后将声源a的声源活动强度矢量Ia则被近似为时频点(na,ka)的点活动强度矢量。本设计结合声源活动强度矢量和点活动强度矢量,首先确定每个时频点对应的声源,这一操作可以由时频点的角度估计到各个声源角度之间的距离判断得出,在直方图中即可表示为:距离当前时频点最近的峰值被选为该时频点对应的声源。随后求取点活动强度矢量在其对应声源活动强度矢量上的分量,并归一化求取该时频点的点-声源活动强度权值,这一过程可以由下式表示:
其中,时频点(n,k)对应的声源为a,Ws(n,k)为时频点(n,k)的点-声源活动强度权值。该权值描述了每个时频点在其对应声源方向上贡献,根据野点在直方图上的分布特性可以得知,野点对应的该权值要远低于其他点计算得到的权值,因此,利用点-声源活动强度权值可以有效降低野点对DOA估计统计直方图的影响。
步骤5:计算复合权值。
本设计将点-声源活动强度权值与点-区域活动强度权值相结合,获得完整的用于描述单一时频点在定位过程中的贡献的复合权值,对于时频点(n,k)来说,这一复合权值可以表示为:
Wc(n,k)=Wp(n,k)·Ws(n,k)
复合权值既包含了单一时频点对于其所在区域的局部贡献,同时也包含了在直方图上对某一特定声源的全局贡献。利用复合权值可以较为完整地描述单一时频点在定位过程中对定位某一特定声源的贡献,而这一贡献值的大小则可被用于区分野点和所需点。
步骤6:根据复合权值移除野点
对复合权值进行二值聚类,其聚类结果必定有一个低权值组成的聚类,该聚类的聚类中心相对于另一个聚类的聚类中心较低,将这一聚类定义为野点聚类并予以移除,而聚类中心数值较高的聚类则作为所需点保留,本步操作可以由下式表示:
Wc(n,k|n,k∈Ωr)=0
其中Ωr为野点聚类。由于野点的点-声源活动强度权值与点-区域活动强度权值均远小于其他点,而将二者结合后获得的复合权值则会进一步扩大野点对应的权值与其他点对应权值的差值。不同于设置经验阈值,本设计利用聚类划分野点与所需点,这一操作可以在声场条件未知的条件下实现野点的移除。
步骤7:绘制复合权值加权的DOA统计直方图并进行多声源定位
在步骤7中,结合复合权值与时频点的角度估计值再次绘制统计直方图,该直方图的绘制方式可以表示为:
其中Y′(μ)为用于最终确定声源位置的直方图中,横坐标为μ处纵坐标的取值。随后对该直方图进行后处理,这一常规操作包括核密度估计以及峰值搜索,核密度估计中设置高斯核以对直方图中的毛刺进行平滑,随后搜索平滑后的直方图中的峰值,峰值的个数代表了声源的个数,峰值的横坐标代表声源的水平方位角,最终实现混响条件下的多声源定位。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (8)
1.一种利用活动强度矢量加权移除野点的多声源定位方法,其特征在于包括以下步骤:
步骤1,对声场麦克风接收信号进行时-频变换,划分时频区域,利用通道间的归一化互相关系数提取单声源区域并求取时频点活动强度矢量;
步骤2,对单声源区域内部的点活动强度矢量按区域求取平均,获得区域平均活动强度矢量,随后计算点活动强度矢量在区域活动强度矢量方向上的分量求取点-区域活动强度权值;
步骤3,利用各个时频点的活动强度矢量计算其对应的方位估计值,移除部分声源成分以实现声源成分均衡,结合点-区域活动强度权值与时频点的角度估计值绘制统计直方图,对均衡化后的统计直方图进行声源DOA粗估计;
步骤4,计算声源DOA粗估计方向上的活动强度矢量作为声源活动强度矢量,求取各时频点活动强度矢量在其对应的声源活动强度矢量上的分量,随后进行归一化获得点-声源活动强度权值;
步骤5,结合点-声源活动强度权值与点-区域活动强度权值获得复合权值;
步骤6,对复合权值进行二值聚类,将权值较低组成的聚类定义为野点聚类并予以移除,而权值较高的聚类则作为所需点保留;
步骤7,结合复合权值与时频点的角度估计值再次绘制统计直方图,对该直方图进行后处理和峰值搜索,实现混响条件下的多声源定位。
2.如权利要求1所述的一种利用活动强度矢量加权移除野点的多声源定位方法,其特征在于:步骤1提取单声源区域并求取时频点活动强度矢量:
其中,n=1,2,3...N为帧索引,N为总帧数,k=1,2,3...,K为频率索引,K为每帧信号对应的频域点数,(n,k)代表时频域中第n帧中第k个时频点;Zm为第m个时频区域,|·|为取绝对值运算,变量p,q={1,2,3,4}分别指代声场麦克风的四个通路,Xp(n,k)则代表在时频域上,第n帧中的第k个时频点,麦克风通道p接收到的信号;rpq(m)则是麦克风通道p和q在时频区域Zm上的归一化互相关函数;如果时频区域Zm满足下式,则认为其为单声源区域:
rpq(m)<1-ε p≠q
其中ε为由用户根据当前环境设置的经验阈值,阈值选用0.25;随后利用声场麦克风的指向性特征,对单声源区域内部的时频点进行B格式转换,转换过程参照声场麦克风信号格式转换的标准流程之一;对于时频点(n,k)来说,B格式转换后得到全向通道Sw(n,k)和三个指向笛卡尔坐标系正方向的通道信号{Sx(n,k),Sy(n,k),Sy(n,k)};最后,利用B格式信号计算单声源区域内部每个时频点的活动强度矢量,时频点(n,k)对应的活动强度矢量中各分量表示为:
其中ρ为声场传输介质的密度,c为声速,Re{·}代表取实部运算,*代表共轭运算,{Ix,Iy,Iz}分别对应笛卡尔坐标系X,Y,Z坐标轴正方向上的活动强度分量;活动强度矢量则由活动强度分量组成,即:时频点(n,k)对应的活动强度矢量表示为I(n,k)=[Ix(n,k),Iy(n,k),Iz(n,k)]。
4.如权利要求1所述的一种利用活动强度矢量加权移除野点的多声源定位方法,其特征在于:首先利用活动强度矢量求取各个时频点上的水平方位估计值针对一个声源的水平方位角和仰角,分别选取不同的B格式通道信号即可实现定位,;时频点的方位角估计过程为利用声场麦克风进行声源定位的标准操作;随后结合均衡后各时频点的方位估计值与点-区域活动强度权值绘制统计直方图,这一过程由下式表示:
5.如权利要求1所述的一种利用活动强度矢量加权移除野点的多声源定位方法,其特征在于:计算声源活动强度矢量并求取点-声源活动强度权值;
5.1)选取声源DOA粗估计方向上的活动强度矢量的活动强度矢量作为该声源的声源活动强度矢量,在实际操作中,选取方向最接近于声源DOA粗估计的点活动强度矢量作为声源活动强度矢量,以声源a为例,这一操作由下式近似表示:
Ia=I(na,ka)
5.2);本设计结合声源活动强度矢量和点活动强度矢量,求取点活动强度矢量在其对应声源活动强度矢量上的分量,并归一化求取该时频点的点-声源活动强度权值,这一过程分为两步,首先确定每个时频点对应的声源,这一操作由时频点的角度估计到各个声源角度之间的距离判断得出,在直方图中表示为:距离当前时频点最近的峰值被选为该时频点对应的声源;随后求取点活动强度矢量在其对应声源活动强度矢量上的分量,并归一化求取该时频点的点-声源活动强度权值,这一过程由下式表示:
其中,时频点(n,k)对应的声源为a,Ws(n,k)为时频点(n,k)的点-声源活动强度权值。
6.如权利要求1所述的一种利用活动强度矢量加权移除野点的多声源定位方法,其特征在于:计算复合权值,本设计将点-声源活动强度权值与点-区域活动强度权值相结合,获得完整的用于描述单一时频点在定位过程中的贡献的复合权值,对于时频点(n,k)来说,这一复合权值表示为:
Wc(n,k)=Wp(n,k)·Ws(n,k)
复合权值既包含了单一时频点对于其所在区域的局部贡献,同时也包含了在直方图上对某一特定声源的全局贡献;利用复合权值较为完整地描述单一时频点在定位过程中对定位某一特定声源的贡献,而这一贡献值的大小则可被用于区分野点和所需点。
7.如权利要求1所述的一种利用活动强度矢量加权移除野点的多声源定位方法,其特征在于:根据复合权值移除野点:对复合权值进行二值聚类,而二值聚类的结果必定有一个低权值组成的聚类,该聚类的聚类中心相对于另一个聚类的聚类中心较低,将这一聚类定义为野点聚类并予以移除,而聚类中心数值较高的聚类则作为所需点保留,本步操作由下式表示:
Wc(n,k|n,k∈Ωr)=0
其中Ωr为野点聚类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110465158.6A CN113189544B (zh) | 2021-04-23 | 2021-04-23 | 一种利用活动强度矢量加权移除野点的多声源定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110465158.6A CN113189544B (zh) | 2021-04-23 | 2021-04-23 | 一种利用活动强度矢量加权移除野点的多声源定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113189544A true CN113189544A (zh) | 2021-07-30 |
CN113189544B CN113189544B (zh) | 2023-06-30 |
Family
ID=76979694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110465158.6A Active CN113189544B (zh) | 2021-04-23 | 2021-04-23 | 一种利用活动强度矢量加权移除野点的多声源定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113189544B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114509721A (zh) * | 2022-01-24 | 2022-05-17 | 北京工业大学 | 一种利用信号时频点相关性判别的多声源定位方法 |
CN115190583A (zh) * | 2022-07-06 | 2022-10-14 | 成都四相致新科技有限公司 | 高精度定位方法及其装置 |
US20230160997A1 (en) * | 2021-11-23 | 2023-05-25 | Nxp B.V. | Automotive Radar With Time-Frequency-Antenna Domain Threshold Interference Isolation and Localization Fusion |
CN116908782A (zh) * | 2023-07-14 | 2023-10-20 | 中国兵器装备集团自动化研究所有限公司 | 一种基于多源信号功率强度的目标定位方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140278220A1 (en) * | 2012-06-22 | 2014-09-18 | Fitbit, Inc. | Fitness monitoring device with altimeter |
CN108375763A (zh) * | 2018-01-03 | 2018-08-07 | 北京大学 | 一种应用于多声源环境的分频定位方法 |
US20180256078A1 (en) * | 2017-03-10 | 2018-09-13 | Adidas Ag | Wellness and Discovery Systems and Methods |
CN109447493A (zh) * | 2018-11-07 | 2019-03-08 | 成都理工大学 | 一种基于物源活动强度的震后泥石流危险性评价方法 |
CN110275138A (zh) * | 2019-07-16 | 2019-09-24 | 北京工业大学 | 一种利用优势声源成分移除的多声源定位方法 |
FR3081641A1 (fr) * | 2018-06-13 | 2019-11-29 | Orange | Localisation de sources sonores dans un environnement acoustique donne. |
CN112630730A (zh) * | 2020-11-13 | 2021-04-09 | 清华大学苏州汽车研究院(相城) | 一种基于tdoa多声源定位的虚假声源消除方法 |
-
2021
- 2021-04-23 CN CN202110465158.6A patent/CN113189544B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140278220A1 (en) * | 2012-06-22 | 2014-09-18 | Fitbit, Inc. | Fitness monitoring device with altimeter |
US20180256078A1 (en) * | 2017-03-10 | 2018-09-13 | Adidas Ag | Wellness and Discovery Systems and Methods |
CN108375763A (zh) * | 2018-01-03 | 2018-08-07 | 北京大学 | 一种应用于多声源环境的分频定位方法 |
FR3081641A1 (fr) * | 2018-06-13 | 2019-11-29 | Orange | Localisation de sources sonores dans un environnement acoustique donne. |
CN109447493A (zh) * | 2018-11-07 | 2019-03-08 | 成都理工大学 | 一种基于物源活动强度的震后泥石流危险性评价方法 |
CN110275138A (zh) * | 2019-07-16 | 2019-09-24 | 北京工业大学 | 一种利用优势声源成分移除的多声源定位方法 |
CN112630730A (zh) * | 2020-11-13 | 2021-04-09 | 清华大学苏州汽车研究院(相城) | 一种基于tdoa多声源定位的虚假声源消除方法 |
Non-Patent Citations (3)
Title |
---|
MAOSHEN JIA 等: "Multiple Sound Sources Localization with Frame-by-Frame Component Removal of Statistically Dominant Source", 《SENSORS》 * |
冯玉武 等: "完全分布式无线传感网中基于稀疏重构的声源定位", 《白城师范学院学报》 * |
赵小燕等: "基于压缩感知的麦克风阵列声源定位算法", 《东南大学学报(自然科学版)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230160997A1 (en) * | 2021-11-23 | 2023-05-25 | Nxp B.V. | Automotive Radar With Time-Frequency-Antenna Domain Threshold Interference Isolation and Localization Fusion |
US12123966B2 (en) * | 2021-11-23 | 2024-10-22 | Nxp B.V. | Automotive radar with time-frequency-antenna domain threshold interference isolation and localization fusion |
CN114509721A (zh) * | 2022-01-24 | 2022-05-17 | 北京工业大学 | 一种利用信号时频点相关性判别的多声源定位方法 |
CN115190583A (zh) * | 2022-07-06 | 2022-10-14 | 成都四相致新科技有限公司 | 高精度定位方法及其装置 |
CN116908782A (zh) * | 2023-07-14 | 2023-10-20 | 中国兵器装备集团自动化研究所有限公司 | 一种基于多源信号功率强度的目标定位方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113189544B (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113189544A (zh) | 一种利用活动强度矢量加权移除野点的多声源定位方法 | |
AU2011322560B2 (en) | Apparatus and method for deriving a directional information and computer program product | |
CN102074236B (zh) | 一种分布式麦克风的说话人聚类方法 | |
CN111044973B (zh) | 一种用于麦克风方阵的mvdr目标声源定向拾音方法 | |
Ren et al. | A novel multiple sparse source localization using triangular pyramid microphone array | |
US20190122686A1 (en) | Speech enhancement using clustering of cues | |
CN107167770A (zh) | 一种混响条件下的麦克风阵列声源定位装置 | |
CN114171041A (zh) | 基于环境检测的语音降噪方法、装置、设备及存储介质 | |
Yang et al. | SRP-DNN: Learning direct-path phase difference for multiple moving sound source localization | |
Jia et al. | Multi-source DOA estimation in reverberant environments using potential single-source points enhancement | |
CN110275138B (zh) | 一种利用优势声源成分移除的多声源定位方法 | |
Mitianoudis et al. | Permutation alignment for frequency domain ICA using subspace beamforming methods | |
Katahira et al. | Virtually increasing microphone array elements by interpolation in complex-logarithmic domain | |
Dang et al. | An iteratively reweighted steered response power approach to multisource localization using a distributed microphone network | |
CN114994608B (zh) | 基于深度学习的多设备自组织麦克风阵列声源定位方法 | |
CN110398716B (zh) | 一种利用声源间稀疏成分均衡的多声源定位方法 | |
Dang et al. | Multiple sound source localization based on a multi-dimensional assignment model | |
Geng et al. | A time-frequency bins selection pipeline for direction-of-arrival estimation using a single acoustic vector sensor | |
CN114639398A (zh) | 一种基于麦克风阵列的宽带doa估计方法 | |
Sledevič et al. | An evaluation of hardware-software design for sound source localization based on SoC | |
Wang et al. | A robust doa estimation method for a linear microphone array under reverberant and noisy environments | |
Pasha et al. | Forming ad-hoc microphone arrays through clustering of acoustic room impulse responses | |
Naqvi et al. | Multimodal blind source separation for moving sources | |
KR20210110081A (ko) | 심층 신경망 기반의 방향각 추정 방법 | |
Nguyen et al. | Sound detection and localization in windy conditions for intelligent outdoor security cameras |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |