[go: up one dir, main page]

CN113257270B - 一种基于参考麦克风优化的多通道语音增强方法 - Google Patents

一种基于参考麦克风优化的多通道语音增强方法 Download PDF

Info

Publication number
CN113257270B
CN113257270B CN202110505085.9A CN202110505085A CN113257270B CN 113257270 B CN113257270 B CN 113257270B CN 202110505085 A CN202110505085 A CN 202110505085A CN 113257270 B CN113257270 B CN 113257270B
Authority
CN
China
Prior art keywords
microphone
rank
reference microphone
signal
noise ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110505085.9A
Other languages
English (en)
Other versions
CN113257270A (zh
Inventor
张结
陈星宇
戴礼荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110505085.9A priority Critical patent/CN113257270B/zh
Publication of CN113257270A publication Critical patent/CN113257270A/zh
Application granted granted Critical
Publication of CN113257270B publication Critical patent/CN113257270B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于参考麦克风优化的多通道语音增强方法,包括:步骤1,建立低秩近似多通道维纳滤波器;步骤2,建立输出信噪比数学模型;步骤3,选择参考麦克风:基于步骤2建立的输出信噪比数学模型,选定两个麦克风,并分别计算两个麦克风的输出信噪比差值,选定输入信噪比最大的麦克风作为参考麦克风;步骤4,波束形成得出增强语音信号:将步骤2中选定的秩和步骤3选择的参考麦克风代入步骤1中建立的低秩近似多通道维纳滤波器中,将待增强多麦克风语音信号与该低秩近似多通道维纳滤波器在短时频域做加权求和波束形成的内积运算,得到的结果即为单通道增强后语音信号。该方法有效降低了参考麦克风选择的时间复杂度,提升了多麦克风语音增强及语音识别性能。

Description

一种基于参考麦克风优化的多通道语音增强方法
技术领域
本发明涉及语音信号处理领域,尤其涉及基于麦克风阵列的多通道语音增强和语音识别方法。
背景技术
语音增强(speech enhancement)旨在从声学传感器采集到的带有噪声及混响的声音信号中提取纯净的声源信号,其性能衡量指标主要包括输出信噪比(SNR,signal-to-noise ratio)和听力感知可懂度(speech intelligibility)等。基于麦克风阵列的多通道语音增强技术在许多实际系统中有着重要应用,例如:“鸡尾酒会”场景下高质量语音通信、智能家居场景下人机语音交互、面向智能机器人的听觉感知与交互、面向听力受损者的辅助听力设备等。目前,基于多通道维纳滤波(MWF,multichannel Wiener filter)的波束形成(beam forming)是其中一种主流的方法。多通道维纳滤波方法在短时频域通过最小化输出信号与参考目标声源信号之间均方误差(MSE,mean-square error) 设计波束形成器,输出信号即为输入信号的加权叠加形式。数学上,多通道维纳滤波器依赖于信号协方差矩阵和参考麦克风矢量。尽管这种方法得到的输出信号与参考声源信号间均方误差最小,但是由于未对声源信号的失真予以控制,所得到的增强信号在频谱上存在失真,影响到语音可懂度及听感舒适度。Doclo等人提出了基于语音失真加权多通道维纳滤波(SDW-MWF,speechdistortion weighted MWF)语音增强算法,该方法将传统多通道维纳滤波设计的均方误差和加权输出噪声方差整体作为优化目标,因此所得到的波束形成器不仅依赖于信号协方差矩阵和参考麦克风,还依赖于噪声方差权重,因此选择语音失真权重系数对于设计SDW-MWF尤为重要,应根据系统性能要求调节。当权重为0 时,即退化为传统多通道维纳滤波器;增大权重时,输出语音信号的频谱失真越小,但是输出信号的质量变差。
然而无论采用何种多通道维纳滤波方法,参考麦克风是控制基于波束形成的语音增强输出的关键参数,但传统多麦克风波束形成中参考麦克风通常多为任意指定或简单选为距离声源最近的麦克风(现实中声源至麦克风距离未知)。由于波束形成的输出信号为参考麦克风上纯净声源信号成分,现实中由于麦克风距离声源、干扰源的距离不同,且麦克风自身热噪声功率也不同,这些关系到多麦克风信号的信噪比分布。因此,参考麦克风的选取会影响增强信号的质量。为了克服参考麦克风对增强信号质量的影响,因此需要定量评估双耳波束形成器的增强信号质量(如信噪比),进而优化参考麦克风的选取来提升语音增强性能。
现有文献T.C.Lawin-Ore and S.Doclo,Reference microphone selection forMWF-based noise reduction using distributed microphone arrays,in 10th ITGSymposium Proceedings of Speech Communication,2012中针对多通道维纳滤波语音增强提出了一种基于最大化输出信噪比的参考麦克风选择方法,该方法基于枚举法逐次尝试每个麦克风作为参考麦克风的情况设计维纳滤波器,通过比较不同情况下输出信噪比,选择取得最大信噪比的情况作为参考麦克风,显然这种方法需要遍历各种情况,非常耗时。现有文献J.Zhang,H.Chen,and R.C.Hendriks,A study on reference microphoneselection for multi-microphone speech enhancement,IEEE/ACM Trans. Audio,Speech,and Language Process,29:671–683,2021中提出基于最大化输出信噪比准则,将二值优化问题转化为半定编程方式优化参考麦克风,但该方法的时间复杂度为立方次,显然制约了语音信息处理系统的实时性。
发明内容
针对现有技术所存在的问题,本发明的目的是提供一种基于参考麦克风优化的多通道语音增强方法,能解决现有为进行语音增强选取参考麦克风的方法,存在的耗时、时间复杂度高,制约语音信息处理系统实时性等问题。
本发明的目的是通过以下技术方案实现的:
本发明实施方式提供一种基于参考麦克风优化的多通道语音增强方法,包括:
步骤1,建立多通道维纳滤波器:在由M个麦克风组成的麦克风阵列中任意选定一个麦克风作为参考麦克风,将滤波器输出信号与选定的参考麦克风的参考纯净语音信号之间的均方误差加上加权输出噪声功率作为目标函数,最小化该目标函数得到原始维纳滤波器;对麦克风阵列的多麦克风带噪语音信号协方差矩阵包含的语音协方差矩阵与噪声协方差矩阵做广义特征值分解得出M个特征值,选定其中的前k个特征值和对应的特征向量对语音协方差矩阵做低秩近似,0<k≤M,得到k为秩的低秩近似的语音协方差矩阵,将基于低秩近似的语音协方差矩阵代入所述原始维纳滤波器中得到基于语音协方差矩阵的秩、广义特征值、特征向量和参考麦克风的低秩近似多通道维纳滤波器;
步骤2,建立输出信噪比数学模型:将步骤1的所述低秩近似多通道维纳滤波器的输出信号功率与输出噪声功率的比值作为输出信噪比数学模型,该输出信噪比数学模型为关于参考麦克风和秩的函数;
步骤3,选择参考麦克风:基于所述步骤2建立的输出信噪比数学模型,选定两个麦克风,并计算两个麦克风的输出信噪比差值,根据所述输出信噪比差值选定输入信噪比最大的麦克风作为参考麦克风;
步骤4,波束形成得出增强语音信号:将所述步骤1中确定的秩和所述步骤3选择的参考麦克风代入所述步骤1中建立的所述低秩近似多通道维纳滤波器中,将待增强多麦克风语音信号与该低秩近似多通道维纳滤波器在短时频域做加权求和的内积运算,进行波束形成得到单通道增强后语音信号。
由上述本发明提供的技术方案可以看出,本发明实施例提供的基于参考麦克风优化的多通道语音增强方法,其有益效果为:
通过分析并建立参考麦克风对多通道维纳滤波器输出信号质量的数学模型,根据分析确定的输出信噪比与输入信噪比之间的关系,基于最大化输入信噪比准则的次优选择参考麦克风,该方法降低了选择参考麦克风的时间复杂度的同时,能有效提升多通道语音增强方法的输出信号质量和语音可懂度,改善多麦克风噪声语音识别系统性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的基于参考麦克风优化的多通道语音增强方法的流程图;
图2为本发明实施例提供的基于参考麦克风优化的多通道语音增强系统的结构图;
图3为本发明实施例提供的基于参考麦克风选择和低秩近似的多通道维纳滤波语音增强性能(maxiSNR代表本发明提出的方法):图3(a)信噪比增益,图3(b)语音可懂度增益;
图4为本发明实施例提供的基于线性均匀麦克风阵列的噪声语音识别系统。
具体实施方式
下面结合本发明的具体内容,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
如图1所示,本发明实施例提供一种基于参考麦克风优化的多通道语音增强方法,是基于多个麦克风组成阵列的语音识别系统中,先基于多通道维纳滤波的语音增强性能数学建模,再基于最大化输入信噪比选取参考麦克风,该方法包括:建立维纳滤波器、建立输出信噪比数学模型分析维纳滤波器性能和选择参考麦克风几个步骤,其中,建立维纳滤波器遵循变量扩张滤波器(variable span filters)或语音失真加权维纳滤波(SDW-MWF)设计准则,具体方案如下:
步骤1,建立维纳滤波器:
首先建立一个原始维纳滤波器(为一般形式的多通道维纳滤波器):在M个麦克风组成的麦克风阵列(即语音识别系统的多个麦克风组成的阵列)中任意选定一个参考麦克风,以滤波器输出信号与该参考麦克风的参考纯净语音信号之间的均方误差加上加权输出噪声功率作为目标函数,最小化该目标函数得到原始维纳滤波器;
其次,对多麦克风带噪语音信号协方差矩阵的语音协方差矩阵(即麦克风信号中语音成分的协方差矩阵)和噪声协方差矩阵(即麦克风信号中噪声成分的协方差矩阵)做广义特征值分解得出M个特征值,利用广义特征值和对应的特征向量对语音协方差矩阵做低秩近似(low-rank approximation),即选定其中的前k个特征值和对应的特征向量对语音协方差矩阵进行低秩近似,得到k为秩的低秩近似的语音协方差矩阵,0<k≤M,M为麦克风数量,该麦克风阵列各麦克风信号能得到M个线性无关特征值,将基于低秩近似的语音协方差矩阵代入原始维纳滤波器中得到基于语音协方差矩阵的秩、广义特征值、特征向量和参考麦克风的低秩近似的多通道维纳滤波器;
通过上述处理,能方便分析参考麦克风和语音协方差矩阵的秩对原始维纳滤波器输出信号质量的影响,研究表明,选择不同的秩,该原始维纳滤波可以转化为不同的波束形成器,如转化为常用的MWF、最大信噪比(maxSNR)、最小方差无失真响应(MVDR, minimumvariance distortionless response)等波束形成器;
步骤2,建立输出信噪比数学模型:将步骤1得出的低秩近似的多通道维纳滤波器的输出信号功率比上输出噪声功率的输出信噪比作为输出信噪比数学模型,该输出信噪比数学模型是关于参考麦克风和秩的函数,从该输出信噪比数学模型中能得出增强信号质量与秩和参考麦克风的依赖关系;根据理论可以证明:秩越大,输出信噪比越小,即秩为1的波束形成器可最大化输出信噪比,然而基于有限观测数据估计得到的语音协方差矩阵的秩不为1的情况在现实中更常见;因此,选定的语音协方差矩阵的秩k可以为1 到M之间的任意整数(M为麦克风总数),可以任意选定;
上述步骤2中,所述低秩近似多通道维纳滤波器的输出信号功率为在频域的该低秩近似多通道维纳滤波器的共轭转置乘以输入语音协方差矩阵再乘以滤波器向量;
所述低秩近似多通道维纳滤波器的输出噪声功率为在频域的滤波器向量转置、输入噪声协方差矩阵与滤波器向量的乘积。
步骤3,选择参考麦克风:基于所述步骤2中的输出信噪比数学模型,选定两个麦克风,并计算两个麦克风的输出信噪比差值,根据所述输出信噪比差值选定输入信噪比最大的麦克风作为参考麦克风;由于确认增益与两个参考麦克风的输入信噪比差呈正相关,选定输入信噪比最大的麦克风作为参考麦克风的方式,可以优化输出信噪比,从而避免了复杂的优化运算;
步骤4,波束形成得出增强后语音信号:将步骤1中确定的秩和步骤3得到的参考麦克风代入步骤1中的低秩近似的多通道维纳滤波器中,将待增强多麦克风语音信号(即多麦克风带噪语音信号)与该低秩近似多通道维纳滤波器在短时频域做加权求和的内积运算,进行波束形成得到单通道增强后语音信号。
进一步的,上述方法还包括:步骤5,语音识别:将所述步骤4得到的单通道增强后语音信号输入到基于子空间混合高斯-深度神经网络(SGMM-DNN,subspace Gaussianmixed model-deep neural network)的语音识别器中进行语音识别,翻译并分析得出目标声源的内容。
实现上述方法的系统结构如图4所示,图4中,端点检测(VAD,voice activitydetector)的输入为多麦克风带噪语音信号,输出为噪声帧和噪声加语音帧,基于此分别利用噪声帧和噪声加语音帧利用滑动平均技术估计噪声协方差矩阵和混合协方差矩阵;广义特征值分解模块的输入为噪声协方差矩阵和混合协方差矩阵,输出为广义特征值和对应的特征向量;低秩近似模块利用广义特征值和特征向量考虑不同的秩情况下对语音协方差矩阵进行近似,输出为语音协方差矩阵;输入信噪比估计模块利用原始多麦克风信号和端点检测结果,估计多麦克风输入信噪比分布;参考麦克风选择模块的输入为输入信噪比分布,输出为参考麦克风索引;SDW-MWF维纳滤波器设计模块的输入为基于低秩近似的语音协方差矩阵和参考麦克风,输出为频域滤波器向量;波束形成模块对原始多麦克风信号与维纳滤波器进行波束形成运算,输出增强后单通道语音信号,也可观测输出信噪比和语音可懂度;最后,将增强后的单通道语音信号输入SGMM-DNN语音识别模型,得到目标说话人语音识别内容及误词率等。
本发明从多通道维纳滤波器设计理论角度出发,通过分析输出信噪比与参考麦克风、语音协方差矩阵秩之间的数学关系,提出了基于最大化输入信噪比的参考麦克风选取方法,可更清晰理解多麦克风语音信息处理系统中语音增强前后信号质量之间的联系,提高语音增强及噪声语音识别的鲁棒性。可以很好的解决现有任意指定参考麦克风,使得无法保证较好的参考麦克风的信号质量,会影响到输出信噪比,以及采取高时间复杂度的枚举法和半定编程优化方法,会造成耗时、实时性差等问题。
通过以下实验验证本发明方法的有效性,包括:
(一)实验设置:
采用会议室场景下基于线性麦克风阵列的语音增强及噪声语音识别进行本发明方法的验证,实验配置如图2所示,房间尺寸为4m×3m,混响时间为200毫秒;均匀线阵(uniform linear array)包含8个全向麦克风,即全向麦克风的数量M=8,麦克风阵列中心坐标为(2,0.5)m,麦克风从左到右依次编号为m=1到m=8,相邻麦克风间距为2厘米;目标说话人位于θ=45°方向,两个干扰源方向分别为0°和180°,所有声源均位于距离麦克风阵列半径为1米的半圆上;目标说话人语音来自TIMIT英文数据库测试集(即文献J.Garofolo,L.Lamel,W.Fisher,J.Fiscus,and D.Pallett,DARPA TIMIT acoustic- phoneticcontinous speech corpus CD-ROM.NIST speech disc 1-1.1,NASA STI/ReconTechnical Report N,93:27403,1993中公开的TIMIT英文数据库测试集),共包含24个不同说话人的192句话;用于语音识别的模块采用SGMM-DNN模型,使用 TIMIT的训练集进行模型训练,共包含3696句话,干扰声源信号来自NoiseX-92数据库。所有声源信号的采样频率固定为16kHz,短时傅里叶变换(STFT,short-time Fourier transform)采用32毫秒的平方根汉宁窗,帧移为16毫秒。
给定该房间配置,采用镜像方法(image method)(即文献J.B.Allen,D.A.Berkley, Image method for efficiently simulating small-room acoustics,TheJournal of the Acoustical Society of America,65(4):943-950,1979中公开的镜像方法)产生声源到麦克风阵列的房间冲激响应(RIR,room impulse response);麦克风采集的混合信号为声源成分、干扰源成分与非相关噪声成分的叠加;其中,声源成分为声源信号卷积声源的房间冲激响应,两个干扰源成分分别为干扰源卷积对应的房间冲激响应,非相关噪声分量模拟为麦克风自噪声,为高斯白信号;干扰源的功率由信干比(SIR,signal-to-interferer)控制,非相干噪声功率由信噪比控制,当SIR=0dB、SNR=40dB时,总体输入信噪比略小于0dB。
(二)实验结果:
首先,验证语音增强的结果,分别采用信噪比增益和短时客观可懂度(STOI,short- time objective intelligibility)(即文献C.H.Taal,R.C.Hendriks,R.Heusdens,and J.Jensen,An algorithm for intelligibility prediction oftimefrequency weighted noisy speech,IEEE Trans.Audio Speech and LanguageProcess, 19(7):2125–2136,2011中公开的短时客观可懂度)来衡量输出语音信号的音频质量和可懂度;其中,STOI参数衡量了增强信号与纯净参考信号之间的互信息,取值范围从0到 1,取值越高代表增强信号越接近于纯净声源信号,被广泛应用于评估语音可懂度;可以看出,输出信噪比和语音可懂度随着秩的变大而减小,参考麦克风对基于麦克风阵列的语音增强算法性能存在明显的影响。本发明提出的基于最大输入信噪比的参考麦克风选择方法,即maxiSNR,选择第一个麦克风作为参考麦克风,因为其距离目标说话人最近,虽然不能取得最优的输出信噪比,但是能使语音可懂度最优。值得注意的是,对于秩为1 的波束形成方法(如MVDR),其输出信噪比不依赖于参考麦克风,但是语音可懂度始终与参考麦克风相关。
下面表1给出了当两个干扰源的信干比SIR为0dB时采用不同语音协方差矩阵的低秩近似和参考麦克风对语音识别误词率(WER,word error rate)的影响。需要指出的是,对于纯净声源信号,基于SGMM-DNN模型的语音识别误词率为18.0%,第一个麦克风上混合信号的误词率为78.0%,所有统计结果为所有测试语句误词率的平均。可以看出,误词率同时与秩和参考麦克风有关,当秩变大时,语音识别精度降低,这与语音增强中输出信噪比和语音可懂度的变化趋势一致,当秩为1时,参考麦克风对语音识别误词率的影响较小,但当秩不为1时,选取合适的参考麦克风显得尤为重要。
表1为不同秩和参考麦克风情况下语音识别误词率统计表(信干比SIR=0dB)
Figure BDA0003058080780000071
Figure BDA0003058080780000081
下面表2给出了当两个干扰源的信干比SIR为20dB时采用不同语音协方差矩阵的低秩近似和参考麦克风对语音识别误词率的影响,此时第一个麦克风上混合信号的误词率为38.7%。从中可以分析得到类似于表1的结论,对比表1与表2,可以明显发现噪声会严重降低语音识别精度,使用基于多通道维纳滤波的语音增强前端模块可以提升语音识别性能。由于误词率和语音可懂度同时依赖于参考麦克风和秩,而输出信噪比只有当秩不为1时才与参考麦克风有关,因此相对于信噪比,语音识别精度更加依赖于输入语音的可懂度,参见图3中的图3(a)和图3(b)。采用本发明的最大化输入信噪比参考麦克风选择方法(即k=1)可以得到最低的误词率。
表2为不同秩和参考麦克风情况下语音识别误词率统计表(信干比SIR=20dB)
Figure BDA0003058080780000082
综上所述,本发明的基于参考麦克风优化的多通道语音增强方法,至少具有以下优点:第一,在多通道维纳滤波器设计上,通过分析出输出信号质量与语音协方差矩阵秩和参考麦克风之间的依赖模型,将该依赖模型用于实际波束形成器的选择;第二,在参考麦克风选择上,基于最大化输入信噪比准则优化参考麦克风,相对于基于最大化输出信噪比准则的参考麦克风选择方法具有更低的时间复杂度。
上述实验结果表明,本发明的方法在输出信噪比方面属于次优解,但是可以最大化输出语音可懂度,将本发明的基于多通道维纳滤波的语音增强方法应用于噪声语音识别场景,验证了本发明的参考麦克风选择方法可以明显降低误词率,提升多麦克风噪声语音识别系统的鲁棒性。
下面对本发明实施例具体作进一步地详细描述。
本实施例提供一种基于参考麦克风优化的多通道语音增强方法,包括:
(一)信号模型为:
本实施例以包含M个麦克风的噪声语音识别系统为例,在短时频域分别用t和f代表帧和频率索引,将第m个麦克风采集的带噪语音信号表示为:
Ym(t,f)=hm(f)Xk(t,f)+Nm(t,f),m=1,...,M, (1);
上述式(1)中,Xk(t,f)、Nm(t,f)和hm(f)分别表示参考麦克风k上的纯净声源成分,麦克风m上噪声成分(包括干扰声源、背景噪声、混响和麦克风自噪声等)和目标声源到麦克风m的相对声学传递函数(RTF,relative acoustic transfer function);上述信号模型中,麦克风k被选为参考麦克风,该参考麦克风k在下面的参考麦克风选择步骤中会被进一步优化;针对每个时频点,将M个麦克风的STFT稀疏存储为列向量y,即 y=[Y1(t,f),Y2(t,f),...,YM(t,f)]T,类似的,将相对声学传递函数和噪声成分定义为向量h和n,信号模型可写为如下向量形式:
y=hXk+n (2);
上述式(2)中,为了表达方便时频索引(t,f)被省略;假设目标声源与噪声成分是不相关的,这样多麦克风带噪语音信号协方差矩阵能写成语音协方差矩阵与噪声协方差矩阵的求和形式,即:Φyy=ε[yyH]=ε[xxH]+ε[nnH]=Φxxnn (3);
上述式(3)中,
Figure BDA0003058080780000091
表示语音协方差矩阵;
Figure BDA0003058080780000092
表示参考麦克风k上目标声源成分的功率谱密度;Φnn表示噪声协方差矩阵;ε代表取均值运算;理论上,当只存在单一目标声源时,Φxx的秩为1;但实际中,由于语音协方差矩阵的估计依赖于有限长观测数据,导致Φxx的估计存在误差,且秩不为1;利用声音事件检测方法可以对多麦克风带噪语音信号分为噪声帧和语音加噪声帧,在这两个区间上分别利用滑动平均技术估计Φnn和Φyy,如:
Figure BDA0003058080780000093
(二)建立基于低秩近似的多通道维纳滤波器:
本实施例以建立具有一般性的语音失真加权维纳滤波器SDW-MWF为例,对低秩近似的多通道维纳滤波器的建立过程进行说明,以最小化目标声源均方误差加上加权残余噪声功率为设计准则,即:minw ε[|wHx-Xk|2]+με[|wHn|2] (4);
上述式(4)中,w=[w1,w2,...,wM]T代表滤波器向量;μ≥0为语音增强性能与语音失真度平衡因子;经过推导得出该多通道维纳滤波器的表达式为:
w=(Φxx+μΦnn)-1Φxxek (5);
上述式(5)中,ek为依赖于参考麦克风的列向量,第k个元素为1,其他元素均为0。显然,当μ=0时,该多通道维纳滤波器等价于经典维纳滤波器。
考虑对(Φxx,Φnn)进行广义特征值分解,所得到的特征值从大到小排列为λ1≥λ2≥...≥λM,所对应的特征向量存储于矩阵U=[u1,u2,...,uM],定义对角矩阵Λ,其对角线元素为广义特征值;基于广义特征值分析,Φxx和Φnn可以联合对角化为:
UHΦxxU=Λ,UHΦnnU=I;
其中,I为单位矩阵;由于Φyy=Φxxnn,Φyy可对角化为: UHΦyyU=Λ+I。
因此,实际中可利用Φyy与Φnn的广义特征值分解实现联合对角化操作,基于Φxx的对角化操作,可得出:
Figure BDA0003058080780000101
上述式(6)中,Q=[q1,q2,...,qM]=U-H;可以看出,Φnn=QQH,并且
Figure BDA0003058080780000102
因此,Q=[q1,q2,...,qM]包含了矩阵
Figure BDA0003058080780000103
的左特征向量;对于单声源场景,研究表明,归一化主特征向量对应于声源的相对声学传递函数(即文献J.Zhang,R.Heusdens,and R.C.Hendriks,Relative acoustic transfer functionestimation in wireless acoustic sensor networks,IEEE/ACM Trans.Audio,Speech,Language Process,27(10):1507-1519,2019中公开的相对声学传递函数);
基于上述广义特征值分解,可利用前r个特征值及相应的特征向量对Φxx进行近似:
Figure BDA0003058080780000104
将秩为r的Φxx矩阵代入原始SDW-MWF滤波器中,可得到基于低秩近似的维纳滤波器,即:
Figure BDA0003058080780000111
选取不同的秩,该原始SDW-MWF滤波器可以转化为MVDR、maxSNR等波束形成器(即文献J.R.Jensen,J.Benesty,and M.G.Christensen,Noise reduction with optimalvariable span linear filters,IEEE/ACM Trans.Audio Speech and LanguageProcess,24(4):631–644,2016中公开的波束形成器);
(三)基于低秩近似的多通道维纳滤波器性能评估:
多麦克风带噪语音信号通过上述得到的低秩近似的多通道维纳滤波器后,依赖于参考麦克风k的输出语音信噪比,通过以下公式计算:
Figure BDA0003058080780000112
上述式(9)中,矩阵A,B按如下公式计算:
Figure BDA0003058080780000113
Figure BDA0003058080780000114
因此,输出信噪比为:
Figure BDA0003058080780000115
由此,可以确定输出信噪比依赖于参考麦克风k,优化参考麦克风能提升输出信号质量,可以证明,随着秩r的变大,输出信噪比会降低,这表明当语音协方差矩阵估计越不准确越会影响多通道维纳滤波器的输出性能,而现有技术的方案由于是通过直接最大化该输出信噪比的方式选取参考麦克风,则会带来过高的时间复杂度,造成耗时和实时性差的问题。
(四)基于最大化输入信噪比选择参考麦克风:
为了更清晰地理解输出信噪比与输入信噪比之间的关系,本步骤中固定秩r,如不失一般性取r=2,来分析选取不同参考麦克风对输出信噪比的影响,考虑对偶声源场景,即包含一个目标说话人和一个干扰声源,目标声源的相对声学传递函数为归一化主特征向量q1,利用秩为2的语音协方差矩阵的低秩近似运算可以消除M-2个噪声子空间,近似的语音协方差矩阵包含目标声源和单一干扰声源,其估计扰动成分由次特征向量q2扩张得到,考虑使用麦克风1和2分别作为参考麦克风的情况,两个麦克风的输入信噪比分别为:
Figure BDA0003058080780000121
上述式(10)中,
Figure BDA0003058080780000122
Figure BDA0003058080780000123
分别代表干扰源在麦克风k∈{1,2}和噪声位置的功率谱密度;另外,定义:
Figure BDA0003058080780000124
可以简化上述两个麦克风的输出信噪比为:
Figure BDA0003058080780000125
因此,将两个麦克风的输出信噪比进行如下比较为:
Figure BDA0003058080780000131
其中,
Figure BDA0003058080780000132
为正数;因此,两个麦克风的信噪比增益与输入信噪比差值成正比;这说明选用输入信噪比较大的麦克风作为参考麦克风能得到较大的输出信噪比。综上,可以通过寻找最大元素的方法得到基于最大化输入信噪比的参考麦克风选取结果,即
Figure BDA0003058080780000133
该方法的时间复杂度为对数级;
(五)基于维纳滤波波束形成的语音增强信号:
按上述步骤四优化选定参考麦克风后,基于低秩近似的多通道维纳滤波器可以确定该滤波器的数学表达式为:
Figure BDA0003058080780000134
从中能得到具体的滤波器系数向量,将该低秩近似的多通道维纳滤波器向量与带噪语音信号向量y作内积运算,即进行逐个频点的波束形成得到目标声源的估计结果:
Figure BDA0003058080780000135
对估计结果经过逆短时傅里叶变换,可恢复得到时域目标说话人语音信号,即为语音增强信号,将该时域目标说话人语音信号输入到SGMM-DNN模型中进行语音识别,即能得出语音识别结果。
本发明基于输入信噪比参考麦克风优化的多通道维纳滤波方法,建立增强信号信噪比与参考麦克风的严格数学模型,通过分析输出信噪比与输入信噪比之间的关系,基于最大化输入信噪比来选取参考麦克风,有效降低了参考麦克风选择的时间复杂度,提升了多麦克风语音增强及语音识别性能,本发明的多通道语音增强方法作为多麦克风语音识别(speech recognition)系统的前端处理,能减小环境噪声影响语音识别性能,提升待识别音频信号质量,进而提升语音识别率,对语音增强、噪声语音识别等多种语音信息处理系统具有重要意义。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (3)

1.一种基于参考麦克风优化的多通道语音增强方法,其特征在于,包括:
步骤1,建立多通道维纳滤波器:在由M个麦克风组成的麦克风阵列中任意选定一个麦克风作为参考麦克风,将滤波器输出信号与选定的参考麦克风的参考纯净语音信号之间的均方误差加上加权输出噪声功率作为目标函数,最小化该目标函数得到原始维纳滤波器;对麦克风阵列的多麦克风带噪语音信号协方差矩阵包含的语音协方差矩阵与噪声协方差矩阵做广义特征值分解得出M个特征值,选定其中的前k个特征值和对应的特征向量对语音协方差矩阵做低秩近似,0<k≤M,得到k为秩的低秩近似的语音协方差矩阵,将基于低秩近似的语音协方差矩阵代入所述原始维纳滤波器中得到基于语音协方差矩阵的秩、广义特征值、特征向量和参考麦克风的低秩近似多通道维纳滤波器;
步骤2,建立输出信噪比数学模型:将步骤1的所述低秩近似多通道维纳滤波器的输出信号功率与输出噪声功率的比值作为输出信噪比数学模型,该输出信噪比数学模型为关于参考麦克风和秩的函数;
步骤3,选择参考麦克风:基于所述步骤2建立的输出信噪比数学模型,选定两个麦克风,并计算两个麦克风的输出信噪比差值,根据所述输出信噪比差值选定输入信噪比最大的麦克风作为参考麦克风;
步骤4,波束形成得出增强语音信号:将所述步骤1中确定的秩和所述步骤3选择的参考麦克风代入所述步骤1中建立的所述低秩近似多通道维纳滤波器中,将待增强多麦克风语音信号与该低秩近似多通道维纳滤波器在短时频域做加权求和的内积运算,进行波束形成得到单通道增强后语音信号。
2.根据权利要求1所述的基于参考麦克风优化的多通道语音增强方法,其特征在于,所述步骤2中,所述低秩近似多通道维纳滤波器的输出信号功率为在频域的该低秩近似多通道维纳滤波器的共轭转置乘以输入语音协方差矩阵再乘以滤波器向量;
所述低秩近似多通道维纳滤波器的输出噪声功率为在频域的该低秩近似多通道维纳滤波器的共轭转置、输入噪声协方差矩阵与滤波器向量的乘积。
3.根据权利要求1或2所述的基于参考麦克风优化的多通道语音增强方法,其特征在于,所述方法还包括:步骤5:语音识别:将所述步骤4得到的增强后语音信号输入到基于子空间混合高斯-深度神经网络的语音识别器进行语音识别,翻译并分析目标声源的内容。
CN202110505085.9A 2021-05-10 2021-05-10 一种基于参考麦克风优化的多通道语音增强方法 Active CN113257270B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110505085.9A CN113257270B (zh) 2021-05-10 2021-05-10 一种基于参考麦克风优化的多通道语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110505085.9A CN113257270B (zh) 2021-05-10 2021-05-10 一种基于参考麦克风优化的多通道语音增强方法

Publications (2)

Publication Number Publication Date
CN113257270A CN113257270A (zh) 2021-08-13
CN113257270B true CN113257270B (zh) 2022-07-15

Family

ID=77222524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110505085.9A Active CN113257270B (zh) 2021-05-10 2021-05-10 一种基于参考麦克风优化的多通道语音增强方法

Country Status (1)

Country Link
CN (1) CN113257270B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114339539A (zh) * 2021-11-25 2022-04-12 清华大学苏州汽车研究院(相城) 一种采用麦克风阵列拾音的多通道语音增强方法
CN114550745A (zh) * 2022-02-18 2022-05-27 中国科学技术大学 基于参数化无约束波束形成的双耳语音增强方法及装置
US12120492B2 (en) * 2022-07-28 2024-10-15 Mediatek Inc. Non-coherent noise reduction for audio enhancement on mobile device
CN115331687B (zh) * 2022-08-03 2024-10-22 北京声智科技有限公司 样本音频数据的生成方法、装置、电子设备及存储介质
CN117915229B (zh) * 2024-01-18 2024-06-21 恩平市艾迈思科技有限公司 基于无线通信的多场景麦克风音频数据监管系统及方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0609248D0 (en) * 2006-05-10 2006-06-21 Leuven K U Res & Dev Binaural noise reduction preserving interaural transfer functions
EP3190587B1 (en) * 2012-08-24 2018-10-17 Oticon A/s Noise estimation for use with noise reduction and echo cancellation in personal communication
CN102938254B (zh) * 2012-10-24 2014-12-10 中国科学技术大学 一种语音信号增强系统和方法
CN102969000B (zh) * 2012-12-04 2014-10-22 中国科学院自动化研究所 一种多通道语音增强方法
EP2884491A1 (en) * 2013-12-11 2015-06-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Extraction of reverberant sound using microphone arrays
CN105206281B (zh) * 2015-09-14 2019-02-15 胡旻波 基于分布式麦克风阵列网络的语音增强方法
EP3793210A1 (en) * 2019-09-11 2021-03-17 Oticon A/s A hearing device comprising a noise reduction system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Study on Reference Microphone Selection for Multi-Microphone Speech Enhancement;jie zhang et al;《IEEE/ACM Transactions on Audio, Speech, and Language Processing ( Volume: 29)》;20201127;全文 *

Also Published As

Publication number Publication date
CN113257270A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN113257270B (zh) 一种基于参考麦克风优化的多通道语音增强方法
CN110970053B (zh) 一种基于深度聚类的多通道与说话人无关语音分离方法
Hadad et al. The binaural LCMV beamformer and its performance analysis
Souden et al. A multichannel MMSE-based framework for speech source separation and noise reduction
Zhao et al. A two-stage algorithm for noisy and reverberant speech enhancement
Woodruff et al. Binaural detection, localization, and segregation in reverberant environments based on joint pitch and azimuth cues
CN110473564A (zh) 一种基于深度波束形成的多通道语音增强方法
Yu et al. End-to-end multi-look keyword spotting
Tesch et al. Multi-channel speech separation using spatially selective deep non-linear filters
Kovalyov et al. Dsenet: Directional signal extraction network for hearing improvement on edge devices
Salvati et al. Time Delay Estimation for Speaker Localization Using CNN-Based Parametrized GCC-PHAT Features.
Li et al. Speech enhancement algorithm based on sound source localization and scene matching for binaural digital hearing aids
Delfarah et al. Recurrent neural networks for cochannel speech separation in reverberant environments
Deng et al. DNN-based mask estimation integrating spectral and spatial features for robust beamforming
Šarić et al. Supervised speech separation combined with adaptive beamforming
Aroudi et al. TRUNet: Transformer-recurrent-U network for multi-channel reverberant sound source separation
Li et al. Low complex accurate multi-source RTF estimation
Li et al. Speech enhancement based on binaural sound source localization and cosh measure wiener filtering
Muñoz-Montoro et al. A coherence-based clustering method for multichannel speech enhancement in wireless acoustic sensor networks
CN117711422A (zh) 一种基于压缩感知空间信息估计的欠定语音分离方法和装置
Ganguly et al. Non-uniform microphone arrays for robust speech source localization for smartphone-assisted hearing aid devices
Liu et al. A new neural beamformer for multi-channel speech separation
Salvati et al. Joint identification and localization of a speaker in adverse conditions using a microphone array
Cornelis et al. Binaural voice activity detection for MWF-based noise reduction in binaural hearing aids
Chen et al. A cascaded speech enhancement for hearing aids in noisy-reverberant conditions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant