CN118212929A - 一种个性化Ambisonics语音增强方法 - Google Patents
一种个性化Ambisonics语音增强方法 Download PDFInfo
- Publication number
- CN118212929A CN118212929A CN202410480255.6A CN202410480255A CN118212929A CN 118212929 A CN118212929 A CN 118212929A CN 202410480255 A CN202410480255 A CN 202410480255A CN 118212929 A CN118212929 A CN 118212929A
- Authority
- CN
- China
- Prior art keywords
- voice
- signal
- enhanced
- target speaker
- spectrogram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 29
- 230000000873 masking effect Effects 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims abstract description 10
- 230000009466 transformation Effects 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000012952 Resampling Methods 0.000 claims description 2
- 238000003475 lamination Methods 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 3
- 238000001228 spectrum Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 10
- 239000012634 fragment Substances 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Complex Calculations (AREA)
Abstract
一种个性化Ambisonics语音增强方法,包括:获取待增强的语音数据,对待增强的语音数据提取频谱图,并对待增强的语音数据进行短时傅里叶变换;将频谱图输入到说话人编码器中,并输入到时域掩码系统的LSTM网络中;将短时傅里叶变换后的信号输入到复数特征编码器,得到实部虚部频谱图;LSTM网络对目标说话人嵌入向量和实部虚部频谱图进行处理,并输入到FCN网络中,得到增强后的目标说话者语音;将增强后的目标说话者语音与短时傅里叶变换后的信号进行乘积,并将乘积后的信号进行短时傅里叶逆变换,得到增强后的干净语音信号;本发明通过构建目标说话人编码器提取目标说话人语音高维特征,从而将干扰语音和背景噪声同时去除。
Description
技术领域
本发明属于语音处理技术领域,具体涉及一种个性化Ambisonics语音增强方法。
背景技术
语音识别需要清晰的唤醒者的语音信号,在空间音频场景下,Ambisonics语音信号除了被环境噪声影响,还会被其他非唤醒者的声音干扰,导致语音识别效果不佳。在语音增强环境下称说唤醒语音的人为目标说话人,因为目标是增强该说话人的声音,其他对语音识别有影响的说话人称为非目标说话人,目标是将其和环境噪声一起消除,非目标说话人声音称之为前景干扰。解决个性化语音增强问题的一种方法是首先在嘈杂的音频上应用语音分离系统,以便将声音从不同的说话者中分离出来。因此,如果噪声信号包含N个说话者,这种方法将产生N个输出,并具有环境噪声的潜在额外输出。经典语音分离任务需要解决两个主要问题,首先,识别记录中的说话者数量N,在实际场景中是未知的。其次,语音分离系统的优化可能需要对说话人标签的排列保持不变,因为说话人的顺序在训练过程中不应该产生影响。随着计算水平的高速发展,深度学习表现出不俗的能力。深度聚类、深度吸引子网络和置换不变训练等是利用深度神经网络来解决这些问题的。
个性化语音增强算法最通用、最简单的方法是基于类的方法,在基于类的视觉模型中,训练分层分类的方案来估计每个像素或超像素区域的类标签。在音频域中,无论是基于分类器还是基于生成模型都是将语音的频谱图的时频元素分割成目标说话人主导的区域。随着深度学习的爆发,基于类的分割问题也被证明很成功。然而,基于类的方法有一些重要的局限性。首先,假设已知标记类别的任务并不能完全解决现实世界信号中可能存在的大量类别的普遍问题。许多对象可能没有明确定义的类别。基于类别的深度网络模型需要明确表示输出节点中的类别和对象实例,这增加了复杂性。虽然生成模型的方法在理论上可以更灵活地处理训练后模型类型和实例的数量,但在计算上往往无法扩展到更一般的分割任务,可能面临更大的挑战。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种个性化Ambisonics语音增强方法,该方法包括:获取待增强的语音数据,对待增强的语音数据提取LogMel频谱图,并对待增强的语音数据进行短时傅里叶变换;训练说话人编码器以及时域掩码系统,其中时域掩码系统包括复数特征编码器、LSTM网络以及FCN网络;
将LogMel频谱图输入到训练后的说话人编码器中,得到目标说话人嵌入向量,并将目标说话人嵌入向量输入到时域掩码系统的LSTM网络中;
将短时傅里叶变换后的信号输入到复数特征编码器,得到实部虚部频谱图;LSTM网络对输入的目标说话人嵌入向量和实部虚部频谱图进行处理,并将处理后的数据输入到FCN网络中,得到增强后的目标说话者语音;
将增强后的目标说话者语音与短时傅里叶变换后的信号进行乘积,并将乘积后的信号进行短时傅里叶逆变换,得到增强后的干净语音信号。
本发明的有益效果:
本发明通过构建目标说话人编码器提取目标说话人语音高维特征,帮助网络分离出目标说话人语音,从而将干扰语音和背景噪声同时去除,对后续的语音识别有着极大的改善。
附图说明
图1为本发明的整体流程图;
图2为本发明的说话人编码器对LogMel频谱图进行处理的流程图;
图3为本发明的复数特征编码器处理数据的流程图;
图4为本发明的FCN网络结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种个性化Ambisonics语音增强方法,如图1所示,该方法包括:获取待增强的语音数据,对待增强的语音数据提取LogMel频谱图,并对待增强的语音数据进行短时傅里叶变换;训练说话人编码器以及时域掩码系统,其中时域掩码系统包括复数特征编码器、LSTM网络以及FCN网络;将LogMel频谱图输入到训练后的说话人编码器中,得到目标说话人嵌入向量,并将目标说话人嵌入向量输入到时域掩码系统的LSTM网络中;将短时傅里叶变换后的信号输入到复数特征编码器,得到实部虚部频谱图;LSTM网络对输入的目标说话人嵌入向量和实部虚部频谱图进行处理,并将处理后的数据输入到FCN网络中,得到增强后的目标说话者语音;将增强后的目标说话者语音与短时傅里叶变换后的信号进行乘积,并将乘积后的信号进行短时傅里叶逆变换,得到增强后的干净语音信号。
在本实施例中,如图2所示,提取LogMel频谱图包括:将原始的音频信号进行重采样以及分帧处理;对每一帧的音频信号进行快速傅里叶变换,得到频域信息;使用Mel滤波器组对频域信息进行加权,得到每个Mel频率段的能量;将每个Mel频率段的能量取对数,得到LogMel频谱图;对LogMel频谱图进行归一化处理。
对一阶Ambisonics语音信号提取LogMel:将语音信号通过STFT变换到频域后应用:
式中,f为奈奎斯特频率;Mel(f)为梅尔频率,它们成对数关系。和STFT声谱图类似的,将梅尔频谱取绝对值和对数后得到对数梅尔频谱。
基于频域的语音信号处理是语音增强前处理的最常见的方法。由于语音信号是短时平稳的,因此可以通过将语音信号分成短时段的帧,可以在每个帧上进行频域分析,从而获得频域特征,能够更好地捕捉语音信号的局部特征,有利于后续的语音处理和分析。分帧后对语音信号计算某一帧的短时傅立叶变换就是短时傅里叶变换(Short-Time FourierTransform,STFT),其公式为:
其中x(n)表示语音信号,w(n)是实数窗。根据n取不同的值实数窗滑动到不同的位置,计算该位置的短时傅立叶变换,最后得到的是一段语音的不同帧的傅里叶变换的线性叠加,反映的是语音信号的频率随着时间变化的特征。在STFT中,窗函数的选择对分析结果具有重要影响。常见的窗函数有矩形窗、汉宁窗、汉明窗以及哈里斯窗等等。其中矩形窗简单易于实现但是频谱泄漏严重,主瓣宽度大,分辨率低;汉宁窗减小了频谱泄漏,有较好的频谱平滑性但是主瓣宽度比较大,对窗口边缘的信号抑制较强;汉明窗与汉宁窗类似,但在主瓣宽度上稍微有所减小,抑制旁瓣的能力更强。在实际中,窗函数的选择需要根据具体的信号特性和分析需求来决定。
短时傅里叶变换后的信号输入到复数特征编码器进行处理包括:数特征编码器针对短时傅立叶变换后得到语音信号的实部和虚部分别进行处理,具体实现是语音信号的实部通过幅度谱乘以相位谱的余弦得到,虚部通过幅度谱乘以相位谱的正弦得到。具体的网络结构图如图3所示;通过对语音信号的实部和虚部多次进行二维卷积以提取其高维特征表示,其中归一化使用的是Layer Norm层归一化,除了最后一层使用的是sigmoid激活函数其余层激活函数使用的是ReLU,一共进行8次卷积。
LSTM网络对输入的目标说话人嵌入向量和实部虚部频谱图进行处理包括:目标说话人嵌入向量即d向量在每个时间帧中重复连接到复数特征编码器的最后一个卷积层输出,然后将生成的连接向量输入馈送到LSTM网络,LSTM的nodes设置为400。
FCN网络对输入数据进行处理包括:FCN网络是全连接网络,如图4所示:x表示输入到FCN网络的特征,y表示输出的特征。FCN通过使用全积层来替代传统CNN中的全连接层,网络接受从LSTM输出的特征图并输出尺寸为F*T的估计掩码图,其中F是频率维度的大小,T是时间帧维度的大小。然后将掩码图与原始语音的频谱图相乘后相加得到估计的干净的语音频谱图,最后进行逆傅里叶变换得到估计的语音。
另一种实施方式,个性化语音增强任务更端到端方法是将其视为二元分类问题,其中正类是目标说话人的语音,负类是由所有前景说话人干扰和背景噪声的组合形成的。通过目标说话人编码器可以抑制三个问题:未知数量的说话人、排列问题和从多个输出中选择。本章实验的目标是构建一个说话人编码器,它能够记录到目标说话人的一个高维特征嵌入。首先训练一个基于LSTM的说话者编码器来计算目标说话人嵌入向量。然后训练一个基于时频掩码的系统,该系统接受由先前使用说话人编码器提取到的目标说话人的嵌入向量和带噪的多说话人Ambisonics音频信号两个输入。该系统经过训练可以实现消除干扰说话者并仅输出目标说话者的声音。
在本实施例中,目标说话人发出的语音梅尔频谱为Xi=1,其中i是目标人的唯一标识,i=1,2,...,n表示该说话人的某一段语音,环境噪声的频谱为N(t,f),输入的带噪语音为Ambisonics形式,表示为:
Y(t,f)=Xi=else1(t,f)+Xj(t,f)+N(t,f)
其中,Xi=else1(t,f)表示除了目标说话人输入到编码器中的语音外的其他语音片段频谱;Xj(t,f)中j表示其他说话人的任意语音片段;于是Y是涵盖了其他说话人声音和目标说话人声音以及环境噪声的FOA信号。本章实验的目标是通过识别到目标说话人编码器输出的特征向量来将其他无关说话人的声音消除,同时滤掉环境噪声。通过目标说话人编码器后的向量可以表示为:
d=fspeaker_encoder(Xi=1)
其中,fspeaker_encoder(·)为目标说话人编码器结构。经过编码输出维度为256的d向量用于输入到语音滤波器网络中实现语音增强:
其中,g(·)表示语音滤波器网络;表示d向量在网络的RNN模块与输入的语音信号频谱特征融合;/>表示的是估计的干净的目标说话人的语音。
在本实施例中,个性化语音增强网络称为P-DPCRN,该网络由目标说话人编码器和语音滤波器网络构成,后者使用目标说话人编码器的输出作为附加输入,为了减轻网络处理的负担,与DPCRN的区别是在解码阶段不在使用CNN结构,而是采用FCN的结构,称这一阶段的网络为语音滤波器网络。说话人编码器的目的是从目标说话人的音频样本中生成说话人特殊特征嵌入。该结构在文本依赖和文本独立的说话人验证任务以及说话人二值化、多说话人和语音到语音翻译方面都取得了很好的性能。如下图所示说话人编码器是一个使用3层LSTM构成的网络,它以1600ms的窗口、重叠50%中提取的log-mel滤波器组能量作为输入,输出说话人嵌入,称为d向量,其固定维数为256。
本实施例中,模型基于理想比值掩蔽估计(Ideal Ratio Mask Estimation,IRM)和神经网络B制式波束形成滤波器估计两原理:
理想比值掩蔽估计旨在估计语音信号中的理想掩蔽比率,以便准确地分离出需要增强的语音信号成分,从而实现语音增强。该方法依赖于信号处理中的掩蔽效应,即人耳在较高信噪比下对强信号的掩蔽作用。IRM基于频域上的比值计算。在频谱上,信号被分解为各个频率成分,每个频率成分的能量与背景噪声的能量进行比较。根据信号与噪声之间的比值,确定哪些频率成分应该被保留(即实验所需要的目标说话人声音)以及哪些应该被抑制(即噪声和非目标说话人声音)。IRM的目标是通过最大化所需信号与噪声之间的比值,来实现信号的准确估计。IRM的公式为:
其中,β为尺度因子;R(t,f)为信噪比矩阵,其计算公式为:
其中,X(t,f)表示非噪声信号;而N(t,f)为包含噪声和非目标说话人声音在内的声音信号。IRM是一种在深度学习语音增强中广泛使用的方法,通过和带噪信号频谱相称可得到估计的干净目标说话人语音信号:
X=YM
经网络波束形成滤波器估计包括:
空间音频环境下的语音增强是针对后续语音识别进行实验的,语音识别一般需求为干净的单通道语音信号,因此需要通过神经网络将Ambisonics进行波束形成使带噪的Ambisonics信号成为干净的单通道语音信号。在神经网络后期掩码相乘后相加的过程可以理解为是对FOA做波束形成滤波的过程,滤波器的参数根据网络预测生成。
语音滤波器网络基于DPCRN用于语音增强。神经网络接受两个输入:目标说话人的特殊特征d向量和从带噪声音使用STFT计算出的实部虚部频谱图。语音滤波器能够预测频谱图的复数掩码,该掩码按元素使用复数乘法乘以输入噪声频谱图然后再相加以实现波束形成以产生增强的单通道语音频谱图。然后通过iSTFT获取增强后的时域波形。语音滤波器网络有8个卷积层、2个LSTM层和2个全连接层构成,除了最后一层具有sigmoid激活外,每个层都具有ReLU激活。本实验在卷积层和LSTM层之间注入d向量,而不是在卷积层之前,有两个原因。首先,d向量已经是目标说话人的一个准确、独特的表示,因此不需要通过在其上应用卷积层来修改它,维度为256的d向量相当于目标说话人的一个“身份证号码”,他能够独特地表征这个说话人的音色等特点,网络根据这个“身份证号码”来生成提取到目标说话人语音的掩码。另外一个原因是卷积层是假定时间和频率均匀性的,不能应用于由两个完全不同的信号组成的输入。
本发明的实验数据来自VCTK数据集和librispeech数据集。训练阶段,实验随机抽取2330名演讲者的语料,以2秒为单位截断这些音频信号,由于这2330名演讲者的语音时长不同,因此最终确定了2200名演讲者的语音作为训练集。根据每个演讲者的语音时长,每个演讲者的语音被切成3、4或者5个2秒的语音片段。其中切成3个片段的语音有512个,4个的有928个语音,5个的有760个语音。一共产生语音片段9048个,为了保证目标说话人编码器学到的特征有效,规定输入到目标说话人编码器的语音片段不能出现在带噪语音和目标语音中,只能使用相同说话人的其他语音片段来作为带噪语音的素材,分别在切片数量为3中选取1个片段作为输入到目标说话人编码器的素材、在切片数量为4和5中选取2个片段作为输入到目标说话人编码器的素材,剩下的切片语音片段用于制作带噪数据集。带噪数据集的制作为以下流程:首先找到与输入目标说话人编码器的语音信号的同一人的不听语音作为固定语音,然后从VCTK数据集以及librisspeech数据集中截取与之不同人的说话人的语音若干,直接将其相加在一起。对于噪声信号,从FSD50K数据集中提取了类似办公室的背景噪音,总共有1440个噪声声音文件,其中包括14个瞬态噪声类和4个连续噪声类。已通过邮件获取了L3DAS23竞赛组的办公室Ambisoncis房间脉冲信号,于是制作Ambisonics语音信号的方法与第四章一致,这里不多赘述。其中目标说话人编码器的输入为单通道语音信号,无需变换为Ambisonics语音信号。目标信号是目标说话人的干净信号,与混合带噪信号相对应。对于测试本章随机抽取librisspeech数据集30名演讲者进行测试。除了使用本发明制作的包含了前景多个说话人干扰的数据集之外,实验还使用了只含有背景噪声的L3DAS23测试集进行评估。
本发明使用wSDR、SI-SNR和PHASEN损失的组合来当做损失函数。PHASEN损失函数能够强调振幅较高的时频点的相位,可以帮助网络关注高振幅时频点,因为大多数语音信息通常集中在振幅较高的时频点,因此强调这些点的相位可以更有效地捕捉语音的重要特征,从而提高语音的质量。另外噪声通常在振幅较低的时频点更为显著,通过强调振幅较高的时频点的相位,可以减少噪声对语音的影响。它的公式如下:
其中和S分别代表网络的估计输出和干净的频谱图;参数p是根据经验设置的数值为0.3的压缩因子;/>代表复数计算。
实验的损失函数为这三个损失函数的组合:
L=(1-β)(LSI-SNR+LwSDR)+βLPHASEN
其中β是损失函数的权重分配参数。
发明的实验利用四块NVIDIA GeForce RTX 3090GPU,采用批量大小为12的模型进行训练,使用AdamW梯度优化器更新参数。通过学习率规划器,在每个epoch结束时将下一个epoch的学习率调整为当前学习率的0.9倍。盲测试集上的模型性能评估结果如下表所示。
可以看出在有多个前景说话人干扰的情况下,基线模型UNet表现很差,WER高达0.683,这对于语音识别是非常不利的。FOA-DPCRN表现尚可,但由于没有对其他前景干扰说话者的针对消除,于是WER的得分也不尽人意。而本发明的个性化语音增强算法能够针对目标说话人声音并将其与背景噪声和前景干扰分离开来,于是WER和STOI也取得较好的成绩,WER比基线模型高出0.47的分数,STOI比基线模型高出0.318分,PESQ提升了21.48%。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种个性化Ambisonics语音增强方法,其特征在于,包括:获取待增强的语音数据,对待增强的语音数据提取LogMel频谱图,并对待增强的语音数据进行短时傅里叶变换;训练说话人编码器以及时域掩码系统,其中时域掩码系统包括复数特征编码器、LSTM网络以及FCN网络;
将LogMel频谱图输入到训练后的说话人编码器中,得到目标说话人嵌入向量,并将目标说话人嵌入向量输入到时域掩码系统的LSTM网络中;
将短时傅里叶变换后的信号输入到复数特征编码器,得到实部虚部频谱图;LSTM网络对输入的目标说话人嵌入向量和实部虚部频谱图进行处理,并将处理后的数据输入到FCN网络中,得到增强后的目标说话者语音;
将增强后的目标说话者语音与短时傅里叶变换后的信号进行乘积,并将乘积后的信号进行短时傅里叶逆变换,得到增强后的干净语音信号。
2.根据权利要求1所述的一种个性化Ambisonics语音增强方法,其特征在于,提取LogMel频谱图包括:将原始的音频信号进行重采样以及分帧处理;对每一帧的音频信号进行快速傅里叶变换,得到频域信息;使用Mel滤波器组对频域信息进行加权,得到每个Mel频率段的能量;将每个Mel频率段的能量取对数,得到LogMel频谱图;对LogMel频谱图进行归一化处理。
3.根据权利要求1所述的一种个性化Ambisonics语音增强方法,其特征在于,LogMel频谱图输入到说话人编码器进行处理包括:将语音信号通过STFT变换到频域,其表达式为:
其中,f为奈奎斯特频率;Mel(f)为梅尔频率。
4.根据权利要求1所述的一种个性化Ambisonics语音增强方法,其特征在于,语音数据进行短时傅里叶变换公式为:
其中,x(m)表示语音信号,w(n)是实数窗。
5.根据权利要求1所述的一种个性化Ambisonics语音增强方法,其特征在于,短时傅里叶变换后的信号输入到复数特征编码器进行处理包括:复数特征编码器针对短时傅立叶变换后得到语音信号的实部和虚部分别进行处理;具体包括:分别对信号的实部和虚部进行多次二维卷积以提取其高维特征表示,其中在进行二维卷积过程后采用归一化层和激活函数对卷积后的特征进行处理,得到实部虚部频谱图。
6.根据权利要求1所述的一种个性化Ambisonics语音增强方法,其特征在于,多次二维卷积的次数为8次,归一化层采用Layer Norm层归一化。
7.根据权利要求1所述的一种个性化Ambisonics语音增强方法,其特征在于,LSTM网络对输入的目标说话人嵌入向量和实部虚部频谱图进行处理包括:目标说话人嵌入向量即d向量在每个时间帧中重复连接到复数特征编码器的最后一个卷积层输出;将生成的连接向量输入馈送到LSTM网络,得到隐藏特征图。
8.根据权利要求1所述的一种个性化Ambisonics语音增强方法,其特征在于,FCN网络对输入数据进行处理包括:FCN通过使用全积层来替代CNN中的全连接层,LSTM输出的特征图输入到FCN网络中,输出尺寸为F*T的估计掩码图,其中F是频率维度的大小,T是时间帧维度的大小;将掩码图与原始语音的频谱图相乘后相加得到估计的干净的语音频谱图,最后进行逆傅里叶变换得到估计的语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410480255.6A CN118212929A (zh) | 2024-04-22 | 2024-04-22 | 一种个性化Ambisonics语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410480255.6A CN118212929A (zh) | 2024-04-22 | 2024-04-22 | 一种个性化Ambisonics语音增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118212929A true CN118212929A (zh) | 2024-06-18 |
Family
ID=91448446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410480255.6A Pending CN118212929A (zh) | 2024-04-22 | 2024-04-22 | 一种个性化Ambisonics语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118212929A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118609605A (zh) * | 2024-08-08 | 2024-09-06 | 宁波星巡智能科技有限公司 | 基于机器学习的婴幼儿哭声增强方法、装置及设备 |
-
2024
- 2024-04-22 CN CN202410480255.6A patent/CN118212929A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118609605A (zh) * | 2024-08-08 | 2024-09-06 | 宁波星巡智能科技有限公司 | 基于机器学习的婴幼儿哭声增强方法、装置及设备 |
CN118609605B (zh) * | 2024-08-08 | 2024-10-18 | 宁波星巡智能科技有限公司 | 基于机器学习的婴幼儿哭声增强方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | SE-Conformer: Time-Domain Speech Enhancement Using Conformer. | |
Shon et al. | Voiceid loss: Speech enhancement for speaker verification | |
CN108899047B (zh) | 音频信号的掩蔽阈值估计方法、装置及存储介质 | |
CN112331218B (zh) | 一种针对多说话人的单通道语音分离方法和装置 | |
CN108962229B (zh) | 一种基于单通道、无监督式的目标说话人语音提取方法 | |
Wang et al. | Deep learning assisted time-frequency processing for speech enhancement on drones | |
Roman et al. | Pitch-based monaural segregation of reverberant speech | |
Do et al. | Speech source separation using variational autoencoder and bandpass filter | |
Ganapathy | Multivariate autoregressive spectrogram modeling for noisy speech recognition | |
Mun et al. | The sound of my voice: Speaker representation loss for target voice separation | |
WO2023001128A1 (zh) | 音频数据的处理方法、装置及设备 | |
Do et al. | Speech Separation in the Frequency Domain with Autoencoder. | |
Fan et al. | Utterance-level permutation invariant training with discriminative learning for single channel speech separation | |
CN118212929A (zh) | 一种个性化Ambisonics语音增强方法 | |
Sheeja et al. | CNN-QTLBO: an optimal blind source separation and blind dereverberation scheme using lightweight CNN-QTLBO and PCDP-LDA for speech mixtures | |
CN114189781B (zh) | 双麦神经网络降噪耳机的降噪方法及系统 | |
Baby et al. | Speech dereverberation using variational autoencoders | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
CN112216301B (zh) | 基于对数幅度谱和耳间相位差的深度聚类语音分离方法 | |
Zhao et al. | Time-Domain Target-Speaker Speech Separation with Waveform-Based Speaker Embedding. | |
Sheeja et al. | Speech dereverberation and source separation using DNN-WPE and LWPR-PCA | |
Marti et al. | Automatic speech recognition in cocktail-party situations: A specific training for separated speech | |
CN112908340A (zh) | 一种基于全局-局部加窗的声音特征快速提取方法 | |
CN115171716B (zh) | 一种基于空间特征聚类的连续语音分离方法、系统及电子设备 | |
Al-Ali et al. | Enhanced forensic speaker verification performance using the ICA-EBM algorithm under noisy and reverberant environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |