CN110600050A - 基于深度神经网络的麦克风阵列语音增强方法及系统 - Google Patents
基于深度神经网络的麦克风阵列语音增强方法及系统 Download PDFInfo
- Publication number
- CN110600050A CN110600050A CN201910866598.5A CN201910866598A CN110600050A CN 110600050 A CN110600050 A CN 110600050A CN 201910866598 A CN201910866598 A CN 201910866598A CN 110600050 A CN110600050 A CN 110600050A
- Authority
- CN
- China
- Prior art keywords
- voice
- noise
- neural network
- deep neural
- microphone array
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了基于深度神经网络的麦克风阵列语音增强方法及系统,利用麦克风阵列进行多通道语音信号的采集并对采集到的语音信号进行预处理,通过使用深度神经网络对预处理后的多通道语音信号估计噪声与目标语音的掩膜并计算得到噪声和目标语音的协方差矩阵,根据得到的噪声和目标语音协方差矩阵计算波束形成系数对带噪的多通道语音信号进行波束形成处理,并将波束形成处理后的语音信号通过由深度神经网络估计的目标语音掩膜进行消除残留噪声的后处理。本发明采用基于深度神经网络的方式对麦克风阵列进行语音增强处理,不需要依赖例如平面波假设或者阵列几何这样的先验知识进行波束形成处理,所实现的麦克风阵列语音增强系统具有较好的鲁棒性。
Description
技术领域
本发明涉及人机语音交互技术领域,特别是基于深度神经网络的麦克风阵列语音增强方法及系统。
背景技术
语音增强技术是语音信号处理的一个重要方向,是语音信号处理系统的核心技术之一,在服务机器人,语音通讯,智能音箱以及智能家居等方面有着广泛的应用。语音增强的目的是当干净语音在现实生活场景中受到来自各种噪声干扰时,利用一定的算法和技术将声学环境中的噪声消除,从而提高语音质量与听者主观感受方面的满意度,进而提高语音应用系统的性能。根据采集语音设备的不同,语音增强技术可分为单通道语音增强和麦克风阵列语音增强。传统的麦克风阵列增强需要先验知识的辅助,例如:麦克风几何信息,平面波假设以及空间语者到达方向信息(Direction of Arrival,DOA)估计。因为这些算法对于先验知识的依赖较高,在实际应用中有较大的局限性;且由于大部分传统麦克风阵列增强使用波束形成进行线性的麦克风阵列语音增强处理,对于实际应用环境的鲁棒性较差。
与此同时,近年来的研究表明,在人类语音信号的产生和感知过程在生物学行为中具有明显的多层次或深层次处理结构,而深度神经网络的学习正是使用了多层的非线性信号与信号处理技术有监督的进行特征提起、信号的转化和模式分类的机器学习方法。由于深度神经网络具有良好复杂特征提取表达能力和擅长对数据中的结构化信息进行建模的能力,近几年来常常被用于对语音信号和信息处理的领域中。深度神经网络也为语音增强在现实应用中具有复杂多变的声学环境带来了更高的鲁棒性。
因此,为解决传统麦克风阵列语音增强依赖先验知识与提升在现实生活场景应用中的鲁棒性,本发明提出了一种基于深度神经网络的麦克风阵列语音增强方法及系统。
发明内容
本发明为了解决上述问题,采用基于深度神经网络的方式对麦克风阵列进行语音增强处理,且不需要依赖例如平面波假设或者阵列几何这样的先验知识进行波束形成处理,所实现的麦克风阵列语音增强系统具有较好的鲁棒性。
为此,根据本发明的一个方面,提供了基于深度神经网络的麦克风阵列语音增强方法,包括如下步骤:
步骤S101:使用麦克风阵列采集多通道语音信号,数学表示为y={y1,y2,……yk},k为在麦克风阵列中的个数,k≥2;
步骤S102:对采集到的多通道带噪声语音信号进行预处理,得到对应的时频谱如下公式:
Yf,t={Y1(t,f),Y2(t,f),...,Yk(t,f)},
其中,f为频带数,t为时间帧;
步骤S103:构建深度神经网络训练模块;步骤S104:将训练好的深度神经网络模型用于估计麦克风阵列采集的每个通道带噪信号的目标语音掩膜和噪声掩膜并进行对应的噪声协方差计算与语音协方差计算,语音协方差计算的计算公式为
噪声协方差计算的计算公式为:
T为时间帧总数,H表示共轭转置;
步骤S105:通过计算好的噪声协方差矩阵与语音协方差矩阵估计波束形成系数,公式如下:
步骤S106:利用估计的波束形成系数通过广义特征值波束形成方法(generalizedeigenvalue beamformer,GE V)对带噪的麦克风阵列语音信号进行波束形成处理,得到波束形成后的信号,公式如下:
步骤S107:将波束形成后的信号与由步骤S104中估计得到的目标语音掩膜进行矩阵点乘的计算从而实现消除残留噪声的后处理,得到增强后的语音信号的时频谱图,公式如下:
步骤S108:对增强后的语音信号时频谱图进行反傅里叶变换(ISTFT)从而使信号重构,得到时域信号z(t)。
基于深度神经网络的方式对麦克风阵列进行语音增强处理,且不需要依赖例如平面波假设或者阵列几何这样的先验知识进行波束形成处理,所实现的麦克风阵列语音增强系统具有较好的鲁棒性。
在一些实施方式中,所述步骤S102还包括:以16Hz的采样率对多通道带噪语音信号进行采样;对采样后的时域信号进行离散傅里叶变换(Short-Time Fourier Transform,STFT),得到对应的时频谱图。
在一些实施方式中,所述步骤S103还包括:构建深度神经网络;深度神经网络隐含层之间均用Relu作为激活函数,使用sigmoid函数作为输出层激活函数;将得到的多通道带噪语音信号STFT时频谱图作为神经网络的输入;将初始的学习速率设定为1e-5,每经过10个迭代学习速率减少为之前的一半;采用二元交叉熵为损失函数进行训练得到估计的噪声掩膜谱图与估计的目标语音掩膜谱图保存训练后模型所得到的参数。
在一些实施方式中,输出层为1026个神经元节点的FC(Fully connected layer,FC)。
根据本发明的另一个方面,提供了基于深度神经网络的麦克风阵列语音增强系统,包括:多通道数据获取模块,使用麦克风阵列拾音,获取多通道的带噪语音信号;预处理模块,将得到的多通道带噪语音信号进行采样,并使用STFT将各个通道的语音时域信号转换为对应的时频谱图;深度神经网络模块,该模块分为训练阶段与测试阶段,在训练阶段中将得到的多通道STFT时频谱图送入到深度神经网络中,以目标语音掩膜和噪声掩膜作为监督信息进行训练,在测试阶段中,输入带噪语音信号的STFT时频谱图到训练好的神经网络中,得到对应的目标语音掩膜和噪声掩膜;波束形成模块,该模块通过估计得到的噪声掩膜与目标语音掩膜计算得出对应的噪声与目标语音协方差矩阵,从而进一步计算出波束形成系数,最后得到波束形成后的信号;后处理模块,将估计得到的目标语音掩膜与波束形成后的信号相乘从而进一步波束形成后消除残留的噪声信号;音频信号重构模块,获得增强后的语音信号时频谱后,利用对应混合语音的相位谱通过逆短时傅立叶变换恢复出该目标说话者的时域信号。
在一些实施方式中,3层隐含层,第一层为有256个神经元结点的双向长短时记忆网络层(bidirectional long short-term memory,BLSTM),第2-3隐含层为有513个神经元结点的全连接层(Fully connected layer,FC)。
与现有技术相比,本发明的有益效果如下:
本发明采用基于深度神经网络的方式对麦克风阵列进行语音增强处理,且不需要依赖例如平面波假设或者阵列几何这样的先验知识进行波束形成处理,所实现的麦克风阵列语音增强系统具有较好的鲁棒性。
附图说明
图1为本发明一实施方式的基于深度神经网络的麦克风阵列语音增强方法流程图;
图2为本发明一实施方式的基于深度神经网络的麦克风阵列语音增强方法对采集到的多通道带噪声语音信号进行预处理流程图;
图3为本发明一实施方式的基于深度神经网络的麦克风阵列语音增强方法构建深度神经网络训练模块流程图;
图4为本发明一实施方式的基于深度神经网络的麦克风阵列语音增强系统框图;
图5为本发明一实施方式的基于深度神经网络的麦克风阵列语音增强系统神经网络结构图。
具体实施方式
下面结合附图对本发明作进一步详细的说明。
图1示意性地显示了根据本发明的基于深度神经网络的麦克风阵列语音增强方法流程图,如图1所示,本实施例包括如下步骤:
步骤S101:使用麦克风阵列采集多通道语音信号,数学表示为y={y1,y2,……yk},k为在麦克风阵列中的个数,k≥2。
步骤S102:对采集到的多通道带噪声语音信号进行预处理,得到对应的时频谱如下公式:
Yf,t={Y1(t,f),Y2(t,f),...,Yk(t,f)}
其中,f为频带数,t为时间帧。
步骤S103:构建深度神经网络训练模块;
步骤S104:将训练好的深度神经网络模型用于估计麦克风阵列采集的每个通道带噪信号的目标语音掩膜和噪声掩膜并进行对应的噪声协方差计算与语音协方差计算,语音协方差计算的计算公式为:
噪声协方差计算的计算公式为:
T为时间帧总数,H表示共轭转置。
步骤S105:通过计算好的噪声协方差矩阵与语音协方差矩阵估计波束形成系数,公式如下:
步骤S106:利用估计的波束形成系数通过广义特征值波束形成方法(generalizedeigenvalue beamformer,GEV)对带噪的麦克风阵列语音信号进行波束形成处理,得到波束形成后的信号,公式如下:
步骤S107:将波束形成后的信号与由步骤S104中估计得到的目标语音掩膜进行矩阵点乘的计算从而实现消除残留噪声的后处理,得到增强后的语音信号的时频谱图,公式如下:
步骤S108:对增强后的语音信号时频谱图进行逆傅里叶变换(ISTFT)从而使信号重构,得到时域信号z(t)。
利用麦克风阵列进行多通道语音信号的采集并对采集到的语音信号进行预处理,通过使用深度神经网络对预处理后的多通道语音信号估计噪声与目标语音的掩膜,利用掩膜计算得到对应的协方差矩阵,根据估计得到的噪声协方差矩阵计算波束形成系数从而对带噪的多通道语音信号进行波束形成处理,并将波束形成处理后的语音信号通过由深度神经网络估计的目标语音掩膜进行消除残留噪声的后处理,从而实现多通道语音信号的增强。基于深度神经网络的方式对麦克风阵列进行语音增强处理,且不需要依赖例如平面波假设或者阵列几何这样的先验知识进行波束形成处理,所实现的麦克风阵列语音增强系统具有较好的鲁棒性。
图2示意性地显示了根据本发明一实施方式的基于深度神经网络的麦克风阵列语音增强方法对采集到的多通道带噪声语音信号进行预处理流程图,如图2所示,本实施例包括如下步骤:
以16Hz的采样率对多通道带噪语音信号进行采样;对采样后的时域信号进行离散傅里叶变换(Short-Time Fourier Transform,STFT),得到对应的时频谱图。该图谱用于构建深度神经网络训练模块。
图3示意性地显示了根据本发明一实施方式的基于深度神经网络的麦克风阵列语音增强方法构建深度神经网络训练模块流程图,如图3所示,本实施例包括如下步骤:
构建深度神经网络;深度神经网络隐含层之间均用Relu作为激活函数,输出层为1026个神经元节点的FC,使用sigmoid函数作为输出层激活函数;将得到的多通道带噪语音信号STFT时频谱图作为神经网络的输入;将初始的学习速率设定为1e-5,每经过10个迭代学习速率减少为之前的一半;采用二元交叉熵为损失函数进行训练得到估计的噪声掩膜谱图与估计的目标语音掩膜谱图保存训练后模型所得到的参数。
图4为本发明一实施方式的基于深度神经网络的麦克风阵列语音增强系统框图,如图4所示,
本实施例的基于深度神经网络的麦克风阵列语音增强系统包括:多通道数据获取模块、预处理模块、深度神经网络模块、波束形成模块、后处理模块、音频信号重构模块。
其中,多通道数据获取模块,使用麦克风阵列拾音,获取多通道的带噪语音信号;
预处理模块,将得到的多通道带噪语音信号进行采样,并使用STFT将各个通道的语音时域信号转换为对应的时频谱图;
深度神经网络模块,该模块分为训练阶段与测试阶段,在训练阶段中将得到的多通道STFT时频谱图送入到深度神经网络中,以目标语音掩膜和噪声掩膜作为监督信息进行训练,在测试阶段中,输入带噪语音信号的STFT时频谱图到训练好的神经网络中,得到对应的目标语音掩膜和噪声掩膜;
波束形成模块,该模块通过估计得到的噪声掩膜与目标语音掩膜计算得出对应的噪声与目标语音协方差矩阵,从而进一步计算出波束形成系数,最后得到波束形成后的信号;
后处理模块,将估计得到的目标语音掩膜与波束形成后的信号相乘从而进一步波束形成后消除残留的噪声信号;
音频信号重构模块,获得增强后的语音信号时频谱后,利用对应混合语音的相位谱通过短时傅里叶逆变换恢复出该目标说话者的时域信号。
图5为本发明一实施方式的基于深度神经网络的麦克风阵列语音增强系统框图,如图5所示,
深度神经网络包括:
3层隐含层,第一层为有256个神经元结点的双向长短时记忆网络层(bidirectional long short-term memory,BLSTM),第2-3隐含层为有513个神经元结点的全连接层(Fully connected layer,FC)。
本发明采用基于深度神经网络的方式对麦克风阵列进行语音增强处理,且不需要依赖例如平面波假设或者阵列几何这样的先验知识进行波束形成处理,所实现的麦克风阵列语音增强系统具有较好的鲁棒性。
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (6)
1.基于深度神经网络的麦克风阵列语音增强方法,其特征在于,包括如下步骤:
步骤S101:使用麦克风阵列采集多通道语音信号,数学表示为y={y1,y2,……yk},k为在麦克风阵列中的个数,k≥2;
步骤S102:对采集到的多通道带噪声语音信号进行预处理,得到对应的时频谱如下公式:
Yf,t={Y1(t,f),Y2(t,f),...,Yk(t,f)}
其中,f为频带数,t为时间帧;
步骤S103:构建深度神经网络训练模块;
步骤S104:将训练好的深度神经网络模型用于估计麦克风阵列采集的每个通道带噪信号的目标语音掩膜和噪声掩膜并进行对应的噪声协方差计算与语音协方差计算,语音协方差计算的计算公式为:
噪声协方差计算的计算公式为:
T为时间帧总数,H表示共轭转置;
步骤S105:通过计算好的噪声协方差矩阵与语音协方差矩阵估计波束形成系数,公式如下:
步骤S106:利用估计的波束形成系数通过广义特征值波束形成方法(generalizedeigenvalue beamformer,GEV)对带噪的麦克风阵列语音信号进行波束形成处理,得到波束形成后的信号,公式如下:
步骤S107:将波束形成后的信号与由步骤S104中估计得到的目标语音掩膜进行矩阵点乘的计算从而实现消除残留噪声的后处理,得到增强后的语音信号的时频谱图,公式如下:
步骤S108:对增强后的语音信号时频谱图进行反傅里叶变换(ISTFT)从而使信号重构,得到时域信号z(t)。
2.根据权利要求1所述的方法,其特征在于,所述步骤S102还包括:
以16Hz的采样率对多通道带噪语音信号进行采样;
对采样后的时域信号进行离散傅里叶变换(Short-Time Fourier Transform,STFT),得到对应的时频谱图。
3.根据权利要求1所述的方法,其特征在于,所述步骤S103还包括:
构建深度神经网络;
深度神经网络隐含层之间均用Relu作为激活函数,使用sigmoid函数作为输出层激活函数;
将得到的多通道带噪语音信号STFT时频谱图作为神经网络的输入;
将初始的学习速率设定为1e-5,每经过10个迭代学习速率减少为之前的一半;
采用二元交叉熵为损失函数进行训练得到估计的噪声掩膜谱图与估计的目标语音掩膜谱图
保存训练后模型所得到的参数。
4.根据权利要求3所述的方法,其特征在于,输出层为1026个神经元节点的FC(Fullyconnected layer,FC)。
5.基于深度神经网络的麦克风阵列语音增强系统,其特征在于,包括:
多通道数据获取模块,使用麦克风阵列拾音,获取多通道的带噪语音信号;
预处理模块,将得到的多通道带噪语音信号进行采样,并使用STFT将各个通道的语音时域信号转换为对应的时频谱图;
深度神经网络模块,该模块分为训练阶段与测试阶段,在训练阶段中将得到的多通道STFT时频谱图送入到深度神经网络中,以目标语音掩膜和噪声掩膜作为监督信息进行训练,在测试阶段中,输入带噪语音信号的STFT时频谱图到训练好的神经网络中,得到对应的目标语音掩膜和噪声掩膜;
波束形成模块,该模块通过估计得到的噪声掩膜与目标语音掩膜计算得出对应的噪声与目标语音协方差矩阵,从而进一步计算出波束形成系数,最后得到波束形成后的信号;
后处理模块,将估计得到的目标语音掩膜与波束形成后的信号相乘从而进一步波束形成后消除残留的噪声信号;
音频信号重构模块,获得增强后的语音信号时频谱后,利用对应混合语音的相位谱通过逆短时傅立叶变换恢复出该目标说话者的时域信号。
6.根据权利要求5所述的系统,其特征在于,深度神经网络包括:
3层隐含层,第一层为有256个神经元结点的双向长短时记忆网络层(bidirectionallong short-term memory,BLSTM),第2-3隐含层为有513个神经元结点的全连接层(Fullyconnected layer,FC)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910866598.5A CN110600050B (zh) | 2019-09-12 | 2019-09-12 | 基于深度神经网络的麦克风阵列语音增强方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910866598.5A CN110600050B (zh) | 2019-09-12 | 2019-09-12 | 基于深度神经网络的麦克风阵列语音增强方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110600050A true CN110600050A (zh) | 2019-12-20 |
CN110600050B CN110600050B (zh) | 2022-04-15 |
Family
ID=68859335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910866598.5A Active CN110600050B (zh) | 2019-09-12 | 2019-09-12 | 基于深度神经网络的麦克风阵列语音增强方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110600050B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956951A (zh) * | 2019-12-23 | 2020-04-03 | 苏州思必驰信息科技有限公司 | 一种语音增强采集配件、方法、系统、设备及存储介质 |
CN111341339A (zh) * | 2019-12-31 | 2020-06-26 | 深圳海岸语音技术有限公司 | 基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法 |
CN111508516A (zh) * | 2020-03-31 | 2020-08-07 | 上海交通大学 | 基于信道关联时频掩膜的语音波束形成方法 |
CN112331226A (zh) * | 2020-09-29 | 2021-02-05 | 江苏清微智能科技有限公司 | 一种针对主动降噪系统的语音增强系统及方法 |
CN112634930A (zh) * | 2020-12-21 | 2021-04-09 | 北京声智科技有限公司 | 多通道声音增强方法、装置及电子设备 |
CN113030862A (zh) * | 2021-03-12 | 2021-06-25 | 中国科学院声学研究所 | 一种多通道语音增强方法及装置 |
CN113223552A (zh) * | 2021-04-28 | 2021-08-06 | 锐迪科微电子(上海)有限公司 | 语音增强方法、装置、设备、存储介质及程序 |
CN113470686A (zh) * | 2021-07-23 | 2021-10-01 | 平安科技(深圳)有限公司 | 语音增强方法、装置、设备及存储介质 |
CN113689869A (zh) * | 2021-07-26 | 2021-11-23 | 浙江大华技术股份有限公司 | 语音增强方法、电子设备以及计算机可读存储介质 |
TWI749547B (zh) * | 2020-05-08 | 2021-12-11 | 元智大學 | 應用深度學習的語音增強系統 |
CN113889137A (zh) * | 2021-12-06 | 2022-01-04 | 中国科学院自动化研究所 | 麦克风阵列语音增强的方法、装置、电子设备及存储介质 |
CN114283832A (zh) * | 2021-09-09 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 用于多通道音频信号的处理方法及装置 |
CN114333811A (zh) * | 2020-09-30 | 2022-04-12 | 中国移动通信有限公司研究院 | 一种语音识别方法、系统及设备 |
CN114580445A (zh) * | 2022-03-10 | 2022-06-03 | 昆明理工大学 | 基于领域感知的掩码子结构的多领域自适应神经机器翻译方法 |
CN114664295A (zh) * | 2020-12-07 | 2022-06-24 | 北京小米移动软件有限公司 | 用于机器人的语音识别方法、装置及机器人 |
CN115223580A (zh) * | 2022-05-31 | 2022-10-21 | 西安培华学院 | 一种基于球形麦克风阵列与深度神经网络的语音增强方法 |
CN115472153A (zh) * | 2021-06-11 | 2022-12-13 | 阿里巴巴新加坡控股有限公司 | 语音增强系统、方法、装置及设备 |
CN119049454A (zh) * | 2024-10-31 | 2024-11-29 | 杭州海康威视数字技术股份有限公司 | 一种模型训练方法、声音信号处理方法、装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107452389A (zh) * | 2017-07-20 | 2017-12-08 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
US20180261225A1 (en) * | 2017-03-13 | 2018-09-13 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Multichannel End-to-End Speech Recognition |
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
US20190139563A1 (en) * | 2017-11-06 | 2019-05-09 | Microsoft Technology Licensing, Llc | Multi-channel speech separation |
CN110085246A (zh) * | 2019-03-26 | 2019-08-02 | 北京捷通华声科技股份有限公司 | 语音增强方法、装置、设备和存储介质 |
-
2019
- 2019-09-12 CN CN201910866598.5A patent/CN110600050B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180261225A1 (en) * | 2017-03-13 | 2018-09-13 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Multichannel End-to-End Speech Recognition |
CN107452389A (zh) * | 2017-07-20 | 2017-12-08 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
US20190139563A1 (en) * | 2017-11-06 | 2019-05-09 | Microsoft Technology Licensing, Llc | Multi-channel speech separation |
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
CN110085246A (zh) * | 2019-03-26 | 2019-08-02 | 北京捷通华声科技股份有限公司 | 语音增强方法、装置、设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
TAKUYA YOSHIOKA ETC: "A microhone array system integrating beamforming, feature enhancement, and spectral mask-based noise estimation", 《2011 JOINT WORKSHOP ON HAND-FREE SPEECH COMMUNICATION AND MICROPHONE ARRAYS》 * |
王智国 等: ""基于掩码迭代估计的多通道语音识别算法"", 《信息技术与标准化》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956951A (zh) * | 2019-12-23 | 2020-04-03 | 苏州思必驰信息科技有限公司 | 一种语音增强采集配件、方法、系统、设备及存储介质 |
CN111341339A (zh) * | 2019-12-31 | 2020-06-26 | 深圳海岸语音技术有限公司 | 基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法 |
CN111508516A (zh) * | 2020-03-31 | 2020-08-07 | 上海交通大学 | 基于信道关联时频掩膜的语音波束形成方法 |
TWI749547B (zh) * | 2020-05-08 | 2021-12-11 | 元智大學 | 應用深度學習的語音增強系統 |
CN112331226A (zh) * | 2020-09-29 | 2021-02-05 | 江苏清微智能科技有限公司 | 一种针对主动降噪系统的语音增强系统及方法 |
CN112331226B (zh) * | 2020-09-29 | 2024-04-12 | 江苏清微智能科技有限公司 | 一种针对主动降噪系统的语音增强系统及方法 |
CN114333811A (zh) * | 2020-09-30 | 2022-04-12 | 中国移动通信有限公司研究院 | 一种语音识别方法、系统及设备 |
CN114664295A (zh) * | 2020-12-07 | 2022-06-24 | 北京小米移动软件有限公司 | 用于机器人的语音识别方法、装置及机器人 |
CN112634930A (zh) * | 2020-12-21 | 2021-04-09 | 北京声智科技有限公司 | 多通道声音增强方法、装置及电子设备 |
CN112634930B (zh) * | 2020-12-21 | 2024-06-11 | 北京声智科技有限公司 | 多通道声音增强方法、装置及电子设备 |
CN113030862A (zh) * | 2021-03-12 | 2021-06-25 | 中国科学院声学研究所 | 一种多通道语音增强方法及装置 |
CN113223552A (zh) * | 2021-04-28 | 2021-08-06 | 锐迪科微电子(上海)有限公司 | 语音增强方法、装置、设备、存储介质及程序 |
CN113223552B (zh) * | 2021-04-28 | 2023-06-13 | 锐迪科微电子(上海)有限公司 | 语音增强方法、装置、设备、存储介质及程序 |
CN115472153A (zh) * | 2021-06-11 | 2022-12-13 | 阿里巴巴新加坡控股有限公司 | 语音增强系统、方法、装置及设备 |
CN113470686A (zh) * | 2021-07-23 | 2021-10-01 | 平安科技(深圳)有限公司 | 语音增强方法、装置、设备及存储介质 |
CN113689869A (zh) * | 2021-07-26 | 2021-11-23 | 浙江大华技术股份有限公司 | 语音增强方法、电子设备以及计算机可读存储介质 |
CN114283832A (zh) * | 2021-09-09 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 用于多通道音频信号的处理方法及装置 |
CN113889137A (zh) * | 2021-12-06 | 2022-01-04 | 中国科学院自动化研究所 | 麦克风阵列语音增强的方法、装置、电子设备及存储介质 |
CN114580445A (zh) * | 2022-03-10 | 2022-06-03 | 昆明理工大学 | 基于领域感知的掩码子结构的多领域自适应神经机器翻译方法 |
CN114580445B (zh) * | 2022-03-10 | 2023-03-10 | 昆明理工大学 | 基于领域感知的掩码子结构的多领域自适应神经机器翻译方法 |
CN115223580A (zh) * | 2022-05-31 | 2022-10-21 | 西安培华学院 | 一种基于球形麦克风阵列与深度神经网络的语音增强方法 |
CN115223580B (zh) * | 2022-05-31 | 2025-03-14 | 西安培华学院 | 一种基于球形麦克风阵列与深度神经网络的语音增强方法 |
CN119049454A (zh) * | 2024-10-31 | 2024-11-29 | 杭州海康威视数字技术股份有限公司 | 一种模型训练方法、声音信号处理方法、装置 |
CN119049454B (zh) * | 2024-10-31 | 2025-01-03 | 杭州海康威视数字技术股份有限公司 | 一种模型训练方法、声音信号处理方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110600050B (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600050B (zh) | 基于深度神经网络的麦克风阵列语音增强方法及系统 | |
CN107845389B (zh) | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 | |
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN110085245B (zh) | 一种基于声学特征转换的语音清晰度增强方法 | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
US8880396B1 (en) | Spectrum reconstruction for automatic speech recognition | |
CN102456351A (zh) | 一种语音增强的系统 | |
Li et al. | Real-time monaural speech enhancement with short-time discrete cosine transform | |
CN114078481B (zh) | 基于双通道神经网络时频掩蔽的语音增强方法、装置及助听设备 | |
CN103761974B (zh) | 一种人工耳蜗 | |
Halimeh et al. | Complex-valued spatial autoencoders for multichannel speech enhancement | |
CN113838471A (zh) | 基于神经网络的降噪方法、系统、电子设备及存储介质 | |
CN114041185A (zh) | 用于确定深度过滤器的方法和装置 | |
Kothapally et al. | Monaural speech dereverberation using deformable convolutional networks | |
Ram et al. | Use of radial basis function network with discrete wavelet transform for speech enhancement | |
CN113409804B (zh) | 一种基于变张成广义子空间的多通道频域语音增强算法 | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
Zaman et al. | Classification of harmful noise signals for hearing aid applications using spectrogram images and convolutional neural networks | |
CN114189781A (zh) | 双麦神经网络降噪耳机的降噪方法及系统 | |
CN118212929A (zh) | 一种个性化Ambisonics语音增强方法 | |
CN109215635B (zh) | 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法 | |
Liang et al. | An Implementaion of the CNN-Based MVDR Beamforming For Speech Enhancement | |
Radha et al. | Enhancing speech quality using artificial bandwidth expansion with deep shallow convolution neural network framework | |
CN111009259A (zh) | 一种音频处理方法和装置 | |
Fang et al. | Partially adaptive multichannel joint reduction of ego-noise and environmental noise |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |