CN113808607B - 基于神经网络的语音增强方法、装置及电子设备 - Google Patents
基于神经网络的语音增强方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113808607B CN113808607B CN202110245564.1A CN202110245564A CN113808607B CN 113808607 B CN113808607 B CN 113808607B CN 202110245564 A CN202110245564 A CN 202110245564A CN 113808607 B CN113808607 B CN 113808607B
- Authority
- CN
- China
- Prior art keywords
- original
- time
- frequency
- amplitude spectrum
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 52
- 238000001228 spectrum Methods 0.000 claims abstract description 189
- 238000009499 grossing Methods 0.000 claims abstract description 149
- 238000000605 extraction Methods 0.000 claims abstract description 72
- 238000006243 chemical reaction Methods 0.000 claims abstract description 20
- 230000009466 transformation Effects 0.000 claims abstract description 20
- 238000003860 storage Methods 0.000 claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims description 98
- 238000004422 calculation algorithm Methods 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 20
- 238000009826 distribution Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 abstract description 24
- 238000012545 processing Methods 0.000 abstract description 15
- 230000006870 function Effects 0.000 description 29
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000005070 sampling Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000003062 neural network model Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000001419 dependent effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000011478 gradient descent method Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Complex Calculations (AREA)
- Telephonic Communication Services (AREA)
Abstract
本公开提供一种基于神经网络的语音增强方法、装置、存储介质及电子设备;涉及语音信号处理领域。所述方法包括:将原始语音信号进行时频变换得到原始语音信号的原始幅度谱;利用时间维卷积核对原始幅度谱进行特征提取,得到时域平滑特征图;利用频率维卷积核对原始幅度谱进行特征提取,得到频域平滑特征图;对原始幅度谱、时域平滑特征图和频域平滑特征图进行组合特征提取,得到原始语音信号的增强幅度谱;对增强幅度谱进行时频逆变换得到增强语音信号。本公开通过对原始语音信号提取时频平滑特征,可以在时间轴和频率轴上实现双轴降噪,并结合深度神经网络可以实现降噪参数的自学习,进一步提升语音信号的质量。
Description
技术领域
本公开涉及语音信号处理领域,具体而言,涉及一种基于神经网络的语音增强方法、语音增强装置、计算机可读存储介质以及电子设备。
背景技术
近几年,随着深度学习技术的高速发展,语音识别技术的识别效果也得到很大提升,该技术在无噪音场景下语音的识别准确率,已达到可以替代人工的语音识别标准。
目前,语音识别技术主要可以应用于智能客服、会议录音转写、智能硬件等场景。但是,当背景环境有噪音时,如在智能客服通话时用户周围环境杂音或会议记录音频中的背景杂音等,受此类杂音影响,语音识别技术可能无法准确地识别说话人的语义,进而影响语音识别的整体准确率。
因此,如何提高有噪音情况下的语音识别准确率成为语音识别技术下一个需要攻克的难关。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种基于神经网络的语音增强方法、语音增强装置、计算机可读存储介质以及电子设备,以解决现有技术中有噪音情况下的语音识别准确率较低的问题。
根据本公开的第一方面,提供一种基于神经网络的语音增强方法,包括:
将原始语音信号进行时频变换得到所述原始语音信号的原始幅度谱;
利用时间维卷积核对所述原始幅度谱进行特征提取,得到时域平滑特征图;
利用频率维卷积核对所述原始幅度谱进行特征提取,得到频域平滑特征图;
对所述原始幅度谱、所述时域平滑特征图和所述频域平滑特征图进行组合特征提取,得到所述原始语音信号的增强幅度谱;
对所述增强幅度谱进行时频逆变换得到增强语音信号。
在本公开的一种示例性实施例中,所述利用时间维卷积核对所述原始幅度谱进行特征提取,得到时域平滑特征图,包括:
根据卷积滑窗和时域平滑因子确定时域平滑参数矩阵;
对所述时域平滑参数矩阵作乘积运算得到所述时间维卷积核的权重矩阵;
对所述时间维卷积核的权重矩阵和所述原始幅度谱作卷积运算,得到所述时域平滑特征图。
在本公开的一种示例性实施例中,所述利用频率维卷积核对所述原始幅度谱进行特征提取,得到频域平滑特征图,包括:
根据卷积滑窗和频域平滑因子确定频域平滑参数矩阵;
对所述频域平滑参数矩阵作乘积运算得到所述频率维卷积核的权重矩阵;
对所述频率维卷积核的权重矩阵和所述原始幅度谱的转置矩阵作卷积运算,得到所述频域平滑特征图。
在本公开的一种示例性实施例中,所述对所述原始幅度谱、所述时域平滑特征图和所述频域平滑特征图进行组合特征提取,得到所述原始语音信号的增强幅度谱,包括:
合并所述原始语音信号的原始幅度谱、所述时域平滑特征图和所述频域平滑特征图,得到待增强语音信号;
以所述待增强语音信号为深度神经网络的输入,利用反向传播算法对所述时间维卷积核的权重矩阵和所述频率维卷积核的权重矩阵进行训练;
根据训练得到的权重矩阵对所述待增强语音信号进行组合特征提取,得到所述原始语音信号的增强幅度谱。
在本公开的一种示例性实施例中,所述将原始语音信号进行时频变换得到所述原始语音信号的原始幅度谱,包括:
对所述原始语音信号进行加窗分帧处理,得到分帧后的语音信号;
对每帧语音信号作离散傅里叶变换,并对变换后的语音信号作取模运算得到所述原始语音信号的原始幅度谱。
在本公开的一种示例性实施例中,所述对所述增强幅度谱进行时频逆变换得到增强语音信号,包括:
对所述变换后的语音信号作取相位角运算得到所述原始语音信号的原始相位谱;
对所述原始语音信号的增强幅度谱和所述原始相位谱作时频逆变换,得到所述增强语音信号。
在本公开的一种示例性实施例中,所述原始语音信号的原始幅度谱服从复数域二维高斯分布。
根据本公开的第二方面,提供一种语音增强装置,包括:
信号变换模块,用于将原始语音信号进行时频变换得到所述原始语音信号的原始幅度谱;
时域平滑特征提取模块,用于利用时间维卷积核对所述原始幅度谱进行特征提取,得到时域平滑特征图;
频域平滑特征提取模块,用于利用频率维卷积核对所述原始幅度谱进行特征提取,得到频域平滑特征图;
组合特征提取模块,用于利用深度神经网络算法对所述原始幅度谱、所述时域平滑特征图和所述频域平滑特征图进行组合特征提取,得到所述原始语音信号的增强幅度谱;
信号逆变换模块,用于对所述增强幅度谱进行时频逆变换得到增强语音信号。
根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。
根据本公开的第四方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。
本公开示例性实施例可以具有以下部分或全部有益效果:
在本公开示例实施方式所提供的语音增强方法中,通过将原始语音信号进行时频变换得到原始语音信号的原始幅度谱;利用时间维卷积核对原始幅度谱进行特征提取,得到时域平滑特征图;利用频率维卷积核对原始幅度谱进行特征提取,得到频域平滑特征图;对原始幅度谱、时域平滑特征图和频域平滑特征图进行组合特征提取,得到原始语音信号的增强幅度谱;对增强幅度谱进行时频逆变换得到增强语音信号。一方面,通过卷积神经网络对时间轴和频率轴的二维组合提取时频平滑特征,并结合深度神经网络可以实现降噪参数的自学习,进一步提升语音信号的质量;另一方面,根据语音信号在时间轴和频率轴上的统计特性,能够实现在时间轴、频率轴双轴降噪,进而在多种复杂噪声环境下达到语音增强的效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了可以应用本公开实施例的一种语音增强方法及装置的示例性系统架构的示意图;
图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图;
图3示意性示出了根据本公开的一个实施例的语音增强方法的流程图;
图4示意性示出了根据本公开的一个实施例的时域平滑特征提取的流程图;
图5示意性示出了根据本公开的一个实施例的频域平滑特征提取的流程图;
图6示意性示出了根据本公开的一个实施例的增强幅度谱获取的流程图;
图7示意性示出了根据本公开的一个实施例的语音增强的流程图;
图8A-8B示意性示出了根据本公开的一个具体实施例的TFDAL模块与U-Net深度神经网络结合的示意图;
图9示意性示出了根据本公开的一个实施例的语音增强装置的框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
图1示出了可以应用本公开实施例的一种语音增强方法及装置的示例性应用环境的系统架构的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
本公开实施例所提供的语音增强方法一般由服务器105执行,相应地,语音增强装置一般设置于服务器105中。但本领域技术人员容易理解的是,本公开实施例所提供的语音增强方法也可以由终端设备101、102、103执行,相应的,语音增强装置也可以设置于终端设备101、102、103中,本示例性实施例中对此不做特殊限定。
图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图2示出的电子设备的计算机系统200仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图2所示,计算机系统200包括中央处理单元(CPU)201,其可以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中,还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。
以下部件连接至I/O接口205:包括键盘、鼠标等的输入部分206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207;包括硬盘等的存储部分208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器210上,以便于从其上读出的计算机程序根据需要被安装入存储部分208。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分209从网络上被下载和安装,和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时,执行本申请的方法和装置中限定的各种功能。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现如图3至图7所示的各个步骤等。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
以下对本公开实施例的技术方案进行详细阐述:
在得到实际观测的带噪语音信号y(n)后,可以将y(n)通过短时傅里叶变换(Short-Time Fourier Transform,STFT)从一维时域信号变为二维时频域STFT复数参数。由于STFT转换过程可逆,转换矩阵为满秩矩阵,使得语音信息无损。
在时域上,实际观测到的语音信号可以表示为纯净语音信号和噪声信号的加和,即:
y(n)=x(n)+w(n)
其中,y(n)表示实际观测到的带噪语音信号,x(n)表示时域上的纯净语音信号,w(n)表示时域上的噪声信号。在经过STFT变换的时频域上,对应的有:
Y(k,l)=X(k,l)+W(k,l)
其中,Y(k,l)表示带噪语音信号的STFT参数,X(k,l)表示纯净语音信号的STFT参数,W(k,l)表示噪声信号的STFT参数,k表示频率轴上第k个频率格,l表示时间轴上第l个时间帧。
假设噪声信号为高斯白噪声时,噪声信号的时域幅度谱服从高斯分布,即w为时域幅度谱的概率密度函数,N为方差。此时,高斯白噪声经过STFT变换后,W(k,l)在时频域上具有各向同性的特点,即高斯白噪声沿时间轴T和频率轴F具有相同性质。类似的,也可以对噪声的STFT参数W(k,l)做一般性假设,其概率密度函数(Probability Density Function,PDF)服从复数域二维高斯分布。
当噪声信号的概率密度函数沿时间轴和频率轴服从二维高斯分布时,可以通过求解增益函数G(k,l)实现语音信号的降噪。其中,可以将该增益函数设为时变且频率依赖的函数,即对应于不同的时间帧l和频率格k,有不同的增益函数值。通过该增益函数和带噪语音信号Y(k,l),可以得到预测的纯净语音信号的STFT参数即根据:
其中,增益函数G(k,l)与语音出现概率有关,对应的可以存在语音缺失段和语音出现段。假设在第k个频率段和第l个时间段语音缺失的部分为H0(k,l),语音出现的部分为H1(k,l),当只存在噪声信号时,表现为语音缺失段;当基于噪声信号还存在纯净语音信号时,表现为语音出现段,则观测到的带噪语音信号可以分段表示为:
H0(k,l):Y(k,l)=W(k,l)
H1(k,l):Y(k,l)=X(k,l)+W(k,l)
对应的,带噪语音信号Y(k,l)可以用条件概率表示为:
其中,p(H0(k,l)|Y(k,l))为根据Y(k,l)估计每个频点的语音缺失的后验概率,p(H1(k,l)|Y(k,l))为根据Y(k,l)估计每个频点的语音出现的后验概率,也就是可以通过Y(k,l)确定语音出现段和语音缺失段。从而可以根据不同的增益函数G(k,l)得到预测的纯净语音信号的STFT参数
具体的,的预测过程为:
其中,p(k,l)为语音出现的后验概率,即已知Y(k,l)时语音出现的概率。由此可知,在不同的时间段与频率格上,通过调整增益函数G(k,l),可以实现不同语音出现概率下的对应的不同降噪方法,也即在语音出现段和语音缺失段实现不同的平滑策略,进而可以实现时变、频率依赖的平滑算法。
该方法中,由于增益函数G(k,l)的计算公式以及增益函数时变、频率依赖的变化方法都是由专家知识驱动开发的算法,当噪声种类增多、数据量扩增时,该算法在增强语音信号时存在局限性。另外,对于深度神经网络(Deep Neural Network,DNN)的语音增强算法,该算法也存在着缺乏专家知识、模型可解释性、模型结构设计缺乏针对性等缺点。
基于上述一个或多个问题,本示例实施方式提供了一种基于神经网络的语音增强方法,该方法可以应用于上述服务器105,也可以应用于上述终端设备101、102、103中的一个或多个,本示例性实施例中对此不做特殊限定。参考图3所示,该语音增强方法可以包括以下步骤S310和步骤S350:
步骤S310.将原始语音信号进行时频变换得到所述原始语音信号的原始幅度谱;
步骤S320.利用时间维卷积核对所述原始幅度谱进行特征提取,得到时域平滑特征图;
步骤S330.利用频率维卷积核对所述原始幅度谱进行特征提取,得到频域平滑特征图;
步骤S340.对所述原始幅度谱、所述时域平滑特征图和所述频域平滑特征图进行组合特征提取,得到所述原始语音信号的增强幅度谱;
步骤S350.对所述增强幅度谱进行时频逆变换得到增强语音信号。
在本公开示例实施方式所提供的语音增强方法中,通过将原始语音信号进行时频变换得到原始语音信号的原始幅度谱;利用时间维卷积核对原始幅度谱进行特征提取,得到时域平滑特征图;利用频率维卷积核对原始幅度谱进行特征提取,得到频域平滑特征图;对原始幅度谱、时域平滑特征图和频域平滑特征图进行组合特征提取,得到原始语音信号的增强幅度谱;对增强幅度谱进行时频逆变换得到增强语音信号。一方面,通过卷积神经网络对时间轴和频率轴的二维组合提取时频平滑特征,并结合深度神经网络可以实现降噪参数的自学习,进一步提升语音信号的质量;另一方面,根据语音信号在时间轴和频率轴上的统计特性,能够实现在时间轴、频率轴双轴降噪,进而在多种复杂噪声环境下达到语音增强的效果。
下面,对于本示例实施方式的上述步骤进行更加详细的说明。
在步骤S310中,将原始语音信号进行时频变换得到所述原始语音信号的原始幅度谱。
语音通信过程中环境噪声的干扰是不可避免的,实际观测到的原始语音信号一般为带噪语音信号,该信号是一个非稳态、时变的信号。原始语音信号的时域分析是对语音波形进行处理得到一系列随时间变化的特征,时域分析是基于语音信号的短时不变性,即在较短时间内语音信号的各种特性是不变的。但是,一般是对时频域语音信号作增强处理,因此,可以将一维时域语音信号变换为二维时频域语音信号,以便于从带噪语音信号中提取纯净的语音信号。
一种示例实施方式中,由于傅里叶变换不会改变语音信号的统计特性,例如,可以通过短时傅里叶变换将原始语音信号变换为时频域语音信号。为了进行短时分析,可以将原始语音信号进行分帧,具体的帧长度可以根据实际情况进行设置,例如,可以将帧长度设置为32ms,即每32ms采样点为一帧信号,还可以是采样率8kHz,对应的一帧为256个采样点,在本实施例中,优选采样率16kHz,一帧为512个采样点。短时傅里叶变换具有变换速度快,计算量小的特点。在其他示例实施方式中,也可以将时域语音信号通过离散余弦变换得到时频域语音信号,还可以通过听觉滤波组如Gammatone滤波器组,对原始语音信号进行滤波处理,得到时频域语音信号,进而可以反映出某一时间段内的语音信号的频谱变换规律。
示例性的,可以将原始语音信号通过加窗划分为多个短时段,每一短时段称为一帧,每帧信号都是有重叠的。例如,可以在时域上用窗函数去截取信号,对截下来的局部信号作傅里叶变换,具体的,可以利用时间窗函数乘以原始语音信号去截取信号,得到多帧语音信号。其中,时间窗函数可以是Rectangular窗(矩形窗),也可以是Hamming窗(汉明窗,还可以是Hanning窗(汉宁窗)、Bartlett窗(巴特雷特窗)等。另外,为了尽可能的不丢失语音信号动态变化的信息,还可以采用滑动窗,即帧与帧之间有一定的重叠,称为窗移,窗移可以取窗长的一半,示例性的,当窗长为25ms时,窗移也可以取10ms。
对原始语音信号分帧完成后,可以对每帧语音信号作离散傅里叶变换,如可以不断的移动时间窗函数的中心位置,即可得到每帧的傅里叶变换。由于离散傅里叶变换具有对称性,每帧可以只取离散傅里叶变换结果的一半点数作为每帧语音信号的短时傅里叶变换结果,短时傅里叶变换结果的集合也就是原始语音信号的时频变换结果。
原始语音信号经过短时傅里叶变换后得到时频域语音信号后,时频域语音信号在每个频率点的取值是一个复数,该复数可以由模和辐角确定,所以可以将该时频域语音信号分解为幅度谱和相位谱。其中,幅度谱是该复数的模关于频率的函数,相位谱是该复数的辐角关于频率的函数。
例如,可以将时频域语音信号Y(k,l)进行取模运算,得到原始语音信号的原始幅度谱,即:
|Y(k,l)|2=Img(Y(k,l))2+Real(Y(k,l))2
其中,|Y(k,l)|为时频域语音信号的原始幅度谱,由于语音信号经过傅里叶变换后信息无损,所以,|Y(k,l)|也是原始语音信号的原始幅度谱。Real(Y(k,l))为时频域语音信号的实部,Img(Y(k,l))为时频域语音信号的虚部。
另外,可以假设原始语音信号的原始幅度谱服从复数域二维高斯分布。可以理解的是,对于其中包含的噪声信号如白噪声信号,是平稳噪声中的一种,也可以假设其概率密度分布在时间轴和频率轴服从二维高斯分布,即在时间轴、频率轴都具有统计特性,便于在时间轴、频率轴上可以实现降噪处理。
获取原始语音信号的原始幅度谱后,可以将该原始幅度谱输入深度神经网络中以进行时变、频率依赖的不同特征的提取。例如,可以基于时频域语音信号相邻帧和相邻频带之间的相关性,通过在时间和频率两个维度进行平滑处理来计算该时频域语音信号的局部特征。
一种示例实施方式中,将带噪语音信号由一维时域信号转换到二维频域的STFT参数,即由y(n)=x(n)+w(n)转换到Y(k,l)=X(k,l)+W(k,l)后,可以对时频域语音信号进行降噪处理,以增强原始语音信号。例如,可以利用深度神经网络模型进行语音增强,通过平滑算法对时频域语音信号进行降噪处理时,可以将平滑算法并入深度神经网络的二维卷积模块当中。由于单个卷积模块对应的是单个特征的提取,在滑动过程中保持权重不变,可以对整个输入Y(k,l)实现单特征提取。如果要实现时变、频率依赖的分段不同特征的提取,可以通过先使用多个卷积核提取特征、再进行特征组合来完成。
示例性的,该二维卷积模块可以是一个TFDAL(Time-Frequency DomainAveraging Layer,时频域平滑层)模块,TFDAL模块又可以包含两个子模块,时间维平滑模块(Time-Dimensional Averaging Module,TAM)和频率维平滑模块(Frequency-Dimensional Averaging Module,FAM),可以分别对应时间轴维度的噪声平滑和频率轴维度的噪声平滑。
在步骤S320中,利用时间维卷积核对所述原始幅度谱进行特征提取,得到时域平滑特征图。
可以将该原始幅度谱作为TAM模块的输入,通过TAM模块对原始语音信号进行滤波处理,也就是进行时间轴维度的噪声平滑。例如,可以使用加权移动平均法来预测待平滑时间轴上每个时间点的幅度谱信息,其中,加权移动平均法可以根据同一个移动段内不同时间的数据对预测值的影响程度(对应不同的权重)来预测未来值。
参考图4所示,可以根据步骤S410至步骤S430进行时间轴维度的噪声平滑:
步骤S410.根据卷积滑窗和时域平滑因子确定时域平滑参数矩阵。
一种示例实施方式中,TAM模块对时域的平滑可以通过一个滑窗来实现,对应的平滑算法可以是:
其中,l:表示时间轴上的第l个时间帧;
k:表示频率轴上的第k个频率格;
D:表示滑窗宽度,其宽度可以根据实际情况进行设置,在本示例中,优选可以将滑窗宽度设置为32帧;
α:平滑因子,表示对信号沿时间轴作平滑处理时,对滑窗宽度内的历史时间帧的幅度谱的利用程度,[α0 … αN]为不同的平滑因子,每个平滑因子的取值范围为[0,1],对应于α的取值,TAM模块中的卷积核数量可以为N;
Y(k,l-D+i):其中i∈[1,D],表示滑窗宽度内的历史时间帧的幅度谱。本示例中,可以对各个历史时间帧的幅度谱都加以利用,示例性的,时间点为第32帧时的幅度谱可以由滑窗宽度内的前面31帧的幅度谱组成;
另外,某一时间点离l值越远时,αD-i的值越小,该时间点的幅度谱的权重越小;离l值越近时,αD-i的值越大,该时间点的幅度谱的权重越大;
Tα(k,l):表示由滑窗宽度内历史时间帧的幅度谱叠加得到新的幅度谱,也是经过时域平滑得到的幅度谱。
可以理解的是,在TAM模块中,可以根据卷积滑窗和时域平滑因子确定时域平滑参数矩阵,即可以根据滑窗宽度D和时域平滑因子α=[α0 … αN]确定第一时域平滑参数矩阵[α0 … αD-i]和第二时域平滑参数矩阵[1-α]。
步骤S420.对所述时域平滑参数矩阵作乘积运算得到所述时间维卷积核的权重矩阵。
一种示例实施方式中,在对原始输入图像进行时域特征提取之前,可以先确定时间维卷积核的权重矩阵。对时间轴进行平滑时,在TAM模块中对应可以有N个卷积核,每个卷积核对应不同的平滑因子,其中,平滑因子α=[α0 … αN],每个卷积核对应的第一时域平滑参数矩阵可以为[α0 … αD-i],结合第二时域平滑参数矩阵[1-α],如可以将第一时域平滑参数矩阵和第二时域平滑参数矩阵作乘积运算可以得到时间维卷积核的最终权重矩阵
步骤S430.对所述时间维卷积核的权重矩阵和所述原始幅度谱作卷积运算,得到所述时域平滑特征图。
由于时频域语音信号的原始幅度谱与原始输入图像大小相同,也是二维形式,可以将其作为原始输入图像的频域图。然后,可以利用统计方法进行特征的构建和提取,具体的,可以依次对原始输入图像中的所有像素点进行平滑处理,以得到滤波后的图像。其中,为了保证滤波后的图像与原始输入图像尺寸相同,对原始输入图像中导致邻域大小超出图像区域的边缘像素,可以采用补零、对称补充相邻像素等方法进行预先补全的操作。
一种示例实施方式中,可以将时频域语音信号的原始幅度谱作为原始输入图像,该频谱图可以是一个T×F的二维图像矩阵,T为时间维度,F为频率维度,可以对该二维图像矩阵和时间维卷积核的权重矩阵作乘积运算,得到时域平滑特征图。
在步骤S330中,利用频率维卷积核对所述原始幅度谱进行特征提取,得到频域平滑特征图。
同时,也可以将该原始幅度谱作为FAM模块的输入,通过FAM模块对原始语音信号进行滤波处理,也就是进行频率轴维度的噪声平滑。例如,可以使用加权移动平均法来预测待平滑频率轴上每个频率格的幅度谱信息,参考图5所示,可以根据步骤S510至步骤S530利用加权移动平均法进行频率轴维度的噪声平滑:
步骤S510.根据卷积滑窗和频域平滑因子确定频域平滑参数矩阵。
一种示例实施方式中,FAM模块对频域的平滑可以通过一个滑窗来实现,对应的平滑算法可以是:
其中,k:表示频率轴上的第k个频率格;
l表示时间轴上的第l个时间帧;
D表示滑窗宽度,其宽度可以根据实际情况进行设置,在本示例中,优选可以将滑窗宽度设置为32帧;
β:平滑因子,表示对信号沿频率轴作平滑处理时,对滑窗宽度内的历史幅度谱的利用程度,[β0 … βM]为不同的平滑因子,每个平滑因子的取值范围为[0,1],对应于β的取值,FAM模块中的卷积核数量可以为M;
Y(k-D+i,l):其中i∈[1,D],表示滑窗宽度内的历史幅度谱。本示例中,可以对各个历史幅度谱都加以利用,示例性的,滑窗宽度内第32帧时的幅度谱可以由滑窗内的前面31帧的幅度谱组成;
同样,某一频率格离k值越远,βD-i值越小,该频率格对应的历史幅度谱的权重越小;离k值越近,βD-i值越大,该频率格对应的历史幅度谱的权重越大;
Fβ(k,l):表示由滑窗宽度内历史幅度谱叠加得到新的幅度谱,也是经过频域平滑得到的幅度谱。
可以理解的是,在FAM模块中,可以根据卷积滑窗和频域平滑因子确定频域平滑参数矩阵,即可以根据滑窗宽度D和频域平滑因子β=[β0 … βM]确定第一时域平滑参数矩阵[β0 … βD-i]和第二时域平滑参数矩阵[1-β]。
步骤S520.对所述频域平滑参数矩阵作乘积运算得到所述频率维卷积核的权重矩阵。
随着频率的变化,频域图的分布也会发生变化,可以构建相应的特征矢量,并用每一维表示不同区域的分布特性。一种示例实施方式中,在对原始输入图像进行频域特征提取之前,可以先确定频率维卷积核的权重矩阵。对频率轴进行平滑时,在FAM模块中对应可以有M个卷积核,每个卷积核对应不同的平滑因子,其中,平滑因子β=[β0 … βM],每个卷积核对应的第一频域平滑参数矩阵可以为[β0 … βD-i],结合第二频域平滑参数矩阵[1-β],如可以将第一频域平滑参数矩阵和第二频域平滑参数矩阵作乘积运算可以得到频率维卷积核的最终权重矩阵
步骤S530.对所述频率维卷积核的权重矩阵和所述原始幅度谱的转置矩阵作卷积运算,得到所述频域平滑特征图。
一种示例实施方式中,可以将时频域语音信号的原始幅度谱的转置矩阵作为原始输入图像,对该原始输入图像作滑动窗卷积,可以将每个通道的卷积核的窗口不断滑动,以对该原始输入图像作多次卷积运算。示例性的,可以将原始幅度谱的转置矩阵可以是一个F×T的二维图像矩阵,F为频率维度,T为时间维度,可以对该二维图像矩阵和频率维卷积核的权重矩阵作乘积运算,得到频域平滑特征图。
本方法中,利用卷积神经网络中卷积核的思想,将降噪算法做成卷积核,并通过多卷积核的组合,在神经网络中实现了时变、频率依赖的语音信号的降噪。另外,噪声W(k,l)的概率密度函数为二维高斯分布,在时间轴、频率轴都具有统计特性,可以实现在时间轴、频率轴双轴降噪。
在步骤S340中,对所述原始幅度谱、所述时域平滑特征图和所述频域平滑特征图进行组合特征提取,得到所述原始语音信号的增强幅度谱。
参考图6所示,可以根据步骤S610至步骤S630得到原始语音信号的增强幅度谱:
步骤S610.合并所述原始语音信号的原始幅度谱、所述时域平滑特征图和所述频域平滑特征图,得到待增强语音信号。
经过TAM模块和FAM模块平滑过的带噪语音信号Y(k,l),会对其中的噪声信号W(k,l)在时间轴T和频率轴F上都进行平滑。为了更好的保留原始输入的语音特征,可以将原始输入Y(k,l)的特征和TFDAL模块的输出进行拼接,这样既能保留原始语音信号的特征,又可以学习到深层次特征。
对应的,深度神经网络的输入可以由原始输入Y(k,l)变为组合输入,该组合输入可以是一个三维张量Ci(k,l):
其中,Y(k,l)是1×F×T的二维张量,相当于一个滤波器的平滑因子为0,即对原始信息不做处理,保持不变,Tα(k,l)是M×F×T的三维张量,Fβ(k,l)是N×F×T的三维张量,合并组成的待增强语音信号Ci(k,l)为(M+N+1)×F×T的三维张量。
本示例中,TFDAL模块对神经网络的输入进行了扩增,给予了神经网络更多的输入信息。而且,TFDAL模块兼具由专家知识开发出的降噪算法的可解释性和并入神经网络以后形成的强大拟合能力,是具有可解释性的神经网络模块,可以有效地将语音降噪领域的高级信号处理算法与深度神经网络进行结合。
步骤S620.以所述待增强语音信号为深度神经网络的输入,利用反向传播算法对所述时间维卷积核的权重矩阵和所述频率维卷积核的权重矩阵进行训练。
一种示例实施方式中,可以将TFDAL模块并入深度神经网络模型中,以对时间维卷积核的权重矩阵和所述频率维卷积核的权重矩阵进行训练,以及对该模型中各层的权重因子进行训练。例如,初始化TFDAL模块中时间维卷积核和频率维卷积核的权重矩阵,可以将该TFDAL模块与卷积神经网络、递归神经网络、全连接神经网络等网络模型结合,实现梯度传导。可以理解的是,神经网络的训练目标可以确定卷积核中每个元素的最终取值。
示例性的,神经网络模型的训练过程可以采用反向传播算法,可以随机初始化参数,随着训练的加深,不断更新参数。例如,可以采用BP(error Back Propagation,误差反向传播)算法,具体的,可以根据原始输入从前向后依次计算,得到输出层的输出;可以计算当前输出与目标输出的差距,即计算损失函数;可以利用梯度下降算法、Adam优化算法等最小化损失函数,从后向前依次更新参数,也就是依次更新时间维卷积核的权重矩阵知频率维卷积核的权重矩阵
其中,梯度下降算法可以是随机梯度下降、小批量梯度下降或者批量梯度下降等方法来最小化加噪语音和纯净语音之间的误差。其中,批量梯度下降法可以在更新每一参数时都使用所有的样本来进行更新;随机梯度下降法可以在更新每一参数时都使用一个样本来进行更新,并更新很多次,当样本量很大时,通过选取少部分样本就可以迭代到最优解;小批量梯度下降法可以在更新每一参数时都使用一部分样本来进行更新,可以同时兼顾随机梯度下降法和批量梯度下降法的特点。
步骤S630.根据训练得到的权重矩阵对所述待增强语音信号进行组合特征提取,得到所述原始语音信号的增强幅度谱。
将待增强语音信号Ci(k,l)作为神经网络模型的输入时,在训练过程中,可以通过学习原始输入的权重矩阵时间维卷积核的权重矩阵频率维卷积核的权重矩阵来自行调整对原始输入Y(k,l)、TAM模块输出的Tα(k,l)中的各层时域平滑特征图、FAM模块输出的Fβ(k,l)中的各层频域平滑特征图进行组合特征抽取,得到原始语音信号的增强幅度谱,以实现在语音出现段、语音缺失段的不同平滑效果。
本示例中,二维卷积结构可以成功并入深度神经网络模型,与卷积神经网络、递归神经网络、全连接神经网络均可以结合,实现梯度传导。使得TFDAL模块内的卷积核参数也即降噪算法参数可以由数据驱动,无需专家知识作为先验信息,就可以得到统计意义上的最优值。
在步骤S350中,对所述增强幅度谱进行时频逆变换得到增强语音信号。
语音增强是对纯净语音信号的幅度谱和相位谱进行预测,由于相位谱对去噪效果影响较小,一种示例实施方式中,可以只对时频域语音信号的原始幅度谱进行增强,而相位则沿用Y(k,l)的相位,因此,可以先获取Y(k,l)的原始相位谱。
例如,可以对变换后的语音信号作取相位角运算得到原始语音信号的原始相位谱。
其中,∠Y(k,l)为时频域语音信号的原始相位谱,Real(Y(k,l))为时频域语音信号的实部,Img(Y(k,l))为时频域语音信号的虚部。
获得原始语音信号的原始相位谱后,可以对原始语音信号的增强幅度谱和原始相位谱作时频逆变换,得到增强语音信号。具体的,可以将增强幅度谱和原始相位谱合成复数域谱,复数谱维度与实部、虚部谱维度相同。然后,对复数域谱进行离散傅里叶逆变换得到对应的时域语音信号,并可以利用重叠相加法得到增强语音信号。
图7示意性的给出了包含TFDAL模块与深度神经网络的语音增强的流程图,其中,TFDAL模块包括TAM模块和FAM模块,该过程可以包括步骤S701至步骤S708:
步骤S701.输入语音信号y(n),该信号为带噪语音信号;
步骤S702.对语音信号作STFT变换:将带噪语音信号y(n)作STFT变换,得到时频域语音信号Y(k,l);
步骤S703.取模运算:将时频域语音信号Y(k,l)作取模运算,得到语音信号的幅度信息即原始幅度谱|Y(k,l)|;
步骤S704.将该原始幅度谱输入TAM模块,对该原始幅度谱提取时域平滑特征,得到沿时间轴降噪后的幅度谱T(k,l);
步骤S705.将该原始幅度谱输入FAM模块,对该原始幅度谱的转置矩阵提取频域平滑特征,得到沿频率轴降噪后的幅度谱F(k,l);
步骤S706.将原始幅度谱|Y(k,l)|、时间轴降噪后的幅度谱T(k,l)和频率轴降噪后的幅度谱F(k,l)合并输入深度神经网络中,以进行组合特征的提取,得到语音信号的增强幅度谱;
步骤S707.取相位信息:将时频域语音信号Y(k,l)作取相位角运算,得到语音信号的带噪相位谱∠Y(k,l);
步骤S708.对语音信号的增强幅度谱和带噪相位谱作ISTFT变换,得到增强后的语音信号。
本示例中,在语音增强的过程中,通过卷积神经网络可以实现在时间轴和频率轴的二维组合的时频平滑特征提取,将TFDAL模块并入神经网络模型中,可以通过梯度回传实现平滑参数(也即卷积核的权重)的自学习,无需手工设置。
一种具体的示例实施方式中,图8A示意性的给出了一种TFDAL模块与U-Net深度神经网络结合的示意图,也就是可以构建具有编码器-解码器结构的U-Net卷积神经网络模型作为语音增强模型,U-Net卷积神经网络模型可以包括全卷积部分(Encoder层)和反卷积部分(Decoder层)。其中,全卷积部分可以用于提取特征,得到低分辨率的特征图;反卷积部分可以将小尺寸的特征图通过上采样得到与原始尺寸相同的特征图,上采样可以提高图像的分辨率,示例性的,可以通过重采样和插值如使用双线性插值等方法对其余点进行插值来完成上采样。
首先,可以将原始语音信号通过时频变换得到原始输入,将原始输入分别输入TAM(α)卷积模块和FAM(β)卷积模块,并将原始输入以及TAM(α)卷积模块、FAM(β)卷积模块的输出合并输入到U-NET卷积神经网络模型中,对各个权重因子进行训练后,可以对原始输入、TAM模块输出、FAM模块输出进行组合特征的抽取,从而实现在语音出现段、语音缺失段的不同平滑效果,最后输出增强语音信号。
本示例中,将TFDAL模块与U-Net深度神经网络完整结合后,其中时频特征提取层中的两组平滑参数α=[α0 … αN]与β=[β0 … βM]可以在训练过程中通过学习得到,由训练数据驱动得到在统计意义上更优的平滑因子值,更有助于神经网络在TFDAL模块中抽取特征以及组合高级特征。
图8B给出了一种TFDAL模块与U-Net深度神经网络结合的示意图。该U-Net深度神经网络模型可以是4层编码器和4层解码器的卷积神经网络结构,编码器可以通过对时间维度和频率维度下采样提取时频域平滑特征,每个编码器可以包含卷积核大小为3×3的卷积层、池化层以及激活函数为ReLU(Rectified Linear Unit,线性整流函数)的非线性层。其中,对时间和频率维度逐层进行下采样操作,可以利用3×3的卷积核进行特征提取,使得通道数逐层扩展至64、128、256、256。对称的,可以利用3×3的卷积核进行上采样操作,每一步的上采样都会加入来自相对应编码器的特征图,通道数由256逐层变为512、256、128,直至恢复到与输入等尺寸的图像。另外,最后一层的激活函数可以选择Tanh(双曲正切函数)激活函数。
具体的,可以将原始幅度谱作为原始输入图像,该原始输入图像可以是一个T×F的二维图像矩阵,T为时间维度,F为频率维度。该原始输入图像依次连接的时频特征提取层、编码器、解码器和输出层。
首先,可以对该原始输入图像作预处理,时频谱特征在时间、频率相对独立,如可以通过时频特征提取层分别沿时间轴和频率轴作卷积平滑处理。对应的,可以将该原始输入图像输入U-Net深度神经网络中的时间递归平滑层,对该二维图像矩阵和时间维卷积核的权重矩阵N(α)作卷积运算,得到时域平滑特征图;可以将该原始输入图像转置后输入U-Net深度神经网络中的频率递归平滑层,对转置后的二维图像矩阵和频率维卷积核的权重矩阵M(β)作卷积运算,得到频域平滑特征图。时频特征提取层可以从维度层面融合特征。
然后,编码器可以对组合后的输出的时频域平滑特征图和原始输入图像作4次卷积处理,对于尺寸为201×201的原始输入图像,时间维卷积核的大小可以为32×201,对二维的原始输入图像作滑动窗卷积,可以将每个通道的卷积核的窗口不断滑动,以对该原始输入图像作多次卷积运算,可以依次得到51×51、13×13、4×4、1×1四个不同尺寸的特征图。编码器可以提取原始语音信号中的高维特征。
最后,将编码器输出的高维编码特征作为解码器的输入,解码器和编码器具有对称结构。如可以对1×1的特征图做上采样或者反卷积处理,得到4×4的特征图,这个4×4的特征图与之前的4×4的特征图进行通道上的拼接,然后再对拼接之后的特征图做卷积和上采样,得到13×13的特征图,再与之前的13×13的特征拼接,卷积,再上采样,共经过四次上采样可以得到一个与输入图像尺寸相同的201×201的预测结果。解码器可以将高维特征恢复为含有更多声音信息的低维特征,输出层可以恢复出增强后的时频谱特征。
本示例中,二维TFDAL模块可以成功并入深度神经网络模型,与卷积神经网络、递归神经网络、全连接神经网络均能理想结合,实现梯度传导。使得TFDAL模块内的卷积核参数,也即降噪算法参数可以由数据驱动,无需专家知识作为先验信息,就可以得到统计意义上的最优值。而且,该TFDAL模块兼具由专家知识开发出的算法的可解释性和并入神经网络以后形成的强大拟合能力,是一种具有可解释性的神经网络模块,可以有效的将语音降噪领域的高级信号处理算法与深度神经网络进行结合。
另外,可以通过PESQ(Perceptual Evaluation of Speech Quality,语音质量感知评价指标)、STOI(Short-Time Objective Intelligibility,短时客观可懂度指标)、信噪比SNR来度量噪声信号,在本示例中加入TFDAL后的U-Net神经网络与原始U-Net神经网络相比,语音增强的效果在-5db,0db,5db,10db,15db的信噪比条件下,PESQ、STOI和SNR语音增强评测指标均有更大提升。
在本公开示例实施方式所提供的语音增强方法中,通过将原始语音信号进行时频变换得到原始语音信号的原始幅度谱;利用时间维卷积核对原始幅度谱进行特征提取,得到时域平滑特征图;利用频率维卷积核对原始幅度谱进行特征提取,得到频域平滑特征图;对原始幅度谱、时域平滑特征图和频域平滑特征图进行组合特征提取,得到原始语音信号的增强幅度谱;对增强幅度谱进行时频逆变换得到增强语音信号。一方面,通过卷积神经网络对时间轴和频率轴的二维组合提取时频平滑特征,并结合深度神经网络可以实现降噪参数的自学习,进一步提升语音信号的质量;另一方面,根据语音信号在时间轴和频率轴上的统计特性,能够实现在时间轴、频率轴双轴降噪,进而在多种复杂噪声环境下达到语音增强的效果。
应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
进一步的,本示例实施方式中,还提供了一种基于神经网络的语音增强装置,该装置可以应用于一服务器或终端设备。参考图9所示,该语音增强装置900可以包括信号变换模块910、时域平滑特征提取模块920、频域平滑特征提取模块930、组合特征提取模块940以及信号逆变换模块950,其中:
信号变换模块910,用于将原始语音信号进行时频变换得到所述原始语音信号的原始幅度谱;
时域平滑特征提取模块920,用于利用时间维卷积核对所述原始幅度谱进行特征提取,得到时域平滑特征图;
频域平滑特征提取模块930,利用频率维卷积核对所述原始幅度谱进行特征提取,得到频域平滑特征图;
组合特征提取模块940,用于对所述原始幅度谱、所述时域平滑特征图和所述频域平滑特征图进行组合特征提取,得到所述原始语音信号的增强幅度谱;
信号逆变换模块950,用于对所述增强幅度谱进行时频逆变换得到增强语音信号。
在一种可选的实施方式中,时域平滑特征提取模块920包括:
时域平滑参数矩阵确定模块,根据卷积滑窗和时域平滑因子确定时域平滑参数矩阵;
第一权重矩阵确定模块,用于对所述时域平滑参数矩阵作乘积运算得到所述时间维卷积核的权重矩阵;
时域运算模块,用于对所述时间维卷积核的权重矩阵和所述原始幅度谱作乘积运算,得到所述时域平滑特征图。
在一种可选的实施方式中,频域平滑特征提取模块930包括:
频域平滑参数矩阵确定模块,用于对所述频域平滑参数矩阵作乘积运算得到所述频率维卷积核的权重矩阵;
第二权重矩阵确定模块,用于对所述频域平滑参数矩阵作乘积运算得到所述频率维卷积核的权重矩阵;
频域运算模块,用于对所述频率维卷积核的权重矩阵和所述原始幅度谱的转置矩阵作乘积运算,得到所述频域平滑特征图。
在一种可选的实施方式中,组合特征提取模块940包括:
输入信号获取模块,用于合并所述原始语音信号的原始幅度谱、所述时域平滑特征图和所述频域平滑特征图,得到待增强语音信号;
权重矩阵训练模块,用于以所述待增强语音信号为深度神经网络的输入,利用反向传播算法对所述时间维卷积核和所述频率维卷积核的权重矩阵进行训练;
增强幅度谱获取模块,用于根据训练得到的权重矩阵对所述待增强语音信号进行组合特征提取,得到所述原始语音信号的增强幅度谱。
在一种可选的实施方式中,信号变换模块910包括:
信号预处理模块,用于对所述原始语音信号进行加窗分帧处理,得到分帧后的语音信号;
原始幅度谱获取模块,用于对每帧语音信号作离散傅里叶变换,并对变换后的语音信号作取模运算得到所述原始语音信号的原始幅度谱。
在一种可选的实施方式中,信号逆变换模块950包括:
原始相位谱获取模块,用于对所述变换后的语音信号作取相位角运算得到所述原始语音信号的原始相位谱;
增强语音信号获取模块,用于对所述原始语音信号的增强幅度谱和所述原始相位谱作时频逆变换,得到所述增强语音信号。
在一种可选的实施方式中,语音增强装置900还被配置为:
所述原始语音信号的原始幅度谱服从复数域二维高斯分布。
上述语音增强装置中各模块的具体细节已经在对应的语音增强方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种基于神经网络的语音增强方法,其特征在于,包括:
将原始语音信号进行时频变换得到所述原始语音信号的原始幅度谱;
利用时间维卷积核对所述原始幅度谱进行特征提取,得到时域平滑特征图,所述时间维卷积核通过对卷积滑窗和时域平滑因子进行计算得到;
利用频率维卷积核对所述原始幅度谱进行特征提取,得到频域平滑特征图,所述频率维卷积核通过对卷积滑窗和频域平滑因子进行计算得到;
对所述原始幅度谱、所述时域平滑特征图和所述频域平滑特征图进行组合特征提取,得到所述原始语音信号的增强幅度谱,所述增强幅度谱是根据训练得到的所述时间维卷积核的权重矩阵和所述频率维卷积核的权重矩阵,对合并所述原始幅度谱、所述时域平滑特征图和所述频域平滑特征图所得到的待增强语音信号进行组合特征提取得到;
对所述增强幅度谱进行时频逆变换得到增强语音信号。
2.根据权利要求1所述的语音增强方法,其特征在于,所述利用时间维卷积核对所述原始幅度谱进行特征提取,得到时域平滑特征图,包括:
根据卷积滑窗和时域平滑因子确定时域平滑参数矩阵;
对所述时域平滑参数矩阵作乘积运算得到所述时间维卷积核的权重矩阵;
对所述时间维卷积核的权重矩阵和所述原始幅度谱作卷积运算,得到所述时域平滑特征图。
3.根据权利要求1所述的语音增强方法,其特征在于,所述利用频率维卷积核对所述原始幅度谱进行特征提取,得到频域平滑特征图,包括:
根据卷积滑窗和频域平滑因子确定频域平滑参数矩阵;
对所述频域平滑参数矩阵作乘积运算得到所述频率维卷积核的权重矩阵;
对所述频率维卷积核的权重矩阵和所述原始幅度谱的转置矩阵作卷积运算,得到所述频域平滑特征图。
4.根据权利要求1所述的语音增强方法,其特征在于,所述对所述原始幅度谱、所述时域平滑特征图和所述频域平滑特征图进行组合特征提取,得到所述原始语音信号的增强幅度谱,包括:
合并所述原始语音信号的原始幅度谱、所述时域平滑特征图和所述频域平滑特征图,得到待增强语音信号;
以所述待增强语音信号为深度神经网络的输入,利用反向传播算法对所述时间维卷积核的权重矩阵和所述频率维卷积核的权重矩阵进行训练;
根据训练得到的权重矩阵对所述待增强语音信号进行组合特征提取,得到所述原始语音信号的增强幅度谱。
5.根据权利要求1所述的语音增强方法,其特征在于,所述将原始语音信号进行时频变换得到所述原始语音信号的原始幅度谱,包括:
对所述原始语音信号进行加窗分帧处理,得到分帧后的语音信号;
对每帧语音信号作离散傅里叶变换,并对变换后的语音信号作取模运算得到所述原始语音信号的原始幅度谱。
6.根据权利要求5所述的语音增强方法,其特征在于,所述对所述增强幅度谱进行时频逆变换得到增强语音信号,包括:
对所述变换后的语音信号作取相位角运算得到所述原始语音信号的原始相位谱;
对所述原始语音信号的增强幅度谱和所述原始相位谱作时频逆变换,得到所述增强语音信号。
7.根据权利要求1所述的语音增强方法,其特征在于,所述原始语音信号的原始幅度谱服从复数域二维高斯分布。
8.一种基于神经网络的语音增强装置,其特征在于,包括:
信号变换模块,用于将原始语音信号进行时频变换得到所述原始语音信号的原始幅度谱;
时域平滑特征提取模块,用于利用时间维卷积核对所述原始幅度谱进行特征提取,得到时域平滑特征图,所述时间维卷积核通过对卷积滑窗和时域平滑因子进行计算得到;
频域平滑特征提取模块,用于利用频率维卷积核对所述原始幅度谱进行特征提取,得到频域平滑特征图,所述频率维卷积核通过对卷积滑窗和频域平滑因子进行计算得到;
组合特征提取模块,用于对所述原始幅度谱、所述时域平滑特征图和所述频域平滑特征图进行组合特征提取,得到所述原始语音信号的增强幅度谱,所述增强幅度谱是根据训练得到的所述时间维卷积核的权重矩阵和所述频率维卷积核的权重矩阵,对合并所述原始幅度谱、所述时域平滑特征图和所述频域平滑特征图所得到的待增强语音信号进行组合特征提取得到;
信号逆变换模块,用于对所述增强幅度谱进行时频逆变换得到增强语音信号。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110245564.1A CN113808607B (zh) | 2021-03-05 | 2021-03-05 | 基于神经网络的语音增强方法、装置及电子设备 |
PCT/CN2021/137973 WO2022183806A1 (zh) | 2021-03-05 | 2021-12-14 | 基于神经网络的语音增强方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110245564.1A CN113808607B (zh) | 2021-03-05 | 2021-03-05 | 基于神经网络的语音增强方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113808607A CN113808607A (zh) | 2021-12-17 |
CN113808607B true CN113808607B (zh) | 2024-07-16 |
Family
ID=78892966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110245564.1A Active CN113808607B (zh) | 2021-03-05 | 2021-03-05 | 基于神经网络的语音增强方法、装置及电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113808607B (zh) |
WO (1) | WO2022183806A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114333869A (zh) * | 2021-12-28 | 2022-04-12 | 思必驰科技股份有限公司 | 语音增强方法、电子设备和存储介质 |
CN114093380B (zh) * | 2022-01-24 | 2022-07-05 | 北京荣耀终端有限公司 | 一种语音增强方法、电子设备、芯片系统及可读存储介质 |
CN114581832B (zh) * | 2022-03-04 | 2024-08-06 | 中国科学院声学研究所 | 一种语音增强方法 |
CN114724589A (zh) * | 2022-04-14 | 2022-07-08 | 标贝(北京)科技有限公司 | 语音质检的方法、装置、电子设备和存储介质 |
CN114897033B (zh) * | 2022-07-13 | 2022-09-27 | 中国人民解放军海军工程大学 | 用于多波束窄带历程数据的三维卷积核组计算方法 |
CN116631410B (zh) * | 2023-07-25 | 2023-10-24 | 陈志丰 | 一种基于深度学习的语音识别方法 |
CN117116289B (zh) * | 2023-10-24 | 2023-12-26 | 吉林大学 | 病区医护对讲管理系统及其方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108447498A (zh) * | 2018-03-19 | 2018-08-24 | 中国科学技术大学 | 应用于麦克风阵列的语音增强方法 |
CN109584895A (zh) * | 2018-12-24 | 2019-04-05 | 龙马智芯(珠海横琴)科技有限公司 | 语音降噪方法及装置 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8583426B2 (en) * | 2007-09-12 | 2013-11-12 | Dolby Laboratories Licensing Corporation | Speech enhancement with voice clarity |
EP2226794B1 (en) * | 2009-03-06 | 2017-11-08 | Harman Becker Automotive Systems GmbH | Background noise estimation |
US9431987B2 (en) * | 2013-06-04 | 2016-08-30 | Sony Interactive Entertainment America Llc | Sound synthesis with fixed partition size convolution of audio signals |
CN103559887B (zh) * | 2013-11-04 | 2016-08-17 | 深港产学研基地 | 用于语音增强系统的背景噪声估计方法 |
US10381020B2 (en) * | 2017-06-16 | 2019-08-13 | Apple Inc. | Speech model-based neural network-assisted signal enhancement |
RU2745298C1 (ru) * | 2017-10-27 | 2021-03-23 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство, способ или компьютерная программа для генерации аудиосигнала с расширенной полосой с использованием процессора нейронной сети |
CN108231086A (zh) * | 2017-12-24 | 2018-06-29 | 航天恒星科技有限公司 | 一种基于fpga的深度学习语音增强器及方法 |
CN108564963B (zh) * | 2018-04-23 | 2019-10-18 | 百度在线网络技术(北京)有限公司 | 用于增强语音的方法和装置 |
CN110503967B (zh) * | 2018-05-17 | 2021-11-19 | 中国移动通信有限公司研究院 | 一种语音增强方法、装置、介质和设备 |
CN108711433B (zh) * | 2018-05-18 | 2020-08-14 | 歌尔科技有限公司 | 一种回声消除方法和装置 |
CN109215674A (zh) * | 2018-08-10 | 2019-01-15 | 上海大学 | 实时语音增强方法 |
CN109360581B (zh) * | 2018-10-12 | 2024-07-05 | 平安科技(深圳)有限公司 | 基于神经网络的语音增强方法、可读存储介质及终端设备 |
CN110148420A (zh) * | 2019-06-30 | 2019-08-20 | 桂林电子科技大学 | 一种适用于噪声环境下的语音识别方法 |
CN112309421B (zh) * | 2019-07-29 | 2024-03-19 | 中国科学院声学研究所 | 一种融合信噪比与可懂度双重目标的语音增强方法及系统 |
CN111081268A (zh) * | 2019-12-18 | 2020-04-28 | 浙江大学 | 一种相位相关的共享深度卷积神经网络语音增强方法 |
US12062369B2 (en) * | 2020-09-25 | 2024-08-13 | Intel Corporation | Real-time dynamic noise reduction using convolutional networks |
CN112259120B (zh) * | 2020-10-19 | 2021-06-29 | 南京硅基智能科技有限公司 | 基于卷积循环神经网络的单通道人声与背景声分离方法 |
CN112289333B (zh) * | 2020-12-25 | 2021-04-13 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
-
2021
- 2021-03-05 CN CN202110245564.1A patent/CN113808607B/zh active Active
- 2021-12-14 WO PCT/CN2021/137973 patent/WO2022183806A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108447498A (zh) * | 2018-03-19 | 2018-08-24 | 中国科学技术大学 | 应用于麦克风阵列的语音增强方法 |
CN109584895A (zh) * | 2018-12-24 | 2019-04-05 | 龙马智芯(珠海横琴)科技有限公司 | 语音降噪方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113808607A (zh) | 2021-12-17 |
WO2022183806A1 (zh) | 2022-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113808607B (zh) | 基于神经网络的语音增强方法、装置及电子设备 | |
CN109767783B (zh) | 语音增强方法、装置、设备及存储介质 | |
EP3828885B1 (en) | Voice denoising method and apparatus, computing device and computer readable storage medium | |
US20050182624A1 (en) | Method and apparatus for constructing a speech filter using estimates of clean speech and noise | |
CN109643554A (zh) | 自适应语音增强方法和电子设备 | |
WO2022161277A1 (zh) | 语音增强方法、模型训练方法以及相关设备 | |
JPH0916194A (ja) | 音声信号の雑音低減方法 | |
CN111261148B (zh) | 语音模型的训练方法、语音增强处理方法及相关设备 | |
Götz et al. | Neural network for multi-exponential sound energy decay analysis | |
EP4266308A1 (en) | Voice extraction method and apparatus, and electronic device | |
CN114898762A (zh) | 基于目标人的实时语音降噪方法、装置和电子设备 | |
CN113345460B (zh) | 音频信号处理方法、装置、设备及存储介质 | |
CN114420108A (zh) | 一种语音识别模型训练方法、装置、计算机设备及介质 | |
CN110875049A (zh) | 语音信号的处理方法及装置 | |
CN113421584A (zh) | 音频降噪方法、装置、计算机设备及存储介质 | |
WO2022213825A1 (zh) | 基于神经网络的端到端语音增强方法、装置 | |
WO2025035943A1 (zh) | 语音增强模型的训练方法、装置、设备、介质和程序产品 | |
Dash et al. | Speech intelligibility based enhancement system using modified deep neural network and adaptive multi-band spectral subtraction | |
CN118899005B (zh) | 一种音频信号处理方法、装置、计算机设备及存储介质 | |
CN113782044A (zh) | 一种语音增强方法及装置 | |
CN115662461A (zh) | 降噪模型训练方法、装置以及设备 | |
CN116913304A (zh) | 实时语音流降噪方法、装置、计算机设备及存储介质 | |
CN113823312B (zh) | 语音增强模型生成方法和装置、语音增强方法和装置 | |
CN116403594A (zh) | 基于噪声更新因子的语音增强方法和装置 | |
CN112634930B (zh) | 多通道声音增强方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |