CN113571079A

CN113571079A - 语音增强方法、装置、设备及存储介质

Info

Publication number: CN113571079A
Application number: CN202110171244.6A
Authority: CN
Inventors: 肖玮; 史裕鹏; 王蒙; 商世东; 吴祖榕
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2021-10-29
Anticipated expiration: 2041-02-08
Also published as: US20230050519A1; US12361959B2; JP7615510B2; EP4283618A4; JP2024502287A; EP4283618A1; CN113571079B; WO2022166738A1

Abstract

本申请涉及语音处理技术领域，具体提供了一种语音增强方法、装置、设备及存储介质，该包括：根据目标语音帧的频域表示进行声门参数预测，得到目标语音帧对应的声门参数；根据目标语音帧的历史语音帧对应的增益对目标语音帧进行增益预测，得到目标语音帧对应的增益；根据目标语音帧的频域表示进行激励信号预测，得到目标语音帧对应的激励信号；对目标语音帧对应的声门参数、目标语音帧对应的增益和目标语音帧对应的激励信号进行合成处理，得到目标语音帧对应的增强语音信号；本方案可以有效对语音信号进行增强，提高语音信号的质量，本方案可以应用于云会议中来提升语音信号质量。

Description

语音增强方法、装置、设备及存储介质

技术领域

本申请涉及语音处理技术领域，具体而言，涉及一种语音增强方法、装置、设备及存储介质。

背景技术

由于语音通信的便利性和及时性，语音通信的应用越来越广泛，例如，在云会议的会议参与方之间传输语音信号。而在语音通信中，语音信号可能会被混有噪声，语音信号中所混有的噪声会导致通信质量差，极大影响用户的听觉体验。因此，如何对语音进行增强处理以去除噪声部分是现有技术中亟待解决的技术问题。

发明内容

本申请的实施例提供了一种语音增强方法、装置、设备及存储介质，以实现语音增强。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种语音增强方法，包括：

根据目标语音帧的频域表示进行声门参数预测，得到所述目标语音帧对应的声门参数；

根据所述目标语音帧的历史语音帧对应的增益对所述目标语音帧进行增益预测，得到所述目标语音帧对应的增益；

根据所述目标语音帧的频域表示进行激励信号预测，得到所述目标语音帧对应的激励信号；

对所述目标语音帧对应的声门参数、所述目标语音帧对应的增益和所述目标语音帧对应的激励信号进行合成处理，得到所述目标语音帧对应的增强语音信号。

根据本申请实施例的一个方面，提供了一种语音增强装置，包括：

声门参数预测模块，用于根据目标语音帧的频域表示进行声门参数预测，得到所述目标语音帧对应的声门参数；

增益预测模块，用于根据所述目标语音帧的历史语音帧对应的增益对所述目标语音帧进行增益预测，得到所述目标语音帧对应的增益；

激励信号预测模块，用于根据所述目标语音帧的频域表示进行激励信号预测，得到所述目标语音帧对应的激励信号；

合成模块，用于对所述目标语音帧对应的声门参数、所述目标语音帧对应的增益和所述目标语音帧对应的激励信号进行合成处理，得到所述目标语音帧对应的增强语音信号。

在本申请的一些实施例中，基于前述方案，合成模块包括：声门滤波器构建单元，用于根据所述目标语音帧对应的声门参数构建声门滤波器。滤波单元，用于通过所述声门滤波器对所述目标语音帧对应的激励信号进行滤波，得到第一语音信号。放大单元，用于按照所述目标语音帧对应的增益对所述第一语音信号进行放大处理，得到所述目标语音帧对应的增强语音信号。

在本申请的一些实施例中，基于前述方案，所述目标语音帧包括多个样本点；所述声门滤波器为K阶滤波器，K为正整数；所述激励信号包括所述目标语音帧中多个样本点分别对应的激励信号值；滤波单元，包括：卷积单元，用于将所述目标语音帧中每个样本点的前K个样本点所对应的激励信号值与所述K阶滤波器进行卷积，得到所述目标语音帧中每个样本点的目标信号值；组合单元，用于按照时间顺序组合所述目标语音帧中的全部样本点对应的目标信号值，得到所述第一语音信号。

在本申请的一些实施例中，基于前述方案，所述声门滤波器是K阶滤波器，所述声门参数包括K阶线谱频率参数或者K阶线性预测系数。

在本申请的一些实施例中，基于前述方案，声门参数预测模块包括：第一输入单元，用于将所述目标语音帧的频域表示输入第一神经网络，所述第一神经网络是根据样本语音帧的频域表示和所述样本语音帧对应的声门参数进行训练得到的；第一输出单元，用于由所述第一神经网络根据所述目标语音帧的频域表示输出所述目标语音帧对应的声门参数。

在本申请的一些实施例中，基于前述方案，声门参数预测模块1210进一步被配置为：以所述目标语音帧的历史语音帧对应的声门参数作为参考，根据所述目标语音帧的频域表示进行声门参数预测，得到所述目标语音帧对应的声门参数。

在本申请的一些实施例中，基于前述方案，声门参数预测模块包括：第二输入单元，用于将所述目标语音帧的频域表示和所述目标语音帧的历史语音帧对应的声门参数输入第一神经网络，所述第一神经网络是通过样本语音帧的频域表示、所述样本语音帧对应的声门参数和所述样本语音帧的历史语音帧对应的声门参数进行训练得到的；第二输出单元，用于由所述第一神经网络根据所述目标语音帧的频域表示和所述目标语音帧的历史语音帧对应的声门参数进行预测，输出所述目标语音帧对应的声门参数。

在本申请的一些实施例中，基于前述方案，增益预测模块包括：第三输入单元，用于将所述目标语音帧的历史语音帧对应的增益输入第二神经网络；所述第二神经网络是根据样本语音帧对应的增益和所述样本语音帧的历史语音帧对应的增益进行训练得到的；第三输出单元，用于由所述第二神经网络根据所述目标语音帧的历史语音帧对应的增益输出所述目标增益。

在本申请的一些实施例中，基于前述方案，激励信号预测模块包括：第四输入单元，用于将所述目标语音帧的频域表示输入第三神经网络；所述第三神经网络是根据样本语音帧的频域表示和所述样本语音帧所对应激励信号的频域表示进行训练得到的；第四输出单元，用于由所述第三神经网络根据所述目标语音帧的频域表示输出所述目标语音帧所对应激励信号的频域表示。

在本申请的一些实施例中，基于前述方案，语音增强装置还包括：获取模块，用于获取所述目标语音帧的时域信号；时频变换模块，用于对所述目标语音帧的时域信号进行时频变换，得到所述目标语音帧的频域表示。

在本申请的一些实施例中，基于前述方案，获取模块进一步被配置为：获取第二语音信号，所述第二语音信号是采集到的语音信号或者对编码语音进行解码所得到的语音信号；对所述第二语音信号进行分帧，得到所述目标语音帧的时域信号。

在本申请的一些实施例中，语音增强装置还包括：处理模块，用于对所述目标语音帧对应的增强语音信号进行播放或者编码传输。

根据本申请实施例的一个方面，提供了一种电子设备，包括：处理器；存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如上所述的语音增强方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被处理器执行时，实现如上所述的语音增强方法。

在本申请的方案中，基于目标语音帧的频域表示预测用于重构目标语音帧中原始语音信号的声门参数和激励信号、基于目标语音帧的历史语音帧的增益预测用于重构目标语音帧中原始语音信号的增益，然后根据所预测到目标语音帧对应的声门参数、所对应的激励信号和所对应的增益进行语音合成，相当于重构目标语音帧中的原始语音信号，进行合成处理所得到的信号即为目标语音帧对应的增强语音信号，实现了对语音帧的增强。

而且在本方案中，所预测到的声门参数与语音生成的物理过程的声门特征强相关，因此，根据所预测到的声门参数来合成语音可以维持原始语音信号的语音结构，可以最大化避免出现削语音的情况。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是根据一具体实施例示出的VoIP系统中的语音通信链路的示意图。

图2示出了语音信号产生的数字模型的示意图。

图3示出了根据一原始语音信号分解出激励信号和声门滤波器的频率响应的示意图。

图4是根据本申请的一个实施例示出的语音增强方法的流程图。

图5是图4对应实施例的步骤440在一实施例中的流程图。

图6是根据本申请一实施例示出的通过加窗交叠的方式对语音帧进行短时傅里叶变换的示意图。

图7是根据本申请的一具体实施例示出的语音增强的流程图。

图8是根据本申请一实施例示出的第一神经网络的示意图。

图9是根据本申请的另一实施例示出的第一神经网络的输入和输出的示意图。

图10是根据本申请的一实施例示出的第二神经网络的示意图。

图11是根据本申请一实施例示出的第三神经网络的示意图。

图12是根据本申请一实施例示出的语音增强装置的框图。

图13示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

需要说明的是：在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

语音信号中的噪声会极大降低语音质量，影响用户的听觉体验，因此，为了提高语音信号的质量，有必要对语音信号进行增强处理，以尽可能能地除去噪声，保留信号中的原始语音信号(即不包括噪声的纯净信号)。为了实现对语音进行增强处理，提出了本申请的方案。

本申请的方案可以应用于语音通话的应用场景中，例如通过即时通讯应用进行的语音通信、游戏应用中的语音通话。具体的，可以在语音的发送端、语音的接收端、或者提供语音通信服务的服务端来按照本方案进行语音增强。

云会议是线上办公中一个重要的环节，在云会议中，云会议的参与方的声音采集装置在采集到发言人的语音信号后，需要将所采集到的语音信号发送至其他会议参与方，该过程涉及到语音信号在多个参与方之间的传输和播放，如果不对语音信号中所混有的噪声信号进行处理，会极大影响会议参与方的听觉体验。在该种场景中，可以应用本申请的方案对云会议中的语音信号进行增强，使会议参与方所听到的语音信号是进行增强后的语音信号，提高语音信号的质量。

云会议是基于云计算技术的一种高效、便捷、低成本的会议形式。使用者只需要通过互联网界面，进行简单易用的操作，便可快速高效地与全球各地团队及客户同步分享语音、数据文件及视频，而会议中数据的传输、处理等复杂技术由云会议服务提供方帮助使用者进行操作。

目前国内云会议主要集中在以SaaS(Software as a Service，软件即服务)模式为主体的服务内容，包括电话、网络、视频等服务形式，基于云计算的视频会议就叫云会议。在云会议时代，数据的传输、处理、存储全部由视频会议提供方的计算机资源处理，用户完全无需再购置昂贵的硬件和安装繁琐的软件，只需打开客户端，进入相应界面，就能进行高效的远程会议。

云会议系统支持多服务器动态集群部署，并提供多台高性能服务器，大大提升了会议稳定性、安全性、可用性。近年来，视频会议因能大幅提高沟通效率，持续降低沟通成本，带来内部管理水平升级，而获得众多用户欢迎，已广泛应用在政府、军队、交通、运输、金融、运营商、教育、企业等各个领域。

图1是根据一具体实施例示出的VoIP(Voice over Intemet Protocol，网络电话)系统中的语音通信链路的示意图。如图1所示，基于发送端110和接收端120的网络连接，发送端110与接收端120可以进行语音传输。

如图1所示，发送端110包括采集模块111、前增强处理模块112和编码模块113，其中，采集模块111用于采集语音信号，其可以将采集到的声学信号转换成数字信号；前增强处理模块112用于对采集到的语音信号进行增强，以除去所采集到语音信号中的噪声，提高语音信号的质量。编码模块113用于对增强后的语音信号进行编码，以提高语音信号在传输过程中的抗干扰性。前增强处理模块112可以按照本申请的方法进行语音增强，对语音进行增强后，再进行编码压缩和传输，这样可以保证接收端接收到的信号不再受噪声影响。

接收端120包括解码模块121、后增强模块122和播放模块123。解码模块121用于对接收到的编码语音进行解码，得到解码信号；后增强模块122用于对解码后的语音信号进行增强处理；播放模块123用于播放增强处理后的语音信号。后增强模块122也可以按照本申请的方法进行语音增强。在一些实施例中，接收端120还可以包括音效调节模块，该音效调节模块用于对增强后的语音信号进行音效调节。

在具体实施例中，可以是仅在接收端120或者仅在发送端110按照本申请的方法进行语音增强，当然，还可以是在发送端110和接收端120均按照本申请的方法进行语音增强。

在一些应用场景中，VoIP系统中的终端设备除了可以支持VoIP通信外，还可以支持其他第三方协议，例如传统PSTN(Public Switched Telephone Network，公用电话交换网)电路域电话，而传统的PSTN服务不能进行语音增强，在该种场景中，可以在作为接收端的终端中按照本申请的方法进行语音增强。

在对本申请的方案进行具体说明，有必要对语音信号的产生进行介绍。语音信号是由人体发音器官在大脑控制下的生理运动产生的，即：在气管处，产生一定能量的类噪声的冲击信号(相当于激励信号)；冲击信号冲击人的声带(声带相当于声门滤波器)，产生类周期性的开合；通过口腔放大后，发出声音(输出语音信号)。

图2示出了语音信号产生的数字模型的示意图，通过该数字模型可以描述语音信号的产生过程。如图2所示，激励信号冲击声门滤波器后，再进行增益控制后输出语音信号，其中，声门滤波器由声门参数限定。该过程可以通过如下的公式表示：

x(n)＝G·r(n)·ar(n)； (公式1)

其中，x(n)表示输入的语音信号；G表示增益，又可以称为线性预测增益；r(n)表示激励信号；ar(n)表示声门滤波器。

图3示出了根据一原始语音信号分解出激励信号和声门滤波器的频率响应的示意图，图3a示出了该原始语音信号的频率响应示意图，图3b示出了根据该原始语音信号所分解出声门滤波器的频率响应示意图，图3c示出了根据该原始语音信号所分解出激励信号的频率响应示意图。如图3所示，该原始语音信号的频率响应图中起伏的部分对应于声门滤波器的频率响应图中波峰位置，激励信号相当于对该原始语音信号进行LP(LinearPrediction，线性预测)分析后的残差信号，因此其对应的频率响应较平缓。

由上可以看出，根据一原始语音信号(即不包含噪声的语音信号)可以分解出激励信号、声门滤波器和增益，所分解出的激励信号、声门滤波器和增益可以用于表达该原始语音信号，其中，声门滤波器可以通过声门参数来表达。反之，如果已知一原始语音信号对应的激励信号、用于确定声门滤波器的声门参数和增益，则可以根据所对应的激励信号、声门滤波器和增益来重构该原始语音信号。

本申请的方案正是基于该原理，根据一待处理的语音信号预测该语音信号中原始语音信号对应的声门参数、激励信号和增益，然后基于所得到的声门参数、激励信号和增益来进行语音合成，合成所得到的语音信号相当于该待处理的语音信号中的原始语音信号，因此，合成所得到的信号相当于是被除去了噪声的信号。该过程实现了对该待处理的语音信号进行增强，因此，合成所得到的信号又可以称为该待处理的语音信号对应的增强语音信号。

图4是根据本申请的一个实施例示出的语音增强方法的流程图，该方法可以由具备处理能力的计算机设备执行，例如服务器、终端等，在此不进行具体限定。参照图4所示，该方法至少包括步骤410至440，详细介绍如下：

步骤410，根据目标语音帧的频域表示进行声门参数预测，得到所述目标语音帧对应的声门参数。

语音信号是随时间而非平稳随机变化的，但是在短时间内语音信号的特性是强相关的，即语音信号具有短时相关性，因此，在本申请的方案中，以语音帧为单位来进行语音增强。目标语音帧是指当前待进行增强处理的语音帧。

目标语音帧的频域表示可以对该目标语音帧的时域信号进行时频变换获得，时频变换例如短时傅里叶变换(Short-term Fourier transform，STFT)。频域表示可以是幅度谱、复数频谱等，在此不进行具体限定。

声门参数是指用于构建声门滤波器的参数，声门参数确定，声门滤波器对应确定，声门滤波器为数字滤波器。声门参数可以是线性预测编码(Linear PredictionCoefficients，LPC)系数，还可以是线谱频率(Line Spectral Frequency，LSF)参数。目标语音帧所对应声门参数的数量是与声门滤波器的阶数相关的，若所述声门滤波器是K阶滤波器，所述声门参数包括K阶LSF参数或者K阶LPC系数，其中，LSF参数和LPC系数之间可以相互转化。

一个p阶的声门滤波器可以表示为：

A_p(z)＝1+a₁z^-1+a₂z^-2+…+a_pz^-p； (公式2)

其中，a₁，a₂，...，a_p为LPC系数；p为声门滤波器的阶数；z为声门滤波器的输入信号。

在公式2的基础上，若令：

P(z)＝A_p(z)-z^-(p+1)A_p(z^-1)； (公式3)

Q(z)＝A_p(z)+z^-(p+1)A_p(z^-1)； (公式4)

可以得到：

从物理意义上讲，P(z)和Q(z)分别代表了声门张开和声门闭合的周期性变化规律。多项式P(z)和Q(z)的根在复平面上交替出现，其分布在复平面单位圆上的一系列角频率，LSF参数即为P(z)和Q(z)的根在复平面单位圆上对应的角频率，第n帧语音帧对应的LSF参数LSF(n)可以表示为ω_n，当然，第n帧语音帧对应的LSF参数LSF(n)还可以直接用该第n帧语音帧所对应P(z)的根和所对应Q(z)根来表示。将第n帧语音帧所对应P(z)和Q(z)在复平面的根定义为θ_n，则第n帧语音帧对应的LSF参数表示为：

其中，Rel{θ_n}表示复数θ_n的实部；Imag{θ_n}表示复数θ_n的虚部。

在步骤410中，所进行的声门参数预测是指预测用于重构目标语音帧中原始语音信号的声门参数。在一实施例中，可以通过训练之后的神经网络模型来预测该目标语音帧对应的声门参数。

在本申请的一些实施例中，步骤410，包括：将所述目标语音帧的频域表示输入第一神经网络，所述第一神经网络是根据样本语音帧的频域表示和所述样本语音帧对应的声门参数进行训练得到的；由所述第一神经网络根据所述目标语音帧的频域表示输出所述目标语音帧对应的声门参数。

第一神经网络是指用于进行声门参数预测的神经网络模型。其中，第一神经网络可以是通过长短时记忆神经网络、卷积神经网络、循环神经网络、全连接神经网络等构建的模型，在此不进行具体限定。

样本语音帧的频域表示是对样本语音帧的时域信号进行时频变换得到的，该频域表示可以是幅度谱、复数频谱等，在此不进行具体限定。

在本申请的一些实施例中，样本语音帧所指示的信号可以是将已知的原始语音信号与已知的噪声信号进行组合得到，那么在原始语音信号已知的情况下，可以通过对原始语音信号进行线性预测分析得到各样本语音帧对应的声门参数。

在训练过程中，将样本语音帧的频域表示输入至第一神经网络后，由第一神经网络根据样本语音帧的频域表示进行声门参数预测，输出预测声门参数；然后比较预测声门参数和该样本语音帧中原始语音信号对应的声门参数，如果二者不一致，则调整第一神经网络的参数，直至第一神经网络根据样本语音帧的频域表示所输出的预测声门参数与该样本语音帧中原始语音信号对应的声门参数一致。在训练结束后，该第一神经网络学习到根据所输入语音帧的频域表示准确预测该语音帧中原始语音信号对应的声门参数的能力。

在本申请的一些实施例中，由于语音帧之间是有相关性的，相邻两语音帧之间的频域特征相似性较高，因此，可以结合目标语音帧之前的历史语音帧对应的声门参数来预测目标语音帧对应对的声门参数。在本实施例中，步骤410包括：以所述目标语音帧的历史语音帧对应的声门参数作为参考，根据所述目标语音帧的频域表示进行声门参数预测，得到所述目标语音帧对应的声门参数。

由于历史语音帧与目标语音帧与之间具有相关性，目标语音帧的历史语音帧所对应声门参数与目标语音帧对应的声门参数之间具有相似性，因此，以目标语音帧的历史语音帧中原始语音信号对应的声门参数作为参考，对目标语音帧的声门参数的预测过程进行监督，可以提高声门参数预测的准确率。

在本申请的一实施例中，由于越靠近的语音帧的声门参数的相似性越高，因此，可以将距离目标语音帧较近的历史语音帧对应的声门参数作为参考可以进一步保证预测准确率，例如可以将目标语音帧的上一语音帧对应的声门参数作为参考。在具体实施例中，作为参考的历史语音帧的数量可以是一帧，也可以是多帧，具体可根据实际需要进行选用。

目标语音帧的历史语音帧所对应的声门参数可以是对该历史语音帧进行声门参数预测得到的声门参数。换言之，在声门参数预测的过程中，复用为历史语音帧所预测到的声门参数来监督当前语音帧的声门参数预测过程。

在本申请的一些实施例中，在利用第一神经网络预测声门参数的场景下，除了将目标语音帧的频域表示作为输入外，还将所述目标语音帧的历史语音帧对应的声门参数也作为该第一神经网络的输入，以此进行声门参数预测。在本实施例中，步骤410包括：将所述目标语音帧的频域表示和所述目标语音帧的历史语音帧对应的声门参数输入第一神经网络，所述第一神经网络是通过样本语音帧的频域表示、所述样本语音帧对应的声门参数和所述样本语音帧的历史语音帧对应的声门参数进行训练得到的；由所述第一神经网络根据所述目标语音帧的频域表示和所述目标语音帧的历史语音帧对应的声门参数进行预测，输出所述目标语音帧对应的声门参数。

在本实施例的第一神经网络的训练过程中，将样本语音帧的频域表示和样本语音帧的历史语音帧对应的声门参数输入第一神经网络中，由该第一神经网络输出预测声门参数，如果所输出的预测声门参数与该样本语音帧中原始语音信号对应的声门参数不一致，则调整第一神经网络的参数，直至所输出的预测声门参数与该样本语音帧中原始语音信号对应的声门参数一致。在训练结束后，该第一神经网络学习到了根据语音帧的频域表示和该语音帧的历史语音帧所对应的声门参数预测用于重构该语音帧中原始语音信号的声门参数的能力。

请继续参阅图4，步骤420，根据所述目标语音帧的历史语音帧对应的增益对所述目标语音帧进行增益预测，得到所述目标语音帧对应的增益。

历史语音帧对应的增益是指用于重构历史语音帧中原始语音信号的增益。同样的，步骤420中所预测到目标语音帧对应的增益是用于重构目标语音帧中的原始语音信号。

在本申请的一些实施例中，可以采用深度学习的方式来对目标语音帧进行增益预测。即通过构建的神经网络模型来进行增益预测。为便于描述，将用于进行增益预测的神经网络模型称为第二神经网络。该第二神经网络可以是通过长短时记忆神经网络、卷积神经网络、全连接神经网络等来构建的模型。

在本申请的一实施例中，步骤420可以包括：将所述目标语音帧的历史语音帧对应的增益输入第二神经网络；所述第二神经网络是根据样本语音帧对应的增益和所述样本语音帧的历史语音帧对应的增益进行训练得到的；由所述第二神经网络根据所述目标语音帧的历史语音帧对应的增益输出所述目标增益。

样本语音帧所指示的信号可以是根据已知的原始语音信号和已知的噪声信号进行组合得到，因此，在原始语音信号已知的情况下，可以对该原始语音信号进行线性预测分析，对应确定各个样本语音帧对应的增益，即用于重构该样本语音帧中原始语音信号的增益。

目标语音帧的历史语音帧对应的增益可以是该第二神经网络为该历史语音帧进行增益预测得到的，换言之，复用为历史语音帧所预测到的增益作为对目标语音帧进行增益预测过程中第二神经网络模型的输入。

在训练第二神经网络过程中，将样本语音帧的历史语音帧对应的增益输入至第二神经网络中，然后由第二神经网络根据所输入样本语音帧的历史语音帧对应的增益进行增益预测，输出预测增益；再根据预测增益和该样本语音帧对应的增益来调节第二神经网络的参数，即：若预测增益与该样本语音帧对应的增益不一致，则调整第二神经网络的参数，直至第二神经网络为样本语音帧输出的预测增益与该样本语音帧对应的增益一致。经过如上的训练过程，可以使第二神经网络学习到根据一语音帧的历史语音帧对应的增益预测该语音帧对应的增益的能力，从而准确进行增益预测。

步骤430，根据所述目标语音帧的频域表示进行激励信号预测，得到所述目标语音帧对应的激励信号。

步骤430中所进行激励信号预测是指预测用于重构目标语音帧中原始语音信号所对应的激励信号。因此，所得到目标语音帧对应的激励信号可以用于重构目标语音帧中的原始语音信号。

在本申请的一些实施例中，可以采用深度学习的方式来进行激励信号的预测，即通过构建的神经网络模型来进行激励信号预测。为便于描述，将用于进行激励信号预测的神经网络模型称为第三神经网络。该第三神经网络可以是通过长短时记忆神经网络、卷积神经网络、全连接神经网络等构建的模型。

在本申请的一些实施例中，步骤430包括：将所述目标语音帧的频域表示输入第三神经网络；所述第三神经网络是根据样本语音帧的频域表示和所述样本语音帧所对应激励信号的频域表示进行训练得到的；由所述第三神经网络根据所述目标语音帧的频域表示输出所述目标语音帧所对应激励信号的频域表示。

样本语音帧所对应的激励信号是指可以用于重构样本语音帧中原始语音信号的激励信号。样本语音帧所对应的激励信号可以是通过对样本语音帧中的原始语音信号进行线性预测分析来确定。激励信号的频域表示可以激励信号的幅度谱、复数频谱，在此不进行具体限定。

在训练第三神经网络过程中，将样本语音帧的频域表示输入至第三神经网络模型中，然后由第三神经网络根据所输入样本语音帧的频域表示进行激励信号预测，输出预测激励信号的频域表示；再根据预测激励信号的频域表示和该样本语音帧所对应激励信号的频域表示来调整第三神经网络的参数，即：若预测激励信号的频域表示与该样本语音帧所对应激励信号的频域表示不一致，则调整第三神经网络的参数，直至第三神经网络为样本语音帧输出预测激励信号的频域表示与该样本语音帧所对应激励信号的频域表示一致。通过如上的训练过程，可以使第三神经网络学习到根据一语音帧的频域表示来预测该语音帧对应的激励信号的能力，从而准确进行激励信号预测。

步骤440，对所述目标语音帧对应的声门参数、所述目标语音帧对应的增益和所述目标语音帧对应的激励信号进行合成处理，得到所述目标语音帧对应的增强语音信号。

在获得所述目标语音帧对应的声门参数、所述目标语音帧对应的增益和所述目标语音帧对应的激励信号后，可以基于该三种参数进行线性预测分析来实现合成处理，得到该目标语音帧对应的增强信号。具体的，可以先根据目标语音帧对应的声门参数构建声门滤波器，然后结合该目标语音帧对应的增益和对应的激励信号按照上述公式(1)进行语音合成，得到目标语音帧对应的增强语音信号。

在本申请的一些实施例中，如图5所示，步骤440包括：

步骤510，根据所述目标语音帧对应的声门参数构建声门滤波器。

若声门参数是LPC系数，可以直接按照上述的公式(2)进行声门滤波器的构建。若声门滤波器为K阶滤波器，则目标语音帧对应的声门参数包括K阶LPC系数，即上述公式(2)中的a₁，a₂，...，a_K，在其他实施例中，上述公式(2)中的常数1也可以作为LPC系数。

若声门参数为LSF参数，则可以将LSF参数转换为LPC系数，然后对应按照上述公式(2)构建声门滤波器。

步骤520，通过所述声门滤波器对所述目标语音帧对应的激励信号进行滤波，得到第一语音信号。

滤波处理即为时域上的卷积，因此，如上通过声门滤波器对激励信号进行滤波的过程可以转换到时域进行。则在预测得到目标语音帧所对应激励信号的频域表示的基础上，将激励信号的频域表示向时域进行变换，得到目标语音帧所对应激励信号的时域信号。

在本申请的方案中，目标语音帧是数字信号，其中包括多个样本点。通过声门滤波器对激励信号进行滤波，即通过一样本点之前的历史样本点与该声门滤波器进行卷积，得到该样本点对应的目标信号值。在本申请的一些实施例中，所述目标语音帧包括多个样本点；所述声门滤波器为K阶滤波器，K为正整数；所述激励信号包括所述目标语音帧中多个样本点分别对应的激励信号值；按照如上滤波的过程，步骤520，包括：将所述目标语音帧中每个样本点的前K个样本点所对应的激励信号值与所述K阶滤波器进行卷积，得到所述目标语音帧中每个样本点的目标信号值；按照时间顺序组合所述目标语音帧中的全部样本点对应的目标信号值，得到所述第一语音信号。其中，K阶滤波器的表达式可参照上述公式(1)。也就是说，针对目标语音帧中的每一样本点，利用其前的K个样本点所对应的激励信号值来与K阶滤波器进行卷积，得到每个样本点对应的目标信号值。

可以理解的是，对于目标语音帧中的首个样本点，其需要借助于该目标语音帧的上一语音帧中的最后K个样本点的激励信号值来计算该首个样本点对应的目标信号值，同理，该目标语音帧中第二个样本点，需要借助于目标语音帧的上一语音帧中最后(K-1)个样本点的激励信号值和目标语音帧中首个样本点的激励信号值与K阶滤波器进行卷积，得到目标语音帧中第二个样本点所对应的目标信号值。

总结来说，步骤520还需要目标语音帧的历史语音帧所对应的激励信号值的参与。所需要历史语音帧中样本点的数量与声门滤波器的阶数相关，即若声门滤波器为K阶，则需要目标语音帧的上一语音帧中最后K个样本点所对应的激励信号值的参与。

步骤530，按照所述目标语音帧对应的增益对所述第一语音信号进行放大处理，得到所述目标语音帧对应的增强语音信号。

通过如上步骤510-530实现了根据为目标语音帧所预测到的声门参数、激励信号和增益进行语音合成，得到目标语音帧的增强语音信号。

在本申请的方案中，基于目标语音帧的频域表示预测用于重构目标语音帧中原始语音信号的声门参数和激励信号、基于目标语音帧的历史语音帧的增益预测用于重构目标语音帧中原始语音信号的增益，然后根据所预测到目标语音帧对应的声门参数、所对应的激励信号和所对应的增益进行语音合成，相当于重构目标语音帧中的原始语音信号，进行合成处理所得到的信号即为目标语音帧对应的增强语音信号，实现了对语音帧进行增强。

相关技术中存在通过谱估计和谱回归预测的方式来进行语音增强。谱估计的语音增强方式认为一段混合语音包含了语音部分和噪声部分，因此可以通过统计模型等来估计噪声，将混合语音对应的频谱，减去噪声对应的频谱，剩下的就是语音频谱，以此通过混合语音对应的频谱减去噪声对应的频谱所得到的频谱恢复出干净的语音信号。谱回归预测的语音增强方方式通过神经网络预测语音帧对应的掩闭阈值，该掩闭阈值反映了该语音帧中每一个频点中的语音成份和噪声成份的占比；然后根据该掩闭阈值对混合信号频谱进行增益控制，获得增强后的频谱。

以上通过谱估计和谱回归预测的语音增强方式是基于噪声谱后验概率的估计，其可能存在估计的噪声不准确，例如像敲键盘等瞬态噪声，由于瞬时发生，估计的噪声谱非常不准确，导致噪声抑制效果不好。在噪声谱预测不准确的情况下，若按照所估计的噪声谱对原混合语音信号进行处理，则可能会导致混合语音信号中的语音失真，或者导致噪声抑制效果差；因此，在这种情况下，需要在语音保真和噪声抑制之间进行折中。

在本申请的方案中，由于声门参数与声音生成物理过程中的声门特征强相关，所预测到的声门参数有效保证了目标语音帧中原始语音信号的语音结构，因此，基于所预测到的声门参数、激励信号和增益进行合成来得到目标语音帧的增强语音信号可以有效避免目标语音帧中原始语音信号被削减，有效保护了语音结构；同时在预测到目标语音帧对应的声门参数、激励信号和增益后，由于并不会再对原始的带噪语音进行处理，因此，也并不需要在语音保真和噪声抑制这两者之间进行折中。

在本申请的一些实施例中，步骤410之前，该方法还包括：获取所述目标语音帧的时域信号；对所述目标语音帧的时域信号进行时频变换，得到所述目标语音帧的频域表示。

时频变换可以是短时傅里叶变换(short-term Fourier transform，STFT)。频域表示可以是幅度谱、复数频谱等，在此不进行具体限定。

短时傅里叶变换中采用加窗交叠的操作来消除帧间不平滑。图6是根据一具体示出的短时傅里叶变换中加窗交叠的示意图，在图6中，采用50％加窗交叠的操作，若短时傅里叶变换针对的是640个样本点，则该窗函数的重叠样本数(hop-size)为320。加窗所使用的窗函数可以是汉宁(Hanning)窗，当然也可以采用其他的窗函数，在此不进行具体限定。

在其他实施例中，也可以采用非50％加窗交叠的操作。例如，若短时傅里叶变换针对的是512个样本点，在这种情况下，若一语音帧中包括320个样本点，则只需要交叠上一语音帧的192个样本点即可。

在本申请的一些实施例中，所述获取所述目标语音帧的时域信号，包括：获取第二语音信号，所述第二语音信号是采集到的语音信号或者对编码语音进行解码所得到的语音信号；对所述第二语音信号进行分帧，得到所述目标语音帧的时域信号。

在一些实例中，可以按照设定的帧长来对第二语音信号进行分帧，该帧长可根据实际需要进行设定，例如，帧长可以设定为20ms。

如上所描述，本申请的方案可以应用于发送端进行语音增强，也可以应用于接收端进行语音增强。

在本申请的方案应用于发送端的情况下，该第二语音信号为发送端采集到的语音信号，则对第二语音信号进行分帧，得到多个语音帧。在分帧得到语音帧后，可以将每一语音帧作为目标语音帧并按照上述步骤410-440的过程对目标语音帧进行增强。进一步的，在得到目标语音帧对应的增强语音信号后，还可以对该增强语音信号进行编码，以基于所得到的编码语音进行传输。

在一实施例中，由于直接采集到的语音信号是模拟信号，为了便于进行信号处理，在进行分帧之前，还进一步需要将信号进行数字化，可按照设定的采样率对采集到的语音信号进行采样，设定的采样率可以是16000Hz、8000Hz、32000Hz、48000Hz等，具体可根据实际需要进行设定。

在本申请的方案应用于接收端的情况下，该第二语音信号为对所接收到的编码语音进行解码所得到的语音信号，在通过对第二语音信号进行分帧得到语音帧后，将其作为目标语音帧并按照如上步骤410-440的过程对目标语音帧进行增强，得到目标语音帧的增强语音信号。进一步的，还可以对目标语音帧对应的增强语音信号进行播放，由于所得到的增强语音信号相较于目标语音帧增强之前的信号，噪声被除去，语音信号的质量更高，因此，对于用户来说，听觉体验更佳。

下面，结合具体实施例对本申请的方案进行进一步说明：

图7是根据一具体实施例示出的语音增强方法的流程图。假设以第n帧语音帧作为目标语音帧，该第n帧语音帧的时域信号为s(n)。如图7所示，按照步骤710对该第n帧语音帧进行时频变换，得到该第n帧语音帧的频域表示S(n)，其中，S(n)可以是幅度谱，也可以是复数频谱，在此不进行具体限定。

在获得第n帧语音帧的频域表示S(n)后，可以通过步骤720来预测到该第n帧语音帧对应的声门参数，通过步骤730和740来获得该目标语音帧对应的激励信号。

在步骤720中，可以是仅将第n帧语音帧的频域表示S(n)作为第一神经网络的输入，还可以将该目标语音帧的历史语音帧对应的声门参数P_pre(n)和第n帧语音帧的频域表示S(n)作为第一神经网络的输入。第一神经网络可以基于所输入的信息进行声门参数预测，得到该第n帧语音帧对应的声门参数ar(n)。

在步骤730中，将第n帧语音帧的频域表示S(n)作为第三神经网络的输入，该第三神经网络基于输入信息进行激励信号预测，输出第n帧语音帧所对应激励信号的频域表示R(n)；在此基础上，可以通过步骤740进行频时变换，将第n帧语音帧对应的激励信号的时域信号r(n)。

第n帧语音帧对应的增益通过步骤750来获得，在步骤750中，将第n帧语音帧的历史语音帧的增益G_pre(n)输入第二神经网络的输入，第二神经网络对应进行增益预测获得该第n帧语音帧对应的增益G(n)。

在获得第n帧语音帧对应的声门参数ar(n)、对应的激励信号r(n)、和对应的增益G(n)后，基于该三种参数按照步骤760进行合成滤波，得到该第n帧语音帧对应的增强语音信号s_e(n)。具体的可以按照线性预测分析的原理进行语音合成。值得一提的是，在按照线性预测分析的原理进行语音合成的过程汇总，需要利用到历史语音帧的信息，具体来说，由声门滤波器对激励信号的滤波过程，即对于第t的样本点，其是其前的p各历史样本点的激励信号值与p阶的声门滤波器进行卷积得到。若声门滤波器为16阶的数字滤波器，则在对第n帧语音帧进行合成处理过程中，还需要利用第n-1帧中最后p个样本点的信息。

下面结合具体实施例对上述步骤720、步骤730和步骤750进行进一步说明。假设待处理的语音信号的采样频率Fs＝16000Hz，帧长为20ms，则每一语音帧中包括320个样本点；假设该方法中所进行的短时傅里叶变换采用640个样本点、重叠样本点320个的方式进行。并进一步假设声门参数为线谱频率系数，即第n帧语音帧对应的声门参数为ar(n)为LSF(n)，以及设定声门滤波器为16阶滤波器。

图8是根据一具体实施例示出的第一神经网络的示意图，如图8所示，该第一神经网络包括一层LSTM(Long-Short Term Memory，长短期记忆网络)层和三层级联的FC(FullConnected，全连接)层。其中，LSTM层为1个隐层，其包括256个单元，LSTM层的输入为第n帧语音帧的频域表示S(n)。在本实施例中，LSTM层的输入为321维的STFT系数。三层级联的FC层中，前两层FC层中设有激活函数σ()，所设置的激活函数用于增加第一神经网络的非线性表达能力，最后一层FC层中未设激活函数，该最后一层FC层作为分类器进行分类输出。如图8所示，从下往上，三层FC层中分别包括512、512、16个单元，最后一层FC层的输出为该第n帧语音帧所对应16维的线谱频率系数LSF(n)，即16阶线谱频率系数。

图9是根据另一实施例示出的第一神经网络的输入和输出的示意图，其中，图9中第一神经网络的结构与图8中相同，相较于图8，图9中第一神经网络的输入还包括该第n帧语音帧的上一语音帧(即第n-1帧)的线谱频率系数LSF(n-1)。如图9所示，在第二层FC层中嵌入第n帧语音帧的上一语音帧的线谱频率系数LSF(n-1)，作为参考信息。由于相邻两语音帧的LSF参数相似性非常高，因此，如果将第n语音帧的历史语音帧对应的LSF参数作为参考信息，可以提升LSF参数预测准确率。

图10是根据一具体实施例示出的第二神经网络的示意图，如图10所示，第二神经网络包括一层LSTM层和一层FC层，其中，LSTM层为1个隐层，其包括128个单元；FC层输入为512维的向量，输出为1维的增益。在一具体实施例中，第n帧语音帧的历史语音帧增益G_pre(n)可以定义为第n帧语音帧的前4个语音帧所对应的增益，即：

G_pre(n)＝{G(n-1)，G(n-2)，G(n-3)，G(n-4)}；

当然，所选择用于增益预测的历史语音帧的数量并不限于如上的举例，具体可根据实际需要进行选用。

在如上所示的第一神经网络和第二神经网络的结构中，网络呈现一个M-to-N的映射关系(N＜＜M)，即神经网络输入信息的维度为M，输出信息的维度为N，极大地精简了第一神经网络和第二神经网络的结构和降低了模型的复杂度。

图11是根据一具体实施例示出的第三神经网络的示意图，如图11所示，该第三神经网络包括一层LSTM层和3层FC层，其中，LSTM层为1个隐层，包括256个单元，LSTM的输入为第n帧语音帧所对应321维的STFT系数S(n)。3层FC层中所包括单元的数量分别为512、512和321，最后一层FC层输出321维的第n帧语音帧所对应激励信号的频域表示R(n)。由下往上，三层FC层中前两FC层中设有激活函数，用于提升模型的非线性表达能力，最后一层FC层中没有激活函数，用于进行分类输出。

值得一提的是，图8-11所示出第一神经网络、第二神经网络和第三神经网络的结构仅仅是示例性举例，在其他实施例中，还可以在深度学习的开源平台中设置相应的网络结构，并对应进行训练。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的方法。对于本申请装置实施例中未披露的细节，请参照本申请上述方法实施例。

图12是根据一实施例示出的语音增强装置的框图，如图12所示，该语音增强装置包括：

声门参数预测模块1210，用于根据目标语音帧的频域表示进行声门参数预测，得到所述目标语音帧对应的声门参数。

增益预测模块1220，用于根据所述目标语音帧的历史语音帧对应的增益对所述目标语音帧进行增益预测，得到所述目标语音帧对应的增益。

激励信号预测模块1230，用于根据所述目标语音帧的频域表示进行激励信号预测，得到所述目标语音帧对应的激励信号。

合成模块1240，用于对所述目标语音帧对应的声门参数、所述目标语音帧对应的增益和所述目标语音帧对应的激励信号进行合成处理，得到所述目标语音帧对应的增强语音信号。

在本申请的一些实施例中，合成模块1240，包括：声门滤波器构建单元，用于根据所述目标语音帧对应的声门参数构建声门滤波器。滤波单元，用于通过所述声门滤波器对所述目标语音帧对应的激励信号进行滤波，得到第一语音信号。放大单元，用于按照所述目标语音帧对应的增益对所述第一语音信号进行放大处理，得到所述目标语音帧对应的增强语音信号。

在本申请的一些实施例中，所述目标语音帧包括多个样本点；所述声门滤波器为K阶滤波器，K为正整数；所述激励信号包括所述目标语音帧中多个样本点分别对应的激励信号值；滤波单元，包括：卷积单元，用于将所述目标语音帧中每个样本点的前K个样本点所对应的激励信号值与所述K阶滤波器进行卷积，得到所述目标语音帧中每个样本点的目标信号值；组合单元，用于按照时间顺序组合所述目标语音帧中的全部样本点对应的目标信号值，得到所述第一语音信号。在本申请的一些实施例中，所述声门滤波器是K阶滤波器，所述声门参数包括K阶线谱频率参数或者K阶线性预测系数。

在本申请的一些实施例中，声门参数预测模块1210，包括：第一输入单元，用于将所述目标语音帧的频域表示输入第一神经网络，所述第一神经网络是根据样本语音帧的频域表示和所述样本语音帧对应的声门参数进行训练得到的；第一输出单元，用于由所述第一神经网络根据所述目标语音帧的频域表示输出所述目标语音帧对应的声门参数。

在本申请的一些实施例中，声门参数预测模块1210进一步被配置为：以所述目标语音帧的历史语音帧对应的声门参数作为参考，根据所述目标语音帧的频域表示进行声门参数预测，得到所述目标语音帧对应的声门参数。

在本申请的一些实施例中，声门参数预测模块1210，包括：第二输入单元，用于将所述目标语音帧的频域表示和所述目标语音帧的历史语音帧对应的声门参数输入第一神经网络，所述第一神经网络是通过样本语音帧的频域表示、所述样本语音帧对应的声门参数和所述样本语音帧的历史语音帧对应的声门参数进行训练得到的；第二输出单元，用于由所述第一神经网络根据所述目标语音帧的频域表示和所述目标语音帧的历史语音帧对应的声门参数进行预测，输出所述目标语音帧对应的声门参数。

在本申请的一些实施例中，增益预测模块1220，包括：第三输入单元，用于将所述目标语音帧的历史语音帧对应的增益输入第二神经网络；所述第二神经网络是根据样本语音帧对应的增益和所述样本语音帧的历史语音帧对应的增益进行训练得到的；第三输出单元，用于由所述第二神经网络根据所述目标语音帧的历史语音帧对应的增益输出所述目标增益。

在本申请的一些实施例中，激励信号预测模块1230，包括：第四输入单元，用于将所述目标语音帧的频域表示输入第三神经网络；所述第三神经网络是根据样本语音帧的频域表示和所述样本语音帧所对应激励信号的频域表示进行训练得到的；第四输出单元，用于由所述第三神经网络根据所述目标语音帧的频域表示输出所述目标语音帧所对应激励信号的频域表示。

在本申请的一些实施例中，语音增强装置还包括：获取模块，用于获取所述目标语音帧的时域信号；时频变换模块，用于对所述目标语音帧的时域信号进行时频变换，得到所述目标语音帧的频域表示。

在本申请的一些实施例中，获取模块进一步被配置为：获取第二语音信号，所述第二语音信号是采集到的语音信号或者对编码语音进行解码所得到的语音信号；对所述第二语音信号进行分帧，得到所述目标语音帧的时域信号。

需要说明的是，图13示出的电子设备的计算机系统1300仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图13所示，计算机系统1300包括中央处理单元(Central Processing Unit，CPU)1301，其可以根据存储在只读存储器(Read-Only Memory，ROM)1302中的程序或者从存储部分1308加载到随机访问存储器(Random Access Memory，RAM)1303中的程序而执行各种适当的动作和处理，例如执行上述实施例中的方法。在RAM 1303中，还存储有系统操作所需的各种程序和数据。CPU1301、ROM1302以及RAM 1303通过总线1304彼此相连。输入/输出(Input/Output，I/O)接口1305也连接至总线1304。

以下部件连接至I/O接口1305：包括键盘、鼠标等的输入部分1306；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1307；包括硬盘等的存储部分1308；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至I/O接口1305。可拆卸介质1311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1310上，以便于从其上读出的计算机程序根据需要被安装入存储部分1308。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1309从网络上被下载和安装，和/或从可拆卸介质1311被安装。在该计算机程序被中央处理单元(CPU)1301执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读存储介质承载计算机可读指令，当该计算机可读存储指令被处理器执行时，实现上述任一实施例中的方法。

根据本申请的一个方面，还提供了一种电子设备，其包括：处理器；存储器，存储器上存储有计算机可读指令，计算机可读指令被处理器执行时，实现上述任一实施例中的方法。

根据本申请实施例的一个方面，提供了计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一实施例中的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种语音增强方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述目标语音帧对应的声门参数、所述目标语音帧对应的增益和所述目标语音帧对应的激励信号进行合成处理，得到所述目标语音帧对应的增强语音信号，包括：

根据所述目标语音帧对应的声门参数构建声门滤波器；

通过所述声门滤波器对所述目标语音帧对应的激励信号进行滤波，得到第一语音信号；

按照所述目标语音帧对应的增益对所述第一语音信号进行放大处理，得到所述目标语音帧对应的增强语音信号。

3.根据权利要求2所述的方法，其特征在于，所述目标语音帧包括多个样本点；所述声门滤波器为K阶滤波器，K为正整数；所述激励信号包括所述目标语音帧中多个样本点分别对应的激励信号值；

所述通过所述声门滤波器对目标语音帧对应的激励信号进行滤波，得到第一语音信号，包括：

将所述目标语音帧中每个样本点的前K个样本点所对应的激励信号值与所述K阶滤波器进行卷积，得到所述目标语音帧中每个样本点的目标信号值；

按照时间顺序组合所述目标语音帧中的全部样本点对应的目标信号值，得到所述第一语音信号。

4.根据权利要求2所述的方法，其特征在于，所述声门滤波器是K阶滤波器，所述声门参数包括K阶线谱频率参数或者K阶线性预测系数；K为正整数。

5.根据权利要求1所述的方法，其特征在于，所述根据目标语音帧的频域表示进行声门参数预测，得到所述目标语音帧对应的声门参数，包括：

将所述目标语音帧的频域表示输入第一神经网络，所述第一神经网络是根据样本语音帧的频域表示和所述样本语音帧对应的声门参数进行训练得到的；

由所述第一神经网络根据所述目标语音帧的频域表示输出所述目标语音帧对应的声门参数。

6.根据权利要求1所述的方法，其特征在于，所述根据目标语音帧的频域表示进行声门参数预测，得到所述目标语音帧对应的声门参数，包括：

以所述目标语音帧的历史语音帧对应的声门参数作为参考，根据所述目标语音帧的频域表示进行声门参数预测，得到所述目标语音帧对应的声门参数。

7.根据权利要求6所述的方法，其特征在于，所述以所述目标语音帧的历史语音帧对应的声门参数作为参考，根据所述目标语音帧的频域表示进行声门参数预测，得到所述目标语音帧对应的声门参数，包括：

将所述目标语音帧的频域表示和所述目标语音帧的历史语音帧对应的声门参数输入第一神经网络，所述第一神经网络是通过样本语音帧的频域表示、所述样本语音帧对应的声门参数和所述样本语音帧的历史语音帧对应的声门参数进行训练得到的；

由所述第一神经网络根据所述目标语音帧的频域表示和所述目标语音帧的历史语音帧对应的声门参数进行预测，输出所述目标语音帧对应的声门参数。

8.根据权利要求1所述的方法，其特征在于，所述根据所述目标语音帧的历史语音帧所对应的增益对所述目标语音帧进行增益预测，得到所述目标语音帧对应的增益，包括：

将所述目标语音帧的历史语音帧对应的增益输入第二神经网络；所述第二神经网络是根据样本语音帧对应的增益和所述样本语音帧的历史语音帧对应的增益进行训练得到的；

由所述第二神经网络根据所述目标语音帧的历史语音帧对应的增益输出所述目标增益。

9.根据权利要求1所述的方法，其特征在于，所述根据所述目标语音帧的频域表示进行激励信号预测，得到所述目标语音帧对应的激励信号，包括：

将所述目标语音帧的频域表示输入第三神经网络；所述第三神经网络是根据样本语音帧的频域表示和所述样本语音帧所对应激励信号的频域表示进行训练得到的；

由所述第三神经网络根据所述目标语音帧的频域表示输出所述目标语音帧所对应激励信号的频域表示。

10.根据权利要求1所述的方法，其特征在于，所述根据目标语音帧的频域表示进行声门参数预测，得到所述目标语音帧对应的声门参数之前，所述方法还包括：

获取所述目标语音帧的时域信号；

对所述目标语音帧的时域信号进行时频变换，得到所述目标语音帧的频域表示。

11.根据权利要求10所述的方法，其特征在于，所述获取所述目标语音帧的时域信号，包括：

获取第二语音信号，所述第二语音信号是采集到的语音信号或者对编码语音进行解码所得到的语音信号；

对所述第二语音信号进行分帧，得到所述目标语音帧的时域信号。

12.根据权利要求1所述的方法，其特征在于，所述对所述目标语音帧对应的声门参数、所述目标语音帧对应的增益和所述目标语音帧对应的激励信号进行合成处理，得到所述目标语音帧对应的增强语音信号之后，所述方法还包括：

对所述目标语音帧对应的增强语音信号进行播放或者编码传输。

13.一种语音增强装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如权利要求1-12中任一项所述的方法。

15.一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被处理器执行时，实现如权利要求1-12中任一项所述的方法。