[go: up one dir, main page]

CN116913296A - 音频处理方法和装置 - Google Patents

音频处理方法和装置 Download PDF

Info

Publication number
CN116913296A
CN116913296A CN202310163454.XA CN202310163454A CN116913296A CN 116913296 A CN116913296 A CN 116913296A CN 202310163454 A CN202310163454 A CN 202310163454A CN 116913296 A CN116913296 A CN 116913296A
Authority
CN
China
Prior art keywords
speech
signal
audio signal
audio
environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310163454.XA
Other languages
English (en)
Inventor
T-C·佐里拉
R·S·多迪帕特拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN116913296A publication Critical patent/CN116913296A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Image Processing (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

本文中说明的实施例涉及音频处理方法和装置。一种用于处理音频信号以增强音频信号的目标分量的方法,所述方法包括:接收包含第一环境中的目标分量的第一音频信号;处理所述第一音频信号以提取第二音频信号,第二音频信号包含第二环境中的所述目标分量,第二环境的噪声小于第一环境;以及将第一音频信号与第二音频信号混合以产生第三音频信号,第三音频信号包含提取的目标分量。

Description

音频处理方法和装置
技术领域
本文中说明的实施例涉及音频处理方法和装置。
背景技术
最近,深度神经网络(DNN)极大地提高了自动语音识别器(ASR)的准确性。目前的ASR系统在干净条件下已经达到了人类的性能,然而,在有噪声条件下它们仍然不如听力正常的听众。
为了提高ASR在噪声下的鲁棒性,存在至少两种不同的策略。一种策略依赖于大量的数据来训练多条件模型,另一种策略基于使用信号增强来进行数据清理。尽管第一种方法很简单,但就训练此类模型所需的计算资源和收集带标注数据而言,它的成本很高。此外,多条件系统的准确性在非常具有挑战性的环境、比如那些有竞争性说话者的环境中会下降。
通常,由语音增强引入的失真限制了这些方法作为ASR的独立前端的适用性,并且ASR系统的声学模型必须用匹配的失真数据重新训练以获得最佳的识别性能。可替代地,已提出了联合训练的增强和识别系统来减轻失真。然而,在具有非常动态的声学条件的实际应用中,后一种方法可能无法很好地工作。
附图说明
图1A是按照实施例的语音处理装置的示意图;
图1B是按照实施例的语音处理装置的示意图;
图2是按照实施例的自动语音识别装置的结构的示意图;
图3是说话者提取系统的结构的示意图;
图4A是语音提取器的详细层状结构;
图4B是图4A的提取器的时间卷积块的详细层状结构;
图5是示出可以如何使用可懂度度量来计算损失函数的图。
具体实施方式
在实施例中,提供一种用于处理音频信号以增强音频信号的目标分量的方法,所述方法包括:
接收包含第一环境中的目标分量的第一音频信号;
处理所述第一音频信号以提取第二音频信号,第二音频信号包含第二环境中的所述目标分量,第二环境的噪声小于第一环境;以及
将第一音频信号与第二音频信号混合以产生第三音频信号,第三音频信号包含提取的目标分量。
第一音频信号可以包括来自目标说话者的语音,所述目标分量是来自目标说话者的语音。在其中第一音频信号为语音的实施例中,第一音频信号、第二音频信号和第三音频信号可以分别称为第一语音信号、第二语音信号和第三语音信号。
上述用于增强语音信号的方法有助于提高单通道自动语音识别(ASR)在有噪声条件下的准确性的挑战。强大的语音增强前端是可用的,然而,它们通常需要重新训练ASR模型以应对处理伪影(artifact)。本文中所述的实施例涉及用于在不重新训练声学模型(AM)的情况下提高识别性能的说话者增强策略。这是通过将增强信号与未处理的输入重新混合以减轻处理伪影来实现的。使用利用感知激励损失函数训练的基于DNN说话者提取的语音去噪器来进行评估。结果表明(在没有AM重新训练的情况下),与未经处理的单耳模拟和真实CHiME-4评估集相比,分别获得了约23%和28%的相对准确性增益。
在本文中所述的实施例中,说话者提取(SPX)系统用于进行去噪。SPX的目的不是从混合音中恢复所有源(即,语音分离),而是只从混音中恢复目标说话者,这就避免了事先知道源的总数的要求。
因此,在实施例中,可以将第三语音信号提供给ASR,并且由ASR在第三信号中识别文本。然而,可以将增强信号输出到其他系统,例如话音控制的命令接口。第三信号也可以被输出到另外的音频处理器中。
例如,语音提取器可以设置在助听器、消噪耳机或其他音频处理设备中,以增强来自一个或多个说话者或贡献者的语音或音频信号。
尽管上面专注于语音,但是任何类型的音频信号都可以增强。例如,通过上述系统可以增强音乐信号。这样的增强信号然后可以被输入例如音乐识别设备中。登记(enrolment)信号可以是歌手的声音,也可以是混音中发现的乐器的短录音。也可以使用这种方法提取其他分量。
如上所述,在实施例中,第一语音信号是单通道语音信号。例如,来自单个麦克风或其他单个音频拾取设备,使得不存在可以用于减少信号中的噪声的空间线索。噪声可能归因于除目标说话者以外的其他说话者。噪声也可能是正常的背景噪声,例如,火车站中的交通噪声等。
在实施例中,将第一语音信号和第二语音信号混合以形成第三语音信号,如下所示:
z(n)=s(n)+αy(n)
其中z(n)代表第三信号,s′(n)代表第二信号,y(n)代表第一信号,α是第一信号的乘法因子。
乘法因子可以由标量因子σ控制:
在实施例中,σ至少为0且最多为30。在实施例中,基于在第二信号中发现的失真量来自动适配σ的值。在另一个实施例中,可以使用无参考语音质量模型来评估失真。
在另一个实施例中,使用语音提取器从第一信号中提取第二信号,并且其中语音提取器已使用损失函数进行训练,所述损失函数是表示信号中的时域失真或频域失真的项与表示信号的可懂度的项的组合。表示信号的可懂度的项是短时客观可懂度“STOI”度量。可以使用其他函数代替STOI,这些函数也允许语音的可懂度度量,例如基于归一化协方差的语音传输指数、瞥见比例(glimpse proportion,GP)、语音可懂度指数(SII)、PESQ或者诸如STOI-Net之类的深度学习方法。
在另一个实施例中,表示信号中的时域或频域失真的项是尺度不变信号失真比“SISDR”。在另外的实施例中,表示失真的项可以是幅度谱上的频域损失,比如均方误差或掩码交叉熵。
在另一个实施例中,处理第一语音输入以提取第二语音信号包括使用语音提取器,所述语音提取器被配置为接收所述第一语音信号和包含来自目标说话者的语音样本的登记语音信号,所述语音提取器被配置为产生掩码来去除第一语音信号的部分,以提取第二语音信号。
可以使用语音提取器来处理作为时域信号的第一信号。第一信号可以由频谱编码器处理,频谱编码器是配置为将第一信号变换为较高维度信号的可训练的卷积网络。语音提取器可以包括多个深度卷积层。
在另一个实施例中,提供一种训练语音处理装置的方法,所述语音处理装置用于处理语音信号以增强目标说话者的语音,所述装置包括:
用于接收包含第一环境中的来自目标说话者的语音的第一语音信号的输入端;
配置为处理所述第一语音输入以提取第二语音信号的语音提取器,第二语音信号包含第二环境中的来自所述目标说话者的语音,第二环境的噪声小于第一环境,所述语音提取器被配置为接收所述第一语音信号和包括来自目标说话者的语音样本的登记语音信号,所述语音提取器被配置为产生掩码来去除第一语音信号的部分,以提取第二语音信号;以及
用于将第一语音信号与第二语音信号组合以产生第三语音信号的混合器,第三语音信号包括提取的来自目标说话者的语音,所述方法包括:
接收训练数据集,训练数据集的每个成员包括包含目标说话者的语音的第一信号、具有来自目标说话者的样本语音的登记信号以及作为第二信号的与第一信号对应的来自目标说话者的干净语音;以及
使用第一信号和登记信号作为输入并以第二信号作为期望的输出来训练语音提取器,所述训练使用损失函数,所述损失函数是表示信号中的时域或频域失真的项与表示信号的可懂度的项的组合。
所述语音处理装置可以被配置用于自动语音识别,并且还包括自动语音识别单元,自动语音识别单元被配置为接收第三语音信号并从第三语音信号导出文本,其中自动语音识别单元独立于所述语音提取器而被训练。
上述损失函数也可以用于不将输出信号与输入混合以产生第三增强信号的语音提取器。于是,在另一个实施例中,提供一种训练语音处理装置的方法,所述语音处理装置用于处理语音信号以增强目标说话者的语音,所述装置包括:
用于接收包含第一环境中的来自目标说话者的语音的第一语音信号的输入端;以及
配置为处理所述第一语音输入以提取第二语音信号的语音提取器,第二语音信号包含第二环境中的来自所述目标说话者的语音,第二环境的噪声小于第一环境,所述语音提取器被配置为接收所述第一语音信号和包含来自目标说话者的语音样本的登记语音信号,语音提取器被配置为产生掩码来去除第一语音信号的部分,以提取第二语音信号,
所述方法还包括:
接收训练数据集,训练数据集的每个成员包括包含目标说话者的语音的第一信号、具有来自目标说话者的样本语音的登记信号以及作为第二信号的与第一信号对应的来自目标说话者的干净语音;以及
使用第一信号和登记信号作为输入并以第二信号作为期望的输出来训练语音提取器,所述训练使用损失函数,所述损失函数是表示信号中的时域或频域失真的项与表示信号的可懂度的项的组合。
在另一个实施例中,提供一种音频处理装置,用于处理音频信号以增强音频信号的目标分量,所述装置包括:
用于接收包含第一环境中的目标分量的第一音频信号的输入端;
音频信号提取器,所述音频信号提取器被配置为处理所述第一音频信号以提取第二音频信号,第二音频信号包含第二环境中的所述目标分量,第二环境的噪声小于第一环境;以及
混合器,所述混合器被配置为将第一音频信号与第二音频信号混合以产生第三音频信号,第三音频信号包含提取的目标分量。
上述方法可以用软件或硬件体现,例如作为计算机可读介质,该介质可以是暂时性的或非暂时性的,包括当由计算机执行时使计算机进行上述方法任意之一的指令。
图1A示意地示出了按照实施例1的语音处理系统。语音处理系统1包括执行程序5的处理器3。语音处理系统1还包括存储器7。存储器7存储由程序5用于处理语音以提取目标说话者的去噪语音的数据。该程序可以被称为说话者提取程序。语音处理系统1还包括输入模块11和输出模块13。输入模块11连接到音频输入端15。音频输入端15接收例如来自麦克风的输入音频信号。音频输入端还可被配置为从外部存储介质或网络接收音频数据的文件。音频输入端15例如可以是麦克风。可替代地,音频输入端15可以是用于从外部存储介质或网络接收音频数据的装置。
连接到输出模块13的是音频输出17。音频输出17用于输出经过处理的语音信号。音频输出17例如可以是直接音频输出,例如扬声器,或者可发送到存储介质或经由网络等发送的音频数据文件的输出。
在使用中,语音处理系统1通过音频输入端15接收第一音频信号。在处理器3上执行的程序5使用存储在存储器7中的数据对第一音频信号进行去噪,以提取目标说话者的语音。存储在存储器7中的数据将包含与目标说话者相关的音频数据。去噪语音经由输出模块13输出到音频输出17。去噪语音特别适合于输入到自动语音识别器(ASR)中。
图1B示意地示出了按照实施例1的语音处理系统。在该变体中,程序5包括说话者提取(SPX)程序6A和自动语音识别器(ASR)程序6B。说话者提取程序6A提取目标说话者的去噪语音输出。目标说话者的去噪语音输出然后输入到ASR程序6B中,在那里它被转换成文本。在本实施例中,输出模块13是向输出19提供文本输出的文本输出模块。
图1A和图1B的实施例可以在膝上型或桌上型计算机中提供。然而,图1A和图1B的实施例还可以在移动电话机、平板电脑或具有音频输入端的任何类型的处理器中提供。该系统可以用于维护日志的手动记录,其中用户对着麦克风讲话以记录他们的笔记,并使其实时自动转录为文本。然而,在其他实施例中,文本输出可以用作话音命令接口的一部分。
图2示出了由处理器执行的功能的概况。应注意的是,这里,SPX单元51的输出被提供给ASR单元53。然而,其他选项也是可能的,例如,可以将输出提供到话音控制的命令接口中。
图2中,包含目标说话者的语音的输入信号A被提供给SPX单元51。在本例中,SPX单元51的输出被提供给ASR单元53。然而,输出也可以被提供给话音控制命令接口。输入信号A还包含背景噪声,例如,输入信号A是在有噪声环境中经由移动电话机收集的。
SPX单元51还接收“登记语音信号”,登记语音信号是来自目标说话者的干净的语音。登记语音信号可以是目标说话者的任何语音,而不必是特定文本。登记语音可以在推断之前捕获,或者可以预先收集并在推断期间重新使用。如果以前收集过,则可以将其存储在存储器中并检索以进行推断。在实施例中,登记信号的长度为几秒(例如,3s~6s)。对于训练来说,声学可变性有利于允许词汇多样性。例如,可以从可用的干净目标数据中随机选取登记数据。
然后将要从中分离目标语音的信号输入到SPX单元51中。图3是示出SPX单元51的子单元的示意图。
首先,输入信号A被提供到频谱编码器。频谱编码器包括至少一个卷积层,并被配置为将语音信号变换到较高维空间。较高维空间可以更好地利用语音稀疏性进行源分离。空间的维数由CNN中的卷积核的数量给出。在实施例中,卷积核的数量(N)至少等于输入样本的数量(L)。
频谱编码器61的第一输出被提供到提取器63。提取器被配置为计算针对目标说话者的掩码。掩码然后在混合器67使用元素组合时应用。提取器63利用频谱域中的语音的稀疏性及其时间特征的长期相关性。
在实施例中,为了实现这一点,提取器包括多个深度卷积层,其对时间上分离的帧进行卷积以捕获时间特征的长期相关性。在实施例中,多个深度卷积层设置有进行输入混合信号的多分辨率分析的递增的卷积核膨胀因子。
提取器63还接收登记语音信号。语音登记信号由说话者编码器65输出。说话者编码器包括至少一个或多个深度卷积层。
然后将从提取器输出的作为掩码的信号应用于来自频谱编码器61的第二输出,以从频谱编码器61的第二输出中提取目标说话者。混合器67在频谱编码器的第二输出和提取器63的输出之间进行逐元素组合。
解码器69使用掩蔽的频谱表示和一个全连接层(N个输入维度和L个输出维度)重建估计的目标帧s'(n)。应用重叠相加法来重建整个波形。
现在将参考图4说明语音提取器的更详细描述。图4的语音提取器具有图3的提取器的基本结构。具有图3的结构的提取器不限于图4的确切结构。图4是具有基于时间卷积网络块(TCN)的结构的提取器的例子。然而,其他架构也是可能的,例如不同的模型架构,例如LSTM、RNN等。上述可以与在时域或频域中工作的提取器一起使用。例如,在时域或频域中使用不同损失函数的网络。与上面所述那些使用不同嵌入的提取网络。联合训练的或者其中单独地训练多个层/单元中的一个的提取网络。上述方法使用登记信号对输出进行偏置。然而,例如针对说话者的一个闭集也可以使用针对目标说话者预先训练的系统。
为了避免任何不必要的重复,类似的附图标记将用于表示类似的特征。频谱编码器61的目的是将输入语音波形变换到较高维空间(Espec)。在本例中,输入语音波形为时域波形y(n)。输入信号y(n)可以是在-1到1的范围内的浮点数序列(或者它可以被转换成作为整数的量化级)。在实施例中,输入信号是由测量声压变化的麦克风捕获的连续信号的数字化版本。在实施例中,输入信号为数字输入信号。然后将输入信号划分为固定持续时间的窗口。为了举例说明这个例子,使用了1ms~2ms的时间窗口。时间窗口也可能彼此重叠。
然后将输入信号y(n)的每个时间窗口提供给频谱编码器61。在实施例中,CNN的输入层是维度为[batch_size,1,time_length]的数组/张量。batch_size可以为1或更大。time_length是样本中的波形(时域信号)的长度。例如,这可以固定为4秒,对于fs=16kHz,给出64000个样本。来自编码器的第一1D CNN将接受该输入,并将输出维度为[batch_size,number_of_kernels,number_of_time_frames]的张量。number_of_kernels是给定的(N=256),而number_of_time_frames是在给定信号的总长度、帧长(L=20)和跳跃大小(hopsize)(L/2)的情况下计算的。于是,在实施例中,1D CNN既进行加窗又进行“频谱”分析。
频谱编码器61包括CNN层101,随后是用于激活的整流线性单元(ReLU)103。在这个例子中,CNN具有大小为L、步长为L/2的N个卷积核。应注意的是,频谱编码器对输入时域信号y(n)进行操作。频谱编码器的功能是产生类似于频谱输出的输出,但它不严格地进行信号到频率状态(regime)的转换。相反,它允许训练CNN 101的参数,以允许实现高维稀疏输出。
按照与上面关于y(n)所述相同的方式,登记语音信号se(n)也是时域信号,在实施例中,该信号以与y(n)相同的方式转换为数字信号,即,时域窗口。按照与频谱编码器61相同的方式,说话者编码器65还包括CNN层105,随后是用于激活的整流线性单元(ReLU)107。
激活层107的输出然后被提供给时间卷积网络(TCN)109。
图4B示出了诸如TCN 109之类的TCN的示意层状结构。这里,TCN块由三个CNN层、参数ReLU(PReLU)激活以及通过可训练偏置和增益参数缩放的跨时间维度和信道维度两者的均值和方差归一化(G-NORM)形成。深度卷积(D-CONV,大小为P的H个卷积核)以作为1的膨胀因子独立地在输入通道上操作。使用端点1D CNN(B个卷积核)来调整信道维度。
详细地说,TCN的第一层是1维CNN 111。接下来,G-NORM层113提供通过可训练偏置和增益参数缩放的跨时间维度和信道维度两者的均值和方差归一化。然后将该层113的输出提供给PReLU层115。在实施例中,使用PReLU层,因为它可以帮助防止梯度消失问题。
接下来,通过提供深度卷积的D-CONV层117处理信号。接下来是向第二PReLU层121进行输出的另一个GNORM层119,第二PReLU层121的输出提供给第二1D CNN层123。
TCN 109的输出然后提供给时间平均算子125,以产生登记信号的频谱表示Espk
在提取器63中,频谱编码器61的输出Espec在被馈送到一系列级联TCN 133、139中的第一个TCN之前按通道归一化,然后由瓶颈1x1 CNN层(B个卷积核)133处理。TCN 135和139各自具有参考图4B所述的结构。然而,D-CONV的膨胀发生变化,使得跨连续TCN块的膨胀因子为2mod(i,X),其中i是从0到XR-1的块索引。TCN块被串联排列成组,每组中有X个TCN,并且有R组,使得总共有XR个TCN。X是控制每个组中有多少个TCN的超参数,mod是模运算。
在本例中,使用乘法逐点自适应层137来组合目标说话者嵌入Espk和第二TCN的输出。然而,也可以使用其他逐点组合。
在最后一个TCN之后,使用具有N个输出通道的另一个1x1 CNN层141将掩码维度调整到频谱编码器61的输出的维度,从而便利它们的逐点乘法。另一个CNN层141的输出通过激活层143提供,这产生掩码。然后使用混合器67将掩码应用于来自频谱编码器61的第二输出Espec,以从Espec提取目标说话者的语音。
然后将其提供给解码器147。解码器包括然后输出提取的时域信号s'(n)的全连接层147。
在回到图2的整个系统之前,将解释图3的系统的训练。该训练适合于图4的具体布置,但不限于该特定架构。
对于训练,建立训练集,训练集的每个成员包括三个部分:
1)输入语音(y(n)),其包括可能由其他说话者或非话音声音提供的背景噪声中的目标说话者的语音
2)来自目标说话者的登记语音样本(se(n))
3)与输入语音对应的目标说话者的干净语音(s(n))
训练集将包含针对许多不同的目标说话者的上述三个部分。在训练之后,系统应该能够仅通过接收新的说话者的登记语音来适应该说话者。不需要针对新的说话者进行重新训练,也不需要将该说话者包括在原始训练集中。
在实施例中,图3的系统是联合训练的,即,频谱编码器61、说话者编码器65、提取器63和解码器69是一起训练的。
在实施例中,针对图1的提取器的训练目标是使尺度不变信号失真比(SISDR)最大化,SISDR被定义为:
其中s'和s分别表示估计的目标说话者信号和谕示(oracle)目标说话者信号,其中谕示目标说话者信号是干净语音。
在另一个实施例中,使用不同的损失函数,该损失函数为:
Lnew=LS(SDR(s,s)+LSTOI(s,s) (2)
上述损失函数将上述式(1)的SISDR损失与基于短时客观可懂度(STOI)度量的感知激励项结合起来。
STOI是客观评估通过时频加权处理的有噪声语音的可懂度的指标,它与人类感知产生高度相关性。它需要对照处理信号s′(n)进行比较的干净参考信号s(n)。所述比较需要大约400毫秒的语音,并且如下所述在压缩的基于DFT的空间中进行。
图5是示出计算STOI的步骤的流程图。首先,在步骤S201,计算参考(即,干净)信号和处理信号的短期傅里叶变换(STFT),分别表示为S(k,m)和S′(k,m)。索引k和m分别表示当前频率仓和时间帧。然后在S203计算三分之一倍频带均方根(RMS)能量,最低中心频率为150Hz:
其中j是三分之一倍频带索引,k1(j)和k2(j)是其频带边缘。在步骤S205,处理信号的三分之一倍频带RMS能量被归一化,以使用N个(例如30个)先前连续帧的上下文来匹配干净信号的能量
接下来,在步骤S207,使用以下规则对处理信号的经缩放的三分之一倍频带RMS能量进行限幅,
其中>(例如-15)是信号失真下界。在步骤S209,中间可懂度分数被计算为参考信号和归一化且限幅的处理信号的三分之一倍频带RMS能量之间的互相关,
在步骤S211计算最终STOI损失
其中J和M分别为三分之一倍频带和信号帧的总数。可以使用其他函数代替STOI,这些函数也允许语音的可懂度度量,例如基于归一化协方差的语音传输指数、瞥见比例(GP)、语音可懂度指数(SII)、PESQ或诸如STOI-Net之类的深度学习方法。
因此,在本实施例中,同时考虑SISDR和STOI来训练提取器。
返回图2,从提取器51输出的提取信号被提供给自动语音识别器(ASR)53。然而,在被输入到ASR 53之前,提取信号与原始输入信号(A)的一部分混合以产生增强信号(C)。这使提取信号中的处理伪影的抑制可以被掩蔽。这些处理伪影会影响ASR的操作。
在实施例中,重新混合由标量σ控制(图2):
并且输出被计算为z(n)=s(n)+αy(n)。如何选择σ在下面说明。通过使用上面所述,可以从ASR 53获得良好的结果,而不需要重新训练ASR 53来匹配处理失真。
在实施例中,σ至少为0且最多为30。在实施例中,基于在第二信号中发现的失真量来自动适配σ的值。在另一个实施例中,可以使用无参考语音质量模型来评估失真。
为了测试上述内容,对CHiME-4数据进行了实验,该CHiME-4数据包含模拟和真实的有噪声语音录音。CHiME-4语料库旨在使用移动平板计算设备在有噪声的日常环境中(比如自助餐厅、公共汽车、街道或步行区)捕捉多通道语音。SPX去噪器(语音提取器)被使用,并基于与CHiME-4噪声人工混合的干净的华尔街日报(WSJ)语音而被训练。
下面报告关于CHiME-4的单通道真实和模拟评估集(et05)的结果(相对于SPX的训练集的匹配条件)。另外,还针对关于VoiceBank-DEMAND(VBD)和WHAM!集的不匹配测试条件报告了结果。使用WHAM!测试(tt)集的最大版本,并且所有实验都是利用16kHz分辨率数据进行的。
主要在词错误率(WER)方面评估了性能,然而,对于一些初步实验,还报告了信号失真比(SDR)和STOI值。SDR分数是使用BSSeval工具包计算的,STOI训练损失是使用免费获得的PyTorch实现计算的。下面将介绍关于去噪网络和ASR系统的配置的更多细节。
对于这些测试,使用具有参考图4A和图4B说明的架构的语音提取器。频谱编码器由具有大小L=20的N=256个卷积核且帧速率为10个样本的1-D CNN组成。对于提取网络采用重复R=4次的X=8叠加TCN块。每个TCN块由分别具有B=256和H=512个卷积核的1x1CNN和1x3深度卷积组成。解码器中的全连接层具有256的输入维度和20的输出维度。
使用来自WSJ0-2mix的人工添加了CHiME-4噪声的干净WSJ训练列表来训练SPX系统。生成了大约39小时的数据,混合音的信噪比(SNR)在0dB到5dB范围内均匀采样,音频长度在1s到6s之间随机变化。使用目标登记句子进行训练,确保登记信号和混合信号的录音不同。模拟的CHiME-4、VBD和WHAM!测试集的登记样本从可用的干净波形中选择,而近讲麦克风录音用于真实的CHiME-4评估集的登记。
使用Adam优化器进行训练[D.P.Kingma and J.L.Ba,“Adam:A method forstochastic optimization”,in Int.Conf.Learning Repres.,2015],初始学习率为0.001,块长度为4秒,并且小批大小(minibatch size)为8。如果在连续三个时期(epoch)内交叉验证集没有得到改善,则学习率减半。为了避免对训练数据的过拟合,所有竞争模型都在时期(epoch)20被解码。
评估中包括ASR的两个声学模型。第一个模型是基于干净的WSJ-SI284数据(WSJ-CLN)训练的,并具有12层TDNNF拓扑[D.Povey,G.Cheng,Y.Wang,K.Li,H.Xu,M.Yarmoham-madi,and S.Khudanpur,“Semi-orthogonal low-rank matrix factorization for deepneural networks,”in Proc.Interspeech,2018,pp.3743–3747],而第二个模型是基于来自CHiME-4(C4-ORG)的标准有噪声集训练的,并具有14层TDNNF结构。后一种系统采用了来自CHiME-4的真实和模拟训练集的所有6个通道。这两个模型都使用40维MFCC和100维i向量作为声学特征,并且它们是使用无格MMI准则在KALDI中训练的[D.Povey,V.Peddinti,D.Galvez,P.Ghahrmani,and V.Manohar,“Purely sequence-trained neural networksfor ASR based on lattice-free MMI,”in Proc.Interspeech,2016,pp.2751–2755]。标准三元文法和更强大的RNN语言模型(LM)都用于解码。在3倍速度扰动之后,WSJ-CLN和C4-ORG分别具有约246小时和327小时的训练数据。
接下来,将介绍对所提出的目标说话者增强方法在匹配和不匹配噪声条件下提高ASR鲁棒性的有效性的研究结果。
表1.所提出的方法在不匹配的有噪声条件下的性能(去噪-SPX是基于模拟的有噪声CHiME-4数据训练的)。WER(%)利用了WSJ-CLN AM和3-G LM。
首先,使用VBD和WHAM!模拟的有噪声测试数据在不匹配条件下评估SPX去噪器(表1)。表1中的WER结果利用了WSJ-CLN AM和三元文法(3G)LM。尽管去噪-SPX是基于模拟的有噪声CHiME-4混合音训练的,因此与任何一个测试集都不匹配,但是与未处理的情况相比,它在VBD和WHAM!测试集上产生了约14%和67%的相对WER降低。表1中的WER结果表明,复合SISDR和STOI训练损失比标准SISDR损失工作得更好,尽管普通的系统和提出的系统的SDR和STOI值几乎相同。因此,附加的STOI项能够帮助恢复在增强期间失真的语音的一些时间调制。本文中使用的“普通的”系统是一种使用标准SISDR训练准则(无STOI)对SPX进行去噪的系统。
使用有噪声CHiME-4声学模型(C4-ORG)进行下一组实验,他们正在评估重新混合比率σ对ASR鲁棒性的重要性。
表2.针对各种重新混合比率σ,所提出的说话者增强方法对于CHiME-4的WER准确性。所有结果都利用了有噪声CHiME-4AM(C4-ORG,3-G LM)。
表2中的结果表明,对于模拟的和真实的CHiME-4测试集两者,通过将σ的值从∞(在增强信号之上不添加输入混合音)减小到0dB,可以实现令人印象深刻的WER降低。更具体地,仅仅通过降低重新混合比率,提出的降噪-SPX对于模拟评估集和真实评估集分别实现约28%和33%的相对WER降低。这些结果是显著的,因为声学模型和SPX模型都没有被重新训练以产生这些增益。与未处理的情况相比,σ=∞时的去噪-SPX的较差性能可以归因于系统是从无回声模拟的CHiME-4有噪声数据训练的,而测试集也包含少量混响。准确性下降的另一个来源可能是SPX引入的固有失真,特别是在真实数据的情况下。具有说话者增强的去噪-SPX对于模拟集和真实集分别产生了约23%和28%的相对WER降低。
表3.使用C4-ORG AM和RNN LM时所提出的方法对于CHiME-4的WER准确性。
表3示出了去噪-SPX对于单通道CHiME-4任务的识别准确性。使用标准有噪声C4-ORG声学模型进行ASR,并利用基于RNN的语言模型对3-G转录重新评分。
上述实施例示出了一种目标说话者增强算法,用于在不进行声学模型重新训练的情况下提高有噪声条件下的ASR准确性。使用基于DNN说话者提取的去噪器,表明与单通道CHiME-4模拟和真实评估集的未处理情况相比,将有噪声输入与增强信号重新混合分别实现了约23%和28%的WER降低。此外,实验表明,在说话者提取系统的训练期间,在时域重建损失之上添加感知激励损失,有助于实现适度但一致的ASR准确性增益。
上述实施例提供以下中的至少一个:
(i)匹配和不匹配条件下的真实和模拟数据的语音去噪的时域语音提取的ASR性能,
(ii)用于训练时域去噪器的基于客观可懂度指标的新的损失函数,
(iii)说话者增强策略以提高有噪声环境下的ASR模型的鲁棒性。
本文中所述的实施例表明,通过使用不需要对失真数据进行声学模型重新训练的说话者增强策略,可以提高有噪声条件下的ASR准确性。代替专注于使用现有的增强算法来完全抑制背景,本文中所述的实施例将增强信号与未处理的输入重新混合以减轻处理伪影,从而导致显著的识别准确性增益,而不需要重新训练ASR的声学模型。
虽然说明了某些实施例,但这些实施例只是作为例子给出的,并不意图限制发明的范围。事实上,本文中说明的新颖设备和方法可以以各种其他形式体现;此外,在不背离发明精神的情况下,可以进行本文中所述的设备、方法和产品的形式方面的各种省略、替换和变化。所附权利要求及其等同物旨在涵盖落入本发明的范围和精神内的此类形式或修改。

Claims (20)

1.一种用于处理音频信号以增强音频信号的目标分量的方法,所述方法包括:
接收包含第一环境中的目标分量的第一音频信号;
处理所述第一音频信号以提取第二音频信号,第二音频信号包含第二环境中的所述目标分量,第二环境的噪声小于第一环境;以及
将第一音频信号与第二音频信号混合以产生第三音频信号,第三音频信号包含提取的目标分量。
2.按照权利要求1所述的方法,其中第一音频信号包括来自目标说话者的语音,所述目标分量是来自目标说话者的语音。
3.按照权利要求2所述的方法,其中第三音频信号被提供给自动语音识别器ASR,并且由ASR在第三音频信号中识别文本。
4.按照权利要求2或3所述的方法,其中第二环境中的噪声是归因于除目标说话者以外的说话者的噪声。
5.按照权利要求2至4中的任意权利要求所述的方法,其中使用语音提取器从第一信号中提取第二信号,并且其中语音提取器已使用损失函数进行训练,所述损失函数是表示信号中的时域或频域失真的项与表示信号的可懂度的项的组合。
6.按照权利要求5所述的方法,其中表示信号的可懂度的项是短时客观可懂度STOI度量。
7.按照权利要求5或6所述的方法,其中表示信号中的失真的项是尺度不变信号失真比SISDR。
8.按照权利要求2至7中的任意权利要求所述的方法,其中处理第一音频信号以提取第二音频信号包括使用语音提取器,所述语音提取器被配置为接收所述第一音频信号和包含来自目标说话者的语音样本的登记语音信号,所述语音提取器被配置为产生掩码来去除第一音频信号的部分,以提取第二音频信号。
9.按照权利要求8所述的方法,其中第一音频信号是时域信号。
10.按照权利要求9所述的方法,其中第一音频信号由频谱编码器处理,频谱编码器是被配置为将第一音频信号变换为较高维度信号的可训练的卷积网络。
11.按照权利要求10所述的方法,其中语音提取器包括多个深度卷积层,所述多个深度卷积层允许进行频谱输入信号的时间卷积。
12.按照任意前述权利要求所述的方法,其中第一音频信号是单通道音频信号。
13.按照任意前述权利要求所述的方法,其中第一音频信号和第二音频信号被混合以形成第三音频信号,如下所示:
z(n)=s′(n)+αy(n)
其中z(n)代表第三音频,s′(n)代表第二音频,y(n)代表第一音频,并且α是第一音频信号的乘法因子。
14.按照权利要求13所述的方法,其中乘法因子由标量因子σ控制:
15.按照权利要求14所述的方法,其中σ至少为0且最多为30。
16.一种训练语音处理装置的方法,所述语音处理装置用于处理语音信号以增强目标说话者的语音,所述装置包括:
用于接收包含第一环境中的来自目标说话者的语音的第一语音信号的输入端;
被配置为处理所述第一语音输入以提取第二语音信号的语音提取器,第二语音信号包含第二环境中的来自所述目标说话者的语音,第二环境的噪声小于第一环境,所述语音提取器被配置为接收所述第一语音信号和包括来自目标说话者的语音样本的登记语音信号,所述语音提取器被配置为产生掩码来去除第一语音信号的部分,以提取第二语音信号;以及
用于将第一语音信号与第二语音信号组合以产生第三语音信号的混合器,第三语音信号包括提取的来自目标说话者的语音,所述方法包括:
接收训练数据集,训练数据集的每个成员包括包含目标说话者的语音的第一信号、具有来自目标说话者的样本语音的登记信号以及作为第二信号的与第一信号对应的来自目标说话者的干净语音;以及
使用第一信号和登记信号作为输入并以第二信号作为期望的输出来训练语音提取器,所述训练使用损失函数,所述损失函数是表示信号中的时域或频域失真的项与表示信号的可懂度的项的组合。
17.按照权利要求16所述的训练语音处理装置的方法,其中所述语音处理装置被配置用于自动语音识别,并且还包括自动语音识别单元,自动语音识别单元被配置为接收第三语音信号并从第三语音信号导出文本,其中自动语音识别单元是独立于语音提取器而被训练的。
18.一种训练语音处理装置的方法,所述语音处理装置用于处理语音信号以增强目标说话者的语音,所述装置包括:
用于接收包含第一环境中的来自目标说话者的语音的第一语音信号的输入端;以及
被配置为处理所述第一语音输入以提取第二语音信号的语音提取器,第二语音信号包含第二环境中的来自所述目标说话者的语音,第二环境的噪声小于第一环境,所述语音提取器被配置为接收所述第一语音信号和包含来自目标说话者的语音样本的登记语音信号,语音提取器被配置为产生掩码来去除第一语音信号的部分,以提取第二语音信号,
所述方法还包括:
接收训练数据集,训练数据集的每个成员包括包含目标说话者的语音的第一信号、具有来自目标说话者的样本语音的登记信号以及作为第二信号的与第一信号对应的来自目标说话者的干净语音;以及
使用第一信号和登记信号作为输入并以第二信号作为期望的输出来训练语音提取器,所述训练使用损失函数,所述损失函数是表示信号中的时域或频域失真的项与表示信号的可懂度的项的组合。
19.一种音频处理装置,用于处理音频信号以增强音频信号的目标分量,所述装置包括:
用于接收包含第一环境中的目标分量的第一音频信号的输入端;
音频信号提取器,所述音频信号提取器被配置为处理所述第一音频信号以提取第二音频信号,第二音频信号包含第二环境中的所述目标分量,第二环境的噪声小于第一环境;以及
混合器,所述混合器被配置为将第一音频信号与第二音频信号混合以产生第三音频信号,第三音频信号包含提取的目标分量。
20.一种计算机可读介质,包括指令,所述指令当由计算机执行时使所述计算机执行按照权利要求1至18中的任意权利要求所述的方法。
CN202310163454.XA 2022-04-14 2023-02-16 音频处理方法和装置 Pending CN116913296A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB2205590.9 2022-04-14
GB2205590.9A GB2617613B (en) 2022-04-14 2022-04-14 An audio processing method and apparatus

Publications (1)

Publication Number Publication Date
CN116913296A true CN116913296A (zh) 2023-10-20

Family

ID=81753229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310163454.XA Pending CN116913296A (zh) 2022-04-14 2023-02-16 音频处理方法和装置

Country Status (3)

Country Link
JP (1) JP7551805B2 (zh)
CN (1) CN116913296A (zh)
GB (1) GB2617613B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4162604B2 (ja) 2004-01-08 2008-10-08 株式会社東芝 雑音抑圧装置及び雑音抑圧方法
US9741360B1 (en) * 2016-10-09 2017-08-22 Spectimbre Inc. Speech enhancement for target speakers
WO2019017403A1 (ja) 2017-07-19 2019-01-24 日本電信電話株式会社 マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法
JP7404657B2 (ja) 2019-05-28 2023-12-26 沖電気工業株式会社 音声認識装置、音声認識プログラム、及び音声認識方法
CN111261146B (zh) 2020-01-16 2022-09-09 腾讯科技(深圳)有限公司 语音识别及模型训练方法、装置和计算机可读存储介质
WO2022056226A1 (en) * 2020-09-14 2022-03-17 Pindrop Security, Inc. Speaker specific speech enhancement

Also Published As

Publication number Publication date
GB2617613B (en) 2024-10-30
GB2617613A (en) 2023-10-18
JP2023157845A (ja) 2023-10-26
JP7551805B2 (ja) 2024-09-17
GB202205590D0 (en) 2022-06-01

Similar Documents

Publication Publication Date Title
Shon et al. Voiceid loss: Speech enhancement for speaker verification
Kleijn et al. Generative speech coding with predictive variance regularization
CN108597496B (zh) 一种基于生成式对抗网络的语音生成方法及装置
JP5230103B2 (ja) 自動音声認識器のためのトレーニングデータを生成する方法およびシステム
Delcroix et al. Strategies for distant speech recognitionin reverberant environments
Delcroix et al. Compact network for speakerbeam target speaker extraction
US20230162758A1 (en) Systems and methods for speech enhancement using attention masking and end to end neural networks
Braun et al. Effect of noise suppression losses on speech distortion and ASR performance
Chuang et al. Speaker-aware deep denoising autoencoder with embedded speaker identity for speech enhancement.
Sadjadi et al. Blind spectral weighting for robust speaker identification under reverberation mismatch
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
Moritz et al. Noise robust distant automatic speech recognition utilizing NMF based source separation and auditory feature extraction
Delfarah et al. Deep learning for talker-dependent reverberant speaker separation: An empirical study
López-Espejo et al. Exploring filterbank learning for keyword spotting
Zorilă et al. Speaker reinforcement using target source extraction for robust automatic speech recognition
Chen et al. Time domain speech enhancement with attentive multi-scale approach
Chao et al. Cross-domain single-channel speech enhancement model with bi-projection fusion module for noise-robust ASR
Chhetri et al. Speech enhancement: A survey of approaches and applications
Chen et al. CITISEN: A deep learning-based speech signal-processing mobile application
Zhao et al. Time-Domain Target-Speaker Speech Separation with Waveform-Based Speaker Embedding.
Sarfjoo et al. Transformation of low-quality device-recorded speech to high-quality speech using improved SEGAN model
JP7551805B2 (ja) オーディオ処理方法及び装置
Guzewich et al. Improving Speaker Verification for Reverberant Conditions with Deep Neural Network Dereverberation Processing.
CN116013343A (zh) 语音增强方法、电子设备和存储介质
Guimarães et al. Optimizing time domain fully convolutional networks for 3D speech enhancement in a reverberant environment using perceptual losses

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination