CN105122359A

CN105122359A - 语音去混响的方法、设备和系统

Info

Publication number: CN105122359A
Application number: CN201480020314.6A
Authority: CN
Inventors: E·格斯那; G·N·迪金斯; D·古那万
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2013-04-10
Filing date: 2014-03-31
Publication date: 2015-12-02
Anticipated expiration: 2034-03-31
Also published as: EP2984650A1; US20160035367A1; CN105122359B; WO2014168777A1; EP2984650B1; US9520140B2

Abstract

提供了改进的音频数据处理方法和系统。一些实现方式涉及把频域音频数据划分成多个子带并且为多个子带中每一个确定振幅调制信号值。带通滤波器可以应用到每个子带中的振幅调制信号值，以便为每个子带产生带通滤波后的振幅调制信号值。带通滤波器可以具有超过人类语音的平均节奏的中心频率。可以至少部分地基于振幅调制信号值和带通滤波后的振幅调制信号值的函数为每个子带确定增益。所确定的增益可以应用到每个子带。

Description

语音去混响的方法、设备和系统

相关申请的交叉引用

本申请要求于2013年4月10日提交的美国临时专利申请No.61/810,437和于2013年6月28日提交的美国临时专利申请No.61/840,744的优先权，这两个申请当中每一个的全部内容都通过引用被结合于此。

技术领域

本公开涉及音频信号的处理。特别地，本公开涉及处理用于远程通信的音频信号，包括但不限于处理用于电话会议或视频会议的音频信号。

背景技术

在远程通信中，常常有必要捕获不在麦克风附近的参与者的语音。在这种情况下，直接的声学反射和后续的房间混响的效果(reverberation)会不利地影响可理解性。在空间捕获系统的情况下，这种混响可以被人类听觉处理系统与直接的声音(至少在某种程度上)感知分离。在实践当中，当经多声道渲染试听时，这种空间混响可以改善用户体验，并且存在一些证据暗示混响会帮助表演空间中声音源的分离和锚定。但是，当信号重叠、作为单声道或单个声道导出和/或带宽减小时，混响的效果一般更难以让人类听觉处理系统管理。相应地，改善的音频处理系统将是期望的。

发明内容

根据本文所述的一些实现方式，一种方法可以涉及接收包括频域音频数据的信号并且对频域音频数据应用滤波器组(filterbank)，以便产生在多个子带内的频域音频数据。该方法可以涉及为每个子带中的频域音频数据确定振幅调制信号值，并且对每个子带中的振幅调制信号值应用带通滤波器以便为每个子带产生带通滤波后的振幅调制信号值。带通滤波器可以具有超过人类语音的平均节奏(cadence)的中心频率。

该方法可以涉及至少部分地基于振幅调制信号值和带通滤波后的振幅调制信号值的函数为每个子带确定增益。该方法可以涉及对每个子带应用确定的增益。确定振幅调制信号值的处理可以涉及为每个子带中的频域音频数据确定对数功率值。

在一些实现方式中，用于较低频率子带的带通滤波器可以比用于较高频率子带的带通滤波器通过更大的频率范围。用于每个子带的带通滤波器可以具有在10-20Hz范围内的中心频率。在一些实现方式中，用于每个子带的带通滤波器可以具有大约15Hz的中心频率。

函数可以包括形式为R10^A的表达式。R可以与子带中每个样本的带通滤波后的振幅调制信号值除以振幅调制信号值成比例。“A”可以与子带中每个样本的振幅调制信号值减去带通滤波后的振幅调制信号值成比例。在一些实现方式中，A可以包括指示抑制率(rateofsuppression)的常量。确定增益可以涉及确定是应用通过形式为R10^A的表达式产生的增益值还是应用最大抑制值。该方法可以涉及确定对象的扩散率并且至少部分地基于扩散率为该对象确定最大抑制值。在一些实现方式中，可以为相对较扩散的对象确定相对较高的最大抑制值。

在一些例子中，应用滤波器组的处理可以涉及产生在5-10的范围内的个数的子带的频域音频数据。在其它实现方式中，其中应用滤波器组的处理可以涉及产生在10-40的范围内或者在某个其它范围内的个数的子带的频域音频数据。

该方法可以涉及在对每个子带应用确定的增益之后应用平滑函数。该方法还可以涉及接收包括时域音频数据的信号并且把时域音频数据变换成频域音频数据。

根据一些实现方式，这些方法和/或其它方法可以经由其上存储了软件的一个或多个非临时性介质来实现。软件可以包括用于至少部分地控制一个或多个设备执行这种方法的指令。

根据本文所述的一些实现方式，一种装置可以包括接口系统和逻辑系统。逻辑系统可以包括通用的单-或多-芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管逻辑、分立硬件部件和/或其组合。

接口系统可以包括网络接口。一些实现方式包括存储器设备。接口设备可以包括逻辑系统与存储器系统之间的接口。

根据一些实现方式，逻辑系统可以能够执行以下操作：接收包括频域音频数据的信号；对频域音频数据应用滤波器组，以便产生在多个子带内的频域音频数据；为每个子带中的频域音频数据确定振幅调制信号值；并且对每个子带中的振幅调制信号值应用带通滤波器，以便为每个子带产生带通滤波后的振幅调制信号值。带通滤波器可以具有超过人类语音的平均节奏的中心频率。

逻辑系统还可以能够至少部分地基于振幅调制信号值和带通滤波后的振幅调制信号值的函数为每个子带确定增益。逻辑系统还可以能够对每个子带应用确定的增益。逻辑系统还可以能够在对每个子带应用确定的增益之后应用平滑函数。逻辑系统还可以能够接收包括时域音频数据的信号并且把时域音频数据变换成频域音频数据。

确定振幅调制信号值的处理可以涉及为每个子带中的频域音频数据确定对数功率值。用于较低频率子带的带通滤波器可以比用于较高频率子带的带通滤波器通过更大的频率范围。用于每个子带的带通滤波器可以具有在10-20Hz范围内的中心频率。例如，用于每个子带的带通滤波器可以具有大约15Hz的中心频率。

在一些实现方式中，函数可以包括形式为R10^A的表达式。R可以与子带中每个样本的带通滤波后的振幅调制信号值除以振幅调制信号值成比例。“A”可以与子带中每个样本的振幅调制信号值减去带通滤波后的振幅调制信号值成比例。“A”可以包括指示抑制率的常量。确定增益可以涉及确定是应用通过形式为R10^A的表达式产生的增益值还是应用最大抑制值。

逻辑系统还可以能够确定对象的扩散率并且至少部分地基于扩散率为该对象确定最大抑制值。可以为相对较扩散的对象确定相对较高的最大抑制值。

应用滤波器组的处理可以涉及产生在5-10范围内的个数的子带的频域音频数据。作为替代，应用滤波器组的处理可以涉及产生在10-40范围内或者在某个其它范围内的个数的子带的频域音频数据。

本说明书中所述主题的一种或多种实现方式的细节在附图和以下描述中阐述。其它特征、方面和优点将从描述、附图和权利要求变得清楚。应当指出，以下附图的相对维度可以不是按比例绘制的。

附图说明

图1示出了电话会议系统的元素的例子。

图2是宽带语音信号的一个例子的声压的图。

图3是图2中所表示的语音信号组合了混响信号的例子的声压的图。

图4是图2的语音信号的功率以及图3的组合的语音和混响信号的功率的图。

图5是指示在变换到频域之后图4的功率曲线的图。

图6是图2的语音信号的对数功率以及图3的组合的语音和混响信号的对数功率的图。

图7是指示在变换到频域之后图6的对数功率曲线的图。

图8A和8B是语音信号的低频子带和高频子带的声压的图。

图9是概述用于缓解音频数据中的混响的处理的流程图。

图10示出了用于彼此重叠的多个频带的带通滤波器的例子。

图11是根据一些例子指示等式3的增益抑制对对数功率比的图。

图12是示出最大抑制对扩散率的图的各种例子的图。

图13是提供能够缓解混响的音频处理装置的部件的例子的框图。

图14是提供音频处理装置的部件的例子的框图。

相同的标号和指示在各个图中指示相同的元素。

具体实施方式

以下描述针对某些实现方式以用于描述本公开内容的一些创新方面的目的，以及这些创新方面可以在其中实现的上下文的例子。但是，本文的教导可以以各种不同途径被应用。例如，虽然各种实现方式是关于特定的声音捕获和再现环境来描述的，但是本文的教导可以广泛适用于其它已知的声音捕获和再现环境，以及可能在将来引入的声音捕获和再现环境。类似地，虽然在本文提供了扬声器配置、麦克风配置等等的例子，但是其它实现方式也是发明人预期的。而且，所述实施例可以在各种硬件、软件、固件等等中实现。相应地，本公开内容的教导不是要局限于图中所示和/或本文描述的实现方式，而是具有广泛的适用性。

图1示出了电话会议系统的元素的例子。在这个例子中，电话会议在位于位置105a、105b、105c和105d的参与者之间发生。在这个例子中，位置105a-105d当中每一个具有不同的扬声器配置和不同的麦克风配置。而且，位置105a-105d当中每一个包括具有不同尺寸和不同声学属性的房间。因此，位置105a-105d当中每一个将趋于产生不同的声学反射和房间混响效果。

例如，位置105a是其中多个参与者110经由电话会议电话115参与电话会议的会议室。参与者110离电话会议电话115处于不同距离的位置。电话会议电话115包括扬声器120、两个内部麦克风125以及外部麦克风125。会议室还包括两个天花板安装的扬声器120(以虚线示出)。

位置105a-105d当中每一个被配置为经由网关130与网络117中的至少一个通信。在这个例子中，网络117包括公共交换电话网络(PSTN)和因特网。

在位置105b，单个参与者110经由膝上型计算机135经由因特网协议语音(VoIP)连接来参与。膝上型计算机135包括立体声扬声器，但是参与者110在使用单个的麦克风125。位置105b在这个例子中是小的家庭办公室。

位置105c是办公室，其中单个参与者110在使用桌面电话140。位置105d是另一个会议室，其中多个参与者110在使用类似的桌面电话140。在这个例子中，桌面电话140仅具有单个麦克风。参与者110离桌面电话140处于不同距离的位置。在位置105d的会议室与在位置105a的会议室具有不同的长宽比。而且，墙壁具有不同的声学属性。

电话会议企业145包括可被配置为经由网络117提供电话会议服务的各种设备。相应地，电话会议企业145被配置为经由网关130与网络117通信。交换机150和路由器155可被配置成为电话会议企业145的设备(包括存储设备160、服务器165和工作站170)提供网络连接性。

在图1所示的例子中，一些电话会议参与者110处于具有多麦克风“空间”捕获系统和多扬声器再现系统的位置，其中多扬声器再现系统可以是多声道再现系统。但是，其它电话会议参与者110通过使用单个麦克风和/或单个扬声器参与电话会议。相应地，在这个例子中，系统100能够管理单声道和空间端点二者。在一些实现方式中，系统100可被配置为提供以下二者：捕获的音频的混响的表示(用于空间/多声道交付)，以及其中混响可被抑制以提高可理解性的干净信号(用于单声道交付)。

本文所描述的一些实现方式可以提供时间变化和/或频率变化的抑制增益配置文件(profile)，其在对处于一定距离的语音减小感知到的混响方面是健壮和有效的。一些此类方法已经显示对于离麦克风处于不同距离的语音并且对于不同的房间特性是主观上合理的，并且对于噪声和非语音声学事件是健壮的。一些此类实现方式可以对单声道输入或空间输入的下混进行操作，并且因此可以适用于广泛的电话应用。通过调整增益抑制的深度，本文描述的一些实现方式可被不同程度地应用于单声道和空间信号。

现在将参考图2-图8B来描述用于一些实现方式的理论基础。参照这些和其它附图提供的特定细节仅仅作为例子给出。本申请中的许多附图是以很好地适合所公开实现方式的教导和解释的图示或概念形式给出的。朝着这一目标，为了更好的视觉和思路清晰，附图的某些方面被强调或程式化。例如，诸如语音和混响信号的音频信号的更高级细节一般而言与所公开的实现方式无关。语音和混响信号的这种更精细的细节一般而言是本领域技术人员公知的。因此，附图不应当从字面上集中在附图的确切值或指示来阅读。

图2是宽带语音信号的一个例子的声压的图。语音信号是在时域中。因此，横轴表示时间。纵轴表示用于从处于某个麦克风或声学检测器的声压的变化得出的信号的任意标度。在这种情况下，我们可以考虑纵轴的标度表示数字信号域，其中语音已经被适当地分级成落入定点量化的数字信号的范围内，例如就像在脉冲编码调制(PCM)编码的音频中一样。这个信号表示常常用帕斯卡(Pa)(用于压力的SI单位)来表征的物理活动或者更具体而言是平均大气压上下测得的以Pa为单位的压力变化。一般且舒适的语音活动一般将在1-100mPa(0.001-0.1Pa)的范围内。语音水平也可以以诸如参照20μPa的dBSPL的平均强度标度报告。因此，处于40-60dBSPL的会话语音代表2-20mPa。我们一般将看到分级后的来自麦克风的数字信号与至少以30-80dBSPL来捕获相匹配。在这个例子中，语音信号以32kHz被采样。相应地，振幅调制曲线200a表示在0-16kHz范围内的语音信号的振幅的包络。

图3是在图2中表示的语音信号组合了混响信号的例子的声压的图。相应地，振幅调制曲线300a表示0-16kHz范围内的语音信号加上来自语音信号与特定环境(例如与特定房间内的墙、天花板、地板、人和物体)交互导致的混响信号的振幅的包络。通过比较振幅调制曲线300a与振幅调制曲线200a，可以观察到振幅调制曲线300a更平滑：语音信号的峰值205a与低谷210a之间的声压差大于组合的语音和混响信号的峰值305a与低谷310a之间的声压差。

为了隔离由振幅调制曲线200a与振幅调制曲线300a表示的“包络”，可以计算语音信号及组合的语音和混响信号的功率Y_n，例如，通过确定n个时间样本当中每一个的能量来计算。图4是图2的语音信号的功率与图3的组合的语音和混响信号的功率的图。功率曲线400与“干净的”语音信号的振幅调制曲线200a对应，而功率曲线402与组合的语音和混响信号的振幅调制曲线300a对应。通过比较功率曲线400与功率曲线402，可以观察到功率曲线402更平滑：语音信号的峰值405a与低谷410a之间的功率差大于组合的语音和混响信号的峰值405a与低谷410a之间的功率差。应当指出，在附图中，包括语音和混响的信号可以与原始信号呈现出类似的快“攻击”或开始，而包络的后缘或衰减会由于混响能量的添加而显著延长。

图5是指示在变换到频域中之后图4的功率曲线的图。各种类型的算法可以被用于这种变换。在这个例子中，变换是根据以下等式进行的快速傅立叶变换(FFT)：

Z_{m} = Σ_{n = 1}^{N} Y_{n} e^{- i 2 π m n / N}, m = 1 ... N

(等式1)

在等式1中，n代表时间样本，N代表时间样本的总数并且m代表输出Z_m的个数。等式1是关于信号的离散变换给出的。应当指出，生成分带(banded)振幅(Y_n)集合的处理以与初始变换或频域块速率相关的速率(例如20ms)发生。因此，项Z_m可以关于与振幅的基础采样速率(在这个例子中，20ms)关联的频率来解释。以这种方式，Z_m可以对照物理相关频率标度(Hz)来绘制。这种映射的细节在本领域是众所周知的并且在图上使用时提供更大的清晰度。

曲线505表示功率曲线400的频率成分，其与干净语音信号的振幅调制曲线200a对应。曲线510表示功率曲线402的频率成分，其与组合的语音和混响信号的振幅调制曲线300a对应。照此，曲线505和510可以被看作表示对应的振幅调制谱的频率成分。

可以观察到，曲线505在5和10Hz之间达到峰值。这是人类语音的典型平均节奏，其一般在5-10Hz的范围内。通过比较曲线505与曲线510，可以观察到，将混响信号包括进“干净”语音信号趋于降低振幅调制谱的平均频率。换句话说，混响信号趋于遮掩振幅调制谱中用于语音信号的较高频成分。

发明人发现，计算并评估音频信号的对数功率可以进一步增强干净语音信号与和混响信号组合的语音信号之间的区别。图6是图2的语音信号的对数功率以及图3的组合的语音和混响信号的对数功率的图。对数功率曲线600与“干净”语音信号的振幅调制曲线200a对应，而对数功率曲线602与组合的语音和混响信号的振幅调制曲线300a对应。通过比较对数功率曲线600和602与图4的功率曲线400和402，可以观察到，计算对数功率进一步区分干净语音信号与和混响信号组合的语音信号。

图7是指示在变换到频域之后图6的对数功率曲线的图。在这个例子中，对数功率的变换是根据以下等式计算的：

{Z^{'}}_{m} = Σ_{n = 1}^{N} \log (Y_{n}) e^{- i m n / N}, m = 1 ... N

(等式2)

在等式2中，对数的底数可以根据具体的实现方式而变，导致根据选定的底数的标度的变化。曲线705表示对数功率曲线600的频率成分，其与干净语音信号的振幅调制曲线200a对应。曲线710代表对数功率曲线602的频率成分，其与组合的语音和混响信号的振幅调制曲线300a对应。因此，曲线705和710可以被看作表示对应振幅调制谱的频率成分。

通过比较曲线705与曲线710，可以再次注意到，将混响信号包括进语音信号趋于降低振幅调制谱的平均频率。本文所描述的一些音频数据处理方法采用以上提到的观察中的至少一些来缓解音频数据中的混响。但是，以下所述的用于缓解混响的各种方法涉及分析音频数据的子带，而不是如上所述的分析宽带音频数据。

图8A和8B是语音信号的低频子带和高频子带的声压的图。例如，在图8A中表示的低频子带可以包括在0-250Hz、0-500Hz等范围内的时域音频数据。振幅调制曲线200b表示在低频子带内“干净”语音信号的振幅的包络，而振幅调制曲线300b表示在低频子带内干净语音信号和混响信号的振幅的包络。如以上参考图4所指出的，向干净语音信号添加混响信号使振幅调制曲线300b比振幅调制曲线200b更平滑。

在图8B中表示的高频子带可以包括高于4kHz、高于8kHz等的时域音频数据。振幅调制曲线200c表示在高频子带内“干净”语音信号的振幅的包络，而振幅调制曲线300c代表在高频子带内干净语音信号和混响信号的振幅的包络。向干净语音信号添加混响信号使振幅调制曲线300c比振幅调制曲线200c稍微更平滑一些，但是这种效果在图8B中表示的较高频子带内没有在图8A中表示的较低频子带中那么显著。相应地，将混响能量包括进纯语音信号的效果看起来根据子带的频率范围稍有变化。

不同子带内信号和关联的振幅的分析允许抑制增益是依赖于频率的。例如，一般而言在较高的频率对混响抑制存在更少需求。一般而言，使用多于20-30个子带会导致收益递减并且甚至导致降级的功能性。分带(banding)处理可以被选择使得与感知标度匹配，并且可以被选择使得在较高的频率增大增益估计的稳定性。

虽然图8A和8B分别表示在人类语音的低和高频率范围的频率子带，但是在振幅调制曲线200b与200c之间存在一些相似性。例如，两条曲线都具有与图2中所示曲线相似的周期性，该周期在语音节奏的正常范围内。现在将参考振幅调制曲线300b和300c描述采用这些相似性以及以上提到的区别的一些实现方式。

图9是概述用于缓解音频数据中的混响的处理的流程图。方法900的操作，就像本文所描述的其它方法一样，不一定按所指示的次序执行。而且，这些方法可以包括比所示和/或所描述的更多或更少的方框。这些方法可以至少部分地由诸如图14中所示并在以下描述的逻辑系统1410的逻辑系统实现。这种逻辑系统可以在一个或多个设备中实现，诸如以上参考图1所示并描述的设备。例如，本文所述的方法中的至少一些可以至少部分地由电话会议电话、台式电话、计算机(诸如膝上型计算机135)、服务器(诸如服务器165中的一个或多个)等等来实现。而且，这种方法可以经由其上存储了软件的非临时性介质实现。软件可以包括用于控制一个或多个设备以至少部分地执行本文所述方法的指令。

在这个例子中，方法900以可选的方框905开始，其涉及接收包括时域音频数据的信号。在这个例子中，在可选的方框910中，音频数据被变换成频域音频数据。方框905和910是可选的，因为，在一些实现方式中，音频数据可以作为包括频域音频数据而不是时域音频数据的信号被接收。

方框915涉及把频域音频数据划分成多个子带。在这种实现方式中，方框915涉及对频域音频数据应用滤波器组，以便产生用于多个子带的频域音频数据。一些实现方式可以涉及为相对少量的子带(例如在5-10个子带的范围内)产生频域音频数据。利用相对少量的子带可以提供显著更高的计算效率并且仍然可以提供混响信号的满意缓解。但是，备选实现方式可以涉及在更大量的子带中(例如在10-20个子带、20-40个子带等等的范围内)产生频域音频数据。

在这种实现方式中，方框920涉及为每个子带中的频域音频数据确定振幅调制信号值。例如，方框920可以涉及为每个子带中的频域音频数据确定功率值或对数功率值，例如，与以上在宽带音频数据的上下文下参考图4和6所描述的处理相似的方式。

在这里，方框925涉及对每个子带中的振幅调制信号值应用带通滤波器，以便为每个子带产生带通滤波的振幅调制信号值。在一些实现方式中，带通滤波器具有超过人类语音的平均节奏的中心频率。例如，在一些实现方式中，带通滤波器具有在10-20Hz范围内的中心频率。根据一些此类实现方式，带通滤波器具有大约15Hz的中心频率。应用具有超过人类语音的平均节奏的中心频率的带通滤波器可以恢复振幅调制谱中的较快速瞬变中的一些。

这个处理可以提高可理解性并且可以减小混响的感知，尤其是通过缩短之前由于房间声学而延长的语音发声的尾部。混响尾部的减小将增强信号的直接对混响比例并且由此将改善语音的可理解性。如图中所示，混响能量用来在时间上延伸或增大信号能量突发的尾缘上的信号的振幅。这种延伸与房间内给定频率上的混响水平相关。因为本文所描述的各种实现方式可以在这个尾部部分或尾缘期间创建部分减小的增益，所以结果产生的输出能量可以相对快地减小，因此呈现较短的尾部。

在一些实现中，在方框925中应用的带通滤波器根据子带而变。图10示出了用于彼此重叠的多个频带的带通滤波器的例子。在这个例子中，在方框915中产生了用于6个子带的频域音频数据。在这里，子带包括频率(f)≤250Hz、250Hz<f≤500Hz、500Hz<f≤1kHz、1kHz<f≤2kHz、2kHz<f≤4kHz以及f>4kHz。在这种实现方式中，所有带通滤波器都具有15Hz的中心频率。因为对应于每个滤波器的曲线重叠，所以可以容易地观察到，随着子带频率增大，带通滤波器变得越来越窄。相应地，在这个例子中，在较低频率子带内应用的带通滤波器比在较高频率子带内应用的带通滤波器通过更大的频率范围。

关于对语音和房间声学的应用的两个观察值得注意。较低频率的语音成分一般具有稍低的节奏，因为，与相对短时间的辅音相比，需要相对更多的肌肉组织来产生较低频率的音素(诸如元音)。在较低的频率，房间的声学响应趋于具有更长的混响时间或尾部。在本文所提供的一些实现方式中，从以下描述的增益等式得出结论：更大的抑制可以在带通滤波器不经过或者其衰减振幅信号的振幅调制谱区域发生。因此，本文提供的一些滤波器拒绝或衰减振幅调制信号中的较低频率成分中的一些。带通滤波器的上限一般不关键并且在一些实施例中可以变化。在这里给出其是因为其导致设计的方便和滤波器特性。

根据一些实现方式，应用到振幅调制信号的带通滤波器的带宽对于对应于具有较低声学频率的输入信号的频带更大。这种设计特性对较低频率声学信号中的一般较低范围的振幅调制谱成分进行校正。扩展这个带宽会有助于减少会在较低共振峰(formant)和基频带中发生的假象，例如，这是由于混响抑制太过侵略性并且开始除去或抑制由于持续的音素所产生的音频的尾部。持续的音素的除去(对于较低频率的音素更常见)是不期望的，而持续的声学或混响成分的衰减是期望的。解决这两个目标是困难的。因此，为了混响抑制和对语音影响的期望的平衡，应用到较低分带声学成分的振幅谱信号的带宽可以被微调。

在一些实现方式中，在方框925中应用的带通滤波器是无限脉冲响应(IIR)滤波器或其它线性时不变滤波器。但是，方框925可以涉及应用其它类型的滤波器，诸如有限脉冲响应(FIR)滤波器。相应地，不同的滤波方法可以被用来在滤波后的、分带振幅信号中实现期望的振幅调制频率选择性。一些实施例使用具有有用属性的椭圆滤波器设计。对于实时实现方式，滤波器延迟应当是低或最小相位设计。备选实施例使用具有组延迟的滤波器。例如，如果未滤波的振幅信号被适当延迟，则这种实施例可以被使用。滤波器类型和设计是潜在调整和微调的领域。

再次返回图9，方框930涉及为每个子带确定增益。在这个例子中，增益是至少部分地基于振幅调制信号值(未过滤的振幅调制信号值)和带通滤波后的振幅调制信号值的函数的。在这种实现方式中，在方框935中，在方框930中确定的增益在每个子带中应用。

在一些实现方式中，在方框930中应用的函数包括形式为R10^A的表达式。根据一些此类实现方式，R与带通滤波后的振幅调制信号值除以未滤波的振幅调制信号值成比例。在一些例子中，指数A与子带中每个样本的振幅调制信号值减去带通滤波后的振幅调制信号值成比例。指数A可以包括指示抑制率的值(例如，常量)。

在一些实现方式中，值A指示到发生抑制的点的偏移量。具体而言，当A增大时，可能需要滤波后的与未滤波的振幅谱中的更高差值(一般而言对应于更高强度的语音活动)，以便让这个项变得显著。在这种偏移量处，这个项开始妨碍(workagainst)从第一个项R暗示的抑制。在这么做的时候，暗示的成分A会对禁用用于更大声信号的混响抑制的活动有用。这是一些实现方式的方便、谨慎和显著的方面。更大声水平的输入信号可以与不具有混响的语音的开始或较早成分关联。特别地，由于水平的差异，持续的大声音素可以在某种程度上与持续的房间响应区分。项A将成分和信号水平的依赖性引入混响抑制增益，发明人相信这是新颖的。

在一些备选实现方式中，在方框930中应用的函数可以包括不同形式的表达式。例如，在一些此类实现方式中，在方框930中应用的函数可以包括除10之外的其它底数。在一种此类实现方式中，在方框930中应用的函数是R2^A形式。

确定增益可以涉及确定是应用由形式为R10^A的表达式产生的增益值还是最大抑制值。

在包括形式为R10^A的表达式的增益函数的一个例子中，增益函数g(l)根据以下等式确定：

g (l) = \frac{Y_{B P F} (k, l)}{Y (k, l)} 10^{\frac{Y (k, l) - Y_{B F F} (k, l)}{α}},

g(l)＝max(min(g(l)，1)，maxsuppression(等式3)

在等式3中，“k”表示时间并且“l”对应于频带编号。相应地，Y_BPF(k，l)表示关于时间和频带编号的带通滤波后的振幅调制信号值，并且Y(k，l)表示关于时间和频带编号的未滤波的振幅调制信号值。在等式3中，“α”表示指示抑制率的值，并且“maxsuppression”表示最大抑制值。在一些实现方式中，α可以是在.01至1范围内的常量。在一个例子中，“maxsuppression”是-9dB。

但是，等式3的这些值和特定细节仅仅是例子。为了任意的输入缩放，以及在任何语音系统中的通常存在的自动增益控制，振幅调制(Y)的相对值将是依实现方式而定的。在一种实施例中，可以选择让振幅项Y反映时域信号中的均方根(RMS)能量。例如，RMS能量可以已经被分级，使得平均的预期期望语音具有预定分贝水平的RMS，例如，大约-26dB。在这个例子中，高于-26dB的Y值(Y>0.05)将被认为大，而低于-26dB的值将被认为小。偏移量项(α)可以设置为使得较高能量的语音成分经历更少的增益抑制，否则这将从振幅谱来计算。当语音被分级并且α正确设置时，这会是有效的，因为指数项只有在峰值或开始语音活动期间是活动的。这是可以改善直接语音可理解性并且因此允许使用更侵略性混响抑制项(R)的项。如以上所指出的，α可以具有从0.01(这对于处于或高于-40dB的信号显著减小混响抑制)至1(这对于处于或高于0dB的信号显著减小混响抑制)的范围。

在等式3中，对未滤波的和带通滤波后的振幅调制信号值的操作产生不同的效果。例如，相对较高的Y(k，l)值趋于减小g(l)的值，因为它增大了R项的分母。另一方面，相对较高的Y(k，l)值趋于增大g(l)的值，因为它增大指数A项的值。可以通过修改滤波器设计来改变Y_bpf。

可以把等式3的“R”和“A”项看作两个反作用力。在第一项(R)中，较小的Y_bpf意味着期望抑制。这可以在振幅调制活动落在选定的带通滤波器之外时发生。在第二项(A)中，较高的Y(或者Y_bpf和Y-Y_bpf)意味着存在相当大声的瞬间活动，因此强加较小的抑制。相应地，在这个例子中，第一项是相对于振幅，而第二个项是绝对的。

图11是根据一些例子指示等式3的增益抑制对对数功率比的图。在这个例子中，“maxsuppression”是-9dB，这可以被看作可由等式3造成的增益抑制的“底线项”。在这个例子中，α是0.125。在图11中示出了五条不同的曲线，其对应于未滤波的振幅调制信号值Y(k，l)的五个不同值：-20dB、-25dB、-30dB、-35dB和-40dB。如图11中所指出的，随着Y(k，l)的信号强度增大，对于越来越小的Y_BPF/Y的范围，g(l)被设置为最大抑制值。例如，当Y(k，l)＝-20dB时，只有当Y_BPF/Y在零至大约0.07的范围内时，g(l)才被设置为最大抑制值。而且，对于Y(k，l)的这个值，对于超过大约0.27的Y_BPF/Y的值，不存在增益抑制。随着Y(k，l)的信号强度减小，对于越来越大的Y_BPF/Y的值，g(l)被设置为最大抑制值。

在图11中所示的例子中，当Y_BPF/Y增大至使得最大抑制值不再适用的水平时，存在相当急剧的过渡。在备选实现方式中，这种过渡被平滑。例如，在一些备选实现方式中，可以存在从恒定最大抑制值到图11中所示抑制增益值的逐步过渡。在其它实现方式中，最大抑制值可以不是常量。例如，最大抑制值可以随着Y_BPF/Y的越来越小的值而继续减小(例如，从-9dB到-12dB)。这个最大抑制水平可以被设计为随频率而变，因为在较高的声学输入频率一般存在更小的混响和必需的衰减。

本文所描述的各种方法可以结合听觉场景分析(ASA)来实现。ASA涉及用于跟踪对象(例如，“场景”中的人，诸如在图1的位置105a-105d中的参与者110)的各种参数的方法。根据ASA可以被跟踪的对象参数可以包括，但不限于，角度、扩散率(对象的混响程度)以及水平。

根据一些此类实现方式，扩散率和水平的使用可以被用来调整用于缓解音频数据中的混响的各种参数。例如，如果扩散率是在0和1之间的参数，其中0表示无混响并且1代表高度混响，则知道对象的具体扩散率特性可以被用来调整等式3(或类似等式)的“maxsuppression”项。

图12是示出最大抑制对扩散率的图的各种例子的图。在这个例子中，如等式4中所示，最大抑制处于线性形式，使得，按分贝为单位，1到0的最大抑制值范围对应于0到负无穷：

MaxSuppression_dB＝20*log₁₀(maxsuppression.(等式4)

在图12所示的实现方式中，对于越来越扩散的对象，允许最大抑制的越高的值。相应地，在这些例子中，最大抑制可以具有多个值而不是固定的值。在一些此类实现方式中，最大抑制可以根据等式5来确定：

maxsuppression＝1-diffusivity(1-lowest_suppression)(等式5)

在等式5中，“lowest_suppression”表示最大允许抑制的下限。在图12所示的例子中，线1205、1210、1215和1220分别对应于0.5、0.4、0.3和0.2的lowest_suppression值。在这些例子中，为相对更扩散的对象确定相对较高的最大抑制值。

此外，抑制程度(也被称为“抑制深度”)也可以支配对象被分级的程度。高度混响的语音常常与房间的反射特性以及距离二者相关。一般而言，我们感觉高度混响的语音是由于人从更远的距离在讲话并且我们预期语音水平将由于随距离变化的水平的衰减而更柔和。人为地把远处讲话者的水平升高至等于附近讲话者的水平会具有感觉不和谐的后果，因此基于混响抑制的抑制深度稍微减小目标水平会有助于造成感觉更一致的体验。因此，在一些实现方式中，抑制越大，目标水平越低。

在一般意义上，我们可以选择对较低水平的信号应用更多混响并且使用更长期的信息来实现此目的。这可以是除了在一般表达式中的“A”项之外的产生更直接效果的手段。因为较低水平输入的语音可以在混响抑制之前被提升到恒定的水平，所以这种使用更长期上下文来控制混响抑制的方法会有助于避免对给定房间内变化的语音对象的不必要或不足的混响抑制。

图13是提供能够缓解混响的音频处理装置的部件的例子的框图。在这个例子中，分析滤波器组1305被配置为把输入音频数据分解为M个频率子带的频域音频数据。在这里，合成滤波器组1310被配置为在音频处理系统1300的其它部件已经执行图13中所指示的操作之后把M个频率子带的音频数据重构为输出信号y[n]。元件1315-1345可被配置为提供本文所述的混响缓解功能中的至少一些。相应地，在一些实现方式中，分析滤波器组1305和合成滤波器组1310可以例如是传统音频处理系统的部件。

在这个例子中，正向分带方框1315被配置为接收从分析滤波器组1305输出的M个频率子带的频域音频数据并且输出N个频率子带的频域音频数据。在一些实现方式中，正向分带方框1315可以被配置为执行图9的方框915的处理中的至少一些。N可以小于M。在一些实现方式中，N可以大大小于M。如以上所指出的，在一些实现方式中，N可以在5-10个子带的范围内，而M可以在100-2000的范围内并且依赖于输入采样频率和变换块速率。特定的实施例在32kHz的采样速率使用20ms的块速率，从而产生640个在每个时刻创建的具体的频率项或者仓(bin)(原始FFT系数基数)。一些此类的实现方式把这些仓组合成更少数量的感知带，例如，在45-60个带的范围内。

如以上所指出的，在一些实现方式中，N可以在5-10个子带的范围内。这会是优选的，因为这种实现方式可以涉及对基本上更少的子带执行混响缓解处理，由此减小计算开销并增大处理速度和效率。

在这种实现方式中，例如，如以上参考图9的方框920所描述的，对数功率方框1320被配置成为每个子带中的频域音频数据确定振幅调制信号值。对数功率方框1320为子带0至N-1输出Y(k，l)值。在这个例子中，Y(k，l)值是对数功率值。

在这里，诸如以上参考图9的方框925和/或图10所描述的，带通滤波器1325被配置为接收子带0至N-1的Y(k，l)值并且执行带通滤波操作。相应地，带通滤波器1325为子带0至N-1输出Y_BPF(k，l)值。

在这种实现方式中，增益计算方框1330被配置为接收子带0至N-1的Y(k，l)值和Y_BPF(k，l)值并且为每个子带确定增益。增益计算方框1330可以例如被配置为根据处理(诸如以上参考图9的方框930、图11和/或图12所描述的处理)为每个子带确定增益。在这个例子中，正则化(regularization)方框1335被配置为用于对每个子带的增益值应用平滑函数，其中增益值是从增益计算方框1330输出的。

在这种实现方式中，增益将最终应用到由分析滤波器组1305输出的M个子带的频域音频数据。因此，在这个例子中，逆向分带方框1340被配置为接收从正则化方框1335输出的用于N个子带中每一个的经平滑的增益值并且输出用于M个子带的经平滑的增益值。在这里，增益应用模块1345被配置为把由逆向分带方框1340输出、经平滑的增益值应用到由分析滤波器组1305输出的M个子带的频域音频数据。在这里，合成滤波器组1310被配置为利用由增益应用模块1345修改的增益值把M个频率子带的音频数据重构为输出信号y[n]。

图14是提供音频处理装置的部件的例子的框图。在这个例子中，设备1400包括接口系统1405。接口系统1405可以包括诸如无线网络接口之类的网络接口。作为替代，或者附加地，接口系统1405可以包括通用串行总线(USB)接口或者另一种此类接口。

设备1400包括逻辑系统1410。逻辑系统1410可以包括诸如通用的单-或多-芯片处理器之类的处理器。逻辑系统1410可以包括数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑或分立硬件组件或者其组合。逻辑系统1410可被配置为控制设备1400的其它部件。虽然在图14中没有在设备1400的部件之间示出接口，但是逻辑系统1410可被配置为具有用于与其它部件进行通信的接口。视情况而定，其它部件可以或可以不被配置为彼此通信。

逻辑系统1410可被配置成执行音频处理功能，包括但不限于本文所述的混响缓解功能。在一些此类实现方式中，逻辑系统1410可被配置为(至少部分地)根据存储在一个或多个非临时性介质上的软件来操作。非临时性介质可以包括与逻辑系统1410关联的存储器，诸如随机存取存储器(RAM)和/或只读存储器(ROM)。非临时性介质可以包括存储器系统1415的存储器。存储器系统1415可以包括一种或多种合适类型的非临时性存储介质，诸如闪存、硬驱等。

依赖于设备1400的表现形式，显示系统1430可以包括一种或多种合适类型的显示器。例如，显示系统1430可以包括液晶显示器、等离子体显示器、双稳态显示器等。

用户输入系统1435可以包括被配置为接受来自用户的输入的一个或多个设备。在一些实现方式中，用户输入系统1435可以包括覆盖在显示系统1430的显示器上的触摸屏。用户输入系统1435可以包括鼠标、轨迹球、姿势检测系统、操纵杆、一个或多个GUI和/或在显示系统1430上呈现的菜单、按钮、键盘、开关等。在一些实现方式中，用户输入系统1435可以包括麦克风1425：用户可以经由麦克风1425提供用于设备1400的语音命令。逻辑系统可被配置为根据这种语音命令进行语音识别并控制设备1400的至少一些操作。

电力系统1440可以包括一种或多种合适的能量存储设备，诸如镍-镉(nickel-cadmium)电池或锂离子(lithium-ion)电池。电力系统1440可被配置成从电源插座接收电力。

对在本公开内容中描述的实现方式的各种修改对本领域普通技术人员会是清楚的。在不背离本公开内容的精神或范围的情况下，本文定义的一般原理可以应用到其它实现方式。因此，权利要求不是要局限到本文所示的实现方式，而是要符合与本文公开的本公开、原理和新颖特征一致的最广范围。

Claims

1.一种方法，包括：

接收包括频域音频数据的信号；

对频域音频数据应用滤波器组，以便产生在多个子带内的频域音频数据；

为每个子带中的频域音频数据确定振幅调制信号值；

对每个子带中的振幅调制信号值应用带通滤波器，以便为每个子带产生带通滤波后的振幅调制信号值，该带通滤波器具有超过人类语音的平均节奏的中心频率；

至少部分地基于振幅调制信号值和带通滤波后的振幅调制信号值的函数为每个子带确定增益；以及

对每个子带应用所确定的增益。

2.如权利要求1所述的方法，其中，确定振幅调制信号值的处理涉及为每个子带中的频域音频数据确定对数功率值。

3.如权利要求1或权利要求2所述的方法，其中，与用于较高频率子带的带通滤波器相比，用于较低频率子带的带通滤波器通过更大的频率范围。

4.如权利要求1-3中任何一项所述的方法，其中，用于每个子带的带通滤波器具有在10-20Hz范围内的中心频率。

5.如权利要求4所述的方法，其中，用于每个子带的带通滤波器具有大约15Hz的中心频率。

6.如权利要求1-5中任何一项所述的方法，其中，所述函数包括形式为R10^A的表达式。

7.如权利要求6所述的方法，其中，R与子带中每个样本的带通滤波后的振幅调制信号值除以振幅调制信号值成比例。

8.如权利要求6所述的方法，其中，A与子带中每个样本的振幅调制信号值减去带通滤波后的振幅调制信号值成比例。

9.如权利要求6所述的方法，其中，A包括指示抑制率的常量。

10.如权利要求6所述的方法，其中，确定增益涉及确定是应用通过形式为R10^A的表达式产生的增益值还是应用最大抑制值。

11.如权利要求10所述的方法，还包括：

确定对象的扩散率；以及

至少部分地基于扩散率为对象确定最大抑制值。

12.如权利要求11所述的方法，其中，为相对较扩散的对象确定相对较高的最大抑制值。

13.如权利要求1-12中任何一项所述的方法，其中，应用滤波器组的处理涉及产生在5-10的范围内的个数的子带的频域音频数据。

14.如权利要求1-13中任何一项所述的方法，其中，应用滤波器组的处理涉及产生在10-40的范围内的个数的子带的频域音频数据。

15.如权利要求1-14中任何一项所述的方法，还包括在对每个子带应用所确定的增益之后应用平滑函数。

16.如权利要求1-15中任何一项所述的方法，还包括：

接收包括时域音频数据的信号；及

把时域音频数据变换成频域音频数据。

17.一种其上存储了软件的非临时性介质，该软件包括用于控制至少一个装置以便执行以下操作的指令：

接收包括频域音频数据的信号；

为每个子带中的频域音频数据确定振幅调制信号值；

对每个子带应用所确定的增益。

18.如权利要求17所述的非临时性介质，其中，确定振幅调制信号值的处理涉及为每个子带中的频域音频数据确定对数功率值。

19.如权利要求17或权利要求18所述的非临时性介质，其中，与用于较高频率子带的带通滤波器相比，用于较低频率子带的带通滤波器通过更大的频率范围。

20.如权利要求17-19中任何一项所述的非临时性介质，其中，用于每个子带的带通滤波器具有在10-20Hz范围内的中心频率。

21.如权利要求20所述的非临时性介质，其中，用于每个子带的带通滤波器具有大约15Hz的中心频率。

22.如权利要求17-21中任何一项所述的非临时性介质，其中，所述函数包括形式为R10^A的表达式。

23.如权利要求22所述的非临时性介质，其中，R与子带中每个样本的带通滤波后的振幅调制信号值除以振幅调制信号值成比例。

24.如权利要求22所述的非临时性介质，其中，A与子带中每个样本的振幅调制信号值减去带通滤波后的振幅调制信号值成比例。

25.如权利要求22所述的非临时性介质，其中，A包括指示抑制率的常量。

26.如权利要求22所述的非临时性介质，其中，确定增益涉及确定是应用通过形式为R10^A的表达式产生的增益值还是应用最大抑制值。

27.如权利要求26所述的非临时性介质，其中软件包括用于控制至少一个装置以便执行以下操作的指令：

确定对象的扩散率；以及

至少部分地基于扩散率为对象确定最大抑制值。

28.如权利要求27所述的非临时性介质，其中，为相对较扩散的对象确定相对较高的最大抑制值。

29.如权利要求17-28中任何一项所述的非临时性介质，其中，应用滤波器组的处理涉及产生在5-10的范围内的个数的子带的频域音频数据。

30.如权利要求17-29中任何一项所述的非临时性介质，其中，应用滤波器组的处理涉及产生在10-40范围内的个数的子带的频域音频数据。

31.如权利要求17-30中任何一项所述的非临时性介质，其中，软件包括用于控制所述至少一个装置以便在对每个子带应用所确定的增益之后应用平滑函数的指令。

32.一种装置，包括：

接口系统；以及

逻辑系统，能够：

经由接口系统，接收包括频域音频数据的信号；

为每个子带中的频域音频数据确定振幅调制信号值；

对每个子带应用所确定的增益。

33.如权利要求32所述的装置，其中，确定振幅调制信号值的处理涉及为每个子带中的频域音频数据确定对数功率值。

34.如权利要求32或权利要求33所述的装置，其中，与用于较高频率子带的带通滤波器相比，用于较低频率子带的带通滤波器通过更大的频率范围。

35.如权利要求32-34中任何一项所述的装置，其中，用于每个子带的带通滤波器具有在10-20Hz范围内的中心频率。

36.如权利要求35所述的装置，其中，用于每个子带的带通滤波器具有大约15Hz的中心频率。

37.如权利要求32-36中任何一项所述的装置，其中，所述函数包括形式为R10^A的表达式。

38.如权利要求37所述的装置，其中，R与子带中每个样本的带通滤波后的振幅调制信号值除以振幅调制信号值成比例。

39.如权利要求37所述的装置，其中，A与子带中每个样本的振幅调制信号值减去带通滤波后的振幅调制信号值成比例。

40.如权利要求37所述的装置，其中，A包括指示抑制率的常量。

41.如权利要求37所述的装置，其中，确定增益涉及确定是应用通过形式为R10^A的表达式产生的增益值还是应用最大抑制值。

43.如权利要求41所述的装置，其中，逻辑系统还能够：

确定对象的扩散率；以及

至少部分地基于扩散率为对象确定最大抑制值。

44.如权利要求43所述的装置，其中，为相对较扩散的对象确定相对较高的最大抑制值。

45.如权利要求32-44中任何一项所述的装置，其中，应用滤波器组的处理涉及产生在5-10的范围内的个数的子带的频域音频数据。

46.如权利要求32-45中任何一项所述的装置，其中，应用滤波器组的处理涉及产生在10-40的范围内的个数的子带的频域音频数据。

47.如权利要求32-46中任何一项所述的装置，其中，逻辑系统还能够在对每个子带应用所确定的增益之后应用平滑函数。

48.如权利要求32-15中任何一项所述的装置，其中，逻辑系统还能够：

接收包括时域音频数据的信号；以及

把时域音频数据变换成频域音频数据。

49.如权利要求32-48中任何一项所述的装置，其中，逻辑系统包括以下项当中的至少一种：通用的单芯片处理器或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管逻辑或者分立硬件部件。

50.如权利要求32-49中任何一项所述的装置，还包括存储器设备，其中，接口系统包括逻辑系统与存储器设备之间的接口。

51.如权利要求32-50中任何一项所述的装置，其中，接口系统包括网络接口。