CN116997960A - 音频信号技术领域的多频带闪避 - Google Patents
音频信号技术领域的多频带闪避 Download PDFInfo
- Publication number
- CN116997960A CN116997960A CN202280021662.XA CN202280021662A CN116997960A CN 116997960 A CN116997960 A CN 116997960A CN 202280021662 A CN202280021662 A CN 202280021662A CN 116997960 A CN116997960 A CN 116997960A
- Authority
- CN
- China
- Prior art keywords
- evasion
- audio signal
- frequency bands
- gains
- gain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Stereophonic System (AREA)
Abstract
提供了一种用于音频信号的多频带闪避的方法。在一些实施方式中,所述方法涉及在解码器处接收输入音频信号,其中,所述输入音频信号是下混音频信号。在一些实施方式中,所述方法涉及将所述输入音频信号分成第一组频带。在一些实施方式中,所述方法涉及确定一组闪避增益,闪避增益对应于所述第一组频带中的频带。在一些实施方式中,所述方法涉及生成宽带去相关音频信号,其中,该组闪避增益中的闪避增益被应用于以下各项中的至少一项:1)在生成所述至少一个宽带去相关音频信号之前的第二组频带;或者2)将所述至少一个宽带去相关音频信号分隔开的第三组频带。
Description
相关申请的交叉引用
本申请要求于2022年03月08日提交的美国临时申请63/268,991以及于2021年04月06日提交的美国临时申请63/171,219的优先权,所有这些申请均通过引用以其整体并入本文。
本公开涉及用于音频信号的多频带闪避(ducking)的系统、方法和介质。
背景技术
例如,可以执行音频信号的闪避以衰减各种类型的信号,如瞬变信号。然而,传统上执行的音频信号的闪避可能导致各种伪影,如振铃伪影、渲染空间场景时不期望的伪影等。
符号和术语
贯穿本公开,包括在权利要求书中,术语“扬声器(speaker)”、“扩音器(loudspeaker)”和“音频再现换能器”同义地用于表示任何发声换能器或一组换能器。一套典型的耳机包括两个扬声器。扬声器可以被实施为包括多个换能器(如低音扬声器和高音扬声器),所述换能器可以由单个公共扬声器馈送或多个扬声器馈送驱动。在一些示例中,(多个)扬声器馈送可以在耦接到不同换能器的不同电路分支中经历不同处理。
贯穿本公开,包括在权利要求中,在广义上使用“对”信号或数据执行操作的表达(如对信号或数据进行滤波、缩放、变换或应用增益)来表示直接对信号或数据执行操作或者对信号或数据的已处理版本执行操作。例如,可以对信号的在对其执行操作之前已经经过初步滤波或预处理的版本执行操作。
贯穿本公开,包括在权利要求中,在广义上使用表达“系统”来表示设备、系统或子系统。例如,实施解码器的子系统可以被称为解码器系统,并且包括这样的子系统的系统(例如,响应于多个输入而生成X个输出信号的系统,其中,所述子系统生成M个输入,而其他X-M个输入是从外部源接收的)也可以被称为解码器系统。
贯穿本公开,包括在权利要求中,在广义上使用术语“处理器”来表示可编程或以其他方式可配置(如用软件或固件)为对数据(其可以包括音频或视频或其他图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其他可配置集成电路或芯片组)、被编程和/或以其他方式被配置成对音频或其他声音数据执行流水线式处理的数字信号处理器、可编程通用处理器或计算机、以及可编程微处理器芯片或芯片组。
发明内容
本公开的至少一些方面可以经由方法来实施。一些方法可以涉及在解码器处接收输入音频信号,其中,所述输入音频信号是下混音频信号。一些方法可以涉及将所述输入音频信号分成第一组频带。一些方法可以涉及确定一组闪避增益,该组闪避增益中的闪避增益对应于所述第一组频带中的频带。一些方法可以涉及生成至少一个宽带去相关音频信号,其中,所述至少一个宽带去相关音频信号可用于对所述下混音频信号进行上混,并且其中,该组闪避增益中的闪避增益被应用于以下各项中的至少一项:1)在生成所述至少一个宽带去相关音频信号之前的第二组频带;或者2)将所述至少一个宽带去相关音频信号分隔开的第三组频带。
在一些示例中,该组闪避增益包括一组输入闪避增益,并且所述方法进一步包括在生成所述至少一个宽带去相关音频信号之前将该组输入闪避增益中的输入闪避增益应用于所述第二组频带。在一些示例中,与所述第二组频带中的频带相关联的闪避信号被聚合以生成宽带闪避信号,所述宽带闪避信号被提供给去相关器,所述去相关器被配置成生成所述至少一个宽带去相关音频信号。
在一些示例中,所述第一组频带和所述第二组频带是同一组频带的两个实例。
在一些示例中,该组闪避增益包括一组输出闪避增益,一些方法可以进一步涉及:将该组输出闪避增益中的输出闪避增益应用于所述第三组频带,以生成至少一组闪避去相关音频信号,所述至少一组闪避去相关音频信号中的每个闪避去相关音频信号对应于所述第三组频带中的频带;以及使所述至少一组闪避去相关音频信号中的闪避去相关音频信号聚合,以生成至少一个宽带闪避去相关音频信号,所述至少一个宽带闪避去相关音频信号能够用于对所述下混音频信号进行上混。
在一些示例中,确定该组闪避增益包括:确定一个或多个初始闪避增益;以及修改所述一个或多个初始闪避增益中的至少一个以生成该组闪避增益,其中,所述一个或多个初始闪避增益中的至少一个是通过执行更新和/或释放控制来修改的。
在一些示例中,对于所述第一组频带中的频带,基于包括两个包络跟踪器的输出的比率来确定对应的闪避增益,所述两个包络跟踪器对应于慢包络跟踪器和快包络跟踪器。在一些示例中,所述慢包络跟踪器包括绝对值计算块和第一低通滤波器,并且其中,所述快包络跟踪器包括所述绝对值计算块和第二低通滤波器,所述第一低通滤波器和所述第二低通滤波器具有不同的时间常数。在一些示例中,一些方法可以进一步涉及将高通滤波器应用于所述第一组频带中的至少一个频带,其中,所述高通滤波器的输出被提供给所述两个包络跟踪器中的至少一个。在一些示例中,所述高通滤波器被应用于所述第一组频带中的两个或更多个频带,并且其中,应用于所述两个或更多个频带中的第一频带的高通滤波器与应用于所述两个或更多个频带中的第二频带的高通滤波器具有不同的截止频率。在一些示例中,所述慢包络跟踪器的第一低通滤波器的时间常数比所述快包络跟踪器的第二低通滤波器的时间常数长,并且其中,所述比率包括所述慢包络跟踪器的输出与所述快包络跟踪器的输出之比。在一些示例中,所述慢包络跟踪器的第一低通滤波器的时间常数比所述快包络跟踪器的第二低通滤波器的时间常数长,并且其中,所述比率包括所述快包络跟踪器的输出与所述慢包络跟踪器之比。在一些示例中,所述比率包括特定于所述第一组频带中的频带的常数,所述常数被选择为控制以下各项中的至少一项:1)应用于所述第二组频带中的每个频带的闪避增益量;或者2)应用于所述第三组频带中的每个频带的闪避增益量。
在一些示例中,将所述输入音频信号分成所述第一组频带包括将所述输入音频信号提供给滤波器组。在一些示例中,所述滤波器组被实施为无限脉冲响应(IIR)滤波器组或有限脉冲响应(FIR)滤波器组。
在一些示例中,所述第一组频带、所述第二组频带和/或所述第三组频带包括三个频带。
在一些示例中,所述第一组频带与所述第三组频带相同。
在一些示例中,所述至少一个宽带去相关信号包括两个或更多个宽带去相关信号。
在一些示例中,一些方法进一步涉及使用所述至少一个宽带去相关信号和在所述解码器处接收到的元数据来对所述下混音频信号进行上混,以生成重建的音频信号。在一些示例中,一些方法进一步涉及渲染所述重建的音频信号以生成经渲染音频信号。在一些示例中,一些方法进一步涉及使用以下各项中的一项或多项来呈现所述经渲染音频信号:扩音器或耳机。
本文描述的一些或所有操作、功能和/或方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如,软件)来执行。这种非暂态介质可以包括如本文描述的存储器设备,包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。因此,可以经由其上存储有软件的一种或多种非暂态介质来实施本公开内容中描述的主题的一些创新方面。
本公开的至少一些方面可以经由装置来实施。例如,一个或多个设备可以能够至少部分地执行本文公开的方法。在一些实施方式中,装置是或包括具有接口系统和控制系统的音频处理系统。控制系统可以包括一个或多个通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑、离散硬件部件或其组合。
在以下附图和说明中阐述了本说明书中所描述的主题的一个或多个实施方式的细节。从说明书、附图和权利要求中,其他特征、方面和优点将变得显而易见。注意,以下附图的相对尺寸可能不是按比例来绘制的。
附图说明
图1是根据一些实施例的示例多声道编解码器的框图。
图2是根据一些实施例的解码器的一部分的框图,所述解码器包括去相关器与用于实施多频带闪避的闪避器的实例。
图3是根据一些实施例的可以用于实施多频带闪避的闪避器的实例的框图。
图4是根据一些实施例的可以用于实施多频带闪避的示例滤波器组的频率响应的曲线图。
图5是根据一些实施例的可以由解码器执行的用于执行多频带闪避的示例过程的流程图。
图6图示了根据一些实施例的沉浸式语音和音频服务(IVAS)系统的示例用例。
图7示出了图示能够实施本公开的各个方面的装置的部件的示例的框图。
在各个附图中,相似的附图标记和名称指示相似的元件。
具体实施方式
去相关器通常在利用多声道音频编解码器(如立体声音频编解码器、参数立体声、AC-4等)的解码器设备中使用。特别地,在编码器处,可以将N个声道输入下混为M个声道,其中,N>M。这M个下混声道和辅助信息被编码成比特流并传输到解码器。解码器然后可以对这M个声道和辅助信息进行解码,并利用辅助信息来上混或重建这N个声道。特别地,解码器设备的去相关器可以生成N-M个去相关信号。解码器然后可以利用这M个下混声道、这N-M个去相关信号和辅助信息来获得原始N个声道的近似重建。换句话说,通过生成原始N个声道的近似重建,解码器可以重建原始空间音频场景。
举例来说,在立体声音频的情况下,其中,N对应于两个声道,并且其中,M对应于一个下混声道,去相关器可以生成一个去相关信号。解码器然后可以使用这一个去相关信号、这一个下混声道和辅助信息来重建原始的两个音频信号的表示。作为另一示例,在N是四个声道(如一阶高保真立体声(FOA)信号的声道W、X、Y、Z)并且M是一个下混声道的情况下,去相关器可以生成三个去相关信号。解码器可以利用这三个去相关信号来重建原始空间音频场景。
一般而言,去相关器可以用于将输入音频信号变换成一个或多个不相关的输出信号,这可以获得可控的宽度、空间或扩散感,而其他感知属性保持不变。相应地,去相关器对于重建具有空间分量的音频信号可能是有用的。图1图示了利用解码器中的去相关器来重建经编码音频信号的编解码器的特定示例。
图1是根据实施例的用于对IVAS比特流进行编码和解码的沉浸式语音和音频服务(IVAS)编解码器150的框图。IVAS编解码器150包括编码器和远端解码器。IVAS编码器包括空间分析和下混单元152、量化和熵编码单元153、核心编码单元156和模式/比特率控制单元157。IVAS解码器包括量化和熵解码单元154、核心解码单元158、空间合成/渲染单元159和去相关器单元161。
空间分析和下混单元152接收表示音频场景的N个声道输入音频信号151。输入音频信号151包括但不限于:单声道信号、立体声信号、双耳信号、空间音频信号(例如,多声道空间音频对象)、FOA、更高阶高保真立体声(HOA)和任何其他音频数据。空间分析和下混单元152将这N个声道输入音频信号151下混为指定数量的下混声道(M)。在该示例中,M<=N。空间分析和下混单元152还生成辅助信息(例如,空间元数据),所述辅助信息可以由远端IVAS解码器用于从解码器处生成的M个下混声道、空间元数据和去相关信号合成N个声道输入音频信号151。在一些实施例中,空间分析和下混单元152实施用于分析/下混立体声/FOA音频信号的复杂高级耦接(CACPL)和/或用于分析/下混FOA音频信号的空间重建器(SPAR)。在其他实施例中,空间分析和下混单元152实施其他格式。
这M个声道由包括在核心编码单元156中的核心编解码器的一个或多个实例进行编码。辅助信息(例如,空间元数据(MD))由量化和熵编码单元153进行量化和编码。经编码比特然后被一起打包成(多个)IVAS比特流,并且被发送到IVAS解码器。在实施例中,底层核心编解码器可以是可以用于生成经编码比特流的任何合适的单声道、立体声或多声道编解码器。
在一些实施例中,核心编解码器是EVS编解码器。EVS编码单元156符合3GPP TS26.445,并且提供广泛的功能,如窄带(EVS-NB)和宽带(EVS-WB)言语服务的增强质量和编码效率、使用超宽带(EVS-SWB)言语的增强质量、会话应用中的混合内容和音乐的增强质量、对分组丢失和延迟抖动的稳健性以及对AMR-WB编解码器的向后兼容性。
在解码器处,这M个声道由包括在核心解码单元158中的核心编解码器的对应的一个或多个实例进行解码,并且辅助信息由量化和熵解码单元154进行解码。如FOA信号格式的W声道等主要下混声道被馈送到去相关器单元161,所述去相关器单元生成N-M个去相关声道。这M个下混声道、N-M个去相关声道和辅助信息被馈送到空间合成/呈渲染单元1 59,所述空间合成/渲染单元使用这些输入来合成或重新生成原始的N个声道输入音频信号,所述原始的N个声道输入音频信号可以由音频设备160呈现。在实施例中,M个声道由除EVS之外的单声道编解码器进行解码。在其他实施例中,M个声道由一个或多个多声道核心编码单元和一个或多个单声道核心编码单元的组合进行解码。
下面给出了具有一次声道下混的FOA输入音频信号的编码的示例实施方式。对于1声道被动下混配置,只对W声道、P(p1,p2,p3)参数和Pd(d1,d2,d3)参数进行编码并将其发送到解码器。P对应于指示可以根据W声道预测多少侧声道(Y、X和Z)的预测系数。Pd参数指示去掉预测分量后Y、X和Z声道中的剩余能量。
在被动下混编码方案中,侧声道Y、X和Z在解码器处根据所传输的下混W声道来预测;使用三个预测参数P来预测。侧声道中的丢失能量通过使用去相关参数Pd添加去相关下混D(W)的缩放版本来填充。对于被动下混,FOA输入的重建可以由下式确定:
Upas=pW+PdD(W),
其中,p=[1 p1 p2 p3]T且Pd=[0 d1 d2 d3]T,并且D(W)描述了具有作为去相关器块的输入提供的W声道的去相关器输出。Upas是解码器处的重建FOA输出。注意,假设去相关器是完美的并且没有进行预测和去相关器参数的量化,则该方案在输入协方差矩阵方面实现了完美的重建。
在示例编码器实施方式中,Y声道的预测系数可以由下式确定:
在上面给出的等式中,RYW是W和Y声道的协方差,并且RWW是W声道的方差。
类似地,可以确定对其他侧声道(p2用于X声道并且p3用于Z声道)的预测。
剩余侧声道可以由下式确定:
Y′=Y-p1*W
X′=X-p2*W
Z′=Z-p3*W
在示例实施方式中,Y声道的去相关参数d1由下式确定:
此处,RY′Y′是剩余声道Y’的方差,并且RWW是W声道的方差。类似地,可以确定其他剩余的侧声道(d2用于X’声道并且d3用于Z’声道)的去相关参数。
去相关器的一个潜在问题是,输入音频信号中的瞬变可能在输出声道中随时间而模糊。举例来说,如敲击声或其他类型的瞬变等瞬变可能在由去相关器生成的多个声道中随时间而模糊,这可能在具有瞬变的帧中添加不期望的混响。另一个问题是,即使当输入信号突然偏移时由去相关器生成的去相关信号仍可能具有相当大的能量。应当注意,如本文所使用的,术语“偏移”通常用于指音频信号的主要元素或分量的结束或停止。换句话说,在去相关器的输入信号包括突然停止或偏移的情况下,去相关信号可能包括使偏移模糊的相当大的能量。这进而可能在基于去相关信号生成的重建信号中产生伪影。
闪避可以用于在将输入音频信号提供给去相关器之前闪避或衰减瞬变。例如,在生成(多个)去相关信号之前闪避瞬变可以防止瞬变在(多个)生成的去相关信号中随时间而模糊。类似地,在输入音频信号中存在偏移的情况下,可以对去相关器的输出执行闪避以衰减(多个)去相关信号。然而,闪避传统上是在宽带的基础上执行的。换句话说,音频信号的所有频带以相同的增益被闪避。这可能会产生伪影并降低音频质量。例如,在存在瞬变的情况下,以宽带方式对输入音频信号应用闪避增益可以闪避高频内容,由于瞬变,这可能是期望的。然而,以宽带方式应用闪避增益还可能闪避如低音等较低频率的内容,这可能降低整体音频质量和/或在整体音频内容中产生失真。为了解决在所有频带上等效应用闪避的问题,当使用多频带去相关器时,一些传统技术可以在频带域中应用闪避。然而,由于实施去相关器的计算复杂性,因此实施去相关器的多个实例(每个实例在不同的频带上操作)可能大大增加计算复杂性,从而导致计算资源的过度使用等。
本文描述了用于在每频带的基础上应用闪避增益的技术。特别地,闪避增益是在逐个频带的基础上确定和应用的。例如,这可以允许与高频内容相比对低频内容不同地应用闪避增益。在一些实施方式中,闪避增益可以是在将输入音频信号提供给去相关器之前应用于输入音频信号的输入闪避增益。输入闪避增益可以用于在瞬变被提供给去相关器之前闪避瞬变信号,从而防止瞬变“进入”去相关器。在一些实施方式中,闪避增益可以另外地或替代性地是应用于由去相关器生成的去相关信号的输出闪避增益。输出闪避增益可以用于闪避(多个)生成的去相关信号中与输入信号中的偏移相对应的持续信号,从而恢复(多个)去相关信号中的输入信号的偏移。应当注意,尽管闪避增益可以在每个频带的基础上确定和应用,但是去相关可以在宽带的基础上执行。因为去相关器实施起来可能计算量大,所以在宽带基础上执行去相关的同时在每个频带的基础上应用闪避可以通过仅实施去相关器的一个实例来提高计算效率,同时通过以考虑音频内容的频率的选择性方式应用闪避增益来提高整体音频质量。
图2图示了根据一些实施例的可以由解码器用于实施多频带闪避的示例系统的框图。应该注意,图2所示系统的各种块可以使用设备的一个或多个控制系统(如图7中示出并且下面结合该图描述的控制系统)来实施。如图2所示,输入音频信号或输入音频信号帧被提供给第一滤波器组202(其在图2中被描绘为“滤波器组A”)。在一些实施方式中,第一滤波器组202可以将输入音频信号分成任何合适数量的频带,如两个频带、三个频带、八个频带、十个频带、16个频带等。在图2所示的示例中,第一滤波器组202将输入音频信号分成三个频带,这三个频带可以分别对应于低频、中频和高频。涉及三个频带的实施方式的频率范围的示例在图4中示出并在下面描述。
每个频带可以被提供给闪避器块的实例。例如,因为第一滤波器组202将输入音频信号分成三个频带,所以在图2中图示了三个闪避器块,这三个闪避器块被描述为闪避器204a、闪避器204b和闪避器204c。每个闪避器块可以生成输入闪避增益和/或输出闪避增益。在一些实施方式中,闪避增益可以基于两个包络跟踪器的输出的比率来确定,每个包络跟踪器具有不同的时间常数。包络跟踪器可以使用绝对值(整流器)块和低通滤波器来实施。例如,可以基于具有长时间常数的低通滤波器的输出与具有短时间常数的低通滤波器的输出的比率来确定输入闪避增益。换句话说,可以基于慢包络跟踪与快包络跟踪的比率来确定输入闪避增益。相反,可以基于具有短时间常数的低通滤波器的输出与具有长时间常数的低通滤波器的输出的比率来确定输出闪避增益。换句话说,可以基于快包络跟踪与慢包络跟踪的比率来确定输出闪避增益。长时间常数的示例包括60毫秒、70毫秒、80毫秒、90毫秒等。短时间常数的示例包括3毫秒、4毫秒、5毫秒、10毫秒等。应当注意,每个闪避器块实例可以将与特定频带相对应的第一滤波器组202的输出作为输入,并且生成适用于该特定频带的闪避增益。闪避器块的更详细示例在图3中示出并且下面结合该图进行描述。
输入音频信号可以被提供给延迟块206。输入音频信号的延迟版本可以被提供给第二滤波器组208(在图2中描绘为“滤波器组B”)。延迟块206可以用于将输入音频信号延迟某个量,所述量在输入音频信号被第二滤波器组208分成多个频带之后将输入音频信号与由闪避器块204a、204b和204c确定闪避增益的输入音频信号的时序的时间对准。应当注意,延迟块206可以结合宽带闪避器实施方式(例如,其中没有实施滤波器组202和208)来实施。可以由延迟块206应用的示例延迟包括1.5毫秒、2毫秒、2.5毫秒等。在一些实施方式中,由延迟块206应用的延迟可以是将在宽带闪避器系统中使用的延迟,所述宽带闪避器系统然后至少部分地基于由第一滤波器组202应用的延迟和/或由第二滤波器组208应用的延迟来进行修改。
由闪避器块204a、204b和204c确定的输入闪避增益可以在每个频带的基础上应用于输入音频信号的延迟版本的频带。例如,可以基于第一滤波器组202的第一频带来确定与第一频带相对应的第一输入闪避增益。继续该示例,然后可以将第一输入闪避增益应用于第二滤波器组208的第一频带的对应实例。作为更具体的示例,可以通过将输入闪避增益与对应的频带信号增益应用块209a、209b和209c相乘来应用输入闪避增益。应当注意,在一些实施方式中,第一滤波器组202和第二滤波器组208可以是同一滤波器组(例如,具有相同频带数量、相同频率响应、相同滤波器类型等的滤波器组)的不同实例。相反,在一些实施方式中,第一滤波器组202和第二滤波器组208可以在任何一个或多个特性上不同,如频带数量、各种频带的截止频率、所使用的滤波器类型等。应当注意,输入闪避增益的应用可以用于闪避或衰减输入音频信号中的瞬变。如下面将结合图3和图5更详细描述的,应用于较高频带的输入闪避增益可以比应用于较低频带的输入闪避增益高,从而使得高频信号比低频信号被更强烈地闪避或衰减。
在应用输入闪避增益之后可以生成宽带闪避信号。例如,在已经在第二滤波器组208的频带组的每频带基础上应用输入闪避增益之后,可以例如通过求和来组合频带,以生成宽带信号。作为更具体的示例,可以经由聚合块209d对频带进行求和或聚合。然后,可以将宽带信号提供给去相关器210。去相关器210可以生成一个或多个去相关信号。在一些实施方式中,由去相关器210生成的去相关信号的数量可以取决于要由解码器进行参数重建的信号的数量,如上面结合图1进行描述的。例如,在重建的音频信号是立体声信号的情况下,去相关器210可以生成一个去相关信号,所述去相关信号可以用于对信号下混的信号进行上混以生成原始的两个信号。作为另一示例,在重建的音频信号包括四个声道并且存在一个下混信号的情况下,去相关器210可以生成三个去相关信号,每个去相关信号可以用于重建由编码器进行参数编码的三个信号。
所述一个或多个去相关信号可以被提供给第三滤波器组212(在图2中被描绘为“滤波器组C”)。第三滤波器组212可以将一个或多个去相关信号中的每一个分成多个频带,例如,两个频带、三个频带、八个频带、16个频带等。在一些实施例中,第三滤波器组212可以是第一滤波器组202和/或第二滤波器组208的另一个实例。相反,在一些实施方式中,第三滤波器组212可以在任何特性(如各种频带的截止频率、所使用的滤波器类型等)上与第一滤波器组202和/或第二滤波器组208不同。应当注意,在一些实施方式中,可以为由去相关器210生成的每个去相关信号复制第三滤波器组212。
输出闪避增益可以由对应的延迟块214a、214b和214c延迟,每个输出闪避增益基于第一滤波器组202的频带确定并且由闪避器块204a、204b和204c生成。延迟块214a、214b和214c可以用于延迟输出闪避增益,使得输出闪避增益可以与第三滤波器组212的频带时间对准。在一些实施例中,由延迟块214a、214b和214c中的每一个应用的延迟可以至少部分地基于由第三滤波器组212生成的延迟。延迟的输出闪避增益然后可以在每频带的基础上应用于一个或多个去相关信号中的每一个。例如,可以经由增益应用块213a、213b和213c将输出闪避增益乘以对应的频带信号来应用输出闪避增益。应当注意,输出闪避增益可以用于闪避或衰减输入音频信号中的偏移。偏移的示例是输入音频信号的突然停止。
在每频带的基础上应用输出闪避增益之后,可以生成每个去相关信号的宽带版本。例如,闪避频带可以被组合(例如,求和),以生成闪避的宽带去相关信号。作为更具体的示例,可以经由聚合块213d对闪避频带进行求和或聚合。解码器可以使用闪避的宽带去相关信号来对下混信号进行上混并生成重建的音频信号。
应当注意,第一滤波器组202、第二滤波器组208和/或第三滤波器组212可以以任何合适的方式实施。例如,滤波器组可以被实施为无限脉冲响应(IIR)滤波器组。作为另一示例,滤波器组可以被实施为有限脉冲响应(FIR)滤波器组。各种滤波器组实施方式可能都有优点和缺点。例如,一些滤波器组实施方式可能比其他滤波器组实施方式具有更长的延迟。如上所述,可以实施各种延迟块来解决由滤波器组应用的延迟,例如,以确保在应用闪避增益之前信号是时间对准的。应当注意,滤波器组可以实现和/或接近“确切重建”,其中,未经修改的频带的总和与滤波器组的输入信号或其延迟版本基本上相同。
如上所述,在一些实施方式中,输入闪避增益和输出闪避增益可以通过向两个包络跟踪器提供输入音频信号的特定频带并确定这两个跟踪器的输出的比率来确定。在一些实施例中,每个包络跟踪器可以与对应的低通滤波器相关联。在一些实施例中,两个低通滤波器可以具有两个不同的时间常数,一个时间常数比另一个时间常数长得多。较短时间常数的示例是3毫秒、4毫秒、5毫秒、10毫秒等。较长时间常数的示例是60毫秒、70毫秒、80毫秒、100毫秒等。每个低通滤波器可以有效地对作为低通滤波器的输入提供的输入音频信号的特定频带执行包络跟踪,其中,一个低通滤波器执行慢包络跟踪,而另一个低通滤波器执行快包络跟踪。每个低通滤波器可以由分子滤波器系数b和分母滤波器系数a来表征,其中,b=[1-c]并且a=[1,-c]。此处,可以基于滤波器的时间常数来确定c,其中,c=exp(-1/(tc*sampling_rate)),其中,tc表示滤波器的以秒为单位的时间常数。给定-3dB的截止频率,时间常数为5毫秒的低通滤波器的截止频率可以为约32.2Hz,并且时间常数为80毫秒的滤波器的截止频率可以为约2.2Hz。在一些实施例中,特定频带的输入闪避增益可以基于具有较长时间常数的低通滤波器的输出与具有较短时间常数的低通滤波器的输出的比率来确定。换句话说,输入闪避增益可以对应于慢包络跟踪与快包络跟踪的比率。相反,特定频带的输出闪避增益可以基于具有较短时间常数的低通滤波器的输出与具有较长时间常数的低通滤波器的输出的比率来确定。换句话说,输出闪避增益可以对应于快包络跟踪与慢包络跟踪的比率。
在一些实施方式中,在向两个包络跟踪器提供输入音频信号的特定频带之前,可以应用高通滤波器。高通滤波器可以用于使频谱变平和/或避免在低频隆隆声的存在下的偏差。在一些实施方式中,高通滤波器的截止频率可以取决于对高通滤波器应用的输入音频信号的频带。例如,相对于较高的频带,较低的截止频率可以用于较低的频带。在一个示例中,3kHz的截止频率可以用于较高的频带,而1kHz的截止频率可以用于较低的频带。高通滤波器的截止频率的示例包括1kHz、2kHz、3kHz、5kHz等。在一些实施方式中,对于一些频带,可以省略高通滤波器。
图3示出了根据一些实施例的示例闪避器实例的示意图。应当注意,图3所示的示例闪避器实例的各种块可以由设备的一个或多个控制系统(如图7中示出并且下面结合该图描述的控制系统)来实施。闪避器可以将输入音频信号的特定频带作为输入,并且可以生成适用于该频带的输入闪避增益和/或输出闪避增益作为输出。如上所述,闪避器可以将输入音频信号的频带作为输入。例如,频带可以是第一滤波器组202的频带,如图2中示出并且上面结合该图进行描述的。输入闪避增益和/或输出闪避增益可以适用于该特定频带。应当注意,可以为第一滤波器组的每个频带在本质上重复图3所示的示例闪避器实例。
如所图示的,输入音频信号的频带可以可选地使用高通滤波器302进行高通滤波。在一些实施方式中,高通滤波器302的截止频率可以至少部分地取决于由闪避器实例处理的输入音频信号的频带。例如,较高的截止频率可以用于较高的频带,反之亦然。高通滤波器的截止频率的示例包括1kHz、2kHz、3kHz、5kHz等。
输入音频信号的频带(或者如果使用的话,输入音频信号的频带的经高通滤波版本)可以被提供给快包络跟踪器305和慢包络跟踪器307。每个包络跟踪器可以包括绝对值计算块304,所述绝对值计算块被配置成生成信号的绝对值。应当注意,在一些实施方式中,在图3中描绘为“ε”的相对小的值可以被加到信号的绝对值上。如下所述,当确定输入闪避增益和/或输出闪避增益时,这可以防止除零错误。如图3所图示的,快包络跟踪器305包括第一低通滤波器306,并且慢包络跟踪器307包括第二低通滤波器308。如图3所图示的,与第二低通滤波器308相比,第一低通滤波器306可以具有较短的时间常数。较短时间常数的示例包括3毫秒、4毫秒、5毫秒、10毫秒等。较长时间常数的示例是60毫秒、70毫秒、80毫秒、90毫秒、100毫秒等。
第一低通滤波器306的输出(在图3中被描绘为“f”,表示快包络跟踪)和第二低通滤波器308的输出(在图3中被描绘为“s”,表示慢包络跟踪)被提供给输出闪避增益确定块310。类似地,第一低通滤波器306的输出和第二低通滤波器308的输出被提供给输入闪避增益确定块312。可以至少部分地基于快包络跟踪与慢包络跟踪的比率来确定输出闪避增益。特别地,如图3所图示的,如果第一低通滤波器306的输出表示为f(即,用于快包络跟踪),并且第二低通滤波器308的输出表示为s(即,用于慢包络跟踪),则初始的一组输出闪避增益可以由下式确定:
初始的一组输入闪避增益可以由下式确定:
应当注意,表示乘法常数的const对于输出闪避增益和输入闪避增益可以是相同的,或者与输入闪避增益相比,对于输出闪避增益可以是不同的。const的示例值包括1、1.05、1.1、1.15、1.2等。另外,还应当注意,常数c1和c2对于每个频带可以是不同的。特别地,c1和c2的值可以分别表示要针对频带应用的输入闪避和输出闪避的量。换句话说,c1和c2可以用作对闪避增益的频带相关校正。举例来说,在最低频带中没有闪避可能是有利的。相应地,对于最低频带,c1和c2可以为1。作为另一示例,可以对最高频带应用相对较大量的闪避。相应地,对于最高频带,c1和c2可以为0,从而使得输入闪避增益和输出闪避增益被确定为基于包络跟踪器的输出的比率,而无需对所述比率进行与频带相关的校正。应当注意,对于特定频带,c1和c2可以彼此相同,或者可以彼此不同。在一些实施方式中,c1和c2可以是0至1范围内(包括0和1)的任何合适的值。
初始的一组输出闪避增益可以被提供给输出闪避增益更新块313,以确定输出闪避增益314。类似地,初始的一组输入闪避增益可以被提供给输入闪避增益更新块315,以确定输入闪避增益316。在一些实施方式中,输出闪避增益更新块313和输入闪避增益更新块315可以被配置成执行平滑和/或闪避释放控制,以避免所应用的闪避增益出现不期望的突然变化。举例来说,在输入音频信号包括瞬变的情况下,输入闪避增益中可能存在突然的变化,例如由输入闪避增益确定块312确定的,以便闪避瞬变。继续该示例,输入闪避增益更新块315然后可以修改在瞬变之后确定的初始的一组输入闪避增益,使得经修改的输入闪避增益在由于瞬变导致的输入闪避增益的突然变化之后平滑转变。
下面描述块313和315的示例实施方式。给定表示为in_duck_gains_init的输入闪避增益的初始值和表示为out_duck_gains_init的输出闪避增益的初始值,实际输入闪避增益(表示为in_duck_gains_act)和实际输出闪避增益(表示为out_duck_gains_act)可以由以下伪代码确定:
对于每个样本s:
in_duck_state=(in_duck_state-1)*in_duck_c+1
If(in_duck_gains_init(s)<in_duck_state)
induck_state=in_duck_gains_init(s)
in_duck_gains_act(s)=in_duck_state
在上文中,in_duck_state表示从一个时间帧到另一个时间帧的增益状态。In_duck_state的初始值可以设置在0与1之间。在上面给出的伪代码示例中,in_duck_c表示释放常数,所述释放常数控制闪避增益释放的快慢。换句话说,in_duck_c可以用于控制闪避增益从低值到高值的转变。在上述技术中,输入闪避增益根据释放常数进行释放,然后响应于新闪避增益样本小于释放值而进行更新。
类似的方法可以用于输出闪避增益,如下面给出的伪代码样本所示。
对于每个样本s:
out_duck_state=(out_duck_state-1)*out_duck_c+1
If(out_duck_gains_init(s)<out_duck_state)
out_duck_state=out_duck_gains_init(s)
out_duck_gains_act(s)=out_duck_state
在上面给出的伪代码示例中,out_duck_state表示从一个时间帧到另一个时间帧的增益状态。out_duck_state的初始值可以设置在0与1之间。在上面给出的示例中,out_duck_c是释放常数,所述释放常数控制闪避增益释放的快慢。换句话说,out_duck_c可以用于控制闪避增益从低值到高值的转变。在上面给出的示例中,输出闪避增益可以根据释放常数进行释放,然后可以响应于新闪避增益样本小于释放值而进行更新。
如上所述,解码器可以实施各种滤波器组,以基于滤波器组的频带将音频信号分成频带受限的多个信号。例如,滤波器组可以将输入音频信号分成多个频带,以在每频带的基础上确定输入闪避增益和/或输出闪避增益。作为另一示例,滤波器组可以将输入音频信号分成多个频带,以在每频带的基础上应用输入闪避增益。作为又一个示例,滤波器组可以在每频带的基础上应用输出闪避增益之前将可能已经应用了输入闪避增益的宽带去相关信号分成多个频带。如上所述,在实施多个滤波器组的实例中,滤波器组可以是同一滤波器组的多个实例,或者可以在一个或多个特性(如频带数量、频率响应、所使用的滤波器类型等)上变化。滤波器组可以将信号分成任何合适数量的频带,如两个、三个、五个、八个、16个等。在一个示例中,滤波器组将信号分成三个频带,这三个频带对应于低频、中频和高频。可以使用的示例类型的滤波器包括无限脉冲响应(IIR)滤波器、有限脉冲响应(FIR)滤波器等。每种类型的滤波器可以与不同的复杂度相关联,这可以允许在实施方式中在滤波特性与计算复杂度之间进行权衡。
图4示出了根据一些实施例的可以使用的示例滤波器组的频带的频率响应。图4所示的示例利用三个零延迟一阶IIR滤波器。这三个滤波器对应于低频带402、中频带404和高频带406。在图4所示的示例中,低频带402的截止频率为200Hz,并且高频带406的截止频率为2kHz。中频带404源自低频带402和高频带406,例如,以获得通过滤波器组的信号的完美重建。注意,在闪避增益被确定为1或接近1的情况下,信号的完美重建可以使信号有效地保持未修改。应当注意,图4所示的示例仅仅是示例性的,并且由解码器实施的滤波器组可以在频带数量、每个频带的截止频率、所使用的滤波器类型、复杂度、延迟等方面与图4所图示的滤波器组不同。
图5是根据一些实施例的用于在每频带的基础上应用闪避增益的示例过程500的流程图。在一些实施方式中,过程500的框可以使用解码器设备的控制系统来实施。这样的控制系统在图7中示出并且下面结合该图进行描述。在一些实施例中,过程500的框可以以除图5所示的顺序之外的顺序执行。在一些实施方式中,过程500的两个或更多个框可以基本上并行地执行。在一些实施方式中,过程500的一个或多个框可以省略。
过程500可以在502处通过接收输入音频信号或输入音频信号帧开始。在一些实施方式中,输入音频信号可以由解码器的接收器设备(如天线)接收。在一些实施例中,可以在解码器处从发射输入音频信号的编码器设备接收输入音频信号。应当注意,在一些实施方式中,接收到的输入音频信号可以是在发射到解码器之前已经由编码器进行下混的下混音频信号。在一些这样的实施方式中,解码器可以另外接收元数据或辅助信息,其可以用于对下混信号进行上混,例如,以生成重建的音频信号,如上面结合图1进行描述的。
在504处,过程500可以将输入音频信号分成多个频带。例如,在一些实施方式中,过程500可以将输入音频信号提供给第一滤波器组,所述第一滤波器组将输入音频信号分成对应的频带。可以使用任何合适数量的频带,如两个、三个、五个、八个、16个等。在一个示例中,输入音频信号可以被分成三个频带,这三个频带对应于低频带、中频带和高频带,类似于在图4中示出并且上面结合该图进行描述的示例。
在506处,过程500可以确定与所述多个频带相对应的输入闪避增益和/或输出闪避增益。例如,如在图3中示出并且上面结合该图进行描述的,过程500可以对每个频带应用两个包络跟踪器,第一包络跟踪器对应于快包络跟踪,而第二包络跟踪器对应于慢包络跟踪。作为包络跟踪的一部分,过程500可以在绝对值计算(例如,整流)之后对每个频带应用两个低通滤波器,第一低通滤波器具有相对短的时间常数,而第二低通滤波器具有较长的时间常数。第一低通滤波器可以生成在本文中通常被称为f的表示快包络跟踪的输出,而第二低通滤波器可以生成在本文中通常被称为s的表示慢包络跟踪的输出。如在图3中示出并且上面结合该图进行描述的,输入闪避增益可以由下式确定:
输出闪避增益可以通过下式来确定:
如以上等式所示,可以基于两个包络跟踪器的输出的比率来确定输入闪避增益和输出闪避增益,其中,所述比率是基于针对每个频带选择的常数(在以上等式中表示为c1和c2)来修改的。举例来说,通常可以基于慢包络跟踪与快包络跟踪的比率来确定输入闪避增益,其中,每一者在比率中加权的量由常数c1来修改。类似地,通常可以基于快包络跟踪与慢包络跟踪的比率来确定输出闪避增益,其中,每一者在比率中加权的量由常数c2来修改。如上所述,输入闪避增益和/或输出闪避增益可以随后例如使用输入闪避增益更新块和/或输出闪避增益更新块来修改,如上面结合图3进行描述的。
应当注意,在一些实施方式中,在确定特定频带的输入闪避增益和/或输出闪避增益之前,过程500可以获得或确定特定频带的c1和c2的值。在一些实施例中,对于特定频带,c1和c2的值可以是固定的。举例来说,在一些实施例中,对于最低频带,c1和c2可以固定为1,从而使得最低频带不被闪避。继续该示例,在一些实施例中,对于最高频带,c1和c2可以被设置为0,从而使得输入闪避增益基于无调整的慢包络跟踪与快包络跟踪的比率来确定,并且使得输出闪避增益基于无调整的快包络跟踪与慢包络跟踪的比率来确定。
另外,应当注意,对于多个频带中的特定频带,可以在将输入信号提供给快包络跟踪器和慢包络跟踪器之前应用高通滤波器,如在图3中示出并且上面结合该图进行描述的。高通滤波器可以用于使频谱变平和/或避免在低频隆隆声的存在下的偏差。在一些实施方式中,高通滤波器可以仅应用于多个频带的子集。在一些实施例中,对于不同的频带,高通滤波器的截止频率可以不同。如上面结合图3进行描述的,示例截止频率包括1.5kHz、2kHz、2.5kHz、3kHz、3.5kHz、4kHz等。
在508处,过程500可以将输入闪避增益应用于所述多个频带。如在图2中示出并且上面结合该图进行描述的,在一些实施例中,过程500可以通过首先将输入音频信号延迟至少部分地根据结合框504使用的第一滤波器组应用的延迟确定的量并且随后将第二滤波器组应用于延迟的输入音频信号以将延迟的输入音频信号分成多个频带来应用输入闪避增益。输入闪避增益然后可以例如通过将特定频带的信号乘以该频带的对应的一个或多个输入闪避增益来应用于延迟的输入音频信号的多个频带。应当注意,在一些实施方式中,对于特定频带,可能存在多个时变输入闪避增益,使得时域中的频带受限音频信号的每个样本可以被输入闪避增益的对应样本闪避。在一些实施例中,第二滤波器组可以是第一滤波器组的第二实例。换句话说,在一些实施方式中,用于确定闪避增益的滤波器组可以具有与用于生成输入闪避增益所应用于的输入音频信号的多个频带的滤波器组相同的特性。相反,在一些实施方式中,第一滤波器组可以在一个或多个特性(如频率响应、频带数量、所使用的滤波器类型等)上与第二滤波器组不同。
在510处,过程500可以聚合所述多个频带上的信号以生成输入音频信号的第一闪避版本。例如,在一些实施例中,过程500可以对多个频带进行求和。在一些实施方式中,过程500可以生成聚合信号的时域版本,以生成输入音频信号的第一闪避版本。
在512处,过程500可以通过将输入音频信号的第一闪避版本提供给去相关器来生成去相关信号。在一些实施方式中,可以生成一个或多个去相关信号。在一些实施例中,由去相关器生成的去相关信号的数量可以取决于要从元数据或辅助信息进行参数重建的信号的数量,如在图1和图2中示出并且上面结合这些图进行描述的。
在514处,过程500可以将去相关信号分成多个频带。在一些实施方式中,可以使用滤波器组来分隔每个去相关信号,如在图2和图4中示出并且上面结合这些图进行描述的。在一些实施例中,滤波器组可以与结合框504和/或508使用的滤波器组相同。相反,在一些实施例中,滤波器组可以具有与结合框504和/或508使用的滤波器组不同的一个或多个特性。
在516处,过程500可以将输出闪避增益应用于去相关信号的多个频带,所述输出闪避增益已经在框506处确定。在一些实施方式中,对于特定频带,可以通过乘以对应的一个或多个输出闪避增益来将输出闪避增益应用于该频带。输出闪避增益然后可以例如通过将特定频带的信号乘以该频带的对应的一个或多个输出闪避增益来应用于去相关信号的多个频带。应当注意,在一些实施方式中,对于特定频带,可能存在多个时变输出闪避增益,使得时域中的频带受限去相关音频信号的每个样本可以被输出闪避增益的对应样本闪避。在一些实施方式中,输出闪避增益可以分别应用于每个去相关信号。
在518处,过程500可以生成闪避的去相关信号的宽带版本。例如,对于特定的去相关信号,过程500可以在应用输出闪避增益之后对多个频带的信号进行求和。继续该示例,过程500可以生成经求和或聚合的信号的时域表示,以生成闪避的去相关信号。
应当注意,尽管过程500描述了应用输入闪避增益和输出闪避增益,但是在一些实施方式中,可以应用输入闪避增益或输出闪避增益中的任一个,而不应用另一个。例如,在将信号提供给去相关器之前,可以应用输入闪避增益来闪避特定频带中的瞬变。继续该示例,例如,在不存在偏移的情况下,可以不将输出闪避增益应用于一个或多个去相关信号。作为另一示例,可以应用输出闪避增益来闪避由去相关器生成的一个或多个去相关信号的偏移部分,而无需将输入闪避增益预先应用于提供给去相关器的信号。作为更具体的示例,在输入音频信号不包括特定类型的信号(如瞬变信号)的情况下,可以不应用输入闪避增益。
另外,应当注意,解码器可以利用每个闪避的去相关信号来对下混输入音频信号进行上混。例如,如在图1中示出并且上面结合该图进行描述的,闪避的去相关信号可以被提供给空间重建编解码器,所述空间重建编解码器获取由编码器提供的(多个)闪避的去相关信号和辅助信息或元数据,并对下混输入音频信号进行上混。在一些实施方式中,然后可以对上混音频信号进行渲染,例如,以在经渲染的音频信号被呈现时创建空间感知。在一些实施方式中,解码器设备可以使经渲染的音频信号例如通过一个或多个扩音器、耳机等来呈现。
图6图示了根据实施例的IVAS系统600的示例用例。在一些实施例中,各种设备通过呼叫服务器602进行通信,所述呼叫服务器被配置成从例如由PSTN/其他PLMN 604图示的公共交换电话网(PSTN)或公共陆地移动网络设备(PLMN)接收音频信号。用例支持仅以单声道渲染和捕获音频的传统设备606,包括但不限于:支持增强型语音服务(EVS)、多速率宽带(AMR-WB)和自适应多速率窄带(AMR-NB)的设备。用例还支持捕获和渲染立体声音频信号的用户设备(UE)608和/或614,或者捕获单声道信号并将其双耳渲染为多声道信号的UE 610。用例还支持分别由视频会议室系统616和/或618捕获和渲染的沉浸式和立体声信号。用例还支持家庭影院系统620的立体声音频信号的立体声捕获和沉浸式渲染,以及用于虚拟现实(VR)装备622和沉浸式内容摄取624的音频信号的单声道捕获和沉浸式渲染的计算机612。
图7是示出了能够实施本公开的各个方面的装置的部件的示例的框图。与本文提供的其他图一样,图7中示出的元件的类型和数量仅作为示例提供。其他实施方式可以包括更多、更少和/或不同类型和数量的元件。根据一些示例,装置700可以被配置用于执行本文公开的方法中的至少一些方法。在一些实施方式中,装置700可以是或可以包括电视、音频系统的一个或多个部件、移动设备(比如蜂窝电话)、膝上型计算机、平板设备、智能扬声器或另一种类型的设备。
根据一些替代性实施方式,装置700可以是或者可以包括服务器。在一些这样的示例中,装置700可以是或者可以包括编码器。因此,在一些情况下,装置700可以是被配置用于在如家庭音频环境的音频环境内使用的设备,然而在其他情况下,装置700可以是被配置用于在“云”中使用的设备,例如,服务器。
在该示例中,装置700包括接口系统705和控制系统710。在一些实施方式中,接口系统705可以被配置用于与音频环境的一个或多个其他设备进行通信。在一些示例中,音频环境可以是家庭音频环境。在其他示例中,音频环境可以是另一种类型的环境,如办公室环境、汽车环境、火车环境、街道或人行道环境、公园环境等。在一些实施方式中,接口系统705可以被配置用于与音频环境的音频设备交换控制信息和相关联的数据。在一些示例中,控制信息和相关联的数据可以与装置700正执行的一个或多个软件应用程序有关。
在一些实施方式中,接口系统705可以被配置用于接收内容流或用于提供内容流。内容流可以包括音频数据。音频数据可以包括但可以不限于音频信号。在一些情况下,音频数据可以包括如声道数据和/或空间元数据等空间数据。在一些示例中,内容流可以包括视频数据和与视频数据相对应的音频数据。
接口系统705可以包括一个或多个网络接口和/或一个或多个外部设备接口(如一个或多个通用串行总线(USB)接口)。根据一些实施方式,接口系统705可以包括一个或多个无线接口。接口系统705可以包括用于实施用户接口的一个或多个设备,如一个或多个麦克风、一个或多个扬声器、显示系统、触摸传感器系统和/或手势传感器系统。在一些示例中,接口系统705可以包括控制系统710与存储器系统(如图7中示出的可选存储器系统715)之间的一个或多个接口。然而,在一些情况下,控制系统710可以包括存储器系统。在一些实施方式中,接口系统705可以被配置用于从环境中的一个或多个麦克风接收输入。
例如,控制系统710可以包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑、和/或离散硬件部件。
在一些实施方式中,控制系统710可以驻留在多于一个设备中。例如,在一些实施方式中,控制系统710的一部分可以驻留在本文描绘的环境之一内的设备中,并且控制系统710的另一部分可以驻留在环境之外的设备中,如服务器、移动设备(例如,智能电话或平板计算机)等。在其他示例中,控制系统710的一部分可以驻留在一种环境内的设备中,并且控制系统710的另一部分可以驻留在所述环境的一个或多个其他设备中。例如,控制系统710的一部分可以驻留在实施基于云的服务的设备(如服务器)中,并且控制系统710的另一部分可以驻留在实施基于云的服务的另一设备(如另一服务器、存储器设备等)中。在一些示例中,接口系统705还可以驻留在多于一个设备中。
在一些实施方式中,控制系统710可以被配置用于至少部分地执行本文公开的方法。根据一些示例,控制系统710可以被配置用于实施将音频信号分成多个频带、基于频带确定输入闪避增益和/或输出闪避增益、对每频带应用输入闪避增益、对宽带音频信号应用去相关器、在去相关音频信号的每频带基础上应用输出闪避增益等方法。
本文描述的一些或所有方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如,软件)来执行。这种非暂态介质可以包括如本文描述的存储器设备,包括但不限于随机存取存储器(RAM)设备、只读存储器(ROM)设备等。一个或多个非暂态介质可以例如位于图7中所示的可选存储器系统715和/或控制系统710中。因此,可以在其上存储有软件的一个或多个非暂态介质中实施本公开中所描述的主题的各个创新方面。软件可以例如包括用于将音频信号分成多个频带、基于频带确定输入闪避增益和/或输出闪避增益、对每频带应用输入闪避增益、对宽带音频信号应用去相关器、在去相关音频信号的每频带的基础上应用输出闪避增益等的指令。例如,软件可以由如图7的控制系统710等控制系统的一个或多个部件执行。
在一些示例中,装置700可以包括图7中示出的可选麦克风系统720。可选麦克风系统720可以包括一个或多个麦克风。在一些实施方式中,一个或多个麦克风可以是另一设备(如扬声器系统的扬声器、智能音频设备等)的一部分或与其相关联。在一些示例中,装置700可以不包括麦克风系统720。然而,在一些这样的实施方式中,装置700仍然可以被配置成经由接口系统710接收音频环境中的一个或多个麦克风的麦克风数据。在一些这样的实施方式中,装置700的基于云的实施方式可以被配置成经由接口系统710从音频环境中的一个或多个麦克风接收麦克风数据或至少部分地与麦克风数据相对应的噪声指标。
根据一些实施方式,装置700可以包括图7中示出的可选扩音器系统725。可选扩音器系统725可以包括一个或多个扩音器,该扩音器在本文中也可以被称为“扬声器”,或更通常地被称为“音频再现换能器”。在一些示例(例如,基于云的实施方式)中,装置700可以不包括扩音器系统725。在一些实施方式中,装置700可以包括耳机。耳机可以经由耳机插孔或经由无线连接(例如,蓝牙)连接或耦接到装置700。
本公开的一些方面包括一种被配置(例如,被编程)成执行所公开方法的一个或多个示例的系统或设备,以及一种存储用于实施所公开方法或其步骤的一个或多个示例的代码的有形计算机可读介质(例如,磁盘)。例如,一些公开的系统可以是或者包括可编程通用处理器、数字信号处理器或微处理器,该可编程通用处理器、数字信号处理器或微处理器用软件或固件编程为和/或以其他方式被配置成对数据执行各种操作中的任一个,包括所公开方法或其步骤的实施例。这样的通用处理器可以是或者包括计算机系统,该计算机系统包括输入设备、存储器和处理子系统,该处理子系统被编程(和/或以其他方式被配置)为响应于向其断言的数据而执行所公开方法(或其步骤)的一个或多个示例。
一些实施例可以被实施为可配置的(例如,可编程的)数字信号处理器(DSP),该数字信号处理器被配置(例如,被编程和以其他方式被配置)为对(多个)音频信号执行需要的处理,包括对所公开方法的一个或多个示例的执行。替代性地,所公开系统(或其元件)的实施例可以被实施为通用处理器(例如,个人计算机(PC)或其他计算机系统或微处理器,其可以包括输入设备和存储器),所述通用处理器用软件或固件编程为和/或以其他方式被配置成执行各种操作中的任一个,包括所公开的方法的一个或多个示例。替代性地,本发明系统的一些实施例的元件被实施为被配置(例如,被编程)成执行所公开方法的一个或多个示例的通用处理器或DSP,并且所述系统还包括其他元件。其他元件可以包括一个或多个扩音器和/或一个或多个麦克风。被配置成执行所公开方法的一个或多个示例的通用处理器可以耦接到输入设备。输入设备的示例包括例如鼠标和/或键盘。通用处理器可以耦接到存储器、显示设备等。
本公开的另一方面是一种计算机可读介质(如磁盘或其他有形存储介质),所述计算机可读介质存储用于(例如,由可执行以执行所公开方法或其步骤的一个或多个示例的编码器)执行所公开方法或其步骤的一个或多个示例的代码。
虽然在本文中已经描述了本公开的具体实施例和本公开的应用,但是对于本领域普通技术人员而言显而易见的是,在不脱离本文描述的并要求保护的本公开的范围的情况下,可以对本文描述的实施例和应用进行许多改变。应当理解,虽然已经示出和描述了本公开的某些形式,但是本公开不限于所描述和示出的具体实施例或所描述的具体方法。
Claims (23)
1.一种用于处理音频信号的方法,所述方法包括:
在解码器处接收输入音频信号,其中,所述输入音频信号是下混音频信号;
将所述输入音频信号分成第一组频带;
确定一组闪避增益,该组闪避增益中的闪避增益对应于所述第一组频带中的频带;以及
生成至少一个宽带去相关音频信号,其中,所述至少一个宽带去相关音频信号能够用于对所述下混音频信号进行上混,并且其中,该组闪避增益中的闪避增益被应用于以下各项中的至少一项:1)在生成所述至少一个宽带去相关音频信号之前的第二组频带;或者2)将所述至少一个宽带去相关音频信号分隔开的第三组频带。
2.如权利要求1所述的方法,其中,该组闪避增益包括一组输入闪避增益,并且所述方法进一步包括在生成所述至少一个宽带去相关音频信号之前将该组输入闪避增益中的输入闪避增益应用于所述第二组频带。
3.如权利要求2所述的方法,其中,与所述第二组频带中的频带相关联的闪避信号被聚合以生成宽带闪避信号,所述宽带闪避信号被提供给去相关器,所述去相关器被配置成生成所述至少一个宽带去相关音频信号。
4.如权利要求1至3中任一项所述的方法,其中,所述第一组频带和所述第二组频带是同一组频带的两个实例。
5.如权利要求1至4中任一项所述的方法,其中,该组闪避增益包括一组输出闪避增益,并且所述方法进一步包括:
将该组输出闪避增益中的输出闪避增益应用于所述第三组频带,以生成至少一组闪避去相关音频信号,所述至少一组闪避去相关音频信号中的每个闪避去相关音频信号对应于所述第三组频带中的频带;以及
聚合所述至少一组闪避去相关音频信号中的闪避去相关音频信号,以生成至少一个宽带闪避去相关音频信号,所述至少一个宽带闪避去相关音频信号能够用于对所述下混音频信号进行上混。
6.如权利要求1至5中任一项所述的方法,其中,确定该组闪避增益包括:
确定一个或多个初始闪避增益;以及
修改所述一个或多个初始闪避增益中的至少一个以生成该组闪避增益,其中,所述一个或多个初始闪避增益中的至少一个是通过执行更新和/或释放控制来修改的。
7.如权利要求1至6中任一项所述的方法,其中,对于所述第一组频带中的频带,基于包括两个包络跟踪器的输出的比率来确定对应的闪避增益,所述两个包络跟踪器对应于慢包络跟踪器和快包络跟踪器。
8.如权利要求7所述的方法,其中,所述慢包络跟踪器包括绝对值计算块和第一低通滤波器,并且其中,所述快包络跟踪器包括所述绝对值计算块和第二低通滤波器,所述第一低通滤波器和所述第二低通滤波器具有不同的时间常数。
9.如权利要求7所述的方法,进一步包括将高通滤波器应用于所述第一组频带中的至少一个频带,其中,所述高通滤波器的输出被提供给所述两个包络跟踪器中的至少一个。
10.如权利要求9所述的方法,其中,所述高通滤波器被应用于所述第一组频带中的两个或更多个频带,并且其中,应用于所述两个或更多个频带中的第一频带的高通滤波器与应用于所述两个或更多个频带中的第二频带的高通滤波器具有不同的截止频率。
11.如权利要求7至10中任一项所述的方法,其中,所述慢包络跟踪器的第一低通滤波器具有比所述快包络跟踪器的第二低通滤波器的时间常数更长的时间常数,并且其中,所述比率包括所述慢包络跟踪器的输出与所述快包络跟踪器的输出之比。
12.如权利要求7至11中任一项所述的方法,其中,所述慢包络跟踪器的第一低通滤波器具有比所述快包络跟踪器的第二低通滤波器的时间常数更长的时间常数,并且其中,所述比率包括所述快包络跟踪器的输出与所述慢包络跟踪器之比。
13.如权利要求7至12中任一项所述的方法,其中,所述比率包括特定于所述第一组频带中的频带的常数,所述常数被选择为控制以下各项中的至少一项:1)应用于所述第二组频带中的每个频带的闪避增益量;或者2)应用于所述第三组频带中的每个频带的闪避增益量。
14.如权利要求1至13中任一项所述的方法,其中,将所述输入音频信号分成所述第一组频带包括将所述输入音频信号提供给滤波器组。
15.如权利要求14所述的方法,其中,所述滤波器组被实施为无限脉冲响应(IIR)滤波器组或有限脉冲响应(FIR)滤波器组。
16.如权利要求1至15中任一项所述的方法,其中,所述第一组频带、所述第二组频带和/或所述第三组频带包括三个频带。
17.如权利要求1至16中任一项所述的方法,其中,所述第一组频带与所述第三组频带相同。
18.如权利要求1至17中任一项所述的方法,其中,所述至少一个宽带去相关信号包括两个或更多个宽带去相关信号。
19.如权利要求1至18中任一项所述的方法,进一步包括使用所述至少一个宽带去相关信号和在所述解码器处接收到的元数据来对所述下混音频信号进行上混,以生成重建的音频信号。
20.如权利要求19所述的方法,进一步包括渲染所述重建的音频信号以生成经渲染音频信号。
21.如权利要求20所述的方法,进一步包括使用以下各项中的一项或多项来呈现所述经渲染音频信号:扩音器或耳机。
22.一种装置,所述装置被配置用于实施如权利要求1至21中任一项所述的方法。
23.一种或多种非暂态介质,其上存储有软件,所述软件包括用于控制一个或多个设备执行如权利要求1至21中任一项所述的方法的指令。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US63/171,219 | 2021-04-06 | ||
US202263268991P | 2022-03-08 | 2022-03-08 | |
US63/268,991 | 2022-03-08 | ||
PCT/US2022/023057 WO2022216542A1 (en) | 2021-04-06 | 2022-04-01 | Multi-band ducking of audio signals technical field |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116997960A true CN116997960A (zh) | 2023-11-03 |
Family
ID=88521822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280021662.XA Pending CN116997960A (zh) | 2021-04-06 | 2022-04-01 | 音频信号技术领域的多频带闪避 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116997960A (zh) |
-
2022
- 2022-04-01 CN CN202280021662.XA patent/CN116997960A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5054034B2 (ja) | 符号化/復号化装置及び方法 | |
CN112219236A (zh) | 空间音频参数和相关联的空间音频播放 | |
US20230199417A1 (en) | Spatial Audio Representation and Rendering | |
JP2023052042A (ja) | 相関分離フィルタの適応制御のための方法および装置 | |
CN112970062B (zh) | 空间参数信令 | |
CN112567765B (zh) | 空间音频捕获、传输和再现 | |
US20240153512A1 (en) | Audio codec with adaptive gain control of downmixed signals | |
US20240304196A1 (en) | Multi-band ducking of audio signals | |
CN116997960A (zh) | 音频信号技术领域的多频带闪避 | |
JP2023549038A (ja) | パラメータ変換を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム | |
AU2021357840B2 (en) | Apparatus, method, or computer program for processing an encoded audio scene using a bandwidth extension | |
US20240161754A1 (en) | Encoding of envelope information of an audio downmix signal | |
CN114503195B (zh) | 确定要应用于多声道音频信号的校正、相关编码和解码 | |
CN116982109A (zh) | 具有下混信号自适应增益控制的音频编解码器 | |
WO2022258876A1 (en) | Parametric spatial audio rendering | |
CN116982110A (zh) | 对音频下混信号的包络信息进行编码 | |
JP2023549033A (ja) | パラメータ平滑化を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム | |
CN118871987A (zh) | 用于定向音频编码-空间重建音频处理的方法、装置和系统 | |
CN119256354A (zh) | 具有解相关处理操作配置的空间化音频编码 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |