CN101855918A

CN101855918A - 通过再混合能力增强音频

Info

Publication number: CN101855918A
Application number: CN200880109867A
Authority: CN
Inventors: 克里斯托夫·法勒; 吴贤午; 郑亮源
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2007-08-13
Filing date: 2008-08-13
Publication date: 2010-10-06
Anticipated expiration: 2028-08-13
Also published as: EP2201794B1; CN101855918B; US8295494B2; JP5192545B2; WO2009021966A1; US20090067634A1; JP2010536299A; EP2201794A1

Abstract

可修改与立体声或多信道音频信号的一个或多个对象(例如，乐器)关联的一个或多个属性(例如，摇摆、增益等)以提供再混合能力。

Description

通过再混合能力增强音频

相关申请

本申请要求在2007年8月13日提交的题为“Enhancing StereoAudio Remix Capability”的美国临时专利申请No.60/955,394的优先权，其整体内容通过引用被并入此处。

技术领域

本申请的主题总体上涉及音频信号处理。

背景技术

许多消费者音频设备(例如，立体声音响、媒体播放器、移动电话、游戏控制台等)允许用户使用关于均衡(例如，低音、高音)、音量、房间声效等的控制修改立体声音频信号。然而，这些修改被应用于整体音频信号而非构成该音频信号的单独的音频对象(例如，乐器)。例如，用户不能在不影响整体歌曲的情况下单独地修改歌曲中的吉他、鼓或声音的立体声摇摆或增益。

已提出了在解码器处提供混合灵活性的技术。这些技术依赖于双耳线索编码(BCC)、参量或空间音频解码器，用于生成混合解码器输出信号。然而，这些技术不能在不危害声音质量的情况下直接对立体声混合(例如，专业混合音乐)编码以允许向后兼容性。

已提出了使用信道间线索(例如，声级差、时间差、相位差、相干性)来呈现立体声或多信道音频信道的空间音频编码技术。将该信道间线索作为“边信息”传送到解码器以在生成多信道输出信号时使用。然而，这些常规的空间音频编码技术具有数个缺点。例如，这些技术中的至少一些技术需要将关于每个音频对象的分立的信号传送到解码器，即使在解码器处将不对该音频对象做修改。该要求导致了编码器和解码器处的不必要的处理。另一缺点是使编码器输入限于立体声(或多信道)音频信号或音频源信号，导致了解码器处的再混合的灵活性的降低。最后，这些常规技术中的至少一些技术需要解码器处的复杂的解相关处理，使得该技术不适用于一些应用或设备。

发明内容

在一些实现方案中，通过使非声音源衰减从立体声音频信号得到立体声无伴奏信号。使用由无伴奏立体声信号模型得到的期望值计算统计滤波器。该统计滤波器可以结合用于使非声音源衰减的衰减因子使用。

在一些实现方案中，自动增益/摇摆调节可以应用于立体声音频信号，其防止用户对增益和摇摆控制进行极端的设定。增益滑动器之间的平均距离可以用于作为平均距离的函数的调节因子来限制增益滑动器的范围。

其他实现方案被公开用于通过再混合能力增强音频，包括涉及系统、方法、装置、计算机可读介质和用户接口的实现方案。

附图说明

图1A是用于对立体声信号加上对应于将在解码器处被再混合的对象的M个源信号进行编码的编码系统的实现方案的框图。

图1B是用于对立体声信号加上对应于将在解码器处被再混合的对象的M个源信号进行编码的过程的实现方案的流程图。

图2说明了用于分析和处理立体声信号和M个源信号的时间-频率图示。

图3A是用于使用原始立体声信号加上边信息估计再混合立体声信号的再混合系统的实现方案的框图。

图3B是用于使用图3A的再混合系统估计再混合立体声信号的过程的实现方案的流程图。

图4说明了属于具有索引b的分区的短时傅立叶变换(STFT)系数的索引i。

图5说明了对用于模仿人类听觉系统的非均匀频率分辨率的均匀STFT频谱的频谱系数进行分组。

图6A是与常规的立体声音频编码器组合的图1的编码系统的实现方案的框图。

图6B是使用与常规的立体声音频编码器组合的图1A的编码系统的编码过程的实现方案的流程图。

图7A是与常规的立体声音频解码器组合的图3A的再混合系统的实现方案的框图。

图7B是使用与立体声音频解码器组合的图7A的再混合系统的再混合过程的实现方案的流程图。

图8A是实现全盲边信息生成的编码系统的实现方案的框图。

图8B是使用图8A的编码系统的编码过程的实现方案的流程图。

图9说明了关于所需的源声级差L_i＝L dB的示例增益函数f(M)。

图10是使用部分盲生成技术的边信息生成过程的实现方案的示图。

图11是用于向具有再混合能力的音频设备提供立体声信号和M个源信号和/或边信息的客户机/服务器架构的实现方案的框图。

图12说明了用于具有再混合能力的媒体播放器的用户接口的实现方案。

图13说明了组合空间音频对象(SAOC)解码和再混合解码的解码系统的实现方案。

图14A说明了关于分立对话音量(SDV)的通用混合模型。

图14B说明了组合SDV和再混合技术的系统的实现方案。

图15说明了图14B中示出的均衡混合渲染器的实现方案。

图16说明了用于参照图1～15描述的再混合技术的分布系统的实现方案。

图17A说明了用于提供再混合信息的各种比特流实现方案的元素。

图17B说明了用于生成图17A中说明的比特流的再混合编码器接口的实现方案。

图17C说明了用于接收图17B中说明的编码器接口生成的比特流的再混合解码器接口的实现方案。

图18是如下系统的实现方案的框图，该系统包括用于生成关于某些对象信号的额外边信息的扩展以提供改进的再混合性能。

图19是图18中示出的再混合渲染器的实现方案的框图。

具体实施方式

I.再混合立体声信号

图1A是用于对立体声信号加上对应于将在解码器处被再混合的对象的M个源信号进行编码的编码系统100的实现方案的框图。在一些实现方案中，编码系统100通常包括滤波器组阵列102、边信息生成器104和编码器106。

A.原始和所需再混合信号

时间离散立体声音频信号的两个信道被标为

和

其中n是时间索引。假设立体声信号可以表示为

{\tilde{x}}_{1} (n) = Σ_{i = 1}^{I} a_{i} {\tilde{s}}_{i} (n) - - - (1)

{\tilde{x}}_{2} (n) = Σ_{i = 1}^{I} b_{i} {\tilde{s}}_{i} (n),

其中I是立体声信号(例如，MP3)中包含的源信号(例如，乐器)的数目并且是源信号。因子a_i和b_i确定每个源信号的增益和幅度摇摆。假设所有源信号相互独立。源信号可以不完全是纯源信号。确切的讲，一些源信号可以包含混响和/或其他声音效果信号分量。在一些实现方案中，延迟d_i可被引入到[1]中的原始混合音频信号中以促成与再混合参数的时间对准：

{\tilde{x}}_{1} (n) = Σ_{i = 1}^{I} a_{i} {\tilde{s}}_{i} (n - d_{i}) - - - (1.1)

{\tilde{x}}_{2} (n) = Σ_{i = 1}^{I} b_{i} {\tilde{s}}_{i} (n - d_{i}) .

在一些实现方案中，编码系统100提供或生成用于修改原始立体声音频信号(在下文中还被称为“立体声信号”)的信息(在下文中还被称为“边信息”)，以便于利用不同增益因子将M个源信号“再混合”为立体声信号。所需的修改的立体声信号可被表示为

{\tilde{y}}_{1} (n) = Σ_{i = 1}^{M} c_{i} {\tilde{s}}_{i} (n) + Σ_{i = M + 1}^{I} a_{i} {\tilde{s}}_{i} (n) - - - (2)

{\tilde{y}}_{2} (n) = Σ_{i = 1}^{M} d_{i} {\tilde{s}}_{i} (n) + Σ_{i = M + 1}^{I} b_{i} {\tilde{s}}_{i} (n),

其中c_i和d_i是用于将被再混合的M个源信号(即，具有索引1、2、...、M的源信号)的新的增益因子(在下文中还被称为“混合增益”或“混合参数”)。

编码系统100的目的在于，在仅给出原始立体声信号和少量的边信息(例如，较之立体声信号波形中包含的信息是少的)的情况下提供或生成用于使立体声信号再混合的信息。可以在解码器中使用由编码系统100提供或生成的边信息以在给定的原始立体声信号[1]的情况下在感知上模仿所需的修改的立体声信号[2]。通过编码系统100，边信息生成器104生成用于使原始立体声信号再混合的边信息，并且解码器系统300(图3A)使用边信息和原始立体声信号生成所需的再混合立体声音频信号。

B.编码器处理

再次参照图1A，提供原始立体声信号和M个源信号作为针对滤波器组阵列102的输入。还从编码器102直接输出原始立体声信号。在一些实现方案中，从编码器102直接输出的立体声信号可被延迟以与边信息比特流同步。在其他实现方案中，立体声信号输出可以在解码器处与边信息同步。在一些实现方案中，编码系统100适于用信号通知作为时间和频率的函数的统计数据。因此，为了分析和合成，如参照图4和5描述的，根据时间-频率表示来处理立体声信号和M个源信号。

图1B是用于对立体声信号加上对应于将在解码器处被再混合的对象的M个源信号进行编码的过程108的实现方案的流程图。将输入立体声信号和M个源信号分解为子带(110)。在一些实现方案中，该分解是通过滤波器组阵列实现的。如下文更全面描述的，对于每个子带，估计关于M个源信号的增益因子(112)。如下文所述，对于每个子带，计算关于M个源信号的短时功率估算(114)。量化和编码估计的增益因子和子带功率以生成边信息(116)。

图2说明了用于分析和处理立体声信号和M个源信号的时间-频率图示。图中y轴表示频率并且被划分为多个非均匀子带202。x轴表示时间并且被划分为时隙204。图2中的每个虚线框表示各个子带和时隙对。因此，对于给定的时隙204，可以将对应于时隙204的一个或多个子带202作为组206进行处理。在一些实现方案中，如参照图4和5描述的，基于与人类听觉系统关联的感知限制，来选择子带202的宽度。

在一些实现方案中，通过滤波器组阵列102将输入立体声信号和M个输入源信号分解为许多个子带202。可以相似地处理在每个中心频率处的子带202。特定频率处的立体声音频输入信号的子带对被标为x₁(k)和x₂(k)，其中k是子带信号的下采样时间索引。相似地，M个输入源信号的对应的子带信号被标为s₁(k)、s₂(k)、...、s_M(k)。应当注意，为了简化标记，在该示例中已省略关于子带的索引。对于下采样，出于效率考虑可以使用具有较低采样率的子带信号。通常，滤波器组和STFT有效地具有次采样信号(或频谱系数)。

在一些实现方案中，用于使具有索引i的源信号再混合所需的边信息包括增益因子a_i和b_i，以及每个子带中的作为时间的函数的子带信号的功率估算E{s_i ²(k)}。增益因子a_i和b_i可以是给定的(如果立体声信号的该知识是已知的)或者是估计的。对于许多立体声信号，a_i和b_i是静态的。如果a_i或b_i作为时间k的函数变化，则可作为时间的函数来估计这些增益因子。没有必要使用子带功率的平均值或估算生成边信息。确切的讲，在一些实现方案中，实际的子带功率S_i ²可以用作功率估算。

在一些实现方案中，可以使用单极平均来估计短时子带功率，其中E{s_i ²(k)}可被计算为

E {s_{i}^{2} (k)} = {αs}_{i}^{2} (k) + (1 - α) E {s_{i}^{2} (k - 1)}, - - - (3)

其中α∈[0，1]确定指数衰落估计窗口的时间常数，

T = \frac{1}{{αf}_{s}}, - - - (4)

并且f_s表示子带采样频率。关于T的适当的值可以是例如，40毫秒。在下面的式中，E{.}通常表示短时平均。

在一些实现方案中，可以在与立体声信号相同的媒体上提供一些或所有边信息a_i、b_i和E{s_i ²(k)}。例如，音乐发行商、录音棚、录音艺术家等可以在光盘(CD)、数字视频光盘(DVD)、闪存驱动器等上与对应的立体声信号一起提供边信息。在一些实现方案中，通过将边信息嵌入立体声信号的比特流中或者在分立的比特流中传送边信息，可以在网络(例如，互联网、以太网、无线网络)上提供一些或所有边信息。

如果未给出a_i和b_i，则可以估计这些因子。由于

因此a_i可被计算为

a_{i} = \frac{E {{\tilde{s}}_{i} (n) {\tilde{x}}_{1} (n)}}{E {{\tilde{s}}_{i}^{2} (n)}} . - - - (5)

相似地，b_i可被计算为

b_{i} = \frac{E {{\tilde{s}}_{i} (n) {\tilde{x}}_{2} (n)}}{E {{\tilde{s}}_{i}^{2} (n)}} . - - - (6)

如果a_i和b_i在时间上是自适应的，则E{.}算子表示短时平均运算。另一方面，如果增益因子a_i和b_i是静态的，则通过整体考虑立体声音频信号可以计算增益因子。在一些实现方案中，可以针对每个子带独立地估计增益因子a_i和b_i。应当注意在[5]和[6]中，源信号s_i是独立的，但是通常，由于s_i包含在立体声信道x₁和x₂中，因此源信号s_i和立体声信道x₁和x₂不是独立的。

在一些实现方案中，由编码器106量化和编码关于每个子带的短时功率估算和增益因子以形成边信息(例如，低比特率比特流)。应当注意，如参照图4和5描述的，这些值可能未被直接量化和编码，而是首先可被转换为更适于量化和编码的其他的值。在一些实现方案中，如参照图6～7描述的，可以使E{s_i ²(k)}相对于输入立体声音频信号的子带功率归一化，使得在使用常规的音频编码器高效地对立体声音频信号编码时，编码系统100相对于改变是鲁棒的。

C.解码器处理

图3A是用于使用原始立体声信号加上边信息估计再混合立体声信号的再混合系统300的实现方案的框图。在一些实现方案中，再混合系统300通常包括滤波器组阵列302、解码器304、再混合模块306和逆滤波器组阵列308。

可以在许多个子带中独立地执行再混合立体声音频信号的估计。该边信息包括子带功率E{s_i ²(k)}以及增益因子a_i和b_i，M个源信号包含在该立体声信号中。由c_i和d_i表示所需再混合立体声信号的新的增益因子或混合增益。诸如参照图12描述的，可由用户通过音频设备的用户接口指定混合增益c_i和d_i。

在一些实现方案中，通过滤波器组阵列302将输入立体声信号分解为子带，其中特定频率处的子带对被标为x₁(k)和x₂(k)。如图3A中说明的，通过解码器304解码边信息，针对将被再混合的M个源信号中的每个源信号产生增益因子a_i和b_i，该增益因子a_i和b_i包含在输入立体声信号中，并且对于每个子带，产生功率估算E{s_i ²(k)}。参照图4和5更加详细地描述了边信息的解码。

在给定边信息的情况下，可以由再混合模块306将再混合立体声音频信号的对应的子带对作为再混合立体声信号的混合增益c_i和d_i的函数来估计。逆滤波器组阵列308被应用于估计的子带对以提供再混合时域立体声信号。

图3B是用于使用图3A的再混合系统估计再混合立体声信号的再混合过程310的实现方案的流程图。将输入立体声信号分解为子带对(312)。针对子带对对边信息进行解码(314)。使用边信息和混合增益使子带对再混合(318)。在一些实现方案中，如参照图12描述的，由用户提供混合增益。可替选地，可以通过应用、操作系统等来程序性地提供混合增益。如参照图11描述的，也可以通过网络(例如，互联网、以太网、无线网络)提供混合增益。

D.再混合过程

在一些实现方案中，可以使用最小二乘估计在数学意义上逼近再混合立体声信号。可选地，感知考虑可用于修改估算。

式[1]和[2]也分别支持子带对x₁(k)和x₂(k)以及y₁(k)和y₂(k)。在该情况中，源信号被替换为源子带信号s_i(k)。

立体声信号的子带对由下式给出

x_{1} (k) = Σ_{i = 1}^{I} a_{i} s_{i} (k) - - - (7)

x_{2} (k) = Σ_{i = 1}^{I} b_{i} s_{i} (k),

并且再混合立体声音频信号的子带对是

y_{1} (k) = Σ_{i = 1}^{M} c_{i} s_{i} (k) + Σ_{i = M + 1}^{I} a_{i} s_{i} (k), - - - (8)

y_{2} (k) = Σ_{i = 1}^{M} d_{i} s_{i} (k) + Σ_{i = M + 1}^{I} b_{i} s_{i} (k)

给定原始立体声信号的子带对x₁(k)和x₂(k)，具有不同增益的立体声信号的子带对被估计为原始左和右立体声子带对的线性组合，

{\tilde{y}}_{1} (k) = w_{11} (k) x_{1} (k) + w_{12} (k) x_{2} (k) - - - (9)

{\tilde{y}}_{2} (k) = w_{21} (k) x_{1} (k) + w_{22} (k) x_{2} (k),

其中w₁₁(k)、w₁₂(k)、w₂₁(k)和w₂₂(k)是实值加权因子。

估计误差被定义为

e_{1} (k) = y_{1} (k) - {\hat{y}}_{1} (k) - - - (10)

= y_{2} (k) - w_{21} (k) x_{1} (k) - w_{22} x_{2} (k) .

= y_{1} (k) - w_{11} (k) x_{1} (k) - w_{12} x_{2} (k),

e_{2} (k) = y_{2} (k) - {\hat{y}}_{2} (k)

在每个频率处在子带的每个时间k处，可以计算权重w₁₁(k)、w₁₂(k)、w₂₁(k)和w₂₂(k)，以便于使均方误差E{e₁ ²(k)}和E{e₂ ²(k)}最小。为了计算w₁₁(k)和w₁₂(k)，我们注意到在误差e₁(k)与x₁(k)和x₂(k)正交时E{e₁ ²(k)}最小，即

E{(y₁-w₁₁x₁-w₁₂x₂)x₁}＝0(11)

E{(y₁-w₁₁x₁-w₁₂x₂)x₂}＝0。

应当注意，为了便于标记，省略了时间索引k。

重写这些式，得到

E {x_{1} x_{2}} w_{11} + E {x_{2}^{2}} w_{12} = E {x_{2} y_{1}} . - - - (12)

E {x_{1}^{2}} w_{11} + E {x_{1} x_{2}} w_{12} = E {x_{1} y_{1}},

增益因子是该线性方程组的解：

w_{11} = \frac{E {x_{2}^{2}} E {x_{1} y_{1}} - E {x_{1} x_{2}} E {x_{2} y_{1}}}{E {x_{1}^{2}} E {x_{2}^{2}} - E^{2} {x_{1} x_{2}}}, - - - (13)

w_{12} = \frac{E {x_{1} x_{2}} E {x_{1} y_{1}} - E {x_{1}^{2}} E {x_{2} y_{1}}}{E^{2} {x_{1} x_{2}} - E {x_{1}^{2}} E {x_{2}^{2}}} .

在给定解码器输入立体声信号子带对的情况下可以直接估计E{x₁ ²}、E{x₂ ²}和E{x₁x₂}，并且可以使用所需再混合立体声信号的边信息(E{s₁ ²}、a_i、b_i)和混合增益c_i和d_i估计E{x₁y₁}和E{x₂y₂}：

E {x_{2} y_{1}} = E {x_{1} x_{2}} + Σ_{i = 1}^{M} b_{i} (c_{i} - a_{i}) E {s_{i}^{2}} . - - - (14)

E {x_{1} y_{1}} = E {x_{1}^{2}} + Σ_{i = 1}^{M} a_{i} (c_{i} - a_{i}) E {s_{i}^{2}},

相似地，计算w₂₁和w₂₂，得到

w_{22} = \frac{E {x_{1} x_{2}} E {x_{1} y_{2}} - E {x_{1}^{2}} E {x_{2} y_{2}}}{E^{2} {x_{1} x_{2}} E {x_{2}^{2}} - E {x_{1}^{2}} E {x_{2}^{2}}} . - - - (15)

w_{21} = \frac{E {x_{2}^{2}} E {x_{1} y_{2}} - E {x_{1} x_{2}} E {x_{2} y_{2}}}{E {x_{1}^{2}} E {x_{2}^{2}} - E^{2} {x_{1} x_{2}}},

以及

E {x_{1} y_{2}} = E {x_{1} x_{2}} + Σ_{i = 1}^{M} a_{i} (d_{i} - b_{i}) E {s_{i}^{2}}, - - - (16)

E {x_{2} y_{2}} = E {x_{2}^{2}} + Σ_{i = 1}^{M} b_{i} (d_{i} - b_{i}) E {s_{i}^{2}} .

当左和右子带信号相干或近似相干时，即，当

φ = \frac{E {x_{1} x_{2}}}{\sqrt{E {x_{1}^{2}} E {x_{2}^{2}}}} - - - (17)

接近1时，权重的解是不唯一的或病态的。因此，如果φ大于某个阈值(例如，0.95)，则权重被计算为例如，

w₁₂＝w₂₁＝0，(18)

w_{11} = \frac{E {x_{1} y_{1}}}{E {x_{1}^{2}}},

w_{22} = \frac{E {x_{2} y_{2}}}{E {x_{2}^{2}}} .

在φ＝1的假设下，式[18]是满足[12]和关于另两个权重的相似的正交性方程组的不唯一的解中的一个。应当注意，[17]中的相干性用于判断x₁和x₂相互相似的程度。如果相干性是0，则x₁和x₂是独立的。如果相干性是1，则x₁和x₂是相似的(但是具有不同的声级)。如果x₁和x₂是非常相似的(相干性接近1)，则二信道Wiener计算(四个权重的计算)是病态的。关于该阈值的示例范围是约0.4至约1.0。

通过将计算的子带信号转换到时域所获取的得到的再混合立体声信号听起来类似于通过不同混合增益c_i和d_i进行真实混合的立体声信号(在下文中该信号被表示为“所需信号”)。在一个方面，在数学上，这需要计算的子带信号与真实地进行不同混合的子带信号相似。在某种程度上情况确实如此。由于在感知激励的子带域中执行估计，因此对相似性的要求不太强。只要感知相关局部化线索(例如，声级差和相干性线索)是足够相似的，则计算的再混合立体声信号将听起来类似于所需信号。

E.可选方案：声级差线索的调节

在一些实现方案中，如果使用此处描述的处理，可以获取良好的结果。然而，为了确保重要的声级差局部化线索接近地逼近所需信号的声级差线索，可以应用子带的后调整以“调节”声级差线索，用于确保它们与所需信号的声级差线索匹配。

对于[9]中的最小二乘子带信号估算的修改，考虑子带功率。如果子带功率是正确的，则重要的空间线索声级差也将是正确的。所需信号[8]的左子带功率是

E {y_{1}^{2}} = E {x_{1}^{2}} + Σ_{i = 1}^{M} (c_{i}^{2} - a_{i}^{2}) E {s_{i}^{2}} - - - (19)

并且来自[9]的估算的子带功率是

E {{\hat{y}}_{1}^{2}} = E {{(w_{11} x_{1} + w_{12} x_{2})}^{2}} - - - (20)

= w_{11}^{2} E {x_{1}^{2}} + 2 w_{11} w_{12} E {x_{1} x_{2}} + w_{12}^{2} E {x_{2}^{2}} .

因此，为了使

具有与y₁(k)相同的功率，其必须乘以

g_{1} = \sqrt{\frac{E {x_{1}^{2}} + Σ_{i = 1}^{M} (c_{i}^{2} - a_{i}^{2}) E {s_{i}^{2}}}{w_{11}^{2} E {x_{1}^{2}} + 2 w_{11} w_{12} E {x_{1} x_{2}} + w_{12}^{2} E {x_{2}^{2}}}} . - - - (21)

相似地，

乘以

g_{2} = \sqrt{\frac{E {x_{2}^{2}} + Σ_{i = 1}^{M} (d_{i}^{2} - b_{i}^{2}) E {s_{i}^{2}}}{w_{21}^{2} E {x_{1}^{2}} + 2 w_{21} w_{22} E {x_{1} x_{2}} + w_{22}^{2} E {x_{2}^{2}}}} - - - (22)

以具有与所需子带信号y₂(k)相同的功率。

II.边信息的量化和编码

A.编码

如前面章节中描述的，用于使具有索引i的源信号再混合所需的边信息是因子a_i和b_i，以及每个子带中的作为时间的函数的功率E{s₁ ²(k)}。在一些实现方案中，关于增益因子a_i和b_i的对应的增益和声级差的值可以dB为单位计算如下：

g_{i} = {10 \log}_{10} (a_{i}^{2} + b_{i}^{2}), - - - (23)

l_{i} = 20 \log_{10} \frac{b_{i}}{a_{i}} .

在一些实现方案中，对增益和声级差的值进行量化并且进行霍夫曼编码。例如，具有2dB量化器步长的均匀量化器和一维霍夫曼编码器可分别用于量化和编码。也可以使用其他已知的量化器和编码器(例如，矢量量化器)。

如果a_i和b_i是时变的，并且假设边信息可靠地到达解码器，则仅需要传送一次对应的编码值。否则，可以以规则的时间间隔或者响应触发事件(例如，在编码值改变时)传送a_i和b_i。

为了对于因立体声信号的编码引起的立体声信号的调整和功率损失/增益是鲁棒的，在一些实现方案中，子带功率E{s_i ²(k)}未被直接编码为边信息。确切的讲，可以使用相对立体声信号定义的度量：

A_{i} (k) = {10 \log}_{10} \frac{E {s_{i}^{2} (k)}}{E {x_{1}^{2} (k)} + E {x_{2}^{2} (k)}} . - - - (24)

对于各种信号使用相同的估计窗口/时间常数用于计算E{.}可以是有利的。将边信息定义为相对功率值[24]的优点在于，如果需要，在解码器处可以使用不同于编码器处的估计窗口/时间常数。而且，较之源功率将作为绝对值被传送的情况，减小了边信息和立体声信号之间的时间失准的效应。为了对A_i(k)进行量化和编码，在一些实现方案中，使用具有例如2dB步长的均匀量化器和一维霍夫曼编码器。对于将被再混合的每个音频对象，得到的比特率可以低至约3kb/s(千比特每秒)。

在一些实现方案中，当解码器处的对应于将被再混合的对象的输入源信号是静默的时候，可以减小比特率。编码器的编码模式可以检测静默对象，并且随后向解码器传送用于指示对象是静默的信息(例如，单个比特每个帧)。

B.解码

在给定霍夫曼解码(量化)值[23]和[24]的情况下，用于进行再混合所需的值可以计算如下：

{\tilde{a}}_{i} = \frac{10^{\frac{{\hat{g}}_{i}}{20}}}{\sqrt{1 + 10^{\frac{{\hat{l}}_{i}}{10}}}}, - - - (25)

{\tilde{b}}_{i} = \frac{10^{\frac{{\hat{g}}_{i} + {\hat{l}}_{i}}{20}}}{\sqrt{1 + 10^{\frac{{\hat{l}}_{i}}{10}}}},

\hat{E} {s_{i}^{2} (k)} = 10^{\frac{{\hat{A}}_{i} (k)}{10}} (E {x_{1}^{2} (k)} + E {x_{2}^{2} (k)}) .

III.实现方案细节

A.时间-频率处理

在一些实现方案中，基于STFT(短时傅立叶变换)的处理用于参照图1～3描述的编码/解码系统。其他时间-频率变换可用于实现所需的结果，包括但不限于，正交镜像滤波器(QMF)滤波器组、修正离散余弦变换(MDCT)、小波滤波器组等。

对于分析处理(例如，前向滤波器组操作)，在一些实现方案中，在应用N点离散傅立叶变换(DFT)或快速傅立叶变换(FFT)之前，N个样本的帧可以乘以窗口。在一些实现方案中，可以使用如下正弦窗口：

如果处理块尺寸不同于DFT/FFT尺寸，则在一些实现方案中可以使用零填充以有效地具有小于N的窗口。可以例如每N/2个样本(等于窗口跳尺寸)重复所描述的分析处理，导致50％的窗口重叠。其他窗口函数和重叠百分比可用于实现所需的结果。

为了从STFT频谱域变换到时域，逆DFT或FFT可应用于频谱。得到的信号再次与[26]中描述的窗口相乘，并且通过与窗口相乘得到的相邻的信号块与添加的重叠被组合以获取连续的时域信号。

在一些情况中，STFT的均匀的频谱分辨率可能不能良好地适于人类感知。在这些情况中，与单独地处理每个STFT频率系数相反，STFT系数可被“分组”，以便于一个组具有约两倍于等效矩形带宽(ERB)的带宽，该带宽是适用于空间音频处理的频率分辨率。

图4说明了属于具有索引b的分区的STFT系数的索引i。在一些实现方案中，由于频谱是对称的，因此仅考虑频谱的最初N/2+1个频谱系数。如图4中说明的，属于具有索引b(1≤b≤B)的分区的STFT系数的索引是i∈{A_b-1，A_b-1+1，...，A_b}，其中A₀＝0。由分区的频谱系数表示的信号对应于编码系统使用的感知激励的子带分解。因此，在每个该分区中，所描述的处理被联合地应用于分区中的STFT系数。

图5示例性地说明了对用于模仿人类听觉系统的非均匀频率分辨率的均匀STFT频谱的频谱系数进行分组。在图5中，对于44.1kHz的采样率和B＝20的分区数目，N＝1024，每个分区具有约2ERB的带宽。应当注意，由于Nyquist频率处的截止，最末的分区小于两个ERB。

B.统计数据的估计

在给定两个STFT系数x_i(k)和x_i(k)的情况下，可以迭代地估计用于计算再混合立体声音频信号所需的值E{x_i(k)x_j(k)}。在该情况中，子带采样频率f_s是计算STFT频谱的临时频率。为了获取关于每个感知分区(而非关于每个STFT系数)的估算，在可以在进一步使用之前在分区中对估计的值取平均。

前面章节中描述的处理可以应用于每个分区，如同每个分区是一个子带。可以使用例如，重叠频谱窗口实现分区之间的平滑，以避免频率中的突然处理改变，因此减少人工效果。

C.与常规音频编码器组合

图6A是与常规的立体声音频编码器组合的图1A的编码系统的实现方案的框图。在一些实现方案中，组合编码系统600包括常规的音频编码器602、所提出的编码器604(例如，编码系统100)和比特流组合器606。在所示出的示例中，如前面参照图1～5描述的，立体声音频输入信号通过常规的音频编码器602(例如，MP3、AAC、MPEG环绕声等)被编码并且通过所提出的编码器604被分析以提供边信息。通过比特流组合器606将两个得到的比特流组合以提供向后兼容比特流。在一些实现方案中，将得到的比特流组合包括将低比特率边信息(例如，增益因子a_i、b_i和子带功率E{s_i ²(k)})嵌入到向后兼容比特流中。

图6B是使用与常规的立体声音频编码器组合的图1A的编码系统100的编码过程608的实现方案的流程图。使用常规的立体声音频编码器对输入立体声信号编码(610)。使用图1A的编码系统100自立体声信号和M个源信号生成边信息(612)。生成包括编码立体声信号和边信息的一个或多个向后兼容比特流(614)。

图7A是用于提供组合系统700的与常规的立体声音频解码器组合的图3A的再混合系统300的实现方案的框图。在一些实现方案中，组合系统700通常包括比特流解析器702、常规的音频解码器704(例如，MP3、AAC)和所提出的解码器706。在一些实现方案中，所提出的解码器706是图3A的再混合系统300。

在所示出的示例中，比特流被分为立体声音频比特流和包含所提出的解码器706所需的边信息的比特流以提供再混合能力。立体声信号通过常规的音频解码器704被解码并且被馈送到所提出的解码器706，解码器706修改立体声信号，作为获取自比特流的边信息和用户输入(例如，混合增益c_i和d_i)的函数。

图7B是使用图7A的组合系统700的再混合过程708的一个实现方案的流程图。将从编码器接收的比特流解析以提供编码立体声信号比特流和边信息比特流(710)。使用常规的音频解码器对编码立体声信号解码(712)。示例解码器包括MP3、AAC(包括AAC的各种标准化简档)、参量立体声、频谱带复制(SBR)、MPEG环绕声或者其任何组合。使用边信息和用户输入(例如，c_i和d_i)使解码立体声信号再混合。

IV.多信道音频信号的再混合

在一些实现方案中，前面章节中描述的编码和再混合系统100、300可以扩展到再混合多信道音频信号(例如，5.1环绕信号)。在下文中，立体声信号和多信道信号还被称为“多个信道”信号。本领域的普通技术人员将理解，如何针对多信道编码/解码方案，即，针对不止两个信号x₁(k)、x₂(k)、x₃(k)、...、x_C(k)，重写[7]至[22]，其中C是混合信号的音频信道的数目。

关于多信道情况的式[9]变为

{\hat{y}}_{1} (k) = Σ_{c = 1}^{C} w_{1 c} (k) x_{c} (k), - - - (27)

{\hat{y}}_{C} (k) = Σ_{c = 1}^{C} w_{Cc} (k) x_{c} (k),

{\hat{y}}_{2} (k) = Σ_{c = 1}^{C} w_{2 c} (k) x_{c} (k),

...

如前文所述，可以得到具有C个方程的如[11]的方程并且求解这些方程以确定权重。

在一些实现方案中，某些信道可以是不被处理的。例如，对于5.1环绕声，两个后信道可以是不被处理的并且仅对前面的左、右和中心信道应用再混合。在该情况中，可以针对前信道应用三信道再混合算法。

从所公开的再混合方案得到的音频质量取决于所执行的修改的本质。对于相对弱的修改，例如，从0dB至15dB的摇摆改变或者10dB的增益修改，得到的音频质量可高于通过常规技术实现的音频质量。而且，由于仅在必要时修改立体声信号以实现所需的再混合，因此所提出的公开再混合方案的质量可高于常规的再混合方案。

此处公开的再混合方案提供了优于常规技术的数个优点。首先，其允许给定立体声或多信道音频信号中的少于对象总数的对象的再混合。这是通过估计作为给定立体声音频信号加上M个源信号的函数的边信息实现的，该M个源信号表示立体声音频信号中的能够在解码器处进行再混合的M个对象。所公开的再混合系统处理作为边信息的函数和作为用户输入(所需再混合)的函数的给定立体声信号以生成感知上与进行不同的真实混合的立体声信号相似的立体声信号。

V.针对基本再混合方案的增强

A.边信息预处理

当子带相对于相邻子带衰减过多时，可能出现音频人工效果。因此，需要限制最大衰减。此外，由于立体声信号和对象源信号统计是在编码器和解码器处分别独立测量的，因此测量的立体声信号子带功率和对象信号子带功率(如边信息表示的)之间的比可能偏离现实。因此，边信息在物理上可能是不可能的，例如，再混合信号[19]的信号功率可能变为负的。如下文所述可以解决上述两个问题。

左和右再混合信号的子带功率是

E {y_{1}^{2}} = E {x_{1}^{2}} + Σ_{i = 1}^{M} (c_{i}^{2} - a_{i}^{2}) P_{s_{i}}, - - - (28)

E {y_{2}^{2}} = E {x_{2}^{2}} + Σ_{i = 1}^{M} (d_{i}^{2} - b_{i}^{2}) P_{s_{i}},

其中

等于[25]中给出的量化和编码子带功率估算，其是作为边信息的函数而计算的。再混合信号的子带功率可被限制为，其从不小于比原始立体声信号E{x₁ ²}的子带功率低L dB。相似地，E{y₂ ²}被限制为不小于比E{x₂ ²}低L dB。该结果可以通过如下运算实现：

1.根据[28]计算左和右再混合信号子带功率。

2.如果

则调节边信息计算值以便于保持

为了将功率E{y₁ ²}限制为从不小于比功率E{x₁ ²}低A dB，Q可被设定为Q＝10^-A/10。然后，可以通过使

乘以

\frac{(1 - Q) E {x_{1}^{2}}}{- Σ_{i = 1}^{M} (c_{i}^{2} - a_{i}^{2}) P_{s_{i}}} . - - - (29)

调节

3.如果

则调节边信息计算值

以便于保持

这可以通过使

乘以

\frac{(1 - Q) E {x_{2}^{2}}}{- Σ_{i = 1}^{M} (d_{i}^{2} - b_{i}^{2}) P_{s_{i}}} . - - - (30)

实现。

4.值被设定为调节的

并且计算权重w₁₁、w₁₂、w₂₁和w₂₂。

B.使用四个或两个权重之间的决定

对于许多情况，两个权重[18]足够用于计算左和右再混合信号子带[9]。在一些情况中，通过使用四个权重[13]和[15]可以实现更好的结果。使用两个权重意味着，仅使用左原始信号用于生成左输出信号并且对于右输出信号情况亦是如此。因此，需要四个权重的情形是，一侧的对象被再混合为位于另一侧。在该情况中，可以预见到，由于原始仅位于一侧(例如，在左信道中)的信号将在再混合之后主要位于另一侧(例如，在右信道中)，因此使用四个权重是有利的。因此，四个权重可用于允许信号从原始的左信道流动到再混合的右信道，反之亦然。

当计算四个权重的最小二乘问题是病态的时候，权重量值可能是大的。相似地，当使用上述的从一侧到另一侧的再混合时，仅使用两个权重时的权重量值可能是大的。通过该观察所激励，在一些实现方案中，可以使用如下标准决定使用四个还是两个权重。

如果A＜B，则使用四个权重，否则使用两个权重。A和B分别是关于四个和两个权重的权重量值的度量。在一些实现方案中，A和B计算如下。为了计算A，首先根据[13]和[15]计算四个权重并且随后设定A＝w₁₁ ²+w₁₂ ²+w₂₁ ²+w₂₂ ²。为了计算B，可以根据[18]计算权重并且随后计算B＝w₁₁ ²+w₂₂ ²。

在一些实现方案中，串音，即w12和w21，可用于改变极端摇摆对象的位置。使用两个或四个权重的决定可以如下执行：

·

使原始摇摆信息与给定阈值比较，决定对象是否是极端摇摆的：

·检查对象是否具有某个相关功率：

·

使原始摇摆信息与所需摇摆信息比较，决定是否需要改变对象的位置。应当注意，即使对象未摇摆到另一侧，例如，其略微朝向中心移动，但是在该对象不是极端摇摆的情况下，应从另一侧收听到该对象，因此应实现串音。

通过将原始摇摆信息与所需摇摆信息比较，可以容易地检查改变对象位置的请求。然而，由于估计误差，需要给出某个裕度以控制该决定的灵敏度。由于将α、β设定为所需的值，因此可以容易地控制该决定的灵敏度。

C.在需要时提高衰减程度

当源被完全移除时，例如，对于卡拉OK应用移除主唱音轨，其混合增益是c_i＝0、d_i＝0。然而，当用户选择零混合增益时，所实现的衰减程度可能受到限制。因此，为了提高衰减，从边信息获取的对应的源信号的源子带功率值

在被用于计算权重w₁₁、w₁₂、w₂₁和w₂₂之前，可以通过大于1的值(例如，2)进行调整。

D.通过权重平滑提高音频质量

已观察到，所公开的再混合方案可能在所需信号中引入人工效果，特别是在音频信号是音调的或固定的时候。为了提高音频质量，在每个子带处，可以计算固定性/音调度量。如果固定性/音调度量超过某个阈值TON₀，则估计权重随时间是平滑的。平滑操作描述如下：对于每个子带，在每个时间索引k处，获取如下用于计算输出子带而应用的权重：

·如果TON(k)＞TON₀，则

{\tilde{w}}_{12} (k) = {αw}_{21} (k) + (1 - α) {\tilde{w}}_{12} (k - 1), - - - (31)

{\tilde{w}}_{11} (k) = {αw}_{11} (k) + (1 - α) {\tilde{w}}_{11} (k - 1),

{\tilde{w}}_{22} (k) = {αw}_{22} (k) + (1 - α) {\tilde{w}}_{22} (k - 1),

{\tilde{w}}_{21} (k) = {αw}_{21} (k) + (1 - α) {\tilde{w}}_{21} (k - 1),

其中

和

是平滑的权重并且w₁₁(k)、w₁₂(k)、w₂₁(k)和w₂₂(k)是如前文所述计算的非平滑的权重。

·否则

{\tilde{w}}_{11} (k) = w_{11} (k), - - - (32)

{\tilde{w}}_{11} (k) = w_{11} (k),

{\tilde{w}}_{12} (k) = w_{12} (k),

{\tilde{w}}_{22} (k) = w_{22} (k) .

E.环境/混响控制

此处描述的再混合技术在混合增益c_i和d_i方面提供了用户控制。这对应于针对每个对象确定增益G_i和幅度摇摆L_i(方向)，其中增益和摇摆完全由c_i和d_i确定，

L_{i} = {20 \log}_{10} \frac{c_{i}}{d_{i}} . - - - (33)

G_{1} = {10 \log}_{10} (c_{i}^{2} + d_{i}^{2}),

在一些实现方案中，可能需要控制除了源信号的增益和幅度摇摆之外的其他立体声混合特征。在下面的描述中，描述了用于修改立体声音频信号的环境程度的技术。对于该解码器任务不使用边信息。

在一些实现方案中，[44]中给出的信号模型可用于修改立体声信号的环境程度，其中假设n₁和n₂的子带功率相等，即

E {n_{1}^{2} (k)} = E {n_{2}^{2} (k)} = P_{N} (k) . - - - (34)

再次地，可以假设s、n₁和n₂是相互独立的。在给定这些假设的情况下，相干性[17]可被写为

φ (k) = \frac{\sqrt{(E {x_{1}^{2} (k)} - P_{N} (k)) (E {x_{2}^{2} (k)} - P_{N} (k))}}{\sqrt{E {x_{1}^{2} (k)} E {x_{2}^{2} (k)}}}, - - - (35)

这对应于具有变量P_N(k)的二次方程，

P_{N}^{2} (k) - (E {x_{1}^{2} (k)} + E {x_{2}^{2} (k)}) P_{N} (k) + E {x_{1}^{2} (k)} E {x_{1}^{2} (k)} (1 - φ {(k)}^{2}) = 0 . - - - (36)

该二次方程的解是

P_{N} (k) = \frac{(E {x_{1}^{2} (k)} + E {x_{2}^{2} (k)} &PlusMinus; \sqrt{{(E {x_{1}^{2} (k)} + E {x_{2}^{2} (k)})}^{2} - 4 E {x_{1}^{2} (k)} E {x_{2}^{2} (k)} (1 - {φ (k)}^{2})}}{2}

，(37)

由于P_N(k)必须小于或等于E{x₁ ²(k)}+E{x₂ ²(k)}，因此物理上可能的解是平方根之前具有负号的解，

P_{N} (k) = \frac{(E {x_{1}^{2} (k)} + E {x_{2}^{2} (k)}) - \sqrt{{(E {x_{1}^{2} (k)} + E {x_{2}^{2} (k)})}^{2} - 4 E {x_{1}^{2} (k)} E {x_{2}^{2} (k)} (1 - {φ (k)}^{2})}}{2}

，(38)

在一些实现方案中，为了控制左和右环境，可以针对两个对象应用再混合技术：一个对象是左侧的子带功率

的具有索引i₁的源，即a_i1＝1并且b_i1＝0。另一对象是右侧的子带功率

的具有索引i₂的源，即a_i2＝0并且b_i2＝1。为了改变环境量，用户可以选择c_i1＝d_i1＝10^ga/20和c_i2＝d_i1＝0，其中g_a是以dB为单位的环境增益。

F.不同的边信息

在一些实现方案中，在比特率方面更加高效的所公开的再混合方案中，可以使用修改的或不同的边信息。例如，在[24]中，A_i(k)可以具有任意值。还存在对原始源信号s_i(n)的声级的依赖性。因此，为了获取所需范围中的边信息，需要调节源输入信号的声级。为了避免该调节，并且为了去除边信息对原始源信号声级的依赖性，在一些实现方案中，源子带功率不仅可如[24]中相对立体声信号子带功率被归一化，而且混合增益可被考虑为：

A_{i} (k) = 10 \log_{10} \frac{(a_{i}^{2} + b_{i}^{2}) E {s_{i}^{2}}}{E {x_{1}^{2} (k)} + E {x_{2}^{2} (k)}} . - - - (39)

这对应于将相对立体声信号归一化的立体声信号中包含的源功率用作边信息(而非直接使用源功率)。可替选地，可以使用如下归一化：

A_{i} (k) = {10 \log}_{10} \frac{E {s_{i}^{2} (k)}}{\frac{1}{a_{i}^{2}} E {x_{1}^{2} (k)} + \frac{1}{b_{i}^{2}} E {x_{2}^{2} (k)}} . - - - (40)

由于A_i(k)仅可以取小于或等于0dB的值，因此该边信息也是更加高效的。应当注意，可以求解[39]和[40]，用于子带功率E{s_i ²(k)}。

G.立体声源信号/对象

此处描述的再混合方案可以容易地扩展到处理立体声源信号。出于边信息的角度，立体声源信号被视为如两个单信道源信号：一个信号仅被混合到左侧并且另一个信号仅被混合到右侧。即，左源信道i具有非零左增益因子a_i和零右增益因子b_i+1。可以利用[6]估计增益因子a_i和b_i+1。可以如同立体声源是两个单信道源的情况，传送边信息。需要将一些信息传送到解码器以向解码器指示哪些源是单信道源并且哪些源是立体声源。

对于解码器处理和图形用户接口(GUI)，一种可能性是在解码器处将立体声源信号相似地呈现为单信道源信号。即，立体声源信号具有与单信道源信号相似的增益和摇摆控制。在一些实现方案中，非再混合立体声信号的GUI的增益和摇摆控制同增益因子之间的关系可被选择为：

{PAN}_{0} = {20 \log}_{10} \frac{b_{i + 1}}{a_{i}} . - - - (41)

GAIN₀＝0dB，

即，GUI可以在最初时被设定为这些值。用户选择的GAIN和PAN同新的增益因子之间的关系可被选择为：

GAIN = 10 \log 10 \frac{(c_{i}^{2} + d_{i + 1}^{2})}{(a_{i}^{2} + b_{i + 1}^{2})}, - - - (42)

PAN = {20 \log}_{10} \frac{d_{i + 1}}{c_{i}} .

对于可用作再混合增益的c_i和d_i+1，可以解方程[42](c_i+1＝0并且d_i＝0)。所描述的功能与立体声放大器上的“平衡”控制相似。在不引入串音的情况下修改源信号的左和右信道的增益。

VI.边信息的盲生成

A.边信息的全盲生成

在所公开的再混合方案中，编码器接收立体声信号和表示将在解码器处被再混合的对象的许多个源信号。通过增益因子a_i和b_i以及子带功率E{s_i ²(k)}确定用于使具有索引i的源信号在解码器处被再混合所需的边信息。前面的章节描述了给定源信号时的情况中的边信息确定。

尽管立体声信号易于获取(由于这对应于现有产品)，但是可能难于获取对应于将在解码器处被再混合的对象的源信号。因此，即使对象的源信号是不可用的，仍需要生成用于再混合的边信息。在下面的描述中，描述了用于仅从立体声信号生成边信息的全盲生成技术。

图8A是实现全盲边信息生成的编码系统800的实现方案的框图。编码系统800通常包括滤波器组阵列802、边信息生成器804和编码器806。立体声信号由滤波器组阵列802接收，其将该立体声信号(例如，右和左信道)分解为子带对。该子带对由边信息处理器804接收，其使用所需的源声级差L_i和增益函数f(M)从该子带对生成边信息。应当注意，滤波器组阵列802和边信息处理器804均不针对源信号进行操作。边信息完全得自输入立体声信号、所需的源声级差L_i和增益函数f(M)。

图8B是使用图8A的编码系统800的编码过程808的实现方案的流程图。将输入立体声信号分解为子带对(810)。对于每个子带，使用所需的源声级差值L_i确定关于每个所需源信号的增益因子a_i和b_i(812)。对于直达声音源信号(例如，录音室中的中心摇摆的源信号)，所需的源声级差是L_i＝0dB。给定L_i，增益因子被计算为：

a_{i} = \frac{1}{\sqrt{1 + A}} - - - (43)

b_{i} = \frac{\sqrt{A}}{\sqrt{1 + A}},

其中A＝10^Li/0。应当注意a_i和b_i已被计算为该条件不是必需的；确切的讲，可以任意选择以防止a_i或b_i在L_i的量值是大的时候是大的。

下一步，使用子带对和混合增益估计直达声音的子带功率(814)。为了计算直达声音子带功率，可以假设每次每个输入信号的左和右子带均可以被写为

x₁＝as+n₁.

x₂＝bs+n₂，(44)

其中a和b是混合增益，s表示所有源信号的直达声音并且n₁和n₂表示独立环境声音。

可以假设a和b是

b = \frac{\sqrt{B}}{\sqrt{1 + B}}, - - - (45)

a = \frac{1}{\sqrt{1 + B}},

其中应当注意，a和b可被计算为，s包含在x₂和x₁中的情况下的声级差与x₂和x₁之间的声级差相同。直达声音的以dB为单位的声级差是M＝log₁₀B。

我们可以根据[44]中给出的信号模型计算直达声音子带功率E{s²(k)}。在一些实现方案中，使用如下方程组：

E {x_{1}^{2} (k)} = a^{2} E {s^{2} (k)} + E {n_{1}^{2} (k)}, - - - (46)

E {x_{2}^{2} (k)} = b^{2} E {s^{2} (k)} + E {n_{2}^{2} (k)},

E{x₁(k)x₂(k)}＝abE{s²(k)}。

在[46]中已假设[34]中的s、n₁和n₂相互独立，[46]中的左侧的量可被测量，并且a和b是可用的。因此，[46]中的三个未知量是E{s²(k)}、E{n₁ ²(k)}和E{n₂ ²(k)}。直达声音子带功率E{s²(k)}可由下式给出

E {s^{2} (k)} = \frac{E {x_{1} (k) x_{2} (k)}}{ab} - - - (47)

直达声音子带功率还可被写为相干性[17]的函数，

E {s^{2} (k)} = \frac{φ \sqrt{E {x_{1}^{2} (k)} E {x_{2}^{2} (k)}}}{ab} . - - - (48)

在一些实现方案中，所需源子带功率E{s_i ²(k)}的计算可以分两步执行：首先，计算直达声音子带功率E{s²(k)}，其中s表示[44]中的所有源的直达声音(例如，中心摇摆)。然后，通过修改直达声音子带功率E{s²(k)}，计算(816)所需源子带功率E{s_i ²(k)}，作为直达声音方向(由M表示)和所需声音方向(由所需源声级差L表示)的函数：

E {s_{i}^{2} (k)} = f (M (k)) E {s^{2} (k)}, - - - (49)

其中f(.)是增益函数，该增益函数作为方向的函数，仅针对所需源方向返回接近1的增益因子。作为最终步骤，增益因子和子带功率E{s_i ²(k)}可被量化和编码以生成边信息(818)。

图9说明了关于所需的源声级差L_i＝L dB的示例增益函数f(M)。应当注意，可以在选择f(M)方面控制方向性程度以具有所需方向L₀周围的更大或更小的窄峰。对于中心处的所需源，可以使用L₀＝6dB的峰宽度。

应当注意，通过上述全盲技术，可以确定关于给定源信号s_i的边信息(a_i、b_i、E{s_i ²(k)})。

B.边信息的盲生成和非盲生成之间的组合

上述全盲生成技术在某些情况下可能受到限制。例如，如果两个对象具有关于立体声录音室的相同的位置(方向)，则可能不能盲生成与一个或两个对象相关的边信息。

针对边信息的全盲生成的替选方案是边信息的部分盲生成。部分盲技术生成粗略对应于原始对象波形的对象波形。这可以例如，通过使歌手或乐师演奏/重现特定的对象信号来完成。或者，可以部署用于此目的的MIDI数据并且使合成器生成对象信号。在一些实现方案中，“粗略”对象波形与立体声信号时间对准，其中针对该立体声信号生成边信息。然后，可以使用作为盲和非盲边信息生成的组合的过程生成边信息。

图10是使用部分盲生成技术的边信息生成过程1000的实现方案的示图。过程1000开始于获取输入立体声信号和M个“粗略”源信号(1002)。下一步，确定用于M个“粗略”源信号的增益因子a_i和b_i(1004)。在每个子带中的每个时隙中，确定关于每个“粗略”源信号的子带功率的第一短时估算E{s_i ²(k)}(1006)。使用应用于输入立体声信号的全盲生成技术确定关于每个“粗略”源信号的子带功率的第二短时估算Ehat{s_i ²(k)}(1008)。

最后，针对估计的子带功率应用组合第一和第二子带功率估算并且返回最终估算的函数，其可以有效地用于边信息计算(1010)。在一些实现方案中，函数F()由下式给出

F (E {s_{i}^{2} (k)}, \hat{E} {s_{i}^{2} (k)}) - - - (50)

F (E {s_{i}^{2} (k)}, \hat{E} {s_{i}^{2} (k)}) = \min (E {s_{i}^{2} (k)}, \hat{E} {s_{i}^{2} (k)})

VII.架构、用户接口、比特流语法

A.客户机/服务器架构

图11是用于向具有再混合能力的音频设备1110提供立体声信号和M个源信号和/或边信息的客户机/服务器架构1100的实现方案的框图。架构1100仅是示例。其他架构也是可能的，包括具有更多或更少部件的架构。

架构1100通常包括具有知识库1104(例如，MySQL^TM)和服务器1106(例如，Windows^TM NT、Linux服务器)的下载业务1102。知识库1104可以存储各种类型的内容，包括专业混合立体声信号，以及对应于立体声信号中的对象的关联的源信和各种效果(例如，混响)号。立体声信号可以被存储为各种标准化格式，包括MP3、PCM、AAC等。

在一些实现方案中，源信号存储在知识库1104中并且可用于下载到音频设备1110。在一些实现方案中，预处理边信息存储在知识库1104中并且可用于下载到音频设备1110。可以使用参照图1A、6A和8A描述的一个或多个编码方案通过服务器1106生成预处理边信息。

在一些实现方案中，下载业务1102(例如，Web站点、音乐商店)通过网络1108(例如，互联网、内联网、以太网、无线网络、对等网络)与音频设备1110通信。音频设备1110可以是能够实现所公开的再混合方案的任何设备(例如，媒体播放器/记录器、移动电话、个人数字助理(PDA)、游戏控制台、机顶盒、电视接收机、媒体中心等)。

B.音频设备架构

在一些实现方案中，音频设备1110包括一个或多个处理器或处理器核1112、输入设备1114(例如，点拨轮、鼠标、操纵杆、触摸屏)、输出设备1120(例如，LCD)、网络接口1118(例如，USB、防火墙、以太网、网络接口卡、无线收发信机)和计算机可读介质1116(例如，存储器、硬盘、闪存驱动器)。一些或所有该部件可以通过通信信道1122(例如，总线、网桥)发送和/或接收信息。

在一些实现方案中，计算机可读介质1116包括操作系统、音乐管理器、音频处理器、再混合模块和音乐库。操作系统负责管理音频设备1110的基本管理和通信任务，包括文件管理、存储器接入、总线连接、控制外围设备、用户接口管理、电力管理等。音乐管理器可以是管理音乐库的应用。音频处理器可以是用于播放音乐文件(例如，MP3、CD音频等)的常规的音频处理器。再混合模块可以是实现参照图1～10描述的再混合方案的功能的一个或多个软件部件。

在一些实现方案中，如参照图1A、6A和8A描述的，服务器1106对立体声信号编码并且生成边信息。立体声信号和边信息通过网络1108被下载到音频设备1110。再混合模块对信号和边信息解码并且基于通过输入设备1114(例如，键盘、点拨轮、触摸显示器)接收的用户输入提供再混合能力。

C.用于接收用户输入的用户接口

图12说明了具有再混合能力的媒体播放器1200的用户接口1202的实现方案。用户接口1202还可以适用于其他设备(例如，移动电话、计算机等)。用户接口不限于所示出的配置或格式，并且可以包括不同类型的用户接口元素(例如，导航控制、触摸表面)。

用户可以通过加亮用户接口1202上的适当的项目进入设备1200的“再混合”模式。在该示例中，假设用户从音乐库中选择了歌曲并且希望改变主唱音轨的摇摆设定。例如，用户可能希望在左音频信道中收听更多的主唱。

为了获取对所需摇摆控制的接入，用户可以导航浏览一系列的子菜单1204、1206和1208。例如，用户可以使用滚轮1210滚读子菜单1204、1206和1208上的项目。用户可以通过点击按钮1212选择加亮的菜单项目。子菜单1208提供对关于主唱音轨的所需摇摆控制的接入。随后，在播放歌曲的同时，用户可以(例如，使用滚轮1210)操纵滑动器按照需要调节主唱的摇摆。

D.比特流语法

在一些实现方案中，参照图1-10描述的再混合方案可以包括在现有的或未来的音频编码标准(例如，MPEG-4)中。用于现有的或未来的编码标准的比特流语法可以包括具有再混合能力的解码器使用的用于确定如何处理比特流以允许用户再混合的信息。该语法可被设计为通过常规编码方案提供向后兼容性。例如，比特流中包括的数据结构(例如，分组报头)可以包括指示用于再混合的边信息(例如，增益因子、子带功率)的可用性的信息(例如，一个或多个比特或标志)。

VIII.无伴奏模式和自动增益/摇摆调节

A.无伴奏模式增强方案

立体声无伴奏信号对应于仅包括声音的立体声信号。在不丧失一般性的前提下，令最初M个源s₁、s₂、...、s_M为[1]中的声音源。为了从原始立体声信号获取立体声无伴奏信号，可以使非声音源衰减。所需的立体声信号是

{\hat{y}}_{2} (n) = K ({\tilde{x}}_{2} (n) - Σ_{i = 1}^{M} b_{i} {\tilde{s}}_{i} (n)) + Σ_{i = 1}^{M} b_{i} {\tilde{s}}_{i} (n), - - - (51)

{\hat{y}}_{1} (n) = K ({\tilde{x}}_{1} (n) - Σ_{i = 1}^{M} a_{i} {\tilde{s}}_{i} (n)) + Σ_{i = 1}^{M} a_{i} {\tilde{s}}_{i} (n),

其中K是用于非声音源的衰减因子。由于不使用摇摆，因此通过使用从[50]的无伴奏立体声信号定义得到的期望值，可以计算新的二权重Wiener滤波器：

E {x_{2} y_{2}} = KE {x_{2}^{2}} + (1 - K) Σ_{i = 1}^{M} b_{i}^{2} E {s_{i}^{2}} . - - - (52)

E {x_{1} y_{1}} = KE {x_{2}^{2}} + (1 - K) Σ_{i = 1}^{M} a_{i}^{2} E {s_{i}^{2}},

通过将K设定为可以使非声音源衰减A dB，给出了得到立体声无伴奏信号的印象。

B.自动增益/摇摆调节

在改变源的增益和摇摆设定时，可以选择导致削弱的渲染质量的极值。例如，除一个保持0dB之外将所有源移至最小增益，或者除一个移至右侧之外将所有源移至左侧，可以产生关于该隔离的源的差的音频质量。该情形应被避免，以保持没有人工效果的干净渲染的立体声信号。一种用于避免该情形的手段是防止增益和摇摆控制的极端设定。

每个控制k，增益和摇摆滑动器g_k和p_k分别可以具有范围[-1，1]中的图形用户接口(GUI)中的内部值。为了限制极端设定，增益滑动器之间的平均距离可被计算为

μ_{G} = \frac{1}{K} Σ_{k = 1}^{K} | g_{k} |, - - - (53)

其中K是控制的数目。μ_G越接近1，则设定越极端。

随后将调节因子G_adjust作为平均距离μ_G的函数来计算以限制GUI中的增益滑动器的范围：

G_adjust＝1-(1-ηG)μ_G， (54)

其中η_G定义了关于例如μ_G＝1的极端设定的自动调整G_adjust的程度。典型地，η_G被选择为等于约0.5以在极端设定的情况中使增益减少一半。

依照相同的过程，计算P_adjust并且将其应用于摇摆滑动器，以便于有效增益和摇摆被调整为

g_k＝G_adjustg_k，(55)

p_k＝P_adjustp_k。

所公开的和其他的实施例以及本说明书中描述的功能操作可以在数字电子电路中实现，或者在包括本说明书中公开的结构及其结构等效方案的计算机软件、固件或硬件中实现，或者通过组合一个或多个以上手段来实现。所公开的和其他的实施例可被实现为一个或多个计算机程序产品，即用于由数据处理装置执行或者控制数据处理装置操作的在计算机可读介质上编码的一个或多个计算机程序指令模块。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、实现机器可读传播信号的事件的组合或者一个或多个以上介质的组合。术语“数据处理装置”涵盖用于处理数据的所有装置、设备和机器，包括作为示例的可编程处理器、计算机或者多个处理器或计算机。除了硬件之外，该装置可以包括创建关于正被讨论的计算机程序的执行环境的代码，例如，构成处理器固件、协议堆栈、数据库管理系统、操作系统或者一个或多个以上执行环境的组合的代码。传播信号是人工生成信号，例如，机器生成的电、光或电磁信号，其被生成以对用于传送到适当的接收机装置的信息编码。

计算机程序(还被称为程序、软件、软件应用、脚本或代码)可以通过任何形式的编程语言编写，包括编译或解释语言，并且其可以通过任何形式部署，包括作为独立的程序或者作为模块的部件、子程序或者适于在计算环境中使用的其他单元。计算机程序不必对应于文件系统中的文件。程序可以存储在保存其他程序或数据(例如，存储在标记语言文档中的一个或多个脚本)的文件的一部分中，保存在正被讨论的程序专用的单个文件中，或者保存在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。计算机程序可被部署为在一个计算机上执行或者在位于一个地点或跨越多个地点分布并且通过通信网络互连的多个计算机上执行。

本说明书中描述的过程和逻辑流程可以通过一个或多个可编程处理器执行，该可编程处理器通过对输入数据进行操作并且生成输出，执行一个或多个计算机程序以执行功能。该过程和逻辑流程还通过专用逻辑电路来实现，或者装置也可被实现为专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

作为示例，适用于执行计算机程序的处理器包括通用和专用微处理器和任何类别的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或此两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如，磁盘、磁-光盘或者光盘，或者操作耦合至这些大容量存储设备以从其接收数据或者向其传输数据或者执行这两个操作。然而，计算机不需要具有这些设备。用于存储计算机程序指令和数据的计算机可读媒体包括所有形式的非易失存储器、媒体和存储器设备，其包括作为示例的半导体存储器设备，例如，EPROM、EEPROM和闪速存储器设备；磁盘，例如，内部硬盘或可移除盘；磁-光盘；以及CD-ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或者被并入专用逻辑电路。

为了提供与用户的交互，所公开的实施例可以在计算机上实现，该计算机具有显示设备，例如CRT(阴极射线管)或LCD(液晶显示器)监视器，其用于向用户显示信息；以及键盘和指向设备，例如鼠标或轨迹球，用户可以通过其向计算机提供输入。也可以使用其他类别的设备提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以通过任何形式接收来自用户的输入，包括声、语音或触觉输入。

所公开的实施例可以在计算系统中实现，该计算系统包括后端部件，例如数据服务器，或者包括中间部件，例如应用服务器，或者包括前端部件，例如具有图形用户接口或Web浏览器的客户机计算机，用户可以通过该图形用户接口或Web浏览器与这里公开的实现方案交互，或者包括一个或多个该后端、中间或前端部件的任何组合。系统部件可以通过数字数据通信的任何形式或介质(例如通信网络)被互联。通信网络的示例包括局域网(LAN)和例如互联网的广域网(WAN)。

计算系统可以包括客户机和服务器。客户机和服务器通常相互是远程的并且典型地通过通信网络交互。客户机和服务器的关系是依靠在各个计算机上运行并且具有相互的客户机-服务器关系的计算机程序而引出的。

VIII.使用再混合技术的系统的示例

图13说明了组合空间音频对象解码(SAOC)和再混合解码的解码器系统1300的实现方案。SAOC是用于处理多信道音频的音频技术，其允许编码声音对象的交互式操纵。

在一些实现方案中，系统1300包括混合信号解码器1301、参数生成器1302和再混合渲染器1304。参数生成器1302包括盲估计器1308、用户混合参数生成器1310和再混合参数生成器1306。再混合参数生成器1306包括均衡混合参数生成器1312和上混合参数生成器1314。

在一些实现方案中，系统1300提供两个音频过程。在第一过程中，再混合参数生成器1306使用编码系统提供的边信息生成再混合参数。在第二过程中，通过盲估计器1308生成盲参数并且再混合参数生成器1306使用该盲参数生成再混合参数。如参照图8A和8B描述的，可以通过盲估计器1308执行盲参数和全盲或部分盲生成过程。

在一些实现方案中，再混合参数生成器1306接收边信息或盲参数，并且从用户混合参数生成器1310接收一组用户混合参数。用户混合参数生成器1310接收终端用户指定的混合参数(例如，GAIN、PAN)并且将混合参数转换为适用于再混合参数生成器1306的再混合处理的格式(例如，转换为增益c_i、d_i+1)。在一些实现方案中，用户混合参数生成器1310提供用于允许用户指定所需混合参数的用户接口，诸如例如参照图12描述的媒体播放器用户接口1200。

在一些实现方案中，再混合参数生成器1306可以处理立体声和多信道音频信号。例如，均衡混合参数生成器1312可以生成用于立体声信道目标的混合参数，并且上混合参数生成器1314可以生成用于多信道目标的再混合参数。参考章节IV描述了基于多信道音频信号的再混合参数生成。

在一些实现方案中，再混合渲染器1304接收关于立体声目标信号或多信道目标信号的再混合参数。均衡混合渲染器1316基于用户混合参数生成器1310提供的格式化的用户指定的立体声混合参数，将立体声再混合参数应用于直接从混合信号解码器1301接收的原始立体声信号以提供所需的再混合立体声信号。在一些实现方案中，可以使用立体声再混合参数的n×n矩阵(例如，2×2矩阵)将立体声再混合参数应用于原始立体声信号。上混合渲染器1318基于用户混合参数生成器1310提供的格式化的用户指定的多信道混合参数，将多信道再混合参数应用于直接从混合信号解码器1301接收的原始多信道信号以提供所需的再混合多信道信号。在一些实现方案中，效果生成器1320生成效果信号(例如，混响)，均衡混合渲染器1316或上混合渲染器分别将该效果信号应用于原始立体声或多信道信号。在一些实现方案中，除了应用再混合参数以生成再混合多信道信号之外，上混合渲染器1318接收原始立体声信号并且将该立体声信号转换(或上混合)为多信道信号。

系统1300可以处理具有各种信道配置的音频信号，允许系统1300集成到现有的音频编码方案(例如，SAOC、MPEG、AAC、参量立体声)中，同时与该音频编码方案保持向后兼容性。

图14A说明了关于分立对话音量(SDV)的通用混合模型。SDV是题为“Separate Dialogue Volume”的美国临时专利申请No.60/884,594中描述的一种改进的对话增强技术。在SDV的一个实现方案中，立体声信号被记录和混合，从而对于每个源，信号相干地进入具有特定方向线索(例如，声级差、时间差)的左和右信号信道，并且反射/混响独立信号进入确定听觉事件宽度和听者包围感线索的信道。参照图14A，因子a确定听觉事件呈现的方向，其中s是直达声音并且n₁和n₂是横向反射。信号s模仿来自由因子a确定的方向的局部化声音。独立信号n₁和n₂对应于反射/混响声音，其常常被标为环境声音或环境。所描述的场景是关于具有一个音频源的立体声信号的感知激励分解，

x₁(n)＝s(n)+n₁

x₂(n)＝as(n)+n₂，(51)

捕获音频源和环境的局部化。

图14B说明了组合SDV和再混合技术的系统1400的实现方案。在一些实现方案中，系统1400包括滤波器组1402(例如，STFT)、盲估计器1404、均衡混合渲染器1406、参数生成器1408和逆滤波器组1410(例如，逆STFT)。

在一些实现方案中，滤波器组1402接收SDV下混合信号并且将其分解为子带信号。下混合信号可以是[51]给出的立体声信号x₁、x₂。子带信号X₁(i，k)、X₂(i，k)被直接输入到均衡混合渲染器1406中或者盲估计器1404中，盲估计器1404输出盲参数A、P_S、P_N。在题为“SeparateDialogue Volume”的美国临时专利申请No.60/884,594中描述了这些参数的计算。盲参数被输入到参数生成器1408中，参数生成器1408从盲参数和用户指定的混合参数g(i，k)(例如，中心增益、中心带宽、截止频率、干燥度)生成均衡混合参数w₁₁～w₂₂。章节I中描述了均衡混合参数的计算。均衡混合渲染器1406将均衡混合参数应用于子带信号以提供渲染输出信号y₁、y₂。均衡混合渲染器1406的渲染输出信号被输入到逆滤波器组1410，逆滤波器组1410基于用户指定的混合参数将渲染输出信号转换为所需的SDV立体声信号。

在一些实现方案中，如参照图1～12说明的，系统1400还使用再混合技术处理音频信号。在再混合模式中，滤波器组1402接收立体声或多信道信号，诸如[1]和[27]中描述的信号。该信号通过滤波器组1402被分解为子带信号X₁(i，k)、X₂(i，k)并且被直接输入到均衡渲染器1406和用于估计盲参数的盲估计器1404中。盲参数与在比特流中接收的边信息a_i、b_i、P_si一起被输入到参数生成器1408中。参数生成器1408将盲参数和边信息应用于子带信号以生成渲染输出信号。渲染输出信号被输入到逆滤波器组1410，逆滤波器组1410生成所需的再混合信号。

图15说明了图14B中示出的均衡混合渲染器1406的实现方案。在一些实现方案中，通过调整模块1502和1504调整下混合信号X1，并且通过调整模块1506和1508调整下混合信号X2。调整模块1502根据均衡混合参数w₁₁调整下混合信号X1，调整模块1504根据均衡混合参数w₂₁调整下混合信号X1，调整模块1506根据均衡混合参数w₁₂调整下混合信号X2，并且调整模块1508根据均衡混合参数w₂₂调整下混合信号X2。调整模块1502和1506的输出被求和以提供第一渲染输出信号y₁，并且调整模块1504和1508的输出被求和以提供第二渲染输出信号y₂。

图16说明了用于参照图1～15描述的再混合技术的分布系统1600的实现方案。在一些实现方案中，内容提供商1602使用授权工具1604，授权工具1604包括如前面参照图1A描述的用于生成边信息的再混合编码器1606。边信息可以是一个或多个文件的一部分和/或包括在用于比特流业务的比特流中。再混合文件可以具有唯一文件扩展名(例如，filename.rmx)。单个文件可以包括原始混合音频信号和边信息。可替选地，原始混合音频信号和边信息可以作为分立的文件分布在分组、束、包或其他适当的容器中。在一些实现方案中，可以通过预设的混合参数分布再混合文件以帮助用户学习技术和/或用于市场目的。

在一些实现方案中，可将原始内容(例如，原始混合音频文件)、边信息和可选的预设混合参数(“再混合信息”)提供给服务提供商1608(例如，音乐门户)或者将其安置在物理介质(例如，CD-ROM、DVD、媒体播放器、闪存驱动器)上。服务提供商1608可以操作用于服务所有或部分再混合信息和/或包含所有或部分再混合信息的比特流的一个或多个服务器1610。再混合信息可以存储在知识库1612中。服务提供商1608还可以提供用于共享用户生成的混合参数的虚拟环境(例如，社区、门户、公告牌)。例如，用户在能够实现再混合的设备1616(例如，媒体播放器、移动电话)上生成的混合参数可以存储在混合参数文件中，该混合参数文件可以上载到服务提供商1608用于与其他用户共享。混合参数文件可以具有唯一扩展名(例如，filename.rms)。在所示出的示例中，用户使用再混合播放器A生成混合参数文件并且将该混合参数文件上载到服务提供商1608，其中该文件随后由操作再混合播放器B的用户下载。

可以使用任何已知的数字版权管理方案和/或其他已知的安全方法实现系统1600以保护原始内容和再混合信息。例如，操作再混合播放器B的用户可能需要分立地下载原始内容并且在用户可以访问或者使用再混合播放器B提供的再混合特征之前保护证书。

图17A说明了用于提供再混合信息的比特流的基本元素。在一些实现方案中，单个集成比特流1702可被递送到能够实现再混合的设备，其包括混合音频信号(Mixed_Obj BS)、增益因子和子带功率(Ref_Mix_Para BS)以及用户指定的混合参数(User_Mix_Para BS)。在一些实现方案中，关于再混合信息的多个比特流可被独立地递送到能够实现再混合的设备。例如，可以在第一比特流1704中递送混合音频信号，并且可以在第二比特流1706中递送增益因子、子带功率和用户指定的混合参数。在一些实现方案中，可以在三个分立的比特流1708、1710和1712中递送混合音频信号、增益因子和子带功率以及用户指定的混合参数。可以以相同或不同的比特率递送这些分立的比特流。可以使用各种已知技术按照需要处理比特流以节约带宽并且确保鲁棒性，包括比特交织、熵编码(例如，霍夫曼编码)、纠错等。

图17B说明了再混合编码器的比特流接口1714。在一些实现方案中，针对再混合编码器接口1714的输入可以包括混合对象信号、单独的对象或源信号和编码器选项。编码器接口1714的输出可以包括混合音频信号比特流、包括增益因子和子带功率的比特流以及包括预设混合参数的比特流。

图17C说明了再混合解码器的比特流接口1716。在一些实现方案中，针对再混合解码器接口1716的输入可以包括混合音频信号比特流、包括增益因子和子带功率的比特流以及包括预设混合参数的比特流。解码器接口1716的输出可以包括再混合音频信号、上混合渲染器比特流(例如，多信道信号)、盲再混合参数和用户再混合参数。

关于编码器和解码器接口的其他配置也是可能的。图17B和17C中说明的接口配置可用于定义应用编程接口(API)，其用于允许能够实现再混合的设备处理再混合信息。图17B和17C中示出的接口是示例，并且其他配置也是可能的，包括可以部分地基于设备具有不同数目和类型的输入和输出的配置。

图18是示出示例系统1800的框图，该系统1800包括用于生成关于某些对象信号的额外边信息的扩展以提供再混合信号的改进的感知质量。在一些实现方案中，系统1800(在编码侧)包括混合信号编码器1808和增强再混合编码器1802，增强再混合编码器1802包括再混合编码器1804和信号编码器1806。在一些实现方案中，系统1800(在解码侧)包括混合信号解码器1810、再混合渲染器1814和参数生成器1816。

在编码器侧，混合音频信号通过混合信号编码器1808(例如，mp3编码器)被编码并且被发送到解码侧。对象信号(例如，主唱、吉他、鼓或其他乐器)被输入到再混合编码器1804，例如，如前面参照图1A和3A描述的，再混合编码器1804生成边信息(例如，增益因子和子带功率)。此外，感兴趣的一个或多个对象信号被输入到信号编码器1806(例如，mp3编码器)以产生额外的边信息。在一些实现方案中，用于使混合信号编码器1808和信号编码器1806的输出信号分别对准的对准信息被输入到信号编码器1806。对准信息可以包括时间对准信息、所使用的编码规则类型、目标比特率、比特分配信息或策略等。

在解码器侧，混合信号编码器的输出被输入到混合信号解码器1810(例如，mp3解码器)。混合信号解码器1810的输出和编码器边信息(例如，编码器生成的增益因子、子带功率、额外的边信息)被输入到参数生成器1816，参数生成器1816使用这些参数和控制参数(例如，用户指定的混合参数)一起生成再混合参数和额外的再混合数据。再混合渲染器1814可以使用该再混合参数和额外的再混合数据来渲染再混合音频信号。

再混合渲染器1814使用该额外的再混合数据(例如，对象信号)使原始混合音频信号中的特定对象再混合。例如，在卡拉OK应用中，增强再混合编码器1802可以使用表示主唱的对象信号生成额外的边信息(例如，编码对象信号)。参数生成器1816可以使用该信号生成额外的再混合数据，再混合渲染器1814可以使用该额外的再混合数据使原始混合音频信号中的主唱再混合(例如，抑制或衰减主唱)。

图19是示出图18中示出的再混合渲染器1814的示例的框图。在一些实现方案中，下混合信号X1、X2被分别输入到组合器1904、1906中。下混合信号X1、X2可以是例如原始混合音频信号的左和右信道。组合器1904、1906使下混合信号X1、X2与参数生成器1816提供的额外的再混合数据组合。在卡拉OK示例中，组合可以包括在再混合之前从下混合信号X1、X2中减去主唱对象信号以衰减或抑制再混合音频信号中的主唱。

在一些实现方案中，下混合信号X1(例如，原始混合音频信号的左信道)与额外的再混合数据(例如，主唱对象信号的左信道)组合并且通过调整模块1906a和1906b被调整，并且下混合信号X2(例如，原始混合音频信号的右信道)与额外的再混合数据(例如，主唱对象信号的右信道)组合并且通过调整模块1906c和1906d被调整。调整模块1906a根据均衡混合参数w₁₁调整下混合信号X1，调整模块1906b根据均衡混合参数w₂₁调整下混合信号X1，调整模块1906c根据均衡混合参数w₁₂调整下混合信号X2，并且调整模块1906d根据均衡混合参数w₂₂调整下混合信号X2。可以使用线性代数，诸如使用n×n(例如，2×2)矩阵实现该调整。调整模块1906a和1906c的输出被求和以提供第一渲染输出信号Y2，并且调整模块1906b和1906d被求和以提供第二渲染输出信号Y2。

在一些实现方案中，可以在用户接口中实现用于在原始立体声混合，“卡拉OK”模式和/或“无伴奏”模式之间移动的控制。作为该控制位置的函数，组合器1902控制原始立体声信号和通过额外的边信息获取的信号(多个)之间的线性组合。例如，对于卡拉OK模式，可以从立体声信号中减去从额外的边信息获取的信号。随后可以应用再混合处理以移除量化噪声(在立体声和/或其他信号被有损编码的情况中)。为了部分地移除声音，仅需要减去通过额外的边信息获取的信号的一部分。为了仅播放声音，组合器1902选择通过额外的边信息获取的信号。为了播放声音和某种背景音乐，组合器1902将立体声信号的调整版本添加到通过额外的边信息获取的信号。

尽管本说明书包含许多细节，但是它们不应被解释为对权利要求的范围的限制，而是应被解释为特定实施例的特定特征的描述。本说明书中在分立实施例的上下文中描述的某些特征也可以在单个实施例中以组合形式实现。相反地，在单个实施例的上下文中描述的各种特征也可以分立地在多个实施例中实现或者以任何适当的子组合来实现。而且，尽管上文将特征描述为在某些组合中发挥作用并且在权利要求中亦是如此，但是来自权利要求组合的一个或多个特征可以在一些情况中从该组合排除，并且权利要求组合可以涉及子组合或者子组合的变化方案。

相似地，尽管在附图中以特定顺序示出了操作，但是这不应被理解为，为了实现所需的结果，需要按照所示出的特定顺序或者按照依次的顺序执行该操作，或者需要执行所有说明的操作。在特定情况中，多任务和并行处理可能是有利的。而且，上文描述的实施例中的各种系统部件的分离不应被理解为在所有实施例中都需要该分离，并且应当理解，所描述的程序部件和系统通常可以一起集成在单个软件产品中或者封装到多个软件产品中。

已描述了本说明书中描述的主题的特定实施例。其他实施例在所附权利要求的范围内。例如，可以按照不同的顺序执行权利要求中叙述的动作并且仍然实现所需的结果。作为一个示例，为了实现所需的结果，附图中示出的过程不必需要所示出的特定顺序，或者依次的顺序。

作为另一示例，章节5A中描述的边信息的预处理提供了关于再混合信号的子带功率的下限以防止负值，这与[2]中给出的信号模型矛盾。然而，该信号模型不仅意指再混合信号的正功率，还意指原始立体声信号和再混合立体声信号之间的正的叉积，即E{x₁y₁}、E{x₁y₂}、E{x₂y₁}和E{x₂y₂}。

从两个权重的情况开始，为了防止叉积E{x₁y₁}和E{x₂y₂}变负，[18]中定义的权重被限制到某个阈值，从而使它们从不小于A dB。

然后，通过考虑如下条件限制叉积，其中sqrt表示平方根并且Q被定义为Q＝10^-A/10：

·如果则叉积限于

·如果则叉积限于

·如果

则叉积限于

·如果则叉积限于

Claims

1.一种计算机实现的方法，包括：

获取具有一组对象的第一多信道音频信号；

获取边信息，至少一些边信息表示所述第一多信道音频信号和表示将被再混合的对象的一个或多个源信号之间的关系；

获取一组混合参数；

获取衰减因子；以及

使用所述边信息、所述衰减因子和所述一组混合参数生成第二多信道音频信号。

2.如权利要求1所述的方法，其中获取所述一组混合参数进一步包括：

接收指定所述一组混合参数的用户输入。

3.如权利要求1所述的方法，其中生成第二多信道音频信号包括：

将所述第一多信道音频信号分解为第一组子带信号；

使用所述边信息和所述一组混合参数估计对应于所述第二多信道音频信号的第二组子带信号；以及

将所述第二组子带信号转换为所述第二多信道音频信号。

4.如权利要求3所述的方法，其中估计第二组子带信号进一步包括：

对所述边信息解码以提供与将被再混合的对象关联的增益因子和子带功率估算；

基于所述增益因子、子带功率估算和所述一组混合参数确定一组或多组权重；以及

使用至少一组权重估计所述第二组子带信号。

5.如权利要求4所述的方法，其中确定一组或多组权重进一步包括：

确定第一组权重的量值；以及

确定第二组权重的量值，其中所述第二组权重包括不同于所述第一组权重的权重数目。

6.如权利要求5所述的方法，进一步包括：

比较所述第一和第二组权重的量值；以及

基于所述比较的结果选择所述第一和第二组权重之一用于在估计所述第二组子带信号时使用。

7.如权利要求4所述的方法，其中确定一组或多组权重进一步包括：

确定使所述第一多信道音频信号和所述第二多信道音频信号之间的差最小的一组权重。

8.如权利要求4所述的方法，其中确定一组或多组权重进一步包括：

形成线性方程组，其中所述方程组中的每个方程是积的和，并且每个积是通过使子带信号与权重相乘而得到的；以及

通过求解所述线性方程组确定所述权重。

9.如权利要求8所述的方法，其中使用最小二乘估计求解所述线性方程组。

10.如权利要求9所述的方法，其中所述线性方程组的解提供了第一权重w₁₁，其被给出为

w_{11} = \frac{E {x_{2}^{2}} E {x_{1} y_{1}} - E {x_{1} x_{2}} E {x_{2} y_{1}}}{E {x_{1}^{2}} E {x_{2}^{2}} - E^{2} {x_{1} x_{2}}},

其中E{.}表示短时平均，x₁和x₂是第一多信道音频信号的信道，并且y₁是第二多信道音频信号的信道。

11.如权利要求9所述的方法，其中所述线性方程组的解提供了第二权重w₂₂，其被给出为

w_{22} = \frac{E {x_{1} x_{2}} E {x_{1} y_{2}} - E {x_{1}^{2}} E {x_{2} y_{2}}}{E^{2} {x_{1} x_{2}} E {x_{2}^{2}} - E {x_{1}^{2}} E {x_{2}^{2}}},

其中E{.}表示短时平均，x₁和x₂是第一多信道音频信号的信道，并且y₂是第二多信道音频信号的信道。

12.如权利要求10或11所述的方法，其中

E {x_{2} y_{2}} = KE {x_{2}^{2}} + (1 - K) Σ_{i = 1}^{M} b_{i}^{2} E {s_{i}^{2}},

E {x_{1} y_{1}} = KE {x_{2}^{2}} + (1 - K) Σ_{i = 1}^{M} a_{i}^{2} E {s_{i}^{2}},

其中K是用于使非声音源衰减的衰减因子，并且a_i和b_i是增益因子。

13.如权利要求12所述的方法，其中

并且非声音源被衰减A dB。

14.如权利要求12所述的方法，其中所述第二多信道音频信号被给出为

{\tilde{y}}_{1} (k) = w_{11} (k) x_{1} (k),

{\tilde{y}}_{2} (k) = w_{22} (k) x_{2} (k) .

15.一种装置，包括：

解码器，可配置用于接收边信息并且用于从所述边信息获取再混合参数，其中至少一些所述边信息表示第一多信道音频信号和用于生成所述第一多信道音频信号的一个或多个源信号之间的关系；

接口，可配置用于获取一组混合参数和衰减因子；和

再混合模块，耦合至所述解码器和所述接口，所述再混合模块可配置用于使用所述边信息、所述衰减因子和所述一组混合参数使所述源信号再混合以生成具有衰减的非声音源的第二多信道音频信号。

16.如权利要求15所述的装置，其中至少所述一组混合参数由用户通过所述接口指定。

17.如权利要求15所述的装置，进一步包括：

至少一个滤波器组，可配置用于将所述第一多信道音频信号分解为第一组子带信号。

18.如权利要求17所述的装置，其中所述再混合模块使用所述边信息、所述衰减因子和所述一组混合参数估计对应于所述第二多信道音频信号的第二组子带信号，并且将所述第二组子带信号转换为所述第二多信道音频信号。

19.如权利要求18所述的装置，其中所述解码器对所述边信息解码以提供与所述将被再混合的源信号关联的增益因子和子带功率估算，并且所述再混合模块基于所述增益因子、子带功率估算、衰减因子和所述一组混合参数确定一组或多组权重，并且使用至少一组权重来估计所述第二组子带信号。

20.如权利要求19所述的装置，其中所述再混合模块通过确定使所述第一多信道音频信号和所述第二多信道音频信号之间的差最小的一组权重来确定一组或多组权重。

21.如权利要求19所述的装置，其中所述再混合模块通过求解线性方程组确定一组或多组权重，其中所述方程组中的每个方程是积的和，并且每个积是通过使子带信号与权重相乘而得到的。

22.如权利要求21所述的装置，其中使用最小二乘估计求解所述线性方程组。

23.如权利要求22所述的装置，其中所述线性方程组的解提供第一权重w₁₁，其被给出为

w_{11} = \frac{E {x_{2}^{2}} E {x_{1} y_{1}} - E {x_{1} x_{2}} E {x_{2} y_{1}}}{E {x_{1}^{2}} E {x_{2}^{2}} - E^{2} {x_{1} x_{2}}},

其中E{.}表示短时平均，x₁和x₂是所述第一多信道音频信号的信道，并且y₁是所述第二多信道音频信号的信道。

24.如权利要求22所述的装置，其中所述线性方程组的解提供第二权重w₂₂，其被给出为

w_{22} = \frac{E {x_{1} x_{2}} E {x_{1} y_{2}} - E {x_{1}^{2}} E {x_{2} y_{2}}}{E^{2} {x_{1} x_{2}} E {x_{2}^{2}} - E {x_{1}^{2}} E {x_{2}^{2}}},

其中E{.}表示短时平均，x₁和x₂是所述第一多信道音频信号的信道，并且y₂是第二多信道音频信号的信道。

25.如权利要求23或24所述的装置，其中

E {x_{2} y_{2}} = KE {x_{2}^{2}} + (1 - K) Σ_{i = 1}^{M} b_{i}^{2} E {s_{i}^{2}},

E {x_{1} y_{1}} = KE {x_{2}^{2}} + (1 - K) Σ_{i = 1}^{M} a_{i}^{2} E {s_{i}^{2}},

26.如权利要求25所述的装置，其中

并且非声音源被衰减A dB。

27.如权利要求25所述的装置，其中所述第二多信道音频信号被给出为

{\tilde{y}}_{1} (k) = w_{11} (k) x_{1} (k),

{\tilde{y}}_{2} (k) = w_{22} (k) x_{2} (k) .

28.一种计算机可读介质，在所述计算机可读介质上存储有指令，所述指令在由处理器执行时，使所述处理器执行操作，所述操作包括：

获取具有一组对象的第一多信道音频信号；

获取一组混合参数；

获取衰减因子；以及

29.一种计算机实现的方法，包括：

获取具有一组对象的第一多信道音频信号；

通过图形用户接口获取增益参数gk或摇摆参数pk；

获取增益调节因子G_adjust或摇摆调节因子P_adjust；

使所述增益参数g_k或所述摇摆参数p_k分别乘以所述增益调节因子G_adjust或摇摆调节因子P_adjust以提供调整增益参数或调整摇摆参数；以及

使用所述边信息和所述调整增益参数或调整摇摆参数生成第二多信道音频信号。

30.如权利要求29所述的方法，其中所述增益调节因子G_adjust被给出为

G_adjusl＝1-(1-η_G)μ_G，

其中并且η_G定义自动调整的程度。

31.如权利要求29所述的方法，其中所述摇摆调节因子P_adjust被给出为

P_adjust＝1-(1-η_G)μ_G，

其中

并且η_G定义自动调整的程度。

32.一种计算机实现的方法，包括：

获取具有一组对象的第一多信道音频信号；

通过图形用户接口获取增益参数或摇摆参数；以及

生成第二多信道音频信号作为所述第一多信道音频信号信道的线性组合，其中使用所述边信息和所述增益参数或摇摆参数确定所述特定线性组合。

33.如权利要求32所述的方法，其中生成第二多信道音频信号包括：

将所述第一多信道音频信号分解为第一组子带信号；

使用所述边信息和所述增益或摇摆参数估计对应于所述第二多信道音频信号的第二组子带信号；以及

将所述第二组子带信号转换为所述第二多信道音频信号。