CN103339670B

CN103339670B - 确定多通道音频信号的通道间时间差

Info

Publication number: CN103339670B
Application number: CN201180066828.1A
Authority: CN
Inventors: M.布里安德; T.詹斯森
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2011-02-03
Filing date: 2011-04-07
Publication date: 2015-09-09
Anticipated expiration: 2031-04-07
Also published as: DK3182409T3; CN103339670A; US20180301154A1; DK2671221T3; AU2011357816A1; EP2671221A4; EP3182409A2; US20130304481A1; EP3182409A3; US10311881B2; EP3182409B1; AU2011357816B2; US10002614B2; WO2012105886A1; EP2671221A1; EP2671221B1

Abstract

提供用于确定具有至少两个通道的多通道音频信号的通道间时间差的方法和装置。对于正时滞和负时滞确定涉及多通道音频信号的至少两个不同通道的互相关函数的局部最大值的集合(S1)，其中每个局部最大值与对应时滞关联。从局部最大值的集合中，选择对于正时滞的局部最大值作为所谓的正时滞通道间相关性候选以及对于负时滞的局部最大值作为所谓的负时滞通道间相关性候选(S2)。当通道间相关性候选之间的幅度的差的绝对值小于第一阈值时，评估是否存在能量主导通道(S3)。当存在能量主导通道时，基于对应于正时滞通道间相关性候选的时滞或对应于负时滞通道间相关性候选的时滞来标识通道间时间差的符号并且提取通道间时间差的当前值(S4)。

Description

确定多通道音频信号的通道间时间差

技术领域

本技术一般涉及音频编码和/或解码的领域以及确定多通道音频信号的通道间时间差的问题。

背景技术

空间音频或3D音频是表示各种类型的多通道音频信号的一般表述(generic formulation)。取决于捕捉和渲染(rendering)方法，音频场景由空间音频格式来表示。由捕捉方法（麦克风）限定的典型空间音频格式例如表示为立体声、双耳声、多通道模拟立体声等。通常表示为环绕声系统的空间音频渲染系统（耳机或扬声器）能够提供具有立体声（左通道和右通道2.0）或更高级的多通道音频信号（2.1、5.1、7.1等）的空间音频场景。

近来开发的用于此类音频信号的传送和操纵的技术允许终端用户拥有具有更高空间品质的增强的音频体验，从而通常导致更好的可辨度以及增加的逼真度。空间音频编码技术生成空间音频信号的紧凑表示，其例如与诸如在互联网上的流的数据率约束应用兼容。然而在数据率约束太强时空间音频信号的传送受到限制并且因此解码的音频通道的后处理也用来增强空间音频重放。常用技术例如能够将解码的单声或立体声信号盲向上混合成多通道音频（5.1通道或更多）。

为了有效渲染空间音频场景，这些空间音频编码和处理技术利用多通道音频信号的空间特性。

特别地，空间音频捕捉的通道之间的时间和级别（level）的差，比如通道间时间差ICTD和通道间级别差ICLD，用来近似表征空间中我们声音的知觉的诸如耳间时间差ITD和耳间级别差ILD的耳间线索。术语“线索”用在声定位领域中并且通常表示参数或描述符。人类听觉系统使用若干线索用于声源定位，包括耳朵之间的时间差和级别差、谱信息以及定时分析的参数、相关性分析和模式匹配。

图1示出利用参数方法来建模空间音频信号的潜在困难。通道间时间差和级别差（ICTD和ICLD）通常用来建模多通道音频信号的方向成分，而建模耳间互相关性IACC的通道间相关性ICC用来表征音频图像的宽度。因此从音频通道中提取诸如ICTD、ICLD和ICC的通道间参数以便近似对空间中我们声音的知觉进行建模的ITD、ILD和IACC。由于ICTD和ICLD仅是我们听觉系统能够检测的要素（在耳朵入口的ITD和ILD）的近似，非常主要的是从知觉方面来看ICTD线索是相关的。

图2是示出作为多通道音频编码/解码的例示性示例的参数立体声编码/解码的示意性框图。编码器10基本上包括向下混合单元12、单声编码器14和参数提取单元16。解码器20基本上包括单声解码器22、解相关器24和参数合成单元26。在该特定示例中，向下混合单元12将立体声通道向下混合成求和信号，单声编码器14编码求和信号，以及将求和信号与被参数提取单元16提取并被量化器Q量化的空间量化（子带）参数一样传送到解码器20、22。可基于对于左通道和右通道的输入频率变换的子带分解来估计空间参数。通常根据诸如等效矩形带宽-ERB的知觉量表来定义每个子带。解码器和参数合成单元26特别根据来自单声解码器22的解码的单声信号、从编码器10传送的量化（子带）参数和解相关器24生成的解相关版本的单声信号来执行空间合成（在相同子带域中）。然后由量化子带参数来控制立体声图像的重建。由于这些量化子带参数意在近似空间的或双耳的线索，所以很重要的是根据知觉考虑来提取和传送通道间参数(ICTD、ICLD和ICC)使得近似对于听觉系统是可接受的。

立体声和多通道音频信号通常是难于建模的复杂信号，尤其在环境嘈杂时或在混合的多种音频成分在时间和频率上重叠（即，嘈杂的语音、在音乐上语音或同时多个谈话者）等时。由几乎没有声音成分构成的多通道音频信号也能是难以建模的，在使用参数方法的情况下更是如此。

因此存在对于通道间时间差ICTD的改进的提取或确定的一般需要。

发明内容

一般目标在于提供确定或估计具有至少两个通道的多通道音频信号的通道间时间差的更好方式。

目标还在于提供包括通道间时间差的此类估计的改进的音频编码和/或音频解码。

这些和其它目标通过由以下所描述的实施例来满足。

在第一方面中，提供用于确定具有至少两个通道的多通道音频信号的通道间时间差的方法。基本思想是确定对于正时滞和负时滞的涉及多通道音频信号的至少两个不同通道的互相关函数的局部最大值的集合，其中每个局部最大值与对应时滞关联。从局部最大值的集合中，选择对于正时滞的局部最大值作为所谓的正时滞通道间相关性候选，而选择对于负时滞的局部最大值作为所谓的负时滞通道间相关性候选。该思想然后是评估当通道间相关性候选之间的幅度的差的绝对值小于第一阈值时是否存在能量主导通道。当存在能量主导通道时，基于对应于正时滞通道间相关性候选的时滞或对应于负时滞通道间相关性候选的时滞来标识通道间时间差的符号并且提取通道间时间差的当前值。

用这一方式，能消除或至少降低通道间时间差的不确定性，并且从而获得通道间时间差的提高的稳定性。

在另一方面中，提供包括用于确定通道间时间差的此类方法的音频编码方法。

在又一方面中，提供包括用于确定通道间时间差的此类方法的音频解码方法。

在相关方面中，提供用于确定具有至少两个通道的多通道音频信号的通道间时间差的装置。所述装置包括局部最大值确定器，局部最大值确定器配置成确定对于正时滞和负时滞的涉及多通道音频信号的至少两个不同通道的互相关函数的局部最大值的集合，其中每个局部最大值与对应时滞关联。所述装置还包括通道间相关性候选选择器，通道间相关性候选选择器配置成从局部最大值的集合中选择对于正时滞的局部最大值作为所谓的正时滞通道间相关性候选以及对于负时滞的局部最大值作为所谓的负时滞通道间相关性候选。评估器配置成评估当通道间相关性候选之间的幅度的差的绝对值小于第一阈值时是否存在能量主导通道。通道间时间差确定器配置成当存在能量主导通道时，基于对应于正时滞通道间相关性候选的时滞或对应于负时滞通道间相关性候选的时滞来标识通道间时间差的符号并且提取通道间时间差的当前值。

在另一方面中，提供包括用于确定通道间时间差的此类装置的音频编码器。

在又一方面中，提供包括用于确定通道间时间差的此类装置的音频解码器。

在阅读以下实施例的描述时将领会本技术提供的其它优点。

附图说明

通过参考与附图一起进行的以下描述，可最佳地理解实施例连同其另外的目标和优点，在附图中：

图1是示出利用5.1环绕声系统的空间音频重放的示例的示意图。

图2是显示作为多通道音频编码/解码的例示性示例的参数立体声编码/解码的示意性框图。

图3A-C是示出在分析的立体声通道由音调成分构成时有问题的情形的示意图。

图4A-D是示出人为立体声信号的不确定性的示例的示意图。

图5A-C是示出常规技术方案的问题的示例的示意图。

图6是示出根据实施例用于确定具有至少两个通道的多通道音频信号的通道间时间差的基本方法的示例的示意性流程图。

图7A-C是示出根据实施例从方法/算法中得出的ICTD候选的示例的示意图。

图8A-C是示出索引l的分析的帧的示例的示意图。

图9A-C是示出索引l+1的分析的帧的示例的示意图。

图10A-C是示出通过根据允许在空间图像中定位的保存的实施例的方法/算法所求解的相同分析的段中两个不同延迟的情况下的不确定的ICTD的示意图。

图11是示出音调成分的改进的ICTD提取的示例的示意图。

图12A-C是示出根据ICTD的输入通道的对准如何能避免在向下混合规程期间的梳状滤波效应和能量损失的示例的示意图。

图13是示出根据实施例用于确定具有至少两个通道的多通道音频信号的通道间时间差的装置的示例的示意性框图。

图14是示出根据实施例在立体声音频的示例性情况中参数适应的示例的示意性框图。

图15是示出根据实施例的计算机实现的示例的示意性框图。

图16是示出根据实施例标识通道间时间差的符号以及提取通道间时间差的当前值的示例的示意性流程图。

图17是示出根据实施例标识通道间时间差的符号以及提取通道间时间差的当前值的另一示例的示意性流程图。

图18是示出根据实施例选择正时滞ICC候选和负时滞ICC候选的示例的示意性流程图。

图19是示出根据实施例选择正时滞ICC候选和负时滞ICC候选的另一示例的示意性流程图。

具体实施方式

在附图各处，相同的引用数字用于类似的或对应的元素。

发明人做出的仔细分析已经揭示了多通道音频信号能是难于建模的，在使用参数方法的情况下更是如此，这能导致下文中描述的参数提取的不确定性。

通常描述的常规参数方法依赖于互相关函数（CCF，本文表示为），互相关函数是两个波形x[n]和y[n]之间相似性的测量并且在时域中通常定义为：

其中是时滞参数，而N是考虑的音频段的样本的数量。将ICC作为CCF的最大值来获得并且通过信号能量将其归一化如下：

ICC在频域中的等效估计是可能的，这通过利用变换X和Y（离散频率索引k）来实现，以根据如下将互相关函数重新定义为交叉谱的函数：

其中X[k]是时域信号x[n]的离散傅立叶变换(DFT)，比如：

而或是谱X的反向离散傅立叶变换，其通常由标准反向快速傅立叶变换IFFT给出，以及*表示复共轭运算而表示实部函数。

在等式(2)中，选择使归一化的互相关取最大值的时滞作为波形之间的ICTD。根据等式(1)，正（相应地，负）时滞意味着通道x（相应地，y）与通道y（相应地，x）相比延迟了延迟或ICTD=。如下文中所论述的，不确定性能发生在能几乎类似地使CCF取最大值的时滞之间。

应该理解，本技术不限于估计ICC的任何特定方式。[2]中呈现的研究引入ICTD的使用以提高ICC的估计。然而，当前发明考虑根据给出可接受结果的任何目前发展水平的方法来提取ICC。能使用互相关技术在时域或频域中提取ICC。

图3A-C是示出在分析的立体声通道由音调成分构成时有问题的情形的示意图。在该情况中，当信号在立体声通道中被延迟时，CCF不总包含明显的最大值。因此不确定性位于立体声分析中，这是因为正延迟和负延迟对于ICTD的提取都能被考虑。

图3A是示出左通道和右通道的波形的示例的示意图。

图3B是示出从左通道和右通道计算的互相关函数的示例的示意图。

图3C是示出图3B的对于在-192与192样本之间的时滞的CCF的放大的示例的示意图，该时滞范围相当于考虑在采样频率是48000 Hz时从-4 ms至4 ms范围内的ICTD。

在该示例中，考虑录音的语音信号（利用AB麦克风设置）的有声段以便基于全局最大值来描述现有技术方案的问题。这些观测例如还对于诸如乐器的任何种类的音调信号是相关的并且将在下文中被进一步描述。

试图标识CCF中的全局最大值时，音调成分的分析导致不确定性。CCF中的若干局部最大值可能具有类似的幅度（或很接近）并且因此它们中的一些是成为将允许ICTD的相关提取的全局最大值的潜在候选。

图4A-D示出对于从单个钟琴音调生成的人为立体声信号的此类不确定性的示例的示意图，其中在立体声通道之间具有88个样本的恒定延迟。这显示全局最大值标识不总匹配通道间时间差。

图4A是示出左通道和右通道的波形的示例的示意图。

图4B是示出从左通道和右通道计算的互相关函数的示例的示意图。

图4C是示出对于在-192与192样本之间的时滞的CCF的放大的示例的示意图。在局部最大值之间的时滞差是30个样本。

图4D是示出在-100与100样本之间的时滞的CCF的放大的示例的示意图。对于该特定信号，时滞是CCF的全局最大值的时滞。人为放入的ICTD对应于在时滞样本的局部最大值，其不是全局最大值。

局部最大值之间的时滞差由音调的频率（即=1.6 kHz）给出，这根据，其中采样频率=48 kHz。对于该特定立体声信号，CCF的每个可能最大值的时滞由和根据如下来定义：

其中

由于与最大可接受的ITD值有关的心理声学的考虑，时滞已经限制在{-192，……，+192}样本，在该情况中其被视为在{-4，……，+4}ms范围内变化。是使CCF取最大值的最小时滞。根据图4A-D，人为引入的在左通道和右通道之间88个样本的ICTD对应于索引m=-3的局部最大值，其不是实际全局最大值。因此，使用常规提取方法获得的ICTD在音调成分（有声语音、乐器等）的情况中不一定可靠。

该得到的ICTD因此是不确定的并且能用作导致不稳定的逐帧参数合成（如由图2的解码器所描述的）的向前或向后偏移。从参数（空间）合成出现的重叠段能变成未对准并且在重叠和添加合成期间生成一些能量损失。另外，如果在该未解决的不确定性情况下在若干帧中分析音调成分，则立体声图像可由于在相反延时之间从帧到帧的可能切换而变得不稳定。

需要稳健的技术方案来提取多通道音频信号的通道之间的准确延迟以便即使在一个或一些音调成分存在的情况下有效建模主导声源的定位。

[1]中使用话音活动检测或更精确地立体声通道内音调成分的检测以在时间上适应ICTD的更新率。在时间-频率格上提取ICTD，即使用滑动分析窗和子带频率分解。根据音调测量和ICC线索的组合来在时间上平滑ICTD。算法允许在信号被检测为音调时进行ICTD的强的平滑以及在音调测量为低时将ICC作为遗忘因子使用来进行ICTD的适应性平滑。对于完全音调成分进行的ICTD的平滑是有问题的。实际上，ICTD的平滑使ICTD提取十分近似和有问题，当源在空间中移动时更是如此。被估计为音调成分的移动源的空间位置因此被平均并且很缓慢地演化。换言之，[1]中描述的使用在时间上ICTD的平滑的算法不允许当信号特性在时间上快速演化时精确跟踪ICTD。

图5A-C是示出[1]中提出的技术方案的问题的示意图。分析的立体声信号人为地由在1.6 kHz和2 kHz的两个连续钟琴音调构成，其中通道之间具有恒定时间延迟为88个样本。

图5A是示出对于在1.6 kHz和2 kHz的、两个钟琴连续音调的通道间时间差(样本中ICTD值)的示例的示意图，其中具有通道之间人为应用的-88个样本的时间延迟。从CCF的全局最大值获得的ICTD由于高音调而在帧之间变化。在音调高（相应地，低）时平滑的ICTD缓慢（相应地，快速）更新。

图5B是示出从0变化到1的音调索引的示例的示意图。

图5C是示出在从常规算法[1]得出的ICTD平滑中在低音调情况下用作遗忘因子的提取的通道间相干性或相关性(ICC)的示例的示意图。

从CCF的全局最大值提取的ICTD在帧之间显著变化，同时其应该在分析的帧上稳定并且恒定。平滑的ICTD由于信号的高音调而被很缓慢地更新。这导致空间图像的不稳定描述/建模。

现在将参考图6的流程图来描述用于确定具有至少两个通道的多通道音频信号的通道间时间差的基本方法的示例。

假定对于正时滞和负时滞均定义多通道音频信号的不同通道的互相关函数。

步骤S1包括确定对于正时滞和负时滞的涉及多通道音频信号的至少两个不同通道的互相关函数的局部最大值的集合，其中每个局部最大值与对应时滞关联。

这例如可能是两个或更多个不同通道（通常一对通道）的互相关函数，但也可能是通道的不同组合的互相关函数。更一般地，这可能是至少包括一个或多个通道的第一表示和一个或多个通道的第二表示的通道表示的集合的互相关函数，只要总体上涉及至少两个不同通道。

步骤S2包括从局部最大值的集合中选择对于正时滞的局部最大值作为所谓的正时滞通道间相关性ICC候选以及对于负时滞的局部最大值作为所谓的负时滞通道间相关性ICC候选。步骤S3包括评估当通道间相关性候选之间的幅度的差的绝对值小于第一阈值时在考虑的通道中是否存在能量主导通道。步骤S4包括当存在能量主导通道时，基于对应于正时滞通道间相关性候选的时滞或对应于负时滞通道间相关性候选的时滞来标识通道间时间差的符号并且提取通道间时间差的当前值。

用这一方式，能消除或至少显著降低通道间时间差的不确定性，并且从而获得通道间时间差的提高的稳定性并且这导致感兴趣的主导声源的定位的更好保存。

通常考虑多通道信号的一个或多个通道对，并且通常存在对于每个通道对的CCF。更一般地，存在对于通道表示的每个考虑的集合的CCF。

作为示例，评估是否存在能量主导通道的步骤包括评估通道间级别差ICLD的绝对值是否大于第二阈值。

如果通道间级别差的绝对值大于第二阈值，则标识通道间时间差的符号以及提取/选择通道间时间差的当前值的步骤例如可包括（参看图16）：

- 如果通道间级别差是负的，则在步骤S4-1中将通道间时间差选择为对应于正时滞通道间相关性候选的时滞；以及

- 如果通道间级别差是正的，则在步骤S4-2中将通道间时间差选择为对应于负时滞通道间相关性候选的时滞。

正时滞通道间相关性候选和负时滞通道间相关性候选可分别表示为和。这些通道间相关性候选和具有分别表示为和的对应时滞。在以上示例中，如果通道间级别差ICLD是负的，则选择正时滞，而如果通道间级别差ICLD是正的，则选择负时滞。

如果通道间级别差的绝对值小于第二阈值，则标识通道间时间差的符号以及提取/选择通道间时间差的当前值的步骤例如可包括（参看图17）在步骤S4-11中从对应于通道间相关性候选的时滞中选择最接近之前确定的通道间时间差的时滞。

如将由本领域的技术人员所理解的，能将对应于通道间相关性候选的时滞视为通道间时间差候选。如果基于逐帧执行处理，则之前确定的通道间时间差例如可以是对于之前帧确定的通道间时间差。仍然应理解，可备选的是逐样本地执行处理。类似地，也可使用在频域中利用若干分析子带的处理。

换言之，指示主导通道的信息可用来标识通道间时间差的相关符号。尽管为此目的可优选使用通道间级别差，但其它备选包括使用谱峰之间的比率或适合标识通道间时间差的符号（负或正）的任何涉及相位的信息。

如图18的示例中所示的，作为示例，可将正时滞通道间相关性候选在步骤S2-1中标识为对于正时滞的局部最大值的最高（最大幅度），而可将负时滞通道间相关性候选在步骤S2-2中标识为对于负时滞的局部最大值的最高（最大幅度）。

备选的是，如图19的示例中所示的，在步骤S2-11中选择包括对于正时滞和负时滞的局部最大值的在幅度上相对接近全局最大值的若干局部最大值作为通道间相关性候选，并且接着处理选择的局部最大值以得出正时滞通道间相关性候选和负时滞通道间相关性候选。例如，对于正时滞，在步骤S2-12中选择与最接近正参考时滞的时滞对应的通道间相关性候选作为正时滞通道间相关性候选。类似地，对于负时滞，在步骤S2-13中选择与最接近负参考时滞的时滞对应的通道间相关性候选作为负时滞通道间相关性候选。

正参考时滞能选择为最后提取的正通道间时间差，而负参考时滞能选择为最后提取的负通道间时间差。

在某种意义上，将一些可能的ICTD视为关于方向成分的空间线索，并且选择由考虑时域中表达的互相关函数(CCF)的一些最大值情况下最相关的ICTD来构成。通常有益的是通过更准确地跟踪通道之间的延迟来避免提取的ICTD的过多近似，以便在时间上有效地建模主导方向源的空间位置。不是在分析的帧上平滑ICTD的值，通常更好的是依赖于CCF局部最大值的更高级的分析。

在另一方面中，提供用于编码具有至少两个通道的多通道音频信号的音频编码方法，其中所述音频编码方法包括确定如本文所描述的通道间时间差的方法。

在又一方面中，能将改进的ICTD确定（参数提取）作为解码侧的后处理阶段来实现。因此，还提供用于重建具有至少两个通道的多通道音频信号的音频解码方法，其中所述音频解码方法包括确定如本文所描述的通道间时间差的方法。

为了更好理解，现在将参考非限制性示例来更详细描述本技术。

本技术依赖于CCF的分析以便提取知觉上相关的ICTD线索。

在特定非限制性示例中，能将例示性方法/算法的步骤总结如下：

1. 沿着正时滞和负时滞来定义作为-1与1之间的归一化函数的CCF；

2. 根据如下来确定对于正时滞和负时滞的局部最大值：

其中i是用来索引局部最大值的正整数，而N是索引l的分析的语音/音频段的长度。

在以下示例中，使用路径A 或 B，即或，其中选择4.1或4.2。

3.A.根据如下从局部最大值的集合中直接标识其中一个对于正时滞而一个对于负时滞的两个候选C：

其中是对应局部最大值的时滞。

3.B.对于所有局部最大值，根据如下全局最大值的定义来标识一些候选C（j是候选索引）：

以及如下的距离准则：

其中设置成例如2但能通过使用音调测量或互相关系数可能地依赖于信号特，即G，而T是算法中向下进一步定义的阈值。

每个标识的候选具有相对接近G的幅度和对应的时滞。根据如下选择两个候选，其中一个对于正时滞而一个对于负时滞：

其中，参考时滞（相应地，）是最后提取的正（相应地，负）ICTD。对应的是可能的ICC候选并且表示为和。

4. 取决于ICC候选之间的幅度差（距离），不同地确定ICTD的符号。

4.1. 如果已经证实以下条件，其中T设置为例如0.1，但是能例如关于G的值而符号依赖，即T=βxG，存在两种可能性：

i. 如果ICLD能够指示主导通道，即，则相应地设置ICTD：

其中在该示例中设置为6 dB的常量，并且根据如下来定义ICLD：

ii. 否则在ICLD不能指示主导通道时，选择最接近之前帧¹的 ICTD的ICTD候选，即：

4.2. 否则当不存在符号不确定性时，通过对应于最大ICC候选的时滞来给出ICTD，即：

5. 因此更新参考时滞：

取决于步骤编号3做出的选择，步骤3.A具有的优点是没有步骤3.B中描述的算法复杂。然而，通常不再考虑之前提取（正或负）的ICTD。接下来，选择步骤3.B以便更好地证明算法的益处。

多最大值方法/算法对于逐帧分析方案（索引l的帧）被描述，但是还能对于频域中具有索引b的若干分析子带的方案被使用并且传递类似行为和结果。在该情况中，对于每个帧和每个子带定义CCF，子带是等式（3）中定义的谱的子集，即，其中是频率子带的边界。根据等式（1）和对应的，算法独立地应用到每个分析的子带。这样，改进的ICTD还是由索引l和b的格定义的时间-频率域中的提取。条件4.1.i.在全带分析情况中是有效的但通常应该被修改到以增加具有子带分析的算法的性能。

为了示出方法/算法的行为，分析由钟琴音调构成的人为立体声信号，其中在立体声通道之间具有88个样本的恒定延迟。

图7A-C是示出根据实施例从方法/算法得出的ICTD候选的示例的示意图。更有趣的是，该特定分析证明全局最大值与立体声通道之间的ICTD无关。然而，算法标识正ICTD候选和负ICTD候选，进一步比较这两个候选以选择初始地应用到立体声通道的相关ICTD。

图7A是示出由在1.6 kHz的钟琴音调构成的立体声信号的左通道和右通道的波形的示例的示意图，其中左通道延迟88个样本。

图7B是示出从左通道和右通道计算的CCF的示例的示意图。

在该示例中，方法/算法考虑在{-192，……，192}样本时滞范围中多个最大值，这等效于ICTD在采样频率为48 kHZ的情况中在{-4，……，4}ms的范围内变化。

图7C是示出对于在-192与192样本之间的时滞的CCF的放大的示例的示意图。在该示例中，将一个正ICTD候选和一个负ICTD候选选择为分别相对于最后选择的正ICTD和负ICTD的最接近的值。

接下来将描述基于初始通道之间的ICLD和多个CCF最大值的改进的ICTD提取的示例。将示出在利用AB麦克风设置录音的女性语音信号情况中对于有声帧的定位的保存。

图8A-C是示出索引l的分析的帧的示例的示意图。

图9A-C是示出索引l+1的分析的帧的示例的示意图。

图8A是示出左通道和右通道的波形的示例的示意图，其中ICLD=8 dB。

图8B是示出从左通道和右通道计算的CCF的示例的示意图。

图8C是示出对于在采样频率为48 kHz情况下在-4 ms与4 ms之间或等效于-192到192样本的知觉上相关时滞的CCF的放大的示例的示意图。

正ICTD候选在该情况中是在相关时滞范围中的CCF的全局最大值，但其还没有被方法/算法选择，因为ICLD>6 dB。在该示例中，这意味着左通道占主导并且因此正ICTD是不可接受的。

图9A是示出左通道和右通道的波形的示例的示意图，其中ICLD=9 dB。

图9B是示出从左通道和右通道计算的CCF的示例的示意图。

图9C是示出对于在采样频率为48 kHz情况下在-4 ms与4 ms之间或等效于-192到192样本的知觉上相关时滞的CCF的放大的示例的示意图。

负ICTD候选已经被方法/算法选择为相关ICTD并且在该具体情况下其是在相关时滞范围中的CCF的全局最大值。

即使CCF的全局最大值已经改变，由算法提取的ICTD在两个帧上是恒定的。在该示例中，方法/算法利用另一空间线索-ICLD（例如，参看步骤4.1.i）-以便标识当ICLD大于6 dB时的主导通道。

当具有相当的能量的两个重叠源在相同时间频率片(tile)（即，相同帧和相同频率子带）内被分析时，ICTD提取中的另一不确定性可发生。

图10A-C是示出通过根据允许在空间图像中定位的保存的实施例的方法/算法所求解的相同分析的段中的两个不同延迟的情况下的不确定的ICTD的示意图。对于由具有通过应用两个不同ICTD生成的不同空间定位的两个讲话者所构成的人为立体声信号执行分析。

图10A示出左通道和右通道的波形的示例的示意图。

图10B是示出对于双谈话者语音信号的从左通道和右通道计算的CCF的示例的示意图，其中具有人为地应用到初始源的-50和27样本的受控ICTD。

图10C是示出对于在-192与192样本之间的时滞的CCF的放大的示例的示意图。

在该示例中，将正ICTD候选和负ICTD候选标识为-50和26样本。对于当前分析的帧选择负ICTD，因为该特定时滞使CCF取最大值并且与之前帧中提取的ICTD相干。

即使存在不确定性，步骤4.1.ii能够通过选择最接近之前提取的ICTD的ICTD候选来保存定位。

为了进一步示出多最大值方法/算法相比于目前发展水平的提高，还能参考图11。

图11是示出音调成分的改进的ICTD提取的示例的示意图。类似于图5A-C的示例，在该示例中在帧上提取对于在1.6 kHz和2 kHz的两个钟琴音调的立体声信号的ICTD，其中通道之间具有-88样本的人为应用的时间差。与现有目前发展水平的算法相比，考虑CCF的若干最大值的新的ICTD提取方法/算法使ICTD稳定。

ICTD提取明显地被改进，这是因为从若干最大值ICTD提取中的ICTD优选遵循在通道之间人为应用的时间差。特别地，常规技术[1]使用的ICTD平滑不能在音调高时保存方向源的定位。

在多通道音频渲染的情境中，向下混合或向上混合是非常常用的处理技术。当前算法允许相干的向下混合信号后对准的生成，即，时间延迟-ICTD-补偿。

图12A-C是示出根据ICTD的输入通道的对准如何能避免在向下混合规程期间（例如，从2到1通道或更一般而言从N到M通道其中（N≥2）和（M≤2））的梳状滤波效应和能量损失的示意图。根据实现考虑，全带（在时域中）和子带（频域）对准均可能。

图12A是示出不相干的立体声通道的向下混合的谱图的示例的示意图，其中能观测到作为水平线的梳状滤波效应。

图12B是示出对准的向下混合（即，对准的/相干的立体声通道的求和）的谱图的示例的示意图。

图12C是示出两个向下混合信号的功率谱的示例的示意图。在通道没有被对准的情况下存在大的梳状滤波，其等效于在单声向下混合中的能量损失。

在ICTD用于空间合成目的时，当前方法允许具有稳定空间图像的相干的合成。重建源的空间位置不在空间中浮动，因为没有使用ICTD的平滑。实际上，提出的算法通过之前提取的ICTD、目前提取的ICTD以及在CCF的多个最大值上的最优化搜索来使空间图像稳定以便精确地从当前CCF中提取相关ICTD。当前技术由于ICTD和ICLD线索的更好的提取而允许在每个频率子带内的主导源的更精确的定位估计。以上已经呈现并且示出了从具有特性化的相干性的通道的ICTD的稳定化。当通道在时间上被对准时，对于ICLD的提取发生相同的益处。

在相关方面中，提供用于确定具有至少两个通道的多通道音频信号的通道间时间差的装置。

参考图13的框图，能够看到装置30包括局部最大值确定器32、通道间相关性ICC候选选择器34、评估器36和通道间时间差ICTD确定器38。

局部最大值确定器32配置成确定对于正时滞和负时滞的多通道输入信号的不同通道的互相关函数的局部最大值的集合，其中每个局部最大值与对应时滞关联。

这例如可能是两个或更多个不同通道（通常一对通道）的互相关函数，但还可能是通道的不同组合的互相关函数。更一般地，这可能是至少包括一个或多个通道的第一表示和一个或多个通道的第二表示的通道表示的集合的互相关函数，只要总体上涉及至少两个不同通道。

通道间相关性ICC候选选择器34配置成从局部最大值的集合中选择对于正时滞的局部最大值作为所谓的正时滞通道间相关性候选以及对于负时滞的局部最大值作为所谓的负时滞通道间相关性候选。

评估器36配置成评估当通道间相关性候选之间的幅度的差的绝对值小于第一阈值时是否存在能量主导通道。

也被称为ICTD提取器的通道间时间差ICTD确定器38配置成当存在能量主导通道时，基于对应于正时滞通道间相关性候选的时滞或对应于负时滞通道间相关性候选的时滞来标识通道间时间差的相关符号并且提取通道间时间差的当前值。

ICTD确定器38在确定对应于ICC候选的ICTD值时可使用来自局部最大值确定器32和/或ICC候选选择器34的信息或初始多通道输入信号。

常会考虑多通道信号的一个或多个通道对，并且通常存在每对通道的CCF。更一般地，存在对于通道表示的每个考虑的集合的CCF。

作为示例，评估器36可配置成评估通道间级别差的绝对值是否大于第二阈值。

通道间时间差确定器38可例如配置成如果通道间级别差的绝对值大于第二阈值，则根据以下规程来提取通道间时间差的当前值：

- 如果通道间级别差是负的，则将通道间时间差选择为对应于正时滞通道间相关性候选的时滞，以及

- 如果通道间级别差是负的，则将通道间时间差选择为对应于负时滞通道间相关性候选的时滞。

通道间时间差确定器38例如可配置成如果通道间级别差的绝对值小于第二阈值，则通过从对应于通道间相关性候选的时滞中选择最接近之前确定的通道间时间差的时滞来提取通道间时间差的当前值。

所述装置能实现任何之前描述的用于确定多通道音频信号的通道间时间差的方法的变型。

例如，通道间相关性候选选择器34可配置成将正时滞通道间相关性候选标识为对于正时滞的局部最大值的最高，而将负时滞通道间相关性候选标识为对于负时滞的局部最大值的最高。

备选的是，通道间相关性候选选择器34配置成选择包括对于正时滞和负时滞的局部最大值的在幅度上相对接近全局最大值的若干局部最大值作为通道间相关性候选，并且处理选择的局部最大值以得出正时滞通道间相关性候选和负时滞通道间相关性候选。例如，通道间相关性候选选择器34可配置成对于正时滞选择与最接近正参考时滞的时滞对应的通道间相关性候选作为正时滞通道间相关性候选，以及对于负时滞选择与最接近负参考时滞的时滞对应的通道间相关性候选作为负时滞通道间相关性候选。

在这方面，通道间相关性候选选择器36例如可使用最后提取的正通道间时间差来作为正参考时滞，而使用最后提取的负通道间时间差来作为负参考时滞。

可将局部最大值确定器32、ICC候选选择器34和评估器36视为多最大值处理器35。

在另一方面中，提供音频编码器，配置成操作具有至少两个通道的多通道音频信号的输入通道的集合的通道表示，其中音频编码器包括配置成确定如本文所描述的通道间时间差的装置。以示例的方式，图13的用于确定通道间时间差的装置可被包括在图2的音频编码器中。应该理解，能利用任何多通道编码器来使用本技术。

在又一方面中，提供用于重建具有至少两个通道的多通道音频信号的音频解码器，其中音频解码器包括配置成确定如本文所描述的通道间时间差的装置。以示例的方式，图13的用于确定通道间时间差的装置可被包括在图2的音频解码器中。应该理解，能利用任何多通道解码器来使用本技术。

图14是示出根据实施例在立体声音频的示例性情况中参数适应的示例的示意性框图。本技术不限于立体声音频，但通常可应用到涉及两个或更多个通道的多通道音频。总的编码器包括可选时间-频率划分单元25、所谓的多最大值处理器35、ICTD确定器38、可选对准器40、可选ICLD确定器50、相干向下混合器60和MUX 70。

多最大值处理器35配置成确定局部最大值的集合、选择ICC候选和评估通道间相关性候选之间幅度的差的绝对值。

图14的多最大值处理器35基本上对应于图13的局部最大值确定器32、ICC候选选择器34和评估器36。

多最大值处理器35和ICTD确定器38基本上对应于用于确定通道间时间差的装置30。

ICTD确定器38配置成以任何以上描述的方式来标识通道间时间差ICTD的相关符号并且提取通道间时间差的当前值。将提取的参数转发到复用器MUX 70用于作为到解码侧的输出参数的传输。

对准器40根据相关ICTD来执行输入通道的对准以避免在由相干向下混合器60进行的向下混合规程期间的梳状滤波效应和能量损失。对准的通道然后可用作对ICLD确定器50的输入以提取相关ICLD，然后将该相干ICLD转发到MUX 70用于作为到解码侧的输出参数的部分的传输。

将领会，以上描述的方法和装置能以多种方式被组合和重布置，以及所述方法能被一个或多个适当编程或配置的数字信号处理器或其它已知电子电路（例如，执行专用功能的互连的分立逻辑门或专用集成电路）执行。

根据能由例如可编程计算机系统的元件执行的动作的序列来描述本技术的许多方面。

实施本技术的用户设备例如包括移动电话、呼机、耳机、膝上型计算机和其它移动终端等。

可使用诸如包括通用电子电路和专用电路的分立电路或集成电路技术的常规技术来在硬件中实现以上描述的步骤、功能、规程和/或模块。

备选的是，以上描述的步骤、功能、规程和/或模块中的至少一些可在软件中被实现用于由诸如如下的适当计算机或处理装置运行：微处理器、数字信号处理器(DSP)和/或诸如现场可编程门阵列(FPGA)装置和可编程逻辑控制器(PLC)装置的任何适当的可编程逻辑装置。

还应理解，可能可再利用其中实现本技术的任何装置的一般处理能力。还可能可通过例如现有软件的改编程序或通过添加新软件构件来再利用现有软件。

接下来，将参考图15来描述计算机实现的示例。该实施例基于诸如微处理器或数字信号处理器的处理器100、存储器150和输入/输出(I/O)控制器160。在该特定示例中，在软件中实现以上描述的步骤、功能和/或模块中的至少一些，将软件载入存储器150中用于由处理器100的运行。处理器100和存储器150经由系统总线彼此互连以实现正常软件运行。I/O控制器160可经由I/O总线互连到处理器100和/或存储器150以实现诸如输入参数和/或得到的输出参数的相关数据的输入和/或输出。

在该特定示例中，存储器150包括若干软件构件110-140。软件构件110实现对应于以上描述的实施例中的模块32的局部最大值确定器。软件构件120实现对应于以上描述的实施例中的模块34的ICC候选选择器。软件构件130实现对应于以上描述的实施例中的模块36的评估器。软件构件140实现对应于以上描述的实施例中的模块38的ICTD确定器。

I/O控制器160通常配置成接收多通道音频信号的通道表示以及将接收的通道表示传输到处理器100和/或存储器150用于在软件的运行期间作为输入来使用。备选的是，多通道音频信号的输入通道表示已经可以数字形式在存储器150中可用。

可经由I/O控制器160将得到的ICTD值作为输出来传输。如果存在需要得到的ICTD值作为输入的另外软件，则能直接从存储器中检索ICTD值。

另外，还能将本技术视为在任何形式的计算机可读存储媒体内完全实施，所述计算机可读存储媒体中存储有被或结合诸如基于计算机的系统、包含处理器的系统或能从媒体中取得指令并且运行这些指令的其它系统的指令运行系统、设备或装置使用的合适的指令集合。

软件可实现为通常在非暂时性计算机可读媒体（例如,CD、DVD、USB存储器、硬盘驱动器或任何其它常规存储装置）上携带的计算机程序产品。因此可将软件载入到计算机的操作存储器或等效处理系统以供处理器运行。计算机/处理器不一定专用于仅运行以上描述的步骤、功能、规程和/或模块，但还可运行其它软件任务。

以上描述的实施例将理解为本技术的一些例示性示例。本领域的技术人员将理解可在不脱离本技术的范围的情况下对实施例做出多种修改、组合或改变。特别地，在技术上可能时，能在其它配置中组合不同实施例中的不同部分技术方案。然而，本技术的范围由随附权利要求来限定。

缩略词

CCF 互相关函数

ITD 耳间时间差

ICTD 通道间时间差

ILD 耳间级别差

ICLD 通道间级别差

ICC 通道间相干性

IACC 耳间互相关性

DFT 离散傅立叶变换

IDFT 反向离散傅立叶变换

IFFT 反向快速傅立叶变换

DSP 数字信号处理器

FPGA 现场可编程门阵列

PLC 可编程逻辑控制器

参考文献

[1] C. Tournery, C. Faller, Improved Time Delay Analysis/Synthesis for Parametric Stereo Audio Coding, AES 120^th, Paris, 2006.

[2] D. Hyun et al., Robust Interchannel Correlation (ICC) estimation using constant interchannel time difference (ICTD) compensation, AES 127^th, New York, 2009.

Claims

1. 一种用于确定具有至少两个通道的多通道音频信号的通道间时间差的方法，其中，所述方法包括如下步骤：

- 确定(S1)对于正时滞和负时滞的涉及所述多通道音频信号的至少两个不同通道的互相关函数的局部最大值的集合，其中每个局部最大值与对应时滞关联；

- 从局部最大值的所述集合中，选择(S2)对于正时滞的局部最大值作为所谓的正时滞通道间相关性候选以及选择对于负时滞的局部最大值作为所谓的负时滞通道间相关性候选；

- 评估(S3)当所述通道间相关性候选之间的幅度的差的绝对值小于第一阈值时是否存在能量主导通道；

- 当存在能量主导通道时，基于对应于所述正时滞通道间相关性候选的时滞或对应于所述负时滞通道间相关性候选的时滞来标识(S4)所述通道间时间差的符号并且提取所述通道间时间差的当前值。

2. 如权利要求1所述的方法，其中，评估是否存在能量主导通道的所述步骤(S3)包括评估所述通道间级别差的绝对值是否大于第二阈值的步骤。

3. 如权利要求2所述的方法，其中，如果所述通道间级别差的绝对值大于所述第二阈值，则标识所述通道间时间差的符号并且提取通道间时间差的当前值的所述步骤(S4)包括：

- 如果所述通道间级别差是负的，则将通道间时间差选择(S4-1)为对应于所述正时滞通道间相关性候选的时滞，以及

- 如果所述通道间级别差是正的，则将通道间时间差选择(S4-2)为对应于所述负时滞通道间相关性候选的时滞。

4. 如权利要求2所述的方法，其中，如果所述通道间级别差的绝对值小于所述第二阈值，则标识所述通道间时间差的符号并且提取通道间时间差的当前值的所述步骤(S4)包括从对应于所述通道间相关性候选的时滞中选择(S4-11)最接近之前确定的通道间时间差的时滞。

5. 如权利要求1所述的方法，其中，从局部最大值的所述集合中选择对于正时滞的局部最大值作为所谓的正时滞通道间相关性候选以及选择对于负时滞的局部最大值作为所谓的负时滞通道间相关性候选的所述步骤(S2)包括如下步骤：

- 将所述正时滞通道间相关性候选标识(S2-1)为对于正时滞的局部最大值的最高；以及

- 将所述负时滞通道间相关性候选标识(S2-2)为对于负时滞的局部最大值的最高。

6. 如权利要求1所述的方法，其中，从局部最大值的所述集合中选择对于正时滞的局部最大值作为所谓的正时滞通道间相关性候选以及选择对于负时滞的局部最大值作为所谓的负时滞通道间相关性候选的所述步骤(S2)包括如下步骤：

- 选择(S2-11)包括对于正时滞和负时滞的局部最大值的在幅度上相对接近全局最大值的若干局部最大值作为通道间相关性候选；以及

- 对于正时滞，选择(S2-12)与最接近正参考时滞的时滞对应的通道间相关性候选作为所述正时滞通道间相关性候选；以及

- 对于负时滞，选择(S2-13)与最接近负参考时滞的时滞对应的通道间相关性候选作为所述负时滞通道间相关性候选。

7. 如权利要求6所述的方法，其中，将所述正参考时滞选择为最后提取的正通道间时间差，并且将所述负参考时滞选择为最后提取的负通道间时间差。

8. 一种音频编码方法，包括根据权利要求1-7中任一项的用于确定通道间时间差的方法。

9. 一种音频解码方法，包括根据权利要求1-7中任一项的用于确定通道间时间差的方法。

10. 一种用于确定具有至少两个通道的多通道音频信号的通道间时间差的装置(30)，其中，所述装置包括：

- 局部最大值确定器(32；100、110)，配置成确定对于正时滞和负时滞的涉及所述多通道音频信号的至少两个不同通道的互相关函数的局部最大值的集合，其中每个局部最大值与对应时滞关联；

- 通道间相关性候选选择器(34；100、120)，配置成从局部最大值的所述集合中选择对于正时滞的局部最大值作为所谓的正时滞通道间相关性候选以及选择对于负时滞的局部最大值作为所谓的负时滞通道间相关性候选；

- 评估器(36；100、130)，配置成评估在所述通道间相关性候选之间的幅度的差的绝对值小于第一阈值时是否存在能量主导通道；以及

- 通道间时间差确定器(38；100、140)，配置成当存在能量主导通道时，基于对应于所述正时滞通道间相关性候选的时滞或对应于所述负时滞通道间相关性候选的时滞来标识所述通道间时间差的符号并且提取所述通道间时间差的当前值。

11. 如权利要求10所述的装置，其中所述评估器(36；100、130)配置成评估所述通道间级别差的绝对值是否大于第二阈值。

12. 如权利要求11所述的装置，其中，所述通道间时间差确定器(38；100、140)配置成如果所述通道间级别差的绝对值大于所述第二阈值，则根据如下规程来提取通道间时间差的当前值：

- 如果所述通道间级别差是负的，则将通道间时间差选择为对应于所述正时滞通道间相关性候选的时滞，以及

- 如果所述通道间级别差是正的，则将通道间时间差选择为对应于所述负时滞通道间相关性候选的时滞。

13. 如权利要求11所述的装置，其中，所述通道间时间差确定器(38；100、140)配置成如果所述通道间级别差的绝对值小于所述第二阈值，则通过从对应于所述通道间相关性候选的时滞中选择最接近之前确定的通道间时间差的时滞来提取通道间时间差的当前值。

14. 如权利要求10所述的装置，其中，所述通道间相关性候选选择器(34；100、120)配置成将所述正时滞通道间相关性候选标识为对于正时滞的局部最大值的最高，以及将所述负时滞通道间相关性候选标识为对于负时滞的局部最大值的最高。

15. 如权利要求10所述的装置，其中，所述通道间相关性候选选择器(34；100、120)配置成选择包括对于正时滞和负时滞的局部最大值的在幅度上相对接近全局最大值的若干局部最大值作为通道间相关性候选，以及对于正时滞，选择与最接近正参考时滞的时滞对应的通道间相关性候选作为所述正时滞通道间相关性候选，以及对于负时滞，选择与最接近负参考时滞的时滞对应的通道间相关性候选作为所述负时滞通道间相关性候选。

16. 如权利要求15所述的装置，其中，所述通道间相关性候选选择器(34；100、120)配置成使用最后提取的正通道间时间差作为所述正参考时滞以及最后提取的负通道间时间差作为所述负参考时滞。

17. 一种音频编码器，包括根据权利要求10-16中任一项的用于确定通道间时间差的装置(30)。

18. 一种音频解码器，包括根据权利要求10-16中任一项的用于确定通道间时间差的装置(30)。