用于处理多声道音频信号的方法及设备
技术领域
本发明涉及用于处理多声道音频信号的方法及设备。
背景技术
时间比例缩放调整算法可改变音频信号的持续时间,同时保留了信号局部频率组成,从而可实现使记录的音频信号的感受到的播放速率加速或减速的整体效果,却不会影响到原始信号的音调或音色。换言之,虽然原始信号的持续时间增加或减少,但感觉上原始信号的重要特征保持不变;在语音的情况下,经过时间比例缩放调整的信号听起来就好像原始说话者是以较快或较慢的速率说话一样;在音乐的情况下,经过时间比例缩放调整的信号听起来就好像演奏者用不同的节奏演奏一样。时间比例缩放调整算法可用于VoIP应用或音频/视频广播、音频/视频后期制作同步及多轨记录与混频中的自适应抖动缓冲管理(JBM)。
在IP语音应用中,首先使用语音编码器压缩语音信号。为了保持互通性,IP语音系统通常建立在开放语音编解码器上。这些系统可经标准化,例如在ITU-T或3GPP编解码器中(若干标准化语音编解码器用于VoIP:G.711、G.722、G.729、G.723.1、AMR-WB)或具有专有格式(Speex、Silk、CELT)。经编码的语音信号在IP包中分包及传输。
包将在VoIP中遇到可变网络延迟,因此包以不规则的时间间隔到达。为了使此抖动平滑,在接收器中通常需要抖动缓冲管理机制,其中将接收到的包缓冲一会儿,并在调度的时间循序播出。如果可针对每个包调整播出时间,则可能需要进行时标修改以确保在声卡上连续播出语音数据。
因为延迟并不是恒定的延迟,所以使用时间比例缩放调整算法来拉伸或压缩给定的接收到的包的持续时间。在包含抖动缓冲管理机制的多声道VoIP应用的情况下,特别是当多声道音频编解码器是基于以双重/多重单声道模式操作的单声道编解码器的时候,即,针对每个声道使用一个单声道编码器/解码器,则针对每个声道使用时间比例缩放调整算法的独立应用,可能导致质量下降,特别是空间声音图像的质量下降,因为独立的时间比例缩放调整将无法保证保留空间线索。在音频/视频广播及后期制作应用中,对每个声道进行时间比例缩放调整可能会保持视频与音频之间的同步,但无法保证空间线索与原始的空间线索一样。空间感知的最重要的空间线索是声道之间的能量差,声道之间的时间或相位差,及声道之间的相干或相关。当时间比例缩放调整算法进行音频信号的拉伸及压缩操作时,时间比例缩放调整声道之间的能量、延迟及相干可能与原始的不同。
发明内容
本发明的目标是提供一种在多声道音频应用中的抖动缓冲管理的概念,其可保留空间感知。
这个目标是通过独立权利要求的特征实现的。通过附属权利要求、说明及附图可了解其它实施形式。
本发明的基本原理是,在多声道时间比例缩放调整处理期间保留多声道音频信号的空间线索,可保留空间感知。空间线索是多声道信号的空间信息,例如声道间时间差(ITD)、声道间声级差(ILD)、声道间相干/声道间交叉相关(ICC)等等。
为了详细说明本发明,将使用以下术语、缩写及符号。
ITD:声道间时间差,
ILD:声道间声级差,
ICC:声道间相干,
IC:声道间交叉相关,
交叉AMDF:交叉平均幅度差函数,
WSOLA:基于波形相似性的同步重叠相加,
IP:因特网协议,
VoIP:因特网协议语音。
根据第一方面,本发明涉及一种处理多声道音频信号的方法,所述多声道音频信号带有多个音频声道信号,所述方法包括:使用所述多个音频声道信号来确定时间比例缩放调整位置;及根据所述时间比例缩放调整位置对所述多个音频声道信号的每个音频声道信号进行时间比例缩放调整,以获得多个经时间比例缩放调整的音频声道信号。
时间比例缩放调整位置能使不同的音频声道信号同步,以便保留空间信息。在包含抖动缓冲管理机制的多声道VoIP应用的情况下,当多声道音频编解码器是基于以双重/多重单声道模式操作的单声道编解码器的时候,即,针对每个声道使用一个单声道编码器/解码器,则针对每个声道使用时间比例缩放调整算法的独立应用,不会导致质量下降,因为时间比例缩放调整位置使每个声道的时间比例缩放调整同步,从而保留空间线索,因而保留空间声音图像。用户能在很大程度上更好地感知到多声道音频信号。
在音频/视频广播及后期制作应用中,用共同的时间比例缩放调整位置单独对每个声道进行时间比例缩放调整,可保留视频与音频之间的同步,而且能保证空间线索不会改变。
空间感知的最重要的空间线索是声道之间的能量差,声道之间的时间或相位差,及声道之间的相干或相关。通过确定时间比例缩放调整位置,这些换片信号得以保留,而且与原始的换片信号没有差别。用户感知得到改善。
在根据第一方面的所述方法的第一可能实施形式中,所述方法包括:从所述多个音频声道信号中提取第一组空间线索参数,所述第一组空间线索参数与多个音频声道信号同根据所述多个音频声道信号中的至少一者导出的参考音频声道信号之间的差的差值测量有关;从多个经时间比例缩放调整的音频声道信号中提取第二组空间线索参数,所述第二组空间线索参数与同第一组空间线索参数有关的相同类型的差值测量有关,其中第二组空间线索参数与多个经时间比例缩放调整的音频声道信号同从所述多个经时间比例缩放调整的音频声道信号中的至少一者导出的参考经时间比例缩放调整的音频声道信号之间的差有关;及确定第二组空间线索参数是否关于第一组空间线索参数满足质量标准。
差值测量可为由等式(5)、(1)、(8)及(6)定义且如下文关于图2说明的交叉相关(cc)、归一化交叉相关(cn)及交叉平均幅值差函数(ca)中的一者。质量标准可为优化标准。其可基于第二组空间线索参数与第一组空间线索参数之间的相似性。参考信号可例如为音频声道信号中的一者或根据多个音频声道信号中的一些或全部导出的下混频信号。将相同操作应用于经时间比例缩放调整的音频声道信号。
在根据第一方面的第一实施形式的方法的第二可能实施形式中,提取第一组空间线索参数中的一空间线索参数包括使多个音频声道信号中的一音频声道信号与参考音频声道信号相关,提取第二组空间线索参数中的一空间线索参数包括使多个经时间比例缩放调整的音频声道信号中的一经时间比例缩放调整的音频声道信号与参考经时间比例缩放调整的音频声道信号相关。
参考音频声道信号可为多个音频声道信号中的一者,其显示出其频谱分量、其能量及其语音声音方面与其它音频声道信号的相似行为。参考音频声道信号可为单声道下混频信号,可将其计算为所有M个声道的平均值。将下混频信号用作多声道音频信号的参考的优点是避免将静默信号用作参考信号。实际上,下混频代表所有声道的能量的平均值,因此不太可能是静默的。同样,经时间比例缩放调整的音频声道信号可为多个经时间比例缩放调整的音频声道信号中的一者,其显示出其频谱分量、其能量及其语音声音方面与其它经时间比例缩放调整的音频声道信号的相似行为。参考经时间比例缩放调整的音频声道信号可为单声道下混频信号,其是所有M个经时间比例缩放调整的声道的平均值,因此不太可能是静默的。
在根据第一方面的第一或第二实施形式的方法的第三可能的实施形式中,如果提取的第二组空间线索参数不能满足质量标准,则所述方法包括以下步骤:根据其它时间比例缩放调整位置对多个音频声道信号中的每个音频声道信号进行时间比例缩放调整,以获得其它多个经时间比例缩放调整的音频声道信号,其中所述其它时间比例缩放调整位置是使用所述多个音频声道信号确定的;从所述其它多个经时间比例缩放调整的音频声道信号中提取第三组空间线索参数,所述第三组空间线索参数与同第一组空间线索参数有关的相同类型的差值测量有关,其中所述第三组空间线索参数与其它多个经时间比例缩放调整的音频声道信号同根据所述其它多个经时间比例缩放调整的音频声道信号中的至少一者导出的其它参考经时间比例缩放调整的音频声道信号之间的差有关;确定第三组空间线索参数关于第一组空间线索参数是否满足质量标准;及如果第三组空间线索参数满足质量标准则输出所述其它多个经时间比例缩放调整的音频声道信号。
质量标准可能具有限制性,因而得出一组高质量的空间线索参数。
在根据第一方面的任一前述实施形式的方法的第四可能的实施形式中,如果相应一组空间线索参数在空间线索参数范围内,则相应一组空间线索参数关于第一组空间线索参数满足质量标准。通过空间线索参数范围,用户可控制所述方法得出的质量水平。如果发现相应多组空间线索参数都不满足质量标准,则可连续扩大范围。不但一个空间线索参数而且一整组都应该在参数范围内。
在根据此第一方面或根据第一方面的任一前述实施形式的方法的第五可能的实施形式中,相应一组空间线索参数包括以下参数之一:声道间时间差(ITD)、声道间声级差(ILD)、声道间相干(ICC)及声道间交叉相关(IC)。如下文相对于图2所述,由用于ILD的等式(11)、用于ITD的等式(12)及用于IC及ICC的等式(13)表达这些参数的定义。
在根据此第一方面或根据第一方面的任一前述实施形式的方法的第六可能的实施形式中,确定时间比例缩放调整位置包括:对于多个音频声道信号中的每一者,确定以候选时间比例缩放调整位置为参数的声道交叉相关函数;通过依据候选时间比例缩放调整位置累计多个声道交叉相关函数来确定所累计的交叉相关函数;选择与所累计的交叉相关函数的最大所累计的交叉相关值相关联的时间比例缩放调整位置以获得时间比例缩放调整位置。
如果发现时间比例缩放调整位置不满足质量标准,则可选择具有最大交叉相关(cc)、归一化交叉相关(cn)或交叉平均幅值差函数(ca)的时间比例缩放调整位置。在任何情况下都可找到至少一次等时间比例缩放调整位置。可选择与第二最大所累计的交叉相关值相关联的其它时间比例缩放调整位置。可选择与第三、第四等等最大所累计的交叉相关值相关联的其它时间比例缩放调整位置。
在根据第一方面的第六实施形式的方法的第七可能的实施形式中,相应交叉相关函数是以下交叉相关函数之一:交叉相关函数、归一化交叉相关函数及交叉平均幅值差函数(交叉AMDF)。这些函数由关于图2说明的等式(2)、(3)及(4)表达。
在根据第一方面的第六或第七实施形式的方法的第八可能的实施形式中,所述方法进一步包括:针对多个音频声道信号中的每一音频声道信号,根据空间线索参数确定加权因子,其中所述空间线索参数是基于音频声道信号及根据所述多个音频声道信号中的至少一者导出的参考音频声道信号提取的,且其中所述空间线索参数特别是声道间声级差;及使用针对音频声道信号确定的加权因子分别对每个声道交叉相关函数进行加权。
关于图2说明的等式(7)或者等式(9)中定义了加权因子的计算。
根据空间线索参数来确定加权因子,所述空间线索参数可能是第一组空间线索参数中的一空间线索参数,或者至少是相同类型的,但其也可为另一种类型的空间线索参数。举例来说,第一组使用ITD作为空间线索参数,但加权因子是基于ILD。
在根据此第一方面或根据第一方面的任一前述实施形式的方法的第九可能的实施形式中,所述方法进一步包括在对多个音频声道信号中的每个音频声道信号进行时间比例缩放调整之前缓冲所述多个音频声道信号。缓冲器可以是存储器单元、RAM或任何其它物理存储器。缓冲器可为如下文关于图5所述的抖动缓冲器。
在根据此第一方面或根据第一方面的任一前述实施形式的方法的第十可能的实施形式中,时间比例缩放调整包括将同一音频声道信号的音频声道信号部分重叠且相加。重叠与相加可为基于波形相似性的同步重叠-相加(WSOLA)算法的一部分。
在根据此第一方面或根据第一方面的任一前述实施形式的方法的第十一可能的实施形式中,多声道音频信号包括多个编码的音频声道信号,且所述方法包括:将所述多个编码的音频声道信号解码以获得多个音频声道信号。
使用解码器来解压缩多声道音频信号,其可能是语音信号。解码器可以是标准解码器,以便保持与IP语音系统的互通性。解码器可利用开放的语音编解码器,例如标准化的ITU-T或3GPP编解码器。解码器的编解码器可实施G.711、G.722、G.729、G.723.1及AMR-WB的VoIP标准化格式之一,或Speex、Silk及CELT专用格式之一。经编码的语音信号在IP包中分包及传输。这保证了与此项技术中使用的标准VoIP应用的互通。
在根据第一方面的第十一实施形式的方法的第十二可能的实施形式中,所述方法进一步包括:接收单个音频信号包;及从接收到的单个音频信号包中提取多个编码的音频声道。可在单个IP包内将多声道音频信号分包,使得每个音频声道信号经历相同的抖动。这有助于保持多声道音频信号的服务质量(QoS)。
在根据第一方面的第十一实施形式的方法的第十三可能的实施形式中,所述方法进一步包括:接收多个音频信号包,每个音频信号包包括多个单独编码的音频声道中的一编码的音频声道,及表示相应编码的音频声道的声道索引;从接收到的多个音频信号包中提取多个编码的音频声道;及基于接收到的声道索引使多个编码的音频声道对准。
通过声道索引,可向接收器提供相应编码的音频声道在编码的多声道音频信号内的时间位置,使得接收器内的抖动缓冲控制机制可重建相应声道的确切位置。在通过网络用不同方式传输音频信号帧,因此音频信号帧经历不同延迟的情况下,抖动缓冲机制可补偿不同传输路径的延迟。在下文关于图5所述的抖动缓冲管理装置中实施此抖动缓冲机制。
根据第二方面,本发明涉及一种用于处理多声道音频信号的音频信号处理设备,所述多声道音频信号包括多个音频声道信号,所述音频信号处理设备包括:确定器,其适于使用所述多个音频声道信号来确定时间比例缩放调整位置;及时间比例缩放调整器,其适于根据所述时间比例缩放调整位置对所述多个音频声道信号中的每个音频声道信号进行时间比例缩放调整,以获得多个经时间比例缩放调整的音频声道信号。
时间比例缩放调整位置能使不同的音频声道信号同步,以便保留空间信息。在包含抖动缓冲管理机制的多声道VoIP应用的情况下,当多声道音频编解码器是基于以双重/多重单声道模式操作的单声道编解码器的时候,即,针对每个声道使用一个单声道编码器/解码器,则使用共同时间比例缩放调整位置针对每个声道使用时间比例缩放调整算法的独立应用,不会导致质量下降,因为时间比例缩放调整位置使每个声道的时间比例缩放调整同步,从而保留空间线索,因而保留空间声音图像。用户能在很大程度上更好地感知到多声道音频信号。
在音频/视频广播及后期制作应用中,用共同的时间比例缩放调整位置单独对每个声道进行时间比例缩放调整,可保留视频与音频之间的同步,而且能保证空间线索不会改变。空间感知的最重要的空间线索是声道之间的能量差,声道之间的时间或相位差,及声道之间的相干或相关。通过确定时间比例缩放调整位置,这些换片信号得以保留,而且与原始的换片信号没有差别。用户感知得到改善。
在根据第二方面的音频信号处理设备的第一可能的实施形式中,多声道音频信号包括多个编码的音频声道信号,且音频信号处理设备包括:解码器,其适于将所述多个编码的音频声道信号解码以获得多个音频声道信号。
所述解码器也可实施在如下文关于图5所述的音频信号处理设备的外部。解码器可以是标准解码器,以便保持与IP语音系统的互通性。解码器可利用开放的语音编解码器,例如标准化的ITU-T或3GPP编解码器。解码器的编解码器可实施G.711、G.722、G.729、G.723.1及AMR-WB的VoIP标准化格式之一,或Speex、Silk及CELT专用格式之一。经编码的语音信号在IP包中分包及传输。这保证了与此项技术中使用的标准VoIP应用的互通。
在根据此第二方面或根据第二方面的第一实施形式的音频信号处理设备的第二可能的实施形式中,音频信号处理设备包括:提取器,其适于从所述多个音频声道信号中提取第一组空间线索参数,所述第一组空间线索参数与多个音频声道信号同根据所述多个音频声道信号中的至少一者导出的参考音频声道信号之间的差的差值测量有关,其中所述提取器进一步适于从多个经时间比例缩放调整的音频声道信号中提取第二组空间线索参数,所述第二组空间线索参数与同第一组空间线索参数有关的相同类型的差值测量有关,其中第二组空间线索参数与多个经时间比例缩放调整的音频声道信号同从所述多个经时间比例缩放调整的音频声道信号中的至少一者导出的参考经时间比例缩放调整的音频声道信号之间的差有关;及处理器,其适于确定第二组空间线索参数是否关于第一组空间线索参数满足质量标准。
差值测量可为由等式(1)、(5)、(6)及(8)定义且如下文关于图2说明的交叉相关(cc)、归一化交叉相关(cn)及交叉平均幅值差函数(ca)中的一者。质量标准可为优化标准。其可基于第二组空间线索参数与第一组空间线索参数之间的相似性。
参考音频声道信号可为多个音频声道信号中的一者,其显示出其频谱分量、其能量及其语音声音方面与其它音频声道信号的相似行为。参考音频声道信号可为单声道下混频信号,其为所有M个声道的平均值。将下混频信号用作多声道音频信号的参考的优点是避免将静默信号用作参考信号。实际上,下混频代表所有声道的能量的平均值,因此不太可能是静默的。同样,经时间比例缩放调整的音频声道信号可为多个经时间比例缩放调整的音频声道信号中的一者,其显示出其频谱分量、其能量及其语音声音方面与其它经时间比例缩放调整的音频声道信号的相似行为。参考经时间比例缩放调整的音频声道信号可为单声道下混频信号,其是所有M个经时间比例缩放调整的声道的平均值,因此不太可能是静默的。
在根据此第二方面或根据第二方面的任一前述实施形式的音频信号处理设备的第三可能的实施形式中,所述确定器适于对于多个音频声道信号中的每一者,确定与候选时间比例缩放调整位置相关的声道交叉相关函数;通过依据候选时间比例缩放调整位置累计多个声道交叉相关函数来确定所累计的交叉相关函数;选择与所累计的交叉相关函数的最大所累计的交叉相关值相关联的时间比例缩放调整位置以获得时间比例缩放调整位置。
如果发现时间比例缩放调整位置不满足质量标准,则可选择具有最大交叉相关(cc)、归一化交叉相关(cn)或交叉平均幅值差函数(ca)的时间比例缩放调整位置。在任何情况下都可找到至少一次等时间比例缩放调整位置。
根据第三方面,本发明涉及一种用于处理多声道音频信号的用可编程方式设置的音频信号处理设备,所述多声道音频信号包括多个音频声道信号,所述用可编程方式设置的音频信号处理设备包括处理器,所述处理器经配置以执行用于执行根据此第一方面或根据第一方面的任一实施形式的方法的计算机程序。
所述用可编程方式设置的音频信号处理设备包括根据第三方面的第一可能的实施形式的在处理器上运行的软件或固件,且可在不同的环境下灵活使用。如果发现错误或发现更好的算法或算法的更好参数,则可重新编写软件,或者可在处理器上重新加载固件,以便改善音频信号处理设备的性能。所述用可编程方式设置的音频信号处理设备可在早期现场安装,如果出现问题再重新编程或者重新加载,从而加快上市时间并改善电信操作人员的安装基础。
本发明可在数字电子电路或在计算机硬件、固件、软件或其组合中实施。
附图说明
将参照下图说明本发明的其它实施例,其中:
图1绘示根据一种实施形式的处理多声道音频信号的方法的框图;
图2绘示根据一种实施形式的音频信号处理设备的框图;
图3绘示根据一种实施形式的音频信号处理设备的框图;
图4绘示根据一种实施形式的处理多声道音频信号的方法的框图;
图5绘示根据一种实施形式的抖动缓冲管理装置的框图;
图6绘示一时间图,其图解说明由根据一种实施形式的音频信号处理设备应用的受限制的时间比例缩放调整。
具-体实施方式
图1绘示根据一种实施形式的处理带有多个音频声道信号的多声道音频信号的方法的框图。此方法包括使用所述多个音频声道信号来确定时间比例缩放调整位置(101);及根据所述时间比例缩放调整位置对所述多个音频声道信号中的每个音频声道信号进行时间比例缩放调整(103),以获得多个经时间比例缩放调整的音频声道信号。
图2绘示根据一种实施形式的处理包括多个M个音频声道信号201_1、201,_2、…、201_M的多声道音频信号201的音频信号处理设备200的框图。音频信号处理设备200包括确定器203及时间比例缩放调整器207。确定器203经配置以使用所述多个音频声道信号201_1、201,_2、…、201_M来确定时间比例缩放调整位置205。时间比例缩放调整器207经配置以根据所述时间比例缩放调整位置205对所述多个音频声道信号201_1、201,_2、…、201_M中的每个音频声道信号进行时间比例缩放调整,以获得多个经时间比例缩放调整的音频声道信号209_1、209,_2、…、209_M,这些信号构成经时间比例缩放调整的多声道音频信号209。确定器203具有M个输入端,用于接收多个M个音频声道信号201_1、201,_2、…、201_M,还具有一个输出端,用于提供时间比例缩放调整位置205。时间比例缩放调整器207具有M个输入端,用于接收多个M个音频声道信号201_1、201,_2、…、201_M,还具有一个输入端,用于接收时间比例缩放调整位置205。时间比例缩放调整器207具有M个输出端,用于提供多个M个经时间比例缩放调整的音频声道信号209_1、209,_2、…、209_M,这些信号构成经时间比例缩放调整的多声道音频信号209。
在音频信号处理设备200的第一实施形式中,确定器203经配置以通过根据多声道音频信号201计算时间比例缩放调整位置δ来确定时间比例缩放调整位置205。
确定器203如下计算交叉相关cc(m,δ)、归一化交叉相关cn(m,δ)及/或交叉平均幅值差函数(交叉AMDF)ca(m,δ):
cc(m,δ)=cc1(m,δ)+cc2(m,δ)+…+ccM(m,δ)
cn(m,δ)=cn1(m,δ)+cn2(m,δ)+…+cnM(m,δ) (1)
ca(m,δ)=ca1(m,δ)+ca2(m,δ)+…+caM(m,δ)
并确定每个声道1..M的使cc(m,δ)、cn(m,δ)或ca(m,δ)最大化的时间比例缩放调整位置δ。
交叉相关cc(m,δ)、归一化交叉相关cn(m,δ)及交叉平均幅值差函数(交叉AMDF)ca(m,δ)是如下确定的相似性测量:
其中通过找到在时间间隔τ-1(m·L)周围的容限区内且使选中的相似性测量最大化的值δ=Δm来确定最佳区段m。N代表交叉相关函数的窗长度,m是区段索引,n是样本索引,cc、cn及ca分别是交叉相关、归一化交叉相关及交叉AMDF的缩写。δ代表候选时间比例缩放调整位置。
时间比例缩放调整器207用确定器203确定的对应时间比例缩放调整位置δ205对M个音频声道信号201_1、201,_2、…、201_M中的每一者进行时间比例缩放调整,以获得M个经时间比例缩放调整的音频声道信号209_1、209,_2、…、209_M,这些信号构成经时间比例缩放调整的多声道音频信号209。
在音频信号处理设备200的第二实施形式中,多声道音频信号201是双声道立体声音频信号,其包括左音频声道信号201_1及右音频声道信号201,_2。确定器203经配置以通过根据立体声音频信号201计算交叉相关函数来确定时间比例缩放调整位置δ205。
确定器203如下计算交叉相关cc(m,δ)、归一化交叉相关cn(m,δ)及/或交叉平均幅值差函数(交叉AMDF)ca(m,δ):
cc(m,δ)=cc1(m,δ)+ccr(m,δ)
cn(m,δ)=cn1(m,δ)+cnr(m,δ) (5)
ca(m,δ)=ca1(m,δ)+car(m,δ)
其中l及r是左声道及右声道的缩写,m是区段索引,并确定左右声道的使cc(m,δ)、cn(m,δ)或ca(m,δ)最大化的时间比例缩放调整位置δ。
交叉相关cc(m,δ)、归一化交叉相关cn(m,δ)及交叉平均幅值差函数(交叉AMDF)ca(m,δ)是用上文关于第一实施形式说明的方式确定的相似性测量。
时间比例缩放调整器207用确定器203确定的对应时间比例缩放调整位置δ205对左音频声道信号201_1及右音频声道信号201,_2进行时间比例缩放调整,以获得左经时间比例缩放调整的音频声道信号209_1及右经时间比例缩放调整的音频声道信号209,_2,这些信号构成经时间比例缩放调整的双声道立体声音频信号209。
在音频信号处理设备200的第三实施形式中,确定器203经配置以根据多声道音频信号201来确定时间比例缩放调整位置δ205。
确定器203如下计算交叉相关cc(m,δ)、归一化交叉相关cn(m,δ)及/或交叉平均幅值差函数(交叉AMDF)ca(m,δ):
cc(m,δ)=w1·cc1(m,δ)+w2·cc2(m,δ)+…+wM·ccM(m,δ)
cn(m,δ)=w1·cn1(m,δ)+w2·cn2(m,δ)+…+wM·cnM(m,δ) (6)
ca(m,δ)=w1·ca1(m,δ)+w2·ca2(m,δ)+…+wM·caM(m,δ),
其中使用等式(7)根据多声道音频信号201直接计算能量加权wi:
其中xi(n)是时域中的M个音频声道信号201_1、201,_2、…、201_M。N是帧长度,n是样本索引。
确定器203如上文相对于第一实施形式所述确定每个声道1..M的使cc(m,δ)、cn(m,δ)或ca(m,δ)最大化的时间比例缩放调整位置δ。
时间比例缩放调整器207用确定器203确定的对应时间比例缩放调整位置δ205对M个音频声道信号201_1、201,_2、…、201_M中的每一者进行时间比例缩放调整,以获得M个经时间比例缩放调整的音频声道信号209_1、209,_2、…、209_M,这些信号构成经时间比例缩放调整的多声道音频信号209。
在音频信号处理设备200的第四实施形式中,多声道音频信号201是双声道立体声音频信号,其包括左音频声道信号201_1及右音频声道信号201,_2。确定器203经配置以根据立体声音频信号201来确定时间比例缩放调整位置δ205。
确定器203如下计算交叉相关cc(m,δ)、归一化交叉相关cn(m,δ)及/或交叉平均幅值差函数(交叉AMDF)ca(m,δ):
cc(m,δ)=w1·cc1(m,δ)+wr·ccr(m,δ)
cn(m,δ)=w1·cn1(m,δ)+wr·cnr(m,δ) (8)
ca(m,δ)=w1·ca1(m,δ)+wr·car(m,δ).
左声道交叉相关ccl(m,δ)及右声道交叉相关ccr(m,δ)、左声道归一化交叉相关cnl(m,δ)及右声道归一化交叉相关cnr(m,δ)、左声道交叉平均幅值差函数(交叉AMDF)cal(m,δ)及右声道交叉平均幅值差函数car(m,δ)是用上文相对于第一实施形式所述的方式确定的相似性测量,此计算是基于左声道及右声道的信号值。能量加权wl及wr对应于左声道l及右声道r,是使用等式(9)根据ILD空间参数计算的:
其中
c=10ILD/20 (10)
将这两个声道之一用作提供参考信号的参考声道。根据如下等式(11)计算ILD:
其中k是频段索引,b是频带索引,k
b是频带b的开始频段,k
b+1–1是频带b的结束点,X
ref是参考信号的频谱。X
i(i在[1,2]范围内)是双声道立体声音频信号201的左声道及右声道的频谱。
及
分别是X
ref及X
i的共轭。参考信号X
ref的频谱处在用作参考声道的声道中。一般使用整个频带ILD,其中频带b的数目是1。
确定器203确定左声道及右声道的使cc(m,δ)、cn(m,δ)或ca(m,δ)最大化的时间比例缩放调整位置δ。
时间比例缩放调整器207用确定器203确定的对应时间比例缩放调整位置δ205对左音频声道信号201_1及右音频声道信号201,_2进行时间比例缩放调整,以获得左经时间比例缩放调整的音频声道信号209_1及右经时间比例缩放调整的音频声道信号209,_2,这些信号构成经时间比例缩放调整的双声道立体声音频信号209。
在第五实施形式中,确定器203从多声道音频信号201中提取空间参数,且根据相对于图2所述的前述四种实施形式之一计算交叉相关cc(m,δ)、归一化交叉相关cn(m,δ)及交叉平均幅值差函数(交叉AMDF)ca(m,δ)这些相似性测量中的至少一者。确定器203将受限制的时间比例缩放调整(基于波形相似性的同步重叠-相加,WSOLA)应用于所有声道,且修改计算出的相似性测量,即交叉相关cc(m,δ)、归一化交叉相关cn(m,δ)及/或交叉平均幅值差函数(交叉AMDF)ca(m,δ),以便消除未保留至少一个空间线索的波形。
确定器203应用的WSOLA的基本概念是确定理想的时间比例缩放调整位置,此位置可在相关样本索引n=τ(p)的对应邻域中保持与原始波形x(p)的最大局部相似性的合成波形y(n)。图6图解说明WSOLA算法,从此图中可以看出,可通过p=τ-1(n)获得原始波形的索引p。
通过选择规则间隔的合成瞬时Lk=k·L及对称窗,使得
合成等式可写为:
请注意,k在此处代表合成瞬时的索引。对于压缩操作,用从左向右的方式继续,假设图6中的片段(2)是从输入中删掉的最后一个片段,且与瞬时L
k-1=(k-l)·L的输出相加,即片段(a)=片段(2)。于是,WSOLA需要找到将用同步方式与(a)重叠-相加的片段(b),且可在大约瞬时τ
-1(k·L)从输入中删掉,此处L
k=k·L。因为(1')将用自然的方式与(2)=(a)重叠-相加从而形成一部分原始输入语音,所以WSOLA可选择(b),使得其尽可能与(1')相似,并且位于输入波中大约在τ
-1(k·L)的规定容限区间
内。通过使(1')下的样本序列与输入语音之间的相似性测量(例如交叉相关或交叉AMDF(平均幅值差函数))最大化找到此最佳区段(3)的位置。在将(b)与(a)重叠-相加之后,WSOLA继续到下一个输出区段,其中(2')现在的作用与前一个步骤中的(1')相同。
通过找到在τ
-1(m·L)周围的容限区
内且使选中的相似性测量最大化的值δ=Δ
m来确定最佳区段m。相似性测量如等式(2)、(3)及(4)所提供。
通过将受限制的时间比例缩放调整(WSOLA)应用于所有声道,确定器203验证所提取的δ。根据实施形式的用于计算相似性值的等式(5)、(1)、(8)、(6),确定器203计算出δ的j个候选值的列表,可按最佳cc、cn或ca到最差cc、cn或ca排序。在第二步骤中,在合成波形上计算ICC及/或ITD,如果ICC及/或ITD不在原始ICC及/或ITD周围的范围内,则从列表中去除候选δ,并测试接下来的δ候选值。如果满足ICC及/或ITD的限制,则选择δ。
声道间时间差(ITD)、声道间声级差(ILD)及声道间相关/声道间交叉相关(ICC)是确定器203如下文所述从多声道音频信号201中提取的空间信息。
确定器203使用等式(11)从多声道音频信号201中提取ILD。
基于此信息,确定器203计算M-1个空间线索。此外,确定器203基于以下等式根据多声道音频信号201计算每个声道i的声道间时间差(ITD),此时间差代表声道信号i与参考声道之间的延迟:
其中ICi(d)是如下定义的归一化交叉相关
xref代表参考信号,xi代表声道信号I。ICCi参数定义为ICCi=ICi[d]。
时间比例缩放调整器207用确定器203确定的对应时间比例缩放调整位置δ205对M个音频声道信号201_1、201,_2、…、201_M中的每一者进行时间比例缩放调整,以获得M个经时间比例缩放调整的音频声道信号209_1、209,_2、…、209_M,这些信号构成经时间比例缩放调整的多声道音频信号209。
在第四实施形式的第一变体中,且在第五实施形式的第一变体中,Xref是多声道下混频信号的频谱,其是所有M个声道的平均值。在确定器203中计算M个空间线索。将下混频信号用作多声道音频信号的参考的优点是避免将静默信号用作参考信号。实际上,下混频代表所有声道的能量的平均值,因此不太可能是静默的。
在第六实施形式中,确定器203根据第五实施形式验证提取出的δ。但是,如果没有δ满足关于受限制的时间比例缩放调整(WSOLA)的限制,则将选择具有最大cc、cn或ca的δ。
时间比例缩放调整器207用确定器203确定的对应时间比例缩放调整位置δ205对M个音频声道信号201_1、201,_2、…、201_M中的每一者进行时间比例缩放调整,以获得M个经时间比例缩放调整的音频声道信号209_1、209,_2、…、209_M,这些信号构成经时间比例缩放调整的多声道音频信号209。
图3绘示根据一种实施形式的处理包括多个音频声道信号300_1、301,_2、…、301_M的多声道音频信号301的音频信号处理设备300的框图。音频信号处理设备300包括确定器303及时间比例缩放调整器307。确定器303经配置以使用所述多个音频声道信号301_1、301,_2、…、301_M来确定时间比例缩放调整位置δ305。时间比例缩放调整器307经配置以根据所述时间比例缩放调整位置δ305对所述多个音频声道信号301_1、301,_2、…、301_M中的每个音频声道信号进行时间比例缩放调整,以获得多个经时间比例缩放调整的音频声道信号309_1、309,_2、…、309_M,这些信号构成经时间比例缩放调整的多声道音频信号309。确定器303具有M个输入端,用于接收多个M个音频声道信号301_1、301,_2、…、301_M,还具有一个输出端,用于提供时间比例缩放调整位置205。时间比例缩放调整器307具有M个输入端,用于接收多个M个音频声道信号301_1、301,_2、…、301_M,还具有一个输入端,用于接收时间比例缩放调整位置305。时间比例缩放调整器307具有M个输出端,用于提供多个M个经时间比例缩放调整的音频声道信号309_1、309,_2、…、309_M,这些信号构成经时间比例缩放调整的多声道音频信号309。
确定器303包括M个提取单元303_1、303_2、…、303_M,其经配置以提取空间参数,还包括一个计算单元304,其经配置以计算按比例调整位置δ305。
在音频信号处理设备300的第一实施形式中,M个提取单元303_1、303_2、…、303_M中的每一者提取多个M个音频声道信号301_1、301,_2、…、301_M中的每一者的空间参数。计算单元304根据相对于图2所述的音频信号处理设备200的第一实施形式计算多个M个音频声道信号301_1、301,_2、…、301_M的交叉相关cc(m,δ)、归一化交叉相关cn(m,δ)及/或交叉平均幅值差函数(交叉AMDF)ca(m,δ)。
计算单元304根据相对于图2所述的音频信号处理设备200的第一实施形式,通过找到在时间间隔τ
-1(m·L)周围的容限区
内且使选中的相似性测量最大化的值δ=Δ
m来确定最佳区段。
在音频信号处理设备300的第二实施形式中,多声道音频信号301是双声道立体声音频信号,其包括左音频声道信号301_1及右音频声道信号301,_2。确定器303包括两个提取单元303_1、303_2,其经配置以从左音频声道信号301_1及右音频声道信号301,_2中提取空间参数,还包括一个计算单元304,其经配置以计算按比例调整位置δ305。
左提取单元303_1及右提取单元303_2都提取ILD及/或ITD及/或ICC。
计算单元304根据相对于图2所述的音频信号处理设备200的第二实施形式分别计算左音频声道信号201_1及右音频声道信号201,_2的交叉相关cc(m,δ)、归一化交叉相关cn(m,δ)及/或交叉平均幅值差函数(交叉AMDF)ca(m,δ)。
计算单元304根据相对于图2所述的音频信号处理设备200的第二实施形式,通过找到在时间间隔τ
-1(m·L)周围的容限区
内且使选中的相似性测量最大化的值δ=Δ
m来确定最佳区段。
在音频信号处理设备300的第三实施形式中,M个提取单元303_1、303_2、…、303_M中的每一者提取多个M个音频声道信号301_1、301,_2、…、301_M中的每一者的空间参数。计算单元304根据相对于图2所述的音频信号处理设备200的第三实施形式计算多个M个音频声道信号301_1、301,_2、…、301_M的交叉相关cc(m,δ)、归一化交叉相关cn(m,δ)及/或交叉平均幅值差函数(交叉AMDF)ca(m,δ)。
计算单元304如上文相对于第三实施形式所述确定每个声道1..M的使cc(m,δ)、cn(m,δ)或ca(m,δ)最大化的时间比例缩放调整位置δ。
在音频信号处理设备300的第四实施形式中,多声道音频信号301是双声道立体声音频信号,其包括左音频声道信号301_1及右音频声道信号301,_2。确定器303包括两个提取单元303_1、303_2,其经配置以从左音频声道信号301_1及右音频声道信号301_2中提取空间参数,还包括一个计算单元304,其经配置以计算按比例调整位置δ305。
计算单元304如上文相对于第四实施形式所述确定每个声道1..M的使cc(m,δ)、cn(m,δ)或ca(m,δ)最大化的时间比例缩放调整位置δ。
在音频信号处理设备300的第五实施形式中,M个提取单元303_1、303_2、…、303_M中的每一者提取多个M个音频声道信号301_1、301,_2、…、301_M中的每一者的空间参数。计算单元304根据相对于图2所述的音频信号处理设备200的第五实施形式计算多个M个音频声道信号301_1、301_2、…、301_M的交叉相关cc(m,δ)、归一化交叉相关cn(m,δ)及/或交叉平均幅值差函数(交叉AMDF)ca(m,δ)。
计算单元304如上文相对于第五实施形式所述确定每个声道1..M的使cc(m,δ)、cn(m,δ)或ca(m,δ)最大化的时间比例缩放调整位置δ。
在音频信号处理设备300的第六实施形式中,M个提取单元303_1、303_2、…、303_M中的每一者提取多个M个音频声道信号301_1、301,_2、…、301_M中的每一者的空间参数。计算单元304根据相对于图2所述的音频信号处理设备200的第六实施形式计算多个M个音频声道信号301_1、301_2、…、301_M的交叉相关cc(m,δ)、归一化交叉相关cn(m,δ)及/或交叉平均幅值差函数(交叉AMDF)ca(m,δ)。
计算单元304如上文相对于第六实施形式所述确定每个声道1..M的使cc(m,δ)、cn(m,δ)或ca(m,δ)最大化的时间比例缩放调整位置δ。
图4绘示根据一种实施形式的处理多声道音频信号的方法的框图。所述方法包括:缓冲401多声道的信息;提取403空间参数;找到405每个声道的最优时间比例缩放调整位置δ;及根据最优时间比例缩放调整位置δ对每个声道进行时间比例缩放调整407。缓冲401与相对于图2及图3所述的多声道音频信号201、301有关。使用存储器单元或RAM或其它基于硬件的缓冲器来进行缓冲。提取403与如相对于图3所述的经配置以提取空间参数的M个提取单元303_1、303_2、…、303_M有关。找到405每个声道的最优时间比例缩放调整位置δ与如相对于图3所述的经配置以计算按比例调整位置δ,305的计算单元304有关。时间比例缩放调整407与相对于图3所述的按比例调整单元307有关。方法步骤401、403、405及407中的每一者经配置以执行如相对于图3所述的相应单元的功能。
图5绘示根据一种实施形式的抖动缓冲管理装置500的框图。抖动缓冲管理装置500包括抖动缓冲器530、解码器540、自适应播出算法单元550及音频信号处理设备520。抖动缓冲器530包括用以接收输入帧511的数据输入端,及用以接收抖动控制信号551的控制输入端。抖动缓冲器530包括用以将经缓冲的输入帧提供给解码器540的数据输出端。解码器540包括用以从抖动缓冲器530接收经缓冲的输入帧的数据输入端,及用以将解码的帧提供给音频信号处理设备520的数据输出端。音频信号处理设备520包括用以从解码器540接收解码的帧的数据输入端,及用以提供输出帧509的数据输出端。音频信号处理设备520包括用以从自适应播出算法单元550接收预期帧长度523的控制输入端,及用以将新的帧长度521提供给自适应播出算法单元550的控制输出端。自适应播出算法单元550包括用以接收输入帧511的数据输入端,及用以从音频信号处理设备520接收新的帧长度521的控制输入端。自适应播出算法单元550包括用以将预期的帧长度523提供给音频信号处理设备520的第一控制输出端,及用以将抖动控制信号551提供给抖动缓冲器530的第二控制输出端。
在IP语音应用中,首先使用语音编码器压缩语音信号。为了保持互通性,IP语音系统通常建立在开放语音编解码器上。这些系统可经标准化,例如在ITU-T或3GPP编解码器中(若干标准化语音编解码器用于VoIP:G.711、G.722、G.729、G.723.1、AMR-WB)或专有格式(Speex、Silk、CELT)。为了对编码的语音信号进行解码,利用解码器540。在一些实施形式中,解码器经配置以应用标准化语音编解码器G.711、G.722、G.729、G.723.1、AMR-WB之一或专用语音编解码器Speex、Silk、CELT之一。
经编码的语音信号在IP包中分包及传输。包将在VoIP中遇到可变网络延迟,因此包以不规则的时间间隔到达。为了使此抖动平滑,通常在接收器中需要抖动缓冲管理机制:将接收到的包缓冲一会儿,并在调度的时间循序播出。在一些实施形式中,抖动缓冲器530经配置以根据从自适应播出算法单元550提供的抖动控制信号551缓冲接收到的包,即输入帧511。
如果可针对每个包调整播出时间,则需要进行时标修改以确保在声卡上连续播出语音数据。音频信号处理设备520经配置以提供时标修改以确保在声卡上连续播出语音数据。因为延迟并不是恒定的延迟,所以音频信号处理设备520经配置以拉伸或压缩给定的接收到的包的持续时间。在一种实施形式中,音频信号处理设备520经配置以使用WSOLA技术来进行时间比例缩放调整。音频信号处理设备520对应于相对于图2所述的音频信号处理设备200或相对于图3所述的音频信号处理设备300。
在一种实施形式中,抖动缓冲管理装置500经配置以管理立体声或多声道VoIP通信。
在一种实施形式中,解码器540包括多声道编解码器,其应用特定的多声道音频编码方案,特别是参数空间音频编码方案。
在一种实施形式中,解码器540是基于单声道编解码器,其用双重/多重模式操作,即,每个声道使用一个单声道编码器/解码器。对每个声道使用时间比例缩放调整算法的独立应用,可能导致质量下降(特别是空间声音图像的质量下降),因为独立的时间比例缩放调整将无法保证空间线索得到保留。因此,音频信号处理设备520,对应于相对于图2所述的音频信号处理设备200或相对于图3所述的音频信号处理设备300,经配置以保留空间线索,使得抖动缓冲管理装置500对于空间声音图像不会表现出性能下降。
在音频/视频广播及后期制作应用中,可能必须用不同于源材料的记录速率的速率来回放视频,这将产生附带的音频信号的经音调移位的版本。这通常会在帧速率转换过程期间发生,此时每秒24帧的胶片速率以较快速率回放,用于传送到具有每秒25帧的回放速率的系统。音频信号处理设备520执行的时间比例缩放调整保持了音频与视频之间的同步,同时保留原始的原材料的音调。
时间比例缩放调整算法的独立应用将导致修改说话者的位置。抖动缓冲管理装置500保留最重要的空间线索,其为ITD、ILD及ICC等等。使用空间线索来限制时间比例缩放调整算法。因此,即使使用时间比例缩放调整来拉伸或压缩多声道音频信号,也不会修改空间声音图像。
抖动缓冲管理装置500经配置以在多声道时间比例缩放调整处理期间保留空间线索。在一种实施形式中,音频信号处理设备520应用处理带有多个音频声道信号的多声道音频信号的方法,其中所述方法包括以下步骤:从未经时间比例缩放调整的多声道信号中提取空间信息,例如ITD(声道间时间差)、ILD(声道间声级差)或ICC(声道间相干/声道间交叉相关);及将受限制的时间比例缩放调整算法应用于每个声道,确保空间线索得以保留。
在一种实施形式中,音频信号处理设备520应用处理带有多个音频声道信号的多声道音频信号的方法,其中所述方法包括以下步骤:从多声道信号中提取空间参数;将受限制的时间比例缩放调整(WSOLA)应用于所有声道;及修改相似性测量,即交叉相关、归一化交叉相关或交叉AMDF,以便去除未保留至少一个空间线索的波形。在此实施形式的变体中,修改相似性测量以便去除未保留所有空间线索的波形。
在多声道VoIP应用的情况下,在将声道从发送方传输到接收方时,将来自所有声道的数据封装到一个包或不同的包中。根据一种实施形式的接收器包括图5中描绘的抖动缓冲管理装置500。如果将所有声道放到一个包中,其具有相同抖动。如果将所有声道分包到不同包中,其通常对每个声道具有不同抖动,且包以不同顺序到达。为了补偿抖动且使所有声道对准,设置最大延迟。如果包来得太晚且超过了最大延迟,则将认为数据丢失,使用包丢失隐藏算法。在不同包中传输声道的特定情况下,使用帧索引连同声道索引,以便确保解码器540可独立地将每个声道的包重新排序。
在音频/视频广播及后期制作应用中,如果每个声道的时标位置相同,则可保持ITD。如果在时间比例缩放调整之前及之后未改变每个声道的能量,则可保持ILD。在一种实施形式中,抖动缓冲管理装置500在时间比例缩放调整之前及之后不改变每个声道的能量。
在一种实施形式中,抖动缓冲管理装置500用于多声道解码器是基于若干单声道解码器,即立体声情况下的双重单声道的操作的应用,或者联合立体声编解码器根据输入立体声信号在双重单声道模式与单声道/立体声模式之间切换的应用。在一种实施形式中,抖动缓冲管理装置500用于音频/视频广播及/或后期制作应用。