CN101582262B

CN101582262B - 一种空间音频参数帧间预测编解码方法

Info

Publication number: CN101582262B
Application number: CN2009100627322A
Authority: CN
Inventors: 胡瑞敏; 周成; 杭波; 王晓晨
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2009-06-16
Filing date: 2009-06-16
Publication date: 2011-12-28
Anticipated expiration: 2029-06-16
Also published as: CN101582262A

Abstract

本发明提供了基于贝叶斯梯度模型的空间音频参数帧间预测技术方案。编码过程：对输入的多声道音频信号的帧信号分子带提取空间音频参数；根据空间音频参数帧间差值的统计分布特性和前一帧或多帧的空间音频参数对当前帧的空间音频参数作出预测，得到当前帧的空间音频参数预测系数和空间音频参数预测残差；对当前帧的空间音频参数预测残差进行编码得到编码码流。解码过程：从编码码流中解码得到帧信号的空间音频参数预测残差；用之前重建得到的一帧或多帧空间音频参数及当前帧的空间音频参数预测残差，得到空间音频参数预测系数，然后重建得到当前帧的空间音频参数。本发明考虑了空间音频参数的时域相关性，可有效降低编码码率。

Description

一种空间音频参数帧间预测编解码方法

技术领域

本发明属于音频技术领域，特别是涉及一种空间音频参数帧间预测编解码方法。

背景技术

空间音频编码的理论基础是人耳空间听觉的生理声学和心理声学。1983年Blauert等对人耳的单声源和多声源空间定位给出了数学物理模型及实验分析，定义了耳间时间差ITD、耳间强度差ILD以及耳间相关度IC等空间线索参数。其中，ITD和ILD分别表示同一声源发出的声音到达左、右耳的时间差和强度差，通过这两个参数可以定位声源的位置，IC是左、右耳入声相似度的测度，可以确定声像的宽度。2001年Faller和Baumgarte等提出双耳线索编码方法(BCC，Binaural Cue Coding)，将立体声信号下混为单声道信号交由传统编码器编码，同时对由输入信号中提取的空间音频参数单独编码，解码时根据单声道信号和空间音频参数共同重建立体声信号。

基于音频对象在空间的移动是一个连续过程，表征音频对象空间方位的音频空间音频参数在时域上存在相关性。针对音频空间音频参数的时域相关特性，当前主流空间音频编码算法EAAC+采用了一种差分哈夫曼编码算法，对本帧和前一帧的空间音频参数差值作哈夫曼编码，目的是为了缩小空间音频参数编码数值动态范围，降低空间音频编码码率。这种差分编码处理的效果实际上等同于将前一帧的空间音频参数作为当前帧的预测值，然后对误差进行编码。这种算法仅仅只是考虑了相邻两帧之间的相关性，忽略了相邻几帧之间的相关性可能更强，从利用空间音频参数的短时平稳性的角度考虑，有提升的空间。

发明内容

本发明提出基于贝叶斯梯度模型的空间音频参数帧间预测编解码方法来消除编码冗余，利用前一帧或多帧来预测下一帧信号，然后对实际值和预测值的差(即空间音频参数预测误差)进行编解码。

本发明提供的空间音频参数帧间预测编码方法包含以下步骤：

步骤1.1，对输入的多声道音频信号的帧信号分子带提取空间音频参数；

步骤1.2，根据空间音频参数帧间差值的统计分布特性和前一帧或多帧的空间音频参数对当前帧的空间音频参数作出预测，得到当前帧的空间音频参数预测系数和空间音频参数预测残差，具体实现过程如下，

(1)设每帧信号分K个子带，第m帧的K个子带的空间音频参数记为S_m1，S_m2，…S_mK，K≥2；设第m帧之前第M帧第K个子带的空间音频参数记为S_(m-M)K，第m帧前M帧的所有子带的空间音频参数则为

S_(m-M)1，S_(m-M)2，…S_(m-M)K，S_(m-M+1)1，S_(m-M+1)2，…S_(m-M+1)K，…S_(m-1)1，S_(m-1)2，…S_(m-1)K，M≥1；

设第m帧的第i个子带的空间音频参数帧间差值

D_{i}^{m, m + 1} = S_{(m + 1) i} - S_{mi},

设空间音频参数的取值范围为-f到f，则D_i ^m，m+1可能的取值范围为-2f到2f，这4f+1个差值的概率分布为P{(D_i ^m，m+1)_j}，j＝1，2...4f+1；

(2)预测方式如下，

设事件B_mi ^j对应于第m帧的第i个子带的空间音频参数从-f到f一共2f+1种取值，则B_mi ^j，j＝1，2...2f+1互斥且构成一个完全事件，P(B_mi ^j)，j＝1，2...2f+1为事件B_mi ^j发生的概率，在无任何先验知识的情况下P(B_mi ^j)的初始值为

P (B_{1 i}^{1}) = P (B_{1 i}^{2}) . . . = P (B_{1 i}^{2 f + 1}) = 1 / 2 f + 1;

设定事件A为伴随事件B_mi ^j，j＝1，2...2f+1发生而出现，由第m帧各子带的空间音频参数取值得到第m+1帧各子带的空间音频参数取值可能，则由第i个子带m帧空间音频参数取值S_mi得到第m+1帧各空间音频参数取值概率为

P (A / B_{mi}^{j}) = P {{(D_{i}^{m, m + 1})}_{j - S_{mi} + f}},

j＝1，2...2f+1；

在已知事件B_mi ^j的概率P(B_mi ^j)和事件B_mi ^j发生条件下事件A的概率P(A/B_mi ^j)的情况下，运用贝叶斯定理得到在事件A发生条件下第m+1帧事件B_(m+1)i ^j的发生概率为

P (B_{(m + 1) i}^{j} / A) = \frac{P (B_{mi}^{j}) P (A / B_{mi}^{j})}{Σ_{n = 1}^{2 f + 1} P (B_{mi}^{n}) P (A / B_{mi}^{n})},

j＝1，2...2f+1；

预测时初始化

B_{(m - K) i}^{j} = \frac{1}{2 f + 1},

j＝1，2...2f+1，然后将第m帧之前M帧的所有子带的空间音频参数

S_(m-M)1，S_(m-M)2，…S_(m-M)K，S_(m-M+1)1，S_(m-M+1)2，…S_(m-M+1)K，…S_(m-1)1，S_(m-1)2，…S_(m-1)K依次代入

P (A / B_{qi}^{j}) = P {{(D_{i}^{q, q + 1})}_{j - S_{qi} + f}},

j＝1，2...2f+1，

P (B_{(q + 1) i}^{j} / A) = \frac{P (B_{qi}^{j}) P (A / B_{qi}^{j})}{Σ_{n = 1}^{2 f + 1} P (B_{qi}^{n}) P (A / B_{qi}^{n})},

j＝1，2...2f+1

其中m-K≤q≤m-1；

最终得到事件A发生条件下B_mi ^j的发生概率P(B_mi ^j/A)，j＝1，2...2f+1，以P(B_mi ^j/A)，j＝1，2...2f+1最大的值作为对第m帧的第i个子带的空间音频参数预测系数S_mi^；

设当前帧为第m帧，根据第m帧的第i子带的空间音频参数S_mi和空间音频参数预测系数S_mi^，计算当前帧的第i子带的空间音频参数预测残差

δ_{mi} = S_{mi} - \hat{S_{mi}},

i取1～K；

步骤1.3，对当前帧的空间音频参数预测残差进行编码得到编码码流。

本发明还提供了相应空间音频参数帧间预测解码方法，包含以下步骤：

步骤2.1，从编码码流中解码得到帧信号的空间音频参数预测残差；

步骤2.2，用之前重建得到的一帧或多帧空间音频参数及步骤2.1所得当前帧的空间音频参数预测残差，重建得到当前帧的空间音频参数，具体实现过程如下，

设当前帧为第m帧，第m帧的空间音频参数预测残差记为δ_m1，δ_m2，....δ_mK，当前帧的K个子带的空间音频参数记为S_m1，S_m2，…S_mK，之前解码得到的M帧K个子带的空间音频参数记为

S_(m-M)1，S_(m-M)2，…S_(m-M)K，S_(m-M+1)1，S_(m-M+1)2，…S_(m-M+1)K，…S_(m-1)1，S_(m-1)2，…S_(m-1)K，K≥2，M≥1；

根据空间音频参数帧间差值的统计分布特性和之前M帧的第i子带的空间音频参数，初始化事件

B_{(m - K) i}^{j} = \frac{1}{2 f + 1},

j＝1，2...2f+1，然后将当前帧之前M帧的K个子带的空间音频参数

P (A / B_{qi}^{j}) = P {{(D_{i}^{q, q + 1})}_{j - S_{qi} + f}},

j＝1，2...2f+1，

P (B_{(q + 1) i}^{j} / A) = \frac{P (B_{qi}^{j}) P (A / B_{qi}^{j})}{Σ_{n = 1}^{2 f + 1} P (B_{qi}^{n}) P (A / B_{qi}^{n})},

j＝1，2...2f+1

其中m-K≤q≤m-1；

最终得到事件A发生条件下B_mi ^j的发生概率P(B_mi ^j/A)，j＝1，2...2f+1，以P(B_mi ^j/A)，j＝1，2...2f+1最大的值作为对当前帧的第i子带的空间音频参数预测系数S_mi^，i取1～K；

根据当前帧的第i子带的空间音频参数预测残差δ_mi和空间音频参数预测系数S_mi^，得到当前帧的第i子带的空间音频参数

S_{mi} = \hat{S_{mi}} + δ_{mi} .

本发明提供了一种基于贝叶斯梯度模型的空间音频参数帧间预测方案，通过在编码端对空间音频参数的预测，将预测残差放入编码码流；解码端用预测残差来重建空间音频参数。本发明利用了空间音频参数的时域相关性以降低编码码率；同时贝叶斯预测方式能够根据条件的变化自适应调整预测系数，因而其预测误差更小。

附图说明

图1本发明的空间音频参数预测原理图；

图2本发明的空间音频参数重建原理图；

图3本发明实施例的装置结构图；

图4本发明实施例的空间音频参数帧间差值的统计分布图。

具体实施方式

本发明提供的基于贝叶斯梯度模型的空间音频参数帧间预测技术方案实现构架如下，

参见图1，编码过程：

步骤1.2，根据空间音频参数帧间差值的统计分布特性和前一帧或多帧的空间音频参数对当前帧的空间音频参数作出预测，得到当前帧的空间音频参数预测系数和空间音频参数预测残差；

参见图2，解码过程：

步骤2.2，用之前重建得到的一帧或多帧空间音频参数及步骤2.1所得当前帧的空间音频参数预测残差，得到空间音频参数预测系数，然后重建得到当前帧的空间音频参数。

编码和解码中的空间音频参数预测，都运用贝叶斯定理实现，以达到利用空间音频参数的时域相关性的效果。

以下提供本发明技术方案详细说明，以便实施参考。

步骤1.1具体实施时，可以首先将当前帧信号由时域变换到频域，然后将所得的频域上的当前帧信号划分为K个子带并计算每个子带的空间音频参数，由此得出当前帧的K个子带的空间音频参数。

该模块所提取的空间音频参数可以是ILD、ITD、IC等。划分子带的数目可根据需要设定为一个或多个，建议采用现有音频技术中的Bark带划分规则分为24个子带。

步骤1.2具体实施时，根据空间音频参数帧间差值的统计分布特性(参见图4)和前一帧或多帧的空间音频参数对当前帧的空间音频参数作出预测。得到当前帧的空间音频参数预测系数；再通过对比预测结果与步骤1.1所得实际的当前帧的空间音频参数，得到对当前帧的空间音频参数预测残差。

所述得到当前帧的空间音频参数预测系数和空间音频参数预测残差，具体实现过程如下，

设当前帧的K个子带的空间音频参数记为S_m1，S_m2，…S_mK，之前第M帧的第K个子带的空间音频参数记为S_(m-M)K，其中K≥2，M≥1；M＝1时就是只取前一帧参与预测的情况，根据实验结果，建议实施时M取3～5，因为取3～5帧预测时效果较好。

那么第m帧前M帧的所有子带的空间音频参数则为

S_(m-M)1，S_(m-M)2，…S_(m-M)K，S_(m-M+1)1，S_(m-M+1)2，…S_(m-M+1)K，…S_(m-1)1，S_(m-1)2，…S_(m-1)K。

贝叶斯推理是条件概率推理，根据变化的先验条件得到后验发生概率，用于研究主观概率估计的认知加工过程规律，广泛适用于指导判断决策。本发明根据空间音频参数帧间差值的统计分布特性，与不断变化的空间音频参数真实值一起作为先验条件来影响空间音频参数各预测值的后验发生概率，建立一种贝叶斯梯度模型来对空间音频参数的变化趋势做出判断，进而对空间音频参数作出预测。

设第m帧的第i个子带的空间音频参数帧间差值

D_{i}^{m, m + 1} = S_{(m + 1) i} - S_{mi},

设空间音频参数的取值范围为-f到f，则D_i ^m，m+1可能的取值范围为-2f到2f，这4f+1个差值的概率分布为P{(D_i ^m，m+1)_j}，j＝1，2...4f+1。参见图4，空间音频参数在时域上存在以下相关特性：相对于当前帧空间音频参数的下一帧来说，有向本帧趋近的趋势，即认为下一帧空间音频参数相对本帧空间音频参数的差值的概率分布向左右两个方向呈对称梯度下滑的趋势。

空间音频参数预测方式如下：

a设事件B_mi ^j对应于第m帧的第i个子带的空间音频参数从-f到f一共2f+1种取值，则B_mi ^j，j＝1，2...2f+1互斥且构成一个完全事件，P(B_mi ^j)，j＝1，2...2f+1为事件B_mi ^j发生的概率，在无任何先验知识的情况下P(B_mi ^j)的初始值为

P (B_{1 i}^{1}) = P (B_{1 i}^{2}) . . . = P (B_{1 i}^{2 f + 1}) = 1 / 2 f + 1;

b设定事件A为伴随事件B_mi ^j，j＝1，2...2f+1发生而出现，由第m帧各子带的空间音频参数取值得到第m+1帧各子带的空间音频参数取值可能，则由第i个子带m帧空间音频参数取值S_mi得到第m+1帧各空间音频参数取值概率为

P (A / B_{mi}^{j}) = P {{(D_{i}^{m, m + 1})}_{j - S_{mi} + f}},

j＝1，2...2f+1；

c在已知事件B_mi ^j的概率P(B_mi ^j)和事件B_mi ^j发生条件下事件A的概率P(A/B_mi ^j)的情况下，运用贝叶斯定理得到在事件A发生条件下第m+1帧事件B_(m+1)i ^j的发生概率为

P (B_{(m + 1) i}^{j} / A) = \frac{P (B_{mi}^{j}) P (A / B_{mi}^{j})}{Σ_{n = 1}^{2 f + 1} P (B_{mi}^{n}) P (A / B_{mi}^{n})},

j＝1，2...2f+1；

d预测时初始化

B_{(m - K) i}^{j} = \frac{1}{2 f + 1},

P (A / B_{qi}^{j}) = P {{(D_{i}^{q, q + 1})}_{j - S_{qi} + f}},

j＝1，2...2f+1，

P (B_{(q + 1) i}^{j} / A) = \frac{P (B_{qi}^{j}) P (A / B_{qi}^{j})}{Σ_{n = 1}^{2 f + 1} P (B_{qi}^{n}) P (A / B_{qi}^{n})},

j＝1，2...2f+1

其中m-K≤q≤m-1；与第m帧的第i个子带的空间音频参数帧间差值D_i ^m，m+1类似，D_i ^q，q+1表示第q帧的第i个子带的空间音频参数帧间差值；

由于音频编解码都是逐帧进行同样处理，因此可以直接设当前帧为第m帧，根据第m帧的第i子带的空间音频参数S_mi和空间音频参数预测系数S_mi^，计算当前帧的第i子带的空间音频参数预测残差

δ_{mi} = S_{mi} - \hat{S_{mi}},

i取1～K；

步骤1.3具体实施时，将步骤1.2所得的空间音频参数预测残差进行编码得到编码码流，可采用现有的哈夫曼无损编码方法。

以上过程所得编码码流就是本发明所提供解码方法的处理对象，解码过程与编码过程相逆。

步骤2.1具体实施时，对于正在进行重建处理的当前帧(相应标记为第m帧)而言，所需的就是从编码码流中得到的当前帧的空间音频参数预测残差δ_mi，其中i为对当前帧划分的子带数，且1≤i≤K。解码方式与步骤1.3所用方式相应即可。

(2)空间音频参数重建模块，用于使用之前解码得到的多帧空间音频参数及空间音频参数解码模块所得当前帧的预测残差，重建得到当前帧的空间音频参数；

步骤2.2具体实施时，根据步骤2.1得到当前帧的空间音频参数预测残差δ₁，δ₂，....δ_k，将待解的当前帧的K个子带的空间音频参数记为δ_m1，δ_m2，....δ_mK，之前解码得到的M帧K个子带的空间音频参数记为

S_(m-M)1，S_(m-M)2，…S_(m-M)K，S_(m-M+1)1，S_(m-M+1)2，…S_(m-M+1)K，…S_(m-1)1，S_(m-1)2，…S_(m-1)K，其中K≥2，M≥1。

根据空间音频参数帧间差值的统计分布特性和之前M帧的第i子带的空间音频参数S_(m-M)1，S_(m-M)2，…S_(m-M)K，S_(m-M+1)1，S_(m-M+1)2，…S_(m-M+1)K，…S_(m-1)1，S_(m-1)2，…S_(m-1)K，参见图3，同样使用步骤1.2的空间音频参数预测手段得到当前帧空间音频参数预测系数S_mi^，i取1～K；具体就是初始化事件

B_{(m - K) i}^{j} = \frac{1}{2 f + 1},

P (A / B_{qi}^{j}) = P {{(D_{i}^{q, q + 1})}_{j - S_{qi} + f}},

j＝1，2...2f+1，

P (B_{(q + 1) i}^{j} / A) = \frac{P (B_{qi}^{j}) P (A / B_{qi}^{j})}{Σ_{n = 1}^{2 f + 1} P (B_{qi}^{n}) P (A / B_{qi}^{n})},

j＝1，2...2f+1

其中m-K≤q≤m-1

最终得到事件A发生条件下B_mi ^j的发生概率P(B_mi ^j/A)，j＝1，2...2f+1，以P(B_mi ^j/A)，j＝1，2...2f+1最大的值作为对当前帧的第i子带的空间音频参数预测系数S_mi^。

最后根据步骤2.1所得当前帧的第i子带的空间音频参数预测残差δ_mi，及空间音频参数预测系数S_mi^，即可得到当前帧的第i子带的空间音频参数

S_{mi} = \hat{S_{mi}} + δ_{mi} .

具体实施时，可以采用计算机软件技术实现以上步骤的自动执行，也可以按照音频技术领域习惯构建编解码器，以硬件装置形式提供实施应用。凡符合本发明所提供技术方案精神的情况，包括等同替换方案，都应当在本发明所要求保护范围内。

参见附图3的装置结构，编码端设置空间音频参数提取模块、空间音频参数预测模块、空间音频参数编码模块分别用于实现步骤1.1、1.2、1.3，编码端设置空间音频参数解码模块、空间音频参数重建模块分别用于实现步骤2.1、2.2。各模块之间连接主要是信息传递的连接：空间音频参数提取模块的输出连接空间音频参数预测模块的输入，空间音频参数提取模块所得当前帧的多个子带的空间音频参数通过该连接输入到空间音频参数预测模块；空间音频参数预测模块的输出连接空间音频参数编码模块的输入，空间音频参数预测模块所得当前帧的预测残差通过该连接输入到空间音频参数编码模块。空间音频参数编码模块的输出提供到空间音频参数解码模块的输入，即基于贝叶斯梯度模型的空间音频参数帧间预测编码装置所得编码码流输入到基于贝叶斯梯度模型的空间音频参数帧间预测解码装置。空间音频参数解码模块的输出连接空间音频参数重建模块的输入，空间音频参数解码模块所得当前帧的空间音频参数的预测残差通过该连接输入到空间音频参数重建模块；空间音频参数重建模块输出所得空间音频重建参数。

本发明实施例用以上结构实现了基于贝叶斯梯度模型的空间音频参数帧间预测编解码过程，提供以下步骤详细说明以供参考：

编码端：

(1)由空间音频参数提取模块提取当前帧的ILD。首先将当前帧信号经FFT变换由时域变换到频域，然后将所得的频域上的当前帧信号按Bark带划分规则划分为24个子带并计算每个子带的ILD，设所得的当前帧的24个子带的空间音频参数为S_m1，S_m2，…S_m24。

当前帧的ILD计算方法如下：

S_{m i} = 101 g \frac{I_{iL}}{I_{iR}},

i∈[1，24]

其中I_iL和I_iR分别为当前帧的第i子带上左声道与右声道能量值，且

I_{iL} = Σ_{n = 1}^{N_{i}} {[s_{L} (n)]}^{2},

I_{iR} = Σ_{n = 1}^{N_{i}} {[s_{R} (n)]}^{2}

其中s_L(n)和s_R(n)分别为当前帧第i个子带上左声道和右声道的频谱上的第n条谱线，N_i为第i个子带上的谱线总数。

(2)本实施例采用前三帧来预测当前帧，即M＝3。因此在实际编码时第1～3帧不预测，将空间音频参数提取模块中所得的当前帧的24个子带的ILD序列S_m1，S_m2，…S_m24，以及前三帧的24个子带的ILD序列

S_(m-3)1，S_(m-3)2，…S_(m-M)24，S_(m-2)1，S_(m-21)2，…S_(m-2)24，S_(m-1)1，S_(m-1)2，…S_(m-1)24送入空间音频参数预测模块内计算得到当前帧的第i子带的ILD预测系数S_mi^(i∈[1，24])。

然后根据当前帧的第i子带的ILD值S_mi和ILD预测系数S_mi^，计算当前帧的第i子带的ILD预测残差

δ_{mi} = S_{mi} - \hat{S_{mi}} .

(3)由空间音频参数编码模块对空间音频参数预测模块所得当前帧的ILD预测残差δ_mi(i∈[1，24])进行哈夫曼无损编码得到编码码流。

解码端：

(1)由空间音频参数解码模块从编码码流中得到当前帧的第i子带的ILD预测残差δ_mi，且i∈[1，24]。

(2)将前三帧解码得到的24个子带的ILD序列

S_(m-3)1，S_(m-3)2，…S_(m-M)24，S_(m-2)1，S_(m-21)2，…S_(m-2)24，S_(m-1)1，S_(m-1)2，…S_(m-1)24送入空间音频参数重建模块内计算得到当前帧空间音频参数预测系数S_mi^(i∈[1，24])，根据当前帧的第i子带的空间音频参数预测残差δ_mi和空间音频参数预测系数S_mi^，得到当前帧的第i子带的空间音频参数

S_{mi} = \hat{S_{mi}} + δ_{mi} .

同样的，实际解码时第1～3帧不预测。