CN102737647A - 双声道音频音质增强编解码方法及装置 - Google Patents
双声道音频音质增强编解码方法及装置 Download PDFInfo
- Publication number
- CN102737647A CN102737647A CN2012102548134A CN201210254813A CN102737647A CN 102737647 A CN102737647 A CN 102737647A CN 2012102548134 A CN2012102548134 A CN 2012102548134A CN 201210254813 A CN201210254813 A CN 201210254813A CN 102737647 A CN102737647 A CN 102737647A
- Authority
- CN
- China
- Prior art keywords
- channel
- subband
- right channel
- nth
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000002708 enhancing effect Effects 0.000 title description 3
- 238000001228 spectrum Methods 0.000 claims abstract description 54
- 238000004458 analytical method Methods 0.000 claims abstract description 16
- 230000003595 spectral effect Effects 0.000 claims description 33
- 238000010183 spectrum analysis Methods 0.000 claims description 25
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Landscapes
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提出了一种双声道音频音质增强编解码方法和相应装置,将频谱差异较大的子带提取出来做线性预测分析,并在解码时对解出的信号的频谱进行修正。本发明在面向双声道技术基础上,解决了由于双声道间存在较大差异,进行下混和参数编码时的失真问题;增强了音频编码质量,使重建信号具有更完整的频谱信息。
Description
技术领域
本发明涉及音频压缩技术领域,尤其涉及了一种双声道音频音质增强方案。
背景技术
随着新世纪信息技术的迅猛发展,音频压缩技术得到的广泛应用。目前的双声道音频编码标准中,如HE-AAC和MPEG-Surround,其参数立体声编码都提供了优秀品质的音频信号和比较低的编码码率。通常的参数立体声编码器中,对时频变换后的信号进行子带划分,然后直接对子带划分后的子带信号进行参数立体声编码,提取空间参数然后利用最小均方误差原则将两个声道合并成一个声道,然后对着一个声道进行核心编码器编码。解码时,利用空间参数对信号进行重建。
但是,这样将多声道下混到一个声道的过程会导致一定的失真。而且参数立体声编码中所用到的声道间强度差(ICLD)和声道间相关度(ICC)只保留了两个子带间的能量信息,丢失了两个子带间的频谱细节信息。所以重建的双声道都会包含原始音频的双声道频谱的特征,如原始声道的波峰和波谷,当两个声道间频谱差异较大时,就会产失真现象。
发明内容
为了解决这个问题,本发明提出了一种双声道音频音质增强编码方案,能有效的解决双声道下混时所产生的频谱信息丢失问题,进而解决重建信号的失真问题,使重建信号能有更好的主观音质和更加完整的频谱信息。
为解决上述技术问题,本发明提供一种双声道音频音质增强编码方法,包括以下步骤:
步骤1.1,对输入的双声道信号中左声道信号和右声道信号分别进行时频变换,得到频域上的左声道信号和右声道信号;
步骤1.2,对步骤1所得左声道信号和右声道信号按照一致的方式进行子带划分,设得到N对左右声道子带,其中左声道的第n个子带和右声道的第n个子带构成第n对左右声道子带,其中n的取值为1,2…N;
步骤1.3,进行频谱分析,包括以下子步骤,
步骤1.3.1,计算左声道中第n个子带和右声道中第n个子带的频谱差异值;
步骤1.3.2,根据频谱差异值从大到小将N对左右声道子带进行排序,从中取前N'对左右声道子带,N'<N,前N'对左右声道子带包括N'个左声道的子带和N'个右声道的子带,对这2N'个子带分别分配LPC阶数;
步骤1.3.3,根据对2N'个子带分配的LPC阶数,对2N'个子带分别做线性预测分析,得到每个子带的LPC系数和对应的子带索引,将每个子带的LPC系数转化成ISP系数,所得ISP系数和对应的子带索引写入码流;
步骤1.4,对步骤1.2中所得N对左右声道子带进行参数立体声编码,所得立体声参数写入码流;
步骤1.5,对步骤1.4所得立体声参数进行信号下混,得到单声道信号;
步骤1.6,将步骤1.5所得单声道信号进行核心编码,所得核心编码结果写入码流。
而且,步骤1.3.1中计算左声道中第n个子带和右声道中第n个子带的频谱差异值,实现方式包括以下子步骤,
步骤1.3.1.1,按以下公式计算左声道中第n个子带与右声道中第n个子带之间的能量谱差异d(n,k),
d(n,k)=|xl(n,k)|2-|xr(n,k)|2
其中,xl(n,k)表示左声道中第n个子带的第k个频点,xr(n,k)表示右声道中第n个子带的第k个频点;0≤k<W-1,W为子带带宽;
步骤1.3.1.2,将左声道中第n个子带和右声道中第n个子带分别划分为数等份,设分别划分为I等分,按以下公式定义峰值预测标记F(n,i),i的取值为1,2…I,
步骤1.3.1.3,按以下公式求取第n对左右声道子带的峰值预测序列S(n,i),
其中,SSD(n)表示左声道中第n个子带与右声道中第n个子带之间频谱能量差异d(n,k)的样本标准差;
步骤1.3.1.4,按以下公式求取左声道中第n个子带与右声道中第n个子带之间的频谱差异值Diff(n),
而且,步骤1.3.2中,设第n对左右声道子带是前N'对左右声道子带之一,对左声道中第n个子带和右声道中第n个子带分配LPC阶数,实现方式包括以下子步骤,
步骤1.3.2.1,按以下公式计算左声道中第n个子带的能量谱dl(n,k)和右声道中第n个子带的能量谱dr(n,k),
dl(n,k)=|xl(n,k)|2
dr(n,k)=|xr(n,k)|2
其中,xl(n,k)表示左声道中第n个子带的第k个频点,xr(n,k)表示右声道中第n个子带的第k个频点,并且0≤k<W-1,W为子带带宽;
步骤1.3.2.2,按以下公式求取左声道中第n个子带的峰值预测序列Sl(n,i)和右声道中第n个子带的峰值预测序列Sr(n,i),
其中,SSDl(n)和SSDr(n)分别为左声道中第n个子带的能量谱dl(n,k)的样本标准差和右声道中第n个子带的能量谱dr(n,k)的样本标准差;
步骤1.3.2.3,根据峰值预测序列Sl(n,i)求出左声道中第n个子带的波峰波谷总数Pl(n),根据峰值预测序列Sr(n,i)求出右声道中第n个子带的波峰波谷总数Pr(n);
步骤1.3.2.4,根据波峰波谷总数Pl(n)分配左声道中第n个子带的LPC系数,根据波峰波谷总数Pr(n)分配右声道中第n个子带的LPC系数。
本发明还提供了相应的一种双声道音频音质增强解码方法,包括以下步骤:
步骤2.1,对码流进行核心解码,得到单声道信号;
步骤2.2,对步骤2.1所得单声道信号进行子带划分,得到解码子带信号;
步骤2.3,利用码流中的立体声参数,对步骤2.2所得解码子带信号进行参数立体声解码,得到左声道和右声道分别的重建的频域子带信号;
步骤2.4,根据码流中的子带索引和对应的ISP系数,对步骤2.3所得重建的频域子带信号中相应的子带进行频谱分析调整,得到调整后的重建频域子带信号;
步骤2.5,根据步骤2.4所得调整后的重建频域子带信号,对左声道和右声道分别合并得到重建的频域信号;
步骤2.6,对步骤2.5所得左声道和右声道的重建的频域信号分别进行时频逆变换,恢复出重建的双声道信号。
而且,步骤2.4中,设第n对左右声道子带是频谱差异值较大的前N'对左右声道子带之一,对第n对左右声道子带相应重建的频域子带信号进行频谱分析调整,实现方式包括以下子步骤,
步骤2.4.1,根据码流中第n对左右声道子带的子带索引Index(n),找到频谱差异较大的N'对左右声道子带对应的重建的频域子带信号和求出左声道中第n个子带的峰值预测序列和右声道中第n个子带的峰值预测序列
步骤2.4.2,根据码流中的ISP系数恢复出对应的LPC系数,并根据LPC系数重建出包括左声道中第n个子带的峰值预测序列Sl(n,i)和右声道中第n个子带的峰值预测序列Sl(n,i);
步骤2.4.3,对比峰值预测序列和步骤2.4.2重建出的峰值预测序列Sl(n,i),根据预设规则对左声道中第n个子带进行衰减一个声道或增强一个声道的调整;对比峰值预测序列和步骤2.4.2重建出的峰值预测序列Sr(n,i),根据预设规则对右声道中第n个子带进行衰减一个声道或增强一个声道的调整;
按下式对左声道中第n个子带进行衰减一个声道的调整,
xl(n,k)=xl(n,k)-α·SSDl(n)
按下式对左声道中第n个子带进行增加一个声道的调整,
xl(n,k)=xl(n,k)+α·SSDl(n)
按下式对右声道中第n个子带进行衰减一个声道的调整,
xr(n,k)=xr(n,k)-α·SSDr(n)
按下式对右声道中第n个子带进行增加一个声道的调整,
xr(n,k)=xr(n,k)+α·SSDr(n)
其中,SSDl(n)和SSDr(n)分别为左声道中第n个子带的能量谱dl(n,k)的样本标准差和右声道中第n个子带的能量谱dr(n,k)的样本标准差;α为缩放比例因子。
并且提供了相应的一种双声道音频音质增强编码装置,包括以下模块:
时频变换模块,用于对输入的双声道信号中左声道信号和右声道信号分别进行时频变换,得到频域上的左声道信号和右声道信号;
子带划分模块,用于对时频变换模块所得左声道信号和右声道信号按照一致的方式进行子带划分,设得到N对左右声道子带,其中左声道的第n个子带和右声道的第n个子带构成第n对左右声道子带,其中n的取值为1,2…N;
频谱分析模块,用于进行频谱分析,其中包括以下三个子模块,频谱差异计算子模块,用于计算左声道中第n个子带和右声道中第n个子带的频谱差异值;LPC阶数分配子模块,用于根据频谱差异值从大到小将N对左右声道子带进行排序,从中取前N'对左右声道子带,N'<N,前N'对左右声道子带包括N'个左声道的子带和N'个右声道的子带,对这2N'个子带分别分配LPC阶数;
LPC系数及子带索引生成子模块,用于根据对2N'个子带分配的LPC阶数,对2N'个子带分别做线性预测分析,得到每个子带的LPC系数和对应的子带索引,将每个子带的LPC系数转化成ISP系数,所得ISP系数和对应的子带索引写入码流;
参数立体声编码模块,用于对子带划分模块所得N对左右声道子带进行参数立体声编码,所得立体声参数写入码流;
下混模块,用于对参数立体声编码模块所得立体声参数进行信号下混,得到单声道信号;
核心编码器,用于将下混模块所得单声道信号送入核心编码器中进行核心编码,所得核心编码结果写入码流。
以及相应的一种双声道音频音质增强解码装置,包括以下模块:
核心解码器,用于采用核心解码器对码流进行核心解码,得到单声道信号;
子带划分模块,用于对核心解码器所得单声道信号进行子带划分,得到解码子带信号;
参数立体声解码模块,用于利用码流中的立体声参数,对子带划分模块所得解码子带信号进行参数立体声解码,得到左声道和右声道分别的重建的频域子带信号;
频谱分析模块,用于根据码流中的子带索引和对应的ISP系数,对参数立体声解码模块所得重建的频域子带信号中相应的子带进行频谱分析调整,得到调整后的重建频域子带信号;
子带合并模块,用于根据频谱分析模块所得调整后的重建频域子带信号,对左声道和右声道分别合并得到重建的频域信号;
时频逆变换模块,对子带合并模块所得左声道和右声道的重建的频域信号分别进行时频逆变换,恢复出重建的双声道信号。
本发明提供的技术方案在现有的双声道音频编码技术基础上,分析音频编解码过程中由于双声道音频信号频谱存在很大差异而导致的失真现象,将频谱差异较大的子带提取出来做线性预测分析,并在解码时对解出的信号的频谱进行修正,进而提出一种双声道音频音质增强编解码方法及相应的编解码器。实施本发明技术方案能有效地恢复出两个声道间频谱的细节信息,使得编解码后的信号具有更好的主观音质。
附图说明
图1是本发明实施例的编码原理示意图;
图2是本发明实施例的解码原理示意图;
图3是本发明实施例的子带划分原理示意图;
图4是本发明实施例的频谱分析原理示意图。
具体实施方式
本发明提出了一种双声道音频音质增强方法,以及相应的双声道解码方法。编码时,在地带划分之后,对双声道子带信号进行频谱分析,提取子带间频谱差异较大的子带的LPC系数,并在解码时,利用LPC系数对解码出的双声道信号进行一定的修正,使其具有更多的频谱细节差异和更好的主观音质。具体实施时,可以由本领域技术人员采用计算机软件手段根据所提供技术方案实现音频自动编解码。由于在编解码应用中,往往还可以将编解码软件方法固化形成编解码装置,所以,本发明还提供了相应的双声道音频音质提升编码器和解码器。
以下将结合附图对本发明的具体实施方式做详细说明,以使本发明的技术方案和有益效果更为清楚。
参见图1,实施例的双声道音频音质增强编码方法,包括如下步骤:
步骤1.1,对输入的双声道信号中左声道信号和右声道信号分别进行时频变换,得到频域上的左声道信号和右声道信号。即将时域上的双声道信号转换成频域上的双声道信号
设双声道信号由左声道信号l和右声道信号r组成,本步骤的具体实施为:采用快速傅里叶变换(FFT)将时域上的左声道信号l和右声道信号r分别转换成频域上的左声道信号L和右声道信号R。
步骤1.2,对频域上的左声道信号L和右声道信号R进行子带划分,得到左、右声道子带信号。对左声道信号和右声道信号是按照一致的方式进行子带划分,设得到N对左右声道子带,其中左声道的第n个子带和右声道的第n个子带构成第n对左右声道子带,其中n的取值为1,2…N。
如图3,实施例在本步骤采用的实现流程为:
目前多数音频编码器划分子带时都是先划分为64子带,因此先采用基于等效矩形带宽(ERB)的划分方法将频域上的左声道信号L和右声道信号R分别划分为64个子带。再根据人耳听觉特性和编码器的需求,分别对左声道信号L和右声道信号R的子带进行合并或再细分、或既进行合并又进行再细分,得到最终的左声道子带信号和右声道信号。
由于人耳对低频的声音比较敏感,而对高频的声音的感知较差,因此,可对左声道信号L和右声道信号R的64个子带进行进一步处理:可以对其中的低频子带进行再细分,或对高频子带进行合并,或者既对低频子带进行再细分又对高频子带进行合并。在本具体实施中将64个子带信号中的3个低频子带再细分为16个子带,将61个高频子带合并为4个子带,最终得到20个子带信号(左右声道各有20个子带),即实施例中N=20。具体实施时,本领域技术人员可以根据情况设定划分数目。以下的操作就是针对所得的20个子带信号来进行。上述的低频和高频的范围,是在具体实施时,根据需要人为来规定的。
步骤1.3,进行频谱分析。如图4,实施例在本步骤实现思路为峰值分析、频谱差异分析、对频谱差异较大的子带提取后峰值分析、动态分配LPC阶数、线性预测分析。
步骤1.3.1,计算左声道中第n个子带和右声道中第n个子带的频谱差异值,这样可以得到双声道信号中频谱差异较大的子带信号。
实施例中本步骤的具体实施为:
步骤1.3.1.1,首先计算左声道中第n个子带与右声道中第n个子带之间的频谱能量差异:
d(n,k)=|xl(n,k)|2-|xr(n,k)|2 (1)
其中,xl(n,k)表示左声道中第n个子带的第k个频点,xr(n,k)表示右声道中第n个子带的第k个频点。并且0≤k<W-1,W为子带带宽。
步骤1.3.1.2,以一定的带宽宽度将左声道中第n个子带和右声道中第n个子带分别划分为数等份,数值可以预先设定,设分别划分为I等分,i的取值为1,2…I,此处以8等份为例,即I=8,i的取值为0,1,2…7。定义峰值预测标记F(n,i),其中:
步骤1.3.1.3,求取第n对左右声道子带的峰值预测序列S(n,i)。
本步骤求能量谱的峰值预测结果,将式(1)(2)所得的结果带入式(3)中,对于8等分的每一份频点,求得一个能使式(3)有最小值的峰值预测标记F(n,i)。因而得到一个有8个元素的峰值预测序列,将第n对左右声道子带的峰值预测序列记为S(n,i)。
其中,SSD(n)表示左声道中第n个子带与右声道中第n个子带之间频谱能量差异d(n,k)的样本标准差,求取方式为现有技术。峰值预测序列S(n,i)中的每个元素代表左声道中第n个子带第i份频点与右声道中第n个子带第i份频点之间频谱能量差异的大小。
步骤1.3.1.4,按以下公式求取左声道中第n个子带与右声道中第n个子带之间的频谱差异值Diff(n)
将求得的序列带入式(4)中,求出左声道中第n个子带与右声道中第n个子带之间的频谱差异值Diff(n),用来评估对第n对左右声道子带是否需要进行后续的线性预测分析,其中Diff(n)值越大,表示左声道中第n个子带与右声道中第n个子带之间的频谱差异越大:
步骤1.3.2,根据频谱差异值从大到小将N对左右声道子带进行排序,从中取前N'对左右声道子带,N'<N,前N'对左右声道子带包括N'个左声道的子带和N'个右声道的子带,对这2N'个子带分别分配LPC阶数。本步骤根据步骤1.3.1的频谱分析结果,对需要进行LPC分析的左右声道子带进行动态的分配LPC阶数。
本领域技术人员可以自行设定N'的取值,建议取N值的一半。从左右声道各20个子带所得的20个频谱差异值中,选取最大的10个,并得到其对应的10对左右声道子带。即实施例中N'=10。设第n对左右声道子带是前N'对左右声道子带之一,对左声道中第n个子带和右声道中第n个子带分配LPC阶数,实现方式包括以下子步骤:
步骤1.3.2.1,按以下公式计算左声道中第n个子带的能量谱dl(n,k)和右声道中第n个子带的能量谱dr(n,k),
dl(n,k)=|xl(n,k)|2
dr(n,k)=|xr(n,k)|2
其中,xl(n,k)表示左声道中第n个子带的第k个频点,xr(n,k)表示右声道中第n个子带的第k个频点,并且0≤k<W-1,W为子带带宽。
步骤1.3.2.2,按以下公式求取左声道中第n个子带的峰值预测序列Sl(n,i)和右声道中第n个子带的峰值预测序列Sr(n,i):
其中,SSDl(n)和SSDr(n)分别为左声道中第n个子带的能量谱dl(n,k)的样本标准差和右声道中第n个子带的能量谱dr(n,k)的样本标准差。
步骤1.3.2.3,根据峰值预测序列Sl(n,i)求出左声道中第n个子带的波峰波谷总数Pl(n),根据峰值预测序列Sr(n,i)求出右声道中第n个子带的波峰波谷总数Pr(n)。
步骤1.3.2.4,根据波峰波谷总数Pl(n)分配左声道中第n个子带的LPC系数,根据波峰波谷总数Pr(n)分配右声道中第n个子带的LPC系数。通过动态分配LPC系数,进行线性预测分析。
此处以8阶LPS系数为例。
步骤1.3.3,根据对2N'个子带分配的LPC阶数,对2N'个子带分别做线性预测分析,得到每个子带的LPC系数和对应的子带索引,将每个子带的LPC系数转化成ISP系数,所得ISP系数和对应的子带索引写入码流。即根据步骤1.3.2中左右声道各子带所分配的阶数,对所述频谱差异较大的几个子带做线性预测分析,得到LPC系数和对应的子带索引。
实施例中本步骤的具体实施为:
1)对这10对左右声道子带,也即20个子带分别做线性预测分析,得到20个LPC系数(线性预测编码系数)。
2)将20个LPC系数转化成ISP系数(倒谱系数)并进行量化,得到20个子带分别的量化后的ISP系数。
3)将量化后的ISP系数,10对左右声道子带(即20个子带)所对应的索引Index(n)写入码流中
步骤1.4,对步骤1.2中所得N对左右声道子带进行参数立体声编码,所得立体声参数写入码流。此处以参数立体声编码器(PS)编码为例。
实施例中本步骤的具体实施为:
1)对左右声道各20个子带信号进行PS编码,对每个子带提取ICLD和ICC参数,得到ICLD序列和ICC序列。
2)对ICLD序列和ICC序列进行量化并写入码流。
步骤1.5,对步骤1.4所得立体声参数进行信号下混,得到单声道信号。设下混后得到的信号记为单声道信号m;
步骤1.6,将步骤1.5所得单声道信号进行核心编码,所得核心编码结果写入码流。具体实施时,可将单声道信号m传入核心编码器进行核心编码。现有技术中,核心编码器有很多种,本领域技术人员可以自行选用,本发明不予赘述。
编码端所得码流传输到解码端,在解码端进行解码。本发明还提供了一种双声道音频音质增强解码方法,参见图2,包括如下步骤:
步骤2.1,对码流进行核心解码,得到单声道信号。
具体实施时,将编码端所得的码流输入与编码端核心编码器相应的核心解码器,利用核心解码器解码,所得解码信号即编码端的单声道信号m。
步骤2.2,对步骤2.1所得单声道信号进行子带划分,得到解码子带信号。
具体实施时,将核心解码器输出的单声道信号m划分成子带序列P(n),即解码子带信号。划分方式与编码端相应,n的取值为1,2…N。
步骤2.3,利用立体声参数,对所述的解码子带信号进行参数立体声解码,得到左声道和右声道分别的重建的频域子带信号。
实施例对子带序列P(n)进行参数立体声解码,利用从码流中的得到的ICLD序列和ICC序列,重建左声道的频域子带信号和右声道的频域子带信号,设为左声道中第n个子带重建信号的第k个频点,为右声道中第n个子带重建信号的第k个频点。
步骤2.4,根据码流中的子带索引和对应的ISP系数,对步骤2.3所得重建的频域子带信号进行调整,得到调整后的重建频域子带信号。
步骤2.4.1,根据码流中第n对左右声道子带的子带索引Index(n),找到频谱差异较大的N'对左右声道子带对应的重建的频域子带信号和求出左声道中第n个子带的峰值预测序列和右声道中第n个子带的峰值预测序列
步骤2.4.2,根据码流中的ISP系数恢复出对应的LPC系数,并根据LPC系数重建出包括左声道中第n个子带的峰值预测序列Sl(n,i)和右声道中第n个子带的峰值预测序列Sl(n,i)。
步骤2.4.3,对比频谱差异序列和步骤2.4.2重建出的峰值预测序列Sl(n,i),根据预设规则对左声道中第n个子带进行衰减一个声道或增强一个声道的调整;对比频谱差异序列和步骤2.4.2重建出的峰值预测序列Sr(n,i),根据预设规则对右声道中第n个子带进行衰减一个声道或增强一个声道的调整。
具体实施时,可由本领域技术人员根据情况自行预设规则。实施例根据下表对其所对应的子带做调整。
1)对左声道的调整如下:
表1根据峰值检测结果做对应的衰减或增强
A衰减一个声道
B增强一个声道
根据调整对策AB,利用式(9)(10)对声道的频谱进行调整,其中调整时,子带能量应保持不变并且保证频谱非负。
A:xl(n,k)=xl(n,k)-α·SSDl(n) (9)
B:xl(n,k)=xl(n,k)+α·SSDl(n) (10)
其中,SSDl(n)为左声道中第n个子带的能量谱dl(n,k)的样本标准差;α为缩放比例因子。
2)对右声道的调整如下:
表2根据峰值检测结果做对应的衰减或增强
A衰减一个声道
B增强一个声道
根据调整对策AB,利用式(11)(12)对声道的频谱进行调整,其中调整时,子带能量应保持不变并且保证频谱非负。
A:xr(n,k)=xr(n,k)-α·SSDr(n) (11)
B:xr(n,k)=xr(n,k)+α·SSDr(n) (12)
其中,SSDr(n)为右声道中第n个子带的能量谱dr(n,k)的样本标准差;α为缩放比例因子。
3)缩放比例因子α的建议取值参考下表:
表3根据峰值检测结果所对应的缩放比例因子值
步骤2.6,对步骤2.5所得左声道和右声道的重建的频域信号分别进行时频逆变换,恢复出重建的双声道信号。
本发明相应提供的一种双声道音频音质增强编码装置,包括以下模块:
时频变换模块,用于对输入的双声道信号中左声道信号和右声道信号分别进行时频变换,得到频域上的左声道信号和右声道信号;
子带划分模块,用于对时频变换模块所得左声道信号和右声道信号按照一致的方式进行子带划分,设得到N对左右声道子带,其中左声道的第n个子带和右声道的第n个子带构成第n对左右声道子带,其中n的取值为1,2…N;
频谱分析模块,用于进行频谱分析,其中包括以下三个子模块,频谱差异计算子模块,用于计算左声道中第n个子带和右声道中第n个子带的频谱差异值;LPC阶数分配子模块,用于根据频谱差异值从大到小将N对左右声道子带进行排序,从中取前N'对左右声道子带,N'<N,前N'对左右声道子带包括N'个左声道的子带和N'个右声道的子带,对这2N'个子带分别分配LPC阶数;
LPC系数及子带索引生成子模块,用于根据对2N'个子带分配的LPC阶数,对2N'个子带分别做线性预测分析,得到每个子带的LPC系数和对应的子带索引,将每个子带的LPC系数转化成ISP系数,所得ISP系数和对应的子带索引写入码流;
参数立体声编码模块,用于对子带划分模块所得N对左右声道子带进行参数立体声编码,所得立体声参数写入码流;
下混模块,用于对参数立体声编码模块所得立体声参数进行信号下混,得到单声道信号;
核心编码器,用于将下混模块所得单声道信号送入核心编码器中进行核心编码,所得核心编码结果写入码流。
本发明相应提供的一种双声道音频音质增强解码装置,包括以下模块:
核心解码器,用于采用核心解码器对码流进行核心解码,得到单声道信号;
子带划分模块,用于对核心解码器所得单声道信号进行子带划分,得到解码子带信号;
参数立体声解码模块,用于利用码流中的立体声参数,对子带划分模块所得解码子带信号进行参数立体声解码,得到左声道和右声道分别的重建的频域子带信号;
频谱分析模块,用于根据码流中的子带索引和对应的ISP系数,对参数立体声解码模块所得重建的频域子带信号中相应的子带进行频谱分析调整,得到调整后的重建频域子带信号;
子带合并模块,用于根据频谱分析模块所得调整后的重建频域子带信号,对左声道和右声道分别合并得到重建的频域信号;
时频逆变换模块,对子带合并模块所得左声道和右声道的重建的频域信号分别进行时频逆变换,恢复出重建的双声道信号。
各模块具体实现与编解码方法的步骤具体实现相应,本发明不予赘述。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (7)
1.一种双声道音频音质增强编码方法,其特征在于,包括以下步骤:
步骤1.1,对输入的双声道信号中左声道信号和右声道信号分别进行时频变换,得到频域上的左声道信号和右声道信号;
步骤1.2,对步骤1所得左声道信号和右声道信号按照一致的方式进行子带划分,设得到N对左右声道子带,其中左声道的第n个子带和右声道的第n个子带构成第n对左右声道子带,其中n的取值为1,2…N;
步骤1.3,进行频谱分析,包括以下子步骤,
步骤1.3.1,计算左声道中第n个子带和右声道中第n个子带的频谱差异值;
步骤1.3.2,根据频谱差异值从大到小将N对左右声道子带进行排序,从中取前N'对左右声道子带,N'<N,前N'对左右声道子带包括N'个左声道的子带和N'个右声道的子带,对这2N'个子带分别分配LPC阶数;
步骤1.3.3,根据对2N'个子带分配的LPC阶数,对2N'个子带分别做线性预测分析,得到每个子带的LPC系数和对应的子带索引,将每个子带的LPC系数转化成ISP系数,所得ISP系数和对应的子带索引写入码流;
步骤1.4,对步骤1.2中所得N对左右声道子带进行参数立体声编码,所得立体声参数写入码流;
步骤1.5,对步骤1.4所得立体声参数进行信号下混,得到单声道信号;
步骤1.6,将步骤1.5所得单声道信号进行核心编码,所得核心编码结果写入码流。
2.如权利要求1所述双声道音频音质增强编码方法,其特征在于:步骤1.3.1中计算左声道中第n个子带和右声道中第n个子带的频谱差异值,实现方式包括以下子步骤,
步骤1.3.1.1,按以下公式计算左声道中第n个子带与右声道中第n个子带之间的能量谱差异d(n,k),
d(n,k)=|xl(n,k)|2-|xr(n,k)|2
其中,xl(n,k)表示左声道中第n个子带的第k个频点,xr(n,k)表示右声道中第n个子带的第k个频点;0≤k<W-1,W为子带带宽;
步骤1.3.1.2,将左声道中第n个子带和右声道中第n个子带分别划分为数等份,设分别划分为I等分,按以下公式定义峰值预测标记F(n,i),i的取值为1,2…I,
步骤1.3.1.3,按以下公式求取第n对左右声道子带的峰值预测序列S(n,i),
其中,SSD(n)表示左声道中第n个子带与右声道中第n个子带之间频谱能量差异d(n,k)的样本标准差;
步骤1.3.1.4,按以下公式求取左声道中第n个子带与右声道中第n个子带之间的频谱差异值Diff(n),
3.如权利要求2所述双声道音频音质增强编码方法,其特征在于:步骤1.3.2中,设第n对左右声道子带是前N'对左右声道子带之一,对左声道中第n个子带和右声道中第n个子带分配LPC阶数,实现方式包括以下子步骤,
步骤1.3.2.1,按以下公式计算左声道中第n个子带的能量谱dl(n,k)和右声道中第n个子带的能量谱dr(n,k),
dl(n,k)=|xl(n,k)|2
dr(n,k)=|xr(n,k)|2
其中,xl(n,k)表示左声道中第n个子带的第k个频点,xr(n,k)表示右声道中第n个子带的第k个频点,并且0≤k<W-1,W为子带带宽;
步骤1.3.2.2,按以下公式求取左声道中第n个子带的峰值预测序列Sl(n,i)和右声道中第n个子带的峰值预测序列Sr(n,i),
其中,SSDl(n)和SSDr(n)分别为左声道中第n个子带的能量谱dl(n,k)的样本标准差和右声道中第n个子带的能量谱dr(n,k)的样本标准差;
步骤1.3.2.3,根据峰值预测序列Sl(n,i)求出左声道中第n个子带的波峰波谷总数Pl(n),根据峰值预测序列Sr(n,i)求出右声道中第n个子带的波峰波谷总数Pr(n);
步骤1.3.2.4,根据波峰波谷总数Pl(n)分配左声道中第n个子带的LPC系数,根据波峰波谷总数Pr(n)分配右声道中第n个子带的LPC系数。
4.一种双声道音频音质增强解码方法,其特征在于,包括以下步骤:
步骤2.1,对码流进行核心解码,得到单声道信号;
步骤2.2,对步骤2.1所得单声道信号进行子带划分,得到解码子带信号;
步骤2.3,利用码流中的立体声参数,对步骤2.2所得解码子带信号进行参数立体声解码,得到左声道和右声道分别的重建的频域子带信号;
步骤2.4,根据码流中的子带索引和对应的ISP系数,对步骤2.3所得重建的频域子带信号中相应的子带进行频谱分析调整,得到调整后的重建频域子带信号;
步骤2.5,根据步骤2.4所得调整后的重建频域子带信号,对左声道和右声道分别合并得到重建的频域信号;
步骤2.6,对步骤2.5所得左声道和右声道的重建的频域信号分别进行时频逆变换,恢复出重建的双声道信号。
5.如权利要求4所述双声道音频音质增强编码方法,其特征在于:步骤2.4中,设第n对左右声道子带是频谱差异值较大的前N'对左右声道子带之一,对第n对左右声道子带相应重建的频域子带信号进行频谱分析调整,实现方式包括以下子步骤,
步骤2.4.1,根据码流中第n对左右声道子带的子带索引Index(n),找到频谱差异较大的N'对左右声道子带对应的重建的频域子带信号和求出左声道中第n个子带的频谱差异序列和右声道中第n个子带的频谱差异序列
步骤2.4.2,根据码流中的ISP系数恢复出对应的LPC系数,并根据LPC系数重建出包括左声道中第n个子带的峰值预测序列Sl(n,i)和右声道中第n个子带的峰值预测序列Sl(n,i);
步骤2.4.3,对比峰值预测序列和步骤2.4.2重建出的峰值预测序列Sl(n,i),根据预设规则对左声道中第n个子带进行衰减一个声道或增强一个声道的调整;对比峰值预测序列和步骤2.4.2重建出的峰值预测序列Sr(n,i),根据预设规则对右声道中第n个子带进行衰减一个声道或增强一个声道的调整;
按下式对左声道中第n个子带进行衰减一个声道的调整,
xl(n,k)=xl(n,k)-α·SSDl(n)
按下式对左声道中第n个子带进行增加一个声道的调整,
xl(n,k)=xl(n,k)+α·SSDl(n)
按下式对右声道中第n个子带进行衰减一个声道的调整,
xr(n,k)=xr(n,k)-α·SSDr(n)
按下式对右声道中第n个子带进行增加一个声道的调整,
xr(n,k)=xr(n,k)+α·SSDr(n)
其中,SSDl(n)和SSDr(n)分别为左声道中第n个子带的能量谱dl(n,k)的样本标准差和右声道中第n个子带的能量谱dr(n,k)的样本标准差;α为缩放比例因子。
6.一种双声道音频音质增强编码装置,其特征在于,包括以下模块:
时频变换模块,用于对输入的双声道信号中左声道信号和右声道信号分别进行时频变换,得到频域上的左声道信号和右声道信号;
子带划分模块,用于对时频变换模块所得左声道信号和右声道信号按照一致的方式进行子带划分,设得到N对左右声道子带,其中左声道的第n个子带和右声道的第n个子带构成第n对左右声道子带,其中n的取值为1,2…N;
频谱分析模块,用于进行频谱分析,其中包括以下三个子模块,频谱差异计算子模块,用于计算左声道中第n个子带和右声道中第n个子带的频谱差异值;LPC阶数分配子模块,用于根据频谱差异值从大到小将N对左右声道子带进行排序,从中取前N'对左右声道子带,N'<N,前N'对左右声道子带包括N'个左声道的子带和N'个右声道的子带,对这2N'个子带分别分配LPC阶数;
LPC系数及子带索引生成子模块,用于根据对2N'个子带分配的LPC阶数,对2N'个子带分别做线性预测分析,得到每个子带的LPC系数和对应的子带索引,将每个子带的LPC系数转化成ISP系数,所得ISP系数和对应的子带索引写入码流;
参数立体声编码模块,用于对子带划分模块所得N对左右声道子带进行参数立体声编码,所得立体声参数写入码流;
下混模块,用于对参数立体声编码模块所得立体声参数进行信号下混,得到单声道信号;
核心编码器,用于将下混模块所得单声道信号送入核心编码器中进行核心编码,所得核心编码结果写入码流。
7.一种双声道音频音质增强解码装置,其特征在于,包括以下模块:
核心解码器,用于采用核心解码器对码流进行核心解码,得到单声道信号;
子带划分模块,用于对核心解码器所得单声道信号进行子带划分,得到解码子带信号;
参数立体声解码模块,用于利用码流中的立体声参数,对子带划分模块所得解码子带信号进行参数立体声解码,得到左声道和右声道分别的重建的频域子带信号;
频谱分析模块,用于根据码流中的子带索引和对应的ISP系数,对参数立体声解码模块所得重建的频域子带信号中相应的子带进行频谱分析调整,得到调整后的重建频域子带信号;
子带合并模块,用于根据频谱分析模块所得调整后的重建频域子带信号,对左声道和右声道分别合并得到重建的频域信号;
时频逆变换模块,对子带合并模块所得左声道和右声道的重建的频域信号分别进行时频逆变换,恢复出重建的双声道信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012102548134A CN102737647A (zh) | 2012-07-23 | 2012-07-23 | 双声道音频音质增强编解码方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012102548134A CN102737647A (zh) | 2012-07-23 | 2012-07-23 | 双声道音频音质增强编解码方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102737647A true CN102737647A (zh) | 2012-10-17 |
Family
ID=46993016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012102548134A Pending CN102737647A (zh) | 2012-07-23 | 2012-07-23 | 双声道音频音质增强编解码方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102737647A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104240712A (zh) * | 2014-09-30 | 2014-12-24 | 武汉大学深圳研究院 | 一种三维音频多声道分组聚类编码方法及系统 |
CN107134280A (zh) * | 2013-09-12 | 2017-09-05 | 杜比国际公司 | 多声道音频内容的编码 |
CN107424622A (zh) * | 2014-06-24 | 2017-12-01 | 华为技术有限公司 | 音频编码方法和装置 |
CN108231091A (zh) * | 2018-01-24 | 2018-06-29 | 广州酷狗计算机科技有限公司 | 一种检测音频的左右声道是否一致的方法和装置 |
CN108269586A (zh) * | 2013-04-05 | 2018-07-10 | 杜比实验室特许公司 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
CN108886650A (zh) * | 2016-01-18 | 2018-11-23 | 云加速360公司 | 用于音频再现的子带空间和串扰消除 |
US10721564B2 (en) | 2016-01-18 | 2020-07-21 | Boomcloud 360, Inc. | Subband spatial and crosstalk cancellation for audio reporoduction |
US10764704B2 (en) | 2018-03-22 | 2020-09-01 | Boomcloud 360, Inc. | Multi-channel subband spatial processing for loudspeakers |
CN111654745A (zh) * | 2020-06-08 | 2020-09-11 | 海信视像科技股份有限公司 | 多声道的信号处理方法及显示设备 |
US10841728B1 (en) | 2019-10-10 | 2020-11-17 | Boomcloud 360, Inc. | Multi-channel crosstalk processing |
CN113314130A (zh) * | 2021-05-07 | 2021-08-27 | 武汉大学 | 一种基于频谱搬移的音频对象编解码方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080126084A1 (en) * | 2006-11-28 | 2008-05-29 | Samsung Electroncis Co., Ltd. | Method, apparatus and system for encoding and decoding broadband voice signal |
CN102379004A (zh) * | 2009-04-03 | 2012-03-14 | 株式会社Ntt都科摩 | 语音编码装置、语音解码装置、语音编码方法、语音解码方法、语音编码程序以及语音解码程序 |
-
2012
- 2012-07-23 CN CN2012102548134A patent/CN102737647A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080126084A1 (en) * | 2006-11-28 | 2008-05-29 | Samsung Electroncis Co., Ltd. | Method, apparatus and system for encoding and decoding broadband voice signal |
CN102379004A (zh) * | 2009-04-03 | 2012-03-14 | 株式会社Ntt都科摩 | 语音编码装置、语音解码装置、语音编码方法、语音解码方法、语音编码程序以及语音解码程序 |
Non-Patent Citations (3)
Title |
---|
CONG ZHANG ET AL.: "A Novel Audio Codec for Mobile Multimedia Applications", 《INTERNATIONAL CONFERENCE ON WIRELESS COMMUNICATIONS, NETWORKING AND MOBILE COMPUTING, 2007. WICOM 2007.》 * |
SHI DONG ET AL.: "A Subband Analysis and Coding Method for Downmixing Based Multichannel Audio Codec", 《AUDIO ENGINEERING SOCIETY CONVENTION PAPER,PRESENTED AT THE 131ST CONVENTION》 * |
SHUIXIAN CHEN ET AL.: "Spatial parameters for audio coding:MDCT domain analysis and synthesis", 《MULTIMEDIA TOOLS AND APPLICATIONS》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108269586A (zh) * | 2013-04-05 | 2018-07-10 | 杜比实验室特许公司 | 使用高级频谱延拓降低量化噪声的压扩装置和方法 |
US12175994B2 (en) | 2013-04-05 | 2024-12-24 | Dolby International Ab | Companding system and method to reduce quantization noise using advanced spectral extension |
US11423923B2 (en) | 2013-04-05 | 2022-08-23 | Dolby Laboratories Licensing Corporation | Companding system and method to reduce quantization noise using advanced spectral extension |
CN107134280B (zh) * | 2013-09-12 | 2020-10-23 | 杜比国际公司 | 多声道音频内容的编码 |
US11410665B2 (en) | 2013-09-12 | 2022-08-09 | Dolby International Ab | Methods and apparatus for decoding encoded audio signal(s) |
US11776552B2 (en) | 2013-09-12 | 2023-10-03 | Dolby International Ab | Methods and apparatus for decoding encoded audio signal(s) |
CN107134280A (zh) * | 2013-09-12 | 2017-09-05 | 杜比国际公司 | 多声道音频内容的编码 |
CN107424622A (zh) * | 2014-06-24 | 2017-12-01 | 华为技术有限公司 | 音频编码方法和装置 |
US11074922B2 (en) | 2014-06-24 | 2021-07-27 | Huawei Technologies Co., Ltd. | Hybrid encoding method and apparatus for encoding speech or non-speech frames using different coding algorithms |
CN107424622B (zh) * | 2014-06-24 | 2020-12-25 | 华为技术有限公司 | 音频编码方法和装置 |
CN104240712A (zh) * | 2014-09-30 | 2014-12-24 | 武汉大学深圳研究院 | 一种三维音频多声道分组聚类编码方法及系统 |
CN104240712B (zh) * | 2014-09-30 | 2018-02-02 | 武汉大学深圳研究院 | 一种三维音频多声道分组聚类编码方法及系统 |
CN108886650B (zh) * | 2016-01-18 | 2020-11-03 | 云加速360公司 | 用于音频再现的子带空间和串扰消除 |
US10721564B2 (en) | 2016-01-18 | 2020-07-21 | Boomcloud 360, Inc. | Subband spatial and crosstalk cancellation for audio reporoduction |
CN108886650A (zh) * | 2016-01-18 | 2018-11-23 | 云加速360公司 | 用于音频再现的子带空间和串扰消除 |
CN108231091A (zh) * | 2018-01-24 | 2018-06-29 | 广州酷狗计算机科技有限公司 | 一种检测音频的左右声道是否一致的方法和装置 |
US10764704B2 (en) | 2018-03-22 | 2020-09-01 | Boomcloud 360, Inc. | Multi-channel subband spatial processing for loudspeakers |
US10841728B1 (en) | 2019-10-10 | 2020-11-17 | Boomcloud 360, Inc. | Multi-channel crosstalk processing |
US11284213B2 (en) | 2019-10-10 | 2022-03-22 | Boomcloud 360 Inc. | Multi-channel crosstalk processing |
CN111654745B (zh) * | 2020-06-08 | 2022-10-14 | 海信视像科技股份有限公司 | 多声道的信号处理方法及显示设备 |
CN111654745A (zh) * | 2020-06-08 | 2020-09-11 | 海信视像科技股份有限公司 | 多声道的信号处理方法及显示设备 |
CN113314130B (zh) * | 2021-05-07 | 2022-05-13 | 武汉大学 | 一种基于频谱搬移的音频对象编解码方法 |
CN113314130A (zh) * | 2021-05-07 | 2021-08-27 | 武汉大学 | 一种基于频谱搬移的音频对象编解码方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11631417B2 (en) | Stereo audio encoder and decoder | |
CN102737647A (zh) | 双声道音频音质增强编解码方法及装置 | |
CN101868821B (zh) | 用于处理信号的方法和装置 | |
TWI497485B (zh) | 用以重塑經合成輸出音訊信號之時域包絡以更接近輸入音訊信號之時域包絡的方法 | |
CN100571043C (zh) | 一种空间参数立体声编解码方法及其装置 | |
CN101202043B (zh) | 音频信号的编码方法和装置与解码方法和装置 | |
CN109448741B (zh) | 一种3d音频编码、解码方法及装置 | |
CN101149925B (zh) | 一种用于参数立体声编码的空间参数选取方法 | |
CN109410966B (zh) | 音频编码器和解码器 | |
CN106373583B (zh) | 基于理想软阈值掩模irm的多音频对象编、解码方法 | |
CN103413553B (zh) | 音频编码方法、音频解码方法、编码端、解码端和系统 | |
CN102682779B (zh) | 面向3d音频的双声道编解码方法和编解码器 | |
WO2016023323A1 (zh) | 多声道声音信号编码方法、解码方法及装置 | |
CN107610710A (zh) | 一种面向多音频对象的音频编码及解码方法 | |
CN110660401B (zh) | 一种基于高低频域分辨率切换的音频对象编解码方法 | |
EP2489036B1 (en) | Method, apparatus and computer program for processing multi-channel audio signals | |
KR100745688B1 (ko) | 다채널 오디오 신호 부호화/복호화 방법 및 장치 | |
CN103165134B (zh) | 音频信号高频参数编解码装置 | |
Wu et al. | Low bitrates audio object coding using convolutional auto-encoder and densenet mixture model | |
CN105336334B (zh) | 多声道声音信号编码方法、解码方法及装置 | |
RU2798009C2 (ru) | Стереофонический кодер и декодер аудиосигналов | |
Suresh et al. | MDCT domain parametric stereo audio coding | |
Jiang et al. | Multi-channel audio compression method based on ITU-T G. 719 codec | |
Wang et al. | The perceptual and statistics characteristic of spatial cues and its application |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20121017 |