[go: up one dir, main page]

CN1460992A - 用于感知音频编/解码的低延时、自适应的多分辨率滤波器组 - Google Patents

用于感知音频编/解码的低延时、自适应的多分辨率滤波器组 Download PDF

Info

Publication number
CN1460992A
CN1460992A CN03148514A CN03148514A CN1460992A CN 1460992 A CN1460992 A CN 1460992A CN 03148514 A CN03148514 A CN 03148514A CN 03148514 A CN03148514 A CN 03148514A CN 1460992 A CN1460992 A CN 1460992A
Authority
CN
China
Prior art keywords
bank
filters
signal
frequency
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN03148514A
Other languages
English (en)
Inventor
潘兴德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING FUGUO DIGITAL TECHN Co Ltd
Original Assignee
BEIJING FUGUO DIGITAL TECHN Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING FUGUO DIGITAL TECHN Co Ltd filed Critical BEIJING FUGUO DIGITAL TECHN Co Ltd
Priority to CN03148514A priority Critical patent/CN1460992A/zh
Publication of CN1460992A publication Critical patent/CN1460992A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及信号处理中数据压缩及信号处理用滤波器组,更详细地说,它用于音频信号的解相关,从而提供一个消解冗余度的方法和装置。除此之外,基于心理声学模型,本发明还可用于分离音频信号具有不同重要性的信号分量。本发明的特征在于,利用余弦调制滤波技术可以构造多种不同时频划分的滤波器组结构,并且,该滤波器组结构可以实时的、信号自适应的切换,从而可以在音频编码过程中更有效的消除信号的统计冗余和听觉无关成分,在降低编码延迟的同时,取得了很高的编码效率。

Description

用于感知音频编/解码的低延时、自适应的多分辨率滤波器组
技术领域
本发明涉及信号处理中数据压缩及信号处理用滤波器组,更详细地说,它用于音频信号的解相关,从而提供一个消解冗余度的方法和装置,除此之外,基于心理声学模型,本发明还可用于分离具有不同重要性的信号分量。
背景技术
数字音频压缩编码技术能够以比较低的速率获得高质量的编码效果,其基本原理在于:1)设法消除音频信号的冗余度;2)充分利用人耳听觉特性。
众所周知,一些线性变换能够导致接近于零的高频系数,换句话说,时域信号包含的大部分信息能够被转换或集中到频域或时--频域系数的一个子集中,于是,信号压缩技术广泛地采用不同滤波结构作为提高编码效率的手段。
在心理声学中,一个纯音可以被以它为中心,且具有一定带宽的连续噪声所掩蔽,若在这一频带内噪声功率等于该纯音的功率,此时该纯音处于刚好能被听到的临界状态,即称这一频带为临界带宽(单位为Bark)。临界频带是编码中子带划分的心理学依据。人耳对音频信号的分析以临界频带为基础,类似一个非等带宽滤波器组,在不同的子带中差异很大。因此,临界频带是编码中子带划分的心理声学依据。在感知音频编码中,子带的划分应尽量与人耳临界频带的宽度接近,以便更好的适应人耳的听觉特性。但是,在实际的编码中,考虑到实现的代价,这一要求并不能得到完全的满足。原因在于,能够接近人耳的听觉特性的非等带宽滤波器组设计、相关的心理声学分析和量化设计存在技术方面的困难。
一般地,知觉音频编码器的一个基本操作是把输入的音频信号从时间域映射到频率域或者时--频域,其基本的思路为:把信号分解为各频率带上的成分;一旦输入信号在频域上得以表达,心理声学模型就可以用来去除枝节信息;进一步,把各频带上的成份分组。最后,通过合理地分配比特数以表达各组频率参数。由于音频信号展现出强烈的准周期性,这一过程可大大降低数据量、提升编码效率。
最近的几年里,一系列可用于信号成份分离和冗余度提取的时--频域映射(也被称为变换和滤波)算法被开发出来。这些性能各异的方法包括:
(1)离散傅立叶变换(Discrete Fourier transform,DFT)。
(2)离散余弦变换(Di screte cosine transform,DCT)。
(3)镜像滤波器(Quadrature mirror filters,QMF)。
(4)伪镜像滤波器(Pseudo QMF,PQMF)。
(5)余弦调制滤波器(Cosine Modulated Filters,CMF)。(其中包括离散余弦变换,即MDCT)
(6)离散小波(包)变换(Discrete Wavelet(Packet)Transform,DW(P)T)。
上述各种变换具有不同的优缺点,不同的系统根据需要选用适当的变换作为其滤波器组的基本构成。
MPEG-1,2 Layers I和II采用了PQMF作为滤波器组。该滤波器组的优点为:结构相对简单、时间分辨率很好。其缺点为:邻近子带之间存在明显的频率重叠;单一频率信号的变化可影响与其相邻的二个子带。2000Hz以下的频带宽度远大于心理声学带宽值,从而无法实现比特数的最优分配。实时运算量偏大。
MPEG-1,2 Layer III采用了PQMF和MDCT的级联作为其滤波器组。虽然MDCT的引入可提升频率分辨率从而改进编码效率,PQMF在邻近子带之间的频率重叠仍然会导致信号的混迭,频域量化噪声在时间域上的扩散比较严重。
MPEG-2,4 AAC采用了MDCT作为滤波器组(稳态信号:1024-点MDCT,暂态信号:128-点MDCT),该滤波器组使用了二种重叠窗形状:SINE和KBD。其优点为:频率分辨率很好;其缺点为:时间分辨率偏低。
MPEG-4 Twin VQ的滤波器组与MPEG-2,4 AAC相似,除此之外,它采用了线性滤波器组以白化频谱系数并在量化级之前执行归一化操作。
AC-3的滤波器组对稳态信号使用256-点MDCT,对暂态信号使用128-点MDCT,其块长选择机制比较简单,选择效果为次最优。
上述系统或者只采用一种变换配置去压缩表达一个输入信号帧,或者采用时域分析区间较小的滤波器组或变换压缩表达变化剧烈的信号(或称快变信号),以消除前回声对解码信号的影响。当一个信号帧包含不同暂态特性的成份时,单一的变换配置不足以满足不同信号子帧对优化压缩的基本需求;而简单的采用时域作用区间较小的滤波器组或变换来处理快变信号,则所得系数的频率分辨率较低,使得低频部分的频率分辨率远大于人耳临界子带带宽,因而严重影响编码效率。
ATRAC的滤波器组由前回声增益控制、QMF和MDCT级联而成。它还采用了窗转换机制以根据输入信号的特性调整时频分辨率。
DTS的滤波器组由512-tap 32子带PQMF构成。为了进一步提取冗余度,一个线性滤波器组可被级联在PQMF之后。
Deepen Sinha和J.D.Johnston提出了一种基于MDCT和小波变换信号自适应切换的编码技术(Deepen Sinha和J.D.Johnston“Audiocompression at low bit rates using a signal adaptiVe switchedfilterbank”,In Proc.IEEE Int.Conf.Acoust.,Speech,SignalProcessing,volume 2,pages 1053-1056,Atlanta,USA,1996.),对缓变信号,采用频率分辨率较高的MDCT变换,对变换剧烈的信号,采用小波变换,获得了较高的编码效率。
Marcus Purat和Peter Noll通过对余弦调制滤波器组的输出进行再滤波,提供了一种新的用于音频编码的多分辨率的滤波技术(MarcusPurat和Peter Noll,“A new orthonormal wavelet packetdecomposition for audio coding using frequency-varying modulatedlapped transforms”,IEEE 1995 Workshop on Applications of SignalProcessing to Audio and Acoustics,New Paltz,N.Y.(USA),1995),也获得了较高的编码效率。
发明内容
为了提高音频编码的品质,必须有效提高编码信号中的统计冗余和听觉无关成份。滤波器组的使用提供了一种去除统计和听觉冗余信息,以及减少编码边信息的最佳途径。根据其功能,滤波的设计目的包括:
(1)对于不同的信号类型,调整滤波器组的时、频分辨率,优化分离具有不同感知特性的信号成分。
(2)采用尽可能长的改进余弦形式的基函数,有效的去除或削弱音频信号中统计冗余。
(3)通过滤波器组时频分辨率的自适应切换,以及相邻帧间的重叠加窗技术,尽可能减小了前回声(Pre Echo)噪声和由边界之不连续性所导致的听觉块效应(Blocking Effect)。
(4)由于有效的去除了音频信号的统计冗余和感知无关冗余,在保持音频信号品质的前提下,有效提高了音频信号的压缩效率。
(5)采用的滤波技术可以产生较小的编/解延迟。
(6)采用快速算法,运算量较小。
为了实现上述目标,本发明采用余弦调制滤波器组技术,设计一组根据音频输入信号的暂态性度量切换的滤波器组结构,在消除或削弱符号间的统计冗余的同时,充分利用人耳听觉特性,以提高编码效率。
本发明所提出的低延时、自适应的多分辨率滤波器组结构,是指在音频编码中,根据当前编码信号的类型,动态调整滤波结构的技术。根据信号性质,动态调节滤波器组的时间--频率分辨率,获得信号的优化滤波和时频表示。以最大限度的降低编码比特率,或者在确定的比特率下获得尽可能高的编码主观质量。
本发明所述的多分辨率滤波结构的信号自适应调节是通过对余弦调制滤波得到的频域系数进行小波变换实现的。输入信号经暂态性度量模块分析,分为缓变信号、快变信号(可以对快变信号进行细分,分别非类I型快变信号,类II型信号等);然后,不同的信号类型采用不同的滤波结构滤波,获得所需的时--频滤波系数。
所述音频信号编码过程中,首先将信号分帧,然后对帧信号进行暂态性度量,然后将确定当前信号类型,并选择相应的滤波结构。具体的,对于快变信号的滤波由两个步骤组成:1、进行等带宽滤波器组滤波后;2、对滤波系数再进行多分辨率分析。不同的的快变信号类型的多分辨率分析结构有所不同,以提高编码效率。
本发明滤波器组用于音频编解码其中,取得了很高编码效率,且所需要的运算量没有显著的增加。
附图说明
在本发明的说明过程中,我们将采用一系列示意图,但这些示意图不应被理解为本发明的限制条件,因为,一个熟练的技术人员可以依据本发明阐述的方法完成一个类似的实现。这些示意图为:
图1是余弦调制滤波器的分析和综合滤波器组的结构框图。
图2是本发明滤波器组的工作原理框图。
图3是对部分MDCT系数用Harr小波进行小波变换的滤波结构示意图。
图4是对部分MDCT系数用Harr小波进行小波变换的时频划分示意图。
图5是本发明滤波器组的工作流程图。
图6是本发明滤波技术用于音频编码的一个典型编码器的流程图。
图7是本发明滤波技术用于音频编码的一个典型解码器的流程图。
具体实施方式
本发明所提出的低延时、自适应的多分辨率滤波器组结构,是指在音频编码中,根据当前编码信号的类型,动态调整滤波结构的技术。不同于AAC的长短MDCT变换块的策略,本发明根据信号性质,动态调节滤波器组的时间--频率分辨率,获得信号的优化滤波和时频表示。以最大限度的降低编码比特率,或者在确定的比特率下获得尽可能高的编码主观质量。
本发明的多分辨率滤波结构的信号自适应调节是通过对余弦调制滤波得到的频域系数进行小波变换实现的。本发明所提出的信号自适应滤波技术的工作原理如图2所示:输入信号经暂态性度量模块分析,分为缓变信号、快变信号(可以对快变信号进行细分,分别非类I型快变信号,类II型信号等);然后,不同的信号类型采用不同的滤波结构滤波,获得所需的时--频滤波系数。
暂态性度量可以根据当前信号的统计特性、掩蔽特性和/或时频特性计算得到。
本发明的信号自适应滤波器组技术的工作流程如图5所示。其步骤如下:
(1)频信号分解成帧,输入处理流程;
(2)选择暂态性度量方法;
(3)计算当前信号帧的暂态性;
(4)判断当前信号的类型;
(5)选择当前帧信号的滤波结构;
(6)余弦调制滤波;
(7)滤波系数的时频组织;
(8)滤波输出。
为了叙述方便,本发明申请提出两个概念,即“缓变信号”和“快变信号”。由于音频信号是时变的,因此,根据当前帧信号的特点,如统计量变化程度、时/频域波形平坦度、以及信号自身的时间掩蔽能力(是否会产生前回声)等指标,将当前帧信号定义为“缓变信号”或“快变信号”。应该注意,这里定义的“缓变信号”和通常所谓的“准平稳”或“时域缓变”信号是有区别的,“快变信号”也和通常所谓的“非平稳”或“瞬变”信号有所区别。
在本发明的滤波器组的实现过程中,需要确定一个方便有效的信号类型判断机制,并且,该判断机制可以根据实际编码应用确定。
在本发明中,定义音频信号暂态性度量方法为: Z = ( Σ j = 1 N | s j - 1 N Σ j = 1 N s j | 2 + λ ) / Σ j = 1 N | s j | 2 + λ
sj为当前帧第j个信号样本;N为帧长,
λ为大于零小于1的实数;λ的引入是为了突显变化的重要性。
当上式的Z低于某一阈值X1时,该信号可以定义为缓变信号;反之,若低于另一阈值X2,则为类型K1快变信号,这样,可以定义一系列的快变信号类型。若设共K种信号类型,则阈值Xi(i=1,…,K)是可以根据信号变化自适应变化的。其中,K和阈值Xi(i=1,…,K)的确定方法如下:若欲限定每帧滤波器结构信息占用L个比特,则K≤2L,统计信号暂态性度量的分布函数,将暂态性度量分为K个区间,并使每个区间的概率分布相等。
在本发明中,对缓变信号采用等带宽的余弦调制滤波器组;对于快变信号,用和缓变信号相同的等带宽余弦调制滤波器组滤波所获得系数,在进行多分辨率分析,从而调节不同成分的时--频分辨率。在缓变信号和快变信号过渡时,无须采用过渡信号处理,即可保证系统的完全重构能力。这种时--频划分特点符合人耳听觉的临界子带的分布规律;同时,由于信号快变成分主要体现在中高频部分,因此,在音频编码中,这样的滤波结构优于其他单一结构的滤波器组或采用简单的切换的滤波器组。
在本发明中,一些参数和机制被合理地制定。这些参数和机制包括:
(a)对余弦调制滤波系数的多分辨率滤波结构选择;
(b)余弦调制滤波器组重叠窗的形状;
(c)余弦调制滤波器组重叠窗的长度。
如上所述,在本发明中,缓变信号和快变信号的滤波均基于等带宽余弦调制滤波器组技术,其中,余弦调制滤波器组包括两种滤波形式:传统的余弦调制滤波技术和MDCT技术。一个基于余弦调制滤波的信源编/解码系统如图1所示。在编码端,输入信号被分析滤波器组分解成M个子带,子带系数被量化和熵编码。在解码端,经熵解码和反量化后,获得子带系数,子带系数通过综合滤波器组滤波,恢复音频信号。
传统的余弦调制滤波技术的冲击响应如下: h k ( n ) = 2 p a ( n ) cos ( π M ( k + 0.5 ) ( n - D 2 ) + θ k ) - - - ( 1 )
n=0,1,…,Nh-1 f k ( n ) = 2 p s ( n ) cos ( π M ( k + 0.5 ) ( n - D 2 ) + θ k ) - - - ( 2 )
n=0,1,…,Nf-1
其中0≤k<M-1,0≤n<2KM-1,K为大于零的整数, θ k = ( - 1 ) k π 4 .
这里,设M子带余弦调制滤波器组的分析窗(分析原型滤波器)pa(n)的冲击响应长度为Na,综合窗(或称综合原型滤波器)ps(n)的冲击响应长度为Ns,此时整个系统的延时D可限定于[M-1,Ns+Na-M+1]范围内,系统延时为D=2sM+d(0≤d≤2M-1)。
当分析窗和综合窗相等,即
pa(n)=ps(n),且Na=Ns             (3)
时,由式(1)和(2)表示的余弦调制滤波器组为正交滤波器组,此时矩阵H和F([H]n,k=hk(n),[F]n,k=fk(n))为正交变换矩阵。为获得线性相位滤波器组,进一步规定对称窗
pa(2KM-1-n)=pa(n)                 (4)
为保证正交和双正交系统的完全重构性,窗函数需满足的条件见文献(P.P.Vaidynathan,“Multirate Systems and Filter Banks”,Prentice Hall,Englewood Cliffs,NJ,1993)。
另外一种滤波形式为MDCT(Modified Discrete Cosine Transform),也被称为TDAC(Time Domain Aliasing Cancellation)余弦调制滤波器组,其冲击响应为: h k ( n ) = p a ( n ) 2 M cos ( π M ( k + 0.5 ) ( n + M + 1 2 ) ) - - - ( 5 ) f k ( n ) = p s ( n ) 2 M cos ( π M ( k + 0.5 ) ( n + M + 1 2 ) ) - - - ( 6 )
其中0≤k<M-1,0≤n<2KM-1,k为大于零的整数。其中,pa(n)和ps(n)分别为分析窗(或分析原型滤波器)和综合窗(或综合原型滤波器)。
同样的,当分析窗和综合窗相等,即
pa(n)=ps(n)                 (7)
时,由式(5)和(6)表示的余弦调制滤波器组为正交滤波器组,此时矩阵H和F([H]n,k=hk(n),[F]n,k=fk(n))为正交变换矩阵。为获得线性相位滤波器组,进一步规定对称窗
pa(2KM-1-n)=pa(n)           (8)
则为满足完全重构,由可知,分析窗和综合窗需满足 Σ m = 0 2 K - 1 - 2 s p a ( mM + n ) p a ( ( m + 2 s ) M + n ) = δ ( s ) - - - ( 9 )
其中 s = 0 , · · · , K - 1 , n = 0 , · · · , M 2 - 1 .
放宽式(7)的约束条件,即取消分析窗和综合窗相等的限制,则余弦调制滤波器组为双正交调制滤波器组。双正交调制滤波器组虽然丢失了变换的正交性,但有可能获得其他更有实际意义的性能。时域分析已经证明,如式(5)和(6)获得的双正交调制滤波器组依然满足完全重构性能,只要 Σ m = 0 2 K - 1 - 2 s p s ( mM + n ) p a ( ( m + 2 s ) M + n ) = δ ( s ) - - - ( 10 ) Σ m = 0 2 K - 1 - 2 s ( - 1 ) m p s ( mM + n ) p a ( ( m + 2 s ) M + ( M - n - 1 ) ) = 0 - - - ( 11 )
其中s=0,…,K-1,n=0,…,M-1。
本发明滤波的分析窗和综合窗可以采用任意满足滤波器组完全重构(Perfect Reconstruction)条件的窗形式,如在音频编码中常用的SINE和KBD窗。
下面,我们介绍如何在分帧的情况下,实现对MDCT系数进行小波变换。
设一个时序序列x(i),i=0,1,…,2M-1,经MDCT变换,可以获得MDCT系数X(k),k=0,1,…,M-1,不失一般性,可以假设M为偶数。由于在实际的小波或小波包变换过程中,小波基可以为固定的,也可以是自适应的,因此,可以采用不同的小波变换技术。
对于固定小波基的小波变换,可以采用如下块重叠小波变换技术对MDCT系数进行小波变换。如果在每一帧的块边界处的系数仍然取无限长度小波变换时的值,根据数字滤波原理,那么这时的小波变换相当于变换块之间重叠了N-1个样本。此时,小波变换矩阵为上述M×(M+N-1)维矩阵Hsub,小波变换可表示为 y → = H sub · x → - - - ( 12 )
其中 x → = [ X ( 0 ) , X ( 1 ) , X ( 2 ) , · · · , X ( M + N - 1 ) ] T - - - ( 13 ) y → = [ Y 0 ( 0 ) , Y 1 ( 0 ) , Y 0 ( 1 ) , Y 1 ( 1 ) · · · Y 0 ( M / 2 - 1 ) , Y 1 ( M / 2 - 1 ) ] T - - - ( 14 )
在实现小波或小波包变换时,可通过M子带多分辨率滤波器组在低频和/或高频子带层层嵌套来实现。在嵌套的小波分解的每一个节点都做如上变换,这样,每一帧的小波系数和时域样本数相同。若小波变换的嵌套次数为i,考虑到重采样操作,则有效重叠的样本数为(2i+1-1)*(N-1)。
在小波重构过程中,也采用类似的变换方式。若设Ksub为有限长度小波逆变换矩阵,N1为奇数,此时Ksub的维数为 ( M + N 1 - 1 / 2 ) × M 。那么小波逆变换可表示为 x → ^ = K sub T · y → ext - - - ( 16 ) 其中
Figure A0314851400144
若N1为偶数,可得到类似矩阵形式。多层的小波逆变换可通过在每一个重构节点进行上述变换实现。 y → ext = [ y 0 ( 0 ) , y 1 ( 0 ) , y 0 ( 1 ) , y 1 ( 1 ) , · · · , y 0 ( M / 2 + N 1 - 1 / 4 ) , y 1 ( M / 2 + N 1 - 1 / 4 ) ] T - - - ( 19 )
对于频域自适应的小波变换,可以采用双正交小波基和数据的对称扩展,解决数据的有限长度滤波问题。在采用正交小波基进行小波变换时,可采用数据重叠加窗技术解决有限长度数据的滤波问题,但这样会增加一定的数据量;也可以设计边界滤波器,实现滤波器切换时的完全重构(Perfect Reconstruction),但复杂度将随着滤波器的适应性迅速增加。
下面,用最简单的Harr小波基小波变换为例,说明对MDCT系数进行多分辨率分析的具体实现方法。
Harr小波基的尺度系数为 [ 1 2 , 1 2 ] , 小波系数为 [ 1 2 , - 1 2 ] . 下面是对部分MDCT系数用Harr小波进行小波变换如图3所示。
其中,MDCT系数分成两部分,即中低频部分X1(k),k=0,…,k1(不进行小波变换)和高频部分(做Harr小波变换)。经过小波变换后,得到不同的时间-频率区间的系数X2(k)、X3(k)、X4(k)、X5(k)、X6(k)和X7(k)。图中H0为低通滤波(滤波系数为 [ 1 2 , 1 2 ] ) , H1为高通滤波(滤波系数为 [ 1 2 , - 1 2 ] ) , “↓2”表示2倍的下采样操作。其对应的时间-频率平面划分如图4所示。
为了提高计算效率,可以在编码器中通过+/-运算进行滤波系数的Harr小波变换,在解码器中通过-/+和移位运算进行反变换。此时,由于编码时信号能量被放大,量化时需要计算被放大的信号能量。同样的,可以在解码器中通过+/-运算进行Harr小波逆变换,而在编码器中通过-/+和移位运算对滤波系数进行Harr小波,此时,信号能量被缩小,量化时需要计算被缩小的信号能量。对于其他小波基,可以采用Lifting小波计算策略实现小波变换的整数运算,降低运算复杂度。
若采用不同的小波变换结构,则可以得到其他类似的时间--频率平面划分。这样,可以根据需要,任意调整信号分析时的时频平面划分,满足不同的时间和频率分辨率分析要求。
实施例
下面的实施例作为说明本发明的一个具体实现,不限制本发明专利的权利要求的范围,因为,一个技术熟练的研究人员或工程师,可以根据本发明实现一个类似的发明创造。
本发明的编码实现平台如图6所示。一个输入音频信号被以44.1kHz采样。采样信号被划分成帧。每帧由1024个样本组成(约23.22ms)。首先根据当前信号的暂态性确定当前信号帧编码块类型601,根据不同的块类型,采用不同的滤波器组结构。心理声学模型根据所选定的滤波器组配置603,利用人类听觉系统的掩蔽现象从输入信号帧中去除感觉不到的内容,同时,确定当前帧编码的预算比特数609。然后,滤波器组执行时间—频率之间的映射605,607,最后,预处理过的数据被量化611和编码613(量化和编码的方法与所选用的变换配置相对应),索引值和边信息被打包进比特流613。其中滤波器组具体实现和切换方法的实现细节如以下步骤所描述:
步骤1、将输入音频数据分解成帧(1024个样本);
步骤2、评估当前输入信号帧的暂态性度量: Z = ( Σ j = 1 1024 [ | s j - 1 1024 Σ j = 1 1024 s j | ] 2 + 0.618 ) / Σ j = 1 1024 | s j | 2 + 0.618
步骤3、根据Z值、历史信息和编码增益等指标确定当前信号帧的滤波器组结构;
步骤4、对输入信号帧用等带宽余弦调制滤波器组滤波;
步骤5、若当前信号为快变信号,用Harr小波进行多分辨率分析,调整系数的时频分辨率。
为降低进一步提高编码效率,可以实现选定N种不同的小波基结构,在编码时,根据Z值和历史信息选定滤波器组的结构方式。例如,对于缓变信号,进行余弦调制滤波后不进行多分辨率分析。对于快变信号,可以根据信号时频变换的位置、剧烈程度和人耳的掩蔽特性等指标在余弦调制滤波后级联不同小波基结构。
当然,也可以在编码过程中,采用优化策略,实时计算编码增益,获得编码增益最大的小波基结构。
本发明的解码实现平台如图7所示。压缩码流经过Huffman解码701、反量化703、多分辨率逆滤波705和IMDCT707处理,获得解码音频信号输出。

Claims (11)

1、一种用于感知音频编/解码的低延时、自适应的多分辨率滤波器组,其特征在于:利用余弦调制滤波和多分辨率分析构造多种不同时频划分的滤波结构,并且,该滤波结构可以实时的根据当前编码信号的变化自适应的切换。
2、根据权利要求1所述的滤波器组,其特征在于:根据当前信号帧包含不同暂态性度量 Z = ( Σ j = 1 N | s j - 1 N Σ j = 1 N s j | 2 + λ ) / Σ j = 1 N | s j | 2 + λ 特性,自适应切换用于编码的滤波器组结构,
对缓变信号,采用等带宽的余弦调制滤波器组;
对快变信号,采用和缓变信号相同的等带宽的余弦调制滤波器组滤波所获得系数,再进行多分辨率分析,从而调节不同成分的时--频分辨率。
3、根据权利要求2所述的滤波器组,其特征在于:基于余弦调制的多分辨率时频划分滤波器组,可以根据 h k ( n ) = p a ( n ) 2 M cos ( π M ( k + 0.5 ) ( n + M + 1 2 ) ) - - - ( 5 ) f k ( n ) = p s ( n ) 2 M cos ( π M ( k + 0.5 ) ( n + M + 1 2 ) ) - - - ( 6 )
其中0≤k<M-1,0≤n<2KM-1,K为大于零的整数,构造满足不同性能要求的多分辨率滤波结构。
4、根据权利要求2所述的滤波器组,其特征在于:多分辨率滤波结构的信号自适应调节是通过对余弦调制滤波得到的频域系数进行小波变换实现的。
5、根据权利要求2所述的滤波器组,其特征在于:满足不同性能要求的多分辨率滤波结构,可以根据当前信号的统计特性、掩蔽特性和/或时频特性,滤波结构的自适应调节。
6、根据权利要求2所述的滤波器组,其特征在于:基于余弦调制的多分辨率时频划分滤波器组,在对输入信号变换/滤波时,在不同频率区间,采用不同时频分辨率的余弦调制滤波器组,获得多分辨率的时频划分,并使系统满足完全重构,其完全重构条件为: Σ m = 0 2 K - 1 - 2 s p s ( mM + n ) p a ( ( m + 2 s ) M + n ) = δ ( s ) - - - ( 10 ) Σ m = 0 2 K - 1 - 2 s ( - 1 ) m p s ( mM + n ) p a ( ( m + 2 s ) M + ( M - n - 1 ) ) = 0 - - - ( 11 )
其中s=0,…,K-1,n=0,…,M-1。
7、根据权利要求2所述的滤波器组,其特征在于:基于余弦调制的多分辨率时频划分滤波器组,利用余弦调制滤波器组技术 h k ( n ) = 2 p a ( n ) cos ( π M ( k + 0.5 ) ( n - D 2 ) + θ k ) - - - ( 1 )
n=0,1,…,Nh-1 f k ( n ) = 2 p s ( n ) cos ( π M ( k + 0.5 ) ( n - D 2 ) + θ k ) - - - ( 2 )
n=0,1,…,Nf-1
其中0≤k<M-1,0≤n<2KM-1,K为大于零的整数, θ k = ( - 1 ) k π 4 , 构造一个特定的多分辨率分析结构,满足利用信号统计冗余和人耳听觉的掩蔽特性压缩音频信号的要求。
8、根据权利要求2的滤波器组,其特征在于:基于余弦调制技术的多分辨率滤波器组,对于余弦调制滤波系数进行小波变换,以调节系统的时间--频率分辨率,使得低频成分具有较高的频率分辨率,高频成分具有较高的时间分辨率,并且不同信号成分的时间--频率分辨率精细可调,其小波逆变换可表示为: x → ^ = K sub T · y → ext - - - ( 16 ) 其中若N1为偶数,可得到类似矩阵形式,多层的小波逆变换可通过在每一个重构节点进行上述变换实现, y → ext = [ y 0 ( 0 ) , y 1 ( 0 ) , y 0 ( 1 ) , y 1 ( 1 ) , · · · , y 0 ( M / 2 + N 1 - 1 / 4 ) , y 1 ( M / 2 + N 1 - 1 / 4 ) ] T - - - ( 19 )
9、根据权利要求2、8所述的滤波器组,其特征在于:不同分辨率的余弦调制滤波器组组成的多分辨率滤波器组技术,较高时间分辨率的滤波通过对较高频率分辨率的滤波器输出进行小波变换实现,同时保证系统的完全重构性能不被破坏。
10、根据权利要求9所述的滤波器组,其特征在于:对较高频率分辨率的滤波器输出进行Harr小波变换,可以通过简单+/-和移位运算实现,并且不同分辨率的转换是根据当前信号性质精细可调的。
11、根据权利要求10所述的滤波器组,其特征在于:不同分辨率转换中,可以保证系统滤波结构的完全重构性能不被破坏。
CN03148514A 2003-07-01 2003-07-01 用于感知音频编/解码的低延时、自适应的多分辨率滤波器组 Pending CN1460992A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN03148514A CN1460992A (zh) 2003-07-01 2003-07-01 用于感知音频编/解码的低延时、自适应的多分辨率滤波器组

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN03148514A CN1460992A (zh) 2003-07-01 2003-07-01 用于感知音频编/解码的低延时、自适应的多分辨率滤波器组

Publications (1)

Publication Number Publication Date
CN1460992A true CN1460992A (zh) 2003-12-10

Family

ID=29591432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN03148514A Pending CN1460992A (zh) 2003-07-01 2003-07-01 用于感知音频编/解码的低延时、自适应的多分辨率滤波器组

Country Status (1)

Country Link
CN (1) CN1460992A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010108315A1 (zh) * 2009-03-24 2010-09-30 华为技术有限公司 信号延时切换的方法和装置
CN101853660A (zh) * 2004-10-20 2010-10-06 弗劳恩霍夫应用研究促进协会 用于双声道提示码编码方案和类似方案的散射声音整形
CN101010723B (zh) * 2004-08-25 2011-05-18 杜比实验室特许公司 用于处理音频信号的方法和设备
CN101609684B (zh) * 2008-06-19 2012-06-06 展讯通信(上海)有限公司 解码语音信号的后处理滤波器
CN101241701B (zh) * 2004-09-17 2012-06-27 广州广晟数码技术有限公司 用于对音频信号进行解码的方法和设备
CN101325060B (zh) * 2007-06-14 2012-10-31 汤姆逊许可公司 频谱域中利用自适应切换的时间分辨率对音频信号编解码的方法和设备
CN101878504B (zh) * 2007-08-27 2013-12-04 爱立信电话股份有限公司 使用时间分辨率能选择的低复杂性频谱分析/合成
CN105261373A (zh) * 2015-09-16 2016-01-20 深圳广晟信源技术有限公司 用于带宽扩展编码的自适应栅格构造方法和装置
CN109863555A (zh) * 2016-07-29 2019-06-07 弗劳恩霍夫应用研究促进协会 部分合成之前使用频谱分析的非均匀滤波器组的时域混叠降低
CN112037759A (zh) * 2020-07-16 2020-12-04 武汉大学 抗噪感知敏感度曲线建立及语音合成方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101010723B (zh) * 2004-08-25 2011-05-18 杜比实验室特许公司 用于处理音频信号的方法和设备
CN101241701B (zh) * 2004-09-17 2012-06-27 广州广晟数码技术有限公司 用于对音频信号进行解码的方法和设备
CN101853660B (zh) * 2004-10-20 2013-07-03 弗劳恩霍夫应用研究促进协会 用于双声道提示码编码方案和类似方案的散射声音整形
CN101853660A (zh) * 2004-10-20 2010-10-06 弗劳恩霍夫应用研究促进协会 用于双声道提示码编码方案和类似方案的散射声音整形
CN101325060B (zh) * 2007-06-14 2012-10-31 汤姆逊许可公司 频谱域中利用自适应切换的时间分辨率对音频信号编解码的方法和设备
CN101878504B (zh) * 2007-08-27 2013-12-04 爱立信电话股份有限公司 使用时间分辨率能选择的低复杂性频谱分析/合成
CN101609684B (zh) * 2008-06-19 2012-06-06 展讯通信(上海)有限公司 解码语音信号的后处理滤波器
CN102265338A (zh) * 2009-03-24 2011-11-30 华为技术有限公司 信号延时切换的方法和装置
WO2010108315A1 (zh) * 2009-03-24 2010-09-30 华为技术有限公司 信号延时切换的方法和装置
CN105261373A (zh) * 2015-09-16 2016-01-20 深圳广晟信源技术有限公司 用于带宽扩展编码的自适应栅格构造方法和装置
CN109863555A (zh) * 2016-07-29 2019-06-07 弗劳恩霍夫应用研究促进协会 部分合成之前使用频谱分析的非均匀滤波器组的时域混叠降低
CN109863555B (zh) * 2016-07-29 2023-09-08 弗劳恩霍夫应用研究促进协会 用于处理音频信号的方法和音频处理器
CN112037759A (zh) * 2020-07-16 2020-12-04 武汉大学 抗噪感知敏感度曲线建立及语音合成方法
CN112037759B (zh) * 2020-07-16 2022-08-30 武汉大学 抗噪感知敏感度曲线建立及语音合成方法

Similar Documents

Publication Publication Date Title
Srinivasan et al. High-quality audio compression using an adaptive wavelet packet decomposition and psychoacoustic modeling
CN1272911C (zh) 音频信号解码装置及音频信号编码装置
KR101602408B1 (ko) 오디오 신호 코딩 및 디코딩 방법 및 장치
CN1210689C (zh) 子带域中改进的频谱平移/折叠的方法和设备
CN1181467C (zh) 利用自适应噪声本底相加和噪声替换限制,增强信源编码和解码的方法和系统
CN1258172C (zh) 对音频信号进行编码及解码的装置和方法
CN1527995A (zh) 编码设备和解码设备
CN1310210C (zh) 使用解码信号的特征适配合成频谱分量的音频编码系统
CN1926609A (zh) 用于信号分析和合成的自适应混合变换
WO2005096274A1 (fr) Dispositif et procede de codage/decodage audio ameliores
KR100472442B1 (ko) 웨이브렛 패킷 변환을 이용한 오디오 압축 방법 및 그시스템
CN1460992A (zh) 用于感知音频编/解码的低延时、自适应的多分辨率滤波器组
CN101436406B (zh) 音频编解码器
CN101105940A (zh) 音频编解码的量化方法、反变换方法及音频编解码装置
CN1487746A (zh) 编码或解码音频信号的方法和设备
CN1138254C (zh) 一种基于小波变换的音频信号压缩编/解码方法
CN1388517A (zh) 一种基于伪小波滤波的音频编/解码技术
Dobson et al. High quality low complexity scalable wavelet audio coding
CN1471236A (zh) 用于感知音频编码的信号自适应多分辨率滤波器组
CN101527139B (zh) 一种音频编码解码方法及其装置
CN1318904A (zh) 一种实用的基于小波变换的声音编解码器
CN1123865C (zh) 小波音频编码信号处理中块效应消除方法
Manohar et al. Audio compression using daubechie wavelet
CN1890712A (zh) 音频信号编码
James et al. A comparative study of speech compression using different transform techniques

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20031210

C20 Patent right or utility model deemed to be abandoned or is abandoned