CN105261373B - 用于带宽扩展编码的自适应栅格构造方法和装置 - Google Patents
用于带宽扩展编码的自适应栅格构造方法和装置 Download PDFInfo
- Publication number
- CN105261373B CN105261373B CN201510590039.8A CN201510590039A CN105261373B CN 105261373 B CN105261373 B CN 105261373B CN 201510590039 A CN201510590039 A CN 201510590039A CN 105261373 B CN105261373 B CN 105261373B
- Authority
- CN
- China
- Prior art keywords
- frequency
- grid
- signal
- adaptive
- resolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种用于带宽扩展编码的自适应栅格构造方法和装置。所述方法包括:S1、基于对输入单声道音频信号的瞬态性分析进行频率分辨率选择,对输入单声道音频信号进行自适应多分辨滤波,获得最佳的时频滤波信号;S2、对滤波输出的每个子带信号进行瞬态检测和定位,依据每个子带信号的瞬态性分析并考虑设定的高频带编码码率以及人耳临界频带特性,进行频率方向和时间方向的自适应栅格构造,获得当前码率下的最佳时频栅格。本发明还涉及基于该方法的带宽扩展编码和解码方法。本发明基于音频信号特性和高频信号可用码率限制进行自适应多分辨率滤波和自适应时频栅格构造,可明显提高数字音频信号的高频部分编码效率和高频部分信号的声音质量。
Description
技术领域
本发明涉及数字音频编解码技术,更具体地说,涉及一种用于带宽扩展编码的自适应栅格构造方法和装置、以及采用该方法的带宽扩展编码和解码方法。
背景技术
传统的感觉音频编码技术(DRA、AAC和MP3等)的立体声典型工作码率是96~128kbps,且在64kbps/立体声以下时编码质量存在明显的主观感觉失真。调频广播应用的典型编码码率为48kbps~64kbps/立体声,这时传统感觉音频编码技术的主观声音质量已不能满足调频广播要求。
为此,提出了数字音频信号的带宽扩展(BandWidth Extension,简称BWE)编码技术。目前的带宽扩展编码技术有很多,性能也参差不齐。已经公开且用于国际标准中的带宽扩展编码技术主要有如下两种编码算法:
第一种是ISO/IEC 14496-3MPEG-4中描述的频谱带复制(Spectral BandwidthReplication,简称SBR)编码。图1示出了SBR编码的具体原理框图。SBR是频域处理的算法,其编码原理为:每帧信号通过64子带的正交镜像滤波器组(Quadrature Mirror Filter,简称QMF)获得64个均匀的子频带,每个子频带包含32个样点,根据当前信号的瞬态特性划分一个合理的时频栅格,每个栅格计算一个能量信息并进行huffman编码。该算法同时包括音调性检查并传输个别的单个正弦信号参数信息。在解码端,首先选择归一化的低频部分,并拷贝高频作为高频的细节信息;再通过传输的能量信息修改高频的包络;最后补充单频信号;最后对恢复的高频信号进行滤波处理。这样低频和高频再通过64带的合成QMF滤波重建PCM数字音频信号。
MPEG SBR编码技术的主要缺点是相对固定的时频分割。对于48kHz采样率,由于使用64带QMF,则最大频率分辨率为375Hz(24khz/64);每帧2048样点,则最大时间分辨率约为1.3ms(64/48000)。由于音频信号极其复杂,这种算法有时不能很好地满足信号分析的精度要求。
第二种是在3GPP AMR-WB+编码方法中包含的一种简单的带宽扩展技术。它是一种时域处理的算法,主要编码原理是:将输入信号分为同样带宽的低频和高频两部分时域信号,低频(LF)部分通过LPC分析滤波处理得到低频信号的残差信号,然后经过高频LPC合成滤波来模拟高频细节信号;然后通过与实际SHF(n)的实际高频信号比较,得到高频包络(能量)的增益矢量(每子帧一个增益值),最后通过低频高频和低频连接点的增益的一致性进一步修正增益矢量,然后编码此增益矢量。因此传输给解码端的包括校正的增益矢量和高频LPC系数。AMR-WB+的高频解码过程基本是编码的反过程。
3GPP AMR-WB+的带宽扩展编码技术存在以下问题:(1)在时域实现高频编码,无法获得更高的频率分辨率,因为这种方法可以认为只有一个高频区域划分;(2)高频编码的起始频带固定,只能是Fs/4,对于48khz采样频率,高频编码的起始频点为12khz;(3)对高频中的谐波信号无法准确恢复;(4)高频信号的包络还原不够准确。
此外还有一些带宽扩展编码技术,时频变换单元采用传统的FFT,然后在频域上将高频划分为几个区域,对每个区域的谱能量编码,因此每帧只能提供一个时间分辨率多个频率分辨率。这种基于FFT的高频重建技术,频域分辨率高而时域分辨率太低,当输入快变的音频信号时,高频重建的信号不能很好地跟踪原始音频信号的变化。
数字音频编码中的强度立体声编码也可以认为是一种特殊的带宽扩展编码技术,其原理是利用人耳听觉对高频部分的细节不敏感,因此对立体声或5.1环绕声的各个声道的高频部分进行下混为一个声道,并归一化后作为所有声道的高频细节信号,但是各个声道的高频信号的包络(高频临界频带内的能量)都需要编码传输。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种用于带宽扩展编码的自适应栅格构造方法和装置以及采用该方法的带宽扩展编码和解码方法,以改善数字音频信号高频部分的编码效率和高频部分信号的声音质量。
本发明解决其技术问题所采用的技术方案是:提出一种用于带宽扩展编码的自适应栅格构造方法,包括如下步骤:
S1、基于对输入单声道音频信号的瞬态性分析进行频率分辨率选择,对输入单声道音频信号进行自适应多分辨率QMF滤波,获得最佳的时频滤波信号;
S2、对滤波输出的每个子带信号进行瞬态检测和定位,依据每个子带信号的瞬态性分析并考虑设定的高频带编码码率以及人耳临界频带特性,进行频率方向和时间方向的自适应栅格构造,获得当前码率下的最佳时频栅格。
根据本发明的一个实施例中,所述步骤S1进一步包括:
对瞬态信号,选择粗的频率分辨率和高的时间分辨率来进行滤波;
对稳态型号,选择细的频率分辨率和低的时间分辨率来进行滤波;
对其它音频信号,选择中间的频率分辨率和中间的时间分辨率来进行滤波。
根据本发明的一个实施例中,所述步骤S1进一步包括:
对于高频带编码码率较低的情况,降低所述选择的频率分辨率。
根据本发明的一个实施例中,所述步骤S2中频率方向的自适应栅格构造进一步包括:依据输入单声道音频信号中高频带部分的频率特性选择不同的栅格构造,具体为:
对一般音频信号,频率栅格随高频带部分的频率升高逐步降低频率分辨率,使得频率栅格与人耳临界频带一致;
对高频带部分中包含音调信号的情况,在考虑临界频带的前提下,与所述一般音频信号的情况相比适当增加栅格的频率分辨率;
所述步骤S2中时间方向的自适应栅格构造进一步包括:依据输入单声道音频信号中一个或多个瞬态信号发生的位置以及每个子带信号的瞬态特性,在时间方向构造成多个时域区间,每个区间代表一个栅格。
根据本发明的一个实施例中,所述步骤S2进一步包括:
基于设定的高频带编码码率,校正所述频率方向和时间方向得到的格栅构造,获得当前码率下的最佳时频栅格。
本发明为解决其技术问题还提出一种用于带宽扩展编码的自适应栅格构造装置,包括:
自适应多分辨率滤波模块,用于基于对输入单声道音频信号的瞬态性分析进行频率分辨率选择,对输入单声道音频信号进行自适应多分辨率QMF滤波,获得最佳的时频滤波信号;
时频栅格构造模块,用于对滤波输出的每个子带信号进行瞬态检测和定位,依据每个子带信号的瞬态性分析并考虑设定的高频带编码码率以及人耳临界频带特性,进行频率方向和时间方向的自适应栅格构造,获得当前码率下的最佳时频栅格。
根据本发明的一个实施例中,所述自适应多分辨率滤波模块进一步用于:
对瞬态信号,选择粗的频率分辨率和高的时间分辨率来进行滤波;
对稳态型号,选择细的频率分辨率和低的时间分辨率来进行滤波;
对其它音频信号,选择中间的频率分辨率和中间的时间分辨率来进行滤波。
根据本发明的一个实施例中,所述时频栅格构造模块进行频率方向的自适应栅格构造进一步包括:依据输入单声道音频信号中高频带部分的频率特性选择不同的栅格构造,具体为:
对一般音频信号,频率栅格随高频带部分的频率升高逐步降低频率分辨率,使得频率栅格与人耳临界频带一致;
对高频带部分中包含音调信号的情况,在考虑临界频带的前提下,与所述一般音频信号的情况相比适当增加栅格的频率分辨率;
所述时频栅格构造模块进行时间方向的自适应栅格构造进一步包括:依据输入单声道音频信号中一个或多个瞬态信号发生的位置以及每个子带信号的瞬态特性,在时间方向构造成多个时域区间,每个区间代表一个栅格。
本发明为解决其技术问题还提出一种带宽扩展编码方法,包括如下步骤:
S1、基于对输入单声道音频信号的瞬态性分析进行频率分辨率选择,对输入单声道音频信号进行自适应多分辨率QMF滤波,获得最佳的时频滤波信号;
S2、对滤波输出的每个子带信号进行瞬态检测和定位,依据每个子带信号的瞬态性分析并考虑设定的高频带编码码率以及人耳临界频带特性,进行频率方向和时间方向的自适应栅格构造,获得当前码率下的最佳时频栅格;
S3、以所述时频栅格为单位进行高频参数编码;
S4、将编码参数复用,输出高频带码流,所述编码参数包括多分辨率滤波选择参数和时频栅格参数。
本发明为解决其技术问题还提出一种带宽扩展解码方法,包括如下步骤:
S1、对输入的根据前述带宽扩展编码方法得到的高频带码流进行解复用,获得编码参数,所述编码参数包括多分辨率滤波选择参数和时频栅格参数;
S2、基于时频栅格进行高频参数解码,恢复高频子带信号;
S3、依据多分辨率滤波选择参数,对所述高频子带信号和解码得到的低频子带信号进行与编码端相对应的多分辨率合成,输出全频带的单声道音频信号。
本发明用于带宽扩展编码的自适应栅格构造方法和装置,基于音频信号特性和高频信号可用码率限制进行自适应多分辨率滤波和自适应时频栅格构造(Adaptive multi-resolution Filtering&Adaptive time-frequency Griding,简称AFAG),获得最佳时频栅格,利于带宽扩展编码后续以时频栅格为单位的高频参数编码等模块的处理,明显提高数字音频信号的高频部分编码效率和高频部分信号的声音质量。基于本发明带宽扩展编码和解码方法所实现的数字音频编解码器可用于卫星HDTV的伴音处理及高质量音频广播等低码率音频编码领域。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是现有的SBR编码方法的原理框图;
图2是本发明一个实施例的用于带宽扩展编码的自适应栅格构造方法的流程图;
图3是本发明一个实施例的用于带宽扩展编码的自适应栅格构造装置的逻辑结构框图;
图4是本发明一个实施例的带宽扩展编码方法的原理框图;
图5是本发明一个实施例的带宽扩展解码方法的原理框图;
图6是基于AFAG的SBR编码应用实例的原理框图;
图7是基于AFAG的SBR解码应用实例的原理框图;
图8是128子带QMF时频分辨率的示意图;
图9是64子带QMF时频分辨率的示意图;
图10是32子带QMF时频分辨率的示意图;
图11是16子带QMF时频分辨率的示意图;
图12是64子带QMF的频率栅格一般构造的示意图;
图13是子带16-23含有高频音调分量的64子带QMF的频率栅格构造的示意图;
图14是64子带QMF的时间栅格一般构造的示意图;
图15是在码率约束下的64子带QMF的最佳时频栅格构造的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图2示出了根据本发明一个实施例的用于带宽扩展编码的自适应栅格构造方法100的流程图。如图1所示,该方法100包括如下步骤:
步骤S110,基于对输入单声道音频信号的瞬态性分析进行频率分辨率选择,对输入单声道音频信号进行自适应多分辨率QMF滤波,获得最佳的时频滤波信号。
该步骤中,首先对输入单声道音频信号的瞬态性进行实时分析,然后根据分析到的音频信号的稳态/瞬态特性进行频率分辨率选择,以选择一个最佳多分辨率滤波器组(QMF)来对该音频信号进行滤波,输出最佳的时频滤波信号。一般来说,基于输入单声道音频信号的瞬态性进行自适应多分辨率滤波的选择策略如下:
对瞬态信号,可选择粗的频率分辨率和高的时间分辨率来进行滤波;
对稳态型号,可选择细的频率分辨率和低的时间分辨率来进行滤波;
对其它音频信号,可选择中间的频率分辨率和中间的时间分辨率来进行滤波。
此外,考虑高频信号带宽扩展编码码率受限的影响,如果音频信号编码的总码率比较低,从而高频带信号编码的码率也较低(或者编码高频带部分的可用比特较少),则要适当降低高频带信号滤波的频率分辨率,即在仅考虑输入音频信号瞬态特性而确定的滤波分辨率情况下,可进一步适当降低所选择的频率分辨率。
步骤S120,对滤波输出的每个子带信号进行瞬态检测和定位,依据每个子带信号的瞬态性分析并考虑设定的高频带编码码率以及人耳临界频带特性,进行频率方向和时间方向的自适应栅格构造,获得当前码率下的最佳时频栅格。
时频栅格的构造依赖于一帧中瞬态信号的具体位置,甚至依赖于每个滤波子带信号的瞬态性分析,同时也需要考虑高频带部分所分配的可用码率以及人耳临界频带特性。因此自适应时频栅格构造的基本策略主要由两部分组成,一是时间方向的栅格构造,即同一频率子带内的子内样点组合;一是频率方向的栅格构造,即不同频率子带间组合。
频率方向的自适应栅格构造策略主要依据输入单声道音频信号中高频带部分的频率特性来选择不同的栅格构造,具体为:对一般音频信号,频率栅格随高频带部分的频率升高逐步降低频率分辨率,使得频率栅格与人耳临界频带一致;对高频带部分中包含音调信号的情况,在考虑临界频带的前提下,与前述一般音频信号的情况相比应适当增加栅格的频率分辨率。时间方向的自适应栅格构造主要依据输入单声道音频信号中一个或多个瞬态信号发生的位置以及每个子带信号的瞬态特性,在时间方向上构造成多个时域区间,每个区间代表一个栅格。
此外,上述基于当前高频带信号特性所计算得到的时频栅格构造,还要受到高频信号带宽扩展编码码率的限制,因此还需要基于高频信号带宽扩展编码码率来对频率方向和时间方向得到的格栅构造进行校正,从而获得当前码率下的最佳时频栅格。
本发明以上所介绍的用于带宽扩展编码的自适应栅格构造方法,简称为AFAG算法,基于自适应多分辨率滤波和自适应时频栅格构造获得最佳时频栅格,以利于带宽扩展编码后续的高频参数编码处理,能明显提高数字音频信号的高频部分编码效率和高频部分信号的声音质量。
基于以上所介绍的用于带宽扩展编码的自适应栅格构造方法,本发明还提出一种用于带宽扩展编码的自适应栅格构造装置。图3示出了根据本发明一个实施例的用于带宽扩展编码的自适应栅格构造装置200的逻辑结构框图。如图3所示,该用于带宽扩展编码的自适应栅格构造装置200包括自适应多分辨率滤波模块210和时频栅格构造模块220。其中,自适应多分辨率滤波模块210用于基于对输入单声道音频信号的瞬态性分析进行频率分辨率选择,对输入单声道音频信号进行自适应多分辨率QMF滤波,获得最佳的时频滤波信号。时频栅格构造模块220用于对滤波输出的每个子带信号进行瞬态检测和定位,依据每个子带信号的瞬态性分析并考虑设定的高频带编码码率以及人耳临界频带特性,进行频率方向和时间方向的自适应栅格构造,获得当前码率下的最佳时频栅格。
具体如图3所示,自适应多分辨率滤波模块210进一步包括音频信号分析单元211和多分辨率滤波器组212。其中,音频信号分析单元211首先对输入单声道音频信号的瞬态性进行实时分析,然后根据分析到的音频信号的稳态/瞬态特性进行频率分辨率选择,以选择多分辨率滤波器组212中的一个最佳的滤波器组(例如正交镜像滤波器组QMF)来对该音频信号进行滤波。多分辨率滤波器组212基于音频信号分析单元211的选择执行自适应多分辨率QMF滤波,输出最佳的时频滤波信号。一般来说,音频信号分析单元211的频率分辨率选择策略如下:
对瞬态信号,可选择多分辨率滤波器组212中具有粗的频率分辨率和高的时间分辨率的一个滤波器组来进行滤波;
对稳态型号,可选择多分辨率滤波器组212中具有细的频率分辨率和低的时间分辨率的一个滤波器组来进行滤波;
对其它音频信号,可选择多分辨率滤波器组212中具有中间的频率分辨率和中间的时间分辨率的一个滤波器组来进行滤波。
此外,考虑高频信号带宽扩展编码码率受限的影响,在上述仅考虑输入音频信号瞬态特性而确定的滤波分辨率情况下,可进一步适当降低所选择的频率分辨率。
具体如图3所示,时频栅格构造模块220进一步包括瞬态检测单元221和时频栅格划分单元222。其中,瞬态检测单元221对自适应多分辨率滤波模块210输出的每个子带信号进行瞬态检测和定位。时频栅格划分单元222依据瞬态检测单元210分析到的每个滤波子带信号的瞬态性以及高频带部分所分配的可用码率和人耳临界频带特性,进行频率方向和时间方向的自适应栅格构造,输出当前码率下的最佳时频栅格。时频栅格划分单元222的自适应时频栅格构造策略,可参见前述方法100中的相关描述,在此便不再赘述。
图4是基于本发明前述AFAG算法的一般性带宽扩展编码方法300的原理框图。如图4所示,该基于AFAG的带宽扩展编码方法300包括如下步骤:
步骤310中,基于对输入单声道音频信号的瞬态性分析进行频率分辨率选择,对输入单声道音频信号进行自适应多分辨率QMF滤波,获得最佳的时频滤波信号。
步骤320中,对滤波输出的每个子带信号进行瞬态检测和定位,依据每个子带信号的瞬态性分析并考虑设定的高频带编码码率以及人耳临界频带特性,进行频率方向和时间方向的自适应栅格构造,获得当前码率下的最佳时频栅格。
步骤330中,以时频栅格为单位进行高频参数编码。高频参数编码可以采用现有技术中的各种合适的编码方法来实现,其并非本发明的主要关注点,故在此不再详述。
步骤340中,将时频栅格参数、多分辨率滤波选择参数等编码参数复用,输出高频带码流。
对于实时输入的单声道数字音频信号,采用如上所述的基于AFAG的带宽扩展编码方法编码其高频信号部分,在设定的编码码率限制下实现了最佳时频格栅构造,可改善数字音频信号高频部分的编码效率或高频部分信号的声音质量。
图5是基于本发明前述AFAG算法的一般性带宽扩展解码方法400的原理框图。该带宽扩展解码方法400用于对图4所示的带宽扩展编码方法300输出的编码码流进行解码,以获得单声道音频信号。如图5所示,该基于AFAG的带宽扩展解码方法400包括如下步骤:
步骤410中,对输入的高频带码流进行解复用,获得多分辨率滤波选择参数、时频栅格参数等编码参数。
步骤420中,基于时频栅格进行高频参数解码,恢复高频子带信号。高频参数解码可以采用与前述高频参数编码方法相对应的合适的解码方法来实现,其并非本发明的主要关注点,故在此不再详述。
步骤430中,解码恢复的低频信号通过QMF分析,获得低频子带信号。此亦为现有技术,故在此不再赘述。
步骤440中,依据多分辨率滤波选择参数,对步骤420获得的高频子带信号和步骤430得到的低频子带信号进行与编码端(参见图4的带宽扩展编码方法300)相对应的多分辨率合成,输出全频带的单声道音频信号。
图6示出了基于AFAG的SBR编码应用实例,其基本过程是:输入全频带音频信号的高频部分通过AFAG进行自适应时频栅格构造,然后采用SBR的高频参数编码方法进行编码,形成BWE码流。具体如图6所示,该AFAG算法中的自适应多分辨率滤波通过从16子带QMF、32子带QMF、64子带QMF和128子带QMF四个具有不同频带带宽的QMF滤波器组中选择最匹配的一个QMF滤波器组来实现,每个QMF滤波器组提供了一种固定的频率分辨率和时间分辨率,分别如图8、9、10和11所示,其中每个灰色小块501表示最小的时频单元。自适应多分辨率滤波选择的策略是:
对瞬态信号,可选择16子带QMF滤波。16子带QMF具有最粗的频率分辨率,可将音频信号构造为16个均匀的频带,每个频带的带宽为Fs/32(Fs为音频采样频率),而相应的时间分辨率最高,为16/Fs。由此16子带QMF滤波为每个子带信号提供了最大时间分辨率,利于后续的合理时频栅格构造,能够改善瞬态信号BWE参数编码的高频信号声音质量。
对稳态信号,可选择128子带QMF滤波。128子带QMF具有最细的频率分辨率,每个频带的带宽为Fs/256,而相应的时间分辨率最低,为128/Fs。同时结合每个子带的信号特性为音调类型等稳态信号提供最大频率分辨率,来改善稳态信号高频部分的编码效率。
对其他非典型类的音频信号,可根据信号特性而选择中间两种QMF滤波(32子带或64子带)之一,即可得到比16子带QMF更高的频率分辨率,比128子带QMF更高的时间分辨率,便于后续时频栅格构造,而最终获得更加均衡的高频编码效果。
受高频信号BWE编码码率的影响:如果音频信号编码的总码率比较低,从而高频信号编码的码率也较低(或者编码高频部分的可用比特较少),则要适当降低高频信号的频率分辨率滤波,即适当降低仅依据输入音频信号特性而确定的QMF滤波频率分辨率。
该AFAG算法通过对一帧信号稳态/瞬态特性分析,自适应地选择一个最佳多分辨率QMF,而时频栅格的构造则依赖于一帧中瞬态信号的具体位置,甚至依赖于QMF子带信号的瞬态性分析,同时也需要考虑高频子带部分所分配的可用码率以及人耳临界频带特性。因此自适应时频栅格构造的基本策略主要由两部分组成,一是时间方向的栅格构造(QMF子带内样点组合);一是频率方向的栅格构造(QMF子带间组合)。基于AFAG的SBR编码应用实例中两个方向的组合如下:
一旦选定某一多分辨率滤波QMF,则输出信号具有固定的频率分辨率和时间分辨率。因此,自适应频率方向的栅格构造依据音频信号中BWE所编码的高频部分频率特性,选择不同的栅格构造。对一般音频信号,在频率方向上的基本栅格构造方法为:考虑到人耳听觉的临界频带特性,随着频率增加,人耳的频率分辨率下降,因此频率栅格随频率升高应逐步降低频率分辨率,即几个QMF子带合并为一个频率栅格单位,具体合并应结合QMF的频率分辨率和人耳临界频带宽度,使得频率栅格与人耳临界频带大体一致,如图12所示。对BWE编码的高频信号中包含丰富的音调信号,则应在考虑临界频带的前提下,与一般音频信号相比应适当增加栅格的频率分辨率,即更少的QMF子带组成一个频率方向的栅格,例如1/3临界带宽,如图13给出在64子带QMF的子带16~23内有音调分量时的栅格构造。
自适应时间方向的栅格构造主要依赖于一帧信号中一个或多个瞬态信号发生的位置,同时考虑每个子带信号的瞬态特性,而在时间方向上构造成多个时域区间(如8个不等宽度的区间),每个区间代表一个栅格。一般情况下,频率越高的QMF子带的信号时间分辨率要求越低,因此可适当减少栅格数,如图14所示。
自适应时频栅格构造的栅格信息,描述了BWE编码的高频子带的时频栅格构造信息,需要编码到BWE码流中并传到解码端,用于解码基于栅格的编码参数,因此可以认为栅格信息是BWE高频信号编码的边信息,不应占用过多的比特(或码率)。根据低码率音频编码的总码率,以及低频信号和高频信号复杂度,确定高频信号BWE的编码码率(或分配的比特数)。这样除了考虑基于当前高频信号特性所计算的最佳时频栅格构造,也要受到码率的限制,综合校正获得当前码率下的最佳时频栅格,如图15所示。基本校正方法包括:
(1)降低栅格的频率分辨率:即在频率方向上,每个栅格的宽度增加,例如原来为1/3临界频带宽改为1/2临界频带宽,或者QMF高频子带中的部分低频子带应用1/3临界频带宽而剩余部分应用1/2临界频带宽。
(2)优化不同QMF高频子带的时域方向栅格构造:如果基于每个子带信号的瞬态特性进行栅格构造,可能不同QMF子带具有不同的栅格数且每个栅格的起始和终止样点不同,传输的信息较多,因此可以从整体上调整各QMF子带的栅格构造区间,共用或减少栅格边界(区间)描述信息。例如,所有BWE高频子带时频栅格具有一样的栅格构造,边信息最少;又例如,所有BWE高频子带有n(例如:n<4)个时频栅格,越高BWE子带具有更少的栅格数,栅格数为前一个子带的1/2,且每个栅格与前一个子带的两个栅格对齐。
(3)降低栅格的时间分辨率:即在QMF子带信号的时域上,增加栅格的宽度(即每个栅格包含更多的子带样点),例如:原时间方向构造16个均匀区间,可两两合并为8个均匀区间,或部分合并为12个区间(前子带信号瞬态强区域栅格不变,前后部分适当合并等)。
图6所示的基于AFAG的SBR编码应用实例,通过本发明的AFAG算法获得最佳时频栅格后,基于该时频栅格进行SBR高频参数编码,能够明显提高数字音频信号的高频部分编码效率和高频部分信号的声音质量。SBR高频参数编码具体包括音调性检测、音调参数编码、高频细节参数编码、高频包络编码,此属现有技术,在此便不再详述。最后进行BWE参数复用,输出高频带码流。
图7示出基于AFAG的SBR解码应用实例,其解码过程为:对BWE码流解复用,获得高频参数;通用感觉解码器解码获得的音频信号的低频部分通过QMF滤波获得低频子带信号;低频子带信号和高频参数,通过SBR高频参数解码获得高频子带信号;高频子带信号和低频子带信号通过与编码端相对应的自适应多分辨率合成滤波器进行多分辨率合成,输出全频带的单声道音频信号。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种用于带宽扩展编码的自适应栅格构造方法,其特征在于,包括如下步骤:
S1、基于对输入单声道音频信号的瞬态性分析进行频率分辨率选择,对输入单声道音频信号进行自适应多分辨率QMF滤波,获得最佳的时频滤波信号;
S2、对滤波输出的每个子带信号进行瞬态检测和定位,依据每个子带信号的瞬态性分析并考虑设定的高频带编码码率以及人耳临界频带特性,进行频率方向和时间方向的自适应栅格构造,获得当前码率下的最佳时频栅格;
其中,所述步骤S1进一步包括:
对瞬态信号,选择粗的频率分辨率和高的时间分辨率来进行滤波;
对稳态型号,选择细的频率分辨率和低的时间分辨率来进行滤波;
对其它音频信号,选择中间的频率分辨率和中间的时间分辨率来进行滤波;
所述步骤S2中频率方向的自适应栅格构造进一步包括:依据输入单声道音频信号中高频带部分的频率特性选择不同的栅格构造,具体为:
对一般音频信号,频率栅格随高频带部分的频率升高逐步降低频率分辨率,使得频率栅格与人耳临界频带一致;
对高频带部分中包含音调信号的情况,在考虑临界频带的前提下,与所述一般音频信号的情况相比适当增加栅格的频率分辨率;
所述步骤S2中时间方向的自适应栅格构造进一步包括:依据输入单声道音频信号中一个或多个瞬态信号发生的位置以及每个子带信号的瞬态特性,在时间方向构造成多个时域区间,每个区间代表一个栅格。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1进一步包括:
对于高频带编码码率较低的情况,降低所述选择的频率分辨率。
3.根据权利要求1所述的方法,其特征在于,所述步骤S2进一步包括:
基于设定的高频带编码码率,校正所述频率方向和时间方向得到的格栅构造,获得当前码率下的最佳时频栅格。
4.一种用于带宽扩展编码的自适应栅格构造装置,其特征在于,包括:
自适应多分辨率滤波模块,用于基于对输入单声道音频信号的瞬态性分析进行频率分辨率选择,对输入单声道音频信号进行自适应多分辨率QMF滤波,获得最佳的时频滤波信号;
时频栅格构造模块,用于对滤波输出的每个子带信号进行瞬态检测和定位,依据每个子带信号的瞬态性分析并考虑设定的高频带编码码率以及人耳临界频带特性,进行频率方向和时间方向的自适应栅格构造,获得当前码率下的最佳时频栅格;
其中,所述自适应多分辨率滤波模块进一步用于:
对瞬态信号,选择粗的频率分辨率和高的时间分辨率来进行滤波;
对稳态型号,选择细的频率分辨率和低的时间分辨率来进行滤波;
对其它音频信号,选择中间的频率分辨率和中间的时间分辨率来进行滤波;
所述时频栅格构造模块进行频率方向的自适应栅格构造进一步包括:依据输入单声道音频信号中高频带部分的频率特性选择不同的栅格构造,具体为:
对一般音频信号,频率栅格随高频带部分的频率升高逐步降低频率分辨率,使得频率栅格与人耳临界频带一致;
对高频带部分中包含音调信号的情况,在考虑临界频带的前提下,与所述一般音频信号的情况相比适当增加栅格的频率分辨率;
所述时频栅格构造模块进行时间方向的自适应栅格构造进一步包括:依据输入单声道音频信号中一个或多个瞬态信号发生的位置以及每个子带信号的瞬态特性,在时间方向构造成多个时域区间,每个区间代表一个栅格。
5.一种带宽扩展编码方法,其特征在于,包括如下步骤:
S1、基于对输入单声道音频信号的瞬态性分析进行频率分辨率选择,对输入单声道音频信号进行自适应多分辨率QMF滤波,获得最佳的时频滤波信号;
S2、对滤波输出的每个子带信号进行瞬态检测和定位,依据每个子带信号的瞬态性分析并考虑设定的高频带编码码率以及人耳临界频带特性,进行频率方向和时间方向的自适应栅格构造,获得当前码率下的最佳时频栅格;
S3、以所述时频栅格为单位进行高频参数编码;
S4、将编码参数复用,输出高频带码流,所述编码参数包括多分辨率滤波选择参数和时频栅格参数;
其中,所述步骤S1进一步包括:
对瞬态信号,选择粗的频率分辨率和高的时间分辨率来进行滤波;
对稳态型号,选择细的频率分辨率和低的时间分辨率来进行滤波;
对其它音频信号,选择中间的频率分辨率和中间的时间分辨率来进行滤波;
所述步骤S2中频率方向的自适应栅格构造进一步包括:依据输入单声道音频信号中高频带部分的频率特性选择不同的栅格构造,具体为:
对一般音频信号,频率栅格随高频带部分的频率升高逐步降低频率分辨率,使得频率栅格与人耳临界频带一致;
对高频带部分中包含音调信号的情况,在考虑临界频带的前提下,与所述一般音频信号的情况相比适当增加栅格的频率分辨率;
所述步骤S2中时间方向的自适应栅格构造进一步包括:依据输入单声道音频信号中一个或多个瞬态信号发生的位置以及每个子带信号的瞬态特性,在时间方向构造成多个时域区间,每个区间代表一个栅格。
6.一种带宽扩展解码方法,其特征在于,包括如下步骤:
S1、对输入的根据权利要求5所述的带宽扩展编码方法得到的高频带码流进行解复用,获得编码参数,所述编码参数包括多分辨率滤波选择参数和时频栅格参数;
S2、基于时频栅格进行高频参数解码,恢复高频子带信号;
S3、依据多分辨率滤波选择参数,对所述高频子带信号和解码得到的低频子带信号进行与编码端相对应的多分辨率合成,输出全频带的单声道音频信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510590039.8A CN105261373B (zh) | 2015-09-16 | 2015-09-16 | 用于带宽扩展编码的自适应栅格构造方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510590039.8A CN105261373B (zh) | 2015-09-16 | 2015-09-16 | 用于带宽扩展编码的自适应栅格构造方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105261373A CN105261373A (zh) | 2016-01-20 |
CN105261373B true CN105261373B (zh) | 2019-01-08 |
Family
ID=55101029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510590039.8A Active CN105261373B (zh) | 2015-09-16 | 2015-09-16 | 用于带宽扩展编码的自适应栅格构造方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105261373B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108398691B (zh) * | 2018-05-25 | 2023-10-17 | 中国工程物理研究院流体物理研究所 | 一种差频信号产生装置及方法 |
CN111210831B (zh) * | 2018-11-22 | 2024-06-04 | 广州广晟数码技术有限公司 | 基于频谱拉伸的带宽扩展音频编解码方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5886276A (en) * | 1997-01-16 | 1999-03-23 | The Board Of Trustees Of The Leland Stanford Junior University | System and method for multiresolution scalable audio signal encoding |
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
CN1460992A (zh) * | 2003-07-01 | 2003-12-10 | 北京阜国数字技术有限公司 | 用于感知音频编/解码的低延时、自适应的多分辨率滤波器组 |
CN101046963B (zh) * | 2004-09-17 | 2011-03-23 | 广州广晟数码技术有限公司 | 解码经编码的音频数据流的方法 |
CA2717196C (en) * | 2008-03-04 | 2016-08-16 | Markus Schnell | Mixing of input data streams and generation of an output data stream therefrom |
WO2014115225A1 (ja) * | 2013-01-22 | 2014-07-31 | パナソニック株式会社 | 帯域幅拡張パラメータ生成装置、符号化装置、復号装置、帯域幅拡張パラメータ生成方法、符号化方法、および、復号方法 |
-
2015
- 2015-09-16 CN CN201510590039.8A patent/CN105261373B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN105261373A (zh) | 2016-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105280190B (zh) | 带宽扩展编码和解码方法以及装置 | |
CN1981326B (zh) | 音频信号解码装置和方法及音频信号编码装置和方法 | |
US9111532B2 (en) | Methods and systems for perceptual spectral decoding | |
EP2571024B1 (en) | Adaptive transition frequency between noise fill and bandwidth extension | |
TWI441162B (zh) | 音訊信號合成器、音訊信號編碼器、用於產生合成音訊信號及資料流的方法、電腦可讀取媒體及電腦程式 | |
CN101933086B (zh) | 处理音频信号的方法和设备 | |
CN103069484A (zh) | 时/频二维后处理 | |
EP1199812A1 (en) | Perceptually improved encoding of acoustic signals | |
CN101281748B (zh) | 用编码索引实现的空缺子带填充方法及编码索引生成方法 | |
CN114550732A (zh) | 一种高频音频信号的编解码方法和相关装置 | |
CN101197576A (zh) | 一种音频信号编码、解码方法 | |
DE102007029381A1 (de) | Digitalsignal-Verarbeitungsvorrichtung, Digitalsignal-Verarbeitungsverfahren, Digitalsignal-Verarbeitungsprogramm, Digitalsignal-Wiedergabevorrichtung und Digitalsignal-Wiedergabeverfahren | |
CN105261373B (zh) | 用于带宽扩展编码的自适应栅格构造方法和装置 | |
CN103295577B (zh) | 用于音频信号编码的分析窗切换方法和装置 | |
CN105280189B (zh) | 带宽扩展编码和解码中高频生成的方法和装置 | |
Shin et al. | Designing a unified speech/audio codec by adopting a single channel harmonic source separation module | |
Annadana et al. | New Results in Low Bit Rate Speech Coding and Bandwidth Extension | |
CN111210831B (zh) | 基于频谱拉伸的带宽扩展音频编解码方法及装置 | |
KR20230035373A (ko) | 오디오 인코딩 방법, 오디오 디코딩 방법, 관련 장치, 및 컴퓨터 판독가능 저장 매체 | |
Bhatt | Implementation and overall performance evaluation of CELP based GSM AMR NB coder over ABE | |
BR112021007516A2 (pt) | codificador de áudio, processador de áudio e método para processar um sinal de áudio | |
Annadana et al. | A new low bit rate speech coding scheme for mixed content | |
Gunawan et al. | Fixed bit rate perceptual wavelet packet audio coder | |
Hang et al. | A Novel Low Bit Rate Audio Bandwidth Extension Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220527 Address after: 510530 No. 10, Nanxiang 2nd Road, Science City, Luogang District, Guangzhou, Guangdong Patentee after: Guangdong Guangsheng research and Development Institute Co.,Ltd. Address before: 518057 6th floor, software building, No. 9, Gaoxin Zhongyi Road, high tech Zone, Nanshan District, Shenzhen, Guangdong Province Patentee before: SHENZHEN RISING SOURCE TECHNOLOGY Co.,Ltd. |