CN104616657A - 高级音频编码系统 - Google Patents
高级音频编码系统 Download PDFInfo
- Publication number
- CN104616657A CN104616657A CN201510016797.9A CN201510016797A CN104616657A CN 104616657 A CN104616657 A CN 104616657A CN 201510016797 A CN201510016797 A CN 201510016797A CN 104616657 A CN104616657 A CN 104616657A
- Authority
- CN
- China
- Prior art keywords
- module
- coding system
- audio coding
- advanced audio
- bit number
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013139 quantization Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims description 18
- 230000000873 masking effect Effects 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 13
- 238000001228 spectrum Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000006872 improvement Effects 0.000 claims description 4
- 238000013178 mathematical model Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 3
- 238000011002 quantification Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002715 modification method Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供了一种高级音频编码系统,由心理声学模型模块、滤波器组、联合立体声编码模块、量化编码模块组成,心理声学模型模块、滤波器组、联合立体声编码模块、量化编码模块依次连接。本发明减少迭代次数,提高有效性,加快收敛速度。
Description
技术领域
本发明涉及一种编码系统,具体地,涉及一种高级音频编码系统。
背景技术
AAC(Advanced Audio Coding)的中文称为“高级音频编码”,是目前最先进的感知音频编码技术。它出现于1997年,由Fraunhofer IIS、AT&T、杜比实验室、Sony等公司共同开发而生,它是基于MPEG-2编码技术,目的是取代MP3格式。2000年,MPEG-4标准出现后,AAC重新集成了其特性,加入了SBR技术和PS技术,形成了目前的MPEG-4 AAC。MPEG-4 AAC具有信号压缩比高、量化编解码过程模块化、重建音质完美的特点。MPEG-4 AAC作为一种目前最先进感知编码技术标准,广泛应用于各个领域,具有很大的市场价值。但是,AAC标准算法无法满足当今感知音频编码技术的实时性要求,是其算法复杂度很高,需要消耗大量运算时间和系统资源,存在编码延时导致的。因此,为了实现高实时性能、低复杂度的音频编码,那么对AAC标准的相关算法和编码结构进行优化设计是十分必要的。同时,AAC音频感知编码具有共同的核心灵魂,即量化编解码、心理声学模型及滤波器组(又称频域变换)三大关键技术,量化编解码模块占了主要部分。
量化编码模块在实现高压缩比中起着主要作用。目前的技术环境中,AAC标准大多采用的是双循环迭代量化算法,但是在具体实现过程中普遍存在收敛速度慢,迭代次数多,运算量大等缺点,无法满足实时编码的需要。目前AAC标准算法提供的量化过程是通过采用双循环迭代结构来实现的:内迭代循环调整全局缩放因子,使之达到规定比特编码要求;外迭代循环调整子带缩放因子,计算子带量化噪声。当子带量化噪声超过掩蔽阈值时,增加子带的缩放因子将其量化噪声在掩蔽阈值之下,从这种实现方式可以看出双循环迭代结构存在以下三个主要缺点:迭代次数多,运算量大,收敛速度慢。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种高级音频编码系统,其减少迭代次数,提高有效性,加快收敛速度。
根据本发明的一个方面,提供一种高级音频编码系统,其特征在于,由心理声学模型模块、滤波器组、联合立体声编码模块、量化编码模块组成,心理声学模型模块、滤波器组、联合立体声编码模块、量化编码模块依次连接。
优选地,所述心理声学模型模块主要是利用心理声学原理对信号频谱进行分析计算出信掩比、掩蔽阈值供其它模块使用。
优选地,所述滤波器组主要是使用改进的离散余弦变换,把时间域上的输入音频数据变换成频域信号。
优选地,所述联合立体声编码模块是针对多声道开发的一种复杂的空间编码技术,去掉空间的冗余信息。
优选地,所述量化编码模块主要包括量化和编码两个部分,是AAC音频编码系统非常重要的功能模块。
优选地,所述量化编码模块包括:
比特计算单元,用于计算可分配的比特数;
SDI初始化单元,采用SDI算法对量化因子进行初始化,SDI算法主要是通过构建信号的初始值与信号某些特性关系的数学模型来实现量化因子的初始化;
感知熵预检测单元,用于提高码表查询、比特数耗费计算、编码的效率,是在进行码表查询、比特数耗费计算、编码之前所进行的预处理工作;
编码单元,通过码表查询,并采用哈夫曼编码的方法进行编码,同时计算出实际的比特耗费,判断实际比特耗费是否小于可分配的比特数,否则调整最小量化阶的单步步长,重新进行哈夫曼编码,直到满足能使实际比特耗费小于可分配的比特数。
与现有技术相比,本发明具有如下的有益效果:本发明能够较好的提高量化模块初始化过程的有效性,减少步长调整次数。引入感知嫡预检测在一定程度上减少不必要的运算开销。本发明省略了原双循环结构中的噪声控制循环部分,因此,不需要再进行复杂的反量化处理从而大大增加了AAC编码的实时性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明高级音频编码系统结构框图。
图2为本发明中量化编码模块的结构框图。
图3为本发明高级音频编码系统的量化编码模块的工作流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1所示,本发明高级音频编码系统主要由心理声学模型模块201、滤波器组202、联合立体声编码模块203、量化编码模块204组成,心理声学模型模块201、滤波器组202、联合立体声编码模块203、量化编码模块204依次连接。
心理声学模型模块201主要是利用心理声学原理对信号频谱进行分析计算出信掩比、掩蔽阈值等一系列心理声学参数供其它模块使用,是编码器的核心模块。心理声学模型应用到的主要心理声学原理有:临界子带频率分析、绝对掩蔽阈值、频域掩蔽、时域掩蔽和感知熵等。心理声学模型模块把整个信号频带按人耳的听觉感知特性划分成临界频带,然后计算出各临界子带的信掩比、掩蔽阈值等心理声学参数,信掩比用于对每个比例因子带进行比特分配,掩蔽阈值用于对量化噪声进行控制。
滤波器组202主要是使用改进的离散余弦变换(MDCT),把时间域上的输入音频数据变换成频域信号。
联合立体声编码模块203是针对多声道开发的一种复杂的空间编码技术,其目的是为了去掉空间的冗余信息。
量化编码模块204主要包括量化和编码两个部分,是AAC音频编码系统非常重要的功能模块。量化处理的根本目的就是为了在允许的比特范围内尽可能的压缩数据并保证量化误差的能量低于掩蔽阈值。量化模块的目标是将频谱数据量化,使量化噪声满足心理声学模型的要求。量化模块首先对得到的音频信号频谱划分量化比例因子带,然后针对每个比例因子带根据计算得到的掩蔽阈值进行非均匀量化。在具体的量化过程中不断地对全局量化因子和各比例因子带的局部量化因子进行调整以实现在给定的编码比特率下尽可能的将量化噪声控制在掩蔽阈值之下;最后对量化后的信号和比例因子再进行哈夫曼编码,实现高压缩比和高音质的音频编码。
下面对所述系统的工作过程及其工作原理进行详细的描述:
心理声学模型模块201根据心理声学模型计算输入音频信号容许的失真,把整个信号频带按人耳的听觉特性划分出临界频带,然后计算出各临界子带的信掩比,并计算出各临界子带的最小掩蔽阈值。信掩比用于比特分配;绝对掩蔽阈值用于控制量化噪声。滤波器组202结合由心理声学模型计算出来的感知熵,将输入的音频采样数据通过使用改进的离散余弦变换MDCT实现音频从时域到频域的转换。将时域的信号状态转化为频域的信号数据。接着,联合立体声编码模块203通过采用强度立体声和M/S立体声编码方式来实现立体声编码同时去除信号数据的冗余信息。然后,在量化编码模块204中按心理声学模块输出的掩蔽阈值把比特数分配给输入频谱,通过一种将SDI算法和感知熵预检测结合起来的单循环量化结构使量化所产生的量化噪声低于掩蔽域值,降低比特率,并使码率满足设定的要求,实现输入信号的压缩。最后使用哈弗曼编码打包码流得到需要的AAC数据;
本发明主要从算法和结构两个方面对量化编码模块204进行改进,提出一种将SDI算法和感知熵预检测结合起来的单循环量化结构,使高级音频编码系统的量化编码模块中量化过程的更简单、更实用,从而提高了系统的实时性。
参照图2,示出了本发明高级音频编码系统的量化编码模块的结构框图,量化编码模块包括:
比特计算单元301,用于计算可分配的比特数;
SDI初始化单元302,采用SDI算法对量化因子进行初始化,SDI算法主要是通过构建信号的初始值与信号某些特性关系的数学模型来实现量化因子的初始化,如下式(1):
式(1)中qinit表示的是量化因子初始值,SMR表示的是信号掩蔽比,N为比例因子带的谱线数目,χi为频谱值;
感知熵预检测单元303,用于提高码表查询、比特数耗费计算、编码的效率,是在进行码表查询、比特数耗费计算、编码之前所进行的预处理工作。采用的是感知熵预检测方法。这里的感知熵是用一种感知墒修正方法来进行计算的;这个修正方法的公式如下式(2):
式(2)中,qj为量化因子,ΒWj是第j个缩放因子带的带宽,Ai的平方和为子带能量。通过利用计算得到的感知熵对编码比特数进行预检测,从而避免很多不必要的运算开销。
编码单元304,通过码表查询,并采用哈夫曼编码的方法进行编码,同时计算出实际的比特耗费,判断实际比特耗费是否小于可分配的比特数,否则调整最小量化阶的单步步长,重新进行哈夫曼编码,直到满足能使实际比特耗费小于可分配的比特数。
下面对这种基于SDI算法和感知熵预检测的单循环量化结构的具体工作过程及工作原理进行详细的描述:
比特数计算单元301根据之前模块处理产生的心理声学参数及频谱数据结合心理声学模型计算出可分配的比特数;SDI初始化单元302采用SDI算法对量化因子进行自适应的初始化;同时,放大可分配的比特数,并保存原来的可分配的比特数;感知熵预检测单元303采用一种感知熵修正计算方法计算出感知熵,同时,对比特数耗费进行预检测,如果预检测的结果大于可分配比特数则选择当前最小的量化阶进行单步长调整然后重新计算感知熵,直到预检测结果小于可分配比特数。最后编码单元304进行精确的码表查询,哈夫曼编码等各项更加精细的操作,同时计算出实际的比特耗费;如果实际比特耗费大于可分配的比特数则进行步长调整,直到得到编码后的码流使实际比特耗费小于可分配的比特数。
如图3所示,虽然感知熵的计算和判断构成了一个新的循环结构,但是与传统的双迭代量化循环结构相比,从整体的编码流程来看此量化结构实际上还是一个单循环的算法结构。此量化结构能够较好的提高量化模块初始化过程的有效性,减少步长调整次数。不需要再进行复杂的反量化处理,大大增加了AAC编码的实时性。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (6)
1.一种高级音频编码系统,其特征在于,由心理声学模型模块、滤波器组、联合立体声编码模块、量化编码模块组成,心理声学模型模块、滤波器组、联合立体声编码模块、量化编码模块依次连接。
2.根据权利要求1所述的高级音频编码系统,其特征在于,所述心理声学模型模块主要是利用心理声学原理对信号频谱进行分析计算出信掩比、掩蔽阈值供其它模块使用。
3.根据权利要求1所述的高级音频编码系统,其特征在于,所述滤波器组主要是使用改进的离散余弦变换,把时间域上的输入音频数据变换成频域信号。
4.根据权利要求1所述的高级音频编码系统,其特征在于,所述联合立体声编码模块是针对多声道开发的一种复杂的空间编码技术,去掉空间的冗余信息。
5.根据权利要求1所述的高级音频编码系统,其特征在于,所述量化编码模块主要包括量化和编码两个部分,是AAC音频编码系统非常重要的功能模块。
6.根据权利要求1所述的高级音频编码系统,其特征在于,所述量化编码模块包括:
比特计算单元,用于计算可分配的比特数;
SDI初始化单元,采用SDI算法对量化因子进行初始化,SDI算法主要是通过构建信号的初始值与信号某些特性关系的数学模型来实现量化因子的初始化;
感知熵预检测单元,用于提高码表查询、比特数耗费计算、编码的效率,是在进行码表查询、比特数耗费计算、编码之前所进行的预处理工作;
编码单元,通过码表查询,并采用哈夫曼编码的方法进行编码,同时计算出实际的比特耗费,判断实际比特耗费是否小于可分配的比特数,否则调整最小量化阶的单步步长,重新进行哈夫曼编码,直到满足能使实际比特耗费小于可分配的比特数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510016797.9A CN104616657A (zh) | 2015-01-13 | 2015-01-13 | 高级音频编码系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510016797.9A CN104616657A (zh) | 2015-01-13 | 2015-01-13 | 高级音频编码系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104616657A true CN104616657A (zh) | 2015-05-13 |
Family
ID=53151078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510016797.9A Pending CN104616657A (zh) | 2015-01-13 | 2015-01-13 | 高级音频编码系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104616657A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1525438A (zh) * | 2002-12-14 | 2004-09-01 | 三星电子株式会社 | 立体声音频编码方法及装置,音频流解码方法及装置 |
WO2006056100A1 (fr) * | 2004-11-24 | 2006-06-01 | Beijing E-World Technology Co., Ltd | Procede et dispositif de codage/decodage utilisant la redondance des signaux intra-canal |
CN101064106A (zh) * | 2006-04-28 | 2007-10-31 | 意法半导体亚太私人有限公司 | 用于低复杂度高级音频编码的自适应速率控制算法 |
CN101494054A (zh) * | 2009-02-09 | 2009-07-29 | 深圳华为通信技术有限公司 | 一种音频码率控制方法及系统 |
EP2490215A2 (en) * | 2005-07-15 | 2012-08-22 | Samsung Electronics Co., Ltd. | Method and apparatus to extract important spectral component from audio signal and low bit-rate audio signal coding and/or decoding method and apparatus using the same |
-
2015
- 2015-01-13 CN CN201510016797.9A patent/CN104616657A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1525438A (zh) * | 2002-12-14 | 2004-09-01 | 三星电子株式会社 | 立体声音频编码方法及装置,音频流解码方法及装置 |
WO2006056100A1 (fr) * | 2004-11-24 | 2006-06-01 | Beijing E-World Technology Co., Ltd | Procede et dispositif de codage/decodage utilisant la redondance des signaux intra-canal |
EP2490215A2 (en) * | 2005-07-15 | 2012-08-22 | Samsung Electronics Co., Ltd. | Method and apparatus to extract important spectral component from audio signal and low bit-rate audio signal coding and/or decoding method and apparatus using the same |
CN101064106A (zh) * | 2006-04-28 | 2007-10-31 | 意法半导体亚太私人有限公司 | 用于低复杂度高级音频编码的自适应速率控制算法 |
CN101494054A (zh) * | 2009-02-09 | 2009-07-29 | 深圳华为通信技术有限公司 | 一种音频码率控制方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100589657C (zh) | 编码音频的节约式响度测量方法及装置 | |
CN101521014B (zh) | 音频带宽扩展编解码装置 | |
CN102194457B (zh) | 音频编解码方法、系统及噪声水平估计方法 | |
CN101276587B (zh) | 声音编码装置及其方法和声音解码装置及其方法 | |
CN102436819B (zh) | 无线音频压缩、解压缩方法及音频编码器和音频解码器 | |
US20070067166A1 (en) | Method and device of multi-resolution vector quantilization for audio encoding and decoding | |
CN101527138B (zh) | 超宽带扩展编码、解码方法、编解码器及超宽带扩展系统 | |
MX2012011603A (es) | Codificador de audio, decodificador de audio y metodos relacionados para el procesamiento de señales de audio multicanal utilizando prediccion compleja. | |
MX2013009346A (es) | Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral. | |
CN100571043C (zh) | 一种空间参数立体声编解码方法及其装置 | |
KR20100063086A (ko) | 주파수 서브-대역들 내의 스펙트럼 다이나믹스에 기초한 오디오 코딩에서의 시간적 마스킹 | |
MX2012004593A (es) | Codec multimodo de audio y codificacion de celp adaptada a este. | |
CN115867966A (zh) | 用于确定生成神经网络的参数的方法和装置 | |
JP6600054B2 (ja) | 方法、符号化器、復号化器、及び移動体機器 | |
CN103050122B (zh) | 一种基于melp的多帧联合量化低速率语音编解码方法 | |
CN105280190A (zh) | 带宽扩展编码和解码方法以及装置 | |
CN104751850B (zh) | 一种用于音频信号的矢量量化编解码方法及装置 | |
CN101847413B (zh) | 一种使用新型心理声学模型和快速比特分配实现数字音频编码的方法 | |
CN100539437C (zh) | 一种音频编解码器的实现方法 | |
KR20070051857A (ko) | 스케일러블 오디오 코딩 | |
CN101320565B (zh) | 感知加权滤波方法及感知加权滤波器 | |
CN105957533A (zh) | 语音压缩方法、语音解压方法及音频编码器、音频解码器 | |
CN103489450A (zh) | 基于时域混叠消除的无线音频压缩、解压缩方法及其设备 | |
CN104616657A (zh) | 高级音频编码系统 | |
Wang et al. | Time-varying MMSE modulated lapped transform and its applications to transform coding for speech and audio signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150513 |
|
RJ01 | Rejection of invention patent application after publication |