CN105210149A - 用于音频信号解码或编码的时域电平调整 - Google Patents
用于音频信号解码或编码的时域电平调整 Download PDFInfo
- Publication number
- CN105210149A CN105210149A CN201480016606.2A CN201480016606A CN105210149A CN 105210149 A CN105210149 A CN 105210149A CN 201480016606 A CN201480016606 A CN 201480016606A CN 105210149 A CN105210149 A CN 105210149A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- level
- frequency band
- representation
- time domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 233
- 238000006073 displacement reaction Methods 0.000 claims abstract description 34
- 238000007781 pre-processing Methods 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims description 66
- 230000007704 transition Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 description 81
- 238000013139 quantization Methods 0.000 description 43
- 238000012545 processing Methods 0.000 description 22
- 230000005540 biological transmission Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 8
- 238000001914 filtration Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000007493 shaping process Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000010606 normalization Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000012805 post-processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013479 data entry Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005562 fading Methods 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/0332—Details of processing therefor involving modification of waveforms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
一种用于基于编码音频信号表示提供解码音频信号表示的音频信号解码器(100)包括:解码器预处理级(110),用于从编码音频信号表示获得多个频带信号;削波估计器(120);电平位移器(130);频域至时域转换器(140);以及电平位移补偿器(150)。削波估计器(120)分析编码音频信号表示和/或关于频带信号的增益的边信息,以便确定当前电平位移因子。电平位移器(130)根据电平位移因子移动频带信号的电平。频域至时域转换器(140)将电平位移的频带信号转换成时域表示。电平位移补偿器(150)对时域表示采取动作,以至少部分补偿相应的电平位移并且获得充分补偿的时域表示。
Description
技术领域
本发明涉及音频信号编码、解码以及处理,并且尤其涉及调整信号的电平,以频时转换(或时频转换)至相应的频率至时间转换器(或时间至频率转换器)的动态范围。本发明的一些实施方式涉及调整信号的电平,以频时间转换(或时频转换)至以固定点或整数运算实施的相应转换器的动态范围。本发明的进一步实施方式涉及使用时域电平调整结合边信息的对频谱解码音频信号的削波防止。
背景技术
音频信号处理变得越来越重要。由于现代感知音频编解码器需要通过越来越低的位速率传送令人满意的音频质量,所以出现挑战。
在当前音频内容产生和传输链中,例如,在内容创建侧通过专业AAC(高级音频编码)编码器将数字可用主内容(PCM流(脉冲编码调制流))编码。然后,所产生的AAC比特流可用于(例如)通过在线数字媒体商店购买。在很少的情况下,一些解码的PCM样本被“削波”,这意味着两个或更多个连续的样本达到可由输出波形的均匀量化的固定点表示(例如,根据PCM调制的)的潜在位分辨率(例如,16位)表示的最大电平。这会造成可听假象(audibleartifact)(点击或短失真)。虽然通常在编码器侧努力防止在解码器侧发生削波,然而,由于各种原因(例如,不同的解码器实现方式、舍入误差、传输误差等),仍会在解码器侧发生削波。假设在编码器的输入处的音频信号低于削波的阈值,在现代感知音频编编码器内发生削波的原因很多。首先,音频编码器为可用于输入波形的频率分解中的传输的信号施加量化,以降低传输数据速率。在频域中的量化误差造成信号幅度和相位相对原始波形具有小的偏差。如果幅度或相位误差建设性地增加,则在时域中产生的幅度可暂时高于原始波形。其次,参数化编码方法(例如,频带复制SBR)通过比较粗糙的方式将信号功率参数化。通常省略相位信息。因此,仅在接收器侧的信号被再生具有正确的功率,但是没有波形保存。幅度接近全尺度的信号易于削波。
现代音频编码系统提供了传送响度级参数(g1)的可能性,这给解码器提供了调整响度的可能性,以通过统一的电平重放。通常,如果通过足够高的电平将音频信号解码并且所传输的归一化增益暗示响度级更大,那么这可能造成削波。此外,控制音频内容(尤其是音乐)中的常见做法将音频信号提高为最大可能值,在由音频编解码器粗糙地量化时,产生音频信号的削波。
为了防止音频信号的削波,所谓的限制器已知为用于限制音频电平的合适工具。如果引入的音频信号超过某个阈值,则限制器被激活,并且通过音频信号在输出处不超过规定的电平的方式衰减音频信号。遗憾的是,在限制器之前,需要足够的净空(headroom)(在动态范围和/或位分辨率方面)。
通常,在频域中实现任何响度归一化以及所谓的“动态范围控制”(DRC)。即使滤波器组重叠造成归一化增益在帧之间变化,这也允许响度归一化的平滑混合。
进一步地,由于较差量化或参数描述,如果在削波阈值附近的电平处控制原始音频,则何编码的音频信号可能进入削波内。
通常,根据固定点算法,在高度有效的数字信号处理装置中,可取地使计算复杂性、内存使用以及功耗尽可能较小。为此,还可取地使音频样本的字长尽可能较小。为了考虑由响度归一化造成的削波的任何潜在净空,通常是音频编码器或解码器的一部分的滤波器组必须设计有更高的字长。
可取地允许信号限制,而不丧失数据精确度和/或不需要将更高的字长用于解码器滤波器组或编码器滤波器组。可替换地或者此外,如果可为信号的连续时间部分或“帧”逐个帧地连续确定要被频时转换(反之亦然)的信号的相关动态范围,以便可以通过当前相关动态范围适配由转换器(频域至时域转换器或时域至频域转换器)提供的动态范围的方式,调整信号的电平,那么这可取。还期望的是,使为了频时转换或时频转换的目的进行的这种电平位移对于解码器或编码器的其他元件基本为“透明的”。由根据权利要求1所述的音频信号解码器、根据权利要求14所述的音频信号编码器以及根据权利要求15所述的用于将编码音频信号表示进行解码的方法,解决这些期望和/或可能的进一步期望中的至少一个。
发明内容
提供了一种用于基于编码音频信号表示提供解码音频信号表示的音频信号解码器。音频信号解码器包括解码器预处理级(stage)(其被配置为从编码音频信号表示获得多个频带信号)。所述音频信号解码器进一步包括削波估计器,削波估计器被配置为关于音频信号表示、多个频率信号和/或边信息是否暗示电位削波来分析编码音频信号表示、多个频率信号以及关于编码音频信号表示的频带信号的增益的边信息中的至少一个,,以便确定用于编码音频信号表示的当前电平位移因子。在边信息暗示电位削波时,当前电平位移因子使所述多个频带信号的信息朝着最低有效位移动,以便在至少一个最高有效位处获得净空。音频信号解码器还包括电平位移器,电平位移器被配置为根据电平位移因子移动频带信号的电平,以获得电平位移的频带信号。此外,音频信号解码器包括被配置为将电平位移的频带信号转换成时域表示的频域至时域转换器。音频信号解码器进一步包括电平位移补偿器,电平位移补偿器被配置为作用在所述时域表示上,以至少部分补偿由电平位移器施加至电平位移的频带信号的电平位移并且获得充分补偿的时域表示。
本发明的进一步实施方式提供了一种被配置为基于输入音频信号的时域表示提供编码的音频信号表示的音频信号编码器。音频信号编码器包括削波估计器,削波估计器被配置为关于是否暗示电平削波分析输入音频信号的时域表示,以便确定用于输入信号表示的当前电平位移因子。当暗示电位削波时,当前电平位移因子使输入音频信号的时域表示朝着最低有效位移动,以便在至少一个最高有效位处获得净空。音频信号编码器进一步包括电平位移器,电平位移器被配置为根据电平位移因子移动输入音频信号的时域表示的电平,以获得电平位移的时域表示。此外,音频信号编码器包括被配置为将电平位移的时域表示转换成多个频带信号的时域至频域转换器。音频信号编码器还包括电平位移补偿器,电平位移补偿器被配置为作用在多个频带信号上,以至少部分补偿由电平位移器施加至电平位移的时域表示的电平位移并且获得多个充分补偿的频带信号。
本发明的进一步实施方式提供了一种用于将编码音频信号表示解码以便获得解码音频信号表示的方法。该方法包括预处理编码音频信号表示,以获得多个频带信号。该方法进一步包括关于是否暗示电位削波,来分析编码音频信号表示、频带信号以及关于频带信号的增益的边信息中的至少一个,以便确定用于编码音频信号表示的当前电平位移因子。当暗示电位削波时,当前电平位移因子使输入音频信号的时域表示朝着最低有效位移动,以便获得在至少一个最高有效位处的净空。此外,该方法包括根据电平位移因子移动所述频带信号的电平,以获得电平位移的频带信号。该方法还包括执行频带信号到时域表示的频域至时域转换。该方法进一步包括作用在所述时域表示上,以至少部分补偿施加到电平位移的频带信号的电平位移并且获得充分补偿的时域表示。
此外,提供了一种当在在计算机或信号处理器上执行时实施上述方法的计算机程序。
进一步实施方式提供了一种用于基于编码音频信号表示提供解码音频信号表示的音频信号解码器。音频信号解码器包括解码器预处理级,解码器预处理级被配置为从编码的音频信号表示中获得多个频带信号。音频信号解码器进一步包括削波估计器,被配置为分析编码音频信号表示、多个频率信号以及关于编码音频信号表示的频带信号的增益的边信息中的至少一个,以便确定用于编码音频信号表示的当前电平位移因子。音频信号解码器还包括电平位移器,电平位移器被配置为根据电平位移因子移动频带信号的电平,以获得电平位移的频带信号。此外,音频信号解码器包括被配置为将电平位移的频带信号转换成时域表示的频域至时域转换器。音频信号解码器进一步包括电平位移补偿器,电平位移补偿器被配置为作用在时域表示上,以至少部分补偿由电平位移器施加到电平位移的频带信号的电平位移并且获得充分补偿的时域表示。
本发明的进一步实施方式提供了一种被配置为基于输入音频信号的时域表示提供编码音频信号表示的音频信号编码器。音频信号编码器包括削波估计器,削波估计器被配置为分析输入音频信号的时域表示,以便确定用于输入信号表示的当前电平位移因子。音频信号编码器进一步包括电平位移器,电平位移器被配置为根据电平位移因子移动输入音频信号的时域表示的电平,以获得电平位移的时域表示。此外,音频信号编码器包括被配置为将电平位移的时域表示转换成多个频带信号的时域至频域转换器。音频信号编码器还包括电平位移补偿器,电平位移补偿器被配置为作用在多个频带信号上,以至少部分补偿由电平位移器施加到电平位移的时域表示的电平位移并且获得多个充分补偿的频带信号。
本发明的进一步实施方式提供了一种用于将编码音频信号表示解码以便获得解码音频信号表示的方法。该方法包括预处理编码音频信号表示,以获得多个频带信号。该方法进一步包括分析编码音频信号表示、频带信号以及关于频带信号的增益的边信息中的至少一个,以便确定编码音频信号表示的当前电平位移因子。此外,该方法包括根据电平位移因子移动频带信号的电平,以获得电平位移的频带信号。该方法还包括执行频带信号到时域表示的频域至时域转换。该方法进一步包括作用在时域表示上,以至少部分补偿施加到电平位移的频带信号的电平位移并且获得充分补偿的时域表示。
至少一些实施方式基于以下洞察:在不丧失相关信息的情况下,可以在时间间隔期间,将频域表示的多个频带信号移动某个电平位移因子,其中,音频信号的总体响度级较高。确切地说,无论如何,相关信息移动到可能包含噪声的位。通过这种方式,即使频带信号的动态范围可以比由频域至时域转换器的有限字长支持的动态范围更大,也可以使用具有有限字长的频域至时域转换器。换言之,本发明的至少一些实施方式利用以下事实:最低有效位通常不携带任何相关信息,而音频信号较响亮,即,相关信息更可能包含在最高有效位内。施加到电平位移的频带信号的电平位移还可具有降低在时域表示内发生削波的可能性的优点,其中,所述削波由多个频带信号的一个或多个频带信号的建设性叠加造成。
这些洞察和发现还通过相似的方式适用于音频信号编码器和用于编码原始音频信号以便获得编码音频信号表示的方法。
附图说明
在下文中,参照示图,更详细地描述本发明的实施方式,其中:
图1示出了根据现有技术水平的编码器;
图2描绘了根据现有技术水平的解码器;
图3示出了根据现有技术水平的另一个编码器;
图4描绘了根据现有技术水平的进一步解码器;
图5示出了根据至少一个实施方式的音频信号解码器的示意性框图;
图6示出了根据至少一个进一步实施方式的音频信号解码器的示意性框图;
图7示出了说明根据实施方式的所提出的音频信号解码器以及所提出的用于将编码音频信号表示进行解码的方法的概念的示意性框图;
图8是电平位移以获得净空的示意性视觉化;
图9示出了根据至少一些实施方式的可以是音频信号解码器或编码器的部件的可能过渡形状调整器的示意性框图;
图10描绘了包括预测滤波调整器的进一步实施方式的估计单元;
图11示出了用于生成反向数据流(backdatastream)的设备;
图12示出了根据现有技术水平的编码器;
图13描绘了根据现有技术水平的解码器;
图14示出了根据现有技术水平的另一个编码器;
图15示出了根据至少一个实施方式的音频信号解码器的示意性框图;以及
图16示出了根据至少一个实施方式的用于将编码音频信号表示进行解码的方法的示意性流程图。
具体实施方式
音频处理通过多种方式发展,并且如何将音频数据信号有效地编码和解码成为很多研究的课题。例如,由MPEGAAC(MPEG=运动图像专家组;AAC=高级音频编码)提供了有效编码。下面更详细地解释MPEGAAC的一些方面,作为音频编码和解码的介绍。由于所描述的概念也可以适用于其他音频编码和解码方案,所以MPEGAAC的描述要理解为仅仅是一个实例。
根据MPEGAAC,使用缩放因子(scale-factor,尺度因子)、量化和码本(尤其是霍夫曼码本),将音频信号的频谱值进行编码。
在进行霍夫曼编码之前,编码器将要编码的多个频谱系数分成不同的部分(从上游元件(例如,滤波器组、心理声学模型、以及关于量化阈值和量化分辨率的由心理声学模型控制的量化器)获得频谱系数)。对于频谱系数的每个部分,编码器选择霍夫曼码本进行霍夫曼编码。MPEGAAC提供了11个不同的频谱霍夫曼码本,用于将频谱数据编码,编码器从这些码本中选择最适合于将该部分的频谱系数编码的码本。编码器给解码器提供码本标识符,码本标识符识别用于该部分的频谱系数的霍夫曼编码的码本作为边信息(sideinformation)。
在解码器侧,解码器分析所接收的边信息,以确定多个频谱霍夫曼码本中的哪个用于编码某个部分的频谱值。基于关于用于将解码器要解码的部分的频谱系数编码的霍夫曼码本的边信息,解码器进行霍夫曼解码。
在霍夫曼解码之后,在解码器处获得多个量化的频谱值。然后,解码器进行逆量化(inversequantization),以转化可由编码器进行的非均匀量化。由此,在解码器处获得逆量化频谱值。
然而,逆量化频谱值可能依然未被缩放。所获得的未缩放频谱值分成缩放因子带,每个缩放因子带具有一个共同的缩放因子。用于每个缩放因子带的缩放因子可用于解码器作为由编码器提供的边信息。使用该信息,解码器使缩放因子带的未缩放频谱值乘以其缩放因子。由此,获得缩放频谱值(scaledspectralvalue)。
现在,参照图1-图4,说明根据现有技术水平的频谱值的编码和解码。
图1示出了根据现有技术水平的编码器。编码器包括T/F(时频)滤波器组10,用于将应被编码的音频信号AS从时域转变成频域,以获得频域音频信号。将频域音频信号馈入缩放因子单元20,以确定缩放因子。缩放因子单元20被适配为将频域音频信号的频谱系数划分在称为缩放因子带(共享一个缩放因子的)的几组频谱系数中。缩放因子表示用于改变在各个缩放因子带内的所有频谱系数的幅度的增益值。而且,缩放因子单元20被适配为生成和输出频域音频信号的未缩放的频谱系数。
而且,在图1中的编码器包括量化器,其用于量化频域音频信号的未缩放的频谱系数。量化器30可以是非均匀量化器。
在量化之后,将音频信号的量化的未缩放频谱馈入霍夫曼编码器40内,以被霍夫曼编码。霍夫曼编码用于音频信号的量化的频谱的冗余缩减。多个未缩放的量化的频谱系数分成几个部分。虽然在MPEGAAC中,提供了11个可能的码本,但是一个部分的所有频谱系数由相同的霍夫曼码本编码。
编码器选择特别适合于将该部分的频谱系数编码的11个可能的霍夫曼码本中的一个。由此,为特定部分选择编码器的霍夫曼码本,取决于特定部分的频谱值。然后,可以将霍夫曼编码的频谱系数以及边信息发送给解码器,该边信息包括(例如)关于用于将频谱系数的部分编码的霍夫曼码本、用于特定缩放因子带的缩放因子等的信息。
两个或四个频谱系数由用于将该部分的频谱系数进行霍夫曼编码的霍夫曼码本的码字编码。编码器将表示编码的频谱系数的码字以及包括一部分的长度的边信息和关于用于将该部分的频谱系数编码的霍夫曼码本的信息传输给解码器。
在MPEGAAC中,提供了用于将音频信号的频谱数据编码的11个频谱霍夫曼码本。不同的频谱霍夫曼码本可由其码本索引(在1与11之间的值)识别。霍夫曼码本的尺寸表示由所考虑的霍夫曼码本的码字编码频谱系数的数量。在MPEGAAC中,霍夫曼码本的尺寸是2或4,表示码字将音频信号的2个或4个频谱值编码。
然而,不同的霍夫曼码本在其他性能方面也不同。例如,由霍夫曼码本可编码的频谱系数的最大绝对值在码本之间不同,并且例如,可以是1、2、4、7、12或更大。而且,所考虑的霍夫曼码本可被适配为将符号值编码或不编码。
利用霍夫曼编码,频谱系数由不同长度的码字编码。MPEGAAC提供具有最大绝对值1的2个不同的霍夫曼码本、具有最大绝对值2的2个不同的霍夫曼码本、具有最大绝对值4的2个不同的霍夫曼码本、具有最大绝对值7的2个不同的霍夫曼码本、以及具有最大绝对值12的2个不同的霍夫曼码本,其中,每个霍夫曼码本表示不同的概率分布函数。霍夫曼编码器将始终选择最适合于将频谱系数编码的霍夫曼码本。
图2示出了根据现有技术水平的解码器。霍夫曼编码的频谱值由霍夫曼解码器50接收。霍夫曼解码器50还接收作为边信息的关于用于将频谱值的每个部分的频谱值编码的霍夫曼码本的信息。然后,霍夫曼解码器50执行霍夫曼解码,以获得未缩放的量化频谱值。将未缩放的量化的频谱值馈入逆量化器60内。逆量化器执行逆量化,以获得逆量化的未缩放的频谱值,将这些频谱值馈入定标器(scaler)70内。定标器70还接收作为边信息的每个缩放因子带的缩放因子。基于所接收的缩放因子,定标器70缩放未缩放的逆量化频谱值,以获得缩放的逆量化频谱值。然后,F/T滤波器组80将频域音频信号的缩放的逆量化频谱值从频移转变到时域,以获得时域音频信号的样本值。
图3示出了根据现有技术水平的编码器,该编码器与图1的编码器的不同之处在于,图3的编码器进一步包括编码器侧TNS单元(TNS=时域噪声整形)。可采用时域噪声整形以通过相对于音频信号的部分频谱数据执行滤波处理来控制量化噪声的时域形状。编码器侧TNS单元15相对于要编码的频域音频信号的频谱系数执行线性预测编码(LPC)计算。尤其地,也称为PARCOR系数的反射系数源自LPC计算。如果也由LPC计算获得的预测增益未超过特定阈值,则不使用时域噪声整形。然而,如果预测增益大于阈值,则采用时域噪声整形。编码器侧TNS单元去除小于特定阈值的所有反射系数(reflectioncoefficient)。剩余的反射系数转换成线性预测系数,并且用作在编码器内的噪声整形滤波器系数。然后,编码器侧TNS单元对采用TNS的那些频谱系数执行滤波操作,以获得音频信号的经处理的频谱系数。将指示TNS信息的边信息(例如,反射系数(PARCOR系数))发送给解码器。
图4示出了根据现有技术水平的解码器,该解码器与在图2中示出的解码器的不同之处在于,图4的解码器进一步包括解码器侧TNS单元75。解码器侧TNS单元接收音频信号的逆量化的缩放频谱,并且还接收TNS信息,例如,指示反射系数(PARCOR系数)的信息。解码器侧TNS单元75处理音频信号的逆量化频谱,以获得音频信号的经处理的逆量化频谱。
图5示出了根据本发明的至少一个实施方式的音频信号解码器100的示意性框图。音频信号解码器被配置为接收编码音频信号表示。通常,编码音频信号表示伴有边信息。可例如以由感知(perceptual)音频编码器产生的数据流的形式提供编码的音频信号表示以及边信息。音频信号解码器100进一步被配置为提供解码音频信号表示,该表示可与在图5中标记为“充分补偿的时域表示”或者使用后续处理从其获得的信号相同。
音频信号解码器100包括解码器预处理级110,其被配置为从编码音频信号表示中获得多个频带信号。例如,在编码音频信号表示和边信息包含在比特流内的情况下,解码器预处理级110可包括比特流解包器。根据编码音频信号表示目前携带相关信息(高分辨率)或不相关信息(低分辨率或根本没有数据)的频率范围,一些音频编码标准可将时变分辨率以及不同的分辨率用于多个频带信号。这意味着在这个时间间隔内,与暂时不携带或者仅仅携带很少信息的频带信号不同,通常使用比较高的分辨率(即,使用较大数量的位)来编码其中编码音频信号表示目前具有大量相关信息的频带。对于某些频带信号,比特流甚至可以暂时根本不包含数据或比特,这是因为在相应的时间间隔内,这些频带信号不包含任何相关信息。提供给解码器预处理级110的比特流通常包含指示多个频带信号中的哪些频带信号包含用于目前考虑的时间间隔或“帧”的数据以及相应的比特分辨率的信息(例如,作为边信息的一部分)。
音频信号解码器100进一步包括削波估计器120,其被配置为分析关于编码音频信号表示的频带信号的增益的边信息,以便确定用于编码音频信号表示的当前电平位移因子。一些感知音频编码标准将单独的缩放因子用于多个频带信号中的不同频带信号。单独缩放因子指示每个频带信号相对于其他频带信号的当前幅度范围。对于本发明的某些实施方式,这些缩放因子的分析允许大概评估在多个频带信号从频域转换成时域之后在相应的时域表示内可出现的最大幅度。然后,使用该信息,以便确定在没有本发明提出的任何合适的处理的情况下,在考虑的时间间隔或“帧”的时域表示内是否可能发生削波。削波估计器120被配置为确定电平位移因子,该电平位移因子将多个频带信号中的所有频带信号相对于电平(例如,关于信号幅度或信号功率)移动相同的量。可以通过单独的方式,确定每个时间间隔(帧)的电平位移因子,即,电平位移因子是时间变化的。通常,削波估计器120将尝试以在时域表示内非常不可能发生削波但是同时保持频带信号的合理的动态范围的方式,通过对于所有频带信号为共同的位移因子调整多个频带信号的电平。作为实例,考虑其中缩放因子的数值(number)比较高的编码音频信号表示的帧。现在,削波估计器120可考虑最坏情况,即,在多个频带信号内的可能信号峰值以建设性方式重叠或累加,在时域表示内产生大幅度。现在,电平位移因子可被确定为使在时域表示内的这个假定峰值在期望的动态范围内的数值,可能另外考虑边缘。至少根据一些实施方式,削波估计器120在考虑的时间间隔或帧内不需要编码音频信号表示本身来评估在时域表示内发生削波的概率。原因在于,至少一个感知音频编码标准根据在特定频带信号和考虑的时间间隔内要编码的最大幅度,选择多个频带信号中的频带信号的缩放因子。换言之,考虑编码方案的性能,在考虑的时间间隔或帧内,非常可能发生一次可由为即将到来的频带信号选择的位分辨率表示的最高值。使用这个假设,削波估计器120可集中评估关于频带信号的增益的边信息(例如,所述缩放因子以及可能进一步的参数),以便确定用于编码音频信号表示的当前电平位移因子以及考虑的时间间隔(帧)。
音频信号解码器100进一步包括电平位移器130,其被配置为根据所述电平位移因子移动频带信号的电平,以获得电平位移的频带信号。
音频信号解码器100进一步包括频域至时域转换器140,其被配置为将所述电平位移的频带信号转换成时域表示。仅举几例,频域至时域转换器140可以是逆滤波器组、逆改良离散余弦变换(逆MDCT)、逆正交镜像滤波器(逆QMF)。对于某些音频编码标准,频域至时域转换器140可被配置为支持连续帧(其中,例如,在50%的持续时间,两个帧重叠)的窗口化。
将由频域至时域转换器140提供的时域表示提供给电平位移补偿器150,其被配置为作用在所述时域表示上,以至少部分补偿由电平位移器130施加到电平位移的频带信号的电平位移并且获得充分补偿的时域表示。电平位移补偿器150进一步接收削波估计器140的电平位移因子或者源自电平位移因子的信号。电平位移器130和电平位移补偿器150分别提供电平位移频带信号的增益调整和时域表示的补偿增益调整,其中,所述增益调整旁路频域至时域转换器140。通过这种方式,电平位移频带信号和时域表示可调整为由频域至时域转换器140提供的动态范围,由于转换器140具有固定的字长和/或固定点算法实现方式,所以可以限制该动态范围。尤其地,电平位移频带信号和相应的时域表示的相关动态范围在比较响亮(loud)的帧期间可以具有比较高的幅度值或信号功率电平。相反,电平位移频带信号的以及因此相应的时域表示的相关动态范围在比较温和(soft)的帧期间可以具有比较小的幅度值或信号功率值。在响亮的帧的情况下,与包含在更高位内的信息相比,包含在电平位移频带信号的二进制表示的更低位内的信息通常可以被视为可忽略的。通常,电平位移因子由所有频带信号为共同的,这使得即使位于频域至时域转换器140下游也可以补偿施加至电平位移频带信号的电平位移。与由音频信号解码器100本身确定的所提供的电平位移因子相比,所谓的全局增益参数包含在由远程音频信号编码器产生的并且作为输入提供给音频信号解码器100的比特流内。而且,全局增益施加至在解码器预处理级110与频域至时域转换器140之间的多个频带信号。通常,在与不同频带信号的缩放因子大致相同的位于信号处理链内的位置,全局增益施加至多个频带信号。这意味着对于比较响亮的帧,提供给频域至时域转换器140的频率基带信号已经比较响亮,因此,可能造成在相应时域表示内的削波,因为在不同频带信号通过建设性的方式累加从而导致时域表示内的比较高的信号幅度,多个频带信号未提供足够的净空。
例如,在图5中示意性示出的由音频信号解码器100实施的所提出的方法允许信号限制,而不丧失数据精确度或者将更高的字长用于解码器滤波器组(例如,频域至时域转换器140)。
为了克服滤波器组的受限字长的问题,作为电位削波的来源的响度归一化(loudnessprocessing)可移动到时域处理。与在频域处理内执行响度归一化的实施方式相比,这允许通过原始字长或更小的字长实现滤波器组140。为了执行增益值的平滑混合,可执行过渡形状调整,下面在图9的背景下解释。
进一步地,通常以比重构的音频信号更低的精确度,量化在比特流内的音频样本。这允许在滤波器组140内具有一些净空。解码器100从其他比特流参数p(例如,全局增益因子)中获得某些估计值,并且对于输出信号可能具有削波的情况,施加电平位移(g2),以在滤波器组140内避免削波。将该电平位移通知给时域,以由电平位移补偿器150适当地补偿。如果未估计到削波,则音频信号保持不变,因此,该方法不丧失精确度。
削波估计器可进一步被配置为基于边信息确定削波概率,和/或基于削波概率确定当前电平位移因子。即使削波概率仅指示一种趋势,而非铁的事实,也可提供关于电平位移因子(其可被合理地施加至编码音频信号表示的给定帧的多个频带信号)的有用信息。在计算复杂性或努力方面,并且与由频域至时域转换器140执行的频域至时域转换相比,削波概率的确定可以比较简单。
边信息可包括用于多个频带信号的全局增益因子和多个缩放因子中的至少一个。每个缩放因子可与多个频带信号的一个或多个频带信号对应。全局增益因子和/或多个缩放因子已经提供关于要由转换器140转换成时域的当前帧的响度级的有用信息。
根据至少一些实施方式,解码器预处理级110可被配置为获得具有多个连续帧的形式的多个频带信号。削波估计器120可被配置为确定用于当前帧的当前电平位移因子。换言之,音频信号解码器100可被配置为例如根据连续帧内的不同的响度程度,而动态地确定用于编码音频信号表示的不同帧的不同电平位移因子。
可基于充分补偿的时域表示确定解码音频信号表示。例如,音频信号解码器100可进一步包括位于电平位移补偿器150下游的时域限制器(limiter)。根据一些实施方式,电平位移补偿器150可以是这种时域限制器的一部分。
根据进一步的实施方式,关于频带信号的增益的边信息可包括多个频带相关的增益因子。
解码器预处理级110可包括逆量化器,其被配置为使用多个频带特定量化指标(indicator)中的一个频带特定量化指标来重新量化每个频带信号。尤其地,不同的频带信号可能已经通过创建编码音频信号表示和相应边信息的音频信号编码器使用不同的量化分辨率(或位分辨率)进行了量化。因此,不同的频带特定量化指标可根据早先由音频信号编码器确定的该特定频带信号所需要的幅度分辨率,提供关于各种频带信号的幅度分辨率的信息。多个频带特定量化指标可以是提供给解码器预处理级110的边信息的一部分并且可提供进一步信息以供削波估计器120使用,以确定电平位移因子。
削波估计器120可进一步被配置为关于边信息是否暗示在时域表示内的电位削波来分析边信息。然后,这种发现可被解译为最低有效位(LSB)不包含相关信息。在这种情况下,由所述电平位移器130施加的电平位移可朝着最低有效位移动信息,以便通过释放最高有效位(LSB),获得在最高有效位处的一些净空,在两个或更多个频带信号通过建设性的方式累加的情况下,这对于时域分辨率是需要的。这个概念还可扩展为n个最低有效位和n个最高有效位。
削波估计器120可被配置为考虑量化噪声。例如,在AAC解码中,“全局增益”和“缩放因子带”用于使音频/子带归一化。结果,相关信息由每个(频谱)值移动至MSB,而在量化中忽略LSB。在解码器中重新量化之后,LSB通常仅仅包含噪音。如果在重构滤波器组140之后,“全局增益”和“缩放因子带”(p)值暗示电位削波,则可以合理地假设LSB不包含任何信息。通过所提出的方法,解码器100还将信息移动到这些位内,以获得MSB的某些净空。这几乎不造成任何信息损失。
所提出的设备(音频信号解码器或编码器)和方法允许音频解码器/编码器的削波防止,而不耗费针对所需要的净空的高分辨率滤波器组。与执行/实施具有更高分辨率的滤波器组相比,这在内存需求以及计算复杂性方面通常便宜得多。
图6示出了根据本发明的进一步实施方式的音频信号解码器100的示意性框图。音频信号解码器100包括逆量化器210(Q-1),其被配置为接收编码音频信号表示并且通常还接收边信息或一部分边信息。在一些实施方式中,逆量化器210可包括比特流解包器,其被配置为将包含编码的音频信号表示和边信息的比特流(例如,具有数据包的形式)解包,其中,每个数据包可与编码音频信号表示的特定数量的帧对应。如上所述,在编码音频信号表示内并且在每个帧内,每个频带可具有其自身的单独量化分辨率。通过这种方式,为了正确地表示在所述频带内的音频信号部分,暂时需要比较精细的量化的频带可以具有这种精细的量化分辨率。另一方面,可以使用更粗糙的量化,来量化在规定的帧内不包含或者包含少量信息的频带。逆量化器210可被配置为使使用单独和时变量化分辨率量化的各种频带采用共同的量化分辨率。共同的量化分辨率可以(例如)是由固定点算法表示提供的分辨率,音频信号解码器100在内部使用该表示,用于计算和处理。例如,音频信号解码器100可在内部使用16位或24位的固定点表示。提供给逆量化器210的边信息可包含关于每个新帧的多个频带信号的不同量化分辨率的信息。逆量化器210可被视为在图5中描绘的解码器预处理级110的特殊情况。
在图6中示出的削波估计器120与在图5中的削波估计器120相似。
音频信号解码器100进一步包括电平位移器230,其连接至逆量化器210的输出端。电平位移器230进一步接收边信息或一部分边信息以及由削波估计器120通过动态方式确定的电平位移因子,即,对于每个时间间隔或帧,电平位移因子可假设为不同的值。电平位移因子使用多个倍增器或缩放部件231、232以及233一致地施加至多个频带信号。在离开逆量化器210时,一些频带信号可能较强,可能已经使用了其相应的MSB。在这些强烈的频带信号在频域至时域转换器140内累加时,在由频域至时域转换器140输出的时域表示输出内可能观察到溢流。由削波估计器120确定的并且缩放部件231、232以及233施加的电平位移因子可以选择性(即,考虑当前边信息)减少频带信号的电平,以便不太可能发生时域表示的溢流。电平位移器230进一步包括第二多个倍增器或缩放部件236、237以及238,其被配置为将频带特定缩放因子施加至相应频带。边信息可包括M个缩放因子。电平位移器230将多个电平位移的频带信号提供给频域至时域转换器140,其被配置为将电平位移的频带信号转换成时域表示。
图6的音频信号解码器100进一步包括电平位移补偿器150,在所描述的实施方式中,其包括进一步的倍增器或缩放部件250以及倒数计算器252。倒数计算器252接收电平位移因子并且确定电平位移因子的倒数(1/x)。将电平位移因子的倒数转发给进一步的缩放部件250,其中,该倒数乘以时域表示,以产生充分补偿的时域表示。作为倍增器或缩放部件231、232、233以及252的替换物,还能够使用加法/减法部件,以将电平位移因子施加至多个频带信号以及时域表示。
可选地,在图6中的音频信号解码器100进一步包括后续处理部件260,其连接至电平位移补偿器150的输出端。例如,后续处理部件260可以包括时域限制器,其具有固定的特征,以便即使提供电平位移器230和电平位移补偿器150,也减少或去除依然存在于充分补偿的时域表示内的任何削波。可选的后续处理部件260的输出提供解码的音频信号表示。如果没有可选的后续处理部件260,则在电平位移补偿器150的输出处,可获得解码音频信号表示。
图7示出了根据本发明的进一步可能的实施方式的音频信号解码器100。逆量化器/比特流解码器310被配置为处理引入的比特流并且从中获得以下信息:多个频带信号X1(f)、比特流参数p以及全局增益g1。比特流参数p可包括频带的缩放因子和/或全局增益g1。
将比特流参数p提供给削波估计器320,其从比特流参数p中获得缩放因子1/g2。将缩放因子1/g2馈送给电平位移器330,在所描述的实施方式中,该电平位移器还实现动态范围控制(DRC)。电平位移器330可进一步接收比特流参数p或其一部分,以便将缩放因子应用于多个频带信号。电平位移器330将多个电平位移的频带信号X2(f)输出给逆滤波器组340,其提供频域至时域转换。在逆滤波器组340的输出端处,提供时域表示X3(f),以供应给电平位移补偿器350。电平位移补偿器350是倍增器或缩放部件,与在图6中描述的实施方式中一样。电平位移补偿器350是后续时域处理360的一部分以用于高精度处理,例如,支持比逆滤波器组340更长的字长。例如,逆滤波器组可具有16位的字长,并且可使用20位来执行由后续时域处理执行的高精度处理。作为另一个实例,逆滤波器组340的字长可以是24位,并且高精度处理的字长可以是30位。在任何情况下,位的数量不应被视为限制本专利/专利申请的范围,除非明确规定。后续时域处理360输出解码音频信号表示X4(f)。
将施加的增益g2向前馈送给限制器实施360,以进行补偿。限制器362可以高精度实施。
如果削波估计器320未估计到任何削波,则音频样本保持几乎未改变,即,犹如未执行电平位移和电平位移补偿。
削波估计器将电平位移因子1/g2的倒数g2提供给组合器328,其中,该倒数与全局增益g1相结合,以产生组合式增益g3。
音频信号解码器100进一步包括过渡形状调整器370,其被配置为在组合式增益g3从前一个帧突然变成当前帧(或者从当前帧突然变成后续帧)时,提供平滑过渡。过渡形状调整器370可被配置为交叉淡化当前电平位移因子和后续电平位移因子,以获得交叉淡化的电平位移因子g4,以供电平位移补偿器350使用。为了允许变化的增益因子平滑过渡,必须执行过渡形状调整。该工具创建增益因子的向量g4(t)(一个因子用于相应的音频信号的每个样本)。为了模仿频域信号的处理会产生的增益调整的相同行为,必须使用滤波器组340的相同过渡窗口W。一个帧覆盖多个样本。在一个帧的持续时间内,组合式增益因子g3通常恒定。过渡窗口W通常是一个帧长,并且给在帧(例如,余弦的第一半周期)内的每个样本提供不同的窗口值。在图9以及以下相应的描述中,提供关于过渡形状调整的一个可能实现方式的细节。
图8示意性示出了施加至多个频带信号中的电平位移的效应。可以使用16比特分辨率,表示音频信号(例如,多个频带信号中的每个),由矩形402符号表示。矩形404示意性示出了16位分辨率的比特用于表示在由解码器预处理级110提供的一个频带信号内的量化样本的方式。可以看出,量化样本可以使用某个数量的比特,从最高有效位(MSB)向下到最后位,用于量化样本。向下到最低有效位(LSB)的剩余比特仅仅包含量化噪声。这可以由以下事实解释:对于当前帧,仅仅由更低数量的位(<16位)在比特流内表示相应的频带信号。即使在比特流内使用16位的整个位分辨率,用于当前帧并且用于相应的频带,最低有效位通常也包含大量量化噪声。
在图8中的矩形406示意性示出了电平位移频带信号的结果。由于可以希望最低有效位的内容包含大量量化噪声,所以量化样本可以朝着最低有效位移动,几乎不丧失相关信息。这可以通过简单地向下移动位(“右移”)或者通过实际上重新计算二进制表示来实现。在这两种情况下,可以记住电平位移因子,以用于稍后补偿施加的电平位移(例如,通过电平位移补偿器150或350)。电平位移在最高有效位处产生额外净空。
图9示意性示出了在图7中示出的过渡形状调整370的可能实现方式。过渡形状调整器370可包括:存储器371,用于前一个电平位移因子;第一窗口器(windower)372,被配置为通过将窗口形状应用于当前电平位移因子,来生成多个第一窗口化样本;第二窗口器376,其被配置为通过将前一个窗口形状应用于由所述存储器371提供的前一个电平位移因子中,来生成多个第二窗口化样本;以及样本组合器379,其被配置为组合所述多个第一窗口化样本和所述多个第二窗口化样本的彼此对应的窗口化样本,以获得多个组合的样本。第一窗口器372包括窗口形状提供器373和倍增器374。第二窗口器376包括前一个窗口形状提供器377和进一步的倍增器378。倍增器374和进一步的倍增器378随着时间输出向量。在第一窗口器372的情况下,每个向量元素与当前组合式增益因子g3(t)(在当前帧期间为恒定的)和由窗口形状提供器373提供的当前窗口形状的乘法对应。在第二窗口器376的情况下,每个向量元素与前一个组合式增益因子g3(t-T)(在当前帧期间,恒定)和由前一个窗口形状提供器377提供的前一个窗口形状的乘法对应。
根据在图9中示意性示出的实施方式,前一个帧的增益因子必须乘以滤波器组340的“后半个”窗口,而实际的增益因子乘以“前半个”窗口序列。这两个向量可以相加,以形成一个增益向量g4(t),以便与音频信号X3(t)按元素相乘(见图7)。
如果需要的话,源自滤波器组340的边信息w可引导窗口形状。
频率到时域转换器340还可使用窗口形状和前一个窗口形状,以便同一个窗口形状和前一个窗口形状用于将电平位移的频带信号转换成时域表示,并且用于将当前电平位移因子和前一个电平位移因子窗口化。
当前电平位移因子可以对于所述多个频带信号的当前帧有效。前一个电平位移因子可以对于所述多个频带信号的前一个帧有效。当前帧和前一个帧可以重叠(例如)50%。
过渡形状调整370可被配置为使前一个电平位移因子与前一个窗口形状的第二部分相结合,产生前一个帧因子序列。过渡形状调整370可以进一步被配置为使当前电平位移因子与当前窗口形状的第一部分相结合,产生当前帧因子序列。可以根据前一个帧因子序列和当前帧因子序列,确定交叉淡化的电平位移因子的序列。
所提出的方法不必限于解码器,编码器也可能具有增益调整或限制器以及滤波器组,这可能受益于所提出的方法。
图10示出了解码器预处理级110和削波估计器120连接方式。解码器预处理级110对应于或者包括码本确定器1110。削波估计器120包括估计器单元1120。码本确定器1110被适配为确定多个码本中的一个码本作为识别的码本,其中,通过使用所识别的码本,将所述编码的音频信号表示编码。估计器单元1120被适配为获得与所识别的码本相关联的电平值(例如,能量值、幅度值或响度值),作为获得的电平值。而且,估计单元1120适配为使用所述获得的电平值来估计音频信号的电平估计,例如,能量估计、幅度估计或响度估计。例如,通过接收与编码音频信号一起传输的边信息,码本确定器1110可确定由编码器用于将音频信号编码的码本。尤其地,边信息可包括识别用于将音频信号的考虑部分编码的码本的信息。这种信息可(例如)作为数值从编码器中传输给解码器,识别用于将音频信号的考虑部分编码的霍夫曼码本。
图11示出了根据实施方式的估计单元。估计单元包括电平值获得器1210和缩放单元1220。通过在存储器内查找电平值,通过从本地数据库中请求电平值,或者通过从远程计算机中请求与识别的码本相关联的电平值,电平值获得器适合于获得与识别的码本(即,用于由编码器将频谱数据编码的码本)相关联的电平值。在实施方式中,由电平值获得器查找或请求的电平值可以是平均电平值,其指示使用识别的码本编码的经编码的未缩放的频谱值的平均电平。
由此,从实际的频谱值中不计算获得的电平值,而是使用仅仅取决于所使用的码本的平均电平值。如上所述,编码器通常被适配为从多个码本中选择最适合于将音频信号的部分的各自频谱数据编码的码本。由于码本的(例如)可以编码的最大绝对值不同,所以由霍夫曼码本编码的平均值在码本之间不同,因此,由特定的码本编码的经编码的频谱系数的平均电平值在码本之间不同。
因此,根据实施方式,可为每个霍夫曼码本确定用于将使用特定的霍夫曼码本的音频信号的频谱系数编码的平均电平值,并且例如,该平均电平值可以储存在存储器、数据库内或者储存在远程计算机上。然后,电平值获得器仅仅需要查找或请求与用于将频谱数据编码的识别的码本相关联的电平值,以获得与识别的码本相关联的获得的电平值。
然而,要考虑的是,霍夫曼码本通常用于将未缩放的频谱值编码,MPEGAAC也是这种情况。然后,然而,在进行电平估计时,应考虑缩放。因此,图11的估计单元还包括缩放单元1220。缩放单元适合于获得与编码的音频信号或者与一部分编码的音频信号相关的缩放因子,作为获得的缩放因子。例如,相对于解码器,缩放单元1220确定每个缩放因子带的缩放因子。例如,通过接收从编码器中传输给解码器的边信息,缩放单元1220可以接收关于缩放因子带的缩放因子。而且,缩放单元1220适配为根据缩放因子和所获得的电平值确定缩放的电平值。
在所获得的电平值是所获得的能量值的实施方式中,通过使所获得的能量值乘以所获得的缩放因子的平方,缩放单元适合于对所获得的能量值上施加所获得的缩放因子,以获得缩放的电平值。
在所获得的电平值是所获得的幅度值的另一个实施方式中,通过使所获得的幅度值乘以所获得的缩放因子,缩放单元适合于在所获得的幅度值上应用所获得的缩放因子,以获得缩放的电平值。
在进一步的实施方式中,其中,所获得的电平值是所获得的响度值,并且通过使所获得的响度值乘以所获得的缩放因子的立方,缩放单元1220适配为对所获得的响度值施加所获得的缩放因子,以获得缩放的电平值。具有替换的方式来计算响度,例如,通过指数3/2。通常,在所获得的电平值是响度值时,缩放因子必须转换成响度域。
这些实施方式考虑根据音频信号的频谱系数的平方确定能量值,根据音频信号的频谱系数的绝对值确定幅度值,并且根据转换成响度域的音频信号的频谱系数确定响度值。
估计单元适配为使用缩放的电平值来估计音频信号的电平估计值。在图11的实施方式中,估计单元适配为输出缩放的电平值,作为电平估计值。在这种情况下,缩放的电平值不进行后处理。然而,如在图12的实施方式中所示,估计单元还可适配为进行后处理。因此,图12的实施方式包括后处理器1230,用于后处理一个或多个缩放的电平值,以估计电平估计值。例如,通过确定多个缩放的电平值的平均值,后处理器1230可以确定估计单元的电平估计值。估计单元可输出这个平均值,作为电平估计值。
与所提出的实施方式相反,用于估计(例如)一个缩放因子带的能量的现有技术方法是进行所有频谱值的霍夫曼解码和逆量化,并且通过使所有逆量化的频谱值相加,来计算能量。
然而,在所提出的实施方式中,现有技术的该计算复杂处理由仅仅取决于缩放因子的、码本所使用的、而非取决于实际的量化值的平均电平的估计值代替。
本发明的实施方式使用霍夫曼码本被设计为提供遵循专门统计的最佳编码这一事实。这表示根据数据的概率设计码本,例如,AAC-ELD(AAC-ELD=高级音频编码-增强的低延迟):频谱线。根据码本,该过程可以颠倒,以获得数据的概率。由码字的长度提供在码本内部的每个数据输入(指数)的概率。例如,
p(指数)=2^-长度(码字)
即,
p(指数)=2-长度(码字)
其中,p(指数)是在码本内部的数据输入(指数)的概率。
基于此,可通过以下方式预先计算和存储预期的电平:每个指数表示整数值序列(x),例如,频谱线,其中,该序列的长度取决于码本的尺寸,例如,对于AAC-ELD是2或4。
图13a和图13b示出了根据实施方式的用于生成与码本相关联的电平值(例如,能量值、幅度值或响度值)的方法。该方法包括:
为码本的每个码字确定与码本的码字相关联的一系列数值(步骤1310)。如上所述,码本通过码本的码字将一系列数值编码,例如,2或4数值。码本包括多个码本,以将多个数值序列编码。所确定的这系列数值是由码本的考虑的码字编码的数值序列。为码本的每个码字执行步骤1310。例如,如果码本包括81个码字,则在步骤1310中确定数值的81个序列。
在步骤1320中,通过将逆量化器应用于码本的每个码字的码字数值序列的数值中,为码本的每个码字确定数值的逆量化序列。如上所述,在编码音频信号的频谱值时,编码器通常可以使用量化,例如,非均匀量化。结果,必须在解码器侧上逆变换该量化。
然后,在步骤1330中,为码本的每个码字确定一系列电平值。
如果要生成能量值作为码本电平值,则为每个码字确定能量值序列,并且为码本的每个码字计算逆量化序列数值的每个值的平方。
然而,如果要生成幅度值作为码本电平值,则为每个码字确定幅度值序列,并且为码本的每个码字计算逆量化序列数值的每个值的绝对值。
然而,如果要生成响度值作为码本电平值,则为每个码字确定响度值序列,并且为码本的每个码字计算逆量化序列数值的每个值的立方。具有替换的方式来计算响度,例如,通过指数3/2。通常,在要生成响度值作为码本电平值时,逆量化序列数值的值必须转换成响度域。
然后,在步骤1340中,通过使码本的每个码字的电平值序列的值相加,计算码本的每个码字的电平总和值。
然后,在步骤1350中,通过对于码本的每个码字,使码字的电平总和值乘以与码字相关联的概率值,为码本的每个码字确定概率加权电平总和值。由此,考虑数值序列中的一些(例如,频谱系数的序列)不与频谱系数的其他序列一样频繁地出现。与码字相关联的概率值考虑这个。可以从码字的长度中获得这个概率值,这是因为在使用霍夫曼编码时,使用具有更短长度的码字将更可能出现的码字编码,而使用具有更长长度的码字将更不可能出现的其他码字编码。
在步骤1360中,通过对于码本的每个码字,使码字的概率加权电平总和值除以与码本相关联的尺寸值,为码本的每个码字确定概率加权电平总和值。尺寸值表示由码本的码字编码的频谱值的数量。由此,确定平均概率加权电平总和值,表示由码字编码的用于频谱系数的电平值(概率加权)。
然后,在步骤1370中,通过使所有码字的平均概率加权电平总和值相加,计算码本的电平值。
要注意的是,对于一个码本,电平值的这种生成仅仅需要进行一次。如果确定码本的电平值,那么根据上述实施方式,可以简单地由用于电平估计的设备查找和使用这个值。
在下文中,提出了根据实施方式的用于生成与码本相关联的能量值的方法。为了估计使用规定的码本编码的数据的能量的期望值,对于码本的每个指数,以下步骤必须仅仅执行一次:
A)将逆量化器应用于该序列的整数值(例如,AAC-ELD:x^(4/3))中;
B)通过求A)的序列的每个值的平方值,计算能量;
C)建立B)的序列的总和;
D)使C)乘以指数的规定的概率;
E)除以码本的尺寸,以获得每个频谱线的期望能量。
最后,由E)计算的所有值必须相加,以获得整个码本的期望能量。
在这些步骤的输出储存在表格内之后,可以仅仅根据码本索引,查找估计的能量值,即,根据使用哪个码本。实际的频谱值不需要进行霍夫曼解码,用于这个估计。
为了估计整个音频帧的频谱数据的总能量,必须考虑缩放因子。可以从比特流中提取缩放因子,没有大量复杂性。在应用在期望能量上之前,可以修改缩放因子,例如,可以计算所使用的缩放因子的平方。然后,期望能量乘以所使用的缩放因子的平方。
根据上述实施方式,可以估计每个缩放因子带的频谱电平,而不将霍夫曼编码的频谱值解码。电平的估计可以用于识别具有低电平(例如,具有低功率)的流,这些流通常不造成削波。因此,可以避免这种流完全解码。
根据一个实施方式,用于电平估计的设备进一步包括存储器或数据库,在其内储存了表示与码本相关联的电平值的多个码本电平内存值,其中,多个码本中的每个具有储存在存储器或数据库内的与其相关联的码本电平内存值。而且,电平值获得器被配置为通过从存储器中或者从数据库中获得与识别的码本相关联的码本电平内存值,来获得与识别的码本相关联的电平值。
如果在编解码器中应用进一步的处理步骤,作为预测,例如,预测滤波,例如,用于AAC-ELDTNS(时域噪声整形)滤波,那么根据上述实施方式估计的电平可以变化。在此处,在比特流内部传输预测的系数,例如,用于TNS,作为PARCOR系数。
图14示出了进一步的实施方式,其中,估计单元进一步包括预测滤波调整器1240。预测滤波调整器适配为获得与编码的音频信号或者与一部分编码的音频信号相关的一个或多个预测滤波系数,作为所获得的预测滤波系数。而且,预测滤波调整器适配为根据预测滤波系数和所获得的电平值获得预测滤波调整的电平值。而且,估计单元被适配为使用预测滤波调整的电平值估计音频信号的电平估计值。
在实施方式中,用于TNS的PARCOR系数用作预测滤波系数。可以通过非常有效的方式,从那些系数中确定滤波处理的预测增益。关于TNS,可以根据以下公式,计算预测增益:增益=1/prod(1-parcor.^2)。
例如,如果必须考虑3个PARCOR系数,例如,parcor1、parcor2以及parcor3,那么根据以下公式,计算该增益:
对于n个PARCOR系数parcor1、parcor2...parcorn,以下公式适用:
这表示可估计通过滤波的音频信号的放大,而不应用滤波操作本身。
图15示出了实现“旁路”滤波器组的所提出的增益调整的编码器1500的示意性框图。音频信号编码器1500被配置为根据输入音频信号的时域表示,提供编码的音频信号表示。例如,时域表示可以是脉冲编码调制的音频输入信号。
音频信号编码器包括削波估计器1520,其被配置为分析输入音频信号的时域表示,以便确定所述输入信号表示的当前电平位移因子。音频信号编码器进一步包括电平位移器1530,其被配置为根据电平位移因子移动输入音频信号的时域表示的电平,以获得电平位移的时域表示。时域至频域转换器1540(例如,滤波器组,例如,正交镜像滤波器组、修正的离散余弦变换等)被配置为将电平位移的时域表示转换成多个频带信号。音频信号编码器1500还包括电平位移补偿器1550,其被配置为作用在多个频带信号上,以至少部分补偿由电平位移器1530施加到电平位移的时域表示中的电平位移并且获得多个充分补偿的频带信号。
音频信号编码器1500可进一步包括位/噪声分配、量化器和编码元件1510、以及心理声学模型1508。心理声学模型(psychoacousticmodel)1508根据PCM输入与音频信号(和/或频带单独的和帧单独的量化分辨率以及缩放因子),确定时间-频率可变的掩蔽阈值,以供位/噪声分配、量化器和编码1610使用。例如,在国际标准ISO/IEC11172-3和ISO/IEC13818-3中,可以找出关于心理声学模型的一个可能的实现方式以及感知音频编码的其他方面的细节。位/噪声分配、量化器和编码1510被配置为根据其频带单独的和帧单独的量化分辨率,量化多个频带信号,并且将这些数据提供给比特流格式器1505,该格式器输出编码的比特流,以提供给一个或多个音频信号解码器。位/噪声分配、量化器和编码1510可以被配置为除了提供多个量化的频率信号以外,还提供边信息。这种边信息还可以提供给比特流格式器1505,用于包含在比特流内。
图16示出了用于将编码音频信号表示解码以便获得解码音频信号表示的方法的示意性流程图。所述方法包括预处理所述编码的音频信号表示以获得多个频带信号的步骤1602。尤其地,预处理可以包括将比特流解包成与连续帧对应的数据,并且根据频带特定量化分辨率,将频道相关的数据重新量化(逆量化),以获得多个频带信号。
在用于解码的方法的步骤1604中,分析关于频带信号的增益的边信息,以便确定所述编码音频信号表示的当前电平位移因子。关于频带信号的增益可以单独用于每个频带信号(例如,在某些感知音频编码方案中已知的缩放因子或相似的参数),或者由所有频带信号(例如,在某些感知音频编码方案中已知的全局增益)公用。边信息的分析允许在手边的帧期间收集关于编码的音频信号的响度的信息。响度反过来可以表示解码音频信号表示进入削波内的趋势。电平位移因子通常确定为一个值,这个值防止这种削波,同时保存(所有)频带信号的相关动态范围和/或相关信息内容。
用于解码的方法进一步包括根据所述电平位移因子移动所述频带信号的电平的步骤1606。如果频带信号电平位移为更低的电平,那么电平位移在频带信号的二进制表示的最高有效位处产生一些额外净空。在将多个频带信号从频域转换成时域以获得时域表示时,会需要这个额外净空,这在后续步骤1608中进行。尤其地,如果一些频带信号接近关于其幅度和/或功率的上限,那么额外净空降低了时域表示削波的风险。因此,可以使用较小的字长,执行频域至时域转换。
用于解码的方法还包括作用在所述时域表示上的步骤1609,用于至少部分补偿施加到所述电平位移的频带信号中的电平位移。结果,获得充分补偿的时域表示。
因此,一种用于将编码的音频信号表示解码成解码的音频信号表示的方法包括:
-预处理编码音频信号表示,以获得多个频带信号;
-分析关于频带信号的增益的边信息,以便确定用于编码音频信号表示的当前电平位移因子;
-根据电平位移因子移动所述频带信号的电平,以获得电平位移的频带信号;
-执行频带信号到时域表示的频域至时域转换;以及
-作用在所述时域表示上,以至少部分补偿施加到电平位移的频带信号中的电平位移并且获得充分补偿的时域表示。
根据进一步方面,分析边信息可以包括:根据所述边信息,确定削波概率,并且根据削波概率,确定当前电平位移因子。
根据进一步方面,边信息可包括多个频带信号的全局增益因子以及多个缩放因子中的至少一个,每个缩放因子与多个频带信号中的一个频带信号对应。
根据进一步方面,预处理编码音频信号表示可包括获得具有多个连续帧的形式的多个频带信号,并且分析边信息可以包括确定用于当前帧的当前电平位移因子。
根据进一步方面,可根据充分补偿的时域表示,确定解码音频信号表示。
根据进一步方面,该方法可以进一步包括:在作用在时域表示上以至少部分补偿电平位移之后,应用时域限制器特征。
根据进一步方面,关于频带信号的增益的边信息可以包括多个频带相关的增益因子。
根据进一步方面,预处理编码音频信号可以包括使用多个频带特定量化指标中的一个频带特有的量化指标来重新量化每个频带信号。
根据进一步方面,该方法可进一步包括进行过渡形状调整,所述过渡形状调整包括:交叉淡化当前电平位移因子和后续电平位移因子,以获得交叉淡化的电平位移因子,以在至少部分补偿电平位移的活动期间使用。
根据进一步方面,过渡形状调整可进一步包括:
-临时存储前一个电平位移因子,
-通过将窗口形状应用于当前电平位移因子中,生成第一多个窗口化样本;
-通过将前一个窗口形状应用于由临时存储前一个电平位移因子的动作提供的前一个电平位移因子,来生成第二多个窗口化样本;以及
-组合所述第一多个窗口化样本和所述第二多个窗口化样本的彼此对应的窗口化样本,以获得多个组合的样本。
根据进一步方面,频域至时域转换还可使用这个窗口形状和前一个窗口形状,以便同一个窗口形状和前一个窗口形状用于将电平位移的频带信号转换成时域表示,并且用于将当前电平位移和前一个电平位移窗口化。
根据进一步方面,所述当前电平位移因子可以对于所述多个频带信号的当前帧有效,其中,所述前一个电平位移因子可以对于所述多个频带信号的前一个帧有效,并且其中,所述当前帧和所述前一个帧可以重叠。所述过渡形状调整可以被配置为:
-使所述前一个电平位移因子与所述前一个窗口形状的第二部分相结合,产生前一个帧因子序列;
-使所述当前电平位移因子与所述当前窗口形状的第一部分相结合,产生当前帧因子序列;以及
-根据所述前一个帧因子序列和所述当前帧因子序列,确定所述交叉淡化的电平位移因子的序列。
根据进一步方面,可以关于边信息是否暗示时域表示内的电位削波(这意味着最低有效位不包含相关信息)来分析边信息,并且其中,在这种情况下,电平位移朝着最低有效位移动信息,以便通过释放最高有效位,获得在所述最高有效位处的一些净空。
根据进一步方面,可以提供在计算机或信号处理器上执行计算机程序时用于实现解码方法或编码方法的计算机程序。
虽然在设备的背景下描述了一些方面,但是显然,这些方面也表示相应方法的描述,其中,模块或装置与方法步骤或方法步骤的特征对应。同样,在方法步骤的背景下描述的方面还表示相应设备的相应模块或项或特征的描述。
本发明的分解信号可存储在数字存储介质上或者可在传输介质上传输,例如,无线传输介质或有线传输介质,例如,互联网。
根据某些实现方式要求,本发明的实施方式可以在硬件中或者在软件中实现。可以使用在其上存储了电子可读控制信号的数字存储介质,例如,软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器,执行实施方式,这些信号与可编程计算机系统配合(或者能够与其配合),以便执行各自的方法。
根据本发明的一些实施方式包括具有电子可读控制信号的非瞬时性数据载体,这些信号能够与可编程计算机系统配合,以便执行在本文中描述的一种方法。
通常,本发明的实施方式可以作为具有程序代码的计算机程序产品实现,当在计算机程序产品在计算机上运行时,该程序代码可操作为用于执行一种方法。程序代码可例如存储在机器可读载体上。
其他实施方式包括存储在机器可读载体上的用于执行在本文中描述的一种方法的计算机程序。
换言之,因此,本发明方法的一个实施方式是具有程序代码的计算机程序,当在计算机程序在计算机上运行时,用于执行在本文中描述的一种方法。
因此,本发明方法的进一步实施方式是数据载体(或数字储存介质或计算机可读介质),该数据载体包括记录在其上的用于执行在本文中描述的一种方法的计算机程序。
因此,本发明方法的进一步实施方式是数据流或信号序列(其表示用于执行在本文中描述的一种方法的计算机程序)。例如,数据流或信号序列可被配置为通过数据通信连接(例如,通过互联网)传输。
进一步实施方式包括处理装置,例如,计算机或可编程逻辑装置,其被配置为或者适配为执行在本文中描述的一种方法。
进一步实施方式包括计算机,在该计算机上安装了用于执行在本文中描述的一种方法的计算机程序。
在一些实施方式中,可编程逻辑装置(例如,现场可编程门阵列)可用于执行在本文中描述的方法的一些或所有功能。在一些实施方式中,现场可编程门阵列可以与微处理器协作,以便执行在本文中描述的一种方法。通常,优选地由任何硬件设备执行这些方法。
上述实施方式仅仅说明本发明的原理。要理解的是,在本文中描述的设置和细节的修改和变更对于本领域的技术人员显而易见。因此,其目的在于,仅仅受到待审专利权利要求的范围的限制,而不受在本文中通过实施方式的描述和解释呈现的具体细节的限制。
Claims (16)
1.一种音频信号解码器(100),被配置为基于编码音频信号表示提供解码音频信号表示,所述音频信号解码器包括:
解码器预处理级(110),被配置为从所述编码音频信号表示获得多个频带信号;
削波估计器(120),被配置为关于边信息是否暗示电位削波来分析关于所述编码音频信号表示的所述频带信号的增益的所述边信息,以便确定用于所述编码音频信号表示的当前电平位移因子,其中,当所述边信息暗示所述电位削波时,所述当前电平位移因子使所述多个频带信号的信息朝向最低有效位移动,以便获得在至少一个最高有效位处的净空;
电平位移器(130),被配置为根据所述当前电平位移因子移动所述频带信号的电平,以获得电平位移的频带信号;
频域至时域转换器(140),被配置为将所述电平位移的频带信号转换成时域表示;以及
电平位移补偿器(150),被配置为对所述时域表示采取动作,以至少部分补偿由所述电平位移器(130)施加到所述电平位移的频带信号的电平位移并且获得充分补偿的时域表示。
2.根据权利要求1所述的音频信号解码器(100),其中,所述削波估计器(120)进一步被配置为基于所述边信息和所述编码音频信号表示中的至少一个确定削波概率,并且基于所述削波概率,确定所述当前电平位移因子。
3.根据权利要求1或2所述的音频信号解码器(100),其中,所述边信息包括用于所述多个频带信号的全局增益因子和多个缩放因子中的至少一个,每个缩放因子与在所述多个频带信号内的一个频带信号或一组频带信号对应。
4.根据前述权利要求中任一项所述的音频信号解码器(100),其中,所述解码器预处理级(110)被配置为获得为多个连续帧的形式的所述多个频带信号,并且其中,所述削波估计器(120)被配置为确定当前帧的所述当前电平位移因子。
5.根据前述权利要求中任一项所述的音频信号解码器(100),其中,基于所述充分补偿的时域表示,确定所述解码音频信号表示。
6.根据前述权利要求中任一项所述的音频信号解码器(100),进一步包括位于所述电平位移补偿器(150)下游的时域限制器。
7.根据前述权利要求中任一项所述的音频信号解码器(100),其中,关于所述频带信号的所述增益的所述边信息包括多个频带相关的增益因子。
8.根据前述权利要求中任一项所述的音频信号解码器(100),其中,所述解码器预处理级(110)包括逆量化器,所述逆量化器被配置为使用多个频带特定量化指标中的一个频带特定量化指标来重新量化每个频带信号。
9.根据前述权利要求中任一项所述的音频信号解码器(100),进一步包括过渡形状调整器,所述过渡形状调整器被配置为交叉淡化所述当前电平位移因子和后续电平位移因子,以获得交叉淡化的电平位移因子以供所述电平位移补偿器(150)使用。
10.根据权利要求9所述的音频信号解码器(100),其中,所述过渡形状调整器包括:存储器(371),用于前一个电平位移因子;第一窗口器(372),被配置为通过将窗口形状施加至所述当前电平位移因子来生成第一多个窗口化样本;第二窗口器(376),被配置为通过将前一个窗口形状施加至由所述存储器(371)提供的所述前一个电平位移因子来生成第二多个窗口化样本;以及样本组合器(379),被配置为将所述第一多个窗口化样本和所述第二多个窗口化样本的彼此对应的窗口化样本进行组合,以获得多个组合样本。
11.根据权利要求10所述的音频信号解码器(100),
其中,所述当前电平位移因子对于所述多个频带信号的当前帧是有效的,其中,所述前一个电平位移因子对于所述多个频带信号的前一个帧是有效的,并且其中,所述当前帧和所述前一个帧重叠;
其中,所述过渡形状调整器被配置为:
使所述前一个电平位移因子与所述前一个窗口形状的第二部分相结合,从而产生前一个帧因子序列;
使所述当前电平位移因子与所述当前窗口形状的第一部分相结合,从而产生当前帧因子序列;并且
基于所述前一个帧因子序列和所述当前帧因子序列,确定所述交叉淡化的电平位移因子的序列。
12.根据前述权利要求中任一项所述的音频信号解码器(100),其中,所述削波估计器(120)被配置为关于所述编码音频信号表示和所述边信息中的至少一个是否暗示在所述时域表示中的电位削波,来分析所述编码音频信号表示和所述边信息中的至少一个,所述时域表示中的所述电位削波意味着所述最低有效位不包含相关信息,并且其中,在这种情况下,由所述电平位移器施加的所述电平位移想象所述最低有效位移动信息,以便通过释放所述最高有效位,获得在所述最高有效位处的一些净空。
13.根据前述权利要求中任一项所述的音频信号解码器(100),其中,所述削波估计器(120)包括:
码本确定器(1110),用于确定多个码本中的一个码本作为识别码本,其中,所述编码音频信号表示通过利用所述识别码本进行了编码,以及
估计单元(1120),被配置为用于获得与所识别的码本相关联的电平值作为获得的电平值,并且用于使用所获得的电平值来估计所述音频信号的电平估计。
14.一种音频信号编码器,被配置为基于输入音频信号的时域表示提供编码音频信号表示,所述音频信号编码器包括:
削波估计器,被配置为关于是否暗示电位削波来分析所述输入音频信号的所述时域表示,以便确定用于所述输入信号表示的当前电平位移因子,其中,当暗示所述电位削波时,所述当前电平位移因子使所述输入音频信号的所述时域表示朝向最低有效位移动,以便获得在至少一个最高有效位处的净空;
电平位移器,被配置为根据所述当前电平位移因子移动所述输入音频信号的所述时域表示的电平,以获得电平位移的时域表示;
时域至频域转换器,被配置为将所述电平位移的时域表示转换成多个频带信号;以及
电平位移补偿器,被配置为对所述多个频带信号采取动作,以至少部分补偿由所述电平位移器施加至所述电平位移的时域表示的电平位移并且获得多个充分补偿的频带信号。
15.一种用于将编码音频信号表示进行解码并且提供相应的解码音频信号表示的方法,所述方法包括:
预处理所述编码音频信号表示,以获得多个频带信号;
关于边信息是否暗示电位削波,分析关于所述频带信号的增益的所述边信息,以便确定用于所述编码音频信号表示的当前电平位移因子,其中,当所述边信息暗示所述电位削波时,所述当前电平位移因子使所述多个频带信号的信息朝向最低有效位移动,以便获得在至少一个最高有效位处的净空;
根据所述电平位移因子移动所述频带信号的电平,以获得电平位移的频带信号;
执行所述频带信号到时域表示的频域至时域转换;以及
对所述时域表示采取动作,以至少部分补偿施加至所述电平位移的频带信号的电平位移并且获得充分补偿的时域表示。
16.一种用于指示计算机执行根据权利要求15所述的方法的计算机程序。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13151910.0A EP2757558A1 (en) | 2013-01-18 | 2013-01-18 | Time domain level adjustment for audio signal decoding or encoding |
EP13151910.0 | 2013-01-18 | ||
PCT/EP2014/050171 WO2014111290A1 (en) | 2013-01-18 | 2014-01-07 | Time domain level adjustment for audio signal decoding or encoding |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105210149A true CN105210149A (zh) | 2015-12-30 |
CN105210149B CN105210149B (zh) | 2019-08-30 |
Family
ID=47603376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480016606.2A Active CN105210149B (zh) | 2013-01-18 | 2014-01-07 | 用于音频信号解码或编码的时域电平调整 |
Country Status (11)
Country | Link |
---|---|
US (1) | US9830915B2 (zh) |
EP (2) | EP2757558A1 (zh) |
JP (1) | JP6184519B2 (zh) |
KR (2) | KR101953648B1 (zh) |
CN (1) | CN105210149B (zh) |
BR (1) | BR112015017293B1 (zh) |
CA (1) | CA2898005C (zh) |
ES (1) | ES2604983T3 (zh) |
MX (1) | MX346358B (zh) |
RU (1) | RU2608878C1 (zh) |
WO (1) | WO2014111290A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017117984A1 (zh) * | 2016-01-07 | 2017-07-13 | 深圳大学 | 增强时域表达的人工耳蜗信号处理方法及系统 |
CN111342937A (zh) * | 2020-03-17 | 2020-06-26 | 北京百瑞互联技术有限公司 | 一种动态调整编解码处理器电压和/或频率的方法和装置 |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2005299410B2 (en) | 2004-10-26 | 2011-04-07 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
TWI447709B (zh) | 2010-02-11 | 2014-08-01 | Dolby Lab Licensing Corp | 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法 |
CN103325380B (zh) | 2012-03-23 | 2017-09-12 | 杜比实验室特许公司 | 用于信号增强的增益后处理 |
EP2850612B1 (en) | 2012-05-18 | 2019-04-10 | Dolby Laboratories Licensing Corporation | System for maintaining reversible dynamic range control information associated with parametric audio coders |
US10844689B1 (en) | 2019-12-19 | 2020-11-24 | Saudi Arabian Oil Company | Downhole ultrasonic actuator system for mitigating lost circulation |
EP2757558A1 (en) * | 2013-01-18 | 2014-07-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Time domain level adjustment for audio signal decoding or encoding |
SG10201604643RA (en) | 2013-01-21 | 2016-07-28 | Dolby Lab Licensing Corp | Audio encoder and decoder with program loudness and boundary metadata |
KR102331129B1 (ko) | 2013-01-21 | 2021-12-01 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화 |
CN116665683A (zh) | 2013-02-21 | 2023-08-29 | 杜比国际公司 | 用于参数化多声道编码的方法 |
CN104080024B (zh) | 2013-03-26 | 2019-02-19 | 杜比实验室特许公司 | 音量校平器控制器和控制方法以及音频分类器 |
CN110083714B (zh) | 2013-04-05 | 2024-02-13 | 杜比实验室特许公司 | 用于自动文件检测的对来自基于文件的媒体的特有信息的获取、恢复和匹配 |
TWM487509U (zh) | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
CN104301064B (zh) | 2013-07-16 | 2018-05-04 | 华为技术有限公司 | 处理丢失帧的方法和解码器 |
JP6476192B2 (ja) | 2013-09-12 | 2019-02-27 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 多様な再生環境のためのダイナミックレンジ制御 |
CN105531759B (zh) | 2013-09-12 | 2019-11-26 | 杜比实验室特许公司 | 用于下混合音频内容的响度调整 |
CN105580277B (zh) * | 2013-11-27 | 2019-08-09 | 密克罗奇普技术公司 | 主时钟高精度振荡器 |
CN105142067B (zh) | 2014-05-26 | 2020-01-07 | 杜比实验室特许公司 | 音频信号响度控制 |
CN105225666B (zh) * | 2014-06-25 | 2016-12-28 | 华为技术有限公司 | 处理丢失帧的方法和装置 |
CN107112023B (zh) | 2014-10-10 | 2020-10-30 | 杜比实验室特许公司 | 基于发送无关的表示的节目响度 |
US10475463B2 (en) * | 2015-02-10 | 2019-11-12 | Sony Corporation | Transmission device, transmission method, reception device, and reception method for audio streams |
CN104795072A (zh) * | 2015-03-25 | 2015-07-22 | 无锡天脉聚源传媒科技有限公司 | 一种音频数据的编码方法及装置 |
CN109328382B (zh) * | 2016-06-22 | 2023-06-16 | 杜比国际公司 | 用于将数字音频信号从第一频域变换到第二频域的音频解码器及方法 |
KR102709737B1 (ko) * | 2016-11-30 | 2024-09-26 | 삼성전자주식회사 | 오디오 신호를 전송하는 전자 장치 및 오디오 신호를 전송하는 전자 장치의 제어 방법 |
KR102565447B1 (ko) * | 2017-07-26 | 2023-08-08 | 삼성전자주식회사 | 청각 인지 속성에 기반하여 디지털 오디오 신호의 이득을 조정하는 전자 장치 및 방법 |
US11086843B2 (en) | 2017-10-19 | 2021-08-10 | Adobe Inc. | Embedding codebooks for resource optimization |
US11120363B2 (en) | 2017-10-19 | 2021-09-14 | Adobe Inc. | Latency mitigation for encoding data |
US10942914B2 (en) * | 2017-10-19 | 2021-03-09 | Adobe Inc. | Latency optimization for digital asset compression |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
US10331400B1 (en) * | 2018-02-22 | 2019-06-25 | Cirrus Logic, Inc. | Methods and apparatus for soft clipping |
CN109286922B (zh) * | 2018-09-27 | 2021-09-17 | 珠海市杰理科技股份有限公司 | 蓝牙提示音处理方法、系统、可读存储介质和蓝牙设备 |
CN113366865B (zh) * | 2019-02-13 | 2023-03-21 | 杜比实验室特许公司 | 用于音频对象聚类的自适应响度规范化 |
US11322127B2 (en) | 2019-07-17 | 2022-05-03 | Silencer Devices, LLC. | Noise cancellation with improved frequency resolution |
WO2022126424A1 (en) * | 2020-12-16 | 2022-06-23 | Gn Audio A/S | Audio signal processing system, loudspeaker and electronics device |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1437747A (zh) * | 2000-02-29 | 2003-08-20 | 高通股份有限公司 | 闭环多模混合域线性预测(mdlp)语音编解码器 |
CN101273404A (zh) * | 2005-09-30 | 2008-09-24 | 松下电器产业株式会社 | 语音编码装置以及语音编码方法 |
CN101350199A (zh) * | 2008-07-29 | 2009-01-21 | 北京中星微电子有限公司 | 音频编码器及音频编码方法 |
WO2012045816A1 (en) * | 2010-10-07 | 2012-04-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for level estimation of coded audio frames in a bit stream domain |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0797824B1 (en) | 1994-12-15 | 2000-03-08 | BRITISH TELECOMMUNICATIONS public limited company | Speech processing |
US6280309B1 (en) | 1995-10-19 | 2001-08-28 | Norton Company | Accessories and attachments for angle grinder |
US5796842A (en) * | 1996-06-07 | 1998-08-18 | That Corporation | BTSC encoder |
US6289309B1 (en) * | 1998-12-16 | 2001-09-11 | Sarnoff Corporation | Noise spectrum tracking for speech enhancement |
JP3681105B2 (ja) * | 2000-02-24 | 2005-08-10 | アルパイン株式会社 | データ処理方式 |
US6651040B1 (en) * | 2000-05-31 | 2003-11-18 | International Business Machines Corporation | Method for dynamic adjustment of audio input gain in a speech system |
CA2359771A1 (en) * | 2001-10-22 | 2003-04-22 | Dspfactory Ltd. | Low-resource real-time audio synthesis system and method |
JP2003280691A (ja) * | 2002-03-19 | 2003-10-02 | Sanyo Electric Co Ltd | 音声処理方法および音声処理装置 |
US20050004793A1 (en) * | 2003-07-03 | 2005-01-06 | Pasi Ojala | Signal adaptation for higher band coding in a codec utilizing band split coding |
DE10345995B4 (de) * | 2003-10-02 | 2005-07-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten |
US7751572B2 (en) * | 2005-04-15 | 2010-07-06 | Dolby International Ab | Adaptive residual audio coding |
DE102006022346B4 (de) * | 2006-05-12 | 2008-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Informationssignalcodierung |
ATE526659T1 (de) * | 2007-02-14 | 2011-10-15 | Lg Electronics Inc | Verfahren und vorrichtung zum kodieren von einem audiosignal |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
US8126578B2 (en) * | 2007-09-26 | 2012-02-28 | University Of Washington | Clipped-waveform repair in acoustic signals using generalized linear prediction |
EP2225827B1 (en) * | 2007-12-11 | 2013-05-01 | Nxp B.V. | Prevention of audio signal clipping |
EP3217395B1 (en) * | 2008-10-29 | 2023-10-11 | Dolby International AB | Signal clipping protection using pre-existing audio gain metadata |
US8346547B1 (en) * | 2009-05-18 | 2013-01-01 | Marvell International Ltd. | Encoder quantization architecture for advanced audio coding |
ES2984840T3 (es) * | 2011-07-01 | 2024-10-31 | Dolby Laboratories Licensing Corp | Sistema y método para la generación, codificación e interpretación informática (o renderización) de señales de audio adaptativo |
KR101594480B1 (ko) * | 2011-12-15 | 2016-02-26 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 클립핑 아티팩트를 피하기 위한 장치, 방법 및 컴퓨터 프로그램 |
EP2757558A1 (en) * | 2013-01-18 | 2014-07-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Time domain level adjustment for audio signal decoding or encoding |
-
2013
- 2013-01-18 EP EP13151910.0A patent/EP2757558A1/en not_active Withdrawn
-
2014
- 2014-01-07 KR KR1020177024874A patent/KR101953648B1/ko active Active
- 2014-01-07 WO PCT/EP2014/050171 patent/WO2014111290A1/en active Application Filing
- 2014-01-07 BR BR112015017293-8A patent/BR112015017293B1/pt active IP Right Grant
- 2014-01-07 EP EP14702195.0A patent/EP2946384B1/en active Active
- 2014-01-07 CA CA2898005A patent/CA2898005C/en active Active
- 2014-01-07 CN CN201480016606.2A patent/CN105210149B/zh active Active
- 2014-01-07 JP JP2015553045A patent/JP6184519B2/ja active Active
- 2014-01-07 RU RU2015134587A patent/RU2608878C1/ru active
- 2014-01-07 ES ES14702195.0T patent/ES2604983T3/es active Active
- 2014-01-07 MX MX2015009171A patent/MX346358B/es active IP Right Grant
- 2014-01-07 KR KR1020157021762A patent/KR20150106929A/ko not_active Ceased
-
2015
- 2015-07-09 US US14/795,063 patent/US9830915B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1437747A (zh) * | 2000-02-29 | 2003-08-20 | 高通股份有限公司 | 闭环多模混合域线性预测(mdlp)语音编解码器 |
CN101273404A (zh) * | 2005-09-30 | 2008-09-24 | 松下电器产业株式会社 | 语音编码装置以及语音编码方法 |
CN101350199A (zh) * | 2008-07-29 | 2009-01-21 | 北京中星微电子有限公司 | 音频编码器及音频编码方法 |
WO2012045816A1 (en) * | 2010-10-07 | 2012-04-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for level estimation of coded audio frames in a bit stream domain |
Non-Patent Citations (4)
Title |
---|
J CHEN ET AL.: "《MPEG-2 AAC decoder on a fixed-point DSP》", 《IEEE TRANSACTIONS ON CONSUMER ELECTRONICS》 * |
RANDY YATES ET AL.: "《Fixed-Point Arithmetic: An Introduction》", 《DIGITAL SIGNAL LABS》 * |
S.R. QUACKENBUSH ET AL.: "《Noiseless coding of quantized spectral components in MPEG-2 Advanced Audio Coding》", 《APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS》 * |
YO-CHENGHOUTAND ET AL.: "《IMPLEMENTATION OF IMDCT FOR MPEG2/4 AAC ON 16-BIT FIXED-POINT DIGITAL SIGNAL PROCESSORS》", 《THE 2004 IEEE ASIA-PACIFICCONFERENCEON CIRCUITS AND SYSTEMS》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017117984A1 (zh) * | 2016-01-07 | 2017-07-13 | 深圳大学 | 增强时域表达的人工耳蜗信号处理方法及系统 |
CN111342937A (zh) * | 2020-03-17 | 2020-06-26 | 北京百瑞互联技术有限公司 | 一种动态调整编解码处理器电压和/或频率的方法和装置 |
CN111342937B (zh) * | 2020-03-17 | 2022-05-06 | 北京百瑞互联技术有限公司 | 一种动态调整编解码处理器电压和/或频率的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
EP2946384B1 (en) | 2016-11-02 |
MX346358B (es) | 2017-03-15 |
CA2898005C (en) | 2018-08-14 |
KR20150106929A (ko) | 2015-09-22 |
KR101953648B1 (ko) | 2019-05-23 |
EP2946384A1 (en) | 2015-11-25 |
RU2608878C1 (ru) | 2017-01-25 |
KR20170104661A (ko) | 2017-09-15 |
MX2015009171A (es) | 2015-11-09 |
BR112015017293A2 (pt) | 2018-05-15 |
WO2014111290A1 (en) | 2014-07-24 |
US9830915B2 (en) | 2017-11-28 |
ES2604983T3 (es) | 2017-03-10 |
JP2016505168A (ja) | 2016-02-18 |
CN105210149B (zh) | 2019-08-30 |
CA2898005A1 (en) | 2014-07-24 |
BR112015017293B1 (pt) | 2021-12-21 |
US20160019898A1 (en) | 2016-01-21 |
JP6184519B2 (ja) | 2017-08-23 |
EP2757558A1 (en) | 2014-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105210149B (zh) | 用于音频信号解码或编码的时域电平调整 | |
US11043226B2 (en) | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters | |
CN102859589A (zh) | 多模式音频编译码器及其适用的码簿激励线性预测编码 | |
CN104321815A (zh) | 用于带宽扩展的高频编码/高频解码方法和设备 | |
KR20150110708A (ko) | 주파수 도메인 내의 선형 예측 코딩 기반 코딩을 위한 저주파수 강조 | |
JP7003253B2 (ja) | エンコーダおよび/またはデコーダの帯域幅の制御 | |
TW201606753A (zh) | 用以估計音訊信號中雜訊之方法、雜訊估計器、音訊編碼器、音訊解碼器、及用以傳送音訊信號之系統 | |
AU2014280256B2 (en) | Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding | |
EP3008726A1 (en) | Apparatus and method for audio signal envelope encoding, processing and decoding by modelling a cumulative sum representation employing distribution quantization and coding | |
CN105122358A (zh) | 用于处理编码信号的装置和方法与用于产生编码信号的编码器和方法 | |
KR20240066586A (ko) | 복소수 양자화를 이용하는 오디오 신호의 부호화 및 복호화 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |