CN106796800B - 音频编码器、音频解码器、音频编码方法和音频解码方法 - Google Patents
音频编码器、音频解码器、音频编码方法和音频解码方法 Download PDFInfo
- Publication number
- CN106796800B CN106796800B CN201580038795.8A CN201580038795A CN106796800B CN 106796800 B CN106796800 B CN 106796800B CN 201580038795 A CN201580038795 A CN 201580038795A CN 106796800 B CN106796800 B CN 106796800B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- frequency
- processor
- spectral
- sampling rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
一种用于对音频信号进行编码的音频编码器,包括:第一编码处理器,用于在频域中对第一音频信号部分进行编码,其中第一编码处理器包括:时间频率转换器,用于将第一音频信号部分转换为具有一直到第一音频信号部分的最大频率的频谱线的频域表示;频谱编码器,用于对频域表示进行编码;第二编码处理器,用于在时域中对第二不同音频信号部分进行编码;交叉处理器,用于从第一音频信号部分的编码的频谱表示中计算第二编码处理器的初始化数据,使得第二编码处理被初始化以对音频信号中按时间紧随第一音频信号部分的第二音频信号部分进行编码;控制器,被配置为分析音频信号并且用于确定第一音频信号部分,以及第二音频信号部分;和编码信号形成器。
Description
技术领域
本发明涉及音频信号编码和解码,并且特别地涉及使用并行频域和时域编码器/解码器处理器的音频信号处理。
背景技术
为了用于音频信号的高效存储或传输的数据减少的目的,音频信号的感知编码是一种广泛使用的实践。特别地,当要实现最低比特率时,所采用的编码导致音频质量的降低,这通常主要由要发送的音频信号带宽的编码器侧的限制引起。这里,通常对音频信号进行低通滤波,使得没有频谱波形内容保留在某个预先确定的截止频率之上。
在当代的编解码器中,存在用于通过音频信号带宽扩展(BWE)的解码器侧信号恢复的公知方法,例如,在频域中操作的频谱带复制(SB R)或所谓的时域带宽扩展(TD-BWE)是在时域中操作的语音编码器中的后处理器。
另外,存在若干组合的时域/频域编码构思,例如在术语AMR-WB+ 或USAC下已知的构思。
所有这些组合的时域/编码构思具有以下共同之处:频域编码器依赖于将频带限制引入输入音频信号中的带宽扩展技术,并且交叉频率或边界频率以上的部分用低分辨率编码构思编码并在解码器侧合成。因此,这些构思主要依赖于编码器侧的预处理器技术和解码器侧的相应后处理功能。
通常,选择时域编码器用于在时域中编码的有用信号(例如语音信号),并且选择频域编码器用于非语音信号、音乐信号等。然而,特别是针对在高频带中具有突出谐波的非语音信号,现有技术的频域编码器具有降低的精度,并且因此具有降低的音频质量,这是由于以下事实:这样的突出谐波只能被分离地以参数方式编码,或者在编码/解码处理中完全被消除。
此外,存在这样的构思,其中时域编码/解码分支另外依赖于也以参数方式对较高频率范围进行编码的带宽扩展,而较低频率范围通常使用ACELP或任何其它CELP相关编码器(例如语音编码器)进行编码。这种带宽扩展功能性增加了比特率效率,但是另一方面,由于两个编码分支,即频域编码分支和时域编码分支由于在基本上低于包括在输入音频信号中的最大频率的某个交叉频率以上进行操作的频谱带复制过程或带宽扩展过程而被频带限制的事实,引入了进一步的不灵活性。
现有技术的相关主题包括
-SBR作为用于波形解码的后处理器[1-3]
-MPEG-D USAC核心切换[4]
-MPEG-H 3D IGF[5]
以下论文和专利描述了被认为构成本申请的现有技术的方法:
M.Dietz,L.Liljeryd,K.和O.Kunz,“Spectral Band Replication,anovel approach in audio coding,”在第112届AES 大会,慕尼黑,德国,2002。
S.Meltzer,R.和F.Henn,“SBR enhanced audio codecs fo r digitalbroadcasting such as“Digital Radio Mondiale”(DR M),”在第112届AES大会,慕尼黑,德国,2002。
T.Ziegler,A.Ehret,P.Ekstrand和M.Lutzky,“Enhancing mp3 with SBR:Features and Capabilities of the new mp3PRO Algorith m,”在第112届AES大会,慕尼黑,德国,2002。
MPEG-D USAC标准。
PCT/EP2014/065109。
在MPEG-D USAC中,描述了一种可切换核心编码器。然而,在USAC 中,带限核心被限制为总是发送低通滤波信号。因此,包含突出的高频内容的某些音乐信号例如全频带扫描、三角形声音等不能忠实地再现。
发明内容
本发明的目的是提供一种用于音频编码的改进的构思。
该目的通过权利要求1的音频编码装置编码器、权利要求10的音频解码器、权利要求15的音频编码方法、权利要求16的音频解码方法或权利要求17的计算机程序来实现。
本发明基于以下发现:时域编码/解码处理器可以与具有间隙填充功能的频域编码/解码处理器组合,但是用于填充频谱空洞的该间隙填充功能在音频信号的整个频带上或至少在某个间隙填充频率以上进行操作。重要的是,频域编码/解码处理器特别地能够以执行高达最大频率的精确或波形或频谱值编码/解码,而不仅是直到交叉频率为止。此外,用于以高分辨率编码的频域编码器的全频带能力允许将间隙填充功能集成到频域编码器中。
在一个方面,全带隙填充与时域编码/解码处理器组合。在实施例中,两个分支中的采样率相等,或者时域编码器分支中的采样率低于频域分支中的采样率。
在另一方面中,在没有间隙填充但执行全频带核心编码/解码的情况下操作的频域编码器/解码器与时域编码处理器组合,并且提供交叉处理器用于时域编码/解码处理器的连续初始化。在这方面,采样率可以如在另一方面中那样,或者频域分支中的采样率甚至低于时域分支中的采样率。
因此,根据本发明,通过使用全频带频谱编码器/解码器处理器,一方面与带宽扩展的分离相关和另一方面与核心编码相关的问题可以通过执行在核心解码器操作的相同频谱域中的带宽扩展来解决和克服。因此,提供全速率核心解码器,其对全音频信号范围进行编码和解码。这不要求对在编码器侧上的下采样器和在解码器侧上的上采样器的需要。替代地,整个处理在全采样率或全带宽域中执行。为了获得高编码增益,分析音频信号以便找到必须以高分辨率编码的第一组第一频谱部分,其中该第一组第一频谱部分在一个实施例中可以包括:音频信号的音调部分。另一方面,构成第二组第二频谱部分的音频信号中的非音调或噪声分量被以低频谱分辨率以参数方式编码。编码的音频信号然后仅要求以具有高频谱分辨率的波形保持方式编码的第一组第一频谱部分,以及此外,以使用来源于第一组的频率“拼块(tile)”的低分辨率以参数方式编码的第二组第二频谱部分。在解码器侧,作为全频带解码器的核心解码器以波形保持方式重建第一组第一频谱部分,即,没有任何存在任何附加频率再生的知识。然而,如此产生的频谱具有许多频谱间隙。这些间隙随后通过一方面使用应用参数数据的频率再生和另一方面使用源频谱范围(即,由全速率音频解码器重建的第一频谱部分)而用智能间隙填充(IGF)技术填充。
在另外的实施例中,通过仅噪声填充而不是带宽复制或频率拼块填充来重建的频谱部分构成第三组第三频谱部分。由于编码构思在用于一方面核心编码/解码和另一方面频率再生的单个域中操作的事实,通过在没有频率再生的情况下的噪声填充或通过使用在不同频率范围的频率拼块的频率再生,IGF不仅被限制为填满较高的频率范围,而且可以填满较低的频率范围。
此外,要强调的是,关于频谱能量的信息,关于各个能量的信息或个别能量信息,关于存活能量的信息或存活能量信息,关于拼块能量的信息或拼块能量信息,或者关于缺失能量的信息或缺失能量信息可以不仅包括能量值,而且还包括(例如绝对的)振幅值、电平值或任何其他值,从中可以导出最终能量值。因此,关于能量的信息可以例如包括能量值本身,和/或电平的和/或振幅的和/或绝对振幅的值。
另外的方面基于以下发现:相关情况不仅对于源范围重要,而且对于目标范围也重要。此外,本发明承认在源范围和目标范围中可能发生不同相关情况的情况。例如,当考虑具有高频噪声的语音信号时,情况可能是当扬声器放置在中间时包括具有小数量的泛音的语音信号的低频带在左声道和右声道中高度相关。然而,由于在左侧可能存在与另一高频噪声相比不同的高频噪声或在右侧没有高频噪声的事实,所以高频部分可以是强烈不相关的。因此,当执行忽略这种情况的直接间隙填充操作时,则高频部分也将相关,并且这可能在重建信号中产生严重的空间隔离伪像。为了解决这个问题,计算针对重建频带的参数数据,或者一般地,针对必须使用第一组第一频谱部分重建的第二组第二频谱部分的参数数据,以识别针对第二频谱部分的第一或第二不同的双声道表示,或换句话说,针对重建频带的第一或第二不同的双声道表示。因此,在编码器侧,针对第二频谱部分计算双声道识别,即针对另外计算重建频带的能量信息的部分计算双声道识别。在解码器侧的频率再生器然后根据第一组第一频谱部分的第一部分(即,用于第二部分的源范围和参数数据,例如频谱包络能量信息或任何其它频谱包络数据)并且另外根据针对第二部分(即,针对重新考虑下的该重建频带)的双声道识别,来再生第二频谱部分。
双声道识别优选地作为每个重建频带的标志被发送,并且该数据从编码器发送到解码器,然后解码器如由针对核心频带的优选计算的标志所指示的那样对核心信号进行解码。然后,在实现中,核心信号以立体声表示(例如左/右和中/侧)存储,并且对于IGF频率拼块填充,选择源拼块表示以如由用于智能间隙填充或重建频带(即,用于目标范围) 的双声道识别标志指示的那样适合目标拼块表示。
要强调的是,该过程不仅针对立体声信号,即针对左声道和右声道工作,而且针对多声道信号操作。在多声道信号的情况下,可以以这种方式处理几对不同的声道,例如左和右声道作为第一对,左环绕声道和右环绕作为第二对以及中心声道和LFE声道作为第三对。可以针对诸如7.1、11.1等较高输出声道格式确定其他配对。
另外的方面是基于以下发现:通过IGF可以改进重建信号的音频质量,因为整个频谱对于核心编码器是可访问的,使得例如在高频谱范围中的感知上重要的音调部分仍然可以由核心编码器编码而不是由参数替代编码。另外,执行使用来自第一组第一频谱部分的频率拼块的间隙填充操作,所述第一组第一频谱部分例如是通常来自较低频率范围的一组音调部分,但也是来自较高频率范围(如果可用)的一组音调部分。然而,对于解码器侧的频谱包络调整,来自位于重建频带中的第一组频谱部分的频谱部分不进一步由例如频谱包络调整进行后处理。只有重建频带中不是源自核心解码器的剩余频谱值将使用包络信息进行包络调整。优选地,包络信息是计及重建频带中的第一组第一频谱部分和同一重建频带中的第二组第二频谱部分的能量的全频带包络信息,其中在第二组第二频谱部分中的后者频谱值被指示为零,并因此不由核心编码器编码,而是用低分辨率能量信息以参数方式编码。
已经发现,相对于相应频带的带宽的标准化或不标准化的绝对能量值在解码器侧的应用中是有用的和非常高效的。这尤其适用于当必须基于重建频带中的残留能量、重建频带中的缺失能量和重建频带中的频率拼块信息来计算增益因子时。
此外,优选的是,编码的比特流不仅覆盖重建频带的能量信息,而且还另外覆盖扩展一直到最大频率的比例因子频带的比例因子。这确保对于某个音调部分(即第一频谱部分)可用的每个重建频带,该第一组第一频谱部分实际上可以用正确的振幅解码。此外,除了用于每个重建频带的比例因子之外,在编码器中产生用于该重建频带的能量,并将其发送到解码器。此外,优选的是重建频带与比例因子频带一致,或者在能量分组的情况下,至少重建频带的边界与比例因子频带的边界一致。
本发明的另一实现应用了拼块白化操作。频谱的白化去除了粗糙的频谱包络信息,并且强调了对于评估拼块相似性最感兴趣的频谱精细结构。因此,一方面频率拼块和/或另一方面源信号在计算交叉相关测量之前被白化。当仅使用预定义过程白化该拼块时,发送白化标志,指示解码器应该对IGF内的频率拼块应用相同的预定义白化过程。
关于拼块选择,优选地使用相关性的滞后以通过整数个变换仓(t ransform bin)来在频谱上移动再生的频谱。根据基础变换,频谱移动可能要求附加校正。在奇数滞后的情况下,通过乘以-1/1的交替时间序列来附加地调制拼块,以补偿MDCT内每隔一个频带的频率反转表示。此外,当产生频率拼块时,应用相关结果的符号。
此外,优选地使用拼块修剪和稳定性,以便确保避免由用于相同重建区域或目标区域的快速变化的源区域创建的伪像。为此,执行不同识别的源区域之间的相似性分析,并且当源拼块类似于具有高于阈值的相似性的其他源拼块时,则该源拼块可以从该组潜在源拼块中丢弃,因为它与其他源拼块高度相关。此外,作为一种拼块选择稳定性,如果当前帧中的源拼块中没有一个与当前帧中的目标拼块相关(优于给定阈值),则优选地保持来自先前帧的拼块次序。
另外的方面是基于以下发现:通过将时间噪声整形(TNS)或时间拼块整形(TTS)技术与高频率重建组合来获得特别针对包括瞬态部分 (因为它们经常发生在音频信号中)的信号的改进的质量和降低的比特率。通过相对于频率的预测实现的在编码器侧的TNS/TTS处理重建了音频信号的时间包络。根据实现,即,当时间噪声整形滤波器被确定在不仅覆盖源频率范围而且还覆盖频率再现解码器中要重建的目标频率范围的频率范围内时,时间包络不仅应用于核心音频信号一直到间隙填充起始频率,而且时间包络也应用于重建的第二频谱部分的频谱范围。因此,减少或消除了在没有时间拼块整形的情况下将发生的前回波或后回波。这通过不仅在一直到某个间隙填充起始频率的核心频率范围内而且在核心频率范围之上的频率范围内应用相对于频率的逆预测来实现。为此,在应用相对于频率的预测之前,在解码器侧执行频率再生或频率拼块产生。然而,相对于频率的预测可以在频谱包络整形之前或之后应用,这取决于能量信息计算是对滤波之后的频谱残留值已经执行还是对包络整形之前的(全部)频谱值已经执行。
相对于一个或多个频率拼块的TTS处理另外建立了源范围和重建范围之间或两个相邻重建范围或频率拼块中的相关性的连续性。
在实现中,优选使用复数TNS/TTS滤波。从而,避免了临界采样的实数表示(如MDCT)的(时间)混叠伪像。除了获得复数修改的变换之外,可以通过不仅应用修改的离散余弦变换而且还应用修改的离散正弦变换在编码器侧计算复数TNS滤波。尽管如此,只有修改的离散余弦变换值,即复数变换的实部被发送。然而,在解码器侧,有可能使用先前或后续帧的MDCT频谱来估计该变换的虚部,使得在解码器侧,复数滤波器可以再次应用于相对于频率的逆预测,以及,具体地,相对于源范围和重建范围之间的边界以及也相对于重建范围内的频率相邻频率拼块之间的边界的预测。
本发明的音频编码系统以宽范围的比特率有效地对任意音频信号编码。然而,对于高比特率,本发明的系统收敛到透明性,对于低比特率,感知烦扰被最小化。因此,可用比特率的主要份额用于仅对编码器中的信号的感知上最相关的结构进行波形编码,并且所得到的频谱间隙被填充在具有粗略地近似于原始频谱的信号内容的解码器中。通过从编码器发送到解码器的专用辅助信息,消耗非常有限的比特预算来控制参数驱动的所谓的频谱智能间隙填充(IGF)。
在另外的实施例中,时域编码/解码处理器依赖于较低的采样率和相应的带宽扩展功能。
在另外的实施例中,提供交叉处理器以便利用从当前处理的频域编码器/解码器信号导出的初始化数据来初始化时域编码器/解码器。这允许当当前处理的音频信号部分由频域编码器处理时,并行时域编码器被初始化,使得当从频域编码器到时域编码器的切换发生时,该时域编码器可以立即开始处理,因为与更早的信号相关的所有初始化数据由于交叉处理器而已经存在。该交叉处理器优选地应用于编码器侧,并且另外应用于解码器侧,并且优选地使用频率-时间变换,其另外通过仅选择域信号的某个低频带部分以及某个减小的变换尺寸来执行从较高输出或输入采样率到较低时域核心编码器采样率中的非常高效的下采样。因此,非常有效地执行从高采样率到低采样率的采样率转换,并且然后可以使用通过具有减小的变换尺寸的变换获得的该信号来初始化时域编码器/解码器,使得时域编码器/解码器准备好当这种情况由控制器用信号通知并且紧接在前的音频信号部分在频域中编码时立即执行时域编码。
如概述的,交叉处理器实施例可以依赖于频域中的间隙填充,或不依赖于此。因此,时域和频域编码器/解码器经由交叉处理器组合,并且频域编码器/解码器可以依赖于间隙填充,或不依赖于此。具体地,优选如所述的某些实施例:
这些实施例在频域中采用间隙填充,并且具有以下采样率数字,并且可以或可以不依赖于交叉处理器技术:
输入SR=8kHz,ACELP(时域)SR=12.8kHz。
输入SR=16kHz,ACELP SR=12.8kHz。
输入SR=16kHz,ACELP SR=16.0kHz。
输入SR=32.0kHz,ACELP SR=16.0kHz。
输入SR=48kHz,ACELP SR=16kHz。
这些实施例可以或可以不在频域中采用间隙填充,并且具有以下采样率数字并且依赖于交叉处理器技术:
TCX SR低于ACELP SR(8kHz对12.8kHz),或者其中TCX和ACELP二者都在16.0kHz运行,并且其中不使用任何间隙填充。
因此,本发明的优选实施例允许包括频谱间隙填充的感知音频编码器和具有或不具有带宽扩展的时域编码器的无缝切换。
因此,本发明依赖于不限于在频域编码器中从音频信号中去除截止频率以上的高频内容的方法,而是在编码器中信号自适应地去除留下频谱间隙的频谱带通区域并随后在解码器中重建这些频谱间隙。优选地,使用诸如智能间隙填充的集成解决方案,其特别在MDCT变换域中有效地组合全带宽音频编码和频谱间隙填充。
因此,本发明提供了一种用于将语音编码和随后的时域带宽扩展与包括频谱间隙填充的全频带波形解码组合成可切换感知编码器/解码器的改进的构思。
因此,与已经存在的方法相比,新构思在变换域编码器中利用全频带音频信号波形编码,并且同时允许到语音编码器的无缝切换,优选地随后是时域带宽扩展。
本发明的其它实施例避免了由于固定频带限制而发生的解释的问题。该构思实现了在配备有频谱间隙填充的频域中的全频带波形编码器和较低采样率语音编码器和时域带宽扩展的可切换组合。这种编码器能够对上述有问题的信号进行波形编码,从而提供一直到音频输入信号的奈奎斯特频率的全音频带宽。尽管如此,两种编码策略之间的无缝瞬时切换特别地由具有交叉处理器的实施例来保证。对于这种无缝切换,交叉处理器表示在全频带能力全速率(输入采样率)频域编码器和具有较低采样率的低速率ACELP编码器之间的编码器和解码器二者处的交叉连接,以当从诸如TCX之类的频域编码器切换到诸如ACELP之类的时域编码器时,适当地初始化ACELP参数和缓冲器,特别是在自适应码本、LPC滤波器或重新采样级内。
附图说明
随后相对于附图讨论本发明,其中:
图1A示出了用于对音频信号进行编码的装置;
图1B示出了与图1A的编码器匹配的用于对编码的音频信号进行解码的解码器;
图2A示出了解码器的优选实现;
图2B示出了编码器的优选实现;
图3A示出了由图1B的频域解码器产生的频谱的示意性表示;
图3B示出了指示用于比例因子频带的比例因子和用于重建频带的能量与用于噪声填充频带的噪声填充信息之间的关系的表格;
图4A示出了用于将频谱部分的选择应用到第一和第二组频谱部分中的频谱域编码器的功能;
图4B示出了图4A的功能的实现;
图5A示出了MDCT编码器的功能;
图5B示出了具有MDCT技术的解码器的功能;
图5C示出了频率再生器的实现;
图6示出了音频编码器的实现;
图7A示出了音频编码器内的交叉处理器;
图7B示出了另外在交叉处理器内提供采样率降低的逆或频率-时间变换的实现;
图8示出了图6的控制器的优选实现;
图9示出了具有带宽扩展功能的时域编码器的另外的实施例;
图10示出了预处理器的优选使用;
图11A示出了音频解码器的示意性实现;
图11B示出了解码器内的用于为时域解码器提供初始化数据的交叉处理器;
图12示出了图11A的时域解码处理器的优选实现;
图13示出了时域带宽扩展的另外的实现;
图14A示出了音频编码器的优选实现;
图14B示出了音频解码器的优选实现;
图14C示出了具有采样率转换和带宽扩展的时域解码器的创造性实现。
具体实施方式
图6示出了用于对音频信号进行编码的音频编码器,包括用于在频域中对第一音频信号部分进行编码的第一编码处理器600。第一编码处理器600包括时间频率转换器602,用于将第一输入音频信号部分转换为具有一直到输入信号的最大频率的频谱线的频域表示。此外,第一编码处理器600包括分析器604,用于分析一直到最大频率的频域表示,以确定要用第一频谱表示编码的第一频谱区域,并确定要用第二频谱分辨率编码的第二频谱区域,所述第二频谱分辨率低于第一频谱分辨率。特别地,全频带分析器604确定时间频率转换器频谱中的哪些频率线或频谱值要被频谱线方式编码,以及哪些其他频谱部分要以参数方式编码,然后这些后者的频谱值在解码器侧用间隙填充过程重建。实际编码操作由频谱编码器606执行,频谱编码器606用于以第一分辨率对第一频谱区域或频谱部分进行编码,并且用于以参数方式用第二频谱分辨率对第二频谱区域或部分进行编码。
图6的音频编码器还包括用于在时域中对音频信号部分进行编码的第二编码处理器610。另外,音频编码器包括控制器620,其被配置用于分析音频信号输入601处的音频信号,并且用于确定音频信号的哪个部分是在频域中编码的第一音频信号部分,以及音频信号的哪个部分是在时域中编码的第二音频信号部分。此外,提供可以例如实现为比特流多路复用器的编码信号形成器630,其被配置用于形成编码的音频信号,该编码的音频信号包括用于第一音频信号部分的第一编码信号部分和用于第二音频信号部分的第二编码信号部分。重要的是,编码的信号仅具有来自同一个音频信号部分的频域表示或时域表示。
因此,控制器620确保对于单个音频信号部分,在编码的信号中仅有时域表示或频域表示。这可以由控制器620以若干方式实现。一种方式将是,对于同一个音频信号部分,两个表示到达块630,并且控制器6 20控制编码信号形成器630以仅将两个表示中的一个引入到编码的信号中。然而,备选地,控制器620可以控制到第一编码处理器中的输入和到第二编码处理器中的输入,使得基于相应的信号部分的分析,仅激活块600或610二者中的一个来实际执行完全编码操作,并且其他块被去激活。
该去激活可以是去激活,备选地,例如相对于图7A所示,仅仅是一种“初始化”模式,其中另一个编码处理器仅仅对于接收和处理初始化数据是活动的以便初始化内部存储器,但是根本不执行任何特定的编码操作。该激活可以通过在图6中未示出的输入处的某个开关来完成,或优选地,通过控制线621和622来完成。因此,在该实施例中,当控制器620已经确定当前音频信号部分应该由第一编码处理器编码,而第二编码处理器仍然被提供有初始化数据以对于将来的瞬时切换是活动的时,第二编码处理器610不输出任何东西。另一方面,第一编码处理器被配置为不需要来自过去的任何数据来更新任何内部存储器,并且因此,在当前音频信号部分要由第二编码处理器610编码时,则控制器620可以经由控制线621控制第一结束编码处理器600完全不活动。这意味着第一编码处理器600不需要处于初始化状态或等待状态,而是可以处于完全去激活状态。这特别对于其中功耗和因此电池寿命成为问题的移动设备而言是优选的。
在时域中操作的第二编码处理器的进一步具体实现中,第二编码处理器包括下采样器900或采样率转换器,用于将音频信号部分转换为具有较低采样率的表示,其中较低采样率低于在到第一编码处理器中的输入处的采样率。这在图9中示出。特别地,当输入音频信号包括低频带和高频带时,优选的是,在块900的输出处的较低采样率表示仅具有输入音频信号部分的低频带,然后该低频带由时域低频带编码器910进行编码,时域低频带编码器910被配置用于对由块900提供的较低采样率表示进行时域编码。此外,提供了时域带宽扩展编码器920,用于以参数方式对高频带进行编码。为此,时域带宽扩展编码器920至少接收输入音频信号的高频带或输入音频信号的低频带和高频带。
在本发明的另一实施例中,音频编码器另外包括(虽然在图6中未示出,但在图10中示出)预处理器1000,其被配置用于预处理第一音频信号部分和第二音频信号部分。优选地,预处理器100包括两个分支,其中第一分支在12.8kHz运行,并且执行稍后在噪声估计器、VAD等中使用的信号分析。第二分支以ACELP采样率运行,即取决于配置12.8或16.0kHz。在ACELP采样率为12.8kHz的情况下,该分支中的大多数处理实际上被跳过,而替代地使用第一分支。
特别地,预处理器包括瞬态检测器1020,并且第一分支由重新采样器1021“打开”到例如12.8kHz,后面是预加重级1005a、LPC分析器1 002a、加权分析滤波级1022a和FFT/噪声估计器/语音活动检测(VAD) 或音调搜索级1007。
第二分支由重新采样器1004“打开”到例如12.8kHz或16kHz,即 ACELP采样率,后面是预加重级1005b、LPC分析器1002b、加权分析滤波级1022b和TCX LTP参数提取级1024。块1024将其输出提供给比特流多路复用器。块1002连接到由ACELP/TCX决定控制的LPC量化器1010,并且块 1010也连接到比特流多路复用器。
备选地,其他实施例可以仅包括单个分支或多个分支。在一个实施例中,该预处理器包括用于确定预测系数的预测分析器。该预测分析器可以实现为用于确定LPC系数的LPC(线性预测编码)分析器。然而,也可以实现其他分析器。此外,替代实施例中的预处理器可以包括预测系数量化器,其中该设备从预测分析器接收预测系数数据。
然而,优选地,LPC量化器不必须是预处理器的一部分,并且它被实现为主编码例程的一部分,即不是预处理器的一部分。
此外,预处理器可以另外包括用于产生量化预测系数的编码的版本的熵编码器。重要的是要注意,编码信号形成器630或特定实现,即比特流多路复用器630确保量化预测系数的编码的版本被包括在编码的音频信号632中。优选地,LPC系数不被直接量化,而是被转换为例如IS F表示,或者更适合于量化的任何其它表示。该转换优选地通过确定LPC 系数块来执行或者在用于使LPC系数量化的块内执行。
此外,预处理器可以包括重新采样器,用于以输入采样率将音频输入信号重新采样为用于时域编码器的较低采样率。当时域编码器是具有某个ACELP采样率的ACELP编码器时,则下采样被执行优选到12.8kHz 或16kHz。输入采样率可以是特定数量的采样率(例如32kHz或甚至更高的采样率)中的任何一个。另一方面,时域编码器的采样率将由某些限制预先确定,并且重新采样器1004执行该重新采样并输出输入信号的较低采样率表示。因此,重新采样器可以执行类似的功能,并且甚至可以是如图9的上下文中所示的下采样器900那样的同一个元件。
此外,优选地在预加重块中应用预加重。预加重处理在时域编码领域中是公知的,并且在参考AMR-WB+处理的文献中描述,并且预加重特别地被配置用于补偿频谱倾斜,并因此允许以给定的LPC次序更好地计算LPC参数。
此外,预处理器可以另外包括用于控制图14B中的1420处所示的LT P后滤波器的TCX-LTP参数提取。此外,预处理器可以另外包括在1007处示出的其他功能,并且这些其他功能可以包括音调搜索功能、话音活动检测(VAD)功能或者时域或语音编码领域中已知的任何其他功能。
如所示,块1024的结果被输入到编码的信号中,即,在图14A的实施例中,被输入到比特流多路复用器630中。此外,如果需要,来自块1 007的数据也可以被引入到比特流多路复用器中,或者可以备选地用于在时域编码器中的时域编码的目的。
因此,总而言之,两个路径共用的是预处理操作1000,其中执行常用的信号处理操作。这些包括针对一个并行路径的到ACELP采样率(1 2.8或16kHz)的重新采样,并且总是执行该重新采样。此外,执行在块 1024处示出的TCX LTP参数提取,另外,执行LPC系数的预加重和确定。如概述的,预加重补偿了频谱倾斜,因此使得以给定LPC次序进行的LPC 参数的计算更有效。
随后,参考图8,以便示出控制器620的优选实现。控制器在输入处接收所考虑的音频信号部分。优选地,如图14A所示,控制器接收在预处理器1000中可用的任何信号,其可以是以输入采样率的原始输入信号或以较低时域编码器采样率的重新采样版本,或者是在块1005中的预加重处理之后获得的信号。
基于该音频信号部分,控制器620寻址频域编码器模拟器621和时域编码器模拟器622,以便针对每个编码器可能性计算估计的信噪比。随后,选择器623自然地在考虑预定义比特率的情况下选择已经提供更好的信噪比的编码器。选择器然后通过控制输出识别相应的编码器。当确定考虑下的音频信号部分要使用频域编码器进行编码时,时域编码器被设置为初始化状态,或者在其他实施例中,在完全去激活状态下不要求非常瞬时的切换。然而,当确定考虑下的音频信号部分要由时域编码器进行编码时,则频域编码器被去激活。
随后,示出了图8中所示的控制器的优选实现。通过模拟ACELP和T CX编码器并切换到更好的执行分支,在切换决定中执行应该是选择ACEL P还是选择TCX路径的决定。为此,基于ACELP和TCX编码器/解码器模拟来估计ACELP和TCX分支的SNR。在没有TNS/TTS分析、IGF编码器、量化回路/算术编码器或没有任何TCX解码器的情况下执行TCX编码器/解码器模拟。替代地,使用整形后的MDCT域中的量化器失真的估计来估计TCX SNR。仅使用自适应码本和创新码本的模拟来执行ACELP编码器/解码器模拟。通过计算由加权信号域(自适应码本)中的LTP滤波器引入的失真并通过常数因子(创新码本)按比例缩放该失真来简单地估计ACELP SNR。因此,与并行执行TCX和ACELP编码的方法相比,复杂度大大降低。具有较高SNR的分支被选择用于随后的完整编码运行。
在选择TCX分支的情况下,在每个帧中运行TCX解码器,其以ACELP 采样率输出信号。这用于更新用于ACELP编码路径(LPC残留、Mem wO、存储器去加重)的存储器,以实现从TCX到ACELP的瞬时切换。在每个TC X路径中执行存储器更新。
备选地,可以执行通过合成处理进行的完全分析,即,编码器模拟器621、622二者都实现实际编码操作,并且结果由选择器623进行比较。备选地,再次,可以通过执行信号分析来完成完整的前馈计算。例如,当通过信号分类器确定信号是语音信号时,选择时域编码器,并且当确定信号是音乐信号时,则选择频域编码器。还可以应用其它过程以便基于对所考虑的音频信号部分的信号分析来在两个编码器之间进行区分。
优选地,音频编码器另外包括图7A中所示的交叉处理器700。当频域编码器600是活动的时,交叉处理器700向时域编码器610提供初始化数据,使得时域编码器准备好用于未来信号部分中的无缝切换。换句话说,当使用频域编码器确定当前信号部分要被编码时,并且当控制器确定紧接在后的音频信号部分要由时域编码器610编码时,则在没有交叉处理器的情况下,这种立即无缝切换将是不可能的。然而,为了初始化时域编码器中的存储器的目的,交叉处理器向时域编码器610提供从频域编码器600导出的信号,因为时域编码器610具有对来自输入的当前帧或按时间紧接在前的帧的编码的信号的依赖性。
因此,时域编码器610被配置为由初始化数据初始化,以便以高效的方式对由频域编码器600编码的较早的音频信号部分之后的音频信号部分进行编码。
特别地,交叉处理器包括用于将频域表示转换为时域表示的频率- 时间转换器,所述时域表示可以直接或在一些进一步处理之后被转发到时域编码器。该转换器在图14A中示出为IMDCT(逆修改的离散余弦变换) 块。然而,与图14A中所示的时间-频率转换器块602相比,该块702具有不同的变换尺寸(修改的离散余弦变换块)。如块602所示,在一些实施例中,时间-频率转换器602以输入采样率操作,并且逆修改的离散余弦变换702以较低ACELP采样率操作。
在其它实施例中,例如具有8kHz输入采样率的窄带操作模式,TCX 分支以8kHz操作,而ACELP仍然以12.8kHz运行。即,ACELP SR不总是低于TCX采样率。对于16kHz输入采样率(宽带),还存在ACELP以与TCX相同的采样率运行的场景,即二者都以16kHz运行。在超宽带模式(SWB) 中,输入采样率处于32或48kHz。
可以计算时域编码器采样率或ACELP采样率与频域编码器采样率或输入采样率的比率,并且它是图7B所示的下采样因子DS。当下采样操作的输出采样率低于输入采样率时,下采样因子大于1。然而,当存在实际上采样时,则下采样率低于1,并且执行实际上采样。
对于大于1的下采样因子,即,对于实际下采样,块602具有大变换尺寸,且IMDCT块702具有小变换尺寸。如图7B所示,IMDCT块702因此包括用于选择到IMDCT块702中的输入的较低频谱部分的选择器726。全频带频谱的部分由下采样因子DS限定。例如,当较低采样率是16kHz并且输入采样率是32kHz时,则下采样因子是2.0,因此,选择器726选择全频带频谱的下半部分。当频谱具有例如1024个MDCT线时,则选择器选择下部的512个MDCT线。
全频带频谱的这个低频部分被输入到小尺寸变换和展开(foldout) 块720中,如图7B所示。该变换尺寸还根据下采样因子来选择,并且是在块602中变换尺寸的50%。然后执行合成窗口化,其中窗口具有小数量的系数。合成窗口的系数的数量等于下采样因子的倒数乘以块602所使用的分析窗口的系数的数量。最后,以每块更小数量的操作执行重叠相加操作,并且每块的操作数量再次是全速率实现MDCT中的每块的操作数量乘以下采样因子的倒数。
因此,可以应用非常高效的下采样操作,因为下采样被包括在IMD CT实现中。在该上下文中,要强调的是,块702可以由IMDCT实现,但是也可以由可以在实际变换内核和其他变换相关操作中适当地定尺寸的任何其他变换或滤波器组实现来实现。
对于低于1的下采样因子,即对于实际的上采样,图7中的符号,块720、722、724、726必须被反转。块726选择全频带频谱并且对于不包括在全频带频谱中的上频谱线另外置零。块720具有大于块710的变换尺寸,且块722具有系数的数量大于块712中的窗口,且块724也具有大于块714中的数量的操作。
块602具有小变换尺寸,并且IMDCT块702具有大变换尺寸。如图7B 所示,IMDCT块702因此包括用于选择到IMDCT块702中的输入的全频谱部分的选择器726,并且对于输出所需的附加高频带,选择零或噪声并将其放置在所需的上频带中。全频带频谱的部分由下采样因子DS限定。例如,当较高采样率是16kHz,并且输入采样率是8kHz时,则下采样因子是0.5,因此,选择器726选择全频带频谱,并且另外优选地选择零或小能量随机噪声用于不包括在全带频域频谱中的上部分。当频谱具有例如 1024个MDCT线时,则选择器选择1024个MDCT线,并且对于附加的1024个 MDCT线,优选地选择零。
全频带频谱的该频率部分被输入到随后的小尺寸变换和展开块720 中,如图7B所示。该变换尺寸还根据下采样因子来选择,并且是在块60 2中变换尺寸的200%。然后执行具有带有更高数量的系数的窗口的合成窗口化。合成窗口的系数的数量等于倒数下采样因子除以块602所使用的分析窗口的系数的数量。最后,以每块更高数量的操作执行重叠相加操作,并且每块的操作数量再次是全速率实现MDCT中的每块的操作数量乘以下采样因子的倒数。
因此,可以应用非常高效的上采样操作,因为上采样被包括在IMD CT实现中。在该上下文中,要强调的是,块702可以由IMDCT实现,但是也可以由可以在实际变换内核和其他变换相关操作中适当地定尺寸的任何其他变换或滤波器组实现来实现。
通常,概述了频域中的采样率的定义需要一些解释。频谱带通常被下采样。因此,使用有效采样率或“相关联”采样或采样率的概念。在滤波器组/变换的情况下,有效采样率将被限定为
Fs_eff=subbandsamplerate*num_subbands
在图14A所示的另一实施例中,时间-频率转换器除了分析器之外还包括附加功能。图6的分析器604可以包括在图14A的实施例中的时间噪声整形/时间拼块整形分析块604a,其如在针对TNS/TTS分析块604a的图2B块222的上下文中讨论的那样进行操作,并且针对对应于图14A中的 IGF编码器604b的音调掩码226关于图2所示的那样进行操作。
此外,频域编码器优选地包括噪声整形块606a。噪声整形块606a 由如块1010产生的量化LPC系数控制。用于噪声整形606a的量化LPC系数执行直接编码(而不是以参数方式编码)的高分辨率频谱值或频谱线的频谱整形,并且块606a的结果类似于LPC滤波级之后的信号的频谱,其在时域(例如稍后将描述的LPC分析滤波块704)中进行操作。此外,然后如块606b所示,对噪声整形块606a的结果进行量化和熵编码。块606b 的结果对应于编码的第一音频信号部分或频域编码的音频信号部分(连同其它辅助信息一起)。
交叉处理器700包括用于计算第一编码信号部分的经解码版本的频谱解码器。在图14A的实施例中,频谱解码器701包括前面讨论的逆噪声整形块703、可选的间隙填充解码器704、TNS/TTS合成块705和IMDCT块7 02。这些块撤消由块602至606b执行的特定操作。具体地,噪声整形块7 03基于量化的LPC系数1010来撤销由块606a执行的噪声整形。IGF解码器 704如关于图2A所讨论的那样操作块202和206,并且TNS/TTS合成块705 如在图2A的块210的上下文中所时论的那样操作,并且频谱解码器另外包括IMDCT块702。此外,图14A中的交叉处理器700另外或备选地包括延迟级707,用于将由频谱解码器701获得的经解码版本的延迟版本馈送在第二编码处理器的去加重级617中,以用于初始化去加重级617的目的。
此外,交叉处理器700可以附加地或备选地包括加权预测系数分析滤波级708,用于对经解码版本进行滤波并用于将滤波后的经解码版本馈送到第二编码处理器的在图14A中指示为“MMSE”的码本确定器613,以用于初始化该块。附加地或备选地,交叉处理器包括LPC分析滤波级,用于将由频谱解码器700输出的第一编码信号部分的经解码版本滤波到自适应码本级612,以用于块612的初始化。另外或备选地,交叉处理器还包括预加重级709,用于在LPC滤波之前对由频谱解码器701输出的经解码版本执行预加重处理。预加重级输出也可以被馈送到另外的延迟级 710,用于在时域编码器610内初始化LPC合成滤波块616的目的。
如图14A所示,时域编码器处理器610包括在较低ACELP采样率上的预加重操作。如所示,该预加重是在预处理级1000中执行的预加重,并且具有附图标记1005。预加重数据被输入到在时域中进行操作的LPC分析滤波级611中,并且该滤波器由通过预处理级1000获得的量化LPC系数 1010控制。如从AMR-WB+或USAC或其它CELP编码器已知的,由块611产生的残留信号被提供给自适应码本612,此外,自适应码本612连接到创新码本级614,并且来自自适应码本612和来自创新码本的码本数据被输入到比特流多路复用器中,如所示。
此外,提供与创新码本级614串联的ACELP增益/编码级615,并且将该块的结果输入到图14A中指示为MMSE的码本确定器613中。该块与创新码本块614协作。此外,时域编码器另外包括具有LPC合成滤波块616、去加重块617和自适应低音后滤波级618的解码器部分,用于计算自适应低音后滤波的参数,然而,自适应低音后滤波应用于解码器侧。在解码器侧没有任何自适应低音后滤波的情况下,块616、617、618对于时域编码器610将不是必需的。
如所示,时域解码器的若干块取决于先前的信号,并且这些块是自适应码本块612、码本确定器613、LPC合成滤波块616和去加重块617。这些块被提供有从频域编码处理器数据导出的来自交叉处理器的数据,以便为了准备好从频域编码器到时域编码器的瞬时切换的目的而初始化这些块。从图14A还可以看出,对于频域编码器,对较早数据的任何依赖性不是必需的。因此,交叉处理器700不提供从时域编码器到频域编码器的任何存储器初始化数据。然而,对于其中存在来自过去的依赖性以及其中需要存储器初始化数据的频域编码器的其它实现,交叉处理器 700被配置为在两个方向上操作。
图14B中的优选音频解码器被描述如下:波形解码器部分由全频带 TCX解码器路径和IGF组成,其中二者都以编解码器的输入采样率操作。并行地,存在在较低采样率处的替代ACELP解码器路径,其在下游由TD- BWE进一步加强。
对于从TCX切换到ACELP时的ACELP初始化,存在执行本发明的ACEL P初始化的交叉路径(由共享TCX解码器前端组成,但是另外提供以较低采样率的输出和一些后处理)。在LPC中在TCX和ACELP之间共享相同的采样率和滤波次序允许更容易和更高效的ACELP初始化。
为了可视化切换,在图 14B 中绘制了两个开关。当在下游的第二开关 1160在TCX/IGF或ACELP/TD-BWE输出之间选择时,第一开关1480要么通过交叉路径的输出预更新在ACELP路径下游的重新采样QMF级中的缓冲器,要么简单地传递ACELP输出。
随后,在图11A-14C的上下文中讨论根据本发明的方面的音频解码器实现。
用于对编码的音频信号1101进行解码的音频解码器包括用于在频域中对第一编码音频信号部分进行解码的第一解码处理器1120。第一解码处理器1120包括频谱解码器1122,用于以高频谱分辨率对第一频谱区域进行解码并且用于使用第二频谱区域的参数表示和至少解码的第一频谱区域来合成第二频谱区域以获得解码的频谱表示。解码的频谱表示是如图6的上下文中讨论的并且也如图1A的上下文中讨论的全频带解码的频谱表示。因此,一般来说,第一解码处理器包括在频域中具有间隙填充过程的全频带实现。第一解码处理器1120还包括频率-时间转换器112 4,用于将解码的频谱表示转换到时域中以获得解码的第一音频信号部分。
此外,音频解码器包括第二解码处理器1140,用于在时域中对第二编码的音频信号部分进行解码以获得解码的第二信号部分。此外,音频解码器包括组合器1160,用于组合解码的第一信号部分和解码的第二信号部分以获得解码的音频信号。解码的信号部分按顺序组合,这也在图14B中由表示图11A的组合器1160的实施例的开关实现1160示出。
优选地,第二解码处理器1140包含时域带宽扩展处理器1220,并且如图12所示包括时域低频带解码器1200,用于对低频带时域信号进行解码。该实现还包括用于对低频带时域信号进行上采样的上采样器1210。另外,提供了时域带宽扩展解码器1220,用于对输出音频信号的高频带进行合成。此外,提供了混频器1230,用于混合合成的时域输出信号的高频带和上采样的低频带时域信号,以获得时域编码器输出。因此,在优选的实施例中,图11A中的块1140可以通过图12的功能来实现。
图13示出了图12的时域带宽扩展解码器1220的优选实施例。优选地,提供了时域上采样器1221,其从包括在块1140内并且在图12的1200 处示出并在图14B的上下文中进一步示出的时域低频带解码器接收作为输入的LPC残留信号。时域上采样器1221产生LPC残留信号的上采样的版本。然后将该版本输入到非线性失真块1222中,该非线性失真块1222基于其输入信号产生具有较高频率值的输出信号。非线性失真可以是复制、镜像、频移或非线性计算操作或设备,例如,在非线性区域中操作的二极管或晶体管。块1222的输出信号被输入到LPC合成滤波块1223,LPC合成滤波块1223也由用于低频带解码器的LPC数据控制,或者例如由图14A 的编码器侧的时域带宽扩展块920所产生的特定包络数据控制。然后将L PC合成块的输出输入到带通或高通滤波器1224中以最终获得高频带,然后将其输入到混频器1230中,如图12所示。
随后,图12的上采样器1210的优选实现在图14A的上下文中讨论。上采样器优选地包括以第一时域低频带解码器采样率操作的分析滤波器组。这种分析滤波器组的具体实现是图14B中所示的QMF分析滤波器组14 71。此外,上采样器包括以高于第一时域低频带采样率的第二输出采样率进行操作的合成滤波器组1473。因此,作为通用滤波器组的优选实现的QMF合成滤波器组1473以输出采样率操作。当如图7B的上下文中讨论的下采样因子DS为0.5时,则QMF分析滤波器组1471具有例如仅32个滤波器组通道,并且QMF合成滤波器组1473具有例如64个QMF通道,但是滤波器组通道的较高一半,即上部32个滤波器组通道被馈送有零或噪声,而下部32个滤波器组通道被馈送有由QMF分析滤波器组1471提供的相应信号。然而,优选地,在QMF滤波器组域内执行带通滤波1472,以便确保QMF合成输出1473是ACELP解码器输出的上采样的版本,但没有高于AC ELP解码器的最大频率的任何伪像。
作为对带通滤波1472的附加或替代,可以在QMF域内执行进一步的处理操作。如果根本不执行处理,则QMF分析和QMF合成构成高效的上采样器1210。
随后,对图14B中的各个元件的结构进行更详细地讨论。
全频带频域解码器1120包括第一解码块1122a,用于对高分辨率频谱系数进行解码并且用于另外执行例如从USAC技术已知的低频带部分中的噪声填充。此外,全频带解码器包括IGF处理器1122b,用于使用已经仅以参数方式编码并因此在编码器侧以低分辨率编码的合成的频谱值来填充频谱空洞。然后,在块1122c中,执行逆噪声整形,并且将结果输入到TNS/TTS合成块705中,TNS/TTS合成块705将作为最终输出的输入提供给频率-时间转换器1124,其优选地实现为在输出处操作的逆修改的离散余弦变换,即高采样率。
此外,使用由图14A中的TCX LTP参数提取块1024获得的数据控制的谐波或LTP后滤波器。结果然后是以输出采样率解码的第一音频信号部分,并且如从图14B可以看出的,该数据具有高采样率,因此,根本不需要任何进一步的频率增强,这是由于以下的事实:解码处理器是频域全频带解码器,其优选地使用在图1A-5C的上下文中讨论的智能间隙填充技术来操作。
图14B中的若干元素与图14A的交叉处理器700中的相应块非常相似,特别是关于对应于IGF处理1122b的IGF解码器704,以及由量化LPC系数1 145控制的逆噪声整形操作对应于图14A的逆噪声整形703,以及图14B中的TNS/TTS合成块705对应于图14A中的块TNS/TTS合成705。然而,重要的是,图14B中的IMDCT块1124以高采样率操作,而图14A中的IMDCT块70 2以低采样率操作。因此,图14B中的块1124包括与图7B中的相应特征72 0、722、724相比具有相应大数量的操作、大数量的窗口系数和大变换尺寸的大的定尺寸的变换和展开块710、块712中的合成窗口和重叠相加级714,其在块701中操作,并且稍后将在图14B中的交叉处理器1170的块1171中概述。
时域解码处理器1140优选地包括ACELP或时域低频带解码器1200, ACELP或时域低频带解码器1200包括用于获得解码的增益和创新码本信息的ACELP解码器级1149。另外,提供了ACELP自适应码本级1141,以及随后的ACELP后处理级1142和最终合成滤波器(例如LPC合成滤波器114 3),其再次由从对应于图11A中的编码的信号解析器1100的比特流多路分配器1100获得的量化LPC系数1145控制。LPC合成滤波器1143的输出被输入到去加重级1144中,用于消除或撤消由图14A的预处理器1000的预加重级1005引入的处理。结果是在低采样率和低频带下的时域输出信号,并且在要求频域输出的情况下,开关1480处于指示位置,并且去加重级 1144的输出被引入到上采样器1210中,然后与来自时域带宽扩展解码器1220的高频带混合。
根据本发明的实施例,音频解码器另外包括图11B和图14B中所示的交叉处理器1170,用于根据第一编码音频信号部分的解码的频谱表示计算第二解码处理器的初始化数据,使得第二解码处理器被初始化以对编码的音频信号中在时间上跟随第一音频信号部分的编码的第二音频信号部分进行解码,即,使得时域编码处理器1140准备好从一个音频信号部分到下一个音频信号部分的瞬时切换,而在质量或效率上没有任何损耗。
优选地,交叉处理器1170包括以比第一解码处理器的频率-时间转换器更低的采样率操作的附加频率-时间转换器1171,以便在时域中获得进一步解码的第一信号部分,以用作初始化信号或可以针对其导出任何初始化数据。优选地,该IMDCT或低采样率频率-时间转换器被实现为图7B中所示的项目726(选择器)、项目720(小尺寸变换和展开),如 722中所示的具有较小数量的窗口系数的合成窗口以及如724处所示的具有较小数量的操作的重叠相加级。因此,频域全频带解码器中的IMDCT 块1124如由块710、712、714所示被实现,并且IMDCT块1171如图7B所示由块726、720、722、724实现。再次,下采样因子是时域编码器采样率或低采样率与较高频域编码器采样率或输出采样率之间的比率,并且该下采样因子可以是大于0且小于1的任何数。
如图14B所示,交叉处理器1170单独地或者除了其它元件之外还包括延迟级1172,用于延迟进一步解码的第一信号部分并用于将延迟的解码的第一信号部分馈送到第二解码处理器的去加重级1144中以进行初始化。此外,交叉处理器另外或备选地包括预加重滤波器1173和延迟级11 75,用于对进一步解码的第一信号部分进行滤波和延迟,并用于将块11 75的延迟输出提供到ACELP解码器的LPC合成滤波级1143中,以用于初始化的目的。
此外,交叉处理器备选地或除了其他提到的元件之外可以包括LPC 分析滤波器1174,LPC分析滤波器1174用于根据进一步解码的第一信号部分或预加重的进一步解码的第一信号部分产生预测残留信号,并且用于将数据馈送到第二解码处理器的码本合成器中,并且优选地,馈送到自适应码本级1141中。此外,具有低采样率的频率-时间转换器1171的输出也被输入到上采样器1210的QMF分析级1471中,以用于初始化的目的,即在当前解码的音频信号部分由频域全频带解码器1120递送时。
下面描述优选的音频解码器:波形解码器部分由全频带TCX解码器路径和IGF组成,其中二者都以编解码器的输入采样率操作。并行地,存在在较低采样率处的替代ACELP解码器路径,其在下游由TD-BWE进一步加强。
对于从TCX切换到ACELP时的ACELP初始化,存在执行本发明的ACEL P初始化的交叉路径(由共享TCX解码器前端组成,但是另外提供以较低采样率的输出和一些后处理)。在LPC中在TCX和ACELP之间共享相同的采样率和滤波次序允许更容易和更高效的ACELP初始化。
为了可视化切换,在图14B中绘制了两个开关。当在下游的第二开关1160在TCX/IGF或ACELP/TD-BWE输出之间选择时,第一开关1480要么通过交叉路径的输出预更新在ACELP路径下游的重新采样QMF级中的缓冲器,要么简单地传递ACELP输出。
总而言之,可单独或组合使用的本发明的优选方面涉及ACELP和TD -BWE编码器与能够全频带TCX/IGF技术的组合,优选与使用交叉信号相关联。
另一个特定特征是用于ACELP初始化以实现无缝切换的交叉信号路径。
另一方面是短IMDCT被馈送有高速率长MDCT系数的较低部分以在交叉路径中高效地实现采样率转换。
另一特征是在解码器中与全频带TCX/IGF部分共享的交叉路径的高效实现。
另一特征是用于QMF初始化的交叉信号路径,以实现从TCX到ACELP 的无缝切换。
附加特征是到QMF的交叉信号路径,其允许补偿ACELP重新采样输出和当从ACELP切换到TCX时的滤波器组-TCX/IGF输出之间的延迟间隙。
另一方面是,以相同的采样率和滤波次序为TCX和ACELP编码器二者提供LPC,尽管TCX/IGF编码器/解码器是能够全频带的。
随后,图14C被讨论为要么作为独立解码器操作要么与能够全频带频域解码器组合操作的时域解码器的优选实现。
通常,时域解码器包括ACELP解码器,随后连接的重新采样器或上采样器和时域带宽扩展功能。特别地,ACELP解码器包括用于恢复增益和创新码本的ACELP解码级1149、ACELP自适应码本级1141、ACELP后处理器1142、由来自比特流多路分配器的量化LPC系数控制的LPC合成滤波器1143或编码的信号解析器和随后连接的去加重级1144。优选地,与来自比特流的控制数据一起,处于ACELP采样率的解码的时域信号被输入到时域带宽扩展解码器1220中,其在输出处提供高频带。
为了对去加重1144输出进行上采样,提供了包括QMF分析块1471和 QMF合成块1473的上采样器。在由块1471和1473限定的滤波器组域内,优选地应用带通滤波器。特别地,如前面已经讨论的,也可以使用相同的功能,其已经关于相同的附图标记进行了讨论。此外,时域带宽扩展解码器1220可以如图13所示实现。并且通常包括以ACELP采样率对ACELP 残留信号或时域残留信号的上采样,ACELP采样率最终到带宽扩展信号的输出采样率。
随后,关于图1A-5C讨论关于能够全频带的频域编码器和解码器的进一步细节。
图1A示出了用于对音频信号99进行编码的装置。音频信号99被输入到时间频谱转换器100中,时间频谱转换器100用于将具有采样率的音频信号转换成由时间频谱转换器输出的频谱表示101。频谱101被输入到用于分析频谱表示101的频谱分析器102中。频谱分析器101被配置用于确定要以第一频谱分辨率编码的第一组第一频谱部分103和要以第二频谱分辨率编码的不同的第二组第二频谱部分105。第二频谱分辨率小于第一频谱分辨率。第二组第二频谱部分105被输入到参数计算器或参数编码器104中,用于计算具有第二频谱分辨率的频谱包络信息。此外,提供了频谱域音频编码器106,用于产生具有第一频谱分辨率的第一组第一频谱部分的第一编码表示107。此外,参数计算器/参数编码器104 被配置用于产生第二组第二频谱部分的第二编码表示109。第一编码表示107和第二编码表示109被输入到比特流多路复用器或比特流形成器10 8中,并且块108最终输出编码的音频信号以用于传输或在存储设备上存储。
通常,第一频谱部分(例如图3A的306)将被两个第二频谱部分 (诸如307a、307b)围绕。这不是例如HE-AAC中的情况,其中核心编码器频率范围是频带限制的。
图1B示出了与图1A的编码器相匹配的解码器。第一编码表示107被输入到频谱域音频解码器112中,用于产生第一组第一频谱部分的第一解码表示,该解码表示具有第一频谱分辨率。此外,第二编码表示109 被输入到参数解码器114中,用于产生具有低于第一频谱分辨率的第二频谱分辨率的第二组第二频谱部分的第二解码表示。
解码器还包括频率再生器116,用于使用第一频谱部分再生具有第一频谱分辨率的重建的第二频谱部分。频率再生器116执行拼块填充操作,即,使用第一组第一频谱部分的拼块或部分,并将该第一组第一频谱部分复制到具有第二频谱部分的重建范围或重建频带中,并且通常执行频谱包络整形或由参数解码器114输出的解码的第二表示(即,通过使用关于第二组第二频谱部分的信息)所指示的另一操作。解码的第一组第一频谱部分和重建的第二组频谱部分如在线117上的频率再生器116 的输出处所指示的那样被输入到频谱-时间转换器118中,频谱-时间转换器118被配置用于将第一解码表示和重建的第二频谱部分转换成时间表示119,该时间表示具有某个高采样率。
图2B示出了图1A编码器的实现。音频输入信号99被输入到对应于图1A的时间频谱转换器100的分析滤波器组220中。然后,在TNS块222中执行时间噪声整形操作。因此,到对应于图2B的块音调掩码226的图1A 的频谱分析器102中的输入当不应用时间噪声整形/时间拼块整形操作时可以是全频谱值,或者当应用如图2B、块222所示的TNS操作时可以是频谱残留值。对于双声道信号或多声道信号,可以另外执行联合声道编码 228,使得图1A的频谱域编码器106可以包括联合声道编码块228。此外,提供了用于执行无损数据压缩的熵编码器232,其也是图1A的频谱域编码器106的一部分。
频谱分析器/音调掩码226将TNS块222的输出分离为核心频带和对应于第一组第一频谱部分103的音调分量和对应于图1A的第二组第二频谱部分105的残留分量。指示为IGF参数提取编码的块224对应于图1A的参数编码器104,并且比特流多路复用器230对应于图1A的比特流多路复用器108。
优选地,分析滤波器组222被实现为MDCT(修改的离散余弦变换滤波器组),并且MDCT被用于以用作频率分析工具的修改的离散余弦变换将信号99变换到时间-频率域中。
频谱分析器226优选地应用音调掩码。该音调掩码估计级用于将音调分量与信号中的类噪声分量分离。这允许核心编码器228使用心理声学模块对所有音调分量进行编码。
这种方法相对于传统的SBR[1]具有的某些优点在于:多音调信号的谐波网格由核心编码器保存,而只有正弦波之间的间隙被来自源区域的最佳匹配的“整形噪声”填充。
在立体声声道对的情况下,应用附加的联合立体声处理。这是必要的,因为对于某个目的地范围,信号可以是高度相关的平移(panned) 声源。在为该特定区域选择的源区域不是良好相关的情况下,尽管能量与目的区域匹配,但是空间图像可能由于不相关的源区域而受损。编码器分析每个目的区域能带,通常执行频谱值的交叉相关,并且如果超过某个阈值,则为该能带设置联合标志。在解码器中,如果该联合立体声标志未被设置,则左和右声道能带被分别处理。在设置联合立体声标志的情况下,在联合立体声域中执行能量和修补二者。类似用于核心编码的联合立体声信息,发信号通知用于IGF区域的联合立体声信息,包括在预测的情况下指示以下的标志:预测的方向是否是从下混到残留,或反之。
能量可以根据L/R域中的发送能量来计算。
mmidNrg[k]=leftNrg[k]+rightNrg[k;
sideNrg[k]-leftNrrg[k]-rightNrg[k];
其中k是变换域中的频率索引。
另一种解决方案是对于联合立体声是活动的频带,在联合立体声域中直接计算和发送能量,因此在解码器侧不需要附加的能量变换。
源拼块始终根据中/侧矩阵来创建:
midTile[k]=0.5·(leftTile[k]+rightTile[k])
sideTile[k]=0.5·(leftTile[k]-rightTile[k])
能量调整:
midTile[k]-midTile[k]*midNrg[k];
sideTile[k]=sideTlle[k]*sideNrg[k];
联合立体声->LR变换:
如果没有对附加预测参数进行编码:
leftTile[k]=midTile[k]+sideTile[k]
rightTile[k]=midTile[k]-sideTile[k]
如果附加预测参数被编码并且如果发信号通知的方向是从中间到一侧:
sideTile[k]=sideTile[k]-predictionCoeff·midTile[k]
leftTile[k]=midTile[k]+sideTile[k]
rightTile[k]=midTile[k]-sideTile[k]
如果发信号通知的方向是从一侧到中间:
midTile1[k]=midTile[k]-predictionCoeff·sideTile[k]
leftTile[k]=midTile1[k]-sideTile[k]
rightTile[k]=midTile1[k]+sideTile[k]
该处理确保根据用于再生高度相关的目的区域和平移的目的区域的拼块,即使源区域不相关,所得到的左和右声道仍然表示相关和平移的声源,从而保存用于这样的区域的立体声图像。
换句话说,在比特流中,发送指示是否应当使用L/R或M/S作为一般联合立体声编码的示例的联合立体声标志。在解码器中,首先,如由针对核心频带的联合立体声标志所指示的,对核心信号进行解码。其次,核心信号以L/R和M/S表示二者进行存储。对于IGF拼块填充,选择源拼块表示以适合如由IGF频带的联合立体声信息所指示的目标拼块表示。
时间噪声整形(TNS)是一种标准技术,且是AAC的一部分。TNS可以被认为是感知编码器的基本方案的扩展,在滤波器组和量化级之间插入可选的处理步骤。TNS模块的主要任务是隐藏在瞬态类似信号的时间掩码区域中产生的量化噪声,并且因此它导致更高效的编码方案。首先, TNS使用变换域中的“前向预测”(例如,MDCT)计算一组预测系数。这些系数然后用于使信号的时间包络变平坦。由于量化影响TNS滤波后的频谱,所以量化噪声也暂时是平坦的。通过在解码器侧应用逆TNS滤波,量化噪声根据TNS滤波的时间包络来整形,并且因此量化噪声被瞬态掩码。
IGF基于MDCT表示。为了高效编码,优选地,必须使用大约20ms的长块。如果这种长块内的信号包含瞬态,则由于拼块填充,在IGF频谱带中发生可听到的前回声和后回声。
这种前回声效应通过在IGF上下文中使用TNS而减少。这里,TNS用作时间拼块整形(TTS)工具,因为对TNS残留信号执行解码器中的频谱再生。照常在编码器侧使用全频谱计算并应用所要求的TTS预测系数。TNS/TTS起始频率和停止频率不受IGF工具的IGF起始频率fIGFstart影响。与传统TNS相比,TTS停止频率增加到IGF工具的停止频率,其高于fIGFstart。在解码器侧,TNS/TTS系数再次应用于全频谱,即核心频谱加上再生频谱加上来自音调掩码的音调分量。TTS的应用是形成再生频谱的时间包络以再次匹配原始信号的包络所必需的。
在传统解码器中,音频信号上的频谱修补破坏了补丁边界处的频谱相关性,并且由此通过引入频散而损害音频信号的时间包络。因此,对残留信号执行IGF拼块填充的另一益处是,在应用整形滤波之后,拼块边界无缝地相关,导致信号的更忠实的时间再现。
在IGF编码器中,已经经历TNS/TTS滤波、音调掩码处理和IGF参数估计的频谱除了音调分量之外,没有高于IGF起始频率的任何信号。这个稀疏频谱现在使用算术编码和预测编码的原理由核心编码器编码。这些编码的分量连同信令比特一起形成音频的比特流。
图2A示出了相应的解码器实现。对应于编码的音频信号的图2A中的比特流被输入到多路分配器/解码器中,其将关于图1B连接到块112和 114。比特流多路分配器将输入音频信号分离成图1B的第一编码表示107 和图1B的第二编码表示109。具有第一组第一频谱部分的第一编码表示被输入到对应于图1B的频谱域解码器112的联合声道解码块204中。第二编码表示被输入到图2A中未示出的参数解码器114中,然后输入到对应于图1B的频率再生器116的IGF块202中。频率再生所要求的第一组第一频谱部分经由线203输入到IGF块202中。此外,在联合声道解码204之后,在音调掩码块206中应用特定核心解码,使得音调掩码206的输出对应于频谱域解码器112的输出。然后,由组合器208执行组合,即,帧建造,其中组合器208的输出现在具有全范围频谱,但仍然在TNS/TTS滤波后的域中。然后,在块210中,使用经由线109提供的TNS/TTS滤波信息来执行逆TNS/TTS操作,即,TTS辅助信息优选地被包括在由频谱域编码器10 6(例如,频谱域编码器106可以是直接AAC或USAC核心编码器)产生的第一编码表示中,或者也可以被包括在第二编码表示中。在块210的输出处,提供一直到最大频率的完整的频谱,其是由原始输入信号的采样率限定的全范围频率。然后,在合成滤波器组212中执行频谱/时间转换,以最终获得音频输出信号。
图3A示出了频谱的示意表示。按比例因子频带SCB细分频谱,其中在图3A的示出的示例中存在七个比例因子频带SCB1至SCB7。比例因子频带可以是在AAC标准中限定的AAC比例因子频带,并且对于上部频率具有增加的带宽,如图3A示意性地所示。优选地,不是从频谱的一开始即在低频率处执行智能间隙填充,而是在309处所示的IGF起始频率处开始IG F操作。因此,核心频带从最低频率延伸到IGF起始频率。在IGF起始频率之上,应用频谱分析以从由第二组第二频谱部分表示的低分辨率分量中分离出高分辨率频谱分量304、305、306、307(第一组第一频谱部分)。图3A示出了示例性地输入到频谱域编码器106或联合声道编码器2 28中的频谱,即,核心编码器在全范围中操作,但是编码了大量的零频谱值,即这些零频谱值在量化之前或在量化之后被量化为零或被设置为零。无论如何,核心编码器在全范围中操作,即,如同频谱将如图所示,即,核心解码器不一定必须知道具有较低的频谱分辨率的第二组第二频谱部分的任何智能间隙填充或编码。
优选地,高分辨率由诸如MDCT线的谱线的线方式编码限定,而第二分辨率或低分辨率通过例如仅计算每个比例因子频带的单个频谱值来限定,其中比例因子频带覆盖若干频率线。因此,关于其频谱分辨率,第二低分辨率比由核心编码器(例如AAC或USAC核心编码器)通常应用的线方式编码所限定的第一或高分辨率低得多。
关于比例因子或能量计算,情况在图3B中示出。由于编码器是核心编码器的事实并且由于可以但不一定必须存在每个频带中的第一组频谱部分的分量的事实,核心编码器不仅在低于IGF起始频率309的核心范围内,而且还在IGF起始频率以上一直到最大频率fIGFstop计算针对每个频带的比例因子,所述最大频率小于或等于采样频率的一半,即,fs/2。因此,图3A的编码的音调部分302、304、305、306、307以及在该实施例中与比例因子SCB1至SCB7一起对应于高分辨率频谱数据。低分辨率频谱数据从IGF起始频率开始计算并且对应于能量信息值E1、E2、E3、E4,其与比例因子SF4到SF7一起被发送。
特别地,当核心编码器处于低比特率条件下时,可以另外应用核心频带(即频率比IGF起始频率低,即,在比例因子频带SCB1至SCB3中) 中的附加的噪声填充操作。在噪声填充中,存在已被量化为零的若干相邻频谱线。在解码器侧,这些量化为零的频谱值被重新合成,并且使用诸如图3B中的308处所示的NF2的噪声填充能量来在它们的幅度方面调整重新合成的频谱值。可以以绝对项或以特别地关于如在USAC中的比例因子的相对项给出的噪声填充能量对应于量化为零的该组频谱值的能量。这些噪声填充谱线还可以被认为是第三组第三频谱部分,其通过直接噪声填充合成来再生,而没有依赖于使用来自其它频率的频率拼块的频率再生的任何IGF操作,所述IGF操作用于使用来自源范围的频谱值和能量信息E1、E2、E3、E4来重建频谱拼块。
优选地,计算能量信息所针对的频带与比例因子频带一致。在其它实施例中,应用能量信息值分组,使得例如对于比例因子频带4和5,仅发送单个能量信息值,但即使在该实施例中,分组的重建频带的边界与比例因子频带的边界一致。如果应用不同的频带间隔,则可以应用某些重新计算或同步计算,并且这取决于特定实现而可以是有意义的。
优选地,图1A的频谱域编码器106是如图4A所示的心理声学驱动的编码器。通常,如例如在MPEG2/4AAC标准或MPEG1/2、层3标准中所示,在被变换成频谱范围之后要被编码的音频信号(图4A中的401)被转发到比例因子计算器400。比例因子计算器由心理声学模型控制,该心理声学模型另外接收要量化的音频信号或如在MPEG1/2层3或MPEG AAC标准中那样接收音频信号的复数频谱表示。心理声学模型针对每个比例因子频带计算表示心理声学阈值的比例因子。此外,比例因子然后通过公知的内部和外部迭代循环的协作或者通过任何其他适当的编码过程来调整,使得满足某些比特率条件。然后,一方面要量化的频谱值和另一方面计算出的比例因子被输入到量化器处理器404中。在直接音频编码器操作中,要量化的频谱值由比例因子加权,然后加权的频谱值被输入到通常具有到上部振幅范围的压缩功能的固定量化器中。然后,在量化器处理器的输出处存在量化索引,然后将其转发到熵编码器中,该熵编码器通常对于相邻频率值的一组零量化索引(或者如本领域中也称为,零值的“延伸”)具有特定和非常高效的编码。
然而,在图1A的音频编码器中,量化器处理器通常从频谱分析器接收关于第二频谱部分的信息。因此,量化器处理器404确保在量化器处理器404的输出中,如由频谱分析器102识别的第二频谱部分为零或具有由编码器或解码器确认为零表示的表示,其可以是被非常高效地编码,特别是当在频谱中存在零值的“延伸”时。
图4B示出了量化器处理器的实现。MDCT频谱值可以被输入到设置为零块410中。然后,在执行块412中的由比例因子进行的加权之前,第二频谱部分已经被设置为零。在附加的实现中,不提供块410,而是在加权块412之后在块418中执行设置为零协作。在甚至进一步的实现中,也可以在量化器块420中的量化之后,在设置为零块422中执行设置为零操作。在该实现中,块410和418将不存在。通常,根据具体实现提供块 410、418、422中的至少一个。
然后,在块422的输出处,获得对应于图3A中所示的内容的量化频谱。然后将该量化的频谱输入到诸如图2B中的232之类的熵编码器中,其可以是例如在USAC标准中限定的霍夫曼编码器或算术编码器。
彼此交替地或并行地提供的设置为零块410、418、422由频谱分析器424控制。频谱分析器优选地包括公知的音调检测器的任何实现,或者包括任何不同种类的检测器,其可操作用于将频谱分离成要以高分辨率编码的分量和要以低分辨率编码的分量。在频谱分析器中实现的其它这样的算法可以是语音活动检测器、噪声检测器、语音检测器或任何其它检测器,这根据关于不同频谱部分的分辨率要求的频谱信息或相关联的元数据来决定。
图5A示出了如例如在AAC或USAC中实现的图1A的时间频谱转换器10 0的优选实现。时间频谱转换器100包括由瞬态检测器504控制的加窗器5 02。当瞬态检测器504检测到瞬态时,则从长窗口到短窗口的切换被用信号通知到加窗器。加窗器502然后为重叠块计算窗口化帧,其中每个窗口化帧通常具有二N个值,例如2048个值。然后,执行块变换器506内的变换,并且该块变换器通常另外提供抽取,使得执行组合抽取/变换以获得具有N个值(例如MDCT频谱值)的频谱帧。因此,对于长窗口操作,在块506的输入处的帧包括二N个值,例如2048个值,而频谱帧则具有1024个值。然后,然而,当执行八个短块时,对短块执行切换,其中每个短块与长窗口相比具有1/8窗口化时域值,并且每个频谱块与长块相比具有1/8频谱值。因此,当该抽取与加窗器的50%重叠操作组合时,频谱是时域音频信号99的临界采样版本。
随后,参考图5B,其示出了图1B的频率再生器116和频谱-时间转换器118的具体实现,或者图2A的块208、212的组合操作的具体实现。在图5B中,考虑特定重建频带,例如图3A的缩放因子频带6。该重建频带中的第一频谱部分,即图3A的第一频谱部分306被输入到帧建造器/调整器块510中。此外,针对比例因子频带6的重建的第二频谱部分也被输入到帧建造器/调整器510中。此外,能量信息(诸如用于比例因子频带6的图3 B的E3)也被输入到块510中。重建频带中的重建的第二频谱部分已经使用源范围通过频率拼块填充来产生,并且重建频带然后对应于目标范围。现在,执行帧的能量调整,以便然后最终获得如例如在图2A的组合器208 的输出处获得的具有N个值的完整重建的帧。然后,在块512中,执行逆块变换/内插以获得针对在块512的输入处的例如124个频谱值的248个时域值。然后,在块514中执行合成窗口化操作,其再次由作为编码的音频信号中的辅助信息发送的长窗口/短窗口指示来控制。然后,在块516 中,执行与先前时间帧的重叠/相加操作。优选地,MDCT应用50%的重叠,使得对于2N个值的每个新时间帧,最终输出N个时域值。50%的重叠由于以下的事实而是非常优选的:它由于在块516中的重叠/相加操作而提供关键采样和从一个帧到下一个帧的连续交叉。
如图3A中的301处所示,例如对于与图3A的比例因子频带6一致的预期重建频带,可以不仅在IGF起始频率以下而且在IGF起始频率之上另外应用噪声填充操作。然后,噪声填充频谱值还可以被输入到帧建造器 /调整器510中,并且也可以在该块内应用噪声填充频谱值的调整,或者噪声填充频谱值可以在被输入到帧建造器/调整器510中之前使用噪声填充能量来调整。
优选地,可以在完整的频谱中应用IGF操作,即,使用来自其他部分的频谱值的频率拼块填充操作。因此,频谱拼块填充操作不仅可以应用于IGF起始频率之上的高频带,而且可以应用于低频带。此外,没有频率拼块填充的噪声填充不仅可以应用于IGF起始频率以下,而且可以应用于IGF起始频率之上。然而,已经发现,当噪声填充操作受限于低于IGF起始频率的频率范围并且当频率拼块填充操作被限制到高于IGF起始频率的频率范围时,可以获得高质量和高效率的音频编码,如图3A所示。
优选地,目标拼块(TT)(具有大于IGF起始频率的频率)被束缚到全速率编码器的比例因子频带边界。从其获取信息的源拼块(ST) (即,对于低于IGF起始频率的频率)不被比例因子频带边界束缚。ST 的尺寸应该对应于相关联的TT的尺寸。
随后,参考图5C,其示出了图1B的频率再生器116或图2A的IGF块2 02的另一优选实施例。块522是频率拼块产生器,其不仅接收目标频带I D,而且另外接收源频带ID。示例性地,已经在编码器侧确定了图3A的比例因子频带非常好地适合于重建比例因子频带7。因此,源频带ID将为2,而目标频带ID将为7。基于此信息,频率拼块产生器522应用向上复制或谐波拼块填充操作或任何其它拼块填充操作以产生频谱分量523 的原始第二部分。频谱分量的原始第二部分具有与包括在第一组第一频谱部分中的频率分辨率相同的频率分辨率。
然后,重建频带的第一频谱部分(例如图3A的307)被输入到帧建造器524中,并且原始的第二部分523也被输入到帧建造器524中。然后,调整器526使用由增益因子计算器528计算的重建频带的增益因子来调整重建的帧。然而,重要的是,帧中的第一频谱部分不受调整器526影响,但是仅重建帧的原始第二部分受调整器526影响。为此,增益因子计算器528分析源频带或原始第二部分523,并且另外分析重建频带中的第一频谱部分,以最终找到正确的增益因子527,使得由调整器526调整后的帧输出的能量当设想比例因子频带7时具有能量E4。
此外,如图3A所示,频谱分析器被配置为分析一直到最大分析频率的频谱表示,该最大分析频率仅仅是低于采样频率的一半的小量,并且优选地是采样频率的至少四分之一或通常更高。
如所示,编码器在没有下采样的情况下操作,并且解码器在没有上采样的情况下操作。换句话说,频谱域音频编码器被配置为产生具有由最初输入音频信号的采样率限定的奈奎斯特频率的频谱表示。
此外,如图3A所示,频谱分析器被配置为分析以间隙填充起始频率开始并以由包括在频谱表示中的最大频率表示的最大频率结束的频谱表示,其中从最小频率延伸一直到间隙填充起始频率的频谱部分属于第一组频谱部分,并且其中具有高于间隙填充频率的频率值的另一频谱部分(诸如304、305、306、307)另外被包括在第一组第一频谱部分中。
如概述的,频谱域音频解码器112被配置为使得由第一解码表示中的频谱值表示的最大频率等于包括在具有采样率的时间表示中的最大频率,其中针对最大频率的频谱值在第一组第一频谱部分中是零或不同于零。无论如何,对于第一组频谱分量中的该最大频率,存在针对比例因子频带的比例因子,其被产生并发送,而无论该比例因子频带中的所有频谱值是否被设置为零,如图3A和3B 的上下文中所讨论的。
因此,IGF对于增加压缩效率的其它参数技术(例如噪声替代和噪声填充(这些技术专用于像局部信号内容的噪声的高效表示))是有利的,IGF允许音调分量的精确频率再现。到目前为止,没有现有技术的技术通过在没有在低频带(LF)和高频带(HF)中的固定的先验分割的限制的情况下的频谱间隙填充来解决任意信号内容的高效参数表示。
随后,讨论和限定了可以分开实现或一起实现的全频带频域第一编码处理器和并入间隙填充操作的全频带频域解码处理器的另外可选特征。
特别地,对应于块1122a的频谱域解码器112被配置为输出频谱值的解码的帧序列,解码的帧是第一解码表示,其中该帧包括用于第一组频谱部分的频谱值和用于第二频谱部分的零指示。用于解码的装置还包括组合器208。频谱值由用于第二组第二频谱部分的频率再生器产生,其中组合器和频率再生器二者都被包括在块1122b内。因此,通过组合第二频谱部分和第一频谱部分,获得包括第一组第一频谱部分和第二组频谱部分的频谱值的重建的频谱帧,并且对应于图14B中的IMDCT块1124 的频谱-时间转换器118然后将重建的频谱帧转换成时间表示。
如所概述的,频谱-时间转换器118或1124被配置为执行逆修改的离散余弦变换512、514,并且还包括重叠-相加级516,用于重叠和相加后续时域帧。
特别地,频谱域音频解码器1122a被配置为产生第一解码表示,使得第一解码表示具有限定等于由频谱-时间转换器1124产生的时间表示的采样率的采样率的奈奎斯特频率。
此外,解码器1112或1122a被配置为产生第一解码表示,使得关于两个第二频谱部分307a、307b之间的频率来放置第一频谱部分306。
在另一实施例中,由第一解码表示中的最大频率的频谱值表示的最大频率等于包括在由频谱-时间转换器产生的时间表示中的最大频率,其中最大频率的频谱值在第一表示中是零或不同于零。
此外,如在图3中所示,编码的第一音频信号部分还包括要通过噪声填充重建的第三组第三频谱部分的编码表示,并且第一解码处理器11 20另外包括在块1122b中包括的噪声填充器,用于从第三组第三频谱部分的编码表示提取噪声填充信息308以及用于在不使用不同频率范围中的第一频谱部分的情况下在第三组第三频谱部分中应用噪声填充操作。
此外,频谱域音频解码器112被配置为产生具有第一频谱部分的第一解码表示,所述第一频谱部分的频率值大于以下频率:该频率等于由频谱-时间转换器118或1124输出的时间表示所覆盖的频率范围的中间的频率。
此外,频谱分析器或全频带分析器604被配置为分析由时间-频率转换器602产生的表示,用于确定要用第一高频谱分辨率编码的第一组第一频谱部分和要用低于第一频谱分辨率的第二频谱分辨率编码的不同的第二组第二频谱部分,并且通过频谱分析器,关于频率确定在图3中的307a和307b处的两个第二频谱部分之间的第一频谱部分306。
特别地,频谱分析器被配置用于分析一直到最大分析频率的频谱表示,该最大分析频率是音频信号的采样频率的至少四分之一。
特别地,频谱域音频编码器被配置为处理用于量化和熵编码的频谱值的帧序列,其中,在帧中,第二组第二部分的频谱值被设置为零,或其中,在帧中,存在第一组第一频谱部分和第二组第二频谱部分的频谱值,并且其中,在后续处理期间,将第二组频谱部分中的频谱值设置为零,如在410、418、422处示例性所示。
频谱域音频编码器被配置为产生具有由音频输入信号或由在频域中操作的第一编码处理器处理的音频信号的第一部分的采样率限定的奈奎斯特频率的频谱表示。
频谱域音频编码器606还被配置为提供第一编码表示,使得对于采样后的音频信号的帧,编码表示包括第一组第一频谱部分和第二组第二频谱部分,其中第二组频谱部分中的频谱值被编码为零或噪声值。
全频带分析器604或102被配置为分析以间隙填充起始频率209开始并且以由包括在频谱表示中的最大频率表示的最大频率fmax结束的频谱表示,并且从最小频率延伸一直到间隙填充起始频率309的频谱部分属于第一组第一频谱部分。
特别地,分析器被配置为对至少一部分频谱表示应用音调掩码处理,使得音调分量和非音调分量彼此分离,其中第一组第一频谱部分包括音调分量,并且其中第二组第二频谱部分包括非音调分量。
尽管已在框图的背景(其中,所述块表示真实的或逻辑的硬件组件)下描述了本发明,但本发明也可以实现为计算机实施方法。在后者的情况下,块表示相应方法步骤,其中这些步骤代表由对应逻辑或实体硬件块执行的功能性。
虽然已经在装置的上下文中描述了一些方面,但是将清楚的是,这些方面还表示对相应方法的描述,其中,块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方案也表示对相应块或项或者相应装置的特征的描述。可以由(或使用)硬件装置 (诸如,微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中,可以由这种装置来执行最重要方法步骤中的某一个或多个方法步骤。
本发明的经传输或编码的信号可以存储在数字存储介质上或可以在诸如无线传输介质的传输介质或诸如因特网的有线传输介质上传输。
取决于某些实现要求,可以在硬件中或在软件中实现本发明的实施例。可以通过使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、Blu-Ray、CD、ROM、PROM和EPROM、EEPROM或闪存)来执行所述实现方案,所述控制信号与可编程计算机系统合作(或能够与之合作),使得执行各个方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所述的方法之一。
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
因此,本发明方法的另一实施例是数据载体(或诸如数字存储介质或计算机可读介质的非暂时性存储介质),包含记录于其上的用于执行本文所述方法之一的计算机程序。数据载体、数字存储介质或记录的介质通常是有形的和/或非暂时性的。
因此,本发明方法的另一实施例是表示用于执行本文所述的方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传输。
另一实施例包括处理装置,例如,配置为或适用于执行本文所述的方法之一的计算机或可编程逻辑器件。
另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
根据本发明的另一实施例包括被配置为向接收机(例如,以电子方式或以光学方式)传输计算机程序的装置或系统,该计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。该装置或系统可以例如包括用于向接收机传输计算机程序的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列) 可以用于执行本文所述的方法的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任意硬件装置来执行。
上述实施例对于本发明的原理仅是说明性的。应当理解的是:本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。
Claims (16)
1.一种用于对音频信号进行编码的音频编码器,包括:
第一编码处理器(600),用于在频域中对音频信号的第一音频信号部分进行编码,第一音频信号部分具有与其相关的采样率,其中第一编码处理器(600)包括:
时间- 频率转换器(602),用于将第一音频信号部分转换为具有一直到第一音频信号部分的最大频率的频谱线的频域表示,其中最大频率小于或等于采样率的一半并且至少为采样率的四分之一或更高;
频谱编码器(606),用于对频域表示进行编码;
第二编码处理器(610),用于在时域中对音频信号的不同的第二音频信号部分进行编码,
其中第二编码处理器(610)具有相关联的第二采样率,
其中第一编码处理器(600)具有与其相关联的不同于第二采样率的第一采样率;
交叉处理器(700),用于从第一音频信号部分的编码的频谱表示中计算第二编码处理器(610)的初始化数据,使得第二编码处理器(610)被初始化以对音频信号中在时间上紧随第一音频信号部分的第二音频信号部分进行编码;其中交叉处理器(700)包括频率-时间转换器(702),用于以第二采样率产生时域信号,其中频率-时间转换器(702)包括:
选择器(726),用于根据第一采样率和第二采样率之比选择输入到频率- 时间转换器中的频谱的一部分,
变换处理器(720),具有与时间-频率转换器(602)的变换长度不同的变换长度;以及
合成加窗器(712),用于使用与由时间-频率转换器(602)使用的窗口相比具有不同数量的窗口系数的窗口进行窗口化;
控制器(620),被配置用于分析音频信号,并且用于确定音频信号的哪个部分是在频域中编码的第一音频信号部分,以及音频信号的哪个部分是在时域中编码的第二音频信号部分;以及
编码信号形成器(630),用于形成编码的音频信号,所述编码的音频信号包括用于第一音频信号部分的第一编码信号部分和用于第二音频信号部分的第二编码信号部分。
2.根据权利要求1所述的音频编码器,其中,音频信号具有高频带和低频带,
其中,第二编码处理器(610)包括:采样率转换器(900),用于将第二音频信号部分转换为较低采样率表示,较低采样率低于音频信号的采样率,其中较低采样率表示不包括音频信号的高频带;
时域低频带编码器(910),用于对较低采样率表示进行时域编码;以及
时域带宽扩展编码器(920),用于以参数方式对高频带进行编码。
3.根据权利要求1所述的音频编码器,还包括:
预处理器(1000),被配置用于预处理第一音频信号部分和第二音频信号部分,
其中预处理器包括用于确定预测系数的预测分析器(1002);
其中编码信号形成器(630)被配置用于将预测系数的经编码版本引入到编码的音频信号中。
4.根据权利要求3所述的音频编码器,
其中预处理器(1000)包括用于将音频信号重新采样到第二编码处理器的采样率的重新采样器(1004);以及
其中预测分析器被配置为使用重新采样的音频信号来确定预测系数,或者
其中预处理器(1000)还包括用于确定针对第一音频信号部分的一个或多个长期预测系数的长期预测分析级(1024)。
5.根据权利要求1所述的音频编码器,其中,所述交叉处理器(700)包括:
频谱解码器(701),用于计算第一编码信号部分的经解码版本;
延迟级(707),用于将经解码版本的延迟版本馈送到第二编码处理器的去加重级(617)中以进行初始化;
加权预测系数分析滤波块(708),用于将滤波器输出馈送到第二编码处理器(610)的码本确定器(613)中以进行初始化;
分析滤波级(706),用于对经解码版本或预加重)版本进行滤波,并且用于将滤波残留馈送到第二编码处理器的自适应码本确定器(612)中以进行初始化;或者
预加重滤波器(709),用于对经解码版本进行滤波,并且用于将延迟或预加重版本馈送到第二编码处理器(610)的合成滤波级(616)以进行初始化。
6.根据权利要求1所述的音频编码器,
其中第一编码处理器(600)被配置为使用从第一音频信号部分导出的预测系数(1002、1010)执行频域表示的频谱值的整形(606a),并且其中第一编码处理器(600)还被配置为执行频域表示的整形后的频谱值的量化和熵编码操作(606b)。
7.根据权利要求1所述的音频编码器,其中,交叉处理器(700)包括:
噪声整形器(703),用于使用从第一音频信号部分导出的LPC系数(1010)对频域表示的量化频谱值进行整形;
频谱解码器(704、705),用于以高频谱分辨率对频域表示的频谱整形的频谱部分进行解码,以获得解码的频谱表示;
频率-时间转换器(702),用于将解码的频谱表示转换到时域中以获得解码的第一音频信号部分,其中与解码的第一音频信号部分相关联的采样率不同于音频信号的采样率,以及与频率-时间转换器(702)的输出信号相关联的采样率不同于与输入到时间-频率转换器(602)中的音频信号相关联的采样率。
8.根据权利要求1所述的音频编码器,其中第二编码处理器包括以下块组中的至少一个块:
预测分析滤波器(611);
自适应码本确定器件(612);
创新码本级(614);
估计器,用于估计创新码本条目;
ACELP/增益编码级(615);
合成滤波级(616);
去加重级(617);和
低音后滤波分析级(618)。
9.一种音频解码器,用于对编码的音频信号进行解码,包括:
第一解码处理器(1120),用于在频域中对第一编码音频信号部分进行解码,第一解码处理器(1120)包括频率-时间转换器(1124),用于将解码的频谱表示转换到时域中,以获得解码的第一音频信号部分,其中解码的频谱表示扩展直到解码的音频信号的时间表示的最大频率,针对最大频率的频谱值为零或不同于零;
第二解码处理器(1140),用于在时域中对第二编码的音频信号部分进行解码以获得解码的第二音频信号部分;
交叉处理器(1170),用于从第一编码音频信号部分的解码的频谱表示中计算第二解码处理器(1140)的初始化数据,使得第二解码处理器(1140)被初始化以对在编码的音频信号中在时间上跟随第一编码音频信号部分的第二编码的音频信号部分进行解码;以及
组合器(1160),用于组合解码的第一音频信号部分和解码的第二音频信号部分以获得解码的音频信号,
其中交叉处理器(1170)还包括另外的频率-时间转换器(1171),以不同于与第一解码处理器(1120)的频率-时间转换器(1124)相关联的第二有效采样率的第一有效采样率进行操作,以在时域中获得进一步解码的第一音频信号部分,
其中由另外的频率-时间转换器(1171)输出的信号具有不同于与第一解码处理器(1120)的频率-时间转换器(1124)的输出相关联的第一采样率的第二采样率,
其中另外的频率-时间转换器(1171)包括:选择器(726),用于根据第一采样率和第二采样率之比选择输入到另外的频率-时间转换器(1171)中的频谱的一部分;
变换处理器(720),具有与第一解码处理器(1120)的频率-时间转换器(1124)的变换长度不同的变换长度;以及
合成加窗器(722),使用与由第一解码处理器(1120)的频率-时间转换器(1124)使用的窗口相比具有不同数量的系数的窗口。
10.根据权利要求9所述的音频解码器,其中,第二解码处理器(1140)包括:
时域低频带解码器(1200),用于解码以获得低频带时域信号;
重新采样器(1210),用于对低频带时域信号进行重新采样;
时域带宽扩展解码器(1220),用于合成时域输出信号的高频带;以及
混频器(1230),用于混合合成的时域输出信号的高频带和重新采样的低频带时域信号。
11.根据权利要求9所述的音频解码器,
其中第一解码处理器(1120)包括用于对解码的第一音频信号部分进行后滤波的自适应长期预测后滤波器(1420),其中后滤波器(1420)由包括在编码的音频信号中的一个或多个长期预测系数控制。
12.根据权利要求9所述的音频解码器,其中交叉处理器(1170)包括:
延迟级(1172),用于延迟进一步解码的第一音频信号部分,并且用于将进一步解码的第一音频信号部分的延迟版本馈送到第二解码处理器(1140)的去加重级(1144)中以进行初始化;
预加重滤波器(1173)和延迟级(1175),用于对进一步解码的第一音频信号部分进行滤波和延迟,并且用于将延迟级输出馈送到第二解码处理器(1140)的预测合成滤波器(1143)中以进行初始化;
预测分析滤波器(1174),用于从进一步解码的第一音频信号部分或预加重的进一步解码的第一音频信号部分中产生预测残留信号,并且用于将预测残留信号馈送到第二解码处理器(1140)的码本合成器(1141)中;或者
开关(1480),用于将进一步解码的第一音频信号部分馈送到第二解码处理器(1140)的重新采样器(1210)的分析级(1471)中以进行初始化。
13.根据权利要求9所述的音频解码器,
其中第二解码处理器(1140)包括块组中的至少一个块,所述块组包括:
用于对ACELP增益和创新码本进行解码的级;
自适应码本合成级;
ACELP后处理器(1142);
预测合成滤波器(1143);以及
去加重级(1144)。
14.一种对音频信号进行编码的方法,包括:
在频域中对音频信号的第一音频信号部分进行编码,第一音频信号部分具有与其相关的采样率,包括:
将第一音频信号部分转换为具有一直到第一音频信号部分的最大频率的频谱线的频域表示,其中最大频率小于或等于采样率的一半并且至少为采样率的四分之一或更高;
对频域表示进行编码;
在时域中对音频信号的不同的第二音频信号部分进行编码;
其中对第二音频信号部分进行编码)具有相关联的第二采样率,
其中对第一音频信号部分进行编码具有与其相关联的不同于第二采样率的第一采样率;
从第一音频信号部分的编码的频谱表示中计算用于对不同的第二音频信号部分进行编码的步骤的初始化数据,使得对不同的第二音频信号部分进行编码的步骤被初始化以对音频信号中在时间上紧随第一音频信号部分的第二音频信号部分进行编码;其中所述计算包括由频率-时间转换器以第二采样率产生时域信号,其中所述产生包括:
根据第一采样率和第二采样率之比选择输入到频率-时间转换器中的频谱的一部分,
使用具有与用在转换第一音频信号部分中的时间-频率转换器的变换长度不同的变换长度的变换处理器(720)进行处理;以及
使用与由用在转换第一音频信号部分中的时间-频率转换器(602)使用的窗口相比具有不同数量的窗口系数的窗口进行合成窗口化;
分析音频信号并且确定音频信号的哪个部分是在频域中编码的第一音频信号部分,以及音频信号的哪个部分是在时域中编码的第二音频信号部分;以及
形成包括用于第一音频信号部分的第一编码信号部分和用于第二音频信号部分的第二编码信号部分的编码的音频信号。
15.一种对编码的音频信号进行解码的方法,包括:
在频域中由第一解码处理器(1120)对第一编码音频信号部分进行解码,所述解码包括:通过频率-时间转换器(1124)将经解码的频谱表示转换(1120)到时域中以获得经解码的第一音频信号部分,其中解码的频谱表示扩展直到解码的音频信号的时间表示的最大频率,针对最大频率的频谱值为零或不同于零;
在时域中对第二编码的音频信号部分进行解码以获得解码的第二音频信号部分;
从第一编码音频信号部分的解码的频谱表示中计算对第二编码的音频信号部分进行解码的步骤的初始化数据,使得对第二编码的音频信号部分进行解码的步骤被初始化以对编码的音频信号中在时间上跟随第一编码音频信号部分的编码的第二编码的音频信号部分进行解码;以及
组合解码的第一音频信号部分和解码的第二音频信号部分以获得解码的音频信号,
其中所述计算还包括
使用另外的频率-时间转换器(1171),以不同于与第一解码处理器(1120)的频率-时间转换器(1124)相关联的第二有效采样率的第一有效采样率进行操作,以在时域中获得进一步解码的第一音频信号部分,
其中由另外的频率-时间转换器(1171)输出的信号具有不同于与第一解码处理器(1120)的频率-时间转换器(1124)的输出相关联的第一采样率的第二采样率,
其中使用另外的频率-时间转换器(1171)包括:
根据第一采样率和第二采样率之比选择输入到另外的频率-时间转换器(1171)中的频谱的一部分,
使用具有与第一解码处理器(1120)的频率-时间转换器(1124)的变换长度不同的变换长度的变换处理器(720);以及
使用合成加窗器(722),所述合成加窗器使用与由第一解码处理器(1120)的频率-时间转换器(1124)使用的窗口相比具有不同数量的系数的窗口。
16.一种存储介质,具有存储在其上的计算机程序,当运行在计算机或处理器上时,所述计算机程序用于执行根据权利要求14或权利要求15所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110039148.6A CN112786063B (zh) | 2014-07-28 | 2015-07-24 | 音频编码器和解码器 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP14178819.0A EP2980795A1 (en) | 2014-07-28 | 2014-07-28 | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
EP14178819.0 | 2014-07-28 | ||
PCT/EP2015/067005 WO2016016124A1 (en) | 2014-07-28 | 2015-07-24 | Audio encoder and decoder using a frequency domain processor, a time domain processor, and a cross processor for continuous initialization |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110039148.6A Division CN112786063B (zh) | 2014-07-28 | 2015-07-24 | 音频编码器和解码器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106796800A CN106796800A (zh) | 2017-05-31 |
CN106796800B true CN106796800B (zh) | 2021-01-26 |
Family
ID=51224877
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110039148.6A Active CN112786063B (zh) | 2014-07-28 | 2015-07-24 | 音频编码器和解码器 |
CN201580038795.8A Active CN106796800B (zh) | 2014-07-28 | 2015-07-24 | 音频编码器、音频解码器、音频编码方法和音频解码方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110039148.6A Active CN112786063B (zh) | 2014-07-28 | 2015-07-24 | 音频编码器和解码器 |
Country Status (19)
Country | Link |
---|---|
US (4) | US10236007B2 (zh) |
EP (4) | EP2980795A1 (zh) |
JP (4) | JP6483805B2 (zh) |
KR (1) | KR102010260B1 (zh) |
CN (2) | CN112786063B (zh) |
AR (1) | AR101343A1 (zh) |
AU (1) | AU2015295606B2 (zh) |
BR (2) | BR122023025780A2 (zh) |
CA (1) | CA2952150C (zh) |
ES (3) | ES2733846T3 (zh) |
MX (1) | MX360558B (zh) |
MY (1) | MY192540A (zh) |
PL (2) | PL3175451T3 (zh) |
PT (2) | PT3175451T (zh) |
RU (1) | RU2668397C2 (zh) |
SG (1) | SG11201700645VA (zh) |
TR (1) | TR201909548T4 (zh) |
TW (1) | TWI581251B (zh) |
WO (1) | WO2016016124A1 (zh) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2830065A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency |
EP2980795A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
EP2980794A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
EP3107096A1 (en) * | 2015-06-16 | 2016-12-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Downscaled decoding |
EP3182411A1 (en) * | 2015-12-14 | 2017-06-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing an encoded audio signal |
EP3405949B1 (en) * | 2016-01-22 | 2020-01-08 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for estimating an inter-channel time difference |
EP3288031A1 (en) * | 2016-08-23 | 2018-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding an audio signal using a compensation value |
CN107886960B (zh) * | 2016-09-30 | 2020-12-01 | 华为技术有限公司 | 一种音频信号重建方法及装置 |
US10354669B2 (en) | 2017-03-22 | 2019-07-16 | Immersion Networks, Inc. | System and method for processing audio data |
EP3382704A1 (en) | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal |
JP7257975B2 (ja) | 2017-07-03 | 2023-04-14 | ドルビー・インターナショナル・アーベー | 密集性の過渡事象の検出及び符号化の複雑さの低減 |
CN110998721B (zh) * | 2017-07-28 | 2024-04-26 | 弗劳恩霍夫应用研究促进协会 | 用于使用宽频带滤波器生成的填充信号对已编码的多声道信号进行编码或解码的装置 |
BR112020008216A2 (pt) * | 2017-10-27 | 2020-10-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | aparelho e seu método para gerar um sinal de áudio intensificado, sistema para processar um sinal de áudio |
US10332543B1 (en) * | 2018-03-12 | 2019-06-25 | Cypress Semiconductor Corporation | Systems and methods for capturing noise for pattern recognition processing |
CN109360585A (zh) * | 2018-12-19 | 2019-02-19 | 晶晨半导体(上海)股份有限公司 | 一种语音激活检测方法 |
CN111383646B (zh) * | 2018-12-28 | 2020-12-08 | 广州市百果园信息技术有限公司 | 一种语音信号变换方法、装置、设备和存储介质 |
US11647241B2 (en) * | 2019-02-19 | 2023-05-09 | Sony Interactive Entertainment LLC | Error de-emphasis in live streaming |
US11380343B2 (en) * | 2019-09-12 | 2022-07-05 | Immersion Networks, Inc. | Systems and methods for processing high frequency audio signal |
JP2023514531A (ja) | 2020-02-03 | 2023-04-06 | ヴォイスエイジ・コーポレーション | マルチチャンネル音コーデックにおけるステレオコーディングモードの切り替え |
CN111554312A (zh) * | 2020-05-15 | 2020-08-18 | 西安万像电子科技有限公司 | 控制音频编码类型的方法、装置和系统 |
CN114299967A (zh) * | 2020-09-22 | 2022-04-08 | 华为技术有限公司 | 音频编解码方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1954367A (zh) * | 2004-05-19 | 2007-04-25 | 诺基亚公司 | 支持音频编码器模式间的转换 |
CN102150205A (zh) * | 2008-07-14 | 2011-08-10 | 韩国电子通信研究院 | 用于编码和解码统合的语音与音频的设备 |
CN102648494A (zh) * | 2009-10-08 | 2012-08-22 | 弗兰霍菲尔运输应用研究公司 | 多模式音频信号解码器、多模式音频信号编码器、使用基于线性预测编码的噪声塑形的方法与计算机程序 |
CN103493131A (zh) * | 2010-12-29 | 2014-01-01 | 三星电子株式会社 | 用于针对高频带宽扩展进行编码/解码的设备和方法 |
CN103905834A (zh) * | 2014-03-13 | 2014-07-02 | 深圳创维-Rgb电子有限公司 | 音频数据编码格式转换的方法及装置 |
Family Cites Families (140)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3465697B2 (ja) | 1993-05-31 | 2003-11-10 | ソニー株式会社 | 信号記録媒体 |
CA2140779C (en) | 1993-05-31 | 2005-09-20 | Kyoya Tsutsui | Method, apparatus and recording medium for coding of separated tone and noise characteristics spectral components of an acoustic signal |
IT1268195B1 (it) * | 1994-12-23 | 1997-02-21 | Sip | Decodificatore per segnali audio appartenenti a sequenze audiovisive compresse e codificate. |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
JP3364825B2 (ja) * | 1996-05-29 | 2003-01-08 | 三菱電機株式会社 | 音声符号化装置および音声符号化復号化装置 |
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
US6233550B1 (en) | 1997-08-29 | 2001-05-15 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
US6446041B1 (en) * | 1999-10-27 | 2002-09-03 | Microsoft Corporation | Method and system for providing audio playback of a multi-source document |
US6968564B1 (en) * | 2000-04-06 | 2005-11-22 | Nielsen Media Research, Inc. | Multi-band spectral audio encoding |
US6996198B2 (en) | 2000-10-27 | 2006-02-07 | At&T Corp. | Nonuniform oversampled filter banks for audio signal processing |
US6384773B1 (en) * | 2000-12-15 | 2002-05-07 | Harris Corporation | Adaptive fragmentation and frequency translation of continuous spectrum waveform to make use of discontinuous unoccupied segments of communication bandwidth |
DE10102155C2 (de) * | 2001-01-18 | 2003-01-09 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Erzeugen eines skalierbaren Datenstroms und Verfahren und Vorrichtung zum Decodieren eines skalierbaren Datenstroms |
FI110729B (fi) * | 2001-04-11 | 2003-03-14 | Nokia Corp | Menetelmä pakatun audiosignaalin purkamiseksi |
US6988066B2 (en) | 2001-10-04 | 2006-01-17 | At&T Corp. | Method of bandwidth extension for narrow-band speech |
US7447631B2 (en) | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
JP3876781B2 (ja) | 2002-07-16 | 2007-02-07 | ソニー株式会社 | 受信装置および受信方法、記録媒体、並びにプログラム |
CN1748242B (zh) * | 2003-02-12 | 2010-12-01 | 皇家飞利浦电子股份有限公司 | 音频再现设备、方法、计算机程序 |
KR100547113B1 (ko) | 2003-02-15 | 2006-01-26 | 삼성전자주식회사 | 오디오 데이터 인코딩 장치 및 방법 |
US20050004793A1 (en) | 2003-07-03 | 2005-01-06 | Pasi Ojala | Signal adaptation for higher band coding in a codec utilizing band split coding |
US7388525B2 (en) | 2003-08-28 | 2008-06-17 | Sony Corporation | Decoding device and method, program recording medium, and program using modulation code encoded in accordance with a variable length table |
JP4679049B2 (ja) * | 2003-09-30 | 2011-04-27 | パナソニック株式会社 | スケーラブル復号化装置 |
CA2457988A1 (en) | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
KR100561869B1 (ko) | 2004-03-10 | 2006-03-17 | 삼성전자주식회사 | 무손실 오디오 부호화/복호화 방법 및 장치 |
US7739120B2 (en) * | 2004-05-17 | 2010-06-15 | Nokia Corporation | Selection of coding models for encoding an audio signal |
DE602004025517D1 (de) * | 2004-05-17 | 2010-03-25 | Nokia Corp | Audiocodierung mit verschiedenen codierungsrahmenlängen |
US7710982B2 (en) * | 2004-05-26 | 2010-05-04 | Nippon Telegraph And Telephone Corporation | Sound packet reproducing method, sound packet reproducing apparatus, sound packet reproducing program, and recording medium |
KR100707186B1 (ko) | 2005-03-24 | 2007-04-13 | 삼성전자주식회사 | 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체 |
SG163556A1 (en) * | 2005-04-01 | 2010-08-30 | Qualcomm Inc | Systems, methods, and apparatus for wideband speech coding |
US7548853B2 (en) * | 2005-06-17 | 2009-06-16 | Shmunk Dmitry V | Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding |
WO2007007672A1 (ja) | 2005-07-07 | 2007-01-18 | Nippon Telegraph And Telephone Corporation | 信号の符号化装置、復号化装置、方法、プログラム、記録媒体、及び信号のコーデック方法 |
KR101370017B1 (ko) * | 2006-02-22 | 2014-03-05 | 오렌지 | Celp 기술에서의 디지털 오디오 신호의 개선된 코딩/디코딩 |
FR2897977A1 (fr) * | 2006-02-28 | 2007-08-31 | France Telecom | Procede de limitation de gain d'excitation adaptative dans un decodeur audio |
DE102006022346B4 (de) * | 2006-05-12 | 2008-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Informationssignalcodierung |
JP2008033269A (ja) | 2006-06-26 | 2008-02-14 | Sony Corp | デジタル信号処理装置、デジタル信号処理方法およびデジタル信号の再生装置 |
US7873511B2 (en) * | 2006-06-30 | 2011-01-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
AU2007264175B2 (en) | 2006-06-30 | 2011-03-03 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and audio processor having a dynamically variable harping characteristic |
EP1990799A1 (en) * | 2006-06-30 | 2008-11-12 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
EP2122615B1 (en) | 2006-10-20 | 2011-05-11 | Dolby Sweden AB | Apparatus and method for encoding an information signal |
US8688437B2 (en) * | 2006-12-26 | 2014-04-01 | Huawei Technologies Co., Ltd. | Packet loss concealment for speech coding |
CN101025918B (zh) * | 2007-01-19 | 2011-06-29 | 清华大学 | 一种语音/音乐双模编解码无缝切换方法 |
KR101261524B1 (ko) | 2007-03-14 | 2013-05-06 | 삼성전자주식회사 | 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치 |
KR101411900B1 (ko) | 2007-05-08 | 2014-06-26 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 장치 |
MX2009013519A (es) * | 2007-06-11 | 2010-01-18 | Fraunhofer Ges Forschung | Codificador de audio para codificar una señal de audio que tiene una porcion similar a un impulso y una porcion estacionaria, metodos de codificacion, decodificador, metodo de decodificacion, y señal de audio codificada. |
EP2015293A1 (en) | 2007-06-14 | 2009-01-14 | Deutsche Thomson OHG | Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain |
US20090048828A1 (en) * | 2007-08-15 | 2009-02-19 | University Of Washington | Gap interpolation in acoustic signals using coherent demodulation |
EP2571024B1 (en) | 2007-08-27 | 2014-10-22 | Telefonaktiebolaget L M Ericsson AB (Publ) | Adaptive transition frequency between noise fill and bandwidth extension |
US8515767B2 (en) * | 2007-11-04 | 2013-08-20 | Qualcomm Incorporated | Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs |
CN101221766B (zh) * | 2008-01-23 | 2011-01-05 | 清华大学 | 音频编码器切换的方法 |
CN101971251B (zh) * | 2008-03-14 | 2012-08-08 | 杜比实验室特许公司 | 像言语的信号和不像言语的信号的多模式编解码方法及装置 |
PL2346030T3 (pl) * | 2008-07-11 | 2015-03-31 | Fraunhofer Ges Forschung | Koder audio, sposób kodowania sygnału audio oraz program komputerowy |
CN103077722B (zh) | 2008-07-11 | 2015-07-22 | 弗劳恩霍夫应用研究促进协会 | 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码 |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
CN102105930B (zh) * | 2008-07-11 | 2012-10-03 | 弗朗霍夫应用科学研究促进协会 | 用于编码采样音频信号的帧的音频编码器和解码器 |
KR101325335B1 (ko) * | 2008-07-11 | 2013-11-08 | 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 | 오디오 샘플 인코드 및 디코드용 오디오 인코더 및 디코더 |
ES2683077T3 (es) * | 2008-07-11 | 2018-09-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada |
AU2013200680B2 (en) * | 2008-07-11 | 2015-01-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder and decoder for encoding and decoding audio samples |
CN102105931B (zh) * | 2008-07-11 | 2013-04-10 | 弗朗霍夫应用科学研究促进协会 | 用于生成带宽扩展信号的装置与方法 |
US8880410B2 (en) * | 2008-07-11 | 2014-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating a bandwidth extended signal |
PT2146344T (pt) | 2008-07-17 | 2016-10-13 | Fraunhofer Ges Forschung | Esquema de codificação/descodificação de áudio com uma derivação comutável |
BRPI0914056B1 (pt) * | 2008-10-08 | 2019-07-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Esquema de codificação/decodificação de áudio comutado multi-resolução |
US8364471B2 (en) | 2008-11-04 | 2013-01-29 | Lg Electronics Inc. | Apparatus and method for processing a time domain audio signal with a noise filling flag |
BR122019023704B1 (pt) | 2009-01-16 | 2020-05-05 | Dolby Int Ab | sistema para gerar um componente de frequência alta de um sinal de áudio e método para realizar reconstrução de frequência alta de um componente de frequência alta |
US8457975B2 (en) | 2009-01-28 | 2013-06-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program |
ES2906255T3 (es) * | 2009-01-28 | 2022-04-13 | Dolby Int Ab | Transposición armónica mejorada |
RU2493618C2 (ru) * | 2009-01-28 | 2013-09-20 | Долби Интернешнл Аб | Усовершенствованное гармоническое преобразование |
KR101622950B1 (ko) | 2009-01-28 | 2016-05-23 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 |
TWI618350B (zh) | 2009-02-18 | 2018-03-11 | 杜比國際公司 | 用於高頻重建或參數立體聲之複指數調變濾波器組 |
JP4977157B2 (ja) * | 2009-03-06 | 2012-07-18 | 株式会社エヌ・ティ・ティ・ドコモ | 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム |
ATE526662T1 (de) * | 2009-03-26 | 2011-10-15 | Fraunhofer Ges Forschung | Vorrichtung und verfahren zur änderung eines audiosignals |
RU2452044C1 (ru) * | 2009-04-02 | 2012-05-27 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот |
EP2237266A1 (en) * | 2009-04-03 | 2010-10-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal |
US8391212B2 (en) * | 2009-05-05 | 2013-03-05 | Huawei Technologies Co., Ltd. | System and method for frequency domain audio post-processing based on perceptual masking |
US8228046B2 (en) * | 2009-06-16 | 2012-07-24 | American Power Conversion Corporation | Apparatus and method for operating an uninterruptible power supply |
KR20100136890A (ko) | 2009-06-19 | 2010-12-29 | 삼성전자주식회사 | 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법 |
EP2273493B1 (en) | 2009-06-29 | 2012-12-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Bandwidth extension encoding and decoding |
EP2460158A4 (en) | 2009-07-27 | 2013-09-04 | METHOD AND APPARATUS FOR PROCESSING AUDIO SIGNAL | |
GB2473267A (en) | 2009-09-07 | 2011-03-09 | Nokia Corp | Processing audio signals to reduce noise |
GB2473266A (en) | 2009-09-07 | 2011-03-09 | Nokia Corp | An improved filter bank |
KR101137652B1 (ko) * | 2009-10-14 | 2012-04-23 | 광운대학교 산학협력단 | 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법 |
EP3693964B1 (en) * | 2009-10-15 | 2021-07-28 | VoiceAge Corporation | Simultaneous time-domain and frequency-domain noise shaping for tdac transforms |
EP4358082A1 (en) * | 2009-10-20 | 2024-04-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation |
EP2491555B1 (en) * | 2009-10-20 | 2014-03-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-mode audio codec |
US8484020B2 (en) | 2009-10-23 | 2013-07-09 | Qualcomm Incorporated | Determining an upperband signal from a narrowband signal |
KR101397058B1 (ko) * | 2009-11-12 | 2014-05-20 | 엘지전자 주식회사 | 신호 처리 방법 및 이의 장치 |
US9048865B2 (en) * | 2009-12-16 | 2015-06-02 | Syntropy Systems, Llc | Conversion of a discrete time quantized signal into a continuous time, continuously variable signal |
US8428959B2 (en) * | 2010-01-29 | 2013-04-23 | Polycom, Inc. | Audio packet loss concealment by transform interpolation |
CN101800050B (zh) * | 2010-02-03 | 2012-10-10 | 武汉大学 | 基于感知自适应比特分配的音频精细分级编码方法及系统 |
US8423355B2 (en) | 2010-03-05 | 2013-04-16 | Motorola Mobility Llc | Encoder for audio signal including generic audio and speech frames |
JP5523589B2 (ja) | 2010-03-09 | 2014-06-18 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | カスケード式フィルタバンクを用いて入力オーディオ信号を処理するための装置および方法 |
EP2375409A1 (en) | 2010-04-09 | 2011-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction |
PL3779979T3 (pl) | 2010-04-13 | 2024-01-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Sposób dekodowania audio do przetwarzania sygnałów audio stereo z wykorzystaniem zmiennego kierunku predykcji |
US8886523B2 (en) | 2010-04-14 | 2014-11-11 | Huawei Technologies Co., Ltd. | Audio decoding based on audio class with control code for post-processing modes |
US8600737B2 (en) * | 2010-06-01 | 2013-12-03 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for wideband speech coding |
WO2011156905A2 (en) | 2010-06-17 | 2011-12-22 | Voiceage Corporation | Multi-rate algebraic vector quantization with supplemental coding of missing spectrum sub-bands |
BR122021002034B1 (pt) | 2010-07-08 | 2021-11-03 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. | Codificador que utiliza cancelamento de serrilhado futuro |
US8560330B2 (en) | 2010-07-19 | 2013-10-15 | Futurewei Technologies, Inc. | Energy envelope perceptual correction for high band coding |
BR112012024360B1 (pt) | 2010-07-19 | 2020-11-03 | Dolby International Ab | sistema configurado para gerar uma pluralidade de sinais de áudio de sub-banda de alta frequência, decodificador de áudio, codificador, método para gerar uma pluralidade de sinais de sub-banda de alta frequência, método para decodificar um fluxo de bits, método para gerar dados de controle a partir de um sinal de áudio e meio de armazenamento |
US9047875B2 (en) | 2010-07-19 | 2015-06-02 | Futurewei Technologies, Inc. | Spectrum flatness control for bandwidth extension |
BE1019445A3 (fr) * | 2010-08-11 | 2012-07-03 | Reza Yves | Procede d'extraction d'information audio. |
JP5749462B2 (ja) * | 2010-08-13 | 2015-07-15 | 株式会社Nttドコモ | オーディオ復号装置、オーディオ復号方法、オーディオ復号プログラム、オーディオ符号化装置、オーディオ符号化方法、及び、オーディオ符号化プログラム |
KR101826331B1 (ko) | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
SG189277A1 (en) * | 2010-10-06 | 2013-05-31 | Fraunhofer Ges Forschung | Apparatus and method for processing an audio signal and for providing a higher temporal granularity for a combined unified speech and audio codec (usac) |
CN103282958B (zh) | 2010-10-15 | 2016-03-30 | 华为技术有限公司 | 信号分析器、信号分析方法、信号合成器、信号合成方法、变换器和反向变换器 |
WO2012053150A1 (ja) * | 2010-10-18 | 2012-04-26 | パナソニック株式会社 | 音声符号化装置および音声復号化装置 |
WO2012076689A1 (en) * | 2010-12-09 | 2012-06-14 | Dolby International Ab | Psychoacoustic filter design for rational resamplers |
FR2969805A1 (fr) | 2010-12-23 | 2012-06-29 | France Telecom | Codage bas retard alternant codage predictif et codage par transformee |
EP2686849A1 (en) * | 2011-03-18 | 2014-01-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Frame element length transmission in audio coding |
EP2707873B1 (en) * | 2011-05-09 | 2015-04-08 | Dolby International AB | Method and encoder for processing a digital stereo audio signal |
JP2012242785A (ja) * | 2011-05-24 | 2012-12-10 | Sony Corp | 信号処理装置、信号処理方法、およびプログラム |
DE102011106033A1 (de) * | 2011-06-30 | 2013-01-03 | Zte Corporation | Verfahren und System zur Audiocodierung und -decodierung und Verfahren zur Schätzung des Rauschpegels |
US9037456B2 (en) * | 2011-07-26 | 2015-05-19 | Google Technology Holdings LLC | Method and apparatus for audio coding and decoding |
ES2592522T3 (es) * | 2011-11-02 | 2016-11-30 | Telefonaktiebolaget L M Ericsson (Publ) | Codificación de audio basada en representación de coeficientes auto-regresivos |
US9043201B2 (en) * | 2012-01-03 | 2015-05-26 | Google Technology Holdings LLC | Method and apparatus for processing audio frames to transition between different codecs |
CN103428819A (zh) * | 2012-05-24 | 2013-12-04 | 富士通株式会社 | 一种载波频点搜索方法和装置 |
GB201210373D0 (en) * | 2012-06-12 | 2012-07-25 | Meridian Audio Ltd | Doubly compatible lossless audio sandwidth extension |
EP2862165B1 (en) | 2012-06-14 | 2017-03-08 | Dolby International AB | Smooth configuration switching for multichannel audio rendering based on a variable number of received channels |
US9236053B2 (en) * | 2012-07-05 | 2016-01-12 | Panasonic Intellectual Property Management Co., Ltd. | Encoding and decoding system, decoding apparatus, encoding apparatus, encoding and decoding method |
US9053699B2 (en) * | 2012-07-10 | 2015-06-09 | Google Technology Holdings LLC | Apparatus and method for audio frame loss recovery |
US9830920B2 (en) * | 2012-08-19 | 2017-11-28 | The Regents Of The University Of California | Method and apparatus for polyphonic audio signal prediction in coding and networking systems |
US9589570B2 (en) | 2012-09-18 | 2017-03-07 | Huawei Technologies Co., Ltd. | Audio classification based on perceptual quality for low or medium bit rates |
RU2660605C2 (ru) * | 2013-01-29 | 2018-07-06 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Концепция заполнения шумом |
RU2626666C2 (ru) * | 2013-02-20 | 2017-07-31 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ формирования кодированного сигнала или декодирования кодированного аудиосигнала с использованием участка с множественным перекрытием |
KR102158896B1 (ko) | 2013-06-11 | 2020-09-22 | 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 | 음향 신호의 대역폭 확장을 행하는 장치 및 방법 |
EP2830065A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency |
CN104517610B (zh) | 2013-09-26 | 2018-03-06 | 华为技术有限公司 | 频带扩展的方法及装置 |
FR3011408A1 (fr) | 2013-09-30 | 2015-04-03 | Orange | Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard |
BR122022008596B1 (pt) | 2013-10-31 | 2023-01-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decodificador de áudio e método para fornecer uma informação de áudio decodificada utilizando uma dissimulação de erro que modifica um sinal de excitação no domínio de tempo |
FR3013496A1 (fr) * | 2013-11-15 | 2015-05-22 | Orange | Transition d'un codage/decodage par transformee vers un codage/decodage predictif |
GB2515593B (en) * | 2013-12-23 | 2015-12-23 | Imagination Tech Ltd | Acoustic echo suppression |
US9741349B2 (en) | 2014-03-14 | 2017-08-22 | Telefonaktiebolaget L M Ericsson (Publ) | Audio coding method and apparatus |
JP6035270B2 (ja) * | 2014-03-24 | 2016-11-30 | 株式会社Nttドコモ | 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム |
US9626983B2 (en) | 2014-06-26 | 2017-04-18 | Qualcomm Incorporated | Temporal gain adjustment based on high-band signal characteristic |
FR3023036A1 (fr) | 2014-06-27 | 2016-01-01 | Orange | Re-echantillonnage par interpolation d'un signal audio pour un codage / decodage a bas retard |
US9794703B2 (en) * | 2014-06-27 | 2017-10-17 | Cochlear Limited | Low-power active bone conduction devices |
EP2980794A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
EP2980795A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
FR3024582A1 (fr) | 2014-07-29 | 2016-02-05 | Orange | Gestion de la perte de trame dans un contexte de transition fd/lpd |
WO2020253941A1 (en) * | 2019-06-17 | 2020-12-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs |
WO2022006682A1 (en) * | 2020-07-10 | 2022-01-13 | Talebzadeh Nima | Radiant energy spectrum converter |
-
2014
- 2014-07-28 EP EP14178819.0A patent/EP2980795A1/en not_active Withdrawn
-
2015
- 2015-07-22 TW TW104123734A patent/TWI581251B/zh active
- 2015-07-24 EP EP15741221.4A patent/EP3175451B1/en active Active
- 2015-07-24 MX MX2017001243A patent/MX360558B/es active IP Right Grant
- 2015-07-24 KR KR1020177005432A patent/KR102010260B1/ko active Active
- 2015-07-24 BR BR122023025780-4A patent/BR122023025780A2/pt active Search and Examination
- 2015-07-24 CA CA2952150A patent/CA2952150C/en active Active
- 2015-07-24 RU RU2017106099A patent/RU2668397C2/ru active
- 2015-07-24 ES ES15741221T patent/ES2733846T3/es active Active
- 2015-07-24 ES ES21195573T patent/ES2994302T3/es active Active
- 2015-07-24 BR BR122023025751-0A patent/BR122023025751A2/pt active Search and Examination
- 2015-07-24 PL PL15741221T patent/PL3175451T3/pl unknown
- 2015-07-24 CN CN202110039148.6A patent/CN112786063B/zh active Active
- 2015-07-24 TR TR2019/09548T patent/TR201909548T4/tr unknown
- 2015-07-24 PL PL19165957T patent/PL3522154T3/pl unknown
- 2015-07-24 EP EP21195573.7A patent/EP3944236B1/en active Active
- 2015-07-24 CN CN201580038795.8A patent/CN106796800B/zh active Active
- 2015-07-24 PT PT15741221T patent/PT3175451T/pt unknown
- 2015-07-24 PT PT191659572T patent/PT3522154T/pt unknown
- 2015-07-24 SG SG11201700645VA patent/SG11201700645VA/en unknown
- 2015-07-24 AU AU2015295606A patent/AU2015295606B2/en active Active
- 2015-07-24 EP EP19165957.2A patent/EP3522154B1/en active Active
- 2015-07-24 MY MYPI2017000055A patent/MY192540A/en unknown
- 2015-07-24 JP JP2017504786A patent/JP6483805B2/ja active Active
- 2015-07-24 WO PCT/EP2015/067005 patent/WO2016016124A1/en active Application Filing
- 2015-07-24 ES ES19165957T patent/ES2901758T3/es active Active
- 2015-07-28 AR ARP150102397A patent/AR101343A1/es active IP Right Grant
-
2017
- 2017-01-24 US US15/414,289 patent/US10236007B2/en active Active
-
2019
- 2019-02-14 JP JP2019024181A patent/JP6838091B2/ja active Active
- 2019-03-01 US US16/290,587 patent/US11410668B2/en active Active
-
2021
- 2021-02-10 JP JP2021019424A patent/JP7135132B2/ja active Active
- 2021-11-01 US US17/453,139 patent/US11915712B2/en active Active
-
2022
- 2022-08-31 JP JP2022137531A patent/JP7507207B2/ja active Active
-
2023
- 2023-08-10 US US18/448,020 patent/US20230386485A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1954367A (zh) * | 2004-05-19 | 2007-04-25 | 诺基亚公司 | 支持音频编码器模式间的转换 |
CN102150205A (zh) * | 2008-07-14 | 2011-08-10 | 韩国电子通信研究院 | 用于编码和解码统合的语音与音频的设备 |
CN102648494A (zh) * | 2009-10-08 | 2012-08-22 | 弗兰霍菲尔运输应用研究公司 | 多模式音频信号解码器、多模式音频信号编码器、使用基于线性预测编码的噪声塑形的方法与计算机程序 |
CN103493131A (zh) * | 2010-12-29 | 2014-01-01 | 三星电子株式会社 | 用于针对高频带宽扩展进行编码/解码的设备和方法 |
CN103905834A (zh) * | 2014-03-13 | 2014-07-02 | 深圳创维-Rgb电子有限公司 | 音频数据编码格式转换的方法及装置 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7135132B2 (ja) | 周波数ドメインプロセッサ、時間ドメインプロセッサ及び連続的な初期化のためのクロスプロセッサを使用するオーディオ符号器及び復号器 | |
US12080310B2 (en) | Audio encoder and decoder using a frequency domain processor with full-band gap filling and a time domain processor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |