CN115004298B - 用于对音频编码的音调信号进行频域长期预测的编码器、解码器、编码方法和解码方法 - Google Patents
用于对音频编码的音调信号进行频域长期预测的编码器、解码器、编码方法和解码方法Info
- Publication number
- CN115004298B CN115004298B CN201980103473.5A CN201980103473A CN115004298B CN 115004298 B CN115004298 B CN 115004298B CN 201980103473 A CN201980103473 A CN 201980103473A CN 115004298 B CN115004298 B CN 115004298B
- Authority
- CN
- China
- Prior art keywords
- harmonic
- current frame
- frame
- spectral coefficients
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
提供了根据实施例的用于根据音频信号的一个或多个先前帧来对音频信号的当前帧进行编码的编码器(100)。一个或多个先前帧在当前帧之前,其中当前帧和一个或多个先前帧中的每一个包括音频信号的一个或多个谐波分量,其中当前帧和一个或多个先前帧中的每一个包括频域中或变换域中的多个频谱系数。为了生成对当前帧的编码,编码器(100)将确定对一个或多个先前帧中的最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计。此外,编码器(100)将使用音频信号的一个或多个先前帧中的每个先前帧的多个频谱系数中的三个或更多个频谱系数构成的第一组频谱系数,来确定对最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计。
Description
技术领域
本发明涉及音频信号编码、音频信号处理和音频信号解码,并且具体地,涉及用于对音频编码的音调信号进行频域长期预测的装置和方法。
背景技术
在音频编码领域,预测用于去除音频信号中的冗余。通过从原始数据中减去经预测数据,然后对通常呈现较低熵的残差进行量化和编码,可以降低用于传输和存储音频信号的比特率[1]。长期预测(LTP)是一种旨在去除音频信号中的周期性分量的预测方法[2]。
在运动图像专家组(MPEG)-2高级音频编码(AAC)标准中,改进离散余弦变换(MDCT)被用作具有后向自适应LTP的感知音频编码器的时频变换[3]。
图4示出了具有后向自适应LTP的变换感知音频编码器的结构。图4的音频编码器包括MDCT单元410、心理声学模型单元420、基音估计单元430、长期预测单元440、量化器450和量化器重构单元460。
如图4所示,预测单元以经重构的MDCT帧为输入。为了执行传统的时域长期预测(TDLTP),经重构信号的MDCT系数需要首先变换到时域中。然后将经预测的时域段变换回MDCT域以进行残差计算。
MDCT使用减少阻挡效应的重叠分析窗口,并且在逆变换中的合成步骤处通过重叠相加(OLA)过程仍然提供了完美的重构[4]。由于当前帧的后半部分的无混叠重构需要未来帧的前半部分[4],因此需要仔细地选择预测滞后[2]。
如果仅缓冲区中的完全经重构样本被用于预测,则在所选择的先前基音滞后与要预测的基音滞后之间可以存在整数倍基音周期的延迟。由于音频信号的非平稳性,较长的延迟会使预测的稳定性下降。对于具有高基频的信号,基音周期较短,因此这种附加延迟对预测的负面影响会更加突出。
在[5]中提出了直接在MDCT域中操作的频域预测(FDP)概念(另见[13])。在该方法中,在预测期间对音调信号的每个谐波分量单独进行处理。通过计算当前帧中的频段(bin)在先前帧中的频谱相邻频段的正弦进展来获得对当前帧中的频段的预测。
然而,当这些MDCT系数的频率分辨率相对于音调信号的基频相对较低时,谐波分量可能在频段上彼此严重重叠,从而导致该频域方法的性能不佳。
发明内容
提供了一种根据实施例的编码器,用于根据音频信号的一个或多个先前帧来对音频信号的当前帧进行编码。一个或多个先前帧在当前帧之前,其中当前帧和一个或多个先前帧中的每一个包括音频信号的一个或多个谐波分量,其中当前帧和一个或多个先前帧中的每一个包括频域中或变换域中的多个频谱系数。为了生成对当前帧的编码,编码器将确定对一个或多个先前帧中的最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计。此外,编码器将使用音频信号的一个或多个先前帧中的每个先前帧的多个频谱系数中的三个或更多个频谱系数构成的第一组频谱系数,确定对最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计。
此外,提供了一种根据实施例的解码器,用于重构音频信号的当前帧。音频信号的一个或多个先前帧在当前帧之前,其中当前帧和一个或多个先前帧中的每一个包括音频信号的一个或多个谐波分量,其中当前帧和一个或多个先前帧中的每一个包括频域中或变换域中的多个频谱系数。解码器将接收当前帧的编码。解码器将确定对一个或多个先前帧中的最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计。最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数取决于音频信号的一个或多个先前帧中的每个先前帧的多个经重构的频谱系数中的三个或更多个频谱系数构成的第一组频谱系数。此外,解码器将根据当前帧的编码并且根据对最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,来重构当前帧。
此外,提供了一种根据实施例的用于帧丢失隐藏的装置。音频信号的一个或多个先前帧在音频信号的当前帧之前。当前帧和一个或多个先前帧中的每一个包括音频信号的一个或多个谐波分量,其中当前帧和一个或多个先前帧中的每一个包括频域中或变换域中的多个频谱系数。该装置将确定对一个或多个先前帧中的最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,其中最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数取决于音频信号的一个或多个先前帧中的每个先前帧的多个经重构的频谱系数中的三个或更多个频谱系数构成的第一组频谱系数。如果该装置未接收到当前帧,或者如果该装置接收到处于损坏状态下的当前帧,则该装置将根据对最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计来重构当前帧。
此外,提供了一种根据实施例的用于根据音频信号的一个或多个先前帧来对音频信号的当前帧进行编码的方法。一个或多个先前帧在当前帧之前。当前帧和一个或多个先前帧中的每一个包括音频信号的一个或多个谐波分量。当前帧和一个或多个先前帧中的每一个包括频域中或变换域中的多个频谱系数。为了生成对当前帧的编码,该方法包括确定对一个或多个先前帧中的最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计。确定对最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计是使用音频信号的一个或多个先前帧中的每个先前帧的多个频谱系数中的三个或更多个频谱系数构成的第一组频谱系数进行的。
此外,提供了一种根据实施例的用于重构音频信号的当前帧的方法。音频信号的一个或多个先前帧在当前帧之前。当前帧和一个或多个先前帧中的每一个包括音频信号的一个或多个谐波分量。当前帧和一个或多个先前帧中的每一个包括频域中或变换域中的多个频谱系数。该方法包括接收当前帧的编码。此外,该方法包括确定对一个或多个先前帧中的最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,其中最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数取决于音频信号的一个或多个先前帧中的每个先前帧的多个经重构的频谱系数中的三个或更多个频谱系数构成的第一组频谱系数。此外,该方法包括:根据当前帧的编码并且根据对最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,来重构当前帧。
此外,提供了一种根据实施例的用于帧丢失隐藏的方法。音频信号的一个或多个先前帧在音频信号的当前帧之前,其中当前帧和一个或多个先前帧中的每一个包括音频信号的一个或多个谐波分量,其中当前帧和一个或多个先前帧中的每一个包括频域中或变换域中的多个频谱系数。该方法包括确定对一个或多个先前帧中的最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,其中最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数取决于音频信号的一个或多个先前帧中的每个先前帧的多个经重构的频谱系数中的三个或更多个频谱系数构成的第一组频谱系数。此外,该方法包括:如果未接收到当前帧,或者如果接收到处于损坏状态下的当前帧,则根据最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数来重构当前帧。
此外,提供了一种根据实施例的计算机程序,用于当计算机程序由计算机或信号处理器执行时实现上述方法之一。
长期预测(LTP)传统上用于预测在时域中具有一定周期性的信号。在音频编码器中具有后向自适应的变换编码的情况下,解码器单元眼前通常只有频率系数,因此在预测之前需要进行逆变换。实施例提供了频域最小均方预测(FDLMSP)概念,其直接在改进离散余弦变换(MDCT)域中运行,并且其例如明显降低音频编码的比特率,即使在非常低的频率分辨率下也是如此。因此,一些实施例可以例如用在变换编解码器中以增强编码效率,尤其是在低延迟音频编码场景中。
一些实施例提供了频域最小均方预测(FDLMSP)概念,其直接在MDCT域中执行LTP。然而,这个新概念不是在每个频段上单独地进行预测,而是使用实值线性方程系统对变换域中的音调信号的谐波分量进行建模。预测是在最小均方(LMS)求解线性方程组之后完成的。然后,基于谐波的相位进展性质,使用谐波的参数来预测当前帧。应当注意,该预测概念也可以应用于其他实值线性变换或滤波器组,例如不同类型的离散余弦变换(DCT)或多相正交滤波器(PQF)[6]。
下面介绍信号模型,详细说明谐波分量估计和预测过程,描述与TDLTP和FDP相比评估FDLMSP概念的实验,以及示出并讨论结果。
附图说明
在下文中,将参考附图更详细地描述本发明的实施例,在附图中:
图1示出了根据实施例的用于根据音频信号的一个或多个先前帧对音频信号的当前帧进行编码的编码器。
图2示出了根据实施例的用于对音频信号的当前帧的编码进行解码的解码器。
图3示出了根据实施例的系统。
图4示出了具有后向自适应LTP的变换感知音频编码器的结构。
图5示出了使用三个预测概念在具有不同预测带宽和MDCT长度的单音符预测上节省的比特率。
图6示出了在四个不同工作模式下在六个不同的项目上节省的比特率,该六个不同的项目的带宽被限制为4kHz,MDCT帧长度为64和512。
图7示出了根据实施例的用于帧丢失隐藏的装置。
图8示出了根据示例的用于对FDP预测概念的音频信号进行编码的编码器的示意性框图。
图9示出了根据示例的用于对FDP预测概念的经编码的信号120进行解码的解码器201的示意性框图。
具体实施方式
图1示出了根据实施例的用于根据音频信号的一个或多个先前帧对音频信号的当前帧进行编码的编码器100。
一个或多个先前帧在当前帧之前,其中当前帧和一个或多个先前帧中的每一个包括音频信号的一个或多个谐波分量,其中当前帧和一个或多个先前帧中的每一个包括频域中或变换域中的多个频谱系数。
为了生成对当前帧的编码,编码器100将确定对一个或多个先前帧中的最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计。此外,编码器100将使用音频信号的一个或多个先前帧中的每个先前帧的多个频谱系数中的三个或更多个频谱系数构成的第一组频谱系数,确定对最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计。
最先前帧可以例如相对于当前帧是最先前的。
例如,最先前帧可以是(被称为)紧接先前帧。例如,紧接先前帧可以直接在当前帧之前。
当前帧包括音频信号的一个或多个谐波分量。一个或多个先前帧中的每一个可能包括音频信号的一个或多个谐波分量。假设当前帧和一个或多个先前帧中的一个或多个谐波分量的基频相同。
根据实施例,编码器100可以例如被配置为在不使用一个或多个先前帧中的每个先前帧的多个频谱系数中的一个或多个其他频谱系数构成的第二组频谱系数的情况下,估计最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数。
根据实施例,编码器100可以例如被配置为根据当前帧和一个或多个先前帧的一个或多个谐波分量的基频并且根据对最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,来确定增益因子和残差信号作为当前帧的编码。编码器100可以例如被配置为生成当前帧的编码,使得当前帧的编码包括增益因子和残差信号。
在实施例中,编码器100可以例如被配置为根据对最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计并且根据当前帧和一个或多个先前帧的一个或多个谐波分量的基频,来确定对当前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计。例如,可以假设基频在当前帧和一个或多个先前帧上不变。
根据实施例,一个或多个谐波分量中的每个谐波分量的两个谐波参数为:针对一个或多个谐波分量中的每个谐波分量的余弦子分量的第一参数,以及针对一个或多个谐波分量中的每个谐波分量的正弦子分量的第二参数。
在实施例中,编码器100可以例如被配置为通过求解包括至少三个方程的线性方程组来估计对最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数,其中至少三个方程中的每一个取决于一个或多个先前帧中的每个先前帧的多个频谱系数中的三个或更多个频谱系数构成的第一组频谱系数中的频谱系数。
根据实施例,编码器100可以例如被配置为使用最小均方算法来求解线性方程组。
根据实施例,线性方程组由下式定义:
其中,
其中,γ1指示最先前帧的一个或多个谐波分量中具有一个或多个谐波分量中的最低谐波分量频率的一个谐波分量的第一频谱带,其中γH指示最先前帧的一个或多个谐波分量中具有一个或多个谐波分量中的最高谐波分量频率的一个谐波分量的第二频谱带,其中r为整数,r≥0。
在实施例中,r≥1。
根据实施例,
其中,
其中,ah是针对最先前帧的第h谐波分量的余弦子分量的参数,其中bh是针对最先前帧的第h谐波分量的正弦子分量的参数,其中,对于1≤h≤H的每个整数值:
其中,
其中,
其中,f(n)是时域中的窗口函数,其中DFT是离散傅里叶变换,其中,
其中,
其中,f0是当前帧和一个或多个先前帧的一个或多个谐波分量的基频,其中fs是采样频率,并且其中N取决于用于将时域音频信号变换到频域中或频谱域中的变换块的长度。
在实施例中,线性方程组能够根据下式求解:
其中,是第一向量,其包括对最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,其中Xm-1(Λ)是第二向量,其包括一个或多个先前帧中的每个先前帧的多个频谱系数中的三个或更多个频谱系数构成的第一组频谱系数,其中U+是U=[U1,U2,…,UH]的穆尔-彭罗斯(Moore-Penrose)逆矩阵,其中U包括多个第三矩阵或第三向量,其中第三矩阵或第三向量中的每一个与对最先前帧的一个或多个谐波分量中的谐波分量的两个谐波参数的估计一起指示对所述谐波分量的估计,其中H指示一个或多个先前帧的谐波分量的数量。
在实施例中,编码器100可以例如对谐波分量的基频、窗口函数、增益因子和残差信号进行编码。
根据实施例,编码器100可以例如被配置为在使用音频信号的一个或多个先前帧中的每个先前帧的多个频谱系数中的三个或更多个频谱系数构成的第一组频谱系数估计对最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数之前,确定最先前帧的一个或多个谐波分量的数量和最先前帧的一个或多个谐波分量的基频。
根据实施例,编码器100可以例如被配置为从一个或多个谐波分量中确定一组或多组谐波分量,并且在一组或多组谐波分量上应用音频信号的预测,其中编码器100可以例如被配置为对最先前帧的一组或多组谐波分量中的每一组谐波分量的阶数进行编码。
在实施例中,编码器100可以例如被配置为应用:
ch=ahcos(ωhN)+bhsin(ωhN),并且
其中,编码器100可以例如被配置为应用:
dh=ahsin(ωhN)+bhcos(ωhN),
其中,ah是针对最先前帧的所述一个或多个谐波分量的第h谐波分量的余弦子分量的参数,其中bh是针对最先前帧的所述一个或多个谐波分量的第h谐波分量的正弦子分量的参数,其中ch是针对当前帧的所述一个或多个谐波分量的第h谐波分量的余弦子分量的参数,其中dh是针对当前帧的所述一个或多个谐波分量的第h谐波分量的正弦子分量的参数,其中N取决于用于将时域音频信号变换到频域中或频谱域中的变换块的长度,并且其中,
其中,f0是最先前帧的一个或多个谐波分量的基频,它是当前帧的一个或多个谐波分量的基频,其中fs是采样频率,并且其中h是指示最先前帧的一个或多个谐波分量之一的索引。
根据实施例,编码器100可以例如被配置为根据当前帧在频域中或变换域中的多个频谱系数并且根据对当前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,来确定残差信号,并且其中编码器100可以例如被配置为对残差信号进行编码。
在实施例中,编码器100可以例如被配置为根据对当前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,来确定当前帧的多个频谱系数中的一个或多个频谱系数的频谱预测。编码器100可以例如被配置为根据当前帧在频域中或变换域中的多个频谱系数并且根据当前帧的多个频谱系数中的三个或更多个频谱系数的频谱预测,来确定残差信号和增益因子;其中编码器100可以例如被配置为生成对当前帧的编码,使得当前帧的编码包括残差信号和增益因子。
根据实施例,编码器100可以例如被配置为根据下式来确定当前帧的残差信号:
其中,m是帧索引,其中k是频率索引,其中Rm(k)指示残差信号在频谱域中或变换域中的第k样本,其中Xm(k)指示当前帧的频谱系数在频谱域中或变换域中的第k样本,其中指示当前帧的频谱预测在频谱域中或变换域中的第k样本,并且其中g是增益因子。
图2示出了根据实施例的用于重构音频信号的当前帧的解码器200。
音频信号的一个或多个先前帧在当前帧之前,其中当前帧和一个或多个先前帧中的每一个包括音频信号的一个或多个谐波分量,其中当前帧和一个或多个先前帧中的每一个包括频域中或变换域中的多个频谱系数。
解码器200将接收当前帧的编码。
此外,解码器200将确定对一个或多个先前帧中的最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计。最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数取决于音频信号的一个或多个先前帧中的每个先前帧的多个经重构的频谱系数中的三个或更多个频谱系数构成的第一组频谱系数。
此外,解码器200将根据当前帧的编码并且根据对最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,来重构当前帧。
最先前帧可以例如相对于当前帧是最先前的。
例如,最先前帧可以是(被称为)紧接先前帧。例如,紧接先前帧可以直接在当前帧之前。
当前帧包括音频信号的一个或多个谐波分量。一个或多个先前帧中的每一个可能包括音频信号的一个或多个谐波分量。假设当前帧和一个或多个先前帧中的一个或多个谐波分量的基频相同。
根据实施例,最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数不取决于一个或多个先前帧的多个频谱系数中的一个或多个其他频谱系数构成的第二组频谱系数。
在实施例中,解码器200可以例如被配置为根据对最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计并且根据当前帧和一个或多个先前帧的一个或多个谐波分量的基频,来确定对当前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计。
根据实施例,解码器100可以例如被配置为接收当前帧的包括增益因子和残差信号的编码。解码器200可以例如被配置为根据增益因子、根据残差信号并且根据当前帧和一个或多个先前帧的一个或多个谐波分量的基频,来重构当前帧。例如,可以假设基频在当前帧和一个或多个先前帧上不变。
根据实施例,一个或多个谐波分量中的每个谐波分量的两个谐波参数为:针对一个或多个谐波分量中的每个谐波分量的余弦子分量的第一参数,以及针对一个或多个谐波分量中的每个谐波分量的正弦子分量的第二参数。
在实施例中,最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数取决于包括至少三个方程的线性方程组,其中至少三个方程中的每一个取决于一个或多个先前帧中的每个先前帧的多个经重构的频谱系数中的三个或更多个频谱系数构成的第一组频谱系数中的频谱系数。
根据实施例,线性方程组能够使用最小均方算法求解。
根据实施例,线性方程组由下式定义:
其中,
其中,γ1指示最先前帧的一个或多个谐波分量中具有一个或多个谐波分量中的最低谐波分量频率的一个谐波分量的第一频谱带,其中γH指示最先前帧的一个或多个谐波分量中具有一个或多个谐波分量中的最高谐波分量频率的一个谐波分量的第二频谱带,其中r为整数,r≥0。
在实施例中,r≥1。
根据实施例,
其中,
其中,ah是针对最先前帧的第h谐波分量的余弦子分量的参数,其中bh是针对最先前帧的第h谐波分量的正弦子分量的参数,其中,对于1≤h≤H的每个整数值:
其中,
其中,
其中,f(n)是时域中的窗口函数,其中DFT是离散傅里叶变换,其中,
其中,
其中,f0是当前帧和一个或多个先前帧的一个或多个谐波分量的基频,其中fs是采样频率,并且其中N取决于用于将时域音频信号变换到频域中或频谱域中的变换块的长度。
在实施例中,线性方程组能够根据下式求解:
其中,是第一向量,其包括对最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,其中Xm-1(Λ)是第二向量,其包括一个或多个先前帧中的每个先前帧的多个经重构的频谱系数中的三个或更多个频谱系数构成的第一组频谱系数,其中U+是U=[U1,U2,…,UH]的穆尔-彭罗斯(Moore-Penrose)逆矩阵,其中U包括多个第三矩阵或第三向量,其中第三矩阵或第三向量中的每一个与对最先前帧的一个或多个谐波分量中的谐波分量的两个谐波参数的估计一起指示对所述谐波分量的估计,其中H指示一个或多个先前帧的谐波分量的数量。
在实施例中,其中解码器200可以例如被配置为接收谐波分量的基频、窗口函数、增益因子和残差信号。解码器200可以例如被配置为根据最先前帧的一个或多个谐波分量的基频、根据谐波分量的阶数、根据窗口函数、根据增益因子并且根据残差信号,来重构当前帧。
仅需要传输基频、谐波分量的阶数、窗口函数、增益因子和残差。解码器200可以例如基于该接收到的信息来计算U,然后进行谐波参数估计和当前帧预测。例如,解码器可以然后通过将所传输的残差频谱添加到由所传输的增益因子进行缩放的预测频谱来重构当前帧。
根据实施例,解码器200可以例如被配置为接收最先前帧的一个或多个谐波分量的数量和最先前帧的一个或多个谐波分量的基频。解码器200可以例如被配置为根据最先前帧的一个或多个谐波分量的数量并且根据当前帧和一个或多个先前帧的一个或多个谐波分量的基频,来对当前帧的编码进行解码。
根据实施例,解码器200根据一组或多组谐波分量对当前帧的编码进行解码,其中解码器200在一组或多组谐波分量上应用音频信号的预测。
根据实施例,解码器200可以例如被配置为:根据最先前帧的一个或多个谐波分量中的所述一个谐波分量中的每个谐波分量的两个谐波参数,确定当前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数。
在实施例中,
ch=ahcos(ωhN)+bhsin(ωhN),并且
其中,解码器200可以例如被配置为应用:
dh=ahsin(ωhN)+bhcos(ωhN),
其中,ah是针对最先前帧的所述一个或多个谐波分量的第h谐波分量的余弦子分量的参数,其中bh是针对最先前帧的所述一个或多个谐波分量的第h谐波分量的正弦子分量的参数,其中ch是针对当前帧的所述一个或多个谐波分量的第h谐波分量的余弦子分量的参数,其中dh是针对当前帧的所述一个或多个谐波分量的第h谐波分量的正弦子分量的参数,其中N取决于用于将时域音频信号变换到频域中或频谱域中的变换块的长度,并且其中,
其中,f0是最先前帧的一个或多个谐波分量的基频,它是当前帧的一个或多个谐波分量的基频,其中fs是采样频率,并且其中h是指示最先前帧的一个或多个谐波分量之一的索引。
根据实施例,解码器200可以例如被配置为接收残差信号,其中残差信号取决于当前帧在频域中或变换域中的多个频谱系数,并且其中,残差信号取决于对当前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计。
在实施例中,解码器200可以例如被配置为根据对当前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,确定当前帧的多个频谱系数中的一个或多个频谱系数的频谱预测,并且其中,解码器200可以例如被配置为根据当前帧的频谱预测且根据残差信号且根据增益因子,来确定音频信号的当前帧。
根据实施例,其中当前帧的残差信号根据下式来定义:
其中,m是帧索引,其中k是频率索引,其中是所接收的量化重构之后的残差,其中是经重构的当前帧,其中指示当前帧在频谱域中或变换域中的频谱预测,并且其中g是增益因子。
图3示出了根据实施例的系统。
该系统包括根据上述实施例之一的用于对音频信号的当前帧进行编码的编码器100。
此外,该系统包括根据上述实施例之一的用于对音频信号的当前帧的编码进行解码的解码器200。
图7示出了根据实施例的用于帧丢失隐藏的装置700。
音频信号的一个或多个先前帧在音频信号的当前帧之前。当前帧和一个或多个先前帧中的每一个包括音频信号的一个或多个谐波分量,其中当前帧和一个或多个先前帧中的每一个包括频域中或变换域中的多个频谱系数。
装置700将确定对一个或多个先前帧中的最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,其中,最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数取决于音频信号的一个或多个先前帧中的每个先前帧的多个经重构的频谱系数中的三个或更多个频谱系数构成的第一组频谱系数。
如果装置700未接收到当前帧,或者如果装置700接收到处于损坏状态下的当前帧,则装置700将根据对最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计来重构当前帧。
最先前帧可以例如相对于当前帧是最先前的。
例如,最先前帧可以是(被称为)紧接先前帧。例如,紧接先前帧可以直接在当前帧之前。
当前帧包括音频信号的一个或多个谐波分量。一个或多个先前帧中的每一个可能包括音频信号的一个或多个谐波分量。假设当前帧和一个或多个先前帧中的一个或多个谐波分量的基频相同。
根据实施例,装置700可以例如被配置为接收最先前帧的一个或多个谐波分量的数量。装置700可以例如根据最先前帧的一个或多个谐波分量的数量并且根据当前帧和一个或多个先前帧的一个或多个谐波分量的基频,来对当前帧的编码进行解码。
在实施例中,为了重构当前帧,装置700可以例如被配置为根据对最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,来确定对当前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计。
在实施例中,装置700将应用:
ch=ahcos(ωhN)+bhsin(ωhN),并且
其中,装置700将应用:
dh=ahsin(ωhN)+bhcos(ωhN),
其中,ah是针对最先前帧的所述一个或多个谐波分量的第h谐波分量的余弦子分量的参数,其中bh是针对最先前帧的所述一个或多个谐波分量的第h谐波分量的正弦子分量的参数,其中ch是针对当前帧的所述一个或多个谐波分量的第h谐波分量的余弦子分量的参数,其中dh是针对当前帧的所述一个或多个谐波分量的第h谐波分量的正弦子分量的参数,其中N取决于用于将时域音频信号变换到频域中或频谱域中的变换块的长度,并且其中,
其中,f0是最先前帧的一个或多个谐波分量的基频,它是当前帧的一个或多个谐波分量的基频,其中fs是采样频率,并且其中h是指示最先前帧的一个或多个谐波分量之一的索引。
根据实施例,装置700可以例如被配置为根据对当前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,来确定当前帧的多个频谱系数中的三个或更多个频谱系数的频谱预测。
在下文中,提供了优选实施例。
首先,描述信号模型。
假设数字音频信号中的谐波部分为:
其中
其中,f0是一个或多个谐波分量的基频,H是谐波分量的数量。不失一般性地,特意将相位分量的表达划分为两部分,其中由ωh·(N/2+1/2)表示的部分便于稍后在对x(n)进行MDCT变换时进行数学推导,其中N是MDCT帧长度,φh是相位分量的剩余部分。
fs是例如采样频率。
谐波分量由三个参数确定:频率、振幅和相位。假设频率信息ωh已知,则对振幅和相位的估计是非线性回归问题。然而,这可以通过将等式(1)重写为下式变成线性回归问题:
谐波的未知参数现在是ah和bh:
ah=Ahcos(φh), (4a)
bh=-Ahsin(φh)。 (4b)
将长度为2N的x(n)块变换到MDCT域中:
其中
其中f(n)是分析窗口函数,κk是频带k中的调制频率。
将等式(3)替换为等式(5),并通过一些基于三角学的数学推导,我们得到:
其中F()是通过将相移项添加到窗口函数的傅里叶变换而获得的实值函数:
在下文中,描述谐波估计和预测。
基于上面通过等式(3)~(8)描述的假设信号模型,通过谐波分量的频率在相邻帧之间不会快速改变的附加假设,所提出的FDLMSP方法可以被划分为三个步骤。例如,为了预测第m帧,首先估计第m帧中所有谐波分量的频率信息。该频率信息稍后将作为辅助信息的一部分发送以帮助解码器200处的预测。然后,仅使用先前帧对第m–1帧处的每个谐波分量的参数(被表示为ah、bh,其中h=[1...H])进行估计。
最后,基于所估计的谐波参数来预测第m帧。残差频谱然后被计算并被进一步处理,例如被量化和被传输。每一帧中的基音信息可以通过基音估计器获得。
首先,详细描述谐波估计。
变换通常具有有限的频率分辨率,因此每个谐波分量将分布在其中心频率所在的频带周围的若干相邻频段上。对于第m–1帧中频率为ωh的谐波分量,它将位于MDCT频带(频带索引是γh)的中心,其中
并分布在以下频段上:
Γh=γh-r,...,γh+r,
其中r是每一侧的相邻频段的数量。
该谐波分量的参数ah和bh可以通过求解由等式(7)形成的这种线性方程组来估计:
其中
Uh是与信号x(n)无关的实值矩阵并且可以被计算一次,f0、N和窗口函数f(n)是已知的。
假设一个帧中的所有谐波分量的频率信息是已知的,通过在所有谐波分量上合并等式(9)获得以下线性方程组:
其中
矩阵U和MDCT系数都是实值的,因此存在实值线性方程组。对谐波参数的估计可以通过最小均方(LMS)求解具有U的伪逆的线性方程组如下地获得:
U+是例如U的穆尔-彭罗斯(Moore-Penrose)逆矩阵。
(U+例如是U的伪逆矩阵。)
是例如对谐波参数p的估计。
关于等式(9)在所有谐波分量上的合并,同样,虽然等式(10b)保持不变,但是等式(10a)和(10c)变为:
由于Λ不同于Γh,因此Uh和γ的尺寸改变。
对等式(10b)中的估计例如可以被称为:
在要估计的参数的数量超过谐波跨越的MDCT频段的数量的情况下,将导致线性方程的欠定系统。这通过利用来自更多先前帧的对应值竖直地堆叠矩阵U且水平地堆叠向量X来避免。然而,没有引入额外的延迟,因为(最)先前帧已经在缓冲区中。相反,通过这种扩展,所提出的这种方法适用于其中谐波分量密集间隔的极低频率分辨率场景。可以将缩放因子应用在所采用的先前帧的数量上,以保证线性方程的超定系统,这也增强了该预测概念对信号中噪声的鲁棒性。
现在,详细描述预测。
假设正弦波的频率和振幅不变,则时域中的第m帧可以被写为:
其中
ch=ahcos(ωhN)+bhsin(ωhN), (15a)
dh=ahsin(ωhN)+bhcos(ωhN)。 (15b)
通过对眼前的第m–1帧中的一个或多个谐波分量中的每个谐波分量的谐波参数的估计,基于等式(5)~(9),当前MDCT帧的预测为:
其中
对于未进行预测的频段,将预测值设置为零。
然而,由于信号的不平稳性,谐波的振幅可以在连续帧之间稍微变化。引入增益因子以适应该振幅改变,并将作为辅助信息的一部分发送到解码器200。
残差频谱然后为:
在下文中,评估所提供的上述概念。
为了评估所提出的该FDLMSP概念的性能,已经根据图4在Python中构建了编码器环境。所提供的概念遵循上面的描述来实现,其中r等于2。为了比较,TDLTP和FDP已经根据参考文献[2]、[5]重新实现。这旨在使用实验从三个不同方面评估这三个预测概念:(i)关于MDCT系数的不同频率分辨率的性能,(ii)对测试材料的不和谐性[7]的敏感度,以及(iii)在相同编码场景中,整体性能及彼此比较的能力。音调的不和谐性通常意味着其高阶谐波不再均匀间隔。由于较高频带中的谐波在感知上不太重要[8],因此已经评估了通过使用不同预测带宽对该因素的影响。
对于实验,已经使用了16kHz的采样频率以及64、128、256和512的MDCT帧长度。预测是在1kHz、2kHz、4kHz和8kHz的有限带宽上完成的。已经选择正弦窗口作为分析窗口,因为它满足完美重构的约束条件[9]。当在不同帧长度之间切换时,该方法还可以处理非对称窗口。为了提高谐波估计的精度,F(ω)函数是在分析窗口的内插传递函数上计算的。在TDLTP中,对于每个帧,使用完全重构的数据和原始时域信号基于自相关概念来计算3抽头预测滤波器。当从缓冲数据中搜索先前完全重构的基音滞后时,还考虑了基音滞后可能不是采样间隔的整数倍。时间或频谱相邻频段的数量在FDP中被限制为2。
YIN算法[10]用于基音估计。fo搜索范围被设置为[20,...,1000]Hz,并且谐波阈值为0.25。[11]中提出的基于复杂无限脉冲响应(IIR)滤波器组的感知模型用于计算量化的掩蔽阈值。在每个帧中通过最小化量化残差的感知熵(PE)[12]来联合地完成YIN估计周围的更精细的基音搜索(±0.5Hz,步长为0.02Hz)和[0.5,...,2]中的最佳增益因子搜索(步长为0.01),该感知熵是对考虑了感知模型的量化残差频谱的熵的近似。
编码器具有四个工作模式:分别为“FDLMSP”、“TDLTP”、“FDP”和“自适应MDCT LTP(AMLTP)”。在“AMLTP”模式下,编码器在帧的基础上,以PE最小化为标准,在不同预测概念之间进行切换。对于所有四个工作模式,如果残差频谱的PE比原始信号频谱高,则不会在帧中进行预测。
对于每个模式,编码器在六个不同的材料上进行了测试:持续时间为1至2秒的三个单音符:低音音符(f0为约50Hz);大键琴音符(f0为约88Hz)和定音管音符(f0为约290Hz)。这些测试材料具有相对规则的谐波结构和缓慢变化的时间包络。编码器还在更复杂的测试材料上进行了测试:小号(约5秒长,f0在300Hz与700Hz之间变化),女性声音(约10秒长,f0在200Hz与300Hz之间变化}和男性语音(约8秒长;f0在100Hz与220Hz之间变化)。这三个测试材料具有广泛变化的包络和沿时间快速改变的基音以及不太规则的谐波结构。在实验期间,已经注意到,低音音符具有比一阶谐波强得多的二阶谐波,从而导致不断错误的基音估计。因此,已经调整了用于正确基音估计的YIN基音估计器中的该低音音符的f0搜索范围。
已经估计了经量化的残差频谱和经量化的原始信号频谱的平均PE。基于所估计的PE,已经计算了通过应用预测在传输信号中节省的比特率(BS)[以比特/秒为单位],而没有考虑辅助信息的比特率消耗。首先,已经检查了每个概念的行为,并且该比较已经限于用于合理推断和分析的单音符预测。然后我们比较了四个模式在相同参数配置下的性能。
图5示出了使用三个预测概念在具有不同预测带宽和MDCT长度的单音符预测上节省的比特率。
首先,下面描述来自相关技术的FDP预测概念。FDP预测概念在[5]和[13](WO 2016142357A1,2016年9月公开)中进行了更详细的描述。
图8示出了根据示例的用于对FDP预测概念的音频信号102进行编码的编码器101的示意性框图。编码器101被配置为在变换域或滤波器组域104(例如,频域或频谱域)中对音频信号102进行编码,其中编码器101被配置为:针对当前帧108_t0确定音频信号102的频谱系数106_t0_f1至106_t0_f6,以及针对至少一个先前帧108_t-1确定音频信号的频谱系数106_t-1_f1至106_t-1_f6。此外,编码器101被配置为选择性地将预测编码应用于多个单独的频谱系数106_t0_f2或频谱系数106_t0_f4和106_t0_f5的组,其中编码器101被配置为确定间距值,其中编码器101被配置为基于间距值来选择应用预测编码的多个单独的频谱系数106_t0_f2或频谱系数106_t0_f4和106_t0_f5的组。
换言之,编码器101被配置为选择性地将预测编码应用于基于作为辅助信息发送的单个间距值而选择的多个单独的频谱系数106_t0_f2或频谱系数106_t0_f4和106_t0_f5的组。
该间距值可以与频率(例如,(音频信号102的)谐波音调的基频)相对应,频率连同其整数倍定义了应用预测的所有频谱系数组的中心:第一组可以以该频率为中心,第二组可以以该频率乘以2为中心,第三组可以以该频率乘以3为中心,等等。这些中心频率的知识使得能够计算预测系数,这些预测系数用于预测对应的正弦信号分量(例如,谐波信号的基频和泛音)。因此,不再需要对预测系数的复杂且容易出错的后向自适应。
在示例中,编码器101可以被配置每个帧确定一个间距值。
在示例中,多个单独的频谱系数106_t0_f2或频谱系数106_t0_f4和106_t0_f5的组可以通过至少一个频谱系数106_t0_f3分离。
在示例中,编码器101可以被配置为将预测编码应用于通过至少一个频谱系数分离的多个单独的频谱系数,例如应用于通过至少一个频谱系数分离的两个单独的频谱系数。此外,编码器101可以被配置为将预测编码应用于通过至少一个频谱系数分离的多个频谱系数组(每组包括至少两个频谱系数),例如应用于通过至少一个频谱系数分离的两个频谱系数组。此外,编码器101可以被配置为将预测编码应用于通过至少一个频谱系数分离的多个单独的频谱系数和/或频谱系数组,例如应用于通过至少一个频谱系数分离的至少一个单独的频谱系数和至少一个频谱系数组。
在图8所示的示例中,编码器101被配置为确定当前帧108_t0的六个频谱系数106_t0_f1至106_t0_f6和(最)先前帧108_t-1的六个频谱系数106_t-1_f1至106_t-1_f6。因此,编码器101被配置为选择性地将预测编码应用于当前帧的单独的第二频谱系数106_t0_f2并且应用于由当前帧108_t0的第四频谱系数106_t0_f4和第五频谱系数106_t0_f5组成的频谱系数组。可以看出,单独的第二频谱系数106_t0_f2以及由第四频谱系数106_t0_f4和第五频谱系数106_t0_f5组成的频谱系数组通过第三频谱系数106_t0_f3彼此分离。
注意,本文使用的术语“选择性地”是指(仅)将预测编码应用于所选择的频谱系数。换言之,预测编码不一定应用于所有频谱系数,而是仅应用于所选择的单独的频谱系数或频谱系数组,所选择的单独的频谱系数和/或频谱系数组可以通过至少一个频谱系数彼此分离。换言之,可以针对至少一个频谱系数禁用预测编码,通过该至少一个频谱系数来分离所选择的多个单独的频谱系数或频谱系数组。
在示例中,编码器101可以被配置为至少基于先前帧108_t-1的对应的多个单独的频谱系数106_t-1_f2或频谱系数106_t-1_f4和106_t-1_f5的组,来将预测编码选择性地应用于当前帧108_t0的多个单独的频谱系数106_t0_f2或频谱系数106_t0_f4和106_t0_f5的组。
例如,编码器101可以被配置为通过对当前帧108_t0的多个经预测的单独的频谱系数110_t0_f2或经预测的频谱系数106_t0_f4和106_t0_f5的组与当前帧(或其量化版本)的多个单独的频谱系数106_t0_f2或频谱系数106_t0_f4和106_t0_f5的组之间的预测误差进行编码,来对当前帧108_t0的多个单独的频谱系数106_t0_f2或频谱系数106_t0_f4和106_t0_f5的组进行预测编码。
在图8中,通过对当前帧108_t0的经预测的单独的频谱系数110_t0_f2与当前帧108_t0的单独的频谱系数106_t0_f2之间、以及当前帧的经预测的频谱系数110_t0_f4和110_t0_f5的组与当前帧的频谱系数106_t0_f4和106_t0_f5的组之间的预测误差,对单独的频谱系数106_t0_f2和由频谱系数106_t0_f4和106_t0_f5组成的频谱系数组进行编码。
换言之,通过对经预测的第二频谱系数110_t0_f2与(实际的或确定的)第二频谱系数106_t0_f2之间的预测误差(或差异)进行编码,对第二频谱系数106_t0_f2进行编码,其中通过对经预测的第四谱系数110_t0_f4与(实际的或确定的)第四频谱系数106_t0_f4之间的预测误差(或差异)进行编码来对第四频谱系数106_t0_f4进行编码,其中通过对经预测的第五谱系数110_t0_f5与(实际的或确定的)第五频谱系数106_t0_f5之间的预测误差(或差异)进行编码来对第五谱系数106_t0_f5进行编码。
在示例中,编码器101可以被配置为通过(先前帧)108_t-1的多个单独的频谱系数106_t-1_f2或频谱系数106_t-1_f4和106_t-1_f5的组的对应实际版本,来确定当前帧108_t0的多个经预测的单独的频谱系数110_t0_f2或经预测的频谱系数110_t0_f4和110_t0_f5的组。
换言之,在上述确定过程中,编码器101可以直接使用先前帧108_t-1的多个实际单独的频谱系数106_t-1_f2或实际频谱系数106_t-1_f4和106_t-1_f5的组,其中106_t-1_f2、106_t-1_f4和106_t-1_f5分别表示原始的、尚未量化的频谱系数或频谱系数组(如它们被编码器101获得的那样),使得所述编码器可以在变换域或滤波器组域104中操作。
例如,编码器101可以被配置为基于先前帧108_t-1的第二频谱系数106_t-1_f2的对应的尚未量化版本来确定当前帧108_t0的经预测的第二频谱系数110_t0_f2,基于先前帧108_t-1的第四频谱系数106_t-1_f4的对应的尚未量化版本来确定当前帧108_t0的经预测的第四频谱系数110_t0_f4,以及基于先前帧的第五频谱系数106_t-1_f5的对应的尚未量化版本来确定当前帧108_t0的经预测的第五频谱系数110_t0_f5。
通过这种方法,预测编码方案和预测解码方案可以呈现量化噪声的一种谐波整形,因为对应的解码器在上述确定步骤中针对预测解码只能采用先前帧108_t-1的多个单独的频谱系数106_t-1_f2的所传输的量化版本或者频谱系数106_t-1_f4和106_t-1_f5的组的所传输的量化版本。
虽然这种谐波噪声整形(例如,它传统上由时域中的长期预测(LTP)执行)在主观上可能对预测编码有利,但是在一些情况下,它可能是不期望的,因为它可能导致将不希望的、过量的音调引入到所解码的音频信号。出于这个原因,下文描述了与对应解码完全同步并且因此仅利用任何可能的预测增益但不会导致量化噪声整形的备选预测编码方案。根据该备选编码示例,编码器101可以被配置为:使用先前帧108_t-1的多个单独的频谱系数106_t-1_f2或频谱系数106_t-1_f4和106_t-1_f5的组的对应量化版本,来确定当前帧108_t0的多个经预测的单独的频谱系数110_t0_f2或经预测的频谱系数110_t0_f4和110_t0_f5的组。
例如,编码器101可以被配置为:基于先前帧108_t-1的第二频谱系数106_t-1_f2的对应量化版本来确定当前帧108_t0的经预测的第二频谱系数110_t0_f2,基于先前帧108_t-1的第四频谱系数106_t-1_f4的对应量化版本来确定当前帧108_t0的经预测的第四频谱系数110_t0_f4,以及基于先前帧的第五频谱系数106_t-1_f5的对应量化版本来确定当前帧108_t0的经预测的第五频谱系数110_t0_f5。
此外,编码器101可以被配置为:从间距值中导出预测系数112_f2、114_f2、112_f4、114_f4、112_f5和114_f5,以及使用至少两个先前帧108_t-1和108_t-2的多个单独的频谱系数106_t-1_f2和106_t-2_f2或频谱系数106_t-1_f4、106_t-2_f4、106_t-1_f5和106_t-2_f5的组的对应量化版本并且使用所导出的预测系数112_f2、114_f2、112_f4、114_f4、112_f5和114_f5来计算当前帧108_t0的多个经预测的单独的频谱系数110_t0_f2或经预测的频谱系数110_t0_f4和110_t0_f5的组。
例如,编码器101可以被配置为:从间距值中导出第二频谱系数106_t0_f2的预测系数112_f2和114_f2,从间距值中导出第四频谱系数106_t0_f4的预测系数112_f4和114_f4,以及从间距值中导出第五频谱系数106_t0_f5的预测系数112_f5和114_f5。
例如,预测系数的导出可以通过以下方式导出:如果间距值对应于频率f0或其编码版本,则启用预测的第K个频谱系数组的中心频率为fc=K*f0。如果采样频率为fs且变换跳跃大小(连续帧之间的偏移)为N,则假设正弦信号具有频率fc,第K个组中的理想预测子系数为:
p1=2*cos(N*2*pi*fc/fs)and p2=-1。
如果例如频谱系数106_t0_f4和106_t0_f5都在该组内,则预测系数为:
112_f4=112_f5=2*cos(N*2*pi*fc/fs)and 114_f4=114_f5=-1。
出于稳定性原因,可以引入阻尼因子d来修改预测系数:
112_f4’=112_f5’=d*2*cos(N*2*pi*fc/fs),114_f4'=114_f5’=d2。
由于在经编码的音频信号120中传输间距值,因此解码器可以导出完全相同的预测系数212_f4=212_f5=2*cos(N*2*pi*fc/fs)和114_f4=114_f5=-1。如果使用阻尼因子,则可以相应地修正系数。
如图8所示,编码器101可以被配置为提供经编码的音频信号120。因此,编码器101可以被配置为在经编码的音频信号120中包括应用了预测编码的多个单独的频谱系数106_t0_f2或频谱系数106_t0_f4和106_t0_f5的组的预测误差的量化版本。此外,编码器101可以被配置为不在经编码的音频信号120中包括预测系数112_f2至114_f5。
因此,编码器101可以仅使用预测系数112_f2至114_f5来计算多个经预测的单独的频谱系数110_t0_f2或经预测的频谱系数110_t0_f4和110_t0_f5的组,并由此计算当前帧的经预测的单独的频谱系数110_t0_f2或者经预测的频谱系数110_t0_f4和110_t0_f5的组与当前帧的单独的频谱系数106_t0_f2或者经预测的频谱系数110_t0_f4和110_t0_f5的组之间的预测误差,但是不会在经编码的音频信号120中提供单独的频谱系数106_t0_f4(或其量化版本)或者频谱系数106_t0_f4和106_t0_f5(或其量化版本)的组,也不会提供预测系数112_f2至114_f5。因此,解码器可以从间距值中导出预测系数112_f2至114_f5,它们用于计算当前帧的多个经预测的单独的频谱系数或者经预测的频谱系数的组。
换言之,编码器101可以被配置为提供经编码的音频信号120,其包括预测误差的量化版本而不是针对应用了预测编码的多个单独的频谱系数106_t0_f2或者频谱系数106_t0_f4和106_t0_f5的组的多个单独的频谱系数106_t0_f2或频谱系数106_t0_f4和106_t0_f5的组的量化版本。
此外,编码器101可以被配置为:提供包括频谱系数106_t0_f3的量化版本的经编码的音频信号102,通过该频谱系数106_t0_f3将多个单独的频谱系数106_t0_f2或者频谱系数106_t0_f4和106_t0_f5的组分离,使得针对频谱系数106_t0_f2或频谱系数106_t0_f4和106_t0_f5的组,存在以下交替:包括在经编码的音频信号120中的预测误差的量化版本,以及在未使用预测编码的情况下提供的频谱系数106_t0_f3或频谱系数组。
在示例中,编码器101还可以被配置为对预测误差的量化版本和频谱系数106_t0_f3的量化版本进行熵编码,通过该频谱系数106_t0_f3将多个单独的频谱系数106_t0_f2或频谱系数106_t0_f4和106_t0_f5的组分离,并且编码器101还可以被配置为将熵编码版本(而不是其非熵编码版本)包括在经编码的音频信号120中。
在示例中,编码器101可以被配置为根据由用于预测编码的间距值定义的谐波网格选择在频谱上布置的频谱系数的组116_1至116_6。因此,由间距值定义的谐波网格描述了音频信号102中的谐波的周期性频谱分布(等距间隔)。换言之,由间距值定义的谐波网格可以是描述音频信号的谐波的等距间隔的间距值序列。
此外,编码器101可以被配置为:选择频谱系数(例如,仅那些频谱系数),其频谱索引等于或位于基于间距值导出的多个频谱索引周围的范围(例如,预定的或可变的)内,以用于预测编码。
从间距值可以导出频谱系数的索引(或数量),其表示音频信号102的谐波。例如,假设第四频谱系数106_t0_f4表示音频信号102的瞬时基频,并且假设间距值为5,则可以基于间距值导出具有索引9的频谱系数。如此导出的具有索引9的频谱系数,即第九频谱系数106_t0_f9表示第二谐波。类似地,可以导出具有索引14、19、24和29的频谱系数,它们表示第三谐波124_3至第六谐波124_6。然而,不仅具有与基于间距值导出的多个频谱索引相等的索引的频谱系数可以被预测编码,而且具有在基于间距值导出的多个频谱索引周围的给定范围内的索引的频谱系数也可以被预测编码。
此外,编码器101可以被配置为:选择应用了预测编码的频谱系数组116_1至116_6(或多个单独的频谱系数),使得在应用了预测编码的频谱系数组116_1至116_6(或多个单独的频谱系数)与通过应用了预测编码的频谱系数组(或多个单独的频谱系数)分离的频谱系数之间存在周期性交替(具有+/-1频谱系数的容差的周期性)。当音频信号102的两个谐波之间的距离不等于整数间距值(相对于频谱系数的索引或数量的整数)而是其分数或倍数时,可能需要+/-1频谱系数的容差。
换言之,音频信号102可以包括至少两个谐波信号分量124_1至124_6,其中编码器101可以被配置为选择性地将预测编码应用于那些表示至少两个谐波信号分量124_1至124_6或至少两个谐波信号分量124_1至124_6周围的频谱环境的频谱系数的多个组116_1至116_6(或单独的频谱系数)。至少两个谐波信号分量124_1至124_6周围的频谱环境可以是例如+/-1、2、3、4或5个频谱分量。
因此,编码器101可以被配置为不将预测编码应用于那些不表示音频信号102的至少两个谐波信号分量124_1至124_6或音频信号102的至少两个谐波信号分量124_1至124_6的频谱环境的频谱系数的组118_1至118_5(或多个单独的频谱系数)。换言之,编码器101可以被配置为不将预测编码应用于那些属于信号谐波124_1至124_6之间的非音调背景噪声的频谱系数的多个组118_1至118_5(或单独的频谱系数)。
此外,编码器101可以被配置为确定指示音频信号102的至少两个谐波信号分量124_1至124_6之间的频谱间隔的谐波间距值,该谐波间距值指示那些表示音频信号102的至少两个谐波信号分量124_1至124_6的多个单独的频谱系数或频谱系数组。
此外,编码器101可以被配置为提供经编码的音频信号120,使得经编码的音频信号120包括间距值(例如,每帧一个间距值)或(备选地)可以从其直接导出间距值的参数。
示例通过以下方式来解决FDP方法的上述两个问题:将谐波间距值引入FDP过程,从编码器(发送器)101用信号通知相应的解码器(接收器),使得二者可以以完全同步的方式操作。所述谐波间距值可以用作与要编码的帧相关联的一个或多个频谱的瞬时基频(或基音)的指示符,并识别应预测哪些频谱段(频谱系数)。更具体地,仅那些位于(就其索引而言)基本基音(由谐波间距值定义)的整数倍处的谐波信号分量周围的频谱系数才应进行预测。
图9示出了根据示例的用于对FDP预测概念的经编码的信号120进行解码的解码器201的示意性框图。解码器201被配置为对变换域或滤波器组域204中的经编码的音频信号120进行解码,其中解码器201被配置为解析经编码的音频信号120以针对当前帧208_t0获得音频信号的编码频谱系数206_t0_f1至206_t0_f6并且针对至少一个先前帧208_t-1获得编码频谱系数206_t-1_f0至206_t-1_f6,并且其中,解码器201被配置为选择性地将预测解码应用于通过至少一个编码频谱系数分离的多个单独的编码频谱系数或编码频谱系数组。
在示例中,解码器201可以被配置为将预测解码应用于通过至少一个编码频谱系数分离的多个单独的编码频谱系数,例如应用于通过至少一个编码频谱系数分离的两个单独的编码频谱系数。此外,解码器201可以被配置为将预测解码应用于通过至少一个编码频谱系数分离的多个编码频谱系数组(每组包括至少两个编码频谱系数),例如应用于通过至少一个编码频谱系数分离的两个编码频谱系数组。此外,解码器201可以被配置为将预测解码应用于通过至少一个编码频谱系数分离的多个单独的编码频谱系数和/或编码频谱系数组,例如应用于通过至少一个编码频谱系数分离的至少一个单独的编码频谱系数和至少一个编码频谱系数组。
在图9所示的示例中,解码器201被配置为确定当前帧208_t0的六个编码频谱系数206_t0_f1至206_t0_f6和先前帧208_t-1的六个编码频谱系数206_t-1_f1至206_t-1_f6。因此,解码器201被配置为选择性地将预测解码应用于当前帧的单独的第二编码频谱系数206_t0_f2以及应用于由当前帧208_t0的由第四编码频谱系数206_t0_f4和第五编码频谱系数206_t0_f5组成的编码频谱系数组。可以看出,单独的第二编码频谱系数206_t0_f2以及由第四编码频谱系数206_t0_f4和第五编码频谱系数206_t0_f5组成的编码频谱系数组通过第三编码频谱系数206_t0_f3彼此分离。
注意,本文使用的术语“选择性地”是指(仅)将预测解码应用于所选择的编码频谱系数。换言之,不将预测解码应用于所有编码频谱系数,而是仅应用于所选择的单独的编码频谱系数或编码频谱系数组,所选择的单独编码频谱系数和/或编码频谱系数组通过至少一个编码频谱系数彼此分离。换言之,不将预测解码应用于至少一个编码频谱系数,通过该至少一个编码频谱系数来分离所选择的多个单独的编码频谱系数或编码频谱系数组。
在示例中,解码器201可以被配置为不将预测解码应用于至少一个编码频谱系数206_t0_f3,通过该至少一个编码频谱系数206_t0_f3来分离单独的编码频谱系数206_t0_f2或频谱系数206_t0_f4和206_t0_f5的组。
解码器201可以被配置为对编码频谱系数进行熵解码,以获得要应用预测解码的频谱系数206_t0_f2、2016_t0_f4和206_t0_f5的量化预测误差,以及获得将不应用预测解码的至少一个频谱系数的量化频谱系数206_t0_f3。因此,解码器201可以被配置为将量化预测误差应用于多个经预测的单独的频谱系数210_t0_f2或经预测的频谱系数210_t0_f4和210_t0_f5的组,以针对当前帧208_t0获得与应用了预测解码的编码频谱系数206_t0_f2、206_t0_f4和206_t0_f5相关联的解码频谱系数。
例如,解码器201可以被配置为获得第二量化频谱系数206_t0_f2的第二量化预测误差,并将第二量化预测误差应用于经预测的第二频谱系数210_t0_f2,以获得与第二编码频谱系数206_t0_f2相关联的第二解码频谱系数;其中解码器201可以被配置为获得第四量化频谱系数206_t0_f4的第四量化预测误差,并将第四量化预测误差应用于经预测的第四频谱系数210_t0_f4,以获得与第四编码频谱系数206_t0_f4相关联的第四解码频谱系数;并且其中解码器201可以被配置为获得第五量化频谱系数206_t0_f5的第五量化预测误差,并将第五量化预测误差应用于经预测的第五频谱系数210_t0_f5,以获得与第五编码频谱系数206_t0_f5相关联的第五解码频谱系数。
此外,解码器201可以被配置为:基于先前帧208_t-1的对应的多个单独的编码频谱系数206_t-1_f2(例如,使用与多个单独的编码频谱系数206_t-1_f2相关联的多个先前解码频谱系数)或编码频谱系数206_t-1_f4和206_t-1_f5的组(例如,使用与编码频谱系数206_t-1_f4和206_t-1_f5的组相关联的先前解码频谱系数组),确定当前帧208_t0的多个经预测的单独的频谱系数210_t0_f2或经预测的频谱系数210_t0_f4和210_t0_f5的组。
例如,解码器201可以被配置为:使用与先前帧208_t-1的第二编码频谱系数206_t-1_f2相关联的先前解码(量化)的第二频谱系数来确定当前帧208_t0的第二预测频谱系数210_t0_f2,使用与先前帧208_t-1的第四编码频谱系数206_t-1_f4相关联的先前解码(量化)的第四频谱系数来确定当前帧208_t0的第四预测频谱系数210_t0_f4,以及使用与先前帧208_t-1的第五编码频谱系数206_t-1_f5相关联的先前解码(量化)的第五频谱系数来确定当前帧208_t0的第五预测频谱系数210_t0_f5。
此外,解码器201可以被配置为从间距值中导出预测系数,并且其中解码器201可以被配置为:使用至少两个先前帧208_t-1和208_t-2的对应的多个先前解码的单独的频谱系数或先前解码的频谱系数组,并且使用所导出的预测系数,来计算当前帧208_t0的多个经预测的单独的频谱系数210_t0_f2或经预测的频谱系数210_t0_f4和210_t0_f5的组。
例如,解码器201可以被配置为:从间距值中导出第二编码频谱系数206_t0_f2的预测系数212_f2和214_f2,从间距值中导出第四编码频谱系数206_t0_f4的预测系数212_f4和214_f4,以及从间距值中导出第五编码频谱系数206_t0_f5的预测系数212_f5和214_f5。
注意,解码器201可以被配置为对经编码的音频信号120进行解码以获得量化预测误差,而不是获得应用了预测解码的多个单独的编码频谱系数或编码频谱系数组的多个单独的量化频谱系数或量化频谱系数组。
此外,解码器201可以被配置为:对经编码的音频信号120进行解码以获得量化频谱系数,通过这些量化频谱系数来分离多个单独的频谱系数或频谱系数组,使得存在编码频谱系数206_t0_f5或编码频谱系数206_t0_f4和206_t0_f5的组与编码频谱系数206_t0_f3或编码频谱系数组的交替,针对编码频谱系数206_t0_f5或编码频谱系数206_t0_f4和206_t0_f5的组,获得量化预测误差,针对编码频谱系数206_t0_f3或编码频谱系数组,获得量化频谱系数。
解码器201可以被配置为:使用与应用了预测解码的编码频谱系数206_t0_f2、206_t0_f4和206_t0_f5相关联的解码频谱系数,并且使用与未应用预测解码的编码频谱系数206_t0_f1、206_t0_f3和206_t0_f6相关联的熵解码频谱系数,提供经解码的音频信号220。
在示例中,解码器201可以被配置为获得间距值,其中解码器201可以被配置为基于间距值来选择应用了预测解码的多个单独的编码频谱系数206_t0_f2或编码频谱系数206_t0_f4和206_t0_f5的组。
如上面关于对应编码器101的描述已经提到的,间距值例如可以是音频信号的两个特征频率之间的间距(或距离)。此外,间距值可以是频谱系数(或频谱系数的索引)的整数数量,其近似于音频信号的两个特征频率之间的间距。自然地,间距值也可以是描述音频信号的两个特征频率之间的间距的频谱系数的整数数量的分数或倍数。
解码器201可以被配置为根据由用于预测解码的间距值定义的谐波网格选择在频谱上布置的单独的频谱系数或频谱系数组。由间距值定义的谐波网格可以描述音频信号102中谐波的周期性频谱分布(等距间隔)。换言之,由间距值定义的谐波网格可以是描述音频信号102的谐波的等距间隔的间距值序列。
此外,解码器201可以被配置为:选择频谱系数(例如,仅那些频谱系数),其频谱索引等于或位于基于间距值导出的多个频谱索引周围的范围(例如,预定的或可变的)内,以用于预测解码。因此,解码器201可以被配置为根据间距值来设置范围的宽度。
在示例中,经编码的音频信号可以包括间距值或其编码版本(例如,可以直接从其导出间距值的参数),其中解码器201可以被配置为从经编码的音频信号中提取间距值或其编码版本以获得间距值。
备选地,解码器201可以被配置为自行确定间距值,即经编码的音频信号不包括间距值。在那种情况下,解码器201可以被配置为确定(表示音频信号102的经编码的音频信号120的)瞬时基频,并从瞬时基频或其分数或倍数中导出间距值。
在示例中,解码器201可以被配置为:选择应用了预测解码的多个单独的频谱系数或频谱系数组,使得在应用了预测解码的多个单独的频谱系数或频谱系数组与通过应用了预测解码的多个单独的频谱系数或频谱系数组分离的频谱系数之间存在周期性交替(具有+/-1频谱系数的容差的周期性)。
在示例中,由经编码的音频信号120表示的音频信号102包括至少两个谐波信号分量,其中解码器201被配置为选择性地将预测解码应用于那些表示至少音频信号102的至少两个谐波信号分量或围绕音频信号102的至少两个谐波信号分量的频谱环境的多个单独的编码频谱系数206_t0_f2或编码频谱系数206_t0_f4和206_t0_f5的组。至少两个谐波信号分量周围的频谱环境可以是例如+/-1、2、3、4或5个频谱分量。
因此,解码器201可以被配置为识别至少两个谐波信号分量,并且选择性地将预测解码应用于那些与所识别的谐波信号分量(例如,其表示所识别的谐波信号分量或其围绕所识别的谐波信号分量)相关联的多个单独的编码频谱系数206_t0_f2或编码频谱系数206_t0_f4和206_t0_f5的组。
备选地,经编码的音频信号120可以包括识别至少两个谐波信号分量的信息(例如,间距值)。在那种情况下,解码器201可以被配置为选择性地将预测解码应用于那些与所识别的谐波信号分量(例如,其表示所识别的谐波信号分量或其围绕所识别的谐波信号分量)相关联的多个单独的编码频谱系数206_t0_f2或编码频谱系数206_t0_f4和206_t0_f5的组。
在上述两种备选方案中,解码器201可以被配置为不将预测解码应用于那些不表示音频信号102的至少两个谐波信号分量或至少两个谐波信号分量的频谱环境的多个单独的编码频谱系数206_t0_f3、206_t0_f1和206_t0_f6或编码频谱系数组。
换言之,解码器201可以被配置为不将预测解码102应用于那些属于音频信号的信号谐波之间的非音调背景噪声的多个单独的编码频谱系数206_t0_f3、206_t0_f1、206_t0_f6或编码频谱系数组。
特定实施例的想法现在是提供具有不同操作模式的编码器和解码器。
根据实施例,编码器100例如能够在第一模式下操作并且能够例如在第二模式和第三模式和第四模式中的至少一个模式下操作。
如果编码器100处于第一模式,则编码器100可以例如被配置为通过使用音频信号的一个或多个先前帧中的每个先前帧的多个频谱系数中的三个或更多个频谱系数构成的第一组频谱系数确定对最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,来对当前帧进行编码。
如果编码器100处于第二模式,则编码器100可以例如被配置为在变换域或滤波器组域中对音频信号进行编码,并且编码器可以例如被配置为针对当前帧108_t0并且至少针对先前帧108_t-1,确定音频信号102的多个频谱系数106_t0_f1:106_t0_f6;106_t-1_f1:106_t-1_f6,其中编码器100可以例如被配置为选择性地将预测编码应用于多个单独的频谱系数106_t0_f2或频谱系数106_t0_f4、106_t0_f5的组,编码器100可以例如被配置为确定间距值,编码器100可以例如被配置为基于间距值来选择应用预测编码的多个单独的频谱系数106_t0_f2或频谱系数106_t0_f4,106_t0_f5的组。
在实施例中,在第一模式和第二模式和第三模式和第四模式中的每一个模式下,编码器100可以例如被配置为根据最小化标准,以帧为基础来细化基频以获得经细化的基频,并且对对增益因子进行适配以获得经适配的增益因子。此外,编码器100可以例如被配置为对经细化的基频和经适配的增益因子进行编码,而不是对原始基频和增益因子进行编码。
在实施例中,编码器100可以例如被配置为将其自身设置为第一模式或设置为第二模式和第三模式和第四模式中的至少一个,这取决于音频信号的当前帧。编码器100可以例如被配置为进行编码,不论当前帧已经以第一模式或以第二模式或以第三模式或以第四模式进行了编码。
关于解码器,根据实施例,解码器200例如能够在第一模式下操作,并且例如能够在第二模式和第三模式和第四模式中的至少一个模式下操作。
如果解码器200处于第一模式,则解码器200可以例如被配置为确定对最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,其中最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数取决于音频信号的一个或多个先前帧中的每个先前帧的多个经重构的频谱系数中的三个或更多个频谱系数构成的第一组频谱系数,并且解码器200可以例如被配置为根据对最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计来对当前帧的编码进行解码。
如果解码器200处于第二模式,则解码器200可以例如被配置为解析音频信号120的编码以针对当前帧208_t0且至少针对至少最先前帧208_t-1获得音频信号120的编码频谱系数206_t0_f1:206_t0_f6;206_t-1_f1:206_t-1_f6,并且解码器200可以例如被配置为选择性地将预测解码应用于多个单独的编码频谱系数206_t0_f2或编码频谱系数206_t0_f4、206_t0_f5的组,其中解码器200可以例如被配置为获得间距值,其中解码器200可以例如被配置为基于间距值来选择可以例如应用预测解码的多个单独的编码频谱系数206_t0_f2或编码频谱系数206_t0_f4、206_t0_f5的组。
如果解码器200处于第三模式,则解码器200可以例如被配置为通过采用时域长期预测对音频信号进行解码。
如果解码器200处于第四模式,则解码器200可以例如通过采用自适应改进离散余弦变换长期预测对音频信号进行编码,其中,如果解码器200采用自适应改进离散余弦变换长期预测时,则解码器200可以例如被配置为在帧的基础上,根据最小化标准选择时域长期预测或频域预测或频域最小均方预测作为预测方法。
根据实施例,在第一模式和第二模式和第三模式和第四模式中的每一个模式下,解码器200可以例如被配置为根据经细化的基频和经适配的增益因子,对音频信号进行解码,其中经细化的基频和经适配的增益因子已经在帧的基础上确定。
在实施例中,解码器200可以例如接收编码并对编码进行解码,编码包括关于当前帧已经以第一模式或以第二模式或以第三模式或以第四模式进行编码的指示。解码器200可以根据该指示将其自身设置为第一模式或第二模式或第三模式或第四模式。
在图5中可以看出,当帧长度增加时,所有三个概念的BS对于音管音符都大大下降,因为原始信号中的冗余已经通过变换本身大大去除。由于MDCT系数上的高度重叠的谐波,FDP的性能对于低基音的低音音符会大大降低。TDLTP的性能总体上良好。但是当帧长度较大时性能会降低,其中需要较大的延迟来找到匹配的先前基音周期。FDLMSP针对不同的音符和不同的帧长度提供了相对良好和稳定的性能。图5还示出了:当预测带宽增加到8kHz时,BS下降,这是由于较高频带的音调的不和谐性造成的。由于不和谐性取决于每个单独声音材料的频谱特性,因此可以在频带上对比特率消耗进行预计算和比较,以获得更高的编码效率。然后可以做出预测决策并在每个帧中作为辅助信息用信号通知该预测决策。
图6示出了在四个不同工作模式下在六个不同的项目上节省的比特率,该六个不同的项目的带宽限制为4kHz、MDCT帧长度为64和512。
如图6所示,FDLMSP在许多场景中都优于TDLTP和FDP,并且总体上提供良好的性能。AMLTP表现得最好,并且在大多数情况下选择FDLMSP或TDLTP,表明FDLMSP可以与TDLTP结合以大大增强BS。
已经提供了一种用于MDCT域中的LTP的新颖方法。该新颖方法将每个MDCT帧建模为谐波分量的假设,并使用LMS概念从先前帧估计所有谐波分量的参数。然后基于所估计的谐波参数进行预测。与同类概念相比,该方法提供了具有竞争力的性能,并且还可以被联合使用来提高音频编码效率。
例如通过使用不同的基音估计算法或通过应用不同的量化步长,上述概念可以例如用于分析基音信息精度对预测的影响。以上概念还可以用于在帧的基础上,使用最小化标准确定或细化音频信号的基音信息。例如,可以考虑不和谐性和其他复杂信号特性对预测的影响。上述概念例如可以用于错误隐藏。
虽然已经在装置的上下文中描述了一些方面,但是将清楚的是,这些方面还表示对应方法的描述,其中,块或装置对应于方法步骤或方法步骤的特征。类似地,在方法步骤上下文中描述的方面也指示对相应块或项或者相应装置的特征的描述。可以由(或使用)硬件装置(诸如,微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中,可以由这种装置来执行最重要方法步骤中的一个或多个方法步骤。
根据某些实现要求,本发明的实施例可以用硬件或软件实现,或者至少部分用硬件实现,或至少部分用软件实现。可以使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实现,该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,其能够与可编程计算机系统协作以便执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所述的方法之一。
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
因此,本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质),该计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录的介质通常是有形的和/或非暂时性的。
因此,本发明方法的另一实施例是表示计算机程序的数据流或信号序列,所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传送。
另一实施例包括处理装置,例如,计算机或可编程逻辑器件,该处理装置被配置为或适于执行本文所述的方法之一。
另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
根据本发明的另一实施例包括被配置为向接收器(例如,以电子方式或以光学方式)传送计算机程序的装置或系统,该计算机程序用于执行本文所述的方法之一。接收器可以是例如计算机、移动设备、存储器件等。装置或系统可以例如包括用于向接收器传送计算机程序的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,这些方法优选地由任何硬件装置来执行。
本文描述的装置可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来实现。
本文描述的方法可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来执行。
上述实施例对于本发明的原理仅是说明性的。应当理解的是,本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。
参考文献:
[1]Jürgen Herre and Sascha Dick,"Psychoacoustic models for perceptualaudio coding a tutorial review,"Applied Sciences,vol.9,pp.2854,ITT 2019.
[2]JuhaMauriand Lin Yin,"Long Term Predictor forTransform Domain Perceptual Audio Coding,"in Audio Engineering SocietyConvention 107,Sep 1999.
[3]Hendrik Fuchs,"Improving mpeg audio coding by backward adaptivelinear stereo prediction,"in Audio Engineering Society Convention 99,Oct1995.
[4]J.Princen,A.Johnson,and A.Bradley,"Subband/transform coding usingfilter bank designs based on time domain aliasing cancellation,"in ICASSP'87.IEEE International Conference on Acoustics,Speech,and Signal Processing,April 1987,vol.12,pp.2161-2164.
[5]Christian Helmrich,Efficient Perceptual Audio Coding Using Cosineand Sine Modulated Lapped Transforms,doctoral thesis,Friedrich-Alexander-Erlangen-Nürnberg(FAU),2017,Chapter 3.3:Frequency-DomainPrediction with Very Low Complexity.
[6]J.Rothweiler,"Polyphase quadrature filters-a new subband codingtechnique,"in ICASSP'83.IEEE International C01iference on Acoustics,Speech,and Signal Processing,April 1983,vol.8,pp.1280—1283.
[7]Albrecht Schneider and Klaus Frieler,"Perception of harmonic andinharmonic sounds:Results from ear models;in Computer Music Modeling andRetrieval.Genesis of Meaning in Sound and Music,Ystad,Richard Kronland-Martinet,and Kristoffer Jensen,Eds.,Berlin,Heidelberg,2009,pp.18-44,SpringerBerlin Heidelberg.
[8]Hugo Fastl and Eberhard Zwicker,Psychoacoustics:Facts and Models,Springer-Verlag,Berlin,Heidelberg,2006,Chapter 7.2:Just-Noticeable Changes inFrequency.
[9]John P.Princen and Alan Bernard Bradley,"Analysis/synthesis filterbank design based on time domain aliasing cancellation,"IEEE Transactions onAcoustics,Speech,and Signal Processing,vol.34,no.5,pp.1153-1161,October 1986.
[10]Alain de Cheveign and Hideki Kawahara,"Yin,a fundamentalfrequency estimator for speech and music;·The Journal of the AcousticalSociety of America,vol.111,pp.1917-30,05 2002.
[11]Armin Taghipour,Psychoacoustics of detection of tonality andasymmetry of masking:implementation of tonality estimation methods in apsychoacoustic model for perceptual audio coding,doctoral thesis,Friedrich-Alexander-Erlangen-Nürnberg(FAU),2016,Chapter4:The Psychoacousticmodel.
[12]J.D.Johnston,"Estimation of perceptual entropy using noisemasking criteria,"in ICASSP-88,,International Conference on Acoustics,Speech,and Signal Processing,April 1988,pp.2524--2527vol.5.
[13]WO 2016 142357 A1,2016年9月公开。
Claims (40)
1.一种编码器(100),用于根据音频信号的一个或多个先前帧来对所述音频信号的当前帧进行编码,其中所述一个或多个先前帧在所述当前帧之前,其中所述当前帧和所述一个或多个先前帧中的每一个包括所述音频信号的一个或多个谐波分量,其中所述当前帧和所述一个或多个先前帧中的每一个包括频域中或变换域中的多个频谱系数,
其特征在于,为了生成对所述当前帧的编码,所述编码器(100)将确定对所述一个或多个先前帧中的最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,所述两个谐波参数为针对余弦子分量的第一参数和针对正弦子分量的第二参数,其中所述编码器(100)将使用所述音频信号的所述一个或多个先前帧中的每个先前帧的多个频谱系数中的三个或更多个频谱系数构成的第一组频谱系数,来确定对所述最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计;
其中,为了生成对所述当前帧的编码,所述编码器(100)将根据所述当前帧和所述一个或多个先前帧的一个或多个谐波分量的基频并且根据对所述最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,来确定增益因子和残差信号作为所述当前帧的编码,其中,所述编码器(100)将生成所述当前帧的编码,使得所述当前帧的编码包括所述增益因子和所述残差信号。
2.根据权利要求1所述的编码器(100),
其中,所述编码器(100)将根据对所述最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计并且根据所述当前帧和所述一个或多个先前帧的一个或多个谐波分量的基频,来确定对所述当前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计。
3.根据权利要求1所述的编码器(100),
其中,所述编码器(100)将通过求解包括至少三个方程的线性方程组来估计所述最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数,其中所述至少三个方程中的每一个取决于所述一个或多个先前帧中的每个先前帧的多个频谱系数中的三个或更多个频谱系数构成的第一组频谱系数中的频谱系数。
4.根据权利要求3所述的编码器(100),
其中,所述编码器(100)将使用最小均方算法来求解所述线性方程组。
5.根据权利要求3所述的编码器(100),
其中,所述线性方程组由下式定义:
其中,
其中,指示所述最先前帧的一个或多个谐波分量中具有所述一个或多个谐波分量中的最低谐波分量频率的谐波分量的第一频谱带,
其中,指示所述最先前帧的一个或多个谐波分量中具有所述一个或多个谐波分量中的最高谐波分量频率的谐波分量的第二频谱带,
其中,r是整数,r≥0;
其中,指示第一矩阵,,
其中,指示第二矩阵,。
6.根据权利要求5所述的编码器(100),其中,r≥1。
7.根据权利要求3所述的编码器(100),
其中,所述线性方程组能够根据下式求解:
其中,是第一向量,包括对所述最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,
其中,是第二向量,包括所述一个或多个先前帧中的每个先前帧的多个频谱系数中的三个或更多个频谱系数构成的第一组频谱系数,
其中,是的穆尔-彭罗斯逆矩阵,
其中,包括多个第三矩阵或第三向量,
其中,所述第三矩阵或第三向量中的每一个与对所述最先前帧的一个或多个谐波分量中的谐波分量的两个谐波参数的估计一起指示对所述谐波分量的估计,
其中,H指示所述一个或多个先前帧的谐波分量的数量。
8.根据权利要求1所述的编码器(100),
其中,所述编码器(100)将对谐波分量的基频、窗口函数、所述增益因子和所述残差信号进行编码。
9.根据权利要求8所述的编码器(100),
其中,所述编码器(100)在使用所述音频信号的所述一个或多个先前帧中的每个先前帧的多个频谱系数中的三个或更多个频谱系数构成的第一组频谱系数估计所述最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数之前,将确定所述最先前帧的一个或多个谐波分量的数量。
10.根据权利要求9所述的编码器(100),
其中,所述编码器(100)将从所述一个或多个谐波分量中确定一组或多组谐波分量,并且在所述一组或多组谐波分量上应用音频信号的预测,其中所述编码器(100)将对所述最先前帧的一组或多组谐波分量中的每一组谐波分量的阶数进行编码。
11.根据权利要求1所述的编码器(100),
其中,所述编码器(100)将根据所述最先前帧的一个或多个谐波分量中的所述谐波分量中的每一个谐波分量的两个谐波参数,来确定所述当前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数。
12.根据权利要求11所述的编码器(100),
其中,所述编码器(100)将应用:
,并且
其中,所述编码器(100)将应用:
,
其中,ah是针对所述最先前帧的所述一个或多个谐波分量的第h谐波分量的余弦子分量的参数,
其中,bh是针对所述最先前帧的所述一个或多个谐波分量的第h谐波分量的正弦子分量的参数,
其中,ch是针对所述当前帧的所述一个或多个谐波分量的第h谐波分量的余弦子分量的参数,
其中,dh是针对所述当前帧的所述一个或多个谐波分量的第h谐波分量的正弦子分量的参数,
其中,N取决于用于将时域音频信号变换到所述频域中或频谱域中的变换块的长度,并且
其中,
,
其中,f0是所述最先前帧的一个或多个谐波分量的基频,且为所述当前帧的一个或多个谐波分量的基频,
其中,fs是采样频率,并且
其中,h是指示所述最先前帧的一个或多个谐波分量中的谐波分量的索引。
13.根据权利要求1所述的编码器(100),
其中,所述编码器(100)将根据所述当前帧在所述频域中或所述变换域中的多个频谱系数并且根据对所述当前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,来确定所述残差信号,以及
其中,所述编码器(100)将对所述残差信号进行编码。
14.根据权利要求13所述的编码器(100),
其中,所述编码器(100)将根据对所述当前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,来确定所述当前帧的多个频谱系数中的一个或多个频谱系数的频谱预测,以及
其中,所述编码器(100)将根据所述当前帧在所述频域中或所述变换域中的多个频谱系数并且根据所述当前帧的多个频谱系数中的三个或更多个频谱系数的频谱预测,来确定所述残差信号和增益因子,其中所述编码器(100)将对所述最先前帧的一组或多组谐波分量中的每一组谐波分量的阶数进行编码。
15.根据权利要求14所述的编码器(100),
其中,所述编码器(100)将根据下式确定所述当前帧的残差信号:
其中,m是帧索引,
其中,k是频率索引,
其中,N取决于用于将时域音频信号变换到所述频域中或频谱域中的变换块的长度,
其中,指示所述残差信号在所述频谱域中或所述变换域中的第k样本,
其中,指示所述当前帧的频谱系数在所述频谱域中或所述变换域中的第k样本,
其中,指示所述当前帧的频谱预测在所述频谱域中或所述变换域中的第k样本,并且
其中,g是所述增益因子。
16.根据权利要求1所述的编码器(100),
其中,所述编码器(100)能够在第一模式下操作并且能够在第二模式、第三模式和第四模式中的至少一个模式下操作,
其中,如果所述编码器(100)处于所述第一模式,则所述编码器(100)将通过使用所述音频信号的所述一个或多个先前帧中的每个先前帧的多个频谱系数中的三个或更多个频谱系数构成的第一组频谱系数确定对所述最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,来对所述当前帧进行编码,
其中,如果所述编码器(100)处于所述第二模式,则所述编码器(100)将在所述变换域中或滤波器组域中对所述音频信号进行编码,并且所述编码器被配置为针对所述当前帧(108_t0)且至少针对所述最先前帧(108_t-1)确定所述音频信号(102)的多个频谱系数(106_t0_f1:106_t0_f6;106_t-1_f1:106_t-1_f6),其中,所述编码器(100)被配置为选择性地将预测编码应用于多个单独的频谱系数(106_t0_f2)或频谱系数(106_t0_f4、106_t0_f5)组,所述编码器(100)被配置为确定间距值,所述编码器(100)被配置为基于所述间距值来选择应用预测编码的多个单独的频谱系数(106_t0_f2)或频谱系数(106_t0_f4、106_t0_f5)组,
其中,如果所述编码器(100)处于所述第三模式,则所述编码器(100)将通过采用时域长期预测对所述音频信号进行编码,以及
其中,如果所述编码器(100)处于所述第四模式,则所述编码器(100)通过采用自适应改进离散余弦变换长期预测对所述音频信号进行编码,其中,如果所述编码器(100)采用自适应改进离散余弦变换长期预测,则所述编码器(100)被配置为在帧的基础上,根据最小化标准选择时域长期预测或频域预测或频域最小均方预测作为预测方法。
17.根据权利要求16所述的编码器(100),
其中,在所述第一模式、所述第二模式、所述第三模式和所述第四模式中的每一个模式下,所述编码器(100)将在帧的基础上,根据最小化标准细化基频以获得经细化的基频,并且将对增益因子进行适配以获得经适配的增益因子,
其中,所述编码器(100)将对所述经细化的基频和所述经适配的增益因子进行编码,而不是对原始基频和增益因子进行编码。
18.根据权利要求16所述的编码器(100),
其中,所述编码器(100)将其自身设置为所述第一模式或设置为所述第二模式和所述第三模式和所述第四模式中的至少一个模式,以及
其中,所述编码器(100)将进行编码,不论所述当前帧以所述第一模式或以所述第二模式或以所述第三模式或以所述第四模式进行了编码。
19.一种用于重构音频信号的当前帧的解码器(200),其中,所述音频信号的一个或多个先前帧在所述当前帧之前,其中所述当前帧和所述一个或多个先前帧中的每一个包括所述音频信号的一个或多个谐波分量,其中所述当前帧和所述一个或多个先前帧中的每一个包括频域中或变换域中的多个频谱系数,
其特征在于,所述解码器(200)将接收所述当前帧的编码,所述当前帧的编码包括增益因子和残差信号,其中,所述解码器(200)将根据所述增益因子、根据所述残差信号并且根据所述当前帧和一个或多个先前帧的一个或多个谐波分量的基频,来重构所述当前帧,
其中,所述解码器(200)将确定对所述一个或多个先前帧中的最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,所述两个谐波参数为针对余弦子分量的第一参数和针对正弦子分量的第二参数,其中所述最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数取决于所述音频信号的所述一个或多个先前帧中的每个先前帧的多个经重构的频谱系数中的三个或更多个频谱系数构成的第一组频谱系数,
其中,所述解码器(200)将根据所述当前帧的编码并且根据对所述最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,来重构所述当前帧。
20.根据权利要求19所述的解码器(200),
其中,所述最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数取决于包括至少三个方程的线性方程组,其中所述至少三个方程中的每一个取决于所述一个或多个先前帧中的每个先前帧的多个经重构的频谱系数中的三个或更多个频谱系数构成的第一组频谱系数中的频谱系数。
21.根据权利要求20所述的解码器(200),
其中,所述线性方程组能够使用最小均方算法求解。
22.根据权利要求20所述的解码器(200),
其中,所述线性方程组由下式定义:
其中,
其中,指示所述最先前帧的一个或多个谐波分量中具有所述一个或多个谐波分量中的最低谐波分量频率的谐波分量的第一频谱带,
其中,指示所述最先前帧的一个或多个谐波分量中具有所述一个或多个谐波分量中的最高谐波分量频率的谐波分量的第二频谱带,
其中,r是整数,r≥0,
其中,指示第一矩阵,,
其中,指示第二矩阵,。
23.根据权利要求22所述的解码器(200),其中,r≥1。
24.根据权利要求20所述的解码器(200),
其中,所述线性方程组能够根据下式求解:
其中,是第一向量,包括对所述最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,
其中,是第二向量,包括所述一个或多个先前帧中的每个先前帧的多个经重构的频谱系数中的三个或更多个频谱系数构成的第一组频谱系数,
其中,是的穆尔-彭罗斯逆矩阵,
其中,包括多个第三矩阵或第三向量,
其中,所述第三矩阵或第三向量中的每一个与对所述最先前帧的一个或多个谐波分量中的谐波分量的两个谐波参数的估计一起指示对所述谐波分量的估计,
其中,H指示所述一个或多个先前帧的谐波分量的数量。
25.根据权利要求19所述的解码器(200),
其中,所述解码器(200)将接收谐波分量的基频、窗口函数、所述增益因子和所述残差信号,
其中,所述解码器(200)将根据所述最先前帧的一个或多个谐波分量的基频、根据所述窗口函数、根据所述增益因子并且根据所述残差信号,来重构所述当前帧。
26.根据权利要求25所述的解码器(200),
其中,所述解码器(200)将接收所述最先前帧的一个或多个谐波分量的数量,以及
其中,所述解码器(200)将根据所述最先前帧的一个或多个谐波分量的数量来对所述当前帧的编码进行解码。
27.根据权利要求26所述的解码器(200),
其中,所述解码器(200)将根据一组或多组谐波分量来对所述当前帧的编码进行解码,
其中,所述解码器(200)将在所述一组或多组谐波分量上应用所述音频信号的预测。
28.根据权利要求19所述的解码器(200),
其中,所述解码器(200)将根据所述最先前帧的一个或多个谐波分量中的所述谐波分量中的每个谐波分量的两个谐波参数,来确定所述当前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数。
29.根据权利要求28所述的解码器(200),
其中,所述解码器(200)将应用:
,并且
其中,所述解码器(200)将应用:
,
其中,ah是针对所述最先前帧的一个或多个谐波分量的第h谐波分量的余弦子分量的参数,
其中,bh是针对所述最先前帧的一个或多个谐波分量的第h谐波分量的正弦子分量的参数,
其中,ch是针对所述当前帧的一个或多个谐波分量的第h谐波分量的余弦子分量的参数,
其中,dh是针对所述当前帧的一个或多个谐波分量的第h谐波分量的正弦子分量的参数,
其中,N取决于用于将时域音频信号变换到所述频域中或频谱域中的变换块的长度,并且
其中,
,
其中,f0是所述最先前帧的一个或多个谐波分量的基频,且为所述当前帧的一个或多个谐波分量的基频,
其中,fs是采样频率,并且
其中,h是指示所述最先前帧的一个或多个谐波分量之一的索引。
30.根据权利要求19所述的解码器(200),
其中,所述解码器(200)将接收所述残差信号,其中所述残差信号取决于所述当前帧在所述频域中或所述变换域中的多个频谱系数,并且其中,所述残差信号取决于对所述当前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计。
31.根据权利要求30所述的解码器(200),
其中,所述解码器(200)将根据对所述当前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计来确定所述当前帧的多个频谱系数中的一个或多个频谱系数的频谱预测,并且其中,所述解码器(200)将根据所述当前帧的频谱预测并且根据所述残差信号并且根据增益因子来确定所述音频信号的当前帧。
32.根据权利要求31所述的解码器(200),
其中,所述当前帧的残差信号根据下式定义:
其中,m是帧索引,
其中,k是频率索引,
其中,是所接收的量化重构之后的残差,
其中,是经重构的当前帧,
其中,指示所述当前帧在频谱域中或所述变换域中的频谱预测,并且
其中,g是所述增益因子。
33.根据权利要求19所述的解码器(200),
其中,所述解码器(200)能够在第一模式下操作并且能够在第二模式、第三模式和第四模式中的至少一个模式下操作,
其中,如果所述解码器(200)处于所述第一模式,则所述解码器(200)将确定对所述最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,其中所述最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数取决于所述音频信号的所述一个或多个先前帧中的每个先前帧的多个经重构的频谱系数中的三个或更多个频谱系数构成的第一组频谱系数,并且所述解码器(200)将根据对所述最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计来对所述当前帧的编码进行解码,
其中,如果所述解码器(200)处于所述第二模式,则所述解码器(200)将解析所述音频信号(120)的编码以针对所述当前帧(208_t0)且至少针对所述最先前帧(208_t-1)获得所述音频信号(120)的编码频谱系数(206_t0_f1:206_t0_f6;206_t-1_f1:206_t-1_f6),并且所述解码器(200)被配置为选择性地将预测解码应用于多个单独的编码频谱系数(206_t0_f2)或编码频谱系数(206_t0_f4、206_t0_f5)组,其中所述解码器(200)被配置为获得间距值,其中所述解码器(200)被配置为基于所述间距值来选择应用预测解码的多个单独的编码频谱系数(206_t0_f2)或编码频谱系数(206_t0_f4、206_t0_f5)组,
其中,如果所述解码器(200)处于所述第三模式,则所述解码器(200)将通过采用时域长期预测对所述音频信号进行解码,以及
其中,如果所述解码器(200)处于所述第四模式,则所述解码器(200)将通过采用自适应改进离散余弦变换长期预测对所述音频信号进行解码,其中,如果所述解码器(200)采用自适应改进离散余弦变换长期预测,则所述解码器(200)被配置为在帧的基础上,根据最小化标准选择时域长期预测或频域预测或频域最小均方预测作为预测方法。
34.根据权利要求33所述的解码器(200),
其中,在所述第一模式、所述第二模式、所述第三模式和所述第四模式中的每一个模式下,所述解码器(200)将根据经细化的基频并且根据经适配的增益因子,来对所述音频信号进行解码,其中所述经细化的基频和所述经适配的增益因子已经在帧的基础上确定。
35.根据权利要求33所述的解码器(200),
其中,所述解码器(200)将接收编码并对所述编码进行解码,所述编码包括关于所述当前帧已经以所述第一模式或以所述第二模式或以所述第三模式或以所述第四模式进行编码的指示,以及
其中,所述解码器(200)将根据所述指示将其自身设置为所述第一模式或所述第二模式或所述第三模式或所述第四模式。
36.一种用于帧丢失隐藏的装置(700),其中,音频信号的一个或多个先前帧在所述音频信号的当前帧之前,其中所述当前帧和所述一个或多个先前帧中的每一个包括所述音频信号的一个或多个谐波分量,其中所述当前帧和所述一个或多个先前帧中的每一个包括频域中或变换域中的多个频谱系数,
其中,所述装置(700)将确定对所述一个或多个先前帧中的最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,其中,所述最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数取决于所述音频信号的所述一个或多个先前帧中的每个先前帧的多个经重构的频谱系数中的三个或更多个频谱系数构成的第一组频谱系数,
其中,如果所述装置(700)未接收到所述当前帧,或者如果所述装置(700)接收到处于损坏状态下的当前帧,则所述装置(700)将根据对所述最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计来重构所述当前帧,
其中,为了重构所述当前帧,所述装置(700)将根据对所述最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,来确定对所述当前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,
其中,所述装置(700)将根据所述最先前帧的一个或多个谐波分量中的所述谐波分量中的每个谐波分量的两个谐波参数,来确定所述当前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数,
其中,所述装置(700)将应用:
,并且
其中,所述装置(700)将应用:
,
其中,ah是针对所述最先前帧的一个或多个谐波分量的第h谐波分量的余弦子分量的参数,
其中,bh是针对所述最先前帧的一个或多个谐波分量的第h谐波分量的正弦子分量的参数,
其中,ch是针对所述当前帧的一个或多个谐波分量的第h谐波分量的余弦子分量的参数,
其中,dh是针对所述当前帧的一个或多个谐波分量的第h谐波分量的正弦子分量的参数,
其中,N取决于用于将时域音频信号变换到所述频域中或频谱域中的变换块的长度,并且
其中,
,
其中,f0是所述最先前帧的一个或多个谐波分量的基频,且为所述当前帧的一个或多个谐波分量的基频,
其中,fs是采样频率,并且
其中,h是指示所述最先前帧的一个或多个谐波分量之一的索引。
37.一种用于对音频信号的当前帧进行编码并且用于重构音频信号的当前帧的系统,包括:
根据权利要求1所述的编码器(100),用于对所述音频信号的所述当前帧进行编码,以及
根据权利要求19所述的解码器(200),用于对所述音频信号的所述当前帧的编码进行解码。
38.一种用于根据音频信号的一个或多个先前帧来对所述音频信号的当前帧进行编码的方法,其中所述一个或多个先前帧在所述当前帧之前,其中所述当前帧和所述一个或多个先前帧中的每一个包括所述音频信号的一个或多个谐波分量,其中所述当前帧和所述一个或多个先前帧中的每一个包括频域中或变换域中的多个频谱系数,
其特征在于,为了生成对所述当前帧的编码,所述方法包括确定对所述一个或多个先前帧中的最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,所述两个谐波参数为针对余弦子分量的第一参数和针对正弦子分量的第二参数,
其中,确定对所述最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计是使用所述音频信号的所述一个或多个先前帧中的每个先前帧的多个频谱系数中的三个或更多个频谱系数构成的第一组频谱系数进行的,
其中,为了生成对所述当前帧的编码,所述方法包括:根据所述当前帧和所述一个或多个先前帧的一个或多个谐波分量的基频并且根据对所述最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,来确定增益因子和残差信号作为所述当前帧的编码,其中,生成所述当前帧的编码,使得所述当前帧的编码包括所述增益因子和所述残差信号。
39.一种用于重构音频信号的当前帧的方法,其中,所述音频信号的一个或多个先前帧在所述当前帧之前,其中所述当前帧和所述一个或多个先前帧中的每一个包括所述音频信号的一个或多个谐波分量,其中所述当前帧和所述一个或多个先前帧中的每一个包括频域中或变换域中的多个频谱系数,
其特征在于,所述方法包括接收所述当前帧的编码,所述当前帧的编码包括增益因子和残差信号,其中,将根据所述增益因子、根据所述残差信号并且根据所述当前帧和一个或多个先前帧的一个或多个谐波分量的基频,来重构所述当前帧,
其中,所述方法包括确定对所述一个或多个先前帧中的最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,所述两个谐波参数为针对余弦子分量的第一参数和针对正弦子分量的第二参数,其中所述最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数取决于所述音频信号的所述一个或多个先前帧中的每个先前帧的多个经重构的频谱系数中的三个或更多个频谱系数构成的第一组频谱系数,
其中,所述方法包括根据所述当前帧的编码并且根据对所述最先前帧的一个或多个谐波分量中的每个谐波分量的两个谐波参数的估计,来重构所述当前帧。
40.一种非暂时性计算机可读介质,包括计算机程序,所述计算机程序在由计算机或信号处理器执行时用于实现根据权利要求38或39所述的方法。
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/EP2019/082802 WO2021104623A1 (en) | 2019-11-27 | 2019-11-27 | Encoder, decoder, encoding method and decoding method for frequency domain long-term prediction of tonal signals for audio coding |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN115004298A CN115004298A (zh) | 2022-09-02 |
| CN115004298B true CN115004298B (zh) | 2026-01-09 |
Family
ID=68808298
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201980103473.5A Active CN115004298B (zh) | 2019-11-27 | 2019-11-27 | 用于对音频编码的音调信号进行频域长期预测的编码器、解码器、编码方法和解码方法 |
Country Status (9)
| Country | Link |
|---|---|
| US (1) | US12380901B2 (zh) |
| EP (1) | EP4066242A1 (zh) |
| JP (1) | JP7638990B2 (zh) |
| KR (1) | KR102838273B1 (zh) |
| CN (1) | CN115004298B (zh) |
| BR (1) | BR112022010062A2 (zh) |
| CA (1) | CA3162929A1 (zh) |
| MX (1) | MX2022006398A (zh) |
| WO (1) | WO2021104623A1 (zh) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2016142002A1 (en) * | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
| KR20220066749A (ko) * | 2020-11-16 | 2022-05-24 | 한국전자통신연구원 | 잔차 신호의 생성 방법과 그 방법을 수행하는 부호화기 및 복호화기 |
| EP4364137A1 (en) * | 2021-06-29 | 2024-05-08 | Telefonaktiebolaget LM Ericsson (publ) | Spectrum classifier for audio coding mode selection |
| WO2025196316A1 (en) | 2024-03-22 | 2025-09-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder, encoding method and decoding method employing frequency domain prediction of tonal signals with time-varying pitches |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105247614A (zh) * | 2013-04-05 | 2016-01-13 | 杜比国际公司 | 音频编码器和解码器 |
| WO2016142357A1 (en) * | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
Family Cites Families (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
| US6496798B1 (en) * | 1999-09-30 | 2002-12-17 | Motorola, Inc. | Method and apparatus for encoding and decoding frames of voice model parameters into a low bit rate digital voice message |
| US7668712B2 (en) | 2004-03-31 | 2010-02-23 | Microsoft Corporation | Audio encoding and decoding with intra frames and adaptive forward error correction |
| WO2007004831A1 (en) | 2005-06-30 | 2007-01-11 | Lg Electronics Inc. | Method and apparatus for encoding and decoding an audio signal |
| ATE518224T1 (de) * | 2008-01-04 | 2011-08-15 | Dolby Int Ab | Audiokodierer und -dekodierer |
| KR101797033B1 (ko) | 2008-12-05 | 2017-11-14 | 삼성전자주식회사 | 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법 |
| EP4120254B1 (en) * | 2009-01-28 | 2025-01-15 | Dolby International AB | Improved harmonic transposition |
| US20130282373A1 (en) * | 2012-04-23 | 2013-10-24 | Qualcomm Incorporated | Systems and methods for audio signal processing |
| CN104885149B (zh) * | 2012-09-24 | 2017-11-17 | 三星电子株式会社 | 用于隐藏帧错误的方法和设备以及用于对音频进行解码的方法和设备 |
| WO2016062869A1 (en) | 2014-10-24 | 2016-04-28 | Dolby International Ab | Encoding and decoding of audio signals |
| WO2016142002A1 (en) * | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
| TWI758146B (zh) * | 2015-03-13 | 2022-03-11 | 瑞典商杜比國際公司 | 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流 |
| MX385728B (es) * | 2016-03-07 | 2025-03-18 | Fraunhofer Ges Forschung | Método de ocultamiento híbrido: combinación de ocultamiento de pérdida paquete de dominio de frecuencia y tiempo en códecs de audio. |
| JP7123911B2 (ja) | 2016-09-09 | 2022-08-23 | ディーティーエス・インコーポレイテッド | オーディオコーデックにおける長期予測のためのシステム及び方法 |
-
2019
- 2019-11-27 CN CN201980103473.5A patent/CN115004298B/zh active Active
- 2019-11-27 EP EP19816558.1A patent/EP4066242A1/en active Pending
- 2019-11-27 BR BR112022010062A patent/BR112022010062A2/pt unknown
- 2019-11-27 MX MX2022006398A patent/MX2022006398A/es unknown
- 2019-11-27 JP JP2022531448A patent/JP7638990B2/ja active Active
- 2019-11-27 WO PCT/EP2019/082802 patent/WO2021104623A1/en not_active Ceased
- 2019-11-27 CA CA3162929A patent/CA3162929A1/en active Pending
- 2019-11-27 KR KR1020227021674A patent/KR102838273B1/ko active Active
-
2022
- 2022-05-24 US US17/664,709 patent/US12380901B2/en active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105247614A (zh) * | 2013-04-05 | 2016-01-13 | 杜比国际公司 | 音频编码器和解码器 |
| WO2016142357A1 (en) * | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
Also Published As
| Publication number | Publication date |
|---|---|
| BR112022010062A2 (pt) | 2022-09-06 |
| US20220284908A1 (en) | 2022-09-08 |
| JP2023507073A (ja) | 2023-02-21 |
| EP4066242A1 (en) | 2022-10-05 |
| CA3162929A1 (en) | 2021-06-03 |
| CN115004298A (zh) | 2022-09-02 |
| WO2021104623A1 (en) | 2021-06-03 |
| JP7638990B2 (ja) | 2025-03-04 |
| KR20220104049A (ko) | 2022-07-25 |
| MX2022006398A (es) | 2022-08-17 |
| US12380901B2 (en) | 2025-08-05 |
| KR102838273B1 (ko) | 2025-07-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12380901B2 (en) | Encoder, decoder, encoding method and decoding method for frequency domain long-term prediction of tonal signals for audio coding | |
| CN110047500B (zh) | 音频编码器、音频译码器及其方法 | |
| CN113450810A (zh) | 谐波滤波器工具的谐度依赖控制 | |
| CN107533847A (zh) | 音频编码器、音频解码器、用于编码音频信号的方法及用于解码经编码的音频信号的方法 | |
| JP2016541004A (ja) | 低遅延符号化/復号のための音声信号のリサンプリング | |
| US7805314B2 (en) | Method and apparatus to quantize/dequantize frequency amplitude data and method and apparatus to audio encode/decode using the method and apparatus to quantize/dequantize frequency amplitude data | |
| KR20240040086A (ko) | 적분 대역별 파라메트릭 오디오 코딩 | |
| CA3118121C (en) | Perceptual audio coding with adaptive non-uniform time/frequency tiling using subband merging and time domain aliasing reduction | |
| Guo et al. | Frequency domain long-term prediction for low delay general audio coding | |
| CA2914418C (en) | Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding | |
| CA2914771C (en) | Apparatus and method for audio signal envelope encoding, processing and decoding by modelling a cumulative sum representation employing distribution quantization and coding | |
| RU2806121C1 (ru) | Кодер, декодер, способ кодирования и способ декодирования для долговременного предсказания в частотной области тональных сигналов для кодировки аудио | |
| JP2019531505A (ja) | オーディオコーデックにおける長期予測のためのシステム及び方法 | |
| US10950251B2 (en) | Coding of harmonic signals in transform-based audio codecs | |
| WO2025196316A1 (en) | Encoder, decoder, encoding method and decoding method employing frequency domain prediction of tonal signals with time-varying pitches | |
| HK40115279A (zh) | 用於使用独立噪声填充生成增强信号的装置和方法 | |
| WO2016142357A1 (en) | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal | |
| HK40006123B (zh) | 用於使用独立噪声填充生成增强型号的装置和方法 | |
| CN111630591A (zh) | 支持不同丢失消隐工具的集合的音频解码器 | |
| HK1232662B (zh) | 用於使用独立的噪声填充生成增强信号的装置和方法 | |
| HK1232662A1 (zh) | 用於使用独立的噪声填充生成增强信号的装置和方法 | |
| HK1218018B (zh) | 频域中基於cpl进行编码的低频增强 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |