CN102318004A - 改进的谐波转置 - Google Patents
改进的谐波转置 Download PDFInfo
- Publication number
- CN102318004A CN102318004A CN2010800055803A CN201080005580A CN102318004A CN 102318004 A CN102318004 A CN 102318004A CN 2010800055803 A CN2010800055803 A CN 2010800055803A CN 201080005580 A CN201080005580 A CN 201080005580A CN 102318004 A CN102318004 A CN 102318004A
- Authority
- CN
- China
- Prior art keywords
- mrow
- window
- output signal
- analysis
- synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000017105 transposition Effects 0.000 title claims abstract description 170
- 238000004458 analytical method Methods 0.000 claims abstract description 203
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 169
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 168
- RVRCFVVLDHTFFA-UHFFFAOYSA-N heptasodium;tungsten;nonatriacontahydrate Chemical compound O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W] RVRCFVVLDHTFFA-UHFFFAOYSA-N 0.000 claims abstract description 82
- 238000000034 method Methods 0.000 claims abstract description 80
- 230000009466 transformation Effects 0.000 claims abstract description 26
- 230000005236 sound signal Effects 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000005070 sampling Methods 0.000 claims description 33
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 238000012952 Resampling Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 abstract description 5
- 230000001052 transient effect Effects 0.000 description 19
- 230000007480 spreading Effects 0.000 description 14
- 230000003595 spectral effect Effects 0.000 description 13
- 239000002131 composite material Substances 0.000 description 10
- 230000004044 response Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000010363 phase shift Effects 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 230000005284 excitation Effects 0.000 description 4
- 230000000737 periodic effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000002592 echocardiography Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000010076 replication Effects 0.000 description 3
- 108010003272 Hyaluronate lyase Proteins 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000036278 prepulse Effects 0.000 description 2
- 230000035508 accumulation Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000002301 combined effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及在时间上和/或频率上对信号进行转置,尤其涉及音频信号的编码。更具体地,本发明涉及包括频域谐波转置器的高频重建(HFR)方法。描述了用于使用转置因子T从输入信号生成转置的输出信号的方法和系统。该系统包括:长度La的分析窗,其提取输入信号的帧;以及M阶的分析变换单元,其将样本变换成M个复数系数。M是转置因子T的函数。该系统还包括:非线性处理单元,其通过使用转置因子T来改变复数系数的相位;M阶的合成变换单元,其将改变的系数变换成M个改变的样本;以及长度Ls的合成窗,其生成输出信号的帧。
Description
技术领域
本发明涉及在频率上对信号进行转置和/或在时间上对信号进行扩展/压缩,并且尤其涉及音频信号的编码。换言之,本发明涉及时标修改和/或频标修改。更具体地,本发明涉及包括频域谐波转置器(transposer)的高频重建(HFR)方法。
背景技术
HFR技术(例如谱带复制(SBR)技术)使得显著改进传统感知音频编解码器的编码效率。与MPEG-4高级音频编码(AAC)组合,它形成非常有效的音频编解码器,已将其用在XM卫星无线电系统和全球数字无线电系统(Digital Radio Mondiale)中,而且还在3GPP、DVD论坛等中将其标准化。AAC和SBR的组合被称为aacPlus。这是MPEG-4标准的一部分,其中,它被称作高效AAC规格(High Efficiency AAC Profile,HE-AAC)。通常,HFR技术可以通过后向和前向兼容的方式与任何感知音频编解码器组合,因此提供使已经建立的广播系统(类似于Eureka DAB系统中使用的MPEG层-2)升级的可能性。HFR转置方法也可以与语音编解码器组合以允许超低比特率的宽带语音。
HRF之后的基本构思是观测到通常存在信号的高频率范围的特性与同一信号的低频率范围的特性之间的强相关性。因此,通过从低频率范围到高频率范围的信号转置可以实现对于信号的原始输入高频率范围的表示的良好近似。
在通过引用而合并的WO 98/57436中建立了这种转置的构思,以作为用于从音频信号的较低频带重建高频带的方法。通过在音频编码和/或语音编码中使用该构思可以获得比特率的大量节省。下文中,将提到音频编码,但应注意描述的方法和系统同样可应用于语音编码并且可应用在统一的语音和音频编码(USAC)中。
在基于HFR的音频编码系统中,低带宽信号被提供给用于编码的核心波形编码器,使用通常以非常低的比特率被编码的并且描述目标谱形状的附加边信息和低带宽信号的转置在解码器侧再生较高频率。对于低比特率,其中核心编码的信号的带宽窄,再现或合成具有感知愉悦特性的高带(即音频信号的高频率范围)变得愈加重要。
在现有技术中,存在一些使用例如谐波转置、或时间扩展的高频重建的方法。一种方法基于在以足够高的频率解析度执行频率分析的原则下运行的相位音码器。在重合成信号之前在频域中执行信号修改。信号修改可为时间扩展操作或转置操作。
这些方法存在的潜在问题之一是,为了获得稳态声音的高质量转置、和瞬变声音或冲击声音的系统时间响应而对预期的高频解析度进行相反的约束。换言之,尽管使用高频解析度对稳态信号有利,但是这样的高频解析度通常要求大的窗尺寸,而当处理信号的瞬变部分时,大的窗尺寸是有害的。处理该问题的一个方法可根据输入信号特性、例如通过使用窗切换来自适应地改变转置器的窗。通常,为了实现高频解析度将对信号的稳态部分使用长窗,而为了实现转置器的良好的瞬变响应、即良好的时间解析度将对信号的瞬变部分使用短窗。但是,该方法具有的缺点在于,不得不将诸如瞬变检测等信号分析措施合并到转置系统中。这样的信号分析措施经常涉及触发信号处理的切换的判定步骤,例如对瞬变的存在的判定。另外,这样的措施通常影响系统的可靠性,以及当切换信号处理时,例如当在窗尺寸之间切换时,这样的措施可引入信号伪像。
本发明解决有关谐波转置的瞬变性能的前述问题,而不需要窗切换。另外,以低的附加复杂度实现了改进的谐波转置。
发明内容
本发明涉及谐波转置的改进的瞬变性能的问题,还涉及匹配的、对谐波转置的已知方法的改进。另外,本发明概述了如何在保留所提出的改进的同时可将附加的复杂度保持在最小。
其中,本发明可包括以下方面中的至少一个:
-通过这样的因子在频率中进行过采样:该因子是转置器的操作点的转置因子的函数;
-对分析窗和合成窗的组合进行适当选择;以及
-对于组合不同的转置的信号的情况,确保不同的转置的信号的时间对齐。
根据本发明的方面,描述了一种用于使用转置因子T从输入信号生成转置的输出信号的系统。转置的输出信号可为输入信号的时间扩展的版本和/或频移的版本。相对于输入信号,可通过转置因子T在时间上扩展转置的输出信号。可替选地,可通过转置因子T将转置的输出信号的频率分量向上移位。
该系统可包括长度L的分析窗,其提取输入信号的L个样本。通常,输入信号的L个样本是时域中的输入信号的样本,例如音频信号的样本。所提取的L个样本被称为输入信号的帧。系统还包括M=F*L阶的分析变换单元,其利用作为频率过采样因子的F将L个时域样本变换成M个复数系数。M个复数系数通常是频域中的系数。分析变换可为傅立叶变换、快速傅立叶变换、离散傅立叶变换、小波变换或(可能调制的)滤波器组的分析阶段。过采样因子F基于转置因子T或是转置因子T的函数。
过采样操作也可被称为通过附加的(F-1)*L个零对分析窗进行零填充(zero padding)。过采样操作还可被视为通过因子F来选择大于分析窗的尺寸的分析变换的尺寸M。
该系统还可包括非线性处理单元,其通过使用转置因子T来改变复数系数的相位。相位的改变可包括将复数系数的相位乘以转置因子T。另外,该系统可包括:M阶的合成变换单元,其将改变的系数变换成M个改变的样本;以及长度L的合成窗,其生成输出信号。合成变换可为逆傅立叶变换、逆快速傅立叶变换、逆离散傅立叶变换、逆小波变换、或(可能)调制的滤波器组的合成阶段。通常,例如为了当转置因子T=1时实现输入信号的完美重建,分析变换和合成彼此相关。
根据本发明的另一方面,过采样因子F与转置因子T成比例。特别地,过采样因子F可大于或等于(T+1)/2。过采样因子F的该选择确保合成窗拒绝可由转置引起的、不期望的信号伪像,例如前回声和后回声。
应当注意,更一般而言,分析窗的长度可为La,而合成窗的长度可为Ls。还是在这样的情况下,可有利的是,基于转置阶T、即根据转置阶T来选择变换单元的阶M。另外,可有利的是,将M选择成大于分析窗和合成窗的平均长度,即大于(La+Ls)/2。在实施例中,变换单元的阶M与平均窗长度之间的差与(T-1)成比例。在另一实施例中,将M选择成大于或等于(TLa+Ls)/2。应当注意,分析窗和合成窗的长度相等、即La=Ls=L的情况是以上一般情况的特殊情况。对于一般情况,过采样因子F可为:
该系统还可包括分析步幅单元,其沿输入信号以Sa个样本的分析步幅将分析窗移位。作为分析步幅单元的结果,生成输入信号的帧的序列。另外,该系统可包括合成步幅单元,其以Ss个样本的合成步幅将合成窗和/或输出信号的相继帧移位。因此,生成输出信号的移位的帧的序列,其可在交叠相加单元中被交叠和相加。
换言之,分析窗可例如通过将输入信号的L个样本的集合乘以非零的窗系数,来提取或分离输入信号的L个样本、或更一般地La个样本。这样的L个样本的集合可被称为输入信号帧或输入信号的帧。分析步幅单元沿输入信号将分析窗移位,从而选择输入信号的不同帧,即分析步幅单元生成输入信号的帧的序列。分析步幅给出相继帧之间的采样距离。以类似的方式,合成步幅单元将分析窗和/或输出信号的帧移位,即合成步幅单元生成输出信号的移位的帧的序列。合成步幅给出输出信号的相继帧之间的采样距离。可通过将输出信号的帧的序列交叠和通过将时间上同时发生的样本值相加,来确定输出信号。
根据本发明的另一方面,合成步幅是分析步幅的T倍。在这样的情况下,通过转置因子T进行时间扩展,输出信号对应于输入信号。换言之,通过将合成步幅选择成分析步幅的T倍,可获得输出信号相对于输入信号的时间移位或时间扩展。该时间移位具有阶T。
换言之,可如下描述以上提及的系统:使用分析窗单元、分析变换单元和具有分析步幅Sa的分析步幅,可根据输入信号来确定M个复数系数的集合的组(suite)或序列。分析步幅定义了沿输入信号将分析窗向前移动的样本的数目。由于采样率给出了两个相继样本之间经过的时间,所以分析步幅还定义了在输入信号的两帧之间经过的时间。因此,分析步幅Sa还给出了在M个复数系数的两个相继集合之间经过的时间。
在通过非线性处理单元之后,可将M个复数系数的集合的组或序列重转换到时域,其中,在非线性处理单元中,例如可通过将复数系数的相位乘以转置因子T来改变复数系数的相位。可使用合成变换单元将M个改变的复数系数的每个集合变换成M个改变的样本。在下面的涉及合成窗单元和具有合成步幅Ss的合成步幅单元的交叠相加操作中,可将M个改变的样本的集合的组交叠和相加以形成输出信号。在该交叠相加操作中,在M个改变的样本的相继集合可被乘以合成窗、以及随后被相加以产生输出信号之前,可以以相对于彼此的Ss个样本将M个改变的样本的相继集合移位。因此,如果合成步幅Ss是分析步幅Sa的T倍,则可通过因子T来对信号进行时间扩展。
根据本发明的另一方面,从分析窗和合成步幅导出合成窗。特别地,合成窗可由以下公式给出:
其中,vs(n)是合成窗,va(n)是分析窗,而Δt是合成步幅Ss。分析窗和/或合成窗可为高斯窗、余弦窗、汉明窗、汉宁(Hann)窗、矩形窗、巴特里特(Bartlett)窗、布莱克曼(Blackman)窗、具有函数 的窗之一,其中,在不同长度的分析窗和合成窗的情况下,L可分别为La或Ls。
根据本发明的另一方面,该系统还包括收缩单元,其通过转置阶T执行例如输出信号的比率转换,从而产生转置的输出信号。通过将合成步幅选择为分析步幅的T倍,可如以上所概述地获得时间扩展的输出信号。如果通过因子T增加时间扩展的信号的采样率,或者如果通过因子T对时间扩展的信号进行下采样,则通过转置因子T进行频移,可生成对应于输入信号的转置的输出信号。下采样操作可包括仅选择输出信号的样本的子集的步骤。通常,仅保留输出信号的每第T个样本。可替选地,可通过因子T来增加采样率,即采样率被解释为T倍高。换言之,重采样率转换或采样率转换意味着将采样率改变成或者更高的值或者更低的值。下采样意味着将比率转换到更低的值。
根据本发明的另一方面,该系统可从输入信号生成第二输出信号。该系统可包括第二非线性处理单元,其通过使用第二转置因子T2来改变复数系数的相位;和第二合成步幅单元,其通过第二合成步幅将合成窗和/或第二输出信号的帧移位。相位的改变可包括将相位乘以因子T2。通过使用第二转置因子来改变复数系数的相位、和通过将第二改变的系数变换成M个第二改变的样本、和通过应用合成窗,可从输入信号的帧生成第二输出信号的帧。通过将第二合成步幅应用于第二输出信号的帧的序列,可在交叠相加单元中生成第二输出信号。
可在第二收缩单元中收缩第二输出信号,其中,第二收缩单元通过第二转置因子T2来执行例如第二输出信号的比率转换。这产生第二转置的输出信号。总之,可使用第一转置因子T来生成第一转置的输出信号,而可使用第二转置因子T2来生成第二转置的输出信号。然后,可在组合单元中合并这两个转置的输出信号,以产生总的转置的输出信号。合并操作可包括将两个转置的输出信号相加。这样的多个转置的输出信号的生成和组合可有利于获得对要被合成的高频信号分量的良好近似。应当注意,可使用多个转置阶来生成任意数目的转置的输出信号。然后,可在组合单元中合并这多个转置的输出信号,例如将这多个转置的输出信号相加,以产生总的转置的输出信号。
可有利的是,组合单元在合并之前对第一转置的输出信号和第二转置的输出信号进行加权。可执行该加权,使得第一转置的输出信号和第二转置的输出信号的能量或每带宽能量分别对应于输入信号的能量或每带宽能量。
根据本发明的另一方面,该系统可包括对齐单元,其在进入组合单元之前将时间偏移应用于第一转置的输出信号和第二转置的输出信号。这样的时间偏移可包括在时域中将两个转置的输出信号相对于彼此进行移位。时间偏移可为转置阶和/或窗口长度的函数。特别地,时间偏移可被确定为:
根据本发明的另一方面,上述转置系统可被嵌入到用于对所接收的包括音频信号的多媒体信号进行解码的系统中。该解码系统可包括对应于以上概述的系统的转置单元,其中,输入信号通常为音频信号的低频分量,而输出信号为音频信号的高频分量。换言之,输入信号通常是具有特定带宽的低通信号,而输出信号是通常具有更高带宽的带通信号。另外,该解码系统可包括核心解码器,其用于对来自所接收的比特流的音频信号的低频分量进行解码。这样的核心解码器可基于诸如杜比E、杜比数字或AAC的编码方案。特别地,这样的解码系统可为机顶盒,其用于解码所接收的包括音频信号和诸如视频的其它信号的多媒体信号。
应当注意,本发明还描述了一种用于通过转置因子T来转置输入信号的方法。该方法对应于以上概述的系统,并且可包括以上提及的方面的任意组合。该方法可包括步骤:使用长度L的分析窗来提取输入信号的样本,以及根据转置因子T来选择过采样因子F。该方法还可包括步骤:将L个样本从时域变换到频域以产生F*L个复数系数,以及用转置因子T来改变复数系数的相位。在附加的步骤中,该方法可将F*L个改变的复数系数变换到时域以产生F*L个改变的样本,以及该方法可使用长度L的合成窗来生成输出信号。应当注意,如以上所概述的,该方法还可适用于分析窗和合成窗的一般长度,即一般的La和Ls。
根据本发明的另一方面,该方法可包括步骤:沿输入信号以Sa个样本的分析步幅将分析窗移位,和/或以Ss个样本的合成步幅将合成窗和/或输出信号的帧移位。通过将合成步幅选择成分析步幅的T倍,可通过因子T相对于输入信号对输出信号进行时间扩展。当执行通过转置因子T执行输出信号的比率转换的附加步骤时,可获得转置的输出信号。这样的转置的输出信号可包括相对于输入信号的对应频率分量通过因子T被上移位的频率分量。
该方法还可包括生成第二输出信号的步骤。这可通过以下方式来实现:通过使用第二转置因子T2来改变复数系数的相位;通过第二合成步幅将合成窗和/或第二输出信号的帧移位,其中可使用第二转置因子T2和第二合成步幅来生成第二输出信号。通过以第二转置阶T2来执行第二输出信号的比率转换,可生成第二转置的输出信号。最终,通过将第一转置的输出信号和第二转置的输出信号合并,可获得合并的或总的转置的输出信号,其包括通过具有不同转置因子的两个或更多个转置而生成的高频信号分量。
根据本发明的其它方面,本发明描述了软件程序,其适合于在处理器上执行,以及用于当在计算装置上被执行时执行本发明的方法的步骤。本发明还描述了包括软件程序的存储介质,该软件程序适合于在处理器上执行,以及当在计算装置上被执行时用于执行本发明的方法的步骤。另外,本发明描述了包括可执行指令的计算机程序产品,可执行指令当在计算机上被执行时用于执行本发明的方法。
根据另一方面,描述了另一种用于通过转置因子T对输入信号进行转置的方法和系统。该方法和系统可单独使用,或者结合以上概述的方法和系统使用。本文献中概述的任何特征都可应用于该方法/系统,反之亦然。
该方法可包括步骤:使用长度L的分析窗来提取输入信号的样本的帧。然后,可将输入信号的帧从时域变换到频域以产生M个复数系数。可用转置因子T来改变复数系数的相位,以及可将M个改变的复数系数变换到时域以产生M个改变的样本。最终,可使用长度L的合成窗来生成输出信号的帧。该方法和系统可使用彼此不相同的分析窗和合成窗。分析窗和合成窗可关于其形状、长度、定义窗的系数的数目和/或定义窗的系数的值而不同。通过这样做,可获得选择分析窗和合成窗时的附加的自由度,从而可减少或消除转置的输出信号的失真。
根据另一方面,分析窗和合成窗相对于彼此而双正交。合成窗vs(n)可由下式给出:
其中,c是常量,va(n)是分析窗(311),Δts是合成窗的时间步幅,而s(n)可由下式给出:
合成窗的时间步幅Δts通常对应于合成步幅Ss。
根据另一方面,可选择分析窗使得其z变换具有单位圆上的双零。优选地,分析窗的z变换仅具有单位圆上的双零。例如,分析窗可为平方正弦窗。在另一示例中,可通过对长度L的两个正弦窗进行交织以产生长度2L-1的平方正弦窗,来确定长度L的分析窗。在另一步骤中,将零追加到平方正弦窗以产生长度2L的基窗。最终,可使用线性插值来对基窗进行重采样,从而将长度L的偶对称窗产生为分析窗。
本文献中描述的方法和系统可被实现为软件、固件和/或硬件。特定的部件可例如被实现为数字信号处理器或微处理器上运行的软件。其它部件可例如被实现为硬件和/或专用集成电路。在所描述的方法和系统中遇到的信号可存储在诸如随机访问存储器或光存储介质的介质上。可经由诸如无线电网络、卫星网络、无线网络或有线网络的网络来传输信号,例如经由因特网来传输信号。使用本文献中所描述的方法和系统的典型装置是机顶盒或对音频信号进行解码的其它消费者端设备(user premiseequipment)。在编码侧,该方法和系统可用在广播站中,例如用在视频或TV前端系统(head end system)中。
应注意,可以任意地组合本发明的上述实施例和方法。具体地说,应注意,针对系统概述的方面也可应用于本发明包括的对应方法。此外,应注意,本发明的公开内容还覆盖除了后面提到的从属权利要求中明显给出的权利要求组合之外的其它权利要求组合,即,能够以任何顺序和任何形式组合权利要求及其技术特征。
附图说明
现在将参照附图,经由说明性的示例而非限制本发明的范围或精神,来描述本发明,其中:
图1图示了当单位脉冲(Dirac)出现在谐波转置器的分析窗和合成窗中时在特定位置处的单位脉冲;
图2图示了当单位脉冲出现在谐波转置器的分析窗和合成窗中时在不同的位置处的单位脉冲;
图3图示了当单位脉冲将根据本发明出现时针对图2的位置的单位脉冲;
图4图示了HFR增强的音频解码器的操作;
图5图示了使用若干阶的谐波转置器的操作;
图6图示了频域(FD)谐波转置器的操作;
图7示出了分析合成窗的序列;
图8图示了不同步幅的分析窗和合成窗;
图9图示了对窗的合成步幅进行重采样的效果;
图10和图11分别图示了使用本文献中概述的增强的谐波转置方案的编码器和解码器的实施例;以及
图12图示了图10和图11所示的转置单元的实施例。
具体实施方式
下述实施例仅说明改进的谐波转置的本发明的原理。应理解,在此描述的布置和细节的修改和变型对于本领域技术人员将是明显的。因此,旨在仅由所附专利权利要求的范围来进行限制,而不是经由本文中的实施例的描述和说明所提出的具体细节来进行限制。
下面,概述了频域中的谐波转置的原理和本发明教导的所提出的改进。通过保存(preserve)正弦曲线的频率的整数转置因子T,对谐波转置的关键分量进行时间扩展。换言之,谐波转置基于通过因子T对潜在信号进行时间扩展。执行谐波转置从而保持正弦曲线的频率,其中正弦曲线组成输入信号。可使用相位音码器来执行这样的时间扩展。相位音码器基于由具有分析窗va(n)和合成窗vs(n)的加窗的DFT滤波器组提供的频域表示。这样的分析/合成变换也被称为短时傅立叶变换(STFT)。
对时域输入信号执行短时傅立叶变换以获得交叠的谱帧的序列。为了使可能的边带效应(side-band effect)最小化,应当选择适当的分析/合成窗,例如高斯窗、余弦窗、汉明窗、汉宁(Hann)窗、矩形窗、巴特里特(Bartlett)窗、布莱克曼(Blackman)窗等。用以从输入信号中选取每个谱帧的时延被称为跳尺寸或步幅。输入信号的STFT被称为分析阶段,并且导致输入信号的频域表示。频域表示包括多个子带信号,其中各个子带信号表示输入信号的特定的频率分量。
然后,可以以期望的方式来处理输入信号的频域表示。为了对输入信号进行时间扩展的目的,例如通过将子带信号采样延迟,可对各个子带信号进行时间扩展。这可通过使用大于分析跳尺寸的合成跳尺寸来实现。通过对全部帧执行逆(快速)傅立叶变换、继之以对帧进行相继的累积,可重建时域信号。分析阶段的操作被称为交叠相加操作。结果输出信号是输入信号的时间扩展版本,其包括与输入信号相同的频率分量。换言之,结果输出信号具有与输入信号相同的谱组成,但是结果输出信号慢于输入信号,即结果输出信号的序列(progress)在时间上被扩展了。
接着,通过对扩展的信号进行下采样,或以集成的方式,随后获得至更高频率的转置。因此,转置的信号具有初始信号在时间上的长度,但是包括通过预定义的转置因子向上移位的频率分量。
从数学方面,可如下描述相位音码器。以采样率R对输入信号x(t)进行采样以产生离散的输入信号x(n)。在分析阶段期间,在相继值k的特定分析时间常量处为输入信号x(n)确定STFT。优选地,统一通过来选择分析时间常量,其中Δta是分析跳因子或分析步幅。在这些分析时间常量中的每个处,在原始信号x(n)的加窗部分上计算快速傅立叶变换,其中将分析窗va(t)居中在附近,即输入信号x(n)的该加窗的部分被称为帧。结果为输入信号x(n)的STFT表示,其可被表示为:
其中,是STFT分析的第m个子带信号的中心频率,而M是离散傅立叶变换(DFT)的尺寸。实际上,窗函数va(n)具有有限的时间跨度,即窗函数va(n)仅覆盖有限数目的L个样本,该数目通常等于DFT的尺寸M。因此,以上的和具有有限数目的项。子带信号既是时间的函数(经由指数k),也是频率的函数(经由子带中心频率Ωm)。
可以在合成时间常量处执行合成阶段,通常根据来统一分配合成时间常量其中Δts是合成跳因子或合成步幅。在这些合成时间常量中的每个处,通过在合成时间常数处对可与相同的STFT子带信号进行逆傅立叶变换,来获得短时信号。但是,通常对STFT子带信号进行修改,例如进行时间扩展、和/或相位调制、和/或振幅调制,使得分析子带信号不同于合成子带信号在优选实施例中,对STFT子带信号进行相位调制,即对STFT子带信号的相位进行修改。短期合成信号yk(n)可被表示为:
在合成时间常量处,短期信号yk(n)可被视为整体输出信号y(n)的分量,其中整体输出信号y(n)包括m=0,…,M-1的合成子带信号即,短期信号yk(n)是特定信号帧的逆DFT。可通过将在全部的合成时间常量处的、加窗的短时信号yk(n)交叠和相加,来获得整体输出信号y(n)。即,输出信号y(n)可被表示为:
下面,概述频域中的时间扩展的实现。为了描述时间扩展器的方面,合适的起始点是考虑T=1的情况,即转置因子T等于1并且没有发生扩展的情况。假设DFT滤波器组的分析时间步幅Δta和合成时间步幅Δts相等,即Δta=Δts=Δt,分析、继之以合成的组合效果是具有Δt周期函数的振幅调制的效果:
其中,q(n)=va(n)vs(n)是两个窗的逐点乘积(point-wise product),即是分析窗和合成窗的逐点乘积。有利的是,对窗进行选择使得K(n)=1或其它常量值,此后加窗的DFT滤波器组实现完美重建。如果给定分析窗va(n),以及如果分析窗具有相比于步幅Δt来说足够长的持续时间,可通过根据下式选择合成窗来获得完美重建:
对于T>1,即对于转置系数大于1,可通过以步幅执行分析来获得时间扩展,而将合成步幅保持在Δts=Δt。换言之,可通过应用比合成阶段处的跳因子或步幅小T-1倍的分析阶段处的跳因子或步幅,来获得因子T的时间转置。如从以上提供的公式可以看出的,使用比分析步幅大T-1倍的合成步幅会在交叠相加操作中以大T-1倍的时间间隔将短期合成信号yk(n)移位。这最终将导致输出信号y(n)的时间扩展。
应当注意,因子T的时间扩展还可涉及在分析与合成之间的因子T的相位乘法。换言之,因子T的时间扩展涉及子信号的因子T的相位乘法。
下面,概述可如何将上述时间扩展操作转化成谐波转置操作。可通过执行时间扩展的输出信号y(n)的采样率转换,来获得音高比例(pitch-scale)修改或谐波转置。为了执行因子T的谐波转置,可使用上述相位声音编码方法来获得输出信号y(n),该输出信号y(n)是输入信号x(n)的因子T的时间扩展版本。然后,可通过以因子T对输出信号y(n)进行下采样,或通过将采样率从R转换到TR,来获得谐波转置。换言之,不是将输出信号y(n)解释为具有与输入信号x(n)相同的采样率、但具有T倍的持续时间,而是可将输出信号y(n)解释为具有相同的持续时间、但具有T倍的采样率。然后,可将随后的T的下采样解释为使输出采样率等于输入采样率,使得信号最终可被相加。在这些操作期间,当对转置的信号进行下采样时应当小心,使得不发生失真。
当将输入信号x(n)假设为正弦曲线以及假设对称的分析窗va(n)时,对于T的奇数值,基于上述相位音码器的时间扩展的方法将完美地工作,以及该方法将导致具有相同频率的、输入信号x(n)的时间扩展版本。与随后的下采样结合,将获得具有是输入信号x(n)的频率T倍的频率的正弦曲线y(n)。
对于T的偶数值,由于将通过相位乘法以不同的保真度再现分析窗va(n)的频率响应的负值旁瓣(negative valued side lobe),以上概述的时间扩展/谐波转置方法将更近似。负旁瓣通常来自于这样的事实:大多数实际窗(或原型滤波器)具有位于单位圆上的许多离散的零,从而导致180度相位移位。当使用偶数转置因子对相位角进行乘时,取决于所使用的转置因子,通常将相位移位转化成0度(或更确切的,多个360度)。换言之,当使用偶数转置因子时,相位移位成为零。这通常会使转置的输出信号y(n)中的失真增加。当正弦曲线位于对应于分析滤波器的第一旁瓣的顶部的频率中时,会出现特别不利的情形。取决于量值响应中对该旁瓣的拒绝,会在输出信号中或多或少地可听到失真。应当注意,对于偶数因子T,减少整体的步幅Δt通常会以更高的计算复杂度为代价来改进时间扩展器的性能。
在通过引用合并的、名称为“Source coding enhanced using spectralband replication”的EP0940015B1/WO98/57436中,已经描述了关于如何避免在使用偶数转置因子时从谐波转置器显现的失真的方法。被称为相对相位锁定的该方法评估邻近通道之间的相对相位差,并且确定是否在任一通道中使正弦曲线相位倒转。通过使用EP0940015B1的等式(32)来执行检测。在将相位角乘以实际的转置因子之后,对被检测为相位倒转的通道进行校正。
下面,描述用于当使用偶数和/或奇数转置因子T时避免失真的新颖的方法。与EP0940015B1的相对相位锁定方法相反,该方法不需要对相位角进行检测和校正。对以上问题的新颖的解决方案使用彼此不相同的分析变换窗和合成变换窗。在完美重建(PR)情况下,这对应于双正交变换/滤波器组,而不是正交变换/滤波器组。
为了在给定特定分析窗va(n)的情况下获得双正交变换,选择合成窗vs(n)以遵循
其中,c是常量,Δts是合成时间步幅,而L是窗长度。如果将序列s(m)定义为
即,将va(n)=vs(n)既用于分析窗又用于合成窗,则正交变换的条件是
s(m)=c,0≤m<Δts.
但是,在下面引入另一序列w(n),其中,w(n)是对分析窗vs(n)偏离分析窗va(n)多少的度量,即对双正交变换不同于正交情况多少的度量。序列w(n)由下式给出:
则,完美重建的条件由下式给出:
对于可能的解决方案,可将w(n)限制成合成时间步幅Δts的周期,即 则,获得:
0≤m<Δts.
因此,关于合成窗vs(n)的条件为:
通过如上所概述地导出合成窗vs(n),提供了当设计分析窗va(n)时更大得多的自由。该附加的自由可用于设计不会呈现转置的信号的失真的分析窗/合成窗的对。
为了获得抑制偶数转置因子的失真的分析窗/合成窗的对,下面将概述几个实施例。根据第一实施例,使窗或原型滤波器长到足以将频率响应中的第一旁瓣的水平衰减到特定“失真”水平以下。在这种情况下,分析时间步幅Δta将是窗长度L的(小的)小部分。这通常导致例如冲击信号中的瞬变的抹掉。
根据第二实施例,将分析窗va(n)选择成具有单位圆上的双零。由双零导致的相位响应是360度相位移位。不管转置因子是奇数还是偶数,当将相位角乘以转置因子时,保留这些相位移位。当获得适当和平滑的、具有单位圆上的双零的分析滤波器va(n)时,根据以上概述的等式获得合成窗。
在第二实施例的示例中,分析滤波器/窗va(n)是“平方正弦窗”,即正弦窗
与其自身交织为但是,应当注意,结果的滤波器/窗va(n)将与长度La=2L-1,即滤波器/窗系数的奇数数目成奇对称。当具有偶数长度的滤波器/窗、特别是偶对称滤波器更适合时,该滤波器可通过首先将长度L的两个正弦窗交织来获得。然后,将零追加到结果的滤波器的结尾。随后,使用对长度L的偶对称滤波器的线性插值,来对仍仅具有单位圆上的双零的2L长滤波器进行重采样。
总的来说,已经概述了,可如何选择分析窗和合成窗的对,使得可避免或显著地减少转置的信号中的失真。当使用偶数转置因子时,该方法是特别相关的。
在基于音码器的谐波转置器的上下文中考虑的另一方面是相位展开。应当注意的是,尽管关于通用目的的相位音码器中的相位展开问题不得不非常小心,但是当使用整数转置因子T时谐波转置器具有明确定义的相位操作。因此,在优选实施例中,转置阶T为整数值。否则,可应用相位展开技术,其中,相位展开是使用两个相继帧之间的相位增量来估计每个通道中的邻近的正弦曲线的即时频率的处理。
当处理音频和/或语音信号的转置时考虑的又一方面是稳态信号部分和/或瞬时信号部分的处理。通常,为了能对稳态音频信号进行转置而没有相互调制伪像(intermodulation artifact),DFT滤波器组的频率分辨率不得不相当高,所以与输入信号x(n)、特别是音频信号和/或语音信号中的瞬变相比,窗是长的。因此,转置器具有差的瞬变响应。但是,如以下将描述的,该问题可通过对窗设计、变换尺寸和时间步幅参数的修改来解决。因此,不同于相位音码器响应增强的许多现有方法,提出的解决方案不依赖于诸如瞬变检测的任何信号自适应操作。
下面,概述使用音码器的瞬变信号的谐波转置。作为起始点,考虑原型瞬变信号、在时间常量t=t0处的离散时间单位脉冲:
这样的单位脉冲的傅立叶变换具有单位量值和线性相位,该线性相位具有与t0成比例的斜率:
可将这样的傅立叶变换认为是上述相位音码器的分析阶段,其中,使用无限持续时间的平的分析窗va(n)。为了生成通过因子T进行时间扩展的输出信号y(n),即在时间常量t=t0处的单位脉冲δ(t-Tt0),应当将分析子带信号的相位乘以因子T以获得合成子带信号Y(Ωm)=exp(-jΩmTt0),该合成子带信号Y(Ωm)=exp(-jΩmTt0)产生期望的单位脉冲δ(t-Tt0)作为逆傅立叶变换的输出。
这示出了将分析子带信号与因子T进行相位乘法的操作导致单位脉冲、即瞬变输入信号的期望的时间移位。应当注意,对于包括多于一个非零样本的更实际的瞬变信号,应当执行通过因子T对分析子带信号进行时间扩展的另外操作。换言之,应当在分析侧和合成侧使用不同的跳尺寸。
但是,应当注意,以上的考虑指的是使用无限长度的分析窗和合成窗的分析阶段/合成阶段。实际上,具有无限持续时间的窗的理论转置器将给出单位脉冲δ(t-t0)的正确扩展。对于有限持续时间的加窗的分析,该情形被这样的事实扰乱:每个分析块要被解释为具有等于DFT的尺寸的周期信号的一个周期时间间隔。
这在图1中被图示,图1示出单位脉冲δ(t-t0)的分析和合成。图1的上部分示出了到分析阶段110的输入,而图1的下部分示出了合成阶段120的输出。上部图和下部图表示时域。程式化的分析窗111和合成窗121被图示为三角形(巴特利特)窗。时间常量t=t0处的输入脉冲δ(t-t0)112在上部图110上被图示为垂直箭头。假设,DFT变换块具有尺寸M=L,即将DFT变换的尺寸选择成等于窗的尺寸。子带信号与因子T的相位乘法将产生单位脉冲δ(t-Tt0)在t=Tt0处的DFT分析,但是,被周期划分成具有周期L的单位脉冲序列。这是由于所应用的窗和傅立叶变换的有限长度。以下部图上的虚线箭头123、124来图示具有周期L的周期划分的脉冲序列。
在分析窗和合成窗均具有有限长度的真实世界的系统中,脉冲序列实际上仅包含一些脉冲(取决于转置因子):一个主脉冲、即想要的项,一些前脉冲和一些后脉冲、即不想要的项。因为DFT是周期的(具有L),所以显现前脉冲和后脉冲。当脉冲位于分析窗以内时,使得复合相位当被乘以T时变成包装的(wrap)(即,脉冲被移位到窗的结尾以外,以及包装回到开头),显现不想要的脉冲。取决于在分析窗中的位置和转置因子,不想要的脉冲可具有、或不具有与输入脉冲相同的极性。
当使用具有在t=0附近居中的长度L的DFT来对位于区间-L/2≤t0<L/2中的单位脉冲δ(t-t0)进行变换时,这可从数学上看出:
将分析子带信号与因子T进行相位乘法,以获得合成子带信号Y(Ωm)=exp(-jΩmTt0)。接着,应用逆DFT来获得周期合成信号:
即,具有周期L的单位脉冲序列。
在图1的示例中,合成窗使用有限窗vs(n)121。有限合成窗121选取如实箭头122所图示的、在t=Tt0处的期望脉冲δ(t-Tt0),并且取消如虚箭头123、124所示的其它成分。
当分析阶段和合成阶段根据跳因子或时间步幅Δt沿时间轴移动时,脉冲δ(t-t0)将具有相对于相应分析窗111的中心的另一位置。如以上所概述的,实现时间扩展的操作在于将脉冲112移动到其相对于窗中心的位置的T倍处。只要该位置在窗121以内,该时间扩展操作就保证全部成分总计为在t=Tt0处的单个时间扩展的合成脉冲δ(t-Tt0)。
但是,对于图2的情形,脉冲δ(t-t0)212进一步朝DFT块的边缘移动到外部,问题出现了。图2图示了与图1类似的分析/合成配置200。上部图210示出了到分析阶段和分析窗211的输入,而下部图220图示了合成阶段和合成窗221的输出。当通过因子T对输入单位脉冲212进行时间扩展时,时间扩展的单位脉冲222、即δ(t-Tt0)在合成窗221以外。同时,合成窗选取脉冲序列的另一单位脉冲224,即在时间常量t=Tt0-L处的δ(t-Tt0+L)。换言之,输入单位脉冲212不是被延迟到晚T-1倍时间常量,而是向前移动到位于输入单位脉冲212之前的时间常量处。对音频信号的最终影响是在相当长的转置器窗的标度的时间距离处,即在比输入单位脉冲212早L-(T-1)t0的时间常量t=Tt0-L处发生前回声,
参考图3描述由本发明提出的解决方案的原理。图3图示了与图2类似的分析/合成情形300。上部图310示出了到具有分析窗311的分析阶段的输入,而下部图320示出了具有合成窗321的合成阶段的输出。本发明的基本构思是使DFT尺寸自适应,从而避免前回声。这可通过以下方式来实现:设置DFT的尺寸M,使得合成窗不选取来自结果脉冲序列的、不想要的单位脉冲图像。将DFT变换301的尺寸增加到M=FL,其中L是窗函数302的长度,而因子F是频域过采样因子。换言之,将DFT变换301的尺寸选择成大于窗尺寸302。特别地,可将DFT变换301的尺寸选择成大于合成窗的窗尺寸302。由于DFT变换的增加的长度301,包括单位脉冲322、324的脉冲序列的周期是FL。通过选择F的足够大的值,即通过选择足够大的频域过采样因子,可取消脉冲扩展的不想要的成分。这在图3中被示出,其中在时间常量t=Tt0-FL处的单位脉冲324位于合成窗321以外。所以,单位脉冲324不被合成窗321选取,因此可避免前回声。
应当注意,在优选实施例中,合成窗和分析窗具有相等的“名义上的”长度。但是,取决于重采样或转置因子,当通过在变换或滤波器组的频带中丢弃或插入样本来使用对输出信号的隐含重采样时,合成窗尺寸通常将不同于分析尺寸。
可从图3导出F的最小值,即最小的频域过采样因子。可如下地将不选取不想要的单位脉冲图像的条件公式化为:对于在位置处的任何输入脉冲δ(t-t0),即对于包括在分析窗311以内的任意输入脉冲,在时间常量t=Tt0-FL处的不想要的图像δ(t-Tt0+FL)必须位于在处的合成窗的左边缘的左边。等价地,必须满足条件其导致规则:
如可从公式(3)所看出的,最小的频域过采样因子F是转置/时间扩展因子T的函数。更具体地,最小的频域过采样因子F与转置/时间扩展因子T成比例。
通过针对分析窗和合成窗具有不同长度的情况重复以上思想的路线,获得更通用的公式。分别用LA和LS表示分析窗的长度和合成窗的长度,并且用M表示所采用的DFT尺寸。则,对公式(3)进行延伸的规则为:
可通过将M=FL、和LA=LS=L插入到(4)中、以及在结果等式的两边除以L,来验证该规则实际上是(3)的延伸。针对相当特殊的瞬变模型、即单位脉冲,来执行以上分析。但是,可将该推理延伸到示出:当使用上述时间扩展方案时,具有接近于平的谱包络和在时间区间[a,b]以外变成零的输入信号将被扩展成在区间[Ta,Tb]以外是小的输出信号。其也可通过以下方式而被检查:研究当遵守用于选择适当的频域过采样因子的上述规则时、前回声在扩展的信号中消失的真实音频和/或语音信号的声谱图。更多数量的分析还揭示:当使用稍微劣于由公式(3)的条件施加的值的频域过采样因子时,仍然减少前回声。这是由于以下事实:典型的窗函数vs(n)在其边缘附近是小的,从而衰减位于窗函数的边缘附近的不想要的前回声。
总之,本发明通过引入过采样的变换,教导了改进频域谐波转置器、或时间扩展器的瞬变响应的新方法,其中,过采样的数量是所选择的转置因子的函数。
下面,更详细地描述根据本发明的谐波转置在音频解码器中的应用。谐波转置器的通常使用情形是在采用所谓的带宽延伸或高频再生(HFR)的音频/语音编解码器系统中。应当注意,尽管可参考音频编码,但是所描述的方法和系统可等同地应用于语音编码和应用在统一的语音和音频编码(USAC)中。
在这样的HFR系统中,可使用转置器从由所谓的核心解码器提供的低频信号分量来生成高频信号分量。可基于比特流中传达的边信息在时间上和频率上对高频分量的包络进行整形。
图4图示了HFR增强的音频解码器的操作。核心音频解码器401输出低带宽的音频信号,该低带宽的音频信号被馈送到可能需要用以按照期望的全采样率产生最终音频输出成分(contribution)的上采样器404。对于双比率系统需要这种上采样,其中,在以全采样频率处理HFR部分的同时,带限的核心音频编解码器以外部音频采样率的一半进行操作。因此,对于单比率系统,省略该上采样器404。401的低带宽输出还被发送到用于输出转置的信号(即包括期望的高频范围的信号)的转置器或转置单元402。包络调整器403在时间和频率上可以对该转置的信号进行整形。最终音频输出是低带宽的核心信号与包络调整的转置的信号之和。
如在图4的上下文中概述的,可在转置单元402中以因子2对核心解码器的输出信号进行上采样,以作为预处理步骤。在时间扩展的情况下,因子T的转置导致具有未转置的信号的长度T倍的信号。为了实现到高T-1倍频率的期望的音高移位(pitch shifting)或频率转置,随后执行时间扩展的信号的下采样或比率转换。如以上所提及的,该操作可通过在相位音码器中使用不同的分析步幅和合成步幅来实现。
可以以不同的方式来获得整体的转置阶。如上所指出的,第一可能性是在转置器的入口处以因子2对译码器输出信号进行上采样。在这样的情况下,为了获得以因子T进行频率转置的期望的输出信号,将需要以因子T对时间扩展的信号进行下采样。第二可能性将是省略预处理步骤,并且直接对核心解码器输出信号执行时间扩展操作。在这样的情况下,必须以因子T/2对转置的信号进行下采样,以保留全局的上采样因子2并且实现因子T的频率转置。换言之,当执行T/2而不是T的转置器402的输出信号的下采样时,可省略核心解码器信号的上采样。但是,应当指出,在将核心信号与转置的信号组合之前,仍然需要对核心信号进行上采样。
还应当注意,为了生成高频分量,转置器402可使用若干不同的整数转置因子。这在图5中被示出,图5图示了与图4的转置器402对应的谐波转置器501的操作,谐波转置器501包括不同转置阶或转置因子T的若干转置器。待转置的信号传递到分别具有转置阶T=2、3、…、Tmax的单独转置器501-2、501-3、…、501-Tmax的组。通常,转置阶Tmax=4对于大多数音频编码应用是足够的。在502中对不同转置器501-2、501-3、…、501-Tmax的成分求和,以得到组合的转置器输出。在第一实施例中,该求和操作可以包括将各个成分加到一起。在另一实施例中,利用不同权重将成分加权以使得减轻将多个成分加到特定频率上的效果。例如,第三阶成分可以与比第二阶成分更低的增益相加。最后,求和单元502可以根据输出频率有选择地将成分相加。例如,第二阶转置可被用于第一较低目标频率范围,而第三阶转置可被用于第二较高目标频率范围。
图6图示了谐波转置器(例如501的单独块之一,即转置阶T的转置器501-T之一)的操作。分析步幅单元601选择要被转置的输入信号的相继帧。在分析窗单元602中将这些帧与分析窗进行超级叠加(super-impose),例如相乘。应当指出,例如通过使用以分析步幅沿输入信号移位的窗函数,可在唯一的步骤中执行选择输入信号的帧和将输入信号的样本与分析窗函数相乘的操作。在分析变换单元603中,将输入信号的加窗的帧变换到频域。分析变换单元603例如可执行DFT。将DFT的尺寸选择为比分析窗的尺寸L大F-1倍,从而生成M=F*L个复数频域系数。例如通过将这些复数系数的相位与转置因子T相乘,在非线性处理单元604中改变这些复数系数。复数频域系数的序列,即输入信号的帧序列的复数系数可被视为子带信号。分析步幅单元601、分析窗单元602和分析变换单元603的组合可被视为组合的分析阶段或分析滤波器组。
使用合成变换单元605将改变的系数或改变的子带信号重变换到时域。对于改变的复数系数的每个集合,这产生改变的样本的帧,即M个改变的样本的集合。使用合成窗单元606,可从改变的样本的每个集合中提取L个样本,从而产生输出信号的帧。总的来说,针对输入信号的帧的序列,可生成输出信号的帧的序列。在合成步幅单元607中,以合成步幅将帧的序列相对于彼此进行移位。合成步幅可比分析步幅大T-1倍。在交叠相加单元608中生成输出信号,其中,将输出信号的移位的帧交叠,以及将在相同时间常量处的样本相加。通过遍历以上系统,可以通过因子T对输入信号进行时间扩展,即输出信号可为输入信号的时间扩展的版本。
最后,可使用收缩单元609在时间上对输出信号进行收缩。收缩单元69可执行阶T的采样率转换,即其可以通过因子T来增加输出信号的采样率,同时保持样本的数目不变。这产生转置的输出信号,其具有与输入信号在时间上相同的长度,但包括相对于输入信号通过因子T进行上移位的频率分量。组合单元609还可以通过因子T执行下采样操作,即其可仅保留每第T个样本,同时丢弃其它样本。该下采样操作还可以伴随以低通滤波器操作。如果整体的采样率保持不变,则转置的输出信号包括相对于输入信号的频率分量通过因子T进行上移位的频率分量。
应当指出,收缩单元609可执行比率转换和下采样的组合。例如,可以通过因子2来增加采样率。同时,可以通过因子T/2对信号进行下采样。总的来说,比率转换和下采样的这样的组合还导致的通过因子T对输入信号进行谐波转置的输出信号。一般,可声明的是,为了产生转置阶T的谐波转置,收缩单元609执行比率转换和/或下采样的组合。当执行核心音频解码器401的低带宽的输出的谐波转置时,这是特别有用的。如以上所概述的,可已经在编码器处通过因子2对这样的低带宽输出进行了下采样,所以可在将其与重建的高频分量合并之前要求在上采样单元404中进行上采样。无论如何,可有利的是,减少使用“非上采样的”低带宽输出在转置单元402中执行谐波转置的计算复杂度。在这样的情况下,转置单元402的收缩单元609可执行阶2的比率转换,从而明确地执行对高频分量的所要求的上采样操作。因此,通过因子T/2在收缩单元609中对阶T的转置的输出信号进行下采样。
在诸如图5所示的不同转置阶的多个并行转置器的情况下,可在不同的转置器501-2、501-3、…、501-Tmax之间共享某些转置或滤波器组操作。为了获得转置单元402的更有效的实现,可针对分析完美地完成滤波器组操作的共享。应当注意,对来自不同转置器的输出进行重采样的优选方法是在合成阶段之前丢弃DFT区段或子带通道。以这种方式,当执行更小尺寸的逆DFT/合成滤波器组时,可省略重采样滤波器,以及可减少复杂度。
正如所提及的,分析窗对于不同转置因子的信号来说可以是共同的。当使用共同的分析窗时,图7中图示了应用于低带信号的窗700的步幅的示例。图7示出了分析窗701、702、703和704的步幅,其以分析跳因子或分析时间步幅Δta相对于彼此而移位。
图8(a)图示了应用于低带信号,例如核心解码器的输出信号的窗的步幅的示例。用Δta表示针对每个分析变换用以移动长度L的分析窗的步幅。每个这样的分析变换和输入信号的加窗的部分也被称为帧。分析变换将输入样本的帧转换/变换成复数FFT系数的集合。在分析变换之后,可将复数FFT系数从笛卡尔坐标变换到极坐标。随后帧的FFT系数的组构成了分析子带信号。对于使用的转置因子T=2、3、…、Tmax中的每个,将FFT系数的相位角乘以相应的转置因子T,以及将其变换回到笛卡尔坐标。因此,针对每个转置因子T,将存在表示特定帧的复数FFT系数的不同集合。换言之,对于转置因子T=2、3、…、Tmax中的每个,以及对于每个帧,确定FFT系数的分别的集合。因此,对于每个转置阶T,生成合成子带信号的不同集合。
在合成阶段中,将合成窗的合成步幅Δts确定为各个转置器中使用的转置阶T的函数。如以上所概述的,时间扩展操作还涉及子带信号的时间扩展,即帧的组的时间扩展。该操作可通过选择以因子T在分析步幅Δta上增加的合成跳因子或合成步幅Δts来执行。因此,阶T的转置器的合成步幅ΔtsT由ΔtsT=TΔta来给出。图8(b)和图8(c)分别示出了转置因子T=2和T=3的合成窗的合成步幅ΔtsT,其中,Δts2=2Δta,而Δts3=3Δta。
图8还指示参考时间tr,其中,与图8(a)相比,已经分别以图8(b)和图8(c)中的因子T=2和T=3对该参考时间tr进行了“扩展”。但是,在输出处,该参考时间tr需要针对两个转置因子进行对齐。为了对齐输出,需要通过因子3/2对第三阶转置的信号、即图8(c)进行下采样或比率转换。该下采样导致相对于第二阶转置的信号的谐波转置。图9图示了对T=3的窗的合成步幅进行下采样的效果。如果假设分析的信号是核心解码器的没有被上采样的输出信号,则已经通过因子2有效地对图8(b)的信号进行了频率转置,以及已经通过因子3有效地对图8(c)的信号进行了频率转置。
下面,提出了当使用共同的分析窗时对不同转置因子的转置的序列进行时间对齐的方面。换言之,提出了对采用不同的转置阶的频率转置器的输出信号进行对齐的方面。当使用以上概述的方法时,对单位脉冲函数δ(t-t0)进行时间扩展,即以由应用的转置因子T给出的时间的数量、沿时间轴移动单位脉冲函数δ(t-t0)。为了将时间扩展操作转换成频移操作,执行使用相同转置因子T的抽取或下采样。如果对时间扩展的单位脉冲函数δ(t-t0)执行转置因子或转置阶T的抽取,则下采样的单位脉冲将在第一分析窗701的中间、相对于零参考时间710被时间对齐。这在图7中被图示了。
但是,当使用转置T的不同阶时,抽取将导致针对零参考的不同偏移,除非将零参考与输入信号的“零”时间对齐。因此,在抽取的转置的信号可在求和单元502中被加在一起之前,需要执行对抽取的转置的信号的时间偏移调整。作为示例,假设阶T=3的第一转置器和阶T=4的第二转置器。另外,假设不对核心解码器的输出信号进行上采样。接着,转置器通过因子3/2对第三阶时间扩展的信号进行抽取,以及通过因子2对第四阶时间扩展的信号进行抽取。第二阶时间扩展的信号,即T=2,将刚好被解释为具有与输入信号相比的更高的采样频率,即高因子2的采样频率,从而有效地使输出信号以因子2被音高移位。
可示出的是,为了对转置的和下采样的信号进行对齐,在抽取之前需要将的时间偏移应用于转置的信号,即对于第三阶转置和第四阶转置,不得不分别应用和的偏移。为了在具体的示例中验证这个,将把针对第二阶时间扩展的信号的零参考假设成对应于时间常量或采样即图7中的零参考710。因为未使用抽取,所以是这样。对于第三阶时间扩展的信号,由于3/2的因子的下采样,参考将转化成如果在抽取之前将根据以上提及的规则的时间偏移相加,则参考将转化成这意味着将下采样的转置的信号的参考与零参考710对齐。以类似的方式,对于没有偏移的第四阶转置,零参考对应于但是当使用所提出的偏移时,参考转化成其再次与第二阶零参考710对齐,即使用T=2的转置的信号的零参考。
当同时使用转置的多个阶时要考虑的另一方面涉及应用于不同的转置因子的转置的序列的增益。换言之,可提出对不同转置阶的转置器的输出信号进行组合的方面。当选择转置信号的增益时,存在可在不同的理论方法中被考虑的两个原则。或者,将转置的信号假设成是能量保存的,意味着保存这样的低带信号中的全部能量:这样的低带信号随后被转置成组成因子T的转置的高带信号。在这种情况下,由于以频率中的相同量T对信号进行扩展,所以应当通过转置因子T减少每个带宽的能量。但是,正弦曲线将在转置之后保留其能量,其中,正弦曲线具有其在无穷小地小的带宽之内的能量。这是由于这样的事实:以与当进行时间扩展时由转置器在时间上移动单位脉冲的方式相同的方式,即以与时间扩展操作不改变脉冲的时间上的持续的方式相同的方式,当进行转置时在频率上移动正弦曲线,即频率转置操作不改变频率上的持续(换言之,带宽)。即,即使通过T减少每个带宽的能量,但是正弦曲线在频率上的一个点中具有其全部的能量,从而将保存逐点能量(point wise energy)。
在选择转置的信号的增益时的另一选项是在转置之后保持每个带宽的能量。在这种情况下,宽带白噪音和瞬变在转置之后将显示平的频率响应,同时将通过因子T增加正弦曲线的能量。
本发明的另一方面是当使用共同的分析窗时对分析相位音码器窗和合成相位音码器窗的选择。有利的是,仔细地选择分析相位音码器窗和合成相位音码器窗,即va(n)和vs(n)。为了允许完美重建,不仅仅合成窗vs(n)应当遵守以上的公式2。另外,分析窗va(n)还应当具有对旁瓣水平的充分的拒绝。否则,不想要的“失真”项通常将可被听见为与频率改变的正弦曲线的主要项相干扰。在如上所提及的偶数转置因子的情况下,对于稳态的正弦曲线,也可出现这样的不想要的“失真”。由于正弦窗的良好的旁瓣拒绝率,本发明提出了对正弦窗的使用。因此,分析窗被提出为:
如果合成跳尺寸Δts不是分析窗长度L的因子,即如果分析窗长度L不是可被合成跳尺寸整除的,则合成窗vs(n)或者与分析窗va(n)相同,或者由以上的公式(2)给出。例如,如果L=1024,而Δts=384,则1024/384=2.66不是整数。应当注意,还可能的是,如上所概述地选择双正交的分析窗和合成窗的对。尤其当使用偶数转置阶T时,这对减少输出信号中的失真可以是有利的。
以下,参照图10和图11,它们分别图示了统一的语音和音频编码(USAC)的示例性编码器1000和示例性解码器1100。如下描述USAC编码器1000和解码器1100的常见结构:首先,可以存在包括MPEG环绕(MPEGS)功能单元和增强的SBR(eSBR)单元1001和1101的常见预/后处理,其中,MPEG环绕(MPEGS)功能单元进行立体声或多通道处理,而增强的SBR(eSBR)单元1001和1101分别处理输入信号中的较高音频频率的参数表示并且可以使用本文献中概述的谐波转置方法。然后,存在两个分支,一个包括改进高级音频编码(AAC)工具路径,而另一个包括基于线性预测编码(LP或LPC域)的路径,其进而具有LPC残差的频域表示或时域表示的特征。在遵循量化和算术编码的MDCT域中可以表示用于AAC和LPC两者的所有发送的谱。时域表示使用ACELP激励编码方案。
编码器1000的增强的谱带复制(eSBR)单元1001可以包括本文献中概述的高频重建系统。在一些实施例中,eSBR单元1001可以包括在图4、图5和图6的上下文中概述的转置单元。可在编码器1000中导出与谐波转置有关的编码数据,例如所使用的转置的阶、所需要的频域过采样的数量、或所采用的增益;以及可在比特流复用器中将与谐波转置有关的编码数据与其它编码的信息合并,并作为编码的音频流转发到对应的解码器1100。
图11所示的解码器1100还包括增强的谱带宽复制(eSBR)单元1101。该eSBR单元1101从编码器1000接收编码的音频比特流或编码的信号,并且使用本文献中概述的方法生成信号的高频分量或信号的高带,该高频分量或信号的高带与解码的低频分量或低带合并,以得到解码的信号。eSBR单元1101可以包括本文献中概述的不同部件。具体地说,它可以包括在图4、图5和图6的上下文中概述的转置单元。eSBR单元1101可以使用关于由编码器1000经由比特流提供的高频分量的信息来执行高频重建。该信息可以是用以生成合成子带信号并最终生成解码的信号的高频分量的原始高频分量的谱包络、以及所使用的转置的阶、所需要的频域过采样的数量、或所采用的增益。
此外,图10和图11图示了USAC编码器/解码器的可能的附加部件,例如:
●比特流有效载荷解复用器工具,其将比特流有效载荷分离为用于每一工具的部分,并且向工具中的每一个提供与该工具有关的比特流有效载荷信息;
●定标因子无噪解码工具,其从比特流有效载荷解复用器取得信息,解析该信息,并且对霍夫曼和DPCM编码的定标因子进行解码;
●谱无噪解码工具,其从比特流有效载荷解复用器取得信息,解析该信息,对算术编码的数据进行解码,并且重建量化的谱;
●逆量化器工具,其取得谱的量化的值,并且将整数值转换为非定标的、重建的谱;该量化器优选地是压扩量化器,其压扩因子取决于选取的核心编码模式;
●噪声填充工具,其被用于填充解码谱中的谱隙,这在例如由于编码器中对比特需求的强限制而使谱值被量化为零时发生;
●再定标工具,其将定标因子的整数表示转换为实际值,并且使未定标的逆量化的谱乘以有关的定标因子;
●M/S工具,如ISO/IEC 14496-3中所描述的;
●时间噪声整形(TNS)工具,如ISO/IEC 14496-3中所描述的;
●滤波器组/块切换工具,其应用编码器中执行的频率映射的逆;逆改进离散余弦变换(IMDCT)优选地用于滤波器组工具;
●时间弯曲滤波器组/块切换工具,其当使时间弯曲模式激活时替换正常滤波器组/块切换工具;优选地,该滤波器组与正常滤波器组相同(IMDCT),此外,加窗的时域采样通过时变重采样从弯曲的时域映射到线性时域;
●MPEG环绕(MPEGS)工具,其通过将复杂上混频过程应用于通过合适的空间参数控制的输入信号而从一个或更多个输入信号产生多个信号;在USAC的上下文下,MPEGS优选地用于通过与发送的下混频信号并排地发送参数边信息而对多信道信号进行编码;
●信号分类器工具,其分析原始输入信号,并且从其生成触发不同编码模式的选择的控制信息;输入信号的分析典型地是依赖于实现的,并且将尝试针对给定输入信号帧选取最佳核心编码模式;信号分类器的输出还可以可选地用于影响其它工具(例如MPEG环绕、增强的SBR、时间弯曲滤波器组等)的行为;
●LPC滤波器工具,其通过经由线性预测合成滤波器对重建的激励信号进行滤波而从激励域信号产生时域信号;以及
●ACELP工具,其提供用于将通过长时预测器(自适应码字)与类似脉冲的序列(创新码字)组合而高效地表示时域激励信号的方式。
图12图示了图10和图11所示的eSBR单元的实施例。下面,将在解码器的上下文下描述eSBR单元1200,其中,至eSBR单元1200的输入是信号的低频分量(也称为低带)。
在图12中,低频分量1213被馈送到QMF滤波器组,以生成QMF频带。不会将这些QMF频带与本文献中概述的分析子带弄错。使用QMF频带,目的是操纵并且合并频域而非时域中的信号的低频分量和高频分量。低频分量1214被馈送到转置单元1204,转置单元1204与用于本文献中概述的高频重建的系统对应。转置单元1204生成信号的高频分量1212(也称为高带),其通过QMF滤波器组1203变换到频域。QMF变换的低频分量和QMF变换的高频分量两者被馈送到操纵和合并单元1205。该单元1205可以执行高频分量的包络调整,并且将调整的高频分量和低频分量组合。通过逆QMF滤波器组1201将组合的输出信号重变换到时域。
典型地,QMF滤波器组1202包括32个QMF频带。在这样的情况下,低频分量3013具有fs/4的带宽,其中,fs/2是信号1213的采样频率。高频分量1212通常具有fs/2的带宽,以及可通过包括64个QMF频带的QMF组1203对高频分量1212进行滤波。
在本文献中,已经概述了谐波转置的方法。该谐波转置的方法特别好地适合于对瞬变信号的转置。该方法包括将频域过采样与使用音码器的谐波转置组合。转置操作取决于分析窗、分析窗步幅、变换尺寸、合成窗、合成窗步幅、以及对分析的信号的相位调整的组合。通过使用该方法,可避免不期望的影响,例如前回声和后回声。另外,该方法不使用信号分析措施,例如瞬变检测;由于信号处理中的不连续性,信号分析措施通常引入信号失真。另外,所提出的方法仅仅已经减少了计算复杂度。可通过适当地选择分析/合成窗、增益值和/或时间对齐,来进一步改进根据本发明的谐波转置方法。
Claims (41)
1.一种用于使用转置因子T从输入信号(312)生成输出信号的系统,包括:
-分析窗单元(602),其应用长度La的分析窗(311),从而提取所述输入信号(312)的帧;
-M阶(301)的分析变换单元(603),其将所述样本变换成M个复数系数;
-非线性处理单元(604),其通过使用所述转置因子T来改变所述复数系数的相位;
-M阶的合成变换单元(605),其将所述改变的系数变换成M个改变的样本;以及
-合成窗单元(606),其将长度Ls的合成窗(321)应用于所述M个改变的样本,从而生成所述输出信号的帧;
其中,M基于所述转置因子T。
2.如权利要求1所述的系统,其中,M与所述分析窗(311)和所述合成窗(321)的平均长度之间的差与(T-1)成比例。
3.如权利要求2所述的系统,其中,M大于或等于(TLa+Ls)/2。
4.如任一项前述权利要求所述的系统,其中,
-所述分析变换单元(603)执行傅立叶变换、快速傅立叶变换、离散傅立叶变换、小波变换之一;以及
-所述合成变换单元(605)执行对应的逆变换。
5.如任一项前述权利要求所述的系统,还包括:
-分析步幅单元(601),其沿所述输入信号以Sa个样本的分析步幅将所述分析窗移位,从而生成所述输入信号的帧的序列;
-合成步幅单元(607),其以Ss个样本的合成步幅将所述输出信号的相继帧移位;以及
-交叠相加单元(608),其将所述输出信号的相继的移位帧交叠和相加,从而生成所述输出信号。
6.如权利要求5所述的系统,其中,
-所述合成步幅是所述分析步幅的T倍;以及
-通过所述转置因子T进行时间扩展,所述输出信号对应于所述输入信号。
7.如任一项前述权利要求所述的系统,其中,从所述分析窗和所述分析步幅导出所述合成窗。
8.如权利要求7所述的系统,其中,所述合成窗由以下公式给出: 其中,
-vs(n)是所述合成窗;
-va(n)是所述分析窗;以及
-Δt是所述分析步幅。
9.如任一项前述权利要求所述的系统,其中,所述分析窗和/或所述合成窗为以下之一:
-高斯窗;
-余弦窗;
-汉明窗;
-汉宁窗;
-矩形窗;
-巴特里特窗;
-布莱克曼窗;
-具有函数 的窗,其中,L为所述分析窗的长度La和/或所述合成窗的长度Ls。
10.如权利要求5所述的系统,还包括收缩单元(609),
-其通过所述转置阶T来增加所述输出信号的采样率;和/或
-其在保持所述采样率不变的同时,通过所述转置阶T来对所述输出信号进行下采样;
从而产生转置的输出信号。
11.如权利要求10所述的系统,其中,
-所述合成步幅是所述分析步幅的T倍;以及
-通过所述转置因子T进行频移,转置的输出信号对应于所述输入信号。
12.如权利要求1所述的系统,其中,所述相位的改变包括将所述相位乘以所述转置因子T。
13.如权利要求10所述的系统,还包括:
-第二非线性处理单元(604),其通过使用第二转置因子T2来改变所述复数系数的所述相位,从而产生第二输出信号的帧;以及
-第二合成步幅单元(607),其通过第二合成步幅将所述第二输出信号的相继帧移位,从而在所述交叠相加单元(608)中生成所述第二输出信号。
14.如权利要求13所述的系统,还包括:
-第二收缩单元(609),其使用所述第二转置阶T2,从而产生第二转置的输出信号;以及
-组合单元(502),其合并所述第一转置的输出信号和所述第二转置的输出信号。
15.如权利要求14所述的系统,其中,所述第一转置的输出信号和所述第二转置的输出信号的合并包括将所述第一转置的输出信号的样本和所述第二转置的输出信号的样本相加。
16.如权利要求14所述的系统,其中,
-所述组合单元(502)在合并之前对所述第一转置的输出信号和所述第二转置的输出信号进行加权;以及
-执行加权,使得所述第一转置的输出信号的能量或每带宽能量、以及所述第二转置的输出信号的能量或每带宽能量分别对应于所述输入信号的能量或每带宽能量。
17.如权利要求14所述的系统,还包括:
-对齐单元,其在进入所述组合单元之前对所述第一转置的输出信号和所述第二转置的输出信号进行时间偏移。
18.如权利要求17所述的系统,其中,所述时间偏移是所述转置阶T和/或所述窗口的长度L的函数,其中L=La=Ls。
19.如权利要求18所述的系统,其中,所述时间偏移被确定为
20.如任一项前述权利要求所述的系统,其中,所述分析窗(311)和所述合成窗(321)彼此不同以及相对于彼此而双正交。
21.如权利要求20所述的系统,其中,所述分析窗(311)的z变换具有单位圆上的双零。
22.一种用于使用转置因子T从输入信号(312)生成输出信号的系统,包括:
-分析窗单元(602),其应用长度L的分析窗(311),从而提取所述输入信号(312)的帧;
-M阶(301)的分析变换单元(603),其将所述样本变换成M个复数系数;
-非线性处理单元(604),其通过使用所述转置因子T来改变所述复数系数的相位;
-M阶的合成变换单元(605),其将所述改变的系数变换成M个改变的样本;以及
-合成窗单元(606),其将长度L的合成窗(321)应用于所述M个改变的样本,从而生成所述输出信号的帧;
其中,所述分析窗(311)和所述合成窗(321)彼此不同以及相对于彼此而双正交。
23.一种用于解码所接收的包括音频信号的多媒体信号的系统,所述系统包括根据权利要求1至22中任一项所述的转置单元(402),其中,所述输入信号是所述音频信号的低频分量,而所述输出信号是所述音频信号的高频分量。
24.如权利要求23所述的系统,还包括用于解码所述音频信号的所述低频分量的核心解码器(401)。
25.如权利要求24所述的系统,其中,所述核心解码器(401)基于杜比E、杜比数字、AAC之一的编码方案。
26.一种用于解码所接收的包括音频信号的多媒体信号的机顶盒,所述机顶盒包括根据权利要求1至22中任一项所述的转置单元(402),所述转置单元(402)用于从所述音频信号生成转置的输出信号。
27.一种用于通过转置因子T对输入信号(312)进行转置的方法,包括步骤:
-使用长度La的分析窗(311),来提取所述输入信号(312)的样本的帧;
-将所述输入信号的所述帧从时域变换到频域以产生M个复数系数;
-利用所述转置因子T来改变所述复数系数的相位;
-将所述M个改变的复数系数变换到时域以产生M个改变的样本;以及
-使用长度Ls的合成窗(321),来生成输出信号的帧;
其中,M基于所述转置因子T。
28.如权利要求27所述的方法,还包括步骤:
-沿所述输入信号以Sa个样本的分析步幅将所述分析窗移位,从而产生所述输入信号的帧的序列;
-以Ss个样本的合成步幅将所述输出信号的相继帧移位;以及
-将所述输出信号的相继的移位帧交叠和相加,从而生成所述输出信号。
29.如权利要求28所述的方法,其中,所述合成步幅是所述分析步幅的T倍。
30.如权利要求29所述的方法,还包括步骤:
-通过所述转置阶T执行所述输出信号的比率转换,从而产生转置的输出信号。
31.如权利要求29所述的方法,还包括步骤:
-在保持所述采样率不变的同时,通过所述转置阶T来执行所述输出信号的下采样,从而产生转置的输出信号。
32.如权利要求28至31中任一项所述的方法,还包括步骤:
-通过使用第二转置因子T2来改变所述复数系数的所述相位,从而生成第二输出信号的帧;以及
-通过第二合成步幅将所述第二输出信号的相继帧移位,从而通过将所述第二输出信号的移位的帧交叠和相加来生成所述第二输出信号。
33.如权利要求32所述的方法,还包括步骤:
-通过所述第二转置阶T2来执行所述第二输出信号的比率转换,从而产生第二转置的输出信号;以及
-合并所述第一转置的输出信号和所述第二转置的输出信号以产生合并的输出信号。
34.一种用于通过转置因子T对输入信号(312)进行转置的方法,包括步骤:
-使用长度L的分析窗(311),来提取所述输入信号(312)的样本的帧;
-将所述输入信号的所述帧从时域变换到频域以产生M个复数系数;
-利用所述转置因子T来改变所述复数系数的相位;
-将所述M个改变的复数系数变换到时域以产生M个改变的样本;以及
-使用长度L的合成窗(321),来生成输出信号的帧;
其中,所述分析窗(311)和所述合成窗(321)彼此不同以及相对于彼此而双正交。
35.如权利要求34所述的方法,其中,所述合成窗(321)vs(n)由下式给出:
其中,c是常量,va(n)是所述分析窗(311),Δts是所述合成窗(321)的时间步幅,而s(n)由下式给出:
36.如权利要求34至35所述的方法,其中,所述分析窗(311)的z变换具有单位圆上的双零。
37.如权利要求36所述的方法,其中,所述分析窗是平方正弦窗。
38.如权利要求36所述的方法,其中,通过以下步骤来确定长度L的所述分析窗:
-将长度L的两个正弦窗交织,以产生长度2L-1的平方正弦窗;
-将零追加到所述平方正弦窗,以产生长度2L的基窗;以及
-使用线性插值来对所述基窗进行重采样,以将长度L的偶对称窗产生为所述分析窗。
39.一种软件程序,用于在处理器上执行,以及当在计算装置上被执行时用于执行权利要求27至38中任一项所述的方法的步骤。
40.一种包括软件程序的存储介质,所述软件程序用于在处理器上执行,以及当在计算装置上被执行时用于执行权利要求27至38中任一项所述的方法的步骤。
41.一种包括可执行指令的计算机程序产品,所述可执行指令当在计算机上被执行时用于执行权利要求27至38中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310475634.8A CN103559891B (zh) | 2009-09-18 | 2010-03-12 | 改进的谐波转置 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US24362409P | 2009-09-18 | 2009-09-18 | |
US61/243,624 | 2009-09-18 | ||
PCT/EP2010/053222 WO2010086461A1 (en) | 2009-01-28 | 2010-03-12 | Improved harmonic transposition |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310475634.8A Division CN103559891B (zh) | 2009-09-18 | 2010-03-12 | 改进的谐波转置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102318004A true CN102318004A (zh) | 2012-01-11 |
CN102318004B CN102318004B (zh) | 2013-10-23 |
Family
ID=45429422
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010800055803A Active CN102318004B (zh) | 2009-09-18 | 2010-03-12 | 改进的谐波转置 |
CN201310475634.8A Active CN103559891B (zh) | 2009-09-18 | 2010-03-12 | 改进的谐波转置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310475634.8A Active CN103559891B (zh) | 2009-09-18 | 2010-03-12 | 改进的谐波转置 |
Country Status (5)
Country | Link |
---|---|
US (5) | US11594234B2 (zh) |
JP (11) | JP5433022B2 (zh) |
KR (3) | KR101701759B1 (zh) |
CN (2) | CN102318004B (zh) |
HK (1) | HK1190224A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103197143A (zh) * | 2013-02-28 | 2013-07-10 | 哈尔滨工业大学 | 基于汉宁窗fft算法与遍历滤波的谐波、间谐波检测方法 |
CN108198571A (zh) * | 2017-12-21 | 2018-06-22 | 中国科学院声学研究所 | 一种基于自适应带宽判断的带宽扩展方法及系统 |
CN109273016A (zh) * | 2015-03-13 | 2019-01-25 | 杜比国际公司 | 解码在填充元素中具有增强频谱带复制元数据的音频位流 |
CN109655665A (zh) * | 2018-12-29 | 2019-04-19 | 国网安徽省电力有限公司 | 基于布莱克曼窗的全相位傅里叶谐波分析方法 |
CN113283157A (zh) * | 2021-04-02 | 2021-08-20 | 殷强 | 智能冲压压力机部件生命周期预测系统、方法、终端、介质 |
CN113345449A (zh) * | 2020-02-17 | 2021-09-03 | 铁三角有限公司 | 声音信号处理装置、系统及方法以及记录介质 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR122019023713B1 (pt) | 2009-01-28 | 2020-10-27 | Dolby International Ab | sistema para gerar um sinal de áudio de saída a partir de um sinal de áudio de entrada usando um fator de transposição t, método para transpor um sinal de áudio de entrada por um fator de transposição t e meio de armazenamento |
JP5433022B2 (ja) | 2009-09-18 | 2014-03-05 | ドルビー インターナショナル アーベー | 高調波転換 |
KR101483157B1 (ko) * | 2010-03-09 | 2015-01-15 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 신호들의 대역폭 연장에 기반한 위상 보코더의 개선된 크기 응답과 시간적 정렬을 위한 방법과 장치 |
FR3025923A1 (fr) * | 2014-09-12 | 2016-03-18 | Orange | Discrimination et attenuation de pre-echos dans un signal audionumerique |
CN110062945B (zh) * | 2016-12-02 | 2023-05-23 | 迪拉克研究公司 | 音频输入信号的处理 |
TWI702594B (zh) * | 2018-01-26 | 2020-08-21 | 瑞典商都比國際公司 | 用於音訊信號之高頻重建技術之回溯相容整合 |
IL313348B1 (en) | 2018-04-25 | 2025-04-01 | Dolby Int Ab | Combining high-frequency reconstruction techniques with reduced post-processing delay |
AU2019258524B2 (en) | 2018-04-25 | 2024-03-28 | Dolby International Ab | Integration of high frequency audio reconstruction techniques |
CN109243485B (zh) * | 2018-09-13 | 2021-08-13 | 广州酷狗计算机科技有限公司 | 恢复高频信号的方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1382143A2 (en) * | 2001-04-24 | 2004-01-21 | Nokia Corporation | Methods for changing the size of a jitter buffer and for time alignment, communications system, receiving end, and transcoder |
CN1206816C (zh) * | 1997-06-10 | 2005-06-15 | 编码技术股份公司 | 采用频带复现增强源编码 |
WO2008081144A2 (fr) * | 2007-01-05 | 2008-07-10 | France Telecom | Codage par transformee, utilisant des fenetres de ponderation et a faible retard |
CN101233506A (zh) * | 2005-07-29 | 2008-07-30 | 德克萨斯仪器股份有限公司 | 优化过采样离散傅立叶变换滤波器组的操作的系统和方法 |
Family Cites Families (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4246617A (en) | 1979-07-30 | 1981-01-20 | Massachusetts Institute Of Technology | Digital system for changing the rate of recorded speech |
RU2256293C2 (ru) | 1997-06-10 | 2005-07-10 | Коудинг Технолоджиз Аб | Усовершенствование исходного кодирования с использованием дублирования спектральной полосы |
JP3442974B2 (ja) | 1997-07-30 | 2003-09-02 | 本田技研工業株式会社 | 吸収式冷凍機の精留装置 |
US7272556B1 (en) | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
EP1039442B1 (en) | 1999-03-25 | 2006-03-01 | Yamaha Corporation | Method and apparatus for compressing and generating waveform |
SE0001926D0 (sv) | 2000-05-23 | 2000-05-23 | Lars Liljeryd | Improved spectral translation/folding in the subband domain |
AUPR141200A0 (en) | 2000-11-13 | 2000-12-07 | Symons, Ian Robert | Directional microphone |
US6963842B2 (en) | 2001-09-05 | 2005-11-08 | Creative Technology Ltd. | Efficient system and method for converting between different transform-domain signal representations |
KR100640122B1 (ko) | 2001-09-26 | 2006-10-31 | 인터렉트 디바이시즈, 인크. | 미디어 신호를 통신하기 위한 시스템 및 방법 |
US6912495B2 (en) | 2001-11-20 | 2005-06-28 | Digital Voice Systems, Inc. | Speech model and analysis, synthesis, and quantization methods |
PT1423847E (pt) * | 2001-11-29 | 2005-05-31 | Coding Tech Ab | Reconstrucao de componentes de frequencia elevada |
AU2003236382B2 (en) * | 2003-08-20 | 2011-02-24 | Phonak Ag | Feedback suppression in sound signal processing using frequency transposition |
JP2007524124A (ja) | 2004-02-16 | 2007-08-23 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | トランスコーダ及びそのための符号変換方法 |
TWI393121B (zh) | 2004-08-25 | 2013-04-11 | Dolby Lab Licensing Corp | 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式 |
FR2875358B1 (fr) * | 2004-09-15 | 2006-12-15 | Eads Telecom Soc Par Actions S | Insertion d'un flux secondaire d'informations binaires dans un flux principal de symboles d'une modulation numerique |
KR100590561B1 (ko) | 2004-10-12 | 2006-06-19 | 삼성전자주식회사 | 신호의 피치를 평가하는 방법 및 장치 |
CN101053019B (zh) * | 2004-11-02 | 2012-01-25 | 皇家飞利浦电子股份有限公司 | 使用复值滤波器组的音频信号的编码和解码的装置和方法 |
US7386445B2 (en) | 2005-01-18 | 2008-06-10 | Nokia Corporation | Compensation of transient effects in transform coding |
AU2005201813B2 (en) * | 2005-04-29 | 2011-03-24 | Phonak Ag | Sound processing with frequency transposition |
CN101203907B (zh) | 2005-06-23 | 2011-09-28 | 松下电器产业株式会社 | 音频编码装置、音频解码装置以及音频编码信息传输装置 |
US7197453B2 (en) | 2005-07-29 | 2007-03-27 | Texas Instruments Incorporated | System and method for optimizing the operation of an oversampled discrete Fourier transform filter bank |
US7565289B2 (en) | 2005-09-30 | 2009-07-21 | Apple Inc. | Echo avoidance in audio time stretching |
US20070083377A1 (en) | 2005-10-12 | 2007-04-12 | Steven Trautmann | Time scale modification of audio using bark bands |
US7720677B2 (en) | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
JP4950210B2 (ja) | 2005-11-04 | 2012-06-13 | ノキア コーポレイション | オーディオ圧縮 |
TWI339991B (en) * | 2006-04-27 | 2011-04-01 | Univ Nat Chiao Tung | Method for virtual bass synthesis |
US7818079B2 (en) | 2006-06-09 | 2010-10-19 | Nokia Corporation | Equalization based on digital signal processing in downsampled domains |
EP1879293B1 (en) | 2006-07-10 | 2019-02-20 | Harman Becker Automotive Systems GmbH | Partitioned fast convolution in the time and frequency domain |
US8135047B2 (en) | 2006-07-31 | 2012-03-13 | Qualcomm Incorporated | Systems and methods for including an identifier with a packet associated with a speech signal |
PL3288027T3 (pl) * | 2006-10-25 | 2021-10-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Urządzenie i sposób do generowania wartości podpasm audio o wartościach zespolonych |
AU2008203351B2 (en) * | 2007-08-08 | 2011-01-27 | Oticon A/S | Frequency transposition applications for improving spatial hearing abilities of subjects with high frequency hearing loss |
CN103594090B (zh) * | 2007-08-27 | 2017-10-10 | 爱立信电话股份有限公司 | 使用时间分辨率能选择的低复杂性频谱分析/合成 |
US8121299B2 (en) | 2007-08-30 | 2012-02-21 | Texas Instruments Incorporated | Method and system for music detection |
US8706496B2 (en) | 2007-09-13 | 2014-04-22 | Universitat Pompeu Fabra | Audio signal transforming by utilizing a computational cost function |
DE102008015702B4 (de) | 2008-01-31 | 2010-03-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals |
BR122012006265B1 (pt) | 2008-03-10 | 2024-01-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V | Equipamento e método para a manipulação de um sinal de áudio tendo um evento transiente |
US8060042B2 (en) | 2008-05-23 | 2011-11-15 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
PL3598446T3 (pl) | 2009-01-16 | 2022-03-28 | Dolby International Ab | Transpozycja harmonicznych rozszerzona o iloczyn wektorowy |
EP2214165A3 (en) | 2009-01-30 | 2010-09-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for manipulating an audio signal comprising a transient event |
EP2237266A1 (en) * | 2009-04-03 | 2010-10-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal |
CO6440537A2 (es) | 2009-04-09 | 2012-05-15 | Fraunhofer Ges Forschung | Aparato y metodo para generar una señal de audio de sintesis y para codificar una señal de audio |
US8971551B2 (en) | 2009-09-18 | 2015-03-03 | Dolby International Ab | Virtual bass synthesis using harmonic transposition |
JP5433022B2 (ja) * | 2009-09-18 | 2014-03-05 | ドルビー インターナショナル アーベー | 高調波転換 |
-
2010
- 2010-03-12 JP JP2011546878A patent/JP5433022B2/ja active Active
- 2010-03-12 KR KR1020147002353A patent/KR101701759B1/ko active Active
- 2010-03-12 KR KR1020117020041A patent/KR101405022B1/ko active Active
- 2010-03-12 KR KR1020157023715A patent/KR101697497B1/ko active Active
- 2010-03-12 CN CN2010800055803A patent/CN102318004B/zh active Active
- 2010-03-12 CN CN201310475634.8A patent/CN103559891B/zh active Active
-
2013
- 2013-12-06 JP JP2013252583A patent/JP6008830B2/ja active Active
-
2014
- 2014-03-20 HK HK14102790.2A patent/HK1190224A1/zh unknown
-
2015
- 2015-08-06 JP JP2015155806A patent/JP6132885B2/ja active Active
-
2017
- 2017-04-18 JP JP2017081741A patent/JP6381727B2/ja active Active
-
2018
- 2018-07-31 JP JP2018143384A patent/JP6573703B2/ja active Active
-
2019
- 2019-08-13 JP JP2019148472A patent/JP6638110B2/ja active Active
- 2019-12-23 JP JP2019231052A patent/JP6701429B2/ja active Active
-
2020
- 2020-05-01 JP JP2020081043A patent/JP6926273B2/ja active Active
-
2021
- 2021-08-04 JP JP2021128117A patent/JP7271616B2/ja active Active
-
2022
- 2022-09-27 US US17/954,179 patent/US11594234B2/en active Active
-
2023
- 2023-02-03 US US18/164,357 patent/US11837246B2/en active Active
- 2023-04-26 JP JP2023072385A patent/JP7571926B2/ja active Active
- 2023-11-29 US US18/523,067 patent/US12136429B2/en active Active
-
2024
- 2024-09-24 JP JP2024164827A patent/JP2024173977A/ja active Pending
- 2024-10-03 US US18/905,705 patent/US20250054505A1/en active Pending
- 2024-10-03 US US18/905,649 patent/US20250029621A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1206816C (zh) * | 1997-06-10 | 2005-06-15 | 编码技术股份公司 | 采用频带复现增强源编码 |
EP1382143A2 (en) * | 2001-04-24 | 2004-01-21 | Nokia Corporation | Methods for changing the size of a jitter buffer and for time alignment, communications system, receiving end, and transcoder |
CN101233506A (zh) * | 2005-07-29 | 2008-07-30 | 德克萨斯仪器股份有限公司 | 优化过采样离散傅立叶变换滤波器组的操作的系统和方法 |
WO2008081144A2 (fr) * | 2007-01-05 | 2008-07-10 | France Telecom | Codage par transformee, utilisant des fenetres de ponderation et a faible retard |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103197143A (zh) * | 2013-02-28 | 2013-07-10 | 哈尔滨工业大学 | 基于汉宁窗fft算法与遍历滤波的谐波、间谐波检测方法 |
CN109273016A (zh) * | 2015-03-13 | 2019-01-25 | 杜比国际公司 | 解码在填充元素中具有增强频谱带复制元数据的音频位流 |
CN109273016B (zh) * | 2015-03-13 | 2023-03-28 | 杜比国际公司 | 解码在填充元素中具有增强频谱带复制元数据的音频位流 |
US11664038B2 (en) | 2015-03-13 | 2023-05-30 | Dolby International Ab | Decoding audio bitstreams with enhanced spectral band replication metadata in at least one fill element |
US12094477B2 (en) | 2015-03-13 | 2024-09-17 | Dolby International Ab | Decoding audio bitstreams with enhanced spectral band replication metadata in at least one fill element |
CN108198571A (zh) * | 2017-12-21 | 2018-06-22 | 中国科学院声学研究所 | 一种基于自适应带宽判断的带宽扩展方法及系统 |
CN108198571B (zh) * | 2017-12-21 | 2021-07-30 | 中国科学院声学研究所 | 一种基于自适应带宽判断的带宽扩展方法及系统 |
CN109655665A (zh) * | 2018-12-29 | 2019-04-19 | 国网安徽省电力有限公司 | 基于布莱克曼窗的全相位傅里叶谐波分析方法 |
CN113345449A (zh) * | 2020-02-17 | 2021-09-03 | 铁三角有限公司 | 声音信号处理装置、系统及方法以及记录介质 |
CN113283157A (zh) * | 2021-04-02 | 2021-08-20 | 殷强 | 智能冲压压力机部件生命周期预测系统、方法、终端、介质 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11100937B2 (en) | Harmonic transposition in an audio coding method and system | |
US11594234B2 (en) | Harmonic transposition in an audio coding method and system | |
US11562755B2 (en) | Harmonic transposition in an audio coding method and system | |
AU2020201239A1 (en) | Improved Harmonic Transposition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |