发明内容
依据本发明的实施例创建一种用于基于输入信号表示型态产生扩充带宽信号的表示型态的装置。该装置包含相位语音编码器,该相位语音编码器被配置为基于输入信号表示型态获得该扩充带宽信号的第一修补的频域表示型态的值。该装置还包括值复制工具,该值复制工具被配置为复制该第一修补的频域表示型态的一组值,该值由相位语音编码器提供以获得第二修补的频谱表示的一组值。该第二修补与比第一修补更高的频率相关联。该装置被配置为利用第一修补的该频域表示型态的值与第二修补的频域表示型态的值,来获得扩充带宽信号的表示型态。
本发明的关键思想是,扩充带宽信号的计算复杂度与音频品质之间的良好折衷是由将相位语音编码器与值复制工具相组合来获得的,使得该扩充带宽信号的第一修补由该位语音编码器来获得,以及使得扩充带宽信号的第二修补是利用该复制工具基于第一修补来获得的。
因此,第一修补的内容是输入信号(以输入信号表示型态表示)的低频部分(LF)内容的谐波移调版本,且第二修补是(或表示)第一修补的信号内容的(非谐波)频移版本。因此,由于对值的复制在计算上比相位语音编码器橾作简单,可以以相对低的计算复杂度获得第二修补。再者,避免了第二修补中有大的频谱孔,因为第一修补的频谱值通常被充分填入(即,包括非零值),使得如果第二修补仅被稀疏填入,减少或避免在一些情况中产生的可听伪像。
总之,本发明构想相对传统修补方法带来了显著优点,因为使用相位语音编码器的谐波带宽扩展仅应用于获得第一修补的频域表示型态(即,频谱的较低部分)的值,而依赖于对第一修补的频域表示型态的值的复制,来获得第一修补的频域表示型态的值的非谐波带宽扩充用于较高频率。因此,提供扩充频率部分(为在交越频率之上的频率部分)的较低范围(也被指定为“第一修补”)作为基本频率范围的谐波扩充(即,在输入信号的频率范围中,覆盖低于扩充频率部分的频率的频率,例如在交越频率之下的频率),这造成了扩充带宽信号的良好听觉印象。再者,已发现的是,使用复制工具执行的简单产生扩充频率部分的较高范围(也被指定为“第二修补”)的频域表示型态的值并不带来显著的听觉伪像,因为人类听力对扩充频率部分的较高范围(第二修补)的频谱细节并不特别敏感。
总之,本发明构想以相对小的计算复杂度带来良好的听觉印象。
在优选实施例中,相位语音编码器被配置为复制与输入信号表示型态的多个指定频率子域(frequency subranges)相关联的一组幅度值,来获得与第一修补的对应频率子域相关联的一组幅度值,其中,输入信号表示型态的指定频率子域与第一修补的对应的频率子域的成对覆盖(或包括)基本频率与基本频率的谐波(例如,基本频率的第一谐波)的成对。相位语音编码器也优选地被配置为,将与输入信号表示型态的多个指定频率子域相关联的相位值与预定因数(例如2)相乘,来获得与第一修补的对应频率子域相关联的相位值。优选地,值复制工具被配置为复制与第一修补的多个指定频率子域相关联的一组值,来获得与第二修补的对应频率子域相关联的一组值。值复制工具优选地被配置为在复制中保持相位值不变。因此,相位语音编码器至少近似地执行谐波移调,而值复制工具执行非谐波频移。频率子域例如可以是与快速傅立叶变换(或任何相当的转换)的系数相关联的频率范围。备选地,频率子域可以是与QMF滤波器组的各个单独信号相关联的频率范围。典型地,频率子域的宽度与中心频率相比相对小,使得频率子域覆盖在结束频率与开始频率之间具有频率比的频带宽度,该频率比远小于2∶1。换言的,即使输入信号表示型态(例如,可以采用FFT系数的形式或QMF滤波器组信号的形式)的频率子域与第一修补的频率子域不需要相对彼此是准确谐波的,识别输入频率表示型态的频率子域(例如,具有频率索引k)与第一修补的对应的频率子域(例如,具有频率索引2k)之间的关联通常是可能的,使得第一修补的频率子域(2k)至少近似地表示输入频谱表示型态的对应频率子域的谐波频率。
因此,谐波移调由相位语音编码器来执行,考虑利用相位缩放处理的相位值。相反,值复制工具仅仅执行(至少近似地)非谐波频移操作。
在优选实施例中,值复制工具被配置为复制值,使得获得第一修补的值到第二修补的值的普通频谱移动(spectral shift)(或频移)。
在优选实施例中,相位语音编码器被配置为获得第一修补的频域表示型态的值,使得第一修补的频域表示型态的值表示输入信号表示型态的基本频率范围的谐波向上转换的版本(例如,在所谓交越频率之下的基本频率范围)。值复制工具优选地被配置为获得第二修补的频域表示型态的值,使得第二修补的频域表示型态的值表示第一修补的频移版本。因此,获得上面讨论的优点。特别是,实现简单,而同时获得良好听觉印象。
在优选实施例中,装置被配置为接收脉冲编码调制(PCM)的输入音频数据,来下采样脉冲编码调制的输入音频数据,以便获得下采样的脉冲编码调制的音频数据。再者,装置被配置为对下采样脉冲编码调制的音频数据进行加窗,以便获得加窗的输入数据,以及将加窗的输入数据转换或转变到频域,以便获得输入信号表示型态。该装置还优选地被配置为计算表示输入信号表示型态的频率段(bin)k(其中k是频率段索引)的幅度值a
k(也用α
k指示)及相位值
以及复制幅度值a
k来获得表示频率段的复制幅度值a
sk(也用α
sk指示),该频率段具有第一修补的频率段索引sk,其中s伸展因数,s=2。再者,该装置优选地被配置为复制及缩放与输入信号表示型态中具有频率段索引k的频率段相关联的相位值
以获得与第一修补中具有频率索引sk的频率段相关联的复制及缩放的相位值
再者,该装置优选地被配置为复制与第一修补的频域表示型态的频率段k-iζ相关联的值β
k-iζ,以获得第二修补的频域表示型态的值β
k。再者,该装置优选地被配置为将该扩充带宽信号的表示型态(包含第一修补的频域表示型态及第二修补的频域表示型态)转换到时域,以获得时域表示型态,以及将合成窗应用于时域表示型态。使用上述构想,可能以中等计算复杂度获得扩充带宽信号。扩充带宽是在频域中执行的,其中,可执行转换到频域,例如转换到FFT域或QMF域。
在优选实施例中,该装置包括时域至频域转换器(例如,快速傅立叶变换装置或QMF滤波器组),该时域至频域转换器被配置为提供输入音频信号的频域表示型态(例如,快速傅立叶变换系数或QMF子带信号)的值,或输入音频信号的预处理(例如,下采样及/或加窗)版本的值作为输入信号表示型态。该装置优选地包括频域至时域转换器(例如,快速傅立叶逆变换装置或QMF合成装置),频域至时域转换器被配置为利用第一修补的频域表示型态(例如,FFT系数或QMF子带信号)的值以及第二修补的频域表示型态(例如,FFT系数或QMF子带信号)的值,来提供扩充带宽信号的时域表示型态。频域至时域转换器优选地被配置为,使得频域至时域转换器所接收的不同频谱值的数目(例如,FFT段或QMF频带)大于时域至频域转换器(例如,快速傅立叶变换装置或QMF滤波器组)提供的不同频谱值的数目(例如,多个FFT频率段或多个QMF频带),使得频域至时域转换器被配置为与时域至频域转换器相比处理更多数目的频率段(例如,快速傅立叶变换频率段或QMF频带)。因此,带宽扩充因频域至时域转换器包括比时域至频域转换器数目更多的频率段的事实而被实现。
在优选实施例中,该装置包括分析加窗工具,该分析加窗工具被配置为对时域输入音频信号进行加窗,来获得时域输入音频信号的加窗版本,这形成获得输入信号表示型态的基础。再者,该装置包括合成加窗工具,合成加窗工具被配置为对扩充带宽信号的时域表示型态的一部分进行加窗,来获得扩充带宽信号的时域表示型态的加窗部分。因此,减少或甚至避免扩充带宽信号中的伪像。
在优选实施例中,该装置被配置为处理时域输入音频信号的多个时间交叠时移部分,来获得扩充带宽信号的时域表示型态的多个时间交叠时移加窗部分。时域输入音频信号的时间相邻的时移部分之间的时间偏移小于或等于分析窗的窗长度的四分之一。已发现的是,时域输入音频信号的相邻时移部分之间的相对大的时间交叠(和/或扩充带宽信号的时域表示型态的时间相邻时移部分之间的相对大的时间交叠)造成带来良好听觉印象的带宽扩充,因为由于相对大的时间交叠而考虑信号的非平稳性(stationarities)。
在优选实施例中,该装置包括瞬变信息提供器,该瞬变信息提供器被配置为提供指示输入信号中瞬变的存在的信息(由输入信号表示型态表示)。该装置还包括第一处理支路,用于基于输入信号表示型态的非瞬变部分来提供扩充带宽信号部分的表示型态,以及第二处理支路,用于基于输入信号表示型态的瞬变部分来提供扩充带宽信号部分的表示型态。第二处理支路被配置为处理具有比第一处理支路处理的输入信号的频域表示型态更高频谱分辨率的输入信号的频域表示型态。因此,包括瞬变的信号部分可用较高频谱分辨率来处理,这避免了存在瞬变情况下的可听伪像。另一方面,降低的频谱分辨率可以用于非瞬变信号部分(即,其中该瞬变信息提供器没有识别出瞬变的信号部分)。因此,保持高计算效率,且增加的频谱分辨率仅在其带来优点的时候才被使用(例如,因为它引起在瞬变附近的更好的听觉印象)。
在优选实施例中,装置包括时域补零器,该时域补零器被配置为对输入信号的瞬变部分补零,以便获得输入信号的时间扩充的瞬变部分。在此情况中,第一处理支路包括被配置为提供与输入信号的非瞬变部分相关联的第一数目频域值的(第一)时域至频域转换器,且第二处理支路包括被配置为提供与输入信号的时间扩充的瞬变部分相关联的第二数目频域值的(第二)时域至频域转换器。频域值的第二数目至少是频域值的第一数目的1.5倍。因此,获得良好瞬变处理。
在优选实施例中,第二处理支路包含去零器(zero-stripper),该去零器被配置为从基于输入信号的时间扩充瞬变部分而获得的扩充带宽信号部分中移除多个零值。因此,由补零而获得的输入信号的时间扩充被反转。
在优选实施例中,该装置包括下采样器,该下采样器被配置为下采样输入信号的时域表示型态。通过对输入信号进行下采样,如果输入信号不覆盖脉冲编码调制采样输入流,则可以提高计算效率。
依据本发明的另一实施例创建一种装置,其中值复制工具与语音编码器的处理的处理顺序被反置。这种用于基于输入信号表示型态(110;383)产生带宽扩充信号的表示型态的装置包括值复制工具,该值复制工具被配置为复制输入信号表示型态的一组值,来获得第一修补的频域表示型态的一组值,其中,相比于输入信号表示型态,该第一修补与更高的频率相关联。该装置还包括相位语音编码器(130;406),该相位语音编码器被配置为基于第一修补的频域表示型态的值(β4/3ζ...β2ζ),来获得扩充带宽信号的第二修补的频域表示型态的值(β2ζ...β3ζ),其中,相比于第一修补第二修补与更高的频率相关联。该装置被配置为利用第一修补的频域表示型态的值与第二修补的频域表示型态的值,来获得扩充带宽信号的表示型态(120;426)。
此装置能够以相对低的计算复杂度来获得扩充带宽信号,同时仍实现扩充带宽信号的良好听觉印象。通过在复制操作之后执行相位语音编码,相位语音编码器能以相对小的频率比(语音编码器输出频率与语音编码器输入频率的比)来操作,这获得了良好的频谱填充且避免了存在大频谱孔。此外,已发现的是,利用此构想的听觉印象仍比仅依赖于复制操作而不用相位语音编码器操作的构想的听觉印象更好,虽然第一修补(较低频率修补)是利用该复制操作获得的,且仅第二修补(较高频率修补)是利用相位语音编码器操作而获得的。再者,计算复杂度低于所有的修补都是利用相位语音编码器而产生的系统中的计算复杂度,且与此类构想相较减少了频谱孔。
自然地,此实施例可由本文所讨论的功能中的任一功能来补充。
依据本发明的其它实施例创建用于基于输入信号表示型态产生扩充带宽信号的表示型态的方法。该方法是基于与上面所讨论装置相同的构想。
依据本发明的另一实施例创建了一种用于实现该方法的计算机程序。
具体实施方式
1.依据图1的装置
图1示出了用于基于输入信号表示型态产生扩充带宽信号的表示型态的装置100的示意框图。
装置100被配置为接收输入信号表示110,并基于输入信号表示110提供扩充带宽信号120。装置100包括相位语音编码器,该相位语音编码器被配置为基于输入表示型态110获得扩充带宽信号120的第一修补的频域表示型态130的值。第一修补的频域表示型态的值例如用βζ至β2ζ来指定。装置100还包括值复制工具140,该值复制工具140被配置为复制由相位语音编码器130提供的第一修补的频域表示型态132的一组值,以获得第二修补的频域表示型态142的一组值,其中,相比于第一修补第二修补与更高的频率相关联。第二修补的频域表示142的值例如用β2ζ至β3ζ来指定。装置100被配置为利用第一修补的频域表示型态132的值βζ至β2ζ,以及第二修补的频域表示型态142的值β2ζ至β3ζ来获得扩充带宽信号的表示型态。举例而言,扩充带宽信号的表示型态120可既包括第一修补的频域表示型态132的值且又包括第二修补的频域表示型态142的值。此外,扩充带宽信号的表示型态120例如可包括输入信号(例如用输入信号表示型态110来表示)的频域表示型态的值。然而,扩充带宽信号的表示型态120也可以是时域表示型态,该时域表示型态可基于第一修补的频域表示型态132的值与第二修补的频域表示型态142的值 (以及,可选地,附加值,例如,输入信号的频域表示型态116的值,和/或附加修补的频域表示型态的值)。
下面参考图2详细描述装置100的功能及操作,图2示出了用于基于输入信号表示型态产生扩充带宽信号的表示型态的发明构想的示意图。
第一图示200示出了由相位语音编码器130执行的输入信号(用输入信号表示型态110表示)的谐波移调。可见的是,输入信号例如用一组幅度值α
k来表示。索引k指示频谱段(例如,具有快速傅立叶变换的索引k的段,或具有QMF转换的索引k的频带)。输入信号表示型态110例如对于k=1至k=ζ可以包括幅度值α
k,其中ζ可指示所谓的交越频率段,且描述带宽扩充的频率起始。基本频率范围例如还可以由相位值
来描述,其中,k是如前所述的频率段索引。
类似地,第一修补由频域表示型态的一组值来描述。举例而言,k在ζ与2ζ之间的值β
k。备选地,第一修补可以由幅度值α
k以及相位值
表示,其中频率段索引k在ζ与2ζ之间。
如上所述,相位语音编码器130被配置为基于输入信号表示型态110执行谐波移调,来获得第一修补的频域表示型态132的值。为此目的,相位语音编码器130可以将具有(频率段)索引2k的频率段的索引幅度值α
2k设为等于具有(频率段)索引k的频率段索引的幅度值α
k。再者,相位语音编码器130可被配置为将具有索引2k的频率段的相位值
设为与具有索引k的频率段相关联的相位值
的2倍的值。在此情况中,具有索引k的频率段可以是输入信号表示型态110的频率段,及具有索引2k的频率段可以是第一修补的频域表示型态132的频率段。此外,具有索引2k的频率段包括作为在具有索引k的频率段中包括的频率的第一谐波的频率索引。因此,对于2k从ζ变化到2ζ,可以获得获得幅度值α
2k及相位值
该幅度值α
2k及相位值
是第一修补的频域表示型态132的值,使得α
2k=α
k以及
备选地及等同地,对于ζ与2ζ之间的2k,可以获得作为第一修补的频域表示型态132的值的值β
2k,使得
总之,假定具有索引k(或等同地,2k等等)的频率段,(是QMF域表示型态的频带的快速傅立叶变换表示的频率段)在频率上线性间隔(使得频率段索引,例如k或2k,至少近似地与包括在相应频率段中的频率成比例,例如k阶快速傅立叶变换频率段的中心频率,或k阶QMF频带的中心频率),谐波移调由相位语音编码器130获得。
然而,第二修补的频域表示型态142的值由值复制工具140来获得,该值复制工具140执行第一修补的频域表示型态132的非谐波复制。
现在参考图示250,简要讨论非谐波复制。如所视,第一修补由值β
ζ至β
2ζ表示(或等同地,由幅度值α
ζ至α
2ζ以及相位值
至
表示)。因此,第二修补的频域表示型态142的值β
2ζ至β
3ζ(或等同地,幅度值α
2ζ至α
3ζ以及相位值
至
)由值复制工具140所执行的非谐波复制获得。举例而言,第二修补的频域表示型态142的复值频谱值β
2ζ至β
3ζ可以依据β
k=β
k-ζ(k在ζ与2ζ之间),基于第一修补的频域表示型态132的对应值β
ζ至β
2ζ来获得。等同地,第二修补的频域表示型态142的幅度值α
2ζ至α
3ζ可以依据α
k=α
k-ζ(k在2ζ与3ζ之间),基于第一修补的频域表示型态132的幅度值来获得。在此情况中,第二修补的频域表示型态142的相位值
至
可以依据
(k在2ζ与3ζ之间),基于第一修补的频域表示型态132的相位值
至
来获得。
因此,该第二修补的频域表示型态142的值表示相对于由第一修补的频域表示型态132的值表示的信号非谐波(即,线性)频移的信号。
第一修补的频域表示型态132的值β
ζ至β
2ζ以及第二修补的频域表示型态142的值β
2ζ至β
3ζ可以用于获得扩充带宽信号的表示型态120。根据需要,扩充带宽信号的表示型态120可以是频域表示型态或时域表示型态。如果期望获得时域表示型态,频域至时域转换器可以用于基于第一修补的频域表示型态132的值β
ζ至β
2ζ以及第二修补的频域表示型态142的值β
2ζ至β
3ζ来导出时域表示型态。备选地(及等同地),可以使用值α
ζ至α
2ζ、
至
α
2ζ至α
3ζ、
至
以便导出扩充带宽信号的表示型态120(在频域或在时域中)。
如上所述,关于图1和2描述的构想带来了良好的听觉印象以及相对低的计算复杂度。即便使用多个修补(例如第一修补以及第二修补),也仅需要一次相位语音编码。同样,避免了在另一语音编码器用来获得第二修补时出现在第二修补中大的频谱孔。因此,发明构想带来了计算复杂度与可实现的听觉印象之间的非常良好的折衷。
此外,应该注意的是,在一些实施例中,附加修补可以基于第一修补的频域表示型态132的值来获得。举例而言,在本发明构想的可选扩充中,第三修补的频域表示型态的值可以基于第一修补的频域表示型态132的值,利用另一值复制工具来获得,如将参考图3更详细地说明。
依据图1和2的实施例(以及其他实施例亦然)能够以各种方式进行修改。举例而言,第一修补可以利用相位语音编码器来获得,并且第二、第三和第四修补可以由频谱值的复制操作来获得。备选地,第一和第二修补可以利用相位语音编码器来获得,并且第三和第四修补可以利用频谱值的复制来获得。自然地,可以应用相位语音编码操作与复制操作的不同组合。
然而,备选地,第一修补可以利用输入信号表示型态的频谱值的复制操作(值复制工具)来获得,并且第二修补可以利用相位语音编码器(基于第一修补的复制值,利用值复制工具来获得)来获得。
2.依据图3的实施例
下面,将参考图3描述音频解码器300,其中图3示出了这种音频解码器300的详细示意框图,该音频解码器300包括一种用于基于输入信号表示型态产生扩充带宽信号的表示型态的装置。
2.1 音频解码器概观
音频解码器300被配置为接收数据流,并基于该数据流提供音频波形312。音频解码器300包括核心解码器320,该核心解码器320被配置为例如基于数据流310提供脉冲编码调制数据(“PCM数据”)322。核心解码器320可以例如是如在国际标准ISO/IEC14996-3:2005(e),第三部分:音频,第4子部分:通用音频编码(GA)-AAC,Twin VQ,BSAC中所述的音频解码器。举例而言,核心解码器320可以是所述标准中描述且本领域技术人员公知的所谓的高级音频编码(AAC)核心解码器。因此,脉冲编码调制音频数据322可以基于数据流310由核心解码器220来提供。举例而言,脉冲编码调制音频数据322可以包括1024个采样的帧长度。
音频解码器300还包括带宽扩充(带宽扩充器)330,该带宽扩充330被配置为接收脉冲编码调制音频数据322(例如,1024个采样的帧长度),且基于该脉冲编码调制音频数据322提供波形312。带宽扩充(带宽扩充器)330也接收数据流310的一些控制数据332。带宽扩充330包括修补的QMF数据提供(或修补的QMF数据提供器)340,该修补的QMF数据提供340接收脉冲编码调制音频数据322,且基于该脉冲编码调制音频数据322提供修补的QMF数据342。带宽扩充330还包括包络格式化(或包络格式化器)344,该包络格式化接收修补的QMF数据342以及包络格式化控制数据346,且基于它们提供修补且包络格式化的QMF数据348。带宽扩充330还包括QMF合成(或QMF合成器)350,该QMF合成350接收修补且包络格式化的QMF数据348,并基于该修补且包络格式化的QMF数据348通过执行QMF合成,来提供波形312。
2.2 修补的QMF数据提供340
2.2.1 修补的QMF数据提供-概观
修补的QMF数据提供340(可以在硬件实现中由修补的QMF数据提供器340执行)可以在两种模式
(即第一模式与第二模式)之间切换,在第一模式中执行频带复制(SBR)修补,在第二模式中执行谐波带宽扩充(HBE)修补。举例而言,脉冲编码调制的音频数据322可由延迟器360延迟,以获得延迟的脉冲编码调制音频数据362,且可以利用32频带QMF分析器364将该延迟的脉冲编码调制音频数据362转换到QMF域中。32频带QMF分析器364的结果,例如延迟的脉冲编码调制音频数据362的32频带QMF域(即频域)表示型态365可以被提供至SBR修补器366,以及被提供至谐波带宽扩充修补器368。
频谱带复制修补器366例如可以执行频带复制修补,这例如在国际标准ISO/IEC14496-3:2005(e),第3部分,第4子部分节4.6.18“SBR tool”中描述。因此,64频带QMF域表示型态370可以由频谱带复制修补器366来提供。
备选地或附加地,谐波带宽扩充修补器368可以提供64频带QMF域表示型态,该64频带QMF域表示型态是PCM音频数据322的带宽扩充表示型态。依赖于从数据流310提取的带宽扩充控制数据332受控的开关374可以用于判定应用频带复制修补366还是谐波带宽扩充修补368,以便获得修补的QMF数据342(等于64频带QMF域表示型态370或等于64频带QMF域表示型态372,视开关374的状态而定)。
2.2.2 修补的QMF数据提供-谐波带宽扩充368
下面,(至少部分地)更详细描述谐波带宽扩充修补368。谐波带宽扩充修补368包括信号路径,在信号路径中,将脉冲编码调制音频数据322或其预处理版本转换到频域(例如转换到快速傅立叶变换系数域或QMF域),其中,在该频域中执行谐波带宽扩充,及其中所获得的扩充带宽信号的频域表示型态、或从中导出的表示型态用于谐波带宽扩充修补。
在图3的实施例中,在下采样器380中对脉冲编码调制音频数据322进行下采样,例如以2的倍数,来获得下采样的脉冲编码调制音频数据381。随后加窗工具382对该下采样的脉冲编码调制音频数据381进行加窗,加窗例如可以包括512个采样的窗长度。应该注意的是,该窗在后续处理步骤中例如被移位了下采样的脉冲编码调制音频数据381的64个采样,使得获得下采样的脉冲编码调制音频数据的加窗部分383的相对大的交叠。
音频解码器300还包括瞬变检测器384,该瞬变检测器384被配置为检测脉冲编码调制音频数据322内的瞬变。瞬变检测器384可以基于PCM音频数据322自身,或基于包括在数据流310中的辅助信息,来检测瞬变的存在。
可利用第一处理支路386或第二处理支路388选择性处理下采样的音频数据381的加窗部分383。该第一支路386可以用于处理下采样的PCM音频数据的非瞬变加窗部分383(瞬变检测器384否定其存在瞬变),第二支路388可以用于处理该下采样的PCM音频数据的瞬变加窗部分383(瞬变检测器384指示其存在瞬变)。
第一支路386接收非瞬变加窗部分383,并基于该非瞬变加窗部分383提供该加窗部分383的带宽扩充表示型态387、434。类似地,第二支路388接收下采样的PCM音频数据381的瞬变加窗部分383,并基于该瞬变加窗部分383提供(瞬变)加窗部分383的带宽扩充表示型态389。如上讨论,瞬变检测器384判定当前加窗部分383是非瞬变加窗部分还是瞬变加窗部分,使得当前加窗部分383的处理是利用第一分支386或第二分支388来执行。因此,不同的加窗部分383可由不同的支路386处理,其中在后续加窗部分383的后续带宽扩充表示型态387、389之间有明显的时间交叠(因为时间上后续加窗部分383有明显的时间交叠)。
谐波带宽扩充368还包括交叠器和加法器390,该交叠器和加法器390被配置为交叠和相加与不同(时间上后续)加窗部分383相关联的不同的带宽扩充表示型态387、389。例如,可以将交叠和相加增量设置为256个采样。因此,获得交叠和相加的信号392。
谐波带宽扩充368还包括64频带QMF分析器394,该64频带QMF分析器394被配置为接收交叠和相加的信号392,并基于该交叠和相加的信号来提供64频带QMF域信号396。该64频带QMF域信号396例如可以表示比32频带分析器364提供的32频带QMF域信号365更宽的频率范围。
谐波带宽扩充368还包括组合器398,该组合器398被配置为接收32频带QMF分析器364提供的32频带QMF域信号,以及64频带QMF域信号396,并将这些信号组合。举例而言,64频带QMF域信号396的低频率范围(或基本频率范围)分量可被32频带QMF分析器364提供的32频带QMF域信号365替换或与其组合,使得例如,64频带QMF域信号372的32较低频率范围(或基本频率范围)分量由32频带QMF分析器364的输出确定,以及使得64频带QMF域信号372的32较高频率范围分量由64频带QMF域信号396的32较高频率范围分量确定。
自然地,QMF域信号的分量的数目可以根据特定需要而变化。自然地,基本频率范围(也被指示为较低频率范围)与带宽扩充频率范围(也被指示为较高频率范围)之间的过渡的频率位置可以取决于交越频率,或等同地,取决于脉冲编码调制音频数据322表示的音频信号的带宽。
下面,将描述与第一处理支路386有关的细节。第一支路386包括时域至频域转换器400,该时域至频域转换器400例如以快速傅立叶变换装置的形式来实现,该快速傅立叶变换装置被配置为基于下采样的脉冲编码调制音频数据381的512个时域采样的加窗部分383,提供512个快速傅立叶变换系数。因此,用在1与N=512范围内的后续整数频率段索引k来指示快速傅立叶变换频率段。
第一支路386还包括幅度值提供器402,该幅度值提供器402被配置为提供快速傅立叶变换系数的幅度值α
k。此外,第一支路386包括相位值提供器404,该相位值提供器404被配置为提供快速傅立叶变换系数的相位值
第一支路386还包括相位语音编码器406,该相位语音编码器406可以接收幅度值α
k及相位值
来作为输入信号表示型态,可以包括上述相位语音编码器130的功能。因此,相位语音编码器406可以输出第一修补的频域表示型态的范围在β
ζ与β
2ζ间的值β
2k。值β
2k以408指示,且可以等于第一修补的频域表示型态132的值。第一支路386还包括值复制工具410,该值复制工具可以管理值复制工具140的功能,且可以接收值β
2k(例如,范围在β
ζ与β
2ζ之间)作为输入信息。因此,第一值复制工具410可以提供范围在β
2ζ与β
3ζ之间的值β
k,该值β
k以412指示,且可以等于第二修补的频域表示型态142的值β
2ζ至β
3ζ。此外,第一支路386可以(可选地)包括第二值复制工具414,该第二值复制工具被配置为接收相位语音编码器406提供的值β
ζ与β
2ζ(也以408指示),并基于该值β
ζ与β
2ζ利用复制操作(有效地产生值β
ζ至β
2ζ(408)所描述的频谱的非谐波频移)提供频谱值β
3ζ至β
4ζ。因此,第二值复制工具414提供第三修补的频域表示型态的频谱值β
3ζ至β
4ζ,同样以416指示。
第一支路386可以包括可选内插器420,该可选内插器可以被配置为接收第二修补和第三修补的频域表示型态的值412、416(且可选地,也接收第一修补的频域表示型态的值408),并提供第二和第三修补(且可选地,也含第一修补)的频域表示型态的内插值422。
第一支路386还可以包括补零器424,该补零器被配置为接收第二和第三修补(且可选地,也含第一修补)的频域表示型态的内插值422(或可选地,也接收原始值412、416),并基于该内插值422获得频域表示型态的值的补零版本,该补零版本被补零以便适于频域至时域转换器428的尺度。
频域至时域转换器428例如可以作为快速傅立叶逆变换器来实现。举例而言,快速傅立叶逆变换428可以被配置为接收2048个(可选地,内插和补零的)频谱一组值,并基于该组值提供扩充带宽信号部分的时域表示型态430。第一路径386还包括合成加窗工具432,该合成加窗工具432被配置为接收扩充带宽信号部分的时域表示型态430,并应用合成加窗,以便获得扩充带宽信号部分430的合成加窗时域表示型态。
音频解码器300还包括第二处理路径388,该第二处理路径388与第一路径386相比执行非常类似的处理。然而,该第二路径388包括时域补零器438,该时域补零器438被配置为接收下采样的脉冲编码调制音频数据381的加窗瞬变部分383,并从加窗部分383导出补零版本439,使得补零部分439的开始与补零部分439的末尾以零填补,且使得瞬变被安排于补零部分439的中心区域(在补零的开始采样与补零的未尾采样之间)中。
第二路径388还包括时域至频域变换器440,例如,快速傅立叶变换器或QMF(正交镜像滤波器组)。该时域至频域变换器440通常比第一支路的时域至频域变换器400包括更多数目的频率段(例如,快速傅立叶变换频率段或QMF频带)。举例而言,快速傅立叶变换器440可被配置为从1024个时域采样的补零部分439导出1024个快速傅立叶变换系数。
第二路径388还包括幅度值确定器442以及相位值确定器444,虽然具有增加的尺度N=1024,但它们可以包括与第一支路386的对应装置402、404相同的功能。类似地,第二支路388还包括相位语音编码器446、第一值复制工具450、第二值复制工具454、可选内插器460、以及可选补零器464,虽然具有增加的尺度N=1024,它们可以包括与第一支路386的对应装置相同的功能。特别地,交越频带的索引ξ在第二支路388中例如高于第一支路386中的2倍。
因此,可以将例如包括4096个快速傅立叶变换系数的频域表示型态提供给快速傅立叶逆变换器468,其相应地提供具有4096个采样的时域信号470。
第二支路388还包括合成加窗工具472,该合成加窗工具472被配置为提供扩充带宽信号部分的时域表示型态470的加窗版本。
第二支路388还包括去零器,该去零器被配置为提供扩充带宽信号部分的缩短的、加窗时域表示型态478,该缩短的加窗时域表示型态478例如可以包括2048个采样。
因此,时域表示型态387用于脉冲编码调制音频信号322的非瞬变部分(例如,音频帧),,时域表示型态487用于脉冲编码调制音频信号322的瞬变部分。因此,在第二处理支路388中以较高频域分辨率处理瞬变部分,而在第一处理支路386中以较低频谱分辨率处理非瞬变部分。
2.3 包络格式化344
下面简要概述包络格式化344。另外,参考背景技术段的相应论述,它们也适用于本发明构想。
基于64频带QMF域信号396而获得的修补的QMF数据342可以由包络格式化344来处理,以获得输入至QMF合成器350中的信号表示型态348。该包络格式化例如可以改变修补QMF数据342的QMF域频带信号,以便执行噪声填充、以便重建丢失谐波、和/或以便获得反滤波。噪声填充、丢失谐波插入以及反滤波的变化例如可以由辅助信息346来控制,该辅助信息346可以从数据流310中提取。进一步的细节例如可参考国际标准ISO/IEC14496-3:2005(e),第3部分,第4子部分节4.6.18中SBR tool的讨论。然而,也可以依据需求应用包络格式化的不同的构想。
3.不同解决方案的讨论与比较
下面将提供本发明解决方案的简要讨论及概要。
依据本发明的实施例,例如依据图1的装置100以及依据图3的音频解码器300是(或包括)频带复制(SBR)内的新的修补算法。可以使用不同方式的频域修补,以便说明软件或硬件需求要求的不同的信号特性或限制。
在标准的SBR中,修补始终由QMF域内的复制操作来完成。这有时导致听觉伪像,特别是正弦波在LF与产生的HF部分的边界被复制到的彼此近邻内时。因此,引入了新的修补算法,通过利用相位语音编码器(见例如参考文献[13])避免了一些问题。此算法作为比较示例在第5图中示意。
标准的SBR具有听觉伪像的问题。参考文献[13]中提出的相位语音编码器方法具有复杂度,特别地因为需要计算大量的快速傅立叶变换。另外地,对于高修补(高伸缩因数)频谱变得很稀疏,这导致不期望的音频伪像。
两个实施例通过将不同修补的产生自时域移至频域避免了大量的快速傅立叶变换。在图6中,给出了示例,其中,至频域的变换借助于快速傅立叶变换来实现。然而,可以使用其它时域转换以代替傅立叶变换。
图3示出了图6的SBR修补演算法的混合解决方案。仅第一修补由相位语音编码器产生(例如,第一支路386的模块406,及第二支路388的模块446),而更高修补(例如,第二修补及第三修补)仅通过复制第一修补来产生(例如,利用第一支路386的值复制工具410、414,和/或第二支路388的值复制工具450、454)。这获得较不稀疏的频谱。
下面将简要阐述图6所示音频解码器中实现的比较算法和图3所示音频解码器中实现的本发明算法:
在图6所示音频解码器中实现的比较算法或参考算法包括下列步骤:
1.信号下采样(如果Nyquist准则未被损害)
2.对信号进行加窗(提出“Hann”窗,但也可以使用其它窗形状),以及自该信号中取长度N的所谓颗粒(grains)(例如,加窗信号部分383)。在信号上以跳距H移动窗。提出N/H=8次交叠。
3.如果颗粒(例如,加窗信号部分383)在边缘包含瞬变事件,其被补零(例如,通过补零器438),这导致频域中的过采样。
4.颗粒被变换到频域(例如,利用时域至频域变换器400、440)。
5.将频域颗粒(可选地)填补至修补算法的期望的输出长度。
6.计算幅度和相位(例如,利用装置402、404、442、444)。
7.将频率段内容n复制至伸缩因数s的位置sn。相位乘以伸缩因数s。这对于所有伸缩因数s来进行(仅针对频谱中覆盖期望修补的区域)。(a)ζ·(s-1)/s≤n≤ζ或(b)ζ/s≤n≤ζ;(b)由于修补交叠产生比(a)更密集的频谱。ζ表示LF部分的最高频率,所谓的交越频率。一般而言,针对新的采样位置(例如,频率位置)校正相位,这可以利用这里所讨论的算法或任一适当的备选算法来实现。
8.通过复制未得到数据的频率段可以通过应用内插函数来填充(例如,利用内插器420、460)。
9.将颗粒变换回至时域(例如,利用快速傅立叶逆变换器428、468)。
10.时域颗粒与合成窗相乘(再次提出Hann窗)(例如利用合成加窗工具432、472)。
11.如果完成步骤3的补零,零再次被去除(例如,利用去零器476)。
12.利用交叠和相加(OLA)(例如,利用交叠和相加390)分别创建扩充带宽信号或帧(例如,信号392)。
然而,在一些备选实施例中,可以交换各个单独步骤的顺序,且在一些备选实施例中,可以将一些步骤合并成单一步骤。
图3所示音频解码器中实现的本发明算法包括下列步骤:
1.信号下采样(如果Nyquist准则未被损害)
2.对信号进行加窗(提出“Hann”加窗,但也可以使用其它窗形状),并且自信号取长度N的所谓颗粒(例如,加窗信号部分383)。在信号上以跳距H移动窗。提出N/H=8次交叠。
3.如果颗粒(例如,加窗信号部分383)在边缘包括瞬变事件,其被补零(例如,通过补零器438),这导致频域中的过采样。
4.将颗粒变换到频域(例如,利用时域至频域变换器400、440)。
5.将频域颗粒(可选地)填补至修补算法的期望的输出长度。
6.计算幅度和相位(例如,利用装置402、404、442、444)。
7.a)将频率段内容n复制至位置2n。相位乘以2。(a)ζ·(s-1)/s≤n≤ζ或(b)ζ/s≤n≤ζ(见上文)。
7.b)对于1≤n≤ζ范围内的所有伸缩因数s>2,将频率段内容2n复制至位置sn。
8.通过复制未得到数据的频率段可以通过应用内插函数来填充(例如,利用内插器420、460)。
9.将颗粒变换回至时域(例如,利用快速傅立叶逆变换器428、468)。
10.时域颗粒与合成窗相乘(再次提出Hann窗)(例如利用合成加窗工具432、472)。
11.如果完成步骤3的补零,零再次被去除(例如,利用去零器476)。
12.利用交叠和相加(OLA)(例如,利用交叠合相加390)分别创建扩充带宽信号或帧(例如,信号392)。
然而,在一些备选实施例中,可以交换各个单独步骤的顺序,且在一些备选实施例中,可以将一些步骤合并成单一步骤。
因此,在参考算法(图6所示的音频解码器中实现)与本发明算法(图3所示的音频解码器中实现)中除了步骤7外的所有步骤都是相同的,步骤7已用下列步骤来替换:
7a)将频率段内容n复制至位置2n。相位乘以2。(a)ζ·(s-1)/s≤n≤ζ或(b)ζ/s≤n≤ζ(见上文)。
7.b)对于1≤n≤ζ范围内所有伸缩因数s>2,将频率段内容2n复制至位置sn。
总的,依据图1、2、3和4的实施例(以及还有图6所示的音频解码器)与传统解决方案相较时首先显著地减小复杂度。其次,它们允许与不同于平面SBR或如图5所呈现的不同的频谱修改(例如,见参考文献[13])。
举例而言,语音信号可能受益于依据图1、2、3和4的装置、音频解码器和方法执行的算法,因为典型针对语音信号的脉冲序列结构比参考文献[13]中提出的方法更好维护。
依据本发明的实施例的最突出应用是音频解码器,其经常于手持装置上实施,且因而依靠电池供电工作。
4.依据图4的方法
下面参考图4描述一种用于基于输入信号表示型态产生扩充带宽信号的表示型态的方法400,图4示出了这种方法的流程图。方法400包括步骤410:利用相位语音编码器,基于输入信号表示型态获得扩充带宽信号的第一修补的频域表示型态的值。方法400还包括步骤420:复制第一修补的频域表示型态的一组值,所述值是利用相位语音编码器而获得的,以获得第二修补的频域表示型态的一组值,其中,相比于第一修补第二修补与更高的频率相关联。方法400还包括步骤430:利用第一修补的频域表示型态的值和第二修补的频域表示型态的值,来获得扩充带宽信号的表示型态。
方法400可以由这里就发明装置而讨论的任何装置及功能来补充。
5.实现备选方案
虽然已经在装置的上下文中描述了一些方面,但是很显然的是,这些方面也表示对应方法的描述,其中,模块或装置对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对应装置的对应模块或项目或特征的描述。一些或所有这些方法步骤可以由(或利用)硬件装置来执行,例如像微处理器、可编程计算机或电路。在一些实施例中,最重要方法步骤中的某个或多个方法步骤由这种装置来执行。
视特定实现需求而定,本发明的实施例可以以硬件或软件实现。实现可以利用数字储存介质来执行,例如,其上储存有电可读控制信号的软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪速存储器,电可读控制信号与可编程计算机系统合作(或能够合作),使得执行相应方法。因此,数字储存媒体可以是计算机可读的。
依据本发明的一些实施例包括具有电可读控制信号的数据载体,电可读控制信号能够与可编程计算机系统合作,使得执行本文所描述的方法当中的一个方法。
大体上,本发明的实施例可被实现为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,该程序代码可操作用以执行诸方法当中的一个方法。该计算机代码例如可以被储存于机器可读载体上。
其它实施例包括储存于机器可读载体上用以执行本文所描述的诸方法当中的一个方法的计算机程序。
换言之,因此,本发明方法的实施例是计算机程序,具有当该计算机程序于计算机上运行时执行本文所予以描述的诸方法当中的一个方法的程序代码。
因此,本发明方法的另一实施例是数据载体(或数字储存介质、或计算机可读介质),包括被记录于其上用以执行本文所予以描述的诸方法当中的一个方法的计算机程序。
因此,本发明方法的另一实施例是数据流或信号序列,表示用以执行本文所予以描述的诸方法当中的一个方法的计算机程序。该数据流或信号序列例如可以被配置为,经由数据通信连接(例如经由互联网)来传送。
另一实施例包括处理装置,例如,计算机、或可编程逻辑器件,被配置为或适于执行本文所予以描述的诸方法当中的一个方法。
另一实施例包括计算机,其上安装有用以执行本文所予以描述的诸方法当中的一个方法的计算机程序。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所予以描述的诸方法的一些或所有功能。在一些实施例中,现场可编程门阵列可以与微处理器合作,以便执行本文所予以描述的诸方法当中的一个方法。一般地,该方法优选地由任一硬件装置执行。
上述实施例仅仅是为了说明本发明的原理。应理解,本文所予以描述的布置及细节的修改合变化对于本领域技术人员而言将是显而易见的。因此修改和变化意在仅由后附的专利权利要求范围限制,而非由实施例的描述与说明所提出的特定细节限制。
6.依据图5的比较示例
下面参考图5将简要讨论比较示例。依据图5的比较示例的功能类似于依据图3的音频解码器的功能。然而,依据图5的比较示例依赖于每支路的三个相位语音编码器590、592、594、或596、597、598的使用。如图5可见,各个单独快速傅立叶逆变换器、合成加窗工具、交叠器和与加法器与各个单独相位语音编码器相关联。此外,在一些子支路中,使用各个单独下采样(↓因数)和各个单独延迟(Z-采样)。因此,依据图5的装置500在计算上不如依据图3的装置300有效率。然而,装置500带来较传统音频解码器的显著改进。
7.依据图6的比较示例
图6示出了依据比较示例的另一音频解码器600。依据图6的音频解码器600类似于依据图3和5的音频解码器300、500。然而,音频解码器600也基于每一支路的多个各个单独相位语音编码器690、692、694或696、697、698的使用,这使得装置600在计算上比装置300要求更高,且在一些情况中带来可听伪像。然而,装置500带来较诸传统音频解码器的显著改进。
8.结论
鉴于上述讨论,可见的是,依据图1的装置100、依据图3的音频解码器300以及依据图4的方法400较诸比较示例带来一些优点,已参考图5和6简要讨论这些优点。
本发明构想适用于各种应用且能以多种方式被修改。特别地,快速傅立叶变换器可由QMF滤波器组来替换,且快速傅立叶逆变换器可由QMF合成器来替换。
此外,在一些实施例中,一些或所有的处理步骤可被归为单一步骤。例如,包括QMF合成及后续QMF分析的处理序列可以通过省略重复的变换来简化。
[3]T.Ziegler,A.Ehret,P.Ekstrand and M.Lutzky,“Enhancing mp3 with SBR:Features and Capabilities of the new mp3PRO Algorithm,”in 112th AES Convention,Munich,May 2002.
[4]International Standard ISO/IEC 14496-3:2001/FPDAM 1,“Bandwidth Extension,”ISO/IEC,2002.Speech bandwidth extension method and apparatus Vasu Iyengar et al.
[5]E.Larsen,R.M.Aarts,and M.Danessis.Efficient high-frequency bandwidth extension of music and speech.In AES 112th Convention,Munich,Germany,May 2002.
[6]R.M.Aarts,E.Larsen,and O.Ouweltjes.A unified approach to low-and highfrequency bandwidth extension.In AES 115th Convention,New York,USA,October 2003.
[7]K.A Robust Wideband Enhancement for Narrowband Speech Signal.Research Report,Helsinki University of Technology,Laboratory of Acoustics and Audio Signal Processing,2001.
[8]E.Larsen and R.M.Aarts.Audio Bandwidth Extension-Application to psychoacoustics,Signal Processing and Loudspeaker Design.John Wiley & Sons,Ltd,2004.
[9]E.Larsen,R.M.Aarts,and M.Danessis.Efficient high-frequency bandwidth extension of music and speech.In AES 112th Convention,Munich,Germany,May 2002.
[10]J.Makhoul.Spectral Analysis of Speech by Linear Prediction.IEEE Transactions on Audio and Electroacoustics,AU-21(3),June 1973.
[11]United States Patent Application 08/951,029,Ohmori,et al.Audio band width extending system and method.
[12]United States Patent 6895375,Malah,D & Cox,R.V.:System for bandwidth extension of Narrow-band speech.
[13]Frederik Nagel,Sascha Disch,“A harmonic bandwidth extension method for audio codecs,”ICASSP International Conference on Acoustics,Speech and Signal Processing,IEEE CNF,Taipei,Taiwan,April 2009.