CN111477245A

CN111477245A - 语音信号解码装置和语音信号编码装置

Info

Publication number: CN111477245A
Application number: CN202010063428.6A
Authority: CN
Inventors: S.纳吉塞蒂; 刘宗宪
Original assignee: Fraunhofer Institute For Applied Research Promotion
Current assignee: Fraunhofer Institute For Applied Research Promotion
Priority date: 2013-06-11
Filing date: 2014-06-10
Publication date: 2020-07-31
Anticipated expiration: 2034-06-10
Also published as: RU2015151169A; KR20160018497A; RU2015151169A3; US20190122679A1; BR122020016403B1; RU2018121035A3; RU2688247C2; PT3010018T; US20160111103A1; EP3010018B1; JP2019008316A; JP2019008317A; BR112015029574B1; MX353240B; US20170323649A1; US10157622B2; KR102158896B1; CN111477245B; WO2014199632A1; EP3010018A1

Abstract

对于具有高次谐波的谐波结构的输入信号，以低比特率更高效地进行扩频，以获得更好的声音质量。本发明被引入对语音信号的编码和解码进行扩频的装置。在本发明中，新的扩频编码确定与输入信号的高频带信号之间的相关性最高的低频频谱部分，通过其能量调整来复制高频频谱，基于从合成低频频谱所估计的高次谐波频率，调整复制出的高频频谱的频谱峰值位置，从而维持低频频谱和复制出的高频频谱之间的谐波关系。

Description

语音信号解码装置和语音信号编码装置

本申请为以下专利申请的分案申请：申请日为2014年06月10日，申请号为201480031440.1，发明名称为“进行语音信号的频带扩展的装置及方法”。

技术领域

本发明涉及语音信号处理，特别涉及用于语音信号的带宽扩展的语音信号编码及解码处理。

背景技术

在通信中，为了更高效地使用网络资源，在音频编解码器中导入了以下方法，即在主观性质量所能够允许的范围内，以低比特率压缩语音信号。由此，在对语音信号进行编码时，需要提高压缩效率来克服比特率的限制。

BWE(bandwidth extension：带宽扩展)是为了高效地以低比特率压缩WB(wideband：宽带)或SWB(super-wideband：超宽带)的语音信号而广泛用于语音信号编码的技术。编码中的BWE使用解码后的低频带信号，以参数方式表达高频带信号。即，BWE搜索并确定语音信号的低频带信号中的与高频带信号的子带类似的部分，对确定该类似部分的参数进行编码并发送该参数，接收侧使用低频带信号能够重新合成高频带信号。利用低频带信号的类似部分而不直接对高频带信号进行编码，由此能够减少传输的参数信息量，从而能够提高压缩效率。

作为利用了BWE功能的语音信号编解码器之一，有G.718-SWB。G.718-SWB的适用对象为VoIP装置、视频会议设备、电话会议设备以及便携电话。

G.718-SWB的结构表示在图1和图2中(例如参照非专利文献1)。

在图1所示的编码装置侧，以32kHz被采样到的语音信号(以下称为输入信号)，首先以16kHz被下采样(101)。由G.718核心编码单元对下采样后的信号进行编码(102)。在MDCT区域中进行SWB频带扩展。32kHz输入信号在MDCT区域中被转换(103)，并经由单音性估计单元受到处理(104)。基于输入信号的估计出的单音性(105)，将遗传(generic)模式(106)或正弦波(sinusoidal)模式(108)用于SWB的第一层编码。使用附加正弦波(additional sinusoid)对更高的SWB层进行编码(107及109)。

遗传模式用于输入帧的信号被视为非单音的情况。在遗传模式下，由G.718核心编码单元编码后的WB信号的MDCT系数(频谱)被用于SWB MDCT系数(频谱)的编码。SWB频带(7-14kHz)被分割为若干个子带，从被编码的标准化后的WB MDCT系数中，对于所有子带搜索相关性最高的部分。接着，对相关性最高的部分的增益进行比例计算，以能够重现SWB的子带的振幅级别(level)，获得SWB信号的高频分量的参数表示(参数表达)。

正弦波模式编码用于被分类为单音的帧。在正弦波模式下，将正弦波分量的有限集合添加至SWB频谱中，由此生成SWB信号。

在图2所示的解码装置侧，G.718核心编解码器以16kHz采样率对WB信号进行解码(201)。在经过后处理之后(202)，WB信号以32kHz采样率被上采样(203)。通过SWB频带扩展来重构SWB频率分量。SWB频带扩展主要在MDCT区域中进行。遗传模式(204)及正弦波模式(205)用于SWB的第一层的解码。使用附加正弦波模式对更高的SWB层进行解码(206和207)。重构后的SWB MDCT系数被转换到时域(208)，在后处理(209)之后，与由G.718核心解码单元解码后的WB信号相加，重构时域的SWB输出信号。

现有技术文献

非专利文献

非专利文献1：ITU-T Recommendation G.718Amendment 2,New Annex B onsuperwideband scalable extension for ITU-T G.718and corrections to main bodyfixed-point C-code and description text,March 2010.

发明内容

发明要解决的问题

如G.718-SWB的结构所示，通过正弦波模式或遗传模式中的任一种模式进行输入信号的SWB频带扩展。

例如对于遗传编码的机制，通过从WB频谱中搜索相关性最高的部分来生成(获得)高频分量。通常，该方法类型特别在对于具有高次谐波的信号的性能方面存在问题。该方法完全未维持低频带的高次谐波分量(单音分量)和复制出的高频带的单音分量之间的谐波(高次谐波)关系。这成为致使听觉质量变差的不明确的频谱的原因。

因此，为了抑制由不明确的频谱或复制出的高频带信号的频谱(高频频谱)中的混乱生成的听觉噪音(或伪差)，较为理想的是，维持低频带信号的频谱(低频频谱)和高频频谱之间的谐波关系。

为了解决该问题，G.718-SWB的结构包括正弦波模式。正弦波模式使用正弦波对重要的单音分量进行编码，因此维持了良好的谐波结构。然而，存在以下问题，即若根据人工的单音信号简单地对SWB分量进行编码，则作为结果所获得的声音质量未必足够好。

解决问题的方案

本发明的目的在于改善上述遗传模式所拥有的对于具有高次谐波(谐波)的信号的编码性能，本发明提供用于维持频谱的微细(fine)结构，并且维持低频频谱与复制出的高频频谱之间的单音分量的谐波结构的高效方法。首先，通过从WB频谱来估计高次谐波频率的值，由此，获得低频频谱的单音分量和高频频谱的单音分量之间的关系。其次，对在编码装置侧编码的低频频谱进行解码，根据索引信息，对与高频频谱的子带之间的相关性最高的部分进行能量级别调整之后，将其复制到高频带中，由此复制高频频谱。基于估计出的高次谐波频率的值，确定或调整复制出的高频频谱中的单音分量的频率。

低频频谱的单音分量和复制出的高频频谱的单音分量之间的谐波关系，仅在高次谐波频率的估计为准确的情况下得到维持。因此，为了提高估计精度，在估计高次谐波频率之前，对构成单音分量的频谱峰值进行修正。

发明的效果

根据本发明，特别地对于具有谐波结构的输入信号，能够准确地复制通过频带扩展所重构的高频频谱中的单音分量，从而能够以低比特率高效地获得良好的声音质量。

附图说明

图1是表示G.718-SWB编码装置的结构的图。

图2是表示G.718-SWB解码装置的结构的图。

图3是表示本发明实施方式1的编码装置的结构的方框图。

图4是表示本发明实施方式1的解码装置的结构的方框图。

图5是表示频谱峰值检测的修正方法的图。

图6是表示高次谐波频率调整方法的一例的图。

图7是表示高次谐波频率调整方法的其他例子的图。

图8是表示本发明实施方式2的编码装置的结构的方框图。

图9是表示本发明实施方式2的解码装置的结构的方框图。

图10是表示本发明实施方式3的编码装置的结构的方框图。

图11是表示本发明实施方式3的解码装置的结构的方框图。

图12是表示本发明实施方式4的解码装置的结构的方框图。

图13是表示对于合成出的低频频谱的高次谐波频率调整方法的一例的图。

图14是表示对合成出的低频频谱注入缺失的高次谐波的近似方法的一例的图。

具体实施方式

使用图3～图14将本发明的主要原理记载于该部分。本领域技术人员能够在不脱离本发明宗旨的范围内，变更或修正本发明。

(实施方式1)

本发明的编解码器的结构表示于图3和图4。

在图3所示的编码装置侧，采样后的输入信号首先被下采样(301)。下采样后的低频带的信号(低频信号)由核心编码单元进行编码(302)。核心编码参数被发送至复用单元(307)以形成比特流。另外，输入信号由时间-频率(T/F)转换单元(303)转换为高频带信号，该高频带信号(高频信号)被分割为多个子带。编码单元也可以是现有的窄带或宽带的音频或声音编解码器，可列举G.718作为一例。核心编码单元(302)不仅进行编码，还包括本地解码单元及时间-频率转换单元，进行本地解码，对解码后的信号(合成信号)进行时间-频率转换，向能量标准化单元(304)供应合成低频信号。标准化后的频域的合成低频信号以如下方式被用于频带扩展。首先，类似度搜索单元(305)在上述标准化后的低频合成数信号中，确定与输入信号的高频信号的各子带之间的相关性最高的部分，并向复用单元(307)发送作为搜索结果的索引信息。其次，估计该相关性最高的部分和输入信号的高频信号的各子带之间的比例因子信息(306)，编码后的比例因子信息被发送到复用单元(307)。

最后，复用单元(307)将核心编码参数、索引信息及比例因子信息统一到比特流中。

在图4所示的解码装置中，解复用单元(401)对比特流进行解复用，获得核心编码参数、索引信息及比例因子信息。

核心解码单元使用核心编码参数，重构合成低频信号(402)。合成低频信号被上采样(403)并且还被用于频带扩展(410)。

以如下方式进行上述频带扩展。即，对合成低频信号进行能量标准化(404)，将根据索引信息确定出的低频信号复制到高频带中(405)，该索引信息确定与编码装置侧所导出的输入信号的高频信号的各子带之间的相关性最高的部分，根据比例因子信息进行能量级别调整，以使能量级别与输入信号的高频信号的能量级别相同(406)。

另外，从合成低频信号的频谱来估计高次谐波频率(407)。估计出的高次谐波频率用于调整高频信号的频谱中的单音分量的频率(408)。

重构后的高频信号从频域被转换到时域(409)，与上采样后的合成低频信号相加而生成时域的输出信号。

以下说明高次谐波频率的估计方式的详细处理。

1)从合成低频信号(LF)的频谱中，选择用于估计高次谐波频率的部分。选择出的部分应具有鲜明的谐波结构，以使从选择出的部分所估计的高次谐波频率能够可靠。通常，对于所有高次谐波而言，在1-2kHz至截止频率附近会观察到鲜明的谐波结构。

2)将选择出的部分分割为接近于人的基频的宽度(100Hz～400Hz左右)的多个区块。

3)在各区块内搜索振幅最大的频谱(频谱峰值)及频谱峰值的频率(频谱峰值频率)。

4)为了避免错误或提高对于高次谐波频率的估计精度，对于确定出的频谱峰值实施后处理。

使用图5所示的频谱来说明后处理的一例。

基于合成低频信号的频谱计算出频谱峰值及频谱峰值频率。然而，振幅小且与相邻的频谱峰值之间的频谱峰值频率的间隔非常短的频谱峰值会被删除。由此，避免计算高次谐波频率的值时的估计错误。

1)计算确定出的频谱峰值频率的间隔。

2)基于确定出的频谱峰值频率的间隔来估计高次谐波频率。以下表示估计高次谐波频率的一个方法。

Spacing_peak(n)＝Pos_peak(n+1)-Pos_peak(n),n∈[1,N-1]

其中

Est_Harmonic为计算的高次谐波频率；

Spacing_peak为检测的峰值位置之间的频率间隔；

N为检测的峰值位置的数；

Pos_peak为检测的峰值的位置。

还能够以如下所述的方法来估计高次谐波频率。

1)在合成低频信号(LF)的频谱中，选择以下的部分来估计高次谐波频率，该部分具有鲜明的谐波结构，能够确保所估计的高次谐波频率的可靠性。通常，对于所有高次谐波而言，在1-2kHz至截止频率附近会观察到清楚的谐波结构。

2)确定上述合成低频信号(频谱)的被选择出的部分中的具有最大振幅(绝对值)的频谱和其频率。

3)从该振幅最大的频谱的频谱频率，确定具有大致相等的频率间隔、且振幅的绝对值超过规定的阈值的频谱峰值的集合。能够采用例如所述被选择出的部分的频谱振幅的标准差的两倍的值作为规定的阈值。

4)计算上述频谱峰值频率的间隔。

5)基于上述频谱峰值频率的间隔来估计高次谐波频率。此外，即使在此情况下，也能使用式(1)的方法来估计高次谐波的频率。

然而，在比特率极低的情况下，有时合成低频信号的频谱内的高次谐波分量未充分地被编码。在此情况下，所确定的若干个频谱峰值有可能完全未对应于输入信号的高次谐波分量。因此，在计算高次谐波频率时，频谱峰值频率的间隔与平均值大不相同的情况下，更好是将其从该计算对象中排除。

另外，有时因用于编码的比特率的限制例如频谱峰值的振幅较小，未必能够对所有高次谐波分量进行编码(即，合成低频信号的频谱的若干个高次谐波分量缺失)。在此种情况下，可考虑在缺失的高次谐波部分提取出的频谱峰值频率的间隔为在具有良好的谐波结构的部分提取出的频谱峰值频率的间隔的两倍或数倍。在此情况下，将规定的范围中所含的频谱峰值频率的间隔的提取值的平均值作为高次谐波频率的估计值，该规定的范围包含最大频谱峰值频率的间隔。由此，能够适当地复制高频频谱。具体而言，包含以下的步骤。

1)确定频谱峰值频率的间隔的最小值及最大值。

Spacing_peak(n)＝Pos_peak(n+1)-Pos_peak(n),n∈[1,N-1]

Spacing_min＝min({Spacing_peak(n)})；

Spacing_max＝max({Spacing_peak(n)})；…(2)

其中

Spacing_peak为检测的峰值位置之间的频率间隔；

Spacing_min为检测的峰值位置之间的最小频率间隔；

Spacing_max为检测的峰值位置之间的最大频率间隔；

N为检测的峰值位置的数；

Pos_peak为检测的峰值的位置；

2)确定下一范围中的所有频谱峰值频率的间隔。

[k*Spacing_min,Spacing_max],k∈[1,2]

3)将在上述范围中确定的频谱峰值频率的间隔的平均值作为高次谐波频率的估计值。

其次，以下说明高次谐波频率调整方式的一例。

1)确定合成低频信号(LF)的频谱中的编码后的最后的频谱峰值、及其频谱峰值频率。

2)确定通过频带扩展而复制出的高频频谱内的频谱峰值和频谱峰值频率。

3)以合成低频信号频谱的频谱峰值中的最大频谱峰值频率为基准来调整频谱峰值频率，以使频谱峰值频率的间隔与高次谐波频率间隔的估计值相等。该处理表示于图6。如图6所示，首先，确定合成低频信号频谱中的最大频谱峰值频率、以及复制出的高频频谱内的频谱峰值。接着，将复制出的高频频谱内的具有最小频谱峰值频率的频谱峰值，移位至与合成低频信号频谱的最大频谱峰值频率具有Est_Harmonic的间隔的频率。将复制出的高频频谱内的频谱峰值频率第二小的频谱峰值，移位至与上述移位后的最小频谱峰值频率具有Est_Harmonic的间隔的频率。对于复制出的高频频谱内的所有频谱峰值的频谱峰值频率反复地进行该处理，直到如上所述的调整完成为止。

另外，还能采用如下所述的高次谐波频率调整方式。

1)确定合成低频信号(LF)频谱的具有最大频谱峰值频率的频谱峰值。

2)确定通过频带扩展而频带拓宽的高频(HF)频谱内的频谱峰值及频谱峰值频率。

3)以合成低频信号频谱的最大频谱峰值频率为基准，计算HF频谱中所能采用的频谱峰值频率。使通过频带扩展复制出的高频频谱内的各频谱峰值，向计算出的频谱峰值频率中的最接近各频谱峰值频率的频率移动。该处理表示于图7。如图7所示，首先提取合成低频频谱的具有最大频谱峰值频率的频谱峰值、及复制出的高频频谱内的频谱峰值。接着，计算复制出的高频频谱内所能采用的频谱峰值频率。将与合成低频信号频谱的最大频谱峰值频率具有Est_Harmonic的间隔的频率，作为复制出的高频频谱内的频谱峰值所能第一采用的频谱峰值的频率。其次，将与上述能第一被采用的频谱峰值频率具有Est_Harmonic的间隔的频率，作为能够第二被采用的频谱峰值的频率。只要能够在高频频谱内进行计算，则反复进行该处理。

然后，使在复制出的高频频谱中所提取的频谱峰值，移位至上述计算出的能采用的频谱峰值频率中的最接近频谱峰值频率的频率。

估计高次谐波的值Est_Harmonic有时也不对应于整数的频率点。在此情况下，选择频谱峰值频率，以使其成为最接近基于Est_Harmonic所导出的频率的频率点。

此外，还可以考虑利用前一帧的频谱来估计高次谐波频率的高次谐波频率估计方法、以及单音分量的频率调整方法，该单音分量的频率调整方法考虑了前一帧的频谱，以在调整单音分量时顺利地移帧。另外，还可以即使令单音分量的频率移位，仍维持原来频谱的能量级别的方式调整振幅。这些轻微的变更均包含于本发明的范围。

上述均为例示，本发明的构思并不限定于这些例示。本领域技术人员能够在不脱离本发明宗旨的范围内，变更或修正本发明。

[效果]

本发明的频带扩展方法使用与高频频谱之间的相关性最高的合成低频信号频谱来复制高频频谱，并且使频谱峰值向估计出的高次谐波频率移位。由此，能够维持频谱的精细结构、及低频带的频谱峰值和复制出的高频带的频谱峰值之间的谐波结构这两者。

(实施方式2)

本发明的实施方式2表示于图8和图9。

除了高次谐波频率估计单元(708，709)、高次谐波频率比较单元(710)以外，实施方式2的编码装置与实施方式1大致相同。

利用合成低频频谱(708)和输入信号的高频频谱(709)来分别估计高次谐波频率，基于两者的估计值的比较结果(710)发送标志信息。作为一例，能够以如下方式导出标志信息。

if

Est_{Harmonic_LF}∈[Est_{Harmonic_HF}-Threshold,Est_{Harmonic_HF}+Threshold]

Flag＝1

Otherwise

Flag＝0…(3)

其中

Est_{Harmonic_LF}为来自合成低频频谱的估计高次谐波频率；

Est_{Harmonic_HF}为来自合成高频频谱的估计高次谐波频率；

Threshold为对于Est_{Harmonic_LF}和Est_{Harmonic_HF}的差分而预先设定的阈值；

Flag为表示是否要应用谐波调整的标志信号。

即，对从合成低频信号的频谱(合成低频频谱)所估计的高次谐波的频率Est_{Harmonic_LF}、与从输入信号的高频频谱所估计的高次谐波频率Est_{Harmonic_HF}进行比较，在两个值的差分足够小的情况下，认为根据合成低频频谱进行的估计足够准确，并设置表示可以用于调整高次谐波频率的标志(Flag＝1)。另一方面，在两个值的差分不小的情况下，认为来自合成低频频谱的估计值不准确，并设置表示不应用于调整高次谐波频率的标志(Flag＝0)。

在图9所示的解码装置侧，根据标志信息的值来决定是否对于复制出的高频频谱适用高次谐波频率调整(810)。即，解码装置在Flag＝1的情况下进行高次谐波频率调整，在Flag＝0的情况下不进行高次谐波频率调整。

[效果]

对于若干个信号而言，有时从合成低频频谱估计出的高次谐波频率与输入信号的高频频谱的高次谐波频率不同。特别是在比特率低的情况下，无法良好地维持低频频谱的谐波结构。通过发送标志信息，能够避免使用错误的高次谐波的频率估计值来调整单音分量。

(实施方式3)

本发明的实施方式3表示于图10及图11。

除了差分器(910)以外，实施方式3的编码装置与实施方式2大致相同。

利用合成低频频谱(908)和输入信号的高频频谱(909)来分别估计高次谐波频率。计算两个估计高次谐波频率的差分(Diff)(910)，并向解码装置侧发送该差分(Diff)。

在图11所示的解码装置侧，将差分值(Diff)与来自合成低频频谱获得的高次谐波频率估计值相加(1010)，新计算出的高次谐波频率的值被用于复制出的高频频谱中的高次谐波频率调整。

还可以直接向解码单元发送从输入信号的高频频谱估计出的高次谐波频率来代替差分值。接着，使用输入信号的高频频谱的高次谐波频率接收值进行高次谐波频率调整。由此，无需在解码装置侧从合成低频频谱来估计高次谐波频率。

[效果]

对于若干个信号而言，有时根据合成低频频谱估计出的高次谐波频率与输入信号的高频频谱的高次谐波频率不同，因此，通过发送差分值或从输入信号的高频频谱导出的高次谐波频率的值，接收侧即解码装置能够更高精度地对频带扩展后复制出的高频频谱的单音分量进行调整。

(实施方式4)

本发明的实施方式4表示于图12。

实施方式4的编码装置与其他的以往的编码装置或者实施方式1、2或3相同。

在图12所示的解码装置侧，从合成低频频谱来估计高次谐波频率(1103)。该高次谐波频率的估计值被用于低频频谱中的高次谐波注入(1104)。

特别是在能够利用的比特率较低的情况下，有时若干个低频频谱的高次谐波分量几乎未被编码，或完全未被编码。在此情况下，能够使用高次谐波频率的估计值来注入缺失的高次谐波分量。

将该内容表示于图13。在图13中，已知合成低频(LF)频谱内有高次谐波分量缺失。其频率能够使用高次谐波频率的估计值导出。另外，其振幅只要使用例如其他的现有的频谱峰值的振幅的平均值、或与频率轴上缺失的高次谐波分量接近的现有的频谱峰值的振幅的平均值即可。注入根据该频率及振幅生成的高次谐波分量以恢复缺失的高次谐波分量。

以下，说明注入缺失的高次谐波分量的其他方法。

1.使用编码后的LF频谱来估计高次谐波频率(1103)。

1.1使用在编码后的低频频谱内确定出的频谱峰值频率的间隔来估计高次谐波频率。

1.2由缺失的高次谐波部分导出的频谱峰值频率的间隔的值是在维持着良好谐波结构的部分导出的频谱峰值频率的间隔的值的两倍或数倍。这样的频谱峰值频率的间隔被分成不同种类的组，对于各个组估计平均的频谱峰值频率的间隔。以下说明其细节。

a.确定频谱峰值频率的间隔的值的最小值及最大值。

Spacing_peak(n)＝Pos_peak(n+1)-Pos_peak(n),n∈[1,N-1]

Spacing_min＝min({Spacing_peak(n)})；

Spacing_max＝max({Spacing_peak(n)})；…(4)

其中

Spacing_peak为检测的峰值位置之间的频率间隔；

Spacing_min为检测的峰值位置之间的最小频率间隔；

Spacing_max为检测的峰值位置之间的最大频率间隔；

N为检测的峰值位置的数；

Pos_peak为检测的峰值的位置。

b.确定下一范围中的所有间隔的值。

r₁＝[Spacing_min,k*Spacing_min)

r₂＝[k*Spacing_min,Spacing_max],1<k≤2

c.计算在上述范围中所确定的间隔的值的平均值作为高次谐波频率的估计值。

其中

Est_HarmonicLF1、Est_HarmonicLF2为估计谐波频率；

N₁为属于r₁的检测出的峰值位置的数；

N₂为属于r₂的检测出的峰值位置的数。

2.使用高次谐波频率的估计值来注入缺失的高次谐波分量。

2.1将选择出的LF频谱分割为若干个区域。

2.2通过使用区域信息及估计出的频率来确定缺失的高次谐波。

例如，将选择出的LF频谱分割为三个区域r₁、r₂、r₃。

基于区域信息，确定高次谐波并注入高次谐波。

根据对高次谐波的信号特性，高次谐波之间的谱隙在r₁及r₂的区域中为Est_HarmonicLF1，在r₃的区域中为Est_HarmonicLF2。该信息能够用于扩展LF频谱。将该内容进一步表示于图14。在图14中，已知在LF频谱的区域r₂中有缺失的高次谐波分量。其频率能够使用高次谐波频率的估计值Est_HarmonicLF1导出。

同样地，Est_HarmonicLF2用于追踪及注入区域r₂中缺失的高次谐波。

另外，其振幅能够使用未缺失的所有高次谐波分量的振幅的平均值、或连接于缺失的高次谐波分量前后的高次谐波分量的振幅的平均值。或者，振幅还可以使用WB频谱中的具有最小振幅的频谱峰值。使用该频率及振幅生成的高次谐波分量被注入LF频谱以恢复缺失的高次谐波分量。

[效果]

对于若干个信号而言，有时未维持合成低频频谱。特别是在比特率低的情况下，若干个高次谐波分量有可能会缺失。在LF频谱中注入缺失的高次谐波分量，由此，不仅能够扩展LF，而且能够提高所重构的高次谐波的谐波特性。由此，能够抑制由高次谐波缺失造成的听觉上的影响，从而能够进一步提高声音质量。

2013年6月11日提出申请的特愿2013-122985的日本申请中所含的说明书、附图及说明书摘要的公开内容均被引用于本申请。

工业实用性

本发明的编码装置、解码装置以及编码/解码方法能适用于无线通信终端装置、移动通信系统中的基站装置、电话会议终端装置、视频会议终端装置及VOIP终端装置。

Claims

1.语音信号解码装置，包括：

解复用单元，从由编码语音信号的编码装置发送的编码信息中，取出核心编码参数、索引信息以及比例因子信息；

核心解码单元，对所述核心编码参数进行解码，获得合成低频频谱；

频谱复制单元，基于所述索引信息，使用所述合成低频频谱复制高频子带频谱；以及

频谱包络调整单元，使用所述比例因子信息，调整复制出的所述高频子带频谱的振幅，

所述语音信号解码装置使用所述合成低频频谱和所述高频子带频谱生成输出信号，

所述语音信号解码装置还包括：

高次谐波频率估计单元，估计复制出的所述高频子带频谱中的高次谐波分量的频率；以及

高次谐波频率调整单元，用使用所述合成低频频谱所估计的高次谐波频率来调整高频频谱中的高次谐波分量的频率。

2.如权利要求1所述的语音信号解码装置，

所述高次谐波频率估计单元包括：

分割单元，将在所述合成低频频谱中预先选择出的部分分割为规定数的区块；

频谱峰值确定单元，求各区块中的具有最大振幅的频谱即频谱峰值和所述频谱峰值的频率；

间隔计算单元，计算确定出的所述频谱峰值的频率的间隔；以及

高次谐波频率计算单元，使用确定出的所述频谱峰值的频率的间隔，计算所述高次谐波频率。

3.如权利要求1所述的语音信号解码装置，

所述高次谐波频率估计单元包括：

频谱峰值确定单元，确定所述合成低频频谱的预先选择出的部分的振幅绝对值最大的频谱、和距所述频谱在频率轴上位于大致等间隔的位置且振幅绝对值为规定的阈值以上的频谱；

高次谐波频率计算单元，使用确定出的所述频谱的频率的间隔，计算所述高次谐波频率。

4.如权利要求2所述的语音信号解码装置，

所述高次谐波频率调整单元包括：

低频频谱峰值确定单元，确定所述合成低频频谱的频谱峰值中的频率最大的频谱峰值的频率；

高频频谱峰值确定单元，确定复制出的所述高频子带频谱中的多个频谱峰值的频率；以及

调整单元，以所述合成低频频谱的频谱峰值中的频率最大的频谱峰值的频率为基准，调整所述多个频谱峰值的频率，以使所述多个频谱峰值的频率的间隔与估计出的所述高次谐波频率相等。

5.如权利要求2所述的语音信号解码装置，

所述高次谐波频率调整单元包括：

高频频谱峰值确定单元，确定复制出的所述高频子带频谱中的多个频谱峰值的频率；

频谱峰值频率计算单元，计算将估计出的所述高次谐波频率的整数倍的频率与所述合成低频频谱的频谱峰值中的频率最大的频谱峰值的频率相加所得的频率，作为能采用的频谱峰值频率；以及

调整单元，将复制出的所述高频子带频谱内的所述多个频谱峰值的频率，向所述计算出的能采用的频谱峰值频率中的最接近的频率来调整。

6.语音信号解码装置，包括：

解复用单元，对由编码语音信号的编码装置复用并发送的核心编码参数、索引信息、比例因子信息以及标志信息进行解复用；

核心解码单元，将所述核心编码参数解码为时域的低频信号，并且将解码后的所述低频信号转换到频域来获得合成低频频谱；

频谱复制单元，从所述合成低频频谱，基于所述索引信息来重构高频子带频谱；

频谱包络调整单元，使用所述比例因子信息，调整复制出的所述高频子带频谱的振幅；

高次谐波频率估计单元，从所述合成低频频谱来估计高次谐波的频率；

高次谐波频率调整单元，基于估计出的所述高次谐波频率，调整根据所述合成低频频谱复制出的所述高频子带频谱中的单音分量的频率；以及

决定单元，基于所述标志信息，决定是否使所述高次谐波频率调整单元进行动作，

使用所述合成低频频谱和所述高频子带频谱，生成输出信号。

7.如权利要求1或权利要求6所述的语音信号解码装置，还包括：

缺失高次谐波分量确定单元，基于估计出的所述高次谐波的频率，确定所述合成低频频谱中缺失的高次谐波分量；以及

高次谐波注入单元，在所述合成低频频谱中注入缺失的所述高次谐波分量。

8.如权利要求7所述的语音信号解码装置，

所述高次谐波注入单元生成将未缺失的所有高次谐波分量的振幅的平均值或频率轴上的位于缺失的高次谐波分量前后的高次谐波分量的振幅的平均值为振幅的高次谐波分量。

9.语音信号编码装置，包括：

下采样单元，对输入语音信号即输入信号以低采样率进行下采样；

核心编码单元，将下采样后的所述信号编码为核心编码参数，输出所述核心编码参数，并且本地地对所述核心编码参数进行解码，转换为频域来获得合成低频频谱；

能量标准化单元，使所述合成低频频谱标准化；

时间-频率转换单元，将所述输入信号转换为频谱，并且将频率比所述合成低频频谱更高的频谱分割为多个子带即高频子带；

类似度搜索单元，对于各所述高频子带，从标准化后的所述合成低频频谱确定相关性最高的部分，输出确定结果作为索引信息；

比例因子估计单元，估计所述各高频子带与从所述合成低频频谱确定出的所述相关性最高的部分之间的能量的比例因子，并输出所述比例因子作为比例因子信息；

高次谐波频率估计单元，估计所述合成低频频谱的高次谐波的频率和所述转换后的输入信号的高次谐波的频率；以及

高次谐波频率比较单元，对所述两个高次谐波频率进行比较，判断是否应进行高次谐波的频率调整，并输出所述判断结果作为标志信息。

10.语音信号编码装置，包括：

类似度搜索单元，对于各所述高频子带，从所述低频频谱确定相关性最高的部分，输出确定结果作为索引信息；

比例因子估计单元，估计各所述高频子带和从所述合成低频频谱确定出的所述相关性最高的部分之间的能量的比例因子，并输出所述比例因子作为比例因子信息；以及

高次谐波频率估计单元，估计并输出所述合成低频频谱的高次谐波的频率和转换后的所述输入信号的高次谐波的频率。