CN101471072A - 高频重建方法、编码模块和解码模块 - Google Patents
高频重建方法、编码模块和解码模块 Download PDFInfo
- Publication number
- CN101471072A CN101471072A CN 200710305087 CN200710305087A CN101471072A CN 101471072 A CN101471072 A CN 101471072A CN 200710305087 CN200710305087 CN 200710305087 CN 200710305087 A CN200710305087 A CN 200710305087A CN 101471072 A CN101471072 A CN 101471072A
- Authority
- CN
- China
- Prior art keywords
- frequency
- band
- low
- sub
- energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 102
- 230000010076 replication Effects 0.000 claims abstract description 138
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000001914 filtration Methods 0.000 claims abstract description 12
- 238000004458 analytical method Methods 0.000 claims description 45
- 238000001514 detection method Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 22
- 238000005314 correlation function Methods 0.000 claims description 6
- 238000005311 autocorrelation function Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 51
- 230000000875 corresponding effect Effects 0.000 description 38
- 230000005236 sound signal Effects 0.000 description 16
- 230000003044 adaptive effect Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 6
- 230000007423 decrease Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 101100446506 Mus musculus Fgf3 gene Proteins 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 238000007906 compression Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 101000767160 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) Intracellular protein transport protein USO1 Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- SZKQYDBPUCZLRX-UHFFFAOYSA-N chloroprocaine hydrochloride Chemical compound Cl.CCN(CC)CCOC(=O)C1=CC=C(N)C=C1Cl SZKQYDBPUCZLRX-UHFFFAOYSA-N 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明实施例公开一种高频重建方法,包括:对音频或语音信号进行滤波处理得到低频子带和高频子带;确定频带复制策略;根据所述确定的频带复制策略获取所述低频子带与高频子带的相关性,为高频子带选择相关性大的低频子带作为最优复制频带,并输出包括选择频带的对应关系的高频重建参数信息。本发明还提供一种高频重建方法:接收包括选择频带的对应关系的高频重建参数信息,所述选择频带的对应关系具体为相关性大的低频子带和高频子带之间对应;在高频段根据所述包括选择频带的对应关系的高频重建参数信息将低频子带复制作为高频子带。相应的,本发明实施例提供一种编码模块和解码模块。本发明实施例提供的技术方案能够更准确的进行高频重建。
Description
技术领域
本发明涉及通信技术领域,具体涉及一种高频重建方法、编码模块和解码模块。
背景技术
在音频和语音处理技术中,进行高频重建是一项比较关键的技术。以频带复制(SBR)为代表的高频压缩和恢复技术是目前为止效果比较好的一种高频重建方法,它把低频段的波形复制到高频段部分,再利用编码时候已提取的能量调整参数和谐波调整参数对复制的高频段进行修复,从而达到高频重建的目的。
现有技术利用低频频段信号进行高频重建的方法主要有两种,请参阅以下介绍:
现有技术一:
把音频或语音的低频信号通过一个数字滤波组,得到一组低频子带信号;再把该低频子带组作为一个整块信号来进行高频信号的复制。整个高频频段信号的复制方法是将高频频段按照频率由低到高划分成若干段,每段与上述整块低频信号的带宽大致相同;然后将整块低频子带组连续复制到高频频段的每一段。这样,整块低频子带组会被周期性地在高频频段使用若干次,直到整个需要恢复的高频频段都被复制完成为止,具体方式有两种:1)把整块低频子带组平移到对应的高频频段,该方式可参阅图1,是现有技术一低频子带的整体平移复制示意图;2)把整块低频子带组先折叠,即颠倒了子带排列顺序,再把整块低频子带组平移到对应的高频频段,该方式可参阅图2,是现有技术一低频子带的整体折叠平移示意图。复制过程中,方式1)和2)可能会交叉使用。这样,整块低频子带组会被周期性地使用,直到整个需要恢复的高频频段都被复制完成为止。
请参阅图4,是现有技术原始音频及其各子带信号的能量波形图(为了直观比较,图中只画出前29个子带的波形)。图5是现有技术原始音频各子带能量波形的三维图。图6是采用现有技术一中的方式1)进行高频重建后得到的各子带信号的能量波形图,图7是对应的各子带能量三维图。图8是采用现有技术一中的方式2)进行高频重建后得到的各子带信号的能量波形,图9是对应的各子带能量三维图。对于能量波形图,其中所示波形的结构均是:最下面的波形是原始音频波形;标号第0到第8条曲线是低频子带波形,它们将被用来复制高频子带;标号第8和第9之间是高频和低频的分界线;从第9条曲线向上代表的所有子带,都是高频重建和处理的范围。对于能量三维图,图中描述的音频参数分别是能量幅度,音频帧数(30帧)和子带数(29个)。对应着能量波形图所示的处理过的29个子带。其中,第9个子带以上是高频处理部分。
现有技术二:
把低频子带通过低通滤波器组,得到一组低频子带。在这里,不再像现有技术一那样,把选取的低频子带组作为一个整体,整段地连续复制需要恢复的高频部分。而利用低频子带组中的子带,分别对应地恢复一些离散分布的高频子带。
在高频部分,如果有非常丰富的谐波分量,那么谐波分量的频率很多都是其相应基频的整数倍。在这一思想的指导下,现有技术二提出,如果高频部分某些子带的子带序号是2、3、4、5等自然数的整数倍,换句话说,某些高频子带和低频子带之间存在倍数的对应关系,那么这些子带很可能存在丰富的谐波成分,需要重点恢复。
请参阅图3,是现有技术二低频子带的离散复制示意图。音频信号的整个频段通过子带滤波会被划分三十三个子带(子带序号依次为0、1、2、......、31、32)。其中,低频子带组包括第0、1、2、......、7等八个子带,需要恢复的高频子带组包括第8、9、10、......、31、32等二十五个子带。其中,低频子带组每次尽量提供四个连续子带来完成复制。
首先开始的是复制过程II。因为高频子带组中的第8、10、12、14四个子带的序号都是2的整数倍,则从低频子带组中选取第4、5、6、7四个子带,依次对应恢复第8、10、12、14四个高频子带。
然后是复制过程III。高频子带组中的第9、12、15、18、21五个子带的序号都是3的整数倍,但第12子带刚刚被复制过,其位置还影响了这些子带的连续性,则从低频子带组中选取第3、5、6、7四个子带,依次对应恢复第9、15、18、21四个高频子带。
接着是复制过程IV。高频子带组中的第8、12、16、20、24、28等子带的序号都是4的整数倍,但第8、12子带已被复制过,则从低频子带组中选取第4、5、6、7四个子带,依次对应恢复第16、20、24、28四个高频子带。
最后是复制过程V。高频子带组中的第10、15、20、25、30等子带的序号都是5的整数倍,但第10、15、20子带已被复制过,则只需从低频子带组中选取第6、7两个子带,依次对应恢复第25、30两个高频子带。
这样,用连续的低频子带组恢复离散分布的高频子带的过程就完成了。最后,对于上述方法遗漏的高频子带,还要选取波形与之相近的低频子带,对遗漏的高频子带进行恢复,从而完成所有高频子带的复制。
在对现有技术的研究和实践过程中,发明人发现现有技术存在以下问题:
现有技术中无论按现有技术一把低频子带作为一个整块进行周期性地平移复制或折叠复制,还是按现有技术二进行倍频复制,都是机械性地恢复谐波,没有考虑音频语音信号的多样性和变化性,另外复制时候是按照子带序号依次提取复制,由于低频子带和高频子带的波形本来就不同,所以被复制的高频子带和原始的高频子带相比,可能会存在较大波形差别或峰值差异,因此重建的高频信号准确性不是太高。如观察上述提到的波形图,对比发现,现有技术方法重建后的波形和原始波形差异较大;观察上述提到的能量波形图,对比的结果表明,现有技术方法重建后失去了许多高频谐波。
发明内容
本发明实施例要解决的技术问题是提供一种高频重建方法、编码模块和解码模块,能够更准确的进行高频重建。
为解决上述技术问题,本发明所提供的实施例是通过以下技术方案实现的:
本发明实施例提供一种高频重建方法,包括:对音频或语音信号进行滤波处理得到低频子带和高频子带;确定频带复制策略;根据所述确定的频带复制策略获取所述低频子带与高频子带的相关性,为高频子带选择相关性大的低频子带作为最优复制频带,并输出包括选择频带的对应关系的高频重建参数信息。
本发明实施例提供一种高频重建方法,包括:接收包括选择频带的对应关系的高频重建参数信息,所述选择频带的对应关系具体为相关性大的低频子带和高频子带之间对应;在高频段根据所述包括选择频带的对应关系的高频重建参数信息将低频子带复制作为高频子带。本发明实施例提供一种编码模块,包括:分析滤波器模块,用于对音频或语音信号进行滤波处理得到低频子带和高频子带;频带选择模块,用于确定频带复制策略,根据所述确定的频带复制策略获取所述低频子带与高频子带的相关性,为高频子带选择相关性大的低频子带作为最优复制频带,并输出包括选择频带的对应关系的高频重建参数信息。
本发明实施例提供一种解码模块,含有高频生成器模块,所述高频生成器模块包括:接收单元,用于接收包括选择频带的对应关系的高频重建参数信息,所述选择频带的对应关系具体为相关性大的低频子带和高频子带之间对应;重建单元,用于在高频段根据所述包括选择频带的对应关系的高频重建参数信息将低频子带复制作为高频子带。
上述技术方案可以看出,本发明实施例方案充分考虑低频子带和高频子带的相关性,通过根据确定的频带复制策略获取所述低频子带与高频子带的相关性,为高频子带选择相关性大的低频子带作为最优复制频带,并输出包括选择频带的对应关系的高频重建参数信息,从而可以根据这些高频重建参数信息进行高频重建。从高频重建后得到的各子带信号的能量波形图和能量三维图可以明显的发现,本发明实施例重建后的高频部分与原始音频信号较为接近,效果比现有技术方案更好,因此本发明实施例技术方案能够更准确的进行高频重建。
附图说明
图1是现有技术一低频子带的整体平移复制示意图;
图2是现有技术一低频子带的整体折叠平移示意图;
图3是现有技术二低频子带的离散复制示意图;
图4是现有技术原始音频及其各子带信号的能量波形图;
图5是现有技术原始音频各子带能量波形的能量三维图;
图6是采用现有技术一中的方式1)进行高频重建后得到的各子带信号的能量波形图;
图7是采用现有技术一中的方式1)进行高频重建后得到的各子带能量三维图;
图8是采用现有技术一中的方式2)进行高频重建后得到的各子带信号的能量波形图;
图9是采用现有技术一中的方式2)进行高频重建后得到的各子带能量三维图;
图10是本发明实施例高频重建的原理和结构框图;
图11是本发明实施例高频分段低频匹配复制策略示意图;
图12是本发明实施例低频主导频段高频匹配复制策略示意图;
图13是本发明实施例低频频段高频匹配复制策略示意图;
图14是本发明实施例扩展的复制策略示意图;
图15(a)是本发明实施例编码端自适应频带复制方式的结构框图;
图15(b)是本发明实施例编码端固定频带复制方式的结构框图;
图16是本发明实施例自适应频带复制方式的高频重建方法流程图;
图17是本发明实施例频带复制策略选择流程图;
图18是本发明实施例最优频带选择流程图;
图19是本发明实施例时变特性检测的算法流程图;
图20是本发明实施例解码端根据编码端参数信息进行高频重建的示意图;
图21是本发明实施例解码端高频生成器算法流程图;
图22是本发明实施例方法对原始音频信号恢复后的能量波形图;
图23是本发明实施例方法对原始音频信号恢复后的能量三维图;
图24是本发明实施例编码模块一结构示意图;
图25是本发明实施例编码模块二结构示意图;
图26是本发明实施例解码模块结构示意图。
具体实施方式
本发明实施例提供了一种高频重建方法,能够更准确的进行高频重建。
请参阅图10,是本发明实施例高频重建的原理和结构框图。
如图10所示,其中上半部分是编码端中与高频处理相关的模块,下半部分是解码端中与高频处理相关的模块。
在编码端,原始音频信号通过分析滤波器模块转换为分布在不同频段的子带信号,包括低频子带和高频子带,低频子带将被核心编码器编码并传输给解码端,另外,还将对低频子带进行处理得到指导高频重建的参数信息。具体来说,在编码端,低频子带经过分析与检测模块,得到的检测结果输入到频带选择模块,用于指导频带选择模块的分析策略;频带选择模块根据分析与检测模块的指导信息,选择适合的复制策略,并用最大相关准则为每个或每段高频子带选择匹配的低频子带,进行包络参数提取,最后输出高频重建的参数信息。
在解码端,核心解码器利用接收到的低频子带的编码信息解码恢复低频子带信号,再按照来自编码端的高频重建的参数信息复制高频子带,然后进行包络调整得到重建的高频子带;最后低频子带和高频子带的信号通过综合滤波器处理恢复出全频带的音频和语音信号。
以下先介绍本发明实施例的频带复制策略:
现有技术传统的频带复制方法通常选定一定范围的低频段作为基频,然后运用某种固定的规则向高频部分复制。例如平移复制、倍频关系复制和折叠复制等,这样的复制方法限制了高频重建的准确性。因为虽然高频与低频成分具有一定的相关性,但是平移和折叠复制不能确保这种相关性的对应,用于复制的低频子带与被复制的高频子带相关性可能不是很好,甚至相关性较差,这样就会引入噪声或改变音质;倍频复制方法利用了谐波周期性,但是并非每个子带都是谐波成分,相关性也不好,这样也会引入噪声或改变音质;加之语音和音频信号中声源的多样性,用某种固定的复制方法更容易引起复制频带的错用。
本发明实施例提出的频带复制策略,充分考虑低频子带和高频子带的相关性,另外还适合音频和语音信号的短时特性和时变特性,具有灵活的频带选择功能,可以保证用于复制和被复制的频带具有最优的相关性。本发明实施例提出以下三种频带复制策略及其它们的扩展策略:
(1)高频分段低频匹配复制策略(策略1):
此策略将高频频段成分划分成多个复制频带,复制频带的划分可以按照不同的方法进行。例如复制频带可根据Bark(巴克标度)比例带进行划分,并在Bark比例带内按不同解析度将子带分组构成复制频带等。解析度表示复制频带包含的子带个数,个数越少,解析度越高,个数越多,解析度越低。在Bark带内划分复制频带时,解析度随频率的升高而下降。复制频带划分也可以按相同解析度将高频成分等分为多个复制频带,然后为每个高频段选择最相关的低频段进行复制。
如图11所示,是本发明实施例高频分段低频匹配复制策略示意图。B0是低频子带信号的结束子带,B1是高频处理信号的结束子带,b1,b2,b3是复制频带划分边界。划分复制频带后,本策略分别为每个复制频带选取最相关的低频子带用于复制,低频子带可以重复使用,只要保证其与被复制的复制频带具有最大相关性。
这种复制策略充分利用了高频与低频的相关性,适用于谱包络较平稳的情况,高低频都具有良好的谱包络能量,因为此时的高频成分带有重要的音频成分,尤其是靠近低频部分的高频带信号,如果高频复制产生失真,将会引入噪声、影响音质,分段选择复制策略为每个高频段选择最大相关的低频段进行复制,确保了频段间的相关性对应,可以避免错用频带引起的失真。
本复制策略与现有技术相比,不同之处是:现有技术一用整块低频信号连续和重复地复制高频信号,在高低频信号相关性差时会用差异较大的低频子带复制高频子带,引入较大的失真,而本复制策略以原始高频子带信号为基准,选择与其具有最大相关性的低频子带来复制,可以有效避频带错用问题。
(2)低频主导频段高频匹配复制策略(策略2):
此策略首先选取低频信号中能量集中的频段作为主导频段,然后选出与此段低频信号较相关的高频信号段,在该高频信号段将所述选取的低频信号中能量集中的频段进行复制作为高频子带;对于高频信号段那些尚未被复制的剩余的小频段则分别为其选择最接近的低频段来复制。该方法先对具有良好谐波特性的频带进处理,然后对其间的零散频带选择最接近的低频子带来复制。频带选择时先是用低频选择相关性最好的高频谐波,然后再用非谐波的高频子带选择最相关的低频子带。
如图12所示,是本发明实施例低频主导频段高频匹配复制策略示意图。首先选取能量集中的低频信号,然后根据所选低频信号选择相关性较好的高频部分,在该部分进行复制,如高频段信号i和j是低频信号选择的复制频带,然后为除i和j以外的零散高频段选择合适的低频段进行复制。
低频主导频段高频匹配复制策略利用信号的频域谐波特性,对低频中的类基频信号选取不同阶次的高频谐波,适合具有良好谐波特性的语音和音频信号使用。根据谐波变换的一般性质,谐波在高频部分出现的间隔会逐渐下降,谐波覆盖的频带范围会逐渐升高,所以现有技术传统的用倍频复制方法进行的谐波复制会产生高频失真,而本发明实施例使用最大相关判定方法,可以准确确定高频谐波位置,并且对高频谐波间的零散子带也使用最大相关方法选取用于复制的低频子带,可以保证谐波的完整性,弥补高频谐波变宽的现象。
本复制策略与现有技术相比,不同之处是:现有技术采用倍频复制方法时,使用低频子带信号向高频以倍数复制,形成的高频谐波包含了不同低频信号的谐波,破坏了谐波的连续性,而本复制策略对类基频信号连续的置换到高频谐波,保证了谐波连续性,不会引起高频失真。
(3)低频频段高频匹配复制策略(策略3):
该策略把整个低频段看成一个基准频段信号,然后按照最优匹配原则在高频段的谐波进行选择性复制。
如图13所示,是本发明实施例低频频段高频匹配复制策略示意图。高频段i和j是选择出来的与低频信号较为相关的谐波成分,在该位置将整个低频段进行复制,而其间的零散子带仍然用最大相关复制频带选择方法,来选取低频子带复制。
这样的谐波选择复制策略适用于谱包络较平稳且高频能量平稳下降,高频能量较低的音频信号,这样的音频信号一般高频谐波能量随着阶次的升高而成指数下降,由于高频能量较小,可以看成谐波和噪声的混合,所以可以用整个低频信号向高频选择性复制,但在低码率时靠近低频带的高频子带复制准确性非常重要,应该做细致的相关频带选择。
本复制策略与现有技术相比,不同之处是:现有技术使用低频信号整块连续的复制高频信号,而本复制策略把低频看作一个整体后从高频成分中选择与低频信号最大相关的高频谐波,在该位置将整个低频段进行复制,如图13中的i和j,允许谐波之间存在过渡频带,再用最优频带选择方法为过渡频带选择合适的低频带来复制,这样可以防止谐波的偏移。
(4)频带复制策略(策略1、策略2和策略3)的扩展策略:
此种扩展策略方法是将之前进行高频复制得到的频率较低的高频子带频段也用于更高频段的复制。
因为低码率情况下低频信号可能没有覆盖一个完整的谐波,所以扩大频带选择范围,把低频信号与少量临近低频信号的高频子带看作一个整体部分,然后再用策略1、策略2或策略3中的方法确定复制频带。对加入的少量高频子带选择最大相关的低频子带复制。进行频带选择检测时,首先根据编码比特率和谐波完整性关系来确定扩展频带(即恢复时作为复制源的高频子带)的范围,并用最大相关准则为每个扩展频带选择用于复制的低频子带,由于扩展频带需要最高的重建准确性,所以频带选择时采用最高频带解析度(即以单个子带为复制频带);然后把扩展频带与低频子带合起来作为复制源,再采用策略1、策略2或策略3来为高频子带选择复制频带。
如图14所示,是本发明实施例扩展的复制策略示意图。在复制频带1重建以后,又利用低频带和复制频带1中的较低频带组合成连续频段,并用于复制频带2及其以上复制频带的信号重建。
这种复制策略适合于在低码率时使用,因为低码率时由核心编解码器处理的低频带较短,可能没有涵盖所有的基频泛音,并且与低频泛音相比中频段的泛音更接近于高频泛音特性,所以可以在保证用较高的解析度重建较低频率的高频信号后,将重建后的信号用于更高频带的复制。通过这种复制方法可以更完整的刻画谐波,有利于扩大高频重建范围。
以下详细进一步详细介绍本发明实施例高频重建方法。
本发明实施例高频重建方法可以有两种,即自适应频带复制方式和固定频带复制方式:
(1)自适应频带复制方式:如图15(a)所示,是本发明实施例编码端自适应频带复制方式的结构框图。这种方式利用能量谱分析和估计方法检测音频信号的特性,检测结果输出指导信息,指导选择复制策略,进而指导最优频带选择。因为在一定时长内语音和音频信号的特性通常是相同的,即准平稳特性,没有必要重新进行频带选择,所以引入时变特性检测,只需要在时变特性变量大于容限时,才重新进行频带选择。
(2)固定频带复制方式:如图15(b)所示,是本发明实施例编码端固定频带复制方式的结构框图。这种方式只要事先按照实际需要进行选择一种固定的复制方式,即确定本发明实施例上述提出的频带复制策略之一(如策略1、策略2、策略3或它们的扩展策略),在整个音频处理过程中保持不变,并结合适当的最优频带选择来实现。因为固定频带复制方式下,不需要根据短时特性分析模块的结果指导频带复制策略的选择,通过设置参数指定复制策略,所以不需要短时特性分析模块。
还需要说明的是,自适应频带复制方式和固定频带复制方式中,时变特性检测并不是必须的。
以下对自适应频带复制方式的高频重建方法进行介绍。
请参阅图16,是本发明实施例自适应频带复制方式的高频重建方法流程图,包括步骤:
步骤1601、对分析滤波器模块得到的子带信号进行短时特性分析;
步骤1602、根据短时特性分析的结果进行频带复制策略选择;
步骤1603、根据选择的频带复制策略进行最优频带选择;
步骤1604、根据最优频带进行频带复制。
以下对各步骤进行具体介绍。
步骤1601、对分析滤波器模块得到的子带信号进行短时特性分析;
对于原始音频信号,通过分析滤波器模块转换为分布在不同频段的子带信号,再对子带信号进行短时特性分析。
短时特性分析是为了选择合适的频带复制策略进行的准备工作。音频或语音信号先进行时频变换后,然后针对谐波情况、低频部分和高频部分的能量分布进行分析,分析的参数结果决定频带复制策略。
短时特性分析的实现算法很多,本发明实施例使用其中一种算法但不局限于此。
设低频子带样点为XLow(n,l)。其中n表示低频子带序号,1≤n<k0,k0是高频处理的第一个子带序号;l表示子带中的样点,0≤l<32。设高频子带样点为XHigh(k,l),其中k代表高频子带,k0≤k≤ke,ke是高频处理的结束子带。
①、计算低频部分各个子带的能量,如下式所示:
②、计算整个低频部分的能量均值,如下式所示:
③、计算高频部分各个子带的能量,如下式所示:
④、计算整个高频部分的能量均值,如下式所示:
经过上述计算,短时特性分析结束,分析参数将应用于频带复制策略选择部分。
步骤1602、根据短时特性分析的结果进行频带复制策略选择;
上述已经提到四种频带复制策略,根据短时特性分析的结果,从中选择出一种策略来进行复制。频带复制策略确定后,输出复制策略标志位和复制策略信息,来指导后面的最优频带选择。
请参阅图17,是本发明实施例频带复制策略选择流程图。
把短时特性分析得到的各低频子带能量值和低频部分的能量均值比较,再把高频部分能量均值和低频部分能量均值比较。根据比较的情况,当部分低频子带能量值远低于均值,另有部分连续低频子带的能量很接近均值或在均值之上,则选择策略2;如果低频各个子带能量接近,低频部分能量曲线连续平缓,且高频部分能量均值和低频部分能量均值差距较大,则选择策略3;否则,选择策略1。
策略2、策略3和策略1所组成的判断流程是策略选择的主体,而频带复制扩展策略作为一个辅助策略,主要是在恢复高频过程中,针对低频频段比较窄的情况,拓展用来复制的低频频段的宽度,改善基频的完整性。当编码速率较低,低频子带数目很有限,频带复制扩展策略可以使高频部分对低频子带的选择不会过于受限。它将本来也需要频带复制的若干中高频子带和低频部分捆绑到一起,组成新的低频部分,供大部分高频子带来选择,提取其相应的复制参数。同时,对于新低频部分中的若干中高频子带,会从原低频部分中选出和它们最匹配的低频子带,对其依次完成复制参数的提取。
频带复制扩展策略是对策略2、策略3和策略1的扩展。。当频带复制策略选择流程中输出extend_flag标志时,则使用频带复制扩展策略。所以,当有extend_flag输出时,选定的策略2、策略3或者策略1会相应地变成扩展型策略2、扩展型策略3或者扩展型策略1。
图17中具体流程如下所示:
步骤1701、时频变换完成,输入QMF(Quadrature Mirror Filter,正交镜像滤波器)子带;
步骤1702、判断输入的子带是否为低编码速率模式,如果是,进入步骤1703,如果否,进入步骤1705;
步骤1703、扩展参与复制的低频部分的范围,组成新的低频部分,进入步骤1704;
步骤1704、输出标志extend_flag,用于频带复制扩展策略,进入步骤1705;
步骤1705、判断是否存在能量过低的低频子带,若否,进入步骤1708,若是,进入步骤1706;
把每个低频子带的能量E(n)和低频部分的能量均值ELow进行比较,如果存在某个低频子带的能量E(n)满足下式:E(n)≤δ1*ELow,
说明低频子带中存在子带能量陡降的情况,基频能量分布不连续,进入步骤1706,否则进入步骤1708。其中,δ1的取值范围是0<δ1<1,该取值范围是对该复制策略对应的波形情况进行观察得到的经验值,可以根据要求设置取值。
步骤1706、搜索能量较高且连续分布的低频子带并确定选择策略2;
该步骤主要寻找低频部分能量分布连续的子带区间,作为策略2的基频部分。判断算法如下所示:
如果满足E(n)>δ2*ELow,E(n+1)>δ2*ELow,......,E(n+q-1)>δ2*ELow,E(n+q)<δ2*ELow,(其中q≥1,1≤n<k0,δ2的取值范围是0<δ1<δ2<1,该取值范围是对该复制策略对应的波形情况进行观察得到的经验值,可以根据要求设置取值),
则决定采用策略2,记录子带序号n和子带区间数q;
步骤1707、输出策略2对应的标志位Flag,并且输出子带序号n和子带区间数q;需说明的是,如果同时输出extend_flag,则当前策略为扩展型策略2。
步骤1708、通过与低频能量均值相比,判断高频能量均值是否过低,若否,进入步骤1709,若是,进入步骤1710;
如果通过步骤1705将每个低频子带能量E(n)和低频能量均值ELow比较,均满足下式:E(n)>δ1*ELow,则将分析的重点转移到低频和高频部分的能量关系。
把EHigh和λ*ELow进行比较,其中λ的取值范围是0<λ<1,是对相关波形观察得到的经验值,可以根据要求设置取值。
当能够满足EHigh≤λ*ELow,则决定采用策略3,进入步骤1710,否则EHigh>λ*ELow时,决定采用策略1,进入步骤1709;
步骤1709、输出策略1相应的标志位Flag;需说明的是,如果同时输出extend_flag,则当前策略为扩展型策略1。
步骤1710、输出策略3相应的标志位Flag;需说明的是,如果同时输出extend_flag,则当前策略为扩展型策略3。
步骤1603、根据选择的频带复制策略进行最优频带选择;
最优频带选择模块以最大相关为标准,灵活的查找用于某参考频带复制的最优匹配频带,确保频带复制的相关性,使复制后的高频信号不需要过多的调整,就逼近原始信号。
根据确定的复制策略和复制策略信息(包括相应的初始化频带表)的指导,选择出最优的高低频信号对应关系。频带复制策略指导最优频带选择,决定频带选择是以高频信号选择低频信号,还是以低频信号选择高频谐波,例如在策略1下,最优频带选择为每个高频复制频带信号选取最优的用于复制的低频信号,而在策略2下,最优频带选择首先为类基频信号选择出可以复制的高频谐波。初始化频带表指导最优频带选择的估计频宽,以及被选频带范围。
最优频带选择是比较高低频信号相关性,以及高低频信号包络特征相似程度,然后根据得到的两个参数综合确定最优的高低频信号匹配关系。为了避免比较相关性和包络特征时信号能量幅度带来的计算差异,估计前先对信号按照初始化频带表范围进行归一化,这样选择匹配信号时着重分析信号特性的相似程度,能量差异可以在信号重建时进行调整。
无论最优频带选择的参考频带是高频信号还是低频信号,最优频带选择所使用的算法都是相同的,为了便于说明,下面以策略1为例,并取代表最大频率解析度的单个子带为复制频带,说明最优频带选择的一般算法。
请参阅图18,是本发明实施例最优频带选择流程图,包括步骤:
步骤1801、根据频带复制策略信息中的初始化频带表划分复制频带和备选频带,按初始化频带表对输入子带信号进行高低频划分;
设复制频带个数用nb表示,设低频子带样点用XLow(n,l)表示,其中1≤n<k0指低频子带序号,k0是高频处理的第一个子带序号,0≤l<32表示子带中的样点,设高频子带样点用XHigh(k,l)表示,其中k0≤k≤ke指示高频子带,ke是高频处理的结束子带。
步骤1802、按初始化频带表中复制频带的划分,对高低频信号进行复制频带长度内的归一化处理,这里假设复制频带等于变换子带,归一化处理如下,
步骤1803、计算各高频段或高频带与各可能的低频段或低频带的相关函数;
考虑到样点偏移情况,为了得到与高频带波形最逼近的低频带,对低频带样点做偏移后再计算相关函数,公式如下,
步骤1804、估计高低频带包络的变化特性,计算高频带与低频带包络变化特性差异;
包络特性估计方法是,把复制频带长度内的样点看作一个样本,计算它的二阶以内的自相关函数,然后通过比较高低频带的自相关函数的均方误差,得到高低频包络特性差异。
首先,按复制频带长度计算高低频成分的二阶自相关函数:
然后,计算高低频子带间的包络差异:
步骤1805、综合比较和e(k,n),为每个复制频带选择出最优的低频带复制;
其中α和β是权系数,是形成的频带选择系数。
步骤1806、生成频带选择表FTable,指示复制所需的最优频带。
步骤1603根据选择的频带复制策略进行最优频带选择后,可以一直利用所述最优频带,也可以进一步进行时变特性检测,根据检测结果重新选择频带。
以下具体介绍时变特性检测:
音频和语音信号一般在一段时长内具有相同的特性(即准平稳特性),所以在连续的若干帧内可能可以使用相同的高频复制策略,在复制策略不变的情况下,根据音频信号的时间周期性,在连续几帧内可以使用相同的复制频带选择表,不必每帧都做最优频带选择,频带选择表一旦确定可以连续多帧使用,这样既可以节省计算量和传输比特率,又可以保证帧间连续性。为了判断是否能沿用上一帧的频带选择表,引入时变特性检测模块。时变特性检测的作用是用于判断当前帧是否可以沿用上一帧的频带选择表,如果检测到相邻帧间的音频特性差异大于门限,就刷新频带选择表,重新选择频带;否则,频带选择表保持不变。
时变特性检测方法是,估计当前帧与前一帧低频信号的音频特性变化,具体可以采用包络差异比较方法。如果包络差异很小,则根据高低频的相关性,高频信号的差异也会很小,这时可以沿用前一帧生成的频带选择表;如果当前低频信号与前一帧低频信号的包络差异在容限范围内,但是有频率偏移,若频率偏移大于临界频带的5%,则需要重新选择最优频带,刷新频带选择表,因为根据音调失调理论,两组泛音在其所限定的临界频带内的频差在5%~50%,则这两组泛音是失调的,会产生听觉可感知的差异。
请参阅图19,是本发明实施例时变特性检测的算法流程图,包括步骤:
步骤1901、计算当前帧与前一帧的低频子带能量均方误差Eerror;
步骤1902、判断低频子带能量均方误差Eerror是否小于判决门限为Thr,若是,进入步骤1903,若否,进入步骤1906;
步骤1903、估计能量集中的低频频段的偏移频率Δf;
选取能量最高的频带或频段,其中心频率设为fc, 其中fl和fh分别代表最高能量频带的下界和上界,计算频率偏移Δf=fc-fc;
步骤1904、判断偏移频率Δf是否小于当前临界频带带宽的5%,若是,进入步骤1905,若否,进入步骤1906;
步骤1905、沿用前一帧生成的频带选择表;
步骤1906、重新进行最优频带选择。
需要说明的是,如果是固定频带复制方式时,跟上述自适应频带复制方式的过程相比,不需要对分析滤波器模块得到的子带信号进行短时特性分析,也不需要根据短时特性分析的结果进行频带复制策略选择,而最优频带选择流程和时变特性检测的流程是相同的。
步骤1604、根据最优频带进行频带复制。
解码端得到最优频带后,可根据最优频带进行频带复制。请参阅图20,是本发明实施例解码端根据编码端参数信息进行高频重建的示意图。
本发明实施例解码端与现有技术解码端相比,大部分模块的功能和协作关系并没有改变,只是对高频生成器模块的“高频子带复制策略”做了修改。在输入高频生成器的SBR码流中,根据高频重建指导参数信息添加了三个参数,即“新算法使用标志”、“频带选择表更替标志”和“频带选择表”。
“频带选择表”,是比较关键的参数,它记录每帧信号恢复高频子带时,高频子带和低频子带的复制对应关系。
“新算法使用标志”,决定了在解码时,使用编码端的新算法指导高频重建,还是使用标准SBR方法指导高频重建。这里所说的新算法,指的是前面描述的本发明实施例在编码端最终确定高频重建参数的过程中所使用的算法。如果标志位为“1”,则按照新算法重建高频;如果标志位为“0”,则按照标准SBR方法重建高频。通过这样设置,可以为新算法和标准SBR方法在后续研究中的兼容预留接口。
“频带选择表更替标志”决定了恢复高频子带时,当前信号如何获得“频带选择表”。如果标志位为“0”,则当前信号直接延用前一帧信号的高低频子带对应关系,指导高频复制;如果标志位为“1”,则根据SBR码流中读取的刷新后的“频带选择表”,参数,完成高频复制。“频带选择表更替标志”的主要作用是为了减少向解码端传输的数据量。需要说明的是,当“频带选择表更替标志”为0时,传输的SBR码流中将不包括“频带选择表”参数。
以下详细介绍解码端接收的码流信息。
请参阅表1,描述的是头文件HeadFile数据结构,用于在解码端开始工作时候,进行初始化设置。
变量名 | 说明 | 数据类型 |
sbr_amp_res | 量化阶梯,不编码时作为指导信息 | Char(字符型) |
sbr_start_frequency | SBR域起始QMF子带选择指针,在频带选择表StartTable[]中选择对应元素 | Int(整型) |
sbr_stop_frequency | SBR域终止QMF子带选择指针,在频带选择表StopTable[]中选择对应元素 | Int |
xover_band | 主频代表指针 | Int |
header_extra_1 | 指示是否有额外信息,取值0或1 | Int |
header_extra_2 | 指示是否有额外信息,取值0或1 | Int |
freqScale | SBR带包含的QMF子带最大数量,用于计算主频带选择表 | Int |
alterScale | 最高频SBR带包含QMF子带的可增数量,用于计算主频带选择表 | Int |
noise_bands | 噪声带数量 | Int |
sbr_limiter_band | 计算增益时限制频带的数量,用于计算限制频带选择表 | Int |
sbr_limiter_gains | 限制频带内增益的最大值 | Int |
sbr_interpo1_freq | 指示是否应用频带改写,默认值1 | Int |
sbr_smoothing_length | 是否应用滤波 | Int |
表1 HeaderFile数据结构表
ENV_DATA是描述每帧SBR信息的数据结构。参数“新算法使用标志”、“频带选择表更替标志”和“频带选择表”都被添加进描述SBR信息的ENV_DATA结构中。
定义一个结构体变量专门用来存储“新算法使用标志”、“频带选择表更替标志”和“频带选择表”三个参数信息,具体如下:
Struct INDVEC
{char flag_1;
char flag_2;
char FreTable[28];
}index Vector;
“新算法使用标志”、“频带选择表更替标志”两个参数的值均为“0”或者“1”,所以设置两个字符型变量“flag_1”、“flag_2”来分别描述“新算法使用标志”、“频带选择表更替标志”。
“频带选择表”存储的是需要恢复的高频子带和低频子带的对应序号,存储在数组FreTable[28]中。其中,不同的编码模式,需要恢复的高频子带数目各不相同。最高比特率的编码模式,需要恢复的高频子带是28个。随着编码比特率降低,需要恢复的高频子带数目也相应减少。
结构体变量indexVector在ENV_DATA结构中的位置如表2所示。
变量名 | 说明 | 数据类型 | 个数 |
headerActive; | 头信息读取标志 | Int(整型) | 1 |
sbrGrid[] | 结构体,包含SBR恢复包络时的全部结构信息 | SBR_GRID | 1 |
ienvelopeL[] | 左声道包络能量 | Float(浮点型) | 135 |
ienvelopeR[] | 右声道包络能量 | Float | 135 |
sfb_noise_floor[][] | 噪声级 | Float | 20 |
coupling | 指示耦合 | Int | 1 |
sbr_invf_mode_vec[][]; | 反滤波级 | INVF_MODE | 20 |
sbr_invf_mode[] | 反滤波级标志,每声道第一个反滤波级 | INVF_MODE | 2 |
noOfnoisebands[] | 噪声带数量,包括左右声道 | Int | 2 |
addHarmonicFlag[] | 添加正弦波标志,双声道 | Int | 2 |
noHamonics[] | 添加正弦波数量,双声道 | Int | 2 |
addHarmonic[][] | 添加正弦波的具体频带指针 | unsigned Char | 54 |
ExtensionType | 数据扩展类型 | Char | 1 |
crcReg | 是否用循环冗余校验 | unsigned short | 1 |
freq_res_fixfix[] | FIXFIX结构下的解析度,双 | Int | 2 |
声道 | |||
indexVector | 指导高频子带复制的频带选择表 | INDVEC | 30 |
表2ENV_DATA结构定义表
以下介绍高频生成器的算法流程,请参阅图21,是本发明实施例解码端高频生成器算法流程图,包括步骤:
步骤2101、接收“新算法使用标志”、“频带选择表更替标志”和“频带选择表”;
步骤2102、判断“新算法使用标志”,如果为0,进入步骤2103,如果为1,进入步骤2104;
步骤2103、按标准SBR方法解码;
步骤2104、判断“频带选择表更替标志”,如果为0,进入步骤2105,如果为1,进入步骤2106;
步骤2105、如果标志位为“0”,则当前信号直接延用前一帧信号的高低频子带对应关系,指导高频复制;
需要注意的是,每帧信号在确定了高低频子带对应关系后,会把当前帧的频带选择表备份在缓存中。如果需要,下一帧信号会对缓存中的频带选择表进行调用。
步骤2106、如果标志位为“1”,则根据SBR码流中读取的“频带选择表”参数,指导高频复制;
步骤2107、完成初步高频复制。
经过初步复制的高频子带,随后会进入包络调整、添加谐波成分等模块进行处理,最终完成高频复制。
通过本发明实施例的高频重建方法,更准确的实现高频信号的重建。请参阅图22,是本发明实施例方法对原始音频信号恢复后的能量波形图;图23,是本发明实施例方法对原始音频信号恢复后的能量三维图。通过这两个图与现有技术的图进行对比,可以发现本发明实施例的高频重建效果比现有技术更好。因此,本发明实施例方法能够利用少数低频子带的信息就更准确的重建高频信号,也有利于压缩音频信息,可以大幅提高音频和语音编码器的压缩效率,同时提高音频质量;有效地降低比特率音频和语音信号压缩编码带来的失真和噪声。并且针对不同音频特性,提出了多种对应频带复制策略,可以对各种音频和语音信号提供适应的高频重建方法,提高音频和语音信号处理的灵活性。
上述内容详细介绍了本发明实施例高频重建方法,相应的,本发明实施例提供一种编码模块和解码模块。
请参阅图24,是本发明实施例编码模块一结构示意图。
编码模块包括:分析滤波器模块241、频带选择模块242。
分析滤波器模块241,用于对音频或语音信号进行滤波处理得到低频子带和高频子带。
频带选择模块242,用于确定频带复制策略,根据所述确定的频带复制策略获取所述低频子带与高频子带的相关性,为高频子带选择相关性大的低频子带作为最优复制频带,并输出包括选择频带的对应关系的高频重建参数信息。
所述编码模块进一步包括:短时特性分析模块243,对所述音频或语音信号进行短时特性分析。
所述频带选择模块242包括:复制策略选择模块2421、最优频带选择模块2422。
复制策略选择模块2421,用于根据短时特性分析模块243分析的结果对应选择不同频带复制策略;
最优频带选择模块2422,用于根据所述确定的频带复制策略获取所述低频子带与高频子带的相关性,为高频子带选择相关性大的低频子带作为最优复制频带,并输出包括选择频带的对应关系的高频重建参数信息。
所述编码模块进一步包括:时变特性检测模块244,用于对滤波处理后的音频或语音信号进行时变特性检测;相应的,最优频带选择模块2422还根据时变特性检测模块244检测的结果选择最优复制频带。
所述短时特性分析模块243对所述音频或语音信号进行短时特性分析具体为:计算音频或语音信号的低频部分能量均值、高频部分能量均值、低频部分各子带能量值、高频部分各子带能量值;所述复制策略选择模块2421根据短时特性分析模块243分析的结果对应选择不同频带复制策略具体为:将低频部分各子带能量值与低频部分能量均值比较;若存在低频部分的部分子带的子带能量值小于等于低频部分能量均值的第一加权值,选择的策略为:选取能量集中的低频子带,在选取的与所述能量集中的低频子带相关性大的高频段复制所述低频子带;若低频部分子带的子带能量值均大于低频部分能量均值的第一加权值,进一步将高频部分能量均值与低频部分能量均值的第二加权值进行比较;如果高频部分能量均值小于等于低频部分能量均值的第二加权值,选择的策略为:选取整个低频子带,在选取的与整个低频子带相关性大的高频段复制所述低频子带;如果高频部分能量均值大于低频部分能量均值的第二加权值,选择的策略为:将高频分为多个复制频带,为每个复制频带选择相关性大的低频子带进行复制。
所述复制策略选择模块2421选择的策略进一步包括:复制时进一步将临近低频子带的高频子带与所述选取的低频子带一起作为复制源,所述临近低频子带的高频子带选取与其相关性大的低频子带复制,这样就相当于上述各策略的扩展策略。
请参阅图25,是本发明实施例编码模块二结构示意图。
编码模块包括:分析滤波器模块241、频带选择模块242。
分析滤波器模块241,用于接收音频或语音信号后,进行滤波处理得到低频子带和高频子带。
频带选择模块242,用于确定频带复制策略,根据所述确定的频带复制策略获取所述低频子带与高频子带的相关性,为高频子带选择相关性大的低频子带作为最优频带,并输出包括选择频带的对应关系的高频重建参数信息。
所述频带选择模块242包括:复制策略设定模块2423、最优频带选择模块2422。
复制策略设定模块2423,用于根据预先设置的参数确定唯一频带复制策略。频带复制策略为对应图24所描述的其中一种策略或其对应的扩展策略。
最优频带选择模块2422,用于根据所述确定的频带复制策略获取所述低频子带与高频子带的相关性,为高频子带选择相关性大的低频子带作为最优频带,并输出包括选择频带的对应关系的高频重建参数信息。
所述编码模块进一步包括:时变特性检测模块244,用于对滤波处理后的音频或语音信号进行时变特性检测;相应的,最优频带选择模块还根据时变特性检测模块检测的结果选择最优复制频带。
请参阅图26,是本发明实施例解码模块结构示意图。
解码模块,含有高频生成器模块261,所述高频生成器模块261包括:接收单元2611、重建单元2612。
接收单元2611,用于接收包括选择频带的对应关系的高频重建参数信息,所述选择频带的对应关系具体为相关性大的低频子带和高频子带之间对应。
重建单元2612,用于在高频段根据所述包括选择频带的对应关系的高频重建参数信息将低频子带复制作为高频子带。
所述接收单元2611接收的所述参数信息还包括新算法使用标志和频带选择表更替标志;所述重建单元2612根据所述新算法使用标志确定复制过程使用的算法,根据所述频带选择表更替标志确定复制过程使用的频带选择表,在高频段根据所述确定的算法和频带选择表将所述对应关系中的低频子带复制作为高频子带。
综上所述,本发明实施例方案充分考虑低频子带和高频子带的相关性,通过根据确定的频带复制策略获取所述低频子带与高频子带的相关性,为高频子带选择相关性大的低频子带作为最优复制频带,并输出包括选择频带的对应关系的高频重建参数信息,从而可以根据这些高频重建参数信息进行高频重建。从高频重建后得到的各子带信号的能量波形图和能量三维图可以明显的发现,本发明实施例重建后的高频部分与原始音频信号较为接近,效果比现有技术方案更好,因此本发明实施例技术方案能够更准确的进行高频重建。
进一步的,本发明实施例方案可以包括自适应频带复制方式和固定频带复制方式两种方式,具有灵活的频带选择功能。
进一步的,本发明实施例技术方案还可以增加对音频或语音信号时变特性检测,根据检测结果进行调整。
以上对本发明实施例所提供的一种高频重建方法、编码模块和解码模块进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (18)
1、一种高频重建方法,其特征在于,包括:
对音频或语音信号进行滤波处理得到低频子带和高频子带;
确定频带复制策略;
根据所述确定的频带复制策略获取所述低频子带与高频子带的相关性,为高频子带选择相关性大的低频子带作为最优复制频带,并输出包括选择频带的对应关系的高频重建参数信息。
2、根据权利要求1所述的高频重建方法,其特征在于:
所述确定频带复制策略具体为:
根据预先设置的参数确定唯一频带复制策略。
3、根据权利要求1所述的高频重建方法,其特征在于:
所述确定频带复制策略具体为:
对所述音频或语音信号进行短时特性分析;
根据进行短时特性分析的结果对应选择不同频带复制策略。
4、根据权利要求2或3所述的高频重建方法,其特征在于:
所述对音频或语音信号进行滤波处理后进一步包括:
对滤波处理后的音频或语音信号进行时变特性检测;相应的,
进一步结合进行时变特性检测的结果选择最优复制频带。
5、根据权利要求3所述的高频重建方法,其特征在于:
所述对所述音频或语音信号进行短时特性分析,根据进行短时特性分析的结果对应选择不同频带复制策略具体为:
计算音频或语音信号的低频部分能量均值、高频部分能量均值、低频部分各子带能量值、高频部分各子带能量值;
将低频部分各子带能量值与低频部分能量均值的第一加权值比较;
若存在低频部分的部分子带的子带能量值小于等于低频部分能量均值的第一加权值,选择的策略为:选取能量集中的低频子带,在选取的与所述能量集中的低频子带相关性大的高频段复制所述低频子带;
若低频部分子带的子带能量值均大于低频部分能量均值的第一加权值,进一步将高频部分能量均值与低频部分能量均值的第二加权值进行比较;
如果高频部分能量均值小于等于低频部分能量均值的第二加权值,选择的策略为:选取整个低频子带,在选取的与整个低频子带相关性大的高频段复制所述低频子带;
如果高频部分能量均值大于低频部分能量均值的第二加权值,选择的策略为:将高频分为多个复制频带,为每个复制频带选择相关性大的低频子带进行复制。
6、根据权利要求5所述的高频重建方法,其特征在于:
所述选择的策略进一步包括:
复制时进一步将临近低频子带的高频子带与所述选取的低频子带一起作为复制源,所述临近低频子带的高频子带选取与其相关性大的低频子带复制。
7、根据权利要求4所述的高频重建方法,其特征在于:
所述对滤波处理后的音频或语音信号进行时变特性检测,进一步结合进行时变特性检测的结果选择最优复制频带具体为:
计算当前帧与前一帧的低频子带能量均方误差,若所述能量均方误差小于判决门限,并且能量集中的低频子带的偏移频率大于预设值,则重新进行最优复制频带选择,否则沿用之前选择的最优复制频带。
8、根据权利要求1所述的高频重建方法,其特征在于:
所述根据确定的频带复制策略获取所述低频子带与高频子带的相关性,为高频子带选择相关性大的低频子带作为最优复制频带具体为:
计算高频子带和低频子带的相关函数值;
根据高频子带和低频子带的自相关函数值计算高频子带和低频子带间的包络差异值;
根据所述相关函数值和所述包络差异值为高频子带选择相关性大的低频子带作为最优复制频带。
9、一种高频重建方法,其特征在于:
接收包括选择频带的对应关系的高频重建参数信息,所述选择频带的对应关系具体为相关性大的低频子带和高频子带之间对应;
在高频段根据所述包括选择频带的对应关系的高频重建参数信息将低频子带复制作为高频子带。
10、根据权利要求9所述的高频重建方法,其特征在于:
所述参数信息还包括新算法使用标志和频带选择表更替标志;
所述在高频段根据所述包括选择频带的对应关系的高频重建参数信息将低频子带复制作为高频子带具体为:
根据所述新算法使用标志确定复制过程使用的算法,
根据所述频带选择表更替标志确定复制过程使用的频带选择表;
在高频段根据所述确定的算法和频带选择表将所述对应关系中的低频子带复制作为高频子带。
11、一种编码模块,其特征在于,包括:
分析滤波器模块,用于对音频或语音信号进行滤波处理得到低频子带和高频子带;
频带选择模块,用于确定频带复制策略,根据所述确定的频带复制策略获取所述低频子带与高频子带的相关性,为高频子带选择相关性大的低频子带作为最优复制频带,并输出包括选择频带的对应关系的高频重建参数信息。
12、根据权利要求11所述的编码模块,其特征在于,所述频带选择模块包括:
复制策略设定模块,用于根据预先设置的参数确定唯一频带复制策略;
最优频带选择模块,用于根据所述确定的频带复制策略获取所述低频子带与高频子带的相关性,为高频子带选择相关性大的低频子带作为最优复制频带,并输出包括选择频带的对应关系的高频重建参数信息。
13、根据权利要求11所述的编码模块,其特征在于:
所述编码模块进一步包括:
短时特性分析模块,对所述音频或语音信号进行短时特性分析;
所述频带选择模块包括:
复制策略选择模块,用于根据短时特性分析模块分析的结果对应选择不同频带复制策略;
最优频带选择模块,用于根据所述确定的频带复制策略获取所述低频子带与高频子带的相关性,为高频子带选择相关性大的低频子带作为最优复制频带,并输出包括选择频带的对应关系的高频重建参数信息。
14、根据权利要求12或13所述的编码模块,其特征在于,所述编码模块进一步包括:
时变特性检测模块,用于对滤波处理后的音频或语音信号进行时变特性检测;相应的,
最优频带选择模块还根据时变特性检测模块检测的结果选择最优复制频带。
15、根据权利要求13所述的编码模块,其特征在于,
所述短时特性分析模块对所述音频或语音信号进行短时特性分析具体为:计算音频或语音信号的低频部分能量均值、高频部分能量均值、低频部分各子带能量值、高频部分各子带能量值;
所述复制策略选择模块根据短时特性分析模块分析的结果对应选择不同频带复制策略具体为:将低频部分各子带能量值与低频部分能量均值的第一加权值比较;
若存在低频部分的部分子带的子带能量值小于等于低频部分能量均值的第一加权值,选择的策略为:选取能量集中的低频子带,在选取的与所述能量集中的低频子带相关性大的高频段复制所述低频子带;
若低频部分子带的子带能量值均大于低频部分能量均值的第一加权值,进一步将高频部分能量均值与低频部分能量均值的第二加权值进行比较;
如果高频部分能量均值小于等于低频部分能量均值的第二加权值,选择的策略为:选取整个低频子带,在选取的与整个低频子带相关性大的高频段复制所述低频子带;
如果高频部分能量均值大于低频部分能量均值的第二加权值,选择的策略为:将高频分为多个复制频带,为每个复制频带选择相关性大的低频子带进行复制。
16、根据权利要求14所述的编码模块,其特征在于,
所述复制策略选择模块选择的策略进一步包括:复制时进一步将临近低频子带的高频子带与所述选取的低频子带一起作为复制源,所述临近低频子带的高频子带选取与其相关性大的低频子带复制。
17、一种解码模块,含有高频生成器模块,其特征在于,所述高频生成器模块包括:
接收单元,用于接收包括选择频带的对应关系的高频重建参数信息,所述选择频带的对应关系具体为相关性大的低频子带和高频子带之间对应;
重建单元,用于在高频段根据所述包括选择频带的对应关系的高频重建参数信息将低频子带复制作为高频子带。
18、根据权利要求17所述的解码模块,其特征在于:
所述接收单元接收的所述参数信息还包括新算法使用标志和频带选择表更替标志;
所述重建单元根据所述新算法使用标志确定复制过程使用的算法,根据所述频带选择表更替标志确定复制过程使用的频带选择表,在高频段根据所述确定的算法和频带选择表将所述对应关系中的低频子带复制作为高频子带。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200710305087 CN101471072B (zh) | 2007-12-27 | 2007-12-27 | 高频重建方法、编码装置和解码装置 |
PCT/CN2008/073728 WO2009089728A1 (fr) | 2007-12-27 | 2008-12-25 | Procédé de reconstruction de bande de haute fréquence, codeur et décodeur associés |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200710305087 CN101471072B (zh) | 2007-12-27 | 2007-12-27 | 高频重建方法、编码装置和解码装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101471072A true CN101471072A (zh) | 2009-07-01 |
CN101471072B CN101471072B (zh) | 2012-01-25 |
Family
ID=40828487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200710305087 Active CN101471072B (zh) | 2007-12-27 | 2007-12-27 | 高频重建方法、编码装置和解码装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN101471072B (zh) |
WO (1) | WO2009089728A1 (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103038819A (zh) * | 2010-03-09 | 2013-04-10 | 弗兰霍菲尔运输应用研究公司 | 用以使用补丁边界对准处理输入音频信号的装置及方法 |
US9240196B2 (en) | 2010-03-09 | 2016-01-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for handling transient sound events in audio signals when changing the replay speed or pitch |
US9318127B2 (en) | 2010-03-09 | 2016-04-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Device and method for improved magnitude response and temporal alignment in a phase vocoder based bandwidth extension method for audio signals |
CN105513601A (zh) * | 2016-01-27 | 2016-04-20 | 武汉大学 | 一种音频编码带宽扩展中频带复制的方法及装置 |
CN106507113A (zh) * | 2016-11-28 | 2017-03-15 | 河海大学 | 一种三描述格型矢量量化预测边路解码方法 |
CN106847295A (zh) * | 2011-09-09 | 2017-06-13 | 松下电器(美国)知识产权公司 | 编码装置和编码方法 |
CN107221334A (zh) * | 2016-11-01 | 2017-09-29 | 武汉大学深圳研究院 | 一种音频带宽扩展的方法及扩展装置 |
CN107993673A (zh) * | 2012-02-23 | 2018-05-04 | 杜比国际公司 | 确定噪声混合因子的方法、系统、编码器、解码器和介质 |
CN108489596A (zh) * | 2018-03-20 | 2018-09-04 | 南京凯奥思数据技术有限公司 | 连续扫描激光快速测振方法及其系统 |
CN108682413A (zh) * | 2018-04-24 | 2018-10-19 | 上海师范大学 | 一种基于语音转换的情感疏导系统 |
CN109036457A (zh) * | 2018-09-10 | 2018-12-18 | 广州酷狗计算机科技有限公司 | 恢复音频信号的方法和装置 |
CN110178180A (zh) * | 2017-03-23 | 2019-08-27 | 杜比国际公司 | 用于音频信号的高频重建的谐波转置器的后向兼容集成 |
CN111477245A (zh) * | 2013-06-11 | 2020-07-31 | 弗朗霍弗应用研究促进协会 | 语音信号解码装置和语音信号编码装置 |
WO2021052287A1 (zh) * | 2019-09-18 | 2021-03-25 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN113299313A (zh) * | 2021-01-28 | 2021-08-24 | 维沃移动通信有限公司 | 音频处理方法、装置及电子设备 |
CN114079968A (zh) * | 2020-08-21 | 2022-02-22 | 华为技术有限公司 | 传输数据的方法和装置 |
CN115097266A (zh) * | 2022-06-20 | 2022-09-23 | 国网上海市电力公司 | 一种电力电缆局部放电类型识别方法、装置及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101572034B1 (ko) | 2011-05-19 | 2015-11-26 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 파라메트릭 오디오 코딩 방식들의 포렌식 검출 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
US20020128839A1 (en) * | 2001-01-12 | 2002-09-12 | Ulf Lindgren | Speech bandwidth extension |
US7260541B2 (en) * | 2001-07-13 | 2007-08-21 | Matsushita Electric Industrial Co., Ltd. | Audio signal decoding device and audio signal encoding device |
DE60214027T2 (de) * | 2001-11-14 | 2007-02-15 | Matsushita Electric Industrial Co., Ltd., Kadoma | Kodiervorrichtung und dekodiervorrichtung |
KR100657916B1 (ko) * | 2004-12-01 | 2006-12-14 | 삼성전자주식회사 | 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법 |
-
2007
- 2007-12-27 CN CN 200710305087 patent/CN101471072B/zh active Active
-
2008
- 2008-12-25 WO PCT/CN2008/073728 patent/WO2009089728A1/zh active Application Filing
Cited By (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11495236B2 (en) | 2010-03-09 | 2022-11-08 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing an input audio signal using cascaded filterbanks |
CN103038819B (zh) * | 2010-03-09 | 2015-02-18 | 弗兰霍菲尔运输应用研究公司 | 用以使用补丁边界对准处理输入音频信号的装置及方法 |
US9240196B2 (en) | 2010-03-09 | 2016-01-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for handling transient sound events in audio signals when changing the replay speed or pitch |
US9305557B2 (en) | 2010-03-09 | 2016-04-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing an audio signal using patch border alignment |
US9318127B2 (en) | 2010-03-09 | 2016-04-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Device and method for improved magnitude response and temporal alignment in a phase vocoder based bandwidth extension method for audio signals |
US11894002B2 (en) | 2010-03-09 | 2024-02-06 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung | Apparatus and method for processing an input audio signal using cascaded filterbanks |
US10032458B2 (en) | 2010-03-09 | 2018-07-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing an input audio signal using cascaded filterbanks |
US10770079B2 (en) | 2010-03-09 | 2020-09-08 | Franhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing an input audio signal using cascaded filterbanks |
CN103038819A (zh) * | 2010-03-09 | 2013-04-10 | 弗兰霍菲尔运输应用研究公司 | 用以使用补丁边界对准处理输入音频信号的装置及方法 |
US9792915B2 (en) | 2010-03-09 | 2017-10-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing an input audio signal using cascaded filterbanks |
US9905235B2 (en) | 2010-03-09 | 2018-02-27 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Device and method for improved magnitude response and temporal alignment in a phase vocoder based bandwidth extension method for audio signals |
CN106847295B (zh) * | 2011-09-09 | 2021-03-23 | 松下电器(美国)知识产权公司 | 编码装置和编码方法 |
CN106847295A (zh) * | 2011-09-09 | 2017-06-13 | 松下电器(美国)知识产权公司 | 编码装置和编码方法 |
CN107993673A (zh) * | 2012-02-23 | 2018-05-04 | 杜比国际公司 | 确定噪声混合因子的方法、系统、编码器、解码器和介质 |
CN107993673B (zh) * | 2012-02-23 | 2022-09-27 | 杜比国际公司 | 确定噪声混合因子的方法、系统、编码器、解码器和介质 |
CN111477245B (zh) * | 2013-06-11 | 2024-06-11 | 弗朗霍弗应用研究促进协会 | 语音信号解码装置和方法、语音信号编码装置和方法 |
CN111477245A (zh) * | 2013-06-11 | 2020-07-31 | 弗朗霍弗应用研究促进协会 | 语音信号解码装置和语音信号编码装置 |
CN105513601A (zh) * | 2016-01-27 | 2016-04-20 | 武汉大学 | 一种音频编码带宽扩展中频带复制的方法及装置 |
CN107221334A (zh) * | 2016-11-01 | 2017-09-29 | 武汉大学深圳研究院 | 一种音频带宽扩展的方法及扩展装置 |
CN106507113A (zh) * | 2016-11-28 | 2017-03-15 | 河海大学 | 一种三描述格型矢量量化预测边路解码方法 |
CN106507113B (zh) * | 2016-11-28 | 2019-03-29 | 河海大学 | 一种三描述格型矢量量化预测边路解码方法 |
US10818306B2 (en) | 2017-03-23 | 2020-10-27 | Dolby International Ab | Backward-compatible integration of harmonic transposer for high frequency reconstruction of audio signals |
US11621013B2 (en) | 2017-03-23 | 2023-04-04 | Dolby International Ab | Backward-compatible integration of harmonic transposer for high frequency reconstruction of audio signals |
US12175993B2 (en) | 2017-03-23 | 2024-12-24 | Dolby International Ab | Backward-compatible integration of harmonic transposer for high frequency reconstruction of audio signals |
US12094480B2 (en) | 2017-03-23 | 2024-09-17 | Dolby International Ab | Backward-compatible integration of harmonic transposer for high frequency reconstruction of audio signals |
CN110178180B (zh) * | 2017-03-23 | 2020-12-29 | 杜比国际公司 | 用于音频信号的高频重建的谐波转置器的后向兼容集成 |
US11676616B2 (en) | 2017-03-23 | 2023-06-13 | Dolby International Ab | Backward-compatible integration of harmonic transposer for high frequency reconstruction of audio signals |
US11626123B2 (en) | 2017-03-23 | 2023-04-11 | Dolby International Ab | Backward-compatible integration of harmonic transposer for high frequency reconstruction of audio signals |
CN110178180A (zh) * | 2017-03-23 | 2019-08-27 | 杜比国际公司 | 用于音频信号的高频重建的谐波转置器的后向兼容集成 |
US11763830B2 (en) | 2017-03-23 | 2023-09-19 | Dolby International Ab | Backward-compatible integration of harmonic transposer for high frequency reconstruction of audio signals |
US11605391B2 (en) | 2017-03-23 | 2023-03-14 | Dolby International Ab | Backward-compatible integration of harmonic transposer for high frequency reconstruction of audio signals |
CN108489596A (zh) * | 2018-03-20 | 2018-09-04 | 南京凯奥思数据技术有限公司 | 连续扫描激光快速测振方法及其系统 |
CN108682413A (zh) * | 2018-04-24 | 2018-10-19 | 上海师范大学 | 一种基于语音转换的情感疏导系统 |
CN109036457A (zh) * | 2018-09-10 | 2018-12-18 | 广州酷狗计算机科技有限公司 | 恢复音频信号的方法和装置 |
CN109036457B (zh) * | 2018-09-10 | 2021-10-08 | 广州酷狗计算机科技有限公司 | 恢复音频信号的方法和装置 |
US11763829B2 (en) | 2019-09-18 | 2023-09-19 | Tencent Technology (Shenzhen) Company Limited | Bandwidth extension method and apparatus, electronic device, and computer-readable storage medium |
WO2021052287A1 (zh) * | 2019-09-18 | 2021-03-25 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN114079968A (zh) * | 2020-08-21 | 2022-02-22 | 华为技术有限公司 | 传输数据的方法和装置 |
CN113299313B (zh) * | 2021-01-28 | 2024-03-26 | 维沃移动通信有限公司 | 音频处理方法、装置及电子设备 |
CN113299313A (zh) * | 2021-01-28 | 2021-08-24 | 维沃移动通信有限公司 | 音频处理方法、装置及电子设备 |
CN115097266A (zh) * | 2022-06-20 | 2022-09-23 | 国网上海市电力公司 | 一种电力电缆局部放电类型识别方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2009089728A1 (fr) | 2009-07-23 |
CN101471072B (zh) | 2012-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101471072B (zh) | 高频重建方法、编码装置和解码装置 | |
US6708145B1 (en) | Enhancing perceptual performance of sbr and related hfr coding methods by adaptive noise-floor addition and noise substitution limiting | |
JP3977292B2 (ja) | 少計算量で高周波数成分を復元するオーディオデコーディング法及び装置 | |
US8447621B2 (en) | Methods for improving high frequency reconstruction | |
CN101046964B (zh) | 基于重叠变换压缩编码的错误隐藏帧重建方法 | |
US9037454B2 (en) | Efficient coding of overcomplete representations of audio using the modulated complex lapped transform (MCLT) | |
CN107517593A (zh) | 用于使用目标时域包络来处理音频信号以获得经处理的音频信号的装置和方法 | |
US9280978B2 (en) | Packet loss concealment for bandwidth extension of speech signals | |
Ebner et al. | Audio inpainting with generative adversarial network | |
CN101436407B (zh) | 音频编解码方法 | |
CN101281748B (zh) | 用编码索引实现的空缺子带填充方法及编码索引生成方法 | |
KR100501930B1 (ko) | 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치 | |
CN1182514C (zh) | 频谱的增强方法和装置 | |
CN101609681A (zh) | 编码方法、编码器、解码方法及解码器 | |
US20120123788A1 (en) | Coding method, decoding method, and device and program using the methods | |
CN101604524A (zh) | 立体声编码方法及其装置、立体声解码方法及其装置 | |
CN111210831B (zh) | 基于频谱拉伸的带宽扩展音频编解码方法及装置 | |
KR100663379B1 (ko) | 멀티미디어용 휴대기기 오디오의 음질 향상 시스템 및 그향상 방법 | |
RU2409874C9 (ru) | Сжатие звуковых сигналов | |
Liu et al. | Blind bandwidth extension of audio signals based on harmonic mapping in phase space | |
Huang et al. | A method for separating drum objects from polyphonic musical signals | |
Kim et al. | Quality Improvement Using a Sinusoidal Model in HE-AAC | |
CN107545900A (zh) | 带宽扩展编码和解码中高频弦信号生成的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |