CN101694773B - 一种基于tda域的自适应窗切换方法 - Google Patents
一种基于tda域的自适应窗切换方法 Download PDFInfo
- Publication number
- CN101694773B CN101694773B CN2009102359037A CN200910235903A CN101694773B CN 101694773 B CN101694773 B CN 101694773B CN 2009102359037 A CN2009102359037 A CN 2009102359037A CN 200910235903 A CN200910235903 A CN 200910235903A CN 101694773 B CN101694773 B CN 101694773B
- Authority
- CN
- China
- Prior art keywords
- tda
- window
- switch mode
- territory
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000003044 adaptive effect Effects 0.000 title description 8
- 230000001052 transient effect Effects 0.000 claims abstract description 85
- 238000004458 analytical method Methods 0.000 claims abstract description 31
- 230000005236 sound signal Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 238000004513 sizing Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 6
- 238000013139 quantization Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000002592 echocardiography Methods 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 11
- 238000002156 mixing Methods 0.000 abstract description 7
- 230000002349 favourable effect Effects 0.000 abstract 1
- 238000003672 processing method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 24
- 230000007704 transition Effects 0.000 description 23
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 101100500467 Arabidopsis thaliana EAAC gene Proteins 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000541 pulsatile effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于TDA域的自适应窗切换方法,属于音频编码领域,特别是对音频暂态信号进行时域混叠(TDA)操作后的处理方法。该方法的特征在于,检测出的时域暂态信号经过时域混叠后,由时域映射到TDA域,对TDA域信号采用自适应窗切换的方法进行可变窗长的时频分析,根据TDA域暂态出现的位置和时频分析效果选择不同的窗切换模式,实现不同长度子帧间的切换与过渡,并利用开环和闭环相结合的策略对TDA域的窗切换模式进行选择。本发明针对TDA域信号进行自适应窗切换以选择最佳的时间分辨率,在避免暂态信号预回声失真的同时能够保持良好的时频分析效果,并有利于提高暂态和稳态混合等复杂情况下的音频编码质量。
Description
技术领域
本发明涉及一种基于TDA域的窗切换方法,尤其是一种适合于暂态信号经过时域混叠(TDA,Time Domain Aliasing)处理后的多分辨率分析方法,属于音频编码技术领域。
背景技术
音频信号从时域波形的瞬变和缓变上可分为暂态和稳态信号,暂态信号例如敲打乐器的声音因其能量突发且时间短暂,在音频编码处理中需要较高的时域分辨率;而稳态信号时间上变化较平稳但频谱上较丰富,需要有较高的频域分辨率。现有的音频编码器大多采用感知变换编码方式,例如MPEG提出的MP3、AAC系列音频编码标准均采用改进的离散余弦变换(MDCT,Modified Discrete Cosine Transform),基于人耳听觉特性对音频信号进行时频变换,对稳态信号用长窗分析来获得较好的频域分辨率;而为避免量化噪声均匀扩散到整个时域,尤其是暂态信号出现之前的那段信号,对暂态信号用短窗分析来消除预回声失真。
2006年3GPP基于MPEG的AAC编码器(标准号:ISO/IEC 14496-3)提出增强的高级音频编码标准EAAC+(标准号:3GPP TS 26.401),基于MDCT变换,进行暂态帧检测,采用长短窗切换的方法来实现稳态和暂态的可变分辨率分析,并通过引入时域噪声整形(TNS,Time Noise Shaping)模块消除暂态编码预回声。美国公开号为6424939(公开日:2008年1月29号)的专利预先计算相邻两帧信号的MDCT系数,基于MDCT系数计算感知参数来决定当前帧信号是稳态的或暂态的,并相应采用长窗或短窗,在较低的复杂度下提高当前帧的暂、稳态判断的精度,进而提升重建音频的质量。我国公开号为CN101308656A(公开日:2008年11月19日)的专利对检测出的暂态信号处理采用稳态和暂态信号帧之间进行长短窗切换方法,将暂态部分时域采样点进行伸缩处理后进行时-频变换编码来减少量化比特数和计算复杂度。
如上所述,现有的音频编码技术大多采用了时域上对音频信号帧之间进行长短窗切换的方法进行分析,将检测出的每帧暂态信号用固定窗长的短窗进行处理。这种方式有两个主要的问题:一是对于时域的当前帧而言采用固定长度的窗长处理方式使得时频分辨率在本帧内受限,其时频分析的分辨率无法保证合适,从而导致预回声在时域扩展,重建信号的质量下降;二是长短窗切换时大多使用过渡窗,这需要同时获得时域的相邻两帧信号的暂态分析结果来判断出何时使用过渡窗,因此增加了算法时延,限制了编码器在实时通信场合的应用。因此为了进一步控制预回声,提升质量,需要更准确的时频分辨率分析,尤其是对于暂态和稳态混合的情况,暂态突发处应有较短的处理窗长,稳态部分应有较长的处理窗长,这就需要对检测出的暂态音频进行自适应的窗长调整,并进行相应的窗型切换和过渡。2008年ITU-T提出一种低复杂度全频带音频编码标准G.722.1-FB(标准号:ITU-T G.719),采用TDA时域混叠结合DCT-IV型快速算法实现MDCT时频分析,对检测出的暂态帧信号在TDA域划分为固定窗长度的4个子帧并进行MDCT分析;每帧信号进行TDA时域混叠操作后采样点个数降为一半,这种在TDA域对音频信号进行时频分析的方法其延迟固定,并有利于降低算法的计算复杂度,部分解决了前述采用时域长短窗切换的方法在音频信号中的暂态信号处理中的问题。但该标准对TDA域信号采用固定的4子帧窗切换模式不能很好的减少预回声失真,且不适合暂态和稳态混合情况的处理。
发明内容
为了解决音频信号中混有暂态和稳态信号时,时频分析效果存在分辨率无法适应需求,导致预回声且使重建信号的质量下降的问题,本发明公开了一种在TDA域进行多分辨率分析的自适应窗切换处理方法,以此改善现有音频标准(ITU-T G.719)对暂态信号的时频分析效果,相比现有的每帧暂态信号在TDA域采用固定长度4子帧的窗切换模式(ITU-T G.719),能够进一步降低音频信号中暂态信号的预回声失真,并有利于提高暂态和稳态混合等复杂情况下的音频编码质量。
为了达到上述目的,在本发明技术方案中,根据TDA域暂态出现的位置和时频分析效果选择不同的窗切换模式,将经过时域混叠(TDA,Time Domain Aliasing)操作后的暂态信号划分为相互交叠的长度可变的子帧进行时频分析。本发明采用开环策略判断TDA域中的暂态信号出现位置并进行窗切换模式的粗筛选;采用闭环策略选择时频分析最佳的窗切换模式,实现TDA域的长短窗间的切换与过渡,从而通过开环和闭环相结合的策略找到合适的窗型来进行最佳的时频分辨率分析。
本发明所述一种基于TDA域的自适应窗切换方法,包括设定一个窗切换模式集合,该集合涉及一组不同分辨率的窗,该集合中的窗切换模式由不同分辨率的窗组成并可以保证信号完全重构,TDA域暂态标记出现的位置的分布对应集合中的不同窗切换模式,本方法是通过如下步骤实现的:
对于待处理音频信号中的每一个暂态信号帧,
(1)进行基于开环策略的TDA域窗切换模式粗筛选,方法如下:
a.将待处理音频信号中的暂态信号帧进行时域混叠(TDA)操作,然后将得到的当前TDA域长帧信号划分为多个短帧信号;
b.分别计算每个短帧信号的短时能量和长时能量,并计算每个短帧信号的短时能量和长时能量的比值;
c.进行窗切换模式粗筛选:
若步骤b所得的比值都不超过预置门限,则在窗切换模式集合中选择时间分辨率最低的窗切换模式,然后进行步骤(3)所述的操作;
若步骤b所得的比值存在超过预置门限的情况,则对超过预置门限的比值所对应的短帧信号进行暂态标记,并根据该暂态标记在TDA域的位置的分布情况筛选出相应的窗切换模式集合,执行步骤(2);
(2)进行基于闭环策略的TDA域窗切换模式细筛选,方法如下:
根据步骤(1)所述开环策略下粗筛选选出的窗切换模式集合,首先进行分析处理,即采用每一种窗切换模式对当前TDA域长帧信号进行一次变换分析和量化编码;然后进行合成处理,即通过解量化和逆变换过程重建TDA域长帧信号;
然后计算每一种窗切换模式下重建后的TDA域长帧信号的分段信噪比,选择使分段信噪比最大时的窗切换模式;
(3)根据选出的窗切换模式对当前TDA域长帧信号进行窗切换操作,即对当前TDA域长帧信号根据选定的窗切换模式进行前后补零,再划分成不同长度的交叠子帧。
本发明所用到的技术方案中涉及到采用开环策略对TDA域长帧信号进行暂态位置的判断,并根据暂态是否出现以及出现位置的分布情况从备选的窗切换模式中初步筛选出窗切换模式的集合,该过程避免了完全采用闭环模式选择而带来的全搜索高复杂度,为下一步的闭环搜索筛选出可能的窗型组合。
对比现有技术,本发明有益效果在于:采用本发明所述的一种基于TDA域的自适应窗切换方法,能够使得时频分辨率自适应于每个暂态信号帧,从而获得可变的时频分辨率;引入更短窗型有利于提高暂态信号的时频分析效果,进一步消除预回声失真,而本发明所述的对暂态信号帧采用长短窗交叠的窗切换模式有利于提高暂态和稳态混合等复杂情况下的时频分析效果。本发明采用开环和闭环相结合的方式进行窗切换模式选择,在保证重建音频有较好质量的同时,有利于降低模式选择过程的复杂度。本发明是对现有音频编码技术中的时频分析的一种改进;现有方法中将检测出的每帧暂态信号用固定窗长的短窗进行处理,即采用时间分辨率较低的固定长度短窗对暂态信号进行分析,不能满足暂态信号的较高时间分辨率的要求,而且对暂态和稳态混合等复杂情况处理也不是最优的。本发明技术方案提高了对暂态信号的编码效果和音频编码器的整体质量,同时保持较低的复杂度。
附图说明
图1本发明的一种TDA域的自适应窗切换方法的系统组成框图;
图2本发明实施例中的开环策略粗筛选的正向暂态搜索示意图;
图3本发明实施例中的暂态搜索的前端对折复制示意图;
图4本发明实施例中的闭环策略窗切换模式细筛选过程示意图;
图5(a)4子帧的对称窗型示意图;
图5(b)8子帧的对称窗型示意图;
图5(c)4子帧的左边缘窗型示意图;
图5(d)4子帧的右边缘窗型示意图;
图5(e)8子帧的左边缘窗型示意图;
图5(f)8子帧的右边缘窗型示意图;
图5(g)4子帧到8子帧的过渡窗型示意图;
图5(h)8子帧到4子帧的过渡窗型示意图;
图5(i)4子帧左边缘窗型到8子帧窗型的非对称窗型示意图;
图5(i)8子帧窗型到4子帧右边缘窗型的非对称窗型示意图;
图6(a)窗切换模式0示意图;
图6(b)窗切换模式1示意图;
图6(c)窗切换模式2示意图;
图6(d)窗切换模式3示意图;
图6(e)窗切换模式4示意图;
图6(f)窗切换模式5示意图;
图6(g)窗切换模式6示意图;
图6(h)窗切换模式7示意图;
图6(i)窗切换模式8示意图;
图6(i)窗切换模式9示意图;
具体实施方式
下面结合附图和实施例对本发明作进一步描述。
本发明实例中音频编码器输入48kHz采样的音频信号,处理带宽为20Hz~20kHz。编码器将16bit线性PCM输入信号分成40ms帧长,帧间交叠50%。MDCT变换编码采用TDA结合DCT-IV型方式,即MDCT变换的输入为2*L=1920个点,则经过TDA操作后点数为L=960,如图1、图2、图4所示。
本实施例中,TDA域的自适应窗切换模式共涉及10种窗型(见图5):4子帧的对称窗型、8子帧的对称窗型、4子帧的左边缘窗型、4子帧的右边缘窗型、8子帧的左边缘窗型、8子帧的右边缘窗型、4子帧到8子帧的过渡窗型、8子帧到4子帧的过渡窗型、4子帧左边缘窗型到8子帧窗型的非对称窗型、8子帧窗型到4子帧右边缘窗型的非对称窗型,假设当前帧的TDA域信号长度为L,则10种窗型用公式分别表示为:
(1)4子帧的对称窗型
其左半部分和右半部分分别与上一4子帧窗型的右半部分和下一4子帧窗型的左半部分交叠;
(2)8子帧的对称窗型
其左半部分和右半部分分别与上一8子帧窗型的右半部分和下一8子帧窗型的左半部分交叠;
(3)4子帧的左边缘窗型
从左边缘开始向右共填充L/8个零值,当前子帧的TDA域信号的起点位于左半部分的L/8处,其右半部分与下一4子帧窗型的左半部分交叠;
(4)4子帧的右边缘窗型
其左半部分与上一4子帧窗型的右半部分交叠,当前子帧的TDA域信号的终点位于右半部分的3L/8处,并开始向右填充L/8个零值,直到右边缘;
(5)8子帧的左边缘窗型
从左边缘开始共填充L/16个零值,当前子帧的TDA域信号的起点位于左半部分的L/16处,其右半部分与下一8子帧窗型的左半部分交叠;
(6)8子帧的右边缘窗型
其左半部分与上一8子帧窗型的右半部分交叠,当前子帧的TDA域信号的终点位于右半部分的3L/16处,并开始向右填充L/16个零值,直到右边缘;
(7)4子帧到8子帧的过渡窗型
其左半部分与上一4子帧窗型右半部分交叠,其右半部分中位于5L/16到7L/16-1之间的部分与下一8子帧窗型的左半部分交叠;
(8)8子帧到4子帧的过渡窗型
其左半部分中位于L/16到3L/16-1之间的部分与上一8子帧窗型的右半部分交叠,其右半部分与下一4子帧窗型的左半部分交叠;
(9)4子帧左边缘窗型到8子帧窗型的非对称窗型
从左边缘开始向右共填充L/8个零值,当前子帧的TDA域信号的起点位于左半部分的L/8处,其右半部分中位于5L/16到7L/16-1之间的部分与下一8子帧窗型的左半部分交叠;
(10)8子帧窗型到4子帧右边缘窗型的非对称窗型
其左半部分中位于L/16到3L/16-1之间的部分与上一8子帧窗型的右半部分交叠,当前子帧的TDA域信号的终点位于右半部分的3L/8处,并开始向右填充L/8个零值,直到右边缘。
本实施例中的TDA域的自适应窗切换共涉及10种窗切换模式(见附图6),每种模式分别是所述的10种不同窗型的交叠组合,用序号0到9表示,模式0对应时间分辨最低的4子帧窗切换模式,模式1到8对应时间分辨率变化的4子帧和8子帧混合窗切换模式,模式9对应时间分辨最高的8子帧窗切换模式,各模式的窗型切换如下:
(1)模式0交叠的窗型从左至右依次为:4子帧的左边缘窗型、4子帧的对称窗型、4子帧的对称窗型、4子帧的右边缘窗型;
(2)模式1交叠的窗型从左至右依次为:8子帧的左边缘窗型、8子帧的对称窗型、8子帧到4子帧的过渡窗型、4子帧的对称窗型、4子帧的右边缘窗型;
(3)模式2交叠的窗型从左至右依次为:4子帧左边缘窗型到8子帧窗型的非对称窗型、8子帧的对称窗型、8子帧的对称窗型、8子帧到4子帧的过渡窗型、4子帧的右边缘窗型;
(4)模式3交叠的窗型从左至右依次为:4子帧的左边缘窗型、4子帧到8子帧的过渡窗型、8子帧的对称窗型、8子帧的对称窗型、8子帧窗型到4子帧右边缘窗型的非对称窗型;
(5)模式4交叠的窗型从左至右依次为:4子帧的左边缘窗型、4子帧的对称窗型、4子帧到8子帧的过渡窗型、8子帧的对称窗型、8子帧的右边缘窗型;
(6)模式5交叠的窗型从左至右依次为:8子帧的左边缘窗型、8子帧的对称窗型、8子帧到4子帧的过渡窗型、4子帧到8子帧的过渡窗型、8子帧的对称窗型、8子帧的右边缘窗型;
(7)模式6交叠的窗型从左至右依次为:8子帧的左边缘窗型、8子帧的对称窗型、8子帧的对称窗型、8子帧的对称窗型、8子帧到4子帧的过渡窗型、4子帧的右边缘窗型;
(8)模式7交叠的窗型从左至右依次为:4子帧左边缘窗型到8子帧窗型的非对称窗型、8子帧的对称窗型、8子帧的对称窗型、8子帧的对称窗型、8子帧的对称窗型、8子帧窗型到4子帧右边缘窗型的非对称窗型;
(9)模式8交叠的窗型从左至右依次为:4子帧的左边缘窗型、4子帧到8子帧的过渡窗型、8子帧的对称窗型、8子帧的对称窗型、8子帧的对称窗型、8子帧的右边缘窗型;
(10)模式9交叠的窗型从左至右依次为:8子帧的左边缘窗型、8子帧的对称窗型、8子帧的对称窗型、8子帧的对称窗型、8子帧的对称窗型、8子帧的对称窗型、8子帧的对称窗型、8子帧的右边缘窗型。
本发明所述的一种基于TDA域的自适应窗切换方法在本实施例中的应用如下,流程见附图1所示:
通过时域暂态检测,确定当前帧为暂态帧,则进行TDA域的自适应窗切换处理。本发明实施例具体包含如下步骤:
1、基于开环策略进行TDA域窗切换模式的粗筛选(附图2)
1920点时域信号经过TDA时域混叠操作得到960点的TDA域信号,用x(n),n=0,...,959表示。对x(n)进行正向与反向两次暂态搜索,以确定TDA域的暂态分布情况,以正向暂态搜索为例,具体步骤如下:
①、TDA域信号前端对折复制,见附图3
如图3所示,从x(n)的前端向外对折复制,即将n=60~299共240点数据反转后放在x(n)的前端,形成960+240=1200点新序列,用n=0....,1199表示。这样做可以减少端部的暂态虚检概率。
②、TDA域信号的短帧划分
对进行高通滤波,得到xHP(n),n=0,...,1199,然后均分成20个短帧,每个短帧长度是60个样点,相当于1.25ms长,即对暂态的定位精度为1.25ms。
③、计算短帧的短时能量
计算每个短帧的短时能量E(m),
其中,m是当前短帧的序号。
④、计算短帧的长时能量
长时能量ELT(m),
ELT(m)=(1-α)ELT(m-1)+αE(m),m=0,...,18,
其中α是遗忘因子(forgetting factor),α=1/4。初值ELT(-1)设为0。
⑤、门限判决和暂态位置搜索并进行标记
从m=4开始,计算E(m)与ELT(m)的比值,直到m=19。ρ是门限值,且10lgρ=7.8dB。
生成暂态数组k[l],l=0,...,15,对应m=4~19这16个短帧的状态,初始值全为0。
若某一能量比达到门限值ρ,即
E(m)≥ρ×ELT(m-1),
则在暂态数组里相应的位置设暂态标记,即k[l]置为“1”。
⑥、窗切换模式集合生成
反向的暂态搜索,可将x(n)反转后,按上述5个步骤进行。
正、反向暂态搜索后,如果没有暂态标记出现,则不再进行闭环策略的模式细筛选,直接选择最低时间分辨率的窗型切换模式,即模式0。
如果出现暂态标记,根据数组k[l]中暂态标记“1”的分布情况(暂态位置集合用p表示),将TDA域的暂态分布划分为六种情况,即前端、后端、前与后、中前、中后、其它,结合模式1~模式9,对应关系如下:位于前端分布时的集合中包含模式1、6、9,位于中前分布时的集合中包含模式2、6、9,位于中后分布时的集合中包含模式3、8、9,位于后端分布时的集合中包含模式4、8、9,位于前和后分布时的集合中包含模式5、9,其它分布时的集合中包含模式6、7、8、9,可得到窗切换模式集合如表1所示:
表1TDA域暂态位置与窗切换模式集合对应关系
暂态标记 | 暂态分布 | 模式集合 | |
集合0 | p∈[0,2] | 前端 | 模式1,模式6,模式9 |
集合1 | p∈[5,6] | 中前 | 模式2,模式6,模式9 |
集合2 | p∈[9,10] | 中后 | 模式3,模式8,模式9 |
集合3 | p∈[13,15] | 后端 | 模式4,模式8,模式9 |
集合4 | p∈{[0,2]∪[13,15]} | 前与后 | 模式5,模式9 |
集合5 | 其它 | 模式6,模式7,模式8,模式9 | |
无暂态标记 | 模式0 |
这里,集合0至集合4中均加入了模式9,以减少暂态搜索中可能的误判所带来的误差,同时闭环的复杂度将有较小的增加。
2、基于闭环策略进行TDA域窗切换模式细筛选(见附图4)
根据开环策略下得到的模式集合,闭环选择一种最佳的窗切换模式,具体步骤如下:
①、TDA域的窗切换处理
对任一备选的窗切换模式,对x(n),n=0,...,959进行加窗、分子帧。
②、基于MDCT变换的分析与合成
TDA域的分析与合成基于MDCT变换,并进行比特分配、系数归一化、量化等操作。
TDA域的分析步骤如下:
a.对子帧进行MDCT变换,得到每个子帧的MDCT系数。
b.对MDCT系数进行归一化,同时得到增益。
c.根据比特分配结果,对归一化的MDCT系数进行量化。
按照解码器的合成步骤,即解量化、MDCT系数解归一化、IMDCT反变换,叠接加窗、相加等操作,最终得到合成的TDA域信号x′(n),n=0,...,959。
③、计算分段信噪比并判断最佳窗切换模式
参考TDA域的原始信号,计算当前窗切换模式下的TDA域的合成信号的分段信噪比。
找出有最大分段信噪比的窗切换模式,即为闭环策略选出的最优的窗切换模式。
3、实施例测试结果
本发明“一种基于TDA域的自适应窗切换方法”应用到现有音频标准ITU-T G.719中,并由北京理工大学现代通信实验室按照ITU-R BS.1543测试标准组织实施了MUSHRA主观听音实验,选取5条48kHz采样的暂态音频样本,测试的编码速率有48kbps、44kbps、40kbps、32kbps、28kbps,选取20名听音人对待测音频进行打分,统计结果表明分别在测试的5种速率下自适应窗切换方法比原编码中固定窗切换的方法能够获得更好的暂态编码音质,本发明的方法改善了ITU-T G.719的音频编码效果。
本发明所用的技术方案中涉及到利用闭环策略在开环策略得到的窗切换模式集合中确定最佳的窗切换模式,该过程在暂态出现处选择时间分辨率较高的8子帧短窗组合,而在非暂态处采用时间分辨率较低的4子帧长窗组合,并能够在4子帧和8子帧窗型间实现平滑切换和过渡,能够在限制预回声失真的同时保持较好的时频分析效果。
采用本发明所述的一种基于TDA域的自适应窗切换方法,能够使得时频分辨率自适应于输入信号的变化;引入8子帧的更短窗型有利于提高暂态信号的时频分析效果,进一步消除预回声失真,而4子帧和8子帧交叠的窗切换模式有利于提高暂态和稳态混合等复杂情况下的时频分析效果。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种基于TDA域的自适应窗切换方法,包括设定一个窗切换模式集合,该集合涉及一组不同分辨率的窗,该集合中的窗切换模式由不同分辨率的窗组成并可以保证信号完全重构,TDA域暂态标记出现的位置的分布对应窗切换模式集合中的不同窗切换模式;其特征在于,本方法是通过如下步骤实现的:
对于待处理音频信号中的每一个暂态信号帧,
(1)进行基于开环策略的TDA域窗切换模式粗筛选,方法如下:
a.将待处理音频信号中的暂态信号帧进行时域混叠操作,然后将得到的当前TDA域长帧信号划分为两个或两个以上短帧信号;
b.分别计算每个短帧信号的短时能量和长时能量,然后计算每个短帧信号的短时能量和长时能量的比值;
c.进行窗切换模式粗筛选:
若步骤b所得的比值都不超过预置门限,则在窗切换模式集合中选择时间分辨率最低的窗切换模式,然后进行步骤(3)所述的操作;
若步骤b所得的比值存在超过预置门限的情况,则对超过预置门限的比值所对应的短帧信号进行暂态标记,并根据该暂态标记在TDA域的位置的分布情况筛选出相应的窗切换模式集合,执行步骤(2);
(2)进行基于闭环策略的TDA域窗切换模式细筛选,方法如下:
根据步骤(1)所述开环策略下粗筛选选出的窗切换模式集合,首先进行分析处理,即采用每一种窗切换模式对当前TDA域长帧信号进行一次变换分析和量化编码;然后进行合成处理,即通过解量化和逆变换过程重建TDA域长帧信号;
然后计算每一种窗切换模式下重建后的TDA域长帧信号的分段信噪比,选择使分段信噪比最大时的窗切换模式;
(3)根据选出的窗切换模式对当前TDA域长帧信号进行窗切换操作。
2.根据权利要求1所述的一种基于TDA域的自适应窗切换方法,其特征在于,步骤(3)中所述的窗切换操作,是对当前TDA域长帧信号根据选定的窗切换模式进行前后补零,再划分成不同长度的交叠子帧。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102359037A CN101694773B (zh) | 2009-10-29 | 2009-10-29 | 一种基于tda域的自适应窗切换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102359037A CN101694773B (zh) | 2009-10-29 | 2009-10-29 | 一种基于tda域的自适应窗切换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101694773A CN101694773A (zh) | 2010-04-14 |
CN101694773B true CN101694773B (zh) | 2011-06-22 |
Family
ID=42093739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009102359037A Expired - Fee Related CN101694773B (zh) | 2009-10-29 | 2009-10-29 | 一种基于tda域的自适应窗切换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101694773B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101908342B (zh) * | 2010-07-23 | 2012-09-26 | 北京理工大学 | 利用频域滤波后处理进行音频暂态信号预回声抑制的方法 |
CN102446508B (zh) * | 2010-10-11 | 2013-09-11 | 华为技术有限公司 | 语音音频统一编码窗型选择方法及装置 |
FR2977969A1 (fr) * | 2011-07-12 | 2013-01-18 | France Telecom | Adaptation de fenetres de ponderation d'analyse ou de synthese pour un codage ou decodage par transformee |
CN109309764B (zh) * | 2017-07-28 | 2021-09-03 | 北京搜狗科技发展有限公司 | 音频数据处理方法、装置、电子设备和存储介质 |
CN115691521A (zh) * | 2021-07-29 | 2023-02-03 | 华为技术有限公司 | 一种音频信号的编解码方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1338104A (zh) * | 1999-01-28 | 2002-02-27 | 多尔拜实验特许公司 | 自适应块长编码系统的数据分帧 |
US6766300B1 (en) * | 1996-11-07 | 2004-07-20 | Creative Technology Ltd. | Method and apparatus for transient detection and non-distortion time scaling |
CN101308656A (zh) * | 2007-05-17 | 2008-11-19 | 展讯通信(上海)有限公司 | 音频暂态信号的编解码方法 |
-
2009
- 2009-10-29 CN CN2009102359037A patent/CN101694773B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6766300B1 (en) * | 1996-11-07 | 2004-07-20 | Creative Technology Ltd. | Method and apparatus for transient detection and non-distortion time scaling |
CN1338104A (zh) * | 1999-01-28 | 2002-02-27 | 多尔拜实验特许公司 | 自适应块长编码系统的数据分帧 |
CN101308656A (zh) * | 2007-05-17 | 2008-11-19 | 展讯通信(上海)有限公司 | 音频暂态信号的编解码方法 |
Non-Patent Citations (1)
Title |
---|
TELECOMMUNICATION STANDARDIZATION SECTOR OF ITU.ITU-T G.719(06/2008) Low-complexity,full-band audio coding for high-quality,conversational applications.《ITU-T G.719(06/2008) Low-complexity,full-band audio coding for high-quality,conversational applications》.2008,第7-27页. * |
Also Published As
Publication number | Publication date |
---|---|
CN101694773A (zh) | 2010-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101508819B1 (ko) | 멀티 모드 오디오 코덱 및 이를 위해 적응된 celp 코딩 | |
CN101067931B (zh) | 一种高效可配置的频域参数立体声及多声道编解码方法与系统 | |
CN103026408B (zh) | 音频信号产生装置 | |
US8959015B2 (en) | Apparatus for encoding and decoding of integrated speech and audio | |
CN101727906B (zh) | 高频带信号的编解码方法及装置 | |
KR101562281B1 (ko) | 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법 | |
CN101694773B (zh) | 一种基于tda域的自适应窗切换方法 | |
CN105304090B (zh) | 使用对齐的前瞻部分将音频信号编码及解码的装置与方法 | |
US20110173009A1 (en) | Apparatus and Method for Encoding/Decoding an Audio Signal Using an Aliasing Switch Scheme | |
CN104025189A (zh) | 编码语音信号的方法、解码语音信号的方法,及使用其的装置 | |
CN101266797B (zh) | 语音信号后处理滤波方法 | |
Lecomte et al. | Packet-loss concealment technology advances in EVS | |
MXPA06012578A (es) | Codificacion de audio con distintos modelos de codificacion. | |
CN105280190A (zh) | 带宽扩展编码和解码方法以及装置 | |
CN101320563A (zh) | 一种背景噪声编码/解码装置、方法和通信设备 | |
CN104103276A (zh) | 一种声音编解码装置及其方法 | |
CN101281749A (zh) | 可分级的语音和乐音联合编码装置和解码装置 | |
CN103930946A (zh) | 延迟优化的重叠变换,编码/解码加权窗口 | |
CN101197576A (zh) | 一种音频信号编码、解码方法 | |
TWI840892B (zh) | 音頻編碼器、音頻編碼方法、電腦程式及編碼的多聲道音頻信號 | |
CN114550732A (zh) | 一种高频音频信号的编解码方法和相关装置 | |
CN1244090C (zh) | 具备背景噪声再现的语音编码 | |
CN102419977A (zh) | 瞬态音频信号的判别方法 | |
CN101373594A (zh) | 修正音频信号的方法及装置 | |
CN105280189B (zh) | 带宽扩展编码和解码中高频生成的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110622 Termination date: 20141029 |
|
EXPY | Termination of patent right or utility model |