CN1338104A

CN1338104A - 自适应块长编码系统的数据分帧

Info

Publication number: CN1338104A
Application number: CN00803063A
Authority: CN
Inventors: 路易斯·D·费尔德; 迈克尔·M·杜鲁门
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 1999-01-28
Filing date: 2000-01-20
Publication date: 2002-02-27
Anticipated expiration: 2020-01-20
Also published as: MY128069A; MXPA01007547A; ATE223612T1; CN1255809C; ES2179018T3; CA2354396C; AU2621500A; DE60000412T2; AR022335A1; KR20010101749A; WO2000045389A1; HK1043429A1; CA2354396A1; TW519629B; DK1151435T3; AU771332B2; EP1151435A1; JP4540232B2; DE60000412D1; EP1151435B1

Abstract

一种音频编码器将自适应块编码处理应用于音频信息段,以生成经基准信号校准的编码信息帧,该基准信号承载视频信息帧序列的校准。分析该音频信息以确定音频信号的各种特征,例如瞬变的出现和位置,生成的控制信号导致自适应块编码处理编码不同长度的段。逆向的解码器应用自适应块解码处理,从编码信息帧中恢复出音频信息段。在采用时域混叠消除(TDAC)变换的实施例中,按照多种段模式中的一种应用窗口函数和变换,前述多种段模式定义了段序列中各段的窗口函数和变换参数。重叠帧序列中各帧的段的恢复可以独立于其它帧中段的恢复,且没有混叠人工噪声。调整窗口函数以提供优选的频域响应和时域增益曲线。

Description

自适应块长编码系统的数据分帧

本发明涉及音频信号处理，其中音频信息流被编码并组装成编码信息帧。本发明尤其涉及改进编码信息帧所承载的音频信息流质量，以及从编码信息帧恢复的音频信息流质量。

在许多视频/音频系统中，视频/音频信息在信息流中传送，前述信息流由与视频信息帧一致的编码音频信息帧组成，这意味着被编入给定音频帧的音频信息的声音内容与某个视频帧的图像内容相关，前述视频帧或者与给定音频帧基本吻合，或者超前或滞后给定音频帧指定量。音频信息一般以编码形式传送，编码形式能够减少信息容量需求，从而在可用带宽中可以传送所需数量的音频信息信道，例如在3到8个信道之间。

这些视频/音频信息流经常承受许多编辑和信令处理操作。常见的编辑操作将一个或多个视频/音频流分割成多个片断，衔接或拼接两个片断的首尾，生成新的信息流。这些剪接一般出现在视频信息调整点，因而在新的信息流中仍然维持视频同步。简单的编辑范例是剪辑电影胶片。需要拼接的两段材料可以来自不同源，例如不同信息渠道，它们也可以来自相同源。不管在哪种情况下，拼接通常都使音频信息产生了可觉察或者不可觉察的不连续性。

A.音频编码

数字音频使用的增长使得编辑音频信息而不在处理的信息中产生可闻人造杂音更为困难。这种困难的部分起因是数字音频经常被处理或者编码成数字采样段或块，这些节或块必须作为整体处理。许多基于可察觉或者音质的音频编码系统采用滤波器组或者变换器将信号采样段转换成编码子段信号采样或者变换系数块，它们必须进行整块合成滤波或者逆向变换，才能恢复原始信号段的复本。编辑操作较为困难，因为必须在块间完成处理的音频信号的编辑；否则，剪辑后两侧部分块所表示的音频信息都无法恢复。

处理节目材料重叠段的编码系统给出了另一限制。因为编码块所表示的信息的重叠特性，甚至无法从完整的编码采样或系数块正确恢复出原始信号段。

这种限制可以由广为采用的重叠块变换，改进的离散余弦变换(DCT)来说明，DCT在Princen，Johnson和Bradley的“Subband/TransformCoding Using Filter Band Designs Based on Timer Domain AliasingCancellation”，ICASSP 1987会议论文集，1987年五月，第2161-64页中描述。这种特定的时域混叠去除(TDAC)变换是奇数堆栈临界采样单边带解析合成系统的时域对应形式，这里称为奇数堆栈时域混叠去除(O-TDAC)。

前向或解析变换应用于由解析窗口函数加权，并且彼此重叠一半段长的采样段。这种解析变换通过将结果变换系数2中取1实现临界采样；但是，这种抽取所丢失的信息在所恢复的信号中产生了时域混叠。合成处理可以如下消除这种混叠：对变换系数块应用逆向或者合成变换以生成合成采样块，对合成采样段应用适当定型的合成窗口函数，并且重叠和增加窗口化的段。例如，如果TDAC解析变换系统生成块B₁-B₂序列，段S₁-S₂需要从这些块中恢复，那么段S₁的后半段和段S₂的前半段中混叠人工噪声将相互消除。

如果来自TDAC编码系统的两个编码信息流在块间某点拼合，但是，拼合任一侧的段并不会消除彼此的混叠人工噪声。例如，假定剪切一个编码信息流，使得它在块B₁-B₂之间某点结束，剪切另一个编码信息流，使得它在块B₃-B₄之间某点开始。如果拼合这两个编码信息流，使得块B₁直接在块B₄之前，则从块B₁恢复的段S₁的后半部分和从块B₄恢复的段S₄的前半部分产生的混叠人工噪声将不会彼此消除。

B.音频和视频同步

在编辑同时处理音频和视频信息的应用时会受到更大的限制，这出于至少两个原因。一个原因是视频帧长一般不等于音频块长。原因之二只是与特定视频标准，例如NTSC相关，这些标准的视频帧速率不是音频采样速率的整数倍。以下讨论中的例子假定音频采样速率是每秒48k个样本。大多数专业设备采用这个速率。类似考虑应用于其它采样速率，例如每秒44.1k个样本，该速率一般用于客户设备。

表I和表II中分别给出了几个视频和音频编码标准的帧和块长。表中“MPEGII”和“MPEGIII”的表项分别指国际标准组织的电影专家组所制定的标准ISO/IEC13818-3所定义的MPEG-2层II和MPEG-2层III编码技术。“AC-3”表项对应于Dolby实验室公司所开发的编码技术，由先进电视系统委员会在标准A-52中定义。48kHz PCM的“块长”是相邻采样之间的时间区间。

视频标准	帧长
视频标准	帧长	DTV(30Hz)NTSCPAL电影	33.333msec.33.367msec.40msec.41.667msec.

音频标准	块长
音频标准	块长	PCMMPEGIIMPEGIIIAC-3	20.8μsec.24msec.24msec.32msec.

视频帧音频帧

表I 表II

在将遵从这些标准的任意一个的视频和音频信息结合在一起的应用中，音频块和视频帧很少同步。出现视频/音频同步之间的最小时间间隔在表III中给出。例如，该表给出了每秒24帧的电影胶片将与每3秒最多一次的MPEG音频块边界同步，以及将与每4秒最多一次的AC-3音频块同步。

音频标准	DTV(30 Hz) NTSC PAL 电影
音频标准	DTV(30 Hz) NTSC PAL 电影	PCMMPEGIIMPEGIIIAC-3	33.333msec. 166.833msec. 40msec. 41.667msec.600msec. 24.024sec. 120msec. 3sec.600msec. 24.024sec. 120msec. 3sec.800msec. 32.032sec. 160msec. 4sec.

视频/音频同步之间的最小时间间隔

表III

表IV中示出了出现同步之间的最小间隔，以音频块对视频帧的比数表示。例如，在5个音频块和4个视频帧所占时间范围内AC-3块和PAL帧之间的同步出现次数不超过一次。

音频标准	DTV(30 Hz) NTSC PAL 电影
音频标准	DTV(30 Hz) NTSC PAL 电影	PCMMPEGIIMPEGIIIAC-3	1600∶1 8008∶5 1920∶1 2000∶125∶18 1001∶720 5∶3 125∶7225∶18 1001∶720 5∶3 125∶7225∶24 1001∶960 5∶4 125∶96

视频/音频同步之间的帧数

表IV

在视频和音频信息结合在一起时，编辑通常出现在视频帧边界。根据表III和IV的信息可以看出，这种编辑很少出现在音频帧边界。例如对NTSC视频和AC-3音频而言，对视频边界的编辑还会出现在音频块边界的可能性小于约1/960，或者大约百分之0.1。当然，对这两个被剪接的信息流的编辑必须以这种方式同步，否则将会丢失一些音频信息；因此，几乎可以确定地讲，对NTSC/AC-3信息的两次随机编辑的剪接将会出现在音频块边界之外，导致一个或两个丢失音频信息的块。但是，因为AC-3使用TDAC变换，出于上述原因，即使在信息块没有丢失的情况下也会出现未消除的混叠人工噪声。

B.段和块的长度考虑

除了影响视频/音频同步的上述考虑之外，还需要对编码的音频信息分段的长度进行额外的考虑，因为该长度以若干方式影响视频/音频系统的性能。

段和块长的一个影响是系统“等待时间”或者通过系统的信息传播时延量。时延在编码以接收并缓存音频信息段，并对缓存的段进行所需编码处理以生成编码信息块的过程中出现。时延在解码以接收并缓存编码信息块，并对缓存的块进行所需解码处理以恢复音频信息段，生成输出音频信号的过程中出现。音频编码和解码中的传播时延是不希望出现的，因为它们使维护视频和音频信息的一致更为困难。

使用块变换和量化编码的那些系统中段和块长的另一影响是从编码解码处理中恢复的音频的质量。一方面，段长较长使得块变换具有较高的频率可选性，这正是可感编码处理所需要的，因为它使得诸如位分配的可感编码决定可以更精确地进行。另一方面，较长段长使得块变换的时间可选性较低，这是可感编码处理所不希望出现的，因为它使得诸如位分配的可感编码决定的调整无法足够快，以完全利用人类听觉系统的音质特征。如果段长超过人类听觉系统的先时间屏蔽间隔，则从恢复的音频信号中可以听到不定性很高的信号事件，例如瞬变的编码人工噪声。这样，定长编码处理必须使用一种折中的段长，后者平衡了高时间解析需求和高频率解析需求。

一种方案是按照待编码的音频信息的一种或多种特征调整段长。例如，如果检测到瞬变或者足够的振幅，则块编码处理可以将段长暂时变短，以优化它对该瞬变事件的时间和频率解析。这种自适应处理在采用TDAC变换的系统中更为负载，因为必须满足特定限制以维护变换的混叠消除特性。调整TDAC变换长度的多种考虑在美国专利5394473中讨论。

出于上面提到的多种考虑，本发明的一个目的是提供与视频信息帧一致的帧中承载的音频信息的编解码，使得包括时域混叠消除变换的块编码处理按照信号特征调整段和块长。

本发明的各个方面所实现的附加优越性包括避免或者至少尽量减少因编辑操作，例如剪接，而引起的可闻人工噪声，控制处理迟滞以更为容易地维护视频/音频同步。

按照本发明的一个方面的知识，音频信息的一种编码方法包括接收基准信号，后者在视频信息帧序列中承载视频信息帧的调整，其中各编码信息帧对应于各视频帧，并且包括在重叠段序列中承载音频信息段长的控制信息，各段分别与其相邻段有重叠区间，序列长度等于帧区间加上帧重叠区间，以及编码音频信息块，各块有自己的长度和内容，在由自适应块编码处理进行处理时，会导致重叠段序列中各音频信息段。

在本讨论中，术语例如“编码”和“编码器”是指信号处理的各种方法和设备，其它术语例如“编码的”和“解码的”是指这种处理的结果。这些术语经常需要理解成是指或者隐指类似基于可感编码处理的处理，它使得音频信息的传送或存储所需的信息容量减少。但是，在本文中使用时，这些术语并没有隐指这种处理的意思。例如，术语“编码”包括更为一般意义的处理，例如生成脉码调制(PCM)采样来表示信号，将信息整理或组装成按照某种规范的格式。

术语例如“段”、“块”和“帧”在本申请中所代表的信息组或区间可能不同于其它文献，例如ANSIS4.40-1992标准，有时又称为AES-3/EBU数字音频标准，中相同术语所代表的含义。

这里所用的术语例如“滤波器”和“滤波器组”实际上包括任何形式的循环和非循环过滤，例如正交镜像滤波器(QMF)。除非讨论中明确指出，否则这些术语也用来表示变换。术语“滤波后的”信息是指应用解析“滤波器”的结果。

结合后续讨论和附图，可以更好地理解本发明的各种特性及其优选实施例，在这几张图中相同的参考数字指代相同的元件。

说明各种设备的图示出了对理解本发明有益的主要元件。为简明起见，这些图忽略了许多其它特性，这些特性可能对实际实施例而言相当重要，但是对理解本发明概念并不重要。

实现本发明所需的信号处理可以通过许多方式实现，包括微处理器、数字信号处理器、逻辑阵列和其它形式的计算电路所执行的程序。实现本发明各个方面的机器可执行的指令程序实际上可以嵌入任何机器可读媒质，包括磁和光媒质，例如光盘，磁盘和磁带，以及固态设备，例如可编程只读存储器。信号滤波器实际上可以通过任何方式实现，包括循环、非循环和栅格数字滤波器。根据应用的需求和特性，可以应用数字和模拟技术的各种组合。

与音频和视频信息流的处理相关的情况可能会更多地提及，但是，本发明这些方面可以应用于不包含视频信息处理的应用。

以下讨论的内容和附图的提出仅仅是作为例子，不应当被理解成代表对本发明范围的限制。

图1概要表示了段中的音频信息以及与基准信号一致的块中的编码信息；

图2概要说明了帧中的音频信息段以及与基准信号一致的帧中的编码信息块；

图3是将自适应块编码处理应用于音频信息段的音频编码器的一种实施例的框图；

图4是将自适应块编码处理应用于编码信息帧，从而生成音频信息段的音频解码器的一种实施例的框图；

图5的框图给出了将多个滤波器组之一应用于音频信息段的块编码器的一种实施例；

图6的框图给出了将多个合成滤波器组之一应用于编码音频信息块的块解码器的一种实施例；

图7给出了可以用于解析音频信息段的瞬态检测器的框图；

图8说明了图7的瞬态检测器所使用的块和子块的层次结构；

图9说明了实现图7的瞬态检测器中的比较器的方法中的步骤；

图10说明了控制块编码处理的方法的步骤；

图11是时域混叠消除解析合成系统的框图；

图12到15说明了按照两种控制方案的几个分段模式的解析合成窗口函数增益曲线；

图16A到16C说明了按照第一帧格式的控制信息和编码音频信息的组装；

图17A到17C说明了按照第二帧格式的控制信息和编码音频信息的组装。

实现本发明的模式

A.信号和处理

1.段、块和帧

本发明涉及与视频信息帧中承载的图片相关的音频信息的编解码。参看图1，示出的一个音频信息信道的音频信号10的一部分被划分成重叠段11到18。按照本发明，一个或多个音频信息信道段由块编码处理来进行处理，生成的编码信息流20包括编码信息块21到28。例如，将块编码处理应用于一个音频信息信道的音频段12到15的序列，以生成编码块22到25的序列。如该图所示，各个编码块滞后于相应的音频段，因为块编码处理所引起的时延至少与接收和缓存完整的音频段所需的时间一样长。该图所示的滞后量并不重要。

音频信号10中的各个段在图1中的形状表示了解析窗口函数的时域“增益曲线”，该解析窗口函数可以用于块编码处理，例如变换编码。解析窗口函数的增益曲线是随时间而变化的窗口函数的增益。一段的窗口函数的增益曲线与后一段的窗口函数的增益曲线的重叠量称为段重叠区间。尽管预期在优选实施例中采用变换编码，但本发明实际上可以用于任何类型的块编码处理，这种处理响应于音频信息段，生成编码信息块。

基准信号30在视频信息流中传送视频帧的校准。在所示例子中，帧基准31和32承载两个相邻视频帧的校准。这些基准可以标记视频帧的开始，或者任何其它所需的点。NTSC视频的一种广泛使用的校准点是各个视频帧的第一半帧中的第10根线。

本发明可以用于视频/音频系统，其中音频信息通过视频信息帧来传送。视频/音频信息流经常遭受各种编辑和信号处理操作。这些操作经常在与视频帧一致的点上将一个或多个视频/音频信息流分割成节；因此，希望将编码音频信息组装成与视频帧一致的某种形式，使得这些操作不会在编码块中分割。

参看图2，一个信道的音频信息的段的序列或帧19被处理，生成多个编码块，这些块被组装成帧29，后者通过基准31校准。在该图中，虚线代表了单个段和块的边界，实线代表了段帧和编码块帧的边界。具体而言，段帧19的实线形式表示了帧中重叠段序列的解析窗口函数的结果时域增益曲线。一个段帧，例如帧19的增益曲线与后一段帧的增益曲线的重叠量称为帧重叠区间。

在采用解析窗口函数和变换的实施例中，解析窗口函数的形状影响系统的时域增益，以及变换的频率响应特征。窗口函数的选择对编码系统的性能有很大影响；但是，对本发明的应用而言，原则上没有哪种特定窗口形状是重要的。描述窗口函数影响的信息可以从美国专利5109417，美国专利5394473，美国专利5913191和美国专利5903872得到。

在特定实施例中，编码信息帧之间形成一个间隙或者“保护间隔”，用以减轻剪辑操作所带来的影响。这些保护间隔的格式的附加信息可以从1999年3月11日提交的国际专利申请号PCT/US99/05249中得到。在1999年11月11日提交的国际专利申请号PCT/US99/26324中公开了有用信息可以在这些保护间隔中承载的多种方式。

2.信号处理综述

音频信号通常不是固定的，尽管一些音频的通过可以是基本固定的。这些通过经常可以更为有效地利用较长的段长来进行块编码。例如，编码处理，类似块扩展PCM可以编码音频的静态通过，借助对较长采样段的编码，可以以较少比特实现给定的精确度。在基于音质的变换编码系统中，较长段的应用增加了变换的频率解析，以更为精确地分离单个频谱分量，作为更为精确的音质编码决定。

不幸的是，在通过可变性很强的音频时，这些优越性将不再具备。在包含大幅瞬变的通过中，例如长段的块扩展PCM编码的效率很低。在基于音质变换编码系统中，瞬态频谱分量量化所引起的人工噪音在通过合成变换恢复的整个段上扩展；如果该段足够长，这些人工噪声所扩展到的区间超过了人类听觉系统的先时间屏蔽区间。因此，通常在通过可变性很强的音频时，采用较短的段长较为合适。

可以通过调整编码处理来编解码长度不同的段，提高编码系统性能。但是，对一些编码处理而言，段长的改变必须满足一个或多个限制。例如，如果需要实现混叠消除，采用时域混叠消除(TDAC)变换的编码处理的调整必须满足若干限制。下面描述满足TDAC限制的本发明实施例。

a。编码

图3说明了音频编码器40的一种实施例，它将自适应块编码处理应用到一个或多个音频信道的音频信息段的序列或帧，生成的编码音频信息块被组装成编码信息帧。这些编码块帧可以与视频信息帧组合或者嵌入视频信息帧中。

在这种实施例中，解析45识别出通过路径44传输的音频信息所承载的一个或多个音频信号的特征。这些特征的例子包括各个音频信号的一部分带宽的振幅或能量的快速变化，频率上变化很快的信号能量的分量，以及发生这些事件的信号部分中的时间或相对位置。检测出这些特征之后，控制46在路径47上生成控制信号，后者承载需要为各个音频信道处理的段帧中的段长。编码50响应于从路径47接收的控制信号，调整块编码处理，将调整后的块编码处理应用于从路径44接收的音频信息，生成编码音频信息块。格式48将编码信息块和控制信号表示组装成编码信息帧，后者由从路径42接收的基准信号校准，该基准信号承载视频信息帧的校准。转换43是可选元件，它将在下面详细描述。

在处理多于一个信道的音频信息的编码器40的实施例中，编码50可以调整并应用信号编码处理到一些或者所有音频信道。但是，在优选实施例中，解析45、控制46和编码50用于为各个音频信道调整并应用独立的编码处理。在一种优选实施例中，例如，在检测到一个音频信道中出现瞬变之后，编码器40调整编码50的编码处理的块长，使其变为只有一个音频信道。在这些优选实施例中，在一个音频信道中检测到瞬变并不会导致另一信道的编码处理的改变。

b.解码

图4说明了音频解码器60的一种实施例，它将自适应块解码处理应用于从承载视频信息帧的信号中得到的编码信息帧，为一个或多个音频信道生成音频信息段。

在这种实施例中，去格式63接收有从路径62上接收的视频基准校准的编码信息帧。这些编码信息帧承载控制信息和块编码的音频信息。控制65生成路径67上的控制信号，后者承载从编码音频信息块恢复的段帧中音频信息段长。控制65也可以检测编码信息帧的不连续性，生成路径66上的“剪接检测”信号，该信号可以用于调整解码70的操作。解码70在从路径67接收控制信号，以及可选地从路径66接收剪接检测信号之后，调整块解码处理，将调整后的块解码处理应用于从路径64接收的编码音频信息块，生成的音频信息段的长度与控制信号中传送的长度一致。转换68是可选元件，将在后面详细描述。

B.变换编码实现

1.块编码器

前面提过，编码50可以进行各种块编码处理，包括块扩展PCM，增量调整，滤波，例如正交镜像滤波器(QMF)所提供的滤波，以及各种循环、非循环和栅格滤波器，块变换，例如由TDAX变换所提供的块变换，离散傅立叶变换(DFT)以及离散余弦变换(DCT)，以及小波变换，按照自适应比特分配的块量化。尽管对本发明的基本概念而言，没有什么特定的块编码处理是必不可少的，但是更多地提到了TDAC变换处理，因为需要额外考虑以实现混叠消除。

图5说明了编码器50的一种实施例，它将TDAC变换所实现的多个滤波器组中的一个应用于一个音频信道的音频信息段。在这种实施例中，缓存51从路径44接收音频信息，将音频信息组装成重叠段帧，后者的长度根据从路径47接收的控制信号进行调整。段与邻接段的重叠量称为段重叠区间。开关52响应于从路径47接收的控制信号，选择多个滤波器组中的一个应用于帧中的段。该图所示实施例示出了3个滤波器组，但是，实际上可以采用任何数量的滤波器组。

在一种实施例中，开关51选择滤波器组54以应用于帧中的第一段，选择滤波器组56以应用于帧中的最后一段，选择滤波器组55以应用于帧中的所有其它段。本实施例中可以使用附加的滤波器组，选择应用于帧中靠近第一和最后段的段。下面讨论以这种方式自适应地选择滤波器组的一些优越性。从滤波器得到的信息在缓存58中组装，生成编码信息块，后者通过路径69到达格式48。这些块的大小根据从路径47接收的控制信号变化。

音质可感模型的多个分量，自适应比特分配和量化在实际系统中是必要的，但是为简明起见，没有包含在该图中。这些分量可以用于实现本发明，但是并不是必需的。

在编码50的一种可选实施例中，调整并将单个滤波器组应用于缓存51中生成的音频信息段。在编码50的另一实施例中，编码50使用非重叠块编码处理，类似块编码PCM或者一些滤波器，则相邻段不需要重叠。

图5所示分量或者包含各种可选实施例的分量可以重复以提供多个音频信道的并行处理，或者这些分量可以用于以串行或者并行方式处理多个音频信道。

2.块解码器

前面提过，解码70可以执行多种块解码处理。在实际系统中，该解码处理应用是用于准备待解码信息的块编码处理的补充。前面解释过，这里更多地提到了TDAC变换处理，因为需要额外考虑以实现混叠消除。

图6说明了编码器70的一种实施例，它将TDAC变换所实现的多个逆向或合成滤波器组中的一个应用于一个音频信道的编码音频信息块。在这种实施例中，缓存71从路径64接收编码音频信息，其长度根据从路径67接收的控制信号而变化。开关72响应于从路径67接收的控制信号，以及可选地响应于从路径67接收的剪接检测信号，选择多个合成滤波器组中的一个应用于编码信息块。该图所示实施例示出了3个合成滤波器组，但是，实际上可以使用任何数量的滤波器组。

在一种实施例中，开关71选择合成滤波器组74以应用于表示段帧中第一音频段的块，选择合成滤波器组56以应用于表示帧中最后段的块，选择合成滤波器组55以应用于表示帧中所有其它段的块。本实施例中可以使用附加的滤波器组，选择应用于表示帧中靠近第一和最后段的段的块。下面讨论以这种方式自适应地选择合成滤波器组的一些优越性。从合成滤波器得到的信息在缓存78中组装，生成块帧中音频信息的重叠段。这些段的长度根据从路径67接收的控制信号而变化。相邻段可以在段重叠区间中加在一起，以生成路径79上的音频信息流。例如，音频信息可以沿路径779传送到实施例中的转换68，后者包括转换设备68。

自适应比特分配和去量化的各种元件在实际应用中是必不可少的，但是为简明起见，该图中没有示出。这些特性可以被采用，但是对实现本发明而言并不是必需的。

在解码70的一种可选实施例中，调整单个逆向滤波器组，将其应用于缓存71中生成的编码信息块。在解码70的另一实施例中，解码处理所生成的相邻段不需要重叠。

图6所示元件或者包括各种可选实施例的元件可以重复，为多个音频信道提供并行处理，这些元件也可以以串行或并行方式处理多个音频信道。

C.主要元件和特性

图3和4中分别示出了编码器40和解码器60中主要元件的特定实施例，下面给出详细描述。这些特定实施例结合一个音频信道描述，但是它们可以扩展，以多种方式处理多个音频信道，包括例如以串行或并行方式复制元件或者应用元件。

下面假定音频信息段的帧或序列的长度等于2048个样本，帧与后一帧的重叠区间等于256个样本。这种帧长和帧重叠区间适用于处理的视频帧信息的帧速率约为30Hz或者更低的系统。

1.音频信号解析

解析45可以以多种方式实现，以识别出实际上任何所需信号特性。在图7所示的一种实施例中，解析45是一个瞬变检测器，它具有4个主要部分，能够识别出“瞬变”的出现和位置，或者信号振幅的快速变化。在这种实施例中，音频信息的2048个样本的帧被划分成32个非重叠的64个样本的块，解析各个块以确定该块中是否出现瞬变。

瞬变检测器的第一部分是高通滤波器(HPF)101，它将低频信号分量从信号解析处理中去除。在一种优选实施例中，HPF101通过第二级无限冲激响应(IIR)滤波器实现，该滤波器具有约7kHz的标称3dB截止频率。优化截止频率根据个人喜好可以不同于该标称值。如果需要，通过监听测试可以以经验值来精化该标称截止频率。

该瞬态检测器的第二部分是于块102，它将从HPF101接收的滤波后的音频信息帧整理成块和子块的层次结构。子块102在该层次结构的第一级上生成了64个样本的块，在该层次结构的第二级上将64个样本的块分割成32个样本的子块。

这种层次结构在图8中示出。块B111是第一级的64个样本块。第二级子块B121和B122是块B111的32个样本的划分。块B110表示了块B111之后的滤波音频信息的64个样本块。这里，块B111是“当前”块，而块B110是“前一”块。类似地，块B120是子块B121之前的块B110的32样本子块。在当前块是帧中第一块的情况下，前一块代表了前一帧中的最后一块。下面将会解释，通过比较当前块中的信号值与前一块中的信号值来检测瞬变。

瞬变检测器的第三部分是峰值检测103。峰值检测103开始于第二级，它将子块B121中的最大振幅样本识别为峰值P121，将子块B122中的最大振幅样本识别为峰值P122。峰值检测器在第一级继续将峰值P121和P122中较大的值识别为块B111的峰值P111。如果块B110是当前块，则块B110和B120的峰值P110和P120分别由峰值检测103确定。

瞬变检测器的第四部分是比较器104，它检查峰值以确定特定块中是否出现了瞬变。比较器104的一种实现方式在图9中示出。步骤S451检查第二级中子块B120和B121的峰值。步骤S452检查了子块B121和B122的峰值。步骤S453检查第一级中块的峰值。这些检查通过比较两个峰值的比率和一个适合该层次的阈值完成。例如对第二级的子块B120和B121而言，步骤S451中的这种比较可以表示成：

\frac{P 120}{P 121} < TH 2 - - - (1 a)

其中TH2＝第二级阈值。如果需要，对于块B121和B122的峰值进行与步骤S452中类似的比较。

如果步骤S451和S452中第二级相邻子块的比较都不成立，则在步骤S453中对第一级中块B110和B111的峰值进行比较。这可以表示成：

\frac{P 110}{P 111} < TH 1 - - - (1 b)

其中TH1＝第一级阈值。

在一种实施例中，TH2是0.15和TH1是0.25；但是，这些阈值可以根据个人喜好而变化。如果需要，这些值可以通过监听测试以经验值来精化。

在一种优选实施例中，这些比较的执行不需要除法，因为如果分母中的峰值是0，则两个峰值之商将是不确定的。对上面例子中的子块B120和B121而言，步骤S451中的比较可以表示成：

P120＜TH2^*P121 (2)

如果步骤S451到S453中的比较都不成立，则步骤S457生成的信号指示当前64个样本块中，本例中是块B111中没有出现瞬变。当前64样本块的信号解析结束。

如果步骤S451到S453中的比较中有一个成立，则步骤S454和S455确定当前64个样本块中的信号是否大到足以调整块编码处理以改变段长。步骤S454比较当前块B111的峰值P111和最小峰值阈值。在一种实施例中，该阈值被设置为最大可能峰值的-70分贝。

如果步骤S454中测试的条件为真，则步骤S455比较块B110和B111的信号能量的两次测量。在一种实施例中，块的信号能量的测量是块中64个样本的平方的平均。将当前块B111的信号能量的测量与某个值相比较，该值等于前一块B110的信号能量的同一测量的两倍。如果峰值和当前块的信号能量测量通过了步骤S454和455中进行的两次测试，则步骤S457生成的信号指示了当前块B111中出现瞬变。如果任一测试失败，则步骤S457生成的信号指示当前块B111中没有出现瞬变。

对各帧中所有块重复这种瞬变检测处理。

2.段长控制

下面描述控制46和控制65的实施例。这些实施例适用于采用TDAC滤波器组按照下面描述的两种格式中的第二种处理编码音频信息帧的系统。下面将会解释，按照第二种格式的处理最好应用于处理的音频信息被组装或者嵌入视频帧的系统，前述视频帧以约30Hz或者更低的视频帧速率传输。按照第二种格式，对应于视频帧的音频段的各个序列的处理被划分成不同的，但是相关的处理，这些处理应用于两个子序列或者子帧。

处理按照第一种格式的音频信息帧的系统的控制方案可以与下面讨论的处理按照第二种格式的音频信息帧的系统的控制方案非常相似。在第一种格式的系统中，对应于视频帧的音频段的处理实际上与应用于第二种格式的各个子序列或子帧的处理之一相同。

a.编码器

在上面结合图3讨论的编码器40的实施例中，控制46从解析器45接收的信号承载了音频信息帧中检测的瞬变的存在和位置。控制46响应于该信号生成的控制信号承载了段长，段将帧分割成两个重叠段子帧，由块编码处理来进行处理。

下面描述调整块编码处理的两种方案。在各种方案中，2048个样本的帧被划分成重叠段，各个段的段长在最小长度256个样本和有效最大长度1152个样本之间变化。

一种基本控制方法，例如如图10所示，可以用于控制任一方案。控制两种方案的方法的唯一不同在于，测试瞬变出现的块或帧区间。两种方案的区间在表V中给出。在第一方案中，例如，区间2从样本128延伸到样本831，这对应于从第2块到第12块的64样本块序列。在第二方案中，区间2从样本128延伸到样本895，这对应于第2块到第13块。

帧区间	第一方案		第二方案
	第一方案		第二方案		样本从到	块从到	样本从到	块从到
	区间1区间2区间3区间4	0 127128 831832 13431344 2047	0 12 1213 2021 31	0 127128 895896 12791280 2047	样本从到	块从到	样本从到	块从到	0 12 1314 1920 31

编码控制帧区间

表V

参看图10，步骤S461检查从解析45接收的信号以确定在区间3的任何块中是否出现了瞬变或者其它触发事件。如果这种情况存在，那么步骤S462生成的控制信号指示了第一子帧被按照段的“短1”模式划分成段，步骤S463生成的信号指示了第二子帧被按照段的“短2”模式划分成段。

如果步骤S461中测试的条件不为真，那么步骤S464检查从解析45接收的信号以确定在区间2的任何块中是否出现了瞬变或者其它触发事件。如果这种情况存在，那么步骤S465生成的控制信号指示了第一子帧被按照段的“桥1”模式划分成段。如果步骤S463中测试的条件非真，则步骤S466生成的控制信号指示了第一子帧被按照段的“长1”模式划分成段。

步骤S467检查从解析45接收的信号以确定在区间4的任何块中是否出现了瞬变或者其它触发事件。如果这种情况存在，那么步骤S468生成的控制信号指示了第二子帧被按照段的“桥2”模式划分成段。如果步骤S467中测试的条件非真，则步骤S469生成的控制信号指示了第二子帧被按照段的“长2”模式划分成段。

下面详细讨论上述段模式。

b.解码器

在上面结合图4讨论的解码器60的实施例中，控制65从路径61接收的编码信息帧中得到控制信息，作为响应，生成路径67上的控制信号，该信号通过块解码处理从编码音频信息块中恢复的段的长度。在一种可选实施例中，控制65还检测编码信息帧中的不连续性，生成路径66上的“剪接检测”信号，该信号可以用于调整块解码处理。下面描述这种可选特性。

控制65一般生成的控制信号指示了从编码块的两个子帧中恢复出若干段模式中的哪一个。这些段模式对应于前面结合编码器所讨论的模式，下面将详细讨论。

3.自适应滤波器组

下面描述将TDAC滤波器组应用于解析和合成音频信息重叠段的编码器50和解码器70的实施例。下面描述的实施例采用了TDAC变换系统，称为奇数堆栈时域混叠消除(O-TDAC)。在这些实施例，调整窗口函数和变换核心函数以处理段序列或子帧，其中段长可以根据上述多种模式中的任意一种模式变化。下面在TDAC变换的一般介绍之后，描述用于各种模式中各段的这种段长、窗口函数和变换核心函数。

a.TDAC综述

(1)变换

依Princen等人所述，如图11所示，TDAC变换解析合成系统包括解析窗口函数131，应用于信号样本的重叠段，解析变换132，应用于窗口化段，合成变换133，应用于从解析变换得到的系数块，合成窗口函数134，应用于从合成变换得到的样本段，重叠加入处理135，将重叠窗口化段的对应样本加入，以消除时域重叠并恢复原始信号。

前向或者解析O-TDAC变换可以表示如下：

X (k) = \frac{G}{N} Σ_{n = 0}^{N - 1} x (n) \cos [\frac{2 π}{N} (k + \frac{1}{2}) (n + n_{0}) 0 \leq k < N - - - (3 a)

逆向或合成O-TDAC变换可以表示如下：

x (n) = Σ_{k = 1}^{N - 1} X (k) \cos [\frac{2 π}{N} (k + \frac{1}{2}) (n + n_{0})] 0 \leq n < N - - - (3 b)

其中k＝频率索引，

n＝信号样本编号，

G＝比例常量，

N＝段长，

n₀＝混叠消除项，

x(n)＝窗口化输入信号样本n，以及

X(k)＝变换系数k。

这些变换的特征在于G、N和n₀参数。G参数是增益参数，用于实现所需的解析合成系统的端对端增益。N参数与各段中样本数或段长相关，一般称为变换长度。前面提过，该长度可以变化以平衡变换的频率和时间解析。n₀参数控制变换的混叠生成和混叠消除特性。

解析合成系统所生成的时域混叠人工噪声实际上是原信号的时间相反的复本。解析合成变换的n₀项控制各段中“反射”点，在这些点上将逆转或反射人工噪声。通过控制混叠人工噪声的反射点和符号，这些人工噪声可以通过重叠和增加相邻段来消除。重叠消除的附加信息可以从美国专利5394473中得到。

(2)窗口函数

在优选实施例中，解析合成窗口函数根据一个或多个基本函数构造，这些函数从基本窗口函数中得到。一些基本函数从矩形窗口基函数得到：

φ(n，p，N)＝p 0≤n＜N (4)

其它基本函数根据其它基窗口函数，利用以下段落所描述的技术得到。具有适当的TDAC重叠加入特性的任何函数都可以用作这种基窗口函数；但是，在优选实施例中采用的基窗口函数是Kaiser-Bessel窗口函数。该窗口函数的第一部分可以表示成：

W_{KB} (n, α, v) = \frac{I_{0} [πα \sqrt{1 - {(\frac{n - v / 2}{v / 2})}^{2}}]}{I_{0} [πα]} 0 \leq n \leq v - - - (5)

其中α＝Kaiser-Bessel窗口函数阿尔法因子，

n＝窗口样本数，

v＝到的窗口函数的段重叠区间，以及

I_{0} [x] = Σ_{k = 0}^{\infty} \frac{{(x / 2)}^{k}}{k!} .

该窗口函数的最后部分是表达式5的头v个样本的时间相反的复本。

Kaiser-Bessel演化的(KBD)窗口函数W_KBD(n，α，N)从核心Kaiser-Bessel窗口函数W_KB(n，α，N)得到。KBD窗口函数的第一部分根据下式得到：

W_{KBD} (n, α, N) = \sqrt{\frac{Σ_{k = 0}^{n} W_{KB} (k, α, v)}{Σ_{k = 0}^{v} W_{KB} (k, α, v)}} 0 \leq n < \frac{N}{2} - - - (6)

KBD窗口函数的后面部分是表达式6的时间相反的复本。

(a)解析窗口函数

该特定实施例中采用的各个解析窗口函数通过合并表VI-A所示的两个或者多个基本函数得到。

基本函数函数长度描述

E0₆₄(n) 64 φ(n，v＝0，N＝64)

E0₁₂₈(n) 128 φ(n，v＝0，N＝128)

E0₈₉₆(n) 896 φ(n，v＝0，N＝896)

E1₆₄(n) 64 φ(n，v＝1，N＝64)

E1₆₄₀(n) 640 φ(n，v＝1.0，N＝640)

EA₀(n) 64 W_KBD(n，α＝3.2，N＝128)for 0≤n＜64

EA₁(n) 128 W_KBD(n，α＝3.0，N＝256)for 0≤n＜128

EA₂(n) 256 W_KBD(n，α＝3.0，N＝512)for 0≤n＜256

EA₀(-n) 64 时间相反的复本EA₀(n)

EA₁(-n) 128 时间相反的复本EA₁(n)

EA₂(-n) 256 时间相反的复本EA₂(n)

基本窗口函数

表VI-A

两种不同控制方案中采用的若干段模式的解析窗口函数以下面描述的方式根据这些基本函数中构造。

(b)合成窗口函数

在常规TDAC系统中，对各段应用相同的解析合成窗口函数。在这里描述的实施例中，一般将相同的解析合成窗口函数应用于各段，但是对某些段应用替代或者“改进”的合成窗口函数，以改进解析合成系统的端对端性能。替代或者改进的合成窗口函数一般用于“短”和“桥”段模式末尾的段，以得到帧重叠区间等于256个样本的端对端帧增益曲线。

替代合成窗口函数的应用可以通过块解码器70的实施例提供，例如如图6所示，响应于从路径67和可选路径66接收的控制信号，对帧内的各段应用不同合成滤波器组。例如，采用替代合成窗口函数的滤波器组74和76可以应用于帧末尾的段，具有常规合成窗口函数的滤波器组75可以应用于帧内部的段。

(i)变频响应特性

通过对帧重叠区间中“末尾”段应用替代合成窗口函数，块解码处理可以得到帧尾段的所需的端对端解析合成系统频域响应或者时域响应(增益曲线)。各段的端对端响应实际上等于由应用于该段的解析窗口函数和合成窗口函数的乘积得到的窗口函数的响应。这可以在代数上如下表示：

WP(n)＝WA(n)WS(n) (7)

其中WA(n)＝解析窗口函数，

WS(n)＝合成窗口函数，以及

WP(n)＝乘积窗口函数。

如果修改合成窗口函数以将端对端频率响应转换成其它所需的某种响应，对它进行修改以使乘积本身和解析窗口函数等于具有所需响应的乘积窗口。如果希望频率响应等于WP_D，并且采用合成窗口函数WA进行信号解析，则这种关系可以表示成：

WP_D(n)＝WA(n)WS_X(n) (8)

其中WA(n)WS_X(n)＝需要用来转换频率响应的合成窗口函数。

这可以重写成：

{WS}_{X} (n) = \frac{{WP}_{D} (n)}{WA (n)} - - - (9)

如果帧重叠区间延伸到与尾段相重的相邻段，则帧中尾段的窗口函数WS_X的实际形状要复杂一些。这种情况下，表达式9精确表示了在与帧中其它各段都不相重的尾段部分中窗口函数WS_X所要求的内容。对采用O-TDAC的系统而言，该部分等于段长的一半，或者0≤n≤1/2N。

如果KBD乘积窗口函数WP_D的阿尔法因子远大于KBD解析窗口函数WA的阿尔法因子，则用于改进端对端频率响应的合成窗口函数WS_x必须具有很大的接近帧边界的值。不幸的是，具有这种形状的合成窗口函数的频率响应特性很差，将降低恢复出来的信号的音质。

通过丢弃合成窗口具有最小值的帧边界上的几个样本，可以避免或者尽量减小这个问题。丢弃的样本可以设置为0，否则从处理中去除。

采用低阿尔法值进行正常编码的KBD窗口函数的系统一般对合成窗口函数进行的改动较小，帧尾需要丢弃的样本更少。

修改合成窗口函数的附加信息以改变解析合成系统的端对端频率响应和时域增益曲线特性的附加信息可以从美国专利5903872中得到。

所需乘积窗口函数WP_D(n)也应当提供所需时域响应或增益曲线。乘积窗口的所需增益曲线的一个例子在表达式10中给出，下面的段落中将予以讨论。

(ii)改变帧增益曲线

替代合成窗口函数的使用也使得块解码处理能够得到各帧的所需时域增益曲线。如果帧的所需增益曲线不同于利用常规未改动的合成窗口函数所得到的增益曲线，则为帧重叠区间中的段使用替代或改进的合成窗口函数。

在改进合成窗口函数之前，“初始”增益曲线可以表示成：

其中x＝帧边界所丢弃的样本数，以及

v＝帧重叠间隔。

(iii)基本函数

这种特定实施例中采用的各个合成窗口函数通过合并表VI-A和VI-B所示的两个或多个基本函数来得到。基本窗口函数表VI-B

表VI-B所示函数WA₀(n)是256个样本的窗口函数，由3个基本函数EA₀(n)＋EA₁(-n)+EO₆₄(n)合并而成。函数WA₁(n)是256个样本的窗口函数，由基本函数EA₁(n)＋EA₁(-n)合并而成。

用于两种不同控制方案的若干段模式的合成窗口函数以下面描述的方式通过这些基本函数构造。

b.块编码的控制方案

下面描述调整块编码处理的两种方案。在每种方案中，2048个样本的帧被划分成重叠段，其段长在最小长度256个样本和有效最大长度1152个样本之间变化。在处理帧速率约30Hz或更低的帧中信息的系统的优选实施例中，各帧中两个子帧被划分成变长的重叠段。

各个子帧按照若干段模式中的一种划分成段。各个段模式指定了这样的一个段序列，其中各个段由特定解析窗口函数进行窗口化，并由特定解析变换进行变换。表VII中列出了应用于各种段模式的各个段的特定解析窗口和解析变换。

段标识符	解析窗口函数	解析变换
		解析变换			G	N	n₀
		A256-AA256-BA256-CA384-AA384-BA384-CA384-DA512-AA512-BA2048-AA2048-B	EA₀(n)+EA₁(-n)+E0₆₄(n)EA₁(n)+EA₁(-n)EA₆₄(n)+EA₁(-n)+EA₀(-n)EA₁(n)+EA₁(-n)+E0₁₂₈(n)EA₂(n)+EA₁(-n)EA₁(n)+EA₂(-n)E0₁₂₈(n)+EA₁(n)+EA₁(-n)EA₂(n)+E1₆₄(n)+EA₁(-n)+E0₆₄(n)E0₆₄(n)+E1₁(n)+E1₆₄(n)+EA₂(-n)EA₂(n)+E1₆₄₀(n)+EA₂(-n)+E0₈₉₆(n)E0₈₉₆(n)+EA₂(n)+E1₆₄₀(n)+EA₂(-n)	1.151.001.151.501.221.221.501.411.413.023.02	G	N	n₀	25625625638438438438451251220482048	257/2129/21/2385/2129/2257/21/2257/2257/22049/21/2

解析段类型

表VII

各个表项通过指定需要应用于样本段的解析窗口函数，以及需要应用于窗口化的样本段的解析变换，描述了各自的段类型。该表所示解析窗口函数以上述基本窗口函数的合并形式描述。解析变换以前面讨论的参数G、N和n₀的形式讨论。

(1)第一方案

在第一方案中，各种模式的段的长度被限制为2的整数幂。这种限制减少了实现解析合成变换所需的资源。

短1模式包括8个段，其中第一段是A256-A类型段，后面的7个段是A256-B类型段。短2模式包括8个段，其中头7个段是A256-B类型段，而后7个是A256-C类型段。

桥1模式包括7个段，其中第一段是A256-A类型段，中间5个段是A256B类型段，最后一个段是A512-A类型段。桥2模式包括7个段，其中第一段是A512-B类型段，中间5个段是A256B类型段，最后一个段是A256-C类型段。

长1模式包括单个A2048-A类型段。尽管该段实际上长2048个样本，它的时间解析上的有效长度只有1154个样本，因为只有1152个解析窗口函数点是非0。长2模式包括单个A2048-B类型段。该段的有效长度是1152。

表VIII-A中给出了这些段模式的小结。

段模式	段类型序列
段模式	段类型序列	短1短2桥1桥2长1长2	A256-A A256-B A256-B A256-B A256-B A256-B A256-B A256-BA256-B A256-B A256-B A256-B A256-B A256-B A256-B A256-CA256-A A256-B A256-B A256-B A256-B A256-B A512-AA512-B A256-B A256-B A256-B A256-B A256-B A256-CA2048-AA2048-B

第一控制方案的解析段模式

表VIII-A

各种段模式的组合可以由控制46根据图12所示第一控制方案来指定。带有“短-短”标记的行说明了段模式的短1到短2组合的解析窗口函数的增益曲线。带有“长-桥”标记的行说明了段模式的长1到桥2组合的解析窗口函数的增益曲线。该图中其它行说明了桥和长段模式的其它组合的解析窗口函数的增益曲线。

(2)第二方案

在第二方案中，一些模式中的几个段的长度为384，它不是2的整数幂。这种段长的使用导致了附加成本，但是与第一控制方案相比具有优越性。附加成本来自用以实现384样本段的变换所需的附加处理资源。附加成本可以通过以下方式减少：将各个384样本段划分成3个128个样本的子段，组合各段中样本对，生成32个复数值，将复数快傅立叶变换(FFT)应用于复数值样本的各个段，组合结果得到所需的变换系数。这种处理技术的附加信息可以从美国专利5394473，美国专利5297236，美国专利5890106和Oppenheim和Schafer，“Digital SignalProcessing”，Englewood Cliffs，N.J.：Prentice-Hall，Inc.，1975，pp.307-314中得到。采用384样本块得到的好处来自频率响应特性更好的窗口函数的使用，以及处理时延的减少。

短1模式包括8个段，其中第一段是A384-A类型段，后面的7个段是A256-B类型段。A384-A类型段的有效长度是256。短2模式包括7个段，其中头6个段是A256-B类型段，最后一个段是A384-D类型段。A384-D类型段的有效长度是256。与段模式的其它组合不同，这种模式组合的两个子帧的长度是不等的。

桥1模式包括7个段，其中第一段是A384-A类型段，中间5个段是A256B类型段，最后一个段是A384-C类型段。桥2模式包括7个段，其中第一段是A384-B类型段，中间5个段是A256B类型段，最后一个段是A384-D类型段。

长1模式包括单个A2048-A类型段。该段的有效长度是1154。长2模式包括单个A2048-B类型段。该段的有效长度是1152。

表VIII-B中给出了这些段模式的小结。

段模式	段类型序列
段模式	段类型序列	短1短2桥1桥2长1长2	A384-A A256-B A256-B A256-B A256-B A256-B A256-B A256-BA256-B A256-B A256-B A256-B A256-B A256-B A384-DA384-A A256-B A256-B A256-B A256-B A256-B A384-CA384-B A256-B A256-B A256-B A256-B A256-B A384-DA2048-AA2048-B

第二控制方案的解析段模式

表VIII-B

各种段模式的组合可以由控制46根据图13所示第二控制方案来指定。带有“短-短”标记的行说明了段模式的短1到短2组合的解析窗口函数的增益曲线。带有“长-桥”标记的行说明了段模式的长1到桥2组合的解析窗口函数的增益曲线。该图中其它行说明了桥和长段模式的其它组合的解析窗口函数的增益曲线。桥1到桥2的组合没有示出，但是对这种控制方案而言是合法的。

c.块解码的控制方案

下面描述调整块解码处理的两种方案。在每种方案中，解码编码信息帧以生成2048个样本的帧，它被划分成重叠段，其段长在最小长度256个样本和有效最大长度1152个样本之间变化。在处理帧速率约30Hz或更低的帧中信息的系统的优选实施例中，各帧中两个子帧被划分成变长的重叠段。

各个子帧按照若干段模式中的一种划分成段。各个段模式指定了这样的一个段序列，其中各个段由特定合成变换生成，变换结果由特定合成窗口函数进行窗口化。表IX中列出了特定合成窗口变换和合成窗口函数。

段标识符	合成窗口函数	合成变换
		合成变换		N	n₀
		S256-AS256-BS256-CS256-D1S256-D2S256-D3S256-D4S256-E1S256-E2S384-AS384-BS384-CS384-DS512-AS512-BS2048-AS2048-B	ES₀(n)+E0₆₄(n)EA₁(n)+EA₁(-n)E0₆₄(n)+ES₀(-n)ES₁(n)ES₁(-n)ES₂(n)+EA₁(-n)EA₁(n)+ES₂(-n)ES₄(n)ES₄(-n)ES₃(n)+E0₁₂₈(n)EA₂(n)+EA₁(-n)EA₁(n)+EA₂(-n)E0₁₂₈(n)+ES₃(-n)EA₂(n)+E1₆₄(n)+EA₁(-n)+E0₆₄(n)E0₆₄(n)+EA₁(n)+E1₆₄(n)+EA₂(-n)EA₂(n)+E1₆₄₀(n)+EA₂(-n)+E0₈₉₆(n)E0₈₉₆(n)+EA₂(n)+E1₆₄₀(-n)+EA₂(-n)	N	n₀	25625625625625625625625625638438438438451251220482048	257/2129/21/2129/2129/2129/2129/2129/2129/2385/2129/2257/21/2257/2257/22049/21/2

合成段类型

表IX

各个表项通过指定需要应用于编码信息块以生成样本段的合成变换，以及需要应用于结果段以生成窗口化的样本段的合成窗口函数，描述了各自的段类型。合成变换以前面讨论的参数N和n0的形式讨论。该表所示合成窗口函数以上述基本窗口函数的合并形式描述。在解码处理期间使用的一些合成窗口函数是该表列出的函数的改进形式。这些改进或替代窗口函数用以改进端对端系统性能。

(1)第一方案

短1模式包括8个段，其中第一段是S256-A类型段，第二段是S256-D1类型段，第三段是S256-D3类型段，后面的5段是S256-B类型段。短2模式包括8个段，其中头5个段是S256-B类型段，第6段是S256-D4类型段，第7段是S256-D2类型段，而最后一段是S256-C类型段。

短1模式中第一段的解析合成窗口函数的形状和解析合成变换的参数N和n₀用于使第一段的音频信息可以独立于其它段恢复，而不在该段头64个样本中产生混叠人工噪声。这使得按照短1模式划分成段的信息帧可以追加到任何信息流而不用考虑混叠消除。

短2模式中最后一段的解析合成窗口函数和解析合成变换用于使最后一段的音频信息可以独立于其它段恢复，而不在该段中最后64个样本中产生混叠人工噪声。这使得按照短2模式划分成段的信息帧可以让任何信息流追加而不用考虑混叠消除。

窗口函数和变换设计的各种考虑在美国专利5913191中有详细讨论。

桥1模式包括7个段，其中第一段是S256-A类型段，第二段是S256-D1类型段，第三段是S256-D3类型段，接下来的3个段是S256B类型段，最后一个段是S512-A类型段。桥2模式包括7个段，其中第一段是S512-B类型段，接下来的3个段是S256B类型段，第5段是S256-D4类型段，第6段是S256-D2类型段，最后一个段是S256-C类型段。

桥1模式中第一段和桥2模式中最后一段可以独立于其它段恢复，而不在头或尾64个样本中分别产生混叠人工噪声。这使得桥1模式段可以追加到任何信息流而不用考虑混叠消除，桥2模式段可以让任何信息流追加而不用考虑混叠消除。

长1模式包括单个A2048-A类型段。尽管该段实际上长2048个样本，它的时间解析上的有效长度只有1154个样本，因为只有1152个解析窗口函数点是非0。长2模式包括单个S2048-B类型段。该段的有效长度是1152。

长1和长2模式中的段可以独立于其它段恢复，而不在头或尾256个样本中分别产生混叠人工噪声。这使得长1模式段可以追加到任何信息流而不用考虑混叠消除，长2模式段可以让任何信息流追加而不用考虑混叠消除。

表X-A中给出了这些段模式的小结。

段模式	段类型序列
段模式	段类型序列	短1短2桥1桥2长1长2	A256-A A256-D1 A256-D3 A256-B A256-B A256-B A256-B A256-BA256-B A256-B A256-B A256-B A256-B A256-D4 A256-D2 A256-CA256-A A256-D1 A256-D3 A256-B A256-B A256-B A512-AA512-B A256-B A256-B A256-B A256-D4 A256-D2 A256-CA2048-AA2048-B

第一控制方案的合成段模式

表X-A

各种段模式的组合可以由控制65根据图14所示第一控制方案来指定。带有“短-短”标记的行说明了段模式的短1到短2组合的合成窗口函数的增益曲线。带有“长-桥”标记的行说明了段模式的长1到桥2组合的合成窗口函数的增益曲线。该图中其它行说明了桥和长段模式的其它组合的合成窗口函数的增益曲线。

(2)第二方案

在第二方案中，一些模式中的几个段的长度为384，它不是2的整数幂。这种方案的优劣在前面讨论。

短1模式包括8个段，其中第一段是S384-A类型段，第二段是S256-E1类型段，后面的6个段是S256-B类型段。短2模式包括7个段，其中头5个段是S256-B类型段，第6段是S256-E2类型段，最后一个段是S384-D类型段。与段模式的其它组合不同，这种模式组合的两个子帧的长度是不等的。

短1模式中第一段和短2模式中最后一段可以独立于其它段恢复，而不在头或尾128个样本中分别产生混叠人工噪声。这使得按照短1和短2模式分段的帧可以追加到任何信息流或者被任何信息流追加而不用考虑混叠消除。

桥1模式包括7个段，其中第一段是S384-A类型段，中间5个段是S256B类型段，最后一个段是S384-C类型段。桥2模式包括7个段，其中第一段是S384-B类型段，中间5个段是S256B类型段，最后一个段是S384-D类型段。S384-A、S384-B、S384-C和S384-D类型段的有效长度是256。

桥1模式中第一段和桥2模式中最后一段可以独立于其它段恢复，而不在头或尾128个样本中分别产生混叠人工噪声。这使得桥1模式段可以追加到任何信息流而不用考虑混叠消除，桥2模式段可以让任何信息流追加而不用考虑混叠消除。

长1模式包括单个A2048-A类型段。该段的有效长度是1154。长2模式包括单个S2048-B类型段。该段的有效长度是1152。第二控制方案的长1和长2模式与第一控制方案的长1和长2模式相同。

表X-B中给出了这些段模式的小结。

段模式	段类型序列
段模式	段类型序列	短1短2桥1桥2长1长2	S384-A A256-E1 A256-B A256-B A256-B A256-B A256-B A256-BA256-B A256-B A256-B A256-B A256-B A256-E2 A384-DA384-A A256-B A256-B A256-B A256-B A256-B A384-CA384-B A256-B A256-B A256-B A256-B A256-B A384-DA2048-AA2048-B

第二控制方案的合成段模式

表X-B

各种段模式的组合可以由控制65根据图15所示第二控制方案来指定。带有“短-短”标记的行说明了段模式的短1到短2组合的合成窗口函数的增益曲线。带有“长-桥”标记的行说明了段模式的长1到桥2组合的合成窗口函数的增益曲线。该图中其它行说明了桥和长段模式的其它组合的合成窗口函数的增益曲线。桥1到桥2的组合没有示出，但是对这种控制方案而言是合法的。

4.帧格式化

帧48可以按照各种格式将编码信息组装成帧。这里描述两种可选格式。按照这两种格式，各帧为一个或多个音频信道的并行段传送编码信息，这些帧可以独立于其它帧解码。各帧中的信息最好由一个或多个固定位长且分成节的数字“字”来传送。用于特定帧的字长最好可以根据帧的内容确定，使得解码器能够将其处理调整到该长度。如果编码信息流有传输或存储差错，则纠错码，例如循环冗余校验(CRC)码或者Fletcher校验码可以包含在各帧节中，并且/或者用于整个帧。

a.第一格式

第一帧格式在图16A中示出。如该图所示，编码信息流80包含的帧的信息按照第一格式组装。相邻帧由间隔或者保护间隔分隔，这些间隔使得剪辑操作不会导致信息损失。例如，如该图所示，特定帧通过保护间隔81和88与相邻帧分隔。

按照第一格式，帧节82传送同步字，信号处理设备可以使用该同步字固有的数据模式来使操作与信息流内容同步。帧节83传送的控制信息与帧节84中传送的编码音频信息相关，但是不是编码音频信息本身的一部分。帧节84传送一个或多个音频信道的编码音频信息。帧节87可以用于将帧填充至所需长度。帧节87也可以用于传送信息，而不是帧填充，或者同时完成这两项工作。该信息可以传送音频信号的特征，后者由编码音频信息，例如难以从编码数字音频信息中得到的模拟仪表读数来表示。

参看图16B，帧节83传送的控制信息被处理成若干子节。子节83-1传送帧标识符和帧格式指示。帧标识符可以是8比特数字，其值在各个后继帧中加1，从值256回绕到值0。帧格式标识符指示表明了帧中传送的信息的位置和长度。子节83-2传送的一个或多个参数是帧节84中正确编解码音频信息所需的参数。子节83-3传送音频信道的数量以及这些信道的节目配置，它由帧节84中编码音频信息来表示。这种节目配置可以指示，例如一个或多个非立体声节目，一个或多个双信道节目，或者3信道左中右和两信道环绕节目。子节84-4为帧节83传送CRC码，或者其它检错码。

参看图16C，帧节84传送一个或多个子节中的编码音频信息，每个子节传送的编码信息代表了各个音频信道，多达8个信道，中的并行段。在例如子节84-1、84-2和84-8中，帧节84传送的编码音频信息分别表示了信道1、2和8的音频并发段。子节84-9为帧节84传送CRC码，或者其它检错码。

b.第二格式

第二帧格式在图17A中示出。第二格式类似于第一格式，但是在视频帧速率约为30Hz或更低的视频/音频应用中较第一应用更为有利。相邻帧由间隔或者保护间隔，例如保护间隔91和98分隔，这些间隔使得剪辑操作不会导致信息损失。

按照第二格式，帧节92传送同步字。帧节93和帧节94传送的控制信息和编码音频信息分别类似于前面描述的第一格式的帧节83和84。帧节87可以用于将帧填充至所需总长度和/或用于传送信息，例如模拟仪表读数。

第二格式与第一格式的不同在于，音频信息被划分成两个子帧。帧节94传送的编码音频信息的第一子帧代表了一个或多个音频信道的并行段的帧的第一部分。帧节96传送的编码音频信息的第一子帧代表了并行段的帧的第二部分。通过将音频信息划分成两个子帧，可以减少块解码处理所引起的时延，下面将会解释。

参看图17B，帧节95传送的附加控制信息与帧节96中传送的编码信息相关。子节95-1传送帧格式指示。子节94-4为帧节95传送CRC码，或者其它检错码。

参看图17C，帧节96传送一个或多个子节中的编码音频信息的第二子帧，每个子节传送的编码信息代表一个音频信道。在例如子节96-1、96-2和96-8中，帧节96传送的编码音频信息分别表示了音频信道1、2和8的第二子帧。子节96-9为帧节96传送CRC码，或者其它检错码。

c.附加特性

在一些编码/解码系统中，可能需要防止在帧所承载的编码信息中出现特定数据模式。例如，上述同步字具有独特的数据模式，该模式不应出现在帧中其它地方。如果这种独特的数据模式出现在其它地方，那么这种出现可能被错误地理解为合法同步字，导致设备丢失与信息流的同步。作为另一例子，一些处理16位PCM数据字的音频设备保留数据值-32768(以16进制标记为0x8000)来传送控制或信令信息；因此，一些系统中希望也避免出现该值。避免“保留”或“禁止”数据模式的若干技术在1999年9月27日提交的国际专利申请号PCT/US99/22410中公开。这些技术改进或编码信息以避免任何特殊数据模式，在编码信息中传送关键字或者其它控制信息，用以通过所进行的改进和编码的逆处理来恢复原始信息。在优选实施例中，与特定帧节中的信息相关关键字或者控制信息在各个帧节中传送，或者在各个帧节中某处传送与整个帧相关的关键字或者控制信息。

5.剪接检测

上述两种控制方案调整信号分析和信号合成处理，以改进编解码这样的音频信号的整体系统性能，这些信号在一些时候基本不变，而在另一些时候可变性很大。但是，在优选实施例中，附加特性可以为编码需要进行编辑操作，例如剪接操作的音频信息提供进一步改进。

前面解释过，剪接通常在音频信息流中生成可感或不可感的非连续性。如果采用常规TDAC解析合成处理，则剪接任一侧的混叠人工噪声几乎一定没有消除。前面讨论的这两种控制方案通过恢复没有混叠人工噪声的单个音频信息帧来避免这个问题。因此，按照任一控制方案编解码的音频信息帧可以剪接和相互合并，而不用担心混叠消除。

此外，对上述“短”和“桥”段模式中尾段采用替代或改进的合成窗口函数，任一种控制方案都能够恢复段帧序列，这些序列的增益曲线重叠并在256个样本帧中加入重叠区间以得到基本恒定的时域增益。因此，帧重叠区间中的帧增益曲线对经过剪接的任意帧对而言都是正确的。

迄今为止所讨论的特性实际上都通过如下方式为可感编码处理进行了优化，即实现滤波器组的频率响应特征在滤波器阻带上的衰减增加，而换取更广的滤波器通带。不幸的是，剪接编辑总是容易在某个频率范围内生成大的频谱人工-噪声或者“频谱邻道干扰”，该频率范围的位置不在通常认为的滤波器阻带中。这样，以上述特性实现的滤波器组被设计成优化一般的可感编码性能，但是没有提供足够衰减以使剪接编辑所生成的这些频谱人工噪声无法被听到。

系统性能可以通过检测剪接的出现，并且调整合成滤波器组的频率响应以衰减该频谱邻道干扰来改进。下面讨论这样的一种实现方案。附加信息可以从美国专利5903872中得到。

参看图4，控制65可以通过检查从路径61接收的各帧得到的一些控制信息，或者“帧标识符”来检测剪接。例如，编码器40可以为各个后续帧增量某个数，或者生成时间和日期的指示来提供帧标识符，将该帧标识符组装到各个帧中。如果控制65在从帧流中得到的帧标识符序列中检测到不连续性，则在路径66上生成剪接检测信号。在从路径66接收到剪接检测信号之后，解码70可以调整合成滤波器组的频率响应，或者可以选择具有所需频率响应的替代滤波器组来处理需要进行剪接的帧间边界的任一侧上的一个或多个段。

在一种优选实施例中，通过应用剪接窗口处理，得到检测剪接的任一侧上帧的所需频率响应。这可以通过以下方式实现：将帧剪接窗口函数应用于从上述控制方案得到的整个段帧，它也可以在控制方案中通过将段剪接窗口函数应用于从合成变换得到的各个段来实现。原则上，这两个处理是等价的。

各个段的段剪接窗口函数可以通过将表IX所示各段的正常合成窗口函数乘上帧剪接窗口函数的一部分来得到，前述剪接窗口函数的一部分与各个段一致。帧剪接窗口函数可以通过合并表VI-C所示两个或多个基本函数来得到。

基本窗口函数表VI-C

表XI列出了3种类型帧的帧剪接窗口函数。

合成窗口函数	帧类型
合成窗口函数	帧类型	ES₅(n)+E1₁₇₉₂(n)E1₁₇₉₂(n)+ES₅(-n)ES₅(n)+E1₁₅₃₆(n)+ES₅(-n)	在帧开始处剪接在帧结束处剪接在帧的两个边界剪接

帧剪接窗口函数

表XI

利用上述帧剪接窗口函数，剪接窗口处理实际上改变了帧重叠区间中段的端对端解析合成窗口函数，从阿尔法值为3的KBD窗口函数变化成阿尔法值为1的KBD窗口函数。这种改变减少了滤波器通带的宽度，换来阻带中衰减值的减小，从而得到的频率响应更为有效地抑制了可听到的频谱邻道干扰。

6.信号转换

上述音频编码器和解码器的实施例可以集成到处理任何格式和采样率的音频信息的应用中。例如，48kHz的音频采样率通常用于专业设备，而44.1kHz的采样率通常用于客户设备。此外，上述设备可以集成到处理的音频信息的帧格式和帧速率遵从各种标准的应用中。对视频帧速率约为30Hz或者更低的应用，音频信息的处理最好按照上述第二种格式。

实际设备的实现可以通过将音频信息转化成内部音频采样率来简化，这样，音频信息可以独立于外部音频采样速率或者视频帧速率编码成通用结构。

参看图3和4，转换43用于将音频信息转换成适当的内部采样速率，转换68用于将音频信息从内部采样速率转换成所需外部音频采样速率。这种转换的实现最好使得内部音频采样率是视频帧速率的整数倍。表XII中示出了若干视频帧速率的适当的内部采样率的例子。该转换使得相同数量的音频样本可以被编码并通过视频帧传送。

视频标准	视频帧速率(Hz) 每帧音频采样内部采样速率(kHz)
视频标准	视频帧速率(Hz) 每帧音频采样内部采样速率(kHz)	DTVNTSCPALFilmDTV	30 2048 53.7629.97 2048 53.70625 2048 44.824 2048 43.00823.976+ 2048 42.96

内部采样速率

表XII

该表所示的NTSC(29.97Hz)和DTV(23.976Hz)内部采样速率仅是大略的数字。这两种视频标准的速率分别等于53760000/1001和43008000/1001。

实际上可以采用任何采样率转换技术。采样率转换的各种考虑和实现在Adams和Kwan的“Theory and VLSI Architectures forAsynchronous Sample Rate Conversions”，J.of Audio Engr.Soc.，1993年7月，vol.41，no.7/8，pp.539-555中公开。

如果使用采样速率转换，可能需要修改上述解析45的瞬态检测器HPF101的滤波器系数以保持恒定的截止频率。这种特性的优点可以根据检验确定。

D.处理时延

块编码器50和块解码器70所进行的处理因接收和缓存信息段和块而出现时延。此外，上述控制块编码处理的两种方案导致了附加时延，该时延用以接收并缓存解析45为段长控制而解析的音频采样块。

如果采样第二方案，第一控制方案必须在图10所示段长控制方法的第一步S461开始之前，接收并缓存1344音频样本或者21个64样本音频信息块。第二控制方案的时延稍小，只需要接收并缓存1280个音频样本，或者20个64样本音频信息块。

如果编码器40需要实时执行其处理，它必须在接收、缓存该帧的第一部分，并且解析段长控制之后，在各帧的剩余时间内完成块编码处理。因为第一控制方案在开始解析块之前的时延较长，它需要编码50完成其处理的时间比第二控制方案所需时间更少。

在优选实施例中，编码器40的总处理时延被调整成与相邻视频帧之间的间隔相等。如果需要，编码器40中可以包含一个元件以提供附加时延。如果一个帧区间的总时延不可能，则可以调整总时延，使其等于视频帧区间的整数倍。

这两种控制方案对解码60提出的计算需求实际上相等。解码60所引起的最大时延难以以一般方式给出，因为它取决于许多因素，例如精确的编码帧格式，以及用以传送编码音频信息和控制信息的比特数量。

如果采用第一格式，则必须在段控制方法开始之前，接收并缓存整个帧。因为编码和信号采样率转换处理无法立即完成，编码器40的一帧时延不可能。这种情况下，最好有两个帧速率的总时延。对解码器60应用类似的限制。

Claims

1.一种音频编码方法，包括执行以下行为的步骤：

在视频信息帧序列中接收承载视频信息帧的校准的基准信号，前述视频信息帧序列中相邻帧由帧区间分隔；

接收承载音频信息的音频信号；

分析音频信号以识别音频信息的特征；

生成在重叠段序列中传送音频信息段段长的控制信号，各段与相邻段有各自的重叠区间，该序列的长度等于帧区间加上帧重叠区间，其中响应于音频信息特征调整段长；

将自适应块编码处理应用于序列中的重叠段，以生成多个编码信息块，其中响应于控制信号调整块编码处理；以及

组装多个编码信息块和承载段长的控制信息，生成与基准信号一致的编码信息帧。

2.根据权利要求1的音频编码方法，其中块编码处理对音频信息段应用一组带通滤波器或者变换，分别生成子带信号块或者变换系数块。

3.根据权利要求1的音频编码方法，其中块编码处理将各个解析窗口函数应用于各个音频信息段，以生成窗口化段，将时域混叠消除解析变换应用于窗口化的段以生成变换系数块。

4.根据权利要求3的音频编码方法，调整解析窗口函数和时域混叠消除解析变换，生成表示各个编码信息帧的段序列中的尾段的块，前述编码信息帧允许应用逆向的合成变换和合成窗口函数来恢复音频信息，并且在序列的尾段的重叠区间中基本没有时域混叠。

5.根据权利要求1到4中任意一项的音频编码方法，其中块编码处理将段长限制为2的整数幂。

6.根据权利要求1到4中任意一项的音频编码方法，其中块编码处理在最大段长和最小段长之间调整段长，对各个编码信息帧而言，应用以下之一：

将解析窗口函数的长长序列应用于长度等于最大段长的段序列；

将解析窗口函数的短短序列应用于有效长度等于最小段长的段序列；

将解析窗口函数的桥长序列应用于长度从最小段长变化到最大段长的段序列，其中桥长序列包括窗口函数的第一桥序列，其后是长度等于最大段长的段的窗口函数；

将解析窗口函数的长桥序列应用于长度从最大段长变化到最小段长的段序列，其中长桥序列包括长度等于最大段长的段序列，其后是窗口函数的第二桥序列；或者

将解析窗口函数的桥桥序列应用于长度可变的段序列，其中桥桥序列包括第一桥序列，其后是第二桥序列。

7.根据权利要求6的音频编码方法，其中短短序列的所有段长度都相同。

8.根据权利要求6的音频编码方法，其中短短序列的所有解析窗口函数具有形状和长度相同的非0部分，一个或多个解析窗口函数具有0部分。

9.根据权利要求1到8中任意一项的音频编码方法，包括在块编码处理之前，将音频信息从输入音频采样率转换成内部音频采样率，其中基准信号承载视频信息帧速率，内部音频采样率等于视频信息帧速率的整数倍。

10.一种音频解码方法，包括执行以下行为的步骤：

接收经基准信号校准的编码信息帧，各个编码信息帧包括控制信息和多个编码音频信息块；

生成在重叠段序列中传送音频信息段段长的控制信号，各段与相邻段有各自的重叠区间，该序列的长度等于帧区间加上帧重叠区间，其中响应于控制信息调整段长；

将自适应块解码处理应用于各编码信息帧中的多个编码音频信息块，

其中响应于控制信号调整块解码处理，以生成音频信息重叠段序列。

11.根据权利要求10的音频解码方法，其中块解码处理对多个编码信息块应用一组带通合成滤波器或者合成变换，生成音频信息的重叠段。

12.根据权利要求10的音频解码方法，其中块解码处理将时域混叠消除合成变换应用于多个编码信息块，将各个合成窗口函数应用于该合成变换的结果，以生成音频信息的重叠段。

13.根据权利要求12的音频解码方法，调整时域混叠消除合成变换，将合成窗口函数应用于该合成变换的结果，以恢复各个编码信息帧序列中的尾段，并且在该序列的尾段的重叠区间中基本没有时域混叠。

14.根据权利要求10到13中任意一项的音频解码方法，其中块解码处理生成的段的段长限制为2的整数幂。

15.根据权利要求10到13中任意一项的音频解码方法，其中块解码处理解码的块所表示的音频信息段的段长在最大段长和最小段长之间变化，对各个编码信息帧而言，应用以下之一：

将合成窗口函数的长长序列应用于长度等于最大段长的段序列；

将合成窗口函数的短短序列应用于有效长度等于最小段长的段序列；

将合成窗口函数的桥长序列应用于长度从最小段长变化到最大段长的段序列，其中桥长序列包括窗口函数的第一桥序列，其后是长度等于最大段长的段的窗口函数；

将合成窗口函数的长桥序列应用于长度从最大段长变化到最小段长的段序列，其中长桥序列包括长度等于最大段长的段序列，其后是窗口函数的第二桥序列；或者

将合成窗口函数的桥桥序列应用于长度可变的段序列，其中桥桥序列包括第一桥序列，其后是第二桥序列。

16.根据权利要求15的音频解码方法，其中根据短短序列生成的所有段的长度都相同。

17.根据权利要求15的音频解码方法，其中短短序列的所有合成窗口函数具有形状和长度相同的非0部分，一个或多个解析窗口函数具有0部分。

18.根据权利要求10到17中任意一项的音频解码方法，分析从两个编码信息帧得到的控制信息以检测非连续性，在两个编码信息帧的任一个的段序列中第一或最后音频信息段的恢复中相应调整块解码处理的频率响应特征。

19.一种信息存储媒质，承载：

视频帧中的音频信息；以及

编码信息帧中的编码音频信息，其中各个编码信息帧对应于各个视频帧，包括

承载重叠段序列中音频信息段的可变段长的控制信息，各段与相邻段之间有各自的重叠区间，该序列的长度等于帧区间加上帧重叠区间，以及

编码音频信息块，各个块具有各自的长度和内容，在由自适应块解码处理进行处理时，生成重叠段序列中各个音频信息段。

20.根据权利要求19的信息存储媒质，其中各个编码信息块具有各自的内容，在由自适应解码处理进行处理时，生成各个音频信息段，前述处理包括应用时域混叠消除合成变换和应用合成窗口函数。

21.根据权利要求20的信息存储媒质，其中自适应块解码处理调整时域混叠消除合成变换，并调整合成窗口函数，以生成音频信息的重叠段，它们相互独立且基本没有时域混叠。

22.根据权利要求19到21中任意一项的信息存储媒质，其中所有编码音频信息块代表的音频信息段所具有的长度为2的整数幂。

23.根据权利要求19到22中任意一项的的信息存储媒质，其中控制信息包括编码信息帧序列中各个编码信息帧的次序指示。

24.一种音频编码设备，包括：

在视频信息帧序列中接收承载视频信息帧校准的基准信号的装置，前述视频信息帧序列中相邻帧由帧区间分隔；

接收承载音频信息的音频信号的装置；

分析音频信号以识别音频信息的特征的装置；

生成在重叠段序列中传送音频信息段段长的控制信号的装置，各段与相邻段有各自的重叠区间，该序列的长度等于帧区间加上帧重叠区间，其中响应于音频信息特征调整段长；

将自适应块编码处理应用于序列中的重叠段，以生成多个编码信息块的装置，其中响应于控制信号调整块编码处理；以及

组装多个编码信息块和承载段长的控制信息，生成与基准信号一致的编码信息帧的装置。

25.根据权利要求24的音频编码设备，其中块编码处理对音频信息段应用一组带通滤波器或者变换，分别生成子带信号块或者变换系数块。

26.根据权利要求24的音频编码设备，其中块编码处理将各个解析窗口函数应用于各个音频信息段，以生成窗口化段，将时域混叠消除解析变换应用于窗口化的段以生成变换系数块。

27.根据权利要求26的音频编码设备，包括这样的装置，该装置调整解析窗口函数和时域混叠消除解析变换，生成表示各个编码信息帧的段序列中的尾段的块，前述编码信息帧允许应用逆向的合成变换和合成窗口函数来恢复音频信息，并且在序列的尾段的重叠区间中基本没有时域混叠。

28.根据权利要求24到27中任意一项的音频编码设备，其中块编码处理将段长限制为2的整数幂。

29.根据权利要求24到27中任意一项的音频编码设备，其中块编码处理在最大段长和最小段长之间调整段长，对各个编码信息帧而言，应用以下之一：

将解析窗口函数的桥长序列应用于长度从最小段长变化到最大段长的段序列，其中桥长序列包括窗口函数的第一桥序列，其后是长度等于最大段长的窗口函数；

30.根据权利要求29的音频编码设备，其中短短序列的所有段长度都相同。

31.根据权利要求29的音频编码设备，其中短短序列的所有解析窗口函数具有形状和长度相同的非0部分，一个或多个解析窗口函数具有0部分。

32.根据权利要求24到31中任意一项的音频编码设备，包括在块编码处理之前，将音频信息从输入音频采样率转换成内部音频采样率的装置，其中基准信号承载视频信息帧速率，内部音频采样率等于视频信息帧速率的整数倍。

33.一种包括执行以下行为的步骤的音频解码设备：

在视频信息帧序列中接收承载视频信息帧的校准的基准信号的装置，前述视频信息帧序列中相邻帧由帧区间分隔；

接收经基准信号校准的编码信息帧的装置，各个编码信息帧包括控制信息和多个编码音频信息块；

生成在重叠段序列中传送音频信息段段长的控制信号的装置，各段与相邻段有各自的重叠区间，该序列的长度等于帧区间加上帧重叠区间，其中响应于控制信息调整段长；

将自适应块解码处理应用于各编码信息帧中的多个编码音频信息块的装置，其中响应于控制信号调整块解码处理，以生成音频信息重叠段序列。

34.根据权利要求33的音频解码设备，其中块解码处理对多个编码信息块应用一组带通合成滤波器或者合成变换，生成音频信息的重叠段。

35.根据权利要求33的音频解码设备，其中块解码处理将时域混叠消除合成变换应用于多个编码信息块，将各个合成窗口函数应用于该合成变换的结果，以生成音频信息的重叠段。

36.根据权利要求35的音频解码设备，包括这样的装置，该装置调整时域混叠消除合成变换，将合成窗口函数应用于该合成变换的结果，以恢复各个编码信息帧序列中的尾段，并且在该序列的尾段的重叠区间中基本没有时域混叠。

37.根据权利要求33到36中任意一项的音频解码设备，其中块解码处理生成的段的段长限制为2的整数幂。

38.根据权利要求33到36中任意一项的音频解码设备，其中块解码处理解码的块所表示的音频信息段的段长在最大段长和最小段长之间变化，对各个编码信息帧而言，应用以下之一：

将合成窗口函数的桥长序列应用于长度从最小段长变化到最大段长的段序列，其中桥长序列包括窗口函数的第一桥序列，其后是长度等于最大段长的窗口函数；

39.根据权利要求38的音频解码设备，其中根据短短序列生成的所有段的长度都相同。

40.根据权利要求38的音频解码设备，其中短短序列的所有合成窗口函数具有形状和长度相同的非0部分，一个或多个解析窗口函数具有0部分。

41.根据权利要求33到40中任意一项的音频解码设备包括这样的装置，该装置分析从两个编码信息帧得到的控制信息以检测非连续性，在两个编码信息帧的任一个的段序列中第一或最后音频信息段的恢复中相应调整块解码处理的频率响应特征。