[go: up one dir, main page]

CN102047564A - 将重叠变换因式分解成两个块变换 - Google Patents

将重叠变换因式分解成两个块变换 Download PDF

Info

Publication number
CN102047564A
CN102047564A CN2009801209539A CN200980120953A CN102047564A CN 102047564 A CN102047564 A CN 102047564A CN 2009801209539 A CN2009801209539 A CN 2009801209539A CN 200980120953 A CN200980120953 A CN 200980120953A CN 102047564 A CN102047564 A CN 102047564A
Authority
CN
China
Prior art keywords
subframe
overlapping
lapped transform
conversion
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009801209539A
Other languages
English (en)
Other versions
CN102047564B (zh
Inventor
S·梅若特拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102047564A publication Critical patent/CN102047564A/zh
Application granted granted Critical
Publication of CN102047564B publication Critical patent/CN102047564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/147Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Discrete Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

音频编码器/解码器使用具有可逆实现的重叠加窗变换与块变换的组合以提供可逆的、整数-整数形式的重叠变换。该可逆重叠变换准许对具有可变子帧大小的音频信号进行有损和无损变换域编码。

Description

将重叠变换因式分解成两个块变换
背景
随着便携式数字媒体播放器、用于音乐存储的紧致盘以及因特网上的音频递送的引入,以数字音频格式存储、购买和分发音乐及其他音频内容现在是很常见的。数字音频格式使得人们能够在其个人计算机(PC)或便携式媒体播放器上有成百上千首音乐歌曲可用。
知觉变换编码
该音频编码利用挖掘人类听觉的各种知觉模型的编码技术。例如,靠近强声调的许多较弱声调被掩蔽以使得无需对它们进行编码。在传统的知觉音频编码中,这是作为对不同频率数据的自适应量化来利用的。知觉重要频率数据被分配较多位及由此较精细的量化,反之亦然。
例如,变换编码常规上以用于压缩音频信号的高效方案著称。输入音频被数字地时间采样。在变换编码中,输入音频样本块被变换(例如,经由使用最广泛的修正离散余弦变换,即MDCT),处理,并量化。对经变换系数的量化是诸如经由标量量化器基于知觉重要性(例如,掩蔽效应和人类听觉的频率敏感度)来执行的。
在使用标量量化器时,该重要性被映射到相对加权,并且从每一个系数的权重和全局分辨率来导出该系数的量化器分辨率(步长)。全局分辨率可从目标质量、比特率等来确定。对于给定步长,每一个系数被量化成为零或非零整数值的水平。
在较低比特率下,零水平系数通常比非零水平系数多得多。它们可用行程长度编码来高效率地编码,行程长度编码可与诸如Huffman编码等熵编码方案组合。
重叠变换和可变窗口帧大小
许多音频压缩系统利用调制重叠变换(MLT,也称之为修正离散余弦变换,即MDCT)来执行音频变换编码中的时频分析。MLT减少由于量化而引入到所重构的音频信号中的成块伪像。更具体地,在非重叠的块被独立地进行变换编码时,在解码器处重构音频信号之际,量化误差将在信号中的块边界处产生不连续性。对于音频,听到周期性微小静电干扰声(clicking)效应。
MLT通过重叠块减少该成块效应。在MLT中,来自两个连贯块的2M个样本的“窗口”经历调制余弦变换。返回M个变换系数。然后将窗口移动M个样本,并计算下一组M个变换系数。因此,每一个窗口重叠前一窗口的后M个样本。尽管变换系数由于量化而改变,但重叠增强了重构样本的连续性。
一些音频压缩系统随时间改变窗口的大小以适应音频不断变化的性质。音频编码器通常将输入音频信号划分成固定大小的“帧”,每一帧为一编码单位(例如,可在每一帧的首部部分中发送编码表和/或参数)在使用时变MLT的音频压缩系统中,每一帧可包含一个或多个具有可变大小的“窗口”,每一个窗口为一MLT单位。一般而言,较大的窗口对于编码效率是有益处的,而较小的窗口提供较好的时间分辨率。因此,对在何处采用什么窗口大小的决定对于编码信号的压缩性能和听觉质量是至关重要的。
音频编码中的一个问题常被称为“前回声”。当音频经历突变(称为“瞬变”)时发生前回声。在变换编码中,特定频率系数常被量化(即,分辨率降低)。当变换系数在稍后被逆变换以再现音频信号时,此量化引入分布在时域的整个块上的量化噪声。这固有地导致在编码帧内非常均匀的噪声拖尾效应。对于该帧的某个部分一般可容忍的噪声可能被听到,并且对于该帧中掩蔽水平较低的那些部分期间的听觉质量是灾难性的。实际上,此效应在信号继低能量区域之后立即有急剧冲击时显得尤为突出,因此称为“前回声”。由于人类听觉系统的属性,在信号从高能量转换至低能量时发生的“后回声”对可感觉到的听觉质量而言问题较小。
重叠变换和无损编码
重叠变换也可被用于无损编码。许多无损编码技术在时域中对音频信号数据进行操作。然而,通过对在施加重叠变换之后不经过量化所得到的变换系数简单地执行熵编码或其他无损编码,也可在频域中执行无损编码。这样的频域无损编码使得能够更为容易地一同导出音频信号的有损和无损压缩版本。但是,频域无损压缩技术要求变换是可逆的。此外对于使得变换可逆所需要的一致性计算,该变换应具有整数实现。
可逆的整数-整数变换造成的困难在于它们要求使用行列式为1的方形变换矩阵来实现,这与其实现在变换矩阵中使用矩形子块的重叠变换设计不兼容。先前已知的可逆重叠变换也已通常要求对于音频信号的所有子帧要有相同的子帧配置,这与如上所讨论地采用可变子帧大小以诸如减小前回声的音频编解码器不兼容。
在先前的可逆变换实现中,诸如MDCT和MLT之类的变换被作为2NxN变换来处理,其中使2NxN变换可逆。尽管此程序在所有子帧为相同大小时是很好的,但在子帧大小变化时工作得不是特别好。另外,重叠正交变换具有难以理解和修改的实现。
概述
以下详细描述涉及使用具有可变子帧大小的重叠变换的用于变换域中的无损音频压缩的各种音频编码/解码技术和工具。这些技术使用对应可变帧大小的可逆整数-整数重叠变换的实现,这可以通过将诸如调制重叠变换之类的变换分解成两个移位块变换的组合来行程,一个移位块变换是重叠变换,而另一个是块变换(诸如任何类型的标准DCT)。
提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述不旨在标识所要求保护的主题的关键特征或本质特征,也不旨在用于帮助确定所要求保护的主题的范围。本发明的其它特征和优点在参考附图继续阅读以下对实施例的详细描述后将变得显而易见。
附图简述
图1)是可结合来实现所描述的各实施例的通用操作环境的框图。
图2)、3)、4)和5)是可结合来实现所描述的各实施例的通用编码器和/或解码器的框图。
图6)是示出用于音频比特流的示例子帧配置的示图。
图7)是示出图6)中的示例子帧配置中被施加了重叠变换的重叠算子部分的重叠区的示图。
图8)是说明图6)的示例子帧配置中向其施加了重叠变换的块变换部分的块的示图。
详细描述
描述了用于表示、编码和解码音频信息的各种技术和工具。这些技术和工具便于即使以非常低的比特率来创建、分发和回放高质量音频内容。
本文描述的各种技术和工具可以独立使用。某些技术和工具也可以结合使用(例如,在组合的编码和/或解码过程的各不同阶段)。
如下将参考处理动作的流程图描述各种技术。在流程图中示出的各种处理动作可以合并为更少的动作或者分割成更多的动作。为了简明,在特定流程图中示出的各动作与在其它地方描述的各动作之间的关系通常没有示出。在许多情况下,可以重排流程图中的动作。
大部分详细描述着眼于表示、编码和解码音频信息。此处所描述的用于表示、编码和解码音频信息的许多技术和工具也可应用于视频信息、静止图像信息或在单个或多个通道中发送的其它媒体信息。
I.计算环境
图1示出了其中可实现所描述的实施例的合适计算环境100的一个通用示例。计算环境100并非对使用范围或功能提出任何限制,因为所描述的实施例可以在完全不同的通用或专用计算环境中实现。
参考图1,计算环境100包括至少一个处理单元110和存储器120。在图1中,这一最基本配置130包括在虚线内。处理单元110执行计算机可执行指令,且可以是真实或虚拟处理器。在多处理系统中,多个处理单元执行计算机可执行指令以提高处理能力。处理单元还可包括中央处理单元和协作处理器,和/或专用或特殊用途的处理单元(例如,音频编码器)。存储器120可以是易失性存储器(例如,寄存器、高速缓存、RAM)、非易失性存储器(例如,ROM、EEPROM、闪存)或两者的某一组合。存储器120储存实现根据一个或多个所描述的实施例的一个或多个音频处理技术和/或系统的软件180。
计算环境可具有其他特征。例如,计算环境100包括存储140、一个或更多个输入设备150、一个或更多个输出设备160以及一个或更多个通信连接170。诸如总线、控制器或网络等互连机制(未示出)将计算环境100的组件互连。通常,操作系统软件(未示出)为在计算环境100中执行的软件提供了操作环境,并协调计算环境100的组件的活动。
存储140可以是可移动或不可移动的,且包括磁盘、磁带或磁带盒、CD、DVD或可用于储存信息并可在计算环境100内访问的任何其它介质。存储140储存用于软件180的指令。
输入设备150可以是诸如键盘、鼠标、笔、触摸屏或跟踪球等触摸输入设备、语音输入设备、扫描设备或向计算环境100提供输入的另一设备。对于音频或视频,输入设备150可以是话筒、声卡、显卡、TV调谐卡、或接受模拟或数字形式的音频或视频输入的类似的设备、或将音频或视频样本读入计算环境的CD或DVD。输出设备160可以是显示器、打印机、扬声器、CD/DVD刻录机、网络适配器、或从计算环境100提供输出的另一设备。
通信连接170允许通过通信介质到一个或多个其它计算实体的通信。通信介质传达诸如计算机可执行指令、音频或视频信息、或数据信号形式的其它数据等的信息。已调制数据信号是其一个或多个特征以在信号中编码信息的方式设置或改变的信号。作为示例而非局限,通信介质包括以电、光、RF、红外、声学或其他载波实现的有线或无线技术。
各实施例可以在计算机可读介质的一般上下文中描述。计算机可读介质可以是可在计算环境内访问的任何可用介质。作为示例而非局限,对于计算环境100,计算机可读介质包括存储器120、存储140、以及上述任一个的组合。
各实施例可在诸如程序模块中所包括的在真实或虚拟目标处理器上的计算环境中执行的计算机可执行指令的一般上下文中描述。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、库、对象、类、组件、数据结构等。程序模块的功能可以如各实施例中所需的组合或在程序模块之间分离。用于程序模块的计算机可执行指令可以在本地或分布式计算环境中执行。
出于表示的目的,详细描述使用了如“确定”、“接收”和“执行”等术语来描述计算环境中的计算机操作。这些术语是由计算机执行的操作的高级抽象,且不应与人类所执行的动作混淆。对应于这些术语的实际的计算机操作取决于实现而不同。
II.示例编码器和解码器
图2示出了其中可实现一个或多个所描述的实施例的第一音频编码器200。编码器200是基于变换的知觉音频编码器200。图3示出了对应的音频解码器300。
图4示出了其中可实现一个或多个所描述的实施例的第二音频编码器400。编码器400也是基于变换的知觉音频编码器,但是编码器400包括附加模块,诸如用于处理多声道音频的模块。图5示出了对应的音频解码器500。
尽管图2到5所示的系统是通用的,但其各自都具有可在真实系统中找到的特性。在任何情况下,在编码器和解码器内的模块之间示出的关系指示了编码器和解码器中的信息流;为简明起见未示出其它关系。取决于所需的实现和压缩类型,编码器或解码器的模块可被添加、省略、拆分成多个模块、与其它模块组合、和/或用类似模块来替换。在替换实施例中,根据一个或多个所描述的实施例,具有不同模块和/或其它配置的编码器/解码器处理音频数据或某一其它类型的数据。
A.第一音频编码器
编码器200以某一采样深度和速率接收输入音频样本205的时间序列。输入音频样本205是针对多声道音频(例如,立体声)或单声道音频的。编码器200压缩音频样本205,并多路复用由编码器200的各模块产生的信息以输出诸如WMA格式、如高级流格式(“ASF”)等容器格式、或其它压缩或容器格式等压缩格式的比特流295。
频率变换器210接收音频样本205,并将其转换成频率(或频谱)域中的数据。例如,频率变换器210将帧的音频样本205拆分成子帧块,块可以是可变的大小以允许可变时间分辨率。块可重叠以减小块之间否则会由稍后的量化引入的可察觉的不连续性。频率变换器210将时变调制重叠变换(“MLT”)、调制DCT(“MDCT”)、MLT或DCT的某一其它变体、或某种其它类型的调制或非调制、重叠或非重叠频率变换应用于块,或使用子带或小波编码。频率变换器210向多路复用器(“MUX”)280输出频谱系数数据块,并输出诸如块大小等辅助信息。
对于多声道音频数据,多声道变换器220可将多个原始的、独立编码的声道转换成联合编码的声道。或者,多声道变换器220可使左和右声道作为独立编码的声道通过。多声道变换器220向MUX 280产生指示所使用的声道模式的辅助信息。编码器200可在多声道变换之后向音频数据块应用多声道重新矩阵化。
知觉建模器230对人类听觉系统的特性建模以改善对给定比特率的重构音频信号的察觉质量。知觉建模器230使用各种听觉模型中的任一种,并将激励模式信息或其它信息传递给加权器240。例如,一听觉模型通常考虑人类听觉的范围和临界频带(例如,Bark频带)。除了范围和临界频带之外,音频信号之间的相互作用可显著影响知觉。另外,听觉模型可以考虑与人类对声音的感知的物理或神经方面有关的各种其它因素。
知觉建模器230输出加权器240用于对音频数据中的噪声整形以降低噪声的可听见性的信息。例如,使用各种技术中的任一种,加权器240基于所接收到的信息生成用于量化矩阵(有时称为掩码)的加权因子。用于量化矩阵的加权因子包括用于该矩阵中的多个量化带中的每一个的权重,其中量化带是频率系数的频率范围。由此,加权因子指示噪声/量化误差在量化带上分布的比例,由此控制了噪声/量化误差的频谱/时间分布,且其目标是通过在听见程度较小的频带中放入较多噪声(反之亦然)来最小化噪声的可听见性。
加权器240然后向从多声道变换器220接收到的数据应用加权因子。
量化器250量化加权器240的输出,从而向熵编码器260产生量化的系数数据,并向MUX 280产生包括量化步长的辅助信息。在图2中,量化器250是自适应的、均匀的标量量化器。量化器250向每一频谱系数应用相同的量化步长,但是量化步长本身可在量化循环的各次迭代之间变化以影响熵编码器260输出的比特率。其它种类的量化有非均匀、向量量化和/或非自适应量化。
熵编码器260无损地压缩从量化器250接收到的量化的系数数据,例如执行行程级别编码和向量可变长度编码。熵编码器260可计算编码音频信息所花费的比特数并将该信息传递到速率/质量控制器270。
控制器270与量化器250一起工作以调节编码器200的输出的比特率和/或质量。控制器270以满足比特率和质量约束为目标向量化器250输出量化步长。
另外,编码器200可向音频数据块应用噪声替代和/或频带截断。
MUX 280多路复用从音频编码器200的其它模块接收到的辅助信息以及从熵编码器260接收到的经熵编码的数据。MUX 280可包括储存要由编码器200输出的比特流295的虚拟缓冲器。
B.第一音频解码器
解码器300接收包括经熵编码的数据以及辅助信息的压缩音频信息的比特流305,从该比特流中,解码器300重构音频样本395。
多路分解器(“DEMUX”)310解析比特流305中的信息,并将该信息发送到解码器300的各模块。DEMUX 310包括一个或多个缓冲器以补偿由于音频复杂性波动、网络抖动和/或其它因素而产生的比特率短期变化。
熵解码器320无损地解压从DEMUX 310接收到的熵代码,从而产生经量化的频谱系数数据。熵解码器320通常应用编码器中使用的熵编码技术的逆过程。
逆量化器330从DEMUX 310接收量化步长,并从熵解码器320接收经量化的频谱系数数据。逆量化器330向经量化的频率系数数据应用量化步长,以部分地重构频率系数数据,或以其它方式执行逆量化。
噪声生成器340从DEMUX 310接收指示数据块中的哪些频带进行了噪声替代以及用于该形式的噪声的任何参数的信息。噪声生成器340生成用于所指示的频带的模式,并将该信息传递给逆加权器350。
逆加权器350从DEMUX 310接收加权因子,从噪声生成器340接收任何经噪声替代的频带的模式,并从逆量化器330接收部分重构的频率系数数据。在必要时,逆加权器350解压加权因子。逆加权器350将加权因子应用于还未经噪声替代的频带的部分重构的频率系数数据。逆加权器350然后对经噪声替代的频带将从噪声生成器340接收到的噪声模式相加。
多声道逆变换器360从逆加权器350接收重构的频谱系数数据,并从DEMUX 310接收声道模式信息。如果多声道音频是独立编码的声道,则多声道逆变换器360使该声道通过。如果多声道数据是联合编码的声道,则多声道逆变换器360将数据转换成独立编码的声道。
频率逆变换器370接收由多声道变换器360输出的频谱系数数据以及来自DEMUX 310的诸如块大小等辅助信息。频率逆变换器370应用编码器中所使用的频率变换的逆过程,并输出重构的音频样本395的块。
C.第二音频编码器
参考图4,编码器400以某一采样深度和速率接收输入音频样本405的时间序列。输入音频样本405是针对多声道音频(例如,立体声、环绕)或单声道音频的。编码器400压缩音频样本405,并多路复用由编码器400的各模块产生的信息以输出诸如WMA Pro格式、如ASF等容器格式、或其它压缩或容器格式等格式的比特流295。
编码器400在用于音频样本405的多个编码模式之间选择。在图4中,编码器400在混合/纯无损编码模式和有损编码模式之间切换。无损编码模式包括混合/纯无损编码器472,且通常用于高质量(以及高比特率)压缩。有损编码模式包括诸如加权器442和量化器460等组件,且通常用于可调整质量(以及受控比特率)压缩。选择决策取决于用户输入或其它准则。
对于多声道音频数据的有损编码,多声道预处理器410可任选地对时域音频样本405重新矩阵化。例如,多声道预处理器410选择性地对音频样本405重新矩阵化以丢弃一个或多个已编码声道或增加编码器400中的声道间相关,但仍允许解码器500中的(某种形式的)重构。多声道预处理器410可将诸如用于多声道后处理的指令等辅助信息发送到MUX 490。
加窗模块420将音频输入样本405的帧划分成子帧块(窗口)。窗口可具有时变大小和窗口整形函数。当编码器400使用有损编码时,可变大小窗口允许可变时间分辨率。加窗模块420向MUX 490输出划分的数据块,并输出诸如块大小等辅助信息。
在图4中,瓦块配置器422在每声道的基础上划分多声道音频的帧。瓦块配置器422在质量/比特率允许的情况下独立地划分帧中的每一声道。这允许例如瓦块配置器422以较小的窗隔离出现在特定声道中的瞬变,而对其它声道中的频率分辨率或压缩效率使用较大的窗。这可通过在每声道的基础上隔离瞬变来提高压缩效率,但是在许多情况下需要指定个别声道中的划分的附加信息。在时间上处于同一点处的相同大小的窗口能够通过多声道变换来进行进一步的冗余度降低。由此,瓦块配置器422将时间上相同位置的相同大小的窗口编组为瓦块。
频率变换器430接收音频样本,并将其转换成频域中的数据,从而应用了如上对图2的频率变换器210所述的变换。频率变换器430向加权器442输出频谱系数数据块,并向MUX 490输出诸如块大小等辅助信息。频率变换器430向知觉建模器440输出频率系数和辅助信息两者。
知觉建模器440对人类听觉系统的特性建模,从而一般如上参考图2的知觉建模器230所描述的根据听觉模型来处理音频数据。
加权器442基于从知觉建模器440接收到的信息来生成用于量化矩阵的加权因子,一般如上参考图2的加权器240所描述的。加权器442向从频率变换器430接收到的数据应用加权因子。加权器442向MUX 490输出诸如量化矩阵和声道权重因子等辅助信息。量化矩阵可以被压缩。
对于多声道音频数据,多声道变换器450可应用多声道变换,以利用声道间相关。例如,多声道变换器450瓦块中的部分但不是全部声道和/或量化频带选择性地且灵活地应用多声道变换。多声道变换器450选择性地使用预定义的矩阵或自定义矩阵,并向自定义矩阵应用有效压缩。多声道变换器450向MUX490产生指示例如所使用的多声道变换和经多声道变换的瓦块部分的辅助信息。
量化器460量化多声道变换器450的输出,从而向熵编码器470产生经量化的系数数据,并向MUX 490产生包括量化步长的辅助信息。在图4中,量化器460是对每一瓦块计算一量化因子的自适应、均匀、标量量化器,但是量化器460也可执行某种其它量化。
熵编码器470一般如上参考图2的熵编码器260所述地无损地压缩从量化器460接收到的经量化的系数数据。
控制器480与量化器460一起工作以调节编码器400的输出的比特率和/或质量。控制器480以满足质量和/或比特率约束为目标向量化器460输出量化因子。
混合/纯无损编码器472和相关联的熵编码器474压缩用于混合/纯无损编码模式的音频数据。编码器400对整个序列使用混合/纯无损编码模式,或在逐帧、逐块、逐瓦块或其它基础上在编码模式之间切换。
MUX 490多路复用从音频编码器400的其它模块接收到的辅助信息以及从熵编码器470、474接收到的经熵编码的数据。MUX 490包括用于速率控制或其它目的的一个或多个缓冲器。
D.第二音频解码器
参考图5,第二音频解码器500接收压缩音频信息的比特流505。比特流505包括经熵编码的数据以及辅助信息,解码器500从这些数据和信息中重构音频样本595。
DEMUX 510解析比特流505中的信息并将该信息发送到解码器500的诸模块。DEMUX 510包括一个或多个缓冲器以补偿由于音频复杂性波动、网络抖动和/或其它因素而产生的比特率短期变化。
熵解码器520无损地解压从DEMUX 510接收到的熵代码,通常应用编码器400中使用的熵编码技术的逆过程。当解码以有损编码模式压缩的数据时,熵解码器520产生经量化的频谱系数数据。
混合/纯无损解码器522和相关联的熵解码器520无损地解压用于混合/纯无损编码模式的无损编码音频数据。
瓦块配置解码器530从DEMUX 590接收指示帧的瓦块的模式的信息,并在必要时对其解码。瓦块模式信息可被熵编码或以其它方式参数化。瓦块配置解码器530然后将瓦块模式信息传递到解码器500的各其它模块。
多声道逆变换器540从熵解码器520接收经量化的频谱系数数据,并从瓦块配置解码器530接收小块模式信息,并从DEMUX 510接收指示例如所使用的多声道变换和已变换的瓦块部分的辅助信息。使用该信息,多声道逆变换器540在必要时解压变换矩阵,并向音频数据选择性地且灵活地应用一个或多个多声道逆变换。
逆量化器/加权器550从DEMUX 510接收诸如瓦块和声道量化因子等信息以及量化矩阵,并从多声道逆变换器540接收经量化的频谱系数数据。逆量化器/加权器550在必要时解压所接收的加权因子信息。量化器/加权器550然后执行逆量化和加权。
频率逆变换器560接收由逆量化器/加权器550输出的频谱系数数据,以及来自DEMUX 510的辅助信息和来自瓦块配置解码器530的瓦块模式信息。频率逆变换器570应用编码器中使用的频率变换的逆过程,并向重叠器/累加器570输出各块。
除了从瓦块配置解码器530接收瓦块模式信息之外,重叠器/累加器570还从频率逆变换器560和/或混合/纯无损解码器522接收已解码信息。重叠器/累加器570在必要时重叠并累加音频数据,并交织用不同模式编码的帧或其它音频数据序列。
多声道后处理器580可任选地重新矩阵化由重叠器/累加器570输出的时域音频样本。对于受比特流控制的后处理,后处理变换矩阵随时间变化,且在比特流505中用信号表示或包括在其中。
III.可变子帧大小上的可逆调制重叠变换
如上讨论的,代表性编码器(例如,瓦块配置器422)使用变化的子帧大小来编码音频信号,诸如以便在为了避免前回声效应而对音频中的瞬变使用较小子帧大小和为了编码效率而使用较大子帧大小之间进行平衡。编码器可采用各种技术来自适应地选择子帧大小,诸如由Chen等人在美国专利申请公开号US-2003-0115052-A1“ADAPTIVE WINDOW-SIZE SELECTION IN TRANSFORM CODING(变换编码中的自适应窗口大小选择)”中所描述地那样。
图6)示出了代表性编码器所产生的示例子帧配置,其中音频样本的一部分被划分成各自具有256、512、512、1024和512个样本大小的子帧611-615。图6)中所示的子帧大小仅仅表示示例性编码器实现中可用的子帧大小选择,并且是出于说明目的而选择的。在各种替换编码器实现中,编码器可使用其他的子帧大小和/或对子帧大小的更多或更少选择。
还是如上讨论的,代表性编码器对音频样本应用频率变换(例如,通过频率变换器430)。该代表性编码器中所使用的频率变换是一种类型的调制重叠变换(MLT),诸如修正离散余弦变换(MDCT)。这种对每一个子帧的MLT与先前和后续子帧中的样本重叠。换言之,除了当前子帧中的样本之外,该变换还从先前和后续子帧中的样本的重叠部分中获取输入。在此示例中,使用等于较小子帧(即,相邻子帧大小和当前子帧大小中的较小者)的一半大小的重叠。例如,子帧612(大小为512个样本)的重叠是前一子帧(其具有为256个样本的较小的大小)的128个子帧。另一方面,子帧615(具有512个样本)小于其前一子帧614(具有1024个样本),并因此使用前一子帧614的256个样本的重叠。在替换实现中,编码器可使用具有来自先前和后续子帧的不同重叠量的MLT(例如,较小子帧大小的四分之一等)。如从此示例可以看出的,选择三种子帧大小导致较大数目的先前、当前及后续子帧大小组合,并由此产生对于子帧的重叠变换大小的较大置换。
在编码器的无损压缩情形中,MLT合需地具有可逆整数-整数变换实现。以下描述解决了对于子帧大小的各种组合如何导出这样的可逆整数-整数变换实现。每种子帧大小组合的调制重叠变换是通过因式分解成跨越子帧的重叠加窗变换711-714(图7中所示)与应用于子帧的块变换811-815(图8中所示)的组合来产生的。
IV.调制重叠变换的因式分解
以下小节给出用于理解和实现诸如MLT等特定重叠正交变换的简单方法。MLT(MCLT的实部)可被写为以下正交变换(负号是任意的,但由于其匹配音频编解码器中常用的变换的定义(比例因子除外)而添加)。
Y [ k + Ml ] = - 2 M Σ n = 0 2 M - 1 x [ n - M 2 + Ml ] sin [ ( n + 1 2 ) π 2 M ] cos [ ( n + M + 1 2 ) ( k + 1 2 ) π M ]
上式中,输入音频样本由
Figure BPA00001268303900141
项表示。sin项是窗口函数,而cos项是该变换的基函数。变量k是频谱索引,M是子帧大小,而l是该子帧的索引。
由于cos(-θ+π)=-cosθ,得到
cos [ ( M - 1 - n + M + 1 2 ) ( k + 1 2 ) π M ]
= cos [ ( - n - M + 1 2 ) ( k + 1 2 ) π M + 2 M ( k + 1 2 ) π M ]
= cos [ ( - n - M + 1 2 ) ( k + 1 2 ) π M + ( 2 k + 1 ) π ]
= - cos [ ( n + M + 1 2 ) ( k + 1 2 ) π M ]
类似地,由于cos(-θ+2π)=cosθ,还知道
cos [ ( 3 M 2 - 1 - n + M + 1 2 ) ( k + 1 2 ) π M ]
= cos [ ( - n - 3 M 2 - M + 1 2 ) ( k + 1 2 ) π M + 4 M ( k + 1 2 ) π M ]
= cos [ ( - n - 3 M 2 - M + 1 2 ) ( k + 1 2 ) π M + ( 4 k + 2 ) π ]
= cos [ ( 3 M 2 + n + M + 1 2 ) ( k + 1 2 ) π M ]
将以上两个关系应用于MLT公式中,有
Y [ k + Ml ] = - 2 M Σ n = 0 M 2 - 1 x [ n + Ml ] sin [ ( n + M + 1 2 ) π 2 M ] - x [ - n - 1 + Ml ] sin [ ( - n + M - 1 2 ) π 2 M ] cos [ ( n + M + 1 2 ) ( k + 1 2 ) π M ]
- 2 M Σ n = M 2 M - 1 x [ n + Ml ] sin [ ( n + M + 1 2 ) π 2 M ] + x [ 2 M - 1 - n + Ml ] sin [ ( - n + 5 M - 1 2 ) π 2 M ] cos [ ( n + M + 1 2 ) ( k + 1 2 ) π M ]
假设项z[n]被定义为:
对于n=0,...,M/2-1,
z [ n + Ml ] = x [ n + Ml ] sin [ ( n + M + 1 2 ) π 2 M ] - x [ - n - 1 + Ml ] sin [ ( - n + M - 1 2 ) π 2 M ] ,
以及,对于n=M/2,...,M-1
z [ n + Ml ] = x [ n + Ml ] sin [ ( n + M + 1 2 ) π 2 M ] + x [ 2 M - 1 - n + Ml ] sin [ ( - n + 5 M - 1 2 ) π 2 M ] .
于是,MLT公式可被写为:
Y [ k + Ml ] = - 2 M Σ n = 0 M - 1 z [ n + Ml ] cos [ ( n + M + 1 2 ) ( k + 1 2 ) π M ]
= - 2 M Σ n = 0 M - 1 z [ M - 1 - n + Ml ] cos [ ( M - 1 - n + M + 1 2 ) ( k + 1 2 ) π M ]
= - 2 M Σ n = 0 M - 1 z [ M - 1 - n + Ml ] cos [ ( - n - 1 2 ) ( k + 1 2 ) π M + ( 2 k + 1 ) π ]
= 2 M Σ n = 0 M - 1 z [ M - 1 - n + Ml ] cos [ ( n + 1 2 ) ( k + 1 2 ) π M ] ,
这是翻转的z[n+Ml]的IV型DCT。
如由此重写的公式所展示的,MLT可被认为是两个基于块的变换。第一块变换是从x到z的重叠一级蝶形,而第二块变换是对翻转z项的简单的基于块的DCT-IV。
MLT的两个相邻块之间的重叠区由块l的前一半和块(l-1)的后一半构成。因为所以可以将此重叠区的项z[n+Ml]写为
对于n=0,...,M/2-1
z [ n + Ml ] = x [ n + Ml ] sin [ ( n + M + 1 2 ) π 2 M ] - x [ - n - 1 + Ml ] sin [ ( - n + M - 1 2 ) π 2 M ]
= x [ n + Ml ] sin [ ( n + M + 1 2 ) π 2 M ] - x [ - n - 1 + Ml ] cos [ ( n + M + 1 2 ) π 2 M ]
以及,对于n=M/2,...,M-1
z [ n + Ml - M ] = x [ n + Ml - M ] sin [ ( n + M + 1 2 ) π 2 M ] + x [ 2 M - 1 - n + Ml - M ] sin [ ( - n + 5 M - 1 2 ) π 2 M ]
在作出替换n’=M-1-n之后并且由于
Figure BPA000012683039001510
且sin(-θ+π)=sinθ,因此
对于n=0,...,M/2-1
z [ - 1 - n + Ml ] = x [ - n - 1 + Ml ] sin [ ( - n + 3 M - 1 2 ) π 2 M ] + x [ n + Ml ] sin [ ( n + 3 M - 1 2 ) π 2 M ]
= x [ - n - 1 + Ml ] sin [ ( n + M + 1 2 ) π 2 M ] + x [ n + Ml ] cos [ ( n + M + 1 2 ) π 2 M ] .
这与以下简单的2x2变换块相同
z [ n + Ml ] z [ - 1 - n + Ml ] = sin θ - cos θ cos θ sin θ x [ n + Ml ] x [ - 1 - n + Ml ]
其中
Figure BPA00001268303900164
n=0,...,M/2-1。然后,作出又一替代n’=M/2-1-n,给出
z [ Ml + M 2 - 1 - n ] z [ Ml - M 2 + n ] = sin θ - cos θ cos θ sin θ x [ Ml + M 2 - 1 - n ] x [ Ml - M 2 + n ] ,
其中n=0,....,M/2-1且
Figure BPA00001268303900166
并使用sin(-θ+π/2)=cosθ且cos(-θ+π/2)=sinθ这一事实。此2x2变换可被用作音频编解码器的重叠加窗块变换711-714(图7)。通过将每一个重叠区当作单级蝶形来对待,可将此变换应用于变化的子帧大小。由于可以使得此变换中的2x2旋转可逆,所以此重叠加窗变换被容易地实现为可逆变换。
当子帧大小变化时(诸如举例而言在图6中所示出的),只改变MLT的窗口形状。然而,该窗口仍遵守原始窗口的所有对称属性。因此,在适应变化大小的子帧时唯一的改变是重叠窗口大小M。
此外,通过简单地对数据内的给定块应用任何正交变换、随后平移成块栅格并应用如图6)-8)中所示的另一正交变换,此方法能更一般地适应于创建重叠正交变换。
III.通用重叠变换的因式分解
在特定条件下,相邻块之间不超过50%的重叠的任何变换都能被因式分解成两个块变换。确切的必要条件将在以下推导中解释。考虑以不超过50%的重叠对块进行操作的重叠变换。此类线性变化可被写成矩阵,其中矩阵中的每一个块是N/2 x N/2矩阵,N是变换中最小的块大小(如果允许可变的块大小的话)。例如,假设重叠变换被允许使用512、1024和2048大小的块。然后,若块大小是512、1024、512和512,则重叠变换的变换矩阵可被写成如下:
A = A 00 A 01 A 02 0 0 0 0 0 0 0 A 10 A 11 A 12 0 0 0 0 0 0 0 0 A 21 A 22 A 23 A 24 A 25 A 26 0 0 0 0 A 31 A 32 A 33 A 34 A 35 A 36 0 0 0 0 A 41 A 42 A 43 A 44 A 45 A 46 0 0 0 0 A 51 A 52 A 53 A 54 A 55 A 56 0 0 0 0 0 0 0 0 A 65 A 66 A 67 A 68 0 0 0 0 0 0 A 75 A 76 A 77 A 78 0 0 0 0 0 0 0 0 A 87 A 88 A 89 0 0 0 0 0 0 0 A 97 A 98 A 99
其中每一个子矩阵为是256x256矩阵。
考虑将此操作分裂为两步,第一步是应用重叠算子(C)以及对实际块大小应用块变换的另一算子(B)。然后,可将这两个矩阵写成:
B = B 00 B 01 0 0 0 0 0 0 0 0 B 10 B 11 0 0 0 0 0 0 0 0 0 0 B 22 B 23 B 24 B 25 0 0 0 0 0 0 B 32 B 33 B 34 B 35 0 0 0 0 0 0 B 42 B 43 B 44 B 45 0 0 0 0 0 0 B 52 B 53 B 54 B 55 0 0 0 0 0 0 0 0 0 0 B 66 B 67 0 0 0 0 0 0 0 0 B 76 B 77 0 0 0 0 0 0 0 0 0 0 B 88 B 89 0 0 0 0 0 0 0 0 B 98 B 99
C = I 0 0 0 0 0 0 0 0 0 0 C 11 C 12 0 0 0 0 0 0 0 0 C 21 C 22 0 0 0 0 0 0 0 0 0 0 I 0 0 0 0 0 0 0 0 0 0 I 0 0 0 0 0 0 0 0 0 0 C 55 C 56 0 0 0 0 0 0 0 0 C 65 C 66 0 0 0 0 0 0 0 0 0 0 C 77 C 78 0 0 0 0 0 0 0 0 C 87 C 88 0 0 0 0 0 0 0 0 0 0 I
目标是找到B和C,以使得A=BC。由于A的第n行仅取决于B的第n行,因此单独地查看变换的单个块是足够的。例如,变换的第三个块可被写成:
A 65 A 66 A 67 A 68 A 75 A 76 A 77 A 78 = B 66 B 67 B 76 B 77 C 65 C 66 0 0 0 0 C 77 C 78
= B 66 C 65 B 66 C 66 B 67 C 77 B 67 C 78 B 76 C 65 B 76 C 66 B 77 C 77 B 77 C 78
对变换的第三个块的前一半求解简化为对以下方程求解:
B 66 B 76 C 65 C 66 = A 65 A 66 A 75 A 76
这只有在矩阵具有以下属性的情况下才是可解的
A 65 A 75 - 1 = A 66 A 76 - 1 ,
或者对于给定的j,对于所有的i,Aij=0。对此有许多解。令B66是某一任意的满秩N/2xN/2矩阵。然后,得到
C 65 = B 66 - 1 A 65
C 66 = B 66 - 1 A 66
B 76 = A 75 B 66 A 65 - 1
变换块的后一半以及矩阵A中的其他变换块可以类似方式求解。
这示出在特定条件(即,属性
Figure BPA00001268303900188
)下,重叠变换可被写成两个块变换的乘积,一个块变换关注重叠,另一个是简单块变换。
因此,通过为大小N的子帧将重叠变换的表示形成为矩形线性变化矩阵
Figure BPA00001268303900189
导出具有变化大小的子帧的音频信号的子帧的重叠变换的可逆整数-整数实现。此矩形线性变换矩阵由N/2 x N/2的矩阵块元素构成,且i、j是矩阵块的索引。此外,该矩阵具有
Figure BPA000012683039001810
或者对于给定n,对于所有m,Amn=0的属性。矩形线性变换矩阵A因式分解成
Figure BPA000012683039001811
形式的重叠加窗变换矩阵C和
Figure BPA000012683039001812
形式的块变换矩阵B,其中的分量通过对以下关系求解来得到:
C i ( j - 1 ) = B ij - 1 A i ( j - 1 )
C ij = B ij - 1 A ij
B ( i + 1 ) j = A ( i + 1 ) ( j - 1 ) B ij A i ( j - 1 ) - 1
鉴于可应用本发明的原理的许多可能的实施例,要求保护落入所附权利要求书及其等效技术方案的范围和精神之内的所有这样的实施例作为本发明。

Claims (11)

1.一种编码音频信号的方法,所述方法包括:
接收包括时域音频样本序列的音频信号(405)的输入;
将所述音频信号划分成具有至少两个不同子帧大小的子帧(611-615);
对所述不同大小的子帧执行具有可逆的整数输入至整数输出的重叠变换(430),其中所述重叠变换被实现为应用于具有相应子帧大小的子帧的可逆块变换与使相应相邻子帧重叠的可逆块旋转变换的组合,其中每一个可逆块旋转变换重叠至多所述重叠相邻子帧中的较小子帧的一半,其中所述对子帧的可逆块变换和与相邻子帧进行重叠的可逆块旋转变换是所述重叠变换的因式分解;
将所得变换系数编码为压缩比特流(495)。
2.如权利要求1所述的方法,其特征在于,所述重叠变换是调制重叠变换。
3.如权利要求2所述的方法,其特征在于,所述重叠变换是修正离散余弦变换。
4.如权利要求3所述的方法,其特征在于,所述块变换是基于块的DCT-IV型变换,并且所述可逆块旋转变换是单级蝶形型变换。
5.如权利要求1所述的方法,其特征在于,所述对子帧的重叠变换在前相邻子帧和后相邻子帧大小不同的情况下被因式分解成用于使所述前后相邻子帧重叠的不同大小的可逆块旋转变换。
6.一种解码音频信号的方法,所述方法包括:
解码被划分成不同大小的子帧(611-615)的音频信号(505)的变换系数;
对所述不同大小的子帧执行具有可逆的整数输入至整数输出的重叠变换(560),其中所述重叠变换被实现为应用于具有相应子帧大小的子帧的可逆块变换与使相应相邻子帧重叠的可逆块旋转变换的组合,其中每一个可逆块旋转变换重叠至多所述重叠相邻子帧中的较小子帧的一半,其中所述对子帧的可逆块变换和与相邻子帧进行重叠的可逆块旋转变换是所述重叠变换的因式分解;
从经逆变换的变换系数产生时域音频信号的音频样本;以及
输出所述音频信号(595)。
7.如权利要求6所述的方法,其特征在于,所述重叠变换是调制重叠变换。
8.如权利要求7所述的方法,其特征在于,所述重叠变换是修正离散余弦变换。
9.如权利要求8所述的方法,其特征在于,所述块变换是基于块的DCT-IV型变换,且所述可逆块旋转变换是单级蝶形型变换。
10.如权利要求9所述的方法,其特征在于,所述对子帧的重叠变换在前相邻子帧和后相邻子帧大小不同的情况下被因式分解成用于使所述前后相邻子帧重叠的不同大小的可逆块旋转变换。
11.一种导出重叠变换的可逆整数输入/整数输出实现以便处理被划分成多种不同大小的子帧的输入音频信号的的方法,所述方法包括:
将所述重叠变换(430)因式分解成用于使相邻子帧(611-615)重叠的重叠区(711-714)的重叠加窗变换与用于所述子帧的块变换(811-815)的组合,其中所述因式分解包括,
将用于给定子帧的重叠变换的表示形成为具有形式
Figure FPA00001268303800021
的矩形线性变换矩阵A,其中所述矩阵中的每一个子块是对应所述子帧的大小N的N/2 x N/2矩阵,且i、j是所述矩阵子块的索引,并且其中所述矩阵具有性质 A i ( j - 1 ) A ( i + 1 ) ( j - 1 ) - 1 = A ij A ( i + 1 ) j - 1 ;
将所述矩形线性变换矩阵A因式分解成
Figure FPA00001268303800032
形式的重叠加窗变换矩阵C和
Figure FPA00001268303800033
形式的块变换矩阵B,其中所述因式分解包括对以下关系求解:
C i ( j - 1 ) = B ij - 1 A i ( j - 1 )
C ij = B ij - 1 A ij ;
B ( i + 1 ) j = A ( i + 1 ) ( j - 1 ) B ij A i ( j - 1 ) - 1
接收具有所述子帧的音频信号(405)的输入;以及
对所述子帧及其在前相邻子帧应用所述重叠加窗变换矩阵C;以及
对所述子帧应用所述块变换矩阵B。
CN2009801209539A 2008-05-30 2009-05-22 将重叠变换因式分解成两个块变换 Active CN102047564B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/130,862 US8447591B2 (en) 2008-05-30 2008-05-30 Factorization of overlapping tranforms into two block transforms
US12/130,862 2008-05-30
PCT/US2009/044983 WO2009148858A2 (en) 2008-05-30 2009-05-22 Factorization of overlapping transforms into two block transforms

Publications (2)

Publication Number Publication Date
CN102047564A true CN102047564A (zh) 2011-05-04
CN102047564B CN102047564B (zh) 2013-08-21

Family

ID=41380875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801209539A Active CN102047564B (zh) 2008-05-30 2009-05-22 将重叠变换因式分解成两个块变换

Country Status (6)

Country Link
US (1) US8447591B2 (zh)
EP (1) EP2279562B1 (zh)
JP (1) JP5400143B2 (zh)
KR (1) KR101679083B1 (zh)
CN (1) CN102047564B (zh)
WO (1) WO2009148858A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107895580A (zh) * 2016-09-30 2018-04-10 华为技术有限公司 一种音频信号的重建方法和装置
WO2024179054A1 (zh) * 2023-02-28 2024-09-06 华为技术有限公司 音频编解码方法及相关装置

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8036274B2 (en) * 2005-08-12 2011-10-11 Microsoft Corporation SIMD lapped transform-based digital media encoding/decoding
US8369638B2 (en) 2008-05-27 2013-02-05 Microsoft Corporation Reducing DC leakage in HD photo transform
ES3001990T3 (en) * 2008-07-11 2025-03-06 Fraunhofer Ges Forschung Audio decoding method
US8275209B2 (en) * 2008-10-10 2012-09-25 Microsoft Corporation Reduced DC gain mismatch and DC leakage in overlap transform processing
EP2374211B1 (en) * 2008-12-24 2012-04-04 Dolby Laboratories Licensing Corporation Audio signal loudness determination and modification in the frequency domain
US8386266B2 (en) * 2010-07-01 2013-02-26 Polycom, Inc. Full-band scalable audio codec
CN102611883B (zh) * 2011-01-19 2014-07-30 华为技术有限公司 编码方法、解码方法及装置
KR20150032614A (ko) * 2012-06-04 2015-03-27 삼성전자주식회사 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기
SG11201506543WA (en) 2013-02-20 2015-09-29 Fraunhofer Ges Forschung Apparatus and method for generating an encoded signal or for decoding an encoded audio signal using a multi overlap portion
BR112016007518A2 (pt) 2013-10-17 2017-08-01 Dow Agrosciences Llc processos para a preparação de compostos pesticidas
KR102615903B1 (ko) 2017-04-28 2023-12-19 디티에스, 인코포레이티드 오디오 코더 윈도우 및 변환 구현들
CN110233626B (zh) * 2019-07-05 2022-10-25 重庆邮电大学 基于二维自适应量化的机械振动信号边缘数据无损压缩方法

Family Cites Families (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4754492A (en) 1985-06-03 1988-06-28 Picturetel Corporation Method and system for adapting a digitized signal processing system for block processing with minimal blocking artifacts
US4698672A (en) 1986-10-27 1987-10-06 Compression Labs, Inc. Coding system for reducing redundancy
US5297236A (en) 1989-01-27 1994-03-22 Dolby Laboratories Licensing Corporation Low computational-complexity digital filter bank for encoder, decoder, and encoder/decoder
JP2549479B2 (ja) 1991-12-06 1996-10-30 日本電信電話株式会社 動き補償フレーム間帯域分割符号化処理方法
KR0148130B1 (ko) 1992-05-18 1998-09-15 강진구 블럭킹아티팩트를 억제시키는 부호화/복호화 방법 및 그 장치
JP3401823B2 (ja) 1993-03-31 2003-04-28 ソニー株式会社 画像コーデック用プロセッサ
US5982459A (en) 1995-05-31 1999-11-09 8×8, Inc. Integrated multimedia communications processor and codec
FR2737931B1 (fr) 1995-08-17 1998-10-02 Siemens Ag Procede destine au traitement de blocs d'images decodes d'un procede de codage d'images a base de blocs
US5825929A (en) 1995-10-05 1998-10-20 Microsoft Corporation Transformation block optimization method
US6064776A (en) 1995-10-27 2000-05-16 Kabushiki Kaisha Toshiba Image processing apparatus
US5850294A (en) 1995-12-18 1998-12-15 Lucent Technologies Inc. Method and apparatus for post-processing images
KR100196838B1 (ko) 1995-12-23 1999-06-15 전주범 블럭벌 상관 관계에 의한 부호화 장치
US5805739A (en) 1996-04-02 1998-09-08 Picturetel Corporation Lapped orthogonal vector quantization
JPH1070717A (ja) 1996-06-19 1998-03-10 Matsushita Electric Ind Co Ltd 画像符号化装置及び画像復号化装置
JP2907146B2 (ja) * 1996-09-11 1999-06-21 日本電気株式会社 メモリlsiの特定箇所探索方法および探索装置
US6233017B1 (en) 1996-09-16 2001-05-15 Microsoft Corporation Multimedia compression system with adaptive block sizes
US5999656A (en) 1997-01-17 1999-12-07 Ricoh Co., Ltd. Overlapped reversible transforms for unified lossless/lossy compression
KR100261253B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
US5973755A (en) 1997-04-04 1999-10-26 Microsoft Corporation Video encoder and decoder using bilinear motion compensation and lapped orthogonal transforms
WO1998056184A1 (en) 1997-06-05 1998-12-10 Wisconsin Alumni Research Foundation Image compression system using block transforms and tree-type coefficient truncation
JP3375539B2 (ja) 1997-07-14 2003-02-10 ペンタックス株式会社 画像圧縮装置および画像伸張装置
US5859788A (en) 1997-08-15 1999-01-12 The Aerospace Corporation Modulated lapped transform method
TW364269B (en) 1998-01-02 1999-07-11 Winbond Electronic Corp Discreet cosine transform/inverse discreet cosine transform circuit
US6393156B1 (en) 1998-01-07 2002-05-21 Truong Q. Nguyen Enhanced transform compatibility for standardized data compression
US6393061B1 (en) 1998-05-15 2002-05-21 Hughes Electronics Corporation Method for reducing blocking artifacts in digital images
US6115689A (en) 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
US6029126A (en) 1998-06-30 2000-02-22 Microsoft Corporation Scalable audio coder and decoder
US6154762A (en) 1998-06-03 2000-11-28 Microsoft Corporation Fast system and method for computing modulated lapped transforms
US6073153A (en) 1998-06-03 2000-06-06 Microsoft Corporation Fast system and method for computing modulated lapped transforms
US6253165B1 (en) 1998-06-30 2001-06-26 Microsoft Corporation System and method for modeling probability distribution functions of transform coefficients of encoded signal
US6011625A (en) 1998-07-08 2000-01-04 Lockheed Martin Corporation Method for phase unwrapping in imaging systems
US6421464B1 (en) 1998-12-16 2002-07-16 Fastvdo Llc Fast lapped image transforms using lifting steps
US6487574B1 (en) 1999-02-26 2002-11-26 Microsoft Corp. System and method for producing modulated complex lapped transforms
US6496795B1 (en) 1999-05-05 2002-12-17 Microsoft Corporation Modulated complex lapped transform for integrated signal enhancement and coding
US6370502B1 (en) 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
US6771829B1 (en) 1999-10-23 2004-08-03 Fastvdo Llc Method for local zerotree image coding
US6377916B1 (en) 1999-11-29 2002-04-23 Digital Voice Systems, Inc. Multiband harmonic transform coder
US6865229B1 (en) 1999-12-14 2005-03-08 Koninklijke Philips Electronics N.V. Method and apparatus for reducing the “blocky picture” effect in MPEG decoded images
US6771828B1 (en) 2000-03-03 2004-08-03 Microsoft Corporation System and method for progessively transform coding digital data
US7177358B2 (en) 2000-06-27 2007-02-13 Mitsubishi Denki Kabushiki Kaisha Picture coding apparatus, and picture coding method
US6832232B1 (en) 2000-07-10 2004-12-14 Advanced Micro Devices, Inc. Dual-block inverse discrete cosine transform method
AU2001273510A1 (en) 2000-07-17 2002-01-30 Trustees Of Boston University Generalized lapped biorthogonal transform embedded inverse discrete cosine transform and low bit rate video sequence coding artifact removal
JP2004509531A (ja) 2000-09-12 2004-03-25 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ビデオ符号化方法
EP1202219A1 (en) 2000-10-30 2002-05-02 Fast Video, LLC Fast lapped image transforms
JP2002182693A (ja) 2000-12-13 2002-06-26 Nec Corp オーディオ符号化、復号装置及びその方法並びにその制御プログラム記録媒体
US7792390B2 (en) 2000-12-19 2010-09-07 Altera Corporation Adaptive transforms
JP2002304624A (ja) 2001-04-05 2002-10-18 Canon Inc フィルタ処理装置及び撮像装置
US7027654B1 (en) 2001-08-16 2006-04-11 On2 Technologies Video compression system
US6882685B2 (en) 2001-09-18 2005-04-19 Microsoft Corporation Block transform and quantization for image and video coding
JP2003141562A (ja) 2001-10-29 2003-05-16 Sony Corp 非平面画像の画像処理装置及び画像処理方法、記憶媒体、並びにコンピュータ・プログラム
US7460993B2 (en) 2001-12-14 2008-12-02 Microsoft Corporation Adaptive window-size selection in transform coding
KR100925968B1 (ko) 2001-12-17 2009-11-09 마이크로소프트 코포레이션 컴퓨터 시스템에서 비디오 시퀀스의 복수의 비디오 화상을 처리하는 방법, 시스템 및 컴퓨터 판독가능 매체
CN101448162B (zh) 2001-12-17 2013-01-02 微软公司 处理视频图像的方法
US6763068B2 (en) 2001-12-28 2004-07-13 Nokia Corporation Method and apparatus for selecting macroblock quantization parameters in a video encoder
JP2003283840A (ja) 2002-03-25 2003-10-03 Canon Inc フィルタ処理装置およびフィルタ処理方法
US7155065B1 (en) 2002-03-27 2006-12-26 Microsoft Corporation System and method for progressively transforming and coding digital data
US7006699B2 (en) 2002-03-27 2006-02-28 Microsoft Corporation System and method for progressively transforming and coding digital data
US7110941B2 (en) * 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
JP3855827B2 (ja) 2002-04-05 2006-12-13 ソニー株式会社 2次元サブバンド符号化装置
US7275036B2 (en) 2002-04-18 2007-09-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data
US7120297B2 (en) 2002-04-25 2006-10-10 Microsoft Corporation Segmented layered image system
US7242713B2 (en) 2002-05-02 2007-07-10 Microsoft Corporation 2-D transforms for image and video coding
GB2388502A (en) * 2002-05-10 2003-11-12 Chris Dunn Compression of frequency domain audio signals
US7376280B2 (en) 2002-07-14 2008-05-20 Apple Inc Video encoding and decoding
US6728315B2 (en) 2002-07-24 2004-04-27 Apple Computer, Inc. Method and apparatus for variable accuracy inter-picture timing specification for digital video encoding with reduced requirements for division operations
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7031392B2 (en) 2002-09-20 2006-04-18 Seiko Epson Corporation Method and apparatus for video deblocking
US7227901B2 (en) 2002-11-21 2007-06-05 Ub Video Inc. Low-complexity deblocking filter
JP2004201047A (ja) 2002-12-19 2004-07-15 Ricoh Co Ltd 画像処理装置、プログラム及び記憶媒体
US7542036B2 (en) 2003-02-19 2009-06-02 California Institute Of Technology Level set surface editing operators
US7239990B2 (en) 2003-02-20 2007-07-03 Robert Struijs Method for the numerical simulation of a physical phenomenon with a preferential direction
US7167522B2 (en) 2003-02-27 2007-01-23 Texas Instruments Incorporated Video deblocking filter
US7471726B2 (en) 2003-07-15 2008-12-30 Microsoft Corporation Spatial-domain lapped transform in digital media compression
US20080075377A1 (en) 2003-07-29 2008-03-27 Topiwala Pankaj N Fast lapped image transforms using lifting steps
US7724827B2 (en) 2003-09-07 2010-05-25 Microsoft Corporation Multi-layer run level encoding and decoding
DE10345996A1 (de) 2003-10-02 2005-04-28 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Verarbeiten von wenigstens zwei Eingangswerten
US7315822B2 (en) 2003-10-20 2008-01-01 Microsoft Corp. System and method for a media codec employing a reversible transform obtained via matrix lifting
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
KR101044940B1 (ko) 2004-06-23 2011-06-28 삼성전자주식회사 에지 플로우 방향성 필터와 커블릿 변환을 이용한 블록현상 제거 방법 및 장치
US8374238B2 (en) 2004-07-13 2013-02-12 Microsoft Corporation Spatial scalability in 3D sub-band decoding of SDMCTF-encoded video
EP1789955A1 (en) * 2004-08-31 2007-05-30 Koninklijke Philips Electronics N.V. Method and device for transcoding
US7428342B2 (en) 2004-12-17 2008-09-23 Microsoft Corporation Reversible overlap operator for efficient lossless data compression
US7471850B2 (en) 2004-12-17 2008-12-30 Microsoft Corporation Reversible transform for lossy and lossless 2-D data compression
US7305139B2 (en) * 2004-12-17 2007-12-04 Microsoft Corporation Reversible 2-dimensional pre-/post-filtering for lapped biorthogonal transform
AU2005239628B2 (en) 2005-01-14 2010-08-05 Microsoft Technology Licensing, Llc Reversible 2-dimensional pre-/post-filtering for lapped biorthogonal transform
US7805476B2 (en) * 2005-06-27 2010-09-28 The Aerospace Corporation Extended Haar transform
US7613761B2 (en) * 2005-06-27 2009-11-03 The Aerospace Corporation Haar wavelet transform embedded lossless type II discrete cosine transform
US7640283B2 (en) * 2005-06-27 2009-12-29 The Aerospace Corporation Shared Haar wavelet transform
US7634525B2 (en) * 2005-06-27 2009-12-15 The Aerospace Corporation Haar wavelet transform embedded lossless type IV discrete cosine transform
US8036274B2 (en) 2005-08-12 2011-10-11 Microsoft Corporation SIMD lapped transform-based digital media encoding/decoding
US7933337B2 (en) 2005-08-12 2011-04-26 Microsoft Corporation Prediction of transform coefficients for image compression
US20080137982A1 (en) 2006-12-06 2008-06-12 Ayahiro Nakajima Blurring determination device, blurring determination method and printing apparatus
US8054886B2 (en) 2007-02-21 2011-11-08 Microsoft Corporation Signaling and use of chroma sample positioning information
US8521540B2 (en) * 2007-08-17 2013-08-27 Qualcomm Incorporated Encoding and/or decoding digital signals using a permutation value

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107895580A (zh) * 2016-09-30 2018-04-10 华为技术有限公司 一种音频信号的重建方法和装置
CN107895580B (zh) * 2016-09-30 2021-06-01 华为技术有限公司 一种音频信号的重建方法和装置
WO2024179054A1 (zh) * 2023-02-28 2024-09-06 华为技术有限公司 音频编解码方法及相关装置

Also Published As

Publication number Publication date
EP2279562A4 (en) 2012-07-11
US8447591B2 (en) 2013-05-21
EP2279562B1 (en) 2015-12-16
JP2011522291A (ja) 2011-07-28
WO2009148858A3 (en) 2010-02-25
KR101679083B1 (ko) 2016-11-23
CN102047564B (zh) 2013-08-21
WO2009148858A2 (en) 2009-12-10
KR20110021803A (ko) 2011-03-04
JP5400143B2 (ja) 2014-01-29
EP2279562A2 (en) 2011-02-02
US20090299754A1 (en) 2009-12-03

Similar Documents

Publication Publication Date Title
CN102047564B (zh) 将重叠变换因式分解成两个块变换
CN101371447B (zh) 使用扩展带频率编码的复变换信道编码
CN101223582B (zh) 一种音频编码方法、音频解码方法及音频编码器
CN101223570B (zh) 获得用于数字媒体的高效编码的频带的频率分段
US7343287B2 (en) Method and apparatus for scalable encoding and method and apparatus for scalable decoding
US8386269B2 (en) Multi-channel audio encoding and decoding
CN101223573B (zh) 在自适应编码和解码中选择性地使用多个熵模型
US8069052B2 (en) Quantization and inverse quantization for audio
CN1813286B (zh) 音频编码方法、音频编码器以及数字介质编码方法
US7801735B2 (en) Compressing and decompressing weight factors using temporal prediction for audio data
US7275036B2 (en) Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data
TWI674009B (zh) 解碼已編碼高階立體音響(hoa)聲訊訊號之方法和裝置
KR100892152B1 (ko) 시간-이산 오디오 신호를 부호화하기 위한 장치 및 방법그리고 부호화 오디오 데이터를 복호화하기 위한 장치 및방법
CN101401151A (zh) 根据主分量分析的多通道音频信号的可分级编码的设备和方法
CN101689368A (zh) 对具有多声道的多对象音频信号进行编码和解码的设备和方法
CN101290774B (zh) 音频编码和解码系统
Wu et al. Audio object coding based on optimal parameter frequency resolution
JPH10276095A (ja) 符号化器及び復号化器
JP2002091497A (ja) オーディオ信号符号化方法、復号化方法及びそれらの方法を実行するプログラム記憶媒体
Kandadai Perceptual Audio Coding that Scales to Low Bitrates

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150430

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150430

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.