CN101821799B - 使用上混合的音频编码 - Google Patents
使用上混合的音频编码 Download PDFInfo
- Publication number
- CN101821799B CN101821799B CN2008801113955A CN200880111395A CN101821799B CN 101821799 B CN101821799 B CN 101821799B CN 2008801113955 A CN2008801113955 A CN 2008801113955A CN 200880111395 A CN200880111395 A CN 200880111395A CN 101821799 B CN101821799 B CN 101821799B
- Authority
- CN
- China
- Prior art keywords
- signal
- old
- mixed
- audio
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/07—Synergistic effects of band splitting and sub-band processing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种用于对多音频对象信号进行解码的方法,所述多音频对象信号中编码有第一类型音频信号和第二类型音频信号,所述多音频对象信号由下混合信号(112)和辅助信息组成,所述辅助信息包括第一预定时间/频率分辨率(42)下第一类型音频信号和第二类型音频信号的声级信息(60),所述方法包括:基于所述声级信息(OLD)来计算预测系数矩阵C;以及基于所述预测系数和残差信号来对所述下混合信号(56)进行上混合,以获得与第一类型音频信号近似的第一上混合音频信号和/或与第二类型音频信号近似的第二上混合音频信号的装置,其中,上混合根据以下公式表示的计算,由下混合信号d产生第一上混合信号S1和/或第二上混合信号S2:其中,根据d的声道数目,“1”表示标量或单位矩阵,D-1是由下混合规则唯一确定的矩阵,第一类型音频信号和第二类型音频信号是根据所述下混合规则被下混合为下混合信号的,所述辅助信息中也包括所述下混合规则,H是独立于d的项。
Description
技术领域
本发明涉及使用信号上混合(up-mixing)的音频编码。
背景技术
已经提出了许多音频编码算法,以对一声道(即单声道)音频信号的音频数据进行有效的编码和压缩。利用心理声学,可以对音频采样进行适当地缩放、量化或甚至将其设置为零,以从例如PCM编码的音频信号中去除不相关性。并执行冗余删除。
进一步地,利用了立体声音频信号中的左和右声道之间的相似性,以对立体声音频信号进行有效的编码/压缩。
然而,即将来临的应用对音频编码算法提出了更多要求。例如,在电话会议、计算机游戏、音乐表演等中,必须并行传送部分或甚至完全不相关的若干音频信号。为了使用于对这些音频信号进行编码的必要比特率保持足够低,以与低比特率传送应用兼容,近来已经提出了将多个输入音频信号下混合为下混合信号(如立体声或甚至单声道下混合信号)的音频编解码器。例如,MPEG环绕标准以该标准所规定的方式,将输入声道下混合为下混合信号。下混合是使用所谓的OTT-1和TTT-1盒(box)予以实现的,OTT-1和TTT-1盒分别将两个信号下混合为一个信号和将三个信号下混合为两个信号。为了对四个以上的信号进行下混合,使用这些盒的分级结构。除了单声道下混合信号之外,每个OTT-1盒输出两个输入声道之间的声道声级差、以及表示两个输入声道之间的相干或互相关的声道间相干/互相关参数。在MPEG环绕数据流中,这些参数与MPEG环绕编码器的下混合信号一起输出。类似地,每个TTT-1盒发送声道预测系数,该声道预测系数使得能够从所产生的立体声下混合信号恢复3个输入声道。在MPEG环绕数据流中,还将该声道预测系数作为辅助信息来传送。MPEG环绕解码器使用所传送的辅助信息对下混合信号进行上混合,并恢复输入至MPEG环绕编码器的原始声道。
然而,不幸的是,MPEG环绕不能满足许多应用所提出的全部要求。例如,MPEG环绕解码器专门用于对MPEG环绕编码器的下混合信号进行上混合,以将MPEG环绕编码器的输入声道恢复原样。换言之,MPEG环绕数据流专门用于通过使用已用于编码的扬声器配置来进行回放。
然而,根据一些暗示,如果可以在解码器侧改变扬声器配置将是十分有利的。
为了满足后者的需要,目前已设计了空间音频对象编码(SAOC)标准。每个声道被视为单独的对象,并将所有对象下混合为下混合信号。然而,此外,各独立对象也可以包括独立声源,如乐器或声乐音带。然而,与MPEG环绕解码器不同,SAOC解码器能够自由地对下混合信号进行单独的上混合,以将各独立对象重放至任何扬声器配置。为了使SAOC解码器能够恢复已被编码为SAOC数据流的各独立对象,在SAOC比特流中,将对象声级差,以及针对一起形成立体声(或多声道)信号的对象的对象间互相关参数作为辅助信息。此外,向SAOC解码器/变码器提供了启示各独立对象如何被下混合为下混合信号的信息。因此,在解码器侧,可以恢复各独立SAOC声道,并利用由用户控制的呈现信息来将这些信号呈现至任何扬声器配置。
然而,虽然SAOC编解码器被设计用于单独地处理音频对象,但是一些应用的要求甚至更高。例如,卡拉OK应用要求背景音频信号与前景音频信号的完全分离。反之,在独唱(solo)模式下,必须将前景对象与背景对象分离。然而,由于同等地对待各独立音频对象,因此不可能分别从下混合信号中完全去除背景对象或前景对象。
发明内容
因此,本发明的目的是提供一种分别使用音频信号的下混合和上混合的音频编解码器,以更好地在例如卡拉OK/独唱模式应用中分离各独立对象。
这个目的是通过根据权利要求19所述的解码方法和根据权利要求20所述的程序来实现的。
附图说明
参照附图,更详细地描述本申请的优选实施例。附图中:
图1示出了可以在其中实现本发明的实施例的SAOC编码器/解码器配置的框图;
图2示出了单声道音频信号的频谱表示的示意和说明图;
图3示出了根据本发明的实施例的音频解码器的框图;
图4示出了根据本发明的实施例的音频编码器的框图;
图5示出了作为对比实施例的用于卡拉OK/独唱模式应用的音频编码器/解码器配置的框图;
图6示出了根据一实施例的用于卡拉OK/独唱模式应用的音频编码器/解码器配置的框图;
图7a示出了根据对比实施例的用于卡拉OK/独唱模式应用的音频编码器的框图;
图7b示出了根据一实施例的用于卡拉OK/独唱模式应用的音频编码器的框图;
图8a和b示出了质量测量结果图;
图9示出了供对比用的用于卡拉OK/独唱模式应用的音频编码器/解码器配置的框图;
图10示出了根据一实施例的用于卡拉OK/独唱模式应用的音频编码器/解码器配置的框图;
图11示出了根据另一实施例的用于卡拉OK/独唱模式应用的音频编码器/解码器配置的框图;
图12示出了根据另一实施例的用于卡拉OK/独唱模式应用的音频编码器/解码器配置的框图;
图13a至h示出了反映根据本发明一实施例的用于SAOC比特流的可能语法的表格;
图14示出了根据一实施例的用于卡拉OK/独唱模式应用的音频解码器的框图;以及
图15示出了反映用于以信号告知传送残差信号所耗费的数据量的可能语法的表格。
具体实施方式
在以下更具体地描述本发明的实施例之前,为了更容易理解以下更详细地概述的具体实施例,先对SAOC编解码器和SAOC比特流中传送的SAOC参数加以介绍。
图1示出了SAOC编码器10和SAOC解码器12的总体配置。SAOC编码器10接收N个对象(即音频信号141至14N)作为输入。具体地,编码器10包括下混合器16,下混合器16接收音频信号141至14N,并将其下混合为下混合信号18。在图1中,将下混合信号示例性地示为立体声下混合信号。然而,单声道下混合信号也是可能的。将立体声下混合信号18的声道表示为L0和R0,在单声道下混合的情况下,声道仅表示为L0。为了使SAOC解码器12能够恢复各独立对象141至14N,下混合器16向SAOC解码器12提供了包括SAOC参数的辅助信息,该SAOC参数包括:对象声级差(OLD)、对象间互相关参数(IOC)、下混合增益值(DMG)、和下混合声道声级差(DCLD)。包括SAOC参数以及下混合信号18的辅助信息20形成了SAOC解码器12所接收的SAOC输出数据流。
SAOC解码器12包括上混合器22,上混合器22接收下混合信号18以及辅助信息20,以恢复音频信号141至14N,并将其呈现至任何用户选择的声道集合241至24M,其中,输入至SAOC解码器12的呈现信息26规定了呈现方式。
音频信号141至14N可以在任何编码域(例如时域或频谱域)被输入下混合器16。在音频信号141至14N在时域被馈入下混合器16的情况下(如经PCM编码),下混合器16就使用滤波器组(如混合QMF组,即一组具有针对最低频带的奈奎斯特滤波器扩展,以提高其中的频率分辨率的复指数调制滤波器),以特定滤波器组分辨率将信号转移至频谱域,在频域域中,在与不同频谱部分相关的若干子带中表示音频信号。如果音频信号141至14N已经是下混合器16所期望的表示形式,则下混合器16不必执行频谱分解。
图2示出了刚刚提及的频域中的音频信号,可以看到,音频信号被表示为多个子带信号。子带信号301至30P分别由小框32所表示的子带值的序列构成。可以看到,子带信号301至30P的子带值32在时间上相互同步,使得对于各个连续的滤波器组时隙34,每个子带301至30P包括正好一个子带值32。如频率轴36所示,子带信号301至30P与不同的频率区域相关联,如时间轴38所示,滤波器组时隙34在时间上连续排列。
如上所述,下混合器16根据输入音频信号141至14N来计算SAOC参数。下混合器16以某一时间/频率分辨率执行该计算,所述时间/频率分辨率与由滤波器组时隙34和子带分解所确定的原始时间/频率分辨率相比,可以降低某一特定量,该特定量是通过相应的语法元素bsFrameLength和bsFreqRes在辅助信息20中以信号告知给解码器侧的。例如,若干由连续滤波器组时隙34构成的组可以形成帧40。换言之,可以将音频信号划分成例如在时间上重叠或在时间上紧邻的帧。在这种情况下,bsFrameLength可以定义参数时隙41(即在SAOC帧40中用以计算SAOC参数(如OLD和IOC)的时间单元)的数目,bsFreqRes可以定义对其计算SAOC参数的处理频带的数目。通过这种方式,每个帧被划分为图2中以虚线42进行示例的时间/频率片(time/frequencytile)。
下混合器16根据以下公式来计算SAOC参数。具体地,下混合器16针对每个对象i计算对象声级差:
其中,求和以及索引n和k分别遍历所有滤波器组时隙34,以及属于特定时间/频率片42的所有滤波器组子带30。因此,对音频信号或对象i的所有子带值xi的能量进行求和,并将求和结果对所有对象或音频信号中能量值最大的片进行归一化。
此外,SAOC下混合器16能够计算不同输入对象141至14N对的对应时间/频率片的相似性度量。尽管SAOC下混合器16可以计算所有输入对象141至14N对之间的相似性度量,但是,下混合器16也可以抑制对相似性度量的信号告知,或限制对形成公共立体声声道的左或右声道的音频对象141至14N的相似性度量的计算。不管怎样,将该相似性度量称为对象间互相关参数IOCi,j。按以下公式进行计算:
其中,索引n和k再次遍历属于特定时间/频率片42的所有子带值,i和j表示音频对象141至14N的特定对。
下混合器16通过使用应用于每个对象141至14N的增益因子,对对象141至14N进行下混合。也就是说,对对象i应用增益因子Di,然后将所有这样加权的对象141至14N求和,以获得单声道下混合信号。在图1进行示例的立体声下混合信号的情况下,对对象i应用增益因子D1,i,然后将所有这样增益放大的对象求和,以获得左下混合声道L0,对对象i应用增益因子D2,i,然后将所有这样增益放大的对象求和以获得右下混合声道R0。
通过下混合增益DMGi(在立体声下混合信号的情况下,通过下混合声道声级差DCLDi)将该下混合规则以信号告知给解码器侧。
根据以下公式来计算下混合增益:
DMGi=20log10(Di+ε),(单声道下混合),
其中ε是很小的数,如10-9。
对于DCLDs适用以下公式:
在正常模式下,下混合器16根据以下对应公式来产生下混合信号
对于单声道下混合:
或对于立体声下混合:
因此,在上述公式中,参数OLD和IOC是音频信号的函数,参数DMG和DCLD是D的函数。顺带一提的是,注意D可以随时间变化。
因此,在正常模式下,下混合器16无侧重地对所有对象141至14N进行混合,即均等地对待所有对象141至14N。
上混合器22执行下混合器过程的逆过程,并在一计算步骤,即
中实现由矩阵A所表示的“呈现信息”,其中矩阵E是参数OLD和IOC的函数。
换言之,在正常模式下,不将对象141至14N分类为BGO(即背景对象)或FGO(即前景对象)。由呈现矩阵A来提供关于应在上混合器22的输出表示哪个对象的信息。例如,如果具有索引1的对象是立体声背景对象的左声道,具有索引2的对象是其右声道,具有索引3的对象是前景对象,则呈现矩阵A可以是:
以产生卡拉OK类型的输出信号。
然而,如上所述,通过使用SAOC编解码器的这种正常模式来传送BGO和FGO无法实现令人满意的结果。
图3和4描述了本发明的实施例,该实施例克服了刚刚描述的不足。这些图中所描述的解码器和编码器及其相关功能可以表示图1的SAOC编解码器可切换至的附加模式,如“增强模式”。以下将介绍后一可能性的示例。
图3示出了解码器50。解码器50包括用于计算预测系数的装置52和用于对下混合信号进行上混合的装置54。
图3的音频解码器50专门用于对多音频对象信号进行解码,所述多音频对象信号中编码有第一类型音频信号和第二类型音频信号。第一类型音频信号和第二类型音频信号可以分别是单声道或立体声音频信号。例如,第一类型音频信号是背景对象而第二类型音频信号是前景对象。也就是说,图3和图4的实施例未必局限于卡拉OK/独唱模式应用。相反,图3的解码器和图4的编码器可以有利地用于别处。
多音频对象信号由下混合信号56和辅助信息58组成。辅助信息58包括声级信息60,例如用于以第一预定时间/频率分辨率(例如时间/频率分辨率42)来描述第一类型音频信号和第二类型音频信号的频谱能量。具体地,声级信息60可以包括:针对每对象和时间/频率片的归一化频谱能量标量值。该归一化可以与在相应时间/频率片中第一和第二类型音频信号中的最高频谱能量值相关。后一可能性产生了用于表示声级信息的OLD,这里也称为声级差信息。虽然以下的实施例使用OLD,但是,尽管这里没有明确说明,但实施例可以使用其他归一化的频谱能量表示。
辅助信息58可选地包括残差信息62,残差信息62以第二预定时间/频率分辨率指定了残差声级值,该第二预定时间/频率分辨率可以等于或不同于第一预定时间/频率分辨率。
用于计算预测系数的装置52被配置为基于声级信息60来计算预测系数。此外,装置52还可以基于辅助信息58中也包括的互相关信息来计算预测系数。甚至,装置52还可以使用辅助信息58中包括的时变下混合规则信息来计算预测系数。装置52所计算的预测系数对于从下混合声道56中恢复或上混合得到原始音频对象或音频信号是必需的。
相应地,用于上混合的装置54被配置为,基于从装置52接收的预测系数64和(可选的)残差信号62来对下混合信号56进行上混合。当使用残差62时,解码器50能够更好地抑制从一种类型的音频信号到另一种类型的音频信号的串扰(cross talk)。装置54也可以使用时变下混合规则来对下混合信号进行上混合。此外,用于上混合的装置54可以使用用户输入66,以决定在输出68端实际输出由下混合信号56恢复的音频信号中的哪一个或以何种程度输出。作为第一极端情况,用户输入66可以指示装置54仅输出与第一类型音频信号近似的第一上混合信号。根据第二极端情况,相反地,装置54仅输出与第二类型音频信号近似的第二上混合信号。折中情况也是可能的,根据折中情况,在输出68呈现两种上混合信号的混合。
图4示出了适于产生由图3的解码器解码的多音频对象信号的音频编码器的实施例。图4的编码器由参考标记80指示,该编码器可以包括用于在要编码的音频信号84不在频谱域中的情况下进行频谱分解的装置82。在音频信号84中,依次存在至少一个第一类型音频信号和至少一个第二类型音频信号。用于频谱分解的装置82被配置为,在频谱上将每个这些信号84分解为例如如图2所示的表示。也就是说,用于频谱分解的装置82以预定时间/音频分辨率对音频信号84进行频谱分解。装置82可以包括滤波器组,如混合QMF组。
音频编码器80还包括:用于计算声级信息的装置86、用于下混合的装置88、以及(可选的)用于计算预测系数的装置90和用于设置残差信号的装置92。此外,音频编码器80可以包括用于计算互相关信息的装置,即装置94。装置86根据由装置82可选地输出的音频信号,计算以第一预定时间/频率分辨率描述第一类型音频信号和第二类型音频信号的声级的声级信息。类似地,装置88对音频信号进行下混合。因此,装置88输出下混合信号56。装置86也输出声级信息60。用于计算预测系数的装置90的操作与装置52类似。即装置90根据声级信息60来计算预测系数,并将预测系数64输出至装置92。装置92接着基于下混合信号56、预测系数64、和第二预定时间/频率分辨率下的原始音频信号来设置残差信号62,使得基于预测系数64和残差信号62对下混合信号56进行的上混合产生与第一类型音频信号近似的第一上混合音频信号和与第二类型音频信号近似的第二上混合音频信号,所述近似与不使用所述残差信号62的情况相比有所改进。
辅助信息58包括残差信号62(如果存在)和声级信息60,辅助信息58与下混合信号56一起形成了图3解码器所要解码的多音频对象信号。
如图4所示,与图3的描述类似,装置90(如果存在)可以另外使用装置94输出的互相关信息和/或装置88输出的时变下混合规则来计算预测系数64。此外,用于设置残差信号62的装置92(如果存在)可以另外地使用装置88输出的时变下混合规则来适当地设置残差信号62。
还应注意,第一类型音频信号可以是单声道或立体声音频信号。对于第二类似的音频信号也是如此。残差信号62是可选的。然而如果存在残差信号62,则在辅助信息中,可以以与用于计算例如声级信息的参数时间/频率分辨率相同的时间/频率分辨率,或可以使用不同的时间/频率分辨率,来以信号通知残差信号62。此外,可以将残差信号的信号告知限于以信号告知了其声级信息的时间/频率片42所占的频谱范围的子部分。例如,可以在辅助信息58中,使用语法元素bsResidualBands和bsResidualFramesPerSAOCFrame来指示以信号告知残差信号所使用的时间/频率分辨率。这两个语法元素可以定义与形成片42的子划分不同的另一个将帧划分为时间/频率片的子划分。
顺带一提的是,注意,残差信号62可以也可以不反映由潜在使用的核心编码器96所导致的信息损失,音频编码器80可选地使用该核心编码器96来对下混合信号56进行编码。如图4所示,装置92可以基于可由核心编码器96的输出或由输入至核心编码器96’的版本进行重构的下混合信号版本来执行残差信号62的设置。类似地,音频解码器50可以包括核心解码器98,以对下混合信号56进行解码或解压缩。
在多音频对象信号中,将用于残差信号62的时间/频率分辨率设置为与用于计算声级信息60的时间/频率分辨率不同的时间/频率分辨率的能力使得能够实现音频质量和多音频对象信号的压缩比之间的良好折衷。无论如何,残差信号62使得能够更好地根据用户输入66抑制要在输出68输出的第一和第二上混合信号中一音频信号到另一音频信号的串扰。
根据以下实施例,显而易见,在对多于一个前景对象或第二类型音频信号进行编码的情况下,可以在辅助信息中传送两个以上的残差信号62。辅助信息可以允许单独决定是否针对特定的第二类型音频信号传送残差信号62。因此,残差信号62的数目可以从一变化,最多为第二类型音频信号的数目。
在图3的音频解码器中,用于计算的装置54可以被配置为,基于声级信息(OLD)来计算由预测系数组成的预测系数矩阵C,装置56可以被配置为,根据可由以下公式表示的计算,根据下混合信号d产生第一上混合信号S1和/或第二上混合信号S2:
其中,根据d的声道数目,“1”表示标量或单位矩阵,D-1是由下混合规则唯一确定的矩阵,第一类型音频信号和第二类型音频信号是根据该下混合规则被下混合为下混合信号的,辅助信息中也包括了该下混合规则,H是独立于d但依赖于残差信号的项(如果后者存在)。
如以上所述以及以下要进一步描述的那样,在辅助信息中,下混合规则可以随时间变化和/或可在频谱上变化。如果第一类型音频信号是具有第一(L)和第二输入声道(R)的立体声音频信号,则声级信息可以例如以时间/频率分辨率42分别描述了第一输入声道(L)、第二输入声道(R)、以及第二类型音频信号的归一化频谱能量。
上述计算(用于上混合的装置56根据该计算来进行上混合)甚至可表示为:
其中是与L近似的第一上混合信号的第一声道,是与R近似的第一上混合信号的第二声道,“1”在d为单声道的情况下是标量,在d为立体声的情况下是2×2单位矩阵。如果下混合信号56是具有第一(L0)和第二输出声道(R0)的立体声音频信号,用于上混合的装置56可以根据可由以下公式表示的计算来进行上混合:
就依赖于残差信号res的项H而言,用于上混合的装置56可以根据可由以下公式表示的计算来进行上混合:
多音频对象信号甚至可以包括多个第二类型音频信号,对每个第二类型音频信号,辅助信息可以包括一个残差信号。在辅助信息中可以存在残差分辨率参数,该参数定义了频谱范围,辅助信息中在该频谱范围上传送残差信号。它甚至可以定义频谱范围的下限和上限。
此外,多音频对象信号也可以包括空间呈现信息,用于在空间上将第一类型音频信号呈现至预定扬声器配置。换言之,第一类型音频信号可以是被下混合至立体声的多声道(多于两个声道)MPEG环绕信号。
以下,将描述的实施例利用了上述残差信号信号通知。然而,注意术语“对象”通常用于双重意义。有时,对象表示单独的单声道音频信号。因此,立体声对象可以具有形成立体声信号的一个声道的单声道音频信号。然而,在其他情况下,立体声对象实际上可以表示两个对象,即关于立体声对象的右声道的对象和关于左声道的另一个对象。根据上下文,其实际意义将是显而易见的。
在描述下一实施例之前,首先其动力是2007年被选为参考模型0(RM0)的SAOC标准的基准技术的不足。RM0允许以摇动位置和放大/衰减的形式单独操作多个声音对象。在“卡拉OK”类型的应用环境中表示了一种特殊场景。在这种情况下:
●单声道、立体声、或环绕背景情景(以下称为背景对象BGO)从特定SAOC对象集合传递而来,背景对象BGO可以无改变地进行再现,即通过具有未改变声级的相同的输出声道再现每个输入声道信号,以及
●有改变地再现感兴趣的特定对象(以下称为前景对象FGO)(通常是主唱)(典型地,FGO位于声阶的中部,可以将其消音,即严重衰减来允许跟唱)。
从主观评价过程可以看到,并且从其下的技术原理可以预期到,对象位置的操作产生高质量的结果,而对象声级的操作一般地更加具有挑战性。典型地,附加的信号放大/衰减越强,潜在的噪声越多。就此而言,由于需要对FGO进行极端(理想地:完全)衰减,因此,卡拉OK场景的要求极高。
对偶的使用情形是仅再现FGO而不再现背景/MBO的能力,以下称为独唱模式。
然而,应注意,如果包括了环绕背景情景,则被称为多声道背景对象(MBO)。图5中示出的如下对于MBO的处理:
●使用常规5-2-5MPEG环绕树(surround tree)102来对MBO进行编码。这导致产生立体声MBO下混合信号104和MBO MPS辅助信息流106。
●接着,下级SAOC编码器108将MBO下混合信号编码为立体声对象(即两对象声级差加声道间相关)以及所述(或多个)FGO 110。这导致产生公共的下混合信号112和SAOC辅助信息流114。
在变码器116中,对下混合信号112进行预处理,将SAOC和MPS辅助信息流106、114转换为单个MPS输出侧信息流118。目前,这是以不连续的方式发生的,即或者仅支持完全抑制FGO或仅支持完全抑制MBO。
最终,由MPEG环绕解码器122来呈现所产生的下混合信号120和MPS辅助信息118。
在图5中,将MBO下混合信号104和可控对象信号110组合为单个立体声下混合信号112。可控对象110对下混合信号的这种“污染”导致难以恢复去除了可控对象110的、具有足够高音频质量的卡拉OK版本。以下的建议旨在解决这一问题。
假定一个FGO(例如一个主唱),以下图6的实施例所使用的关键事实在于,SAOC下混合信号是BGO和FGO信号的组合,即对3个音频信号进行下混合并通过2个下混合声道来传送。理想地,这些信号应当在变码器中再次分离,以产生纯净的卡拉OK信号(即去除FGO信号),或产生纯净的独唱信号(即去除BGO信号)。根据图6的实施例,这是通过使用SAOC编码器108中的“2至3”(TTT)编码器元件124(正如在MPEG环绕规范中那样被称为TTT-1),在SAOC编码器中将BGO和FGO组合为单个SAOC下混合信号来实现的。这里FGO馈送了TTT-1盒124的“中央”信号输入,BGO 104馈送了“左/右”TTT-1输入L.R.。然后,变码器116通过使用TTT解码器元件126(正如在MPEG环绕中那样被称为TTT)来产生BGO 104的近似,即“左/右”TTT输出L、R承载BGO的近似,而“中央”TTT输出C承载FGO 110的近似。
当将图6的实施例与图3和4中的编码器和解码器的实施例进行比较时,参考标记104与音频信号84中的第一类型音频信号相对应,MPS编码器102包括装置82;参考标记110与音频信号84中的第二类型音频信号相对应,TTT-1盒124承担了装置88至92的功能职责,SAOC编码器108实现了装置86和94的功能;参考标记112与参考标记56相对应;参考标记114与辅助信息58减去残差信号62相对应;TTT盒126承担了装置52和54的功能职责,其中装置54也包括混合盒128的功能。最后,信号120与在输出68输出的信号相对应。此外,应注意,图6还示出了用于将下混合信号112从SAOC编码器108传送至SAOC变码器116的核心编码器/解码器路径131。该核心编码器/解码器路径131与可选的核心编码器96和核心解码器98相对应。如图6所示,该核心编码器/解码器路径131也可以对从编码器108传送至变码器116的辅助信息进行编码/压缩。
根据以下描述,引入图6的TTT盒所产生的优点将变得显而易见。例如,通过:
●简单地将“左/右”TTT输出L.R.馈入MPS下混合信号120(并将所传送的MBO MPS比特流106传递至流118),最终的MPS解码器仅再现MBO。这与卡拉OK模式相对应。
●简单地将“中央”TTT输出C.馈入左和右MPS下混合信号120(并产生微小的MPS比特流118,将FGO 110呈现在期望的位置并呈现为期望的声级),最终的MPS解码器122仅再现FGO 110。这与独唱模式相对应。
在SAOC变码器的“混合”盒128中执行对3个输出信号L.R.C.的处理。
与图5相比,图6的处理结构提供了多种特别的优点:
●该框架提供了背景(MBO)100和FGO信号110的纯净的结构分离。
●TTT元件126的结构尝试基于波形近可能好地重构3个信号L.R.C.。因此,最终的MPS输出信号130不仅由下混合信号的能量加权(和解相关)形成,也由于TTT处理而在波形上更为接近。
●与MPEG环绕TTT盒126一起产生的是使用残差编码来增强重构精度的可能性。按照这种方式,由于TTT-1124输出的、并由用于上混合的TTT盒所使用的残差信号132的残差带宽和残差比特率增大,因此可以实现重构质量的显著增强。理想地(即,在残差编码和下混合信号的编码中量化无限细化),可以消除背景(MBO)和FGO信号之间的干扰。
图6的处理结构具有多种特性:
●双重卡拉OK/独唱模式:图6的方法通过使用相同的技术装置,提供了卡拉OK和独唱的功能。也就是,重用(reuse)了例如SAOC参数。
●可改进性:通过控制TTT盒中使用的残差编码的信息量,可以根据需要来改进卡拉OK/独唱信号的质量。例如,可以使用参数bsResidualSamplingFrequencyIndex、bsResidualBands以及bsResidualFramesPerSAOCFrame。
●下混合中FGO的定位:当使用如MPEG环绕规范中指定的TTT盒时,总是将FGO混入左右下混合声道之间的中央位置。为了实现更灵活的定位,采用了一般化TTT编码盒,其遵照相同的原理,但是允许非对称地定位与“中央”输入/输出相关的信号。
●多FGO:在所述的配置中,描述了仅使用一个FGO(这可以与最主要的应用情况相对应)。然而,通过使用以下措施之一或其组合,所提出的概念也能够提供多个FGO:
○分组FGO:与图6所示的类似,与TTT盒的中央输入/输出连接的信号实际上可以是若干FGO信号之和而不仅是单个FGO信号。在多声道输出信号130中,可以对这些FGO进行独立的定位/控制(然而,当以相同的方式对其进行缩放/定位时,能够实现最大的质量优势)。它们在立体声下混合信号112中共享公共位置,并且只有一个残差信号132。不管怎样,都可以消除背景(MBO)与可控对象之间的干扰(尽管不是可控对象间的干扰)。
○级联FGO:通过扩展图6,可以克服关于下混合信号112中公共FGO位置的限制。通过对所述TTT结构进行多级级联(每个级与一个FGO相对应并产生残差编码流),可以提供多个FGO。按照这种方式,理想地,也可以消除每个FGO之间的干扰。当然,这种选项需要比使用分组FGO方法更高的比特率。稍后将对示例予以描述。
●SAOC辅助信息:在MPEG环绕中,与TTT盒相关的辅助信息是声道预测系数(CPC)对。相反,SAOC参数化和MBO/卡拉OK场景传送每个对象信号的对象能量,以及MBO下混合的两个声道之间的信号间相关(即“立体声对象”的参数化)。为了最小化相对于不带增强型卡拉OK/独唱模式的情况的参数化变化的数目,从而最小化比特流格式的改变,可以根据下混合信号(MBO下混合和FGO)的能量和MBO下混合立体声对象的信号间相关来计算CPC。因此,不需要改变或增加所传送的参数化,并且可以从所传送的SAOC变码器116中的SAOC参数化来计算CPC。按照这种方式,当忽略残差数据时,也可以使用常规模式的解码器(不带残差编码)来对使用增强型卡拉OK/独唱模式的比特流进行解码。概括而言,图6的实施例旨在对特定的选定对象(或不带这些对象的情景)进行增强型再现,并以以下方式,使用立体声下混合扩展当前的SAOC编码方法:
●在正常模式下,对每个对象信号,使用其在下混合矩阵中的条目来对其进行加权(分别针对其对左右下混合声道的贡献)。然后,对所有对左右下混合声道的加权贡献进行求和,来形成左和右下混合声道。
●对于增强型卡拉OK/独唱性能,即在增强模式下,将所有对象贡献分为形成前景对象(FGO)的对象贡献集合和剩余对象贡献(BGO)。对FGO贡献求和形成单声道下混合信号,对剩余背景贡献求和形成立体声下混合,使用一般化TTT编码器元件对两者进行求和以形成公共的SAOC立体声下混合。
因此,使用“TTT求和”(当需要时可以级联)代替了常规的求和。
为了强调SAOC编码器的正常模式和增强模式之间的刚刚提及的差别,参见图7a和7b,其中图7a关于正常模式,而图7b关于增强模式。可以看到,在正常模式下,SAOC编码器108使用前述DMX参数Dij来加权对象j,并将加权后的对象j添加至SAOC声道i(即L0或R0)。在图6的增强模式的情况下,仅需要DMX参数向量Di,即DMX参数Di指示了如何形成FGO 110的加权和,从而获得TTT-1盒124的中央声道C,并且DMX参数Di指示TTT-1盒如何将中央信号C分别分配给左MBO声道和右MBO声道,从而分别获得LDMX或RDMX。
问题在于,对于非波形保持编解码器(HE-AAC/SBR),根据图6的处理不能很好地工作。该问题的解决方案可以是一种针对HE-AAC和高频的基于能量的一般化TTT模式。稍后,将描述解决该问题的实施例。
用于具有级联TTT的可能的比特流格式如下:
以下是需要能够在被认为是“常规解码模式”的情况下,被跳过的向SAOC比特流执行的添加:
numTTTs int
for(ttt=0;ttt<numTTTs;ttt++)
{no_TTT_obj[ttt] int
TTT_bandwidth[ttt];
TTT_residual_stream[ttt]
}
对于复杂度和存储器要求,可以作出以下说明。从之前的说明可以看到,通过在编码器和解码器/变码器中分别添加概念元件级(即一般化的TTT-1和TTT编码器元件)来实现图6的增强型卡拉OK/独唱模式。两个元件在复杂度方面与常规的“居中”TTT对应物相同(系数值的改变不影响复杂度)。对于所设想的主要应用(一个FGO作为主唱),单个TTT就足够了。
通过观察整个MPEG环绕解码器的结构(对于相关立体声下混合的情况(5-2-5配置),由一个TTT元件和2个OTT元件组成),可以理解该附加结构与MPEG环绕系统的复杂度的关系。这已表明,所添加的功能在计算复杂度和存储器消耗方面带来了适度的代价(注意,使用残差编码的概念元件在平均意义上不比作为替代的包括解相关器在内的对应物更为复杂)。
图6对MPEG SAOC参考模型的扩展为特殊的独唱或消音/卡拉OK类型的应用提供了音频质量的改进。再次应注意的是,与图5、6和7相对应的描述所指的MBO是背景情景或BGO,一般地,MBO不局限于这种类型的对象,而也可以是单声道或立体声对象。
主观评价过程解释了在卡拉OK或独唱应用的输出信号的音频质量方面的改进。评价条件是:
●RM0
●增强模式(res 0)(=不使用残差编码)
●增强模式(res 6)(=在最低的6个混合QMF频带使用残差编码)
●增强模式(res 12)(=在最低的12个混合QMF频带使用残差编码)
●增强模式(res 24)(=在最低的24个混合QMF频带使用残差编码)
●隐藏参考
●较低的参考(3.5kHz频带受限版本的参考)
如果使用时不采用残差编码,则所提出的增强模式的比特率类似于RM0。所有其他增强模式对每6个残差编码频带需要约10kbit/s。
图8a示出了对10个收听主体进行的消音/卡拉OK测试结果。所提出的方案的平均MUSHRA分数总是高于RM0,并随每级附加残差编码逐级增加。对于具有6个或更多频带残差编码的模式,可以清晰地观察到相对RM0的性能在统计上的明显改进。
图8b中对9个主体的独唱测试的结果示出了所提出的方案的类似优点。当添加越来越多的残差编码时,平均MUSHRA分数明显增加。不使用和使用24个频带的残差编码的增强模式之间的增益几乎为MUSHRA的50分。
总体上,对于卡拉OK应用,可以比RM0高约10kbit/s的比特率实现良好的质量。当在RM0的最高比特率之上添加约40kbit/s时,可以实现优秀的质量。在给定最大固定比特率的实际应用场景中,所提出的增强模式很好地支持用“无用比特率”来进行残差编码,直到达到允许的最大比特率。因此,实现了尽可能好的总体音频质量。由于更智能地使用残差比特率的缘故,对所提出的实验结果的进一步改进是可能的:虽然所介绍的设置从直流到特定上界频率始终使用残差编码,但是,增强型实现可以仅将比特用在与用于分离FGO和背景对象相关的频率范围上。
在之前的描述中,已经描述了针对卡拉OK型应用的SAOC技术的增强。以下将介绍用于MPEG SAOC的多声道FGO音频情景处理的增强型卡拉OK/独唱模式的应用的另外的详细实施例。
与有所改变(alteration)地进行再现的FGO相反,必须无改变地再现MBO信号,即通过相同的输出声道,以未改变的声级再现每个输入声道信号。
由此,已提出了由MPEG环绕编码器执行的对MBO信号的预处理,该预处理产生立体声下混合信号,用作要输入至随后的卡拉OK/独唱模式处理级的(立体声)背景对象(BGO),所述处理级包括:SAOC编码器、MBO变码器、和MPS解码器。图9再次示出了总体结构图。
可以看到,根据卡拉OK/独唱模式编码器结构,输入对象被分为立体声背景对象(BGO)104和前景对象(FGO)110。
尽管在RM0中,由SAOC编码器/变码器系统来执行对这些应用场景的处理,但是,图6的增强还利用了MPEG环绕结构的基本构成模块。当需要对特定音频对象进行较强的增大/衰减时,在编码器中集成3至2(TTT-1)模块并在变码器中集成对应的2至3(TTT)互补模块改进了性能。扩展结构的两个主要特性是:
-由于利用了残差信号,实现了更好的(与RM0相比)信号分离,
-通过一般化被表示为TTT-1盒中央输入(即FGO)的信号的混合规则,对该信号进行灵活定位。
由于TTT构成模块的直接实现涉及编码器侧的3个输入信号,因此,图6集中关注对作为如图10所示的(下混合)单声道信号的FGO的处理。也已经说明了对多声道FGO信号的处理,但是,在以下章节中将对其进行更详细地解释。
从图10可以看到,在图6的增强模式中,将所有FGO的组合馈入TTT-1盒的中央声道。
在如图6和图10的FGO单声道下混合的情况下,编码器侧的TTT-1盒的配置包括:被馈送至中央输入的FGO、和提供左右输入的BGO。
以下公式给出了基本的对称矩阵:
该公式提供了下混合(L0 R0)T和信号F0:
通过该线性系统获得的第三信号被丢弃,但可以在集成了两个预测系数c1和c2(CPC)的变码器侧,根据以下公式来对其进行重构:
在变码器中的逆过程由以下公式给出:
参数m1和m2对应于:
m1=cos(μ)以及m2=sin(μ)
μ负责摇动FGO在公共TTT下混合(L0 R0)T中的位置。可以使用所传送的SAOC参数(即所有输入音频对象的对象音级差(OLD)和BGO下混合(MBO)信号的对象间相关(IOC))来估计变码器侧的TTT上混合单元所需的预测系数c1和c2。假定FGO和BGO信号统计独立,对CPC估计,以下关系成立:
变量PLo、PRo、PLoRo、PLoFo和PRoFo可以按如下方式进行估计,其中参数OLDL、OLDR和IOCLR与BGO相对应,OLDF是FGO参数:
PLoRo=IOCLR+m1m2OLDF
PLoFo=m1(OLDL-OLDF)+m2IOCLR
PRoFo=m2(OLDR-OLDF)+m1IOCLR
此外,可以在比特流内传送的残差信号132表示了CPC的推导所引入的误差,因此:
在某些应用场景中,对所有FGO中的单个单声道下混合进行限制是不合适的,因此需要克服该问题。例如,可以将FGO划分为在所传送的立体声下混合中位于不同位置和/或具有独立衰减的两个以上独立的组。因此,图11所示的级联结构暗示了两个以上连续的TTT-1元件,在编码器侧产生了所有FGO组F1、F2的逐步的下混合,直至获得所需的立体声下混合112为止。每个(或至少一些)TTT-1盒124a、b(图11中每个TTT-1盒)设置与TTT-1盒124a、b的各级分别对应的残差信号132a、132b。相反,变码器通过使用各顺序应用的TTT盒126a、b(如有可能,集成对应的CPC和残差信号)来执行顺序上混合。FGO处理的顺序是由编码器指定的,在变码器侧必须考虑。
以下描述图11所示的两级级联所涉及的详细的数学原理。
为了简化说明又不失一般性,以下的解释基于如图11所示的由两个TTT元件组成的级联。两个对称矩阵与FGO单声道下混合类似,但是必须恰当地应用于各自的信号:
这里,两个CPC集合产生了以下信号重构:
逆过程可表示为:
两级级联的一种特殊情况包括一立体声FGO,其左和右声道被适当地求和为BGO的对应声道,使μ1=0,
对于这种特别的摇动风格,通过忽略对象间相关(OLDLR=0),两个CPC集合的估计可简化为:
cR1=0,
其中,OLDFL和OLDFR分别表示左右FGO信号的OLD。
一般的N级级联情况是指依照以下公式的多声道FGO下混合:
其中,每一级确定其自身的CPC和残差信号的特征。
在变码器侧,逆级联步骤由以下公式给出:
为了消除保持TTT元件的顺序的必要性,通过将N个矩阵重新排列为单一对称TTN矩阵的方式,可以将级联结构容易地转换为等效的平行结构,从而产生一般的TTN矩阵:
其中,矩阵的前两行表示要发送的立体声下混合。另一方面,术语TTN(2至N)指变码器侧的上混合处理。
使用这种描述,进行了特定摇动的立体声FGO的特殊情况将矩阵简化为:
相应地,该单元可以被称为2至4元件或TTF。
也可以产生重用SAOC立体声预处理模块的TTF结构。
对于N=4的限制,对现有SAOC系统的某些部分进行重用的2至4(TTF)结构的实现成为可能。以下段落中将描述该处理。
SAOC标准文本描述了针对“立体声至立体声代码转换模式”的立体声下混合预处理。准确地说,根据以下公式,由输入立体声信号X以及解相关信号Xd来计算输出立体声信号Y:
Y=GModX+P2Xd
解相关分量Xd是原始呈现信号中已在编码过程中被丢弃掉的部分的合成表示。根据图12,使用合适的针对特定频率范围的由编码器产生的残差信号132来替换该解相关信号。
命名按如下方式定义:
●D是2×N下混合矩阵
●A是2×N呈现矩阵
●E是输入对象S的N×N协方差模型
●GMod(与图12中的G相对应)是预测2×2上混合矩阵
注意,GMod是D、A和E的函数。
为了计算残差信号XRes,必须在编码器中模仿解码器处理,即确定GMod。一般地,场景A是未知的,但是,在卡拉OK场景的特殊情况下(例如具有一个立体声背景和一个立体声前景对象,N=4),假定:
这意味着仅呈现BGO。
为了估计前景对象,从下混合信号X中减去重构的背景对象。在“混合”处理模块中执行该最终呈现。以下将介绍具体的细节。
呈现矩阵A被设置为:
其中,假定头2列表示FGO的两个声道,后2列表示BGO的两个声道。
根据以下公式来计算BGO和FGO的立体声输出。
YBGO=GModX+XRes
由于下混合权值矩阵D被定义为:
D=(DFGO|DBGO)
其中
以及
因此,FGO对象可以被设置为:
作为示例,对于下混合矩阵
将其简化为:
YFGO=X-YBGO
XRes是按上述方式得到的残差信号。请注意,未添加解相关信号。
最终输出Y由下式给出:
上述实施例也可以适用于使用单声道FGO来替代立体声FGO的情况。在这种情况下,根据以下内容来改变处理。
呈现矩阵A被设置为:
其中,假定第一列表示单声道FGO,随后的列表表示BGO的两个声道。
根据以下公式来计算BGO和FGO的立体声输出。
YFGO=GModX+XRes
由于下混合权值矩阵D被定义为:
D=(DFGO|DBGO)
其中
以及
因此,BGO对象可以被设置为:
作为示例,对于下混合矩阵
将其简化为:
XRes是按上述方式获得的残差信号。请注意,未添加解相关信号。最终输出Y由以下公式给出:
对于5个以上FGO对象的处理,可以通过重组刚刚描述的处理步骤的并行级来扩展上述实施例。
以上刚刚描述的实施例提供了针对多声道FGO音频情景的情况的增强型卡拉OK/独唱模式的详细描述。这样的一般化旨在扩大卡拉OK应用场景的种类,对于卡拉OK应用场景,可以通过应用增强型卡拉OK/独唱模式来进一步改进MPEG SAOC参考模型的声音质量。这种改进是通过将一般NTT结构引入SAOC编码器的下混合部分,并将相应的对应物引入SAOCtoMPS变码器来实现的。残差信号的使用提高了质量结果。
图13a至13h示出了根据本发明的实施例的SAOC侧信息比特流的可能语法。
在描述了与SAOC编解码器的增强模式相关的一些实施例之后,应注意,这些实施例中的一些涉及输入至SAOC编码器的音频输入不仅包含常规单声道或立体声声源,而且包含多声道对象的应用场景。图5至7b显式地描述了这一点。这样的多声道背景对象MBO可以被看作包括较大且通常数目未知的声源的复杂声音情景,对于该情景不需要可控呈现功能。个别地,SAOC编码器/解码器架构不能有效处理这些音频源。因此,可以考虑扩展SAOC架构的概念,以处理这些复杂输入信号(即MBO声道)以及典型的SAOC音频对象。因此,在刚刚提及的图5至7b的实施例中,考虑将MPEG环绕编码器包含于SAOC编码器,如将SAOC编码器108和MPS编码器100圈住的虚线所示。所产生的下混合104用作输入SAOC编码器108的立体声输入对象,以可控SAOC对象110一起产生要发送至变码器侧的组合立体声下混合112。在参数域中,将MPS比特流106和SAOC比特流104馈入SAOC变码器116,SAOC变码器116根据特定的MBO应用场景,为MPEG环绕解码器122提供合适的MPS比特流118。使用呈现信息或呈现矩阵并采用一些下混合预处理来执行该任务,采用下混合预处理是为了将下混合信号112变换为用于MPS解码器122的下混合信号120。
以下描述用于增强型卡拉OK/独唱模式的另一个实施例。该实施例允许对多个音频对象,在其声级放大/衰减方面执行独立操作,而不会明显降低结果声音质量。一种特殊的“卡拉OK类型”应用场景需要完全抑制指定对象(通常是主唱,以下称为前景对象FGO),同时保持背景声音情景的感知质量不受损害。它同时需要单独再现特定FGO信号而不再现静态背景音频情景(以下称为背景对象BGO)的能力,该背景对象不需要摇动方面的用户可控性。这种场景被称为“独唱”模式。一种典型的应用情况包含立体声BGO和多达4个FGO信号,例如,这4个FGO信号可以表示两个独立的立体声对象。
根据本实施例和图14,增强型卡拉OK/独唱模式变码器150使用“2至N”(TTN)或“1至N”(OTN)元件152,TTN和OTN元件152均表示从MPEG环绕规范获知的TTT盒的一般化和增强型修改。合适元件的选择取决于所传送的下混合声道的数目,即TTN盒专门用于立体声下混合信号,而OTN盒适用单声道下混合信号。在SAOC编码器中,对应的TTN-1或OTN-1盒将BGO和FGO信号组合为公共的SAOC立体声或单声道下混合112,并产生比特流114。任一元件,即TTN或OTN 152支持下混合信号112中所有独立FGO的任意预定义定位。在变码器侧,TTN或OTN盒152仅使用SAOC辅助信息114,并可选地结合残差信号,根据下混合112恢复BGO 154或FGO信号156的任何组合(取决于从外部应用的工作模式158)。使用所恢复的音频对象154/156和呈现信息160来产生MPEG环绕比特流162和对应的经预处理的下混合信号164。混合单元166对下混合信号112执行处理,以获得MPS输入下混合164,MPS变码器168负责将SAOC参数114转换为SAOC参数162。TTN/OTN盒152和混合单元166一起执行与图3的装置52和54相对应的增强型卡拉OK/独唱模式处理170,其中,装置54包括混合单元的功能。
可以与上述相同的方式来对待MBO,即使用MPEG环绕编码器对其进行预处理,产生单声道或立体声下混合信号,用作要输入至随后的增强型SAOC编码器的BGO。在这种情况下,变码器必须与SAOC比特流相邻的附加MPEG环绕比特流一起提供。
接下来解释由TTN(OTN)元件执行的计算。以第一预定时间/频率分辨率42表达的TTN/OTN矩阵M是两个矩阵的积:
M=D-1C
其中,D-1包括下混合信息,C含有每个FGO声道的声道预测系数(CPC)。C由装置52和盒152分别计算,装置54和盒152分别计算D-1,并将其与C一起应用于SAOC下混合。根据以下公式来执行该计算:
对于TTN元件,即立体声下混合:
对于OTN元件,及单声道下混合:
从所传送的SAOC参数(即OLD、IOC、DMG和DCLD)导出CPC。对于一个特定FGO声道j,可以使用以下公式来估计CPC:
参数OLDL、OLDR和IOCLR与BGO相对应,其余是FGO值。
系数mj和nj表示针对右和左下混合声道的每个FGO j的下混合值,并由下混合增益DMG和下混合声道声级差DCLD导出:
对于OTN元件,第二CPC值cj2的计算是多余的。
为了重构两个对象组BGO和FGO,下混合矩阵D的求逆利用了下混合信息,所述下混合矩阵D被扩展为进一步规定信号F01至F0N的线性组合,即:
以下,阐述编码器侧的下混合:
在TTN-1元件中,扩展下混合矩阵为:
对于OTN-1元件,有:
对立体声BGO:
对单声道BGO:
TTN/OTN元件的输出对立体声BGO和立体声下混合产生:
在BGO和/或下混合为单声道信号的情况下,线性方程组相应地发生改变。
残差信号resi(如果存在)与FGO对象i相对应,如果没有被SAOC流传送(例如由于其位于残差频率范围之外,或以信号告知完全没有对FGO对象i传送残差信号),则resi被推定为零。是与FGO对象i近似的重构/上混合信号。在计算之后,可以将通过合成滤波器组,以获得FGO对象i的时域(如PCM编码)版本。应回顾到,L0和R0表示SAOC下混合信号的声道,并能够以比基本索引(n,k)的参数分辨率更高的时间/频率分辨率加以使用/进行信号告知。和是与BGO对象的左和右声道近似的重构/上混合信号。它可以与MPS辅助比特流一起呈现在原始数目的声道上。
根据一实施例,在能量模式下使用以下TTN矩阵。
基于能量的编码/解码过程被设计用于对下混合信号进行非波形保持编码。因此,针对对应能量模型的TTN上混合矩阵不依赖于具体波形,而是仅描述了输入音频对象的相对能量分布。根据以下公式,从对应OLD获得该矩阵MEnergy的元素:
对立体声BGO:
以及对于单声道BGO:
使得TTN元件的输出分别产生:
相应地,对于单声道下混合,基于能量的上混合矩阵MEnergy变为:
对立体声BGO:
以及对于单声道BGO:
使得OTN元件的输出分别产生:
因此,根据刚刚提及的实施例,在编码器侧将所有对象(Obj1...ObjN)分别分类为BGO和FGO。BGO可以是单声道(L)或立体声对象。BGO下混合为下混合信号是固定的。对于FGO,其数目在理论上是不受限的。然而,对于多数应用,总计4个FGO对象似乎就足够了。单声道和立体声对象的任何组合都是可行的。通过参数mi(对左/单声道下混合信号进行加权)和ni(对右下混合信号进行加权),FGO下混合在时间上和频率上均可变。由此,下混合信号可以是单声道(L0)或立体声
依旧不向解码器/变码器发送信号(F01...F0N)T。反之,在解码器侧通过上述CPC来预测该信号。
由此,再次注意,解码器设置甚至可以丢弃残差信号res,或者res甚至可以不存在,即其是可选的。在缺少残差信号的情况下,解码器(例如装置52)根据以下公式,仅基于CPC来预测虚拟信号:
立体声下混合:
单声道下混合:
然后,例如由装置54通过编码器的4种可能线性组合之一的逆运算来获得BGO和/或FGO,
例如,
其中D-1依然是参数DMG和DCLD的函数。
因此,总而言之,残差忽略TTN(OTN)盒152计算两个刚刚提及的计算步骤,
例如:
注意,当D为二次型时,可以直接获得D的逆。在非二次型矩阵D的情况下,D的逆应为伪逆,即pinv(D)=D*(DD*)-1或pinv(D)=(D*D)-1D*。在任一种情况下,D的逆存在。
最后,图15示出了如何在辅助信息中设置用于传送残差数据的数据量的另一可能。根据该语法,辅助信息包括bsResidualSamplingFrequencyIndex,即表格的索引,所述表格将例如频率分辨率与该索引相关联。可选地,可以推定该分辨率为预定分辨率,如滤波器组的分辨率或参数分辨率。此外,辅助信息包括bsResidualFramesPerSAOCFrame,后者定义了传送残差信息所使用的时间分辨率。辅助信息还包括BsNumGroupsFGO,表示FGO的数目。对于每个FGO,传送了语法元素bsResidualPresent,后者表示对于相应的FGO,是否传送了残差信号。如果存在,bsResidualBands表示传送残差值的频谱带的数目。
根据实际实现方式的不同,可以以硬件或软件来实现本发明的编码/解码方法。因此,本发明也涉及计算机程序,所述计算机程序可以存储在诸如CD、盘或任何其他数据载体等计算机可读介质上。因此,本发明还是一种具有程序代码的计算机程序,当在计算机上执行所述程序代码时,执行结合上述附图描述的本发明的编码方法或本发明的解码方法。
Claims (11)
1.一种音频解码器,用于对多音频对象信号进行解码,所述多音频对象信号中编码有第一类型音频信号和第二类型音频信号,所述多音频对象信号由下混合信号(56、112)和辅助信息(58)组成,所述辅助信息(58)包括第一预定时间/频率分辨率(42)下第一类型音频信号和第二类型音频信号的声级信息(60),所述音频解码器包括:
用于基于所述声级信息(OLD)来计算预测系数的装置(52);以及
用于基于所述预测系数(64)来对所述下混合信号(56、112)进行上混合,以获得与第一类型音频信号近似的第一上混合音频信号(68)和/或与第二类型音频信号近似的第二上混合音频信号(68)的装置(54),其中,用于计算预测系数(64)的装置被配置为,针对第一预定时间/频率分辨率的每个时间/频率片(l,m)(32),以及所述下混合信号的每个输出声道i,按以下公式计算声道预测系数
其中
其中,在第一类型音频信号是立体声信号的情况下,OLDL表示各时间/频率片中第一类型音频信号的第一输入声道的归一化频谱能量,OLDR表示各时间/频率片中第一类型音频信号的第二输入声道的归一化频谱能量,IOCLR表示互相关信息,所述互相关信息定义了各时间/频率片内的第一和第二输入声道之间的频谱能量相似性,或者,在第一类型音频信号是单声道信号的情况下,OLDL表示各时间/频率片内的第一类型音频信号的归一化频谱能量,OLDR和IOCLR为0,
其中,OLDF表示各时间/频率片中第二类型音频信号的归一化频谱能量,
其中
其中DCLDF和DMGF是下混合规则,
其中,用于上混合的装置(54)被配置为,通过
2.如权利要求1所述的音频解码器,其中,所述下混合规则在所述辅助信息中随时间而变化。
3.如权利要求1或2所述的音频解码器,其中,所述第一类型音频信号是具有第一和第二输入声道的立体声音频信号,或仅具有第一输入声道的单声道音频信号,其中,所述声级信息以所述第一预定时间/频率分辨率分别描述所述第一输入声道、所述第二输入声道与第二类型音频信号之间的声级差,其中,所述辅助信息还包括互相关信息,所述互相关信息以第三预定时间/频率分辨率定义了第一和第二输入声道之间的声级相似性,其中,用于计算的装置被配置为,还基于所述互相关信息来执行计算。
4.如权利要求3所述的音频解码器,其中,所述第一和第三时间/频率分辨率是由所述辅助信息中共同的语法元素决定的。
5.如权利要求1或2所述的音频解码器,其中,所述辅助信息还包括:以第二预定时间/频率分辨率指定残差声级值的残差信号,所述第二预定时间/频率分辨率通过所述辅助信息中包含的残差分辨率参数,与所述第一预定时间/频率分辨率相关,其中,所述音频解码器包括:用于从所述辅助信息中导出所述残差分辨率参数的装置。
6.如权利要求5所述的音频解码器,其中,所述残差分辨率参数定义了频谱范围,所述辅助信息中,所述残差信号在所述频谱范围上传送。
7.如权利要求6所述的音频解码器,其中,所述残差分辨率参数定义了所述频谱范围的上限和下限。
9.如权利要求1或2所述的音频解码器,其中,所述多音频对象信号包括空间呈现信息,用于在空间上将第一类型音频信号呈现至预定的扬声器配置。
10.如权利要求1或2所述的音频解码器,其中,用于上混合的装置被配置为,在空间上将与所述第二上混合音频信号分离的所述第一上混合音频信号呈现至预定扬声器配置,在空间上将与所述第一上混合音频信号分离的所述第二上混合音频信号呈现至预定扬声器配置,或将所述第一上混合音频信号和所述第二上混合音频信号进行混合,并在空间上将其混合后的版本呈现至预定扬声器配置。
11.一种用于对多音频对象信号进行解码的方法,所述多音频对象信号中编码有第一类型音频信号和第二类型音频信号,所述多音频对象信号由下混合信号(56、112)和辅助信息(58)组成,所述辅助信息(58)包括第一预定时间/频率分辨率(42)下第一类型音频信号和第二类型音频信号的声级信息(60),所述方法包括:
基于所述声级信息(OLD)来计算预测系数(64);以及
基于所述预测系数(64)来对所述下混合信号(56、112)进行上混合,以获得与第一类型音频信号近似的第一上混合音频信号(68)和/或与第二类型音频信号近似的第二上混合音频信号(68),
其中
其中,在第一类型音频信号是立体声信号的情况下,OLDL表示各时间/频率片中第一类型音频信号的第一输入声道的归一化频谱能量,OLDR表示各时间/频率片中第一类型音频信号的第二输入声道的归一化频谱能量,IOCLR表示互相关信息,所述互相关信息定义了各时间/频率片内的第一和第二输入声道之间的频谱能量相似性,或者,在第一类型音频信号是单声道信号的情况下,OLDL表示各时间/频率片内的第一类型音频信号的归一化频谱能量,OLDR和IOCLR为0,
其中,OLDF表示各时间/频率片中第二类型音频信号的归一化频谱能量,
其中
其中DCLDF和DMGF是下混合规则,
其中,上混合被执行为,通过
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US98057107P | 2007-10-17 | 2007-10-17 | |
US60/980,571 | 2007-10-17 | ||
US99133507P | 2007-11-30 | 2007-11-30 | |
US60/991,335 | 2007-11-30 | ||
PCT/EP2008/008800 WO2009049896A1 (en) | 2007-10-17 | 2008-10-17 | Audio coding using upmix |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101821799A CN101821799A (zh) | 2010-09-01 |
CN101821799B true CN101821799B (zh) | 2012-11-07 |
Family
ID=40149576
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008801113955A Active CN101821799B (zh) | 2007-10-17 | 2008-10-17 | 使用上混合的音频编码 |
CN200880111872.8A Active CN101849257B (zh) | 2007-10-17 | 2008-10-17 | 使用下混合的音频编码 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200880111872.8A Active CN101849257B (zh) | 2007-10-17 | 2008-10-17 | 使用下混合的音频编码 |
Country Status (12)
Country | Link |
---|---|
US (4) | US8155971B2 (zh) |
EP (2) | EP2082396A1 (zh) |
JP (2) | JP5260665B2 (zh) |
KR (4) | KR101244515B1 (zh) |
CN (2) | CN101821799B (zh) |
AU (2) | AU2008314029B2 (zh) |
BR (2) | BRPI0816557B1 (zh) |
CA (2) | CA2702986C (zh) |
MX (2) | MX2010004220A (zh) |
RU (2) | RU2452043C2 (zh) |
TW (2) | TWI395204B (zh) |
WO (2) | WO2009049895A1 (zh) |
Families Citing this family (111)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE0400998D0 (sv) | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
KR20080093419A (ko) * | 2006-02-07 | 2008-10-21 | 엘지전자 주식회사 | 부호화/복호화 장치 및 방법 |
US8571875B2 (en) | 2006-10-18 | 2013-10-29 | Samsung Electronics Co., Ltd. | Method, medium, and apparatus encoding and/or decoding multichannel audio signals |
US20090210239A1 (en) * | 2006-11-24 | 2009-08-20 | Lg Electronics Inc. | Method for Encoding and Decoding Object-Based Audio Signal and Apparatus Thereof |
EP2111617B1 (en) * | 2007-02-14 | 2013-09-04 | LG Electronics Inc. | Audio decoding method and corresponding apparatus |
CN101636917B (zh) | 2007-03-16 | 2013-07-24 | Lg电子株式会社 | 用于处理音频信号的方法和装置 |
CN101689368B (zh) * | 2007-03-30 | 2012-08-22 | 韩国电子通信研究院 | 对具有多声道的多对象音频信号进行编码和解码的设备和方法 |
CA2702986C (en) * | 2007-10-17 | 2016-08-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio coding using downmix |
CN102682773B (zh) * | 2007-10-22 | 2014-11-26 | 韩国电子通信研究院 | 多对象音频解码设备 |
KR101461685B1 (ko) * | 2008-03-31 | 2014-11-19 | 한국전자통신연구원 | 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치 |
KR101614160B1 (ko) | 2008-07-16 | 2016-04-20 | 한국전자통신연구원 | 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치 |
JP5608660B2 (ja) * | 2008-10-10 | 2014-10-15 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | エネルギ保存型マルチチャネルオーディオ符号化 |
MX2011011399A (es) * | 2008-10-17 | 2012-06-27 | Univ Friedrich Alexander Er | Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto. |
US8670575B2 (en) | 2008-12-05 | 2014-03-11 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
EP2209328B1 (en) | 2009-01-20 | 2013-10-23 | Lg Electronics Inc. | An apparatus for processing an audio signal and method thereof |
US8255821B2 (en) * | 2009-01-28 | 2012-08-28 | Lg Electronics Inc. | Method and an apparatus for decoding an audio signal |
JP5163545B2 (ja) * | 2009-03-05 | 2013-03-13 | 富士通株式会社 | オーディオ復号装置及びオーディオ復号方法 |
KR101387902B1 (ko) | 2009-06-10 | 2014-04-22 | 한국전자통신연구원 | 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더 |
CN101930738B (zh) * | 2009-06-18 | 2012-05-23 | 晨星软件研发(深圳)有限公司 | 多声道音频信号译码方法与装置 |
KR101283783B1 (ko) * | 2009-06-23 | 2013-07-08 | 한국전자통신연구원 | 고품질 다채널 오디오 부호화 및 복호화 장치 |
US20100324915A1 (en) * | 2009-06-23 | 2010-12-23 | Electronic And Telecommunications Research Institute | Encoding and decoding apparatuses for high quality multi-channel audio codec |
KR101388901B1 (ko) | 2009-06-24 | 2014-04-24 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 신호 디코더, 오디오 신호를 디코딩하는 방법 및 캐스케이드된 오디오 객체 처리 단계들을 이용한 컴퓨터 프로그램 |
KR20110018107A (ko) * | 2009-08-17 | 2011-02-23 | 삼성전자주식회사 | 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치 |
JP5576488B2 (ja) | 2009-09-29 | 2014-08-20 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | オーディオ信号デコーダ、オーディオ信号エンコーダ、アップミックス信号表現の生成方法、ダウンミックス信号表現の生成方法、及びコンピュータプログラム |
KR101710113B1 (ko) * | 2009-10-23 | 2017-02-27 | 삼성전자주식회사 | 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법 |
KR20110049068A (ko) * | 2009-11-04 | 2011-05-12 | 삼성전자주식회사 | 멀티 채널 오디오 신호의 부호화/복호화 장치 및 방법 |
CA2781310C (en) * | 2009-11-20 | 2015-12-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter |
CN102667920B (zh) * | 2009-12-16 | 2014-03-12 | 杜比国际公司 | Sbr比特流参数缩混 |
WO2011083981A2 (en) * | 2010-01-06 | 2011-07-14 | Lg Electronics Inc. | An apparatus for processing an audio signal and method thereof |
EP2372703A1 (en) * | 2010-03-11 | 2011-10-05 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Signal processor, window provider, encoded media signal, method for processing a signal and method for providing a window |
RU2683175C2 (ru) * | 2010-04-09 | 2019-03-26 | Долби Интернешнл Аб | Стереофоническое кодирование на основе mdct с комплексным предсказанием |
US8948403B2 (en) * | 2010-08-06 | 2015-02-03 | Samsung Electronics Co., Ltd. | Method of processing signal, encoding apparatus thereof, decoding apparatus thereof, and signal processing system |
KR101756838B1 (ko) * | 2010-10-13 | 2017-07-11 | 삼성전자주식회사 | 다채널 오디오 신호를 다운 믹스하는 방법 및 장치 |
US20120095729A1 (en) * | 2010-10-14 | 2012-04-19 | Electronics And Telecommunications Research Institute | Known information compression apparatus and method for separating sound source |
EP3319087B1 (en) * | 2011-03-10 | 2019-08-21 | Telefonaktiebolaget LM Ericsson (publ) | Filling of non-coded sub-vectors in transform coded audio signals |
TWI573131B (zh) * | 2011-03-16 | 2017-03-01 | Dts股份有限公司 | 用以編碼或解碼音訊聲軌之方法、音訊編碼處理器及音訊解碼處理器 |
EP2707874A4 (en) * | 2011-05-13 | 2014-12-03 | Samsung Electronics Co Ltd | BIT ASSIGNMENT AND AUDIO CODING AND DECODING |
EP2523472A1 (en) | 2011-05-13 | 2012-11-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method and computer program for generating a stereo output signal for providing additional output channels |
US9311923B2 (en) * | 2011-05-19 | 2016-04-12 | Dolby Laboratories Licensing Corporation | Adaptive audio processing based on forensic detection of media processing history |
JP5715514B2 (ja) * | 2011-07-04 | 2015-05-07 | 日本放送協会 | オーディオ信号ミキシング装置およびそのプログラム、ならびに、オーディオ信号復元装置およびそのプログラム |
EP2560161A1 (en) * | 2011-08-17 | 2013-02-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Optimal mixing matrices and usage of decorrelators in spatial audio processing |
CN103050124B (zh) | 2011-10-13 | 2016-03-30 | 华为终端有限公司 | 混音方法、装置及系统 |
IN2014CN03413A (zh) | 2011-11-01 | 2015-07-03 | Koninkl Philips Nv | |
SG194706A1 (en) * | 2012-01-20 | 2013-12-30 | Fraunhofer Ges Forschung | Apparatus and method for audio encoding and decoding employing sinusoidalsubstitution |
EP2741286A4 (en) * | 2012-07-02 | 2015-04-08 | Sony Corp | DECODING DEVICE AND METHOD, CODING DEVICE AND METHOD AND PROGRAM |
MX342150B (es) * | 2012-07-09 | 2016-09-15 | Koninklijke Philips Nv | Codificacion y decodificacion de señales de audio. |
US9190065B2 (en) | 2012-07-15 | 2015-11-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients |
US9479886B2 (en) | 2012-07-20 | 2016-10-25 | Qualcomm Incorporated | Scalable downmix design with feedback for object-based surround codec |
US9761229B2 (en) | 2012-07-20 | 2017-09-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for audio object clustering |
JP5949270B2 (ja) * | 2012-07-24 | 2016-07-06 | 富士通株式会社 | オーディオ復号装置、オーディオ復号方法、オーディオ復号用コンピュータプログラム |
WO2014021588A1 (ko) | 2012-07-31 | 2014-02-06 | 인텔렉추얼디스커버리 주식회사 | 오디오 신호 처리 방법 및 장치 |
US9489954B2 (en) | 2012-08-07 | 2016-11-08 | Dolby Laboratories Licensing Corporation | Encoding and rendering of object based audio indicative of game audio content |
CN104520924B (zh) * | 2012-08-07 | 2017-06-23 | 杜比实验室特许公司 | 指示游戏音频内容的基于对象的音频的编码和呈现 |
KR101903664B1 (ko) * | 2012-08-10 | 2018-11-22 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 파라미터 오디오 오브젝트 코딩을 위한 잔류 개념을 이용하는 인코더, 디코더, 시스템 및 방법 |
KR20140027831A (ko) * | 2012-08-27 | 2014-03-07 | 삼성전자주식회사 | 오디오 신호 전송 장치 및 그의 오디오 신호 전송 방법, 그리고 오디오 신호 수신 장치 및 그의 오디오 소스 추출 방법 |
EP2717261A1 (en) * | 2012-10-05 | 2014-04-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding |
KR20140046980A (ko) | 2012-10-11 | 2014-04-21 | 한국전자통신연구원 | 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법 |
JP6012884B2 (ja) * | 2012-12-21 | 2016-10-25 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 知覚的基準に基づいてオブジェクト・ベースのオーディオ・コンテンツをレンダリングするためのオブジェクト・クラスタリング |
IL315641A (en) | 2013-01-08 | 2024-11-01 | Dolby Int Ab | Prediction based on a model in a critically modeled filter bank |
EP2757559A1 (en) * | 2013-01-22 | 2014-07-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation |
WO2014159898A1 (en) | 2013-03-29 | 2014-10-02 | Dolby Laboratories Licensing Corporation | Methods and apparatuses for generating and using low-resolution preview tracks with high-quality encoded object and multichannel audio signals |
EP2804176A1 (en) * | 2013-05-13 | 2014-11-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio object separation from mixture signal using object-specific time/frequency resolutions |
SG11201508841UA (en) | 2013-05-24 | 2015-12-30 | Dolby Int Ab | Coding of audio scenes |
EP3005352B1 (en) * | 2013-05-24 | 2017-03-29 | Dolby International AB | Audio object encoding and decoding |
RU2630754C2 (ru) | 2013-05-24 | 2017-09-12 | Долби Интернешнл Аб | Эффективное кодирование звуковых сцен, содержащих звуковые объекты |
CN109712630B (zh) | 2013-05-24 | 2023-05-30 | 杜比国际公司 | 包括音频对象的音频场景的高效编码 |
CN105229731B (zh) | 2013-05-24 | 2017-03-15 | 杜比国际公司 | 根据下混的音频场景的重构 |
EP2830334A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals |
EP2830050A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhanced spatial audio object coding |
EP2830045A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
EP2830053A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal |
EP2830051A3 (en) * | 2013-07-22 | 2015-03-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals |
EP2830049A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for efficient object metadata coding |
CN105612766B (zh) | 2013-07-22 | 2018-07-27 | 弗劳恩霍夫应用研究促进协会 | 使用渲染音频信号的解相关的多声道音频解码器、多声道音频编码器、方法、以及计算机可读介质 |
US9812150B2 (en) | 2013-08-28 | 2017-11-07 | Accusonus, Inc. | Methods and systems for improved signal decomposition |
TWI713018B (zh) | 2013-09-12 | 2020-12-11 | 瑞典商杜比國際公司 | 多聲道音訊系統中之解碼方法、解碼裝置、包含用於執行解碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置的音訊系統 |
CN105556597B (zh) | 2013-09-12 | 2019-10-29 | 杜比国际公司 | 多声道音频内容的编码和解码 |
JP6212645B2 (ja) * | 2013-09-12 | 2017-10-11 | ドルビー・インターナショナル・アーベー | オーディオ・デコード・システムおよびオーディオ・エンコード・システム |
EP2854133A1 (en) * | 2013-09-27 | 2015-04-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Generation of a downmix signal |
WO2015049334A1 (de) * | 2013-10-02 | 2015-04-09 | Stormingswiss Gmbh | Verfahren und vorrichtung zum downmixen eines multikanalsignals und zum upmixen eines downmixsignals |
US9781539B2 (en) * | 2013-10-09 | 2017-10-03 | Sony Corporation | Encoding device and method, decoding device and method, and program |
KR102741608B1 (ko) | 2013-10-21 | 2024-12-16 | 돌비 인터네셔널 에이비 | 오디오 신호들의 파라메트릭 재구성 |
EP2866227A1 (en) * | 2013-10-22 | 2015-04-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder |
WO2015105748A1 (en) | 2014-01-09 | 2015-07-16 | Dolby Laboratories Licensing Corporation | Spatial error metrics of audio content |
US10468036B2 (en) | 2014-04-30 | 2019-11-05 | Accusonus, Inc. | Methods and systems for processing and mixing signals using signal decomposition |
US20150264505A1 (en) | 2014-03-13 | 2015-09-17 | Accusonus S.A. | Wireless exchange of data between devices in live events |
WO2015150384A1 (en) | 2014-04-01 | 2015-10-08 | Dolby International Ab | Efficient coding of audio scenes comprising audio objects |
KR102144332B1 (ko) * | 2014-07-01 | 2020-08-13 | 한국전자통신연구원 | 다채널 오디오 신호 처리 방법 및 장치 |
US9883314B2 (en) * | 2014-07-03 | 2018-01-30 | Dolby Laboratories Licensing Corporation | Auxiliary augmentation of soundfields |
US9774974B2 (en) * | 2014-09-24 | 2017-09-26 | Electronics And Telecommunications Research Institute | Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion |
RU2701055C2 (ru) * | 2014-10-02 | 2019-09-24 | Долби Интернешнл Аб | Способ декодирования и декодер для усиления диалога |
WO2016066743A1 (en) * | 2014-10-31 | 2016-05-06 | Dolby International Ab | Parametric encoding and decoding of multichannel audio signals |
TWI587286B (zh) * | 2014-10-31 | 2017-06-11 | 杜比國際公司 | 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體 |
CN105989851B (zh) | 2015-02-15 | 2021-05-07 | 杜比实验室特许公司 | 音频源分离 |
EP3067885A1 (en) | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding a multi-channel signal |
US10176813B2 (en) | 2015-04-17 | 2019-01-08 | Dolby Laboratories Licensing Corporation | Audio encoding and rendering with discontinuity compensation |
EP3353784B1 (en) * | 2015-09-25 | 2025-03-05 | VoiceAge Corporation | Method and system for encoding left and right channels of a stereo sound signal selecting between two and four sub-frames models depending on the bit budget |
US12125492B2 (en) | 2015-09-25 | 2024-10-22 | Voiceage Coproration | Method and system for decoding left and right channels of a stereo sound signal |
JP6817433B2 (ja) * | 2016-11-08 | 2021-01-20 | フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. | 少なくとも2つのチャンネルをダウンミックスするためのダウンミキサおよび方法ならびにマルチチャンネルエンコーダおよびマルチチャンネルデコーダ |
EP3324406A1 (en) | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
EP3324407A1 (en) | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
US11595774B2 (en) * | 2017-05-12 | 2023-02-28 | Microsoft Technology Licensing, Llc | Spatializing audio data based on analysis of incoming audio data |
PL3985665T3 (pl) * | 2018-04-05 | 2025-01-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Urządzenie, sposób lub program komputerowy do estymacji międzykanałowej różnicy czasowej |
CN109451194B (zh) * | 2018-09-28 | 2020-11-24 | 武汉船舶通信研究所(中国船舶重工集团公司第七二二研究所) | 一种会议混音方法及装置 |
US11929082B2 (en) | 2018-11-02 | 2024-03-12 | Dolby International Ab | Audio encoder and an audio decoder |
JP7092047B2 (ja) * | 2019-01-17 | 2022-06-28 | 日本電信電話株式会社 | 符号化復号方法、復号方法、これらの装置及びプログラム |
US10779105B1 (en) | 2019-05-31 | 2020-09-15 | Apple Inc. | Sending notification and multi-channel audio over channel limited link for independent gain control |
KR20220024593A (ko) | 2019-06-14 | 2022-03-03 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 매개변수 인코딩 및 디코딩 |
GB2587614A (en) | 2019-09-26 | 2021-04-07 | Nokia Technologies Oy | Audio encoding and audio decoding |
CN110739000B (zh) * | 2019-10-14 | 2022-02-01 | 武汉大学 | 一种适应于个性化交互系统的音频对象编码方法 |
WO2021232376A1 (zh) * | 2020-05-21 | 2021-11-25 | 华为技术有限公司 | 一种音频数据传输方法及相关装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1503572A (zh) * | 2002-11-21 | 2004-06-09 | 多个因式分解可逆变换的逐次浮现无损嵌入式音频编码器 | |
CN1647155A (zh) * | 2002-04-22 | 2005-07-27 | 皇家飞利浦电子股份有限公司 | 空间声频的参数表示 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19537338C2 (de) | 1995-10-06 | 2003-05-22 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Codieren von Audiosignalen |
US5912976A (en) | 1996-11-07 | 1999-06-15 | Srs Labs, Inc. | Multi-channel audio enhancement system for use in recording and playback and methods for providing same |
US6356639B1 (en) | 1997-04-11 | 2002-03-12 | Matsushita Electric Industrial Co., Ltd. | Audio decoding apparatus, signal processing device, sound image localization device, sound image control method, audio signal processing device, and audio signal high-rate reproduction method used for audio visual equipment |
US6016473A (en) | 1998-04-07 | 2000-01-18 | Dolby; Ray M. | Low bit-rate spatial coding method and system |
EP2339756A3 (en) * | 1999-04-07 | 2011-12-21 | Dolby Laboratories Licensing Corporation | Matrix improvements to lossless encoding and decoding |
KR20040030554A (ko) | 2001-03-28 | 2004-04-09 | 닛폰고세이가가쿠고교 가부시키가이샤 | 활성 에너지선 경화형 수지 조성물에 의한 피복방법 및적층체 |
DE10163827A1 (de) | 2001-12-22 | 2003-07-03 | Degussa | Strahlen härtbare Pulverlackzusammensetzungen und deren Verwendung |
PL378021A1 (pl) | 2002-12-28 | 2006-02-20 | Samsung Electronics Co., Ltd. | Sposób i urządzenie do mieszania strumieni akustycznych i nośnik pamięciowy informacji |
DE10328777A1 (de) * | 2003-06-25 | 2005-01-27 | Coding Technologies Ab | Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals |
US20050058307A1 (en) * | 2003-07-12 | 2005-03-17 | Samsung Electronics Co., Ltd. | Method and apparatus for constructing audio stream for mixing, and information storage medium |
DE602005014288D1 (de) | 2004-03-01 | 2009-06-10 | Dolby Lab Licensing Corp | Mehrkanalige Audiodekodierung |
JP2005352396A (ja) * | 2004-06-14 | 2005-12-22 | Matsushita Electric Ind Co Ltd | 音響信号符号化装置および音響信号復号装置 |
US7317601B2 (en) * | 2004-07-29 | 2008-01-08 | United Microelectronics Corp. | Electrostatic discharge protection device and circuit thereof |
SE0402652D0 (sv) | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Methods for improved performance of prediction based multi- channel reconstruction |
SE0402651D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Advanced methods for interpolation and parameter signalling |
KR100682904B1 (ko) * | 2004-12-01 | 2007-02-15 | 삼성전자주식회사 | 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법 |
JP2006197391A (ja) * | 2005-01-14 | 2006-07-27 | Toshiba Corp | 音声ミクシング処理装置及び音声ミクシング処理方法 |
US7573912B2 (en) | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
RU2416129C2 (ru) * | 2005-03-30 | 2011-04-10 | Конинклейке Филипс Электроникс Н.В. | Масштабируемое многоканальное кодирование звука |
US7751572B2 (en) | 2005-04-15 | 2010-07-06 | Dolby International Ab | Adaptive residual audio coding |
JP4988717B2 (ja) * | 2005-05-26 | 2012-08-01 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号のデコーディング方法及び装置 |
US7539612B2 (en) * | 2005-07-15 | 2009-05-26 | Microsoft Corporation | Coding and decoding scale factor information |
KR20080010980A (ko) * | 2006-07-28 | 2008-01-31 | 엘지전자 주식회사 | 부호화/복호화 방법 및 장치. |
CN103366747B (zh) | 2006-02-03 | 2017-05-17 | 韩国电子通信研究院 | 用于控制音频信号的渲染的设备和方法 |
EP1853092B1 (en) * | 2006-05-04 | 2011-10-05 | LG Electronics, Inc. | Enhancing stereo audio with remix capability |
KR101065704B1 (ko) * | 2006-09-29 | 2011-09-19 | 엘지전자 주식회사 | 오브젝트 기반 오디오 신호를 인코딩 및 디코딩하는 방법 및 장치 |
CN102892070B (zh) * | 2006-10-16 | 2016-02-24 | 杜比国际公司 | 多声道下混对象编码的增强编码和参数表示 |
JP5337941B2 (ja) * | 2006-10-16 | 2013-11-06 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | マルチチャネル・パラメータ変換のための装置および方法 |
CA2702986C (en) * | 2007-10-17 | 2016-08-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio coding using downmix |
-
2008
- 2008-10-17 CA CA2702986A patent/CA2702986C/en active Active
- 2008-10-17 US US12/253,442 patent/US8155971B2/en active Active
- 2008-10-17 WO PCT/EP2008/008799 patent/WO2009049895A1/en active Application Filing
- 2008-10-17 US US12/253,515 patent/US8280744B2/en active Active
- 2008-10-17 RU RU2010114875/08A patent/RU2452043C2/ru active
- 2008-10-17 MX MX2010004220A patent/MX2010004220A/es active IP Right Grant
- 2008-10-17 AU AU2008314029A patent/AU2008314029B2/en active Active
- 2008-10-17 KR KR1020107008133A patent/KR101244515B1/ko active IP Right Grant
- 2008-10-17 BR BRPI0816557-2A patent/BRPI0816557B1/pt active IP Right Grant
- 2008-10-17 TW TW097140089A patent/TWI395204B/zh active
- 2008-10-17 CA CA2701457A patent/CA2701457C/en active Active
- 2008-10-17 CN CN2008801113955A patent/CN101821799B/zh active Active
- 2008-10-17 WO PCT/EP2008/008800 patent/WO2009049896A1/en active Application Filing
- 2008-10-17 MX MX2010004138A patent/MX2010004138A/es active IP Right Grant
- 2008-10-17 EP EP08840635A patent/EP2082396A1/en not_active Ceased
- 2008-10-17 TW TW097140088A patent/TWI406267B/zh active
- 2008-10-17 KR KR1020107008183A patent/KR101244545B1/ko active IP Right Grant
- 2008-10-17 RU RU2010112889/08A patent/RU2474887C2/ru active
- 2008-10-17 KR KR1020117028846A patent/KR101290394B1/ko active IP Right Grant
- 2008-10-17 KR KR1020117028843A patent/KR101303441B1/ko active IP Right Grant
- 2008-10-17 CN CN200880111872.8A patent/CN101849257B/zh active Active
- 2008-10-17 BR BRPI0816556A patent/BRPI0816556A2/pt not_active Application Discontinuation
- 2008-10-17 EP EP08839058A patent/EP2076900A1/en not_active Ceased
- 2008-10-17 JP JP2010529292A patent/JP5260665B2/ja active Active
- 2008-10-17 AU AU2008314030A patent/AU2008314030B2/en active Active
- 2008-10-17 JP JP2010529293A patent/JP5883561B2/ja active Active
-
2012
- 2012-04-20 US US13/451,649 patent/US8407060B2/en active Active
-
2013
- 2013-01-23 US US13/747,502 patent/US8538766B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1647155A (zh) * | 2002-04-22 | 2005-07-27 | 皇家飞利浦电子股份有限公司 | 空间声频的参数表示 |
CN1503572A (zh) * | 2002-11-21 | 2004-06-09 | 多个因式分解可逆变换的逐次浮现无损嵌入式音频编码器 |
Non-Patent Citations (2)
Title |
---|
Herre J et.al.New Concepts in Parametric Coding of Spatial Aduio:From SAC to SAOC.《IEEE International Conference on Multimedia and Expo 2007》.2007,第1894-1897页. * |
Jonas Engdegard.Spatial Audio Object Coding(SAOC)-The Upcoming MPEG Standard on Parametric Object Based Audio Coding.《Audio Engineering Society 124th Convention》.2008, * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101821799B (zh) | 使用上混合的音频编码 | |
KR101660004B1 (ko) | 멀티채널 다운믹스/업믹스 케이스들에 대해 매개변수 개념을 이용한 멀티-인스턴스 공간-오디오-오브젝트-코딩을 위한 디코더 및 방법 | |
CN110895943B (zh) | 处理多信道音频信号的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |