[go: up one dir, main page]

CN101681625B - 用于从两个输入的音频信号获得两个环绕声音频通道的方法和设备 - Google Patents

用于从两个输入的音频信号获得两个环绕声音频通道的方法和设备 Download PDF

Info

Publication number
CN101681625B
CN101681625B CN2008800188969A CN200880018896A CN101681625B CN 101681625 B CN101681625 B CN 101681625B CN 2008800188969 A CN2008800188969 A CN 2008800188969A CN 200880018896 A CN200880018896 A CN 200880018896A CN 101681625 B CN101681625 B CN 101681625B
Authority
CN
China
Prior art keywords
mrow
matrix
correlation
gain scale
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008800188969A
Other languages
English (en)
Other versions
CN101681625A (zh
Inventor
马克·斯图尔特·文顿
马克·富兰克林·戴维斯
查尔斯·基托·鲁宾逊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN101681625A publication Critical patent/CN101681625A/zh
Application granted granted Critical
Publication of CN101681625B publication Critical patent/CN101681625B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

从源音频信号获得环境信号分量,从源音频信号获得矩阵解码信号分量,并且对环境信号分量与矩阵解码信号分量进行可控组合。获得环境信号分量可以包括施加至少一个解相关滤波器序列。相同的解相关滤波器序列可以被施加到输入音频信号中的每一个,或者代替地,不同的解相关滤波器序列可以被施加到输入音频信号中的每一个。

Description

用于从两个输入的音频信号获得两个环绕声音频通道的方法和设备
技术领域
本发明涉及音频信号处理。更加具体地,涉及从源音频信号获得环境信号分量,从源音频信号获得矩阵解码信号分量,并且对环境信号分量与矩阵解码信号分量进行可控组合。 
引用结合 
以下参考文献每个都以其整体通过引用结合于此。 
[1]C.Avendano and Jean-Marc Jot,“Frequency Domain Techniques for Stereo to Multichannel Upmix,”AES 22nd Int.Conf.on Virtual,Synthetic Entertainment Audio; 
[2]E.Zwicker,H.Fastl,“Psycho-acoustics,”Second Edition,Springer,1990,Germany; 
[3]B.Crockett,“Improved Transient Pre-Noise Performance of Low Bit Rate Audio Coders Using Time Scaling Synthesis,”Paper No.6184,117th AES Conference,San Francisco,Oct.2004; 
[4]United States Patent Application S.N.10/478,538,PCT filed February 26,2002,published as US 2004/0165730 A1 on August 26,2004,“Segmenting Audio Signals into Auditory Events,”Brett G.Crockett. 
[5]A.Seefeldt,M.Vinton,C.Robinson,“New Techniques in Spatial Audio Coding,”Paper No.6587,119th AES Conference,New York,Oct 2005. 
[6]United States Patent Application S.N.10/474,387,PCT filed February 12,2002,published as US 2004/0122662 A1 on June 24,2004,“High Quality Time-Scaling and Pitch-Scaling of Audio Signals,”Brett Graham Crockett. 
[7]United States Patent Application S.N.10/476,347,PCT filed April 25,2002,published as US 2004/0133423 A1 on July 8,2004,“Transient Performance of Low Bit Rate Audio Coding Systems By Reducing Pre-Noise,”Brett Graham Crockett. 
[8]United States Patent Application S.N.10/478,397,PCT filed Februaty 22, 2002,published as US 2004/0172240A1on July 8,2004,“Comparing Audio UsingCharacterizations Based on Auditory Events,”Brett G.Crockett et al. 
[9]United States Patent Application S.N.10/478,398,PCT filed February 25,2002,published as US 2004/0148159A1on July 29,2004,“Method for Time AligningAudio Signals Using Characterizations Based on Auditory Events,”Brett G.Crockett etal. 
[10]United States Patent Application S.N.10/478,398,PCT filed February 25,2002,published as US 2004/0148159A1onJuly 29,2004,“Method for Time AligningAudio Signals Using Characterizations Based on Auditory Events,”Brett G.Crockett etal. 
[11]United States Patent Application S.N.10/911,404,PCT filed August 3,2004,published as US 2006/0029239A1on February 9,2006,“Method for Combining AudioSignals Using Auditory Scene Analysis,”Michael John Smithers. 
[12]International Application Published Under the Patent Cooperation Treaty,PCT/US2006/020882,International Filing Date 26May 2006,designating the UnitedStates,published as WO 2006/132857A2and A3on 14December 2006,“ChannelReconfiguration With Side Information,”Alan Jeffrey Seefeldt,et al. 
[13]International Application Published Under the Patent Cooperation Treaty,PCT/US2006/028874,International Filing Date 24July 2006,designating the UnitedStates,published as WO 2007/016107A2on 8February 2007,“Controlling SpatialAudio Coding Parameters as a Function of Auditory Events,”Alan Jeffrey Seefeldt,et al. 
[14]International Application Published Under the Patent Cooperation Treaty,PCT/US2007/004904,International Filing Date 22February 2007,designating the UnitedStates,published as WO 2007/106234A1on 20September 2007,“Rendering CenterChannel Audio,”Mark Stuart Vinton. 
[15]International Application Published Under the Patent Cooperation Treaty,PCT/US2007/008313,International Filing Date 30March 2007,designating the UnitedStates,published as WO 2007/127023on 8November 2007,“Audio Gain Control UsingSpecific Loudness-Based Auditory Event Detection,”Brett G.Crockett,et al. 
背景技术
从标准矩阵编码双通道立体声材料(其中通道通常被指示为“Lt”和“Rt”)或者从非矩阵编码双通道立体声材料(其中通道通常被指示为“Lo”和“Ro”)创建多通道音频材料通过环绕通道的推导而增强。然而,环绕通道针对每个信号类型(矩阵和非矩阵编码材料)的角色非常不同。对于非矩阵编码材料,使用环绕通道来强调原始材料的环境常常产生听觉愉悦的结果。然而,对于矩阵编码材料,所希望的是重新创建或逼近原始环绕通道的摇摄声像。进而,所希望的是提供下述装置,该装置以最适当的方式自动处理环绕通道,而不管输入类型(非矩阵或矩阵编码),不需要收听者选择解码模式。 
目前存在用于将两个通道向上混合为多个通道的许多技术。这样的技术范围从简单固定的或无源的矩阵解码器延伸到有源矩阵解码器以及用于环绕通道推导的环境提取技术。最近,用于推导环绕通道的频域环境提取技术(例如参见参考文献1)已示出了用于创建令人愉快的多通道体验的承诺。然而,这样的技术并没有从矩阵编码(LtRt)材料中再现环绕通道图像,因为它们主要针对非矩阵编码(LoRo)材料而设计。代替地,无源和有源矩阵解码器做出了隔离用于矩阵编码材料的环绕摇摄图像的相当好的工作。然而,与矩阵解码相比,环境提取技术为非矩阵编码材料提供了更好的性能。 
使用当前生成的向上混合器,收听者常常需要切换向上混合系统以选择最匹配输入的音频材料的一个。因此本发明的目的是在没有对用户在操作的解码模式之间进行切换的任何要求的情况下,创建对于矩阵和非矩阵编码材料两者都听觉愉悦的环绕通道信号。 
发明内容
根据本发明的方面,提供了一种用于从两个输入的音频信号获得两个环绕声音频通道的方法,其中所述音频信号可以包括通过矩阵编码生成的分量,该方法包括:从所述音频信号获得环境信号分量;从所述音频信号获得矩阵解码信号分量;以及对环境信号分量和矩阵解码信号分量进行可控组合以提供所述环绕声音频通道。获得环境信号分量可以包括向输入的音频信号施加动态变化的环境信号分量增益标度因数。环境信号分量增益标度因数可以是输入的音频信号的交叉相关的测度的函数,其中,例如环境信号分量增益标度因数随着交叉相关度增加而下降,反之亦然。交叉相关的测度可以是时间平滑的,并且例如交叉相关的测度可以通过以下而时 间平滑:使用信号相关泄漏积分器,或者代替地使用移动平均。时间平滑可以是信号自适应的,使得例如时间平滑响应于谱分布的变化而适应。 
根据本发明的方面,获得环境信号分量可以包括施加至少一个解相关滤波器序列。相同的解相关滤波器序列可以施加到输入的音频信号中的每一个,或者代替地,不同的解相关滤波器序列可以施加到输入的音频信号中的每一个。 
根据本发明的进一步的方面,获得矩阵解码信号分量可以包括施加矩阵解码至输入的音频信号,所述矩阵解码适合于提供每个与后环绕声方向相关联的第一和第二音频信号。 
可控组合可以包括施加增益标度因数。增益标度因数可以包括在获得环境信号分量时施加的动态变化的环境信号分量增益标度因数。增益标度因数可以进一步包括向与后环绕声方向相关联的第一和第二音频信号中的每一个施加的动态变化的矩阵解码信号分量增益标度因数。矩阵解码信号分量增益标度因数可以是输入的音频信号的交叉相关的测度的函数,其中例如动态变化的矩阵解码信号分量增益标度因数随着交叉相关度增加而增加,并且随着交叉相关度减少而减少。动态变化的矩阵解码信号分量增益标度因数和动态变化的环境信号分量增益标度因数可以以保存矩阵解码信号分量和环境信号分量的组合能量的方式相对于彼此增加和减少。增益标度因数可以进一步包括用于进一步控制环绕声音频通道增益的动态变化的环绕声音频通道的增益标度因数。环绕声音频通道的增益标度因数可以是输入的音频信号的交叉相关的测度的函数,其中例如该函数使环绕声音频通道增益标度因数随着交叉相关的测度减少直到下述值而增加,在所述值之下,环绕声音频通道的增益标度因数减少。 
本发明的各个方面可以在时间频率域中执行,其中例如本发明的方面可以在时间频率域中的一个或多个频带中执行。 
向上混合矩阵编码双通道音频材料或非矩阵编码双通道材料通常需要生成环绕通道。众所周知的矩阵解码系统对于矩阵编码材料工作良好,而环境“提取”技术则对于非矩阵编码材料工作良好。为了避免需要收听者在向上混合的两个模式之间切换,本发明的方面在矩阵解码和环境提取之间可变地调配,以自动为当前输入的信号类型提供适当的向上混合。为了实现这一点,原始输入通道之间的交叉相关的测度控制来自局部矩阵解码器(在矩阵解码器仅需要解码环绕通道的意义上的“局部”)的直接信号分量与环境信号分量的比例。如果两个输入的通道高度相关,那么比环 境信号分量更多的直接信号分量被施加到环绕通道。相反地,如果两个输入的通道解相关,那么比直接信号分量更多的环境信号分量被施加到环绕通道。 
诸如参考文献1中公开的那样的环境提取技术从原始前通道中去除环境音频分量并将它们摇摄到环绕通道,这可以加强前通道的宽度并改善包络感。然而,环境提取技术并不将离散图像摇摄到环绕通道。另一方面,矩阵解码技术做出了将直接图像(与反映或“间接”的回响或环境声相对照的具有从源到收听者位置的直接路径的声音的意义上的“直接”)摇摄到环绕通道的比较好的工作,并因此能够更加如实地重构矩阵编码材料。为了利用两种解码系统的力量,环境提取和矩阵解码的混合是本发明的一个方面。 
本发明的目的是在不需要收听者切换模式的情况下,从矩阵编码或非矩阵编码的双通道信号中创建听觉愉悦的多通道信号。为了简化起见,在使用左、右、左环绕和右环绕通道的四通道系统的环境下描述本发明。然而本发明可以扩展到五通道或更多。尽管可以使用用于提供中央通道作为第五个通道的任何不同的已知技术,在Mark Stuart Vinton的名称为“Rendering Center Channel Audio”的2007年2月22日申请并于2007年9月20日公布的专利合作条约WO 2007/106324A1之下公布的国际申请中描述了一种特别有用的技术。所述WO 2007/106324A1公布以其整体通过引用结合于此。 
附图说明
图1示出了根据本发明的方面的用于从两个输入的音频信号中推导两个环绕声音频通道的装置或过程的示意性功能框图。 
图2示出了其中在时间频率域中执行处理的根据本发明的方面的音频向上混合器或向上混合过程的示意性功能框图。图2装置的一部分包括图1的装置或过程的时间频率域实施例。 
图3描绘了可以在实施本发明的方面时使用的可用于时间频率变换中的两个连续短时间离散傅立叶变换(STDFT)时间块的适当分析/合成窗对。 
图4示出了对于44100Hz的采样率的以赫兹计的每个带的中心频率的曲线图,该采样率可以在实施本发明的方面时使用,其中增益标度因数 被施加到每个具有近似一半临界带宽的谱带中的各个系数。 
图5在平滑系数(垂直轴)对比于变换块数(水平轴)的曲线图中示出了信号相关泄漏积分器的α(alpha)参数的示例性响应,该信号相关泄漏积分器可以用作在实施本发明的方面时在减少交叉相关的测度的时间偏差时使用的估计器。听觉事件边界的发生表现为刚好在块20之前的块边界处的平滑系数的急剧下降。 
图6示出了根据本发明的方面的图2的音频向上混合器或向上混合过程的环绕声获得部分的示意性功能框图。为了表示简化起见,图6示出了多个频带之一中的信号流的示意图,应理解全部的多个频带中的组合行为产生了环绕声音频通道Ls和Rs。 
图7示出了增益标度因数G′F和G′B(垂直轴)对比于相关系数(ρLR(m,b))(水平轴)的曲线图。 
具体实施方式
图1示出了根据本发明的方面的用于从两个输入的音频信号中推导两个环绕声音频通道的装置或过程的示意性功能框图。输入的音频信号可以包括通过矩阵编码生成的分量。输入的音频信号可以是一般表示左右声音方向的两个立体声音频通道。如上所述,对于标准矩阵编码双通道立体声材料,通道通常被指示为“Lt”和“Rt”,而对于非矩阵编码双通道立体声材料,通道通常被指示为“Lo”和“Ro”。这样一来,为了指示输入的音频信号有时可以是矩阵编码的而在其它时间不是矩阵编码的,在图1中将输入标记为“Lo/Lt”和“Ro/Rt”。 
图1例子中的两个输入音频信号被施加到局部矩阵解码器或解码函数(“局部矩阵解码器”)2,其响应于成对的输入音频信号而生成矩阵解码信号分量。从两个输入的音频信号中获得矩阵解码信号分量。具体地,局部矩阵解码2适合于提供每个与后环绕声方向(诸如左环绕和右环绕)相关联的第一和第二音频信号。这样一来,例如,局部矩阵解码2可以被实施为2:4矩阵解码器或解码函数的环绕通道部分(亦即“局部”矩阵解码器或解码函数)。矩阵解码器可以是无源或有源的。局部矩阵解码2可以被表征为处在“(一个或多个)直接信号路径”中(其中在上面解释的意义上使用“直接”)(参见在下面描述的图6)。 
在图1的例子中,两个输出还被施加到环境4,该环境4可以是任何的各种众所周知的环境生成、推导或提取装置或功能,其响应于一个或两个输入的音频信号进行操作,以提供一个或两个环境信号分量输出。从两个输入音频信号中获得环境信号分量。环境4可以包括装置和函数(1),其中环境可以被表征为从(一个或多个)输入信号中“提取”(以例如1950年的Hafler环境提取器的方式,其中从左右立体声信号中推导一个或多个不同信号(L-R,R-L)),或者包括如参考文献(1)和(2)中的现代时间频率域环境提取器,其中环境可以被表征为响应于(一个或多个)输入信号而“生成”或“添加”(以例如数字(延迟线、卷积器等)或模拟(室、板、弹簧、延迟线等)混响器的方式)。 
在现代频域环境提取器中,环境提取可以通过以下实现:监视输入通道之间的交叉相关,并且提取解相关(具有小的相关系数,接近于零)的以时间和/或频率计的信号的分量。为了进一步增强环境提取,可以在环境信号路径中施加解相关以改善前/后分离感。这样的解相关不应当与提取的解相关信号分量或用于提取它们的过程或装置相混淆。这种解相关的目的是减少前通道和获得的环绕通道之间的任何剩余相关。参见下面的标题“用于环绕通道的解相关”。 
在一个输入音频信号和两个环境输出信号的情况下,两个输入音频信号可以被组合,或者只使用它们中的一个。在两个输入和一个输出的情况下,相同的输出可以用于两个环境信号输出。在两个输入和两个输出的情况下,装置或功能可以对每个输入独立地操作,以便每个环境信号输出仅响应于一个特定输入,或者代替地,两个输出可以响应并依赖于两个输入。环境4可以被表征为处在“(一个或多个)环境信号路径”中。 
在图1的例子中,环境信号分量和矩阵解码信号分量被可控地组合以提供两个环绕声音频通道。这可以以图1所示的方式或者以等效的方式完成。在图1的例子中,动态变化的矩阵解码信号分量增益标度因数被施加到局部矩阵解码2输出中的两者。这被示出为将相同的“直接路径增益”标度因数施加到每个都处在局部矩阵解码2的输出路径中的两个乘法器6和8中的每一个。动态变化的环境信号分量增益标度因数被施加到环境4输出中的两者。这被示出为将相同的“环境路径增益”标度因数施加到每个都处在环境4的输出中的两个乘法器10和12中的每一个。乘法器6的动态增益调整的矩阵解码输出与乘法器10的动态增益调整的环境输出在加法组合器14(示出为求和符号∑)中相加,以产生环绕声输出中之 一。乘法器8的动态增益调整的矩阵解码输出与乘法器12的动态增益调整的环境输出在加法组合器16(示出为求和符号∑)中相加,以产生环绕声输出中的另一个。为了提供来自组合器14的左环绕(Ls)输出,来自乘法器6的增益调整的局部矩阵解码信号应当从局部矩阵解码2的左环绕输出获得,并且来自乘法器10的增益调整的环境信号应当从旨在用于左环绕输出的环境4输出获得。类似地,为了提供来自组合器16的右环绕(Rs)输出,来自乘法器8的增益调整的局部矩阵解码信号应当从局部矩阵解码2的右环绕输出获得,并且来自乘法器12的增益调整的环境信号应当从旨在用于右环绕输出的环境4输出获得。 
将动态变化的增益标度因数施加到馈送环绕声输出的信号可以被表征为将该信号向和从这样的环绕声输出“摇摄”。 
对直接信号路径和环境信号路径进行增益调整以基于进来的信号提供适当量的直接信号音频和环境信号音频。如果输入的信号良好相关,那么大比例的直接信号路径应当存在于最终环绕通道信号中。代替地,如果输入的信号基本上解相关,那么大比例的环境信号路径应当存在于最终环绕通道信号中。 
因为输入信号的声能中的一些被传递到环绕通道,所以另外可能希望调整前通道的增益,以便总再生声压基本上不变。参见图2的例子。 
应当注意的是,当使用如参考文献1中的时间频率域环境提取技术时,可以通过将适当的动态变化的环境信号分量增益标度因数施加到输入的音频信号中的每一个来完成环境提取。在这种情况下,环境4块可以被认为包括乘法器10和12,使得环境路径增益标度因数独立地被施加到音频输入信号Lo/Lt和Ro/Rt中的每一个。 
在本发明最宽的方面,如在图1的例子中表征的那样,本发明可以(1)在时间频率域或频域中(2)在宽带或带状基础上(指的是频带)并且(3)以模拟、数字或混合模拟/数字的方式来实施。 
虽然可以以宽带的方式进行将局部矩阵解码音频材料与环境信号交叉调配以创建环绕通道的技术,但是通过计算多个频带中的每一个中的期望环绕通道可以改善性能。用于推导频带中的期望环绕通道的一种可能方式是对于原始双通道信号的分析和多通道信号的最终合成两者都使用重叠的短时间离散傅立叶变换。然而,存在许多更多众所周知的技术允许信号分段成时间和频率两者用于分析和合成(例如滤波器组、正交镜式滤波 器等等)。 
图2示出了其中在时间频率域中执行处理的根据本发明的方面的音频向上混合器或向上混合过程的示意性功能框图。图2装置的一部分包括图1的装置或过程的时间频率域实施例。一对立体声输入信号Lo/Lt和Ro/Rt被施加到向上混合器或向上混合过程。在图2的例子中以及在这里的其中在时间频率域中执行处理的其它例子中,增益标度因数可以如变换块率那样常常动态更新,或者以时间平滑块率动态更新。 
尽管在原理上本发明的方面可以通过模拟、数字或混合模拟/数字实施例来实施,但是图2的例子以及下面讨论的其它例子是数字实施例。这样一来,输入的信号就可以是时间样本,其可以从模拟音频信号中推导。时间样本可以被编码为线性脉冲码调制(PCM)信号。每个线性PCM音频输入信号可以由滤波器组功能或装置处理,所述滤波器组功能或装置具有同相和正交输出两者,诸如2048点有窗的短时间离散傅立叶变换(STDFT)。 
这样一来,双通道立体声输入信号就可以使用短时间离散傅立叶变换(STDFT)装置或过程(“时间频率变换”)20而被转换到频域并分组成带(分组未示出)。可以独立地处理每个带。控制路径在装置或功能(“后/前增益计算”)22中计算前/后增益标度因数比率(GF和GB)(参见下面的方程12和13以及图7及其描述)。对于四通道系统,两个输入的信号可以乘以前增益标度因数GF(被示出为乘法器符号24和26)并被传递通过逆变换或变换过程(“频率时间变换”)28,以提供左右输出通道L’o/L’t和R’o/R’t,它们由于GF增益标度而在水平方面可能不同于输入信号。从图1的装置或过程的时间频率域版本(“环绕通道生成”)30获得的环绕通道信号Ls和Rs,它们表示环境音频分量与矩阵解码音频分量的可变调配,在逆变换或变换过程(“频率时间变换”)36之前乘以后增益标度因数GB(被示出为乘法器符号32和34)。 
时间频率变换20 
用于从输入的双通道信号生成两个环绕通道的时间频率变换20可以基于众所周知的短时间离散傅立叶变换(STDFT)。为了使圆周卷积效应最小化,可以对分析和合成两者使用75%重叠。使用恰当选择的分析和合成窗,重叠的STDFT可以用于使听觉圆周卷积效应最小化,同时提供 向谱施加量值和相位修改的能力。尽管具体的窗对并不严格,图3描绘了用于两个连续STDFT时间块的适当分析/合成窗对。 
分析窗设计成使得重叠分析窗之和等于所选重叠间隔之整体。可以使用恺撒-贝塞尔-推导(Kaiser-Bessel-Derived,KBD)窗的平方,尽管该特殊窗的使用对于本发明并不是决定性的。使用这样的分析窗,如果没有对重叠STDFT进行修改,则可以在没有合成窗的情况下完美地合成分析的信号。然而,由于在这个示例性实施例中使用的解相关序列和施加的量值更换,所以所希望的是使合成窗逐渐缩减以防止听觉块不连续。下面列出了示例性空间音频编码系统中使用的窗参数。 
STDFT长度:            2048 
分析窗主瓣长度(AWML): 1024 
跳跃尺寸(HS):         512 
前导零填充(ZPlead):   256 
滞后零填充(ZPlag):    768 
合成窗锥度(SWT):      128 
分带 
根据本发明的方面的向上混合的示例性实施例计算并施加增益标度因数给具有近似一半临界带宽的谱带中的各个系数(例如参见参考文献2)。图4示出了对于44100Hz的采样率的以赫兹计的每个带的中心频率的曲线图,并且表1给出了对于44100Hz的采样率的每个带的中心频率。 
表1 
对于44100Hz的采样率的以赫兹计的每个带的中心频率 
Figure G2008800188969D00101
信号自适应泄漏积分器 
在根据本发明的方面的示例性向上混合装置中,每个统计量和变量首先在谱带之上计算,然后经由时间被平滑。每个变量的时间平滑是如方程1所示的简单一阶IIR。然而,α参数优选地随时间而适应。如果检测到听觉事件(例如参见参考文献3或参考文献4),则α参数下降到较低值,然后随着时间过去返回建立直到较高值。这样一来,系统就在音频变化期间更加迅速地更新。 
听觉事件可以被定义为音频信号的急剧变化,例如乐器音符的变化或说话者语音的开始。因此,使得向上混合有意义的是,在事件检测点附近快速改变其统计估计量。进而,人类听觉系统在过渡/事件的开始期间较不敏感,这样一来,音频片段中的这种时刻就可以用于隐藏统计量的系统估计的不稳定性。可以通过以时间计的两个相邻块之间的谱分布的变化来检测事件。 
图5示出了当检测到听觉事件开始时(在图5的例子中听觉事件边界刚好在变换块20之前)带中的α参数(参见就在下面的方程1)的示例性响应。方程1描述了信号相关泄漏积分器,该信号相关泄漏积分器可以用作在减少交叉相关的测度的时间偏差时使用的估计器(还参见下面方程 4的讨论)。 
C′(n,b)=αC′(n-1,b)+(1-α)C(n,b)(1) 
其中,C(n,b)是在块n处在谱带b之上计算的变量,而C′(n,b)则是在块n处在时间平滑之后的变量。 
环绕通道计算 
图6更加详细地示出了根据本发明的方面的图2的音频向上混合器或向上混合过程的环绕声获得部分的示意性功能框图。为了表示简化起见,图6示出了多个频带之一中的信号流的示意图,应理解全部的多个频带中的组合行为产生了环绕声音频通道Is和Rs。 
如图6所指示的那样,输入信号(Lo/Lt和Ro/Rt)中的每一个被分成三个路径。第一个路径是“控制路径”40,在这个例子中,该“控制路径”40在包括用于提供输入信号交叉相关测度的装置或过程(未示出)的计算机或计算功能(“控制每带计算”)42中,计算前/后比率增益标度因数(GF和GB)和直接/环境比率增益标度因数(GD和GA)。另外两个路径是“直接信号路径”44和环境信号路径46,它们的输出在GD和GA增益标度因数的控制下被可控地调配在一起,以提供一对环绕通道信号LS和RS。直接信号路径包括无源矩阵解码器或解码过程(“无源矩阵解码器”)48。代替地,可以使用有源矩阵解码器而不是无源矩阵解码器以改善某些信号条件下的环绕通道分离。许多这样的有源和无源矩阵解码器和解码功能在本领域中都是众所周知的,并且任何具体的一个这样的装置或过程的使用对于本发明都不是决定性的。 
可选地,为了进一步改善通过施加GA增益标度因数而将环境信号分量摇摄到环绕通道所产生的包络效应,来自左右输入信号的环境信号分量可以在与来自矩阵解码器48的直接图像音频分量相调配之前被施加到各个解相关器或乘以各个解相关滤波器序列(“解相关器”)50。尽管解相关器50可以彼此等同,但当它们不等同时,一些收听者可以优选所提供的性能。虽然许多类型的解相关器中的任何一种都可以用于环境信号路径,但是应当注意使听觉梳状滤波器效应最小化,该听觉梳状滤波器效应可能由将解相关的音频材料与非解相关的信号相混合而造成。下面描述一种特 别有用的解相关器,尽管它的使用对于本发明不是决定性的。 
直接信号路径44可以被表征为包括各个乘法器52和54,其中直接信号分量增益标度因数GD被施加到各个左环绕和右环绕矩阵解码信号分量,其输出依次被施加到各个加法组合器56和58(每个被示出为求和符号∑)。代替地,直接信号分量增益标度因数GD可以被施加到直接信号路径44的输入端。后增益标度因数GB然后可以被施加到乘法器64和66处的每个组合器56和58的输出端,以产生左右环绕输出LS和RS。代替地,在将结果施加到组合器56和58之前,GB和GD增益标度因数可以乘在一起,然后施加到各个左环绕和右环绕矩阵解码信号分量。 
环境信号路径可以被表征为包括各个乘法器60和62,其中环境信号分量增益标度因数GA被施加到各个左右输入信号,所述信号可以已被施加到可选的解相关器50。代替地,环境信号分量增益标度因数GA可以被施加到环境信号路径46的输入端。动态变化的环境信号分量增益标度因数GA的施加导致从左右输入信号中提取环境信号分量,而不管是否使用了任何解相关器50。这样的左右环境信号分量然后被施加到各个加法组合器56和58。如果不是在组合器56和58之后施加,则GB增益标度因数可以与增益标度因数GA相乘,并且在将结果施加到组合器56和58之前施加到左右环境信号分量。 
如图6的例子中可能需要的环绕声通道计算可以被表征为以下步骤和分步骤。 
步骤1 
将输入信号中的每一个分组为带 
如图6所示,控制路径生成增益标度因数GF、GB、GD和GA——这些增益标度因数在每个频带中都计算和施加。注意,在获得环绕声通道时没有使用GF增益标度因数——它可以被施加到前通道(参见图2)。计算增益标度因数中的第一步是将输入信号中的每一个分组为带,如方程2和3所示。 
L ‾ ( m , b ) = L ( m , L b ) L ( m , L b + 1 ) · · · L ( m , U b - 1 ) T , - - - ( 2 )
R ‾ ( m , b ) = R ( m , L b ) R ( m , L b + 1 ) · · · R ( m , U b - 1 ) T , - - - ( 3 )
其中:m是时间索引,b是带索引,L(m,k)是在时间m处的左通道的第k个谱样本,R(m,k)是在时间m处的右通道的第k个谱样本, 
Figure G2008800188969D00143
是包含用于带b的左通道的谱样本的列矩阵, 
Figure G2008800188969D00144
是包含用于带b的右通道的谱样本的列矩阵,Lb是带b的下界,并且Ub是带b的上界。 
步骤2 
计算每个带中的两个输入信号之间的交叉相关的测度 
下一步是计算每个带中的两个输入信号之间的通道间相关(亦即“交叉相关”)的测度。在这个例子中,这通过三个分步骤完成。 
分步骤2a 
计算交叉相关的减少时间偏差(时间平滑)测度 
首先,如方程4所示,计算通道间相关的减少时间偏差测度。在方程4以及此处的其它方程中,E是估计器运算符。在这个例子中,估计器表示信号相关泄漏积分器方程(诸如方程1)。存在许多其它技术可以用作估计器以减少测度的参数的时间偏差(例如简单移动时间平均),并且任何具体估计器的使用对于本发明都不是决定性的。 
ρ LR ( m , b ) = | E { L ‾ ( m , b ) · R ‾ ( m , b ) T } | E { L ‾ ( m , b ) · L ‾ ( m , b ) T } · E { R ‾ ( m , b ) · R ‾ ( m , b ) T } , - - - ( 4 )
其中:T是Hermitian转置,ρLR(m,b)是在时间m处的带b中的左右通道之间的相关系数的估计。ρLR(m,b)可以具有范围在0到1的值。Hermitian转置是复数项的转置和共轭。在方程4中,例如, 
Figure G2008800188969D00152
导致复数标量,因为 
Figure G2008800188969D00153
和 
Figure G2008800188969D00154
是如方程1和2所定义的复数行向量。 
分步骤2b 
构造交叉相关的偏置测度 
相关系数可以用于控制被摇摄到环绕通道的环境和直接信号的量。然而,如果左右信号完全不同,例如两个不同的乐器分别被摇摄到左右通道,那么如果单独使用诸如分步骤2a之类的方法,则交叉相关为零并且硬摇摄的乐器会被摇摄到环绕通道。为了避免这样的结果,可以构造左右输入信号的交叉相关的偏置测度,如方程5所示。 
φ LR ( m , b ) = | E { L ‾ ( m , b ) · R ‾ ( m , b ) T } | max ( E { L ‾ ( m , b ) · L ‾ ( m , b ) T } , E { R ‾ ( m , b ) · R ‾ ( m , b ) T } ) , - - - ( 5 )
φLR(m,b)可以具有范围在0到1的值。 
其中:φLR(m,b)是左右通道之间的相关系数的偏置估计。 
方程4的分母中的“max”运算符导致分母为 
Figure G2008800188969D00156
和 
Figure G2008800188969D00157
中的最大值。因此,交叉相关被左信号中的能量或右信号中的能量归一化,而不是被如方程4中的几何平均归一化。如果左右信号的功率不同,那么方程5的相关系数φLR(m,b)的偏置估计导致比方程4中的相关系数ρLR(m,b)所生成的值更小的值。这样一来,偏置的估计就可以用于减少摇摄到被硬摇摄左和/或右的乐器的环绕通道的程度。 
分步骤2c 
组合交叉相关的无偏和偏置测度 
下一步,将方程4中给出的无偏交叉相关估计与方程5中给出的偏置估计组合成通道间相关的最终测度,其可以用于控制摇摄到环绕通道的环境和直接信号。该组合可以表达为方程6,其表明如果相关系数的偏置估计(方程5)处在阈值之上,则通道间相干性等于相关系数;否则,通道间相干性线性逼近一。方程6的目标是要确保在输入信号中被硬摇摄左和右的乐器不被摇摄到环绕通道。方程6只是用于实现这种目标的许多中的一种可能方式。 
&gamma; ( m , b ) = &rho; LR ( m , b ) &phi; LR &GreaterEqual; &mu; 0 &rho; LR ( m , b ) + ( &mu; 0 - &phi; LR ( m , b ) ) &mu; 0 &phi; LR < &mu; 0 , - - - ( 6 )
其中:μ0是预定阈值。阈值μ0应当尽可能小,但是优选地不为零。它可以近似等于偏置相关系数φLR(m,b)的估计的偏差。 
步骤3 
计算前后增益标度因数GF和GB
下一步,计算前后增益标度因数GF和GB。在这个例子中,这通过三个分步骤完成。分步骤3a和3b可以按顺序或同时执行。 
分步骤3a 
计算仅由环境信号引起的前后增益标度因数G’F和G’B
下一步,计算分别如方程7和8所示的第一中间组的前/后摇摄增益标度因数(G’F和G’B)。这些表示了仅由环境信号的检测引起的后/前摇摄的期望量;如下所述,最终的后/前摇摄增益标度因数考虑环境摇摄和环绕图像摇摄两者。 
G F &prime; ( m , b ) = &PartialD; 0 + ( 1 - &PartialD; 0 ) &gamma; ( m , b ) , - - - ( 7 )
G B &prime; ( m , b ) = 1 - ( G F &prime; ( m , b ) ) 2 , - - - ( 8 )
其中: 
Figure G2008800188969D00173
是预定阈值并且控制可以从前声场摇摄到环绕通道中的能量的最大量。阈值 
Figure G2008800188969D00174
可以由用户选择以控制发送到环绕通道的环境内容的量。 
尽管方程7和8中对于G’F和G’B的表达是合适的并且保存了功率,但它们对于本发明不是决定性的。可以使用其中G’F和G’B一般互逆的其它关系。 
图7示出了增益标度因数G′F和G′B对比于相关系数(ρLR(m,b))的曲线图。注意,随着相关系数下降,更多能量被摇摄到环绕通道。然而,当相关系数降到某个点亦即阈值μ0之下时,信号被摇摄回到前通道。这防止原始左右通道中的硬摇摄隔离乐器被摇摄到环绕通道。图7仅示出了其中左右信号能量相等的情形;如果左右能量不同,则信号以相关系数的较高值被摇摄回到前通道。更加具体地,转折点亦即阈值μ0在相关系数的较高值处发生。 
分步骤3b 
计算仅由矩阵解码直接信号引起的前后增益标度因数G”F和G”B
至此,已描述了由于环境音频材料的检测有多少能量被投入到环绕通道中;下一个步骤是要计算仅由矩阵解码离散图像引起的期望环绕通道水平。为了计算由这样的离散图像引起的环绕通道中的能量的量,首先估计图4的相关系数的实部,如方程9所示。 
Figure G2008800188969D00175
由于矩阵编码过程(向下混合)期间的90度相移,随着原始多通道 信号中的图像在向下混合之前从前通道移动到环绕通道,相关系数的实部平滑地从0横移到-1。因此,可以构造如方程10和11所示的进一步的中间组的前/后摇摄增益标度因数。 
G″F(m,b)=1+λLR(m,b)(10) 
G B &prime; &prime; ( m , b ) = 1 - ( G F &prime; &prime; ( m , b ) ) 2 , - - - ( 11 )
其中G″F(m,b)和G″B(m,b)分别是在时间m处的用于带b的用于矩阵解码直接信号的前后增益标度因数。 
尽管方程10和11中对于G″F(m,b)和G″B(m,b)的表达是合适的并且保存了能量,但它们对于本发明不是决定性的。可以使用其中G″F(m,b)和G″B(m,b)一般互逆的其它关系。 
分步骤3c 
使用分步骤3a和3b的结果,计算最终组的前后增益标度因数GF和GB
现在如通过方程12和13给出的那样计算最终组的前后增益标度因数。 
GF(m,b)=MIN(G′F(m,b),G″F(m,b))(12) 
G B ( m , b ) = 1 - ( G F ( m , b ) ) 2 - - - ( 13 )
其中MIN指的是,如果G′F(m,b)小于G″F(m,b),则最终前增益标度因数GF(m,b)等于G′F(m,b),否则GF(m,b)等于G″F(m,b)。 
尽管方程10和11中对于GF和GB的表达是合适的并且保存了能量,但它们对于本发明不是决定性的。可以使用其中GF和GB一般互逆的其它关系。 
步骤4 
计算环境和矩阵解码直接增益标度因数GD和GA
在这一点上,已确定了由环境信号检测和矩阵解码直接信号检测两者引起的被发送到环绕通道的能量的量。然而,现在需要控制存在于环绕通道中的每个信号类型的量。为了计算控制直接和环境信号之间的交叉调配的增益标度因数(GD和GA),可以使用方程4的相关系数ρLR(m,b)。如果左右输入信号相对不相关,那么比直接信号分量更多的环境信号分量应当存在于环绕通道中;如果输入的信号很好地相关,那么比环境信号分量更多的直接信号分量应当存在于环绕通道中。因此,可以如方程14所示的那样推导用于直接/环境比率的增益标度因数。 
GD(m,b)=ρLR(m,b) 
G A ( m , b ) = ( 1 - ( &rho; LR ( m , b ) ) 2 ) , - - - ( 14 )
尽管方程14中对于GD和GA的表达是合适的并且保存了能量,但它们对于本发明不是决定性的。可以使用其中GD和GA一般互逆的其它关系。 
步骤5 
构造矩阵解码和环境信号分量 
下一步构造矩阵解码和环境信号分量。这可以通过两个分步骤来完成,这两个分步骤可以按顺序或同时执行。 
分步骤5a 
构造用于带b的矩阵解码信号分量 
例如像方程15所示的那样构造用于带b的矩阵解码信号分量。 
L &OverBar; D ( m , b ) = - &alpha; &CenterDot; L &OverBar; ( m , b ) - &beta; &CenterDot; R &OverBar; ( m , b )
R &OverBar; D ( m , b ) = &beta; &CenterDot; L &OverBar; ( m , b ) + &alpha; &CenterDot; R &OverBar; ( m , b ) , - - - ( 15 )
其中, 
Figure G2008800188969D00194
是在时间m处的带b中的来自用于左环绕通道的矩阵解码 器的矩阵解码信号分量,并且 
Figure G2008800188969D00201
是在时间m处的带b中的来自用于右环绕通道的矩阵解码器的矩阵解码信号分量。 
步骤5b 
构造用于带b的环境信号分量 
以时间平滑变换块率来动态变化的增益标度因数GA的施加起作用以推导环境信号分量(例如参见参考文献1)。可以在环境信号路径46(图6)之前或之后施加动态变化的增益标度因数GA。通过将原始左右信号的整个谱乘以解相关器的谱域表示,可以进一步增强推导的环境信号分量。因此,对于带b和时间m,例如通过方程16和17给出用于左右环绕信号的环境信号。 
L &OverBar; A ( m , b ) = L ( m , L b ) &CenterDot; D L ( L b ) L ( m , L b + 1 ) &CenterDot; D L ( L b + 1 ) &CenterDot; &CenterDot; &CenterDot; L ( m , U b - 1 ) &CenterDot; D L ( U b - 1 ) T , - - - ( 16 )
其中, 
Figure G2008800188969D00203
是在时间m处的带b中的用于左环绕通道的环境信号,并且DL(k)是在仓库(bin)k处的左通道解相关器的谱域表示。 
R &OverBar; A ( m , b ) = R ( m , L b ) &CenterDot; D R ( L b ) R ( m , L b + 1 ) &CenterDot; D R ( L b + 1 ) &CenterDot; &CenterDot; &CenterDot; R ( m , U b - 1 ) &CenterDot; D R ( U b - 1 ) T , - - - ( 17 )
其中, 
Figure G2008800188969D00205
是在时间m处的带b中的用于右环绕通道的环境信号,并且DR(k)是在仓库k处的右通道解相关器的谱域表示。 
步骤6 
施加增益标度因数GB、GD、GA以获得环绕通道信号 
在已推导控制信号增益GB、GD、GA(步骤3和4)以及矩阵解码和环境信号分量(步骤5)之后,可以如图6所示施加它们以获得每个带中的最终环绕通道信号。现在可以通过方程18给出最终输出的左右环绕信号。 
L &OverBar; S ( m , b ) = G B &CenterDot; ( G A &CenterDot; L &OverBar; A ( m , b ) + G D &CenterDot; L &OverBar; D ( m , b ) )
R &OverBar; S ( m , b ) = G B &CenterDot; ( G A &CenterDot; R &OverBar; A ( m , b ) + G D &CenterDot; R &OverBar; D ( m , b ) ) - - - ( 18 )
其中 
Figure G2008800188969D00213
和 
Figure G2008800188969D00214
是在时间m处的带b中的最终左右环绕通道信号。 
如结合步骤5b在上面注意到的那样,将会意识到的是,以时间平滑变换块率来动态变化的增益标度因数GA的施加可以被认为是推导环境信号分量。 
环绕声通道计算可以总结如下。 
1.将输入信号中的每一个分组成带(方程2和3)。 
2.计算每个带中的两个输入信号之间的交叉相关的测度。 
a.计算交叉相关的减少时间偏差(时间平滑)测度(方程4) 
b.构造交叉相关的偏置测度(方程5) 
c.组合交叉相关的无偏和偏置测度(方程6) 
3.计算前后增益标度因数GF和GB。 
a.计算仅由环境信号引起的前后增益标度因数G’F和G’B(方程7、8) 
b.计算仅由矩阵解码直接信号引起的前后增益标度因数G”F和G”B(方程10、11) 
c.使用分步骤3a和3b的结果,计算最终组的前后增益标度因数GF和GB(方程12、13) 
4.计算环境和矩阵解码直接增益标度因数GD和GA(方程14) 
5.构造矩阵解码和环境信号分量 
a.构造用于带b的矩阵解码信号分量(方程15) 
b.构造用于带b的环境信号分量(方程16、17,施加GA
6.向构造的信号分量施加增益标度因数GB、GD、GA以获得环绕通道信号(方程18) 
备选方案 
本发明的方面的一种适当实施使用处理步骤或者装置,所述装置执行各个处理步骤并且如上所述在功能上相关。尽管上面列举的步骤可以每个由按照上面列举的步骤的顺序运行的计算机软件指令序列执行,但是将会理解的是,在考虑到某些量从较早的量导出的同时,可以通过以其它方式排序的步骤获得等价或类似的结果。例如,可以使用多线程计算机软件指令序列,以便并行执行某些步骤序列。作为另一个例子,上述例子中某些步骤的排序是任意的,并且可以改变而不影响结果——例如,分步骤3a和3b可以颠倒,并且分步骤5a和5b可以颠倒。而且,如从对方程18的检查中将会明显的那样,增益标度因数GB不需要与增益标度因数GA和GD的计算分开计算——可以以方程18的其中将增益标度因数GB放到括号之内的修改形式来计算和使用单个增益标度因数GB·GA和单个增益标度因数GB·GD。代替地,描述的步骤可以被实施为执行所述功能的装置,各种装置具有如上所述的功能相互关系。 
用于环绕通道的解相关器 
为了改善前通道和环绕通道之间的分离(或者为了强调原始音频材料的包络),可以向环绕通道施加解相关。如下一步描述的那样,解相关可以类似于参考文献5中提议的那些。尽管下一步描述的解相关器已被发现特别适合,但它的使用对于本发明不是决定性的,并且可以使用其它解相关技术。 
每个滤波器的脉冲响应可以被规定为有限长度正弦序列,它的瞬时频率在序列的持续时间之上从π到零单调下降: 
h i [ n ] = G i | &omega; i &prime; ( n ) | cos ( &phi; i ( n ) ) , n=0...Li
φi(t)=∫ωi(t)dt,(19) 
其中,ωi(t)是单调下降的瞬时频率函数,ω′i(t)是瞬时频率的一阶导数,φi(t)是通过瞬时频率的积分给出的瞬时相位,并且Li是滤波器的长度。需要乘法项 以使hi[n]的频率响应跨越全部频率近似平坦,并且增益Gi被计算使得: 
&Sigma; n = 0 L i h i 2 [ n ] = 1 , - - - ( 20 )
规定的脉冲响应具有啁啾声状序列的形式,结果,用这样的滤波器过滤音频信号有时可能导致在过渡的位置处的听觉“啁啾声”假象。通过将噪声项添加到滤波器响应的瞬时相位可以减少这个效果: 
h i [ n ] = G i | &omega; i &prime; ( n ) | cos ( &phi; i ( n ) + N i [ n ] ) , - - - ( 21 )
使这个噪声序列Ni[n]等于具有作为π的一小部分的偏差的白高斯噪声足以使脉冲响应听起来与像啁啾声相比更像噪声,同时仍然很大程度上维持ωi(t)所规定的延迟和频率之间的期望关系。 
在非常低的频率处,啁啾声序列所产生的延迟非常长,这样一来,当向上混合的音频材料向下混合回到两个通道时,就导致听觉凹口(notch)。为了减少这个假象,可以以2.5kHz之下的频率用90度相位翻转替换啁啾声序列。使用以对数间隔发生的翻转,在正负90度之间翻转相位。 
因为向上混合系统使用具有足够零填充(在上面描述)的STDFT,所以使用谱域中的乘法可以施加通过方程21给出的解相关器滤波器。 
实施 
本发明可以用硬件或软件或两者的组合(例如可编程逻辑阵列)来实施。除非另外规定,否则作为本发明的一部分而包括的算法或过程并不固有地与任何具体的计算机或其它设备相关。特别地,各种通用机器可以与根据此处教导而编写的程序一起使用,或者可以更加方便地构造更专业化的设备(例如集成电路)来执行需要的方法步骤。这样一来,本发明就可以用执行于一个或多个可编程计算机系统上的一个或多个计算机程序来实施,所述可编程计算机系统每个包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入装置或端口以及至少一个输出装置或端口。程序代码被施加到输入的数据,以执行在此描述的功能并生成输出信息。输出信息以已知的方式被施加到一个或多个输出装置。 
每个这样的程序可以用任何期望的计算机语言(包括机器、汇编或高级程序上的、逻辑的或面向对象的编程语言)来实施以与计算机系统通信。在任何情况下,语言都可以是编译或解释语言。 
每个这样的计算机程序优选地存储在或下载到可由通用或专用可编程计算机读取的存储介质或装置(例如固态存储器或介质或者磁性或光学介质),用于当存储介质或装置由计算机系统读取时配置和操作计算机以执行在此描述的过程。本发明也可以被认为是被实施为计算机可读存储介质,配置有计算机程序,其中如此配置的存储介质使计算机系统以特定和预定的方式操作以执行在此描述的功能。 
已描述了本发明的若干实施例。尽管如此,将会理解的是,可以在不脱离本发明的精神和范围的情况下进行各种修改。例如,如同样在上面提到的那样,在此描述的步骤中的一些可以是顺序自主的,并且这样一来就可以以与所描述的顺序不同的顺序来执行。 

Claims (44)

1.一种用于从两个输入的音频信号获得两个环绕声音频通道的方法,该方法包括:
从所述音频信号获得环境信号分量;
从所述音频信号获得矩阵解码信号分量;以及
对环境信号分量和矩阵解码信号分量进行可控组合以提供所述环绕声音频通道,其中所述可控组合包括施加增益标度因数。
2.根据权利要求1所述的方法,其中,获得环境信号分量包括向输入的音频信号施加动态变化的环境信号分量增益标度因数,并且其中所述增益标度因数包括在获得环境信号分量时施加的动态变化的环境信号分量增益标度因数。
3.根据权利要求2所述的方法,其中,获得矩阵解码信号分量包括施加矩阵解码至输入的所述音频信号,所述矩阵解码适合于提供每个与后环绕声方向相关联的第一和第二音频信号,并且其中所述增益标度因数进一步包括向与后环绕声方向相关联的第一和第二音频信号中的每一个施加的动态变化的矩阵解码信号分量增益标度因数。
4.根据权利要求3所述的方法,其中,所述矩阵解码信号分量增益标度因数是输入的所述音频信号的交叉相关的测度的函数。
5.根据权利要求4所述的方法,其中,动态变化的矩阵解码信号分量增益标度因数随着交叉相关度增加而增加,并且随着交叉相关度减少而减少。
6.根据权利要求5所述的方法,其中,动态变化的矩阵解码信号分量增益标度因数和动态变化的环境信号分量增益标度因数以保存矩阵解码信号分量和环境信号分量的组合能量的方式相对于彼此增加和减少。
7.根据权利要求3-6中任何一项所述的方法,其中,所述增益标度因数进一步包括用于进一步控制环绕声音频通道增益的动态变化的环绕声音频通道的增益标度因数。
8.根据权利要求7所述的方法,其中,环绕声音频通道的增益标度因数是输入的所述音频信号的交叉相关的测度的函数。
9.根据权利要求8所述的方法,其中,所述函数使环绕声音频通道增益标度因数随着交叉相关的测度减少而增加直到下述值,在所述值之下,环绕声音频通道的增益标度因数随着交叉相关的测度减少而减少。
10.根据权利要求9所述的方法,其中,所述方法在时间频率域中执行。
11.根据权利要求10所述的方法,其中,所述方法在时间频率域中的一个或多个频带中执行。
12.根据权利要求2所述的方法,其中,所述环境信号分量增益标度因数是输入的所述音频信号的交叉相关的测度的函数。
13.根据权利要求12所述的方法,其中,所述环境信号分量增益标度因数随着交叉相关度增加而下降,反之亦然。
14.根据权利要求12或13所述的方法,其中,交叉相关的所述测度是时间平滑的。
15.根据权利要求14所述的方法,其中,通过使用信号相关泄漏积分器来使交叉相关的所述测度时间平滑。
16.根据权利要求14所述的方法,其中,通过使用移动平均来使交叉相关的所述测度时间平滑。
17.根据权利要求14所述的方法,其中,所述时间平滑是信号自适应的。
18.根据权利要求15或16所述的方法,其中,所述时间平滑是信号自适应的。
19.根据权利要求18所述的方法,其中,所述时间平滑响应于谱分布的变化而适应。
20.根据权利要求1所述的方法,其中,获得环境信号分量包括施加至少一个解相关滤波器序列。
21.根据权利要求20所述的方法,其中,相同的解相关滤波器序列被施加到输入的所述音频信号中的每一个。
22.根据权利要求20所述的方法,其中,不同的解相关滤波器序列被施加到输入的所述音频信号中的每一个。
23.一种用于从两个输入的音频信号获得两个环绕声音频通道的设备,该设备包括:
用于从所述音频信号获得环境信号分量的装置;
用于从所述音频信号获得矩阵解码信号分量的装置;以及
用于对环境信号分量和矩阵解码信号分量进行可控组合以提供所述环绕声音频通道的装置,其中所述可控组合包括施加增益标度因数。
24.根据权利要求23所述的设备,其中,用于从所述音频信号获得环境信号分量的装置包括用于向输入的音频信号施加动态变化的环境信号分量增益标度因数的装置,并且其中所述增益标度因数包括在获得环境信号分量时施加的动态变化的环境信号分量增益标度因数。
25.根据权利要求24所述的设备,其中,用于从所述音频信号获得矩阵解码信号分量的装置包括用于施加矩阵解码至输入的所述音频信号的装置,所述矩阵解码适合于提供每个与后环绕声方向相关联的第一和第二音频信号,并且其中所述增益标度因数进一步包括向与后环绕声方向相关联的第一和第二音频信号中的每一个施加的动态变化的矩阵解码信号分量增益标度因数。
26.根据权利要求25所述的设备,其中,所述矩阵解码信号分量增益标度因数是输入的所述音频信号的交叉相关的测度的函数。
27.根据权利要求26所述的设备,其中,动态变化的矩阵解码信号分量增益标度因数随着交叉相关度增加而增加,并且随着交叉相关度减少而减少。
28.根据权利要求27所述的设备,其中,动态变化的矩阵解码信号分量增益标度因数和动态变化的环境信号分量增益标度因数以保存矩阵解码信号分量和环境信号分量的组合能量的方式相对于彼此增加和减少。
29.根据权利要求25-28中任何一项所述的设备,其中,所述增益标度因数进一步包括用于进一步控制环绕声音频通道增益的动态变化的环绕声音频通道的增益标度因数。
30.根据权利要求29所述的设备,其中,环绕声音频通道的增益标度因数是输入的所述音频信号的交叉相关的测度的函数。
31.根据权利要求30所述的设备,其中,所述函数使环绕声音频通道增益标度因数随着交叉相关的测度减少而增加直到下述值,在所述值之下,环绕声音频通道的增益标度因数随着交叉相关的测度减少而减少。
32.根据权利要求31所述的设备,其中,所述设备在时间频率域中使用。
33.根据权利要求32所述的设备,其中,所述设备在时间频率域中的一个或多个频带中使用。
34.根据权利要求24所述的设备,其中,所述环境信号分量增益标度因数是输入的所述音频信号的交叉相关的测度的函数。
35.根据权利要求34所述的设备,其中,所述环境信号分量增益标度因数随着交叉相关度增加而下降,反之亦然。
36.根据权利要求34或35所述的设备,其中,交叉相关的所述测度是时间平滑的。
37.根据权利要求36所述的设备,其中,通过使用信号相关泄漏积分器来使交叉相关的所述测度时间平滑。
38.根据权利要求36所述的设备,其中,通过使用移动平均来使交叉相关的所述测度时间平滑。
39.根据权利要求36所述的设备,其中,所述时间平滑是信号自适应的。
40.根据权利要求37或38所述的设备,其中,所述时间平滑是信号自适应的。
41.根据权利要求40所述的设备,其中,所述时间平滑响应于谱分布的变化而适应。
42.根据权利要求23所述的设备,其中,用于从所述音频信号获得环境信号分量的装置包括用于施加至少一个解相关滤波器序列的装置。
43.根据权利要求42所述的设备,其中,相同的解相关滤波器序列被施加到输入的所述音频信号中的每一个。
44.根据权利要求42所述的设备,其中,不同的解相关滤波器序列被施加到输入的所述音频信号中的每一个。
CN2008800188969A 2007-06-08 2008-06-06 用于从两个输入的音频信号获得两个环绕声音频通道的方法和设备 Expired - Fee Related CN101681625B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US93378907P 2007-06-08 2007-06-08
US60/933,789 2007-06-08
PCT/US2008/007128 WO2008153944A1 (en) 2007-06-08 2008-06-06 Hybrid derivation of surround sound audio channels by controllably combining ambience and matrix-decoded signal components

Publications (2)

Publication Number Publication Date
CN101681625A CN101681625A (zh) 2010-03-24
CN101681625B true CN101681625B (zh) 2012-11-07

Family

ID=39743799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008800188969A Expired - Fee Related CN101681625B (zh) 2007-06-08 2008-06-06 用于从两个输入的音频信号获得两个环绕声音频通道的方法和设备

Country Status (11)

Country Link
US (1) US9185507B2 (zh)
EP (1) EP2162882B1 (zh)
JP (1) JP5021809B2 (zh)
CN (1) CN101681625B (zh)
AT (1) ATE493731T1 (zh)
BR (1) BRPI0813334A2 (zh)
DE (1) DE602008004252D1 (zh)
ES (1) ES2358786T3 (zh)
RU (1) RU2422922C1 (zh)
TW (1) TWI527473B (zh)
WO (1) WO2008153944A1 (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007104877A1 (fr) * 2006-03-13 2007-09-20 France Telecom Synthese et spatialisation sonores conjointes
DE602007007457D1 (de) * 2006-03-13 2010-08-12 Dolby Lab Licensing Corp Ableitung von mittelkanalton
US8580622B2 (en) 2007-11-14 2013-11-12 Invensas Corporation Method of making integrated circuit embedded with non-volatile programmable memory having variable coupling
US7876615B2 (en) 2007-11-14 2011-01-25 Jonker Llc Method of operating integrated circuit embedded with non-volatile programmable memory having variable coupling related application data
CN102017402B (zh) 2007-12-21 2015-01-07 Dts有限责任公司 用于调节音频信号的感知响度的系统
TWI413109B (zh) * 2008-10-01 2013-10-21 Dolby Lab Licensing Corp 用於上混系統之解相關器
US8203861B2 (en) 2008-12-30 2012-06-19 Invensas Corporation Non-volatile one-time—programmable and multiple-time programmable memory configuration circuit
EP2396637A1 (en) * 2009-02-13 2011-12-21 Nokia Corp. Ambience coding and decoding for audio applications
CN101848412B (zh) 2009-03-25 2012-03-21 华为技术有限公司 通道间延迟估计的方法及其装置和编码器
EP2430566A4 (en) * 2009-05-11 2014-04-02 Akita Blue Inc EXTRACTION OF GENERAL AND SPECIAL COMPONENTS FROM PAIRS OF ARBITRARY SIGNALS
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US8831934B2 (en) * 2009-10-27 2014-09-09 Phonak Ag Speech enhancement method and system
US8786852B2 (en) 2009-12-02 2014-07-22 Lawrence Livermore National Security, Llc Nanoscale array structures suitable for surface enhanced raman scattering and methods related thereto
TWI444989B (zh) * 2010-01-22 2014-07-11 Dolby Lab Licensing Corp 針對改良多通道上混使用多通道解相關之技術
EP2523473A1 (en) * 2011-05-11 2012-11-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an output signal employing a decomposer
CA2848275C (en) 2012-01-20 2016-03-08 Sascha Disch Apparatus and method for audio encoding and decoding employing sinusoidal substitution
US9986356B2 (en) * 2012-02-15 2018-05-29 Harman International Industries, Incorporated Audio surround processing system
US9395304B2 (en) 2012-03-01 2016-07-19 Lawrence Livermore National Security, Llc Nanoscale structures on optical fiber for surface enhanced Raman scattering and methods related thereto
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
WO2014035902A2 (en) * 2012-08-31 2014-03-06 Dolby Laboratories Licensing Corporation Reflected and direct rendering of upmixed content to individually addressable drivers
US9830917B2 (en) 2013-02-14 2017-11-28 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
TWI618050B (zh) * 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
WO2014126689A1 (en) 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for controlling the inter-channel coherence of upmixed audio signals
US9979829B2 (en) 2013-03-15 2018-05-22 Dolby Laboratories Licensing Corporation Normalization of soundfield orientations based on auditory scene analysis
KR102081043B1 (ko) * 2013-04-05 2020-02-26 돌비 레버러토리즈 라이쎈싱 코오포레이션 향상된 스펙트럼 확장을 사용하여 양자화 잡음을 감소시키기 위한 압신 장치 및 방법
JP6515802B2 (ja) * 2013-04-26 2019-05-22 ソニー株式会社 音声処理装置および方法、並びにプログラム
EP2830054A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework
JP6186503B2 (ja) 2013-10-03 2017-08-23 ドルビー ラボラトリーズ ライセンシング コーポレイション アップミキサーにおける適応的な拡散性信号生成
JP5981408B2 (ja) * 2013-10-29 2016-08-31 株式会社Nttドコモ 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム
DE102014100049A1 (de) * 2014-01-05 2015-07-09 Kronoton Gmbh Verfahren zur Audiowiedergabe in einem Mehrkanaltonsystem
EP2980789A1 (en) * 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
TWI615040B (zh) * 2016-06-08 2018-02-11 視訊聮合科技股份有限公司 多功能模組式音箱
CN109640242B (zh) * 2018-12-11 2020-05-12 电子科技大学 音频源分量及环境分量提取方法
US11656848B2 (en) * 2019-09-18 2023-05-23 Stmicroelectronics International N.V. High throughput parallel architecture for recursive sinusoid synthesizer
WO2024216494A1 (en) * 2023-04-18 2024-10-24 Harman International Industries, Incorporated Method for multichannel audio reconstruction and speaker system using the method

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1046801A (zh) * 1989-04-27 1990-11-07 深圳大学视听技术研究所 电影立体声解码及处理方法
US7076071B2 (en) * 2000-06-12 2006-07-11 Robert A. Katz Process for enhancing the existing ambience, imaging, depth, clarity and spaciousness of sound recordings

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6193100A (ja) 1984-10-02 1986-05-12 極東開発工業株式会社 貯蔵タンクの収容液種判別装置
JPS6193100U (zh) * 1984-11-22 1986-06-16
JP2512038B2 (ja) * 1987-12-01 1996-07-03 松下電器産業株式会社 音場再生装置
US5251260A (en) * 1991-08-07 1993-10-05 Hughes Aircraft Company Audio surround system with stereo enhancement and directivity servos
JP2660614B2 (ja) 1991-08-21 1997-10-08 日野自動車工業株式会社 クレーンを搭載したトラックの支持装置
DE4409368A1 (de) 1994-03-18 1995-09-21 Fraunhofer Ges Forschung Verfahren zum Codieren mehrerer Audiosignale
US6697491B1 (en) * 1996-07-19 2004-02-24 Harman International Industries, Incorporated 5-2-5 matrix encoder and decoder system
FI116990B (fi) 1997-10-20 2006-04-28 Nokia Oyj Menetelmä ja järjestelmä akustisen virtuaaliympäristön käsittelemiseksi
RU2193827C2 (ru) 1997-11-14 2002-11-27 В. Вейвс (Сша) Инк. Постусилительная схема декодирования стереофонического звука в окружающий звук
US7003467B1 (en) * 2000-10-06 2006-02-21 Digital Theater Systems, Inc. Method of decoding two-channel matrix encoded audio to reconstruct multichannel audio
US7039198B2 (en) * 2000-11-10 2006-05-02 Quindi Acoustic source localization system and method
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7283954B2 (en) * 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
MXPA03010237A (es) * 2001-05-10 2004-03-16 Dolby Lab Licensing Corp Mejoramiento del funcionamiento de transitorios en sistemas de codificacion de audio de baja tasa de transferencia de bitios mediante la reduccion del pre-ruido.
AU2002358225A1 (en) 2001-12-05 2003-06-17 Koninklijke Philips Electronics N.V. Circuit and method for enhancing a stereo signal
US20040086130A1 (en) 2002-05-03 2004-05-06 Eid Bradley F. Multi-channel sound processing systems
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7508947B2 (en) * 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
US20060262936A1 (en) * 2005-05-13 2006-11-23 Pioneer Corporation Virtual surround decoder apparatus
EP1927102A2 (en) 2005-06-03 2008-06-04 Dolby Laboratories Licensing Corporation Apparatus and method for encoding audio signals with decoding instructions
JP2007028065A (ja) 2005-07-14 2007-02-01 Victor Co Of Japan Ltd サラウンド再生装置
TWI396188B (zh) 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
DE602007007457D1 (de) 2006-03-13 2010-08-12 Dolby Lab Licensing Corp Ableitung von mittelkanalton
US8144881B2 (en) 2006-04-27 2012-03-27 Dolby Laboratories Licensing Corporation Audio gain control using specific-loudness-based auditory event detection
US7844453B2 (en) * 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US8345899B2 (en) * 2006-05-17 2013-01-01 Creative Technology Ltd Phase-amplitude matrixed surround decoder
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US8213623B2 (en) * 2007-01-12 2012-07-03 Illusonic Gmbh Method to generate an output audio signal from two or more input audio signals

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1046801A (zh) * 1989-04-27 1990-11-07 深圳大学视听技术研究所 电影立体声解码及处理方法
US7076071B2 (en) * 2000-06-12 2006-07-11 Robert A. Katz Process for enhancing the existing ambience, imaging, depth, clarity and spaciousness of sound recordings

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CARLOS AVENDANO AND JEAN-MARC JOT.FREQUENCY DOMAIN TECHNIQUES FOR STEREO TO MULTICHANNEL UPMIX.《AES 22nd International Conference on Virtual, Synthetic and Entertainment Audio》.2002, *

Also Published As

Publication number Publication date
RU2422922C1 (ru) 2011-06-27
TWI527473B (zh) 2016-03-21
ATE493731T1 (de) 2011-01-15
EP2162882A1 (en) 2010-03-17
WO2008153944A1 (en) 2008-12-18
JP2010529780A (ja) 2010-08-26
BRPI0813334A2 (pt) 2014-12-23
EP2162882B1 (en) 2010-12-29
TW200911006A (en) 2009-03-01
CN101681625A (zh) 2010-03-24
US20100177903A1 (en) 2010-07-15
US9185507B2 (en) 2015-11-10
DE602008004252D1 (de) 2011-02-10
JP5021809B2 (ja) 2012-09-12
ES2358786T3 (es) 2011-05-13

Similar Documents

Publication Publication Date Title
CN101681625B (zh) 用于从两个输入的音频信号获得两个环绕声音频通道的方法和设备
EP2002692B1 (en) Rendering center channel audio
CN102163429B (zh) 用于处理去相干信号或组合信号的设备和方法
KR101256555B1 (ko) 청각 이벤트의 함수에 따라서 공간 오디오 코딩파라미터들을 제어
KR101251426B1 (ko) 디코딩 명령으로 오디오 신호를 인코딩하기 위한 장치 및방법
KR100803344B1 (ko) 멀티채널 출력 신호를 구성하고 다운믹스 신호를 생성하기위한 장치 및 방법
CN101543098B (zh) 产生输出信号的去相关器和方法以及产生多声道输出信号的音频解码器
CN107005778A (zh) 用于双耳渲染的音频信号处理设备和方法
EP3745744A2 (en) Audio processing
US9794716B2 (en) Adaptive diffuse signal generation in an upmixer
JP7348304B2 (ja) 出力ダウンミックス表現を生成するための装置及びコンピュータプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121107

Termination date: 20170606