CN102089809B - 用于提供改进的音频处理的方法、装置 - Google Patents
用于提供改进的音频处理的方法、装置 Download PDFInfo
- Publication number
- CN102089809B CN102089809B CN2009801274631A CN200980127463A CN102089809B CN 102089809 B CN102089809 B CN 102089809B CN 2009801274631 A CN2009801274631 A CN 2009801274631A CN 200980127463 A CN200980127463 A CN 200980127463A CN 102089809 B CN102089809 B CN 102089809B
- Authority
- CN
- China
- Prior art keywords
- channel
- bands
- time
- spectrum
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims description 49
- 238000004458 analytical method Methods 0.000 claims abstract description 30
- 230000004048 modification Effects 0.000 claims description 22
- 238000012986 modification Methods 0.000 claims description 22
- 238000011084 recovery Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims 25
- 230000003595 spectral effect Effects 0.000 abstract description 31
- 238000004891 communication Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 18
- 238000004590 computer program Methods 0.000 description 13
- 230000007246 mechanism Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 6
- 239000002131 composite material Substances 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 238000009499 grossing Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 240000001973 Ficus microcarpa Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2227/00—Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
- H04R2227/003—Digital PA systems using, e.g. LAN or internet
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2420/00—Details of connection covered by H04R, not provided for in its groups
- H04R2420/07—Applications of wireless loudspeakers or wireless microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R27/00—Public address systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/07—Synergistic effects of band splitting and sub-band processing
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Stereophonic System (AREA)
Abstract
一种用于实现改善的音频处理的装置,其可包括处理器。该处理器可配置用于将多声道音频输入信号的每个声道的相应信号划分成对应于相应的分析帧的一个或多个谱带,针对至少一个谱带从所述多声道音频输入信号的声道中选择主导声道,确定针对至少一个声道的至少一个谱带的时移值,以及至少部分地基于所述时移值,时间对齐所述声道。
Description
技术领域
本发明的实施例总的来说涉及音频处理技术,更具体地涉及用于提供改进的音频编码的方法、装置及计算机程序产品。
背景技术
现代通讯时代已经带来了有线和无线网络的巨大扩展。计算机网络、电视网络和电话网络正经历着一场由消费需求带动的前所未有的技术扩张。无线和移动联网技术已经解决了相关的消费需求,同时为信息传递提供更多的灵活性和即时性。
当前和未来的联网技术将继续便于信息传递和方便用户。其中需要提高信息传递的便利的一个领域涉及提供能递送声音内容或声音通信的优质的音频表示的设备。多声道音频编码涉及对两个或更多的音频声道一起编码,其是旨在改善关于提供优质音频信号的设备能力的机制的一个例子。特别是,因为在许多使用情形下输入信号的声道可能会有相对类似的内容,声道的联合编码可以支持相对高效的编码并且具有比用于以其他方式对每个声道单独编码的比特率更低的比特率。
最近的多声道编码方法称为参数立体声编码,或参数多声道编码。参数多声道编码一般将一个或多个单声道信号-通常被称为缩混信号-计算作为输入信号组的线性组合。每个单声道信号可以使用传统的单声道音频编码器进行编码。除了创建和编码单声道信号,参数多声道音频编码器可以提取出输入信号的声道的参数表示。参数可以包括关于输入声道间的声级、相位、时间、相干性差异等的信息。在解码器端,参数信息可被用来从接收的解码的单声道信号创建多声道输出信号。
参数多声道编码方法代表多声道编码方法的一个例子,比如双耳线索编码(BCC),其使得可能以合理的比特率实现高品质立体声或多声道重建。空间声像的压缩基于产生和传输从一组输入信号导出的一个或多个缩混的信号,连同一组空间线索。由此,解码器可利用接收的缩混的信号和空间线索以用于合成具有接收到的空间线索所描述的空间属性的一组声道,其中声道的数目不一定与输入信号中的相同。
空间线索通常包括声道间声级差(ICLD)、声道间时间差(ICTD)和声道间相干性/相关性(ICC)。ICLD和ICTD通常描述源于实际的音频源的信号,而ICC通常旨在通过引入音频声像的漫反射成分,如混响、环境音效等,来增强空间感。空间线索通常是针对每个频带单独提供的。此外,空间线索可以在任意声道对之间,例如在选定的参考声道与每个“子声道”之间被计算或提供。
双耳信号是代表三维音频声像的立体声信号的特殊情况。这种信号针对声道之间的时间差和“头影效应”建立模型,这可例如通过在某些频带降低音量来完成。在某些情况下,双耳音频信号可以通过使用仿真人头或其他类似装置记录音频信号而被创建,或者可以从预先录制的音频信号通过使用特殊的滤波而被创建,其中该特殊滤波实现旨在对“头影效应”建模的头部相关传递函数(HRTF),从而向两只耳朵提供适当的经修改的信号。
由于经编码的音频信号的声道之间的时间和幅度的差异的正确表示对于通常在多声道音频编码中并且特别地在双耳编码中所产生的感知的音频质量而言是重要因素,因此可能期望引入特别注意这些方面的机制。
发明内容
因此,提供了方法、装置和计算机程序产品以用于提供改善的音频编码/解码机制。根据本发明示例实施例,通过声道信号的时间对齐,多个声道可以有效地组合成一个声道。因此,例如,声道间的时间差 可以在编码器端被移除并在解码器端恢复。此外,本发明的实施例可以支持时间对齐,由于输入信号可能在不同的时间和频率位置上具有不同的时间对齐和/或具有占用相同的时间-频率位置的若干信号源,因此上述时间对齐可以在不同的时间和不同的频率位置上被跟踪。
在一个示例实施例,提供了提供改善的音频编码的方法。该方法可以包括将多声道音频输入信号的每个声道的相应信号划分成对应于相应的分析帧的一个或多个谱带,针对至少一个谱带从所述多声道音频输入信号的声道中选择主导声道,确定针对至少一个声道的至少一个谱带的时移值,以及至少部分地基于所述时移值,时间对齐所述声道。
在另一示例实施例,提供了用于提供改善的音频编码的计算机程序产品。所述计算机程序产品包括至少一个计算机可读存储介质,所述计算机可读存储介质上存储有计算机可执行程序代码部分。所述计算机可执行程序代码部分可包括第一、第二、第三和第四程序代码部分。第一程序代码部分用于将多声道音频输入信号的每个声道的相应信号划分成对应于相应的分析帧的一个或多个谱带。第二程序代码部分用于针对至少一个谱带从所述多声道音频输入信号的声道中选择主导声道。第三程序代码部分用于确定针对至少一个声道的至少一个谱带的时移值。第四程序代码部分用于至少部分地基于所述时移值,时间对齐所述声道。
在另一示例实施例,提供了用于提供改善的音频编码的装置。所述装置可包括处理器。所述处理器可配置为将多声道音频输入信号的每个声道的相应信号划分成对应于相应的分析帧的一个或多个谱带,针对至少一个谱带从所述多声道音频输入信号的声道中选择主导声道,确定针对至少一个声道的至少一个谱带的时移值,以及至少部分地基于所述时移值来时间对齐所述声道。
在另一示例实施例,提供了提供改善的音频编码的方法。该方法可包括将时间对齐的经解码的音频输入信号划分成对应于多声道的相应分析帧的谱带,针对谱带中的每个谱带、为主导声道之外的声道 接收相对于主导声道的时移值,以及使用所述时移值恢复在所述多声道之间的时间差,以提供合成的多声道输出信号。
在另一示例实施例中,提供了用于提供改善的音频编码的计算机程序产品。所述计算机程序产品包括至少一个计算机可读存储介质,所述计算机可读存储介质上存储有计算机可执行程序代码部分。所述计算机可执行程序代码部分可包括第一、第二和第三程序代码部分。第一程序代码部分用于将时间对齐的经解码的音频输入信号划分成对应于多声道的相应分析帧的谱带。第二程序代码部分用于针对谱带中的每个谱带、为主导声道之外的声道接收相对于主导声道的时移值。第三程序代码部分用于使用所述时移值恢复在所述多声道之间的时间差,以提供合成的多声道输出信号。
在另一示例实施例,提供了用于提供改善的音频编码的装置。所述装置可包括处理器。所述处理器可配置为将时间对齐的经解码的音频输入信号划分成对应于多声道的相应分析帧的谱带,针对谱带中的每个谱带、为主导声道之外的声道接收相对于主导声道的时移值,以及使用所述时移值恢复在所述多声道之间的时间差,以提供合成的多声道输出信号。
本发明的实施例可提供用于在音频编码/解码应用中使用的方法、装置和计算机程序产品。因此,例如,移动终端及其他电子设备可得益于针对音频编码和解码操作的改善的质量。
附图说明
上面已经概括性地描述了本发明的实施例,现在将参考附图,附图并不一定按比例绘制,其中:
图1示出了根据本发明的示例实施例的用于提供音频处理的系统框图;
图2示出了根据本发明的示例实施例的示例分析窗口;
图3示出了根据本发明的示例实施例的用于提供音频处理的备选系统的框图;
图4示出了根据本发明的示例实施例的用于提供音频处理的装置的框图;
图5是根据本发明的示例实施例的用于提供音频编码的示例方法的流程图;以及
图6是根据本发明的示例实施例的用于提供音频解码的示例方法的流程图。
具体实施方式
现在参照附图在下文更充分地描述本发明的实施例,其中示出了本发明的部分但并非全部的实施例。事实上,本发明可以体现为许多不同的形式,而不应被理解为局限于本文阐述的实施例,而是提供这些实施例使得这一公开满足适用的法规要求。相同的参考数字在全文是指相同的元件。
代表同一音频源的多声道音频信号的声道互相间通常有相似之处。在许多情况下,声道信号的区别主要在于幅度和相位。这对于双耳信号可能尤其显著,其中在双耳信号中相位差是形成感知的空间音频声像的重要方面之一。在实践中相位差可表示为不同声道的信号之间的时间差。该时间差在不同频带可能是不同的,该时间差可能随瞬间时刻的不同而变化。
在典型的多声道编码方法中,其中单声道信号-即缩混的信号-作为输入信号的声道的线性组合而被创建,单声道信号可成为这样的信号的组合,即这些信号可能具有基本上类似的内容但相互间可能有时间差。从这种组合的信号可能无法生成在感知上具有相对于输入信号同等特性的输出信号的声道。因此,可能有益的是,特别注意对相位-或时间差-信息的处理,以支持高品质的重现,尤其是在双耳信号的情况下。
图1示出了根据本发明的示例实施例的用于提供音频处理的系统框图。在这方面,图1及其相应的描述代表了用于对双耳信号和其他立体声或多声道信号进行编码的现有立体声编码方法的扩展,其中 时间差可能存在于输入声道之间。关于时间差我们指的是在多声道信号的声道上相应的音频事件的发生之间的时间上的差异-例如表示为毫秒或表示为信号抽样数量。如图1所示,本发明示例实施例可以估计时间差,并在启动立体声编码之前对某些声道施加适当的时移以移除输入声道之间的时间差。在解码端,可通过补偿有可能施加在编码器端的时移来复原输入声道之间的时间差,使得立体声解码器的输出引入原来包括在编码器端的输入信号中的时间差。虽然本文提供的这个示例实施例使用两个输入和输出声道以及立体声编码器和立体声解码器进行描述,但是此描述同样适用于由两个或更多的声道组成并采用多声道编码器和多声道解码器的任何多声道信号。
现在参考图1,用于提供音频处理的系统包括延时移除设备10、立体声编码器12、立体声解码器14和延时恢复设备16。延时移除设备10、立体声编码器12、立体声解码器14和延时恢复设备16中的每个可以是具体化为硬件、软件或硬件和软件的组合的任何装置或设备,其用于分别执行延时移除设备10、立体声编码器12、立体声解码器14和延时恢复设备16的相应功能。
在示例实施例中,延时移除设备10被配置用于估计输入声道之间的时间差以及通过在需要时对某些输入声道施加时移来时间对齐输入信号。在这方面,例如,如果输入信号18包括两个声道,比如左声道L和右声道R,则延时移除设备10被配置用于移除左声道L和右声道R的相应信号部分之间的任何时间差。此相应信号部分可以是在时间上偏移,例如,由于捕捉特定声音事件的麦克风之间的距离(例如,在离声源较近的麦克风位置听到声音的开始,几毫秒后在离声源较远的麦克风位置听到同一声音的开始)。可采用许多替代的方法来移除和恢复时间差,其中的一些方法在本文以示例的方式而不是以限制的方式描述。在示例实施例中,使用重叠的块或帧来执行对输入信号18的处理。但是,在替代的例子中,可以利用不重叠的块,如在下面更详细描述的。
在示例实施例中,延时移除设备10可包括或具体化为滤波器组。 在某些情况下,滤波器组可以是非均匀的,使得某些频带比其他频带更窄。例如,在低频处滤波器组的频带可能较窄,而在高频处滤波器组的频带可能较宽。这种划分频带的一个例子是对所谓的临界频带的划分,这些频带为人类听觉系统的特性建立了模型,其随着频率的增高引入降低的主观频率分辨率。滤波器组将输入信号18的每个声道(例如,左声道L和右声道R)划分成特定数量的频带B。左声道L的频带描述为L1,L2,L3,...,LB。同样,右声道R的频带描述为R1,R2,R3,...,RB。在频带数量B等于1的示例实施例中,滤波器组可能会或可能不会被采用。
在示例实施例中,声道在滤波器组之前或之后被划分成块或帧。信号在划分过程中可能会或可能不会被加窗。此外,在使用加窗时,窗口可以或可以不在时间上重叠。还要注意,作为特殊情况,全为1且长度匹配帧长度的窗口引入了类似于不加窗和无重叠的情况。如上所述,在一个示例实施例中,块或帧在时间上重叠。左声道L加窗的块、窗口i和频带b可以被定义为Lb(iN+k),k=0,...,I。在这方面,变量N代表块的有效长度。换言之这里的变量N表示当前块的起始点与前一块的起始点相差多少个抽样。窗口的长度由变量I来表示。
在示例实施例中,分析窗口被选为重叠的。因此,例如,可选择以下形式的窗口:
其中wtl是窗口的正弦部分的长度,zl是窗口中前导零的长度,ol是在窗口中间的1的长度的一半。在上面所示的示例窗口中,下面的等式成立:
窗口的重叠部分可以是与相邻帧的窗口的重叠部分相加起来为1的任何部分。可用的窗口形状的例子示于图2。
根据示例实施例,延时移除设备10还被配置为分别针对每个频带选择输入信号18的声道之一(例如,左声道L或右声道R)作为主导声道或主要声道。因此,在示例实施例中,针对每个频带,选择包括L1,L2,L3,...,LB的左声道L的相应频带之一及包括R1,R2,R3,...,RB的右声道R的相应频带之一作为主导声道。换句话说,例如,L1与R1相比并且这两个声道之一被选择作为针对特定相应频带的主导声道。主导声道的选择可以基于几种不同的标准,并可以基于不同的帧而变化。例如,某些标准可以包括选择心理声学上最相关的声道,例如,最响亮的声道、带来最高能量的声道、其中事件首先被检测到的声道,等等。但是,在某些示例实施例中,固定的声道可以被选择为主导声道。在另外的示例实施例中可以仅为部分频带选择主导声道。例如,可以只为选定数目的最低频带选择主导声道。在备选的示例实施例中,任何任意一组频带都可以被选择用于主导声道分析和时间对齐。
根据示例实施例,针对块i中频带b,计算输入信号的声道上相似部分之间的时间差db(i)。该计算可以基于,例如,找出使不同声道上各频带的信号之间互相关最大化的时间差。此计算可以在时域或频域中执行。备选的示例实施例可以采用其他类似的度量。备选方法包括,例如,通过在频域中比较声道之间最显著信号分量的相位来找到时间差、在每个声道中找到最大和/或最小信号分量并在时域中估计每个声道的相应分量之间的时间差、评价每个声道上过零位置的相关性等。
基于时间差的值和主导声道的选择,逐帧地确定针对每个声道的时移。因此,举例来说,如下面的伪代码所示,可获得针对帧i中频带b的时移。
如果Lb为当前块i中频带b的主导声道:
否则(例如,如果Rb是主导声道)
根据这个示例实施例,主导声道未被修改而值等于db(i)的时移被施加到其他声道。换句话说,在这个示例实施例中,对于给定帧中给定的频带,主导声道在时间上不被移动,并且为非主导声道定义相对于主导声道的时移。
因此,本发明的实施例可利用延时移除设备10来将多声道输入信号18划分成相应的不同声道上的一个或多个频带,并在各频带的每一个上选择声道之一作为主导声道。继而,可定义最相似于主导声道相应部分的非主导声道的部分的时间差。基于所定义的时间差,运用时移操作以时间对齐输入声道,并且关于所施加的时移的信息可被传送给延时恢复设备16,例如,作为时间对齐信息28。时间对齐信息28可包括由延时移除设备10施加到当前帧的非主导声道的频带上的时移。在某些实施例中,时间对齐信息28还可包括针对当前帧的频带的关于主导声道的指示。在某些实施例中,主导声道也可被时移。在这种情况下,时间对齐信息28还可包括施加到主导声道上的时移。在一些实施例中,可以限制允许的时移范围。有可能限制允许的时移范围这方面的一个例子可以是分析窗口的重叠部分的长度。
在示例实施例中,由延时移除设备10提供的输出信号20可包括信号Ld和Rd,其可以通过组合针对当前块而时间对齐的频带信号以及随后基于重叠-相加将连续的块联结到一起而获得。信号Ld和Rd被馈送给执行立体声编码的立体声编码器12。在示例实施例中,立体声编码器12可以是本领域已知的任何立体声编码器。
在对信号Ld和Rd进行立体声编码之后,生成比特流22。比特流22可被存储起来以供将来传输给设备进行解码或可以立即传输给设备以进行解码或存储供将来解码。因此,举例来说,比特流22可作 为音频文件被存储在固定的或可移动的存储设备中、存储在光盘或其他存储介质中、缓存或以其他方式保存或存储供日后使用。比特流22继而可在将来某个时间由包括立体声解码器的设备所读取并被转换为输入信号18的解码版本,如下所述。或者,比特流22可通过网络或其他通信介质被传送到立体声解码器14。在这方面,例如,比特流22可从包括立体声编码器12的设备(或从存储设备)无线地或通过有线通信接口而传输给包括立体声解码器14的另一个设备以用于解码。因此,例如,比特流22可以通过任何合适的通信介质被传输给立体声解码器14。
比特流22可由立体声解码器14接收以用于解码。在示例实施例中,立体声解码器14可以是本领域已知的任何立体声解码器(与立体声编码器12所提供的比特流兼容)。因此,立体声解码器14对比特流22进行解码以提供包括合成信号 和 的输出信号24。输出信号24的合成信号 和 然后被传输给延时恢复设备16。延时恢复设备16配置用于恢复原始输入信号18的时间差,其通过执行相对于发生在延时移除设备10处的时间对齐的逆操作,即倒逆延时移除设备10所施加的时移,来产生经恢复的输出26。
在示例实施例中,延时恢复设备16配置用于恢复被延时移除设备10移除的时间差。因此,例如,延时恢复设备16可利用由延时移除设备10所确定的时间对齐信息28以恢复时间差。值得注意的是,时间对齐信息28无须由单独的声道或通信机制提供。相反,图1中显示时间对齐信息28的通信的线可以仅代表以下事实:包括了描述由延时移除设备10施加到输入信号18的时移的信息的时间对齐信息28最终被提供给延时恢复设备16。因此,例如,时间对齐信息28实际上可以通过比特流22来传输。因此,延时恢复设备16可从由立体声解码器14向延时恢复设备16提供的输出信号24中提取时间对齐信息28。然而,时间对齐信息28不必是离散信息,相反,它可以是被编码到比特流22中的数据的部分,该数据描述与比特流中各种数据块或帧相关联的时间对齐或延时信息。当由立体声解码器14进行 解码时,时间对齐信息28可关于一个声道相对于主导声道的时间差而被定义。
在示例实施例中,延时恢复设备16被配置用于将输出信号(例如, 和 )划分成块或帧和频带。在另一示例实施例中,延时恢复设备16可接收由立体声解码器14划分成频带的信号,进一步划分成频带可能没有必要了。延时恢复设备16接收关于施加到当前帧i的声道的频带b上的时移db(i)的信息。在一些实施例中,延时恢复设备16还接收当前帧的频带的主导声道的指示。在某些情况下,接着执行延时恢复,例如,如下面的伪代码所描述的。
如果Lb为当前分组i中频带b的主导声道:
否则(也即,如果Rb是主导声道)
在示例实施例中,延时移除设备10可具体化为双耳编码器,其为音频编码器提供(逻辑)预处理功能。因此,在这个示例实施例中的双耳编码器被配置用于获得立体声输入信号、计算输入声道之间的时间差、确定输入声道的时间对齐所需的时移以及在向立体声编码器12传递信号之前时间对齐输入信号的声道。时移信息可以编码到由双耳编码器提供的输出中,其可以是经立体声编码的且作为比特流被提供给立体声解码器(例如,立体声解码器14)。在立体声解码之后,由此产生的信号将由延时恢复设备16在其中恢复时间差,其中延时恢复设备16例如具体化为向音频解码器提供(逻辑)后处理功能的双耳解码器。双耳解码器可利用时移信息以将时间差恢复到所恢复的输出中。因此,输入声道之间的时间差可以通过立体声编码和解码过程被适当维持。
应当理解,虽然是在立体声信号的上下文中提供上面的描述,但 是本发明的实施例也可以替代地在其他上下文中实现。因此,本发明的实施例针对处理涉及多声道的任何输入信号也可能是有用的,在这多声道中,声道间的区别主要在于相位和幅度,这意味着不同声道上的信号可以通过具有可接受精度的时移和信号电平修改而相互导出。例如当源于共同源的声音被一组麦克风捕获或对任意输入信号的声道进行处理以使声道间的区别主要在于相位和幅度时会出现这种情况。此外,正如上文所述及的,本发明的实施例也可以连同在时域或频域操作的实施来实现。也可以提供在不同比特率范围的实施例,实施例也可能具有随帧变化的比特率。
此外,虽然在立体声编码和解码的上下文中提供上面的描述,但是备选实施例也可以在例如图3所示的单声道编码和解码的上下文中实现。在这方面,图3示出了根据本发明的示例实施例的用于提供音频处理的备选系统的框图。如图3所示,系统可包括双耳编码器30(其是能移除多声道延时的编码器的例子)、单声道编码器32、单声道解码器34以及双耳解码器36,其中每一个可以是具体化为硬件、软件或硬件和软件的组合的任何装置或设备,其被配置为分别执行双耳编码器30、单声道编码器32、单声道解码器34和双耳解码器36(其是能恢复多声道延时的解码器的例子)的相应功能,如下所述。
在示例实施例中,如上面结合延时移除设备10的描述所记载的,双耳编码器30可被配置用于时间对齐输入声道。在这方面,双耳编码器可类似于延时移除设备10,区别在于本示例实施例中的双耳编码器30在处理立体声输入信号38之后可提供单声道输出M,其由单声道信号40示出。单声道输出M例如,可通过以下步骤生成:首先估计输入声道之间的时间差,然后对一些声道进行如上所述的时移,最后将立体声输入信号38的时间对齐的声道组合(例如,作为输入声道的线性组合)成单声道输出M。附加的信息,比如描述各频带之间声级差异的声级信息和/或描述各频带之间相关性的信息,可随同关于施加到输入信号的频带上的时移的信息作为时间对齐信息48和单声道信号40中的单声道输出M一起提供。单声道信号40然后由单声 道编码器32进行编码,单声道编码器32可以是本领域已知的任何适合的单声道编码器。单声道编码器32然后生成比特流42,该比特流42可以被存储或在某个时间点被传输给单声道解码器34以用于立即解码或用于存储以供将来的解码。单声道解码器34也可以是本领域已知的任何适合的单声道解码器(与单声道编码器32提供的比特流兼容),并且其可被配置用于将经编码的比特流解码成经解码的单声道信号44。经解码的单声道信号44然后可以传输给双耳解码器36。
在示例实施例中,双耳解码器36配置用于利用作为时间对齐信息48的一部分而接收的时移信息,来重建立体声输入信号38中的时间差,以产生对应于立体声输入信号38的立体声输出信号46。在这方面,双耳解码器36的操作可类似于上面描述的延时恢复设备16的操作。然而,这个示例实施例中的双耳解码器36可进一步被配置用于使用作为时间对齐信息48的一部分而接收的附加信息,比如声级信息和/或相关性信息,以增强来自经解码的单声道信号44的立体声信号。
因此,总的来说,类似上述实施例的本发明的示例实施例可被配置用于将输入信号划分成多个帧和谱带。然后可以选择多个输入声道中的一个声道作为主导声道,并且可定义主导声道和非主导声道之间的时间差,例如根据针对一个或多个频带的时移值。因此,可以利用相对于各相应频带而定义的相应时移值来时间对齐声道,使得非主导声道基本上被时移。根据这个示例实施例,然后使用立体声或单声道编码/解码技术来对时间对齐的信号进行编码以及随后解码。在解码器端,所确定的时移值继而可被用来恢复合成的输出声道中的时间差。
在示例实施例中,也可应用对上述操作的修改和/或增添。在这方面,例如,如上所述,许多标准可用于主导声道的选择。根据示例实施例,可以利用用于在输入声道的频带之间相对彼此进行时移的感知上激励的机制。例如,首先遇到特定事件(例如,沉静后声音的开始)的声道可以被选择为频带的主导声道。这种情况可能发生,例如,如果在与第一声道相关联的一个麦克风的位置处首先检测到特定事件, 并在以后的某个时间在与另一声道相关联的另一麦克风位置处检测到相同的事件,这意味着首先遇到特定事件的声道可被选择为频带的主导声道。其他声道的相应频带然后可用相应的时移值来向主导声道对齐,该相应的时移值基于遇到特定事件的声道之间的估计的时间差而定义。主导声道可以基于遇到的声音发源于哪里而逐帧变化。与主导声道中的变化相关联的过渡可平滑地执行,以避免从一帧到另一帧时移值有大的变化。因此,可以以感知上“安全”的方式来修改每个声道以减少遇到瑕疵的风险。
在示例实施例中,两个输入声道(例如,输入信号18的左声道L和右声道R)可按帧进行处理。在每一帧中,输入信号18的左声道L和右声道R如上所述被划分成一个或多个频带。如上所示的,帧可以或可以不在时间上重叠。作为例子,令 和 为帧i的频带b。例如使用声道间的互相关,可以确定输入信号声道上类似分量之间的时间差值db(i),以指示 应被移动多少以使其尽可能类似于 如上所述,其他示例实施例可使用不同的相似性度量和不同的方法来估计时间差db(i)。时间差可以例如表示为毫秒或信号抽样数量。在示例实施例中,当db(i)为正时 可在时间上向前移,同理当db(i)为负时 可在时间上向后移。
在示例实施例中,替代如上所述的直接使用时间差db(i)作为针对某频带的单个时移,可为每个声道提供单独的时移参数。因此,例如,针对在帧i中输入信号18的左声道L和右声道R的频带的时移可以分别表示为 和 这两个参数(例如, 和 )表示在对应声道中的每个相应频带在时间上移动多少(例如,多少个抽样)。在示例实施例中,等式 依然成立以确保正确的时间对齐。
在示例情形中,可能会遇到对应于这样的声道的双耳信号,这些声道包括与在每个声道中呈现的特定事件的发生相关的数据。在这种情况下,在数据中首先发生(或呈现)特定事件的声道可被认为是感知上更重要的。修改可能被认为是感知上重要的部分可能带来引起声 音质量下降的风险。因此,可能期望在某些情况下选择首先发生特定事件的声道作为主导声道,并且仅修改不那么重要的声道(例如,较晚发生特定事件的声道(例如,非主导声道))。在这方面,避免移动首先发生事件的声道(和/或频带)是可取的。
如果db(i)<0
如果db(i)≥0
值得注意的是,在这个例子中,在上面的例子中 和 的值始终等于或小于零,因此仅执行在时间上向后移。此外,可以不针对单个声道逐帧地执行非常大的移动。例如,在一个示例实施例中,其中假定最大允许的时移为±K个抽样,当db(i-1)=-K且db(i)=K时,则有 和 因此,在没有其他限制的情况下,在这个例子中,单个声道的频带逐帧最大可能时移为K个抽样,而不是2K个抽样。因此,举例来说,可以经历遇到感知上瑕疵的降低的风险。为努力提高质量及降低瑕疵发生,可替代地采用其他范例来限制给定频带上时移的大小、符号或幅度,或给定频带上在连续帧之间时移差的大小、符号或幅度。
如上所述,关于确定帧或块以进一步划分成谱带,可以利用重叠的窗口。然而,也可使用不重叠的窗口。现在将再次参照图1描述一种备选示例实施例,其中可以采用不重叠的窗口。
在这方面,例如,延时移除设备10可包括或具体化为滤波器组。 滤波器组可将输入信号18的每个声道(例如,左声道L和右声道R)划分成特定数量的频带B。如果频带B的数量为1,则滤波器组可以或可以不被采用。在示例实施例中,不对所得到的频带信号执行下采样。在备选示例实施例中,在进一步的处理之前可对频带信号执行下采样。如上面所述,滤波器组可以是非均匀的,表现为某些频带可以比其他频带窄,例如,如上所述的基于根据所谓的临界频带的人类听觉特性。
在这个示例实施例中,滤波器组将输入信号18的声道(例如,左声道L和右声道R)划分成特定数量的频带B。左声道L的频带描述为L1,L2,L3,...,LB。同样,右声道R的频带描述为R1,R2,R3,...,RB。与上述情形不同的是,在这个示例实施例中,帧不重叠。
在示例实施例中,在延时移除设备10中,每个频带可在时域中与其他声道的相应频带进行比较。因此,例如,可以计算Lb(i)和Rb(i)之间的互相关以找到声道间期望的或最优的时间差。结果是,当施加对应于所估计的时间差的时移时,频带Lb(i)和Rb(i)是最相似的。在其他示例实施例中,如上面所述可以用不同的相似性度量和搜索方法以找到时间差度量。指示最优时移的时间差可在±K个抽样的范围内搜索,其中K为最大允许时移。例如,对于32kHz的输入信号采样率,合适的K值可以约为30个抽样。基于最优时间差和例如使用上述的操作,可获得针对两个声道的时移。相应的时移值可以表示为 和 备选地可使用其他方法,例如,总是仅修改另一声道,等等。在一些示例实施例中,在频带的子集上估计和修改声道间的时间差可视为合理的,例如仅针对低于2kHz的频率。备选地,可在任何任意一组频带上执行时间对齐处理,其有可能随帧而变化。
作为例子,现在将在与左声道L的一个频带相关联使用的上下文中描述根据示例实施例的修改。可以针对每个频带和声道单独执行该修改。根据这个例子,令 和 分别是在当前帧和在前一帧中针对左声道L的频带b的时间差。时间差的变化可表示为 时间差的变化可以定义频带b需被修改多少。如 果 为零,则没有必要进行修改。换言之,如果 为零,则当前帧的频带b可被直接添加到前一帧对应频带的结尾。当 小于零时(例如,负值对应于信号在时间上向后移动), 个抽样可添加到频带b的信号。相应地,当 大于零时(例如,正值),可在频带b的信号中移除 个抽样。在后两种情况下,实际的处理可能非常相似。
为使帧长改变 个抽样,帧可被划分成长度为 个抽样的 个分段,其中N是以抽样数量表示的帧的长度, 表示向负无穷的取整。基于 的符号,可在每个分段中移除或添加一个抽样。分段的感知上最不灵敏的时刻可用于移除或添加抽样。在一个示例中,由于对其执行修改的频带可能代表低于2kHz的频率,因此那些频带信号的内容可能会慢慢演变成正弦形状。对于这样的信号,用于修改的感知上最安全的时刻是相邻抽样的幅度之间的差异最小的时刻。换言之,例如,可以搜索时刻 其中s(t)是当前分段。其他的实施例可能处理不同的频带组,其可使用不同的标准来选择信号修改的点。
添加新抽样到s(t)可以是直接明了的,这表现为例如具有值(s(k-1)+s(k))/2的新抽样被添加到时刻k,其余向量的序号可增大1。可选地,某些实施例可以以类似于下述的用于从信号移除抽样的方式来应用平滑。因此,例如,原始分段中s(k)在修改后的分段中由s(k+1)来代表,等等。当抽样被移除时,可在被移除的抽样周围对信号执行轻微的平滑以确保不发生幅度值的突然变化。例如,设s(k)是要移除的抽样。则,位于s(k)前面和后面的抽样可作如下修改:
s(k-1)=0.6s(k-1)+0.4s(k)
s(k+1)=0.6s(k+1)+0.4s(k)。
因此,位于被移除的抽样前面的抽样的原始值被计算为其原始值和被移除的抽样的值的线性组合的值所替换。以类似的方式,位于被移除的抽样后面的抽样的原始值被计算为其原始值和被移除的抽样的值的线性组合的值所替换。随后,抽样s(k)可从该分段移除,并且 位于原始s(k)后面的抽样的序号可减小1。值得注意的是,当添加和移除抽样值时均可以使用更先进的平滑。但是,在某些情况下,仅考虑相邻的抽样就可提供可接受的质量。应注意,在上面描述的用于插入和移除抽样的方法中,在正被修改的帧的结尾完全达到所需的时移。其他实施例可以使用不同的处理来插入或者移除抽样。例如,抽样可在信号的感知上安全的时刻作为一个或几个子块插入,其中该一个或几个子块的大小的总和等于所需的时移。实施这种处理的实施例可以或可以不执行对所插入的子块周围的信号的平滑。以类似的方式,抽样可作为一个或几个子块而被移除,该一个或几个子块组合后的大小可引入所需的时移。
当所有的频带都已被处理后,可组合声道的诸频带。为了确保以上描述的修改并未对某些频率(例如,高频)造成任何干扰瑕疵,可能比较合理的是首先仅组合那些已被修改的频带(例如,低于2kHz的频率)并执行适当的低通滤波。例如,如果低于2kHz的频率已被修改,则低通滤波器的截止频率可约为2.1kHz。低通滤波之后,未被修改的频带(例如,2kHz以上的那些)可被组合到信号中并且在组合信号时可以考虑由低通滤波所造成的延时。
在输入声道之间的时间差已被移除后,信号可被输入到立体声编解码器(例如立体声编码器12)或者被组合并输入到单声道编解码器(例如,单声道编码器32)。当双耳编码器30与单声道编解码器一同使用时,还可以从输入信号的声道中提取信号声级信息,如上所述。声级信息通常针对每个频带单独计算。在此上下文中,可以利用用于时间差分析的对频带的划分来计算声级信息或者,备选地,可以利用对频带单独的-和不同的-划分来提取关于信号声级的信息。
类似上述提供的描述,解码器端可逆向执行关于编码器端描述的过程。因此,举例来说,时间差可能会被恢复到信号中,并且在单声道编解码器的情况下,信号声级也可被复原到其原始值。
在一些实施例中,编解码器可能会为输入信号带来一些处理的和/或算法的延时。在这方面,例如,创建时域频带信号可能导致延时, 此延时可取决于在将信号划分成频带时采用的滤波器的长度。此外,信号修改本身可能会导致最多K个抽样的延时。此外,可能的低通滤波可导致取决于所采用的滤波器的长度的延时。再者,在示例实施例中,以修改窗口边界为中心的窗口可被用来估计时间差的值,该时间差的值用于推导用于修改信号的时移值,因为边界可以被认为是信号的移动匹配估计的时间差的时刻。因此,示例实施例(比如在先的实施例)可通过在时域中修改信号来提供时移的实施,使得在感知上较不灵敏的时刻选择修改点。此外,可以在修改点周围执行对信号的平滑。
根据本文提供的例子和描述,其他备选的实施也是明显的。在这方面,例如,除了其他备选之外,修改可在频带中执行,修改可分布在某个帧上以便在信号中没有大的突然变化,和/或可以搜寻信号的感知上较不灵敏的时刻以用于修改。也可利用其他的改变。
如上所述,本发明的实施例可提供针对经编码的(或以其他方式处理的)双耳、立体声或其他多声道信号的改善的质量。在这方面,本发明的实施例可提供在经编码的信号中的时间差的维持,该时间差可在解码器端通过该时间差的恢复而用于信号重建。再者,一些实施例可以工作于相对低的比特率以提供比传统机制更好的质量。
现在结合图4描述能根据本发明实施例操作的装置。在这方面,图4示出了根据示例实施例的用于提供改善的音频处理的装置的框图。图4的装置例如可使用在移动终端上,比如便携式数字助理(PDA)、寻呼机、移动电视、游戏设备、笔记本电脑或其他移动电脑、照相机、录像机、移动电话GPS设备、便携式音频(或包括音频的其他媒体)录音机或播放器。但是,非移动设备也可容易地采用本发明实施例。例如,汽车、住宅或其他环境记录和/或立体声播放设备,包括商业音频媒体生成或播放设备,可获益于本发明的实施例。还应当指出的是,虽然图4示出了用于提供改善的音频处理的装置配置的一个例子,但是许多其他的配置也可以用于实现本发明的实施例。
现在参考图4,提供了用于提供改善的音频处理的装置。该装置可包括处理器70或以其他方式与处理器70通信、用户接口72、通信接口74和存储设备76。存储设备76可包括例如易失性和/或非易失性存储器。存储设备76可被配置用于存储信息、数据、应用、指令等,用于使该装置能执行根据本发明示例实施例的各种功能。例如,存储设备76可配置用于缓冲由处理器70处理的输入数据。附加地或备选地,存储设备76可配置用于存储由处理器70执行的指令。作为另一个选择,存储设备76可以是存储信息和/或媒体内容的多个数据库中的一个。
处理器70可以以多种不同方式体现。例如,处理器70可体现为各种处理装置,比如处理单元、协处理器、控制器或包括集成电路的各种其他处理设备,其中集成电路诸如,ASIC(专用集成电路)或FPGA(现场可编程门阵列)。在示例实施例中,处理器70可配置用于执行存储在存储设备76上的或以其他方式可由处理器70访问的指令。
同时,通信接口74可体现为具体化为硬件、软件或者是硬件和软件的组合的任何设备或器件,其配置用于接收和/或发送来自/去往网络和/或与该装置通信的任何其他设备或模块的数据。在这方面,通信接口74例如可包括天线和支持硬件和/或软件,以支持与无线通信网络的通信。在固定的环境中,通信接口74可备选地或同时支持有线通信。因此,通信接口74可包括通信调制解调器和/或其他硬件/软件,以支持通过电缆、数字用户线(DSL)、通用串行总线(USB)或其他机制的通信。在一些实施例中,通信接口74可以向设备提供接口,该接口能够在存储介质上记录媒体或向另一设备传输比特流。在替代的实施例中,通信接口74可以向设备提供接口,该接口能够从存储介质读取记录的媒体或能接收由另一设备传输的比特流。
用户接口72可与处理器70通信,以接收在用户接口72上的用户输入的指示,和/或向用户提供可听、可视、机械的或其他输出。因此,用户接口72可包括,例如,键盘、鼠标、操纵杆、触摸屏显示 器、传统的显示器、麦克风、扬声器(例如,耳机)、或其他输入/输出机制。在一些示例实施例中,用户接口72可以被限制,甚至被省略。
在示例实施例中,处理器70可体现为、包括或以其他方式控制信号划分器78、声道选择器80、时移确定器82、编码器84和/或解码器86。信号划分器78、声道选择器80、时移确定器82、编码器84和/或解码器86中的每一个可以是任何装置,比如体现为硬件、软件或硬件和软件的组合的器件或电路,其配置为分别执行信号划分器78、声道选择器80、时移确定器82、编码器84和解码器86相应的功能,如下所述。在一些实施例中,该装置可只包括编码器84和解码器86中的一个。但是,在其他实施例中,装置可包含两者。装置的一个或多个其他部分在某些实施例中也可以省略和/或可以增加未提及的其他部分。此外,在一些实施例中,信号划分器78、声道选择器80、时移确定器82、编码器84和解码器86中的某些可在物理上位于不同设备,或者信号划分器78、声道选择器80、时移确定器82、编码器84和解码器86中的某些或全部功能可被组合在单个设备(例如,处理器70)中。
在示例实施例中,信号划分器78可配置用于使用如上所述的分析窗口将多声道输入信号中的每个声道划分为一系列的分析帧。帧和/或窗口可重叠或不重叠。在某些情况下,信号划分器78可包括如上所述的滤波器组,或用于将分析帧划分成谱带的其他机制。信号划分器78可如上所述地操作以划分信号,无论信号划分器78是具体化在包括编码器并作为编码设备操作的装置上,还是具体化在包括解码器并作为解码设备操作的装置上。
声道选择器80可与信号划分器78通信,以从信号划分器78接收输出。该声道选择器可以进一步被配置用于为每个分析帧的选定谱带选择输入声道之一作为主导声道。如上所述,可以基于各种不同的选择标准来选择作为主导声道的声道。
时移确定器82可配置用于确定每个声道的时移值。在这方面, 例如,时移确定器82可配置用于例如通过采用信号分段之间的互相关性作为相似性的度量,来为每个分析帧中的选定谱带确定时间上的差异度量(例如,声道间时间差(ICTD))。每个声道的时移继而可以确定,并且声道可根据确定的时移以这样的方式来对齐,即,任何给定帧的非主导声道可根据确定的时移而移动。当具体化在作为编码器操作的设备中时,时移确定器82可确定用于编码的时移参数。在这方面,例如,时移确定器82可进一步被配置用于基于所确定的时移参数来时间对齐不同声道之间的信号。但是,如果时移确定器82具体化在作为解码器操作的设备中,则时移确定器82可被配置用于确定被编码以传送给解码器的时移参数,以供在基于确定的时移参数来恢复时间延时时使用。
编码器84可被配置用于对时间对齐的信号进行编码以用于进一步的处理和/或传输。在这方面,例如,编码器84可具体化为本领域已知的立体声编码器或单声道编码器。
解码器86可被配置用于如上结合双耳解码器36或延时恢复设备16所述地对时间对齐的信号进行解码。因此,例如,时移确定器82可进一步被配置用于基于接收到的每个分析帧中选定谱带的时移参数来恢复多声道合成的输出信号中的时间差。
图5和图6是根据本发明示例实施例的系统、方法和程序产品的流程图。应当理解,流程图的每个框或步骤以及流程图中框的组合,可以通过各种装置来实现,如硬件、固件和/或包括一个或多个计算机程序指令的软件。例如,如上描述的一个或多个过程可通过计算机程序指令来体现。在这方面,体现如上描述的过程的计算机程序指令可以由存储器进行存储并由处理器(例如,处理器70)来执行。可以理解,任何这类计算机程序指令可被装载到计算机或其他可编程装置(即硬件)以产生机器,使得在计算机或其他可编程装置上执行的指令产生用于实施流程图的框或步骤中指定的功能的装置。这些计算机程序指令也可以存储在计算机可读存储器中,其可引导计算机或其他可编程装置以特定方式工作,使得存储在计算机可读存储器中的指令 产生包括实施流程图的框或步骤中指定的功能的指令装置的制品。计算机程序指令也可以装载到计算机或其他可编程装置(例如,处理器70)中以导致一系列的操作步骤在计算机上或其他可编程装置上执行以产生计算机实现的过程,使得在计算机或其他可编程装置上执行的指令提供用于实现流程图的框或步骤中指定的功能的步骤。
因此,流程图中的框或步骤支持用于执行指定功能的装置的组合、用于执行指定功能的步骤的组合、和用于执行指定功能的程序指令装置的组合。还应当理解,流程图中的一个或多个框或步骤以及流程图中的框或步骤的组合可以通过执行指定功能或步骤的基于专用硬件的计算机系统来实施,其或者通过专用硬件和计算机指令的组合来实施。
在这方面,提供音频处理的方法的实施例可包括在操作100中,将多声道音频输入信号的每个声道的相应信号划分成对应于相应的分析帧的一个或多个谱带,以及在操作110中,针对至少一个谱带从该多声道音频输入信号的声道中选择主导声道。该方法可进一步包括在操作120中,确定针对至少一个声道的至少一个谱带的时移值;以及在操作130中,至少部分地基于该时移值来时间对齐所述声道。
在示例实施例中,划分每个声道的相应信号可包括将每个声道的相应信号划分成对应于相应的重叠或非重叠分析帧的谱带。在某些情况下,滤波器组可用于所述划分,其中滤波器组不执行向下采样。在示例实施例中,选择主导声道可包括基于首先在哪个声道检测到事件的发生来选择主导声道。在一些实施例中,确定时移值可以包括为每个声道确定单独的时移值。但是,在某些情况下,主导声道可保持不被修改,并且时移值只施加于非主导声道上。在一些示例实施例中,该方法可包括向延时恢复设备或双耳解码器提供关于主导声道和所施加的时移的指示,以支持接收端的逆操作。在示例实施例中,针对一组谱带中除主导声道之外的声道,可相对于主导声道来确定时移值。
在示例实施例中,执行上述方法的装置可包括处理器(例如,处 理器70),该处理器被配置用于执行上面所述的每个操作(100-130)。例如,该处理器可以被配置用于通过执行用于实现上述每个操作的所存储的指令或算法来执行这些操作。备选地,该装置可包括用于执行上述每个操作的装置。在这方面,根据示例实施例,用于执行操作100至130的装置的例子例如可包括用于如上所述的控制频带形成、声道选择、时移确定和编码的算法、处理器70、或信号划分器78、声道选择器80、时移确定器82和编码器84中相应的器件。
在另一示例实施例中,如图6所示,提供改善的音频处理的方法可包括在操作200中,将时间对齐的经解码的音频输入信号划分成对应于多声道的相应分析帧的一个或多个谱带。该方法可进一步包括在操作210中,接收时间对齐信息以及可能的关于主导声道的指示,其中时间对齐信息包括用于一个或多个谱带中一个或多个声道的时移值,以及在操作220中,使用时移值来恢复多声道之间的时间差,以提供合成的多声道输出信号。在示例实施例中,划分时间对齐的经解码的音频输入信号可包括将每个声道划分成对应于相应的重叠或不重叠分析帧的谱带。
在示例实施例中,用于执行上面图6的方法的装置可以包括处理器(例如,处理器70),该处理器配置用于执行上面所述的每个操作(200-220)。例如,该处理器可以被配置用于通过执行用于实现每个操作的所存储的指令或算法来执行这些操作。备选地,该装置可包括用于执行上述每个操作的装置。在这方面,根据示例实施例,用于执行操作200至220的装置的例子例如可包括用于如上所述的控制频带形成、时移确定以及解码的算法、处理器70、或信号划分器78、时移确定器82和解码器86中相应的器件。
受益于在上述说明和相关附图给出的教导,本发明所属领域的技术人员会想到本文记载的本发明的许多变化和其他实施例。因此,应当理解本发明并不限于所公开的具体实施例,并且这些变化和其他实施例应包括在所附权利要求的范围之内。此外,虽然上述说明和相关附图在单元和/或功能的某些示例组合的上下文中描述示例实施例, 但是应当理解,可通过替代的实施例来提供单元和/或功能的不同组合,而未偏离所附权利要求的范围。在这方面,例如,也可以预期除了上面明确描述的那些之外的单元和/或功能的不同组合,其可能在一些所附权利要求中阐述。虽然本文使用特定的术语,但它们仅在一般性的、描述性的意义上被使用,而不是为限制的目的。
Claims (16)
1.一种用于提供音频处理的方法,包括:
将多声道音频输入信号的每个声道的相应信号划分成对应于相应的分析帧的一个或多个谱带;
针对至少一个谱带从所述多声道音频输入信号的声道中选择主导声道,其中选择所述主导声道包括基于在哪个声道首先检测到事件的发生来选择所述主导声道;
确定针对至少一个声道的至少一个谱带的时移值;以及
至少部分地基于所述时移值来时间对齐所述声道,其中所述时间对齐包括至少部分地基于相应的时移值,修改除了针对相应的谱带选择的主导声道之外的至少一个声道的至少一个谱带的信号,而所述主导声道未被修改。
2.根据权利要求1的方法,其中针对至少一个谱带从所述多声道音频输入信号的声道中选择主导声道包括针对多个频带分别选择主导声道。
3.根据权利要求2的方法,其中针对多个频带分别选择主导声道包括为选定数目的最低频带选择主导声道。
4.根据权利要求1的方法,其中划分每个声道的相应信号包括将每个声道的相应信号划分成对应于相应的重叠或不重叠分析帧的谱带。
5.根据权利要求1的方法,其中确定所述时移值包括为每个声道确定单独的时移值。
6.根据权利要求1的方法,其中划分每个声道的相应信号包括使所述多声道音频输入信号通过滤波器组,所述滤波器组不针对所述谱带执行向下采样。
7.一种用于提供音频处理的装置,包括:
划分装置,用于将多声道音频输入信号的每个声道的相应信号划分成对应于相应的分析帧的一个或多个谱带;
选择装置,用于针对至少一个谱带从所述多声道音频输入信号的声道中选择主导声道,其中选择所述主导声道包括基于在哪个声道首先检测到事件的发生来选择所述主导声道;
确定装置,用于确定针对至少一个声道的至少一个谱带的时移值;以及
时间对齐装置,用于至少部分地基于所述时移值来时间对齐所述声道,其中所述时间对齐包括至少部分地基于相应的时移值,修改除了针对相应的谱带选择的主导声道之外的至少一个声道的至少一个谱带的信号,而所述主导声道未被修改。
8.根据权利要求7的装置,其中所述选择装置包括用于针对多个频带分别选择主导声道的装置。
9.根据权利要求8的装置,其中所述用于针对多个频带分别选择主导声道的装置包括用于为选定数目的最低频带选择主导声道的装置。
10.根据权利要求7的装置,其中所述划分装置被配置用于通过将每个声道的相应信号划分成对应于相应的重叠或不重叠分析帧的谱带来划分每个声道的相应信号。
11.根据权利要求7的装置,其中所述确定装置被配置用于通过为每个声道确定单独的时移值来确定所述时移值。
12.根据权利要求7的装置,其中所述划分装置被配置用于通过使所述多声道音频输入信号通过滤波器组来划分每个声道的相应信号,其中所述滤波器组不针对所述谱带执行向下采样。
13.一种用于提供音频处理的方法,包括:
将时间对齐的经解码的音频输入信号划分成对应于多个声道的相应分析帧的一个或多个谱带;
接收时间对齐信息,所述时间对齐信息包括用于一个或多个谱带中的一个或多个声道的时移值以及对所述多个声道中的主导声道的指示,其中所述主导声道是基于在所述多个声道中哪个声道首先检测到事件的发生来选择的;以及
使用所述时移值来恢复在所述多个声道之间的时间差,以提供合成的多声道输出信号,其中恢复时间差包括至少部分地基于相应的时移值,修改除了针对相应的谱带选择的主导声道之外的至少一个声道的至少一个谱带的信号,而所述主导声道未被修改。
14.根据权利要求13的方法,其中划分所述时间对齐的经解码的音频输入信号包括将每个声道划分成对应于相应的重叠或不重叠分析帧的谱带。
15.一种用于提供音频处理的装置,包括:
划分装置,用于将时间对齐的经解码的音频输入信号划分成对应于多个声道的相应分析帧的一个或多个谱带;
接收装置,用于接收时间对齐信息,所述时间对齐信息包括用于一个或多个谱带中的一个或多个声道的时移值以及对所述多个声道中的主导声道的指示,其中所述主导声道是基于在所述多个声道中哪个声道首先检测到事件的发生来选择的;以及
恢复装置,用于使用所述时移值来恢复在所述多个声道之间的时间差,以提供合成的多声道输出信号,其中恢复时间差包括至少部分地基于相应的时移值,修改除了针对相应的谱带选择的主导声道之外的至少一个声道的至少一个谱带的信号,而所述主导声道未被修改。
16.根据权利要求15的装置,其中所述划分装置被配置用于通过将每个声道划分成对应于相应的重叠或不重叠分析帧的谱带来划分所述时间对齐的经解码的音频输入信号。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/139,101 | 2008-06-13 | ||
US12/139,101 US8355921B2 (en) | 2008-06-13 | 2008-06-13 | Method, apparatus and computer program product for providing improved audio processing |
PCT/FI2009/050306 WO2009150288A1 (en) | 2008-06-13 | 2009-04-21 | Method, apparatus and computer program product for providing improved audio processing |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102089809A CN102089809A (zh) | 2011-06-08 |
CN102089809B true CN102089809B (zh) | 2013-06-05 |
Family
ID=41415573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009801274631A Active CN102089809B (zh) | 2008-06-13 | 2009-04-21 | 用于提供改进的音频处理的方法、装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8355921B2 (zh) |
EP (1) | EP2291841B1 (zh) |
CN (1) | CN102089809B (zh) |
WO (1) | WO2009150288A1 (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009081567A1 (ja) * | 2007-12-21 | 2009-07-02 | Panasonic Corporation | ステレオ信号変換装置、ステレオ信号逆変換装置およびこれらの方法 |
KR20110049068A (ko) * | 2009-11-04 | 2011-05-12 | 삼성전자주식회사 | 멀티 채널 오디오 신호의 부호화/복호화 장치 및 방법 |
US9456289B2 (en) | 2010-11-19 | 2016-09-27 | Nokia Technologies Oy | Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof |
US9055371B2 (en) | 2010-11-19 | 2015-06-09 | Nokia Technologies Oy | Controllable playback system offering hierarchical playback options |
US9313599B2 (en) | 2010-11-19 | 2016-04-12 | Nokia Technologies Oy | Apparatus and method for multi-channel signal playback |
EP3182409B1 (en) | 2011-02-03 | 2018-03-14 | Telefonaktiebolaget LM Ericsson (publ) | Determining the inter-channel time difference of a multi-channel audio signal |
US10148903B2 (en) | 2012-04-05 | 2018-12-04 | Nokia Technologies Oy | Flexible spatial audio capture apparatus |
US9232310B2 (en) | 2012-10-15 | 2016-01-05 | Nokia Technologies Oy | Methods, apparatuses and computer program products for facilitating directional audio capture with multiple microphones |
WO2014162171A1 (en) | 2013-04-04 | 2014-10-09 | Nokia Corporation | Visual audio processing apparatus |
US9706324B2 (en) | 2013-05-17 | 2017-07-11 | Nokia Technologies Oy | Spatial object oriented audio apparatus |
GB2543276A (en) * | 2015-10-12 | 2017-04-19 | Nokia Technologies Oy | Distributed audio capture and mixing |
US10368162B2 (en) * | 2015-10-30 | 2019-07-30 | Google Llc | Method and apparatus for recreating directional cues in beamformed audio |
MX375301B (es) * | 2016-01-22 | 2025-03-06 | Fraunhofer Ges Forschung | Aparato y método para codificar y decodificar una señal multi-canal utilizando un parámetro de alineación de banda ancha y una pluralidad de parámetros de alineación de banda angosta. |
US9978381B2 (en) * | 2016-02-12 | 2018-05-22 | Qualcomm Incorporated | Encoding of multiple audio signals |
US10157621B2 (en) * | 2016-03-18 | 2018-12-18 | Qualcomm Incorporated | Audio signal decoding |
US10325610B2 (en) | 2016-03-30 | 2019-06-18 | Microsoft Technology Licensing, Llc | Adaptive audio rendering |
GB2549532A (en) | 2016-04-22 | 2017-10-25 | Nokia Technologies Oy | Merging audio signals with spatial metadata |
US10573326B2 (en) * | 2017-04-05 | 2020-02-25 | Qualcomm Incorporated | Inter-channel bandwidth extension |
CN108877815B (zh) * | 2017-05-16 | 2021-02-23 | 华为技术有限公司 | 一种立体声信号处理方法及装置 |
CN109427338B (zh) * | 2017-08-23 | 2021-03-30 | 华为技术有限公司 | 立体声信号的编码方法和编码装置 |
CN109859766B (zh) * | 2017-11-30 | 2021-08-20 | 华为技术有限公司 | 音频编解码方法和相关产品 |
EP3588495A1 (en) * | 2018-06-22 | 2020-01-01 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Multichannel audio coding |
WO2021004046A1 (zh) * | 2019-07-09 | 2021-01-14 | 海信视像科技股份有限公司 | 音频处理方法与装置、以及显示设备 |
US11212631B2 (en) * | 2019-09-16 | 2021-12-28 | Gaudio Lab, Inc. | Method for generating binaural signals from stereo signals using upmixing binauralization, and apparatus therefor |
GB2600539B (en) * | 2020-09-09 | 2023-04-12 | Tymphany Worldwide Enterprises Ltd | Method of providing audio in an automobile, and an audio apparatus for an automobile |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1669358A (zh) * | 2002-07-16 | 2005-09-14 | 皇家飞利浦电子股份有限公司 | 音频编码 |
CN101120615A (zh) * | 2005-02-22 | 2008-02-06 | 弗劳恩霍夫应用研究促进协会 | 近透明或透明的多声道编码器/解码器方案 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5434948A (en) | 1989-06-15 | 1995-07-18 | British Telecommunications Public Limited Company | Polyphonic coding |
US5214708A (en) * | 1991-12-16 | 1993-05-25 | Mceachern Robert H | Speech information extractor |
US6801887B1 (en) * | 2000-09-20 | 2004-10-05 | Nokia Mobile Phones Ltd. | Speech coding exploiting the power ratio of different speech signal components |
US7610205B2 (en) * | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
US7583805B2 (en) * | 2004-02-12 | 2009-09-01 | Agere Systems Inc. | Late reverberation-based synthesis of auditory scenes |
US7006636B2 (en) * | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
US7116787B2 (en) | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
CA2365203A1 (en) * | 2001-12-14 | 2003-06-14 | Voiceage Corporation | A signal modification method for efficient coding of speech signals |
CN1748247B (zh) | 2003-02-11 | 2011-06-15 | 皇家飞利浦电子股份有限公司 | 音频编码 |
DE602004029872D1 (de) * | 2003-03-17 | 2010-12-16 | Koninkl Philips Electronics Nv | Verarbeitung von mehrkanalsignalen |
ATE430360T1 (de) | 2004-03-01 | 2009-05-15 | Dolby Lab Licensing Corp | Mehrkanalige audiodekodierung |
WO2006076217A2 (en) * | 2005-01-10 | 2006-07-20 | Herman Miller, Inc. | Method and apparatus of overlapping and summing speech for an output that disrupts speech |
US9225416B2 (en) * | 2005-10-27 | 2015-12-29 | Qualcomm Incorporated | Varied signaling channels for a reverse link in a wireless communication system |
WO2007080225A1 (en) | 2006-01-09 | 2007-07-19 | Nokia Corporation | Decoding of binaural audio signals |
US7676374B2 (en) * | 2006-03-28 | 2010-03-09 | Nokia Corporation | Low complexity subband-domain filtering in the case of cascaded filter banks |
US7804972B2 (en) * | 2006-05-12 | 2010-09-28 | Cirrus Logic, Inc. | Method and apparatus for calibrating a sound beam-forming system |
US8046214B2 (en) * | 2007-06-22 | 2011-10-25 | Microsoft Corporation | Low complexity decoder for complex transform coding of multi-channel sound |
US7885819B2 (en) * | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
US8249883B2 (en) * | 2007-10-26 | 2012-08-21 | Microsoft Corporation | Channel extension coding for multi-channel source |
US8023600B2 (en) * | 2007-11-07 | 2011-09-20 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for interference rejection combining and detection |
-
2008
- 2008-06-13 US US12/139,101 patent/US8355921B2/en active Active
-
2009
- 2009-04-21 CN CN2009801274631A patent/CN102089809B/zh active Active
- 2009-04-21 WO PCT/FI2009/050306 patent/WO2009150288A1/en active Application Filing
- 2009-04-21 EP EP09761843.3A patent/EP2291841B1/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1669358A (zh) * | 2002-07-16 | 2005-09-14 | 皇家飞利浦电子股份有限公司 | 音频编码 |
CN101120615A (zh) * | 2005-02-22 | 2008-02-06 | 弗劳恩霍夫应用研究促进协会 | 近透明或透明的多声道编码器/解码器方案 |
Non-Patent Citations (1)
Title |
---|
Christof Faller and Frank Baumgarte.Binaural Cue Coding—Part II: Schemes and Applications.《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》.2003,第11卷(第6期), * |
Also Published As
Publication number | Publication date |
---|---|
EP2291841B1 (en) | 2014-08-20 |
US20090313028A1 (en) | 2009-12-17 |
EP2291841A1 (en) | 2011-03-09 |
WO2009150288A1 (en) | 2009-12-17 |
US8355921B2 (en) | 2013-01-15 |
CN102089809A (zh) | 2011-06-08 |
EP2291841A4 (en) | 2012-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102089809B (zh) | 用于提供改进的音频处理的方法、装置 | |
US10861468B2 (en) | Apparatus and method for encoding or decoding a multi-channel signal using a broadband alignment parameter and a plurality of narrowband alignment parameters | |
US10555104B2 (en) | Binaural decoder to output spatial stereo sound and a decoding method thereof | |
US8817992B2 (en) | Multichannel audio coder and decoder | |
RU2449387C2 (ru) | Способ и устройство для обработки сигнала | |
KR101158698B1 (ko) | 복수-채널 인코더, 입력 신호를 인코딩하는 방법, 저장 매체, 및 인코딩된 출력 데이터를 디코딩하도록 작동하는 디코더 | |
JP4664431B2 (ja) | アンビエンス信号を生成するための装置および方法 | |
JP7591549B2 (ja) | 相関分離フィルタの適応制御のための方法および装置 | |
US20120033817A1 (en) | Method and apparatus for estimating a parameter for low bit rate stereo transmission | |
JP6537683B2 (ja) | 信号をインタリーブするためのオーディオ復号器 | |
EP2820647B1 (en) | Phase coherence control for harmonic signals in perceptual audio codecs | |
EP2834813A1 (en) | Multi-channel audio encoder and method for encoding a multi-channel audio signal | |
CN108885876A (zh) | 用于对多声道音频信号的参数编码和解码的空间化信息进行的优化编码和解码 | |
KR100763919B1 (ko) | 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2 채널의 바이노럴 신호로 복호화하는 방법 및 장치 | |
JP2015517121A (ja) | インターチャネル差分推定方法及び空間オーディオ符号化装置 | |
KR100917845B1 (ko) | 상호상관을 이용한 다채널 오디오 신호 복호화 장치 및 그방법 | |
JP2023085339A (ja) | ステレオ信号処理方法及び装置 | |
CN112823534B (zh) | 信号处理设备和方法以及程序 | |
JP5309944B2 (ja) | オーディオ復号装置、方法、及びプログラム | |
JP2007187749A (ja) | マルチチャンネル符号化における頭部伝達関数をサポートするための新装置 | |
JP2017058696A (ja) | インターチャネル差分推定方法及び空間オーディオ符号化装置 | |
US8781134B2 (en) | Method and apparatus for encoding and decoding stereo audio | |
JP2009151183A (ja) | マルチチャネル音声音響信号符号化装置および方法、並びにマルチチャネル音声音響信号復号装置および方法 | |
JP2006270649A (ja) | 音声・音響信号処理装置およびその方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20160215 Address after: Espoo, Finland Patentee after: Technology Co., Ltd. of Nokia Address before: Espoo, Finland Patentee before: Nokia Oyj |