[go: up one dir, main page]

CN107771346B - 实现低复杂度格式转换的内部声道处理方法和装置 - Google Patents

实现低复杂度格式转换的内部声道处理方法和装置 Download PDF

Info

Publication number
CN107771346B
CN107771346B CN201680035415.XA CN201680035415A CN107771346B CN 107771346 B CN107771346 B CN 107771346B CN 201680035415 A CN201680035415 A CN 201680035415A CN 107771346 B CN107771346 B CN 107771346B
Authority
CN
China
Prior art keywords
channel
signal
cpe
output
stereo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680035415.XA
Other languages
English (en)
Other versions
CN107771346A (zh
Inventor
金善民
孙尚模
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Priority to CN202111026302.2A priority Critical patent/CN114005454B/zh
Publication of CN107771346A publication Critical patent/CN107771346A/zh
Application granted granted Critical
Publication of CN107771346B publication Critical patent/CN107771346B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/05Generation or adaptation of centre channel in multi-channel audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

根据本发明实施例的处理音频信号的方法包括如下步骤:接收通过MPEG环绕212(MPS212)编码的音频比特流;基于接收到的音频比特流以及在格式转换器中定义的用于MPS212输出声道的渲染参数中的均衡(EQ)值和增益值,生成用于一个双声道单元(CPE)的内部声道信号;以及,基于所产生的内部声道信号生成立体声输出信号。

Description

实现低复杂度格式转换的内部声道处理方法和装置
技术领域
本发明涉及实现低复杂度格式转换的内部声道(IC)处理方法和装置,更具体地说,涉及一种通过在立体输出布局环境中对输入声道执行IC处理以减少格式转换器中的IC数量进而减少在格式转换器中进行的协方差运算次数的方法和装置。
背景技术
根据MPEG-H 3D音频,可以处理各种类型的信号并且可以容易地控制输入/输出的类型。因此,MPEG-H 3D音频可以用作下一代音频信号处理的解决方案。此外,根据装置小型化的趋势,在立体声再现环境中借助于移动设备进行音频再现的百分比已经增加。
当通过诸如22.2声道的多声道实现的沉浸式音频信号被传送到立体声再现系统时,将要解码所有输入声道,并且沉浸式音频信号要被缩混(downmix)以转换成立体声格式。
随着输入声道数量的增加和输出声道数量的减少,在上述过程中,协方差分析和相位对齐所需的解码器的复杂度增加。这种复杂度的增加不仅影响移动设备的运行速度,还影响移动设备的电池消耗。
发明内容
技术问题
如上所述,增加输入声道的数量以提供沉浸式音频,然而减少输出声道的数量以实现便携性。在这种环境下,解码过程中格式转换的复杂度成为问题。
为了解决这个问题,本发明提供了解码器中格式转换的复杂度的降低。
技术方案
为了实现上述目标,本发明的代表性特征如下。
根据本发明的一个方面,提供了一种处理音频信号的方法,所述方法包括:接收通过MPEG环绕212(MPS212)编码的音频比特流;基于接收到的音频比特流、格式转换器中定义的MPS212输出声道的均衡(EQ)值和MPS212输出声道的增益值,生成用于单个双声道单元(CPE)的内部声道(IC)信号;以及基于生成的IC信号生成立体声输出信号。
所述IC信号的生成可以包括:基于包含在MPS212有效载荷中的声道电平差(CLD),将所述接收到的音频比特流上混(upmix)为用于包含在所述单个CPE中的声道对的信号;基于所述EQ值和所述增益值,缩放上混后的比特流;以及混合缩放后的比特流。
所述IC信号的生成可以进一步包括判定是否生成了所述用于单个CPE的IC信号。
可以基于包含在单个CPE中的声道对是否属于同一个IC组,来判定是否生成所述用于单个CPE的IC信号。
当包含在单个CPE中的声道对均包含在左IC组中时,所述IC信号可以只通过立体声输出声道中的左输出声道输出。当包含在单个CPE中的声道对均包含在右IC组中时,所述IC信号可以只通过立体声输出声道中的右输出声道输出。
当包含在单个CPE中的声道对均包含在中央IC组中或者包含在单个CPE中的声道对均包含在低频音效(LFE)IC组中时,所述IC信号可以通过立体声输出声道中的左输出声道和右输出声道均匀地输出。
所述音频信号可以是沉浸式音频信号。
所述IC信号的生成还可以包括:计算IC增益(ICG);以及应用所述ICG。
根据本发明的另一方面,提供了一种用于处理音频信号的装置,所述装置包括:接收器,被配置为接收通过MPEG环绕212(MPS212)编码的音频比特流;内部声道(IC)信号发生器,被配置为基于接收到的音频比特流、格式转换器中定义的MPS212输出声道的均衡(EQ)值和MPS212输出声道的增益值,生成用于单个双声道单元(CPE)的IC信号;以及立体声输出信号发生器,被配置为基于生成的IC信号生成立体声输出信号。
所述IC信号发生器可以被配置为:基于包含在MPS212有效载荷中的声道电平差(CLD),将所述接收到的音频比特流上混为用于包含在所述单个CPE中的声道对的信号;基于所述EQ值和所述增益值,缩放上混后的比特流;以及混合缩放后的比特流。
所述IC信号发生器可以被配置为判定是否生成了所述的用于单个CPE的IC信号。
可以基于包含在单个CPE中的声道对是否属于同一个IC组,来判定是否生成所述IC信号。
当包含在单个CPE中的声道对均包含在左IC组中时,所述IC信号可以只通过立体声输出声道中的左输出声道输出。当包含在单个CPE中的声道对均包含在右IC组中时,所述IC信号可以只通过立体声输出声道中的右输出声道输出。
当包含在单个CPE中的声道对均包含在中央IC组中或者包含在单个CPE中的声道对均包含在低频音效(LFE)IC组中时,所述IC信号可以通过立体声输出声道中的左输出声道和右输出声道均匀地输出。
所述音频信号可以是沉浸式音频信号。
所述IC信号发生器可以被配置为计算IC增益(ICG)和应用所述ICG。
根据本发明的另一个方面,提供了一种计算机可读记录介质,所述计算机可读记录介质上记录有用于执行前述的方法的计算机程序。
根据本发明的其他实施例,提供了其它方法、其它系统和上面记录有用于执行所述方法的计算机程序的计算机可读记录介质。
有益效果
根据本发明,通过使用内部声道(IC)减少了输入到格式转换器的声道的数量,因此可以降低格式转换器的复杂度。更详细地说,由于减少了输入到格式转换器的声道数量,所以简化了要在格式转换器中执行的协方差分析,因此,降低了格式转换器的复杂度。
附图说明
图1是根据一个实施例的用于将24个输入声道格式转换为立体声输出声道的解码结构的框图。
图2是根据一个实施例的解码结构的框图,该解码结构利用13个内部声道(IC)将22.2声道沉浸式音频信号格式转换为立体声输出声道。
图3图示了从单个双声道单元(CPE)生成单个IC的实施例。
图4是根据本发明实施例的解码器的IC增益(ICG)应用单元将ICG应用于IC信号的详细框图。
图5是示出了根据本发明实施例的编码器预处理ICG时的解码的框图。
图6的流程图示出了根据本发明实施例的当通过立体声再现布局输出CPE时执行单声道频段复制(SBR)解码然后执行MPEG环绕(MPS)解码的结构中的IC处理方法。
图7的流程图示出了根据本发明实施例的当通过立体声再现布局输出CPE时执行MPS解码并随后执行立体声SBR解码的结构中的IC处理方法。
图8是根据本发明实施例的当通过立体声再现布局输出四声道单元(QCE)时使用立体声SBR的结构中的IC处理方法的框图。
图9是根据本发明另一实施例的在通过立体声再现布局输出QCE时使用立体声SBR的结构中的IC处理方法的框图。
图10a示出了当第一包络的开始边界相同并且最后包络的停止边界相同时确定时间包络格子的实施例。
图10b示出了当第一包络的开始边界不同并且最后包络的停止边界相同时确定时间包络格子的实施例。
图10c示出了当第一包络的开始边界相同并且最后包络的停止边界不同时确定时间包络格子的实施例。
图10d示出了当第一包络的开始边界不同并且最后包络的停止边界不同时确定时间包络格子的实施例。
表1示出了将22.2声道沉浸式音频信号渲染为立体声信号的格式转换器的混合矩阵的实施例。
表2示出了使用IC将22.2声道沉浸式音频信号渲染为立体声信号的格式转换器的混合矩阵的实施例。
表3示出了根据本发明实施例的使用IC来配置22.2声道的CPE结构。
表4示出了根据本发明实施例的与解码器输入声道对应的IC的类型。
表5示出根据本发明实施例的根据IC类型另外定义的声道的位置。
表6示出根据本发明的实施例的与IC类型对应的格式转换器输出声道,以及将被应用于每个格式转换器输出声道的增益和EQ索引。
表7示出了根据本发明实施例的ICGConfig的句法。
表8示出了根据本发明实施例的mpegh3daExtElementConfig()的句法。
表9示出了根据本发明实施例的usacExtElementType的句法。
表10示出了根据本发明实施例的speakerLayoutType的句法。
表11示出了根据本发明实施例的SpeakerConfig3d()的句法。
表12示出了根据本发明实施例的immersiveDownmixFlag的句法。
表13示出了根据本发明实施例的SAOC3DgetNumChannels()的句法。
表14示出了根据本发明实施例的声道分配顺序的句法。
表15示出了根据本发明实施例的mpegh3daChannelPairElementConfig()的句法。
表16示出了根据本发明实施例的基于声道单元和再现布局确定的MPS和SBR的解码场景。
最佳实施方式
为了实现上述目标,本发明的代表性特征如下。
处理音频信号的方法包括:接收通过MPEG环绕212(MPS212)编码的音频比特流;基于接收到的音频比特流、格式转换器中定义的MPS212输出声道的均衡(EQ)值以及MPS212输出声道的增益值,生成用于单个双声道单元(CPE)的内部声道(IC)信号;并基于生成的IC信号生成立体声输出信号。
具体实施方式
现在将参考示出本发明的特定实施例的附图对本发明进行详细描述。提供这些实施例是为了使本公开内容透彻和完整,并且将本发明的构思充分地传达给本领域的普通技术人员。应该理解的是,本发明的各种实施例彼此不同,但并不彼此排斥。
例如,在不脱离本发明的精神和范围的情况下,说明书中描述的特定形状、特定结构和特定特征在一个实施例中可以与另一个实施例中不同。还可以理解的是,在不脱离本发明的精神和范围的情况下,每个实施例中的每个元件的位置或布局可以改变。因此,下面的详细描述应该被认为只是描述性的,而不是为了限制的目的,并且本发明的范围应当由所附权利要求及其等同物定义。
在整个说明书中,附图中相似的附图标记表示相同或相似的元件。在附图中,为了简化说明,省略了与说明无关的部分,并且相同的标号始终表示相同的元件。
在下文中,将通过参考附图解释本发明的示例性实施例来详细描述本发明。然而,本发明可以以许多不同的形式来实施并且不应该被解释为限于在此阐述的实施例。
在整个说明书中,当元件被称为“连接”或“耦合”到另一元件时,其可以直接连接或耦合到另一元件,或者可以利用插入其间的插入元件而电连接或电耦合到另一元件。另外,当在本说明书中使用时,术语“包括”或者“包含”指明所述元件的存在,但不排除存在或添加一种或多种其他元件。
这里使用的术语定义如下。
内部声道(IC)是在格式转换中使用的虚拟中间声道,并且考虑了立体声输出以便去除在MPS212(MPEG环绕立体声)上混期间和格式转换器(FC)缩混期间产生的不必要的运算,将进来。
IC信号是为了提供立体声信号而在格式转换器中混合的单声道信号,并且是利用IC增益(ICG)生成的。
IC处理表示利用MPS212解码块生成IC信号并且在IC处理块中执行的处理。
ICG表示根据声道电平差(CLD)值和格式转换参数计算出的并应用于IC信号的增益。
IC组表示基于核心编解码器输出声道位置确定的IC的类型,核心编解码器输出声道位置和IC组在稍后将描述的表4中定义。
现在将参照示出了本发明的示例性实施例的附图更充分地描述本发明。
图1是根据一个实施例的用于将24个输入声道格式转换成立体声输出声道的解码结构的框图。
当多声道输入的比特流被传送到解码器时,解码器根据再现系统的输出声道布局来缩混输入声道布局。例如,当遵循MPEG标准的22.2声道输入信号由如图1所示的立体声声道输出系统再现时,包含在解码器中的格式转换器130根据格式转换器130内规定的格式转换器规则,将24输入声道布局缩混成2输出声道布局。
输入到解码器的22.2声道输入信号包含双声道单元(CPE)比特流110,该CPE比特流110是通过针对包含在单个CPE中的两个声道来缩混信号而获得的。由于CPE比特流是通过MPS212(基于MPEG的立体声)编码的,所以通过MPS212 120解码CPE比特流。在这种情况下,CPE比特流中不包含LFE声道,即低音扬声器声道。因此,输入到解码器的22.2声道输入信号包含用于11个CPE的比特流和用于两个低音扬声器声道的比特流。
当对构成22.2声道输入信号的CPE比特流执行MPS212解码时,为每个CPE生成两个MPS212输出声道,即121和122,并且这两个MPS212输出声道121和122成为格式转换器130的输入声道。在如图1的情况中,包括两个低音扬声器声道的格式转换器130的输入声道的数量Nin是24。因此,格式转换器130应当执行24*2缩混。
格式转换器130根据协方差分析执行相位对齐,以防止由于多声道信号的相位之间的差异而导致发生音色失真。在这种情况下,因为协方差矩阵具有Nin×Nin维度,理论上应当执行(Nin×(Nin-1)/2+Nin)×71个频带×2×16×(48000/2048)次复数乘法以分析协方差矩阵。
当输入声道的数量Nin是24时,对于一次复数乘法应执行四次运算,并且需要大约每秒六千四百万次运算(MOPS)的性能。
表1示出了将22.2声道沉浸式音频信号渲染成立体声信号的格式转换器的混合矩阵的实施例。
在表1的混合矩阵中,编了号的24个输入声道在横轴140和纵轴150上表示。编了号的24个输入声道的顺序在协方差分析中没有任何特别的相关性。在表1所示的实施例中,当混合矩阵的每个元素的值都为1时(如参考数字160所示),协方差分析是必要的,但是当混合矩阵的每个元素的值为0时(如参考数字170所示),可以省略协方差分析。
例如,在格式转换成立体声输出布局期间没有彼此混合的输入声道(例如声道CM_M_L030和CH_M_R030)的情况下,与未混合的输入声道对应的混合矩阵中的元素的值为0,因此可以省略未混合的声道CM_M_L030和CH_M_R030之间的协方差分析。
因此,可以从24*24个协方差分析中排除彼此未混合的输入声道的128个协方差分析。
另外,因为混合矩阵被配置为按照输入声道对称,所以表1的混合矩阵关于对角线被分成下部190和上部180,并且可以省略对与下部190相对应的区域的协方差分析,在【表1】中:
Figure BDA0001510749090000091
此外,因为仅对与上部180相对应的区域的粗体部分执行了协方差分析,所以最终执行了236个协方差分析。
在混合矩阵的值为0(声道未彼此混合)并且基于混合矩阵的对称性去除了不必要的协方差分析的情况下,为了协方差分析应该进行236×71个频带×2×16×(48000/2048)次复数乘法。
因此,在这种情况下,需要执行50MOPS的性能,因此与对混合矩阵的整个部分执行协方差分析的情况相比,减小了由于协方差分析而导致的系统负荷。
图2是根据一个实施例的解码结构的框图,该解码结构利用13个IC将22.2声道沉浸式音频信号格式转换为立体声输出声道。
MPEG-H 3D音频使用CPE以便在受限传输环境中更有效地传送多声道音频信号。当对应于单个声道对的两个声道混合成立体声布局时,IC相关性(ICC)被设置为1,从而不应用解相关器。因此,这两个声道具有相同的相位信息。
换句话说,当通过考虑立体声输出来确定包含在每个CPE中的声道对时,上混后声道对具有相同的平移系数(panning coefficient),这将在稍后进行描述。
通过混合包含在单个CPE中的两个同相声道来产生单个IC。当包含在IC中的两个输入声道被转换为立体声输出声道时,根据基于格式转换器转换规则的混合增益和均衡(EQ)值对单个IC信号进行缩混。在这种情况下,因为包含在单个CPE中的两个声道是同相声道,所以不需要在缩混之后的声道间对齐相位的过程。
MPS212上混器的立体声输出信号彼此之间没有相位差。然而,在图1的实施例中没有考虑到这一点,因此复杂度不必要地增加了。当再现布局是立体声布局时,可以通过使用单个IC而不是被上混的CPE声道对作为格式转换器的输入,来减少格式转换器的输入声道的数量。
根据图2所示的实施例,不是每个CPE比特流210经历MPS 212上混以产生两个声道,而是每个CPE比特流210经历IC处理220以生成单个IC 221。在这种情况下,由于低音扬声器声道不形成CPE,所以每个低音扬声器声道信号变成IC信号。
根据图2的实施例,在22.2声道的情况下,包含用于一般声道的11个CPE的IC和用于2个低音扬声器声道的IC的13个IC(即,Nin=13),理论上变成格式转换器230的输入声道。因此,格式转换器230执行13*2缩混。
在这样的立体声再现布局情况下,利用IC进一步消除了在通过MPS212上混并且然后通过格式转换进行缩混的过程中产生的不必要的处理,从而进一步降低了解码器的复杂度。
当用于单个CPE的两个输出声道i和j的混合矩阵MMix(i,j)的值为1时,可以将声道间关联(ICC)ICC1,m设置为1,并且可以省略解相关和残差处理。
IC被定义为与格式转换器的输入相对应的虚拟中间声道。如图2所示,每个IC处理块220通过使用MPS212有效载荷(payload)(例如,CLD)和渲染参数(例如,EQ值和增益值)来生成IC信号。EQ值和增益值表示在格式转换器的转换规则表中定义的用于MPS212块的输出声道的渲染参数。
表2示出了使用IC将22.2声道沉浸式音频信号渲染为立体声信号的格式转换器的混合矩阵的一个实施例。
【表2】
A B C D E F G H I J K L M
A 1 1 1 1 1 1 1 1 1 1 1 1 1
B 1 1 1 1 1 1 1 1 1 1 1 1 1
C 1 1 1 1 1 1 1 1 1 1 1 1 1
D 1 1 1 1 1 1 1 1 1 1 1 1 1
E 1 1 1 1 1 1 1 1 1 1 1 1 1
F 1 1 1 1 1 1 1 1 1 0 0 0 0
G 1 1 1 1 1 1 1 1 1 0 0 0 0
H 1 1 1 1 1 1 1 1 1 0 0 0 0
I 1 1 1 1 1 1 1 1 1 0 0 0 0
J 1 1 1 1 1 0 0 0 0 1 1 1 1
K 1 1 1 1 1 0 0 0 0 1 1 1 1
L 1 1 1 1 1 0 0 0 0 1 1 1 1
M 1 1 1 1 1 0 0 0 0 1 1 1 1
与表1类似,表2的混合矩阵的水平轴和垂直轴表示输入声道的索引,并且索引的顺序在协方差分析中并不是很重要。
如上所述,因为一般混合矩阵具有基于对角线的对称性,所以表2的混合矩阵也基于对角线被划分为上部和下部,并且因此对于这两个部分中选定的部分的协方差分析可以省略。在格式转换为立体声输出声道布局期间未混合的输入声道的协方差分析也可以省略。
然而,与表1的实施例相比,根据表2的实施例,包括由一般声道组成的11个IC和2个低音扬声器声道的13个声道被缩混成立体声输出声道,并且格式转换器的输入声道数Nin是13。
因此,根据如表2的使用IC的实施例,执行75次协方差分析,理论上需要19MOPS的性能。因此,与不使用IC的情况相比,由协方差分析而导致的格式转换器的负荷可以大大降低。
在格式转换器中定义了用于缩混的缩混矩阵MDmx,并且利用MDmx计算的混合矩阵MMix,如下:
Figure BDA0001510749090000121
每个OTT解码块输出对应于声道编号i和j的两个声道,并且将混合矩阵MMix为1的情况设置为ICCl,m=1,由此计算上混矩阵
Figure BDA0001510749090000131
Figure BDA0001510749090000132
Figure BDA0001510749090000133
这样,每个OTT解码块都不使用解相关器。
表3示出了根据本发明实施例的使用IC来配置22.2声道的CPE结构。
【表3】
Figure BDA0001510749090000134
当22.2声道比特流具有如表3所示的结构时,可以将13个IC定义为ICH_A至ICH_M,并且可以如表2中那样确定13个IC的混合矩阵。
表3的第一列指示输入声道的索引,并且其第一行指示输入声道是否构成CPE、应用于立体声声道的混合增益以及IC的索引。
例如,当CM_M_000和CM_L_000是包含在单个CPE中的ICH_A IC时,分别要应用到左输出声道和右输出声道以便将CPE上混到立体声输出声道的混合增益的值为0.707。换句话说,上混到左输出声道和右输出声道的信号以相同的大小被再现。
作为另一示例,当CH_M_L135和CH_U_L135是包括在单个CPE中的ICH_F IC时,要应用到左输出声道的混合增益的值为1,并且要应用到右输出声道的混合增益的值为0,以便将CPE上混到立体声输出声道。换句话说,所有信号仅通过左输出声道而不通过右输出声道来再现。
另一方面,当CH_M_R135和CH_U_R135是包括在单个CPE中的ICH_F IC时,要应用到左输出声道的混合增益的值为0且要应用到右输出声道的混合增益的值为1,以将CPE上混到立体声输出声道。换句话说,所有信号只通过右输出声道而不通过左输出声道来再现。
图3是根据一个实施例的用于从单个CPE生成单个IC的装置的框图。
通过将正交镜像滤波器(QMF)域的格式转换参数(例如,CLD、增益和EQ)应用于经缩混的单声道信号,可以产生单个CPE的IC。
图3的IC生成装置包括:上混器310、缩放器320和混合器330。
在输入通过缩混用于CH_M_000和CH_L_000这对声道的信号而获得的CPE信号340的情况下,上混器310通过使用CLD参数上混CPE信号340。CPE信号340可以通过上混器310被上混成用于CH_M_000的信号351和用于CH_L_000的信号352,并且上混后的信号351和352可以保持相同的相位并且可以在格式转换器中被混合在一起。
分别使用缩放器320和缩放器321,以子带为单位,用与在格式转换器中定义的转换规则相对应的增益和EQ值,对作为上混结果的CH_M_000声道信号351和CH_L_000声道信号352进行缩放。
当缩放后的信号361和362作为针对CH_M_000和CH_L_000这对声道进行缩放的结果而生成时,混合器330混合缩放后的信号361和362,并对混合的结果进行功率归一化,以生成IC信号ICH_A 370,IC信号ICH_A 370是用于格式转换的中间声道信号。
在这种情况下,用于没有利用CLD上混的单声道单元(SCE)和低音扬声器声道的IC与原始输入声道相同。
由于使用IC的核心编解码器输出是在混合QMF域中执行的,所以不执行ISOIEC23308-3 10.3.5.2的处理。为了分配核心编码器的每个声道,定义如表4-6所示的附加声道分配规则和缩混规则。
表4示出了根据本发明实施例的与解码器输入声道相对应的IC的类型。
【表4】
Figure BDA0001510749090000161
IC对应于格式转换器与核心编码器的输入声道之间的中间声道,并且包括四种类型的IC,即,低音扬声器声道、中央声道、左声道和右声道。
当以CPE表示的不同类型的声道具有相同的IC类型时,格式转换器具有相同的平移系数和相同的混合矩阵,因此可以使用IC。换句话说,当包括在CPE中的两个声道具有相同的IC类型时,IC处理是可能的,并且因此需要用具有相同IC类型的声道来配置CPE。
当解码器输入声道对应于低音扬声器声道,即CH_LFE1、CH_LFE2或CH_LFE3时,解码器输入声道的IC类型被确定为低音扬声器声道CH_I_LFE。
当解码器输入声道对应于中央声道,即CH_M_000、CH_L_000、CH_U_000、CH_T_000、CH_M_180或CH_U_180时,解码器输入声道的IC类型被确定为中央声道CH_I_CNTR。
当解码器输入声道对应于左声道,即CH_M_L022、CH_M_L030、CH_M_L045、CH_M_L060、CH_M_L090、CH_M_L110、CH_M_L135、CH_M_L150、CH_L_L045、CH_U_L045、CH_U_L030、CH_U_L045、CH_U_L090、CH_U_L110、CH_U_L135、CH_M_LSCR或CH_M_LSCH,解码器输入声道的IC类型被确定为左声道CH_I_LEFT。
当解码器输入声道对应于右声道,即,CH_M_R022、CH_M_R030、CH_M_R045、CH_M_R060、CH_M_R090、CH_M_R110、CH_M_R135、CH_M_R150、CH_L_R045、CH_U_R045、CH_U_R030、CH_U_R045、CH_U_R090、CH_U_R110、CH_U_R135、CH_M_RSCR或CH_M_RSCH,解码器输入声道的IC类型被确定为右声道CH_I_RIGHT。
表5示出根据本发明实施例的根据IC类型另外定义的声道的位置。
【表5】
Figure BDA0001510749090000181
CH_I_LFE是低音扬声器声道,并且位于0度的仰角处,并且CH_I_CNTR对应于仰角和方位角均为0度的声道。CH_I_LFET对应于仰角为0度且方位角在左侧的30度至60度之间的扇区的声道,CH_I_RIGHT对应于仰角为0度且方位角在右侧30度至60度之间的扇区的声道。
在这种情况下,重新定义的IC的位置不是声道之间的相对位置,而是相对于参考点的绝对位置。
甚至可以将IC应用于由CPE对组成的四声道单元(QCE,Quadruple ChannelElement),稍后将对其进行描述。
可以使用两种方法来产生IC。
第一种方法是在MPEG-H 3D音频编码器中进行预处理,而第二种方法是在MPEG-H3D音频解码器中进行后处理。
当在MPEG中使用IC时,表5可作为新行添加到ISO/IEC 23008-3表90中。
表6示出根据本发明的实施例的对应于IC类型的格式转换器输出声道,以及将被应用于每个格式转换器输出声道的增益和EQ指标。
【表6】
目的地 增益 EQ指标
CH_I_CNTR CH_M_L030,CH_M_R030 1.0 0(关)
CH_I_LFE CH_M_L030,CH_M_R030 1.0 0(关)
CH_I_left CH_M_L030 1.0 0(关)
CH_I_RGHT CH_M_L030 1.0 0(关)
为了使用IC,应在格式转换器中添加诸如表6的附加规则。
IC信号是考虑了格式转换器的增益值和EQ值而产生的。因此,可以使用如表6所示的增益值为1并且EQ指标为0的附加转换规则来产生IC信号。
当IC类型是对应于中央声道的CH_I_CNTR或对应于低音扬声器声道的CH_I_LFE时,输出声道是CH_M_L030和CH_M_R030。此时,因为增益值被确定为1,EQ指标被确定为0,并且两个立体声输出声道被全部使用,所以每个输出声道信号应该被乘以1/√2以便保持输出信号的功率。
当IC类型是对应于左声道的CH_I_LEFT时,输出声道是CH_M_L030。此时,因为增益值被确定为1,EQ指标被确定为0,并且仅使用左输出声道,所以增益1被应用到CH_M_L030,增益0被应用到CH_M_R030。
当IC类型是对应于右声道的CH_I_RIGHT时,输出声道是CH_M_R030。此时,因为增益值被确定为1,EQ指标被确定为0,并且仅使用右输出声道,所以增益1被应用到CH_M_R030,并且增益0被应用到CH_M_L030。
在这种情况下,通用格式转换规则被应用于其IC和输入声道相同的SCE声道。
当在MPEG中使用IC时,表6可作为新行添加到ISO/IEC 23008-3表96中。
表7-表15示出了为了在MPEG中利用IC而要更改的现有标准的一部分。
表7示出了根据本发明实施例的ICGConfig的句法。
【表7】
Figure BDA0001510749090000211
表7中所示的ICGconfig定义了将在IC处理块中执行的处理的类型。
ICGDisabledPresent指示针对CPE的至少一个IC处理是否由于声道分配而被禁用。换句话说,ICGDisabledPresent是表示至少一个ICGDisabledCPE是否具有值1的指示符。
ICGDisabledCPE指示每个针对CPE的IC处理是否由于声道分配而被禁用。换句话说,ICGDisabledCPE是表示每个CPE是否使用IC的指示符。
ICGPreAppliedPresent指示是否已经考虑了ICG来编码至少一个CPE。
ICGPreAppliedCPE是表示是否已经考虑了ICG来编码每个CPE(即,ICG是否已经在编码器中被预处理)的指示符。
当针对每个CPE将ICGAppliedPresent设置为1时,ICGPreAppliedCPE(其为ICGPreAppliedCPE的1-位标志)被读出。换句话说,确定是否应该将ICG应用于每个CPE,并且当确定应该将ICG应用于每个CPE时,就确定了ICG是否已经在编码器中被预处理。如果确定ICG已经在编码器中被预处理,则解码器不应用ICG。另一方面,如果确定ICG没有在编码器中被预处理,则解码器应用ICG。
当沉浸式音频输入信号是利用CPE或QCE由MPS212编码的并且输出布局是立体声布局时,为了减少格式转换器的输入声道的数量,核心编解码器解码器生成IC信号。在这种情况下,对于其ICGDisabledCPE被设置为1的CPE,省略了IC信号生成。IC处理对应于将解码的单声道信号乘以ICG的处理,并且ICG是根据CLD和格式转换参数计算出来的。
ICGDisabledCPE[n]指示第n个CPE是否可能经历IC处理。当包括在第n个CPE中的两个声道属于表4中定义的相同声道组时,第n个CPE能够经历IC处理,并且ICGDisabledCPE[n]被设置为0。
例如,当输入声道中的CH_M_L060和CH_T_L045构成单个CPE时,由于两个声道属于同一个声道组,所以可以将ICGDisabledCPE[n]设置为0,并且可以生成CH_I_LEFT的IC。另一方面,当输入声道中的CH_M_L060和CH_M_000构成单个CPE时,由于两个声道属于不同的声道组,所以ICGDisabledCPE[n]被设置为1,并且不执行IC处理。
对于包括CPE对的QCE,在用属于一个组的四个声道配置QCE的情况(1)下,或者在用属于一个组的两个声道和属于另一个组的两个声道配置QCE的情况(2)下,IC处理是可能的,并且ICGDisableCPE[n]和ICGDisableCPE[n+1]都被设置为0。
作为情况(1)中的示例,当用CH_M_000、CH_L_000、CH_U_000和CH_T_000四个声道配置QCE时,IC处理是可能的,并且QCE的IC类型是CH_I_CNTR。作为的情况(2)的例子,在用CH_M_L060,CH_U_L045,CH_M_R060和CH_U_R045这四个声道配置QCE的情况下,IC处理是可能的,并且QCE的IC类型为CH_I_LEFT和CH_I_RIGHT。
在除了情况(1)和情况(2)的情况下,构成对应的QCE的CPE对的ICGDisableCPE[n]和ICGDisableCPE[n+1]均应被设置为1。
当编码器应用ICG时,与解码器应用ICG时相比,解码器所需的复杂度可以降低。
ICGConfig的ICGPreAppliedCPE[n]指示是否已经在编码器中将ICG应用于第n个CPE。如果ICGPreAppliedCPE[n]为真,则解码器的IC处理块绕开用于立体声再现第n个CPE的缩混信号。另一方面,如果ICGPreAppliedCPE[n]为假,则解码器的IC处理块将ICG应用于缩混信号。
如果ICGDisableCPE[n]是1,则不可能计算用于对应的QCE或CPE的ICG,并且因此将ICGPreApplied[n]设置为0。对于包含CPE对的QCE,包含在QCE中的两个CPE的指标ICGPreApplied[n]和ICGPreApplied[n+1]应具有相同的值。
现在将使用表8-表16描述对于IC处理要被更改或添加的比特流结构和比特流句法。
表8示出了根据本发明实施例的mpegh3daExtElementConfig()的句法。
【表8】
Figure BDA0001510749090000241
如表8的mpegh3daExtElementConfig()所示,可以在配置过程期间调用ICGConfig(),从而获得如表7中的关于使用IC或不使用IC和应用ICG或不应用ICG的信息。
表9示出了根据本发明实施例的usacExtElementType的句法。
【表9】
Figure BDA0001510749090000251
如表9所示,在usacExtElementType中,可以为IC处理添加ID_EXT_ELE_ICG,并且ID_EXT_ELE_ICG的值可以是9。
表10示出了根据本发明实施例的speakerLayoutType的句法。
【表10】
Figure BDA0001510749090000252
对于IC处理,应定义用于IC的扬声器布局类型speakerLayoutType。表10显示了speakerLayoutType的每个值的含义。
当speakerLayoutType是3时,通过索引LCChannelConfiguration来表示扬声器布局。索引LCChannelConfiguration与ChannelConfiguration具有相同的布局,但LCChannelConfiguration所具有声道分配顺序能够实现使用CPE的最佳IC结构。
表11示出了根据本发明实施例的SpeakerConfig3d()的句法。
【表11】
Figure BDA0001510749090000261
当如上所述speakerLayoutType为3时,实施例使用与CICPspeakerLayoutIdx相同的布局,但就最佳声道分配排序而言实施例与CICPspeakerLayoutIdx不同。
当speakerLayoutType是3并且输出布局是立体声布局时,输入声道数Nin变为核心编解码器之后的IC的数量。
表12示出了根据本发明实施例的immersiveDownmixFlag的句法。
【表12】
Figure BDA0001510749090000262
通过新定义用于IC的扬声器布局类型,immersiveDownmixFlag也应该被校正。当immersiveDownmixFlag为1时,应如表12所示添加用于处理speakerLayoutType为3的情况的句子。
目标展开应该满足以下要求:
-本地云扬声器设置由LoudspeakerRendering()通知,
-speakerLayoutType应该是0或3,
-CICPspeakerLayoutIdx具有值4、5、6、7、9、10、11、12、13、14、15、16、17或18。
表13示出了根据本发明实施例的SAOC3DgetNumChannels()的句法。
如表13所示,SAOC3DgetNumChannels应该被校正以包括speakerLayoutType为3的情况。
【表13】
Figure BDA0001510749090000271
表14示出了根据本发明实施例的声道分配顺序的句法。
表14按照扬声器布局或LCChannelConfiguration,将声道数、声道顺序以及可能的IC类型指示为针对IC新定义的声道分配顺序。
【表14】
Figure BDA0001510749090000281
Figure BDA0001510749090000291
表15示出了根据本发明实施例的mpegh3daChannelPairElementConfig()的句法。
对于IC处理,如表15所示,当stereoConfigIndex大于0时,应校正mpegh3daChannelPairElementConfig()使得Mps212Config()处理之后是isInternalChangeProcessed()。
【表15】
Figure BDA0001510749090000301
图4是根据本发明实施例的解码器的ICG应用单元将ICG应用于IC信号的详细框图。
当speakerLayout是3、isInternalProcessed是0并且再现布局是立体声布局的条件被满足并且因此解码器应用ICG时,执行如图4中的IC处理。
图4中所示的ICG应用单元包括ICG获取器410和乘法器420。
假设输入CPE包括CH_M_000和CH_L_000这对声道,则当输入CPE的单声道QMF子带样本430被输入时,ICG获取器410通过使用CLD来获取ICG。乘法器420通过将所接收的单声道QMF子带样本430乘以所获取的ICG来获取IC信号ICH_A 440。
可以通过将CPE的单声道QMF子带样本与ICG
Figure BDA0001510749090000302
相乘来简单地重组IC信号,其中l指示时间索引且m指示频率索引。
ICG
Figure BDA0001510749090000311
在等式1中定义:
【等式1】
Figure BDA0001510749090000312
其中,
Figure BDA0001510749090000313
Figure BDA0001510749090000314
指示CLD的平移系数,Gleft和Gright指示在格式转换规则中定义的增益,并且
Figure BDA0001510749090000315
Figure BDA0001510749090000316
指示在格式转换规则中定义的EQ值的第m个频带的增益。
图5是示出根据本发明实施例的当编码器预处理ICG时的解码过程的框图。
当speakerLayout是3、isInternalProcessed是1并且再现布局是立体声布局的条件被满足且因此编码器应用ICG并发送ICG时,执行如图5中的IC处理。
当输出布局是立体声布局时,MPEG-H 3D音频编码器预处理对应于CPE的ICG,使得解码器绕开MPS212,因此可以减少解码器的复杂度。
然而,当输出布局不是立体声布局时,MPEG-H 3D音频编码器不执行IC处理,因此解码器需要执行乘ICG的逆
Figure BDA0001510749090000317
并运行MPS212的处理以实现解码,如图5所示。
类似于图3和图4,假定输入CPE包括CH_M_000和CH_L_000这对声道。当输入具有在编码器中预处理的ICG的单声道QMF子带样本540时,解码器确定输出布局是否是立体声布局,如附图标记510所示。
当输出布局是立体声布局时,使用IC,并且因此解码器将所接收的单声道QMF子带样本540作为IC ICH_A 550的IC信号输出。另一方面,当输出布局不是立体声布局时,在IC处理期间不使用IC,因此解码器执行逆ICG处理520以恢复如附图标记560所指示的经IC处理过的信号,以及通过如附图标记530所示的MPS212上混所恢复的信号,从而输出CH_M_000的信号571和CH_L_000的信号572。
因为在输入声道的数量大并且输出声道的数量小时由格式转换器中协方差分析导致的负荷成为问题,所以当输出布局是立体布局时,MPEG-H音频具有最大的解码复杂度。
另一方面,当输出布局不是立体布局时,在每帧有两组CLD的情况下,为了乘以ICG的逆而添加的运算的数目是(5次乘法、2次加法、1次除法、取1次平方根≈55次运算)×(71条频带)×(2个参数集合)×(48000/2048)×(13个IC),因此变成大约2.4MOPS且在系统上并没有充当大负荷。
在生成IC之后,IC的QMF子带样本、IC数量以及IC的类型被发送到格式转换器,并且格式转换器中的协方差矩阵的大小取决于IC数量。
表16示出了根据本发明实施例的基于声道单元和再现布局确定的MPEG环绕(MPS)和频带复制(SBR)的解码场景。
【表16】
再现布局 单元 MPS和SBR的顺序
立体声 CPE MPS在单声道SBR之后
立体声 CPE MPS在立体声SBR之前
立体声 QCE 两个MPS在两个立体声SBR之前
非立体声 CPE/QCE 与顺序无关
MPS是通过使用包含空间线索参数和人对多声道音频信号的感知特性的辅助数据来编码多声道音频信号的技术,所述空间线索参数表示混合到最小声道(单声道或立体声)的缩混。
MPS编码器接收N个多声道音频信号并且提取空间参数作为辅助数据,例如,该空间参数可以表示成基于双耳效应和声道之间的相关性的两个耳朵的音量之间的差异。由于所提取的空间参数的信息量非常少(每个声道不超过4kbps),因此即使在仅能够提供单声道或立体声音频服务的带宽中也可以提供高质量的多声道音频。
MPS编码器还从所接收的N个多声道音频信号生成缩混信号,并且所生成的缩混信号通过例如MPEG USAC(这是一种音频压缩技术)进行编码,并且与空间参数一起发送。
此时,由MPS编码器接收的N个多声道音频信号被分析滤波器组分成多个频带。将频域分成子带的代表性方法包括离散傅里叶变换(DFT)或使用QMF。在MPEG环绕中,使用QMF以低复杂度将频域分成子带。当使用QMF时,可以确保其与SBR的兼容性,并且因此可以执行更有效的编码。
SBR这样一种技术:将低频带复制并粘贴到人类相对不易觉察到的高频带,并且参数化和发送关于高频带信号的信息。因此,根据SBR,可以在低比特率下实现宽带宽。SBR主要用于压缩率高、比特率低的编解码器,并且由于一些高频段信息的丢失难以表达谐波。然而,SBR在听得见的频率内提供了高还原率。
除了处理的域不同之外,在IC处理中使用的SBR与ISO/IEC 23003-3:2012相同。在QMF域中定义ISO/IEC 23003-3:2012的SBR,但在混合QMF域中处理IC。因此,当QMF域的索引号是k时,针对IC的整体SBR处理的频率索引号是k+7。
在通过立体声再现布局输出CPE时执行单声道SBR解码然后执行MPS解码的解码场景的实施例在图6中示出。
在将CPE输出到立体声再现布局时执行MPS解码然后执行立体声SBR解码的解码场景的实施例在图7中示出。
图8和图9示出了在通过立体声再现布局输出QCE时对CPE对执行MPS解码然后对每个已解码的信号执行立体声SBR解码的解码场景的实施例。
当用以输出CPE或QCE的再现布局不是立体声布局时,执行MPS解码和SBR解码的顺序就不重要了。
如下定义由解码器处理的通过MPS212编码的CPE信号:
cplx_out_dmx[]是通过复合预测立体声解码获得的CPE缩混信号。
cplx_out_dmx_preICG[]是已经在编码器中被应用了ICG的单声道信号,其要通过复合预测立体声解码和混合QMF域中的混合QMF分析滤波器组解码被解码。
cplx_out_dmx_postICG[]是已经经历了复合预测立体声解码且在混合QMF域中经历了IC处理并且在解码器中要被应用ICG的单声道信号。
cplx_out_dmx_ICG[]是混合QMF域中的全频带IC信号。
如下定义由解码器处理的通过MPS212编码的QCE信号:
cplx_out_dmx_L[]是已经经历复合预测立体声解码的第一CPE的第一声道信号。
cplx_out_dmx_R[]是已经经历了复合预测立体声解码的第一CPE的第二声道信号。
cplx_out_dmx_L_preICG[]是混合QMF域中的第一预先应用ICG的IC信号。
cplx_out_dmx_R_preICG[]是混合QMF域中的第二预先应用ICG的IC信号。
cplx_out_dmx_L_postICG[]是混合QMF域中的第一后应用ICG的IC信号。
cplx_out_dmx_R_postICG[]是混合QMF域中的第二后应用ICG的IC信号。
cplx_out_dmx_L_ICG_SBR是包括用于22.2到2格式转换的缩混参数和由SBR生成的高频分量的第一全频带解码的IC信号。
cplx_out_dmx_R_ICG_SBR是包括用于22.2到2格式转换的缩混参数和由SBR生成的高频分量的第二全频带解码的IC信号。
图6的流程图示出了根据本发明实施例的当通过立体声再现布局输出CPE时用于执行单声道SBR解码然后执行MPS解码的结构中的IC处理方法。
当接收到CPE比特流时,在操作610中首先通过ICGDisabledCPE[n]标志来判定使用或不使用CPE。
当ICGDisabledCPE[n]为真时,在操作620中,如在ISO/IEC 23008-3中所定义的那样解码CPE比特流。另一方面,当ICGDisabledCPE[n]为假时,在操作630中,如果SBR是必要的,对CPE比特流执行单声道SBR,并且对其执行立体声解码以生成缩混信号cplx_out_dmx。
在操作640中,通过ICGPreAppliedCPE判定在编码器端是否已经应用ICG。
当ICGPreAppliedCPE[n]为假时,在操作650中,缩混信号cplx_out_dmx在混合QMF域中受到IC处理,从而生成后应用ICG的缩混信号cplx_out_dmx_postICG。在操作650中,使用MPS参数来计算ICG。通过ISO/IEC23008-3计算针对CPE去量化的线性CLD值,并且使用等式2计算ICG。
通过将缩混信号cplx_out_dmx乘以使用等式2计算出的ICG,来生成后应用ICG的缩混信号cplx_out_dmx_postICG:
【等式2】
Figure BDA0001510749090000351
其中
Figure BDA0001510749090000361
Figure BDA0001510749090000362
指示对于CPE信号的第1个时隙和第m个混合QMF频带的去量化的线性CLD值,Gleft和Gright指示在ISO/IEC 23008-3表96中(即,在格式转换规则表中)定义的输出声道的增益列的值,并且
Figure BDA0001510749090000363
Figure BDA0001510749090000364
指示在格式转换规则表中定义的输出声道的EQ值的第m个频带的增益。
当ICGPreAppliedCPE[n]为真时,在操作660中,分析缩混信号cplx_out_dmx以获取预先应用ICG的缩混信号cplx_out_dmx_preICG。
根据ICGPreAppliedCPE[n]的设置,信号cplx_out_dmx_preICG或cplx_out_dmx_postICG变成最终的经过IC处理的输出信号cplx_out_dmx_ICG。
图7的流程图示出了根据本发明的实施例的当通过立体声再现布局输出CPE时执行MPS解码然后执行立体声SBR解码的IC处理方法。
根据图7的实施例,与图6的实施例相比,由于MPS解码之后是SBR解码,所以当IC未被使用时执行立体声SBR解码。另一方面,当使用IC时,执行单声道SBR,并且为此将用于立体声SBR的参数缩混。
因此,与图6相比,图7的方法进一步包括:缩混用于两个声道的SBR参数来生成用于一个声道的SBR参数的操作780;以及通过使用所生成的SBR参数来执行单声道SBR的操作770,并且已经经过单声道SBR的cplx_out_dmx_ICG成为最终的经过IC处理的输出信号cplx_out_dmx_ICG。
在如图7所示的操作布局中,由于在IC处理之后SBR的执行导致高频分量扩展,所以信号cplx_out_dmx_preICG或信号cplx_out_dmx_postICG对应于带限信号。应当在参数域中缩混用于上混立体声信号的SBR参数对,以便扩展带限IC信号cplx_out_dmx_preICG或cplx_out_dmx_postICG的带宽。
SBR参数缩混器应当包括将由于SBR而扩展的高频带乘以格式转换器的EQ值和增益参数的过程。下面将详细描述缩混SBR参数的方法。
图8是根据本发明实施例的当通过立体声再现布局输出QCE时使用立体声SBR的结构中的IC处理方法的框图。
图8的实施例是ICGPreApplied[n]和ICGPreApplied[n+1]均为0的情况,即在解码器中应用ICG的方法的实施例。
参考图8,整体解码过程按照比特流解码810、立体声解码820、混合QMF分析830、IC处理840和立体声SBR850的顺序进行。
当包括在QCE中的两个CPE的比特流分别经历比特流解码811和比特流解码812时,从与比特流解码的结果对应的解码信号中提取SBR有效载荷、MPS212有效载荷和CplxPred有效载荷。
使用CplxPred有效载荷执行立体声解码821,并且将分别经历混合QMF分析831和混合QMF分析832的立体声解码信号cplx_dmx_L和cplx_dmx_R,分别作为IC处理单元841和IC处理单元842的输入信号发送。
此时,生成的IC信号cplx_dmx_L_PostICG和cplx_dmx_R_PostICG是带限信号。因此,这两个IC信号通过使用缩混SBR参数经历立体声SBR 851,所述缩混SBR参数是通过对从两个CPE的比特流提取的SBR有效载荷进行缩混而获得的。带限IC信号的高频率通过立体声SBR 851被扩展,从而生成全频带的经IC处理的输出信号cplx_dmx_L_ICG和cplx_dmx_R_ICG。
缩混SBR参数用于扩展带限IC信号的频带以生成全频带IC信号。
因此,当对QCE使用IC时,仅使用一个立体声解码块并且仅使用一个立体声SBR块,因此可省略立体声解码块822和立体声SBR块852。换句话说,与每个CPE都被处理的情况相比,图7的情况通过使用QCE实现了简单的解码结构。
图9是根据本发明另一实施例的在通过立体声再现布局输出QCE时使用立体声SBR的结构中的IC处理方法的框图。
图9的实施例是ICGPreApplied[n]和ICGPreApplied[n+1]都是1的情况,即在编码器中应用ICG的方法的实施例。
参考图9,整个解码过程按照比特流解码910、立体声解码920、混合QMF分析930和立体声SBR 950的顺序进行。
当编码器已经应用了ICG时,解码器不执行IC处理,并且因此图9的方法省略了图8的IC处理块841和IC处理块842。图9的其他过程与图8的相似,在此省略对这些过程的重复说明。
立体声解码信号cplx_dmx_L和cplx_dmx_R分别经过混合QMF分析931和混合QMF分析932,然后作为立体声SBR块951的输入信号被发送。在立体声解码信号cplx_dmx_L和cplx_dmx_R通过立体声SBR块951后,生成全频带的经IC处理的输出信号cplx_dmx_L_ICG和cplx_dmx_R_ICG。
当输出声道不是立体声声道时,使用IC可能不合适。因此,当编码器已经应用了ICG时,如果输出声道不是立体声声道,则解码器应当应用ICG的逆。
在这种情况下,如表8所示,MPS和SBR的解码顺序不重要,但是为了便于解释,将描述执行单声道SBR解码然后执行MPS212解码的场景。
如等式3所示,使用MPS参数和格式转换参数来计算ICG的逆IG:
【等式3】
Figure BDA0001510749090000381
Figure BDA0001510749090000382
Figure BDA0001510749090000383
指示CPE信号的第1个时隙和第m个混合QMF频带的去量化线性CLD值,Gleft和Gright指示在ISO/IEC 23008-3表96中(即在格式转换规则表中)定义的输出声道的增益列的值,并且
Figure BDA0001510749090000391
Figure BDA0001510749090000392
指示在格式转换规则表中定义的输出声道的EQ值的第m个频带的增益。
如果ICGPreAppliedCPE[n]为真,则在通过MPS块之前,第n个cplx_dmx应与ICG的逆相乘,并且剩余解码过程应遵循ISO/IEC 23008-3。
当解码器使用IC处理块或编码器预处理ICG并且输出布局是立体布局时,对于CPE/QCE,不是经MPS上混的立体声/四声道信号,而是带限IC信号在SBR块之前的端生成。
由于对于经MPS上混的立体声/四声道信号,SBR有效载荷已经通过立体声SBR被编码,所以立体声SBR有效载荷应当通过与参数域中的格式转换器的增益和EQ值相乘而被缩混,以便实现IC处理。
现在将详细描述参数缩混立体声SBR的方法。
(1)逆滤波
通过允许立体声SBR参数在每个本底噪声带中具有最大值来选择逆滤波模式。
其可以利用等式4获得:
【等式4】
for(i=0;i<NQ;i++)
bs_invf_modeDownmixed(i)=MAX(bs_invf_modech1(i),bs_invf_modech2(i))
Figure BDA0001510749090000393
2)附加谐波
包括基频f和基频f的奇次谐波3f、5f、7f、...的声波具有半波对称性。但是,包含基频f的偶次谐波0f、2f、...的声波不具有对称性。相反,引起声源波形变化而不是简单的缩放或移动的非线性系统产生额外的谐波,从而发生谐波失真。
附加谐波是额外的正弦波的组合,并且可以如等式5表示:
【等式5】
for(i=0;i<NHigh;i++)
bs_add_harmonicDownmixcd(i)=OR(bs_add_harmonicch1(i),bs_add_harmonicch2(i))
(3)包络时间边界
图10a、图10b、图10c和图10d示出了根据本发明实施例的确定时间边界的方法,该时间边界是SBR参数。
图10a示出了当第一包络的开始边界相同并且最后包络的停止边界相同时的时间包络网格。
图10b示出了当第一包络的开始边界不同并且最后包络的停止边界相同时的时间包络格子。
图10c示出了当第一包络的开始边界相同并且最后包络的停止边界不同时的时间包络格子。
图10d示出了当第一包络的开始边界不同并且最后包络的停止边界不同时的时间包络格子。
用于IC的SBR的时间包络格子tE_Merged是通过将立体声SBR时间格分割成具有最高分辨率的最小片段而生成的。
将tE_Merged的开始边界值设置为立体声道的最大开始边界值。时间格子0和开始边界之间的包络已经在前一帧中处理过了。将两个声道的最后包络的停止边界中的具有最大值的停止边界,作为最后包络的停止边界。
如在图10a-10d中所示,通过获得两个声道的时间边界之间的交点,确定第一个包络和最后一个包络的开始/停止边界具有最多分段的分辨率。如果至少有5个包络,则反向搜索从tE_Merged的停止点到tE_Merged的开始点的点,找到不到4个包络,从而去除这不到4个包络的开始边界,以便减少包络的数量。这个过程一直持续到剩下5个包络。
(4)噪声时间边界
通过采用两个声道的噪声时间边界之中具有较大值的噪声时间边界,来确定缩混的噪声时间边界LQ_Merged的数量。通过采用包络时间边界tE_Merged的第一格和最后一格来确定第一格和合并的噪声时间边界tQ_Merged
如果缩混的噪声时间边界LQ_Merged大于1,则选择tQ_Merged(1),作为其中噪声时间边界LQ大于1的声道的tQ(1)。如果两个声道都具有大于1的噪声时间边界LQ,则tQ(1)的最小值被选为tQ_Merged(1)。
(5)包络数据
图11示出根据本发明实施例的合并作为SBR参数的频率分辨率的方法。
选择合并的包络时间边界的频率分辨率rMerged。频率分辨率rMerged的每一部分的频率分辨率rch1和频率分辨率rch2的之间的最大值被选择为rMerged,如图11所示。
利用等式6,考虑格式转换参数来根据包络数据EOrig计算所有包络的包络数据EOrig_Merged
【等式6】
Figure BDA0001510749090000411
其中,
Figure BDA0001510749090000412
Figure BDA0001510749090000421
,0≤k≤n(rNferged(1),0≤1<LE_Merged
hch1(1)定义为:
tE_ch1(hch0(1)≤tE_Merged(l)<tE_ch1(hch1(l)+1),
hch2(1)定义为:
tE_ch2(hch2(1))≤tE_Merged(1)<tE_ch(hch2(1)+1,
gch1(k)定义为:
F(gch1(k),rch1(hch1(l)))≤F(k,rMerged(l))<F(gch1(k)+1,rch1(hch1(l))),
并且gch2(k)定义为:
F(gch2(k),rch2(hch2(l)))≤F(k,rMerged(l))<F(gch2(k)+1,rch2(hch2(l)))。
(6)本底噪声数据
根据等式7,合并的本底噪声数据被确定为两个声道数据的总和:
【等式7】
QOrigMerged(k,1)=QOrigch1(k,hch1(l))+QOrigch2(k,hch2(l)),
0≤k<NQ,0≤1<LQ_Merged
其中hch1(1)定义为tQ_ch1(hch1(1))≤tQ_Merged(1)<tQ_ch1(hch1(l)+l),并且hch2(1)定义为tQ_ch2(hch2(l))≤tQ_Merged(l)<tQ_ch2(hch2(l)+1)。
本发明的上述实施例可以实现为可由各种计算机配置元件执行并且可以记录在计算机可读记录介质上的程序命令。计算机可读记录介质可以包括单独或组合的程序命令、数据文件、数据结构等等。要被记录在计算机可读记录介质上的程序命令可以为了本发明的实施例而被专门设计和配置,或者可以是计算机软件领域的普通技术人员熟知和可用的。计算机可读记录介质的示例包括磁性介质(例如,硬盘、软磁盘或磁带)、光学介质(例如,光盘只读存储器(CD-ROM)或者数字多功能盘(DVD)、磁光介质(例如,软光盘)以及专门配置为存储和执行程序命令的硬件设备(例如,ROM、随机存取存储器(RAM)或闪存存储器等)。计算机程序的示例包括可以由计算机使用解释器等执行的高级语言代码,以及由编译器制作的机器语言代码。硬件设备可以被配置用作一个或多个软件模块以执行本发明的操作,或者反之亦然。
虽然已经参照本发明的示例性实施例具体示出和描述了本发明,但是可以理解,在不脱离所附权利要求的精神和范围的情况下,可以进行各种形式和细节上的改变。
因此,本发明的范围不是由详细描述而是由所附权利要求限定的,并且该范围内的所有差异将被解释为包括在本发明中。

Claims (15)

1.一种处理音频信号的方法,所述方法包括:
接收通过MPEG环绕212 MPS212编码并应用了频带复制SBR的双声道单元CPE比特流;
基于接收到的CPE比特流和内部声道增益ICG,生成带限内部声道IC信号;
基于格式转换器的渲染参数,将SBR参数对缩混为单声道SBR参数;
基于生成的带限IC信号和所述单声道SBR参数生成全频带IC信号;以及
基于生成的全频带IC信号生成立体声输出信号。
2.如权利要求1所述的方法,其中,所述带限IC信号的生成包括判定对所述CPE比特流的IC处理是否可能。
3.如权利要求2所述的方法,其中,基于包含在所述CPE比特流中的声道对是否属于同一个IC组,来判定对所述CPE比特流的IC处理是否可能。
4.如权利要求1所述的方法,其中,
当包含在所述CPE比特流中的声道对均包含在左IC组中时,所述全频带IC信号只通过立体声输出声道中的左输出声道输出,并且
当包含在所述CPE比特流中的声道对均包含在右IC组中时,所述全频带IC信号只通过立体声输出声道中的右输出声道输出。
5.如权利要求1所述的方法,其中,当包含在所述CPE比特流中的声道对均包含在中央IC组中或者包含在CPE比特流中的声道对均包含在低频音效LFE IC组中时,所述全频带IC信号通过立体声输出声道中的左输出声道和右输出声道均匀地输出。
6.如权利要求1所述的方法,其中,所述带限IC信号的生成包括:
计算所述ICG;以及
应用所述ICG。
7.如权利要求1所述的方法,其中,所述单声道SBR参数EOrig_Merged是根据如下等式确定的:
Figure FDA0003071392710000021
其中,
Figure FDA0003071392710000022
Figure FDA0003071392710000023
0≤k<n(rMerged(1)),0≤1<LE_Merged
hch1(l)被定义为:tE_ch1(hch1(l))≤tE_Merged(l)<tE_ch1(hch1(l)+1),
hch2(l)被定义为:tE_ch2(hch2(l))≤tE_Merged(l)<tE_ch2(hch2(l)+1),
gch1(k)被定义为:F(gch1(k),rch1(hch1(l)))≤F(k,rMerged(l))<F(gch1(k)+1,rch1(hch1(l))),以及
gch2(k)被定义为:F(gch2(k),rch2(hch2(l)))≤F(k,rMerged(l))<F(gch2(k)+1,rch2(hch2(l)))。
8.一种用于处理音频信号的装置,所述装置包括:
接收器,被配置为接收通过MPEG环绕212 MPS212编码并应用了频带复制SBR的双声道单元CPE比特流;
内部声道IC信号发生器,被配置为基于CPE比特流和内部声道增益ICG,生成带限IC信号,基于格式转换器的渲染参数,将SBR参数对缩混为单声道SBR参数,以及基于生成的带限IC信号和所述单声道SBR参数生成全频带IC信号;以及
立体声输出信号发生器,被配置为基于生成的全频带IC信号生成立体声输出信号。
9.如权利要求8所述的装置,其中,所述IC信号发生器被配置为判定对所述CPE比特流的IC处理是否可能。
10.如权利要求9所述的装置,其中,基于包含在CPE比特流中的声道对是否属于同一个IC组,来判定对所述CPE比特流的IC处理是否可能。
11.如权利要求8所述的装置,其中,
当包含在所述CPE比特流中的声道对均包含在左IC组中时,所述全频带IC信号只通过立体声输出声道中的左输出声道输出,以及
当包含在所述CPE比特流中的声道对均包含在右IC组中时,所述全频带IC信号只通过立体声输出声道中的右输出声道输出。
12.如权利要求8所述的装置,其中,当包含在所述CPE比特流中的声道对均包含在中央IC组中或者包含在所述CPE比特流中的声道对均包含在低频音效LFE IC组中时,所述全频带IC信号通过立体声输出声道中的左输出声道和右输出声道均匀地输出。
13.如权利要求8所述的装置,其中,所述IC信号发生器被配置为计算所述ICG和应用所述ICG。
14.如权利要求8所述的装置,其中,所述IC信号发生器被进一步配置为根据如下等式确定所述单声道SBR参数EOrig_Merged
Figure FDA0003071392710000031
其中,
Figure FDA0003071392710000032
Figure FDA0003071392710000033
0≤k<n(rMerged(1)),0≤1<LE_Merged
hch1(l)被定义为:tE_ch1(hch1(l))≤tE_Merged(l)<tE_ch1(hch1(l)+1),
hch2(l)被定义为:tE_ch2(hch2(l))≤tE_Merged(l)<tE_ch2(hch2(l)+1),
gch1(k)被定义为:F(gch1(k),rch1(hch1(l)))≤F(k,rMerged(l))<F(gch1(k)+1,rch1(hch1(l))),以及
gch2(k)被定义为:F(gch2(k),rch2(hch2(l)))<F(k,rMerged(1))<F(gch2(k)+1,rch2(hch2(l)))。
15.一种计算机可读记录介质,所述计算机可读记录介质上记录有用于执行权利要求1所述的方法的计算机程序。
CN201680035415.XA 2015-06-17 2016-06-17 实现低复杂度格式转换的内部声道处理方法和装置 Active CN107771346B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111026302.2A CN114005454B (zh) 2015-06-17 2016-06-17 实现低复杂度格式转换的内部声道处理方法和装置

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201562181096P 2015-06-17 2015-06-17
US62/181,096 2015-06-17
US201562241082P 2015-10-13 2015-10-13
US201562241098P 2015-10-13 2015-10-13
US62/241,082 2015-10-13
US62/241,098 2015-10-13
US201562245191P 2015-10-22 2015-10-22
US62/245,191 2015-10-22
PCT/KR2016/006495 WO2016204581A1 (ko) 2015-06-17 2016-06-17 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202111026302.2A Division CN114005454B (zh) 2015-06-17 2016-06-17 实现低复杂度格式转换的内部声道处理方法和装置

Publications (2)

Publication Number Publication Date
CN107771346A CN107771346A (zh) 2018-03-06
CN107771346B true CN107771346B (zh) 2021-09-21

Family

ID=57546014

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201680035415.XA Active CN107771346B (zh) 2015-06-17 2016-06-17 实现低复杂度格式转换的内部声道处理方法和装置
CN202111026302.2A Active CN114005454B (zh) 2015-06-17 2016-06-17 实现低复杂度格式转换的内部声道处理方法和装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202111026302.2A Active CN114005454B (zh) 2015-06-17 2016-06-17 实现低复杂度格式转换的内部声道处理方法和装置

Country Status (5)

Country Link
US (3) US10490197B2 (zh)
EP (1) EP3285257A4 (zh)
KR (2) KR102657547B1 (zh)
CN (2) CN107771346B (zh)
WO (1) WO2016204581A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10497379B2 (en) * 2015-06-17 2019-12-03 Samsung Electronics Co., Ltd. Method and device for processing internal channels for low complexity format conversion
EP3869825A1 (en) * 2015-06-17 2021-08-25 Samsung Electronics Co., Ltd. Device and method for processing internal channel for low complexity format conversion
CN107787584B (zh) * 2015-06-17 2020-07-24 三星电子株式会社 处理低复杂度格式转换的内部声道的方法和装置
GB2560878B (en) * 2017-02-24 2021-10-27 Google Llc A panel loudspeaker controller and a panel loudspeaker
US11432099B2 (en) 2018-04-11 2022-08-30 Dolby International Ab Methods, apparatus and systems for 6DoF audio rendering and data representations and bitstream structures for 6DoF audio rendering

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1995721A1 (en) * 2005-02-14 2008-11-26 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Parametric joint-coding of audio sources
CN102461185A (zh) * 2009-06-23 2012-05-16 三星电子株式会社 用于三维视频的自动转换的方法和设备
EP2146341B1 (en) * 2008-07-15 2013-09-11 LG Electronics Inc. A method and an apparatus for processing an audio signal
CN103915098A (zh) * 2013-01-08 2014-07-09 诺基亚公司 音频信号编码器

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5912976A (en) 1996-11-07 1999-06-15 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same
CA2393857A1 (en) * 1999-12-24 2001-07-05 Ensemble Communications, Inc. Method and apparatus for concatenated channel coding
CN101010725A (zh) * 2004-08-26 2007-08-01 松下电器产业株式会社 多信道信号编码装置以及多信道信号解码装置
CN101258538B (zh) * 2005-05-26 2013-06-12 Lg电子株式会社 将音频信号编解码的方法
US7548853B2 (en) 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
KR100953643B1 (ko) * 2006-01-19 2010-04-20 엘지전자 주식회사 미디어 신호 처리 방법 및 장치
WO2008039038A1 (en) 2006-09-29 2008-04-03 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
WO2009046460A2 (en) * 2007-10-04 2009-04-09 Creative Technology Ltd Phase-amplitude 3-d stereo encoder and decoder
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
CN101556799B (zh) * 2009-05-14 2013-08-28 华为技术有限公司 一种音频解码方法和音频解码器
JP2011066868A (ja) * 2009-08-18 2011-03-31 Victor Co Of Japan Ltd オーディオ信号符号化方法、符号化装置、復号化方法及び復号化装置
JP5805796B2 (ja) * 2011-03-18 2015-11-10 フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 柔軟なコンフィギュレーション機能性を有するオーディオエンコーダおよびデコーダ
KR101783962B1 (ko) * 2011-06-09 2017-10-10 삼성전자주식회사 3차원 오디오 신호를 부호화 및 복호화하는 방법 및 장치
US9516446B2 (en) * 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
KR20140123015A (ko) * 2013-04-10 2014-10-21 한국전자통신연구원 다채널 신호를 위한 인코더 및 인코딩 방법, 다채널 신호를 위한 디코더 및 디코딩 방법
EP2830336A3 (en) * 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Renderer controlled spatial upmix
EP2830052A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
EP2830332A3 (en) * 2013-07-22 2015-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method, signal processing unit, and computer program for mapping a plurality of input channels of an input channel configuration to output channels of an output channel configuration
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
KR102160254B1 (ko) 2014-01-10 2020-09-25 삼성전자주식회사 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치
CN103905834B (zh) * 2014-03-13 2017-08-15 深圳创维-Rgb电子有限公司 音频数据编码格式转换的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1995721A1 (en) * 2005-02-14 2008-11-26 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Parametric joint-coding of audio sources
EP2146341B1 (en) * 2008-07-15 2013-09-11 LG Electronics Inc. A method and an apparatus for processing an audio signal
CN102461185A (zh) * 2009-06-23 2012-05-16 三星电子株式会社 用于三维视频的自动转换的方法和设备
CN103915098A (zh) * 2013-01-08 2014-07-09 诺基亚公司 音频信号编码器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Dolby和DTS音频技术探究;解放;《现代电影技术》;IEEE;20130211(第2期);第16-21页 *
Method of Converting Speech Codec Formats between GSM 06.20 and G. 729;Ruslan Shevchuk,et al.;《2007 4th IEEE Workshop on Intelligent Data Acquisition and Advanced Computing Systems: Technology and Applications》;IEEE;20080415;第686-689页 *

Also Published As

Publication number Publication date
KR20240050483A (ko) 2024-04-18
US20220358938A1 (en) 2022-11-10
CN114005454B (zh) 2025-03-11
US20200051574A1 (en) 2020-02-13
CN107771346A (zh) 2018-03-06
US10490197B2 (en) 2019-11-26
KR20180009337A (ko) 2018-01-26
WO2016204581A1 (ko) 2016-12-22
KR102657547B1 (ko) 2024-04-15
US11404068B2 (en) 2022-08-02
CN114005454A (zh) 2022-02-01
US20180166082A1 (en) 2018-06-14
EP3285257A1 (en) 2018-02-21
US11810583B2 (en) 2023-11-07
EP3285257A4 (en) 2018-03-07

Similar Documents

Publication Publication Date Title
JP5563647B2 (ja) マルチチャンネル復号化方法及びマルチチャンネル復号化装置
RU2645271C2 (ru) Стереофонический кодер и декодер аудиосигналов
US11810583B2 (en) Method and device for processing internal channels for low complexity format conversion
RU2696952C2 (ru) Аудиокодировщик и декодер
JP7383685B2 (ja) バイノーラル・ダイアログ向上
JP6686015B2 (ja) オーディオ信号のパラメトリック混合
KR101756838B1 (ko) 다채널 오디오 신호를 다운 믹스하는 방법 및 장치
CN109285553A (zh) 对高阶高保真立体声信号应用动态范围压缩的方法和设备
EP3357259B1 (en) Method and apparatus for generating 3d audio content from two-channel stereo content
CN107787509B (zh) 处理低复杂度格式转换的内部声道的方法和设备
CN108028988B (zh) 处理低复杂度格式转换的内部声道的设备和方法
JP5333257B2 (ja) 符号化装置、符号化システムおよび符号化方法
CN107787584B (zh) 处理低复杂度格式转换的内部声道的方法和装置
TW202347317A (zh) 用於方向性音訊寫碼空間重建音訊處理之方法、設備及系統
JP2024503186A (ja) マルチチャネル・コーデックにおける空間ノイズ充填
HK1260679A1 (zh) 对高阶高保真立体声信号应用动态范围压缩的方法和设备
HK40001991A (zh) 对高阶高保真立体声信号应用动态范围压缩的方法和设备
HK1262540A1 (zh) 对高阶高保真立体声信号应用动态范围压缩的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant