[go: up one dir, main page]

CN110168637B - 多个音频信号的译码 - Google Patents

多个音频信号的译码 Download PDF

Info

Publication number
CN110168637B
CN110168637B CN201780081733.4A CN201780081733A CN110168637B CN 110168637 B CN110168637 B CN 110168637B CN 201780081733 A CN201780081733 A CN 201780081733A CN 110168637 B CN110168637 B CN 110168637B
Authority
CN
China
Prior art keywords
channel
residual
inter
frequency domain
mismatch value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780081733.4A
Other languages
English (en)
Other versions
CN110168637A (zh
Inventor
V·阿提
V·S·C·S·奇比亚姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Priority to CN202310577192.1A priority Critical patent/CN116564320A/zh
Publication of CN110168637A publication Critical patent/CN110168637A/zh
Application granted granted Critical
Publication of CN110168637B publication Critical patent/CN110168637B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Medicinal Preparation (AREA)

Abstract

残差缩放单元经配置以基于声道间失配值而确定用于残差声道的缩放因子。所述声道间失配值指示参考声道与目标声道之间的时间对准。所述残差缩放单元经进一步配置以根据所述缩放因子而缩放(例如,衰减)所述残差声道以产生经缩放残差声道。残差声道编码器经配置以编码所述经缩放残差声道作为位流的部分。

Description

多个音频信号的译码
优先权主张
本申请案主张2017年1月19日申请的名为“多个音频信号的译码(CODING OFMULTIPLE AUDIO SIGNALS)”的共同拥有美国临时专利申请案第62/448,287号及2017年12月8日申请的名为“多个音频信号的译码(CODING OF MULTIPLE AUDIO SIGNALS)”的美国非临时专利申请案第15/836,604号的优先权益,前述申请案中的每一者的内容的全文以引用的方式明确地并入本文中。
技术领域
本发明大体上涉及多个音频信号的译码(例如,编码或解码)。
背景技术
技术的进步已带来更小且更强大的计算装置。举例来说,当前存在多种便携式个人计算装置,包含无线电话(例如移动电话及智能手机)、平板计算机及膝上型计算机,所述计算装置体积小、重量轻且容易由用户携带。这些装置可经由无线网络传达语音及数据包。另外,许多此类装置结合额外功能性,例如数字静态相机、数字视频相机、数字记录器及音频文件播放器。此外,这些装置可处理可执行指令,包含软件应用程序,例如可用以存取互联网的网络浏览器应用程序。因而,这些装置可包含显著计算能力。
计算装置可包含或耦合至多个麦克风以接收音频信号。一般来说,与多个麦克风中的第二麦克风相比,声源更接近第一麦克风。因此,由于麦克风距声源的相应距离,从第二麦克风接收的第二音频信号可相对于从第一麦克风接收的第一音频信号延迟。在其它实施方案中,第一音频信号可相对于第二音频信号延迟。在立体声编码中,来自麦克风的音频信号可经编码以产生中间声道信号及一或多个旁侧声道信号。中间声道信号可对应于第一音频信号及第二音频信号的和。旁侧声道信号可对应于第一音频信号与第二音频信号之间的差。因为接收第二音频信号相对于第一音频信号的延迟,第一音频信号可能不与第二音频信号对准。第一音频信号相对于第二音频信号的未对准(例如,时间失配)可增加两个音频信号之间的差。
在第一声道与第二声道(例如,第一信号与第二信号)之间的时间失配相当大的情况下,离散傅立叶变换(DFT)参数估计过程中的分析及合成窗倾向于变得不当地失配。
发明内容
在特定实施方案中,一种装置包含第一变换单元,其经配置以对参考声道执行第一变换操作以产生频域参考声道。所述装置还包含第二变换单元,其经配置以对目标声道执行第二变换操作以产生频域目标声道。所述装置进一步包含立体声声道调整单元,其经配置以确定指示所述频域参考声道与所述频域目标声道之间的时间未对准的声道间失配值。所述立体声声道调整单元还经配置以基于所述声道间失配值而调整所述频域目标声道以产生经调整频域目标声道。所述装置还包含降混器,其经配置以对所述频域参考声道及所述经调整频域目标声道执行降混操作以产生中间声道及旁侧声道。所述装置进一步包含残差产生单元,其经配置以基于所述中间声道而产生经预测旁侧声道。所述经预测旁侧声道对应于所述旁侧声道的预测。所述残差产生单元还经配置以基于所述旁侧声道及所述经预测旁侧声道而产生残差声道。所述装置还包含残差缩放单元,其经配置以基于所述声道间失配值而确定用于所述残差声道的缩放因子。所述残差缩放单元还经配置以根据所述缩放因子而缩放所述残差声道以产生经缩放残差声道。所述装置还包含中间声道编码器,其经配置以编码所述中间声道作为位流的部分。所述装置进一步包含残差声道编码器,其经配置以编码所述经缩放残差声道作为所述位流的部分。
在另一特定实施方案中,一种通信方法包含在编码器处对参考声道执行第一变换操作以产生频域参考声道。所述方法还包含对目标声道执行第二变换操作以产生频域目标声道。所述方法还包含确定指示所述频域参考声道与所述频域目标声道之间的时间未对准的声道间失配值。所述方法进一步包含基于所述声道间失配值而调整所述频域目标声道以产生经调整频域目标声道。所述方法还包含对所述频域参考声道及所述经调整频域目标声道执行降混操作以产生中间声道及旁侧声道。所述方法进一步包含基于所述中间声道而产生经预测旁侧声道。所述经预测旁侧声道对应于所述旁侧声道的预测。所述方法还包含基于所述旁侧声道及所述经预测旁侧声道而产生残差声道。所述方法进一步包含基于所述声道间失配值而确定用于所述残差声道的缩放因子。所述方法还包含根据所述缩放因子而缩放所述残差声道以产生经缩放残差声道。所述方法进一步包含编码所述中间声道及所述经缩放残差声道作为位流的部分。
在另一特定实施方案中,一种非暂时性计算机可读媒体包含在由编码器内的处理器执行时致使所述处理器执行操作的指令,所述操作包含对参考声道执行第一变换操作以产生频域参考声道。所述操作还包含对目标声道执行第二变换操作以产生频域目标声道。所述操作还包含确定指示所述频域参考声道与所述频域目标声道之间的时间未对准的声道间失配值。所述操作还包含基于所述声道间失配值而调整所述频域目标声道以产生经调整频域目标声道。所述操作还包含对所述频域参考声道及所述经调整频域目标声道执行降混操作以产生中间声道及旁侧声道。所述操作还包含基于所述中间声道而产生经预测旁侧声道。所述经预测旁侧声道对应于所述旁侧声道的预测。所述操作还包含基于所述旁侧声道及所述经预测旁侧声道而产生残差声道。所述操作还包含基于所述声道间失配值而确定用于所述残差声道的缩放因子。所述操作还包含根据所述缩放因子而缩放所述残差声道以产生经缩放残差声道。所述操作还包含编码所述中间声道及所述经缩放残差声道作为位流的部分。
在另一特定实施方案中,一种设备包含用于对参考声道执行第一变换操作以产生频域参考声道的装置。所述设备还包含用于对目标声道执行第二变换操作以产生频域目标声道的装置。所述设备还包含用于确定指示所述频域参考声道与所述频域目标声道之间的时间未对准的声道间失配值的装置。所述设备还包含用于基于所述声道间失配值而调整所述频域目标声道以产生经调整频域目标声道的装置。所述设备还包含用于对所述频域参考声道及所述经调整频域目标声道执行降混操作以产生中间声道及旁侧声道的装置。所述设备还包含用于基于所述中间声道而产生经预测旁侧声道的装置。所述经预测旁侧声道对应于所述旁侧声道的预测。所述设备还包含用于基于所述旁侧声道及所述经预测旁侧声道而产生残差声道的装置。所述设备还包含用于基于所述声道间失配值而确定用于所述残差声道的缩放因子的装置。所述设备还包含用于根据所述缩放因子而缩放所述残差声道以产生经缩放残差声道的装置。所述设备还包含用于编码所述中间声道及所述经缩放残差声道作为位流的部分的装置。
在审阅整个申请案之后,本发明的其它实施方案、优势及特征将变得显而易见,所述整个申请案包含以下章节:附图说明、具体实施方式及权利要求书。
附图说明
图1为包含可操作以编码多个音频信号的编码器的系统的特定说明性实例的框图;
图2为绘示图1的编码器的实例的图式;
图3为绘示图1的编码器的另一实例的图式;
图4为绘示解码器的实例的图式;
图5包含绘示解码音频信号的方法的流程图;
图6为可操作以编码多个音频信号的装置的特定说明性实例的框图。
图7为基站的特定说明性实例的框图。
具体实施方式
下文参看附图描述本发明的特定方面。在描述中,共同特征由共同参考数字指明。如本文中所使用,各种术语仅用于描述特定实施方案的目的,且并不意图限制实施方案。举例来说,除非上下文另有清楚指示,否则单数形式“一(a/an)”及“所述”意图还包含复数形式。可进一步理解,术语“包括(comprises及comprising)”可与“包含(includes或including)”互换地使用。另外,将理解,术语“其中(wherein)”可与“其中(where)”互换地使用。如本文中所使用,用以修饰一元件(例如结构、组件、操作等)的序数术语(例如,“第一”、“第二”、“第三”等)本身并不指示所述元件相对于另一元件的任何优先顺序或次序,而是仅将所述元件与具有相同名称的另一元件区别开(除非使用序数术语)。如本文中所使用,术语“集合”是指特定元件中的一或多者,且术语“多个”是指特定元件中的多个(例如,两个或多于两个)。
在本发明中,例如“确定”、“计算”、“移位”、“调整”等的术语可用以描述如何执行一或多个操作。应注意,这些术语不应被认作限制性的且其它技术可用以执行相似操作。另外,如本文中所提及,“产生”、“计算”、“使用”、“选择”、“存取”与“确定”可互换地使用。举例来说,“产生”、“计算”或“确定”参数(或信号)可指积极地产生、计算或确定参数(或信号),或可指使用、选择或存取已例如由另一组件或装置产生的参数(或信号)。
揭示了可操作以编码多个音频信号的系统及装置。装置可包含经配置以编码多个音频信号的编码器。可使用多个记录装置(例如,多个麦克风)在时间上同时捕获多个音频信号。在一些实例中,可通过对同时或在不同时间记录的若干音频声道进行多路复用来合成地(例如,人工地)产生多个音频信号(或多声道音频)。作为说明性实例,音频声道的同时记录或多路复用可产生2声道配置(即,立体声:左及右)、5.1声道配置(左、右、中央、左环绕、右环绕及低频重音(LFE)声道)、7.1声道配置、7.1+4声道配置、22.2声道配置或N声道配置。
电话会议室(或远程呈现室)中的音频捕获装置可包含获取空间音频的多个麦克风。空间音频可包含话音以及经编码及传输的背景音频。取决于如何布置麦克风以及给定源(例如,讲话者)相对于麦克风及房间尺寸所处的位置,来自所述源(例如,讲话者)的话音/音频可在不同时间到达多个麦克风处。举例来说,相比于与装置相关联的第二麦克风,声源(例如,讲话者)可更接近与装置相关联的第一麦克风。因此,与第二麦克风相比,从声源发出的声音可在时间上更早到达第一麦克风。装置可经由第一麦克风接收第一音频信号,且可经由第二麦克风接收第二音频信号。
中侧(MS)译码及参数立体声(PS)译码为可提供优于双单声道译码技术的改善效率的立体声译码技术。在双单声道译码中,左(L)声道(或信号)及右(R)声道(或信号)被独立地译码,而不利用声道间相关。在译码之前,通过将左声道及右声道变换为和声道及差声道(例如,旁侧声道),MS译码减少了相关L/R声道对之间的冗余。和信号及差信号被波形译码或基于MS译码中的模型而译码。和信号比旁侧信号耗费相对更多的位。PS译码通过将L/R信号变换为和信号及一组旁侧参数来减少每一子频带中的冗余。旁侧参数可指示声道间强度差(IID)、声道间相位差(IPD)、声道间时间差(ITD)、旁侧或残差预测增益等。和信号为经译码的波形且连同旁侧参数一起传输。在混合系统中,旁侧声道可在较低频带(例如,小于2千赫兹(kHz))中被波形译码,且在较高频带(例如,大于或等于2kHz)中被PS译码,在较高频带中声道间相位保持在感知上不太关键。在一些实施方案中,PS译码还可在波形译码之前用于较低频带中以减少声道间冗余。
可在频域或子频带域中进行MS译码及PS译码。在一些实例中,左声道及右声道可不相关。举例来说,左声道及右声道可包含不相关的合成信号。当左声道及右声道不相关时,MS译码、PS译码或其两者的译码效率可接近于双单声道译码的译码效率。
取决于记录配置,可在左声道与右声道之间存在时间失配以及其它空间效应(例如回声及室内混响)。如果不补偿声道之间的时间失配及相位失配,那么和声道及差声道可含有减少与MS或PS技术相关联的译码增益的可比能量。译码增益的减少可基于时间(或相位)失配的量。和信号及差信号的可比能量可限制MS译码在声道在时间上失配但高度相关的某些帧中的使用。在立体声译码中,中间声道(例如,和声道)及旁侧声道(例如,差声道)可基于下式产生:
M=(L+R)/2,S=(L-R)/2, 式1
其中M对应于中间声道,S对应于旁侧声道,L对应于左声道,且R对应于右声道。
在一些状况下,中间声道及旁侧声道可基于下式产生:
M=c(L+R),S=c(L-R), 式2
其中c对应于频率相依的复值。基于式1或式2而产生中间声道及旁侧声道可被称作“降混”。基于式1或式2而从中间声道及旁侧声道产生左声道及右声道的相反过程可被称作“升混”。
在一些状况下,中间声道可基于其它式,例如:
M=(L+gDR)/2,或 式3
M=g1L+g2R 式4
其中g1+g2=1.0,且其中gD为增益参数。在其它实例中,降混可在频带中执行,其中mid(b)=c1L(b)+c2R(b),其中c1及c2为复数,其中side(b)=c3L(b)-c4R(b),且其中c3及c4为复数。
用以针对特定帧而在MS译码或双单声道译码之间进行选择的特别方法可包含:产生中间信号及旁侧信号,计算中间信号及旁侧信号的能量,及基于能量确定是否执行MS译码。举例来说,可响应于确定旁侧信号与中间信号的能量的比率小于阈值而执行MS译码。出于说明起见,对于有声话音帧,如果右声道移位至少第一时间(例如,约0.001秒或在48KHz下48个样本),那么中间信号(对应于左信号及右信号的和)的第一能量可与旁侧信号(对应于左信号与右信号之间的差)的第二能量相当。当第一能量与第二能量相当时,较高数目个位可用以编码旁侧声道,由此相对于双单声道译码降低MS译码的译码效率。因此,当第一能量与第二能量相当时(例如,当第一能量与第二能量的比率大于或等于阈值时),可使用双单声道译码。在替代方法中,可基于阈值与左声道及右声道的归一化交叉相关值的比较来针对特定帧在MS译码与双单声道译码之间作出决策。
在一些实例中,编码器可确定指示第一音频信号与第二音频信号之间的时间失配量的失配值。如本文中所使用,“时间移位值”、“移位值”及“失配值”可互换地使用。举例来说,编码器可确定指示第一音频信号相对于第二音频信号的移位(例如,时间失配)的时间移位值。失配值可对应于在第一麦克风处第一音频信号的接收与在第二麦克风处第二音频信号的接收之间的时间失配量。此外,编码器可在逐帧基础上(例如,基于每20毫秒(ms)话音/音频帧)确定失配值。举例来说,失配值可对应于第二音频信号的第二帧相对于第一音频信号的第一帧延迟的时间量。替代地,失配值可对应于第一音频信号的第一帧相对于第二音频信号的第二帧延迟的时间量。
当与第二麦克风相比,声源更接近第一麦克风时,第二音频信号的帧可相对于第一音频信号的帧延迟。在此状况下,第一音频信号可被称作“参考音频信号”或“参考声道”,且经延迟的第二音频信号可被称作“目标音频信号”或“目标声道”。替代地,当与第一麦克风相比,声源更接近第二麦克风时,第一音频信号的帧可相对于第二音频信号的帧延迟。在此状况下,第二音频信号可被称作参考音频信号或参考声道,且经延迟的第一音频信号可被称作目标音频信号或目标声道。
取决于声源(例如,讲话者)位于会议室或远程呈现室内何处或声源(例如,讲话者)位置如何相对于麦克风改变,参考声道及目标声道可在帧间改变;相似地,时间失配值也可在帧间改变。然而,在一些实施方案中,时间失配值可始终为正,以指示“目标”声道相对于“参考”声道的延迟量。此外,时间失配值可用以确定“非因果移位”值(在本文中被称作“移位值”),经延迟的目标声道在时间上经“拉回”达所述移位值,使得目标声道与“参考”声道对准(例如,最大限度地对准)。可对参考声道及非因果移位目标声道执行确定中间声道及旁侧声道的降混算法。
编码器可基于参考音频声道及应用于目标音频声道的多个时间失配值而确定时间失配值。举例来说,可在第一时间(m1)接收参考音频声道的第一帧X。可在对应于第一时间失配值(例如,mismatch1=n1-m1)的第二时间(n1)接收目标音频声道的第一特定帧Y。另外,可在第三时间(m2)接收参考音频声道的第二帧。可在对应于第二时间失配值(例如,mismatch2=n2-m2)的第四时间(n2)接收目标音频声道的第二特定帧。
装置可以第一取样速率(例如,32kHz取样速率(即,每帧640个样本))执行成帧或缓冲算法,以产生帧(例如,20ms样本)。响应于确定第一音频信号的第一帧及第二音频信号的第二帧同时到达装置,编码器可将移位值(例如,shift1)估计为等于零个样本。可在时间上对准左声道(例如,对应于第一音频信号)与右声道(例如,对应于第二音频信号)。在一些状况下,即使在对准时,左声道及右声道仍可由于各种原因(例如,麦克风校准)而在能量上不同。
在一些实例中,左声道及右声道可由于各种原因(例如,与麦克风中的另一者相比,声源(例如讲话者)可更接近麦克风中的一者,且两个麦克风相隔距离可大于阈值(例如,1至20厘米))而在时间上未对准。声源相对于麦克风的位置可在第一声道及第二声道中引入不同延迟。另外,在第一声道与第二声道之间可存在增益差、能量差或电平差。
在存在多于两个声道的一些实例中,参考声道最初是基于声道的电平或能量而选择,且随后基于不同声道对之间的时间失配值(例如,t1(ref,ch2)、t2(ref,ch3)、t3(ref,ch4)、…t3(ref,chN))而改进,其中ch1为最初参考声道且t1(.)、t2(.)等为估计失配值的函数。如果所有时间失配值为正,那么ch1被视为参考声道。替代地,如果失配值中的任一者是负值,那么参考声道经重新配置成与产生负值的失配值相关联的声道,且上述过程继续直到实现参考声道的最佳选择(即,基于使最大数目个旁侧声道最大限度地去相关)。迟滞可用以克服参考声道选择中的任何急剧变化。
在一些实例中,当多个讲话者交替地讲话时(例如,在无重叠的情况下),音频信号从多个声源(例如,讲话者)到达麦克风的时间可变化。在此状况下,编码器可基于讲话者动态地调节时间失配值以识别参考声道。在一些其它实例中,多个讲话者可同时讲话,取决于哪个讲话者最大声、距麦克风最近等,这可导致变化的时间失配值。在此状况下,参考声道及目标声道的识别可基于当前帧中的变化的时间移位值及先前帧中的经估计时间失配值,且基于第一音频信号及第二音频信号的能量或时间演进。
在一些实例中,当第一音频信号及第二音频信号潜在地展示较少(例如,无)相关时,可合成或人工地产生所述两个信号。应理解,本文中所描述的实例为说明性的,且可在相似或不同情境中确定第一音频信号与第二音频信号之间的关系中具指导性。
编码器可基于第一音频信号的第一帧与第二音频信号的多个帧的比较而产生比较值(例如,差值或交叉相关值)。多个帧中的每一帧可对应于特定时间失配值。编码器可基于比较值而产生第一经估计移位值。举例来说,第一经估计移位值可对应于指示第一音频信号的第一帧与第二音频信号的对应第一帧之间的较高时间相似性(或较低差)的比较值。
编码器可通过在多个阶段中改进一系列经估计移位值而确定最终移位值。举例来说,编码器可首先基于从第一音频信号及第二音频信号的经立体声预处理及经重取样版本产生的比较值而估计“暂定”移位值。编码器可产生与接近经估计“暂定”移位值的移位值相关联的内插比较值。编码器可基于内插比较值而确定第二经估计“内插”移位值。举例来说,第二经估计“内插”移位值可对应于相比于剩余内插比较值及第一经估计“暂定”移位值指示较高时间相似性(或较小差)的特定内插比较值。如果当前帧(例如,第一音频信号的第一帧)的第二经估计“内插”移位值不同于先前帧(例如,第一音频信号的先于第一帧的帧)的最终移位值,那么当前帧的“内插”移位值被进一步“修正”,以改善第一音频信号与经移位的第二音频信号之间的时间相似性。具体地说,通过围绕当前帧的第二经估计“内插”移位值及先前帧的最终经估计移位值进行搜索,第三经估计“修正”移位值可对应于时间相似性的更准确量度。第三经估计“修正”移位值经进一步调节以通过限制帧之间的移位值的任何伪改变来估计最终移位值,且经进一步控制以在如本文中所描述的两个相继(或连续)帧中不将负移位值切换至正移位值(或反之亦然)。
在一些实例中,编码器可避免在连续帧中或相邻帧中在正移位值与负移位值之间切换,或反之亦然。举例来说,编码器可基于第一帧的经估计“内插”或“修正”移位值及先于第一帧的特定帧中的对应经估计“内插”或“修正”或最终移位值而将最终移位值设定为指示无时间移位的特定值(例如,0)。出于说明起见,响应于确定当前帧(例如,第一帧)的经估计“暂定”或“内插”或“修正”移位值中的一者为正且先前帧(例如,先于第一帧的帧)的经估计“暂定”或“内插”或“修正”或“最终”估计移位值中的另一者为负,编码器可设定当前帧的最终移位值以指示无时间移位,即,shift1=0。替代地,响应于确定当前帧(例如,第一帧)的经估计“暂定”或“内插”或“修正”移位值中的一者为负且先前帧(例如,先于第一帧的帧)的经估计“暂定”或“内插”或“修正”或“最终”估计移位值中的另一者为正,编码器还可设定当前帧的最终移位值以指示无时间移位,即,shift1=0。
编码器可基于移位值而选择第一音频信号或第二音频信号的帧作为“参考”或“目标”。举例来说,响应于确定最终移位值为正,编码器可产生具有指示第一音频信号为“参考”信号且第二音频信号为“目标”信号的第一值(例如,0)的参考声道或信号指示符。替代地,响应于确定最终移位值为负,编码器可产生具有指示第二音频信号为“参考”信号且第一音频信号为“目标”信号的第二值(例如,1)的参考声道或信号指示符。
编码器可估计与参考信号相关联的相对增益(例如,相对增益参数)及非因果移位目标信号。举例来说,响应于确定最终移位值为正,编码器可估计增益值以归一化或均衡第一音频信号相对于偏移达非因果移位值(例如,最终移位值的绝对值)的第二音频信号的能量或功率电平。替代地,响应于确定最终移位值为负,编码器可估计增益值以归一化或均衡非因果移位第一音频信号相对于第二音频信号的功率或振幅电平。在一些实例中,编码器可估计增益值以归一化或均衡“参考”信号相对于非因果移位“目标”信号的振幅或功率电平。在其它实例中,编码器可基于参考信号相对于目标信号(例如,未移位目标信号)而估计增益值(例如,相对增益值)。
编码器可基于参考信号、目标信号、非因果移位值及相对增益参数而产生至少一个经编码信号(例如,中间声道信号、旁侧声道信号或其两者)。在其它实施方案中,编码器可基于参考声道及时间失配经调整目标声道而产生至少一个经编码信号(例如,中间声道、旁侧声道或其两者)。旁侧信号可对应于第一音频信号的第一帧的第一样本与第二音频信号的选定帧的选定样本之间的差。编码器可基于最终移位值而选择选定帧。因为相较于对应于第二音频信号的与第一帧同时由装置接收的帧的第二音频信号的其它样本,第一样本与选定样本之间的减小的差,所以较少位可用以编码旁侧声道信号。装置的发射器可传输至少一个经编码信号、非因果移位值、相对增益参数、参考声道或信号指示符或其组合。
编码器可基于参考信号、目标信号、非因果移位值、相对增益参数、第一音频信号的特定帧的低频带参数、特定帧的高频带参数或其组合而产生至少一个经编码信号(例如,中间信号、旁侧信号或其两者)。特定帧可先于第一帧。来自一或多个先前帧的某些低频带参数、高频带参数或其组合可用以编码第一帧的中间信号、旁侧信号或其两者。基于低频带参数、高频带参数或其组合而编码中间信号、旁侧信号或其两者可包含非因果移位值及声道间相对增益参数的估计。低频带参数、高频带参数或其组合可包含音调参数、发声参数、译码器类型参数、低频带能量参数、高频带能量参数、倾角参数、音调增益参数、FCB增益参数、译码模式参数、语音活动参数、噪声估计参数、信噪比参数、共振峰塑形参数、话音/音乐决策参数、非因果移位、声道间增益参数或其组合。装置的发射器可传输至少一个经编码信号、非因果移位值、相对增益参数、参考声道(或信号)指示符或其组合。在本发明中,例如“确定”、“计算”、“移位”、“调整”等的术语可用以描述如何执行一或多个操作。应注意,这些术语不应被认作限制性的且其它技术可用以执行相似操作。
在本发明中,揭示了可操作以修改或译码残差声道(例如,旁侧声道(或信号)或误差声道(或信号))信号的系统及装置。举例来说,可基于目标声道与参考声道之间的时间未对准或失配值而修改或编码残差声道,以减少由信号自适应“灵活”立体声译码器中的开窗效应引入的谐波间噪声。信号自适应“灵活”立体声译码器可将一或多个时域信号(例如,参考声道及经调整目标声道)变换成频域信号。分析-合成中的窗失配可导致在降混过程中估计的旁侧声道中的明显的谐波间噪声或频谱泄漏。
一些编码器通过移位两个声道来改善两个声道的时间对准。举例来说,第一声道可因果地移位一半失配量,且第二声道可非因果地移位一半失配量,从而引起两个声道的时间对准。然而,所提议的系统仅使用一个声道的非因果移位以改善声道的时间对准。举例来说,目标声道(例如,滞后声道)可非因果地移位以便对准参考声道与目标声道。由于仅目标声道经移位以在时间上对准声道,因此相比在因果移位及非因果移位两者用以对准声道的情况下将移位的量,目标声道移位更大量。当一个声道(即,目标声道)为基于经确定失配值而移位的仅有声道时,中间声道及旁侧声道(从将第一声道及第二声道降混而获得)将表明谐波间噪声或频谱泄漏的增加。当窗旋转(例如,非因果移位的量)相当大(例如,大于1至2ms)时,此谐波间噪声(例如,伪影)在旁侧声道中更为显著。
目标声道移位可在时域或频域中执行。如果目标声道在时域中移位,那么经移位目标声道及参考声道使用分析窗经受DFT分析以将经移位目标声道及参考声道变换至频域。替代地,如果目标声道在频域中移位,那么目标声道(在移位之前)及参考声道使用分析窗经受DFT分析以将目标声道及参考声道变换至频域,且目标声道在DFT分析之后移位(使用相位旋转操作)。在任一状况下,在移位及DFT分析之后,经移位目标声道及参考声道的频域版本经降混以产生中间声道及旁侧声道。在一些实施方案中,可产生误差声道。误差声道指示旁侧声道与基于中间声道而确定的经估计旁侧声道之间的差。术语“残差声道”在本文中用以是指旁侧声道或误差声道。随后,使用合成窗执行DFT合成以将待传输的信号(例如,中间声道及残差声道)变换回至时域中。
为避免引入伪影,合成窗应匹配分析窗。然而,当目标声道及参考声道的时间未对准大时,仅使用目标声道的非因果移位来对准目标声道与参考声道可引起对应于为残差声道的部分的目标声道的合成窗与分析窗之间的大失配。由此窗失配引入的伪影在残差声道中是普遍的。
可修改残差声道以减少这些伪影。在一个实例中,在产生位流以供传输之前,残差声道可衰减(例如,通过将增益应用于旁侧声道或通过将增益应用于误差声道)。残差声道可完全衰减(例如,置零)或仅部分地衰减。作为另一实例,可修改位流中用以编码残差声道的位的数目。举例来说,当目标声道与参考声道之间的时间未对准小(例如,低于阈值)时,第一数目个位可经分配以供传输残差声道信息。然而,当目标声道与参考声道之间的时间未对准大(例如,大于阈值)时,第二数目个位可经分配以供传输残差声道信息,其中第二数目小于第一数目。
参看图1,揭示系统的特定说明性实例且将其整体上指明为100。系统100包含经由网络120以通信方式耦合至第二装置106的第一装置104。网络120可包含一或多个无线网络、一或多个有线网络或其组合。
第一装置104可包含编码器114、发射器110及一或多个输入接口112。输入接口112中的至少一个输入接口可耦合至第一麦克风146,且输入接口112中的至少一个其它输入接口可耦合至第二麦克风148。编码器114可包含变换单元202、变换单元204、立体声声道调整单元206、降混器208、残差产生单元210、残差缩放单元212(例如,残差声道修改器)、中间声道编码器214、残差声道编码器216及信号自适应“灵活”立体声译码器109。信号自适应“灵活”立体声译码器109可包含时域(TD)译码器、频域(FD)译码器或修改型离散余弦变换(MDCT)域译码器。本文中所描述的残差信号或误差信号修改可适用于每一立体声降混模式(例如,TD降混模式、FD降混模式或MDCT降混模式)。第一装置104还可包含经配置以存储分析数据的存储器153。
第二装置106可包含解码器118。解码器118可包含时间平衡器124及频域立体声解码器125。第二装置106可耦合至第一扩音器142、第二扩音器144或其两者。
在操作期间,第一装置104可经由第一输入接口从第一麦克风146接收参考声道220(例如,第一音频信号)且可经由第二输入接口从第二麦克风148接收目标声道222(例如,第二音频信号)。参考声道220可对应于在时间上前置的声道(例如,前置声道),且目标声道222可对应于在时间上滞后的声道(例如,滞后声道)。举例来说,与第二麦克风148相比,声源152(例如,用户、扬声器、环境噪声、乐器等)可更接近第一麦克风146。因此,相比于经由第二麦克风148,来自声源152的音频信号可在较早时间经由第一麦克风146在输入接口112处接收。经由多个麦克风的多声道信号获取中的此自然延迟可在第一音频声道130与第二音频声道132之间引入时间未对准。参考声道220可为右声道或左声道,且目标声道222可为右声道或左声道中的另一者。
如关于图2更详细地所描述,目标声道222可经调整(例如,在时间上移位)以与参考声道220大体上对准。根据一个实施方案,参考声道220及目标声道222可在逐帧基础上变化。
参看图2,展示编码器114A的实例。编码器114A可对应于图1的编码器114。编码器114a包含变换单元202、变换单元204、立体声声道调整单元206、降混器208、残差产生单元210、残差缩放单元212、中间声道编码器214及残差声道编码器216。
将由第一麦克风146捕获的参考声道220提供至变换单元202。变换单元202经配置以对参考声道220执行第一变换操作以产生频域参考声道224。举例来说,第一变换操作可包含一或多个离散傅立叶变换(DFT)操作、快速傅立叶变换(FFT)操作、修改型离散余弦变换(MDCT)操作等。根据一些实施方案,正交镜像滤波器组(QMF)操作(使用滤波器组,例如复合低延迟滤波器组)可用以将参考声道220分裂成多个子频带。将频域参考声道224提供至立体声声道调整单元206。
将由第二麦克风148捕获的目标声道222提供至变换单元204。变换单元204经配置以对目标声道222执行第二变换操作以产生频域目标声道226。举例来说,第二变换操作可包含DFT操作、FFT操作、MDCT操作等。根据一些实施方案,QMF操作可用以将目标声道222分裂成多个子频带。还将频域目标声道226提供至立体声声道调整单元206。
在一些替代实施方案中,在执行变换操作之前,可存在对由麦克风捕获的参考声道及目标声道进行的额外处理步骤。举例来说,在一个实施方案中,声道可基于在先前帧中估计的失配值而在时域中移位(例如,因果地、非因果地或其两者)以彼此对准。接着,对经移位声道执行变换操作。
立体声声道调整单元206经配置以确定指示频域参考声道224与频域目标声道226之间的时间未对准的声道间失配值228。因此,声道间失配值228可为指示(在频域中)目标声道222滞后参考声道220多少的声道间时间差(ITD)参数。立体声声道调整单元206经进一步配置以基于声道间失配值228而调整频域目标声道226以产生经调整频域目标声道230。举例来说,立体声声道调整单元206可将频域目标声道226移位达声道间失配值228以产生在时间上与频域参考声道224同步的经调整频域目标声道230。将频域参考声道224传递至降混器208,且将经调整频域目标声道230提供至降混器208。将声道间失配值228提供至残差缩放单元212。
降混器208经配置以对频域参考声道224及经调整频域目标声道230执行降混操作以产生中间声道232及旁侧声道234。中间声道(Mfr(b))232可为频域参考声道(Lfr(b))224及经调整频域目标声道(Rfr(b))230的函数。举例来说,中间声道(Mfr(b))232可被表达为Mfr(b)=(Lfr(b)+Rfr(b))/2。根据另一实施方案,中间声道(Mfr(b))232可被表达为Mfr(b)=c1(b)*Lfr(b)+c2*Rfr(b),其中c1(b)及c2(b)为复值。在一些实施方案中,复值c1(b)及c2(b)是基于立体声参数(例如,声道间相位差(IPD)参数)。举例来说,在一个实施方案中,c1(b)=(cos(-γ)-i*sin(-γ))/20.5且c2(b)=(cos(IPD(b)-γ)+i*sin(IPD(b)-γ))/20.5,其中i为表示-1的平方根的虚数。将中间声道232提供至残差产生单元210及中间声道编码器214。
旁侧声道(Sfr(b))234还可为频域参考声道(Lfr(b))224及经调整频域目标声道(Rfr(b))230的函数。举例来说,旁侧声道(Sfr(b))234可被表达为Sfr(b)=(Lfr(b)-Rfr(b))/2。根据另一实施方案,旁侧声道(Sfr(b))234可被表达为Sfr(b)=(Lfr(b)-c(b)*Rfr(b))/(1+c(b)),其中c(b)可为声道间电平差(ILD(b))或(ILD(b))的函数(例如,c(b)=10^(ILD(b)/20))。将旁侧声道234提供至残差产生单元210及残差缩放单元212。在一些实施方案中,将旁侧声道234提供至残差声道编码器216。在一些实施方案中,残差声道与旁侧声道相同。
残差产生单元210经配置以基于中间声道232而产生经预测旁侧声道236。经预测旁侧声道236对应于旁侧声道234的预测。举例来说,经预测旁侧声道
Figure GDA0002113763740000131
236可被表达为
Figure GDA0002113763740000132
其中g为针对每一参数频带操作的预测残差增益且为ILD的函数。残差产生单元210经进一步配置以基于旁侧声道234及经预测旁侧声道236而产生残差声道238。举例来说,残差声道(e)238可为被表达为
Figure GDA0002113763740000133
的误差信号。根据一些实施方案,经预测旁侧声道236在某些频带中可等于零(或可能未被估计)。因此,在一些情境(或频带)中,残差声道238与旁侧声道234相同。将残差声道238提供至残差缩放单元212。根据一些实施方案,降混器208基于频域参考声道224及经调整频域目标声道230而产生残差声道238。
如果频域参考声道224与频域目标声道226之间的声道间失配值228满足阈值(例如,相对较大),那么用于DFT参数估计的分析窗及合成窗可大体上失配。如果所述窗中的一者因果地移位且另一窗非因果地移位,那么更能容忍大的时间失配。然而,如果频域目标声道226为基于声道间失配值228而移位的仅有声道,那么中间声道232及旁侧声道234可表明谐波间噪声或频谱泄漏的增加。当窗旋转相对较大(例如,大于2毫秒)时,谐波间噪声在旁侧声道234中更为显著。结果,在译码之前,残差缩放单元212缩放(例如,衰减)残差声道238。
出于说明起见,残差缩放单元212经配置以基于声道间失配值228而确定用于残差声道238的缩放因子240。声道间失配值228越大,则缩放因子240越大(例如,残差声道238衰减得越多)。根据一个实施方案,使用以下伪码确定缩放因子(fac_att)240:
fac_att=1.0f;
if(fabs(hStereoDft->itd[k_offset])>80.0f)
{
fac_att=min(1.0f,max(0.2f,2.6f-0.02f*fabs(hStereoDft->itd[1])));
}
pDFT_RES[2*i]*=fac_att;
pDFT_RES[2*i+1]*=fac_att;
因此,可基于声道间失配值228(例如,itd[k_offset])大于阈值(例如,80)而确定缩放因子240。残差缩放单元212经进一步配置以根据缩放因子240而缩放残差声道238以产生经缩放残差声道242。因此,如果声道间失配值228大体上大,那么残差缩放单元212衰减残差声道238(例如,误差信号),这是因为旁侧声道234表明一些情境中的大量频谱泄漏。将经缩放残差声道242提供至残差声道编码器216。
根据一些实施方案,残差缩放单元212经配置以基于声道间失配值228而确定残差增益参数。残差缩放单元212还可经配置以基于声道间失配值228而将残差声道238的一或多个频带置零。根据一个实施方案,残差缩放单元212经配置以基于声道间失配值228而将残差声道238的每一频带置零(或大体上置零)。
中间声道编码器214经配置以编码中间声道232以产生经编码中间声道244。将经编码中间声道244提供至多路复用器(MUX)218。残差声道编码器216经配置以编码经缩放残差声道242、残差声道238或旁侧声道234以产生经编码残差声道246。将经编码残差声道246提供至多路复用器218。多路复用器218可组合经编码中间声道244与经编码残差声道246作为位流248A的部分。根据一个实施方案,位流248A对应于图1的位流248(或包含于所述位流中)。
根据一个实施方案,残差声道编码器216经配置以基于声道间失配值228而设定位流248A中用以编码经缩放残差声道242的位的数目。残差声道编码器216可比较声道间失配值228与阈值。如果声道间失配值小于或等于阈值,那么第一数目个位用以编码经缩放残差声道242。如果声道间失配值228大于阈值,那么第二数目个位用以编码经缩放残差声道242。位的第二数目不同于位的第一数目。举例来说,位的第二数目小于位的第一数目。
返回参看图1,信号自适应“灵活”立体声译码器109可将一或多个时域声道(例如,参考声道220及目标声道222)变换成频域声道(例如,频域参考声道224及频域目标声道226)。举例来说,信号自适应“灵活”立体声译码器109可对参考声道222执行第一变换操作以产生频域参考声道224。另外,信号自适应“灵活”立体声译码器109可对目标声道222的经调整版本(例如,在时域中移位达声道间失配值228的等效量的目标声道222)执行第二变换操作以产生经调整频域目标声道230。
信号自适应“灵活”立体声译码器109经进一步配置以基于第一时间移位操作而确定是否在变换域中对经调整频域目标声道230执行第二时间移位(例如,非因果)操作以产生经修改的经调整频域目标声道(未展示)。经修改的经调整频域目标声道可对应于移位达时间失配值及第二时间移位值的目标声道222。举例来说,编码器114可使目标声道222移位达时间失配值以产生目标声道222的经调整版本,信号自适应“灵活”立体声译码器109可对目标声道122的经调整版本执行第二变换操作以产生经调整频域目标声道,且信号自适应“灵活”立体声译码器109可在变换域中使经调整频域目标声道在时间上移位。
频域声道224、226可用以估计立体声参数162(例如,实现对与频域声道224、226相关联的空间属性的呈现的参数)。立体声参数162的实例可包含例如以下各者的参数:声道间强度差(IID)参数(例如,声道间电平差(ILD))、声道间时间差(ITD)参数、IPD参数、声道间相关性(ICC)参数、非因果移位参数、频谱倾斜参数、声道间发声参数、声道间音调参数、声道间增益参数等。立体声参数162还可作为位流248的部分而传输。
以如关于图2所描述的相似方式,信号自适应“灵活”译码器109可使用中频带声道Mfr(b)中的信息及对应于频带(b)的立体声参数162(例如,ILD)而从中间声道Mfr(b)预测旁侧声道SPRED(b)。举例来说,经预测旁侧频带SPRED(b)可被表达为Mfr(b)*(ILD(b)-1)/(ILD(b)+1)。可依据旁侧频带声道Sfr及经预测旁侧频带SPRED而计算误差信号(e)。举例来说,误差信号e可被表达为Sfr-SPRED。可使用时域或变换域译码技术译码误差信号(e)以产生经译码误差信号eCODED。对于某些频带,误差信号e可被表达为来自先前帧的那些频带中的中频带声道M_PASTfr的经缩放版本。举例来说,经译码误差信号eCODED可被表达为gPRED*M_PASTfr,其中在一些实施方案中,gPRED可经估计使得e-gPRED*M_PASTfr的能量大体上减少(例如,减至最小)。所使用的M_PAST帧可基于用于分析/合成的窗形状且可受限制以仅使用偶数窗跃点。
以如关于图2所描述的相似方式,残差缩放单元212可经配置以基于频域目标声道226与频域参考声道224之间的声道间失配值228而调整、修改或编码残差声道(例如,旁侧声道或误差声道),以减少由DFT立体声编码中的开窗效应引入的谐波间噪声。在一个实例中,出于说明起见,在产生位流以供传输之前,残差缩放单元212衰减残差声道(例如,通过将增益应用于旁侧声道或通过将增益应用于误差声道)。残差声道可完全衰减(例如,置零)或仅部分地衰减。
作为另一实例,可修改位流中用以编码残差声道的位的数目。举例来说,当目标声道与参考声道之间的时间未对准小(例如,低于阈值)时,第一数目个位可经分配以供传输残差声道信息。然而,当目标声道与参考声道之间的时间未对准大(例如,大于阈值)时,第二数目个位可经分配以供传输残差声道信息。第二数目小于第一数目。
解码器118可基于立体声参数162、经编码残差声道246及经编码中间声道244而执行解码操作。举例来说,包含于立体声参数162中的IPD信息可指示解码器118是否将使用IPD参数。解码器118可基于位流248及确定而产生第一声道及第二声道。举例来说,频域立体声解码器125及时间平衡器124可执行升混以产生第一输出声道126(例如,对应于参考声道220)、第二输出声道128(例如,对应于目标声道222)或其两者。第二装置106可经由第一扩音器142输出第一输出声道126。第二装置106可经由第二扩音器144输出第二输出声道128。在替代实例中,第一输出声道126及第二输出声道128可作为立体声信号对而传输至单一输出扩音器。
应注意,残差缩放单元212基于声道间失配值228而对由残差产生单元210估计的残差声道238执行修改。残差声道编码器216编码经缩放残差声道242(例如,经修改残差信号),且经编码位流248A被传输至解码器。在某些实施方案中,残差缩放单元212可驻留于解码器中,且残差缩放单元212的操作可在编码器处略过。因为声道间失配值228在解码器处可得(这是因为声道间失配值228作为立体声参数162的部分而被编码及传输至解码器),所以此略过是可能的。基于在解码器处可得的声道间失配值228,驻留于解码器处的残差缩放单元可对经解码残差声道执行修改。
关于图1至2所描述的技术可基于目标声道222与参考声道220之间的时间未对准或失配值而调整、修改或编码残差声道(例如,旁侧声道或误差声道),以减少由DFT立体声编码中的开窗效应引入的谐波间噪声。举例来说,为减少可由DFT立体声编码中的开窗效应引起的伪影的引入,可衰减残差声道(例如,应用增益),可将残差声道的一或多个频带置零,可调整用以编码残差声道的位的数目,或其组合。
作为衰减的实例,可使用以下方程式表达依据失配值而变化的衰减因子:
attenuation_factor=2.6-0.02*|失配值|
另外,可使根据以上方程式计算的衰减因子(例如,attenuation_factor)削减(或饱和)以保持在一范围内。作为实例,可使衰减因子削减以保持在0.2与1.0的限值内。
参看图3,展示编码器114B的另一实例。编码器114B可对应于图1的编码器114。举例来说,图3中所描述的组件可集成至信号自适应“灵活”立体声译码器109中。还应理解,可使用硬件(例如,专用电路系统)、软件(例如,由处理器执行的指令)或其组合来实施图3中所绘示的各种组件(例如,变换、信号产生器、编码器、修改器等)。
将参考声道220及经调整目标声道322提供至变换单元302。经调整目标声道322可通过在时域中将目标声道222在时间上调整达声道间失配值228的等效量而产生。因此,经调整目标声道322与参考声道220大体上对准。变换单元302可对参考声道220执行第一变换操作以产生频域参考声道224,且变换单元302可对经调整目标声道322执行第二变换以产生经调整频域目标声道230。
因此,变换单元302可产生频域(或子频带域或经滤波的低频带核心及高频带频宽扩展)声道。作为非限制性实例,变换单元302可执行DFT操作、FFT操作、MDCT操作等。根据一些实施方案,正交镜像滤波器组(QMF)操作(使用滤波器组,例如复合低延迟滤波器组)可用以将输入声道220、322分裂成多个子频带。信号自适应“灵活”立体声译码器109经进一步配置以基于第一时间移位操作而确定是否在变换域中对经调整频域目标声道230执行第二时间移位(例如,非因果)操作以产生经修改的经调整频域目标声道。将频域参考声道224及经调整频域目标声道230提供至立体声参数估计器306及降混器307。
立体声参数估计器206可基于频域参考声道224及经调整频域目标声道230而提取(例如,产生)立体声参数162。出于说明起见,IID(b)可为频带(b)中的左声道的能量EL(b)及频带(b)中的右声道的能量ER(b)的函数。举例来说,IID(b)可被表达为20*log10(EL(b)/ER(b))。在编码器处估计及传输的IPD可提供在频带(b)中的左声道与右声道之间的频域中的相位差的估计。立体声参数162可包含额外(或替代)参数,例如ICC、ITD等。可将立体声参数162传输至图1的第二装置106,提供至降混器207(例如,旁侧声道产生器308)或其两者。在一些实施方案中,可任选地将立体声参数162提供至旁侧声道编码器310。
可将立体声参数162提供至IPD、ITD调整器(或修改器)350。在一些实施方案中,IPD、ITD调整器(或修改器)350可产生经修改IPD'或经修改ITD'。另外或替代地,IPD、ITD调整器(或修改器)350可确定待应用于残差信号(例如,旁侧声道)的残差增益(例如,残差增益值)。在一些实施方案中,IPD、ITD调整器(或修改器)350还可确定IPD旗标的值。IPD旗标的值指示一或多个频带的IPD值是否应被忽略或置零。举例来说,当IPD旗标被断言时,一或多个频带的IPD值可被忽略或置零。
IPD、ITD调整器(或修改器)350可将经修改IPD'、经修改ITD'、IPD旗标、残差增益或其组合提供至降混器307(例如,旁侧声道产生器308)。IPD、ITD调整器(或修改器)350可将ITD、IPD旗标、残差增益或其组合提供至旁侧声道修改器330。IPD、ITD调整器(或修改器)350可将ITD、IPD值、IPD旗标或其组合提供至旁侧声道编码器310。
可将频域参考声道224及经调整频域目标声道230提供至降混器307。降混器307包含中间声道产生器312及旁侧声道产生器308。根据一些实施方案,还可将立体声参数162提供至中间声道产生器312。中间声道产生器312可基于频域参考声道224及经调整频域目标声道230而产生中间声道Mfr(b)232。根据一些实施方案,还可基于立体声参数162而产生中间声道232。基于频域参考声道224、经调整频域目标声道230及立体声参数162而产生中间声道232的一些方法如下,包含Mfr(b)=(Lfr(b)+Rfr(b))/2或Mfr(b)=c1(b)*Lfr(b)+c2*Rfr(b),其中C1(b)及c2(b)为复值。在一些实施方案中,复值c1(b)及c2(b)是基于立体声参数162。举例来说,在中侧降混的一个实施方案中,当估计IPD时,c1(b)=(cos(-γ)-i*sin(-γ))/20.5且c2(b)=(cos(IPD(b)-γ)+i*sin(IPD(b)-γ))/20.5,其中i为表示-1的平方根的虚数。
将中间声道232提供至DFT合成器313。DFT合成器313将输出提供至中间声道编码器316。举例来说,DFT合成器313可合成中间声道232。可将经合成中间声道提供至中间声道316。中间声道编码器316可基于经合成中间声道而产生经编码中间声道244。
旁侧声道产生器308可基于频域参考声道224及经调整频域目标声道230而产生旁侧声道(Sfr(b))234。可在频域中估计旁侧声道234。在每一频带中,增益参数(g)可不同且可基于声道间电平差(例如,基于立体声参数162)。举例来说,旁侧声道234可被表达为(Lfr(b)-c(b)*Rfr(b))/(1+c(b)),其中c(b)可为ILD(b)或ILD(b)的函数(例如,c(b)=10^(ILD(b)/20))。可将旁侧声道234提供至旁侧声道330。旁侧声道修改器330还从IPD、ITD调整器350接收ITD、IPD旗标、残差增益或其组合。旁侧声道修改器330基于旁侧声道234、频域中间声道以及ITD、IPD旗标或残差增益中的一或多者而产生经修改旁侧声道。
将经修改旁侧声道提供至DFT合成器332以产生经合成旁侧声道。将经合成旁侧声道提供至旁侧声道编码器310。旁侧声道编码器310基于从DFT接收的立体声参数162以及从IPD、ITD调整器350接收的ITD、IPD值或IPD旗标而产生经编码残差声道246。在一些实施方案中,旁侧声道编码器310接收残差译码启用/停用信号354,且基于残差译码启用/停用信号354而产生经编码残差声道246。出于说明起见,当残差译码启用/停用信号354指示停用残差编码时,旁侧声道编码器310可针对一或多个频带不产生经编码旁侧声道246。
多路复用器352经配置以基于经编码中间声道244、经编码残差声道246或其两者而产生位流248B。在一些实施方案中,多路复用器352接收立体声参数162且基于立体声参数162而产生位流248B。位流248B可对应于图1的位流248。
参看图4,展示解码器118A的实例。解码器118A可对应于图1的解码器118。将位流248提供至解码器118A的多路分用器(DEMUX)402。位流248包含立体声参数162、经编码中间声道244及经编码残差声道246。多路分用器402经配置以从位流248提取经编码中间声道244且将经编码中间声道244提供至中间声道解码器404。多路分用器402还经配置以从位流248提取经编码残差声道246及立体声参数162。将经编码残差声道246及立体声参数162提供至旁侧声道解码器406。
将经编码残差声道246、立体声参数162或其两者提供至IPD、ITD调整器468。IPD、ITD调整器468经配置以产生识别包含于位流248中的IPD旗标值(例如,经编码残差声道246或立体声参数162)。IPD旗标可提供如参看图3所描述的指示。另外或替代地,IPD旗标可指示解码器118A针对一或多个频带将处理还是忽略所接收的残差信号信息。基于IPD旗标值(例如,旗标被断言还是未被断言),IPD、ITD调整器468经配置以调整IPD、调整ITD或其两者。
中间声道解码器404可经配置以解码经编码中间声道244以产生中间声道(mCODED(t))450。如果中间声道450为时域信号,那么变换408可应用于中间声道450以产生频域中间声道(MCODED(b))452。可将频域中间声道452提供至升混器410。然而,如果中间声道450为频域信号,那么可将中间声道450直接提供至升混器410。
旁侧声道解码器406可基于经编码残差声道246及立体声参数162而产生旁侧声道(SCODED(b))454。举例来说,可针对低频带及高频带解码误差(e)。旁侧声道454可被表达为SPRED(b)+eCODED(b),其中SPRED(b)=MCODED(b)*(ILD(b)-1)/(ILD(b)+1)。在一些实施方案中,旁侧声道解码器406进一步基于IPD旗标而产生旁侧声道454。变换456可应用于旁侧声道454以产生频域旁侧声道(SCODED(b))455。还可将频域旁侧声道455提供至升混器410。
升混器410可对中间声道452及旁侧声道455执行升混操作。举例来说,升混器410可基于中间声道452及旁侧声道455而产生第一升混声道(Lfr)456及第二升混声道(Rfr)458。因此,在所描述实例中,第一升混信号456可为左声道信号,且第二升混信号458可为右声道信号。第一升混信号456可被表达为MCODED(b)+SCODED(b),且第二升混信号458可被表达为MCODED(b)-SCODED(b)。
对第一升混信号456执行合成、开窗操作457以产生经合成的第一升混信号460。将经合成的第一升混信号460提供至声道间对准器464。对第二升混信号458执行合成、开窗操作416以产生经合成的第二升混信号466。将经合成的第二升混信号466提供至声道间对准器464。声道间对准器464可对准经合成的第一升混信号460与经合成的第二升混信号466以产生第一输出信号470及第二输出信号472。
应注意,图2的编码器114A、图3的编码器114B及图4的解码器118A可包含编码器或解码器架构的部分而非全部。举例来说,图2的编码器114A、图3的编码器114B、图4的解码器118A或其组合还可包含高频带(HB)处理的并行路径。另外或替代地,在一些实施方案中,可在编码器114A、114B处执行时域降混。另外或替代地,时域升混可遵循图4的解码器118A以获得经解码器移位补偿的左声道及右声道。
参看图5,展示通信方法500。方法500可由图1的第一装置104、图1的编码器114、图2的编码器114A、图3的编码器114B或其组合执行。
方法500包含:在502处,在编码器处对参考声道执行第一变换操作以产生频域参考声道。举例来说,参看图2,变换单元202对参考声道220执行第一变换操作以产生频域参考声道224。第一变换操作可包含DFT操作、FFT操作、MDCT操作等。
方法500还包含:在504处,对目标声道执行第二变换操作以产生频域目标声道。举例来说,参看图2,变换单元204对目标声道222执行第二变换操作以产生频域目标声道226。第二变换操作可包含DFT操作、FFT操作、MDCT操作等。
方法500还包含:在506处,确定指示频域参考声道与频域目标声道之间的时间未对准的声道间失配值。举例来说,参看图2,立体声声道调整单元206确定指示频域参考声道224与频域目标声道226之间的时间未对准的声道间失配值228。因此,声道间失配值228可为指示(在频域中)目标声道222滞后参考声道220多少的声道间时间差(ITD)参数。
方法500还包含:在508处,基于声道间失配值而调整频域目标声道以产生经调整频域目标声道。举例来说,参看图2,立体声声道调整单元206基于声道间失配值228而调整频域目标声道226以产生经调整频域目标声道230。出于说明起见,立体声声道调整单元206将频域目标声道226移位达声道间失配值228以产生在时间上与频域参考声道224同步的经调整频域目标声道230。
方法500还包含:在510处,对频域参考声道及经调整频域目标声道执行降混操作以产生中间声道及旁侧声道。举例来说,参看图2,降混器208对频域参考声道224及经调整频域目标声道230执行降混操作以产生中间声道232及旁侧声道234。中间声道(Mfr(b))232可为频域参考声道(Lfr(b))224及经调整频域目标声道(Rfr(b))230的函数。举例来说,中间声道(Mfr(b))232可被表达为Mfr(b)=(Lfr(b)+Rfr(b))/2。旁侧声道(Sfr(b))234还可为频域参考声道(Lfr(b))224及经调整频域目标声道(Rfr(b))230的函数。举例来说,旁侧声道(Sfr(b))234可被表达为Sfr(b)=(Lfr(b)-Rfr(b))/2。
方法500还包含:在512处,基于中间声道而产生经预测旁侧声道。经预测旁侧声道对应于旁侧声道的预测。举例来说,参看图2,残差产生单元210基于中间声道232而产生经预测旁侧声道236。经预测旁侧声道236对应于旁侧声道234的预测。举例来说,经预测旁侧声道
Figure GDA0002113763740000211
236可被表达为
Figure GDA0002113763740000212
其中g为针对每一参数频带操作的预测残差增益且为ILD的函数。
方法500还包含:在514处,基于旁侧声道及经预测旁侧声道而产生残差声道。举例来说,参看图2,残差产生单元210基于旁侧声道234及经预测旁侧声道236而产生残差声道238。举例来说,残差声道(e)238可为被表达为
Figure GDA0002113763740000213
的误差信号。
方法500还包含:在516处,基于声道间失配值而确定用于残差声道的缩放因子。举例来说,参看图2,残差缩放单元212基于声道间失配值228而确定用于残差声道238的缩放因子212。声道间失配值228越大,则缩放因子240越大(例如,残差声道238衰减得越多)。
方法500还包含:在518处,根据缩放因子而缩放残差声道以产生经缩放残差声道。举例来说,参看图2,残差缩放单元212根据缩放因子240而缩放残差声道238以产生经缩放残差声道242。因此,如果声道间失配值228大体上大,那么残差缩放单元212衰减残差声道238(例如,误差信号),这是因为旁侧声道234表明大量频谱泄漏。
方法500还包含:在520处,编码中间声道及经缩放残差声道作为位流的部分。举例来说,参看图2,中间声道编码器214编码中间声道232以产生经编码中间声道244,且残差声道编码器216编码经缩放残差声道242或旁侧声道234以产生经编码残差声道246。多路复用器218组合经编码中间声道244与经编码残差声道246作为位流248A的部分。
方法500可基于目标声道222与参考声道220之间的时间未对准或失配值而调整、修改或编码残差声道(例如,旁侧声道或误差声道),以减少由DFT立体声编码中的开窗效应引入的谐波间噪声。举例来说,为减少可由DFT立体声编码中的开窗效应引起的伪影的引入,可衰减残差声道(例如,应用增益),可将残差声道的一或多个频带置零,可调整用以编码残差声道的位的数目,或其组合。
参看图6,展示装置600(例如,无线通信装置)的特定说明性实例的框图。在各种实施例中,装置600可具有比图6中所绘示的少或多的组件。在说明性实施例中,装置600可对应于图1的第一装置104、图1的第二装置106或其组合。在说明性实施例中,装置600可执行参看图1至5的系统及方法所描述的一或多个操作。
在特定实施例中,装置600包含处理器606(例如,中央处理单元(CPU))。装置600可包含一或多个额外处理器610(例如,一或多个数字信号处理器(DSP))。处理器610可包含媒体(例如,话音及音乐)编解码器(CODEC)608及回声消除器612。媒体CODEC 608可包含解码器118、编码器114或其组合。编码器114可包含残差产生单元210及残差缩放单元212。
装置600可包含存储器153及CODEC 634。尽管媒体CODEC 608被绘示为处理器610的组件(例如,专用电路系统及/或可执行编程代码),但在其它实施例中,媒体CODEC608的例如解码器118、编码器114或其组合的一或多个组件可包含于处理器606、CODEC 634、另一处理组件或其组合中。
装置600可包含耦合至天线642的发射器110。装置600可包含耦合至显示控制器626的显示器628。一或多个扬声器648可耦合至CODEC 634。一或多个麦克风646可经由输入接口112耦合至CODEC 634。在特定实施方案中,扬声器648可包含图1的第一扩音器142、第二扩音器144或其组合。在特定实施方案中,麦克风646可包含图1的第一麦克风146、第二麦克风148或其组合。CODEC 634可包含数/模转换器(DAC)602及模/数转换器(ADC)604。
存储器153可包含可由处理器606、处理器610、CODEC 634、装置600的另一处理单元或其组合执行以执行参看图1至5所描述的一或多个操作的指令660。
装置600的一或多个组件可经由专用硬件(例如,电路系统)实施,由执行指令以执行一或多个任务的处理器实施,或其组合。作为实例,存储器153或处理器606、处理器610及/或CODEC 634的一或多个组件可为存储器装置,例如随机存取存储器(RAM)、磁阻式随机存取存储器(MRAM)、自旋力矩转移MRAM(STT-MRAM)、闪速存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可卸除式磁盘或紧密光盘只读存储器(CD-ROM)。存储器装置可包含在由计算机(例如,CODEC 634中的处理器、处理器606及/或处理器610)执行时可致使计算机执行参看图1至4所描述的一或多个操作的指令(例如,指令660)。作为实例,存储器153或处理器606、处理器610及/或CODEC 634中的一或多个组件可为包含指令(例如,指令660)的非暂时性计算机可读媒体,所述指令在由计算机(例如,CODEC 634中的处理器、处理器606及/或处理器610)执行时致使计算机执行参看图1至5所描述的一或多个操作。
在特定实施方案中,装置600可包含于系统级封装或系统单芯片装置(例如,移动站调制解调器(MSM))622中。在特定实施例中,处理器606、处理器610、显示控制器626、存储器153、CODEC 634及发射器110包含于系统级封装或系统单芯片装置622中。在特定实施例中,例如触摸屏及/或小键盘的输入装置630以及电源644耦合至系统单芯片装置622。此外,在特定实施例中,如图6中所绘示,显示器628、输入装置630、扬声器648、麦克风646、天线642及电源644在系统单芯片装置622外部。然而,显示器628、输入装置630、扬声器648、麦克风646、天线642及电源644中的每一者可耦合至系统单芯片装置622的组件,例如接口或控制器。
装置600可包含:无线电话、移动通信装置、移动电话、智能手机、蜂窝电话、膝上型计算机、桌上型计算机、计算机、平板计算机、机顶盒、个人数字助理(PDA)、显示装置、电视、游戏控制台、音乐播放器、收音机、视频播放器、娱乐单元、通信装置、固定位置数据单元、个人媒体播放器、数字视频播放器、数字视频光盘(DVD)播放器、调谐器、相机、导航装置、解码器系统、编码器系统或其任何组合。
结合上文所描述的技术,一种设备包含用于对参考声道执行第一变换操作以产生频域参考声道的装置。举例来说,用于执行第一变换操作的装置可包含图1至2的变换单元202、图3的编码器114B的一或多个组件、图6的处理器610、图6的处理器606、图6的CODEC634、由一或多个处理单元执行的指令660、一或多个其它模块、装置、组件、电路或其组合。
所述设备还包含用于对目标声道执行第二变换操作以产生频域目标声道的装置。举例来说,用于执行第二变换操作的装置可包含图1至2的变换单元204、图3的编码器114B的一或多个组件、图6的处理器610、图6的处理器606、图6的CODEC 634、由一或多个处理单元执行的指令660、一或多个其它模块、装置、组件、电路或其组合。
所述设备还包含用于确定指示频域参考声道与频域目标声道之间的时间未对准的声道间失配值的装置。举例来说,用于确定声道间失配值的装置可包含图1至2的立体声声道调整单元206、图3的编码器114B的一或多个组件、图6的处理器610、图6的处理器606、图6的CODEC 634、由一或多个处理单元执行的指令660、一或多个其它模块、装置、组件、电路或其组合。
所述设备还包含用于基于声道间失配值而调整频域目标声道以产生经调整频域目标声道的装置。举例来说,用于调整频域目标声道的装置可包含图1至2的立体声声道调整单元206、图3的编码器114B的一或多个组件、图6的处理器610、图6的处理器606、图6的CODEC 634、由一或多个处理单元执行的指令660、一或多个其它模块、装置、组件、电路或其组合。
所述设备还包含用于对频域参考声道及经调整频域目标声道执行降混操作以产生中间声道及旁侧声道的装置。举例来说,用于执行降混操作的装置可包含图1至2的降混器208、图3的降混器307、图6的处理器610、图6的处理器606、图6的CODEC 634、由一或多个处理单元执行的指令660、一或多个其它模块、装置、组件、电路或其组合。
所述设备还包含用于基于中间声道而产生经预测旁侧声道的装置。经预测旁侧声道对应于旁侧声道的预测。举例来说,用于产生经预测旁侧声道的装置可包含图1至2的残差产生单元210、图3的IPD、ITD调整器或修改器350、图6的处理器610、图6的处理器606、图6的CODEC 634、由一或多个处理单元执行的指令660、一或多个其它模块、装置、组件、电路或其组合。
所述设备还包含用于基于旁侧声道及经预测旁侧声道而产生残差声道的装置。举例来说,用于产生残差声道的装置可包含图1至2的残差产生单元210、图3的IPD、ITD调整器或修改器350、图6的处理器610、图6的处理器606、图6的CODEC 634、由一或多个处理单元执行的指令660、一或多个其它模块、装置、组件、电路或其组合。
所述设备还包含用于基于声道间失配值而确定用于残差声道的缩放因子的装置。举例来说,用于确定缩放因子的装置可包含图1至2的残差缩放单元212、图3的IPD、ITD调整器或修改器350、图6的处理器610、图6的处理器606、图6的CODEC 634、由一或多个处理单元执行的指令660、一或多个其它模块、装置、组件、电路或其组合。
所述设备还包含用于根据缩放因子而缩放残差声道以产生经缩放残差声道的装置。举例来说,用于缩放残差声道的装置可包含图1至2的残差缩放单元212、图3的旁侧声道修改器330、图6的处理器610、图6的处理器606、图6的CODEC 634、由一或多个处理单元执行的指令660、一或多个其它模块、装置、组件、电路或其组合。
所述设备还包含用于编码中间声道及经缩放残差声道作为位流的部分的装置。举例来说,用于编码的装置可包含图1至2的中间声道编码器214、图1至2的残差声道编码器216、图3的中间声道编码器316、图3的旁侧声道编码器310、图6的处理器610、图6的处理器606、图6的CODEC 634、由一或多个处理单元执行的指令660、一或多个其它模块、装置、组件、电路或其组合。
在特定实施方案中,本文中所揭示的系统及装置的一或多个组件可集成至解码系统或设备(例如,电子装置、编解码器或其中的处理器)、编码系统或设备或其两者中。在其它实施方案中,本文中所揭示的系统及装置的一或多个组件可集成至以下各者中:无线电话、平板计算机、桌上型计算机、膝上型计算机、机顶盒、音乐播放器、视频播放器、娱乐单元、电视、游戏控制台、导航装置、通信装置、个人数字助理(PDA)、固定位置数据单元、个人媒体播放器或另一类型的装置。
参看图7,描绘基站700的特定说明性实例的框图。在各种实施方案中,相比图7中所绘示的组件,基站700可具有更多组件或更少组件。在说明性实例中,基站700可根据图5的方法500操作。
基站700可为无线通信系统的部分。无线通信系统可包含多个基站及多个无线装置。无线通信系统可为长期演进(LTE)系统、第四代(4G)LTE系统、第五代(5G)系统、码分多址(CDMA)系统、全球移动通信系统(GSM)系统、无线局域网(WLAN)系统或某一其它无线系统。CDMA系统可实施宽带CDMA(WCDMA)、CDMA1X、演进数据优化(EVDO)、时分同步CDMA(TD-SCDMA)或一些其它版本的CDMA。
无线装置也可被称作用户设备(UE)、移动站、终端、接入终端、订户单元、工作站等。无线装置可包含:蜂窝电话、智能手机、平板计算机、无线调制解调器、个人数字助理(PDA)、手持型装置、膝上型计算机、智能本、上网本、平板计算机、无线电话、无线本地回路(WLL)站、蓝牙装置等。无线装置可包含或对应于图6的装置600。
各种功能可由基站700的一或多个组件(及/或在未展示的其它组件中)执行,例如发送及接收消息及数据(例如,音频数据)。在特定实例中,基站700包含处理器706(例如,CPU)。基站700可包含转码器710。转码器710可包含音频CODEC 708(例如,话音及音乐CODEC)。举例来说,转码器710可包含经配置以执行音频CODEC 708的操作的一或多个组件(例如,电路系统)。作为另一实例,转码器710经配置以执行一或多个计算机可读指令以执行音频CODEC 708的操作。尽管音频CODEC 708被绘示为转码器710的组件,但在其它实例中,音频CODEC 708的一或多个组件可包含于处理器706、另一处理组件或其组合中。举例来说,解码器118(例如,声码器解码器)可包含于接收器数据处理器764中。作为另一实例,编码器114(例如,声码器编码器)可包含于传输数据处理器782中。
转码器710可用以在两个或多于两个网络之间转码消息及数据。转码器710经配置以将消息及音频数据从第一格式(例如,数字格式)转换成第二格式。出于说明起见,解码器118可解码具有第一格式的经编码信号,且编码器114可将经解码信号编码成具有第二格式的经编码信号。另外或替代地,转码器710经配置以执行数据速率适配。举例来说,转码器710可在不改变音频数据的格式的情况下降频转换数据速率或增频转换数据速率。出于说明起见,转码器710可将64kbit/s信号降频转换成16kbit/s信号。音频CODEC 708可包含编码器114及解码器118。解码器118可包含立体声参数调节器618。
基站700包含存储器732。存储器732(计算机可读存储装置的实例)可包含指令。指令可包含可由处理器706、转码器710或其组合执行以执行图5的方法500的一或多个指令。基站700可包含耦合至天线阵列的多个发射器及接收器(例如,收发器),例如第一收发器752及第二收发器754。天线阵列可包含第一天线742及第二天线744。天线阵列经配置成以无线方式与一或多个无线装置通信,例如图6的装置600。举例来说,第二天线744可从无线装置接收数据流714(例如,位流)。数据流714可包含消息、数据(例如,经编码话音数据)或其组合。
基站700可包含网络连接760,例如回程连接。网络连接760经配置以与核心网络或无线通信网络的一或多个基站通信。举例来说,基站700可经由网络连接760从核心网络接收第二数据流(例如,消息或音频数据)。基站700可处理第二数据流以产生消息或音频数据,且经由天线阵列中的一或多个天线将消息或音频数据提供至一或多个无线装置,或经由网络连接760将其提供至另一基站。在特定实施方案中,作为说明性的非限制性实例,网络连接760可为广域网(WAN)连接。在一些实施方案中,核心网络可包含或对应于公共交换电话网(PSTN)、数据包骨干网或其两者。
基站700可包含耦合至网络连接760及处理器706的媒体网关770。媒体网关770经配置以在不同电信技术的媒体流之间转换。举例来说,媒体网关770可在不同传输协议、不同译码方案或其两者之间转换。出于说明起见,作为说明性的非限制性实例,媒体网关770可从PCM信号转换成实时输送协议(RTP)信号。媒体网关770可在以下网络之间转换数据:数据包交换网络(例如,互联网语音通信协议(VoIP)网络、IP多媒体子系统(IMS)、例如LTE、WiMax及UMB的第四代(4G)无线网络、第五代(5G)无线网络等)、电路交换网络(例如,PSTN),及混合网络(例如,例如GSM、GPRS及EDGE的第二代(2G)无线网络、例如WCDMA、EV-DO及HSPA的第三代(3G)无线网络等)。
另外,媒体网关770可包含例如转码器710的转码器,且经配置以在编解码器不兼容时转码数据。举例来说,作为说明性的非限制性实例,媒体网关770可在自适应多重速率(AMR)编解码器与G.711编解码器之间进行转码。媒体网关770可包含路由器及多个物理接口。在一些实施方案中,媒体网关770还可包含控制器(未展示)。在特定实施方案中,媒体网关控制器可在媒体网关770外部、在基站700外部或在其两者外部。媒体网关控制器可控制及协调多个媒体网关的操作。媒体网关770可从媒体网关控制器接收控制信号,且可用以在不同传输技术之间进行桥接,且可将服务添加至终端用户能力及连接。
基站700可包含耦合至收发器752、754、接收器数据处理器764及处理器706的解调器762,且接收器数据处理器764可耦合至处理器706。解调器762经配置以解调从收发器752、754接收的经调制信号,且可将经解调数据提供至接收器数据处理器764。接收器数据处理器764经配置以从经解调数据提取消息或音频数据,且将消息或音频数据发送至处理器706。
基站700可包含传输数据处理器782及传输多输入多输出(MIMO)处理器784。传输数据处理器782可耦合至处理器706及传输MIMO处理器784。传输MIMO处理器784可耦合至收发器752、754及处理器706。在一些实施方案中,传输MIMO处理器784可耦合至媒体网关770。作为说明性的非限制性实例,传输数据处理器782经配置以从处理器706接收消息或音频数据,且基于例如CDMA或正交频分多路复用(OFDM)的译码方案而译码消息或音频数据。传输数据处理器782可将经译码数据提供至传输MIMO处理器784。
可使用CDMA或OFDM技术将经译码数据与例如导频数据的其它数据一起多路复用以产生经多路复用数据。接着可由传输数据处理器782基于特定调制方案(例如,二进制相移键控(“BPSK”)、正交相移键控(“QSPK”)、M元相移键控(“M-PSK”)、M元正交振幅调制(“M-QAM”)等)而调制(即,符号映射)经多路复用数据以产生调制符号。在特定实施方案中,可使用不同调制方案调制经译码数据及其它数据。针对每一数据流的数据速率、译码及调制可由处理器706所执行的指令确定。
传输MIMO处理器784经配置以从传输数据处理器782接收调制符号,且可进一步处理调制符号,且可对数据执行波束成形。举例来说,传输MIMO处理器784可将波束成形权重应用于调制符号。
在操作期间,基站700的第二天线744可接收数据流714。第二收发器754可从第二天线744接收数据流714,且可将数据流714提供至解调器762。解调器762可解调数据流714的经调制信号且将经解调数据提供至接收器数据处理器764。接收器数据处理器764可从经解调数据提取音频数据,且将经提取音频数据提供至处理器706。
处理器706可将音频数据提供至转码器710以供转码。转码器710的解码器118可将音频数据从第一格式解码成经解码音频数据,且编码器114可将经解码音频数据编码成第二格式。在一些实施方案中,编码器114可使用比从无线装置接收到的数据速率高的数据速率(例如,增频转换)或低的数据速率(例如,降频转换)来编码音频数据。在其它实施方案中,音频数据可未被转码。尽管转码(例如,解码及编码)被绘示为由转码器710执行,但转码操作(例如,解码及编码)可由基站700的多个组件执行。举例来说,解码可由接收器数据处理器764执行,且编码可由传输数据处理器782执行。在其它实施方案中,处理器706可将音频数据提供至媒体网关770以用于转换成另一传输协议、译码方案或其两者。媒体网关770可经由网络连接760将经转换数据提供至另一基站或核心网络。
在编码器114处产生的经编码音频数据(例如经转码数据)可经由处理器706提供至传输数据处理器782或网络连接760。可将来自转码器710的经转码音频数据提供至传输数据处理器782用于根据例如OFDM的调制方案译码,以产生调制符号。传输数据处理器782可将调制符号提供至传输MIMO处理器784以供进一步处理及波束成形。传输MIMO处理器784可应用波束成形权重,且可经由第一收发器752将调制符号提供至天线阵列中的一或多个天线,例如第一天线742。因此,基站700可将对应于从无线装置接收的数据流714的经转码数据流716提供至另一无线装置。经转码数据流716可具有与数据流714不同的编码格式、数据速率或其两者。在其它实施方案中,可将经转码数据流716提供至网络连接760以供传输至另一基站或核心网络。
应注意,由本文中所揭示的系统及装置的一或多个组件执行的各种功能被描述为由某些组件或模块执行。组件及模块的此划分仅用于说明。在替代实施方案中,由特定组件或模块执行的功能可划分于多个组件或模块之中。此外,在替代实施方案中,两个或多于两个组件或模块可集成至单一组件或模块中。可使用硬件(例如,现场可编程门阵列(FPGA)装置、专用集成电路(ASIC)、DSP、控制器等)、软件(例如,可由处理器执行的指令)或其任何组合实施每一组件或模块。
所属领域的技术人员将进一步了解,结合本文中所揭示的实施例而描述的各种说明性逻辑块、配置、模块、电路及算法步骤可被实施为电子硬件、由例如硬件处理器的处理装置执行的计算机软件或两者的组合。上文大体上在功能性方面描述了各种说明性组件、块、配置、模块、电路及步骤。此功能性被实施为硬件还是软件取决于特定应用及强加于整个系统上的设计约束。所属领域的技术人员可针对每一特定应用而以变化的方式实施所描述的功能性,但不应将这些实施决策解释为造成脱离本发明的范围。
结合本文中所揭示的实施例而描述的方法或算法的步骤可直接体现于硬件中、由处理器执行的软件模块中,或两者的组合中。软件模块可驻留于存储器装置中,例如随机存取存储器(RAM)、磁阻式随机存取存储器(MRAM)、自旋力矩转移MRAM(STT-MRAM)、闪速存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可卸除式磁盘或紧密光盘只读存储器(CD-ROM)。示范性存储器装置耦合至处理器,使得处理器可从存储器装置读取信息及将信息写入至存储器装置。在替代例中,存储器装置可与处理器成一体式。处理器及存储媒体可驻留于专用集成电路(ASIC)中。ASIC可驻留于计算装置或用户终端中。在替代例中,处理器及存储媒体可作为离散组件驻留于计算装置或用户终端中。
提供了对所揭示的实施方案的先前描述,以使所属领域的技术人员能够制作或使用所揭示的实施方案。所属领域的技术人员将容易显而易见对这些实施方案的各种修改,且在不脱离本发明的范围的情况下,本文中所定义的原理可应用于其它实施方案。因此,本发明并不意图限于本文中所展示的实施方案,而应符合可能与如所附权利要求书所定义的原理及新颖特征相一致的最广泛范围。

Claims (30)

1.一种用于音频处理的装置,其包括:
第一变换单元,其经配置以对参考声道执行第一变换操作以产生频域参考声道;
第二变换单元,其经配置以对目标声道执行第二变换操作以产生频域目标声道;
立体声声道调整单元,其经配置以进行以下操作:
确定指示所述频域参考声道与所述频域目标声道之间的时间未对准的声道间失配值;及
基于所述声道间失配值而调整所述频域目标声道以产生经调整频域目标声道;
降混器,其经配置以对所述频域参考声道及所述经调整频域目标声道执行降混操作以产生中间声道及旁侧声道;
残差产生单元,其经配置以进行以下操作:
基于所述中间声道而产生经预测旁侧声道,所述经预测旁侧声道对应于所述旁侧声道的预测;及
基于所述旁侧声道及所述经预测旁侧声道而产生残差声道;
残差缩放单元,其经配置以进行以下操作:
基于所述声道间失配值而确定用于所述残差声道的缩放因子;及
根据所述缩放因子而缩放所述残差声道以产生经缩放残差声道;
中间声道编码器,其经配置以编码所述中间声道作为位流的部分;及
残差声道编码器,其经配置以编码所述经缩放残差声道作为所述位流的部分。
2.根据权利要求1所述的装置,其中所述残差声道包括误差声道信号。
3.根据权利要求1所述的装置,其中所述残差缩放单元经进一步配置以基于所述声道间失配值而确定残差增益参数。
4.根据权利要求1所述的装置,其中所述残差声道的一或多个频带是基于所述声道间失配值而置零。
5.根据权利要求1所述的装置,其中所述残差声道的每一频带是基于所述声道间失配值而置零。
6.根据权利要求1所述的装置,其中所述残差声道编码器经进一步配置以基于所述声道间失配值而设定所述位流中用以编码所述残差声道的位的数目。
7.根据权利要求1所述的装置,其中所述残差声道编码器经进一步配置以比较所述声道间失配值与阈值。
8.根据权利要求7所述的装置,其中如果所述声道间失配值小于或等于所述阈值,那么第一数目个位用以编码所述经缩放残差声道。
9.根据权利要求8所述的装置,其中如果所述声道间失配值大于所述阈值,那么第二数目个位用以编码所述经缩放残差声道。
10.根据权利要求9所述的装置,其中位的所述第二数目不同于位的所述第一数目。
11.根据权利要求9所述的装置,其中位的所述第二数目小于位的所述第一数目。
12.根据权利要求1所述的装置,其中所述残差产生单元及所述残差缩放单元集成至移动装置中。
13.根据权利要求1所述的装置,其中所述残差产生单元及所述残差缩放单元集成至基站中。
14.一种通信方法,所述方法包括:
在编码器处对参考声道执行第一变换操作以产生频域参考声道;
对目标声道执行第二变换操作以产生频域目标声道;
确定指示所述频域参考声道与所述频域目标声道之间的时间未对准的声道间失配值;
基于所述声道间失配值而调整所述频域目标声道以产生经调整频域目标声道;
对所述频域参考声道及所述经调整频域目标声道执行降混操作以产生中间声道及旁侧声道;
基于所述中间声道而产生经预测旁侧声道,所述经预测旁侧声道对应于所述旁侧声道的预测;
基于所述旁侧声道及所述经预测旁侧声道而产生残差声道;
基于所述声道间失配值而确定用于所述残差声道的缩放因子;及
根据所述缩放因子而缩放所述残差声道以产生经缩放残差声道;
编码所述中间声道作为位流的部分;及
编码所述经缩放残差声道作为所述位流的部分。
15.根据权利要求14所述的方法,其中所述残差声道包括误差声道信号。
16.根据权利要求14所述的方法,其进一步包括基于所述声道间失配值而确定残差增益参数。
17.根据权利要求14所述的方法,其中所述残差声道的一或多个频带是基于所述声道间失配值而置零。
18.根据权利要求14所述的方法,其中所述残差声道的每一频带是基于所述声道间失配值而置零。
19.根据权利要求14所述的方法,其进一步包括基于所述声道间失配值而设定所述位流中用以编码所述残差声道的位的数目。
20.根据权利要求14所述的方法,其进一步包括比较所述声道间失配值与阈值。
21.根据权利要求20所述的方法,其中如果所述声道间失配值小于或等于所述阈值,那么第一数目个位用以编码所述经缩放残差声道。
22.根据权利要求21所述的方法,其中如果所述声道间失配值大于所述阈值,那么第二数目个位用以编码所述经缩放残差声道。
23.根据权利要求22所述的方法,其中位的所述第二数目不同于位的所述第一数目。
24.根据权利要求14所述的方法,其中缩放所述残差声道是在移动装置处执行。
25.根据权利要求14所述的方法,其中缩放所述残差声道是在基站处执行。
26.一种非暂时性计算机可读媒体,其包括在由编码器内的处理器执行时致使所述处理器执行包括以下各者的操作的指令:
对参考声道执行第一变换操作以产生频域参考声道;
对目标声道执行第二变换操作以产生频域目标声道;
确定指示所述频域参考声道与所述频域目标声道之间的时间未对准的声道间失配值;
基于所述声道间失配值而调整所述频域目标声道以产生经调整频域目标声道;
对所述频域参考声道及所述经调整频域目标声道执行降混操作以产生中间声道及旁侧声道;
基于所述中间声道而产生经预测旁侧声道,所述经预测旁侧声道对应于所述旁侧声道的预测;
基于所述旁侧声道及所述经预测旁侧声道而产生残差声道;
基于所述声道间失配值而确定用于所述残差声道的缩放因子;及
根据所述缩放因子而缩放所述残差声道以产生经缩放残差声道;
编码所述中间声道作为位流的部分;及
编码所述经缩放残差声道作为所述位流的部分。
27.根据权利要求26所述的非暂时性计算机可读媒体,其中所述残差声道包括误差声道信号。
28.一种用于音频处理的设备,其包括:
用于对参考声道执行第一变换操作以产生频域参考声道的装置;
用于对目标声道执行第二变换操作以产生频域目标声道的装置;
用于确定指示所述频域参考声道与所述频域目标声道之间的时间未对准的声道间失配值的装置;
用于基于所述声道间失配值而调整所述频域目标声道以产生经调整频域目标声道的装置;
用于对所述频域参考声道及所述经调整频域目标声道执行降混操作以产生中间声道及旁侧声道的装置;
用于基于所述中间声道而产生经预测旁侧声道的装置,所述经预测旁侧声道对应于所述旁侧声道的预测;
用于基于所述旁侧声道及所述经预测旁侧声道而产生残差声道的装置;
用于基于所述声道间失配值而确定用于所述残差声道的缩放因子的装置;及
用于根据所述缩放因子而缩放所述残差声道以产生经缩放残差声道的装置;及
用于编码所述中间声道及所述经缩放残差声道作为位流的部分的装置。
29.根据权利要求28所述的设备,其中所述用于缩放所述残差声道的装置集成至移动装置中。
30.根据权利要求28所述的设备,其中所述用于缩放所述残差声道的装置集成至基站中。
CN201780081733.4A 2017-01-19 2017-12-11 多个音频信号的译码 Active CN110168637B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310577192.1A CN116564320A (zh) 2017-01-19 2017-12-11 多个音频信号的译码

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762448287P 2017-01-19 2017-01-19
US62/448,287 2017-01-19
US15/836,604 US10217468B2 (en) 2017-01-19 2017-12-08 Coding of multiple audio signals
US15/836,604 2017-12-08
PCT/US2017/065542 WO2018136166A1 (en) 2017-01-19 2017-12-11 Coding of multiple audio signals

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202310577192.1A Division CN116564320A (zh) 2017-01-19 2017-12-11 多个音频信号的译码

Publications (2)

Publication Number Publication Date
CN110168637A CN110168637A (zh) 2019-08-23
CN110168637B true CN110168637B (zh) 2023-05-30

Family

ID=62838590

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201780081733.4A Active CN110168637B (zh) 2017-01-19 2017-12-11 多个音频信号的译码
CN202310577192.1A Pending CN116564320A (zh) 2017-01-19 2017-12-11 多个音频信号的译码

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202310577192.1A Pending CN116564320A (zh) 2017-01-19 2017-12-11 多个音频信号的译码

Country Status (10)

Country Link
US (3) US10217468B2 (zh)
EP (1) EP3571694B1 (zh)
KR (1) KR102263550B1 (zh)
CN (2) CN110168637B (zh)
AU (1) AU2017394680B2 (zh)
BR (1) BR112019014541A2 (zh)
ES (1) ES2843903T3 (zh)
SG (1) SG11201904752QA (zh)
TW (1) TWI800496B (zh)
WO (1) WO2018136166A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10217468B2 (en) 2017-01-19 2019-02-26 Qualcomm Incorporated Coding of multiple audio signals
US10304468B2 (en) * 2017-03-20 2019-05-28 Qualcomm Incorporated Target sample generation
US10535357B2 (en) * 2017-10-05 2020-01-14 Qualcomm Incorporated Encoding or decoding of audio signals
US11501787B2 (en) * 2019-08-22 2022-11-15 Google Llc Self-supervised audio representation learning for mobile devices

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009038512A1 (en) * 2007-09-19 2009-03-26 Telefonaktiebolaget Lm Ericsson (Publ) Joint enhancement of multi-channel audio
CN101925950A (zh) * 2008-01-04 2010-12-22 杜比国际公司 音频编码器和解码器
CN102272829A (zh) * 2008-12-29 2011-12-07 摩托罗拉移动公司 用于在多声道音频编码系统内生成增强层的方法和装置
EP2544466A1 (en) * 2011-07-05 2013-01-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral subtractor
CN103098126A (zh) * 2010-04-09 2013-05-08 弗兰霍菲尔运输应用研究公司 音频编码器、音频解码器及利用复预测处理多信道音频信号的相关方法
CN103403800A (zh) * 2011-02-02 2013-11-20 瑞典爱立信有限公司 确定多声道音频信号的声道间时间差
WO2015010926A1 (en) * 2013-07-22 2015-01-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
WO2015054492A1 (en) * 2013-10-11 2015-04-16 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0809940A2 (pt) * 2007-03-30 2014-10-07 Panasonic Corp Dispositivo de codificação e método de codificação
US8504378B2 (en) 2009-01-22 2013-08-06 Panasonic Corporation Stereo acoustic signal encoding apparatus, stereo acoustic signal decoding apparatus, and methods for the same
WO2010091555A1 (zh) 2009-02-13 2010-08-19 华为技术有限公司 一种立体声编码方法和装置
KR101606665B1 (ko) 2012-04-05 2016-03-25 후아웨이 테크놀러지 컴퍼니 리미티드 파라미터 공간 오디오 코딩 및 디코딩을 위한 방법, 파라미터 공간 오디오 코더 및 파라미터 공간 오디오 디코더
JP6063555B2 (ja) * 2012-04-05 2017-01-18 華為技術有限公司Huawei Technologies Co.,Ltd. マルチチャネルオーディオエンコーダ及びマルチチャネルオーディオ信号を符号化する方法
WO2014108738A1 (en) 2013-01-08 2014-07-17 Nokia Corporation Audio signal multi-channel parameter encoder
TWI557727B (zh) 2013-04-05 2016-11-11 杜比國際公司 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品
GB2515089A (en) 2013-06-14 2014-12-17 Nokia Corp Audio Processing
CN104681029B (zh) 2013-11-29 2018-06-05 华为技术有限公司 立体声相位参数的编码方法及装置
US10217468B2 (en) 2017-01-19 2019-02-26 Qualcomm Incorporated Coding of multiple audio signals

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009038512A1 (en) * 2007-09-19 2009-03-26 Telefonaktiebolaget Lm Ericsson (Publ) Joint enhancement of multi-channel audio
CN101925950A (zh) * 2008-01-04 2010-12-22 杜比国际公司 音频编码器和解码器
CN102272829A (zh) * 2008-12-29 2011-12-07 摩托罗拉移动公司 用于在多声道音频编码系统内生成增强层的方法和装置
CN103098126A (zh) * 2010-04-09 2013-05-08 弗兰霍菲尔运输应用研究公司 音频编码器、音频解码器及利用复预测处理多信道音频信号的相关方法
CN103403800A (zh) * 2011-02-02 2013-11-20 瑞典爱立信有限公司 确定多声道音频信号的声道间时间差
EP2544466A1 (en) * 2011-07-05 2013-01-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral subtractor
WO2015010926A1 (en) * 2013-07-22 2015-01-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
WO2015054492A1 (en) * 2013-10-11 2015-04-16 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal

Also Published As

Publication number Publication date
US20180204578A1 (en) 2018-07-19
WO2018136166A1 (en) 2018-07-26
KR20190103191A (ko) 2019-09-04
KR102263550B1 (ko) 2021-06-09
AU2017394680B2 (en) 2021-09-02
CN116564320A (zh) 2023-08-08
TW201828284A (zh) 2018-08-01
US10593341B2 (en) 2020-03-17
US10217468B2 (en) 2019-02-26
US20190378523A1 (en) 2019-12-12
TWI800496B (zh) 2023-05-01
CN110168637A (zh) 2019-08-23
EP3571694B1 (en) 2020-10-14
EP3571694A1 (en) 2019-11-27
SG11201904752QA (en) 2019-08-27
ES2843903T3 (es) 2021-07-20
US10438598B2 (en) 2019-10-08
AU2017394680A1 (en) 2019-06-20
BR112019014541A2 (pt) 2020-02-27
US20190147895A1 (en) 2019-05-16

Similar Documents

Publication Publication Date Title
US9978381B2 (en) Encoding of multiple audio signals
US10593341B2 (en) Coding of multiple audio signals
US10885922B2 (en) Time-domain inter-channel prediction
CN116504255A (zh) 多个音频信号的解码
CN110800051B (zh) 具有时域信道间带宽延展的高频带残值预测
CN110447072B (zh) 声道间带宽扩展
KR102581558B1 (ko) 채널간 위상차 파라미터 수정

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40008787

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant