[go: up one dir, main page]

CN102157149B - 立体声信号下混方法、编解码装置和编解码系统 - Google Patents

立体声信号下混方法、编解码装置和编解码系统 Download PDF

Info

Publication number
CN102157149B
CN102157149B CN2010101106537A CN201010110653A CN102157149B CN 102157149 B CN102157149 B CN 102157149B CN 2010101106537 A CN2010101106537 A CN 2010101106537A CN 201010110653 A CN201010110653 A CN 201010110653A CN 102157149 B CN102157149 B CN 102157149B
Authority
CN
China
Prior art keywords
frequency domain
sound channel
channel signal
domain sound
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2010101106537A
Other languages
English (en)
Other versions
CN102157149A (zh
Inventor
苗磊
吴文海
郎玥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN2010101106537A priority Critical patent/CN102157149B/zh
Priority to PCT/CN2010/080380 priority patent/WO2011097929A1/zh
Publication of CN102157149A publication Critical patent/CN102157149A/zh
Application granted granted Critical
Publication of CN102157149B publication Critical patent/CN102157149B/zh
Priority to US13/584,579 priority patent/US9319818B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

公开了立体声信号下混方法、编解码装置和编解码系统。其中下混方法包括:将第一路时域声道信号和第二路时域声道信号转换为第一路频域声道信号和第二路频域声道信号,获得上述两路频域声道信号的频域声道信号电平差和频域声道信号相位差;针对各频带中的各频率点,利用基于上述电平差和相位差的函数计算获得相位位于两路频域声道信号相位之间的下混信号相位,并计算获得下混信号幅度;根据上述相位和幅度获得频域下混信号。上述技术方案可以避免在左右两路声道信号完全反相且幅度相同的情况下,解码端无法恢复出左右两路声道信号的现象;而且,还可以改善下混信号的能量缺失的现象,同时,获得的下混信号能够充分反映立体声信号的声场特点。

Description

立体声信号下混方法、编解码装置和编解码系统
技术领域
本发明涉及音频编解码技术领域,具体涉及立体声信号下混技术。
背景技术
在立体声编码技术中,通常需要将左L和右R两路声道信号下混(downmix),获得单声道M信号,并将M信号和作为边带信号的左右声道的声场信息传输至解码端。上述左右声道的声场信息如左右声道信号电平差以及左右声道信号相位差等。左右声道信号电平差具体可以为ICLD(InterChannelLevel Difference,立体声声道间电平差)或CLD(Channel Level Difference,声道间电平差)等。左右声道信号相位差具体可以为IPD(Interchannel PhaseDifference,立体声声道相位差)等。
目前的立体声信号下混方法主要包括如下两种:
方法一:利用m(n)=0.5·(x1(n)+x2(n))来获得单声道信号m(n),其中的n为时间索引,x1(n)和x2(n)分别为时间索引为n时的左右两路时域声道信号,0.5为下混因子,该下混因子也可以采用其它数值。
方法二:将左右两路声道信号进行时频变换,在频域调整声道信号的幅度和/或相位,利用调整后的声道信号进行下混获得频域单声道信号,并将频域单声道信号转换为时域单声道信号。上述调整声道信号的相位即以一路声道信号的相位为基准,旋转另一路声道信号的相位,使两路声道信号的相位相同。
在实现本发明的过程中,发明人发现:在方法一中,当左右两路声道信号完全反相且幅度相同时,获得的下混信号为0,从而解码端无法恢复出左右两路声道信号;另外,在左右两路声道信号不完全反相的情况下,获得的下混信号会出现能量缺失现象。在方法二中,如果在频域只调整声道信号的幅度而不进行相位调整,则仍然会存在下混信号为0以及能量缺失的现象;如果在频域进行了声道信号相位的调整,则在基准声道信号为噪声的情况下,会出现另一路声道信号基本上被噪声掩盖的现象,而且,在基准声道信号相位变化大的情况下,下混信号相位会出现较大的跳变。
发明内容
本发明实施方式提供的立体声信号下混方法、编解码装置和编解码系统,可以避免在左右两路声道信号完全反相且幅度相同的情况下,解码端无法恢复出左右两路声道信号的现象;而且,可以避免下混信号的能量缺失现象;另外本发明实施例获得的下混信号能够充分反映立体声信号的声场特点。
本发明实施方式提供的立体声信号下混方法,包括:
将立体声信号中的第一路时域声道信号和第二路时域声道信号转换为第一路频域声道信号和第二路频域声道信号;
获得所述第一路频域声道信号和第二路频域声道信号的频域声道信号电平差和频域声道信号相位差;
针对各频带中的各频率点,利用基于所述频域声道信号电平差和频域声道信号相位差的函数计算获得相位位于第一路频域声道信号相位和第二路频域声道信号相位之间的下混信号相位;
针对各频带中的各频率点,计算获得下混信号幅度;
根据所述下混信号相位和所述下混信号幅度获得频域下混信号。
本发明实施方式提供的获得立体声信号的方法,包括:
获取解码后的频域下混信号、每个频带的频域声道信号电平差和每个频带的频域声道信号相位差;
根据所述频域下混信号、基于所述频域声道信号电平差和频域声道信号相位差的函数、所述频域声道信号电平差和所述频域声道信号相位差获得第一路和第二路频域声道信号幅度和相位;
根据所述第一路和第二路频域声道信号幅度和相位合成第一路频域声道信号和第二路频域声道信号;
将所述第一路频域声道信号和第二路频域声道信号转换为第一路时域声道信号和第二路时域声道信号。
本发明实施方式提供的编码装置,包括:
时频变换模块,用于将立体声第一路时域声道信号和第二路时域声道信号转换为第一路频域声道信号和第二路频域声道信号;
第一获取模块,用于获得所述第一路频域声道信号和第二路频域声道信号的频域声道信号电平差和频域声道信号相位差;
第二获取模块,用于针对各频带中的各频率点,利用基于所述频域声道信号电平差和频域声道信号相位差的函数计算获得相位位于第一路频域声道信号相位和第二路频域声道信号相位之间的下混信号相位;
第三获取模块,用于针对各频带中的各频率点,计算获得下混信号幅度;
下混模块,用于根据所述下混信号相位和所述下混信号幅度获得频域下混信号。
本发明实施方式提供的解码装置,包括:
第四获取模块,用于获取解码后的频域下混信号、每个频带的频域声道信号电平差和每个频带的频域声道信号相位差;
重建模块,用于根据所述频域下混信号、基于所述频域声道信号电平差和频域声道信号相位差的函数、所述频域声道信号电平差和所述频域声道信号相位差获得第一路和第二路频域声道信号幅度和相位;
合成模块,用于根据所述第一路和第二路频域声道信号幅度和相位合成第一路频域声道信号和第二路频域声道信号;
频时变换模块,用于将所述第一路频域声道信号和第二路频域声道信号转换为第一路时域声道信号和第二路时域声道信号。
本发明实施方式提供的编解码系统,包括:
编码装置,用于将立体声第一路时域声道信号和第二路时域声道信号转换为第一路频域声道信号和第二路频域声道信号,获得所述第一路频域声道信号和第二路频域声道信号的频域声道信号电平差和频域声道信号相位差,针对各频带中的各频率点,利用基于所述频域声道信号电平差和频域声道信号相位差的函数计算获得相位位于第一路频域声道信号相位和第二路频域声道信号相位之间的下混信号相位;针对各频带中的各频率点,计算获得下混信号幅度;根据所述下混信号相位和所述下混信号幅度获得频域下混信号;对所述频域下混信号进行编码或者将所述频域下混信号转换为时域下混信号并对所述时域下混信号进行编码获得下混单声道信号;对每个频带的频域声道信号电平差和频域声道信号相位差进行量化编码,发送所述下混单声道信号和所述量化编码;
解码装置,用于根据接收的所述下混单声道信号获取解码后的频域下混信号,根据接收的所述量化编码获取每个频带的频域声道信号电平差和每个频带的频域声道信号相位差,根据所述频域下混信号、所述函数、所述频域声道信号电平差和所述频域声道信号相位差获得第一路和第二路频域声道信号幅度和相位,根据所述第一路和第二路频域声道信号幅度和相位合成第一路频域声道信号和第二路频域声道信号;将所述第一路频域声道信号和第二路频域声道信号转换为第一路时域声道信号和第二路时域声道信号。
通过上述技术方案的描述可知,通过利用基于频域声道信号电平差和频域声道信号相位差的函数使下混信号相位位于第一路频域声道信号相位和第二路频域声道信号相位之间,避免了在左右两路声道信号完全反相且幅度相同的情况下,下混信号为0的现象,从而避免了解码端无法恢复出左右两路声道信号的现象,而且,还可以避免下混信号的能量缺失现象;由于下混信号位于第一路频域声道信号相位和第二路频域声道信号相位之间,因此,本发明实施例获得的下混信号能够充分反映立体声信号的声场特点,最终提高了立体声编解码的主观质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A是本发明实施例一的立体声信号下混方法框图;
图1B是本发明实施例一的下混信号相位和左右声道信号相位关系示意图;
图1C是本发明实施例一的编码端对下混信号进行编码的框图;
图2是本发明实施例二的获得立体声信号的方法框图;
图3A是本发明实施例三的立体声信号下混方法框图;
图3B是本发明实施例三的下混信号相位和左右声道信号相位关系示意图;
图4是本发明实施例五的立体声信号下混方法框图;
图5是本发明实施例七的编码装置示意图;
图6是本发明实施例八的解码装置示意图;
图7是本发明实施例九的编解码系统示意图。
具体实施方式
下面通过实施例对本发明的具体实现过程进行例举说明。显然,下面所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一、立体声信号下混方法。下面结合附图1A、附图1B和附图1C,以左声道信号为第一路声道信号,右声道信号为第二路声道信号为例对本实施例进行说明。明显的,以右声道信号为第一路声道信号,以左声道信号为第二路声道信号的情况,本实施例也是可以完全可行的。实施例一的实现框图如附图1A所示。
在图1A中,S100、在编码端,对接收到的立体声时域左声道信号和时域右声道信号分别进行时频变换,这样,时域左声道信号被变换为频域左声道信号,时域右声道信号被变换为频域右声道信号。本实施例可以采用FFT(Fast FourierTransform,快速傅立叶变换)或者QMF(Quadrature Mirror Filter,正交镜像滤波器)等方式进行立体声信号的时频变换。本实施例不限制对时域左声道信号和时域右声道信号进行时频变换的具体实现过程。
S110、获得频域左声道信号和频域右声道信号的频域声道信号电平差和频域声道信号相位差。
本实施例中的频域左声道信号和频域右声道信号均被划分为若干个频带(频域左声道信号和频域右声道信号的频带划分相同),频带宽度可以根据实际应用来设置,如频带宽度可以设置为1(即一个频率点表示一个频带),再如针对高频信号频带宽度可以设置的宽一些,而针对低频信号频带宽度可以设置的窄一些等。如果使用k表示频率点索引且使用b表示频带索引,则X1(k)表示频域左声道信号,X2(k)表示频域右声道信号,kb表示第b个频带的起始频率点索引。
在本实施例中,获得频域左声道信号和频域右声道信号的频域声道信号电平差和频域声道信号相位差为获得频域左声道信号和频域右声道信号的基于频带或频率点的频域声道信号电平差和频域声道信号相位差。获取频域声道信号电平差和频域声道信号相位差的方式可以包括多种,例如、获取各频带的频域声道信号电平差和各频带的频域声道信号相位差;再例如、获取各频带中各频率点的频域声道信号电平差和各频带中各频率点的频域声道信号相位差;再例如,针对部分频带(如对立体声参数较敏感的声道信号所在的频带),获取频带的频域声道信号电平差和频带的频域声道信号相位差,针对另一部分频带(如对立体声参数较不敏感的声道信号所在的频带),获取频带中各频率点的频域声道信号电平差和频带中各频率点的频域声道信号相位差。一个具体例子为:如果一个频带中的声道信号为低频信号,则可以获取该频带的频域声道信号电平差和频域声道信号相位差,如果一个频带中的声道信号为高频信号,则可以获取该频带中的各频率点的频域声道信号电平差和频域声道信号相位差。利用频率点的频域声道信号电平差和频域声道信号相位差来获得下混信号相位能够更加准确的反映出立体声信号的声场特点。
上述每个频带的声道信号电平差可以根据每个频带的频域左声道信号能量与频域右声道信号能量的比值获得,上述每个频率点的声道信号电平差可以根据每个频率点的频域左声道信号能量与频域右声道信号能量的比值获得。上述每个频带的频域声道信号相位差可以利用每个频带的频域左声道信号与频域右声道信号的互相关相位来表示,上述每个频率点的频域声道信号相位差可以利用每个频率点的频域左声道信号与频域右声道信号的互相关相位来表示,当然,也可以采用其它方式来表示每个频带或每个频率点的频域声道信号相位差,本实施例不限制每个频带或每个频率点的频域声道信号相位差的具体表示方式。
获取每个频带的频域声道信号电平差和频域声道信号相位差的一个具体的例子为:
CLD ( b ) = 10 lo g 10 Σ k = k b k b + 1 - 1 X 1 ( k ) X 1 * ( k ) Σ k = k b k b + 1 - 1 X 2 ( k ) X 2 * ( k ) ; 公式(1)
其中,CLD(b)为频带索引b的声道信号电平差,k表示频率点索引,b表示频带索引,X1(k)表示频域左声道信号,X2(k)表示频域右声道信号,X1 *(k)表示频域左声道信号的共轭信号,X2 *(k)表示频域右声道信号的共轭信号。
IPD(b)=∠cor(b),且 cor ( b ) = Σ k = k b k = k b + 1 - 1 X 1 ( k ) * X 2 * ( k ) 公式(2)
其中,IPD(b)为频带索引b的频域左声道信号和频域右声道信号间的相位差,k表示频率点索引,b表示频带索引,X1(k)表示频域左声道信号,X2(k)表示频域右声道信号,X2 *(k)为频域右声道信号的共轭信号。
通过上述公式(1)可以获得每个频带的频域声道信号电平差,通过上述公式(2)可以获得每个频带的声道信号相位差,本实施例不限制获取每个频带的声道信号电平差和声道信号相位差的具体实现过程。另外,如果一个频带的宽度为1,则利用上述公式(1)可以获得该频带中的每个频率点的频域声道信号电平差,利用上述公式(2)可以获得该频带中的每个频率点的频域声道信号相位差。
S120、针对各频带中的各频率点,利用基于频域声道信号电平差和频域声道信号相位差的函数计算获得相位位于频域左声道信号相位和频域右声道信号相位之间的下混信号相位。针对各频带中的各频率点,计算获得下混信号幅度。本实施例不限制获得下混信号相位和下混信号幅度的先后顺序。在获得了下混信号相位和下混信号幅度之后,根据下混信号相位和下混信号幅度获得频域下混信号。需要特别说明的是,针对一个频率点来说,如果S110中获得了该频率点的频域声道信号电平差和频域声道信号相位差,则可以利用基于该频率点的频域声道信号电平差和频域声道信号相位差的函数计算获得该频率点的下混信号相位;如果S110中获得了该频率点所在频带的频域声道信号电平差和频域声道信号相位差,则可以利用基于该频率点所在频带的频域声道信号电平差和频域声道信号相位差的函数计算获得该频率点的下混信号相位。
本实施例通过函数计算获得的下混信号相位位于频域左声道信号相位和频域右声道信号相位之间,在频域左声道信号相位与频域右声道信号相位不重合的情况下,本实施例获得的下混信号相位通常既不与频域左声道信号相位重合,也不与频域右声道信号相位重合,在某些极端的情况下,可能会出现重合,如在频域左声道信号能量远远高于右声道信号能量时,下混信号相位可能与左声道信号相位非常接近,此时,由于量化等原因,编码端确定出下混信号相位可能是左声道信号相位。一种优选的方式包括:通过函数计算获得的下混信号相位偏向于能量高的一路声道信号相位。即该函数使下混信号相位与能量高的一路频域声道信号相位的夹角小于下混信号相位与能量低的一路频域声道信号相位的夹角。也就是说,如果一个频率点上的频域左声道信号能量高于频域右声道信号能量,则在该频率点上,该函数可以使下混信号相位与频域左声道信号相位的夹角小于下混信号相位与频域右声道信号相位的夹角;如果一个频率点上的频域右声道信号能量高于频域左声道信号能量,则在该频率点上,该函数可以使下混信号相位与频域右声道信号相位的夹角小于下混信号相位与频域左声道信号相位的夹角。另外,下混信号相位最好位于频域左声道信号相位与频域右声道信号相位之间的较小夹角中,也就是说,频域左声道信号相位与频域右声道信号相位组成了两个夹角,这两个夹角之和为360度,在频域左声道信号与频域右声道信号完全反向的情况下,两个夹角均为180度,除了完全反向和完成重合的情况外,两个夹角中的一个夹角的度数应小于另一个夹角的度数,下混信号相位最好位于较小度数的夹角中。
上述函数的一个具体的例子为:
∠ X 1 ( k ) - 1 1 + c ( b ) · IPD ( b ) ; 公式(3)
公式(3)为第一函数,∠X1(k)表示频率点索引为k的频域左声道信号相位,上述c(b)表示频带索引b的频域声道信号能量比,c(b)=10CLD(b)/10,CLD(b)为频率点索引k所在频带的频带索引b的频域声道信号电平差,CLD(b)可以通过上述公式(1)获得,
Figure GSA00000016255000082
可以称为函数中的频带索引b的频域声道信号能量比系数,IPD(b)为频率点索引k所在频带的频带索引b的频域左声道信号和频域右声道信号间的相位差,IPD(b)可以通过上述公式(2)获得。
通过上述公式(3)可以计算获得各频带中各频率点的下混信号相位。上述公式(3)仅仅是一种例举而已,本实施例不限制基于频域声道信号电平差和频域声道信号相位差的函数的具体表现形式,只要该函数能够使下混信号相位位于频域左声道信号相位和频域右声道信号相位之间即可。
如果频率点索引k的下混信号用M(k)来表示,则下混信号M(k)相位为:
∠ M ( k ) = ∠ X 1 ( k ) - 1 1 + c ( b ) · IPD ( b ) 公式(4)
在上述公式(4)中,∠M(k)为频率点索引k的下混信号相位,IPD(b)的取值范围为(-pi,pi]。
针对各频带中的各频率点,可以通过下述公式(5)获取下混信号幅度:
| M ( k ) | = | X 1 ( k ) | · | X 1 ( k ) | + | X 2 ( k ) | · | X 2 ( k ) | 或|M(k)|=(|X1(k)|+|X2(k)|)/2;公式(5)
在上述公式(5)中,|M(k)|为频率点索引k的下混信号M(k)的幅度,|X1(k)|为频率点索引k的频域左声道信号幅度,|X2(k)|为频率点索引k的频域右声道信号幅度。
上述公式(5)仅仅是一种例举而已,本实施例可以采用现有的多种方法来获取下混信号幅度,本实施例不限制获取下混信号幅度的具体实现方式。
在利用上述例举的方式获得了下混信号相位和幅度后,可以通过下述公式(6)获得频域下混信号:
M(k)=|M(k)|·ej∠M(k)           公式(6)
在公式(6)中,M(k)为频率点索引k的下混信号,ej∠M(k)表示cos(∠X′1(k))+j·sin(∠X′1(k)),j表示复数。
频域左声道信号相位、频域右声道信号相位、以及通过基于频域声道信号电平差和频域声道信号相位差的函数计算获得的下混信号相位的一个具体例子如附图1B所示。
图1B中,R表示频域右声道信号,L表示频域左声道信号,M表示下混信号,R、L和M的长度表示信号幅度,夹角IPD即上述描述中的较小夹角。由于(a)、(b)和(c)中的R的长度比L的长度长,因此,(a)、(b)和(c)中的频域右声道信号能量均高于频域左声道信号能量。由于(a)、(b)和(c)中的频域右声道信号能量均高于频域左声道信号能量,因此,(a)、(b)和(c)中的下混信号相位偏向于右声道信号相位。另外,在(c)中,虽然频域右声道信号和频域左声道信号反相,但是,下混信号能量并没有出现能量抵消的情况。还有,虽然(a)、(b)和(c)中的频域左声道信号与频域右声道信号的相位差变换较大,但是,由于下混信号相位会受左右声道信号能量比系数的调整,因此,(a)、(b)和(c)中下混信号相位较为连续,从而不会产生较大的噪声。需要说明的是,(a)、(b)和(c)中下混信号幅度只是一种示意而已,下混信号幅度会随幅度计算公式的不同而有所不同。
S130、对频域下混信号进行频时变换,获得时域下混信号,时域下混信号即下混单声道信号。
需要说明的是,在编码端支持对频域信号编码的情况下,本实施例可以不包括S130,即S120获得的频域下混信号为下混单声道信号。
编码端对时域下混信号或者频域下混信号进行编码的一个具体例子如附图1C所示。
在图1C中,在单声道编码器支持时域信号编码的情况下,上述S130获得的时域下混信号(即下混单声道信号)传输至单声道编码器。这里的单声道编码器可以为符合ITU-T(国际电信联盟-电信标准化部门)G.711.1或者ITU-TG.722标准规定的编码器等。单声道编码器对接收到的时域下混信号进行编码,并输出下混单声道比特流。在单声道编码器支持频域信号编码的情况下,上述S120获得的频域下混信号(即下混单声道信号)传输至单声道编码器,单声道编码器对接收到的频域下混信号进行编码,并输出下混单声道比特流。
在图1C中,左右声道的声场信息(即立体声参数)如左右声道信号电平差CLD和左右声道信号相位差IPD等被传输至量化器,量化器对立体声参数进行量化编码,并输出立体声参数比特流。由于对CLD和IPD等立体声参数进行了量化处理,因此,可以保证解码端采用的立体声参数与编码端发送的立体声参数相同。这里的左右声道信号电平差可以是各频带的左右声道信号电平差,也可以是各频带统一对应的一个左右声道信号电平差,同样的,这里的左右声道信号相位差可以是各频带的左右声道信号相位差,也可以是各频带统一对应的一个左右声道信号相位差(如群相位θg等)。
编码端向解码端发送各频带的左右声道信号电平差和各频带的左右声道信号相位差或者编码端向解码端发送各频带的左右声道信号电平差和群相位的方法可以适用于高码率的应用环境中;编码端向解码端发送各频带统一对应的一个左右声道信号电平差和群相位的方法可以适用于低码率的应用环境中。
实施例一通过利用第一函数使下混信号相位位于第一路频域声道信号相位和第二路频域声道信号相位之间,避免了在左右两路声道信号完全反相且幅度相同的情况下,下混信号为0的现象,从而避免了解码端无法恢复出左右两路声道信号的现象,而且,还可以避免下混信号的能量缺失现象;由于下混信号位于第一路频域声道信号相位和第二路频域声道信号相位之间,因此,实施例一获得的下混信号能够充分反映立体声信号的声场特点,最终提高了立体声编解码的主观质量。
实施例二、获得立体声信号的方法。该实施例是与上述实施例一对应的解码端获得立体声信号的方法。该方法框图如附图2所示。
图2中,S200、编码端发送的下混单声道比特流被传输至单声道解码器,如果编码端对时域下混信号进行编码,则单声道解码器对接收到的比特流进行解码处理后,输出时域下混信号。如果编码端对频域下混信号进行编码,则单声道解码器对接收到的比特流进行解码处理后,输出频域下混信号。编码端发送的立体声参数比特流被传输至解量化器,解量化器对接收到的比特流进行解量化处理后,输出左右声道的声场信息(即立体声参数),如各频带的左右声道信号电平差和各频带的左右声道信号相位差等,再如,各频带统一对应的一个左右声道信号电平差和各频带统一对应的一个左右声道信号相位差等。
S210、对时域下混信号进行时频变换处理,获得频域下混信号M′(k)。需要说明的是,如果编码端是对频域下混信号进行编码,则不需要执行S210。
S220、利用左右声道信号电平差获得频域左右声道信号幅度,利用左右声道信号电平差和左右声道信号相位差获得频域左右声道信号相位。需要说明的是,如果解量化处理后获得的是各频带的左右声道信号电平差和各频带的左右声道信号相位差,则针对一个频带的时域下混信号来说,应该利用该频带的左右声道信号电平差获得频域左右声道信号幅度,并利用该频带的左右声道信号电平差和该频带的左右声道信号相位差获得频域左右声道信号相位。如果解量化处理后获得的是各频带统一对应的一个左右声道信号电平差和各频带统一对应的一个左右声道信号相位差,则针对所有频带的时域下混信号来说,应该利用同一个左右声道信号电平差获得频域左右声道信号幅度,并利用同一个左右声道信号电平差和同一个左右声道信号相位差获得频域左右声道信号相位。解量化处理后获得各频带的左右声道信号电平差和各频带统一对应的一个左右声道信号相位差、以及解量化处理后获得各频带统一对应的一个左右声道信号电平差和各频带的一个左右声道信号相位差等情况,可以参照上述描述的方式获得频域左右声道信号幅度和频域左右声道信号相位,在此不再详细说明。
解码端获得频域左右声道信号幅度的一个具体例子如下述公式(7)和公式(8)所示:
| X 1 ′ ( k ) | = | M ′ ( k ) | · c ( b ) 1 + c ( b ) 公式(7)
| X 2 ′ ( k ) | = | M ′ ( k ) | · 1 1 + c ( b ) 公式(8)
在上述公式(7)和公式(8)中,|X′1(k)|表示频域左声道信号幅度,|X′2(k)|表示频域右声道信号幅度,|M′(k)|表示频域下混信号幅度,c(b)表示频带索引b的频域声道信号能量比,c(b)=10CLD(b)/10,CLD(b)为频率点索引k所在频带的频带索引b的声道信号电平差,
Figure GSA00000016255000113
可以称为频带索引b的频域声道信号能量比系数。
解码端获得频域左右声道信号相位的一个具体例子如下述公式(9)和公式(10)所示:
∠ X 1 ′ ( k ) = ∠ M ′ ( k ) + 1 1 + c ( b ) · IPD ( b ) 公式(9)
∠ X 2 ′ ( k ) = ∠ M ′ ( k ) + c ( b ) 1 + c ( b ) · IPD ( b ) 公式(10)
在公式(9)和公式(10)中,∠X′1(k)表示频域左声道信号相位,M′(k)表示解码后获得的频域下混信号,∠M′(k)表示频域下混信号相位,c(b)=10CLD(b)/10,CLD(b)为频率点索引k所在频带的频带索引b的声道信号电平差,IPD(b)表示频率点索引k所在频带的频带索引b的频域左声道信号和频域右声道信号间的相位差,∠X′2(k)表示频域右声道信号相位,IPD(b)的取值范围为(-pi,pi]。
S230、合成频域左右声道信号。合成频域左右声道信号的一个具体例子如下述公式所示:
X 1 ′ ( k ) = | X 1 ′ ( k ) | · e j ∠ X 1 ′ ( k ) 公式(11)
X 2 ′ ( k ) = | X 2 ′ ( k ) | · e j ∠ X 2 ′ ( k ) 公式(12)
在公式(11)和公式(12)中,X′1(k)表示解码端合成获得的频域左声道信号,|X′1(k)|表示频域左声道信号幅度,
Figure GSA00000016255000123
表示cos(∠X′1(k))+j·sin(∠X′1(k)),∠X′1(k)表示频域左声道信号相位,X′2(k)表示解码端合成获得的频域右声道信号,|X′2(k)|表示频域右声道信号幅度,∠X′2(k)表示频域右声道信号相位。
S240、将合成的频域左右声道信号进行频时变换,获得时域左右声道信号,时域左声道信号即解码端最终获得的左声道解码信号,时域右声道信号即解码端最终获得的右声道解码信号。
需要说明的是,本实施例中的编码端和解码端最好使用相同的左右声道信号电平差和左右声道信号相位差。当然,编码端和解码端也可以使用不同的左右声道信号电平差和左右声道信号相位差,一个具体的例子为:对于低频信号,编码端和解码端可以使用相同的左右声道信号电平差和左右声道信号相位差,而对于高频信号,编码端和解码端可以使用不同的左右声道信号电平差和左右声道信号相位差,例如,对于高频信号,编码端使用未经量化处理的左右声道信号电平差,对于低频信号,编码端使用经过量化处理的左右声道信号电平差,而在解码端统一使用解量化后的左右声道信号电平差;再例如,在低码率时,编码端可以使用各频带的左右声道信号相位差,而在解码端可以使用群相位θg作为每个频带的左右声道信号相位差。
在实施例二中,由于编码端获得的下混信号相位位于第一路频域声道信号相位和第二路频域声道信号相位之间,因此,解码端在解码过程中不会出现由于下混信号为0而无法恢复出左右两路声道信号的现象,而且,由于编码端避免了下混信号的能量缺失现象,因此,解码端获得的时域左声道信号和时域右声道信号更接近于编码端的时域左声道信号和时域右声道信号,从而提升了立体声信号的性能。
实施例三、立体声信号下混方法。下面结合附图3A和附图2B,以左声道信号为第一路声道信号,右声道信号为第二路声道信号为例对本实施例进行说明。明显的,以右声道信号为第一路声道信号,以左声道信号为第二路声道信号的情况,本实施例也是可以完全可行的。实施例三的实现框图如附图3A所示。
图3A中,S300、在编码端,对接收的立体声时域左声道信号和时域右声道信号分别进行时频变换,这样,时域左声道信号被变换为频域左声道信号,时域右声道信号被变换为频域右声道信号。本实施例可以采用FFT或者QMF等方式进行立体声信号的时频变换。
S310、获得频域左声道信号和频域右声道信号的频域声道信号电平差、频域声道信号相位差和群相位θg
本实施例中的频域左声道信号和频域右声道信号可以均被划分为若干个频带,频带宽度可以根据实际应用来设置,如频带宽带设置为1,再如针对高频信号频带宽度可以设置的宽一些,而针对低频信号频带宽度可以设置的窄一些等。如果使用k表示频率点索引且b表示频带索引,则X1(k)表示频域左声道信号,X2(k)表示频域右声道信号,kb表示第b个频带的起始频率点索引。在本实施例中,获取频域声道信号电平差和频域声道信号相位差的方式同样可以包括多种,具体如上述实施例一中的描述,在此不再重复说明。
在本实施例中,获得频域声道信号电平差和频域声道信号相位差为获得频域左声道信号和频域右声道信号的基于频带或频率点的频域声道信号电平差和频域声道信号相位差。获得频域声道信号电平差和频域声道信号相位差的方式可以包括多种,例如、获取各频带的频域声道信号电平差和各频带的频域声道信号相位差;再例如、获取各频带中各频率点的频域声道信号电平差和各频带中各频率点的频域声道信号相位差;再例如,针对部分频带,获取频带的频域声道信号电平差和频带的频域声道信号相位差,针对另一部分频带,获取频带中各频率点的频域声道信号电平差和频带中各频率点的频域声道信号相位差。一个具体例子为:如果一个频带中的声道信号为低频信号,则可以获取该频带的频域声道信号电平差和频域声道信号相位差,如果一个频带中的声道信号为高频信号,则可以获取该频带中的各频率点的频域声道信号电平差和频域声道信号相位差。利用频率点的频域声道信号电平差和频域声道信号相位差来获得下混信号相位能够更加准确的反映出立体声信号的声场特点。
上述每个频带的频域声道信号电平差可以根据每个频带的频域左声道信号能量与右声道信号能量的比值获得,上述每个频率点的声道信号电平差可以根据每个频率点的频域左声道信号能量与频域右声道信号能量的比值获得。每个频带的频域声道信号相位差可以利用每个频带的频域左声道信号与频域右声道信号的互相关相位来表示,每个频率点的频域声道信号相位差可以利用每个频率点的频域左声道信号与频域右声道信号的互相关相位来表示,当然,也可以采用其它方式来表示每个频带或每个频率点的频域声道信号相位差,本实施例不限制每个频带或每个频率点的频域声道信号相位差的具体表示方式。上述群相位(group phase)θg可以是各频带的声道信号相位的平均值。
获取每个频带或每个频率点的频域声道信号电平差和频域声道信号相位差的具体例子如上述实施例一中的描述,在此不再重复说明。
S320、针对各频带中的各频率点,利用基于频域声道信号电平差和频域声道信号相位差的函数计算获得相位位于频域左声道信号相位和频域右声道信号相位之间的下混信号相位。针对各频带中的各频率点,计算获取下混信号幅度。本实施例不限制获得下混信号相位和下混信号幅度的先后顺序。在获得了下混信号相位和下混信号幅度之后,根据下混信号相位和下混信号幅度获得频域下混信号。
本实施例中的函数为:利用频域左声道信号相位、群相位、频域左声道信号与频域右声道信号电平差以及频域左声道信号与频域右声道信号相位差构建的第二函数。通过第二函数计算获得的下混信号相位位于频域左声道信号相位和频域右声道信号相位之间,在频域左声道信号相位与频域右声道信号相位不重合的情况下,本实施例获得的下混信号相位通常既不与频域左声道信号相位重合,也不与频域右声道信号相位重合。一种优选的方式包括:通过第二函数计算获得的下混信号相位偏向于能量高的一路频域声道信号相位。即第二函数使下混信号相位与能量高的一路频域声道信号相位的夹角小于下混信号相位与能量低的一路频域声道信号相位的夹角。也就是说,如果一个频率点上的频域左声道信号能量高于频域右声道信号能量,则在该频率点上,第二函数可以使下混信号相位与频域左声道信号相位的夹角小于下混信号相位与频域右声道信号相位的夹角;如果一个频率点上的频域右声道信号能量高于频域左声道信号能量,则在该频率点上,第二函数可以使下混信号相位与频域右声道信号相位的夹角小于下混信号相位与频域左声道信号相位的夹角。另外,下混信号相位最好位于频域左声道信号相位与频域右声道信号相位之间的较小夹角中,较小夹角如实施例一中的描述。
上述第二函数的一个具体的例子为:
∠ X 1 ( k ) - 1 1 + c ( b ) · ( IPD ( b ) - θ g ) ; 公式(13)
公式(13)中,∠X1(k)表示频率点索引为k的频域左声道信号相位,上述c(b)表示频带索引b的频域声道信号能量比,c(b)=10CLD(b)/10,CLD(b)为频率点索引k所在频带的频带索引b的频域声道信号电平差,CLD(b)可以通过上述公式(1)获得,
Figure GSA00000016255000151
可以称为函数中的频带索引b的频域声道信号能量比系数,IPD(b)为频率点索引k所在频带的频带索引b的频域左声道信号和频域右声道信号间的相位差,IPD(b)可以通过上述公式(2)获得。θg表示群相位。
通过上述公式(13)可以计算获得各频带的各频率点的下混信号相位。上述公式(13)仅仅是一种例举而已,本实施例不限制第二函数的具体表现形式,只要第二函数能够使下混信号相位位于频域左声道信号相位和频域右声道信号相位之间即可。
如果频率点索引k的下混信号用M(k)来表示,则下混信号M(k)相位为:
∠ M ( k ) = ∠ X 1 ( k ) - 1 1 + c ( b ) · ( IPD ( b ) - θ g ) 公式(14)
在上述公式(14)中,∠M(k)为频率点索引k的下混信号相位,(IPD(b)-θg)的取值范围可以为(-pi,pi]。
针对各频带中的各频率点,可以通过上述公式(5)获取下混信号幅度,在此不再详细说明。本实施例也可以采用除公式(5)之外的其它方法来获取下混信号幅度,本实施例不限制获取下混信号幅度的具体实现方式。
在利用上述例举的方式获得了下混信号相位和幅度后,可以通过上述公式(6)获得频域下混信号,在此不再详细说明。
频域左声道相位、频域右声道相位、以及通过第二函数计算获得的下混信号相位的一个例子如附图3B所示。
图3B中,R1和R2均为频域右声道信号相位,R1和R2可以表示出频域右声道信号的相位变化,L表示频域左声道信号相位,M1表示R1和L对应的下混信号相位,M2表示R2和L对应的下混信号相位。从图3B可以看出,在频域左右声道信号接近反相且跳变幅度大的情况下,通过包含有IPD和group phase的第二函数可以使下混信号相位统一偏向一个方向,如图3B中统一偏向L,从而可以在一定程度上避免下混信号相位跳变大而引入的噪声。图3B(a)是采用第一函数获得的下混信号相位,而图3B(b)是采用第二函数获得的下混信号相位。
S330、对频域下混信号进行频时变换,获得时域下混信号,时频下混信号即下混单声道信号。
需要说明的是,在编码端支持对频域信号编码的情况下,本实施例可以不包括S330,即S320获得的频域下混信号为下混单声道信号。
编码端对时域下混信号或者频域下混信号进行编码、以及对左右声道的声场信息进行量化编码的具体例子如上述实施例一中的描述,在此不再重复说明。另外,在本实施例中编码端需要将群相位量化编码并传输至解码端。
实施例三通过利用第二函数使下混信号相位位于第一路频域声道信号相位和第二路频域声道信号相位之间,避免了在左右两路声道信号完全反相且幅度相同的情况下,下混信号为0的现象,从而避免了解码端无法恢复出左右两路声道信号的现象,而且,还可以避免下混信号的能量缺失现象;由于下混信号位于第一路频域声道信号相位和第二路频域声道信号相位之间,因此,实施例一获得的下混信号能够充分反映立体声信号的声场特点,最终提高了立体声编解码的主观质量。
实施例三通过使用包含group phase的第二函数来获得频域下混信号相位,使下混信号相位统一偏向一个方向,从而减小了下混信号相位跳变的幅度,进一步提升了在左右声道信号反相且跳变程度大的情况下,立体声信号的性能。
实施例四、获得立体声信号的方法。该实施例是与上述实施例三对应的解码端获得立体声信号的方法。
在实施例四中,首先,编码端发送的下混单声道比特流被传输至单声道解码器,如果编码端对时域下混信号进行编码,则单声道解码器对接收到的比特流进行解码处理后,输出时域下混信号。如果编码端对频域下混信号进行编码,则单声道解码器对接收到的比特流进行解码处理后,输出频域下混信号。编码端发送的立体声参数比特流被传输至解量化器,解量化器对接收到的比特流进行解量化处理后,输出左右声道的声场信息(即立体声参数),如各频带的左右声道信号电平差、各频带的左右声道信号相位差和群相位等,再如,各频带统一对应的一个左右声道信号电平差、各频带统一对应的一个左右声道信号相位差和群相位等。
其次,对时域下混信号进行时频变换处理,获得频域下混信号M′(k)。需要说明的是,如果编码端是对频域下混信号进行编码,则不需要执行该时频变换处理。
再次,利用左右声道信号电平差获得频域左右声道信号幅度,利用左右声道信号电平差、左右声道信号相位差和θg获得频域左右声道信号相位。
获得频域左右声道信号幅度的过程如上述公式(7)和公式(8)所示。
获得频域左右声道信号相位的过程如下述公式(15)和公式(16)所示:
∠ X 1 ′ ( k ) = ∠ M ′ ( k ) + 1 1 + c ( b ) · ( IPD ( b ) - θ g ) ; 公式(15)
∠ X 2 ′ ( k ) = ∠ M ′ ( k ) + 1 1 + c ( b ) · ( IPD ( b ) - θ g ) - IPD ( b ) 公式(16)
在公式(15)和公式(16)中,∠X′1(k)表示频域左声道信号相位,M′(k)表示解码后获得的频域下混信号,∠M′(k)表示频域下混信号相位,c(b)=10CLD(b)/10,CLD(b)为频率点索引k所在频带的频带索引b的声道信号电平差,IPD(b)表示频率点索引k所在频带的频带索引b的频域左声道信号和频域右声道信号间的相位差,∠X′2(k)表示频域右声道信号相位,IPD(b)的取值范围为(-pi,pi],θg为群相位。
之后,合成频域左右声道信号。合成频域左右声道信号的过程可以如上述公式(11)和公式(12)所示,在此不再重复说明。
最后,将合成的频域左右声道信号进行频时变换,获得时域左右声道信号,时域左声道信号即解码端最终获得的左声道解码信号,时域右声道信号即解码端最终获得的右声道解码信号。
需要说明的是,本实施例中的编码端和解码端最好使用相同的左右声道信号电平差和左右声道信号相位差。当然,编码端和解码端也可以使用不同的左右声道信号电平差和左右声道信号相位差,具体如上述实施例一中的描述,在此不再重复说明。另外,在低码率的应用环境中,本实施例获得的频域左声道相位可以与下混信号相位相同,而频域右声道相位可以是下混信号相位与和群相位θg生成的IPD的差。
在实施例四中,由于编码端获得的下混信号相位位于第一路频域声道信号相位和第二路频域声道信号相位之间,因此,解码端在解码过程中不会出现由于下混信号为0而无法恢复出左右两路声道信号的现象,而且,由于编码端避免了下混信号的能量缺失现象,因此,解码端获得的时域左声道信号和时域右声道信号更接近于编码端的时域左声道信号和时域右声道信号。
实施例五、立体声信号下混方法。下面结合附图4,以左声道信号为第一路声道信号,右声道信号为第二路声道信号为例对本实施例进行说明。明显的,以右声道信号为第一路声道信号,以左声道信号为第二路声道信号的情况,本实施例也是可以完全可行的。实施例五的实现框图如附图4所示。
图4中,S400、在编码端,对接收到的立体声时域左声道信号和时域右声道信号分别进行时频变换,这样,时域左声道信号被变换为频域左声道信号,时域右声道信号被变换为频域右声道信号。本实施例可以采用FFT或者QMF等方式进行立体声信号的时频变换。本实施例不限制对时域左声道信号和时域右声道信号进行时频变换的具体实现过程。
S410、获得频域左声道信号和频域右声道信号的频域声道信号电平差、声道信号相位差、群相位θg和群延时dg
本实施例中的频域左声道信号和频域右声道信号可以均被划分为若干个频带,频带宽度可以根据实际应用来设置,如频带宽度可以设置为1,再如针对高频信号频带宽度可以设置的宽一些,而针对低频信号频带宽度可以设置的窄一些。如果使用k表示频率点索引且使用b表示频带索引,则X1(k)表示频域左声道信号,X2(k)表示频域右声道信号,kb表示第b个频带的起始频率点索引。
在本实施例中,获得频域声道信号电平差和频域声道信号相位差为获得频域左声道信号和频域右声道信号的基于频带或频率点的频域声道信号电平差和频域声道信号相位差。获得频域声道信号电平差和频域声道信号相位差的方式可以包括多种,例如、获取各频带的频域声道信号电平差和各频带的频域声道信号相位差;再例如、获取各频带中各频率点的频域声道信号电平差和各频带中各频率点的频域声道信号相位差;再例如,针对部分频带,获取频带的频域声道信号电平差和频带的频域声道信号相位差,针对另一部分频带,获取频带中各频率点的频域声道信号电平差和频带中各频率点的频域声道信号相位差。一个具体例子为:如果一个频带中的声道信号为低频信号,则可以获取该频带的频域声道信号电平差和频域声道信号相位差,如果一个频带中的声道信号为高频信号,则可以获取该频带中的各频率点的频域声道信号电平差和频域声道信号相位差。利用频率点的频域声道信号电平差和频域声道信号相位差来获得下混信号相位能够更加准确的反映出立体声信号的声场特点。
上述每个频带的声道信号电平差可以根据每个频带的频域左声道信号能量与频域右声道信号能量的比值获得,上述每个频率点的声道信号电平差可以根据每个频率点的频域左声道信号能量与频域右声道信号能量的比值获得。上述每个频带的频域声道信号相位差可以利用每个频带的频域左声道信号与频域右声道信号的互相关相位来表示,上述每个频率点的频域声道信号相位差可以利用每个频率点的频域左声道信号与频域右声道信号的互相关相位来表示,当然,也可以采用其它方式来表示每个频带或每个频率点的频域声道信号相位差,本实施例不限制每个频带或每个频率点的频域声道信号相位差的具体表示方式。
上述群延时(group delay,dg)为频域左声道信号和频域右声道信号之间的时间差。群延时可以通过左右声道信号频域相位差计算获得,也可以通过左右声道信号时域相位差等现有多种方式计算获得,本实施例不限制群延时的具体获得过程。
获取每个频带的频域声道信号电平差和频域声道信号相位差的具体例子如上述实施例一中的描述,在此不再重复说明。
S420、针对各频带中的各频率点,利用第一函数或者第二函数计算获得相位位于频域左声道信号相位和频域右声道信号相位之间的下混信号相位。针对各频带中的各频率点,计算获取下混信号幅度。本实施例不限制获得下混信号相位和下混信号幅度的先后顺序。在获得了下混信号相位和下混信号幅度之后,根据下混信号相位和下混信号幅度获得频域下混信号。
上述第一函数的具体例子和第二函数的具体例子如上述实施例一和实施例三的描述,在此不再重复说明。
利用第一函数或者第二函数计算获得相位位于频域左声道信号相位和频域右声道信号相位之间的下混信号相位的一个具体例子为:
在dg=0时,利用第二函数计算获得的下混信号相位为:
∠ M ( k ) = ∠ X 1 ( k ) - 1 1 + c ( b ) · ( IPD ( b ) - θ g ) ;
否则,利用第一函数计算获得的下混信号相位为:
∠ M ( k ) = ∠ X 1 ( k ) - 1 1 + c ( b ) · IPD ( b ) .
针对各频带中的各频率点,可以通过上述公式(5)获取下混信号幅度,在此不再详细说明。本实施例也可以采用除公式(5)之外的其它方法来获取下混信号幅度,本实施例不限制获取下混信号幅度的具体实现方式。
在利用上述例举的方式获得了下混信号相位和下混信号幅度后,可以通过上述公式(6)获得频域下混信号,在此不再详细说明。
S430、对频域下混信号进行频时变换,获得时域下混信号,时频下混信号即下混单声道信号。
需要说明的是,在编码端支持对频域信号编码的情况下,本实施例可以不包括S430,即S420获得的频域下混信号为下混单声道信号。
上述实施例五,利用group delay即左右声道信号的时间差,通过对不同时间差采用不同的下混方法,可以使立体声信号的性能得到进一步提升。
实施例六、获得立体声信号的方法。该实施例是与上述实施例五对应的解码端获得立体声信号的方法。
在实施例六中,首先,编码端发送的下混单声道比特流被传输至单声道解码器,如果编码端对时域下混信号进行编码,则单声道解码器对接收到的比特流进行解码处理后,输出时域下混信号。如果编码端对频域下混信号进行编码,则单声道解码器对接收到的比特流进行解码处理后,输出频域下混信号。编码端发送的立体声参数比特流被传输至解量化器,解量化器对接收到的比特流进行解量化处理后,输出左右声道的声场信息(即立体声参数),如各频带的左右声道信号电平差、各频带的左右声道信号相位差、群相位和群延时等,再如,各频带统一对应的一个左右声道信号电平差、各频带统一对应的一个左右声道信号相位差、群相位和群延时等。
其次,对时域下混信号进行时频变换处理,获得频域下混信号M′(k)。需要说明的是,如果编码端是对频域下混信号进行编码,则不需要执行该时频变换处理。
再次,利用左右声道信号电平差获得频域左右声道信号幅度,利用左右声道信号电平差、左右声道信号相位差、θg和dg获得频域左右声道信号相位。
获得频域左右声道信号幅度的过程如上述公式(7)和公式(8)所示。
获得频域左右声道信号相位的过程如下述所示:
在dg=0时,频域左右声道信号相位为:
∠ X 1 ′ ( k ) = ∠ M ′ ( k ) + 1 1 + c ( b ) · ( IPD ( b ) - θ g ) ;
∠ X 2 ′ ( k ) = ∠ M ′ ( k ) + 1 1 + c ( b ) · ( IPD ( b ) - θ g ) - IPD ( b ) ;
在低速率应用环境下,由于可以不传输IPD(b),因此,频域左声道信号相位保持下混信号相位,而频域右声道信号相位是下混信号相位与群相位θg生成的IPD的差。
在dg不为零时,频域左右声道信号相位为:
∠ X 1 ′ ( k ) = ∠ M ′ ( k ) + 1 1 + c ( b ) · IPD ( b ) ;
∠ X 2 ′ ( k ) = ∠ M ′ ( k ) - c ( b ) 1 + c ( b ) · IPD ( b ) ;
这时,在低码率应用环境下,可以使用群延时dg和群相位θg生成的左右声道信号相位差来代替每个频带的左右声道信号相位差进行解码。
之后,合成频域左右声道信号。合成频域左右声道信号的过程可以如上述公式(11)和公式(12)所示,在此不再重复说明。
最后,将合成的频域左右声道信号进行频时变换,获得时域左右声道信号,时域左声道信号即解码端最终获得的左声道解码信号,时域右声道信号即解码端最终获得的右声道解码信号。
需要说明的是,本实施例中的编码端和解码端最好使用相同的左右声道信号电平差和左右声道信号相位差。当然,编码端和解码端也可以使用不同的左右声道信号电平差和左右声道信号相位差,具体如上述实施例一中的描述,在此不再重复说明。在低码率应用环境中,实施例六中的解码端可以将解码获得的群相位θg作为每个频带的左右声道信号相位差。
在实施例六中,由于编码端获得的下混信号相位位于第一路频域声道信号相位和第二路频域声道信号相位之间,因此,解码端在解码过程中不会出现由于下混信号为0而无法恢复出左右两路声道信号的现象,而且,由于编码端避免了下混信号的能量缺失现象,因此,解码端获得的时域左声道信号和时域右声道信号更接近于编码端的时域左声道信号和时域右声道信号。本实施例利用了群延时即左右声道信号的时间差,通过对不同时间差采用不同的获得立体声信号方法,可以使立体声信号的性能得到进一步提升。
实施例七、编码装置。下面结合附图5对本实施例进行说明。本实施例中的第一路声道信号可以为左声道信号,第二路声道信号可以为右声道信号。明显的,以右声道信号为第一路声道信号,以左声道信号为第二路声道信号的情况,本实施例也是可以完全可行的。该装置如附图5所示。
图5中的编码装置包括:时频变换模块500、第一获取模块510、第二获取模块520、第三获取模块530和下混模块540。可选的,该编码装置还包括:频域单声道编码器550;或者可选的,该编码装置还包括:频时变换模块560和时域单声道编码器570。
时频变换模块500,用于将立体声时域左声道信号和时域右声道信号转换为频域左声道信号和频域右声道信号。时频变换模块500可以采用FFT或者QMF等方式进行立体声信号的时频变换。本实施例不限制时频变换模块500对时域左声道信号和时域右声道信号进行时频变换的具体实现过程。
第一获取模块510,用于获取时频变换模块500转换获得的频域左声道信号和频域右声道信号的频域声道信号电平差和频域声道信号相位差。第一获取模块510可以获取各频带的频域声道信号电平差和各频带的频域声道信号相位差;也就是说,第一获取模块510可以根据预先设置好的频带宽度来获取每个频带的频域声道信号电平差和频域声道信号相位差。频带宽度可以根据实际应用来设置,如频带宽度可以设置为1等,再如针对高频信号频带宽度可以设置的宽一些,而针对低频信号频带宽度可以设置的窄一些等。第一获取模块510也可以获取各频带中各频率点的频域声道信号电平差和各频带中各频率点的频域声道信号相位差。第一获取模块510还可以针对部分频带,获取频带的频域声道信号电平差和频带的频域声道信号相位差,针对另一部分频带,获取频带中各频率点的频域声道信号电平差和频带中各频率点的频域声道信号相位差。
第一获取模块510获取频域声道信号电平差和频域声道信号相位差的多种方式如上述实施例一中的描述,在此不再重复说明。
第一获取模块510可以根据每个频带的频域左声道信号能量与频域右声道信号能量的比值获得每个频带的声道信号电平差,第一获取模块510可以根据每个频率点的频域左声道信号能量与频域右声道信号能量的比值获得每个频率点的声道信号电平差。第一获取模块510可以利用每个频带的频域左声道信号与频域右声道信号的互相关相位来表示每个频带的频域声道信号相位差,第一获取模块510可以利用每个频率点的频域左声道信号与频域右声道信号的互相关相位来表示每个频率点的频域声道信号相位差。当然,第一获取模块510也可以采用其它方式来表示每个频带或每个频率点的频域声道信号相位差。
第一获取模块510可以利用上述公式(1)获得每个频带的频域声道信号电平差,第一获取模块510可以利用上述公式(2)获得每个频带的声道信号互相关相位,本实施例不限制第一获取模块510获取每个频带的声道信号能量比和声道信号互相关相位的具体实现过程。
第二获取模块520,用于针对各频带中的各频率点,利用基于频域声道信号电平差和频域声道信号相位差的函数(如第一函数或第二函数)计算获得相位位于第一路频域声道信号相位和第二路频域声道信号相位之间的下混信号相位。第二获取模块520通过函数计算获得的下混信号相位位于频域左声道信号相位和频域右声道信号相位之间,在频域左声道信号相位与频域右声道信号相位不重合的情况下,第二获取模块520获得的下混信号相位通常既不与频域左声道信号相位重合,也不与频域右声道信号相位重合。一种优选的方式包括:第二获取模块520通过函数计算获得的下混信号相位偏向于能量高的一路声道信号相位。即第二获取模块520通过该函数使下混信号相位与能量高的一路频域声道信号相位的夹角小于下混信号相位与能量低的一路频域声道信号相位的夹角。也就是说,如果一个频率点上的频域左声道信号能量高于频域右声道信号能量,则在该频率点上,第二获取模块520利用该函数可以使下混信号相位与频域左声道信号相位的夹角小于下混信号相位与频域右声道信号相位的夹角;如果一个频率点上的频域右声道信号能量高于频域左声道信号能量,则在该频率点上,第二获取模块520利用该函数可以使下混信号相位与频域右声道信号相位的夹角小于下混信号相位与频域左声道信号相位的夹角。另外,第二获取模块520获得的下混信号相位最好位于频域左声道信号相位与频域右声道信号相位之间的较小夹角中,较小夹角如实施例一中的描述。
第二获取模块520可以包括:第一子模块521或者第二子模块522;或者第二获取模块520可以包括:第一子模块521、第二子模块522和第三子模块523。
第一子模块521中存储有利用一路频域声道信号相位、第一路频域声道信号与第二路频域声道信号电平差以及第一路频域声道信号与第二路频域声道信号相位差构建的第一函数,第一子模块521利用该第一函数计算获得下混信号相位。第一函数的一个具体例子如上述公式(3)所示,第一子模块521可以利用上述公式(4)计算获得下混信号M(k)相位,在此不再详细说明。
第二子模块522中存储有利用一路频域声道信号相位、群相位、第一路频域声道信号与第二路频域声道信号电平差的量化值以及第一路频域声道信号与第二路频域声道信号相位差构建的第二函数,第二子模块522利用该第二函数计算获得下混信号相位。第二函数的一个具体例子如上述公式(13)所示,第二子模块522可以计算各频带的声道信号相位的平均值,将该平均值作为群相位θg。第二子模块522可以利用上述公式(14)计算获得下混信号M(k)相位,在此不再详细说明。
第三子模块523,用于获取群延时,如果群延时为0,则通知第二子模块522计算获得下混信号相位,否则,通知第一子模块521计算获得下混信号相位。第三子模块523可以计算频域左声道信号和频域右声道信号之间的时间差,将该时间差作为群延时dg。第三子模块523也可以利用左右声道信号频域互相关相位或者时域互相关相位计算获得群延时dg,本实施例不限制第三子模块523获得群延时的具体过程。
第三获取模块530,用于针对各频带中的各频率点,计算获得下混信号幅度。第三获取模块530可以利用上述公式(5)获取下混信号幅度。上述公式(5)仅仅是一种例举而已,第三获取模块530可以采用现有的多种方法获取下混信号幅度,本实施例不限制第三获取模块530获取下混信号幅度的具体实现方式。
本实施例不限制第二获取模块520获取下混信号相位与第三获取模块530获取下混信号幅度的先后顺序。
下混模块540,用于根据第二获取模块520获得的下混信号相位和第三获取模块530获得的下混信号幅度获得频域下混信号。下混模块540可以通过上述公式(6)获得频域下混信号。具体过程在此不再详细说明。
频域单声道编码器550,用于对下混模块540获得的频域下混信号进行编码获得频域下混单声道比特流,并向解码端发送该频域下混单声道比特流。频域单声道编码器550如符合ITU-T G.711.1或ITU-T G.722标准规定的编码器等。
频时变换模块560,用于将下混模块540获得的频域下混信号转换为时域下混信号。
时域单声道编码器570,用于对频时变换模块560获得的时域下混信号进行编码获得时域下混单声道比特流,并向解码端发送该时域下混单声道比特流。
在本实施例中,左右声道的声场信息(即立体声参数)如左右声道信号电平差、左右声道信号相位差、群延时和群相位等被传输至编码装置中的量化器,量化器对立体声参数进行量化编码,并输出立体声参数比特流。由于对立体声参数进行了量化处理,因此,可以保证解码装置采用的立体声参数与编码端发送的立体声参数相同。这里的左右声道信号电平差可以是各频带的左右声道信号电平差,也可以是各频带统一对应的一个左右声道信号电平差,同样的,左右声道信号相位差可以是各频带的左右声道信号相位差,也可以是各频带统一对应的一个左右声道信号相位差(如群相位θg等)。
在实施例七中,第二获取模块520通过利用第一函数使下混信号相位位于第一路频域声道信号相位和第二路频域声道信号相位之间,避免了在左右两路声道信号完全反相且幅度相同的情况下,下混模块540获得的下混信号为0的现象,从而避免了解码端无法恢复出左右两路声道信号的现象,而且,还可以避免下混信号的能量缺失现象;由于下混模块540获得的下混信号位于第一路频域声道信号相位和第二路频域声道信号相位之间,因此,实施例七的编码装置获得的下混信号能够充分反映立体声信号的声场特点,最终提高了立体声编解码的主观质量。
实施例八、解码装置。下面结合附图6对本实施例进行说明。本实施例中的第一路声道信号可以为左声道信号,第二路声道信号可以为右声道信号。该装置如附图6所示。
图6中的装置包括:第四获取模块600、重建模块610、合成模块620和频时变换模块630。
第四获取模块600,用于获取解码后的频域下混信号、每个频带的频域声道信号电平差和每个频带的频域声道信号相位差。
在编码端支持对时域信号编码的情况下,第四获取模块600对解码装置接收到的比特流进行解码处理后,获得时域下混信号,并将时域下混信号转换为频域下混信号。
在编码端支持对频域信号编码的情况下,第四获取模块600对解码装置接收到的比特流进行解码处理后,获得频域下混信号。
第四获取模块600对解码装置接收到的立体声参数比特流进行解码处理后,获得左右声道的声场信息(即立体声参数),如左右声道信号电平差、左右声道信号相位差、群延时和群相位等。
重建模块610,用于根据基于频域声道信号电平差和频域声道信号相位差的函数、第四获取模块600获取的频域下混信号、频域声道信号电平差和频域声道信号相位差获得频域左右声道信号幅度和相位。
重建模块610可以利用上述公式(7)和公式(8)获得频域左右声道信号幅度。重建模块610可以利用上述公式(9)和公式(10)获得频域左右声道信号相位,重建模块610也可以利用上述公式(15)和公式(16)获得频域左右声道信号相位。另外,如果第一获取模块600还获得了群延时,则重建模块610可以对群延时进行判断,如果群延时为零,则利用上述公式(15)和公式(16)获得频域左右声道信号相位,否则,利用上述公式(9)和公式(10)获得频域左右声道信号相位。具体过程在此不再详细说明。
合成模块620,用于根据重建模块610获得的频域左右声道信号幅度和相位合成频域左声道信号和频域右声道信号。合成模块620可以利用上述公式(11)和公式(12)合成频域左右声道信号,具体过程在此不再详细说明。
频时变换模块630,用于将合成模块620合成的频域左声道信号和频域右声道信号转换为时域左声道信号和时域右声道信号。
需要说明的是,编码装置和解码装置最好使用相同的左右声道信号电平差和左右声道信号相位差,例如在编码装置使用群相位θg表示左右声道信号相位差时,解码装置应将解码获得的群相位θg作为每个频带的左右声道信号相位差。具体如上述实施例中的描述,在此不再重复说明。
在实施例八中,由于编码装置获得的下混信号相位位于第一路频域声道信号相位和第二路频域声道信号相位之间,因此,解码装置中的第四获取模块600不会获得解码为0的下混信号,这样不会导致重建模块610无法获得频域左右声道信号相位和幅度的现象,从而不会使合成模块620无法合成左右两路声道信号的现象;而且,由于编码装置避免了下混信号的能量缺失现象,因此,合成模块620合成获得的时域左声道信号和时域右声道信号更接近于编码端的时域左声道信号和时域右声道信号,从而提升了立体声信号的性能。
实施例九、编解码系统。下面结合附图7、以左声道信号为第一路声道信号、以右声道信号为第二路声道信号为例对本实施例进行说明。明显的,以右声道信号为第一路声道信号,以左声道信号为第二路声道信号的情况,本实施例也是可以完全可行的。
图7中的编解码系统包括:编码装置700和解码装置710。
编码装置700,用于将立体声时域左声道信号和时域右声道信号转换为频域左声道信号和频域右声道信号,获得频域左声道信号和频域右声道信号的频域声道信号电平差和频域声道信号相位差,针对各频带中的各频率点,利用基于频域声道信号电平差和频域声道信号相位差的函数计算获得相位位于频域左声道信号相位和频域右声道信号相位之间的下混信号相位;针对各频带中的各频率点,计算获得下混信号幅度;根据获得的下混信号相位和下混信号幅度获得频域下混信号。
编码装置700可以对频域下混信号进行编码,获得下混单声道信号,并向解码装置710发送下混单声道信号。编码装置700也可以对频域下混信号进行频时变换处理,获得时域下混信号,并对时域下混信号进行编码,获得下混单声道信号,之后,向解码装置710发送下混单声道信号。
另外,编码装置700还需要对立体声参数进行量化编码,并向解码装置710发送量化编码后获得的立体声参数比特流。
解码装置710根据接收的下混单声道信号获取解码后的频域下混信号。如果编码装置700是对频域下混信号进行编码,则解码装置710可以直接对接收到的下混单声道信号进行解码,即可获得频域下混信号。如果编码装置700是对时域下混信号进行编码,则解码装置710应先对接收到的下混单声道信号进行解码,然后,对解码后的时域下混信号进行时频转换,从而获得频域下混信号。
解码装置710根据接收的立体声参数比特流获得每个频带的频域声道信号电平差和每个频带的频域声道信号相位差,即解码装置710对接收到的立体声参数比特流进行解量化处理,获得左右声道的声场信息(即立体声参数),如每个频带的频域声道信号电平差、每个频带的频域声道信号相位差、群相位和群延时等。
解码装置710根据频域下混信号、第一函数或者第二函数、频域声道信号电平差和频域声道信号相位差获得频域左右声道信号幅度和相位。在立体声参数不包括群相位的情况下,解码装置710可以利用第一函数获得频域左右声道信号相位。在立体声参数包括群相位且不包括群延时的情况下,解码装置710可以利用第二函数获得频域左右声道信号相位。在立体声参数既包括群相位又包括群延时的情况下,解码装置710可以对群延时进行判断,在确定出群延时为零时,采用第二函数获得频域左右声道信号相位,否则,采用第一函数获得频域左右声道信号相位。
解码装置710根据频域左右声道信号电平差和相位合成频域左声道信号和频域右声道信号,并将频域左声道信号和频域右声道信号转换为时域左声道信号和时域右声道信号。
编码装置700和解码装置710具体执行的操作如上述方法实施例中的描述,编码装置700和解码装置710的具体结构如上述装置实施例中的描述,在此不再详细说明。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,所述的软件产品在可以用于执行上述的方法流程。该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
虽然通过实施例描绘了本发明,本领域普通技术人员知道,本发明有许多变形和变化而不脱离本发明的精神,本发明的申请文件的权利要求包括这些变形和变化。

Claims (16)

1.一种立体声信号下混方法,其特征在于,包括:
将立体声信号中的第一路时域声道信号和第二路时域声道信号转换为第一路频域声道信号和第二路频域声道信号;
获得所述第一路频域声道信号和第二路频域声道信号的频域声道信号电平差和频域声道信号相位差;
针对各频带中的各频率点,利用基于所述频域声道信号电平差和频域声道信号相位差的函数计算获得相位位于第一路频域声道信号相位和第二路频域声道信号相位之间的下混信号相位;
针对各频带中的各频率点,计算获得下混信号幅度;
根据所述下混信号相位和所述下混信号幅度获得频域下混信号。
2.如权利要求1所述的方法,其特征在于,所述获得所述第一路频域声道信号和第二路频域声道信号的频域声道信号电平差和频域声道信号相位差包括:
获得所述第一路频域声道信号和第二路频域声道信号的每个频带的频域声道信号电平差和频域声道信号相位差;或者
获得所述第一路频域声道信号和第二路频域声道信号的每个频率点的频域声道信号电平差和频域声道信号相位差;或者
获得所述第一路频域声道信号和第二路频域声道信号的部分频带的频域声道信号电平差和频域声道信号相位差、以及所述第一路频域声道信号和第二路频域声道信号的另一部分频带中的每个频率点的频域声道信号电平差和频域声道信号相位差。
3.如权利要求1所述的方法,其特征在于:
所述函数使下混信号相位与能量高的一路频域声道信号相位的夹角小于下混信号相位与能量低的一路频域声道信号相位的夹角。
4.如权利要求1所述的方法,其特征在于,所述基于频域声道信号电平差和频域声道信号相位差的函数包括:
利用一路频域声道信号相位、第一路频域声道信号与第二路频域声道信号电平差以及第一路频域声道信号与第二路频域声道信号相位差构建的第一函数。
5.如权利要求4所述的方法,其特征在于:
所述第一函数包括: ∠ X 1 ( k ) - 1 1 + c ( b ) · IPD ( b ) ;
其中,∠X1(k)为在频率点索引k的第一路频域声道信号相位,c(b)为频带索引b的第一路频域声道信号与第二路频域声道信号能量比,c(b)=10CLD(b)/10,CLD(b)为频率点索引k所在频带的频带索引b的第一路频域声道信号与第二路频域声道信号电平差,IPD(b)为频带索引b的第一路频域声道信号与第二路频域声道信号相位差。
6.如权利要求1所述的方法,其特征在于,所述基于频域声道信号电平差和频域声道信号相位差的函数包括:
利用一路频域声道信号相位、群相位、第一路频域声道信号与第二路频域声道信号电平差以及第一路频域声道信号与第二路频域声道信号相位差构建的第二函数。
7.如权利要求6所述的方法,其特征在于:
第二函数包括: ∠ X 1 ( k ) - 1 1 + c ( b ) · ( IPD ( b ) - θ g ) ;
其中,∠X1(k)为在频率点索引k的第一路频域声道信号相位,c(b)为频带索引b的第一路频域声道信号与第二路频域声道信号能量比,c(b)=10CLD(b)/10,CLD(b)为频率点索引k所在频带的频带索引b的第一路频域声道信号与第二路频域声道信号电平差,IPD(b)为频带索引b的第一路频域声道信号与第二路频域声道信号相位差,θg为群相位。
8.如权利要求1所述的方法,其特征在于,所述基于频域声道信号电平差和频域声道信号相位差的函数包括:
利用一路频域声道信号相位、第一路频域声道信号与第二路频域声道信号电平差以及第一路频域声道信号与第二路频域声道信号相位差构建的第一函数;和,利用一路频域声道信号相位、群相位、第一路频域声道信号与第二路频域声道信号电平差以及第一路频域声道信号与第二路频域声道信号相位差构建的第二函数;
且所述利用基于频域声道信号电平差和频域声道信号相位差的函数计算获得相位位于第一路频域声道信号相位和第二路频域声道信号相位之间的下混信号相位包括:
获取群延时,如果群延时为0,则利用第二函数计算获得相位位于第一路频域声道信号相位和第二路频域声道信号相位之间的下混信号相位,否则,利用第一函数计算获得相位位于第一路频域声道信号相位和第二路频域声道信号相位之间的下混信号相位。
9.如权利要求1至8中任一权利要求所述的方法,其特征在于,所述方法还包括:
对所述频域下混信号进行编码获得频域下混单声道比特流,并向解码端发送所述频域下混单声道比特流;或者
将所述频域下混信号转换为时域下混信号,对所述时域下混信号进行编码获得时域下混单声道比特流,并向解码端发送所述时域下混单声道比特流。
10.一种获得立体声信号的方法,其特征在于,所述方法包括:
获取解码后的频域下混信号、每个频带的频域声道信号电平差和每个频带的频域声道信号相位差;
根据所述频域下混信号、基于所述频域声道信号电平差和频域声道信号相位差的函数、所述频域声道信号电平差和所述频域声道信号相位差获得第一路和第二路频域声道信号幅度和相位;
根据所述第一路和第二路频域声道信号幅度和相位合成第一路频域声道信号和第二路频域声道信号;
将所述第一路频域声道信号和第二路频域声道信号转换为第一路时域声道信号和第二路时域声道信号。
11.一种编码装置,其特征在于,包括:
时频变换模块,用于将立体声第一路时域声道信号和第二路时域声道信号转换为第一路频域声道信号和第二路频域声道信号;
第一获取模块,用于获得所述第一路频域声道信号和第二路频域声道信号的频域声道信号电平差和频域声道信号相位差;
第二获取模块,用于针对各频带中的各频率点,利用基于所述频域声道信号电平差和频域声道信号相位差的函数计算获得相位位于第一路频域声道信号相位和第二路频域声道信号相位之间的下混信号相位;
第三获取模块,用于针对各频带中的各频率点,计算获得下混信号幅度;
下混模块,用于根据所述下混信号相位和所述下混信号幅度获得频域下混信号。
12.如权利要求11所述的装置,其特征在于,所述第二获取模块包括:
第一子模块,用于存储有利用一路频域声道信号相位、第一路频域声道信号与第二路频域声道信号电平差以及第一路频域声道信号与第二路频域声道信号相位差构建的第一函数,利用所述第一函数计算获得下混信号相位;或者
第二子模块,用于存储有利用一路频域声道信号相位、群相位、第一路频域声道信号与第二路频域声道信号电平差以及第一路频域声道信号与第二路频域声道信号相位差构建的第二函数,利用第二函数计算获得下混信号相位。
13.如权利要求11所述的装置,其特征在于,所述第二获取模块包括:
第一子模块,用于存储有利用一路频域声道信号相位、第一路频域声道信号与第二路频域声道信号电平差以及第一路频域声道信号与第二路频域声道信号相位差构建的第一函数,利用所述第一函数计算获得下混信号相位;
第二子模块,用于存储有利用一路频域声道信号相位、群相位、第一路频域声道信号与第二路频域声道信号电平差以及第一路频域声道信号与第二路频域声道信号相位差构建的第二函数,利用第二函数计算获得下混信号相位;
第三子模块,用于获取群延时,如果群延时为0,则通知第二子模块计算获得下混信号相位,否则,通知第一子模块计算获得下混信号相位。
14.如权利要求11或12或13所述的装置,其特征在于,所述装置还包括:
频域单声道编码器,用于对所述频域下混信号进行编码获得频域下混单声道比特流,并向解码端发送所述频域下混单声道比特流;
或者所述装置还包括:
频时变换模块,用于将所述频域下混信号转换为时域下混信号;
时域单声道编码器,用于对所述时域下混信号进行编码获得时域下混单声道比特流,并向解码端发送所述时域下混单声道比特流。
15.一种解码装置,其特征在于,所述装置包括:
第四获取模块,用于获取解码后的频域下混信号、每个频带的频域声道信号电平差和每个频带的频域声道信号相位差;
重建模块,用于根据所述频域下混信号、基于所述频域声道信号电平差和频域声道信号相位差的函数、所述频域声道信号电平差和所述频域声道信号相位差获得第一路和第二路频域声道信号幅度和相位;
合成模块,用于根据所述第一路和第二路频域声道信号幅度和相位合成第一路频域声道信号和第二路频域声道信号;
频时变换模块,用于将所述第一路频域声道信号和第二路频域声道信号转换为第一路时域声道信号和第二路时域声道信号。
16.一种编解码系统,其特征在于,包括:
编码装置,用于将立体声第一路时域声道信号和第二路时域声道信号转换为第一路频域声道信号和第二路频域声道信号,获得所述第一路频域声道信号和第二路频域声道信号的频域声道信号电平差和频域声道信号相位差,针对各频带中的各频率点,利用基于所述频域声道信号电平差和频域声道信号相位差的函数计算获得相位位于第一路频域声道信号相位和第二路频域声道信号相位之间的下混信号相位;针对各频带中的各频率点,计算获得下混信号幅度;根据所述下混信号相位和所述下混信号幅度获得频域下混信号;对所述频域下混信号进行编码或者将所述频域下混信号转换为时域下混信号并对所述时域下混信号进行编码获得下混单声道信号;对每个频带的频域声道信号电平差和频域声道信号相位差进行量化编码,发送所述下混单声道信号和所述量化编码;
解码装置,用于根据接收的所述下混单声道信号获取解码后的频域下混信号,根据接收的所述量化编码获取每个频带的频域声道信号电平差和每个频带的频域声道信号相位差,根据所述频域下混信号、所述函数、所述频域声道信号电平差和所述频域声道信号相位差获得第一路和第二路频域声道信号幅度和相位,根据所述第一路和第二路频域声道信号幅度和相位合成第一路频域声道信号和第二路频域声道信号;将所述第一路频域声道信号和第二路频域声道信号转换为第一路时域声道信号和第二路时域声道信号。
CN2010101106537A 2010-02-12 2010-02-12 立体声信号下混方法、编解码装置和编解码系统 Active CN102157149B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2010101106537A CN102157149B (zh) 2010-02-12 2010-02-12 立体声信号下混方法、编解码装置和编解码系统
PCT/CN2010/080380 WO2011097929A1 (zh) 2010-02-12 2010-12-28 立体声信号下混方法、编解码装置和编解码系统
US13/584,579 US9319818B2 (en) 2010-02-12 2012-08-13 Stereo signal down-mixing method, encoding/decoding apparatus and encoding and decoding system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101106537A CN102157149B (zh) 2010-02-12 2010-02-12 立体声信号下混方法、编解码装置和编解码系统

Publications (2)

Publication Number Publication Date
CN102157149A CN102157149A (zh) 2011-08-17
CN102157149B true CN102157149B (zh) 2012-08-08

Family

ID=44367230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101106537A Active CN102157149B (zh) 2010-02-12 2010-02-12 立体声信号下混方法、编解码装置和编解码系统

Country Status (3)

Country Link
US (1) US9319818B2 (zh)
CN (1) CN102157149B (zh)
WO (1) WO2011097929A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102446507B (zh) * 2011-09-27 2013-04-17 华为技术有限公司 一种下混信号生成、还原的方法和装置
EP2811758B1 (en) 2013-06-06 2016-11-02 Harman Becker Automotive Systems GmbH Audio signal mixing
CN103700372B (zh) * 2013-12-30 2016-10-05 北京大学 一种基于正交解相关技术的参数立体声编码、解码方法
EP3291582A4 (en) * 2015-06-17 2018-05-09 Samsung Electronics Co., Ltd. Device and method for processing internal channel for low complexity format conversion
CN107358961B (zh) * 2016-05-10 2021-09-17 华为技术有限公司 多声道信号的编码方法和编码器
CN108269577B (zh) 2016-12-30 2019-10-22 华为技术有限公司 立体声编码方法及立体声编码器
EP3550561A1 (en) 2018-04-06 2019-10-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value
CN110556119B (zh) 2018-05-31 2022-02-18 华为技术有限公司 一种下混信号的计算方法及装置
CN110556116B (zh) 2018-05-31 2021-10-22 华为技术有限公司 计算下混信号和残差信号的方法和装置
EP3891737B1 (en) * 2019-01-11 2024-07-03 Boomcloud 360, Inc. Soundstage-conserving audio channel summation
CN110018697A (zh) * 2019-03-28 2019-07-16 西南电子技术研究所(中国电子科技集团公司第十研究所) 实时补偿接收系统增益温度稳定度的控制方法
CN113948098A (zh) * 2020-07-17 2022-01-18 华为技术有限公司 一种立体声音频信号时延估计方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1942929A (zh) * 2004-04-05 2007-04-04 皇家飞利浦电子股份有限公司 多信道编码器
CN101223820A (zh) * 2005-07-15 2008-07-16 松下电器产业株式会社 信号处理装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE487213T1 (de) 2003-03-17 2010-11-15 Koninkl Philips Electronics Nv Verarbeitung von mehrkanalsignalen
CN1860526B (zh) * 2003-09-29 2010-06-16 皇家飞利浦电子股份有限公司 音频信号编码
KR101217649B1 (ko) * 2003-10-30 2013-01-02 돌비 인터네셔널 에이비 오디오 신호 인코딩 또는 디코딩
TWI393121B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
JP4892184B2 (ja) 2004-10-14 2012-03-07 パナソニック株式会社 音響信号符号化装置及び音響信号復号装置
CN101427307B (zh) * 2005-09-27 2012-03-07 Lg电子株式会社 编码/解码多声道音频信号的方法和装置
BRPI0621485B1 (pt) * 2006-03-24 2020-01-14 Dolby Int Ab decodificador e método para derivar sinal de down mix de fone de ouvido, decodificador para derivar sinal de down mix estéreo espacial, receptor, método de recepção, reprodutor de áudio e método de reprodução de áudio
KR100763919B1 (ko) * 2006-08-03 2007-10-05 삼성전자주식회사 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2 채널의 바이노럴 신호로 복호화하는 방법 및 장치
US8200351B2 (en) 2007-01-05 2012-06-12 STMicroelectronics Asia PTE., Ltd. Low power downmix energy equalization in parametric stereo encoders
KR101505831B1 (ko) * 2007-10-30 2015-03-26 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 방법 및 장치
KR101444102B1 (ko) * 2008-02-20 2014-09-26 삼성전자주식회사 스테레오 오디오의 부호화, 복호화 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1942929A (zh) * 2004-04-05 2007-04-04 皇家飞利浦电子股份有限公司 多信道编码器
CN101223820A (zh) * 2005-07-15 2008-07-16 松下电器产业株式会社 信号处理装置

Also Published As

Publication number Publication date
US20120308018A1 (en) 2012-12-06
WO2011097929A1 (zh) 2011-08-18
CN102157149A (zh) 2011-08-17
US9319818B2 (en) 2016-04-19

Similar Documents

Publication Publication Date Title
CN102157149B (zh) 立体声信号下混方法、编解码装置和编解码系统
CN101484936B (zh) 音频解码
EP1393303B1 (en) Inter-channel signal redundancy removal in perceptual audio coding
US8798276B2 (en) Method and apparatus for encoding multi-channel audio signal and method and apparatus for decoding multi-channel audio signal
CN103329197B (zh) 用于反相声道的改进的立体声参数编码/解码
US9384740B2 (en) Apparatus and method for encoding and decoding multi-channel signal
US8332229B2 (en) Low complexity MPEG encoding for surround sound recordings
KR101183862B1 (ko) 스테레오 신호를 처리하기 위한 방법 및 디바이스, 인코더 장치, 디코더 장치 및 오디오 시스템
JP6808781B2 (ja) 信号をインタリーブするためのオーディオ復号器
CN102446507B (zh) 一种下混信号生成、还原的方法和装置
KR101777626B1 (ko) 조인트 멀티채널 코딩을 위한 방법들 및 장치들
CN101410890A (zh) 减小数目的声道解码
WO1999004498A2 (en) Method and apparatus for encoding and decoding multiple audio channels at low bit rates
CN1748247A (zh) 音频编码
EP1952391A4 (en) METHOD FOR CODING AND DECODING A MULTI CHANNEL AUDIO SIGNAL AND DEVICE THEREFOR
CN101887726A (zh) 立体声编码和解码的方法及其设备
CN1774957A (zh) 音频信号生成
CN101826326B (zh) 一种立体声编码方法、装置和编码器
US20160180855A1 (en) Apparatus and method for encoding and decoding multi-channel audio signal
KR20100095586A (ko) 신호 처리 방법 및 장치
CN102157150B (zh) 立体声解码方法及装置
CN101673545B (zh) 一种编解码方法及装置
CN102272830A (zh) 音响信号解码装置及平衡调整方法
CN103366748A (zh) 立体声编码的方法、装置
CN101582259B (zh) 立体声信号编解码方法、装置及编解码系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant