CN117037814A - 时域立体声参数的编码方法和相关产品 - Google Patents
时域立体声参数的编码方法和相关产品 Download PDFInfo
- Publication number
- CN117037814A CN117037814A CN202310985946.7A CN202310985946A CN117037814A CN 117037814 A CN117037814 A CN 117037814A CN 202310985946 A CN202310985946 A CN 202310985946A CN 117037814 A CN117037814 A CN 117037814A
- Authority
- CN
- China
- Prior art keywords
- current frame
- signal
- channel
- channel combination
- combination scheme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Mobile Radio Communication Systems (AREA)
- Television Systems (AREA)
Abstract
本申请实施例公开了时域立体声参数的编码方法和相关产品。一种时域立体声参数的编码方法,包括:确定当前帧的声道组合方案;根据所述当前帧的声道组合方案确定所述当前帧的时域立体声参数;对确定的所述当前帧的时域立体声参数进行编码,所述时域立体声参数包括声道组合比例因子和声道间时间差中的至少一种。本申请实施例提供的技术方案有利于提高编解码质量。
Description
本申请是分案申请,原申请的申请号是201710680858.0,原申请日是2017年8月10日,原申请的全部内容通过引用结合在本申请中。
技术领域
本申请涉及音频编解码技术领域,尤其涉及时域立体声参数的编码方法和相关产品。
背景技术
随着生活质量的提高,人们对高质量音频的需求不断增大。相对于单声道音频,立体声音频具有各声源的方位感和分布感,能够提高信息的清晰度、可懂度和临场感,因而备受人们青睐。
参数立体声编解码技术通过将立体声信号转换为单声道信号和空间感知参数,对多声道信号进行压缩处理,是一种常见的立体声编解码技术。但是由于参数立体声编解码技术通常需要在频域提取空间感知参数,需进行时频变换,使得整个编解码器的时延相对较大。因此在时延要求较严格的情况下,时域立体声编码技术,是一种更好的选择。
传统时域立体声编码技术是在时域将信号下混为两路单声道信号,例如MS编码技术先将左右声道信号下混为中央通道(Mid channel)信号和边通道(Side channel)信号。例如L表示左声道信号,R表示右声道信号,则Mid channel信号为0.5*(L+R),Mid channel信号表征了左右两个声道之间的相关信息;Side channel信号为0.5*(L-R),Side channel信号表征了左右两个声道之间的差异信息。然后,分别对Mid channel信号和Side channel信号采用单声道编码方法编码,对于Mid channel信号,通常用相对较多比特数进行编码;对于Side channel信号,通常用相对较少比特数。
本申请发明人研究和实践发现,采用传统时域立体声编码技术有时候出现主要信号能量特别小甚至能量缺失的现象,进而导致最终编码质量下降。
发明内容
本申请实施例提供时域立体声参数的编码方法和相关产品。
第一方面,本申请实施例提供了一种时域立体声参数的编码方法包括:确定当前帧的声道组合方案;根据所述当前帧的声道组合方案确定所述当前帧的时域立体声参数;对确定的所述当前帧的时域立体声参数进行编码,所述时域立体声参数包括声道组合比例因子和声道间时间差中的至少一种。
本申请实施例还提供一种时域立体声参数的确定方法,可包括:确定当前帧的声道组合方案;根据所述当前帧的声道组合方案确定所述当前帧的时域立体声参数,所述时域立体声参数包括声道组合比例因子和声道间时间差中的至少一种。
其中,当前帧的立体声信号例如由当前帧的左右声道信号组成。
其中,所述当前帧的声道组合方案为多种声道组合方案中的其中一种。
其中,例如所述多种声道组合方案包括非相关性信号声道组合方案(anticorrelated signal Channel Combination Scheme)和相关性信号声道组合方案(correlated signal Channel Combination Scheme)。
其中,所述相关性信号声道组合方案为类正相信号对应的声道组合方案。所述非相关性信号声道组合方案为类反相信号对应的声道组合方案。可以理解,类正相信号对应的声道组合方案适用于类正相信号,类反相信号对应的声道组合方案适用于类反相信号。
在确定所述当前帧的声道组合方案为相关性信号声道组合方案的情况下,所述当前帧的时域立体声参数为所述当前帧的相关性信号声道组合方案对应的时域立体声参数;在确定所述当前帧的声道组合方案为非相关性信号声道组合方案的情况下,所述当前帧的时域立体声参数为所述当前帧的非相关性信号声道组合方案对应的时域立体声参数。
可以理解,上述方案中需确定当前帧的声道组合方案,这就表示当前帧的声道组合方案存在多种可能,这相对于只有唯一一种声道组合方案的传统方案而言,多种可能的声道组合方案和多种可能场景之间有利于获得更好的兼容匹配效果。由于是根据所述当前帧的声道组合方案确定所述当前帧的时域立体声参数,这使得时域立体声参数和多种可能场景之间有利于获得更好的兼容匹配效果,进而有利于提升编解码质量。
在一些可能实施方式中,可以先分别计算出当前帧的非相关性信号声道组合方案对应的声道组合比例因子和当前帧的相关性信号声道组合方案对应的声道组合比例因子。而后在确定当前帧的声道组合方案为相关性信号声道组合方案的情况下,确定当前帧的时域立体声参数为所述当前帧的相关性信号声道组合方案对应的时域立体声参数;或者,在确定当前帧的声道组合方案为非相关性信号声道组合方案的情况下,确定当前帧的时域立体声参数为所述当前帧的非相关性信号声道组合方案对应的时域立体声参数。或者,也可先计算出当前帧的相关性信号声道组合方案对应的时域立体声参数,在确定当前帧的声道组合方案为相关性信号声道组合方案的情况下,确定当前帧的时域立体声参数为所述当前帧的相关性信号声道组合方案对应的时域立体声参数;而在确定当前帧的声道组合方案为非相关性信号声道组合方案的情况下,再计算所述当前帧的非相关性信号声道组合方案对应的时域立体声参数,将计算出的所述当前帧的非相关性信号声道组合方案对应的时域立体声参数,确认为当前帧的时域立体声参数。
或者,也可先确定当前帧的声道组合方案,在确定所述当前帧的声道组合方案为相关性信号声道组合方案的情况下,计算所述当前帧的相关性信号声道组合方案对应的时域立体声参数,那么,当前帧的时域立体声参数为当前帧的相关性信号声道组合方案对应的时域立体声参数。而在确定当前帧的声道组合方案为非相关性信号声道组合方案的情况下,计算所述当前帧的非相关性信号声道组合方案对应的时域立体声参数,那么,当前帧的时域立体声参数为当前帧的非相关性信号声道组合方案对应的时域立体声参数。
在一些可能实施方式中,根据所述当前帧的声道组合方案确定所述当前帧的时域立体声参数包括:根据所述当前帧的声道组合方案,确定所述当前帧的声道组合方案所对应的声道组合比例因子初始值。在无需对所述当前帧的声道组合方案(相关性信号声道组合方案或非相关性信号声道组合方法)对应的声道组合比例因子的初始值进行修正的情况之下,所述当前帧的声道组合方案对应的声道组合比例因子,等于所述当前帧的声道组合方案对应的声道组合比例因子的初始值。在需对所述当前帧的声道组合方案(相关性信号声道组合方案或非相关性信号声道组合方法)对应的声道组合比例因子的初始值进行修正的情况之下,对所述当前帧的声道组合方案对应的声道组合比例因子的初始值进行修正,以得到所述当前帧的声道组合方案对应的声道组合比例因子的修正值,所述当前帧的声道组合方案对应的声道组合比例因子,等于所述当前帧的声道组合方案对应的声道组合比例因子的修正值。
举例来说,所述根据所述当前帧的声道组合方案确定所述当前帧的时域立体声参数可以包括:根据所述当前帧左声道信号计算所述当前帧的左声道信号的帧能量;根据所述当前帧右声道信号计算所述当前帧的右声道信号的帧能量;根据所述当前帧左声道信号的帧能量和右声道信号的帧能量,计算所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的初始值;
其中,在无需对所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的初始值进行修正的情况下,所述当前帧的相关性信号声道组合方案对应的声道组合比例因子等于所述当前帧的相关性信号声道组合方案对应的声道组合比例因子初始值,所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的编码索引等于所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的初始值的编码索引;
在需对所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的初始值进行修正的情况下,对所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的初始值及其编码索引进行修正,以得到所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的修正值及其编码索引,所述当前帧的相关性信号声道组合方案对应的声道组合比例因子等于所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的修正值;所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的编码索引等于所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的修正值的编码索引。
具体例如,在对所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的初始值及其编码索引进行修正的情况下,
ratio_idx_mod=0.5*(tdm_last_ratio_idx+16);
ratio_modqua=ratio_tabl[ratio_idx_mod];
其中,所述tdm_last_ratio_idx表示前一帧的相关性信号声道组合方案对应的声道组合比例因子的编码索引,所述ratio_idx_mod表示所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的修正值对应的编码索引,所述ratio_modqua表示所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的修正值。
又例如,根据所述当前帧的声道组合方案确定所述当前帧的时域立体声参数包括:根据所述当前帧的左声道信号和右声道信号获得所述当前帧的参考声道信号;计算所述当前帧的左声道信号与参考声道信号之间的幅度相关性参数;计算所述当前帧的右声道信号与参考声道信号之间的幅度相关性参数;根据所述当前帧的左右声道信号与参考声道信号之间的幅度相关性参数,计算所述当前帧的左右声道信号之间的幅度相关性差异参数;根据所述当前帧的左右声道信号之间的幅度相关性差异参数,计算所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子。
其中,根据所述当前帧的左右声道信号之间的幅度相关性差异参数,计算所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子,例如可包括:根据所述当前帧的左右声道信号之间的幅度相关性差异参数,计算所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子初始值;对所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子初始值进行修正,以得到所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子。可以理解,当无需对所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子初始值进行修正时,那么,所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子,等于所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子初始值。
在一些可能的实施方式中,
其中,
其中,所述mono_i(n)表示所述当前帧的参考声道信号。
其中,所述x′L(n)表示所述当前帧经时延对齐处理的左声道信号;所述x′R(n)表示所述当前帧经时延对齐处理的右声道信号。所述corr_LM表示所述当前帧的左声道信号与参考声道信号之间的幅度相关性参数,所述corr_RM表示所述当前帧的右声道信号与参考声道信号之间的幅度相关性参数。
在一些可能的实施方式中,所述根据所述当前帧的左右声道信号与参考声道信号之间的幅度相关性参数,计算所述当前帧的左右声道信号之间的幅度相关性差异参数,包括:根据当前帧经时延对齐处理的左声道信号与参考声道信号之间的幅度相关性参数,计算当前帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数;根据当前帧经时延对齐处理的右声道信号与参考声道信号之间的幅度相关性参数,计算当前帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数;根据当前帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数及当前帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数,计算当前帧左右声道之间的幅度相关性差异参数。
其中,平滑处理的方式可以是多样多样的,举例来说:
tdm_lt_corr_LM_SMcur=α*tdm_lt_corr_LM_SMpre+(1-α)corr_LM;
其中,tdm_lt_rms_L_SMcur=(1-A)*tdm_lt_rms_L_SMpre+A*rms_L,所述A表示所述当前帧的左声道信号的长时平滑帧能量的更新因子。所述tdm_lt_rms_L_SMcur表示所述当前帧的左声道信号的长时平滑帧能量;其中,所述rms_L表示所述当前帧左声道信号的帧能量。tdm_lt_corr_LM_SMcur表示当前帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数。tdm_lt_corr_LM_SMpre表示前一帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数。α表示左声道平滑因子。
举例来说,
tdm_lt_corr_RM_SMcur=β*tdm_lt_corr_RM_SMpre+(1-β)corr_LM。
其中,tdm_lt_rms_R_SMcur=(1-B)*tdm_lt_rms_R_SMpre+B*rms_R;所述B表示所述当前帧的右声道信号的长时平滑帧能量的更新因子。所述tdm_lt_rms_R_SMpre表示所述当前帧的右声道信号的长时平滑帧能量。其中,所述rms_R表示所述当前帧右声道信号的帧能量。其中,tdm_lt_corr_RM_SMcur表示所述当前帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数。tdm_lt_corr_RM_SMpre表示前一帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数。β表示右声道平滑因子。
在一些可能的实施方式中,
diff_lt_corr=tdm_lt_corr_LM_SM-tdm_lt_corr_RM_SM;
其中,tdm_lt_corr_LM_SM表示所述当前帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数,tdm_lt_corr_RM_SM表示所述当前帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数,所述diff_lt_corr表示所述当前帧左右声道信号之间的幅度相关性差异参数。
在一些可能的实施方式中,所述根据所述当前帧的左右声道信号之间的幅度相关性差异参数,计算所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子包括:对当前帧的左右声道信号之间的幅度相关性差异参数进行映射处理,使映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的取值范围在[MAP_MIN,MAP_MAX]之间;将映射处理后的左右声道信号之间的幅度相关性差异参数转换为声道组合比例因子。
在一些可能的实施方式中,对所述当前帧的左右声道之间的幅度相关性差异参数进行映射处理包括:对所述当前帧的左右声道信号之间的幅度相关性差异参数进行限幅处理;对经限幅处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数进行映射处理。
其中,限幅处理的方式可以是多种多样的,具体例如:
其中,RATIO_MAX表示经限幅处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的最大值,RATIO_MIN表示经限幅处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的最小值,RATIO_MAX>RATIO_MIN。
其中,映射处理的方式可以是多种多样的,具体例如:
B1=MAP_MAX-RATIO_MAX*A1,或B1=MAP_HIGH-RATIO_HIGH*A1
B2=MAP_LOW-RATIO_LOW*A2,或B2=MAP_MIN-RATIO_MIN*A2
B3=MAP_HIGH-RATIO_HIGH*A3,或B3=MAP_LOW-RATIO_LOW*A3
其中,所述diff_lt_corr_map表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数;
其中,MAP_MAX表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的最大值;MAP_HIGH表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的高门限;MAP_LOW表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的低门限;MAP_MIN表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的最小值;
其中,MAP_MAX>MAP_HIGH>MAP_LOW>MAP_MIN;
RATIO_MAX表示经限幅处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的最大值,RATIO_HIGH表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的高门限,RATIO_LOW表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的低门限,RATIO_MIN表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的最小值;
其中,RATIO_MAX>RATIO_HIGH>RATIO_LOW>RATIO_MIN。
又例如,
其中,diff_lt_corr_limit表示经限幅处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数;diff_lt_corr_map表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数。
其中,
其中,所述RATIO_MAX表示所述当前帧的左右声道信号之间的幅度相关性差异参数的最大幅度,所述-RATIO_MAX表示所述当前帧的左右声道信号之间的幅度相关性差异参数的最小幅度。
在一些可能的实施方式中,
其中,所述diff_lt_corr_map表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数。所述ratio_SM表示所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子,或所述ratio_SM表示所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始值。
其中,在需要通过对所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始值进行修正,来得到所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的情况下,例如可以基于前一帧的声道组合比例因子和所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始值,来对所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始值进行修正;或者,也可基于所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始值,对所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始值进行修正。
在一些可能的实施方式中,
ratio_init_SMqua=ratio_tabl_SM[ratio_idx_init_SM]。
其中,所述ratio_tabl_SM表示所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子标量量化的码书,所述ratio_idx_init_SM表示所述当前帧的非相关性信号声道组合方案对应的初始编码索引,所述ratio_init_SMqua表示当前帧的非相关性信号声道组合方案对应的声道组合比例因子的量化编码初始值。
在一些可能的实施方式中,
ratio_idx_SM=ratio_idx_init_SM。
ratio_SM=ratio_tabl[ratio_idx_SM]。
其中,所述ratio_SM表示所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子。ratio_idx_SM表示当前帧的非相关性信号声道组合方案对应的声道组合比例因子的编码索引;
或者,
ratio_idx_SM=φ*ratio_idx_init_SM+(1-φ)*tdm_last_ratio_idx_SM
ratio_SM=ratio_tabl[ratio_idx_SM]
其中,ratio_idx_init_SM表示所述当前帧的非相关性信号声道组合方案对应的初始编码索引,tdm_last_ratio_idx_SM表示前一帧的非相关性信号声道组合方案对应的声道组合比例因子的最终编码索引,其中,为非相关性信号声道组合方案对应的声道组合比例因子的修正因子。其中,所述ratio_SM表示当前帧的非相关性信号声道组合方案对应的声道组合比例因子。
当然,通过对所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始值进行修正,来得到所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的具体实现方式并不限于上述举例。
此外,在时域立体声参数包括声道间时间差的情况下,根据所述当前帧的声道组合方案确定所述当前帧的时域立体声参数可包括:在所述当前帧的声道组合方案为相关性信号声道组合方案的情况下,计算所述当前帧的声道间时间差。并且可将计算得到的所述当前帧的声道间时间差写入码流。在所述当前帧的声道组合方案为非相关性信号声道组合方案的情况下使用默认的声道间时间差(例如0)作为所述当前帧的声道间时间差。并且可不将默认的声道间时间差写入码流,解码装置也使用默认的声道间时间差。
第二方面,本申请实施例还提供一种时域立体声参数的编码装置,可以包括:相互耦合的处理器和存储器。其中,所述处理器可用于执行第一方面中的任意一种方法的部分或全部步骤。本申请实施例还提供一种时域立体声编码装置,可以包括上述时域立体声参数的编码装置。
第三方面,本申请实施例提供一种时域立体声参数的编码装置,包括用于实施第一方面的任意一种方法的若干个功能单元。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储了程序代码,其中,所述程序代码包括用于执行第一方面的任意一种方法的部分或全部步骤的指令。
第五方面,本申请实施例提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。
附图说明
下面将对本申请实施例或背景技术中所涉及的附图进行说明。
图1是本申请实施例提供的一种类反相信号的示意图;
图2是本申请实施例提供的一种音频编码方法的流程示意图;
图3是本申请实施例提供的一种音频解码模式确定方法的流程示意图;
图4是本申请实施例提供的另一种音频编码方法的流程示意图;
图5是本申请实施例提供的一种音频解码方法的流程示意图;
图6是本申请实施例提供的另一种音频编码方法的流程示意图;
图7是本申请实施例提供的另一种音频解码方法的流程示意图;
图8是本申请实施例提供的一种时域立体声参数的确定方法的流程示意图;
图9-A是本申请实施例提供的另一种音频编码方法的流程示意图;
图9-B是本申请实施例提供的一种计算当前帧非相关性信号声道组合方案对应的声道组合比例因子并编码的方法的流程示意图;
图9-C是本申请实施例提供的一种计算当前帧左右声道之间的幅度相关性差异参数的方法的流程示意图;
图9-D是本申请实施例提供的一种将当前帧左右声道之间的幅度相关性差异参数转换为声道组合比例因子的方法的流程示意图;
图10是本申请实施例提供的另一种音频解码方法的流程示意图;
图11-A是本申请实施例提供的一种装置的示意图;
图11-B是本申请实施例提供的另一种装置的示意图;
图11-C是本申请实施例提供的另一种装置的示意图;
图12-A是本申请实施例提供的另一种装置的示意图;
图12-B是本申请实施例提供的另一种装置的示意图;
图12-C是本申请实施例提供的另一种装置的示意图。
具体实施方式
下面结合本申请实施例中的附图对本申请实施例进行描述。
本申请的说明书和权利要求书以及上述附图之中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包括。例如包括一系列步骤或单元的过程、方法、系统或产品或设备没有限定于已列出的步骤或单元,而是可选地还可包括没有列出的步骤或单元,或者可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。另外来说,术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。
需要说明,由于本申请各实施例方案针对的时域场景,因此为了简化描述,时域信号可简称“信号”。例如,左声道时域信号可简称“左声道信号”。又例如,右声道时域信号可以简称“右声道信号”。又例如,单声道时域信号可简称“单声道信号”。又例如参考声道时域信号可简称“参考声道信号”。又例如主要声道时域信号可简称“主要声道信号”。次要声道时域信号可简称“次要声道信号”。又例如中央通道(Mid channel)时域信号可以简称“中央通道信号”。又例如边通道(Side channel)时域信号可简称“边通道信号”。其他情况可以此类推。
需要说明,本申请各实施例中,左声道时域信号和右声道时域信号可合称“左右声道时域信号”或可合称“左右声道信号”。也就是说,左右声道时域信号包括左声道时域信号和右声道时域信号。又例如当前帧经时延对齐处理的左右声道时域信号包括当前帧经时延对齐处理的左声道时域信号和当前帧经时延对齐处理的右声道时域信号。类似的,主要声道信号和次要声道信号可合称“主次声道信号”。也就是说,主次声道信号包括主要声道信号和次要声道信号。又例如主次声道解码信号包括主要声道解码信号和次要声道解码信号。又例如左右声道重建信号包括左声道重建信号和右声道重建信号。以此类推。
其中,例如传统MS编码技术先将左右声道信号下混为中央通道(Mid channel)信号和边通道(Side channel)信号。例如L表示左声道信号,R表示右声道信号,则Midchannel信号为0.5*(L+R),Mid channel信号表征了左右两个声道之间的相关信息。Sidechannel信号为0.5*(L-R),Side channel信号表征了左右两个声道之间的差异信息。然后,分别对Mid channel信号和Side channel信号采用单声道编码方法编码。其中,对于Midchannel信号,通常用相对较多比特数进行编码;对于Side channel信号,通常用相对较少比特数进行编码。
进一步的,为了提高编码质量,一些方案通过对左右声道的时域信号进行分析,提取用于指示时域下混处理中左右声道所占比例的时域立体声参数。提出这种方法的目的是:当立体声左右声道信号之间的能量相差比较大的时候,有利于提升时域下混信号中的主要声道的能量,降低次要声道的能量。例如,L表示左声道信号,R表示右声道信号,那么,则主要声道(Primary channel)信号记作Y,Y=alpha*L+beta*R,其中,Y表征了两个声道之间的相关信息。次要声道(Secondary channel)记作X,X=alpha*L-beta*R,X表征了两个声道之间的差异信息。alpha和beta为0到1的实数。
参见图1,图1示出了一种左声道信号和右声道信号的幅度变化情况。在时域某一时刻上,左声道信号、右声道信号的对应样点之间幅度的绝对值基本相同,但是符号相反,这种就是典型的类反相信号。图1只是给出了类反相信号的一个典型例子。实际上类反相信号是指左右声道信号之间的相位差接近180度的立体声信号。例如可将左右声道信号之间的相位差属于[180-θ,180+θ]的立体声信号称作类反相信号,其中,θ可取0°到90°之间的任意角度,例如θ可等于0°、5°、15°、17°、20°、30°、40°等角度。
类似的,类正相信号是指左右声道信号之间的相位差接近0度的立体声信号。例如可将左右声道信号之间的相位差属于[-θ,θ]的立体声信号称作类正相信号。θ可取0°到90°之间的任意角度,例如θ可等于0°、5°、15°、17°、20°、30°、40°等角度。
当左右声道信号为类正相信号时,时域下混处理生成的主要声道信号能量往往明显大于次要声道信号的能量。若用较多的比特数对主要声道信号进行编码,同时用较少的比特数对次要声道信号进行编码,那么有利于获得较好的编码效果。但是,当左右声道信号为类反相信号时,如果采用相同的时域下混处理方法,则生成的主要声道信号能量会出现特别小甚至能量缺失的现象,进而导致最终编码质量下降。
下面继续探讨一些有利于提升立体声编解码质量的技术方案。
本申请实施例提及的编码装置和解码装置可为具有采集、存储、向外传输话音信号等功能的装置,具体的,编码装置和解码装置例如可为手机、服务器、平板电脑、个人电脑或笔记本电脑等等。
可以理解,本申请方案中,左右声道信号是指立体声信号的左右声道信号。立体声信号可以是原始的立体声信号,也可以是多声道信号中包含的两路信号组成的立体声信号,还可以是由多声道信号中包含的多路信号联合产生的两路信号组成的立体声信号。其中,立体声编码方法,也可以是多声道编码中使用的立体声编码方法。立体声编码装置,也可以是多声道编码装置中使用的立体声编码装置。立体声解码方法,也可以是多声道解码中使用的立体声解码方法。立体声解码装置,也可以是多声道解码装置中使用的立体声解码装置。本申请实施例中的音频编码方法例如针对的是立体声编码场景,本申请实施例中的音频解码方法例如针对的是立体声解码场景。
下面首先提供一种音频编码模式确定方法,可包括:确定当前帧的声道组合方案,基于前一帧和当前帧的声道组合方案确定当前帧的编码模式。
参见图2,图2是本申请实施例提供的一种音频编码方法的流程示意图。一种音频编码方法的相关步骤可由编码装置来实施,例如可包括如下步骤:
201、确定当前帧的声道组合方案。
其中,所述当前帧的声道组合方案为多种声道组合方案中的其中一种。例如所述多种声道组合方案包括非相关性信号声道组合方案(anticorrelated signal ChannelCombination Scheme)和相关性信号声道组合方案(correlated signal ChannelCombination Scheme)。其中,所述相关性信号声道组合方案为类正相信号对应的声道组合方案。所述非相关性信号声道组合方案为类反相信号对应的声道组合方案。可以理解,类正相信号对应的声道组合方案适用于类正相信号,类反相信号对应的声道组合方案适用于类反相信号。
202、基于前一帧和当前帧的声道组合方案确定当前帧的编码模式。
此外,若当前帧为第一帧(即不存在当前帧的前一帧)的情况下,可以基于当前帧的声道组合方案确定当前帧的编码模式。或者,也可以将默认的某种编码模式作为当前帧的编码模式。
其中,所述当前帧的编码模式为多种编码模式中的其中一种。例如所述多种编码模式可包括:相关性信号到非相关性信号编码模式(correlated-to-anticorrelatedsignal coding switching mode)、非相关性信号到相关性信号编码模式(anticorrelated-to-correlated signal coding switching mode)、相关性信号编码模式(correlated signal coding mode))和非相关性信号编码模式(anticorrelatedsignal coding mode)等。
其中,相关性信号到非相关性信号编码模式对应的时域下混模式例如可称为“相关性信号到非相关性信号下混模式”(correlated-to-anticorrelated signal downmixswitching mode)。非相关性信号到相关性信号编码模式对应的时域下混模式例如可称为“非相关性信号到相关性信号下混模式”
(anticorrelated-to-correlated signal downmix switching mode)。相关性信号编码模式对应的时域下混模式例如可称为“相关性信号下混模式”(correlated signaldownmix mode)。非相关性信号编码模式对应的时域下混模式例如可称为“非相关性信号下混模式”(anticorrelated signal downmix mode)。
可以理解,本申请实施例中对编码模式、解码模式和声道组合方案等对象的命名都是示意性的,在实际应用中也可能选用其他名称。
203、基于当前帧的编码模式所对应的时域下混处理对当前帧的左右声道信号进行时域下混处理,以得到当前帧的主次声道信号。
其中,对当前帧的左右声道信号进行时域下混处理可得到当前帧的主次声道信号,通过进一步对主次声道信号进行编码以得到码流。可进一步将当前帧的声道组合方案标识(当前帧的声道组合方案标识用于指示当前帧的声道组合方案)写入码流,以便于解码装置基于码流中包含的当前帧的声道组合方案标识来确定当前帧的声道组合方案。
其中,根据前一帧的声道组合方案和所述当前帧的声道组合方案确定所述当前帧的编码模式的具体实现方式可以是多种多样的,
具体例如,在一些可能的实施方式中,根据前一帧的声道组合方案和所述当前帧的声道组合方案确定所述当前帧的编码模式,可包括:
在前一帧的声道组合方案为相关性信号声道组合方案,并且当前帧的声道组合方案为非相关性信号声道组合方案的情况下,确定所述当前帧的编码模式为相关性信号到非相关性信号编码模式,其中,相关性信号到非相关性信号编码模式采用从相关性信号声道组合方案过渡到非相关性信号声道组合方案对应的下混处理方法进行时域下混处理。
或者,在前一帧的声道组合方案为非相关性信号声道组合方案,并且所述当前帧的声道组合方案为非相关性信号声道组合方案的情况下,确定所述当前帧的编码模式为非相关性信号编码模式,所述非相关性信号编码模式采用非相关性信号声道组合方案对应的下混处理方法进行时域下混处理。
或者,在前一帧的声道组合方案为非相关性信号声道组合方案,并且当前帧的声道组合方案为相关性信号声道组合方案的情况下,确定所述当前帧的编码模式为非相关性信号到相关性信号编码模式,所述非相关性信号到相关性信号编码模式采用从非相关性信号声道组合方案过度到相关性信号声道组合方案对应的下混处理方法进行时域下混处理。其中,非相关性信号到相关性信号编码模式对应的时域下混处理方式具体可为分段时域下混方式,具体可以根据所述当前帧和前一帧的声道组合方案对所述当前帧的左右声道信号进行分段时域下混处理。
或者,当前一帧的声道组合方案为相关性信号声道组合方案,当前帧的声道组合方案为相关性信号声道组合方案,确定为所述当前帧的编码模式为相关性信号编码模式,所述相关性信号编码模式采用相关性信号声道组合方案对应的下混处理方法进行时域下混处理。
可以理解,不同的编码模式所对应的时域下混处理方式通常不同。并且每种编码模式也可能对应一种或多种时域下混处理方式。
例如,在一些可能实施方式中,在确定所述当前帧的编码模式为相关性信号编码模式的情况下,采用所述相关性信号编码模式对应的时域下混处理方式,对所述当前帧的左右声道信号进行时域下混处理以得到所述当前帧的主次声道信号,所述相关性信号编码模式对应的时域下混处理方式为相关性信号声道组合方案对应的时域下混处理方式。
又例如,在一些可能实施方式中,在确定所述当前帧的编码模式为非相关性信号编码模式的情况下,采用所述非相关性信号编码模式对应的时域下混处理方式,对所述当前帧的左右声道信号进行时域下混处理以得到所述当前帧的主次声道信号。所述非相关性信号编码模式对应的时域下混处理方式为非相关性信号声道组合方案对应的时域下混处理方式。
又例如,在一些可能实施方式中,在确定所述当前帧的编码模式为相关性到非相关性信号编码模式的情况下,采用相关性到非相关性信号编码模式对应的时域下混处理方式,对所述当前帧的左右声道信号进行时域下混处理以得到所述当前帧的主次声道信号,所述相关性到非相关性信号编码模式对应的时域下混处理方式为从相关性信号声道组合方案过度到非相关性信号声道组合方案对应的时域下混处理方式。其中,所述相关性信号到非相关性信号编码模式对应的时域下混处理方式具体可为分段时域下混方式,具体可根据所述当前帧和前一帧的声道组合方案对所述当前帧的左右声道信号进行分段时域下混处理。
又例如,在一些可能实施方式中,在确定所述当前帧的编码模式为非相关性到相关性信号编码模式的情况下,采用所述非相关性到相关性信号编码模式对应的时域下混处理方式,对所述当前帧的左右声道信号进行时域下混处理以得到所述当前帧的主次声道信号,所述非相关性到相关性信号编码模式对应的时域下混处理方式为从非相关性信号声道组合方案过度到相关性信号声道组合方案对应的时域下混处理方式。
可以理解,不同的编码模式所对应的时域下混处理方式通常不同。并且每种编码模式也可能对应一种或多种时域下混处理方式。
举例来说,在一些可能的实施方式之中,采用所述非相关性信号编码模式对应的时域下混处理方式,对所述当前帧的左右声道信号进行时域下混处理以得到所述当前帧的主次声道信号,可包括:根据所述当前帧的非相关性信号声道组合方案的声道组合比例因子,对所述当前帧的左右声道信号进行时域下混处理,以得到所述当前帧的主次声道信号;或者根据所述当前帧和前一帧的非相关性信号声道组合方案的声道组合比例因子,对所述当前帧的左右声道信号进行时域下混处理,以得到所述当前帧的主次声道信号。
可以理解,上述方案中需确定当前帧的声道组合方案,这就表示当前帧的声道组合方案存在多种可能,这相对于只有唯一一种声道组合方案的传统方案而言,多种可能的声道组合方案和多种可能场景之间有利于获得更好的兼容匹配效果。上述方案中需基于前一帧的声道组合方案和所述当前帧的声道组合方案来确定当前帧的编码模式,当前帧的编码模式存在多种可能,而这相对于只有唯一一种编码模式的传统方案而言,多种可能的编码模式和多种可能场景之间有利于获得更好的兼容匹配效果。
具体例如,在所述当前帧和前一帧的声道组合方案不同的情况下,可确定当前帧的编码模式例如可能为相关性信号到非相关性信号编码模式、或为非相关性信号到相关性信号编码模式,那么,可根据所述当前帧和前一帧的声道组合方案对所述当前帧的左右声道信号进行分段时域下混处理。
由于在所述当前帧和前一帧的声道组合方案不同的情况下引入了对所述当前帧的左右声道信号进行分段时域下混处理的机制,分段时域下混处理机制有利于实现声道组合方案的平滑过度,进而有利于提高编码质量。
相应的,下面针对时域立体声的解码场景进行举例说明。
参见图3,下面还提供一种音频解码模式确定方法,音频解码模式确定方法的相关步骤可由解码装置来实施,方法具体可包括:
301、基于码流中的当前帧的声道组合方案标识确定当前帧的声道组合方案。
302、根据前一帧的声道组合方案和所述当前帧的声道组合方案,确定所述当前帧的解码模式。
其中,所述当前帧的解码模式为多种解码模式中的其中一种。例如所述多种解码模式可包括:相关性信号到非相关性信号解码模式(correlated-to-anticorrelatedsignal decoding switching mode)、非相关性信号到相关性信号解码模式(anticorrelated-to-correlated signal decoding switching mode)、相关性信号解码模式(correlated signal decoding mode))和非相关性信号解码模式(anticorrelatedsignal decoding mode)等。
其中,相关性信号到非相关性信号解码模式对应的时域上混模式例如可称为“相关性信号到非相关性信号上混模式”(correlated-to-anticorrelated signal upmixswitching mode)。非相关性信号到相关性信号解码模式对应的时域上混模式例如可称为“非相关性信号到相关性信号上混模式”
(anticorrelated-to-correlated signal upmix switching mode)。相关性信号解码模式对应的时域上混模式例如可称为“相关性信号上混模式”(correlated signalupmix mode)。非相关性信号解码模式对应的时域上混模式例如可称为“非相关性信号上混模式”(anticorrelated signal upmix mode)。
可以理解,本申请实施例中对编码模式、解码模式和声道组合方案等对象的命名都是示意性的,在实际应用中也可能选用其他名称。
在一些可能的实施方式中,根据前一帧的声道组合方案和所述当前帧的声道组合方案确定所述当前帧的解码模式,包括:
在前一帧的声道组合方案为相关性信号声道组合方案,并且当前帧的声道组合方案为非相关性信号声道组合方案的情况下,确定所述当前帧的解码模式为相关性信号到非相关性信号解码模式,其中,相关性信号到非相关性信号解码模式采用从相关性信号声道组合方案过渡到非相关性信号声道组合方案对应的上混处理方法进行时域上混处理。
或者,
在前一帧的声道组合方案为非相关性信号声道组合方案,并且所述当前帧的声道组合方案为非相关性信号声道组合方案的情况下,确定所述当前帧的解码模式为非相关性信号解码模式,所述非相关性信号解码模式采用非相关性信号声道组合方案对应的上混处理方法进行时域上混处理。
或者,
在前一帧的声道组合方案为非相关性信号声道组合方案,并且当前帧的声道组合方案为相关性信号声道组合方案的情况下,确定所述当前帧的解码模式为非相关性信号到相关性信号解码模式,所述非相关性信号到相关性信号解码模式采用从非相关性信号声道组合方案过度到相关性信号声道组合方案对应的上混处理方法进行时域上混处理。
或者,
当前一帧的声道组合方案为相关性信号声道组合方案,当前帧的声道组合方案为相关性信号声道组合方案,确定为所述当前帧的解码模式为相关性信号解码模式,所述相关性信号解码模式采用相关性信号声道组合方案对应的上混处理方法进行时域上混处理。
例如解码装置在确定所述当前帧的解码模式为非相关性信号解码模式的情况下,采用所述非相关性信号解码模式对应的时域上混处理方式,对所述当前帧的主次声道解码信号进行时域上混处理以得到所述当前帧的左右声道重建信号。
其中,左右声道重建信号可为左右声道解码信号,或可通过将左右声道重建信号进行时延调整处理和/或时域后处理以得到左右声道解码信号。
其中,所述非相关性信号解码模式对应的时域上混处理方式为非相关性信号声道组合方案对应的时域上混处理方式,所述非相关性信号声道组合方案为类反相信号对应的声道组合方案。
其中,当前帧的解码模式可为多种解码模式中的其中一种。例如当前帧的解码模式可能是如下解码模式中的其中一种:相关性信号解码模式、非相关性信号解码模式、相关性到非相关性信号解码模式、非相关性到相关性信号解码模式。
可以理解,上述方案中需确定当前帧的解码模式,这就表示当前帧的解码模式存在多种可能,这相对于只有唯一一种解码模式的传统方案而言,多种可能的解码模式和多种可能场景之间有利于获得更好的兼容匹配效果。并且,由于引入了针对类反相信号对应的声道组合方案,这使得对于当前帧的立体声信号为类反相信号的情况下,有了针对性相对更强的声道组合方案和解码模式,进而有利于提高解码质量。
又例如,解码装置在确定所述当前帧的解码模式为相关性信号解码模式的情况下,采用所述相关性信号解码模式对应的时域上混处理方式,对所述当前帧的主次声道解码信号进行时域上混处理以得到所述当前帧的左右声道重建信号,所述相关性信号解码模式对应的时域上混处理方式为相关性信号声道组合方案对应的时域上混处理方式,所述相关性信号声道组合方案为类正相信号对应的声道组合方案。
又例如,解码装置在确定所述当前帧的解码模式为相关性到非相关性信号解码模式的情况下,采用所述相关性到非相关性信号解码模式对应的时域上混处理方式,对所述当前帧的主次声道解码信号进行时域上混处理以得到所述当前帧的左右声道重建信号,所述相关性到非相关性信号解码模式对应的时域上混处理方式为从相关性信号声道组合方案过度到非相关性信号声道组合方案对应的时域上混处理方式。
又例如,解码装置在确定所述当前帧的解码模式为非相关性到相关性信号解码模式的情况下,采用所述非相关性到相关性信号解码模式对应的时域上混处理方式,对所述当前帧的主次声道解码信号进行时域上混处理以得到所述当前帧的左右声道重建信号,所述非相关性到相关性信号解码模式对应的时域上混处理方式为从非相关性信号声道组合方案过度到相关性信号声道组合方案对应的时域上混处理方式。
可以理解,不同的解码模式所对应的时域上混处理方式通常不同。并且每种解码模式也可能对应一种或多种时域上混处理方式。
可以理解,上述方案中需确定当前帧的声道组合方案,这就表示当前帧的声道组合方案存在多种可能,这相对于只有唯一一种声道组合方案的传统方案而言,多种可能的声道组合方案和多种可能场景之间有利于获得更好的兼容匹配效果。上述方案中需基于前一帧的声道组合方案和所述当前帧的声道组合方案来确定当前帧的解码模式,当前帧的解码模式存在多种可能,而这相对于只有唯一一种解码模式的传统方案而言,多种可能的解码模式和多种可能场景之间有利于获得更好的兼容匹配效果。
进一步的,解码装置基于当前帧的解码模式所对应的时域上混处理对当前帧的主次声道解码信号进行时域上混处理,以得到当前帧的左右声道重建信号。
下面举例编码装置确定当前帧的声道组合方案的一些具体实现方式。编码装置确定当前帧的声道组合方案的具体实现方式是多种多样的。
举例来说,在一些可能实施方式中,确定当前帧的声道组合方案可包括:通过对所述当前帧进行至少一次声道组合方案判决,确定当前帧的声道组合方案。
具体例如,所述确定当前帧的声道组合方案包括:对所述当前帧进行声道组合方案初始判决,以确定所述当前帧的初始声道组合方案。基于所述当前帧的初始声道组合方案对所述当前帧进行声道组合方案修正判决,以确定所述当前帧的声道组合方案。此外,也可直接将所述当前帧的初始声道组合方案作为所述当前帧的声道组合方案,即所述当前帧的声道组合方案可为:通过对所述当前帧进行声道组合方案初始判决而确定的所述当前帧的初始声道组合方案。
例如,对所述当前帧进行声道组合方案初始判决可包括:利用所述当前帧的左右声道信号确定所述当前帧的立体声信号的信号正反相类型;利用所述当前帧的立体声信号的信号正反相类型和前一帧的声道组合方案确定所述当前帧的初始声道组合方案。其中,所述当前帧的立体声信号的信号正反相类型可以是类正相信号或类反相信号。所述当前帧的立体声信号的信号正反相类型可通过所述当前帧的信号正反相类型标识(信号正反相类型标识例如用tmp_SM_flag表示)来指示。具体例如,当所述当前帧的信号正反相类型标识取值为“1”时,指示所述当前帧的立体声信号的信号正反相类型为类正相信号,当所述当前帧的信号正反相类型标识取值为“0”时,指示所述当前帧的立体声信号的信号正反相类型为类反相信号,反之亦可。
音频帧(例如前一帧或当前帧)的声道组合方案可通过所述音频帧的声道组合方案标识来指示。例如当音频帧的声道组合方案标识取值为“0”时,指示该音频帧的声道组合方案为相关性信号声道组合方案。当音频帧的声道组合方案标识取值为“1”时,指示该音频帧的声道组合方案为非相关性信号声道组合方案,反之亦可。
类似的,音频帧(例如前一帧或当前帧)的初始声道组合方案可通过所述音频帧的初始声道组合方案标识(初始声道组合方案标识例如用tdm_SM_flag_loc表示)来指示。例如当音频帧的初始声道组合方案标识取值为“0”时,指示该音频帧的初始声道组合方案为相关性信号声道组合方案。又例如当音频帧的初始声道组合方案标识取值为“1”时,指示该音频帧的初始声道组合方案为非相关性信号声道组合方案,反之亦可。
其中,利用所述当前帧的左右声道信号确定所述当前帧的立体声信号的信号正反相类型可包括:计算所述当前帧的左右声道信号之间的相关性值xorr,在所述xorr小于或者等于第一阈值的情况下确定所述当前帧的立体声信号的信号正反相类型为类正相信号,在所述xorr大于第一阈值的情况下确定所述当前帧的立体声信号的信号正反相类型为类反相信号。进一步的,若利用所述当前帧的信号正反相类型标识来指示所述当前帧的立体声信号的信号正反相类型,则在确定所述当前帧的立体声信号的信号正反相类型为类正相信号的情况下,可置所述当前帧的信号正反相类型标识的取值指示出所述当前帧的立体声信号的信号正反相类型为类正相信号;那么,在确定所述当前帧的信号正反相类型为类正相信号的情况下,可置所述当前帧的信号正反相类型标识的取值指示出所述当前帧的立体声信号的信号正反相类型为类反相信号。
其中,第一阈值的取值范围例如可为(0.5,1.0),例如可等于0.5、0.85、0.75、0.65或0.81等。
具体例如,音频帧(例如前一帧或当前帧)的信号正反相类型标识取值为“0”时,指示该音频帧的立体声信号的信号正反相类型为类正相信号;音频帧(例如前一帧或当前帧)的信号正反相类型标识取值为“1”时,指示该音频帧的立体声信号的信号正反相类型为类反相信号,以此类推。
其中,利用所述当前帧的立体声信号的信号正反相类型和前一帧的声道组合方案确定所述当前帧的初始声道组合方案,例如可包括:
在所述当前帧的立体声信号的信号正反相类型为类正相信号,且前一帧的声道组合方案为相关性信号声道组合方案的情况下,确定所述当前帧的初始声道组合方案为相关性信号声道组合方案;在所述当前帧的立体声信号的信号正反相类型为类反相信号,且前一帧的声道组合方案为非相关性信号声道组合方案的情况下,确定所述当前帧的初始声道组合方案为非相关性信号声道组合方案。
或者,
在所述当前帧的立体声信号的信号正反相类型为类正相信号,并且前一帧的声道组合方案为非相关性信号声道组合方案的情况下,如果所述当前帧的左右声道信号的信噪比均小于第二阈值,确定所述当前帧的初始声道组合方案为相关性信号声道组合方案;如果所述当前帧的左声道信号和/或右声道信号的信噪比大于或等于第二阈值,确定所述当前帧的初始声道组合方案为非相关性信号声道组合方案。
或者,
在所述当前帧的立体声信号的信号正反相类型为类反相信号,并且前一帧的声道组合方案为相关性信号声道组合方案的情况下,如果所述当前帧的左右声道信号的信噪比均小于第二阈值,确定所述当前帧的初始声道组合方案为非相关性信号声道组合方案;如果所述当前帧的左声道信号和/或右声道信号的信噪比大于或等于第二阈值,确定所述当前帧的初始声道组合方案为相关性信号声道组合方案。
其中,第二阈值的取值范围例如可为[0.8,1.2],例如可等于0.8、0.85、0.9、1、1.1或1.18等。
其中,基于所述当前帧的初始声道组合方案对所述当前帧进行声道组合方案修正判决可以包括:根据前一帧的声道组合比例因子修正标识、所述当前帧的立体声信号的信号正反相类型和所述当前帧的初始声道组合方案,确定所述当前帧的声道组合方案。
其中,当前帧的声道组合方案标识可记作tdm_SM_flag,当前帧的声道组合比例因子修正标识记作tdm_SM_modi_flag。例如声道组合比例因子修正标识取值为0,表示无需进行声道组合比例因子的修正,声道组合比例因子修正标识取值为1,表示需进行声道组合比例因子的修正。当然,声道组合比例因子修正标识也可选用其它不同的取值来表示是否需进行声道组合比例因子的修正。
具体例如,基于所述当前帧的声道组合方案初始判决结果对所述当前帧进行声道组合方案修正判决,可包括:
如果前一帧的声道组合比例因子修正标识指示需修正声道组合比例因子,将非相关性信号声道组合方案作为所述当前帧的声道组合方案;如果前一帧的声道组合比例因子修正标识指示无需修正声道组合比例因子,判决当前帧是否满足切换条件,基于当前帧是否满足切换条件的判决结果确定当前帧的声道组合方案。
其中,所述基于当前帧是否满足切换条件的判决结果确定当前帧的声道组合方案,可以包括:
在前一帧的声道组合方案与所述当前帧的初始声道组合方案不同,并且所述当前帧满足切换条件,且所述当前帧的初始声道组合方案为相关性信号声道组合方案,且前一帧的声道组合方案为非相关性信号声道组合方案,确定所述当前帧的声道组合方案为非相关性信号声道组合方案。
或者,
在前一帧的声道组合方案与所述当前帧的初始声道组合方案不同,并且所述当前帧满足切换条件,且所述当前帧的初始声道组合方案为非相关性信号声道组合方案,且前一帧的声道组合方案为相关性信号声道组合方案,并且所述前一帧的声道组合比例因子小于第一比例因子阈值的情况下,确定所述当前帧的声道组合方案为相关性信号声道组合方案。
或者,
在前一帧的声道组合方案与所述当前帧的初始声道组合方案不同,并且所述当前帧满足切换条件,并且所述当前帧的初始声道组合方案为非相关性信号声道组合方案,并且前一帧的声道组合方案为相关性信号声道组合方案,并且所述前一帧的声道组合比例因子大于或者等于第一比例因子阈值的情况下,确定所述当前帧的声道组合方案为非相关性信号声道组合方案。
或者,
在第前P-1帧的声道组合方案与第前P帧的初始声道组合方案不同,且所述第前P帧的不满足切换条件,且所述当前帧满足切换条件,并且所述当前帧的立体声信号的信号正反相类型为类正相信号,并且所述当前帧的初始声道组合方案为相关性信号声道组合方案,并且前一帧为非相关性信号声道组合方案,确定所述当前帧的声道组合方案为相关性信号声道组合方案。
或者,
在第前P-1帧的声道组合方案与第前P帧的初始声道组合方案,且所述第前P帧的不满足切换条件,且所述当前帧满足切换条件,且当前帧的立体声信号的信号正反相类型为类反相信号,且所述当前帧的初始声道组合方案为非相关性信号声道组合方案,且前一帧的声道组合方案为相关性信号声道组合方案,并且所述前一帧的声道组合比例因子小于第二比例因子阈值的情况下,确定所述当前帧的声道组合方案为相关性信号声道组合方案。
或者,
在第前P-1帧的声道组合方案与第前P帧的初始声道组合方案不同,且所述第前P帧的不满足切换条件,且所述当前帧满足切换条件,且当前帧的立体声信号的正反相类型为类反相信号,且所述当前帧的初始声道组合方案为非相关性信号声道组合方案,且前一帧的声道组合方案为相关性信号声道组合方案,并且所述前一帧的声道组合比例因子大于或等于第二比例因子阈值的情况下,确定所述当前帧的声道组合方案为非相关性信号声道组合方案。
其中,P可为大于1的整数,例如P可等于2、3、4、5、6或其他值。
其中,第一比例因子阈值的取值范围例如可为[0.4,0.6],例如可等于0.4、0.45、0.5、0.55或0.6等。
其中,第二比例因子阈值的取值范围例如可为[0.4,0.6],例如可等于0.4、0.46、0.5、0.56或0.6等。
在一些可能实施方式中,判决当前帧是否满足切换条件可包括:根据前一帧的主要声道信号帧类型和/或次要声道信号帧类型判决当前帧是否满足切换条件。
在一些可能的实施方式中,判决当前帧是否满足切换条件可包括:
在第一条件、第二条件和第三条件都满足的情况下判决当前帧满足切换条件;或者在第二条件、第三条件、第四条件和第五条件都满足的情况下判决当前帧满足切换条件;或者在第六条件满足的情况下判决当前帧满足切换条件;
其中,
第一条件:前一帧的前一帧的主要声道信号帧类型为下列中的任意一种:VOICED_CLAS frame(浊音特性帧,其之前的帧为浊音帧或浊音开始帧)、ONSET frame(浊音开始帧)、SIN_ONSET frame(谐波和噪声混合的开始帧)、INACTIVE_CLAS frame(非活动特性帧)、AUDIO_CLAS(音频帧),且前一帧的主要声道信号帧类型为UNVOICED_CLAS frame(清音、静音、噪声或浊音结尾等几种特性之一的帧)或VOICED_TRANSITION frame(浊音之后的过度,浊音特性已经很弱的帧);或者,前一帧的前一帧的次要声道信号帧类型为下列中的任意一种:VOICED_CLAS frame、ONSET frame、SIN_ONSET frame、INACTIVE_CLAS frame和AUDIO_CLAS frame,且前一帧的次要声道信号帧类型为UNVOICED_CLAS frame或者VOICED_TRANSITION frame。
第二条件:前一帧的主要声道信号和次要声道信号的初始编码类型(raw codingmode)都不为VOICED(浊音帧对应的编码类型)。
第三条件:截至前一帧,已持续使用前一帧所使用的声道组合方案的帧数大于预设帧数阈值。帧数阈值的取值范围例如可为[3,10],例如帧数阈值可等于3、4、5、6、7、8、9或其他值。
第四条件:前一帧的主要声道信号帧类型为UNVOICED_CLAS,或前一帧的次要声道信号帧类型为UNVOICED_CLAS。
第五条件:当前帧的左右声道信号长时均方根能量值小于能量阈值。这个能量阈值的取值范围例如可为[300,500],例如帧数阈值可等于300、400、410、451、482、500、415或其他值。
第六条件:前一帧的主要声道信号帧类型为音乐信号,且前一帧的主要声道信号的低频段与高频段的能量比大于第一能量比阈值,且前一帧的次要声道信号的低频段与高频段的能量比大于第二能量比阈值。
其中,第一能量比阈值范围例如可为[4000,6000],例如帧数阈值可等于4000、4500、5000、5105、5200、6000、5800或其他值。
其中,第二能量比阈值范围例如可为[4000,6000],例如帧数阈值可等于4000、4501、5000、5105、5200、6000、5800或其他值。
可以理解,判决当前帧是否满足切换条件的实施方式可以是多种多样的,不限于上述举例的方式。
可以理解,上述举例中给出了确定当前帧的声道组合方案的一些实施方式,但实际应用中也可能不限于上述举例方式。
下面进一步针对非相关性信号编码模式场景进行举例说明。
参见图4、本申请实施例提供了一种音频编码方法,音频编码方法的相关步骤可由编码装置来实施,方法具体可以包括:
401、确定当前帧的编码模式。
402、在确定所述当前帧的编码模式为非相关性信号编码模式的情况下,采用所述非相关性信号编码模式对应的时域下混处理方式,对所述当前帧的左右声道信号进行时域下混处理以得到所述当前帧的主次声道信号。
403、对得到的所述当前帧的主次声道信号进行编码。
其中,所述非相关性信号编码模式对应的时域下混处理方式为非相关性信号声道组合方案对应的时域下混处理方式,所述非相关性信号声道组合方案为类反相信号对应的声道组合方案。
举例来说,在一些可能的实施方式之中,采用所述非相关性信号编码模式对应的时域下混处理方式,对所述当前帧的左右声道信号进行时域下混处理以得到所述当前帧的主次声道信号,可包括:根据所述当前帧的非相关性信号声道组合方案的声道组合比例因子,对所述当前帧的左右声道信号进行时域下混处理,以得到所述当前帧的主次声道信号;或者根据所述当前帧和前一帧的非相关性信号声道组合方案的声道组合比例因子,对所述当前帧的左右声道信号进行时域下混处理,以得到所述当前帧的主次声道信号。
可以理解,音频帧(例如当前帧或前一帧)的声道组合方案(例如非相关性信号声道组合方案或非相关性信号声道组合方案)的声道组合比例因子可以是预设的固定值。当然也可根据音频帧的声道组合方案来确定这个音频帧的声道组合比例因子。
在一些可能实施方式中,可基于音频帧的声道组合比例因子构建相应的下混矩阵,利用声道组合方案对应的下混矩阵来对所述当前帧的左右声道信号进行时域下混处理,以得到所述当前帧的主次声道信号。
例如,在根据所述当前帧的非相关性信号声道组合方案的声道组合比例因子,对所述当前帧的左右声道信号进行时域下混处理,以得到所述当前帧的主次声道信号的情况下,
又举例来说,在根据所述当前帧和前一帧的非相关性信号声道组合方案的声道组合比例因子,对所述当前帧的左右声道信号进行时域下混处理,以得到所述当前帧的主次声道信号的情况下,
if 0≤n<N-delay_com:
if N-delay_com≤n<N:
其中,所述delay_com表示编码时延补偿。
又举例来说,在根据所述当前帧和前一帧的非相关性信号声道组合方案的声道组合比例因子,对所述当前帧的左右声道信号进行时域下混处理,以得到所述当前帧的主次声道信号的情况下,
if 0≤n<N-delay_com:
if N-delay_com≤n<N-delay_com+NOVA_1:
if N-delay_com+NOVA_1≤n<N:
其中,fade_in(n)表示淡入因子。例如当然fade_in(n)也可以是基于n的其它函数关系的淡入因子。
fade_out(n)表示淡出因子。例如当然fade_out(n)也可以是基于n的其它函数关系的淡出因子。
其中,NOVA_1表示过渡处理长度。NOVA_1取值可根据具体场景需要设定。NOVA_1例如可等于3/N或者NOVA_1可为小于N的其它值。
又举例来说,在采用所述相关性信号编码模式对应的时域下混处理方式,对所述当前帧的左右声道信号进行时域下混处理,以得到所述当前帧的主次声道信号的情况下,
在上述举例中,所述XL(n)表示所述当前帧的左声道信号。所述XR(n)表示所述当前帧的右声道信号。所述Y(n)表示经时域下混处理而得到的所述当前帧的主要声道信号;所述X(n)表示经时域下混处理而得到的所述当前帧的次要声道信号。
其中,在上述举例中,所述n表示样点序号。例如n=0,1,…,N-1。
其中,在上述举例中,delay_com表示编码时延补偿。
M11表示所述前一帧的相关性信号声道组合方案对应的下混矩阵,M11基于所述前一帧的相关性信号声道组合方案对应的声道组合比例因子构建。
所述M12表示所述前一帧的非相关性信号声道组合方案对应的下混矩阵,所述M12基于所述前一帧的非相关性信号声道组合方案对应的声道组合比例因子构建。
所述M22表示所述当前帧的非相关性信号声道组合方案对应的下混矩阵,所述M22基于所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子构建。
所述M21表示所述当前帧的相关性信号声道组合方案对应的下混矩阵,所述M21基于所述当前帧的相关性信号声道组合方案对应的声道组合比例因子构建。
其中,所述M21可能存在多种形式,例如:
或
其中,所述ratio表示当前帧的相关性信号声道组合方案对应的声道组合比例因子。
其中,所述M22可能存在多种形式,例如:
或
或
或
或
或
其中,α1=ratio_SM;α2=1-ratio_SM。所述ratio_SM表示所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子。
其中,所述M12可能存在多种形式,例如:
或
或
或
或
或
其中,α1_pre=tdm_last_ratio_SM;α2_pre=1-tdm_last_ratio_SM。tdm_last_ratio_SM表示前一帧的非相关性信号声道组合方案对应的声道组合比例因子。
其中,当前帧的左右声道信号具体可以是所述当前帧的原始左右声道信号(原始左右声道信号是未经时域预处理的左右声道信号,例如可以是采样得到左右声道信号),或者可是所述当前帧的经时域预处理的左右声道信号;或者可以是当前帧的经时延对齐处理的左右声道信号。
具体例如,
或
或
其中,所述表示所述当前帧的原始左右声道信号。所述表示所述当前帧的经时域预处理的左右声道信号。所述表示所述当前帧的经时延对齐处理的左右声道信号。
相应的,下面针对非相关性信号解码模式场景进行举例说明。
参见图5,本申请实施例还提供一种音频解码方法,音频解码方法的相关步骤可由解码装置来实施,方法具体可以包括:
501、根据码流进行解码以得到当前帧的主次声道解码信号。
502、确定所述当前帧的解码模式。
可以理解,步骤501和步骤502的执行没有必然的先后顺序。
503、在确定所述当前帧的解码模式为非相关性信号解码模式的情况下,采用所述非相关性信号解码模式对应的时域上混处理方式,对所述当前帧的主次声道解码信号进行时域上混处理以得到所述当前帧的左右声道重建信号。
其中,左右声道重建信号可为左右声道解码信号,或可通过将左右声道重建信号进行时延调整处理和/或时域后处理以得到左右声道解码信号。
其中,所述非相关性信号解码模式对应的时域上混处理方式为非相关性信号声道组合方案对应的时域上混处理方式,所述非相关性信号声道组合方案为类反相信号对应的声道组合方案。
其中,当前帧的解码模式可为多种解码模式中的其中一种。例如当前帧的解码模式可能是如下解码模式中的其中一种:相关性信号解码模式、非相关性信号解码模式、相关性到非相关性信号解码模式、非相关性到相关性信号解码模式。
可以理解,上述方案中需确定当前帧的解码模式,这就表示当前帧的解码模式存在多种可能,这相对于只有唯一一种解码模式的传统方案而言,多种可能的解码模式和多种可能场景之间有利于获得更好的兼容匹配效果。并且,由于引入了针对类反相信号对应的声道组合方案,这使得对于当前帧的立体声信号为类反相信号的情况下,有了针对性相对更强的声道组合方案和解码模式,进而有利于提高解码质量。
在一些可能实施方式中,所述方法还可包括:
在确定所述当前帧的解码模式为相关性信号解码模式的情况下,采用所述相关性信号解码模式对应的时域上混处理方式,对所述当前帧的主次声道解码信号进行时域上混处理以得到所述当前帧的左右声道重建信号,所述相关性信号解码模式对应的时域上混处理方式为相关性信号声道组合方案对应的时域上混处理方式,所述相关性信号声道组合方案为类正相信号对应的声道组合方案。
在一些可能实施方式中,所述方法还可包括:在确定所述当前帧的解码模式为相关性到非相关性信号解码模式的情况下,采用所述相关性到非相关性信号解码模式对应的时域上混处理方式,对所述当前帧的主次声道解码信号进行时域上混处理以得到所述当前帧的左右声道重建信号,所述相关性到非相关性信号解码模式对应的时域上混处理方式为从相关性信号声道组合方案过度到非相关性信号声道组合方案对应的时域上混处理方式。
在一些可能实施方式中,所述方法还可包括:在确定所述当前帧的解码模式为非相关性到相关性信号解码模式的情况下,采用所述非相关性到相关性信号解码模式对应的时域上混处理方式,对所述当前帧的主次声道解码信号进行时域上混处理以得到所述当前帧的左右声道重建信号,所述非相关性到相关性信号解码模式对应的时域上混处理方式为从非相关性信号声道组合方案过度到相关性信号声道组合方案对应的时域上混处理方式。
可以理解,不同的解码模式所对应的时域上混处理方式通常不同。并且每种解码模式也可能对应一种或多种时域上混处理方式。
举例来说,在一些可能的实施方式中,所述采用所述非相关性信号解码模式对应的时域上混处理方式,对所述当前帧的主次声道解码信号进行时域上混处理以得到所述当前帧的左右声道重建信号,包括:
根据所述当前帧的非相关性信号声道组合方案的声道组合比例因子,对所述当前帧的主次声道解码信号进行时域上混处理以得到所述当前帧的左右声道重建信号;或者根据所述当前帧和前一帧的非相关性信号声道组合方案的声道组合比例因子,对所述当前帧的主次声道解码信号进行时域上混处理以得到所述当前帧的左右声道重建信号。
在一些可能实施方式中,可基于音频帧的声道组合比例因子构建相应的上混矩阵,利用声道组合方案对应的上混矩阵,来对所述当前帧的主次声道解码信号进行时域上混处理以得到所述当前帧的左右声道重建信号。
举例来说,在根据所述当前帧的非相关性信号声道组合方案的声道组合比例因子,对所述当前帧的主次声道解码信号进行时域上混处理以得到所述当前帧的左右声道重建信号的情况下,
又举例来说,在根据所述当前帧和前一帧的非相关性信号声道组合方案的声道组合比例因子,对所述当前帧的主次声道解码信号进行时域上混处理以得到所述当前帧的左右声道重建信号的情况下,
if 0≤n<N-upmixing_delay:
if N-upmixing_delay≤n<N:
其中,所述delay_com表示编码时延补偿。
又举例来说,在根据所述当前帧和前一帧的非相关性信号声道组合方案的声道组合比例因子,对所述当前帧的主次声道解码信号进行时域上混处理以得到所述当前帧的左右声道重建信号的情况下,
if 0≤n<N-upmixing_delay:
if N-upmixing_delay≤n<N-upmixing_delay+NOVA_1:
if N-upmixing_delay+NOVA_1≤n<N:
其中,所述表示所述当前帧的左声道解码信号,所述表示所述当前帧的右声道重建信号,所述表示所述当前帧的主要声道解码信号,所述表示所述当前帧的次要声道解码信号;
其中,所述NOVA_1表示过渡处理长度。
其中,fade_in(n)表示淡入因子。例如当然fade_in(n)也可以是基于n的其它函数关系的淡入因子。
其中,fade_out(n)表示淡出因子。例如当然fade_out(n)也可以是基于n的其它函数关系的淡出因子。
其中,NOVA_1表示过渡处理长度。NOVA_1取值可根据具体场景需要设定。NOVA_1例如可等于3/N或者NOVA_1可为小于N的其它值。
又举例来说,在根据所述当前帧的相关性信号声道组合方案的声道组合比例因子,对所述当前帧的主次声道解码信号进行时域上混处理以得到所述当前帧的左右声道重建信号的情况下,
在上述举例中,所述表示所述当前帧的左声道解码信号。所述表示所述当前帧的右声道重建信号。所述表示所述当前帧的主要声道解码信号。所述表示所述当前帧的次要声道解码信号。
其中,在上述举例中,所述n表示样点序号。例如n=0,1,…,N-1。
其中,在上述举例中,所述upmixing_delay表示解码时延补偿;
表示所述前一帧的相关性信号声道组合方案对应的上混矩阵,所述基于所述前一帧的相关性信号声道组合方案对应的声道组合比例因子构建。
所述表示所述当前帧的非相关性信号声道组合方案对应的上混矩阵,所述基于所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子构建。
所述表示所述前一帧的非相关性信号声道组合方案对应的上混矩阵,所述基于所述前一帧的非相关性信号声道组合方案对应的声道组合比例因子构建。
所述表示所述当前帧的相关性信号声道组合方案对应的上混矩阵,所述基于所述当前帧的相关性信号声道组合方案对应的声道组合比例因子构建。
其中,所述可能存在多种形式,例如:
或
或
或
或
或
其中,α1=ratio_SM;α2=1-ratio_SM;所述ratio_SM表示所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子。
其中,所述可能存在多种形式,例如:
或
或
或
或
或
其中,α1_pre=tdm_last_ratio_SM;α2_pre=1-tdm_last_ratio_SM。
其中,tdm_last_ratio_SM表示前一帧的非相关性信号声道组合方案对应的声道组合比例因子。
其中,所述可能存在多种形式,例如:
或
其中,所述ratio表示当前帧的相关性信号声道组合方案对应的声道组合比例因子。
下面针对相关性信号到非相关性信号编码模式和非相关性信号到非相关性信号编码模式场景进行举例说明。相关性信号到非相关性信号编码模式和非相关性信号到非相关性信号编码模式对应的时域下混处理方式例如为分段时域下混处理方式。
参见图6、本申请实施例提供了一种音频编码方法,音频编码方法的相关步骤可由编码装置来实施,方法具体可以包括:
601、确定当前帧的声道组合方案。
602、在所述当前帧和前一帧的声道组合方案不同的情况下,根据所述当前帧和前一帧的声道组合方案对所述当前帧的左右声道信号进行分段时域下混处理,以得到所述当前帧的主要声道信号和次要声道信号。
603、对得到的所述当前帧的主要声道信号和次要声道信号进行编码。
其中,在所述当前帧和前一帧的声道组合方案不同的情况下,可确定当前帧的编码模式为相关性信号到非相关性信号编码模式或非相关性信号到非相关性信号编码模式,而如果当前帧的编码模式为相关性信号到非相关性信号编码模式或非相关性信号到非相关性信号编码模式,那么例如可根据所述当前帧和前一帧的声道组合方案对所述当前帧的左右声道信号进行分段时域下混处理。
具体例如,当前一帧的声道组合方案为相关性信号声道组合方案,且当前帧的声道组合方案为非相关性信号声道组合方案,可确定当前帧的编码模式为相关性信号到非相关性信号编码模式。又例如,当前一帧的声道组合方案为非相关性信号声道组合方案,且当前帧的声道组合方案为相关性信号声道组合方案,可确定当前帧的编码模式为非相关性信号到相关性信号编码模式。以此类推。
其中,分段时域下混处理可以理解为是当前帧的左右声道信号被分为至少两段,针对每段采用不同的时域下混处理方式进行时域下混处理。可以理解,相对于非分段时域下混处理而言,分段时域下混处理使得在相邻帧的声道组合方案发生变化时获得更好平滑过度变得更有可能。
可以理解,上述方案中需确定当前帧的声道组合方案,这就表示当前帧的声道组合方案存在多种可能,这相对于只有唯一一种声道组合方案的传统方案而言,多种可能的声道组合方案和多种可能场景之间有利于获得更好的兼容匹配效果。并且,由于在所述当前帧和前一帧的声道组合方案不同的情况下引入了对所述当前帧的左右声道信号进行分段时域下混处理的机制,分段时域下混处理机制有利于实现声道组合方案的平滑过度,进而有利于提高编码质量。
并且,由于引入了针对类反相信号对应的声道组合方案,这使得对于当前帧的立体声信号为类反相信号的情况下,有了针对性相对更强的声道组合方案和编码模式,进而有利于提高编码质量。
举例来说,前一帧的声道组合方案例如可能为相关性信号声道组合方案或非相关性信号声道组合方案。当前帧的声道组合方案可能为相关性信号声道组合方案或非相关性信号声道组合方案。那么当前帧和前一帧的声道组合方案不同也存在好几种可能情况。
具体例如,当所述前一帧的声道组合方案为相关性信号声道组合方案且所述当前帧的声道组合方案为非相关性信号声道组合方案,所述当前帧的左右声道信号包括左右声道信号起始段、左右声道信号中间段和左右声道信号结尾段;所述当前帧的主次声道信号包括主次声道信号起始段、主次声道信号中间段和主次声道信号结尾段。那么,根据所述当前帧和前一帧的声道组合方案对所述当前帧的左右声道信号进行分段时域下混处理,以得到所述当前帧的主要声道信号和次要声道信号,可以包括:
使用所述前一帧的相关性信号声道组合方案对应的声道组合比例因子和相关性信号声道组合方案对应的时域下混处理方式,对所述当前帧的左右声道信号起始段进行时域下混处理,以得到所述当前帧的主次声道信号起始段;
使用所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子和非相关性信号声道组合方案对应的时域下混处理方式,对所述当前帧的左右声道信号结尾段进行时域下混处理,以得到所述当前帧的主次声道信号结尾段;
使用所述前一帧的相关性信号声道组合方案对应的声道组合比例因子和相关性信号声道组合方案对应的时域下混处理方式,对所述当前帧的左右声道信号中间段进行时域下混处理以得到第一主次声道信号中间段;使用当前帧的非相关性信号声道组合方案对应的声道组合比例因子和非相关性信号声道组合方案对应的时域下混处理方式,对所述当前帧的左右声道信号中间段进行时域下混处理以得到第二主次声道信号中间段;将所述第一主次声道信号中间段和所述第二主次声道信号中间段进行加权求和处理以得到所述当前帧的主次声道信号中间段。
其中,所述当前帧的左右声道信号起始段、左右声道信号中间段和左右声道信号结尾段的长度可根据需要进行设定。所述当前帧的左右声道信号起始段、左右声道信号中间段和左右声道信号结尾段的长度可以相等、部分相等或互不相等。
其中,所述当前帧的主次声道信号起始段、主次声道信号中间段和主次声道信号结尾段的长度可根据需要进行设定。所述当前帧的主次声道信号起始段、主次声道信号中间段和主次声道信号结尾段的长度可以相等、部分相等或互不相等。
其中,将所述第一主次声道信号中间段和所述第二主次声道信号中间段进行加权求和处理时,所述第一主次声道信号中间段对应的加权系数,可等于或不等于所述第二主次声道信号中间段对应的加权系数。
举例来说,将所述第一主次声道信号中间段和所述第二主次声道信号中间段进行加权求和处理时,所述第一主次声道信号中间段对应的加权系数为淡出因子,所述第二主次声道信号中间段对应的加权系数为淡入因子。
在一些可能实施方式中,
其中,X11(n)表示所述当前帧的主要声道信号起始段。Y11(n)表示所述当前帧的次要声道信号起始段。X31(n)表示所述当前帧的主要声道信号结尾段。Y31(n)表示所述当前帧的次要声道信号结尾段。X21(n)表示所述当前帧的主要声道信号中间段。Y21(n)表示所述当前帧的次要声道信号中间段;
其中,X(n)表示所述当前帧的主要声道信号。
其中,Y(n)表示所述当前帧的次要声道信号。
例如,
例如,fade_in(n)表示淡入因子,fade_out(n)表示淡出因子。例如,fade_in(n)和fade_out(n)之和为1。
具体例如,当然,fade_in(n)也可以是基于n的其它函数关系的淡入因子。当然,fade_out(n)也可以是基于n的其它函数关系的淡入因子。
其中,n表示样点序号,n=0,1,…,N-1。0<N1<N2<N-1。
例如N1等于100,107、120、150或其他值。
例如N2等于180,187、200、203或其他值。
其中,所述X211(n)表示所述当前帧的第一主要声道信号中间段,所述Y211(n)表示所述当前帧的第一次要声道信号中间段。其中,所述X212(n)表示所述当前帧的第二主要声道信号中间段,所述Y212(n)表示所述当前帧的第二次要声道信号中间段。
在一些可能实施方式中,
其中,所述XL(n)表示所述当前帧的左声道信号。所述XR(n)表示所述当前帧的右声道信号。
所述M11表示所述前一帧的相关性信号声道组合方案对应的下混矩阵,所述M11基于所述前一帧的相关性信号声道组合方案对应的声道组合比例因子构建。所述M22表示所述当前帧的非相关性信号声道组合方案对应的下混矩阵,所述M22基于所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子构建。
所述M22可以有多种可能的形式,具体例如:
或
或
或
或
或
其中,所述α1=ratio_SM,所述α2=1-ratio_SM,所述ratio_SM表示所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子。
所述M11可以有多种可能的形式,具体例如:
或
其中,所述tdm_last_ratio表示所述前一帧的相关性信号声道组合方案对应的声道组合比例因子。
又具体例如,当所述前一帧的声道组合方案为非相关性信号声道组合方案且所述当前帧的声道组合方案为相关性信号声道组合方案,其中,所述当前帧的左右声道信号包括左右声道信号起始段、左右声道信号中间段和左右声道信号结尾段;所述当前帧的主次声道信号包括主次声道信号起始段、主次声道信号中间段和主次声道信号结尾段。那么,所述根据所述当前帧和前一帧的声道组合方案对所述当前帧的左右声道信号进行分段时域下混处理,以得到所述当前帧的主要声道信号和次要声道信号,可以包括:
使用所述前一帧的非相关性信号声道组合方案对应的声道组合比例因子和非相关性信号声道组合方案对应的时域下混处理方式,对所述当前帧的左右声道信号起始段进行时域下混处理,以得到所述当前帧的主次声道信号起始段;
使用所述当前帧的相关性信号声道组合方案对应的声道组合比例因子和相关性信号声道组合方案对应的时域下混处理方式,对所述当前帧的左右声道信号结尾段进行时域下混处理,以得到所述当前帧的主次声道信号结尾段;
使用所述前一帧的非相关性信号声道组合方案对应的声道组合比例因子和非相关性信号声道组合方案对应的时域下混处理方式,对所述当前帧的左右声道信号中间段进行时域下混处理以得到第三主次声道信号中间段;使用当前帧的相关性信号声道组合方案对应的声道组合比例因子和相关性信号声道组合方案对应的时域下混处理方式,对所述当前帧的左右声道信号中间段进行时域下混处理以得到第四主次声道信号中间段;将所述第三主次声道信号中间段和所述第四主次声道信号中间段进行加权求和处理以得到所述当前帧的主次声道信号中间段。
其中,将所述第三主次声道信号中间段和所述第四主次声道信号中间段进行加权求和处理时,所述第三主次声道信号中间段对应的加权系数,可等于或不等于所述第四主次声道信号中间段对应的加权系数。
例如,将所述第三主次声道信号中间段和所述第四主次声道信号中间段进行加权求和处理时,所述第三主次声道信号中间段对应的加权系数为淡出因子,所述第四主次声道信号中间段对应的加权系数为淡入因子。
在一些可能实施方式中,
其中,X12(n)表示所述当前帧的主要声道信号起始段,Y12(n)表示所述当前帧的次要声道信号起始段。X32(n)表示所述当前帧的主要声道信号结尾段,Y32(n)表示所述当前帧的次要声道信号结尾段。X22(n)表示所述当前帧的主要声道信号中间段,Y22(n)表示所述当前帧的次要声道信号中间段。
其中,X(n)表示所述当前帧的主要声道信号。
其中,Y(n)表示所述当前帧的次要声道信号。
例如,
其中,fade_in(n)表示淡入因子表示,fade_out(n)表示淡出因子,fade_in(n)和fade_out(n)之和为1。
具体例如,当然,fade_in(n)也可以是基于n的其它函数关系的淡入因子。当然,fade_out(n)也可以是基于n的其它函数关系的淡入因子。
其中,n表示样点序号,例如n=0,1,…,N-1。
其中,0<N3<N4<N-1。
例如N3等于101,107、120、150或其他值。
例如N4等于181,187、200、205或其他值。
其中,所述X221(n)表示所述当前帧的第三主要声道信号中间段,所述Y221(n)表示所述当前帧的第三次要声道信号中间段。其中,所述X222(n)表示所述当前帧的第四主要声道信号中间段,所述Y222(n)表示所述当前帧的第四次要声道信号中间段。
在一些可能实施方式中,
其中,所述XL(n)表示所述当前帧的左声道信号,所述XR(n)表示所述当前帧的右声道信号。
所述M12表示所述前一帧的非相关性信号声道组合方案对应的下混矩阵,所述M12基于所述前一帧的非相关性信号声道组合方案对应的声道组合比例因子构建。所述M21表示所述当前帧相关性信号声道组合方案对应的下混矩阵,所述M21基于所述当前帧的相关性信号声道组合方案对应的声道组合比例因子构建。
所述M12可以有多种可能的形式,具体例如:
或
或
或
或
或
其中,α1_pre=tdm_last_ratio_SM;α2_pre=1-tdm_last_ratio_SM。
其中,tdm_last_ratio_SM表示前一帧的非相关性信号声道组合方案对应的声道组合比例因子。
所述M21可以有多种可能的形式,具体例如:
或
其中,所述ratio表示所述当前帧的相关性信号声道组合方案对应的声道组合比例因子。
在一些可能实施方式中,所述当前帧的左右声道信号例如可以为当前帧的原始左右声道信号,经时域预处理的左右声道信号或经时延对齐处理的左右声道信号。
具体例如:
或
或
其中,所述xL(n)表示所述当前帧的原始左声道信号(原始左声道信号是未经时域预处理的左声道信号),所述xR(n)表示所述当前帧的原始右声道信号(原始右声道信号是未经时域预处理的右声道信号)。
所述xL_HP(n)表示所述当前帧的经时域预处理的左声道信号,所述xR_HP(n)表示所述当前帧的经时域预处理的右声道信号。所述x′L(n)表示所述当前帧的经时延对齐处理的左声道信号,所述x′R(n)表示所述当前帧的经时延对齐处理的右声道信号。
可以理解,上述举例的分段时域下混处理方式并不一定是全部的可能实施方式,在实际应用中也可能采用其他分段时域下混处理方式。
相应的,下面针对相关性信号到非相关性信号解码模式和非相关性信号到非相关性信号解码模式场景进行举例说明。相关性信号到非相关性信号解码模式和非相关性信号到非相关性信号解码模式对应的时域下混处理方式例如为分段时域下混处理方式。
参见图7,本申请实施例提供一种音频解码方法,音频解码方法的相关步骤可由解码装置来实施,方法具体可包括:
701、根据码流进行解码以得到当前帧的主次声道解码信号。
702、确定当前帧的声道组合方案。
可以理解,步骤701和步骤702的执行没有必然的先后顺序。
703、在所述当前帧和前一帧的声道组合方案不同的情况下,根据所述当前帧和前一帧的声道组合方案对所述当前帧的主次声道解码信号进行分段时域上混处理,以得到所述当前帧的左右声道重建信号。
其中,所述当前帧的声道组合方案为多种声道组合方案中的其中一种。
其中,例如所述多种声道组合方案包括非相关性信号声道组合方案和相关性信号声道组合方案。其中,所述相关性信号声道组合方案为类正相信号对应的声道组合方案。所述非相关性信号声道组合方案为类反相信号对应的声道组合方案。可以理解,类正相信号对应的声道组合方案适用于类正相信号,类反相信号对应的声道组合方案适用于类反相信号。
其中,分段时域上混处理可以理解为是当前帧的左右声道信号被分为至少两段,针对每段采用不同的时域上混处理方式进行时域上混处理。可以理解,相对于非分段时域上混处理而言,分段时域上混处理使得在相邻帧的声道组合方案发生变化时获得更好平滑过度变得更有可能。
可以理解,上述方案中需确定当前帧的声道组合方案,这就表示当前帧的声道组合方案存在多种可能,这相对于只有唯一一种声道组合方案的传统方案而言,多种可能的声道组合方案和多种可能场景之间有利于获得更好的兼容匹配效果。并且,由于在所述当前帧和前一帧的声道组合方案不同的情况下引入了对所述当前帧的左右声道信号进行分段时域上混处理的机制,分段时域上混处理机制有利于实现声道组合方案的平滑过度,进而有利于提高编码质量。
并且,由于引入了针对类反相信号对应的声道组合方案,这使得对于当前帧的立体声信号为类反相信号的情况下,有了针对性相对更强的声道组合方案和编码模式,进而有利于提高编码质量。
举例来说,前一帧的声道组合方案例如可能为相关性信号声道组合方案或非相关性信号声道组合方案。当前帧的声道组合方案可能为相关性信号声道组合方案或非相关性信号声道组合方案。那么当前帧和前一帧的声道组合方案不同也存在好几种可能情况。
具体例如,当所述前一帧的声道组合方案为相关性信号声道组合方案且所述当前帧的声道组合方案为非相关性信号声道组合方案。其中,所述当前帧的左右声道重建信号包括左右声道重建信号起始段、左右声道重建信号中间段和左右声道重建信号结尾段;所述当前帧的主次声道解码信号包括主次声道解码信号起始段、主次声道解码信号中间段和主次声道解码信号结尾段。那么,所述根据所述当前帧和前一帧的声道组合方案对所述当前帧的主次声道解码信号进行分段时域上混处理,以得到所述当前帧的左右声道重建信号,包括:使用所述前一帧的相关性信号声道组合方案对应的声道组合比例因子和相关性信号声道组合方案对应的时域上混处理方式,对所述当前帧的主次声道解码信号起始段进行时域上混处理,以得到所述当前帧的左右声道重建信号起始段;
使用所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子和非相关性信号声道组合方案对应的时域上混处理方式,对所述当前帧的主次声道解码信号结尾段进行时域上混处理,以得到所述当前帧的左右声道重建信号结尾段;
使用所述前一帧的相关性信号声道组合方案对应的声道组合比例因子和相关性信号声道组合方案对应的时域上混处理方式,对所述当前帧的主次声道解码信号中间段进行时域上混处理以得到第一左右声道重建信号中间段;使用当前帧的非相关性信号声道组合方案对应的声道组合比例因子和非相关性信号声道组合方案对应的时域上混处理方式,对所述当前帧的主次声道解码信号中间段进行时域上混处理以得到第二左右声道重建信号中间段;将所述第一左右声道重建信号中间段和所述第二左右声道重建信号中间段进行加权求和处理以得到所述当前帧的左右声道重建信号中间段。
其中,所述当前帧的左右声道重建信号起始段、左右声道重建信号中间段和左右声道重建信号结尾段的长度可根据需要进行设定。所述当前帧的左右声道重建信号起始段、左右声道重建信号中间段和左右声道重建信号结尾段的长度可以相等、部分相等或互不相等。
其中,所述当前帧的主次声道解码信号起始段、主次声道解码信号中间段和主次声道解码信号结尾段的长度可根据需要进行设定。所述当前帧的主次声道解码信号起始段、主次声道解码信号中间段和主次声道解码信号结尾段的长度可以相等、部分相等或互不相等。
其中,左右声道重建信号可为左右声道解码信号,或可通过将左右声道重建信号进行时延调整处理和/或时域后处理以得到左右声道解码信号。
其中,将所述第一左右声道重建信号中间段和所述第二左右声道重建信号中间段进行加权求和处理时,所述第一左右声道重建信号中间段对应的加权系数,可等于或不等于第二左右声道重建信号中间段对应的加权系数。
举例来说,将所述第一左右声道重建信号中间段和所述第二左右声道重建信号中间段进行加权求和处理时,所述第一左右声道重建信号中间段对应的加权系数为淡出因子,所述第二左右声道重建信号中间段对应的加权系数为淡入因子。
在一些可能实施方式中,
其中,表示所述当前帧的左声道重建信号起始段,表示所述当前帧的右声道重建信号起始段。表示所述当前帧的左声道重建信号结尾段,表示所述当前帧的右声道重建信号结尾段。其中,表示所述当前帧的左声道重建信号中间段,表示所述当前帧的右声道重建信号中间段。
其中,表示所述当前帧的左声道重建信号。
其中,表示所述当前帧的右声道重建信号。
例如,
例如,fade_in(n)表示淡入因子,fade_out(n)表示淡出因子。例如,fade_in(n)和fade_out(n)之和为1。
具体例如,当然,fade_in(n)也可以是基于n的其它函数关系的淡入因子。当然,fade_out(n)也可以是基于n的其它函数关系的淡入因子。
其中,n表示样点序号,n=0,1,…,N-1。其中,0<N1<N2<N-1。
其中,所述表示所述当前帧的第一左声道重建信号中间段,所述表示所述当前帧的第一右声道重建信号中间段。所述表示所述当前帧的第二左声道重建信号中间段,所述表示所述当前帧的第二右声道重建信号中间段。
在一些可能实施方式中,
其中,表示所述当前帧的主要声道解码信号;表示所述当前帧的次要声道解码信号。
所述表示所述前一帧的相关性信号声道组合方案对应的上混矩阵,所述基于所述前一帧的相关性信号声道组合方案对应的声道组合比例因子构建。所述表示所述当前帧的非相关性信号声道组合方案对应的上混矩阵,所述基于所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子构建。
所述可以有多种可能的形式,具体例如:
或
或
或
或
或
其中,α1=ratio_SM;α2=1-ratio_SM;所述ratio_SM表示所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子。
所述可以有多种可能的形式,具体例如:
或
其中,所述tdm_last_ratio表示所述前一帧的相关性信号声道组合方案对应的声道组合比例因子。
又具体例如,当所述前一帧的声道组合方案为非相关性信号声道组合方案且所述当前帧的声道组合方案为相关性信号声道组合方案。其中,所述当前帧的左右声道重建信号包括左右声道重建信号起始段、左右声道重建信号中间段和左右声道重建信号结尾段;所述当前帧的主次声道解码信号包括主次声道解码信号起始段、主次声道解码信号中间段和主次声道解码信号结尾段。那么,所述根据所述当前帧和前一帧的声道组合方案对所述当前帧的主次声道解码信号进行分段时域上混处理,以得到所述当前帧的左右声道重建信号,包括:
使用所述前一帧的非相关性信号声道组合方案对应的声道组合比例因子和非相关性信号声道组合方案对应的时域上混处理方式,对所述当前帧的主次声道解码信号起始段进行时域上混处理,以得到所述当前帧的左右声道重建信号起始段;
使用所述当前帧的相关性信号声道组合方案对应的声道组合比例因子和相关性信号声道组合方案对应的时域上混处理方式,对所述当前帧的主次声道解码信号结尾段进行时域上混处理,以得到所述当前帧的左右声道重建信号结尾段;
使用所述前一帧的非相关性信号声道组合方案对应的声道组合比例因子和非相关性信号声道组合方案对应的时域上混处理方式,对所述当前帧的主次声道解码信号中间段进行时域上混处理以得到第三左右声道重建信号中间段;使用当前帧的相关性信号声道组合方案对应的声道组合比例因子和相关性信号声道组合方案对应的时域上混处理方式,对所述当前帧的主次声道解码信号中间段进行时域上混处理以得到第四左右声道重建信号中间段;将所述第三左右声道重建信号中间段和所述第四左右声道重建信号中间段进行加权求和处理以得到所述当前帧的左右声道重建信号中间段。
其中,将所述第三左右声道重建信号中间段和所述第四左右声道重建信号中间段进行加权求和处理时,所述第三左右声道重建信号中间段对应的加权系数,可等于或不等于所述第四左右声道重建信号中间段对应的加权系数。
例如,将所述第三左右声道重建信号中间段和所述第四左右声道重建信号中间段进行加权求和处理时,所述第三左右声道重建信号中间段对应的加权系数为淡出因子,所述第四左右声道重建信号中间段对应的加权系数为淡入因子。
在一些可能实施方式中,
其中,表示所述当前帧的左声道重建信号起始段,表示所述当前帧的右声道重建信号起始段。表示所述当前帧的左声道重建信号结尾段,表示所述当前帧的右声道重建信号结尾段。其中,表示所述当前帧的左声道重建信号中间段,表示所述当前帧的右声道重建信号中间段;
其中,表示所述当前帧的左声道重建信号。
其中,表示所述当前帧的右声道重建信号。
例如,
其中,fade_in(n)表示淡入因子表示,fade_out(n)表示淡出因子,fade_in(n)和fade_out(n)之和为1。
具体例如,当然,fade_in(n)也可以是基于n的其它函数关系的淡入因子。当然,fade_out(n)也可以是基于n的其它函数关系的淡入因子。
其中,n表示样点序号,例如n=0,1,…,N-1。
其中,0<N3<N4<N-1。
例如N3等于101,107、120、150或其他值。
例如N4等于181,187、200、205或其他值。
其中,所述表示所述当前帧的第三左声道重建信号中间段,所述表示所述当前帧的第三右声道重建信号中间段;所述表示所述当前帧的第四左声道重建信号中间段,所述表示所述当前帧的第四右声道重建信号中间段。
在一些可能实施方式中,
其中,表示所述当前帧的主要声道解码信号;表示所述当前帧的次要声道解码信号。
所述表示所述前一帧的非相关性信号声道组合方案对应的上混矩阵,所述基于所述前一帧的非相关性信号声道组合方案对应的声道组合比例因子构建;所述表示所述当前帧的相关性信号声道组合方案对应的上混矩阵,所述基于所述当前帧的相关性信号声道组合方案对应的声道组合比例因子构建。
所述可以有多种可能的形式,具体例如:
或
或
或
或
或
其中,α1_pre=tdm_last_ratio_SM;α2_pre=1-tdm_last_ratio_SM;
其中,tdm_last_ratio_SM表示前一帧的非相关性信号声道组合方案对应的声道组合比例因子。
所述可以有多种可能的形式,具体例如:
或
其中,所述ratio表示所述当前帧的相关性信号声道组合方案对应的声道组合比例因子。
本申请实施例中,当前帧的立体声参数(例如声道组合比例因子和/或声道间时延差)可为固定值,也可基于当前帧的声道组合方案(例如相关性信号声道组合方案或非相关性信号声道组合方案)来确定。
参见图8,下面举例一种时域立体声参数的确定方法,时域立体声参数的确定方法的相关步骤可由编码装置来实施,方法具体可以包括:
801、确定当前帧的声道组合方案。
802、根据所述当前帧的声道组合方案确定所述当前帧的时域立体声参数,所述时域立体声参数包括声道组合比例因子和声道间时延差中的至少一种。
其中,所述当前帧的声道组合方案为多种声道组合方案中的其中一种。
其中,例如所述多种声道组合方案包括非相关性信号声道组合方案和相关性信号声道组合方案。
其中,所述相关性信号声道组合方案为类正相信号对应的声道组合方案。所述非相关性信号声道组合方案为类反相信号对应的声道组合方案。可以理解,类正相信号对应的声道组合方案适用于类正相信号,类反相信号对应的声道组合方案适用于类反相信号。
在确定所述当前帧的声道组合方案为相关性信号声道组合方案的情况下,所述当前帧的时域立体声参数为所述当前帧的相关性信号声道组合方案对应的时域立体声参数;在确定所述当前帧的声道组合方案为非相关性信号声道组合方案的情况下,所述当前帧的时域立体声参数为所述当前帧的非相关性信号声道组合方案对应的时域立体声参数。
可以理解,上述方案中需确定当前帧的声道组合方案,这就表示当前帧的声道组合方案存在多种可能,这相对于只有唯一一种声道组合方案的传统方案而言,多种可能的声道组合方案和多种可能场景之间有利于获得更好的兼容匹配效果。由于是根据所述当前帧的声道组合方案确定所述当前帧的时域立体声参数,这使得时域立体声参数和多种可能场景之间有利于获得更好的兼容匹配效果,进而有利于提升编解码质量。
在一些可能实施方式中,可以先分别计算出当前帧的非相关性信号声道组合方案对应的声道组合比例因子和当前帧的相关性信号声道组合方案对应的声道组合比例因子。而后在确定当前帧的声道组合方案为相关性信号声道组合方案的情况下,确定当前帧的时域立体声参数为所述当前帧的相关性信号声道组合方案对应的时域立体声参数;或者,在确定当前帧的声道组合方案为非相关性信号声道组合方案的情况下,确定当前帧的时域立体声参数为所述当前帧的非相关性信号声道组合方案对应的时域立体声参数。或者,也可先计算出当前帧的相关性信号声道组合方案对应的时域立体声参数,在确定当前帧的声道组合方案为相关性信号声道组合方案的情况下,确定当前帧的时域立体声参数为所述当前帧的相关性信号声道组合方案对应的时域立体声参数;而在确定当前帧的声道组合方案为非相关性信号声道组合方案的情况下,再计算所述当前帧的非相关性信号声道组合方案对应的时域立体声参数,将计算出的所述当前帧的非相关性信号声道组合方案对应的时域立体声参数,确认为当前帧的时域立体声参数。
或者,也可先确定当前帧的声道组合方案,在确定所述当前帧的声道组合方案为相关性信号声道组合方案的情况下,计算所述当前帧的相关性信号声道组合方案对应的时域立体声参数,那么,当前帧的时域立体声参数为当前帧的相关性信号声道组合方案对应的时域立体声参数。而在确定当前帧的声道组合方案为非相关性信号声道组合方案的情况下,计算所述当前帧的非相关性信号声道组合方案对应的时域立体声参数,那么,当前帧的时域立体声参数为当前帧的非相关性信号声道组合方案对应的时域立体声参数。
在一些可能实施方式中,根据所述当前帧的声道组合方案确定所述当前帧的时域立体声参数包括:根据所述当前帧的声道组合方案,确定所述当前帧的声道组合方案所对应的声道组合比例因子初始值。在无需对所述当前帧的声道组合方案(相关性信号声道组合方案或非相关性信号声道组合方法)对应的声道组合比例因子的初始值进行修正的情况之下,所述当前帧的声道组合方案对应的声道组合比例因子,等于所述当前帧的声道组合方案对应的声道组合比例因子的初始值。在需对所述当前帧的声道组合方案(相关性信号声道组合方案或非相关性信号声道组合方法)对应的声道组合比例因子的初始值进行修正的情况之下,对所述当前帧的声道组合方案对应的声道组合比例因子的初始值进行修正,以得到所述当前帧的声道组合方案对应的声道组合比例因子的修正值,所述当前帧的声道组合方案对应的声道组合比例因子,等于所述当前帧的声道组合方案对应的声道组合比例因子的修正值。
举例来说,所述根据所述当前帧的声道组合方案确定所述当前帧的时域立体声参数可以包括:根据所述当前帧左声道信号计算所述当前帧的左声道信号的帧能量;根据所述当前帧右声道信号计算所述当前帧的右声道信号的帧能量;根据所述当前帧左声道信号的帧能量和右声道信号的帧能量,计算所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的初始值。
其中,在无需对所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的初始值进行修正的情况下,所述当前帧的相关性信号声道组合方案对应的声道组合比例因子等于所述当前帧的相关性信号声道组合方案对应的声道组合比例因子初始值,所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的编码索引等于所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的初始值的编码索引;
在需对所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的初始值进行修正的情况下,对所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的初始值及其编码索引进行修正,以得到所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的修正值及其编码索引,所述当前帧的相关性信号声道组合方案对应的声道组合比例因子等于所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的修正值;所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的编码索引等于所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的修正值的编码索引。
具体例如,在对所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的初始值及其编码索引进行修正的情况下,
ratio_idx_mod=0.5*(tdm_last_ratio_idx+16);
ratio_modqua=ratio_tabl[ratio_idx_mod];
其中,所述tdm_last_ratio_idx表示前一帧的相关性信号声道组合方案对应的声道组合比例因子的编码索引,所述ratio_idx_mod表示所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的修正值对应的编码索引,所述ratio_modqua表示所述当前帧的相关性信号声道组合方案对应的声道组合比例因子的修正值。
又例如,根据所述当前帧的声道组合方案确定所述当前帧的时域立体声参数包括:根据所述当前帧的左声道信号和右声道信号获得所述当前帧的参考声道信号;计算所述当前帧的左声道信号与参考声道信号之间的幅度相关性参数;计算所述当前帧的右声道信号与参考声道信号之间的幅度相关性参数;根据所述当前帧的左右声道信号与参考声道信号之间的幅度相关性参数,计算所述当前帧的左右声道信号之间的幅度相关性差异参数;根据所述当前帧的左右声道信号之间的幅度相关性差异参数,计算所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子。
其中,根据所述当前帧的左右声道信号之间的幅度相关性差异参数,计算所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子,例如可包括:根据所述当前帧的左右声道信号之间的幅度相关性差异参数,计算所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子初始值;对所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子初始值进行修正,以得到所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子。可以理解,当无需对所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子初始值进行修正时,那么,所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子,等于所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子初始值。
在一些可能的实施方式中,
其中,
其中,所述mono_i(n)表示所述当前帧的参考声道信号。
其中,所述x′L(n)表示所述当前帧经时延对齐处理的左声道信号;所述x′R(n)表示所述当前帧经时延对齐处理的右声道信号。所述corr_LM表示所述当前帧的左声道信号与参考声道信号之间的幅度相关性参数,所述corr_RM表示所述当前帧的右声道信号与参考声道信号之间的幅度相关性参数。
在一些可能的实施方式中,所述根据所述当前帧的左右声道信号与参考声道信号之间的幅度相关性参数,计算所述当前帧的左右声道信号之间的幅度相关性差异参数,包括:根据当前帧经时延对齐处理的左声道信号与参考声道信号之间的幅度相关性参数,计算当前帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数;根据当前帧经时延对齐处理的右声道信号与参考声道信号之间的幅度相关性参数,计算当前帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数;根据当前帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数及当前帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数,计算当前帧左右声道之间的幅度相关性差异参数。
其中,平滑处理的方式可以是多样多样的,举例来说:
tdm_lt_corr_LM_SMcur=α*tdm_lt_corr_LM_SMpre+(1-α)corr_LM;
其中,tdm_lt_rms_L_SMcur=(1-A)*tdm_lt_rms_L_SMpre+A*rms_L,所述A表示所述当前帧的左声道信号的长时平滑帧能量的更新因子。所述tdm_lt_rms_L_SMcur表示所述当前帧的左声道信号的长时平滑帧能量;其中,所述rms_L表示所述当前帧左声道信号的帧能量。tdm_lt_corr_LM_SMcur表示当前帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数。tdm_lt_corr_LM_SMpre表示前一帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数。α表示左声道平滑因子。
举例来说,
tdm_lt_corr_RM_SMcur=β*tdm_lt_corr_RM_SMpre+(1-β)corr_LM。
其中,tdm_lt_rms_R_SMcur=(1-B)*tdm_lt_rms_R_SMpre+B*rms_R;所述B表示所述当前帧的右声道信号的长时平滑帧能量的更新因子。所述tdm_lt_rms_R_SMpre表示所述当前帧的右声道信号的长时平滑帧能量。其中,所述rms_R表示所述当前帧右声道信号的帧能量。其中,tdm_lt_corr_RM_SMcur表示所述当前帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数。tdm_lt_corr_RM_SMpre表示前一帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数。β表示右声道平滑因子。
在一些可能的实施方式中,
diff_lt_corr=tdm_lt_corr_LM_SM-tdm_lt_corr_RM_SM;
其中,tdm_lt_corr_LM_SM表示所述当前帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数,tdm_lt_corr_RM_SM表示所述当前帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数,所述diff_lt_corr表示所述当前帧左右声道信号之间的幅度相关性差异参数。
在一些可能的实施方式中,所述根据所述当前帧的左右声道信号之间的幅度相关性差异参数,计算所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子包括:对当前帧的左右声道信号之间的幅度相关性差异参数进行映射处理,使映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的取值范围在[MAP_MIN,MAP_MAX]之间;将映射处理后的左右声道信号之间的幅度相关性差异参数转换为声道组合比例因子。
在一些可能的实施方式中,对所述当前帧的左右声道之间的幅度相关性差异参数进行映射处理包括:对所述当前帧的左右声道信号之间的幅度相关性差异参数进行限幅处理;对经限幅处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数进行映射处理。
其中,限幅处理的方式可以是多种多样的,具体例如:
其中,RATIO_MAX表示经限幅处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的最大值,RATIO_MIN表示经限幅处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的最小值,RATIO_MAX>RATIO_MIN。
其中,映射处理的方式可以是多种多样的,具体例如:
B1=MAP_MAX-RATIO_MAX*A1,或B1=MAP_HIGH-RATIO_HIGH*A1
B2=MAP_LOW-RATIO_LOW*A2,或B2=MAP_MIN-RATIO_MIN*A2
B3=MAP_HIGH-RATIO_HIGH*A3,或B3=MAP_LOW-RATIO_LOW*A3
其中,所述diff_lt_corr_map表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数;
其中,MAP_MAX表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的最大值;MAP_HIGH表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的高门限;MAP_LOW表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的低门限;MAP_MIN表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的最小值;
其中,MAP_MAX>MAP_HIGH>MAP_LOW>MAP_MIN;
RATIO_MAX表示经限幅处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的最大值,RATIO_HIGH表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的高门限,RATIO_LOW表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的低门限,RATIO_MIN表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的最小值;
其中,RATIO_MAX>RATIO_HIGH>RATIO_LOW>RATIO_MIN。
又例如,
其中,diff_lt_corr_limit表示经限幅处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数;diff_lt_corr_map表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数。
其中,
其中,所述RATIO_MAX表示所述当前帧的左右声道信号之间的幅度相关性差异参数的最大幅度,所述-RATIO_MAX表示所述当前帧的左右声道信号之间的幅度相关性差异参数的最小幅度。
在一些可能的实施方式中,
其中,所述diff_lt_corr_map表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数。所述ratio_SM表示所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子,或所述ratio_SM表示所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始值。
在本申请一些实施方式,在需进行声道组合比例因子修正的场景,修正可以在编码声道组合比例因子之前或之后。具体例如,可先计算得到当前帧的声道组合比例因子(例如非相关性信号声道组合方案对应的声道组合比例因子或者相关性信号声道组合方案对应的声道组合比例因子)的初始值,而后对声道组合比例因子的初始值进行编码,进而得到当前帧的声道组合比例因子的初始编码索引,而后再对得到的当前帧的声道组合比例因子的初始编码索引进行修正,进而得到当前帧的声道组合比例因子的编码索引(得到当前帧的声道组合比例因子的编码索引,也就相当于也得到了当前帧的声道组合比例因子)。或者,也可以先计算得到当前帧的声道组合比例因子的初始值,而后对计算得到当前帧的声道组合比例因子的初始值进行修正,进而得到当前帧的声道组合比例因子,而后在对得到的当前帧的声道组合比例因子进行编码,以得到当前帧的声道组合比例因子的编码索引。
其中,对所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始值进行修正的方式可以是多种多样的,例如,在需要通过对所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始值进行修正,来得到所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的情况下,例如可以基于前一帧的声道组合比例因子和所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始值,来对所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始值进行修正;或者,也可基于所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始值,对所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始值进行修正。
例如,首先,根据当前帧的左声道信号的长时平滑帧能量、当前帧的右声道信号的长时平滑帧能量、当前帧的左声道信号的帧间能量差异、历史缓存中的缓存前一帧的编码参数(例如主要声道信号的帧间相关性、次要声道信号的帧间相关性)、当前帧以及前一帧的声道组合方案标识、前一帧的非相关性信号声道组合方案对应的声道组合比例因子以及当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始值,确定是否需要对当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始值进行修正。若是,则将前一帧的非相关性信号声道组合方案对应的声道组合比例因子作为当前帧的非相关性信号声道组合方案对应的声道组合比例因子;否则,将当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始值作为当前帧的非相关性信号声道组合方案对应的声道组合比例因子。
当然,通过对所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始值进行修正,来得到所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的具体实现方式并不限于上述举例。
803、对确定的所述当前帧的时域立体声参数进行编码。
在一些可能的实施方式中,对确定的当前帧的非相关性信号声道组合方案对应的声道组合比例因子进行量化编码,
ratio_init_SMqua=ratio_tabl_SM[ratio_idx_init_SM]。
其中,所述ratio_tabl_SM表示所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子标量量化的码书,所述ratio_idx_init_SM表示所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始编码索引,所述ratio_init_SMqua表示当前帧的非相关性信号声道组合方案对应的声道组合比例因子的量化编码初始值。
在一些可能的实施方式中,
ratio_idx_SM=ratio_idx_init_SM。
ratio_SM=ratio_tabl[ratio_idx_SM]。
其中,所述ratio_SM表示所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子。ratio_idx_SM表示当前帧的非相关性信号声道组合方案对应的声道组合比例因子的编码索引;
或者,
ratio_idx_SM=φ*ratio_idx_init_SM+(1-φ)*tdm_last_ratio_idx_SM
ratio_SM=ratio_tabl[ratio_idx_SM]
其中,ratio_idx_init_SM表示所述当前帧的非相关性信号声道组合方案对应的初始编码索引,tdm_last_ratio_idx_SM表示前一帧的非相关性信号声道组合方案对应的声道组合比例因子的最终编码索引,其中,为非相关性信号声道组合方案对应的声道组合比例因子的修正因子。其中,所述ratio_SM表示当前帧的非相关性信号声道组合方案对应的声道组合比例因子。
在一些可能的实施方式中,在需要通过对所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始值进行修正,来得到所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的情况下,还可以先所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始值进行量化编码,所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始编码索引,然后可以基于前一帧的声道组合比例因子的编码索引和所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始编码索引,来对所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始编码索引进行修正;或者,也可基于所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始编码索引,对所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始编码索引进行修正。
例如,可以是先将当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始值进行量化编码,得到当前帧的非相关性信号声道组合方案对应的初始编码索引。然后在需要对当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始值进行修正时,将前一帧的非相关性信号声道组合方案对应的声道组合比例因子的编码索引作为当前帧的非相关性信号声道组合方案对应的声道组合比例因子的编码索引;否则,将当前帧的非相关性信号声道组合方案对应的声道组合比例因子的初始编码索引作为当前帧的非相关性信号声道组合方案对应的声道组合比例因子的编码索引。最后,将当前帧的非相关性信号声道组合方案对应的声道组合比例因子的编码索引对应的量化编码值作为当前帧的非相关性信号声道组合方案对应的声道组合比例因子。
此外,在时域立体声参数包括声道间时间差的情况下,根据所述当前帧的声道组合方案确定所述当前帧的时域立体声参数可包括:在所述当前帧的声道组合方案为相关性信号声道组合方案的情况下,计算所述当前帧的声道间时间差。并且可将计算得到的所述当前帧的声道间时间差写入码流。在所述当前帧的声道组合方案为非相关性信号声道组合方案的情况下使用默认的声道间时间差(例如0)作为所述当前帧的声道间时间差。并且可不将默认的声道间时间差写入码流,解码装置也使用默认的声道间时间差。
下面还举例提供一种时域立体声参数的编码方法,例如可以包括:确定当前帧的声道组合方案;根据所述当前帧的声道组合方案确定所述当前帧的时域立体声参数;对确定的所述当前帧的时域立体声参数进行编码,所述时域立体声参数包括声道组合比例因子和声道间时延差中的至少一种。
相应的,解码装置可从码流中获得当前帧的时域立体声参数,进而基于从码流中获得的当前帧的时域立体声参数来进行相关解码。
下面通过一个更为具体的应用场景进行举例说明。
参见图9-A,图9-A是本申请实施例提供的一种音频编码方法的流程示意图。本申请实施例提供的一种音频编码方法可由编码装置来实施,方法具体可包括:
901、对当前帧的原始左右声道信号进行时域预处理。
例如若立体声音频信号的采样率为16KHz,一帧信号为20ms,帧长记作N,当N=320是表示帧长为320个样点。其中,当前帧的立体声信号包括当前帧的左声道信号和当前帧的右声道信号。其中,当前帧的原始左声道信号记作xL(n),当前帧的原始右声道信号记作xR(n),n为样点序号,n=0,1,…,N-1。
例如,对当前帧的原始左右声道信号进行时域预处理可包括:对当前帧的原始左右声道信号进行高通滤波处理,得到当前帧经时域预处理的左右声道信号,当前帧经时域预处理的左声道信号记作xL_HP(n),当前帧经时域预处理的的右声道信号记作xR_HP(n)。其中,n为样点序号。n=0,1,…,N-1。其中,高通滤波处理采用的滤波器例如可为截止频率为20Hz的无限脉冲响应滤波器(英文:Infinite Impulse Response,缩写:IIR)滤波器,也可采用其他类型的滤波器。例如采样率为16KHz且对应截止频率为20Hz的高通滤波器的传递函数可为:
其中,b0=0.994461788958195,b1=-1.988923577916390,b2=0.994461788958195,a1=1.988892905899653,a2=-0.988954249933127,z为Z变换的变换因子。
其中,相应的时域滤波器的传递函数可表示为:
xL_HP(n)=b0*xL(n)+b1*xL(n-1)+b2*xL(n-2)-a1*xL_HP(n-1)-a2*xL_HP(n-2)
xR_HP(n)=b0*xR(n)+b1*xR(n-1)+b2*xR(n-2)-a1*xR_HP(n-1)-a2*xR_HP(n-2)
902、对当前帧经时域预处理的左右声道信号进行时延对齐处理,得到当前帧经时延对齐处理的左右声道信号。
其中,经时延对齐处理的信号可简称“时延对齐的信号”。例如经时延对齐处理的左声道信号可简称“时延对齐的左声道信号”,经时延对齐处理的右声道信号可简称“时延对齐的左声道信号”,以此类推。
具体地,可根据当前帧预处理后的左右声道信号提取声道间时延参数并编码,根据编码后的声道间时延参数对左右声道信号进行时延对齐处理,得到当前帧经时延对齐处理的左右声道信号。其中,当前帧经时延对齐处理的左声道信号记作x′L(n),当前帧经时延对齐处理的右声道信号记作x′R(n),其中,n为样点序号,n=0,1,…,N-1。
具体例如,编码装置可根据当前帧预处理后的左右声道信号计算左右声道间的时域互相关函数。搜索左右声道间的时域互相关函数的最大值(或其它值)以确定左右声道信号间的时延差。对确定的左右声道间的时延差进行量化编码。根据量化编码后的左右声道间时延差,以左右声道中选定的一个声道的信号为基准,对另一个声道的信号进行时延调整,从而获得当前帧经时延对齐处理的左右声道信号。值得注意的是,时延对齐处理的具体实现方法有很多种,本实施例中对具体时延对齐处理方法不做限定。
903、对当前帧经时延对齐处理的左右声道信号进行时域分析。
具体地,时域分析可以包括瞬态检测等。其中,瞬态检测可以是对分别当前帧经时延对齐处理的左右声道信号进行能量检测(具体可检测当前帧是否发生能量突变)。例如,当前帧经时延对齐处理的左声道信号的能量表示为Ecur_L,前一帧时延对齐后的左声道信号的能量表示为Epre_L,那么可根据Epre_L和Ecur_L之间的差值的绝对值来进行瞬态检测,得到当前帧经时延对齐处理的左声道信号的瞬态检测结果。同理,可以用同样的方法对当前帧经时延对齐处理的左声道信号进行瞬态检测。时域分析也可以包括除瞬态检测之外的其他传统方式的时域分析,例如可包括频带扩展预处理等。
可以理解,步骤903可在步骤902之后,在对当前帧的主要声道信号编码和次要声道信号编码之前的任意位置执行。
904、根据当前帧经时延对齐处理的左右声道信号进行当前帧的声道组合方案判决以确定当前帧的声道组合方案。
本实施例中举例两种可能的声道组合方案,以下描述中分别称为相关性信号声道组合方案和非相关性信号声道组合方案。本实施例中,相关性信号声道组合方案对应了当前帧(时延对齐后的)左右声道信号为类正相信号的情况下,而非相关性信号声道组合方案对应了当前帧(时延对齐后的)左右声道信号为类反相信号的情况。当然,除了用“相关性信号声道组合方案”和“非相关性信号声道组合方案”来表征这两种可能的声道组合方案之外,在实际应用中不限于用其他的名称命名这两种不同的声道组合方案。
本实施例一些方案中,声道组合方案判决可分为声道组合方案初始判决和声道组合方案修正判决。可以理解,通过进行当前帧的声道组合方案判决,进而确定所述当前帧的声道组合方案。其中,确定当前帧的声道组合方案的一些举例实施方式,可参考上述实施例的相关描述,此处不再赘述。
905、根据当前帧经时延对齐处理的左右声道信号和当前帧的声道组合方案标识,计算当前帧相关性信号声道组合方案对应的声道组合比例因子并编码,得到当前帧相关性信号声道组合方案对应的声道组合比例因子的初始值及其编码索引。
具体例如,首先根据当前帧经时延对齐处理的左右声道信号计算当前帧的左右声道信号的帧能量。
其中,当前帧左声道信号的帧能量rms_L满足:
其中,当前帧右声道信号的帧能量rms_R满足:
其中,x′L(n)表示当前帧经时延对齐处理的左声道信号。
其中,x′R(n)表示当前帧经时延对齐处理的右声道信号。
然后,根据当前帧左声道的帧能量和右声道的帧能量,计算当前帧相关性信号声道组合方案对应的声道组合比例因子。其中,计算得到的当前帧相关性信号声道组合方案对应的声道组合比例因子ratio_init满足:
然后,对计算得到的当前帧相关性信号声道组合方案对应的声道组合比例因子ratio_init进行量化编码,得到对应的编码索引ratio_idx_init,及量化编码后的当前帧相关性信号声道组合方案对应的声道组合比例因子ratio_initqua:
ratio_initqua=ratio_tabl[ratio_idx_init]
其中,ratio_tabl为标量量化的码书。其中,量化编码可以采用传统的任何一种标量量化方法,例如均匀标量量化,也可以是非均匀标量量化,编码比特数例如为5比特,这里对标量量化的具体方法不再赘述。
量化编码后的当前帧相关性信号声道组合方案对应的声道组合比例因子ratio_initqua即为得到的当前帧相关性信号声道组合方案对应的声道组合比例因子的初始值,编码索引ratio_idx_init即为当前帧相关性信号声道组合方案对应的声道组合比例因子的初始值对应的编码索引。
另外,还可根据当前帧的声道组合方案标识tdm_SM_flag的值,对当前帧相关性信号声道组合方案对应的声道组合比例因子的初始值对应的编码索引进行修正。
例如,量化编码为5比特的标量量化,则当tdm_SM_flag=1时,将当前帧相关性信号声道组合方案对应的声道组合比例因子的初始值对应的编码索引ratio_idx_init修正为某一预先设定值(例如15或其他取值);并且,可将当前帧相关性信号声道组合方案对应的声道组合比例因子的初始值修正为ratio_initqua=ratio_tabl[15]。
值得注意的是,除了上述计算方法,还可根据时域立体声编码传统技术中任何一种计算声道组合方案对应的声道组合比例因子的方法,计算当前帧相关性信号声道组合方案对应的声道组合比例因子。也可直接将当前帧相关性信号声道组合方案对应的声道组合比例因子的初始值设置为固定值(例如0.5或其他值)。
906、可根据声道组合比例因子修正标识来判决是否需对声道组合比例因子进行修正。
若是,则修正当前帧相关性信号声道组合方案对应的声道组合比例因子及其编码索引,得到当前帧相关性信号声道组合方案对应的声道组合比例因子的修正值及其编码索引。
其中,当前帧的声道组合比例因子修正标识记作tdm_SM_modi_flag。例如声道组合比例因子修正标识取值为0,表示无需进行声道组合比例因子的修正,声道组合比例因子修正标识取值为1,表示需进行声道组合比例因子的修正。当然声道组合比例因子修正标识也可选用其它不同的取值来表示是否需进行声道组合比例因子的修正。
例如,根据声道组合比例因子修正标识判决是否需对声道组合比例因子进行修正具体可包括:例如若声道组合比例因子修正标识tdm_SM_modi_flag=1,则判决需对声道组合比例因子进行修正。又例如若声道组合比例因子修正标识tdm_SM_modi_flag=0,则判决无需对声道组合比例因子进行修正。
其中,修正当前帧相关性信号声道组合方案对应的声道组合比例因子及其编码索引具体可以包括:
例如当前帧相关性信号声道组合方案对应的声道组合比例因子的修正值对应的编码索引满足:ratio_idx_mod=0.5*(tdm_last_ratio_idx+16),其中,tdm_last_ratio_idx为上一帧相关性信号声道组合方案对应的声道组合比例因子的编码索引。
那么,当前帧相关性信号声道组合方案对应的声道组合比例因子的修正值ratio_modqua满足:ratio_modqua=ratio_tabl[ratio_idx_mod]。。
907、根据当前帧相关性信号声道组合方案对应的声道组合比例因子的初始值及其编码索引、当前帧相关性信号声道组合方案对应的声道组合比例因子的修正值及其编码索引、以及声道组合比例因子修正标识,确定当前帧相关性信号声道组合方案对应的声道组合比例因子ratio和编码索引ratio_idx。
具体例如,确定的相关性信号声道组合方案对应的声道组合比例因子ratio满足:
其中,上述ratio_initqua表示当前帧的相关性信号声道组合方案对应的声道组合比例因子的初始值,上述ratio_modqua表示当前帧的相关性信号声道组合方案对应的声道组合比例因子的修正值,上述tdm_SM_modi_flag表示当前帧的声道组合比例因子修正标识。
其中,确定的相关性信号声道组合方案对应的声道组合比例因子对应的编码索引ratio_idx满足:
其中,ratio_idx_init表示当前帧相关性信号声道组合方案对应的声道组合比例因子的初始值对应的编码索引,ratio_idx_mod表示当前帧相关性信号声道组合方案对应的声道组合比例因子的修正值对应的编码索引。
908、判断当前帧的声道组合方案标识是否对应非相关性信号声道组合方案,若是则计算当前帧非相关性信号声道组合方案对应的声道组合比例因子并编码,得到非相关性信号声道组合方案对应的声道组合比例因子和编码索引。
首先,可判断是否需要对计算当前帧非相关性信号声道组合方案对应的声道组合比例因子用到的历史缓存进行重置。
例如若当前帧的声道组合方案标识tdm_SM_flag等于1(例如tdm_SM_flag等于1表示当前帧的声道组合方案标识对应非相关性信号声道组合方案),而前一帧的声道组合方案标识tdm_last_SM_flag等于0(例如tdm_last_SM_flag等于0表示当前帧的声道组合方案标识对应相关性信号声道组合方案),则表示需要对计算当前帧非相关性信号声道组合方案对应的声道组合比例因子用到的历史缓存进行重置。
值得注意的是,判断是否需要对计算当前帧非相关性信号声道组合方案对应的声道组合比例因子用到的历史缓存进行重置,也可以通过在声道组合方案初始判决和声道组合方案修正判决的过程中确定历史缓存重置标识tdm_SM_reset_flag,然后,通过判断历史缓存重置标识的取值来实现。例如tdm_SM_reset_flag为1,表示当前帧的声道组合方案标识对应了非相关性信号声道组合方案而前一帧的声道组合方案标识对应了相关性信号声道组合方案。例如历史缓存重置标识tdm_SM_reset_flag等于1,表示需要对计算当前帧非相关性信号声道组合方案对应的声道组合比例因子用到的历史缓存进行重置。具体的重置方法有很多种,可以是将计算当前帧非相关性信号声道组合方案对应的声道组合比例因子用到的历史缓存中的所有参数均按照预先设定的初始值进行重置;或者也可以是将计算当前帧非相关性信号声道组合方案对应的声道组合比例因子用到的历史缓存中的部分参数均按照预先设定的初始值进行重置;或者还可将计算当前帧非相关性信号声道组合方案对应的声道组合比例因子用到的历史缓存中的部分参数均按照预先设定的初始值进行重置,而另一部分参数按照计算相关性信号声道组合方案对应的声道组合比例因子用到的历史缓存中对应的参数值进行重置。
接下来,进一步判断当前帧的声道组合方案标识tdm_SM_flag是否对应非相关性信号声道组合方案。其中,非相关性信号声道组合方案是一种更加适合于对类反相立体声信号进行时域下混的声道组合方案。其中,在本实施例中,在当前帧的声道组合方案标识tdm_SM_flag=1时,表征当前帧的声道组合方案标识对应了非相关性信号声道组合方案;在当前帧的声道组合方案标识tdm_SM_flag=0时,表征当前帧的声道组合方案标识对应了相关性信号声道组合方案。
判断当前帧的声道组合方案标识是否对应非相关性信号声道组合方案具体可包括:
判断当前帧的声道组合方案标识的值是否为1。若当前帧的声道组合方案标识tdm_SM_flag=1,表示当前帧的声道组合方案标识对应非相关性信号声道组合方案。在这种情况下,可计算当前帧非相关性信号声道组合方案对应的声道组合比例因子并编码。
参见图9-B,计算当前帧非相关性信号声道组合方案对应的声道组合比例因子并编码例如可包括如下的步骤9081-9085。
9081、对当前帧经时延对齐处理的左右声道信号进行信号能量分析。
分别得到当前帧左声道信号的帧能量、当前帧右声道信号的帧能量、当前帧左声道的长时平滑帧能量、当前帧右声道的长时平滑帧能量、当前帧左声道的帧间能量差异和当前帧右声道的帧间能量差异。
例如当前帧左声道信号的帧能量rms_L满足:
其中,当前帧右声道信号的帧能量rms_R满足:
其中,x′L(n)表示当前帧经时延对齐处理的左声道信号。
其中,x′R(n)表示当前帧经时延对齐处理的右声道信号。
例如当前帧左声道的长时平滑帧能量tdm_lt_rms_L_SMcur满足:
tdm_lt_rms_L_SMcur=(1-A)*tdm_lt_rms_L_SMpre+A*rms_L
其中,tdm_lt_rms_L_SMpre表示前一帧左声道的长时平滑帧能量,A表示左声道长时平滑帧能量的更新因子,A例如可以取0到1之间的实数,A例如可等于0.4。
例如当前帧右声道的长时平滑帧能量tdm_lt_rms_R_SMcur满足:
tdm_lt_rms_R_SMcur=(1-B)*tdm_lt_rms_R_SMpre+B*rms_R
其中,tdm_lt_rms_R_SMpre表示前一帧右声道的长时平滑帧能量,B表示右声道长时平滑帧能量的更新因子,B例如可以取0到1之间的实数,B例如可以和左声道长时平滑帧能量的更新因子取相同或不同的数值,B例如也可等于0.4。
例如当前帧左声道的帧间能量差异ener_L_dt满足:
ener_L_dt=tdm_lt_rms_L_SMcur-tdm_lt_rms_L_SMpre
例如当前帧右声道的帧间能量差异ener_R_dt满足:
ener_R_dt=tdm_lt_rms_R_SMcur-tdm_lt_rms_R_SMpre
9082、根据当前帧经时延对齐处理的左右声道信号确定当前帧的参考声道信号。参考声道信号也可被称作单声道信号,若将参考声道信号称作单声道信号,则后续所有与参考声道相关的描述和参数命名,则可以统一将参考声道信号替换为单声道信号。
例如参考声道信号mono_i(n)满足:
其中,x′L(n)为当前帧经时延对齐处理的左声道信号,其中,x′R(n)为当前帧经时延对齐处理的右声道信号。
9083、分别计算当前帧经时延对齐处理的左右声道信号与参考声道信号之间的幅度相关性参数。
例如,当前帧经时延对齐处理的左声道信号与参考声道信号之间的幅度相关性参数corr_LM例如满足:
例如当前帧经时延对齐处理的右声道信号与参考声道信号之间的幅度相关性参数corr_RM例如满足:
其中,x′L(n)表示当前帧经时延对齐处理的左声道信号。其中,x′R(n)表示当前帧经时延对齐处理的右声道信号。mono_i(n)表示当前帧的参考声道信号。|·|表示取绝对值。
9084、根据当前帧经时延对齐处理的左声道信号与参考声道信号之间的幅度相关性参数及当前帧经时延对齐处理的右声道信号与参考声道信号之间的幅度相关性参数,计算当前帧左右声道之间的幅度相关性差异参数diff_lt_corr。
可以理解,步骤9081可在步骤9082、9083之前执行,或者也可以在步骤9082、9083之后且在步骤9084之前执行。
参见图9-C,例如,计算当前帧左右声道之间的幅度相关性差异参数diff_lt_corr具体可包括如下步骤90841-90842。
90841、根据当前帧经时延对齐处理的左声道信号与参考声道信号之间的幅度相关性参数,以及当前帧经时延对齐处理的右声道信号与参考声道信号之间的幅度相关性参数,计算当前帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数,及当前帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数。
例如一种计算当前帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数及当前帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数,可包括:当前帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数tdm_lt_corr_LM_SM满足:
tdm_lt_corr_LM_SMcur=α*tdm_lt_corr_LM_SMpre+(1-α)corr_LM。
其中,tdm_lt_corr_LM_SMcur表示当前帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数,tdm_lt_corr_LM_SMpre表示前一帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数,α表示左声道平滑因子,其中,α可以是预先设定的0到1之间的实数,如0.2、0.5、0.8。或者,α的取值也可以通过自适应计算得到。
例如当前帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数tdm_lt_corr_RM_SM满足:
tdm_lt_corr_RM_SMcur=β*tdm_lt_corr_RM_SMpre+(1-β)corr_LM。
其中,tdm_lt_corr_RM_SMcur表示当前帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数,tdm_lt_corr_RM_SMpre表示前一帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数,β表示右声道平滑因子,其中,β可以是预先设定的0到1之间的实数,β可以和左声道平滑因子α取值相同或不同,例如β可等于0.2、0.5、0.8。或者β的取值也可以通过自适应计算得到。
另一种计算当前帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数及当前帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数的方法,可包括:
首先,对当前帧经时延对齐处理的左声道信号与参考声道信号之间的幅度相关性参数corr_LM进行修正,得到修正后的当前帧左声道信号与参考声道信号之间的幅度相关性参数corr_LM_mod;对当前帧经时延对齐处理的右声道信号与参考声道信号之间的幅度相关性参数corr_RM进行修正,得到修正后的当前帧右声道信号与参考声道信号之间的幅度相关性参数corr_RM_mod。
然后,根据修正后的当前帧左声道信号与参考声道信号之间的幅度相关性参数corr_LM_mod和修正后的当前帧右声道信号与参考声道信号之间的幅度相关性参数corr_RM_mod,以及前一帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数tdm_lt_corr_LM_SMpre和前一帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数tdm_lt_corr_RM_SMpre,确定当前帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数diff_lt_corr_LM_tmp及前一帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数diff_lt_corr_RM_tmp。
接下来,根据当前帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数diff_lt_corr_LM_tmp及前一帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数diff_lt_corr_RM_tmp,获得当前帧的左右声道之间的幅度相关性差异参数的初始值diff_lt_corr_SM;并根据获得的当前帧的左右声道之间的幅度相关性差异参数的初始值diff_lt_corr_SM以及前一帧的左右声道之间的幅度相关性差异参数tdm_last_diff_lt_corr_SM,确定当前帧的左右声道之间的幅度相关性差异的帧间变化参数d_lt_corr。
最后,根据信号能量分析而获得的当前帧左声道信号的帧能量、当前帧右声道信号的帧能量帧能量、当前帧左声道的长时平滑帧能量、当前帧右声道的长时平滑帧能量、当前帧左声道的帧间能量差异、当前帧右声道的帧间能量差异以及当前帧的左右声道之间的幅度相关性差异的帧间变化参数,自适应选择不同的左声道平滑因子、右声道平滑因子,并计算当前帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数tdm_lt_corr_LM_SM以及当前帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数tdm_lt_corr_RM_SM。
除以上举例的两种方法,还可以有很多种计算当前帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数及当前帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数的方法,本申请对此不作限定。
90842、根据当前帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数及当前帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数,计算当前帧左右声道之间的幅度相关性差异参数diff_lt_corr。
例如当前帧左右声道之间的幅度相关性差异参数diff_lt_corr满足:
diff_lt_corr=tdm_lt_corr_LM_SM-tdm_lt_corr_RM_SM
其中,tdm_lt_corr_LM_SM表示当前帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数,tdm_lt_corr_RM_SM表示当前帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数。
9085、将当前帧左右声道之间的幅度相关性差异参数diff_lt_corr转换为声道组合比例因子并进行编码量化,以确定当前帧非相关性信号声道组合方案对应的声道组合比例因子及其编码索引。
参见图9-D,将当前帧左右声道之间的幅度相关性差异参数转换为声道组合比例因子的一种可能方法具体可以包括步骤90851-90853。
90851、对左右声道之间的幅度相关性差异参数进行映射处理,使映射处理后的左右声道之间的幅度相关性差异参数的取值范围在[MAP_MIN,MAP_MAX]之间。
对左右声道之间的幅度相关性差异参数进行映射处理的一种方法可包括:
首先,对左右声道之间的幅度相关性差异参数进行限幅处理,例如经限幅处理后的左右声道之间的幅度相关性差异参数diff_lt_corr_limit满足:
RATIO_MAX表示限幅后左右声道之间的幅度相关性差异参数的最大值,RATIO_MIN表示限幅后左右声道之间的幅度相关性差异参数的最小值。其中,RATIO_MAX例如为预先设定的经验值,RATIO_MAX例如为1.5、3.0或其他值。其中,RATIO_MIN例如为预先设定的经验值,RATIO_MIN例如为-1.5、-3.0或其他值。其中,RATIO_MAX>RATIO_MIN。
然后,对限幅处理后的左右声道之间的幅度相关性差异参数进行映射处理。映射处理后的左右声道之间的幅度相关性差异参数diff_lt_corr_map满足:
其中,
B1=MAP_MAX-RATIO_MAX*A1,或者B1=MAP_HIGH-RATIO_HIGH*A1。
B2=MAP_LOW-RATIO_LOW*A2,或者B2=MAP_MIN-RATIO_MIN*A2。
B3=MAP_HIGH-RATIO_HIGH*A3,或者B3=MAP_LOW-RATIO_LOW*A3。
其中,MAP_MAX表示映射处理后的左右声道之间的幅度相关性差异参数取值的最大值,MAP_HIGH表示映射处理后的左右声道之间的幅度相关性差异参数取值的高门限,MAP_LOW表示映射处理后的左右声道之间的幅度相关性差异参数取值的低门限。MAP_MIN表示映射处理后的左右声道之间的幅度相关性差异参数取值的最小值。
其中,MAP_MAX>MAP_HIGH>MAP_LOW>MAP_MIN。
例如在本申请的一些实施例中,MAP_MAX可为2.0,MAP_HIGH可为1.2,MAP_LOW可为0.8,MAP_MIN可为0.0。当然实际应用中不限于这样的取值举例。
RATIO_MAX表示限幅后左右声道之间的幅度相关性差异参数的最大值,RATIO_HIGH表示限幅后左右声道之间的幅度相关性差异参数取值的高门限,RATIO_LOW表示限幅后左右声道之间的幅度相关性差异参数取值的低门限,RATIO_MIN表示限幅后左右声道之间的幅度相关性差异参数的最小值。
其中,RATIO_MAX>RATIO_HIGH>RATIO_LOW>RATIO_MIN。
例如在本申请一些实施例中,RATIO_MAX为1.5,RATIO_HIGH为0.75,RATIO_LOW为-0.75,RATIO_MIN为-1.5。当然实际应用中不限于这样的取值举例。
本申请的一些实施例的另一种方法是:映射处理后的左右声道之间的幅度相关性差异参数diff_lt_corr_map满足:
其中,diff_lt_corr_limit表示经过限幅处理后的左右声道之间的幅度相关性差异参数。
其中,
其中,RATIO_MAX表示左右声道之间的幅度相关性差异参数的最大幅度,-RATIO_MAX表示左右声道之间的幅度相关性差异参数的最小幅度。其中,RATIO_MAX可以为预先设定的经验值,RATIO_MAX例如可为1.5、3.0或其他大于0的实数。
90852、将映射处理后的左右声道之间的幅度相关性差异参数转换为声道组合比例因子。
声道组合比例因子ratio_SM满足:
其中,cos(·)表示余弦运算。
除了上述方法之外,还可以通过其他方法将左右声道之间的幅度相关性差异参数转换为声道组合比例因子,例如:
根据信号能量分析而获得的当前帧左声道的长时平滑帧能量、当前帧右声道的长时平滑帧能量、当前帧左声道的帧间能量差异、编码器历史缓存中的缓存前一帧的编码参数(例如主要声道信号的帧间相关性参数、次要声道信号的帧间相关性参数)、当前帧以及前一帧的声道组合方案标识、当前帧以及前一帧的非相关性信号声道组合方案对应的声道组合比例因子,确定是否对非相关性信号声道组合方案对应的声道组合比例因子进行更新。
若需要对非相关性信号声道组合方案对应的声道组合比例因子进行更新,则使用上述举例方法将左右声道之间的幅度相关性差异参数转换为声道组合比例因子;否则,直接将前一帧的非相关性信号声道组合方案对应的声道组合比例因子及其编码索引,作为当前帧的非相关性信号声道组合方案对应的声道组合比例因子及其编码索引。
90853、对转换后得到的声道组合比例因子进行量化编码,确定当前帧非相关性信号声道组合方案对应的声道组合比例因子。
具体例如,对转换后得到的声道组合比例因子进行量化编码,得到当前帧非相关性信号声道组合方案对应的初始编码索引ratio_idx_init_SM,及量化编码后的当前帧非相关性信号声道组合方案对应的声道组合比例因子的初始值ratio_init_SMqua。
其中,ratio_init_SMqua=ratio_tabl_SM[ratio_idx_init_SM]。
其中,ratio_tabl_SM表示非相关性信号声道组合方案对应的声道组合比例因子标量量化的码书。量化编码可以采用传统技术中的任何一种标量量化方法,如均匀标量量化,也可以是非均匀标量量化,编码比特数可以是5比特,这里对具体方法不再赘述。非相关性信号声道组合方案对应的声道组合比例因子标量量化的码书可以采用和相关性信号声道组合方案对应的声道组合比例因子标量量化的码书相同或不同的码书。其中,当码书相同,这样可只需要存储一个用于声道组合比例因子标量量化的码书即可。此时,量化编码后的当前帧非相关性信号声道组合方案对应的声道组合比例因子的初始值ratio_init_SMqua。
其中,ratio_init_SMqua=ratio_tabl[ratio_idx_init_SM]。
例如,一种方法是将量化编码后的当前帧非相关性信号声道组合方案对应的声道组合比例因子的初始值直接作为当前帧非相关性信号声道组合方案对应的声道组合比例因子,并将当前帧非相关性信号声道组合方案对应的声道组合比例因子的初始编码索引直接作为当前帧非相关性信号声道组合方案对应的声道组合比例因子的编码索引,即:
其中,当前帧非相关性信号声道组合方案对应的声道组合比例因子的编码索引ratio_idx_SM满足:ratio_idx_SM=ratio_idx_init_SM。
其中,当前帧非相关性信号声道组合方案对应的声道组合比例因子满足:
ratio_SM=ratio_tabl[ratio_idx_SM]
另一种方法可以是:根据前一帧的非相关性信号声道组合方案对应的声道组合比例因子的编码索引或者前一帧的非相关性信号声道组合方案对应的声道组合比例因子,对量化编码后的当前帧非相关性信号声道组合方案对应的声道组合比例因子的初始值以及当前帧非相关性信号声道组合方案对应的初始编码索引进行修正,将修正后的当前帧非相关性信号声道组合方案对应的声道组合比例因子的编码索引作为当前帧非相关性信号声道组合方案对应的声道组合比例因子的编码索引,将修正后的非相关性信号声道组合方案对应的声道组合比例因子作为当前帧非相关性信号声道组合方案对应的声道组合比例因子。
其中,当前帧非相关性信号声道组合方案对应的声道组合比例因子的编码索引ratio_idx_SM满足:ratio_idx_SM=φ*ratio_idx_init_SM+(1-φ)*tdm_last_ratio_idx_SM。
其中,ratio_idx_init_SM表示当前帧非相关性信号声道组合方案对应的初始编码索引,tdm_last_ratio_idx_SM为前一帧非相关性信号声道组合方案对应的声道组合比例因子的编码索引,为非相关性信号声道组合方案对应的声道组合比例因子的修正因子。的取值可为经验值,例如可等于0.8。
则当前帧非相关性信号声道组合方案对应的声道组合比例因子满足:
ratio_SM=ratio_tabl[ratio_idx_SM]
还有一种方法是:将未量化的非相关性信号声道组合方案对应的声道组合比例因子,作为当前帧非相关性信号声道组合方案对应的声道组合比例因子,即当前帧非相关性信号声道组合方案对应的声道组合比例因子的ratio_SM满足:
此外,第四种方法是:根据前一帧的非相关性信号声道组合方案对应的声道组合比例因子,对未量化的当前帧非相关性信号声道组合方案对应的声道组合比例因子进行修正,将修正后的非相关性信号声道组合方案对应的声道组合比例因子,作为当前帧非相关性信号声道组合方案对应的声道组合比例因子,并对其进行量化编码,得到当前帧非相关性信号声道组合方案对应的声道组合比例因子的编码索引。
除以上述方法,还可以有很多种方法来将左右声道之间的幅度相关性差异参数转换为声道组合比例因子并进行编码量化,同样也有很多不同的方法来确定当前帧非相关性信号声道组合方案对应的声道组合比例因子及其编码索引,本申请对此不作限定。
909、根据前一帧的声道组合方案标识和当前帧的声道组合方案标识进行编码模式判决,以确定当前帧的编码模式。
其中,当前帧的声道组合方案标识记作tdm_SM_flag,前一帧的声道组合方案标识记作tdm_last_SM_flag,前一帧的声道组合方案标识和当前帧的声道组合方案标识的联合标识可以表示为(tdm_last_SM_flag,tdm_SM_flag),可根据此联合标识来进行编码模式判决,具体例如:
假设相关性信号声道组合方案用0表示,非相关性信号声道组合方案用1表示,则前一帧和当前帧的声道组合方案标识的联合标识有以下四种情况(01),(11),(10),(00),则当前帧的编码模式分别判决为:相关性信号编码模式,非相关性信号编码模式,相关性信号到非相关性信号编码模式,非相关性信号到相关性信号编码模式。例如:当前帧的声道组合方案标识的联合标识为(00),则表示当前帧的编码模式为相关性信号编码模式;当前帧的声道组合方案标识的联合标识为(11)则表示当前帧的编码模式为非相关性信号编码模式;当前帧的声道组合方案标识的联合标识为(01)则表示当前帧的编码模式为相关性信号到非相关性信号编码模式;当前帧的声道组合方案标识的联合标识为(10)则表示当前帧的编码模式为非相关性信号到相关性信号编码模式。
910、在获得当前帧的编码模式stereo_tdm_coder_type之后,编码装置根据当前帧的编码模式采用对应的时域下混处理方法对当前帧的左右声道信号进行时域下混处理,以得到当前帧的主要声道信号和次要声道信号。
其中,所述当前帧的编码模式为多种编码模式中的其中一种。例如所述多种编码模式可包括:相关性信号到非相关性信号编码模式、非相关性信号到相关性信号编码模式、相关性信号编码模式和非相关性信号编码模式等。其中,不同编码模式进行时域下混处理的实施方式,可参考上述实施例中的相关举例描述,此处不再赘述。
911、编码装置对主要声道信号和次要声道信号分别进行编码,得到主要声道编码信号和次要声道编码信号。
具体地,可以先根据前一帧的主要声道信号和/或次要声道信号编码中得到的参数信息以及主要声道信号编码和次要声道信号编码的总比特数,对主要声道信号编码和次要声道信号编码进行比特分配。然后根据比特分配的结果,分别对主要声道信号和次要声道信号进行编码,得到主要声道编码的编码索引、次要声道编码的编码索引。主要声道编码和次要声道编码,可以采用任何一种单声道音频编码技术,这里不再赘述。
912、编码装置根据声道组合方案标识选择相应的声道组合比例因子编码索引写入码流,并将主要声道编码信号、次要声道编码信号以及当前帧的声道组合方案标识写入码流。
具体例如,若当前帧的声道组合方案标识tdm_SM_flag对应了相关性信号声道组合方案,则将当前帧相关性信号声道组合方案对应的声道组合比例因子的编码索引ratio_idx写入码流;若当前帧的声道组合方案标识tdm_SM_flag对应了非相关性信号声道组合方案,则将当前帧非相关性信号声道组合方案对应的声道组合比例因子的编码索引ratio_idx_SM写入码流。例如,tdm_SM_flag=0,则将当前帧相关性信号声道组合方案对应的声道组合比例因子的编码索引ratio_idx写入码流;tdm_SM_flag=1,则将当前帧非相关性信号声道组合方案对应的声道组合比例因子的编码索引ratio_idx_SM写入码流。
并且,将主要声道编码信号、次要声道编码信号以及当前帧的声道组合方案标识写入比特流。可以理解,写码流操作无先后顺序。
相应的,下面针对时域立体声的解码场景进行举例说明。
参见图10,下面还提供一种音频解码方法,音频解码方法的相关步骤可由解码装置来具体实施,具体可包括:
1001、根据码流进行解码以得到当前帧的主次声道解码信号。
1002、根据码流进行解码以得到当前帧的时域立体声参数。
其中,当前帧的时域立体声参数包括当前帧的声道组合比例因子(码流包含的是当前帧的声道组合比例因子的编码索引,基于当前帧的声道组合比例因子的编码索引进行解码可以得到当前帧的声道组合比例因子),还可包括当前帧的声道间时间差(例如,码流包含的是当前帧的声道间时间差的编码索引,基于当前帧的声道间时间差的编码索引进行解码可以得到当前帧的声道间时间差;或者码流包含的是当前帧的声道间时间差的绝对值得编码索引,基于当前帧的声道间时间差的绝对值的编码索引进行解码可以得到当前帧的声道间时间差的绝对值)等。
1003、基于码流得到所述码流中包含的当前帧的声道组合方案标识,确定所述当前帧的声道组合方案。
1004、基于所述当前帧的声道组合方案和前一帧的声道组合方案确定当前帧的解码模式。
其中,基于所述当前帧的声道组合方案和前一帧的声道组合方案确定当前帧的解码模式,可参考步骤909中确定当前帧的编码模式的方法,根据所述当前帧的声道组合方案和前一帧的声道组合方案确定当前帧的解码模式。其中,所述当前帧的解码模式为多种解码模式中的其中一种。例如所述多种解码模式可包括:相关性信号到非相关性信号解码模式、非相关性信号到相关性信号解码模式、相关性信号编码模式和非相关性信号解码模式等。编码模式和解码模式是一一对应的。
例如,当前帧的声道组合方案标识的联合标识为(00)则表示当前帧的解码模式也为相关性信号解码模式;当前帧的声道组合方案标识的联合标识为(11)则表示当前帧的解码模式为非相关性信号解码模式;当前帧的声道组合方案标识的联合标识为(01)则表示当前帧的解码模式为相关性信号到非相关性信号解码模式;当前帧的声道组合方案标识的联合标识为(10)则表示当前帧的解码模式为非相关性信号到相关性信号解码模式。
可以理解,步骤1001、步骤1002、步骤1003-1004的执行没有必然的先后顺序。
1005、采用确定的当前帧的解码模式对应的时域上混处理方式,对所述当前帧的主次声道解码信号进行时域上混处理以得到所述当前帧的左右声道重建信号。
其中,不同解码模式进行时域上混处理的相关实施方式,可参考上述实施例中的相关举例描述,此处不再赘述。
其中,时域上混处理所使用的上混矩阵基于得到的当前帧的声道组合比例因子构建。
其中,当前帧的左右声道重建信号可作为所述当前帧的左右声道解码信号。
或者,进一步的,还可基于当前帧的声道间时间差对所述当前帧的左右声道重建信号进行时延调整,得到当前帧经时延调整的左右声道重建信号,当前帧经时延调整的左右声道重建信号可作为当前帧的左右声道解码信号。或者,进一步的,还可对当前帧经时延调整的左右声道重建信号进行时域后处理,其中,当前帧经时域后处理的左右声道重建信号可作为所述当前帧的左右声道解码信号。
上述详细阐述了本申请实施例的方法,下面提供了本申请实施例的装置。
上述详细阐述了本申请实施例的方法,下面提供了本申请实施例的装置。
参见图11-A,本申请实施例还提供一种装置1100,可包括:
相互耦合的处理器1110和存储器1120。所述处理器1110可用于执行本申请实施例提供的任意一种方法的部分或全部步骤。
存储器1120包括但不限于是随机存储记忆体(英文:Random Access Memory,简称:RAM)、只读存储器(英文:Read-Only Memory,简称:ROM)、可擦除可编程只读存储器(英文:Erasable Programmable Read Only Memory,简称:EPROM)、或便携式只读存储器(英文:Compact Disc Read-Only Memory,简称:CD-ROM),该存储器402用于相关指令及数据。
当然,装置1100还可包括用于接收和发送数据的收发器1130。
处理器1110可以是一个或多个中央处理器(英文:Central Processing Unit,简称:CPU),在处理器1110是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。处理器1110具体可以是数字信号处理器。
在实现过程中,上述方法的各步骤可通过处理器1110中的硬件的集成逻辑电路或者软件形式的指令完成。上述处理器1110可以是通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。处理器1110可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。
软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等等本领域成熟的存储介质之中。该存储介质位于存储器1120,例如处理器1110可读取存储器1120中的信息,结合其硬件完成上述方法的步骤。
进一步的,装置1100还可包括收发器1130,收发器1130例如可用于相关数据(例如指令或声道信号或码流)的收发。
举例来说,装置1100可执行上述图2-图9任意一附图所示实施例中对应的方法的部分或全部步骤。
具体例如,当装置1100执行上述编码的相关步骤时,装置1100可称为编码装置(或音频编码装置)。当装置1100执行上述解码的相关步骤时,装置1100可称为解码装置(或音频解码装置)。
参见图11-B,在装置1100为编码装置的情况下,装置1100例如还可进一步包括:麦克风1140和模数转换器1150等。
其中,麦克风1140例如可用于采样得到模拟音频信号。
模数转换器1150例如可用于将模拟音频信号转换为数字音频信号。
参见图11-C,在装置1100为编码装置的情况下,装置1100例如还可进一步包括:扬声器1160和数模转换器1170等。
数模转换器1170例如可用于将数字音频信号转换为模拟音频信号。
其中,扬声器1160例如可用于播放模拟音频信号。
此外,参见图12-A,本申请实施例提供一种装置1200,包括用于实施本申请实施例提供的任意一种方法的若干个功能单元。
例如,当装置1200执行图2所示实施例中对应的方法时,装置1200可包括:
第一确定单元1210,用于确定当前帧的声道组合方案,基于前一帧和当前帧的声道组合方案确定当前帧的编码模式。
编码单元1220,用于基于当前帧的编码模式所对应的时域下混处理对当前帧的左右声道信号进行时域下混处理,以得到当前帧的主次声道信号。
此外,参见图12-B,装置1200还可包括第二确定单元1230,用于确定当前帧的时域立体声参数。编码单元1220还可用于对当前帧的时域立体声参数进行编码。
又例如,参见图12-C,当装置1200执行图3所示实施例中对应的方法时,装置1200可包括:
第三确定单元1240,用于基于码流中的当前帧的声道组合方案标识确定当前帧的声道组合方案;根据前一帧的声道组合方案和所述当前帧的声道组合方案,确定所述当前帧的解码模式。
解码单元1250,用于基于码流解码得到当前帧的主次声道解码信号;基于当前帧的解码模式所对应的时域上混处理对当前帧的主次声道解码信号进行时域上混处理,以得到当前帧的左右声道重建信号。
这个装置执行其他方法时的情况以此类推。
本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储了程序代码,其中,所述程序代码包括用于执行本申请实施例提供的任意一种方法的部分或全部步骤的指令。
本申请实施例提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本申请实施例提供的任意一种方法的部分或全部步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可结合或者可以集成到另一个系统,或一些特征可以忽略或不执行。另一点,所显示或讨论的相互之间的间接耦合或者直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例的方案的目的。
另外,在本发明各实施例中的各功能单元可集成在一个处理单元中,也可以是各单元单独物理存在,也可两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,或者也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (15)
1.一种时域立体声参数的编码方法,包括:
确定当前帧的声道组合方案,所述多种声道组合方案为非相关性信号声道组合方案,所述非相关性信号声道组合方案为类反相信号对应的声道组合方案,所述类反相信号是指左右声道信号之间的相位差属于[180-θ,180+θ]的立体声信号,0°≤θ≤90°;
根据所述当前帧的声道组合方案确定所述当前帧的时域立体声参数;
对确定的所述当前帧的时域立体声参数进行编码,所述时域立体声参数包括声道组合比例因子和声道间时间差中的至少一种。
2.根据权利要求1所述的方法,其特征在于,所述当前帧的时域立体声参数为所述当前帧的非相关性信号声道组合方案对应的时域立体声参数。
3.根据权利要求2所述的方法,其特征在于,所述根据所述当前帧的声道组合方案确定所述当前帧的时域立体声参数,包括:
根据所述当前帧的左声道信号和右声道信号获得所述当前帧的参考声道信号;
计算所述当前帧的左声道信号与参考声道信号之间的幅度相关性参数;
计算所述当前帧的右声道信号与参考声道信号之间的幅度相关性参数;
根据所述当前帧的左右声道信号与参考声道信号之间的幅度相关性参数,计算所述当前帧的左右声道信号之间的幅度相关性差异参数;
根据所述当前帧的左右声道信号之间的幅度相关性差异参数,计算所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子。
4.根据权利要求3所述的方法,其特征在于,
其中,
其中,所述mono_i(n)表示所述当前帧的参考声道信号,
其中,所述x′L(n)表示所述当前帧经时延对齐处理的左声道信号;所述x′R(n)表示所述当前帧经时延对齐处理的右声道信号;所述corr_LM表示所述当前帧的左声道信号与参考声道信号之间的幅度相关性参数,所述corr_RM表示所述当前帧的右声道信号与参考声道信号之间的幅度相关性参数。
5.根据权利要求3或4所述的方法,其特征在于,所述根据所述当前帧的左右声道信号与参考声道信号之间的幅度相关性参数,计算所述当前帧的左右声道信号之间的幅度相关性差异参数,包括:
根据当前帧经时延对齐处理的左声道信号与参考声道信号之间的幅度相关性参数,计算当前帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数;根据当前帧经时延对齐处理的右声道信号与参考声道信号之间的幅度相关性参数,计算当前帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数;
根据当前帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数及当前帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数,计算当前帧左右声道之间的幅度相关性差异参数。
6.根据权利要求5所述的方法,其特征在于,
tdm_lt_corr_LM_SMcur=α*tdm_lt_corr_LM_SMpre+(1-α)corr_LM;
其中,tdm_lt_rms_L_SMcur=(1-A)*tdm_lt_rms_L_SMpre+A*rms_L,所述A表示所述当前帧的左声道信号的长时平滑帧能量的更新因子;所述tdm_lt_rms_L_SMcur表示所述当前帧的左声道信号的长时平滑帧能量;其中,所述rms_L表示所述当前帧左声道信号的帧能量;其中,tdm_lt_corr_LM_cSurM表示当前帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数,tdm_lt_corr_LM_SMpre表示前一帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数,α为左声道平滑因子;
tdm_lt_corr_RM_SMcur=β*tdm_lt_corr_RM_SMpre+(1-β)corr_LM
其中,tdm_lt_rms_R_SMcur=(1-B)*tdm_lt_rms_R_SMpre+B*rms_R;所述B表示所述当前帧的右声道信号的长时平滑帧能量的更新因子;所述tdm_lt_rms_R_SMpre表示所述当前帧的右声道信号的长时平滑帧能量;其中,所述rms_R表示所述当前帧右声道信号的帧能量;其中,tdm_lt_corr_RM_SMcur表示所述当前帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数,tdm_lt_corr_RM_SMpre表示前一帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数,β为右声道平滑因子。
7.根据权利要求5或6所述的方法,其特征在于,
diff_lt_corr=tdm_lt_corr_LM_SM-tdm_lt_corr_RM_SM;
其中,tdm_lt_corr_LM_SM表示所述当前帧长时平滑后的左声道信号与参考声道信号之间的幅度相关性参数,tdm_lt_corr_RM_SM表示所述当前帧长时平滑后的右声道信号与参考声道信号之间的幅度相关性参数,所述diff_lt_corr表示所述当前帧左右声道信号之间的幅度相关性差异参数。
8.根据权利要求5至7任意一项所述的方法,其特征在于,所述根据所述当前帧的左右声道信号之间的幅度相关性差异参数,计算所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子,包括:
对所述当前帧的左右声道信号之间的幅度相关性差异参数进行映射处理,使映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的取值范围在[MAP_MIN,MAP_MAX]之间;将映射处理后的左右声道信号之间的幅度相关性差异参数转换为声道组合比例因子。
9.根据权利要求8所述的方法,其特征在于,所述对所述当前帧的左右声道之间的幅度相关性差异参数进行映射处理,包括:对所述当前帧的左右声道信号之间的幅度相关性差异参数进行限幅处理;对经限幅处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数进行映射处理。
10.根据权利要求9所述的方法,其特征在于,
其中,RATIO_MAX表示经限幅处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的最大值,RATIO_MIN表示经限幅处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的最小值,RATIO_MAX>RATIO_MIN。
11.根据权利要求9或10所述的方法,其特征在于,
B1=MAP_MAX-RATIO_MAX*A1,或B1=MAP_HIGH-RATIO_HIGH*A1
B2=MAP_LOW-RATIO_LOW*A2,或B2=MAP_MIN-RATIO_MIN*A2
B3=MAP_HIGH-RATIO_HIGH*A3,或B3=MAP_LOW-RATIO_LOW*A3
其中,所述diff_lt_corr_map表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数;
其中,MAP_MAX表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的最大值;MAP_HIGH表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的高门限;MAP_LOW表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的低门限;MAP_MIN表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的最小值;
其中,MAP_MAX>MAP_HIGH>MAP_LOW>MAP_MIN;
RATIO_MAX表示经限幅处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的最大值,RATIO_HIGH表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的高门限,RATIO_LOW表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的低门限,RATIO_MIN表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数的最小值;
其中,RATIO_MAX>RATIO_HIGH>RATIO_LOW>RATIO_MIN。
12.根据权利要求9或10所述的方法,其特征在于,
其中,diff_lt_corr_limit表示经限幅处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数;diff_lt_corr_map表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数;
其中,
其中,所述RATIO_MAX表示所述当前帧的左右声道信号之间的幅度相关性差异参数的最大幅度,所述-RATIO_MAX表示所述当前帧的左右声道信号之间的幅度相关性差异参数的最小幅度。
13.根据权利要求8至12任一项所述的方法,其特征在于,
其中,所述diff_lt_corr_map表示经映射处理后的所述当前帧的左右声道信号之间的幅度相关性差异参数,所述ratio_SM表示所述当前帧的非相关性信号声道组合方案对应的声道组合比例因子。
14.一种时域立体声参数的编码装置,包括:相互耦合的处理器和存储器;
所述处理器用于执行如权利要求1至14任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,
所述计算机可读存储介质存储了程序代码,所述程序代码包括用于执行权利要求1-13任意一项所述方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310985946.7A CN117037814A (zh) | 2017-08-10 | 2017-08-10 | 时域立体声参数的编码方法和相关产品 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710680858.0A CN109389986B (zh) | 2017-08-10 | 2017-08-10 | 时域立体声参数的编码方法和相关产品 |
CN202310985946.7A CN117037814A (zh) | 2017-08-10 | 2017-08-10 | 时域立体声参数的编码方法和相关产品 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710680858.0A Division CN109389986B (zh) | 2017-08-10 | 2017-08-10 | 时域立体声参数的编码方法和相关产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117037814A true CN117037814A (zh) | 2023-11-10 |
Family
ID=65273327
Family Applications (5)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310988747.1A Pending CN117133297A (zh) | 2017-08-10 | 2017-08-10 | 时域立体声参数的编码方法和相关产品 |
CN202310985946.7A Pending CN117037814A (zh) | 2017-08-10 | 2017-08-10 | 时域立体声参数的编码方法和相关产品 |
CN201710680858.0A Active CN109389986B (zh) | 2017-08-10 | 2017-08-10 | 时域立体声参数的编码方法和相关产品 |
CN202310986708.8A Pending CN117292695A (zh) | 2017-08-10 | 2017-08-10 | 时域立体声参数的编码方法和相关产品 |
CN202310991067.5A Pending CN117198302A (zh) | 2017-08-10 | 2017-08-10 | 时域立体声参数的编码方法和相关产品 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310988747.1A Pending CN117133297A (zh) | 2017-08-10 | 2017-08-10 | 时域立体声参数的编码方法和相关产品 |
Family Applications After (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710680858.0A Active CN109389986B (zh) | 2017-08-10 | 2017-08-10 | 时域立体声参数的编码方法和相关产品 |
CN202310986708.8A Pending CN117292695A (zh) | 2017-08-10 | 2017-08-10 | 时域立体声参数的编码方法和相关产品 |
CN202310991067.5A Pending CN117198302A (zh) | 2017-08-10 | 2017-08-10 | 时域立体声参数的编码方法和相关产品 |
Country Status (10)
Country | Link |
---|---|
US (2) | US11727943B2 (zh) |
EP (2) | EP3657498B1 (zh) |
JP (3) | JP6977147B2 (zh) |
KR (4) | KR20240016461A (zh) |
CN (5) | CN117133297A (zh) |
BR (1) | BR112020002626A2 (zh) |
ES (1) | ES2982460T3 (zh) |
SG (1) | SG11202001144WA (zh) |
TW (1) | TWI691953B (zh) |
WO (1) | WO2019029680A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117133297A (zh) | 2017-08-10 | 2023-11-28 | 华为技术有限公司 | 时域立体声参数的编码方法和相关产品 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090299756A1 (en) * | 2004-03-01 | 2009-12-03 | Dolby Laboratories Licensing Corporation | Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners |
WO2006000842A1 (en) * | 2004-05-28 | 2006-01-05 | Nokia Corporation | Multichannel audio extension |
US7983922B2 (en) | 2005-04-15 | 2011-07-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing |
US7548853B2 (en) * | 2005-06-17 | 2009-06-16 | Shmunk Dmitry V | Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding |
US8041042B2 (en) * | 2006-11-30 | 2011-10-18 | Nokia Corporation | Method, system, apparatus and computer program product for stereo coding |
KR101411901B1 (ko) | 2007-06-12 | 2014-06-26 | 삼성전자주식회사 | 오디오 신호의 부호화/복호화 방법 및 장치 |
US7885819B2 (en) * | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
BRPI0908630B1 (pt) * | 2008-05-23 | 2020-09-15 | Koninklijke Philips N.V. | Aparelho de 'upmix' estéreo paramétrico, decodificador estéreo paramétrico, método para a geração de um sinal esquerdo e de um sinal direito a partir de um sinal de 'downmix' mono com base em parâmetros espaciais, dispositivo de execução de áudio, aparelho de 'downmix' estéreo paramétrico, codificador estéreo paramétrico, método para a geração de um sinal residual de previsão para um sinal de diferença a partir de um sinal esquerdo e de um sinal direito com base nos parâmetros espaciais, e, produto de programa de computador |
CN101826326B (zh) * | 2009-03-04 | 2012-04-04 | 华为技术有限公司 | 一种立体声编码方法、装置和编码器 |
WO2011073600A1 (fr) * | 2009-12-18 | 2011-06-23 | France Telecom | Codage/decodage parametrique stereo avec optimisation du traitement de reduction des canaux |
CN102157151B (zh) | 2010-02-11 | 2012-10-03 | 华为技术有限公司 | 一种多声道信号编码方法、解码方法、装置和系统 |
CN102157152B (zh) * | 2010-02-12 | 2014-04-30 | 华为技术有限公司 | 立体声编码的方法、装置 |
FR2966634A1 (fr) * | 2010-10-22 | 2012-04-27 | France Telecom | Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase |
WO2012058805A1 (en) | 2010-11-03 | 2012-05-10 | Huawei Technologies Co., Ltd. | Parametric encoder for encoding a multi-channel audio signal |
US8924204B2 (en) * | 2010-11-12 | 2014-12-30 | Broadcom Corporation | Method and apparatus for wind noise detection and suppression using multiple microphones |
EP2676270B1 (en) | 2011-02-14 | 2017-02-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Coding a portion of an audio signal using a transient detection and a quality result |
EP2705516B1 (en) * | 2011-05-04 | 2016-07-06 | Nokia Technologies Oy | Encoding of stereophonic signals |
CN103460283B (zh) * | 2012-04-05 | 2015-04-29 | 华为技术有限公司 | 确定多信道音频信号的编码参数的方法及多信道音频编码器 |
BR112015028337B1 (pt) * | 2013-05-16 | 2022-03-22 | Koninklijke Philips N.V. | Aparelho de processamento de áudio e método |
EP2830053A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal |
EP2840811A1 (en) * | 2013-07-22 | 2015-02-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder |
CN104681029B (zh) | 2013-11-29 | 2018-06-05 | 华为技术有限公司 | 立体声相位参数的编码方法及装置 |
CN103700372B (zh) * | 2013-12-30 | 2016-10-05 | 北京大学 | 一种基于正交解相关技术的参数立体声编码、解码方法 |
US9838819B2 (en) | 2014-07-02 | 2017-12-05 | Qualcomm Incorporated | Reducing correlation between higher order ambisonic (HOA) background channels |
US10339940B2 (en) | 2015-09-25 | 2019-07-02 | Voiceage Corporation | Method and system for encoding a stereo sound signal using coding parameters of a primary channel to encode a secondary channel |
US10109284B2 (en) * | 2016-02-12 | 2018-10-23 | Qualcomm Incorporated | Inter-channel encoding and decoding of multiple high-band audio signals |
CN108269577B (zh) * | 2016-12-30 | 2019-10-22 | 华为技术有限公司 | 立体声编码方法及立体声编码器 |
CN117133297A (zh) * | 2017-08-10 | 2023-11-28 | 华为技术有限公司 | 时域立体声参数的编码方法和相关产品 |
-
2017
- 2017-08-10 CN CN202310988747.1A patent/CN117133297A/zh active Pending
- 2017-08-10 CN CN202310985946.7A patent/CN117037814A/zh active Pending
- 2017-08-10 CN CN201710680858.0A patent/CN109389986B/zh active Active
- 2017-08-10 CN CN202310986708.8A patent/CN117292695A/zh active Pending
- 2017-08-10 CN CN202310991067.5A patent/CN117198302A/zh active Pending
-
2018
- 2018-06-13 TW TW107120265A patent/TWI691953B/zh active
- 2018-08-10 KR KR1020247003431A patent/KR20240016461A/ko active Pending
- 2018-08-10 KR KR1020207006545A patent/KR102377434B1/ko active Active
- 2018-08-10 BR BR112020002626-3A patent/BR112020002626A2/pt unknown
- 2018-08-10 KR KR1020237002600A patent/KR102632523B1/ko active Active
- 2018-08-10 WO PCT/CN2018/099887 patent/WO2019029680A1/zh unknown
- 2018-08-10 ES ES18843502T patent/ES2982460T3/es active Active
- 2018-08-10 JP JP2020507664A patent/JP6977147B2/ja active Active
- 2018-08-10 EP EP18843502.8A patent/EP3657498B1/en active Active
- 2018-08-10 KR KR1020227008979A patent/KR102492600B1/ko active Active
- 2018-08-10 EP EP24161775.2A patent/EP4404197A3/en active Pending
- 2018-08-10 SG SG11202001144WA patent/SG11202001144WA/en unknown
-
2020
- 2020-02-07 US US16/784,539 patent/US11727943B2/en active Active
-
2021
- 2021-11-09 JP JP2021182563A patent/JP7309813B2/ja active Active
-
2023
- 2023-06-21 US US18/339,062 patent/US12175987B2/en active Active
- 2023-07-05 JP JP2023110920A patent/JP7633316B2/ja active Active
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109389984B (zh) | 时域立体声编解码方法和相关产品 | |
TWI697892B (zh) | 音訊編解碼模式確定方法和相關產品 | |
US20240153511A1 (en) | Time-domain stereo encoding and decoding method and related product | |
EP3703050B1 (en) | Audio encoding method and related product | |
CN109389986B (zh) | 时域立体声参数的编码方法和相关产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |