CN104217727B - 信号解码方法及设备 - Google Patents
信号解码方法及设备 Download PDFInfo
- Publication number
- CN104217727B CN104217727B CN201310213593.5A CN201310213593A CN104217727B CN 104217727 B CN104217727 B CN 104217727B CN 201310213593 A CN201310213593 A CN 201310213593A CN 104217727 B CN104217727 B CN 104217727B
- Authority
- CN
- China
- Prior art keywords
- amplitude
- energy
- subband
- extending bandwidth
- band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000001228 spectrum Methods 0.000 claims abstract description 271
- 230000005236 sound signal Effects 0.000 claims abstract description 183
- 230000003595 spectral effect Effects 0.000 claims abstract description 68
- 238000005086 pumping Methods 0.000 claims abstract description 66
- 230000015572 biosynthetic process Effects 0.000 claims description 11
- 238000003786 synthesis reaction Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 8
- 230000005284 excitation Effects 0.000 claims description 2
- 239000012792 core layer Substances 0.000 description 30
- 230000008569 process Effects 0.000 description 29
- 239000010410 layer Substances 0.000 description 24
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 238000003860 storage Methods 0.000 description 10
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
- G10L19/107—Sparse pulse excitation, e.g. by using algebraic codebook
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明实施例提供了信号解码方法及设备。该方法包括:对语音或音频信号的比特流进行解码,获取解码信号;根据解码信号预测扩展频带的激励信号,其中扩展频带与解码信号的频带相邻且解码信号的频带低于扩展频带;在解码信号中选取第一频带和第二频带,根据第一频带的频谱系数以及第二频带的频谱系数预测扩展频带的频谱包络;根据扩展频带的频谱包络和扩展频带的激励信号,确定扩展频带的频域信号。本发明实施例中,通过根据从语音或音频信号的比特流中得到的解码信号分别预测扩展频带的频谱包络和激励信号,从而能够确定语音或音频信号的扩展频带的频域信号,因此能够提升语音或音频信号的性能。
Description
技术领域
本发明涉及信息技术领域,并且具体地,涉及信号解码方法及设备。
背景技术
目前的通信传输越来越重视语音或音频的质量,因此语音或音频信号的编解码也成为语音或音频信号处理中越来越重要的环节。
编码端在信号编码的过程中,为了提高编码效率,往往希望用尽量少的编码比特来表征要传输的信号。例如,在低速率编码时,编码端常常不会对所有频带进行编码。考虑到人耳对语音或音频信号中的低频部分比对高频部分更加敏感的特点,通常在低频部分分配较多的比特进行编码,在高频部分只分配少的比特进行编码,有些情况下甚至不对高频部分进行编码。因此,在解码端进行解码时需要通过盲带宽扩展技术来恢复未编码的频带。
目前,解码端常采用时域频带扩展方式恢复未编码的频带,但是这种方式对语音信号的扩展效果很差,而且不能处理音频信号,因此导致输出的语音或音频信号的性能很差。
发明内容
本发明实施例提供信号解码方法及设备,能够提升语音或音频信号的性能。
第一方面,提供了一种信号解码方法,包括:对语音或音频信号的比特流进行解码,获取解码信号;根据所述解码信号预测扩展频带的激励信号,其中,所述扩展频带与所述解码信号的频带相邻,且所述解码信号的频带低于所述扩展频带;在所述解码信号中选取第一频带和第二频带,根据所述第一频带的频谱系数以及所述第二频带的频谱系数预测所述扩展频带的频谱包络,其中,所述第一频带的最高频点距离所述扩展频带的最低频点小于或等于第一值,所述第二频带的最高频点距离所述第一频带的最低频点小于或等于第二值;根据所述扩展频带的频谱包络和所述扩展频带的激励信号,确定所述扩展频带的频域信号。
结合第一方面,在第一种可能的实现方式中,所述在所述解码信号中选取第一频带和第二频带,包括:按照从所述扩展频带的起始点向低频的方向,在所述解码信号的频带中选取第一频带和第二频带,其中所述第一频带的最高频点距离所述扩展频带的最低频点等于所述第一值,所述第一值为0;所述第二频带的最高频点距离所述第一频带的最低频点等于所述第二值,所述第二值为0。
结合第一方面或第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述根据所述第一频带的频谱系数以及所述第二频带的频谱系数预测所述扩展频带的频谱包络,包括:将所述第一频带划分为M个子带,并根据所述第一频带的频谱系数确定每个子带的能量或幅度的均值,其中M为正整数;根据所述每个子带的能量或幅度的均值,确定所述每个子带的能量或幅度的调整值;根据所述每个子带的能量或幅度的调整值,预测所述扩展频带的第一频谱包络;根据所述第二频带的频谱系数,确定所述第二频带的能量或幅度的均值;根据所述扩展频带的第一频谱包络以及所述第二频带的能量或幅度的均值,预测所述扩展频带的频谱包络。
结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述根据所述每个子带的能量或幅度的均值,确定所述每个子带的能量或幅度的调整值,包括:如果所述M个子带的能量或幅度的均值的方差不在预设的阈值范围内,则将a个子带中每个子带的能量或幅度的均值进行调整以确定所述a个子带中每个子带的能量或幅度的调整值,并将b个子带中每个子带的能量或幅度的均值作为所述b个子带中每个子带的能量或幅度的调整值,其中所述a个子带中每个子带的能量或幅度的均值大于或等于均值阈值,所述b个子带中每个子带的能量或幅度的均值小于所述均值阈值,a和b为正整数,且a+b=M;如果所述M个子带的能量或幅度的均值的方差在预设的阈值范围内,则将所述每个子带的能量或幅度的均值作为所述每个子带的能量或幅度的调整值。
结合第一方面的第二种可能的实现方式,在第四种可能的实现方式中,所述根据所述每个子带的能量或幅度的均值,确定所述每个子带的能量或幅度的调整值,包括:对于所述M个子带中的第i个子带和第(i+1)个子带,如果所述第i个子带的能量或幅度的均值与所述第(i+1)个子带的能量或幅度的均值之间的比值不在预设的阈值范围内,则在所述第i个子带的能量或幅度的均值大于所述第(i+1)个子带的能量或幅度的均值时,对所述第i个子带的能量或幅度的均值进行调整以确定所述第i个子带的能量或幅度的调整值,并将所述第(i+1)个子带的能量或幅度的均值作为所述第(i+1)个子带的能量或幅度的调整值;在所述第i个子带的能量或幅度的均值小于所述第(i+1)个子带的能量或幅度的均值时,对所述第(i+1)个子带的能量或幅度的均值进行调整以确定所述第(i+1)个子带的能量或幅度的调整值,并将所述第i个子带的能量或幅度的均值作为所述第i个子带的能量或幅度的调整值;如果所述第i个子带的能量或幅度的均值与所述第(i+1)个子带的能量或幅度的均值之间的比值在预设的阈值范围内,则将所述第i个子带的能量或幅度的均值作为所述第i个子带的能量或幅度的调整值,并将所述第(i+1)个子带的能量或幅度的均值作为所述第(i+1)个子带的调整值,其中i为正整数且1≤i≤M-1。
结合第一方面的第二种可能的实现方式或第一方面的第三种可能的实现方式或第一方面的第四种可能的实现方式,在第五种可能的实现方式中,所述根据所述扩展频带的第一频谱包络以及所述第二频带的能量或幅度的均值,预测所述扩展频带的频谱包络,包括:根据当前帧的扩展频带的第一频谱包络以及所述当前帧的第二频带的能量或幅度的均值,确定所述当前帧的扩展频带的第二频谱包络;在确定满足预设条件的情况下,对所述当前帧的扩展频带的第二频谱包络与前一帧的扩展频带的频谱包络进行加权,以确定所述当前帧的扩展频带的频谱包络;在确定不满足预设条件的情况下,将所述当前帧的扩展频带的第二频谱包络作为所述当前帧的扩展频带的频谱包络。
结合第一方面的第二种可能的实现方式或第一方面的第三种可能的实现方式或第一方面的第四种可能的实现方式,在第六种可能的实现方式中,所述根据所述扩展频带的第一频谱包络以及所述第二频带的能量或幅度的均值,预测所述扩展频带的频谱包络,包括:根据当前帧的扩展频带的第一频谱包络以及所述当前帧的第二频带的能量或幅度的均值,确定所述当前帧的扩展频带的第二频谱包络;在确定满足预设条件的情况下,对所述当前帧的扩展频带的第二频谱包络与前一帧的扩展频带的频谱包络进行加权,以确定所述当前帧的扩展频带的第三频谱包络;在确定不满足预设条件的情况下,将所述当前帧的扩展频带的第二频谱包络作为所述当前帧的扩展频带的第三频谱包络;根据所述解码信号的基音周期、所述解码信号的浊音度因子以及所述当前帧的扩展频带的第三频谱包络,确定所述当前帧的扩展频带的频谱包络。
结合第一方面的第五种可能的实现方式或第一方面的第六种可能的实现方式,在第七种可能的实现方式中,所述预设条件包括以下三个条件中的至少一个:条件一:所述当前帧的语音或音频信号的编码方式与所述前一帧的语音或音频信号的编码方式不相同;条件二:所述前一帧的解码信号为非摩擦音,且所述当前帧的解码信号中第m个频带的能量或幅度的均值与所述前一帧的解码信号中第n个频带的能量或幅度的均值之间的比值在预设的阈值范围内,其中m和n为正整数;条件三:所述当前帧的解码信号为非摩擦音,且所述当前帧的扩展频带的第二频谱包络与所述前一帧的扩展频带的频谱包络之间的比值大于所述当前帧的解码信号中第j个频带的能量或幅度的均值与所述前一帧的解码信号中第k个频带的能量或幅度的均值之间的比值,其中j和k为正整数。
结合第一方面或第一方面的第一种可能的实现方式至第一方面的第七种可能的实现方式中任一实现方式,在第八种可能的实现方式中,所述根据所述解码信号预测所述扩展频带的激励信号,包括:在所述语音或音频信号的编码方式为时域编码方式的情况下,从所述解码信号中选取第三频带,所述第三频带与所述扩展频带相邻;根据所述第三频带的频谱系数,预测所述扩展频带的激励信号。
结合第一方面或第一方面的第一种可能的实现方式至第七种可能的实现方式中任一实现方式,在第九种可能的实现方式中,所述根据所述解码信号预测所述扩展频带的激励信号,包括:在所述语音或音频信号的编码方式为时频联合编码方式或者频域编码方式的情况下,从所述解码信号中选取第四频带,所述第四频带所分配的比特数目大于预设的比特数目阈值;根据所述第四频带的频谱系数,预测所述扩展频带的激励信号。
结合第一方面或第一方面的第一种可能的实现方式至第九种可能的实现方式中任一实现方式,在第十种可能的实现方式中,所述方法还包括:在所述语音或音频信号的编码方式为时频联合编码方式或者频域编码方式的情况下,将所述解码信号与所述扩展频带的频域信号进行合成,获取频域输出信号;将所述频域输出信号进行频时变换,获取最终输出信号。
结合第一方面或第一方面的第一种可能的实现方式至第九种可能的实现方式中任一实现方式,在第十一种可能的实现方式中,所述方法还包括:在所述语音或音频信号的编码方式为时域编码方式的情况下,根据时域频带扩展方式,获取所述扩展频带的第一时域信号;将所述扩展频带的频域信号变换为所述扩展频带的第二时域信号;对所述扩展频带的第一时域信号和所述扩展频带的第二时域信号进行合成,获取所述扩展频带的最终时域信号;将所述解码信号与所述扩展频带的最终时域信号进行合成,获取最终输出信号。
第二方面,提供了一种信号解码设备,包括:解码单元,用于对语音或音频信号的比特流进行解码,获取解码信号;所述预测单元,用于从所述解码单元接收所述解码信号,并根据所述解码信号预测扩展频带的激励信号,其中,所述扩展频带与所述解码信号的频带相邻,且所述解码信号的频带低于所述扩展频带;所述预测单元,还用于在所述解码信号中选取第一频带和第二频带,并根据所述第一频带的频谱系数以及所述第二频带的频谱系数预测所述扩展频带的频谱包络,其中,所述第一频带的最高频点距离所述扩展频带的最低频点小于或等于第一值,所述第二频带的最高频点距离所述第一频带的最低频点小于或等于第二值;所述确定单元,用于从所述预测单元接收所述扩展频带的频谱包络和所述扩展频带的激励信号,根据所述扩展频带的频谱包络和所述扩展频带的激励信号,确定所述扩展频带的频域信号。
结合第二方面,在第一种可能的实现方式中,所述预测单元具体用于按照从所述扩展频带的起始点向低频的方向,在所述解码信号中选取第一频带和第二频带,其中所述第一频带的最高频点距离所述扩展频带的最低频点等于所述第一值,所述第一值为0;所述第二频带的最高频点距离所述第一频带的最低频点等于所述第二值,所述第二值为0。
结合第二方面或第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述预测单元具体用于将所述第一频带划分为M个子带,并根据所述第一频带的频谱系数确定每个子带的能量或幅度的均值,其中M为正整数;根据每个子带的能量或幅度的均值,确定每个子带的能量或幅度的调整值;根据所述每个子带的能量或幅度的调整值,预测所述扩展频带的第一频谱包络;根据所述第二频带的频谱系数,确定所述第二频带的能量或幅度的均值;根据所述扩展频带的第一频谱包络以及所述第二频带的能量或幅度的均值,预测所述扩展频带的频谱包络。
结合第二方面的第二种可能的实现方式,在第三种可能的实现方式中,所述预测单元具体用于如果所述M个子带的能量或幅度的均值的方差不在预设的阈值范围内,则将a个子带中每个子带的能量或幅度的均值进行调整以确定所述a个子带中每个子带的能量或幅度的调整值,并将b个子带中每个子带的能量或幅度的均值作为所述b个子带中每个子带的能量或幅度的调整值,其中所述a个子带中每个子带的能量或幅度的均值大于或等于均值阈值,所述b个子带中每个子带的能量或幅度的均值小于所述均值阈值,a和b为正整数,且a+b=M;如果所述M个子带的能量或幅度的均值的方差在预设的阈值范围内,则将所述每个子带的能量或幅度的均值作为所述每个子带的能量或幅度的调整值。
结合第二方面的第二种可能的实现方式,在第四种可能的实现方式中,所述预测单元具体用于对于所述M个子带中的第i个子带和第(i+1)个子带,
如果所述第i个子带的能量或幅度的均值与所述第(i+1)个子带的能量或幅度的均值之间的比值不在预设的阈值范围内,则在所述第i个子带的能量或幅度的均值大于所述第(i+1)个子带的能量或幅度的均值时,对所述第i个子带的能量或幅度的均值进行调整以确定所述第i个子带的能量或幅度的调整值,并将所述第(i+1)个子带的能量或幅度的均值作为所述第(i+1)个子带的能量或幅度的调整值;在所述第i个子带的能量或幅度的均值小于所述第(i+1)个子带的能量或幅度的均值时,对所述第(i+1)个子带的能量或幅度的均值进行调整以确定所述第(i+1)个子带的能量或幅度的调整值,并将所述第i个子带的能量或幅度的均值作为所述第i个子带的能量或幅度的调整值;如果所述第i个子带的能量或幅度的均值与所述第(i+1)个子带的能量或幅度的均值之间的比值在预设的阈值范围内,则将所述第i个子带的能量或幅度的均值作为所述第i个子带的能量或幅度的调整值,并将所述第(i+1)个子带的能量或幅度的均值作为所述第(i+1)个子带的调整值,其中i为正整数且1≤i≤M-1。
结合第二方面的第二种可能的实现方式或第二方面的第三种可能的实现方式或第二方面的第四种可能的实现方式,在第五种可能的实现方式中,所述预测单元具体用于根据当前帧的扩展频带的第一频谱包络以及所述当前帧的第二频带的能量或幅度的均值,确定所述当前帧的扩展频带的第二频谱包络;在确定满足预设条件的情况下,对所述当前帧的扩展频带的第二频谱包络与前一帧的扩展频带的频谱包络进行加权,以确定所述当前帧的扩展频带的频谱包络;在确定不满足预设条件的情况下,将所述当前帧的扩展频带的第二频谱包络作为所述当前帧的扩展频带的频谱包络。
结合第二方面的第二种可能的实现方式或第二方面的第三种可能的实现方式或第二方面的第四种可能的实现方式,在第六种可能的实现方式中,所述预测单元具体用于根据当前帧的扩展频带的第一频谱包络以及所述当前帧的第二频带的能量或幅度的均值,确定所述当前帧的扩展频带的第二频谱包络;在确定满足预设条件的情况下,对所述当前帧的扩展频带的第二频谱包络与前一帧的扩展频带的频谱包络进行加权,以确定所述当前帧的扩展频带的第三频谱包络;在确定不满足预设条件的情况下,将所述当前帧的扩展频带的第二频谱包络作为所述当前帧的扩展频带的第三频谱包络;根据所述解码信号的基音周期、所述解码信号的浊音度因子以及所述当前帧的扩展频带的第三频谱包络,确定所述当前帧的扩展频带的频谱包络。
结合第二方面的第五种可能的实现方式或第二方面的第六种可能的实现方式,在第七种可能的实现方式中,所述预设条件包括以下三个条件中的至少一个:条件一:所述当前帧的语音或音频信号的编码方式与所述前一帧的语音或音频信号的编码方式不相同;条件二:所述前一帧的解码信号为非摩擦音,且所述当前帧的解码信号中第m个频带的能量或幅度的均值与所述前一帧的解码信号中第n个频带的能量或幅度的均值之间的比值在预设的阈值范围内,其中m和n为正整数;条件三:所述当前帧的解码信号为非摩擦音,且所述当前帧的扩展频带的第二频谱包络与所述前一帧的扩展频带的频谱包络之间的比值大于所述当前帧的解码信号中第j个频带的能量或幅度的均值与所述前一帧的解码信号中第k个频带的能量或幅度的均值之间的比值,其中j和k为正整数。
结合第二方面或第二方面的第一种可能的实现方式至第七种可能的实现方式中任一实现方式,在第八种可能的实现方式中,所述预测单元具体用于在所述语音或音频信号的编码方式为时域编码方式的情况下,从所述解码信号中选取第三频带,所述第三频带与所述扩展频带相邻;根据所述第三频带的频谱系数,预测所述扩展频带的激励信号。
结合第二方面或第二方面的第一种可能的实现方式至第七种可能的实现方式中任一实现方式,在第九种可能的实现方式中,所述预测单元具体用于在所述语音或音频信号的编码方式为时频联合编码方式或者频域编码方式的情况下,从所述解码信号中选取第四频带,所述第四频带所分配的比特数目大于预设的比特数目阈值;根据所述第四频带的频谱系数,预测所述扩展频带的激励信号。
结合第二方面或第二方面的第一种可能的实现方式至第九种可能的实现方式中任一实现方式,在第十种可能的实现方式中,第一合成单元,用于在所述语音或音频信号的编码方式为时频联合编码方式或者频域编码方式的情况下,将所述解码信号与所述扩展频带的频域信号进行合成,获取频域输出信号;第一变换单元,用于将所述频域输出信号进行频时变换,获取最终输出信号。
结合第二方面或第二方面的第一种可能的实现方式至第九种可能的实现方式中任一实现方式,在第十一种可能的实现方式中,获取单元,用于在所述语音或音频信号的编码方式为时域编码方式的情况下,根据时域频带扩展方式,获取所述扩展频带的第一时域信号;第二变换单元,用于将所述扩展频带的频域信号变换为所述扩展频带的第二时域信号;第二合成单元,用于对所述扩展频带的第一时域信号和所述扩展频带的第二时域信号进行合成,获取所述扩展频带的最终时域信号;第二合成单元还用于将所述解码信号与所述扩展频带的最终时域信号进行合成,获取最终输出信号。
第三方面,提供了一种信号编码方法,包括:对语音或音频信号进行核心层编码,得到所述语音或音频信号的核心层码流;对所述语音或音频信号进行扩展层处理,确定扩展频带的第一包络;根据所述语音或音频信号的信噪比、所述语音或音频信号的基音周期和所述扩展频带的第一包络,确定所述扩展频带的第二包络;对所述第二包络进行编码,得到扩展层码流;向解码端发送所述核心层码流和所述扩展层码流。
第四方面,提供了一种信号解码方法,包括:从编码端接收语音或音频信号的核心层码流和扩展层码流;对所述扩展层码流进行解码,确定扩展频带的第二包络,其中所述第二包络是所述编码端根据所述语音或音频信号的信噪比、所述语音或音频信号的基音周期和所述扩展频带的第一包络确定的;对所述核心层码流进行解码,得到核心层语音或音频信号;根据所述核心层语音或音频信号,预测所述扩展频带的激励信号;根据所述扩展频带的激励信号和所述扩展频带的第二包络,预测所述扩展频带的信号。
第五方面,提供了一种信号编码设备,包括:编码单元,用于对语音或音频信号进行核心层编码,得到所述语音或音频信号的核心层码流;第一确定单元,用于对所述语音或音频信号进行扩展层处理,确定所述扩展频带的第一包络;第二确定单元,用于根据所述语音或音频信号的信噪比、所述语音或音频信号的基音周期和所述扩展频带的第一包络,确定所述扩展频带的第二包络;所述编码单元还用于对所述第二包络进行编码,得到扩展层码流;发送单元,用于向解码端发送所述核心层码流和所述扩展层码流。
第六方面,提供了一种信号解码设备,包括:接收单元,用于从编码端接收语音或音频信号的核心层码流和扩展层码流;解码单元,用于对所述扩展层码流进行解码,确定扩展频带的第二包络,其中所述第二包络是所述编码端根据所述语音或音频信号的信噪比、所述语音或音频信号的基音周期和所述扩展频带的第一包络确定的;所述解码单元,还用于对所述核心层码流进行解码,得到核心层语音或音频信号;预测单元,用于根据所述核心层语音或音频信号,预测所述扩展频带的激励信号;所述预测单元还用于根据所述扩展频带的激励信号和所述扩展频带的第二包络,预测所述扩展频带的信号。
本发明实施例中,通过根据从语音或音频信号的比特流中得到的解码信号分别预测扩展频带的频谱包络和激励信号,使得能够确定语音或音频信号的扩展频带的频域信号,因此能够提升语音或音频信号的性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的信号解码方法的示意性流程图。
图2是根据本发明实施例的信号解码方法的过程的示意性流程图。
图3是根据本发明一个实施例的信号解码设备的示意框图。
图4是根据本发明另一实施例的信号解码设备的示意框图。
图5是根据本发明另一实施例的信号解码设备的示意框图。
图6是根据本发明一个实施例的信号解码设备的示意框图。
图7是根据本发明实施例的信号编码方法的示意性流程图。
图8是根据本发明实施例的信号解码方法的示意性流程图。
图9是根据本发明实施例的信号编码设备的示意框图。
图10是根据本发明实施例的信号解码设备的示意框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
图1是根据本发明实施例的信号解码方法的示意性流程图。图1的方法由信号解码设备执行,例如,可以是解码器。
110,对语音或音频信号的比特流进行解码,获取解码信号。
例如,语音或音频信号的比特流是信号编码设备(比如,编码器)对原始的语音或音频信号进行编码得到的。信号解码设备获取语音或音频信号的比特流之后,可以对该比特流进行解码,得到解码信号。解码过程可参照现有技术的过程,为了避免重复,此处不再赘述。该解码信号可以是低频带的解码信号。
例如,如果语音信号的编码方式为时域编码方式,则信号解码设备可以根据相应的解码方式对语音信号的比特流进行解码。如果音频信号的编码方式为时域联合编码方式或频域编码方式,则信号解码设备可以根据相应的解码方式对音频信号的比特流进行解码。
120,根据解码信号预测扩展频带的激励信号,其中解码信号的频带低于扩展频带,且解码信号的频带低于扩展频带。
可选地,作为一个实施例,在语音或音频信号的编码方式为时域编码方式的情况下,信号解码设备可以从解码信号中选取第三频带,第三频带与扩展频带相邻。可以根据第三频带的频谱系数,预测扩展频带的激励信号。
具体地,在语音或音频信号的编码方式为时域编码方式的情况下,信号解码设备可以根据与扩展频带相邻的第三频带的频谱系数,预测扩展频带的激励信号。
可选地,作为另一实施例,在语音或音频信号的编码方式为时频联合编码方式或者频域编码方式的情况下,信号解码设备可以从解码信号中选取第四频带,第四频带所分配的比特数目大于预设的比特数目阈值。可以根据第四频带的频谱系数,预测扩展频带的激励信号。
具体地,第四频带中所分配的比特数目较多,那么第四频带在解码时恢复的也较好。因此,信号解码设备可以根据第四频带的频谱系数,预测扩展频带的激励信号。
130,在解码信号中选取第一频带和第二频带,根据第一频带的频谱系数以及第二频带的频谱系数预测扩展频带的频谱包络;其中,第一频带的最高频点距离扩展频带的最低高频点小于或等于第一值,第二频带的最高频点距离第一频带的最低高频点小于或等于第二值。
本发明实施例中,扩展频带可以是需要扩展的频带。例如,在编码器采用ACELP(Algebraic Codebook Excited Linear Prediction,码本激励线性预测)编码模式进行编码时,为了提高编码效率,可以将采样率为16kHz的宽带信号下采样为采样率为12.8kHz的信号后再编码。这样,信号解码设备对比特流进行解码后,得到的解码信号的带宽到6.4kHz。如果为了获取带宽为8kHz的输出信号,那么信号解码设备可以扩展6kHz~8kHz的频带,也就是扩展出频带为6kHz~8kHz的信号。如果为了获取带宽为14kHz的输出信号,信号解码设备可以扩展6.4kHz~14kHz的频带,也就是扩展出频带为6.4kHz~14kHz的信号。
应理解,本发明实施例中,扩展频带的频谱包络可以包括N个包络值,N为正整数,N的取值可以根据实际情况进行确定。
可以从扩展频带的起始点向低频的方向从解码信号中选取第一频带和第二频带,选取的第一频带和第二频带的离扩展频带足够接近时,扩展频带能更准确(即更接近真实信号)。第一值和第二值分别是为了保证第一频带与扩展频带、第二频带与第一频带足够接近。上述第一值和第二值可以为正整数或正数;可以用频谱系数或者频点的数量表示;也可以用带宽表示。第一值和第二值可以相等也可以不相等。第一值和第二值可以根据需要预先设定,例如可以基于采样率以及对语音或音频信号进行时频变换的样点数设定第一值和第二值。比如,如果40个频谱系数表示1kHz,第一值和第二值可以分别为40,也就是第一频带和扩展频带之间的距离可以在1kHz以内;第二频带和第一频带之间的距离可以在1kHz以内。
一个实施例中,在解码信号中选取第一频带和第二频带包括:按照从扩展频带的起始点向低频的方向,在解码信号的频带中选取第一频带和第二频带,其中第一频带的最高频点距离扩展频带的最低频点等于第一值,第一值为0;第二频带的最高频点距离第一频带的最低频点等于第二值,第二值为0。
作为优选的实施例,第一值和第二值可以为0。那么第一频带与扩展频带相邻,第二频带与第一频带相邻。因此,可选地,步骤130的一个实施例,信号解码设备可以按照从扩展频带的起始点向低频的方向,在解码信号中选取第一频带和第二频带,其中第一频带可以与扩展频带相邻,第二频带可以与第一频带相邻。信号解码设备可以根据第一频带的频谱系数以及第二频带的频谱系数,预测扩展频带的频谱包络。
具体地,信号解码设备可以从扩展频带的起始点向低频的方向,在解码信号的频带中依次选取第一频带和第二频带。例如,假设解码信号的频带为0~6.4kHz,扩展频带为6kHz~8kHz,那么第一频带可以是4.8kHz~6.4kHz,第二频带可以是3.2kHz~4.8kHz。假设解码信号的频带为0~6.4kHz,扩展频带为6.4kHz~14kHz,那么第一频带可以是4kHz~6.4kHz,第二频带可以是3.2kHz~4kHz。上述数值的举例是为了帮助本领域技术人员更好地理解本发明实施例,而非限制本发明的范围。第一频带和第二频道可以根据实际情况进行选取,本发明实施例对此不作限定。
可选地,作为另一实施例,信号解码设备可以将第一频带划分为M个子带,并根据第一频带的频谱系数确定每个子带的能量或幅度的均值,其中M为正整数。可以根据每个子带的能量或幅度的均值,确定每个子带的能量或幅度的调整值。可以根据每个子带的能量或幅度的调整值,预测扩展频带的第一频谱包络。可以根据第二频带的频谱系数,确定第二频带的能量或幅度的均值。可以根据扩展频带的第一频谱包络以及第二频带的能量或幅度的均值,预测扩展频带的频谱包络。
具体地,信号解码设备可以将第一频带划分为M个子带,并根据第一频带的频谱系数确定每个子带的能量或幅度的均值,也就是可以得到M个能量或幅度的均值。根据M个能量或幅度的均值,可以确定M个能量或幅度的调整值。
信号解码设备可以根据M个能量或幅度的调整值,预测扩展频带的第一频谱包络。第一频谱包络可以是对扩展频带的频谱包络的初步预测。第一频谱包络可以包括N个值。信号解码设备可以根据扩展频带的第一频谱包络以及第二频带的能量或幅度的均值,预测扩展频带的频谱包络。
可选地,作为另一实施例,如果M个子带的能量或幅度的均值的方差不在预设的阈值范围内,则将a个子带中每个子带的能量或幅度的均值进行调整以确定a个子带中每个子带的能量或幅度的调整值,并将b个子带中每个子带的能量或幅度的均值作为b个子带中每个子带的能量或幅度的调整值,其中a个子带中每个子带的能量或幅度的均值大于或等于均值阈值,b个子带中每个子带的能量或幅度的均值小于均值阈值,a和b为正整数,且a+b=M;如果M个子带的能量或幅度的均值的方差在预设的阈值范围内,则将每个子带的能量或幅度的均值作为每个子带的能量或幅度的调整值。
具体地,在M个能量或幅度的均值的方差不在预设的阈值范围内时,可以将M个能量或幅度的均值中大于均值阈值的那些值进行调整。应注意,阈值范围可以是根据M个能量或幅度的均值的方差来确定的,均值阈值可以是根据M个能量或幅度的均值来确定的。例如,均值阈值可以是M个均值的平均值,可以将M个能量或幅度的均值中大于该平均值的那些能量或幅度的均值进行缩放得到对应的调整值。进行缩放的过程可以是将需要调整的均值乘以缩放比例值,该缩放比例值可以是根据M个子带的能量或幅度的均值得到的,且该缩放比例值小于1。
可选地,作为另一实施例,对于M个子带中的第i个子带和第(i+1)个子带,如果第i个子带的能量或幅度的均值与第(i+1)个子带的能量或幅度的均值之间的比值不在预设的阈值范围内,则在第i个子带的能量或幅度的均值大于第(i+1)个子带的能量或幅度的均值时,对第i个子带的能量或幅度的均值进行调整以确定第i个子带的能量或幅度的调整值,并将第(i+1)个子带的能量或幅度的均值作为第(i+1)个子带的能量或幅度的调整值;在第i个子带的能量或幅度的均值小于第(i+1)个子带的能量或幅度的均值时,对第(i+1)个子带的能量或幅度的均值进行调整以确定第(i+1)个子带的能量或幅度的调整值,并将第i个子带的能量或幅度的均值作为第i个子带的能量或幅度的调整值;如果第i个子带的能量或幅度的均值与第(i+1)个子带的能量或幅度的均值之间的比值在预设的阈值范围内,则将第i个子带的能量或幅度的均值作为第i个子带的能量或幅度的调整值,并将第(i+1)个子带的能量或幅度的均值作为第(i+1)个子带的调整值,其中i为正整数且1≤i≤M-1。
具体地,如果第i个子带的能量或幅度的均值与第(i+1)个子带的能量或幅度的均值之间的比值不在预设的阈值范围内,则可以对第i个子带的能量或幅度的均值和第(i+1)个子带的能量或幅度的均值中较大的那个值进行调整得打对应的调整值,例如,可以对两者之间较大的那个均值进行缩放,比如可以将较大的均值乘以缩放比例值。
可选地,作为另一实施例,信号解码设备可以根据当前帧的扩展频带的第一频谱包络以及当前帧的第二频带的能量或幅度的均值,确定当前帧的扩展频带的第二频谱包络。在确定满足预设条件的情况下,可以对当前帧的扩展频带的第二频谱包络与前一帧的扩展频带的频谱包络进行加权,以确定当前帧的扩展频带的频谱包络。在确定不满足预设条件的情况下,将当前帧的扩展频带的第二频谱包络作为当前帧的扩展频带的频谱包络。
应理解,图1所描述的过程均是针对于当前帧的。因此,信号解码设备需要预测的扩展频带的频谱包络也是当前帧的扩展频带的频谱包络。
具体地,信号解码设备可以根据扩展频带的第一频谱包络以及第二频带的能量或幅度的均值,确定扩展频带的第二频谱包络。例如,可以在第二频带的能量或幅度的均值与第一频谱包络的均值之间的比值大于预设值时,对第一频谱包络包括的N个值分别进行缩放,N为正整数。第一频谱包络的均值可以是第一频谱包络包括的N个值的均值。进一步,可以在第二频带的能量或幅度的均值的开方值与第一频谱包络的均值之间的比值大于预设值时,对第一频谱包络包括的N个值分别进行缩放。例如,可以将第一频谱包络包括的N个值分别乘以缩放比例值,该缩放比例值可以根据第二频带的能量或幅度的均值和第一频谱包络的均值确定。在语音或音频信号的编码方式为时域编码方式的情况下,该缩放比例值大于1,在语音或音频信号的编码方式为时频联合编码方式或频域编码方式的情况下,该缩放比例值小于1。
在满足预设条件时,当前帧的扩展频带的频谱包络还需要基于前一帧的扩展频带的频谱包络进行确定。具体地,可以将上述第二频谱包络与前一帧的扩展频带的频谱包络进行加权,确定当前帧的扩展频带的频谱包络。在不满足预设条件时,当前帧的扩展频带的频带包络可以是第二频谱包络。
可选地,作为另一实施例,信号解码设备可以根据当前帧的扩展频带的第一频谱包络以及当前帧的第二频带的能量或幅度的均值,确定当前帧的扩展频带的第二频谱包络;在确定满足预设条件的情况下,对当前帧的扩展频带的第二频谱包络与前一帧的扩展频带的频谱包络进行加权,以确定当前帧的扩展频带的第三频谱包络;在确定不满足预设条件的情况下,将当前帧的扩展频带的第二频谱包络作为当前帧的扩展频带的第三频谱包络;根据解码信号的基音周期、解码信号的浊音度因子以及当前帧的扩展频带的第三频谱包络,确定当前帧的扩展频带的频谱包络。
具体地,确定当前帧的扩展频带的第三频谱包络的过程与上述实施例中确定当前帧的扩展频带的频谱包络的过程类似,为了避免重复,此处不再赘述。也就是,在上述实施例中,将当前帧的扩展频带的第三频谱包络作为当前帧的扩展频带的频谱包络,但此处,为了使扩展频带的频谱包络更精确,因此可以对扩展频带的第三频谱包络进行进一步修正得到扩展频带的频谱包络,即可以根据上述解码信号(也就是当前帧的解码信号)的基音周期和浊音度因子,对扩展频带的第三频谱包络进行修正,使得最终的扩展频带的频谱包络与浊音度因子成反比,与基音周期成正比,从而确定最终的扩展频带的频谱包络。
例如,可以基于以下等式确定扩展频带的频谱包络wenv:
wenv=(a1*pitch*pitch+b1*pitch+c1)/(a2*voice_fac*voice_fac+b2*voice_fac+c2)*wenv3
其中,pitch可以表示解码信号的基音周期,voice_fac可以表示解码信号的浊音度因子,wenv3可以表示扩展频带的第三频谱包络。a1和b1不能同时为0,a2、b2和c2不能同时为0。
这样,对于扩展频带存在比特的情况以及扩展频带是盲频带的情况,该实施例都可以适用。
可选地,作为另一实施例,上述预设条件可以包括以下三个条件中的至少一个:条件一:当前帧的语音或音频信号的编码方式与前一帧的语音或音频信号的编码方式不相同;条件二:前一帧的解码信号为非摩擦音且当前帧的解码信号中第m个频带的能量或幅度的均值与前一帧的解码信号中第n个频带的能量或幅度的均值之间的比值在预设的阈值范围内,其中m和n为正整数;条件三:当前帧的解码信号为非摩擦音且当前帧的扩展频带的第二频谱包络与前一帧的扩展频带的频谱包络之间的比值大于当前帧的解码信号中第j个频带的能量或幅度的均值与前一帧的解码信号中第k个频带的能量或幅度的均值之间的比值,其中j和k为正整数。
具体地,当前帧的语音或音频信号的编码方式与前一帧的语音或音频信号的编码方式不相同,可以是指当前帧的语音或音频信号的编码方式为时域编码方式,而前一帧的语音或音频信号的编码方式为时频联合编码方式或频域编码方式,也可以是指当前帧的语音或音频信号的编码方式为时频联合编码方式或频域编码方式,而前一帧的语音或音频信号的编码方式为时域编码方式。
前一帧的解码信号为非摩擦音,且当前帧的解码信号中第m个频带的能量或幅度的均值与前一帧的解码信号中第n个频带的能量或幅度的均值之间的比值在预设的阈值范围内,其中,预设的阈值范围可以是根据实际情况进行设定的,本发明实施例对此不作限定。如果当前帧的解码信号和前一帧的解码信号均是语音信号,并且均是浊音或清音,则该预设的阈值范围可以适当地扩大。
此外,在上述条件中,当前帧的解码信号中第m个频带的能量或幅度的均值,可以是根据预定义的规则或实际情况从当前帧的解码信号中选择第m个频带,确定该频带的能量或幅度的均值。此外,还可以将当前帧的解码信号中第m个频带的能量或幅度的均值进行存储,在下一帧时,可以直接获取存储的当前帧的解码信号中第m个频带的能量或幅度的均值。因此,前一帧的解码信号中第n个频带的能量或幅度的均值在前一帧时已经被存储。此时,可以直接获取存储的前一帧的解码信号中第n个频带的能量或幅度的均值。如果当前帧的语音或音频信号的编码方式与前一帧的语音或音频信号的编码方式不相同,则当前帧的解码信号中第m个频带可以不同于前一帧的解码信号中第n个频带。
此外,当前帧的解码信号中第j个频带的能量或幅度的均值的确定方式可参照上述第m个频带的能量或幅度的均值的确定方式。前一帧的解码信号中第k个频带的能量或幅度的均值的确定方式可参照上述第n个频带的能量或幅度的均值的确定方式。为了避免重复,此处不再赘述。
具体地,在满足上面三个条件中的至少一个时,信号解码设备可以将上述第二频谱包络与前一帧的扩展频带的频谱包络进行加权,确定当前帧的扩展频带的频谱包络。在上面三个条件都不满足时,当前帧的扩展频带的频带包络可以是第二频谱包络。
140,根据扩展频带的频谱包络和扩展频带的激励信号,确定扩展频带的频域信号。
例如,可以将扩展频带的频谱包络和扩展频带的激励信号相乘,确定扩展频带的频域信号。
本发明实施例中,上述确定扩展频带的频域信号的方式,可以称为频域频带扩展方式。
可选地,作为另一实施例,在语音或音频信号的编码方式为时频联合编码方式或者频域编码方式的情况下,信号解码设备可以将扩展频带的频域信号变换为扩展频带的第一时域信号,将解码信号与扩展频带的第一时域信号进行合成,获取输出信号。
可选地,作为另一实施例,在语音或音频信号的编码方式为时域编码方式的情况下,信号解码设备可以根据时域频带扩展方式,获取扩展频带的第二时域信号。可以将扩展频带的频域信号变换为扩展频带的第三时域信号。可以对扩展频带的第二时域信号和扩展频带的第三时域信号进行合成,获取扩展频带的最终时域信号。可以将解码信号与扩展频带的最终时域信号进行合成,获取输出信号。
具体地,在语音或音频信号的编码方式为时域编码方式的情况下,信号解码设备可以根据时域频带扩展方式以及频域频带扩展方式,获取扩展频带的最终时域信号。然后可以将解码信号与扩展频带的最终时域信号进行合成,获取最终的输出信号。时域频带扩展方式的具体过程可参照现有技术,为了避免重复,此处不再赘述。
本发明实施例中,通过根据从语音或音频信号的比特流中得到的解码信号分别预测扩展频带的频谱包络和激励信号,使得能够确定语音或音频信号的扩展频带的频域信号,因此能够提升语音或音频信号的性能。
另一个实施例中,根据本发明实施例的信号解码方法,包括:
对语音或音频信号的比特流进行解码,获取解码信号;
根据所述解码信号预测扩展频带的激励信号,其中,所述扩展频带与所述解码信号的频带相邻,且所述解码信号的频带低于所述扩展频带;
按照从所述扩展频带的起始点向低频的方向,在所述解码信号的频带中选取第一频带和第二频带,其中第一频带与扩展频带相邻,第二频带与第一频带相邻;
根据所述第一频带的频谱系数以及所述第二频带的频谱系数预测所述扩展频带的频谱包络;
根据所述扩展频带的频谱包络和所述扩展频带的激励信号,确定所述扩展频带的频域信号。
本实施例与上一个实施例的区别在于第一频带和第二频带的选择方式不同。本实施例中,选取的第一频带与扩展频带相邻,第二频带与第一频带相邻;此处的相邻表示两个频带之间连续或者无频点间隔。具体地,信号解码设备可以从扩展频带的起始点向低频的方向,在解码信号的频带中依次选取第一频带和第二频带。例如,假设解码信号的频带为0~6.4kHz,扩展频带为6kHz~8kHz,那么第一频带可以是4.8kHz~6.4kHz,第二频带可以是3.2kHz~4.8kHz。假设解码信号的频带为0~6.4kHz,扩展频带为6.4kHz~14kHz,那么第一频带可以是4kHz~6.4kHz,第二频带可以是3.2kHz~4kHz。上述数值的举例是为了帮助本领域技术人员更好地理解本发明实施例,而非限制本发明的范围。第一频带和第二频带可以根据实际情况进行选取,本发明实施例对此不作限定。
显然的,上一个实施例中除选择第一频带和第二频带之外的其他步骤涉及的具体实现方式和实施例都适用于本实施例中的对应步骤。
下面结合具体例子详细描述本发明实施例。应注意,这些例子是为了帮助本领域技术人员更好地理解本发明实施例,而非限制本发明实施例的范围。
图2是根据本发明实施例的信号解码方法的过程的示意性流程图。
在图2中,假设语音或音频信号的采样率为12.8kHz。
201,信号解码设备确定语音或音频信号的编码方式。
202,在信号解码设备确定语音或音频信号的编码方式不是时域编码方式的情况下,例如,该语音或音频信号的编码方式为时域联合编码方式或频域编码方式,信号解码设备可以采用相应的解码方式对该语音或音频信号的比特流进行解码,获取解码信号。由于该语音或音频信号的采样率为12.8kHz,那么解码信号的带宽为6.4kHz。为了获取带宽为8kHz的输出信号,则需要进行盲带宽扩展,恢复频带为6kHz~8kHz的信号,也就是扩展出频带为6kHz~8kHz的信号。
在语音或音频信号的编码方式为时域联合编码方式或频域编码方式的情况下,信号解码设备可采用频域频带扩展方式恢复扩展频带6kHz~8kHz的频域信号。
203,信号解码设备从步骤202的解码信号中选取第一频带和第二频带,并根据第一频带的频谱系数和第二频带的频谱系数,预测扩展频带的频谱包络。
可选地,信号解码设备可以按照从扩展频带的起始点向低频的方向,在解码信号中选取第一频带和第二频带,其中第一频带与扩展频带相邻,第一频带与第二频带相邻。下面结合具体的例子详细描述预测扩展频带的频谱包络的过程。应注意,这个例子只是为了帮助本领域技术人员更好地理解本发明实施例,而非限制本发明实施例的范围。
在下面的例子中,假设将扩展频带划分为两个子带,则需要预测每个子带的频谱包络值,此处以wenv[1]和wenv[2]表示两个子带的频谱包络值。
(1)从解码信号的频带中可选取第一频带,假设第一频带为4.8kHz~6.4kHz,可将第一频带划分为两个子带,第一个子带为4.8kHz~5.6kHz,第二个子带为5.6kHz~6.4kHz。信号解码设备可根据第一个子带的频谱系数,确定第一个子带的能量的均值ener1。可根据第二个子带的频谱系数,确定第二个子带的能量的均值ener2。
假设预设的阈值范围为(0.5,2),如果ener1/ener2>2,则可以对ener1进行缩放,例如ener1′=ener1*(2*ener2/ener1),ener2可以保持不变,即ener2′=ener2。此处,ener1′可以表示第一个子带的能量的调整值,ener2′可以表示第二个子带的能量的调整值。
如果ener1/ener2<0.5,则可以对ener2进行缩放,例如ener2′=ener2*(2*ener1/ener2),ener1可以保持不变,即ener1′=ener1。
应注意,虽然此处根据第一个子带的能量的均值和第二个子带的能量的均值之间的比值是否在阈值范围之内,来确定第一个子带的能量的调整值和第二个子带的能量的调整值。但本发明实施例中,还可以根据第一个子带的能量的均值和第二个子带的能量的均值的方差是否在阈值范围之内,来确定第一个子带的能量的调整值和第二个子带的能量的调整值,确定过程可参照上述根据比值确定的过程,此处不再赘述。
因此,根据ener1′和ener2′,确定扩展频带的第一频谱包络,第一频谱包络是对扩展频带的频谱包络的初步预测,第一频谱包络包括两个频谱包络值wenv[1]′和wenv[2]′。
例如,可以按照如下方式确定wenv[1]′和wenv[2]′:
也可以按照如下方式确定wenv[1]′和wenv[2]′:
(2)从解码信号的频带中可选取第二频带,假设第二频带为3.2kHz~4.8kHz。信号解码设备可以根据第二频带的频谱系数,确定第二频带的能量的均值enerL。
信号解码设备可以根据enerL以及wenv[1]′和wenv[2]′,确定扩展频带的第二频谱包络,第二频谱包络包括两个频谱包络值,即wenv[1]″和wenv[2]″。
例如,如果其中k的取值可以是预先定义的,那么可以对wenv[1]′和wenv[2]′进行缩放,从而确定扩展频带的两个频谱包络值wenv[1]和wenv[2]。
例如,可以根据enerL以及wenv[1]′和wenv[2]′,按照如下方式确定wenv[1]″和wenv[2]″:
在语音或音频信号的编码方式为时域编码方式的情况下:
wenv[1]″=p*wenv[1]′,wenv[2]″=p*wenv[2]′,
在语音或音频信号的编码方式为时频联合编码方式或频域编码方式的情况下:
wenv[1]″=p*wenv[1]′,wenv[2]″=p*wenv[2]′,
此外,如果解码信号为摩擦音,那么可以对上面得到的wenv[1]″和wenv[2]″进一步缩放,缩放比例值小于1。
应注意,上述预测wenv[1]″和wenv[2]″的过程还可以如下:
在上述步骤(1)中,信号解码设备还可以根据上述第一个子带的频谱系数,确定第一个子带的幅度的均值amp1。可根据上述第二个子带的频谱系数,确定第二个子带的幅度的均值amp2。
假设预设的阈值范围为(0.5,2),如果amp1/amp2>2,则可以对amp1进行缩放,例如amp1′=amp1*(2*amp2/amp1),amp2可以保持不变,即amp2′=amp2。此处,amp1′可以表示第一个子带的幅度的调整值,amp2′可以表示第二个子带的幅度的调整值。
如果amp1/amp2<0.5,则可以对amp2进行缩放,例如amp2′=amp2*(2*amp1/amp2),amp1可以保持不变,即amp1′=amp1。
应注意,虽然此处根据第一个子带的幅度的均值和第二个子带的幅度的均值之间的比值是否在阈值范围之内,来确定第一个子带的能量的调整值和第二个子带的能量的调整值。但本发明实施例中,还可以根据第一个子带的幅度的均值和第二个子带的幅度的均值的方差是否在阈值范围之内,来确定第一个子带的幅度的调整值和第二个子带的幅度的调整值,确定过程可参照上述根据比值确定的过程,此处不再赘述。
因此,根据amp1′和amp2′,确定扩展频带的第一频谱包络,第一频谱包络是对扩展频带的频谱包络的初步预测,第一频谱包络包括两个频谱包络值wenv[1]′和wenv[2]′。
例如,可以按照如下方式确定wenv[1]′和wenv[2]′:
wenv[1]′=amp1′,wenv[2]′=amp2′。
也可以按照如下方式确定wenv[1]′和wenv[2]′:
wenv[1]′=wenv[2]′=(amp1′+amp2′)/2。。
在上述步骤(2)中,信号解码设备还可以根据第二频带的频谱系数,确定第二频带的幅度的均值ampL。
信号解码设备可以根据apmL以及wenv[1]′和wenv[2]′,确定wenv[1]″和wenv[2]″。
例如,如果ampL>k*[(wenv[1]′+wenv[2]′)/2],其中k的取值可以是预先定义的,那么可以对wenv[1]′和wenv[2]′进行缩放,从而确定扩展频带的两个频谱包络值wenv[1]和wenv[2]。
例如,可以根据ampL以及wenv[1]′和wenv[2]′,按照如下方式确定wenv[1]″和wenv[2]″:
在语音或音频信号的编码方式为时域编码方式的情况下:
wenv[1]″=p*wenv[1]′,wenv[2]″=p*wenv[2]′,
p=ampL/[(wenv[1]′+wenv[2]′)/2]。
在语音或音频信号的编码方式为时频联合编码方式或频域编码方式的情况下:
wenv[1]″=p*wenv[1]′,wenv[2]″=p*wenv[2]′,
p=[(wenv[1]′+wenv[2]′)/2]/ampL。
(3)信号解码设备可以确定是否满足预设条件。在确定满足预设条件的情况下,将上面的wenv[1]″和wenv[2]″与前一帧的扩展频谱的频谱包络进行加权,确定wenv[1]和wenv[2]。
在确定不满足预设条件的情况下,wenv[1]=wenv[1]″,wenv[2]=wenv[2]″。
预设条件可以包括以下中的至少一个:
(a)当前帧的语音或音频信号的编码方式与前一帧的语音或音频信号的编码方式不相同。
例如,此处的语音或音频信号的编码方式为时频联合编码方式或频域编码方式,那么前一帧的语音或音频信号的编码方式可以为时域编码方式。
(b)前一帧的解码信号为非摩擦音,且当前帧的解码信号中第m个频带的能量或幅度的均值与前一帧的解码信号中第n个频带的能量或幅度的均值之间的比值在预设的阈值范围内,其中m和n为正整数。
例如,预设的阈值范围可以是根据实际情况进行设定的。比如,该预设的阈值范围可以为(0.5,2)。如果当前帧的解码信号和前一帧的解码信号均是语音信号,并且均是浊音或清音,则该预设的阈值范围可以适当地扩大。比如,可以将预设的阈值范围扩大为(0.4,2.5)。
此外,在该条件中,当前帧的解码信号中第m个频带的能量或幅度的均值,可以是根据预定义的规则或实际情况从当前帧的解码信号中选择第m个频带,确定该频带的能量或幅度的均值。此外,还可以将当前帧的解码信号中第m个频带的能量或幅度的均值进行存储,在下一帧时,可以直接获取存储的当前帧的解码信号中第m个频带的能量或幅度的均值。因此,前一帧的解码信号中第n个频带的能量或幅度的均值在前一帧时已经被存储。此时,可以直接获取存储的前一帧的解码信号中第n个频带的能量或幅度的均值。如果当前帧的语音或音频信号的编码方式与前一帧的语音或音频信号的编码方式不相同,则当前帧的解码信号中第m个频带可以不同于前一帧的解码信号中第n个频带。例如,如果当前帧的语音或音频信号的编码方式为时频联合编码方式或频域编码方式,那么可以从当前帧的解码信号中选择2kHz~6kHz的频带,确定该频带的能量或幅度的均值。如果前一帧的语音或音频信号的编码方式为时域编码方式,那么可以确定前一帧的解码信号中频带为4kHz~6kHz的能量或幅度的均值。
(c)当前帧的解码信号为非摩擦音,且当前帧的扩展频带的第二频谱包络与前一帧的扩展频带的频谱包络之间的比值大于当前帧的解码信号中第j个频带的能量或幅度的均值与前一帧的解码信号中第k个频带的能量或幅度的均值之间的比值,其中j和k为正整数。
在该条件中,当前帧的解码信号中第j个频带的能量或幅度的均值的确定方式可参照条件(b)中第m个频带的能量或幅度的均值的确定方式。前一帧的解码信号中第k个频带的能量或幅度的均值的确定方式可以参照条件(b)中第n个频带的能量或幅度的均值的确定方式。如果当前帧的语音或音频信号的编码方式与前一帧的语音或音频信号的编码方式不相同,则第j个频带和第k个频带可以不相同。
204,信号解码设备根据步骤202得到的解码信号的频谱系数,预测扩展频带的激励信号。
例如,此处语音或音频信号的编码方式为时频联合编码方式或频域编码方式,那么信号解码设备可以从解码信号的频带中选取分配的比特数目大于预设的比特数目阈值且恢复较好的频带,根据该频带的频谱系数预测扩展频带的激励信号。例如,可以根据2kHz~4kHz的频带的频谱系数,预测扩展频带6kHz~8kHz的激励信号。
此外,如果语音或音频信号的编码方式为时域编码方式,那么信号解码设备可以从解码信号的频带中选取与扩展频带相邻的频带,根据该频带的频谱系数预测扩展频带的激励信号。例如,可以根据4kHz~6kHz的频带的频谱系数,预测扩展频带6kHz~8kHz的激励信号。
205,信号解码设备可以根据步骤203预测的频谱包络和步骤204预测的激励信号,确定扩展频带的频域信号。
例如,可以将扩展频带的频谱包络和扩展频带的激励信号相乘,确定扩展频带的频域信号。
206,信号解码设备将步骤202得到的解码信号与步骤205中得到的扩展频带的频域信号进行合成,获取频域输出信号。
207,信号解码设备将步骤206得到的频域输出信号进行频时变换,获取最终输出信号。
208,在信号解码设备确定语音或音频信号的编码方式为时域编码方式的情况下,信号解码设备采用相应的解码方式对该语音或音频信号的比特流进行解码。
由于该语音或音频信号的采样率为12.8kHz,那么解码信号的带宽为6.4kHz。为了获取带宽为8kHz的输出信号,则需要进行盲带宽扩展,恢复频带为6kHz~8kHz的信号,也就是扩展频带为6kHz~8kHz。
在语音或音频信号的编码方式为时域编码方式的情况下,信号解码设备可以采用时域频带扩展方式和频域频带扩展方式恢复扩展频带6kHz~8kHz的最终时域信号。
209,信号解码设备根据步骤208中的解码信号,使用时域频带扩展方式,确定扩展频带6kHz~8kHz的第一时域信号。
时域频带扩展方式的具体过程可参照现有技术,为了避免重复,此处不再赘述。
210,信号解码设备将步骤208中的解码信号进行时频变换,将解码信号由时域的信号转换为频域的信号。
211,信号解码设备使用频域频带扩展方式,确定扩展频带的频域信号。
具体过程可参照步骤203至205,为了避免重复,此处不再赘述。
212,信号解码设备将步骤211中确定的扩展频带的频域信号进行频时变换,确定扩展频带的第二时域信号。
213,信号解码设备对扩展频带的第一时域信号和扩展频带的第二时域信号进行相加,确定扩展频带的最终时域信号。
214,信号解码设备将步骤208得到的解码信号与步骤213中得到的扩展频带的频域信号进行合成,确定最终输出信号。
本发明实施例中,通过根据从语音或音频信号的比特流中得到的解码信号分别预测扩展频带的频谱包络和激励信号,使得能够确定语音或音频信号的扩展频带的频域信号,因此能够提升语音或音频信号的性能。
图3是根据本发明一个实施例的信号解码设备的示意框图。图3的设备300的一个例子是解码器。设备300包括解码单元310、预测单元320和确定单元330。
解码单元310对语音或音频信号的比特流进行解码,获取解码信号。预测单元320从解码单元310接收解码信号,并根据解码信号预测扩展频带的激励信号,其中,扩展频带与解码信号的频带相邻,且解码信号的频带低于扩展频带。预测单元320还在解码信号中选取第一频带和第二频带,并根据第一频带的频谱系数以及第二频带的频谱系数预测扩展频带的频谱包络,其中,第一频带的最高频点距离扩展频带的最低频点小于或等于第一值,第二频带的最高频点距离第一频带的最低频点小于或等于第二值。确定单元330从预测单元320接收扩展频带的频谱包络和扩展频带的激励信号,根据扩展频带的频谱包络和扩展频带的激励信号,确定扩展频带的频域信号。
本发明实施例中,通过根据从语音或音频信号的比特流中得到的解码信号分别预测扩展频带的频谱包络和激励信号,使得能够确定语音或音频信号的扩展频带的频域信号,因此能够提升语音或音频信号的性能。
设备300的其它功能和操作可参照上面图1和图2的方法实施例的过程,为了避免重复,此处不再赘述。
可选地,作为一个实施例,预测单元320可按照从扩展频带的起始点向低频的方向,在解码信号中选取第一频带和第二频带,其中第一频带的最高频点距离扩展频带的最低频点等于第一值,第一值为0;第二频带的最高频点距离第一频带的最低频点等于第二值,第二值为0。
可选地,作为另一实施例,预测单元320可将第一频带划分为M个子带,并根据第一频带的频谱系数确定每个子带的能量或幅度的均值,其中M为正整数;根据每个子带的能量或幅度的均值,确定每个子带的能量或幅度的调整值;根据每个子带的能量或幅度的调整值,预测扩展频带的第一频谱包络;根据第二频带的频谱系数,确定第二频带的能量或幅度的均值;根据扩展频带的第一频谱包络以及第二频带的能量或幅度的均值,预测扩展频带的频谱包络。
可选地,作为另一实施例,如果M个子带的能量或幅度的均值的方差不在预设的阈值范围内,则预测单元320可将a个子带中每个子带的能量或幅度的均值进行调整以确定a个子带中每个子带的能量或幅度的调整值,并将b个子带中每个子带的能量或幅度的均值作为b个子带中每个子带的能量或幅度的调整值,其中a个子带中每个子带的能量或幅度的均值大于或等于均值阈值,b个子带中每个子带的能量或幅度的均值小于均值阈值,a和b为正整数,且a+b=M。
如果M个子带的能量或幅度的均值的方差在预设的阈值范围内,则预测单元320可将每个子带的能量或幅度的均值作为每个子带的能量或幅度的调整值。
可选地,作为另一实施例,对于M个子带中的第i个子带和第(i+1)个子带,如果第i个子带的能量或幅度的均值与第(i+1)个子带的能量或幅度的均值之间的比值不在预设的阈值范围内,则预测单元320可在第i个子带的能量或幅度的均值大于第(i+1)个子带的能量或幅度的均值时,对第i个子带的能量或幅度的均值进行调整以确定第i个子带的能量或幅度的调整值,并将第(i+1)个子带的能量或幅度的均值作为所述第(i+1)个子带的能量或幅度的调整值;在第i个子带的能量或幅度的均值小于第(i+1)个子带的能量或幅度的均值时,对第(i+1)个子带的能量或幅度的均值进行调整以确定第(i+1)个子带的能量或幅度的调整值,并将第i个子带的能量或幅度的均值作为第i个子带的能量或幅度的调整值。
如果第i个子带的能量或幅度的均值与第(i+1)个子带的能量或幅度的均值之间的比值在预设的阈值范围内,则预测单元320可将第i个子带的能量或幅度的均值作为第i个子带的能量或幅度的调整值,并将第(i+1)个子带的能量或幅度的均值作为第(i+1)个子带的调整值,其中i为正整数且1≤i≤M-1。
可选地,作为另一实施例,预测单元320可根据当前帧的扩展频带的第一频谱包络以及当前帧的第二频带的能量或幅度的均值,确定当前帧的扩展频带的第二频谱包络;在确定满足预设条件的情况下,对当前帧的扩展频带的第二频谱包络与前一帧的扩展频带的频谱包络进行加权,以确定当前帧的扩展频带的频谱包络;在确定不满足预设条件的情况下,将当前帧的扩展频带的第二频谱包络作为当前帧的扩展频带的频谱包络。
可选地,作为另一实施例,预测单元320可根据当前帧的扩展频带的第一频谱包络以及当前帧的第二频带的能量或幅度的均值,确定当前帧的扩展频带的第二频谱包络;在确定满足预设条件的情况下,对当前帧的扩展频带的第二频谱包络与前一帧的扩展频带的频谱包络进行加权,以确定当前帧的扩展频带的第三频谱包络;在确定不满足预设条件的情况下,将当前帧的扩展频带的第二频谱包络作为当前帧的扩展频带的第三频谱包络;根据解码信号的基音周期、解码信号的浊音度因子以及当前帧的扩展频带的第三频谱包络,确定当前帧的扩展频带的频谱包络。
可选地,作为另一实施例,上述预设条件可包括以下三个条件中的至少一个:条件一:当前帧的语音或音频信号的编码方式与前一帧的语音或音频信号的编码方式不相同;条件二:前一帧的解码信号为非摩擦音,且当前帧的解码信号中第m个频带的能量或幅度的均值与前一帧的解码信号中第n个频带的能量或幅度的均值之间的比值在预设的阈值范围内,其中m和n为正整数;条件三:当前帧的解码信号为非摩擦音,且当前帧的扩展频带的第二频谱包络与前一帧的扩展频带的频谱包络之间的比值大于当前帧的解码信号中第j个频带的能量或幅度的均值与前一帧的解码信号中第k个频带的能量或幅度的均值之间的比值,其中j和k为正整数。
可选地,作为另一实施例,预测单元320可在语音或音频信号的编码方式为时域编码方式的情况下,从解码信号中选取第三频带,第三频带与扩展频带相邻;根据第三频带的频谱系数,预测扩展频带的激励信号。
可选地,作为另一实施例,预测单元320可在语音或音频信号的编码方式为时频联合编码方式或者频域编码方式的情况下,从解码信号中选取第四频带,第四频带所分配的比特数目大于预设的比特数目阈值;根据第四频带的频谱系数,预测扩展频带的激励信号。
本发明实施例中,通过根据从语音或音频信号的比特流中得到的解码信号分别预测扩展频带的频谱包络和激励信号,使得能够确定语音或音频信号的扩展频带的频域信号,因此能够提升语音或音频信号的性能。
图4是根据本发明另一实施例的信号解码设备的示意框图。图4的设备400的一个例子是解码器。在图4中,与图3相同或相似的部分沿用相同的附图标记。设备400除了包括解码单元310、预测单元320和确定单元330之外,还包括第一合成单元340和第一变换单元350。
第一合成单元340可在语音或音频信号的编码方式为时频联合编码方式或者频域编码方式的情况下,将解码信号与扩展频带的频域信号进行合成,获取频域输出信号。第一变换单元350可将频域输出信号进行频时变换,获取最终输出信号。
设备400的其它功能和操作可参照上面图1和图2的方法实施例的过程,为了避免重复,此处不再赘述。
本发明实施例中,通过根据从语音或音频信号的比特流中得到的解码信号分别预测扩展频带的频谱包络和激励信号,使得能够确定语音或音频信号的扩展频带的频域信号,因此能够提升语音或音频信号的性能。
图5是根据本发明另一实施例的信号解码设备的示意框图。图5的设备500的一个例子是解码器。在图5中,与图3和图4相同或相似的部分沿用相同的附图标记。设备500除了包括解码单元310、预测单元320和确定单元330之外,还包括获取单元360、第二变换单元370和第二合成单元380。
获取单元360可在语音或音频信号的编码方式为时域编码方式的情况下,根据时域频带扩展方式,获取扩展频带的第一时域信号。第二变换单元370可将扩展频带的频域信号变换为扩展频带的第二时域信号。第二合成单元380可对扩展频带的第一时域信号和扩展频带的第二时域信号进行合成,获取扩展频带的最终时域信号。第二合成单元380还可将解码信号与扩展频带的最终时域信号进行合成,获取输出信号。
设备500的其它功能和操作可参照上面图1和图2的方法实施例的过程,为了避免重复,此处不再赘述。
本发明实施例中,通过根据从语音或音频信号的比特流中得到的解码信号分别预测扩展频带的频谱包络和激励信号,使得能够确定语音或音频信号的扩展频带的频域信号,因此能够提升语音或音频信号的性能。
图6是根据本发明一个实施例的信号解码设备的示意框图。图6的设备600的一个例子是解码器。设备600包括处理器610和存储器620。
存储器620可以包括随机存储器、闪存、只读存储器、可编程只读存储器、非易失性存储器或寄存器等。处理器620可以是中央处理器(Central Processing Unit,CPU)。
存储器610用于存储可执行指令。处理器620可以执行存储器610中存储的可执行指令,用于:对语音或音频信号的比特流进行解码,获取解码信号;根据解码信号预测扩展频带的激励信号,其中,扩展频带与解码信号的频带相邻,且解码信号的频带低于扩展频带;在解码信号中选取第一频带和第二频带,并根据第一频带的频谱系数以及第二频带的频谱系数预测扩展频带的频谱包络,其中,第一频带的最高频点距离扩展频带的最低频点小于或等于第一值,第二频带的最高频点距离第一频带的最低频点小于或等于第二值;根据扩展频带的频谱包络和扩展频带的激励信号,确定扩展频带的频域信号。
本发明实施例中,通过根据从语音或音频信号的比特流中得到的解码信号分别预测扩展频带的频谱包络和激励信号,使得能够确定语音或音频信号的扩展频带的频域信号,因此能够提升语音或音频信号的性能。
设备600的其它功能和操作可参照上面图1和图2的方法实施例的过程,为了避免重复,此处不再赘述。
可选地,作为一个实施例,处理器610可按照从扩展频带的起始点向低频的方向,在解码信号中选取第一频带和第二频带,其中第一频带的最高频点距离扩展频带的最低频点等于第一值,第一值为0;第二频带的最高频点距离第一频带的最低频点等于第二值,第二值为0。
可选地,作为另一实施例,处理器610可将第一频带划分为M个子带,并根据第一频带的频谱系数确定每个子带的能量或幅度的均值,其中M为正整数;根据每个子带的能量或幅度的均值,确定每个子带的能量或幅度的调整值;根据每个子带的能量或幅度的调整值,预测扩展频带的第一频谱包络;根据第二频带的频谱系数,确定第二频带的能量或幅度的均值;根据扩展频带的第一频谱包络以及第二频带的能量或幅度的均值,预测扩展频带的频谱包络。
可选地,作为另一实施例,如果M个子带的能量或幅度的均值的方差不在预设的阈值范围内,则处理器610可将a个子带中每个子带的能量或幅度的均值进行调整以确定a个子带中每个子带的能量或幅度的调整值,并将b个子带中每个子带的能量或幅度的均值作为b个子带中每个子带的能量或幅度的调整值,其中a个子带中每个子带的能量或幅度的均值大于或等于均值阈值,b个子带中每个子带的能量或幅度的均值小于均值阈值,a和b为正整数,且a+b=M。
如果M个子带的能量或幅度的均值的方差在预设的阈值范围内,则处理器610可将每个子带的能量或幅度的均值作为每个子带的能量或幅度的调整值。
可选地,作为另一实施例,对于M个子带中的第i个子带和第(i+1)个子带,如果第i个子带的能量或幅度的均值与第(i+1)个子带的能量或幅度的均值之间的比值不在预设的阈值范围内,则处理器610可在第i个子带的能量或幅度的均值大于第(i+1)个子带的能量或幅度的均值时,对第i个子带的能量或幅度的均值进行调整以确定第i个子带的能量或幅度的调整值,并将第(i+1)个子带的能量或幅度的均值作为所述第(i+1)个子带的能量或幅度的调整值;在第i个子带的能量或幅度的均值小于第(i+1)个子带的能量或幅度的均值时,对第(i+1)个子带的能量或幅度的均值进行调整以确定第(i+1)个子带的能量或幅度的调整值,并将第i个子带的能量或幅度的均值作为第i个子带的能量或幅度的调整值。
如果第i个子带的能量或幅度的均值与第(i+1)个子带的能量或幅度的均值之间的比值在预设的阈值范围内,则处理器610可将第i个子带的能量或幅度的均值作为第i个子带的能量或幅度的调整值,并将第(i+1)个子带的能量或幅度的均值作为第(i+1)个子带的调整值,其中i为正整数且1≤i≤M-1。
可选地,作为另一实施例,处理器610可根据当前帧的扩展频带的第一频谱包络以及当前帧的第二频带的能量或幅度的均值,确定当前帧的扩展频带的第二频谱包络;在确定满足预设条件的情况下,对当前帧的扩展频带的第二频谱包络与前一帧的扩展频带的频谱包络进行加权,以确定当前帧的扩展频带的频谱包络;在确定不满足预设条件的情况下,将当前帧的扩展频带的第二频谱包络作为当前帧的扩展频带的频谱包络。
可选地,作为另一实施例,处理器610可根据当前帧的扩展频带的第一频谱包络以及当前帧的第二频带的能量或幅度的均值,确定当前帧的扩展频带的第二频谱包络;在确定满足预设条件的情况下,对当前帧的扩展频带的第二频谱包络与前一帧的扩展频带的频谱包络进行加权,以确定当前帧的扩展频带的第三频谱包络;在确定不满足预设条件的情况下,将当前帧的扩展频带的第二频谱包络作为当前帧的扩展频带的第三频谱包络;根据解码信号的基音周期、解码信号的浊音度因子以及当前帧的扩展频带的第三频谱包络,确定当前帧的扩展频带的频谱包络。
可选地,作为另一实施例,上述预设条件可包括以下三个条件中的至少一个:条件一:当前帧的语音或音频信号的编码方式与前一帧的语音或音频信号的编码方式不相同;条件二:前一帧的解码信号为非摩擦音,且当前帧的解码信号中第m个频带的能量或幅度的均值与前一帧的解码信号中第n个频带的能量或幅度的均值之间的比值在预设的阈值范围内,其中m和n为正整数;条件三:当前帧的解码信号为非摩擦音,且当前帧的扩展频带的第二频谱包络与前一帧的扩展频带的频谱包络之间的比值大于当前帧的解码信号中第j个频带的能量或幅度的均值与前一帧的解码信号中第k个频带的能量或幅度的均值之间的比值,其中j和k为正整数。
可选地,作为另一实施例,处理器610可在语音或音频信号的编码方式为时域编码方式的情况下,从解码信号中选取第三频带,第三频带与所述扩展频带相邻;根据第三频带的频谱系数,预测扩展频带的激励信号。
可选地,作为另一实施例,处理器610可在语音或音频信号的编码方式为时频联合编码方式或者频域编码方式的情况下,从解码信号中选取第四频带,第四频带所分配的比特数目大于预设的比特数目阈值;根据第四频带的频谱系数,预测扩展频带的激励信号。
可选地,作为另一实施例,处理器610还可在语音或音频信号的编码方式为时频联合编码方式或者频域编码方式的情况下,将解码信号与扩展频带的频域信号进行合成,获取频域输出信号;将频域输出信号进行频时变换,获取最终输出信号。
可选地,作为另一实施例,处理器610还可在语音或音频信号的编码方式为时域编码方式的情况下,根据时域频带扩展方式,获取扩展频带的第一时域信号;将扩展频带的频域信号变换为扩展频带的第二时域信号;对扩展频带的第一时域信号和扩展频带的第二时域信号进行合成,获取扩展频带的最终时域信号;将解码信号与扩展频带的最终时域信号进行合成,获取最终输出信号。
存储器620可存储上述处理器610执行的过程中产生的数据信息。处理器610可从存储器620中读取这些数据信息。
本发明实施例中,通过根据从语音或音频信号的比特流中得到的解码信号分别预测扩展频带的频谱包络和激励信号,使得能够确定语音或音频信号的扩展频带的频域信号,因此能够提升语音或音频信号的性能。
图7是根据本发明实施例的信号编码方法的示意性流程图。图7的方法由编码端执行,例如信号编码设备。信号编码设备将输入信号分成两部分,低频带信号和扩展频带信号,核心层处理低频带信号,扩展层处理扩展频带信号。该信号编码方法包括:
710,对语音或音频信号进行核心层编码,得到语音或音频信号的核心层码流。
720,对语音或音频信号进行扩展层处理,确定扩展频带的第一包络。
扩展频带的第一包络可以是扩展频带的原始的包络。此处,第一包络可以是频域包络,也可以是时域包络。
730,根据语音或音频信号的信噪比、语音或音频信号的基音周期和扩展频带的第一包络,确定扩展频带的第二包络。
具体地,编码端可以根据语音或音频信号的信噪比以及语音或音频信号的基音周期,对扩展频带的第一包络进一步修正,使得扩展频带的第二包络与信噪比成反比,与基音周期成正比,从而确定扩展频带的第二包络。例如,编码端可以根据如下等式确定扩展频带的第二包络wenv2:
wen2=(a1*pitch*pitch+b1*pitch+c1)/(a2*snr*snr+b2*snr+c2)*wenv1,
其中,wenv1可以表示扩展频带的第一包络,pitch可以表示语音或音频信号的基音周期,snr可以表示语音或音频信号的信噪比,a1和b1不能同时为0,a2、b2和c2不能同时为0。
740,对第二包络进行编码,得到扩展层码流。
也就是,将第二包络的量化索引写入扩展层码流。此外,扩展层码流中还可以包括其它相关参数的量化索引。
750,向解码端发送核心层码流以及扩展层码流。
本发明实施例可以适用于扩展频带有比特的情况。
本发明实施例中,通过确定扩展频带的第一包络,并根据语音或音频信号的信噪比、语音或音频信号的基音周期和扩展频带的第一包络确定扩展频带的第二包络,使得解码端能够根据核心层码流和扩展频带的第二包络确定扩展频带的信号,从而能够提升语音或音频信号的性能。
图8是根据本发明实施例的信号解码方法的示意性流程图。图8的方法由解码端执行,例如,信号解码设备。
810,从编码端接收语音或音频信号的核心层码流以及扩展层码流。
820,对扩展层码流进行解码,确定扩展频带的第二包络,其中第二包络是是编码端根据语音或音频信号的信噪比、语音或音频信号的基音周期和扩展频带的第一包络确定的。
扩展频带的第一包络可以是扩展频带的原始的包络。第一包络可以是时域包络,也可以是频域包络。
830,对核心层码流进行解码,得到核心层语音或音频信号。
840,根据核心层语音或音频信号预测扩展频带的激励信号。
850,根据扩展频带的激励信号和扩展频带的第二包络,预测扩展频带的信号。
本发明实施例中,通过接收编码端根据语音或音频信号的信噪比、语音或音频信号的基音周期和扩展频带的第一包络确定的扩展频带的第二包络,使得解码端能够根据扩展频带的第二包络和扩展频带的激励信号预测扩展频带的信号,从而能够提升语音或音频信号的性能。
图9是根据本发明实施例的信号编码设备的示意框图。图9的设备900的一个例子是编码器。设备900包括编码单元910、第一确定单元920、第二确定单元930和发送单元940。
编码单元910对语音或音频信号进行核心层编码,得到语音或音频信号的核心层码流。第一确定单元920在语音或音频信号进行扩展层处理,确定扩展频带的第一包络。第二确定单元930根据语音或音频信号的信噪比、语音或音频信号的基音周期和扩展频带的第一包络,确定扩展频带的第二包络。编码单元910还对第二包络进行编码,得到扩展层码流。发送单元940向解码端发送核心层码流和扩展层码流。
图9的设备900的其它功能和操作可以参照上面图7的方法实施例的过程,为了避免重复,此处不再赘述。
本发明实施例中,通过确定扩展频带的第一包络,并根据语音或音频信号的信噪比、语音或音频信号的基音周期和扩展频带的第一包络确定扩展频带的第二包络,使得解码端能够根据核心层码流和扩展频带的第二包络确定扩展频带的信号,从而能够提升语音或音频信号的性能。
图10是根据本发明实施例的信号解码设备的示意框图。图10的设备1000的一个例子是解码器。设备1000包括接收单元1010、解码单元1020和预测单元1030。
接收单元1010从编码端接收语音或音频信号的核心层码流和扩展层码流。解码单元1020对扩展层码流进行解码,确定扩展频带的第二包络,其中第二包络是编码端根据语音或音频信号的信噪比、语音或音频信号的基音周期和扩展频带的第一包络确定的。解码单元1020还对核心层码流进行解码,得到核心层语音或音频信号。预测单元1030根据核心层语音或音频信号,预测扩展频带的激励信号。预测单元1030根据扩展频带的激励信号和扩展频带的第二包络,预测扩展频带的信号。
设备1000的其它功能和操作可以参照上面图8的方法实施例的过程,为了避免重复,此处不再赘述。
本发明实施例中,通过接收编码端根据语音或音频信号的信噪比、语音或音频信号的基音周期和扩展频带的第一包络确定的扩展频带的第二包络,使得解码端能够根据扩展频带的第二包络和扩展频带的激励信号预测扩展频带的信号,从而能够提升语音或音频信号的性能。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (24)
1.一种语音或音频信号解码方法,其特征在于,包括:
对语音或音频信号的比特流进行解码,获取解码信号;
根据所述解码信号预测扩展频带的激励信号,其中,所述扩展频带与所述解码信号的频带相邻,且所述解码信号的频带低于所述扩展频带;
在所述解码信号中选取第一频带和第二频带,根据所述第一频带的频谱系数以及所述第二频带的频谱系数预测所述扩展频带的频谱包络,其中,所述第一频带的最高频点距离所述扩展频带的最低频点小于或等于第一值,所述第二频带的最高频点距离所述第一频带的最低频点小于或等于第二值;
根据所述扩展频带的频谱包络和所述扩展频带的激励信号,确定所述扩展频带的频域信号。
2.根据权利要求1所述的方法,其特征在于,所述在所述解码信号中选取第一频带和第二频带,包括:
按照从所述扩展频带的起始点向低频的方向,在所述解码信号的频带中选取第一频带和第二频带;其中所述第一频带的最高频点距离所述扩展频带的最低频点等于所述第一值,所述第一值为0;所述第二频带的最高频点距离所述第一频带的最低频点等于所述第二值,所述第二值为0。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一频带的频谱系数以及所述第二频带的频谱系数预测所述扩展频带的频谱包络,包括:
将所述第一频带划分为M个子带,并根据所述第一频带的频谱系数确定每个子带的能量或幅度的均值,其中M为正整数;
根据所述每个子带的能量或幅度的均值,确定所述每个子带的能量或幅度的调整值;
根据所述每个子带的能量或幅度的调整值,预测所述扩展频带的第一频谱包络;
根据所述第二频带的频谱系数,确定所述第二频带的能量或幅度的均值;
根据所述扩展频带的第一频谱包络以及所述第二频带的能量或幅度的均值,预测所述扩展频带的频谱包络。
4.根据权利要求3所述的方法,其特征在于,所述根据所述每个子带的能量或幅度的均值,确定所述每个子带的能量或幅度的调整值,包括:
如果所述M个子带的能量或幅度的均值的方差不在预设的阈值范围内,则将a个子带中每个子带的能量或幅度的均值进行调整以确定所述a个子带中每个子带的能量或幅度的调整值,并将b个子带中每个子带的能量或幅度的均值作为所述b个子带中每个子带的能量或幅度的调整值,其中所述a个子带中每个子带的能量或幅度的均值大于或等于均值阈值,所述b个子带中每个子带的能量或幅度的均值小于所述均值阈值,a和b为正整数,且a+b=M;
如果所述M个子带的能量或幅度的均值的方差在预设的阈值范围内,则将所述每个子带的能量或幅度的均值作为所述每个子带的能量或幅度的调整值。
5.根据权利要求3所述的方法,其特征在于,所述根据所述每个子带的能量或幅度的均值,确定所述每个子带的能量或幅度的调整值,包括:
对于所述M个子带中的第i个子带和第(i+1)个子带,
如果所述第i个子带的能量或幅度的均值与所述第(i+1)个子带的能量或幅度的均值之间的比值不在预设的阈值范围内,则在所述第i个子带的能量或幅度的均值大于所述第(i+1)个子带的能量或幅度的均值时,对所述第i个子带的能量或幅度的均值进行调整以确定所述第i个子带的能量或幅度的调整值,并将所述第(i+1)个子带的能量或幅度的均值作为所述第(i+1)个子带的能量或幅度的调整值;在所述第i个子带的能量或幅度的均值小于所述第(i+1)个子带的能量或幅度的均值时,对所述第(i+1)个子带的能量或幅度的均值进行调整以确定所述第(i+1)个子带的能量或幅度的调整值,并将所述第i个子带的能量或幅度的均值作为所述第i个子带的能量或幅度的调整值;
如果所述第i个子带的能量或幅度的均值与所述第(i+1)个子带的能量或幅度的均值之间的比值在预设的阈值范围内,则将所述第i个子带的能量或幅度的均值作为所述第i个子带的能量或幅度的调整值,并将所述第(i+1)个子带的能量或幅度的均值作为所述第(i+1)个子带的调整值,其中i为正整数且1≤i≤M-1。
6.根据权利要求3所述的方法,其特征在于,所述根据所述扩展频带的第一频谱包络以及所述第二频带的能量或幅度的均值,预测所述扩展频带的频谱包络,包括:
根据当前帧的扩展频带的第一频谱包络以及所述当前帧的第二频带的能量或幅度的均值,确定所述当前帧的扩展频带的第二频谱包络;
在确定满足预设条件的情况下,对所述当前帧的扩展频带的第二频谱包络与前一帧的扩展频带的频谱包络进行加权,以确定所述当前帧的扩展频带的频谱包络;
在确定不满足预设条件的情况下,将所述当前帧的扩展频带的第二频谱包络作为所述当前帧的扩展频带的频谱包络。
7.根据权利要求3所述的方法,其特征在于,所述根据所述扩展频带的第一频谱包络以及所述第二频带的能量或幅度的均值,预测所述扩展频带的频谱包络,包括:
根据当前帧的扩展频带的第一频谱包络以及所述当前帧的第二频带的能量或幅度的均值,确定所述当前帧的扩展频带的第二频谱包络;
在确定满足预设条件的情况下,对所述当前帧的扩展频带的第二频谱包络与前一帧的扩展频带的频谱包络进行加权,以确定所述当前帧的扩展频带的第三频谱包络;
在确定不满足预设条件的情况下,将所述当前帧的扩展频带的第二频谱包络作为所述当前帧的扩展频带的第三频谱包络;
根据所述解码信号的基音周期、所述解码信号的浊音度因子以及所述当前帧的扩展频带的第三频谱包络,确定所述当前帧的扩展频带的频谱包络。
8.根据权利要求6或7所述的方法,其特征在于,所述预设条件包括以下三个条件中的至少一个:
条件一:所述当前帧的语音或音频信号的编码方式与所述前一帧的语音或音频信号的编码方式不相同;
条件二:所述前一帧的解码信号为非摩擦音,且所述当前帧的解码信号中第m个频带的能量或幅度的均值与所述前一帧的解码信号中第n个频带的能量或幅度的均值之间的比值在预设的阈值范围内,其中m和n为正整数;
条件三:所述当前帧的解码信号为非摩擦音,且所述当前帧的扩展频带的第二频谱包络与所述前一帧的扩展频带的频谱包络之间的比值大于所述当前帧的解码信号中第j个频带的能量或幅度的均值与所述前一帧的解码信号中第k个频带的能量或幅度的均值之间的比值,其中j和k为正整数。
9.根据权利要求1至7中任一项所述的方法,其特征在于,所述根据所述解码信号预测所述扩展频带的激励信号,包括:
在所述语音或音频信号的编码方式为时域编码方式的情况下,从所述解码信号中选取第三频带,所述第三频带与所述扩展频带相邻;
根据所述第三频带的频谱系数,预测所述扩展频带的激励信号。
10.根据权利要求1至7中任一项所述的方法,其特征在于,所述根据所述解码信号预测所述扩展频带的激励信号,包括:
在所述语音或音频信号的编码方式为时频联合编码方式或者频域编码方式的情况下,从所述解码信号中选取第四频带,所述第四频带所分配的比特数目大于预设的比特数目阈值;
根据所述第四频带的频谱系数,预测所述扩展频带的激励信号。
11.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:
在所述语音或音频信号的编码方式为时频联合编码方式或者频域编码方式的情况下,将所述解码信号与所述扩展频带的频域信号进行合成,获取频域输出信号;
将所述频域输出信号进行频时变换,获取最终输出信号。
12.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:
在所述语音或音频信号的编码方式为时域编码方式的情况下,根据时域频带扩展方式,获取所述扩展频带的第一时域信号;
将所述扩展频带的频域信号变换为所述扩展频带的第二时域信号;
对所述扩展频带的第一时域信号和所述扩展频带的第二时域信号进行合成,获取所述扩展频带的最终时域信号;
将所述解码信号与所述扩展频带的最终时域信号进行合成,获取最终输出信号。
13.一种语音或音频信号解码设备,其特征在于,包括:
解码单元,用于对语音或音频信号的比特流进行解码,获取解码信号;
预测单元,用于从所述解码单元接收所述解码信号,并根据所述解码信号预测扩展频带的激励信号,其中,所述扩展频带与所述解码信号的频带相邻,且所述解码信号的频带低于所述扩展频带;
所述预测单元,还用于在所述解码信号中选取第一频带和第二频带,并根据所述第一频带的频谱系数以及所述第二频带的频谱系数预测所述扩展频带的频谱包络,其中,所述第一频带的最高频点距离所述扩展频带的最低频点小于或等于第一值,所述第二频带的最高频点距离所述第一频带的最低频点小于或等于第二值;
确定单元,用于从所述预测单元接收所述扩展频带的频谱包络和所述扩展频带的激励信号,根据所述扩展频带的频谱包络和所述扩展频带的激励信号,确定所述扩展频带的频域信号。
14.根据权利要求13所述的设备,其特征在于,所述预测单元具体用于按照从所述扩展频带的起始点向低频的方向,在所述解码信号中选取第一频带和第二频带,其中所述第一频带的最高频点距离所述扩展频带的最低频点等于所述第一值,所述第一值为0;所述第二频带的最高频点距离所述第一频带的最低频点等于所述第二值,所述第二值为0。
15.根据权利要求13所述的设备,其特征在于,所述预测单元具体用于将所述第一频带划分为M个子带,并根据所述第一频带的频谱系数确定每个子带的能量或幅度的均值,其中M为正整数;根据所述每个子带的能量或幅度的均值,确定所述每个子带的能量或幅度的调整值;根据所述每个子带的能量或幅度的调整值,预测所述扩展频带的第一频谱包络;根据所述第二频带的频谱系数,确定所述第二频带的能量或幅度的均值;根据所述扩展频带的第一频谱包络以及所述第二频带的能量或幅度的均值,预测所述扩展频带的频谱包络。
16.根据权利要求15所述的设备,其特征在于,所述预测单元具体用于如果所述M个子带的能量或幅度的均值的方差不在预设的阈值范围内,则将a个子带中每个子带的能量或幅度的均值进行调整以确定所述a个子带中每个子带的能量或幅度的调整值,并将b个子带中每个子带的能量或幅度的均值作为所述b个子带中每个子带的能量或幅度的调整值,其中所述a个子带中每个子带的能量或幅度的均值大于或等于均值阈值,所述b个子带中每个子带的能量或幅度的均值小于所述均值阈值,a和b为正整数,且a+b=M;如果所述M个子带的能量或幅度的均值的方差在预设的阈值范围内,则将所述每个子带的能量或幅度的均值作为所述每个子带的能量或幅度的调整值。
17.根据权利要求15所述的设备,其特征在于,所述预测单元具体用于对于所述M个子带中的第i个子带和第(i+1)个子带,
如果所述第i个子带的能量或幅度的均值与所述第(i+1)个子带的能量或幅度的均值之间的比值不在预设的阈值范围内,则在所述第i个子带的能量或幅度的均值大于所述第(i+1)个子带的能量或幅度的均值时,对所述第i个子带的能量或幅度的均值进行调整以确定所述第i个子带的能量或幅度的调整值,并将所述第(i+1)个子带的能量或幅度的均值作为所述第(i+1)个子带的能量或幅度的调整值;在所述第i个子带的能量或幅度的均值小于所述第(i+1)个子带的能量或幅度的均值时,对所述第(i+1)个子带的能量或幅度均值进行调整以确定所述第(i+1)个子带的能量或幅度的调整值,并将所述第i个子带的能量或幅度的均值作为所述第i个子带的能量或幅度的调整值;
如果所述第i个子带的能量或幅度的均值与所述第(i+1)个子带的能量或幅度的均值之间的比值在预设的阈值范围内,则将所述第i个子带的能量或幅度的均值作为所述第i个子带的能量或幅度的调整值,并将所述第(i+1)个子带的能量或幅度的均值作为所述第(i+1)个子带的调整值,其中i为正整数且1≤i≤M-1。
18.根据权利要求15所述的设备,其特征在于,所述预测单元具体用于根据当前帧的扩展频带的第一频谱包络以及所述当前帧的第二频带的能量或幅度的均值,确定所述当前帧的扩展频带的第二频谱包络;在确定满足预设条件的情况下,对所述当前帧的扩展频带的第二频谱包络与前一帧的扩展频带的频谱包络进行加权,以确定所述当前帧的扩展频带的频谱包络;在确定不满足预设条件的情况下,将所述当前帧的扩展频带的第二频谱包络作为所述当前帧的扩展频带的频谱包络。
19.根据权利要求15所述的设备,其特征在于,所述预测单元具体用于根据当前帧的扩展频带的第一频谱包络以及所述当前帧的第二频带的能量或幅度的均值,确定所述当前帧的扩展频带的第二频谱包络;在确定满足预设条件的情况下,对所述当前帧的扩展频带的第二频谱包络与前一帧的扩展频带的频谱包络进行加权,以确定所述当前帧的扩展频带的第三频谱包络;在确定不满足预设条件的情况下,将所述当前帧的扩展频带的第二频谱包络作为所述当前帧的扩展频带的第三频谱包络;根据所述解码信号的基音周期、所述解码信号的浊音度因子以及所述当前帧的扩展频带的第三频谱包络,确定所述当前帧的扩展频带的频谱包络。
20.根据权利要求18或19所述的设备,其特征在于,所述预设条件包括以下三个条件中的至少一个:
条件一:所述当前帧的语音或音频信号的编码方式与所述前一帧的语音或音频信号的编码方式不相同;
条件二:所述前一帧的解码信号为非摩擦音,且所述当前帧的解码信号中第m个频带的能量或幅度的均值与所述前一帧的解码信号中第n个频带的能量或幅度的均值之间的比值在预设的阈值范围内,其中m和n为正整数;
条件三:所述当前帧的解码信号为非摩擦音,且所述当前帧的扩展频带的第二频谱包络与所述前一帧的扩展频带的频谱包络之间的比值大于所述当前帧的解码信号中第j个频带的能量或幅度的均值与所述前一帧的解码信号中第k个频带的能量或幅度的均值之间的比值,j和k为正整数。
21.根据权利要求13至19中任一项所述的设备,其特征在于,所述预测单元具体用于在所述语音或音频信号的编码方式为时域编码方式的情况下,从所述解码信号中选取第三频带,所述第三频带与所述扩展频带相邻;根据所述第三频带的频谱系数,预测所述扩展频带的激励信号。
22.根据权利要求13至19中任一项所述的设备,其特征在于,所述预测单元具体用于在所述语音或音频信号的编码方式为时频联合编码方式或者频域编码方式的情况下,从所述解码信号中选取第四频带,所述第四频带所分配的比特数目大于预设的比特数目阈值;根据所述第四频带的频谱系数,预测所述扩展频带的激励信号。
23.根据权利要求13至19中任一项所述的设备,其特征在于,所述设备还包括:
第一合成单元,用于在所述语音或音频信号的编码方式为时频联合编码方式或者频域编码方式的情况下,将所述解码信号与所述扩展频带的频域信号进行合成,获取频域输出信号;
第一变换单元,用于将所述频域输出信号进行频时变换,获取最终输出信号。
24.根据权利要求13至19中任一项所述的设备,其特征在于,所述设备还包括:
获取单元,用于在所述语音或音频信号的编码方式为时域编码方式的情况下,根据时域频带扩展方式,获取所述扩展频带的第一时域信号;
第二变换单元,用于将所述扩展频带的频域信号变换为所述扩展频带的第二时域信号;
第二合成单元,用于对所述扩展频带的第一时域信号和所述扩展频带的第二时域信号进行合成,获取所述扩展频带的最终时域信号;
第二合成单元还用于将所述解码信号与所述扩展频带的最终时域信号进行合成,获取最终输出信号。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310213593.5A CN104217727B (zh) | 2013-05-31 | 2013-05-31 | 信号解码方法及设备 |
EP13886051.5A EP2991074B1 (en) | 2013-05-31 | 2013-09-27 | Signal decoding method and device |
PCT/CN2013/084514 WO2014190649A1 (zh) | 2013-05-31 | 2013-09-27 | 信号解码方法及设备 |
US14/952,902 US9892739B2 (en) | 2013-05-31 | 2015-11-25 | Bandwidth extension audio decoding method and device for predicting spectral envelope |
US15/894,517 US10490199B2 (en) | 2013-05-31 | 2018-02-12 | Bandwidth extension audio decoding method and device for predicting spectral envelope |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310213593.5A CN104217727B (zh) | 2013-05-31 | 2013-05-31 | 信号解码方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104217727A CN104217727A (zh) | 2014-12-17 |
CN104217727B true CN104217727B (zh) | 2017-07-21 |
Family
ID=51987923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310213593.5A Active CN104217727B (zh) | 2013-05-31 | 2013-05-31 | 信号解码方法及设备 |
Country Status (4)
Country | Link |
---|---|
US (2) | US9892739B2 (zh) |
EP (1) | EP2991074B1 (zh) |
CN (1) | CN104217727B (zh) |
WO (1) | WO2014190649A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103426441B (zh) | 2012-05-18 | 2016-03-02 | 华为技术有限公司 | 检测基音周期的正确性的方法和装置 |
CN103716470B (zh) * | 2012-09-29 | 2016-12-07 | 华为技术有限公司 | 语音质量监控的方法和装置 |
CN104217727B (zh) * | 2013-05-31 | 2017-07-21 | 华为技术有限公司 | 信号解码方法及设备 |
PL3796314T3 (pl) * | 2014-07-28 | 2022-03-28 | Nippon Telegraph And Telephone Corporation | Kodowanie sygnału dźwiękowego |
US10049684B2 (en) * | 2015-04-05 | 2018-08-14 | Qualcomm Incorporated | Audio bandwidth selection |
WO2017166306A1 (zh) | 2016-04-01 | 2017-10-05 | 华为技术有限公司 | 反馈信息的发送、接收方法、终端设备及接入网设备 |
US10839814B2 (en) * | 2017-10-05 | 2020-11-17 | Qualcomm Incorporated | Encoding or decoding of audio signals |
WO2019142513A1 (ja) * | 2018-01-17 | 2019-07-25 | 日本電信電話株式会社 | 符号化装置、復号装置、摩擦音判定装置、これらの方法及びプログラム |
KR102570480B1 (ko) | 2019-01-04 | 2023-08-25 | 삼성전자주식회사 | 오디오 신호 처리 방법 및 이를 지원하는 전자 장치 |
CN113192521B (zh) * | 2020-01-13 | 2024-07-05 | 华为技术有限公司 | 一种音频编解码方法和音频编解码设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1535459A (zh) * | 2001-07-26 | 2004-10-06 | 日本电气株式会社 | 语音带宽扩展装置及语音带宽扩展方法 |
CN101023470A (zh) * | 2004-09-17 | 2007-08-22 | 松下电器产业株式会社 | 语音编码装置、语音解码装置、通信装置及语音编码方法 |
CN101083076A (zh) * | 2006-06-03 | 2007-12-05 | 三星电子株式会社 | 使用带宽扩展技术对信号编码和解码的方法和设备 |
CN102308333A (zh) * | 2009-02-04 | 2012-01-04 | 摩托罗拉移动公司 | 修改的离散余弦变换音频编码器的带宽扩展方法和装置 |
CN102637434A (zh) * | 2007-01-12 | 2012-08-15 | 三星电子株式会社 | 用于带宽扩展编码和解码的方法、设备和介质 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5455888A (en) * | 1992-12-04 | 1995-10-03 | Northern Telecom Limited | Speech bandwidth extension method and apparatus |
US6862567B1 (en) * | 2000-08-30 | 2005-03-01 | Mindspeed Technologies, Inc. | Noise suppression in the frequency domain by adjusting gain according to voicing parameters |
SE522553C2 (sv) * | 2001-04-23 | 2004-02-17 | Ericsson Telefon Ab L M | Bandbreddsutsträckning av akustiska signaler |
ATE361524T1 (de) * | 2005-01-31 | 2007-05-15 | Harman Becker Automotive Sys | Erweiterung der bandbreite eines schmalbandigen sprachsignals |
DE102005032724B4 (de) * | 2005-07-13 | 2009-10-08 | Siemens Ag | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen |
FR2912249A1 (fr) * | 2007-02-02 | 2008-08-08 | France Telecom | Codage/decodage perfectionnes de signaux audionumeriques. |
US7912729B2 (en) * | 2007-02-23 | 2011-03-22 | Qnx Software Systems Co. | High-frequency bandwidth extension in the time domain |
EP1970900A1 (en) * | 2007-03-14 | 2008-09-17 | Harman Becker Automotive Systems GmbH | Method and apparatus for providing a codebook for bandwidth extension of an acoustic signal |
WO2008151408A1 (en) * | 2007-06-14 | 2008-12-18 | Voiceage Corporation | Device and method for frame erasure concealment in a pcm codec interoperable with the itu-t recommendation g.711 |
DE602007004504D1 (de) * | 2007-10-29 | 2010-03-11 | Harman Becker Automotive Sys | Partielle Sprachrekonstruktion |
KR101452722B1 (ko) * | 2008-02-19 | 2014-10-23 | 삼성전자주식회사 | 신호 부호화 및 복호화 방법 및 장치 |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
EP2151821B1 (en) * | 2008-08-07 | 2011-12-14 | Nuance Communications, Inc. | Noise-reduction processing of speech signals |
WO2010031003A1 (en) * | 2008-09-15 | 2010-03-18 | Huawei Technologies Co., Ltd. | Adding second enhancement layer to celp based core layer |
TR201808500T4 (tr) * | 2008-12-15 | 2018-07-23 | Fraunhofer Ges Forschung | Ses kodlayıcısı ve bant-genişliği genişletme kod-çözücüsü. |
EP2239732A1 (en) * | 2009-04-09 | 2010-10-13 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for generating a synthesis audio signal and for encoding an audio signal |
FR2947945A1 (fr) * | 2009-07-07 | 2011-01-14 | France Telecom | Allocation de bits dans un codage/decodage d'amelioration d'un codage/decodage hierarchique de signaux audionumeriques |
CN102714041B (zh) * | 2009-11-19 | 2014-04-16 | 瑞典爱立信有限公司 | 改进的激励信号带宽扩展 |
US8924200B2 (en) * | 2010-10-15 | 2014-12-30 | Motorola Mobility Llc | Audio signal bandwidth extension in CELP-based speech coder |
US9373332B2 (en) * | 2010-12-14 | 2016-06-21 | Panasonic Intellectual Property Corporation Of America | Coding device, decoding device, and methods thereof |
CN102610231B (zh) * | 2011-01-24 | 2013-10-09 | 华为技术有限公司 | 一种带宽扩展方法及装置 |
CN103460286B (zh) * | 2011-02-08 | 2015-07-15 | Lg电子株式会社 | 带宽扩展的方法和设备 |
CN102208188B (zh) * | 2011-07-13 | 2013-04-17 | 华为技术有限公司 | 音频信号编解码方法和设备 |
KR101144610B1 (ko) * | 2011-08-02 | 2012-05-11 | 한국기계연구원 | 투명 전극의 전도성 메쉬 매설 방법 |
KR101398189B1 (ko) * | 2012-03-27 | 2014-05-22 | 광주과학기술원 | 음성수신장치 및 음성수신방법 |
CN104217727B (zh) * | 2013-05-31 | 2017-07-21 | 华为技术有限公司 | 信号解码方法及设备 |
CN105761723B (zh) * | 2013-09-26 | 2019-01-15 | 华为技术有限公司 | 一种高频激励信号预测方法及装置 |
CN104517610B (zh) * | 2013-09-26 | 2018-03-06 | 华为技术有限公司 | 频带扩展的方法及装置 |
-
2013
- 2013-05-31 CN CN201310213593.5A patent/CN104217727B/zh active Active
- 2013-09-27 EP EP13886051.5A patent/EP2991074B1/en active Active
- 2013-09-27 WO PCT/CN2013/084514 patent/WO2014190649A1/zh active Application Filing
-
2015
- 2015-11-25 US US14/952,902 patent/US9892739B2/en active Active
-
2018
- 2018-02-12 US US15/894,517 patent/US10490199B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1535459A (zh) * | 2001-07-26 | 2004-10-06 | 日本电气株式会社 | 语音带宽扩展装置及语音带宽扩展方法 |
CN101023470A (zh) * | 2004-09-17 | 2007-08-22 | 松下电器产业株式会社 | 语音编码装置、语音解码装置、通信装置及语音编码方法 |
CN101083076A (zh) * | 2006-06-03 | 2007-12-05 | 三星电子株式会社 | 使用带宽扩展技术对信号编码和解码的方法和设备 |
CN102456349A (zh) * | 2006-06-03 | 2012-05-16 | 三星电子株式会社 | 使用带宽扩展技术对信号编码和解码的方法和设备 |
CN102637434A (zh) * | 2007-01-12 | 2012-08-15 | 三星电子株式会社 | 用于带宽扩展编码和解码的方法、设备和介质 |
CN102308333A (zh) * | 2009-02-04 | 2012-01-04 | 摩托罗拉移动公司 | 修改的离散余弦变换音频编码器的带宽扩展方法和装置 |
Non-Patent Citations (2)
Title |
---|
"On artificial bandwidth extension of telephone";PETER JAX ET AL;《SIGNAL PROCESSING, ELSEVIER SCIENCE PUBLISHERS B.V. AMSTERDAM, NL》;20030801;第83卷(第8期);全文 * |
INTERNATIONAL TELECOMMUNICATION UNION."G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with G.729 G.729.1 (05/06)".《ITU-T STANDARD》.2006, * |
Also Published As
Publication number | Publication date |
---|---|
CN104217727A (zh) | 2014-12-17 |
US10490199B2 (en) | 2019-11-26 |
EP2991074A4 (en) | 2016-10-26 |
US20180166085A1 (en) | 2018-06-14 |
WO2014190649A1 (zh) | 2014-12-04 |
US20160086613A1 (en) | 2016-03-24 |
EP2991074B1 (en) | 2019-05-15 |
US9892739B2 (en) | 2018-02-13 |
EP2991074A1 (en) | 2016-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104217727B (zh) | 信号解码方法及设备 | |
JP6510593B2 (ja) | 音声符号化装置、及び音声符号化方法 | |
CN104517610B (zh) | 频带扩展的方法及装置 | |
CN108831501B (zh) | 用于带宽扩展的高频编码/高频解码方法和设备 | |
TWI324335B (en) | Methods of signal processing and apparatus for wideband speech coding | |
CN108711431B (zh) | 用于隐藏帧错误的方法和设备 | |
CN102934163B (zh) | 用于宽带语音编码的系统、方法、设备 | |
DE60006271T2 (de) | Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung | |
CN105981102B (zh) | 音频信号的谐波带宽扩展 | |
CN103544957B (zh) | 音频信号的比特分配的方法和装置 | |
EP1879179A1 (en) | Method and device for coding audio data based on vector quantisation | |
JPH10307599A (ja) | スプラインを使用する波形補間音声コーディング | |
CN103026407A (zh) | 带宽扩展器 | |
ITUD960012A1 (it) | Codebook algebrico con ampiezze di impulso selezionate in funzione del segnale per la codifica rapida di un segnale | |
JP2002526798A (ja) | 複数チャネル信号の符号化及び復号化 | |
CN103065637A (zh) | 音频编码器和解码器 | |
CN106409299A (zh) | 信号编码和解码的方法和设备 | |
JP2010170142A (ja) | ビットレートスケーラブルなオーディオデータストリームを生成する方法および装置 | |
JP2010537261A (ja) | 周波数サブバンドのスペクトルダイナミクスに基づくオーディオ符号化における時間マスキング | |
CN102044250A (zh) | 频带扩展方法及装置 | |
CN101141533A (zh) | 用于提供具有扩展带宽的声音信号的方法和系统 | |
CN110176241B (zh) | 信号编码方法和设备以及信号解码方法和设备 | |
CN106847297A (zh) | 高频带信号的预测方法、编/解码设备 | |
JPH10319996A (ja) | 雑音の効率的分解と波形補間における周期信号波形 | |
EP1995723B1 (en) | Neuroevolution training system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |