CN102906812A - 处理音频信号的方法和装置 - Google Patents
处理音频信号的方法和装置 Download PDFInfo
- Publication number
- CN102906812A CN102906812A CN2011800260766A CN201180026076A CN102906812A CN 102906812 A CN102906812 A CN 102906812A CN 2011800260766 A CN2011800260766 A CN 2011800260766A CN 201180026076 A CN201180026076 A CN 201180026076A CN 102906812 A CN102906812 A CN 102906812A
- Authority
- CN
- China
- Prior art keywords
- vector
- error
- rank
- candidate
- interim
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0004—Design or structure of the codebook
- G10L2019/0005—Multi-stage vector quantisation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种用于处理音频信号的方法,包括以下的步骤:基于多个线性预测变换系数对音频信号的当前帧执行线性预测分析以产生第一目标矢量,第一目标矢量是第一阶的目标矢量;对第一目标矢量执行矢量量化以获取第一阶的预先确定的数目的第一临时候选码矢量;计算第一临时候选误差,第一临时候选误差是在第一临时候选码矢量和第一目标矢量之间的误差;和基于第一临时候选误差确定第一数,第一数是第一候选码矢量的数目,以及获取以与第一数具有相同数量的第一最终候选码矢量。
Description
技术领域
本发明涉及可以编码或者解码音频信号的音频信号处理方法和装置。
背景技术
通常,对具有强的语音特征的音频信号执行线性预测编译(LPC)。将经由线性预测编译产生的线性预测系数传送给解码器,并且解码器通过对该系数执行线性预测合成来重建音频信号。
发明内容
技术问题
执行矢量量化以将线性预测系数或者线性预测变换系数传送给解码器。在矢量量化期间,发生量化误差,导致音质失真。
此外,当获取大量候选矢量以届时在多阶中执行矢量量化最小化量化误差的时候,存在复杂度根据候选矢量的数目呈几何级数增加的问题。
设计以解决该问题的本发明的一个目的在于提供一种音频信号处理方法和装置,当线性预测变换系数被矢量量化的时候,其能够最小化量化误差。
本发明的另一个目的是提供一种用于在每阶中自适应地改变候选矢量数目的音频信号处理方法和装置。
本发明的另一个目的是提供一种用于在具有很大误差的阶中以最佳的最好码矢量替换候选矢量,同时将候选矢量的数目减少为较小数的音频信号处理方法和装置。
本发明提供以下的效果和优点。
第一,当执行多阶矢量量化的时候,由于候选矢量的数目在每阶中自适应地改变,所以按照候选矢量的数目可以最小化在复杂度方面的增加。
第二,可以减小量化误差,同时最小化在复杂度方面的增加,因为基于误差来确定每阶的候选矢量的数目。
第三,当阶的总数是N,并且在每阶中存在M个候选矢量的时候,候选矢量集合的总数呈几何级数(MN)增加。但是,通过将候选矢量的数目减小为1或者2,可以最小化复杂度。
第四,不仅可以通过减少候选矢量的数目来最小化复杂度,而且在具有很大误差的阶的情况下,可以通过以经由重新搜索产生的最佳的最好码矢量替换候选矢量来减小量化误差。
附图说明
图1图示按照本发明一个实施例的被包括在音频信号处理装置中的编码器的配置。
图2图示图1的第一阶量化器121的第一个实施例121-A的配置。
图3图示图1的第N阶量化器12N的第一个实施例12N-A的配置。
图4图示第N阶量化器12N的操作。
图5图示图1的第一阶量化器121的第二个实施例121-B的配置。
图6图示图1的第N阶量化器12N的第二个实施例12N-B的配置。
图7图示按照本发明另一个实施例在音频信号处理装置中的编码器的配置。
图8图示示例性的初始量化器221至22N的输出数据。
图9图示图7的索引更新器230的一个实施例的详细配置。
图10图示图9的第K阶更新器23K的一个实施例的详细配置。
图11图示实现按照本发明一个实施例的音频信号处理装置的产品。
图12图示实现按照本发明一个实施例的音频信号处理装置的产品。
图13图示实现按照本发明一个实施例的音频信号处理装置的移动终端的示意性配置。
具体实施方式
为了实现这些目的,按照本发明的音频信号处理方法,包括:基于多个线性预测变换系数对音频信号的当前帧执行线性预测分析以产生第一目标矢量,第一目标矢量是第一阶的目标矢量;对第一目标矢量进行矢量量化以获取第一阶的临时确定的数目的第一临时候选码矢量;计算第一临时候选误差,第一临时候选误差是在第一临时候选码矢量和第一目标矢量之间的误差;和基于第一临时候选误差确定第一数,第一数是第一候选码矢量的数目,以及获取与第一数具有相同数目的第一最终候选码矢量。
按照本发明,该音频信号处理方法可以进一步包括:基于第一最终候选码矢量产生作为第二阶的目标矢量的第一最终候选误差;对第二目标矢量进行矢量量化以获取第二阶的临时确定的数目的第二临时候选码矢量;计算第二临时候选误差,第二临时候选误差是在第二临时候选码矢量和第二目标矢量之间的误差;和基于第二候选误差确定第二数,第二数是第二候选码矢量的数目,以及获取与第二数具有相同数目的第二最终候选码矢量。
按照本发明,获取第二临时候选码矢量可以包括:获取与用于第二目标矢量的每个的任意自然数具有相同数目的临时候选码矢量,和除去临时码矢量的一部分以获取临时确定的数目的第二临时候选码矢量。
按照本发明,可以基于预先确定的表值或者第一数计算临时确定的数目。
按照本发明,可以基于第一临时候选误差和阈值确定第一数。
按照本发明,在第一临时候选误差被以升序排列之后,如果第一临时候选误差的增加逐渐地减小,则第一数可以被确定是小的数。
按照本发明的另一个方面,提供了一种音频信号处理方法,包括:基于多个线性预测变换系数对音频信号的当前帧执行线性预测分析以产生第一目标矢量,第一目标矢量是第一阶的目标矢量;对第一目标矢量执行矢量量化以获取第一阶的临时确定的数目的第一最终候选码矢量;计算第一最终候选误差,第一最终候选误差是在第一最终候选码矢量和第一目标矢量之间的误差;以及基于第一最终候选误差确定第二数,第二数是第二阶的第二候选码矢量的数目。
按照本发明,该音频信号处理方法可以进一步包括:基于第一候选码矢量产生作为第二阶的目标矢量的第一最终候选误差;对第二目标矢量进行矢量量化以获取与第二数具有相同数目的第二阶的第二临时候选码矢量;计算第二临时候选误差,第二临时候选误差是在第二临时候选码矢量和第二目标矢量之间的误差;以及基于第二临时候选误差确定第三数,第三数是第三阶的第三候选码矢量的数目。
按照本发明的另一个方面,提供了一种音频信号处理装置,包括:线性预测器,该线性预测器用于基于多个线性预测变换系数对音频信号的当前帧执行线性预测分析以产生第一目标矢量,第一目标矢量是第一阶的目标矢量;临时候选矢量发生器,该临时候选矢量发生器用于对第一目标矢量进行矢量量化以获取第一阶的临时确定的数目的第一临时候选码矢量;误差发生器,该误差发生器用于计算第一临时候选误差,第一临时候选误差是在第一临时候选码矢量和第一目标矢量之间的误差;和当前数确定器,该当前数确定器用于基于第一临时候选误差确定第一数,和获取与第一数具有相同数目的第一最终候选码矢量,第一数是第一候选码矢量的数目。
按照本发明的另一个方面,提供了一种音频信号处理装置,包括:线性预测器,该线性预测器用于基于多个线性预测变换系数对音频信号的当前帧执行线性预测分析以产生第一目标矢量,第一目标矢量是第一阶的目标矢量;候选矢量发生器,该候选矢量发生器用于对第一目标矢量进行矢量量化以获取第一阶的临时确定的数目的第一最终候选码矢量;误差发生器,该误差发生器用于计算第一最终候选误差,第一最终候选误差是在第一最终候选码矢量和第一目标矢量之间的误差;和下一数确定器,该下一数确定器用于基于第一最终候选误差确定第二数,第二数是第二阶的第二候选码矢量的数目。
按照本发明的另一个方面,提供了一种音频信号处理方法,包括:基于多个线性预测变换系数对音频信号的当前帧执行线性预测分析,并且产生第一目标信号:基于第一目标信号对第一阶执行矢量量化,矢量量化包括基于第一目标信号产生第一候选码矢量,第一候选码矢量包括具有最小误差的第一初始最好码矢量,和将对应于第一初始最好码矢量的第一初始最好误差作为第二目标信号输出,第二目标信号是第二阶的目标信号;从第二阶到第N阶重复地执行矢量量化;确定在第一至第N阶之中将执行索引更新的第K阶(K=1,...,N);使用第一目标信号和排除第K个以外的和信号校正第K个目标信号;基于校正的第K个目标信号确定在第K个候选码矢量之中的第K个最佳的最好码矢量:和将第K个初始的最好码矢量和第K个最佳的最好码矢量中的一个选择为第K个最终的最好码矢量:其中排除第K个以外的和信号是排除第K个初始最好码矢量的第一至第N个初始最好码矢量的和。
按照本发明,提供了该音频信号处理方法,其中基于第K个初始最好码矢量的总误差和第K个最佳的最好码矢量的总误差执行选择,第K个初始最好码矢量的总误差是在通过对排除第K个以外的和信号和第K个初始最好码矢量进行求和获得的矢量与第一目标信号之间的差值,和第K个初始最好码矢量的总误差是在通过对排除第K个以外的和信号和第K个初始最好码矢量进行求和获得的矢量与第一目标信号之间的差值。
按照本发明,该音频信号处理方法进一步包括:确定在第一至第N阶之中将执行索引更新的第K+α阶(α:整数),和重复第K+α阶的更新、确定和选择。
按照本发明,当将第K个最佳的最好码矢量确定为是第K个最终的最好码矢量的时候,可以执行第K+α阶的确定和重复。
按照本发明的另一个方面,提供了一种音频信号处理装置,包括:线性预测器,该线性预测器用于基于多个线性预测变换系数对音频信号的当前帧执行线性预测分析,并且产生第一目标信号;初始量化器,该初始量化器用于基于第一目标信号对总共N阶执行矢量量化;初始量化器包括第一初始量化器,该第一初始量化器通过基于第一目标信号产生包括第一初始最好码矢量的第一候选码矢量,第一初始最好码矢量具有最小的误差,并且将对应于第一初始最好码矢量的第一初始最好误差作为第二目标信号输出来对第一阶执行矢量量化,第一初始的最好码矢量具有最小的误差,第二目标信号是第二阶的目标信号;和第i个初始量化器,该第i个初始量化器用于基于第i个目标信号(i=2,...,N)执行矢量量化;更新控制器,该更新控制器用于确定在第一至第N阶之中将执行索引更新的第K阶(K=1,...,N);第K阶目标信号校正器,该第K阶目标信号校正器用于使用第一目标信号和排除第K个以外的和信号校正第K个目标信号;重新搜索器,该重新搜索器用于基于校正的第K个目标信号确定在第K个候选码矢量之中的第K个最佳的最好码矢量;和更新确定器,该更新确定器用于将第K个初始最好码矢量和第K个最佳的最好码矢量中的一个选择为第K个最终的最好码矢量,其中排除第K个以外的和信号是排除第K个初始最好码矢量的第一至第N个初始的最好码矢量的和。
本发明的模式
现在将参考伴随的附图详细描述本发明的优选实施例。在描述之前,应当注意到,在本说明书和权利要求书中使用的术语和措词将解释为不限于在普通或者字典含义,而是代之以应该理解为基于发明人可以适宜地定义每个术语的概念,以便以可能的最好方式描述他的/她自己的发明的原则而具有符合本发明精神的含义和概念。因此,在本说明书中描述的实施例和在附图之示出的配置仅是本发明最优选的例子,并且不意欲图示本发明精神的所有方面。因而,应该理解,在提交本申请时,各种等同物和改进可以替换这些例子。
可以如下所述解释以下在本发明中使用的术语,并且也可以以同样方式解释以下没有描述的其他术语。可以根据需要将术语“编译”解释为编码或者解码,并且“信息”是包含值、参数、系数、元素等的术语,而且虽然本发明不局限于术语的这样含义,其含义根据需要变化。
在这里,在广义上,术语“音频信号”区别于“视频信号”,并且指示当再现的时候可听见地识别的信号。在狭义上,术语“音频信号”区别于“语音信号”,并且指示不具有语音特征的信号。在本发明中,将在广义上解释术语“音频信号”,并且当用作区别于“语音信号”的术语时,该术语“音频信号”可以理解为狭义上的音频信号。
此外,虽然术语“编译”可以仅指示编码,其也可以具有包括编码和解码两者的含义。
图1图示按照本发明一个实施例的被包括在音频信号处理装置中的编码器的配置。如图1所示,编码器包括包含第一至第N阶量化器121至12N的多阶量化器120,并且可以进一步包括线性预测器110、索引确定器130和多路复用器140。
线性预测器110按照线性预测编码(LPC)对输入音频信号执行线性预测分析以产生线性预测系数,并且将线性预测系数转换为线性预测变换系数。
线性预测编译的基本概念是在给定时间n上的线性预测值可以通过在给定时间n之前提供的p个音频信号的线性组合来近似。这可以算术地表示如下。
表达式1
S(n)≈q1S(n-1)+q2S(n-2)+····+qpS(n-p)
在这里,qi是线性预测系数,n是采样索引,和p是线性预测阶数。
由于以这样的方式获取的线性预测系数具有大的动态范围,线性预测系数的每个需要被量化为小的位数,并且由于该线性预测系数对于量化误差是弱的,所以该线性预测系数需要被转换为对于量化误差是强壮的(robust)系数。
因此,线性预测器110将线性预测系数转换为线性预测变换系数Wi。虽然本发明不受限于此,该线性预测变换系数可以是线性光谱对(LSP)、阻纳光谱对(ISP)、线性光谱频率(LSF)或者阻纳光谱频率(ISF)中的一个。在这里,可以如在以下的表达式中表示ISF。
表达式2
在这里,qi是线性预测系数,fi表示ISF的[0,6400Hz]的频率范围,并且fs=12800是采样频率。
将被矢量量化的目标矢量可以基于由这样的线性预测编译(LPC)产生的多个线性预测变换系数产生。在这里,目标矢量可以从在当前帧的多个线性预测变换系数和先前帧的多个线性预测变换系数之间的差值中产生。这个目标矢量被称为第一阶(在下文中其将简称为第一目标矢量),因为将该目标矢量输入到在多阶量化器120之中的第一阶量化器121。
多阶量化器120包括第一至第N阶量化器121至12N。第一至第N阶量化器121至12N中的每个产生候选码矢量,其数目在相应的阶中自适应地确定,并且将对应于候选码矢量的候选码本索引提供给索引确定器130。
特别地,第一阶量化器121矢量量化第一目标矢量以产生第一最终候选码本索引F11至F1M1的第一数(M1),这里M1是第一阶候选码矢量的数目。第一最终候选码本索引F11至F1M1被提供给图1的索引确定器130。
第N阶量化器12N矢量量化第N个目标矢量以产生第N个数(MN)的第N个最终候选码本索引F11至F1MN,这里MN是第N阶候选码矢量的数目。
在这里,第一至第N个数MN中的每个在相应的阶(当前的阶或者先前的阶)中基于临时候选误差自适应地确定。在当前阶中确定当前阶的候选矢量的数目对应于阶内方案的情形,并且在先前阶中确定当前阶的候选矢量的数目(或者在当前阶中确定先前阶的候选矢量的数目)的情形对应于阶间方案。在本说明书中,阶内方案称为第一实施例,并且阶间方案称为第二实施例。将参考图2和3描述对应于第一实施例(阶内)的第一阶量化器121-A和第N阶量化器12N-A,并且将参考图5和6描述对应于第二实施例(阶间)的第一阶量化器121-B和第N阶量化器12N-B。
索引确定器130组合第一数的第一最终候选码本索引(和第一最终候选码矢量)和第N个数的第N个最终候选码本索引(和第N个最终候选码矢量)以确定候选码矢量的多个候选集合,其每个是分别地来自第一至第N阶的N个码矢量的组合。在总共N阶的情况下,这个候选集合是N维矢量。索引确定器130从在多个候选集合之中的目标矢量(即,第一目标矢量)确定最小误差的一个候选集合。将对应于这个集合(即,第一阶至第N阶码本索引)的索引提供给多路复用器140。
多路复用器140多路复用包括从索引确定器130接收的第一阶至第N个码本索引的数据以产生一个或多个比特流,并且将该比特流传送给解码器。
图2图示图1的第一阶量化器121的第一实施例121-A的配置,并且图3图示图1的第N阶量化器12N的第一实施例12N-A的配置。第一实施例对应于阶内方案,其中如上所述在当前阶中确定当前阶的候选码矢量的数目。
如图2所示,按照第一实施例的第一阶量化器121-A包括临时候选矢量发生器121-A.1、误差发生器121-A.3,和当前数确定器121-A.5,并且可以进一步包括第一阶码本121.1。
临时候选矢量发生器121-A.1使用第一阶的码本121.1矢量量化第一目标矢量以获取第一阶的临时确定的数目(Mpre)的第一临时候选码矢量T11至T1Mpre。在这里,第一阶的码本121.1对应于在多阶之中用于第一阶量化的码本。
临时确定的数目(Mpre)可以是预先确定的表值。此外,临时地确定的数目可以是候选码矢量的总数,并且当多个目标信号存在的时候,也可以是每目标信号的候选码矢量的数目。对于每个模式该表值可以不同。作为该表值,在变换编译(TC)模式的情况下,每目标信号的候选码矢量的数目可以是7,并且在其他模式(诸如,语音编译(VC)模式、无声编译(UC)模式和常规编译(GC)模式)下可以是4。这里,每个表值可以在特定的阶中减小,如以下的表所示。
表1
例如,在UC模式中,该表值可以是小于4的值,而不是在第五阶或者第六阶中的4,但本发明不受限于此。
误差发生器121-A.3产生第一临时候选误差E11至E1Mpre,其是在第一临时候选码矢量T11至T1Mpre和第一目标矢量之间的误差。在这里,该临时候选误差可以按照以下的表达式产生。
表达式3对于p=1,..,P。
在这里,w(i)是权重,r(i)是第一目标矢量,Cs p(i)是第一临时候选码矢量,σs是在第s阶中的标准化因子,和P是临时确定的数目Mpre。
当前数确定器121-A.5基于由误差发生器121-A.3产生的第一临时候选误差E11至E1Mpre确定在当前阶中候选码矢量的当前数。在这里,当前数确定器121-A.5确定第一数(M1),第一数(M1)是第一候选码矢量的数目,因为当前阶是第一阶。在这里,阈值可以用作用于确定当前数(即,第一数)的基准。
特别地,以升序排列第一临时候选误差,并且产生指示统计特征的参数。在这里,该参数可以包括平均值、均方差、最小值、最大值和倾斜度中的至少一个。基于根据第一临时候选误差产生的参数(阈值)确定第一数(即,码矢量的当前数)。
在第一实施例中,当误差的平均值大于该阈值的时候,当前数被确定为是大的数,并且当误差的平均值小于该阈值的时候,当前数被确定为是小的数。也就是说,当存在很大误差的时候,虽然复杂度增加,但候选的数目增加以减小量化误差。另一方面,当存在小的误差的时候,候选的数目被减小以降低复杂度,因为即使候选的数目减小,但量化误差可以不必增加。
在第二实施例中,可以以升序排列第一临时候选误差,并且此后当排列误差的增量(即,差值Dk=E1k-E1k-1)逐渐减小的时候,当前数(在第一阶中的第一数)可以被确定为相对小的数。另一方面,当排列误差的增量逐渐增加的时候,当前数可以被确定为是相对大的数,并且当排列误差的增量逐渐减小的时候,可以被确定为是相对小的数。在增量逐渐减小的情形下,在当前阶中存在具有小的量化误差的相对大的数目的码本索引(和相应的码矢量)。在这种情况下,选择相同索引用于下一阶的码本索引的概率增加,并且因此,在性能方面的增加与在候选数目方面的增加相比很小。因此,在这种情况下,有效地减少候选的数目。另一方面,在增量逐渐提高的情形下,在具有最小的量化误差的码本索引和具有第二最小的量化误差的码本索引之间的量化误差差值是很大的。在这种情况下,通过提高候选的数目,可以按照下一阶的候选数目减少所选择的索引的冗余,从而提高码本索引的组合。
在以这样的方式确定第一阶的当前数(第一数)M1之后,产生与第一数具有相同数目的第一最终候选码矢量(FV11至FV1M1),并且输出相应的第一最终候选索引F11至F1M1。在这里,第一最终候选索引F11至F1M1的数目也对应于第一数M1。另一方面,第一最终候选误差E11至E1M1通过计算在第一目标矢量和第一候选码矢量FV11至FV1M1之间的误差产生。在这里,误差可以以与以上的表达式3几乎相同的方式产生。第一数的第一最终候选误差E11至E1M1被作为第二阶的目标矢量(即,第二目标矢量)输入到第二阶的第二阶量化器12N(N=2)的临时候选矢量发生器12N-A.1(N=2)。
当前数确定器121-A.5可以另外将第一阶的当前数(即,第一数)M1提供给下一阶(即,第二阶)的量化器。在这种情况下,当下一阶的量化器确定码矢量的数目的时候,可以使用第一阶的当前数。
在下面参考图3描述第N阶量化器12N-A(这里N是等于或者大于2的整数)。第N阶量化器12N-A包括候选矢量发生器12N-A.1、误差发生器12N-A.3,和当前数确定器12N-A.5,并且也可以包括第N阶码本12N.1。第N阶量化器12N的部件执行与第一阶量化器121的相应的部件几乎相同的功能,因此,在下面主要地集中于与第一阶量化器121的差别来描述第N阶量化器12N的部件。
临时候选矢量发生器12N-A.1从第N-1阶量化器接收作为第N阶目标矢量(以下简称为第N个目标矢量)的第N-1个最终候选误差EN-11至EN-1MN-1的第N–1个数(MN-1)(其是等于或者大于1的整数)。临时候选矢量发生器12N-A.1使用第N阶码本12N.1矢量量化第N阶目标矢量EN-11至EN-1MN-1以产生临时确定的数目(Mpre)的第N个临时候选码矢量TN1至TNMpre。在这里,虽然在第N阶中临时确定的数目(Mpre)可以是存储在表中的值,但与第一阶的临时确定的数目不同,在第N阶中临时确定的数目(Mpre)也可以基于第N-1阶的数目(即,第N-1个数)计算。临时确定的数目(Mpre)可以是α×第N-1个数(MN-1),这里α指示每目标矢量的候选的总数。
图4图示第N阶量化器12N的操作。如图4所示,第N-1个目标矢量的第N-1个数(MN-1)存在,并且对于目标矢量的每个产生α(α=3)个临时候选码矢量TN1至TNMpre。在这里,临时确定的数目(Mpre)对应于3×MN-1。
回到参考图3,误差发生器12N-A.3通过计算在第N个目标矢量EN-11至EN-1MN-1和临时确定的数目的第N个临时候选码矢量TN1至TNMpre之间的误差产生第N个临时候选误差EN1至ENMpre。
当前数确定器12N-A.5基于第N个临时候选误差EN1至ENMpre确定当前数(即,第N个数MN)。在此处省略确定当前数的方法的详细描述,因为与图2的当前数确定器121-A.5的方法类似。但是,当前数确定器12N-A.5可以另外基于先前阶(即,第N-1阶)的当前数MN-1确定当前数。特别地,当前数确定器12N-A.5可以通过适当地组合使用由第一阶的当前数确定器执行的方法确定的当前数MN和先前阶的数目MN-1最终确定当前数。如果存在下一阶,则类似于第一阶的当前数确定器,当前数确定器12N-A.5可以另外将第N个数MN提供给第N+1个量化器。
在如上所述当前数确定器确定第N阶的当前数MN(第N个数)之后,当前数确定器产生与所确定的当前数具有相同数目的第N个最终候选码矢量FVN1至FVNMN,和第N个最终候选码本索引FN1至FNMN,以及对应于第N个最终候选码矢量FVN1至FVNMN的第N个最终候选误差EN1至ENMN。另一方面,回到参考图4,如上所述产生α×MN-1(α=3)个第N个临时候选码矢量。此后,在确定当前数MN时,当仅临时候选矢量的一些已经选择作为第N个最终候选码矢量的时候,这导致未被选择的临时候选码矢量TN2、TN4、TN5、TN6、TNMpre-1和TNMpre-1被除去或者删除。
按照如上参考图2至4所述的阶内方案,基于如上所述当前阶的目标矢量确定当前阶的候选码矢量的数目。也可以如上所述在阶内方案中使用先前阶的数目确定当前数。
在下面参考图5和6描述使用当前的目标矢量确定下一阶的数目的阶间方案。
图5图示图1的第一阶量化器121的第二个实施例121-B的配置,并且图6图示图1的第N阶量化器12N的第二个实施例12N-B的配置。
如图5所示,类似于按照第一个实施例的第一阶量化器121-A,第一阶量化器121-B使用第一阶码本121.1矢量量化第一目标矢量以产生临时确定的数目的第一最终候选码矢量FV11至FV1Mpre,和相应的第一最终候选码本索引F11至F1Mpre。在第一阶中,临时地确定的数目Mpre是第一阶的数目M1,因为对于第一阶,在阶间方案中不存在在先前阶中确定的数目。第一阶码本121.1可以等于图2的第一阶码本121.1,但本发明不受限于此。第一最终候选码本索引F11至F1Mpre被提供给图1的索引确定器130。
误差发生器121-B.3计算在第一最终候选码矢量FV11至FV1Mpre和第一目标矢量之间的误差以产生第一最终候选误差E11至E1Mpre。在这里,该误差可以按照以上的表达式3计算。第一最终候选误差E11至E1Mpre被作为下一阶的目标矢量(第二目标矢量)提供给第二量化器12N(N=2)。
下一数确定器121-B.5基于第一最终候选误差E11至E1Mpre确定下一阶的候选矢量的数目(第二数M2)。在此处省略确定下一数方法的详细描述,因为其类似于如上所述由阶内方案(第一个实施例)的当前数确定器121-A.5确定当前数的方法。如上所述的下一阶的数目(即,下一数M2)被提供给第二阶量化器12N-B(N=2)。
参考图6,第N阶量化器12N-B包括候选矢量发生器12N-B.1,并且可以进一步包括误差发生器12N-B.3、下一数确定器12N-B.5和第N阶码本12N.1。当第N阶是最后阶的时候,第N阶量化器12N-B不包括误差发生器12N-B.3和下一数确定器12N-B.5。
候选矢量发生器12N-B.1作为第N个目标矢量接收第N-1个最终候选误差EN-11至E-1MN-1,其是第N-1阶的误差信号。候选矢量发生器12N-B.1也接收第N-1阶的下一数MN(即,第N个数MN)。候选矢量发生器12N-B.1也使用第N阶码本12N.1矢量量化目标矢量,以产生对应于第N个数MN的第N个最终候选码矢量FVN1至FVNMN,和对应于第N个最终候选码矢量FVN1至FVNMN的第N个最终候选码本索引FN1至FNMN。
虽然由于没有先前的阶,第一阶的候选矢量发生器产生与临时确定的数目Mpre具有相同数目的候选矢量,由于存在先前的阶(即,第N-1阶),第N阶候选矢量发生器可以最终产生与第N-1阶的下一数(即,第N个数MN)具有相同数目的候选矢量。
与阶内方案(第一个实施例)的由于没有确定候选码矢量最终数目,产生临时候选矢量的候选矢量发生器12N-A.1不同,阶间方案(第二个实施例)的候选矢量发生器产生最终候选码矢量,因为已经确定并从先前的阶接收到当前阶的候选矢量的数目。
用于产生与第N个数MN具有相同数目的第N个最终候选码矢量FVN1至FVNMN的过程可以通过产生与预先确定的数目(例如,用于每个目标矢量的α个临时候选码矢量,这里α是自然数)具有相同数目的临时候选码矢量,并且如上参考图4所述,基于临时候选误差从临时候选码矢量中选择最终数目MN的候选码矢量,和删除剩余的候选码矢量来执行。
以这样的方式产生的第N个最终候选码本索引FN1至FNMN被提供给图1的索引确定器130,并且第N个最终候选码矢量FVN1至FVNMN被提供给误差发生器12N-B.3。
当第N阶是如上所述的最后阶的时候,由于误差发生器12N-B.3和下一数确定器12N-B.5不存在,只有当存在N+1阶时,适用以下的描述。
误差发生器12N-B.3计算在第N个最终候选码矢量FVN1至FVNMN和分别对应于该码矢量的目标矢量EN-11至E-1MN-1之间的误差,以产生第N个最终候选误差EN1至ENMN。当存在第N+1阶的时候,第N个最终候选误差EN1至ENMN被提供给第N+1阶量化器。
下一数确定器12N-B.5产生下一阶(即,第N+1阶)的候选矢量的数目MN+1,并且将其提供给第N+1阶量化器。
当执行多阶矢量量化的时候,按照本发明的实施例的音频信号处理方法和装置可以按照当前的目标信号误差或者先前的目标信号误差自适应地改变每阶的候选码矢量(或者候选码本索引)的数目。
在下面参考图7至13描述按照另一个实施例的音频信号处理装置和方法。
图7图示按照本发明另一个实施例在音频信号处理装置中的编码器的配置。如图7所示,编码器200包括初始量化器220和索引更新器230,并且可以进一步包括线性预测器210和多路复用器240。
由于线性预测器210执行与编码器100的线性预测器110相同的功能,所以在此处省略线性预测器210的描述。线性预测器210使用线性预测变换系数产生第一阶的目标信号TV1,并且将该目标信号TV1提供给多阶初始量化器220。
初始量化器220对从线性预测器210接收的目标矢量执行多阶量化,以产生第一至第N个候选码矢量CC11-CC1M至CCN1-CCNM,并且将产生的第一至第N个候选码矢量提供给索引更新器230。初始量化器220包括第一至第N个初始量化器221至22N。在下面参考图8描述第一至第N个初始量化器221至22N的操作。
图8图示初始量化器221至22N的示例性的输出数据。在图8中,第一阶初始量化器221的输出数据显示在左侧上,并且第K阶初始量化器22K的输出数据显示在右侧上。
第一阶初始量化器221使用第一阶码本(未示出)矢量量化目标信号(或者目标矢量)以产生第一阶候选码矢量(第一候选码矢量)CC11至CC1M。在这里,第一阶码本(未示出)可以与图2的第一阶码本121.1相同,但本发明不受限于此。
第一候选码矢量的数目(M)可以是1)用于所有阶的固定值,2)用于每个阶的预置值,和3)自适应地变化的值中的一个。当第一候选码矢量的数目(M)是自适应地变化的值的时候,第一阶初始量化器221可以如图2所示(按照阶内方案)或者如图5所示(按照阶间方案)配置。也就是说,图2或者图5的第一最终候选码矢量FV1至FV1M1对应于图8的第一候选码矢量CC11至CC1M。
候选误差是在第一候选码矢量CC11至CC1M和目标矢量之间的误差,计算候选误差,并且基于该误差以升序排列候选码矢量。然后,在排列的码矢量之中具有最小误差的码矢量称为第一阶(第一)初始的最好码矢量BC1,并且对应于该码矢量的误差称为第一阶(第一)初始的最好误差BE1。第一候选码矢量CC11至CC1M被提供给图7的索引更新器230,并且第一初始的最好误差BE1作为第二阶初始量化器22N(N=2)的目标信号(或者目标矢量)被提供。
也就是说,虽然多个候选码矢量被提供给索引更新器230,但对应于码矢量的误差(在多个候选码矢量之中其误差是最小的)被作为目标信号提供给下一阶。虽然这个目标信号在当前的阶中可以是最好的,但当所有阶被组合的时候,该目标信号可以不是最好的,并且因此,索引更新器230在以后的时间里执行对于目标信号的补偿过程。
回到参考图7,类似于第一阶初始量化器221,第N阶初始量化器22N使用第N阶码本矢量量化第N-1个目标信号以产生第N个候选码矢量CCN1至CCNM,并且在第N个候选码矢量CCN1至CCNM之中具有最小的误差的码矢量称为第N个初始的最好码矢量BCN。第N个候选码矢量CCN1至CCNM被提供给索引更新器230。以如上所述同样的方式,当第N个候选码矢量的数目是自适应地变化的值的时候,第N阶初始量化器22N可以由如图3或者图6所示的部件构成。
包括第一初始的最好码矢量CC11(=BC1)的第一候选码矢量CC11至CC1M被提供给索引更新器230,并且第一初始的最好误差BE1被提供给索引更新器230和下一阶的初始量化器22N(N=2)。包括第N个初始的最好码矢量CCN1(=BCN)的第N个候选码矢量CCN1至CCNM也提供给索引更新器230,并且当第N阶是最后阶的时候,第N个初始的最好误差BEN被提供给索引更新器230。
索引更新器230接收第一至第N个初始的最好码矢量CCN1-CC1M至CCN1(=BCN),并且确定对于特定的第K阶是否执行索引更新。然后,索引更新器230产生第一至第N个最终码本索引,并且将其提供给多路复用器240。索引更新器230的详细配置在图9和10中示出。
多路复用器240产生包括由索引更新器230产生的第一至第N个最终码本索引的至少一个比特流,并且将该比特流提供给该解码器。
在下面参考图9和10描述索引更新器230的实施例的详细操作。图9图示图7的索引更新器230的实施例的详细配置,和图10图示图9的第K阶更新器23K的实施例的详细配置。
如图9所示,索引更新器230包括更新控制器230-2,并且还包括第一至第K阶更新器231至23K和第K+1至第N阶更新器23K+1至23N中的至少一个。
更新控制器230-2基于第一至第N个初始的最好误差BE1至BEN确定在所有阶(第K阶,K=1,...,N)之中在其中将执行索引替换(或者更新)的阶。在这里,更新控制器230-2首先将具有最大误差的阶确定为在其中将执行索引更新的阶。当确定将在第一阶中执行索引更新时,更新控制器230-2激活第一阶更新器231,并且当确定将在第N阶中执行索引更新时,激活第N阶更新器23N。稍后将参考图10描述当确定将在第K阶(K=1,...,N)中执行索引更新时,更新控制器230-2激活第一阶更新器23K的例子。
在更新控制器230-2对于具有如上所述最大误差的阶(例如,第K阶)替换(或者更新)索引之后,更新控制器230-2可以选择对于具有第二最大误差的阶(例如,第K+α阶(α:整数))是否替换索引。当第K个初始的最好码矢量已经以第K个最佳的最好码矢量替换或者更新的时候,更新控制器230-2可以对于在第K+α阶之后的阶执行索引更新。另一方面,当第K个初始的最好码矢量没有以第K个最佳的最好码矢量替换,并且已经确定是第K个最终码矢量FCH的时候,更新控制器230-2对于在第K+α阶之后的阶可以不执行索引更新,或者可以仅对于第K+α阶执行索引更新。
在下面参考图10描述该第K阶更新器23K(K=1,...,N)。如图10所示,第K阶更新器23K包括第K阶目标信号校正器23K.1、重新搜索器23K.2和更新确定器23K.3。
第K阶目标信号校正器23K.1接收用于除第K阶和第一阶目标信号以外的阶的初始的最好码矢量BC1至BCN(排除BCK),并且基于所接收的初始的最好码矢量和第一阶目标信号校正第K阶的目标信号以产生校正的第K个目标信号。
特别地,首先,第K阶目标信号校正器23K.1对排除第K阶的所有阶的初始的最好码矢量求和以如下产生排除第K个以外的和信号SUMexpK。
表达式4
SUMexpK=BC1+…+BCK-1+BCK+1+…+BCN
在这里,BC1是第一(第一阶)个初始的最好码矢量,
BCK-1是第K-1(第K-1阶)个初始的最好码矢量,
BCK+1是第K+1(第K+1阶)个初始的最好码矢量,和
BCK是第K个(第K阶)初始的最好码矢量。
当图7的每阶的初始量化器已经设置一个候选码矢量的时候,每阶的初始的最好码矢量对应于在该阶中具有最小误差的码矢量。
以这样的方式,第K阶目标信号校正器23K.1产生仅排除第K个初始的最好码矢量的排除第K个以外的和信号SUMexpK,并且从第一目标矢量TV1中减去排除第K个以外的和信号SUMexpK以产生校正的第K个目标信号TVKmod。
表达式5
TVKmod=TV1-SUMexpK
在这里,TVKmod是校正的第K个目标信号,
SUMexpK是排除第K个以外的和信号(SUMexpK=BC1+…+BCK-1+BCK+1+…+BCN),和
TV1是第一目标信号(或者第一目标矢量)。
重新搜索器23K.2基于校正的第K个目标信号TVKmod重新计算第K个候选码矢量CCK1至CCKM的误差,其已经由第K个初始量化器22K搜索(或者查找),并且确定在第K个候选码矢量CCK1至CCKM之中具有最小误差的码矢量是第K个最佳的最好码矢量OCK。也就是说,与在第K-1阶中具有最好候选误差BEK-1的第K个目标信号TVK不同,该校正的第K个目标信号TVKmod包括第K+1阶之后的初始的最好码矢量,使得在第K+1阶之后的阶的误差反映在该信号中。因此,当基于校正的第K个目标信号TVKmod,而不是第K个目标信号TVK重新计算第K个候选码矢量CCK1至CCKM的误差的时候,第K个候选码矢量CCK1至CCKM的误差始终变化。因此,基于校正的第K个目标信号TVKmod重新计算第K个候选码矢量CCK1至CCKM的误差,并且选择具有最小的重新计算的误差的第K个最佳的最好码矢量OCK。
更新确定器23K.3从第K个初始量化器22K接收第K个初始的最好码矢量BCK,并且从重新搜索器23K.2接收第K个最佳的最好码矢量OCK。更新确定器23K.3确定在第K个初始的最好码矢量BCK之中具有较小总误差的码矢量,并且第K个最佳的最好码矢量OCK是第K阶最终码矢量FCK。在这里,更新确定器23K.3使用来自线性预测器210的第一目标信号TV1和来自第K阶目标信号校正器23K.1的排除第K个以外的和信号SUMexcK以计算总的误差。
EBCK=TV1–(BCK+SUMexcK)
EOCK=TV1–(OCK+SUMexcK)
在这里,EBCK是用于第K个初始的最好码矢量(以下简称为第一总的误差)的总的误差,
EOCK是用于第K个初始的最好码矢量(以下简称为第二总的误差)的总的误差,
BCK是第K个初始的最好码矢量,
OCK是第K个最佳的最好码矢量,和
SUMexcK是排除第K个以外的和信号。
也就是说,如果第一总的误差较小,更新确定器23K.3不以第K个最佳的最好码矢量OCK替换第K个初始的最好码矢量BCK,因为第K个初始的最好码矢量BCK是较好的,并且确定第K个初始的最好码矢量BCK是第K个最终码矢量FCK。另一方面,如果第二总的误差较小,则更新确定器23K.3以基于校正的第K阶目标信号BEKmod产生的第K个最佳的最好码矢量OCK替换第K个初始的最好码矢量OCK,并且确定其是第K个最终码矢量FCK。
更新确定器23K.3然后将对应于第K个最终码矢量FCK的码本索引FIK作为第K个最终码矢量索引提供给图7的多路复用器240。
回到参考图9,在通过在第K阶中执行索引更新,将第K个最终码矢量FCK确定是第K个初始的最好码矢量BCK和第K个最佳的最好码矢量OCK中的一个之后,对于K+α阶已经执行索引更新的情形下,将第K个最终码矢量FCK而不是第K个初始的最好码矢量BCK输入给第K+α阶更新器23K+α。
如上所述,按照在图7至13中示出的另一个实施例的音频信号处理方法和装置,首先,候选的数目被设置为小的数(例如,1),并且主要地基于所设置的小的数执行多阶量化,并且因此可以大大地降低由于多阶量化的复杂度。此外,假若替换减小误差,该初始的最好码矢量对于具有高误差的阶(例如,第K阶,诸如第K+α阶)被以最佳的最好码矢量替换,并且因此可以大大地降低矢量量化误差。
按照本发明的音频信号处理装置可以在各种产品中包括和使用。这样的产品可以基本上划分为独立组和便携式组,并且独立的组可以包括TV、监视器和机顶盒,并且便携式组可以包括PMP、移动电话和导航设备。
图11图示在其中实现按照本发明实施例的音频信号处理装置的产品。如图11所示,有线/无线通信单元经由有线/无线通信方案接收比特流。特别地,有线/无线通信单元510可以包括有线通信单元510A、红外通信单元(或者红外线单元)510B、蓝牙单元510C、无线LAN通信单元510D、移动通信单元510E中的至少一个。
用户验证单元520接收用户信息,并且执行用户验证,而且可以包括指纹识别单元、虹膜识别单元、面部识别单元和语音识别单元中的至少一个。指纹识别单元、虹膜识别单元、面部识别单元和语音识别单元可以接收指纹信息、虹膜信息、面部轮廓信息和语音(或者话音)信息,并且将其转换为用户信息,以及然后可以确定用户信息是否与注册的用户数据相同以执行用户验证。
输入单元530是用于允许用户输入各种类型命令的输入设备。输入单元530可以包括小键盘单元530A、触摸板单元530B、远程控制器单元530C和麦克风单元530D中的至少一个,但本发明不受限于此。在这里,麦克风单元530D是用于接收语音或者音频信号的输入设备。小键盘单元530A、触摸板单元530B和远程控制器单元530C可以接收进行呼叫的命令,或者激活麦克风单元530D的命令。当控制器550经由小键盘单元530B等接收进行呼叫的命令的时候,控制器550可以允许移动通信单元510E去发送呼叫请求给移动通信网络。
信号编译单元540编码或者解码经由麦克风单元530D或者有线/无线通信单元510接收的音频信号和/或视频信号,并且输出时间域的音频信号。信号编译单元540包括音频信号处理设备545,其对应于如上所述本发明的实施例(即,按照实施例的编码器100或者200)。音频信号处理设备545和包括音频信号处理设备545的信号编译单元可以使用一个或多个处理器实现。
控制器550从输入设备接收输入信号,并且控制信号解码单元540和输出单元560的所有操作。输出单元560是经由其输出由信号解码单元540等产生的输出信号的部件,并且可以包括扬声器单元560A和显示单元560B。当输出信号是音频信号的时候,该输出信号被经由扬声器输出,并且当输出信号是视频信号的时候,该视频信号被经由显示器输出。
图12图示在其中实现按照本发明一个实施例的音频信号处理装置的产品。特别地,图12图示在服务器和对应于在图11中示出的产品的终端之间的关系。从图12(A)中,可以看出第一终端500.1和第二终端500.2的每个可以经由有线/无线通信单元双向通信数据或者比特流。从图12(B)中,服务器600和第一终端500.1还可以相互执行有线/无线通信。
图13图示在其中实现按照本发明一个实施例的音频信号处理装置的移动终端的示意性配置。移动终端700可以包括用于发送和接收呼叫的移动通信单元710,用于数据通信的数据通信单元720,用于接收进行呼叫的命令,或者与音频输入有关的命令的输入单元730,用于接收语音或者音频信号的麦克风单元740,用于控制每个部件的控制器750,信号编译单元760,用于输出语音或者音频信号的扬声器770,和用于输出屏幕的显示器780。
信号编译单元760编码或者解码经由数据通信单元720或者麦克风单元530D接收的音频信号和/或视频信号,并且经由移动通信单元710、数据通信单元720或者扬声器770输出时间域的音频信号。信号编译单元760包括音频信号处理设备765,其对应于如上所述本发明的实施例(即,按照实施例的编码器100或者解码器200)。音频信号处理设备765和包括音频信号处理设备765的信号编译单元可以使用一个或多个处理器实现。
按照本发明的音频信号处理方法可以作为由计算机执行的程序实施,并且然后可以存储在计算机可读记录介质中。具有按照本发明的数据结构的多媒体数据也可以存储在计算机可读的记录介质中。计算机可读的记录介质包括任何类型的存储设备,其存储可以由计算机系统读取的数据。计算机可读的记录介质的例子包括ROM、RAM、CD-ROM、磁带、软盘、光数据存储设备等。计算机可读的记录介质也可以以载波(例如,在因特网上传送的信号)的形式实施。按照如上所述的编译方法产生的比特流可以存储在计算机可读记录介质中,或者可以使用有线/无线通信网络传送。
虽然已经参考特定的实施例和附图描述了本发明,但本发明不限于这些实施例,并且不脱离如在伴随的权利要求中公开的本发明的范围和精神,本领域技术人员将能够从该描述中进行各种改进、增加和替换。
工业实用性
本发明适用于音频信号编码和解码。
Claims (15)
1.一种音频信号处理方法,包括:
基于多个线性预测变换系数通过对音频信号的当前帧执行线性预测分析来产生第一目标矢量,所述第一目标矢量是第一阶的目标矢量;
通过矢量量化所述第一目标矢量获取第一阶的临时确定的数目的第一临时候选码矢量;
计算第一临时候选误差,所述第一临时候选误差是在所述第一临时候选码矢量和所述第一目标矢量之间的误差;和
基于所述第一临时候选误差确定第一数,所述第一数是所述第一候选码矢量的数目,并且获取与所述第一数具有相同数目的第一最终候选码矢量。
2.根据权利要求1所述的音频信号处理方法,进一步包括:
基于所述第一最终候选码矢量产生作为第二阶的目标矢量的第一最终候选误差;
通过矢量量化所述第二目标矢量获取第二阶的临时确定的数目的第二临时候选码矢量;
计算第二临时候选误差,所述第二临时候选误差是在第二阶的所述第二临时候选码矢量和所述第二目标矢量之间的误差;和
基于所述第二候选误差确定第二数,所述第二数是所述第二候选码矢量的数目,并且获取与所述第二数具有相同数目的第二最终候选码矢量。
3.根据权利要求2所述的音频信号处理方法,其中获取第二临时候选码矢量包括:
获取与用于所述第二目标矢量的每个的任意自然数α具有相同数目的临时候选码矢量;和
通过除去临时码矢量的一部分获取临时确定的数目的第二临时候选码矢量。
4.根据权利要求2所述的音频信号处理方法,其中所述临时确定的数目基于预先确定的表值或者第一数计算。
5.根据权利要求1所述的音频信号处理方法,其中所述第一数基于第一临时候选误差和阈值确定。
6.根据权利要求5所述的音频信号处理方法,其中在以升序排列第一临时候选误差之后,如果第一临时候选误差的增量逐渐减小,则第一数被确定为是小的数。
7.一种音频信号处理方法,包括:
基于多个线性预测变换系数通过对音频信号的当前帧执行线性预测分析来产生第一目标矢量,所述第一目标矢量是第一阶的目标矢量;
通过矢量量化所述第一目标矢量获取第一阶的临时确定的数目的第一最终候选码矢量;
计算第一最终候选误差,所述第一最终候选误差是在所述第一最终候选码矢量和所述第一目标矢量之间的误差;和
基于所述第一最终候选误差确定第二数,所述第二数是第二阶的第二候选码矢量的数目。
8.根据权利要求7所述的音频信号处理方法,进一步包括:
基于所述第一最终候选码矢量产生作为第二阶的目标矢量的第一最终候选误差;
通过矢量量化第二目标矢量获取与第二数具有相同数目的第二阶的第二临时候选码矢量;
计算第二临时候选误差,所述第二临时候选误差是在所述第二临时候选码矢量和所述第二目标矢量之间的误差;和
基于所述第二临时候选误差确定第三数,所述第三数是第三阶的第三候选码矢量的数目。
9.一种音频信号处理装置,包括:
线性预测器,所述线性预测器用于基于多个线性预测变换系数通过对音频信号的当前帧执行线性预测分析来产生第一目标矢量,所述第一目标矢量是第一阶的目标矢量;
临时候选矢量发生器,所述临时候选矢量发生器用于通过矢量量化所述第一目标矢量获取第一阶的临时确定的数目的第一临时候选码矢量;
误差发生器,所述误差发生器用于计算第一临时候选误差,所述第一临时候选误差是在第一临时候选码矢量和第一目标矢量之间的误差;和
当前数确定器,所述当前数确定器用于基于第一临时候选误差确定第一数,所述第一数是第一候选码矢量的数目,并且获取与所述第一数具有相同数目的第一最终候选码矢量。
10.一种音频信号处理装置,包括:
线性预测器,所述线性预测器用于基于多个线性预测变换系数通过对音频信号的当前帧执行线性预测分析来产生第一目标矢量,所述第一目标矢量是第一阶的目标矢量;
候选矢量发生器,所述候选矢量发生器用于通过矢量量化第一目标矢量获取第一阶的临时确定的数目的第一最终候选码矢量;
误差发生器,所述误差发生器用于计算第一最终候选误差,所述第一最终候选误差是在第一最终候选码矢量和第一目标矢量之间的误差;和
下一数确定器,所述下一数确定器用于基于第一最终候选误差确定第二数,所述第二数是第二阶的第二候选码矢量的数目。
11.一种音频信号处理方法,包括:
基于多个线性预测变换系数通过对音频信号的当前帧执行线性预测分析来产生第一目标信号;
基于第一目标信号对第一阶执行矢量量化,所述矢量量化包括基于第一目标信号产生第一候选码矢量,所述第一候选码矢量包括具有最小误差的第一初始的最好码矢量,和将对应于第一初始的最好码矢量的第一初始的最好误差作为第二目标信号输出,所述第二目标信号是第二阶的目标信号;
从第二阶到第N阶重复地执行矢量量化;
确定在第一至第N阶之中的其中将执行索引更新的第K阶(K=1,...,N);
使用第一目标信号和排除第K个以外的和信号校正第K个目标信号;
基于校正的第K个目标信号确定在第K个候选码矢量之中的第K个最佳的最好码矢量;和
将第K个初始的最好码矢量和第K个最佳的最好码矢量的一个选择作为第K个最终的最好码矢量,
其中所述排除第K个以外的和信号是排除第K个初始的最好码矢量的第一至第N个初始的最好码矢量的和。
12.根据权利要求11所述的音频信号处理方法,其中基于第K个初始的最好码矢量的总误差和第K个最佳的最好码矢量的总误差执行选择,
第K个初始的最好码矢量的总误差是在通过对排除第K个以外的和信号和第K个初始的最好码矢量求和获得的矢量和第一目标信号之间的差值,和
第K个初始的最好码矢量的总误差是在通过对排除第K个以外的和信号和第K个初始的最好码矢量求和获得的矢量和第一目标信号之间的差值。
13.根据权利要求11所述的音频信号处理方法,进一步包括:
确定在第一至第N阶之中的其中将执行索引更新的第K+α阶(α:整数);和
重复第K+α阶的更新、确定和选择。
14.根据权利要求13所述的音频信号处理方法,其中当第K个最佳的最好码矢量被确定是第K个最终的最好码矢量的时候,执行第K+α阶的确定和重复。
15.一种音频信号处理装置,包括:
线性预测器,所述线性预测器用于基于多个线性预测变换系数对音频信号的当前帧执行线性预测分析,并且产生第一目标信号;
初始量化器,所述初始量化器用于基于所述第一目标信号对总共N阶执行矢量量化,所述初始量化器包括第一初始量化器,所述第一初始量化器通过基于第一目标信号产生包括第一初始的最好码矢量的第一候选码矢量,并且将对应于第一初始的最好码矢量的第一初始的最好误差作为第二目标信号输出来对第一阶执行矢量量化,所述第一初始的最好码矢量具有最小的误差,所述第二目标信号是第二阶的目标信号,和
第i个初始量化器,所述第i个初始量化器用于基于第i个目标信号(i=2,...,N)执行矢量量化;
更新控制器,所述更新控制器用于确定在第一至第N阶之中的其中将执行索引更新的第K阶(K=1,...,N);
第K阶目标信号校正器,所述第K阶目标信号校正器用于使用第一目标信号和排除第K个以外的和信号校正第K个目标信号;
重新搜索器,所述重新搜索器用于基于校正的第K个目标信号确定在第K个候选码矢量之中的第K个最佳的最好码矢量;和
更新确定器,所述更新确定器用于将第K个初始的最好码矢量和第K个最佳的最好码矢量中的一个选择为第K个最终的最好码矢量,
其中所述排除第K个以外的和信号是排除第K个初始的最好码矢量的第一至第N个初始的最好码矢量的和。
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US32188110P | 2010-04-08 | 2010-04-08 | |
US32188210P | 2010-04-08 | 2010-04-08 | |
US61/321,882 | 2010-04-08 | ||
US61/321,881 | 2010-04-08 | ||
KR10-2010-0086489 | 2010-09-03 | ||
KR1020100086488A KR20110113123A (ko) | 2010-04-08 | 2010-09-03 | 오디오 신호 처리 방법 및 장치 |
KR1020100086489A KR20110113124A (ko) | 2010-04-08 | 2010-09-03 | 오디오 신호 처리 방법 및 장치 |
KR10-2010-0086488 | 2010-09-03 | ||
PCT/KR2011/002487 WO2011126340A2 (ko) | 2010-04-08 | 2011-04-08 | 오디오 신호 처리 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102906812A true CN102906812A (zh) | 2013-01-30 |
CN102906812B CN102906812B (zh) | 2016-08-10 |
Family
ID=47577493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180026076.6A Expired - Fee Related CN102906812B (zh) | 2010-04-08 | 2011-04-08 | 处理音频信号的方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9153238B2 (zh) |
EP (1) | EP2557566B8 (zh) |
CN (1) | CN102906812B (zh) |
WO (1) | WO2011126340A2 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105324812A (zh) * | 2013-06-17 | 2016-02-10 | 杜比实验室特许公司 | 不同信号维度的参数矢量的多级量化 |
CN107077857A (zh) * | 2014-05-07 | 2017-08-18 | 三星电子株式会社 | 对线性预测系数量化的方法和装置及解量化的方法和装置 |
US11450329B2 (en) | 2014-03-28 | 2022-09-20 | Samsung Electronics Co., Ltd. | Method and device for quantization of linear prediction coefficient and method and device for inverse quantization |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2013111526A (ru) * | 2010-09-17 | 2014-10-27 | Панасоник Корпорэйшн | Устройство квантования и способ квантования |
BR112014013961B1 (pt) * | 2011-12-28 | 2022-05-10 | JVC Kenwood Corporation | Dispositivo de codificação de vídeo, método de codificação de vídeo e programa de codificação de vídeo e dispositivo de decodificação de vídeo, método de decodificação de vídeo e programa de decodificação de vídeo |
CN107707912B (zh) * | 2011-12-28 | 2020-05-22 | Jvc 建伍株式会社 | 动图像编码装置以及动图像编码方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5271089A (en) * | 1990-11-02 | 1993-12-14 | Nec Corporation | Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits |
CN1488135A (zh) * | 2000-11-30 | 2004-04-07 | ���µ�����ҵ��ʽ���� | 线性预测编码参数的矢量量化装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2624130B2 (ja) * | 1993-07-29 | 1997-06-25 | 日本電気株式会社 | 音声符号化方式 |
US5774839A (en) | 1995-09-29 | 1998-06-30 | Rockwell International Corporation | Delayed decision switched prediction multi-stage LSF vector quantization |
JP3707154B2 (ja) | 1996-09-24 | 2005-10-19 | ソニー株式会社 | 音声符号化方法及び装置 |
JP3707153B2 (ja) * | 1996-09-24 | 2005-10-19 | ソニー株式会社 | ベクトル量子化方法、音声符号化方法及び装置 |
KR100709376B1 (ko) | 2001-07-05 | 2007-04-20 | 삼성전자주식회사 | 고속 벡터 양자 부호화를 위한 탐색 장치 및 방법 |
KR100492965B1 (ko) | 2002-09-27 | 2005-06-07 | 삼성전자주식회사 | 벡터 양자화를 위한 고속 탐색방법 |
US7933770B2 (en) * | 2006-07-14 | 2011-04-26 | Siemens Audiologische Technik Gmbh | Method and device for coding audio data based on vector quantisation |
RU2013111526A (ru) * | 2010-09-17 | 2014-10-27 | Панасоник Корпорэйшн | Устройство квантования и способ квантования |
-
2011
- 2011-04-08 CN CN201180026076.6A patent/CN102906812B/zh not_active Expired - Fee Related
- 2011-04-08 WO PCT/KR2011/002487 patent/WO2011126340A2/ko active Application Filing
- 2011-04-08 US US13/640,042 patent/US9153238B2/en not_active Expired - Fee Related
- 2011-04-08 EP EP11766191.8A patent/EP2557566B8/en not_active Not-in-force
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5271089A (en) * | 1990-11-02 | 1993-12-14 | Nec Corporation | Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits |
CN1488135A (zh) * | 2000-11-30 | 2004-04-07 | ���µ�����ҵ��ʽ���� | 线性预测编码参数的矢量量化装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105324812A (zh) * | 2013-06-17 | 2016-02-10 | 杜比实验室特许公司 | 不同信号维度的参数矢量的多级量化 |
US11450329B2 (en) | 2014-03-28 | 2022-09-20 | Samsung Electronics Co., Ltd. | Method and device for quantization of linear prediction coefficient and method and device for inverse quantization |
CN107077857A (zh) * | 2014-05-07 | 2017-08-18 | 三星电子株式会社 | 对线性预测系数量化的方法和装置及解量化的方法和装置 |
CN107077857B (zh) * | 2014-05-07 | 2021-03-09 | 三星电子株式会社 | 对线性预测系数量化的方法和装置及解量化的方法和装置 |
US11238878B2 (en) | 2014-05-07 | 2022-02-01 | Samsung Electronics Co., Ltd. | Method and device for quantizing linear predictive coefficient, and method and device for dequantizing same |
US11922960B2 (en) | 2014-05-07 | 2024-03-05 | Samsung Electronics Co., Ltd. | Method and device for quantizing linear predictive coefficient, and method and device for dequantizing same |
Also Published As
Publication number | Publication date |
---|---|
EP2557566A2 (en) | 2013-02-13 |
US20130103407A1 (en) | 2013-04-25 |
WO2011126340A3 (ko) | 2011-12-15 |
WO2011126340A2 (ko) | 2011-10-13 |
EP2557566B8 (en) | 2018-09-19 |
EP2557566B1 (en) | 2018-06-27 |
US9153238B2 (en) | 2015-10-06 |
EP2557566A4 (en) | 2013-09-11 |
CN102906812B (zh) | 2016-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4506039B2 (ja) | 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム | |
CN112154502B (zh) | 支持生成舒适噪声 | |
KR100283547B1 (ko) | 오디오 신호 부호화 방법 및 복호화 방법, 오디오 신호 부호화장치 및 복호화 장치 | |
KR100910282B1 (ko) | Lpc 파라미터의 벡터 양자화 장치, lpc 파라미터복호화 장치, 기록 매체, 음성 부호화 장치, 음성 복호화장치, 음성 신호 송신 장치, 및 음성 신호 수신 장치 | |
CN110870006B (zh) | 对音频信号进行编码的方法以及音频编码器 | |
RU2366007C2 (ru) | Способ и устройство для восстановления речи в системе распределенного распознавания речи | |
CN102906812A (zh) | 处理音频信号的方法和装置 | |
CN101223573A (zh) | 在自适应编码和解码中选择性地使用多个熵模型 | |
CN103081006B (zh) | 处理音频信号的方法和设备 | |
KR20120121895A (ko) | 오디오 신호 처리 방법 및 장치 | |
CN1147833C (zh) | 生成和编码线状谱平方根的方法和装置 | |
US8825494B2 (en) | Computation apparatus and method, quantization apparatus and method, audio encoding apparatus and method, and program | |
US10269363B2 (en) | Coding method, decoding method, apparatus, program, and recording medium | |
JP3344944B2 (ja) | オーディオ信号符号化装置,オーディオ信号復号化装置,オーディオ信号符号化方法,及びオーディオ信号復号化方法 | |
JP4703648B2 (ja) | ベクトルコードブック生成方法、データ圧縮方法及び装置、並びに分散型音声認識システム | |
CN104021793B (zh) | 处理音频信号的方法和装置 | |
EP2766900B1 (en) | Apparatus and method using combinatorial coding of audio, video, image and telemetry signals | |
KR100508618B1 (ko) | 피치 주기 탐색 범위 설정 장치, 피치 주기 탐색 장치,적응 음원 벡터의 생성 장치, 음성 부호화 장치, 음성복호화 장치, 음성 신호 송신 장치, 음성 신호 수신 장치,이동국 장치 및 기지국 장치 | |
US7580834B2 (en) | Fixed sound source vector generation method and fixed sound source codebook | |
CA2233896C (en) | Signal coding system | |
CN108701462A (zh) | 加权矩阵系数的自适应量化 | |
CN103489450A (zh) | 基于时域混叠消除的无线音频压缩、解压缩方法及其设备 | |
CN116631418A (zh) | 语音编码、解码方法、装置、计算机设备和存储介质 | |
CN119013724A (zh) | 用于量化线谱频率的方法 | |
CN103119650A (zh) | 编码装置和编码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160810 Termination date: 20210408 |
|
CF01 | Termination of patent right due to non-payment of annual fee |