CN1135530C - 声音编码装置和声音译码装置 - Google Patents
声音编码装置和声音译码装置 Download PDFInfo
- Publication number
- CN1135530C CN1135530C CNB001216716A CN00121671A CN1135530C CN 1135530 C CN1135530 C CN 1135530C CN B001216716 A CNB001216716 A CN B001216716A CN 00121671 A CN00121671 A CN 00121671A CN 1135530 C CN1135530 C CN 1135530C
- Authority
- CN
- China
- Prior art keywords
- sound source
- sound
- source position
- code
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001228 spectrum Methods 0.000 claims abstract description 44
- 238000009826 distribution Methods 0.000 claims abstract description 32
- 239000013598 vector Substances 0.000 claims description 25
- 239000002131 composite material Substances 0.000 claims 6
- 230000008676 import Effects 0.000 claims 6
- 230000005284 excitation Effects 0.000 description 131
- 230000003044 adaptive effect Effects 0.000 description 60
- 230000000694 effects Effects 0.000 description 29
- 238000010586 diagram Methods 0.000 description 27
- 230000005540 biological transmission Effects 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 13
- 230000003595 spectral effect Effects 0.000 description 13
- 238000003786 synthesis reaction Methods 0.000 description 13
- 230000006866 deterioration Effects 0.000 description 11
- 238000005070 sampling Methods 0.000 description 11
- 230000008901 benefit Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 10
- 230000006872 improvement Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000001914 filtration Methods 0.000 description 9
- 238000000034 method Methods 0.000 description 8
- 230000000630 rising effect Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 230000001629 suppression Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000001174 ascending effect Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0007—Codebook element generation
- G10L2019/0008—Algebraic codebooks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
现有的驱动声源编码·译码单元会导致急剧的特性恶化。本发明的驱动声源编码·译码单元分别具有声源位置候选在帧内的分布的偏移相互不同的声源位置表,并具有参照频谱包络信息,按照声源位置和极性,对声源进行编码的多个代数声源编码·译码单元和从多个代数声源编码·译码单元中选择编码畸变最小的代数声源编码·译码单元,并输出代码和极性的选择单元。
Description
技术领域
本发明涉及将数字声音信号压缩为少的信息量的声音编码装置和将由声音编码装置等生成的声音代码译码后,再生数字声音信号的声音译码装置。
背景技术
在现有的很多声音编码装置和声音译码装置中,采用将输入声音分为频谱包络信息和声源、按帧单位将它们编码后生成声音代码,通过将该声音代码译码后,利用合成滤波器将频谱包络信息和声源组合,得到译码声音的结构。
作为最具代表性的声音编码装置和声音译码装置,有使用代码驱动线性预测编码(Code-Excited Linear Prediction:CELP)方式的装置。
图15是表示现有的CELP系的声音编码装置的总体结构的图,图中,1是输入声音,2是线性预测分析单元,3是线性预测系数编码单元,4是自适应声源编码单元,5是驱动声源编码单元,6是增益编码单元,7是多路复用单元,8是声音代码。
图16是表示现有的CELP系的声音译码装置的总体结构的图,图中,9是分离单元,10是线性预测系数译码单元,11是自适应声源译码单元,12是驱动声源译码单元,13是增益译码单元,14是合成滤波器,15是输出声音。
在现有的声音编码装置和声音译码装置中,将约5~50ms作为1帧,按帧单位进行处理。下面,说明该现有的声音编码装置和声音译码装置的动作。
首先,在声音编码装置中,输入声音1输入线性预测分析单元2和自适应声源编码单元4。线性预测分析单元2将输入声音1进行分析,抽出作为声音的频谱包络信息的线性预测系数。线性预测系数编码单元3将该线性预测系数进行编码,并将该代码向多路复用单元7输出,同时为了声源的编码,输出已编码的线性预测系数。
在自适应声源编码单元4中,将过去的声源作为自适应声源代码表进行存储,与各自适应声源代码对应地生成使过去的声源周期性地反复的时间系列矢量。然后,对各时间系列矢量乘以适当的增益,使之通过使用上述已编码的线性预测系数的合成滤波器,得到暂时的合成音。检查该暂时的各合成音与输入声音1的距离,选择使该距离为最小的自适应声源代码,同时将与所选择的自适应声源代码对应的时间系列矢量作为自适应声源而输出。另外,向下一个驱动声源编码单元5输出输入声音1或从输入声音1中减去利用自适应声源的合成音后的信号。
在驱动声源编码单元5中,首先与各驱动声源代码对应地从其内部存储的驱动声源代码表中顺序读出时间系列矢量。其次,对各时间系列矢量和上述自适应声源乘以适当的增益后,将两者相加,使之通过使用上述已编码的线性预测系数的合成滤波器,得到暂时的各合成音。将该暂时的各合成音和从自适应声源编码单元4中输出的输入声音1或从输入声音1中减去利用自适应声源的合成音后的信号作为编码对象信号,检查该编码对象信号与上述暂时的各合成音的距离,选择使该距离为最小的驱动声源代码,同时将与所选择的驱动声源代码对应的时间系列矢量作为驱动声源而输出。
增益编码单元6首先与各增益代码对应地从其内部存储的增益代码表中顺序读出增益频谱。并且,将各增益矢量的各要素与上述自适应声源和上述驱动声源相乘后,将两者相加,使之通过使用上述已编码的线性预测系数的合成滤波器,得到暂时的各合成音。检查该暂时的合成音与输入声音1的距离,选择使该距离为最小的增益代码。
最后,自适应声源编码单元4将与所选择的增益代码对应的增益矢量的各要素与上述自适应声源和上述驱动声源相乘后,将两者相加,生成声源,进行自适应声源代码表的更新。
多路复用单元7输出将上述线性预测系数的代码、自适应声源代码、驱动声源代码和增益代码多路复用而得到的声音代码8。
在声音译码装置中,由分离单元9将上述声音代码8分为线性预测系数的代码、自适应声源代码、驱动声源代码和增益代码。
线性预测系数译码单元10根据线性预测系数的代码,对线性预测系数进行译码,并设定为合成滤波器14的系数。
然后,自适应声源译码单元11将过去的声源作为自适应声源代码表进行存储,与自适应声源代码对应地输出使过去的声源周期性地反复的时间系列矢量,另外,驱动声源译码单元12输出与驱动声源代码对应的时间系列矢量。增益译码单元13输出与增益代码对应的增益矢量。通过对上述2个时间系列矢量乘以上述增益矢量的各要素后相加而生成声源,通过使该声源通过合成滤波器14,生成输出声音15。
最后,自适应声源译码单元11使用上述已生成的声源,进行自适应声源代码表的更新。
下面,试图改良该CELP系声音编码装置和声音译码装置的现有的技术。
文献1:片冈章俊、林伸二、守谷健弘、栗原祥子、间野一则在「CS-ACELPの基本アルゴリズム」(NTT R&D,Vol.45,pp.325-330(1996年4月))中,以减少运算量和存储量为主要目的,公开了将脉冲声源导入驱动声源的编码中的CELP系声音编码装置和声音译码装置。在该现有的结构中,仅用数条脉冲的各位置信息和极性信息来表现驱动声源。这样的声源称为代数声源,结构简单、编码特性好,已被最近的很多标准方式采用。
图17是表示在文献1中使用的脉冲声源的位置候选的表。在文献1中,声源编码帧长度为40取样,驱动声源由4个脉冲构成。如图17所示,声源号码1~3的脉冲声源的位置候选分别限制为8个位置,脉冲位置分别可以用3位进行编码。声源号码4的脉冲限制为16个位置,脉冲位置可以用4位进行编码。通过对脉冲声源的位置候选加以限制,来抑制编码特性的恶化,实现减少编码位数、减少组合数从而减少运算量。
改善该代数声源的品质的结构,已在特开平10-232696和文献2:Tadashi Amada、Kimio Miseki and Masami Akamine的“CELP SPEECHCODING BASED ON AN ADAPTIVE PULSE POSITIONCODEBOOK”1999 IEEE International Conference on Acoustics,Speech,and Signal Processing,vol.I,pp.13-16(Mar 1999)以及文献3:土屋、天田、三关的「适应パルス位置ACELP音声符号化の改善」日本音响学会1999年春季研究发表会演讲论文集I、213-214中公开了。
在特开平10-232696中,是预先准备多个固定波形,通过将该固定波形配置到以代数方式已编码的声源位置来生成驱动声源。另外,还具有多个驱动声源生成单元(噪音代码表),根据编码畸变或声音的分析结果,选择并使用其中的1个。作为多个驱动声源生成单元,公开了上述固定波形的个数相互不同的情况和生成至少1个与代数声源不同的随机数列或脉冲串的装置。利用这样的结构来得到高品质的输出声音。
在文献2中,为了将脉冲声源的位置候选集中在自适应声源的振幅包络大的地方,对各帧自适应地设定脉冲声源的位置候选。由此,能够改善编码特性。
文献3相当于文献2的改良。在驱动声源(在文献3中,是ACELP声源)的生成部中包含音调滤波器时,就存在容易选择最初的1音调周期的区间的声源位置的倾向,这时,就根据进行了音调逆滤波处理的自适应声源的振幅包络的大小,对各帧自适应地设定脉冲声源的位置候选。
在上述现有的方法中,存在以下所述的问题。
文献1公开的声音编码装置和声音译码装置的情况,是各声源号码的位置候选固定存在于将帧均等分割的各分割区域中,即均等地分布在帧内。用这样的结构,想实现低位速率时,则只能减少脉冲数或以均等间隔间抽各声源号码的位置候选数,但是,这时将导致特性急剧的恶化。
为了多少解决这一问题,在文献2和文献3中,公开了少许抑制该特性恶化的自适应的间抽方法,但是,在输入声音的周期性发生紊乱变化时,进行自适应的间抽,反而会引起更大的特性恶化。另外,该自适应的间抽处理由于在通信线路中的代码传输错误而在自适应声源中发生错误时,也对驱动声源发生影响。
另外,在文献3中,在驱动声源的生成部中包含音调滤波器时,是通过将声源位置候选集中到最初的1音调周期的区间中来得到平均的特性改善,但是,在听觉上最重要的声音的上升区间等中,反而有时帧的后半部是重要的,有时不能良好地表现帧的后半部,引起特性恶化,从而在收听的感觉上就是发生了品质恶化。
在特开平10-232696中,是通过具有多个驱动声源生成单元(噪音代码表)来实现特性改善的,但是,配置固定声源的位置候选本身没有新的结构(和文献1相同),和文献1一样,在低位速率时,将导致特性急剧的恶化。
另外,不论是文献1还是特开平10-232696,作为编码结果而得到的声源位置集中在帧的后部时,在帧的前半部,驱动声源将形成低振幅的区间,特别是像摩擦声音等那样,在自适应声源的振幅小的区间将会听到振幅的不连续感。图18是可以感觉到该不连续感的输出声音15的一例。由于帧内的驱动声源的开头位置远离帧的开头,所以,在帧开头附近发生了低振幅区间。在特开平10-232696中,通过具有用随机数列等对声源进行编码的模式,可以解决该问题,但是,将失去存储量和运算量少的代数声源的特长。
发明内容
本发明就是为了解决这样的问题而提案的,目的旨在提供即使是低位速率,品质也良好的声音编码装置和声音译码装置。
本发明的声音编码装置是一种声音编码装置,它具有驱动声源编码单元、增益编码单元和频谱包络信息编码单元,并将输入声音分为频谱包络信息和声源,对每个称为帧的指定长区间进行编码,频谱包络信息编码单元对输入声音的频谱包络信息进行编码;驱动声源编码单元包括分别具有声源位置候选在帧内的分布的偏移相互不同的声源位置表,并参照频谱包络信息,按照从声源位置表的声源位置候选中选择的声源位置和极性,对输入声音的声源进行编码的多个代数声源编码单元、从多个代数声源编码单元中选择编码畸变最小的代数声源编码单元,并输出选择信息和表示所选择的代数声源编码单元输出的声源位置的代码与极性的选择单元;增益编码单元根据上述驱动声源和频谱包络信息,选择增益代码;其特征在于:上述多个代数声源编码单元中的至少1个使声源位置表的声源位置候选在当前帧内的分布的偏移偏向于该帧的前部而分布。
本发明还提供了一种声音编码装置,它具有驱动声源编码单元、增益编码单元和频谱包络信息编码单元,并将输入声音分为频谱包络信息和声源,对每个称为帧的指定长区间进行编码,频谱包络信息编码单元对输入声音的频谱包络信息进行编码;驱动声源编码单元包括分别具有声源位置候选在帧内的分布的偏移相互不同的声源位置表,并参照频谱包络信息,按照从声源位置表的声源位置候选中选择的声源位置和极性,对输入声音的声源进行编码的多个代数声源编码单元、从多个代数声源编码单元中选择编码畸变最小的代数声源编码单元,并输出选择信息和表示所选择的代数声源编码单元输出的声源位置的代码与极性的选择单元;增益编码单元根据上述驱动声源和频谱包络信息,选择增益代码;其特征在于:上述多个代数声源编码单元中的至少1个使声源位置表的声源位置候选在当前帧内的分布偏移偏向于当前帧的后部而分布。
本发明还提供了一种声音译码装置,它具有驱动声源译码单元、增益译码单元、频谱包络信息译码单元和合成滤波器,并按每个称为帧的指定长区间,对分为频谱包络信息和声源进行编码的声音代码进行译码,频谱包络信息译码单元根据声源代码,对频谱包络信息进行译码,并设定合成滤波器的系数;驱动声源译码单元包括分别具有声源位置候选在帧内分布的偏移相互不同的声源位置表,并根据表示声源代码中的声源位置的代码,选择声源位置候选中的声源位置,使用该声源位置和上述极性,对声源进行译码的多个代数声源译码单元和向多个代数声源译码单元中的1个输出表示声音代码中的声源位置的代码和极性的切换单元;增益译码单元输出与增益代码对应的增益矢量,对声源乘以增益矢量;合成滤波器使用由频谱包络信息译码单元设定的系数,从乘以了增益矢量的声源生成输出声音;其特征在于:上述多个代数声源译码单元具有的多个声源位置候选中的至少1个偏向于当前帧的前部而分布。
本发明的另一个方面,提供了一种声音译码装置,它具有驱动声源译码单元、增益译码单元、频谱包络信息译码单元和合成滤波器,并按每个称为帧的指定长区间,对分为频谱包络信息和声源进行编码的声音代码进行译码,频谱包络信息译码单元根据声源代码,对频谱包络信息进行译码,并设定合成滤波器的系数;驱动声源译码单元包括分别具有声源位置候选在帧内分布的偏移相互不同的声源位置表,并根据表示声源代码中的声源位置的代码,选择声源位置候选中的声源位置,使用该声源位置和上述极性,对声源进行译码的多个代数声源译码单元和向多个代数声源译码单元中的1个输出表示声音代码中的声源位置的代码和极性的切换单元;增益译码单元输出与增益代码对应的增益矢量,对声源乘以增益矢量;合成滤波器使用由频谱包络信息译码单元设定的系数,从乘以了增益矢量的声源生成输出声音;其特征在于:上述多个代数声源译码单元具有的多个声源位置候选中的至少1个偏向于当前帧的后部而分布。
按照本发明的声音编码装置,具有使用帧内的分布的偏移相互不同的声源位置候选的多个代数声源编码单元,并选择编码畸变最小的代数声源编码单元,所以,具有使用适合于输入声音的声源位置候选进行编码、即使是低位速率,也可以提供品质良好的声音编码装置。
另外,由于使用固定的声源位置候选,所以,具有对通信线路的代码传输错误抑制仍维持一定程度下,获得特性改善的效果。即使在将自适应的声源位置导入一部分区域时,选择使用其余的固定的声源位置后补的代数声源编码时,也可在很大程度上忘却传输错误的影响,具有对通信线路的代码传输错误抑制仍维持一定程度下,能够获得特性改善的效果。
另外,按照本发明的声音编码装置或声音译码装置,通过使上述多个声源位置候选内的至少1个分布偏向于当前帧的前部,可以用比较稳定的母音部等选择使用该偏向于前部分布的声源位置候选的代数声源编码单元和代数声源译码单元,良好地进行编码和译码,在使用该偏向于前部分布的声源位置候选,不能良好地进行编码译码的帧中,选择其他的代数声源编码单元和代数声源译码单元,可以进行不是非常恶化的编码和译码,所以,即使是低位速率,也可以提供品质良好的声音编码装置和声音译码装置。
与在帧均等地准备声源位置候选的现有结构相比,利用使用偏向于帧的前部分布的声源位置候选的代数声源编码单元,可以获得平均的特性改善。并且,与将声源位置候选集中在1音调周期的区间的现有结构相比,利用其他的代数声源编码单元,也可以获得能够抑制在上升部分等的品质恶化的效果。这样,便特别具有改善听觉上的品质的效果。
另外,按照本发明的声音编码装置或声音译码装置,通过使上述多个声源位置候选中的至少1个分布偏向于当前帧的后部,在声音的上升部分等,选择使用偏向于后部分布的声源位置候选的代数声源编码单元和代数声源译码单元,可以良好地进行编码和译码,在使用偏向于后部分布的声源位置候选,不能良好地进行编码译码的帧中,选择其他的代数声源编码单元和代数声源译码单元,可以进行不是非常恶化的编码和译码,所以,即使是低位速率,也可以提供品质良好的声音编码装置和声音译码装置。
与在帧内均等地准备声源位置候选的现有结构相比,利用使用偏向于帧的后部分布的声源位置候选的代数声源编码单元,可以获得能够抑制在上升部分等的品质恶化的效果。这样,便具有改善听觉上的品质的效果。
另外,按照本发明的声音编码装置,具有按照从帧内的分布偏移相互不同的声源位置候选中选择的声源位置和极性,对声源进行编码的多个代数声源编码单元,至少1个代数声源编码单元预先从帧开头开始的很少的取样范围内选择1个以上的声源位置,用以选择该多个代数声源编码单元中的1个,所以,可以使用适合于输入声音的声源位置候选进行编码,即使是低位速率,也可以提供品质良好的声音编码装置。
另外,按照本发明的声音编码装置,通过将各代数声源编码单元使用的至少1个声源位置候选中的对1个声源的位置候选限定在从帧开头开始的很少的取样范围内,可以不失去存储量和运算量少的代数声源的特长,用简单的结构实现消除上述不连续感。
另外,按照本发明的声音编码装置和声音译码装置,通过根据表示输入声音的特征的频谱包络信息,进行代数声源编码单元的选择、根据表示输入声音的特征的频谱包络信息或从声音编码装置输入的选择信息,进行代数声源译码单元的选择,可以判断像摩擦声音那样容易发生不连续感的帧,从而可以将除此以外的帧的品质恶化抑制到最小,实现消除上述不连续感。
另外,按照本发明的声音编码装置,作为频谱包络信息,通过使用以前得到的已编码的线性预测系数等声音编码装置的输出,不传送选择信息,就可以实现,所以,不会导致传送信息量的增加,从而可以提供仍然以低位速率,消除不连续感的品质良好的声音编码装置。
按照本发明的声音编码装置,仅在表示输入声音的特征的指定的参量满足指定的条件时,才对声源位置的组合加以限制,进行探索,所以,通过将作为编码结果而得到的声源位置集中在帧的一部分区域等,驱动声源的振幅变化增大,从而可以解决像摩擦声音等那样在自适应声源的振幅小的区间中听到不连续感的问题。具有不失去存储量和运算量少的代数声源的特长而可以解决问题的效果。
按照本发明的语音编码装置,作为声源位置的组合的限制,从帧开头开始的少的取样范围内,选择1个以上的声源位置,所以,通过将作为编码结果而得到的声源位置集中在帧的后部,在帧的前半部驱动声源形成低振幅的区间,具有能够消除如摩擦声音等那样在自适应声源振幅小的区间听到振幅的不连续感的问题的效果。从而具有不失去存储量和运算量少的代数声源的优点而可以解决问题的效果。
按照本发明的声音编码装置,利用声源位置的组合的限制,将声源分散地配置在帧内,所以,在整个帧内可以解决像摩擦声音等那样在自适应声源的振幅小的区间听到振幅的不连续感的问题。从而具有不失去存储量和运算量少的代数声源的特长而可以解决问题的效果。
另外,按照本发明的声音编码装置,通过将上述指定取样范围取在帧开头,可以最良好地抑制帧开头发生低振幅区间。
另外,按照本发明的声音译码装置,具有使用帧内的分布的偏移相互不同的声源位置候选的多个代数声源译码单元,根据选择信息,使用其中的1个,对声源进行译码,所以,使用最适合于输入声音而选择的声源位置候选进行译码,即使是低位速率,也可以提供品质良好的声音译码装置。
另外,由于使用固定的声源位置候选,所以,具有对通信线路的代码传输错误抑制仍维持一定程度下,能够获得特性改善的效果。即使在将自适应的声源位置候选导入一部分区域时,选择使用其余的固定的声源位置候选的代数声源编码单元时,也可以在很大程度上忘却传输错误的影响,具有对通信线路的代码传输错误抑制仍维持一定程度下,能够获得特性改善的效果。
另外,按照本发明的声音译码装置,具有使用帧内的分布的偏移相互不同的声源位置候选的多个代数声源译码单元,至少1个代数声源译码单元预先从帧开头开始的很少的取样范围内选择1个以上的声源位置,使用该多个代数声源译码单元中的1个,对声源进行译码,所以,可以使用最适合于输入声音而选择的声源位置候选进行译码,即使是低位速率,也可以提供品质良好的声音译码装置。
附图说明
图1是本发明实施例1的声音编码装置的驱动声源编码单元的结构图。
图2是本发明实施例1的声音译码装置的驱动声源译码单元的结构图。
图3是实施例1使用的声源位置表的说明图。
图4是实施例1的驱动声源编码单元的输出说明图。
图5是实施例2使用的声源位置表的说明图。
图6是实施例2的驱动声源编码单元的输出说明图。
图7是本发明实施例3的声音编码装置的驱动声源编码单元的结构图。
图8是本发明实施例3的声音译码装置的驱动声源译码单元的结构图。
图9是实施例3使用的第2声源位置表的说明图。
图10是实施例3的输出声音的说明图。
图11是本发明实施例4的声音编码装置的驱动声源编码单元的结构图。
图12是第1带限制的代数声源编码单元和第1声源位置表部分的结构图。
图13是实施例4的输出声音的说明图。
图14是实施例5的限制单元的说明图。
图15是现有的CELP系声音编码装置的总体结构图。
图16是现有的CELP系声音译码装置的总体结构图。
图17是现有的在文献1中使用的脉冲声源的说明图。
图18是可以感觉到现有装置的不连续感的输出声音的说明图。
下面,参照附图说明本发明的实施例。
实施例1.
图1表示本发明的声音编码装置的驱动声源编码单元5的结构。声音编码装置的总体结构和图15相同。图中,16是第1代数声源编码单元、17是第1声源位置表、18是第2代数声源编码单元、19是第2声源位置表、20是选择单元。
第1声源位置表17在帧内具有均等的位置分布,第2声源位置表19则是位置分布在帧内的前半部。
图2表示本发明的声音译码装置的驱动声源译码单元12的结构。声音译码装置的总体结构和图16相同。图中,21是切换单元、22是第1代数声源译码单元、23是第2代数声源译码单元。
下面,根据图说明其动作。
首先,说明声音编码装置。来自自适应声源编码单元4的编码对象信号和来自线性预测分析单元2的已编码的线性预测系数输入第1代数声源编码单元16和第2代数声源编码单元18。
在第1代数声源编码单元16中,顺序读出第1声源位置表17存储的声源的位置候选,在各位置生成按适当的极性形成脉冲时的暂时的合成音,计算与编码对象信号的距离,探索使该距离为最小的声源位置和极性。并且,将最小的距离和表示这时的声源位置的声源位置代码和极性向选择单元20输出。
在第2代数声源编码单元18中,顺序读出第2声源位置表19存储的声源的位置候选,在各位置生成按适当的极性形成脉冲时的暂时的合成音,计算与编码对象信号的距离,探索使该距离为最小的声源位置和极性。并且,将最小的距离和表示这时的声源位置的声源位置代码和极性向选择单元20输出。
这两个代数声源编码单元的探索动作和文献1或特开平10-232696中记载的驱动声源编码单元一样。另外,如文献3所示的那样,在驱动声源的生成部的最后级导入了音调滤波器。即在各声源位置对配置了脉冲或固定声源的信号进行音调滤波后作为声源,生成与其对应的暂时的合成音。并且,计算各声源位置的暂时的合成音之间的相关关系和各声源位置的暂时的合成音与编码对象声音的相关关系,使用这些相关关系,快速地进行各位置的极性的决定和位置探索。结果,便可得到多个声源位置和它们的极性。各声源位置变换为与声源位置表中的顺序对应的代码,作为最终的声源位置代码而输出。
图3是表示声源编码的帧长度为80点时使用的声源位置表的一例的图。分别具有4个声源位置设定,代数声源编码单元从各声源位置设定中逐个进行选择。图3(a)是第1声源位置表17的一例,图3(b)是第2声源位置表19的一例。该第1声源位置表17分别是图15所示的文献1的声源位置表的声源位置的2倍。即每隔1个取样设置声源位置候选。与此相反,第2声源位置表19则与图15所示的文献1的声源位置表完全相同。结果,就仅将声源帧的前半部的位置设定为声源位置候选。即对声源帧的后半部不设定声源位置候选。
使用图3所示的声源位置表时,在第1代数声源编码单元16中,限制每隔1个取样的位置,但在整个帧内可以均等地选择4个声源位置。在第2代数编码单元18中,只能在帧前半部选择声源位置,但是,在音调周期小于40取样时,用4个位置信息就可以良好地表现包含帧内最初的1音调周期的范围的前半部的区间。
并且,选择单元20将上述第1代数声源编码单元16输出的最小距离和上述第2代数声源编码单元18输出的最小的距离进行比较,选择输出小的距离的代数声源编码单元,并输出该选择信息和所选择的代数声源编码单元输出的声源位置代码和极性。该声源位置代码和极性就成为驱动声源编码单元5的输出。
图4是说明选择单元20的选择结果的说明图。图中,上部表示编码对象声音,下部表示作为驱动声源编码单元5的编码结果而得到的脉冲位置和极性。如果编码对象声音是稳定的,如在文献3中说明的那样,将声源位置集中在帧开头的1音调周期内的方式编码畸变小,所以,选择使用具有偏向于前分布的声源位置候选的第2驱动声源编码单元。另一方面,在编码对象声音变化大的区间中,就选择使用适合于表现帧内逐点微小的波形变化的均等分布的声源位置候选的第1驱动声源编码单元。
下面,说明声音译码装置的动作。驱动声源译码单元12内的切换单元21在输入选择信息、声源位置代码和极性时,按照选择信息,向第1代数声源译码单元22和第2代数声源译码单元23中的一方输出上述声源位置代码和极性。
第1代数声源译码单元22从第1声源位置表17(和第1代数声源编码单元16的第1声源位置表17相同)中读出与声源位置代码对应的声源位置,并输出对向该声源位置配置赋予上述极性的脉冲或固定声源的信号进行音调滤波而得到的声源。即使用图3(a)所示的第1声源位置表17时,输出向与3个声源位置代码对应的3个位置分别配置脉冲或固定声源,并进行音调滤波后而得到的声源。
第2代数声源译码单元23从第2声源位置表19(和第2代数声源编码单元18的第2声源位置表19相同)中读出与声源位置代码对应的声源位置,并输出对向该声源位置配置赋予上述极性的脉冲或固定声源的信号进行音调滤波而得到的声源。即使用图3(b)所示的第2声源位置表19时,输出向与4个声源位置代码对应的4个位置分别配置脉冲和固定声源,并进行音调滤波后而得到的声源。
并且,由切换单元21将声源位置代码和极性输入第1代数声源译码单元22或第2代数声源译码单元23的一方,所以,该输入一方的代数声源译码单元输出的声源就成为最终的驱动声源译码单元12的输出。
在上述实施例中,是将音调滤波器导入驱动声源的生成部,但是,也可以采用将其仅导入驱动声源译码单元12,或驱动声源编码单元5和驱动声源译码单元12都不导入的结构。
另外,也可以通过切换开关,将第1声源位置表17和第2声源位置表19与第1代数声源编码单元16连接,而省去第2代数声源编码单元18。同样,也可以通过切换开关,将第1声源位置表17和第2声源位置表19与第1代数声源译码单元22连接,而省去第2代数声源译码单元23。
另外,也可以将声源位置表追加N-2个(N大于3),进行N种代数声源编码,选择单元20选择其中可以得到最小距离的声源位置表,并输出选择信息,切换单元21根据选择信息,使用N种声源位置表中的1个进行代数声源译码。
此外,也可以在第2声源位置表19中,按音调周期,使用自适应的声源位置候选,进一步获得特性改善。
另外,也可以使用LSP等其他频谱参量来取代线性预测系数。
另外,在子音部或声音的上升区间等过渡部等的自适应声源的效率差的区间,去掉自适应声源编码单元和自适应声源译码单元,仅用驱动声源和增益进行编码也是有效的。这时,最好设置使用自适应声源的模式和不使用的模式,根据声音的状态,选择1个模式使用。另外,即使编码信息量充分时,也可以去掉自适应声源编码单元和自适应声源译码单元,而仅用驱动声源和增益进行编码。
按照实施例1,具有使用帧内的分布偏移相互不同的声源位置候选的多个代数声源编码单元,并选择编码畸变最小的代数声源编码单元,所以,使用适合于输入声音的声源位置候选进行编码,即使是低位速率,也可以提供品质良好的声音编码装置。
另外,按照实施例1,具有使用帧内的分布偏移相互不同的声源位置候选的多个代数声源译码单元,根据选择信息,使用其中的1个,对声源进行译码,所以,使用最适合于输入声音而选择的声源位置候选进行译码,即使是低位速率,也可以提供品质良好的声音译码装置。
另外,由于使用了固定的声源位置候选,所以,具有对通信线路的代码传输错误抑制仍维持一定程度下,能够获得特性改善的效果。即使在一部分导入自适应的声源位置候选时,选择使用其余的固定的声源位置候选的代数声源编码时,也可以在很大程度上忘却传输错误的影响,具有对通信线路的代码传输错误抑制仍维持一定程度下,能够获得特性改善的效果。
此外,上述多个声源位置候选中的至少1个通过采用其分布偏向于当前帧的前部的分布,在比较稳定的母音部等,选择使用偏向于该前部的分布的声源位置候选的代数声源编码单元和代数声源译码单元,可以良好地进行编码和译码(在文献3中,说明了在驱动声源的生成部中包含音调滤波器时,有容易选择最初的1音调周期的区间的声源位置的倾向),在使用偏向于该前部分布的声源位置候选,不能良好地进行编码译码的帧中,选择别的代数声源编码单元和代数声源译码单元,可以进行不是非常恶化的编码和译码,所以,即使是低位速率,也可以提供品质良好的声音编码装置和声音译码装置。
与在帧内均等地准备声源位置候选的现有结构相比,通过使用偏向于帧的前部分布的声源位置候选的代数声源编码单元,可以获得平均的特性改善。并且,与将声源位置候选集中在1音调周期的区间中的现有结构相比,利用别的代数声源编码单元,也可以获得能够抑制上升部分等的品质恶化的效果。这样,便特别具有改善听觉上的品质的效果。
实施例2.
图5是表示声源编码的帧长度为80点时使用的声源位置表的其他一例的图。
图5(a)是第1声源位置表17,图5(b)是第2声源位置表19。该第1声源位置表17和图3(a)一样,分别为图17所示的文献1的声源位置表的声源位置的2倍。即每隔1个取样设定声源位置候选。与此相反,第2声源位置表19则是在图17所示的文献1的声源位置表的各位置值上加上40。结果,就仅将声源帧的后半部的位置设定为声源位置候选。即对声源帧的前半部不设定声源位置候选。
使用这些声源位置表的驱动声源编码单元5和驱动声源译码单元12的结构与图1和图2所示的相同,各单元的动作相同,所以,省略其说明。
使用图5所示的声源位置表时,在第1代数声源编码单元16中,可以选择4个限制在每隔1个取样的位置,但在整个帧内均等地分布的声源位置。在第2代数声源编码单元18中,只能在帧后半部选择声源位置,但是,在声音的上升区间等重要的信息仅集中在后半部时,可以得到良好的编码结果。
图6是说明选择单元20的选择结果的说明图。图中,上部表示编码对象声音,下部表示作为驱动声源编码单元5的编码结果而得到的脉冲位置和极性。编码对象声音在声音的上升区间等振幅集中在帧的后半部时,选择使用具有偏向于后部分布的声源位置候选的第2驱动声源编码单元。在除此以外的区间,选择使用可以表现整个帧内的均等分布的声源位置候选的第1驱动声源编码单元。
此外,也可以将声源位置表追加N-2个(N大于3),进行N种代数声源编码,选择单元20选择其中可以得到最小的距离的声源位置表,并输出选择信息,切换单元21根据选择信息使用N种声源位置表中的1个进行代数声源译码。另外,也可以将使声源位置集中在图3(b)所示帧前半部的表作为第1声源位置表使用。
另外,也可以和实施例1一样,去掉自适应声源编码单元和自适应声源译码单元,而仅用驱动声源和增益进行编码。
按照实施例2,具有使用帧内的分布的偏移相互不同的声源位置候选的多个代数声源编码单元,并选择编码畸变最小的代数声源编码单元,所以,和实施例1一样,使用适合于输入声音的声源位置候选进行编码,即使是低位速率,也可以提供品质良好的声音编码装置。
另外,按照实施例2,具有使用帧内的分布的偏移相互不同的声源位置候选的多个代数声源译码单元,根据选择信息,使用其中的1个,对声源进行译码,所以,和实施例1一样,使用选择的最适合于输入声音的声源位置候选进行译码,即使是低位速率,也可以提供品质良好的声音译码装置。
另外,由于使用固定的声源位置候选,所以,具有对通信线路的代码传输错误抑制仍维持一定程度下,能够获得特性改善的效果。即使在一部分导入自适应的声源位置候选时,选择使用其余的固定的声源位置候选的代数声源编码时,也可以在很大程度上忘却传输错误的影响,具有对通信线路的代码传输错误抑制仍维持一定程度下,能够获得特性改善的效果。
此外,上述多个声源位置候选中的至少1个其分布偏向于当前帧的后部,在声音的上升部分等选择使用该偏向于后部分布的声源位置候选的代数声源编码单元和代数声源译码单元,可以良好地进行编码和译码,而在使用偏向于后部分布的声源位置候选不能良好地进行编码译码的帧,选择别的代数声源编码单元和代数声源译码单元,可以进行不是非常恶化的编码译码,所以,即使是低位速率,也可以提供品质良好的声音编码装置和声音译码装置。
与在帧内均等地准备声源位置候选的现有结构相比,使用偏向于帧的后部分布的声源位置候选的代数声源编码单元,可以获得能够抑制上升部分等的品质恶化的效果。这样,便特别具有改善听觉上的品质的效果。
实施例3.
图7表示本发明的声音编码装置的驱动声源编码单元5的结构。声音编码装置的总体结构和图15相同。图中,16是第1代数声源编码单元,17是第1声源位置表,18是第2代数声源编码单元,19是第2声源位置表,24是判断单元,25是选择单元。
图8表示本发明的声音译码装置的驱动声源译码单元12的结构。声音译码装置的总体结构和图16相同,唯一不同的是线性预测系数译码单元10的输出供给驱动声源译码单元5也供给驱动声源译码单元12。图中,26是切换单元、22是第2代数声源译码单元、23是第2代数声源译码单元。
下面,根据附图说明其动作。
首先,在声音编码装置中,编码对象信号和已编码的线性预测系数输入判断单元24和选择单元25。
在判断单元24中,分析已编码的线性预测系数,判断当前的帧是否具有摩擦声音的特征,并将判断结果向选择单元25输出。摩擦声音的情况,多数是具有频谱平坦或高频倾斜的特征,另外,线性预测系数的预测增益小。因此,分析已编码的线性预测系数,在具有这两者的特征时,就判定当前的帧是摩擦声音的帧。
选择单元25在上述判断结果不是摩擦声音的帧时,就向第1代数声源编码单元16输出编码对象信号和已编码的线性预测系数。在上述判断结果是摩擦声音的帧时,就向第2代数声源编码单元18输出编码对象信号和已编码的线性预测系数。
在第1代数声源编码单元16中,顺序读出第1声源位置表17存储的声源的位置候选,在各位置生成按适当的极性形成脉冲时的暂时的合成音,计算与编码对象信号的距离,探索使该距离为最小的声源位置和极性。并且,输出表示这时的声源位置的声源位置代码和极性。
在第2代数声源编码单元18中,顺序读出第2声源位置表19存储的声源的位置候选,在各位置生成按适当的极性形成脉冲时的暂时的合成音,计算与编码对象信号的距离,探索使该距离为最小的声源位置和极性。并且,输出表示这时的声源位置的声源位置代码和极性。
第1代数声源编码单元16或第2代数声源编码单元18输出的声源位置代码和极性就成为驱动声源编码单元5的输出。
图9是表示声源编码的帧长度为80点时使用的第2声源位置表19的一例的图。对于第1声源位置表,使用和图3(a)相同的表。该第2声源位置表19将声源号码1的脉冲位置候选限定在帧开头。有效地灵活使用不需要传送声源号码1的位置信息的信息位,增加1个声源。
通过使用图9所示的第2声源位置表19,第2代数声源编码单元18总是输出表示包含帧的开头的声源位置的5个声源位置的代码和极性。
在声音译码装置中,驱动声源译码单元12内的判断单元24的结构和驱动声源编码单元5内的判断单元相同,分析线性预测系数译码单元10输出的线性预测系数,判断当前的帧是否具有摩擦声音的特征,并将判断结果向切换单元26输出。
切换单元26在输入判断单元24的判断结果、声源位置代码和极性时,根据判断结果,向第1代数声源译码单元22和第2代数声源译码单元23中的一方输出上述声源位置代码和极性。在判断结果不是摩擦声音的帧时,就向第1代数声源译码单元22输出,在判断结果是摩擦声音的帧时,就向第2代数声源译码单元23输出。
第1代数声源译码单元22从第1声源位置表17(和第1代数声源编码单元16的第1声源位置表17相同)中读出与声源位置代码对应的声源位置,输出对向该声源位置配置赋予上述极性的脉冲或固定声源的信号进行音调滤波而得到的声源。即使用图3(a)所示所第1声源位置表17时,输出向与4个声源位置代码对应的4个位置分别配置脉冲或固定声源并进行音调滤波而得到的声源。
第2代数声源译码单元23从第2声源位置表19(和第2代数声源编码单元18的第2声源位置表19相同)中读出与声源位置代码对应的声源位置,输出对向该声源位置配置赋予上述极性的脉冲或固定声源的信号进行音调滤波而得到的声源。即使用图7所示的第2声源位置表19时,输出向包含帧开头的5个位置分别配置脉冲或固定声源,并进行音调滤波而得到的声源。
并且,第1代数声源译码单元22或第2代数译码单元23输出的声源就成为最终的驱动声源译码单元12的输出。
图10是使用从驱动声源译码单元12输出的声源而得到的输出声音15的一例。在判定为是摩擦声音的帧中,由于一定将声源配置到帧的开头,所以,不会发生图18所示的现有的那样的低振幅区间。
在上述实施例中,是将音调滤波器导入驱动声源的生成部,但是,也可以采用将其仅导入驱动声源译码单元12,或驱动声源编码单元5和驱动声源译码单元12都不导入的结构。
另外,也可以通过切换开关,将第1声源位置表17和第2声源位置表19与第1代数声源编码单元16连接,而省去第2代数声源编码单元18。同样,也可以通过切换开关将第1声源位置表17和第2声源位置表19与第1代数声源译码单元22连接,而省去第2代数声源译码单元23。
另外,也可以将声源位置表追加N-2个(N大于3),根据驱动声源编码单元5内的判断单元24的判断结果,进行代数声源编码的选择,并根据驱动声源译码单元12内的判断单元24的判断结果,使用N种声源位置表中的1个,进行代数声源译码。
此外,作为由判断单元24进行分析的参量,除了已编码的线性预测系数外,也可以使用功率信息等其他的编码信息或者将它们组合。另外,也可以使用LSP等其他的频谱参量来取代线性预测系数。
另外,毫无疑问,即使是摩擦声音以外的声音,例如是背景噪音等,将声源配置在开头附近的配置方式对于品质变好的输入,也可以设定为使用第2声源位置表以便判断单元24进行判断。
另外,和实施例1一样,也可以去掉自适应声源编码单元和自适应声源译码单元,而仅用驱动声源和增益进行编码。
按照实施例3,具有按照从帧内的分布偏移相互不同的声源位置候选中选择的声源位置和极性对声源进行编码的多个代数声源编码单元,至少1个代数声源编码单元预先从帧开头开始的很少的取样范围内选择1个以上的声源位置,用以选择该多个代数声源编码单元中的1个,所以,可以使用适合于输入声音的声源位置候选进行编码,即使是低位速率,也可以提供品质良好的声音编码装置。
特别是,通过将作为编码结果而得到的声源位置集中在帧的后部,在帧的前半部驱动声源形成低振幅的区间,从而可以解决像摩擦声音等那样在自适应声源的振幅小的区间听到振幅的不连续感的问题。具有不失去存储量和运算量少的代数声源的特长而又可以解决问题的效果。
另外,按照实施例3,具有使用帧内的分布偏移相互不同的声源位置候选的多个代数声源译码单元,至少1个代数声源编码单元预先从帧开头开始的很少的取样范围内选择1个以上的声源位置,使用该多个代数声源译码单元中的1个,对声源进行译码,所以,和实施例1一样,可以使用最适合于输入声音而选择的声源位置候选进行译码,即使是低位速率,也可以提供品质良好的声音译码装置。
特别是,通过译码后的声源位置集中在帧的后部,在帧的前半部,驱动声源形成低振幅的区间,从而可以解决像摩擦声音等那样在自适应声源的振幅小的区间听到振幅的不连续感的问题。具有不失去存储量和运算量少的代数声源的特长而又可以解决问题的效果。
另外,通过将对各代数声源编码单元和各代数声源译码单元使用的至少1各声源位置候选中的1各声源的位置候选限定在从帧开头开始的很少的取样范围内,具有不完全失去存储量和运算量少的代数声源的特长而可以用简单的结构实现解决上述不连续感的效果。
此外,通过根据表示输入声音的特征的指定的参量(线性预测系数等),进行代数声源编码单元的选择、根据表示输入声音的特征的指定的参量(线性预测系数等)或从声音编码装置输入的选择信息,进行代数声源译码单元的选择,具有判断像摩擦声音那样容易发生不连续感的帧而将除此以外的帧的品质恶化抑制到最小,从而可以实现解决上述不连续感的效果。
另外,作为指定的参量,通过使用以前得到的已编码的线性预测系数等声音编码装置的输出,不传送选择信息,就可以实现,所以,不会导致传送信息量的增加,从而可以提供仍然以低位速率,解决不连续感的品质良好的声音编码装置。
另外,通过将上述指定取样范围仅取在帧开头,可以最大限度地抑制帧开头发生低振幅区间。
实施例4.
图11表示本发明的声音编码装置的驱动声源编码单元5的结构,总体结构和图15相同。图中,27是第1代数声源编码单元、17是第1声源位置表、28是第2代数声源编码单元、19是第2声源位置表、24是判断单元、20是选择单元。
下面,根据图说明其动作。
首先,编码对象信号和已编码的线性预测系数输入判断单元24、第1带限制的代数声源编码单元27和第2带限制的代数声源编码单元28。
在判断单元24中,分析已编码的线性预测系数,判断当前的帧是否具有摩擦声音的特征,并将判断结果向第1带限制的代数声源编码单元27和第2带限制的代数声源编码单元28输出。
该判断单元的判断方法可以使用和实施例3相同的方法。即摩擦声音的情况,多数是频谱具有平坦或高频倾斜的特征,并且线性预测系数的预测增益小。因此,分析已编码的线性预测系数,在具有这两者的特征时,就判定当前的帧是摩擦声音的帧。
此外,作为在判断单元24中进行分析的参量,除了已编码的线性预测系数外,也可以使用功率信息等其他的编码信息或者将它们组合。另外,也可以使用LSP等其他的频谱参量来取代线性预测系数。
在第1带限制的代数声源编码单元27中,在上述判断单元24的判断结果不是摩擦声音的帧时,就顺序读出第1声源位置表17存储的声源的位置候选,在各位置生成按适当的极性形成脉冲时的暂时的合成音,计算与编码对象信号的距离,探索使该距离为最小的声源位置和极性。并且,将最小的距离和表示这时的声源位置的声源位置代码和极性向选择单元20输出。
在上述判断结果是摩擦声音的帧时,就从第1声源位置表17存储的声源的位置候选的组合中顺序读出1个以上的声源位置仅位于从帧开头开始的N个取样范围内的声源的位置候选,在各位置生成按适当的极性形成脉冲时的暂时的合成音,计算与编码对象信号的距离,探索使该距离为最小的声源位置和极性。并且,就最小的距离和表示这时的声源位置的声源位置代码和极性向选择单元20输出。N的值设定为对解决不连续声音有效的小的值(约数个取样)。
在第2带限制的代数声源编码单元28中,在上述判断结果不是摩擦声音的帧时,就顺序读出第2声源位置表19存储的声源的位置候选,在各位置生成按适当的极性形成脉冲时的暂时的合成音,计算与编码对象信号的距离,探索使该距离为最小的声源位置和极性。并且,将最小的距离和表示这时的声源位置的声源位置代码和极性向选择单元20输出。
在上述判断结果是摩擦声音的帧时,就从第2声源位置表19存储的声源的位置候选的组合中顺序读出1个以上的声源位置位于从帧开头开始的N个取样范围内的声源的位置候选,在各位置生成按适当的极性形成脉冲时的暂时的合成音,计算与编码对象信号的距离,探索使该距离为最小的声源位置和极性。并且,将最小的距离和表示这时的声源位置的声源位置代码和极性向选择单元20输出。
并且,选择单元20将上述第1带限制的代数声源编码单元27输出的最小的距离与上述第2带限制的代数声源编码单元28输出的最小的距离进行比较,选择输出小的距离的带限制的代数声源编码单元,并输出该选择信息和所选择的带限制的代数声源编码单元输出的声源位置代码和极性。该声源位置代码和极性就成为驱动声源编码单元5的输出。
图12是说明第1带限制的代数声源编码单元27和第1声源位置表17的部分的详细结构的图。图中,16是具有和实施例1相同结构的第1代数声源编码单元、29是限制单元。
编码对象信号和已编码的线性预测系数输入第1代数声源编码单元16。另外,判断单元24输出的判断结果输入限制单元29。
从第1声源位置表17向第1带限制的代数声源编码单元27内的限制单元29顺序输出声源的位置候选的组合。限制单元29在上述判断结果是摩擦声音的帧时,将1个以上的声源位置仅位于从帧开头开始的N个取样范围内的声源位置候选的组合顺序向第1代数声源编码单元16输出。限制单元29在上述判断结果不是摩擦声音的帧时,将输入的声源的位置候选的组合全部顺序向第1代数声源编码单元16输出。
并且,在第1代数声源编码单元16中,根据从限制单元29输入的声源的位置候选的各组合,在各位置生成按适当的极性形成脉冲时的暂时的合成音,计算与编码对象信号的距离,探索使该距离为最小的声源位置和极性。并且,将最小的距离和表示这时的声源位置的声源位置代码和极性向选择单元20输出。
第2带限制的代数声源编码单元28也是同样的结构。
与驱动声源编码单元5对应的译码处理可以使用和在实施例1中用图2说明的驱动声源译码单元12相同的译码处理。
图13是使用驱动声源编码单元5时最终得到的输出声音15的一例。在判定为是摩擦声音的帧中,由于一定将声源配置在从帧的开头开始的N个取样内,所以,在很大程度上不会发生图18所示的现有的那样的低振幅区间。
另外,也可以通过切换开关,将第1声源位置表17和第2声源位置表19与第1带限制的代数声源编码单元27连接,而省去第2带限制的代数声源编码单元28。
另外,也可以将声源位置表追加N-2个(N大于3),进行N种带限制的代数声源编码,选择单元20选择其中可以得到最小距离的声源位置表,并输出选择信息,切换单元21根据选择信息使用N种声源位置表中的1个,进行代数声源译码。
另外,也可以和实施例1一样,去掉自适应声源编码单元和自适应声源译码单元,而仅用驱动声源和增益进行编码。
另外,即使像现有结构那样代数声源探索单元是1个时,也可以将其作为上述带限制的代数声源编码单元。
按照实施例4,由于仅在表示输入声音的特征的指定的参量满足指定的条件时,才对声源位置的组合加以限制,进行探索,所以,作为编码结果而得到的声源位置通过集中在帧的一部分区域等,使驱动声源的振幅变化增大,可以解决像摩擦声音等那样在自适应声源的振幅小的区间听到振幅的不连续感的问题。从而具有不失去存储量和运算量少的代数声源的特长而可以解决问题的效果。
特别是,作为声源位置的组合的限制,是从帧开头的很少的取样范围内选择1个以上的声源位置,所以,通过将作为编码结果而得到的声源位置集中在帧的后部,在帧的前半部,驱动声源形成低振幅的区间,可以解决像摩擦声音等那样在自适应声源的振幅小的区间听到振幅的不连续感的问题。从而具有不失去存储量和运算量少的代数声源的特长而可以解决问题的效果。
此外,通过根据表示输入声音的特征的指定的参量(线性预测系数等),进行代数声源编码单元的选择和根据表示输入声音的特征的指定的参量(线性预测系数等)或从声音编码装置输入的选择信息,进行代数声源译码单元的选择,判断像摩擦声音那样容易发生不连续感的帧,并将除此以外的帧的品质恶化抑制到最小,从而可以解决上述并连续感的问题。
另外,作为指定的参量,通过使用以前得到的已编码的线性预测系数等声音编码装置的输出,不传送选择信息,就可以实现,所以,不会导致传送信息量的增加,从而可以提供仍然以低位速率,解决不连续感的品质良好的声音编码装置。
实施例5.
在上述实施例4中,由限制单元29将1个以上的声源位置限制为仅位于从帧开头开始的N个取样范围内,但是,也可以将帧均等分割为脉冲个数,并限制为各分割中一定各包含1个脉冲的组合。作为这时使用的声源位置表,不是图3(b)或图5(b)那样的分布的偏移,而必须是图3(a)那样的在帧内均等地分布的的情况。
图14是说明该一例的说明图。作为声源位置表,使用和图3(a)相同的表。整个帧是从位置0到79的范围。将其用脉冲数4均等分割时,如图所示,就分割为从0到19、从20到39、从40到59、从60到79。参照声源位置表,从声源号码1的位置候选中选择位置50、从声源号码2的位置候选中选择位置32、从声源号码3的候选中选择位置4、从声源号码4的位置候选中选择位置68时,就成为图14所示的4个声源位置,4个各分割中各配置1各声源位置。像这样,从各分割中一定各包含1个脉冲的组合中,对1个进行探索。
按照实施例5,仅在表示输入声音的特征的指定的参量满足指定的条件时,才对声源位置的组合加以限制而进行探索,所以,通过将作为编码结果而得到的声源位置集中在帧的一部分区域等,驱动声源的振幅变化增大,从而可以解决像摩擦声音那样在自适应声源的振幅小的区间听到振幅的不连续感的问题。具有不失去存储量和运算量少的代数声源的特长而可以解决问题的效果。
特别是利用声源位置的组合的限制,声源分散地配置在帧内,所以,在整个帧内可以解决像摩擦声音等那样在自适应声源的振幅小在区间听到振幅的不连续感的问题。从而具有不失去存储量和运算量少的代数声源的特长而可以解决问题的效果。
Claims (4)
1.一种声音编码装置,它具有驱动声源编码单元、增益编码单元和频谱包络信息编码单元,并将输入声音分为频谱包络信息和声源,对每个称为帧的指定长区间进行编码,其中,
频谱包络信息编码单元对输入声音的频谱包络信息进行编码;
驱动声源编码单元包括分别具有声源位置候选在帧内的分布的偏移相互不同的声源位置表,并参照频谱包络信息,按照从声源位置表的声源位置候选中选择的声源位置和极性,对输入声音的声源进行编码的多个代数声源编码单元、从多个代数声源编码单元中选择编码畸变最小的代数声源编码单元,并输出选择信息和表示所选择的代数声源编码单元输出的声源位置的代码与极性的选择单元;
增益编码单元根据上述驱动声源和频谱包络信息,选择增益代码;
其特征在于:上述多个代数声源编码单元中的至少1个使声源位置表的声源位置候选在当前帧内的分布的偏移偏向于该帧的前部而分布。
2.一种声音编码装置,它具有驱动声源编码单元、增益编码单元和频谱包络信息编码单元,并将输入声音分为频谱包络信息和声源,对每个称为帧的指定长区间进行编码,
频谱包络信息编码单元对输入声音的频谱包络信息进行编码;
驱动声源编码单元包括分别具有声源位置候选在帧内的分布的偏移相互不同的声源位置表,并参照频谱包络信息,按照从声源位置表的声源位置候选中选择的声源位置和极性,对输入声音的声源进行编码的多个代数声源编码单元、从多个代数声源编码单元中选择编码畸变最小的代数声源编码单元,并输出选择信息和表示所选择的代数声源编码单元输出的声源位置的代码与极性的选择单元;
增益编码单元根据上述驱动声源和频谱包络信息,选择增益代码;
其特征在于:上述多个代数声源编码单元中的至少1个使声源位置表的声源位置候选在当前帧内的分布偏移偏向于当前帧的后部而分布。
3.一种声音译码装置,它具有驱动声源译码单元、增益译码单元、频谱包络信息译码单元和合成滤波器,并按每个称为帧的指定长区间,对分为频谱包络信息和声源进行编码的声音代码进行译码,
频谱包络信息译码单元根据声源代码,对频谱包络信息进行译码,并设定合成滤波器的系数;
驱动声源译码单元包括分别具有声源位置候选在帧内分布的偏移相互不同的声源位置表,并根据表示声源代码中的声源位置的代码,选择声源位置候选中的声源位置,使用该声源位置和上述极性,对声源进行译码的多个代数声源译码单元和向多个代数声源译码单元中的1个输出表示声音代码中的声源位置的代码和极性的切换单元;
增益译码单元输出与增益代码对应的增益矢量,对声源乘以增益矢量;
合成滤波器使用由频谱包络信息译码单元设定的系数,从乘以了增益矢量的声源生成输出声音;
其特征在于:上述多个代数声源译码单元具有的多个声源位置候选中的至少1个偏向于当前帧的前部而分布。
4.一种声音译码装置,它具有驱动声源译码单元、增益译码单元、频谱包络信息译码单元和合成滤波器,并按每个称为帧的指定长区间,对分为频谱包络信息和声源进行编码的声音代码进行译码,
所述频谱包络信息译码单元根据声源代码,对频谱包络信息进行译码,并设定合成滤波器的系数;
所述驱动声源译码单元包括分别具有声源位置候选在帧内分布的偏移相互不同的声源位置表,并根据表示声源代码中的声源位置的代码,选择声源位置候选中的声源位置,使用该声源位置和上述极性,对声源进行译码的多个代数声源译码单元和向多个代数声源译码单元中的1个输出表示声音代码中的声源位置的代码和极性的切换单元;
所述增益译码单元输出与增益代码对应的增益矢量,对声源乘以增益矢量;
所述合成滤波器使用由频谱包络信息译码单元设定的系数,从乘以了增益矢量的声源生成输出声音;
其特征在于:上述多个代数声源译码单元具有的多个声源位置候选中的至少1个偏向于当前帧的后部而分布。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25286399A JP2001075600A (ja) | 1999-09-07 | 1999-09-07 | 音声符号化装置および音声復号化装置 |
JP252863/1999 | 1999-09-07 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA031424767A Division CN1475988A (zh) | 1999-09-07 | 2000-07-21 | 声音编码装置和声音译码装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1287347A CN1287347A (zh) | 2001-03-14 |
CN1135530C true CN1135530C (zh) | 2004-01-21 |
Family
ID=17243223
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB001216716A Expired - Fee Related CN1135530C (zh) | 1999-09-07 | 2000-07-21 | 声音编码装置和声音译码装置 |
CNA031424767A Pending CN1475988A (zh) | 1999-09-07 | 2000-07-21 | 声音编码装置和声音译码装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA031424767A Pending CN1475988A (zh) | 1999-09-07 | 2000-07-21 | 声音编码装置和声音译码装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6496796B1 (zh) |
EP (1) | EP1083546B1 (zh) |
JP (1) | JP2001075600A (zh) |
CN (2) | CN1135530C (zh) |
DE (1) | DE60035389T2 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3594854B2 (ja) | 1999-11-08 | 2004-12-02 | 三菱電機株式会社 | 音声符号化装置及び音声復号化装置 |
USRE43209E1 (en) | 1999-11-08 | 2012-02-21 | Mitsubishi Denki Kabushiki Kaisha | Speech coding apparatus and speech decoding apparatus |
JP2001318698A (ja) * | 2000-05-10 | 2001-11-16 | Nec Corp | 音声符号化装置及び音声復号化装置 |
WO2002071395A2 (en) * | 2001-03-02 | 2002-09-12 | Matsushita Electric Industrial Co., Ltd. | Apparatus for coding scaling factors in an audio coder |
JP4299676B2 (ja) | 2002-02-20 | 2009-07-22 | パナソニック株式会社 | 固定音源ベクトルの生成方法及び固定音源符号帳 |
JP2004157381A (ja) * | 2002-11-07 | 2004-06-03 | Hitachi Kokusai Electric Inc | 音声符号化装置及び方法 |
JP5235684B2 (ja) * | 2006-02-24 | 2013-07-10 | フランス・テレコム | 信号包絡線の量子化インデックスをバイナリ符号化する方法、信号包絡線を復号化する方法、および、対応する符号化および復号化モジュール |
MY152167A (en) * | 2007-03-02 | 2014-08-15 | Panasonic Corp | Encoding device and encoding method |
JP4764956B1 (ja) * | 2011-02-08 | 2011-09-07 | パナソニック株式会社 | 音声符号化装置及び音声符号化方法 |
TWI557727B (zh) * | 2013-04-05 | 2016-11-11 | 杜比國際公司 | 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4561102A (en) * | 1982-09-20 | 1985-12-24 | At&T Bell Laboratories | Pitch detector for speech analysis |
CA1323934C (en) * | 1986-04-15 | 1993-11-02 | Tetsu Taguchi | Speech processing apparatus |
US5754976A (en) * | 1990-02-23 | 1998-05-19 | Universite De Sherbrooke | Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech |
US5765127A (en) * | 1992-03-18 | 1998-06-09 | Sony Corp | High efficiency encoding method |
JP3557662B2 (ja) * | 1994-08-30 | 2004-08-25 | ソニー株式会社 | 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置 |
CA2159571C (en) * | 1994-09-30 | 2000-03-14 | Kimio Miseki | Vector quantization apparatus |
JP3273455B2 (ja) * | 1994-10-07 | 2002-04-08 | 日本電信電話株式会社 | ベクトル量子化方法及びその復号化器 |
JP3707154B2 (ja) * | 1996-09-24 | 2005-10-19 | ソニー株式会社 | 音声符号化方法及び装置 |
EP1217614A1 (en) * | 1996-11-07 | 2002-06-26 | Matsushita Electric Industrial Co., Ltd. | Vector quantization codebook generation method |
CN1143268C (zh) * | 1997-12-24 | 2004-03-24 | 三菱电机株式会社 | 声音编码方法、声音译码方法、声音编码装置和声音译码装置 |
US6385576B2 (en) * | 1997-12-24 | 2002-05-07 | Kabushiki Kaisha Toshiba | Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch |
-
1999
- 1999-09-07 JP JP25286399A patent/JP2001075600A/ja active Pending
-
2000
- 2000-07-20 DE DE60035389T patent/DE60035389T2/de not_active Expired - Lifetime
- 2000-07-20 EP EP00115652A patent/EP1083546B1/en not_active Expired - Lifetime
- 2000-07-20 US US09/620,564 patent/US6496796B1/en not_active Expired - Fee Related
- 2000-07-21 CN CNB001216716A patent/CN1135530C/zh not_active Expired - Fee Related
- 2000-07-21 CN CNA031424767A patent/CN1475988A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP1083546A3 (en) | 2004-03-10 |
DE60035389D1 (de) | 2007-08-16 |
US6496796B1 (en) | 2002-12-17 |
EP1083546B1 (en) | 2007-07-04 |
EP1083546A2 (en) | 2001-03-14 |
CN1475988A (zh) | 2004-02-18 |
CN1287347A (zh) | 2001-03-14 |
JP2001075600A (ja) | 2001-03-23 |
DE60035389T2 (de) | 2008-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1172294C (zh) | 音频编码装置、音频编码方法、音频解码装置及音频解码方法 | |
CN1264138C (zh) | 复制语音信号、解码语音、合成语音的方法和装置 | |
CN1202514C (zh) | 编码和解码语音及其参数的方法、编码器、解码器 | |
CN1236420C (zh) | 量化线谱对参数特征提取器及其特征提取方法 | |
CN1158648C (zh) | 语音可变速率编码方法与设备 | |
CN1252681C (zh) | 一种码激励线性预测语音编码器的增益量化 | |
CN1212606C (zh) | 处理丢失帧的语音通信系统及方法 | |
CN1248195C (zh) | 语音编码转换方法和装置 | |
CN1210690C (zh) | 音频解码器和音频解码方法 | |
CN1205097A (zh) | 声音编码装置、声音译码装置、记录实现声音编码/译码的程序的记录媒体和移动通信装置 | |
CN1220177C (zh) | 话音解码装置和编码差错补偿方法 | |
CN1154013A (zh) | 信号编码方法和装置 | |
CN1507618A (zh) | 编码设备和解码设备 | |
CN1816847A (zh) | 保真度优化的可变帧长编码 | |
CN1185625C (zh) | 语音编码方法及语音编码装置 | |
CN101036183A (zh) | 立体声兼容的多声道音频编码 | |
CN1291375C (zh) | 声信号编码方法和设备、解码方法和设备 | |
CN1222926C (zh) | 语音编码方法及其装置 | |
CN1151491C (zh) | 音频编码装置和音频编码译码装置 | |
CN1249035A (zh) | 声音编码装置、声音译码装置及声音编码译码装置、以及声音编码方法、声音译码方法及声音编码译码方法 | |
CN1135530C (zh) | 声音编码装置和声音译码装置 | |
CN1957399A (zh) | 语音/音频解码装置以及语音/音频解码方法 | |
CN1977311A (zh) | 语音编码装置、语音解码装置及其方法 | |
CN1293535C (zh) | 声音编码设备和方法以及声音解码设备和方法 | |
CN1139912C (zh) | 码激励线性预测编码型语音编码装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20040121 Termination date: 20150721 |
|
EXPY | Termination of patent right or utility model |