[go: up one dir, main page]

JP3579276B2 - 音声符号化/復号化方法 - Google Patents

音声符号化/復号化方法 Download PDF

Info

Publication number
JP3579276B2
JP3579276B2 JP36783698A JP36783698A JP3579276B2 JP 3579276 B2 JP3579276 B2 JP 3579276B2 JP 36783698 A JP36783698 A JP 36783698A JP 36783698 A JP36783698 A JP 36783698A JP 3579276 B2 JP3579276 B2 JP 3579276B2
Authority
JP
Japan
Prior art keywords
pulse
pitch
unit
vector
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP36783698A
Other languages
English (en)
Other versions
JPH11259098A (ja
Inventor
皇 天田
公生 三関
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP36783698A priority Critical patent/JP3579276B2/ja
Publication of JPH11259098A publication Critical patent/JPH11259098A/ja
Application granted granted Critical
Publication of JP3579276B2 publication Critical patent/JP3579276B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ディジタル電話、ボイスメモなどに用いられる低符号化レートの音声符号化/復号化方法に関する。
【0002】
【従来の技術】
近年、携帯電話やインターネットなどで音声や楽音を少ない情報量に圧縮して伝送、蓄積するための符号化技術として、CELP方式(Code Excited Linear Prediction ( M.R.Schroeder and B.S.Atal, ”Code Excited Linear Prediction (CELP) : High Quality Speech at Very Low Bit Rates,” Proc. ICASSP, pp.937−940, 1985(文献1)および W.S.Kleijin, D.J.Krasinski et al. ”Improved Speech Quality and Efficient Vector Quantization in SELP,” Proc. ICASSP, pp.155−158, 1988 (文献2))がよく用いられている。
【0003】
CELPは線形予測分析に基づく符号化方式であり、入力音声信号は線形予測分析によって音韻情報を表す線形予測係数と音の高さ等を表す予測残差信号に分けられる。線形予測係数を基に合成フィルタと呼ばれる再帰型のディジタルフィルタが構成され、この合成フィルタに予測残差信号が駆動信号として入力されることで、元の入力音声信号に復元できる。
【0004】
低レートで符号化するためには、合成フィルタの特性を表す合成フィルタ情報である線形予測係数と、合成フィルタを駆動する駆動信号である予測残差信号をより少ない情報量で符号化する必要がある。CELP方式では、ピッチベクトルと雑音ベクトルの2種類の信号に適当なゲインを乗じた後、足し合わせることによって、予測残差信号を符号化した信号が駆動信号として生成される。ピッチベクトルの生成方法は例えば文献2に述べられている。
【0005】
文献2の方法の他に音声立上り部(onset)で固定の符号ベクトルを用いる方法なども提案されているが本発明ではこれらをまとめてピッチベクトルと呼ぶことにする。
雑音ベクトルは通常、多数の候補を雑音符号帳に格納しておき、この中から最適なものを選ぶことによって生成される。雑音ベクトルの探索方法として、全ての雑音ベクトルをピッチベクトルと足し合わせた後に合成フィルタに通して合成音声信号を生成し、この合成音声信号の入力音声信号に対する歪みを評価し、最も歪みの小さい合成音声信号を生成する雑音ベクトルを選ぶという方法がとられる。従って、如何に効率良く雑音ベクトルを雑音符号帳に格納しておくかがCELP方式の重要なポイントになる。
【0006】
代数構造符号帳(Algebraic Codebook)(J−P.Adoul et al, “ Fast CELP Coding based on algebraic codes”, Proc. ICASSP’87, pp.1957−1960(文献3))は、雑音ベクトルをパルスの有無と極性(+,−)だけで表す簡単な構造である。代数構造符号帳は複数の雑音ベクトルを格納した雑音符号帳を用いた方式に比べ、コードベクトルを格納する必要がなく、また計算量が少ないなどの特徴を持つ。音質の面でも従来の方式に比べて遜色がないため、近年、様々な標準方式に用いられている。
【0007】
【発明が解決しようとする課題】
しかしながら、代数構造符号帳は符号化のビットレート(符号化レート)が下がるに従い、音質の劣化が目立つようになる。その理由の一つとして、パルスの位置情報の不足が挙げられる。すなわち、代数構造符号帳ではパルスの位置情報を代数的に単純化しているため、上述した利点はあるが、低符号化レートではパルスを立てる必要の無い箇所に位置候補が存在し、必要な個所に存在しないことがあるため、効率が悪いばかりでなく、音声の品質が劣化してしまう。
【0008】
代数構造符号帳を用いた場合に音質が劣化するもう一つの理由として、パルス数の不足が挙げられる。パルス数が不足すると、復号音声に「プチプチ」という雑音が目立つようになる。これは駆動信号がパルス列から生成されているためであり、パルス数の減少とともにパルスの有無が聴覚的に知覚されやすくなるからである。音質の向上のためには、このプチプチ感を軽減させる必要がある。
【0009】
上述したように、従来の代数構造符号帳は構造が簡単であり、計算量が少ないという利点を有する反面、低符号化レートになると合成フィルタの駆動信号を構成するパルス列の位置情報およびパルス数の不足により復号音声の音質が低下するという問題点があった。
【0010】
本発明は、低符号化レートでも良好な音質が得られる音声符号化/復号化方法を提供することを目的とする。
【0011】
【課題を解決するための手段】
本発明は、音声信号を少なくとも合成フィルタの特性を表す情報を生成するステップと、該合成フィルタを駆動するための信号であり、前記音声信号の性質に応じて適応的に変化するパルス位置候補から選ばれた所定の数のパルス位置にパルスを配置することで生成されたパルス列を含む駆動信号を生成するステップとでなる音声符号化方法を提供する。
【0012】
本発明は、音声信号の性質に応じて適応的に変化するパルス位置候補から選ばれた所定の数のパルス位置にパルスを配置することで生成されたパルス列を含む駆動信号を合成フィルタに入力して音声信号を復号化する音声復号化方法を提供する。
【0013】
本発明に係る音声符号化/復号化方法では、合成フィルタを駆動する駆動信号は音声信号の性質に応じて適応的に変化するパルス位置候補から選ばれた所定の数のパルス位置にパルスを配置することで生成されたパルス列を含んでいる。パルス位置候補は、より具体的には音声信号のパワ(power)の大きい所ほど多くの候補が存在するように配置される。
【0014】
また、駆動信号は音声信号の性質に応じて適応的に変化するパルス位置候補全てにパルスを配置し、各パルスの振幅を所定の手段で最適化することで生成されたパルス列を含んで構成することもできる。この場合、パルス位置候補はより具体的には、音声信号のパワの大きい所ほど多くの候補が存在するように配置される。
【0015】
さらに、駆動信号は音声信号の性質に応じて適応的に変化する第1のパルス位置候補から選ばれた所定の数のパルス位置にパルスを配置することで生成されたパルス列か、又は、第1のパルス位置候補として用いられなかった位置の一部または全部からなる第2のパルス位置候補から選ばれた所定の数のパルス位置にパルスを配置することで生成されたパルス列のいずれかを用いて生成することもできる。この場合、第1のパルス位置候補は、より具体的には、音声信号のパワの大きい所ほど多くの候補が存在するように配置される。
【0016】
また、駆動信号がピッチベクトルおよび雑音ベクトルからなる場合には、雑音ベクトルがピッチベクトルの形状に応じて変化するパルス位置候補から選ばれた所定の数のパルス位置にパルスを配置することで生成される。この場合、パルス位置候補はより具体的には、ピッチベクトルのパワの大きい所ほど多くの候補が存在するように配置される。
【0017】
また、雑音ベクトルがピッチベクトルの形状から求められた位置候補密度関数に基づき設定された位置候補から選ばれた所定の数のパルス位置にパルスを配置することで生成されたパルス列を用いて構成とすることもできる。この場合、パルス位置候補はより具体的には、位置候補密度関数の値の大きい所ほど多くの候補が存在するように配置され、位置候補密度関数はピッチベクトルのパワとパルスが配置される確率を関連付ける予め求められた関数である。
【0018】
さらに、雑音ベクトルにピッチ周期強調フィルタなどの補正手段を用いる場合には、ピツチベクトルにこの逆特性に基づく処理を行った逆補正ピッチベクトルの形状に応じて変化するパルス位置候補から選ばれた所定の数のパルス位置にパルスを配置することで生成される。この場合、パルス位置候補はより具体的には、逆補正ピッチベクトルのパワの大きい所ほど多くの候補が存在するように配置される。
【0019】
このようにパルス位置候補を音声信号のパワー分布などの性質に応じて適応的に変化させることにより、低符号化レート化によってパルス位置やパルス数が削減された代数構造符号帳を用いた場合でも符号化効率が向上し、復号音声の音質を維持しつつ低符号化レート化を図ることができる。また、パルス位置候補の作成にピッチベクトルを用いることで、付加情報を必要とせずにパルス位置候補の適応化が可能となる。
【0020】
本発明に係る他の音声符号化/復号化方法では、駆動信号がピッチベクトルおよび雑音ベクトルからなる場合、ピッチベクトルの形状を基に決められた特性を持つパルス整形手段によって整形されたパルス列を含む駆動信号が生成される。
【0021】
このような構成によって、パルス数の減少による復号音声に含まれるパルス状の雑音が軽減され、低符号化レート化によってパルス位置やパルス数が削減された場合でも、復号音声の音質を維持しつつ低符号化レート化が可能となる。
【0022】
さらに、本発明に係る音声符号化/復号化方法においては、音声信号の性質に応じて適応的に変化するパルス位置候補から選ばれた所定の数のパルス位置にパルスを配置することで生成されたパルス列を含む駆動信号を生成し、かつこのパルス列をピッチベクトルの形状を基に決められた特性を持つパルス整形手段によって整形してもよい。
【0023】
【発明の実施の形態】
図1に、第1の実施形態に係る音声符号化方法を適用した音声符号化システムが示される。この音声符号化システムは、入力端子101,106と、LPC分析部110と、LPC量子化部111と、LPC合成部120と、聴覚重み付け部130と、適応符号帳141と、パルス位置候補探索部142と、適応代数構造符号帳143と、符号選択部150と、ピッチ周期強調部160と、利得乗算部102,103および加算部104,105から構成される。
【0024】
入力端子101には、符号化すべき入力音声信号が1フレーム分の長さの単位で入力され、これに同期してLPC分析部110で線形予測分析が行われることにより、声道特性に相当する線形予測係数(LPC係数)が求められる。LPC係数はLPC量子化部111で量子化され、この量子化値がLPC合成部120にLPC合成部120の特性を表す合成フィルタ情報として入力されると共に、量子化値を指し示すインデックスAが符号化結果として図示しない多重化部へ出力される。
【0025】
適応符号帳141には、過去にLPC合成部120に入力された駆動信号が格納されている。LPC合成部120の入力となる駆動信号は、線形予測分析における予測残差信号を量子化した信号であり、音の高低の情報などを含む声帯信号に相当する。適応符号帳141は過去の駆動信号からピッチ周期に相当する長さの波形を切り出し、これを繰り返すことでピッチベクトルを生成する。ピッチベクトルは通常、フレームを幾つかに分割したサブフレーム単位で求められる。
【0026】
パルス位置候補探索部142では、適応符号帳141で求められたピッチベクトルを基に、サブフレーム内のどの位置にパルス位置候補を設定するかを計算で求め、その結果を適応代数構造符号帳143に出力する。
【0027】
適応代数構造符号帳143は、パルス位置候補探索部142から入力されたパルス位置候補の中から、ピッチベクトルの影響を差し引いた入力音声信号に対する歪みが聴覚重みの下で最小となるように、所定の本数分のパルス位置とその符号を探索する。
【0028】
適応代数構造符号帳143の出力であるパルス列は、必要に応じてピッチ周期強調部160によってピッチ単位で周期化される。ピッチ周期強調部160では、入力端子106から適応符号帳143の探索で求められたピッチ周期の情報Lが入力され、パルス列にピッチ周期の周期性が与えられる。
【0029】
適応符号帳141から出力されるピッチベクトルおよび適応代数構造符号帳143から出力され、かつ必要に応じてピッチ周期強調部160で周期性が与えられたパルス列は、利得乗算部102,103によりピッチベクトルに対する利得G0および雑音ベクトルに対する利得G1がそれぞれ乗じられた後、加算部104で加え合わせられ、LPC合成部120に駆動信号として入力される。なお、利得G0,G1としては通常、複数の利得を格納した利得符号帳(図示していない)から最適な利得が選ばれる。
【0030】
符号選択部150からは、適応符号帳141に対する探索で選ばれたピッチベクトルを示すインデックスBと、適応代数構造符号帳143に対する探索で選ばれたパルス列を示すインデックスCと、利得符号帳に対する探索で選ばれた利得G0,G1を示すインデックスGが出力される。これらの各インデックスB,C,GとLPC量子化部111からのLPC係数の量子化値である合成フィルタ情報を示すインデックスAが図示しない多重化部で多重化され、ビットストリームとして出力される。
【0031】
次に、本実施形態の特徴部分であるパルス位置候補探索部142と適応代数構造符号帳143について説明する。
【0032】
本実施形態では低符号化レート時にパルスが立つ位置を制限しても、従来のように音質を劣化させずに符号化レートだけを低減させることができるようにするために、パルスは駆動信号のパワの大きい所に集中して立つ性質を利用し、駆動信号のパワの大きい所ほど多くの位置候補が割り振られるようにサブフレーム毎にパルス位置候補が設定される。
【0033】
ピッチベクトルは理想的な駆動信号の形状と似ているため、適応符号帳141の探索により求められたピッチベクトルに基づいてパルス位置候補探索部142でパルス位置候補を設定することは効果的である。ピッチベクトルは、復号化側でも符号化側と同一のものが求められるため、パルス位置候補の適応化に伴って余分な付加情報を発生させる必要はない。
【0034】
パルス位置候補の適応化に際して、パワの大きい所のみに位置候補を割り振ると、パワの小さな区間では連続して位置候補が存在しなくなることが原因で音質が劣化することもある。パルス位置候補の適応化の方法は様々な方法が考えられるが、例えば以下のような方法をとることにより音質劣化の少ない適応化が可能である。
【0035】
図2に示すフローチャートを用いて、パルス位置候補探索部142によるパルス位置候補の適応化の処理手順を説明する。また、図3に図2の各ステップにおける入力ピッチベクトル波形(F0)、この入力ピッチベクトル波形のパワ(F1)、平滑化したパワ(F2)、この平滑化したパワをサンプル方向に積分した値(F3)を図2に対応させてそれぞれ示す。
【0036】
パワの他に振幅値の絶対値(パワの平方根)など波形の形状を表す他の尺度を用いても同様の処理が可能である。本発明ではこれらをまとめてパワで代表することにする。
【0037】
まず最初に、図3の入力ピッチベクトル(F0)について、パワ(F1)を算出し(ステップS1)、次いでパワ(F1)を平滑化し、平滑化パワ(F2)を得る(ステップS2)。パワの平滑化には、例えば数サンプルの窓で重みを付けて移動平均をとるなどの方法がある。
【0038】
次に、ステップS2で平滑化されたパワをサンプル方向に積分する(ステップS3)。この様子が図3の(F3)に示されている。具体的には、n番目のサンプルの平滑化されたパワをp(n)、この平滑化されたパワp(n)の積分値をq(n)、サブフレーム長をLとすると、積分値q(n)は
q(n)=p(n)+q(n−1)+C (n=0,…,L−1)
で求められる。ただし、Cは定数であり、パルス位置候補の密度の偏りの度合いを調節する。
【0039】
次に、この積分値q(n)を用いてパルス位置候補の算出を行う(ステップS4)。この場合、最終サンプルでの積分値が求める位置候補数がMになるように積分値を正規化する。m番目の候補の位置は、図3の(F3)に示したように積分値と対応させることで、Smとして求めることができる。m=0,…,M−1まで繰り返すことでM個の位置候補を求めることができる。
【0040】
図4に、このようにして求められたパルス位置候補とピッチベクトルのパワとの関係を示す。実線はピッチベクトルのパワ包絡、矢印はパルス位置候補を示している。同図に示されるように、パルス位置候補の分布はピッチベクトルのパワの大きいところでは密となり、パワが小さくなるに従って疎になってゆく。その結果、音質上重要なピッチベクトルのパワの大きいところでは、より正確にパルス位置を選ぶことができる。また、低符号化レート化によってパルス位置候補の数が減少しても、少ないパルス位置候補をピッチベクトルのパワの大きい所に適応的に集中させることで、高音質の符号化が可能となる。
【0041】
次に、このようにして求められた位置候補をチャネル毎に分配する(ステップS5)。分配の方法も様々であるが、図3の(F4)に示したように位置候補は各チャネルが互い違いになるように分配されるのが望ましい。このようにして、適応代数構造符号帳143が求められる。探索では、この適応代数構造符号帳143の各チャネル(Ch1,Ch2,Ch3)から1パルスずつ最適な位置と符号が選ばれ、3本のパルスで構成される雑音ベクトルが生成される。
【0042】
サブフレーム長が80サンプルの場合、パルス候補位置を全チャネル合計で40サンプル程度に削減しても、上記の手法を用いれば聴覚的な劣化はほとんど感じられなくなる。
【0043】
代数構造符号帳ではパルスの振幅は通常+1または−1のどちらかであるが、振幅情報を持つパルスを用いる方法も提案されている、文献4(Chang Deyuan, ”An 8kb/s low complexity ACELP speech codec,” 1996 3rd International Conference on Signal Processing, pp. 671−4, 1996)に示されているようにパルスの振幅を1.0,0.5,0,−0.5,−1.0の中から選択する方法があげられる。また、文献5(K. Ozawa and T. Araseki, ”Low Bit Rate Multi−pulse Speech Coder with Natural Speech Quality,” IEEE Proc. ICASSP’ 86, pp. 457−460, 1986)に示されているパルス音源の一種であるマルチパルス方式なども駆動信号が振幅を持つパルス列から構成される。本発明はこれらの例に代表されるようなパルスが振幅をもつ場合にも適用可能である。
【0044】
次に、図5を用いて図1の音声符号化システムに対応する音声復号化システムについて説明する。
【0045】
図1と同一機能を有する部分に同一符号を付して説明すると、図5の音声復号化システムは、LPC合成部120と、LPC逆量子化部121と、適応符号帳141と、パルス位置候補探索部142と、適応代数構造符号帳143と、ピッチ周期強調部160と、利得乗算部102,103および加算部104から構成され、図1の音声符号化システムから伝送されてきた符号化ストリームが入力される。
【0046】
入力された符号化ストリームは図示しない逆多重化部121に入力され、この逆多重化部121によって前述した合成フィルタ情報のインデックスA、適応符号帳141に対する探索で選ばれたピッチベクトルを示すインデックスB、適応代数構造符号帳143に対する探索で選ばれたパルス列を表すインデックスC、利得符号帳に対する探索で選ばれた利得G0,G1を示すインデックスGおよびピッチ周期を示すインデックスLに分離されて取り出される。
【0047】
インデックスAは、LPC逆量子化部121で復号されて合成フィルタ情報であるLPC係数が求められ、LPC合成部120に入力される。インデックスBおよびCは、適応符号帳141および適応代数構造符号帳143にそれぞれ入力され、これらの符号帳141,143からピッチベクトルおよびパルス列が出力される。この場合、適応代数構造符号帳143は、適応符号帳141から入力されたピッチベクトルに基づいてパルス位置候補探索部142で生成されたた適応代数構造符号帳143とインデックスBから、パルス位置と符号を決定してパルス列を出力する。適応代数構造符号帳143から出力されるパルス列は、必要に応じてピッチ周期強調部160によりピッチ周期Lの周期性が与えられる。
【0048】
適応符号帳141から出力されるピッチベクトルおよび適応代数構造符号帳143から出力され、かつ必要に応じてピッチ周期強調部160で周期性が与えられたパルス列は、利得乗算部102,103によりピッチベクトルに対する利得G0および雑音ベクトルに対する利得G1がそれぞれ乗じられた後、加算部104で加え合わせられてLPC合成部120に駆動信号として入力され、このLPC合成部120から再生音声信号が出力される。利得G0,G1は、インデックスGに従って図示しない利得符号帳から選ばれる。
【0049】
このように本実施形態によれば、音声の品質を維持したまま、ビットレートのみを削減することが可能となり、低符号化レートで高音質の音声符号化/復号化を実現することができる。
【0050】
図6に、本発明の第2の実施形態に係る音声符号化システムが示される。この音声符号化システムは、第1の実施形態による図1に示した構成からパルス位置候補探索部142および適応代数構造符号帳143を取り除き、適応代数構造符号帳143に代わるものとして一般的な雑音符号帳144を備え、さらにパルス整形フィルタ分析部161とパルス整形部162が追加された構成となっている。
【0051】
次に、本実施形態の処理手順について説明すると、入力音声信号のLPC分析およびLPC量子化を行った後、適応符号帳141の探索を行う所までは、第1の実施形態と同じである。雑音符号帳144は、この例では例えば代数構造符号帳により構成される。
【0052】
パルス整形フィルタ分析部161は適応符号帳141の探索で求められたピッチベクトルに基づいてパルス整形部162のフィルタ係数を決定して出力する。パルス整形部162は、雑音符号帳144の出力を整形し雑音ベクトルとして出力する。
【0053】
第1の実施形態と同様に、必要に応じてピッチ周期強調部160を用いて雑音ベクトルが周期化され、ピッチベクトルと雑音ベクトルに対する利得G0,G1が決められインデックスが出力される。パルス整形部162のフィルタ係数はピッチベクトルから求められるため、新たな付加情報を必要としない。
【0054】
本実施形態の特徴は、パルス整形部162をピッチベクトルの波形を基に設定し、代数構造符号帳からなる雑音符号帳144の出力であるパルス列にパルス整形を施す点にある。第1の実施形態で述べたように、低符号化レート化に伴ってパルス位置、パルス数が減少し音質の劣化が目立つようになる。パルス数が減少した場合は「プチプチ」という雑音が復号音声に目立つようになるが、本実施形態のようにパルス整形部162を用いることで、このプチプチ感が大幅に軽減される。
【0055】
パルス整形部162の設計方法としては、様々な方法を用いることができる。第一の例として、合成フィルタを駆動する駆動信号を位相等化すると、それがパルス状の信号になるという性質を利用する方法が考えられる。位相等化の逆フィルタを用いれば、パルス状の信号を入力することで駆動信号状の波形が得られることになる。従来のパルス波形を用いた場合のデメリットは理想的な駆動信号に含まれている位相情報が欠如してしまう点であり、パルス数が少なくなるとこの問題が顕著になる。そこで、この例のように位相情報をパルス整形部162で付加することで、パルス波形からより理想的な駆動信号に近い波形を生成することができる。
【0056】
この第一の例では、位相等化逆フィルタのフィルタ係数の情報を伝送する必要があり、その分だけ符号化レート(bit rate)が増える。そこで、パルス整形部162の第二の例として、位相情報の近似としてピッチベクトルを用いる方法が考えられる。有音区間などではピッチベクトルは、駆動信号と形状が類似しているため、位相情報を取り出すことができる。
【0057】
具体的な方法の一つとして、ピッチベクトルのピーク位置などの同期点を求め、この同期点から数サンプル分の波形を取り出し、これをインパルス応答とするパルス整形フィルタを用いることができる。取り出す波形の長さは2〜3サンプル程度で効果が現われる。また、取り出したサンプルに窓をかけて減衰させてそれを用いるのも効果がある。さらに、ピッチベクトルは復号側でも符号化側と同一のものが得られるため、新たな伝送ビットを必要としない利点もある。雑音符号帳144の探索時には、パルス整形部162は一定であるため、そのインパルス応答をLPC合成部120と合わせて予め計算しておくことで、計算量を削減することができる。
【0058】図7に、図6の音声符号化システムに対応する音声復号化システムが示される。図6と同一機能を有する部分に同一符号を付して説明すると、図7の音声復号化システムは、LPC合成部120と、LPC逆量子化部121と、適応符号帳141と、代数構造符号帳からなる雑音符号帳144と、パルス整形フィルタ分析部161と、パルス整形部162と、ピッチ周期強調部160と、利得乗算部102,103および加算部104から構成され、図6の音声符号化システムから伝送されてきた符号化ストリームが入力される。
【0059】
入力された符号化ストリームは、図示しない逆多重化部に入力され、この逆多重化部によって前述した合成フィルタ情報のインデックスA、適応符号帳141に対する探索で選ばれたピッチベクトルを示すインデックスB、雑音符号帳144に対する探索で選ばれたパルス列を表すインデックスCと、利得符号帳に対する探索で選ばれた利得G0,G1を示すインデックスGに分離されて取り出される。ピッチ周期Lは、インデックスBより算出される。
【0060】
インデックスAは、LPC逆量子化部121で復号されて合成フィルタ情報となり、LPC合成部120に入力される。インデックスBおよびCは適応符号帳141および雑音符号帳144にそれぞれ入力され、これらの符号帳141,144からピッチベクトルおよびパルス列が出力される。
【0061】
この場合、雑音符号帳144から出力されるパルス列は、適応符号帳141の探索で求められたピッチベクトルに基づいてパルス整形フィルタ分析部161により係数が設定されたパルス整形部162により処理された後、必要に応じてピッチ周期強調部160によりピッチ周期Lの周期性が与えられる。
【0062】
適応符号帳141から出力されるピッチベクトルおよび雑音符号帳144から出力され、パルス整形部162およびピッチ周期強調部160を経たパルス列は、利得乗算部102,103によりピッチベクトルに対する利得G0および雑音ベクトルに対する利得G1がそれぞれ乗じられた後、加算部104で加え合わせられ、LPC合成部120に駆動信号として入力され、このLPC合成部120から合成された復号音声信号が出力される。利得G0,G1は、インデックスGに従って図示しない利得符号帳から選ばれる。
【0063】
このように本実施形態によると、パルス整形部162を用いることで、雑音符号帳144に低符号化レート化によってパルス数が減少した代数構造符号帳を用いた場合においても、復号音声の音質を維持したまま符号化レートだけを効果的に削減することが可能になる。
【0064】
図8に、本発明の第3の実施形態に係る音声符号化システムが示される。この音声符号化システムは、第1の実施形態の構成に第2の実施形態で説明したパルス整形フィルタ分析部161とパルス整形部162を加えた構成になっている。
【0065】
次に、本実施形態の処理手順について説明すると、第1の実施形態と同様にまずLPC分析およびLPC量子化が行われ、適応符号帳141の探索が完了した後、ピッチベクトルがパルス位置候補探索部142とパルス整形フィルタ分析部161に渡される。パルス位置候補探索部142では、第1の実施形態で述べた方法を用いてパルス位置候補が求められ,適応代数構造符号帳143が作られる。パルス整形フィルタ分析部161では、第2の実施形態で述べたようにパルス整形部162の係数が求められる。
【0066】
適応代数構造符号帳143の探索では、出力されたパルス列はパルス整形部162で整形される。実際の探索では、パルス整形部162やピッチ周期強調部160のインパルス応答はLPC合成部120と合わせられ、計算量の削減が行われる。
【0067】
図9に、図8の音声符号化システムに対応する音声復号化システムが示される。この音声復号化システムの動作は第1および第2の実施形態で説明した音声復号化システムの動作から自明であるので、図1、図7および図8と同一部分に同一符号を付して詳細な説明は省略する。
【0068】
このように本実施形態では、第1の実施形態で説明したパルス位置候補探索部142および適応代数構造符号帳143と、第2の実施形態で説明したパルス整形フィルタ分析部161およびパルス整形部162を同時に用いることで、限られた位置候補に少数のパルスを立てる場合でも高い音質を維持することが可能となり、高音質、低符号化レートの音声符号化方式を実現することができる。
【0069】
図10に本発明の第4の実施形態に係る音声符号化システムのブロック図を示す。この音声符号化システムでは、第1の実施形態のパルス位置候補探索部がピッチベクトル平滑部171と位置候補密度関数算出部172および位置候補算出部173から構成されている他は、第1の実施形態と同じ構成である。
【0070】
次に、本実施形態の処理手順について説明すると、第1の実施形態と同様に、まずLPC分析およびLPC量子化と、適応符号帳141の探索が完了した後、ピッチベクトルがパルス位置候補探索部142のピッチベクトル平滑部171に渡される。ピッチベクトル平滑部171ではピッチベクトルに対し、例えば図2のフローチャートのステップS1〜S2の処理を行い、ピッチベクトルのパワ包絡を求め、これを出力する。位置候補密度関数算出部172ではパワ包絡を位置候補密度関数に変換し、出力する。位置候補算出部173ではパワ包絡の代わりにこの位置候補密度関数を用いてパルス位置候補を算出し、得られたパルス位置候補に従って適応代数構造符号帳143を作る。以降の処理は第1の実施形態と同様である。
【0071】
本実施形態の特徴は、パルス位置候補探索部142の処理の方法にある。第1の実施形態ではピッチベクトルのパワ包絡をそのまま用いてパルス位置候補の適応化を行っていたのに対し本実施形態ではパワ包絡を位置候補密度関数に変換した後これを用いて適応化を行っている。図11を用いて詳しく説明する。図11(a)がピッチベクトル平滑化部171から出力されたピッチベクトルのパワ包絡である。位置候補密度関数算出部172では、ピッチベクトルのパワ包絡(図11(a))から位置候補密度関数(図11(b))を生成する。この時、図11(c)に示したパワ包絡の値(x)と位置候補密度関数の値(f(x))の対応を示す関数fを用いて変換を行う。関数fの作成方法は例えば多くの学習音声を処理する事で統計的に求めておく方法などがあげられる。
また、関数の代わりにテーブルデータ等を用いることも可能である。
【0072】
パルス位置候補探索部142は変換用の関数fも合めて、符号器と復号器にそれぞれ同一のものを用意するので、適応化に関する情報は送る必要がなく、適応化を行わない場合と比べてビットレートの増加は無い。
【0073】
図12に図10の音声符号化システムに対応する本実施形態の音声復号化システムの構成を示す。この音声復号化システム動作は第1〜3の実施形態で説明した音声復号化システムの動作から自明であるので詳細な説明は省略する。
【0074】
このように本実施形態ではピッチベクトルのパワ包絡の値とパルス位置候補の密度を関数fを用いて変換するため、第1の実施形態に比べて処理手順は僅かに複雑になるが、より正確な位置候補の配分が可能となる。また、第1の実施形態は、本実施形態においてx=f(x)とした場合と考えることができる。
【0075】
図13に本発明の第5の実施形態に係る音声符号化システムのブロック図を示す。この音声符号化システムでは、第1の実施形態のパルス位置候補探索部がピッチフィルタ逆演算部174と平滑化部175および位置候補算出部173から構成されている他は、第1の実施形態と同じ構成である。
【0076】
次に、本実施形態の処理手願について説明すると、第1の実施形態と同様にまず、LPC分析およびLPC量子化と、適応符号帳141の探索が完了した後、ピッチベクトルがパルス位置候補探索部142のピッチフィルタ逆演算部174に渡される。ピッチフィルタ逆演算部174はピッチ周期強調部160の逆特性を表す演算を行う。例えばピッチフィルタの伝達関数P(Z)が
P(z)=1−az^(−L) (1)
で与えられる場合、ピッチフィルタ逆演算部174では伝達関数Q(z)が
Q(Z)=l/(1−baz^(−L)) (2)
で与えられるフィルタを用いる方法が挙げられる。ここでaは定数、bは逆特性の度合を表し、b=1の時Q(z)はP(z)の逆フィルタとなる。入力されたピッチベクトルは逆演算が施された後、出力され、平滑化部175で実施形態4のピッチベクトル平滑化部171と同様の手法でパワ包絡が求められる。位置候補算出部173ではこのパワ包絡に従っでパルス位置候補を選択し、適応代数構造符号帳143を作る。以降の処理は実施形態1と同様である。
【0077】
本実施形態の特徴はピッチ周期強調部160の影響を考慮したピッチベクトルをパルス位置候補の適応化に用いる点である。このようにすることで効率が上がる理由を述べる。
【0078】
適応代数構造符号帳から生成された雑音ベクトルはピッチ周期強調部160でピッチ周期化がされる。周期化に式(1)を用いた場合、サブフレームの先頭に近いパルスはピッチ周期間隔でサブフレーム内で何度も繰り返されるのに対し、後半のパルスほど繰り返される回数が少なくなる。実際に得られた雑音符号ベクトルを観測すると、強いピッチフィルタが用いられる場合ほど先頭に近い位置にパルスが立ちやすい傾向があることが確認できる。このことから、パルス位置はピッチベクトルの形状だけでなく、ピッチフィルタとも関係が深いことがわかる。本実施形態ではピッチフィルタ逆演算部174を用いることにより、ピッチ周期強調部160の影響を考慮したパルス位置候補の適応化を実現している。
【0079】
ところで、第3の実施形態では雑音ベクトルにパルス整形フィルタとピッチフィルタの2種類のフィルタをかけることが可能である。このような場合に本実施形態を適用する場合は、2つのフィルタを合わせた特性を求め、この特性の逆特性をピッチフィルタ逆演算部に用いるのが理想的である。しかし、処理量が増えるため影響の大きなピッチフィルタの特性のみを用いるだけでも効果は得られる。また、ピッチフィルタ逆演算部174と平滑化部175の順序は逆でも実現可能である。
【0080】
図14に図13の音声符号化システムに対応する本実施形態の音声復号化システムの構成を示す。この音声符号化システムの動作は第1乃至4実施形態で説明した音声復号化システムの動作から自明であるので詳細な説明は省略する。
【0081】
図15に本発明の第6の実施形態に係る音声符号化システムのブロック図を示す。この音声符号化システムでは、第1の実施形態の適応代数構造符号帳が雑音ベクトル生成部180と振幅符号帳181に置き替わっている他は、第1の実施形態と同じ構成である。
【0082】
次に、本実施形態の処理手順について説明すると、第1の実施形態と同様にまずLPC分析およびLPC量子化と、適応符号帳141の探索が完了した後、ピッチベクトルがパルス位置探索部174に渡される。パルス位置探索部174では第1の実施形態と同様の手法でピッチベクトルのパワ包絡に基づきパルス位置を求め、雑音ベクトル生成部にこれを出力する。ここで、本実施形態がこれまでの実施形態と異なる点はパルス位置探索部174で得られた位置には雑音ベクトル探索部で全てパルスが立てられる点である。つまり、これまでの実施形態ではパルス位置の候補が求められ、この中から適応代数構造符号帳で最適なパルス位置を選んでいたのに対し、本実施形態ではパルス位置の候補の全部を同時に用いる。従ってパルス位置を選ぶ処理は不要になる。その代わりに、各パルスの振幅を振幅符号帳181から選ぶ処理が追加される。また、出力信号もパルス位置を示す情報cの代わりにパルスの振幅を表す情報Dが出力される。
【0083】
図16を用いて雑音ベクトルの生成方法を詳しく説明する。図16(a)に振幅符号帳から得られた振幅パターンを矢印で示す。この場合、7本のパルスを立てることを想定している。図16(b)と図16(c)の波形はパルス位置探索部174で得られたピッチベクトルパワ包絡とこれに対応するパルス位置(図の○印)である。図16(b)ではパワの山が2箇所あるため7個のパルス位置が2箇所に分散されているのに対し、図16(c)では山が中央に1箇所あるので中央にパルス位置が集中している。図16(d)と図16(e)はそれぞれのパルス位置に図16(a)の振幅のパルスを立てられた雑音ベクトルである。ピッチベクトルパワ包絡に合わせて駆動信号の形状も変化することが分る。既に述べたようにピッチベクトルのパワ包絡の情報は伝送する必要がないため、本実施形態ではビットレートの増加を伴わずに雑音ベクトルの形状を理想的な雑音ベクトルの形に近づけることができる。
【0084】
本実施形態ではビットレートが高くなるに従ってパルスの振幅情報Dも多く送れるようになり品質も向上するが、向上の度合は鈍くなっていく。ある程度高いビットレートでは、振幅情報を増やすよりも選ばれなかった位置にパルスを立てた雑音ベクトルも探索の候補に含めた方が性能が向上する場合がある。具体的には、パルス位置探索部174は異なるパルス位置のパターン(パルスパターン)を出力し、雑音ベクトル生成部ではパルスパターンごとに振幅を探索する。パルスパターンは前述のピッチベクトルに適応化させたパルスパターンの他に、このパルスパターンに選ばれなかったパルス位置から生成されたパルスパターンも用意する。例えばサブフレームの全サンプル位置から適応化で選ばれたサンプル位置を引いた残りを第2のパルスパターンとして2種類のパルスパターンに対して振幅の探索を行う方法が挙げられる。振幅情報に割り当てられるビット数は各パルスパターンごとに異なる構成にすることも可能であり、通常適応化を用いたパルスパターンの方に多くのビットを配分した方が効率が良い。複数のパルスパターンを用いた場合、どのパルスパターンを用いたかを表す情報を情報Dに含めて伝送する必要があり、その分、振幅情報が減ってしまうが、単一のパルスパターンのみを探索するより品質が良い。
【0085】
図17に図15の音声符号化システムに対応する本実施形態の音声復号化システムの構成を示す。この音声復号化システム動作は第1〜5の実施形態で説明した音声復号化システムの動作から自明であるので詳細な説明は省略する。
【0086】
なお、上述の実施形態では音声符号化/復号化方法について説明したが、本発明は音声合成方法にも適用でき、その場合は図5、図7および図9に示した音声復号化システムにおいて、各インデックスを合成したい再生音声信号に基づいて与えればよい。
【0087】
【発明の効果】
以上説明したように、本発明によれば低符号化レート化によってパルス位置やパルス数が削減された代数構造符号帳を用いても、高音質の音声符号化/復号化を行うことができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る音声符号化システムのブロック図
【図2】第1の実施形態におけるパルス位置候補の選択手順を示すフローチャート
【図3】図2の各ステップでの処理の様子を示す図
【図4】第1の実施形態におけるピッチベクトルのパワ包絡とパルス位置候補の関係を示す図
【図5】第1の実施形態に係る音声復号化システムのブロック図
【図6】本発明の第2の実施形態に係る音声符号化システムのブロック図
【図7】第2の実施形態に係る音声復号化システムのブロック図
【図8】本発明の第3の実施形態に係る音声符号化システムのブロック図
【図9】第3の実施形態に係る音声復号化システムのブロック図
【図10】本発明の第4の実施形態に係る音声符号化化システムのブロック図
【図11】ピッチベクトルパワ包絡、位置候補密度関数、パワー包絡の値と位置候補密度関数の値の関係をそれぞれ示す図
【図12】第4の実施形態に係る復号システムのブロック図
【図13】本発明の第5の実施形態に係る音声符号化化システムのブロック図
【図14】第5の実施形態に係る復号システムのブロック図
【図15】本発明の第6の実施形態に係る音声符号化化システムのブロック図
【図16】雑音ベクトル生成方法を説明するための図
【図17】第6の実施形態に係る復号システムのブロック図
【符号の説明】
101…音声入力端子
102,103…利得乗算部
104,105…加算部
110…LPC分析部
111…LPC量子化部
120…LPC合成部
130…聴覚重み付け部
141…適応符号帳
142…パルス位置候補探索部
143…適応代数構造符号帳
144…雑音符号帳
150…符号選択部
160…ピッチ周期強調部
161…パルス整形フィルタ分析部
162…パルス整形部
171…ピッチベクトル平滑部
172…位置候補密度関数算出部
173…位置候補算出部
174…パルス位置探索部
180…雑音ベクトル生成部
181…振幅符号帳

Claims (8)

  1. フレーム単位で入力音声信号に基づいて合成フィルタ情報を生成するステップと、フレームを分割したサブフレーム毎に、適応符号帳に格納された駆動信号からピッチベクトルを生成するステップと、前記ピッチベクトルのパワの大きいところほど多くの候補が存在するように配置されたパルス位置候補から選ばれた所定の数のパルス位置にパルスを配置することでパルス列を生成するステップと、前記適応符号帳のピッチベクトルと前記パルス列を合成して新たな駆動信号を生成するステップと、前記合成フィルタ情報と前記新たな駆動信号とから合成音声を生成するステップとを含む音声符号化方法。
  2. 前記パルス列にピッチ周期の周期性を与えるステップを含む請求項1記載の音声符号化方法。
  3. 前記駆動信号生成ステップは、前記ピッチベクトル及び前記パルス列に利得をそれぞれ乗ずるステップを含む請求項1又は2記載の音声符号化方法。
  4. 前記合成フィルタ情報を示すインデックスと、前記ピッチベクトルを示すインデックスと、前記パルス列を示すインデックスと、前記利得を示すインデックスを多重化してビットストリームを生成するステップを含む請求項3記載の音声符号化方法。
  5. 前記ピッチベクトルに基づいて決定されるフィルタ係数に従って前記パルス列をパルス整形するステップを含む請求項1乃至4のいずれか1記載の音声符号化方法。
  6. 前記パルス列生成ステップは、前記ピッチベクトルのパワ包絡を求めるステップと、前記パワ包絡を位置候補密度関数に変換するステップと、前記位置候補密度関数を用いて前記パルス位置候補を算出するステップとを含む請求項1乃至5のいずれか1記載の音声符号化方法。
  7. 音声符号化情報から合成フィルタ情報を再生するステップと、該符号化情報に基づき適応符号帳からピッチベクトルを生成するステップと、該符号化情報に基づき前記ピッチベクトルのパワの大きいところほど多くの候補が存在するように配置されたパルス位置候補から選ばれた所定の数のパルス位置にパルスを配置することでパルス列を生成するステップと、前記ピッチベクトルと前記パルス列を合成して新たな駆動信号を生成するステップと、前記合成フィルタ情報と前記新たな駆動信号とから再生音声信号を生成するステップとを含む音声復号化方法。
  8. 前記ピッチベクトルに基づいて決定されるフィルタ係数に従って前記パルス列をパルス整形するステップを含む請求項7記載の音声復号化方法。
JP36783698A 1997-12-24 1998-12-24 音声符号化/復号化方法 Expired - Fee Related JP3579276B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP36783698A JP3579276B2 (ja) 1997-12-24 1998-12-24 音声符号化/復号化方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP35574897 1997-12-24
JP9-355748 1997-12-24
JP36783698A JP3579276B2 (ja) 1997-12-24 1998-12-24 音声符号化/復号化方法

Publications (2)

Publication Number Publication Date
JPH11259098A JPH11259098A (ja) 1999-09-24
JP3579276B2 true JP3579276B2 (ja) 2004-10-20

Family

ID=26580323

Family Applications (1)

Application Number Title Priority Date Filing Date
JP36783698A Expired - Fee Related JP3579276B2 (ja) 1997-12-24 1998-12-24 音声符号化/復号化方法

Country Status (1)

Country Link
JP (1) JP3579276B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100465316B1 (ko) * 2002-11-18 2005-01-13 한국전자통신연구원 음성 부호화기 및 이를 이용한 음성 부호화 방법
JPWO2007043643A1 (ja) * 2005-10-14 2009-04-16 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化方法、及び音声復号化方法
CN101765880B (zh) 2007-07-27 2012-09-26 松下电器产业株式会社 语音编码装置和语音编码方法
US8768690B2 (en) 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications

Also Published As

Publication number Publication date
JPH11259098A (ja) 1999-09-24

Similar Documents

Publication Publication Date Title
EP0926660B1 (en) Speech encoding/decoding method
JP3346765B2 (ja) 音声復号化方法及び音声復号化装置
WO1998006091A1 (fr) Codec vocal, support sur lequel est enregistre un programme codec vocal, et appareil mobile de telecommunications
KR20020077389A (ko) 광대역 신호의 코딩을 위한 대수적 코드북에서의 펄스위치 및 부호의 인덱싱
JPH08263099A (ja) 符号化装置
CN1977311B (zh) 语音编码装置、语音解码装置及其方法
JPH08272395A (ja) 音声符号化装置
JP3343082B2 (ja) Celp型音声符号化装置
JP4008607B2 (ja) 音声符号化/復号化方法
JP3582589B2 (ja) 音声符号化装置及び音声復号化装置
JP3579276B2 (ja) 音声符号化/復号化方法
JP3199142B2 (ja) 音声の励振信号符号化方法および装置
JP3746067B2 (ja) 音声復号化方法及び音声復号化装置
JP3268750B2 (ja) 音声合成方法及びシステム
JP3303580B2 (ja) 音声符号化装置
JP4578145B2 (ja) 音声符号化装置、音声復号化装置及びこれらの方法
JP3916934B2 (ja) 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置
EP1154407A2 (en) Position information encoding in a multipulse speech coder
JP3232701B2 (ja) 音声符号化方法
JP3490325B2 (ja) 音声信号符号化方法、復号方法およびその符号化器、復号器
JP2968109B2 (ja) コード励振線形予測符号化器及び復号化器
JP3954716B2 (ja) 音源信号符号化装置、音源信号復号化装置及びそれらの方法、並びに記録媒体
JP3552201B2 (ja) 音声符号化方法および装置
JP2002073097A (ja) Celp型音声符号化装置とcelp型音声復号化装置及び音声符号化方法と音声復号化方法
JP3292227B2 (ja) 符号励振線形予測音声符号化方法及びその復号化方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040713

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040715

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080723

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090723

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090723

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100723

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110723

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120723

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130723

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees