JP3472279B2 - 音声符号化パラメータ符号化方法及び装置 - Google Patents
音声符号化パラメータ符号化方法及び装置Info
- Publication number
- JP3472279B2 JP3472279B2 JP2001167913A JP2001167913A JP3472279B2 JP 3472279 B2 JP3472279 B2 JP 3472279B2 JP 2001167913 A JP2001167913 A JP 2001167913A JP 2001167913 A JP2001167913 A JP 2001167913A JP 3472279 B2 JP3472279 B2 JP 3472279B2
- Authority
- JP
- Japan
- Prior art keywords
- gain
- quantization
- frame
- quantized
- pitch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 91
- 238000013139 quantization Methods 0.000 claims description 143
- 239000011295 pitch Substances 0.000 claims description 117
- 238000001228 spectrum Methods 0.000 claims description 112
- 230000008859 change Effects 0.000 claims description 12
- 238000003786 synthesis reaction Methods 0.000 description 26
- 230000015572 biosynthetic process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 230000003595 spectral effect Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 235000018084 Garcinia livingstonei Nutrition 0.000 description 3
- 240000007471 Garcinia livingstonei Species 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
ル化して所定の時間間隔毎にその特徴を表す音声符号化
パラメータを取得し、取得した音声符号化パラメータを
符号化する音声符号化パラメータ符号化方法及び装置に
関するものであり、その符号化した音声符号化パラメー
タを伝送または蓄積し、伝送先または蓄積先から必要な
時に音声符号化パラメータを復元し、復元した音声符号
化パラメータから音声信号を合成して音声を伝えるデジ
タル携帯電話やデジタル音声蓄積装置などに使用して好
適なものである。
縮、誤り処理、多重化などさまざまなデジタル信号処理
が可能になるため、固定電話や移動電話に限らず音声を
利用するマルチメディアシステムなどに広く取り入れら
れている。アナログの音声信号をデジタル化するには、
一般に入力音声周波数帯域の2倍以上の標本化周波数で
標本化し、耳で識別できない程度の量子化ステップで量
子化が必要なため、アナログ信号と比較し広い伝送周波
数帯域幅を必要とする。そのため、一旦デジタル化され
た音声信号は、要求される音声品質に応じてさまざまな
符号化方式や変調方式によりデータの圧縮が行われてい
る。高い音声データの圧縮率が得られる方法として、音
声の持つ特徴を積極的に利用する分析合成型の音声符号
化方式とそこから得られた音声符号化パラメータを効率
的に量子化する方法が考えられている。
るMBE(Multi-Band Excitation)方式もしくはIM
BE(Improved Multi-Band Excitation)方式は、この
分析合成型の音声符号化方式の一種で、音声を所定の時
間周期(20msec)で所定の時間長さのセグメントを取り
出してフレームを構成し、そのフレーム毎に、音声ピッ
チ(又はその逆数としての音声基本周波数)、フレーム
の音声の周波数スペクトルから得られる音声ハーモニッ
クスペクトル振幅列、周波数スペクトルを適当な周波数
領域に分割した周波数バンド毎の有声/無声情報(Voic
ed/Unvoiced情報、又はV/UV情報)を音声符号化パラメ
ータとし、各フレームに対して、音声ピッチは8ビット
均一量子化、バンド毎のV/UV情報v[k](kはバンドの番
号)は0/1の2進数で表したバイナリ値でKビット量
子化(K:最大バンド数で最大12ビットの可変長)、音
声ハーモニック振幅列はフレーム間予測差分値を2次元
変換しそのDCT(離散コサイン変換)係数を(75−
K)ビットで量子化して4.15kbpsの音声符号化速度を得
ている。
成を示した図である。音声入力端子301から入力され
た標本化・量子化された音声デジタル信号を、音声符号
化パラメータ抽出部302で所定の時間周期で所定の時
間長さのセグメントを取り出してフレームを構成し、そ
のフレーム毎に音声符号化パラメータを抽出する。抽出
する音声符号化パラメータは音声符号化方式により異な
り、例えば前記のMBE方式では、音声ピッチ、音声ハ
ーモニックスペクトル振幅列、各周波数バンドのV/UV情
報である。パラメータ符号化部303は、抽出した音声
符号化パラメータを効果的に符号化して符号量を低減せ
しめ、送信部304を介して伝送路305に送り出す。
受信部306で受け取った信号は、パラメータ復号化部
307で音声符号化パラメータを復元し、音声合成部3
08は音声符号化パラメータ抽出部302と逆の動作に
より合成音声を作成し音声出力端子309から音声デジ
タル信号を出力する。
音声符号化パラメータ抽出部302のブロック構成図で
ある。デジタル入力音声信号は入力端子301から基本
周波数推定部401に入力され、ここで音声の基本周波
数が推定される。基本周波数の推定値は、時間遅れの自
己相関関数が最大となる時間の逆数値として計算され
る。周波数スペクトル計算部402では、ハミング窓等
の窓関数によりフレームから切り出した有限長の音声信
号を周波数分析して音声周波数スペクトルを得る。基本
周波数修正部403は、推定された音声基本周波数と前
記窓関数により合成されるスペクトルと前記音声周波数
スペクトルとの誤差最小条件で、A−b−S(Analysis
-by-Synthesis)手法により修正音声基本周波数ωoとハ
ーモニックスペクトル振幅列を同時に求める。有声強度
計算部404は修正音声基本周波数ωoに基づいて、周
波数帯域を複数の周波数バンドk(k=1,2,...,K)に分
割し、各周波数バンド毎に合成された合成スペクトルと
音声周波数スペクトルの誤差を計算し、閾値判定により
V/UV情報v[k]を出力する。スペクトル包絡計算部40
5はV/UV情報v[k]により、有声バンドではA−b−S
手法で求めた各ハーモニックスペクトル振幅、無声バン
ドでは各ハーモニックの周波数帯域での周波数スペクト
ルのルート二乗平均値をスペクトル包絡|A(ω)|として
出力する。
パラメータ符号化部303のブロック構成図である。入
力端子501に入力された音声基本周波数ωoは、基本
周波数量子化部502で、予め定めた量子化範囲及び量
子化ステップで8ビットに均一量子化し、その量子化値
B0を出力端子503に出力する。入力端子504に入力
されたV/UV情報v[k]は、V/UV情報量子化部505で、
例えば周波数バンド数Kが12の場合は12個の0又は
1の情報で表した2進数12ビット値B1として出力端子
506に出力する。入力端子507に入力されたスペク
トル包絡|A(ω)|は、離散的なハーモニックスペクトル
振幅列|A(ωi)|、(i=1,2,3,....,N、N:ハーモニッ
ク本数)として入力される。
器509で前フレームのハーモニックスペクトル振幅列
から予測した予測ハーモニックスペクトル振幅列521
との差(これを「予測差分値列」と呼ぶことにする)が
計算され、ブロック変換部510に渡される。ブロック
変換部510では予測差分値列をハーモニックの順位に
より6種類に順次分類して2次元データとし、次のDC
T(離散コサイン変換)部511に渡しDCT係数が計
算され量子化部512に渡され、DCT係数の次数によ
り予め選定した均一量子化法とベクトル量子化法の組み
合わせにより、予測差分値列の符号化データB2が出力端
子513に出力される。量子化復元部514、逆DCT
部515およびブロック復元部516は、量子化された
予測差分値列を復元し、加算器517で予測ハーモニッ
クスペクトル振幅列521と加算し、現フレームの入力
スペクトル包絡の量子化スペクトル包絡値が復元され
る。その量子化スペクトル包絡値はフレーム遅延部51
8で1フレーム遅延し、新たに入力される次フレームの
音声基本周波数ωoと前フレームの基本周波数を元にし
てスペクトル包絡予測部519で次フレームのスペクト
ル包絡値を予測し、その予測値を前記減算器509に導
き、次フレームのスペクトル包絡の量子化に備える。
d J.S.Lim "Multi-band ExcitationVocoder", IEEE Tra
nsactions on Acoustics, speech, and signal process
ing, vol.36,No.8,August 1988, pp1223-1235に記載さ
れている。又、符号化器の構成方法はIMBE方式の音
声符号化手順として、USP-5491722(Methods for speec
h transmission,Feb.13,1996)により詳しく開示されて
いる。
子化を更に効率化するため、ハーモニック振幅列を線形
予測モデル(LPC)でモデル化し、そのLPCモデル
化係数(線形予測係数とゲイン)を量子化する方法も考
案されている。(A.M.Kondoz"Digital Speech", John W
iley & Sons, Ltd,1995, pp256-261)LPCモデル化
を、式(1)に示す。
ピッチ周期のパルス列を音源信号とするJ次のLPC合
成フィルタH(ω)の出力スペクトルとしてモデル化し、
可変長であるハーモニック振幅列を振幅値(または利
得、ゲイン)GとJ個(たとえば10個)のLPC係数
akで表したものである。また、このLPC係数は線ス
ペクトル対(LSP)に変換すれば、補間特性が優れて
いることは良く知られており、このモデル化とLPC係
数のフレーム補間を併用することで、更に低ビットレー
ト化ができることも提案されているが、音質の劣化を伴
うことも報告されている。このように、音声をデジタル
化して低ビットレートの音声符号化を実現する方法とし
て、音声合成モデルに基づく音声符号化パラメータを抽
出して符号化を行う分析合成型の音声符号化方式が提案
され、一部実用に供されている。
の音声符号化方式は、低ビットレート音声符号化に有効
であるが、分析条件によっては分析合成型特有の音質劣
化を伴いやすい。分析合成型の音声符号化方式の合成音
質改善方法として、音声フレーム更新周期を短く設定す
ることにより、音声フレーム内での音声パラメータの変
化を少なくし、分析合成型でありながら高音質化を図る
方法が考えられている。フレーム更新周期を短く設定し
た場合の符号化音声品質の改善効果については、麓他
“業務用移動体通信向けの音声符号化方式の検討”,電
子情報通信学会全国大会,D-14-2,p171,Mar.2000で報告
されている。音声フレームの更新周期を短縮すれば、符
号化ビット数が増大するので、符号化パラメータを補間
等により再生し、パラメータの冗長性を削減することが
必要になる。しかし、単純な補間によりパラメータのビ
ット数を削減すれば大きな劣化が発生する。この様に、
分析合成型音声符号化方式の低ビットレート化とフレー
ム更新周期の短縮による音声品質向上を両立するために
は、音声符号化パラメータの効率的な量子化方法の課題
があり、特に補間により符号化パラメータを再生するこ
とを利用して低ビットレート化を行う場合には、補間方
法と音質劣化のバランスを十分考慮しながら量子化法を
設計するという課題がある。
方式において、低ビットレート化とフレーム更新周期の
短縮による音声品質の向上を両立させることのできる音
声符号化パラメータ符号化方法および装置を提供するこ
とを目的としている。
に、本発明の音声符号化パラメータ符号化方法は、デジ
タル化され所定時間長のフレームに分割された音声信号
から取得した音声符号化パラメータを符号化する音声符
号化パラメータ符号化方法であって、前記音声符号化パ
ラメータとしての音声ピッチを、差分量子化法と均一量
子化法の選択によりいずれかの量子化法により量子化ピ
ッチを得るフレームと、前後のフレームの量子化ピッチ
を用いて計算した複数の補間ピッチ候補から選択した補
間ピッチのインデックスにより量子化するフレームとの
組み合わせにより符号化するステップ、前記音声符号化
パラメータとしての有声/無声情報を、限定された数の
代表有声/無声情報から選択した代表有声/無声情報の
インデックスにより符号化するステップ、前記音声符号
化パラメータとしてのハーモニックスペクトル振幅列
を、線形予測モデルによる線形予測係数もしくはそれよ
り導かれる線スペクトル対とゲインに分離し、線形予測
係数もしくは線スペクトル対については、ベクトル量子
化器などの量子化器により量子化するフレームと、前後
のフレームの量子化線形予測係数もしくは線スペクトル
対から線形補間器により求めた複数の候補点から選択し
た候補点のインデックスにより補間量子化するフレーム
との組み合わせにより符号化するステップ、前記線形予
測係数の量子化により発生するフレームのハーモニック
スペクトルパワーの変化に応じて前記ゲインを補正し補
正ゲインを得るステップ、および、該補正ゲインを対数
化し、そのまま第1のゲイン量子化器で均一量子化する
フレームと、前のフレームの前記第1のゲイン量子化器
の量子化ゲインを基準とした差分量子化器の出力値と、
前後のフレームの前記第1の量子化器の出力の複数の補
間候補の選択により求めた補間量子化器の出力値から、
誤差の少ない方を選んで量子化する第2のゲイン量子化
器により量子化するフレームとの組み合わせにより前記
補正ゲインを符号化するステップを含むものである。ま
た、前記補正ゲインを得るステップは、線形予測モデル
化前のハーモニック振幅列の二乗和により得られるハー
モニックスペクトルパワーと、量子化線形予測係数と量
子化前のゲインを用いて線形予測モデルにより得られる
ハーモニックスペクトル振幅値の二乗和から求めたハー
モニックスペクトルパワーの比を、前記ゲインに乗算す
ることにより補正ゲインを計算するものである。
号化装置は、デジタル化され所定時間長のフレームに分
割された音声信号から取得した音声符号化パラメータを
符号化する音声符号化パラメータ符号化装置であって、
前記音声符号化パラメータとしての音声ピッチを、差分
量子化法と均一量子化法の選択によりいずれかの量子化
法により量子化するフレームと、前後のフレームの量子
化ピッチを用いて計算した複数の補間ピッチ候補から選
択した補間ピッチのインデックスにより量子化するフレ
ームの組み合わせにより符号化する手段と、前記音声符
号化パラメータとしての有声/無声情報を、限定された
数の代表有声/無声情報から選択した代表有声/無声情
報のインデックスにより符号化する手段と、前記音声符
号化パラメータとしてのハーモニックスペクトル振幅列
を、線形予測モデルによる線形予測係数もしくはそれよ
り導かれる線スペクトル対とゲインに分離し、線形予測
係数もしくは線スペクトル対については、ベクトル量子
化器などの量子化器により量子化するフレームと、前後
のフレームの量子化線形予測係数もしくは線スペクトル
対から線形補間器により求めた複数の候補点から選択し
た候補点のインデックスにより補間量子化するフレーム
の組み合わせにより符号化する手段と、前記線形予測係
数の量子化により発生するフレームのハーモニックスペ
クトルパワーの変化に応じて上記ゲインを補正し補正ゲ
インを得る手段と、該補正ゲインを対数化し、そのまま
第1のゲイン量子化器で均一量子化するフレームと、前
のフレームの前記第1のゲイン量子化器の量子化ゲイン
を基準とした差分量子化器の出力値と、前後のフレーム
の前記第1の量子化器の出力の複数の補間候補の選択に
より求めた補間量子化器の出力値から、誤差の少ない方
を選んで量子化する第2のゲイン量子化器により量子化
するフレームの組み合わせにより前記補正ゲインを符号
化する手段とを有するものである。
チの符号化に対しては、対数変換したピッチに対して、
差分量子化法と均一量子化法を切り換えて、入力音声ピ
ッチとの誤差が少ない方を選択して量子化するフレーム
と、フレーム間ピッチの複数個の補間点から一番近い補
間点候補の番号を選択し、その選択番号で量子化するフ
レームを、フレーム繰り返しにより切り換えて使用する
ことにより、ピッチの符号化ビット数を減少させてい
る。また、有声/無声情報(V/UV情報)の符号化に対し
ては、予め多くの音声フレームに対してV/UV情報とその
発生頻度を取得し、その中から固定数の代表V/UV情報を
予め選定し、その代表V/UV情報の中からそのフレームの
V/UV情報に最も似た代表V/UV情報の番号(インデック
ス)で符号化する手段をとる。また、V/UV情報の伝送を
行わないフレームを適宜挿入し、V/UV情報が送られてい
ないフレームの復号に対しては、前後のフレームのう
ち、大きい音声エネルギーを持った方のフレームのV/UV
情報を用いて復元するようにしている。以上2つの手段
により、V/UV情報の符号化ビット数を減少させている。
さらに、ハーモニックスペクトル振幅列の符号化に関し
ては、そのハーモニックスペクトル振幅列を自己回帰型
J次線形予測モデル(ARモデル)でモデル化し、線形
予測係数(LPC)とゲインで表現する。LPC係数は
LSP(線スペクトル対)に変換した後、ベクトル量子
化によりフレームあたりJ個のLSPをベクトル量子化
するフレームと、量子化されたLSPのフレーム間の複
数補間点から一番近い補間点候補の番号を選択し、その
選択番号で量子化するフレームの組み合わせにより量子
化する。また、ゲインはLSPのベクトル量子化および
補間により量子化した線形予測係数から線形予測モデル
により復元した場合の、ハーモニック振幅の誤差のため
発生するフレームパワーの変化を補正し、補正したゲイ
ンの対数値を均一量子化するフレームと、前フレームか
らの差分量を量子化した場合と、前後のフレーム間の補
間値を選択した場合の誤差が少ない方のゲインを選択す
るフレームの組み合わせにより量子化する手段をとる。
以上のような2段構成でハーモニックスペクトル振幅列
の量子化を行うことにより、線形予測係数の量子化誤差
により発生するフレームパワーの変化を抑えつつ、低ビ
ットでのハーモニック振幅列の符合化を行うことができ
る。
号化方法および該符号化方法が適用された音声符号化パ
ラメータ符号化装置の一実施の形態について、前記分析
合成型音声符号化方法であるMBEもしくはIMBE音
声符号化方法に適応した場合を例にとって説明する。な
お、この音声符号化パラメータ符号化装置は、前記図8
に示したパラメータ符号化部303に対応するものであ
り、音声符号化パラメータ抽出部302により抽出され
た音声符号化パラメータ、すなわち、音声ピッチ(また
はその逆数である音声基本周波数ωo)、音声ハーモニ
ックスペクトル振幅列および各周波数バンドの有声/無
声情報(V/UV情報)を効率的に符号化する。
符号化方法が適用された音声符号化パラメータ符号化装
置の一構成例を示すブロック図である。例えば前記図9
で示した音声符号化パラメータ抽出部で得られた音声ピ
ッチ(又は音声基本周波数ωo)は入力端子101に入
力され、対数変換部102で音声ピッチが対数変換さ
れ、対数音声ピッチP[n](nはフレーム番号)を得る。
対数音声ピッチは文献(Thomas Eriksson and Hong-Goo
Kang, "Pitch Quantization in low Bit-Rate Speech
Coding", ICASSP '99, pp489-492,1999)に述べられて
いるように、対数ピッチの変化量に対する人間の検知限
界値が、対数ピッチの値の影響をあまり受けないことが
知られている。そのため、量子化ステップ幅を均一にす
ることが出来るため都合の良い変換となっている。
ーム毎(またはサブフレーム化されている場合はサブフ
レーム毎)に交互に切り換えられて、2つの出力端子1
04または116のいずれかに出力される。104に出
力された場合は均一量子化部105と減算部112に導
かれる。均一量子化部105では一定の量子化ステップ
で均一に量子化され、その量子化対数ピッチP1'[n](1
06)がピッチ比較部108に入力される。一方、減算
部112では入力された対数ピッチと遅延部111から
受け取った前フレームの量子化対数ピッチとから差分対
数ピッチを得て差分量子化部113に入力する。遅延部
111は、直前フレームの量子化対数ピッチを現在フレ
ームに渡すためのものである。差分量子化部113では
均一の差分量子化ステップ、もしくは差分値ゼロを基準
として差分入力振幅の増加につれて差分量子化ステップ
が拡大する様に設定した不均一量子化ステップで差分量
子化を行い、加算部114で差分の基準とした前フレー
ムの量子化対数ピッチと加算し、差分量子化による量子
化対数ピッチP2'[n]を107に出力する。ピッチ比較部
108では、P1'[n]とP2'[n]を比較し、量子化前の対数
ピッチP[n]との誤差が少ない方の量子化対数ピッチを選
択し、均一量子化インデックスN1と差分量子化インデッ
クスN2のうち選択された方の量子化器の出力したインデ
ックスをピッチ符号としてピッチ符号切換部110の一
方の入力に出力する。N1とN2のインデックス(選択番
号)は番号の重複が無い様に配置することで出力された
インデックス番号からどちらの量子化方法が選択された
かが判る。出力端子109にはピッチ比較部108で選
択された量子化器からの量子化対数ピッチP'[n]を出力
する。
に現れた対数ピッチP[n]は、遅延部111の入出力端か
ら得られる現フレームと前フレームの量子化対数ピッチ
を用いて、補間ピッチ候補作成部117で作成した複数
の補間ピッチ候補と、補間点比較部119で比較され、
最も現在フレームの対数ピッチ116に近いピッチを与
えた補間点インデックスN3をピッチ補間符号としてピッ
チ符号切換部110のもう一方の入力に出力する。ピッ
チ符号切換部110は入力切換部103の動きに合せて
ピッチ符号を切り替えて出力する
7の働きを説明する図である。図2に示した例は、補間
点候補数を4としその選択番号(インデックス)により
2ビットで量子化した例である。現在フレームの前方フ
レームの量子化対数ピッチをP'[n+1]、後方フレームの
量子化対数ピッチをP'[n-1]とし、その間を直線で結ん
だ間を均等に分割する4点を×印で示す。この4点の補
間ピッチ候補のうち、最も入力対数ピッチP[n]に近い補
間量子化ピッチP'[n]が選択され、この補間量子化ピッ
チを与えるインデックスとして、この例では2を選択す
る。P[n]はP'[n+1]とP[n-1]の間のフレームのピッチで
あり、例えば、フレームを2つのサブフレームに分割さ
れている場合には、P[n]は現フレームの第1サブフレー
ム、P'[n+1]が現フレームの第2サブフレームの量子化
ピッチ、P'[n-1]は前フレームの第2サブフレームの量
子化ピッチに対応している。なお、図2の補間ピッチ候
補の配置ではP'[n+1]とP'[n-1]は補間ピッチ候補に入れ
ていないが、補間ピッチ候補を両端のP'[n+1]とP'[n-1]
を含んで設定することも出来る。その場合には、P'[n+
1]とP'[n-1]以外の補間ピッチ候補は2点となる。図2
の例の様に補間ピッチ候補の位置を両端を除いて設定す
ると、1ビットでも両端を除く2点を選択できることに
なるため、図2の補間点配置は補間点に与えるビット数
が1ビットとか2ビットとかの少ない場合に有効といえ
る。
情報)は入力端子131から入力され、フレーム間引き
部133でV/UV情報がフレーム(またはサブフレーム)
間引きされる。例えば2フレーム(または2サブフレー
ム)に対して1回のみV/UV情報が出力され、有声/無声
比較部134に入力される。代表有声/無声情報コード
ブック132は予め多くの音声フレームから取得したV/
UV情報から後で述べる方法で、発生頻度の高いものから
限定個数を選んで格納したものである。現在入力された
V/UV情報値b1と最も近い距離の代表V/UV情報値b1'を有
声/無声比較部134で選択し、その代表V/UV情報のイ
ンデックスを有声/無声符号135として出力する。V/
UV情報値b1(又はb1')は音声周波数スペクトルを音声
基本周波数の例えば3倍の区間間隔で区切った周波数バ
ンド毎のV/UV情報値v[k]、k=1,2,...,K(V[k]は0又は
1)を2進数の各ビットに割り振った2進数値で表わさ
れている。
のとする。また、代表V/UV情報は、音声基本周波数によ
り決まるバンド数毎に独立に設定する。
ることが出来る。すなわち、予め多くの音声フレームか
ら多くのV/UV情報値を得ておき、バンド数K毎に分類す
る。各バンド数毎に分類されたV/UV情報値の集合{b1i}
から各b1iの発生頻度を集計する。例えば、バンド数が
5個の場合に対しては、b1の値は0〜31の整数値をと
り、おのおのb1値に対して発生頻度が集計される。例え
ば2ビットでV/UV情報を量子化する場合は、この中から
4種類の代表V/UV情報を選択する必要がある。この選択
のためには、発生頻度の上位から順に4つ選択する方法
が考えられるが、場合によっては隣接した代表V/UV情報
値が選ばれることがあり、代表V/UV情報値として適当で
ない場合が発生する。特にバンド数Kが大きい場合には
発生頻度の高い代表V/UV情報値が隣接して存在する可能
性が高い。
発生頻度を、隣接するV/UV情報の発生頻度に配分しなが
ら順次消去し、最終的に目的数の代表V/UV情報の数まで
削減する方法が有効となる。図3はV/UV情報(V/UVパタ
ーン)の候補数を順次削除する場合に、最も発生頻度の
低いV/UVパターンを消去する方法について説明する図で
ある。ここで、最も発生頻度の低いV/UVパターンの発生
頻度をq[n]とするとq[n]をq1とq2に分けてそれぞれ隣接
するV/UVパターンの発生頻度q[n-l1]とq[n+l2]に加算配
分する。q1とq2の配分量は隣接V/UVパターンの発生頻度
q[n-l1]とq[n+l 2]の大きさと、隣接V/UVパターンまでの
距離l1とl2の近さに応じて下式により決める。
化について説明する。スペクトル包絡はハーモニックス
ペクトル振幅列として離散的なスペクトルが入力端子1
40に入力され、スペクトル修正部141に入力され
る。スペクトル修正部141の動作は後で説明する。ス
ペクトル修正部141で修正されたスペクトル列は、線
形予測モデル化部142で自己回帰型線形予測モデルで
モデル化し、ゲインGと高次(例えばJ次、J=10)
の線形予測係数(LPC係数a[j]、j=1,2,3,...,J、J
は予測次数)に変換される。更に、LPC係数a[j]は
線スペクトル対(LSP)F[j]に変換される。LSP
は0からπまでの値を持ち、線形補間による聴感上の劣
化が少ないため、スペクトル包絡のモデル化の係数とし
て広く一般に用いられている。LSPに変換されたLP
C係数はLSP量子化部143でLSPコードブック1
44を用いてベクトル量子化され、そのコードブックの
インデックスがLSP符号切換部146に出力される。
ここでLSP量子化部143は、1フレーム(または1
サブフレーム)おきに量子化を行うなどして量子化を行
うフレーム数を削減する。一方、量子化されたLSPは
LSP補間部145に入り、直前と直後に量子化された
量子化LSPとの間で複数のLSP補間候補を計算し、
LSP補間候補から現在フレームのLSPに最も近いL
SP補間候補を選択し、そのLSP補間候補番号をLS
P符号切換部146へ出力する。LSP量子化部143
で量子化を行わなかったフレームは、このLSP補間に
より量子化を行うことで符号量の増大を抑えている。L
SP符号切換部146ではフレーム毎(またはサブフレ
ーム毎)にLSP量子化部143またはLSP補間部1
45からの量子化インデックスを切り換えてLSP符号
として出力端子154へ出力する。
の目的について説明する。線形予測モデルでハーモニッ
クスペクトル振幅列をモデル化する場合、多くのスペク
トル点があった方が良いが、逆にモデルに合わないスペ
クトルが有ればモデル化に歪を与え、モデル化後のスペ
クトル誤差が増大する。一般に音声の0次のハーモニッ
クスペクトル振幅(直流成分)は他のハーモニックスペ
クトル振幅に比べて低く、モデル化誤差が発生しやす
い。また、0次ハーモニックスペクトル振幅は、音声復
号時には不要な成分であるため(音声信号には直流成分
は殆ど含まれないため)、モデル化しやすいレベルに調
整変更しても良いといえる。以上の理由で、スペクトル
修正部141では線形予測モデルでモデル化しやすい様
に0次のハーモニックスペクトル振幅を修正する。具体
的には、次式により2次のハーモニック振幅H2を係数
αで補正した値を0次ハーモニック振幅に置きかえる。
振幅、H1、H2、H3はそれぞれ1次、2次、3次のハ
ーモニックスペクトル振幅である。また、ハーモニック
スペクトル振幅列はピッチ周波数によってはそのサンプ
ル個数が少なくなるため、入力されたハーモニックスペ
クトル振幅列を離散スペクトル間で補間生成を行う。こ
こではハーモニックスペクトル振幅の対数値を周波数に
対して線形で補間し、補間スペクトルデータを作成す
る。
たLSP符号から復元したLPC係数akと量子化前の
LPCゲインGにより、前記LPCモデル化式(1)か
らピッチ周波数の高調波のスペクトル振幅を計算して復
元されたハーモニックスペクトル振幅とし誤差計算部1
52へ出力する。誤差計算部152では、元の入力ハー
モニックスペクトル振幅列A[l]とのスペクトルパワー
の誤差を計算し、ゲイン補正部147に入力する。ゲイ
ン補正部147では線形予測モデル化部142のゲイン
Gに対して誤差計算部152の出力に基づいてパワー誤
差の補正を行い、補正されたゲインがゲイン量子化部1
48に入力され、ここで補正後の対数ゲインが均一量子
化される。均一量子化されたゲインのゲイン符号はゲイ
ン符号切換部151の一方の入力に出力される。このゲ
イン量子化部148では、1フレーム(または1サブフ
レーム)おきに量子化を行うなどして量子化を行うフレ
ームを削減する。
は、ゲイン差分量子化部149又はゲイン補間量子化部
150で量子化を行うことで符号量の増大を抑える。ゲ
イン差分量子化部149では、ゲイン量子化部148で
量子化しなかったフレームの対数ゲインを直前にゲイン
量子化部148で量子化した量子化ゲインを基準として
差分量子化する。また、ゲイン補間量子化部150で
は、同様に、ゲイン量子化部148で量子化しなかった
フレームの対数ゲインを、直前および直後のフレームの
量子化ゲインから線形補間で求めた補間ゲイン候補の中
から一番誤差の少ない補間ゲインを選択して補間量子化
する。そして、ゲイン差分量子化部149とゲイン補間
量子化部150の出力のうち最も量子化誤差の少ないゲ
インのゲイン符号をゲイン符号切換部151のもう一方
の入力に出力する。ここでは、ゲイン差分量子化部14
9とゲイン補間量子化部150のそれぞれのゲイン符号
が重複の無い様にすることでどちらの量子化法が選択さ
れたがわかるので選択符号を送る必要はない。ゲイン符
号切換部151では、フレーム毎(またはサブフレーム
毎)にゲイン量子化部148のゲイン符号と、ゲイン差
分量子化部149またはゲイン補間量子化部150のゲ
イン符号を切り換えてLSPゲイン符号として出力端子
155へ出力する。
ックスペクトル振幅の変化によって発生するフレームパ
ワー誤差を、量子化前のゲインへ補正することで、特に
音声発生時や消滅時などの過渡状態で発生しやすいフレ
ーム(またはサブフレーム)の音声振幅の過大な誤差に
よる雑音発生を抑えることができる。
符号化パラメータ符号化部の処理の流れについて説明す
る。図4は音声基本周波数ωoの量子化の流れ図であ
る。図4で701から処理が開始される。702で量子
化する音声基本周波数ωo、フレーム番号mを設定す
る。次に703で対数ピッチPを計算し、704でmの
偶奇を判断し、もし偶数(EVEN)ならば705及び70
6で、それぞれ均一量子化と差分量子化を行い、均一量
子化ピッチP_uと均一量子化インデックスIndex_u、及び
差分量子化ピッチP_dと差分量子化インデックスIndex_d
を計算する。
|)を判定し、ある閾値Thより小さい場合は、710で
mフレーム目のピッチP[m](これを偶数フレームの意味
でP[2n]と表す)をP_d、そのインデックスIndex[m](こ
れを偶数フレームの意味でIndex[2n]と表す)をIndex_d
とする。一方、708で|P_d−P|がTh以上であると判
定された場合は、707で均一量子化誤差(|P_u−P|)
と差分量子化誤差(|P_d−P|)を比較し、均一量子化誤
差が小さい場合は709でmフレーム目のピッチP[2n]
をP_u、そのインデックスIndex[2n]をIndex_uとし、逆
の場合は710でピッチP[2n]をP_d、Index[2n]をIndex
_dとする。また、mフレーム目のピッチP[2n]は711
で2フレーム時間遅延してP[2n-2]とし、差分量子化7
06の基準対数ピッチとして、次の偶数フレームを差分
量子化する時の基準対数ピッチとして使用する。
ピッチ補間候補から選択される。ピッチ補間候補は、す
でに図2に示した手法により、前後のフレームの量子化
対数ピッチ間を複数個に均等分割した補間ピッチ候補の
集合{Pinpol[2n-1]i}(i=0,1,2,3...,N-1、Nは補間候
補点数)として712で計算される。ピッチ補間候補の
選択は、m=2n-1フレームの対数ピッチP[2n-1]との誤
差絶対値が最も小さい補間候補点を選択し、そのインデ
ックス番号Index[2n-1]を奇数フレームの量子化された
ピッチ補間符号として714で設定される。なお、71
3中のargmin_i(x)関数(argminの下にiが記された関
数)は、iをパラメータとして評価してxが最小となる
iを返す関数である。また、偶数フレームの場合のピッ
チ符号は709又は710で選択された量子化法のイン
デックスIndex_d又はIndex_uがIndex[2n]として同様に
714で設定される。この様にして設定された偶数フレ
ームのピッチ符号と奇数フレームのピッチ補間符号が7
15に出力される。図4に示した本発明による音声基本
周波数の符号化法を用いれば、例えば、ピッチ符号に4
ビット、ピッチ補間符号に1ビットを用いて、良好に2
フレーム分の音声基本周波数の符号化が出来る。
801から処理が開始し、802で音声基本周波数をω
oに、フレームのV/UV情報値をvに、フレーム番号をm
に設定する。803ではωoに対するバンド数Kを求め
る。
数、Bは各バンドに含まれるハーモニックの本数であ
り、符号化に先立ち予め決めておくもので、3程度が使
用される。804でmの偶奇を判定し、805で、mが
偶数の場合には予め選出したバンド数k毎の代表V/UV情
報値のデータ806の中から最も入力されたV/UV値vに
近い値を持った代表V/UV情報値VCB[K][i]のインデック
スiを選びIndexV/UV[2n]とし、807で有声/無声符
号に設定する。処理フレームが奇数の場合は、有声/無
声符号は間引かれて出力されない。図5に示した本発明
によるV/UV情報の符号化法を用いれば、例えば、有声/
無声符号に2ビットを用いて、良好に2フレーム分のV/
UV情報の符号化が出来る。
号化の流れ図である。901から処理が開始し、902
でハーモニックスペクトル振幅をA[l]に、フレーム番
号をmにセットする。903で0次のハーモニックスペ
クトル振幅A[0]を第2次のハーモニックスペクトル振
幅A[2]をα倍したもので補正する。補正係数αの決定
方法は前記(4)式で示した方法等で決定する。904
で補正されたハーモニックスペクトル振幅列の対数値を
線形補間し、スペクトル列の本数を増加する。905で
は補間して増加したスペクトル列を(1)式で示した線
形予測モデルでのモデル化曲線上の値としてモデル化を
行い、LPC係数a[j]、LPCゲインGを計算する。
さらにLPC係数a[j]は後の処理で有効な線スペクト
ル対(LSP:Line Spectrum Pair)F[j]に変換す
る。
を判断し、偶数の場合にはF[j]を907にてベクトル
量子化テーブル908を用いてベクトル量子化し、量子
化LSPベクトルF'[j]とその量子化LSPベクトルの
インデックスLSPindex0を得、LSPindex0は914へ出力
する。また、量子化LSPベクトルF'[j]は910でフ
レーム遅延した量子化LSPベクトルと共に、911で
LSP補間候補を線形補間により計算する。一方、90
6で現在のフレーム番号が奇数の場合は、911で計算
したLSP補間候補の中から、量子化前の現在フレーム
のLSPベクトルF[j]に最も近い値を持つLSP補間
候補F'[j]を選出し、選出したLSP補間候補のインデ
ックスをLSPindex1として914に出力する。914で
はフレーム番号が偶数の場合にはLSP符号としてLSPi
ndex0、奇数の場合にはLSPindex1を出力する。
レームおよび奇数フレームの量子化LSPは909で量
子化LSP係数F'[j]から量子化LPC係数a'[j]に
し、912にて量子化LPC係数a'[j]と量子化前のL
PCゲインGから、前記モデル化式(1)により、量子
化された音声基本周波数の高調波のスペクトル振幅値に
より、ハーモニック振幅列A'[l]を復元する。913で
は、量子化前のハーモニック振幅列A[l]の2乗和と復
元されたハーモニック振幅列A'[l]の2乗和との比から
LSP量子化によるゲイン変化率dgを計算する。
されたLPCゲインGに対し913で計算したゲイン変
化率dgを用いて補正対数ゲインG'=log(dg×G)を計算
する。916でフレーム番号の偶(EVEN)/奇(ODD)
を判断し、偶数フレームのLPCゲインは、917で対
数ゲインG'を均一量子化し、均一量子化ゲインGu'を
得て、そのインデックスGindex0を922に出力する。
また、均一量子化ゲインGu'は918でフレーム遅延し
たものと共に補間量子化920へ出力する。
インと均一量子化した1つ前のフレーム(偶数フレー
ム)の量子化対数ゲインとの間で差分量子化し、量子化
ゲインGd'とそのインデックスGindex_dを計算する。9
20では前後のフレームの均一量子化ゲインから補間ゲ
イン候補を線形補間等で選出し、現在フレーム(奇数フ
レーム)のG'と最も近い補間ゲイン候補を選び、量子
化ゲインGi'とそのインデックスGindex_iを計算する。
921では、奇数フレームの量子化LPCゲインGd'お
よびGi'から量子化前のLPCゲインG'に近い方のイ
ンデックスを選択しGindex1として922へ出力する。
922では、ゲインインデックスをフレームの偶数、奇
数にあわせてGindex0とGindex1を切り換えてLPCゲイ
ン符号Gindexとして出力し923でこの処理は終了す
る。
ペクトル振幅列の符号化法を用いれば、例えば、LSP
符号に17ビット、LSPゲイン符号に8ビット(均一
量子化に5ビット+差分量子化と補間量子化に3ビッ
ト)の合計25ビットで2フレーム(または2サブフレ
ーム)分のハーモニックスペクトル振幅列の符号化が出
来る。図4、図5、図6に示した音声符号化パラメータ
の符号化手順に従えば、2フレーム(または2サブフレ
ーム)分の音声符号化パラメータを、直接法と差分法と
補間法を組み合わせて効率的に量子化すると同時に、量
子化によるフレームのパワーの変化を抑えた音声符号化
パラメータの低ビット量子化法を提供することができ
る。例えば、音声1フレーム分の20msec(10msecの
サブフレームの2サブフレーム分に相当)を、32ビッ
トで符号化することができ、その結果、1.6kbpsの低
ビットレートの音声符号化方法を実現することができ
る。
符号化方法を用いて符号化された符号化音声を復号する
場合には、前記図8におけるパラメータ復号化部307
で上述と逆の処理を行って音声基本周波数(あるいは音
声ピッチ)、有声/無声情報およびハーモニックスペク
トル振幅列を復元し、それを用いて音声合成部308で
合成音声を作成すればよい。このような音声復号化部お
よび音声合成部の一例について説明する。
メータ符号化装置により符号化された符号化音声を復号
する音声復号化部と音声合成部の一構成例を示すブロッ
ク図である。図示しない受信部を介して、音声符号化パ
ラメータとしての、有声/無声情報、ピッチ情報、LS
P符号、LSPゲイン符号がそれぞれ端子1001、1
004、1006、1009に入力される。有声/無声
符号1001は有声/無声符号復号部1003に入力さ
れ、ここで前記図1の音声符号化パラメータ符号化部に
おける代表有声/無声情報コードブック132と同じ内
容の代表有声/無声情報コードブック1002を用いて
有声/無声情報が復元される。伝送されなかったフレー
ムの有声/無声情報は前後のフレームからのフレームパ
ワーの大きいフレームの有声/無声情報で代用される。
ピッチ符号1004は、ピッチ復号部1005に入力さ
れ、その符号値により均一/差分量子化法が判断され
て、対応する逆量子化法によりピッチが復元される。補
間によりピッチを符号化したフレームのピッチに対して
は、ピッチ符号をピッチの補間符号として前後のフレー
ムのピッチから符号化時に行った補間の逆動作によりピ
ッチを復元する。
08で図1の音声符号化パラメータ符号化部のLSPコ
ードブック144と同じ内容のLSPコードブック10
07を用いてLSPが復元される。補間によりLSPを
符号化したフレームのLSPに対しては、前後のフレー
ムのLSPを用いて、符号化時の逆動作によりLSPを
復元する。LSPゲイン符号1009は、ゲイン復号部
1010で図1のゲイン量子化部148の逆動作により
LSPゲインを復号する。また、LSPゲインを差分又
は補間量子化を行ったフレームに対しては、LSP符号
値から対応する逆量子化法を判断してLSPゲインを復
号する。LSP復号部1008の出力のLSPと、ゲイ
ン復号部1010の出力のLSPゲインから、ハーモニ
ック振幅計算部1011で、前記式(1)に示したLP
C合成法を用いてハーモニック振幅列を復元する。
部1013の出力をランダムな雑音スペクトルとみなし
て、有声/無声信号が無声の周波数バンドの雑音スペク
トルパワーが、対応する周波数バンドのハーモニック振
幅列のパワーに一致する様に、雑音スペクトルのレベル
を周波数バンド毎に調整する。逆FFT部1014では
周波数バンド毎にレベル調整された雑音スペクトルを、
実部はゼロ周波数に対し対称に負周波数側に拡張し、虚
部はゼロ周波数に対し極性を反転して負周波数側に拡張
して逆FFTを行い、その結果得られる実部のみの時間
軸の音声信号を得る。フレーム補間部1015では、逆
FFTで得られた時間軸の音声信号を、フレーム間で補
間合成を行い無声部の音声合成信号を得る。
声/無声信号が有声の周波数バンドに対しては、ハーモ
ニック振幅値をハーニック振幅列計算部から得られた対
応する周波数バンド内のハーモニック振幅列の値に設定
し、それ以外の周波数バンド内のハーモニック振幅値を
ゼロとする。ハーモニック合成部1017では、その初
期位相が位相再生部1018からの各ハーモニック初期
位相であり、その振幅が有声ゲイン設定部1016で設
定されたハーモニック振幅値である正弦波により生成
し、その総和として有声の周波数バンドの音声合成信号
を得る。ここで、位相再生部1018は、フレーム間で
各ハーモニックの位相連続性を保つ様に、各ハーモニッ
ク正弦波の初期位相を設定すると同時に、初期位相の連
続性に擾乱を与えて、単純な正弦波合成に起因するバズ
音の発生を防止する。フレーム補間部1019ではフレ
ーム間の振幅変化を滑らかにし、フレーム間での急激な
レベル変化を防止している。有声バンドの音声合成信号
と無声バンドの音声合成信号は、加算器1020で加算
され、ポストフィルタ部1021で聴感上の音質改善フ
ィルタ処理を行った後、最終的な合成音声信号が端子1
022に出力される。
クトル振幅列を線スペクトル対(LSP)とゲインで量
子化したが、線形予測係数(LPC係数)とゲインで量
子化するようにしてもよい。また、以上の説明では、判
りやすくするために、図1の入力切換部103や、ピッ
チ符号切換部110、フレーム間引き部133、LSP
符号切換部146、ゲイン符号切換部151等はフレー
ム毎に切換ることとして説明したが、特にフレーム毎の
切換に限定するものではなく、異なる周期に変更して
も、関連する技術者、研究者には容易に必要な箇所を変
更して実現することが可能である。
ラメータ符号化方法及び装置によれば、音声のフレーム
毎に、音声ピッチ、各スペクトルバンドのV/UV情報、及
びハーモニックスペクトル振幅列からなる音声符号化パ
ラメータで表した分析合成型の音声符号化方法におい
て、音声ピッチを、対数ピッチとして差分量子化または
均一量子化するフレームと、フレーム間補間インデック
スで量子化するフレームの切り換えにより符号化するこ
とで、大幅に符号化ビット数を低下することが出来る。
また、V/UV情報を音声基本周波数の範囲で決まるバンド
数毎に、予め準備した代表V/UV値のインデックス番号で
符号化することで、合理的にV/UV符号化ビット数を削減
することが出来る。更に、V/UV情報をフレーム毎に間引
いて、V/UV情報を伝送しないフレームのV/UV情報は、前
後のフレームから類推する方法により更にV/UV符号化ビ
ット数を削減することが出来る。
次のハーモニック振幅値をモデル化しやすい値に修正
後、自己回帰型線形予測モデルでモデル化し、そのモデ
ル化係数である線形予測係数とゲインにより表現する。
線形予測係数は、ベクトル量子化して伝送するフレーム
と、すでに量子化された線形予測係数からフレーム間補
間により、最も誤差の少ない補間候補のインデックス番
号で量子化することで少ないビット数で符号化できる。
一方、ゲインは、量子化された線形予測係数から、ハー
モニックスペクトル振幅列を復元し、モデル化と線形予
測係数の量子化によるフレームのパワーの変化率によっ
て補正した後、その対数ゲインを均一量子化するフレー
ムと、前のフレームからの差分量子化もしくは前後のフ
レームからの補間量子化から誤差の少ない方で量子化す
るフレームの組み合わせで量子化する。これらにより、
ハーモニックスペクトル振幅列の量子化によるフレーム
の音声レベル変化を抑つつ、音声ハーモニックスペクト
ル振幅列を低ビットで符号化することができる。以上本
発明によれば、分析合成型の音声符号化方法及び装置に
おいて、符号化ビットレートを大きく低下する方法及び
装置を提供することが出来る。また、分析合成型の音声
符号化方法及び装置において、音声符号化のフレーム更
新周期を早くして符号化音声品質を向上させ、かつ符号
化ビット数の増大を防いだ音質の良い分析合成型の音声
符号化方法及び装置を提供することが出来る。
適用された音声符号化パラメータ符号化装置のブロック
図である。
図である。
ついて説明するための図である。
る。
の流れ図である。
する音声復号化部と音声合成部の一構成例を示すブロッ
ク図である。
る。
ある。
符号化部のブロック図である。
一量子化部、108ピッチ比較部、110 ピッチ符号
切換部、111 遅延部、112 減算部、113 差
分量子化部、114 加算部、117 補間ピッチ候補
作成部、119 補間点比較部、132 代表有声/無
声情報コードブック、133 フレーム間引き部、13
4 有声/無声比較部、141 スペクトル修正部、1
42線形予測モデル化部、143 LSP量子化部、1
44 LSPコードブック、145 LSP補間部、1
46 LSP符号切換部、147 ゲイン補正部、14
8 ゲイン量子化部、149 ゲイン差分量子化部、1
50 ゲイン補間量子化部、151 ゲイン符号切換
部、152 誤差計算部、153 ハーモニック復元部
Claims (3)
- 【請求項1】 デジタル化され所定時間長のフレームに
分割された音声信号から取得した音声符号化パラメータ
を符号化する音声符号化パラメータ符号化方法であっ
て、 前記音声符号化パラメータとしての音声ピッチを、差分
量子化法と均一量子化法の選択によりいずれかの量子化
法により量子化ピッチを得るフレームと、前後のフレー
ムの量子化ピッチを用いて計算した複数の補間ピッチ候
補から選択した補間ピッチのインデックスにより量子化
するフレームとの組み合わせにより符号化するステッ
プ、 前記音声符号化パラメータとしての有声/無声情報を、
限定された数の代表有声/無声情報から選択した代表有
声/無声情報のインデックスにより符号化するステッ
プ、 前記音声符号化パラメータとしてのハーモニックスペク
トル振幅列を、線形予測モデルによる線形予測係数もし
くはそれより導かれる線スペクトル対とゲインに分離
し、線形予測係数もしくは線スペクトル対については、
ベクトル量子化器などの量子化器により量子化するフレ
ームと、前後のフレームの量子化線形予測係数もしくは
線スペクトル対から線形補間器により求めた複数の候補
点から選択した候補点のインデックスにより補間量子化
するフレームとの組み合わせにより符号化するステッ
プ、 前記線形予測係数の量子化により発生するフレームのハ
ーモニックスペクトルパワーの変化に応じて前記ゲイン
を補正し補正ゲインを得るステップ、および、 該補正ゲインを対数化し、そのまま第1のゲイン量子化
器で均一量子化するフレームと、前のフレームの前記第
1のゲイン量子化器の量子化ゲインを基準とした差分量
子化器の出力値と、前後のフレームの前記第1の量子化
器の出力の複数の補間候補の選択により求めた補間量子
化器の出力値から、誤差の少ない方を選んで量子化する
第2のゲイン量子化器により量子化するフレームとの組
み合わせにより前記補正ゲインを符号化するステップを
含むことを特徴とする音声符号化パラメータ符号化方
法。 - 【請求項2】 前記補正ゲインを得るステップは、線形
予測モデル化前のハーモニック振幅列の二乗和により得
られるハーモニックスペクトルパワーと、量子化線形予
測係数と量子化前のゲインを用いて線形予測モデルによ
り得られるハーモニックスペクトル振幅値の二乗和から
求めたハーモニックスペクトルパワーの比を、前記ゲイ
ンに乗算することにより補正ゲインを計算するものであ
ることを特徴とする請求項1記載の音声符号化パラメー
タ符号化方法。 - 【請求項3】 デジタル化され所定時間長のフレームに
分割された音声信号から取得した音声符号化パラメータ
を符号化する音声符号化パラメータ符号化装置であっ
て、 前記音声符号化パラメータとしての音声ピッチを、差分
量子化法と均一量子化法の選択によりいずれかの量子化
法により量子化するフレームと、前後のフレームの量子
化ピッチを用いて計算した複数の補間ピッチ候補から選
択した補間ピッチのインデックスにより量子化するフレ
ームの組み合わせにより符号化する手段と、 前記音声符号化パラメータとしての有声/無声情報を、
限定された数の代表有声/無声情報から選択した代表有
声/無声情報のインデックスにより符号化する手段と、 前記音声符号化パラメータとしてのハーモニックスペク
トル振幅列を、線形予測モデルによる線形予測係数もし
くはそれより導かれる線スペクトル対とゲインに分離
し、線形予測係数もしくは線スペクトル対については、
ベクトル量子化器などの量子化器により量子化するフレ
ームと、前後のフレームの量子化線形予測係数もしくは
線スペクトル対から線形補間器により求めた複数の候補
点から選択した候補点のインデックスにより補間量子化
するフレームの組み合わせにより符号化する手段と、 前記線形予測係数の量子化により発生するフレームのハ
ーモニックスペクトルパワーの変化に応じて上記ゲイン
を補正し補正ゲインを得る手段と、 該補正ゲインを対数化し、そのまま第1のゲイン量子化
器で均一量子化するフレームと、前のフレームの前記第
1のゲイン量子化器の量子化ゲインを基準とした差分量
子化器の出力値と、前後のフレームの前記第1の量子化
器の出力の複数の補間候補の選択により求めた補間量子
化器の出力値から、誤差の少ない方を選んで量子化する
第2のゲイン量子化器により量子化するフレームの組み
合わせにより前記補正ゲインを符号化する手段とを有す
ることを特徴とする音声符号化パラメータ符号化装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001167913A JP3472279B2 (ja) | 2001-06-04 | 2001-06-04 | 音声符号化パラメータ符号化方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001167913A JP3472279B2 (ja) | 2001-06-04 | 2001-06-04 | 音声符号化パラメータ符号化方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002366195A JP2002366195A (ja) | 2002-12-20 |
JP3472279B2 true JP3472279B2 (ja) | 2003-12-02 |
Family
ID=19010226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001167913A Expired - Fee Related JP3472279B2 (ja) | 2001-06-04 | 2001-06-04 | 音声符号化パラメータ符号化方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3472279B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101037931B1 (ko) | 2004-05-13 | 2011-05-30 | 삼성전자주식회사 | 2차원 데이터 처리를 이용한 음성 신호 압축 및 복원장치와 그 방법 |
JP4618634B2 (ja) * | 2004-10-07 | 2011-01-26 | Kddi株式会社 | 圧縮オーディオデータ処理方法 |
KR100707184B1 (ko) | 2005-03-10 | 2007-04-13 | 삼성전자주식회사 | 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체 |
WO2007077841A1 (ja) * | 2005-12-27 | 2007-07-12 | Matsushita Electric Industrial Co., Ltd. | 音声復号装置および音声復号方法 |
JP4816115B2 (ja) * | 2006-02-08 | 2011-11-16 | カシオ計算機株式会社 | 音声符号化装置及び音声符号化方法 |
US8737602B2 (en) | 2012-10-02 | 2014-05-27 | Nvoq Incorporated | Passive, non-amplified audio splitter for use with computer telephony integration |
PL3139382T3 (pl) * | 2014-05-01 | 2019-11-29 | Nippon Telegraph & Telephone | Urządzenie kodujące sygnał dźwiękowy, sposób kodowania sygnału dźwiękowego, program i nośnik rejestrujący |
ES2761681T3 (es) * | 2014-05-01 | 2020-05-20 | Nippon Telegraph & Telephone | Codificación y descodificación de una señal de sonido |
CN109346093B (zh) * | 2018-12-17 | 2019-09-03 | 山东省计算中心(国家超级计算济南中心) | 一种低速率声码器子带清浊音参数提取与量化的融合方法 |
-
2001
- 2001-06-04 JP JP2001167913A patent/JP3472279B2/ja not_active Expired - Fee Related
Non-Patent Citations (2)
Title |
---|
麓照夫,佐々木誠司,業務用移動通信向け1.6kbps音声符号化方式の検討,2001年電子情報通信学会総合大会講演論文集,2001年 3月 7日,D−14−26,p.196 |
麓照夫,佐々木誠司,業務用移動通信向け音声符号化方式の検討−ピッチ及びV/UVの量子化−,2000年電子情報通信学会情報・システムソサイエティ大会講演論文集,2000年 9月 7日,D−14−1,p.274 |
Also Published As
Publication number | Publication date |
---|---|
JP2002366195A (ja) | 2002-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3881943B2 (ja) | 音響符号化装置及び音響符号化方法 | |
EP0927988B1 (en) | Encoding speech | |
RU2214048C2 (ru) | Способ кодирования речи (варианты), кодирующее и декодирующее устройство | |
US7957963B2 (en) | Voice transcoder | |
JP5343098B2 (ja) | スーパーフレーム構造のlpcハーモニックボコーダ | |
JP2001222297A (ja) | マルチバンドハーモニック変換コーダ | |
JP3881946B2 (ja) | 音響符号化装置及び音響符号化方法 | |
JP2004310088A (ja) | 半レート・ボコーダ | |
JPS60116000A (ja) | 音声符号化装置 | |
CN101542599A (zh) | 用于编码和解码宽带语音信号的方法、装置和系统 | |
JPH08263099A (ja) | 符号化装置 | |
JP4558205B2 (ja) | スピーチコーダパラメータの量子化方法 | |
JP2007504503A (ja) | 低ビットレートオーディオ符号化 | |
JP2002118517A (ja) | 直交変換装置及び方法、逆直交変換装置及び方法、変換符号化装置及び方法、並びに復号装置及び方法 | |
JP3472279B2 (ja) | 音声符号化パラメータ符号化方法及び装置 | |
US7072830B2 (en) | Audio coder | |
KR100508618B1 (ko) | 피치 주기 탐색 범위 설정 장치, 피치 주기 탐색 장치,적응 음원 벡터의 생성 장치, 음성 부호화 장치, 음성복호화 장치, 음성 신호 송신 장치, 음성 신호 수신 장치,이동국 장치 및 기지국 장치 | |
JP3453116B2 (ja) | 音声符号化方法及び装置 | |
JP3193515B2 (ja) | 音声符号化通信方式及びその装置 | |
JP4574320B2 (ja) | 音声符号化方法、広帯域音声符号化方法、音声符号化装置、広帯域音声符号化装置、音声符号化プログラム、広帯域音声符号化プログラム及びこれらのプログラムを記録した記録媒体 | |
JP3731575B2 (ja) | 符号化装置及び復号装置 | |
KR100341398B1 (ko) | 씨이엘피형 보코더의 코드북 검색 방법 | |
JP4638895B2 (ja) | 復号方法、復号器、復号装置、プログラムおよび記録媒体 | |
JPH0573098A (ja) | 音声処理装置 | |
JPH07134600A (ja) | 音声符号化装置及び音声復号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080912 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080912 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090912 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090912 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100912 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110912 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120912 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120912 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130912 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |