JP3566652B2

JP3566652B2 - 広帯域信号の効率的な符号化のための聴覚重み付け装置および方法

Info

Publication number: JP3566652B2
Application number: JP2000578811A
Authority: JP
Inventors: ベッセット，ブルーノ; サラミ，レッドワン; レフェブル，ロシュ
Original assignee: ボイスエイジコーポレイション
Priority date: 1998-10-27
Filing date: 1999-10-27
Publication date: 2004-09-15
Anticipated expiration: 2019-10-27
Also published as: ES2212642T3; MXPA01004181A; ZA200103366B; JP2002528775A; AU752229B2; CA2347667A1; ATE246389T1; EP1125276B1; ZA200103367B; KR100417635B1; CA2252170A1; DE69910239D1; NO20012067D0; JP3490685B2; US6807524B1; US7151802B1; EP1125286A1; ES2205892T3; AU6457099A; ATE246834T1

Description

【０００１】
発明の背景
１．発明の分野
本発明は、重み付けされた広帯域信号（０−７０００Ｈｚ）と後で合成された重み付けされた広帯域信号との間の差を低減させるように、広帯域信号に応答して聴覚的に重み付けされた信号を生成するための聴覚重み付け装置および方法に関する。
【０００２】
２．従来技術の簡単な説明
例えば音声／映像電子会議システム、マルチメディア、ワイヤレスアプリケーション、並びに、インターネットおよびパケットネットワークアプリケーションのような様々な用途において、主観的品質／ビットレートの良好なトレードオフを有する効率的なディジタル広帯域音声／オーディオ符号化技術に対する要求がますます高まっている。最近になるまで、主として２００−３４００Ｈｚ帯域内のフィルタリングされた電話帯域幅が音声符号化アプリケーションで使用されていた。しかし、音声信号の了解性と自然さを向上させるために、広帯域音声アプリケーションに対する要求がますます高まっている。５０−７０００Ｈｚ帯域の帯域幅が、対面音声品質を実現するのに十分であることが発見された。オーディオ信号に関しては、この帯域は許容可能なオーディオ品質をもたらすが、この品質は２０−２００００Ｈｚ帯域を使用するＣＤ品質よりは依然として低い。
【０００３】
音声エンコーダが音声信号をディジタルビットストリームに変換し、このディジタルビットストリームが通信チャネルを経由して伝送される（または、記憶媒体内に記憶される）。音声信号はディジタル化され（すなわち、通常は１６ビットサンプリングによって量子化され）、音声エンコーダは、より少ないビット数でこれらのディジタルサンプルを表現すると同時に良好な主観的音声品質を維持するという役割を有する。この音声デコーダ或いはシンセサイザは、伝送または記憶されたビットストリームに演算を施し、このビットストリームを変換して音声信号に戻す。
【０００４】
優れた品質／ビットレートのトレードオフを実現することが可能な最良の従来技術の１つが、いわゆる符号励起線形予測（ＣＥＬＰ）方式である。この方式では、サンプリングされた音声信号を、一般にフレームと呼ばれる、１個のブロックがＬ個のサンプルから成る連続したブロックの形で処理し、ここでＬは（１０−３０ミリ秒の音声に対応する）何らかの予め決められた数である。ＣＥＬＰでは、各フレーム毎に線形予測（ＬＰ）合成フィルタを計算して伝送する。その次に、Ｌ個のサンプルから成るフレームを、Ｎ個のサンプルから成るサブフレームと呼ばれるより小さいブロックに分割し、ここではＬ＝ｋＮでありかつｋは１フレーム内のサブフレームの個数である（Ｎは一般に４−１０ミリ秒の音声に対応する）。励起信号を各サブフレーム内で求め、この励起信号は、一般に、２つの成分、すなわち、直前の励起（ピッチ寄与（ｐｉｔｃｈｃｏｎｔｒｉｂｕｔｉｏｎ）または適応コードブックとも呼ばれる）からの一方の成分と、イノベーティブコードブック（ｉｎｎｏｖａｔｉｖｅｃｏｄｅｂｏｏｋ）（固定コードブックとも呼ばれる）からの他方の成分とから成る。この励起信号が伝送され、合成音声を得るためにＬＰ合成フィルタの入力としてデコーダで使用される。
【０００５】
ＣＥＬＰにおけるイノベーティブコードブックは、Ｎ次元のコードベクトルと呼ばれるサンプルＮ個分の長さのシーケンスの索引付きセットである。各々のコードブックシーケンスは、１からＭの範囲内の整数ｋによる索引を付けられ、ここでＭはビット数ｂとして表現されることが多いコードブックのサイズを表し、ここでＭ＝２^ｂである。
【０００６】
ＣＥＬＰ方式によって音声を合成するためには、コードブックからの適切なコードベクトルを音声信号のスペクトル特徴をモデル化する時変フィルタを通してフィルタリングすることによって、Ｎ個のサンプルから成るブロックの各々を合成する。エンコーダ側では、コードブックからのコードベクトルの全てまたはそのサブセットに関して合成出力を計算する（コードブック探索）。こうして得られたコードベクトルは、聴覚的に重み付けされた歪み測度にしたがってオリジナルの音声信号に最も近い合成出力を生成するコードベクトルである。この聴覚重み付けを、いわゆる聴覚重み付けフィルタを使用して行い、この聴覚重み付けフィルタは一般的にＬＰ合成フィルタから得られる。
【０００７】
ＣＥＬＰモデルは電話帯域の音声信号の符号化に非常に有効であり、ＣＥＬＰを基礎とする幾つかの規格が、広範囲のアプリケーション、特にディジタル移動電話アプリケーションにおいて存在している。電話帯域では、音声信号は２００−３４００Ｈｚに帯域制限され、８０００サンプル／秒でサンプリングされる。広帯域音声／オーディオアプリケーションでは、音声信号は５０−７０００Ｈｚに帯域制限され、１６０００サンプル／秒でサンプリングされる。
【０００８】
電話帯域に最適化されたＣＥＬＰモデルを広帯域信号に適用する時には幾つかの問題が生じ、高品質の広帯域信号を得るためにはこのモデルに追加の特徴を加えることが必要である。広帯域信号は、電話帯域信号に比較してはるかに広いダイナミックレンジを示し、このことが、（ワイヤレスアプリケーションでは必須である）このアルゴリズムの固定小数点処理系が必要とされる時に、精度上の問題を生じさせる。さらに、ＣＥＬＰモデルは、通常はより高いエネルギー成分を有する低周波数領域にその符号化ビットの大半を費やすことが多く、この結果としてローパスの出力信号が生じる。この問題を克服するために、聴覚重み付けフィルタを広帯域信号に適合するように改変しなければならず、かつ、高周波数領域を強調するプリエンファシス方式が、ダイナミックレンジを低減させてより単純な固定小数点処理系を実現するために、および、信号のより高い周波数の成分をより適切に符号化することを確実にするために重要になる。
【０００９】
ＣＥＬＰタイプのエンコーダでは、聴覚重み付けドメイン内で入力音声と合成音声との間の平均２乗誤差を最小化することによって、最適のピッチとイノベーティブコードブックとを探索する。これは、重み付けされた入力音声と重み付けされた合成音声との間の誤差を最小化することと同等であり、この場合に、重み付けは、次式の伝達関数Ｗ（ｚ）を有するフィルタを使用して行われる。
【００１０】
Ｗ（ｚ）＝Ａ（ｚ／ｇ_１）／Ａ（ｚ／ｇ_２）ここで０＜Γ_２＜Γ_１≦１．
「合成による分析（ＡｂＳ）」コーダでは、量子化誤差が重み付けフィルタの逆フィルタＷ^−１（ｚ）によって重み付けられ、この逆フィルタが入力信号におけるフォルマント構造の一部分を示すということが分析から明らかになっている。したがって、フォルマント領域内により多くのエネルギーを有するように量子化誤差を整形することによって、人間の耳のマスキング特性を利用して、このフォルマント領域内に存在する強い信号エネルギーで量子化誤差をマスキングする。重み付けの量を係数Γ_１およびΓ_２によって制御する。
【００１１】
このフィルタは電話帯域信号に対しては適切に働く。しかし、このフィルタが広帯域信号に適用される時には効率的な聴覚重み付けに適していないということが明らかになった。このフィルタがフォルマント構造とこれに必要とされるスペクトル傾斜（ｓｐｅｃｔｒａｌｔｉｌｔ）とを同時にモデル化する上で固有の制限を有することが明らかになっている。このスペクトル傾斜は、広帯域信号においては、その低周波数と高周波数の間の広いダイナミックレンジのために、より一層顕著になる。スペクトル傾斜とフォルマントの重み付けを別々に制御するために、フィルタＷ（ｚ）に傾斜フィルタ（ｔｉｌｔｆｉｌｔｅｒ）を加えることが提案された。
発明の目的
したがって、本発明の目的は、高品質の再生信号を得るために改変された聴覚重み付けフィルタを使用し、かつ、固定小数点アルゴリズム処理系を実行可能にする、広帯域信号に適合させた聴覚重み付け装置および方法を提供することである。
発明の概要
さらに明確に述べると、本発明によって、重み付けされた広帯域信号と後に合成される重み付けされた広帯域信号との間の差を低減させるように、広帯域信号に応答して聴覚的に重み付けされた信号を生成する聴覚重み付け装置が提供される。この聴覚重み付け装置は、
ａ）広帯域信号に応答して、広帯域信号の高周波数成分を強調し、プリエンファシスされた信号を生成する信号プリエンファシスフィルタと、
ｂ）プリエンファシスされた信号に応答して、合成フィルタ係数を生成する合成フィルタ計算器と、
ｃ）プリエンファシスされた信号と合成フィルタ係数とに応答して、プリエンファシスされた信号を合成フィルタ係数に関してフィルタリングし、聴覚的に重み付けされた信号を生成する聴覚重み付けフィルタ
とを含む。聴覚重み付けフィルタは、固定した分母を有する伝達関数を有し、それによって、フォルマント領域内の広帯域信号の重み付けがその広帯域信号のスペクトル傾斜から実質的に切り離される。
【００１２】
さらに、本発明は、重み付けされた広帯域信号と後に合成される重み付けされた広帯域信号との間の差を低減させるように、広帯域信号に応答して聴覚的に重み付けされた信号を生成する方法にも関する。この方法は、強調した高周波数成分を有するプリエンファシスされた信号を生成するために広帯域信号をフィルタリングすることと、プリエンファシスされた信号から合成フィルタ係数を計算することと、合成フィルタ係数に関してプリエンファシスされた信号をフィルタリングして、聴覚的に重み付けされた音声信号を生成することとを含む。このフィルタリングは、フォルマント領域における広帯域信号の重み付けが広帯域信号のスペクトル傾斜から実質的に切り離されるように、固定した分母を有する伝達関数を有する聴覚重み付けフィルタを通してプリエンファシス信号を処理することを含む。
【００１３】
本発明の好ましい一実施態様では、
− ダイナミックレンジの縮小が、次式の伝達関数によって広帯域信号をフィルタリングすることを含み、
Ｐ（ｚ）＝１−μｚ^−１
ここでμが、０から１の値を有するプリエンファシス係数である。
【００１４】
− プリエンファシス係数μは０．７である。
− 聴覚重み付けフィルタは次式の伝達関数を有し、
Ｗ（ｚ）＝Ａ（ｚ／γ_１）／（１−γ_２ｚ^−１）
ここで０＜γ_２＜γ_１≦１であり、かつ、γ_２とγ_１は重み付け制御値である。
− 変数γ_２はμに等しいように設定されている。
【００１５】
したがって、量子化誤差の全体的な聴覚重み付けが、スペクトル傾斜とフォルマントとの重み付けを別々に制御するように、プリエンファシスフィルタと、復号した広帯域音声信号の高い主観的品質を実現する改変された重み付けフィルタとをフィルタＷ（ｚ）の形に組み合わせることによって得られる。
したがって、従来技術の簡単な説明で示した問題に対する解決策は、プリエンファシスフィルタを入力に導入することと、プリエンファシスされた信号に基づいて合成フィルタ係数を計算することと、分母を固定することによって改変された聴覚重み付けフィルタを使用することである。広帯域信号のダイナミックレンジを縮小することによって、プリエンファシスフィルタは、広帯域信号を固定小数点処理系により適したものにし、そのスペクトルの高周波数成分の符号化を改善する。
【００１６】
さらに、本発明は、広帯域信号を符号化するエンコーダに関し、このエンコーダは、ａ）上述の聴覚重み付け装置と、ｂ）聴覚的に重み付けされた信号に応答してピッチコードブックパラメータとイノベーティブ探索ターゲットベクトルとを生成するピッチコードブック探索装置と、ｃ）合成フィルタ係数とイノベーティブ探索ターゲットベクトルとに応答してイノベーティブコードブックパラメータを生成するイノベーティブコードブック探索装置と、ｄ）ピッチコードブックパラメータとイノベーティブコードブックパラメータと合成フィルタ係数とを含む符号化された広帯域信号を生成する信号形成装置とを含む。
【００１７】
さらに、本発明によって、
− 複数のセルに分割されている広い地理的区域に通信サービスを提供するセルラー通信システムが提供され、このシステムは、ａ）移動送信機／受信機ユニットと、ｂ）それぞれにセル内に配置されているセルラー基地局と、ｃ）セルラー基地局間の通信を制御する制御端末装置と、ｄ）１つのセル内に位置した各移動ユニットとこのセルのセルラー基地局との間の双方向無線通信サブシステムとを含み、この双方向無線通信サブシステムは、移動ユニットとセルラー基地局との両方において、
ｉ）広帯域信号を符号化する上述のエンコーダと、符号化された広帯域信号を送信する送信回路とを含む送信機と、
ｉｉ）送信された符号化広帯域信号を受信する受信回路と、受信された符号化広帯域信号を復号するデコーダとを含む受信機
とを含む。
【００１８】
− セルラー移動送信機／受信機ユニットが提供され、このユニットは、
ａ）広帯域信号を符号化する上述のエンコーダと、符号化された広帯域信号を送信する送信回路とを含む送信機と、
ｂ）送信された符号化広帯域信号を受信する受信回路と、受信された符号化広帯域信号を復号するデコーダとを含む受信機
とを含む。
【００１９】
− セルラーネットワーク要素が提供され、このセルラーネットワーク要素は、
ａ）広帯域信号を符号化する上述のエンコーダと、符号化された広帯域信号を送信する送信回路とを含む送信機と、
ｂ）送信された符号化広帯域信号を受信する受信回路と、受信された符号化広帯域信号を復号するデコーダとを含む受信機
とを含む。
【００２０】
− １つのセル内に位置した各移動ユニットとこのセルのセルラー基地局との間の双方向無線通信サブシステムが提供され、この双方向無線通信サブシステムは、移動ユニットとセルラー基地局の両方において、
ａ）広帯域信号を符号化する上述のエンコーダと、符号化された広帯域信号を送信する送信回路とを含む送信機と、
ｂ）送信された符号化広帯域信号を受信する受信回路と、受信された符号化広帯域信号を復号するデコーダとを含む受信機
とを含む。
【００２１】
添付図面を参照しながら、本発明の単なる具体例として示す本発明の好ましい実施形態に関する以下の非限定的な説明を理解することによって、本発明の目的と利点と他の特徴とがより明確になるだろう。
好ましい実施形態の詳細な説明
当業者に周知であるように、４０１（図４を参照されたい）のようなセルラー通信システムが、広い地理的区域をＣ個のより小さいセルに分割することによってその広い地理的区域全体にわたって通信サービスを提供する。Ｃ個の小さいセルは、その各セルに無線信号チャネルとオーディオチャネルとデータチャネルとを提供するべつべつのセルラー基地局４０２_１、４０２_２、．．．、４０２_Ｃによって通信サービスを提供される。
【００２２】
無線信号チャネルは、セルラー基地局４０２のサービスエリア（セル）の限界内の４０３のような移動無線電話（移動送信機／受信機ユニット）の呼出と、基地局のセルの内側もしくは外側に位置する他の無線電話４０３に対して、または、公衆交換電話網（ＰＳＴＮ）４０４のような別のネットワークに対して呼出を行うために使用される。
【００２３】
無線電話４０３が呼出を行うことに成功するかまたは呼出を受信することに成功すると、オーディオチャネルまたはデータチャネルが、この無線電話４０３と、この無線電話４０３が中に位置しているセルに対応するセルラー基地局４０２との間に確立され、基地局４０２と無線電話４０３との間の通信がオーディオチャネルまたはデータチャネルを通して行われる。さらに、無線電話４０３は、通話が進行している最中に無線信号チャネルを通して制御情報またはタイミング情報を受信することもできる。
【００２４】
通話が進行している最中に無線電話４０３がセルの外に出て別の隣接セルの中に入る場合には、無線電話４０３は、その新たなセル基地局４０２の使用可能なオーディオまたはデータチャネルに通話をハンドオーバーする。通話が進行していない時に無線電話４０３がセルの外に出て別の隣接セルの中に入る場合には、無線電話４０３は、新たなセルの基地局４０２にログインするために無線信号送信チャネルを通して制御メッセージを送る。このようにして、広い地理的区域全体にわたっての移動通信が可能である。
【００２５】
さらに、セルラー通信システム４０１は、例えば無線電話４０３とＰＳＴＮ４０４との間の通信、または、第１のセル内に位置した無線電話４０３と第２のセル内に位置した無線電話４０３との間の通信の最中に、セルラー基地局４０２とＰＳＴＮ４０４との間の通信を制御するための制御端末装置４０５を含む。もちろん、１つのセルの基地局４０２とそのセル内に位置した無線電話４０３との間にオーディオチャネルまたはデータチャネルを確立するためには、双方向無線通信サブシステムが必要である。図４に非常に単純化して示しているように、こうした双方向無線通信サブシステムは、一般に、無線電話４０３内に、
音声信号を符号化するエンコーダ４０７と、エンコーダ４０７からの符号化音声信号を４０９のようなアンテナを通して送信する送信回路４０８とを含む送信機４０６と、
一般には同一のアンテナ４０９を通して、送信された符号化音声信号を受信する受信回路４１１と、受信回路４１１からの受信した符号化音声信号を復号するデコーダ４１２とを含む受信機４１０
とを含む。
【００２６】
さらに、無線電話は、エンコーダ４０７とデコーダ４１２とが接続されておりかつこれらからの信号を処理するための他の従来通りの無線電話回路４１３も含み、この回路４１３は当業者に公知であり、したがって本明細書ではさらに詳細には説明しない。
さらに、こうした双方向無線通信サブシステムは、一般に、その基地局４０２内に、
音声信号を符号化するエンコーダ４１５と、エンコーダ４１５からの符号化音声信号を４１７のようなアンテナを通して送信する送信回路４１６とを含む送信機４１４と、
同一のアンテナ４０９または別のアンテナ（図示していない）を通して、送信された符号化音声信号を受信する受信回路４１９と、受信回路４１９からの受信した符号化音声信号を復号するデコーダ４２０とを含む受信機４１８
とを含む。
【００２７】
さらに、基地局４０２は、一般に、制御端末装置４０５と送信機４１４と受信機４１８の間の通信を制御するための、基地局制御装置４２１とこれに関連したデータベース４２２とを含む。
当業者には周知であるように、双方向無線通信サブシステムにおいて、すなわち、無線電話４０３と基地局４０２との間で、例えば音声といった有声音信号のような音響信号を送信するのに必要な帯域幅を縮小するために、音声符号化が必要とされている。
【００２８】
符号励起線形予測（ＣＥＬＰ）エンコーダのように一般に１３キロビット／秒以下で動作する（４１５および４０７のような）ＬＰボイスエンコーダは、音声信号の短期スペクトル包絡線をモデル化するためにＬＰ合成フィルタを使用することが一般的である。一般には１０ミリ秒毎または２０ミリ秒毎にＬＰ情報がデコーダ（例えば、４２０、４１２）に伝送され、デコーダ側で抽出される。
【００２９】
本明細書で開示する新規の方法は、ＬＰに基づく別の符号化システムを使用してもよい。しかし、ＣＥＬＰタイプの符号化システムを、本発明の方法を非限定的に例示するための好ましい実施形態で使用する。同様に、こうした方式を、有声音および音声以外の音響信号と共に使用することも、他のタイプの広帯域信号と共に使用することも可能である。
【００３０】
図１は、広帯域信号により適切に適合するように改変されたＣＥＬＰタイプの音声符号化装置１００の略ブロック図を示す。
サンプリングされた入力音声信号１１４が、ブロック１個当たりＬ個のサンプルから成る連続した「フレーム」と呼ばれるブロックに分割される。各フレームにおいて、そのフレーム内の音声信号を表す異なったパラメータが計算され、符号化され、伝送される。一般的に、ＬＰ合成フィルタを表現するＬＰパラメータが各フレーム毎に１回計算される。各フレームは、Ｎ個のサンプルから成るより小さいブロック（長さＮのブロック）にさらに分割され、このブロックでは励起パラメータ（ピッチおよびイノベーション）が求められる。ＣＥＬＰの文献では、こうした長さＮのブロックは「サブフレーム」と呼ばれ、このサブフレーム中のＮ個のサンプル信号は「Ｎ次元ベクトル」と呼ばれている。この好ましい実施形態では、長さＮは５ミリ秒に相当し、一方、長さＬは２０ミリ秒に相当し、このことは、１個のフレームが４個のサブフレームを含むことを意味する（１６ｋＨｚのサンプリングレートではＮ＝８０であり、１２．８ｋＨｚへのダウンサンプリング後では、Ｎ＝６４である）。様々なＮ次元ベクトルが符号化手順中に生じる。図１と図２に現れるベクトルのリストと、伝送されるパラメータのリストとを次に示す。
主要なＮ次元ベクトルのリスト
ｓ広帯域信号入力音声ベクトル（ダウンサンプリングと前処理とプリエンファシスとの後）、
ｓ_ｗ重み付けされた音声ベクトル、
ｓ_ｏ重み付けされた合成フィルタのゼロ入力応答、
ｓ_ｐダウンサンプリングされ前処理された信号、
オーバサンプリングされた合成音声信号、
ｓ′ デエンファシス前の合成信号、
ｓ_ｄデエンファシスされた合成信号、
ｓ_ｈデエンファシスおよび後処理後の合成信号、
ｘピッチ探索のためのターゲットベクトル、
ｘ′ イノベーション探索のためのターゲットベクトル、
ｈ重み付けされた合成フィルタインパルス応答、
ｖ_Ｔ遅延Ｔにおける適応（ピッチ）コードブック、
ｙ_Ｔフィルタリングされたピッチコードブックベクトル（ｈと畳み込み演算されたｖ_Ｔ）、
ｃ_ｋ索引ｋにおけるイノベーティブコードベクトル（イノベーションコードブックからのｋ番目のエントリ）、
ｃ_ｆ強調されたスケーリング済みイノベーションコードベクトル、
ｕ励起信号（スケーリングされたイノベーションコードベクトルおよびピッチコードベクトル）、
ｕ′ 強調された励起、
ｚ帯域通過ノイズシーケンス、
ｗ′ ホワイトノイズシーケンス、
ｗスケーリングされたノイズシーケンス。
伝送されるパラメータのリスト
ＳＴＰ短期予測パラメータ（Ａ（ｚ）を定義する）、
Ｔピッチ遅れ（すなわち、ピッチコードブック索引）、
ｂピッチゲイン（すなわち、ピッチコードブックゲイン）、
ｊピッチコードベクトルで使用されるローパスフィルタの索引、
ｋコードベクトル索引（イノベーションコードブックエントリ）、
ｇイノベーションコードブックゲイン。
【００３１】
この好ましい実施形態では、ＳＴＰパラメータはフレーム１個当たり１回伝送され、その他のパラメータはフレーム１個当たり４回（すなわち各サブフレーム毎に１回）伝送される。
エンコーダ側
サンプリングされた音声信号を、１０１から１１１の番号が付いた１１個のモジュールに分けた図１の符号化装置１００によって各ブロック単位で符号化する。
【００３２】
入力音声を、フレームと呼ばれる上述のＬ個のサンプルから成るブロックの形に処理する。
図１を参照すると、サンプリングされた入力音声信号１１４をダウンサンプリングモジュール１０１においてダウンサンプリングする。例えば、当業者に周知の方法を使用して、この信号を１６ｋＨｚから１２．８ｋＨｚにダウンサンプリングする。もちろん、別の周波数へのダウンサンプリングも想定可能である。ダウンサンプリングは、より小さい周波数帯域幅が符号化されるので、符号化効率を向上させる。さらに、これは、１フレーム中のサンプルの数が減少させられるので、アルゴリズムの複雑性を低減させる。ビットレートを１６キロビット／秒未満に低下させる時には、ダウンサンプリングの使用が重要になるが、１６キロビット／秒を越える場合にはダウンサンプリングは不可欠ではない。
【００３３】
ダウンサンプリング後に、２０ミリ秒あたり３２０サンプルフレームが２４５サンプルフレームに縮小される（ダウンサンプリング率は４／５である）。
その次に、入力フレームを随意採用の前処理ブロック１０２に送る。前処理ブロック１０２は、５０Ｈｚのカットオフ周波数を有するハイパスフィルタから成ってもよい。ハイパスフィルタ１０２は、５０Ｈｚ未満の不要な音響成分を除去する。
【００３４】
ダウンサンプリングされ前処理された信号を、ｓ_ｐ（ｎ）、ｎ＝０，１，２，．．．、Ｌ−１で表し、ここでＬはフレームの長さである（１２．８ｋＨｚのサンプリング周波数では２５６）。プリエンファシスフィルタ１０３の好ましい具体例では、信号ｓ_ｐ（ｎ）は、次の伝達関数を有するフィルタを使用してプリエンファシスされる。
【００３５】
Ｐ（ｚ）＝１−μｚ^−１
ここでμは、０から１の値を有するプリエンファシス係数である（典型的な値はμ＝０．７である）。より高次のフィルタを使用してもよい。より効率的な固定小数点処理系を得るために、ハイパスフィルタ１０２とプリエンファシスフィルタ１０３とを互いに交換することが可能であることを指摘しておかなければならない。
【００３６】
プリエンファシスフィルタ１０３の機能は、入力信号の高周波数成分を強調することである。さらに、このプリエンファシスフィルタ１０３は入力音声信号のダイナミックレンジを縮小し、このことが入力音声信号を固定小数点処理系により一層適したものにする。プリエンファシスを行わない場合には、固定小数点を使用する単精度演算の形でのＬＰ分析は実行が困難である。
【００３７】
プリエンファシスはさらに、量子化誤差の適正な包括的な聴覚重み付けを実現する上で重要な役割を果たし、音質の改善に寄与する。これについては、さらに詳細に後述する。
プリエンファシスフィルタ１０３の出力をｓ（ｎ）で表す。この信号は、計算器モジュール１０４でＬＰ分析を行うために使用される。ＬＰ分析は当業者に周知の方法である。この好ましい実施形態では、自己相関アプローチを使用する。この自己相関アプローチでは、最初に、（約３０−４０ミリ秒の長さを有することが一般的である）ハミング窓を使用して信号ｓ（ｎ）をウィンドウ処理する。このウィンドウ処理された信号から自己相関を計算し、ＬＰフィルタ係数ａ_ｉを計算するためにレヴィンソン−ダービンの再帰計算を使用し、ここでｉ＝１，．．．，ｐであり、ｐはＬＰ次数であり、広帯域符号化の場合には１６であることが一般的である。パラメータａ_ｉは、ＬＰフィルタの伝達関数の係数であり、次の関係式で示される。
【００３８】
【数１】

【００３９】
ＬＰ分析を計算器モジュール１０４で行い、この計算器モジュール１０４はさらに、ＬＰフィルタ係数の量子化と補間も行う。最初に、ＬＰフィルタ係数を、量子化と補間により適している別の同等のドメインに変換する。線スペクトル対（ＬＳＰ）ドメインとイミタンス（ｉｍｍｉｔａｎｃｅ）スペクトル対（ＩＳＰ）ドメインとが、量子化と補間を効率的に行うことができる２つのドメインである。１６個のＬＰフィルタ係数ａ_ｉを、分割量子化または多段量子化またはこれらの組合せを使用して約３０ビットから５０ビットに量子化することが可能である。補間の目的は、各フレーム毎に１回ずつＬＰフィルタ係数を伝送しつつ各サブフレーム毎にＬＰフィルタ係数を更新することを可能にすることであり、このことがビットレートを増加させることなしにエンコーダの性能を向上させる。ＬＰフィルタ係数の量子化と補間は、他の点では当業者に周知であると考えられ、したがって本明細書ではさらに詳細には説明しない。
【００４０】
【数２】

【００４１】
聴覚重み付け
「合成による分析」エンコーダでは、聴覚的に重み付けされたドメインにおいて入力音声と合成音声の間の平均２乗誤差を最小化することによって、最適のピッチおよびイノベーションパラメータを探索する。これは、重み付けされた入力音声と重み付けされた合成音声との間の誤差を最小化することと同等である。
【００４２】
重み付けされた信号ｓ_ｗ（ｎ）を、聴覚重み付けフィルタ１０５で計算する。従来通りに、重み付けされた信号ｓ_ｗ（ｎ）を、次式の伝達関数Ｗ（ｚ）を有する重み付けフィルタによって計算する。
Ｗ（ｚ）＝Ａ（ｚ／γ_１）／Ａ（ｚ／γ_２）ここで０＜γ_２＜γ_１≦１
当業者には周知であるように、従来技術の「合成による分析」（ＡｂＳ）エンコーダでは、聴覚重み付けフィルタ１０５の伝達関数の逆関数である伝達関数Ｗ^−１（ｚ）によって量子化誤差が重み付けされるということが分析によって示されている。この結果は、Ｂ．Ｓ．ＡｔａｌおよびＭ．Ｒ．Ｓｃｈｒｏｅｄｅｒ，“Ｐｒｅｄｉｃｔｉｖｅｃｏｄｉｎｇｏｆｓｐｅｅｃｈａｎｄｓｕｂｊｅｃｔｉｖｅｅｒｒｏｒｃｒｉｔｅｒｉａ”，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎＡＳＳＰ，ｖｏｌ．２７，ｎｏ．３，ｐｐ．２４７−２５４，Ｊｕｎｅ１９７９に詳細に説明されている。伝達関数Ｗ^−１（ｚ）は入力音声信号のフォルマント構造の一部分を示す。したがって、量子化誤差がフォルマント領域内により大きいエネルギーを有し、それによってこのフォルマント領域内に存在する強い信号エネルギーによって量子化誤差がマスキングされるように量子化誤差を整形することによって、人間の耳のマスキング特性が利用される。重み付けの量を係数γ_１、γ_２で制御する。
【００４３】
上述の従来の聴覚重み付けフィルタ１０５は、電話帯域信号には十分に有効に機能する。しかし、この従来の聴覚重み付けフィルタ１０５が広帯域信号の効率的な聴覚重み付けには適していないことが明らかになった。さらに、従来の聴覚重み付けフィルタ１０５がフォルマント構造とそれに必要なスペクトル傾斜とを同時にモデル化する上で固有の制限を有することも明らかになった。スペクトル傾斜は、広帯域信号においては、低周波数と高周波数の間の広いダイナミックレンジのためにより一層顕著である。従来技術は、広帯域入力信号の傾斜およびフォルマント重み付けを制御するために、傾斜フィルタをＷ（ｚ）に加えることを提案している。
【００４４】
この問題に対する新規の解決策は、本発明によれば、プリエンファシスフィルタ１０３を入力に導入することと、プリエンファシスされた音声ｓ（ｎ）に基づいてＬＰフィルタＡ（ｚ）を計算することと、フィルタＷ（ｚ）の分母を固定することによって改変されたフィルタＷ（ｚ）を使用することである。
ＬＰフィルタＡ（ｚ）を得るために、プリエンファシスされた信号ｓ（ｎ）に対してモジュール１０４においてＬＰ分析を行う。さらに、固定された分母を有する新たな聴覚重み付けフィルタ１０５を使用する。聴覚重み付けフィルタ１０４のための伝達関数の一例を次の関係式で示す。
【００４５】
Ｗ（ｚ）＝Ａ（ｚ／γ_１）／（１−γ_２ｚ^−１）ここで０＜γ_２＜γ_１≦１
より高い次数を分母で使用することが可能である。この構造が、フォルマント重み付けを傾斜から実質的に切り離す。
Ａ（ｚ）はプリエンファシスされた音声信号ｓ（ｎ）に基づいて計算されるので、フィルタの傾斜１／Ａ（ｚ／γ_１）は、Ａ（ｚ）がオリジナルの音声に基づいて計算される場合よりは顕著ではないということに留意されたい。次の伝達関数を有するフィルタを使用して、デコーダ側でデエンファシスが行われるので、
Ｐ^−１（ｚ）＝１／（１−μｚ^−１）_１
量子化誤差のスペクトルは、伝達関数Ｗ^−１（ｚ）Ｐ^−１（ｚ）を有するフィルタによって整形される。通常はそうであるように、γ_２がμに等しく設定されている時には、量子化誤差のスペクトルは、伝達関数が１／Ａ（ｚ／γ_１）であるフィルタによって整形され、Ａ（ｚ）はプリエンファシスされた音声信号に基づいて計算される。プリエンファシスと改変された重み付けフィルタリングとの組合せによって誤差の整形を実現するこの構造は、固定小数点アルゴリズムの実現が容易であるという利点に加えて、広帯域信号の符号化に関して非常に効率的であるということが、主観的な聴取によって明らかになった。
ピッチ分析
ピッチ分析を簡略化するために、重み付けされた音声信号ｓ_ｗ（ｎ）を使用して、開ループピッチ探索モジュール１０６において開ループピッチ遅れＴ_ＯＬを最初に推定する。その次に、サブフレーム単位で閉ループピッチ探索モジュール１０７において行われる閉ループピッチ分析を、開ループピッチ遅れＴ_ＯＬの付近に制限し、このことがＬＴＰパラメータＴ、ｂ（ピッチ遅れとピッチゲイン）の探索の複雑性を著しく低減させる。通常は、当業者に周知の方法を使用して、開ループピッチ分析を１０ミリ秒（２個のサブフレーム）毎に１回ずつモジュール１０６で行う。
【００４６】
【数３】

【００４７】
閉ループピッチ（すなわちピッチコードブック）パラメータｂ、Ｔ、ｊを閉ループピッチ探索モジュール１０７において計算し、この閉ループピッチ探索モジュール１０７は、入力としてターゲットベクトルｘとインパルス応答ベクトルｈと開ループピッチ遅れＴ_ＯＬとを使用する。従来においては、ピッチ予測は、次の伝達関数を有するピッチフィルタによって表現されており、
１／（１−ｂｚ^−Ｔ）
ここでｂはピッチゲインであり、Ｔはピッチ遅延すなわち遅れである。この場合に、励起信号ｕ（ｎ）に対するピッチの寄与はｂｕ（ｎ−Ｔ）によって与えられ、この場合に全励起が、
ｕ（ｎ）＝ｂｕ（ｎ−Ｔ）＋ｇｃ_ｋ（ｎ）
で与えられ、ここでｇはイノベーティブコードブックゲインであり、ｃ_ｋ（ｎ）は索引ｋにおけるイノベーティブコードベクトルである。
【００４８】
ピッチ遅れＴがサブフレーム長さＮよりも短い場合に、この表現は制限を有する。別の表現では、ピッチ寄与を、直前の励起信号を含むピッチコードブックと見なすことが可能である。一般的に、ピッチコードブック中の各ベクトルは先行のベクトルの（１つのサンプルを捨てて新たなサンプルを加えた）「１つ分ずれた」変型である。ピッチ遅れＴ＞Ｎである場合には、ピッチコードブックはフィルタ構造（１／（１−ｂｚ^−１）と同等であり、ピッチ遅れＴにおけるピッチコードブックベクトルｖ_Ｔ（ｎ）は次式で与えられる。
【００４９】
Ｖ_Ｔ（ｎ）＝ｕ（ｎ−Ｔ），ｎ＝０，．．．，Ｎ−１．
Ｎより短いピッチ遅れＴの場合には、ベクトルｖ_Ｔ（ｎ）は、そのベクトルが完成するまで、直前の励起からの使用可能なサンプルを反復することによって構築される（これはフィルタ構造と同等ではない）。
最近のエンコーダでは、より高いピッチ分解能が使用され、このことは有声音音響セグメントの品質を著しく向上させる。これは、多相補間フィルタを使用して直前の励起信号をオーバサンプリングすることによって行われる。この場合には、ベクトルｖ_Ｔ（ｎ）は、一般的に、直前の励起の補間変型に相当し、ピッチ遅れＴは非整数の遅延（例えば、５０．２５）である。
【００５０】
ピッチ探索は、ターゲットベクトルｘとスケーリングされたフィルタリング済みの直前の励起との間の平均２乗重み付け誤差Ｅを最小化する最適のピッチ遅れＴとゲインｂとを発見することから成る。誤差Ｅは次のように表現され、
Ｅ＝‖ｘ−ｂｙ_Ｔ‖^２
ここでｙ_Ｔはピッチ遅れＴにおけるフィルタリングされたピッチコードブックベクトルであり、
【００５１】
【数４】

【００５２】
である。
探索基準
【００５３】
【数５】

【００５４】
ここでｔはベクトル転置を表す。
を最大化することにより誤差Ｅを最小化することができる。
本発明のこの好ましい実施形態では、１／３のサブサンプルピッチ分解能が使用され、ピッチ（ピッチコードブック）探索が３つの段階によって構成されている。
【００５５】
第１の段階では、開ループピッチ遅れＴ_ＯＬが、重み付けされた音声信号ｓ_ｗ（ｎ）に応答して開ループピッチ探索モジュール１０６で推定される。上述の説明で示したように、この開ループピッチ分析は、当業者に周知の方法を使用して１０ミリ秒（２つのサブフレーム）毎に１回ずつ行われるのが一般的である。
第２の段階では、探索基準Ｃが、推定された開ループピッチ遅れＴ_ＯＬ（一般に±５）に近い整数ピッチ遅れに関して、閉ループピッチ探索モジュール１０７で探索され、このことが探索手順を著しく単純化する。各ピッチ遅れ毎に畳み込みを計算する必要なしに、フィルタリングされたコードベクトルｙ_Ｔを更新するために、単純な手順を使用する。
【００５６】
最適の整数ピッチ遅れを第２の段階で発見すると、探索の第３の段階（モジュール１０７）においてその最適の整数ピッチ遅れの付近の端数がテストされる。ピッチ予測器が、ピッチ遅れＴ＞Ｎの場合の妥当な想定である形式１／（１−ｂｚ^−１）のフィルタによって表現される時には、ピッチフィルタのスペクトルが、周波数範囲全体にわたって高調波構造を示し、この高調波周波数は１／Ｔに関係している。広帯域信号の場合には、広帯域信号における高調波構造がその拡張されたスペクトルの全体を含むわけではないので、この高調波構造はあまり効率的ではない。この高調波構造は、音声セグメントに応じて特定の周波数までにだけ存在するにすぎない。したがって、広帯域音声の有声音セグメントにおけるピッチ寄与の効率的な表現を得るためには、ピッチ予測フィルタは、広帯域スペクトル全体にわたって周期性の量を変化させるという柔軟性を有する必要がある。
【００５７】
広帯域信号の音声スペクトルの高調波構造の効率的なモデリングを行う新たな方法を本明細書で開示し、この方法では、幾つかの形態のローパスフィルタが直前の励起に適用され、より高い予測ゲインを有するローパスフィルタが選択される。
サブサンプルピッチ分解能を使用する時には、ローパスフィルタを、より高いピッチ分解能を得るために使用される補間フィルタの中に組み込むことが可能である。この場合には、選択された整数ピッチ遅れの付近の端数をテストするピッチ探索の第３の段階を、互いに異なったローパス特性を有する幾つかの補間フィルタに対して繰り返し、探索基準Ｃを最小にする端数とフィルタ索引とを選択する。
【００５８】
より単純なアプローチは、上述の３つの段階での探索を行って、特定の周波数応答を有する１つだけの補間フィルタを使用して最適の端数ピッチ遅れを求め、異なった予め決められたローパスフィルタを選択されたピッチコードブックベクトルｖ_Ｔに適用することによってその端における最適のローパスフィルタ形状を選択し、ピッチ予測誤差を最小にするローパスフィルタを選択することである。このアプローチを詳細に後述する。
【００５９】
図３は、この提案のアプローチの好ましい具体例の略ブロック図を示す。
記憶装置モジュール３０３では、直前の励起信号ｕ（ｎ）、ｎ＜０を記憶する。ピッチコードブック探索モジュール３０１が、ターゲットベクトルｘと、開ループピッチ遅れＴ_ＯＬと、記憶装置モジュール３０３からの直前の励起信号ｕ（ｎ）、ｎ＜０とに対して応答し、上述の探索基準Ｃを最小にするピッチコードブック（ピッチコードブック）検索を行う。モジュール３０１で行った探索の結果から、モジュール３０２が最適のピッチコードブックベクトルｖ_Ｔを生成する。サブサンプルピッチ分解能（端数ピッチ）を使用するので、直前の励起信号ｕ（ｎ）、ｎ＜０が補間され、ピッチコードブックベクトルｖ_Ｔは、補間された直前の励起信号に対応するということに留意されたい。この好ましい実施形態では、補間フィルタ（モジュール３０１内、図示していない）が、７０００Ｈｚを越える周波数成分を除去するローパスフィルタ特性を有する。
【００６０】
好ましい一実施形態では、Ｋ個のフィルタ特性を使用する。これらのフィルタ特性はローパスフィルタ特性であることも帯域通過フィルタ特性であることも可能である。最適のコードベクトルｖ_Ｔがピッチコードベクトル発生器３０２によって決定されて供給されると、ｖ_ＴのＫ個のフィルタリングされた変型が、３０５^（ｊ）のようなＫ個の異なった周波数整形フィルタを使用してそれぞれに計算され、ここでｊ＝１，２，．．．，Ｋである。これらのフィルタリングされた変型をｖ_ｆ ^（ｊ）と表現し、ここでｊ＝１，２，．．．，Ｋである。これらの異なったベクトルｖ_ｆ ^（ｊ）を、それぞれのモジュール３０４^（ｊ）（ここでｊ＝１，２，．．．，Ｋである）においてインパルス応答ｈと畳み込み演算し、ベクトルｙ^（ｊ）（ここでｊ＝１，２，．．．，Ｋである）を得る。各ベクトルｙ^（ｊ）に関して平均２乗ピッチ予測誤差を計算するために、対応する増幅器３０７^（ｊ）によって値ｙ^（ｊ）にゲインｂを乗算し、さらに、対応する減算器３０８^（ｊ）によって値ｂｙ^（ｊ）をターゲットベクトルｘから減算する。セレクタ３０９が、平均２乗ピッチ予測誤差
ｅ^（ｊ）＝‖ｘ−ｂ^（ｊ）ｙ^（ｊ）‖^２，ｊ＝１，２，．．．，Ｋ
を最小にする周波数整形フィルタ３０５^（ｊ）を選択する。ｙ^（ｊ）の各値に関して平均２乗ピッチ予測誤差ｅ^（ｊ）を計算するために、対応する増幅器３０７^（ｊ）によって値ｙ^（ｊ）にゲインｂを乗算し、さらに、減算器３０８^（ｊ）によって値ｂ^（ｊ）ｙ^（ｊ）をターゲットベクトルｘから減算する。次の関係式を使用して、索引ｊにおける周波数整形フィルタに関連した対応するゲイン計算器３０６^（ｊ）によって、各々のゲインｂ^（ｊ）を計算する。
【００６１】
ｂ^（ｊ）＝ｘ’ｙ^（ｊ）／‖ｙ^（ｊ）‖^２
セレクタ３０９では、パラメータｂ、Ｔ、ｊは、平均２乗ピッチ予測誤差ｅを最小にするｖ_Ｔまたはｖ_ｆ ^（ｊ）に基づいて選択される。
再び図１を参照すると、ピッチコードブック索引Ｔは符号化されてマルチプレクサ１１２に送られる。ピッチゲインｂは量子化されてマルチプレクサ１１２に送られる。この新たなアプローチを使用する場合には、選択された周波数整形フィルタの索引ｊをマルチプレクサ１１２で符号化するために、追加の情報が必要である。例えば、３つのフィルタを使用する場合（ｊ＝１，２，３）には、この情報を表現するために２ビットが必要である。フィルタ索引情報ｊをピッチゲインｂと共に符号化することも可能である。
イノベーティブコードブック探索
ピッチ、または、ＬＴＰ（長期予測）パラメータｂ、Ｔ、ｊを求めた後に、次のステップは、図１の探索モジュール１１０によって最適のイノベーティブ励起を探索することである。最初に、ターゲットベクトルｘを、ＬＴＰ寄与
ｘ’＝ｘ−ｂｙ_Ｔ
を減算することによって更新し、ここでｂはピッチゲインであり、ｙ_Ｔはフィルタリングされたピッチコードブックベクトル（選択されたローパスフィルタでフィルタリングされ、図３を参照して説明したようにインパルス応答ｈと畳み込み演算された、遅延Ｔにおける直前の励起）である。
【００６２】
ＣＥＬＰにおける探索手順は、ターゲットベクトルとスケーリングされたフィルタリング済みコードベクトルとの間の平均２乗誤差
Ｅ＝‖ｘ’−ｇＨｃ_ｋ‖^２
を最小にする最適の励起コードベクトルｃ_ｋとゲインｇとを発見することによって行なわれる。ここでＨは、インパルス応答ベクトルｈから得られた下三角畳み込み行列である。
【００６３】
本発明のこの好ましい実施形態では、イノベーティブコードブック探索を、１９９５年８月２２日付で発行された米国特許第５，４４４，８１６号（Ａｄｏｕｌ他）と、１９９７年１２月１７日付でＡｄｕｏｌ他に発行された米国特許第５，６９９，４８２号と、１９９８年５月１９日付でＡｄｕｏｌ他に発行された米国特許第５，７５４，９７６号と、１９９７年１２月２３日付の米国特許第５，７０１，３９２号（Ａｄｏｕｌ他）とに説明されている通りの代数的コードブックによってモジュール１１０で行う。
【００６４】
最適の励起コードベクトルｃ_ｋとそのゲインｇとがモジュール１１０によって選択され終わると、コードブック索引ｋとゲインｇとが符号化されてマルチプレクサ１１２に送られる。
図１を参照すると、パラメータｂ、Ｔ、ｊ、、ｋ、ｇがマルチプレクサ１１２を通して多重化され、その後で通信チャネルを通して送られる。
記憶装置の更新
記憶装置モジュール１１１（図１）では、重み付けされた合成フィルタ
【００６５】
【数１３】

【００６６】
の状態が、この重み付けされた合成フィルタを通して励起信号ｕ＝ｇｃ_ｋ＋ｂｖ_Ｔをフィルタリングすることによって更新される。このフィルタリングの後に、このフィルタの状態が記憶され、計算器モジュール１０８でゼロ入力応答を計算するための初期状態として、その次のサブフレームで使用される。
ターゲットベクトルｘの場合と同様に、当業者に周知の数学的には同等である別のアプローチを、このフィルタの状態を更新するために使用することが可能である。
デコーダ側
図２の音声復号装置２００が、ディジタル入力２２２（デマルチプレクサ２１７に対する入力ストリーム）とサンプリングされた出力音声２２３（加算器２２１の出力）との間で行われる様々なステップを示す。
【００６７】
デマルチプレクサ２１７は、ディジタル入力チャネルから受け取ったバイナリ情報から合成モデルパラメータを抽出する。受け取ったバイナリフレームの各々から抽出されるパラメータは、
短期予測パラメータ（ＳＴＰ）（フレーム毎に１回）、
長期予測（ＬＴＰ）パラメータＴ、ｂ、ｊ（各サブフレーム毎）、および、
イノベーションコードブック索引ｋとゲインｇ（各サブフレーム毎）
である。
【００６８】
後述するように、現在の音声信号が、これらのパラメータに基づいて合成される。
イノベーティブコードブック２１８が索引ｋに応答してイノベーションコードベクトルｃ_ｋを生じさせ、このイノベーションコードベクトルは、復号されたゲイン係数ｇによって増幅器２２４を通してスケーリングされる。この好ましい実施形態では、上記の米国特許第５，４４４，８１６号、同第５，６９９，４８２号、同第５，７５４，９７６号、同第５，７０１，３９２号に説明されている通りのイノベーティブコードブック２１８を、イノベーティブコードベクトルｃ_ｋを表現するために使用する。
【００６９】
増幅器２２４の出力における、生成されたスケーリングされたコードベクトルｇｃ_ｋを、イノベーションフィルタ２０５を通して処理する。
周期性の強調
増幅器２２４の出力における、生成されたスケーリングされたコードベクトルを、周波数依存性のピッチエンハンサ２０５を通して処理する。
【００７０】
励起信号ｕの周期性を強調することが、有声音セグメントの場合に品質を改善する。これは、過去においては、導入される周期性の量を制御する式１／（１−εｂｚ^−１）（ただし、εは０．５未満の係数である）のフィルタを通して、イノベーティブコードブック（固定コードブック）２１８からのイノベーションベクトルをフィルタリングすることによって行われた。このアプローチは、スペクトル全体にわたって周期性を導入するので、広帯域信号の場合には効果的でない。本発明の一部分である新たな代案のアプローチを説明すると、このアプローチでは、より低い周波数よりもより高い周波数を強調する周波数応答のイノベーションフィルタ２０５（Ｆ（ｚ））を通して、イノベーティブ（固定）コードブックからのイノベーティブコードベクトルｃ_ｋをフィルタリングすることによって、周期性の強調を行う。Ｆ（ｚ）の係数は励起信号ｕの周期性の量に関係する。
【００７１】
当業者に周知の様々な方法が、有効な周期性係数を得るために使用可能である。例えば、ゲインｂの値が周期性の表示を与える。すなわち、ゲインｂが１に近い場合には、励起信号ｕの周期性は高く、ゲインｂが０．５未満である場合には、周期性は低い。
好ましい実施形態で使用するフィルタＦ（ｚ）の係数を得るための別の効果的な方法は、励起信号ｕ全体におけるピッチ寄与の量をこの係数に関係付けることである。この結果として、周波数応答がサブフレームの周期性に依存することになり、この場合に、より高い周波数が、ピッチゲインが高ければ高いほど強く強調される（より強い全体的勾配が得られる）。イノベーションフィルタ２０５は、励起信号ｕの周期性がより大きい時に、低周波数におけるイノベーティブコードベクトルｃ_ｋのエネルギーを低下させる効果を有し、このことが、より高い周波数よりもより低い周波数における励起信号ｕの周期性を強調する。イノベーションフィルタ２０５に関して提案する式は、
（１）Ｆ（ｚ）＝１−σｚ^−１，または（２）Ｆ（ｚ）＝−αｚ＋１−αｚ^−１
であり、ここでσまたはαは、励起信号ｕの周期性のレベルから導き出される周期性係数である。
【００７２】
Ｆ（ｚ）の第２の３項形式を、好ましい実施形態で使用する。周期性係数αは有声音化係数発生器２０４で計算する。励起信号ｕの周期性に基づいて周期性係数αを導き出すために、幾つかの方法を使用することが可能である。次にその方法を２つ示す。
方法１：
最初に、全励起信号ｕに対するピッチ寄与の割合を、次式によって有声音化係数発生器２０４で計算し、
【００７３】
【数６】

【００７４】
ここでｖ_Ｔはピッチコードブックベクトルであり、ｂはピッチゲインであり、ｕは次式によって加算器２１９の出力で与えられる励起信号ｕである。
ｕ＝ｇｃ_ｋ＋ｂｖ_Ｔ
項ｂｖ_Ｔが、ピッチ遅れＴと、記憶装置２０３内に記憶されているｕの直前の値とに応答して、ピッチコードブック（ピッチコードブック）２０１から得られるということに留意されたい。その次に、ピッチコードブック２０１からのピッチコードベクトルｖ_Ｔを、デマルチプレクサ２１７からの索引ｊによってカットオフ周波数が調整されるローパスフィルタ２０２を通して処理する。その次に、得られたコードベクトルｖ_Ｔにデマルチプレクサ２１７からのゲインｂを増幅器２２６を通して乗算し、信号ｂｖ_Ｔを得る。
【００７５】
係数αを、次式によって有声音化係数発生器２０４で計算し、
α＝ｑＲ_ｐただし α＜ｑ
ここでｑは強調の量を制御する係数である（この好ましい実施形態ではｑは０．２５に設定される。）
方法２：
周期性係数αを計算するために本発明の好ましい実施形態で使用する別の方法を次に説明する。
【００７６】
最初に、有声音化係数ｒ_ｖを、次式によって有声音化係数発生器２０４で計算し、
ｒ_ｖ＝（Ｅ_ｖ−Ｅ_ｃ）／（Ｅ_ｖ＋Ｅ_ｃ）
ここでＥ_ｖはスケーリングされたピッチコードベクトルｂｖ_Ｔのエネルギーであり、Ｅ_ｃはスケーリングされたイノベーティブコードベクトルｇｃ_ｋのエネルギーである。すなわち、
【００７７】
【数７】

【００７８】
ｒ_ｖの値は−１から１までの値であることに留意されたい（１は純粋に有声音の信号に相当し、−１は純粋に無声音の信号に相当する）。
その次に、この好ましい実施形態では、係数αを次式によって有声音化係数発生器２０４で計算し、
α＝０．１２５（１＋ｒ_ｖ）
この係数αは、純粋に無声音の信号の場合には０の値に相当し、純粋に有声音の信号の場合には０．２５に相当する。
【００７９】
上記の第１のＦ（ｚ）の２項形式では、周期性係数αを、上述の方法１と方法２においてσ＝２αを使用することによって近似的に求めることが可能である。この場合には、周期性係数σを上述の方法１で次のように計算する。
σ＝２ｑＲ_ｐただし σ＜２ｑ．
方法２では、周期性係数σを次のように計算する。
【００８０】
σ＝０．２５（１＋ｒ_ｖ）．
したがって、強調された信号ｃ_ｆは、スケーリングされたイノベーティブコードベクトルｇｃ_ｋをイノベーションフィルタ２０５（Ｆ（ｚ））を通してフィルタリングすることによって計算される。
強調された励起信号ｕ′を次のように加算器２２０で計算する。
【００８１】
ｕ′＝ｃ_ｆ＋ｂｖ_Ｔ
このプロセスがエンコーダ１００では行われないことに留意されたい。したがって、エンコーダ１００とデコーダ２００の間の同期を維持するために、強調なしに励起信号ｕを使用してピッチコードブック２０１の内容を更新することが不可欠である。したがって、励起信号ｕをピッチコードブック２０１の記憶装置２０３を更新するために使用し、強調された励起信号ｕ′をＬＰ合成フィルタ２０６の入力で使用する。
合成とデエンファシス
【００８２】
【数８】

【００８３】
Ｄ（ｚ）＝１／（１−μｚ^−１）
ここでμは０から１の値を有するプリエンファシス係数である（典型的な値はμ＝０．７である）。より高次のフィルタも使用可能である。
このベクトルｓ′は、デエンファシスフィルタＤ（ｚ）（モジュール２０７）を通過させられてベクトルｓ_ｄが得られ、ベクトルｓ_ｄはハイパスフィルタ２０８を通過させられて５０Ｈｚ未満の不要な周波数が除去されてｓ_ｈが得られる。
オーバサンプリングと高周波数再生
【００８４】
【数９】

【００８５】
本発明による高周波数生成手順を次で説明する。
ランダムノイズ発生器２１３が、当業者に周知の方法を使用して、周波数帯域全体にわたって一様なスペクトルを有するホワイトノイズシーケンスｗ′を生成する。生成されたシーケンスは、オリジナルのドメインにおけるサブフレーム長さである長さＮ′である。Ｎがダウンサンプリングされたドメインにおけるサブフレーム長さであることに留意されたい。この好ましい実施形態では、Ｎ＝６４でＮ′＝８０であり、これらは５ミリ秒に相当する。
【００８６】
ホワイトノイズシーケンスをゲイン調整モジュール２１４で適正にスケーリングする。ゲイン調整は次のステップを含む。最初に、生成されたノイズシーケンスｗ′のエネルギーを、エネルギー計算モジュール２１０によって計算された強調された励起信号ｕ′のエネルギーに等しいように設定し、この結果として得られたスケーリングされたノイズシーケンスが次式で与えられる。
【００８７】
【数１０】

【００８８】
ゲインスケーリングの第２のステップは、（無声音セグメントに比較して高周波数のエネルギが小さい）有声音セグメントの場合には、生成されるノイズのエネルギーを減少させるように、有声音化係数発生器２０４の出力において合成信号の高周波数成分を計算に入れることである。この好ましい実施形態では、高周波数成分の測定を、スペクトル傾斜計算器２１２によって合成信号の傾斜を測定することと、それにしたがってエネルギを減少させることとによって実現する。零交叉測定のような他の測定を同様に使用することが可能である。傾斜が非常に強い場合は、これは有声音セグメントに対応し、ノイズのエネルギーをさらに減少させる。傾斜係数ｔｉｌｔをモジュール２０２で合成信号ｓ_ｈの第１の相関係数として計算し、これは次式で与えられ、
【００８９】
【数１１】

【００９０】
ここで有声音化係数ｒ_ｖは次式で与えられ、
ｒ_ｖ＝（Ｅ_ｖ−Ｅ_ｃ）／（Ｅ_ｖ＋Ｅ_ｃ）
ここでＥ_ｖはスケーリングされたピッチコードベクトルｂｖ_Ｔのエネルギーであり、Ｅ_ｃは上述の通りのスケーリングされたイノベーティブコードベクトルｇｃ_ｋのエネルギーである。有声音化係数ｒ_ｖはｔｉｌｔよりも小さい場合が殆どであるが、この条件は、ｔｉｌｔ値が負でありかつｒ_ｖの値がＨＩＧＨである場合に高周波数トーンに対する予防策として導入されている。したがって、この条件は、こうしたトーン信号の場合のノイズエネルギーを減少させる。
【００９１】
一様なスペクトルの場合にはｔｉｌｔ値は０であり、強く有声音化された信号の場合にはｔｉｌｔ値は１であり、高周波数により多くのエネルギーが存在する無声音信号の場合にはｔｉｌｔ値は負である。
高周波数成分の量からスケーリング係数ｇ_ｌを得るために様々な方法を使用することが可能である。本発明では、上述の信号の傾斜に基づいて２つの方法を提示する。
方法１：
スケーリング係数ｇ_ｌを次式によってｔｉｌｔから得る。
【００９２】
ｇ_１＝１−ｔｉｌｔｂｏｕｎｄｅｄｂｙ０．２≦ｇ_１≦１．０
ｔｉｌｔが１に近い場合の強く有声音化された信号では、ｇ_ｌは０．２であり、強く無声音化された信号の場合にはｇ_ｌは１．０になる。
方法２：
ｔｉｌｔ係数ｇ_ｌを最初にゼロ以上に制限し、その次にこのスケーリング係数を次式によってｔｉｌｔから得る。
【００９３】
ｇ_１＝１０^{−０．８ｔｉｌｔ}
従って、ゲイン調整モジュール２１４で生成されたスケーリングされたノイズシーケンスｗ_ｇは次式で与えられる。
Ｗ_ｇ＝ｇ_１Ｗ．
ｔｉｌｔがゼロに近い時には、スケーリング係数ｇ_ｌは１に近く、このことはエネルギーの減少を生じさせない。ｔｉｌｔ値が１である時は、スケーリング係数ｇ_ｌは、生成されるノイズのエネルギーの１２ｄＢの減少をもたらす。
【００９４】
【数１２】

【００９５】
本発明をその好ましい実施形態によって上記で説明してきたが、この実施形態を、本発明の着想と本質から逸脱することなしに、添付の特許請求項の範囲内で自由に改変することが可能である。好ましい実施形態では広帯域音声信号の使用を説明したが、広帯域信号一般を使用する他の具体例にも本発明が適用されることと、本発明が必ずしも音声用途だけには限定されないということとが、当業者には明らかだろう。
【図面の簡単な説明】
【図１】広帯域符号化装置の好ましい実施形態の略ブロック図である。
【図２】広帯域復号装置の好ましい実施形態の略ブロック図である。
【図３】ピッチ分析装置の好ましい実施形態の略ブロック図である。
【図４】図１の広帯域符号化装置と図２の広帯域復号装置とが使用可能なセルラー通信システムの単純化した略ブロック図である。

Claims

重み付けされた広帯域信号と後に合成される重み付けされた広帯域信号との間の差を低減させるように、広帯域信号に応答して聴覚的に重み付けされた信号を生成する聴覚重み付け装置であって、
ａ）前記広帯域信号に応答して、前記広帯域信号の高周波数成分を強調し、プリエンファシスされた信号を生成する信号プリエンファシスフィルタと、
ｂ）前記プリエンファシスされた信号に応答して、合成フィルタ係数を生成する合成フィルタ計算器と、
ｃ）前記プリエンファシスされた信号と前記合成フィルタ係数とに応答して、前記プリエンファシスされた信号を前記合成フィルタ係数に関してフィルタリングし、前記聴覚重み付けされた信号を生成するための、聴覚重み付けフィルタであって、固定した分母を有する伝達関数を有し、それによって、フォルマント領域内の前記広帯域信号の重み付けが前記広帯域信号のスペクトル傾斜から実質的に切り離される聴覚重み付けフィルタ
とを含む聴覚重み付け装置。
前記信号プリエンファシスフィルタは次式の伝達関数を有し、
Ｐ（ｚ）＝１−μｚ^−１
ここでμは、０から１の値を有するプリエンファシス係数である
請求項１に記載の聴覚重み付け装置。
前記プリエンファシス係数μは０．７である請求項２に記載の聴覚重み付け装置。
前記聴覚重み付けフィルタは次式の伝達関数を有し、
Ｗ（ｚ）＝Ａ（ｚ／γ_１）／（１−γ_２ｚ^−１）
ここで０＜γ_２＜γ_１≦１であり、かつ、γ_２とγ_１は重み付け制御値である
請求項２に記載の聴覚重み付け装置。
γ_２はμに等しく設定されている請求項４に記載の聴覚重み付け装置。
前記聴覚重み付けフィルタは次式の伝達関数を有し、
Ｗ（ｚ）＝Ａ（ｚ／γ_１）／（１−γ_２ｚ^−１）
ここで０＜γ_２＜γ_１≦１であり、かつ、γ_２とγ_１は重み付け制御値である
請求項１に記載の聴覚重み付け装置。
γ_２はμに等しく設定されている請求項６に記載の聴覚重み付け装置。
重み付けされた広帯域信号と後に合成される重み付けされた広帯域信号との間の差を低減させるように、広帯域信号に応答して聴覚的に重み付けされた信号を生成する方法であって、
ａ）強調した高周波数成分を有するプリエンファシスされた信号を生成するために前記広帯域信号をフィルタリングすることと、
ｂ）前記プリエンファシスされた信号から合成フィルタ係数を計算することと、
ｃ）聴覚重み付けされた音声信号を生成するために前記プリエンファシスされた信号を前記合成フィルタ係数に関してフィルタリングすること
とを含み、
前記フィルタリングは、フォルマント領域における前記広帯域信号の重み付けが前記広帯域信号のスペクトル傾斜から実質的に切り離されるように、固定した分母を有する伝達関数を有する聴覚重み付けフィルタを通して前記プリエンファシスされた信号を処理することを含む方法。
前記広帯域信号をフィルタリングすることは、次式の伝達関数によるフィルタリングを含み、
Ｐ（ｚ）＝１−μｚ^−１
ここでμは０から１の値を有するプリエンファシス係数である
請求項８に記載の聴覚的に重み付けられた広帯域信号を生成する方法。
前記プリエンファシス係数μは０．７である請求項９に記載の聴覚的に重み付けられた広帯域信号を生成する方法。
前記聴覚重み付けフィルタは次式の伝達関数を有し、
Ｗ（ｚ）＝Ａ（ｚ／γ_１）／（１−γ_２ｚ^−１）
ここで０＜γ_２＜γ_１≦１であり、かつ、γ_２とγ_１は重み付け制御値である
請求項９に記載の聴覚的に重み付けられた広帯域信号を生成する方法。
γ_２はμに等しく設定されている請求項１１に記載の聴覚的に重み付けられた広帯域信号を生成する方法。
前記聴覚重み付けフィルタは次式の伝達関数を有し、
Ｗ（ｚ）＝Ａ（ｚ／γ_１）／（１−γ_２ｚ^−１）
ここで０＜γ_２＜γ_１≦１であり、かつ、γ_２とγ_１は重み付け制御値である
請求項８に記載の聴覚的に重み付けられた広帯域信号を生成する方法。
γ_２はμに等しく設定されている請求項１３に記載の聴覚的に重み付けられた広帯域信号を生成する方法。
広帯域信号を符号化するエンコーダであって、
ａ）請求項１に記載の聴覚重み付け装置と、
ｂ）聴覚的に重み付けされた信号に応答して、ピッチコードブックパラメータとイノベーティブ探索ターゲットベクトルとを生成するピッチコードブック探索装置と、
ｃ）前記合成フィルタ係数と前記イノベーティブ探索ターゲットベクトルとに応答して、イノベーティブコードブックを生成するイノベーティブコードブック探索装置と、
ｄ）前記ピッチコードブックパラメータと前記イノベーティブコードブックパラメータと前記合成フィルタ係数とを含む符号化された広帯域信号を生成する信号形成装置
とを含むエンコーダ。
前記信号プリエンファシスフィルタは次式の伝達関数を有し、
Ｐ（ｚ）＝１−μｚ^−１
ここでμは、０から１の値を有するプリエンファシス係数である
請求項１５に記載のエンコーダ。
前記プリエンファシス係数μは０．７である請求項１６に記載のエンコーダ。
前記聴覚重み付けフィルタは次式の伝達関数を有し、
Ｗ（ｚ）＝Ａ（ｚ／γ_１）／（１−γ_２ｚ^−１）
ここで０＜γ_２＜γ_１≦１であり、かつ、γ_２とγ_１は重み付け制御値である
請求項１６に記載のエンコーダ。
γ_２はμに等しく設定されている請求項１８に記載のエンコーダ。
前記聴覚重み付けフィルタは次式の伝達関数を有し、
Ｗ（ｚ）＝Ａ（ｚ／γ_１）／（１−γ_２ｚ^−１）
ここで０＜γ_２＜γ_１≦１であり、かつ、γ_２とγ_１は重み付け制御値である
請求項１５に記載のエンコーダ。
μはγ_２に等しく設定されている請求項２０に記載のエンコーダ。
複数のセルに分割されている広い地理的区域に通信サービスを提供するセルラー通信システムであって、
ａ）移動送信機／受信機ユニットと、
ｂ）それぞれに前記セル内に配置されているセルラー基地局と、
ｃ）前記セルラー基地局間の通信を制御する制御端末装置と、
ｄ）１つのセル内に位置した各移動ユニットと前記１つのセルの前記セルラー基地局との間の双方向無線通信サブシステムであって、前記移動ユニットと前記セルラー基地局との両方において、
ｉ）請求項１５に記載の広帯域信号を符号化するエンコーダと、符号化された広帯域信号を送信する送信回路とを含む送信機と、
ｉｉ）送信された符号化広帯域信号を受信する受信回路と、受信された符号化広帯域信号を復号するデコーダとを含む受信機
とを含む双方向無線通信サブシステム
とを含むセルラー通信システム。
前記信号プリエンファシスフィルタは次式の伝達関数を有し、
Ｐ（ｚ）＝１−μｚ^−１
ここでμは、０から１の値を有するプリエンファシス係数である
請求項２２に記載のセルラー通信システム。
前記プリエンファシス係数μは０．７である請求項２３に記載のセルラー通信システム。
前記聴覚重み付けフィルタは次式の伝達関数を有し、
Ｗ（ｚ）＝Ａ（ｚ／γ_１）／（１−γ_２ｚ^−１）
ここで０＜γ_２＜γ_１≦１であり、かつ、γ_２とγ_１は重み付け制御値である
請求項２３に記載のセルラー通信システム。
μはγ_２に等しく設定されている請求項２５に記載のセルラー通信システム。
前記聴覚重み付けフィルタは次式の伝達関数を有し、
Ｗ（ｚ）＝Ａ（ｚ／γ_１）／（１−γ_２ｚ^−１）
ここで０＜γ_２＜γ_１≦１であり、かつ、γ_２とγ_１は重み付け制御値である
請求項２２に記載のセルラー通信システム。
γ２はμに等しく設定されている請求項２７に記載のセルラー通信システム。
セルラー移動送信機／受信機ユニットであって、
ａ）請求項１５に記載の広帯域信号を符号化するエンコーダと、符号化された広帯域信号を送信する送信回路とを含む送信機と、
ｂ）送信された符号化広帯域信号を受信する受信回路と、受信された符号化広帯域信号を復号するデコーダとを含む受信機
とを含むセルラー移動送信機／受信機ユニット。
前記信号プリエンファシスフィルタは次式の伝達関数を有し、
Ｐ（ｚ）＝１−μｚ^−１
ここでμは、０から１の値を有するプリエンファシス係数である
請求項２９に記載のセルラー移動送信機／受信機ユニット。
前記プリエンファシス係数μは０．７である請求項３０に記載のセルラー移動送信機／受信機ユニット。
前記聴覚重み付けフィルタは次式の伝達関数を有し、
Ｗ（ｚ）＝Ａ（ｚ／γ_１）／（１−γ_２ｚ^−１）
ここで０＜γ_２＜γ_１≦１であり、かつ、γ_２とγ_１は重み付け制御値である
請求項３０に記載のセルラー移動送信機／受信機ユニット。
γ_２はμに等しく設定されている請求項３２に記載のセルラー移動送信機／受信機ユニット。
前記聴覚重み付けフィルタは次式の伝達関数を有し、
Ｗ（ｚ）＝Ａ（ｚ／γ_１）／（１−γ_２ｚ^−１）
ここで０＜γ_２＜γ_１≦１であり、かつ、γ_２とγ_１は重み付け制御値である
請求項２９に記載のセルラー移動送信機／受信機ユニット。
γ_２はμに等しく設定されている請求項３４に記載のセルラー移動送信機／受信機ユニット。
セルラーネットワーク要素であって、
ａ）請求項１５に記載の広帯域信号を符号化するエンコーダと、符号化された広帯域信号を送信する送信回路とを含む送信機と、
ｂ）送信された符号化広帯域信号を受信する受信回路と、受信された符号化広帯域信号を復号するデコーダとを含む受信機
とを含むセルラーネットワーク要素。
前記信号プリエンファシスフィルタは次式の伝達関数を有し、
Ｐ（ｚ）＝１−μｚ^−１
ここでμは、０から１の値を有するプリエンファシス係数である
請求項３６に記載のセルラーネットワーク要素。
前記プリエンファシス係数μは０．７である請求項３７に記載のセルラーネットワーク要素。
前記聴覚重み付けフィルタは次式の伝達関数を有し、
Ｗ（ｚ）＝Ａ（ｚ／γ_１）／（１−γ_２ｚ^−１）
ここで０＜γ_２＜γ_１≦１であり、かつ、γ_２とγ_１は重み付け制御値である
請求項３７に記載のセルラーネットワーク要素。
γ_２はμに等しく設定されている請求項３９に記載のセルラーネットワーク要素。
前記聴覚重み付けフィルタは次式の伝達関数を有し、
Ｗ（ｚ）＝Ａ（ｚ／γ_１）／（１−γ_２ｚ^−１）
ここで０＜γ_２＜γ_１≦１であり、かつ、γ_２とγ_１は重み付け制御値である
請求項３６に記載のセルラーネットワーク要素。
μはγ_２に等しく設定されている請求項４１に記載のセルラーネットワーク要素。
移動送信機／受信機ユニットと、それぞれにセル内に位置したセルラー基地局と、前記セルラー基地局間の通信を制御する制御端末装置とを含む、複数のセルに分割されている広い地理的区域に通信サービスを提供するセルラー通信システムにおける、
１つのセル内に位置した各移動ユニットと前記１つのセルの前記セルラー基地局との間の双方向無線通信サブシステムであって、前記移動ユニットと前記セルラー基地局の両方において、
ａ）請求項１５に記載の広帯域信号を符号化するエンコーダと、符号化された広帯域信号を送信する送信回路とを含む送信機と、
ｂ）送信された符号化広帯域信号を受信する受信回路と、受信された符号化広帯域信号を復号するデコーダとを含む受信機
とを含む双方向無線通信サブシステム。
前記信号プリエンファシスフィルタは次式の伝達関数を有し、
Ｐ（ｚ）＝１−μｚ^−１
ここでμは、０から１の値を有するプリエンファシス係数である
請求項４３に記載の双方向無線通信サブシステム。
前記プリエンファシス係数μは０．７である請求項４４に記載の双方向無線通信サブシステム。
前記聴覚重み付けフィルタは次式の伝達関数を有し、
Ｗ（ｚ）＝Ａ（ｚ／γ_１）／（１−γ_２ｚ^−１）
ここで０＜γ_２＜γ_１≦１であり、かつ、γ_２とγ_１は重み付け制御値である
請求項４４に記載の双方向無線通信サブシステム。
μはγ_２に等しく設定されている請求項４６に記載の双方向無線通信サブシステム。
前記聴覚重み付けフィルタは次式の伝達関数を有し、
Ｗ（ｚ）＝Ａ（ｚ／γ_１）／（１−γ_２ｚ^−１）
ここで０＜γ_２＜γ_１≦１であり、かつ、γ_２とγ_１は重み付け制御値である
請求項４３に記載の双方向無線通信サブシステム。
γ_２はμに等しく設定されている請求項４８に記載の双方向無線通信サブシステム。