JP4517262B2

JP4517262B2 - 音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体

Info

Publication number: JP4517262B2
Application number: JP2000346675A
Authority: JP
Inventors: 哲二郎近藤; 勉渡辺; 正明服部; 裕人木村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-11-14
Filing date: 2000-11-14
Publication date: 2010-08-04
Anticipated expiration: 2020-11-14
Also published as: JP2002149175A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体に関し、特に、例えば、ＣＥＬＰ(Code Excited Liner Prediction coding)方式で符号化された音声を、高音質の音声に復号することができるようにする音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体に関する。
【０００２】
【従来の技術】
図１および図２は、従来の携帯電話機の一例の構成を示している。
【０００３】
この携帯電話機では、音声を、ＣＥＬＰ方式により所定のコードに符号化して送信する送信処理と、他の携帯電話機から送信されてくるコードを受信して、音声に復号する受信処理とが行われるようになっており、図１は、送信処理を行う送信部を、図２は、受信処理を行う受信部を、それぞれ示している。
【０００４】
図１に示した送信部では、ユーザが発話した音声が、マイク（マイクロフォン）１に入力され、そこで、電気信号としての音声信号に変換され、Ａ／Ｄ(Analog/Digital)変換部２に供給される。Ａ／Ｄ変換部２は、マイク１からのアナログの音声信号を、例えば、８ｋＨｚ等のサンプリング周波数でサンプリングすることにより、ディジタルの音声信号にＡ／Ｄ変換し、さらに、所定のビット数で量子化を行って、演算器３とＬＰＣ(Liner Prediction Coefficient)分析部４に供給する。
【０００５】
ＬＰＣ分析部４は、Ａ／Ｄ変換部２からの音声信号を、例えば、１６０サンプル分の長さのフレームごとにＬＰＣ分析し、Ｐ次の線形予測係数α₁，α₂，・・・，α_Pを求める。そして、ＬＰＣ分析部４は、このＰ次の線形予測係数α_p（ｐ＝１，２，・・・，Ｐ）を要素とするベクトルを、音声の特徴ベクトルとして、ベクトル量子化部５に供給する。
【０００６】
ベクトル量子化部５は、線形予測係数を要素とするコードベクトルとコードとを対応付けたコードブックを記憶しており、そのコードブックに基づいて、ＬＰＣ分析部４からの特徴ベクトルαをベクトル量子化し、そのベクトル量子化の結果得られるコード（以下、適宜、Ａコード(A_code)という）を、コード決定部１５に供給する。
【０００７】
さらに、ベクトル量子化部５は、Ａコードに対応するコードベクトルα’を構成する要素となっている線形予測係数α₁’，α₂’，・・・，α_P’を、音声合成フィルタ６に供給する。
【０００８】
音声合成フィルタ６は、例えば、ＩＩＲ(Infinite Impulse Response)型のディジタルフィルタで、ベクトル量子化部５からの線形予測係数α_p’（ｐ＝１，２，・・・，Ｐ）をＩＩＲフィルタのタップ係数とするとともに、演算器１４から供給される残差信号ｅを入力信号として、音声合成を行う。
【０００９】
即ち、ＬＰＣ分析部４で行われるＬＰＣ分析は、現在時刻ｎの音声信号（のサンプル値）ｓ_n、およびこれに隣接する過去のＰ個のサンプル値ｓ_n-1，ｓ_n-2，・・・，ｓ_n-Pに、式
ｓ_n＋α₁ｓ_n-1＋α₂ｓ_n-2＋・・・＋α_Pｓ_n-P＝e_n
・・・（１）
で示す線形１次結合が成立すると仮定し、現在時刻ｎのサンプル値ｓ_nの予測値（線形予測値）ｓ_n’を、過去のＰ個の標本値ｓ_n-1，ｓ_n-2，・・・，ｓ_n-Pを用いて、式
ｓ_n’＝−（α₁ｓ_n-1＋α₂ｓ_n-2＋・・・＋α_Pｓ_n-P）
・・・（２）
によって線形予測したときに、実際のサンプル値ｓ_nと線形予測値ｓ_n’との間の自乗誤差を最小にする線形予測係数α_pを求めるものである。
【００１０】
ここで、式（１）において、｛e_n｝（・・・，e_n-1，e_n，e_n+1，・・・）は、平均値が０で、分散が所定値σ²の互いに無相関な確率変数である。
【００１１】
式（１）から、サンプル値ｓ_nは、式
ｓ_n＝e_n−（α₁ｓ_n-1＋α₂ｓ_n-2＋・・・＋α_Pｓ_n-P）
・・・（３）
で表すことができ、これを、Ｚ変換すると、次式が成立する。
【００１２】
Ｓ＝Ｅ／（１＋α₁ｚ^-1＋α₂ｚ^-2＋・・・＋α_Pｚ^-P）
・・・（４）
但し、式（４）において、ＳとＥは、式（３）におけるｓ_nとｅ_nのＺ変換を、それぞれ表す。
【００１３】
ここで、式（１）および（２）から、ｅ_nは、式
ｅ_n＝ｓ_n−ｓ_n’
・・・（５）
で表すことができ、実際のサンプル値ｓ_nと線形予測値ｓ_n’との間の残差信号と呼ばれる。
【００１４】
従って、式（４）から、線形予測係数α_pをＩＩＲフィルタのタップ係数とするとともに、残差信号ｅ_nをＩＩＲフィルタの入力信号とすることにより、音声信号ｓ_nを求めることができる。
【００１５】
そこで、音声合成フィルタ６は、上述したように、ベクトル量子化部５からの線形予測係数α_p’をタップ係数とするとともに、演算器１４から供給される残差信号ｅを入力信号として、式（４）を演算し、音声信号（合成音信号）ｓｓを求める。
【００１６】
なお、音声合成フィルタ６では、ＬＰＣ分析部４によるＬＰＣ分析の結果得られる線形予測係数α_pではなく、そのベクトル量子化の結果得られるコードに対応するコードベクトルとしての線形予測係数α_p’が用いられるため、音声合成フィルタ６が出力する合成音信号は、Ａ／Ｄ変換部２が出力する音声信号とは、基本的に同一にはならない。
【００１７】
音声合成フィルタ６が出力する合成音信号ｓｓは、演算器３に供給される。演算器３は、音声合成フィルタ６からの合成音信号ｓｓから、Ａ／Ｄ変換部２が出力する音声信号ｓを減算し、その減算値を、自乗誤差演算部７に供給する。自乗誤差演算部７は、演算器３からの減算値の自乗和（第ｋフレームのサンプル値についての自乗和）を演算し、その結果得られる自乗誤差を、自乗誤差最小判定部８に供給する。
【００１８】
自乗誤差最小判定部８は、自乗誤差演算部７が出力する自乗誤差に対応付けて、ラグを表すコードとしてのＬコード(L_code)、ゲインを表すコードとしてのＧコード(G_code)、および符号語（励起コードブック）を表すコードとしてのＩコード(I_code)を記憶しており、自乗誤差演算部７が出力する自乗誤差に対応するＬコード、Ｇコード、およびＬコードを出力する。Ｌコードは、適応コードブック記憶部９に、Ｇコードは、ゲイン復号器１０に、Ｉコードは、励起コードブック記憶部１１に、それぞれ供給される。さらに、Ｌコード、Ｇコード、およびＩコードは、コード決定部１５にも供給される。
【００１９】
適応コードブック記憶部９は、例えば７ビットのＬコードと、所定の遅延時間（ラグ）とを対応付けた適応コードブックを記憶しており、演算器１４から供給される残差信号ｅを、自乗誤差最小判定部８から供給されるＬコードに対応付けられた遅延時間だけ遅延して、演算器１２に出力する。
【００２０】
ここで、適応コードブック記憶部９は、残差信号ｅを、Ｌコードに対応する時間だけ遅延して出力することから、その出力信号は、その遅延時間を周期とする周期信号に近い信号となる。この信号は、線形予測係数を用いた音声合成において、主として、有声音の合成音を生成するための駆動信号となる。
【００２１】
ゲイン復号器１０は、Ｇコードと、所定のゲインβおよびγとを対応付けたテーブルを記憶しており、自乗誤差最小判定部８から供給されるＧコードに対応付けられたゲインβおよびγを出力する。ゲインβとγは、演算器１２と１３に、それぞれ供給される。ここで、ゲインβは、長期フィルタ状態出力ゲインと呼ばれるものであり、また、ゲインγは、励起コードブックゲインと呼ばれるものである。
【００２２】
励起コードブック記憶部１１は、例えば９ビットのＩコードと、所定の励起信号とを対応付けた励起コードブックを記憶しており、自乗誤差最小判定部８から供給されるＩコードに対応付けられた励起信号を、演算器１３に出力する。
【００２３】
ここで、励起コードブックに記憶されている励起信号は、例えば、ホワイトノイズ等に近い信号であり、線形予測係数を用いた音声合成において、主として、無声音の合成音を生成するための駆動信号となる。
【００２４】
演算器１２は、適応コードブック記憶部９の出力信号と、ゲイン復号器１０が出力するゲインβとを乗算し、その乗算値ｌを、演算器１４に供給する。演算器１３は、励起コードブック記憶部１１の出力信号と、ゲイン復号器１０が出力するゲインγとを乗算し、その乗算値ｎを、演算器１４に供給する。演算器１４は、演算器１２からの乗算値ｌと、演算器１３からの乗算値ｎとを加算し、その加算値を、残差信号ｅとして、音声合成フィルタ６に供給する。
【００２５】
音声合成フィルタ６では、以上のようにして、演算器１４から供給される残差信号ｅを入力信号が、ベクトル量子化部５から供給される線形予測係数α_p’をタップ係数とするＩＩＲフィルタでフィルタリングされ、その結果得られる合成音信号が、演算器３に供給される。そして、演算器３および自乗誤差演算部７において、上述の場合と同様の処理が行われ、その結果得られる自乗誤差が、自乗誤差最小判定部８に供給される。
【００２６】
自乗誤差最小判定部８は、自乗誤差演算部７からの自乗誤差が最小（極小）になったかどうかを判定する。そして、自乗誤差最小判定部８は、自乗誤差が最小になっていないと判定した場合、上述のように、その自乗誤差に対応するＬコード、Ｇコード、およびＬコードを出力し、以下、同様の処理が繰り返される。
【００２７】
一方、自乗誤差最小判定部８は、自乗誤差が最小になったと判定した場合、確定信号を、コード決定部１５に出力する。コード決定部１５は、ベクトル量子化部５から供給されるＡコードをラッチするとともに、自乗誤差最小判定部８から供給されるＬコード、Ｇコード、およびＩコードを順次ラッチするようになっており、自乗誤差最小判定部８から確定信号を受信すると、そのときラッチしているＡコード、Ｌコード、Ｇコード、およびＩコードを、チャネルエンコーダ１６に供給する。チャネルエンコーダ１６は、コード決定部１５からのＡコード、Ｌコード、Ｇコード、およびＩコードを多重化し、コードデータとして出力する。このコードデータは、伝送路を介して送信される。
【００２８】
なお、以下では、説明を簡単にするため、Ａコード、Ｌコード、Ｇコード、およびＩコードは、フレームごとに求められるものとする。但し、例えば、１フレームを、４つのサブフレームに分割し、Ｌコード、Ｇコード、およびＩコードは、サブフレームごとに求めるようにすること等が可能である。
【００２９】
ここで、図１（後述する図２、図１１、および図１２においても同様）では、各変数に、[k]が付され、配列変数とされている。このkは、フレーム数を表すが、明細書中では、その記述は、適宜省略する。
【００３０】
次に、以上のようにして、他の携帯電話機の送信部から送信されてくるコードデータは、図２に示した受信部のチャネルデコーダ２１で受信される。チャネルデコーダ２１は、コードデータから、Ｌコード、Ｇコード、Ｉコード、Ａコードを分離し、それぞれを、適応コードブック記憶部２２、ゲイン復号器２３、励起コードブック記憶部２４、フィルタ係数復号器２５に供給する。
【００３１】
適応コードブック記憶部２２、ゲイン復号器２３、励起コードブック記憶部２４、演算器２６乃至２８は、図１の適応コードブック記憶部９、ゲイン復号器１０、励起コードブック記憶部１１、演算器１２乃至１４とそれぞれ同様に構成されるもので、図１で説明した場合と同様の処理が行われることにより、Ｌコード、Ｇコード、およびＩコードが、残差信号ｅに復号される。この残差信号ｅは、音声合成フィルタ２９に対して、入力信号として与えられる。
【００３２】
フィルタ係数復号器２５は、図１のベクトル量子化部５が記憶しているのと同一のコードブックを記憶しており、Ａコードを、線形予測係数α_p’に復号し、音声合成フィルタ２９に供給する。
【００３３】
音声合成フィルタ２９は、図１の音声合成フィルタ６と同様に構成されており、フィルタ係数復号器２５からの線形予測係数α_p’をタップ係数とするとともに、演算器２８から供給される残差信号ｅを入力信号として、式（４）を演算し、これにより、図１の自乗誤差最小判定部８において自乗誤差が最小と判定されたときの合成音信号を生成する。この合成音信号は、Ｄ／Ａ(Digital/Analog)変換部３０に供給される。Ｄ／Ａ変換部３０は、音声合成フィルタ２９からの合成音信号を、ディジタル信号からアナログ信号にＤ／Ａ変換し、スピーカ３１に供給して出力させる。
【００３４】
【発明が解決しようとする課題】
以上のように、携帯電話機の送信部では、受信部の音声合成フィルタ２９に与えられるフィルタデータとしての残差信号と線形予測係数がコード化されて送信されてくるため、受信部では、そのコードが、残差信号と線形予測係数に復号される。しかしながら、この復号された残差信号や線形予測係数（以下、適宜、それぞれを、復号残差信号または復号線形予測係数という）には、量子化誤差等の誤差が含まれるため、音声をＬＰＣ分析して得られる残差信号と線形予測係数には一致しない。
【００３５】
このため、受信部の音声合成フィルタ２９が出力する合成音信号は、歪みを有する、音質の劣化したものとなる。
【００３６】
本発明は、このような状況に鑑みてなされたものであり、高音質の合成音が得られるようにするものである。
【００３７】
【課題を解決するための手段】
本発明の第１の側面の音声処理装置、又は、記録媒体は、予測値を求めようとしている高音質の音声を注目音声として、その注目音声を予測するのに用いる予測タップを、合成音と、コードまたはコードから得られる情報とから抽出する予測タップ抽出手段と、注目音声を、幾つかのクラスのうちのいずれかにクラス分類するのに用いるクラスタップを、合成音と、コードまたはコードから得られる情報とから抽出するクラスタップ抽出手段と、クラスタップに基づいて、注目音声のクラスを求めるクラス分類を行うクラス分類手段と、学習を行うことにより求められた、クラスごとのタップ係数の中から、注目音声のクラスに対応するタップ係数を取得する取得手段と、予測タップと、注目音声のクラスに対応するタップ係数を用いて、注目音声の予測値を求める予測手段とを備える音声処理装置、又は、音声処理装置として、コンピュータを機能させるためのプログラムが記録されている記録媒体である。
【００３８】
本発明の第１の側面の音声処理方法は、予測値を求めようとしている高音質の音声を注目音声として、その注目音声を予測するのに用いる予測タップを、合成音と、コードまたはコードから得られる情報とから抽出する予測タップ抽出ステップと、注目音声を、幾つかのクラスのうちのいずれかにクラス分類するのに用いるクラスタップを、合成音と、コードまたはコードから得られる情報とから抽出するクラスタップ抽出ステップと、クラスタップに基づいて、注目音声のクラスを求めるクラス分類を行うクラス分類ステップと、学習を行うことにより求められた、クラスごとのタップ係数の中から、注目音声のクラスに対応するタップ係数を取得する取得ステップと、予測タップと、注目音声のクラスに対応するタップ係数を用いて、注目音声の予測値を求める予測ステップとを備える音声処理方法である。
【００４０】
本発明の第２の側面の学習装置、又は、記録媒体は、予測値を求めようとしている高音質の音声を注目音声として、その注目音声を予測するのに用いる予測タップを、合成音と、コードまたはコードから得られる情報とから抽出する予測タップ抽出手段と、注目音声を、幾つかのクラスのうちのいずれかにクラス分類するのに用いるクラスタップを、合成音と、コードまたはコードから得られる情報とから抽出するクラスタップ抽出手段と、クラスタップに基づいて、注目音声のクラスを求めるクラス分類を行うクラス分類手段と、タップ係数および予測タップを用いて予測演算を行うことにより得られる高音質の音声の予測値の予測誤差が統計的に最小になるように、学習を行い、クラスごとのタップ係数を求める学習手段とを備える学習装置、又は、学習装置として、コンピュータを機能させるためのプログラムが記録されている記録媒体である。
【００４１】
本発明の第２の側面の学習方法は、予測値を求めようとしている高音質の音声を注目音声として、その注目音声を予測するのに用いる予測タップを、合成音と、コードまたはコードから得られる情報とから抽出する予測タップ抽出ステップと、注目音声を、幾つかのクラスのうちのいずれかにクラス分類するのに用いるクラスタップを、合成音と、コードまたはコードから得られる情報とから抽出するクラスタップ抽出ステップと、クラスタップに基づいて、注目音声のクラスを求めるクラス分類を行うクラス分類ステップと、タップ係数および予測タップを用いて予測演算を行うことにより得られる高音質の音声の予測値の予測誤差が統計的に最小になるように、学習を行い、クラスごとのタップ係数を求める学習ステップとを備える学習方法である。
【００４３】
本発明の第１の側面においては、予測値を求めようとしている高音質の音声を注目音声として、その注目音声を予測するのに用いる予測タップが、合成音と、コードまたはコードから得られる情報とから抽出されるとともに、注目音声を、幾つかのクラスのうちのいずれかにクラス分類するのに用いるクラスタップが、合成音と、コードまたはコードから得られる情報とから抽出される。そして、クラスタップに基づいて、注目音声のクラスを求めるクラス分類が行われ、予測タップと、注目音声のクラスに対応するタップ係数を用いて、注目音声の予測値が求められる。
【００４４】
本発明の第２の側面においては、予測値を求めようとしている高音質の音声を注目音声として、その注目音声を予測するのに用いる予測タップが、合成音と、コードまたはコードから得られる情報とから抽出される。また、注目音声を、幾つかのクラスのうちのいずれかにクラス分類するのに用いるクラスタップが、合成音と、コードまたはコードから得られる情報とから抽出され、そのクラスタップに基づいて、注目音声のクラスを求めるクラス分類が行われる。そして、タップ係数および予測タップを用いて予測演算を行うことにより得られる高音質の音声の予測値の予測誤差が統計的に最小になるように、学習が行われ、クラスごとのタップ係数が求められる。
【００４５】
【発明の実施の形態】
図３は、本発明を適用した音声合成装置の一実施の形態の構成例を示している。
【００４６】
この音声合成装置には、音声合成フィルタ４４に与える残差信号と線形予測係数を、それぞれベクトル量子化等によってコード化した残差コードとＡコードが多重化されたコードデータが供給されるようになっており、その残差コードとＡコードから、それぞれ残差信号と線形予測係数を復号し、音声合成フィルタ４４に与えることで、合成音が生成されるようになっている。さらに、この音声合成装置では、音声合成フィルタ４４で生成された合成音と、学習により求めたタップ係数を用いた予測演算を行うことにより、その合成音の音質を向上させた高音質の音声（合成音）を求めて出力するようになっている。
【００４７】
即ち、図３の音声合成装置では、例えば、クラス分類適応処理を利用して、合成音が、真の高音質の音声（の予測値）に復号される。
【００４８】
クラス分類適応処理は、クラス分類処理と適応処理とからなり、クラス分類処理によって、データを、その性質に基づいてクラス分けし、各クラスごとに適応処理を施すものであり、適応処理は、以下のような手法のものである。
【００４９】
即ち、適応処理では、例えば、合成音と、所定のタップ係数との線形結合により、真の高音質の音声の予測値が求められる。
【００５０】
具体的には、例えば、いま、真の高音質の音声（のサンプル値）を教師データとするとともに、その真の高音質の音声を、ＣＥＬＰ方式によって、Ｌコード、Ｇコード、Ｉコード、およびＡコードに符号化し、それらのコードを、図２に示した受信部で復号することにより得られる合成音を生徒データとして、教師データである高音質の音声ｙの予測値Ｅ［ｙ］を、幾つかの合成音（のサンプル値）ｘ₁，ｘ₂，・・・の集合と、所定のタップ係数ｗ₁，ｗ₂，・・・の線形結合により規定される線形１次結合モデルにより求めることを考える。この場合、予測値Ｅ［ｙ］は、次式で表すことができる。
【００５１】
Ｅ［ｙ］＝ｗ₁ｘ₁＋ｗ₂ｘ₂＋・・・
・・・（６）
【００５２】
式（６）を一般化するために、タップ係数ｗ_jの集合でなる行列Ｗ、生徒データｘ_ijの集合でなる行列Ｘ、および予測値Ｅ［ｙ_j］の集合でなる行列Ｙ’を、
【数１】

で定義すると、次のような観測方程式が成立する。
【００５３】
ＸＷ＝Ｙ’
・・・（７）
ここで、行列Ｘの成分ｘ_ijは、ｉ件目の生徒データの集合（ｉ件目の教師データｙ_iの予測に用いる生徒データの集合）の中のｊ番目の生徒データを意味し、行列Ｗの成分ｗ_jは、生徒データの集合の中のｊ番目の生徒データとの積が演算されるタップ係数を表す。また、ｙ_iは、ｉ件目の教師データを表し、従って、Ｅ［ｙ_i］は、ｉ件目の教師データの予測値を表す。なお、式（６）の左辺におけるｙは、行列Ｙの成分ｙ_iのサフィックスｉを省略したものであり、また、式（６）の右辺におけるｘ₁，ｘ₂，・・・も、行列Ｘの成分ｘ_ijのサフィックスｉを省略したものである。
【００５４】
そして、この観測方程式に最小自乗法を適用して、真の高音質の音声ｙに近い予測値Ｅ［ｙ］を求めることを考える。この場合、教師データとなる真の高音質の音声ｙの集合でなる行列Ｙ、および高音質の音声ｙに対する予測値Ｅ［ｙ］の残差ｅの集合でなる行列Ｅを、
【数２】

で定義すると、式（７）から、次のような残差方程式が成立する。
【００５５】
ＸＷ＝Ｙ＋Ｅ
・・・（８）
【００５６】
この場合、真の高音質の音声ｙに近い予測値Ｅ［ｙ］を求めるためのタップ係数ｗ_jは、自乗誤差
【数３】

を最小にすることで求めることができる。
【００５７】
従って、上述の自乗誤差をタップ係数ｗ_jで微分したものが０になる場合、即ち、次式を満たすタップ係数ｗ_jが、真の高音質の音声ｙに近い予測値Ｅ［ｙ］を求めるため最適値ということになる。
【００５８】
【数４】

・・・（９）
【００５９】
そこで、まず、式（８）を、タップ係数ｗ_jで微分することにより、次式が成立する。
【００６０】
【数５】

・・・（１０）
【００６１】
式（９）および（１０）より、式（１１）が得られる。
【００６２】
【数６】

・・・（１１）
【００６３】
さらに、式（８）の残差方程式における生徒データｘ_ij、タップ係数ｗ_j、教師データｙ_i、および誤差ｅ_iの関係を考慮すると、式（１１）から、次のような正規方程式を得ることができる。
【００６４】
【数７】

・・・（１２）
【００６５】
なお、式（１２）に示した正規方程式は、行列（共分散行列）Ａおよびベクトルｖを、
【数８】

で定義するとともに、ベクトルＷを、数１で示したように定義すると、式
ＡＷ＝ｖ
・・・（１３）
で表すことができる。
【００６６】
式（１２）における各正規方程式は、生徒データｘ_ijおよび教師データｙ_iのセットを、ある程度の数だけ用意することで、求めるべきタップ係数ｗ_jの数Ｊと同じ数だけたてることができ、従って、式（１３）を、ベクトルＷについて解くことで（但し、式（１３）を解くには、式（１３）における行列Ａが正則である必要がある）、最適なタップ係数（ここでは、自乗誤差を最小にするタップ係数）ｗ_jを求めることができる。なお、式（１３）を解くにあたっては、例えば、掃き出し法（Gauss-Jordanの消去法）などを用いることが可能である。
【００６７】
以上のようにして、最適なタップ係数ｗ_jを求めておき、さらに、そのタップ係数ｗ_jを用い、式（６）により、真の高音質の音声ｙに近い予測値Ｅ［ｙ］を求めるのが適応処理である。
【００６８】
なお、例えば、教師データとして、高いサンプリング周波数でサンプリングした音声信号、または多ビットを割り当てた音声信号を用いるとともに、生徒データとして、その教師データとしての音声信号を間引いたり、低ビットで再量子化したした音声信号をＣＥＬＰ方式により符号化し、その符号化結果を復号して得られる合成音を用いた場合、タップ係数としては、高いサンプリング周波数でサンプリングした音声信号、または多ビットを割り当てた音声信号を生成するのに、予測誤差が、統計的に最小となる高音質の音声が得られることになる。従って、この場合、より高音質の合成音を得ることが可能となる。
【００６９】
図３の音声合成装置では、以上のようなクラス分類適応処理により、Ａコードと残差コードでなるコードデータを、高音質の音声に復号するようになっている。
【００７０】
即ち、デマルチプレクサ（ＤＥＭＵＸ）４１には、コードデータが供給されるようになっており、デマルチプレクサ４１は、そこに供給されるコードデータから、フレームごとのＡコードと残差コードを分離する。そして、デマルチプレクサは、Ａコードを、フィルタ係数復号器４２、並びにタップ生成部４５および４６に供給し、残差コードを、残差コードブック記憶部４３、並びにタップ生成部４５および４６に供給する。
【００７１】
ここで、図３におけるコードデータに含まれるＡコードと残差コードは、音声をＬＰＣ分析して得られる線形予測係数と残差信号を、所定のコードブックを用いて、それぞれベクトル量子化することにより得られるコードとなっている。
【００７２】
フィルタ係数復号器４２は、デマルチプレクサ４１から供給されるフレームごとのＡコードを、そのＡコードを得るときに用いられたのと同一のコードブックに基づいて、線形予測係数に復号し、音声合成フィルタ４４に供給する。
【００７３】
残差コードブック記憶部４３は、デマルチプレクサ４１から供給されるフレームごとの残差コードを、その残差コードを得るときに用いられたのと同一のコードブックに基づいて、残差信号に復号し、音声合成フィルタ４４に供給する。
【００７４】
音声合成フィルタ４４は、例えば、図１の音声合成フィルタ２９と同様に、ＩＩＲ型のディジタルフィルタで、フィルタ係数復号器４２からの線形予測係数をＩＩＲフィルタのタップ係数とするとともに、残差コードブック記憶部４３からの残差信号を入力信号として、その入力信号のフィルタリングを行うことにより、合成音を生成し、タップ生成部４５および４６に供給する。
【００７５】
タップ生成部４５は、音声合成フィルタ４４から供給される合成音（のサンプル値）、並びにデマルチプレクサ４１から供給される残差コードおよびＡコードから、後述する予測部４９における予測演算に用いられる予測タップとなるものを抽出する。即ち、タップ生成部４５は、例えば、高音質の音声の予測値を求めようとしているフレームである注目フレームの合成音のサンプル値、残差コード、およびＡコードすべてを、予測タップとする。そして、タップ生成部４５は、予測タップを、予測部４９に供給する。
【００７６】
タップ生成部４６は、音声合成フィルタ４４から供給される合成音のサンプル値、並びにデマルチプレクサ４１から供給されるフレーム（またはサブフレーム）ごとのＡコードおよび残差コードから、クラスタップとなるものを抽出する。即ち、タップ生成部４６は、例えば、タップ生成部４６と同様に、注目フレームの合成音のサンプル値、並びにＡコードおよび残差コードすべてを、クラスタップとする。そして、タップ生成部４６は、クラスタップを、クラス分類部４７に供給する。
【００７７】
ここで、予測タップやクラスタップの構成パターンは、上述したパターンのものに限定されるものではない。また、上述の場合には、同一のクラスタップおよび予測タップを構成するようにしたが、クラスタップと予測タップとは、異なる構成とすることが可能である。
【００７８】
さらに、タップ生成部４５や４６では、図３において点線で示すように、フィルタ係数復号器４２が出力する、Ａコードから得られる線形予測係数や、残差コードブック記憶部４３が出力する、残差コードから得られる残差信号等の中からも、クラスタップや予測タップを抽出するようにすることができる。
【００７９】
クラス分類部４７は、タップ生成部４６からのクラスタップに基づき、注目している注目フレームの音声（のサンプル値）についてクラス分類を行い、その結果得られるクラスに対応するクラスコードを、係数メモリ４８に出力する。
【００８０】
ここで、クラス分類部４７には、例えば、クラスタップとしての注目フレームの合成音のサンプル値、並びにＡコードおよび残差コードを構成するビットの系列そのものを、クラスコードとして出力させることが可能である。
【００８１】
係数メモリ４８は、後述する図６の学習装置において学習処理が行われることにより得られる、クラスごとのタップ係数を記憶しており、クラス分類部４７が出力するクラスコードに対応するアドレスに記憶されているタップ係数を、予測部４９に出力する。
【００８２】
ここで、各フレームについて、Ｎサンプルの高音質の音声が求められるとすると、注目フレームについて、Ｎサンプルの音声を、式（６）の予測演算によって求めるには、Ｎセットのタップ係数が必要である。従って、この場合は、係数メモリ４８には、１つのクラスコードに対応するアドレスに対して、Ｎセットのタップ係数が記憶されている。
【００８３】
予測部４９は、タップ生成部４５が出力する予測タップと、係数メモリ４８が出力するタップ係数とを取得し、その予測タップとタップ係数とを用いて、式（６）に示した線形予測演算（積和演算）を行い、注目フレームの高音質の音声（の予測値）を求めて、Ｄ／Ａ変換部５０に出力する。
【００８４】
ここで、係数メモリ４８は、上述したように、注目フレームの音声のＮサンプルそれぞれを求めるためのＮセットのタップ係数を出力するが、予測部４９は、各サンプル値について、予測タップと、そのサンプル値に対応するタップ係数のセットとを用い、式（６）の積和演算を行う。
【００８５】
Ｄ／Ａ変換部５０は、予測部４９からの音声（の予測値）を、ディジタル信号からアナログ信号にＤ／Ａ変換し、スピーカ５１に供給して出力させる。
【００８６】
次に、図４は、図３の音声合成フィルタ４４の構成例を示している。
【００８７】
図４において、音声合成フィルタ４４は、Ｐ次の線形予測係数を用いるものとなっており、従って、１つの加算器６１、Ｐ個の遅延回路（Ｄ）６２₁乃至６２_P、およびＰ個の乗算器６３₁乃至６３_Pから構成されている。
【００８８】
乗算器６３₁乃至６３_Pには、それぞれ、フィルタ係数復号器４２から供給されるＰ次の線形予測係数α₁，α₂，・・・，α_Pがセットされ、これにより、音声合成フィルタ４４では、式（４）にしたがって演算が行われ、合成音が生成される。
【００８９】
即ち、残差コードブック記憶部４３が出力する残差信号ｅは、加算器６１を介して、遅延回路６２１に供給され、遅延回路６２_pは、そこへの入力信号を、残差信号の１サンプル分だけ遅延して、後段の遅延回路６２_p+1に出力するとともに、演算器６３_pに出力する。乗算器６３_pは、遅延回路６２_pの出力と、そこにセットされた線形予測係数α_pとを乗算し、その乗算値を、加算器６１に出力する。
【００９０】
加算器６１は、乗算器６３₁乃至６３_Pの出力すべてと、残差信号ｅとを加算し、その加算結果を、遅延回路６２１に供給する他、音声合成結果（合成音）として出力する。
【００９１】
次に、図５のフローチャートを参照して、図３の音声合成装置の処理（音声合成処理）について説明する。
【００９２】
デマルチプレクサ４１は、そこに供給されるコードデータから、フレームごとのＡコードと残差コードを順次分離し、それぞれを、フィルタ係数復号器４２と残差コードブック記憶部４３に供給する。さらに、デマルチプレクサ４１は、Ａコードおよび残差コードを、タップ生成部４５および４６にも供給する。
【００９３】
フィルタ係数復号器４２は、デマルチプレクサ４１から供給されるフレームごとのＡコードを、線形予測係数に順次復号し、音声合成フィルタ４４に供給する。また、残差コードブック記憶部４３は、デマルチプレクサ４１から供給されるフレームごとの残差コードを、残差信号に順次復号し、音声合成フィルタ４４に供給する。
【００９４】
音声合成フィルタ４４では、そこに供給される残差信号および線形予測係数を用いて、式（４）の演算が行われることにより、注目フレームの合成音が生成される。この合成音は、タップ生成部４５および４６に供給される。
【００９５】
タップ生成部４５は、そこに供給される合成音のフレームを、順次、注目フレームとし、ステップＳ１において、音声合成フィルタ４４から供給される合成音（のサンプル値）、並びにデマルチプレクサ４１から供給されるＡコードおよび残差コードから、予測タップを生成し、予測部４９に出力する。さらに、ステップＳ１では、タップ生成部４６が、音声合成フィルタ４４から供給される合成音、並びにデマルチプレクサ４１から供給されるＡコードおよび残差コードから、クラスタップを生成し、クラス分類部４７に出力する。
【００９６】
そして、ステップＳ２に進み、クラス分類部４７は、タップ生成部４６から供給されるクラスタップに基づいて、クラス分類を行い、その結果得られるクラスコードを、係数メモリ４８に供給して、ステップＳ３に進む。
【００９７】
ステップＳ３では、係数メモリ４８は、クラス分類部４７から供給されるクラスコードに対応するアドレスから、タップ係数を読み出し、予測部４９に供給する。
【００９８】
そして、ステップＳ４に進み、予測部４９は、係数メモリ４８が出力するタップ係数を取得し、そのタップ係数と、タップ生成部４５からの予測タップとを用いて、式（６）に示した積和演算を行い、注目フレームの高音質の音声（の予測値）を得る。この高音質の音声は、予測部４９からＤ／Ａ変換部５０を介して、スピーカ５１に供給されて出力される。
【００９９】
予測部４９において、注目フレームの高音質の音声が得られた後は、ステップＳ５に進み、まだ、注目フレームとして処理すべきフレームがあるかどうかが判定される。ステップＳ５において、まだ、注目フレームとして処理すべきフレームがあると判定された場合、ステップＳ１に戻り、次に注目フレームとすべきフレームを、新たに注目フレームとして、以下、同様の処理を繰り返す。また、ステップＳ５において、注目フレームとして処理すべきフレームがないと判定された場合、音声合成処理を終了する。
【０１００】
次に、図６は、図３の係数メモリ４８に記憶させるタップ係数の学習処理を行う学習装置の一実施の形態の構成例を示している。
【０１０１】
学習装置には、学習用の（高音質の）ディジタル音声信号が、所定のフレーム単位で供給されるようになっており、この学習用のディジタル音声信号は、ＬＰＣ分析部７１および予測フィルタ７４に供給される。さらに、学習用のディジタル音声信号は、教師データとして、正規方程式加算回路８１にも供給される。
【０１０２】
ＬＰＣ分析部７１は、そこに供給される音声信号のフレームを、順次、注目フレームとし、その注目フレームの音声信号をＬＰＣ分析することで、Ｐ次の線形予測係数を求め、ベクトル量子化部７２および予測フィルタ７４に供給する。
【０１０３】
ベクトル量子化部７２は、線形予測係数を要素とするコードベクトルとコードとを対応付けたコードブックを記憶しており、そのコードブックに基づいて、ＬＰＣ分析部７１からの注目フレームの線形予測係数で構成される特徴ベクトルをベクトル量子化し、そのベクトル量子化の結果得られるＡコードを、フィルタ係数復号器７３、並びにタップ生成部７８および７９に供給する。
【０１０４】
フィルタ係数復号器７３は、ベクトル量子化部７２が記憶しているのと同一のコードブックを記憶しており、そのコードブックに基づいて、ベクトル量子化部７２からのＡコードを、線形予測係数に復号し、音声合成フィルタ７７に供給する。ここで、図３のフィルタ係数復号器４２と、図６のフィルタ係数復号器７３とは、同一構成のものとなっている。
【０１０５】
予測フィルタ７４は、そこに供給される注目フレームの音声信号と、LPC分析部７１からの線形予測係数を用いて、例えば、式（１）にしたがった演算を行うことにより、注目フレームの残差信号を求め、ベクトル量子化部７５に供給する。
【０１０６】
即ち、式（１）におけるｓ_nとｅ_nのＺ変換を、ＳとＥとそれぞれ表すと、式（１）は、次式のように表すことができる。
【０１０７】
Ｅ＝（１＋α₁ｚ^-1＋α₂ｚ^-2＋・・・＋α_Pｚ^-P）Ｓ
・・・（１４）
式（１４）から、残差信号ｅを求める予測フィルタ７４は、ＦＩＲ(Finite Impulse Response)型のディジタルフィルタで構成することができる。
【０１０８】
即ち、図７は、予測フィルタ７４の構成例を示している。
【０１０９】
予測フィルタ７４には、ＬＰＣ分析部７１から、Ｐ次の線形予測係数が供給されるようになっており、従って、予測フィルタ７４は、Ｐ個の遅延回路（Ｄ）９１₁乃至９１_P、Ｐ個の乗算器９２₁乃至９２_P、および１つの加算器９３から構成されている。
【０１１０】
乗算器９２₁乃至９２_Pには、それぞれ、ＬＰＣ分析部７１から供給されるＰ次の線形予測係数α₁，α₂，・・・，α_Pがセットされる。
【０１１１】
一方、注目フレームの音声信号ｓは、遅延回路９１₁と加算器９３に供給される。遅延回路９１_pは、そこへの入力信号を、残差信号の１サンプル分だけ遅延して、後段の遅延回路９１_p+1に出力するとともに、演算器９２_pに出力する。乗算器９２_pは、遅延回路９１_pの出力と、そこにセットされた線形予測係数α_pとを乗算し、その乗算値を、加算器９３に出力する。
【０１１２】
加算器９３は、乗算器９２₁乃至９２_Pの出力すべてと、音声信号ｓとを加算し、その加算結果を、残差信号ｅとして出力する。
【０１１３】
図６に戻り、ベクトル量子化部７５は、残差信号のサンプル値を要素とするコードベクトルとコードとを対応付けたコードブックを記憶しており、そのコードブックに基づいて、予測フィルタ７４からの注目フレームの残差信号のサンプル値で構成される残差ベクトルをベクトル量子化し、そのベクトル量子化の結果得られる残差コードを、残差コードブック記憶部７６、並びにタップ生成部７８および７９に供給する。
【０１１４】
残差コードブック記憶部７６は、ベクトル量子化部７５が記憶しているのと同一のコードブックを記憶しており、そのコードブックに基づいて、ベクトル量子化部７５からの残差コードを、残差信号に復号し、音声合成フィルタ７７に供給する。ここで、図３の残差コードブック記憶部４３と、図６の残差コードブック記憶部７６の記憶内容は同一になっている。
【０１１５】
音声合成フィルタ７７は、図３の音声合成フィルタ４４と同様に構成されるＩＩＲフィルタで、フィルタ係数復号器７３からの線形予測係数をＩＩＲフィルタのタップ係数とするとともに、残差コードブック記憶部７５からの残差信号を入力信号として、その入力信号のフィルタリングを行うことにより、合成音を生成し、タップ生成部７８および７９に供給する。
【０１１６】
タップ生成部７８は、図３のタップ生成部４５における場合と同様に、音声合成フィルタ７７から供給される合成音、ベクトル量子化部７２から供給されるＡコード、およびベクトル量子化部７５から供給される残差コードから、予測タップを構成し、正規方程式加算回路８１に供給する。タップ生成部７９は、図３のタップ生成部４６における場合と同様に、音声合成フィルタ７７から供給される合成音、ベクトル量子化部７２供給されるＡコード、およびベクトル量子化部７５から供給される残差コードから、クラスタップを構成し、クラス分類部８０に供給する。
【０１１７】
クラス分類部８０は、図３のクラス分類部４７における場合と同様に、そこに供給されるクラスタップに基づいて、クラス分類を行い、その結果得られるクラスコードを、正規方程式加算回路８１に供給する。
【０１１８】
正規方程式加算回路８１は、教師データとしての注目フレームの高音質の音声である学習用の音声と、タップ生成部７８からの生徒データとしての予測タップを対象とした足し込みを行う。
【０１１９】
即ち、正規方程式加算回路８１は、クラス分類部８０から供給されるクラスコードに対応するクラスごとに、予測タップ（生徒データ）を用い、式（１３）の行列Ａにおける各コンポーネントとなっている、生徒データどうしの乗算（ｘ_inｘ_im）と、サメーション（Σ）に相当する演算を行う。
【０１２０】
さらに、正規方程式加算回路８１は、やはり、クラス分類部８０から供給されるクラスコードに対応するクラスごとに、生徒データおよび教師データを用い、式（１３）のベクトルｖにおける各コンポーネントとなっている、生徒データと教師データの乗算（ｘ_inｙ_i）と、サメーション（Σ）に相当する演算を行う。
【０１２１】
正規方程式加算回路８１は、以上の足し込みを、そこに供給される学習用の音声のフレームすべてを注目フレームとして行い、これにより、各クラスについて、式（１３）に示した正規方程式をたてる。
【０１２２】
タップ係数決定回路８２は、正規方程式加算回路８１においてクラスごとに生成された正規方程式を解くことにより、クラスごとに、タップ係数を求め、係数メモリ８３の、各クラスに対応するアドレスに供給する。
【０１２３】
なお、学習用の音声信号として用意した音声信号によっては、正規方程式加算回路８１において、タップ係数を求めるのに必要な数の正規方程式が得られないクラスが生じる場合があり得るが、タップ係数決定回路８２は、そのようなクラスについては、例えば、デフォルトのタップ係数を出力する。
【０１２４】
係数メモリ８３は、タップ係数決定回路８２から供給されるクラスごとのタップ係数を、そのクラスに対応するアドレスに記憶する。
【０１２５】
次に、図８のフローチャートを参照して、図６の学習装置の処理（学習処理）について説明する。
【０１２６】
学習装置には、学習用の音声信号が供給され、この学習用の音声信号は、ＬＰＣ分析部７１および予測フィルタ７４に供給されるとともに、教師データとして、正規方程式加算回路８１に供給される。そして、ステップＳ１１において、学習用の音声信号から、生徒データが生成される。
【０１２７】
即ち、ＬＰＣ分析部７１は、学習用の音声信号のフレームを、順次、注目フレームとし、その注目フレームの音声信号をＬＰＣ分析することで、Ｐ次の線形予測係数を求め、ベクトル量子化部７２に供給する。ベクトル量子化部７２は、ＬＰＣ分析部７１からの注目フレームの線形予測係数で構成される特徴ベクトルをベクトル量子化し、そのベクトル量子化の結果得られるＡコードを、生徒データとして、フィルタ係数復号器７３、並びにタップ生成部７８および７９に供給する。フィルタ係数復号器７３は、ベクトル量子化部７２からのＡコードを、線形予測係数に復号し、その線形予測係数を、音声合成フィルタ７７に供給する。
【０１２８】
一方、ＬＰＣ分析部７１から注目フレームの線形予測係数を受信した予測フィルタ７４は、その線形予測係数と、注目フレームの学習用の音声信号とを用いて、式（１）にしたがった演算を行うことにより、注目フレームの残差信号を求め、ベクトル量子化部７５に供給する。ベクトル量子化部７５は、予測フィルタ７４からの注目フレームの残差信号のサンプル値で構成される残差ベクトルをベクトル量子化し、そのベクトル量子化の結果得られる残差コードを、生徒データとして、残差コードブック記憶部７６、並びにタップ生成部７８および７９に供給する。残差コードブック記憶部７６は、ベクトル量子化部７５からの残差コードを、残差信号に復号し、音声合成フィルタ７７に供給する。
【０１２９】
以上のようにして、音声合成フィルタ７７は、線形予測係数と残差信号を受信すると、その線形予測係数と残差信号を用いて音声合成を行い、その結果得られる合成音を、生徒データとして、タップ生成部７８および７９に出力する。
【０１３０】
そして、ステップＳ１２に進み、タップ生成部７８が、音声合成フィルタ７７から供給される合成音、ベクトル量子化部７２から供給されるＡコード、およびベクトル量子化部７５から供給される残差コードから、予測タップとクラスタップをそれぞれ生成する。予測タップは、正規方程式加算回路８１に供給され、クラスタップは、クラス分類部８０に供給される。
【０１３１】
その後、ステップＳ１３において、クラス分類部８０が、タップ生成部７９からのクラスタップに基づいて、クラス分類を行い、その結果得られるクラスコードを、正規方程式加算回路８１に供給する。
【０１３２】
そして、ステップＳ１４に進み、正規方程式加算回路８１は、クラス分類部８０から供給されるクラスについて、そこに供給される教師データとしての注目フレームの高音質の音声のサンプル値、およびタップ生成部７８からの生徒データとしての予測タップを対象とした、式（１３）の行列Ａとベクトルｖの、上述したような足し込みを行い、ステップＳ１５に進む。
【０１３３】
ステップＳ１５では、まだ、注目フレームとして処理すべきフレームの学習用の音声信号があるかどうかが判定される。ステップＳ１５において、まだ、注目フレームとして処理すべきフレームの学習用の音声信号があると判定された場合、ステップＳ１１に戻り、次のフレームを新たに注目フレームとして、以下、同様の処理が繰り返される。
【０１３４】
また、ステップＳ１５において、注目フレームとして処理すべきフレームの学習用の音声信号がないと判定された場合、即ち、正規方程式加算回路８１において、各クラスについて、正規方程式が得られた場合、ステップＳ１６に進み、タップ係数決定回路８２は、各クラスごとに生成された正規方程式を解くことにより、各クラスごとに、タップ係数を求め、係数メモリ８３の、各クラスに対応するアドレスに供給して記憶させ、処理を終了する。
【０１３５】
以上のようにして、係数メモリ８３に記憶された各クラスごとのタップ係数が、図３の係数メモリ４８に記憶されている。
【０１３６】
従って、図３の係数メモリ４８に記憶されたタップ係数は、線形予測演算を行うことにより得られる高音質の音声の予測値の予測誤差（ここでは、自乗誤差）が、統計的に最小になるように学習を行うことにより求められたものであるから、図３の予測部４９が出力する音声は、音声合成フィルタ４４で生成された合成音の歪みが低減（解消）された、高音質のものとなる。
【０１３７】
なお、図３の音声合成装置において、上述したように、例えば、タップ生成部４６に、線形予測係数や残差信号等の中からも、クラスタップを抽出させるようにする場合には、図６のタップ生成部７９にも、図中点線で示すように、フィルタ係数復号器７３が出力する線形予測係数や、残差コードブック記憶部７６が出力する残差信号の中から、同様のクラスタップを抽出させるようにする必要がある。図３のタップ生成部４５と、図６のタップ生成部７８で生成される予測タップについても同様である。
【０１３８】
また、上述の場合には、説明を簡単にするために、クラスタップを構成するビットの系列を、そのままクラスコードとするクラス分類を行うようにしたが、この場合、クラス数が膨大になることがある。そこで、クラス分類では、例えば、クラスタップをベクトル量子化等によって圧縮し、その圧縮の結果得られるビットの系列を、クラスコードとするようにすることが可能である。
【０１３９】
次に、図９は、本発明を適用した伝送システム（システムとは、複数の装置が論理的に集合した物をいい、各構成の装置が同一筐体中にあるか否かは問わない）の一実施の形態の構成を示している。
【０１４０】
この伝送システムでは、携帯電話機１０１₁と１０１₂が、基地局１０２₁と１０２₂それぞれとの間で、無線による送受信を行うとともに、基地局１０２₁と１０２₂それぞれが、交換局１０３との間で送受信を行うことにより、最終的には、携帯電話機１０１₁と１０１₂との間において、基地局１０２₁および１０２₂、並びに交換局１０３を介して、音声の送受信を行うことができるようになっている。なお、基地局１０２₁と１０２₂は、同一の基地局であっても良いし、異なる基地局であっても良い。
【０１４１】
ここで、以下、特に区別する必要がない限り、携帯電話機１０１₁と１０１₂を、携帯電話機１０１と記述する。
【０１４２】
図１０は、図９の携帯電話機１０１の構成例を示している。
【０１４３】
アンテナ１１１は、基地局１０２₁または１０２₂からの電波を受信し、その受信信号を、変復調部１１２に供給するとともに、変復調部１１２からの信号を、電波で、基地局１０２₁または１０２₂に送信する。変復調部１１２は、アンテナ１１１からの信号を復調し、その結果得られる、図１で説明したようなコードデータを、受信部１１４に供給する。また、変復調部１１２は、送信部１１３から供給される、図１で説明したようなコードデータを変調し、その結果得られる変調信号を、アンテナ１１１に供給する。送信部１１３は、図１に示した送信部と同様に構成され、そこに入力されるユーザの音声を、コードデータに符号化して、変復調部１１２に供給する。受信部１１４は、変復調部１１２からのコードデータを受信し、そのコードデータから、図３の音声合成装置における場合と同様の高音質の音声を復号して出力する。
【０１４４】
即ち、図１１は、図１０の受信部１１４の構成例を示している。なお、図中、図２における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
【０１４５】
タップ生成部１２１と１２２には、音声合成フィルタ２９が出力する、フレームごとの合成音と、チャネルデコーダ２１が出力する、フレーム（またはサブフレーム）ごとのＬコード、Ｇコード、Ｉコード、およびＡコードとが供給されるようになっている。タップ生成部１２１と１２２は、そこに供給される合成音、Ｌコード、Ｇコード、Ｉコード、およびＡコードから、予測タップとするものとクラスタップとするものをそれぞれ抽出する。予測タップは、予測部１２５に供給され、クラスタップは、クラス分類部１２３に供給される。
【０１４６】
クラス分類部１２３は、タップ生成部１２２から供給されるクラスタップに基づいて、クラス分類を行い、そのクラス分類結果としてのクラスコードを、係数メモリ１２４に供給する。
【０１４７】
係数メモリ１２４は、後述する図１２の学習装置において学習処理が行われることにより得られる、クラスごとのタップ係数を記憶しており、クラス分類部１２３が出力するクラスコードに対応するアドレスに記憶されているタップ係数を、予測部１２５に供給する。
【０１４８】
予測部１２５は、図３の予測部４９と同様に、タップ生成部１２１が出力する予測タップと、係数メモリ１２４が出力するタップ係数とを取得し、その予測タップとタップ係数とを用いて、式（６）に示した線形予測演算を行う。これにより、予測部１２５は、注目フレームの高音質の音声（の予測値）を求めて、Ｄ／Ａ変換部３０に供給する。
【０１４９】
以上のように構成される受信部１１４では、基本的には、図５に示したフローチャートにしたがった処理と同様の処理が行われることで、高音質の合成音が、音声の復号結果として出力される。
【０１５０】
即ち、チャネルデコーダ２１は、そこに供給されるコードデータから、Ｌコード、Ｇコード、Ｉコード、Ａコードを分離し、それぞれを、適応コードブック記憶部２２、ゲイン復号器２３、励起コードブック記憶部２４、フィルタ係数復号器２５に供給する。さらに、Ｌコード、Ｇコード、Ｉコード、およびＡコードは、タップ生成部１２１および１２２にも供給される。
【０１５１】
そして、適応コードブック記憶部２２、ゲイン復号器２３、励起コードブック記憶部２４、演算器２６乃至２８では、図１の適応コードブック記憶部９、ゲイン復号器１０、励起コードブック記憶部１１、演算器１２乃至１４における場合と同様の処理が行われ、これにより、Ｌコード、Ｇコード、およびＩコードが、残差信号ｅに復号される。この残差信号は、音声合成フィルタ２９に供給される。
【０１５２】
さらに、フィルタ係数復号器２５は、図１で説明したように、そこに供給されるＡコードを、線形予測係数に復号し、音声合成フィルタ２９に供給する。音声合成フィルタ２９は、演算器２８からの残差信号と、フィルタ係数復号器２５からの線形予測係数を用いて音声合成を行い、その結果得られる合成音を、タップ生成部１２１と１２２に供給する。
【０１５３】
タップ生成部１２１は、音声合成フィルタ２９が出力する合成音のフレームを注目フレームとし、ステップＳ１において、その注目フレームの合成音と、Ｌコード、Ｇコード、Ｉコード、およびＡコードとから、予測タップを生成し、予測部１２５に供給する。さらに、ステップＳ１では、タップ生成部１２２は、やはり、注目フレームの合成音と、Ｌコード、Ｇコード、Ｉコード、およびＡコードとから、クラスタップを生成し、クラス分類部１２３に供給する。
【０１５４】
そして、ステップＳ２に進み、クラス分類部１２３は、タップ生成部１２２から供給されるクラスタップに基づいて、クラス分類を行い、その結果得られるクラスコードを、係数メモリ１２４に供給して、ステップＳ３に進む。
【０１５５】
ステップＳ３では、係数メモリ１２４は、クラス分類部１２３から供給されるクラスコードに対応するアドレスから、タップ係数を読み出し、予測部１２５に供給する。
【０１５６】
そして、ステップＳ４に進み、予測部１２５は、係数メモリ１２４が出力するタップ係数を取得し、そのタップ係数と、タップ生成部１２１からの予測タップとを用いて、式（６）に示した積和演算を行い、注目フレームの高音質の音声（の予測値）を得る。
【０１５７】
以上のようにして得られた高音質の音声は、予測部１２５から、Ｄ／Ａ変換部３０を介して、スピーカ３１に供給され、これにより、スピーカ３１からは、高音質の音声が出力される。
【０１５８】
ステップＳ４の処理後は、ステップＳ５に進み、まだ、注目フレームとして処理すべきフレームがあるかどうかが判定され、あると判定された場合、ステップＳ１に戻り、次に注目フレームとすべきフレームを、新たに注目フレームとして、以下、同様の処理を繰り返す。また、ステップＳ５において、注目フレームとして処理すべきフレームがないと判定された場合、処理を終了する。
【０１５９】
次に、図１２は、図１１の係数メモリ１２４に記憶させるタップ係数の学習処理を行う学習装置の一実施の形態の構成例を示している。
【０１６０】
マイク２０１乃至コード決定部２１５は、図１のマイク１乃至コード決定部１５とそれぞれ同様に構成される。マイク１には、学習用の音声信号が入力されるようになっており、従って、マイク２０１乃至コード決定部２１５では、その学習用の音声信号に対して、図１における場合と同様の処理が施される。
【０１６１】
そして、タップ生成部１３１と１３２には、自乗誤差最小判定部２０８において自乗誤差が最小になったと判定されたときの音声合成フィルタ２０６が出力する合成音が供給される。さらに、タップ生成部１３１と１３２には、コード決定部２１５が、自乗誤差最小判定部２０８から確定信号を受信したときに出力するＬコード、Ｇコード、Ｉコード、およびＡコードも供給される。また、正規方程式加算回路１３４には、Ａ／Ｄ変換部２０２が出力する音声が、教師データとして供給される。
【０１６２】
タップ生成部１３１は、音声合成フィルタ２０６が出力する合成音と、コード決定部２１５が出力するＬコード、Ｇコード、Ｉコード、およびＡコードとから、図１１のタップ生成部１２１と同一の予測タップを構成し、生徒データとして、正規方程式加算回路１３４に供給する。
【０１６３】
タップ生成部１３２も、音声合成フィルタ２０６が出力する合成音と、コード決定部２１５が出力するＬコード、Ｇコード、Ｉコード、およびＡコードとから、図１１のタップ生成部１２２と同一のクラスタップを構成し、クラス分類部１３３に供給する。
【０１６４】
クラス分類部１３３は、タップ生成部１３２からのクラスタップに基づいて、図１１のクラス分類部１２３における場合と同様のクラス分類を行い、その結果得られるクラスコードを、正規方程式加算回路１３４に供給する。
【０１６５】
正規方程式加算回路１３４は、Ａ／Ｄ変換部２０２からの音声を、教師データとして受信するとともに、タップ生成部１３１からの予測タップを、生徒データとして受信し、その教師データおよび生徒データを対象として、クラス分類部１３３からのクラスコードごとに、図６の正規方程式加算回路８１における場合と同様の足し込みを行うことにより、各クラスについて、式（１３）に示した正規方程式をたてる。
【０１６６】
タップ係数決定回路１３５は、正規方程式加算回路１３４においてクラスごとに生成された正規方程式を解くことにより、クラスごとに、タップ係数を求め、係数メモリ１３６の、各クラスに対応するアドレスに供給する。
【０１６７】
なお、学習用の音声信号として用意する音声信号によっては、正規方程式加算回路１３４において、タップ係数を求めるのに必要な数の正規方程式が得られないクラスが生じる場合があり得るが、タップ係数決定回路１３５は、そのようなクラスについては、例えば、デフォルトのタップ係数を出力する。
【０１６８】
係数メモリ１３６は、タップ係数決定回路１３５から供給されるクラスごとの線形予測係数と残差信号についてのタップ係数を記憶する。
【０１６９】
以上のように構成される学習装置では、基本的には、図８に示したフローチャートにしたがった処理と同様の処理が行われることで、高音質の合成音を得るためのタップ係数が求められる。
【０１７０】
即ち、学習装置には、学習用の音声信号が供給され、ステップＳ１１では、その学習用の音声信号から、教師データと生徒データが生成される。
【０１７１】
即ち、学習用の音声信号は、マイク２０１に入力され、マイク２０１乃至コード決定部２１５は、図１のマイク１乃至コード決定部１５における場合とそれぞれ同様の処理を行う。
【０１７２】
その結果、Ａ／Ｄ変換部２０２で得られるディジタル信号の音声は、教師データとして、正規方程式加算回路１３４に供給される。また、自乗誤差最小判定部２０８において自乗誤差が最小になったと判定されたときに、音声合成フィルタ２０６が出力する合成音は、生徒データとして、タップ生成部１３１と１３２に供給される。さらに、自乗誤差最小判定部２０８において自乗誤差が最小になったと判定されたときに、コード決定部２１５が出力するＬコード、Ｇコード、Ｉコード、およびＡコードも、生徒データとして、タップ生成部１３１と１３２に供給される。
【０１７３】
その後、ステップＳ１２に進み、タップ生成部１３１は、音声合成フィルタ２０６から生徒データとして供給される合成音のフレームを注目フレームとして、その注目フレームの合成音と、Ｌコード、Ｇコード、Ｉコード、およびＡコードとから、予測タップを生成し、正規方程式加算回路１３４に供給する。さらに、ステップＳ１２では、タップ生成部１３２が、やはり、注目フレームの合成音と、Ｌコード、Ｇコード、Ｉコード、およびＡコードとから、クラスタップを生成し、クラス分類部１３３に供給する。
【０１７４】
ステップＳ１２の処理後は、ステップＳ１３に進み、クラス分類部１３３が、タップ生成部１３２からのクラスタップに基づいて、クラス分類を行い、その結果得られるクラスコードを、正規方程式加算回路１３４に供給する。
【０１７５】
そして、ステップＳ１４に進み、正規方程式加算回路１３４は、Ａ／Ｄ変換器２０２からの教師データとしての注目フレームの高音質の音声である学習用の音声、およびタップ生成部１３２からの生徒データとしての予測タップを対象として、式（１３）の行列Ａとベクトルｖの、上述したような足し込みを、クラス分類部１３３からのクラスコードごとに行い、ステップＳ１５に進む。
【０１７６】
ステップＳ１５では、まだ、注目フレームとして処理すべきフレームがあるかどうかが判定される。ステップＳ１５において、まだ、注目フレームとして処理すべきフレームがあると判定された場合、ステップＳ１１に戻り、次のフレームを新たに注目フレームとして、以下、同様の処理が繰り返される。
【０１７７】
また、ステップＳ１５において、注目フレームとして処理すべきフレームがないと判定された場合、即ち、正規方程式加算回路１３４において、各クラスについて、正規方程式が得られた場合、ステップＳ１６に進み、タップ係数決定回路１３５は、各クラスごとに生成された正規方程式を解くことにより、各クラスごとに、タップ係数を求め、係数メモリ１３６の、各クラスに対応するアドレスに供給して記憶させ、処理を終了する。
【０１７８】
以上のようにして、係数メモリ１３６に記憶された各クラスごとのタップ係数が、図１１の係数メモリ１２４に記憶されている。
【０１７９】
従って、図１１の係数メモリ１２４に記憶されたタップ係数は、線形予測演算を行うことにより得られる高音質の音声予測値の予測誤差（自乗誤差）が、統計的に最小になるように学習を行うことにより求められたものであるから、図１１の予測部１２５が出力する音声は、高音質のものとなる。
【０１８０】
なお、例えば、図１１および図１２の実施の形態では、クラスタップを、音声合成フィルタ２０６が出力する合成音と、Ｌコード、Ｇコード、Ｉコード、およびＡコードとから生成するようにしたが、クラスタップは、Ｌコード、Ｇコード、Ｉコード、またはＡコードのうちの１以上と、音声合成フィルタ２０６が出力する合成音とから生成することが可能である。また、クラスタップは、図１１および図１２において点線で示すように、Ａコードから得られる線形予測係数α_pや、Ｇコードから得られるゲインβ，γ、その他の、Ｌコード、Ｇコード、Ｉコード、またはＡコードから得られる情報（例えば、残差信号ｅや、残差信号ｅを得るためのｌ，ｎ、さらには、ｌ／β，ｎ／γなど）をも用いて構成することが可能である。さらに、クラスタップは、音声合成フィルタ２０６が出力する合成音と、Ｌコード、Ｇコード、Ｉコード、またはＡコードから得られる、上述したような情報とから生成することも可能である。また、ＣＥＬＰ方式では、コードデータに、リスト補間ビットやフレームエネルギが含められる場合があるが、この場合、クラスタップは、ソフト補間ビットやフレームエネルギを用いて構成することが可能である。予測タップについても、同様である。
【０１８１】
ここで、図１３に、図１２の学習装置において、教師データとして用いられる音声データｓと、生徒データとして用いられる合成音のデータｓｓ、残差信号ｅ、残差信号を求めるのに用いられるｎおよびｌを示す。
【０１８２】
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
【０１８３】
そこで、図１４は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
【０１８４】
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク３０５やＲＯＭ３０３に予め記録しておくことができる。
【０１８５】
あるいはまた、プログラムは、フロッピーディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体３１１に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体３１１は、いわゆるパッケージソフトウエアとして提供することができる。
【０１８６】
なお、プログラムは、上述したようなリムーバブル記録媒体３１１からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部３０８で受信し、内蔵するハードディスク３０５にインストールすることができる。
【０１８７】
コンピュータは、CPU(Central Processing Unit)３０２を内蔵している。CPU３０２には、バス３０１を介して、入出力インタフェース３１０が接続されており、CPU３０２は、入出力インタフェース３１０を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部３０７が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)３０３に格納されているプログラムを実行する。あるいは、また、CPU３０２は、ハードディスク３０５に格納されているプログラム、衛星若しくはネットワークから転送され、通信部３０８で受信されてハードディスク３０５にインストールされたプログラム、またはドライブ３０９に装着されたリムーバブル記録媒体３１１から読み出されてハードディスク３０５にインストールされたプログラムを、RAM(Random Access Memory)３０４にロードして実行する。これにより、CPU３０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU３０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース３１０を介して、LCD(Liquid CryStal Display)やスピーカ等で構成される出力部３０６から出力、あるいは、通信部３０８から送信、さらには、ハードディスク３０５に記録等させる。
【０１８８】
ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。
【０１８９】
また、プログラムは、１のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
【０１９０】
なお、本実施の形態においては、学習用の音声信号として、どのようなものを用いるかについては、特に言及しなかったが、学習用の音声信号としては、人が発話した音声の他、例えば、曲（音楽）等を採用することが可能である。そして、上述したような学習処理によれば、学習用の音声信号として、人の発話を用いた場合には、そのような人の発話の音声の音質を向上させるようなタップ係数が得られ、曲を用いた場合には、曲の音質を向上させるようなタップ係数が得られることになる。
【０１９１】
また、図１１の実施の形態では、係数メモリ１２４には、タップ係数をあらかじめ記憶させておくようにしたが、係数メモリ１２４に記憶させるタップ係数は、携帯電話機１０１において、図９の基地局１０２（あるいは交換局１０３）や、図示しないＷＷＷ(World Wide Web)サーバ等からダウンロードするようにすることができる。即ち、上述したように、タップ係数は、人の発話用や曲用等のように、ある種類の音声信号に適したものを、学習によって得ることができる。さらに、学習に用いる教師データおよび生徒データによっては、合成音の音質に差が生じるタップ係数を得ることができる。従って、そのような各種のタップ係数を、基地局１０２等に記憶させておき、ユーザには、自身の所望するタップ係数をダウンロードさせるようにすることができる。そして、このようなタップ係数のダウンロードサービスは、無料で行うこともできるし、有料で行うこともできる。さらに、タップ係数のダウンロードサービスを有料で行う場合には、タップ係数のダウンロードに対する対価としての代金は、例えば、携帯電話機１０１の通話料等とともに請求するようにすることが可能である。
【０１９２】
また、係数メモリ１２４は、携帯電話機１０１に対して着脱可能なメモリカード等で構成することができる。この場合、上述したような各種のタップ係数それぞれを記憶させた、異なるメモリカードを提供するようにすれば、ユーザは、場合に応じて、所望のタップ係数が記憶されたメモリカードを、携帯電話機１０１に装着して使用することが可能となる。
【０１９３】
さらに、本発明は、例えば、ＶＳＥＬＰ(Vector Sum Excited Liner Prediction)，ＰＳＩ−ＣＥＬＰ(Pitch Synchronous Innovation CELP)，ＣＳ−ＡＣＥＬＰ(Conjugate Structure Algebraic CELP)等のＣＥＬＰ方式による符号化の結果得られるコードから合成音を生成する場合に、広く適用可能である。
【０１９４】
また、本発明は、ＣＥＬＰ方式による符号化の結果得られるコードから合成音を生成する場合に限らず、あるコードから、残差信号と線形予測係数を得て、合成音を生成する場合に、広く適用可能である。
【０１９５】
さらに、本実施の形態では、タップ係数を用いた線形１次予測演算によって、残差信号や線形予測係数の予測値を求めるようにしたが、この予測値は、その他、２次以上の高次の予測演算によって求めることも可能である。
【０１９６】
また、本実施の形態では、クラスタップをベクトル量子化すること等によってクラス分類を行うようにしたが、クラス分類は、その他、例えば、ＡＤＲＣ処理を利用して行うこと等も可能である。
【０１９７】
ADRCを用いるクラス分類では、クラスタップを構成する要素（本実施の形態では、合成音のサンプル値や、Ｌコード、Ｇコード、Ｉコード、Ａコード等）が、ADRC処理され、その結果得られるADRCコードにしたがって、クラスが決定される。
【０１９８】
ここで、KビットADRCにおいては、例えば、クラスタップを構成する要素の最大値MAXと最小値MINが検出され、DR=MAX-MINを、集合の局所的なダイナミックレンジとし、このダイナミックレンジDRに基づいて、クラスタップを構成する要素がKビットに再量子化される。即ち、クラスタップを構成する各要素から、最小値MINが減算され、その減算値がDR/2^Kで除算（量子化）される。そして、以上のようにして得られる、クラスタップを構成する各要素のKビットの値を、所定の順番で並べたビット列が、ADRCコードとして出力される。
【０１９９】
なお、例えば、特開平８−２０２３９９号公報には、合成音を、高域強調フィルタに通すことによって、その音質を改善する方法が開示されているが、本発明は、タップ係数が学習により得られる点や、予測計算に用いられるタップ係数が、クラス分類結果によって適応的に決まる点等において、特開平８−２０２３３９号公報に記載の発明と異なる。
【０２００】
【発明の効果】
本発明の第１及び第２の側面によれば、高音質の合成音を生成することが可能となる。
【図面の簡単な説明】
【図１】従来の携帯電話機の送信部の一例の構成を示すブロック図である。
【図２】従来の携帯電話機の受信部の一例の構成を示すブロック図である。
【図３】本発明を適用した音声合成装置の一実施の形態の構成例を示すブロック図である。
【図４】音声合成フィルタ４４の構成例を示すブロック図である。
【図５】図３の音声合成装置の処理を説明するフローチャートである。
【図６】本発明を適用した学習装置の一実施の形態の構成例を示すブロック図である。
【図７】予測フィルタ７４の構成例を示すブロック図である。
【図８】図６の学習装置の処理を説明するフローチャートである。
【図９】本発明を適用した伝送システムの一実施の形態の構成例を示す図である。
【図１０】携帯電話機１０１の構成例を示すブロック図である。
【図１１】受信部１１４の構成例を示すブロック図である。
【図１２】本発明を適用した学習装置の他の実施の形態の構成例を示すブロック図である。
【図１３】教師データと生徒データを示す図である。
【図１４】本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
【符号の説明】
２１チャンネルデコーダ，２２適応コードブック記憶部，２３ゲイン復号器，２４励起コードブック記憶部，２５フィルタ係数復号器，２６乃至２８演算器，２９音声合成フィルタ，３０Ｄ／Ａ変換部，３１スピーカ，４１デマルチプレクサ，４２フィルタ係数復号器，４３残差コードブック記憶部，４４音声合成フィルタ，４５，４６タップ生成部，４７クラス分類部，４８係数メモリ，４９予測部，５０Ｄ／Ａ変換部，５１スピーカ，６１加算器，６２₁乃至６２_P 遅延回路，６３₁乃至６３_P 乗算器，７１ＬＰＣ分析部，７２ベクトル量子化部，７３フィルタ係数復号器, ７４予測フィルタ，７５ベクトル量子化部，７６残差コードブック記憶部，７７音声合成フィルタ，７８，７９タップ生成部，８０クラス分類部，８１正規方程式加算回路，８２タップ係数決定回路，８３係数メモリ，９１₁乃至９１_P遅延回路，９２₁乃至７２_P 乗算器，９３加算器，１０１₁，１０１₂携帯電話機，１０２₁，１０２₂ 基地局，１０３交換局，１１１アンテナ，１１２変復調部，１１３送信部，１１４受信部，１２１，１２２タップ生成部，１２３クラス分類部，１２４係数メモリ，１２５予測部，１３１，１３２タップ生成部，１３３クラス分類部，１３４正規方程式加算回路，１３５タップ係数決定回路，１３６係数メモリ，２０１マイク，２０２Ａ／Ｄ変換部，２０３演算器，２０４ＬＰＣ分析部，２０５ベクトル量子化部，２０６音声合成フィルタ，２０７自乗誤差演算部，２０８自乗誤差最小判定部，２０９適応コードブック記憶部，２１０ゲイン復号器，２１１励起コードブック記憶部，２１２乃至２１４演算器，２１５コード決定部，３０１バス，３０２ CPU，３０３ ROM，３０４ RAM，３０５ハードディスク，３０６出力部，３０７入力部，３０８通信部，３０９ドライブ，３１０入出力インタフェース，３１１リムーバブル記録媒体

Claims

所定のコードから生成される線形予測係数と残差信号を、音声合成フィルタに与えることによって得られる合成音から、その音質を向上させた高音質の音声の予測値を求める音声処理装置であって、
前記予測値を求めようとしている前記高音質の音声を注目音声として、その注目音声を予測するのに用いる予測タップを、前記合成音と、前記コードまたは前記コードから得られる情報とから抽出する予測タップ抽出手段と、
前記注目音声を、幾つかのクラスのうちのいずれかにクラス分類するのに用いるクラスタップを、前記合成音と、前記コードまたは前記コードから得られる情報とから抽出するクラスタップ抽出手段と、
前記クラスタップに基づいて、前記注目音声のクラスを求めるクラス分類を行うクラス分類手段と、
学習を行うことにより求められた、前記クラスごとの前記タップ係数の中から、前記注目音声のクラスに対応する前記タップ係数を取得する取得手段と、
前記予測タップと、前記注目音声のクラスに対応する前記タップ係数を用いて、前記注目音声の予測値を求める予測手段と
を備える音声処理装置。
前記予測手段は、前記予測タップおよびタップ係数を用いて線形１次予測演算を行うことにより、前記注目音声の予測値を求める
請求項１に記載の音声処理装置。
前記取得手段は、クラスごとの前記タップ係数を記憶している記憶手段から、前記注目音声に対応するクラスの前記タップ係数を取得する
請求項１に記載の音声処理装置。
前記予測タップ抽出手段またはクラスタップ抽出手段は、前記予測タップまたはクラスタップを、前記合成音、前記コード、およびコードから得られる情報から抽出する
請求項１に記載の音声処理装置。
前記タップ係数は、前記予測タップおよびタップ係数を用いて所定の予測演算を行うことにより得られる前記高音質の音声の予測値の予測誤差が、統計的に最小になるように、学習を行うことにより得られたものである
請求項１に記載の音声処理装置。
前記音声合成フィルタをさらに備える
請求項１に記載の音声処理装置。
前記コードは、音声を、ＣＥＬＰ(Code Excited Liner Prediction coding)方式によって符号化することにより得られたものである
請求項１に記載の音声処理装置。
所定のコードから生成される線形予測係数と残差信号を、音声合成フィルタに与えることによって得られる合成音から、その音質を向上させた高音質の音声の予測値を求める音声処理方法であって、
前記予測値を求めようとしている前記高音質の音声を注目音声として、その注目音声を予測するのに用いる予測タップを、前記合成音と、前記コードまたは前記コードから得られる情報とから抽出する予測タップ抽出ステップと、
前記注目音声を、幾つかのクラスのうちのいずれかにクラス分類するのに用いるクラスタップを、前記コード合成音と、前記コードまたは前記コードから得られる情報とから抽出するクラスタップ抽出ステップと、
前記クラスタップに基づいて、前記注目音声のクラスを求めるクラス分類を行うクラス分類ステップと、
学習を行うことにより求められた、前記クラスごとの前記タップ係数の中から、前記注目音声のクラスに対応する前記タップ係数を取得する取得ステップと、
前記予測タップと、前記注目音声のクラスに対応する前記タップ係数を用いて、前記注目音声の予測値を求める予測ステップと
を備える音声処理方法。
所定のコードから生成される線形予測係数と残差信号を、音声合成フィルタに与えることによって得られる合成音から、その音質を向上させた高音質の音声の予測値を求める音声処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、
前記予測値を求めようとしている前記高音質の音声を注目音声として、その注目音声を予測するのに用いる予測タップを、前記合成音と、前記コードまたは前記コードから得られる情報とから抽出する予測タップ抽出手段と、
前記注目音声を、幾つかのクラスのうちのいずれかにクラス分類するのに用いるクラスタップを、前記合成音と、前記コードまたは前記コードから得られる情報とから抽出するクラスタップ抽出手段と、
前記クラスタップに基づいて、前記注目音声のクラスを求めるクラス分類を行うクラス分類手段と、
学習を行うことにより求められた、前記クラスごとの前記タップ係数の中から、前記注目音声のクラスに対応する前記タップ係数を取得する取得手段と、
前記予測タップと、前記注目音声のクラスに対応する前記タップ係数を用いて、前記注目音声の予測値を求める予測手段と
して、コンピュータを機能させるためのプログラムが記録されている記録媒体。
所定のコードから生成される線形予測係数と残差信号を、音声合成フィルタに与えることによって得られる合成音から、その音質を向上させた高音質の音声の予測値を、所定の予測演算によって求めるのに用いる所定のタップ係数を学習する学習装置であって、
前記予測値を求めようとしている前記高音質の音声を注目音声として、その注目音声を予測するのに用いる予測タップを、前記合成音と、前記コードまたは前記コードから得られる情報とから抽出する予測タップ抽出手段と、
前記注目音声を、幾つかのクラスのうちのいずれかにクラス分類するのに用いるクラスタップを、前記合成音と、前記コードまたは前記コードから得られる情報とから抽出するクラスタップ抽出手段と、
前記クラスタップに基づいて、前記注目音声のクラスを求めるクラス分類を行うクラス分類手段と、
前記タップ係数および予測タップを用いて予測演算を行うことにより得られる前記高音質の音声の予測値の予測誤差が統計的に最小になるように、学習を行い、前記クラスごとのタップ係数を求める学習手段と
を備える学習装置。
前記学習手段は、前記タップ係数および予測タップを用いて線形１次予測演算を行うことにより得られる前記高音質の音声の予測値の予測誤差が、統計的に最小になるように学習を行う
請求項１０に記載の学習装置。
前記予測タップ抽出手段またはクラスタップ抽出手段は、前記予測タップまたはクラスタップを、前記合成音と、前記コード、および前記コードから得られる情報から抽出する
請求項１０に記載の学習装置。
前記コードは、音声を、ＣＥＬＰ(Code Excited Liner Prediction coding)方式によって符号化することにより得られたものである
請求項１０に記載の学習装置。
所定のコードから生成される線形予測係数と残差信号を、音声合成フィルタに与えることによって得られる合成音から、その音質を向上させた高音質の音声の予測値を、所定の予測演算によって求めるのに用いる所定のタップ係数を学習する学習方法であって、
前記予測値を求めようとしている前記高音質の音声を注目音声として、その注目音声を予測するのに用いる予測タップを、前記合成音と、前記コードまたは前記コードから得られる情報とから抽出する予測タップ抽出手段と、
前記注目音声を、幾つかのクラスのうちのいずれかにクラス分類するのに用いるクラスタップを、前記合成音と、前記コードまたは前記コードから得られる情報とから抽出するクラスタップ抽出ステップと、
前記クラスタップに基づいて、前記注目音声のクラスを求めるクラス分類を行うクラス分類ステップと、
前記タップ係数および予測タップを用いて予測演算を行うことにより得られる前記高音質の音声の予測値の予測誤差が統計的に最小になるように、学習を行い、前記クラスごとのタップ係数を求める学習ステップと
を備える学習方法。
所定のコードから生成される線形予測係数と残差信号を、音声合成フィルタに与えることによって得られる合成音から、その音質を向上させた高音質の音声の予測値を、所定の予測演算によって求めるのに用いる所定のタップ係数を学習する学習処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、
前記予測値を求めようとしている前記高音質の音声を注目音声として、その注目音声を予測するのに用いる予測タップを、前記合成音と、前記コードまたは前記コードから得られる情報とから抽出する予測タップ抽出手段と、
前記注目音声を、幾つかのクラスのうちのいずれかにクラス分類するのに用いるクラスタップを、前記合成音と、前記コードまたは前記コードから得られる情報とから抽出するクラスタップ抽出手段と、
前記クラスタップに基づいて、前記注目音声のクラスを求めるクラス分類を行うクラス分類手段と、
前記タップ係数および予測タップを用いて予測演算を行うことにより得られる前記高音質の音声の予測値の予測誤差が統計的に最小になるように、学習を行い、前記クラスごとのタップ係数を求める学習手段と
して、コンピュータを機能させるためのプログラムが記録されている記録媒体。