JP4121578B2

JP4121578B2 - 音声分析方法、音声符号化方法および装置

Info

Publication number: JP4121578B2
Application number: JP27650196A
Authority: JP
Inventors: 正之西口; 淳松本; 和幸飯島; 晃井上
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1996-10-18
Filing date: 1996-10-18
Publication date: 2008-07-23
Anticipated expiration: 2016-10-18
Also published as: KR100496670B1; JPH10124094A; DE69726685D1; CN1187665A; EP0837453A3; DE69726685T2; US6108621A; CN1161751C; EP0837453B1; KR19980032825A; EP0837453A2

Description

【０００１】
【発明の属する技術分野】
本発明は、入力音声信号を時間軸上で所定の符号化単位で区分し、区分された各符号化単位の音声信号の基本周期に相当するピッチを検出し、検出されたピッチに基づいて各符号化単位で音声信号を分析する音声分析方法、およびこの音声分析方法を用いる音声符号化方法および装置に関する。
【０００２】
【従来の技術】
音声信号や音響信号を含むオーディオ信号の時間領域や周波数領域における統計的性質と人間の聴感上の特性を利用して信号圧縮を行う符号化方法が種々知られている。このような符号化方法は、時間領域での符号化、周波数領域での符号化、分析合成符号化等に大別される。
【０００３】
音声信号等の高能率符号化の例として、ハーモニック（Harmonic）符号化、ＭＢＥ（Multiband Excitation: マルチバンド励起）符号化等のサイン波分析符号化や、ＳＢＣ（Sub-band Coding:帯域分割符号化）、ＬＰＣ（Linear Predictive Coding: 線形予測符号化）、あるいはＤＣＴ（離散コサイン変換）、ＭＤＣＴ（モデファイドＤＣＴ）、ＦＦＴ（高速フーリエ変換）等が知られている。
【０００４】
【発明が解決しようとする課題】
従来のＭＢＥ，ＳＴＣ，ハーモニック符号化，ＬＰＣ残差等のハーモニック符号化において、オープンループで比較的粗いピッチサーチを行った後の高精度（ファイン）ピッチサーチにおいて、周波数領域全体の合成波形、すなわち合成スペクトルと、原スペクトル、例えばＬＰＣ残差スペクトルのひずみを最小とする高精度ピッチ（整数サンプル値以下でのフラクショナルピッチ）サーチと、周波数領域の波形の振幅評価とを同時に行っていた。
【０００５】
しかし、人の音声スペクトルは、有声音部分においても、必ずしも厳密に基本波の整数倍の位置にスペクトルが存在するのではなく、周波数と共にその位置が微妙にずれる場合がある。そのような場合、音声スペクトルの全帯域にわたり一つの基本周波数あるいはピッチを用いて、上記高精度ピッチサーチを行ってもスペクトルの振幅評価が正しく行えない場合がある。
【０００６】
本発明は、このような課題を解決するためになされたものであり、基本波の整数倍からずれた位置に存在する音声スペクトルのハーモニクスの振幅も正しく評価できる音声分析方法、およびこの音声分析方法を適用して、明瞭度が高い再生出力を得ることができる音声符号化方法および装置を提供することを目的とするものである。
【０００７】
【課題を解決するための手段】
本発明に係る音声分析方法は、上述した課題を解決するために、入力音声信号を時間軸上で所定の符号化単位で区分し、区分された各符号化単位の音声信号の基本周期に相当するピッチを検出し、検出されたピッチに基づいて各符号化単位で音声信号を分析する音声分析方法において、入力された音声信号に基づく信号の周波数スペクトルを周波数軸上で複数の帯域に区分する工程と、上記各帯域毎にスペクトルの形状に基づくピッチをそれぞれ用いて、ピッチサーチおよび各ハーモニクスの振幅評価を同時に行い、求められたピッチ及び各ハーモニクスの振幅を出力する工程とを有することを特徴とするものである。
【０００８】
上記の特徴を備えた本発明に係る音声分析方法によれば、基本波の整数倍からずれている音声スペクトルのハーモニクスの振幅も正しく評価することができる。
【０００９】
また、本発明に係る音声符号化方法は、上述した課題を解決するために、入力音声信号を時間軸上で所定の符号化単位で区分し、区分された各符号化単位の音声信号の基本周期に相当するピッチを検出し、検出されたピッチに基づいて各符号化単位で音声信号を符号化する音声符号化方法において、入力された音声信号に基づく信号の周波数スペクトルを周波数軸上で複数の帯域に区分する工程と、上記各帯域毎にスペクトルの形状に基づくピッチをそれぞれ用いてピッチサーチおよび各ハーモニクスの振幅評価を同時に行い、求められたピッチ及び各ハーモニクスの振幅を出力する工程とを有することを特徴とするものである。
さらに、本発明に係る音声符号化装置は、上述した課題を解決するために、入力音声信号を時間軸上で所定の符号化単位で区分し、区分された各符号化単位の音声信号の基本周期に相当するピッチを検出し、検出されたピッチに基づいて各符号化単位で音声信号を符号化する音声符号化装置において、入力された音声信号に基づく信号の周波数スペクトルを周波数軸上で複数の帯域に区分する手段と、上記各帯域毎にスペクトルの形状に基づくピッチをそれぞれ用いてピッチサーチおよび各ハーモニクスの振幅評価を同時に行い、求められたピッチ及び各ハーモニクスの振幅を出力する手段とを有することを特徴とするものである。
【００１０】
上記の特徴を備えた本発明に係る音声符号化方法および装置によれば、基本波の整数倍からずれている音声スペクトルのハーモニクスの振幅も正しく評価することができるため、音のこもり感やひずみがなく明瞭度が高い再生出力を得ることができる。
【００１１】
【発明の実施の形態】
以下、本発明に係る好ましい実施の形態について説明する。
先ず、図１は、本発明に係る音声分析方法および音声符号化方法の実施の形態が適用された音声符号化装置の基本構成を示している。
【００１２】
ここで、図１の音声符号化装置の基本的な考え方は、入力音声信号の短期予測残差、例えばＬＰＣ（線形予測符号化）残差を求めてサイン波分析（sinusoidal analysis ）符号化、例えばハーモニックコーディング（harmonic coding ）を行う第１の符号化部１１０と、入力音声信号に対して位相再現性のある波形符号化により符号化する第２の符号化部１２０とを有し、入力信号の有声音（Ｖ：Voiced）の部分の符号化に第１の符号化部１１０を用い、入力信号の無声音（ＵＶ：Unvoiced）の部分の符号化には第２の符号化部１２０を用いるようにすることである。
【００１３】
上記第１の符号化部１１０には、例えばＬＰＣ残差をハーモニック符号化やマルチバンド励起（ＭＢＥ）符号化のようなサイン波分析符号化を行う構成が用いられる。上記第２の符号化部１２０には、例えば合成による分析法を用いて最適ベクトルのクローズドループサーチによるベクトル量子化を用いた符号励起線形予測（ＣＥＬＰ）符号化の構成が用いられる。
【００１４】
図１の例では、入力端子１０１に供給された音声信号が、第１の符号化部１１０のＬＰＣ逆フィルタ１１１およびＬＰＣ分析・量子化部１１３に送られている。ＬＰＣ分析・量子化部１１３から得られたＬＰＣ係数あるいは、いわゆるαパラメータは、ＬＰＣ逆フィルタ１１１に送られて、このＬＰＣ逆フィルタ１１１により入力音声信号の線形予測残差（ＬＰＣ残差）が取り出される。また、ＬＰＣ分析・量子化部１１３からは、後述するようにＬＳＰ（線スペクトル対）の量子化出力が取り出され、これが出力端子１０２に送られる。ＬＰＣ逆フィルタ１１１からのＬＰＣ残差は、サイン波分析符号化部１１４に送られる。サイン波分析符号化部１１４では、ピッチ検出やスペクトルエンベロープ振幅計算が行われると共に、Ｖ（有声音）／ＵＶ（無声音）判定部１１５によりＶ／ＵＶの判定が行われる。サイン波分析符号化部１１４からのスペクトルエンベロープ振幅データがベクトル量子化部１１６に送られる。スペクトルエンベロープのベクトル量子化出力としてのベクトル量子化部１１６からのコードブックインデクスは、スイッチ１１７を介して出力端子１０３に送られ、サイン波分析符号化部１１４からの出力は、スイッチ１１８を介して出力端子１０４に送られる。また、Ｖ／ＵＶ判定部１１５からのＶ／ＵＶ判定出力は、出力端子１０５に送られると共に、スイッチ１１７、１１８の制御信号として送られており、上述した有声音（Ｖ）のとき上記インデクスおよびピッチが選択されて各出力端子１０３および１０４からそれぞれ取り出される。
【００１５】
図１の第２の符号化部１２０は、この例ではＣＥＬＰ（符号励起線形予測）符号化構成を有しており、雑音符号帳１２１からの出力を、重み付きの合成フィルタ１２２により合成処理し、得られた重み付き音声を減算器１２３に送り、入力端子１０１に供給された音声信号を聴覚重み付けフィルタ１２５を介して得られた音声との誤差を取り出し、この誤差を距離計算回路１２４に送って距離計算を行い、誤差が最小となるようなベクトルを雑音符号帳１２１でサーチするような、合成による分析（Analysis by Synthesis ）法を用いたクローズドループサーチを用いた時間軸波形のベクトル量子化を行っている。このＣＥＬＰ符号化は、上述したように無声音部分の符号化に用いられており、雑音符号帳１２１からのＵＶデータとしてのコードブックインデクスは、上記Ｖ／ＵＶ判定部１１５からのＶ／ＵＶ判定結果が無声音（ＵＶ）のときオンとなるスイッチ１２７を介して、出力端子１０７より取り出される。
【００１６】
次に、図２は、本発明に係る音声復号化方法の一実施の形態が適用された音声復号化装置として、上記図１の音声符号化装置に対応する音声復号化装置の基本構成を示すブロック図である。
【００１７】
この図２において、入力端子２０２には上記図１の出力端子１０２からの上記ＬＳＰ（線スペクトル対）の量子化出力としてのコードブックインデクスが入力される。入力端子２０３、２０４、および２０５には、上記図１の各出力端子１０３、１０４、および１０５からの各出力、すなわちエンベロープ量子化出力としてのインデクス、ピッチ、およびＶ／ＵＶ判定出力がそれぞれ入力される。また、入力端子２０７には、上記図１の出力端子１０７からのＵＶ（無声音）用のデータとしてのインデクスが入力される。
【００１８】
入力端子２０３からのエンベロープ量子化出力としてのインデクスは、逆ベクトル量子化器２１２に送られて逆ベクトル量子化され、ＬＰＣ残差のスペクトルエンベロープが求められて有声音合成部２１１に送られる。有声音合成部２１１は、サイン波合成により有声音部分のＬＰＣ（線形予測符号化）残差を合成するものであり、この有声音合成部２１１には入力端子２０４および２０５からのピッチおよびＶ／ＵＶ判定出力も供給されている。有声音合成部２１１からの有声音のＬＰＣ残差は、ＬＰＣ合成フィルタ２１４に送られる。また、入力端子２０７からのＵＶデータのインデクスは、無声音合成部２２０に送られて、雑音符号帳を参照することにより無声音部分のＬＰＣ残差が取り出される。このＬＰＣ残差もＬＰＣ合成フィルタ２１４に送られる。ＬＰＣ合成フィルタ２１４では、上記有声音部分のＬＰＣ残差と無声音部分のＬＰＣ残差とがそれぞれ独立に、ＬＰＣ合成処理が施される。あるいは、有声音部分のＬＰＣ残差と無声音部分のＬＰＣ残差とが加算されたものに対してＬＰＣ合成処理を施すようにしてもよい。ここで入力端子２０２からのＬＳＰのインデクスは、ＬＰＣパラメータ再生部２１３に送られて、ＬＰＣのαパラメータが取り出され、これがＬＰＣ合成フィルタ２１４に送られる。ＬＰＣ合成フィルタ２１４によりＬＰＣ合成されて得られた音声信号は、出力端子２０１より取り出される。
【００１９】
次に、上記図１に示した音声符号化装置の、より具体的な構成について、図３を参照しながら説明する。なお、図３において、上記図１の各部と対応する部分には同じ指示符号を付している。
【００２０】
この図３に示された音声符号化装置において、入力端子１０１に供給された音声信号は、ハイパスフィルタ（ＨＰＦ）１０９にて不要な帯域の信号を除去するフィルタ処理が施された後、ＬＰＣ（線形予測符号化）分析・量子化部１１３のＬＰＣ分析回路１３２と、ＬＰＣ逆フィルタ回路１１１とに送られる。
【００２１】
ＬＰＣ分析・量子化部１１３のＬＰＣ分析回路１３２は、例えば、サンプリング周波数ｆ_s＝８ｋHzの入力信号波形の２５６サンプル程度の長さを１ブロックとしてハミング窓をかけて、自己相関法により線形予測係数、いわゆるαパラメータを求める。データ出力の単位となるフレーミングの間隔は、１６０サンプル程度とする。例えば、サンプリング周波数ｆ_s が８ｋHzのとき、１フレーム間隔は１６０サンプルで２０ｍsec となる。
【００２２】
ＬＰＣ分析回路１３２からのαパラメータは、α→ＬＳＰ変換回路１３３に送られて、線スペクトル対（ＬＳＰ）パラメータに変換される。これは、直接型のフィルタ係数として求まったαパラメータを、例えば１０個、すなわち５対のＬＳＰパラメータに変換する。変換は、例えばニュートン−ラプソン法等を用いて行う。このＬＳＰパラメータに変換するのは、αパラメータよりも補間特性に優れているからである。
【００２３】
α→ＬＳＰ変換回路１３３からのＬＳＰパラメータは、ＬＳＰ量子化器１３４によりマトリクス量子化あるいはベクトル量子化される。このとき、フレーム間差分をとってからベクトル量子化してもよく、複数フレーム分をまとめてマトリクス量子化してもよい。ここでは、２０ｍsec を１フレームとし、２０ｍsec 毎に算出されるＬＳＰパラメータを２フレーム分まとめて、マトリクス量子化およびベクトル量子化している。なお、上記ＬＳＰ領域でのＬＳＰパラメータの量子化は、直接αパラメータまたはｋパラメータを直接に量子化するようにしてもよい。このＬＳＰ量子化器１３４からの量子化出力、すなわちＬＳＰ量子化のインデクスは、端子１０２を介して取り出され、また量子化済みのＬＳＰベクトルは、ＬＳＰ補間回路１３６に送られる。
【００２４】
ＬＳＰ補間回路１３６は、上記２０ｍsec あるいは４０ｍsec 毎に量子化されたＬＳＰのベクトルを補間し、８倍のレート（オーバーサンプル）にする。すなわち、２．５ｍsec 毎にＬＳＰベクトルが更新されるようにする。これは、残差波形をハーモニック符号化復号化方法により分析合成すると、その合成波形のエンベロープは非常になだらかでスムーズな波形になるため、ＬＰＣ係数が２０ｍsec 毎に急激に変化すると異音を発生することがあるからである。すなわち、２．５ｍsec 毎にＬＰＣ係数が徐々に変化してゆくようにすれば、このような異音の発生を防ぐことができる。
【００２５】
このような補間が行われた２．５ｍsec 毎のＬＳＰベクトルを用いて入力音声の逆フィルタリングを実行するために、ＬＳＰ→α変換回路１３７により、量子化済ＬＳＰパラメータを、例えば１０次程度の直接型フィルタの係数であるαパラメータに変換する。このＬＳＰ→α変換回路１３７からの出力は、上記ＬＰＣ逆フィルタ回路１１１に送られ、このＬＰＣ逆フィルタ１１１では、２．５ｍsec 毎に更新されるαパラメータにより逆フィルタリング処理を行って、滑らかな出力を得るようにしている。このＬＰＣ逆フィルタ１１１からの出力は、サイン波分析符号化部１１４、具体的には、例えばハーモニック符号化回路、の直交変換回路１４５、例えばＤＦＴ（離散フーリエ変換）回路に送られる。
【００２６】
ＬＰＣ分析・量子化部１１３のＬＰＣ分析回路１３２からのαパラメータは、聴覚重み付けフィルタ算出回路１３９に送られて聴覚重み付けのためのデータが求められ、この重み付けデータが後述する聴覚重み付きのベクトル量子化器１１６と、第２の符号化部１２０の聴覚重み付けフィルタ１２５および聴覚重み付きの合成フィルタ１２２とに送られる。
【００２７】
ハーモニック符号化回路等のサイン波分析符号化部１１４では、ＬＰＣ逆フィルタ１１１からの出力を、ハーモニック符号化の方法で分析する。すなわち、ピッチ検出、各ハーモニクスの振幅Ａm の算出、有声音（Ｖ）／無声音（ＵＶ）の判別を行い、ピッチによって変化するハーモニクスのエンベロープあるいは振幅Ａm の個数を次元変換して一定数にしている。
【００２８】
図３に示すサイン波分析符号化部１１４の具体例においては、一般のハーモニック符号化を想定しているが、特に、ＭＢＥ（Multiband Excitation: マルチバンド励起）符号化の場合には、同時刻（同じブロックあるいはフレーム内）の周波数軸領域いわゆるバンド毎に有声音（Voiced）部分と無声音（Unvoiced）部分とが存在するという仮定でモデル化することになる。それ以外のハーモニック符号化では、１ブロックあるいはフレーム内の音声が有声音か無声音かの択一的な判定がなされることになる。なお、以下の説明中のフレーム毎のＶ／ＵＶとは、ＭＢＥ符号化に適用した場合には全バンドがＵＶのときを当該フレームのＵＶとしている。ここで上記ＭＢＥの分析合成手法については、本件出願人が先に提案した特願平４−９１４２２号明細書および図面に詳細な具体例を開示している。
【００２９】
図３のサイン波分析符号化部１１４のオープンループピッチサーチ部１４１には、上記入力端子１０１からの入力音声信号が、またゼロクロスカウンタ１４２には、上記ＨＰＦ（ハイパスフィルタ）１０９からの信号がそれぞれ供給されている。サイン波分析符号化部１１４の直交変換回路１４５には、ＬＰＣ逆フィルタ１１１からのＬＰＣ残差あるいは線形予測残差が供給されている。
【００３０】
オープンループピッチサーチ部１４１では、入力信号のＬＰＣ残差をとってオープンループによる比較的ラフなピッチのサーチが行われ、抽出された粗ピッチは高精度ピッチサーチ１４６に送られて、後述するようなクローズドループによる高精度のピッチサーチ（ピッチのファインサーチ）が行われる。このピッチデータは、いわゆるピッチラグ、すなわちピッチ周期を時間軸上のサンプル数で表したものを用いている。さらに、後述するＶ／ＵＶ（有声音／無声音）判定部１１５からの判定出力も上記オープンループによるピッチサーチのためのパラメータとして用いるようにしてもよい。このとき、音声信号のＶ（有声音）と判定された部分から抽出されたピッチ情報のみを上記オープンループピッチサーチに用いるようにする。
【００３１】
直交変換回路１４５では、例えば２５６点のＤＦＴ（離散フーリエ変換）等の直交変換処理が施されて、時間軸上のＬＰＣ残差が周波数軸上のスペクトル振幅データに変換される。この直交変換回路１４５からの出力は、高精度ピッチサーチ部１４６およびスペクトル振幅あるいはエンベロープを評価するためのスペクトル評価部１４８に送られる。
【００３２】
高精度（ファイン）ピッチサーチ部１４６には、オープンループピッチサーチ部１４１で抽出された比較的ラフな粗ピッチと、直交変換部１４５により、例えばＤＦＴされた周波数軸上のデータとが供給されている。この高精度ピッチサーチ部１４６では、粗ピッチＰ₀ に基づいて、さらにインテジャーサーチとフラクショナルサーチとからなる２段階の高精度ピッチサーチを行う。
【００３３】
ここで、上記インテジャーサーチとは、上記粗ピッチを中心に整数サンプルきざみでサンプルを振って、ピッチを選択するピッチ検出方法をいう。また、上記フラクショナルサーチとは、上記粗ピッチを中心に１サンプル以下（すなわち小数で表されるサンプル数）きざみでサンプルを振って、ピッチを検出するピッチ検出方法をいう。
【００３４】
上記インテジャーサーチおよびフラクショナルサーチの手法として、いわゆる合成による分析 (Analysis by Synthesis)法を用い、合成されたパワースペクトルが原音のパワースペクトルに最も近くなるようにピッチを選んでいる。
【００３５】
このようなクローズドループによる高精度のピッチサーチ部１４６からのピッチ情報は、スイッチ１１８を介して出力端子１０４に送られる。
【００３６】
スペクトル評価部１４８では、ＬＰＣ残差の直交変換出力としてのスペクトル振幅およびピッチ情報に基づいて各ハーモニクスの大きさおよびその集合であるスペクトルエンベロープが評価され、高精度ピッチサーチ部１４６、Ｖ／ＵＶ（有声音／無声音）判定部１１５および聴覚重み付きのベクトル量子化器１１６に送られる。
【００３７】
Ｖ／ＵＶ（有声音／無声音）判定部１１５は、直交変換回路１４５からの出力と、高精度ピッチサーチ部１４６からの最適ピッチと、スペクトル評価部１４８からのスペクトル振幅データと、オープンループピッチサーチ部１４１からの正規化自己相関最大値ｒ'(1)と、ゼロクロスカウンタ１４２からのゼロクロスカウント値とに基づいて、当該フレームのＶ／ＵＶ判定が行われる。さらに、ＭＢＥの場合の各バンド毎のＶ／ＵＶ判定結果の境界位置も該フレームのＶ／ＵＶ判定の一条件としてもよい。このＶ／ＵＶ判定部１１５からの判定出力は、出力端子１０５を介して取り出される。
【００３８】
ところで、スペクトル評価部１４８の出力部あるいはベクトル量子化器１１６の入力部には、データ数変換（一種のサンプリングレート変換）部が設けられている。このデータ数変換部は、上記ピッチに応じて周波数軸上での分割帯域数が異なり、データ数が異なることを考慮して、エンベロープの振幅データ｜Ａ_m｜を一定の個数にするためのものである。すなわち、例えば有効帯域を３４００ｋHzまでとすると、この有効帯域が上記ピッチに応じて、８バンド〜６３バンドに分割されることになり、これらの各バンド毎に得られる上記振幅データ｜Ａ_m｜の個数ｍ_MX＋１も８〜６３と変化することになる。このためデータ数変換部１１９では、この可変個数ｍ_MX＋１の振幅データを一定個数Ｍ個、例えば４４個、のデータに変換している。
【００３９】
このスペクトル評価部１４８の出力部あるいはベクトル量子化器１１６の入力部に設けられたデータ数変換部からの上記一定個数Ｍ個（例えば４４個）の振幅データあるいはエンベロープデータが、ベクトル量子化器１１６により、所定個数、例えば４４個のデータ毎にまとめられてベクトルとされ、重み付きベクトル量子化が施される。この重みは、聴覚重み付けフィルタ算出回路１３９からの出力により与えられる。ベクトル量子化器１１６からの上記エンベロープのインデクスは、スイッチ１１７を介して出力端子１０３より取り出される。なお、上記重み付きベクトル量子化に先だって、所定個数のデータから成るベクトルについて適当なリーク係数を用いたフレーム間差分をとっておくようにしてもよい。
【００４０】
次に、第２の符号化部１２０について説明する。第２の符号化部１２０は、いわゆるＣＥＬＰ（符号励起線形予測）符号化構成を有しており、特に、入力音声信号の無声音部分の符号化のために用いられている。この無声音部分用のＣＥＬＰ符号化構成において、雑音符号帳、いわゆるストキャスティック・コードブック（stochastic code book）１２１からの代表値出力である無声音のＬＰＣ残差に相当するノイズ出力を、ゲイン回路１２６を介して、聴覚重み付きの合成フィルタ１２２に送っている。重み付きの合成フィルタ１２２では、入力されたノイズをＬＰＣ合成処理し、得られた重み付き無声音の信号を減算器１２３に送っている。減算器１２３には、上記入力端子１０１からＨＰＦ（ハイパスフィルタ）１０９を介して供給された音声信号を聴覚重み付けフィルタ１２５で聴覚重み付けした信号が入力されており、合成フィルタ１２２からの信号との差分あるいは誤差を取り出している。なお、聴覚重み付けフィルタ１２５の出力から合成フィルタの零入力応答を事前に差し引いておくものとする。この誤差を距離計算回路１２４に送って距離計算を行い、誤差が最小となるような代表値ベクトルを雑音符号帳１２１でサーチする。このような合成による分析（Analysis by Synthesis ）法を用いたクローズドループサーチにより時間軸波形のベクトル量子化を行っている。
【００４１】
このＣＥＬＰ符号化構成を用いた第２の符号化部１２０からのＵＶ（無声音）部分用のデータとしては、雑音符号帳１２１からのコードブックのシェイプインデクスと、ゲイン回路１２６からのコードブックのゲインインデクスとが取り出される。雑音符号帳１２１からのＵＶデータであるシェイプインデクスは、スイッチ１２７ｓを介して出力端子１０７ｓに送られ、ゲイン回路１２６のＵＶデータであるゲインインデクスは、スイッチ１２７ｇを介して出力端子１０７ｇに送られている。
【００４２】
ここで、これらのスイッチ１２７ｓ、１２７ｇおよび上記スイッチ１１７、１１８は、上記Ｖ／ＵＶ判定部１１５からのＶ／ＵＶ判定結果によりオン／オフ制御され、スイッチ１１７、１１８は、現在伝送しようとするフレームの音声信号のＶ／ＵＶ判定結果が有声音（Ｖ）のときオンとなり、スイッチ１２７ｓ、１２７ｇは、現在伝送しようとするフレームの音声信号が無声音（ＵＶ）のときオンとなる。
【００４３】
次に、図４は、上記図２に示した本発明に係る実施の形態としての音声信号復号化装置のより具体的な構成を示している。この図４において、上記図２の各部と対応する部分には、同じ指示符号を付している。
【００４４】
この図４において、入力端子２０２には、上記図１、３の出力端子１０２からの出力に相当するＬＳＰのベクトル量子化出力、いわゆるコードブックのインデクスが供給されている。
【００４５】
このＬＳＰのインデクスは、ＬＰＣパラメータ再生部２１３のＬＳＰの逆ベクトル量子化器２３１に送られてＬＳＰ（線スペクトル対）データに逆ベクトル量子化され、ＬＳＰ補間回路２３２、２３３に送られてＬＳＰの補間処理が施された後、ＬＳＰ→α変換回路２３４、２３５でＬＰＣ（線形予測符号）のαパラメータに変換され、このαパラメータがＬＰＣ合成フィルタ２１４に送られる。ここで、ＬＳＰ補間回路２３２及びＬＳＰ→α変換回路２３４は有声音（Ｖ）用であり、ＬＳＰ補間回路２３３及びＬＳＰ→α変換回路２３５は無声音（ＵＶ）用である。またＬＰＣ合成フィルタ２１４は、有声音部分のＬＰＣ合成フィルタ２３６と、無声音部分のＬＰＣ合成フィルタ２３７とを分離している。すなわち、有声音部分と無声音部分とでＬＰＣの係数補間を独立に行うようにして、有声音から無声音への遷移部や、無声音から有声音への遷移部で、全く性質の異なるＬＳＰどうしを補間することによる悪影響を防止している。
【００４６】
また、図４の入力端子２０３には、上記図１、図３のエンコーダ側の端子１０３からの出力に対応するスペクトルエンベロープ（Ａｍ）の重み付けベクトル量子化されたコードインデクスデータが供給され、入力端子２０４には、上記図１、図３の端子１０４からのピッチのデータが供給され、入力端子２０５には、上記図１、図３の端子１０５からのＶ／ＵＶ判定データが供給されている。
【００４７】
入力端子２０３からのスペクトルエンベロープＡｍのベクトル量子化されたインデクスデータは、逆ベクトル量子化器２１２に送られて逆ベクトル量子化が施され、上記データ数変換に対応する逆変換が施されて、スペクトルエンベロープのデータとなって、有声音合成部２１１のサイン波合成回路２１５に送られている。
【００４８】
なお、エンコード時にスペクトルのベクトル量子化に先だってフレーム間差分をとっている場合には、ここでの逆ベクトル量子化後にフレーム間差分の復号を行ってからデータ数変換を行い、スペクトルエンベロープのデータを得る。
【００４９】
サイン波合成回路２１５には、入力端子２０４からのピッチ及び入力端子２０５からの上記Ｖ／ＵＶ判定データが供給されている。サイン波合成回路２１５からは、上述した図１、図３のＬＰＣ逆フィルタ１１１からの出力に相当するＬＰＣ残差データが取り出され、これが加算器２１８に送られている。このサイン波合成の具体的な手法については、例えば本件出願人が先に提案した、特願平４−９１４２２号の明細書及び図面、あるいは特願平６−１９８４５１号の明細書及び図面に開示されている。
【００５０】
また、逆ベクトル量子化器２１２からのエンベロープのデータと、入力端子２０４、２０５からのピッチ、Ｖ／ＵＶ判定データとは、有声音（Ｖ）部分のノイズ加算のためのノイズ合成回路２１６に送られている。このノイズ合成回路２１６からの出力は、重み付き重畳加算回路２１７を介して加算器２１８に送っている。これは、サイン波合成によって有声音のＬＰＣ合成フィルタへの入力となるエクサイテイション（Excitation：励起、励振）を作ると、男声等の低いピッチの音で鼻づまり感がある点、及びＶ（有声音）とＵＶ（無声音）とで音質が急激に変化し不自然に感じる場合がある点を考慮し、有声音部分のＬＰＣ合成フィルタ入力すなわちエクサイテイションについて、音声符号化データに基づくパラメータ、例えばピッチ、スペクトルエンベロープ振幅、フレーム内の最大振幅、残差信号のレベル等を考慮したノイズをＬＰＣ残差信号の有声音部分に加えているものである。
【００５１】
加算器２１８からの加算出力は、ＬＰＣ合成フィルタ２１４の有声音用の合成フィルタ２３６に送られてＬＰＣの合成処理が施されることにより時間波形データとなり、さらに有声音用ポストフィルタ２３８ｖでフィルタ処理された後、加算器２３９に送られる。
【００５２】
次に、図４の入力端子２０７ｓ及び２０７ｇには、上記図３の出力端子１０７ｓ及び１０７ｇからのＵＶデータとしてのシェイプインデクス及びゲインインデクスがそれぞれ供給され、無声音合成部２２０に送られている。端子２０７ｓからのシェイプインデクスは、無声音合成部２２０の雑音符号帳２２１に、端子２０７ｇからのゲインインデクスはゲイン回路２２２にそれぞれ送られている。雑音符号帳２２１から読み出された代表値出力は、無声音のＬＰＣ残差に相当するノイズ信号成分であり、これがゲイン回路２２２で所定のゲインの振幅となり、窓かけ回路２２３に送られて、上記有声音部分とのつなぎを円滑化するための窓かけ処理が施される。
【００５３】
窓かけ回路２２３からの出力は、無声音合成部２２０からの出力として、ＬＰＣ合成フィルタ２１４のＵＶ（無声音）用の合成フィルタ２３７に送られる。合成フィルタ２３７では、ＬＰＣ合成処理が施されることにより無声音部分の時間波形データとなり、この無声音部分の時間波形データは無声音用ポストフィルタ２３８ｕでフィルタ処理された後、加算器２３９に送られる。
【００５４】
加算器２３９では、有声音用ポストフィルタ２３８ｖからの有声音部分の時間波形信号と、無声音用ポストフィルタ２３８ｕからの無声音部分の時間波形データとが加算され、出力端子２０１より取り出される。
【００５５】
次に、本発明に係る音声分析方法が適用された上記第１の符号化部１１０での処理の基本的な手順を図５に示す。
【００５６】
入力音声信号は、ステップＳ５１のＬＰＣ分析工程と、ステップＳ５５のオープンループピッチサーチ（粗ピッチサーチ）工程とに供給される。
【００５７】
ステップＳ５１のＬＰＣ分析工程では、例えば、入力信号波形の２５６サンプル程度の長さを１ブロックとしてハミング窓をかけて、自己相関法により線形予測係数、いわゆるαパラメータを求める。
【００５８】
次に、ステップＳ５２のＬＳＰ量子化およびＬＰＣ逆フィルタ工程では、ステップＳ５１で求めたαパラメータが、ＬＰＣ量子化器によりマトリクス量子化あるいはベクトル量子化される。また、上記αパラメータは、ＬＰＣ逆フィルタに送られて、入力音声信号の線形予測残差（ＬＰＣ残差）が取り出される。
【００５９】
次に、ステップＳ５３のＬＰＣ残差信号への窓がけ工程では、ステップＳ５２で取り出されたＬＰＣ残差信号に、例えばハミング窓等の適当な窓がけを行う。なお、このとき、図６に示すように、フレームとフレームとの間を越えて窓かけを行っている。
【００６０】
次に、ステップＳ５４のＦＦＴ工程では、ステップＳ５３で窓がけを行ったＬＰＣ残差信号に、例えば２５６点のＦＦＴを行って周波数軸上のパラメータであるＦＦＴスペクトルに変換する。このとき、Ｎ点でＦＦＴされた音声信号のスペクトルは、０〜πに対応してＸ(0)〜Ｘ(N/2−１)個のスペクトルデータからなる。
【００６１】
一方、ステップＳ５５のオープンループピッチサーチ（粗ピッチサーチ）工程では、入力信号のＬＰＣ残差をとってオープンループによる比較的ラフなピッチのサーチが行われ、粗ピッチが出力される。
【００６２】
そして、ステップＳ５６のピッチファインサーチ及びスペクトル振幅評価工程では、ステップＳ５５で得たＦＦＴスペクトルと、予め決定されている基底とを用いてスペクトル振幅を算出する。
【００６３】
次に、図３に示した音声符号化装置の直交変換回路１４５およびスペクトル評価部１４８における、スペクトルの振幅評価について具体的に説明する。
【００６４】
まず、以下の説明に用いるパラメータ等を
Ｘ(j) （０≦ｊ＜128）：ＦＦＴスペクトル
Ｅ(j) （０≦ｊ＜128）：基底
Ａ(m) ：ハーモニクスの振幅
と定義する。
【００６５】
スペクトル振幅の評価誤差ε(m)は、数１に示す（１）式と表される。
【００６６】
【数１】

【００６７】
上記ＦＦＴスペクトルＸ(j)は直交変換回路１４５でフーリエ変換により得られた周波数軸上のパラメータである。また、基底Ｅ(j)は予め決定されているものとする。
【００６８】
（１）式をハーモニクスの振幅Ａ(m)で微分したものを０とおいた
【００６９】
【数２】

【００７０】
を解いて、極値を与えるＡ(m)、すなわち上記評価誤差が最小となるＡ(m)を求めることにより数３に示す（２）式を得る。
【００７１】
【数３】

【００７２】
ここで、ａ(m)およびｂ(m)は、図７（ａ）に示すように、周波数スペクトルの低域から高域までを一つのピッチω₀ で分割した場合に、第ｍ番目の帯域（バンド）の上限および下限のＦＦＴ係数のインデクスとする。このとき、上記第ｍ番目のハーモニクスの中心周波数は、（ａ(m)＋ｂ(m)）／２に相当する。
【００７３】
また、上記基底Ｅ(j)は、例えば、２５６点のハミング窓そのものを用いてもよく、または２５６点のハミング窓に０を詰めて、例えば２０４８点としたものを２５６点または２０４８点でＦＦＴして得たスペクトルを用いてもよい。ただし、その場合には、（２）式のハーモニクスの振幅｜Ａ(m)｜の評価において、図７（ｂ）に示すようにＥ(0)が（ａ(m)＋ｂ(m)）／２の位置に重なるようにオフセットを加えておく必要がある。このとき、（２）式は、より厳密には、数４に示す（３）式となる。
【００７４】
【数４】

【００７５】
同様に、第ｍ番目のバンドのスペクトル振幅の評価誤差ε(m)は数５に示す（４）式となる。
【００７６】
【数５】

【００７７】
このとき基底Ｅ(j)は、
−１２８≦ｊ≦１２７または −１０２４≦ｊ≦１０２３
の区間で定義される。
【００７８】
次に、図３に示した高精度ピッチサーチ部１４６における、高精度ピッチサーチについて具体的に説明する。
【００７９】
ハーモニクススペクトルの振幅評価を高精度に行うためには、高精度のピッチをえることが必要である。すなわち、ピッチの精度が低いと、振幅評価が正しく行えなくなり、明瞭な再生音声を得ることができなくなる。
【００８０】
本発明に係る音声分析方法におけるピッチサーチの基本的な手順は、まずオープンループピッチサーチ部１４１でオープンループによる比較的粗い（ラフな）ピッチサーチを予め行い、粗ピッチの値Ｐ₀ を得る。そして、この粗ピッチＰ₀ に基づいて、さらに高精度ピッチサーチ部１４６でインテジャーサーチとフラクショナルサーチとからなる２段階の高精度ピッチサーチを行うというものである。
【００８１】
オープンループピッチサーチ部１４１における比較的粗い（ラフな）ピッチサーチにより求められる粗ピッチは、前述したように、現在分析しているフレームのＬＰＣ残差の自己相関の最大値に基づいて、その前後のフレームにおけるオープンループピッチ（粗ピッチ）とのつながりを考慮して求められる。
【００８２】
また、インテジャーサーチは、周波数スペクトルの全帯域について行い、フラクショナルサーチは周波数スペクトルの帯域を分割して、分割された各帯域についてそれぞれ行う。
【００８３】
高精度ピッチサーチの具体的な手順の一例を図９〜図１２のフローチャートを参照しながら説明する。ここで、上記粗ピッチの値Ｐ₀ は、サンプリング周波数ｆ_s＝８kHzのとき、ピッチ周期をサンプル数で表した、いわゆるピッチラグの値である。ｋはループの繰り返し回数である。
【００８４】
上記高精度ピッチサーチは、インテジャーサーチ，高域側フラクショナルサーチ，低域側フラクショナルサーチの順で行われる。これらのサーチ工程においては、合成スペクトルと原スペクトルとの誤差を最小とするようにピッチサーチが行われる。すなわち（４）式で算出される評価誤差ε(m) を最小とするようにする。従って、上記高精度ピッチサーチ工程には、（３）式で与えられるハーモニクスの振幅｜Ａ(m)｜および（４）式で算出される評価誤差ε(m) とが含まれることになり、高精度ピッチサーチとスペクトル振幅評価とが同時に行われることになる。
【００８５】
図８（ａ）は、周波数スペクトルの全帯域に対してインテジャーサーチによるピッチ検出を行う様子を示している。これから明らかなように、全帯域のスペクトル振幅を一つのピッチω₀ で評価しようとすると、原スペクトルと合成スペクトルのずれが大きくなり、この方法だけでは正確な振幅評価が行えないことが分かる。
【００８６】
図９は、上述したインテジャーサーチの具体的な手順を示している。
【００８７】
ステップＳ１では、インテジャーサーチの際のサンプル数を与えるNUMP_INTの値，フラクショナルサーチのサンプル数を与えるNUMP_FLTの値，フラクショナルサーチの際のステップＳの大きさを与えるSTEP_SIZEの値がセットされる。なお、これらの値の具体例は、NUMP_INT＝３，NUMP_FLT＝５，STEP_SIZE＝0.25などである。
【００８８】
ステップＳ２では、粗ピッチＰ₀ とNUMP_INTとからピッチＰ_chの初期値が与えられると共に、ループカウンターがｋ＝０とされてリセットされる。
【００８９】
ステップＳ３では、ステップＳ２で与えられたピッチＰ_chと入力音声信号のスペクトルＸ(j) から、ハーモニクスの振幅｜Ａ_m｜，低域側のみの振幅誤差の総和ε_rl，高域側のみの振幅誤差の総和ε_rhを算出する。なお、このステップＳ３における具体的な操作については後述する。
【００９０】
ステップＳ４では、「低域側のみの振幅誤差の総和ε_rlと高域側のみの振幅誤差の総和ε_rhとの和がminε_rより小さいまたはｋ＝０」であるかどうかが判定される。この条件を満たさないときは、ステップＳ５を経ずにステップＳ６に進む。一方、この条件を満たすときは、ステップＳ５に進み、
minε_r ＝ ε_rl＋ε_rh
minε_rl ＝ ε_rl
minε_rh ＝ ε_rh
FinalPitch ＝Ｐ_ch，A_m_tmp(m) ＝｜Ａ(m)｜
がセットされる。
【００９１】
ステップＳ６では、
Ｐ_ch ＝Ｐ_ch＋１
がセットされる。
【００９２】
ステップＳ７では、「ｋがNUMP_INTより小さい」という条件を満たすかどうかが判定される。この条件を満たすときは、ステップＳ３に戻る。一方、この条件を満たさないときは、ステップＳ８に進む。
【００９３】
図８（ｂ）は、周波数スペクトルの高域側で、フラクショナルサーチによるピッチ検出を行う様子を示している。これから、上述した、周波数スペクトルの全帯域に対して行うインテジャーサーチに比べて、高域側での評価誤差を小さくできることが分かる。
【００９４】
図１０は、上記高域側フラクショナルサーチの具体的な手順を示している。
【００９５】
ステップＳ８では、
Ｐ_ch ＝ FinalPitch−(NUMP_FLT−１)／２×STEP_SIZE
ｋ＝０
がセットされる。ここで、上記FinalPitchは、前述した全帯域のインテジャーサーチにより得られたピッチである。
【００９６】
ステップＳ９では、「ｋが(NUMP_FLT−１)／２に等しい」という条件を満たすかどうかが判定される。この条件を満たさないときは、ステップＳ１０に進む。一方、この条件を満たすときは、ステップＳ１１に進む。
【００９７】
ステップＳ１０では、ピッチＰchと入力音声信号のスペクトルＸ(j) から、ハーモニクスの振幅｜Ａm｜と高域側のみの振幅誤差の総和ε_rhを算出し、ステップＳ１２に進む。なお、このステップＳ１０における具体的な操作については後述する。
【００９８】
ステップＳ１１では、
ε_rh ＝ minε_rh
｜Ａ(m)｜＝ A_m_tmp(m)
がセットされ、ステップＳ１２に進む。
【００９９】
ステップＳ１２では、「ε_rhがminε_rより小さい又はｋ＝０」という条件を満たすかどうか判定される。この条件を満たさないときは、ステップＳ１３を経ずにステップＳ１４に進む。一方、この条件を満たすときは、ステップＳ１３に進む。
【０１００】
ステップＳ１３では、
minε_r ＝ ε_rh
FinalPitch_h ＝Ｐ_ch
A_m_h(m) ＝｜Ａ(m)｜
がセットされる。
【０１０１】
ステップＳ１４では、
Ｐ_ch ＝Ｐ_ch＋STEP_SIZE
ｋ＝ｋ＋１
がセットされる。
【０１０２】
ステップＳ１５では、「ｋがNUMP_FLTより小さい」という条件を満たすかどうかが判定される。この条件を満たすときは、ステップＳ９に戻る。一方、この条件を満たさないときは、ステップＳ１６に進む。
【０１０３】
図８（ｃ）は、周波数スペクトルの低域側で、フラクショナルサーチによるピッチ検出を行う様子を示している。これから、前述した、周波数スペクトルの全帯域に対して行うインテジャーサーチに比べて、低域側での評価誤差を小さくできることが分かる。
【０１０４】
図１１は、上記低域側フラクショナルサーチの具体的な手順を示している。
【０１０５】
ステップＳ１６では、
Ｐ_ch ＝ FinalPitch−(NUMP_FLT−１)／２×STEP_SIZE
ｋ＝０
がセットされる。ここで、上記FinalPitchは、前述した全帯域のインテジャーサーチにより得られたピッチである。
【０１０６】
ステップＳ１７では、「ｋが(NUMP_FLT−１)／２に等しい」という条件を満たすかどうかが判定される。この条件を満たさないときは、ステップＳ１８に進む。一方、この条件を満たすときは、ステップＳ１９に進む。
【０１０７】
ステップＳ１８では、ピッチＰ_chと入力音声信号のスペクトルＸ(j) から、ハーモニクスの振幅｜Ａ_m｜と低域側のみの振幅誤差の総和ε_rlを算出し、ステップＳ２０に進む。なお、このステップＳ１８における具体的な操作については後述する。
【０１０８】
ステップＳ１９では、
ε_rl ＝ minε_rl
｜Ａ(m)｜＝ A_m_tmp(m)
がセットされ、ステップＳ２０に進む。
【０１０９】
ステップＳ２０では、「ε_rlがminε_rより小さい又はｋ＝０」という条件を満たすかどうか判定される。この条件を満たさないときは、ステップＳ２１を経ずにステップＳ２２に進む。一方、この条件を満たすときは、ステップＳ２１に進む。
【０１１０】
ステップＳ２１では、
minε_r ＝ ε_rl
FinalPitch_l ＝Ｐ_ch
A_m_l(m) ＝｜Ａ(m)｜
がセットされる。
【０１１１】
ステップＳ２２では、
Ｐ_ch ＝Ｐ_ch＋STEP_SIZE
ｋ＝ｋ＋１
がセットされる。
【０１１２】
ステップＳ２３では、「ｋがNUMP_FLTより小さい」という条件を満たすかどうかが判定される。この条件を満たすときは、ステップＳ１７に戻る。一方、この条件を満たさないときは、ステップＳ２４に進む。
【０１１３】
図１２は、図９〜図１１に示した、周波数スペクトルの全帯域に対するインテジャーサーチ、高域側および低域側のそれぞれに対するフラクショナルサーチにより得られたピッチデータから、最終的に出力されるピッチが生成される手順を具体的に示している。
【０１１４】
ステップＳ２４では、A_m_l(m)から低域側のA_m_l(m)とA_m_h(m)から高域側のA_m_h(m)とを用いてFinal_A_m(m)を作る。
【０１１５】
ステップＳ２５では、「FinalPitch_hが２０より小さい」という条件を満たすかどうかが判定される。この条件を満たさないときは、ステップＳ２６を経ずにステップＳ２７に進む。一方、この条件を満たすときは、ステップＳ２６に進む。
【０１１６】
ステップＳ２６では、
FinalPitch_h ＝２０
がセットされる。
【０１１７】
ステップＳ２７では、「FinalPitch_lが２０より小さい」という条件を満たすかどうかが判定される。この条件を満たさないときは、ステップＳ２８を経ずに処理を終了する。一方、この条件を満たすときは、ステップＳ２８に進む。
【０１１８】
ステップＳ２８では、
FinalPitch_l ＝２０
がセットされ、処理を終了する。
【０１１９】
なお、上記ステップＳ２５からステップＳ２８までの各ステップでは、最小ピッチを２０で制限している例を示すものである。
【０１２０】
以上の手順により、FinalPitch_l，FinalPitch_h，Final_A_m(m)が得られる。
【０１２１】
次に、図１３および図１４は、上述したピッチ検出工程により得られたピッチに基づいて、周波数スペクトルの区分された各帯域において、各々最適なハーモニクスの振幅を求める具体的な手段を示している。
【０１２２】
ステップＳ３０では、
ω₀ ＝Ｎ／Ｐ_ch
Ｔh ＝Ｎ／２・β
ε_rl ＝０
ε_rh ＝０
および
【０１２３】
【数６】

【０１２４】
がセットされる。ここで、ω₀ は低域から高域までを一つのピッチで表現する際のピッチ、Ｎは音声信号のＬＰＣ残差をＦＦＴする際のサンプル点数、Ｔh は低域側と高域側を区別するインデクスである。また、βは所定の変数であり、その具体的な値は、例えばβ＝50/125などである。上記sendは、全帯域内のハーモニクスの本数であり、ピッチＰ_ch／２の小数部分を切り捨てて整数値を得ているものである。
【０１２５】
ステップＳ３１では、ｍの値が０とされる。ここで、ｍは、周波数軸上で複数の帯域に分割され周波数スペクトルのｍ番目の帯域、すなわち第ｍ本目のハーモニクスに対応する帯域であることを表す変数である。
【０１２６】
ステップＳ３２では、「ｍの値が０である」という条件が判定される。この条件が満たされないときは、ステップＳ３３に進む。一方この条件を満たすときは、ステップＳ３４に進む。
【０１２７】
ステップＳ３３では、
ａ(m) ＝ｂ(m-1)＋１
がセットされる。
【０１２８】
ステップＳ３４では、ａ(m)が０とされる。
【０１２９】
ステップＳ３５では、
ｂ(m) ＝ nint｛（ｍ＋0.5）×ω₀｝
がセットされる。ここで、nintは、最も近い整数を与えるものである。
【０１３０】
ステップＳ３６では、「ｂ(m)がＮ／２以上」という条件が判定される。この条件を満たさないとき、ステップＳ３７を経ずにステップＳ３８に進む。一方、この条件を満たすとき、
ｂ(m) ＝Ｎ／２−１
がセットされる。
【０１３１】
ステップＳ３８では、数７で示されるハーモニクス振幅｜Ａ(m)｜がセットされる。
【０１３２】
【数７】

【０１３３】
ステップＳ３９では、数８で示される評価誤差ε(m)がセットされる。
【０１３４】
【数８】

【０１３５】
ステップＳ４０では、「ｂ(m)がＴh以下」という条件を満たすかどうかが判定される。この条件を満たさないときはステップＳ４１に進み、一方、この条件を満たすときはステップＳ４２に進む。
【０１３６】
ステップＳ４１では、
ε_rh ＝ ε_rh＋ε(m)
がセットされる。
【０１３７】
ステップＳ４２では、
ε_rl ＝ ε_rl＋ε(m)
がセットされる。
【０１３８】
ステップＳ４３では、
ｍ＝ｍ＋１
がセットされる。
【０１３９】
ステップＳ４４では、「ｍがsend以下」という条件を満たすかどうかが判定される。この条件を満たすときはステップＳ３２に戻る。一方、この条件を満たさないときは処理を終了する。
【０１４０】
なお、上記ステップＳ３８およびステップＳ３９において、基底Ｅ(j) として、例えばＸ(j) のＲ倍のレートでサンプリングしたものを用いる場合には、ハーモニクス振幅｜Ａ(m)｜および評価誤差ε(m)は、それぞれ数９及び数１０となる。
【０１４１】
【数９】

【０１４２】
【数１０】

【０１４３】
例えば、Ｒ＝８として、前述のように２５６点のハミング窓に０を詰めて２０４８点のＦＦＴを行って、８倍にオーバーサンプルした基底Ｅ(j) を用いてもよい。
【０１４４】
以上説明したように、本発明に係る音声分析方法におけるピッチ検出は、低域側のみの振幅誤差の総和ε_rlと高域側のみの振幅誤差の総和ε_rhとを独立に最適化（最小化）することにより、各帯域において最適なハーモニック振幅｜Ａ(m)｜を算出することができる。
【０１４５】
すなわち、前述したステップＳ１８では、低域側のみの振幅誤差の総和ε_rlだけが必要な場合には、ｍ＝０からｍ＝Ｔhまでの区間で上記処理を実行すればよい。また逆に、前述したステップＳ１０では、高域側のみの振幅誤差の総和ε_rhだけが必要な場合には、ほぼｍ＝Ｔhからｍ＝sendまでの区間で上記処理を実行すればよい。ただし、この場合には、低域側と高域側のピッチのずれにより、両者のつなぎ目のハーモニクスが抜けないように、わずかにオーバーラップさせる等のつなぎ処理が必要である。
【０１４６】
以上の説明から明らかなように、本発明の音声分析方法によれば、周波数スペクトルの各帯域毎に、最適なピッチおよびハーモニクス振幅を得ることができる。
【０１４７】
また、上記の音声分析方法を適用するエンコーダにおいて、実際に伝送するピッチは、前述したFinalPitch_lおよびFinalPitch_hのどちらの値でもよい。これは、デコーダにおいて符号化音声信号を合成し復号する際に、ハーモニクスの位置が多少ずれていても、ハーモニクスの振幅が全帯域で正しく評価されており、問題がないからである。例えば、FinalPitch_lをピッチパラメータとしてデコーダに伝送すると、高域側のスペクトル位置は本来の位置（すなわち分析時の位置）から少しずつずれた位置に現れる。しかし、この程度のずれは、聴感上全く問題とならない程度である。
【０１４８】
もちろん、ビットレートに余裕がある場合には、FinalPitch_lとFinalPitch_hの両方をピッチパラメータとして伝送し、あるいはFinalPitch_lおよびFinalPitch_lとFinalPitch_hとの差分を伝送して、デコーダ側で、FinalPitch_lを低域側のスペクトルに、FinalPitch_hを高域側のスペクトルに各々適用してサイン波合成を行い、より自然な合成音を得ることもできる。また、上記実施例では、インテジャーサーチを全帯域に対して行ったが、複数に分割した帯域に対して各々インテジャーサーチを行ってもよい。
【０１４９】
ところで、上記音声符号化装置では、要求される音声品質にて合わせ異なるビットレートの出力データを出力することができ、出力データのビットレートが可変されて出力される。
【０１５０】
具体的には、出力データのビットレートを、低ビットレートと高ビットレートとに切り換えることができる。例えば、低ビットレートを２ｋbpsとし、高ビットレートを６ｋbpsとする場合には、以下の表１に示す各ビットレートのデータが出力される。
【０１５１】
【表１】

【０１５２】
出力端子１０４からのピッチ情報については、有声音時に、常に８bits／２０ｍsecで出力され、出力端子１０５から出力されるＶ／ＵＶ判定出力は、常に１bit／２０ｍsecである。出力端子１０２から出力されるＬＳＰ量子化のインデクスは、３２bits／４０ｍsecと４８bits／４０ｍsecとの間で切り換えが行われる。また、出力端子１０３から出力される有声音時（Ｖ）のインデクスは、１５bits／２０ｍsecと８７bits／２０ｍsecとの間で切り換えが行われ、出力端子１０７ｓ、１０７ｇから出力される無声音時（ＵＶ）のインデクスは、１１bits／１０ｍsecと２３bits／５ｍsecとの間で切り換えが行われる。これにより、有声音時（Ｖ）の出力データは、２ｋbpsでは４０bits／２０ｍsecとなり、６ｋbps では１２０bits／２０ｍsecとなる。また、無声音時（ＵＶ）の出力データは、２ｋbpsでは３９bits／２０ｍsecとなり、６ｋbps では１１７bits／２０ｍsecとなる。なお、上記ＬＳＰ量子化のインデクス、有声音時（Ｖ）のインデクス、および無声音時（ＵＶ）のインデクスについては、後述する各部の構成と共に説明する。
【０１５３】
次に、図３の音声符号化装置において、Ｖ／ＵＶ（有声音／無声音）判定部１１５の具体例について説明する。
【０１５４】
このＶ／ＵＶ判定部１１５においては、直交変換回路１４５からの出力と、高精度ピッチサーチ部１４６からの最適ピッチと、スペクトル評価部１４８からのスペクトル振幅データと、オープンループピッチサーチ部１４１からの正規化自己相関最大値ｒ'(1)と、ゼロクロスカウンタ４１２からのゼロクロスカウント値とに基づいて、当該フレームのＶ／ＵＶ判定が行われる。さらに、ＭＢＥの場合と同様な各バンド毎のＶ／ＵＶ判定結果の境界位置も当該フレームのＶ／ＵＶ判定の一条件としている。
【０１５５】
このＭＢＥの場合の各バンド毎のＶ／ＵＶ判定結果を用いたＶ／ＵＶ判定条件について以下に説明する。
【０１５６】
ＭＢＥの場合の第ｍ番目のハーモニックスの大きさを表すパラメータあるいは振幅｜Ａ_m｜は、前述した（２）式と同じ数１１により表せる。
【０１５７】
【数１１】

【０１５８】
この式において、｜Ｘ(j)｜は、ＬＰＣ残差をＤＦＴしたスペクトルであり、｜Ｅ(j)｜は、基底信号のスペクトル、具体的には２５６ポイントのハミング窓をＤＦＴしたものである。また、各バンド毎のＶ／ＵＶ判定のために、ＮＳＲ（ノイズtoシグナル比）を利用する。この第ｍバンドのＮＳＲは、
【０１５９】
【数１２】

【０１６０】
と表せ、このＮＳＲ値が所定の閾値（例えば0.3 ）より大のとき（エラーが大きい）ときには、そのバンドでの｜Ａ_m ｜｜Ｅ(j) ｜による｜Ｘ(j) ｜の近似が良くない（上記励起信号｜Ｅ(j) ｜が基底として不適当である）と判断でき、当該バンドをＵＶ（Unvoiced、無声音）と判別する。これ以外のときは、近似がある程度良好に行われていると判断でき、そのバンドをＶ（Voiced：有声音）と判別する。
【０１６１】
ここで、上記各バンド（ハーモニクス）のＮＳＲは、各ハーモニクス毎のスペクトル類似度をあらわしている。ＮＳＲのハーモニクスのゲインによる重み付け和をとったものをＮＳＲ_all として次のように定義する。
【０１６２】
ＮＳＲ_all ＝（Σ_m ｜Ａ_m ｜ＮＳＲ_m ）／（Σ_m ｜Ａ_m ｜）
このスペクトル類似度ＮＳＲ_all がある閾値より大きいか小さいかにより、Ｖ／ＵＶ判定に用いるルールベースを決定する。ここでは、この閾値をＴｈ_NSR ＝0.3 としておく。このルールベースは、フレームパワー、ゼロクロス、ＬＰＣ残差の自己相関の最大値に関するものであり、ＮＳＲ_all ＜Ｔｈ_NSR のときに用いられるルールベースでは、ルールが適用されるとＶとなり適用されるルールがなかった場合はＵＶとなる。
【０１６３】
また、ＮＳＲ_all ≧Ｔｈ_NSR のときに用いられるルールベースでは、ルールが適用されるとＵＶ、適用されるないとＶとなる。
【０１６４】
ここで、具体的なルールは、次のようなものである。
ＮＳＲ_all ＜Ｔｈ_NSR のとき、
if numZeroＸＰ＜２４、& frmPow＞３４０、& r0＞0.32 then Ｖ
ＮＳＲ_all ≧Ｔｈ_NSR のとき、
if numZeroＸＰ＞３０、& frmPow＜９００、& r0＜0.23 then ＵＶ
ただし、各変数は次のように定義される。
numZeroＸＰ：１フレーム当たりのゼロクロス回数
frmPow ：フレームパワー
ｒ'(1) ：自己相関最大値
上記のようなルールの集合であるルールベースに照合することで、Ｖ／ＵＶが判定される。なお、ＭＢＥにおける各バンド毎のＶ／ＵＶ判定に、前述したような複数バンドでのピッチサーチを適用すれば、ハーモニクスの位置ずれによる誤動作を防ぐことができ、より正確なＶ／ＵＶ判定が可能になる。
【０１６５】
以上説明したような信号符号化装置および信号復号化装置は、例えば図１５および図１６に示すような携帯通信端末あるいは携帯電話機等に使用される音声コーデックとして用いることができる。
【０１６６】
すなわち、図１５は、上記図１、図３に示したような構成を有する音声符号化部１６０を用いて成る携帯端末の送信側構成を示している。この図１５のマイクロホン１６１で集音された音声信号は、アンプ１６２で増幅され、Ａ／Ｄ（アナログ／ディジタル）変換器１６３でディジタル信号に変換されて、音声符号化部１６０に送られる。この音声符号化部１６０は、上述した図１、図３に示すような構成を有しており、この入力端子１０１に上記Ａ／Ｄ変換器１６３からのディジタル信号が入力される。音声符号化部１６０では、上記図１、図３と共に説明したような符号化処理が行われ、図１、図２の各出力端子からの出力信号は、音声符号化部１６０の出力信号として、伝送路符号化部１６４に送られる。伝送路符号化部１６４では、いわゆるチャネルコーディング処理が施され、その出力信号が変調回路１６５に送られて変調され、Ｄ／Ａ（ディジタル／アナログ）変換器１６６、ＲＦアンプ１６７を介して、アンテナ１６８に送られる。
【０１６７】
また、図１６は、上記図２、図４に示したような基本構成を有する音声復号化部２６０を用いて成る携帯端末の受信側構成を示している。この図１６のアンテナ２６１で受信された音声信号は、ＲＦアンプ２６２で増幅され、Ａ／Ｄ（アナログ／ディジタル）変換器２６３を介して、復調回路２６４に送られ、復調信号が伝送路復号化部２６５に送られる。２６４からの出力信号は、上記図２に示すような構成を有する音声復号化部２６０に送られる。音声復号化部２６０では、上記図２に説明したような復号化処理が施され、図２の出力端子２０１からの出力信号が、音声復号化部２６０からの信号としてＤ／Ａ（ディジタル／アナログ）変換器２６６に送られる。このＤ／Ａ変換器２６６からのアナログ音声信号がスピーカ２６８に送られる。
【０１６８】
なお、本発明は上記実施の形態のみに限定されるものではなく、例えば上記図１、図３の音声分析側（エンコード側）の構成や、図２、図４の音声合成側（デコード側）の構成については、各部をハードウェア的に記載しているが、いわゆるＤＳＰ（ディジタル信号プロセッサ）等を用いてソフトウェアプログラムにより実現することも可能である。また、本発明の適用範囲は、伝送や記録再生に限定されず、ピッチ変換やスピード変換、規則音声合成、あるいは雑音抑圧のような種々の用途に応用できることは勿論である。
【０１６９】
また、本発明は上記実施の形態のみに限定されるものではなく、例えば上記図１、図３の音声分析側（エンコーダ側）の構成については、各部をハードウェア的に記載しているが、いわゆるＤＳＰ（ディジタル信号プロセッサ）等を用いてソフトウェアプログラムにより実現することも可能である。
【０１７０】
さらに、本発明の適用範囲は、伝送や記録再生に限定されず、ピッチ変換やスピード変換、規則音声合成、あるいは雑音抑圧のような種々の用途に応用できることは勿論である。
【０１７１】
【発明の効果】
以上説明したように、本発明の音声分析方法、音声符号化方法および装置によれば、入力音声の周波数スペクトルを周波数軸上で複数の帯域に区分し、その各帯域毎にスペクトル形状に基づいて、それぞれピッチサーチおよびハーモニクスの振幅評価を同時に行う。このとき、スペクトル形状としてハーモニクス構造を用い、さらに、オープンループの粗ピッチサーチにより予め検出された粗ピッチに基づいく高精度ピッチサーチである、上記周波数スペクトルの全帯域に対する第１のピッチサーチと、上記周波数スペクトルの高域側および低域側の２つの帯域に対して独立に第１のピッチサーチより高精度の第２のピッチサーチを行う。基本波の整数倍からずれている音声スペクトルのハーモニクスの振幅も正しく評価して、明瞭度が高い再生出力を得ることができる。
【図面の簡単な説明】
【図１】本発明に係る音声符号化方法の実施の形態が適用される音声符号化装置の基本構成を示すブロック図である。
【図２】本発明に係る音声復号化方法の実施の形態が適用される音声復号化装置の基本構成を示すブロック図である。
【図３】本発明の実施の形態となる音声符号化装置の、より具体的な構成を示すブロック図である。
【図４】本発明の実施の形態となる音声復号化装置の、より具体的な構成を示すブロック図である。
【図５】ハーモニクスの振幅を評価する基本的な手順を示す図である。
【図６】フレーム毎に処理されるスペクトルのオーバーラップを説明する図である。
【図７】基底の生成を説明する図である。
【図８】インテジャーサーチおよびフラクショナルサーチを説明する図である。
【図９】インテジャサーチの手順の一例を示すフローチャートである。
【図１０】高域側におけるフラクショナルサーチの手順の一例を示すフローチャートである。
【図１１】低域側におけるフラクショナルサーチの手順の一例を示すフローチャートである。
【図１２】最終的にピッチが決定される手順の一例を示すフローチャートである。
【図１３】各帯域に最適なハーモニクスの振幅を求める手順の一例を示すフローチャートである。
【図１４】各帯域に最適なハーモニクスの振幅を求める手順の一例を示すフローチャートである。
【図１５】本発明の実施の形態となる音声符号化装置が用いられる携帯端末の送信側構成を示すブロック図である。
【図１６】本発明の実施の形態となる音声符号化装置が用いられる携帯端末の受信側構成を示すブロック図である。
【符号の説明】
１１０第１の符号化部、１１１ＬＰＣ逆フィルタ、１１３ＬＰＣ分析・量子化部、１１４サイン波分析符号化部、１１５Ｖ／ＵＶ判定部、１２０第２の符号化部、１２１雑音符号帳、１２２重み付き合成フィルタ、１２３減算器、１２４距離計算回路、１２５聴覚重み付けフィルタ

Claims

入力音声信号を時間軸上で所定の符号化単位で区分し、区分された各符号化単位の音声信号の基本周期に相当するピッチを検出し、検出されたピッチに基づいて各符号化単位で音声信号を分析する音声分析方法において、
入力された音声信号に基づく信号の周波数スペクトルを周波数軸上で複数の帯域に区分する工程と、
上記各帯域毎にスペクトルの形状に基づくピッチをそれぞれ用いて、ピッチサーチおよび各ハーモニクスの振幅評価を同時に行い、求められたピッチ及び各ハーモニクスの振幅を出力する工程と
を有することを特徴とする音声分析方法。
上記スペクトルの形状はハーモニクス構造であること
を特徴とする請求項１記載の音声分析方法。
上記ピッチサーチおよびハーモニクスの振幅評価は、オープンループの粗ピッチサーチにより予め検出された粗ピッチに基づいて行われること
を特徴とする請求項１記載の音声分析方法。
上記ピッチサーチは、上記粗ピッチサーチにより検出された粗ピッチに基づいて行われる、第１のピッチサーチおよび第１のピッチサーチより高精度の第２のピッチサーチとからなる高精度ピッチサーチであり、
上記第２のピッチサーチは上記周波数スペクトルの各帯域毎に行われること
を特徴とする請求項１記載の音声分析方法。
上記第１のピッチサーチは上記周波数スペクトルの全帯域に対して行われ、
上記第２のピッチサーチは上記周波数スペクトルの高域側および低域側の２つの帯域で独立に行われること
を特徴とする請求項１記載の音声分析方法。
入力音声信号を時間軸上で所定の符号化単位で区分し、区分された各符号化単位の音声信号の基本周期に相当するピッチを検出し、検出されたピッチに基づいて各符号化単位で音声信号を符号化する音声符号化方法において、
入力された音声信号に基づく信号の周波数スペクトルを周波数軸上で複数の帯域に区分する工程と、
上記各帯域毎にスペクトルの形状に基づくピッチをそれぞれ用いてピッチサーチおよび各ハーモニクスの振幅評価を同時に行い、求められたピッチ及び各ハーモニクスの振幅を出力する工程と
を有することを特徴とする音声符号化方法。
上記スペクトル形状はハーモニクス構造であり、
上記ピッチサーチおよびハーモニクスの振幅評価を同時に行う工程で、オープンループの粗ピッチサーチにより予め検出された粗ピッチに基づいて行われる、第１のピッチサーチおよび第１のピッチサーチより高精度の第２のピッチサーチとからなる高精度ピッチサーチが行われること
を特徴とする請求項６記載の音声符号化方法。
上記第１のピッチサーチは上記周波数スペクトルの全帯域に対して行われ、上記第２のピッチサーチは上記周波数スペクトルの高域側および低域側の２つの帯域で独立に行われること
を特徴とする請求項６記載の音声符号化方法。
入力音声信号を時間軸上で所定の符号化単位で区分し、区分された各符号化単位の音声信号の基本周期に相当するピッチを検出し、検出されたピッチに基づいて各符号化単位で音声信号を符号化する音声符号化装置において、
入力された音声信号に基づく信号の周波数スペクトルを周波数軸上で複数の帯域に区分する手段と、
上記各帯域毎にスペクトルの形状に基づくピッチをそれぞれ用いてピッチサーチおよび各ハーモニクスの振幅評価を同時に行い、求められたピッチ及び各ハーモニクスの振幅を出力する手段と
を有することを特徴とする音声符号化装置。
上記スペクトル形状はハーモニクス構造であり、
上記ピッチサーチおよびハーモニクスの振幅評価を同時に行う手段は、オープンループの粗ピッチサーチにより予め検出された粗ピッチに基づいて、第１のピッチサーチおよび第１のピッチサーチより高精度の第２のピッチサーチとからなる高精度ピッチサーチを行う構成を有すること
を特徴とする請求項９記載の音声符号化装置
上記第１のピッチサーチは上記周波数スペクトルの全帯域に対して行い、上記第２のピッチサーチは上記周波数スペクトルの高域側および低域側の２つの帯域で独立に行う構成を有すること
を特徴とする請求項９記載の音声符号化装置。