JP3933750B2

JP3933750B2 - 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置

Info

Publication number: JP3933750B2
Application number: JP14838597A
Authority: JP
Inventors: ディーヒューアンシェードン; ヴィーマハジャンミリンド
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1996-05-01
Filing date: 1997-05-01
Publication date: 2007-06-20
Anticipated expiration: 2017-05-01
Also published as: US5937384A; EP0805434A3; EP0805434A2; EP0805434B1; CN1171592A; DE69719236T2; CN1112669C; DE69719236D1; JPH1063291A

Description

【０００１】
【発明の属する技術分野】
本発明は、コンピュータ音声認識に係り、より詳細には、連続ヒドンマルコフモデルを用いたコンピュータ音声認識システムに係る。
【０００２】
【従来の技術】
音声認識の分野への挑戦は、最小のエラー率を有する話し手とは独立した連続スピーチ認識システムを形成する必要性により生じている。この目標を実現する際の焦点は、スピーチ認識システムにより使用される認識アルゴリズムにある。認識アルゴリズムは、本質的に、スピーチ信号即ち連続時間信号を、トレーニングデータから予め得られたスピーチの発音的及び音韻的記述を表す１組の基準パターンへとマッピングすることである。このマッピングを実行するために、高速フーリエ変換（ＦＦＴ）、直線的予想コード化（ＬＰＣ）又はフィルタバンクのような信号処理技術がデジタル形態のスピーチ信号に適用されて、スピーチ信号の適切なパラメータ表示が抽出される。一般に使用される表示は、スピーチ信号に含まれた周波数及び／又はエネルギーバンドを表すＦＦＴ又はＬＰＣ係数を各時間インターバルごとに含む特徴ベクトルである。これら特徴ベクトルのシーケンスが、スピーチ信号に含まれた言語ユニット、ワード及び／又はセンテンスを識別する１組の基準パターンへとマッピングされる。
【０００３】
スピーチ信号は、記憶された基準パターンに厳密に一致しないことがしばしばある。スピーチ信号特性は著しく変化し、記憶された基準パターンでは完全且つ正確に捕らえられないために、厳密な一致を見つけることが困難になる。意図されたメッセージを予想する場合には、厳密な一致を追求する技術よりも、確率モデル及び統計学的技術の方が成功裡に使用されている。１つのこのような技術がヒドンマルコフモデル(Hidden Markov Model) （ＨＭＭ）である。これらの技術は、厳密な一致を見つけるのではなく、スピーチ信号に一致しそうな基準パターンを決定するので、スピーチ認識にいっそう適している。
【０００４】
ＨＭＭは、遷移により接続された状態のシーケンスより成る。ＨＭＭは、音素又はワードのようなスピーチの特定の発音ユニットを表すことができる。各状態には、その状態が特徴ベクトルに一致する見込みを指示する出力確率が関連される。各遷移ごとに、その遷移に続く見込みを指示する関連遷移確率がある。遷移及び出力確率は、「トレーニングデータ」と称する既に話されたスピーチパターンから統計学的に推定される。認識の問題は、入力スピーチ信号を表す特徴ベクトルに一致する確率が最も高い状態シーケンスを見出すことである。主として、このサーチプロセスは、モデリングされた各々の考えられる状態シーケンスを列挙し、そしてその状態シーケンスが入力スピーチ信号に一致する確率を決定することを含む。最も高い確率をもつ状態シーケンスに対応する発声が、認識されたスピーチ発声として選択される。
【０００５】
ＨＭＭをベースとするほとんどのスピーチ認識システムは、ベクトル量子化を使用する離散的ＨＭＭをベースとしている。離散的ＨＭＭは、限定された１組の出力記号を有し、遷移及び出力確率は、離散的確率分布関数（ｐｄｆｓ）をベースとするものである。ベクトル量子化は、コードワードと称する個別表示により連続スピーチ信号を特徴付けるのに使用される。特徴ベクトルは、歪の尺度を用いてコードワードに一致される。特徴ベクトルは、最小の歪尺度を有するコードワードのインデックスと置き換えられる。認識の問題は、観察されるスピーチ信号の個別の出力確率をテーブルルックアップ動作として計算することに簡素化され、これは、最小限の計算しか必要としない。
【０００６】
【発明が解決しようとする課題】
しかしながら、スピーチ信号は、連続的な信号である。コードワードによって連続的な信号を量子化することはできるが、このような量子化に関連して著しい質低下があり、認識精度を悪化させる。連続密度ＨＭＭを使用する認識システムは、量子化歪に関連した不正確さの問題がない。連続密度ＨＭＭは、推定される連続密度確率分布関数を用いて連続的なスピーチ信号を直接モデリングすることができ、従って、高い認識精度を得ることができる。しかしながら、連続密度のＨＭＭは、著しい量のトレーニングデータを必要とすると共に、長い認識計算を必要とし、これがほとんどの商業的スピーチ認識システムへの使用の妨げとなっている。従って、連続スピーチ認識システムの重大な問題は、高い認識精度を得るために連続密度ＨＭＭを使用することである。
【０００７】
【課題を解決するための手段】
本発明は、言語表現に対応する連続密度ＨＭＭへのスピーチ信号のモデリングを改善するスピーチ認識システムに関する。好ましい実施形態においては、認識システムは、コンテクストとは独立したＨＭＭ及び多数のコンテクスト従属のＨＭＭを用いて、音素のスピーチユニットを異なるコンテクストパターンで表す。これらＨＭＭの各々に対する出力及び遷移確率は、トレーニングデータから推定される。同じモデリングされた音素に対応する同様の状態に関連した出力確率がクラスター化されてセノン(senone)を形成する。未知のデータを予想する際の出力確率の健全さを指示する各コンテクスト従属のセノンのための重み付けファクタも発生される。好ましい実施形態においては、重み付けファクタは、トレーニングデータの全てのデータ点の削除補間により推定される。或いは又、重み付けファクタは、データ点のパラメータ表示から推定することもできるし、又はデータ点のパラメータ表示により形成されたランダムに発生されたデータ点から推定することもできる。
【０００８】
認識エンジンは、入力スピーチ発声を受け取り、そしてその入力スピーチ発声の特徴ベクトルに最も一致しそうなワードシーケンス候補を発生する。ワードシーケンスは、ＨＭＭの状態シーケンスに対応する種々のセノン整列体で構成することができる。認識エンジンは、アコースティック及び言語確率スコアを使用することにより、どのセノン／状態整列体が特徴ベクトルに最も良く一致するかを決定する。アコースティック確率スコアは、セノン整列体が特徴ベクトルに対応する見込みを表し、そして言語確率スコアは、セノン整列体に対応する発声が言語に生じる見込みを指示する。アコースティック確率スコアは、出力及び遷移確率の分析に基づく。出力確率分析は、各出力確率を重み付けファクタの関数として重み付けすることによりコンテクスト従属のセノン及びコンテクストとは独立したセノンの両方の出力確率を使用する。より健全な推定値を有する出力確率が分析を左右し、これにより、出力確率分析を改善する。出力確率分析の改善は、アコースティックスコアを改善し、ひいては、全認識精度を改善する。
【０００９】
【発明の実施の形態】
本発明の上記及び他の特徴並びに効果は、同じ要素が同じ参照番号で示された添付図面を参照した好ましい実施形態の以下の詳細な説明から明らかとなろう。添付図面は、必ずしも正しいスケールではなく、本発明の原理を示す際に強調がなされている。
【００１０】
本発明の好ましい実施形態は、同じ発音ユニットを表す異なる出力確率を、各出力確率が未知のデータを予想できる程度に対して重み付けすることにより、連続密度ヒドンマルコフモデルを用いるスピーチ認識システムにおいて改良された認識精度が得られることを確認するものである。本発明のスピーチ認識システムは、連続信号の形態の入力スピーチ発声を受け取り、そしてその発声に対応する最もあり得る言語表現を発生する。好ましい実施形態は、スピーチ信号のパラメータ表示を形成する特徴ベクトルのセットを、考えられる言語表現を識別するヒドンマルコフモデル（ＨＭＭ）のシーケンスに一致させることにより、言語表現を認識する。ＨＭＭは、音素を表し、そしてＨＭＭのシーケンスは、音素より成るワード又はセンテンスを表す。
【００１１】
ガウスの確率分布関数の混合であるような連続密度確率分布関数は、スピーチ信号をモデリングするのに非常に正確であるから、状態の出力確率を表すのに使用できる。出力確率関数は、トレーニングデータから統計学的に推定される。出力確率関数を正確に推定するのに充分な量のトレーニングデータがないことがしばしばある。この問題を考慮するために、コンテクストとは独立したモデル及びコンテクストに従属するモデルが音素の所定のセットに対して構成される。コンテクストとは独立したモデルの出力確率は、次いで、コンテクストに従属するモデルの出力確率で補間される。これは、コンテクストに従属するＨＭＭの出力確率関数が、トレーニングデータにおいてそれまで遭遇していないデータを予想できる程度を推定する重み付けファクタ又は補間ファクタによって行われる。従って、コンテクストに従属する状態の新たな変更された出力確率関数は、推定値の健全さに基づき重み付けされた両モデルの出力確率関数の組み合わせとなる。そこで、好ましい実施形態では、削除補間を用いて、パラメータスペースではなく確率スペースを平滑化する。
【００１２】
図１は、本発明の好ましい実施形態により認識及びトレーニングプロセスを実施するのに使用できるスピーチ認識システム１０を示している。このスピーチ認識システム１０は、マイクロホンのような（これに限定されない）入力装置１２を含み、これは、入力スピーチ発声を受け取り、そしてそれに対応するアナログ電気信号を発生する。或いは又、記憶装置に記憶されたスピーチ発声を、入力スピーチ発声として使用することもできる。スピーチ発声に対応するアナログ電気信号は、アナログ／デジタル（Ａ／Ｄ）コンバータ１４へ送られ、これは、アナログ信号を一連のデジタルサンプルに変換する。デジタルサンプルは、次いで、特徴抽出器１６に送られ、これは、デジタル化された入力スピーチ信号からパラメータ表示を抽出する。このパラメータ表示は、入力スピーチ発声のアコースティック特性を捕らえる。好ましくは、特徴抽出器１６は、スペクトル分析を行って、入力スピーチ信号のスペクトルを表す係数を各々含む一連の特徴ベクトルを発生する。スペクトル分析を行う方法は、信号処理の分野で良く知られており、そして高速フーリエ変換（ＦＦＴ）、直線的予想コード化（ＬＰＣ）及びセプストラル(cepstral)係数を含み、これらは全て特徴抽出器１６に使用することができる。特徴抽出器１６は、スペクトル分析を行う何らかの従来型のプロセッサでよい。スペクトル分析は、１０ミリ秒ごとに行われ、入力スピーチ信号を、２５ミリ秒の発声を表す特徴ベクトルへと分割する。しかしながら、本発明は、２５ミリ秒の発声を表す特徴ベクトルの使用に限定されるものではない。異なる時間長さのスピーチ発声を表す特徴ベクトルも使用できる。このプロセスは、全入力スピーチ信号に対して繰り返されて、一連の特徴ベクトルを発生し、これらは、データプロセッサ３８へ送られる。データプロセッサ３８は、デスクトップパーソナルコンピュータのような何らかの従来型コンピュータでよい。データプロセッサは、特徴ベクトルのシーケンスをルート指定するスイッチングブロック１８を備えている。このスイッチングブロック１８は、ハードウェアで実施されてもよいし、ソフトウェアで実施されてもよい。しかしながら、スピーチ認識システムは、データプロセッサでの実行に限定されるものではない。メモリ装置、コンパクトディスク又はフロッピーディスクであるコンピュータ読み取り可能な記憶媒体のような（これらに限定されない）他の形式の実行可能な媒体を使用することもできる。
【００１３】
初期のトレーニング段階中に、スイッチングブロック１８は、特徴ベクトルをトレーニングエンジン２０に向けるように投入される。トレーニングエンジン２０は、特徴ベクトルを使用して、トレーニングデータに存在する音素を表すＨＭＭのパラメータを推定すると共に、認識エンジン３４により使用するための１組の重み付けファクタを計算する。トレーニングエンジン２０に使用される方法については、図２ないし６を参照して以下に説明する。簡単に述べると、トレーニングエンジン２０は、コンテクストとは独立した及びコンテクストに従属する音素に基づくヒドンマルコフモデルを、トレーニングデータからこれらモデルのパラメータを推定することにより、発生する。コンテクストに従属する各状態に対する出力分布がクラスター化されて、セノンを形成し、これらセノンは、セノンテーブル記憶装置３０に記憶される。セノンテーブル記憶装置３０は、一般に、コンテクストに従属するＨＭＭ及びコンテクストとは独立したＨＭＭの両方に対するセノンを保持する。各ＨＭＭのセノン識別子がＨＭＭ記憶装置２８に記憶される。更に、認識エンジン３４により使用するために、コンテクストに従属する各セノンの重み付けファクタが計算されてラムダテーブル記憶装置２６に記憶される。ラムダテーブル記憶装置２６は、コンテクストに従属するＨＭＭによりインデックスされるラムダ値を保持する。又、トレーニングエンジン２０は、トレーニングデータの翻訳を保持するテキスト転記２２と、各ワードが正しくモデリングされるよう確保するために各ワードの音素記述を含む辞書２４を使用する。トレーニングエンジン２０の動作については、以下に詳細に述べる。辞書２４は音素に関して各ワードの発音を含む。例えば、「ａｄｄ」の辞書入力は、「／ＡＥＤＤ／」となる。
【００１４】
初期のトレーニング段階の後に、スイッチングブロック１８は、特徴ベクトルを認識エンジン３４に送信するように切り換えられる。認識エンジン３４は、ワード、ひいては、センテンスを形成する音素より成る言語表現として特徴ベクトルのシーケンスを認識する。認識エンジン３４に使用される方法については、図９を参照して以下に詳細に述べる。認識エンジン３４は、ＨＭＭ記憶装置２８に記憶されたコンテクストとは独立した及びコンテクストに従属するヒドンマルコフモデルと、セノンテーブル記憶装置３０に記憶されたコンテクストに従属する及びコンテクストとは独立したセノンと、ラムダテーブル２６に記憶された重み付けファクタと、言語モデル記憶装置３２及び辞書２４に記憶された言語モデルとを使用する。言語モデル記憶装置３２は、文法を指定する。好ましい実施形態においては、認識エンジン３４から発生される言語表現は、従来のプリンタ、コンピュータモニタ等の出力装置３６に表示される。しかしながら、本発明は、言語表現を出力装置に表示することに限定されるものではない。例えば、言語表現は、更に処理するために別のプログラム又はプロセッサへの入力として使用することもできるし、或いは記憶されてもよい。
【００１５】
図２ないし６は、ＨＭＭのパラメータ及びセノンを推定しそして重み付けファクタを計算するシステムのトレーニング段階で実行されるステップを示すフローチャートである。簡単に述べると、トレーニング方法は、ワード、センテンス、パラグラフ等の形態の入力スピーチ発声を受け取ることによってスタートし、そしてそれらを特徴ベクトルとして知られたパラメータ表示に変換する。ヒドンマルコフモデル及びセノンの構造体が形成され、そしてこれらデータ構造体のパラメータの推定値がトレーニングデータから計算される。次いで、削除補間の技術により重み付けファクタが決定される。
【００１６】
図２を参照すれば、トレーニング方法は、一連のスピーチ発声を受け取ることにより開始され（ステップ４２）、これは、図１を参照して上記したように一連の特徴ベクトルへと変換される（ステップ４４）。完全な１組の特徴ベクトルを「トレーニングベクトル」と称する。好ましい実施形態では、ＬＰＣセプストラル分析を使用して、スピーチ信号がモデリングされ、信号に含まれた周波数及びエネルギースペクトルを表す次の３９のセプストラル及びエネルギー係数を含む特徴ベクトルが形成される。即ち、（１）１２のＬＰＣメル周波数セプストラル係数ｘ_k（ｔ）、但し、１≦Ｋ≦１２；（２）１２のＬＰＣデルタメル周波数セプストラル係数Δｘ_k（ｔ）、但し、１≦Ｋ≦１２；（３）１２のＬＰＣデルタ−デルタメル周波数セプストラル係数ΔΔｘ_k（ｔ）、但し、１≦Ｋ≦１２；そして（４）エネルギー、デルタエネルギー及びデルタ−デルタエネルギー係数。ＬＰＣセプストラル分析を用いてスピーチ信号をモデリングすることは、スピーチ認識システムの分野で良く知られている。
【００１７】
ステップ４６において、セノン及びＨＭＭデータ構造体が形成される。セノンは、スピーチ認識システムにおいて良く知られたデータ構造体であり、そしてセノン及びそれらを構成するのに使用する方法は、Ｍ．ヒューン氏等の「セノンをもつ未知のトリホーンの予想(Predicting Unseen Triphones with Senones)」、Ｐｒｏｃ．ＩＣＡＳＳＰ '９３、第ＩＩ巻、第３１１−３１４ページ、１９９３年に詳細に説明されている。好ましい実施形態では、ＨＭＭは、音素のスピーチユニットをモデリングするのに使用できる。又、ＨＭＭは、アコースティックモデルも称される。このスピーチユニットは、多数の語彙の認識を受け入れるように選択される。個々のワードをモデリングするには、長いトレーニング周期と、関連パラメータを記憶するための付加的な記憶装置とが必要になる。これは、少数の語彙のシステムについては実現できるが、多数の語彙を用いる場合には不可能である。しかしながら、本発明は、音素をベースとするＨＭＭに限定されるものではない。ワード、ジホーン(diphone) 及びシラブルのような他のスピーチユニットをＨＭＭの基礎として使用することができる。
【００１８】
２つの形式のＨＭＭを使用することができる。コンテクストに従属するＨＭＭは、左右の音素コンテクストを伴う音素をモデリングするのに使用することができる。この形式のモデルは、ワードモデリングに通常存在するコンテクスト依存性を捕らえる。コンテクストとは独立したＨＭＭは、トレーニングデータに現れるいかなるコンテクストの音素をモデリングするのにも使用でき、従って、特定のコンテクストとは独立したものにする。１組の音素及びそれに関連した左右の音素コンテクストより成る所定のパターンが、コンテクストに従属するＨＭＭによりモデリングされるべく選択される。これらの選択されたパターンは、最も頻繁に発生する音素と、これら音素の最も頻繁に発生するコンテクストを与える。トレーニングデータは、これらモデルのパラメータの推定値を与える。コンテクストとは独立したモデルは、選択された音素をベースとし、トレーニングデータに現れる音素コンテクスト内でモデリングされる。同様に、トレーニングデータは、コンテクストとは独立したモデルのパラメータに対する推定値を与える。
【００１９】
コンテクストとは独立したモデル及びコンテクストに従属するモデルの両方を使用することは、改良された認識精度を達成する上で有効である。各モデルの健全さは、そのパラメータを推定するのに使用されるトレーニングデータの量、ひいては、トレーニングデータに存在しないデータを予想できるようにすることに関連している。例えば、コンテクストに従属するモデルは、同時調音効果をモデリングするのに有効であるが、トレーニングデータが制限されるためにトレーニングが不充分となる。（話し手は、音の連結シーケンスとしてワードを発音しようと試みるが、話し手の調音器官は、影響のない音を発生するように同時に動くことができない。その結果、ある音は、ワード内でそれに先行する音及びそれに続く音によって強く反転される。その効果が「同時調音効果」である。）これに対して、コンテクストとは独立したモデルは、トレーニング性が高く、従って、あまり詳細でない粗野な推定を与える。これらの２つのモデルを適当に重み付けして組み合わせたものを認識エンジンに使用して、更に正確なアコースティック確率スコアを発生することができる。
【００２０】
更に、話し手ごとの相違、例えば、男と女の声道に存在するフォルマント周波数（即ち、声道の共振周波数）を考慮するために、ＨＭＭは、出力確率分布関数（ここでは「出力ｐｄｆ」と称する）に対する単一モード分布の混合を使用することができる。ガウスの確率密度関数の混合体を使用できるのが好ましい。しかしながら、本発明は、この特定の限定に制約されない。ラプラス及びＫ_O型密度関数のような他の公知の連続密度関数の混合体も使用できる。
【００２１】
更に、コンテクストに従属する異なる音素の状態間の類似性を捕らえ、そして各セノンに使用できるトレーニングデータの量を増加するために、コンテクストとは独立した同じ音に対してコンテクストに従属する異なる発音ＨＭＭモデルの類似状態の出力分布を一緒にクラスター化して、セノンが形成される。
【００２２】
図７は、音素／ａａ／１１４に対するコンテクストとは独立したＨＭＭ構造体を例示している。コンテクストとは独立したＨＭＭは、状態１（１１１）、状態２（１１２）及び状態３（１１３）と示された３つの状態を含む。図７に示したＨＭＭは、図７に表示（＊，＊）で示されたようにトレーニングデータに現れる左右の音素を伴う音素／ａａ／をモデリングする。かっこ内の第１の位置は、所与の音素に先行する音素を示し、そして第２の位置は、所与の音素に続く音素を示す。セノンは、同じ音素に対応する各形式のモデル（例えば、コンテクストに従属する・対・コンテクストとは独立した）に対し類似状態（例えば、状態１）内で分類される。この例では、コンテクストとは独立したＨＭＭは、状態１、２及び３に各々対応するセノン１０、５５及び１２５を有する。
【００２３】
図８は、上記に対応して、音素／ａａ／に対するコンテクストに従属するＨＭＭを例示している。図８には、５つの異なる音素コンテクスト（１１５ないし１１９）において音素／ａａ／をモデリングする５つのコンテクスト従属のモデルがある。例えば、コンテクストに従属するモデル／ａａ／（／ｄｈ／，／ｂ／）１１５は、コンテクストにおいて音素／ａａ／をモデリングし、ここでは、左の即ち先行する音素が／ｄｈ／であり、そして音素／ｂ／がそれに続き、即ちその右側にある。セノンは、異なるＨＭＭにおいて類似状態内で分類される。状態１において、コンテクストに従属する２つのセノンがあって、セノン１４及び２５で示されている。全体として、音素／ａａ／に対し、状態１では、コンテクストに従属する２つのセノン１４及び３５と、コンテクストとは独立した１つのセノン１０があり、状態２では、コンテクストに従属する２つのセノン２５及び８５と、コンテクストとは独立した１つのセノン５５があり、そして状態３では、コンテクストに従属する１つのセノン９９と、コンテクストとは独立した１つのセノン１２５がある。
【００２４】
従って、好ましい実施形態に使用される音素ベースの連続密度ＨＭＭは、次の数学的定義によって特徴付けることができる。
（１）Ｎは、モデルにおける状態の数であり、好ましくは、３つの状態が使用される。しかしながら、本発明は、３に限定されるものではなく、５のような数も使用できる。
（２）Ｍは、出力ｐｄｆにおける混合体の数である。
（３）Ａ＝｛ａ_ij｝は、状態ｉから状態ｊまでの状態遷移確率分布である。
（４）Ｂ＝｛ｂ_i（ｘ）｝は、出力確率分布、即ち状態ｉにあるときに特徴ベクトルｘを放射する確率であり、但し、次の数１に示す通りであり、
【数１】

ここで、Ｎ（ｘ，μ_k，Ｖ_k）は、平均ベクトルμ_k及び共変マトリクスＶ_kにより定められる多次元のガウス密度関数を表す。
混合成分の数Ｍは、通常、１から５０までのいずれかであり、そして
ｃ_kは、状態ｉにおけるｋ番目の混合成分の重みである。
各状態ｉに関連した出力確率分布は、セノンｓｄ_iによって表され、そしてｐ（ｘ_i，ｓｄ_i）として表すことができる。
（５）π＝｛π_I｝は、初期状態分布である。
便宜上、ＨＭＭのパラメータスペースとして知られたモデルの完全なパラメータセットを示すのに簡略表示∝＝（Ａ，Ｂ，π）が使用される。
【００２５】
図２のステップ４８において、セノン、コンテクスト従属のＨＭＭ及びコンテクストとは独立したＨＭＭに対するパラメータが推定される。ＨＭＭのトレーニング段階は、トレーニングデータ、スピーチのテキスト２２及びワードの発音スペルの辞書２４を用いてこれらパラメータを推定することより成る。出力及び遷移の確率は、良く知られたバウム−ウェルチ(Baum-Welch)又は順方向−逆方向アルゴリズムによって推定することができる。バウム−ウェルチアルゴリズムは、トレーニングデータを良好に使用できるので好ましい。これは、ヒューン氏等の「スピーチ認識のためのヒドンマルコフモデル(Hidden Markov Models For Speech Recognition) 」、エジンバラ・ユニバーシティ・プレス、１９９０年に説明されている。しかしながら、本発明は、この特定のトレーニングアルゴリズムに限定されず、他のものを使用してもよい。通常、トレーニングデータにより約５回の繰り返しを行って、パラメータの良好な推定値を得ることができる。
【００２６】
図２のステップ５０において、各コンテクスト従属セノンの重み付け即ち補間ファクタが発生され、数学記号λにより表される。この重み付けファクタは、コンテクストとは独立したＨＭＭの出力確率をコンテクスト従属のＨＭＭの出力確率で補間するように使用される。これら重み付けファクタは、道のデータを予想する際にコンテクスト従属出力ｐｄｆの適切さを示すものである。出力ｐｄｆはトレーニングデータで推定され、トレーニングデータに類似するデータを厳密に予想する。しかしながら、各々の考えられる入力スピーチ発声を表すトレーニングデータ又は全ての未知のデータを正しく予想するに充分なトレーニングデータで出力ＰＤＦを推定することは不可能である。重み付けファクタの役割は、コンテクスト従属のモデル及びコンテクストとは独立したモデルを推定するのに使用されるトレーニングデータの関数であるところの未知のデータを予想するための出力ｐｄｆの適切さを指示することである。コンテクスト従属のモデルに対するトレーニングデータの量が多くなると、λは１．０に近づき、出力ｐｄｆは大きな重みにされる。コンテクスト従属のモデルに対するトレーニングデータの量が少ない場合には、λが０．０に近づき、出力ｐｄｆはあまり重みが置かれない。各コンテクスト従属のセノンに対するλの最適値は、削除補間によって決定される。
【００２７】
簡単に述べると、削除補間の技術は、トレーニングデータを２つの別々のセットに仕切る。その一方は、モデルのパラメータを推定するのに使用され、そして第２のセットは、出力ｐｄｆが未知のトレーニングデータをいかに良好に予想できるかを指示するための重み付けファクタを決定するのに使用される。このプロセスは反復的であり、各繰り返すにおいて、異なるセットが回転され、そして新たなモデル及び重み付けファクタが形成される。全ての繰り返しの終わりに、重み付けファクタの平均値が計算され、認識段階に使用される。
【００２８】
図３ないし６は、重み付けファクタを計算するのに使用されるステップを示している。図３を参照すれば、ステップ６０において、トレーニングデータは、Ｋ個のブロックに仕切られる。好ましくは、データのブロックは２つである。しかしながら、本発明は、このブロック数に限定されず、トレーニングデータの記憶量及びトレーニング時間の制約に基づいて他のブロック数も使用できる。
【００２９】
重み付けファクタは、各コンテクスト従属のセノンに対して計算され（ステップ６２）、これは、先ず、セノンテーブルを用いてｓｅｎ_SD（即ちコンテクスト従属セノン）に対応するコンテクストとは独立したセノンであるｓｅｎ_SIを見出すことにより行われる（ステップ６３）。計算は、反復プロセスであるステップ６４により導出され、このプロセスは、λ_newで示されたλの新たな値の間の差が、あるスレッシュホールドに合致するときに収斂する。好ましくは、このプロセスは、｜λ−λ_new｜＜０．０００１のときに収斂し即ち終了する。このプロセスは、λの初期値を選択することにより開始する（ステップ６６）。最初に、セノンの第１の繰り返しの場合は、初期値はユーザにより予め選択される。好ましくは、初期値は、０．８の推定値である。他の全ての繰り返しに対し、初期値は、その前に計算された新たな値λ＝λ_newである。ステップ６８において、プロセスはＫ回繰り返される。各繰り返しにおいて、１つのデータブロックが削除ブロックとして選択され、その選択される削除ブロックは、その前に選択されなかったものである（ステップ７０）。
【００３０】
次いで、プロセスは、削除ブロック以外の全てのブロックからのトレーニングデータを用いて、各々のコンテクスト従属（ｂ₁で示す）及びコンテクスト独立（ｂ₂で示す）セノンに対する出力確率を推定するように進められる（ステップ７２）。これらのパラメータは、トレーニング段階におけるＨＭＭのパラメータの推定値を参照して上記と同じ技術を用いて推定される（即ちバウム−ウェルチアルゴリズム）。
【００３１】
次いで、ステップ７４において、新たな値λ_newが計算される。この計算は、「強制整列」に依存すると仮定する。トレーニング中に、ビタビアルゴリズムが使用される場合には、トレーニングデータの各特徴ベクトルを、特定のセノンで識別することができる。このマッピング、即ちセノンを伴うベクトルは、「強制整列」として知られている。λ_newは、次の数２の数学的定義に基づいて計算される。
【数２】

但し、Ｎは、強制整列を用いたセノンｓｅｎ_SDに対応する削除ブロックにおけるデータ点又は特徴ベクトルの数；
ｘ_iは、特徴ベクトルｉ、１≦ｉ≦Ｎ；
ｂ₁（ｘ_i）は、上記数１の式で定められたコンテクスト従属の出力ｐｄｆ；ｂ₂（ｘ_i）は、上記数１の式で定められたコンテクストとは独立した出力ｐｄｆ；そして
λ＊ｂ₁（ｘ_i）＋（１−λ）＊ｂ₂（ｘ_i）は、全確率と称される。
【００３２】
λ_newの値は、Ｋ回の繰り返しの各々に対して決定される。Ｋ回の全ての繰り返しの完了時に、ステップ７６において、平均値が計算され、これは、次の数３の式で表される。
【数３】

但し、ｊは、削除ブロックのインデックス；
Ｋは、ブロックの数；
λ^j _newは、削除ブロックを用いたλの推定値；そして
Ｎ_jは、強制整列を用いたｓｅｎ_SDに対応する削除ブロックｊにおける点の数である。
【００３３】
ステップ６６ないし７６は、λ_newの値が規定のスレッシュホールドに合致しない場合には再び実行される。特定のコンテクスト従属のセノンに対してプロセスが収斂すると、λ_newの現在値が特定のコンテクスト従属のセノンに対してラムダテーブル２６に記憶される。
【００３４】
図４は、上記数２及び数３の式に基づき重み付けファクタも新たな値λ_newを計算するのに使用されるステップのフローチャートである。新たな値は、削除ブロックの各データ点の全確率に対するコンテクスト従属出力ｐｄｆの作用を加算することにより計算される。従って、ステップ７９において、ｓｅｎ_SDに対応する削除ブロックの全ての点が、ステップ４８で形成されたモデル及び強制整列を用いて見出される。ステップ８０において、ｓｅｎ_SDと整列された削除ブロックにおける各データ点ｘ_iに対してプロセスが繰り返される。全確率に対するデータ点ｘ_iのコンテクスト従属出力ｐｄｆの作用は、次の数４の式に基づいてステップ８２において決定される。
【数４】

【００３５】
このようにして計算された全てのデータ点の作用の和がステップ８４において合計される。繰り返しの完了時に、ｓｅｎ_SDと整列された削除ブロックの全てのデータ点が処理されたときに、上記数２の式に基づいて作用の平均値λ_newが計算される（ステップ８６）。
【００３６】
重み付けファクタの上記計算は、削除ブロックのデータ点を使用するものである。これは、より正確な計算をもたらすが、計算を行うためにトレーニングエンジンに必要とされる記憶量及びトレーニング時間を増大する。ある場合には、対応する削除ブロックのデータ点のパラメータ表示を発生しそして適当なパラメータを使用するのが更に効果的となる。更に別のやり方としては、ｓｅｎ_SDに対するデータ点のパラメータ表示から再構成されたデータ点を使用することである。これらの別のやり方は、データ点のおおまかな近似を与えるが、計算効率という点で利点がある。
【００３７】
図５及び６は、重み付けファクタを計算するためのこれらの別の実施形態を示している。図５は、第１の別の実施形態を示す。図５を参照すれば、削除ブロックのデータ点に対するパラメータ表示がステップ９０に示すように発生される。この場合に、パラメータ表示は、ガウスの混合体となる。この表示は、上記のバウム−ウェルチアルゴリズムを用いて形成することができる。発生されるパラメータは、各々の混合成分ｊに対し、平均値、μ_j及び重みｃ_jを含む。ラムダの新たな値λ_newの計算は、削除ブロックμ_jに対し、次の数５の式に基づいて行うことができる。
【数５】

但し、Ｍは、通常の混合成分の数；
ｃ_jは、ｊ番目の通常混合成分の重み；
ここで、数６であることに注意されたい。
【数６】

μ_jは、ｊ番目の通常混合成分の平均値である。
【００３８】
ステップ９２ないし９８は、この計算を次のように行う。ステップ９２は、各混合に対して繰り返され、対応する平均及び重み付けパラメータを有する混合に対し、全確率に対するコンテクスト従属出力確率の作用を決定する。混合成分に対して、これは、次の数７の式で表される。
【数７】

【００３９】
ステップ９６において、全ての混合成分に対しこれら作用の和が形成される。ステップ９８において、ステップ９６から生じる最終的な和が、現在ｓｅｎ_SD及び削除ブロックに対してλ_newの値として記憶される。
【００４０】
図３を参照すれば、Ｋ回の繰り返しの完了時に、プロセスは、ステップ７６において、上記数３の式に基づきλ_newの平均値を計算するように進められる。このプロセスは、図３について述べたように、プロセスが収斂し、そして現在平均値λ_newが特定のコンテクスト従属セノンに対してラムダテーブル２６に記憶されるまで、続けられる。
【００４１】
重み付けファクタを計算する第２の別の実施形態においては、セノンのパラメータ表示からランダムに発生される選択数のデータ点が使用される。図６は、この第２の別の実施形態を示し、これは、上記数２の式に基づき削除ブロックに対して数学的に表すことができるが、｛ｘ_i｝は発生されたデータ点でありそしてＮは発生されたデータ点の数である。
【００４２】
この別の実施形態は、図３に示す好ましい実施形態とは、新たな値λ_newの決定（ステップ７４）について異なる。流れシーケンスは、図３に示すように保たれる。図６を参照すれば、ステップ１００において、削除ブロックのデータ点に対しパラメータ表示が発生される。パラメータ表示は、ガウスの混合体で構成することができる。このパラメータ表示は、削除ブロックのトレーニングデータに対しバウム−ウェルチアルゴリズムを用いて導出することができる。このパラメータ表示から、ステップ１０２に示すように、平均及び重み付けパラメータと共にランダム数発生器を用いて規定数のデータ点が再構成される。再構成されるデータ点の数は、λ_newの所望の精度と計算要件との間で妥協される。データ点の数が多いと、λ_newの精度は改善されるが、必要な計算量が多くなる。混合体当たりの再構成データ点の適当な数は、１００である。
【００４３】
ステップ１０４においては、セットの各データ点に対してステップ１０６及び１０８が実行される。ステップ１０６において、データ点の全確率に対するコンテクスト従属出力確率の作用が決定される。これは、次の数８の式で表すことができる。
【数８】

ステップ１０８においては、これら作用の和が、セットの全てのデータ点に対して形成される。セットの全てのデータ点を経て繰り返すが完了すると、全ての作用の平均値がλ_newの値として返送される（ステップ１１０）。図３を参照すれば、Ｋ回の繰り返しの完了時に、プロセスは、ステップ７６において、上記数３の式に基づきλ_newの平均値を計算するように進められる。このプロセスは、図３について上記したように、プロセスが収斂し、そして現在平均値λ_newが特定のコンテクスト従属セノンに対してラムダテーブル２６に記憶されるまで、続けられる。
【００４４】
トレーニングデータが発生されて適当な記憶位置に記憶されると、認識システムは、実行の準備ができる。スピーチ認識システムの主たるタスクは、入力スピーチ信号に含まれた言語メッセージを検出することである。このタスクは、特徴ベクトルのシーケンスを音素のシーケンスに一致させ、音素のシーケンスをワードのシーケンスに一致させ、そしてワードのシーケンスをセンテンスに一致させることを必要とするので、多レベルデコードの問題である。これは、モデリングされた全ての考えられる言語表現を形成し、そしてその表現が特徴ベクトルのシーケンスに一致する確率を計算することにより行われる。言語表現は、音素のシーケンスで構成されるので、その表現を形成する音素が特徴ベクトルに一致しそしてその表現がおそらく生じる（即ち文法的に正しい）であろう見込みを計算することが決定に含まれる。表現を形成する音素が特徴ベクトルに一致する確率はアコースティックスコアと称され、そしてその表現が生じ得る確率は言語スコアと称される。言語スコアは、言語の文法のような言語の構文及び意味を考慮し、音素のシーケンスに対応するワードのシーケンスが文法的に正しい言語表現を形成するかどうか指示する。
【００４５】
好ましい実施形態では、音素がＨＭＭにより表され、この場合に、同様の状態の出力ｐｄｆがクラスター化されてセノンを形成する。従って、特徴ベクトルを音素に一致させるプロセスは、音素を表すＨＭＭの状態に関連したセノンに特徴ベクトルを一致させることを含む。従って、言語表現は、一連のＨＭＭの状態に対応するセノンで構成することができる。
【００４６】
本発明の好ましい実施形態では、認識エンジンのタスクは、確率Ｐ（Ｗ／Ｘ）を最大にするワードシーケンスＷを見つけることである。確率Ｐ（Ｗ／Ｘ）は、入力スピーチ信号Ｘが与えられた場合に言語表現Ｗが生じる確率を表す。Ｗは、Ｗ＝ｗ₁、ｗ₂・・・ｗ_nとして示されたワードストリングであり、但し、ｗ_iは個々のワードを表し、各ワードは一連の音素により表され、ｗ_i＝ｐ₁、ｐ₂・・・ｐ_q、そしてＸは一連の特徴ベクトルにより表された入力スピーチ信号であり、Ｘ＝ｘ₁、ｘ₂・・・ｘ_nとして示される。この最大化の問題は、次の数９の式で表される良く知られたベイズの式の変形を用いて解決できる。
【数９】
Ｐ（Ｗ／Ｘ）＝（Ｐ（Ｘ／Ｗ）Ｐ（Ｗ）／Ｐ（Ｘ）
Ｐ（Ｘ／Ｗ）は、入力スピーチ信号ＸがワードストリングＷに一致する確率であり、アコースティックスコアと称される。Ｐ（Ｗ）は、ワードストリングＷが生じる確率であり、言語スコアと称される。Ｐ（Ｘ）は、Ｗとは独立であるから、Ｐ（Ｗ／Ｘ）を最大にすることは、全てのワードシーケンスＷに対して分子即ちＰ（Ｘ／Ｗ）Ｐ（Ｗ）を最大にすることに等しい。
【００４７】
認識タスクは、最良の一致を決定する試みにおいて種々のワードシーケンスを考慮する。認識タスクにより考慮される各ワードシーケンスに対して、アコースティックスコア及び言語スコアが計算される。言語スコアは、ワードシーケンスが言語においてどれほど生じるかを示すもので、上記数９の式のＰ（Ｗ）項により指示される。アコースティックスコアは、一連のアコースティックベクトル特徴がワードシーケンスＷに対するアコースティックモデルにいかに良好に一致するかを指示する。アコースティックスコアは、上記式のＰ（Ｘ／Ｗ）項により指示される。
【００４８】
所与のワードシーケンスに対してアコースティックスコアを計算する際に、認識タスクは、種々のセノン整列を考慮する。セノン整列は、アコースティック特徴ベクトルのシーケンスからセノンへのマッピングであって、各アコースティック特徴ベクトルに独特のセノンを指定するものである。当該ワードシーケンスを生じるセノン整列のみが認識タスクによって考慮される。各セノン整列の制約のもとにあるワードシーケンスに対するアコースティックスコアが計算される。ワードシーケンスのアコースティックスコアは、全ての考えられるセノン整列にわたる最良のアコースティックスコアである。
【００４９】
これは、数学的には、ｉ＝１ないしｑに対して、次の数１０の式で表すことができる。
【数１０】
Ｐ（Ｘ／Ｗ）＝Ｍａｘ〔Ｐ（Ｘ／（Ｗ，Ａ_i））〕
但し、Ａ₁・・・Ａ_qは、ワードシーケンスＷに対して考えられる全てのセノン整列である。
【００５０】
所与のセノン整列Ａの制約のもとにあるワードシーケンスＷに対するアコースティックスコアの計算は、更に、次の数１１の式で表される。
【数１１】

但し、セノン整列Ａは、コンテクスト従属のセノンｓｄ_iに対してｉ番目のアコースティック特徴ベクトルｘ_iを整列し即ちマップする。Ｐ（Ａ）は、セノンシーケンスｓｄ_i・・・ｓｄ_nの状態遷移確率を表す。Ｐ（ｘ_i／ｓｄ_i）は、特徴ベクトルｘ_iがコンテクスト従属のセノンｓｄ_iに一致する確率を表す。
【００５１】
アコースティックスコアの重要性は、出力確率ｐ（ｘ｜ｓｄ）の計算にある。これは、特徴ベクトルｘが、コンテクスト従属のＨＭＭ状態に対応するセノンｓｄに一致する見込みを表す。しかしながら、充分に推定されない出力ｐｄｆは、アコースティックスコアの計算に不正確さを招く。これは、通常は、トレーニングデータの不充分さによって生じる。分布の健全さは、出力ｐｄｆを推定するためにより多くのトレーニングデータを使用するのに伴って増大する。
【００５２】
この問題を緩和する１つの方法は、同じ音素を多数の詳細さレベルでモデリングする多数のＨＭＭを使用することである。従って、種々の詳細さレベルの出力ｐｄｆを使用しそしてそれらを合成することにより特定の状態に対する出力ｐｄｆを構成することができる。この合成は、トレーニング中に見られなかったデータを予想する能力に基づいて行われる。そのような未知のデータの予想に適した健全な出力ｐｄｆは、大きな重みを受け取るが、充分に推定されない出力ｐｄｆは、合成された出力ｐｄｆにおいて小さな重みを受け取る。好ましい実施形態では、多数のコンテクスト従属のＨＭＭ及びコンテクストとは独立したＨＭＭを用いて、音素がモデリングされる。トレーニング段階において既に計算されたコンテクスト従属状態に対応する各セノンの重み付けファクタλを用いて、各セノンに与えられる重みが指示される。λが大きい（１．０に近い）ほど、コンテクスト従属のセノンが優勢となり、コンテクストとは独立したセノンの重みは小さくなる。λが小さい（０．０に近い）ときには、コンテクストとは独立したセノンが優勢となる。従って、出力確率ｐ（ｘ｜ｓｄ）の計算は、次の数１２の式で表すことができる。
【数１２】
ｐ（ｘ｜ｓｄ）＝λ＊ｐ（ｘ｜ｓｄ_d）＋（１−λ）＊ｐ（ｘ｜ｓｄ_i）
但し、λは、セノンｓｄに対する重み付けファクタで、０ないし１であり；
ｘは、特徴ベクトルであり、
ｓｄ_dは、コンテクスト従属のＨＭＭの状態に関連したセノンであり、
ｓｄ_iは、コンテクストとは独立したＨＭＭの対応状態に関連したセノンであり、
ｐ（ｘ｜ｓｄ_d）は、特徴ベクトルｘがセノンｓｄ_dに一致する確率であり、そして
ｐ（ｘ｜ｓｄ_i）は、特徴ベクトルｘがセノンｓｄ_iに一致する確率である。
【００５３】
従って、出力確率ｐ（ｘ｜ｓｄ）は、コンテクスト従属のセノン及びコンテクストとは独立したセノンの出力確率の関数として直線的に補間される。重み付けファクタ即ち補間ファクタλは、各セノンが補間される程度を示す。
【００５４】
図９はスピーチ認識方法の動作を示す。図９を参照すれば、この方法は、入力スピーチ発声を受け取ることにより開始され（ステップ１２２）、これは、図１を参照して既に述べたように、特徴ベクトルに変換される（ステップ１２４）。ステップ１２６において、この方法は、入力スピーチ発声を表すことのできる各ワードシーケンスに対しステップ１２８ないし１３６を実行する。ワードシーケンスは、種々の異なるセノンシーケンスで構成することができ、この場合に、各セノン整列は、ＨＭＭ状態のシーケンスに対応する。ステップ１２８ないし１３４において、ワードシーケンスを表すことのできる各考えられるセノン整列に対する合成認識スコアが決定される。合成認識スコアは、上記数９の変形ベイズ式に基づいて決定することができる。合成認識スコアは、アコースティックスコア及び言語スコアで構成される。アコースティックスコアは、ステップ１３０で決定され、言語スコアは、ステップ１３２で決定され、そして合成スコアは、ステップ１３４で計算される。最も高い合成認識スコアを有するセノン整列が、ワードシーケンスを表すように選択される（ステップ１３６）。ステップ１３８において、この方法は、入力スピーチ発声を、最も高い合成認識スコアを有するワードシーケンスとして認識する。
【００５５】
ステップ１３０において、アコースティックスコアは、数１１の式に基づいて上記のように決定することができ、この場合に、出力確率は、数１２の式で上記のように計算される。
【００５６】
ステップ１３２において、この方法は、言語モデル記憶装置３２に記憶された言語表現を表す言語モデルに基づいて言語スコアを計算する。言語モデルは、言語の構造及び意味の知識を利用し、既に発声されたワードを考慮してワードの発生する見込みを予想する。言語モデルは、言語スコアが、あるワードの後に特定の第２のワードが続く確率に基づくというバイグラム言語モデルである。或いは又、言語モデルは、バイグラム以外のＮグラムに基づいてもよいし、サブワード言語確率に各々基づいてもよい。更に、構文及び文法ルールのような他の語彙知識を用いて、言語モデルを形成することもできる。言語モデルを形成及び使用する方法は、公知であり、上記したヒューン氏等の文献に詳細に説明されている。
【００５７】
以上に説明したように、本発明は、異なるコンテクストにおける同じスピーチ事象に対応する多数の連続密度出力確率を用いることによりスピーチ認識システムの認識能力を改善する。これは、モデルがトレーニングされなかったスピーチ事象を予想するモデルの性能を改善するので、ヒドンマルコフモデルへの特徴ベクトルのマッピングを改善する。このレベルの改善は、このレベルのマッピングが、認識プロセスを更に構築する基礎であるから、非常に有効である。
【００５８】
しかしながら、本発明は、スピーチ認識システムに限定されるものではない。スピーチ発声を言語表現へとマッピングする必要のあるいかなる用途も、本発明を利用することができる。スピーチ発声は、いかなる形式のアコースティックデータでもよく、例えば、サウンド、スピーチ波形等でよいが、これに限定されるものではない。このような用途の例は、確率モデルを使用して、言語表現を表すテキストストリングからスピーチ波形を発生するスピーチ合成システムである。
【００５９】
本発明の好ましい実施形態を以上に詳細に述べたが、これは、単に本発明を例示するものに過ぎず、当業者であれば、上記装置に変更を必要とする種々の異なる用途に本発明を応用できるであろうことを強調しておく。
【図面の簡単な説明】
【図１】好ましい実施形態に使用されるスピーチ認識システムのブロック図である。
【図２】図１のシステムに使用されるトレーニング方法のフローチャートである。
【図３】図１のシステムに使用される重み付けファクタを計算する方法のフローチャートである。
【図４】図３のシステムに使用されるラムダの新しい値を計算するための好ましい実施形態のフローチャートである。
【図５】図３のシステムに使用されるラムダの新しい値を計算するための第１の別の実施形態を示すフローチャートである。
【図６】図３のシステムに使用されるラムダの新しい値を計算するための第２の別の実施形態を示すフローチャートである。
【図７】音素に関連したヒドンマルコフモデル及びセノン構造体を例示する図である。
【図８】音素に関連したヒドンマルコフモデル及びセノン構造体を例示する図である。
【図９】図１のシステムに使用されるスピーチ認識方法のフローチャートである。

Claims

入力スピーチ発声を言語表現と一致させるためのコンピュータシステムにおける方法であって、
スピーチの複数の発音ユニットの各々に対し、その発音ユニットを表す複数のより詳細なアコースティックモデル及びあまり詳細でないアコースティックモデルを用意し、各々のアコースティックモデルは、複数の状態と、それに続く複数の遷移とを有し、各々の状態は、ある時点で発音ユニットに生じるスピーチ発声の一部分を表し、そして入力スピーチ発声の一部分がある時点で発音ユニットに生じる見込みを指示する出力確率を有し、
入力スピーチ発声に一致しそうな複数の言語表現を表す、より詳細なアコースティックモデルのシーケンスを選択し、
より詳細なアコースティックモデルのその選択シーケンスの各々に対し、入力スピーチ発生がそのシーケンスにいかに密接に一致するかを決定し、その一致は、更に、より詳細なアコースティックモデルの選択シーケンスの各状態に対し、その状態と、同じ発音ユニットを表すあまり詳細でないアコースティックモデルの同じ状態との出力確率の組み合わせとして累積出力確率を決定する段階を含み、そして
入力スピーチ発声に最も良く一致するシーケンスであって言語表現を表すシーケンスを決定する、
という段階を備えたことを特徴とする方法。
各々のアコースティックモデルは、連続密度ヒドンマルコフモデルである請求項１に記載の方法。
出力確率を決定する上記段階は、更に、あまり詳細でないモデル及びより詳細なモデルの出力確率をその組み合わせ時に個別の重み付けファクタで重み付けする段階を備えた請求項１または２に記載の方法。
複数のより詳細なアコースティックモデルを用意する上記段階は、更に、スピーチ発生のある量のトレーニングデータを用いて各アコースティックモデルをトレーニングする段階を含み、そして
出力確率を決定する上記段階は、更に、あまり詳細でないモデル及びより詳細なモデルの出力確率を、各アコースティックモデルのトレーニングに用いたトレーニングデータの量に対して重み付けする段階を含む請求項１乃至３のいずれかに記載の方法。
上記入力スピーチ発声は、所与の時間インターバル中の発声のアコースティック特性を指示する複数の特徴ベクトルより成り、そして言語表現は、アコースティック特性がその言語表現内の位置に生じる出力確率を指示する複数のセノンより成り、上記方法は、
コンテクストに従属する複数のセノンを用意し、
上記コンテクストに従属する複数のセノンに関連され、言語表現の同じ位置を表すコンテクストとは独立したセノンを用意し、
入力スピーチ発生におそらく一致する言語表現を用意し、
入力スピーチ発生の各特徴ベクトルに対し、その特徴ベクトルが、その特徴ベクトルと同じ時間インターバルに生じる言語表現の上記コンテクストに従属するセノンに一致する出力確率を決定し、この出力確率の決定は、上記コンテクストに従属するセノンに関連したコンテクストとは独立したセノンを使用し、そして
上記出力確率を使用して、入力スピーチ発生が言語表現に一致する見込みを決定する、
という段階を備えたことを特徴とする請求項１または２に記載の方法。
上記出力確率は、連続確率密度関数より成る請求項５に記載の方法。
コンテクストに従属する複数のセノンを用意する上記の段階は、更に、スピーチ発声を表すある量のトレーニングデータから上記コンテクストに従属するセノンをトレーニングする段階を含み、
コンテクストとは独立したセノンを用意する上記段階は、更に、コンテクストとは独立したセノンをある量のトレーニングデータからトレーニングする段階を含み、そして
出力確率を決定する上記段階は、更に、コンテクストとは独立したセノン及びコンテクスト従属するセノンを、これらのセノンをトレーニングするのに用いた上記量のトレーニングデータに基づいて組み合わせる段階を含む請求項５または６に記載の方法。
コンテクストに従属する複数のセノンを用意する上記の段階は、更に、
スピーチ発声を表すある量のトレーニングデータからコンテクストに従属するセノンをトレーニングし、そして
セノンを推定するのに使用される上記量のトレーニングデータを表す各々のコンテクストに従属するセノンに対して重み付けファクタを用意する段階を備え、そして
出力確率を決定する上記段階は、更に、コンテクストに従属するセノン及びコンテクストとは独立したセノンを上記重み付けファクタに基づいて組み合わせる段階を含む請求項５に記載の方法。
重み付けファクタを用意する上記段階は、更に、上記量のトレーニングデータに対して削除補間技術を使用することにより重み付けファクタを発生する段階を含む請求項８に記載の方法。
重み付けファクタを用意する上記段階は、更に、
トレーニングデータのパラメータ表示を発生し、そして
上記量のトレーニングデータのパラメータ表示に削除補間技術を適用することにより重み付けファクタを発生する段階を含む請求項８に記載の方法。
重み付けファクタを用意する上記段階は、更に、
トレーニングデータのパラメータ表示を発生し、
トレーニングデータのパラメータ表示から、トレーニングデータを表す１組のデータ点を形成し、そして
上記データ点に削除補間を適用することにより重み付けファクタを発生するという段階を含む請求項８に記載の方法。
入力スピーチ発声を言語表現に一致させるコンピュータシステムにおいて、
スピーチの発音ユニットを各々表す複数のコンテクスト従属の及びコンテクスト独立のアコースティックモデルを記憶するための記憶装置を備え、各発音ユニットを表す複数のコンテクスト従属のアコースティックモデルは、スピーチの発音ユニットを表す少なくとも１つの関連するコンテクスト独立のアコースティックモデルを有し、各アコースティックモデルは、遷移を有する状態を含み、各々の状態は、ある時点における発音ユニットの一部分を表すと共に、入力スピーチ発声の一部分がある時点に発音ユニットに生じる見込みを指示する出力確率を有し、
入力スピーチ発声におそらく一致する複数の言語表現を表すコンテクスト従属のアコースティックモデルの選択シーケンスを与えるモデルシーケンス発生器を更に備え、
上記モデルの各シーケンスが入力スピーチ発声にいかに良好に一致するかを決定するためのプロセッサを更に備え、このプロセッサは、シーケンスの各状態に対して累積出力確率を用いることにより入力スピーチ発声の一部分をシーケンスの状態に一致させ、累積出力確率は、コンテクスト従属のアコースティックモデルの各状態の出力確率をそれに関連したコンテクスト独立のアコースティックモデルの同じ状態の出力確率と合成したものを含み、そして
入力スピーチ発声に最も良く一致するシーケンスであって言語表現を表すシーケンスを決定するための比較器を更に備えたことを特徴とするコンピュータシステム。
各アコースティックモデルは、連続密度ヒドンマルコフモデルである請求項１２に記載のシステム。
スピーチ発声のある量のトレーニングデータを受け取り、そしてその量のトレーニングデータで各アコースティックモデルの各状態に対する出力確率を推定するためのトレーニング装置を更に備え、
上記プロセッサは、更に、各状態の累積出力確率を決定するための合成要素を備え、この合成要素は、各出力確率を推定するのに使用される上記量のトレーニングデータに対し、シーケンスの各状態の出力確率をそれに関連したコンテクスト独立のアコースティックモデルの同じ状態の出力確率と合成する請求項１２または１３に記載のシステム。
スピーチ発声のある量のトレーニングデータを受け取り、上記量のトレーニングデータで各アコースティックモデルの各状態に対する出力確率を推定するためのトレーニング装置を更に備え、このトレーニング装置は、各コンテクスト従属のアコースティックモデルの各状態に対する重み付けファクタを発生し、これは、出力確率がトレーニングデータに存在しないスピーチ発声を予想できる程度を示すものであり、そして
上記プロセッサは、更に、状態の累積出力確率を決定するための合成要素を備え、この合成要素は、各状態の重み付けファクタに対し、シーケンスの各状態の出力確率を、それに関連したコンテクスト独立のアコースティックモデルの同じ状態の出力確率と合成する請求項１２または１３に記載のシステム。
上記重み付けファクタは、上記量のトレーニングデータに削除補間技術を適用することにより導出される請求項１５に記載のシステム。
上記トレーニング装置は、更に、トレーニングデータのパラメータ表示を発生するためのパラメータ発生器を備え、そして
上記重み付けファクタは、上記量のトレーニングデータのパラメータ表示に削除補間技術を適用することにより導出される請求項１５に記載のシステム。
上記トレーニング装置は、更に、
トレーニングデータのパラメータ表示を発生するためのパラメータ発生器と、
パラメータ表示から１組のデータ点を発生するためのデータ発生器とを備え、そして上記重み付けファクタは、上記１組のデータ点に削除補間技術を適用することにより導出される請求項１５に記載のシステム。