JP3933750B2 - 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 - Google Patents
連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 Download PDFInfo
- Publication number
- JP3933750B2 JP3933750B2 JP14838597A JP14838597A JP3933750B2 JP 3933750 B2 JP3933750 B2 JP 3933750B2 JP 14838597 A JP14838597 A JP 14838597A JP 14838597 A JP14838597 A JP 14838597A JP 3933750 B2 JP3933750 B2 JP 3933750B2
- Authority
- JP
- Japan
- Prior art keywords
- context
- training data
- output probability
- state
- senon
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 58
- 238000012549 training Methods 0.000 claims description 98
- 230000001419 dependent effect Effects 0.000 claims description 60
- 239000013598 vector Substances 0.000 claims description 55
- 230000014509 gene expression Effects 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 13
- 230000007704 transition Effects 0.000 claims description 13
- 238000012217 deletion Methods 0.000 claims description 11
- 230000037430 deletion Effects 0.000 claims description 11
- 239000002131 composite material Substances 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims 5
- 230000008569 process Effects 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 13
- 239000000203 mixture Substances 0.000 description 12
- 238000009826 distribution Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000013507 mapping Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000005315 distribution function Methods 0.000 description 5
- 238000013139 quantization Methods 0.000 description 4
- 238000010183 spectrum analysis Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Description
【発明の属する技術分野】
本発明は、コンピュータ音声認識に係り、より詳細には、連続ヒドンマルコフモデルを用いたコンピュータ音声認識システムに係る。
【0002】
【従来の技術】
音声認識の分野への挑戦は、最小のエラー率を有する話し手とは独立した連続スピーチ認識システムを形成する必要性により生じている。この目標を実現する際の焦点は、スピーチ認識システムにより使用される認識アルゴリズムにある。認識アルゴリズムは、本質的に、スピーチ信号即ち連続時間信号を、トレーニングデータから予め得られたスピーチの発音的及び音韻的記述を表す1組の基準パターンへとマッピングすることである。このマッピングを実行するために、高速フーリエ変換(FFT)、直線的予想コード化(LPC)又はフィルタバンクのような信号処理技術がデジタル形態のスピーチ信号に適用されて、スピーチ信号の適切なパラメータ表示が抽出される。一般に使用される表示は、スピーチ信号に含まれた周波数及び/又はエネルギーバンドを表すFFT又はLPC係数を各時間インターバルごとに含む特徴ベクトルである。これら特徴ベクトルのシーケンスが、スピーチ信号に含まれた言語ユニット、ワード及び/又はセンテンスを識別する1組の基準パターンへとマッピングされる。
【0003】
スピーチ信号は、記憶された基準パターンに厳密に一致しないことがしばしばある。スピーチ信号特性は著しく変化し、記憶された基準パターンでは完全且つ正確に捕らえられないために、厳密な一致を見つけることが困難になる。意図されたメッセージを予想する場合には、厳密な一致を追求する技術よりも、確率モデル及び統計学的技術の方が成功裡に使用されている。1つのこのような技術がヒドンマルコフモデル(Hidden Markov Model) (HMM)である。これらの技術は、厳密な一致を見つけるのではなく、スピーチ信号に一致しそうな基準パターンを決定するので、スピーチ認識にいっそう適している。
【0004】
HMMは、遷移により接続された状態のシーケンスより成る。HMMは、音素又はワードのようなスピーチの特定の発音ユニットを表すことができる。各状態には、その状態が特徴ベクトルに一致する見込みを指示する出力確率が関連される。各遷移ごとに、その遷移に続く見込みを指示する関連遷移確率がある。遷移及び出力確率は、「トレーニングデータ」と称する既に話されたスピーチパターンから統計学的に推定される。認識の問題は、入力スピーチ信号を表す特徴ベクトルに一致する確率が最も高い状態シーケンスを見出すことである。主として、このサーチプロセスは、モデリングされた各々の考えられる状態シーケンスを列挙し、そしてその状態シーケンスが入力スピーチ信号に一致する確率を決定することを含む。最も高い確率をもつ状態シーケンスに対応する発声が、認識されたスピーチ発声として選択される。
【0005】
HMMをベースとするほとんどのスピーチ認識システムは、ベクトル量子化を使用する離散的HMMをベースとしている。離散的HMMは、限定された1組の出力記号を有し、遷移及び出力確率は、離散的確率分布関数(pdfs)をベースとするものである。ベクトル量子化は、コードワードと称する個別表示により連続スピーチ信号を特徴付けるのに使用される。特徴ベクトルは、歪の尺度を用いてコードワードに一致される。特徴ベクトルは、最小の歪尺度を有するコードワードのインデックスと置き換えられる。認識の問題は、観察されるスピーチ信号の個別の出力確率をテーブルルックアップ動作として計算することに簡素化され、これは、最小限の計算しか必要としない。
【0006】
【発明が解決しようとする課題】
しかしながら、スピーチ信号は、連続的な信号である。コードワードによって連続的な信号を量子化することはできるが、このような量子化に関連して著しい質低下があり、認識精度を悪化させる。連続密度HMMを使用する認識システムは、量子化歪に関連した不正確さの問題がない。連続密度HMMは、推定される連続密度確率分布関数を用いて連続的なスピーチ信号を直接モデリングすることができ、従って、高い認識精度を得ることができる。しかしながら、連続密度のHMMは、著しい量のトレーニングデータを必要とすると共に、長い認識計算を必要とし、これがほとんどの商業的スピーチ認識システムへの使用の妨げとなっている。従って、連続スピーチ認識システムの重大な問題は、高い認識精度を得るために連続密度HMMを使用することである。
【0007】
【課題を解決するための手段】
本発明は、言語表現に対応する連続密度HMMへのスピーチ信号のモデリングを改善するスピーチ認識システムに関する。好ましい実施形態においては、認識システムは、コンテクストとは独立したHMM及び多数のコンテクスト従属のHMMを用いて、音素のスピーチユニットを異なるコンテクストパターンで表す。これらHMMの各々に対する出力及び遷移確率は、トレーニングデータから推定される。同じモデリングされた音素に対応する同様の状態に関連した出力確率がクラスター化されてセノン(senone)を形成する。未知のデータを予想する際の出力確率の健全さを指示する各コンテクスト従属のセノンのための重み付けファクタも発生される。好ましい実施形態においては、重み付けファクタは、トレーニングデータの全てのデータ点の削除補間により推定される。或いは又、重み付けファクタは、データ点のパラメータ表示から推定することもできるし、又はデータ点のパラメータ表示により形成されたランダムに発生されたデータ点から推定することもできる。
【0008】
認識エンジンは、入力スピーチ発声を受け取り、そしてその入力スピーチ発声の特徴ベクトルに最も一致しそうなワードシーケンス候補を発生する。ワードシーケンスは、HMMの状態シーケンスに対応する種々のセノン整列体で構成することができる。認識エンジンは、アコースティック及び言語確率スコアを使用することにより、どのセノン/状態整列体が特徴ベクトルに最も良く一致するかを決定する。アコースティック確率スコアは、セノン整列体が特徴ベクトルに対応する見込みを表し、そして言語確率スコアは、セノン整列体に対応する発声が言語に生じる見込みを指示する。アコースティック確率スコアは、出力及び遷移確率の分析に基づく。出力確率分析は、各出力確率を重み付けファクタの関数として重み付けすることによりコンテクスト従属のセノン及びコンテクストとは独立したセノンの両方の出力確率を使用する。より健全な推定値を有する出力確率が分析を左右し、これにより、出力確率分析を改善する。出力確率分析の改善は、アコースティックスコアを改善し、ひいては、全認識精度を改善する。
【0009】
【発明の実施の形態】
本発明の上記及び他の特徴並びに効果は、同じ要素が同じ参照番号で示された添付図面を参照した好ましい実施形態の以下の詳細な説明から明らかとなろう。添付図面は、必ずしも正しいスケールではなく、本発明の原理を示す際に強調がなされている。
【0010】
本発明の好ましい実施形態は、同じ発音ユニットを表す異なる出力確率を、各出力確率が未知のデータを予想できる程度に対して重み付けすることにより、連続密度ヒドンマルコフモデルを用いるスピーチ認識システムにおいて改良された認識精度が得られることを確認するものである。本発明のスピーチ認識システムは、連続信号の形態の入力スピーチ発声を受け取り、そしてその発声に対応する最もあり得る言語表現を発生する。好ましい実施形態は、スピーチ信号のパラメータ表示を形成する特徴ベクトルのセットを、考えられる言語表現を識別するヒドンマルコフモデル(HMM)のシーケンスに一致させることにより、言語表現を認識する。HMMは、音素を表し、そしてHMMのシーケンスは、音素より成るワード又はセンテンスを表す。
【0011】
ガウスの確率分布関数の混合であるような連続密度確率分布関数は、スピーチ信号をモデリングするのに非常に正確であるから、状態の出力確率を表すのに使用できる。出力確率関数は、トレーニングデータから統計学的に推定される。出力確率関数を正確に推定するのに充分な量のトレーニングデータがないことがしばしばある。この問題を考慮するために、コンテクストとは独立したモデル及びコンテクストに従属するモデルが音素の所定のセットに対して構成される。コンテクストとは独立したモデルの出力確率は、次いで、コンテクストに従属するモデルの出力確率で補間される。これは、コンテクストに従属するHMMの出力確率関数が、トレーニングデータにおいてそれまで遭遇していないデータを予想できる程度を推定する重み付けファクタ又は補間ファクタによって行われる。従って、コンテクストに従属する状態の新たな変更された出力確率関数は、推定値の健全さに基づき重み付けされた両モデルの出力確率関数の組み合わせとなる。そこで、好ましい実施形態では、削除補間を用いて、パラメータスペースではなく確率スペースを平滑化する。
【0012】
図1は、本発明の好ましい実施形態により認識及びトレーニングプロセスを実施するのに使用できるスピーチ認識システム10を示している。このスピーチ認識システム10は、マイクロホンのような(これに限定されない)入力装置12を含み、これは、入力スピーチ発声を受け取り、そしてそれに対応するアナログ電気信号を発生する。或いは又、記憶装置に記憶されたスピーチ発声を、入力スピーチ発声として使用することもできる。スピーチ発声に対応するアナログ電気信号は、アナログ/デジタル(A/D)コンバータ14へ送られ、これは、アナログ信号を一連のデジタルサンプルに変換する。デジタルサンプルは、次いで、特徴抽出器16に送られ、これは、デジタル化された入力スピーチ信号からパラメータ表示を抽出する。このパラメータ表示は、入力スピーチ発声のアコースティック特性を捕らえる。好ましくは、特徴抽出器16は、スペクトル分析を行って、入力スピーチ信号のスペクトルを表す係数を各々含む一連の特徴ベクトルを発生する。スペクトル分析を行う方法は、信号処理の分野で良く知られており、そして高速フーリエ変換(FFT)、直線的予想コード化(LPC)及びセプストラル(cepstral)係数を含み、これらは全て特徴抽出器16に使用することができる。特徴抽出器16は、スペクトル分析を行う何らかの従来型のプロセッサでよい。スペクトル分析は、10ミリ秒ごとに行われ、入力スピーチ信号を、25ミリ秒の発声を表す特徴ベクトルへと分割する。しかしながら、本発明は、25ミリ秒の発声を表す特徴ベクトルの使用に限定されるものではない。異なる時間長さのスピーチ発声を表す特徴ベクトルも使用できる。このプロセスは、全入力スピーチ信号に対して繰り返されて、一連の特徴ベクトルを発生し、これらは、データプロセッサ38へ送られる。データプロセッサ38は、デスクトップパーソナルコンピュータのような何らかの従来型コンピュータでよい。データプロセッサは、特徴ベクトルのシーケンスをルート指定するスイッチングブロック18を備えている。このスイッチングブロック18は、ハードウェアで実施されてもよいし、ソフトウェアで実施されてもよい。しかしながら、スピーチ認識システムは、データプロセッサでの実行に限定されるものではない。メモリ装置、コンパクトディスク又はフロッピーディスクであるコンピュータ読み取り可能な記憶媒体のような(これらに限定されない)他の形式の実行可能な媒体を使用することもできる。
【0013】
初期のトレーニング段階中に、スイッチングブロック18は、特徴ベクトルをトレーニングエンジン20に向けるように投入される。トレーニングエンジン20は、特徴ベクトルを使用して、トレーニングデータに存在する音素を表すHMMのパラメータを推定すると共に、認識エンジン34により使用するための1組の重み付けファクタを計算する。トレーニングエンジン20に使用される方法については、図2ないし6を参照して以下に説明する。簡単に述べると、トレーニングエンジン20は、コンテクストとは独立した及びコンテクストに従属する音素に基づくヒドンマルコフモデルを、トレーニングデータからこれらモデルのパラメータを推定することにより、発生する。コンテクストに従属する各状態に対する出力分布がクラスター化されて、セノンを形成し、これらセノンは、セノンテーブル記憶装置30に記憶される。セノンテーブル記憶装置30は、一般に、コンテクストに従属するHMM及びコンテクストとは独立したHMMの両方に対するセノンを保持する。各HMMのセノン識別子がHMM記憶装置28に記憶される。更に、認識エンジン34により使用するために、コンテクストに従属する各セノンの重み付けファクタが計算されてラムダテーブル記憶装置26に記憶される。ラムダテーブル記憶装置26は、コンテクストに従属するHMMによりインデックスされるラムダ値を保持する。又、トレーニングエンジン20は、トレーニングデータの翻訳を保持するテキスト転記22と、各ワードが正しくモデリングされるよう確保するために各ワードの音素記述を含む辞書24を使用する。トレーニングエンジン20の動作については、以下に詳細に述べる。辞書24は音素に関して各ワードの発音を含む。例えば、「add」の辞書入力は、「/AE DD/」となる。
【0014】
初期のトレーニング段階の後に、スイッチングブロック18は、特徴ベクトルを認識エンジン34に送信するように切り換えられる。認識エンジン34は、ワード、ひいては、センテンスを形成する音素より成る言語表現として特徴ベクトルのシーケンスを認識する。認識エンジン34に使用される方法については、図9を参照して以下に詳細に述べる。認識エンジン34は、HMM記憶装置28に記憶されたコンテクストとは独立した及びコンテクストに従属するヒドンマルコフモデルと、セノンテーブル記憶装置30に記憶されたコンテクストに従属する及びコンテクストとは独立したセノンと、ラムダテーブル26に記憶された重み付けファクタと、言語モデル記憶装置32及び辞書24に記憶された言語モデルとを使用する。言語モデル記憶装置32は、文法を指定する。好ましい実施形態においては、認識エンジン34から発生される言語表現は、従来のプリンタ、コンピュータモニタ等の出力装置36に表示される。しかしながら、本発明は、言語表現を出力装置に表示することに限定されるものではない。例えば、言語表現は、更に処理するために別のプログラム又はプロセッサへの入力として使用することもできるし、或いは記憶されてもよい。
【0015】
図2ないし6は、HMMのパラメータ及びセノンを推定しそして重み付けファクタを計算するシステムのトレーニング段階で実行されるステップを示すフローチャートである。簡単に述べると、トレーニング方法は、ワード、センテンス、パラグラフ等の形態の入力スピーチ発声を受け取ることによってスタートし、そしてそれらを特徴ベクトルとして知られたパラメータ表示に変換する。ヒドンマルコフモデル及びセノンの構造体が形成され、そしてこれらデータ構造体のパラメータの推定値がトレーニングデータから計算される。次いで、削除補間の技術により重み付けファクタが決定される。
【0016】
図2を参照すれば、トレーニング方法は、一連のスピーチ発声を受け取ることにより開始され(ステップ42)、これは、図1を参照して上記したように一連の特徴ベクトルへと変換される(ステップ44)。完全な1組の特徴ベクトルを「トレーニングベクトル」と称する。好ましい実施形態では、LPCセプストラル分析を使用して、スピーチ信号がモデリングされ、信号に含まれた周波数及びエネルギースペクトルを表す次の39のセプストラル及びエネルギー係数を含む特徴ベクトルが形成される。即ち、(1)12のLPCメル周波数セプストラル係数xk (t)、但し、1≦K≦12;(2)12のLPCデルタメル周波数セプストラル係数Δxk (t)、但し、1≦K≦12;(3)12のLPCデルタ−デルタメル周波数セプストラル係数ΔΔxk (t)、但し、1≦K≦12;そして(4)エネルギー、デルタエネルギー及びデルタ−デルタエネルギー係数。LPCセプストラル分析を用いてスピーチ信号をモデリングすることは、スピーチ認識システムの分野で良く知られている。
【0017】
ステップ46において、セノン及びHMMデータ構造体が形成される。セノンは、スピーチ認識システムにおいて良く知られたデータ構造体であり、そしてセノン及びそれらを構成するのに使用する方法は、M.ヒューン氏等の「セノンをもつ未知のトリホーンの予想(Predicting Unseen Triphones with Senones)」、Proc.ICASSP '93、第II巻、第311−314ページ、1993年に詳細に説明されている。好ましい実施形態では、HMMは、音素のスピーチユニットをモデリングするのに使用できる。又、HMMは、アコースティックモデルも称される。このスピーチユニットは、多数の語彙の認識を受け入れるように選択される。個々のワードをモデリングするには、長いトレーニング周期と、関連パラメータを記憶するための付加的な記憶装置とが必要になる。これは、少数の語彙のシステムについては実現できるが、多数の語彙を用いる場合には不可能である。しかしながら、本発明は、音素をベースとするHMMに限定されるものではない。ワード、ジホーン(diphone) 及びシラブルのような他のスピーチユニットをHMMの基礎として使用することができる。
【0018】
2つの形式のHMMを使用することができる。コンテクストに従属するHMMは、左右の音素コンテクストを伴う音素をモデリングするのに使用することができる。この形式のモデルは、ワードモデリングに通常存在するコンテクスト依存性を捕らえる。コンテクストとは独立したHMMは、トレーニングデータに現れるいかなるコンテクストの音素をモデリングするのにも使用でき、従って、特定のコンテクストとは独立したものにする。1組の音素及びそれに関連した左右の音素コンテクストより成る所定のパターンが、コンテクストに従属するHMMによりモデリングされるべく選択される。これらの選択されたパターンは、最も頻繁に発生する音素と、これら音素の最も頻繁に発生するコンテクストを与える。トレーニングデータは、これらモデルのパラメータの推定値を与える。コンテクストとは独立したモデルは、選択された音素をベースとし、トレーニングデータに現れる音素コンテクスト内でモデリングされる。同様に、トレーニングデータは、コンテクストとは独立したモデルのパラメータに対する推定値を与える。
【0019】
コンテクストとは独立したモデル及びコンテクストに従属するモデルの両方を使用することは、改良された認識精度を達成する上で有効である。各モデルの健全さは、そのパラメータを推定するのに使用されるトレーニングデータの量、ひいては、トレーニングデータに存在しないデータを予想できるようにすることに関連している。例えば、コンテクストに従属するモデルは、同時調音効果をモデリングするのに有効であるが、トレーニングデータが制限されるためにトレーニングが不充分となる。(話し手は、音の連結シーケンスとしてワードを発音しようと試みるが、話し手の調音器官は、影響のない音を発生するように同時に動くことができない。その結果、ある音は、ワード内でそれに先行する音及びそれに続く音によって強く反転される。その効果が「同時調音効果」である。)これに対して、コンテクストとは独立したモデルは、トレーニング性が高く、従って、あまり詳細でない粗野な推定を与える。これらの2つのモデルを適当に重み付けして組み合わせたものを認識エンジンに使用して、更に正確なアコースティック確率スコアを発生することができる。
【0020】
更に、話し手ごとの相違、例えば、男と女の声道に存在するフォルマント周波数(即ち、声道の共振周波数)を考慮するために、HMMは、出力確率分布関数(ここでは「出力pdf」と称する)に対する単一モード分布の混合を使用することができる。ガウスの確率密度関数の混合体を使用できるのが好ましい。しかしながら、本発明は、この特定の限定に制約されない。ラプラス及びKO 型密度関数のような他の公知の連続密度関数の混合体も使用できる。
【0021】
更に、コンテクストに従属する異なる音素の状態間の類似性を捕らえ、そして各セノンに使用できるトレーニングデータの量を増加するために、コンテクストとは独立した同じ音に対してコンテクストに従属する異なる発音HMMモデルの類似状態の出力分布を一緒にクラスター化して、セノンが形成される。
【0022】
図7は、音素/aa/114に対するコンテクストとは独立したHMM構造体を例示している。コンテクストとは独立したHMMは、状態1(111)、状態2(112)及び状態3(113)と示された3つの状態を含む。図7に示したHMMは、図7に表示(*,*)で示されたようにトレーニングデータに現れる左右の音素を伴う音素/aa/をモデリングする。かっこ内の第1の位置は、所与の音素に先行する音素を示し、そして第2の位置は、所与の音素に続く音素を示す。セノンは、同じ音素に対応する各形式のモデル(例えば、コンテクストに従属する・対・コンテクストとは独立した)に対し類似状態(例えば、状態1)内で分類される。この例では、コンテクストとは独立したHMMは、状態1、2及び3に各々対応するセノン10、55及び125を有する。
【0023】
図8は、上記に対応して、音素/aa/に対するコンテクストに従属するHMMを例示している。図8には、5つの異なる音素コンテクスト(115ないし119)において音素/aa/をモデリングする5つのコンテクスト従属のモデルがある。例えば、コンテクストに従属するモデル/aa/(/dh/,/b/)115は、コンテクストにおいて音素/aa/をモデリングし、ここでは、左の即ち先行する音素が/dh/であり、そして音素/b/がそれに続き、即ちその右側にある。セノンは、異なるHMMにおいて類似状態内で分類される。状態1において、コンテクストに従属する2つのセノンがあって、セノン14及び25で示されている。全体として、音素/aa/に対し、状態1では、コンテクストに従属する2つのセノン14及び35と、コンテクストとは独立した1つのセノン10があり、状態2では、コンテクストに従属する2つのセノン25及び85と、コンテクストとは独立した1つのセノン55があり、そして状態3では、コンテクストに従属する1つのセノン99と、コンテクストとは独立した1つのセノン125がある。
【0024】
従って、好ましい実施形態に使用される音素ベースの連続密度HMMは、次の数学的定義によって特徴付けることができる。
(1)Nは、モデルにおける状態の数であり、好ましくは、3つの状態が使用される。しかしながら、本発明は、3に限定されるものではなく、5のような数も使用できる。
(2)Mは、出力pdfにおける混合体の数である。
(3)A={aij}は、状態iから状態jまでの状態遷移確率分布である。
(4)B={bi (x)}は、出力確率分布、即ち状態iにあるときに特徴ベクトルxを放射する確率であり、但し、次の数1に示す通りであり、
【数1】
ここで、N(x,μk ,Vk )は、平均ベクトルμk 及び共変マトリクスVk により定められる多次元のガウス密度関数を表す。
混合成分の数Mは、通常、1から50までのいずれかであり、そして
ck は、状態iにおけるk番目の混合成分の重みである。
各状態iに関連した出力確率分布は、セノンsdi によって表され、そしてp(xi ,sdi )として表すことができる。
(5)π={πI }は、初期状態分布である。
便宜上、HMMのパラメータスペースとして知られたモデルの完全なパラメータセットを示すのに簡略表示∝=(A,B,π)が使用される。
【0025】
図2のステップ48において、セノン、コンテクスト従属のHMM及びコンテクストとは独立したHMMに対するパラメータが推定される。HMMのトレーニング段階は、トレーニングデータ、スピーチのテキスト22及びワードの発音スペルの辞書24を用いてこれらパラメータを推定することより成る。出力及び遷移の確率は、良く知られたバウム−ウェルチ(Baum-Welch)又は順方向−逆方向アルゴリズムによって推定することができる。バウム−ウェルチアルゴリズムは、トレーニングデータを良好に使用できるので好ましい。これは、ヒューン氏等の「スピーチ認識のためのヒドンマルコフモデル(Hidden Markov Models For Speech Recognition) 」、エジンバラ・ユニバーシティ・プレス、1990年に説明されている。しかしながら、本発明は、この特定のトレーニングアルゴリズムに限定されず、他のものを使用してもよい。通常、トレーニングデータにより約5回の繰り返しを行って、パラメータの良好な推定値を得ることができる。
【0026】
図2のステップ50において、各コンテクスト従属セノンの重み付け即ち補間ファクタが発生され、数学記号λにより表される。この重み付けファクタは、コンテクストとは独立したHMMの出力確率をコンテクスト従属のHMMの出力確率で補間するように使用される。これら重み付けファクタは、道のデータを予想する際にコンテクスト従属出力pdfの適切さを示すものである。出力pdfはトレーニングデータで推定され、トレーニングデータに類似するデータを厳密に予想する。しかしながら、各々の考えられる入力スピーチ発声を表すトレーニングデータ又は全ての未知のデータを正しく予想するに充分なトレーニングデータで出力PDFを推定することは不可能である。重み付けファクタの役割は、コンテクスト従属のモデル及びコンテクストとは独立したモデルを推定するのに使用されるトレーニングデータの関数であるところの未知のデータを予想するための出力pdfの適切さを指示することである。コンテクスト従属のモデルに対するトレーニングデータの量が多くなると、λは1.0に近づき、出力pdfは大きな重みにされる。コンテクスト従属のモデルに対するトレーニングデータの量が少ない場合には、λが0.0に近づき、出力pdfはあまり重みが置かれない。各コンテクスト従属のセノンに対するλの最適値は、削除補間によって決定される。
【0027】
簡単に述べると、削除補間の技術は、トレーニングデータを2つの別々のセットに仕切る。その一方は、モデルのパラメータを推定するのに使用され、そして第2のセットは、出力pdfが未知のトレーニングデータをいかに良好に予想できるかを指示するための重み付けファクタを決定するのに使用される。このプロセスは反復的であり、各繰り返すにおいて、異なるセットが回転され、そして新たなモデル及び重み付けファクタが形成される。全ての繰り返しの終わりに、重み付けファクタの平均値が計算され、認識段階に使用される。
【0028】
図3ないし6は、重み付けファクタを計算するのに使用されるステップを示している。図3を参照すれば、ステップ60において、トレーニングデータは、K個のブロックに仕切られる。好ましくは、データのブロックは2つである。しかしながら、本発明は、このブロック数に限定されず、トレーニングデータの記憶量及びトレーニング時間の制約に基づいて他のブロック数も使用できる。
【0029】
重み付けファクタは、各コンテクスト従属のセノンに対して計算され(ステップ62)、これは、先ず、セノンテーブルを用いてsenSD(即ちコンテクスト従属セノン)に対応するコンテクストとは独立したセノンであるsenSIを見出すことにより行われる(ステップ63)。計算は、反復プロセスであるステップ64により導出され、このプロセスは、λnew で示されたλの新たな値の間の差が、あるスレッシュホールドに合致するときに収斂する。好ましくは、このプロセスは、|λ−λnew |<0.0001のときに収斂し即ち終了する。このプロセスは、λの初期値を選択することにより開始する(ステップ66)。最初に、セノンの第1の繰り返しの場合は、初期値はユーザにより予め選択される。好ましくは、初期値は、0.8の推定値である。他の全ての繰り返しに対し、初期値は、その前に計算された新たな値λ=λnew である。ステップ68において、プロセスはK回繰り返される。各繰り返しにおいて、1つのデータブロックが削除ブロックとして選択され、その選択される削除ブロックは、その前に選択されなかったものである(ステップ70)。
【0030】
次いで、プロセスは、削除ブロック以外の全てのブロックからのトレーニングデータを用いて、各々のコンテクスト従属(b1 で示す)及びコンテクスト独立(b2 で示す)セノンに対する出力確率を推定するように進められる(ステップ72)。これらのパラメータは、トレーニング段階におけるHMMのパラメータの推定値を参照して上記と同じ技術を用いて推定される(即ちバウム−ウェルチアルゴリズム)。
【0031】
次いで、ステップ74において、新たな値λnew が計算される。この計算は、「強制整列」に依存すると仮定する。トレーニング中に、ビタビアルゴリズムが使用される場合には、トレーニングデータの各特徴ベクトルを、特定のセノンで識別することができる。このマッピング、即ちセノンを伴うベクトルは、「強制整列」として知られている。λnew は、次の数2の数学的定義に基づいて計算される。
【数2】
但し、Nは、強制整列を用いたセノンsenSDに対応する削除ブロックにおけるデータ点又は特徴ベクトルの数;
xi は、特徴ベクトルi、1≦i≦N;
b1 (xi )は、上記数1の式で定められたコンテクスト従属の出力pdf;b2 (xi )は、上記数1の式で定められたコンテクストとは独立した出力pdf;そして
λ*b1 (xi )+(1−λ)*b2 (xi )は、全確率と称される。
【0032】
λnew の値は、K回の繰り返しの各々に対して決定される。K回の全ての繰り返しの完了時に、ステップ76において、平均値が計算され、これは、次の数3の式で表される。
【数3】
但し、jは、削除ブロックのインデックス;
Kは、ブロックの数;
λj new は、削除ブロックを用いたλの推定値;そして
Nj は、強制整列を用いたsenSDに対応する削除ブロックjにおける点の数である。
【0033】
ステップ66ないし76は、λnew の値が規定のスレッシュホールドに合致しない場合には再び実行される。特定のコンテクスト従属のセノンに対してプロセスが収斂すると、λnew の現在値が特定のコンテクスト従属のセノンに対してラムダテーブル26に記憶される。
【0034】
図4は、上記数2及び数3の式に基づき重み付けファクタも新たな値λnew を計算するのに使用されるステップのフローチャートである。新たな値は、削除ブロックの各データ点の全確率に対するコンテクスト従属出力pdfの作用を加算することにより計算される。従って、ステップ79において、senSDに対応する削除ブロックの全ての点が、ステップ48で形成されたモデル及び強制整列を用いて見出される。ステップ80において、senSDと整列された削除ブロックにおける各データ点xi に対してプロセスが繰り返される。全確率に対するデータ点xi のコンテクスト従属出力pdfの作用は、次の数4の式に基づいてステップ82において決定される。
【数4】
【0035】
このようにして計算された全てのデータ点の作用の和がステップ84において合計される。繰り返しの完了時に、senSDと整列された削除ブロックの全てのデータ点が処理されたときに、上記数2の式に基づいて作用の平均値λnew が計算される(ステップ86)。
【0036】
重み付けファクタの上記計算は、削除ブロックのデータ点を使用するものである。これは、より正確な計算をもたらすが、計算を行うためにトレーニングエンジンに必要とされる記憶量及びトレーニング時間を増大する。ある場合には、対応する削除ブロックのデータ点のパラメータ表示を発生しそして適当なパラメータを使用するのが更に効果的となる。更に別のやり方としては、senSDに対するデータ点のパラメータ表示から再構成されたデータ点を使用することである。これらの別のやり方は、データ点のおおまかな近似を与えるが、計算効率という点で利点がある。
【0037】
図5及び6は、重み付けファクタを計算するためのこれらの別の実施形態を示している。図5は、第1の別の実施形態を示す。図5を参照すれば、削除ブロックのデータ点に対するパラメータ表示がステップ90に示すように発生される。この場合に、パラメータ表示は、ガウスの混合体となる。この表示は、上記のバウム−ウェルチアルゴリズムを用いて形成することができる。発生されるパラメータは、各々の混合成分jに対し、平均値、μj 及び重みcj を含む。ラムダの新たな値λnew の計算は、削除ブロックμj に対し、次の数5の式に基づいて行うことができる。
【数5】
但し、Mは、通常の混合成分の数;
cj は、j番目の通常混合成分の重み;
ここで、数6であることに注意されたい。
【数6】
μj は、j番目の通常混合成分の平均値である。
【0038】
ステップ92ないし98は、この計算を次のように行う。ステップ92は、各混合に対して繰り返され、対応する平均及び重み付けパラメータを有する混合に対し、全確率に対するコンテクスト従属出力確率の作用を決定する。混合成分に対して、これは、次の数7の式で表される。
【数7】
【0039】
ステップ96において、全ての混合成分に対しこれら作用の和が形成される。ステップ98において、ステップ96から生じる最終的な和が、現在senSD及び削除ブロックに対してλnew の値として記憶される。
【0040】
図3を参照すれば、K回の繰り返しの完了時に、プロセスは、ステップ76において、上記数3の式に基づきλnew の平均値を計算するように進められる。このプロセスは、図3について述べたように、プロセスが収斂し、そして現在平均値λnew が特定のコンテクスト従属セノンに対してラムダテーブル26に記憶されるまで、続けられる。
【0041】
重み付けファクタを計算する第2の別の実施形態においては、セノンのパラメータ表示からランダムに発生される選択数のデータ点が使用される。図6は、この第2の別の実施形態を示し、これは、上記数2の式に基づき削除ブロックに対して数学的に表すことができるが、{xi }は発生されたデータ点でありそしてNは発生されたデータ点の数である。
【0042】
この別の実施形態は、図3に示す好ましい実施形態とは、新たな値λnew の決定(ステップ74)について異なる。流れシーケンスは、図3に示すように保たれる。図6を参照すれば、ステップ100において、削除ブロックのデータ点に対しパラメータ表示が発生される。パラメータ表示は、ガウスの混合体で構成することができる。このパラメータ表示は、削除ブロックのトレーニングデータに対しバウム−ウェルチアルゴリズムを用いて導出することができる。このパラメータ表示から、ステップ102に示すように、平均及び重み付けパラメータと共にランダム数発生器を用いて規定数のデータ点が再構成される。再構成されるデータ点の数は、λnew の所望の精度と計算要件との間で妥協される。データ点の数が多いと、λnew の精度は改善されるが、必要な計算量が多くなる。混合体当たりの再構成データ点の適当な数は、100である。
【0043】
ステップ104においては、セットの各データ点に対してステップ106及び108が実行される。ステップ106において、データ点の全確率に対するコンテクスト従属出力確率の作用が決定される。これは、次の数8の式で表すことができる。
【数8】
ステップ108においては、これら作用の和が、セットの全てのデータ点に対して形成される。セットの全てのデータ点を経て繰り返すが完了すると、全ての作用の平均値がλnew の値として返送される(ステップ110)。図3を参照すれば、K回の繰り返しの完了時に、プロセスは、ステップ76において、上記数3の式に基づきλnew の平均値を計算するように進められる。このプロセスは、図3について上記したように、プロセスが収斂し、そして現在平均値λnew が特定のコンテクスト従属セノンに対してラムダテーブル26に記憶されるまで、続けられる。
【0044】
トレーニングデータが発生されて適当な記憶位置に記憶されると、認識システムは、実行の準備ができる。スピーチ認識システムの主たるタスクは、入力スピーチ信号に含まれた言語メッセージを検出することである。このタスクは、特徴ベクトルのシーケンスを音素のシーケンスに一致させ、音素のシーケンスをワードのシーケンスに一致させ、そしてワードのシーケンスをセンテンスに一致させることを必要とするので、多レベルデコードの問題である。これは、モデリングされた全ての考えられる言語表現を形成し、そしてその表現が特徴ベクトルのシーケンスに一致する確率を計算することにより行われる。言語表現は、音素のシーケンスで構成されるので、その表現を形成する音素が特徴ベクトルに一致しそしてその表現がおそらく生じる(即ち文法的に正しい)であろう見込みを計算することが決定に含まれる。表現を形成する音素が特徴ベクトルに一致する確率はアコースティックスコアと称され、そしてその表現が生じ得る確率は言語スコアと称される。言語スコアは、言語の文法のような言語の構文及び意味を考慮し、音素のシーケンスに対応するワードのシーケンスが文法的に正しい言語表現を形成するかどうか指示する。
【0045】
好ましい実施形態では、音素がHMMにより表され、この場合に、同様の状態の出力pdfがクラスター化されてセノンを形成する。従って、特徴ベクトルを音素に一致させるプロセスは、音素を表すHMMの状態に関連したセノンに特徴ベクトルを一致させることを含む。従って、言語表現は、一連のHMMの状態に対応するセノンで構成することができる。
【0046】
本発明の好ましい実施形態では、認識エンジンのタスクは、確率P(W/X)を最大にするワードシーケンスWを見つけることである。確率P(W/X)は、入力スピーチ信号Xが与えられた場合に言語表現Wが生じる確率を表す。Wは、W=w1 、w2 ・・・wn として示されたワードストリングであり、但し、wi は個々のワードを表し、各ワードは一連の音素により表され、wi =p1 、p2 ・・・pq 、そしてXは一連の特徴ベクトルにより表された入力スピーチ信号であり、X=x1 、x2 ・・・xn として示される。この最大化の問題は、次の数9の式で表される良く知られたベイズの式の変形を用いて解決できる。
【数9】
P(W/X)=(P(X/W)P(W)/P(X)
P(X/W)は、入力スピーチ信号XがワードストリングWに一致する確率であり、アコースティックスコアと称される。P(W)は、ワードストリングWが生じる確率であり、言語スコアと称される。P(X)は、Wとは独立であるから、P(W/X)を最大にすることは、全てのワードシーケンスWに対して分子即ちP(X/W)P(W)を最大にすることに等しい。
【0047】
認識タスクは、最良の一致を決定する試みにおいて種々のワードシーケンスを考慮する。認識タスクにより考慮される各ワードシーケンスに対して、アコースティックスコア及び言語スコアが計算される。言語スコアは、ワードシーケンスが言語においてどれほど生じるかを示すもので、上記数9の式のP(W)項により指示される。アコースティックスコアは、一連のアコースティックベクトル特徴がワードシーケンスWに対するアコースティックモデルにいかに良好に一致するかを指示する。アコースティックスコアは、上記式のP(X/W)項により指示される。
【0048】
所与のワードシーケンスに対してアコースティックスコアを計算する際に、認識タスクは、種々のセノン整列を考慮する。セノン整列は、アコースティック特徴ベクトルのシーケンスからセノンへのマッピングであって、各アコースティック特徴ベクトルに独特のセノンを指定するものである。当該ワードシーケンスを生じるセノン整列のみが認識タスクによって考慮される。各セノン整列の制約のもとにあるワードシーケンスに対するアコースティックスコアが計算される。ワードシーケンスのアコースティックスコアは、全ての考えられるセノン整列にわたる最良のアコースティックスコアである。
【0049】
これは、数学的には、i=1ないしqに対して、次の数10の式で表すことができる。
【数10】
P(X/W)=Max〔P(X/(W,Ai ))〕
但し、A1 ・・・Aq は、ワードシーケンスWに対して考えられる全てのセノン整列である。
【0050】
所与のセノン整列Aの制約のもとにあるワードシーケンスWに対するアコースティックスコアの計算は、更に、次の数11の式で表される。
【数11】
但し、セノン整列Aは、コンテクスト従属のセノンsdi に対してi番目のアコースティック特徴ベクトルxi を整列し即ちマップする。P(A)は、セノンシーケンスsdi ・・・sdn の状態遷移確率を表す。P(xi /sdi )は、特徴ベクトルxi がコンテクスト従属のセノンsdi に一致する確率を表す。
【0051】
アコースティックスコアの重要性は、出力確率p(x|sd)の計算にある。これは、特徴ベクトルxが、コンテクスト従属のHMM状態に対応するセノンsdに一致する見込みを表す。しかしながら、充分に推定されない出力pdfは、アコースティックスコアの計算に不正確さを招く。これは、通常は、トレーニングデータの不充分さによって生じる。分布の健全さは、出力pdfを推定するためにより多くのトレーニングデータを使用するのに伴って増大する。
【0052】
この問題を緩和する1つの方法は、同じ音素を多数の詳細さレベルでモデリングする多数のHMMを使用することである。従って、種々の詳細さレベルの出力pdfを使用しそしてそれらを合成することにより特定の状態に対する出力pdfを構成することができる。この合成は、トレーニング中に見られなかったデータを予想する能力に基づいて行われる。そのような未知のデータの予想に適した健全な出力pdfは、大きな重みを受け取るが、充分に推定されない出力pdfは、合成された出力pdfにおいて小さな重みを受け取る。好ましい実施形態では、多数のコンテクスト従属のHMM及びコンテクストとは独立したHMMを用いて、音素がモデリングされる。トレーニング段階において既に計算されたコンテクスト従属状態に対応する各セノンの重み付けファクタλを用いて、各セノンに与えられる重みが指示される。λが大きい(1.0に近い)ほど、コンテクスト従属のセノンが優勢となり、コンテクストとは独立したセノンの重みは小さくなる。λが小さい(0.0に近い)ときには、コンテクストとは独立したセノンが優勢となる。従って、出力確率p(x|sd)の計算は、次の数12の式で表すことができる。
【数12】
p(x|sd)=λ*p(x|sdd )+(1−λ)*p(x|sdi )
但し、λは、セノンsdに対する重み付けファクタで、0ないし1であり;
xは、特徴ベクトルであり、
sdd は、コンテクスト従属のHMMの状態に関連したセノンであり、
sdi は、コンテクストとは独立したHMMの対応状態に関連したセノンであり、
p(x|sdd )は、特徴ベクトルxがセノンsdd に一致する確率であり、そして
p(x|sdi )は、特徴ベクトルxがセノンsdi に一致する確率である。
【0053】
従って、出力確率p(x|sd)は、コンテクスト従属のセノン及びコンテクストとは独立したセノンの出力確率の関数として直線的に補間される。重み付けファクタ即ち補間ファクタλは、各セノンが補間される程度を示す。
【0054】
図9はスピーチ認識方法の動作を示す。図9を参照すれば、この方法は、入力スピーチ発声を受け取ることにより開始され(ステップ122)、これは、図1を参照して既に述べたように、特徴ベクトルに変換される(ステップ124)。ステップ126において、この方法は、入力スピーチ発声を表すことのできる各ワードシーケンスに対しステップ128ないし136を実行する。ワードシーケンスは、種々の異なるセノンシーケンスで構成することができ、この場合に、各セノン整列は、HMM状態のシーケンスに対応する。ステップ128ないし134において、ワードシーケンスを表すことのできる各考えられるセノン整列に対する合成認識スコアが決定される。合成認識スコアは、上記数9の変形ベイズ式に基づいて決定することができる。合成認識スコアは、アコースティックスコア及び言語スコアで構成される。アコースティックスコアは、ステップ130で決定され、言語スコアは、ステップ132で決定され、そして合成スコアは、ステップ134で計算される。最も高い合成認識スコアを有するセノン整列が、ワードシーケンスを表すように選択される(ステップ136)。ステップ138において、この方法は、入力スピーチ発声を、最も高い合成認識スコアを有するワードシーケンスとして認識する。
【0055】
ステップ130において、アコースティックスコアは、数11の式に基づいて上記のように決定することができ、この場合に、出力確率は、数12の式で上記のように計算される。
【0056】
ステップ132において、この方法は、言語モデル記憶装置32に記憶された言語表現を表す言語モデルに基づいて言語スコアを計算する。言語モデルは、言語の構造及び意味の知識を利用し、既に発声されたワードを考慮してワードの発生する見込みを予想する。言語モデルは、言語スコアが、あるワードの後に特定の第2のワードが続く確率に基づくというバイグラム言語モデルである。或いは又、言語モデルは、バイグラム以外のNグラムに基づいてもよいし、サブワード言語確率に各々基づいてもよい。更に、構文及び文法ルールのような他の語彙知識を用いて、言語モデルを形成することもできる。言語モデルを形成及び使用する方法は、公知であり、上記したヒューン氏等の文献に詳細に説明されている。
【0057】
以上に説明したように、本発明は、異なるコンテクストにおける同じスピーチ事象に対応する多数の連続密度出力確率を用いることによりスピーチ認識システムの認識能力を改善する。これは、モデルがトレーニングされなかったスピーチ事象を予想するモデルの性能を改善するので、ヒドンマルコフモデルへの特徴ベクトルのマッピングを改善する。このレベルの改善は、このレベルのマッピングが、認識プロセスを更に構築する基礎であるから、非常に有効である。
【0058】
しかしながら、本発明は、スピーチ認識システムに限定されるものではない。スピーチ発声を言語表現へとマッピングする必要のあるいかなる用途も、本発明を利用することができる。スピーチ発声は、いかなる形式のアコースティックデータでもよく、例えば、サウンド、スピーチ波形等でよいが、これに限定されるものではない。このような用途の例は、確率モデルを使用して、言語表現を表すテキストストリングからスピーチ波形を発生するスピーチ合成システムである。
【0059】
本発明の好ましい実施形態を以上に詳細に述べたが、これは、単に本発明を例示するものに過ぎず、当業者であれば、上記装置に変更を必要とする種々の異なる用途に本発明を応用できるであろうことを強調しておく。
【図面の簡単な説明】
【図1】好ましい実施形態に使用されるスピーチ認識システムのブロック図である。
【図2】図1のシステムに使用されるトレーニング方法のフローチャートである。
【図3】図1のシステムに使用される重み付けファクタを計算する方法のフローチャートである。
【図4】図3のシステムに使用されるラムダの新しい値を計算するための好ましい実施形態のフローチャートである。
【図5】図3のシステムに使用されるラムダの新しい値を計算するための第1の別の実施形態を示すフローチャートである。
【図6】図3のシステムに使用されるラムダの新しい値を計算するための第2の別の実施形態を示すフローチャートである。
【図7】音素に関連したヒドンマルコフモデル及びセノン構造体を例示する図である。
【図8】音素に関連したヒドンマルコフモデル及びセノン構造体を例示する図である。
【図9】図1のシステムに使用されるスピーチ認識方法のフローチャートである。
Claims (18)
- 入力スピーチ発声を言語表現と一致させるためのコンピュータシステムにおける方法であって、
スピーチの複数の発音ユニットの各々に対し、その発音ユニットを表す複数のより詳細なアコースティックモデル及びあまり詳細でないアコースティックモデルを用意し、各々のアコースティックモデルは、複数の状態と、それに続く複数の遷移とを有し、各々の状態は、ある時点で発音ユニットに生じるスピーチ発声の一部分を表し、そして入力スピーチ発声の一部分がある時点で発音ユニットに生じる見込みを指示する出力確率を有し、
入力スピーチ発声に一致しそうな複数の言語表現を表す、より詳細なアコースティックモデルのシーケンスを選択し、
より詳細なアコースティックモデルのその選択シーケンスの各々に対し、入力スピーチ発生がそのシーケンスにいかに密接に一致するかを決定し、その一致は、更に、より詳細なアコースティックモデルの選択シーケンスの各状態に対し、その状態と、同じ発音ユニットを表すあまり詳細でないアコースティックモデルの同じ状態との出力確率の組み合わせとして累積出力確率を決定する段階を含み、そして
入力スピーチ発声に最も良く一致するシーケンスであって言語表現を表すシーケンスを決定する、
という段階を備えたことを特徴とする方法。 - 各々のアコースティックモデルは、連続密度ヒドンマルコフモデルである請求項1に記載の方法。
- 出力確率を決定する上記段階は、更に、あまり詳細でないモデル及びより詳細なモデルの出力確率をその組み合わせ時に個別の重み付けファクタで重み付けする段階を備えた請求項1または2に記載の方法。
- 複数のより詳細なアコースティックモデルを用意する上記段階は、更に、スピーチ発生のある量のトレーニングデータを用いて各アコースティックモデルをトレーニングする段階を含み、そして
出力確率を決定する上記段階は、更に、あまり詳細でないモデル及びより詳細なモデルの出力確率を、各アコースティックモデルのトレーニングに用いたトレーニングデータの量に対して重み付けする段階を含む請求項1乃至3のいずれかに記載の方法。 - 上記入力スピーチ発声は、所与の時間インターバル中の発声のアコースティック特性を指示する複数の特徴ベクトルより成り、そして言語表現は、アコースティック特性がその言語表現内の位置に生じる出力確率を指示する複数のセノンより成り、上記方法は、
コンテクストに従属する複数のセノンを用意し、
上記コンテクストに従属する複数のセノンに関連され、言語表現の同じ位置を表すコンテクストとは独立したセノンを用意し、
入力スピーチ発生におそらく一致する言語表現を用意し、
入力スピーチ発生の各特徴ベクトルに対し、その特徴ベクトルが、その特徴ベクトルと同じ時間インターバルに生じる言語表現の上記コンテクストに従属するセノンに一致する出力確率を決定し、この出力確率の決定は、上記コンテクストに従属するセノンに関連したコンテクストとは独立したセノンを使用し、そして
上記出力確率を使用して、入力スピーチ発生が言語表現に一致する見込みを決定する、
という段階を備えたことを特徴とする請求項1または2に記載の方法。 - 上記出力確率は、連続確率密度関数より成る請求項5に記載の方法。
- コンテクストに従属する複数のセノンを用意する上記の段階は、更に、スピーチ発声を表すある量のトレーニングデータから上記コンテクストに従属するセノンをトレーニングする段階を含み、
コンテクストとは独立したセノンを用意する上記段階は、更に、コンテクストとは独立したセノンをある量のトレーニングデータからトレーニングする段階を含み、そして
出力確率を決定する上記段階は、更に、コンテクストとは独立したセノン及びコンテクスト従属するセノンを、これらのセノンをトレーニングするのに用いた上記量のトレーニングデータに基づいて組み合わせる段階を含む請求項5または6に記載の方法。 - コンテクストに従属する複数のセノンを用意する上記の段階は、更に、
スピーチ発声を表すある量のトレーニングデータからコンテクストに従属するセノンをトレーニングし、そして
セノンを推定するのに使用される上記量のトレーニングデータを表す各々のコンテクストに従属するセノンに対して重み付けファクタを用意する段階を備え、そして
出力確率を決定する上記段階は、更に、コンテクストに従属するセノン及びコンテクストとは独立したセノンを上記重み付けファクタに基づいて組み合わせる段階を含む請求項5に記載の方法。 - 重み付けファクタを用意する上記段階は、更に、上記量のトレーニングデータに対して削除補間技術を使用することにより重み付けファクタを発生する段階を含む請求項8に記載の方法。
- 重み付けファクタを用意する上記段階は、更に、
トレーニングデータのパラメータ表示を発生し、そして
上記量のトレーニングデータのパラメータ表示に削除補間技術を適用することにより重み付けファクタを発生する段階を含む請求項8に記載の方法。 - 重み付けファクタを用意する上記段階は、更に、
トレーニングデータのパラメータ表示を発生し、
トレーニングデータのパラメータ表示から、トレーニングデータを表す1組のデータ点を形成し、そして
上記データ点に削除補間を適用することにより重み付けファクタを発生するという段階を含む請求項8に記載の方法。 - 入力スピーチ発声を言語表現に一致させるコンピュータシステムにおいて、
スピーチの発音ユニットを各々表す複数のコンテクスト従属の及びコンテクスト独立のアコースティックモデルを記憶するための記憶装置を備え、各発音ユニットを表す複数のコンテクスト従属のアコースティックモデルは、スピーチの発音ユニットを表す少なくとも1つの関連するコンテクスト独立のアコースティックモデルを有し、各アコースティックモデルは、遷移を有する状態を含み、各々の状態は、ある時点における発音ユニットの一部分を表すと共に、入力スピーチ発声の一部分がある時点に発音ユニットに生じる見込みを指示する出力確率を有し、
入力スピーチ発声におそらく一致する複数の言語表現を表すコンテクスト従属のアコースティックモデルの選択シーケンスを与えるモデルシーケンス発生器を更に備え、
上記モデルの各シーケンスが入力スピーチ発声にいかに良好に一致するかを決定するためのプロセッサを更に備え、このプロセッサは、シーケンスの各状態に対して累積出力確率を用いることにより入力スピーチ発声の一部分をシーケンスの状態に一致させ、累積出力確率は、コンテクスト従属のアコースティックモデルの各状態の出力確率をそれに関連したコンテクスト独立のアコースティックモデルの同じ状態の出力確率と合成したものを含み、そして
入力スピーチ発声に最も良く一致するシーケンスであって言語表現を表すシーケンスを決定するための比較器を更に備えたことを特徴とするコンピュータシステム。 - 各アコースティックモデルは、連続密度ヒドンマルコフモデルである請求項12に記載のシステム。
- スピーチ発声のある量のトレーニングデータを受け取り、そしてその量のトレーニングデータで各アコースティックモデルの各状態に対する出力確率を推定するためのトレーニング装置を更に備え、
上記プロセッサは、更に、各状態の累積出力確率を決定するための合成要素を備え、この合成要素は、各出力確率を推定するのに使用される上記量のトレーニングデータに対し、シーケンスの各状態の出力確率をそれに関連したコンテクスト独立のアコースティックモデルの同じ状態の出力確率と合成する請求項12または13に記載のシステム。 - スピーチ発声のある量のトレーニングデータを受け取り、上記量のトレーニングデータで各アコースティックモデルの各状態に対する出力確率を推定するためのトレーニング装置を更に備え、このトレーニング装置は、各コンテクスト従属のアコースティックモデルの各状態に対する重み付けファクタを発生し、これは、出力確率がトレーニングデータに存在しないスピーチ発声を予想できる程度を示すものであり、そして
上記プロセッサは、更に、状態の累積出力確率を決定するための合成要素を備え、この合成要素は、各状態の重み付けファクタに対し、シーケンスの各状態の出力確率を、それに関連したコンテクスト独立のアコースティックモデルの同じ状態の出力確率と合成する請求項12または13に記載のシステム。 - 上記重み付けファクタは、上記量のトレーニングデータに削除補間技術を適用することにより導出される請求項15に記載のシステム。
- 上記トレーニング装置は、更に、トレーニングデータのパラメータ表示を発生するためのパラメータ発生器を備え、そして
上記重み付けファクタは、上記量のトレーニングデータのパラメータ表示に削除補間技術を適用することにより導出される請求項15に記載のシステム。 - 上記トレーニング装置は、更に、
トレーニングデータのパラメータ表示を発生するためのパラメータ発生器と、
パラメータ表示から1組のデータ点を発生するためのデータ発生器とを備え、そして上記重み付けファクタは、上記1組のデータ点に削除補間技術を適用することにより導出される請求項15に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/655,273 US5937384A (en) | 1996-05-01 | 1996-05-01 | Method and system for speech recognition using continuous density hidden Markov models |
US08/655273 | 1996-05-01 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1063291A JPH1063291A (ja) | 1998-03-06 |
JP3933750B2 true JP3933750B2 (ja) | 2007-06-20 |
Family
ID=24628243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP14838597A Expired - Lifetime JP3933750B2 (ja) | 1996-05-01 | 1997-05-01 | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5937384A (ja) |
EP (1) | EP0805434B1 (ja) |
JP (1) | JP3933750B2 (ja) |
CN (1) | CN1112669C (ja) |
DE (1) | DE69719236T2 (ja) |
Families Citing this family (90)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6567778B1 (en) * | 1995-12-21 | 2003-05-20 | Nuance Communications | Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores |
US6807537B1 (en) * | 1997-12-04 | 2004-10-19 | Microsoft Corporation | Mixtures of Bayesian networks |
US6418431B1 (en) * | 1998-03-30 | 2002-07-09 | Microsoft Corporation | Information retrieval and speech recognition based on language models |
US6574597B1 (en) * | 1998-05-08 | 2003-06-03 | At&T Corp. | Fully expanded context-dependent networks for speech recognition |
WO2000019409A1 (en) * | 1998-09-29 | 2000-04-06 | Lernout & Hauspie Speech Products N.V. | Inter-word triphone models |
US6571210B2 (en) | 1998-11-13 | 2003-05-27 | Microsoft Corporation | Confidence measure system using a near-miss pattern |
US7082397B2 (en) | 1998-12-01 | 2006-07-25 | Nuance Communications, Inc. | System for and method of creating and browsing a voice web |
US6570964B1 (en) | 1999-04-16 | 2003-05-27 | Nuance Communications | Technique for recognizing telephone numbers and other spoken information embedded in voice messages stored in a voice messaging system |
US7058573B1 (en) | 1999-04-20 | 2006-06-06 | Nuance Communications Inc. | Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes |
US7181399B1 (en) * | 1999-05-19 | 2007-02-20 | At&T Corp. | Recognizing the numeric language in natural spoken dialogue |
US6539353B1 (en) * | 1999-10-12 | 2003-03-25 | Microsoft Corporation | Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition |
US6529866B1 (en) * | 1999-11-24 | 2003-03-04 | The United States Of America As Represented By The Secretary Of The Navy | Speech recognition system and associated methods |
US6751621B1 (en) * | 2000-01-27 | 2004-06-15 | Manning & Napier Information Services, Llc. | Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors |
US6633845B1 (en) * | 2000-04-07 | 2003-10-14 | Hewlett-Packard Development Company, L.P. | Music summarization system and method |
US6662158B1 (en) | 2000-04-27 | 2003-12-09 | Microsoft Corporation | Temporal pattern recognition method and apparatus utilizing segment and frame-based models |
US6629073B1 (en) * | 2000-04-27 | 2003-09-30 | Microsoft Corporation | Speech recognition method and apparatus utilizing multi-unit models |
US7912868B2 (en) * | 2000-05-02 | 2011-03-22 | Textwise Llc | Advertisement placement method and system using semantic analysis |
US6865528B1 (en) | 2000-06-01 | 2005-03-08 | Microsoft Corporation | Use of a unified language model |
US7031908B1 (en) | 2000-06-01 | 2006-04-18 | Microsoft Corporation | Creating a language model for a language processing system |
WO2002001549A1 (en) * | 2000-06-15 | 2002-01-03 | Intel Corporation | Speaker adaptation using weighted feedback |
US6684187B1 (en) | 2000-06-30 | 2004-01-27 | At&T Corp. | Method and system for preselection of suitable units for concatenative speech |
US6505158B1 (en) | 2000-07-05 | 2003-01-07 | At&T Corp. | Synthesis-based pre-selection of suitable units for concatenative speech |
US6728674B1 (en) | 2000-07-31 | 2004-04-27 | Intel Corporation | Method and system for training of a classifier |
US6999926B2 (en) * | 2000-11-16 | 2006-02-14 | International Business Machines Corporation | Unsupervised incremental adaptation using maximum likelihood spectral transformation |
EP1209659B1 (en) * | 2000-11-22 | 2005-10-05 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for text input utilizing speech recognition |
US7587321B2 (en) * | 2001-05-08 | 2009-09-08 | Intel Corporation | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system |
US6928409B2 (en) * | 2001-05-31 | 2005-08-09 | Freescale Semiconductor, Inc. | Speech recognition using polynomial expansion and hidden markov models |
ES2190342B1 (es) * | 2001-06-25 | 2004-11-16 | Universitat Pompeu Fabra | Metodo para identificacion de secuencias de audio. |
US7324945B2 (en) * | 2001-06-28 | 2008-01-29 | Sri International | Method of dynamically altering grammars in a memory efficient speech recognition system |
US8229753B2 (en) * | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
US7711570B2 (en) * | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
US20030115169A1 (en) * | 2001-12-17 | 2003-06-19 | Hongzhuan Ye | System and method for management of transcribed documents |
US6990445B2 (en) * | 2001-12-17 | 2006-01-24 | Xl8 Systems, Inc. | System and method for speech recognition and transcription |
US7050975B2 (en) * | 2002-07-23 | 2006-05-23 | Microsoft Corporation | Method of speech recognition using time-dependent interpolation and hidden dynamic value classes |
US7752045B2 (en) | 2002-10-07 | 2010-07-06 | Carnegie Mellon University | Systems and methods for comparing speech elements |
US7200559B2 (en) | 2003-05-29 | 2007-04-03 | Microsoft Corporation | Semantic object synchronous understanding implemented with speech application language tags |
US8301436B2 (en) * | 2003-05-29 | 2012-10-30 | Microsoft Corporation | Semantic object synchronous understanding for highly interactive interface |
US7650282B1 (en) * | 2003-07-23 | 2010-01-19 | Nexidia Inc. | Word spotting score normalization |
US7280967B2 (en) * | 2003-07-30 | 2007-10-09 | International Business Machines Corporation | Method for detecting misaligned phonetic units for a concatenative text-to-speech voice |
US8160883B2 (en) * | 2004-01-10 | 2012-04-17 | Microsoft Corporation | Focus tracking in dialogs |
US7406416B2 (en) | 2004-03-26 | 2008-07-29 | Microsoft Corporation | Representation of a deleted interpolation N-gram language model in ARPA standard format |
US7478038B2 (en) | 2004-03-31 | 2009-01-13 | Microsoft Corporation | Language model adaptation using semantic supervision |
WO2005112000A1 (fr) * | 2004-04-20 | 2005-11-24 | France Telecom | Procede et systeme de reconnaissance vocale par modelisation contextuelle d’unites vocales |
TWI276046B (en) * | 2005-02-18 | 2007-03-11 | Delta Electronics Inc | Distributed language processing system and method of transmitting medium information therefore |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
KR100845428B1 (ko) * | 2006-08-25 | 2008-07-10 | 한국전자통신연구원 | 휴대용 단말기의 음성 인식 시스템 |
US20080103772A1 (en) * | 2006-10-31 | 2008-05-01 | Duncan Bates | Character Prediction System |
JP4322934B2 (ja) * | 2007-03-28 | 2009-09-02 | 株式会社東芝 | 音声認識装置、方法およびプログラム |
US9129599B2 (en) * | 2007-10-18 | 2015-09-08 | Nuance Communications, Inc. | Automated tuning of speech recognition parameters |
US8639510B1 (en) * | 2007-12-24 | 2014-01-28 | Kai Yu | Acoustic scoring unit implemented on a single FPGA or ASIC |
US8352265B1 (en) | 2007-12-24 | 2013-01-08 | Edward Lin | Hardware implemented backend search engine for a high-rate speech recognition system |
US8463610B1 (en) | 2008-01-18 | 2013-06-11 | Patrick J. Bourke | Hardware-implemented scalable modular engine for low-power speech recognition |
US20100057452A1 (en) * | 2008-08-28 | 2010-03-04 | Microsoft Corporation | Speech interfaces |
US9484019B2 (en) * | 2008-11-19 | 2016-11-01 | At&T Intellectual Property I, L.P. | System and method for discriminative pronunciation modeling for voice search |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
DK2238899T3 (da) * | 2009-04-06 | 2017-01-02 | Gn Resound As | Effektiv bedømmelse af høreevne |
US8606578B2 (en) * | 2009-06-25 | 2013-12-10 | Intel Corporation | Method and apparatus for improving memory locality for real-time speech recognition |
JP2012108748A (ja) * | 2010-11-18 | 2012-06-07 | Sony Corp | データ処理装置、データ処理方法、およびプログラム |
US8688453B1 (en) * | 2011-02-28 | 2014-04-01 | Nuance Communications, Inc. | Intent mining via analysis of utterances |
CN102129860B (zh) * | 2011-04-07 | 2012-07-04 | 南京邮电大学 | 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法 |
US8972260B2 (en) * | 2011-04-20 | 2015-03-03 | Robert Bosch Gmbh | Speech recognition using multiple language models |
CN103650033B (zh) | 2011-06-30 | 2016-10-26 | 谷歌公司 | 使用可变长度语境的语音识别 |
US10339214B2 (en) * | 2011-11-04 | 2019-07-02 | International Business Machines Corporation | Structured term recognition |
US8924453B2 (en) * | 2011-12-19 | 2014-12-30 | Spansion Llc | Arithmetic logic unit architecture |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
US9224384B2 (en) * | 2012-06-06 | 2015-12-29 | Cypress Semiconductor Corporation | Histogram based pre-pruning scheme for active HMMS |
US9514739B2 (en) * | 2012-06-06 | 2016-12-06 | Cypress Semiconductor Corporation | Phoneme score accelerator |
US9508045B2 (en) * | 2012-08-17 | 2016-11-29 | Raytheon Company | Continuous-time baum-welch training |
US9336771B2 (en) * | 2012-11-01 | 2016-05-10 | Google Inc. | Speech recognition using non-parametric models |
US9240184B1 (en) | 2012-11-15 | 2016-01-19 | Google Inc. | Frame-level combination of deep neural network and gaussian mixture models |
KR101905827B1 (ko) * | 2013-06-26 | 2018-10-08 | 한국전자통신연구원 | 연속어 음성 인식 장치 및 방법 |
US9711148B1 (en) | 2013-07-18 | 2017-07-18 | Google Inc. | Dual model speaker identification |
GB2523353B (en) * | 2014-02-21 | 2017-03-01 | Jaguar Land Rover Ltd | System for use in a vehicle |
US10014007B2 (en) | 2014-05-28 | 2018-07-03 | Interactive Intelligence, Inc. | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system |
US10255903B2 (en) | 2014-05-28 | 2019-04-09 | Interactive Intelligence Group, Inc. | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system |
US9858922B2 (en) | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
US9299347B1 (en) | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
KR20180078252A (ko) * | 2015-10-06 | 2018-07-09 | 인터랙티브 인텔리전스 그룹, 인코포레이티드 | 성문 펄스 모델 기반 매개 변수식 음성 합성 시스템의 여기 신호 형성 방법 |
US10229672B1 (en) | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
KR102434604B1 (ko) * | 2016-01-05 | 2022-08-23 | 한국전자통신연구원 | 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법 |
US10665243B1 (en) * | 2016-11-11 | 2020-05-26 | Facebook Technologies, Llc | Subvocalized speech recognition |
US10706840B2 (en) | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
US11211065B2 (en) * | 2018-02-02 | 2021-12-28 | Genesys Telecommunications Laboratories, Inc. | System and method for automatic filtering of test utterance mismatches in automatic speech recognition systems |
US11783818B2 (en) * | 2020-05-06 | 2023-10-10 | Cypress Semiconductor Corporation | Two stage user customizable wake word detection |
CN113571094A (zh) * | 2021-02-03 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 一种口语发音评测方法、装置、设备及存储介质 |
CN116108391B (zh) * | 2023-04-12 | 2023-06-30 | 江西珉轩智能科技有限公司 | 一种基于无监督学习的人体姿态分类识别系统 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4587670A (en) * | 1982-10-15 | 1986-05-06 | At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
JPS62231993A (ja) * | 1986-03-25 | 1987-10-12 | インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン | 音声認識方法 |
US4866778A (en) * | 1986-08-11 | 1989-09-12 | Dragon Systems, Inc. | Interactive speech recognition apparatus |
US4817156A (en) * | 1987-08-10 | 1989-03-28 | International Business Machines Corporation | Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker |
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
US5268990A (en) * | 1991-01-31 | 1993-12-07 | Sri International | Method for recognizing speech using linguistically-motivated hidden Markov models |
US5267345A (en) * | 1992-02-10 | 1993-11-30 | International Business Machines Corporation | Speech recognition apparatus which predicts word classes from context and words from word classes |
US5293584A (en) * | 1992-05-21 | 1994-03-08 | International Business Machines Corporation | Speech recognition system for natural language translation |
US5333236A (en) * | 1992-09-10 | 1994-07-26 | International Business Machines Corporation | Speech recognizer having a speech coder for an acoustic match based on context-dependent speech-transition acoustic models |
EP0602296A1 (en) * | 1992-12-17 | 1994-06-22 | International Business Machines Corporation | Adaptive method for generating field dependant models for intelligent systems |
US5627939A (en) * | 1993-09-03 | 1997-05-06 | Microsoft Corporation | Speech recognition system and method employing data compression |
US5621859A (en) * | 1994-01-19 | 1997-04-15 | Bbn Corporation | Single tree method for grammar directed, very large vocabulary speech recognizer |
US5642519A (en) * | 1994-04-29 | 1997-06-24 | Sun Microsystems, Inc. | Speech interpreter with a unified grammer compiler |
JP3581401B2 (ja) * | 1994-10-07 | 2004-10-27 | キヤノン株式会社 | 音声認識方法 |
US5710866A (en) * | 1995-05-26 | 1998-01-20 | Microsoft Corporation | System and method for speech recognition using dynamically adjusted confidence measure |
-
1996
- 1996-05-01 US US08/655,273 patent/US5937384A/en not_active Expired - Lifetime
-
1997
- 1997-04-29 DE DE69719236T patent/DE69719236T2/de not_active Expired - Lifetime
- 1997-04-29 EP EP97107116A patent/EP0805434B1/en not_active Expired - Lifetime
- 1997-04-30 CN CN97114917A patent/CN1112669C/zh not_active Expired - Lifetime
- 1997-05-01 JP JP14838597A patent/JP3933750B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US5937384A (en) | 1999-08-10 |
EP0805434A3 (en) | 1998-08-26 |
EP0805434A2 (en) | 1997-11-05 |
EP0805434B1 (en) | 2003-02-26 |
CN1171592A (zh) | 1998-01-28 |
DE69719236T2 (de) | 2003-09-18 |
CN1112669C (zh) | 2003-06-25 |
DE69719236D1 (de) | 2003-04-03 |
JPH1063291A (ja) | 1998-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
JP4141495B2 (ja) | 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 | |
JP4274962B2 (ja) | 音声認識システム | |
JP4354653B2 (ja) | ピッチ追跡方法および装置 | |
JP2986792B2 (ja) | 話者正規化処理装置及び音声認識装置 | |
JP4195428B2 (ja) | 多数の音声特徴を利用する音声認識 | |
WO2022148176A1 (en) | Method, device, and computer program product for english pronunciation assessment | |
JPH04313034A (ja) | 合成音声生成方法及びテキスト音声合成装置 | |
KR20050082253A (ko) | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 | |
Uebel et al. | Improvements in linear transform based speaker adaptation | |
JP2001521193A (ja) | パラメータ共用音声認識方法及び装置 | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
Stuttle | A Gaussian mixture model spectral representation for speech recognition | |
JP4836076B2 (ja) | 音声認識システム及びコンピュータプログラム | |
Manasa et al. | Comparison of acoustical models of GMM-HMM based for speech recognition in Hindi using PocketSphinx | |
JP2662112B2 (ja) | 発声された単語のモデル化方法および装置 | |
JP2002342323A (ja) | 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体 | |
Liu et al. | Modeling partial pronunciation variations for spontaneous Mandarin speech recognition | |
Shen et al. | Automatic selection of phonetically distributed sentence sets for speaker adaptation with application to large vocabulary Mandarin speech recognition | |
JP2006227587A (ja) | 発音評定装置、およびプログラム | |
Liu et al. | Pronunciation modeling for spontaneous Mandarin speech recognition | |
Huang et al. | Speech-Based Interface for Visually Impaired Users | |
JP3754614B2 (ja) | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体 | |
Sajini et al. | Speaker independent text to speech for Malayalam | |
Bajo et al. | Rapid prototyping of a croatian large vocabulary continuous speech recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060818 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20061120 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20061124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070302 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070314 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110330 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110330 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120330 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130330 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140330 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |