JP3860613B2 - 音声信号中の発声単語列の認識方法及び装置 - Google Patents
音声信号中の発声単語列の認識方法及び装置 Download PDFInfo
- Publication number
- JP3860613B2 JP3860613B2 JP24487592A JP24487592A JP3860613B2 JP 3860613 B2 JP3860613 B2 JP 3860613B2 JP 24487592 A JP24487592 A JP 24487592A JP 24487592 A JP24487592 A JP 24487592A JP 3860613 B2 JP3860613 B2 JP 3860613B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- list
- tree
- score
- completed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 41
- 230000015654 memory Effects 0.000 claims description 66
- 238000012360 testing method Methods 0.000 claims description 32
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 12
- 230000005236 sound signal Effects 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 5
- 230000003252 repetitive effect Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 13
- 238000005215 recombination Methods 0.000 description 7
- 230000006798 recombination Effects 0.000 description 7
- 230000001427 coherent effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012419 revalidation Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Description
【産業上の利用分野】
本発明は、音声信号中の単語列を認識する方法に関するものであり、この方法は:
反復的な瞬時に前記音声信号をサンプリングして、一連のテスト信号を発生するステップと;
これらのテスト信号と種々の基準信号列との整合(マッチング)及びこの整合の得点付けを行い、これらの基準信号列は一組の基準信号列から選択し、各基準信号列が語彙の単語を表現し、
そして、完結した単語毎に、単語得点及び総合得点から成る単語結果を導出するステップを具えて、この総合得点は、前記単語得点及び言語モデル値から導出し、この言語モデル値は、前記完結した単語と均一長の完結した先行単語列(ストリング)との組合せに割り当て、そして、前記単語結果は、この単語列の最終単語へのインデックスも含み;
前記方法がさらに、以降のテスト信号に対して順次、前記整合及び得点付けを進めて、前記総合得点の最小値にもとづいて、前記音声信号を認識するステップを具えている。
【0002】
【従来の技術】
こうした方法は、ドイツ国特許DE−PS−3215868号より既知である。これは、非線形時間適応を伴う単一段の方法であり、複数単語内でのダイナミックプログラミング(動的計画法)及び最適な単語遷移の特定によって達成される。単語の終端(語尾)に達する毎に、語彙全体にわたる探索を続ける。このため探索空間が非常に大きくなり、10000単語あるいはそれ以上の語彙についての膨大な計算時間を必要となり、このため認識が低速になる。
【0003】
【発明が解決しようとする課題】
また、上記を改善した方法は、ドイツ国特許公開第DE−OS−3710507号より既知である。この方法では、すべての仮説をしきい値との通常の比較によって、探索空間を絶えず縮小していく。認識の信頼性向上は、例えば統計確率形式の、構文の相互関係を考慮に入れた言語モデルの使用によって達成することができる。上記比較に含める単語に、各単語の終端において新たに言語モデル値を加算して、この言語モデル値は、バイグラム言語モデルの場合には、始まったばかりの新たな単語と先行単語との組合せ、あるいはn−グラム言語モデルの場合には、始まったばかりの新たな単語とn−1個の先行単語との組合せに依存する。それにもかかわらず、平均的に語彙が大きければ、探索空間は語彙の大きさにほとんど直接依存して大きくなり、このため膨大な計算時間が必要になる。
【0004】
本発明の目的は、認識の信頼性を明らかに損なうことなしに、より高速に動作する、冒頭段落に記載した種類の方法を提供することにある。
【0005】
【課題を解決するための手段】
本発明によれば、この目的は、以下のことによって達成される:
前記語彙を、ルート(根)を有するツリー(木)の形に編成して、
ここで、このツリーのどのブランチ(枝)も、複数の基準信号を有し、そしてあらゆるブランチを音声要素に割り当てて、
語彙の各単語を、特定ブランチの接合点または端に割り当てて、
同時に完結した複数の単語毎に、前記ルートから始めて進めた得点付けの結果を、当該単語へのインデックスと共に別個に記憶しつつ、
これらの複数単語中に同一単語があれば、最小の前記総合得点を有するもののみを保持する。
【0006】
本発明は、語彙をツリー構造として編成することに基づくものである。語彙は、発音辞書とも称することができ、これは単語毎の発音を、発声音の列、あるいは音素列のように単語を分割した列として提供するものである。特にヨーロッパ言語の発音辞書は、非常に限られた数の音素のみで表現することができ、例えばドイツ語ではほぼ50音素である。多くの単語が同じ音素列で始まるので、発音辞書をツリーとして記憶すれば、各単語の音声表記を含む直接的な発音表よりも簡潔になり、この直接的な発音表は線形辞書と見ることができる。ツリー構造内の各ブランチは、例えば1つの音素に相当し、そして接合点またはブランチ端の少なくとも一部は単語の終端に相当する。そして、ツリーのルート(根)から、このような接合点またはブランチ端までの音素の列が、単語の音声表記を構成する。
【0007】
時間的に同期して横方向に探索する上述した方法は、各テスト信号を複数の基準信号と比較するステップを有し、従って、複数の部分仮説を準並列的に考慮しつつ継続するステップを有する。この方法を、ツリーの形に編成した音声表記に適用すれば、探索空間を明らかに低減し、従って、探索動作あるいは計算時間の明らかな低減を達成することができる。同じ語頭を有する単語を組み合わせることによって、単語のみをより簡潔に表現することは、探索空間をより小さくすることに直接結び付く。他の本質的な点は、すべての部分仮説を連続的にしきい値と比較して、このしきい値を超えれば部分仮説を終了するので、単語の最初2つの音素を先頭と考えれば、各単語の終端後に新たに始まる部分仮説の先頭を探索する探索動作の95%以上が解消されることである。従って、例えば12000単語の既知の線形辞書では、毎回24000の音素を処理しなければならないのに対し、本発明による語彙のツリー構造によれば、第1ブランチとして、即ちツリーの第1レベルには30音素のみが存在し、これに加えて第2レベルには約350の音素のみが存在する。
【0008】
ツリー構造では、統計n−グラム言語モデルを用いる際に、n≧2で既にツリーのコピーを作成すべきこと、即ち、バイグラム言語モデルに対して既にツリーのコピーを作成すべきことは、欠点であると考えられる。このことの理由は、ツリーのルートでは単語のアイデンティティ(正体)は未知であり、従って、言語モデルの評価は、単語の終端まで行うことができず、各部分仮説の先頭では行うことができないことにある。このことの結果は、語彙の大きさと共に探索空間が潜在的に増加する、ということである。実際には、しきい値との比較、及び、不都合な部分仮説を終了させることにより、少数のコピーが必要であるに過ぎないことが示されている。また、本願と同一優先日の特願平4−244874に記載の方法で、単語の終端で言語モデル評価を行うことも可能であり、この特許出願は参考文献として本明細書に含める。この方法は、最適な単語限界の特定近似値を用いるが、これにより生じる誤差は明らかな影響を与えない。この方法を使用する際には、バイグラム言語モデルの場合には、単語の終端毎に探索ツリーのコピーを作成する必要はない。
【0009】
しかし、探索空間が潜在的に大きくなるので、全体の認識手順は慎重に編成する必要がある。こうするために、あらゆる時点で有効なツリーおよびブランチを、本発明による特定方法でリストに配列する必要があり、これにより、探索動作および記憶空間の要求は、潜在的な探索空間の大きさとは本質的に無関係になる。
【0010】
本願と同一優先日の特願平4−244873に記載のように、音素レベルのルックアヘッドを実行すれば、探索空間のさらなる限定が可能になり、この特許出願は参考文献として本明細書に含める。このルックアヘッドの使用については、以下でより詳細に説明する。
【0011】
本発明によるリストの配列では、第1リストの各ラインに探索リストの表示を含めることが有効であり、これにより、探索リストの各リスト位置がツリーに属して、これらのリスト位置がコヒーレント領域を形成する、ということを簡単な方法で達成できる。さらに、補助リストの使用が有効であり、この補助リストには、第1リストのライン毎に、ツリーのアイデンティティ(正体)、即ち、ツリーの始まりの単語が存在し、各単語は、この単語に付随する第1リスト中のラインの表示を伴う。従って、これにより、実質的な探索動作なしに、この単語から始まるツリーが既に始まっているか否か、そして、このツリーがまだ有効であるか否かを確かめることができる。語彙ツリーのすべてのブランチが順番に番号付けされているものと仮定すれば、ブランチリスト中の各リスト位置が、有効なブランチについてはこのブランチの表示、例えばブランチ番号を含むことが好適である。この目的のためにも、補助リストの使用が有効であり、この補助リストは、ブランチ番号毎に、ブランチリストのどのリスト位置で、このブランチが有効であることについての表示を含む。
【0012】
ドイツ国特許DE−OS3711342号に記載のように音素を配列して、音素内の連続的な基準値が、少なくともセグメント毎に等しければ、探索リストは、個々の基準値毎に、リスト位置を1つだけ有すればよい。しかし、列の先頭についての得点及び表示は、各リスト位置に、状況毎に別個に含めなければならない。
【0013】
【実施例】
以下、本発明の実施例について図面を参照しながら詳細説明する。
語彙をツリーの形に編成する方法を説明するために、図1に、非常に少数の異なる音素をツリーとして編成したものに基づく簡略化した図を示し、このツリーは、接合点N0、N1、N2 ... 及びこれらの相互接続部、即ちブランチ1、2、3を具えている。各相互接続部は特定の音素を表わす。特定の音素は2つ以上の相互接続部に割り当てることができる。最初の接合点N0をルート(根)と考える。実際には、このルートから始まる音素数がずっと多い。接合点N0から始まる2つの音素1及び2が存在し、従って、本実施例で想定する語彙のすべての単語が、これらの音素から始まり、即ち、第1グループの単語が音素1を先頭に有し、残りの第2グループの単語が音素2を先頭に有する。音素1の終端である接合点N1から始まる、さらに2つの音素3及び4が存在し、即ち、前記第1グループのすべての単語において、音素1に音素3または音素4のいずれかが続く。音素2の終端である接合点N2から始まる3つの音素5、6及び7が存在し、即ち、前記第2グループの単語において、音素2には、音素5、音素6または音素7のいずれかが続き得る。さらに、3つの音素8、9及び10が接合点N3から始まり、即ち、このブランチに属する単語グループは、音素3に後続して、音素8、音素9または音素10のいずれかが存在する。なお、音素1〜10の一部は、音響的に互いに同一であり得る。即ち、これらの音素は同じ参照番号で表わすが、これらの音素は語彙ツリー内の異なる位置に存在するので、認識処理では、これらの音素を別個に処理しなければならない。
【0014】
ここでは、こうした語彙のツリー構造を、認識に利用可能な形で記憶しなければならない。このことは、例えば、図1bに示すリストの形で行うことができる。本実施例では、ツリー構造内の個々の音素は、ツリー内の位置に応じて連続的に番号付けされているものとする。従って、各音素番号にメモリフィールドを割り当てて、このメモリフィールドは図1bの各行として示し、行内の最初の位置には音素番号を示し、次の2つの位置には、最初の位置の音素に続き得る音素の最小及び最大の番号を示す。第1メモリフィールドには、音素1に対し音素3及び4が存在する。次の位置には、基準値Ra1、Ra2、等を記憶し、この記憶は、基準値を直接記憶するか、あるいはこれらの基準値を記憶し、そして認識処理中に生じる値を記憶する他のメモリまたはメモリ領域のアドレスの形で記憶する方法で行う。
【0015】
音素2に割り当てた2番目のメモリフィールドでは、この音素2に続く音素の最小番号5及び最大番号7をそれぞれ2番目及び3番目の位置に記憶して、ここでも、基準値Rb1、Rb2、等がこれに続くか、あるいはこれらの基準値用の他のメモリの、これらの基準値に対応するメモリ位置がこれに続く。
【0016】
音素3に割り当てた第3フィールドでも、音素3に後続する音素の最小及び最大の番号を、それぞれ第2及び第3位置に示し、そして単語番号W1を最後の位置に示し、この単語は、音素1及び3の列を示すことによって、接合点N3で終わる。接合点N1及びN2では、単語がまだ終わっていないものとする、というのは、自然言語には実際には、単一音素のみから成る単語が発生しないからである。従って、最初2つのメモリフィールドの右端位置には、これらの接合点に関連する単語がないことを示す情報が存在し、例えば、これらの位置には値0が存在する。
【0017】
同様に、音素4についての4行目には、2番目及び3番目の位置を、この音素に続く音素の番号用に確保し、ここでは簡単のため、これらの位置には値を入れておらず、そして、単語W2が接合点N4に関連するものとすれば、この単語は音素1及び4の列から成る。なお、図1aによる実際の語彙ツリーでは、さらなるレベル(図示せず)に多数のブランチ接合点が発生し、これらの接合点には、単語を割り当てることも割り当てないこともあり得る。
【0018】
認識処理では基本的に、3つの機能を区別することができ、これは線形辞書を用いる既知の認識処理と同様である。これら機能のうちの1つは制御であり、これは他の2つの機能の実行、中間結果の処理、及び音声信号の終端における結果の出力を制御する。第2の機能は音響的再結合に関するものであり、これは、条件または基準値の列のうち最も確からしい(有力な)ものを特定し、従って1つの単語内で最も確からしい(有力な)部分仮説を特定する。第3段階は、言語モデルの再結合(言語モデルとの付き合わせ)に関するものであり、これにより、最も確からしい(有力な)相互接続を特定する。この段階では、言語モデル値も考慮に入れる。しかし、音素を表わすブランチから成るツリーとして構成した語彙を用いるので、ここではブランチのつながり方も、音響的再結合中に特定する。新たなツリーの構成、あるいは既存のツリー構造の始点の再有効化は、言語モデルの再結合中に実行し、即ち、各々の場合に、ブランチの始点が語彙ツリーの第1レベルにあることは暗黙の了解である。従って、いずれの場合にも、探索プロセスの継続中には新たなブランチが、異なる条件及び仮定で含まれる。
【0019】
図2に、探索及び認識処理のスケジュールを詳細に示す。音響的な音声信号からマイクロフォンを通して取得した連続音声信号を、時間的に離散した走査値18の列の形で予備処理20に供給して、走査値18には時間インデックスi−2、i−1、i、i+1を与えて、予備処理20ではテスト信号の列を特定して、各テスト信号が、音声信号を区分した各部分を特徴付ける。これらのテスト信号を、ユニット22内の関連するメモリ24からの基準信号と比較して、この比較結果を得点として出力に供給する。
【0020】
これらの得点はブロック26において、ダイナミックプログラミング(動的計画法)による動的な時間適応に使用し、これにより新たな得点を形成する。これらの得点はブロック28に供給して、ここでしきい値と比較して、得点がしきい値を超える部分仮説は継続を中止する。さらに、ブロック28では、どの部分仮説が音素の終端に達したか否かを特定して、達している場合には、図1bに示すリストを参照して、継続すべき音素を特定する。これに加えて、達した音素の終端が同時に単語の終端を表わすか否かをテストする。単語の終端である場合には、関連する単語をこれに付随するデータと共に単語終端リスト30に書き込む。このリストは、言語モデルの再結合の段階への移行を表わす。終わっていない部分仮説のデータはブロック32に供給し、これらのデータは即ち、これらの部分仮説の始点、及びその後の音素へのつながりについての得点及び表示である。これにより、新たなツリー及びその第1音素が始まり、即ち、言語モデルの再結合に応じた新たな部分仮説が始まる。またこれにより、関連する得点、及び部分仮説の始点に関する表示が、ブロック28によって供給されるデータと共にブロック26に再び供給されて、次のテスト信号及びこのテスト信号から導出した得点を処理することができる。
【0021】
今度は、単語終端リスト30の内容をブロック34に供給して、言語モデルの再結合を行う。こうするために、まず各単語の得点に、関連する言語モデル値を加算する。同じ単語が2回以上発生する場合には、得点と言語モデル値を合計することによって求めた評価結果が最良である単語のみを継続させて、同じ単語が2回以上発生することは、異なる先行単語列(あるいは言語モデルに従う単語の組合せ)から始まる場合のみにあり得る。これらの単語は、一方では制御段36に転送して、結果リストに記憶して、他方では、これらの単語を用いてブロック32を制御して、上述したように、新たなツリー、従って新たな部分仮説を始める。
【0022】
処理中にはいくつかのリストを使用し、図3には、これらのうち最も重要なものを示し、相互関係の表示、及び個々のリスト位置のより正確な配置と共に示す。まず最初に、第1リストあるいはツリーリスト40が存在し、このリストは探索ツリー毎に、即ち同じ所から始まる部分仮説の集まり毎に、リスト位置LTを有する。リスト位置の最初の部分には、関連するツリーの識別子Tが存在し、このツリーは、バイグラム言語モデルを用いる際の先行単語を直接示すことができる。各リスト位置の2番目の部分には、ブランチリスト41のリスト位置に関する表示NLKが存在し、そして3番目の部分には、探索リスト42中のリスト位置に関する表示NLJが存在する。
【0023】
ブランチリスト41の各リスト位置は、有効なブランチ即ち音素に関連し、このブランチでは、この瞬時に探索処理が有効であり(効力を及ぼし)、このブランチの番号Kは、メモリ位置の最初の部分に与えられている。このメモリ位置の2番目及び3番目の部分は、それぞれ表示BLJ、ELJを含み、これらの表示はそれぞれ、探索リスト42中のリスト位置のコヒーレント領域の最初及び最後のリスト位置に関連する。このコヒーレント領域は、ブランチK内の有効な基準値用に確保し、その最初の部分は、音素K内の基準値の通し番号Jを含み、その2番目の部分は、それ以前の比較中に達した得点S、あるいは、あるブランチからの再出発時に与えられた得点Sを含み、さらに3番目の部分は、基準値列の先頭に関する表示Bを含み、この基準値列はいくつかの音素にまたがり得る。
【0024】
全体の処理の開始時に、即ち、音声信号が始まる前に、まず、認識すべき単語連鎖の先頭を表わすリスト位置を、ツリーリスト40に書き込むが、この位置には先行する単語を割り当てることができない。語彙ツリーの第1ブランチ、即ち、第1レベルを、このツリーについてのブランチリスト41に入れて、この第1ブランチに対応する基準値を、探索リスト42に入れる。
【0025】
連続するテスト信号毎に、基準値との比較により決まる得点を、探索リスト42のリスト位置にある関連する得点に加算して、新たな得点を求めて、これにより、毎回新たな最小得点が得られる。ツリーリスト40のすべての有効なリスト位置を連続的にアドレス指定して、個々の基準値をアドレス指定し、これらの基準値に対して、差分値(基準値との差)及び新たな得点が求められ、なお、この処理では、探索処理中には複数の探索ツリーが有効になる。ブランチリスト41の関連するリスト位置は、ツリーリストのリスト位置毎に連続的にアドレス指定して、このアドレス指定は必ず、始点のリスト位置から、あるいは前のツリーの最終リスト位置から開始する。結果として、ツリーリスト40の各リスト位置には、このリスト位置に対応する、ブランチリスト41の最後のリスト位置のみが表示される。従って、ブランチリストの各リスト位置は、関連する基準値を呼び出す。この呼び出し中には、探索リスト42のすべてのリスト位置において最小得点が同時に決まり、これらの最小得点からしきい値を求める。
【0026】
ツリーリスト40のすべての有効なリスト位置、従ってブランチリスト41のすべての有効なリスト位置も、このように処理して、こうしたアドレス指定処理を繰り返せば、これにより、探索リスト42中の差分を総計したものを再度、しきい値と比較することができる。得点がしきい値を超える基準値に対応するリスト位置は消去する。このことは、探索リスト42中の消去しないメモリ位置を、コヒーレント領域が再び生成されるようにシフトバックするという最も簡単な方法で行うことができる。場合によっては変更されているリスト位置は、ブランチリスト41の関連するリスト位置の2番目及び3番目の部分に入れる。
【0027】
この期間中に、探索リスト42中の最終の基準値が有効であり消去されておらず、かつ語彙中のある単語が、その瞬時に処理したブランチリスト41中のリスト位置に関連する音素の終端の属する場合には、この単語を単語終端リストに記憶して、単語終端リストの関連するリスト位置の最初の部分に示されているツリーのアイデンティティ(正体)と、探索リスト中の最終の基準値に関連するリスト位置の2番目及び3番目の部分に含まれる得点及び表示も共に記憶する。最後に、有効な基準値が存在するか否か、即ち、探索リスト42中のリスト位置のうちブランチリスト41中に関連するリスト位置をまだ有するものが消去されていないか否かをテストして、消去されていない場合には、このリスト位置の内容をブランチリスト41中に書き戻して、これにより、常時コヒーレント領域を維持する。
【0028】
最後に、探索リスト42中の2つの最終の基準値の一方が、ブランチリスト41中の前記書き戻しを行ったリスト位置に対して有効であるか否かをテストして、有効である場合には、語彙リストによって、どの音素が、ブランチリスト41中の前記リスト位置に表示された音素に続き得るかを確認して、ブランチリスト41及び探索リスト42中に、これらの音素に対応するリスト位置を用意する。また、この瞬時には、本願と同一優先日の特願平4−244873号に記載のルックアヘッドを実行することができる。この場合には、ブランチリスト41及び探索リスト42中には、ルックアヘッドが十分好ましい得点を生み出すような音素あるいは基準位置用のリスト位置のみ用意する。
【0029】
ブランチリスト41中の1つのリスト位置をこのように完全に処理すれば、ブランチリスト41中の次のリスト位置を呼び出すことができ、このリスト位置について、関連する基準値の得点を再びしきい値と比較する。
【0030】
ブランチリスト41中の複数リスト位置が形成するコヒーレント領域の最終リスト位置であって、ツリーリスト40の瞬時的なリスト位置が、この最終リスト位置の表示を含むものを処理すると、ツリーリスト40のこのリスト位置に対応するリスト位置が、ブランチリスト41中にまだ残っているか否かをテストする。残存する場合には、ツリーリスト40中の関連するリスト位置に再び書き戻しを行って、残存しない場合には、ツリーをもはやツリーリスト40に含めないことによって、ツリーを自動的に消去する。
【0031】
これに続いて、単語終端リストに対して、使用する言語モデルに依存する言語モデル値を、各単語と共に記憶している得点に加算する処理を施す。ここで、単語終端リスト中に、異なる先行単語から始まる同一単語が存在する場合には、最小の総合得点を有する単語以外のすべての単語を消去する。ここで残りの単語は結果リストに記憶し、記憶しているこれらの単語は、音声信号の終端で、仮説全体が最良であることの検証に利用可能である。これに加えて、必要ならば、ツリーリスト40中に、これらの単語用に新たなリスト位置を用意することができる。こうするために、まず、ツリーリスト40中の同じアイデンティティ(正体)を有するリスト位置、即ち、最初の部分に同一内容を有するリスト位置が既に存在するか否かをテストする。このテストをより迅速に行うために、ツリーリスト40中にリスト位置を入力するか、あるいは書き戻す毎に、リスト位置を補助リストに書き込み、この補助リストは、ツリーのアイデンティティ(正体)毎に、ツリーリスト40中のリスト位置を含む。結果として、特定のアイデンティティ(正体)を有するツリーが既に存在するか否か、そして存在する場合にはどこに存在するかのテストを、非常に迅速に行うことができる。
【0032】
単語終端リストの関連する単語に対する有効なツリーが、ツリーリスト40中に存在しなければ、ツリーリスト40中に、これらの単語用のリスト位置を新たに用意して、ツリーリスト40中に既に存在する語彙ツリー毎に、語彙ツリーの第1レベルの音素が既に存在していない限り、単語終端リストに従って、あるいは新たな音素として、ブランチリスト41中の新たなリスト位置にこれらの音素を与えて、そして、探索リスト42中には、第1レベルの音素の基準値用の対応するリスト位置を設けて、対応するデータを入力する。この時点でも、ルックアヘッドを考慮することができ、ここでは、ブランチリスト41中の、十分好適な得点を獲得した音素に対するリスト位置のみに入力を行う。
【0033】
ここで、次のテスト信号を処理することができる。最後のテスト信号を処理した後に、結果リストを走査して、この走査は、単語終端リスト中の単語のうち最良の評価結果を有するものから始めて、走査した結果の単語列を、出力即ち認識結果として提供する。
【0034】
上述した方法は特に、バイグラム言語モデルの使用に関係する。ユニグラム言語モデルを使用する場合には、テスト信号で終わる単語毎に別個に探索ツリーを作成する必要はなく、このため、ツリーリスト、従ってブランチリストも必要なくなるが、逆に、探索空間は明らかに縮小することができる。
【0035】
図4に、音声認識装置の簡略化したブロック図を示す。本実施例では、マイクロフォン110を通して得られた音声信号を装置112で前処理して、この前処理では特に、連続的な音声信号を区分した各部分について、スペクトル成分をデジタル化して、これにより、音声信号の各部分を表わす値の全体がテスト信号を形成する。ライン113に存在するこれらのテスト信号は認識装置120に供給する。認識装置120は、メモリ116に含まれる基準信号を用いて種々の仮説を構成する。最後に、認識装置120は、認識した単語列を、出力装置122、例えばディスプレイまたはプリンタに供給する。
【0036】
実際の認識用の認識装置120は、ドイツ国特許DE−OS−37 10 507号に従って構成することができる。探索中には、即ち、連続的なテスト信号の処理中には、この場合にはテスト信号及び基準信号から成る探索空間内で、複数の仮説を作り上げて、しきい値を超える好ましくない得点を有する仮説の継続を中止して、単語の終端となり得る所に達した際にいつも、さらに新たな単語に入る複数の仮説への分岐を開始して、これらの新たな単語は、言語モデルにもとづいて決定する。上記探索空間の使用については一般に、H. Ney他による論文"A data driven organization of the dynamic programming beam search for continuous speech recognition";1987年、 IEEE、 No. CH 2396-0/87/0000/0633に記載されている。
【0037】
探索中には、結果メモリ114に中間結果を書き込む。本実施例では、中間結果とは、探索中に終了する(単語の終端に達した)すべての単語のことであり、単語に関連する得点または得点へのインデックス、及び関連する先行単語へのインデックスを伴う。探索の継続は、1つ以上の最小得点の選択にもとづいて行う。探索の継続中に終了する連続単語に対するさらなる得点は、それ以前の得点を用いて決めることができ、これらの得点は、結果メモリ114から読み出して、装置120に供給することになる。この理由で、結果メモリ114と装置120との間の接続115は双方向である。前記さらなる得点は、終了した単語そのものの得点、及び結果メモリ114から読み出した得点から決まり、メモリ118からの、終了した単語とその直前の単語連鎖との組み合せに対する言語モデル値と共に増加する。この単語連鎖は、1単語(バイグラム)、2単語(トリグラム)等から成る。音声信号の終端において、装置120が、結果メモリからの最小の総合得点に基づいて、最高確率を有する単語列を特定する。
【図面の簡単な説明】
【図1a】 語彙のツリー構成を図式に示す図である。
【図1b】 認識に使用するリスト構造を示す図であり、語彙の構成をツリーとして表わす。
【図2】 認識処理のフローチャートである。
【図3】 本発明による方法で使用する最重要なリストの、構成及び相互関係を示す図である。
【図4】 本発明による装置のブロック図である。
【符号の説明】
1〜10 ブランチ(音素)
N0〜N4 接合点
18 走査値
20 予備処理
22 ユニット
24 メモリ
26 ブロック(動的時間適応)
28 ブロック(しきい値と比較)
30 単語終端リスト
32 ブロック
34 ブロック(言語モデル再結合)
36 制御段
40 ツリーリスト
41 ブランチリスト
42 探索リスト
110 マイクロフォン
112 前処理装置
113 ライン
114 結果メモリ
115 接続
116 メモリ
118 メモリ
120 認識装置
122 出力装置
Claims (9)
- 音声信号中の単語列を認識する方法であって、
当該単語列の認識方法は、
反復的な瞬時に前記音声信号をサンプリングして、一連のテスト信号を発生するステップと;
各々が、複数の基準信号を有すると共に1つの音素を表わす種々の基準信号列を用意するステップと、
前記テスト信号に対して、前記基準信号列が有する複数の基準信号の各々との相違度を計算する整合及び前記相違度を表わす得点を与える得点付けを、前記テスト信号単位で前記種々の基準信号列の各々について行うステップと、
1つの基準信号列について前記整合及び得点付けが完了したときに単語が完成したか否かを判定するステップと、
単語が完成する毎に、今回完成した単語について前記得点を合計した単語得点を求め、今回完成した単語と先に完成している単語列中の所定数の単語との組合せに対して割り当てられる言語モデル値を求め、今回完成した単語及び先に完成している単語列について前記単語得点及び前記言語モデル値を累計した総合得点を求めるステップと、
当該テスト信号に後続するテスト信号に対して、整合及び得点付けを行う前記ステップ、単語が完成したか否かを判定する前記ステップ、及び単語が完成する毎に単語得点、言語モデル値、及び総合得点を求める前記ステップを続行し、完成した複数の単語列の中から最小の前記総合得点を与える単語列を選択することに基づいて前記音声信号中の単語列を認識するステップとを具え、
さらに、
語彙をルート及び複数のツリーブランチを有する語彙ツリーとして構成し、ここで、1つのツリーブランチが1つの音素に割り当てられ、且つ、1つの単語が前記語彙ツリーの特定のツリーブランチ接合点または特定のツリーブランチ端に割り当てられ、
前記テスト信号単位の前記整合及び得点付けは、前記語彙ツリーに基づき、前記ルートから等距離にあるすべてのツリーブランチについて同時に行い、各ツリーブランチについて前記整合及び得点付けが完了したときに単語が完成したか否かを判定し、
完成した単語の各々について、別個に、前記ルートから始めて進めた前記整合及び得点付けの結果を当該単語の記憶場所を表わすインデックスと一緒に記憶し、
前記ルートから等距離にあるすべてのツリーブランチについて行った前記整合及び得点付けにおいて完成した複数の単語の中に、同一の単語がある場合には、最小の前記総合得点を与える単語をのみを保持する単語列の認識方法。 - 前記記憶するステップは、可変数のラインを有する第1リストを中間的に記憶することによって実行し、前記ラインの各々が、第1メモリの新たな部分のアドレスを表わすインデックス、及び前記完成した単語の記憶場所を表わすインデックスを含むことを特徴とする請求項1に記載の方法。
- 前記第1メモリの前記新たな部分の各々が複数のメモリ位置を具え、該メモリ位置の各々が、前記語彙ツリー内の前記基準信号の記憶場所を表わすインデックス及びそれぞれの得点の記憶場所を表わすインデックスを含むことを特徴とする請求項2に記載の方法。
- 前記テスト信号の各々に対する、前記基準信号との前記整合及び得点付けを行って新たに得られた得点を、前記第1メモリ中の所定割り当て部分のすべてのメモリ位置に記憶し、最小得点を特定した後に、すべての前記得点を、前記最小得点から導出した第1しきい値と比較して、前記第1しきい値を超える得点を有する前記メモリ位置をすべて消去することを特徴とする請求項1〜3のいずれかに記載の方法。
- 前記第1リスト中にある、前記第1メモリの前記新たな部分のアドレスを表わすインデックスの各々は、ブランチリスト中の複数のメモリ位置のアドレスを表わすインデックスを含み、
前記メモリ位置の各々が、探索リスト中の複数のメモリ位置のアドレスを表わすインデックスを含み、
前記探索リスト中の各メモリ位置が、次のテスト信号との前記整合及び得点付けに使用すべき少なくとも1つの基準信号の記憶場所を表わすインデックスと、
前記先に完成している単語列の最終単語及び当該最終単語の単語得点の記憶場所を表わすインデックスとを含み、
前記探索リスト中の各メモリ位置が、前記第1リスト及び前記ブランチリストのみを経由してアドレス指定されることを特徴とする請求項2〜4のいずれかに記載の方法。 - 前記テスト信号毎に前記整合及び得点付けを実行した後に、前記探索リストのすべてのメモリ位置を読み出して、前記メモリ位置の各々に対応するそれぞれの得点を前記第1しきい値と比較して、前記探索リスト中のメモリ位置のうち、当該メモリ位置に対応する得点が前記第1しきい値を超えないメモリ位置のみに、前記読み出した値を書き戻して、
前記ブランチリストのメモリ位置のうち、前記探索リスト中の前記書き戻しを行っていないメモリ位置のみのアドレスを表わすインデックスを有するメモリ位置をすべて消去する
ことを特徴とする請求項5に記載の方法。 - 前記探索リスト中のメモリ位置のうち、単語に割り当てられた基準信号列の最終基準信号の記憶場所を表わすインデックスを有するメモリ位置に前記書き戻しを行う毎に、当該単語の記憶場所を表わすインデックスを、当該単語に先行する少なくとも1つの先行単語の記憶場所を表わすインデックス、及び当該単語に対応する単語得点の記憶場所を表わすインデックスと一緒に、単語終端リスト中の新たなメモリ位置に書き込み、前記単語得点の各々に言語モデル値を加算して前記総合得点を得て、前記単語終端リスト中に同じ単語の記憶場所を表わすインデックスが存在する場合には、最小の前記総合得点を有する単語以外のすべての単語の記憶場所を表わすインデックスを前記単語終端リストから消去して、前記単語終端リストの消去されていないメモリ位置の内容を、第2メモリの新たなメモリ位置に転送することを特徴とする請求項6に記載の方法。
- 前記探索リスト中の前記書き戻しを行ったメモリ位置のうち、前記語彙ツリーの1番目のツリーブランチの最終基準信号の記憶場所を表わすインデックスを有するメモリ位置毎に、前記ブランチリスト中の新たなメモリ位置に、前記探索リスト中の複数の新たなメモリ位置のアドレスを表わすインデックスを書き込み、前記探索リスト中の前記新たなメモリ位置の各々が、前記1番目のツリーブランチに続くツリーブランチの基準信号の記憶場所を表わすインデックスを含み、
前記単語終端リスト中のメモリ位置のうち、その内容を前記第2メモリに転送したメモリ位置に対応する単語毎に、前記第1リスト中の新たなメモリ位置に、前記ブランチリスト中の複数の新たなメモリ位置のアドレスを表わすインデックスを書き込み、
前記ブランチリスト中の前記新たなメモリ位置の各々が、前記探索リスト中の複数の新たなメモリ位置のアドレスを表わすインデックスを含み、
前記探索リスト中の前記新たなメモリ位置の各々が、前記語彙ツリーの1番目のツリーブランチの基準信号の記憶場所を表わすインデックスを含むことを特徴とする請求項6または7に記載の方法。 - 請求項1〜8のいずれかに記載の方法を実現する、音声信号中の単語列を認識する装置において、
反復的な瞬時に前記音声信号をサンプリングして、一連のテスト信号を発生するサンプリング手段と;
ルート及び複数のブランチを有する語彙ツリーであって、1つのツリーブランチが、複数の基準信号で構成される基準信号列を有すると共に1つの音素に割り当てられ、且つ、1つの単語が前記語彙ツリーの特定のブランチ接合点または特定のブランチ端に割り当てられた語彙ツリーを記憶するツリー記憶手段と;
特定の語彙単語及びこの語彙単語に先行する所定単語数の先行単語列に一意的に割り当てられた言語モデル値を複数記憶するモデル記憶手段と;
前記サンプリング手段、前記ツリー記憶手段、及び前記モデル記憶手段によって信号供給され、前記テスト信号に対して、前記基準信号列を構成する複数の基準信号の各々との相違度を計算する整合及び前記相違度を表わす得点を与える得点付けを、前記語彙ツリーに基づいて前記テスト信号単位で行い、且つ前記ルートから等距離のすべてのツリーブランチについて同時に行い、1つの前記基準信号列との前記整合及び得点付けが完了したときに単語が完成したか否かを判定し、単語が完成する毎に、今回完成した単語について前記得点を合計した単語得点を求め、今回完成した単語と先に完成している単語列中の所定数の単語との組合せに対して割り当てられる言語モデル値を求め、今回完成した単語及び先に完成している単語列について前記単語得点及び前記言語モデル値を累計した総合得点を求める整合兼得点付け手段と;
前記整合兼得点付け手段によって信号供給され、複数の非同一単語の同時読み出しに応答して、前記非同一単語毎に、別個に、前記ツリーの前記ルートから始めて進めた前記整合及び得点付けの結果を、前記整合兼得点付け手段からバッファに伝送する伝送手段と;
前記整合兼得点付け手段及び前記バッファによって信号供給され、関連する前記総合得点が許容範囲内であるか許容範囲外であるかにもとづいて、前記基準信号列との前記整合及び得点付けを選択的に継続または継続中止する決定手段と;
前記整合兼得点付け手段によって信号供給され、同時に得られた前記総合得点のうち最小のものに基づいて、前記音声信号中の単語列を認識する認識決定手段と
を具えていることを特徴とする単語列の認識装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4130631:7 | 1991-09-14 | ||
DE4130631A DE4130631A1 (de) | 1991-09-14 | 1991-09-14 | Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05197395A JPH05197395A (ja) | 1993-08-06 |
JP3860613B2 true JP3860613B2 (ja) | 2006-12-20 |
Family
ID=6440625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP24487592A Expired - Fee Related JP3860613B2 (ja) | 1991-09-14 | 1992-09-14 | 音声信号中の発声単語列の認識方法及び装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5995930A (ja) |
EP (1) | EP0533260B1 (ja) |
JP (1) | JP3860613B2 (ja) |
DE (2) | DE4130631A1 (ja) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4306508A1 (de) * | 1993-03-03 | 1994-09-08 | Philips Patentverwaltung | Verfahren und Anordnung zum Ermitteln von Wörtern in einem Sprachsignal |
DE4412745A1 (de) * | 1994-04-14 | 1996-11-07 | Philips Patentverwaltung | Verfahren zum Ermitteln einer Folge von Wörtern und Anordnung zur Durchführung des Verfahrens |
DE4432632A1 (de) * | 1994-09-14 | 1996-03-21 | Philips Patentverwaltung | System zum Ausgeben von Sprachinformation in Rekation auf eingegebene Sprachsignale |
US6463361B1 (en) * | 1994-09-22 | 2002-10-08 | Computer Motion, Inc. | Speech interface for an automated endoscopic system |
US6911916B1 (en) | 1996-06-24 | 2005-06-28 | The Cleveland Clinic Foundation | Method and apparatus for accessing medical data over a network |
US7761296B1 (en) * | 1999-04-02 | 2010-07-20 | International Business Machines Corporation | System and method for rescoring N-best hypotheses of an automatic speech recognition system |
CN1201286C (zh) * | 1999-12-23 | 2005-05-11 | 英特尔公司 | 使用基于词汇树的n格拉姆语言模式的执行语音识别的方法 |
AU4869601A (en) * | 2000-03-20 | 2001-10-03 | Robert J. Freeman | Natural-language processing system using a large corpus |
US20020178234A1 (en) * | 2001-03-06 | 2002-11-28 | Birchley Philip Alan | Browser software |
WO2003005343A1 (en) * | 2001-07-06 | 2003-01-16 | Koninklijke Philips Electronics N.V. | Fast search in speech recognition |
GB2391679B (en) * | 2002-02-04 | 2004-03-24 | Zentian Ltd | Speech recognition circuit using parallel processors |
DE10220524B4 (de) | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
EP1363271A1 (de) | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
US7149687B1 (en) * | 2002-07-29 | 2006-12-12 | At&T Corp. | Method of active learning for automatic speech recognition |
US20040138883A1 (en) * | 2003-01-13 | 2004-07-15 | Bhiksha Ramakrishnan | Lossless compression of ordered integer lists |
US7171358B2 (en) * | 2003-01-13 | 2007-01-30 | Mitsubishi Electric Research Laboratories, Inc. | Compression of language model structures and word identifiers for automated speech recognition systems |
US20040158468A1 (en) * | 2003-02-12 | 2004-08-12 | Aurilab, Llc | Speech recognition with soft pruning |
EP2297305A4 (en) * | 2008-05-15 | 2013-03-13 | Univ Miami | ISOLATION OF STEM CELL PROCESSORS AND EXPANSION UNDER NON-TERMS OF CONDITION |
CN102027534B (zh) * | 2008-05-16 | 2013-07-31 | 日本电气株式会社 | 语言模型得分前瞻值赋值方法及设备 |
CN102479508B (zh) * | 2010-11-30 | 2015-02-11 | 国际商业机器公司 | 用于将文本转换成语音的方法和系统 |
US20140365221A1 (en) * | 2012-07-31 | 2014-12-11 | Novospeech Ltd. | Method and apparatus for speech recognition |
US10304465B2 (en) | 2012-10-30 | 2019-05-28 | Google Technology Holdings LLC | Voice control user interface for low power mode |
US10381001B2 (en) | 2012-10-30 | 2019-08-13 | Google Technology Holdings LLC | Voice control user interface during low-power mode |
US9584642B2 (en) | 2013-03-12 | 2017-02-28 | Google Technology Holdings LLC | Apparatus with adaptive acoustic echo control for speakerphone mode |
US10373615B2 (en) | 2012-10-30 | 2019-08-06 | Google Technology Holdings LLC | Voice control user interface during low power mode |
US8768712B1 (en) | 2013-12-04 | 2014-07-01 | Google Inc. | Initiating actions based on partial hotwords |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3215868A1 (de) * | 1982-04-29 | 1983-11-03 | Philips Patentverwaltung Gmbh, 2000 Hamburg | Verfahren und anordnung zum erkennen der woerter in einer zusammenhaengenden wortkette |
US4759068A (en) * | 1985-05-29 | 1988-07-19 | International Business Machines Corporation | Constructing Markov models of words from multiple utterances |
JP2717652B2 (ja) * | 1986-06-02 | 1998-02-18 | モトローラ・インコーポレーテッド | 連続音声認識システム |
US4837831A (en) * | 1986-10-15 | 1989-06-06 | Dragon Systems, Inc. | Method for creating and using multiple-word sound models in speech recognition |
DE3710507A1 (de) * | 1987-03-30 | 1988-10-20 | Philips Patentverwaltung | Verfahren zum erkennen kontinuierlich gesprochener woerter |
DE3711342A1 (de) * | 1987-04-03 | 1988-10-20 | Philips Patentverwaltung | Verfahren zum erkennen zusammenhaengend gesprochener woerter |
US4805219A (en) * | 1987-04-03 | 1989-02-14 | Dragon Systems, Inc. | Method for speech recognition |
DE3723078A1 (de) * | 1987-07-11 | 1989-01-19 | Philips Patentverwaltung | Verfahren zur erkennung von zusammenhaengend gesprochenen woertern |
US5054074A (en) * | 1989-03-02 | 1991-10-01 | International Business Machines Corporation | Optimized speech recognition system and method |
US5228110A (en) * | 1989-09-15 | 1993-07-13 | U.S. Philips Corporation | Method for recognizing N different word strings in a speech signal |
JP3118725B2 (ja) * | 1991-09-11 | 2000-12-18 | 株式会社日立製作所 | 自動分類方法 |
DE4130632A1 (de) * | 1991-09-14 | 1993-03-18 | Philips Patentverwaltung | Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal |
US5241219A (en) * | 1991-12-11 | 1993-08-31 | Amphenol Corporation | Current mode coupler |
DE4306508A1 (de) * | 1993-03-03 | 1994-09-08 | Philips Patentverwaltung | Verfahren und Anordnung zum Ermitteln von Wörtern in einem Sprachsignal |
US5621859A (en) * | 1994-01-19 | 1997-04-15 | Bbn Corporation | Single tree method for grammar directed, very large vocabulary speech recognizer |
-
1991
- 1991-09-14 DE DE4130631A patent/DE4130631A1/de not_active Withdrawn
-
1992
- 1992-09-11 EP EP92202783A patent/EP0533260B1/de not_active Expired - Lifetime
- 1992-09-11 DE DE59209646T patent/DE59209646D1/de not_active Expired - Fee Related
- 1992-09-14 JP JP24487592A patent/JP3860613B2/ja not_active Expired - Fee Related
-
1996
- 1996-11-19 US US08/751,377 patent/US5995930A/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
DE59209646D1 (de) | 1999-04-15 |
EP0533260A3 (ja) | 1994-03-23 |
EP0533260A2 (de) | 1993-03-24 |
DE4130631A1 (de) | 1993-03-18 |
EP0533260B1 (de) | 1999-03-10 |
JPH05197395A (ja) | 1993-08-06 |
US5995930A (en) | 1999-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3860613B2 (ja) | 音声信号中の発声単語列の認識方法及び装置 | |
US9418152B2 (en) | System and method for flexible speech to text search mechanism | |
EP0867859B1 (en) | Speech recognition language models | |
US7529678B2 (en) | Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system | |
US6163768A (en) | Non-interactive enrollment in speech recognition | |
EP0634042B1 (en) | Speech recognition system for languages with compound words | |
US5613034A (en) | Method and apparatus for recognizing spoken words in a speech signal | |
US20020052742A1 (en) | Method and apparatus for generating and displaying N-best alternatives in a speech recognition system | |
US5873061A (en) | Method for constructing a model of a new word for addition to a word model database of a speech recognition system | |
US8909528B2 (en) | Method and system for prompt construction for selection from a list of acoustically confusable items in spoken dialog systems | |
KR19980702723A (ko) | 음성 인식 방법 및 장치 | |
JPH0612092A (ja) | 音声認識装置およびその動作方法 | |
JPH10133685A (ja) | 連続音声認識中にフレーズを編集する方法及びシステム | |
JPH0583918B2 (ja) | ||
EP1738291A1 (en) | Tree index based method for accessing automatic directory | |
US5987409A (en) | Method of and apparatus for deriving a plurality of sequences of words from a speech signal | |
TWI610294B (zh) | 語音辨識系統及其方法、詞彙建立方法與電腦程式產品 | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
US6963834B2 (en) | Method of speech recognition using empirically determined word candidates | |
US6212497B1 (en) | Word processor via voice | |
JP3634863B2 (ja) | 音声認識システム | |
US10402492B1 (en) | Processing natural language grammar | |
JP2867695B2 (ja) | 連続音声認識装置 | |
JPH08241096A (ja) | 音声認識方法 | |
JP3818154B2 (ja) | 音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040216 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040317 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20040510 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20040604 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20041129 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20041202 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050228 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060817 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060922 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |