JP2002504719A - 音声認識において無音を使用するシステム - Google Patents
音声認識において無音を使用するシステムInfo
- Publication number
- JP2002504719A JP2002504719A JP2000532846A JP2000532846A JP2002504719A JP 2002504719 A JP2002504719 A JP 2002504719A JP 2000532846 A JP2000532846 A JP 2000532846A JP 2000532846 A JP2000532846 A JP 2000532846A JP 2002504719 A JP2002504719 A JP 2002504719A
- Authority
- JP
- Japan
- Prior art keywords
- silence
- utterance
- prefix tree
- branch
- input data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/085—Methods for reducing search complexity, pruning
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
の接頭語ツリー検索を行うことによって遂行されるコンピュータ音声認識に関す
る。
(HMM)として知られている確率モデルを採用している。ヒドン・マルコフ・
モデルは複数の状態を含み、移行確率は、同じ状態への移行も含め、各状態から
あらゆる状態への各移行に関して定義されている。観察は各独特な状態に確率的
に関連づけられている。状態間の移行確率(観察が1つの状態から次の状態に移
行する確率)は、全て同じというわけではない。したがって、状態間の移行確率
と観察確率が与えられた場合に、全体的確率が最大になる可能性が最も高い状態
のシーケンスを判断するために、ビタビ・アルゴリズムなどの検索技術が採用さ
れている。
MMの状態の全てを表すトレリス線図を通るパスとして表すことができる。した
がって、観察シーケンスを与えられた場合に、トレリス線図を通る最も可能性の
高いパス(すなわち、HMMによって表される可能性が最も高い状態のシーケン
ス)は、ビタビ・アルゴリズムを使用して判断することができる。
って生成されるものと考えられてきた。その結果、HMMは発話スペクトルの観
察されたシーケンスをモデル化するために採用されており、ここで特定のスペク
トルはHMMにおける状態と確率的に関連づけられている。換言すれば、発話ス
ペクトルの所与の観察されたシーケンスについて、対応するHMMに最も可能性
の高い状態のシーケンスがある。
る。この技術は拡張することができ、そのため、HMMにおける状態の各識別的
なシーケンスが音素などのサブワード・ユニットと関連づけられると、サブワー
ド・ユニットの最も可能性の高いシーケンスが発見できる。更に、サブワード・
ユニットがどのように結合されて単語を形成するかのモデルを使用し、次に単語
がどのように結合されて文を形成するかの言語モデルを使用して、完全な音声認
識が達成される。
間間隔でサンプル抽出される。フレームは通常、複数のサンプルを含み、重複す
るか近接していることがある。各フレームは、発話信号の独特な部分と関連づけ
られている。各フレームによって表される発話信号の部分が分析されて、対応す
る音響ベクトルを提供する。音声認識の間に、検索は、音響ベクトルのシーケン
スに関連づけられる可能性が最も高い状態のシーケンスについて行われる。
見するために、ビタビ・アルゴリズムが採用されている。ビタビ・アルゴリズム
は、時間同期的な方法で、第1のフレームから始めて、一度に1つのフレームを
進める計算を行う。検討している状態シーケンス(すなわち、HMM)における
各状態に関して、確率スコアが計算される。したがって、累積的確率スコアは、
ビタビ・アルゴリズムがフレーム毎に音響信号を分析するときに、可能な状態シ
ーケンスのそれぞれについて連続的に計算される。発声の終わりに、ビタビ・ア
ルゴリズムによって計算された最も高い確率スコアを有する状態シーケンス(あ
るいは、HMMまたは一連のHMM)は、発声全体に関して最も可能性の高い状
態シーケンスを提供する。最も可能性の高い状態シーケンスは次に対応する発話
サブワード・ユニット、単語または単語シーケンスに変換される。
数ならびに発声の長さに比例する計算に縮小する。しかし、語彙数が多いと、状
態および移行の数は多くなり、全ての可能な状態シーケンスに関する各フレーム
の各状態での確率スコアを更新するのに必要な計算は、通常は約10ミリセカン
ドの長さである1フレームの継続時間の何倍も長くなってしまう。
を大幅に縮小するために、刈り込みまたはビームサーチと呼ばれる技術が開発さ
れた。この種の技術は、ほとんどあり得ない状態シーケンスに関する確率スコア
を計算する必要性を抹消する。これは通常、各フレームで、そのフレームに関連
づけられた最も大きいスコアを有する、検討中の各残余状態フレーム(または潜
在シーケンス)に関する確率スコアを比較することにより達成される。特定の潜
在シーケンスに関する状態の確率スコアが十分に低ければ(その時点での他の潜
在シーケンスに関する最大計算確率スコアと比較したときに)、刈り込みアルゴ
リズムは、そのような低いスコアの状態シーケンスが完了した最も可能性の高い
状態シーケンスの一部にはなりそうもないと推測する。この比較は通常、最小し
きい値を使用して達成される。最小しきい値未満に落ちるスコアを有する潜在状
態シーケンスは、検索工程から除外される。しきい値は、主として所望のメモリ
および計算の節約ならびに、メモリおよび計算の節約によって生じる所望のエラ
ー率上昇に基づいて、あらゆる所望のレベルに設定できる。
リーの使用を含む。接頭語ツリーは、音声認識システムの語彙目録をツリー構造
として表し、そのツリー構造の中ではそのシステムが遭遇する可能性のある単語
の全てが表される。
、特定の音声モデル(例えば、HMM)と関連づけられたブランチによって表さ
れる。音声ブランチはそれに続く音声ブランチにノードで接続されている。同じ
第1音素を共有する語彙目録内の全ての単語は、同じ第1ブランチを共有する。
同じ第1および第2の音素を有する全ての単語は、同じ第1および第2のブラン
チを共有する。対照的に、共通の第1音素を有するが異なった第2音素を有する
単語は、接頭語ツリーにおける同じ第1ブランチを共有するが、接頭語ツリーに
おける第1のノードで分かれる第2ブランチを有する、などである。ツリー構造
は、システムが遭遇する可能性のある全ての単語がツリーの末端ノード(すなわ
ち、ツリーのリーフ)によって表されるような方法で続く。
語彙目録または語彙における通常の単語数よりもはるかに少なくなることは明ら
かである。実際に、検索している語彙または語彙目録の大きさに拘わらず、最初
のブランチの数は音素の総数(約40〜50)を越えることはできない。異音の
変形が使用されるとしても、ブランチの最初の数は、使用される異音に応じて多
くなり得る。
において少数の最初のブランチを与えると、語彙が非常に大きくても、可能な最
初の音素のそれぞれの確率を評価することにより、語彙目録中の全ての単語の始
めを検討することが可能である。更に、刈り込みを使用すると、低い確率の多数
の音素ブランチを検索の非常に初期で抹消することが可能である。したがって、
ツリーの第2レベルは第1レベルよりも多くのブランチを有するが、実際に検討
しているブランチの数(すなわち、仮定の数)も、可能なブランチの数を越えて
削減される。
1のタイプは、滑らかな発話を認識できる連続的音声認識(CSR)システムで
ある。第2のタイプのシステムは、断続的な発話(または控えめな発話)のみを
認識するために通常は採用されるが、検索スペースが一般的に短いので、連続的
音声認識システムよりも正確で効率的でもある、断続的音声認識(ISR)シス
テムである。また、連続的音声認識システムは一般的に断続的な発話も受け付け
ることができるので、断続的音声認識システムは連続的音声認識の特別なケース
と考えられてきた。連続的音声認識システムは、断続的な発話を認識しようと試
みるときに、同様には作動しないだけである。
認識システムは、無音を語彙目録における特別な語として扱ってきた。無音の語
は、認識されているとおり、単語の間に挿入できるように通常の検索工程に関与
する。
であり費用のかかる工程であることが知られている。したがって、無音が別個の
単語として扱われる断続的音声認識システムにおいては、無音の単語から語彙目
録中の全ての他の単語への移行は、語彙目録中の全ての単語(または、検索の終
わりに残っている単語)から無音の単語への移行と同様に検討しなければならな
い。
に、すなわち断続的に話していると識別したとしても、CSRシステムはやはり
、単語の間に無音を有していない仮定を検討する。これは、1つの単語を2つ以
上の単語に不適切に分解する傾向につながる。もちろん、これはそのようなこと
がなければ起きないであろう、高いエラー率に帰する。更に、これは、連続的発
話に属していて断続的な発話には属していない検索スペースの一部をまだカバー
しているので、計算上、非効率的である。
のモデル化も、以前の音声認識システムにおける問題やエラーにつながった。無
音は文脈から独立しているということが広く信じられている。したがって、文脈
に拘わらず、無音は従来の音声認識システムにおいてモデル化されてきた。換言
すれば、無音は、それに先行するかそれに続く単語またはサブワード・ユニット
に拘わらず、同じようにモデル化されてきた。これは音声認識システムの正確性
を低下させるだけでなく、本発明によるモデル化よりも低い効率にしてしまう。
識する。入力データ・ストリームによって表される可能性のある単語は、ノード
で接続された複数の音素ブランチを含む接頭語ツリーとして提供される。複数の
音素ブランチは、接頭語ツリーの入力側で無音に対応する少なくとも1つの入力
無音ブランチと、接頭語ツリーの出力側で無音に対応する少なくとも1つの出力
無音ブランチとによって分類されている。
供されている。複数の無音ブランチは、文脈に依存する無音を表す。
声認識システム語彙目録と断続的音声認識システム語彙目録との両方を含む。シ
ステムは、システムの使用者によってそのときに採用されている発話の種類に基
づいて、CSR語彙目録の使用とISR語彙目録の使用とを切り替える。
で一般的な説明を提供することを目的としている。要求されてはいないが、本発
明は、パーソナル・コンピュータによって実行されるプログラム・モジュールな
どのコンピュータ実行可能命令の一般的コンテキストにおいて、少なくとも部分
的に説明する。一般的に、プログラム・モジュールは、特定のタスクを遂行する
か特定の抽象的なデータ・タイプを実施する、ルーチン・プログラム、オブジェ
クト、構成要素、データ構造などを含む。更に、当業者は、携帯装置、マルチプ
ロセッサ・システム、マイクロプロセッサ・ベースまたはプログラム可能家庭用
電子製品、ネットワークPC、ミニコンピュータ、メーンフレーム・コンピュー
タなどを含む、他のコンピュータ・システム編成で実施できることを理解される
であろう。本発明は、通信ネットワークを介してリンクされたリモート処理装置
によってタスクが遂行される、分散化された計算環境においても実施できる。分
散化された計算環境においては、プログラム・モジュールはローカル・メモリ記
憶装置およびリモート・メモリ記憶装置の両方に配置されてもよい。
システム・メモリ22および、システム・メモリを含む様々なシステム構成要素
を処理ユニット21に接続するシステム・バス23を含む従来のパーソナル・コ
ンピュータ20の形式で汎用計算装置を含んでいる。システム・バス23は、メ
モリ・バスまたはメモリ・コントローラ、周辺バスおよび、様々なバス・アーキ
テクチャの何れかを使用するローカル・バスを含む、数種類のバス構造の何れで
あってもよい。システム・メモリは、リード・オンリー・メモリ(ROM)24
およびランダム・アクセス・メモリ(RAM)25を含む。始動時などに、パー
ソナル・コンピュータ20内の構成要素の間で情報を伝送することを補助する基
本ルーチンを含む基本入出力装置26(BIOS)は、ROM24に記憶されて
いる。パーソナル・コンピュータ20は更に、ハード・ディスク(図示せず)か
ら読み出しまたはそれに書き込むハード・デスク・ドライブ27、リムーバブル
磁気ディスク29から読み出しまたはそれに書き込む磁気ディスク・ドライブ2
8および、CD ROMまたは他の光媒体などのリムーバブル光ディスク31か
ら読み出しまたはそれに書き込む光ディスク・ドライブ30を含む。ハード・デ
ィスク・ドライブ27、磁気ディスク・ドライブ28および光ディスク・ドライ
ブ30は、それぞれ、ハード・ディスク・ドライブ・インターフェイス32、磁
気ディスク・ドライブ・インターフェイス33および光ドライブ・インターフェ
イス34によってシステム・バス23に接続されている。これらのドライブおよ
び関連づけられたコンピュータ読み取り可能媒体は、コンピュータ読み取り可能
命令、データ構造、プログラムモジュールおよび、パーソナル・コンピュータ2
0用の他のデータの不揮発性記憶装置を提供する。
スク29およびリムーバブル光ディスク31を採用しているが、当業者は、磁気
カセット、フラッシュ・メモリ・カード、デジタル・ビデオ・ディスク、ベルヌ
ーイ・カートリッジ、ランダム・アクセス・メモリ(RAM)、リード・オンリ
ー・メモリ(ROM)などの、コンピュータによってアクセス可能なデータを記
憶できる他の種類のコンピュータ読み取り可能媒体も、例示的動作環境において
使用できることを理解するはずである。
グラム36、他のプログラム・モジュール37およびプログラム・データ38を
含む、多数のプログラム・モジュールを、ハード・ディスク、磁気ディスク29
、光ディスク31、ROM24またはRAM25に記憶してもよい。使用者は、
キーボード40、画像位置指示装置42およびマイクロフォン62などの入力装
置を介して、パーソナル・コンピュータ20にコマンドと情報を入力できる。他
の入力装置(図示せず)は、ジョイスティック、ゲーム・パッド、サテライト・
デッシュ、スキャナなどを含んでもよい。これらおよび他の入力装置は、システ
ム・バス23に接続されたシリアル・ポート・インターフェイス46を介してし
ばしば処理ユニット21に接続されているが、サウンド・カード、パラレル・ポ
ート、ゲーム・ポートまたは汎用シリアル・バス(USB)などの他のインター
フェイスによって接続されてもよい。モニタ47または他の種類の表示装置も、
ビデオ・アダプタ48などのインターフェイスを介してシステム・バス23に接
続される。モニタ47に加えて、パーソナル・コンピュータは通常、スピーカ4
5およびプリンタ(図示せず)などの他の周辺出力装置を含んでもよい。
たは複数のリモート・コンピュータへの論理接続を使用して、ネットワーク化さ
れた環境において動作してもよい。リモート・コンピュータ49は、もう1台の
パーソナル・コンピュータ、サーバ、ルータ、ネットワークPC、ピア・デバイ
スまたは他のネットワーク・ノードであってもよく、通常はパーソナル・コンピ
ュータ20に関連して上記で説明した要素の多くまたは全てを含むが、メモリ記
憶装置50のみを図1に示した。図1に示した論理接続は、ローカル・エリア・
ネットワーク(LAN)51およびワイド・エリア・ネットワーク(WAN)5
2を含む。かかるネットワーク環境は、事務所、企業内コンピュータネットワー
ク・イントラネットおよびインターネットにおいてはありふれたものである。
はネットワーク・インターフェイスまたはアダプタ53を介してローカル・エリ
ア・ネットワーク51に接続されている。WANネットワーク環境で使用する場
合には、パーソナル・コンピュータ20は通常、モデム54またはインターネッ
トなどのワイド・エリア・ネットワーク52上で通信を確立する他の手段を含む
。モデム54は、内蔵または外付けの何れであってもよいが、シリアル・ポート
・インターフェイス46を介してシステム・バス23に接続されている。ネット
ワーク環境においては、パーソナル・コンピュータ20に関連して図示したプロ
グラム・モジュールまたはその部分は、リモート・メモリ記憶装置に記憶されて
もよい。図示したネットワーク接続は例示的なものであり、コンピュータ間で通
信リンクを確立する他の手段を使用してもよいことが理解されるであろう。
声認識システム60は、マイクロフォン62,アナログ・デジタル(A/D)コ
ンバータ64、トレーニング・モジュール65,フィーチャ抽出モジュール66
,無音検出モジュール68、語彙目録記憶モジュール70、音声発話ユニット記
憶モジュール72、ツリー検索エンジン74および出力装置76を含む。更に、
言語モデル記憶モジュール75も設けて、サーチエンジン74によってアクセス
することもできる。システム60全体またはシステム60の一部は、図1に示し
た環境において実施できることに留意すべきである。例えば、マイクロフォン6
2は、適切なインターフェイスを介して、またA/Dコンバータ64を介して、
パーソナル・コンピュータ20への入力装置として設けることが好ましいことも
ある。トレーニング・モジュール65、フィーチャ抽出モジュール66および無
音検出モジュール68は、コンピュータ20内のハードウエア・モジュールであ
っても、図1に開示された情報記憶装置の何れかに記憶されており、CPU21
または他の適当なプロセッサによってアクセス可能であるソフトウエア・モジュ
ールであってもよい。更に、語彙目録記憶モジュール70および音声発話ユニッ
ト記憶モジュール72も、図1に示した何れかの適当なメモリ装置に記憶される
ことが好ましい。また、ツリー検索エンジン74はCPU21(1つまたは複数
のプロセッサを含むことができる)に実装されることが好ましく、あるいはパー
ソナル・コンピュータ20によって採用された専用音声認識プロセッサによって
遂行されてもよい。更に、出力装置76は、好適な一実施形態において、モニタ
47、プリンタまたは他のあらゆる適当な出力装置として実装されてもよい。
供される可聴音声信号の形式でシステム60に入力される。マイクロフォン62
は可聴発話信号を、A/Dコンバータ64に提供されるアナログ電子信号に変換
する。A/Dコンバータ64はアナログ発話信号を、フィーチャ抽出モジュール
66に提供される一連のデジタル信号に変換する。好適な実施形態においては、
フィーチャ抽出モジュール66は、デジタル信号についてスペクトル分析を行い
、周波数スペクトルの各周波数帯に関する等級値を計算する従来のアレイ・プロ
セッサである。信号は、好適な一実施形態においては、約16kHzのサンプル
・レートでA/Dコンバータ64によってフィーチャ抽出モジュール66に提供
され、A/Dコンバータ64を、市販されているよく知られたA/Dコンバータ
として実施する。
タル信号を、複数のデジタル・サンプルを含むフレームに分割する。各フレーム
は約10ミリセカンドの長さである。フレームは次に、フィーチャ抽出モジュー
ル66によって、複数の周波数帯に関するスペクトル特性を反映したフィーチャ
・ベクトルに符号化されることが好ましい。分離または半連続的ヒドン・マルコ
フ・モデルの場合には、フィーチャ抽出モジュール66はフィーチャ・ベクトル
を、ベクトル量子化技術およびトレーニング・データから引き出されたコードブ
ックを使用して、1つまたは複数のコードワードに符号化することが好ましい。
したがって、フィーチャ抽出モジュール66は、その出力部で発話された各発声
に関するフィーチャ・ベクトル(またはコードワード)を提供する。フィーチャ
抽出モジュール66は、約10ミリセカンド毎に1つのコードワードのレートで
、フィーチャ・ベクトル(またはコードワード)を提供することが好ましい。
またはコードワード)を使用して、ヒドン・マルコフ・モデルに対して計算する
ことが好ましい。これらの確率分布は後に、ビタビまたは類似の種類の技術を遂
行するに当たり使用する。
プルを処理しているので、無音検出モジュール68もサンプルを処理している。
無音検出モジュール68は、フィーチャ抽出モジュール66を実装するのに使用
されるプロセッサと同じまたは異なったプロセッサの何れでも実装できる。無音
検出モジュール68はよく知られた方法で動作する。簡潔に言えば、無音検出モ
ジュール68は、無音を検出して、使用者が発声する単語の間の境界を判断する
ために、A/Dコンバータ64によって提供されるデジタル・サンプルを処理す
る。無音検出モジュール68は次に、単語の境界の検出を示す境界検出信号をツ
リー検索エンジン74に提供する。
無音検出モジュール68によって提供されると、ツリー検索エンジン74は音声
発話ユニット・モデル・メモリ72に記憶された情報にアクセスする。メモリ7
2は、システム60によって検出される発話ユニットを表す、ヒドン・マルコフ
・モデルなどの音声発話ユニット・モデルを記憶している。好適な一実施形態に
おいては、メモリ72に記憶された音声モデルは、音素を表すHMMを含む。メ
モリ72に記憶されたHMMに基づいて、ツリー検索エンジン74は、フィーチ
ャ抽出モジュール66から受け取ったコードワードによって表される、したがっ
てシステムの使用者が受け取る発声を表す、最も可能性の高い音素を判断する。
また、適切な音素は、各音素に関するHMMの各状態について計算される特定の
senonesを吟味することを含む、多数の方法で選択することができる。また、音 声HMMツリー検索は、適切な音素を発見するために遂行できる。
る。ツリー検索エンジン74が、メモリ72内の音声発話ユニット・モデルにア
クセスすることに基づいて受け取る情報は、無音検出モジュール68によって示
されるように、単語境界の間でフィーチャ抽出モデル66によって受け取られる
コードワードを表す可能性が最も高い単語を判断するために、語彙目録70を検
索するに当たって使用される。また、検索エンジン74は、North American Bus
iness News Corpusから抽出され、1994年ペンシルバニア州立大学発刊のCRS
-III Text Language Modelと題する刊行物に更に詳細に記載されている、60,
000語の三重字語モデルなど、モジュール75内の言語モデルにアクセスする
ことが好ましい。言語モデルは、入力データによって表される最も可能性の高い
単語または単語シーケンスを識別するに当たって使用される。したがって、決定
された単語または単語シーケンスは、使用者が受け取る発声を表す可能性が最も
高い。単語または単語シーケンスは次に、ツリー検索エンジン74によって出力
装置76に出力される。
単語の全てを表す情報を含んでいる。単語は、ルートからリーフへと(すなわち
内部単語ノードへと)トラバースして、使用者の発声を示す可能性が最も高い単
語に到達することができる、接頭語ツリーの形式でツリー検索エンジン74に提
供されることが好ましい。
示している。明確化のために、図3は接頭語ツリーの一部のみを示している。ル
ート・ノード(すなわちインプット・ノード)78には最初の単語境界で遭遇す
る。複数のブランチ80がルート・ノード78から接頭語ツリーの残りの部分に
至っている。複数のブランチのそれぞれは、音素に関連づけられている。図3に
おいて、ルート・ノード78を出るブランチは、文字AO、AEおよびTで表さ
れる音素のみを表している。ツリーは他のノードやブランチを通って延び、出力
ノード79で終わる。
とトラバースされるので、そのとき音声認識システムによって検討されている音
素ブランチに接続された各ノードにスコアが割り当てられている。スコアは、吟
味されている特定の音素が、フィーチャ抽出モジュール66から受け取ったコー
ドワードによって示された実際の音素である可能性を示している。
フィーチャ抽出モジュール66は、AO、R、IX、N、JHのように表される
音素を示すコードワードに単語ORANGEを分割する可能性がある。ツリー検
索エンジンがツリー77をトラバースすると、これはツリー77において検討さ
れている各音素ブランチについてスコアを計算することが好ましく、ここで、ス
コアはコードワードによって符号化された特定の音素が検討中のブランチに関す
る音素に対応する可能性を示す。したがって、ツリー検索エンジン74は、検討
中の最初のコードワードが、検討中のブランチに対応するAO音素によって表さ
れる可能性が高いことを示すノード82のスコアを計算する。ツリー検索エンジ
ン74は、ツリー77における他のノード84および86のそれぞれに関するス
コアも計算することが好ましく、ここで、スコアは、分析されているコードワー
ドが音素AEおよびTによって表される可能性を示す。理想的な状況の下では、
ノード84および86に割り当てられたスコアは、ノード82に割り当てられた
スコアよりも低い。
ード(出力可能性分布)がこのとき検討されているツリー77におけるブランチ
に対応する音素によって表される可能性に基づき、また、音素ブランチによって
現在のノードに接続されている更にツリーの上方のノードに割り当てられたスコ
アに基づいている、ツリー77における各ノードにスコアを割り当てることが好
ましい。これは全て、知られた方法で行われる。
、そのノードに割り当てられたスコアを、検討しているフレームに対応する他の
ノードの何れかでの最大スコアと比較することにより達成される。特定のノード
のスコアが、ツリー77における他の対応するノードに関する最大スコアと比較
して十分に低い場合には、検討中のそのノード(最低スコアのノード)に至るブ
ランチは、完成した最も可能性が高い音素シーケンスの一部になる可能性はない
(すなわち、そのシーケンスの音素は、システムによって認識される最終単語の
一部になる可能性はない)。したがって、そのブランチはツリー77から落とさ
れ(すなわち刈り込まれ)て、その後の処理においてはもはや検討されない。
音が単語境界で実施されなければならない。したがって、出力ノード79は無音
ブランチに至り、現在の単語境界に続く次の単語について再び認識を開始できる
ように、無音ブランチは分岐して入力ノード78に戻る(ツリー77が再入ツリ
ーであれば)。しかし、これは以下のような多くの理由によって幾分か次善の成
果につながり得る。
力ノード79に至らなければならない。しかし、言語モデルを使用して単語シー
ケンスを判断する場合には、ツリー77をトラバースした後に、N-best仮定を 維持することが望ましい。ツリー77の全てのリーフが単一の出力ノード79に
至らなければならない場合には、ツリー77をトラバースするに当たって使用す
るビタビ・アルゴリズムが、N-best仮定を維持することは困難であり非効率的 である。また、かかる先行技術の接頭語ツリーにおける無音は、その文脈に拘わ
らず同じくモデル化される。本発明の発明者は、無音は文脈に基づいて大きく代
わることがあると認識していた。文脈に拘わらず無音をモデル化することは、認
識の誤りにつながり得る。また、音声認識システム内での単語間移行の検討は複
雑であり且つ時間のかかると広く認識されている。しかし、先行技術にしたがっ
てツリー77を利用すると、システムによって認識された各単語について、無音
から認識された単語へ、そして無音に戻る移行が行われなければならない(断続
的音声認識システムにおいてさえ)。これは、エラー率の上昇につながることが
あり、システムの非効率性に帰結する。
リー88は、本発明の一態様にしたがって発話を認識するに当たって使用される
語彙目録が、無音分類語彙目録であることを示している。換言すれば、ツリー8
8をトラバースするために、ツリーはルート・ノード90で入る。図4に示した
実施形態においては、ルート・ノード90は、無音を表す無音ブランチ92に接
続されており、無音ブランチ92は音素ブランチおよび接頭語ツリーの残りの部
分に接続されている。ツリー上の各リーフ(単語を表す)は、それぞれが無音に
関連づけられたブランチ94、96および98などの無音ブランチに接続されて
いる。接頭語ツリー88を採用することにより、本システムは無音分類語彙目録
を提供し、この語彙目録内の各単語は無音によって分類されている。
続されている。このトップ・レベルの無音ブランチ92は、ノード100で、図
3においてツリー77の第1レベルを形成する複数の音素ブランチに接続されて
いる。ツリー88の末端の無音は、この好適な実施形態において、文脈に依存的
な無音である。換言すれば、システム60における音声モデルのトレーニングの
間(以下で詳細に説明)、音声モデルをトレーニングするためにシステム60に
提供された発話は、モデル化されてメモリ72に記憶される複数の文脈依存無音
を含む。単語境界が無音検出モジュール68によって検出されると、ツリー検索
エンジン74は、メモリ72内の音声無音モデルを使用して、且つ接頭語ツリー
88を使用して、適切な無音を配置する。
が得られた。第1に、無音分類語彙目録は、単語間移行を検討する必要性を抹消
した。換言すれば、図3に示した先行技術のシステムにおいて、単語から無音へ
、そして単語に戻る移行は、システムによって調節される必要があった。しかし
、無音を単語の一部として語彙目録に入れることにより、これらの単語間の移行
は必要ではなくなった。その代わり、調節しなければならない唯一の移行は、実
際に話される1つの単語から他の単語への移行である。更に、図4に示した実施
形態を使用すると、ツリー88によって表される語彙目録内のあらゆる単語は、
入力無音92を共有する。したがって、最初の無音を単語内に埋め込む追加費用
はほとんどかからない。また、ツリー88末端によって表される単語のそれぞれ
は独立の無音で終わるので、ビタビ・アルゴリズムは、ツリー88をトラバース
した後に、N-best仮定を更に効率的に維持できる。これは、最も可能性の高い 単語シーケンスを判断するために、同様に言語モデル(または他の適当なモデル
)を使用するシステムにおけるビタビ・アルゴリズムの更に効率的な発展につな
がる。
テムが連続的音声認識システムに使用されるときに得られる。典型的な連続的音
声認識システムのアーキテクチャは、クロスワード文脈を扱うように構成されて
いる。しかし、これは、連続的音声認識システムが断続的な発話に適用されると
きには、高いエラー率に帰結することがある。例えば、話者が断続的または不連
続的な話し方で連続的音声認識システムに話しているときに、連続的音声認識シ
ステムのクロスワード文脈調節の特徴は、1つの単語を不正確に2つ以上の単語
に分離しがちなことがある。しかし、使用者が断続的または不連続的な話し方で
話していることをシステムが検出すると、本発明の一態様による(更に図7につ
いて説明された)システムは、それ自体を再編成して、無音分類語彙目録を採用
する。単語境界で無音を実施することにより、本システムは、クロスワード文脈
が検討されないことを確実にして、したがって、本発明を採用した連続的音声認
識システムは、更に効率的且つ更に正確に、断続的な発話を更に良好に扱うこと
ができる。
形態を示している。接頭語ツリー102は、図4に示した接頭語ツリー88に類
似であり、同様の部分には同様の符号を付してある。しかし、ツリー102の入
力末端で単一の無音ブランチ92を有する代わりに、104、106および10
8などの複数の無音ブランチがツリー102の入力末端で含まれている。無音ブ
ランチ104、106および108は文脈依存無音に対応している。したがって
、ツリーの出力末端で文脈依存無音のみを有する(図4に示したツリー88にお
けるように)代わりに、ツリー102もツリーの入力末端で文脈依存無音を有す
る。ツリーの入力末端の無音ブランチは、ツリーの残りの部分に接続された音素
ブランチに接続されている。ツリー88と同様に、ツリー102は、語彙目録内
の各単語の終わりで無音を表すリーフにおいて終了する。
音によって語彙目録における見出し語を分類する。これは、多数の重要な利点に
つながる。文脈依存無音ブランチ104、106および108は、ツリー88の
単一のトップ・レベル無音ブランチ92を、多数の文脈依存無音に分割する。こ
れは刈り込み操作を補助し、したがってシステム全体を更に効率化する。例えば
、ツリー検索エンジン74は、ツリーにおける最初の音素ブランチに接続された
ノードにスコアを割り当てることによって開始するのではなく、無音ブランチ1
04、106および108に接続されたノードにスコアを割り当てて始めること
ができる。これによって、ツリー102のセグメントを、更に速く検索スペース
を削減する検索プロセスにおいて早期に取り除くか抹消することが可能になる。
除かれたツリー102(図5に示した)を示している。ツリー102の入力側で
文脈依存無音を表す無音ブランチのそれぞれを検討した後に、それらの無音ブラ
ンチに接続された各ノードにスコアが割り当てられる。次に、好適な一実施形態
において、各ノードについてのスコアのそれぞれが、ツリーのそのレベルにある
何れかのノードに割り当てられた最大スコアと比較される。比較のために、所定
のしきい値レベルを設定できるか、適応しきい値レベルを実施できる。比較され
るノードのスコアが、しきい値レベルによる最大スコア未満であれば、そのノー
ドに接続されたそれに続く全てのブランチはツリーから取り除かれ、それによっ
て、何れか所与の検索について検索スペースが大幅に削減される。図6は、無音
ブランチ108用のノードに割り当てられたスコアが十分に低く、ツリーのブラ
ンチの残りの部分がそのツリーから取り除かれていることを示している。
おいてはあらゆる特定のしきい値レベルを採用することができる。しきい値レベ
ルが低いほど、検索の間に亘ってより多い仮定を保持することになり、したがっ
て、認識システムはより正確になる。しかし、刈り込み技術に関連するエラー率
を大幅に低下させる一方で、計算上の節約を増大させるように、しきい値は経験
的に決定することが好ましい。
グ・ワードがシステム60に話し込まれる。トレーニング・ワードは、A/Dコ
ンバータ64によってデジタル・サンプルに変換され、フィーチャ抽出モジュー
ル66によってコードワードに変換される、一組のトレーニング・データを含む
。コードワード(すなわち、出力確率分布)は、トレーニング・モジュール65
に提供される。トレーニング・モジュール65は、キーボード40などの使用者
入力装置によって、使用者から各トレーニング・ワードの音声転写も受け取る。
トレーニング・モジュール65は、音声認識システムの残りの部分から、同じプ
ロセッサまたは別個のプロセッサの何れでも実施できる。トレーニング・データ
によって表される所望の語彙における各単語の各音素について、トレーニング・
モジュール65によって1つまたは複数のHMMが作成される。したがって、H
MMは語彙において音素に関連づけられたモデル出力分布を表す。次に、所望の
語彙において各単語に関連づけられたリーフを提供するために音素が構成される
ように、所望の語彙に基づいて接頭語ツリーが形成される。また、上記のように
、トレーニング・ワード(すなわち、データ・セット)はマイクロフォンから一
度に1単語ずつ受け取っても、以前に作成されたデータ・セットを含むフロッピ
ー・ディスクなどの従来のコンピュータ入力装置によって一括して入力してもよ
い。
存無音についてもヒドン・マルコフ・モデルをトレーニングする。所望の文脈依
存無音は、トレーニング・データによって表される。モデル化された無音は、上
記のように接頭語ツリーにも提供される。
である。システム120はシステム60に類似であり、同様の部分はそれに対応
して番号を付した。しかし、システム120は、連続的発話ならびに断続的な発
話を受け入れて認識するように構成されている。したがって、システム120は
、連続的音声認識語彙目録および言語モデル・メモリ124ならびに連続発話(
CS)/断続的発話(IS)インジケータ126を含む。
4は、接頭語ツリー形式などのようなあらゆる適当な方法で提供することができ
るCSR語彙目録を含む。したがって、通常の滑らかな発話の間には、システム
120は、音声認識タスクを遂行するに当たって、メモリ124によって提供さ
れる情報にアクセスする。しかし、使用者が断続的または不連続的な話し方で話
している場合には、システム120は、メモリ70内の無音分類語彙目録によっ
て提供された情報にアクセスするように切り替わる。メモリ70によって提供さ
れた無音分類語彙目録は、連続発話語彙目録よりも遙かに効率的で正確な断続的
な発話の認識につながるので、システム120は、滑らかなまたは連続的な発話
の途中で、断続的な発話を更に容易に且つ効率的に認識できる。
は断続的に話しているかを示すCS/IS信号をCS/ISインジケータ126
から受け取る。CS/ISインジケータ126は、多数の適当な方法で実施でき
る。例えば、実例的な一実施形態においては、CS/ISインジケータ126は
、無音検出モジュール68として単に実施されている。無音検出モジュール68
が大量の無音または、(経験的に判断することが好ましい特定量の)休止を検出
している場合、検索エンジン74は、それが話者が断続的または不連続な発話パ
ターンで話していることを示しているものと解釈するように構成されている。そ
の場合に、エンジン74は、メモリ124からではなく、メモリ70から語彙目
録にアクセスするように切り替える。
を操作するために使用者が対話するユーザ・インターフェイスに設けられている
。実例的な一実施形態においては、ユーザ・インターフェイスは使用者に、連続
的または断続的発話を選択するオプションを使用者に提供するだけである。使用
者が何らかの適当なユーザ入力装置を使用してその選択を行った後に、ユーザ・
インターフェイスは適切なCS/IS信号をエンジン74に提供する。もう1つ
の実例的な実施形態においては、ユーザ・インターフェイスは使用者に、認識基
準に基づいて連続的または断続的発話パターンで話すように命じる。例えば、認
識システム120が現在の単語シーケンスにおいて多数のエラーまたは修正を行
った場合には、エンジン74はユーザ・インターフェイス内のCS/ISインジ
ケータ126に、ユーザに断続的な話し方で話すことを命じるように命令する。
エンジン74は次に、単語の現在のシーケンスが正確に認識されるまで、更に正
確な音声認識を得るためにメモリ70によって提供される語彙目録に切り替える
。次に、エンジン74はユーザ・インターフェイスにあるCS/ISインジケー
タ126を制御して、ユーザに再び連続的な話し方で話し続けるように命令する
。エンジン74は、メモリ124内の語彙目録からの情報にアクセスするように
戻り、音声認識工程を継続する。もちろん、使用者がいつ連続的発話と断続的発
話との間で切り替えたかを判断するために、あらゆる他の適切なメカニズム(適
当な発見的方法など)を採用することもできる。
提供することが理解できる。例えば、本発明の無音分類語彙目録は、無音は語彙
目録における各単語の部分として埋め込まれているので、システムが単語間の移
行を考慮する必要性を抹消している。また、各単語には終わりの無音が埋め込ま
れているので、ツリーがトラバースされた後に、システムは更に効率的にN-bes
t仮定を保持することができる。更に、文脈依存的な方法で無音をモデル化する ことにより、音声認識工程は更に正確になり、刈り込みは認識タスクの更に早い
時期に達成することができるので、検索スペースを減らし効率性を高めることに
なる。更に、連続的発話語彙目録と断続的発話語彙目録との間で適応的に切り替
えることにより、本システムは、認識工程において断続的発話に遭遇したときに
、従来の連続的音声認識システムのクロスワード文脈調節特徴がエラーを発生す
る可能性を低下させる。これはまた、システムの正確性および効率性を高める。
ら逸脱することなく、形式的および詳細に変更を加えることができることを当業
者は認めるであろう。
ツリーを示した図である。
ック図である。
Claims (41)
- 【請求項1】 発話を示す入力データ・ストリームに基づいて発話を認識す
る音声認識方法であって、 ノードで接続された複数の音素ブランチを含む接頭語ツリーとして、前記入力
データ・ストリームによって表され、音素から構成された可能性のある単語を提
供するステップであって、各音素ブランチは音素に対応し、前記複数の音素ブラ
ンチは、前記接頭語ツリーの入力側で無音に対応する少なくとも1つの入力無音
ブランチと、前記接頭語ツリーの出力側で無音に対応する少なくとも1つの出力
無音ブランチとによって分類されている、前記のステップ、 前記接頭語ツリーをトラバースして、前記入力データ・ストリームによって表
される可能性のある単語を得るステップと、 を含む、音声認識方法。 - 【請求項2】 前記接頭語ツリーをトラバースするステップは、 前記接頭語ツリーの入力側から前記接頭語ツリーの出力側までの複数の連続的
ノードにスコアを割り当てることにより、前記接頭語ツリーをトラバースするス
テップであって、前記スコアは、そのとき前記スコアが割り当てられているノー
ドに至るブランチに対応する音素を前記入力データが表す可能性を示している、
前記のステップ、 前記接頭語ツリーの出力側で無音ノードに対応し、しきい値レベルを満たすス
コアを割り当てられているN個の単語を、前記入力データ・ストリームによって
表される可能性のある単語として選択する、前記のステップと、 を含む、請求項1に記載の音声認識方法。 - 【請求項3】 可能性のある単語を提供するステップは、 前記接頭語ツリーの入力側で前記接頭語ツリーに複数の無音ブランチを設ける
ステップであって、各無音ブランチはノードで少なくとも1つの音素ブランチに
接続されている、前記のステップ、 を含む、請求項1に記載の音声認識方法。 - 【請求項4】 前記接頭語ツリーに複数の無音ブランチを設けるステップは
、 前記接頭語ツリーに前記複数の無音ブランチを設けるステップであって、前記
複数の無音ブランチによって表される前記無音は、文脈に基づいて変化する、前
記のステップ、 を含む、請求項3に記載の音声認識方法。 - 【請求項5】 可能性のある語を提供するステップは、 前記接頭語ツリーの入力側で前記接頭語ツリーに前記複数の無音ブランチを設
けるステップであって、各無音ブランチによって表される無音は、前記無音ブラ
ンチが接続されている前記音素に基づいて、他の無音ブランチによって表される
音から変化する、前記のステップ、 を含む、請求項3に記載の音声認識方法。 - 【請求項6】 前記接頭語ツリーをトラバースするステップは、 前記無音ブランチと、前記入力データが、スコアが割り当てられているノード
に至る前記無音ブランチに対応する前記無音を表す可能性を示す前記音素ブラン
チとの間に接続された前記ノードにスコアを割り当てるステップ、 を含む、請求項3に記載の音声認識方法。 - 【請求項7】 前記接頭語ツリーをトラバースするステップは、 前記無音ブランチと前記音素ブランチとの間に接続された前記ノードに割り当
てられた前記スコアに基づいて、前記接頭語ツリーからブランチを取り除くステ
ップ、 を含む、請求項6記載の音声認識方法。 - 【請求項8】 取り除くステップは、 割り当てられた前記スコアが、取り除きしきい値レベルを満たすノードから出
る前記接頭語ツリーにおけるブランチを更にトラバースすることを打ち切るステ
ップ、 を含む、請求項7に記載の音声認識方法。 - 【請求項9】 発話を示す入力データ・ストリームに基づいて前記発話を認
識する音声認識方法であって、 前記音声認識方法は、無音によって分類された、前記入力データ・ストリーム
によって表される可能性のある単語から形成された見出し語を含む語彙目録を提
供するステップ、 前記入力データ・ストリームに基づいて、前記語彙目録を検索して前記入力デ
ータ・ストリームによって表される可能性のある単語を判断するステップと、 を含む、音声認識方法。 - 【請求項10】 語彙目録を提供するステップは、 前記語彙目録を、ノードに接続された複数の音素ブランチを含む接頭語ツリー
として提供するステップであって、各音素ブランチは音素に対応しており、前記
複数の音素ブランチは、前記接頭語ツリーの入力側で無音に対応する少なくとも
1つの入力無音ブランチと、前記接頭語ツリーの出力側で無音に対応する少なく
とも1つの出力無音ブランチとによって分類されている、前記のステップと、 前記接頭語ツリーをトラバースして、前記入力データ・ストリームによって表
される可能性のある単語を得るステップと、 を含む、請求項9に記載の音声認識方法。 - 【請求項11】 前記語彙目録を提供するステップは、 前記接頭語ツリーに、前記接頭語ツリーの入力側で複数の無音ブランチを設け
るステップであって、各無音ブランチはノードで少なくとも1つの音素ブランチ
に接続されている、前記のステップ、 を含む、請求項10に記載の音声認識方法。 - 【請求項12】 前記接頭語ツリーに複数の無音ブランチを設けるステップ
は、 前記接頭語ツリーに前記複数の無音ブランチを設けるステップであって、前記
複数の無音ブランチによって表される前記無音は、文脈に基づいて変化する、前
記のステップ、 を含む、請求項11に記載の音声認識方法。 - 【請求項13】 前記語彙目録を提供するステップは、 前記接頭語ツリーに、前記接頭語ツリーの入力側で前記複数の無音ブランチを
設けるステップであって、各無音ブランチによって表される無音は、前記無音ブ
ランチが接続される前記音素に基づいて、他の無音ブランチによって表される音
から変化する、前記のステップ、 を含む、請求項11に記載の音声認識方法。 - 【請求項14】 前記接頭語ツリーをトラバースするステップは、 前記無音ブランチと、前記入力データが、そのときスコアが割り当てられてい
る前記ノードにつながる前記無音ブランチに対応する前記無音を表す可能性を示
す前記音素ブランチとの間に接続された前記ノードにスコアを割り当てるステッ
プ、 を含む、請求項11に記載の音声認識方法。 - 【請求項15】 発話を示す入力データから前記発話を認識する音声認識方
法であって、 発話ユニットを表す発話ユニット・モデルを提供するステップ、 文脈依存無音の無音モデルを提供するステップ、 前記入力データに基づいて且つ、前記入力データによって表される可能性があ
る前記発話ユニット・モデルと前記無音モデルとに基づいて、発話ユニットおよ
び文脈依存無音を選択するステップ、 を含む、音声認識方法。 - 【請求項16】 前記発話ユニット・モデルを提供するステップと前記無音
モデルを提供するステップは、 前記発話ユニット・モデルと前記無音モデルとを、ノードに接続された複数の
音素ブランチを含む接頭語ツリーとして設けるステップであって、各音素ブラン
チは音素に対応しており、前記複数の音素ブランチは、前記接頭語ツリーの入力
側で無音に対応する少なくとも1つの入力無音ブランチと、前記接頭語ツリーの
出力側で無音に対応する少なくとも1つの出力無音ブランチとによって分類され
ている、前記のステップ、 を含む、請求項15に記載の音声認識方法。 - 【請求項17】 発話ユニットおよび文脈依存無音を選択するステップは、 前記接頭語ツリーをトラバースして、前記入力データ・ストリームによって表
される可能性がある単語を得るステップ、 含む、請求項16に記載の音声認識方法。 - 【請求項18】 発話を示す入力データを受け取るステップ、 前記発話が断続的か連続的かに関する指示を受け取るステップ、 前記発話が連続的である場合に、連続的発話データを含む連続的発話語彙目録
を使用することにより、前記入力データによって表される最も可能性の高い発話
ユニットを判断するステップ、 前記発話が断続的である場合に、断続的発話データを含む断続的発話語彙目録
を使用することにより、前記入力データによって表される最も可能性の高い発話
ユニットを判断するステップ、 を含む、音声認識方法。 - 【請求項19】 前記発話が断続的か連続的かに関する指示を受け取るステ
ップは、 前記入力データ内の無音を検出するステップ、 前記検出された無音に基づいて、前記入力データによって表される発話が断続
的か連続的かを判断するステップ、 を含む、請求項18に記載の音声認識方法。 - 【請求項20】 前記発話が断続的か連続的かに関する指示を受け取るステ
ップは、 認識中に単語エラーを監視するステップ、 前記監視された単語エラーに基づいて、前記入力データによって表される発話
が断続的か連続的かを判断するステップ、 を含む、請求項18に記載の音声認識方法。 - 【請求項21】 前記発話が断続的か連続的かに関する指示を受け取るステ
ップは、 前記入力データが断続的発話を表すのか連続的発話を表すのかを示すユーザ入
力信号を受け取るステップ、 を含む、請求項18に記載の音声認識方法。 - 【請求項22】 前記発話が断続的か連続的かに関する指示を受け取るステ
ップは、 認識基準に基づいて、断続的発話および連続的発話のうち所望の一方を選択す
るステップ、 使用者に前記選択された発話で話すように命令するステップ、 前記選択された発話に基づいて、前記発話が断続的か連続的かに関する指示を
提供するステップ、 を含む、請求項18に記載の音声認識方法。 - 【請求項23】 断続的発話語彙目録を使用して前記入力データによって表
される可能性が最も高い発話ユニットを判断するステップは、 無音によって分類された、前記入力データによって表される可能性のある単語
から形成された見出し語を含む断続的発話語彙目録を提供するステップ、 前記入力データに基づいて、前記断続的発話語彙目録を検索して、前記入力デ
ータによって表される可能性のある単語を判断するステップ、 を含む、請求項18に記載の音声認識方法。 - 【請求項24】 前記断続的発話語彙目録を提供するステップは、 前記断続的発話語彙目録を、ノードで接続された複数の音素ブランチを含む接
頭語ツリーとして提供するステップであって、各音素ブランチは音素に対応して
おり、前記複数の音素ブランチは、前記接頭語ツリーの入力側で無音に対応する
少なくとも1つの入力音素ブランチと、前記接頭語ツリーの出力側で無音に対応
する少なくとも1つの出力無音ブランチとによって分類される、前記のステップ
、 を含む、請求項23に記載の音声認識方法。 - 【請求項25】 前記語彙目録を提供するステップは、 前記接頭語ツリーに、前記接頭語ツリーの入力側で複数の無音ブランチを設け
るステップであって、各無音ブランチはノードで少なくとも1つの音素ブランチ
に接続されている、前記のステップ、 を含む、請求項24に記載の音声認識方法。 - 【請求項26】 前記接頭語ツリーに複数の無音ブランチを設けるステップ
は、 前記接頭語ツリーに前記複数の無音ブランチを設けるステップであって、前記
複数の無音ブランチによって表される無音は文脈に基づいて変化する、前記のス
テップ、 を含む、請求項25に記載の音声認識方法。 - 【請求項27】 ノードで接続された音素ブランチに対応する複数の音素を
含む接頭語ツリーであって、前記複数の音素ブランチは、前記接頭語ツリーの入
力側で無音に対応する少なくとも1つの入力無音ブランチと、前記接頭語ツリー
の出力側で無音に対応する少なくとも1つの出力無音ブランチとによって分類さ
れている接頭語ツリーを含む、構成要素を記憶させたコンピュータ読み取り可能
媒体。 - 【請求項28】 前記構成要素は、 前記接頭語ツリーをトラバースして、認識される発話を示す入力データ・スト
リームによって表される可能性のある単語を得るように構成されたトラバース構
成要素を含む、請求項27に記載のコンピュータ読み取り可能媒体。 - 【請求項29】 前記接頭語ツリーは、 前記接頭語ツリーの入力側の複数の無音ブランチであって、各無音ブランチは
ノードで前記音素ブランチの少なくとも1つに接続されている複数の無音ブラン
チを含む、請求項28に記載のコンピュータ読み取り可能媒体。 - 【請求項30】 前記複数の無音ブランチによって表される無音は、文脈に
基づいて変化する、請求項29に記載のコンピュータ読み取り可能媒体。 - 【請求項31】 前記複数の無音ブランチは前記接頭語ツリーの入力側で提
供されており、無音ブランチによって表される無音は、前記無音ブランチが接続
される音素に基づいて、他の無音ブランチによって表される無音から変化する、
請求項29に記載のコンピュータ読み取り可能媒体。 - 【請求項32】 認識される発話を示す入力データ・ストリームによって表
される可能性のある単語から形成された見出し語を含む語彙目録であって、前記
見出し語は無音によって分類されている語彙目録と、 前記入力データ・ストリームに基づいて前記語彙目録を検索して、前記入力デ
ータ・ストリームによって表される可能性のある単語を判断するように構成され
た検索構成要素とを含む、構成要素を記憶されたコンピュータ読み取り可能媒体
。 - 【請求項33】 発話ユニットを表す複数の発話ユニット・モデルと、 文脈依存無音の複数の無音モデルと、 認識される発話を示す入力データに基づき且つ、前記発話ユニット・モデルと
前記無音モデルとに基づいて、前記入力データによって表される可能性のある発
話ユニットと文脈依存無音とを選択するように構成された選択構成要素とを含む
、構成要素を記憶されたコンピュータ読み取り可能媒体。 - 【請求項34】 連続的発話データを含む連続的発話語彙目録と、 断続的発話データを含む断続的発話語彙目録と、 認識される発話を示す入力データを受け取って、前記発話が連続的であるとき
には前記連続的発話語彙目録を、前記発話が断続的であるときには前記断続的発
話語彙目録を使用することにより、前記入力データによって表される最も可能性
の高い発話ユニットを判断するように構成された認識器構成要素とを含む、構成
要素を記憶されたコンピュータ読み取り可能媒体。 - 【請求項35】 前記入力データが連続的発話を表すのか断続的発話を表す
のかを示す発話パターン・インジケータを提供するように構成された発話パター
ン構成要素であって、前記認識器構成要素は、前記発話パターン・インジケータ
が連続的発話を示すときには前記連続的発話語彙目録を、前記発話パターン・イ
ンジケータが断続的発話を示すときには前記断続的発話語彙目録を使用するよう
に構成されている発話パターン構成要素を含む、請求項34に記載のコンピュー
タ読み取り可能媒体。 - 【請求項36】 前記発話パターン構成要素は、 前記入力データにおいて検出された無音と、 認識中に行われたエラーと、 前記入力データが連続的発話を表すのか断続的発話を表すのかに関するユーザ
入力信号とのうち、少なくとも1つに基づいて、 前記入力データが断続的発話を表すのか連続的発話を表すのかを検出するよう
に構成されている、請求項35に記載のコンピュータ読み取り可能媒体。 - 【請求項37】 認識基準に基づいて連続的発話および断続的発話のうち一
方を選択し、連続的発話および断続的発話のうち前記選択された一方を使用する
ようにとの、ユーザに識別可能な命令を提供するように構成された命令構成要素
を含む、請求項34に記載のコンピュータ読み取り可能媒体。 - 【請求項38】 少なくとも1つの入力無音を示すデータを含む第1のデー
タ部分と、 複数の音素を示すデータを含む第2のデータ部分と、 少なくとも1つの出力無音を示すデータを含む第3のデータ部分とを含み、 前記第1、第2および第3のデータ部分は、トラバースされたときに、入力デ
ータ・ストリームを表す可能性のある単語を生ずる接頭語ツリーとして機能する
ように配置されている、データ構造を記憶されたコンピュータ読み取り可能媒体
。 - 【請求項39】 前記第1および第3のデータ部分は、前記接頭語ツリーが
、前記複数の音素のそれぞれに接続された異なった入力無音と出力無音とを含む
ように、それぞれ複数の無音を含む、請求項38に記載のコンピュータ読み取り
可能媒体。 - 【請求項40】 前記第1および第3のデータ部分におけるデータは、文脈
依存無音を示し、前記文脈依存無音は前記接頭語ツリーにおいてそれらが接続さ
れる音素に基づいて変化する、請求項38に記載のコンピュータ読み取り可能媒
体。 - 【請求項41】 入力データ・ストリームによって表される可能性のある単
語から形成された見出し語を有する語彙目録を示すデータを含む第1のデータ部
分と、 文脈依存無音を示すデータを含む第2のデータ部分とを含み、 前記第1および第2のデータ部分は、音声認識に使用されたときに、前記入力
データ・ストリームによって表される可能性のある単語を生ずる無音分類語彙目
録として機能する、データ構造を記憶されたコンピュータ読み取り可能媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/026,841 US6374219B1 (en) | 1997-09-19 | 1998-02-20 | System for using silence in speech recognition |
US09/026,841 | 1998-02-20 | ||
PCT/US1999/002803 WO1999042991A1 (en) | 1998-02-20 | 1999-02-09 | System for using silence in speech recognition |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2002504719A true JP2002504719A (ja) | 2002-02-12 |
JP2002504719A5 JP2002504719A5 (ja) | 2006-03-16 |
JP4414088B2 JP4414088B2 (ja) | 2010-02-10 |
Family
ID=21834100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000532846A Expired - Fee Related JP4414088B2 (ja) | 1998-02-20 | 1999-02-09 | 音声認識において無音を使用するシステム |
Country Status (7)
Country | Link |
---|---|
US (1) | US6374219B1 (ja) |
EP (1) | EP1055226B1 (ja) |
JP (1) | JP4414088B2 (ja) |
KR (1) | KR100651957B1 (ja) |
CN (1) | CN1205599C (ja) |
CA (1) | CA2315832C (ja) |
WO (1) | WO1999042991A1 (ja) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19635754A1 (de) * | 1996-09-03 | 1998-03-05 | Siemens Ag | Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US6665640B1 (en) | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6615172B1 (en) | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US7467089B2 (en) * | 2001-09-05 | 2008-12-16 | Roth Daniel L | Combined speech and handwriting recognition |
US7505911B2 (en) * | 2001-09-05 | 2009-03-17 | Roth Daniel L | Combined speech recognition and sound recording |
US7313526B2 (en) * | 2001-09-05 | 2007-12-25 | Voice Signal Technologies, Inc. | Speech recognition using selectable recognition modes |
US7526431B2 (en) * | 2001-09-05 | 2009-04-28 | Voice Signal Technologies, Inc. | Speech recognition using ambiguous or phone key spelling and/or filtering |
WO2004023455A2 (en) * | 2002-09-06 | 2004-03-18 | Voice Signal Technologies, Inc. | Methods, systems, and programming for performing speech recognition |
US7444286B2 (en) | 2001-09-05 | 2008-10-28 | Roth Daniel L | Speech recognition using re-utterance recognition |
US7809574B2 (en) | 2001-09-05 | 2010-10-05 | Voice Signal Technologies Inc. | Word recognition using choice lists |
US20040064315A1 (en) * | 2002-09-30 | 2004-04-01 | Deisher Michael E. | Acoustic confidence driven front-end preprocessing for speech recognition in adverse environments |
US7389230B1 (en) * | 2003-04-22 | 2008-06-17 | International Business Machines Corporation | System and method for classification of voice signals |
US9117460B2 (en) * | 2004-05-12 | 2015-08-25 | Core Wireless Licensing S.A.R.L. | Detection of end of utterance in speech recognition system |
US8032374B2 (en) * | 2006-12-05 | 2011-10-04 | Electronics And Telecommunications Research Institute | Method and apparatus for recognizing continuous speech using search space restriction based on phoneme recognition |
US8165877B2 (en) * | 2007-08-03 | 2012-04-24 | Microsoft Corporation | Confidence measure generation for speech related searching |
JP4757936B2 (ja) * | 2009-07-23 | 2011-08-24 | Kddi株式会社 | パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 |
US9514739B2 (en) * | 2012-06-06 | 2016-12-06 | Cypress Semiconductor Corporation | Phoneme score accelerator |
US9224384B2 (en) * | 2012-06-06 | 2015-12-29 | Cypress Semiconductor Corporation | Histogram based pre-pruning scheme for active HMMS |
US20140365221A1 (en) * | 2012-07-31 | 2014-12-11 | Novospeech Ltd. | Method and apparatus for speech recognition |
JP6235280B2 (ja) * | 2013-09-19 | 2017-11-22 | 株式会社東芝 | 音声同時処理装置、方法およびプログラム |
US8719032B1 (en) | 2013-12-11 | 2014-05-06 | Jefferson Audio Video Systems, Inc. | Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface |
US10121471B2 (en) * | 2015-06-29 | 2018-11-06 | Amazon Technologies, Inc. | Language model speech endpointing |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
CN105427870B (zh) * | 2015-12-23 | 2019-08-30 | 北京奇虎科技有限公司 | 一种针对停顿的语音识别方法和装置 |
KR102435750B1 (ko) * | 2017-12-14 | 2022-08-25 | 현대자동차주식회사 | 멀티미디어 장치 및 이를 포함하는 차량, 멀티미디어 장치의 방송 청취 방법 |
US11893983B2 (en) * | 2021-06-23 | 2024-02-06 | International Business Machines Corporation | Adding words to a prefix tree for improving speech recognition |
CN117351963A (zh) * | 2023-11-21 | 2024-01-05 | 京东城市(北京)数字科技有限公司 | 用于语音识别的方法、装置、设备和可读介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4336421A (en) | 1980-04-08 | 1982-06-22 | Threshold Technology, Inc. | Apparatus and method for recognizing spoken words |
US4977599A (en) * | 1985-05-29 | 1990-12-11 | International Business Machines Corporation | Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence |
US4852173A (en) | 1987-10-29 | 1989-07-25 | International Business Machines Corporation | Design and construction of a binary-tree system for language modelling |
US5159637A (en) | 1988-07-27 | 1992-10-27 | Fujitsu Limited | Speech word recognizing apparatus using information indicative of the relative significance of speech features |
US5202952A (en) * | 1990-06-22 | 1993-04-13 | Dragon Systems, Inc. | Large-vocabulary continuous speech prefiltering and processing system |
DE4130632A1 (de) | 1991-09-14 | 1993-03-18 | Philips Patentverwaltung | Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal |
US5848388A (en) * | 1993-03-25 | 1998-12-08 | British Telecommunications Plc | Speech recognition with sequence parsing, rejection and pause detection options |
JPH0728487A (ja) * | 1993-03-26 | 1995-01-31 | Texas Instr Inc <Ti> | 音声認識方法 |
US5623609A (en) * | 1993-06-14 | 1997-04-22 | Hal Trust, L.L.C. | Computer system and computer-implemented process for phonology-based automatic speech recognition |
US5794197A (en) * | 1994-01-21 | 1998-08-11 | Micrsoft Corporation | Senone tree representation and evaluation |
DE69616466T2 (de) | 1995-08-18 | 2002-12-12 | Gsbs Development Corp., Muskegon | Feueralarmsystem |
GB2305288A (en) * | 1995-09-15 | 1997-04-02 | Ibm | Speech recognition system |
US6076056A (en) * | 1997-09-19 | 2000-06-13 | Microsoft Corporation | Speech recognition system for recognizing continuous and isolated speech |
-
1998
- 1998-02-20 US US09/026,841 patent/US6374219B1/en not_active Expired - Lifetime
-
1999
- 1999-02-09 EP EP99906851.3A patent/EP1055226B1/en not_active Expired - Lifetime
- 1999-02-09 CA CA002315832A patent/CA2315832C/en not_active Expired - Fee Related
- 1999-02-09 CN CNB998030759A patent/CN1205599C/zh not_active Expired - Lifetime
- 1999-02-09 JP JP2000532846A patent/JP4414088B2/ja not_active Expired - Fee Related
- 1999-02-09 WO PCT/US1999/002803 patent/WO1999042991A1/en active IP Right Grant
- 1999-02-09 KR KR1020007008110A patent/KR100651957B1/ko not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
CA2315832A1 (en) | 1999-08-26 |
WO1999042991A1 (en) | 1999-08-26 |
CN1205599C (zh) | 2005-06-08 |
US6374219B1 (en) | 2002-04-16 |
KR20010034367A (ko) | 2001-04-25 |
KR100651957B1 (ko) | 2006-12-01 |
CN1307715A (zh) | 2001-08-08 |
CA2315832C (en) | 2004-11-16 |
JP4414088B2 (ja) | 2010-02-10 |
EP1055226B1 (en) | 2017-08-16 |
EP1055226A1 (en) | 2000-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4414088B2 (ja) | 音声認識において無音を使用するシステム | |
JP4351385B2 (ja) | 連続および分離音声を認識するための音声認識システム | |
US5884259A (en) | Method and apparatus for a time-synchronous tree-based search strategy | |
US9002705B2 (en) | Interactive device that recognizes input voice of a user and contents of an utterance of the user, and performs a response corresponding to the recognized contents | |
JP4221379B2 (ja) | 音声特性に基づく電話発信者の自動識別 | |
US8990084B2 (en) | Method of active learning for automatic speech recognition | |
US8280733B2 (en) | Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
JP4322785B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
WO2001022400A1 (en) | Iterative speech recognition from multiple feature vectors | |
KR19990014292A (ko) | 신뢰성 있는 바지-인과 음성검출의 조기종료에 유용한 연속 상태의 음성 인식에서의 단어 카운팅 방법과 절차 | |
KR101014086B1 (ko) | 음성 처리 장치 및 방법, 및 기록 매체 | |
CA2247747A1 (en) | Search and rescoring method for a speech recognition system | |
JP2002215187A (ja) | 音声認識方法及びその装置 | |
Renals et al. | Decoder technology for connectionist large vocabulary speech recognition | |
JP2003208195A (ja) | 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体 | |
US20040148163A1 (en) | System and method for utilizing an anchor to reduce memory requirements for speech recognition | |
JPH08241096A (ja) | 音声認識方法 | |
JP3583930B2 (ja) | 音声認識装置及びその方法 | |
JP2024032655A (ja) | 音声認識装置、音声認識方法、および、プログラム | |
JP2002341891A (ja) | 音声認識装置および音声認識方法 | |
JPH11288297A (ja) | 音声認識装置 | |
JPH09258770A (ja) | 音声認識のための話者適応化方法 | |
JPH1011087A (ja) | 未登録単語検出方法及び装置並びに音声認識装置 | |
JPH06266387A (ja) | 音声認識方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20051226 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20051226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060124 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060124 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20051226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090403 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090702 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091020 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091119 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121127 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121127 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131127 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |