[go: up one dir, main page]

JP2818362B2 - 音声認識装置のコンテキスト切換えシステムおよび方法 - Google Patents

音声認識装置のコンテキスト切換えシステムおよび方法

Info

Publication number
JP2818362B2
JP2818362B2 JP5212111A JP21211193A JP2818362B2 JP 2818362 B2 JP2818362 B2 JP 2818362B2 JP 5212111 A JP5212111 A JP 5212111A JP 21211193 A JP21211193 A JP 21211193A JP 2818362 B2 JP2818362 B2 JP 2818362B2
Authority
JP
Japan
Prior art keywords
context
memory
pattern matching
section
phonemes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP5212111A
Other languages
English (en)
Other versions
JPH06175682A (ja
Inventor
エム.スタンフォード ヴィンス
ジー.クライン アリス
エフ.ブリックマン ノーマン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH06175682A publication Critical patent/JPH06175682A/ja
Application granted granted Critical
Publication of JP2818362B2 publication Critical patent/JP2818362B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、複数の音声認識コンテ
キストを効率的方法で扱うことができるよう音声認識シ
ステムを適応させることに関する。
【0002】
【従来の技術】音声認識システムは、技術的によく知ら
れている。例えば、IBMタンゴラ・システム[10]
およびドラゴン・システムズのドラゴン30k口述シス
テムなどがある。一般に、それらは、シングルユーザー
で話者依存型で、各話者は「登録」と呼ばれるプロセス
の間に、話者の声パターンで音声認識装置を訓練する必
要がある。将来の認識セッションの中でそのシステムに
自分自身を識別しなければならない各話者のためにその
システムは話者プロフィールを維持する。一般に、話者
は、低レベル雑音環境においてローカルマイクを通し
て、認識装置を含む機械に話しかけながら、登録を行
う。登録の間に、話者は、原稿の長ったらしいセットを
読まなければならない。それにより音声認識システム
は、各特定話者の特徴に順応することができる。
【0003】独立した口述システム、たとえば、上述の
2つのシステムは、各単語の間に休止を挟んで、たどた
どしく不自然に各単語を発音することを各話者に要求す
る。それにより、音声認識装置は、単語の前後の無音期
間を単語境界として使うことによって、各単語の声パタ
ーンを識別することができる。一般に、音声認識装置が
持つことのできる適用業務はひとつである。音声認識装
置は、ひとつの機械の上で稼動するその適用業務(たと
えば、IBMタンゴラ・システムの場合、オフィス通
信)に対して訓練される。
【0004】話者依存型音声認識装置を含むマルチ・ユ
ーザ・システム環境は、各話者の声パターンを理解させ
るためにその認識装置を訓練することを要求する。声パ
ターンを記憶した複数のテンプレートを共通データベー
スに入れておいて、話者の内線電話による音声認識で特
定のテンプレートを使用するようなシステムが提案され
ているが、それでも各話者は、使用前にそのシステムを
訓練しなければならない。外線から電話した未登録の利
用者は、このシステムには受け入れられない。また、優
秀な電話音声認識装置は、種々の分野に関連した音声を
正確に認識できるようにするために、高速なコンテキス
ト切換えが可能になっている。たとえば、一般のオフィ
ス通信のために訓練されたシステムでは、数字列に対す
る認識精度は良くない。
【0005】カイーフ・リー(Kai-Fu Lee)の博士号論
文[1]の中で初めて述べられたスフィンクス・システ
ム(Sphinx System)は、話者独立型であり、且つ連続
会話音声から単語を認識することができるという点で、
以前の話者依存型認識システムに比べて優れていた。こ
のシステムは、実際の使用に先立つ個々の話者登録を必
要としなかった。ある話者依存型システムは、話者に4
〜6週毎に再登録することを要求して、そして利用者に
そのシステムによって理解されるために個別化されたプ
ラグ・イン・カートリッジを携帯することを要求する。
連続音声認識では単語の間の休止が不要なので、スフィ
ンクス・システムは、よりユーザフレンドリィなアプロ
ーチを音声認識システムの利用者に提供する。認識装置
のために発声を調節するように利用者がトレーニングし
なくてもよいので、これは電話音声認識システムにとっ
て重要である。
【0006】音声認識システムは、また、与えられた少
ない語彙での実時間処理を提供しなければならない。し
かし、スフィンクス・システムは、低レベル雑音システ
ム環境でマイクおよび比較的制約された語彙を使用し
て、1つの機械上で動くようプログラムされているとい
う点で、まだ従来の話者依存型認識装置の不利益のいく
つかを持っていた。それは、少なくとも、異なる場所お
よび複数の語彙に適用し得ないという点で、マルチ・ユ
ーザ用ではなかった。
【0007】本発明は従来技術の不利益の多くを克服す
るものである。
【0008】
【発明が解決しようとする課題】本発明の目的は、分散
コンピュータ・ネットワーク環境で複数の利用者のため
に話者独立型連続音声認識装置を提供することである。
【0009】本発明のもうひとつの目的は、大語彙の音
声認識装置のためのメモリ要求を最小限にすることであ
る。
【0010】本発明のもうひとつの目的は、複数の音声
適用業務がコンピュータ・ネットワークまたは電話で並
列に音声認識装置によって認められるのを可能にするこ
とである。帯域幅削減および電話線によってもたらされ
る雑音が、すべての音声認識システムの正確度を減少さ
せる。この影響は、各瞬間に認識されなければならない
単語のサイズによって増加する。このことにより、個々
のコンテキストのサイズが制限されるように、速く切換
えできる音声認識コンテキストを使用することが本発明
にとって重要となる。
【0011】
【課題を解決するための手段】これらの目的は、ローカ
ル・エリア・ネットワークまたは広域ネットワークにお
いてクライアント/サーバ型に構築される音声認識シス
テムによって達成される。音声認識システムは、前処理
を実行するフロントエンドおよび認識処理を実行するバ
ックエンドを含む多数のモジュールに分割される。フロ
ントエンドは、アナログまたはデジタルの音声データを
音声を表わす一組のケプストラム係数および垂直量子化
値に変換する。バックエンドは、ベクトル量子化値を使
用して、音素モデル、語対文法および音声のコンテキス
トに従って語を認識する。特定の単語がシステムによっ
て予期される状況を示す一連のコンテキストに語彙を分
割することによって、最小限のメモリでより大きい語彙
を使用することができる。利用者が音声認識作業を進め
るにつれ、コンテキストは共通データベースから高速に
切換えられる。システムは、また、コンピュータ・ネッ
トワークにおける複数の利用者適用業務の間のインター
フェースを含む。
【0012】システムは、そのほかに、システムを訓練
する訓練モジュール、およびコンテキストのための語対
文法を構築するタスク構築モジュールを含む。
【0013】図1は、ハードウェア構成に依存しないI
BM連続音声認識システム(ICSRS)の論理的構造
を図示する。
【0014】概略すると、ICSRSは以下の構成要素
から成る: a)データ収集: データは、アナログからデジタルへ
変換される。電話のデータの場合、他のチャネルから逆
多重化されることもある。 b)データ圧縮: ICSRSフロントエンドは、ベク
トル量子化ステップの間に300バイト/秒に音声デー
タストリームを調整し、再標本化し、圧縮する。 c)音声認識: バックエンドは、文法に応じたビーム
検索アルゴリズムを使用する音素モデルのパターン・マ
ッチングによって実際の音声認識を実行する。音素モデ
ルおよび語対文法は、一緒に認識コンテキストを構成す
る。音声データを獲得して圧縮するフロントエンドに対
して、1つまたは複数のバックエンド認識装置を、遠隔
にまたはローカルに配備することができる。 d)タスク構築: タスク構築構成要素は、オフライン
での認識コンテキストの構築を可能にし、実行時におけ
る使用のために語対文法をコンパイルし、そして適切な
音素モデルをタスク(コンテキスト)に連結する。 e)適用業務プログラム・インタフェース: API
は、RPCに基づく認識サービスを提供する。それらの
サービスは、データストリーム・コントロール、コンテ
キストのローディング、および起動を可能にする。
【0015】ローカルマイクからの高帯域音声データス
トリームまたは、たとえば電話のような低帯域音声デー
タストリームは、アナログ・デジタル(A/D)変換装
置100に受け取られる。A/D変換は、音声ワークス
テーションにおける、IBMM音声収集/再生カード
(M−ACPA)のようなハードウェア・カードによっ
て実行される。それは、高帯域または電話帯域信号を処
理し、一連のデジタルに標本化されたデータ点に変換す
る、デジタル信号処理装置を有する。この変換はデジタ
ルPBXによっても実行することができ、その場合8キ
ロヘルツ、8ビットのmu−law/a−law圧縮形
式の電話データストリームが生成される。本発明の目的
のために、高帯域は16キロヘルツ以上の標本化率であ
ることとして定義される。低帯域は、アメリカ合衆国で
一般の電話がデジタル音声に使う8キロヘルツ以下とし
て定義される。電話システムの場合、デジタル情報がP
BXから得られるので、A/D変換装置100はオプシ
ョンである。
【0016】フロントエンドにおける最初の主ブロック
は、データ調整および率変換(DCRC)ブロック10
2である。A/D変換装置100からのデジタル化され
た入力は、44または8キロヘルツである。IEEEの
文献[2]に記載されているような再標本化技術が使わ
れる。DCRC102は、デジタル化された信号に対し
アンチ・エイリアス・フィルタを使用することによっ
て、16キロヘルツまたは8キロヘルツのデータストリ
ームを生成する。DCRCおよびベクトル量子化プロセ
スは、本出願人の米国特許出願第948031号明細書
に詳述されている。
【0017】データ調整および率変換の後、音声データ
は、ベクトル量子化ブロック104に渡される。ベクト
ル量子化において、デジタル・データ・ストリームは5
0分の1秒のフレームに区分化され、16キロヘルツ、
11キロヘルツおよび8キロヘルツの標本化率でそれぞ
れ320個、220個および160個の標本が得られ
る。好ましい実施例では、1秒につき100フレームが
音声信号から計算される。それらは50パーセント重複
させられ、ハミング窓が適用される。ハミング窓は、文
献[3]の中でよく定義されている。音声データストリ
ームがフレームに分割された後、ベクトル量子化ステッ
プは、各フレームから特徴を抽出する。この抽出では、
LPCケプストラム係数と呼ばれる一連のパラメータが
計算される。ケプストラム係数は、パターン認識のため
に音声の重要な特徴のいくつかを抽出し、そして要約す
る。データの各フレームの中で、50分の1秒の音声が
カプセル化される。1秒につき50フレームが生成され
るように見えるかも知れないが、50パーセントの重複
があるので、1秒につき100フレームが生成される。
ケプストラム係数を計算するために、コサイン・ベルで
あるハミング窓が音声データに適用される。ハミング窓
は、抽出されたデータが、無限に持続する連続フーリエ
変換されたもののようにするために、音声フレームのデ
ータを変換する。
【0018】ハミング窓により変換されたフレームは、
音声スペクトルを平らにするために、z変換が1.0ー
0.97z-1であるフィルタ(文献[1]49ページ)
を使用して、予めフィルタされる。それから、14個の
自己相関係数が計算される。これらの自己相関係数は、
文献[4]にも記載されている周知の方法でケプストラ
ム係数を計算するために使用される。13個のケプスト
ラム係数が14個の自己相関係数から導出される。自己
相関係数およびケプストラム係数の数は、これらとは異
なっていてもよい。これらの係数の統計的属性が、最終
的ベクトル量子化ステップを導くために使用される。
【0019】ベクトル量子化は訓練プロセスでも使用さ
れる。基になるスフィンクス認識エンジンが電話機器
で、そして本発明のために動くのを可能にするため、以
下に説明する訓練データの調整は重要である。訓練プロ
セスでは、1万から1万5千の文がとられてフレームに
区分化され、そこから自己相関係数およびケプストラム
係数が計算される。文献[5]に記載されているk-手
法型クラスタリング手順を使用して、ケプストラム・フ
レーム特徴が256のクラスに分けられる。これらのケ
プストラム・クラスタのセンタおよびそのクラス・ラベ
ルを合わせて、以下「コードブック」と呼ぶ。
【0020】ベクトル量子化の最終ステップのために、
ブロック104は、どのクラスタ・センタがフレーム・
ケプストラム係数にもっとも近いかを決めるために、上
述の訓練手順で引き出されたコードブックを参照する。
そのコードブック値によって表わされたクラスに現フレ
ームが割り当てられる。256のクラスがあるので、V
Q値は1バイトで表わされる。微分ケプストラムおよび
フレームのべきから引き出される2個の他の1バイトV
Q値がある。3個の1バイトVQ値が1秒当たり100
回引き出され、それにより、2400ビット/秒の圧縮
音声データストリームが得られる。
【0021】ビーム検索(ブロック106)は、ベクト
ル量子化で引き出された時系列と、語対文法の語順とを
突き合わせ、各コンテキストを定義する。認識サーバ1
08は、利用者適用業務または認識クライアント(ブロ
ック110)と通信する。本発明のアーキテクチャは、
単一のバックエンドと通信する複数のフロントエンド
(ワークステーション)または複数のバックエンドと通
信する複数のフロントエンドを持つことができる。
【0022】システムは、オペレーションのレベルに応
じて組織され、具体化される。非常に速いデータ速度を
もつコミュニケーション・ネットワークの場合、音声標
本は、バックエンドを実行しているシステムに、フロン
トエンド・データ圧縮のために直接伝達され得る。複数
の利用者のためのバックエンドを含んでいるサーバに複
数の生デジタル音声データストリームを送ることができ
る。電話システムの場合、複数のチャネルが1つのバッ
クエンドへアクセスするか、あるいは、複数の利用者が
一緒にフロントエンドおよびバックエンドにアクセスす
る。
【0023】システムは、主に、音声認識サーバーとし
て配備された音声認識機能を中心に組織される。システ
ムは、複数の語対文法のうち、適用業務が現コンテキス
トとして選んだ語対文法に応じて動作する。適用業務
は、初期設定手順のような機能をサポートする適用業務
プログラム・インタフェース(API)コール、ステー
タス・コードおよびコマンドにより、音声認識システム
とのインターフェースをとる(文献[6]参照)。適用
業務は、特定の認識コンテキストをロードすること、そ
して必要なとき、認識のためにそのコンテキストを活動
化させることを認識サーバに要請する。通常、適用業務
が最初に実行されるとき、タスクがサーバによって事前
にロードされる。それらのタスクは、適用業務プログラ
ムの実行で要求されると、順に活動化される。
【0024】認識サーバ(ブロック108)における一
連のAPIコールは、利用者適用業務(ブロック11
0)が音声認識システムのサービスを要求することを可
能にする。認識サーバの種々の構成要素に従って、利用
者適用業務(ブロック110)は、同じコンピュータま
たは異なるコンピュータ上で実行することができる。同
じコンピュータでの実行の場合、利用者適用業務(ブロ
ック110)は、オペレーティングシステムによりサポ
ートされる共用メモリおよびセマフォを介して認識サー
バとインターフェースする。利用者適用業務(ブロック
110)と認識サーバが異なるコンピュータ上にあるな
らば、交信はRS232インターフェース、または文献
[7]にも記載されている周知の遠隔プロシージャ呼出
し(RPC)を介して行うことができる。
【0025】利用者適用業務の代表的な例として、エグ
ゼクティブ情報システム、口頭照会によるデータベース
・アクセス、ソフトウェア問題報告システムなどがあ
る。
【0026】もうひとつの例は、認識サーバを利用する
電話の音声応答装置(VRU)である。我々は、RIS
Cシステム/6000(商標)およびOS/2(商標)
をもつPS/2(商標)でこれらのサーバのいくつかの
バージョンを実施した。
【0027】Direct Talk 6000(商
標)は、同様の電話VRUシステムである。Direc
t Talk 6000において、ひとつの電話ライン
を扱うのではなく、VRUシステムは、同時に活動化し
得る24個の会話チャネルをもつT1ラインの処理を必
要とする。
【0028】認識サーバ・アーキテクチャは、複数のク
ライアントを扱うことができるが、これはDirect
Talkような大きな電話適用業務を処理するのに必要
である。
【0029】利用者適用業務は多くのコンテキストを予
め登録することができる。たとえば、レストラン・ロケ
ータ、ハードディスク・ヘルプ・デスクまたはソフトウ
ェア・ヘルプ・デスクは全て、複数のコンテキストを階
層的に予め登録することができる。各適用業務で複数の
利用者が、音声ストリームを入力することができる。各
適用業務は、実行中のタスクで必要なときに、特定の音
声ストリームのための特定のコンテキストの下で認識を
実行するよう認識サーバに指示する。
【0030】言い換えると、同じAPIを扱っている複
数の利用者が、それらの全てのタスクを、認識サーバの
1つまたは複数のバージョンに登録する。システムは、
要求されたタスクがすでにロードされているかどうかチ
ェックすることにより、複数の利用者のために認識タス
クが重複してロードされるのを避ける。
【0031】タスク構築(ブロック130)は、入力の
ためにいくつかの基本資源を持つ。ひとつはアメリカ英
語すなわち米語の辞書(ブロック132)で、これは2
0000語の発音を含む基本辞書である。補足辞書(ブ
ロック138)は、適用業務固有のもので、基本辞書に
ない語の発音を加えることを可能にする。これは、特定
の適用業務が認識のために必要とする固有名詞、頭字語
などを含む。
【0032】基本米語辞書(ブロック132)はタスク
構築モジュール(ブロック134)によって要求された
語および音素ストリングを供給する。タスク構築モジュ
ールは、また、当該タスクの下で音声サーバが何を認識
できるかを決めるために、適切なタスクBaukus−
Naur形式(BNF)文法をタスクBNFライブラリ
(ブロック136)から要求する。たとえば、地域のレ
ストランの情報を提供する適用業務においては、最初の
コンテキストは、フランス、イタリア、中国のような、
その呼出し元が希望するレストランの種類であるかもし
れない。ひとたびその種類が確立されると、次のコンテ
キストは、その特定の種類のレストランとなる。タスク
構築モジュールはBNFを分析して、パターン・マッチ
ングに必要なすべての語を見出し、そして基本米語辞書
(ブロック132)から音素表現を引き出す。必然的
に、各適用業務は、システムに加えなければならないそ
れ自身の補足語彙を持つ。そしてこれらは、補足辞書に
記憶される。たとえば、レストラン・ヘルプ・デスクで
は、基本米語辞書の中で見つけられる、「Italia
n」、「French」、「Spanish」のような
一般的英単語がある。しかし、レストラン名、特に「C
herchez LesFemmes」や「Chate
au Voulez」のような外国語の名前、またアメ
リカのレストランでも普通でない名前、たとえば「J.
J.Muldoon's」は、普通の辞書には存在せ
ず、従ってタスク補足辞書(ブロック138)に加えら
れなければならない。補足辞書(ブロック138)は、
また、基本米語辞書(ブロック132)にもあるが発音
の異なるローカル語彙を含むこともできる。そうする
と、基本米語辞書中のそれらの発音は無効となる。
【0033】タスク構築モジュール(ブロック134)
は、入力BNF文法を分析して、その文法の中の各語の
リストと、次に続くことができるすべての語のサブリス
トとを生成する。したがって、その文法の中の各語は、
後に続く正当な語、および各語の音素表示(図1には音
素モデルとして示されている)へのポインタのリストを
持つ。音素モデルは、種々のVQ値を観測する隠れマル
コフ・モデルである。隠れマルコフ・モデルはVQ値の
ための一群の離散確率分布である(ブロック104と同
様)。これらは、隠れマルコフ状態機械が音素の範囲内
で特定の状態にあるという条件で、VQ値の生起確率を
与える。隠れマルコフ・モデルを解説した文献は、
[8]の他にもいろいろある。
【0034】ビーム検索(ブロック106)は、訓練中
に生成されるコンテキスト感知型トリフォンの大きいテ
ーブルからの連結されたHMM音素モデルからなる語モ
デルを使用する。これらは、VQ値の観察された系列を
最も良く示す語系列の最適推定を行うために使用され
る。ビーム検索(ブロック106)は、語文法を用い
て、探索で使用される語モデルを構築するための音素モ
デルを選択する。
【0035】利用者適用業務は、認識サーバを制御す
る。たとえば、文献[9]に記載されているIBMプロ
グラム製品のDirectTalk/2(商標)は、電
話の応答およびレストラン・ロケータ機能の実行が可能
である。レストラン・ロケータ適用業務は、Direc
tTalk/2システムを使用して、それが16個のコ
ンテキストを持っていることを認識サーバに示し、そし
てレストラン・ロケータ・ヘルプ・デスクの一部である
コンテキストを事前にロードするための要求を出す。適
用業務が進行するにつれて、それは認識サーバのコンテ
キスト切換えを要求する。利用者は、電話ヘルプを電話
を通して呼び出す。レストラン・ロケータは、それから
認識サーバに最初のレベルのコンテキストの下で音声認
識を実行することを要求する。コントロールおよびデー
タは、認識サーバおよび利用者適用業務の間のAPIを
介して交換される。DirectTalk/2システム
の複数の装置が、同じ認識サーバを使用できる。
【0036】音声認識サーバは、所定の沈黙期間(利用
者が調整可能であるが、ほとんどの場合0.6秒であ
る)まで音声データを得る。この期間が観測されると、
認識が終了し、そして話者が話を終えたと仮定される。
【0037】ここで説明する音声認識システムは、複数
のハードウェア・プラットホーム上での様々な配置、お
よび複数のソフトウェア構成が可能になっている。たと
えば、1つの可能な構造が図2に示される。これは、前
述の論理構造50を、ローカル・エリア・ネットワーク
(LAN)160で接続されたワークステーション15
0、150' 、150" の物理構造へマッピングしたも
のである。その各ワークステーションは、複数の独立し
た利用者適用業務を実行することができ、そしてスレー
ブ・プロセッサとしての認識サーバ50のマスターであ
る。PBX170は、外部電話線に接続していて、電話
帯域幅データストリームを図1に示した認識サーバ50
のA/D変換装置100に送る。認識された音声を表わ
しているテキストが、認識サーバから利用者適用業務に
返される。
【0038】
【実施例】カーネギー・メロン大学のスフィンクス・シ
ステム[1]のような、隠れマルコフ・モデル(HM
M)の使用に基づいた音声認識システムは、HMMを記
憶するための大容量のメモリ必要とする。HMMの使用
を汎用トリフォンおよび機能語まで拡張するこのタイプ
のシステムでは、特定のタスクでの構築および使用のた
めに1000以上のHMMがアクセス可能でなければな
らないことがある。スフィンクスで使用されているよう
な多様なコードブックおよび複雑な音素モデルがある場
合、各HMMが10000バイト近くの記憶容量を要求
することは珍しくない。
【0039】HMMに基づいた音声認識を実際に構成す
る場合、話者依存/独立、孤立単語/連続音声、語彙サ
イズ、システムを構築する際の言語モデリングの必要
性、といったシステム・パラメータがしばしば考慮され
る。実際の運用システムに対するパフォーマンスおよび
機能要求は、すばやいアクセスのために、HMMが高速
のシステム・メモリにあるよう要求する応答時間要求を
含む、厳しい条件を使用コンピュータ・システムに課
す。認識の意思決定過程はHMMに含まれる統計情報と
極めて密接に結びつけられるので、1000のHMMを
必要とするかもしれない複雑なタスクの場合、単一タス
クのHMMのためだけでも10メガバイト(1000×
10000)の実記憶域が要求される。
【0040】音声認識をユーザ・インタフェースとする
適用業務は、その完全なシステム環境を備えるために多
くのタスクを含み得る。これは、あるタスク(コンテキ
スト)から別のタスクへの切換えを高速に行うというシ
ステム要求を課す。そして、ひとつのコンピュータシス
テムが、サーバのように、複数の利用者またはクライア
ントに対して音声認識サービスを提供するのであれば、
コンテキストまたはタスクの高速切換えはさらにいっそ
う重大になる。多量のHMMと密接に結びつけられたタ
スク・モデルを高速の記憶装置に書き込んだり、そこか
ら読み出したりすることは、実際のシステムに厳しいパ
フォーマンス要求を課す。また、全ての可能なタスクを
メモリに予めロードしておくことにすると、コンピュー
タ・システムの全体的な実メモリ要求が著しく増大す
る。
【0041】図3の機能ブロック図は、本発明に従う瞬
間的コンテキスト切換え式認識システムを示す。システ
ム50は、バス202によってCPU204に接続され
たメモリ200を含む。このほかに、PBX170を瞬
間的コンテキスト切換え式音声認識システム50に接続
する音声入力アダプタ100、キーボード・セレクタ2
06、ディスプレイ208、LAN160に接続された
通信アダプタ210、および他の出力アダプタ212
が、バス202に接続されている。
【0042】本発明では、各タスクに関連し且つ当該タ
スクに必要なHMM情報をそれぞれが(重複して)持つ
個々の認識モジュールを構築する代わりに、メモリ20
0上の1つのブロックに一度に全ての可能なHMMをロ
ードすることによって(図3の220参照)、上記問題
が解決される。ここで開示した音声認識システムにおい
て、各タスクは単純な言語モデルにより制御され、した
がって、各タスクに対する認識モジュールは、音素遷移
の正当な構文に対するネットワーク情報を含むが、必要
なHMMに関連したメモリに関する情報は持たない。統
計的HMM情報へのアクセスのために、以下に説明する
ように、メモリ・ポインタ・マップ230を含む付加的
な間接レベルが組み込まれる。HMMは、単一ファイル
として一度だけメモリに書き込まれ(220)、各コン
テキストまたはタスク(240)は共通プールから共用す
る。
【0043】タスク構築時に、HMM自身を記憶する代
わりに、オフセットすなわちマップ230が計算され、
必要な各HMMのためのタスク認識ロード・モジュール
とともに記憶される。これらのマップ230は、個々の
タスクが使用できる訓練されたすべてのHMM220を
含むファイルの中でのHMMの相対記憶位置を識別す
る。実際のシステム動作の間に、適用業務はそれらが必
要とするかもしれないすべてのタスク(240)およびマ
ップ230を事前に記憶する準備をする。特定の適用業
務が特定のタスクでの音声認識のために認識エンジンを
必要としたとき、要求されたタスク探索ネットワーク
が、いくつかのベース・ポインタのうちの1つを単純に
割り当てることによって組み込まれる。タスク探索ネッ
トワークに与えられたマップ230が 、実際のHMM
へのアクセスを提供する。
【0044】要求に応じて大きい探索ネットワークをメ
モリにロードするのに必要とされる時間と比較して、本
発明によるコンテキスト切換えは、瞬間に近いと考えら
れる。音声認識システムが、認識が必要な多数のコンテ
キストすなわちタスクを実メモリ上に予めロードすると
すると、本発明は、必要な実メモリの量を大幅に節約す
る。
【0045】図3のメモリ200はCPU204に接続
されており、メモリ200に記憶されたプログラム命令
がCPU204で実行される。
【0046】メモリ200の第1の区画が、複数の単語
W1、W2などを含むタスク1すなわちコンテキスト1
を含む。コンテキスト1の中の各々の単語は複数の音素
を持つ。それらの音素は、図3のメモリ200の中でト
リフォンとして組織される。たとえば、コンテキスト1
の中の単語W1は、トリフォンとして特徴づけられる音
素T0、T1およびT2を持つ。
【0047】図3のメモリ200は第2のコンテキスト
区画(コンテキスト2)を含む。コンテキスト2も複数
の単語W1、W2などを含むが、それらの単語は、一般
に、コンテキスト1の中の単語とは異なる。コンテキス
ト2の各単語は複数の音素を含む。それらの音素は、ま
た、トリフォンとして表わすことができる。たとえば、
コンテキスト2の中の単語W2は3個の音素T6、T4
およびT2を持つ。
【0048】メモリ200は、複数の音素パターン・マ
ッチング・データD0〜D9を含む統計的パターン・マ
ッチング・データ区画200も含む。
【0049】本発明に従って、第1のポインタ・マップ
が図3のメモリ200に含められる。この第1ポインタ
・マップは、複数のポインタを含む。各々のポインタ
は、コンテキスト1の中の各音素を特定のパターン・マ
ッチング・データと関連づける。たとえば、コンテキス
ト1の中の単語W1は音素T0を含み、そしてマップ2
30の中の第1ポインタ・マップが、この音素T0を統
計的パターン・マッチング・データD0に関連づける。
【0050】本発明に従って、さらに、マップ230
は、複数のポインタを含む第2のポインタ・マップを含
む。各々のポインタは、コンテキスト2の中の各音素を
特定のパターン・マッチング・データと関連づける。た
とえば、コンテキスト2の単語W2は、マップ230の
第2ポインタ・マップによって統計的パターン・マッチ
・データD2に関連づけられている音素T2を持つ。
【0051】図3において、バス202を介してメモリ
200に接続しているキーボード・セレクタ206は、
コンテキストおよびポインタ・マップの組合せ、すなわ
ちコンテキスト1および第1ポインタ・マップ、または
コンテキスト2および第2ポインタ・マップのいずれか
を選択する。この選択により、音声入力アダプタ100
から受け取った音声入力情報が文字ストリング情報に変
換され、ディスプレイ208、通信アダプタ210また
は他の出力アダプタ212に出力される。
【0052】この様に、メモリ200に新しいパターン
・マッチング・データ220をロードすることなく、音
声認識適用業務のコンテキストを、コンテキスト1から
コンテキスト2に変換することができる。
【0053】訓練プロセスについて以下に述べる。ビー
ム検索プロセスにおける単語モデルとテキストのパター
ン・マッチングに使用される音素HMMのパラメータを
評価するために、訓練手順は、既知の発音およびその言
葉通りのテキスト原稿を含む大きなライブラリを使用す
る。
【0054】最初に、テキスト原稿を用いて、基本米語
辞書から、訓練セットの語の発音を表す音素が検索され
る。次に、調音結合の効果的評価のために、音素HMM
のパラメータが、先行および後続の音素(トリフォンと
呼ばれる)のコンテキストの中で評価される。ここでの
評価手順は、文献[8]に記載されているバウム・ウェ
ルチ・フォーワード/バックワード繰返しアルゴリズム
である。HMMのパラメータは、訓練されたトリフォン
HMMが訓練セットの中で観察されたVQ値の時系列を
生成した確率を最大にするために、繰り返し調節され
る。
【0055】それぞれの隠れマルコフ音素モデルについ
て多くのパラメータがあり、それぞれの隠れ状態機械に
は、7つの状態および12の遷移がある。それぞれの遷
移には、3つのコードブックのそれぞれに対する確率分
布の中の256個の離散要素が関連づけられる。訓練手
順から得られたトリフォンHMMパラメータは、連続音
声中の調音結合効果を適切に表すのに必要なトリフォン
の数を減らすために、まとめられる。
【0056】
【発明の効果】本発明は以上説明したように構成されて
いるので、以下に記載されるような効果を奏する。
【0057】分散コンピュータ・ネットワーク・システ
ム環境の中で複数の利用者のために話者独立型連続音声
認識装置を提供することができる。
【0058】大語彙の音声認識装置におけるメモリ要求
を最小限にすることができる。
【0059】複数の音声適用業務がコンピュータ・ネッ
トワークまたは電話線の中で並列に音声認識装置によっ
て認識されるのを可能にすることができる。
【0060】 参照文献 [1] 「Large Vocabulary Speaker and Dependent Continuous Speech Recognition: The Sphinx System」 Kai-Fu Lee著 Cargnie Mellon University, Department of Electrical and Computer Engineering 出版, April,1988 [2] 「Programs for Digital Signal Procesing」 Digital Signal Processing Committee of the IEEE Acoustics, Speech, and Signal Processing Society 編、IEEE出版 1979 より「A General Program to Perform Sampling Rate Conversion of Data by Rational Ratios」Section 8.2, pp8.2-1 から 8.2-7 R.E.Crochiere著 [3] 「Theory and Application of Digital Signal Processing」 L. R. Rabiner, B.Gold 著 Prentice Hall 出版 1975, pp91 [4] 「Digital Processing of Speech Signals」 Prentice Hall Signal Processing Series 1978, pp401-402,411-413 [5] 「An Algorithm for Vector Quantizer Design」 Y. Linde, A. Buzo, R.Gray 著 IEEE Transactions on Communications, VOl. com-28, no.1, January 1980 [6] 「IBM Continuous Speech Recognition System Programmers Guide」 B. Booth著 1992 未出版 [7] 「AIX Distributed Environments : NFS,NCS,RPC,DS Migration, LAN Maintenance and Everything」 IBM International Technical Support Centers, Publication GG24-3489, May 8, 1990 [8] 「A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition」L. Rabiner 著 Readings in Speech Recognition A. Waibel,K. Lee 編 Morgan Kaufmann 出版, 1990, pp.267-296 [9] 「IBM CallPath DirectTalk/2 General Information and Planning Manual」 International Business Machines publication no. GB35-4403-0 1991 [10]「A Maximun Likelihood Approach to Continuous Speech Recognition」 L. R. Bahl, F. Jelinek, R. Mercer 著 Readings in Speech Recognition A. Waibel, K. Lee 編 Morgan Kaufmann 出版, 1990, pp.308-319
【図面の簡単な説明】
【図1】連続音声認識システムの論理的構造を示す図で
ある。
【図2】電話顧客業務通話センターにおける認識サーバ
のためのネットワークのブロック図である。
【図3】瞬間的コンテキスト切換え音声認識システムの
詳細なブロック図である。
【符号の説明】
50 音声認識システム 100 アナログ・デジタル変換装置 102 データ率変換装置 104 ベクトル量子化装置 106 ビーム検索装置 108 認識サーバ共用メモリ 110 認識クライアントまたは利用者適用業務 130 タスク構築 132 基本米語辞書 134 タスク構築モジュール 136 BNFライブラリ 138 補足辞書 150、150′、150″ 利用者適用業務ワークス
テーション 160 LAN 170 PBX 200 メモリ 202 バス 204 CPU 206 キーボード・セレクタ 208 ディスプレイ 210 通信アダプタ 212 その他出力アダプタ 220 統計的パターン・マッチング・データ 230 マップ 240 コンテキストまたはタスク
───────────────────────────────────────────────────── フロントページの続き (72)発明者 アリス ジー.クライン アメリカ合衆国 メリーランド州 20854ポトマック フォックス ラン 8708 (72)発明者 ノーマン エフ.ブリックマン アメリカ合衆国 メリーランド州 20854ポトマック ミルバーン ドライ ブ 11709 (56)参考文献 特開 昭62−56996(JP,A) 特開 昭62−103699(JP,A) 実開 昭60−191098(JP,U) 古井「ディジタル音声処理」東海大学 出版会(昭和60年)p.160−161 Royal Signals and Radar Establishme nt,Memorandom 4336(平 成2年) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 531 G10L 3/00 521

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 データ処理手段、音声入力手段、および
    文字ストリング出力手段に結合したメモリと、 上記メモリ上の、それぞれが複数の音素を含む複数の単
    語を含む第1のコンテキスト区画と、 上記メモリ上の、それぞれが複数の音素を含む複数の単
    語を含む第2のコンテキスト区画と、 上記メモリ上の、上記第1のコンテキスト区画および上
    記第2のコンテキスト区画によって共用される複数の音
    素パターン・マッチング・データを含むパターン・マッ
    チング区画と、 上記第1のコンテキスト区画に含まれる音素の各々を、
    上記パターン・マッチング・データの各々に関係づけ
    る、複数のポインタを含む第1のポインタ・マップと、 上記第2のコンテキスト区画に含まれる音素の各々を、
    上記パターン・マッチング・データの各々に関係づけ
    る、複数のポインタを含む第2のポインタ・マップと、 上記メモリに接続され、上記第1のコンテキスト区画お
    よび上記第1のポインタ・マップ、または上記第2のコ
    ンテキスト区画および上記第2のポインタ・マップを選
    択し、上記共用される複数の音素パターン・マッチング
    ・データを使用して、上記入力手段から受け取られた音
    声入力情報を上記文字ストリング出力手段への文字スト
    リング出力情報に変換する選択手段と、 を備え、音声認識適用業務のコンテキストが、上記メモ
    リ上に新しいパターン・マッチング・データをロードす
    ることなく切り換えられる、音声認識装置のコンテキス
    ト切換えシステム。
  2. 【請求項2】 それぞれが複数の音素を含む複数の単語
    を音声認識装置のメモリ上の第1のコンテキスト区画に
    ロードするステップと、 それぞれ複数の音素を含む複数の単語を上記メモリ上の
    第2のコンテキスト区画にロードするステップと、 上記第1のコンテキスト区画および上記第2のコンテキ
    スト区画によって共用される複数の音素パターン・マッ
    チング・データを上記メモリ上のパターン・マッチング
    区画にロードするステップと、 上記第1のコンテキスト区画にロードされる複数の音素
    の各々を、上記複数のパターン・マッチング・データの
    各々に関係づける複数のポインタを含む第1のポインタ
    ・マップを上記メモリにロードするステップと、 上記第2のコンテキスト区画にロードされる複数の音素
    の各々を、上記複数のパターン・マッチング・データの
    各々に関係づける、複数のポインタを含む第2のポイン
    タ・マップを上記メモリにロードするステップと、 上記第1のコンテキスト区画および上記第1のポインタ
    ・マップ、または上記第2のコンテキスト区画および上
    記第2のポインタ・マップを選択し、上記共用される複
    数のパターン・マッチング・データを使用して、音声入
    力情報を出力文字ストリングに変換するステップと、 を含み、音声認識適用業務のコンテキストが、上記メモ
    リ上に新しいパターン・マッチング・データをロードす
    ることなく切り換えられる、音声認識装置におけるコン
    テキスト切換え方法。
JP5212111A 1992-09-21 1993-08-05 音声認識装置のコンテキスト切換えシステムおよび方法 Expired - Fee Related JP2818362B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US94763492A 1992-09-21 1992-09-21
US07/947,634 1992-09-21

Publications (2)

Publication Number Publication Date
JPH06175682A JPH06175682A (ja) 1994-06-24
JP2818362B2 true JP2818362B2 (ja) 1998-10-30

Family

ID=25486464

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5212111A Expired - Fee Related JP2818362B2 (ja) 1992-09-21 1993-08-05 音声認識装置のコンテキスト切換えシステムおよび方法

Country Status (2)

Country Link
US (1) US5513298A (ja)
JP (1) JP2818362B2 (ja)

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5920836A (en) * 1992-11-13 1999-07-06 Dragon Systems, Inc. Word recognition system using language context at current cursor position to affect recognition probabilities
DE4440598C1 (de) * 1994-11-14 1996-05-23 Siemens Ag Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments
US5752232A (en) * 1994-11-14 1998-05-12 Lucent Technologies Inc. Voice activated device and method for providing access to remotely retrieved data
US5845246A (en) * 1995-02-28 1998-12-01 Voice Control Systems, Inc. Method for reducing database requirements for speech recognition systems
US6965864B1 (en) * 1995-04-10 2005-11-15 Texas Instruments Incorporated Voice activated hypermedia systems using grammatical metadata
CA2252664C (en) 1996-04-26 2002-04-02 At&T Corp. Method and apparatus for data transmission using multiple transmit antennas
GB9609321D0 (en) * 1996-05-03 1996-07-10 British Telecomm Automatic speech recognition
US5915238A (en) * 1996-07-16 1999-06-22 Tjaden; Gary S. Personalized audio information delivery system
US6665639B2 (en) * 1996-12-06 2003-12-16 Sensory, Inc. Speech recognition in consumer electronic products
US5960399A (en) * 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
US6856960B1 (en) * 1997-04-14 2005-02-15 At & T Corp. System and method for providing remote automatic speech recognition and text-to-speech services via a packet network
US8209184B1 (en) 1997-04-14 2012-06-26 At&T Intellectual Property Ii, L.P. System and method of providing generated speech via a network
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US6101472A (en) * 1997-04-16 2000-08-08 International Business Machines Corporation Data processing system and method for navigating a network using a voice command
US6192338B1 (en) * 1997-08-12 2001-02-20 At&T Corp. Natural language knowledge servers as network resources
US6006186A (en) * 1997-10-16 1999-12-21 Sony Corporation Method and apparatus for a parameter sharing speech recognition system
US6230122B1 (en) 1998-09-09 2001-05-08 Sony Corporation Speech detection with noise suppression based on principal components analysis
US6125341A (en) * 1997-12-19 2000-09-26 Nortel Networks Corporation Speech recognition system and method
US6233559B1 (en) * 1998-04-01 2001-05-15 Motorola, Inc. Speech control of multiple applications using applets
US6173258B1 (en) 1998-09-09 2001-01-09 Sony Corporation Method for reducing noise distortions in a speech recognition system
US6266637B1 (en) * 1998-09-11 2001-07-24 International Business Machines Corporation Phrase splicing and variable substitution using a trainable speech synthesizer
US6768979B1 (en) 1998-10-22 2004-07-27 Sony Corporation Apparatus and method for noise attenuation in a speech recognition system
US6246986B1 (en) * 1998-12-31 2001-06-12 At&T Corp. User barge-in enablement in large vocabulary speech recognition systems
US6195636B1 (en) * 1999-02-19 2001-02-27 Texas Instruments Incorporated Speech recognition over packet networks
DE19910236A1 (de) * 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
US20050261907A1 (en) * 1999-04-12 2005-11-24 Ben Franklin Patent Holding Llc Voice integration platform
US6477493B1 (en) * 1999-07-15 2002-11-05 International Business Machines Corporation Off site voice enrollment on a transcription device for speech recognition
US6374226B1 (en) * 1999-08-06 2002-04-16 Sun Microsystems, Inc. System and method for interfacing speech recognition grammars to individual components of a computer program
EP1222655A1 (en) * 1999-10-19 2002-07-17 Sony Electronics Inc. Natural language interface control system
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6665640B1 (en) 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
US6615172B1 (en) 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
KR100726875B1 (ko) * 1999-12-02 2007-06-14 톰슨 라이센싱 구두 대화에서의 전형적인 실수에 대한 보완적인 언어모델을 갖는 음성 인식 디바이스
US6389394B1 (en) * 2000-02-09 2002-05-14 Speechworks International, Inc. Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations
US7047196B2 (en) 2000-06-08 2006-05-16 Agiletv Corporation System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery
US6934678B1 (en) * 2000-09-25 2005-08-23 Koninklijke Philips Electronics N.V. Device and method for coding speech to be recognized (STBR) at a near end
US8095370B2 (en) 2001-02-16 2012-01-10 Agiletv Corporation Dual compression voice recordation non-repudiation system
CN1232948C (zh) * 2001-02-28 2005-12-21 声音鉴析公司 用于访问信息系统的自然语言查询系统
US7203645B2 (en) * 2001-04-27 2007-04-10 Intel Corporation Speech recognition system loading different recognition engines for different applications
US20030038737A1 (en) 2001-08-17 2003-02-27 Atng, Inc. System and method for compressing an intelligence bearing signal and communicating the compressed signal from a source site to a destination site
US20030061054A1 (en) * 2001-09-25 2003-03-27 Payne Michael J. Speaker independent voice recognition (SIVR) using dynamic assignment of speech contexts, dynamic biasing, and multi-pass parsing
US20040030559A1 (en) * 2001-09-25 2004-02-12 Payne Michael J. Color as a visual cue in speech-enabled applications
US20030061053A1 (en) * 2001-09-27 2003-03-27 Payne Michael J. Method and apparatus for processing inputs into a computing device
US20030065740A1 (en) * 2001-09-28 2003-04-03 Karl Allen Real-time access to health-related information across a network
US7133829B2 (en) * 2001-10-31 2006-11-07 Dictaphone Corporation Dynamic insertion of a speech recognition engine within a distributed speech recognition system
US7146321B2 (en) * 2001-10-31 2006-12-05 Dictaphone Corporation Distributed speech recognition system
US6785654B2 (en) * 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities
US20030130868A1 (en) * 2002-01-04 2003-07-10 Rohan Coelho Real-time prescription transaction with adjudication across a network
US20030130867A1 (en) * 2002-01-04 2003-07-10 Rohan Coelho Consent system for accessing health information
US20030130875A1 (en) * 2002-01-04 2003-07-10 Hawash Maher M. Real-time prescription renewal transaction across a network
US20030144846A1 (en) * 2002-01-31 2003-07-31 Denenberg Lawrence A. Method and system for modifying the behavior of an application based upon the application's grammar
US7236931B2 (en) * 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US7292975B2 (en) * 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
US7149687B1 (en) 2002-07-29 2006-12-12 At&T Corp. Method of active learning for automatic speech recognition
US7424433B2 (en) * 2003-12-12 2008-09-09 International Business Machines Corporation Method and system for dynamic conditional interaction in a VoiceXML run-time simulation environment
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US20070033256A1 (en) * 2005-07-12 2007-02-08 Yuval Ben-Itzhak System and method for the prevention of unsolicited calls and contacts
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US20100164914A1 (en) * 2007-02-13 2010-07-01 Ntera Limited Voltage feedback circuit for active matrix reflective display devices
US8731939B1 (en) 2010-08-06 2014-05-20 Google Inc. Routing queries based on carrier phrase registration
US9053708B2 (en) 2012-07-18 2015-06-09 International Business Machines Corporation System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment
US20150039316A1 (en) * 2013-07-31 2015-02-05 GM Global Technology Operations LLC Systems and methods for managing dialog context in speech systems
US8862467B1 (en) 2013-12-11 2014-10-14 Google Inc. Contextual speech recognition

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4144582A (en) * 1970-12-28 1979-03-13 Hyatt Gilbert P Voice signal processing system
GB1435779A (en) * 1972-09-21 1976-05-12 Threshold Tech Word recognition
US4087630A (en) * 1977-05-12 1978-05-02 Centigram Corporation Continuous speech recognition apparatus
DE3166082D1 (en) * 1980-12-09 1984-10-18 Secretary Industry Brit Speech recognition systems
US4489435A (en) * 1981-10-05 1984-12-18 Exxon Corporation Method and apparatus for continuous word string recognition
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement
US4718088A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition training method
JPS60191098U (ja) * 1984-05-28 1985-12-18 日本電気株式会社 音声認識装置
DE3674694D1 (de) * 1985-08-20 1990-11-08 Nat Res Dev Einrichtung und verfahren zur spracherkennung.
US4897878A (en) * 1985-08-26 1990-01-30 Itt Corporation Noise compensation in speech recognition apparatus
JPS6269297A (ja) * 1985-09-24 1987-03-30 日本電気株式会社 話者確認タ−ミナル
JP2537183B2 (ja) * 1985-10-30 1996-09-25 キヤノン株式会社 音声情報認識方法
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
GB8608289D0 (en) * 1986-04-04 1986-05-08 Pa Consulting Services Noise compensation in speech recognition
US4856066A (en) * 1986-11-06 1989-08-08 Lemelson Jerome H Speech communication system and method
GB8702910D0 (en) * 1987-02-10 1987-03-18 British Telecomm Multi-user speech recognition system
US4805218A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech analysis and speech recognition
US4829572A (en) * 1987-11-05 1989-05-09 Andrew Ho Chung Speech recognition system
US4933973A (en) * 1988-02-29 1990-06-12 Itt Corporation Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
US5054082A (en) * 1988-06-30 1991-10-01 Motorola, Inc. Method and apparatus for programming devices to recognize voice commands
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
JPH02274048A (ja) * 1989-04-14 1990-11-08 Ricoh Co Ltd 音声ダイヤリング装置
US5036538A (en) * 1989-11-22 1991-07-30 Telephonics Corporation Multi-station voice recognition and processing system
JP2989211B2 (ja) * 1990-03-26 1999-12-13 株式会社リコー 音声認識装置における辞書制御方式
US5212730A (en) * 1991-07-01 1993-05-18 Texas Instruments Incorporated Voice recognition of proper names using text-derived recognition models
US5265191A (en) * 1991-09-17 1993-11-23 At&T Bell Laboratories Technique for voice-based security systems
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US5317673A (en) * 1992-06-22 1994-05-31 Sri International Method and apparatus for context-dependent estimation of multiple probability distributions of phonetic classes with multilayer perceptrons in a speech recognition system
US5425129A (en) * 1992-10-29 1995-06-13 International Business Machines Corporation Method for word spotting in continuous speech

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Royal Signals and Radar Establishment,Memorandom 4336(平成2年)
古井「ディジタル音声処理」東海大学出版会(昭和60年)p.160−161

Also Published As

Publication number Publication date
JPH06175682A (ja) 1994-06-24
US5513298A (en) 1996-04-30

Similar Documents

Publication Publication Date Title
JP2818362B2 (ja) 音声認識装置のコンテキスト切換えシステムおよび方法
JP2524472B2 (ja) 電話回線利用の音声認識システムを訓練する方法
US5615296A (en) Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US7630878B2 (en) Speech recognition with language-dependent model vectors
Makhoul et al. State of the art in continuous speech recognition.
US5865626A (en) Multi-dialect speech recognition method and apparatus
Rudnicky et al. Survey of current speech technology
US6487534B1 (en) Distributed client-server speech recognition system
JPH06214587A (ja) 事前指定ワードスポッティングサブシステム及び事前ワードスポッティング方法
US6058363A (en) Method and system for speaker-independent recognition of user-defined phrases
EP1181684A1 (en) Client-server speech recognition
Ramabhadran et al. Acoustics-only based automatic phonetic baseform generation
US20040006469A1 (en) Apparatus and method for updating lexicon
Rabiner et al. Historical Perspective of the Field of ASR/NLU
Steinbiss et al. Continuous speech dictation—From theory to practice
Lee The conversational computer: an apple perspective.
Lévy et al. Reducing computational and memory cost for cellular phone embedded speech recognition system
Delić et al. A Review of AlfaNum Speech Technologies for Serbian, Croatian and Macedonian
Falavigna et al. Telephone speech recognition applications at IRST
Furui Toward the ultimate synthesis/recognition system.
Mohanty et al. Design of an Odia Voice Dialler System
Thalengala et al. Performance Analysis of Isolated Speech Recognition System Using Kannada Speech Database.
Mariño et al. Top-down bottom-up hybrid clustering algorithm for acoustic-phonetic modeling of speech.
McDermott et al. A telephone-based directory assistance system adaptively trained using minimum classification error/generalized probabilistic descent
Junqua From Cost Sensitive Embedded Applications to PC-based Systems

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees