JP2004518195A - データベース言語モデルによる自動対話システム - Google Patents
データベース言語モデルによる自動対話システム Download PDFInfo
- Publication number
- JP2004518195A JP2004518195A JP2002556389A JP2002556389A JP2004518195A JP 2004518195 A JP2004518195 A JP 2004518195A JP 2002556389 A JP2002556389 A JP 2002556389A JP 2002556389 A JP2002556389 A JP 2002556389A JP 2004518195 A JP2004518195 A JP 2004518195A
- Authority
- JP
- Japan
- Prior art keywords
- language model
- verbal
- database
- query
- dialogue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001755 vocal effect Effects 0.000 claims abstract description 70
- 238000000034 method Methods 0.000 claims description 26
- 230000003993 interaction Effects 0.000 abstract description 10
- 230000008569 process Effects 0.000 description 13
- 238000009428 plumbing Methods 0.000 description 11
- 230000004044 response Effects 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【発明の属する技術分野】
本発明は、口頭のデータベース照会のための自動対話システムに関する。このような対話システムは、特に、電話によって又は公衆ユーザ端末を通じて、情報を提供するか又は銀行取引を行うために用いられる。既知のシステムは、例えば、Swiss Railwaysの時刻表情報システム及びドイツの航空会社Lufthansaの航空情報システムである。例えばPeriphonics等の種々の会社により販売されているIVR(対話型音声応答)システムは、このカテゴリーに属する。これら全てのシステムにおいて、所望の情報を得る又は所望の取引を行うためにユーザが機械との口頭対話に入ることが一般的である。より新しいシステムは、口頭会話だけでなく、例えば視覚的スクリーン表示又はファックスメッセージの伝送等他のメディアも使用する。
【0002】
【従来の技術】
例えば口頭の電話番号ディレクトリ照会のための自動対話システムは、例えば国際特許出願公開第WO 96/13030号から既知である。これは特に、自動システムから電話番号ディレクトリデータベース(居住者リスト)に記載された人の電話番号を得るためにユーザが従うべき対話手順を説明する。この目的のため、ユーザは個々の対話項目(又は「ターン」)において町、通り及び名字を提示しなければならない。
【0003】
対話システムは、例えば、ユーザの言った各事項について、言った事項のそれぞれの類似性の既定の閾値に適合する可能な認識結果のリストを音声認識により作成して、これらのリストをディレクトリデータベースと比較することにより、これらの提示を相互関連させる。次にこの比較は、ユーザの各口頭発言と十分な類似性を持つ、町、通り及び名字の (空である可能性がある)データベース又はディレクトリエントリのリストをもたらす。
【0004】
このようにして決定されたディレクトリエントリの数が十分小さければ、例えば3より小さければ、対話システムはそれぞれの電話番号を含むこれらのディレクトリエントリをユーザに知らしめる。十分小さくなければ、システムは例えば、ユーザに町名の綴り等の他の情報を質問することができ、次にこの綴りは既に存在する情報と相互関連させられ、場合によってはディレクトリデータベースに存在する情報と相互関連される。しかし、このような手順は、上の認識ステップの1つが全く結果を供給しないか、対応するユーザの言った事項に非常に非類似である1つの結果しか供給しないときにも可能である。集められた情報がディレクトリデータベースとマッチすることができないとき、つまり、関連する情報に適合するディレクトリエントリを決定することができないとき、追加情報の要求の使用の他の可能性が生じる。例えばユーザが上述の場合に他の情報を与えることができないために、ユーザに所望の情報を供給する自動システムの全ての可能性が失敗したら、ユーザは引き続きの要求を処理する人間のオペレータに接続されることができる。
【0005】
ユーザ要求がディレクトリに存在するエントリに関連することが見込まれるかもしれないという事実は、上述の音声認識ステップの認識の正確さを向上させるのに使用されることができる。国際特許出願公開第WO 96/13030号は、この目的のために2つの方法を提案する。一方で、既知の情報に基づいて次の認識ステップのためのボキャブラリが準備されることができる。例えば、可能性のある町が既に認識されたのであれば、通り認識ステップのためのボキャブラリは、ディレクトリ中の既知の町のエントリに属する通りのみから構成されるように編集される。他方で、このボキャブラリ中の個々の単語は相互に重み付けされることができる(認識ネットワークの予備的重み付け)。この目的のため、町について言った事項とより高い類似性を持つ町に属する通りは、より低い類似性を持つ町の通りよりも高い重みを有する。
【0006】
用語及び一連の用語のこの重み付けは音声認識における言語モデルと呼ばれる(1996年1月の「BT Technology Journal」14, no. 1の177〜186ページのD.J.Attwater and S.J. Whittakerによる「Issues in large−vocabulary interactivespeech systems」も参照のこと)。国際特許出願公開第WO 96/13030号は、このような言語モデルがいかにディレクトリ及び既に受けたユーザが発した言葉の認識結果のみならず、例えば電話情報システムの場合は発呼者の人数又は時間帯等の他の状況にも依存することができるかを説明する。
【0007】
国際特許出願公開第WO 96/13030号では、第1認識ステップの後に他の認識ステップにおいて用いられるボキャブラリ、及び場合によっては言語モデルは、(既に得られた認識結果を考慮に入れて)ディレクトリから動的に計算される。従って、上の例では、通りのボキャブラリ及びこの言語モデルは、町名の認識後にディレクトリから動的に得られる。しかし、対話システムはユーザを反応のために長く待たせ過ぎてはならないため、このような手順は一方で、ボキャブラリ及び言語モデルが一部を形成する音声認識システムのディレクトリに対する密接な結合を必要とする。しかし他方で、どの瞬間において使用されているディレクトリも必要な短い時間中に必要な情報を供給することはできないため、特別に設計されたディレクトリが必要とされる。
【0008】
よってデータベースは、例えば、通りボキャブラリの動的な構成中に町認識ステップから得られた一つ以上の町に属する全ての通りを短時間で供給することができなくてはならない。この機能は完全に非典型的であり、従って、その時点で用いられている、例えば町及び名字のエントリに応答して、与えられた町及び与えられた名字に対して比較的少数の適したエントリを供給するように設計された、データベースのために多くの時間を必要とする。
【0009】
【発明が解決しようとする課題】
従って、本発明の目的は、冒頭段落で述べられたような種類の口頭のデータベース照会のための自動対話システムであって、音声認識システムとデータベースとの間のこの密接な結合無しに動作可能であると共に、現在使用中のデータベースと協動することもできるが、言語モデルの使用を通じて改良された認識性能の利点を利用する、自動対話システムを提供することである。
【0010】
【課題を解決するための手段】
この目的は、照会のために利用可能な幾つかの要素を含むデータベースエントリへの口頭照会のための自動対話システムであって、前記データベースエントリへ照会するための口頭発言の音声認識が言語モデルによりサポートされ、前記言語モデルは前記口頭発言が属する対話の開始前に作成され、前記言語モデルは前記対話の前記口頭発言中の照会のために提供される前記データベースエントリの前記要素の相互に関係する発生をモデル化する、自動対話システムにより達成される。言語モデルは対話の開始前に準備されるので、対応する情報がデータベースから速く得られなくてはならないという要件は不必要になる。従って、言語認識システムとデータベースとの間の密接な結合は省略されることができ、任意の瞬間で使用されているデータベースも使用可能になる。
【0011】
従属請求項2乃至4は、口頭のデータベース照会のための自動対話システムの枠組み中で用いられる言語モデルの特別な実施例に関する。実際にこれらの実施例の内どれが特に有利に用いられることができるかは、ユーザの行動に関する知識及び利用可能な対話システムのハードウェア及びソフトウェアリソースに依存する。
【0012】
しかし、請求項5では本発明は、照会のために利用可能な幾つかの要素を有するデータベースエントリへの口頭照会のための口頭発言を認識するための音声認識システムであって、当該音声認識システムは言語モデルによりサポートされ、前記言語モデルは前記口頭発言が属する対話の開始前に作成され、前記言語モデルは前記対話の前記口頭発言中の照会のために提供される前記データベースエントリの前記要素の相互に関係する発生をモデル化する、音声認識システムに関する。このような音声認識システムは、例えば、口頭のデータベース照会のための本発明による対話システムのシステム要素に用いられることができる。
【0013】
請求項6では、本発明は照会のために利用可能な幾つかの要素を有するデータベースエントリへの口頭照会のための口頭発言の音声認識をサポートするための言語モデルであって、前記言語モデルは前記口頭発言が属する対話の開始前に作成され、前記言語モデルは前記対話の前記口頭発言中の照会のために提供される前記データベースエントリの前記要素の相互に関係する発生をモデル化する、言語モデルに関する。このような言語モデルは、例えば口頭のデータベース照会のための本発明による対話システムの枠組み中で用いられることができる。
【0014】
しかし請求項7では、本発明は、照会のために利用可能な幾つかの要素を有するデータベースエントリに音声により照会する方法であって、前記データベースエントリへ照会するための口頭発言の音声認識が言語モデルによりサポートされ、前記言語モデルは前記口頭発言が属する対話の開始前に作成され、前記言語モデルは前記対話の前記口頭発言中の照会のために提供される前記データベースエントリの前記要素の相互に関係する発生をモデル化する、方法にも関する。
【0015】
本発明のこれらの及び他の側面及び利点は、以下で、実施例及び特に添付図を参照してより詳細に説明される。
【0016】
【発明の実施の形態】
図1は、口頭のデータベース照会のための本発明による対話システムの実施例を示す。システムユーザからの電話発呼が公衆電話網に結合された電話インターフェース1に入り、該インターフェースは、網インターフェースと結び付けるため及び入力及び出力のための制御ユニット2に、双方向に接続され、ここで発呼が受信され中央制御される。網インターフェース並びに入力及び出力のための制御ユニット2は、ユーザからの口頭発言を音声認識システム3に伝送し、この音声認識システム3は言語モデル6を用いて口頭発言を認識する、つまり、口頭発言からデータベース照会に関連する要素を抽出する。
【0017】
音声認識システム3におけるこの認識は、通常、口頭発言のテキストへの変換、いわゆるテキストから音声への変換又はより狭い意味での音声認識を第1に有する。この間、口頭発言に対して唯1つのテキスト仮定又は複数の異なったテキスト仮定が生じることが可能であり、これは引き続き、例えばいわゆるNベストリストの形又はワードグラフの形に構成される。加えて、このようなテキスト仮定には、例えば該テキスト仮定と口頭発言との類似性の度合いに対応する点数が与えられることができる。
【0018】
ユーザが、データベース中での照会のために利用可能なそれぞれのエントリの要素として含まれる単語しかボキャブラリとして使用することが許されないならば、テキストから音声へのステップは、綴りの扱いを除いては既に十分である。ユーザが他の単語、例えば挨拶の単語も用いることができるならば、テキスト仮定は音声認識システム3のデータベース照会に関係する要素に縮小されなければならない。音声認識の分野ではこの目的のための幾つかの方法が知られており、例えば、関係ない単語を一般的なパディングモデルでカバーしたり(ガーベッジモデリング、ワードスポッティング)、又は、テキスト仮定に例えば文法等の音声理解方法が適用されたりすることが可能である。
【0019】
ユーザが、データベース中での照会のために利用可能な対応するエントリの要素として含まれる、単語の綴り又は部分的な綴りを用いることも許されるならば、これらの綴りは対応するデータベースエントリの要素に変換される必要がある。ユーザが例えば、「EとYのMeyer (Meyer with E.Y.)」と言えば、「EとYの (with E. Y.)」という情報は、所望のデータベースエントリは文字列「E.Y.」を含むということを示す。例えば言語モデル中のこのような構成を処理するために、文法又は自動状態インジケータが再び使用されてもよい。
【0020】
これらの場合における音声認識システム3の結果は口頭発言に対する単一の認識仮定又は複数の他の認識仮定であって、当該仮定はデータベース照会に関連する要素に縮小される。更に、システムの性質によってはこれらの仮定に点数が与えられることも可能であり、これは例えば、それぞれの仮定が正しい認識を表す可能性の提示を与える。
【0021】
音声認識システム3は認識仮定又は複数の認識仮定を対話制御ユニット4に伝送し、該対話制御ユニットは、対話中にユーザより供給される情報を収集し、十分な情報が利用可能であればデータベース7のスキャニングを実行し、更に、システムの次の対話動作を計画する。この目的のため、前記対話制御ユニットは、ユーザに対する次のシステム発言のコンテンツを音声出力ユニット5に提供する。前記対話制御ユニットは例えば、次のシステム発言のテキストを伝送するか、又は代わりにこの場合はこの意味的な説明のみを伝送することができる。同様に、音声出力ユニット5は、テキストを音声に変換するか、又は加えて第1にテキストを意味的な説明から取得する、作業を実行する。
【0022】
音声出力ユニット5は次のシステム発言を音声の形で網インターフェース並びに入力及び出力のための制御ユニット2に伝送し、該制御ユニット2から前記口頭発言は電話インターフェース1を介してユーザへ最終的に送られる。
【0023】
図1は更に、口頭のデータベース照会のための対話システムの上述の手順の改良案として以下を示す:即ち、網インターフェース並びに入力及び出力のための制御ユニット2は、他の情報を対話制御ユニット4に供給することができる。この情報は例えば、発呼者の電話番号か又は単に電話が発呼された元の地域の指標であり得る。対話制御ユニット4は、例えば、この情報に基づいて異なった言語モデル6を選択してもよい。例えば実際上、主要な都市から電車接続を照会している発呼者は、通常、この都市から、又はこの都市へ、移動したいことが多い。これは、言語モデルの作成及び/又は使用の際の認識誤り率を低下させるのに利するように使用されることが可能である。この機能が用いられるのであれば、言語モデル要素6は、必要とされる言語モデルの組み込みに基づいて構成される必要がある。
【0024】
しかし、言語モデル6を、他のデータ、例えば時間又は曜日にも依存するようにすることもできる。鉄道照会の上の例では、仕事日と例えば日曜日とで大幅に異なった交通の流れが観察される。このような状況の存在は対話制御ユニット4により観察されるかもしれず、これは言語モデル6に伝えられることができるか、又は言語モデル6自身がこれを監視してもよい。
【0025】
当業者には、図1に示されて上述されたシステム構成は、多くの可能な変形例の内1つのみを表すに過ぎないことが明らかであろう。よって、音声理解の要素は幾つかのシステムにおいて別個のブロックとして収容されることができ、該ブロックは、音声からテキストへの変換要素により用いられるものとは異なった、自身の言語モデルを使用することもできる。ここで、国際特許出願公開第WO 96/13030号で説明されたようなシステム構成に対する他の可能性への特別な参照がなされ、これは本発明にも適用可能である。
【0026】
更に、図1には本システムの多くの詳細な側面が示されておらず、明確さのために議論されていないということは、当業者には明らかである。よって明らかに、多数の発呼がシステムブレイクダウンにはつながらないべきであり、又は、高いノイズレベルを持つ口頭発言が音声認識システム3の過負荷につながらないべきであるという事実をシステムは考慮しなければならない。対応する通信プロトコル及び誤り処置が提供される。よって、例えば、音声認識システム3からネットワーク並びに入力及び出力のための制御ユニット2への通信方向が通常提供され、これを通じて音声認識システム3は、次の口頭発言を処理する準備ができているということを知らせることができる。更に、国際特許出願公開第WO 96/13030号により表された先行技術に関する上の議論で言及されたように、例えば音声認識システム3が、例えば困難な音響状況のため口頭発言に対して全く認識結果を生じなかった場合には、他の機構が提供されるべきである。
【0027】
更に、対話システムの動作中、例えばユーザの発呼挙動に関する統計データが、言語モデル6を適応させるために収集され用いられることができる。最後に、図1に示されるデータベース7と言語モデル6との間の破線の関係は、言語モデル6がデータベース7に含まれる情報の使用により発生したことを示す。
【0028】
ここで、口頭のデータベース照会のための対話システムの動作が、会社の電話番号の紹介の例と関連して、図2及び3を参照してより詳細に説明される(ビジネスホワイトページ又はイエローページ)。この目的のため、図2は町の電話ディレクトリのイエローページからの抜粋を示す。この特定の場合において、以下の特徴をもつ4つのデータベースエントリが示される:会社オーナーの名字が音的に類似しており従って容易に混同され、更に、3つの会社がこれらの会社のデータベースエントリに指標「配管」を持っている。
【0029】
図3は、フローチャートの形で口頭のデータベース照会を扱う過程を示す。過程は、開始ブロック10で開始し、ここで、ユーザは処理ブロック11で個人の電話番号が欲しいのか(ホワイトページ検索)会社の電話番号が欲しいのか(イエローページ検索)尋ねられる。認識されたユーザの応答に応じて、コントロールは決定ブロック12の後に分岐する。ユーザが個人の電話番号が欲しいとき、以降の処理は、図3にそれ以上シーケンスが記載されないブロック13で行われる。しかし、ユーザが会社の電話番号を欲しいのであれば、ユーザは次にブロック14で、番号を要求している会社又は支社が所在地を有する町を尋ねられる。
【0030】
ユーザの応答が認識され、十分高い点数を持つ認識された町名のリストが作成される。ここではシーケンスのためリストが空でないと仮定される。従って、認識が失敗した場合もここには示されない。ブロック15で決定されるように、認識された町名の数がリスト中で十分に小さくなければ、例えば3より小さくなければ、システムは町の選択を制限することを試みる。この過程は、以降のステップにおいて過剰な数のデータベースエントリから選択が行われることを防ぐ役目を果たす。
【0031】
町の選択を更に制限するために、ブロック16において、それぞれの町に関する他の質問を尋ねることが既に何回試みられたかがカウンタを更新することにより第1に確認される。ここで、町に関して既にどの質問が尋ねられたかが確認されることもできる。次に、ブロック16からの情報の評価を通じて、この町に関する他のサーチがまだ行われるべきかがブロック17で決定される。他のサーチが行われないと決定された場合、ユーザとの他の議論はブロック18で人間のオペレータに引き渡されるが、本発明のこの実施例においてはこれより詳細には示されない。反対の場合、ブロック19で町に関する他の質問がユーザになされ、ユーザは例えば町名の綴りを言うように要求されるか、又は他には、例えば近くにある大きな町の名前が要求されるか、又は、単に町名を繰り返すことが要求される。このような追加の説明データ、例えば近くにある他のより大きな町の指示が処理されるのであれば、人工知能の方法が用いられることになり、これは、例えば図1の対話コントロール4のアーキテクチャ中に設置されることができる。
【0032】
続けて、ブロック15において町のリストがこれで十分小さくなったかがもう1度決定される。町名の制限過程は、ブロック16、17及び19を反復することにより何度も反復され、続いて対話はブロック18で人間のオペレータに引き渡されるか、又は町のリストはブロック15で十分小さいと評価される。この場合、つまり町のリストが十分小さい場合、ユーザはブロック20において電話番号が欲しい会社の名前を尋ねられる。引き続きブロック21で、対話システムが見込みのあるデータベース照会のために十分な情報を持っているかが決定される。システムは、例えば、ユーザが会社の活動の少なくとも一部、例えば「配管」をシステムに提供し、ユーザが会社名の構成要素、例えば「Meyer」というドイツ系の名前を言うことを必要とするかもしれない。十分に高い点数を持つ幾つかの認識選択肢が用いられれば、これは、例えば上で説明された町認識の場合において可能な選択肢のリストが十分小さいことを意味する。
【0033】
情報が、システムに対するデータベース照会がうまくいく期待が持てないように見えたら、この過程は町選択の制限におけるように進行し、会社に関するより正確な情報を得ることがどれほど試みられたかのカウンタがブロック22において更新される。会社との関連でどの質問がなされたかが更に確かめられる。続いて、ブロック22からの情報の評価を通じて、会社に関して他の質問が尋ねられるべきかブロック23において決定される。尋ねられないと決定されたとき、本発明のこの実施例において、ユーザとの他の会話はブロック18で再び人間のオペレータに引き渡される。反対の場合、ブロック24で会社に関する他の質問がユーザになされ、例えば会社名の綴りを言うように要求されるか、会社名の他の構成要素及び/又は会社活動が要求されるか、又は、単純に会社名を繰り返すことが要求される。
【0034】
そして、ブロック21においてデータベース照会によりこの時点で結果が得られそうかがもう1度決定される。ブロック22、23及び24の過程を通じての会社情報の他の絞込みは何度も反復され、対話がブロック18で人間のオペレータに引き渡されるか、又はデータベース照会が見込みがあるとブロック21で評価されるまで反復される。この場合、つまりデータベース照会が結果を与えそうであれば、この照会はブロック25で実行される。次にブロック26で、データベース照会に応答して供給される、十分に高い点数を持つデータベースエントリの数が十分に小さいか、例えば3より小さいかが決定される。十分小さくないと決定された場合、上で説明された過程による会社情報の他の絞込みのためか、又はブロック18で人間のオペレータに引き渡すためにシステムはブロック22に再び戻る。
【0035】
しかし、十分に高い点数を持つ返されたデータベースエントリの数が十分に小さければ、場合によってはブロック26への反復された入力の後、得られたデータベースエントリはブロック27において、電話番号と共にユーザに伝達される。この手順は最終ブロック28で終わる。この目的のため、システムは締めくくりの言葉をユーザに言い、電話の会話を終了させてよい。しかし代わりに、ユーザは他の照会に入る可能性を与えられるかもしれず、このユーザがこれを利用したければ、例えばブロック11において新しい入力を提供することができる。
【0036】
ユーザからの応答及び該応答の音声認識は、図3には明確には描かれない。しかし、ブロック11、14、19、20及び24中の各システムプロンプト後にユーザ応答が予期されることは自明である。これらのユーザ応答の音声認識は本発明による言語モデルによりサポートされ、前記言語モデルは口頭発言が属する対話の開始前に作成され、前記言語モデルは前記対話の前記口頭発言中の照会のために提供される前記データベースエントリの前記要素の相互に関係する発生をモデル化する。
【0037】
このような言語モデルはデータベース及び場合によっては他の電話発呼統計の使用により、ユーザとの対話の開始前に構成される。この対話中には言語モデルを適応させるためのデータベース照会は行われず、このため、音声認識システムに密接に結合し、且つ速く応答することができるデータベースはもう必要ではない。
【0038】
その瞬間までに観察された発呼統計及び/又は対話の開始前に変更されたデータベースに言語モデルを適応させるか、又は、例えばデータベースを完全に新たに構成するために、言語モデルを適応させる可能性がある。このような適応又は新しい構成は、これらの程度に応じて非常に複雑且つ時間がかかるかもしれないため、システムが少数の照会にしか対応しなくてよい時間、つまり例えば真夜中と早朝との間の時間に通常移動される。
【0039】
言語認識システムをサポートする本発明による言語モデルは、口頭発言による照会のために提供されるデータベースエントリの要素の相互に関係する発生をモデル化する。このような相互関係は、例えば、ほとんどの会社、特に大きな会社は、主要な都市に所在地を持つという事実、つまり、会社について照会するということは、ユーザが主要な都市の電話番号を欲しがることのより高い確率につながるという事実からなる。発呼統計は更に、ほとんどのユーザが、実際にデータベースに存在する電話番号を尋ねる、つまり、存在しないデータベースエントリにつながるような要素の同時発生の可能性は小さいものに過ぎないということを示す。
【0040】
相互に関係して発生する照会のために提供されるデータベースエントリの要素の口頭発言におけるモデリングにとって、これらの要素が一つの口頭発言で起こるか幾つかの口頭発言に分配されているかということは重要ではない。よって、例えば、電話番号が要求される町は図3のブロック14では別々に探される一方、会社に関する質問はブロック20で他の制限無しに尋ねられる。従って、多くのユーザは例えば(ドイツの)「ベルリン」の場合のように町も別々に言及する一方、おそらく会社のエントリの幾つかの要素を同時に、例えば、「錠前屋のMayrCompanyをお願いします」のように言う。しかし、言語モデルはこの場合にも関連する全情報、つまり、町認識における「会社、町:ベルリン」という情報、また、会社認識における「会社、町:ベルリン、Mayr、錠前屋」に対して点数を与えてよい。
【0041】
更に、言語モデルは、情報は異なった口頭発言において与えられるということも考慮に入れることができる、つまり、これは口頭発言の境界をモデル化することができる。一方で、例えば簡単のため、一つの口頭発言中からの情報のみを評価することもできる。
【0042】
図2に示されるデータベースエントリが、ここで、上述されたことの他の説明の例として、言語モデルの可能な実施例を実演するために用いられる。簡単のため、図2に示される4つのエントリの互いに対する比較点数が考慮される、つまり、例えば町選択に関する質問はこの説明では考慮されない。
【0043】
第1に、データベース中に存在する全エントリに点数1を与え、データベースに対応するエントリを持たない他の要素の組み合わせ全てには点数0が与えられるという可能性がある。これは、言語モデルがデータベース中に存在するエントリを「認められる」とし、他の要素の組み合わせ全てを「認められない」とする区別をするだけであると解釈されることができる。よって、図2の例で以下の表に示す点数が得られる。
【0044】
【表1】
【0045】
第2の可能性は、データベースに存在しない要素の組み合わせに対しては点数0が保持される一方、データベースに存在するエントリは相対的な頻度に基づいて判定されるというものである。そして、次の表に示される点数が上で与えられた例について得られる。
【0046】
【表2】
【0047】
「配管」という単語は4つのデータベースエントリの内3つで現れるため、「配管」に対する点数は3/4になる。「配管、Paul」という要素の組み合わせは4つのエントリの内2つで現れるため、この点数は2/4=1/2となる。同様に、「Geyer, Paul, 配管, ガス・水道整備」という要素の組み合わせは1/4点を与えら得る。ここでは要素の組み合わせの中の要素の順序は重要でないと仮定された、つまり、言語モデルは要素の組み合わせ中における要素の存在のみを判断する。しかし、これは本発明には必要ではない。よって、例えば、他の実施例では、「配管、Paul」と「Paul、配管」とは異なり、例えば観察されたユーザの好みをモデル化してもよい。
【0048】
言語モデル点数の第3の可能性は、データベースに存在しない要素の組み合わせに、ユーザに観察されたこのような組み合わせの相対的な頻度に応じて点数を割り当てるというものである。データベースに存在するエントリの相対的な頻度は更に上のように利用可能である。その結果、例えば以下の表に示される点数が得られるかもしれない。
【0049】
【表3】
【0050】
ここではユーザはデータベースに存在しない洗礼名(Karl)及び職業活動(配管)を用いることがないが、洗礼名と名字との組み合わせ(Geyer, Otto)、洗礼名と企業活動との組み合わせ(配管、Paul)及び完全な会社のID(Geyer, Paul, 配管, ガス・水道整備; Mayr, Elfriede, 配管)が、データベースエントリに属はしないが起こる可能性もある、と仮定された。
【0051】
データベースと例えばユーザ統計とから説明された言語モデルを評価する技術過程は当業者には十分知られている。ここでは、例としていわゆるN−gram言語モデル及び推計学的文法を挙げれば十分である。ユーザがデータベースエントリに属さない要素の組み合わせも用いる可能性は、例えばいわゆる割引処理によって考慮されることができる。
【図面の簡単な説明】
【図1】口頭のデータベース照会のための本発明による対話システムの実施例の図。
【図2】町の電話番号ディレクトリのイエローページからの抜粋の図。
【図3】可能な音声データベース照会の手順のフローチャートの形での図。
Claims (7)
- 照会のために利用可能な幾つかの要素を含むデータベースエントリへの口頭照会のための自動対話システムであって、前記データベースエントリへ照会するための口頭発言の音声認識が言語モデルによりサポートされ、前記言語モデルは前記口頭発言が属する対話の開始前に作成され、前記言語モデルは前記対話の前記口頭発言中の照会のために提供される前記データベースエントリの前記要素の相互に関係する発生をモデル化する、自動対話システム。
- 前記言語モデルが、照会された前記データベース中に含まれる口頭発言中のデータレコードの幾つかの要素の発生に点数1(「認められる」)を割り当て、
前記言語モデルが、照会された前記データベース中に含まれない口頭発言中のデータレコードの幾つかの要素の発生に点数0(「認められない」)を割り当てる
ことを特徴とする請求項1に記載の口頭のデータベース照会のための自動対話システム。 - 前記言語モデルが、照会された前記データベース中に含まれる口頭発言中のデータレコードの幾つかの要素の発生に照会された前記データベース中における前記要素の相対的な頻度に基づいて点数を割り当て、
前記言語モデルが、照会された前記データベース中に含まれない口頭発言中のデータレコードの幾つかの要素の発生に点数0(「認められない」)を割り当てる
ことを特徴とする請求項1に記載の口頭のデータベース照会のための自動対話システム。 - 前記言語モデルが、照会された前記データベース中に含まれる口頭発言中のデータレコードの幾つかの要素の発生に照会された前記データベース中における前記要素の相対的な頻度に基づいて点数を割り当て、
前記言語モデルが、照会された前記データベース中に含まれない口頭発言中のデータレコードの幾つかの要素の発生にこのような口頭発言の相対的な頻度に基づいて点数を割り当てる
ことを特徴とする請求項1に記載の口頭照会のための自動対話システム。 - 照会のために利用可能な幾つかの要素を有するデータベースエントリへの口頭照会のための口頭発言を認識するための音声認識システムであって、前記音声認識システムは言語モデルによりサポートされ、前記言語モデルは前記口頭発言が属する対話の開始前に作成され、前記言語モデルは前記対話の前記口頭発言中の照会のために提供される前記データベースエントリの前記要素の相互に関係する発生をモデル化する、音声認識システム。
- 照会のために利用可能な幾つかの要素を有するデータベースエントリへの口頭照会のための口頭発言の音声認識をサポートするための言語モデルであって、前記言語モデルは前記口頭発言が属する対話の開始前に作成され、前記言語モデルは前記対話の前記口頭発言中の照会のために提供される前記データベースエントリの前記要素の相互に関係する発生をモデル化する、言語モデル。
- 照会のために利用可能な幾つかの要素を有するデータベースエントリに口頭で照会する方法であって、前記データベースエントリへ照会するための口頭発言の音声認識が言語モデルによりサポートされ、前記言語モデルは前記口頭発言が属する対話の開始前に作成され、前記言語モデルは前記対話の前記口頭発言中の照会のために提供される前記データベースエントリの前記要素の相互に関係する発生をモデル化する、方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10100725A DE10100725C1 (de) | 2001-01-10 | 2001-01-10 | Automatisches Dialogsystem mit Datenbanksprachmodell |
PCT/IB2002/000035 WO2002056199A2 (en) | 2001-01-10 | 2002-01-08 | Automatic dialog system with database language model |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004518195A true JP2004518195A (ja) | 2004-06-17 |
Family
ID=7670078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002556389A Pending JP2004518195A (ja) | 2001-01-10 | 2002-01-08 | データベース言語モデルによる自動対話システム |
Country Status (6)
Country | Link |
---|---|
US (1) | US7424428B2 (ja) |
EP (1) | EP1352390B1 (ja) |
JP (1) | JP2004518195A (ja) |
AT (1) | ATE365362T1 (ja) |
DE (2) | DE10100725C1 (ja) |
WO (1) | WO2002056199A2 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10220524B4 (de) | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
EP1363271A1 (de) | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
US7729913B1 (en) * | 2003-03-18 | 2010-06-01 | A9.Com, Inc. | Generation and selection of voice recognition grammars for conducting database searches |
EP1693830B1 (en) * | 2005-02-21 | 2017-12-20 | Harman Becker Automotive Systems GmbH | Voice-controlled data system |
US20120124550A1 (en) * | 2006-02-22 | 2012-05-17 | Robert Nocera | Facilitating database application code translation from a first application language to a second application language |
US8608739B2 (en) * | 2008-07-22 | 2013-12-17 | Covidien Lp | Electrosurgical devices, systems and methods of using the same |
US9653066B2 (en) * | 2009-10-23 | 2017-05-16 | Nuance Communications, Inc. | System and method for estimating the reliability of alternate speech recognition hypotheses in real time |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
EP4318463A3 (en) | 2009-12-23 | 2024-02-28 | Google LLC | Multi-modal input on an electronic device |
US9026443B2 (en) | 2010-03-26 | 2015-05-05 | Nuance Communications, Inc. | Context based voice activity detection sensitivity |
US8352245B1 (en) | 2010-12-30 | 2013-01-08 | Google Inc. | Adjusting language models |
US8296142B2 (en) * | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US9514743B2 (en) * | 2014-08-29 | 2016-12-06 | Google Inc. | Query rewrite corrections |
US10134394B2 (en) | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0602296A1 (en) * | 1992-12-17 | 1994-06-22 | International Business Machines Corporation | Adaptive method for generating field dependant models for intelligent systems |
WO1994014270A1 (en) * | 1992-12-17 | 1994-06-23 | Bell Atlantic Network Services, Inc. | Mechanized directory assistance |
DE69423838T2 (de) * | 1993-09-23 | 2000-08-03 | Xerox Corp., Rochester | Semantische Gleichereignisfilterung für Spracherkennung und Signalübersetzungsanwendungen |
US5488652A (en) * | 1994-04-14 | 1996-01-30 | Northern Telecom Limited | Method and apparatus for training speech recognition algorithms for directory assistance applications |
DE69535797D1 (de) * | 1994-10-25 | 2008-09-11 | Cisco Tech Inc | Ansagedienste mit Spracheingabe |
DE69517705T2 (de) * | 1995-11-04 | 2000-11-23 | International Business Machines Corp., Armonk | Verfahren und vorrichtung zur anpassung der grösse eines sprachmodells in einem spracherkennungssystem |
US5839106A (en) * | 1996-12-17 | 1998-11-17 | Apple Computer, Inc. | Large-vocabulary speech recognition using an integrated syntactic and semantic statistical language model |
EP0979497A1 (en) * | 1997-10-08 | 2000-02-16 | Koninklijke Philips Electronics N.V. | Vocabulary and/or language model training |
US6418431B1 (en) * | 1998-03-30 | 2002-07-09 | Microsoft Corporation | Information retrieval and speech recognition based on language models |
JP3004254B2 (ja) * | 1998-06-12 | 2000-01-31 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置 |
DE19842151A1 (de) * | 1998-09-15 | 2000-03-23 | Philips Corp Intellectual Pty | Verfahren zur Adaption von linguistischen Sprachmodellen |
US6334102B1 (en) * | 1999-09-13 | 2001-12-25 | International Business Machines Corp. | Method of adding vocabulary to a speech recognition system |
US6622119B1 (en) * | 1999-10-30 | 2003-09-16 | International Business Machines Corporation | Adaptive command predictor and method for a natural language dialog system |
US6662157B1 (en) * | 2000-06-19 | 2003-12-09 | International Business Machines Corporation | Speech recognition system for database access through the use of data domain overloading of grammars |
US7043422B2 (en) * | 2000-10-13 | 2006-05-09 | Microsoft Corporation | Method and apparatus for distribution-based language model adaptation |
US6973429B2 (en) * | 2000-12-04 | 2005-12-06 | A9.Com, Inc. | Grammar generation for voice-based searches |
TW460060U (en) * | 2000-12-07 | 2001-10-11 | Hon Hai Prec Ind Co Ltd | Electrical connector with a fixation device |
-
2001
- 2001-01-10 DE DE10100725A patent/DE10100725C1/de not_active Expired - Fee Related
-
2002
- 2002-01-08 DE DE60220763T patent/DE60220763T2/de not_active Expired - Lifetime
- 2002-01-08 JP JP2002556389A patent/JP2004518195A/ja active Pending
- 2002-01-08 US US10/220,670 patent/US7424428B2/en not_active Expired - Lifetime
- 2002-01-08 WO PCT/IB2002/000035 patent/WO2002056199A2/en active IP Right Grant
- 2002-01-08 AT AT02729484T patent/ATE365362T1/de not_active IP Right Cessation
- 2002-01-08 EP EP02729484A patent/EP1352390B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
ATE365362T1 (de) | 2007-07-15 |
DE60220763T2 (de) | 2008-03-06 |
EP1352390B1 (en) | 2007-06-20 |
US20040034518A1 (en) | 2004-02-19 |
WO2002056199A3 (en) | 2002-12-05 |
US7424428B2 (en) | 2008-09-09 |
EP1352390A2 (en) | 2003-10-15 |
DE60220763D1 (de) | 2007-08-02 |
WO2002056199A2 (en) | 2002-07-18 |
DE10100725C1 (de) | 2002-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004518195A (ja) | データベース言語モデルによる自動対話システム | |
US6937986B2 (en) | Automatic dynamic speech recognition vocabulary based on external sources of information | |
US8914294B2 (en) | System and method of providing an automated data-collection in spoken dialog systems | |
Levin et al. | The AT&t-DARPA communicator mixed-initiative spoken dialog system. | |
US8019610B2 (en) | Automated sentence planning in a task classification system | |
US20030149566A1 (en) | System and method for a spoken language interface to a large database of changing records | |
US20040260543A1 (en) | Pattern cross-matching | |
JP4460305B2 (ja) | 音声対話システムの操作方法 | |
US20060004570A1 (en) | Transcribing speech data with dialog context and/or recognition alternative information | |
US20170249379A1 (en) | Apparatus and method for forming search engine queries based on spoken utterances | |
US20040153322A1 (en) | Menu-based, speech actuated system with speak-ahead capability | |
JP2001005488A (ja) | 音声対話システム | |
US20060259294A1 (en) | Voice recognition system and method | |
US8428241B2 (en) | Semi-supervised training of destination map for call handling applications | |
KR100822170B1 (ko) | 음성 인식 ars 서비스를 위한 데이터베이스 구축 방법및 시스템 | |
Georgila et al. | A speech-based human-computer interaction system for automating directory assistance services | |
EP0844574A2 (en) | A method of data search by vocal recognition of alphabetic type requests | |
Chou et al. | Natural language call steering for service applications. | |
JP2001228891A (ja) | 音声対話装置 | |
Wutiwiwatchai et al. | Advanced user interfaces in traffic information systems | |
Mrutti et al. | On the development on an in-car speech interaction system at IRST | |
AU2003291900A1 (en) | Voice recognition system and method | |
CA2510525A1 (en) | Voice recognition system and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20041021 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050107 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080204 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080403 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080725 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20080819 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20080912 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20101117 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20101122 |