JP2004518195A

JP2004518195A - データベース言語モデルによる自動対話システム

Info

Publication number: JP2004518195A
Application number: JP2002556389A
Authority: JP
Inventors: ジョーグローズ; ヴルグトヤーゲンテ
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-01-10
Filing date: 2002-01-08
Publication date: 2004-06-17
Also published as: ATE365362T1; DE60220763T2; EP1352390B1; US20040034518A1; WO2002056199A3; US7424428B2; EP1352390A2; DE60220763D1; WO2002056199A2; DE10100725C1

Abstract

本発明は、照会のために利用可能な幾つかの要素を含むデータベースエントリへの口頭照会のための自動対話システムであって、前記データベースエントリへ照会するための口頭発言の音声認識（３）が言語モデル（６）によりサポートされ、前記言語モデルは前記口頭発言が属する対話の開始前に作成され、前記言語モデルは前記対話の前記口頭発言中の照会のために提供される前記データベースエントリの前記要素の相互に関係する発生をモデル化する、自動対話システムに関する。

Description

【０００１】
【発明の属する技術分野】
本発明は、口頭のデータベース照会のための自動対話システムに関する。このような対話システムは、特に、電話によって又は公衆ユーザ端末を通じて、情報を提供するか又は銀行取引を行うために用いられる。既知のシステムは、例えば、ＳｗｉｓｓＲａｉｌｗａｙｓの時刻表情報システム及びドイツの航空会社Ｌｕｆｔｈａｎｓａの航空情報システムである。例えばＰｅｒｉｐｈｏｎｉｃｓ等の種々の会社により販売されているＩＶＲ（対話型音声応答）システムは、このカテゴリーに属する。これら全てのシステムにおいて、所望の情報を得る又は所望の取引を行うためにユーザが機械との口頭対話に入ることが一般的である。より新しいシステムは、口頭会話だけでなく、例えば視覚的スクリーン表示又はファックスメッセージの伝送等他のメディアも使用する。
【０００２】
【従来の技術】
例えば口頭の電話番号ディレクトリ照会のための自動対話システムは、例えば国際特許出願公開第ＷＯ９６／１３０３０号から既知である。これは特に、自動システムから電話番号ディレクトリデータベース（居住者リスト）に記載された人の電話番号を得るためにユーザが従うべき対話手順を説明する。この目的のため、ユーザは個々の対話項目（又は「ターン」）において町、通り及び名字を提示しなければならない。
【０００３】
対話システムは、例えば、ユーザの言った各事項について、言った事項のそれぞれの類似性の既定の閾値に適合する可能な認識結果のリストを音声認識により作成して、これらのリストをディレクトリデータベースと比較することにより、これらの提示を相互関連させる。次にこの比較は、ユーザの各口頭発言と十分な類似性を持つ、町、通り及び名字の（空である可能性がある）データベース又はディレクトリエントリのリストをもたらす。
【０００４】
このようにして決定されたディレクトリエントリの数が十分小さければ、例えば３より小さければ、対話システムはそれぞれの電話番号を含むこれらのディレクトリエントリをユーザに知らしめる。十分小さくなければ、システムは例えば、ユーザに町名の綴り等の他の情報を質問することができ、次にこの綴りは既に存在する情報と相互関連させられ、場合によってはディレクトリデータベースに存在する情報と相互関連される。しかし、このような手順は、上の認識ステップの１つが全く結果を供給しないか、対応するユーザの言った事項に非常に非類似である１つの結果しか供給しないときにも可能である。集められた情報がディレクトリデータベースとマッチすることができないとき、つまり、関連する情報に適合するディレクトリエントリを決定することができないとき、追加情報の要求の使用の他の可能性が生じる。例えばユーザが上述の場合に他の情報を与えることができないために、ユーザに所望の情報を供給する自動システムの全ての可能性が失敗したら、ユーザは引き続きの要求を処理する人間のオペレータに接続されることができる。
【０００５】
ユーザ要求がディレクトリに存在するエントリに関連することが見込まれるかもしれないという事実は、上述の音声認識ステップの認識の正確さを向上させるのに使用されることができる。国際特許出願公開第ＷＯ９６／１３０３０号は、この目的のために２つの方法を提案する。一方で、既知の情報に基づいて次の認識ステップのためのボキャブラリが準備されることができる。例えば、可能性のある町が既に認識されたのであれば、通り認識ステップのためのボキャブラリは、ディレクトリ中の既知の町のエントリに属する通りのみから構成されるように編集される。他方で、このボキャブラリ中の個々の単語は相互に重み付けされることができる（認識ネットワークの予備的重み付け）。この目的のため、町について言った事項とより高い類似性を持つ町に属する通りは、より低い類似性を持つ町の通りよりも高い重みを有する。
【０００６】
用語及び一連の用語のこの重み付けは音声認識における言語モデルと呼ばれる（１９９６年１月の「ＢＴＴｅｃｈｎｏｌｏｇｙＪｏｕｒｎａｌ」１４，ｎｏ．１の１７７〜１８６ページのＤ．Ｊ．ＡｔｔｗａｔｅｒａｎｄＳ．Ｊ．Ｗｈｉｔｔａｋｅｒによる「Ｉｓｓｕｅｓｉｎｌａｒｇｅ−ｖｏｃａｂｕｌａｒｙｉｎｔｅｒａｃｔｉｖｅｓｐｅｅｃｈｓｙｓｔｅｍｓ」も参照のこと）。国際特許出願公開第ＷＯ９６／１３０３０号は、このような言語モデルがいかにディレクトリ及び既に受けたユーザが発した言葉の認識結果のみならず、例えば電話情報システムの場合は発呼者の人数又は時間帯等の他の状況にも依存することができるかを説明する。
【０００７】
国際特許出願公開第ＷＯ９６／１３０３０号では、第１認識ステップの後に他の認識ステップにおいて用いられるボキャブラリ、及び場合によっては言語モデルは、（既に得られた認識結果を考慮に入れて）ディレクトリから動的に計算される。従って、上の例では、通りのボキャブラリ及びこの言語モデルは、町名の認識後にディレクトリから動的に得られる。しかし、対話システムはユーザを反応のために長く待たせ過ぎてはならないため、このような手順は一方で、ボキャブラリ及び言語モデルが一部を形成する音声認識システムのディレクトリに対する密接な結合を必要とする。しかし他方で、どの瞬間において使用されているディレクトリも必要な短い時間中に必要な情報を供給することはできないため、特別に設計されたディレクトリが必要とされる。
【０００８】
よってデータベースは、例えば、通りボキャブラリの動的な構成中に町認識ステップから得られた一つ以上の町に属する全ての通りを短時間で供給することができなくてはならない。この機能は完全に非典型的であり、従って、その時点で用いられている、例えば町及び名字のエントリに応答して、与えられた町及び与えられた名字に対して比較的少数の適したエントリを供給するように設計された、データベースのために多くの時間を必要とする。
【０００９】
【発明が解決しようとする課題】
従って、本発明の目的は、冒頭段落で述べられたような種類の口頭のデータベース照会のための自動対話システムであって、音声認識システムとデータベースとの間のこの密接な結合無しに動作可能であると共に、現在使用中のデータベースと協動することもできるが、言語モデルの使用を通じて改良された認識性能の利点を利用する、自動対話システムを提供することである。
【００１０】
【課題を解決するための手段】
この目的は、照会のために利用可能な幾つかの要素を含むデータベースエントリへの口頭照会のための自動対話システムであって、前記データベースエントリへ照会するための口頭発言の音声認識が言語モデルによりサポートされ、前記言語モデルは前記口頭発言が属する対話の開始前に作成され、前記言語モデルは前記対話の前記口頭発言中の照会のために提供される前記データベースエントリの前記要素の相互に関係する発生をモデル化する、自動対話システムにより達成される。言語モデルは対話の開始前に準備されるので、対応する情報がデータベースから速く得られなくてはならないという要件は不必要になる。従って、言語認識システムとデータベースとの間の密接な結合は省略されることができ、任意の瞬間で使用されているデータベースも使用可能になる。
【００１１】
従属請求項２乃至４は、口頭のデータベース照会のための自動対話システムの枠組み中で用いられる言語モデルの特別な実施例に関する。実際にこれらの実施例の内どれが特に有利に用いられることができるかは、ユーザの行動に関する知識及び利用可能な対話システムのハードウェア及びソフトウェアリソースに依存する。
【００１２】
しかし、請求項５では本発明は、照会のために利用可能な幾つかの要素を有するデータベースエントリへの口頭照会のための口頭発言を認識するための音声認識システムであって、当該音声認識システムは言語モデルによりサポートされ、前記言語モデルは前記口頭発言が属する対話の開始前に作成され、前記言語モデルは前記対話の前記口頭発言中の照会のために提供される前記データベースエントリの前記要素の相互に関係する発生をモデル化する、音声認識システムに関する。このような音声認識システムは、例えば、口頭のデータベース照会のための本発明による対話システムのシステム要素に用いられることができる。
【００１３】
請求項６では、本発明は照会のために利用可能な幾つかの要素を有するデータベースエントリへの口頭照会のための口頭発言の音声認識をサポートするための言語モデルであって、前記言語モデルは前記口頭発言が属する対話の開始前に作成され、前記言語モデルは前記対話の前記口頭発言中の照会のために提供される前記データベースエントリの前記要素の相互に関係する発生をモデル化する、言語モデルに関する。このような言語モデルは、例えば口頭のデータベース照会のための本発明による対話システムの枠組み中で用いられることができる。
【００１４】
しかし請求項７では、本発明は、照会のために利用可能な幾つかの要素を有するデータベースエントリに音声により照会する方法であって、前記データベースエントリへ照会するための口頭発言の音声認識が言語モデルによりサポートされ、前記言語モデルは前記口頭発言が属する対話の開始前に作成され、前記言語モデルは前記対話の前記口頭発言中の照会のために提供される前記データベースエントリの前記要素の相互に関係する発生をモデル化する、方法にも関する。
【００１５】
本発明のこれらの及び他の側面及び利点は、以下で、実施例及び特に添付図を参照してより詳細に説明される。
【００１６】
【発明の実施の形態】
図１は、口頭のデータベース照会のための本発明による対話システムの実施例を示す。システムユーザからの電話発呼が公衆電話網に結合された電話インターフェース１に入り、該インターフェースは、網インターフェースと結び付けるため及び入力及び出力のための制御ユニット２に、双方向に接続され、ここで発呼が受信され中央制御される。網インターフェース並びに入力及び出力のための制御ユニット２は、ユーザからの口頭発言を音声認識システム３に伝送し、この音声認識システム３は言語モデル６を用いて口頭発言を認識する、つまり、口頭発言からデータベース照会に関連する要素を抽出する。
【００１７】
音声認識システム３におけるこの認識は、通常、口頭発言のテキストへの変換、いわゆるテキストから音声への変換又はより狭い意味での音声認識を第１に有する。この間、口頭発言に対して唯１つのテキスト仮定又は複数の異なったテキスト仮定が生じることが可能であり、これは引き続き、例えばいわゆるＮベストリストの形又はワードグラフの形に構成される。加えて、このようなテキスト仮定には、例えば該テキスト仮定と口頭発言との類似性の度合いに対応する点数が与えられることができる。
【００１８】
ユーザが、データベース中での照会のために利用可能なそれぞれのエントリの要素として含まれる単語しかボキャブラリとして使用することが許されないならば、テキストから音声へのステップは、綴りの扱いを除いては既に十分である。ユーザが他の単語、例えば挨拶の単語も用いることができるならば、テキスト仮定は音声認識システム３のデータベース照会に関係する要素に縮小されなければならない。音声認識の分野ではこの目的のための幾つかの方法が知られており、例えば、関係ない単語を一般的なパディングモデルでカバーしたり（ガーベッジモデリング、ワードスポッティング）、又は、テキスト仮定に例えば文法等の音声理解方法が適用されたりすることが可能である。
【００１９】
ユーザが、データベース中での照会のために利用可能な対応するエントリの要素として含まれる、単語の綴り又は部分的な綴りを用いることも許されるならば、これらの綴りは対応するデータベースエントリの要素に変換される必要がある。ユーザが例えば、「ＥとＹのＭｅｙｅｒ（ＭｅｙｅｒｗｉｔｈＥ．Ｙ．）」と言えば、「ＥとＹの（ｗｉｔｈＥ．Ｙ．）」という情報は、所望のデータベースエントリは文字列「Ｅ．Ｙ．」を含むということを示す。例えば言語モデル中のこのような構成を処理するために、文法又は自動状態インジケータが再び使用されてもよい。
【００２０】
これらの場合における音声認識システム３の結果は口頭発言に対する単一の認識仮定又は複数の他の認識仮定であって、当該仮定はデータベース照会に関連する要素に縮小される。更に、システムの性質によってはこれらの仮定に点数が与えられることも可能であり、これは例えば、それぞれの仮定が正しい認識を表す可能性の提示を与える。
【００２１】
音声認識システム３は認識仮定又は複数の認識仮定を対話制御ユニット４に伝送し、該対話制御ユニットは、対話中にユーザより供給される情報を収集し、十分な情報が利用可能であればデータベース７のスキャニングを実行し、更に、システムの次の対話動作を計画する。この目的のため、前記対話制御ユニットは、ユーザに対する次のシステム発言のコンテンツを音声出力ユニット５に提供する。前記対話制御ユニットは例えば、次のシステム発言のテキストを伝送するか、又は代わりにこの場合はこの意味的な説明のみを伝送することができる。同様に、音声出力ユニット５は、テキストを音声に変換するか、又は加えて第１にテキストを意味的な説明から取得する、作業を実行する。
【００２２】
音声出力ユニット５は次のシステム発言を音声の形で網インターフェース並びに入力及び出力のための制御ユニット２に伝送し、該制御ユニット２から前記口頭発言は電話インターフェース１を介してユーザへ最終的に送られる。
【００２３】
図１は更に、口頭のデータベース照会のための対話システムの上述の手順の改良案として以下を示す：即ち、網インターフェース並びに入力及び出力のための制御ユニット２は、他の情報を対話制御ユニット４に供給することができる。この情報は例えば、発呼者の電話番号か又は単に電話が発呼された元の地域の指標であり得る。対話制御ユニット４は、例えば、この情報に基づいて異なった言語モデル６を選択してもよい。例えば実際上、主要な都市から電車接続を照会している発呼者は、通常、この都市から、又はこの都市へ、移動したいことが多い。これは、言語モデルの作成及び／又は使用の際の認識誤り率を低下させるのに利するように使用されることが可能である。この機能が用いられるのであれば、言語モデル要素６は、必要とされる言語モデルの組み込みに基づいて構成される必要がある。
【００２４】
しかし、言語モデル６を、他のデータ、例えば時間又は曜日にも依存するようにすることもできる。鉄道照会の上の例では、仕事日と例えば日曜日とで大幅に異なった交通の流れが観察される。このような状況の存在は対話制御ユニット４により観察されるかもしれず、これは言語モデル６に伝えられることができるか、又は言語モデル６自身がこれを監視してもよい。
【００２５】
当業者には、図１に示されて上述されたシステム構成は、多くの可能な変形例の内１つのみを表すに過ぎないことが明らかであろう。よって、音声理解の要素は幾つかのシステムにおいて別個のブロックとして収容されることができ、該ブロックは、音声からテキストへの変換要素により用いられるものとは異なった、自身の言語モデルを使用することもできる。ここで、国際特許出願公開第ＷＯ９６／１３０３０号で説明されたようなシステム構成に対する他の可能性への特別な参照がなされ、これは本発明にも適用可能である。
【００２６】
更に、図１には本システムの多くの詳細な側面が示されておらず、明確さのために議論されていないということは、当業者には明らかである。よって明らかに、多数の発呼がシステムブレイクダウンにはつながらないべきであり、又は、高いノイズレベルを持つ口頭発言が音声認識システム３の過負荷につながらないべきであるという事実をシステムは考慮しなければならない。対応する通信プロトコル及び誤り処置が提供される。よって、例えば、音声認識システム３からネットワーク並びに入力及び出力のための制御ユニット２への通信方向が通常提供され、これを通じて音声認識システム３は、次の口頭発言を処理する準備ができているということを知らせることができる。更に、国際特許出願公開第ＷＯ９６／１３０３０号により表された先行技術に関する上の議論で言及されたように、例えば音声認識システム３が、例えば困難な音響状況のため口頭発言に対して全く認識結果を生じなかった場合には、他の機構が提供されるべきである。
【００２７】
更に、対話システムの動作中、例えばユーザの発呼挙動に関する統計データが、言語モデル６を適応させるために収集され用いられることができる。最後に、図１に示されるデータベース７と言語モデル６との間の破線の関係は、言語モデル６がデータベース７に含まれる情報の使用により発生したことを示す。
【００２８】
ここで、口頭のデータベース照会のための対話システムの動作が、会社の電話番号の紹介の例と関連して、図２及び３を参照してより詳細に説明される（ビジネスホワイトページ又はイエローページ）。この目的のため、図２は町の電話ディレクトリのイエローページからの抜粋を示す。この特定の場合において、以下の特徴をもつ４つのデータベースエントリが示される：会社オーナーの名字が音的に類似しており従って容易に混同され、更に、３つの会社がこれらの会社のデータベースエントリに指標「配管」を持っている。
【００２９】
図３は、フローチャートの形で口頭のデータベース照会を扱う過程を示す。過程は、開始ブロック１０で開始し、ここで、ユーザは処理ブロック１１で個人の電話番号が欲しいのか（ホワイトページ検索）会社の電話番号が欲しいのか（イエローページ検索）尋ねられる。認識されたユーザの応答に応じて、コントロールは決定ブロック１２の後に分岐する。ユーザが個人の電話番号が欲しいとき、以降の処理は、図３にそれ以上シーケンスが記載されないブロック１３で行われる。しかし、ユーザが会社の電話番号を欲しいのであれば、ユーザは次にブロック１４で、番号を要求している会社又は支社が所在地を有する町を尋ねられる。
【００３０】
ユーザの応答が認識され、十分高い点数を持つ認識された町名のリストが作成される。ここではシーケンスのためリストが空でないと仮定される。従って、認識が失敗した場合もここには示されない。ブロック１５で決定されるように、認識された町名の数がリスト中で十分に小さくなければ、例えば３より小さくなければ、システムは町の選択を制限することを試みる。この過程は、以降のステップにおいて過剰な数のデータベースエントリから選択が行われることを防ぐ役目を果たす。
【００３１】
町の選択を更に制限するために、ブロック１６において、それぞれの町に関する他の質問を尋ねることが既に何回試みられたかがカウンタを更新することにより第１に確認される。ここで、町に関して既にどの質問が尋ねられたかが確認されることもできる。次に、ブロック１６からの情報の評価を通じて、この町に関する他のサーチがまだ行われるべきかがブロック１７で決定される。他のサーチが行われないと決定された場合、ユーザとの他の議論はブロック１８で人間のオペレータに引き渡されるが、本発明のこの実施例においてはこれより詳細には示されない。反対の場合、ブロック１９で町に関する他の質問がユーザになされ、ユーザは例えば町名の綴りを言うように要求されるか、又は他には、例えば近くにある大きな町の名前が要求されるか、又は、単に町名を繰り返すことが要求される。このような追加の説明データ、例えば近くにある他のより大きな町の指示が処理されるのであれば、人工知能の方法が用いられることになり、これは、例えば図１の対話コントロール４のアーキテクチャ中に設置されることができる。
【００３２】
続けて、ブロック１５において町のリストがこれで十分小さくなったかがもう１度決定される。町名の制限過程は、ブロック１６、１７及び１９を反復することにより何度も反復され、続いて対話はブロック１８で人間のオペレータに引き渡されるか、又は町のリストはブロック１５で十分小さいと評価される。この場合、つまり町のリストが十分小さい場合、ユーザはブロック２０において電話番号が欲しい会社の名前を尋ねられる。引き続きブロック２１で、対話システムが見込みのあるデータベース照会のために十分な情報を持っているかが決定される。システムは、例えば、ユーザが会社の活動の少なくとも一部、例えば「配管」をシステムに提供し、ユーザが会社名の構成要素、例えば「Ｍｅｙｅｒ」というドイツ系の名前を言うことを必要とするかもしれない。十分に高い点数を持つ幾つかの認識選択肢が用いられれば、これは、例えば上で説明された町認識の場合において可能な選択肢のリストが十分小さいことを意味する。
【００３３】
情報が、システムに対するデータベース照会がうまくいく期待が持てないように見えたら、この過程は町選択の制限におけるように進行し、会社に関するより正確な情報を得ることがどれほど試みられたかのカウンタがブロック２２において更新される。会社との関連でどの質問がなされたかが更に確かめられる。続いて、ブロック２２からの情報の評価を通じて、会社に関して他の質問が尋ねられるべきかブロック２３において決定される。尋ねられないと決定されたとき、本発明のこの実施例において、ユーザとの他の会話はブロック１８で再び人間のオペレータに引き渡される。反対の場合、ブロック２４で会社に関する他の質問がユーザになされ、例えば会社名の綴りを言うように要求されるか、会社名の他の構成要素及び／又は会社活動が要求されるか、又は、単純に会社名を繰り返すことが要求される。
【００３４】
そして、ブロック２１においてデータベース照会によりこの時点で結果が得られそうかがもう１度決定される。ブロック２２、２３及び２４の過程を通じての会社情報の他の絞込みは何度も反復され、対話がブロック１８で人間のオペレータに引き渡されるか、又はデータベース照会が見込みがあるとブロック２１で評価されるまで反復される。この場合、つまりデータベース照会が結果を与えそうであれば、この照会はブロック２５で実行される。次にブロック２６で、データベース照会に応答して供給される、十分に高い点数を持つデータベースエントリの数が十分に小さいか、例えば３より小さいかが決定される。十分小さくないと決定された場合、上で説明された過程による会社情報の他の絞込みのためか、又はブロック１８で人間のオペレータに引き渡すためにシステムはブロック２２に再び戻る。
【００３５】
しかし、十分に高い点数を持つ返されたデータベースエントリの数が十分に小さければ、場合によってはブロック２６への反復された入力の後、得られたデータベースエントリはブロック２７において、電話番号と共にユーザに伝達される。この手順は最終ブロック２８で終わる。この目的のため、システムは締めくくりの言葉をユーザに言い、電話の会話を終了させてよい。しかし代わりに、ユーザは他の照会に入る可能性を与えられるかもしれず、このユーザがこれを利用したければ、例えばブロック１１において新しい入力を提供することができる。
【００３６】
ユーザからの応答及び該応答の音声認識は、図３には明確には描かれない。しかし、ブロック１１、１４、１９、２０及び２４中の各システムプロンプト後にユーザ応答が予期されることは自明である。これらのユーザ応答の音声認識は本発明による言語モデルによりサポートされ、前記言語モデルは口頭発言が属する対話の開始前に作成され、前記言語モデルは前記対話の前記口頭発言中の照会のために提供される前記データベースエントリの前記要素の相互に関係する発生をモデル化する。
【００３７】
このような言語モデルはデータベース及び場合によっては他の電話発呼統計の使用により、ユーザとの対話の開始前に構成される。この対話中には言語モデルを適応させるためのデータベース照会は行われず、このため、音声認識システムに密接に結合し、且つ速く応答することができるデータベースはもう必要ではない。
【００３８】
その瞬間までに観察された発呼統計及び／又は対話の開始前に変更されたデータベースに言語モデルを適応させるか、又は、例えばデータベースを完全に新たに構成するために、言語モデルを適応させる可能性がある。このような適応又は新しい構成は、これらの程度に応じて非常に複雑且つ時間がかかるかもしれないため、システムが少数の照会にしか対応しなくてよい時間、つまり例えば真夜中と早朝との間の時間に通常移動される。
【００３９】
言語認識システムをサポートする本発明による言語モデルは、口頭発言による照会のために提供されるデータベースエントリの要素の相互に関係する発生をモデル化する。このような相互関係は、例えば、ほとんどの会社、特に大きな会社は、主要な都市に所在地を持つという事実、つまり、会社について照会するということは、ユーザが主要な都市の電話番号を欲しがることのより高い確率につながるという事実からなる。発呼統計は更に、ほとんどのユーザが、実際にデータベースに存在する電話番号を尋ねる、つまり、存在しないデータベースエントリにつながるような要素の同時発生の可能性は小さいものに過ぎないということを示す。
【００４０】
相互に関係して発生する照会のために提供されるデータベースエントリの要素の口頭発言におけるモデリングにとって、これらの要素が一つの口頭発言で起こるか幾つかの口頭発言に分配されているかということは重要ではない。よって、例えば、電話番号が要求される町は図３のブロック１４では別々に探される一方、会社に関する質問はブロック２０で他の制限無しに尋ねられる。従って、多くのユーザは例えば（ドイツの）「ベルリン」の場合のように町も別々に言及する一方、おそらく会社のエントリの幾つかの要素を同時に、例えば、「錠前屋のＭａｙｒＣｏｍｐａｎｙをお願いします」のように言う。しかし、言語モデルはこの場合にも関連する全情報、つまり、町認識における「会社、町：ベルリン」という情報、また、会社認識における「会社、町：ベルリン、Ｍａｙｒ、錠前屋」に対して点数を与えてよい。
【００４１】
更に、言語モデルは、情報は異なった口頭発言において与えられるということも考慮に入れることができる、つまり、これは口頭発言の境界をモデル化することができる。一方で、例えば簡単のため、一つの口頭発言中からの情報のみを評価することもできる。
【００４２】
図２に示されるデータベースエントリが、ここで、上述されたことの他の説明の例として、言語モデルの可能な実施例を実演するために用いられる。簡単のため、図２に示される４つのエントリの互いに対する比較点数が考慮される、つまり、例えば町選択に関する質問はこの説明では考慮されない。
【００４３】
第１に、データベース中に存在する全エントリに点数１を与え、データベースに対応するエントリを持たない他の要素の組み合わせ全てには点数０が与えられるという可能性がある。これは、言語モデルがデータベース中に存在するエントリを「認められる」とし、他の要素の組み合わせ全てを「認められない」とする区別をするだけであると解釈されることができる。よって、図２の例で以下の表に示す点数が得られる。
【００４４】
【表１】

【００４５】
第２の可能性は、データベースに存在しない要素の組み合わせに対しては点数０が保持される一方、データベースに存在するエントリは相対的な頻度に基づいて判定されるというものである。そして、次の表に示される点数が上で与えられた例について得られる。
【００４６】
【表２】

【００４７】
「配管」という単語は４つのデータベースエントリの内３つで現れるため、「配管」に対する点数は３／４になる。「配管、Ｐａｕｌ」という要素の組み合わせは４つのエントリの内２つで現れるため、この点数は２／４＝１／２となる。同様に、「Ｇｅｙｅｒ，Ｐａｕｌ，配管，ガス・水道整備」という要素の組み合わせは１／４点を与えら得る。ここでは要素の組み合わせの中の要素の順序は重要でないと仮定された、つまり、言語モデルは要素の組み合わせ中における要素の存在のみを判断する。しかし、これは本発明には必要ではない。よって、例えば、他の実施例では、「配管、Ｐａｕｌ」と「Ｐａｕｌ、配管」とは異なり、例えば観察されたユーザの好みをモデル化してもよい。
【００４８】
言語モデル点数の第３の可能性は、データベースに存在しない要素の組み合わせに、ユーザに観察されたこのような組み合わせの相対的な頻度に応じて点数を割り当てるというものである。データベースに存在するエントリの相対的な頻度は更に上のように利用可能である。その結果、例えば以下の表に示される点数が得られるかもしれない。
【００４９】
【表３】

【００５０】
ここではユーザはデータベースに存在しない洗礼名（Ｋａｒｌ）及び職業活動（配管）を用いることがないが、洗礼名と名字との組み合わせ（Ｇｅｙｅｒ，Ｏｔｔｏ）、洗礼名と企業活動との組み合わせ（配管、Ｐａｕｌ）及び完全な会社のＩＤ（Ｇｅｙｅｒ，Ｐａｕｌ，配管，ガス・水道整備；Ｍａｙｒ，Ｅｌｆｒｉｅｄｅ，配管）が、データベースエントリに属はしないが起こる可能性もある、と仮定された。
【００５１】
データベースと例えばユーザ統計とから説明された言語モデルを評価する技術過程は当業者には十分知られている。ここでは、例としていわゆるＮ−ｇｒａｍ言語モデル及び推計学的文法を挙げれば十分である。ユーザがデータベースエントリに属さない要素の組み合わせも用いる可能性は、例えばいわゆる割引処理によって考慮されることができる。
【図面の簡単な説明】
【図１】口頭のデータベース照会のための本発明による対話システムの実施例の図。
【図２】町の電話番号ディレクトリのイエローページからの抜粋の図。
【図３】可能な音声データベース照会の手順のフローチャートの形での図。

Claims

照会のために利用可能な幾つかの要素を含むデータベースエントリへの口頭照会のための自動対話システムであって、前記データベースエントリへ照会するための口頭発言の音声認識が言語モデルによりサポートされ、前記言語モデルは前記口頭発言が属する対話の開始前に作成され、前記言語モデルは前記対話の前記口頭発言中の照会のために提供される前記データベースエントリの前記要素の相互に関係する発生をモデル化する、自動対話システム。
前記言語モデルが、照会された前記データベース中に含まれる口頭発言中のデータレコードの幾つかの要素の発生に点数１（「認められる」）を割り当て、
前記言語モデルが、照会された前記データベース中に含まれない口頭発言中のデータレコードの幾つかの要素の発生に点数０（「認められない」）を割り当てる
ことを特徴とする請求項１に記載の口頭のデータベース照会のための自動対話システム。
前記言語モデルが、照会された前記データベース中に含まれる口頭発言中のデータレコードの幾つかの要素の発生に照会された前記データベース中における前記要素の相対的な頻度に基づいて点数を割り当て、
前記言語モデルが、照会された前記データベース中に含まれない口頭発言中のデータレコードの幾つかの要素の発生に点数０（「認められない」）を割り当てる
ことを特徴とする請求項１に記載の口頭のデータベース照会のための自動対話システム。
前記言語モデルが、照会された前記データベース中に含まれる口頭発言中のデータレコードの幾つかの要素の発生に照会された前記データベース中における前記要素の相対的な頻度に基づいて点数を割り当て、
前記言語モデルが、照会された前記データベース中に含まれない口頭発言中のデータレコードの幾つかの要素の発生にこのような口頭発言の相対的な頻度に基づいて点数を割り当てる
ことを特徴とする請求項１に記載の口頭照会のための自動対話システム。
照会のために利用可能な幾つかの要素を有するデータベースエントリへの口頭照会のための口頭発言を認識するための音声認識システムであって、前記音声認識システムは言語モデルによりサポートされ、前記言語モデルは前記口頭発言が属する対話の開始前に作成され、前記言語モデルは前記対話の前記口頭発言中の照会のために提供される前記データベースエントリの前記要素の相互に関係する発生をモデル化する、音声認識システム。
照会のために利用可能な幾つかの要素を有するデータベースエントリへの口頭照会のための口頭発言の音声認識をサポートするための言語モデルであって、前記言語モデルは前記口頭発言が属する対話の開始前に作成され、前記言語モデルは前記対話の前記口頭発言中の照会のために提供される前記データベースエントリの前記要素の相互に関係する発生をモデル化する、言語モデル。
照会のために利用可能な幾つかの要素を有するデータベースエントリに口頭で照会する方法であって、前記データベースエントリへ照会するための口頭発言の音声認識が言語モデルによりサポートされ、前記言語モデルは前記口頭発言が属する対話の開始前に作成され、前記言語モデルは前記対話の前記口頭発言中の照会のために提供される前記データベースエントリの前記要素の相互に関係する発生をモデル化する、方法。