JP3933813B2 - 音声対話装置 - Google Patents
音声対話装置 Download PDFInfo
- Publication number
- JP3933813B2 JP3933813B2 JP10162899A JP10162899A JP3933813B2 JP 3933813 B2 JP3933813 B2 JP 3933813B2 JP 10162899 A JP10162899 A JP 10162899A JP 10162899 A JP10162899 A JP 10162899A JP 3933813 B2 JP3933813 B2 JP 3933813B2
- Authority
- JP
- Japan
- Prior art keywords
- dialogue
- state
- dialog
- recognition
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
【発明の属する技術分野】
この発明は、自然言語によるマン・マシン・インタフェースに用いられる音声対話装置に関するものである。
【0002】
【従来の技術】
装置との音声による対話によって、利用者が必要とする情報を得るような音声対話装置の重要性が高まっている。このような音声対話装置においては、利用者が必要とする情報を効率的に得るための対話制御を行うことが重要であり、従来そのような目的のために、平均音声対話回数を推定し、その推定値に基づいて対話手順を設定する方法が提案されている。
【0003】
従来の音声対話装置について図面を参照しながら説明する。図18は、例えば特開平10−091188号公報に示された従来の音声対話手順生成装置の構成を示す図である。
【0004】
このように構成された従来の音声対話手順生成装置において、対話全体繰り返し回数評価処理部では、基本対話分解部が対話手順を基本対話に分解し、基本対話繰り返し回数評価処理部が音素誤認識行列と語彙から求まる推定認識率を使用して各基本対話の繰り返し回数を評価し、基本対話繰り返し回数合計部が各基本対話の繰り返し回数を合計して出力する。最小選択出力部が、各対話全体繰り返し回数評価処理部の出力のうちの最小値を選択して対話手順を決定する。
【0005】
【発明が解決しようとする課題】
しかしながら、上記のような従来の音声対話手順生成装置では、対話の繰り返し回数の推定に用いる推定認識率は、実際の発声から予め求めた音素誤認識行列と予め定められた語彙により求めたものであり、装置に音声を入力している利用者の認識率を表すものではない。したがって、推定される対話の繰り返し回数は、特定の利用者の音声認識率を反映した繰り返し回数ではないため、決定される対話手順は必ずしも利用者が最も効率よく対話目的を達成するものではないという問題点があった。
【0006】
この発明は、前述した問題点を解決するためになされたもので、利用者に応じて最も効率よく対話目的を達成するための対話手順を決定できる音声対話装置を得ることを目的とする。
【0007】
【課題を解決するための手段】
この発明の請求項1に係る音声対話装置は、入力音声に対して認識処理を行い音声認識結果を出力する音声認識部と、各対話状態における、音声認識対象語彙と、音声認識結果及び誤認識回数に応じた遷移先対話状態と、応答文を規定した対話手順を保持する対話手順記憶部と、利用者との対話が開始されて現在の対話状態に至るまでの音声認識の正解認識回数及び誤認識回数を保持する音声認識正誤回数記憶部と、前記音声認識正誤回数記憶部に保持された音声認識の正誤回数と前記音声認識部が出力する音声認識結果に基づいて、前記対話手順記憶部に保持された対話手順を参照して遷移先対話状態を決定して出力する遷移先対話状態決定部と、前記音声認識部が出力する音声認識結果に対する正誤結果を出力し、前記遷移先対話状態決定部が出力する遷移先対話状態へ対話状態を遷移する対話管理部とを備え、前記対話管理部は、第1の対話状態に到達すると、前記対話手順記憶部に保持された前記第1の対話状態に対する対話手順を参照して、利用者に対して応答文として第1の音声認識対象語彙を入力するよう応答し、前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第1の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する入力音声と同じ第1の認識結果と、前記音声認識正誤回数記憶部に保持された誤認識回数から、遷移先対話状態として第2の対話状態を決定して出力し、前記対話管理部は、前記遷移先対話状態決定部が出力する前記第2の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第2の対話状態での対話手順を参照して、利用者に対して応答文として前記第1の認識結果かどうかを確認するよう応答し、前記音声認識部の確認応答に対する肯定の第2の認識結果に基づき、前記第1の認識結果は正しい認識結果と判断し、この正解認識に基づき前記音声認識正誤回数記憶部に保持されている正解認識回数を更新し、前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第2の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する第2の認識結果と、前記音声認識正誤回数記憶部に保持された誤認識回数から、前記誤認識回数が所定数以下の場合には、遷移先対話状態として第3の対話状態を決定して出力し、前記誤認識回数が所定数より大きい場合には、遷移先対話状態として第4の対話状態を決定して出力し、前記対話管理部は、前記第3の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第3の対話状態での対話手順を参照して、利用者に対して応答文として前記第1の音声認識対象語彙より下位概念である第2の音声認識対象語彙及び前記第2の音声認識対象語彙より下位概念である第3の音声認識対象語彙を入力するよう応答し、前記第4の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第4の対話状態での対話手順を参照して、利用者に対して応答文として前記第1の音声認識対象語彙より下位概念である第2の音声認識対象語彙を入力するよう応答し、前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第1の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する入力音声と異なる第3の認識結果と、前記音声認識正誤回数記憶部に保持された誤認識回数から、遷移先対話状態として第5の対話状態を決定して出力し、前記対話管理部は、前記第5の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第5の対話状態での対話手順を参照して、利用者に対して応答文として前記第3の認識結果かどうかを確認するよう応答し、前記対話管理部は、前記音声認識部の確認応答に対する否定の第4の認識結果に基づき、前記第3の認識結果は誤った認識結果と判断し、この誤認識に基づき前記音声認識正誤回数記憶部に保持されている誤認識回数を更新するものである。
【0008】
この発明の請求項2に係る音声対話装置は、入力音声に対して認識処理を行い音声認識結果を出力する音声認識部と、各対話状態における、音声認識対象語彙と、音声認識結果及び想定認識率に応じた遷移先対話状態と、応答文を規定した対話手順を保持する対話手順記憶部と、利用者との対話が開始されて現在の対話状態に至るまでの音声認識の正解認識回数及び誤認識回数を保持する音声認識正誤回数記憶部と、前記音声認識正誤回数記憶部に保持された音声認識の正解認識回数及び誤認識回数に基づいて、現在の対話状態に規定された想定認識率に対して検定を行い、棄却されない想定認識率をすべて出力する想定音声認識率検定部と、前記対話手順記憶部に保持された対話手順を参照して、前記音声認識部が出力する音声認識結果と前記想定音声認識率検定部が出力する想定認識率に対応する遷移先対話状態から、遷移先対話状態を1つに決定して出力する遷移先対話状態決定部と、前記音声認識部が出力する音声認識結果に対する正誤結果を出力し、前記遷移先対話状態決定部が出力する遷移先対話状態へ対話状態を遷移する対話管理部とを備え、前記対話管理部は、第1の対話状態に到達すると、前記対話手順記憶部に保持された前記第1の対話状態に対する対話手順を参照して、利用者に対して応答文として第1の音声認識対象語彙を入力するよう応答し、前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第1の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する入力音声と同じ第1の認識結果から、遷移先対話状態として第2の対話状態を決定して出力し、前記対話管理部は、前記遷移先対話状態決定部が出力する前記第2の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第2の対話状態での対話手順を参照して、利用者に対して応答文として前記第1の認識結果かどうかを確認するよう応答し、前記音声認識部の確認応答に対する肯定の第2の認識結果に基づき、前記第1の認識結果は正しい認識結果と判断し、この正解認識に基づき前記音声認識正誤回数記憶部に保持されている正解認識回数を更新し、前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第2の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する第2の認識結果と、前記想定音声認識率検定部が出力する想定認識率から、第1の想定認識率を選択した場合には、遷移先対話状態として第3の対話状態を決定して出力し、前記第1の想定認識率より小さい第2の想定認識率を選択した場合には、遷移先対話状態として第4の対話状態を決定して出力し、前記対話管理部は、前記第3の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第3の対話状態での対話手順を参照して、利用者に対して応答文として前記第1の音声認識対象語彙より下位概念である第2の音声認識対象語彙及び前記第2の音声認識対象語彙より下位概念である第3の音声認識対象語彙を入力するよう応答し、前記第4の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第4の対話状態での対話手順を参照して、利用者に対して応答文として前記第1の音声認識対象語彙より下位概念である第2の音声認識対象語彙を入力するよう応答し、前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第1の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する入力音声と異なる第3の認識結果から、遷移先対話状態として第5の対話状態を決定して出力し、前記対話管理部は、前記第5の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第5の対話状態での対話手順を参照して、利用者に対して応答文として前記第3の認識結果かどうかを確認するよう応答し、前記対話管理部は、前記音声認識部の確認応答に対する否定の第4の認識結果に基づき、前記第3の認識結果は誤った認識結果と判断し、この誤認識に基づき前記音声認識正誤回数記憶部に保持されている誤認識回数を更新するものである。
【0009】
この発明の請求項3に係る音声対話装置は、前記対話管理部が、前記遷移先対話状態決定部が出力する遷移先対話状態が対話終了状態であり、かつ利用者の対話目的が達成されていない場合には、利用者との対話を打ち切りオペレータに切り替えるものである。
【0010】
この発明の請求項4に係る音声対話装置は、前記対話手順記憶部が、各対話状態における終了対話状態までの平均対話回数を規定した対話手順を保持し、前記遷移先対話状態決定部が、前記対話手順記憶部に保持された対話手順を参照して、前記音声認識部が出力する音声認識結果と、前記想定音声認識率検定部が出力する想定認識率に対応する遷移先対話状態から、終了対話状態までの平均対話回数に基づいて遷移先対話状態を1つに決定して出力するものである。
【0011】
この発明の請求項5に係る音声対話装置は、入力音声に対して認識処理を行い音声認識結果を出力する音声認識部と、各対話状態における、音声認識対象語彙、音声認識結果及び誤認識回数に応じた遷移先対話状態を規定した対話手順を保持する対話手順記憶部と、音声認識の正誤回数を保持する音声認識正誤回数記憶部と、前記音声認識正誤回数記憶部に保持された音声認識の正誤回数と前記音声認識部が出力する音声認識結果に基づいて、前記対話手順記憶部に保持された対話手順を参照して遷移先対話状態を決定して出力する遷移先対話状態決定部と、前記音声認識部が出力する音声認識結果に対する正誤結果を出力し、前記遷移先対話状態決定部が出力する遷移先対話状態へ対話状態を遷移する対話管理部とを備え、前記対話手順記憶部が、各対話状態における音声認識率分布を規定した対話手順を保持し、前記音声認識正誤回数記憶部に保持された音声認識正誤回数を用いて、現在の対話状態までの利用者の音声認識率を推定して出力する音声認識率推定部と、前記音声認識率推定部が出力する音声認識率と、現在の対話状態における音声認識率分布に基づいて、利用者の入力が正しく認識される可能性を判定して判定結果を出力する音声認識成功可能性判定部とをさらに備え、前記対話管理部が、前記音声認識成功可能性判定部の判定結果に基づいて、利用者との対話を打ち切りオペレータに切り替えるものである。
【0012】
この発明の請求項6に係る音声対話装置は、各対話状態における、利用者の該対話状態までの推定音声認識率と該対話状態における音声認識結果の正誤の履歴を蓄積する音声認識正誤履歴蓄積部と、前記音声認識正誤履歴蓄積部を参照して、各対話状態における音声認識率分布を計算し、前記対話手順記憶部に保持された音声認識率分布を更新する音声認識率分布更新部とをさらに備えたものである。
【0013】
【発明の実施の形態】
実施の形態1.
この発明の実施の形態1に係る音声対話装置について図面を参照しながら説明する。図1は、この発明の実施の形態1に係る音声対話装置の構成を示す図である。なお、各図中、同一符号は同一又は相当部分を示す。
【0014】
図1において、1は入力音声に対して認識処理を行い音声認識結果を出力する音声認識部、2は各対話状態における、音声認識対象語彙、音声認識結果および誤認識回数に応じた遷移先対話状態を規定した対話手順を保持する対話手順記憶部、3は音声認識の正誤回数を保持する音声認識正誤回数記憶部、4は音声認識正誤回数記憶部3に保持された音声認識の正誤回数と音声認識部1が出力する音声認識結果に基づいて、対話手順記憶部2に保持された対話手順を参照して遷移先対話状態を決定し出力する遷移先対話状態決定部、5は音声認識部1が出力する認識結果に対する正誤結果を出力し、遷移先対話状態決定部4が出力する対話状態へ対話状態を遷移する対話管理部である。
【0015】
つぎに、この実施の形態1に係る音声対話装置の動作について図面を参照しながら説明する。図2及び図3は、この発明の実施の形態1に係る音声対話装置の対話手順記憶部に保持された対話手順の一例を示す図である。
【0016】
以下、音声対話装置を電話番号案内に用いた場合について具体的な動作説明を行う。電話番号案内音声対話装置とは、利用者が装置と音声で対話することで、電話番号案内に必要な、住所、対象名などの項目情報を入力し、装置は入力された項目に基づき電話番号の検索を行い、利用者に電話番号を案内するものである。
【0017】
例えば、図2の上段に示す対話状態S10においては、音声認識対象語彙V10として日本の全ての県名、音声認識結果および誤認識回数に応じた遷移先対話状態のテーブルT10が規定されている。遷移先対話状態のテーブルT10は、音声認識結果が例えば「神奈川」である場合には誤認識回数に関わらず遷移先対話状態がS35であることを示している。
【0018】
また、図2の下段に示す遷移先対話状態のテーブルT35は、音声認識結果が「はい」であり、例えば誤認識回数が2回以下の場合には遷移先対話状態はS120、音声認識結果が「はい」であり、誤認識回数が3回以上5回以下の場合には遷移先対話状態はS121であることを示している。
【0019】
各対話状態には、音声認識対象語彙、遷移先対話状態以外の対話制御情報を記述することが可能であり、例えば図2の上段の対話状態S10においては、利用者への応答として「県名を入力してください」という応答文A10が規定されている。
【0020】
図4は、音声認識正誤回数記憶部3に保持された音声認識の正誤回数の一例を示すものである。利用者との対話が開始されて現在の対話状態に至るまでに、音声認識結果が正しかった回数が「7」回、音声認識結果が誤っていた回数が「2」回であることを表している。
【0021】
音声認識正誤回数記憶部3に保持される音声認識の正誤回数が図4である利用者が、対話状態S10に到達した場合の動作を説明する。
【0022】
対話状態S10に到達すると、対話管理部5は、対話手順記憶部2に保持された図2に示す対話状態S10に対する対話手順を参照して、利用者に対して「県名を入力してください」と応答する。利用者が「神奈川」と入力すると音声認識部1は入力音声に対して音声認識を行ない認識結果「神奈川」を出力する。
【0023】
遷移先対話状態決定部4は、対話手順記憶部2に保持された図2に示す対話状態S10での遷移先対話状態のテーブルT10を参照して、音声認識部1が出力する音声認識結果「神奈川」と、音声認識正誤回数記憶部3に保持された誤認識回数「2」から、遷移先対話状態をS35と決定して出力する。
【0024】
対話管理部5は、遷移先対話状態決定部4が出力する遷移先対話状態S35へ現在の対話状態を遷移させ、対話手順記憶部2に保持された図2の下段に示す対話状態S35での対話手順を参照して、利用者に対して「神奈川ですね」と応答する。
【0025】
利用者が「はい」と入力すると、音声認識部1は入力音声に対して音声認識を行い、音声認識結果「はい」を出力する。
【0026】
対話管理部5は、確認応答「神奈川ですね」に対する音声認識結果「はい」に基づき、認識結果「神奈川」は正しい認識結果と判断し、正解認識が生じたことを音声認識正誤回数記憶部3に出力し、音声認識正誤回数記憶部3に保持された正解認識回数は「8」に更新される。
【0027】
遷移先対話状態決定部4は、対話手順記憶部2に保持された図2の下段に示す対話状態S35での遷移先対話状態のテーブルT35を参照して、音声認識部1が出力する音声認識結果「はい」と、音声認識正誤回数記憶部3に保持された誤認識回数「2」から、遷移先対話状態をS120と決定して出力する。
【0028】
対話管理部5は、遷移先対話状態決定部4が出力する遷移先対話状態S120へ現在の対話状態を遷移させ、対話手順記憶部2に保持された図3の中段に示す対話状態S120での対話手順を参照して、利用者に対して「県名以下の住所をどうぞ」と応答する。これに対し利用者は、例えば「鎌倉市の大船です」と入力し対話を継続する。
【0029】
一方、音声認識正誤回数記憶部3に保持される音声認識の正誤回数が図4に示す回数である利用者が、対話状態S10において「神奈川」と入力し、音声認識部1によって「香川」と誤認識された場合について説明する。
【0030】
遷移先対話状態決定部4は、対話手順記憶部2に保持された図2の上段に示す対話状態S10での遷移先対話状態のテーブルT10を参照して、音声認識部1が出力する音声認識結果「香川」と、音声認識正誤回数記憶部3に保持された誤認識回数「2」から、遷移先対話状態をS53と決定して出力する。
【0031】
対話管理部5は、遷移先対話状態決定部4が出力する遷移先対話状態S53へ現在の対話状態を遷移させ、対話手順記憶部2に保持された図3の上段に示す対話状態S53での対話手順を参照して、利用者に対して「香川ですね」と応答する。
【0032】
利用者が「いいえ」と入力すると、音声認識部1は入力音声に対して音声認識を行い、音声認識結果「いいえ」を出力する。
【0033】
対話管理部5は、確認応答「香川ですね」に対する音声認識結果「いいえ」に基づき、認識結果「香川」に対して認識誤りと判断し、誤認識が生じたことを音声認識正誤回数記憶部3に出力し、音声認識正誤回数記憶部3に保持された誤認識回数は「3」に更新される。
【0034】
遷移先対話状態決定部4は、対話手順記憶部2に保持された図3の上段に示す対話状態S53での遷移先対話状態のテーブルT53を参照して、音声認識部1が出力する音声認識結果「いいえ」と、音声認識正誤回数記憶部3に保持された誤認識回数「3」から、遷移先対話状態をS10と決定して出力する。
【0035】
対話状態S10において再び利用者が県名として「神奈川」を入力し、音声認識部1は正しく「神奈川」認識した場合、遷移先対話状態決定部4は、対話状態S10での遷移先対話状態のテーブルT10を参照して、音声認識結果「神奈川」と、誤認識回数「3」から、遷移先対話状態をS35と決定して出力する。
【0036】
対話管理部5は、遷移先対話状態S35へ現在の対話状態を遷移させ、対話状態S35での対話手順を参照して、利用者に対して「神奈川ですね」と応答し、利用者が「はい」と入力すると、音声認識部1は音声認識結果「はい」を出力する。
【0037】
対話管理部5は、確認応答「神奈川ですね」に対する音声認識結果「はい」に基づき、認識結果「神奈川」は正しい認識結果と判断し、正解認識が生じたことを音声認識正誤回数記憶部3に出力し、音声認識正誤回数記憶部3に保持された正解認識回数は「8」に更新される。
【0038】
遷移先対話状態決定部4は、対話状態S35での遷移先対話状態のテーブルT35を参照して、音声認識部1が出力する音声認識結果「はい」と、音声認識正誤回数記憶部3に保持された誤認識回数「3」から、遷移先対話状態をS121と決定して出力する。
【0039】
対話管理部5は、現在の対話状態をS35からS121へ遷移させ、図3の下段に示す対話状態S121での対話手順を参照して、利用者に対して「市あるいは郡名を入力してください」と応答する。これに対し利用者は、例えば「鎌倉」と入力し対話を継続する。
【0040】
以上の動作により、誤認識を生じる回数が少ない利用者に対しては、認識対象語彙を大きくして対話回数が少なくなる『対話状態S120』のような対話手順を選択でき、誤認識を生じる回数が多い利用者に対しては、対話回数は多くなるが認識対象語彙を小さくすることで誤認識を少なくする『対話状態S121』のような対話手順を選択できる。したがって、利用者の音声認識率に応じた最適な対話手順を選択できるため、利用者に応じて最も効率よく対話目的を達成することができる。
【0041】
実施の形態2.
この発明の実施の形態2に係る音声対話装置について図面を参照しながら説明する。図5は、この発明の実施の形態2に係る音声対話装置の構成を示す図である。
【0042】
図5において、1は音声認識部、2は対話手順記憶部、3は音声認識正誤回数記憶部、4は遷移先対話状態決定部、5は対話管理部、6は想定音声認識率検定部である。
【0043】
つぎに、この実施の形態2に係る音声対話装置の動作について図面を参照しながら説明する。図6及び図7は、この発明の実施の形態2に係る音声対話装置の対話手順の一例を示す図である。
【0044】
対話手順記憶部2、遷移先対話状態決定部4、及び想定音声認識率検定部6の動作について説明する。なお、音声認識部1、音声認識正誤回数記憶部3及び対話管理部5の動作は、上記の実施の形態1と同じなので省略する。
【0045】
例えば、図6の上段に示す対話状態S10においては、音声認識対象語彙V10として日本の全ての県名、音声認識結果および想定認識率に応じた遷移先対話状態のテーブルT10が規定されている。遷移先対話状態のテーブルT10は、音声認識結果が「神奈川」である場合には想定認識率に関わらず遷移先対話状態がS35であることを示している。また、図6の下段に示す遷移先対話状態のテーブルT35は、音声認識結果が「はい」であり、利用者に対する想定認識率が90%の場合には遷移先対話状態がS120、音声認識結果が「はい」であり、利用者に対する想定認識率が80%場合には遷移先対話状態はS121であることを示している。
【0046】
音声認識正誤回数記憶部3に保持される音声認識の正誤回数が図4に示す回数である利用者が、対話状態S10に到達した場合の動作を説明する。
【0047】
対話状態S10に到達すると、対話管理部5は、対話手順記憶部2に保持された図6の上段に示す対話状態S10に対する対話手順を参照して、利用者に対して「県名を入力してください」と応答する。利用者が「神奈川」と入力すると、音声認識部1は、入力音声に対して音声認識を行ない認識結果「神奈川」を出力する。
【0048】
想定音声認識率検定部6は、音声認識結果「神奈川」に対する想定認識率が任意なので検定は行わない。
【0049】
遷移先対話状態決定部4は、対話手順記憶部2に保持された図6の上段に示す対話状態S10での遷移先対話状態のテーブルT10を参照して、音声認識部1が出力する音声認識結果「神奈川」から遷移先対話状態をS35と決定して出力する。
【0050】
図6の下段に示す対話状態S35での応答「神奈川ですね」に対し、利用者が「はい」と入力すると、対話管理部5は正解認識が生じたことを音声認識正誤回数記憶部3に出力し、音声認識正誤回数記憶部3に保持された正解認識回数は「8」に更新される。
【0051】
想定音声認識率検定部6は、対話状態S35での対話手順を参照して想定認識率90%、80%を仮説として、音声認識正誤回数記憶部3に保持された音声認識正誤回数に対して予め定められた危険率で仮説検定を行う。
【0052】
仮説検定には、図8に示すような式により観測値に対するu求め、危険率に対するu0を正規分布表を用いて得て、uとu0との比較により仮説の棄却を判断する公知の手段があるので、それを用いる。なお、図8において、pは仮説、kは正解認識回数、nは総音声認識回数すなわち正解認識回数と誤認識回数の和である。
【0053】
総認識回数が10回、正解認識回数が8回について、危険率10%で仮説90%に対して検定を行うと、u=1.054、u0=1.282であるから、u<u0となり仮説は棄却されない。仮説80%に対して検定を行うとu=0であるからu<u0となり仮説は棄却されない。したがって、想定音声認識率検定部6は、検定結果として90%と80%を出力する。
【0054】
遷移先対話状態決定部4は、想定音声認識率検定部6が出力する想定認識率90%と80%に対して例えば最も大きい90%を選択する。選択の基準は、利用者をできるかぎり認識率の良い利用者として想定し、音声入力をなるべく限定せずに少ない対話回数で対話を完了させるために最も大きい想定認識率を選択する、など設計者が予め定める。
【0055】
遷移先対話状態決定部4は、対話手順記憶部2に保持された図6の下段に示す対話状態S35での遷移先対話状態のテーブルT35を参照して、音声認識部1が出力する音声認識結果「はい」と、決定した想定認識率90%から、遷移先対話状態をS120と決定して出力する。
【0056】
対話管理部5は、遷移先対話状態決定部4が出力する遷移先対話状態S120へ現在の対話状態を遷移させ、対話手順記憶部2に保持された図7の中段に示す対話状態S120での対話手順を参照して、利用者に対して「県名以下の住所をどうぞ」と応答する。これに対し利用者は、例えば「鎌倉市の大船です」と入力し対話を継続する。
【0057】
一方、音声認識正誤回数記憶部3に保持される音声認識の正誤回数が図4に示す回数である利用者が、対話状態S10において「神奈川」と入力し、音声認識部1によって「香川」と誤認識された場合について説明する。
【0058】
上記の実施の形態1と同様に、対話状態S10において再び利用者が県名として「神奈川」を入力し、音声認識部1は正しく「神奈川」と認識した場合、遷移先対話状態決定部4は、対話状態S10での遷移先対話状態のテーブルT10を参照して、音声認識結果「神奈川」から遷移先対話状態をS35と決定し、対話管理部5は、遷移先対話状態S35へ現在の対話状態を遷移させ、利用者に対して「神奈川ですね」と応答し、利用者が「はい」と入力すると、音声認識部1は音声認識結果「はい」を出力する。
【0059】
対話管理部5は、確認応答「神奈川ですね」に対する音声認識結果「はい」に基づき、認識結果「神奈川」は正しい認識結果と判断し、正解認識が生じたことを音声認識正誤回数記憶部3に出力し、音声認識正誤回数記憶部3に保持された正解認識回数は「8」に更新される。なお、この時点で誤認識回数は「3」である。
【0060】
想定音声認識率検定部6は、総認識回数が11回、正解認識回数が8回について、危険率10%で仮説90%および80%に対して検定を行う。90%に対しては、u=1.910>u0=1.282であり仮説は棄却される。80%に対しては、u=0.6<u0=1.282であり仮説は棄却されない。したがって、想定音声認識率検定部6は検定結果として80%を出力する。
【0061】
遷移先対話状態決定部4は、対話手順記憶部2に保持された図6の下段に示す対話状態S35での遷移先対話状態のテーブルT35を参照して、音声認識部1が出力する音声認識結果「はい」と、決定した想定認識率80%から、遷移先対話状態をS121と決定して出力する。
【0062】
対話管理部5は、現在の対話状態をS35からS121へ遷移させ、図7の下段に示す対話状態S121での対話手順を参照して、利用者に対して「市あるいは郡名を入力してください」と応答する。これに対し利用者は、例えば「鎌倉」と入力し対話を継続する。
【0063】
以上の動作により、利用者の音声認識正誤回数に基づいた想定音声認識の検定結果に基づいて対話手順を変更するため、想定認識率が良い利用者に対しては、認識対象語彙を大きくして対話回数が少なくなる対話状態S120のような対話手順を選択でき、想定認識率が悪い利用者に対しては、対話回数は多くなるが認識対象語彙を小さくすることで誤認識を少なくする対話状態S121のような対話手順を選択できる。したがって、利用者の音声認識率に応じた最適な対話手順を選択できるため、利用者に応じて最も効率よく対話目的を達成することができる。
【0064】
実施の形態3.
この発明の実施の形態3に係る音声対話装置について図面を参照しながら説明する。図9は、この発明の実施の形態3に係る音声対話装置の構成を示す図である。
【0065】
図9において、1は音声認識部、2は対話手順記憶部、3は音声認識正誤回数記憶部、4は遷移先対話状態決定部、5は対話管理部である。
【0066】
つぎに、この実施の形態3に係る音声対話装置の動作について図面を参照しながら説明する。
【0067】
対話管理部5の動作について説明する。なお、音声認識部1、対話手順記憶部2、音声認識正誤回数記憶部3、及び遷移先対話状態決定部4の動作は、上記の実施の形態1と同じなので省略する。
【0068】
音声認識正誤回数記憶部3に保持される音声認識の正誤回数が、正解認識回数10回、誤認識回数7回である場合に、利用者が図2上段に示す対話状態S10に到達し、実施の形態1と同様に「県名を入力してください」に対し利用者が「神奈川」と入力した場合、音声認識部1が「香川」と誤認識した場合の動作を説明する。
【0069】
遷移先対話状態決定部4が遷移先対話状態のテーブルT10を参照して、音声認識結果「香川」から遷移先対話状態をS53と決定して出力し、対話管理部5が対話状態をS53へ遷移させ「香川ですね」と応答すると、利用者は「いいえ」と入力する。
【0070】
対話管理部5は誤認識が生じたことを出力し、音声認識正誤回数記憶部3に保持された誤認識回数は「8」に更新される。
【0071】
遷移先対話状態決定部4は、図3の上段に示す遷移先対話状態のテーブルT53を参照して、音声認識結果「いいえ」と音声認識正誤回数記憶部3に保持された誤認識回数「8」に基づいて、遷移先対話状態を終了対話状態であるSendと決定して出力する。
【0072】
対話管理部5は、遷移先対話状態決定部4から対話状態Sendが入力されると、利用者に対して電話番号を案内したか否かを調べ、案内していないならば装置との対話を打ち切りオペレータへ対話を切り替える。
【0073】
電話番号を案内したか否かは、例えば対話管理部5内に、初期値として「0」を与えておき、案内応答を実行した場合に値を「1」に変更するカウンタを1つ設けておき、該カウンタを調べればよい。
【0074】
以上の動作により、認識率が低く対話目的達成の見込みがない利用者に対しては、対話をオペレータへ切り替えることができ、利用者は効率よく対話目的を達成することができる。
【0075】
実施の形態4.
この発明の実施の形態4に係る音声対話装置について図面を参照しながら説明する。図10は、この発明の実施の形態4に係る音声対話装置の構成を示す図である。
【0076】
図10において、1は音声認識部、2は対話手順記憶部、3は音声認識正誤回数記憶部、4は遷移先対話状態決定部、5は対話管理部、6は想定音声認識率検定部である。
【0077】
つぎに、この実施の形態4に係る音声対話装置の動作について図面を参照しながら説明する。図11は、この発明の実施の形態4に係る音声対話装置の対話手順の一例を示す図である。
【0078】
対話手順記憶部2及び遷移先対話状態決定部4の動作について説明する。なお、音声認識部1、音声認識正誤回数記憶部3、対話管理部5及び想定音声認識率検定部6の動作は、実施の形態2と同じなので省略する。
【0079】
例えば、図11の上段に示す対話状態S10においては、音声認識対象語彙V10として日本の全ての県名、音声認識結果および想定認識率に応じた遷移先対話状態のテーブルT10、終了対話状態までの平均対話回数の想定音声認識率ごとのテーブルN10が規定されている。
【0080】
対話状態S10における終了対話状態までの平均対話回数としては、例えば、想定音声認識率が一定で、誤認識が生じないと仮定した場合に、対話状態S10から到達可能な全ての終了対話状態までの状態遷移回数の平均値を近似的に用いる。
【0081】
音声認識正誤回数記憶部3に保持される音声認識の正誤回数が図4に示す回数である利用者が対話状態S10に到達した場合の動作を説明する。
【0082】
対話管理部5の応答「県名を入力してください」に利用者が「神奈川」と入力し、対話管理部5の応答「神奈川ですね」に利用者が「はい」と入力するまでの動作は実施の形態2と同様である。想定音声認識率検定部6は実施の形態2と同様に動作し、検定結果として90%と80%を出力する。
【0083】
遷移先対話状態決定部4は、図11の下段に示したS35における想定音声認識毎の平均対話回数のテーブルN35を参照して、想定音声認識率検定部4が出力する想定音声認識率90%と80%から、最も平均対話回数の少ない90%を選択し、遷移先対話状態をS120と決定して出力する。
【0084】
以上の動作により、利用者に対する想定音声認識率に加え、想定音声認識率に応じた平均対話回数を用いて対話手順を変更するため、利用者は最も効率よく対話目的を達成することができる。
【0085】
実施の形態5.
この発明の実施の形態5に係る音声対話装置について図面を参照しながら説明する。図12は、この発明の実施の形態5に係る音声対話装置の構成を示す図である。
【0086】
図12において、1は音声認識部、2は対話手順記憶部、3は音声認識正誤回数記憶部、4は遷移先対話状態決定部、5は対話管理部、7は音声認識率推定部、8は音声認識成功可能性判定部である。
【0087】
つぎに、この実施の形態5に係る音声対話装置の動作について図面を参照しながら説明する。図13は、この発明の実施の形態5に係る音声対話装置の対話手順の一例を示す図である。
【0088】
対話手順記憶部2、対話管理部5、音声認識率推定部7及び音声認識成功可能性判定部8の動作について説明する。なお、音声認識部1、音声認識正誤回数記憶部3及び遷移先対話状態決定部4の動作は、実施の形態1と同じなので省略する。
【0089】
例えば、図13に示す対話状態S10においては、音声認識対象語彙V10として日本の全ての県名、音声認識結果および誤認識回数に応じた遷移先対話状態のテーブルT10、音声認識対象語彙V10に対する音声認識率の分布として、平均値85、分散10の正規分布D10:N(85、10)が規定されている。
【0090】
音声認識正誤回数記憶部3に保持される音声認識の正誤回数が図4に示す回数である利用者が対話状態S10に到達した場合の動作を説明する。
【0091】
音声認識率推定部7は、音声認識正誤回数記憶部3を参照して、正解認識回数「7」、誤認識回数「2」より、例えば最尤推定法を用いて利用者の推定認識率Ru=7/9×100=78%を計算し出力する。
【0092】
音声認識成功可能性判定部8は、音声認識率推定部7が出力する利用者の推定認識率Ru=78%と、対話状態S10において規定された音声認識率の分布から、利用者が音声認識率分布の予め定められた基準以上の部分に含まれているか否かを判定する。
【0093】
例えば、基準が50%であれば、正規分布N(85、10)の50%を含む認識率区間はRL=78.2≦R≦91.8であり、利用者の推定認識率Ruは区間の下限RL以下である。したがって、音声認識成功可能性判定部8は、利用者は音声認識成功可能性が無いと判定する。
【0094】
対話管理部5は、音声認識成功可能性判定部8の判定結果が音声認識可能性無しであるので、利用者との対話を打ち切りオペレータに切り替える。
【0095】
以上の動作により、音声認識成功可能性判定部8により判定された利用者の音声認識可能性に基づき対話手順を変更するので、音声認識成功の可能性が低い利用者が装置との無駄な対話を行うこと無くオペレータに切り替えが行われ、利用者は効率よく対話目的を達成することができる。
【0096】
実施の形態6.
この発明の実施の形態6に係る音声対話装置について図面を参照しながら説明する。図14は、この発明の実施の形態6に係る音声対話装置の構成を示す図である。
【0097】
図14において、1は音声認識部、2は対話手順記憶部、3は音声認識正誤回数記憶部、4は遷移先対話状態決定部、5は対話管理部、7は音声認識率推定部、8は音声認識成功可能性判定部、9は音声認識率正誤履歴蓄積部、10は音声認識率分布更新部である。
【0098】
つぎに、この実施の形態6に係る音声対話装置の動作について図面を参照しながら説明する。
【0099】
音声認識率正誤履歴蓄積部9及び音声認識率分布更新部10の動作について説明する。なお、音声認識部1、対話手順記憶部2、音声認識正誤回数記憶部3、遷移先対話状態決定部4、対話管理部5、音声認識率推定部7及び音声認識成功可能性判定部8の動作は、実施の形態5と同じなので省略する。
【0100】
対話手順記憶部2に保持された対話手順が図13に示すものであり、音声認識正誤回数記憶部3に保持される音声認識の正誤回数が正解認識回数8回、誤認識回数2回の場合、利用者が対話状態S10に到達したときの動作を説明する。
【0101】
音声認識率推定部7は、実施の形態5と同様にして利用者の推定音声認識率Ru=80%を計算し出力する。
【0102】
音声認識正誤履歴蓄積部9は、音声認識率推定部7が出力する利用者の推定音声認識率Ruに対し、現在の対話状態S10を対話管理部5から得て、図15に示す対話状態S10に対する音声認識正誤履歴表を作成する。なお、既に対話状態S10に対する表が存在する場合には、表の末尾に追加して蓄積する。
【0103】
音声認識成功可能性判定部8は、実施の形態5と同様に動作し、音声認識率の分布N(85、10)において利用者が音声認識成功可能性が有ると判定する。
【0104】
対話管理部5の応答「県名を入力してください」に利用者が「神奈川」と入力し、対話管理部5の応答「神奈川ですね」に利用者が「はい」と入力するまでの動作は実施の形態5と同様である。
【0105】
対話管理部5は、確認応答「神奈川ですね」に対する音声認識結果「はい」に基づき、認識結果「神奈川」は正しい認識結果と判断し、正解認識が生じたことを音声認識正誤回数記憶部3に出力するとともに、音声認識正誤履歴蓄積部9にも出力する。
【0106】
音声認識正誤履歴蓄積部9は、対話管理部5から出力される正解認識判定を、図15に示す対話状態S10に対する音声認識正誤履歴表の、推定音声認識率80%の音声認識正誤欄に、図16に示すように記録する。
【0107】
以下対話を継続することにより、各対話状態に対する音声認識正誤履歴表が作成され、さらに複数の利用者との対話が行われる度に、音声認識正誤履歴蓄積部9には各対話状態における音声認識率と、該対話状態での音声認識の正誤が蓄積されていく。
【0108】
音声認識率分布更新部10は、音声認識正誤履歴蓄積部9に蓄積された対話状態毎の音声認識正誤履歴表を用いて、対話手順記憶部2が保持する各対話状態における音声認識率分布を更新する。
【0109】
例えば、音声認識正誤履歴蓄積部9に蓄積された対話状態S10の音声認識正誤履歴表から、正解認識に対する音声認識率のみを抜き出したものが図17に示ものである場合、例えば最尤推定法を用いて平均値82.63と分散14.25が推定値として得られる。
【0110】
音声認識率分布更新部10は、対話状態S10における音声認識率の分布をN(82.63、14.25)に更新する。
【0111】
以上の動作により、推定音声認識率と音声認識正誤判定からなる音声認識正誤履歴表を音声認識正誤履歴蓄積部9に蓄積し、蓄積した音声認識正誤履歴表から各対話状態における認識対象語彙に対する音声認識率の分布を学習できるため、音声認識可能性判定の精度が向上し、利用者は効率よく対話目的を達成することができる。
【0112】
【発明の効果】
この発明の請求項1に係る音声対話装置は、以上説明したとおり、入力音声に対して認識処理を行い音声認識結果を出力する音声認識部と、各対話状態における、音声認識対象語彙と、音声認識結果及び誤認識回数に応じた遷移先対話状態と、応答文を規定した対話手順を保持する対話手順記憶部と、利用者との対話が開始されて現在の対話状態に至るまでの音声認識の正解認識回数及び誤認識回数を保持する音声認識正誤回数記憶部と、前記音声認識正誤回数記憶部に保持された音声認識の正誤回数と前記音声認識部が出力する音声認識結果に基づいて、前記対話手順記憶部に保持された対話手順を参照して遷移先対話状態を決定して出力する遷移先対話状態決定部と、前記音声認識部が出力する音声認識結果に対する正誤結果を出力し、前記遷移先対話状態決定部が出力する遷移先対話状態へ対話状態を遷移する対話管理部とを備え、前記対話管理部は、第1の対話状態に到達すると、前記対話手順記憶部に保持された前記第1の対話状態に対する対話手順を参照して、利用者に対して応答文として第1の音声認識対象語彙を入力するよう応答し、前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第1の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する入力音声と同じ第1の認識結果と、前記音声認識正誤回数記憶部に保持された誤認識回数から、遷移先対話状態として第2の対話状態を決定して出力し、前記対話管理部は、前記遷移先対話状態決定部が出力する前記第2の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第2の対話状態での対話手順を参照して、利用者に対して応答文として前記第1の認識結果かどうかを確認するよう応答し、前記音声認識部の確認応答に対する肯定の第2の認識結果に基づき、前記第1の認識結果は正しい認識結果と判断し、この正解認識に基づき前記音声認識正誤回数記憶部に保持されている正解認識回数を更新し、前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第2の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する第2の認識結果と、前記音声認識正誤回数記憶部に保持された誤認識回数から、前記誤認識回数が所定数以下の場合には、遷移先対話状態として第3の対話状態を決定して出力し、前記誤認識回数が所定数より大きい場合には、遷移先対話状態として第4の対話状態を決定して出力し、前記対話管理部は、前記第3の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第3の対話状態での対話手順を参照して、利用者に対して応答文として前記第1の音声認識対象語彙より下位概念である第2の音声認識対象語彙及び前記第2の音声認識対象語彙より下位概念である第3の音声認識対象語彙を入力するよう応答し、前記第4の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第4の対話状態での対話手順を参照して、利用者に対して応答文として前記第1の音声認識対象語彙より下位概念である第2の音声認識対象語彙を入力するよう応答し、前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第1の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する入力音声と異なる第3の認識結果と、前記音声認識正誤回数記憶部に保持された誤認識回数から、遷移先対話状態として第5の対話状態を決定して出力し、前記対話管理部は、前記第5の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第5の対話状態での対話手順を参照して、利用者に対して応答文として前記第3の認識結果かどうかを確認するよう応答し、前記対話管理部は、前記音声認識部の確認応答に対する否定の第4の認識結果に基づき、前記第3の認識結果は誤った認識結果と判断し、この誤認識に基づき前記音声認識正誤回数記憶部に保持されている誤認識回数を更新するので、利用者に応じて最も効率よく対話目的を達成するための対話手順を決定できるという効果を奏する。
【0113】
この発明の請求項2に係る音声対話装置は、以上説明したとおり、入力音声に対して認識処理を行い音声認識結果を出力する音声認識部と、各対話状態における、音声認識対象語彙と、音声認識結果及び想定認識率に応じた遷移先対話状態と、応答文を規定した対話手順を保持する対話手順記憶部と、利用者との対話が開始されて現在の対話状態に至るまでの音声認識の正解認識回数及び誤認識回数を保持する音声認識正誤回数記憶部と、前記音声認識正誤回数記憶部に保持された音声認識の正解認識回数及び誤認識回数に基づいて、現在の対話状態に規定された想定認識率に対して検定を行い、棄却されない想定認識率をすべて出力する想定音声認識率検定部と、前記対話手順記憶部に保持された対話手順を参照して、前記音声認識部が出力する音声認識結果と前記想定音声認識率検定部が出力する想定認識率に対応する遷移先対話状態から、遷移先対話状態を1つに決定して出力する遷移先対話状態決定部と、前記音声認識部が出力する音声認識結果に対する正誤結果を出力し、前記遷移先対話状態決定部が出力する遷移先対話状態へ対話状態を遷移する対話管理部とを備え、前記対話管理部は、第1の対話状態に到達すると、前記対話手順記憶部に保持された前記第1の対話状態に対する対話手順を参照して、利用者に対して応答文として第1の音声認識対象語彙を入力するよう応答し、前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第1の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する入力音声と同じ第1の認識結果から、遷移先対話状態として第2の対話状態を決定して出力し、前記対話管理部は、前記遷移先対話状態決定部が出力する前記第2の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第2の対話状態での対話手順を参照して、利用者に対して応答文として前記第1の認識結果かどうかを確認するよう応答し、前記音声認識部の確認応答に対する肯定の第2の認識結果に基づき、前記第1の認識結果は正しい認識結果と判断し、この正解認識に基づき前記音声認識正誤回数記憶部に保持されている正解認識回数を更新し、前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第2の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する第2の認識結果と、前記想定音声認識率検定部が出力する想定認識率から、第1の想定認識率を選択した場合には、遷移先対話状態として第3の対話状態を決定して出力し、前記第1の想定認識率より小さい第2の想定認識率を選択した場合には、遷移先対話状態として第4の対話状態を決定して出力し、前記対話管理部は、前記第3の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第3の対話状態での対話手順を参照して、利用者に対して応答文として前記第1の音声認識対象語彙より下位概念である第2の音声認識対象語彙及び前記第2の音声認識対象語彙より下位概念である第3の音声認識対象語彙を入力するよう応答し、前記第4の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第4の対話状態での対話手順を参照して、利用者に対して応答文として前記第1の音声認識対象語彙より下位概念である第2の音声認識対象語彙を入力するよう応答し、前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第1の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する入力音声と異なる第3の認識結果から、遷移先対話状態として第5の対話状態を決定して出力し、前記対話管理部は、前記第5の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第5の対話状態での対話手順を参照して、利用者に対して応答文として前記第3の認識結果かどうかを確認するよう応答し、前記対話管理部は、前記音声認識部の確認応答に対する否定の第4の認識結果に基づき、前記第3の認識結果は誤った認識結果と判断し、この誤認識に基づき前記音声認識正誤回数記憶部に保持されている誤認識回数を更新するので、利用者に応じて最も効率よく対話目的を達成するための対話手順を決定できるという効果を奏する。
【0114】
この発明の請求項3に係る音声対話装置は、以上説明したとおり、前記対話管理部が、前記遷移先対話状態決定部が出力する遷移先対話状態が対話終了状態であり、かつ利用者の対話目的が達成されていない場合には、利用者との対話を打ち切りオペレータに切り替えるので、利用者に応じて最も効率よく対話目的を達成するための対話手順を決定できるという効果を奏する。
【0115】
この発明の請求項4に係る音声対話装置は、以上説明したとおり、前記対話手順記憶部が、各対話状態における終了対話状態までの平均対話回数を規定した対話手順を保持し、前記遷移先対話状態決定部が、前記対話手順記憶部に保持された対話手順を参照して、前記音声認識部が出力する音声認識結果と、前記想定音声認識率検定部が出力する想定認識率に対応する遷移先対話状態から、終了対話状態までの平均対話回数に基づいて遷移先対話状態を1つに決定して出力するので、利用者に応じて最も効率よく対話目的を達成するための対話手順を決定できるという効果を奏する。
【0116】
この発明の請求項5に係る音声対話装置は、以上説明したとおり、入力音声に対して認識処理を行い音声認識結果を出力する音声認識部と、各対話状態における、音声認識対象語彙、音声認識結果及び誤認識回数に応じた遷移先対話状態を規定した対話手順を保持する対話手順記憶部と、音声認識の正誤回数を保持する音声認識正誤回数記憶部と、前記音声認識正誤回数記憶部に保持された音声認識の正誤回数と前記音声認識部が出力する音声認識結果に基づいて、前記対話手順記憶部に保持された対話手順を参照して遷移先対話状態を決定して出力する遷移先対話状態決定部と、前記音声認識部が出力する音声認識結果に対する正誤結果を出力し、前記遷移先対話状態決定部が出力する遷移先対話状態へ対話状態を遷移する対話管理部とを備え、前記対話手順記憶部が、各対話状態における音声認識率分布を規定した対話手順を保持し、前記音声認識正誤回数記憶部に保持された音声認識正誤回数を用いて、現在の対話状態までの利用者の音声認識率を推定して出力する音声認識率推定部と、前記音声認識率推定部が出力する音声認識率と、現在の対話状態における音声認識率分布に基づいて、利用者の入力が正しく認識される可能性を判定して判定結果を出力する音声認識成功可能性判定部とをさらに備え、前記対話管理部が、前記音声認識成功可能性判定部の判定結果に基づいて、利用者との対話を打ち切りオペレータに切り替えるので、利用者に応じて最も効率よく対話目的を達成するための対話手順を決定できるという効果を奏する。
【0117】
この発明の請求項6に係る音声対話装置は、以上説明したとおり、各対話状態における、利用者の該対話状態までの推定音声認識率と該対話状態における音声認識結果の正誤の履歴を蓄積する音声認識正誤履歴蓄積部と、前記音声認識正誤履歴蓄積部を参照して、各対話状態における音声認識率分布を計算し、前記対話手順記憶部に保持された音声認識率分布を更新する音声認識率分布更新部とをさらに備えたので、利用者に応じて最も効率よく対話目的を達成するための対話手順を決定できるという効果を奏する。
【図面の簡単な説明】
【図1】 この発明の実施の形態1に係る音声対話装置の構成を示す図である。
【図2】 この発明の実施の形態1に係る音声対話装置の対話手順の一例を示す図である。
【図3】 この発明の実施の形態1に係る音声対話装置の対話手順の一例を示す図である。
【図4】 この発明の実施の形態1に係る音声対話装置の音声認識正誤回数記憶部の記憶内容を示す図である。
【図5】 この発明の実施の形態2に係る音声対話装置の構成を示す図である。
【図6】 この発明の実施の形態2に係る音声対話装置の対話手順の一例を示す図である。
【図7】 この発明の実施の形態2に係る音声対話装置の対話手順の一例を示す図である。
【図8】 この発明の実施の形態2に係る音声対話装置の検定式の一例を示す図である。
【図9】 この発明の実施の形態3に係る音声対話装置の構成を示す図である。
【図10】 この発明の実施の形態4に係る音声対話装置の構成を示す図である。
【図11】 この発明の実施の形態4に係る音声対話装置の対話手順の一例を示す図である。
【図12】 この発明の実施の形態5に係る音声対話装置の構成を示す図である。
【図13】 この発明の実施の形態5に係る音声対話装置の対話手順の一例を示す図である。
【図14】 この発明の実施の形態6に係る音声対話装置の構成を示す図である。
【図15】 この発明の実施の形態6に係る音声対話装置の音声認識正誤履歴表を示す図である。
【図16】 この発明の実施の形態6に係る音声対話装置の音声認識正誤履歴表を示す図である。
【図17】 この発明の実施の形態6に係る音声対話装置の正解認識に対する音声認識率を示す図である。
【図18】 従来の音声対話装置の構成を示す図である。
【符号の説明】
1 音声認識部、2 対話手順記憶部、3 音声認識正誤回数記憶部、4 遷移先対話状態決定部、5 対話管理部、6 想定音声認識率検定部、7 音声認識率推定部、8 音声認識成功可能性判定部、9 音声認識率正誤履歴蓄積部、10 音声認識率分布更新部。
Claims (6)
- 入力音声に対して認識処理を行い音声認識結果を出力する音声認識部と、
各対話状態における、音声認識対象語彙と、音声認識結果及び誤認識回数に応じた遷移先対話状態と、応答文を規定した対話手順を保持する対話手順記憶部と、
利用者との対話が開始されて現在の対話状態に至るまでの音声認識の正解認識回数及び誤認識回数を保持する音声認識正誤回数記憶部と、
前記音声認識正誤回数記憶部に保持された音声認識の正誤回数と前記音声認識部が出力する音声認識結果に基づいて、前記対話手順記憶部に保持された対話手順を参照して遷移先対話状態を決定して出力する遷移先対話状態決定部と、
前記音声認識部が出力する音声認識結果に対する正誤結果を出力し、前記遷移先対話状態決定部が出力する遷移先対話状態へ対話状態を遷移する対話管理部とを備え、
前記対話管理部は、第1の対話状態に到達すると、前記対話手順記憶部に保持された前記第1の対話状態に対する対話手順を参照して、利用者に対して応答文として第1の音声認識対象語彙を入力するよう応答し、
前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第1の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する入力音声と同じ第1の認識結果と、前記音声認識正誤回数記憶部に保持された誤認識回数から、遷移先対話状態として第2の対話状態を決定して出力し、
前記対話管理部は、前記遷移先対話状態決定部が出力する前記第2の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第2の対話状態での対話手順を参照して、利用者に対して応答文として前記第1の認識結果かどうかを確認するよう応答し、前記音声認識部の確認応答に対する肯定の第2の認識結果に基づき、前記第1の認識結果は正しい認識結果と判断し、この正解認識に基づき前記音声認識正誤回数記憶部に保持されている正解認識回数を更新し、
前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第2の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する第2の認識結果と、前記音声認識正誤回数記憶部に保持された誤認識回数から、前記誤認識回数が所定数以下の場合には、遷移先対話状態として第3の対話状態を決定して出力し、前記誤認識回数が所定数より大きい場合には、遷移先対話状態として第4の対話状態を決定して出力し、
前記対話管理部は、前記第3の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第3の対話状態での対話手順を参照して、利用者に対して応答文として前記第1の音声認識対象語彙より下位概念である第2の音声認識対象語彙及び前記第2の音声認識対象語彙より下位概念である第3の音声認識対象語彙を入力するよう応答し、前記第4の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第4の対話状態での対話手順を参照して、利用者に対して応答文として前記第1の音声認識対象語彙より下位概念である第2の音声認識対象語彙を入力するよう応答し、
前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第1の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する入力音声と異なる第3の認識結果と、前記音声認識正誤回数記憶部に保持された誤認識回数から、遷移先対話状態として第5の対話状態を決定して出力し、
前記対話管理部は、前記第5の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第5の対話状態での対話手順を参照して、利用者に対して応答文として前記第3の認識結果かどうかを確認するよう応答し、
前記対話管理部は、前記音声認識部の確認応答に対する否定の第4の認識結果に基づき、前記第3の認識結果は誤った認識結果と判断し、この誤認識に基づき前記音声認識正誤回数記憶部に保持されている誤認識回数を更新する
ことを特徴とする音声対話装置。 - 入力音声に対して認識処理を行い音声認識結果を出力する音声認識部と、
各対話状態における、音声認識対象語彙と、音声認識結果及び想定認識率に応じた遷移先対話状態と、応答文を規定した対話手順を保持する対話手順記憶部と、
利用者との対話が開始されて現在の対話状態に至るまでの音声認識の正解認識回数及び誤認識回数を保持する音声認識正誤回数記憶部と、
前記音声認識正誤回数記憶部に保持された音声認識の正解認識回数及び誤認識回数に基づいて、現在の対話状態に規定された想定認識率に対して検定を行い、棄却されない想定認識率をすべて出力する想定音声認識率検定部と、
前記対話手順記憶部に保持された対話手順を参照して、前記音声認識部が出力する音声認識結果と前記想定音声認識率検定部が出力する想定認識率に対応する遷移先対話状態から、遷移先対話状態を1つに決定して出力する遷移先対話状態決定部と、
前記音声認識部が出力する音声認識結果に対する正誤結果を出力し、前記遷移先対話状態決定部が出力する遷移先対話状態へ対話状態を遷移する対話管理部とを備え、
前記対話管理部は、第1の対話状態に到達すると、前記対話手順記憶部に保持された前記第1の対話状態に対する対話手順を参照して、利用者に対して応答文として第1の音声認識対象語彙を入力するよう応答し、
前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第1の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する入力音声と同じ第1の認識結果から、遷移先対話状態として第2の対話状態を決定して出力し、
前記対話管理部は、前記遷移先対話状態決定部が出力する前記第2の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第2の対話状態での対話手順を参照して、利用者に対して応答文として前記第1の認識結果かどうかを確認するよう応答し、前記音声認識部の確認応答に対する肯定の第2の認識結果に基づき、前記第1の認識結果は正しい認識結果と判断し、この正解認識に基づき前記音声認識正誤回数記憶部に保持されている正解認識回数を更新し、
前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第2の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する第2の認識結果と、前記想定音声認識率検定部が出力する想定認識率から、第1の想定認識率を選択した場合には、遷移先対話状態として第3の対話状態を決定して出力し、前記第1の想定認識率より小さい第2の想定認識率を選択した場合には、遷移先対話状態として第4の対話状態を決定して出力し、
前記対話管理部は、前記第3の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第3の対話状態での対話手順を参照して、利用者に対して応答文として前記第1の音声認識対象語彙より下位概念である第2の音声認識対象語彙及び前記第2の音声認識対象語彙より下位概念である第3の音声認識対象語彙を入力するよう応答し、前記第4の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第4の対話状態での対話手順を参照して、利用者に対して応答文として前記第1の音声認識対象語彙より下位概念である第2の音声認識対象語彙を入力するよう応答し、
前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第1の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する入力音声と異なる第3の認識結果から、遷移先対話状態として第5の対話状態を決定して出力し、
前記対話管理部は、前記第5の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第5の対話状態での対話手順を参照して、利用者に対して応答文として前記第3の認識結果かどうかを確認するよう応答し、
前記対話管理部は、前記音声認識部の確認応答に対する否定の第4の認識結果に基づき、前記第3の認識結果は誤った認識結果と判断し、この誤認識に基づき前記音声認識正誤回数記憶部に保持されている誤認識回数を更新する
ことを特徴とする音声対話装置。 - 前記対話管理部は、前記遷移先対話状態決定部が出力する遷移先対話状態が対話終了状態であり、かつ利用者の対話目的が達成されていない場合には、利用者との対話を打ち切りオペレータに切り替える
ことを特徴とする請求項1又は2記載の音声対話装置。 - 前記対話手順記憶部は、各対話状態における終了対話状態までの平均対話回数を規定した対話手順を保持し、
前記遷移先対話状態決定部は、前記対話手順記憶部に保持された対話手順を参照して、前記音声認識部が出力する音声認識結果と、前記想定音声認識率検定部が出力する想定認識率に対応する遷移先対話状態から、終了対話状態までの平均対話回数に基づいて遷移先対話状態を1つに決定して出力する
ことを特徴とする請求項2記載の音声対話装置。 - 入力音声に対して認識処理を行い音声認識結果を出力する音声認識部と、
各対話状態における、音声認識対象語彙、音声認識結果及び誤認識回数に応じた遷移先対話状態を規定した対話手順を保持する対話手順記憶部と、
音声認識の正誤回数を保持する音声認識正誤回数記憶部と、
前記音声認識正誤回数記憶部に保持された音声認識の正誤回数と前記音声認識部が出力する音声認識結果に基づいて、前記対話手順記憶部に保持された対話手順を参照して遷移先対話状態を決定して出力する遷移先対話状態決定部と、
前記音声認識部が出力する音声認識結果に対する正誤結果を出力し、前記遷移先対話状態決定部が出力する遷移先対話状態へ対話状態を遷移する対話管理部とを備え、
前記対話手順記憶部は、各対話状態における音声認識率分布を規定した対話手順を保持し、
前記音声認識正誤回数記憶部に保持された音声認識正誤回数を用いて、現在の対話状態までの利用者の音声認識率を推定して出力する音声認識率推定部と、
前記音声認識率推定部が出力する音声認識率と、現在の対話状態における音声認識率分布に基づいて、利用者の入力が正しく認識される可能性を判定して判定結果を出力する音声認識成功可能性判定部と
をさらに備え、
前記対話管理部は、前記音声認識成功可能性判定部の判定結果に基づいて、利用者との対話を打ち切りオペレータに切り替える
ことを特徴とする音声対話装置。 - 各対話状態における、利用者の該対話状態までの推定音声認識率と該対話状態における音声認識結果の正誤の履歴を蓄積する音声認識正誤履歴蓄積部と、
前記音声認識正誤履歴蓄積部を参照して、各対話状態における音声認識率分布を計算し、前記対話手順記憶部に保持された音声認識率分布を更新する音声認識率分布更新部と
をさらに備えたことを特徴とする請求項5記載の音声対話装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10162899A JP3933813B2 (ja) | 1999-04-08 | 1999-04-08 | 音声対話装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10162899A JP3933813B2 (ja) | 1999-04-08 | 1999-04-08 | 音声対話装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000293194A JP2000293194A (ja) | 2000-10-20 |
JP3933813B2 true JP3933813B2 (ja) | 2007-06-20 |
Family
ID=14305676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10162899A Expired - Fee Related JP3933813B2 (ja) | 1999-04-08 | 1999-04-08 | 音声対話装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3933813B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002132292A (ja) * | 2000-10-26 | 2002-05-09 | Daisuke Murakami | 音声によるホームオートメーションシステム |
JP3576116B2 (ja) * | 2001-03-22 | 2004-10-13 | 日本電信電話株式会社 | 音声対話装置、音声対話処理方法、音声対話処理プログラムおよびその記録媒体 |
JP2003302997A (ja) * | 2002-04-11 | 2003-10-24 | Murata Mach Ltd | 音声制御装置 |
JP4223841B2 (ja) * | 2003-03-17 | 2009-02-12 | 富士通株式会社 | 音声対話システム及び方法 |
US8086462B1 (en) | 2004-09-09 | 2011-12-27 | At&T Intellectual Property Ii, L.P. | Automatic detection, summarization and reporting of business intelligence highlights from automated dialog systems |
JP4832097B2 (ja) * | 2006-02-13 | 2011-12-07 | 富士通テン株式会社 | 音声対話システム |
JP2007272123A (ja) * | 2006-03-31 | 2007-10-18 | Toyota Central Res & Dev Lab Inc | 音声操作システム |
JP6235757B2 (ja) * | 2015-03-19 | 2017-11-22 | 株式会社東芝 | 対話データ収集システム、対話データ収集方法、対話データ収集プログラム、対話データ収集支援装置、対話データ収集支援方法および対話データ収集支援プログラム |
JP6805112B2 (ja) * | 2017-11-08 | 2020-12-23 | 株式会社東芝 | 対話システム、対話方法および対話プログラム |
-
1999
- 1999-04-08 JP JP10162899A patent/JP3933813B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000293194A (ja) | 2000-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7487088B1 (en) | Method and system for predicting understanding errors in a task classification system | |
US7127395B1 (en) | Method and system for predicting understanding errors in a task classification system | |
US8818801B2 (en) | Dialogue speech recognition system, dialogue speech recognition method, and recording medium for storing dialogue speech recognition program | |
US8265933B2 (en) | Speech recognition system for providing voice recognition services using a conversational language model | |
US6925154B2 (en) | Methods and apparatus for conversational name dialing systems | |
Kamm | User interfaces for voice applications. | |
EP2466450B1 (en) | method and device for the correction of speech recognition errors | |
US7058573B1 (en) | Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes | |
US8352273B2 (en) | Device, method, and program for performing interaction between user and machine | |
EP1561204B1 (en) | Method and system for speech recognition | |
JP6121842B2 (ja) | 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム | |
US20050080627A1 (en) | Speech recognition device | |
US20060287868A1 (en) | Dialog system | |
US20020065651A1 (en) | Dialog system | |
JP3933813B2 (ja) | 音声対話装置 | |
JP2004333543A (ja) | 音声対話システム及び音声対話方法 | |
JP4992925B2 (ja) | 音声対話装置及びプログラム | |
JP2002358097A (ja) | 音声認識装置 | |
EP1377000B1 (en) | Method used in a speech-enabled automatic directory system | |
JP4408665B2 (ja) | 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム | |
JPH086590A (ja) | 音声対話のための音声認識方法及び装置 | |
JP2009103985A (ja) | 音声認識システム、音声認識処理のための状況検知システム、状況検知方法および状況検知プログラム | |
Cave et al. | Efficient grammar generation and tuning for interactive voice response applications | |
JP2004157919A (ja) | 入力装置及び音声入力方法と装置並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041117 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070313 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070314 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3933813 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100330 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110330 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110330 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120330 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130330 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130330 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140330 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |