JP3933813B2

JP3933813B2 - 音声対話装置

Info

Publication number: JP3933813B2
Application number: JP10162899A
Authority: JP
Inventors: 圭輔渡邉; 明人永井; 泰石川
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-04-08
Filing date: 1999-04-08
Publication date: 2007-06-20
Anticipated expiration: 2019-04-08
Also published as: JP2000293194A

Description

【０００１】
【発明の属する技術分野】
この発明は、自然言語によるマン・マシン・インタフェースに用いられる音声対話装置に関するものである。
【０００２】
【従来の技術】
装置との音声による対話によって、利用者が必要とする情報を得るような音声対話装置の重要性が高まっている。このような音声対話装置においては、利用者が必要とする情報を効率的に得るための対話制御を行うことが重要であり、従来そのような目的のために、平均音声対話回数を推定し、その推定値に基づいて対話手順を設定する方法が提案されている。
【０００３】
従来の音声対話装置について図面を参照しながら説明する。図１８は、例えば特開平１０−０９１１８８号公報に示された従来の音声対話手順生成装置の構成を示す図である。
【０００４】
このように構成された従来の音声対話手順生成装置において、対話全体繰り返し回数評価処理部では、基本対話分解部が対話手順を基本対話に分解し、基本対話繰り返し回数評価処理部が音素誤認識行列と語彙から求まる推定認識率を使用して各基本対話の繰り返し回数を評価し、基本対話繰り返し回数合計部が各基本対話の繰り返し回数を合計して出力する。最小選択出力部が、各対話全体繰り返し回数評価処理部の出力のうちの最小値を選択して対話手順を決定する。
【０００５】
【発明が解決しようとする課題】
しかしながら、上記のような従来の音声対話手順生成装置では、対話の繰り返し回数の推定に用いる推定認識率は、実際の発声から予め求めた音素誤認識行列と予め定められた語彙により求めたものであり、装置に音声を入力している利用者の認識率を表すものではない。したがって、推定される対話の繰り返し回数は、特定の利用者の音声認識率を反映した繰り返し回数ではないため、決定される対話手順は必ずしも利用者が最も効率よく対話目的を達成するものではないという問題点があった。
【０００６】
この発明は、前述した問題点を解決するためになされたもので、利用者に応じて最も効率よく対話目的を達成するための対話手順を決定できる音声対話装置を得ることを目的とする。
【０００７】
【課題を解決するための手段】
この発明の請求項１に係る音声対話装置は、入力音声に対して認識処理を行い音声認識結果を出力する音声認識部と、各対話状態における、音声認識対象語彙と、音声認識結果及び誤認識回数に応じた遷移先対話状態と、応答文を規定した対話手順を保持する対話手順記憶部と、利用者との対話が開始されて現在の対話状態に至るまでの音声認識の正解認識回数及び誤認識回数を保持する音声認識正誤回数記憶部と、前記音声認識正誤回数記憶部に保持された音声認識の正誤回数と前記音声認識部が出力する音声認識結果に基づいて、前記対話手順記憶部に保持された対話手順を参照して遷移先対話状態を決定して出力する遷移先対話状態決定部と、前記音声認識部が出力する音声認識結果に対する正誤結果を出力し、前記遷移先対話状態決定部が出力する遷移先対話状態へ対話状態を遷移する対話管理部とを備え、前記対話管理部は、第１の対話状態に到達すると、前記対話手順記憶部に保持された前記第１の対話状態に対する対話手順を参照して、利用者に対して応答文として第１の音声認識対象語彙を入力するよう応答し、前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第１の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する入力音声と同じ第１の認識結果と、前記音声認識正誤回数記憶部に保持された誤認識回数から、遷移先対話状態として第２の対話状態を決定して出力し、前記対話管理部は、前記遷移先対話状態決定部が出力する前記第２の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第２の対話状態での対話手順を参照して、利用者に対して応答文として前記第１の認識結果かどうかを確認するよう応答し、前記音声認識部の確認応答に対する肯定の第２の認識結果に基づき、前記第１の認識結果は正しい認識結果と判断し、この正解認識に基づき前記音声認識正誤回数記憶部に保持されている正解認識回数を更新し、前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第２の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する第２の認識結果と、前記音声認識正誤回数記憶部に保持された誤認識回数から、前記誤認識回数が所定数以下の場合には、遷移先対話状態として第３の対話状態を決定して出力し、前記誤認識回数が所定数より大きい場合には、遷移先対話状態として第４の対話状態を決定して出力し、前記対話管理部は、前記第３の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第３の対話状態での対話手順を参照して、利用者に対して応答文として前記第１の音声認識対象語彙より下位概念である第２の音声認識対象語彙及び前記第２の音声認識対象語彙より下位概念である第３の音声認識対象語彙を入力するよう応答し、前記第４の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第４の対話状態での対話手順を参照して、利用者に対して応答文として前記第１の音声認識対象語彙より下位概念である第２の音声認識対象語彙を入力するよう応答し、前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第１の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する入力音声と異なる第３の認識結果と、前記音声認識正誤回数記憶部に保持された誤認識回数から、遷移先対話状態として第５の対話状態を決定して出力し、前記対話管理部は、前記第５の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第５の対話状態での対話手順を参照して、利用者に対して応答文として前記第３の認識結果かどうかを確認するよう応答し、前記対話管理部は、前記音声認識部の確認応答に対する否定の第４の認識結果に基づき、前記第３の認識結果は誤った認識結果と判断し、この誤認識に基づき前記音声認識正誤回数記憶部に保持されている誤認識回数を更新するものである。
【０００８】
この発明の請求項２に係る音声対話装置は、入力音声に対して認識処理を行い音声認識結果を出力する音声認識部と、各対話状態における、音声認識対象語彙と、音声認識結果及び想定認識率に応じた遷移先対話状態と、応答文を規定した対話手順を保持する対話手順記憶部と、利用者との対話が開始されて現在の対話状態に至るまでの音声認識の正解認識回数及び誤認識回数を保持する音声認識正誤回数記憶部と、前記音声認識正誤回数記憶部に保持された音声認識の正解認識回数及び誤認識回数に基づいて、現在の対話状態に規定された想定認識率に対して検定を行い、棄却されない想定認識率をすべて出力する想定音声認識率検定部と、前記対話手順記憶部に保持された対話手順を参照して、前記音声認識部が出力する音声認識結果と前記想定音声認識率検定部が出力する想定認識率に対応する遷移先対話状態から、遷移先対話状態を１つに決定して出力する遷移先対話状態決定部と、前記音声認識部が出力する音声認識結果に対する正誤結果を出力し、前記遷移先対話状態決定部が出力する遷移先対話状態へ対話状態を遷移する対話管理部とを備え、前記対話管理部は、第１の対話状態に到達すると、前記対話手順記憶部に保持された前記第１の対話状態に対する対話手順を参照して、利用者に対して応答文として第１の音声認識対象語彙を入力するよう応答し、前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第１の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する入力音声と同じ第１の認識結果から、遷移先対話状態として第２の対話状態を決定して出力し、前記対話管理部は、前記遷移先対話状態決定部が出力する前記第２の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第２の対話状態での対話手順を参照して、利用者に対して応答文として前記第１の認識結果かどうかを確認するよう応答し、前記音声認識部の確認応答に対する肯定の第２の認識結果に基づき、前記第１の認識結果は正しい認識結果と判断し、この正解認識に基づき前記音声認識正誤回数記憶部に保持されている正解認識回数を更新し、前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第２の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する第２の認識結果と、前記想定音声認識率検定部が出力する想定認識率から、第１の想定認識率を選択した場合には、遷移先対話状態として第３の対話状態を決定して出力し、前記第１の想定認識率より小さい第２の想定認識率を選択した場合には、遷移先対話状態として第４の対話状態を決定して出力し、前記対話管理部は、前記第３の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第３の対話状態での対話手順を参照して、利用者に対して応答文として前記第１の音声認識対象語彙より下位概念である第２の音声認識対象語彙及び前記第２の音声認識対象語彙より下位概念である第３の音声認識対象語彙を入力するよう応答し、前記第４の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第４の対話状態での対話手順を参照して、利用者に対して応答文として前記第１の音声認識対象語彙より下位概念である第２の音声認識対象語彙を入力するよう応答し、前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第１の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する入力音声と異なる第３の認識結果から、遷移先対話状態として第５の対話状態を決定して出力し、前記対話管理部は、前記第５の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第５の対話状態での対話手順を参照して、利用者に対して応答文として前記第３の認識結果かどうかを確認するよう応答し、前記対話管理部は、前記音声認識部の確認応答に対する否定の第４の認識結果に基づき、前記第３の認識結果は誤った認識結果と判断し、この誤認識に基づき前記音声認識正誤回数記憶部に保持されている誤認識回数を更新するものである。
【０００９】
この発明の請求項３に係る音声対話装置は、前記対話管理部が、前記遷移先対話状態決定部が出力する遷移先対話状態が対話終了状態であり、かつ利用者の対話目的が達成されていない場合には、利用者との対話を打ち切りオペレータに切り替えるものである。
【００１０】
この発明の請求項４に係る音声対話装置は、前記対話手順記憶部が、各対話状態における終了対話状態までの平均対話回数を規定した対話手順を保持し、前記遷移先対話状態決定部が、前記対話手順記憶部に保持された対話手順を参照して、前記音声認識部が出力する音声認識結果と、前記想定音声認識率検定部が出力する想定認識率に対応する遷移先対話状態から、終了対話状態までの平均対話回数に基づいて遷移先対話状態を１つに決定して出力するものである。
【００１１】
この発明の請求項５に係る音声対話装置は、入力音声に対して認識処理を行い音声認識結果を出力する音声認識部と、各対話状態における、音声認識対象語彙、音声認識結果及び誤認識回数に応じた遷移先対話状態を規定した対話手順を保持する対話手順記憶部と、音声認識の正誤回数を保持する音声認識正誤回数記憶部と、前記音声認識正誤回数記憶部に保持された音声認識の正誤回数と前記音声認識部が出力する音声認識結果に基づいて、前記対話手順記憶部に保持された対話手順を参照して遷移先対話状態を決定して出力する遷移先対話状態決定部と、前記音声認識部が出力する音声認識結果に対する正誤結果を出力し、前記遷移先対話状態決定部が出力する遷移先対話状態へ対話状態を遷移する対話管理部とを備え、前記対話手順記憶部が、各対話状態における音声認識率分布を規定した対話手順を保持し、前記音声認識正誤回数記憶部に保持された音声認識正誤回数を用いて、現在の対話状態までの利用者の音声認識率を推定して出力する音声認識率推定部と、前記音声認識率推定部が出力する音声認識率と、現在の対話状態における音声認識率分布に基づいて、利用者の入力が正しく認識される可能性を判定して判定結果を出力する音声認識成功可能性判定部とをさらに備え、前記対話管理部が、前記音声認識成功可能性判定部の判定結果に基づいて、利用者との対話を打ち切りオペレータに切り替えるものである。
【００１２】
この発明の請求項６に係る音声対話装置は、各対話状態における、利用者の該対話状態までの推定音声認識率と該対話状態における音声認識結果の正誤の履歴を蓄積する音声認識正誤履歴蓄積部と、前記音声認識正誤履歴蓄積部を参照して、各対話状態における音声認識率分布を計算し、前記対話手順記憶部に保持された音声認識率分布を更新する音声認識率分布更新部とをさらに備えたものである。
【００１３】
【発明の実施の形態】
実施の形態１．
この発明の実施の形態１に係る音声対話装置について図面を参照しながら説明する。図１は、この発明の実施の形態１に係る音声対話装置の構成を示す図である。なお、各図中、同一符号は同一又は相当部分を示す。
【００１４】
図１において、１は入力音声に対して認識処理を行い音声認識結果を出力する音声認識部、２は各対話状態における、音声認識対象語彙、音声認識結果および誤認識回数に応じた遷移先対話状態を規定した対話手順を保持する対話手順記憶部、３は音声認識の正誤回数を保持する音声認識正誤回数記憶部、４は音声認識正誤回数記憶部３に保持された音声認識の正誤回数と音声認識部１が出力する音声認識結果に基づいて、対話手順記憶部２に保持された対話手順を参照して遷移先対話状態を決定し出力する遷移先対話状態決定部、５は音声認識部１が出力する認識結果に対する正誤結果を出力し、遷移先対話状態決定部４が出力する対話状態へ対話状態を遷移する対話管理部である。
【００１５】
つぎに、この実施の形態１に係る音声対話装置の動作について図面を参照しながら説明する。図２及び図３は、この発明の実施の形態１に係る音声対話装置の対話手順記憶部に保持された対話手順の一例を示す図である。
【００１６】
以下、音声対話装置を電話番号案内に用いた場合について具体的な動作説明を行う。電話番号案内音声対話装置とは、利用者が装置と音声で対話することで、電話番号案内に必要な、住所、対象名などの項目情報を入力し、装置は入力された項目に基づき電話番号の検索を行い、利用者に電話番号を案内するものである。
【００１７】
例えば、図２の上段に示す対話状態Ｓ₁₀においては、音声認識対象語彙Ｖ₁₀として日本の全ての県名、音声認識結果および誤認識回数に応じた遷移先対話状態のテーブルＴ₁₀が規定されている。遷移先対話状態のテーブルＴ₁₀は、音声認識結果が例えば「神奈川」である場合には誤認識回数に関わらず遷移先対話状態がＳ₃₅であることを示している。
【００１８】
また、図２の下段に示す遷移先対話状態のテーブルＴ₃₅は、音声認識結果が「はい」であり、例えば誤認識回数が２回以下の場合には遷移先対話状態はＳ₁₂₀、音声認識結果が「はい」であり、誤認識回数が３回以上５回以下の場合には遷移先対話状態はＳ₁₂₁であることを示している。
【００１９】
各対話状態には、音声認識対象語彙、遷移先対話状態以外の対話制御情報を記述することが可能であり、例えば図２の上段の対話状態Ｓ₁₀においては、利用者への応答として「県名を入力してください」という応答文Ａ₁₀が規定されている。
【００２０】
図４は、音声認識正誤回数記憶部３に保持された音声認識の正誤回数の一例を示すものである。利用者との対話が開始されて現在の対話状態に至るまでに、音声認識結果が正しかった回数が「７」回、音声認識結果が誤っていた回数が「２」回であることを表している。
【００２１】
音声認識正誤回数記憶部３に保持される音声認識の正誤回数が図４である利用者が、対話状態Ｓ₁₀に到達した場合の動作を説明する。
【００２２】
対話状態Ｓ₁₀に到達すると、対話管理部５は、対話手順記憶部２に保持された図２に示す対話状態Ｓ₁₀に対する対話手順を参照して、利用者に対して「県名を入力してください」と応答する。利用者が「神奈川」と入力すると音声認識部１は入力音声に対して音声認識を行ない認識結果「神奈川」を出力する。
【００２３】
遷移先対話状態決定部４は、対話手順記憶部２に保持された図２に示す対話状態Ｓ₁₀での遷移先対話状態のテーブルＴ₁₀を参照して、音声認識部１が出力する音声認識結果「神奈川」と、音声認識正誤回数記憶部３に保持された誤認識回数「２」から、遷移先対話状態をＳ₃₅と決定して出力する。
【００２４】
対話管理部５は、遷移先対話状態決定部４が出力する遷移先対話状態Ｓ₃₅へ現在の対話状態を遷移させ、対話手順記憶部２に保持された図２の下段に示す対話状態Ｓ₃₅での対話手順を参照して、利用者に対して「神奈川ですね」と応答する。
【００２５】
利用者が「はい」と入力すると、音声認識部１は入力音声に対して音声認識を行い、音声認識結果「はい」を出力する。
【００２６】
対話管理部５は、確認応答「神奈川ですね」に対する音声認識結果「はい」に基づき、認識結果「神奈川」は正しい認識結果と判断し、正解認識が生じたことを音声認識正誤回数記憶部３に出力し、音声認識正誤回数記憶部３に保持された正解認識回数は「８」に更新される。
【００２７】
遷移先対話状態決定部４は、対話手順記憶部２に保持された図２の下段に示す対話状態Ｓ₃₅での遷移先対話状態のテーブルＴ₃₅を参照して、音声認識部１が出力する音声認識結果「はい」と、音声認識正誤回数記憶部３に保持された誤認識回数「２」から、遷移先対話状態をＳ₁₂₀と決定して出力する。
【００２８】
対話管理部５は、遷移先対話状態決定部４が出力する遷移先対話状態Ｓ₁₂₀へ現在の対話状態を遷移させ、対話手順記憶部２に保持された図３の中段に示す対話状態Ｓ₁₂₀での対話手順を参照して、利用者に対して「県名以下の住所をどうぞ」と応答する。これに対し利用者は、例えば「鎌倉市の大船です」と入力し対話を継続する。
【００２９】
一方、音声認識正誤回数記憶部３に保持される音声認識の正誤回数が図４に示す回数である利用者が、対話状態Ｓ₁₀において「神奈川」と入力し、音声認識部１によって「香川」と誤認識された場合について説明する。
【００３０】
遷移先対話状態決定部４は、対話手順記憶部２に保持された図２の上段に示す対話状態Ｓ₁₀での遷移先対話状態のテーブルＴ₁₀を参照して、音声認識部１が出力する音声認識結果「香川」と、音声認識正誤回数記憶部３に保持された誤認識回数「２」から、遷移先対話状態をＳ₅₃と決定して出力する。
【００３１】
対話管理部５は、遷移先対話状態決定部４が出力する遷移先対話状態Ｓ₅₃へ現在の対話状態を遷移させ、対話手順記憶部２に保持された図３の上段に示す対話状態Ｓ₅₃での対話手順を参照して、利用者に対して「香川ですね」と応答する。
【００３２】
利用者が「いいえ」と入力すると、音声認識部１は入力音声に対して音声認識を行い、音声認識結果「いいえ」を出力する。
【００３３】
対話管理部５は、確認応答「香川ですね」に対する音声認識結果「いいえ」に基づき、認識結果「香川」に対して認識誤りと判断し、誤認識が生じたことを音声認識正誤回数記憶部３に出力し、音声認識正誤回数記憶部３に保持された誤認識回数は「３」に更新される。
【００３４】
遷移先対話状態決定部４は、対話手順記憶部２に保持された図３の上段に示す対話状態Ｓ₅₃での遷移先対話状態のテーブルＴ₅₃を参照して、音声認識部１が出力する音声認識結果「いいえ」と、音声認識正誤回数記憶部３に保持された誤認識回数「３」から、遷移先対話状態をＳ₁₀と決定して出力する。
【００３５】
対話状態Ｓ₁₀において再び利用者が県名として「神奈川」を入力し、音声認識部１は正しく「神奈川」認識した場合、遷移先対話状態決定部４は、対話状態Ｓ₁₀での遷移先対話状態のテーブルＴ₁₀を参照して、音声認識結果「神奈川」と、誤認識回数「３」から、遷移先対話状態をＳ₃₅と決定して出力する。
【００３６】
対話管理部５は、遷移先対話状態Ｓ₃₅へ現在の対話状態を遷移させ、対話状態Ｓ₃₅での対話手順を参照して、利用者に対して「神奈川ですね」と応答し、利用者が「はい」と入力すると、音声認識部１は音声認識結果「はい」を出力する。
【００３７】
対話管理部５は、確認応答「神奈川ですね」に対する音声認識結果「はい」に基づき、認識結果「神奈川」は正しい認識結果と判断し、正解認識が生じたことを音声認識正誤回数記憶部３に出力し、音声認識正誤回数記憶部３に保持された正解認識回数は「８」に更新される。
【００３８】
遷移先対話状態決定部４は、対話状態Ｓ₃₅での遷移先対話状態のテーブルＴ₃₅を参照して、音声認識部１が出力する音声認識結果「はい」と、音声認識正誤回数記憶部３に保持された誤認識回数「３」から、遷移先対話状態をＳ₁₂₁と決定して出力する。
【００３９】
対話管理部５は、現在の対話状態をＳ₃₅からＳ₁₂₁へ遷移させ、図３の下段に示す対話状態Ｓ₁₂₁での対話手順を参照して、利用者に対して「市あるいは郡名を入力してください」と応答する。これに対し利用者は、例えば「鎌倉」と入力し対話を継続する。
【００４０】
以上の動作により、誤認識を生じる回数が少ない利用者に対しては、認識対象語彙を大きくして対話回数が少なくなる『対話状態Ｓ₁₂₀』のような対話手順を選択でき、誤認識を生じる回数が多い利用者に対しては、対話回数は多くなるが認識対象語彙を小さくすることで誤認識を少なくする『対話状態Ｓ₁₂₁』のような対話手順を選択できる。したがって、利用者の音声認識率に応じた最適な対話手順を選択できるため、利用者に応じて最も効率よく対話目的を達成することができる。
【００４１】
実施の形態２．
この発明の実施の形態２に係る音声対話装置について図面を参照しながら説明する。図５は、この発明の実施の形態２に係る音声対話装置の構成を示す図である。
【００４２】
図５において、１は音声認識部、２は対話手順記憶部、３は音声認識正誤回数記憶部、４は遷移先対話状態決定部、５は対話管理部、６は想定音声認識率検定部である。
【００４３】
つぎに、この実施の形態２に係る音声対話装置の動作について図面を参照しながら説明する。図６及び図７は、この発明の実施の形態２に係る音声対話装置の対話手順の一例を示す図である。
【００４４】
対話手順記憶部２、遷移先対話状態決定部４、及び想定音声認識率検定部６の動作について説明する。なお、音声認識部１、音声認識正誤回数記憶部３及び対話管理部５の動作は、上記の実施の形態１と同じなので省略する。
【００４５】
例えば、図６の上段に示す対話状態Ｓ₁₀においては、音声認識対象語彙Ｖ₁₀として日本の全ての県名、音声認識結果および想定認識率に応じた遷移先対話状態のテーブルＴ₁₀が規定されている。遷移先対話状態のテーブルＴ₁₀は、音声認識結果が「神奈川」である場合には想定認識率に関わらず遷移先対話状態がＳ₃₅であることを示している。また、図６の下段に示す遷移先対話状態のテーブルＴ₃₅は、音声認識結果が「はい」であり、利用者に対する想定認識率が９０％の場合には遷移先対話状態がＳ₁₂₀、音声認識結果が「はい」であり、利用者に対する想定認識率が８０％場合には遷移先対話状態はＳ₁₂₁であることを示している。
【００４６】
音声認識正誤回数記憶部３に保持される音声認識の正誤回数が図４に示す回数である利用者が、対話状態Ｓ₁₀に到達した場合の動作を説明する。
【００４７】
対話状態Ｓ₁₀に到達すると、対話管理部５は、対話手順記憶部２に保持された図６の上段に示す対話状態Ｓ₁₀に対する対話手順を参照して、利用者に対して「県名を入力してください」と応答する。利用者が「神奈川」と入力すると、音声認識部１は、入力音声に対して音声認識を行ない認識結果「神奈川」を出力する。
【００４８】
想定音声認識率検定部６は、音声認識結果「神奈川」に対する想定認識率が任意なので検定は行わない。
【００４９】
遷移先対話状態決定部４は、対話手順記憶部２に保持された図６の上段に示す対話状態Ｓ₁₀での遷移先対話状態のテーブルＴ₁₀を参照して、音声認識部１が出力する音声認識結果「神奈川」から遷移先対話状態をＳ₃₅と決定して出力する。
【００５０】
図６の下段に示す対話状態Ｓ₃₅での応答「神奈川ですね」に対し、利用者が「はい」と入力すると、対話管理部５は正解認識が生じたことを音声認識正誤回数記憶部３に出力し、音声認識正誤回数記憶部３に保持された正解認識回数は「８」に更新される。
【００５１】
想定音声認識率検定部６は、対話状態Ｓ₃₅での対話手順を参照して想定認識率９０％、８０％を仮説として、音声認識正誤回数記憶部３に保持された音声認識正誤回数に対して予め定められた危険率で仮説検定を行う。
【００５２】
仮説検定には、図８に示すような式により観測値に対するｕ求め、危険率に対するｕ₀を正規分布表を用いて得て、ｕとｕ₀との比較により仮説の棄却を判断する公知の手段があるので、それを用いる。なお、図８において、ｐは仮説、ｋは正解認識回数、ｎは総音声認識回数すなわち正解認識回数と誤認識回数の和である。
【００５３】
総認識回数が１０回、正解認識回数が８回について、危険率１０％で仮説９０％に対して検定を行うと、ｕ＝１．０５４、ｕ₀＝１．２８２であるから、ｕ＜ｕ₀となり仮説は棄却されない。仮説８０％に対して検定を行うとｕ＝０であるからｕ＜ｕ₀となり仮説は棄却されない。したがって、想定音声認識率検定部６は、検定結果として９０％と８０％を出力する。
【００５４】
遷移先対話状態決定部４は、想定音声認識率検定部６が出力する想定認識率９０％と８０％に対して例えば最も大きい９０％を選択する。選択の基準は、利用者をできるかぎり認識率の良い利用者として想定し、音声入力をなるべく限定せずに少ない対話回数で対話を完了させるために最も大きい想定認識率を選択する、など設計者が予め定める。
【００５５】
遷移先対話状態決定部４は、対話手順記憶部２に保持された図６の下段に示す対話状態Ｓ₃₅での遷移先対話状態のテーブルＴ₃₅を参照して、音声認識部１が出力する音声認識結果「はい」と、決定した想定認識率９０％から、遷移先対話状態をＳ₁₂₀と決定して出力する。
【００５６】
対話管理部５は、遷移先対話状態決定部４が出力する遷移先対話状態Ｓ₁₂₀へ現在の対話状態を遷移させ、対話手順記憶部２に保持された図７の中段に示す対話状態Ｓ₁₂₀での対話手順を参照して、利用者に対して「県名以下の住所をどうぞ」と応答する。これに対し利用者は、例えば「鎌倉市の大船です」と入力し対話を継続する。
【００５７】
一方、音声認識正誤回数記憶部３に保持される音声認識の正誤回数が図４に示す回数である利用者が、対話状態Ｓ₁₀において「神奈川」と入力し、音声認識部１によって「香川」と誤認識された場合について説明する。
【００５８】
上記の実施の形態１と同様に、対話状態Ｓ₁₀において再び利用者が県名として「神奈川」を入力し、音声認識部１は正しく「神奈川」と認識した場合、遷移先対話状態決定部４は、対話状態Ｓ₁₀での遷移先対話状態のテーブルＴ₁₀を参照して、音声認識結果「神奈川」から遷移先対話状態をＳ₃₅と決定し、対話管理部５は、遷移先対話状態Ｓ₃₅へ現在の対話状態を遷移させ、利用者に対して「神奈川ですね」と応答し、利用者が「はい」と入力すると、音声認識部１は音声認識結果「はい」を出力する。
【００５９】
対話管理部５は、確認応答「神奈川ですね」に対する音声認識結果「はい」に基づき、認識結果「神奈川」は正しい認識結果と判断し、正解認識が生じたことを音声認識正誤回数記憶部３に出力し、音声認識正誤回数記憶部３に保持された正解認識回数は「８」に更新される。なお、この時点で誤認識回数は「３」である。
【００６０】
想定音声認識率検定部６は、総認識回数が１１回、正解認識回数が８回について、危険率１０％で仮説９０％および８０％に対して検定を行う。９０％に対しては、ｕ＝１．９１０＞ｕ₀＝１．２８２であり仮説は棄却される。８０％に対しては、ｕ＝０．６＜ｕ₀＝１．２８２であり仮説は棄却されない。したがって、想定音声認識率検定部６は検定結果として８０％を出力する。
【００６１】
遷移先対話状態決定部４は、対話手順記憶部２に保持された図６の下段に示す対話状態Ｓ₃₅での遷移先対話状態のテーブルＴ₃₅を参照して、音声認識部１が出力する音声認識結果「はい」と、決定した想定認識率８０％から、遷移先対話状態をＳ₁₂₁と決定して出力する。
【００６２】
対話管理部５は、現在の対話状態をＳ₃₅からＳ₁₂₁へ遷移させ、図７の下段に示す対話状態Ｓ₁₂₁での対話手順を参照して、利用者に対して「市あるいは郡名を入力してください」と応答する。これに対し利用者は、例えば「鎌倉」と入力し対話を継続する。
【００６３】
以上の動作により、利用者の音声認識正誤回数に基づいた想定音声認識の検定結果に基づいて対話手順を変更するため、想定認識率が良い利用者に対しては、認識対象語彙を大きくして対話回数が少なくなる対話状態Ｓ₁₂₀のような対話手順を選択でき、想定認識率が悪い利用者に対しては、対話回数は多くなるが認識対象語彙を小さくすることで誤認識を少なくする対話状態Ｓ₁₂₁のような対話手順を選択できる。したがって、利用者の音声認識率に応じた最適な対話手順を選択できるため、利用者に応じて最も効率よく対話目的を達成することができる。
【００６４】
実施の形態３．
この発明の実施の形態３に係る音声対話装置について図面を参照しながら説明する。図９は、この発明の実施の形態３に係る音声対話装置の構成を示す図である。
【００６５】
図９において、１は音声認識部、２は対話手順記憶部、３は音声認識正誤回数記憶部、４は遷移先対話状態決定部、５は対話管理部である。
【００６６】
つぎに、この実施の形態３に係る音声対話装置の動作について図面を参照しながら説明する。
【００６７】
対話管理部５の動作について説明する。なお、音声認識部１、対話手順記憶部２、音声認識正誤回数記憶部３、及び遷移先対話状態決定部４の動作は、上記の実施の形態１と同じなので省略する。
【００６８】
音声認識正誤回数記憶部３に保持される音声認識の正誤回数が、正解認識回数１０回、誤認識回数７回である場合に、利用者が図２上段に示す対話状態Ｓ₁₀に到達し、実施の形態１と同様に「県名を入力してください」に対し利用者が「神奈川」と入力した場合、音声認識部１が「香川」と誤認識した場合の動作を説明する。
【００６９】
遷移先対話状態決定部４が遷移先対話状態のテーブルＴ₁₀を参照して、音声認識結果「香川」から遷移先対話状態をＳ₅₃と決定して出力し、対話管理部５が対話状態をＳ₅₃へ遷移させ「香川ですね」と応答すると、利用者は「いいえ」と入力する。
【００７０】
対話管理部５は誤認識が生じたことを出力し、音声認識正誤回数記憶部３に保持された誤認識回数は「８」に更新される。
【００７１】
遷移先対話状態決定部４は、図３の上段に示す遷移先対話状態のテーブルＴ₅₃を参照して、音声認識結果「いいえ」と音声認識正誤回数記憶部３に保持された誤認識回数「８」に基づいて、遷移先対話状態を終了対話状態であるＳ_endと決定して出力する。
【００７２】
対話管理部５は、遷移先対話状態決定部４から対話状態Ｓ_endが入力されると、利用者に対して電話番号を案内したか否かを調べ、案内していないならば装置との対話を打ち切りオペレータへ対話を切り替える。
【００７３】
電話番号を案内したか否かは、例えば対話管理部５内に、初期値として「０」を与えておき、案内応答を実行した場合に値を「１」に変更するカウンタを１つ設けておき、該カウンタを調べればよい。
【００７４】
以上の動作により、認識率が低く対話目的達成の見込みがない利用者に対しては、対話をオペレータへ切り替えることができ、利用者は効率よく対話目的を達成することができる。
【００７５】
実施の形態４．
この発明の実施の形態４に係る音声対話装置について図面を参照しながら説明する。図１０は、この発明の実施の形態４に係る音声対話装置の構成を示す図である。
【００７６】
図１０において、１は音声認識部、２は対話手順記憶部、３は音声認識正誤回数記憶部、４は遷移先対話状態決定部、５は対話管理部、６は想定音声認識率検定部である。
【００７７】
つぎに、この実施の形態４に係る音声対話装置の動作について図面を参照しながら説明する。図１１は、この発明の実施の形態４に係る音声対話装置の対話手順の一例を示す図である。
【００７８】
対話手順記憶部２及び遷移先対話状態決定部４の動作について説明する。なお、音声認識部１、音声認識正誤回数記憶部３、対話管理部５及び想定音声認識率検定部６の動作は、実施の形態２と同じなので省略する。
【００７９】
例えば、図１１の上段に示す対話状態Ｓ₁₀においては、音声認識対象語彙Ｖ₁₀として日本の全ての県名、音声認識結果および想定認識率に応じた遷移先対話状態のテーブルＴ₁₀、終了対話状態までの平均対話回数の想定音声認識率ごとのテーブルＮ₁₀が規定されている。
【００８０】
対話状態Ｓ₁₀における終了対話状態までの平均対話回数としては、例えば、想定音声認識率が一定で、誤認識が生じないと仮定した場合に、対話状態Ｓ₁₀から到達可能な全ての終了対話状態までの状態遷移回数の平均値を近似的に用いる。
【００８１】
音声認識正誤回数記憶部３に保持される音声認識の正誤回数が図４に示す回数である利用者が対話状態Ｓ₁₀に到達した場合の動作を説明する。
【００８２】
対話管理部５の応答「県名を入力してください」に利用者が「神奈川」と入力し、対話管理部５の応答「神奈川ですね」に利用者が「はい」と入力するまでの動作は実施の形態２と同様である。想定音声認識率検定部６は実施の形態２と同様に動作し、検定結果として９０％と８０％を出力する。
【００８３】
遷移先対話状態決定部４は、図１１の下段に示したＳ₃₅における想定音声認識毎の平均対話回数のテーブルＮ₃₅を参照して、想定音声認識率検定部４が出力する想定音声認識率９０％と８０％から、最も平均対話回数の少ない９０％を選択し、遷移先対話状態をＳ₁₂₀と決定して出力する。
【００８４】
以上の動作により、利用者に対する想定音声認識率に加え、想定音声認識率に応じた平均対話回数を用いて対話手順を変更するため、利用者は最も効率よく対話目的を達成することができる。
【００８５】
実施の形態５．
この発明の実施の形態５に係る音声対話装置について図面を参照しながら説明する。図１２は、この発明の実施の形態５に係る音声対話装置の構成を示す図である。
【００８６】
図１２において、１は音声認識部、２は対話手順記憶部、３は音声認識正誤回数記憶部、４は遷移先対話状態決定部、５は対話管理部、７は音声認識率推定部、８は音声認識成功可能性判定部である。
【００８７】
つぎに、この実施の形態５に係る音声対話装置の動作について図面を参照しながら説明する。図１３は、この発明の実施の形態５に係る音声対話装置の対話手順の一例を示す図である。
【００８８】
対話手順記憶部２、対話管理部５、音声認識率推定部７及び音声認識成功可能性判定部８の動作について説明する。なお、音声認識部１、音声認識正誤回数記憶部３及び遷移先対話状態決定部４の動作は、実施の形態１と同じなので省略する。
【００８９】
例えば、図１３に示す対話状態Ｓ₁₀においては、音声認識対象語彙Ｖ₁₀として日本の全ての県名、音声認識結果および誤認識回数に応じた遷移先対話状態のテーブルＴ₁₀、音声認識対象語彙Ｖ₁₀に対する音声認識率の分布として、平均値８５、分散１０の正規分布Ｄ₁₀：Ｎ（８５、１０）が規定されている。
【００９０】
音声認識正誤回数記憶部３に保持される音声認識の正誤回数が図４に示す回数である利用者が対話状態Ｓ₁₀に到達した場合の動作を説明する。
【００９１】
音声認識率推定部７は、音声認識正誤回数記憶部３を参照して、正解認識回数「７」、誤認識回数「２」より、例えば最尤推定法を用いて利用者の推定認識率Ｒ_u＝７／９×１００＝７８％を計算し出力する。
【００９２】
音声認識成功可能性判定部８は、音声認識率推定部７が出力する利用者の推定認識率Ｒ_u＝７８％と、対話状態Ｓ₁₀において規定された音声認識率の分布から、利用者が音声認識率分布の予め定められた基準以上の部分に含まれているか否かを判定する。
【００９３】
例えば、基準が５０％であれば、正規分布Ｎ（８５、１０）の５０％を含む認識率区間はＲ_L＝７８．２≦Ｒ≦９１．８であり、利用者の推定認識率Ｒ_uは区間の下限Ｒ_L以下である。したがって、音声認識成功可能性判定部８は、利用者は音声認識成功可能性が無いと判定する。
【００９４】
対話管理部５は、音声認識成功可能性判定部８の判定結果が音声認識可能性無しであるので、利用者との対話を打ち切りオペレータに切り替える。
【００９５】
以上の動作により、音声認識成功可能性判定部８により判定された利用者の音声認識可能性に基づき対話手順を変更するので、音声認識成功の可能性が低い利用者が装置との無駄な対話を行うこと無くオペレータに切り替えが行われ、利用者は効率よく対話目的を達成することができる。
【００９６】
実施の形態６．
この発明の実施の形態６に係る音声対話装置について図面を参照しながら説明する。図１４は、この発明の実施の形態６に係る音声対話装置の構成を示す図である。
【００９７】
図１４において、１は音声認識部、２は対話手順記憶部、３は音声認識正誤回数記憶部、４は遷移先対話状態決定部、５は対話管理部、７は音声認識率推定部、８は音声認識成功可能性判定部、９は音声認識率正誤履歴蓄積部、１０は音声認識率分布更新部である。
【００９８】
つぎに、この実施の形態６に係る音声対話装置の動作について図面を参照しながら説明する。
【００９９】
音声認識率正誤履歴蓄積部９及び音声認識率分布更新部１０の動作について説明する。なお、音声認識部１、対話手順記憶部２、音声認識正誤回数記憶部３、遷移先対話状態決定部４、対話管理部５、音声認識率推定部７及び音声認識成功可能性判定部８の動作は、実施の形態５と同じなので省略する。
【０１００】
対話手順記憶部２に保持された対話手順が図１３に示すものであり、音声認識正誤回数記憶部３に保持される音声認識の正誤回数が正解認識回数８回、誤認識回数２回の場合、利用者が対話状態Ｓ₁₀に到達したときの動作を説明する。
【０１０１】
音声認識率推定部７は、実施の形態５と同様にして利用者の推定音声認識率Ｒ_u＝８０％を計算し出力する。
【０１０２】
音声認識正誤履歴蓄積部９は、音声認識率推定部７が出力する利用者の推定音声認識率Ｒ_uに対し、現在の対話状態Ｓ₁₀を対話管理部５から得て、図１５に示す対話状態Ｓ₁₀に対する音声認識正誤履歴表を作成する。なお、既に対話状態Ｓ₁₀に対する表が存在する場合には、表の末尾に追加して蓄積する。
【０１０３】
音声認識成功可能性判定部８は、実施の形態５と同様に動作し、音声認識率の分布Ｎ（８５、１０）において利用者が音声認識成功可能性が有ると判定する。
【０１０４】
対話管理部５の応答「県名を入力してください」に利用者が「神奈川」と入力し、対話管理部５の応答「神奈川ですね」に利用者が「はい」と入力するまでの動作は実施の形態５と同様である。
【０１０５】
対話管理部５は、確認応答「神奈川ですね」に対する音声認識結果「はい」に基づき、認識結果「神奈川」は正しい認識結果と判断し、正解認識が生じたことを音声認識正誤回数記憶部３に出力するとともに、音声認識正誤履歴蓄積部９にも出力する。
【０１０６】
音声認識正誤履歴蓄積部９は、対話管理部５から出力される正解認識判定を、図１５に示す対話状態Ｓ₁₀に対する音声認識正誤履歴表の、推定音声認識率８０％の音声認識正誤欄に、図１６に示すように記録する。
【０１０７】
以下対話を継続することにより、各対話状態に対する音声認識正誤履歴表が作成され、さらに複数の利用者との対話が行われる度に、音声認識正誤履歴蓄積部９には各対話状態における音声認識率と、該対話状態での音声認識の正誤が蓄積されていく。
【０１０８】
音声認識率分布更新部１０は、音声認識正誤履歴蓄積部９に蓄積された対話状態毎の音声認識正誤履歴表を用いて、対話手順記憶部２が保持する各対話状態における音声認識率分布を更新する。
【０１０９】
例えば、音声認識正誤履歴蓄積部９に蓄積された対話状態Ｓ₁₀の音声認識正誤履歴表から、正解認識に対する音声認識率のみを抜き出したものが図１７に示ものである場合、例えば最尤推定法を用いて平均値８２．６３と分散１４．２５が推定値として得られる。
【０１１０】
音声認識率分布更新部１０は、対話状態Ｓ₁₀における音声認識率の分布をＮ（８２．６３、１４．２５）に更新する。
【０１１１】
以上の動作により、推定音声認識率と音声認識正誤判定からなる音声認識正誤履歴表を音声認識正誤履歴蓄積部９に蓄積し、蓄積した音声認識正誤履歴表から各対話状態における認識対象語彙に対する音声認識率の分布を学習できるため、音声認識可能性判定の精度が向上し、利用者は効率よく対話目的を達成することができる。
【０１１２】
【発明の効果】
この発明の請求項１に係る音声対話装置は、以上説明したとおり、入力音声に対して認識処理を行い音声認識結果を出力する音声認識部と、各対話状態における、音声認識対象語彙と、音声認識結果及び誤認識回数に応じた遷移先対話状態と、応答文を規定した対話手順を保持する対話手順記憶部と、利用者との対話が開始されて現在の対話状態に至るまでの音声認識の正解認識回数及び誤認識回数を保持する音声認識正誤回数記憶部と、前記音声認識正誤回数記憶部に保持された音声認識の正誤回数と前記音声認識部が出力する音声認識結果に基づいて、前記対話手順記憶部に保持された対話手順を参照して遷移先対話状態を決定して出力する遷移先対話状態決定部と、前記音声認識部が出力する音声認識結果に対する正誤結果を出力し、前記遷移先対話状態決定部が出力する遷移先対話状態へ対話状態を遷移する対話管理部とを備え、前記対話管理部は、第１の対話状態に到達すると、前記対話手順記憶部に保持された前記第１の対話状態に対する対話手順を参照して、利用者に対して応答文として第１の音声認識対象語彙を入力するよう応答し、前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第１の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する入力音声と同じ第１の認識結果と、前記音声認識正誤回数記憶部に保持された誤認識回数から、遷移先対話状態として第２の対話状態を決定して出力し、前記対話管理部は、前記遷移先対話状態決定部が出力する前記第２の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第２の対話状態での対話手順を参照して、利用者に対して応答文として前記第１の認識結果かどうかを確認するよう応答し、前記音声認識部の確認応答に対する肯定の第２の認識結果に基づき、前記第１の認識結果は正しい認識結果と判断し、この正解認識に基づき前記音声認識正誤回数記憶部に保持されている正解認識回数を更新し、前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第２の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する第２の認識結果と、前記音声認識正誤回数記憶部に保持された誤認識回数から、前記誤認識回数が所定数以下の場合には、遷移先対話状態として第３の対話状態を決定して出力し、前記誤認識回数が所定数より大きい場合には、遷移先対話状態として第４の対話状態を決定して出力し、前記対話管理部は、前記第３の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第３の対話状態での対話手順を参照して、利用者に対して応答文として前記第１の音声認識対象語彙より下位概念である第２の音声認識対象語彙及び前記第２の音声認識対象語彙より下位概念である第３の音声認識対象語彙を入力するよう応答し、前記第４の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第４の対話状態での対話手順を参照して、利用者に対して応答文として前記第１の音声認識対象語彙より下位概念である第２の音声認識対象語彙を入力するよう応答し、前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第１の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する入力音声と異なる第３の認識結果と、前記音声認識正誤回数記憶部に保持された誤認識回数から、遷移先対話状態として第５の対話状態を決定して出力し、前記対話管理部は、前記第５の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第５の対話状態での対話手順を参照して、利用者に対して応答文として前記第３の認識結果かどうかを確認するよう応答し、前記対話管理部は、前記音声認識部の確認応答に対する否定の第４の認識結果に基づき、前記第３の認識結果は誤った認識結果と判断し、この誤認識に基づき前記音声認識正誤回数記憶部に保持されている誤認識回数を更新するので、利用者に応じて最も効率よく対話目的を達成するための対話手順を決定できるという効果を奏する。
【０１１３】
この発明の請求項２に係る音声対話装置は、以上説明したとおり、入力音声に対して認識処理を行い音声認識結果を出力する音声認識部と、各対話状態における、音声認識対象語彙と、音声認識結果及び想定認識率に応じた遷移先対話状態と、応答文を規定した対話手順を保持する対話手順記憶部と、利用者との対話が開始されて現在の対話状態に至るまでの音声認識の正解認識回数及び誤認識回数を保持する音声認識正誤回数記憶部と、前記音声認識正誤回数記憶部に保持された音声認識の正解認識回数及び誤認識回数に基づいて、現在の対話状態に規定された想定認識率に対して検定を行い、棄却されない想定認識率をすべて出力する想定音声認識率検定部と、前記対話手順記憶部に保持された対話手順を参照して、前記音声認識部が出力する音声認識結果と前記想定音声認識率検定部が出力する想定認識率に対応する遷移先対話状態から、遷移先対話状態を１つに決定して出力する遷移先対話状態決定部と、前記音声認識部が出力する音声認識結果に対する正誤結果を出力し、前記遷移先対話状態決定部が出力する遷移先対話状態へ対話状態を遷移する対話管理部とを備え、前記対話管理部は、第１の対話状態に到達すると、前記対話手順記憶部に保持された前記第１の対話状態に対する対話手順を参照して、利用者に対して応答文として第１の音声認識対象語彙を入力するよう応答し、前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第１の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する入力音声と同じ第１の認識結果から、遷移先対話状態として第２の対話状態を決定して出力し、前記対話管理部は、前記遷移先対話状態決定部が出力する前記第２の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第２の対話状態での対話手順を参照して、利用者に対して応答文として前記第１の認識結果かどうかを確認するよう応答し、前記音声認識部の確認応答に対する肯定の第２の認識結果に基づき、前記第１の認識結果は正しい認識結果と判断し、この正解認識に基づき前記音声認識正誤回数記憶部に保持されている正解認識回数を更新し、前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第２の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する第２の認識結果と、前記想定音声認識率検定部が出力する想定認識率から、第１の想定認識率を選択した場合には、遷移先対話状態として第３の対話状態を決定して出力し、前記第１の想定認識率より小さい第２の想定認識率を選択した場合には、遷移先対話状態として第４の対話状態を決定して出力し、前記対話管理部は、前記第３の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第３の対話状態での対話手順を参照して、利用者に対して応答文として前記第１の音声認識対象語彙より下位概念である第２の音声認識対象語彙及び前記第２の音声認識対象語彙より下位概念である第３の音声認識対象語彙を入力するよう応答し、前記第４の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第４の対話状態での対話手順を参照して、利用者に対して応答文として前記第１の音声認識対象語彙より下位概念である第２の音声認識対象語彙を入力するよう応答し、前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第１の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する入力音声と異なる第３の認識結果から、遷移先対話状態として第５の対話状態を決定して出力し、前記対話管理部は、前記第５の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第５の対話状態での対話手順を参照して、利用者に対して応答文として前記第３の認識結果かどうかを確認するよう応答し、前記対話管理部は、前記音声認識部の確認応答に対する否定の第４の認識結果に基づき、前記第３の認識結果は誤った認識結果と判断し、この誤認識に基づき前記音声認識正誤回数記憶部に保持されている誤認識回数を更新するので、利用者に応じて最も効率よく対話目的を達成するための対話手順を決定できるという効果を奏する。
【０１１４】
この発明の請求項３に係る音声対話装置は、以上説明したとおり、前記対話管理部が、前記遷移先対話状態決定部が出力する遷移先対話状態が対話終了状態であり、かつ利用者の対話目的が達成されていない場合には、利用者との対話を打ち切りオペレータに切り替えるので、利用者に応じて最も効率よく対話目的を達成するための対話手順を決定できるという効果を奏する。
【０１１５】
この発明の請求項４に係る音声対話装置は、以上説明したとおり、前記対話手順記憶部が、各対話状態における終了対話状態までの平均対話回数を規定した対話手順を保持し、前記遷移先対話状態決定部が、前記対話手順記憶部に保持された対話手順を参照して、前記音声認識部が出力する音声認識結果と、前記想定音声認識率検定部が出力する想定認識率に対応する遷移先対話状態から、終了対話状態までの平均対話回数に基づいて遷移先対話状態を１つに決定して出力するので、利用者に応じて最も効率よく対話目的を達成するための対話手順を決定できるという効果を奏する。
【０１１６】
この発明の請求項５に係る音声対話装置は、以上説明したとおり、入力音声に対して認識処理を行い音声認識結果を出力する音声認識部と、各対話状態における、音声認識対象語彙、音声認識結果及び誤認識回数に応じた遷移先対話状態を規定した対話手順を保持する対話手順記憶部と、音声認識の正誤回数を保持する音声認識正誤回数記憶部と、前記音声認識正誤回数記憶部に保持された音声認識の正誤回数と前記音声認識部が出力する音声認識結果に基づいて、前記対話手順記憶部に保持された対話手順を参照して遷移先対話状態を決定して出力する遷移先対話状態決定部と、前記音声認識部が出力する音声認識結果に対する正誤結果を出力し、前記遷移先対話状態決定部が出力する遷移先対話状態へ対話状態を遷移する対話管理部とを備え、前記対話手順記憶部が、各対話状態における音声認識率分布を規定した対話手順を保持し、前記音声認識正誤回数記憶部に保持された音声認識正誤回数を用いて、現在の対話状態までの利用者の音声認識率を推定して出力する音声認識率推定部と、前記音声認識率推定部が出力する音声認識率と、現在の対話状態における音声認識率分布に基づいて、利用者の入力が正しく認識される可能性を判定して判定結果を出力する音声認識成功可能性判定部とをさらに備え、前記対話管理部が、前記音声認識成功可能性判定部の判定結果に基づいて、利用者との対話を打ち切りオペレータに切り替えるので、利用者に応じて最も効率よく対話目的を達成するための対話手順を決定できるという効果を奏する。
【０１１７】
この発明の請求項６に係る音声対話装置は、以上説明したとおり、各対話状態における、利用者の該対話状態までの推定音声認識率と該対話状態における音声認識結果の正誤の履歴を蓄積する音声認識正誤履歴蓄積部と、前記音声認識正誤履歴蓄積部を参照して、各対話状態における音声認識率分布を計算し、前記対話手順記憶部に保持された音声認識率分布を更新する音声認識率分布更新部とをさらに備えたので、利用者に応じて最も効率よく対話目的を達成するための対話手順を決定できるという効果を奏する。
【図面の簡単な説明】
【図１】この発明の実施の形態１に係る音声対話装置の構成を示す図である。
【図２】この発明の実施の形態１に係る音声対話装置の対話手順の一例を示す図である。
【図３】この発明の実施の形態１に係る音声対話装置の対話手順の一例を示す図である。
【図４】この発明の実施の形態１に係る音声対話装置の音声認識正誤回数記憶部の記憶内容を示す図である。
【図５】この発明の実施の形態２に係る音声対話装置の構成を示す図である。
【図６】この発明の実施の形態２に係る音声対話装置の対話手順の一例を示す図である。
【図７】この発明の実施の形態２に係る音声対話装置の対話手順の一例を示す図である。
【図８】この発明の実施の形態２に係る音声対話装置の検定式の一例を示す図である。
【図９】この発明の実施の形態３に係る音声対話装置の構成を示す図である。
【図１０】この発明の実施の形態４に係る音声対話装置の構成を示す図である。
【図１１】この発明の実施の形態４に係る音声対話装置の対話手順の一例を示す図である。
【図１２】この発明の実施の形態５に係る音声対話装置の構成を示す図である。
【図１３】この発明の実施の形態５に係る音声対話装置の対話手順の一例を示す図である。
【図１４】この発明の実施の形態６に係る音声対話装置の構成を示す図である。
【図１５】この発明の実施の形態６に係る音声対話装置の音声認識正誤履歴表を示す図である。
【図１６】この発明の実施の形態６に係る音声対話装置の音声認識正誤履歴表を示す図である。
【図１７】この発明の実施の形態６に係る音声対話装置の正解認識に対する音声認識率を示す図である。
【図１８】従来の音声対話装置の構成を示す図である。
【符号の説明】
１音声認識部、２対話手順記憶部、３音声認識正誤回数記憶部、４遷移先対話状態決定部、５対話管理部、６想定音声認識率検定部、７音声認識率推定部、８音声認識成功可能性判定部、９音声認識率正誤履歴蓄積部、１０音声認識率分布更新部。

Claims

入力音声に対して認識処理を行い音声認識結果を出力する音声認識部と、
各対話状態における、音声認識対象語彙と、音声認識結果及び誤認識回数に応じた遷移先対話状態と、応答文を規定した対話手順を保持する対話手順記憶部と、
利用者との対話が開始されて現在の対話状態に至るまでの音声認識の正解認識回数及び誤認識回数を保持する音声認識正誤回数記憶部と、
前記音声認識正誤回数記憶部に保持された音声認識の正誤回数と前記音声認識部が出力する音声認識結果に基づいて、前記対話手順記憶部に保持された対話手順を参照して遷移先対話状態を決定して出力する遷移先対話状態決定部と、
前記音声認識部が出力する音声認識結果に対する正誤結果を出力し、前記遷移先対話状態決定部が出力する遷移先対話状態へ対話状態を遷移する対話管理部とを備え、
前記対話管理部は、第１の対話状態に到達すると、前記対話手順記憶部に保持された前記第１の対話状態に対する対話手順を参照して、利用者に対して応答文として第１の音声認識対象語彙を入力するよう応答し、
前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第１の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する入力音声と同じ第１の認識結果と、前記音声認識正誤回数記憶部に保持された誤認識回数から、遷移先対話状態として第２の対話状態を決定して出力し、
前記対話管理部は、前記遷移先対話状態決定部が出力する前記第２の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第２の対話状態での対話手順を参照して、利用者に対して応答文として前記第１の認識結果かどうかを確認するよう応答し、前記音声認識部の確認応答に対する肯定の第２の認識結果に基づき、前記第１の認識結果は正しい認識結果と判断し、この正解認識に基づき前記音声認識正誤回数記憶部に保持されている正解認識回数を更新し、
前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第２の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する第２の認識結果と、前記音声認識正誤回数記憶部に保持された誤認識回数から、前記誤認識回数が所定数以下の場合には、遷移先対話状態として第３の対話状態を決定して出力し、前記誤認識回数が所定数より大きい場合には、遷移先対話状態として第４の対話状態を決定して出力し、
前記対話管理部は、前記第３の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第３の対話状態での対話手順を参照して、利用者に対して応答文として前記第１の音声認識対象語彙より下位概念である第２の音声認識対象語彙及び前記第２の音声認識対象語彙より下位概念である第３の音声認識対象語彙を入力するよう応答し、前記第４の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第４の対話状態での対話手順を参照して、利用者に対して応答文として前記第１の音声認識対象語彙より下位概念である第２の音声認識対象語彙を入力するよう応答し、
前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第１の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する入力音声と異なる第３の認識結果と、前記音声認識正誤回数記憶部に保持された誤認識回数から、遷移先対話状態として第５の対話状態を決定して出力し、
前記対話管理部は、前記第５の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第５の対話状態での対話手順を参照して、利用者に対して応答文として前記第３の認識結果かどうかを確認するよう応答し、
前記対話管理部は、前記音声認識部の確認応答に対する否定の第４の認識結果に基づき、前記第３の認識結果は誤った認識結果と判断し、この誤認識に基づき前記音声認識正誤回数記憶部に保持されている誤認識回数を更新する
ことを特徴とする音声対話装置。
入力音声に対して認識処理を行い音声認識結果を出力する音声認識部と、
各対話状態における、音声認識対象語彙と、音声認識結果及び想定認識率に応じた遷移先対話状態と、応答文を規定した対話手順を保持する対話手順記憶部と、
利用者との対話が開始されて現在の対話状態に至るまでの音声認識の正解認識回数及び誤認識回数を保持する音声認識正誤回数記憶部と、
前記音声認識正誤回数記憶部に保持された音声認識の正解認識回数及び誤認識回数に基づいて、現在の対話状態に規定された想定認識率に対して検定を行い、棄却されない想定認識率をすべて出力する想定音声認識率検定部と、
前記対話手順記憶部に保持された対話手順を参照して、前記音声認識部が出力する音声認識結果と前記想定音声認識率検定部が出力する想定認識率に対応する遷移先対話状態から、遷移先対話状態を１つに決定して出力する遷移先対話状態決定部と、
前記音声認識部が出力する音声認識結果に対する正誤結果を出力し、前記遷移先対話状態決定部が出力する遷移先対話状態へ対話状態を遷移する対話管理部とを備え、
前記対話管理部は、第１の対話状態に到達すると、前記対話手順記憶部に保持された前記第１の対話状態に対する対話手順を参照して、利用者に対して応答文として第１の音声認識対象語彙を入力するよう応答し、
前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第１の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する入力音声と同じ第１の認識結果から、遷移先対話状態として第２の対話状態を決定して出力し、
前記対話管理部は、前記遷移先対話状態決定部が出力する前記第２の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第２の対話状態での対話手順を参照して、利用者に対して応答文として前記第１の認識結果かどうかを確認するよう応答し、前記音声認識部の確認応答に対する肯定の第２の認識結果に基づき、前記第１の認識結果は正しい認識結果と判断し、この正解認識に基づき前記音声認識正誤回数記憶部に保持されている正解認識回数を更新し、
前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第２の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する第２の認識結果と、前記想定音声認識率検定部が出力する想定認識率から、第１の想定認識率を選択した場合には、遷移先対話状態として第３の対話状態を決定して出力し、前記第１の想定認識率より小さい第２の想定認識率を選択した場合には、遷移先対話状態として第４の対話状態を決定して出力し、
前記対話管理部は、前記第３の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第３の対話状態での対話手順を参照して、利用者に対して応答文として前記第１の音声認識対象語彙より下位概念である第２の音声認識対象語彙及び前記第２の音声認識対象語彙より下位概念である第３の音声認識対象語彙を入力するよう応答し、前記第４の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第４の対話状態での対話手順を参照して、利用者に対して応答文として前記第１の音声認識対象語彙より下位概念である第２の音声認識対象語彙を入力するよう応答し、
前記遷移先対話状態決定部は、前記対話手順記憶部に保持された第１の対話状態での遷移先対話状態を参照して、前記音声認識部が出力する入力音声と異なる第３の認識結果から、遷移先対話状態として第５の対話状態を決定して出力し、
前記対話管理部は、前記第５の対話状態へ現在の対話状態を遷移させ、前記対話手順記憶部に保持された第５の対話状態での対話手順を参照して、利用者に対して応答文として前記第３の認識結果かどうかを確認するよう応答し、
前記対話管理部は、前記音声認識部の確認応答に対する否定の第４の認識結果に基づき、前記第３の認識結果は誤った認識結果と判断し、この誤認識に基づき前記音声認識正誤回数記憶部に保持されている誤認識回数を更新する
ことを特徴とする音声対話装置。
前記対話管理部は、前記遷移先対話状態決定部が出力する遷移先対話状態が対話終了状態であり、かつ利用者の対話目的が達成されていない場合には、利用者との対話を打ち切りオペレータに切り替える
ことを特徴とする請求項１又は２記載の音声対話装置。
前記対話手順記憶部は、各対話状態における終了対話状態までの平均対話回数を規定した対話手順を保持し、
前記遷移先対話状態決定部は、前記対話手順記憶部に保持された対話手順を参照して、前記音声認識部が出力する音声認識結果と、前記想定音声認識率検定部が出力する想定認識率に対応する遷移先対話状態から、終了対話状態までの平均対話回数に基づいて遷移先対話状態を１つに決定して出力する
ことを特徴とする請求項２記載の音声対話装置。
入力音声に対して認識処理を行い音声認識結果を出力する音声認識部と、
各対話状態における、音声認識対象語彙、音声認識結果及び誤認識回数に応じた遷移先対話状態を規定した対話手順を保持する対話手順記憶部と、
音声認識の正誤回数を保持する音声認識正誤回数記憶部と、
前記音声認識正誤回数記憶部に保持された音声認識の正誤回数と前記音声認識部が出力する音声認識結果に基づいて、前記対話手順記憶部に保持された対話手順を参照して遷移先対話状態を決定して出力する遷移先対話状態決定部と、
前記音声認識部が出力する音声認識結果に対する正誤結果を出力し、前記遷移先対話状態決定部が出力する遷移先対話状態へ対話状態を遷移する対話管理部とを備え、
前記対話手順記憶部は、各対話状態における音声認識率分布を規定した対話手順を保持し、
前記音声認識正誤回数記憶部に保持された音声認識正誤回数を用いて、現在の対話状態までの利用者の音声認識率を推定して出力する音声認識率推定部と、
前記音声認識率推定部が出力する音声認識率と、現在の対話状態における音声認識率分布に基づいて、利用者の入力が正しく認識される可能性を判定して判定結果を出力する音声認識成功可能性判定部と
をさらに備え、
前記対話管理部は、前記音声認識成功可能性判定部の判定結果に基づいて、利用者との対話を打ち切りオペレータに切り替える
ことを特徴とする音声対話装置。
各対話状態における、利用者の該対話状態までの推定音声認識率と該対話状態における音声認識結果の正誤の履歴を蓄積する音声認識正誤履歴蓄積部と、
前記音声認識正誤履歴蓄積部を参照して、各対話状態における音声認識率分布を計算し、前記対話手順記憶部に保持された音声認識率分布を更新する音声認識率分布更新部と
をさらに備えたことを特徴とする請求項５記載の音声対話装置。