JP2001109493A

JP2001109493A - 音声対話装置

Info

Publication number: JP2001109493A
Application number: JP28931699A
Authority: JP
Inventors: Keisuke Watanabe; 圭輔渡邉; Akito Nagai; 明人永井; Yasushi Ishikawa; 泰石川
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-10-12
Filing date: 1999-10-12
Publication date: 2001-04-20
Anticipated expiration: 2019-10-12
Also published as: JP3941299B2

Abstract

(57)【要約】【課題】従来の音声対話装置は、複数の発話に跨った
キーワード相互関係の考慮がなく，対話成功率を高める
ため，一発話毎に利用者へ確認を行い，確認対話が多く
利用者の利便性と対話の自然性を損なう。【解決手段】各対話状態の認識対象語彙，システム応
答と，システム応答想定回答及び回答に応じた遷移先対
話状態を記憶する対話手順記憶部と，対話手順記憶部の
各対話状態の認識対象語彙で音声認識を行い，複数の結
果を出力する音声認識部と，音声認識部の認識結果と対
話手順記憶部の内容とで遷移先対話状態を定め、遷移先
対話状態の仮説が所定条件を満たす場合は一つに確定
し、所定条件を満たさない場合は確定を保留すると共に
遷移先対話状態仮説を出力する遷移先対話状態確定動作
決定部と，仮説を確定する場合、遷移先対話状態仮説の
認識結果を確認するシステム応答を出力し、確定を保留
する場合は、遷移先対話状態仮説のシステム応答を出力
する対話動作実行部とを備える。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は，自然言語によるマン
・マシン・インタフェースに用いられる音声対話処理装
置に関するものである。

【０００２】

【従来の技術】音声での対話により，利用者が必要とす
る情報を得るような音声対話装置の重要性が高まってい
る。このような音声対話装置においては，利用者の入力
中に含まれるキーワードを高い精度で認識し，かつ必要
な情報を利用者が効率的に得るための対話制御を行うこ
とが重要である。

【０００３】従来，高い正解率でキーワードを認識する
ために，入力音声に含まれる複数のキーワード間の関連
性を利用する方法が提案されている。例えば，図１４は
特開平7-92994号に示された認識候補抽出装置である。
このように構成された従来の認識候補抽出装置において
は，音声認識装置が，関連性を持った複数のキーワード
を含んだ連続音声から複数のキーワードを認識し，認識
尤度の高い順に各キーワードの認識結果を複数出力す
る。

【０００４】候補抽出処理装置が，音声認識装置から出
力される認識結果から，予め定めたキーワード間の組合
わせ情報を用いて，組合わせ情報と一致するキーワード
の組のみを抽出して認識候補として出力し，関連性のな
いキーワードの組合わせを棄却することで認識候補の正
解率が向上する。

【０００５】さらに，確定処理装置が，候補抽出処理装
置から出力される認識候補を利用者に復唱確認すること
で確定し，復唱した認識候補が正しくないと判定された
場合には，複数のキーワードのうち第1のキーワードを
音声認識装置で認識し，この認識結果を確定処理装置で
確定した後，第2のキーワード以降の認識では確定した
キーワードと組合わせ可能なキーワードのみを認識候補
として抽出するため認識候補の正解率が向上する。

【０００６】

【発明が解決しようとする課題】しかしながら，上記の
ような従来の候補抽出処理装置では，複数の発話に跨っ
たキーワード相互の関係は考慮しておらず，利用者との
数回のやり取りによって得られる全入力項目の認識率を
向上させ対話成功率を高めるためには，一発話毎に利用
者へ確認を行い確定的に対話を進める必要があり，確認
対話が多くなり利用者の利便性および対話の自然性を損
なうという課題があった。

【０００７】この発明は，上述のような課題を解決する
ためになされたもので，一つの発話毎に確定処理を行わ
ずとも認識率を向上できる音声対話装置を得ることを目
的とするものである。

【０００８】

【課題を解決するための手段】この発明に係る音声対話
装置は，音声認識部と，対話手順記憶部と，遷移先対話
状態確定動作決定部と，対話動作実行部とを備え，音声
での対話により，利用者が必要とする情報を得る音声対
話装置であって，対話手順記憶部は，各対話状態におけ
る認識対象語彙，システム応答と，システム応答に想定
される答え及びその答えに応じた遷移先対話状態を規定
して記憶し，音声認識部は，入力音声に対して，対話手
順記憶部に記憶された各対話状態に応じた認識対象語彙
を用いて音声認識を行って，複数の認識結果を出力し，
遷移先対話状態確定動作決定部は，前記音声認識部から
の認識結果と対話手順記憶部の内容により遷移先対話状
態を定め、その遷移先対話状態の仮説が予め定められた
所定条件を満たす場合は一つに確定し、所定条件を満た
さない場合は確定を保留する決定をすると共に遷移先対
話状態仮説を出力し，対話動作実行部は、仮説を一つに
確定する場合、遷移先対話状態確定動作決定部からの遷
移先対話状態仮説の認識結果を確認するシステム応答を
出力し、確定を保留する場合は、遷移先対話状態仮説の
システム応答を出力するものである。

【０００９】また，この発明に係る音声対話装置は，対
話状態遷移記憶部と，遷移先対話状態確定部と，暫定遷
移先対話状態決定部とを付加し、遷移先対話状態確定動
作決定部は，音声認識部からの認識結果と対話状態遷移
記憶部又は対話手順記憶部の内容とから定まる遷移先対
話状態の仮説を一つに確定するか、確定を保留するかを
決定し，遷移先対話状態仮説を出力し，遷移先対話状態
確定部は，遷移先対話状態確定動作決定部からの遷移先
対話状態仮説を一つに確定する場合にその遷移先対話状
態仮説を入力とし，利用者に認識結果を確認することに
より遷移先対話状態を確定して出力するとともに，対話
状態遷移記憶部に対し，記憶されている遷移先対話状態
仮説をを書変え，暫定遷移先対話状態決定部は，遷移先
対話状態確定動作決定部からの遷移先対話状態仮説を保
留する場合にその遷移先対話状態仮説を入力とし，暫定
的な遷移先対話状態を決定して出力するとともに，対話
状態遷移記憶部に対し遷移先対話状態仮説を書変え，対
話状態遷移記憶部は，対話開始時点からの対話状態遷移
履歴と遷移先対話状態確定部又は，暫定遷移先対話状態
決定部からの遷移先対話状態仮説を記憶し，対話動作実
行部は，前記遷移先対話状態確定部または暫定遷移先対
話状態決定部からの遷移先対話状態を入力とし，該遷移
先対話状態に規定されたシステム応答を出力するととも
に，該遷移先対話状態に規定された認識対象語彙を前記
音声認識部に出力し，音声認識部は，入力音声に対し
て，対話動作実行部から入力される認識対象語彙を用い
て音声認識を行い，複数の認識結果を出力するものであ
る。

【００１０】また，この発明に係る音声対話装置は，音
声認識部は，複数の認識結果とその認識結果のスコアを
出力するように構成され、遷移先対話状態確定動作決定
部は，音声認識部からの入力された認識結果のスコアに
応じて確定動作を行うか否かを決定するものである。

【００１１】また，この発明に係る音声対話装置は，対
話手順記憶部に記憶された各対話状態には，他の対話状
態から該対話状態へ状態遷移を行うために予め確定動作
を行う必要があるか否かを記述し，遷移先対話状態確定
動作決定部は，前記音声認識部から入力される認識結果
と前記対話状態遷移記憶部の内容と前記対話手順とから
定まる遷移先対話状態の仮説が，予め確定動作を行う必
要があるものの場合に確定動作を行うと決定するもので
ある。

【００１２】また，この発明に係る音声対話装置は，遷
移先対話状態確定動作決定部は，利用者からの入力項目
がすべて入力されていなくても，音声認識部からの認識
結果を確定することにより未入力項目に対する項目値が
一意に定まる場合に確定動作を行うと決定するものであ
る。

【００１３】また，この発明に係る音声対話装置は，遷
移先対話状態確定動作決定部は，遷移先対話状態仮説に
規定されたシステム応答に応じて確定動作を行うか否か
を決定するものである。

【００１４】また，この発明に係る音声対話装置は，遷
移先対話状態確定動作決定部は，遷移先対話状態仮説に
共通のシステム応答が存在しない場合に確定動作を行う
と決定し，遷移先対話状態仮説に共通のシステム応答が
存在する場合には，共通のシステム発話を持つ遷移先対
話状態仮説のみを遷移先対話状態仮説として出力するも
のである。

【００１５】また，この発明に係る音声対話装置は，対
話手順記憶部に記憶された各対話状態には，複数のシス
テム応答を記述でき，対話動作実行部は，暫定遷移先対
話状態決定部から遷移先対話状態が入力された場合，入
力された遷移先対話状態に規定されたシステム応答のう
ち，前記対話状態遷移記憶部に記憶された遷移先対話状
態仮説に規定されたシステム応答と共通のものを出力す
るものである。

【００１６】また，この発明に係る音声対話装置は，遷
移先対話状態確定動作決定部は，遷移先対話状態仮説の
全ての認識対象語彙を合計した語彙の規模が予め定めた
基準より大きい場合に確定動作を行うと決定するもので
ある。

【００１７】また，この発明に係る音声対話装置は，遷
移先対話状態確定動作決定部は，前記対話状態遷移記憶
部を参照して，確定した対話状態から遷移先対話状態仮
説までの遷移系列の長さが予め定めた基準値以上の場合
に確定動作を行うと決定するものである。

【００１８】

【発明の実施の形態】実施の形態１.図１はこの発明の
音声対話装置の実施の形態１の構成図を示すものであ
る。1は，入力音声に対して，後述する対話動作実行部
から入力される認識対象語彙を用いて音声認識を行い，
複数の認識結果および認識結果のスコアを出力する音声
認識部，2は，各対話状態における認識対象語彙，シス
テム応答，音声認識結果に応じた遷移先対話状態を規定
した対話手順記憶部，3は，対話開始時点からの対話状
態遷移履歴および遷移先対話状態仮説を記憶する対話状
態遷移記憶部，4は，前記音声認識部からの認識結果を
入力とし，該認識結果と前記対話状態遷移記憶部の内容
と前記対話手順とから定まる遷移先対話状態の仮説を一
つに確定するか否かを決定し，確定する場合には後述す
る遷移先対話状態確定部に遷移先対話状態仮説を出力
し，確定を保留する場合には暫定遷移先対話状態決定部
に遷移先対話状態仮説を出力する遷移先対話状態確定動
作決定部である。

【００１９】５は，前記遷移先対話状態確定動作決定部
からの遷移先対話状態仮説を入力とし，利用者へ認識結
果を確認することにより遷移先対話状態を確定して出力
するとともに，前記対話状態遷移記憶部に対し，記憶さ
れている遷移先対話状態仮説をすべて削除し，該確定し
た遷移先対話状態を書き加える遷移先対話状態確定部で
ある。

【００２０】６は，前記確定動作決定部からの遷移先対
話状態仮説を入力とし，認識結果のスコアに基づいて暫
定的な遷移先対話状態を決定して出力するとともに，前
記対話状態遷移記憶部に対し遷移先対話状態仮説を書き
加える暫定遷移先対話状態決定部，7は，前記遷移先対
話状態確定部あるいは暫定遷移先対話状態決定部からの
遷移先対話状態を入力とし，該遷移先対話状態に規定さ
れたシステム応答を出力するとともに，該遷移先対話状
態に規定された認識対象語彙と，前記対話状態遷移記憶
部に記憶された遷移先対話状態仮説に規定された認識対
象語彙を前記音声認識部に出力する対話動作実行部であ
る。

【００２１】以下，この発明を電話番号案内音声対話装
置として用いた場合について具体的な動作説明を行う。
電話番号案内音声対話装置とは，利用者が装置と音声で
対話することで，電話番号案内に必要な都道府県名，市
区町村名，業種，対象名などの項目値を入力し，装置は
入力された項目値に基づき電話番号の検索を行い，利用
者に電話番号を案内するものである。

【００２２】図２は対話手順記憶部に保持された対話状
態の一例を示すものである。例えば，対話状態S1におい
ては，システム応答としてR1「県名をどうぞ」が，認識
対象語彙V1として都道府県名が規定されている。また，
認識結果が「北海道」の場合の遷移先対話状態としてS2
が規定されている。以下，音声認識部が出力する認識結
果の個数Nを5，遷移先対話状態確定動作決定部で用いる
一位の認識結果のスコアに対する閾値を0.5，対話開始
状態がS1の場合を例に説明する。

【００２３】対話開始状態S1に基づいて，対話動作実行
部がシステム応答R1「都道府県名をどうぞ」を利用者に
出力し，認識対象語彙V1を音声認識部に出力することに
より対話を開始する。

【００２４】利用者が音声入力を行うと，音声認識部は
認識対象語彙V1を用いて音声認識処理を行い認識結果と
スコアを出力する。例えば利用者が「佐賀です」と入力
した場合，認識結果として「滋賀(0.88)，佐賀(0.87)，
香川(0.73)，神奈川(0.52)，鹿児島(0.50)」の5つの候
補を出力する。括弧内の数値は各認識候補に対するスコ
アであり1に近いほど良いスコアを表す。

【００２５】認識結果が入力されると，遷移先対話状態
確定動作決定部は現在の対話状態S1に規定された遷移テ
ーブル T1 を参照して，前述の5つの認識結果に対する
遷移先対話状態の仮説として 5つの対話状態 S15, S16,
S17, S18, S19 を得る。次に，一位の認識結果「滋
賀」のスコアが 0.88 で閾値以上であるため確定を保留
すると決定し，5つの遷移先対話状態仮説を暫定遷移先
対話状態決定部に出力する。

【００２６】暫定遷移先対話状態決定部は，入力された
遷移先対話状態仮説から認識結果のスコアに基づいて暫
定的な遷移先対話状態仮説を一つ選択する。例えば，前
述の5つの遷移先対話状態仮説 S15, S16, S17, S18, S1
9 に対しては，スコアの最も良い「滋賀」に対する遷移
先対話状態仮説S16を選択し，対話動作実行部へ出力す
る。さらに，すべての遷移先対話状態仮説を対話状態遷
移記憶部に書き加える．例えば，図３は5つの遷移先対
話状態仮説 S15, S16, S17, S18,S19 を対話状態遷移記
憶部に書き加えた結果を示している。

【００２７】暫定遷移先対話状態決定部から対話状態S1
6が入力されると，対話動作実行部はシステム応答R16
「市名をどうぞ」を利用者に出力するとともに，対話状
態S16に規定された認識対象語彙V16と，対話状態遷移記
憶部に記憶された4つの遷移先対話状態仮説S15,S17,S1
8,S19に規定された認識対象語彙V15,V17,V18,V19を音声
認識部に出力する。

【００２８】対話動作実行部が出力したシステム応答
「市名をどうぞ」に対して，利用者が「伊万里市です」
と入力した場合，音声認識部は認識対象語彙V15,V16,V1
7,V18,V19を用いて音声認識処理を行い，認識結果とし
て「伊万里(0.91)，出水(0.76)，伊勢原(0.30)，八日市
(0.11)，平塚(0.09)」を出力する。

【００２９】遷移先対話状態確定動作決定部は，遷移先
対話状態仮説 S15, S16, S17, S18,S19 に規定された遷
移テーブル T15, T16, T17, T18, T19 を参照して，認
識結果に対する遷移先対話状態の仮説として5つの対話
状態 S152, S153, S163,S182,S192 を得る。現在の対話
状態S16からの遷移先対話状態仮説であるS163 に対する
認識結果「八日市」のスコアは0.11で閾値以下のため，
遷移先対話状態確定動作決定部は遷移先対話状態の確定
を行うと決定し，遷移先対話状態仮説S152, S153, S16
3, S182, S192 を遷移先対話状態確定部に出力する。

【００３０】遷移先対話状態確定部は，遷移先対話状態
の仮説が入力されると，例えばスコアの良い認識結果か
ら順に利用者に確認を行い遷移先対話状態を確定する。
遷移先対話状態仮説 S152, S153, S163, S182, S192 が
入力された場合には，利用者にまず「伊万里市ですか」
と確認を行い，利用者がこれに対して「はい」と応答す
ることにより遷移先対話状態が S182 に確定する。

【００３１】遷移先対話状態が確定した後，遷移先対話
状態確定部は確定した対話状態 S182 を対話動作実行部
に出力するとともに対話状態 S182 を対話状態遷移記憶
部に書き加え，さらに対話状態遷移記憶部に記憶されて
いた遷移先対話状態仮説 S15, S16, S17, S19 を対話状
態遷移記憶部から削除する。以上の動作を行った後の対
話状態遷移記憶部は図4に示すものとなる。

【００３２】対話状態 S182 が入力されると，対話動作
実行部はシステム応答 R182「町名をどうぞ」を利用者
に出力するとともに，対話状態 S182 に規定された認識
対象語彙 V182 を音声認識部に出力し対話を継続する。

【００３３】以上の動作により，対話状態遷移記憶部が
利用者の入力に対する対話状態遷移の仮説を複数保持
し，遷移先対話状態確定動作決定部が，現在選択してい
る仮説に対する認識スコアが閾値より悪くなったときに
遷移先対話状態を一つに確定するため，一発話毎に利用
者へ確認を行なって確定的に対話を進めなくても認識率
を向上でき，さらに確認対話の回数が減るため利用者と
装置との自然な対話が実現でき利用者の利便性が向上す
る。

【００３４】なお、上記実施の形態１の構成から対話状
態遷移記憶部と，遷移先対話状態確定部と，暫定遷移先
対話状態決定部とを省き，音声認識部と，対話手順記憶
部と，遷移先対話状態確定動作決定部と，対話動作実行
部とで構成することも可能である。この音声対話装置に
あって，対話手順記憶部は，各対話状態における認識対
象語彙，システム応答と，システム応答に想定される答
え及びその答えに応じた遷移先対話状態を規定して記憶
する。

【００３５】音声認識部は，入力音声に対して，対話手
順記憶部に記憶された各対話状態に応じた認識対象語彙
を用いて音声認識を行って，複数の認識結果を出力す
る。遷移先対話状態確定動作決定部は，前記音声認識部
からの認識結果と対話手順記憶部の内容により遷移先対
話状態を定め、その遷移先対話状態の仮説が予め定めら
れた所定条件を満たす場合は一つに確定し、所定条件を
満たさない場合は確定を保留する決定をすると共に遷移
先対話状態仮説を出力する。対話動作実行部は、仮説を
一つに確定する場合、遷移先対話状態確定動作決定部か
らの遷移先対話状態仮説の認識結果を確認するシステム
応答を出力し、確定を保留する場合は、遷移先対話状態
仮説のシステム応答を出力する。

【００３６】以上のような構成の音声対話装置にあって
は，利用者が音声入力を行うと，音声認識部は対話手順
記憶部に記憶された認識対象語彙V1を用いて音声認識処
理を行い認識結果を出力する。例えば利用者が「佐賀で
す」と入力した場合，認識結果として「滋賀(0.88)，佐
賀(0.87)，香川(0.73)，神奈川(0.52)，鹿児島(0.50)」
の5つの候補を出力する。括弧内の数値は予め定められ
た所定条件としての各認識候補に対するスコアであり1
に近いほど良いスコアを表す。

【００３７】認識結果が入力されると，遷移先対話状態
確定動作決定部は現在の対話状態S1に規定された遷移テ
ーブル T1 を参照して，前述の5つの認識結果に対する
遷移先対話状態の仮説として 5つの対話状態 S15, S16,
S17, S18, S19 を得，フラグをたてる。次に，予め定
められた所定条件が認識結果のスコアであるとすると，
一位の認識結果「滋賀」のスコアが 0.88 で所定条件の
閾値以上であるため確定を保留すると決定する。

【００３８】次に遷移先対話状態確定動作決定部は，遷
移先対話状態仮説から認識結果のスコアに基づいて暫定
的な遷移先対話状態仮説を一つ選択する。例えば，前述
の5つの遷移先対話状態仮説 S15, S16, S17, S18, S19
に対しては，スコアの最も良い「滋賀」に対する遷移先
対話状態仮説S16を選択し，対話動作実行部へ出力す
る。

【００３９】対話動作実行部は遷移先対話状態仮説S16
のシステム応答R16「市名をどうぞ」を利用者に出力す
る。

【００４０】対話動作実行部が出力したシステム応答
「市名をどうぞ」に対して，利用者が「伊万里市です」
と入力した場合，音声認識部は対話手順記憶部の認識対
象語彙V15,V16,V17,V18,V19を用いて音声認識処理を行
い，認識結果として「伊万里(0.91)，出水(0.76)，伊勢
原(0.30)，八日市(0.11)，平塚(0.09)」を出力する。

【００４１】遷移先対話状態確定動作決定部は，遷移先
対話状態仮説 S15, S16, S17, S18,S19 に規定された遷
移テーブル T15, T16, T17, T18, T19 を参照して，認
識結果に対する遷移先対話状態の仮説として5つの対話
状態 S152, S153, S163,S182,S192 を得る。

【００４２】現在の対話状態S16からの遷移先対話状態
仮説であるS163 に対する認識結果「八日市」のスコア
は0.11で所定条件の閾値以下のため，遷移先対話状態確
定動作決定部は遷移先対話状態の確定を行うと決定す
る。

【００４３】対話動作実行部は、例えばスコアの良い認
識結果から順に利用者に確認を行い遷移先対話状態を確
定する。遷移先対話状態仮説 S152, S153, S163, S182,
S192 が入力された場合には，利用者にまず「伊万里市
ですか」と確認を行い，利用者がこれに対して「はい」
と応答することにより遷移先対話状態が S182 に確定す
る。

【００４４】対話状態 S182 が入力されると，対話動作
実行部はシステム応答 R182「町名をどうぞ」を利用者
に出力するとともに，対話状態 S182 に規定された認識
対象語彙 V182 を音声認識部に出力し対話を継続する。
以上のように，遷移先対話状態確定動作決定部が遷移先
対話状態の仮説を一つに確定するまで、動作を繰り返
す。

【００４５】実施の形態２．実施の形態２は上述の実施
の形態１とは遷移先対話状態確定動作決定部の動作が異
なるものであり、他は上述の実施の形態１と同様であ
る。以下，図１の対話手順記憶部と遷移先対話状態確定
動作決定部の動作について説明する。

【００４６】図２，図５および図６は対話手順記憶部に
保持された対話状態の一例である。図６の対話状態 S18
231,S18241, S18251, S18281 に規定された語彙 V1823
1, V18241, V18251, V18281の規模は大きく，他の対話
状態の認識対象語彙と同時に音声認識処理を行うことが
望ましくなくいため，これらの対話状態に遷移する前に
対話状態の確定動作を行う必要があるという条件が規定
されている。

【００４７】以下，装置と利用者が対話状態 S1 から対
話を開始した後，実施の形態1と同様に対話を行い，現
在の対話状態が S182 である場合を例に説明する。

【００４８】対話動作実行部が出力したシステム応答
「町名をどうぞ」に対して，利用者が「黒川です」と入
力した場合，音声認識部は認識対象語彙 V182 を用いて
音声認識処理を行い，認識結果として「黒川(0.95)，大
川(0.88)，大川内(0.70)，大坪(0.11)，立花(0.03)」を
出力する。

【００４９】遷移先対話状態確定動作決定部は遷移テー
ブル T182 を参照して遷移先対話状態仮説 S1825, S182
2, S1823, S1824, S1828 を得る。次に，一位の認識結
果「黒川」のスコアが閾値以上であるため，遷移先対話
状態の確定動作の保留を決定して遷移先対話状態仮説を
暫定遷移先対話状態決定部に出力する。

【００５０】暫定遷移先対話状態決定部は，スコアの最
も良い「黒川」に対する遷移先対話状態仮説 S1825 を
選択して対話動作実行部へ出力するとともに，すべての
遷移先対話状態仮説を対話状態遷移記憶部に書き加え
る。これらの処理後，対話状態遷移記憶部は図7に示す
ものとなる。

【００５１】暫定遷移先対話状態決定部から対話状態 S
1825 が入力されると，対話動作実行部はシステム応答
R1825「業種をどうぞ」を利用者に出力するとともに，
対話状態 S1825 に規定された認識対象語彙 V1825 と，
対話状態遷移記憶部に記憶された4つの遷移先対話状態
仮説に規定された認識対象語彙 V1822, V1823, V1824,V
1828 を音声認識部に出力する。

【００５２】システム応答「業種をどうぞ」に対して，
利用者が「旅館です」と入力した場合，音声認識部は認
識対象語彙 V1825, V1822, V1823, V1824, V1828 を用
いて音声認識処理を行い，認識結果として「旅館(0.9
5)，理容(0.62)，旅行業(0.51)，リュウマチ科(0.27)，
療養所(0.10)，猟銃(0.02)」を出力する。

【００５３】遷移先対話状態確定動作決定部は遷移テー
ブル T1825, T1822, T1823, T1824,T1828 を参照して，
認識結果に対する遷移先対話状態の仮説として9つの対
話状態 S18231, S18232, S18241, S18242, S18243, S18
251, S18252, S18281, S18282 を得る。スコアの最もよ
い認識結果「旅館」のスコアは0.95で閾値以上である
が，「旅館」に対する遷移先対話状態仮説 S18231, S18
241, S18251, S18281 はすべて予め確定動作を行う必要
がある対話状態のため，遷移先対話状態確定動作決定部
は遷移先対話状態の確定を行うと決定し，遷移先対話状
態仮説を遷移先対話状態確定部に出力する。

【００５４】遷移先対話状態確定部は利用者に「業種は
旅館ですか」と確認を行い，利用者がこれに対して「は
い」と応答することにより遷移先対話状態がS18231,S18
241,S18251, S18281 に確定されるため，対話状態遷移
記憶部に記憶された遷移先対話状態仮説 S1822を削除す
る。さらに，遷移対話状態仮説 S1823,S1824, S1825,S1
828 が存在するため，遷移先対話状態確定部は利用者に
町名を確認することにより仮説の確定を行う。まず，最
もスコアの良い対話状態S1825 に対する認識結果につい
て「町名は黒川ですか」と利用者に確認する。この確認
に対し利用者が「はい」と応答し対話状態S182が確定す
る。これにより最終的な遷移先対話状態は S18251 に決
定される。

【００５５】対話状態 S18251 が入力されると，対話動
作実行部は認識対象語彙 V18251 を音声認識部に出力
し，システム応答R18251「旅館の名前は何ですか」を利
用者に出力して対話を継続する。

【００５６】以上の動作により，規定された認識対象語
彙が大きいため他の対話状態の認識対象語彙と同時に音
声認識処理を行うことが望ましくなく，該対話状態に遷
移する直前に予め確定動作を行う必要がある対話状態に
対して，遷移先対話状態確定動作決定部が確定動作実行
を決定し，遷移先対話状態決定部が遷移先対話状態を確
定するため，認識対象語彙を限定でき認識率が向上す
る。

【００５７】実施の形態３．実施の形態３は上述の実施
の形態１とは遷移先対話状態確定動作決定部の動作が異
なるものであり、他は上述の実施の形態１と同様であ
る。以下，図１の遷移先対話状態確定動作決定部の動作
について，対話手順記憶部に記憶された対話状態が図
８，電話番号データベースが図９，音声認識部が出力す
る認識結果の個数Nが3 の場合を例に説明する。

【００５８】対話開始状態S1に基づいて，対話動作実行
部がシステム応答R1「どこの電話番号をお調べですか」
を利用者に出力し，認識対象語彙V1を音声認識部に出力
することにより対話を開始する。

【００５９】利用者が音声入力を行うと，音声認識部は
認識対象語彙V1を用いて音声認識処理を行い認識結果と
スコアを出力する。例えば利用者が「甘太郎です」と入
力した場合，認識結果として「アマタ(0.88)，甘太郎
(0.87)，天城(0.73)」の3つの候補を出力する。

【００６０】認識結果が入力されると，遷移先対話状態
確定動作決定部は遷移テーブル T1を参照して，遷移先
対話状態仮説として S2, S3, S4 を得る。次に，音声認
識部からの認識結果を確定することにより未入力項目に
対する項目値が一意に定まるか否かを検査する。本実施
の形態においては利用者の入力項目は，都道府県名，市
区町村名，業種，対象名である。現時点では対象名のみ
が入力された状態であり，図９の電話番号データベース
を参照することにより，認識結果として得られた対象名
のみから未入力項目が一意に定まるか否かを検査すれば
よい。認識候補「アマタ」に対しては，データ番号 5,
6 の二つのデータが存在するが，未入力項目である県名
は認識結果を確定しただけでは一意には定まらない。他
の認識結果「甘太郎」「天城」についても同様であり，
すべての認識候補に対して未入力項目が一意には定まら
ないため，遷移先対話状態の確定を保留すると決定し，
3つの遷移先対話状態仮説を暫定遷移先対話状態決定部
に出力する。

【００６１】暫定遷移先対話状態決定部は，例えばスコ
アの最も良い「アマタ」に対する遷移先対話状態仮説S3
を選択して対話動作実行部へ出力する。さらに，すべて
の遷移先対話状態仮説を対話状態遷移記憶部に書き加え
る。

【００６２】暫定遷移先対話状態決定部から対話状態S3
が入力されると，対話動作実行部はシステム応答R3「何
県でしょうか」を利用者に出力するとともに，対話状態
S3に規定された認識対象語彙V3と，対話状態遷移記憶部
に記憶された2つの遷移先対話状態仮説 S2, S4 に規定
された認識対象語彙 V2, V4 を音声認識部に出力する。

【００６３】対話動作実行部が出力したシステム応答
「何県でしょうか」に対して，利用者が「神奈川県で
す」と入力した場合，音声認識部は認識対象語彙 V2, V
3, V4 を用いて音声認識処理を行い，認識結果として
「神奈川(0.95)，香川(0.72)，佐賀(0.41)」を出力す
る。

【００６４】遷移先対話状態確定動作決定部は，遷移テ
ーブル T2, T3, T4 を参照して，認識結果に対する遷移
先対話状態の仮説として9つの対話状態 S22, S23, S24,
S32,S33, S34, S42, S43, S44 を得る。次に，音声認識
部からの認識結果を確定することにより未入力項目に対
する項目値が一意に定まるか否かを検査する。現時点で
は対象名と県名が入力された状態であり，図９の電話番
号データベースを参照すると，名称「アマタ」，県名
「神奈川」であるデータはデータ番号 5, 6 の二つであ
るが，県名を確定しただけでは未入力項目である市名は
一意に確定しない。同様に，名称が「甘太郎」，県名が
「神奈川」のデータ 1,2, 3も市名が一意に確定しない
ため，遷移先対話状態の確定を保留すると決定し，9つ
の遷移先対話状態仮説を暫定遷移先対話状態決定部に出
力する。

【００６５】暫定遷移先対話状態決定部は，現在の対話
状態 S2 からスコアの最も良い「神奈川」に対する遷移
先対話状態仮説 S32 を選択して対話動作実行部へ出力
する。さらに，すべての9つの遷移先対話状態仮説を対
話状態遷移記憶部に書き加える。

【００６６】暫定遷移先対話状態決定部から対話状態S3
2が入力されると，対話動作実行部はシステム応答R32
「何市ですか」を利用者に出力するとともに，対話状態
S32に規定された認識対象語彙V32と，対話状態遷移記憶
部に記憶された8つの遷移先対話状態仮説 S22, S42, S2
3, S33, S43, S24, S34, S44 に規定された認識対象語
彙 V22, V42, V23, V33, V43, V24, V34, V44 を音声認
識部に出力する。

【００６７】対話動作実行部が出力したシステム応答
「何市ですか」に対して，利用者が「鎌倉市です」と入
力した場合，音声認識部は認識対象語彙 V22, V32, V4
2, V23,V33, V43, V24, V34, V44 を用いて音声認識処
理を行い，認識結果として「鎌倉(0.87)，川崎(0.66)，
唐津(0.28)」を出力する。

【００６８】遷移先対話状態確定動作決定部は，遷移テ
ーブル T22, T32, T42, T23, T33,T43, T24, T34, T44
を参照して，認識結果に対する遷移先対話状態の仮説と
して9つの対話状態 S222, S223, S322, S323, S422, S4
23, S243, S343, S443 を得る。次に，音声認識部から
の認識結果を確定することにより未入力項目に対する項
目値が一意に定まるか否かを検査する。現時点では対象
名，県名，市名が入力された状態であり，図９の電話番
号データベースを参照すると，名称「アマタ」，県名
「神奈川」，市名「鎌倉」というデータは存在しない。

【００６９】一方，名称「甘太郎」，県名「神奈川」，
市名「鎌倉」に対しては，データ番号 1のデータが存在
し，市名を確定することにより，未入力項目である町
名，業種が一意に確定する。したがって，遷移先対話状
態の確定を行うと決定し，遷移先対話状態仮説 S222, S
223, S322, S323, S422, S423, S243, S343, S443 を遷
移先対話状態確定部に出力する。

【００７０】遷移先対話状態確定部は，遷移先対話状態
の仮説が入力されると，最もスコアの良い認識結果であ
る「鎌倉」を確認することで遷移先対話状態を S223 に
確定し，対話動作実行部に対話状態S223を出力する。

【００７１】対話動作実行部は対話状態 S223 が入力さ
れると，対話状態遷移記憶部に記憶された対話遷移系列
と，図の電話番号データベースから，全入力項目に対す
る項目値が，名称「甘太郎」，県名「神奈川」，市名
「鎌倉」，町名「大船」，業種「居酒屋」と決定し，電
話番号「0467-00-0000」が一意に定まるため，該電話番
号を利用者に応答する。

【００７２】以上の動作により，利用者の入力に対する
対話状態遷移の仮説を複数保持し，利用者からの入力項
目がすべて入力されていなくても，認識結果を確定する
ことにより未入力項目に対する項目値が一意に定まる場
合に遷移先対話状態を一つに確定するため，一発話毎に
利用者へ確認を行なって確定的に対話を進めなくても認
識率を向上でき，さらに確認対話の回数が減るため利用
者と装置との自然な対話が実現でき利用者の利便性が向
上する。

【００７３】実施の形態4.実施の形態４は上述の実施の
形態１とは遷移先対話状態確定動作決定部の動作が異な
るものであり、他は上述の実施の形態１と同様である。
以下，図１の遷移先対話状態確定動作決定部の動作につ
いて，対話手順記憶部に図１０の対話状態が保持されて
いる場合を例に説明する。

【００７４】対話開始状態S1に基づいて，対話動作実行
部がシステム応答R1「都道府県名をどうぞ」を利用者に
出力し，認識対象語彙V1を音声認識部に出力することに
より対話を開始する。

【００７５】利用者が音声入力を行うと，音声認識部は
認識対象語彙V1を用いて音声認識処理を行い認識結果と
スコアを出力する。例えば利用者が「佐賀です」と入力
した場合，認識結果として「佐賀(0.92)，滋賀(0.80)，
香川(0.73)，神奈川(0.52)，鹿児島(0.50)」の5つの候
補を出力する。

【００７６】認識結果が入力されると，遷移先対話状態
確定動作決定部は現在の対話状態S1に規定された遷移テ
ーブルT1を参照して，前述の5つの認識結果に対する遷
移先対話状態の仮説として5つの対話状態 S15, S16, S1
7, S18, S19 を得る。次に，一位の認識結果「佐賀」の
スコアが0.92で閾値以上であるため確定を保留すると決
定し，共通のシステム応答を持つ5つの遷移先対話状態
仮説すべてを暫定遷移先対話状態決定部に出力する。

【００７７】暫定遷移先対話状態決定部は，スコアの最
も良い「佐賀」に対する遷移先対話状態仮説 S18 を選
択し対話動作実行部へ出力し，すべての遷移先対話状態
仮説を対話状態遷移記憶部に書き加える。

【００７８】暫定遷移先対話状態決定部から対話状態 S
18 が入力されると，対話動作実行部はシステム応答 R1
8 「市名をどうぞ」を利用者に出力するとともに，認識
対象語彙 V18と，対話状態遷移記憶部に記憶された4つ
の遷移先対話状態仮説 S15,S16, S17, S19 に規定され
た認識対象語彙 V15, V16, V17, V19 を音声認識部に出
力する。

【００７９】対話動作実行部が出力したシステム応答
「市名をどうぞ」に対して，利用者が「伊万里市です」
と入力した場合，音声認識部は認識対象語彙 V15, V16,
V17, V18, V19 を用いて音声認識処理を行い，認識結果
として「伊万里(0.91)，出水(0.76)，伊勢原(0.30)，八
日市(0.11)，平塚(0.09)」を出力する。

【００８０】遷移先対話状態確定動作決定部は，遷移テ
ーブル T15, T16, T17, T18, T19を参照して，認識結果
に対する遷移先対話状態の仮説として5つの対話状態 S1
52, S153, S163, S182, S192 を得る。スコアの最も良
い認識結果「伊万里」のスコアは閾値以上であるが，遷
移先対話状態仮説 S152, S153, S163, S182,S192に共通
のシステム応答が存在しないため，遷移先対話状態確定
動作決定部は遷移先対話状態の確定を行うと決定し，遷
移先対話状態仮説 S152, S153, S163, S182, S192 を遷
移先対話状態確定部に出力する。

【００８１】遷移先対話状態確定部は実施例1と同様に
動作し，遷移先対話状態を S182に確定して対話動作実
行部に出力する。遷移先対話状態 S182 が入力される
と，対話動作実行部も実施例1と同様に動作して利用者
との対話を継続する。

【００８２】以上の動作により，対話状態遷移記憶部が
利用者の入力に対する対話状態遷移の仮説を複数保持
し，遷移先対話状態確定動作決定部が，遷移先対話状態
仮説に共通のシステム発話が存在しなくなった場合に遷
移先対話状態を一つに確定するため，一発話毎に利用者
へ確認を行なって確定的に対話を進めなくても認識率を
向上でき，さらに確認対話の回数が減るため利用者と装
置との自然な対話が実現でき利用者の利便性が向上す
る。

【００８３】実施の形態５.実施の形態５は上述の実施
の形態１とは遷移先対話状態確定動作決定部の動作が異
なるものであり、他は上述の実施の形態１と同様であ
る。以下，図１の遷移先対話状態確定動作決定部の動作
を，対話手順記憶部に図１１の対話状態が保持されてい
る場合を例に説明する。図１１に示した例では，対話状
態 S152 において複数のシステム応答 R152-1「伊勢原
市の何町ですか」とR152-2「町名をどうぞ」が規定され
ている。

【００８４】まず，実施の形態４と同様に，対話開始状
態S1から対話を開始し，対話状態 S18 に至り，利用者
がシステム応答 R18 「市名をどうぞ」に対し「伊万里
市です」と応答して音声認識部が認識結果「伊万里(0.9
1)，出水(0.76)，伊勢原(0.30)，八日市(0.11)，平塚
(0.09)」を出力した場合について説明する。

【００８５】遷移先対話状態確定動作決定部は，遷移テ
ーブル T15, T16, T17, T18, T19を参照して，実施の形
態４と同様に認識結果に対する遷移先対話状態の仮説と
して5つの対話状態 S152, S153, S163, S182, S192 を
得る。スコアの最も良い認識結果「伊万里」のスコアは
閾値以上であり，かつ遷移先対話状態仮説 S152,S153,
S163, S182, S192 に共通のシステム応答「町名をどう
ぞ」が存在するため，遷移先対話状態確定動作決定部は
遷移先対話状態の確定を保留すると決定し，遷移先対話
状態仮説 S152, S153, S163, S182, S192 を暫定遷移先
対話状態決定部に出力する。

【００８６】暫定遷移先対話状態決定部は遷移先対話状
態仮説 S152, S153, S163, S182,S192 が入力される
と，最もスコアのよい認識結果「伊万里」に対する対話
状態S182 を暫定遷移先対話状態と決定して対話動作実
行部に出力する。

【００８７】対話動作実行部は対話状態 S182 が入力さ
れると，対話状態 S182 に規定された複数のシステム応
答のなかから，遷移先対話状態仮説 S152, S153, S163,
S192に規定されたシステム応答と共通の R182-2「町名
をどうぞ」をシステム応答として出力して対話を継続す
る。

【００８８】一方，実施の形態１と同様に，対話開始状
態S1から対話を開始し，対話状態 S16 に至り，システ
ム応答 R16「市名をどうぞ」に対し利用者が「伊万里市
です」と応答したため，遷移先対話状態決定部が利用者
に確認を行い，遷移先対話状態を S182 に決定した場合
について説明する。

【００８９】対話状態 S182 が入力されると，対話動作
実行部は対話状態 S182 に規定されたシステム応答 R18
2-1「伊万里市の何町ですか」およびR182-2「町名をど
うぞ」のうち，例えば，最初に定義されている R182-1
をシステム応答として出力し対話を継続する。

【００９０】以上の動作により，対話手順記憶部に記憶
された各対話状態に複数のシステム応答を記述すること
で，遷移先対話状態仮説に共通のシステム発話が存在す
る場合は，遷移先対話状態確定動作決定部は確認による
確定動作を行わず，各遷移先対話状態仮説に共通のシス
テム発話を出力して対話を継続し，一方，遷移先対話状
態確定部で遷移先対話状態が確定した場合には，確定し
た対話状態に固有のシステム応答を行えるため，一発話
毎に利用者へ確認を行なって確定的に対話を進めなくて
も認識率を向上でき，さらに対話状態遷移に応じた自然
な応答を行えるため，利用者と装置との自然な対話が実
現でき利用者の利便性が向上する。

【００９１】実施の形態６．実施の形態６は上述の実施
の形態１とは遷移先対話状態確定動作決定部の動作が異
なるものであり、他は上述の実施の形態１と同様であ
る。以下，図１の遷移先対話状態確定動作決定部の動作
について，対話手順記憶部に図２，５の対話状態が保持
されている場合を例に，遷移先対話状態確定動作決定部
で確定動作決定に用いる語彙規模の閾値が 300の場合に
ついて説明する。

【００９２】対話開始状態 S1 に基づいて，対話動作実
行部がシステム応答 R1 「都道府県名をどうぞ」を利用
者に出力し，認識対象語彙 V1 を音声認識部に出力する
ことにより対話を開始する。

【００９３】利用者が音声入力を行うと，音声認識部は
認識対象語彙V1を用いて音声認識処理を行い認識結果と
スコアを出力する。例えば利用者が「佐賀です」と入力
した場合，認識結果として「佐賀(0.92)，滋賀(0.80)，
香川(0.73)，神奈川(0.52)，鹿児島(0.50)」の5つの候
補を出力する。

【００９４】認識結果が入力されると，遷移先対話状態
確定動作決定部は現在の対話状態S1に規定された遷移テ
ーブルT1を参照して，前述の5つの認識結果に対する遷
移先対話状態の仮説として5つの対話状態 S15, S16, S1
7, S18, S19 を得る。次に，遷移先対話状態仮説の全て
の認識対象語彙 V15, V16, V17, V18, V19 を合計した
語彙を求める。V15, V16, V17, V18, V19 はそれぞれ，
神奈川県の市名，滋賀県の市名，香川県の市名，佐賀県
の市名，鹿児島県の市名のため，合計の語彙はこれら5
県のすべての市名であり，これらの異なる5県で同一の
市名は存在しないため，その語彙の規模は 52である。

【００９５】これは閾値の 300 より小さいため，遷移
先対話状態確定動作決定部は遷移先対話状態仮説の確定
を保留すると決定し，共通のシステム応答を持つ5つの
遷移先対話状態仮説すべてを暫定遷移先対話状態決定部
に出力する。

【００９６】暫定遷移先対話状態決定部は，スコアの最
も良い「佐賀」に対する遷移先対話状態仮説 S18 を選
択し対話動作実行部へ出力し，すべての遷移先対話状態
仮説を対話状態遷移記憶部に書き加える。

【００９７】暫定遷移先対話状態決定部から対話状態 S
18 が入力されると，対話動作実行部はシステム応答 R1
8 「市名をどうぞ」を利用者に出力するとともに，認識
対象語彙 V18 と，対話状態遷移記憶部に記憶された4つ
の遷移先対話状態仮説 S15, S16, S17, S19 に規定され
た認識対象語彙 V15, V16, V17, V19 を音声認識部に出
力する。

【００９８】対話動作実行部が出力したシステム応答
「市名をどうぞ」に対して，利用者が「伊万里市です」
と入力した場合，音声認識部は認識対象語彙 V15, V16,
V17, V18, V19 を用いて音声認識処理を行い，認識結果
として「伊万里(0.91)，出水(0.76)，伊勢原(0.30)，八
日市(0.11)，平塚(0.09)」を出力する。

【００９９】遷移先対話状態確定動作決定部は，遷移テ
ーブル T15, T16, T17, T18, T19を参照して，認識結果
に対する遷移先対話状態の仮説として5つの対話状態 S1
52, S153, S163, S182, S192 を得る。次に，遷移先対
話状態仮説の全ての認識対象語彙 V152, V153, V163, V
182, V192 を合計した語彙を求める。V152,V153, V163,
V182, V192 はそれぞれ，神奈川県伊勢原市の町名，神
奈川県平塚市の町名，滋賀県八日市市の町名，佐賀県伊
万里市の町名，鹿児島県出水市の町名のため，合計の語
彙はこれら5市のすべての町名である。その総数は 332
であるが，これら異なる5市に同一の町名が存在するた
め異なり語数は 327 である。

【０１００】これは閾値の 300 より大きいため，遷移
先対話状態確定動作決定部は遷移先対話状態の確定を行
うと決定し，遷移先対話状態仮説 S152, S153, S163, S
182,S192 を遷移先対話状態確定部に出力する。

【０１０１】遷移先対話状態確定部は実施例1と同様に
動作し，遷移先対話状態を S182に確定して対話動作実
行部に出力する。遷移先対話状態 S182 が入力される
と，対話動作実行部も実施例1と同様に動作して利用者
との対話を継続する。

【０１０２】以上の動作により，遷移先対話状態仮説に
規定された認識対象語彙の規模が大きく，認識率が低下
する恐れがある場合に遷移先対話状態確定動作決定部が
確定動作実行を決定し，遷移先対話状態決定部が遷移先
対話状態を確定するため，認識対象語彙を限定でき認識
率が向上する。

【０１０３】実施の形態７．実施の形態７は上述の実施
の形態１とは遷移先対話状態確定動作決定部の動作が異
なるものであり、他は上述の実施の形態１と同様であ
る。以下，図１の遷移先対話状態確定動作決定部の動作
について，対話手順記憶部に図２および図５の対話状態
が保持されており，遷移先対話状態確定動作決定部が確
定動作決定に用いる遷移系列の長さの閾値が 2 である
場合について説明する。

【０１０４】対話開始状態S1に基づいて，対話動作実行
部がシステム応答R1「都道府県名をどうぞ」を利用者に
出力し，認識対象語彙V1を音声認識部に出力することに
より対話を開始する。

【０１０５】利用者が音声入力を行うと，音声認識部は
認識対象語彙V1を用いて音声認識処理を行い認識結果と
スコアを出力する。例えば利用者が「佐賀です」と入力
した場合，認識結果として「佐賀(0.92)，滋賀(0.80)，
香川(0.73)，神奈川(0.52)，鹿児島(0.50)」の5つの候
補を出力する。

【０１０６】認識結果が入力されると，遷移先対話状態
確定動作決定部は現在の対話状態S1に規定された遷移テ
ーブルT1を参照して，前述の5つの認識結果に対する遷
移先対話状態の仮説として5つの対話状態 S15, S16, S1
7, S18, S19 を得る。遷移先対話状態確定動作決定部
は，遷移先対話状態仮説の遷移系列の長さを対話状態遷
移記憶部を参照して得る。この時点では対話開始状態 S
1 からの遷移先対話状態仮説は対話状態遷移記憶部には
なにも記憶されていないため，遷移系列の長さは0 であ
り閾値の 2 より小さい。したがって，遷移先対話状態
確定動作決定部は遷移先対話状態の確定を保留すると決
定し，5つの遷移先対話状態仮説すべてを暫定遷移先対
話状態決定部に出力する。

【０１０７】暫定遷移先対話状態決定部は，スコアの最
も良い「佐賀」に対する遷移先対話状態仮説 S18 を選
択し対話動作実行部へ出力し，すべての遷移先対話状態
仮説を対話状態遷移記憶部に書き加える。以上の動作の
結果，対話状態遷移記憶部の内容は図１２に示すものと
なる。

【０１０８】暫定遷移先対話状態決定部から対話状態 S
18 が入力されると，対話動作実行部はシステム応答 R1
8 「市名をどうぞ」を利用者に出力するとともに，認識
対象語彙V18と，対話状態遷移記憶部に記憶された4つの
遷移先対話状態仮説 S15,S16, S17, S19 に規定された
認識対象語彙 V15, V16, V17, V19 を音声認識部に出力
する。

【０１０９】対話動作実行部が出力したシステム応答
「市名をどうぞ」に対して，利用者が「伊万里市です」
と入力した場合，音声認識部は認識対象語彙 V15, V16,
V17, V18, V19 を用いて音声認識処理を行い，認識結果
として「伊万里(0.91)，出水(0.76)，伊勢原(0.30)，八
日市(0.11)，平塚(0.09)」を出力する。

【０１１０】遷移先対話状態確定動作決定部は，遷移テ
ーブル T15, T16, T17, T18, T19を参照して，認識結果
に対する遷移先対話状態の仮説として5つの対話状態 S1
52, S153, S163, S182, S192 を得る。次に，図１２に
示す対話状態遷移記憶部の内容を参照すると，対話開始
状態S1から現在の対話状態 S18 までの遷移系列の長さ
は 1 であり，閾値である 2 より小さい。したがって，
遷移先対話状態確定動作決定部は遷移先対話状態の確定
を保留すると決定し，5つの遷移先対話状態仮説すべて
を暫定遷移先対話状態決定部に出力する。

【０１１１】暫定遷移先対話状態決定部は遷移先対話状
態仮説 S152, S153, S163, S182,S192 が入力される
と，最もスコアのよい認識結果「伊万里」に対する対話
状態 S182 を暫定遷移先対話状態と決定して対話動作実
行部に出力する。さらに，すべての遷移先対話状態仮説
を対話状態遷移記憶部に書き加え，対話状態遷移記憶部
の内容は図13に示すものとなる。

【０１１２】暫定遷移先対話状態決定部から対話状態 S
182 が入力されると，対話動作実行部はシステム応答 R
182 「町名をどうぞ」を利用者に出力するとともに，認
識対象語彙 V182 と，対話状態遷移記憶部に記憶された
4つの遷移先対話状態仮説 S152, S153, S163, S192 に
規定された認識対象語彙 V152, V153, V163, V192 を音
声認識部に出力する。

【０１１３】対話動作実行部が出力したシステム応答
「町名をどうぞ」に対して，利用者が「黒川です」と入
力した場合，音声認識部は認識対象語彙 V182, V152, V
153,V163, V192 を用いて音声認識処理を行い，認識結
果として「黒川(0.90)，広川(0.64)，大川(0.42)，串橋
(0.13)，黒部丘(0.11)」を出力する。

【０１１４】遷移先対話状態確定動作決定部は遷移テー
ブル T182 を参照して遷移先対話状態仮説 S1825, S182
2, S1823, S1824, S1828 を得る。次に，図１３に示す
対話状態遷移記憶部の内容を参照すると，対話開始対話
状態 S1 から現在の対話状態S182 までの遷移系列の長
さは 2 であり閾値と等しい。したがって，遷移先対話
状態確定動作決定部は遷移先対話状態の確定を行うと決
定し，5つの遷移先対話状態仮説を遷移先対話状態確定
部に出力する。

【０１１５】遷移先対話状態確定部は遷移先対話状態仮
説 S1825, S1822, S1823, S1824,S1828 が入力される
と，最もスコアのよい「黒川」を利用者に確認すること
で遷移先対話状態を S1825 に確定し，対話動作実行部
に出力する。

【０１１６】対話動作実行部は，対話状態 S1825 が入
力されると，認識対象語彙 V1825 を音声認識部に出力
し，システム応答 R1825 「業種をどうぞ」を利用者に
出力して対話を継続する。

【０１１７】以上の動作により，対話状態遷移記憶部が
利用者の入力に対する対話状態遷移の仮説を複数保持
し，遷移先対話状態確定動作決定部が，最も最近に確定
した対話状態からの対話状態遷移仮説系列の長さが閾値
以上になった場合に遷移先対話状態を一つに確定するた
め，一発話毎に利用者へ確認を行なって確定的に対話を
進めなくても認識率を向上でき，さらに確認対話の回数
が減るため利用者と装置との自然な対話が実現でき利用
者の利便性が向上する。

【０１１８】

【発明の効果】

【０１１９】以上のように、この発明によれば，遷移先
対話状態確定動作決定部が，現在選択している仮説が所
定の条件を満たすときに遷移先対話状態を一つに確定す
るため，一発話毎に利用者へ確認を行なって確定的に対
話を進めなくても認識率を向上でき，さらに確認対話の
回数が減るため利用者と装置との自然な対話が実現でき
利用者の利便性が向上する。

【０１２０】また、この発明によれば，対話状態遷移記
憶部が利用者の入力に対する対話状態遷移の仮説を複数
保持し，遷移先対話状態確定動作決定部が，現在選択し
ている仮説に対する認識スコアが閾値より悪くなったと
きに遷移先対話状態を一つに確定するため，一発話毎に
利用者へ確認を行なって確定的に対話を進めなくても認
識率を向上でき，さらに確認対話の回数が減るため利用
者と装置との自然な対話が実現でき利用者の利便性が向
上する。

【０１２１】また、この発明によれば，規定された認識
対象語彙が大きいため他の対話状態の認識対象語彙と同
時に音声認識処理を行うことが望ましくなく，該対話状
態に遷移する直前に予め確定動作を行う必要がある対話
状態に対して，遷移先対話状態確定動作決定部が確定動
作実行を決定し，遷移先対話状態決定部が遷移先対話状
態を確定するため，認識対象語彙を限定でき認識率が向
上する。

【０１２２】また、この発明によれば，利用者の入力に
対する対話状態遷移の仮説を複数保持し，利用者からの
入力項目がすべて入力されていなくても，認識結果を確
定することにより未入力項目に対する項目値が一意に定
まる場合に遷移先対話状態を一つに確定するため，一発
話毎に利用者へ確認を行なって確定的に対話を進めなく
ても認識率を向上でき，さらに確認対話の回数が減るた
め利用者と装置との自然な対話が実現でき利用者の利便
性が向上する。

【０１２３】また、この発明によれば，対話状態遷移記
憶部が利用者の入力に対する対話状態遷移の仮説を複数
保持し，遷移先対話状態確定動作決定部が，遷移先対話
状態仮説に共通のシステム発話が存在しなくなった場合
に遷移先対話状態を一つに確定するため，一発話毎に利
用者へ確認を行なって確定的に対話を進めなくても認識
率を向上でき，さらに確認対話の回数が減るため利用者
と装置との自然な対話が実現でき利用者の利便性が向上
する。

【０１２４】また、この発明によれば，対話手順記憶部
に記憶された各対話状態に複数のシステム応答を記述す
ることで，遷移先対話状態仮説に共通のシステム発話が
存在する場合は，遷移先対話状態確定動作決定部は確認
による確定動作を行わず，各遷移先対話状態仮説に共通
のシステム発話を出力して対話を継続し，一方，遷移先
対話状態確定部で遷移先対話状態が確定した場合には，
確定した対話状態に固有のシステム応答を行えるため，
一発話毎に利用者へ確認を行なって確定的に対話を進め
なくても認識率を向上でき，さらに対話状態遷移に応じ
た自然な応答を行えるため，利用者と装置との自然な対
話が実現でき利用者の利便性が向上する。

【０１２５】また、この発明によれば，遷移先対話状態
仮説に規定された認識対象語彙の規模が大きく，認識率
が低下する恐れがある場合に遷移先対話状態確定動作決
定部が確定動作実行を決定し，遷移先対話状態決定部が
遷移先対話状態を確定するため，認識対象語彙を限定で
き認識率が向上する。

【０１２６】また、この発明によれば，対話状態遷移記
憶部が利用者の入力に対する対話状態遷移の仮説を複数
保持し，遷移先対話状態確定動作決定部が，最も最近に
確定した対話状態からの対話状態遷移仮説系列の長さが
閾値以上になった場合に遷移先対話状態を一つに確定す
るため，一発話毎に利用者へ確認を行なって確定的に対
話を進めなくても認識率を向上でき，さらに確認対話の
回数が減るため利用者と装置との自然な対話が実現でき
利用者の利便性が向上する。

【図面の簡単な説明】

【図１】この発明の実施の形態１である音声対話装置
の構成図。

【図２】実施の形態１における対話手順記憶部に保持
された対話状態の一例を示す説明図。

【図３】実施の形態１における遷移先対話状態仮説を
対話状態遷移記憶部に書き加えた結果の説明図。

【図４】実施の形態１における遷移先対話状態仮説確
定結果の対話状態遷移記憶部の説明図。

【図５】実施の形態２における対話手順記憶部に保持
された対話状態の一例を示す説明図。

【図６】実施の形態２における対話手順記憶部に保持
された対話状態の一例を示す説明図。

【図７】実施の形態２における遷移先対話状態仮説を
対話状態遷移記憶部に書き加えた結果の説明図。

【図８】実施の形態３における対話手順記憶部に記憶
された対話状態の説明図。

【図９】実施の形態３における電話番号データベース
の説明図。

【図１０】実施の形態４における対話手順記憶部に記
憶された対話状態の説明図。

【図１１】実施の形態５における対話手順記憶部に記
憶された対話状態の説明図。

【図１２】実施の形態７における遷移先対話状態仮説
を対話状態遷移記憶部に書き加えた結果の説明図。

【図１３】実施の形態７における対話状態遷移記憶部
の対話開始対話状態から現対話状態までの遷移系列の説
明図。

【図１４】従来の認識候補抽出装置の構成図。

【符号の説明】

1：音声認識部，2：対話手順記憶部，3：対話状態遷移
記憶部，4：遷移先対話状態確定動作決定部，5：遷移先
対話状態確定部，6：暫定遷移先対話状態決定部，7：対
話動作実行部。

───────────────────────────────────────────────────── フロントページの続き (72)発明者石川泰東京都千代田区丸の内二丁目２番３号三菱電機株式会社内Ｆターム(参考） 5D015 AA05 JJ00 LL11

Claims

【特許請求の範囲】

【請求項１】音声認識部と，対話手順記憶部と，遷移
先対話状態確定動作決定部と，対話動作実行部とを備
え，音声での対話により，利用者が必要とする情報を得
る音声対話装置であって，対話手順記憶部は，各対話状
態における認識対象語彙，システム応答と，システム応
答に想定される答え及びその答えに応じた遷移先対話状
態を規定して記憶し，音声認識部は，入力音声に対し
て，対話手順記憶部に記憶された各対話状態に応じた認
識対象語彙を用いて音声認識を行って，複数の認識結果
を出力し，遷移先対話状態確定動作決定部は，前記音声
認識部からの認識結果と対話手順記憶部の内容により遷
移先対話状態を定め、その遷移先対話状態の仮説が予め
定められた所定条件を満たす場合は一つに確定し、所定
条件を満たさない場合は確定を保留する決定をすると共
に遷移先対話状態仮説を出力し，対話動作実行部は、仮
説を一つに確定する場合、遷移先対話状態確定動作決定
部からの遷移先対話状態仮説の認識結果を確認するシス
テム応答を出力し、確定を保留する場合は、遷移先対話
状態仮説のシステム応答を出力することを特徴とする音
声対話装置。
【請求項２】対話状態遷移記憶部と，遷移先対話状態
確定部と，暫定遷移先対話状態決定部とを付加し、遷移先対話状態確定動作決定部は，音声認識部からの認
識結果と対話状態遷移記憶部又は対話手順記憶部の内容
とから定まる遷移先対話状態の仮説を一つに確定する
か、確定を保留するかを決定し，遷移先対話状態仮説を
出力し，遷移先対話状態確定部は，遷移先対話状態確定
動作決定部からの遷移先対話状態仮説を一つに確定する
場合にその遷移先対話状態仮説を入力とし，利用者に認
識結果を確認することにより遷移先対話状態を確定して
出力するとともに，対話状態遷移記憶部に対し，記憶さ
れている遷移先対話状態仮説をを書変え，暫定遷移先対
話状態決定部は，遷移先対話状態確定動作決定部からの
遷移先対話状態仮説を保留する場合にその遷移先対話状
態仮説を入力とし，暫定的な遷移先対話状態を決定して
出力するとともに，対話状態遷移記憶部に対し遷移先対
話状態仮説を書変え，対話状態遷移記憶部は，対話開始
時点からの対話状態遷移履歴と遷移先対話状態確定部又
は，暫定遷移先対話状態決定部からの遷移先対話状態仮
説を記憶し，対話動作実行部は，遷移先対話状態確定部
または暫定遷移先対話状態決定部からの遷移先対話状態
を入力とし，該遷移先対話状態に規定されたシステム応
答を出力するとともに，該遷移先対話状態に規定された
認識対象語彙を前記音声認識部に出力し，音声認識部
は，入力音声に対して，対話動作実行部から入力される
認識対象語彙を用いて音声認識を行い，複数の認識結果
を出力することを特徴とする請求項１記載の音声対話装
置。
【請求項３】音声認識部は，複数の認識結果とその認
識結果のスコアを出力するように構成され、遷移先対話状態確定動作決定部は，音声認識部からの入
力された認識結果のスコアに応じて確定動作を行うか否
かを決定することを特徴とする請求項１又は２記載の音
声対話装置。
【請求項４】対話手順記憶部に記憶された各対話状態
には，他の対話状態から該対話状態へ状態遷移を行うた
めに予め確定動作を行う必要があるか否かを記述し，遷
移先対話状態確定動作決定部は，音声認識部から入力さ
れる認識結果と対話状態遷移記憶部の内容と対話手順と
から定まる遷移先対話状態の仮説が，予め確定動作を行
う必要があるものの場合に確定動作を行うと決定するこ
とを特徴とする請求項１〜３いずれか記載の音声対話装
置。
【請求項５】遷移先対話状態確定動作決定部は，利用
者からの入力項目がすべて入力されていなくても，音声
認識部からの認識結果を確定することにより未入力項目
に対する項目値が一意に定まる場合に確定動作を行うと
決定することを特徴とする請求項１〜４いずれか記載の
音声対話装置。
【請求項６】遷移先対話状態確定動作決定部は，遷移
先対話状態仮説に規定されたシステム応答に応じて確定
動作を行うか否かを決定することを特徴とする請求項１
〜５いずれか記載の音声対話装置。
【請求項７】遷移先対話状態確定動作決定部は，遷移
先対話状態仮説に共通のシステム応答が存在しない場合
に確定動作を行うと決定し，遷移先対話状態仮説に共通
のシステム応答が存在する場合には，共通のシステム発
話を持つ遷移先対話状態仮説のみを遷移先対話状態仮説
として出力することを特徴とする請求項６記載の音声対
話装置。
【請求項８】対話手順記憶部に記憶された各対話状態
には，複数のシステム応答を記述でき，対話動作実行部
は，暫定遷移先対話状態決定部から遷移先対話状態が入
力された場合，入力された遷移先対話状態に規定された
システム応答のうち，対話状態遷移記憶部に記憶された
遷移先対話状態仮説に規定されたシステム応答と共通の
ものを出力することを特徴とする請求項５または６記載
の音声対話装置。
【請求項９】遷移先対話状態確定動作決定部は，遷移
先対話状態仮説の全ての認識対象語彙を合計した語彙の
規模が予め定めた基準より大きい場合に確定動作を行う
と決定することを特徴とする請求項１〜７いずれか記載
の音声対話装置。
【請求項１０】遷移先対話状態確定動作決定部は，対
話状態遷移記憶部を参照して，確定した対話状態から遷
移先対話状態仮説までの遷移系列の長さが予め定めた基
準値以上の場合に確定動作を行うと決定することを特徴
とする請求項１〜８いずれか記載の音声対話装置。