JP2002073080A

JP2002073080A - 音声対話システム

Info

Publication number: JP2002073080A
Application number: JP2000266027A
Authority: JP
Inventors: Shinichi Iwamoto; 真一岩本; Toshitaka Yamato; 俊孝大和
Original assignee: Denso Ten Ltd
Current assignee: Denso Ten Ltd
Priority date: 2000-09-01
Filing date: 2000-09-01
Publication date: 2002-03-12

Abstract

(57)【要約】【課題】対話スクリプトデータのデータサイズを縮少
化すると共に、ユーザへの快適性を改良した音声応答シ
ステムを提供する。【解決手段】対話処理部にはアシスト機構７を設け、
この中にグローバル遷移条件テーブル８とアシスト対話
モード生成手段９を形成する。該テーブル８には、いか
なる対話状態のもとでも共通に使用される複数の条件を
格納する。また該手段９は、通常の基本対話モードがス
ムーズに流れないときにユーザを援助するアシスト対話
モードを提供する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声対話システムに
関する。人間と機械との間の情報交換を行ういわゆるマ
ン・マシンインタフェースの一形態として、近年、音声
対話型インタフェースが急速に普及し始めている。その
代表的な一例としては、車載情報機器であるオーディオ
装置やナビゲーション装置に適用される音声対話型イン
タフェースがあり、車輛を運転中のユーザにとって当該
車載情報機器に対する操作容易性は飛躍的に向上してい
る。

【０００２】本発明は上記音声対話型インタフェースを
実現するための音声対話システムについて述べる。

【０００３】

【従来の技術】図１８は一般的な音声対話システムの原
型を示す図である。本図において、音声対話システム１
は、音声認識部２と、対話処理部３と、音声合成部４と
に大別される。さらに対話処理部３は、「意味理解系」
と「対話管理系」とに機能分類することができる。前者
は、発話モデルデータを収容した発話データベース５を
主構成要素とし、後者は、対話スクリプトデータを収容
した対話データベース６を主構成要素としている。尚、
「意味理解系」は、音声認識部２にその機能を持たせる
構成とする考え方もある。

【０００４】図１８の原型を簡単に理解するために、フ
ァーストフード店を例にとって説明すると、音声認識部
２は来店客に対面して設けられ、一方、音声合成部４は
当店の店員の代替として機能する。来店客が仮に、「バ
ーガー、２つ」と発声したとすると、音声認識部２は、
当該音声をテキスト（ｔｅｘｔ）データに変換する。こ
の場合、〔バーガー〕と〔フタツ〕に変換できる。

【０００５】その音声認識結果（文字コード）を入力と
して、対話処理部３は、まず、発話データベース５を参
照して、その文字コードの意味付けを行う。この場合、
〔ハンバーガー＝注文〕および〔フタツ＝注文数〕と意
味付けることができる。対話処理部３は上記の意味付け
をもとに、対話データベース６を参照して、対話の流れ
を決定する。つまり引き続いてどのような対話を来店客
に与えるべきか決定する。この場合例えば、〔こちらで
お召し上がりですか？〕および〔お飲み物は？〕という
ことになる。ここに決定した対話は、音声合成部４にて
電子的に合成された音声となり、当該来店客に返され
る。来店客はさらにこれに答えて、次々と対話が遷移し
ていく。

【０００６】

【発明が解決しようとする課題】上述した一般的な音声
対話システムは、ファーストフード店を例にとって説明
したが、例えば既述のナビゲーション装置では、対話の
内容はかなり複雑多岐に亘り、対話の流れも何階層にも
遷移していく。このため音声対話システムとしては一層
の改良が求められる。その改良すべき点は多種に及ぶ
が、本発明ではその改良すべき点として、対話スクリプ
トデータに着目する。

【０００７】第１に、従来は、遷移していく対話の流れ
は、起こり得る全てのパターンについてそれぞれ個別に
対話スクリプトデータを用意していた。また第２に、音
声認識部２から正常な認識結果が得られないときには、
標準的な対話スクリプトデータだけでは、それ以上通常
の対話の流れを継続させることができない。

【０００８】上記第１の点に関しては、対話スクリプト
データのデータサイズがきわめて大きくなり対話データ
ベース６のメモリ容量が膨大になってしまう、という問
題が生ずる（第１の問題）。また上記第２の点に関して
は、対話がスムーズに流れないことから、ユーザに不快
感を与える、という問題が生ずる（第２の問題）。

【０００９】したがって本発明は上記問題点に鑑み、対
話データベースにおけるデータサイズを小さくし、ま
た、ユーザに快適な対話を提供できるようにした、音声
対話システムを実現することを目的とするものである。

【００１０】

【課題を解決するための手段】図１は本発明の概念を表
す図である。本図に示すように、本発明の特徴は、対話
処理部（図１８の３に相当）内に、アシスト機構７を設
けることである。そしてこのアシスト機構７内には、グ
ローバル遷移条件テーブル８と、アシスト対話モード生
成手段９が含まれる。

【００１１】上記グローバル遷移条件テーブル８は、ユ
ーザの発話状態において、いかなる対話状態のもとでも
共通に使用される複数のグローバル遷移条件を予め格納
する。対話処理部は、その発話状態におけるユーザの発
声の内容が上記グローバル遷移条件に該当するとき、グ
ローバル遷移条件テーブル８にアクセスして対話内容を
生成するものである。

【００１２】これにより、対話スクリプトデータには全
ての対話遷移を記述する必要がなくなり、既述の第１の
問題を解決することができる。一方、前記アシスト対話
モード生成手段９は、対話処理部が、基本対話モードの
他にアシスト対話モードでも動作することを可能にす
る。ここに基本対話モードは、ナビゲーション装置等の
アプリケーションプログラムが要求する各種情報を収集
する通常の一連の対話の流れを形成するモードであり、
アシスト対話モードは、一連の対話の流れを維持できな
い異常時に形成されるモードである。

【００１３】これにより、ユーザは一連の対話の流れを
スムーズに進めることができ快適性は向上するので、既
述の第２の問題を解決することができる。

【００１４】

【発明の実施の形態】図２は本発明に係る音声対話シス
テムの全体構成例を示す図である。本図に示すとおり、
本発明に係る音声対話システム１は、基本的に、発話状
態においてユーザから発声された音声を、例えばマイク
を介して、入力する音声入力部１１と、この音声入力部
１１からの音声を認識してその意味を解析する音声認識
部１２と、この音声認識部１２による認識結果に基づい
て、予め対話データベース１４内に収容された対話スク
リプトデータを参照しつつ、ユーザに返すべき対話内容
を生成する対話処理部１３と、その対話内容に基づいて
ユーザに対して合成音声を返す音声出力部１６と、を備
え、ユーザによる発声の都度、対話スクリプトデータに
より規定される一連の対話状態を次々に遷移させて、ア
プリケーションプログラムが要求する各種情報をユーザ
から対話形式で収集するようにした音声対話システムで
ある。

【００１５】そして本発明をまず特徴づけるのは、対話
処理部１３により参照されるグローバル遷移条件テーブ
ル１５（図１の８に相当）をさらに設けることである。
このグローバル遷移条件テーブル１５には、上記の発話
状態において、いかなる対話状態のもとでも共通に使用
される複数のグローバル遷移条件を予め格納する。ここ
に対話処理部１３は、上記の発話状態における発声の内
容がそのグローバル遷移条件に該当するとき、グローバ
ル遷移条件テーブル１５にアクセスして上記の対話内容
を生成する。

【００１６】グローバル遷移条件テーブル１５の具体的
な内容を説明する前に、図２の構成要素についてさらに
詳しく述べておく。マイクからなる音声入力部１１から
の音声入力は、音声認識部１２（図１８の２）を構成す
る連続単語認識エンジン１７にて各単語に切り出され
て、かつ、テキストに変換される。このテキストは、同
じく音声認識部１２を構成する発話適応ユニット１８に
入力される。該ユニット１８は、発話モデルデータ（図
１８の５）を参照して、その入力されたテキスト（単
語）の意味を理解して、その認識結果を対話処理部１３
（図１８の３に相当）に送る。例えばナビゲーション装
置において、認識されたテキスト（音声）が「行きた
い」ならば、認識結果は「目的地」ということになる。

【００１７】上記認識結果を得た対話処理部１３は、対
話データベース１４内の対話スクリプトデータ（図１８
の６）をもとに、当該対話の流れを決定して組み立て
る。例えば上記の「目的地」に対しては、「遊園地？」
→「△△県？」→「○○ランド？」という流れを決定す
る。いずれもユーザとの対話形式で進行するので、音声
出力部１６を構成する音声合成部１９（図１８の４）で
次の対話が音声合成され、スピーカよりユーザに返され
る。

【００１８】一連の対話の流れで得た結果、例えば「目
的地・遊園地・△△県・○○ランド」は、対話結果とし
て、ナビゲーション装置を動かすアプリケーションプロ
グラムに与えられる。次にグローバル遷移条件テーブル
１５について説明する。グローバル遷移条件テーブル１
５は、予め定めた複数のグローバル遷移条件のそれぞれ
に対応した個別の対話内容を格納する複数のグローバル
遷移ファイルのいずれかを特定する。

【００１９】複数のグローバル遷移条件のいくつかを例
示すると次のとおりである。ｉ）認識せず ii）認識エラー iii ）戻る（戻りたい） iv）中止（取り消す）ｖ）分からない vi）間違い上記のｉ）〜ii）は、音声認識部１２が自ら発するグロ
ーバル遷移条件であり、iii ）〜vi）はユーザ側から発
せられるグローバル遷移条件である。これらのいずれの
ケースも、あらゆる対話パターンの中に共通に起こり得
る事象である。このために、「グローバル」と名付けて
いる。

【００２０】従来は、上記グローバル遷移条件を、全て
の対話パターンに持たせていたため、対話データベース
１５のデータサイズはきわめて膨大なものとなってしま
った。図３はグローバル遷移ファイルを図解的に示す図
である。本図のグローバル遷移ファイルＧ−１，Ｇ−２
〜Ｇ−６は、上記のグローバル遷移条件ｉ），ii）〜v
i）にそれぞれ対応している。ただし、Ｇ−３〜Ｇ−５
は図示を省略する。

【００２１】なお、これらのファイルＧ１〜Ｇ−６は、
図２の対話データベース１４の中にさらに追加して形成
してもよいし、あるいは、ファイルＧ−１〜Ｇ−６とし
て独立に存在させてもよい。いずれにしても、グローバ
ル遷移条件テーブル１５を介して対話処理部１３がその
ファイルの内容を読み込む。図４はグローバル遷移条件
テーブル１５の内容を図解的に示す図である。

【００２２】音声認識部１２による認識結果が「認識せ
ず」であれば、ファイルＧ−１へアクセスすべきことを
指定する。「認識せず」とは、ユーザが発話状態にあり
ながら何も発声しないことを意味する。また音声認識部
１２による認識結果が「認識エラー」であれば、ファイ
ルＧ−２へアクセスすべきことを指定する。「認識エラ
ー」とは、ユーザが発声はしているものの、周囲の騒音
が大きいか、声が大き過ぎるか、または声が小さ過ぎる
ために、音声認識部１２が正しく認識できないことを意
味する。

【００２３】またユーザから「戻る」と発声されたとき
はファイルＧ−３に飛び、以前の対話状態に戻すための
対話シーケンスに入る。ユーザから「中止」と発声され
たときは、ファイルＧ−４に飛び、対話を終結させる対
話シーケンスに入る。図５はグローバル遷移ファイルの
データ構造の一例を図解的に示す図である。ただし、フ
ァイルＧ−１とＧ−２のみについて示す。

【００２４】本図に示すように、ファイルＧ−１には対
話スクリプトデータの対話シーケンスの「Ｓ−５」を選
択し、かつ、その対話シーケンス「Ｓ−５」の中のノー
ドＩＤの「２」を選択すべきことを指示する情報が書い
てある。ファイルＧ−２についても上記と同様であり、
対話ＩＤ「Ｓ−２１」とその中のノードＩＤ「４」が書
かれている。

【００２５】すなわち、グローバル遷移ファイルＧ−
１，Ｇ−２…は、遷移先対話ＩＤを特定する対話ＩＤ情
報と、特定された該遷移先対話ＩＤにより展開される一
連の対話シーケンス内の遷移先ノードＩＤを特定するノ
ードＩＤ情報とを格納する。図６は対話シーケンスにつ
いて一例を表す図である。例えば対話シーケンスＳ−１
は、通常の基本対話モードのシーケンスであり、そのノ
ード１では例えば「行きたい」というユーザからの発声
により、目的地の設定が行われる。

【００２６】ノード２では、「行き先をはなして下さ
い」との問いかけをユーザに対して行う。ノード３で
は、ユーザは「兵庫県」と発声する。ノード４では、
「市町村名をはなして下さい」との問いかけをユーザに
対して行う。

【００２７】以下、さらに対話は続く。本来このような
一連の対話の流れを進めるべきところ、仮に、上記ノー
ド２において、音声認識部１２からの認識結果が「認識
せず」であったとすると、対話処理部１３は、グローバ
ル遷移条件テーブル１５をアクセスする。そこには、図
５に示すように対話番号Ｇ−１の「認識せず」に対応す
る対話シーケンスを開始し、所定のガイダンスに沿っ
て、ユーザから再指示を引き出す。その後グローバル遷
移ファイルＧ−１に書かれた遷移先対話ＩＤ「Ｓ−５」
と遷移先ノードＩＤ「２」従い、図６の二重丸の「２」
へ遷移する。

【００２８】図７は図５のデータ構造の変形例を図解的
に示す図である。対話番号Ｇ−３では、直前の対話ＩＤ
（移動して来る前の対話ＩＤ）における直前のu（移動
して来る前の対話処理部１３からの発声ノード）へ遷移
する。対話番号Ｇ−４では、直前の対話ＩＤ（移動して
来る前の対話ＩＤ）における直前のｕ（移動して来る前
のユーザの発声ノード）へ遷移する。

【００２９】すなわち、図７の変形例に基づけば、既述
の対話ＩＤ情報および既述のノードＩＤ情報が、それぞ
れ、各種の遷移先を機能表現（ＰＲＥＶ−ｐｒｅｖｉｏ
ｕｓ）したコードによって記述される。このように機能
表現することにより、１つ１つのケースにおいて具体的
に対話シーケンスのＩＤを特定する必要がなりなり、フ
ァイル（Ｇ−１〜Ｇ−６）のデータサイズは一層小さく
できる。

【００３０】次に図１のアシスト機構７におけるアシス
ト対話モード生成手段９について説明する。このアシス
ト対話モード生成手段９を機能させた対話処理部１３
は、基本対話モードの他にアシスト対話モードでも動作
することができる。ここに基本対話モードは、アプリケ
ーションプログラム（図２の上方参照）が要求する各種
情報を収集する通常の一連の対話の流れを形成するモー
ドであり、アシスト対話モードは、その一連の対話の流
れを維持できない異常時に形成されるモードである。

【００３１】図８はアシスト対話モード生成手段９によ
る第１の動作態様を表すフローチャートである。この第
１の動作態様において、対話処理部１３は、音声認識部
１２より「認識せず」を示す認識結果が連続して与えら
れたとき、アシスト対話モードに移行して動作する。

【００３２】図８を参照すると、ステップＳ１１：対話処理部１３が音声認識部１２より
受け取った、「認識せず」という認識結果が１回目のも
のか否か判断する。ステップＳ１２：その判断結果がＮｏであると、すなわ
ち「認識せず」という認識結果を２回またはそれ以上、
連続して受け取ると、対話処理部１３は、この第１の動
作態様のもとでのアシスト対話モードに移行する。

【００３３】ステップＳ１３：上記判断結果がＹｅｓの
とき、すなわち初めて「認識せず」という認識結果を受
け取ったときは、前の対話ＩＤならびにノードＩＤに戻
る。上記アシスト対話モードについて具体的に説明す
る。今仮に基本対話モードでの問いかけが「都道府県名
をおはなし下さい」であったものとして、これに対する
ユーザからの応答について、音声認識部１２による認識
結果が連続して「認識せず」であったとすると、今度
は、アシスト対話モードに移行する。このアシスト対話
モードでは、上記の問いかけの言い方を別の言い方に変
える。例えば上記の例に対しては、「大阪府や兵庫県の
ようにおはなし下さい」というような別の言い方に変え
る。

【００３４】これによりユーザは引き続いて発声するこ
とができ快適な対話がスムーズに流れる。図９はアシス
ト対話モード生成手段９による第２の動作態様を表すフ
ローチャートである。この第２の動作態様において、対
話処理部１３は、音声認識部１２より「認識エラーあ
り」を示す認識結果が連続して与えられたとき、音声入
力を中止するための中止対話モードで動作する。

【００３５】図９を参照すると、ステップＳ２１：対話処理部１３が音声認識部１２より
受け取った、「認識エラー」という認識結果が１回目の
ものか否か判断する。ステップＳ２２：その判断結果がＮｏであると、すなわ
ち「認識エラー」という認識結果を２回またはそれ以
上、連続して受け取ると、対話処理部１３は、この第２
の動作態様のもとでの中止対話モードに移行する。

【００３６】ステップＳ２３：上記判断結果がＹｅｓの
とき、すなわち初めて「認識エラー」という認識結果を
受け取ったときは、前の対話ＩＤならびにノードＩＤに
戻る。上記中止対話モードについて具体的に説明する。
基本対話モードでの問いかけに対して「認識エラー」が
連続したときは、中止対話モードとしていろいろな中止
対話でユーザを援助することができる。その二、三の例
は以下のとおりである。

【００３７】「あなたの音声は聞き取りにくいので音声
入力を中止します（または中止しますか？）」「あなたの音声を正しく認識できない状態にあります」「もう少し大きくはっきりとはなして下さい」等である。

【００３８】これによりユーザは対話がスムーズに流れ
ない理由を知ることができ、従来の不快な待ち時間から
解放される。図１０はアシスト対話モード生成手段９に
よる第３および第４の動作態様を表すフローチャートで
ある。第３の動作態様において、対話処理部１３は、音
声認識部１２より予め定めた一定時間を経過しても、認
識結果が与えられないとき、タイムアウト処理を実行す
る。

【００３９】この場合、その一定時間でのモードが基本
対話モードであるときは、上記のタイムアウト処理の実
行によりアシスト対話モードを形成する。また第４の動
作態様は、前記の一定時間でのモードがアシスト対話モ
ードである場合に現れる。このときは上記のタイムアウ
ト処理の実行により当該対話を一時停止するための一時
停止対話に移行する。

【００４０】図１０を参照すると、ステップＳ３１：対話処理部１３は、音声認識部１２か
ら認識結果を受信したか否か判断する。受信していれば
（Ｙｅｓ）、次の対話へ移行する（ＥＮＤ）。ステップＳ３２：対話処理部１３は、上記の受信がなけ
れば（Ｎｏ）、上記のタイムアウト処理を実行し、上記
の一定時間が経過したか否か判断する。経過していなけ
れば（Ｎｏ）、上記ステップＳ３１とＳ３２を繰り返
す。

【００４１】ステップＳ３３：対話処理部１３は、上記
の一定時間が経過いていれば（Ｙｅｓ）、その一定時間
での（現在の）モードが基本対話モードか否か判断す
る。ステップＳ３４：上記の判断結果が、基本対話モードで
あることを示していれば（Ｙｅｓ）、上記アシスト対話
モードへ移行する。ステップＳ３５：上記の判断結果が、基本対話モードで
ないことを示していれば（Ｎｏ）、上記の一時停止対話
に移行する。

【００４２】かくして、上記ステップＳ３４に入れば、
ユーザを手助けする対話へユーザを案内することができ
る。また上記ステップＳ３５に入れば、対話処理部１３
は、例えば「ここで対話を一時停止します」というメッ
セージをユーザに返し、ユーザは自分の置かれている状
況を確認することができる。図１１はアシスト対話モー
ド生成手段９による第５および第６の動作態様を表すフ
ローチャートである。

【００４３】この第５の動作態様においては、上記第４
の動作態様での対話を一時停止するための一時停止対話
のもとで、ユーザが対話再開スイッチ（図１のＳＷ）を
オンとした後にタイムアウト処理が実行されるとき、こ
のタイムアウト処理の実行により、音声入力を中止する
ための中心対話に移行する。また第６の動作態様では、
対話処理部１３が、アシスト対話モードで動作中に再び
前述の一定時間が経過したとき、そのアシスト対話モー
ドとは異なる、一層詳細な対話内容を有する別のアシス
ト対話モードに移行する。

【００４４】図１１を参照すると、ステップＳ４１：対話処理部１３は、音声認識部１２か
ら認識結果を受信したか否か判断する。受信していれば
（Ｙｅｓ）、次の対話へ移行する（ＥＮＤ）。ステップＳ４２：対話処理部１３は、上記の受信がなけ
れば（Ｎｏ）、上記のタイムアウト処理を実行し、上記
の一定時間が経過したか否か判断する。経過していなけ
れば（Ｎｏ）、上記ステップＳ４１とＳ４２を繰り返
す。

【００４５】ステップＳ４３：対話処理部１３は、上記
の一定時間が経過していれば（Ｙｅｓ）、その一定時間
でのモード（現在のモード）が一時停止対話か否か判断
する。ステップＳ４４：上記の判断結果が、一時停止対話であ
ることを示していれば（Ｙｅｓ）、上記の中止対話へ移
行する。

【００４６】ステップＳ４５：上記の判断結果が、一時
停止対話でないことを示していれば（Ｎｏ）、対話処理
部１３は、現在の対話状態がアシスト対話モードか否か
判断する。Ｎｏであれば、図１０のａ）へ進む。ステップＳ４６：上記の判断の結果がＹｅｓであれば、
上述した異なる、一層詳細な対話内容を有する別のアシ
スト対話モードへ移行する。

【００４７】これによりユーザはさらに表現を変えたメ
ッセージを受け取ることができる。図１２はアシスト対
話モード生成手段９による第７および第８の動作態様を
表すフローチャートである。第７の動作態様では、対話
処理部１３が、ユーザの発話状態中に音声認識部１２よ
り特定の音声入力を示す認識結果が与えられたとき、ア
シスト対話モードに移行する。

【００４８】また第８の動作態様においては、対話処理
部１３が、ユーザの発話状態中に特定のスイッチ（図１
のＳＷ２）がオンになったことを検出したとき、アシス
ト対話モードに移行する。図１２を参照すると、ステップＳ５１：対話処理部１３は、ユーザから音声入
力を受け付ける対話状態であるか否か判断する。その判
断結果がＮｏならば処理を終了する（ＥＮＤ）。

【００４９】ステップＳ５２：上記の判断結果がＹｅｓ
ならば、音声認識部１２より、アシスト対話モードへ移
行することを示す音声入力の認識結果を受信したか否か
判断する。ステップＳ５３：上記の判断の結果がＹｅｓならば、ア
シスト対話モードに移行する。

【００５０】ステップＳ５４：上記の判断の結果がＮｏ
ならば、ユーザにより、上記特定のスイッチＳＷ２がオ
ンとされたか判断する。この判断結果がＮｏならば処理
を終了するが（ＥＮＤ）、Ｙｅｓならばアシスト対話モ
ードに移行する。かくしてユーザはより一層内容の深い
アシストメッセージを音声出力部１６から得ることがで
きる。

【００５１】なお上記特定のスイッチＳＷ２は、メカニ
カルなスイッチでも良いしタッチパネル形のスイッチで
も良く、あるいはＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅ
ｒＩｎｔｅｒｆａｃｅ）でも良い。ユーザが発声により
指示することが逆に面倒ならば、このようなスイッチ操
作によることもできる。図１３はアシスト対話モード生
成手段９による第９の動作態様を表すフローチャートで
あり、図１４は第９の動作態様を図解的に表す図であ
る。

【００５２】この第９の動作態様のもとでは、対話処理
部１３は、前述した基本対話モードおよびアシスト対話
モードのそれぞれの使用履歴を例えばメモリ（図示せ
ず）に保存し、そのアシスト対話モードの使用頻度が基
本対話モードの使用頻度を超えたとき、アシスト対話モ
ードと基本対話モードとを入れ替えるように動作する。
まず図１４の方を参照すると、ある基本対話が、対話ノ
ード１→２→４のように進むように対話スクリプトデー
タに書き込まれていたものとする。そしてそれに対応す
るアシスト対話が、対話ノード１→３→５のように進む
ように同様に書き込まれていたものとする。

【００５３】ここで、各対話ノードの使用履歴をとった
ところ、対話ノード１→３→５の使用頻度が、対話ノー
ド１→２→４の使用頻度よりも多いことが判明したもの
とする。そうすると対話処理部１３は、上記の事実に基
づき、対話ノード１へ来たとき、初めから対話ノード３
→５へと遷移するシーケンスを設定するようにする。

【００５４】このようにすればユーザの好みにより近い
対話シーケンスを、ユーザに最初から提供することがで
き、快適性は向上する。次に図１３を参照すると、ステップS ６１：ユーザが通過した図１４の対話ノード
の回数に関し、ノード３の回数がノード２の回数より大
きいか否か判断する。

【００５５】ステップＳ６２：上記の判断の結果がＹｅ
ｓならば、対話ノード２と３の入替えを行う。ステップＳ６３：上記の判断の結果がＮｏならば、現状
のままとする。図１５はアシスト対話モード生成手段９
による第１０の動作態様を説明するための図（その１）
であり、図１６は同図（その２）であり、図１７は同図
（その３）である。

【００５６】この第１０の動作態様のもとでは、前述の
基本対話モードおよびアシスト対話モードが、それぞ
れ、階層構造をなす一連の複数対話ノードで構成される
とき、基本対話モードおよびアシスト対話モードの少な
くとも一方のモードについて、各対話ノードの使用履歴
を例えばメモリ（図示せず）に保存し、各対話ノードの
使用頻度が高い階層のノードから低い階層のノードへ順
次階層の入替えを行う。

【００５７】まず図１５を参照すると、本図の例では、
対話ノード２に遷移してくる対話の流れを示しており、
該ノード１→２→８は基本対話モードに属し該ノード３
→４→５→７はアシスト対話モードに属するものとす
る。ここでその対話ノード２に推移してくる各対話ノー
ドの使用履歴が、例えば図１６に示すような結果になっ
たものとする。そうすると、最終的に対話ノード５を通
過する回数は４回、同様に、対話ノード４は３回、対話
ノード３は２回ということになり、対話ノードは使用頻
度の高い順から５→４→３となる。

【００５８】そこで上記の結果を踏まえて、対話ノード
の並べ替えをすると、図１７に示すごとくなる。このよ
うにすると当該ユーザにとって最も自然な対話の流れに
自動的に移っていくことになり、快適性は向上する。

【００５９】

【発明の効果】以上説明したように本発明によれば、第
１に、対話データベース５に収容される対話スクリプト
データのデータサイズを従来よりも大幅に縮少すること
ができる。また第２に、ユーザにとって従来よりも一層
快適な対話環境を提供することができる。

【図面の簡単な説明】

【図１】本発明の概念を表す図である。

【図２】本発明に係る音声対話システムの全体構成例を
示す図である。

【図３】グローバル遷移ファイルを図解的に示す図であ
る。

【図４】グローバル遷移条件テーブル１５の内容を図解
的に示す図である。

【図５】グローバル遷移ファイルのデータ構造の一例を
図解的に示す図である。

【図６】対話シーケンスについて一例を表す図である。

【図７】図５のデータ構造の変形例を図解的に示す図で
ある。

【図８】アシスト対話モード生成手段９による第１の動
作態様を表すフローチャートである。

【図９】アシスト対話モード生成手段９による第２の動
作態様を表すフローチャートである。

【図１０】アシスト対話モード生成手段９による第３お
よび第４の動作態様を表すフローチャートである。

【図１１】アシスト対話モード生成手段９による第５お
よび第６の動作態様を表すフローチャートである。

【図１２】アシスト対話モード生成手段９による第７お
よび第８の動作態様を表すフローチャートである。

【図１３】アシスト対話モード生成手段９による第９の
動作態様を表すフローチャートである。

【図１４】第９の動作態様を図解的に表す図である。

【図１５】アシスト対話モード生成手段９による第１０
の動作態様を説明するための図（その１）である。

【図１６】アシスト対話モード生成手段９による第１０
の動作態様を説明するための図（その２）である。

【図１７】アシスト対話モード生成手段９による第１０
の動作態様を説明するための図（その３）である。

【図１８】一般的な音声対話システムの原型を示す図で
ある。

【符号の説明】

７…アシスト機能８…グローバル遷移条件テーブル９…アシスト対話モード生成手段１１…音声入力部１２…音声認識部１３…対話処理部１４…対話データベース１５…グローバル遷移条件テーブル１６…音声出力部１７…連続単語認識エンジン１８…発話適応ユニット１９…音声合成部ＳＷ１…対話再開スイッチＳＷ２…特定のスイッチ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/28 Ｇ１０Ｌ 3/00 ５５１Ｑ // Ｇ０１Ｃ 21/00 Ｆターム(参考） 2F029 AA02 AB13 AC18 5D015 KK02 KK04 5D045 AB21 AB30 5E501 AA20 AA22 AA23 AC03 BA05 BA12 CA08 CB15 DA11 EA21

Claims

【特許請求の範囲】

【請求項１】発話状態においてユーザから発声された
音声を入力する音声入力部と、前記音声入力部からの前記音声を認識してその意味を解
析する音声認識部と、前記音声認識部による認識結果に基づいて、予め対話デ
ータベース内に収容された対話スクリプトデータを参照
しつつ、ユーザに返すべき対話内容を生成する対話処理
部と、前記対話内容に基づいて前記ユーザに対して合成音声を
返す音声出力部と、を備え、前記ユーザによる発声の都
度、前記対話スクリプトデータにより規定される一連の
対話状態を次々に遷移させて、アプリケーションプログ
ラムが要求する各種情報を前記ユーザから対話形式で収
集する音声対話システムにおいて、前記対話処理部により参照されるグローバル遷移条件テ
ーブルをさらに設けてなり、該グローバル遷移条件テー
ブルには、前記発話状態において、いかなる前記対話状
態のもとでも共通に使用される複数のグローバル遷移条
件を予め格納し、前記対話処理部は、前記発話状態における前記の発声の
内容が該グローバル遷移条件に該当するとき、前記グロ
ーバル遷移条件テーブルにアクセスして前記対話内容を
生成することを特徴とする音声対話システム。
【請求項２】前記グローバル遷移条件テーブルは、予
め定めた複数のグローバル遷移条件のそれぞれに対応し
た個別の対話内容を格納する複数のグローバル遷移ファ
イルを特定することを特徴とする請求項１に記載の音声
対話システム。
【請求項３】前記複数のグローバル遷移ファイルの各
々は、遷移先対話ＩＤを特定する対話ＩＤ情報と、特定
された該遷移先対話ＩＤにより展開される一連の対話シ
ーケンス内の遷移先ノードＩＤを特定するノードＩＤ情
報とを格納することを特徴とする請求項１または２に記
載の音声対話システム。
【請求項４】前記対話ＩＤ情報および前記ノードＩＤ
情報が、それぞれ、各種の遷移先を機能表現したコード
によって記述されることを特徴とする請求項３に記載の
音声対話システム。
【請求項５】発話状態においてユーザから発声された
音声を入力する音声入力部と、前記音声入力部からの前記音声を認識してその意味を解
析する音声認識部と、前記音声認識部による認識結果に基づいて、予め対話デ
ータベース内に収容された対話スクリプトデータを参照
しつつ、ユーザに返すべき対話内容を生成する対話処理
部と、前記対話内容に基づいて前記ユーザに対して合成音声を
返す音声出力部と、を備え、前記ユーザによる発声の都
度、前記対話スクリプトデータにより規定される一連の
対話状態を次々に遷移させて、アプリケーションプログ
ラムが要求する各種情報を前記ユーザから対話形式で収
集する音声対話システムにおいて、前記対話処理部は、基本対話モードの他にアシスト対話
モードでも動作し、ここに前記基本対話モードは、前記アプリケーションプ
ログラムが要求する各種情報を収集する通常の一連の対
話の流れを形成するモードであり、前記アシスト対話モ
ードは、前記一連の対話の流れを維持できない異常時に
形成されるモードであることを特徴とする音声対話シス
テム。
【請求項６】前記対話処理部は、前記音声認識部より
「認識せず」を示す認識結果が連続して与えられたと
き、前記アシスト対話モードに移行して動作することを
特徴とする請求項５に記載の音声対話システム。
【請求項７】前記対話処理部は、前記音声認識部より
「認識エラーあり」を示す認識結果が連続して与えられ
たとき、音声入力を中止するための中止対話モードで動
作することを特徴とする請求項５に記載の音声対話シス
テム。
【請求項８】前記対話処理部は、前記音声認識部より
予め定めた一定時間を経過しても、前記認識結果が与え
られないとき、タイムアウト処理を実行し、前記一定時間でのモードが前記基本対話モードであると
きは、前記タイムアウト処理の実行により前記アシスト
対話モードを形成することを特徴とする請求項５に記載
の音声対話システム。
【請求項９】前記対話処理部は、前記音声認識部より
予め定めた一定時間を経過しても、前記認識結果が与え
られないとき、タイムアウト処理を実行し、前記一定時間でのモードが前記アシスト対話モードであ
るときは、前記タイムアウト処理の実行により当該対話
を一時停止するための一時停止対話に移行することを特
徴とする請求項５に記載の音声対話システム。
【請求項１０】前記の対話を一時停止するための一時
停止対話のもとで、対話再開スイッチをオンとした後に
前記タイムアウト処理が実行されるとき、該タイムアウ
ト処理の実行により、音声入力を中止するための中止対
話に移行することを特徴とする請求項９に記載の音声対
話システム。
【請求項１１】前記対話処理部が、前記アシスト対話
モードで動作中に再び前記一定時間が経過したとき、そ
のアシスト対話モードとは異なる対話内容を有する別の
アシスト対話モードに移行することを特徴とする音声対
話システム。
【請求項１２】前記対話処理部が、前記アシスト対話
モードでユーザの発話状態中に前記音声認識部より特定
の音声入力を示す認識結果が与えられたとき、アシスト
対話モードに移行することを特徴とする請求項５に記載
の音声対話システム。
【請求項１３】前記対話処理部が、ユーザの発話状態
中に特定のスイッチがオンになったことを検出したと
き、アシスト対話モードに移行することを特徴とする請
求項５に記載の音声対話システム。
【請求項１４】前記基本対話モードおよび前記アシス
ト対話モードのそれぞれの使用履歴を保存し、該アシス
ト対話モードの使用頻度が該基本対話モードの使用頻度
を超えたとき、該アシスト対話モードと該基本対話モー
ドとを入れ替えることを特徴とする請求項５に記載の音
声対話システム。
【請求項１５】前記基本対話モードおよび前記アシス
ト対話モードが、それぞれ、階層構造をなす一連の複数
対話ノードで構成されるとき、前記基本対話モードおよび前記アシスト対話モードの少
なくとも一方のモードについて、各前記対話ノードの使
用履歴を保存し、各該対話ノードの使用頻度が高い階層
のノードから低い階層のノードへ順次階層の入替えを行
うことを特徴とする請求項５に記載の音声対話システ
ム。