JP3844874B2

JP3844874B2 - マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法

Info

Publication number: JP3844874B2
Application number: JP04836498A
Authority: JP
Inventors: 哲朗知野; 克己田中
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1998-02-27
Filing date: 1998-02-27
Publication date: 2006-11-15
Anticipated expiration: 2018-02-27
Also published as: JPH11249773A

Description

【０００１】
【発明の属する技術分野】
本発明は、利用者と対話するマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法に関する。
【０００２】
【従来の技術】
近年、パーソナルコンピュータをはじめとする各種計算機システムにおいては、従来のキーボードやマウスなどによる入力と、ディスプレイなどによる文字や画像情報の出力に加えて、音声情報や画像情報などのマルチメディア情報を入出力することが可能になって来ている。
【０００３】
こういった状況に加え、自然言語解析や自然言語生成、あるいは音声認識や音声合成技術あるいは対話処理技術の進歩などによって、利用者と音声入出力を用いて対話する音声対話システムへの要求が高まっており、自由発話による音声入力を利用可能な対話システムである“ＴＯＳＢＵＲＧ−ＩＩ”（電気情報通信学会論文誌、Ｖｏｌ．Ｊ７７−Ｄ−ＩＩ、Ｎｏ．８，ｐｐ１４１７−１４２８，１９９４）など、様々な音声対話システムの開発がなされている。
【０００４】
また、さらに、こう言った音声入出力に加え、例えばカメラを使った視覚情報入力を利用したり、あるいは、タッチパネル、ペン、タブレット、データグローブ、フットスイッチ、対人センサ、ヘッドマウンドディスプレイ、フォースディスプレイ（提力装置）など、様々な入出力デバイスを通じて利用者と授受できる情報を利用して、利用者とインタラクションを行なうマルチモーダル対話システムへの要求が高まっている。
【０００５】
このマルチモーダルインタフェースは、人間同士の対話においても、例えば音声など一つのメディア（チャネル）のみを用いてコミュニケーションを行なっている訳ではなく、身振りや手ぶりあるいは表情といった様々なメディアを通じて授受される非言語メッセージを駆使して対話することによって、自然で円滑なインタラクションを行っている（“ＩｎｔｅｌｌｉｇｅｎｔＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅｓ”，ＭａｙｂｕｒｙＭ．Ｔ，Ｅｄｓ．，ＴｈｅＡＡＡＩＰｒｅｓｓ／ＴｈｅＭＩＴＰｒｅｓｓ，１９９３）ことから考えても、自然で使いやすいヒューマンインタフェースを実現するための一つの有力な方法として期待が高まっている。
【０００６】
従来、たとえば利用者から音声入力がなされた場合には、入力された音声波形信号を例えばアナログ／デジタル変換し、単位時間当たりのパワー計算を行なうことなどによって、音声区間を検出し、例えばＦＦＴ（高速フーリエ変換）などの方法によって分析し、例えば、ＨＭＭ（隠れマルコフモデル）などの方法を用いて、あらかじめ用意した標準パターンである音声認識辞書と照合処理を行なうことなどによって、発声内容を推定し、その結果に応じた処理を行なう。
【０００７】
あるいは、例えばタッチセンサなどの接触式の入力装置を通じて、利用者からの指し示しジェスチャの入力がなされた場合には、タッチセンサの出力情報である、座標情報、あるいはその時系列情報、あるいは入力圧力情報、あるいは入力時間間隔などを用いて、指し示し先を同定する処理を行なう。
【０００８】
あるいは、例えば、“ＵｎｃａｌｉｂｒａｔｅｄＳｔｅｒｅｏＶｉｓｉｏｎｗｉｔｈＰｏｉｎｔｉｎｇｆｏｒａＭａｎ−ＭａｃｈｉｎｅＩｎｔｅｒｆａｃｅ”（Ｒ．Ｃｉｐｏｌｌａ，ｅｔ．ａｌ．，ＰｒｏｃｅｅｄｉｎｇｓｏｆＭＶＡ’９４，ＩＡＰＲＷｏｒｋｓｈｏｐｏｎＭａｃｈｉｎｅＶｉｓｉｏｎＡｐｐｌｉｃａｔｉｏｎ，ｐｐ．１６３−１６６，１９９４．）などに示された方法を用いて、単数あるいは複数のカメラを用いて、利用者の手などを撮影し、観察された、形状、あるいは動作などを解析することによって、利用者の指し示した、実世界中の指示対象、あるいは表示画面上の指示対象などを入力することが出来るようにしている。
【０００９】
また、同様に、例えば赤外線などを用いた距離センサなどを用いて、利用者の手の、位置、形、あるいは動きなどを認識することで、利用者の指し示した、実世界中の指示対象、あるいは表示画面上の指示対象などへの指し示しジェスチャを入力することが出来るようにしている。
【００１０】
あるいは、利用者の手に、例えば磁気センサや加速度センサなどを装着することによって、手の空間的位置や、動き、あるいは形状を入力したり、仮想現実（ＶＲ＝ＶｉｒｔｕａｌＲｅａｌｉｔｙ）技術のために開発された、データグローブやデータスーツを利用者が装着することで、利用者の手や体の、動き、位置、あるいは形状を解析することなどによって、利用者の指し示した、実世界中の指示対象、あるいは表示画面上の指示対象などを入力することが出来るようにしている。
【００１１】
ところで、利用者からの入力に対応して利用者への適切な出力を行なったり、あるいは利用者からの入力と利用者への出力のタイミングを適切に制御したり、あるいは、利用者からの入力の認識に失敗したりあるいは利用者への情報の出力に失敗をした場合など、利用者との間のコミュニケーションに関する何らかの障害が発生した場合などには、その障害の発生を検知し、かつその障害を解決するための、例えば確認のための情報の再提示や、あるいは利用者への問い返し質問対話や、あるいは対話の論議の流れを適切に管理するための対話管理処理が必要となる。
【００１２】
従来、こういった対話管理処理には、あらかじめ用意した対話の流れであるスクリプトを利用した方法や、あるいは例えば質問／回答、挨拶／挨拶といった互いに対となる発話の組である発話対や発話交換構造といった情報を利用した方法や、あるいは、対話の流れ全体を対話の参加者の各個人の計画（プラン）あるいは参加者間の共同の計画（プラン）として形式化し記述、生成あるいは認識するプランニングによる方法などが用いられている。
【００１３】
【発明が解決しようとする課題】
しかし、従来、それぞれのメディアからの入力の解析精度の低さや、それぞれの入出力メディアの性質が明らかとなっていないため、新たに利用可能となった各入出力メディアあるいは、複数の入出力メディアを効率的に利用し、高能率で、効果的で、利用者の負担を軽減する、マルチモーダルインタフェースは実現されていないという問題がある。具体的には、次の通りである。
【００１４】
つまり、各メディアからの入力の解析精度が不十分であるため、たとえば、音声入力における周囲雑音などに起因する誤認識の発生や、あるいはジェスチャ入力の認識処理において、入力デバイスから刻々得られる信号のなかから、利用者が入力メッセージとして意図した信号部分の切りだしに失敗することなどによって、誤動作が起こり、利用者への負担となっているという問題がある。
【００１５】
また、音声入力やジェスチャ入力など、利用者が現在の操作対象である計算機などへの入力として用いるだけでなく、例えば周囲の他の人間へ話しかけたりする場合にも利用されるメディアを用いたインタフェース装置では、利用者が、インタフェース装置ではなく、たとえば自分の横にいる他人に対して話しかけたり、ジェスチャを示したりした場合にも、インタフェース装置が自分への入力であると誤って判断をして、認識処理などを行なって、誤動作を起こり、その誤動作の取消や、誤動作の影響の復旧や、誤動作を避けるために利用者が絶えず注意を払わなくてはいけなくなるなどの負荷を含め、利用者への負担となっているという問題がある。
【００１６】
また、本来不要な場面においても、入力信号の処理が継続的にして行われるため、その処理負荷によって、利用している装置に関与する他のサービスの実行速度や利用効率が低下するという問題がある。
【００１７】
また、この問題を解決するために、音声やジェスチャなどの入力を行なう際に、たとえば、ボタンを押したり、メニュー選択などによって、特別な操作によってモードを変更するなどという方法が用いられているが、このような特別な操作は、人間同士の会話では不要な操作であるために不自然なインタフェースとなるだけでなく、利用者にとって繁雑であったり、操作の種類によっては、習得のための訓練が必要となったりすることによって、利用者の負担を増加するという問題がある。
【００１８】
また、例えば、音声入力の可否をボタン操作によって切替える場合などでは、音声メディアによる入力は、本来、口だけを使ってコミュニケーションが出来るため、例えば手で行っている作業を妨害することがなく、双方を同時に利用することが可能であると言う、音声メディア本来の利点を活かすことが出来ないという問題がある。
【００１９】
また、従来、指し示しジェスチャの入力に於いて、例えばタッチセンサを用いて実現されたインタフェース方法では、離れた位置からや、機器に接触せずに、指し示しジェスチャを行なうことが出来ないという問題がある。
【００２０】
さらに、例えばデータグローブや、磁気センサや、加速度センサなどを利用者が装着することで実現されたインタフェース方法では、機器を装着しなければ利用できないという問題点がある。
【００２１】
一方、カメラなどを用いて、利用者の手などの形状、位置、あるいは動きを検出することで実現されているインタフェース方法では、十分な精度が得られないために、利用者が入力を意図したジェスチャだけを、適切に抽出することが困難であり、結果として、利用者がジェスチャとしての入力を意図していない手の動きや、形やなどを、誤ってジェスチャ入力であると誤認識してしまったり、あるいは利用者が入力を意図したジェスチャを、ジェスチャ入力であると正しく抽出することが出来ない場合が多発し、結果として、例えば誤認識のために引き起こされる誤動作の影響の訂正が必要になったり、あるいは利用者が入力を意図して行なったジェスチャ入力が実際にはシステムに正しく入力されず、利用者が再度入力を行なう必要が生じ、利用者の負担を増加させてしまうという問題がある。
【００２２】
また、従来のマルチモーダルインタフェースでは、人間同士のコミュニケーションにおいては重要な役割を演じていると言われる、視線一致（アイコンタクト）、注視位置、身振り、手振りなどのジェスチャ、顔表情など非言語メッセージを、効果的に利用することが出来ないという問題がある。
【００２３】
また、利用者からの入力に対応して利用者への適切な出力を行なったり、あるいは利用者からの入力と利用者への出力のタイミングを適切に制御するためには、利用者の発話が開始されるタイミングや、あるいは利用者の発話が終了するタイミングなどを、事前に予測する必要があるが、スクリプトを利用した方法や、あるいは発話対や発話交換構造といった情報を利用した方法や、プランニングによる方法などを用いた従来の対話管理処理だけではそれを行なうことが困難であるという問題がある。
【００２４】
また、利用者からの入力の認識に失敗したり、あるいは利用者への情報の出力に失敗をした場合など、利用者との間のコミュニケーションに関する何らかの障害が発生した場合などには、その障害の発生を検知する必要があるが、スクリプトを利用した方法や、あるいは発話対や発話交換構造といった情報を利用した方法や、プランニングによる方法などを用いた従来の対話管理処理だけではそれを行なうことが困難であるという問題がある。
【００２５】
また、検知した障害を解決するための、例えば確認のための情報の再提示や、あるいは利用者への問い返し質問対話や、あるいは対話の論議の流れを適切に管理するための対話管理処理が必要であるが、スクリプトを利用した方法や、あるいは発話対や発話交換構造といった情報を利用した方法や、プランニングによる方法などを用いた従来の対話管理処理だけではそれを行なうことが困難であるという問題がある。
【００２６】
本発明はこのような事情を考慮してなされたもので、非言語メッセージを用いて利用者との対話のためのインタフェース動作を制御できるようにすることにより、新たに利用可能となった各入出力メディアあるいは、複数の入出力メディアを効率的に利用し、高能率で、効果的で、利用者の負担を軽減することが出来るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することを目的とする。
【００２７】
また、本発明の具体的な目的の一つは、各メディアからの入力の解析精度が不十分さに起因する誤認識や、利用者が入力メッセージとして意図した信号部分の切りだしの失敗に起因する誤動作を起こさず、利用者への余分な負担を生じないマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することである。
【００２８】
また、他の具体的な目的は、音声入力やジェスチャ入力など、利用者が現在の操作対象である計算機などへの入力として用いるだけでなく、例えば周囲の他の人間へ話しかけたりする場合にも利用されるメディアを用いたインタフェース装置では、利用者が、インタフェース装置ではなく、たとえば自分の横にいる他人に対して話しかけたり、ジェスチャを示したりした場合に、インタフェース装置が自分への入力であると誤って判断することがないマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することである。
【００２９】
また、別の具体的な目的は、上述のような計算機への入力を利用者が意図していないメッセージを誤って自己への入力であると誤認識したことによる誤動作や、その影響の復旧や、誤動作を避けるために利用者が絶えず注意を払わなくてはいけなくなるなどの負荷を含めた利用者への負担を生じないマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することである。
【００３０】
また、さらにもう一つの具体的な目的は、本来不要な場面においても、入力信号の処理が継続的にして行われるため、その処理負荷によって、利用している装置に関与する他のサービスの実行速度や利用効率が低下してしまうことのないマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することである。
【００３１】
また、さらにもう一つの具体的な目的は、音声やジェスチャなどの入力を行なう際に、たとえば、ボタンを押したり、メニュー選択などといった特別な操作によるモード変更が必要なく、自然で、利用者にとって繁雑でなく、習得のための訓練が不要であり、利用者の負担を増加しないマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することである。
【００３２】
また、さらにもう一つの具体的な目的は、例えば、口だけを使ってコミュニケーションが出来、例えば手で行なっている作業を妨害することがなく、双方を同時に利用することが可能であると言う、音声メディア本来の利点を活かすことが出来るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することである。
【００３３】
また、さらにもう一つの具体的な目的は、離れた位置からや、機器に接触せずに、ジェスチャの入力を行なう際に、利用者が入力を意図したジェスチャだけを、適切に抽出できるマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することである。
【００３４】
また、さらにもう一つの具体的な目的は、人間同士のコミュニケーションにおいては重要な役割を演じていると言われる、視線一致（アイコンタクト）、注視位置、身振り、手振りなどのジェスチャ、顔表情など非言語メッセージを、効果的に利用することが出来るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することである。
【００３５】
また、さらにもう一つの具体的な目的は、利用者からの入力に対応して利用者への適切な出力を行なったり、あるいは利用者からの入力と利用者への出力のタイミングを適切に制御するために、利用者の発話が開始されるタイミングや、あるいは利用者の発話が終了するタイミングなどを、事前に予測することの出来るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することである。
【００３６】
また、さらにもう一つの具体的な目的は、利用者からの入力の認識に失敗したり、あるいは利用者への情報の出力に失敗をした場合など、利用者との間のコミュニケーションに関する何らかの障害が発生した場合などには、その障害の発生を適切に検知することの出来るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することである。
【００３７】
また、さらにもう一つの具体的な目的は、検知した障害を解決するための、例えば確認のための情報の再提示や、あるいは利用者への問い返し質問対話や、あるいは対話の論議の流れの適切な管理を行なうことの出来るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することである。
【００３８】
【課題を解決するための手段】
本発明のマルチモーダルインタフェース装置は、利用者の呼吸の状況を観察し利用者の呼吸の状態が定常状態での吸気または排気である定常呼吸であるか深呼吸または息継ぎによる非定常状態での吸気である非定常吸気であるかを示す呼吸状況情報を出力する呼吸状況認識手段と、利用者の発する音声の、取り込み、あるいは録音、あるいは加工、あるいは分析、あるいは認識の少なくとも一つの処理を行なう入力音声処理手段と、前記呼吸状況情報に基づいて前記利用者の非定常吸気が検出された場合、前記入力音声処理手段を制御して、利用者からの音声入力を非受け付け状態から受け付け状態に切り替える受け付け可否制御処理を実行する制御手段とを具備したことを特徴とする。
【００４２】
このように利用者から認識した呼吸状況情報に基づいて入力音声処理手段の動作を制御することにより、音声入力の解析精度が不十分さに起因する誤認識や、利用者が入力音声として意図した信号部分の切りだしの失敗に起因する誤動作を起こさず、利用者への余分な負担を生じないマルチモーダルインタフェース装置を提供すること等が可能となる。
【００５０】
【発明の実施の形態】
（ｉ）第１の実施形態
以下、図面を参照して、本発明の第１実施形態に係るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法について説明する。
【００５１】
図１は、本発明の第１実施形態に係るマルチモーダルインタフェース装置の構成例であり、１０１は呼吸検出部、１０２は音声入力部、１０３は制御部、１０４はアプリケーションである。このマルチモーダルインタフェース装置はコンピュータなどを用いて、音声情報による利用者との対話を支援するためのシステムである。
【００５２】
図１に於いて、１０１は呼吸検出部を表しており、例えば、「ビジュアルセンシングによる呼吸監視システムの関心領域（ＲＯＩ）の設定の自動化」（三宅他、第１７回医療情報学連合大会予稿、１−Ｃ−１−３、ｐｐ．１６８−１６９、１９９７）に示された方法などの様に、例えばカメラから得られる利用者の画像から、例えば利用者の胸部を観察し呼吸に付随する動作を検出することなどによって、利用者の呼吸の状態を検知し、呼吸状況情報として随時出力するようにしている。また、利用者の身体に装着あるいは近接して配置したセンサからの情報を処理することによって、利用者の呼吸の状況を観察することもできる。
【００５３】
図２は、呼吸検出部１０１が出力する呼吸状況情報の例を表している。
【００５４】
図２に於いて、ＩＤの欄は各呼吸状況情報の識別記号を表しており、時間情報Ａは対応する呼吸の状況が観察された時刻が記録されており、また状況情報Ｂには観察された呼吸の状況を表す記号が記録されるようにしている。
【００５５】
各呼吸状況情報の状況情報Ｂの欄に於いて、「定常呼吸（吸気）」および「定常呼吸（排気）」は、利用者が定常状態で、それぞれ吸気および排気を行なっていることが観察されたことを表している。
【００５６】
また、「非定常呼吸（吸気）」および「非定常呼吸（排気）」は、利用者が、例えば深呼吸や息継ぎなど非定常状態で、それぞれ吸気および排気を行なっていることが観察されたことを表している。
【００５７】
また、図１に於いて、１０２は音声入力部を表しており、例えばマイクなどによって利用者の発した音声信号を電気信号に変換するなどして本装置への入力信号として取り込んだり、あるいはさらに例えばＡ／Ｄ（アナログディジタル）変換を施すことによって本装置で処理可能な表現への変換を行なったり、あるいはさらに、例えばＦＦＴ（高速フーリエ変換）などを用いて分析処理や加工処理を行なったり、あるいはさらに例えば複合類似度法やＨＭＭ（隠れマルコフモデル）やＤＰ（ダイナミックプログラミング）やニューラルネットワークなどといった方法を用いてあらかじめ用意した標準パターンと入力信号との間での照合処理を行なうことなどによって認識処理を行なったりするようにしている。
【００５８】
本音声入力部１０２による利用者の発する音声の、取り込み、あるいは録音、あるいは加工、あるいは分析、あるいは認識といった動作は制御部１０３によって制御されるようになっており、また音声入力部１０２によって得られる音声入力の処理結果も制御部１０３の制御に従って、アプリケーション１０４へと渡されるようにしている。
【００５９】
図１に於いて、１０３は制御部である。
【００６０】
制御部１０３は、呼吸検出部１０１から逐次得られる呼吸状況情報を参照し、音声入力部１０２およびアプリケーション１０４の内少なくとも一方を適宜制御し、利用者からの音声入力信号の受け付け可否制御、音声区間の推定処理、雑音低減処理、音声信号変換処理などを制御する。
【００６１】
なお、本制御部１０３の動作が、本装置の効果の実現において本質的な役割を演ずるものであるためその詳細は後述することとする。
【００６２】
図１に於いて、１０４はアプリケーションであり、制御部１０３の制御に応じて音声入力部１０２の出力を受けとり、例えばデータベースシステムでは、入力された検索要求に対応する検索結果を出力したり、あるいは音声録音システムでは、入力された音声信号を適切に保存するなどといったサービスを行なうものであり、コンピュータのアプリケーションプログラムに相当する。
【００６３】
つづいて、制御部１０３について詳説する。
【００６４】
制御部１０３は以下の処理手順Ａに従って動作するようにしている。なお、図３は処理手順Ａの処理内容を説明するフローチャートである。
【００６５】
＜処理手順Ａ＞
Ａ１：音声入力部１０２を制御し、音声入力を「非受け付け状態」とする。
【００６６】
Ａ２：呼吸検出部１０１から得られる呼吸状況情報の内容を常時監視し、「非定常呼吸（吸気）」を検出した場合にはステップＡ３へ進み、そうでない場合はステップＡ２に留まる。
【００６７】
Ａ３：音声入力部１０２を制御し、音声入力を受け付け状態とする。
【００６８】
Ａ４：タイマＴの値を０とした上で、タイマＴを（再）スタートする。
【００６９】
Ａ５：タイマＴに関して、あらかじめ定めた時間ｔＡが経過していたら、ステップＡ１へ進み、そうでなければステップＡ６へ進む。
【００７０】
Ａ６：現時点において、利用者からの音声入力Ｉがなされていたら、ステップＡ８へ進み、そうでなければステップＡ７へ進む。
【００７１】
Ａ７：現時点に於いて、呼吸検出部１０１から得られる呼吸状況情報により、「非定常呼吸（吸気）」が検出されたら、ステップＡ４へ進み、そうでなければステップＡ５へ進む。
【００７２】
Ａ８：音声入力Ｉに対する音声入力部１０２の処理結果を、アプリケーション１０４へ渡し、ステップＡ４へ進む。
【００７３】
以上が本発明に係る第１実施形態の構成とその機能である。
【００７４】
ここで先ず上述した処理について、具体例を用いて詳しく説明する。
【００７５】
（１）まず、ステップＡ１の処理によって、本装置の音声入力が非受け付け状態になる。
【００７６】
（２）ここで、利用者の周囲で雑音が発生したとする。
【００７７】
（３）ここでは音声入力は非受け付け状態にあるので、この雑音に起因する音声認識の誤認識は発生しない。
【００７８】
（４）つづいて、利用者が本装置への音声入力を行なうために、発声のために大きく息を吸ったものとする。
【００７９】
（５）この行動が、呼吸検出部１０１によって検知され、図２のｐ１０４のエントリに示した通りの呼吸状況情報が出力される。
【００８０】
（６）さらに、ステップＡ２〜Ａ４の処理によって、音声入力が受け付け状態に変更され、タイマＴがスタートされる。
【００８１】
（７）ここで利用者が音声入力を行なったとする。
【００８２】
（８）ここまでの処理によって音声入力は受け付け状態であるため、利用者の音声入力が受け付けられ、ステップＡ８によって、その処理結果がアプリケーション１０４へと送られ、所望のサービスが利用者に提供される。
【００８３】
以上の処理によって、利用者は明示的あるいは恣意的な操作をすることなく自然に音声入力を行なうことが可能となり、また周囲雑音による誤動作の発生も解消することが出来ている。
【００８４】
（９）その後、ステップＡ４の処理によってタイマＴがリスタートされる。
【００８５】
（１０ａ）もしこの段階で利用者が行なうべき音声入力がない場合には、利用者は、黙っていることとなり、タイマＴがｔＡを経過した段階でステップＡ５の処理によって、ステップＡ１へ進み、音声入力が非受け付け状態に戻る。
【００８６】
（１０ｂ）あるいは、もしこの利用者が次に行なうべき音声入力があり、次の音声入力を行なった場合には、ステップＡ６の処理によって、再度音声が受け付けられ、ステップＡ８によって、その処理結果がアプリケーション１０４へと送られ、所望のサービスが利用者に提供されたのち、ステップＡ４へ進み、タイマＴがリスタートされ、利用者からの音声入力の待ち受け時間が延長される。
【００８７】
（１０ｃ）あるいは、もしこの利用者が次に行なうべき音声入力があるが、まだ発声を行わず、発声準備のために息継ぎを行なった場合には、ステップＡ７の処理によって、ステップＡ４へ進み、タイマＴがリスタートされ、利用者からの音声入力の待ち受け時間が延長される。
【００８８】
（１１）以上の音声入力処理あるいは音声入力の待ち受け時間の延長処理は、利用者の行動に応じて任意回必要なだけ繰り返されたのち、ステップＡ５の分岐によって、ステップＡ１に進み、初期状態に戻る。
【００８９】
かくしてこのように構成された本装置の第１の実施形態によれば、音声入力の解析精度が不十分さに起因する誤認識や、利用者が入力音声として意図した信号部分の切りだしの失敗に起因する誤動作を起こさず、利用者への余分な負担を生じないマルチモーダルインタフェース装置およびマルチモーダルインタフェース方式を提供することが可能となる。
【００９０】
また、本来不要な場面での、入力音声信号の処理負荷を軽減し、利用している装置に関与する他のサービスの実行速度や利用効率が低下しない、マルチモーダルインタフェース装置およびマルチモーダルインタフェース方式を提供することが出来る。
【００９１】
また、音声入力を行なう際に、たとえば、ボタンを押したり、メニュー選択などといった特別な操作によるモード変更が必要なく、自然で、利用者にとって繁雑でなく、習得のための訓練が不要であり、利用者の負担を増加しないマルチモーダルインタフェース装置およびマルチモーダルインタフェース方式を提供することが出来る。
【００９２】
また、例えば、口だけを使ってコミュニケーションが出来、例えば手で行なっている作業を妨害することがなく、双方を同時に利用することが可能であると言う、音声メディア本来の利点を活かすことが出来るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方式を提供することが出来る。
【００９３】
また、人間同士のコミュニケーションにおいては重要な役割を演じていると言われる、非言語メッセージを、効率的に利用することが出来るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方式を提供することが出来るなど、多大な効果が奏せられる。
【００９４】
（ｉｉ）第２の実施形態
続いて、図面を参照して本発明の第２実施形態に係るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法について説明する。
【００９５】
図４は、本発明の第２実施形態に係るマルチモーダルインタフェース装置の構成例を表しており、注視対象検出部２０１、ジェスチャ認識部２０２、制御部２０３、およびアプリケーションプログラム２０４から構成されている。
【００９６】
図４に於いて、２０１は注視対象検出部を表しており、例えば、特願平０９−６２６８１号の「オブジェクト操作装置およびオブジェクト操作方法」と同様の方法によって、例えば利用者の姿を観察した画像情報の解析などによって、利用者が注視している対象を検出し、注視対象情報として随時出力するようにしている。
【００９７】
図５は、注視対象検出部２０１の出力する注視対象情報の例を表している。
【００９８】
図５の各エントリに於いて、ＩＤの欄には、各注視対象情報の識別信号が記録されており、時間情報Ａの欄には対応する注視が検出された時刻に関する情報が記録されるようにしている。
【００９９】
また、対象情報Ｂの欄には、対応する注視の対象となった物体あるいは領域を表す記号が記録されるようにしている。
【０１００】
（なお、図５のエントリｑ２５１およびｑ２５２の対象情報Ｂの欄に記載された記号「マインズアイ」については後述する。）
図４に於いて、２０２はジェスチャ認識部を表しており、これは、単数または複数のカメラなどによって得られる利用者の画像情報の処理、あるいは赤外線センサなどの遠隔センサ、装着センサなどによって得られる信号の処理などによって、利用者の手など体の部分あるいは体の全体の動作を解析し利用者からのジェスチャ入力を認識するものであり、ジェスチャ入力の解析、認識は、例えば、“ＵｎｃａｌｉｂｒａｔｅｄＳｔｅｒｅｏＶｉｓｉｏｎｗｉｔｈＰｏｉｎｔｉｎｇｆｏｒａＭａｎ−ＭａｃｈｉｎｅＩｎｔｅｒｆａｃｅ”（Ｒ．Ｃｉｐｏｌｌａ，ｅｔ．ａｌ．，ＰｒｏｃｅｅｄｉｎｇｓｏｆＭＶＡ’９４，ＩＡＰＲＷｏｒｋｓｈｏｐｏｎＭａｃｈｉｎｅＶｉｓｉｏｎＡｐｐｌｉｃａｔｉｏｎ，ｐｐ．１６３−１６６，１９９４．）などに示された方法を用いることができる。
【０１０１】
図６は、ジェスチャ認識部２０２が出力するジェスチャ認識情報の例を表している。図６の各エントリに於いて、ＩＤは各ジェスチャ認識情報の識別記号を表しており、開始時間情報Ａおよび終了時間情報Ｂの欄は、それぞれ対応するジェスチャの開始および終了時刻が記録されるようにしている。
【０１０２】
また、ジェスチャ種別情報Ｃの欄にはジェスチャ認識部２０２における処理によって得られたジェスチャの種別が記号で記録されるようにしている。
【０１０３】
図４に於いて、２０３は制御部を表しており、注視対象検出部２０１、およびジェスチャ認識部２０２、およびアプリケーション２０４を制御する。この制御部２０３が、視線検出情報に基づいて、ジェスチャ入力の受け付け可否、あるいはジェスチャ入力の検出あるいは認識に用いられるパラメータ情報の調整などの制御を行うことにより、本装置の効果が実現される。
【０１０４】
なお、本制御部２０３は、本装置の効果を実現する上で重要な役割を担うものであるため、その動作の詳細については後述することとする。
【０１０５】
図４に於いて、２０４はアプリケーションを表しており、本部品の役割は、前述第１実施形態におけるアプリケーション１０４と同様である。
【０１０６】
続いて制御部２０３について説明する。
【０１０７】
図７は、制御部２０３の内部構成の例を表しており、制御部２０３が、制御処理部２０３ａ、および注視解釈規則記憶部２０３ｂ、および注視状況記録部２０３ｃから構成されていることを示している。
【０１０８】
図８は注視解釈規則記憶部２０３ｂの内容の例を表しており、注視解釈規則の各エントリが、ＩＤ、および注視対象情報Ａ、および可能ジェスチャ種別リスト情報Ｂなどと分類され記録される様にしている。
【０１０９】
注視解釈規則記憶部２０３ｂの各エントリにおいて、ＩＤの欄は対応する規則の識別記号が記録される。
【０１１０】
また、注視対象情報Ａの欄には解釈すべき注視対象情報の注視対象の種類が記録されており、また、可能ジェスチャ種別リスト情報Ｂの欄には、注視対象情報Ａの欄に記録されてた注視対象を注視している状態で、提示されうるジェスチャの種別のリストが記録されるようにしている。
【０１１１】
図９は注視状況記憶部２０３ｃの内容の例を表しており、注視状況記憶部２０３ｃの各エントリが、ＩＤおよび、時間情報Ａ、および種別リスト情報Ｂなどと分類され記録される様にしている。
【０１１２】
注視状況記憶部２０３ｃの各エントリに於いて、ＩＤは対応する注視状況情報の識別記号である。
【０１１３】
また、時間情報Ａの欄には対応する注視情報の表す注視が行なわれた時間が記録されるようにしており、また種別リスト情報Ｂの欄には、対応する注視が行なわれたことによって規定されるその時点で可能なジェスチャの種別のリストが記録されるようにしている。
【０１１４】
以上が本発明の第２実施形態に係るマルチモーダルインタフェース装置の構成の説明である。
【０１１５】
つづいて、制御部２０３の動作について説明する。
【０１１６】
制御部２０３は、並列あるいは交互に動作する以下の処理手順Ｂおよび処理手順Ｃに従って動作する。
【０１１７】
なお、図１０は処理手順Ｂを説明するフローチャートであり、図１１は処理手順Ｃを説明するフローチャートである。
【０１１８】
＜処理手順Ｂ＞
Ｂ１：注視対象検出部２０１から、注視対象情報Ｅｉを受け取ったら、ステップＢ２へ進み、そうでない場合にはステップＢ１へ進む。
【０１１９】
Ｂ２：注視解釈規則記憶部２０３ｂを参照し、注視対象情報Ｅｉの対象情報Ｂと同一の内容を、注視対象情報ＡにもつエントリＳｉを探す。
【０１２０】
Ｂ３：注視状況情報記憶部２０３ｃに新たなエントリＵｉを作成し、エントリＵｉの時間情報Ａの欄に、注視対象情報Ｅｉの時間情報Ａの内容を複写し、かつエントリＵｉの種別リスト情報Ｂの欄に、ステップＢ２で検索した注視解釈規則記憶部２０３ｂのエントリＳｉの可能ジェスチャ種別リスト情報Ｂの内容を複写する。
【０１２１】
Ｂ４：ステップＢ１へ進む。
【０１２２】
＜処理手順Ｃ＞
Ｃ１：ジェスチャ認識部２０２から、ジェスチャ認識情報Ｇｊを受け取ったら、ステップＣ２へ進み、そうでなければステップＣ１へ進む。
【０１２３】
Ｃ２：ジェスチャ認識情報Ｇｊを参照し、その開始時間情報Ａの内容Ｔｊｓと、終了時間情報Ｔｊｅを得る。
【０１２４】
Ｃ３：注視解釈状況記憶部２０３ｃの内容を参照し、時間情報Ａの値が、Ｔｊｓ以降で、かつＴｊｅ以前の値である、注視解釈状況情報２０２ｃのエントリの集合Ｓｕを得る。
【０１２５】
Ｃ４：集合Ｓｕが空集合なら、Ｃ７へ進む。
【０１２６】
Ｃ５：エントリの集合Ｓｕの全ての要素の種別リスト情報Ｂの欄に、ジェスチャ認識情報Ｇｊのジェスチャ種別情報Ｃの内容が含まれる場合は、ステップＣ６へ進み、そうでない場合はステップＣ７へ進む。
【０１２７】
Ｃ６：ジェスチャ認識情報Ｇｊをジェスチャ入力として受理し、アプリケーション２０４へ送りステップＣ１へ進む。
【０１２８】
Ｃ７：ジェスチャ認識情報Ｇｊをジェスチャ入力として受理せずに破棄し、ステップＣ１へ進む。
【０１２９】
続いて、本発明の第２実施形態の処理について、具体例を用いて説明する。
【０１３０】
（１）まず、時点ｔ１０の時点で、本装置の利用者が、他の人物の方向を向いていたものとする。
【０１３１】
（２）これに対する注視対象検出部２０１での処理によって、図５のＩＤがｑ２０１に示すような注視対象情報が生成され、制御部２０３へ伝えられる。
【０１３２】
（３）このｑ２０１の注視対象情報を受けとったため、ステップＢ１からステップＢ２へとの分岐が起こり、ステップＢ２での処理によって注視対象情報ｑ２０１の対象情報Ｂと同一の内容である「他人物１」と同じ種類の値を、その注視対象情報Ａの欄に持つ注視解釈規則記憶部２０２ｂのエントリＳ４０１がＳｉとして検索される。
【０１３３】
（４）ステップＢ３での処理によって、注視状況情報記憶部２０３ｃに新たなエントリｕ５０１が生成され、その時間情報Ａの欄に、注視対象情報ｑ２０１の時間情報Ａの内容が複写され、かつ、エントリｕ５０１の種別リスト情報Ｂの欄に、エントリｓ４０１の可能ジェスチャ種別リスト情報Ｂの内容が複写された後、ステップＢ４によりステップＢ１へ戻る。
【０１３４】
（５）以後上記と同様の処理が、注視対象検出部２０１から順次得られる図５に示した注視対象情報ｑ２０２〜ｑ１０４に対して施され、結果として図９に示した注視状況記憶部２０２ｃの注視状況情報ｕ５０２〜ｕ５０４のエントリが生成される。
【０１３５】
（６）ここで、ジェスチャ認識部２０２から図６ジェスチャ認識情報の例のｒ３０１のエントリに示したジェスチャ認識情報が得られたとする。
【０１３６】
（７）このジェスチャ認識情報ｒ３０１に対して、ステップＣ１の処理により、ステップＣ２への分岐が起こる。
【０１３７】
（８）ステップＣ２によって、ｒ３０１の開始時間情報Ａの値＝ｔ１１と終了時間情報Ｂの値＝ｔ１２が得られる。
【０１３８】
（９）続いて、ステップＣ３の処理によって、注視状況記憶部２０３ｃから、ｔ１１〜ｔ１２の間の注視状況情報が検索され、結果として、エントリｕ５０２とエントリｕ５０３とを要素とする集合Ｓｕが得られる。
【０１３９】
（１０）Ｓｕは空集合でないのでステップＣ４からＣ５へと進む。
【０１４０】
（１１）ステップＣ５の処理によって、エントリｕ５０２とエントリｕ５０３の双方の種別リスト情報Ｂに、ジェスチャ認識情報ｒ３０１のジェスチャ種別情報Ｃの値「うなづき」が含まれるかどうかが調べられるが、ここでは、条件が成立しないため、Ｃ７へ進む。
【０１４１】
（１２）ステップＣ７によって、ジェスチャ認識情報ｒ３０１が示唆した「うなづき」がジェスチャとして受理されずに破棄されステップＣ１へ進み初期状態へ戻る。
【０１４２】
これは、時点ｔ１１〜ｔ１２に於いて、利用者が他の人物を注視している状態に於いて検出されたうなづきジェスチャの候補は、本装置への入力を意図したジェスチャではないと、本装置が判断したことに相当する。
【０１４３】
また、以上の処理と同様の処理によって、図６のｒ３０２に示したｔ２０〜ｔ２４に渡る「うなづき」ジェスチャ認識情報では、図９に示した注視状況記憶部２０２ｃのｕ５１１〜ｕ５１６のエントリの種別リスト情報Ｂの全てが「うなづき」を含んではいないため破棄されるが、これは、時点ｔ２０〜ｔ２４の利用者のうなづきのジェスチャ入力の可能性を持つ信号が検知されたが、その時点での利用者の注視対象が、「画面」→「利用者手元」→「画面」へと推移していることを根拠として、このジェスチャ入力の候補は誤って抽出されたものであると判断されジェスチャ候補が破棄された例である。
【０１４４】
一方、時点ｔ３１〜ｔ３３に渡って検出された図６のｒ３０３のエントリに対応するジェスチャ入力候補に関しては、本装置によって「うなづき」のジェスチャ入力として受理され、アプリケーション２０４へと送られることになる。
【０１４５】
その手順を順を追って説明する。
【０１４６】
（１）まず注視対象検出部２０１での処理によって、図５のＩＤがｑ２２１に示すような注視対象情報が生成され、制御部２０３へ伝えられる。
【０１４７】
（２）このｑ２２１の注視対象情報を受けとったため、ステップＢ１からステップＢ２へとの分岐が起こり、ステップＢ２での処理によって注視対象情報ｑ２２１の対象情報Ｂと同一の内容である「カメラ１」と同じ種類の値を、その注視対象情報Ａの欄に持つ注視解釈規則記憶部２０２ｂのエントリＳ４０４がＳｋとして検索される。
【０１４８】
（３）ステップＢ３での処理によって、注視状況情報記憶部２０３ｃに新たなエントリｕ５２１が生成され、その時間情報Ａの欄に、注視対象情報ｑ２２１の時間情報Ａの内容が複写され、かつ、エントリｕ５２１の種別リスト情報Ｂの欄に、エントリｓ４０４の可能ジェスチャ種別リスト情報Ｂの内容が複写された後、ステップＢ４によりステップＢ１へ戻る。
【０１４９】
（４）以後上記と同様の処理が、注視対象検出部２０１から順次得られる図５に示した注視対象情報ｑ２３２〜ｑ２３４に対して施され、結果として図９に示した注視状況記憶部２０３ｃのｕ５２２〜ｕ５２４のエントリが生成される。
【０１５０】
（５）ここで、ジェスチャ認識部２０２から図６ジェスチャ認識情報の例のｒ３０３のエントリに示したジェスチャ認識情報が得られたとする。
【０１５１】
（６）このジェスチャ認識情報ｒ３０３に対して、ステップＣ１の処理により、ステップＣ２の分岐が起こる。
【０１５２】
（７）ステップＣ２によって、ｒ３０３の開始時間情報Ａの値＝ｔ３０と終了時間情報Ｂの値＝ｔ３３が得られる。
【０１５３】
（８）続いて、ステップＣ３の処理によって、注視状況記憶部２０３ｃから、ｔ３０〜ｔ３３の間の注視状況情報が検索され、結果として、エントリｕ５２１、エントリｕ５２２、エントリｕ５２３、およびエントリｕ５２４を含む集合Ｓｖが得られる。
【０１５４】
（９）Ｓｖは空集合でないのでステップＣ４からＣ５へと進む。
【０１５５】
（１０）ステップＣ５の処理によって、エントリｕ５２１〜エントリｕ５２４の全種別リスト情報Ｂに、ジェスチャ認識情報ｒ３０３のジェスチャ種別情報Ｃの値「うなづき」が含まれるかどうかが調べられ、ここでは、条件が成立し、Ｃ６へ進む。
【０１５６】
（１１）ステップＣ６によって、ジェスチャ認識情報ｒ３０３が示唆した「うなづき」がジェスチャとして受理され、アプリケーション２０４へ送られた上で、ステップＣ１へ進み初期状態へ戻る。
【０１５７】
これは、利用者がカメラをずっと注視したままの状態において、提示された「うなづき」ジェスチャの候補は、利用者からシステムへの入力を意図したジェスチャ入力として信頼できるという判断を行ない受理されたことに相当するものである。
【０１５８】
かくしてこのように構成された本装置の第２実施形態によれば、ジェスチャ入力の解析精度が不十分であるため、たとえば、ジェスチャ入力の認識処理において、入力デバイスから刻々得られる信号のなかから、利用者が入力メッセージとして意図した信号部分の切りだしに失敗するという問題を回避することが出来、その結果、誤動作などによる利用者への負担を起こさないインタフェースを実現することが可能となる。
【０１５９】
また、利用者が現在の操作対象である計算機などへの入力として用いるだけでなく、例えば周囲の他の人間とのコミュニケーションを行なう場合にも利用されるメディアを用いたインタフェース装置において、利用者がインタフェース装置ではなく、たとえば自分の横にいる他人に対してジェスチャを示したりした場合にも、インタフェース装置が自分への入力であると誤って判断しないインタフェース装置を実現するものである。
【０１６０】
さらに、たとえば、ボタンを押したり、メニュー選択などによって、特別な操作によって入力モードの変更を行なう必要がないため、自然なインタフェース装置を実現することが出来る。
【０１６１】
また、本発明によって、人間同士のコミュニケーションにおいては重要な役割を演じていると言われる非言語メッセージを、効果的に利用することが可能となる。
【０１６２】
（ｉｉｉ）第３の実施形態
続いて、図面を参照して本発明の第３実施形態に係るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法について説明する。
【０１６３】
図１２は、本発明の第３実施形態に係るマルチモーダルインタフェース装置の構成例を示しており、本装置が、注視対象検出部３０１、および入力部３０２、および出力部３０３、および対話管理部３０４、およびアプリケーション３０５から構成されていることを表している。
【０１６４】
図１２において、３０１は注視対象検出部であり、利用者の注視対象を検出するが、本注視対象検出部３０１に関しては、前述の第２実施形態における注視対象検出部２０１と同様の構成によって実現し、同様の注視対象情報を出力するものとする。
【０１６５】
図１２において、３０２は入力部であり、利用者からの音声入力、あるいは画像入力、あるいはキーボード、マウス、ジョイスティック、トラックボール、タッチセンサー、ボタンなどといった機器の操作入力などの、入力を受け付ける様にしている。
【０１６６】
図１２において、３０３は出力部であり、利用者への音声出力、画像出力、あるいは提力装置を通じた力出力など、出力を提示する様にしている。
【０１６７】
図１２において、３０４は対話管理部であり、入力部３０２および出力部３０３を、例えばスクリプトや、あるいは発話対や、あるいは発話交換構造や、あるいはプランニング手法などを用いた従来手法によって制御し、例えば、利用者からの入力信号の受付と利用者への出力信号の提示、および該入力信号と出力信号の時間調整、あるいは利用者への確認や問い返しのための対話などを含む、利用者と本装置との間での対話（＝インタラクション）を実現するようにしている。
【０１６８】
図１２において、３０５はアプリケーションであり、対話管理部３０４から提供される利用者からの要求などに対して、例えばデータベースの検索や、推論処理や、あるいは算術処理などによって応答の内容を決定し、対話管理部３０４に返すようにしている。
【０１６９】
対話管理部３０４は、注視対象検出部３０１から随時提供される注視対象情報を参照して、以下に示す＜処理手順Ｄ＞にしたがった処理によって動作することで、本装置の効果を実現する。
【０１７０】
なお、図１３は処理手順Ｄを説明するフローチャートである。
【０１７１】
＜処理手順Ｄ＞
Ｄ１：入力部３０２を通じて利用者からの入力Ｉを受けとる場合はステップＤ２へ進み、出力部３０３を通じて利用者へ出力Ｏを利用者に出力する場合は、ステップＤ９へ進む。
【０１７２】
Ｄ２：タイマＱをリセットしスタートする。
【０１７３】
Ｄ３：タイマＱがあらかじめ定めた値Ｈを超えたらステップＤ１へ進む。
【０１７４】
Ｄ４：注視対象検出部３０１から得られる注視対象情報Ｗの対象情報Ｂの内容を参照し、あらかじめ定めた特定の物体あるいは領域である注視対象Ｘを注視していることが判明したら、ステップＤ２へ進む。
【０１７５】
Ｄ５：入力３０２によって、利用者からの入力Ｉが検知された場合は、ステップＤ７へ進む。
【０１７６】
Ｄ６：ステップＤ３へ進む。
【０１７７】
Ｄ７：入力部３０２による入力Ｉの処理結果が、対話制御部３０４を通じて、アプリケーション３０５へと渡される。
【０１７８】
Ｄ８：アプリケーション３０５によって、利用者に応答すべき出力Ｏが決定され、対話管理部３０４へと渡される。
【０１７９】
Ｄ９：出力部３０３を通じて、利用者への出力Ｏの出力を開始する。
【０１８０】
Ｄ１０：出力部３０３を通じての出力Ｏが終了したらステップＤ１へ進む。
【０１８１】
Ｄ１１：注視対象検出部３０１から得られる注視対象情報Ｖの対象情報Ｂの内容を参照し、あらかじめ定めた特定の物体あるいは領域である注視対象Ｙへの利用者の注視を検出した場合には、ステップＤ１３へ進む。
【０１８２】
Ｄ１２：ステップＤ１０へ進む。
【０１８３】
Ｄ１３：現在の出力Ｏの提示を中断した後で、出力Ｏの利用者への再提示を行なう。
【０１８４】
Ｄ１４：利用者からの、例えば「えっ」といった非言語音声が入力されるなど、本装置から利用者への、出力Ｏの伝達が正しく行われなかったことを表す明示的な入力がなされた場合には、ステップＤ１６へ進む。
【０１８５】
Ｄ１５：ステップＤ１へ進む。
【０１８６】
Ｄ１６：出力Ｏに関して利用者が理解しているかどうかに関する確認の対話処理を起動する。
【０１８７】
Ｄ１７：ステップＤ１へ進む。
【０１８８】
続いて、具体的例を用いて第３実施実施形態の動作説明を行なう。
【０１８９】
まず、仮定として、入力手段３０２として音声入力を持ち、出力手段３０３としてスピーカから出力される音声出力とディスプレイからの出力される画像情報出力を持つマルチモーダルインタフェース装置を例として説明を行なう。
【０１９０】
また、処理手順ＤのステップＤ４に現れる特定の注視対象Ｘとしては、マインズアイ（後述）が設定されているものとし、また処理手順ＤのステップＤ１１に現れる特定の注視対象Ｙとして、スピーカ部分が設定されているものとする。
【０１９１】
まずはじめ、本装置から利用者に向かって、例えば「宛先を教えて下さい」という音声出力がなされ、この質問に対する利用者からの回答を本装置が受けとるという状況であるものとする。
【０１９２】
この質問に対する利用者からの音声入力を受けとるため、ステップＤ１からＤ２への分岐が行われる。
【０１９３】
続いて、タイマＱによって時間Ｈの間、ステップＤ２〜ステップＤ６の処理ループが繰り返されるが、今回はその時間の間に利用者から例えば「神戸市です」という音声入力Ｉ１がなされたとする。
【０１９４】
ここまでに行なわれた処理は、従来のマルチモーダルインタフェース処理あるいは対話装置における処理と同様のものである。
【０１９５】
次に、上述と同じ状況に対して、利用者が入力すべき情報（例えば宛先）を即座に答えることが出来ず、入力すべき情報を思い出すために、マインズアイと呼ばれる行動をとった場合を考えてみる。
【０１９６】
このマインズアイとは、人間が何らかの情報を思い出したり、あるいは考えをまとめようとする場合に、ある特定の方向を向く傾向があることを指すものであり、典型的には、斜め上方向を向く場合が多い。
【０１９７】
本装置では、利用者があらかじめ定めた特定の注視対象（この場合は斜め上方）を注視した場合に、注視対象検出部３０１が、対象情報Ｂの値として記号「マインズアイ」を含む注視対象情報Ｗ１を出力するようにしている。
【０１９８】
そのため、処理手順ＤのステップＤ２〜Ｄ６の利用者からの入力を待つ処理ループの中を処理している間に、利用者がマインズアイと呼ばれる行動（具体的には、この場合は斜め上方向を注視する行動）を行なうと、注視対象検出部３０１によってそれが検知され、例えば図５のエントリｑ２５１あるいはｑ２５２の対象情報Ｂの欄に示した記号「マインズアイ」を含む注視対象情報が出力されることとなる。
【０１９９】
これにより、ステップＤ４からステップＤ２へと進み、タイマＱがリセットされ、結果として利用者の入力を待つ時間が延長されることとなる。
【０２００】
以上の処理によって、本装置では利用者が入力すべき情報を想起するなどのために、マインズアイと呼ばれる行動を行なった際に、自動的に入力待ち受け時間が延長され、結果としてユーザフレンドリーなマルチモーダルインタフェースが実現されることとなる。
【０２０１】
つづいて、この音声入力Ｉ１により、ステップＤ５からステップＤ７〜Ｄ８へと進み、例えば、利用者の出力として「新しい郵便番号を教えて下さい」という音声出力に対応する出力Ｏ１がアプリケーション３０５によって、決定され、対話管理部３０４に渡されたものとする。
【０２０２】
続いて、ステップＤ９へと進み、出力Ｏ１に関する音声出力「新しい郵便番号…」が利用者へと提示され始めたものとする。
【０２０３】
ここから、ステップＤ１０〜Ｄ１２の処理ループによって、利用者への出力Ｏ１の提示が続けられるが、今回は、その出力の途中で、利用者が現在提示されつつある出力の一部分、例えば「新しい郵便番号」の部分が、聞きとれなかったため、スピーカを注視したものとする。
【０２０４】
この利用者のスピーカへの注視は、注視対象検出部３０１により検知され、注視対象情報Ｖ１として対話管理部３０４に渡される。
【０２０５】
この注視対象情報Ｖ１により、ステップＤ１１からステップＤ１３へと分岐する。
【０２０６】
ステップＤ１３により、現在出力途中であった出力は中断され、出力部３０２を通じて、再度利用者に提示され直す。
【０２０７】
ここで、利用者が再提示出力を受け取れた場合には、ステップＤ１５からステップＤ１へとすすみ初期状態へと戻る。
【０２０８】
以上の処理によって、本装置では、利用者が出力情報の受け取りに失敗した場合にも、あらかじめ定めた特定の注視対象を注視するだけで再提示が行われるため、出力情報を正しく受け取ることが出来る。
【０２０９】
なおこれは、人間が人間同士の対話に於いて、例えば理解できなかったりあるいは聞き取りに失敗した場合などに、無意識に対話相手を見ることによって、その障害の発生を対話相手にフィードバックするという行動と同様の行動を、本装置に対して行なう利用者に対して適切に対応するための機能を実現するものである。
【０２１０】
あるいは、ステップＤ１３の再提示によっても利用者が出力情報を正しく受け取れなかった場合にも、その障害の発声を利用者が明示的に提示することで、ステップＤ１４、Ｄ１６〜Ｄ１７の処理によって、確認の対話を起動することが出来る。
【０２１１】
かくしてこのように構成された本第３実施形態によれば、利用者が情報入力の待ち受け時間を延長するために、例えばボタンを押すなどといった恣意的な操作を行なうことが不要で、自然で、利用者にとって繁雑でなく、習得のための訓練が不要であり、利用者の負担を増加しないマルチモーダルインタフェース装置およびマルチモーダルインタフェース方式を提供することが可能となる。
【０２１２】
また、人間同士のコミュニケーションにおいては重要な役割を演じていると言われる、非言語メッセージを、効果的に利用することが出来るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方式を提供することが可能となる。
【０２１３】
また、利用者からの入力に対応して利用者への適切な出力を行なったり、あるいは利用者からの入力と利用者への出力のタイミングを適切に制御するために、利用者の発話が開始されるタイミングや、あるいは利用者の発話が終了するタイミングなどを、事前に予測することが可能となる。
【０２１４】
また、利用者からの入力の認識に失敗したり、あるいは利用者への情報の出力に失敗をした場合など、利用者との間のコミュニケーションに関する何らかの障害が発生した場合などには、その障害の発生を適切に検知することが可能となる。
【０２１５】
また、検知した障害を解決するための、例えば確認のための情報の再提示や、あるいは利用者への問い返し質問対話や、あるいは対話の論議の流れの適切な管理を行なうことが可能となる。
【０２１６】
尚、本発明は、以上の各実施形態に限定されるものではない。
【０２１７】
まず、上述の第１実施形態では、利用者の呼吸状態の検出にカメラから得られる画像情報の解析による方法を示したが、例えば利用者の身体や衣服などに装着あるいは近接して設置するセンサーなどを用いた方法によっても、同様の効果を得ることが可能である。
【０２１８】
また、上述の第１実施形態では、検知した利用者の呼吸の状態に関する情報を、利用者の発話の開始時間の予測や、あるいはある発話に継続して行なわれる発話の検出などに利用する例を示したが、例えば利用者の呼吸の深さまでを検出し、呼吸の深さと、後続する発話の全体、あるいは次の息継ぎまでのフレーズの長さとの関係を、あらかじめ用意しておいたり、あるいはその時点までの実際の利用履歴から抽出した学習データなどから推測した値などを参照することで、利用者の呼吸の深さに応じて、続く発話の長さを予測し、該発声の取り込み処理や、あるいは音響分析や、あるいは言語的解析処理や、あるいは対話における発話交替タイミング管理処理などに於いて、利用するように構成することも可能である。
【０２１９】
また、上述の第２実施形態では、＜処理手順Ｃ＞のステップＣ２〜ステップＣ５の処理において、各ジェスチャ入力候補の開始時間と終了時間との間の全時間区間に対応する注視状況情報記憶部２０２ｃのエントリに関して、種別リスト情報Ｂを参照した条件判断を行ない、該ジェスチャ入力候補を受理すべきかどうかを判断するようにしているが、例えば、該ジェスチャ入力候補の提示されている時間の内の、例えば時間比率の上での最初の一部分であるとか、あるいは最後の一部分であるとか、あるいは最初の一部分と最後の一部分の双方などといった、特定の部分に関してのみ、同様の条件判断を行なって、該ジェスチャ入力候補を受理すべきかどうかを判断するように構成することも可能である。
【０２２０】
さらに、この条件判断に使う部分の時間的位置や、箇所数などを利用毎にあらかじめ調整しておいたり、あるいは自動的適応的に調整する様に構成することも可能であり、これにより、ある利用者は例えばある特定の方向を注視しながらジェスチャ入力を開始し、その後視線を逸した後該ジェスチャ入力を終えるといった癖などを持っている場合にも適切にジェスチャ入力を受理することのできるマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を実現することが出来る。
【０２２１】
また、上述の第１乃至第３実施形態では、装置として本発明を実現する場合のみを示したが、上述の具体例の中で示した処理手順、フローチャートをプログラムとして記述し、実装し、汎用の計算機システムで実行することによっても同様の機能と効果を得ることが可能である。
【０２２２】
すなわち、この場合図１４の汎用コンピュータの構成の例に示したように、ＣＰＵ４０１、メモリ４０２、大容量記憶装置４０３、通信インタフェース４０４からなる汎用コンピュータに、入力インタフェース４０４ａ〜４０４ｎと、入力デバイス４０５ａ〜４０５ｎ、そして、出力インタフェース４０７ａ〜４０７ｍ、出力デバイス４０８ａ〜４０８ｍを設け、入力デバイス４０６ａ〜４０６ｎに、マイクやキーボード、ペンタブレット、ＯＣＲ、マウス、スイッチ、タッチパネル、カメラ、データグローブ、データスーツといった部品を使用し、出力デバイス４０８ａ〜４０８ｍとして、ディスプレイ、スピーカ、フォースディスプレイ、等を用いて、ＣＰＵ４０１によるソフトウェア制御により、上述のごとき動作を実現することが出来る。
【０２２３】
すなわち、第１乃至第３実施形態に記載した手法は、コンピュータに実行させることの出来るプログラムとして、磁気ディスク（フロッピーディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤなど）、半導体メモリなどの記録媒体を用いてコンピュータにプログラムを読み込み、ＣＰＵ４０５で実行させれば、本発明のマルチモーダルインタフェース装置を実現することが出来ることになる。
【０２２４】
【発明の効果】
以上説明したように、本発明によれば、新たに利用可能となった各入出力メディアあるいは、複数の入出力メディアを効率的に利用し、高能率で、効果的で、利用者の負担を軽減することが出来るマルチモーダルインタフェースを実現することができる。
【図面の簡単な説明】
【図１】本発明の第１実施形態に係るマルチモーダルインタフェース装置の構成を示すブロック図。
【図２】同第１実施形態のマルチモーダルインタフェース装置で用いられる呼吸状況情報の例を示す図。
【図３】同第１実施形態のマルチモーダルインタフェース装置の処理手順（Ａ）の内容を示すフローチャート。
【図４】本発明の第２実施形態に係るマルチモーダルインタフェース装置の構成を示すブロック図。
【図５】同第２実施形態のマルチモーダルインタフェース装置で用いられる注視対象情報の例を示す図。
【図６】同第２実施形態のマルチモーダルインタフェース装置で用いられるジェスチャ認識情報の例を示す図。
【図７】同第２実施形態のマルチモーダルインタフェース装置に設けられた制御部の内部構成の例を示すブロック図。
【図８】同第２実施形態のマルチモーダルインタフェース装置で用いられる注視解釈規則記憶部の内容の例を示す図。
【図９】同第２実施形態のマルチモーダルインタフェース装置で用いられる注視状況記憶部の内容の例を示す図。
【図１０】同第２実施形態のマルチモーダルインタフェース装置の処理手順（Ｂ）の内容を示すフローチャート。
【図１１】同第２実施形態のマルチモーダルインタフェース装置の処理手順（Ｃ）の内容を示すフローチャート。
【図１２】本発明の第３実施形態に係るマルチモーダルインタフェース装置の構成を示すブロック図。
【図１３】同第３実施形態のマルチモーダルインタフェース装置の処理手順（Ｄ）の内容を示すフローチャート。
【図１４】本発明の各実施形態に係るマルチモーダルインタフェース装置を実現するコンピュータの構成例を示すブロック図。
【符号の説明】
１０１…呼吸検出部
１０２…音声入力部
１０３…制御部
１０４…アプリケーション
２０１…注視対象検出部
２０２…ジェスチャ認識部
２０３…制御部
２０４…アプリケーション
２０３ａ…制御処理部
２０３ｂ…注視解釈規則記憶部
２０３ｃ…注視状況記憶部
３０１…注視対象検出部
３０２…入力部
３０３…出力部
３０４…対話管理部
３０５…アプリケーション
４０１…ＣＰＵ
４０２…メモリ
４０３…大容量記憶装置
４０４…通信インタフェース
４０５ａ〜ｎ…入力デバイス
４０６ａ〜ｎ…入力インタフェース
４０７ａ〜ｍ…出力デバイス
４０８ａ〜ｍ…出力インタフェース

Claims

利用者の呼吸の状況を観察し利用者の呼吸の状態が定常状態での吸気または排気である定常呼吸であるか深呼吸または息継ぎによる非定常状態での吸気である非定常吸気であるかを示す呼吸状況情報を出力する呼吸状況認識手段と、
利用者の発する音声の、取り込み、あるいは録音、あるいは加工、あるいは分析、あるいは認識の少なくとも一つの処理を行なう入力音声処理手段と、
前記呼吸状況情報に基づいて前記利用者の非定常吸気が検出された場合、前記入力音声処理手段を制御して、利用者からの音声入力を非受け付け状態から受け付け状態に切り替える受け付け可否制御処理を実行する制御手段とを具備したことを特徴とするマルチモーダルインタフェース装置。
前記呼吸状況認識手段は、
利用者の様子を撮影することにより得られた画像情報の処理、あるいは利用者の身体に装着あるいは近接して配置したセンサから得られたセンサ情報の処理によって、利用者の呼吸の状況を観察することを特徴とする請求項１記載のマルチモーダルインタフェース装置。
利用者の呼吸の状況を観察し利用者の呼吸の状態が定常状態での吸気または排気である定常呼吸であるか深呼吸または息継ぎによる非定常状態での吸気である非定常吸気であるかを示す呼吸状況情報を出力する呼吸状況認識ステップと、
利用者の発する音声の、取り込み、あるいは録音、あるいは加工、あるいは分析、あるいは認識の少なくとも一つの処理を行なう入力音声処理ステップと、
前記呼吸状況情報に基づいて前記利用者の非定常吸気が検出された場合、前記入力音声処理ステップを制御して、利用者からの音声入力を非受け付け状態から受け付け状態に切り替える受け付け可否制御処理を実行する制御ステップとを具備したことを特徴とするマルチモーダルインタフェース方法。
前記呼吸状況認識ステップは、
利用者の様子を撮影することにより得られた画像情報の処理、あるいは利用者の身体に装着あるいは近接して配置したセンサから得られたセンサ情報の処理によって、利用者の呼吸の状況を観察することを特徴とする請求項３記載のマルチモーダルインタフェース方法。