[go: up one dir, main page]

JP3844874B2 - マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法 - Google Patents

マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法 Download PDF

Info

Publication number
JP3844874B2
JP3844874B2 JP04836498A JP4836498A JP3844874B2 JP 3844874 B2 JP3844874 B2 JP 3844874B2 JP 04836498 A JP04836498 A JP 04836498A JP 4836498 A JP4836498 A JP 4836498A JP 3844874 B2 JP3844874 B2 JP 3844874B2
Authority
JP
Japan
Prior art keywords
user
input
breathing
information
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP04836498A
Other languages
English (en)
Other versions
JPH11249773A (ja
Inventor
哲朗 知野
克己 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP04836498A priority Critical patent/JP3844874B2/ja
Publication of JPH11249773A publication Critical patent/JPH11249773A/ja
Application granted granted Critical
Publication of JP3844874B2 publication Critical patent/JP3844874B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、利用者と対話するマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法に関する。
【0002】
【従来の技術】
近年、パーソナルコンピュータをはじめとする各種計算機システムにおいては、従来のキーボードやマウスなどによる入力と、ディスプレイなどによる文字や画像情報の出力に加えて、音声情報や画像情報などのマルチメディア情報を入出力することが可能になって来ている。
【0003】
こういった状況に加え、自然言語解析や自然言語生成、あるいは音声認識や音声合成技術あるいは対話処理技術の進歩などによって、利用者と音声入出力を用いて対話する音声対話システムへの要求が高まっており、自由発話による音声入力を利用可能な対話システムである“TOSBURG−II”(電気情報通信学会論文誌、Vol.J77−D−II、No.8,pp1417−1428,1994)など、様々な音声対話システムの開発がなされている。
【0004】
また、さらに、こう言った音声入出力に加え、例えばカメラを使った視覚情報入力を利用したり、あるいは、タッチパネル、ペン、タブレット、データグローブ、フットスイッチ、対人センサ、ヘッドマウンドディスプレイ、フォースディスプレイ(提力装置)など、様々な入出力デバイスを通じて利用者と授受できる情報を利用して、利用者とインタラクションを行なうマルチモーダル対話システムへの要求が高まっている。
【0005】
このマルチモーダルインタフェースは、人間同士の対話においても、例えば音声など一つのメディア(チャネル)のみを用いてコミュニケーションを行なっている訳ではなく、身振りや手ぶりあるいは表情といった様々なメディアを通じて授受される非言語メッセージを駆使して対話することによって、自然で円滑なインタラクションを行っている(“Intelligent Multimedia Interfaces”,Maybury M.T,Eds.,The AAAI Press/The MIT Press,1993)ことから考えても、自然で使いやすいヒューマンインタフェースを実現するための一つの有力な方法として期待が高まっている。
【0006】
従来、たとえば利用者から音声入力がなされた場合には、入力された音声波形信号を例えばアナログ/デジタル変換し、単位時間当たりのパワー計算を行なうことなどによって、音声区間を検出し、例えばFFT(高速フーリエ変換)などの方法によって分析し、例えば、HMM(隠れマルコフモデル)などの方法を用いて、あらかじめ用意した標準パターンである音声認識辞書と照合処理を行なうことなどによって、発声内容を推定し、その結果に応じた処理を行なう。
【0007】
あるいは、例えばタッチセンサなどの接触式の入力装置を通じて、利用者からの指し示しジェスチャの入力がなされた場合には、タッチセンサの出力情報である、座標情報、あるいはその時系列情報、あるいは入力圧力情報、あるいは入力時間間隔などを用いて、指し示し先を同定する処理を行なう。
【0008】
あるいは、例えば、“Uncalibrated Stereo Vision with Pointing for a Man−Machine Interface”(R.Cipolla, et.al., Proceedings of MVA’94, IAPR Workshop on Machine Vision Application, pp.163−166, 1994.)などに示された方法を用いて、単数あるいは複数のカメラを用いて、利用者の手などを撮影し、観察された、形状、あるいは動作などを解析することによって、利用者の指し示した、実世界中の指示対象、あるいは表示画面上の指示対象などを入力することが出来るようにしている。
【0009】
また、同様に、例えば赤外線などを用いた距離センサなどを用いて、利用者の手の、位置、形、あるいは動きなどを認識することで、利用者の指し示した、実世界中の指示対象、あるいは表示画面上の指示対象などへの指し示しジェスチャを入力することが出来るようにしている。
【0010】
あるいは、利用者の手に、例えば磁気センサや加速度センサなどを装着することによって、手の空間的位置や、動き、あるいは形状を入力したり、仮想現実(VR=Virtual Reality)技術のために開発された、データグローブやデータスーツを利用者が装着することで、利用者の手や体の、動き、位置、あるいは形状を解析することなどによって、利用者の指し示した、実世界中の指示対象、あるいは表示画面上の指示対象などを入力することが出来るようにしている。
【0011】
ところで、利用者からの入力に対応して利用者への適切な出力を行なったり、あるいは利用者からの入力と利用者への出力のタイミングを適切に制御したり、あるいは、利用者からの入力の認識に失敗したりあるいは利用者への情報の出力に失敗をした場合など、利用者との間のコミュニケーションに関する何らかの障害が発生した場合などには、その障害の発生を検知し、かつその障害を解決するための、例えば確認のための情報の再提示や、あるいは利用者への問い返し質問対話や、あるいは対話の論議の流れを適切に管理するための対話管理処理が必要となる。
【0012】
従来、こういった対話管理処理には、あらかじめ用意した対話の流れであるスクリプトを利用した方法や、あるいは例えば質問/回答、挨拶/挨拶といった互いに対となる発話の組である発話対や発話交換構造といった情報を利用した方法や、あるいは、対話の流れ全体を対話の参加者の各個人の計画(プラン)あるいは参加者間の共同の計画(プラン)として形式化し記述、生成あるいは認識するプランニングによる方法などが用いられている。
【0013】
【発明が解決しようとする課題】
しかし、従来、それぞれのメディアからの入力の解析精度の低さや、それぞれの入出力メディアの性質が明らかとなっていないため、新たに利用可能となった各入出力メディアあるいは、複数の入出力メディアを効率的に利用し、高能率で、効果的で、利用者の負担を軽減する、マルチモーダルインタフェースは実現されていないという問題がある。具体的には、次の通りである。
【0014】
つまり、各メディアからの入力の解析精度が不十分であるため、たとえば、音声入力における周囲雑音などに起因する誤認識の発生や、あるいはジェスチャ入力の認識処理において、入力デバイスから刻々得られる信号のなかから、利用者が入力メッセージとして意図した信号部分の切りだしに失敗することなどによって、誤動作が起こり、利用者への負担となっているという問題がある。
【0015】
また、音声入力やジェスチャ入力など、利用者が現在の操作対象である計算機などへの入力として用いるだけでなく、例えば周囲の他の人間へ話しかけたりする場合にも利用されるメディアを用いたインタフェース装置では、利用者が、インタフェース装置ではなく、たとえば自分の横にいる他人に対して話しかけたり、ジェスチャを示したりした場合にも、インタフェース装置が自分への入力であると誤って判断をして、認識処理などを行なって、誤動作を起こり、その誤動作の取消や、誤動作の影響の復旧や、誤動作を避けるために利用者が絶えず注意を払わなくてはいけなくなるなどの負荷を含め、利用者への負担となっているという問題がある。
【0016】
また、本来不要な場面においても、入力信号の処理が継続的にして行われるため、その処理負荷によって、利用している装置に関与する他のサービスの実行速度や利用効率が低下するという問題がある。
【0017】
また、この問題を解決するために、音声やジェスチャなどの入力を行なう際に、たとえば、ボタンを押したり、メニュー選択などによって、特別な操作によってモードを変更するなどという方法が用いられているが、このような特別な操作は、人間同士の会話では不要な操作であるために不自然なインタフェースとなるだけでなく、利用者にとって繁雑であったり、操作の種類によっては、習得のための訓練が必要となったりすることによって、利用者の負担を増加するという問題がある。
【0018】
また、例えば、音声入力の可否をボタン操作によって切替える場合などでは、音声メディアによる入力は、本来、口だけを使ってコミュニケーションが出来るため、例えば手で行っている作業を妨害することがなく、双方を同時に利用することが可能であると言う、音声メディア本来の利点を活かすことが出来ないという問題がある。
【0019】
また、従来、指し示しジェスチャの入力に於いて、例えばタッチセンサを用いて実現されたインタフェース方法では、離れた位置からや、機器に接触せずに、指し示しジェスチャを行なうことが出来ないという問題がある。
【0020】
さらに、例えばデータグローブや、磁気センサや、加速度センサなどを利用者が装着することで実現されたインタフェース方法では、機器を装着しなければ利用できないという問題点がある。
【0021】
一方、カメラなどを用いて、利用者の手などの形状、位置、あるいは動きを検出することで実現されているインタフェース方法では、十分な精度が得られないために、利用者が入力を意図したジェスチャだけを、適切に抽出することが困難であり、結果として、利用者がジェスチャとしての入力を意図していない手の動きや、形やなどを、誤ってジェスチャ入力であると誤認識してしまったり、あるいは利用者が入力を意図したジェスチャを、ジェスチャ入力であると正しく抽出することが出来ない場合が多発し、結果として、例えば誤認識のために引き起こされる誤動作の影響の訂正が必要になったり、あるいは利用者が入力を意図して行なったジェスチャ入力が実際にはシステムに正しく入力されず、利用者が再度入力を行なう必要が生じ、利用者の負担を増加させてしまうという問題がある。
【0022】
また、従来のマルチモーダルインタフェースでは、人間同士のコミュニケーションにおいては重要な役割を演じていると言われる、視線一致(アイコンタクト)、注視位置、身振り、手振りなどのジェスチャ、顔表情など非言語メッセージを、効果的に利用することが出来ないという問題がある。
【0023】
また、利用者からの入力に対応して利用者への適切な出力を行なったり、あるいは利用者からの入力と利用者への出力のタイミングを適切に制御するためには、利用者の発話が開始されるタイミングや、あるいは利用者の発話が終了するタイミングなどを、事前に予測する必要があるが、スクリプトを利用した方法や、あるいは発話対や発話交換構造といった情報を利用した方法や、プランニングによる方法などを用いた従来の対話管理処理だけではそれを行なうことが困難であるという問題がある。
【0024】
また、利用者からの入力の認識に失敗したり、あるいは利用者への情報の出力に失敗をした場合など、利用者との間のコミュニケーションに関する何らかの障害が発生した場合などには、その障害の発生を検知する必要があるが、スクリプトを利用した方法や、あるいは発話対や発話交換構造といった情報を利用した方法や、プランニングによる方法などを用いた従来の対話管理処理だけではそれを行なうことが困難であるという問題がある。
【0025】
また、検知した障害を解決するための、例えば確認のための情報の再提示や、あるいは利用者への問い返し質問対話や、あるいは対話の論議の流れを適切に管理するための対話管理処理が必要であるが、スクリプトを利用した方法や、あるいは発話対や発話交換構造といった情報を利用した方法や、プランニングによる方法などを用いた従来の対話管理処理だけではそれを行なうことが困難であるという問題がある。
【0026】
本発明はこのような事情を考慮してなされたもので、非言語メッセージを用いて利用者との対話のためのインタフェース動作を制御できるようにすることにより、新たに利用可能となった各入出力メディアあるいは、複数の入出力メディアを効率的に利用し、高能率で、効果的で、利用者の負担を軽減することが出来るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することを目的とする。
【0027】
また、本発明の具体的な目的の一つは、各メディアからの入力の解析精度が不十分さに起因する誤認識や、利用者が入力メッセージとして意図した信号部分の切りだしの失敗に起因する誤動作を起こさず、利用者への余分な負担を生じないマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することである。
【0028】
また、他の具体的な目的は、音声入力やジェスチャ入力など、利用者が現在の操作対象である計算機などへの入力として用いるだけでなく、例えば周囲の他の人間へ話しかけたりする場合にも利用されるメディアを用いたインタフェース装置では、利用者が、インタフェース装置ではなく、たとえば自分の横にいる他人に対して話しかけたり、ジェスチャを示したりした場合に、インタフェース装置が自分への入力であると誤って判断することがないマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することである。
【0029】
また、別の具体的な目的は、上述のような計算機への入力を利用者が意図していないメッセージを誤って自己への入力であると誤認識したことによる誤動作や、その影響の復旧や、誤動作を避けるために利用者が絶えず注意を払わなくてはいけなくなるなどの負荷を含めた利用者への負担を生じないマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することである。
【0030】
また、さらにもう一つの具体的な目的は、本来不要な場面においても、入力信号の処理が継続的にして行われるため、その処理負荷によって、利用している装置に関与する他のサービスの実行速度や利用効率が低下してしまうことのないマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することである。
【0031】
また、さらにもう一つの具体的な目的は、音声やジェスチャなどの入力を行なう際に、たとえば、ボタンを押したり、メニュー選択などといった特別な操作によるモード変更が必要なく、自然で、利用者にとって繁雑でなく、習得のための訓練が不要であり、利用者の負担を増加しないマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することである。
【0032】
また、さらにもう一つの具体的な目的は、例えば、口だけを使ってコミュニケーションが出来、例えば手で行なっている作業を妨害することがなく、双方を同時に利用することが可能であると言う、音声メディア本来の利点を活かすことが出来るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することである。
【0033】
また、さらにもう一つの具体的な目的は、離れた位置からや、機器に接触せずに、ジェスチャの入力を行なう際に、利用者が入力を意図したジェスチャだけを、適切に抽出できるマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することである。
【0034】
また、さらにもう一つの具体的な目的は、人間同士のコミュニケーションにおいては重要な役割を演じていると言われる、視線一致(アイコンタクト)、注視位置、身振り、手振りなどのジェスチャ、顔表情など非言語メッセージを、効果的に利用することが出来るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することである。
【0035】
また、さらにもう一つの具体的な目的は、利用者からの入力に対応して利用者への適切な出力を行なったり、あるいは利用者からの入力と利用者への出力のタイミングを適切に制御するために、利用者の発話が開始されるタイミングや、あるいは利用者の発話が終了するタイミングなどを、事前に予測することの出来るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することである。
【0036】
また、さらにもう一つの具体的な目的は、利用者からの入力の認識に失敗したり、あるいは利用者への情報の出力に失敗をした場合など、利用者との間のコミュニケーションに関する何らかの障害が発生した場合などには、その障害の発生を適切に検知することの出来るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することである。
【0037】
また、さらにもう一つの具体的な目的は、検知した障害を解決するための、例えば確認のための情報の再提示や、あるいは利用者への問い返し質問対話や、あるいは対話の論議の流れの適切な管理を行なうことの出来るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を提供することである。
【0038】
【課題を解決するための手段】
本発明のマルチモーダルインタフェース装置は、利用者の呼吸の状況を観察し利用者の呼吸の状態が定常状態での吸気または排気である定常呼吸であるか深呼吸または息継ぎによる非定常状態での吸気である非定常吸気であるかを示す呼吸状況情報を出力する呼吸状況認識手段と、利用者の発する音声の、取り込み、あるいは録音、あるいは加工、あるいは分析、あるいは認識の少なくとも一つの処理を行なう入力音声処理手段と、前記呼吸状況情報に基づいて前記利用者の非定常吸気が検出された場合、前記入力音声処理手段を制御して、利用者からの音声入力を非受け付け状態から受け付け状態に切り替える受け付け可否制御処理を実行する制御手段とを具備したことを特徴とする。
【0042】
このように利用者から認識した呼吸状況情報に基づいて入力音声処理手段の動作を制御することにより、音声入力の解析精度が不十分さに起因する誤認識や、利用者が入力音声として意図した信号部分の切りだしの失敗に起因する誤動作を起こさず、利用者への余分な負担を生じないマルチモーダルインタフェース装置を提供すること等が可能となる。
【0050】
【発明の実施の形態】
(i)第1の実施形態
以下、図面を参照して、本発明の第1実施形態に係るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法について説明する。
【0051】
図1は、本発明の第1実施形態に係るマルチモーダルインタフェース装置の構成例であり、101は呼吸検出部、102は音声入力部、103は制御部、104はアプリケーションである。このマルチモーダルインタフェース装置はコンピュータなどを用いて、音声情報による利用者との対話を支援するためのシステムである。
【0052】
図1に於いて、101は呼吸検出部を表しており、例えば、「ビジュアルセンシングによる呼吸監視システムの関心領域(ROI)の設定の自動化」(三宅他、第17回医療情報学連合大会予稿、1−C−1−3、pp.168−169、1997)に示された方法などの様に、例えばカメラから得られる利用者の画像から、例えば利用者の胸部を観察し呼吸に付随する動作を検出することなどによって、利用者の呼吸の状態を検知し、呼吸状況情報として随時出力するようにしている。また、利用者の身体に装着あるいは近接して配置したセンサからの情報を処理することによって、利用者の呼吸の状況を観察することもできる。
【0053】
図2は、呼吸検出部101が出力する呼吸状況情報の例を表している。
【0054】
図2に於いて、IDの欄は各呼吸状況情報の識別記号を表しており、時間情報Aは対応する呼吸の状況が観察された時刻が記録されており、また状況情報Bには観察された呼吸の状況を表す記号が記録されるようにしている。
【0055】
各呼吸状況情報の状況情報Bの欄に於いて、「定常呼吸(吸気)」および「定常呼吸(排気)」は、利用者が定常状態で、それぞれ吸気および排気を行なっていることが観察されたことを表している。
【0056】
また、「非定常呼吸(吸気)」および「非定常呼吸(排気)」は、利用者が、例えば深呼吸や息継ぎなど非定常状態で、それぞれ吸気および排気を行なっていることが観察されたことを表している。
【0057】
また、図1に於いて、102は音声入力部を表しており、例えばマイクなどによって利用者の発した音声信号を電気信号に変換するなどして本装置への入力信号として取り込んだり、あるいはさらに例えばA/D(アナログディジタル)変換を施すことによって本装置で処理可能な表現への変換を行なったり、あるいはさらに、例えばFFT(高速フーリエ変換)などを用いて分析処理や加工処理を行なったり、あるいはさらに例えば複合類似度法やHMM(隠れマルコフモデル)やDP(ダイナミックプログラミング)やニューラルネットワークなどといった方法を用いてあらかじめ用意した標準パターンと入力信号との間での照合処理を行なうことなどによって認識処理を行なったりするようにしている。
【0058】
本音声入力部102による利用者の発する音声の、取り込み、あるいは録音、あるいは加工、あるいは分析、あるいは認識といった動作は制御部103によって制御されるようになっており、また音声入力部102によって得られる音声入力の処理結果も制御部103の制御に従って、アプリケーション104へと渡されるようにしている。
【0059】
図1に於いて、103は制御部である。
【0060】
制御部103は、呼吸検出部101から逐次得られる呼吸状況情報を参照し、音声入力部102およびアプリケーション104の内少なくとも一方を適宜制御し、利用者からの音声入力信号の受け付け可否制御、音声区間の推定処理、雑音低減処理、音声信号変換処理などを制御する。
【0061】
なお、本制御部103の動作が、本装置の効果の実現において本質的な役割を演ずるものであるためその詳細は後述することとする。
【0062】
図1に於いて、104はアプリケーションであり、制御部103の制御に応じて音声入力部102の出力を受けとり、例えばデータベースシステムでは、入力された検索要求に対応する検索結果を出力したり、あるいは音声録音システムでは、入力された音声信号を適切に保存するなどといったサービスを行なうものであり、コンピュータのアプリケーションプログラムに相当する。
【0063】
つづいて、制御部103について詳説する。
【0064】
制御部103は以下の処理手順Aに従って動作するようにしている。なお、図3は処理手順Aの処理内容を説明するフローチャートである。
【0065】
<処理手順A>
A1:音声入力部102を制御し、音声入力を「非受け付け状態」とする。
【0066】
A2:呼吸検出部101から得られる呼吸状況情報の内容を常時監視し、「非定常呼吸(吸気)」を検出した場合にはステップA3へ進み、そうでない場合はステップA2に留まる。
【0067】
A3:音声入力部102を制御し、音声入力を受け付け状態とする。
【0068】
A4:タイマTの値を0とした上で、タイマTを(再)スタートする。
【0069】
A5:タイマTに関して、あらかじめ定めた時間tAが経過していたら、ステップA1へ進み、そうでなければステップA6へ進む。
【0070】
A6:現時点において、利用者からの音声入力Iがなされていたら、ステップA8へ進み、そうでなければステップA7へ進む。
【0071】
A7:現時点に於いて、呼吸検出部101から得られる呼吸状況情報により、「非定常呼吸(吸気)」が検出されたら、ステップA4へ進み、そうでなければステップA5へ進む。
【0072】
A8:音声入力Iに対する音声入力部102の処理結果を、アプリケーション104へ渡し、ステップA4へ進む。
【0073】
以上が本発明に係る第1実施形態の構成とその機能である。
【0074】
ここで先ず上述した処理について、具体例を用いて詳しく説明する。
【0075】
(1)まず、ステップA1の処理によって、本装置の音声入力が非受け付け状態になる。
【0076】
(2)ここで、利用者の周囲で雑音が発生したとする。
【0077】
(3)ここでは音声入力は非受け付け状態にあるので、この雑音に起因する音声認識の誤認識は発生しない。
【0078】
(4)つづいて、利用者が本装置への音声入力を行なうために、発声のために大きく息を吸ったものとする。
【0079】
(5)この行動が、呼吸検出部101によって検知され、図2のp104のエントリに示した通りの呼吸状況情報が出力される。
【0080】
(6)さらに、ステップA2〜A4の処理によって、音声入力が受け付け状態に変更され、タイマTがスタートされる。
【0081】
(7)ここで利用者が音声入力を行なったとする。
【0082】
(8)ここまでの処理によって音声入力は受け付け状態であるため、利用者の音声入力が受け付けられ、ステップA8によって、その処理結果がアプリケーション104へと送られ、所望のサービスが利用者に提供される。
【0083】
以上の処理によって、利用者は明示的あるいは恣意的な操作をすることなく自然に音声入力を行なうことが可能となり、また周囲雑音による誤動作の発生も解消することが出来ている。
【0084】
(9)その後、ステップA4の処理によってタイマTがリスタートされる。
【0085】
(10a)もしこの段階で利用者が行なうべき音声入力がない場合には、利用者は、黙っていることとなり、タイマTがtAを経過した段階でステップA5の処理によって、ステップA1へ進み、音声入力が非受け付け状態に戻る。
【0086】
(10b)あるいは、もしこの利用者が次に行なうべき音声入力があり、次の音声入力を行なった場合には、ステップA6の処理によって、再度音声が受け付けられ、ステップA8によって、その処理結果がアプリケーション104へと送られ、所望のサービスが利用者に提供されたのち、ステップA4へ進み、タイマTがリスタートされ、利用者からの音声入力の待ち受け時間が延長される。
【0087】
(10c)あるいは、もしこの利用者が次に行なうべき音声入力があるが、まだ発声を行わず、発声準備のために息継ぎを行なった場合には、ステップA7の処理によって、ステップA4へ進み、タイマTがリスタートされ、利用者からの音声入力の待ち受け時間が延長される。
【0088】
(11)以上の音声入力処理あるいは音声入力の待ち受け時間の延長処理は、利用者の行動に応じて任意回必要なだけ繰り返されたのち、ステップA5の分岐によって、ステップA1に進み、初期状態に戻る。
【0089】
かくしてこのように構成された本装置の第1の実施形態によれば、音声入力の解析精度が不十分さに起因する誤認識や、利用者が入力音声として意図した信号部分の切りだしの失敗に起因する誤動作を起こさず、利用者への余分な負担を生じないマルチモーダルインタフェース装置およびマルチモーダルインタフェース方式を提供することが可能となる。
【0090】
また、本来不要な場面での、入力音声信号の処理負荷を軽減し、利用している装置に関与する他のサービスの実行速度や利用効率が低下しない、マルチモーダルインタフェース装置およびマルチモーダルインタフェース方式を提供することが出来る。
【0091】
また、音声入力を行なう際に、たとえば、ボタンを押したり、メニュー選択などといった特別な操作によるモード変更が必要なく、自然で、利用者にとって繁雑でなく、習得のための訓練が不要であり、利用者の負担を増加しないマルチモーダルインタフェース装置およびマルチモーダルインタフェース方式を提供することが出来る。
【0092】
また、例えば、口だけを使ってコミュニケーションが出来、例えば手で行なっている作業を妨害することがなく、双方を同時に利用することが可能であると言う、音声メディア本来の利点を活かすことが出来るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方式を提供することが出来る。
【0093】
また、人間同士のコミュニケーションにおいては重要な役割を演じていると言われる、非言語メッセージを、効率的に利用することが出来るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方式を提供することが出来るなど、多大な効果が奏せられる。
【0094】
(ii)第2の実施形態
続いて、図面を参照して本発明の第2実施形態に係るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法について説明する。
【0095】
図4は、本発明の第2実施形態に係るマルチモーダルインタフェース装置の構成例を表しており、注視対象検出部201、ジェスチャ認識部202、制御部203、およびアプリケーションプログラム204から構成されている。
【0096】
図4に於いて、201は注視対象検出部を表しており、例えば、特願平09−62681号の「オブジェクト操作装置およびオブジェクト操作方法」と同様の方法によって、例えば利用者の姿を観察した画像情報の解析などによって、利用者が注視している対象を検出し、注視対象情報として随時出力するようにしている。
【0097】
図5は、注視対象検出部201の出力する注視対象情報の例を表している。
【0098】
図5の各エントリに於いて、IDの欄には、各注視対象情報の識別信号が記録されており、時間情報Aの欄には対応する注視が検出された時刻に関する情報が記録されるようにしている。
【0099】
また、対象情報Bの欄には、対応する注視の対象となった物体あるいは領域を表す記号が記録されるようにしている。
【0100】
(なお、図5のエントリq251およびq252の対象情報Bの欄に記載された記号「マインズアイ」については後述する。)
図4に於いて、202はジェスチャ認識部を表しており、これは、単数または複数のカメラなどによって得られる利用者の画像情報の処理、あるいは赤外線センサなどの遠隔センサ、装着センサなどによって得られる信号の処理などによって、利用者の手など体の部分あるいは体の全体の動作を解析し利用者からのジェスチャ入力を認識するものであり、ジェスチャ入力の解析、認識は、例えば、“Uncalibrated Stereo Vision with Pointing for a Man−Machine Interface”(R.Cipolla, et.al., Proceedings of MVA’94, IAPR Workshop on Machine Vision Application, pp.163−166, 1994.)などに示された方法を用いることができる。
【0101】
図6は、ジェスチャ認識部202が出力するジェスチャ認識情報の例を表している。図6の各エントリに於いて、IDは各ジェスチャ認識情報の識別記号を表しており、開始時間情報Aおよび終了時間情報Bの欄は、それぞれ対応するジェスチャの開始および終了時刻が記録されるようにしている。
【0102】
また、ジェスチャ種別情報Cの欄にはジェスチャ認識部202における処理によって得られたジェスチャの種別が記号で記録されるようにしている。
【0103】
図4に於いて、203は制御部を表しており、注視対象検出部201、およびジェスチャ認識部202、およびアプリケーション204を制御する。この制御部203が、視線検出情報に基づいて、ジェスチャ入力の受け付け可否、あるいはジェスチャ入力の検出あるいは認識に用いられるパラメータ情報の調整などの制御を行うことにより、本装置の効果が実現される。
【0104】
なお、本制御部203は、本装置の効果を実現する上で重要な役割を担うものであるため、その動作の詳細については後述することとする。
【0105】
図4に於いて、204はアプリケーションを表しており、本部品の役割は、前述第1実施形態におけるアプリケーション104と同様である。
【0106】
続いて制御部203について説明する。
【0107】
図7は、制御部203の内部構成の例を表しており、制御部203が、制御処理部203a、および注視解釈規則記憶部203b、および注視状況記録部203cから構成されていることを示している。
【0108】
図8は注視解釈規則記憶部203bの内容の例を表しており、注視解釈規則の各エントリが、ID、および注視対象情報A、および可能ジェスチャ種別リスト情報Bなどと分類され記録される様にしている。
【0109】
注視解釈規則記憶部203bの各エントリにおいて、IDの欄は対応する規則の識別記号が記録される。
【0110】
また、注視対象情報Aの欄には解釈すべき注視対象情報の注視対象の種類が記録されており、また、可能ジェスチャ種別リスト情報Bの欄には、注視対象情報Aの欄に記録されてた注視対象を注視している状態で、提示されうるジェスチャの種別のリストが記録されるようにしている。
【0111】
図9は注視状況記憶部203cの内容の例を表しており、注視状況記憶部203cの各エントリが、IDおよび、時間情報A、および種別リスト情報Bなどと分類され記録される様にしている。
【0112】
注視状況記憶部203cの各エントリに於いて、IDは対応する注視状況情報の識別記号である。
【0113】
また、時間情報Aの欄には対応する注視情報の表す注視が行なわれた時間が記録されるようにしており、また種別リスト情報Bの欄には、対応する注視が行なわれたことによって規定されるその時点で可能なジェスチャの種別のリストが記録されるようにしている。
【0114】
以上が本発明の第2実施形態に係るマルチモーダルインタフェース装置の構成の説明である。
【0115】
つづいて、制御部203の動作について説明する。
【0116】
制御部203は、並列あるいは交互に動作する以下の処理手順Bおよび処理手順Cに従って動作する。
【0117】
なお、図10は処理手順Bを説明するフローチャートであり、図11は処理手順Cを説明するフローチャートである。
【0118】
<処理手順B>
B1:注視対象検出部201から、注視対象情報Eiを受け取ったら、ステップB2へ進み、そうでない場合にはステップB1へ進む。
【0119】
B2:注視解釈規則記憶部203bを参照し、注視対象情報Eiの対象情報Bと同一の内容を、注視対象情報AにもつエントリSiを探す。
【0120】
B3:注視状況情報記憶部203cに新たなエントリUiを作成し、エントリUiの時間情報Aの欄に、注視対象情報Eiの時間情報Aの内容を複写し、かつエントリUiの種別リスト情報Bの欄に、ステップB2で検索した注視解釈規則記憶部203bのエントリSiの可能ジェスチャ種別リスト情報Bの内容を複写する。
【0121】
B4:ステップB1へ進む。
【0122】
<処理手順C>
C1:ジェスチャ認識部202から、ジェスチャ認識情報Gjを受け取ったら、ステップC2へ進み、そうでなければステップC1へ進む。
【0123】
C2:ジェスチャ認識情報Gjを参照し、その開始時間情報Aの内容Tjsと、終了時間情報Tjeを得る。
【0124】
C3:注視解釈状況記憶部203cの内容を参照し、時間情報Aの値が、Tjs以降で、かつTje以前の値である、注視解釈状況情報202cのエントリの集合Suを得る。
【0125】
C4:集合Suが空集合なら、C7へ進む。
【0126】
C5:エントリの集合Suの全ての要素の種別リスト情報Bの欄に、ジェスチャ認識情報Gjのジェスチャ種別情報Cの内容が含まれる場合は、ステップC6へ進み、そうでない場合はステップC7へ進む。
【0127】
C6:ジェスチャ認識情報Gjをジェスチャ入力として受理し、アプリケーション204へ送りステップC1へ進む。
【0128】
C7:ジェスチャ認識情報Gjをジェスチャ入力として受理せずに破棄し、ステップC1へ進む。
【0129】
続いて、本発明の第2実施形態の処理について、具体例を用いて説明する。
【0130】
(1)まず、時点t10の時点で、本装置の利用者が、他の人物の方向を向いていたものとする。
【0131】
(2)これに対する注視対象検出部201での処理によって、図5のIDがq201に示すような注視対象情報が生成され、制御部203へ伝えられる。
【0132】
(3)このq201の注視対象情報を受けとったため、ステップB1からステップB2へとの分岐が起こり、ステップB2での処理によって注視対象情報q201の対象情報Bと同一の内容である「他人物1」と同じ種類の値を、その注視対象情報Aの欄に持つ注視解釈規則記憶部202bのエントリS401がSiとして検索される。
【0133】
(4)ステップB3での処理によって、注視状況情報記憶部203cに新たなエントリu501が生成され、その時間情報Aの欄に、注視対象情報q201の時間情報Aの内容が複写され、かつ、エントリu501の種別リスト情報Bの欄に、エントリs401の可能ジェスチャ種別リスト情報Bの内容が複写された後、ステップB4によりステップB1へ戻る。
【0134】
(5)以後上記と同様の処理が、注視対象検出部201から順次得られる図5に示した注視対象情報q202〜q104に対して施され、結果として図9に示した注視状況記憶部202cの注視状況情報u502〜u504のエントリが生成される。
【0135】
(6)ここで、ジェスチャ認識部202から図6ジェスチャ認識情報の例のr301のエントリに示したジェスチャ認識情報が得られたとする。
【0136】
(7)このジェスチャ認識情報r301に対して、ステップC1の処理により、ステップC2への分岐が起こる。
【0137】
(8)ステップC2によって、r301の開始時間情報Aの値=t11と終了時間情報Bの値=t12が得られる。
【0138】
(9)続いて、ステップC3の処理によって、注視状況記憶部203cから、t11〜t12の間の注視状況情報が検索され、結果として、エントリu502とエントリu503とを要素とする集合Suが得られる。
【0139】
(10)Suは空集合でないのでステップC4からC5へと進む。
【0140】
(11)ステップC5の処理によって、エントリu502とエントリu503の双方の種別リスト情報Bに、ジェスチャ認識情報r301のジェスチャ種別情報Cの値「うなづき」が含まれるかどうかが調べられるが、ここでは、条件が成立しないため、C7へ進む。
【0141】
(12)ステップC7によって、ジェスチャ認識情報r301が示唆した「うなづき」がジェスチャとして受理されずに破棄されステップC1へ進み初期状態へ戻る。
【0142】
これは、時点t11〜t12に於いて、利用者が他の人物を注視している状態に於いて検出されたうなづきジェスチャの候補は、本装置への入力を意図したジェスチャではないと、本装置が判断したことに相当する。
【0143】
また、以上の処理と同様の処理によって、図6のr302に示したt20〜t24に渡る「うなづき」ジェスチャ認識情報では、図9に示した注視状況記憶部202cのu511〜u516のエントリの種別リスト情報Bの全てが「うなづき」を含んではいないため破棄されるが、これは、時点t20〜t24の利用者のうなづきのジェスチャ入力の可能性を持つ信号が検知されたが、その時点での利用者の注視対象が、「画面」→「利用者手元」→「画面」へと推移していることを根拠として、このジェスチャ入力の候補は誤って抽出されたものであると判断されジェスチャ候補が破棄された例である。
【0144】
一方、時点t31〜t33に渡って検出された図6のr303のエントリに対応するジェスチャ入力候補に関しては、本装置によって「うなづき」のジェスチャ入力として受理され、アプリケーション204へと送られることになる。
【0145】
その手順を順を追って説明する。
【0146】
(1)まず注視対象検出部201での処理によって、図5のIDがq221に示すような注視対象情報が生成され、制御部203へ伝えられる。
【0147】
(2)このq221の注視対象情報を受けとったため、ステップB1からステップB2へとの分岐が起こり、ステップB2での処理によって注視対象情報q221の対象情報Bと同一の内容である「カメラ1」と同じ種類の値を、その注視対象情報Aの欄に持つ注視解釈規則記憶部202bのエントリS404がSkとして検索される。
【0148】
(3)ステップB3での処理によって、注視状況情報記憶部203cに新たなエントリu521が生成され、その時間情報Aの欄に、注視対象情報q221の時間情報Aの内容が複写され、かつ、エントリu521の種別リスト情報Bの欄に、エントリs404の可能ジェスチャ種別リスト情報Bの内容が複写された後、ステップB4によりステップB1へ戻る。
【0149】
(4)以後上記と同様の処理が、注視対象検出部201から順次得られる図5に示した注視対象情報q232〜q234に対して施され、結果として図9に示した注視状況記憶部203cのu522〜u524のエントリが生成される。
【0150】
(5)ここで、ジェスチャ認識部202から図6ジェスチャ認識情報の例のr303のエントリに示したジェスチャ認識情報が得られたとする。
【0151】
(6)このジェスチャ認識情報r303に対して、ステップC1の処理により、ステップC2の分岐が起こる。
【0152】
(7)ステップC2によって、r303の開始時間情報Aの値=t30と終了時間情報Bの値=t33が得られる。
【0153】
(8)続いて、ステップC3の処理によって、注視状況記憶部203cから、t30〜t33の間の注視状況情報が検索され、結果として、エントリu521、エントリu522、エントリu523、およびエントリu524を含む集合Svが得られる。
【0154】
(9)Svは空集合でないのでステップC4からC5へと進む。
【0155】
(10)ステップC5の処理によって、エントリu521〜エントリu524の全種別リスト情報Bに、ジェスチャ認識情報r303のジェスチャ種別情報Cの値「うなづき」が含まれるかどうかが調べられ、ここでは、条件が成立し、C6へ進む。
【0156】
(11)ステップC6によって、ジェスチャ認識情報r303が示唆した「うなづき」がジェスチャとして受理され、アプリケーション204へ送られた上で、ステップC1へ進み初期状態へ戻る。
【0157】
これは、利用者がカメラをずっと注視したままの状態において、提示された「うなづき」ジェスチャの候補は、利用者からシステムへの入力を意図したジェスチャ入力として信頼できるという判断を行ない受理されたことに相当するものである。
【0158】
かくしてこのように構成された本装置の第2実施形態によれば、ジェスチャ入力の解析精度が不十分であるため、たとえば、ジェスチャ入力の認識処理において、入力デバイスから刻々得られる信号のなかから、利用者が入力メッセージとして意図した信号部分の切りだしに失敗するという問題を回避することが出来、その結果、誤動作などによる利用者への負担を起こさないインタフェースを実現することが可能となる。
【0159】
また、利用者が現在の操作対象である計算機などへの入力として用いるだけでなく、例えば周囲の他の人間とのコミュニケーションを行なう場合にも利用されるメディアを用いたインタフェース装置において、利用者がインタフェース装置ではなく、たとえば自分の横にいる他人に対してジェスチャを示したりした場合にも、インタフェース装置が自分への入力であると誤って判断しないインタフェース装置を実現するものである。
【0160】
さらに、たとえば、ボタンを押したり、メニュー選択などによって、特別な操作によって入力モードの変更を行なう必要がないため、自然なインタフェース装置を実現することが出来る。
【0161】
また、本発明によって、人間同士のコミュニケーションにおいては重要な役割を演じていると言われる非言語メッセージを、効果的に利用することが可能となる。
【0162】
(iii)第3の実施形態
続いて、図面を参照して本発明の第3実施形態に係るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法について説明する。
【0163】
図12は、本発明の第3実施形態に係るマルチモーダルインタフェース装置の構成例を示しており、本装置が、注視対象検出部301、および入力部302、および出力部303、および対話管理部304、およびアプリケーション305から構成されていることを表している。
【0164】
図12において、301は注視対象検出部であり、利用者の注視対象を検出するが、本注視対象検出部301に関しては、前述の第2実施形態における注視対象検出部201と同様の構成によって実現し、同様の注視対象情報を出力するものとする。
【0165】
図12において、302は入力部であり、利用者からの音声入力、あるいは画像入力、あるいはキーボード、マウス、ジョイスティック、トラックボール、タッチセンサー、ボタンなどといった機器の操作入力などの、入力を受け付ける様にしている。
【0166】
図12において、303は出力部であり、利用者への音声出力、画像出力、あるいは提力装置を通じた力出力など、出力を提示する様にしている。
【0167】
図12において、304は対話管理部であり、入力部302および出力部303を、例えばスクリプトや、あるいは発話対や、あるいは発話交換構造や、あるいはプランニング手法などを用いた従来手法によって制御し、例えば、利用者からの入力信号の受付と利用者への出力信号の提示、および該入力信号と出力信号の時間調整、あるいは利用者への確認や問い返しのための対話などを含む、利用者と本装置との間での対話(=インタラクション)を実現するようにしている。
【0168】
図12において、305はアプリケーションであり、対話管理部304から提供される利用者からの要求などに対して、例えばデータベースの検索や、推論処理や、あるいは算術処理などによって応答の内容を決定し、対話管理部304に返すようにしている。
【0169】
対話管理部304は、注視対象検出部301から随時提供される注視対象情報を参照して、以下に示す<処理手順D>にしたがった処理によって動作することで、本装置の効果を実現する。
【0170】
なお、図13は処理手順Dを説明するフローチャートである。
【0171】
<処理手順D>
D1:入力部302を通じて利用者からの入力Iを受けとる場合はステップD2へ進み、出力部303を通じて利用者へ出力Oを利用者に出力する場合は、ステップD9へ進む。
【0172】
D2:タイマQをリセットしスタートする。
【0173】
D3:タイマQがあらかじめ定めた値Hを超えたらステップD1へ進む。
【0174】
D4:注視対象検出部301から得られる注視対象情報Wの対象情報Bの内容を参照し、あらかじめ定めた特定の物体あるいは領域である注視対象Xを注視していることが判明したら、ステップD2へ進む。
【0175】
D5:入力302によって、利用者からの入力Iが検知された場合は、ステップD7へ進む。
【0176】
D6:ステップD3へ進む。
【0177】
D7:入力部302による入力Iの処理結果が、対話制御部304を通じて、アプリケーション305へと渡される。
【0178】
D8:アプリケーション305によって、利用者に応答すべき出力Oが決定され、対話管理部304へと渡される。
【0179】
D9:出力部303を通じて、利用者への出力Oの出力を開始する。
【0180】
D10:出力部303を通じての出力Oが終了したらステップD1へ進む。
【0181】
D11:注視対象検出部301から得られる注視対象情報Vの対象情報Bの内容を参照し、あらかじめ定めた特定の物体あるいは領域である注視対象Yへの利用者の注視を検出した場合には、ステップD13へ進む。
【0182】
D12:ステップD10へ進む。
【0183】
D13:現在の出力Oの提示を中断した後で、出力Oの利用者への再提示を行なう。
【0184】
D14:利用者からの、例えば「えっ」といった非言語音声が入力されるなど、本装置から利用者への、出力Oの伝達が正しく行われなかったことを表す明示的な入力がなされた場合には、ステップD16へ進む。
【0185】
D15:ステップD1へ進む。
【0186】
D16:出力Oに関して利用者が理解しているかどうかに関する確認の対話処理を起動する。
【0187】
D17:ステップD1へ進む。
【0188】
続いて、具体的例を用いて第3実施実施形態の動作説明を行なう。
【0189】
まず、仮定として、入力手段302として音声入力を持ち、出力手段303としてスピーカから出力される音声出力とディスプレイからの出力される画像情報出力を持つマルチモーダルインタフェース装置を例として説明を行なう。
【0190】
また、処理手順DのステップD4に現れる特定の注視対象Xとしては、マインズアイ(後述)が設定されているものとし、また処理手順DのステップD11に現れる特定の注視対象Yとして、スピーカ部分が設定されているものとする。
【0191】
まずはじめ、本装置から利用者に向かって、例えば「宛先を教えて下さい」という音声出力がなされ、この質問に対する利用者からの回答を本装置が受けとるという状況であるものとする。
【0192】
この質問に対する利用者からの音声入力を受けとるため、ステップD1からD2への分岐が行われる。
【0193】
続いて、タイマQによって時間Hの間、ステップD2〜ステップD6の処理ループが繰り返されるが、今回はその時間の間に利用者から例えば「神戸市です」という音声入力I1がなされたとする。
【0194】
ここまでに行なわれた処理は、従来のマルチモーダルインタフェース処理あるいは対話装置における処理と同様のものである。
【0195】
次に、上述と同じ状況に対して、利用者が入力すべき情報(例えば宛先)を即座に答えることが出来ず、入力すべき情報を思い出すために、マインズアイと呼ばれる行動をとった場合を考えてみる。
【0196】
このマインズアイとは、人間が何らかの情報を思い出したり、あるいは考えをまとめようとする場合に、ある特定の方向を向く傾向があることを指すものであり、典型的には、斜め上方向を向く場合が多い。
【0197】
本装置では、利用者があらかじめ定めた特定の注視対象(この場合は斜め上方)を注視した場合に、注視対象検出部301が、対象情報Bの値として記号「マインズアイ」を含む注視対象情報W1を出力するようにしている。
【0198】
そのため、処理手順DのステップD2〜D6の利用者からの入力を待つ処理ループの中を処理している間に、利用者がマインズアイと呼ばれる行動(具体的には、この場合は斜め上方向を注視する行動)を行なうと、注視対象検出部301によってそれが検知され、例えば図5のエントリq251あるいはq252の対象情報Bの欄に示した記号「マインズアイ」を含む注視対象情報が出力されることとなる。
【0199】
これにより、ステップD4からステップD2へと進み、タイマQがリセットされ、結果として利用者の入力を待つ時間が延長されることとなる。
【0200】
以上の処理によって、本装置では利用者が入力すべき情報を想起するなどのために、マインズアイと呼ばれる行動を行なった際に、自動的に入力待ち受け時間が延長され、結果としてユーザフレンドリーなマルチモーダルインタフェースが実現されることとなる。
【0201】
つづいて、この音声入力I1により、ステップD5からステップD7〜D8へと進み、例えば、利用者の出力として「新しい郵便番号を教えて下さい」という音声出力に対応する出力O1がアプリケーション305によって、決定され、対話管理部304に渡されたものとする。
【0202】
続いて、ステップD9へと進み、出力O1に関する音声出力「新しい郵便番号…」が利用者へと提示され始めたものとする。
【0203】
ここから、ステップD10〜D12の処理ループによって、利用者への出力O1の提示が続けられるが、今回は、その出力の途中で、利用者が現在提示されつつある出力の一部分、例えば「新しい郵便番号」の部分が、聞きとれなかったため、スピーカを注視したものとする。
【0204】
この利用者のスピーカへの注視は、注視対象検出部301により検知され、注視対象情報V1として対話管理部304に渡される。
【0205】
この注視対象情報V1により、ステップD11からステップD13へと分岐する。
【0206】
ステップD13により、現在出力途中であった出力は中断され、出力部302を通じて、再度利用者に提示され直す。
【0207】
ここで、利用者が再提示出力を受け取れた場合には、ステップD15からステップD1へとすすみ初期状態へと戻る。
【0208】
以上の処理によって、本装置では、利用者が出力情報の受け取りに失敗した場合にも、あらかじめ定めた特定の注視対象を注視するだけで再提示が行われるため、出力情報を正しく受け取ることが出来る。
【0209】
なおこれは、人間が人間同士の対話に於いて、例えば理解できなかったりあるいは聞き取りに失敗した場合などに、無意識に対話相手を見ることによって、その障害の発生を対話相手にフィードバックするという行動と同様の行動を、本装置に対して行なう利用者に対して適切に対応するための機能を実現するものである。
【0210】
あるいは、ステップD13の再提示によっても利用者が出力情報を正しく受け取れなかった場合にも、その障害の発声を利用者が明示的に提示することで、ステップD14、D16〜D17の処理によって、確認の対話を起動することが出来る。
【0211】
かくしてこのように構成された本第3実施形態によれば、利用者が情報入力の待ち受け時間を延長するために、例えばボタンを押すなどといった恣意的な操作を行なうことが不要で、自然で、利用者にとって繁雑でなく、習得のための訓練が不要であり、利用者の負担を増加しないマルチモーダルインタフェース装置およびマルチモーダルインタフェース方式を提供することが可能となる。
【0212】
また、人間同士のコミュニケーションにおいては重要な役割を演じていると言われる、非言語メッセージを、効果的に利用することが出来るマルチモーダルインタフェース装置およびマルチモーダルインタフェース方式を提供することが可能となる。
【0213】
また、利用者からの入力に対応して利用者への適切な出力を行なったり、あるいは利用者からの入力と利用者への出力のタイミングを適切に制御するために、利用者の発話が開始されるタイミングや、あるいは利用者の発話が終了するタイミングなどを、事前に予測することが可能となる。
【0214】
また、利用者からの入力の認識に失敗したり、あるいは利用者への情報の出力に失敗をした場合など、利用者との間のコミュニケーションに関する何らかの障害が発生した場合などには、その障害の発生を適切に検知することが可能となる。
【0215】
また、検知した障害を解決するための、例えば確認のための情報の再提示や、あるいは利用者への問い返し質問対話や、あるいは対話の論議の流れの適切な管理を行なうことが可能となる。
【0216】
尚、本発明は、以上の各実施形態に限定されるものではない。
【0217】
まず、上述の第1実施形態では、利用者の呼吸状態の検出にカメラから得られる画像情報の解析による方法を示したが、例えば利用者の身体や衣服などに装着あるいは近接して設置するセンサーなどを用いた方法によっても、同様の効果を得ることが可能である。
【0218】
また、上述の第1実施形態では、検知した利用者の呼吸の状態に関する情報を、利用者の発話の開始時間の予測や、あるいはある発話に継続して行なわれる発話の検出などに利用する例を示したが、例えば利用者の呼吸の深さまでを検出し、呼吸の深さと、後続する発話の全体、あるいは次の息継ぎまでのフレーズの長さとの関係を、あらかじめ用意しておいたり、あるいはその時点までの実際の利用履歴から抽出した学習データなどから推測した値などを参照することで、利用者の呼吸の深さに応じて、続く発話の長さを予測し、該発声の取り込み処理や、あるいは音響分析や、あるいは言語的解析処理や、あるいは対話における発話交替タイミング管理処理などに於いて、利用するように構成することも可能である。
【0219】
また、上述の第2実施形態では、<処理手順C>のステップC2〜ステップC5の処理において、各ジェスチャ入力候補の開始時間と終了時間との間の全時間区間に対応する注視状況情報記憶部202cのエントリに関して、種別リスト情報Bを参照した条件判断を行ない、該ジェスチャ入力候補を受理すべきかどうかを判断するようにしているが、例えば、該ジェスチャ入力候補の提示されている時間の内の、例えば時間比率の上での最初の一部分であるとか、あるいは最後の一部分であるとか、あるいは最初の一部分と最後の一部分の双方などといった、特定の部分に関してのみ、同様の条件判断を行なって、該ジェスチャ入力候補を受理すべきかどうかを判断するように構成することも可能である。
【0220】
さらに、この条件判断に使う部分の時間的位置や、箇所数などを利用毎にあらかじめ調整しておいたり、あるいは自動的適応的に調整する様に構成することも可能であり、これにより、ある利用者は例えばある特定の方向を注視しながらジェスチャ入力を開始し、その後視線を逸した後該ジェスチャ入力を終えるといった癖などを持っている場合にも適切にジェスチャ入力を受理することのできるマルチモーダルインタフェース装置およびマルチモーダルインタフェース方法を実現することが出来る。
【0221】
また、上述の第1乃至第3実施形態では、装置として本発明を実現する場合のみを示したが、上述の具体例の中で示した処理手順、フローチャートをプログラムとして記述し、実装し、汎用の計算機システムで実行することによっても同様の機能と効果を得ることが可能である。
【0222】
すなわち、この場合図14の汎用コンピュータの構成の例に示したように、CPU401、メモリ402、大容量記憶装置403、通信インタフェース404からなる汎用コンピュータに、入力インタフェース404a〜404nと、入力デバイス405a〜405n、そして、出力インタフェース407a〜407m、出力デバイス408a〜408mを設け、入力デバイス406a〜406nに、マイクやキーボード、ペンタブレット、OCR、マウス、スイッチ、タッチパネル、カメラ、データグローブ、データスーツといった部品を使用し、出力デバイス408a〜408mとして、ディスプレイ、スピーカ、フォースディスプレイ、等を用いて、CPU401によるソフトウェア制御により、上述のごとき動作を実現することが出来る。
【0223】
すなわち、第1乃至第3実施形態に記載した手法は、コンピュータに実行させることの出来るプログラムとして、磁気ディスク(フロッピーディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、半導体メモリなどの記録媒体を用いてコンピュータにプログラムを読み込み、CPU405で実行させれば、本発明のマルチモーダルインタフェース装置を実現することが出来ることになる。
【0224】
【発明の効果】
以上説明したように、本発明によれば、新たに利用可能となった各入出力メディアあるいは、複数の入出力メディアを効率的に利用し、高能率で、効果的で、利用者の負担を軽減することが出来るマルチモーダルインタフェースを実現することができる。
【図面の簡単な説明】
【図1】本発明の第1実施形態に係るマルチモーダルインタフェース装置の構成を示すブロック図。
【図2】同第1実施形態のマルチモーダルインタフェース装置で用いられる呼吸状況情報の例を示す図。
【図3】同第1実施形態のマルチモーダルインタフェース装置の処理手順(A)の内容を示すフローチャート。
【図4】本発明の第2実施形態に係るマルチモーダルインタフェース装置の構成を示すブロック図。
【図5】同第2実施形態のマルチモーダルインタフェース装置で用いられる注視対象情報の例を示す図。
【図6】同第2実施形態のマルチモーダルインタフェース装置で用いられるジェスチャ認識情報の例を示す図。
【図7】同第2実施形態のマルチモーダルインタフェース装置に設けられた制御部の内部構成の例を示すブロック図。
【図8】同第2実施形態のマルチモーダルインタフェース装置で用いられる注視解釈規則記憶部の内容の例を示す図。
【図9】同第2実施形態のマルチモーダルインタフェース装置で用いられる注視状況記憶部の内容の例を示す図。
【図10】同第2実施形態のマルチモーダルインタフェース装置の処理手順(B)の内容を示すフローチャート。
【図11】同第2実施形態のマルチモーダルインタフェース装置の処理手順(C)の内容を示すフローチャート。
【図12】本発明の第3実施形態に係るマルチモーダルインタフェース装置の構成を示すブロック図。
【図13】同第3実施形態のマルチモーダルインタフェース装置の処理手順(D)の内容を示すフローチャート。
【図14】本発明の各実施形態に係るマルチモーダルインタフェース装置を実現するコンピュータの構成例を示すブロック図。
【符号の説明】
101…呼吸検出部
102…音声入力部
103…制御部
104…アプリケーション
201…注視対象検出部
202…ジェスチャ認識部
203…制御部
204…アプリケーション
203a…制御処理部
203b…注視解釈規則記憶部
203c…注視状況記憶部
301…注視対象検出部
302…入力部
303…出力部
304…対話管理部
305…アプリケーション
401…CPU
402…メモリ
403…大容量記憶装置
404…通信インタフェース
405a〜n…入力デバイス
406a〜n…入力インタフェース
407a〜m…出力デバイス
408a〜m…出力インタフェース

Claims (4)

  1. 利用者の呼吸の状況を観察し利用者の呼吸の状態が定常状態での吸気または排気である定常呼吸であるか深呼吸または息継ぎによる非定常状態での吸気である非定常吸気であるかを示す呼吸状況情報出力する呼吸状況認識手段と、
    利用者の発する音声の、取り込み、あるいは録音、あるいは加工、あるいは分析、あるいは認識の少なくとも一つの処理を行なう入力音声処理手段と、
    前記呼吸状況情報に基づいて前記利用者の非定常吸気が検出された場合、前記入力音声処理手段を制御して、利用者からの音声入力を非受け付け状態から受け付け状態に切り替える受け付け可否制御処理を実行する制御手段とを具備したことを特徴とするマルチモーダルインタフェース装置。
  2. 前記呼吸状況認識手段は、
    利用者の様子を撮影することにより得られた画像情報の処理、あるいは利用者の身体に装着あるいは近接して配置したセンサから得られたセンサ情報の処理によって、利用者の呼吸の状況を観察することを特徴とする請求項1記載のマルチモーダルインタフェース装置。
  3. 利用者の呼吸の状況を観察し利用者の呼吸の状態が定常状態での吸気または排気である定常呼吸であるか深呼吸または息継ぎによる非定常状態での吸気である非定常吸気であるかを示す呼吸状況情報を出力する呼吸状況認識ステップと、
    利用者の発する音声の、取り込み、あるいは録音、あるいは加工、あるいは分析、あるいは認識の少なくとも一つの処理を行なう入力音声処理ステップと、
    前記呼吸状況情報に基づいて前記利用者の非定常吸気が検出された場合、前記入力音声処理ステップを制御して、利用者からの音声入力を非受け付け状態から受け付け状態に切り替える受け付け可否制御処理を実行する制御ステップとを具備したことを特徴とするマルチモーダルインタフェース方法。
  4. 前記呼吸状況認識ステップは、
    利用者の様子を撮影することにより得られた画像情報の処理、あるいは利用者の身体に装着あるいは近接して配置したセンサから得られたセンサ情報の処理によって、利用者の呼吸の状況を観察することを特徴とする請求項3記載のマルチモーダルインタフェース方法。
JP04836498A 1998-02-27 1998-02-27 マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法 Expired - Fee Related JP3844874B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP04836498A JP3844874B2 (ja) 1998-02-27 1998-02-27 マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP04836498A JP3844874B2 (ja) 1998-02-27 1998-02-27 マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法

Publications (2)

Publication Number Publication Date
JPH11249773A JPH11249773A (ja) 1999-09-17
JP3844874B2 true JP3844874B2 (ja) 2006-11-15

Family

ID=12801303

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04836498A Expired - Fee Related JP3844874B2 (ja) 1998-02-27 1998-02-27 マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法

Country Status (1)

Country Link
JP (1) JP3844874B2 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4481663B2 (ja) * 2004-01-15 2010-06-16 キヤノン株式会社 動作認識装置、動作認識方法、機器制御装置及びコンピュータプログラム
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US9833697B2 (en) 2013-03-11 2017-12-05 Immersion Corporation Haptic sensations as a function of eye gaze
JP2016042345A (ja) * 2014-08-13 2016-03-31 日本電信電話株式会社 推定装置、その方法およびプログラム
CN107003996A (zh) 2014-09-16 2017-08-01 声钰科技 语音商务
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
CN107003999B (zh) 2014-10-15 2020-08-21 声钰科技 对用户的在先自然语言输入的后续响应的系统和方法
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
JP6658306B2 (ja) * 2016-05-27 2020-03-04 トヨタ自動車株式会社 音声対話システムおよび発話タイミング決定方法
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
JP6842489B2 (ja) * 2019-03-28 2021-03-17 Necパーソナルコンピュータ株式会社 電子機器、制御方法およびプログラム
JP2019208215A (ja) * 2019-06-20 2019-12-05 日本電信電話株式会社 推定装置、推定方法、およびプログラム
JP7597040B2 (ja) * 2020-01-31 2024-12-10 ソニーグループ株式会社 情報処理装置及び情報処理方法
JPWO2021153427A1 (ja) * 2020-01-31 2021-08-05
JP7458223B2 (ja) * 2020-03-26 2024-03-29 本田技研工業株式会社 待機時間調整方法、装置、およびプログラム
WO2021234839A1 (ja) * 2020-05-20 2021-11-25 三菱電機株式会社 対話予兆検知装置、および、対話予兆検知方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5648700A (en) * 1979-09-28 1981-05-01 Matsushita Electric Ind Co Ltd Nasal sound detector
JP2666296B2 (ja) * 1987-09-10 1997-10-22 日本電気株式会社 音声認識装置
JPH0612206A (ja) * 1992-06-29 1994-01-21 Fuji Xerox Co Ltd 入出力装置
JP3984658B2 (ja) * 1993-05-20 2007-10-03 キヤノン株式会社 情報処理装置及びその方法
JP3375449B2 (ja) * 1995-02-27 2003-02-10 シャープ株式会社 統合認識対話装置
JPH08234787A (ja) * 1995-03-01 1996-09-13 Hitachi Zosen Corp 再スタート用機能付音声認識装置
JPH0981309A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 入力装置
JPH09218770A (ja) * 1996-02-14 1997-08-19 Toshiba Corp 対話処理装置および対話処理方法
JPH09222899A (ja) * 1996-02-16 1997-08-26 Nippon Telegr & Teleph Corp <Ntt> 単語音声認識方法およびこの方法を実施する装置
JPH09269889A (ja) * 1996-04-02 1997-10-14 Sharp Corp 対話装置
JP3248677B2 (ja) * 1997-03-14 2002-01-21 株式会社半導体エネルギー研究所 遊技機

Also Published As

Publication number Publication date
JPH11249773A (ja) 1999-09-17

Similar Documents

Publication Publication Date Title
JP3844874B2 (ja) マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
Oviatt Advances in robust multimodal interface design
CN107340865B (zh) 多模态虚拟机器人交互方法和系统
CN102292689B (zh) 利用脸部检测和热点运动控制媒体的方法
CN110598576B (zh) 一种手语交互方法、装置及计算机介质
JP5323770B2 (ja) ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
WO2016150001A1 (zh) 语音识别的方法、装置及计算机存储介质
JP3886074B2 (ja) マルチモーダルインタフェース装置
Shahbazian Multimodal input fusion in human-computer interaction
JPH08339446A (ja) 対話装置
US20120019684A1 (en) Method for controlling and requesting information from displaying multimedia
CN106971723A (zh) 语音处理方法和装置、用于语音处理的装置
CN104410883A (zh) 一种移动可穿戴非接触式交互系统与方法
US10388325B1 (en) Non-disruptive NUI command
JP6708865B2 (ja) 顧客応対システム及び顧客応対方法
KR20200090355A (ko) 실시간 번역 기반 멀티 채널 방송 시스템 및 이를 이용하는 방법
JP2024532640A (ja) マルチヒューマンコンピュータインタラクションシーンでの話し相手の検出
CN112053689A (zh) 基于眼球和语音指令的操作设备的方法和系统及服务器
CN115376517A (zh) 一种会议场景下的说话内容的显示方法和装置
WO2021166811A1 (ja) 情報処理装置および行動モード設定方法
JP6798258B2 (ja) 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
Harada et al. VoiceLabel: using speech to label mobile sensor data
Goetze et al. Multimodal human-machine interaction for service robots in home-care environments
CN115909505A (zh) 手语识别设备的控制方法、装置、存储介质及电子设备
KR20170029390A (ko) 음성 명령 모드 진입 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060724

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060817

LAPS Cancellation because of no payment of annual fees