[go: up one dir, main page]

JP2018036902A - 機器操作システム、機器操作方法および機器操作プログラム - Google Patents

機器操作システム、機器操作方法および機器操作プログラム Download PDF

Info

Publication number
JP2018036902A
JP2018036902A JP2016170107A JP2016170107A JP2018036902A JP 2018036902 A JP2018036902 A JP 2018036902A JP 2016170107 A JP2016170107 A JP 2016170107A JP 2016170107 A JP2016170107 A JP 2016170107A JP 2018036902 A JP2018036902 A JP 2018036902A
Authority
JP
Japan
Prior art keywords
input
gesture
voice
intention
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016170107A
Other languages
English (en)
Inventor
祐司 篠村
Yuji Shinomura
祐司 篠村
藤原 直樹
Naoki Fujiwara
直樹 藤原
泉 賢二
Kenji Izumi
賢二 泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shimane Prefecture
Original Assignee
Shimane Prefecture
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shimane Prefecture filed Critical Shimane Prefecture
Priority to JP2016170107A priority Critical patent/JP2018036902A/ja
Publication of JP2018036902A publication Critical patent/JP2018036902A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】ジェスチャ入力と音声入力とに基づいて操作する操作対象の機器に対して、操作を意図しない入力による誤入力がなされることが防止した機器操作システムを提供すること。【解決手段】ジェスチャ入力と音声入力とに基づいて機器を操作する機器操作システムであって、ジェスチャ入力および音声入力による前記機器の操作を実行せずに、操作意思の有無を確認する操作意思確認手段と、ジェスチャ入力と音声入力との少なくとも一方の入力による前記機器の操作を指示する操作指示手段とを備え、前記操作意思確認手段は、操作意思を示す特定のジェスチャが前記ジェスチャ入力として検出されたと判定され、かつ操作意思を示す特定の音声キーワードが前記音声入力として検出された場合に、前記操作意思が有りと判断して、前記操作指示手段による処理に移行することを特徴とする機器操作システムである。【選択図】図2

Description

本発明は機器操作システム、機器操作方法および機器操作プログラムに関する。
従来、入力用のユーザインタフェースとして、ユーザの身振り、手まねなどをカメラなどの撮像装置より画像として取得し、画像処理により認識するジェスチャ認識技術を用いたジェスチャ入力装置が知られている。例えば、車両の運転席前面に設けられた表示装置における表示内容をジェスチャ操作により変更すること(特許文献1)や、HMD(Head Mounted Display)における視点切り替えをジェスチャ入力により行なうこと(特許文献2)が知られている。特許文献2のHMDでは、ジェスチャ以外にもボタン/スイッチ入力、視線入力、音声入力、筋電入力、脳波入力などの複数の入力手段を用いて表示を切り替えることができる。
ジェスチャ入力を含む複数の入力手段によって機器を操作することは、他にも特許文献3や特許文献4にも記載されている。特許文献3のマルチモーダル入力・ユーザインタフェースは、音声認識した結果とジェスチャ入力を含むその他の入力結果を統合して尤度の高い解釈結果を出力することが記載されている。特許文献4には2種以上の異なる入力情報から、入力情報の種類ごとに入力操作の意味する意味情報を認識して、2つ以上の意味情報を組み合わせることにより、対象装置に所定の動作を実行させることが記載されている。
特開2014−8818号公報 特開2014−115457号公報 特開2006−48628号公報 特開2012−103840号公報
しかしながら、従来技術では、例えば、意図しないジェスチャ入力により誤作動が発生してしまうという問題がある。操作者が無意識に何らかの動作をした場合に、その動作が入力操作として操作者が意図した動作なのか、操作を意図しない動作なのかを、システム側で判別することは容易ではない。例えば、ジェスチャ操作可能なサイネージ(signage:デジタルサイネージ)の前を単に横切る人の動作を、サイネージが入力操作として誤検出し、サイネージが誤作動する可能性がある。
本発明は上述の問題に鑑みなされたものであって、本発明の課題は、ジェスチャ入力と音声入力とに基づいて操作可能な操作対象機器に対して、操作を意図しない動作や発話による誤入力がなされることが防止可能な機器操作システム、機器操作方法および機器操作プログラムを提供することにある。
上記課題を解決するための一実施形態に記載された発明は、ジェスチャ入力と音声入力とに基づいて機器を操作する機器操作システムであって、ジェスチャ入力および音声入力による前記機器の操作を実行せずに、操作意思の有無を確認する操作意思確認手段と、ジェスチャ入力と音声入力との少なくとも一方の入力による前記機器の操作を指示する操作指示手段とを備え、前記操作意思確認手段は、操作意思を示す特定のジェスチャが前記ジェスチャ入力として検出されたと判定され、かつ操作意思を示す特定の音声キーワードが前記音声入力として検出された場合に、前記操作意思が有りと判断して、前記操作指示手段による処理に移行することを特徴とする機器操作システムである。
他の実施形態に記載された発明は、ジェスチャ入力と音声入力とに基づいて機器を操作する機器操作方法であって、ジェスチャ入力と音声入力とに基づいて機器を操作する機器操作方法であって、ジェスチャ入力および音声入力による前記機器の操作を実行せずに、操作意思の有無を確認する操作意思確認段階と、ジェスチャ入力と音声入力との少なくとも一方の入力による前記機器の操作を指示する操作指示段階とを含み、前記操作意思確認段階において操作意思を示す特定のジェスチャが前記ジェスチャ入力として検出されたと判定され、かつ操作意思を示す特定の音声キーワードが前記音声入力として検出された場合に、前記操作意思が有りと判断して、前記操作指示段階に移行することを特徴とする機器操作方法である。
さらに他の実施形態に記載された発明は、ジェスチャ入力と音声入力とに基づいて機器を操作する機器操作方法をコンピュータに実行させるプログラムであって、該機器操作方法は、ジェスチャ入力および音声入力による前記機器の操作を実行せずに、操作意思の有無を確認する操作意思確認段階と、ジェスチャ入力と音声入力との少なくとも一方による前記機器の操作を指示する操作指示段階とを含み、前記操作意思確認段階において、操作意思を示す特定のジェスチャが前記ジェスチャ入力として検出されたと判定され、かつ操作意思を示す特定の音声キーワードが前記音声入力として検出された場合に、前記操作意思が有りと判断して前記操作指示段階に移行することを特徴とする機器操作プログラムである。
実施形態に記載の機器操作システムの構成例を示すブロック図である。 実施形態に記載の機器操作システムの動作の一例を示すフロー図である。 ジェスチャ入力判定処理の一例を示すフロー図である。 音声入力判定処理の一例を示すフロー図である。 フラグ判定処理の一例を示すフロー図である。 図3から図5の処理のタイミングチャートの一例を示す図である。 表示装置がある場合に表示装置に表示されるフィードバック表示を示す図である。 表示装置がある場合に表示装置に表示されるフィードバック表示を示す図である。 表示装置がある場合に表示装置に表示されるフィードバック表示を示す図である。 発光灯の発光例を示している。 優先操作者の設定を説明するための図である。 優先操作者の切り替えを説明するための図である。 複数操作者の設定を説明するための図である。 機器操作システムが搭載されたサイネージとこれを操作する操作者を示す説明図である。 サイネージのTOP画面を示す図である。 操作者とフィードバック表示の関係を示す図である。 サイネージのメニュー項目の階層構造を示す図である。 操作対象機器が家電機器である場合の機器操作システムの構成例を示す図である。 操作対象機器が家電機器である場合の機器操作システムの動作を説明する図である。 操作対象機器が家電機器である場合の機器操作システムの動作を説明する図である。 操作対象機器が家電機器である場合の機器操作システムの動作を説明する図である。 操作対象機器が家電機器である場合の機器操作システムの動作を説明する図である。 操作対象機器が家電機器である場合の機器操作システムの他の構成例を示す図である。 操作対象機器が家電機器である場合の機器操作システムの動作を説明する図である。 操作対象機器が家電機器である場合の機器操作システムの動作を説明する図である。 操作対象機器が家電機器である場合の機器操作システムの動作を説明する図である。 自動車装備の制御システムに組み込まれた機器操作システムの構成例を示す図である。 操作対象機器が自動車装備である場合の操作意思判定フェーズを説明する図である。 操作対象機器が自動車装備である場合の操作指示フェーズを説明する図である。 操作対象機器が自動車装備である場合の操作指示フェーズを説明する図である。 操作対象機器が自動車装備である場合の操作指示フェーズを説明する図である。 操作対象機器が自動車装備である場合の操作指示フェーズを説明する図である。
以下、本発明の実施の形態について、詳細に説明する。実施形態に記載の機器操作システムは、サイネージ、PC、スマートフォン、HMD、家電機器、自動車装備などの各種機器をジェスチャ入力および音声入力により操作する機器操作システムとして構成される。
(システム構成)
図1は、実施形態に記載の機器操作システムの構成例を示すブロック図である。図1に示すように、機器操作システム1は、中央処理装置(CPU:Central Processing Unit)11と、読み取り専用メモリ(ROM:Read Only Memory)12と、ランダムアクセスメモリ(RAM:Random Access Memory)13と、音声入力部14と、撮像部15と、出力部16、機器機能処理部17と、これらを接続する接続手段10とを備えて構成される。
機器機能処理部17は操作対象の機器自体の機能を発揮するための処理を行なう装置であり、例えば、照明における照明装置である。機器機能処理部17は単独の装置であってもよいが、CPU11,ROM12およびRAM13に一体的に組み込んでもよい。
CPU11は、各構成要素11,12,13,14,15,16,17とバスなどの接続手段10で接続されて、制御信号やデータの転送処理を行うとともに、音声入力部14における音声入力及び撮像部15によるジェスチャ入力に応答して、機器操作システム1全体の動作を実現するための各種のプログラムの実行、演算処理等を行う。
接続手段10は、機器操作システム1の各構成要素を接続するバスなどの接続手段であり、機器操作システム1の構成要素がそれぞれ独立した装置である場合は、有線または無線で各構成要素を接続する手段である。
ROM12には、機器操作システム1全体の動作に必要なプログラムおよびデータを格納する。これらプログラムはDVD−ROM、HDD、SDD等の記録媒体に格納されており、RAM13に読み出されてCPU11による実行が開始され、本実施形態の機器制御システム1の処理を行う。なお、このようなROMに代えて、クラウドサービスを用いて必要なプログラムおよびデータを取り込むことももちろん可能である。
RAM13には、後述する音声入力処理およびジェスチャ入力処理を行うためのソフトウエアに従って作成されたプログラム、および音声入力のデータおよびジェスチャ入力のデータを一時的に保持する。
音声入力部14は、音声入力を行なう手段であり、例えば、集音マイク、指向性マイクなどを用いることができる。
撮像部15は、ジェスチャ入力を行なう手段であり、操作者の身体の動きを撮影可能なRGBカメラ、赤外線カメラ、距離画像カメラ(Time of Flight方式など)や、操作者の身体の動きを検知可能な超音波カメラ、ステレオカメラなどを用いることができる。撮像部15は、操作者のどのような動きを動作判定に用いるかに応じて、その設置位置を決定すればよい。撮像部15で撮影した操作者の身体の動きからジェスチャ入力を検出する。例えば、手の動きをジェスチャ入力とする場合は、撮影した操作者の身体の動きから、手の動きをジェスチャ入力として検出する。
出力部16は、各種の出力をするためのものであり、表示によるフィードバックを行なう表示装置、音声によるフィードバックを行なうスピーカなどを用いることができる。操作対象機器が表示装置、スピーカなどを備えている場合は操作対象機器の表示装置、スピーカなどが出力部16を兼ねてもよい。
(処理フロー)
図2は、実施形態に記載の機器操作システムの動作の一例を示すフロー図である。図3は、ジェスチャ入力判定処理の一例を示すフロー図であり、図4は音声入力判定処理の一例を示すフロー図であり、図5は、フラグ判定処理S1の一例を示すフロー図であり、図6は図3から図5の処理のタイミングチャートの一例を示す図である。図1を参照しながら、図2から図6に基づいて機器操作システムの動作を説明する。
機器操作システム1の電源が投入されるなどすると、図2に示す動作を実行するプログラムが起動するとともに図3に示すジェスチャ入力判定処理と図4に示す音声入力判定処理とが開始される。これらの処理プログラムおよび処理に必要なデータはROM12などの記憶手段に予め記憶されている。機器操作システム1では、図1に示すCPU11が機器操作システム1の各部と協働して、操作者からの入力に基づいて、ジェスチャ入力判定処理および音声入力判定処理を実行しつつ、操作者の意思を判定する操作意思判定フェーズF1と、実際に操作を指示する操作指示フェーズF2を順に実行する。
操作意思判定フェーズF1は、何らかの入力があった場合に、操作者が操作の意思を有するのか否かを判定するための処理を行なうフェーズであり、実際に機器に対する操作処理をしないフェーズである。次の操作指示フェーズF2では、操作者が操作の意思を有することが確認された場合に操作者の入力に応じて実際に個別具体的に機器を操作する処理を行なうフェーズである。
操作意思判定フェーズF1では、ジェスチャ入力および音声入力の両方の操作手段を用いた操作入力を受け付けるが、両方の操作手段を用いた入力が完了しても実際の機器を操作する処理は行なわない。すなわち、操作意思判定フェーズF1では、原則として機器機能処理部17による処理を行なわない。操作意思判定フェーズF1では、操作者の意思を確認する以外にも、操作者が行なった操作入力(ジェスチャ入力および音声入力)をシステムが認識状態にあることを確認したり、システムが認識可能な入力態様(ジェスチャをすべき位置や音声の大きさなど)を操作者に把握させることもできる。操作意思判定フェーズにおける入力は、実際に機器を操作するための入力とは見なされないので、操作を意図しない入力による不用意な操作がなされることがない。
操作意思判定フェーズF1では、図3に示すジェスチャ入力判定処理によって設定される特定ジェスチャ判定フラグと図4に示す音声入力判定処理によって設定される特定音声判定フラグとに基づいて図5に示すフラグ判定処理S1を実行することにより操作者の操作意思を確認している。
ジェスチャ入力判定処理について説明する。図3に示すジェスチャ入力判定処理では、特定ジェスチャがなされたことを判定して、特定ジェスチャ判定フラグをOFFからONに変化させる。まず、図3に示すように、撮像部15により操作者の1フレームの画像を取得し(S31)、取得した1フレームの画像についてジェスチャ入力の検出を行なうジェスチャ入力検出処理を行なう(S32)。
ジェスチャ入力検出処理(S32)は、取得した画像中のジェスチャの有無を判定すると共に、ジェスチャが有りと判定した場合は、さらにどのようなジェスチャであるのかを判定する。「どのようなジェスチャであるのか」とは、ジェスチャの内容のことであり、例えば、グー、パーなどの手のひらの形状であったり、手のひらが右向き、手のひらが左向きなどの手のひらの向きであったり、腕を曲げた、腕を伸ばしたなどの腕の状態であったり、その他、手、足、頭などいずれかの身体に関連する状態や、必要に応じてそれらの位置を判定結果とするものである。
次いで、特定ジェスチャ判定フラグ設定処理を行なう(S33)。特定ジェスチャ判定フラグ設定処理では、現在のフレームでのS32におけるジェスチャ入力の検出結果と過去のジェスチャ入力の検出結果の履歴データとに基づいて、特定のジェスチャが行なわれているかどうかの特定ジェスチャ判定処理を行ない、この判定結果に基づいて判定フラグのON/OFF(それぞれ有効/無効ともいう)を行なう。
特定ジェスチャ判定処理は、過去から現在のフレームまでの所定数(現在のフレームのみでも可)のジェスチャ入力の検出結果のそれぞれのジェスチャ入力について、予め記憶されている特定ジェスチャとの一致を判定する。このとき、ROM12等に設けられたデータベース等に予め特定ジェスチャが格納されているので、ジェスチャ入力と格納された特定ジェスチャとの一致(部分一致を含む)を判断し、一致した場合に特定ジェスチャを検出したと判定する。操作意思判定フェーズF1では、予め決められた操作意思を示す、1つまたは複数の特定ジェスチャとの一致を判定することができる。
過去から現在のフレームまでの所定数のジェスチャ入力の検出結果の中に、特定ジェスチャと一致するものが、閾値以上である場合にその特定ジェスチャの判定フラグをONに変更またはONを維持し、閾値未満である場合にその特定ジェスチャの判定フラグをOFFに変更またはOFFを維持する。例えば、フラグ変更の閾値が3であるとき、現フレームを含む連続する5フレームのうち、3フレームだけ特定ジェスチャが検出されたと判定された場合に、その特定ジェスチャの判定フラグをONに変更し、3フレーム特定ジェスチャが検出されなかった場合は、その特定ジェスチャの判定フラグをOFFに変更したりすることができる。閾値を設けて所定数のフレームに亘るジェスチャに基づいて判定すると、一時的な身体のブレなどによる誤検出を防止することができる。閾値はONにする場合とOFFにする場合で異なっていてもよい。
特定ジェスチャ判定フラグ設定処理(S33)を実行した後、ジェスチャの検出結果の履歴保存処理(S34)を行なう。ジェスチャの検出結果の履歴保存処理では、ジェスチャ入力検出処理S32で検出したジェスチャの内容を記録し、履歴として保存する。履歴は、例えばRAM13等に設けられたデータベース等に逐次記憶していけばよい。別の態様として、履歴は、操作意思判定フェーズF1では、操作意思を示す特定ジェスチャの有無を記録し、操作指示フェーズF2では、ジェスチャ入力検出処理S32における検出結果としてのジェスチャの内容を記録することとしてもよい。
このジェスチャの検出結果の履歴保存処理(S34)は、ジェスチャ入力検出処理S32の後であればよく、特定ジェスチャ判定フラグ設定処理S33の前に行なうこととしてもよい。なお、特定ジェスチャ判定フラグ設定処理を上記のように複数フレームのジェスチャ検出結果によらず、現在のフレームに対してのみ行なう場合は、この履歴保存処理S34を省略することができる。
ジェスチャの検出結果の履歴保存処理(S34)が終了すると、再び画像取得処理(S31)に戻り、次のフレームについてのジェスチャ入力判定処理を行なう。
上記ジェスチャ入力判定処理では、1フレームで1つの画像を取得する場合を例に挙げて説明しているが、1フレームで複数の画像を取得してもよい。この場合、特定ジェスチャは複数の静止画でもよいし、動画でもよい。また、例えば手を左右に振るスワイプといった時間軸のあるジェスチャを検出するために、一定時間内の各フレームでの取得画像(複数の静止画)を保存しておき、連続した画像に対してジェスチャ検出を行なってもよい。
また、履歴保存は、判定結果とともに、そのジェスチャ入力を検出したときのタイムスタンプを履歴保存してもよい。特定ジェスチャ判定フラグ設定処理において、タイムスタンプが古すぎるジェスチャ入力については判定の対象から外すこととしてもよい。
次に音声入力判定処理について説明する。また、図4に示す音声入力判定処理では、特定の音声の入力を受け付けたかを判定して、音声判定フラグを変化させる。音声入力判定処理は、まず、音声入力部により音声を取得し(S41)、取得した音声から音声認識を行なう音声認識処理をする(S42)。無音状態(所定の音入力レベル以下の状態)から、何らかの音声入力があると、音声取得処理(S41)における音声取得が開始され、所定の時間の間、音声取得が継続して行なわれる。別の態様として、所定時間の間ではなく、再び無音状態になるまで継続して音声取得してもよい。音声認識処理(S42)は、取得した音声から音声キーワードを抽出することにより音声信号を言語化する変換を行なう。
次いで、特定音声判定フラグ設定処理を行なう(S43)。特定音声判定フラグ設定処理では、認識された音声キーワードに特定の音声キーワードと一致したものが検出されたか否かを判定することにより、特定の音声キーワードが発話されたかどうかに基づいて、判定フラグのON/OFFを行なう。このとき、ROM12等に設けられたデータベース等に予め特定の音声キーワードが格納されており、認識された音声キーワードと特定の音声キーワードとの一致を判断し、認識された音声キーワードが特定の音声キーワードと一致する場合に特定の音声キーワードを検出したと判定する。操作意思判定フェーズF1では、予め決められた操作意思を示す、1つまたは複数の特定の音声キーワードとの一致を判定することができる。
また、現在のフレームを含む一定時間内の過去の音声キーワードの検出結果の履歴データに対して特定の音声キーワードとの一致を判定して特定音声判定フラグのON/OFFを行なってもよい。現在のフレームを含む過去の履歴データから一定時間内に複数の音声キーワードが検出されていなければ、判定フラグをONにし、一定時間は判定フラグをONのまま維持する。これにより、通常の会話が操作者の意図した発話として判定されるのを防止することができる。また、特定の音声キーワードがない場合でも、過去一定時間内に特定の音声キーワードがあれば、フラグを維持する。なお、判定フラグを変更する必要がない場合は、そのままフラグの状態を維持する。
特定音声判定フラグ設定処理(S43)の後、音声キーワードの検出結果の履歴保存処理を行なう(S44)。音声認識処理(S42)において抽出した音声キーワードおよびそのタイムスタンプを記録し、履歴として保存する。音声キーワードだけでなく、タイムスタンプを保存することで、所定時間以上経過したものについては所定時間経過時にそのフラグのリセットを行なうことができるし、S43において過去一定時間内のキーワードを簡易に確認することができる。
この音声キーワードの検出結果の履歴保存処理(S44)は、S42の後であればよく、S43の前に行なうこととしてもよい。なお、特定音声判定フラグ設定処理において履歴を利用しない場合、所定時間経過時のフラグのリセットを行なわない場合は、この履歴保存処理S34を省略することができる。
音声キーワードの検出結果の履歴保存処理(S44)が終了すると、再び、音声取得処理(S41)に戻り、次の音声について、音声入力判定処理を行なう。
図2に戻って、フラグ判定処理S1では、図5に示す処理にしたがって、上記したジェスチャ入力判定処理および音声入力判定処理の結果を示すフラグの状態から操作意思を判別する。フラグ判定処理S1について図5に基づいて説明する。まず、ジェスチャ入力と音声入力の判定結果により操作意思を判別する(S51)。フラグ判定処理S1においては、特定ジェスチャ判定フラグおよび特定音声判定フラグのON・OFFを見て操作意思を判別することができる。具体的には、ジェスチャ判定フラグおよび音声判定フラグの両フラグがOFFである場合、およびジェスチャ判定フラグおよび音声判定フラグのうちの一方のフラグのみがONである場合は、操作意思なしと判別する(S53へ進む)。
ただし、ジェスチャ判定フラグおよび音声判定フラグのうちの一方のフラグのみがONである場合は、もう一方のフラグが変化する操作入力を促す表示を行なうための待機モードフラグをONすることができる(S54)。待機モードフラグは、ONになると、表示手段等(図1の出力部16に相当)にもう一方の入力の待機状態であることを示す表示をすることができる。
一方、ジェスチャ判定フラグおよび音声判定フラグの両フラグがONである場合に操作意思ありと判別する(S52へ進む)。操作意思がありと判別されたら、S54でONにした待機モードフラグがある場合は、これをOFFに戻す。
ここで、図3のジェスチャ入力判定処理と、図4の音声入力判定処理と、図5のフラグ判定処理との関係について説明する。図6において、(a)はジェスチャ入力判定処理、(b)は音声入力判定処理、(c)はフラグ判定処理をそれぞれ示す。(a)から(c)はフレーム数が異なることからも明らかなように、それぞれ非同期の処理である。
図6(a)のジェスチャ判定処理では、「グー」が操作意思を示す特定ジェスチャであり、現在のフレームを含む過去3フレームにおいて検出されたジェスチャのうち2個が特定ジェスチャであると判定された場合に特定ジェスチャ判定フラグをONに変更し、判定された特定ジェスチャが0である場合には特定ジェスチャ判定フラグをOFFに変更するように制御している。この処理では、3フレーム目で、特定ジェスチャが2回連続して検出されたので、特定ジェスチャ判定フラグをONにしており、9フレーム目で過去3フレーム中「グー」の検出が0であるのでフラグをOFFにしている。
図6(b)の音声入力判定処理では、「開始」が操作意思を示す特定の音声キーワードであり、認識された音声キーワードが特定の音声キーワードである場合に、特定音声判定フラグをONするように制御している。この処理では、1フレーム目では、操作意思を示す特定の音声キーワードと異なる「天気予報」と発話されたので、特定音声判定フラグはOFFのままであるが、2フレーム目では、特定の音声キーワードと一致する「開始」と発話されたので、特定音声判定フラグは2フレーム目でONとなる。
図6(c)のフラグ判定処理では、5フレーム目で、特定ジェスチャ判定フラグと特定音声判定フラグとの両方がONであることが確認されたので、操作意思ありと判定され、特定ジェスチャ判定フラグと特定音声判定フラグとの両方のフラグを必要に応じてOFFにリセットする。
再び図2に戻って、操作意思判定フェーズF1において、フラグ判定処理S1により、操作意思があるか否かを判定すると、操作意思の有無に基づいて操作指示フェーズF2に移行するか否かが判定される(S2)。操作意思ありの場合(S2:Yes)は、操作指示フェーズF2に移行し、操作意思なしの場合(S2:No)は、操作指示フェーズF2に移行せず、再びフラグ判定処理S1に戻る。
操作指示フェーズF2は、ユーザによる入力を操作指示として解釈して、その解釈された操作指示に基づいて処理を行なうフェーズである。操作指示フェーズF2では必ずしもジェスチャ入力および音声入力の両方の操作手段を用いて入力を行なう必要はない。図3のジェスチャ入力判定処理と図4の音声入力判定処理との少なくとも一方の入力処理を完了することにより操作が実行できる。
操作指示フェーズF2では、ジェスチャ入力判定処理(図3)における特定ジェスチャは、操作意思を確認するためのジェスチャと異なり、実際の各種操作の内容などを意味するジェスチャとなる。同様に、音声入力判定処理(図4)における特定の音声キーワードは、操作意思を確認するための音声キーワードと異なり、実際の各種操作の内容などを意味する音声キーワードとなる。複数の操作内容が有る場合には、その操作内容に応じた種類の特定ジェスチャ、特定の音声キーワードが存在するため、それぞれの入力判定処理(図3、4)では、特定ジェスチャおよび特定の音声キーワードごとのフラグのON、OFFを処理することにより、どの操作内容に対する入力が受け付けられたか否かを、それぞれの特定ジェスチャ判定フラグ、特定音声判定フラグで示すことができる。
操作指示フェーズF2では、これらの処理の結果に基づいて、操作指示が有ったか否かを判定する(S3)。操作指示の有無は、それぞれの入力判定処理(図3、図4)において変更され得る特定ジェスチャ判定フラグや特定音声判定フラグに基づいて判定する。操作指示フェーズF2では、特定ジェスチャ入力判定フラグと特定音声判定フラグの少なくとも一方のフラグがONであることをもって操作指示が有ったと判定できる。もちろん、操作の内容によっては、両方のフラグが有効であることを操作指示の条件としてもよい。
操作指示が有ったと判定できた場合(S3:Yes)は、図3、図4の判定処理、にて入力があったと判定された、予め決められた入力パターン(動作のみ、音声のみ、動作および音声)に合致している操作指示を操作対象に対して行なうことにより、操作対象のシステムを制御する(S4)。操作対象のシステムの制御(S4)は、機器機能処理部17により操作対象の機器の機能を動作処理することであって、例えば照明の場合、照明を点灯、調光することや、TVの場合、TVのオンオフや選局したり、音量調節したりすることなどである。
S3において、操作指示がないと判別したかまたは判別できなかった場合(S3:No)か、または操作対象のシステムの制御(S4)が終了したら、操作指示フェーズF2が終了であるか否かの判定が行なわれる(S5)。
操作指示フェーズが終了であるか否かは、(1)操作指示として「終了」が指示された場合、(2)一定時間内に操作指示が無い場合、(3)一定時間の間、ジェスチャ判定フラグと音声判定フラグが両方OFFの場合に操作指示フェーズが終了であると判定される(S5:Yes)。
操作指示フェーズが終了でないと判定された場合(S5:No)は、操作指示フェーズF2の最初の操作指示判定処理S3に戻る。
操作指示フェーズが終了であると判定される(S5:Yes)と、再び操作意思判定フェーズF1に戻り、フラグ判定処理S1の処理を行なう。
(操作のフィードバック)
本実施形態の機器操作システムでは、操作者に操作結果のフィードバックを行なっている。フィードバックには、表示手段にフィードバック表示を行なう態様と、音声出力装置からフィードバック出力を行なう態様がある。フィードバック表示を行なう手段は、出力部16(図1参照)として表示装置がある場合とない場合でその形態は異なる。図7から図9は表示装置がある場合に表示装置に表示されるフィードバック表示を示す図である。
フィードバックは、操作意思判定フェーズF1ではジェスチャ判定フラグおよび音声判定フラグが切り替わったことに基づいてフィードバックを行い、操作指示フェーズでは、ジェスチャ判定フラグおよび音声判定フラグの少なくとも一方が切り替わったことに基づいてフィードバックを行なうことができる。
フィードバック表示は、ジェスチャ入力のフィードバック表示と音声入力のフィードバック表示とを別々の表示で示すことができる。これにより、フィードバック表示がどちらの入力に関するものであるかをそれぞれ確認できる。図7に示すように、ジェスチャ入力のフィードバックを示す手のひら形のアイコンと、音声入力のフィードバックを示す吹き出しのアイコンとでフィードバック表示をすることができる。また図7に示すように、操作意思判定フェーズと操作指示フェーズとでアイコンの色などの表示状態を変化させてもよい。
フィードバック表示は、例えば、ジェスチャ(音声)入力待機状態と、ジェスチャ(音声)入力中と、ジェスチャ(音声)入力済と、ジェスチャ(音声)入力失敗とのステータスに応じてそれぞれ4種類の表示態様のいずれかが表示される。操作者がかかる表示態様を視認することによって、入力のステータスを確認することができる。
フィードバック表示として、操作指示フェーズの残り時間を表示してもよい。例えば、所定時間入力がない場合に操作指示フェーズが自動的に終了する設定の場合に、「何もしないとあと30秒で操作指示フェーズが終わります」というフィードバック表示をするなどしてもよい。この残り時間の表示は、例えばジェスチャのランプの色の変化やメーター表示、別途状態遷移ランプ(操作意思と操作指示のフェーズ)等の手段を用いて行なってもよい。
また例えば、ジェスチャとして手の動作を用いる場合に、手認識のために適正な位置に手を誘導する必要がある。操作者のジェスチャ位置が適正でない場合に、図8や図9に示すように、センサから近すぎたり、遠すぎたり、カメラからずれていたり、適切な手の形でなかったりした場合にも、そのことを示す表示装置に表示を行なって、操作者にフィードバックすることができる。
図8の場合、手の位置がmiddleでspotに入っている場合は適正位置範囲内として表示によりフィードバックを行なっている。手の位置が前後にずれている場合は、手を適正位置に移動するように促す表示を行なう。
また、図9に示すように手の奥行き位置が適正でも、spotから左右上下にずれている場合や、適正な動作(ジェスチャ・ポーズ)を行なっていない場合、手を適正位置に移動したり、適正動作へ促す表示を行なう。
また、出力部16(図1参照)としてディスプレイなどの表示装置に代えて、発光灯(ランプ)を設けてもよい。図10は発光灯の発光例を示している。これらの発光灯は、ジェスチャと音声とのそれぞれについて設けることができ、ジェスチャと音声との判定フラグがそれぞれ入力されたことを示すときに点灯状態を変化させて、操作者にフィードバックを行なうことができる。図10の例では、操作意思判定フェーズでのジェスチャ(音声)入力待機状態と、操作指示フェーズでのジェスチャ(音声)入力待機状態と、ジェスチャ(音声)入力中と、ジェスチャ(音声)入力済と、ジェスチャ(音声)入力失敗とのステータスに応じてそれぞれ5種類の表示態様のいずれかが表示される。5種類の表示態様の変化は表示色により表わすことができる。
さらに、出力部16がスピーカなどの音声出力装置を備える場合は、フィードバック表示の代わりに、音声で操作者にフィードバック出力を行なうことができる。もちろん、フィードバック表示と音声によるフィードバック出力とを併せて行なってもよい。
(優先操作者判定)
本実施形態の機器操作システムでは、複数の人の中で、優先して操作可能な操作者を決めるために、操作意思判定フェーズF1で優先操作者を判定することもできる。図11は優先操作者の設定を説明するための図であり、図12は優先操作者の切り替えを説明するための図であり、図13は複数操作者の設定を説明するための図である。
操作意思判定フェーズF1において、画像処理により1人のジェスチャ入力のみが特定ジェスチャと一致すると検出された場合、そのジェスチャ入力を行なった人物を操作者候補とする。さらに音声キーワードと一致する音声入力が検出された場合、どの操作者候補が発話したのかを音源方向や撮像画像中の口の動きなどから判定し、その操作者を操作者候補とする。
図11に示すように、点線枠で囲まれた操作者候補が特定動作および音声入力をした場合に、実線枠で囲まれた優先操作者として決定し、以降の操作の操作権限が与えられ、優先操作者のジェスチャ入力はトラッキングされる。
図12に示すように、優先操作者の切り替えることもできる。図12では、実線枠で囲まれた優先操作者が操作を終了し、ジェスチャ入力および音声入力が停止する。この状態から点線枠で囲まれた別の人物が操作意思判定の操作入力を行なう。次いで、新たな操作者候補が特定動作および音声入力をした場合に、実線枠で囲まれた優先操作者として決定し、以降の操作権限を与えられ、優先操作者の動作はトラッキングされる。
図13に示すように、実線枠で囲まれた優先操作者が複数人であってもよい。操作意思判定で操作者と判定された複数の人物について、それぞれが優先操作者として判定され、それぞれに操作権限が与えられる。
次に、具体的な操作対象機器における動作について説明する。
(サイネージにおける構成例)
まず、操作対象機器がサイネージである場合の機器操作システムの動作について図1、2および図14から17に基づいて説明する。図14は図1の機器操作システムが搭載されたサイネージ20とこれを操作する操作者を示す説明図である。ここでは、サイネージ20でMap機能を使用する場合を例に挙げて説明する。図15はサイネージのTOP画面を示す図である。図16は操作者とフィードバック表示の関係を示す図である。
機器操作システムが搭載されたサイネージ20は、例えば図14に示すように、出力部16として機能するモニタ21と撮像部15として機能するカメラセンサ22と、音声入力部として機能するマイク23と、出力部として機能するスピーカ24とを備えて構成されている。図14の例では、図1のCPU11、ROM12、RAM13に相当する構成は、サイネージ20内に一体に組み込まれている。
サイネージ20においては、図15に示すように、入力待機状態ではTOP画面としてモニタ21に選択可能な項目「Map」、「News」、「Forecast」と、フィードバック表示項目が表示されている。この状態では、操作入力(ジェスチャ入力および音声入力)は機器に対する操作指示としては受け付けられない。この状態で、操作者がサイネージに向かって手をかざし、操作開始の音声キーワードである「OK」と発話すると、カメラセンサ22で撮像した画像からジェスチャ入力を取得し、マイク23で取得した音声から音声入力を取得する。取得したジェスチャ入力が特定ジェスチャと一致し、取得した音声入力に音声キーワードが含まれると判定すると、ジェスチャ判定フラグと音声判定フラグの両方が有効に切り替わり、フィードバック表示がジェスチャ入力と音声入力の入力がなされたことを示すように変化する。
機器操作システムは、ジェスチャ判定フラグと音声判定フラグの両方に基づいて操作意思がありと判断し、操作意思判定フェーズから操作指示フェーズに移行する。ここで重要なのは、操作意思判定フェーズにおいて操作入力がなされても、操作指示フェーズへ移行するのみで項目画面は切り替わらずMap機能への切り替えはなされない。操作開始の音声キーワードは「OK」以外にも「操作」、「スタート」等の任意のキーワードを用いることが出来るし、操作意思を示すジェスチャは手をかざす以外のジェスチャとしてもよい。操作開始キーワードを発話する操作者の声が小さかったりすると、フィードバック表示で音声入力がなされたことを示す表示に変化しないので、操作者はフィードバック表示が変化するまで声の大きさ変えるなどして、操作に必要な声の大きさなどを確認することができる。
次いで、操作指示フェーズにおいて、図16に示すように、操作者がサイネージ20に向かって手をかざした状態で、キーワードである「Map」と発話すると、ここではMap機能への切り替えがなされ、コンテンツ「Map」の初期画面がモニタ21に表示される。このように操作指示フェーズにおいては、操作者によるジェスチャ入力や音声入力を受け付けると、その入力に応じた処理を行なう。例えば、キーワード発話の音声入力を受け付けると、キーワード発話に対応する画面上のアイコンを操作したり、手を左や右にかざすジェスチャ入力を受け付けると、画面上のカーソル操作およびアイコン等の機能の選択操作を実行する。また、手をかざして一定時間停止するジェスチャ入力が行なわれると、カーソルで選択されたアイコン等の機能の決定操作が実行される。図16に示す例では、操作指示フェーズにおいて、ジェスチャ入力と音声入力の両方でコンテンツ「Map」を選択する操作をしているが、ジェスチャ入力と音声入力のいずれか一方で操作をすることとしてもよい。
以上説明したように、操作対象機器がサイネージである場合に、本実施形態の機器操作システムによれば、操作を意図しない入力による誤入力がなされることが防止される。
図17はサイネージのメニュー項目の階層構造を示す図である。サイネージのメニュー項目は、TOP画面から「Map」以外にも「News」または「Forecast」を選択することができ、それぞれの項目ごとに下の階層の項目をさらに選択することができる。このとき、段階的に下の階層を選択する以外にも、キーワード入力で一気により下の階層を選択することもできる。例えば、「News−Soccer」を選択する場合、操作指示フェーズにおいてTOP画面が表示された状態でキーワードである「サッカーニュース」と発話すると、一気に「News−Soccer」を選択した状態(ジャンプ)にすることができる。
このように、操作階層をジャンプする構成により操作者の負担を減らすことができる。因みに、操作メニューが階層構造になっていたりすると、所望の操作結果を得るために、長時間操作を必要とするため、操作者の肉体的負担が大きくなる可能性もある。ジェスチャ入力では、センサに対して操作者が操作意図を示す動作によって、操作することが一般的である。つまり、人間工学的に楽な姿勢(直立不動等)ではなく、何らかの肉体的負荷を伴う動作を必要とする。例えば、センサに対して手をかざす動作をジェスチャ操作とする。長時間手を挙げ続けることは、操作者にとって肉体的負担を課すこととなる。操作対象に対して多くの指示をしようとすれば、必然的にジェスチャの動作時間も長くなる。逆に操作対象への指示数を減らせば、その分操作対象への操作項目も減り、利便性が損なわれる。よって、操作階層をジャンプする構成により、操作者の負担を減らすことができる。
(スマートフォンにおける構成例)
操作対象機器がスマートフォンである場合の機器操作システムの動作について図1、2に基づいて説明する。ここではスマートフォンでメール機能を使用する場合を例に挙げて説明する。
スマートフォンが入力待機状態にあるときに、スマートフォンに手をかざし、キーワードである「操作」と発話すると、ジェスチャ判定フラグと音声判定フラグの両方が有効に変化して、スマートフォン画面におけるフィードバック表示がジェスチャ入力と音声入力の入力がなされたことを示す表示に切り替わると共に操作意思がありと判断される。操作意思がありと判断された段階では、操作指示フェーズへ移行するのみで、メール機能への切り替えはなされない。
操作指示フェーズにおいて操作者によるジェスチャ入力や音声入力を受け付けると、その入力に応じた処理を行なう。例えば、キーワード発話の音声入力を受け付けると、キーワード発話に対応する画面上のアイコンを操作したり、手を左や右にかざすジェスチャ入力を受け付けると、画面上のカーソル操作およびアイコン等の機能の選択操作をする。また、手をかざして一定時間停止するジェスチャ入力が行なわれると、カーソルで選択されたアイコン等の機能の決定操作が行なわれる。
また、スマートフォンを操作対象として構成される機器操作システムでは、受電するなどの緊急事態の場合に、操作意思判定フェーズを省略することを妨げるものではない。この場合、スマートフォンが入力待機状態にあるときに電話やビデオ電話を受電したときに、手をかざすジェスチャ入力と「もしもし」とのキーワードの音声入力を受け付けると、操作意思判定を省略し、通話開始する。
このように、操作対象機器がスマートフォンである場合でも、本実施形態の機器操作システムによれば、操作を意図しない入力による誤入力がなされることが防止される。
(家電機器における構成例)
ここでは操作対象機器が家電機器である場合の機器操作システムの動作について図1、2および図18から図26に基づいて説明する。
[構成例1]
構成例1は、操作対象機器がリビングのテレビと照明である場合である。構成例1では、図18に示すように、テレビ31と照明32とが機器機能処理部17を搭載しており、音声入力部14、撮像部15、出力部16はテレビ31と照明32とは別の装置として構成されていてもよい。図1の機器操作システム1における音声入力部14、撮像部15、出力部16は、操作者の操作入力が可能であり操作者が容易に確認できるように、例えばリビングの棚や壁に設置することができる。これらの音声入力部14、撮像部15、出力部16は、CPU11、ROM12、RAM13と一体の装置として構成することができる。この場合、有線または無線の接続手段10により、テレビ31や照明32と通信し、テレビ31と照明32のそれぞれの機器機能処理部17が操作指示に基づいて処理を実行する。この例では、テレビ31と照明32のいずれもがOFFの状態から照明を点灯して、さらにテレビもON状態にする場合について説明する。
まず、操作者が撮像部15に向かって手をかざし、キーワードである「操作」と発話すると、ジェスチャ判定フラグと音声判定フラグがそれぞれ有効になる。このように両方のフラグが有効になると、出力部16においてフィードバック表示が点灯すると共に操作意思ありと判定され、操作指示フェーズに移行する。
次に、操作指示フェーズにおいて、図19に示すように操作者が撮像部15に向かって手をかざし、キーワードである「照明」と発話すると、フィードバック表示が点灯すると共に、照明32が操作対象として選択される。このとき、照明32が消灯状態である場合は、選択されたときに照明32を点灯状態にさせてもよい。さらに、図20に示すように、キーワード「調光」と発話し、撮像部15に向かって右向きに手をかざすと、フィードバック表示が点灯すると共に、照明の強度を強くすることが指示されたと判定し、照明32をより明るく点灯させる操作を実行する。その後、キーワード「調光」と発話し、撮像部15に向かって左向きに手をかざすと、フィードバック表示が点灯すると共に、照明32の強度を弱めることが指示されたと判定し、照明32の点灯強度を下げる。
図21に示すように、照明32の操作中に、キーワード「TV」と発話すると、フィードバック表示が点灯すると共に、操作対象がTV31に切り替わる。TV31がもともとOFFになっていた場合は操作対象がTV31に切り替わったときにTV31のスイッチをONにさせてもよい。さらにキーワード「音量」と発話すると、フィードバック表示が点灯すると共に、音量を調節することができる。音量の調節は、音声入力で行なってもよいし、ジェスチャ入力で行なってもよい。照明32からTV31の切り替えは、図22に示すように、音声入力とジェスチャ入力とを組み合わせて行なってもよい。
このように、本実施形態の機器操作システムでは、複数の家電機器を切り替えて操作することができる。
[構成例2]
構成例2は、操作対象機器が照明である場合である。この例では、図23に示すように、構成例1と異なり、機器操作システム1に表示部がない構成で説明する。この例では、音声出力部16がフィードバックを行なう。
まず、図24に示すように、操作者が撮像部15に向かって手をかざし、キーワードである「照明」と発話すると、ジェスチャ判定フラグと音声判定フラグがそれぞれ有効になる。このように両方のフラグが有効になると、音声出力部16が「音声入力あり」と出力することによりフィードバックがなされると共に、操作意思ありと判定され、操作指示フェーズに切り替えられる。
次に、図25に示すように、キーワード「調光」と発話し、撮像部15に向かって右向きに手をかざすと、音声出力部16が「音声入力あり」「ジェスチャ入力あり」と出力することによりフィードバックがなされると共に、照明の調光をすることが指示されたと判定し、照明を点灯し、ジェスチャ入力に応じた調光を実行する。その後、撮像部15に向かって左向きに手をかざすと、音声出力部16が「ジェスチャ入力あり」と出力することによりフィードバックがなされると共に、ジェスチャ入力に応じた調光を実行する。さらに、図26に示すように、キーワード「消灯」と発話し、照明を消灯することが指示されたと判定し、照明32を消灯する。また、消灯した後、さらに一定時間以上操作しないと、操作意思判定フェーズF1に戻るため、操作者が撮像部15に向かって右向きに手をかざしても、操作することができず、再度照明を調整する場合は、操作意思の確認から始まる。
このように、操作対象機器が家電機器である場合でも、本実施形態の機器操作システムによれば、操作を意図しない入力による誤入力がなされることが防止される。
(自動車装備における構成例)
本実施形態の機器操作システムが自動車装備の制御システムとして構成されることもできる。操作対象機器が自動車装備である場合の機器操作システムの動作について図1、2および図27から図32を用いて説明する。図27は自動車装備の制御システムに組み込まれた機器操作システムの構成例を示す図であり、図28は操作意思判定フェーズを説明する図であり、図29から図32は操作指示フェーズを説明する図である。
図27に示すように、自動車装備の制御システムでは、HUD(Head Up Display:ヘッドアップディスプレイ)41とカーナビ42とスピーカ43とが出力部16(図1参照)として機能することができる。ハンドルの奥のパネルに設けられたカメラ44とマイク45はそれぞれ撮像部15(図1参照)と音声入力部14(図1参照)として機能することができる。また、インストルメントパネル46を出力部16(図1参照)として用いてもよい。
自動車装備としては、例えば、カーナビ、オーディオ、HUD、エアコン、サイドミラー、電子ミラー、バックモニタ、ライト、パワーウインドウ、トランク、ワイパーなどを操作対象とすることができる。カーナビに対して、地図操作、カメラモニタ切り替え等を制御したり、オーディオに対して、音量、チャンネル等を制御したり、ヘッドアップディスプレイに対して、速度表示、目的地距離表示等を制御したり、エアコンに対して、風量調整、風向等を制御したり、サイドミラーに対して、向き調整等を制御したり、ライトに対して、点灯と消灯とを制御したり、パワーウインドウに対して、開閉調整を制御したり、トランクに対して、開閉を制御したり、ワイパーに対して、動作制御をしたりすることができる。
まず、機器操作システムが待機状態のときに、図28に示すように、両親指を挙げるジェスチャを行ない、キーワード「スタート」と発話すると、ジェスチャ判定フラグと音声判定フラグの両方が有効に変化して、HUD41等におけるフィードバック表示がジェスチャ入力と音声入力の入力がなされたことを示す表示に切り替わると共に操作意思がありと判断され、操作指示フェーズに移行する。
次いで操作指示フェーズにおいて、「カーナビ」と発話すると、HUD41等におけるフィードバック表示が音声入力の入力がなされたことを示す表示に切り替わると共に、カーナビ42をONするなどして選択する処理を実行する。
カーナビが選択された状態で、図29に示すように右手の親指によるプッシュ動作を行なうと、HUD41等におけるフィードバック表示がジェスチャ入力がなされたことを示す表示に切り替わると共にカーナビ42の画面に目的地ナビ情報が表示される。
また、カーナビが選択された状態で、図30に示すように両手の親指によるプッシュ動作を行なうと、HUD41等におけるフィードバック表示がジェスチャ入力がなされたことを示す表示に切り替わると共にカーナビ42に表示された音楽が再生され、さらに右手の親指によるプッシュ動作を行なうと、HUD41等におけるフィードバック表示がジェスチャ入力がなされたことを示す表示に切り替わると共にカーナビ42に表示された音楽が一時停止される。
また、カーナビが選択された状態からエアコンの風量調整を行なう場合は、図31に示すように、「エアコン」と発話すると、HUD41等におけるフィードバック表示が音声入力の入力がなされたことを示す表示に切り替わると共にエアコンをONするなどして選択する処理が実行される。さらに「風量」と発話して右手の親指によるプッシュ動作を行なうと、HUD41等におけるフィードバック表示がジェスチャ入力と音声入力の入力がなされたことを示す表示に切り替わると共にエアコンの風量がアップする。プッシュ動作をやめると、エアコンの風量調整が停止する。
カーナビが選択された状態からエアコンの風量調整を行なう場合、「エアコン」と発話することなく、図32に示すように、カーナビが選択された状態でエアコンに特有である特定の音声キーワード「風量」と発話して、右手の親指によるプッシュ動作を行なうことにより、エアコンの風量をアップすることもできる。
このように、操作対象機器が自動車装備である場合でも、本実施形態の機器操作システムによれば、操作を意図しない入力による誤入力がなされることが防止される。
1 機器操作システム
11 CPU
12 ROM
13 RAM
14 音声入力部
15 撮像部
16 出力部
17 機器機能処理部
10 接続手段
20 サイネージ
21 モニタ
22 カメラセンサ
23 マイク
24 スピーカ
31 テレビ
32 照明
41 HUD
42 カーナビ
43 スピーカ
44 カメラ
45 マイク
46 インストルメントパネル

Claims (7)

  1. ジェスチャ入力と音声入力とに基づいて機器を操作する機器操作システムであって、
    ジェスチャ入力および音声入力による前記機器の操作を実行せずに、操作意思の有無を確認する操作意思確認手段と、
    ジェスチャ入力と音声入力との少なくとも一方の入力による前記機器の操作を指示する操作指示手段とを備え、
    前記操作意思確認手段は、操作意思を示す特定のジェスチャが前記ジェスチャ入力として検出されたと判定され、かつ操作意思を示す特定の音声キーワードが前記音声入力として検出された場合に、前記操作意思が有りと判断して、前記操作指示手段による処理に移行することを特徴とする機器操作システム。
  2. 前記操作意思確認手段は、前記ジェスチャ入力が特定ジェスチャであるか否かを判定して特定ジェスチャ判定フラグを設定するジェスチャ入力判定手段と、前記音声入力が特定の音声キーワードであるか否かを判定して特定音声判定フラグを設定する音声入力判定手段と、前記特定ジェスチャ判定フラグおよび前記特定音声判定フラグに基づいて操作意思が有るか否かを判定するフラグ判定手段とを有することを特徴とする請求項1に記載の機器操作システム。
  3. 前記ジェスチャ入力判定手段は、複数回にわたって検出したジェスチャ入力を履歴保存し、該履歴保存した複数回のジェスチャ入力に基づいて特定ジェスチャ判定フラグを設定することを特徴とする請求項2に記載の機器操作システム。
  4. 前記ジェスチャ入力判定手段と、前記音声入力判定手段と、前記フラグ判定手段とは互いに非同期に処理を行なうことを特徴とする請求項2または3に記載の機器操作システム。
  5. 操作の対象となる前記機器は、サイネージ、PC、スマートフォン、HMD、家電機器、自動車装備のいずれかであることを特徴とする請求項1から4のいずれかに記載の機器操作システム。
  6. ジェスチャ入力と音声入力とに基づいて機器を操作する機器操作方法であって、
    ジェスチャ入力および音声入力による前記機器の操作を実行せずに、操作意思の有無を確認する操作意思確認段階と、
    ジェスチャ入力と音声入力との少なくとも一方の入力による前記機器の操作を指示する操作指示段階とを含み、
    前記操作意思確認段階において操作意思を示す特定のジェスチャが前記ジェスチャ入力として検出されたと判定され、かつ操作意思を示す特定の音声キーワードが前記音声入力として検出された場合に、前記操作意思が有りと判断して、前記操作指示段階に移行することを特徴とする機器操作方法。
  7. ジェスチャ入力と音声入力とに基づいて機器を操作する機器操作方法をコンピュータに実行させるプログラムであって、該機器操作方法は、
    ジェスチャ入力および音声入力による前記機器の操作を実行せずに、操作意思の有無を確認する操作意思確認段階と、
    ジェスチャ入力と音声入力との少なくとも一方による前記機器の操作を指示する操作指示段階とを含み、
    前記操作意思確認段階において、操作意思を示す特定のジェスチャが前記ジェスチャ入力として検出されたと判定され、かつ操作意思を示す特定の音声キーワードが前記音声入力として検出された場合に、前記操作意思が有りと判断して前記操作指示段階に移行することを特徴とする機器操作プログラム。
JP2016170107A 2016-08-31 2016-08-31 機器操作システム、機器操作方法および機器操作プログラム Pending JP2018036902A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016170107A JP2018036902A (ja) 2016-08-31 2016-08-31 機器操作システム、機器操作方法および機器操作プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016170107A JP2018036902A (ja) 2016-08-31 2016-08-31 機器操作システム、機器操作方法および機器操作プログラム

Publications (1)

Publication Number Publication Date
JP2018036902A true JP2018036902A (ja) 2018-03-08

Family

ID=61564711

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016170107A Pending JP2018036902A (ja) 2016-08-31 2016-08-31 機器操作システム、機器操作方法および機器操作プログラム

Country Status (1)

Country Link
JP (1) JP2018036902A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019239738A1 (ja) * 2018-06-12 2019-12-19 ソニー株式会社 情報処理装置、情報処理方法
JP2020184147A (ja) * 2019-05-07 2020-11-12 コーデンシ株式会社 ジェスチャ認識装置及びジェスチャ認識装置用プログラム
WO2021001894A1 (ja) * 2019-07-01 2021-01-07 三菱電機株式会社 表示制御装置及び表示制御方法
JP2021047499A (ja) * 2019-09-17 2021-03-25 沖電気工業株式会社 情報処理装置、情報処理方法、プログラム、および、情報処理システム
JP2022520030A (ja) * 2019-10-22 2022-03-28 上▲海▼商▲湯▼智能科技有限公司 ジェスチャ制御方法及び装置
JP2022539794A (ja) * 2019-07-12 2022-09-13 クゥアルコム・インコーポレイテッド マルチモーダルユーザインターフェース
CN115119363A (zh) * 2021-08-30 2022-09-27 上海诚胜实业有限公司 汽车氛围灯智能控制系统
WO2023148800A1 (ja) * 2022-02-01 2023-08-10 日本電気株式会社 制御装置、制御システム、制御方法及びプログラム

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019239738A1 (ja) * 2018-06-12 2019-12-19 ソニー株式会社 情報処理装置、情報処理方法
JPWO2019239738A1 (ja) * 2018-06-12 2021-07-15 ソニーグループ株式会社 情報処理装置、情報処理方法
EP3809712A4 (en) * 2018-06-12 2021-07-21 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
JP2020184147A (ja) * 2019-05-07 2020-11-12 コーデンシ株式会社 ジェスチャ認識装置及びジェスチャ認識装置用プログラム
JP7179334B2 (ja) 2019-05-07 2022-11-29 コーデンシ株式会社 ジェスチャ認識装置及びジェスチャ認識装置用プログラム
WO2021001894A1 (ja) * 2019-07-01 2021-01-07 三菱電機株式会社 表示制御装置及び表示制御方法
JPWO2021001894A1 (ja) * 2019-07-01 2021-11-18 三菱電機株式会社 表示制御装置及び表示制御方法
JP7179180B2 (ja) 2019-07-01 2022-11-28 三菱電機株式会社 表示制御装置及び表示制御方法
JP2022539794A (ja) * 2019-07-12 2022-09-13 クゥアルコム・インコーポレイテッド マルチモーダルユーザインターフェース
JP7522177B2 (ja) 2019-07-12 2024-07-24 クゥアルコム・インコーポレイテッド マルチモーダルユーザインターフェース
JP2021047499A (ja) * 2019-09-17 2021-03-25 沖電気工業株式会社 情報処理装置、情報処理方法、プログラム、および、情報処理システム
JP7243541B2 (ja) 2019-09-17 2023-03-22 沖電気工業株式会社 情報処理装置、情報処理方法、プログラム、および、情報処理システム
JP2022520030A (ja) * 2019-10-22 2022-03-28 上▲海▼商▲湯▼智能科技有限公司 ジェスチャ制御方法及び装置
JP7479388B2 (ja) 2019-10-22 2024-05-08 上▲海▼商▲湯▼智能科技有限公司 ジェスチャ制御方法及び装置
CN115119363A (zh) * 2021-08-30 2022-09-27 上海诚胜实业有限公司 汽车氛围灯智能控制系统
WO2023148800A1 (ja) * 2022-02-01 2023-08-10 日本電気株式会社 制御装置、制御システム、制御方法及びプログラム
JPWO2023148800A1 (ja) * 2022-02-01 2023-08-10

Similar Documents

Publication Publication Date Title
JP2018036902A (ja) 機器操作システム、機器操作方法および機器操作プログラム
JP6669073B2 (ja) 情報処理装置、制御方法、およびプログラム
JP6669162B2 (ja) 情報処理装置、制御方法、およびプログラム
US10546582B2 (en) Information processing device, method of information processing, and program
US12003804B2 (en) Information processing device, information processing method, and computer program
KR101262700B1 (ko) 음성 인식 및 모션 인식을 이용하는 전자 장치의 제어 방법 및 이를 적용한 전자 장치
JP5998861B2 (ja) 情報処理装置、情報処理方法及びプログラム
WO2017134935A1 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2017141530A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US9170724B2 (en) Control and display system
US11507194B2 (en) Methods and devices for hand-on-wheel gesture interaction for controls
JP5750687B2 (ja) カーナビ用ジェスチャ入力装置
JP2005284492A (ja) 音声利用操作装置
JP2011081541A (ja) 入力装置及びその制御方法
WO2019077897A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5358548B2 (ja) ジェスチャ認識装置
JP7204804B2 (ja) スマートバックミラーのインタラクション方法、装置、電子機器及び記憶媒体
WO2018105373A1 (ja) 情報処理装置、情報処理方法、および情報処理システム
JP6950708B2 (ja) 情報処理装置、情報処理方法、および情報処理システム
JP2016029532A (ja) ユーザインターフェース
JPWO2017175442A1 (ja) 情報処理装置、および情報処理方法
JP2017182275A (ja) 情報処理装置、情報処理方法、及びプログラム
EP4198711A1 (en) System and method for time management in voice control applications
US20220050580A1 (en) Information processing apparatus, information processing method, and program
WO2025072868A1 (en) Techniques for providing controls