JP2018036902A

JP2018036902A - 機器操作システム、機器操作方法および機器操作プログラム

Info

Publication number: JP2018036902A
Application number: JP2016170107A
Authority: JP
Inventors: 祐司篠村; Yuji Shinomura; 藤原　直樹; Naoki Fujiwara; 直樹藤原; 泉　賢二; Kenji Izumi; 賢二泉
Original assignee: Shimane Prefecture
Current assignee: Shimane Prefecture
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2018-03-08

Abstract

【課題】ジェスチャ入力と音声入力とに基づいて操作する操作対象の機器に対して、操作を意図しない入力による誤入力がなされることが防止した機器操作システムを提供すること。【解決手段】ジェスチャ入力と音声入力とに基づいて機器を操作する機器操作システムであって、ジェスチャ入力および音声入力による前記機器の操作を実行せずに、操作意思の有無を確認する操作意思確認手段と、ジェスチャ入力と音声入力との少なくとも一方の入力による前記機器の操作を指示する操作指示手段とを備え、前記操作意思確認手段は、操作意思を示す特定のジェスチャが前記ジェスチャ入力として検出されたと判定され、かつ操作意思を示す特定の音声キーワードが前記音声入力として検出された場合に、前記操作意思が有りと判断して、前記操作指示手段による処理に移行することを特徴とする機器操作システムである。【選択図】図２

Description

本発明は機器操作システム、機器操作方法および機器操作プログラムに関する。

従来、入力用のユーザインタフェースとして、ユーザの身振り、手まねなどをカメラなどの撮像装置より画像として取得し、画像処理により認識するジェスチャ認識技術を用いたジェスチャ入力装置が知られている。例えば、車両の運転席前面に設けられた表示装置における表示内容をジェスチャ操作により変更すること（特許文献１）や、ＨＭＤ（ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ）における視点切り替えをジェスチャ入力により行なうこと（特許文献２）が知られている。特許文献２のＨＭＤでは、ジェスチャ以外にもボタン／スイッチ入力、視線入力、音声入力、筋電入力、脳波入力などの複数の入力手段を用いて表示を切り替えることができる。

ジェスチャ入力を含む複数の入力手段によって機器を操作することは、他にも特許文献３や特許文献４にも記載されている。特許文献３のマルチモーダル入力・ユーザインタフェースは、音声認識した結果とジェスチャ入力を含むその他の入力結果を統合して尤度の高い解釈結果を出力することが記載されている。特許文献４には２種以上の異なる入力情報から、入力情報の種類ごとに入力操作の意味する意味情報を認識して、２つ以上の意味情報を組み合わせることにより、対象装置に所定の動作を実行させることが記載されている。

特開２０１４−８８１８号公報特開２０１４−１１５４５７号公報特開２００６−４８６２８号公報特開２０１２−１０３８４０号公報

しかしながら、従来技術では、例えば、意図しないジェスチャ入力により誤作動が発生してしまうという問題がある。操作者が無意識に何らかの動作をした場合に、その動作が入力操作として操作者が意図した動作なのか、操作を意図しない動作なのかを、システム側で判別することは容易ではない。例えば、ジェスチャ操作可能なサイネージ（ｓｉｇｎａｇｅ：デジタルサイネージ）の前を単に横切る人の動作を、サイネージが入力操作として誤検出し、サイネージが誤作動する可能性がある。

本発明は上述の問題に鑑みなされたものであって、本発明の課題は、ジェスチャ入力と音声入力とに基づいて操作可能な操作対象機器に対して、操作を意図しない動作や発話による誤入力がなされることが防止可能な機器操作システム、機器操作方法および機器操作プログラムを提供することにある。

上記課題を解決するための一実施形態に記載された発明は、ジェスチャ入力と音声入力とに基づいて機器を操作する機器操作システムであって、ジェスチャ入力および音声入力による前記機器の操作を実行せずに、操作意思の有無を確認する操作意思確認手段と、ジェスチャ入力と音声入力との少なくとも一方の入力による前記機器の操作を指示する操作指示手段とを備え、前記操作意思確認手段は、操作意思を示す特定のジェスチャが前記ジェスチャ入力として検出されたと判定され、かつ操作意思を示す特定の音声キーワードが前記音声入力として検出された場合に、前記操作意思が有りと判断して、前記操作指示手段による処理に移行することを特徴とする機器操作システムである。

他の実施形態に記載された発明は、ジェスチャ入力と音声入力とに基づいて機器を操作する機器操作方法であって、ジェスチャ入力と音声入力とに基づいて機器を操作する機器操作方法であって、ジェスチャ入力および音声入力による前記機器の操作を実行せずに、操作意思の有無を確認する操作意思確認段階と、ジェスチャ入力と音声入力との少なくとも一方の入力による前記機器の操作を指示する操作指示段階とを含み、前記操作意思確認段階において操作意思を示す特定のジェスチャが前記ジェスチャ入力として検出されたと判定され、かつ操作意思を示す特定の音声キーワードが前記音声入力として検出された場合に、前記操作意思が有りと判断して、前記操作指示段階に移行することを特徴とする機器操作方法である。

さらに他の実施形態に記載された発明は、ジェスチャ入力と音声入力とに基づいて機器を操作する機器操作方法をコンピュータに実行させるプログラムであって、該機器操作方法は、ジェスチャ入力および音声入力による前記機器の操作を実行せずに、操作意思の有無を確認する操作意思確認段階と、ジェスチャ入力と音声入力との少なくとも一方による前記機器の操作を指示する操作指示段階とを含み、前記操作意思確認段階において、操作意思を示す特定のジェスチャが前記ジェスチャ入力として検出されたと判定され、かつ操作意思を示す特定の音声キーワードが前記音声入力として検出された場合に、前記操作意思が有りと判断して前記操作指示段階に移行することを特徴とする機器操作プログラムである。

実施形態に記載の機器操作システムの構成例を示すブロック図である。実施形態に記載の機器操作システムの動作の一例を示すフロー図である。ジェスチャ入力判定処理の一例を示すフロー図である。音声入力判定処理の一例を示すフロー図である。フラグ判定処理の一例を示すフロー図である。図３から図５の処理のタイミングチャートの一例を示す図である。表示装置がある場合に表示装置に表示されるフィードバック表示を示す図である。表示装置がある場合に表示装置に表示されるフィードバック表示を示す図である。表示装置がある場合に表示装置に表示されるフィードバック表示を示す図である。発光灯の発光例を示している。優先操作者の設定を説明するための図である。優先操作者の切り替えを説明するための図である。複数操作者の設定を説明するための図である。機器操作システムが搭載されたサイネージとこれを操作する操作者を示す説明図である。サイネージのＴＯＰ画面を示す図である。操作者とフィードバック表示の関係を示す図である。サイネージのメニュー項目の階層構造を示す図である。操作対象機器が家電機器である場合の機器操作システムの構成例を示す図である。操作対象機器が家電機器である場合の機器操作システムの動作を説明する図である。操作対象機器が家電機器である場合の機器操作システムの動作を説明する図である。操作対象機器が家電機器である場合の機器操作システムの動作を説明する図である。操作対象機器が家電機器である場合の機器操作システムの動作を説明する図である。操作対象機器が家電機器である場合の機器操作システムの他の構成例を示す図である。操作対象機器が家電機器である場合の機器操作システムの動作を説明する図である。操作対象機器が家電機器である場合の機器操作システムの動作を説明する図である。操作対象機器が家電機器である場合の機器操作システムの動作を説明する図である。自動車装備の制御システムに組み込まれた機器操作システムの構成例を示す図である。操作対象機器が自動車装備である場合の操作意思判定フェーズを説明する図である。操作対象機器が自動車装備である場合の操作指示フェーズを説明する図である。操作対象機器が自動車装備である場合の操作指示フェーズを説明する図である。操作対象機器が自動車装備である場合の操作指示フェーズを説明する図である。操作対象機器が自動車装備である場合の操作指示フェーズを説明する図である。

以下、本発明の実施の形態について、詳細に説明する。実施形態に記載の機器操作システムは、サイネージ、ＰＣ、スマートフォン、ＨＭＤ、家電機器、自動車装備などの各種機器をジェスチャ入力および音声入力により操作する機器操作システムとして構成される。

（システム構成）
図１は、実施形態に記載の機器操作システムの構成例を示すブロック図である。図１に示すように、機器操作システム１は、中央処理装置（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１と、読み取り専用メモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２と、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３と、音声入力部１４と、撮像部１５と、出力部１６、機器機能処理部１７と、これらを接続する接続手段１０とを備えて構成される。

機器機能処理部１７は操作対象の機器自体の機能を発揮するための処理を行なう装置であり、例えば、照明における照明装置である。機器機能処理部１７は単独の装置であってもよいが、ＣＰＵ１１，ＲＯＭ１２およびＲＡＭ１３に一体的に組み込んでもよい。

ＣＰＵ１１は、各構成要素１１，１２，１３，１４，１５，１６，１７とバスなどの接続手段１０で接続されて、制御信号やデータの転送処理を行うとともに、音声入力部１４における音声入力及び撮像部１５によるジェスチャ入力に応答して、機器操作システム１全体の動作を実現するための各種のプログラムの実行、演算処理等を行う。

接続手段１０は、機器操作システム１の各構成要素を接続するバスなどの接続手段であり、機器操作システム１の構成要素がそれぞれ独立した装置である場合は、有線または無線で各構成要素を接続する手段である。

ＲＯＭ１２には、機器操作システム１全体の動作に必要なプログラムおよびデータを格納する。これらプログラムはＤＶＤ−ＲＯＭ、ＨＤＤ、ＳＤＤ等の記録媒体に格納されており、ＲＡＭ１３に読み出されてＣＰＵ１１による実行が開始され、本実施形態の機器制御システム１の処理を行う。なお、このようなＲＯＭに代えて、クラウドサービスを用いて必要なプログラムおよびデータを取り込むことももちろん可能である。

ＲＡＭ１３には、後述する音声入力処理およびジェスチャ入力処理を行うためのソフトウエアに従って作成されたプログラム、および音声入力のデータおよびジェスチャ入力のデータを一時的に保持する。

音声入力部１４は、音声入力を行なう手段であり、例えば、集音マイク、指向性マイクなどを用いることができる。

撮像部１５は、ジェスチャ入力を行なう手段であり、操作者の身体の動きを撮影可能なＲＧＢカメラ、赤外線カメラ、距離画像カメラ（ＴｉｍｅｏｆＦｌｉｇｈｔ方式など）や、操作者の身体の動きを検知可能な超音波カメラ、ステレオカメラなどを用いることができる。撮像部１５は、操作者のどのような動きを動作判定に用いるかに応じて、その設置位置を決定すればよい。撮像部１５で撮影した操作者の身体の動きからジェスチャ入力を検出する。例えば、手の動きをジェスチャ入力とする場合は、撮影した操作者の身体の動きから、手の動きをジェスチャ入力として検出する。

出力部１６は、各種の出力をするためのものであり、表示によるフィードバックを行なう表示装置、音声によるフィードバックを行なうスピーカなどを用いることができる。操作対象機器が表示装置、スピーカなどを備えている場合は操作対象機器の表示装置、スピーカなどが出力部１６を兼ねてもよい。

（処理フロー）
図２は、実施形態に記載の機器操作システムの動作の一例を示すフロー図である。図３は、ジェスチャ入力判定処理の一例を示すフロー図であり、図４は音声入力判定処理の一例を示すフロー図であり、図５は、フラグ判定処理Ｓ１の一例を示すフロー図であり、図６は図３から図５の処理のタイミングチャートの一例を示す図である。図１を参照しながら、図２から図６に基づいて機器操作システムの動作を説明する。

機器操作システム１の電源が投入されるなどすると、図２に示す動作を実行するプログラムが起動するとともに図３に示すジェスチャ入力判定処理と図４に示す音声入力判定処理とが開始される。これらの処理プログラムおよび処理に必要なデータはＲＯＭ１２などの記憶手段に予め記憶されている。機器操作システム１では、図１に示すＣＰＵ１１が機器操作システム１の各部と協働して、操作者からの入力に基づいて、ジェスチャ入力判定処理および音声入力判定処理を実行しつつ、操作者の意思を判定する操作意思判定フェーズＦ１と、実際に操作を指示する操作指示フェーズＦ２を順に実行する。

操作意思判定フェーズＦ１は、何らかの入力があった場合に、操作者が操作の意思を有するのか否かを判定するための処理を行なうフェーズであり、実際に機器に対する操作処理をしないフェーズである。次の操作指示フェーズＦ２では、操作者が操作の意思を有することが確認された場合に操作者の入力に応じて実際に個別具体的に機器を操作する処理を行なうフェーズである。

操作意思判定フェーズＦ１では、ジェスチャ入力および音声入力の両方の操作手段を用いた操作入力を受け付けるが、両方の操作手段を用いた入力が完了しても実際の機器を操作する処理は行なわない。すなわち、操作意思判定フェーズＦ１では、原則として機器機能処理部１７による処理を行なわない。操作意思判定フェーズＦ１では、操作者の意思を確認する以外にも、操作者が行なった操作入力（ジェスチャ入力および音声入力）をシステムが認識状態にあることを確認したり、システムが認識可能な入力態様（ジェスチャをすべき位置や音声の大きさなど）を操作者に把握させることもできる。操作意思判定フェーズにおける入力は、実際に機器を操作するための入力とは見なされないので、操作を意図しない入力による不用意な操作がなされることがない。

操作意思判定フェーズＦ１では、図３に示すジェスチャ入力判定処理によって設定される特定ジェスチャ判定フラグと図４に示す音声入力判定処理によって設定される特定音声判定フラグとに基づいて図５に示すフラグ判定処理Ｓ１を実行することにより操作者の操作意思を確認している。

ジェスチャ入力判定処理について説明する。図３に示すジェスチャ入力判定処理では、特定ジェスチャがなされたことを判定して、特定ジェスチャ判定フラグをＯＦＦからＯＮに変化させる。まず、図３に示すように、撮像部１５により操作者の１フレームの画像を取得し（Ｓ３１）、取得した１フレームの画像についてジェスチャ入力の検出を行なうジェスチャ入力検出処理を行なう（Ｓ３２）。

ジェスチャ入力検出処理（Ｓ３２）は、取得した画像中のジェスチャの有無を判定すると共に、ジェスチャが有りと判定した場合は、さらにどのようなジェスチャであるのかを判定する。「どのようなジェスチャであるのか」とは、ジェスチャの内容のことであり、例えば、グー、パーなどの手のひらの形状であったり、手のひらが右向き、手のひらが左向きなどの手のひらの向きであったり、腕を曲げた、腕を伸ばしたなどの腕の状態であったり、その他、手、足、頭などいずれかの身体に関連する状態や、必要に応じてそれらの位置を判定結果とするものである。

次いで、特定ジェスチャ判定フラグ設定処理を行なう（Ｓ３３）。特定ジェスチャ判定フラグ設定処理では、現在のフレームでのＳ３２におけるジェスチャ入力の検出結果と過去のジェスチャ入力の検出結果の履歴データとに基づいて、特定のジェスチャが行なわれているかどうかの特定ジェスチャ判定処理を行ない、この判定結果に基づいて判定フラグのＯＮ／ＯＦＦ（それぞれ有効／無効ともいう）を行なう。

特定ジェスチャ判定処理は、過去から現在のフレームまでの所定数（現在のフレームのみでも可）のジェスチャ入力の検出結果のそれぞれのジェスチャ入力について、予め記憶されている特定ジェスチャとの一致を判定する。このとき、ＲＯＭ１２等に設けられたデータベース等に予め特定ジェスチャが格納されているので、ジェスチャ入力と格納された特定ジェスチャとの一致（部分一致を含む）を判断し、一致した場合に特定ジェスチャを検出したと判定する。操作意思判定フェーズＦ１では、予め決められた操作意思を示す、１つまたは複数の特定ジェスチャとの一致を判定することができる。

過去から現在のフレームまでの所定数のジェスチャ入力の検出結果の中に、特定ジェスチャと一致するものが、閾値以上である場合にその特定ジェスチャの判定フラグをＯＮに変更またはＯＮを維持し、閾値未満である場合にその特定ジェスチャの判定フラグをＯＦＦに変更またはＯＦＦを維持する。例えば、フラグ変更の閾値が３であるとき、現フレームを含む連続する５フレームのうち、３フレームだけ特定ジェスチャが検出されたと判定された場合に、その特定ジェスチャの判定フラグをＯＮに変更し、３フレーム特定ジェスチャが検出されなかった場合は、その特定ジェスチャの判定フラグをＯＦＦに変更したりすることができる。閾値を設けて所定数のフレームに亘るジェスチャに基づいて判定すると、一時的な身体のブレなどによる誤検出を防止することができる。閾値はＯＮにする場合とＯＦＦにする場合で異なっていてもよい。

特定ジェスチャ判定フラグ設定処理（Ｓ３３）を実行した後、ジェスチャの検出結果の履歴保存処理（Ｓ３４）を行なう。ジェスチャの検出結果の履歴保存処理では、ジェスチャ入力検出処理Ｓ３２で検出したジェスチャの内容を記録し、履歴として保存する。履歴は、例えばＲＡＭ１３等に設けられたデータベース等に逐次記憶していけばよい。別の態様として、履歴は、操作意思判定フェーズＦ１では、操作意思を示す特定ジェスチャの有無を記録し、操作指示フェーズＦ２では、ジェスチャ入力検出処理Ｓ３２における検出結果としてのジェスチャの内容を記録することとしてもよい。

このジェスチャの検出結果の履歴保存処理（Ｓ３４）は、ジェスチャ入力検出処理Ｓ３２の後であればよく、特定ジェスチャ判定フラグ設定処理Ｓ３３の前に行なうこととしてもよい。なお、特定ジェスチャ判定フラグ設定処理を上記のように複数フレームのジェスチャ検出結果によらず、現在のフレームに対してのみ行なう場合は、この履歴保存処理Ｓ３４を省略することができる。

ジェスチャの検出結果の履歴保存処理（Ｓ３４）が終了すると、再び画像取得処理（Ｓ３１）に戻り、次のフレームについてのジェスチャ入力判定処理を行なう。

上記ジェスチャ入力判定処理では、１フレームで１つの画像を取得する場合を例に挙げて説明しているが、１フレームで複数の画像を取得してもよい。この場合、特定ジェスチャは複数の静止画でもよいし、動画でもよい。また、例えば手を左右に振るスワイプといった時間軸のあるジェスチャを検出するために、一定時間内の各フレームでの取得画像（複数の静止画）を保存しておき、連続した画像に対してジェスチャ検出を行なってもよい。

また、履歴保存は、判定結果とともに、そのジェスチャ入力を検出したときのタイムスタンプを履歴保存してもよい。特定ジェスチャ判定フラグ設定処理において、タイムスタンプが古すぎるジェスチャ入力については判定の対象から外すこととしてもよい。

次に音声入力判定処理について説明する。また、図４に示す音声入力判定処理では、特定の音声の入力を受け付けたかを判定して、音声判定フラグを変化させる。音声入力判定処理は、まず、音声入力部により音声を取得し（Ｓ４１）、取得した音声から音声認識を行なう音声認識処理をする（Ｓ４２）。無音状態（所定の音入力レベル以下の状態）から、何らかの音声入力があると、音声取得処理（Ｓ４１）における音声取得が開始され、所定の時間の間、音声取得が継続して行なわれる。別の態様として、所定時間の間ではなく、再び無音状態になるまで継続して音声取得してもよい。音声認識処理（Ｓ４２）は、取得した音声から音声キーワードを抽出することにより音声信号を言語化する変換を行なう。

次いで、特定音声判定フラグ設定処理を行なう（Ｓ４３）。特定音声判定フラグ設定処理では、認識された音声キーワードに特定の音声キーワードと一致したものが検出されたか否かを判定することにより、特定の音声キーワードが発話されたかどうかに基づいて、判定フラグのＯＮ／ＯＦＦを行なう。このとき、ＲＯＭ１２等に設けられたデータベース等に予め特定の音声キーワードが格納されており、認識された音声キーワードと特定の音声キーワードとの一致を判断し、認識された音声キーワードが特定の音声キーワードと一致する場合に特定の音声キーワードを検出したと判定する。操作意思判定フェーズＦ１では、予め決められた操作意思を示す、１つまたは複数の特定の音声キーワードとの一致を判定することができる。

また、現在のフレームを含む一定時間内の過去の音声キーワードの検出結果の履歴データに対して特定の音声キーワードとの一致を判定して特定音声判定フラグのＯＮ／ＯＦＦを行なってもよい。現在のフレームを含む過去の履歴データから一定時間内に複数の音声キーワードが検出されていなければ、判定フラグをＯＮにし、一定時間は判定フラグをＯＮのまま維持する。これにより、通常の会話が操作者の意図した発話として判定されるのを防止することができる。また、特定の音声キーワードがない場合でも、過去一定時間内に特定の音声キーワードがあれば、フラグを維持する。なお、判定フラグを変更する必要がない場合は、そのままフラグの状態を維持する。

特定音声判定フラグ設定処理（Ｓ４３）の後、音声キーワードの検出結果の履歴保存処理を行なう（Ｓ４４）。音声認識処理（Ｓ４２）において抽出した音声キーワードおよびそのタイムスタンプを記録し、履歴として保存する。音声キーワードだけでなく、タイムスタンプを保存することで、所定時間以上経過したものについては所定時間経過時にそのフラグのリセットを行なうことができるし、Ｓ４３において過去一定時間内のキーワードを簡易に確認することができる。

この音声キーワードの検出結果の履歴保存処理（Ｓ４４）は、Ｓ４２の後であればよく、Ｓ４３の前に行なうこととしてもよい。なお、特定音声判定フラグ設定処理において履歴を利用しない場合、所定時間経過時のフラグのリセットを行なわない場合は、この履歴保存処理Ｓ３４を省略することができる。

音声キーワードの検出結果の履歴保存処理（Ｓ４４）が終了すると、再び、音声取得処理（Ｓ４１）に戻り、次の音声について、音声入力判定処理を行なう。

図２に戻って、フラグ判定処理Ｓ１では、図５に示す処理にしたがって、上記したジェスチャ入力判定処理および音声入力判定処理の結果を示すフラグの状態から操作意思を判別する。フラグ判定処理Ｓ１について図５に基づいて説明する。まず、ジェスチャ入力と音声入力の判定結果により操作意思を判別する（Ｓ５１）。フラグ判定処理Ｓ１においては、特定ジェスチャ判定フラグおよび特定音声判定フラグのＯＮ・ＯＦＦを見て操作意思を判別することができる。具体的には、ジェスチャ判定フラグおよび音声判定フラグの両フラグがＯＦＦである場合、およびジェスチャ判定フラグおよび音声判定フラグのうちの一方のフラグのみがＯＮである場合は、操作意思なしと判別する（Ｓ５３へ進む）。

ただし、ジェスチャ判定フラグおよび音声判定フラグのうちの一方のフラグのみがＯＮである場合は、もう一方のフラグが変化する操作入力を促す表示を行なうための待機モードフラグをＯＮすることができる（Ｓ５４）。待機モードフラグは、ＯＮになると、表示手段等（図１の出力部１６に相当）にもう一方の入力の待機状態であることを示す表示をすることができる。

一方、ジェスチャ判定フラグおよび音声判定フラグの両フラグがＯＮである場合に操作意思ありと判別する（Ｓ５２へ進む）。操作意思がありと判別されたら、Ｓ５４でＯＮにした待機モードフラグがある場合は、これをＯＦＦに戻す。

ここで、図３のジェスチャ入力判定処理と、図４の音声入力判定処理と、図５のフラグ判定処理との関係について説明する。図６において、（ａ）はジェスチャ入力判定処理、（ｂ）は音声入力判定処理、（ｃ）はフラグ判定処理をそれぞれ示す。（ａ）から（ｃ）はフレーム数が異なることからも明らかなように、それぞれ非同期の処理である。

図６（ａ）のジェスチャ判定処理では、「グー」が操作意思を示す特定ジェスチャであり、現在のフレームを含む過去３フレームにおいて検出されたジェスチャのうち２個が特定ジェスチャであると判定された場合に特定ジェスチャ判定フラグをＯＮに変更し、判定された特定ジェスチャが０である場合には特定ジェスチャ判定フラグをＯＦＦに変更するように制御している。この処理では、３フレーム目で、特定ジェスチャが２回連続して検出されたので、特定ジェスチャ判定フラグをＯＮにしており、９フレーム目で過去３フレーム中「グー」の検出が０であるのでフラグをＯＦＦにしている。

図６（ｂ）の音声入力判定処理では、「開始」が操作意思を示す特定の音声キーワードであり、認識された音声キーワードが特定の音声キーワードである場合に、特定音声判定フラグをＯＮするように制御している。この処理では、１フレーム目では、操作意思を示す特定の音声キーワードと異なる「天気予報」と発話されたので、特定音声判定フラグはＯＦＦのままであるが、２フレーム目では、特定の音声キーワードと一致する「開始」と発話されたので、特定音声判定フラグは２フレーム目でＯＮとなる。

図６（ｃ）のフラグ判定処理では、５フレーム目で、特定ジェスチャ判定フラグと特定音声判定フラグとの両方がＯＮであることが確認されたので、操作意思ありと判定され、特定ジェスチャ判定フラグと特定音声判定フラグとの両方のフラグを必要に応じてＯＦＦにリセットする。

再び図２に戻って、操作意思判定フェーズＦ１において、フラグ判定処理Ｓ１により、操作意思があるか否かを判定すると、操作意思の有無に基づいて操作指示フェーズＦ２に移行するか否かが判定される（Ｓ２）。操作意思ありの場合（Ｓ２：Ｙｅｓ）は、操作指示フェーズＦ２に移行し、操作意思なしの場合（Ｓ２：Ｎｏ）は、操作指示フェーズＦ２に移行せず、再びフラグ判定処理Ｓ１に戻る。

操作指示フェーズＦ２は、ユーザによる入力を操作指示として解釈して、その解釈された操作指示に基づいて処理を行なうフェーズである。操作指示フェーズＦ２では必ずしもジェスチャ入力および音声入力の両方の操作手段を用いて入力を行なう必要はない。図３のジェスチャ入力判定処理と図４の音声入力判定処理との少なくとも一方の入力処理を完了することにより操作が実行できる。

操作指示フェーズＦ２では、ジェスチャ入力判定処理（図３）における特定ジェスチャは、操作意思を確認するためのジェスチャと異なり、実際の各種操作の内容などを意味するジェスチャとなる。同様に、音声入力判定処理（図４）における特定の音声キーワードは、操作意思を確認するための音声キーワードと異なり、実際の各種操作の内容などを意味する音声キーワードとなる。複数の操作内容が有る場合には、その操作内容に応じた種類の特定ジェスチャ、特定の音声キーワードが存在するため、それぞれの入力判定処理（図３、４）では、特定ジェスチャおよび特定の音声キーワードごとのフラグのＯＮ、ＯＦＦを処理することにより、どの操作内容に対する入力が受け付けられたか否かを、それぞれの特定ジェスチャ判定フラグ、特定音声判定フラグで示すことができる。

操作指示フェーズＦ２では、これらの処理の結果に基づいて、操作指示が有ったか否かを判定する（Ｓ３）。操作指示の有無は、それぞれの入力判定処理（図３、図４）において変更され得る特定ジェスチャ判定フラグや特定音声判定フラグに基づいて判定する。操作指示フェーズＦ２では、特定ジェスチャ入力判定フラグと特定音声判定フラグの少なくとも一方のフラグがＯＮであることをもって操作指示が有ったと判定できる。もちろん、操作の内容によっては、両方のフラグが有効であることを操作指示の条件としてもよい。

操作指示が有ったと判定できた場合（Ｓ３：Ｙｅｓ）は、図３、図４の判定処理、にて入力があったと判定された、予め決められた入力パターン（動作のみ、音声のみ、動作および音声）に合致している操作指示を操作対象に対して行なうことにより、操作対象のシステムを制御する（Ｓ４）。操作対象のシステムの制御（Ｓ４）は、機器機能処理部１７により操作対象の機器の機能を動作処理することであって、例えば照明の場合、照明を点灯、調光することや、ＴＶの場合、ＴＶのオンオフや選局したり、音量調節したりすることなどである。

Ｓ３において、操作指示がないと判別したかまたは判別できなかった場合（Ｓ３：Ｎｏ）か、または操作対象のシステムの制御（Ｓ４）が終了したら、操作指示フェーズＦ２が終了であるか否かの判定が行なわれる（Ｓ５）。

操作指示フェーズが終了であるか否かは、（１）操作指示として「終了」が指示された場合、（２）一定時間内に操作指示が無い場合、（３）一定時間の間、ジェスチャ判定フラグと音声判定フラグが両方ＯＦＦの場合に操作指示フェーズが終了であると判定される（Ｓ５：Ｙｅｓ）。

操作指示フェーズが終了でないと判定された場合（Ｓ５：Ｎｏ）は、操作指示フェーズＦ２の最初の操作指示判定処理Ｓ３に戻る。

操作指示フェーズが終了であると判定される（Ｓ５：Ｙｅｓ）と、再び操作意思判定フェーズＦ１に戻り、フラグ判定処理Ｓ１の処理を行なう。

（操作のフィードバック）
本実施形態の機器操作システムでは、操作者に操作結果のフィードバックを行なっている。フィードバックには、表示手段にフィードバック表示を行なう態様と、音声出力装置からフィードバック出力を行なう態様がある。フィードバック表示を行なう手段は、出力部１６（図１参照）として表示装置がある場合とない場合でその形態は異なる。図７から図９は表示装置がある場合に表示装置に表示されるフィードバック表示を示す図である。

フィードバックは、操作意思判定フェーズＦ１ではジェスチャ判定フラグおよび音声判定フラグが切り替わったことに基づいてフィードバックを行い、操作指示フェーズでは、ジェスチャ判定フラグおよび音声判定フラグの少なくとも一方が切り替わったことに基づいてフィードバックを行なうことができる。

フィードバック表示は、ジェスチャ入力のフィードバック表示と音声入力のフィードバック表示とを別々の表示で示すことができる。これにより、フィードバック表示がどちらの入力に関するものであるかをそれぞれ確認できる。図７に示すように、ジェスチャ入力のフィードバックを示す手のひら形のアイコンと、音声入力のフィードバックを示す吹き出しのアイコンとでフィードバック表示をすることができる。また図７に示すように、操作意思判定フェーズと操作指示フェーズとでアイコンの色などの表示状態を変化させてもよい。

フィードバック表示は、例えば、ジェスチャ（音声）入力待機状態と、ジェスチャ（音声）入力中と、ジェスチャ（音声）入力済と、ジェスチャ（音声）入力失敗とのステータスに応じてそれぞれ４種類の表示態様のいずれかが表示される。操作者がかかる表示態様を視認することによって、入力のステータスを確認することができる。

フィードバック表示として、操作指示フェーズの残り時間を表示してもよい。例えば、所定時間入力がない場合に操作指示フェーズが自動的に終了する設定の場合に、「何もしないとあと３０秒で操作指示フェーズが終わります」というフィードバック表示をするなどしてもよい。この残り時間の表示は、例えばジェスチャのランプの色の変化やメーター表示、別途状態遷移ランプ（操作意思と操作指示のフェーズ）等の手段を用いて行なってもよい。

また例えば、ジェスチャとして手の動作を用いる場合に、手認識のために適正な位置に手を誘導する必要がある。操作者のジェスチャ位置が適正でない場合に、図８や図９に示すように、センサから近すぎたり、遠すぎたり、カメラからずれていたり、適切な手の形でなかったりした場合にも、そのことを示す表示装置に表示を行なって、操作者にフィードバックすることができる。

図８の場合、手の位置がｍｉｄｄｌｅでｓｐｏｔに入っている場合は適正位置範囲内として表示によりフィードバックを行なっている。手の位置が前後にずれている場合は、手を適正位置に移動するように促す表示を行なう。

また、図９に示すように手の奥行き位置が適正でも、ｓｐｏｔから左右上下にずれている場合や、適正な動作（ジェスチャ・ポーズ）を行なっていない場合、手を適正位置に移動したり、適正動作へ促す表示を行なう。

また、出力部１６（図１参照）としてディスプレイなどの表示装置に代えて、発光灯（ランプ）を設けてもよい。図１０は発光灯の発光例を示している。これらの発光灯は、ジェスチャと音声とのそれぞれについて設けることができ、ジェスチャと音声との判定フラグがそれぞれ入力されたことを示すときに点灯状態を変化させて、操作者にフィードバックを行なうことができる。図１０の例では、操作意思判定フェーズでのジェスチャ（音声）入力待機状態と、操作指示フェーズでのジェスチャ（音声）入力待機状態と、ジェスチャ（音声）入力中と、ジェスチャ（音声）入力済と、ジェスチャ（音声）入力失敗とのステータスに応じてそれぞれ５種類の表示態様のいずれかが表示される。５種類の表示態様の変化は表示色により表わすことができる。

さらに、出力部１６がスピーカなどの音声出力装置を備える場合は、フィードバック表示の代わりに、音声で操作者にフィードバック出力を行なうことができる。もちろん、フィードバック表示と音声によるフィードバック出力とを併せて行なってもよい。

（優先操作者判定）
本実施形態の機器操作システムでは、複数の人の中で、優先して操作可能な操作者を決めるために、操作意思判定フェーズＦ１で優先操作者を判定することもできる。図１１は優先操作者の設定を説明するための図であり、図１２は優先操作者の切り替えを説明するための図であり、図１３は複数操作者の設定を説明するための図である。

操作意思判定フェーズＦ１において、画像処理により１人のジェスチャ入力のみが特定ジェスチャと一致すると検出された場合、そのジェスチャ入力を行なった人物を操作者候補とする。さらに音声キーワードと一致する音声入力が検出された場合、どの操作者候補が発話したのかを音源方向や撮像画像中の口の動きなどから判定し、その操作者を操作者候補とする。

図１１に示すように、点線枠で囲まれた操作者候補が特定動作および音声入力をした場合に、実線枠で囲まれた優先操作者として決定し、以降の操作の操作権限が与えられ、優先操作者のジェスチャ入力はトラッキングされる。

図１２に示すように、優先操作者の切り替えることもできる。図１２では、実線枠で囲まれた優先操作者が操作を終了し、ジェスチャ入力および音声入力が停止する。この状態から点線枠で囲まれた別の人物が操作意思判定の操作入力を行なう。次いで、新たな操作者候補が特定動作および音声入力をした場合に、実線枠で囲まれた優先操作者として決定し、以降の操作権限を与えられ、優先操作者の動作はトラッキングされる。

図１３に示すように、実線枠で囲まれた優先操作者が複数人であってもよい。操作意思判定で操作者と判定された複数の人物について、それぞれが優先操作者として判定され、それぞれに操作権限が与えられる。

次に、具体的な操作対象機器における動作について説明する。
（サイネージにおける構成例）
まず、操作対象機器がサイネージである場合の機器操作システムの動作について図１、２および図１４から１７に基づいて説明する。図１４は図１の機器操作システムが搭載されたサイネージ２０とこれを操作する操作者を示す説明図である。ここでは、サイネージ２０でＭａｐ機能を使用する場合を例に挙げて説明する。図１５はサイネージのＴＯＰ画面を示す図である。図１６は操作者とフィードバック表示の関係を示す図である。

機器操作システムが搭載されたサイネージ２０は、例えば図１４に示すように、出力部１６として機能するモニタ２１と撮像部１５として機能するカメラセンサ２２と、音声入力部として機能するマイク２３と、出力部として機能するスピーカ２４とを備えて構成されている。図１４の例では、図１のＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３に相当する構成は、サイネージ２０内に一体に組み込まれている。

サイネージ２０においては、図１５に示すように、入力待機状態ではＴＯＰ画面としてモニタ２１に選択可能な項目「Ｍａｐ」、「Ｎｅｗｓ」、「Ｆｏｒｅｃａｓｔ」と、フィードバック表示項目が表示されている。この状態では、操作入力（ジェスチャ入力および音声入力）は機器に対する操作指示としては受け付けられない。この状態で、操作者がサイネージに向かって手をかざし、操作開始の音声キーワードである「ＯＫ」と発話すると、カメラセンサ２２で撮像した画像からジェスチャ入力を取得し、マイク２３で取得した音声から音声入力を取得する。取得したジェスチャ入力が特定ジェスチャと一致し、取得した音声入力に音声キーワードが含まれると判定すると、ジェスチャ判定フラグと音声判定フラグの両方が有効に切り替わり、フィードバック表示がジェスチャ入力と音声入力の入力がなされたことを示すように変化する。

機器操作システムは、ジェスチャ判定フラグと音声判定フラグの両方に基づいて操作意思がありと判断し、操作意思判定フェーズから操作指示フェーズに移行する。ここで重要なのは、操作意思判定フェーズにおいて操作入力がなされても、操作指示フェーズへ移行するのみで項目画面は切り替わらずＭａｐ機能への切り替えはなされない。操作開始の音声キーワードは「ＯＫ」以外にも「操作」、「スタート」等の任意のキーワードを用いることが出来るし、操作意思を示すジェスチャは手をかざす以外のジェスチャとしてもよい。操作開始キーワードを発話する操作者の声が小さかったりすると、フィードバック表示で音声入力がなされたことを示す表示に変化しないので、操作者はフィードバック表示が変化するまで声の大きさ変えるなどして、操作に必要な声の大きさなどを確認することができる。

次いで、操作指示フェーズにおいて、図１６に示すように、操作者がサイネージ２０に向かって手をかざした状態で、キーワードである「Ｍａｐ」と発話すると、ここではＭａｐ機能への切り替えがなされ、コンテンツ「Ｍａｐ」の初期画面がモニタ２１に表示される。このように操作指示フェーズにおいては、操作者によるジェスチャ入力や音声入力を受け付けると、その入力に応じた処理を行なう。例えば、キーワード発話の音声入力を受け付けると、キーワード発話に対応する画面上のアイコンを操作したり、手を左や右にかざすジェスチャ入力を受け付けると、画面上のカーソル操作およびアイコン等の機能の選択操作を実行する。また、手をかざして一定時間停止するジェスチャ入力が行なわれると、カーソルで選択されたアイコン等の機能の決定操作が実行される。図１６に示す例では、操作指示フェーズにおいて、ジェスチャ入力と音声入力の両方でコンテンツ「Ｍａｐ」を選択する操作をしているが、ジェスチャ入力と音声入力のいずれか一方で操作をすることとしてもよい。

以上説明したように、操作対象機器がサイネージである場合に、本実施形態の機器操作システムによれば、操作を意図しない入力による誤入力がなされることが防止される。

図１７はサイネージのメニュー項目の階層構造を示す図である。サイネージのメニュー項目は、ＴＯＰ画面から「Ｍａｐ」以外にも「Ｎｅｗｓ」または「Ｆｏｒｅｃａｓｔ」を選択することができ、それぞれの項目ごとに下の階層の項目をさらに選択することができる。このとき、段階的に下の階層を選択する以外にも、キーワード入力で一気により下の階層を選択することもできる。例えば、「Ｎｅｗｓ−Ｓｏｃｃｅｒ」を選択する場合、操作指示フェーズにおいてＴＯＰ画面が表示された状態でキーワードである「サッカーニュース」と発話すると、一気に「Ｎｅｗｓ−Ｓｏｃｃｅｒ」を選択した状態（ジャンプ）にすることができる。

このように、操作階層をジャンプする構成により操作者の負担を減らすことができる。因みに、操作メニューが階層構造になっていたりすると、所望の操作結果を得るために、長時間操作を必要とするため、操作者の肉体的負担が大きくなる可能性もある。ジェスチャ入力では、センサに対して操作者が操作意図を示す動作によって、操作することが一般的である。つまり、人間工学的に楽な姿勢（直立不動等）ではなく、何らかの肉体的負荷を伴う動作を必要とする。例えば、センサに対して手をかざす動作をジェスチャ操作とする。長時間手を挙げ続けることは、操作者にとって肉体的負担を課すこととなる。操作対象に対して多くの指示をしようとすれば、必然的にジェスチャの動作時間も長くなる。逆に操作対象への指示数を減らせば、その分操作対象への操作項目も減り、利便性が損なわれる。よって、操作階層をジャンプする構成により、操作者の負担を減らすことができる。

（スマートフォンにおける構成例）
操作対象機器がスマートフォンである場合の機器操作システムの動作について図１、２に基づいて説明する。ここではスマートフォンでメール機能を使用する場合を例に挙げて説明する。

スマートフォンが入力待機状態にあるときに、スマートフォンに手をかざし、キーワードである「操作」と発話すると、ジェスチャ判定フラグと音声判定フラグの両方が有効に変化して、スマートフォン画面におけるフィードバック表示がジェスチャ入力と音声入力の入力がなされたことを示す表示に切り替わると共に操作意思がありと判断される。操作意思がありと判断された段階では、操作指示フェーズへ移行するのみで、メール機能への切り替えはなされない。

操作指示フェーズにおいて操作者によるジェスチャ入力や音声入力を受け付けると、その入力に応じた処理を行なう。例えば、キーワード発話の音声入力を受け付けると、キーワード発話に対応する画面上のアイコンを操作したり、手を左や右にかざすジェスチャ入力を受け付けると、画面上のカーソル操作およびアイコン等の機能の選択操作をする。また、手をかざして一定時間停止するジェスチャ入力が行なわれると、カーソルで選択されたアイコン等の機能の決定操作が行なわれる。

また、スマートフォンを操作対象として構成される機器操作システムでは、受電するなどの緊急事態の場合に、操作意思判定フェーズを省略することを妨げるものではない。この場合、スマートフォンが入力待機状態にあるときに電話やビデオ電話を受電したときに、手をかざすジェスチャ入力と「もしもし」とのキーワードの音声入力を受け付けると、操作意思判定を省略し、通話開始する。

このように、操作対象機器がスマートフォンである場合でも、本実施形態の機器操作システムによれば、操作を意図しない入力による誤入力がなされることが防止される。

（家電機器における構成例）
ここでは操作対象機器が家電機器である場合の機器操作システムの動作について図１、２および図１８から図２６に基づいて説明する。

［構成例１］
構成例１は、操作対象機器がリビングのテレビと照明である場合である。構成例１では、図１８に示すように、テレビ３１と照明３２とが機器機能処理部１７を搭載しており、音声入力部１４、撮像部１５、出力部１６はテレビ３１と照明３２とは別の装置として構成されていてもよい。図１の機器操作システム１における音声入力部１４、撮像部１５、出力部１６は、操作者の操作入力が可能であり操作者が容易に確認できるように、例えばリビングの棚や壁に設置することができる。これらの音声入力部１４、撮像部１５、出力部１６は、ＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３と一体の装置として構成することができる。この場合、有線または無線の接続手段１０により、テレビ３１や照明３２と通信し、テレビ３１と照明３２のそれぞれの機器機能処理部１７が操作指示に基づいて処理を実行する。この例では、テレビ３１と照明３２のいずれもがＯＦＦの状態から照明を点灯して、さらにテレビもＯＮ状態にする場合について説明する。

まず、操作者が撮像部１５に向かって手をかざし、キーワードである「操作」と発話すると、ジェスチャ判定フラグと音声判定フラグがそれぞれ有効になる。このように両方のフラグが有効になると、出力部１６においてフィードバック表示が点灯すると共に操作意思ありと判定され、操作指示フェーズに移行する。

次に、操作指示フェーズにおいて、図１９に示すように操作者が撮像部１５に向かって手をかざし、キーワードである「照明」と発話すると、フィードバック表示が点灯すると共に、照明３２が操作対象として選択される。このとき、照明３２が消灯状態である場合は、選択されたときに照明３２を点灯状態にさせてもよい。さらに、図２０に示すように、キーワード「調光」と発話し、撮像部１５に向かって右向きに手をかざすと、フィードバック表示が点灯すると共に、照明の強度を強くすることが指示されたと判定し、照明３２をより明るく点灯させる操作を実行する。その後、キーワード「調光」と発話し、撮像部１５に向かって左向きに手をかざすと、フィードバック表示が点灯すると共に、照明３２の強度を弱めることが指示されたと判定し、照明３２の点灯強度を下げる。

図２１に示すように、照明３２の操作中に、キーワード「ＴＶ」と発話すると、フィードバック表示が点灯すると共に、操作対象がＴＶ３１に切り替わる。ＴＶ３１がもともとＯＦＦになっていた場合は操作対象がＴＶ３１に切り替わったときにＴＶ３１のスイッチをＯＮにさせてもよい。さらにキーワード「音量」と発話すると、フィードバック表示が点灯すると共に、音量を調節することができる。音量の調節は、音声入力で行なってもよいし、ジェスチャ入力で行なってもよい。照明３２からＴＶ３１の切り替えは、図２２に示すように、音声入力とジェスチャ入力とを組み合わせて行なってもよい。

このように、本実施形態の機器操作システムでは、複数の家電機器を切り替えて操作することができる。

［構成例２］
構成例２は、操作対象機器が照明である場合である。この例では、図２３に示すように、構成例１と異なり、機器操作システム１に表示部がない構成で説明する。この例では、音声出力部１６がフィードバックを行なう。

まず、図２４に示すように、操作者が撮像部１５に向かって手をかざし、キーワードである「照明」と発話すると、ジェスチャ判定フラグと音声判定フラグがそれぞれ有効になる。このように両方のフラグが有効になると、音声出力部１６が「音声入力あり」と出力することによりフィードバックがなされると共に、操作意思ありと判定され、操作指示フェーズに切り替えられる。

次に、図２５に示すように、キーワード「調光」と発話し、撮像部１５に向かって右向きに手をかざすと、音声出力部１６が「音声入力あり」「ジェスチャ入力あり」と出力することによりフィードバックがなされると共に、照明の調光をすることが指示されたと判定し、照明を点灯し、ジェスチャ入力に応じた調光を実行する。その後、撮像部１５に向かって左向きに手をかざすと、音声出力部１６が「ジェスチャ入力あり」と出力することによりフィードバックがなされると共に、ジェスチャ入力に応じた調光を実行する。さらに、図２６に示すように、キーワード「消灯」と発話し、照明を消灯することが指示されたと判定し、照明３２を消灯する。また、消灯した後、さらに一定時間以上操作しないと、操作意思判定フェーズＦ１に戻るため、操作者が撮像部１５に向かって右向きに手をかざしても、操作することができず、再度照明を調整する場合は、操作意思の確認から始まる。

このように、操作対象機器が家電機器である場合でも、本実施形態の機器操作システムによれば、操作を意図しない入力による誤入力がなされることが防止される。

（自動車装備における構成例）
本実施形態の機器操作システムが自動車装備の制御システムとして構成されることもできる。操作対象機器が自動車装備である場合の機器操作システムの動作について図１、２および図２７から図３２を用いて説明する。図２７は自動車装備の制御システムに組み込まれた機器操作システムの構成例を示す図であり、図２８は操作意思判定フェーズを説明する図であり、図２９から図３２は操作指示フェーズを説明する図である。

図２７に示すように、自動車装備の制御システムでは、ＨＵＤ（ＨｅａｄＵｐＤｉｓｐｌａｙ：ヘッドアップディスプレイ）４１とカーナビ４２とスピーカ４３とが出力部１６（図１参照）として機能することができる。ハンドルの奥のパネルに設けられたカメラ４４とマイク４５はそれぞれ撮像部１５（図１参照）と音声入力部１４（図１参照）として機能することができる。また、インストルメントパネル４６を出力部１６（図１参照）として用いてもよい。

自動車装備としては、例えば、カーナビ、オーディオ、ＨＵＤ、エアコン、サイドミラー、電子ミラー、バックモニタ、ライト、パワーウインドウ、トランク、ワイパーなどを操作対象とすることができる。カーナビに対して、地図操作、カメラモニタ切り替え等を制御したり、オーディオに対して、音量、チャンネル等を制御したり、ヘッドアップディスプレイに対して、速度表示、目的地距離表示等を制御したり、エアコンに対して、風量調整、風向等を制御したり、サイドミラーに対して、向き調整等を制御したり、ライトに対して、点灯と消灯とを制御したり、パワーウインドウに対して、開閉調整を制御したり、トランクに対して、開閉を制御したり、ワイパーに対して、動作制御をしたりすることができる。

まず、機器操作システムが待機状態のときに、図２８に示すように、両親指を挙げるジェスチャを行ない、キーワード「スタート」と発話すると、ジェスチャ判定フラグと音声判定フラグの両方が有効に変化して、ＨＵＤ４１等におけるフィードバック表示がジェスチャ入力と音声入力の入力がなされたことを示す表示に切り替わると共に操作意思がありと判断され、操作指示フェーズに移行する。

次いで操作指示フェーズにおいて、「カーナビ」と発話すると、ＨＵＤ４１等におけるフィードバック表示が音声入力の入力がなされたことを示す表示に切り替わると共に、カーナビ４２をＯＮするなどして選択する処理を実行する。

カーナビが選択された状態で、図２９に示すように右手の親指によるプッシュ動作を行なうと、ＨＵＤ４１等におけるフィードバック表示がジェスチャ入力がなされたことを示す表示に切り替わると共にカーナビ４２の画面に目的地ナビ情報が表示される。

また、カーナビが選択された状態で、図３０に示すように両手の親指によるプッシュ動作を行なうと、ＨＵＤ４１等におけるフィードバック表示がジェスチャ入力がなされたことを示す表示に切り替わると共にカーナビ４２に表示された音楽が再生され、さらに右手の親指によるプッシュ動作を行なうと、ＨＵＤ４１等におけるフィードバック表示がジェスチャ入力がなされたことを示す表示に切り替わると共にカーナビ４２に表示された音楽が一時停止される。

また、カーナビが選択された状態からエアコンの風量調整を行なう場合は、図３１に示すように、「エアコン」と発話すると、ＨＵＤ４１等におけるフィードバック表示が音声入力の入力がなされたことを示す表示に切り替わると共にエアコンをＯＮするなどして選択する処理が実行される。さらに「風量」と発話して右手の親指によるプッシュ動作を行なうと、ＨＵＤ４１等におけるフィードバック表示がジェスチャ入力と音声入力の入力がなされたことを示す表示に切り替わると共にエアコンの風量がアップする。プッシュ動作をやめると、エアコンの風量調整が停止する。

カーナビが選択された状態からエアコンの風量調整を行なう場合、「エアコン」と発話することなく、図３２に示すように、カーナビが選択された状態でエアコンに特有である特定の音声キーワード「風量」と発話して、右手の親指によるプッシュ動作を行なうことにより、エアコンの風量をアップすることもできる。

このように、操作対象機器が自動車装備である場合でも、本実施形態の機器操作システムによれば、操作を意図しない入力による誤入力がなされることが防止される。

１機器操作システム
１１ＣＰＵ
１２ＲＯＭ
１３ＲＡＭ
１４音声入力部
１５撮像部
１６出力部
１７機器機能処理部
１０接続手段
２０サイネージ
２１モニタ
２２カメラセンサ
２３マイク
２４スピーカ
３１テレビ
３２照明
４１ＨＵＤ
４２カーナビ
４３スピーカ
４４カメラ
４５マイク
４６インストルメントパネル

Claims

ジェスチャ入力と音声入力とに基づいて機器を操作する機器操作システムであって、
ジェスチャ入力および音声入力による前記機器の操作を実行せずに、操作意思の有無を確認する操作意思確認手段と、
ジェスチャ入力と音声入力との少なくとも一方の入力による前記機器の操作を指示する操作指示手段とを備え、
前記操作意思確認手段は、操作意思を示す特定のジェスチャが前記ジェスチャ入力として検出されたと判定され、かつ操作意思を示す特定の音声キーワードが前記音声入力として検出された場合に、前記操作意思が有りと判断して、前記操作指示手段による処理に移行することを特徴とする機器操作システム。
前記操作意思確認手段は、前記ジェスチャ入力が特定ジェスチャであるか否かを判定して特定ジェスチャ判定フラグを設定するジェスチャ入力判定手段と、前記音声入力が特定の音声キーワードであるか否かを判定して特定音声判定フラグを設定する音声入力判定手段と、前記特定ジェスチャ判定フラグおよび前記特定音声判定フラグに基づいて操作意思が有るか否かを判定するフラグ判定手段とを有することを特徴とする請求項１に記載の機器操作システム。
前記ジェスチャ入力判定手段は、複数回にわたって検出したジェスチャ入力を履歴保存し、該履歴保存した複数回のジェスチャ入力に基づいて特定ジェスチャ判定フラグを設定することを特徴とする請求項２に記載の機器操作システム。
前記ジェスチャ入力判定手段と、前記音声入力判定手段と、前記フラグ判定手段とは互いに非同期に処理を行なうことを特徴とする請求項２または３に記載の機器操作システム。
操作の対象となる前記機器は、サイネージ、ＰＣ、スマートフォン、ＨＭＤ、家電機器、自動車装備のいずれかであることを特徴とする請求項１から４のいずれかに記載の機器操作システム。
ジェスチャ入力と音声入力とに基づいて機器を操作する機器操作方法であって、
ジェスチャ入力および音声入力による前記機器の操作を実行せずに、操作意思の有無を確認する操作意思確認段階と、
ジェスチャ入力と音声入力との少なくとも一方の入力による前記機器の操作を指示する操作指示段階とを含み、
前記操作意思確認段階において操作意思を示す特定のジェスチャが前記ジェスチャ入力として検出されたと判定され、かつ操作意思を示す特定の音声キーワードが前記音声入力として検出された場合に、前記操作意思が有りと判断して、前記操作指示段階に移行することを特徴とする機器操作方法。
ジェスチャ入力と音声入力とに基づいて機器を操作する機器操作方法をコンピュータに実行させるプログラムであって、該機器操作方法は、
ジェスチャ入力および音声入力による前記機器の操作を実行せずに、操作意思の有無を確認する操作意思確認段階と、
ジェスチャ入力と音声入力との少なくとも一方による前記機器の操作を指示する操作指示段階とを含み、
前記操作意思確認段階において、操作意思を示す特定のジェスチャが前記ジェスチャ入力として検出されたと判定され、かつ操作意思を示す特定の音声キーワードが前記音声入力として検出された場合に、前記操作意思が有りと判断して前記操作指示段階に移行することを特徴とする機器操作プログラム。