JP5619775B2

JP5619775B2 - マルチメディアの表示から情報を制御及び要求する方法

Info

Publication number: JP5619775B2
Application number: JP2011547874A
Authority: JP
Inventors: ヤン，ルイデュオ; ルオ，イン; ジャン，タオ
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2009-01-30
Filing date: 2009-01-30
Publication date: 2014-11-05
Anticipated expiration: 2029-01-30
Also published as: US20120019684A1; EP2391970A1; CN102301379B; CN102301379A; US9639744B2; WO2010087796A1; JP2012516497A

Description

本発明は、メディアを制御する方法に関するものであり、特に、本発明は、マルチメディアの表示において認識された特徴に関連する有効な情報を要求するジェスチャーを認識することで、顔認識を使用して係る情報を取得する方法に関する。

電子装置を操作するユーザは、電子的な遠隔制御に益々依存している。電子的な遠隔制御により、ユーザは、ある距離からコマンドを発生し、赤外線（IR）及び無線信号を通して電子装置にコマンドを送出することができる。

典型的な家庭では、テレビジョン、ケーブルTV受信機、CDプレーヤ、ビデオレコーダ、DVDプレーヤ、オーディオレシーバ、コンピュータシステム及び更には照明のような１以上の電子装置は、遠隔制御を使用して制御することができる。実際に、多くの電子的なコンポーネントは、遠隔制御を通してコマンドに依存しており、この場合、遠隔制御は、電子装置のプリファレンスにのみアクセスすることができる。電子的な遠隔制御は、実際は非常に複雑になるが、それらの使用は、特に多くの遠隔制御はライブメディアに対する更なるアクセスのしやすさを作り上げているので更に普及している。多くの電子的な消費者は、全てのマルチメディアの形態、特にテレビジョンとの双方向性を高める強い望みを有している。

電子的な消費者は、長く望まれている増加されるマルチメディアとの双方向性及び参加を有している。電子的な遠隔制御を除くことも例外ではない。電子装置に指示する人間の身体のジェスチャーを使用することは、サイエンス・フィクション（SF）において長年にわたり議論されてきた。しかし、ジェスチャー認識の発展により、人間のジェスチャは、電子的な出力装置にコマンドを発することにおいて価値があることが分かっている。

ジェエスチャー認識技術により、ユーザは、電子的な遠隔制御のような他のメカニカルな装置を使用することなしに、電子装置と対話することができる。この技術は、人間の身体の動きを読み取り、収集されたデータをコンピュータに伝達するカメラを通常含む。次いで、コンピュータは、電子装置向けの意図されたコマンドとして選択されたジェスチャーを認識する。たとえば、実際に、ユーザは、カーソルを移動させ、アプリケーションコマンドを作動するため、テレビジョン又はコンピュータスクリーンを指し示すことができる。

インタラクティブメディアシステムは、米国特許第7283983号で開示されており、ビデオカメラに結合されるコンピュータであって、書籍、教育マテリアル、雑誌、ポスター、チャート、マップ、個人のページ、パッケージング、ゲームカード等のような印刷媒体の使用と共に、人間のユーザのための双方向性を増加するコンピュータを教示する。コンピュータシステムは、ビジョンに基づいたセンサを使用して、印刷媒体を識別し、そのビューに対応する情報を取得する。次いで、センサは、少なくともメディアの一部に関して第一のユーザのジェスチャーを識別する。次いで、コンピュータシステムは、ジェスチャーをコマンドとして解釈し、第一のジェスチャー及び取得された情報に基づいて、システムは、取得された情報の少なくとも一部を電子的に音声として出力する。

人間のジェスチャーは、上述された手の動きを含めて、身体の動き又は状態から生じることができる。顔の認識は、それらのジェスチャーが何処から生じているかを区別することで動き検出システムを更に支援し、関連のない動きをフィルタリングする。

人間は、顔を認識して区別する固有の能力を有するが、同じ固有の能力コンピュータソフトウェアに採用することは非常に困難である。しかし、過去数年において、システムが良好に開発されている。

コンピュータと共に使用される顔認識により、デジタル画像又はビデオソースから、ある人物の識別及び検証が可能である。人間の顔は、様々な区別可能な特徴を有するので、ある人物の識別のために、これらの特徴の比較が利用される。アルゴリズムを使用して、コンピュータソフトウェアは、目の間の距離、眼窩の深さ、頬骨の形状及び他の顔の特徴のような特性を比較し、それぞれの特徴を既存の顔データと比較することができる。

Agraham等による米国特許第6377995号は、マルチメディア通信の選択された部分が効果的に取得され且つ中継されるように、顔及び音声認識を使用したマルチメディア通信を索引付けする方法及び装置を提供する。本方法及び装置は、顔及び音声認識を結合して、データ又はメタデータを含む、マルチキャストのマルチメディア電話会議への参加者を識別する。サーバは、オーディオ及びビデオの顔パターンの両者が特定の参加者の音声及び顔モデルに整合するときに、特定の参加者の同一性を決定し、その参加者の音声及び顔パターンの同一性に基づいて参加者のインデックスを作成し、これによりインデックスは、マルチメディア通信を分割するために使用される。

Depth-awarenessカメラは、広く利用されており、メディアを制御するために使用される。Sony Eyetoy and Playstation Eyeのようなビデオパターン認識ソフトウェアは、専用カメラを利用して、短距離でカメラを通して見られているものの深度マップを生成し、ユーザは、動き、色検出を使用してメディアと対話することができ、更には内蔵のマイクロフォンを使用して音で対話することができる。

McCarty等による米国特許第6904408号は、ユーザのウェブブラウジング体験をカスタマイズするために使用されるウェブコンテンツマネージャを教示する。マネージャは、旧式のデータベースで収集されるユーザの心理的な好みに従って、少なくとも１つのリアルタイムの観察可能な行動信号に応答して、適切なオンラインメディアを選択する。皮膚の温度、脈拍数、心拍数、EMG、EEG、音声ストレス及びジェスチャー認識は、幾つかの行動の応答であり、心理的なインジケータが測定及び分析される。ジェスチャー認識は、ビデオ入力のコンピュータ分析により達成される。顔の位置は、明るい態度又は暗い態度を示し、この場合、毎分のカウント数は、心配を示すために使用される。

ジェスチャー認識は、多くの応用のために有効であることが分かっている。しかし、ジェスチャー認識は、ジェスチャー認識ソフトウェアのロバスト性及び正確性を含めて、多くの課題を有する。画像に基づいたジェスチャー認識について、機器に関連する制限及び視野で発見される雑音の量に関連する制限が存在する。意図されないジェスチャー及び背景の動きは、発せられたコマンドの十分な理解を妨げる。

特に、人間のジェスチャーを使用して、メディアコンテンツを制御することが必要とされている。しかし、従来のアプローチは、ロバストでないジェスチャー認識技術を採用している。

本発明は、ジェスチャーを使用してインタラクティブメディアを制御するロバストな方法を提供する。

マルチメディア発信装置からメタデータ情報を取得する方法は、以下のステップを含む。（１）顔検出を使用して現在捕捉された画像において画像のホットスポット領域を抽出すること、（２）ジェスチャー認識を使用して少なくとも１つの画像のホットスポット領域における人間のジェスチャーの指示を検出すること、（３）ジェスチャーの指示がリッチインタラクションモジュールに予め割り当てられたコマンドに整合するかを判定すること、（４）検出された予め割り当てられたコマンドに対応するリッチインタラクションモジュールに信号を送出するステップと、（５）マルチメディアから送出された電気信号からメディア画像のホットスポット領域を抽出すること、（６）ジェスチャー認識を使用して少なくとも１つの画像のホットスポット領域において検出された人間のジェスチャーを、スクリーンデバイスの特定の画素と整合させること、（７）スクリーンデバイスの画素の領域に割り当てられたメタデータから情報を取得すること。

本発明は、イメージセンサと、イメージセンサを通してピクチャ画像を受ける入力画像モジュールとを有するカメラを有するメディア制御装置を更に有する。入力画像モジュールは、メモリ、顔検出モジュール及びジェスチャー認識モジュールに更に接続する。メディア制御インタフェースは、入力画像モジュールからのコマンドを受け、電気信号をリッチインタラクションモジュールに発し、リッチインタラクションモジュールは、マルチメディア発信装置に取り付けられ、マルチメディア発信装置から電気信号を受けて、送出する。

本発明は、添付図面を参照して、実施の形態を参照して以下に更に詳細に説明される。
マルチメディア制御システムにより使用される代表的な機器のブロック図である。マルチメディア制御システムの透視図である。カメラにより捕捉される画像に適用される、顔検出モジュールのフローチャートである。顔検出アルゴリズムを使用した現在の捕捉された画像を処理する顔検出モジュールを例示する図である。ジェスチャー認識モジュールのフローダイアグラムである。ジェスチャー認識アルゴリズムを使用して現在の捕捉された画像を処理するジェスチャー認識モジュールを例示する図である。顔検出を使用してマルチメディアスクリーンで画像形成されるマルチメディアとのリッチユーザインタラクションを表すフローダイアグラムである。リッチインタラクションを例示する図である。マルチメディア装置により送出される画像信号に適用される、顔検出モジュールのフローダイアグラムである。

本発明は、以下に詳細に説明され、本発明の実施の形態は、添付図面を参照して例示される。

図１を参照して、本発明に係るマルチメディア制御システム１が例示される。マルチメディア制御システム１は、イメージセンサ２、メモリ５に接続される入力画像モジュール４、メディア制御インタフェース６、メモリ５に接続される顔検出モジュール１０及びジェスチャー認識モジュール２０、リッチインタラクションモジュール７及びマルチメディアアウトレット装置８を有する。

イメージセンサ２は、特に、光画像を電気信号に変換する装置である。電気信号は、入力画像モジュール４に入力され、処理の前にメモリ５に記憶される。

基本的に、イメージセンサ２は、図２に更に例示されるようにデジタルカメラ３０と共に使用される。カメラ３０は、イメージセンサ２上の光を捕捉及び焦点合わせするために使用される。イメージセンサ２は、マルチメディアユーザ３からの複数の静止画像を捕捉し、このユーザは、マルチメディアアウトレット装置８にコマンドを発する場合がある。イメージセンサ２は、捕捉された光を電気出力信号に変換し、電気出力信号は、入力画像モジュール４を通して処理される。顔検出及びジェスチャー認識モジュール１０，２０は、メモリ５を通して入力画像モジュール４に接続され、発せられたコマンドがユーザ３により実行されているかを判定することと共に、電気信号を処理する。

カメラ３０は、角度θでカメラの視野を調節するズームレンズ（図示せず）を有する。これは、潜在的な雑音を制限するために第一且つ最も基本的なやり方である。マルチメディアユーザ３は、マルチメディアユーザ３にカメラが焦点合わせすることができるように、カメラ３０を調節する。

実施の形態では、入力画像モジュール４は、マイクロプロセッサのようなプログラマブル装置である。入力画像モジュール４はデジタルカメラ３０に統合して製造することができるが、更なる実施の形態は、カメラ３０及びイメージセンサ２とは別に、配線により接続される入力画像モジュール４の単独の構成を可能にする。

入力画像モジュール４は、メモリコンポーネントを有し、このコンポーネントは、カメラ３０により捕捉される到来する画像フレームを記憶し、イメージセンサ２によリ信号伝達される。記憶される画像は、収集され、顔検出モジュール１０とジェスチャー認識モジュール２０との間の処理のために記憶される。メディア制御インタフェース６は、入力画像モジュールの更に別のコンポーネントであり、好ましくは１つの構成で提供される。しかし、メディア制御インタフェース６は、入力画像モジュール４に外部コンポーネントとして提供されることも可能である。

入力画像モジュール４は、モジュール１０，２０を有し、それらの論理的な機能及び接続性は、顔検出及びジェスチャー認識に関連するアルゴリズムに従って予めプログラムされる。顔検出及びジェスチャー認識モジュール１０，２０の両者は、本発明の実施の形態において入力画像モジュール４に統合して構築される。

顔検出及びジェスチャー認識モジュール１０，２０のアルゴリズムにより決定される結果に依存して、入力画像モジュール４は、図１に例示されるように、メディア制御インタフェース６を通してマルチメディア発信装置８にコマンドを供給する。

実施の形態では、コマンドは、予め割り当てられたジェスチャーの指示により予めプログラムされる。ジェスチャー認識モジュール２０は、マルチメディアアウトレット装置８により実行される特定のコマンドとして、多数の特定のジェスチャーの指示を認識する。たとえば、ユーザが彼の顔の右に彼の右手を振った場合、ジェスチャー認識モジュールは、そのジェスチャーを、マルチメディアアウトレット装置８をオフにするコマンドとして認識する。しかし、他の実施の形態では、システム１は、発生されたコマンドとしてそれら自身の特定のジェスチャーをユーザ３がプログラムするのを可能にする。たとえば、オフコマンドとしてユーザが彼の左の手を彼の顔の左に振ることでオフコマンドがトリガされるように、ユーザはシステム１をプログラムすることができる。

リッチインタラクションモジュール７は、マルチメディアアウトレット装置８で表示される画像の処理のために入力画像モジュール４にそれらの信号を送出するため、マルチメディアアウトレット装置８からの信号を受ける。さらに、リッチインタラクションモジュール７は、ユーザ３の指示とデバイススクリーン９上の特定のスポットとを整合させる。

本発明に係る図１に例示されるマルチメディア制御システム１は、ユーザ３に、メディアを制御する方法、特に顔認識を使用してマルチメディアにおける特徴に関連する有効な情報を索引付けし、次いで対応する特徴に関する情報を要求するジェスチャーを認識する。本発明の目的は、人間のジェスチャーのみを使用して、ロバストなやり方でマルチメディアアウトレット装置８で数字（figure）に関するメタデータをユーザ３が取得するのを可能にすることである。ジェスチャーは、カメラ３０及びイメージセンサ２を通して捕捉される。しかし、顔検出モジュール１０により実行されるアルゴリズムにより定義及び抽出される割り当てられた画像のホットスポット領域でジェスチャーが行われる場合、ジェスチャーが認識される。ジェスチャー認識モジュール２０は、アルゴリズムを実行して、ユーザにより実行された動きが実際に発生されたコマンドであるかをロバストに判定する。動きが意図されたコマンドであるとジェスチャー認識モジュール２０が判定した場合、どのコマンドがメモリ５において予め割り当てられたジェスチャの指示に基づいているかを更に判定する。

図２に更に例示されるように、ユーザ３は、電子的な遠隔制御を使用することなしに、オン／オフ、開始／停止、巻き戻し／早送り等のような人間のジェスチャーの指示１４を使用して、マルチメディアアウトレット装置８に指示する。マルチメディアアウトレット装置８は、テレビジョン又はCPUモニタにような様々な電子装置である。しかし、実施の形態では、マルチメディアアウトレット装置８は、テレビジョンセットである。

図２に例示されるように、カメラ３０は、視野３１において画像を捕捉する。現在の捕捉された画像Ｃiは、顔検出モジュール１０により処理されるため、イメージセンサ２を使用して入力画像モジュール４に電子的に信号伝達される。顔検出モジュール１０は、ｆ1から開始して、顔領域１１を割り当て、視野３１における顔を判定する。ｆ1として割り当てられたこの顔領域１１に基づいて、顔検出モジュールは、ジェスチャーの指示１４の認識を改善するため、画像のホットスポット領域１２ａ，１２ｂを更に抽出及び割り当てる。また、唯一のホットスポット領域１２ａを顔検出モジュールに抽出及び割り当てさせることもできる。係る状況において、１つのホットスポット領域１２ａは、更に改善されたロバスト性により、望まれない動きをフィルタリングするために使用される。

図示される実施の形態では、それぞれの画像ホットスポット領域１２ａ，１２ｂは、顔領域ｆ1により定義され、第一の画像ホットスポット領域１２ａは、顔領域ｆ1のちょうど左の領域に割り当てられ、第二の画像ホットスポット領域１２ｂは、顔領域ｆ1のちょうど右の領域に割り当てられる。図示される実施の形態では、何れか画像ホットスポット領域１２ａ，１２ｂの大きさは、顔領域ｆ1のサイズに依存する。顔領域ｆ1は、頭部を実質的に超える領域と、検出された顔を実質的に下回る領域とにより定義される。図示される実施の形態では、顔領域ｆ1と画像ホットスポット領域１２ａ，１２ｂのサイズは、人間のジェスチャーの指示１４の認識を良好に改善するために小さなサイズ又は大きなサイズに較正することができる。

割り当てられたホットスポット領域１２ａ，１２ｂの位置は、検出された顔の領域ｆ1の近くにあり、且つホットスポット領域１２ａ，１２ｂにおける捕捉された画像Ｃiが容易に識別することができる限りフレキシブルである。たとえば、頭部のちょうど下にある割り当てられたホットスポット領域１２ａ，１２ｂは、良好な候補ではない。これは、身体の画像がその領域における手の画像と干渉するためである。

図３は、顔検出を使用して画像ホットスポット抽出方法のフローダイアグラムであり、図４は、顔検出方法の視覚的な表現を例示する図である。はじめに、カメラ３０は、現在の捕捉された画像Ｃiを捕捉し、この現在の捕捉された画像は、イメージセンサ２により電気信号に変換される。顔検出モジュール１０により最初に処理されるように、信号はメモリ５にファイルとして記憶される。

顔検出モジュール１０は、現在の画像Ｃiを使用して顔検出アルゴリズム１３を実行する。顔検出アルゴリズム１３は、現在の捕捉された画像ファイルＣiを処理して、視野３１における顔を検出する。顔検出アルゴリズム１３は、上述されたように多数の顔を検出し、顔領域（ｆ1，ｆ2，…，ｆn）を割り当てる。

はじめに、顔検出領域１３は、現在の画像Ｃiをメモリ５から入力ファイルとして取得する。認識された第一の顔は、顔領域ｆ1として示される。視野３１内の顔の数に依存して、アルゴリズムは、他の顔領域を識別して、第二の顔領域をｆ2，…，ｆnとして指定する。ここでｎは、視野３１における顔の数である。アルゴリズムが顔を検出しない場合、顔検出モジュール１０は、メモリ５に戻り、新たに捕捉された画像Ｃnで顔検出アルゴリズム１３を繰り返す。

顔が識別された後、顔検出モジュール１０は、画像ホットスポット領域１２ａ，１２ｂのそれぞれとして顔の左の領域と右の領域を識別して指定する。画像のホットスポット領域１２ａ，１２ｂは、マスクとして利用され、ホットスポットでない領域における意図されないジェスチャーをフィルタリングする。ひとたび画像ホットスポット領域１２ａ，１２ｂが割り当てられると、モジュールは、出力ファイルを生成する。出力ファイルは、矩形のアレイから構成され、この矩形は、検出された顔領域ｆ1の大きさによりスケーリングされる、顔領域ｆ1及び画像ホットスポット領域１２ａ，１２ｂに対応する。出力ファイルは、ジェスチャー認識モジュール２０により更に処理されるように、メモリ５に記憶される。

図５は、ジェスチャー認識を使用してメディアを制御するメディアの指示を表すフローダイアグラムであり、図６は、ジェスチャー認識とメディアにより制御される指示の視覚的な表現を例示する。

現在の捕捉された画像Ｃiのファイルが顔検出モジュール１０からメモリ５に読み出された後、ジェスチャー認識モジュール２０は、ジェスチャー認識アルゴリズム２１を実行する。

メモリ５に記憶されている前に捕捉された画像Ｃi-1のファイルを使用して、ジェスチャー認識アルゴリズム２１は、現在の捕捉された画像Ｃiと前に捕捉された画像Ｃi-1との間の差Ｄiの絶対値をはじめに計算する。ジェスチャー認識アルゴリズム２１は、エロージョン（erosion）動作を差Ｄiに適用して、小さな領域をはじめに除き、人間のジェスチャーの指示１４のより改善された認識を支援する。

図示される実施の形態では、差Ｄiにエロージョンを実行するため、関数cvErodeが使用される。cvErode関数は、最小が取得される画素の近傍の形状を決定する指定された構造化エレメントを使用する。エロージョン関数は、図示される実施の形態で一度だけ適用されるが、他の実施の形態において、エロージョン関数は、差Ｄiに対して数回適用することができる。

捕捉された画像Ｃi及びＣi-1は顔検出モジュール１０により以前に処理され、メモリ５に記憶されているので、それぞれの捕捉された画像Ｃi及びＣi-1は、割り当てられ、抽出された画像のホットスポット領域１２ａ，１２ｂを含む。ジェスチャー認識アルゴリズム２１は、抽出された画像ホットスポット領域１２ａ，１２ｂを使用して、ホットスポットでない領域における動きをマスク及びフィルタリングすることができる。結果として、ジェスチャー認識アルゴリズム２１は、指定されていない画像ホットスポット領域における動きに関して差Ｄiを変更し、動き履歴画像（MHI: Motion History Image）を構築する。動き履歴画像（MHI）は、動きの塊（blobs）を検出し、ジェスチャー認識アルゴリズム２１の更なる動作は、これらのジェスチャーの塊が実際の人間のジェスチャーの指示１４であるかを判定する。

動き履歴画像（MHI）は、時間を通した動きを定量化して特定し、画像の系列において動きがどのように生じるかを表す。本発明では、動きの塊は、特定の領域、特に画像ホットスポット領域１２ａ，１２ｂにおいてジェスチャー認識モジュール２０により検討され、認識される。

それぞれの動き履歴画像（MHI）は、タイムスタンプの特定の画像座標ｘ，ｙにより識別及び定義される画素を有する。画像の座標ｘ，ｙは、その画素における最後の動きに関連する。動きは画像ホットスポット領域１２ａ，１２ｂにおいて検出されるので、ジェスチャー認識アルゴリズム２１は、動き履歴画像（MHI）を修正して、結果として得られる動きの塊の階層化された履歴を作成する。

画像ホットスポット領域１２ａ，１２ｂで検出された全ての動きの塊について、ジェスチャ認識アルゴリズム２１は、最大及び最小のｘ，ｙ画素の座標を探し、最大の値をlx，ly、最小の値をSx，Syと示す。

動き履歴画像（MHI）の最大及び最小のｘ，ｙ画素座標を使用して、ジェスチャー認識アルゴリズム２１は、lyとSyとの間の差が第一の経験値T1よりも大きい（ly-Sy>T1）かがはじめに判定される。この判定について肯定（Yes）である場合、ジェスチャー認識アルゴリズム２１は、認識されたジェスチャーの指示１４を有するとして現在の捕捉された画像Ｃiを認識しない。第一の経験値T1は、統計的に又は実験により決定され、マルチメディア制御システム１がインストールされる前にアルゴリズムに実現される。認識されたジェスチャーの指示１４が存在しない場合、ジェスチャー認識アルゴリズム２１は、Ｃiを処理するのを停止し、顔検出モジュール１０によりはじめに処理される新たに捕捉された画像Ｃnで開始される。

lyとSyとの間の差が第一の経験値T1よりも大きくない場合、ジェスチャー認識アルゴリズム２１は、次のステップに移り、lxとSxとの間の差が第二の経験値T2よりも大きい（lx-Sx>T2）かを判定する。この判定について肯定的である場合、ジェスチャー認識アルゴリズム２１は、新たに捕捉された画像Ｃnについて開始して、認識された人間のジェスチャーの指示１４を有するとして現在の捕捉された画像Ｃiを認識しない。さもなければ、ジェスチャー認識アルゴリズム２１は、x方向の動き（lx-Sx）がy方向の動き（ly-Sy）よりも小さいかを判定する。x方向の動きがy方向の動きよりも小さい場合、ジェスチャー認識アルゴリズム２１は、現在の捕捉された画像Ｃiにおけるジェスチャー指示１４を認識せず、アルゴリズム２１は、新たに捕捉された画像Ｃnについて開始する。

デフォルトとして、ジェスチャー認識アルゴリズム２１が現在の捕捉された画像Ｃiにおいてジェスチャーの指示１４を識別及び認識する必要があるが、動き履歴画像（MHI）において「十分に大きい」成分が存在する場合、ジェスチャー認識アルゴリズム２１は、「手の動き」が存在すると判定する。「十分に大きい」とは、システム１の実現の前に、統計的又は実験的に決定される経験的な閾値である。

「手の動きを有する」と認識した３つの連続する捕捉された画像が存在する場合、ジェスチャー認識モジュール１０は、メディア制御インタフェース６を通して、メディアアウトレット装置に特定のコマンドを発生する。

「手の動きを有する」とは、マルチメディアアウトレット装置８に対する特性のコマンドを制御するジェスチャーの指示１４であるべきである。「手の動きを有する」に関連する特定の制御コマンドは、左の画像ホットスポット領域１２ａ又は右の画像ホットスポット領域１２ｂの何れかとして、「手の動きを有する」が何処で認識されたかに関して決定される。先に記載されたように、特定の制御コマンドは、特定の画像ホットスポット領域１２ａ，１２ｂに予め割り当てられるか、ユーザ３により予めプログラムされる。

ジェスチャー認識モジュール２０は、「手の動きを有する」が３つの連続する捕捉された画像にわたり認識される場合に、特定のコマンドを送出する。次いで、その特定のコマンドは、対応する電気的なコマンド信号をメディアアウトレット装置８に中継するメディア制御インタフェース６に送出される。

異なるジェスチャーの全てのジェスチャーの指示は、良好に定義され、予め割り当てられたコマンドは、マルチメディア制御システム１で記憶される。しかし、ユーザ３は使用前に彼自身のコマンドを定義することもできる。従って、右の画像ホットスポット領域１２ｂにおける手の振りがマルチメディアアウトレット装置８をオンにするための定義されたジェスチャーであり、且つジェスチャー認識アルゴリズム２１が右の画像ホットスポット領域１２ｂにおけるジェスチャーの指示１４として手の振りを認識した場合、マルチメディアアウトレット装置８は、オンになるように信号伝達される。逆に、左の画像ホットスポット領域１２ａにおける手の振りがマルチメディアアウトレット装置８をオフにするための定義されたジェスチャーであり、且つジェスチャー認識アルゴリズム２１が左の画像ホットスポット領域１２ａにおけるジェスチャーの指示１４として手の振りを認識した場合、マルチメディアアウトレット装置８は、オフになるように信号伝達される。

動き履歴画像（MHI）が構築されるとき、動き検出を行うため、２つの実現が存在する。１つの実現では、動き履歴画像（MHI）は、全体の捕捉された画像Ｃiを使用して構築される。しかし、別の実現では、動き履歴画像（MHI）は、ホットスポット領域１２ａ，１２ｂの画像のみを使用して構築される。ユーザ３が静止しているとき、すなわち頭の動きが僅かであるか又は動きがないとき、何れの実現も同じ結果につながる。しかし、ユーザ３が動いている場合、これらの実現は異なる。

図示される実施の形態では、割り当てられたホットスポット領域１２ａ，１２ｂは顔ｆ1に関して相対的に位置しており、顔ｆ1は、幾分動いている。動き検出はこれらの場合に正確であるが、頭部による動きは動き検出におけるエラーを引き起こす可能性がある。動き履歴画像（MHI）が全体の画像を使用して構築される場合、割り当てられたホットスポット領域１２ａ，１２ｂにおいて動きが存在する。しかし、動き履歴画像（MHI）が割り当てられたホットスポット領域１２ａ，１２ｂのみを使用して構築される場合、外部の動きがフィルタリングされるために、検出を改善することができる。

さらに、唯一のホットスポット領域１２ａが割り当てられる実施の形態では、割り当てられたホットスポット領域１２ａ，１２ｂから構築される動き履歴画像（MHI）を含めて、ホットスポットにおけるジェスチャーを認識して高い精度を達成するため、より強力なジェスチャー認識アルゴリズムが必要とされる。

先に記載された装置及び方法は、インタラクティブマルチメディアアウトレット装置８を制御するために使用することができ、動きの認識を画像ホットスポット領域１２ａ，１２ｂに制限する顔検出技術が画像ホットスポット領域１２ａ，１２ｂを定義及び抽出するのを助け、非常にロバストなやり方でアウトレット装置に人間のジェスチャーを通してコマンド制御を発生する。

マルチメディア制御システム１は、リッチインタラクション７をオンにするコマンドを含むように更に開発される。

図７は、顔検出を使用してデバイススクリーンで画像形成されるマルチメディアディスプレイとのリッチインタラクションを表すフローダイアグラムであり、図８は、リッチインタラクションの視覚的な表現を例示する。図９は、マルチメディア装置により送出される画像信号に適用される、顔検出モジュールのフローダイアグラムである。

ひとたびオンされると、ユーザ３はリッチインタラクションモジュール７を使用して、入力画像モジュール４における処理のためにマルチメディアアウトレット装置８から画像信号を受け、上述されたように、カメラ画像信号が処理される。しかし、マルチメディアアウトレット装置８から送出される画像信号は、メタデータを含み、このメタデータは、必要に応じてデバイススクリーン９に表示される。

ユーザ３は、ビデオ／画像信号と統合されたメタデータを使用して、スクリーン上である人物に関する情報を要求することができる。ユーザは、顔検出モジュール１０を使用して検出された、スクリーン上のある顔を示すことで情報を要求することができる。

入力画像モジュール４は、顔検出モジュール１０を通してメディア信号を供給し、顔検出モジュールは、顔検出アルゴリズム１３を実行して、上述されたように、画像信号が処理されるやり方でデバイススクリーン９上の顔を認識する。顔検出モジュールは、スクリーン上のメディアの顔の領域４０を検出し、メディアの顔の領域４０の大きさに実質的に整合する１つの画像ホットスポット領域４１を割り当てる。

顔検出モジュール１０は画像ホットスポット領域１２ａ，１２ｂを現在の捕捉された画像Ｃiに割り当てるので、リッチインタラクションモジュール７は、画像ホットスポット領域１２ａ，１２ｂで検出された動きを、メディアスクリーン上の特定のスポットと１対１で整合させる。

基本的に、リッチインタラクションモジュール７は、ジェスチャー認識モジュール２０を使用して、ジェスチャーの指示１４が大きさ調整された画像ホットスポット領域１２ａ，１２ｂに関して何処に現れるかを判定する。ジェスチャー認識モジュール２０は、動きが存在する特定の画像の座標ｘ，ｙを既に識別している。動きの一致及びバウンドは、画像ホットスポット領域１２ａ，１２ｂの大きさに関する。リッチインタラクションモジュール７は、画像ホットスポット領域１２ａ，１２ｂをデバイススクリーンの大きさと整合させ、２つを比例的に整合させる。画像ホットスポット領域１２ａ，１２ｂで捕捉された動きは、画像ホットスポット領域１２ａ，１２ｂの大きさに関して定義された座標を有する。ジェスチャー認識モジュール２０は、画像ホットスポット領域１２ａ，１２ｂに何れかにおける動きに関する画像の座標ｘ，ｙを決定する。デバイススクリーン９は、デバイススクリーン９上のそれぞれの画素に割り当てられた、メディア座標を有する。

メディアホットスポット領域４１はメディア座標の定義された領域をカバーするので、リッチインタラクションモジュール７は、デバイススクリーン９上の画素に関して、ジェスチャーの指示１４により定義される、画像の座標ｘ，ｙを整合させる。画像の座標ｘ，ｙが、メディアホットスポット領域４１により輪郭が描かれるメディア座標領域にある場合、リッチインタラクションモジュール７は、スクリーン上のその人物４０に関連するメタデータを表示するように、マルチメディアアウトレット装置８に指示する。

メディア信号はメタデータを含むので、リッチインタラクションモジュール７は、どのような情報４４がデバイススクリーン９で表示されるかをフィルタリングすることができる。情報４４は、メタデータにおいて詳細であり、メタデータは、スクリーン上の画素の領域により定義される。リッチインタラクションモジュール７は、ジェスチャーの指示１４がデバイススクリーンでのある点に関するかを判定しているので、リッチインタラクションモジュール７は、もしあれば、どのような情報がデバイススクリーン９に表示されるかを確実に判定することができる。

本発明の実施の形態では、リッチインタラクションモジュール７は、カーソル４３がデバイススクリーン９に現れるように、マルチメディアアウトレット装置８にコマンドを供給する。

本発明は、ジェスチャー認識に顔検出技術を補い、人間のジェスチャーにより発せられるコマンドを更に確実にすることで利点を提供する。

上述された内容は、本発明を実施する可能性の幾つかを例示するものである。本発明の範囲及び精神において、多くの他の実施の形態が可能である。従って、上述された内容は、限定するものではなくむしろ例示するものとして考えられ、本発明の範囲は、それらのあらゆる種類の等価者と共に特許請求の範囲により与えられる。

Claims

マルチメディア装置からメタデータを取得する方法であって、
当該方法は、
顔認識を使用してマルチメディア装置からの現在の捕捉された画像における動き領域を決定するステップと、
ジェスチャー認識を使用して前記現在の捕捉された画像において少なくとも１つの動き領域における動きを検出するステップと、
前記少なくとも１つの動き領域の画素に割り当てられたメタデータを取得するステップと、
を含み、
前記ジェスチャー認識は、前記少なくとも１つの動き領域における時間を通した動きを定量化して特定する動き履歴画像を構築することを含み、前記動きを検出するステップは、前記動き履歴画像において、それぞれlx，ly，Sx及びSyとして示される最大のｘ，ｙ座標と最小のｘ，ｙ座標を探し、（ly-Sy）及び（lx-Sx）のそれぞれを対応する閾値と比較することで、前記現在の捕捉された画像において前記動きを検出する、ことを特徴とする方法。
前記現在の捕捉された画像と前の捕捉された画像との間の差を計算し、計算された差を分析するステップを更に含む、
請求項１記載の方法。
前記計算された差にエロージョンを適用して小領域を除くステップを更に含む、
請求項２記載の方法。
前記動き領域をマスクとして使用して、動きのない領域をフィルタリングするステップを更に含む、
請求項３記載の方法。
前記計算された差を加えて動き画像を形成するステップを更に含む、
請求項４記載の方法。
前記動き画像は、捕捉された画像から形成される、
請求項５記載の方法。
前記動き画像は、前記動き領域から形成される、
請求項５記載の方法。
前記動きがメディアを制御するためのコマンドであるかを判定するアルゴリズムを実行するステップを更に含む、
請求項１記載の方法。
カメラを使用して前記捕捉された画像を撮影するステップを更に含む、
請求項１記載の方法。
それぞれの顔がF1，F2，…，Fnで示される、前記捕捉された画像における顔を検出するステップを更に含む、
請求項９記載の方法。
前記動き領域は、それぞれの顔の左側の領域と右側の領域とにより定義される、
請求項１０記載の方法。
左側の動きの領域におけるジェスチャーのコマンドと、右側の動きの領域におけるジェスチャーのコマンドとを定義するステップを更に含む、
請求項１１記載の方法。
マルチメディア装置から画像信号を取得するステップを更に含む、
請求項１記載の方法。
それぞれの顔がF1，F2，F3，…，Fnで示される、それぞれの画像における顔を検出するステップを更に含む、
請求項１３記載の方法。
それぞれの顔の実質的に周りにある画素領域として、メディアの画像ホットスポット領域を定義するステップを更に含む、
請求項１４記載の方法。
（ly-Sy）が第一の経験値よりも大きい場合に、前記現在の捕捉された画像を認識しないステップを更に含む、
請求項８記載の方法。
前記第一の経験値は、統計的に決定される、
請求項１６記載の方法。
前記第一の経験値は、実験を通して決定される、
請求項１６記載の方法。
（lx-Sx）が第二の経験値よりも大きい場合に、前記現在の捕捉された画像を認識しないステップを更に含む、
請求項１６記載の方法。
前記第二の経験値は、統計的に決定される、
請求項１９記載の方法。
前記第二の経験値は、実験を通して決定される、
請求項１９記載の方法。
（ly-Sy）>（lx-Sx）である場合に、前記現在の捕捉された画像を認識しないステップを更に含む、
請求項１９記載の方法。
（ly-Sy）が第一の経験値よりも大きく、（lx-Sx）が第二の経験値よりも大きく、（ly-Sy）>（lx-Sx）であり、且つ所定の閾値よりも大きい前記動き履歴画像における成分が存在する場合、制御する動きを有するとして前記現在の捕捉された画像を認識するステップを更に含む、
請求項２２記載の方法。
前記経験値は、統計的に決定される、
請求項２３記載の方法。
前記経験値は、実験を通して決定される、
請求項２３記載の方法。
イメージセンサを有するカメラと、
前記イメージセンサから画像を受ける入力画像モジュールと、
前記入力画像モジュールに接続されるメモリと、
前記入力画像モジュールに接続される顔検出モジュールと、
前記入力画像モジュールに接続されるジェスチャー認識モジュールと、
前記入力画像モジュールからのコマンドを受け、電気信号をリッチインタラクションモジュールに出力するメディア制御インタフェースと、
マルチメディアアウトレット装置に設けられ、前記マルチメディアアウトレット装置からの電気的な画像信号を受け、前記マルチメディアアウトレット装置に電気的な画像信号を送出するリッチインタラクションモジュールと、
を有し、
前記顔検出モジュールは、顔認識を使用して現在の画像における動き領域を決定し、
前記ジェスチャー認識モジュールは、ジェスチャー認識を使用して前記現在の画像において少なくとも１つの動き領域における動きを検出し、
前記リッチインタラクションモジュールは、前記少なくとも１つの動き領域の画素に割り当てられたメタデータを取得し、
前記ジェスチャー認識は、前記少なくとも１つの動き領域における時間を通した動きを定量化して特定する動き履歴画像を構築することを含み、前記ジェスチャー認識モジュールは、前記動き履歴画像において、それぞれlx，ly，Sx及びSyとして示される最大のｘ，ｙ座標と最小のｘ，ｙ座標を探し、（ly-Sy）及び（lx-Sx）のそれぞれを対応する閾値と比較することで、前記現在の画像において前記動きを検出する、メディア制御装置。
前記イメージセンサは、前記カメラと一体化される、
請求項２６記載のメディア制御装置。
前記入力画像モジュールは、前記カメラと一体化される、
請求項２６記載のメディア制御装置。
前記入力画像モジュールはマイクロプロセッサである、
請求項２６記載のメディア制御装置。
前記メモリ、前記顔検出モジュール及び前記ジェスチャー認識モジュールは、前記入力画像モジュールと一体化される、
請求項２６記載のメディア制御装置。
前記メディア制御インタフェースは、前記入力画像モジュールと一体化される、
請求項２６記載のメディア制御装置。
前記カメラ、イメージセンサ、入力画像モジュール、メモリ、顔検出モジュール、ジェスチャー認識モジュール、及びメディア制御インタフェースは、１つの構成要素として一体となるように構成され、
当該メディア制御装置は、前記マルチメディアアウトレット装置に接続される外部の構成要素である、
請求項２６記載のメディア制御装置。
前記カメラ、イメージセンサ、入力画像モジュール、メモリ、顔検出モジュール、ジェスチャー認識モジュール及びメディア制御インタフェースは、１つの構成要素として一体となるように構成され、
当該メディア制御装置は、前記マルチメディアアウトレット装置の内部の構成要素である、
請求項２６記載のメディア制御装置。