JP2009059257A

JP2009059257A - 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Info

Publication number: JP2009059257A
Application number: JP2007227262A
Authority: JP
Inventors: Nobuya Otani; 伸弥大谷; Atsushi Okubo; 厚志大久保
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-09-03
Filing date: 2007-09-03
Publication date: 2009-03-19
Also published as: US20090060291A1; CN101383000A; EP2031545A2; CN101383000B; US8295556B2; KR20090024086A

Abstract

【課題】画像解析により、高精度かつ有効な判別結果を得る視線判別処理の実行構成を実現する
【解決手段】画像中の顔領域、目鼻口を検出し、目鼻口の検出された顔画像の視線判別処理を実行する。視線判別処理は、（ａ）視線がカメラ方向を向いているポジティブ状態、（ｂ）視線がカメラ方向を向いていないネガティブ状態、上記（ａ），（ｂ）のいずれであるかを、各状態に対応する分類データからなる学習データを格納した視線判別辞書を利用して行う。具体的には、画像の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを適用する。本構成によれば、視線がカメラ方向を向いているかいないかの２つの状態判別という明確な区分による視線判別であり、判別処理の精度が高く、また判別結果の利用価値も高い構成が実現される。
【選択図】図２

Description

本発明は、情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。さらに詳細には、カメラによって撮影された画像の解析により、撮影画像に含まれる人や動物などの視線方向を検出する処理を実行する情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。

カメラによる取得画像から、人や犬や猫などのペットや動物の視線を判定できるようになると、例えば視線がカメラを向いている瞬間にシャッターを操作することが可能となり、写真撮影時の失敗を減らすことができる。またこのような視線判定処理を実行するプログラムを例えば動画作成ソフトに組み込むことで、多数の写真データから、正面を見ている人がいる画像を選択するなど、動画の整理が効率敵に行える。

また、視線判定処理実行プログラムを例えばテレビ会議システムなどの対話システムに組み込むことで、視線に応じたカメラの切り替えやカメラ方向設定、ズーム処理などを行うことでスムーズなインタラクションが可能となる。

カメラによって撮影される画像データから視線判別を行う技術を開示した従来技術の１つとして視線方向検出がある。視線方向検出とはカメラに写っているユーザがどの位置を見ているかを推定する技術で、黒目の位置の微妙な位置関係を読み取ることで行われる。例えば非特許文献１［ＰａｓｓｉｖｅＤｒｉｖｅｒＧａｚｅＴｒａｃｋｉｎｇｗｉｔｈＡｃｔｉｖｅＡｐｐｅａｒａｎｃｅＭｏｄｅｌｓＴ．Ｉｓｈｉｋａｗａ，Ｓ．Ｂａｋｅｒ，Ｉ．Ｍａｔｔｈｅｗｓ，ａｎｄＴ．ＫａｎａｄｅＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１１ｔｈＷｏｒｌｄＣｏｎｇｒｅｓｓｏｎＩｎｔｅｌｌｉｇｅｎｔＴｒａｎｓｐｏｒｔａｔｉｏｎＳｙｓｔｅｍｓ，Ｏｃｔｏｂｅｒ，２００４．］では、顔検出した顔に対して、ＡＡＭ［ＡｃｔｉｖｅＡｐｐｅａｒａｎｃｅＭｏｄｅｌｓ］で顔の姿勢を求めておき、更に目の部分から黒目の位置を検出し、目と黒目の位置関係から眼球の姿勢推定をし、顔の姿勢と総合することで全体の視線方向を推定する構成を開示している。

しかし、この非特許文献１に記載された構成では、眼球の姿勢推定に黒目や精細な画像入力が必要となる。このためには、高性能な高解像度カメラを用いることが必須となる。一般のユーザが家のリビングで２〜３ｍ離れた位置にカメラを置いて撮影するような場合、１００万画素程度の一般的なカメラを用いることはできない。

この非特許文献１に記載された構成を実現するためには、高価な高画素のカメラを用いることが必要であり、さらに被写体の目の部分をズーム撮影して黒目位置測定精度を上げる処理や、目に赤外線を照射して目の網膜や球体部分の輝度を強くして正確に撮影するなど、精度を上げるための特別な処理が必要となる。また、顔姿勢推定を行って目の位置推定や眼球姿勢の推定を行う必要があり、処理が複雑化し、また視線方向検出の誤差も大きくなるという問題がある。

また、非特許文献２［対話システムのための視線方向認識山畠利彦、藤江真也画像の認識・理解シンポジウム（ＭＩＲＵ２００６）］は、アナログ値での視線方向推定を諦め、視線方向を１０クラスに分類する処理によって視線方向判別を行う手法を開示している。このように視線方向を所定の範囲で分類することで、正確な眼球の姿勢を推定する必要がなくなり、目部分の画像からＰＣＡ（主成分分析）やＬＤＡ（線形判別分析）などを適用して認識結果を出力でき、認識器直列化による誤差拡散の問題を解決している。

しかし、目部分の画像からＰＣＡ（主成分分析）で次元圧縮を行い、ＬＤＡ（線形判別分析）で線形判別するためには、視線方向１０クラス問題を解くことが必要となるが、この問題をロバスト（安定的）に解くことは難しい。

また、非特許文献３［眼球形状モデルに基づく視線測定法大野健彦、武川直樹、吉川厚（ＮＴＴコミュニケーション科学基礎研究所）第８回画像センシングシンポジウム講演論文集，ｐｐ．３０７−３１２．］では角膜反射法による視線方向推定の方法を開示している。瞳孔中心とプルキニエ像（Ｐｕｒｋｉｎｊｅ’ｓｉｍａｇｅｓ）の位置から視線を推定するというもので、高精度に視線が推定できる。また顔の方向によらず推定できるため、顔姿勢認識器の誤差を受けなくてすむ。

しかし、プルキニエ像を抽出するためには、カメラに対して固定された位置にあるところから光を照射しなければならず、デバイスが複雑になる。更に、プルキニエ像と瞳孔中心、及び視線方向の関係は個人差があるため、人が変わるたびに毎回キャリブレーションを行わなければならないという問題がある。
ＰａｓｓｉｖｅＤｒｉｖｅｒＧａｚｅＴｒａｃｋｉｎｇｗｉｔｈＡｃｔｉｖｅＡｐｐｅａｒａｎｃｅＭｏｄｅｌｓＴ．Ｉｓｈｉｋａｗａ，Ｓ．Ｂａｋｅｒ，Ｉ．Ｍａｔｔｈｅｗｓ，ａｎｄＴ．ＫａｎａｄｅＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１１ｔｈＷｏｒｌｄＣｏｎｇｒｅｓｓｏｎＩｎｔｅｌｌｉｇｅｎｔＴｒａｎｓｐｏｒｔａｔｉｏｎＳｙｓｔｅｍｓ，Ｏｃｔｏｂｅｒ，２００４．対話システムのための視線方向認識山畠利彦、藤江真也画像の認識・理解シンポジウム（ＭＩＲＵ２００６）眼球形状モデルに基づく視線測定法大野健彦、武川直樹、吉川厚（ＮＴＴコミュニケーション科学基礎研究所）第８回画像センシングシンポジウム講演論文集，ｐｐ．３０７−３１２．

本発明は、上述の問題点に鑑みてなされたものであり、カメラによって撮影された画像の解析により、撮影画像に含まれる人や動物などの視線方向を効率的に検出する情報処理装置、および情報処理方法、並びにコンピュータ・プログラムを提供することを目的とする。

具体的には、本発明は、カメラによって撮影された画像の解析により、撮影画像に含まれる人や動物などの視線がこちらを見ているか、見ていないかの２つの種類の視線判別を行う情報処理装置、および情報処理方法、並びにコンピュータ・プログラムを提供することを目的とする。

本発明の第１の側面は、
画像データに含まれる顔領域を検出する顔検出部と、
前記顔検出部の検出した顔領域から顔構成部位を検出する顔構成部位検出部と、
前記顔構成部位検出部において顔構成部位の検出された顔画像の視線判別処理を実行する視線判別部を有し、
前記視線判別部は、
顔構成部位の検出された顔画像データの視線について、
（ａ）視線がカメラ方向を向いているポジティブ状態、
（ｂ）視線がカメラ方向を向いていないネガティブ状態、
上記（ａ），（ｂ）の２状態のいずれであるかを判別する処理を、上記（ａ），（ｂ）各状態に対応する分類データからなる学習データを格納した視線判別辞書と入力顔画像データとの照合処理によって実行する構成であることを特徴とする情報処理装置にある。

さらに、本発明の情報処理装置の一実施態様において、前記顔構成部位検出部は、前記顔検出部の検出した顔領域から目鼻口を検出する構成であり、前記視線判別部は、目鼻口の検出された顔画像データの視線判別処理を実行する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記視線判別部は、画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用した処理によって視線判別処理を実行する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は、前記顔構成部位検出部において顔構成部位の検出された顔画像の回転処理、サイズ正規化処理、顔領域切り出し処理を実行する画像処理部を有し、前記視線判別部は、前記画像処理部における処理画像を入力して視線判別処理を実行する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記顔検出部は、画像データに含まれる顔領域検出処理を、様々な顔領域画像情報を格納した顔検出辞書を参照して、画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用して実行する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記顔構成部位検出部は、前記顔検出部の検出した顔領域からの顔構成部位検出処理を、様々な顔構成部位画像情報を格納した顔構成部位検出辞書を参照して、画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用して実行する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は、音声認識処理を実行する音声認識部を有し、前記視線判別部における視線判別結果と、前記音声認識部における音声認識結果を統合して、発話者の解析を実行する構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は撮像装置であり、前記視線判別部における視線判別結果を入力して撮像装置のシャッター制御を実行するシャッター制御部を有し、前記シャッター制御部は、撮像装置の取得画像に含まれる顔の視線中に、視線がカメラ方向を向いていないネガティブ状態の顔画像が含まれる場合に、シャッター操作を不可とする制御を行う構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は、さらに、前記視線判別部において判別された複数の画像フレームに対応する視線判別結果を入力して、画像データの選別処理を行うフレーム選別部を有し、前記フレーム選別部は、ポジティブ状態とネガティブ状態の各状態情報を適用して画像フレームの選別を行う構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は撮像装置であり、前記視線判別部における視線判別結果を入力して警告出力を実行する警告出力部を有し、前記警告出力部は、撮像装置の取得画像に含まれる顔の視線中に、視線がカメラ方向を向いていないネガティブ状態の顔画像が含まれる場合に、警告出力を行う構成であることを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は、前記視線判別部の視線判別結果をデータ検索処理に適用して、
（ａ）視線がカメラ方向を向いているポジティブ状態、
（ｂ）視線がカメラ方向を向いていないネガティブ状態、
上記（ａ），（ｂ）の２状態のいずれかの画像を選択抽出する検索処理を実行する構成を有することを特徴とする。

さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は、画像データの視線判別処理結果を記憶部に格納する画像データの対応情報として記憶部に格納する処理を行う構成を有することを特徴とする。

さらに、本発明の第２の側面は、
情報処理装置において実行する情報処理方法であり、
顔検出部が、画像データに含まれる顔領域を検出する顔検出ステップと、
顔構成部位検出部が、前記顔検出ステップにおいて検出した顔領域から顔構成部位を検出する顔構成部位検出ステップと、
視線判別部が、前記顔構成部位検出ステップにおいて顔構成部位の検出された顔画像の視線判別処理を実行する視線判別ステップを有し、
前記視線判別ステップは、
顔構成部位の検出された顔画像データの視線について、
（ａ）視線がカメラ方向を向いているポジティブ状態、
（ｂ）視線がカメラ方向を向いていないネガティブ状態、
上記（ａ），（ｂ）の２状態のいずれであるかを判別する処理を、上記（ａ），（ｂ）各状態に対応する分類データからなる学習データを格納した視線判別辞書と入力顔画像データとの照合処理によって実行するステップであることを特徴とする情報処理方法にある。

さらに、本発明の情報処理方法の一実施態様において、前記顔構成部位検出ステップは、前記顔検出ステップにおいて検出された顔領域から目鼻口を検出するステップであり、前記視線判別ステップは、目鼻口の検出された顔画像データの視線判別処理を実行するステップであることを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記視線判別ステップは、画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用した処理によって視線判別処理を実行するステップであることを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記情報処理方法は、さらに、画像処理部が、前記顔構成部位検出部において顔構成部位の検出された顔画像の回転処理、サイズ正規化処理、顔領域切り出し処理を実行する画像処理ステップを有し、前記視線判別ステップは、前記画像処理ステップにおいて処理された画像を入力して視線判別処理を実行するステップであることを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記顔検出ステップは、画像データに含まれる顔領域検出処理を、様々な顔領域画像情報を格納した顔検出辞書を参照して、画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用して実行するステップであることを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記顔構成部位検出ステップは、前記顔検出ステップにおいて検出された顔領域からの顔構成部位検出処理を、様々な顔構成部位画像情報を格納した顔構成部位検出辞書を参照して、画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用して実行するステップであることを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記情報処理方法は、さらに、音声認識部が、音声認識処理を実行する音声認識ステップと、データ処理部が、視線判別結果と、前記音声認識部における音声認識結果を統合して、発話者の解析を実行するステップを有することを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記情報処理装置は撮像装置であり、前記情報処理方法は、さらに、シャッター制御部が、前記視線判別ステップにおける視線判別結果を入力して撮像装置のシャッター制御を実行するシャッター制御ステップを有し、前記シャッター制御ステップは、撮像装置の取得画像に含まれる顔の視線中に、視線がカメラ方向を向いていないネガティブ状態の顔画像が含まれる場合に、シャッター操作を不可とする制御を行うステップであることを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記情報処理方法は、さらに、フレーム選別部が、前記視線判別ステップにおいて判別された複数の画像フレームに対応する視線判別結果を入力して、画像データの選別処理を行うフレーム選別ステップを有し、前記フレーム選別ステップは、ポジティブ状態とネガティブ状態の各状態情報を適用して画像フレームの選別を行うステップであることを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記情報処理装置は撮像装置であり、前記情報処理方法は、さらに、警告出力部が、前記視線判別ステップにおける視線判別結果を入力して警告出力を実行する警告出力ステップを有し、前記警告出力ステップは、撮像装置の取得画像に含まれる顔の視線中に、視線がカメラ方向を向いていないネガティブ状態の顔画像が含まれる場合に、警告出力を行うステップであることを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記情報処理方法は、さらに、検索部が、前記視線判別部の視線判別結果をデータ検索処理に適用して、
（ａ）視線がカメラ方向を向いているポジティブ状態、
（ｂ）視線がカメラ方向を向いていないネガティブ状態、
上記（ａ），（ｂ）の２状態のいずれかの画像を選択抽出する検索処理を実行するステップを有することを特徴とする。

さらに、本発明の情報処理方法の一実施態様において、前記情報処理方法は、さらに、データ処理部が、画像データの視線判別処理結果を記憶部に格納する画像データの対応情報として記憶部に格納する処理を行うステップを有することを特徴とする。

さらに、本発明の第３の側面は、
情報処理装置において情報処理を実行させるコンピュータ・プログラムであり、
顔検出部に、画像データに含まれる顔領域を検出させる顔検出ステップと、
顔構成部位検出部に、前記顔検出ステップにおいて検出した顔領域から顔構成部位を検出させる顔構成部位検出ステップと、
視線判別部に、前記顔構成部位検出ステップにおいて顔構成部位の検出された顔画像の視線判別処理を実行させる視線判別ステップを有し、
前記視線判別ステップは、
顔構成部位の検出された顔画像データの視線について、
（ａ）視線がカメラ方向を向いているポジティブ状態、
（ｂ）視線がカメラ方向を向いていないネガティブ状態、
上記（ａ），（ｂ）の２状態のいずれであるかを判別する処理を、上記（ａ），（ｂ）各状態に対応する分類データからなる学習データを格納した視線判別辞書と入力顔画像データとの照合処理によって実行させるステップであることを特徴とするコンピュータ・プログラムにある。

なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能な汎用コンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータ・システム上でプログラムに応じた処理が実現される。

本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

本発明の一実施例の構成では、画像に含まれる顔領域、目鼻口などの顔構成部位を検出し、さらに、視線判別部が目鼻口の検出された顔画像の視線判別処理を実行する。視線判別処理は、（ａ）視線がカメラ方向を向いているポジティブ状態、（ｂ）視線がカメラ方向を向いていないネガティブ状態、上記（ａ），（ｂ）の２状態のいずれであるかを、（ａ），（ｂ）各状態に対応する分類データからなる学習データを格納した視線判別辞書を利用して行う。具体的には、画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを適用して視線判別処理を行う。本構成によれば、視線がカメラ方向を向いているかいないかの２つの状態判別という明確な区分による視線判別であり、判別処理の精度が高く、また判別結果の利用価値も高い構成が実現される。

以下、図面を参照しながら本発明の実施形態に係る情報処理装置、および情報処理方法、並びにコンピュータ・プログラムの詳細について説明する。

まず、図１を参照して本発明に係る情報処理装置の実行する処理の概要について説明する。本発明の情報処理装置は、カメラの撮影画像の解析を実行して、撮影画像に含まれる人や動物などの顔の目の視線方向を検出する処理を実行する情報処理装置であり、視線がカメラに向いているかどうかを判別する。具体的には以下の２状態を判別する。
ポジティブ状態（Ｐｏｓｉｔｉｖｅ）：カメラに対して視線が向いている顔（正面顔や横顔も含む）
ネガティブ状態（Ｎｅｇａｔｉｖｅ）：カメラに対して視線が向いていない顔、例えば、横を見ている顔や、目を閉じてしまっている顔

本発明の情報処理装置は、カメラによる撮影画像に含まれる人や動物などの顔の目の視線方向が、これらの２つの状態のいずれにあるかを判別する。具体例を図１に示す。

図１（ａ）は、ポジティブ状態（Ｐｏｓｉｔｉｖｅ）、すなわち、カメラに対して視線が向いている顔の例であり、
図１（ｂ）は、ネガティブ状態（Ｎｅｇａｔｉｖｅ）、すなわち、カメラに対して視線が向いていない顔の例である。

本発明の情報処理装置の構成、および処理について、図２以下を参照して説明する。図２は、本発明の情報処理装置の一実施例構成を示す図である。本発明の情報処理装置は、弱い性能の学習機（ＷｅａｋＬｅａｎｅｒ）を組み合わせて高精度な判別結果を出力する、いわゆるブースティング（Ｂｏｏｓｔｉｎｇ）により、カメラによる撮影画像に含まれる人や動物などの顔の目の視線方向が、
（ａ）ポジティブ状態（Ｐｏｓｉｔｉｖｅ）：カメラに対して視線が向いている、
（ｂ）ネガティブ状態（Ｎｅｇａｔｉｖｅ）：カメラに対して視線が向いていない、
これらの２つの状態のいずれにあるかを判別する。

図２に示す情報処理装置１００は、顔検出部１０１、目鼻口検出部１０２、画像処理部１０３、視線判別部１０４を有し、画像処理部１０３には、回転補正処理部１１１、顔サイズ正規化処理部１１２、顔領域切り出し部１１３が含まれる。また、顔検出部１０１における顔検出処理に利用される顔検出辞書１２１、目鼻口検出部１０２における目鼻口検出処理に利用される目鼻口検出辞書１２２、視線判別部１０４における視線判別処理に利用される視線判別辞書１２３を有する。

図２に示す情報処理装置１００は、ブースティング（Ｂｏｏｓｔｉｎｇ）の弱い性能の学習機（ＷｅａｋＬｅａｎｅｒ）が、顔検出部１０１、目鼻口検出部１０２、視線判別部１０４において利用され、これらの処理部では、学習で得られた画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用した処理を行う構成となっている。なお、このアルゴリズムの詳細は、例えば、特開２００５−２８４３４８に開示されている。

視線判別処理の対象画像が入力されると、まず、顔検出部１０１は、入力画像フレームに顔が写っているか否かの検出を行う。この顔検出処理は、顔検出辞書１２１を用いて行われ、上述したように、ブースティング（Ｂｏｏｓｔｉｎｇ）の弱い性能の学習機（ＷｅａｋＬｅａｎｅｒ）を利用した処理として実行され、学習で得られた画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用した処理によって実行される。すなわち、顔検出部１０１は、画像データに含まれる顔領域検出処理を、様々な顔領域画像情報を格納した顔検出辞書１２１を参照して、画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用して実行する。

顔検出辞書１２１には、画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムによる顔検出の学習結果が格納され、顔検出部１０１は、入力画像フレームに顔が映っているか否かの判断を、入力画像の特定位置の画素ペアの差分値データと、学習結果が格納された顔検出辞書１２１のデータとの照合によって実行する。

顔検出部１０１において検出された顔検出情報は、画像とともに顔構成部位検出部としての目鼻口検出部１０２に入力される。目鼻口検出部１０２は、顔検出部１０１において検出された顔について、顔構成部位、すなわち目・鼻・口の検出処理を行う。この目・鼻・口の検出処理は、顔構成部位検出辞書、すなわち目鼻口検出辞書１２２を用いてブースティング（Ｂｏｏｓｔｉｎｇ）の弱い性能の学習機（ＷｅａｋＬｅａｎｅｒ）を利用した処理として実行され、学習で得られた画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用した処理によって実行される。すなわち、顔構成部位検出部としての目鼻口検出部１０２は、顔検出部１０１の検出した顔領域からの顔構成部位検出処理を、様々な顔構成部位画像情報を格納した顔構成部位検出辞書、すなわち目鼻口検出辞書１２２を参照して、画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用して実行する。

目鼻口検出辞書１２２には、画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムによる目鼻口検出の学習結果が格納され、目鼻口検出部１０２は、顔検出部１０１において検出された顔についての目・鼻・口の検出処理を、入力画像の特定位置の画素ペアの差分値データと、学習結果が格納された目鼻口検出辞書１２２のデータとの照合によって実行する。

目鼻口検出部１０２における目鼻口検出処理において、目鼻口がすべて揃わなかった顔は、ここで処理対象から棄却し、視線判別は行わない。目鼻口がすべて検出された顔についてのみ、視線判別対象の顔として選択し、目、鼻、口の位置関係情報を取得する。

画像データは、目鼻口がすべて検出された顔の選択情報と、目、鼻、口の位置関係情報とともに画像処理部１０３に入力される。画像処理部１０３の回転補正処理部１１１は、視線判別対象とされた顔領域について、目、鼻、口の位置関係を利用して画像の回転補正を行う。すなわち、傾いている顔を正立させる処理を行う。

次に、回転補正された画像データは、顔サイズ正規化処理部１１２に入力され、顔サイズ正規化処理部１１２において目鼻口の距離情報を用いて顔部分のサイズが、予め設定した標準サイズに等しくなるように画像サイズの拡大、縮小を実行してサイズの正規化処理を行う。

正規化処理の施された画像は、次に顔領域切り出し部１１３に入力され、顔画像領域部分の切り出し処理が実行される。この切り出し画像が、視線判別部１０４に出力される。

視線判別部１０４は、切り出し画像に含まれる顔の視線判別処理を行う。この視線判別処理は、視線判別辞書１２３を用いてブースティング（Ｂｏｏｓｔｉｎｇ）の弱い性能の学習機（ＷｅａｋＬｅａｎｅｒ）を利用した処理として実行され、学習で得られた画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用した処理によって実行される。

視線判別辞書１２３には、
（ａ）視線がカメラ方向を向いているポジティブ状態、
（ｂ）視線がカメラ方向を向いていないネガティブ状態、
上記（ａ），（ｂ）の２状態に対応する分類データからなる学習データ、すなわち視線判別の学習結果が格納され、視線判別部１０４は、入力画像の特定位置の画素ペアの差分値データと、学習結果が格納された視線判別辞書１２３のデータとの照合によって視線判別処理を実行する。

視線判別部１０４は、切り出し画像に含まれる顔の視線判別処理として、画像に含まれる人や動物などの顔の目の視線方向が、
（ａ）ポジティブ状態（Ｐｏｓｉｔｉｖｅ）：カメラに対して視線が向いている、
（ｂ）ネガティブ状態（Ｎｅｇａｔｉｖｅ）：カメラに対して視線が向いていない、
これらの２つの状態のいずれにあるかを学習で得られた画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用した処理によって判別し、判別結果を出力する。

なお、学習結果が格納された視線判別辞書１２３は、上記のポジティブ状態と、ネガティブ状態との２クラスに分類した学習データが格納され、視線判別部１０４は、このような学習結果が格納された視線判別辞書１２３のデータとの照合によって視線判別を実行する。

なお、入力画像に複数の顔が含まれる場合は、ひとつの顔についての処理が終わると次の顔部について同じ処理を繰り返し、最終的に画像中に検出されたすべての顔についての処理を実行して、処理を終了する。

なお、図２に示す３つの辞書、すなわち、顔検出部１０１における顔検出処理に利用される顔検出辞書１２１、目鼻口検出部１０２における目鼻口検出処理に利用される目鼻口検出辞書１２２、視線判別部１０４における視線判別処理に利用される視線判別辞書１２３、これらの辞書は、視線判別を行う対象によって使い分ける。例えば、人の視線判別を実行する場合は、人用の辞書を、猫なら猫用の辞書を、犬なら犬用の辞書といったように用途によって使い分ける。

上述したように、視線判別部１０４は、切り出し画像に含まれる顔の視線判別処理として、画像に含まれる人や動物などの顔の目の視線方向が、
（ａ）ポジティブ状態（Ｐｏｓｉｔｉｖｅ）：カメラに対して視線が向いている、
（ｂ）ネガティブ状態（Ｎｅｇａｔｉｖｅ）：カメラに対して視線が向いていない、
これらの２つの状態のいずれにあるかを学習で得られた画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用した処理によって判別するが、この処理を実行する際、顔画像の全体についての処理を行うと処理時間が長くなってしまう。従って、画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用した処理の適用範囲を目の領域に限定するなどの処理範囲を制限する処理を行うことが好ましい。

例えば、図３に示すように、処理対象とするピクセルペアを選択するマスクを利用することで、処理を効率化できる。図３には、以下の複数の種類のマスク例を示している。
（ａ）両目を含む矩形領域を処理対照領域として設定するマスク
（ｂ）各目の個別領域を処理対象領域として設定するマスク
（ｃ）各目と鼻上部領域を処理対象領域として設定するマスク
（ｄ）各目と鼻全体を処理対象領域として設定するマスク
これらのマスクを設定して、処理領域を限定することで、効率的な学習結果の生成や、判別処理が可能となる。

図２を参照して説明した情報処理装置における視線判別処理の性能評価データを図４に示す。被験者（撮影ユーザ）は、カメラに対して正面無向きから−５度〜＋５度の範囲に顔の向きを設定し、様々な方向に視線を向けて、図２に示す構成により視線判別を実行した、

図４は、異なる部屋（ルーム１，２）での実験結果をＲＯＣ曲線として示している。グラフの横軸は判別結果の誤り率、縦軸が正解率に対応する。視線判別は、
（ａ）ポジティブ状態（Ｐｏｓｉｔｉｖｅ）：カメラに対して視線が向いている、
（ｂ）ネガティブ状態（Ｎｅｇａｔｉｖｅ）：カメラに対して視線が向いていない、
これらの２つの状態のいずれにあるかの判別を行ったものであり、ほとんどの実験結果は正解であった。

次に、図５に示すフローチャートを参照して、図２に示す情報処理装置を適用した視線判別処理のシーケンスについて説明する。視線判別処理の対象画像が入力されると、まず、ステップＳ１０１において入力画像フレームに顔が写っているか否かの顔検出処理を行う。この処理は、図２に示す情報処理装置の顔検出部１０１の処理として実行される。前述したように、顔検出部１０１は、入力画像フレームに顔が写っているか否かの検出を顔検出辞書１２１を用いて、画素ペア差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用した処理によって実行する。

次に、ステップＳ１０２において、未処理画像の有無が判別され、未処理画像がない場合は処理を終了する。未処理画像がある場合はステップＳ１０３に進む。ステップＳ１０３では、目鼻口検出処理が実行される。この処理は、図２に示す情報処理装置の目鼻口検出部１０２の処理として実行される。目鼻口検出部１０２は、顔検出部１０１において検出された顔について、目・鼻・口の検出処理を目鼻口検出辞書１２２を用いて画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用した処理によって実行する。

次に、ステップＳ１０４において、目鼻口検出処理において、目鼻口のすべてのパーツが検出されたか否かを判定する。前述したように、目鼻口検出部１０２における目鼻口検出処理において、目鼻口がすべて揃わなかった顔は、ここで処理対象から棄却し、視線判別は行わない。すなわち、ステップＳ１１１に進み、処理対象から除去して、ステップＳ１０１に進み、次の顔の処理に移行する。

目鼻口がすべて検出された顔についてのみ、ステップＳ１０５以下の処理を実行する。ステップＳ１０５〜Ｓ１０７は、図２に示す画像処理部１０３の処理である。まず、ステップＳ１０５において、画像処理部１０３の回転補正処理部１１１が、視線判別対象とされた顔領域について、目、鼻、口の位置関係を利用して画像の回転補正を行う。すなわち、傾いている顔を正立させる処理を行う。

次に、ステップＳ１０６において、顔サイズ正規化処理部１１２において目鼻口の距離情報を用いて顔部分のサイズが、予め設定した標準サイズに等しくなるように画像サイズの拡大、縮小によるサイズの正規化処理が行われる。次に、ステップＳ１０７において、顔領域切り出し部１１３が正規化処理の施された画像から顔画像領域部分の切り出し処理を実行する。

次に、ステップＳ１０８において、視線判別処理が実行される。この処理は図２に示す情報処理装置の視線判別部１０４の処理である。視線判別部１０４は、切り出し画像に含まれる顔の視線判別処理を視線判別辞書１２３を用いて学習で得られた画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用した処理によって実行する。視線判別部１０４は、切り出し画像に含まれる顔の視線判別処理として、画像に含まれる人や動物などの顔の目の視線方向が、
（ａ）ポジティブ状態（Ｐｏｓｉｔｉｖｅ）：カメラに対して視線が向いている、
（ｂ）ネガティブ状態（Ｎｅｇａｔｉｖｅ）：カメラに対して視線が向いていない、
これらの２つの状態のいずれにあるかを判別する。１つの顔画像について、この視線判別処理が終了すると、ステップＳ１０１に戻り次の顔画像の処理に移行する。ステップＳ１０２において未処理画像がないと判断されると処理が終了する。

本発明の情報処理装置では、図２に示す情報処理装置の視線判別部１０４の処理として、画像に含まれる人や動物などの顔の目の視線方向が、
（ａ）ポジティブ状態（Ｐｏｓｉｔｉｖｅ）：カメラに対して視線が向いている、
（ｂ）ネガティブ状態（Ｎｅｇａｔｉｖｅ）：カメラに対して視線が向いていない、
これらの２つの状態のいずれにあるかを判別するというきわめて明確な２状態判別処理であり、この２状態判別処理を、特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用して学習データとして取得された視線判別辞書１２３を用いて実行する構成であり、より多くの学習データから生成された辞書を適用することで正確な視線判別が可能となる。また、視線判別辞書を視線判別対象によって使い分けることで、より正確な判別が実現される。例えば、人の視線判別を実行する場合は、人用の辞書を、猫なら猫用の辞書を、犬なら犬用の辞書といったような辞書の使い分けである。

次に、図２に示す情報処理装置を利用した具体的なデータ処理アプリケーションの複数の例について、図６以下を参照して説明する。以下説明する処理は、以下の（ａ）〜（ｄ）の４つの処理である。
（ａ）画像音声認識システムにおける利用例
（ｂ）撮像装置における利用例Ａ
（ｃ）画像データ管理システムにおける利用例
（ｄ）撮像装置における利用例Ｂ
これらの処理は、（ａ）（ｄ）は例えばＰＣ等の情報処理装置において実行され、（ｂ），（ｄ）はスチルカメラやビデオカメラなどの撮像装置において実行される。以下、これらの処理シーケンスについて説明する。

（ａ）画像音声認識システムにおける利用例
まず、上述した視線判別処理を画像音声認識システムに応用した利用例について図６に示すフローチャートを参照して説明する。図６に示すフローは、例えばＰＣなどの情報処理装置において実行される。図６に示す処理シーケンスおよび先に図５を参照して説明した視線判別処理を実行するプログラムが情報処理装置の記憶部に格納され、ＣＰＵ等によって構成される制御部において図６に示す処理シーケンスおよび先に図５を参照して説明した視線判別処理が実行される。

図６に示す処理を実行する情報処理装置は、音声認識処理を実行する音声認識部を有し、視線判別結果と、音声認識部における音声認識結果を統合して、発話者の解析を実行する構成を有する。図６のフローにおける各ステップの処理について説明する。

図６のフローのステップＳ２０１において、画像と音声情報が入力される。画像はカメラを介して情報処理装置に入力され、音声はマイクを介して情報処理装置に入力される。

ステップＳ２０２では、入力画像に対する視線判別処理が実行される。図２に示す処理構成を適用した処理、具体的には、図５に示すフローチャートに従って視線判別処理が実行される。この視線判別処理の結果は、入力画像に含まれる顔の視線が、
（ａ）ポジティブ状態（Ｐｏｓｉｔｉｖｅ）：カメラに対して視線が向いている、
（ｂ）ネガティブ状態（Ｎｅｇａｔｉｖｅ）：カメラに対して視線が向いていない、
これらの２つの状態のいずれにあるかの判別結果である。

この画像に基づく視線判別処理に併せてステップＳ２０３において、入力音声情報に基づく音声認識処理が実行される。この音声認識処理は、既存の音声認識技術を適用したものでよい。

ステップＳ２０４では、画像に基づく視線判別結果と、音声に基づく音声認識結果を利用したフィルタリング処理を実行する。具体的には、例えば、音声認識結果の言葉を発した人物を特定する場合に、画像に基づく視線判別結果を用いてカメラ方向を見ている人物を発話者として特定する処理などを実行する。

ステップＳ２０５では、視線判別結果と、音声に基づく音声認識結果を利用したフィルタリング処理結果に基づいて、次のアクションを決定して決定アクションを実行する。例えばその発話者に対してカメラをズームアップするなどの処理を実行する。あるいは発話記録に際して、発話者の識別情報をメタデータとして記録するといっち処理を行うことができる。

一般的に音声認識処理は認識誤りが多く、例えば周りで騒いでいる人がいたり、様々な騒音が存在するとユーザが何も発話していなくても勝手に音声認識してしまい、コマンド（例えばカメラ制御やデータ記録などのコマンド）が入力されてしまうことが多く、対話システムの大きな問題となっている。音声認識に併せて、上述の視線判別処理を実行して視線がカメラを向いている場合にのみコマンドを受け付けるシステムにすると、システムは、余分な間違ったコマンドの実行を排除でき、確実な処理が実行できる。特にパーティやライブ会場などうるさい場所では、聞き間違えないように視線を合わせて喋ることが自然であり、対話システムにおいてユーザがコマンドを話すときにカメラと擬似的に「目を合わせる」ことも自然な動作なのでユーザに苦痛を与えることなく、自然な処理が可能となる。

（ｂ）撮像装置における利用例Ａ
次に、上述した視線判別処理を撮像装置において利用した処理例について図７に示すフローチャートを参照して説明する。図７に示すフローは、例えばデジタルスチルカメラなどの撮像装置において実行される。図７に示す処理シーケンスおよび先に図５を参照して説明した視線判別処理を実行するプログラムが撮像装置の記憶部に格納され、ＣＰＵ等によって構成される制御部において図７に示す処理シーケンスおよび先に図５を参照して説明した視線判別処理が実行される。

図７に示すフローに従った処理を実行する情報処理装置は撮像装置であり、視線判別部における視線判別結果を入力して撮像装置のシャッター制御を実行するシャッター制御部を有する。シャッター制御部は、撮像装置の取得画像に含まれる顔の視線中に、視線がカメラ方向を向いていないネガティブ状態の顔画像が含まれる場合に、シャッター操作を不可とする制御を行う。図７のフローの各ステップの処理について説明する。

図７のフローのステップＳ２２１において、画像が入力される。画像はカメラの撮像部から入力される。ステップＳ２２２では、入力画像に対する視線判別処理が実行される。図２に示す処理構成を適用した処理、具体的には、図５に示すフローチャートに従って視線判別処理が実行される。この視線判別処理の結果は、入力画像に含まれる顔の視線が、
（ａ）ポジティブ状態（Ｐｏｓｉｔｉｖｅ）：カメラに対して視線が向いている、
（ｂ）ネガティブ状態（Ｎｅｇａｔｉｖｅ）：カメラに対して視線が向いていない、
これらの２つの状態のいずれにあるかの判別結果である。

ステップＳ２２３では、ステップＳ２２２で取得した視線判別結果に基づくシャッター制御処理が実行される。例えば、画像に含まれる顔の視線がカメラ方向を向いている場合（ポジティブ状態）は、シャッター操作を可能とし、画像に含まれる顔の視線がカメラ方向を向いていない場合（ネガティブ状態）は、シャッター操作を不可能な設定とするなどの制御を行う。この制御により、撮影者は、シャッター操作の可否により、被写体の視線状態を判別でき、カメラを見ていない顔を誤って撮影してしまうことを防止できる。

画像に含まれる顔の視線がカメラ方向を向いている場合（ポジティブ状態）は、シャッター操作が可能となり、ステップＳ２２４で撮影処理が実行され、ステップｓ２２５において撮影画像データが記憶部に格納される。

赤ちゃんなど、写真を撮りたくてもなかなかカメラを見てくれない人やペットを撮影するときに、片手で対象の人の気を惹きながら、片手はシャッタースイッチに置いておき、シャッターチャンスを逃さないように待つという撮り方を強いられることが多いが、片手では気を惹くのは難しいことが多く、タイマー機能を使って両手を自由にして撮影するといったことがあるが、赤ちゃんやペットのシャッターチャンスは短く、タイマーではシャッターチャンスを逸してしまうことが多かった。しかし、上述した視線判別を行うことで被写体がこっちをみている「いい顔」を確認して写真をとることができるようになる。

（ｃ）画像データ管理システムにおける利用例
次に、上述した視線判別処理を画像データ管理システムに応用した利用例について図８に示すフローチャートを参照して説明する。図８に示すフローは、例えばＰＣなどの情報処理装置において実行される。図８に示す処理シーケンスおよび先に図５を参照して説明した視線判別処理を実行するプログラムが情報処理装置の記憶部に格納され、ＣＰＵ等によって構成される制御部において図８に示す処理シーケンスおよび先に図５を参照して説明した視線判別処理が実行される。

図８に示すフローに従った処理を実行する情報処理装置は、視線判別部において判別された複数の画像フレームに対応する視線判別結果を入力して、画像データの選別処理を行うフレーム選別部を有する。フレーム選別部は、ポジティブ状態とネガティブ状態の各状態情報を適用して画像フレームの選別を行う。図８に示すフローの各ステップの処理について説明する。

図８のフローのステップＳ２４１において、動画像が入力される。動画像は、例えば情報処理装置の記憶部に記憶された動画像データである。

ステップＳ２４２では、入力された動画像を構成する各フレーム画像に対する視線判別処理が実行される。図２に示す処理構成を適用した処理、具体的には、図５に示すフローチャートに従って視線判別処理が実行される。この視線判別処理の結果は、入力画像に含まれる顔の視線が、
（ａ）ポジティブ状態（Ｐｏｓｉｔｉｖｅ）：カメラに対して視線が向いている、
（ｂ）ネガティブ状態（Ｎｅｇａｔｉｖｅ）：カメラに対して視線が向いていない、
これらの２つの状態のいずれにあるかの判別結果が各画像フレームに対応する情報として取得される。

ステップＳ２４３では、各画像フレームに対応する視線判別結果を適用した画像フレームの選別処理を実行する。例えば。画像フレームを、
（ａ）ポジティブ状態（Ｐｏｓｉｔｉｖｅ）の顔画像を含むフレーム、
（ｂ）ネガティブ状態（Ｎｅｇａｔｉｖｅ）の顔画像のみのフレーム、
（ｃ）顔画像を含まないフレーム、
上記（ａ）〜（ｃ）のフレームに分類する処理などが実行される。

ステップＳ２４４では、ステップＳ２４３において分類したフレームをインデックス、例えばサムネイル画像の表示用画像フレームとして設定し、ステップＳ２４５においてインデックス情報（サムネイル画像）の表示や分類情報に基づくデータの分類記憶処理などが行われる。

例えば、多くの動画編集ソフトウェアには各シーンに対応するサムネイル画像を表示して編集を楽にするという機能が存在する。サムネイルの作り方としては、区切られたシーンの最初のフレームを使うものや、一定フレーム間隔でいくつかのフレームを取り出し横につなげて作成するものが存在する。しかし、シーンの最初や一定間隔で切り出した画像をサムネイルとするだけではシーンの内容が分かりづらくサムネイルの意味をなさないことがある。このような場合、上述した視線判別結果を利用して、写っている人やペットがカメラ方向を見ている画像を選択してカメラ視線の「いい顔のフレーム」をインデックス画像として抜き出すことができ、分かりやすいインデックス抽出が実現され、動画編集の効率を向上することができる。

（ｄ）撮像装置における利用例Ｂ
次に、上述した視線判別処理を撮像装置において利用した処理例について図９に示すフローチャートを参照して説明する。図９に示すフローは、例えばデジタルスチルカメラなどの撮像装置において実行される。図９に示す処理シーケンスおよび先に図５を参照して説明した視線判別処理を実行するプログラムが撮像装置の記憶部に格納され、ＣＰＵ等によって構成される制御部において図９に示す処理シーケンスおよび先に図５を参照して説明した視線判別処理が実行される。

図９に示すフローに従った処理を実行する情報処理装置は撮像装置であり、視線判別部における視線判別結果を入力して警告出力を実行する警告出力部を有する。警告出力部は、撮像装置の取得画像に含まれる顔の視線中に、視線がカメラ方向を向いていないネガティブ状態の顔画像が含まれる場合に、警告出力を行う。図９に示すフローの各ステップの処理について説明する。

図９のフローのステップＳ２６１において、画像が入力される。画像はカメラの撮像部から入力される。ステップＳ２６２では、入力画像に対する視線判別処理が実行される。図２に示す処理構成を適用した処理、具体的には、図５に示すフローチャートに従って視線判別処理が実行される。この視線判別処理の結果は、入力画像に含まれる顔の視線が、
（ａ）ポジティブ状態（Ｐｏｓｉｔｉｖｅ）：カメラに対して視線が向いている、
（ｂ）ネガティブ状態（Ｎｅｇａｔｉｖｅ）：カメラに対して視線が向いていない、
これらの２つの状態のいずれにあるかの判別結果である。

ステップＳ２６３では、ステップＳ２６２で取得した視線判別結果に基づいて、入力画像に含まれる人物などの顔の視線の全てがカメラ方向を向いているかを判別する処理を実行する。入力画像に含まれる人物などの顔の視線の全てがカメラ方向を向いている場合、ステップＳ２６４の判定がＹｅｓとなり、処理が終了し、次の操作、例えば撮影処理が実行される。

一方、入力画像に含まれる人物などの顔の視線の全てがカメラ方向を向いていない場合、ステップＳ２６４の判定がＮｏとなり、ステップＳ２６５に進み、警告の出力が行われる。例えば警告音の出力、警告メッセージの表示処理が行われる。この警告により、撮影者は、撮影処理の前に被写体の視線状態を判別でき、カメラを見ていない顔を誤って撮影してしまうことを防止できる。

例えば、大切な行事での集合写真を撮ったあとその場で失敗していないかどうか確認したいことがあるが、図９に示すフローに従って視線方向判別結果を利用した処理を行うことで、カメラを見ていない顔を誤って撮影してしまうことを防止できる。集合写真では左右の端にいる人は横向き顔になることが多く、顔方向検出だけでは不十分である。知りたいのは全員が「カメラ視線であるかどうか」である。本発明の情報処理装置では、顔の向きに基づいて視線判別を行うものではなく、学習データに基づいて入力画像に含まれる顔の視線が、
（ａ）ポジティブ状態（Ｐｏｓｉｔｉｖｅ）：カメラに対して視線が向いている、
（ｂ）ネガティブ状態（Ｎｅｇａｔｉｖｅ）：カメラに対して視線が向いていない、
これらの２つの状態のいずれにあるかの判別を行うものであり、カメラの取得画像に基づいて、上記の視線判別処理を行い、モニタなどに警告アイコンなどを表示することができるようになる。また、多くの顔がモニタに表示されている場合、ネガティブ状態（Ｎｅｇａｔｉｖｅ）、すなわち、カメラに対して視線が向いていない人物のみを特定した識別情報を各顔に対応付けて表示するといった処理も可能となる。

次に、上述の視線判別処理を利用したデータ検索装置の構成例について、図１０を参照して説明する。図１０には、（ａ），（ｂ）の検索処理装置構成例を示している。

図１０（ａ）は、写真などの多数の画像データを格納したデータベース３１３から、検索条件にあった画像を検索する装置である。なお、この検索装置は、例えばＰＣなどの情報処理装置によって実現可能である。図１０（ａ）に示す入力部３１１、検索部３１２、データベース３１３、視線検出部３１４、表示部３１５は、ＰＣ等の情報処理装置の機能を用いて実現可能である。視線検出部３１４は、先に図２を参照して説明した処理構成であり、図５を参照して説明した視線判別処理を実行する。検索部３１２のデータ検索処理、視線検出部３１４の視線検出処理を実行するプログラムが情報処理装置の記憶部に格納され、ＣＰＵ等によって構成される制御部において実行される。

入力部３１１は、例えば、データベース３１３に格納された多数の画像データから、ある期間の撮影画像であり人の顔が含まれ、かつその人の顔の視線がカメラ方向を見ている画像のみを選択する検索クエリを入力する。

検索部３１２は、まず、例えば検索クエリに設定された期間情報に基づいてデータベース３１３からその期間の画像データを検索する。検索画像は、視線検出部３１４に渡され、検索結果画像に対する視線判別処理が実行される。すなわち図２に示す処理構成を適用した処理、具体的には、図５に示すフローチャートに従って視線判別処理が実行される。検索結果画像に含まれる顔の視線が、
（ａ）ポジティブ状態（Ｐｏｓｉｔｉｖｅ）：カメラに対して視線が向いている、
（ｂ）ネガティブ状態（Ｎｅｇａｔｉｖｅ）：カメラに対して視線が向いていない、
これらの２つの状態のいずれにあるかの判別結果を生成し、判別結果情報を表示部３１５に出力する。表示部３１５は、ポジティブ状態（Ｐｏｓｉｔｉｖｅ）の顔の含まれる画像、すなわち、カメラに対して視線が向いている画像のみを選択して表示するといった処理を行う。

図１０（ｂ）は、図１０（ａ）と同様、写真などの多数の画像データを格納したデータベース３２３から、検索条件にあった画像を検索する装置であるが、この装置は、データベース３２３に対する画像データの格納時に、画像データの視線判別を実行して、視線判別結果を画像データの対応メタ情報としてデータベース３２３に格納する設定としている。

入力部３２１からデータベース３２３に格納する画像データが入力されると、視線検出部３２２が画像に対する視線判別処理を実行する。すなわち図２に示す処理構成を適用した処理、具体的には、図５に示すフローチャートに従って視線判別処理が実行される。検索結果画像に含まれる顔の視線が、
（ａ）ポジティブ状態（Ｐｏｓｉｔｉｖｅ）：カメラに対して視線が向いている、
（ｂ）ネガティブ状態（Ｎｅｇａｔｉｖｅ）：カメラに対して視線が向いていない、
これらの２つの状態のいずれにあるかの判別結果を生成し、判別結果情報を画像対応のメタ情報として設定して画像データとともにデータベース３２３に格納する。

検索処理に際しては、検索クエリが入力部３２４から入力される。例えば、データベース３２３に格納された多数の画像データから、ある期間の撮影画像であり人の顔が含まれ、かつその人の顔の視線がカメラ方向を見ている画像のみを選択する検索クエリを入力する。検索部３１２は、データベース３２３に格納画像に設定されたメタデータとしての期間情報や視線判別情報を利用してデータ検索を実行し、検索クエリに一致するデータを取得して表示部３２６に表示する。例えば、表示部３２６には、ポジティブ状態（Ｐｏｓｉｔｉｖｅ）の顔の含まれる画像、すなわち、カメラに対して視線が向いている画像のみが表示される。

図１１は、上述の視線判別処理機能を持つ動画データ管理装置の構成および処理例について説明する図である。図―１１に示す装置は例えばビデオカメラによって構成される。図１１（ａ）は、動画像データを記憶部４１３に格納する処理を行う際に、画像データの視線判別を実行して、視線判別結果を画像ファイルと別の独立したファイルとして記録する。

入力部４１１から例えば撮影動画像データが入力される。視線検出部４１２は、動画像の構成フレーム各々に対する視線判別処理を実行する。すなわち図２に示す処理構成を適用した処理、具体的には、図５に示すフローチャートに従って視線判別処理が実行される。検索結果画像に含まれる顔の視線が、
（ａ）ポジティブ状態（Ｐｏｓｉｔｉｖｅ）：カメラに対して視線が向いている、
（ｂ）ネガティブ状態（Ｎｅｇａｔｉｖｅ）：カメラに対して視線が向いていない、
これらの２つの状態のいずれにあるかの判別結果を生成する。

記憶部４１３には、動画像データファイルと、視線検出部４１２の視線検出結果情報、すなわち各フレーム画像に含まれる顔画像に対応する視線判別結果情報を記録した視線情報ファイルが記録される。

図１１（ｂ）は、動画像データを記憶部４２４に格納する処理を行う際に、画像データの視線判別を実行して、視線判別結果を画像データのメタデータとして記録する。

入力部４２１から例えば撮影動画像データが入力される。視線検出部４２２は、動画像の構成フレーム各々に対する視線判別処理を実行する。すなわち図２に示す処理構成を適用した処理、具体的には、図５に示すフローチャートに従って視線判別処理が実行される。検索結果画像に含まれる顔の視線が、
（ａ）ポジティブ状態（Ｐｏｓｉｔｉｖｅ）：カメラに対して視線が向いている、
（ｂ）ネガティブ状態（Ｎｅｇａｔｉｖｅ）：カメラに対して視線が向いていない、
これらの２つの状態のいずれにあるかの判別結果を生成する。

ファイル作成部は、動画像データのメタデータとして、各画像フレームに含まれる顔の視線が、
（ａ）ポジティブ状態（Ｐｏｓｉｔｉｖｅ）：カメラに対して視線が向いている、
（ｂ）ネガティブ状態（Ｎｅｇａｔｉｖｅ）：カメラに対して視線が向いていない、
これらの２つの状態のいずれにあるかの判別結果を設定したファイルを生成し、生成したメタデータ付与動画像ファイルが記憶部４２４に記録される。

最後に、本発明の情報処理装置の一例としての撮像装置のハードウェア構成例とＰＣのハードウェア構成例について図１２、図１３を参照して説明する。図１２は、本発明の情報処理装置の一例としての撮像装置のハードウェア構成例である。

撮像装置５００は、レンズ、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）などの撮像部５０１において取得した撮影信号をアナログ信号処理部５０２に入力し、アナログ信号処理部５０２においてノイズ除去等の処理を行い、Ａ／Ｄ変換部５０３においてデジタル信号に変換される。デジタル変換されたデータは、デジタル信号処理部５０４において、データ圧縮などのデジタル信号処理がなされた後、例えばフラッシュメモリなどによって構成される記録デバイス５１５に記録される。さらに、モニタ５１７、ビューファインダ（ＥＶＦ）５１６に表示される。

操作部５１１は、カメラ本体にあるシャッター等の他、記録デバイス５１５に記録されたデータの再生指定スイッチ、早送り再生や巻き戻し再生などの処理開始を行うためのスイッチ類が含まれる。

制御部５１０は、ＣＰＵを有し、撮像装置の実行する各種の処理の制御を予めメモリ（ＲＯＭ）５２０などに格納されたプログラムに従って実行する。メモリ（ＥＥＰＲＯＭ）５１２は不揮発性メモリであり、画像データ、各種の補助情報、プログラムなどが格納される。メモリ（ＲＯＭ）５２０は、制御部（ＣＰＵ）５１０が使用するプログラムや演算パラメータ等を格納する。メモリ（ＲＡＭ）５２１は、制御部（ＣＰＵ）５１０において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。

視線検出部５０５は、顔検出、目鼻口検出、視線判別処理などを実行する。例えば、先に図５を参照して説明した画像から顔領域検出および視線検出を行い、検出結果をデジタル信号処理部５０４に入力する。デジタル信号処理部５０４は、例えば検出結果メタデータとして設定して記録デバイス５１５に記録する処理などを実行する。

図１３は、本発明の情報処理装置の一例としてのパーソナルコンピュータのハードウェア構成例である。ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）７０１は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）７０２、または記憶部７０８に記憶されているプログラムに従って各種の処理を実行する。例えば、上述の実施例において説明した顔検出、目鼻口検出、視線判別処理などの処理プログラムを実行する。ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）７０３には、ＣＰＵ７０１が実行するプログラムやデータなどが適宜記憶される。これらのＣＰＵ３０１、ＲＯＭ７０２、およびＲＡＭ７０３は、バス７０４により相互に接続されている。

ＣＰＵ７０１はバス７０４を介して入出力インタフェース７０５に接続され、入出力インタフェース７０５には、キーボード、マウス、マイクロホンなどよりなる入力部７０６、ディスプレイ、スピーカなどよりなる出力部７０７が接続されている。ＣＰＵ７０１は、入力部７０６から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部７０７に出力する。

入出力インタフェース７０５に接続されている記憶部７０８は、例えばハードディスクからなり、ＣＰＵ７０１が実行するプログラムや各種のデータを記憶する。通信部７０９は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。

入出力インタフェース７０５に接続されているドライブ７１０は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア７１１を駆動し、記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部７０８に転送され記憶される。

以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

以上、説明したように、本発明の一実施例の構成では、画像に含まれる顔領域、目鼻口などの顔構成部位を検出し、さらに、視線判別部が目鼻口の検出された顔画像の視線判別処理を実行する。視線判別処理は、（ａ）視線がカメラ方向を向いているポジティブ状態、（ｂ）視線がカメラ方向を向いていないネガティブ状態、上記（ａ），（ｂ）の２状態のいずれであるかを、（ａ），（ｂ）各状態に対応する分類データからなる学習データを格納した視線判別辞書を利用して行う。具体的には、画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを適用して視線判別処理を行う。本構成によれば、視線がカメラ方向を向いているかいないかの２つの状態判別という明確な区分による視線判別であり、判別処理の精度が高く、また判別結果の利用価値も高い構成が実現される。

本発明に係る情報処理装置の実行する処理の概要について説明する図である。本発明の一実施例の情報処理装置の構成および処理について説明する図である。本発明の一実施例の情報処理装置において適用可能なマスク設定例について説明する図である。本発明の一実施例の情報処理装置において実行する視線判別結果の評価データについて説明する図である。本発明の一実施例の情報処理装置において実行する視線判別処理のシーケンスを説明するフローチャートを示す図である。本発明の視線判別処理を画像音声認識システムに応用した処理シーケンスを説明するフローチャートを示す図である。本発明の視線判別処理を撮像装置に応用した処理シーケンスを説明するフローチャートを示す図である。本発明の視線判別処理を画像データ管理システムに応用した処理シーケンスを説明するフローチャートを示す図である。本発明の視線判別処理を撮像装置に応用した処理シーケンスを説明するフローチャートを示す図である。本発明の視線判別処理をデータ検索装置に応用した場合の構成および処理について説明する図である。本発明の視線判別処理を動画データ管理装に応用した場合の構成および処理について説明する図である。本発明の情報処理装置の一構成例としての撮像装置のハードウェア構成例について説明する図である。本発明の情報処理装置の一構成例としてのＰＣのハードウェア構成例について説明する図である。

符号の説明

１００情報処理装置
１０１顔検出部
１０２目鼻口検出部
１０３画像処理部
１０４視線判別部
１１１回転補正処理部
１１２顔サイズ正規化処理部
１１３顔領域切り出し部
１２１顔検出辞書
１２２目鼻口検出辞書
１２３視線判別辞書
３１１入力部
３１２検索部
３１３データベース
３１４視線検出部
３１５表示部
３２１入力部
３２２視線検出部
３２３データベース
３２４入力部
３２５検索部
３２６表示部
４１１入力部
４１２視線検出部
４１３記憶部
４２１入力部
４２２視線検出部
４２３ファイル作成部
４２４記憶部
５００撮像装置
５０１撮像部
５０２アナログ信号処理部
５０３Ａ／Ｄ変換部
５０４デジタル信号処理部
５０５視線検出部
５１０制御部
５１１操作部
５１２メモリ
５１５記録デバイス
５１６ビューファインダ
５１７モニタ
５２０メモリ（ＲＯＭ）
５２１メモリ（ＲＡＭ）
７０１ＣＰＵ
７０２ＲＯＭ
７０３ＲＡＭ
７０４バス
７０５入出力インタフェース
７０６入力部
７０７出力部
７０８記憶部
７０９通信部
７１０ドライブ
７１１リムーバブルメディア

Claims

画像データに含まれる顔領域を検出する顔検出部と、
前記顔検出部の検出した顔領域から顔構成部位を検出する顔構成部位検出部と、
前記顔構成部位検出部において顔構成部位の検出された顔画像の視線判別処理を実行する視線判別部を有し、
前記視線判別部は、
顔構成部位の検出された顔画像データの視線について、
（ａ）視線がカメラ方向を向いているポジティブ状態、
（ｂ）視線がカメラ方向を向いていないネガティブ状態、
上記（ａ），（ｂ）の２状態のいずれであるかを判別する処理を、上記（ａ），（ｂ）各状態に対応する分類データからなる学習データを格納した視線判別辞書と入力顔画像データとの照合処理によって実行する構成であることを特徴とする情報処理装置。
前記顔構成部位検出部は、
前記顔検出部の検出した顔領域から目鼻口を検出する構成であり、
前記視線判別部は、
目鼻口の検出された顔画像データの視線判別処理を実行する構成であることを特徴とする請求項１に記載の情報処理装置。
前記視線判別部は、
画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用した処理によって視線判別処理を実行する構成であることを特徴とする請求項１に記載の情報処理装置。
前記情報処理装置は、
前記顔構成部位検出部において顔構成部位の検出された顔画像の回転処理、サイズ正規化処理、顔領域切り出し処理を実行する画像処理部を有し、
前記視線判別部は、
前記画像処理部における処理画像を入力して視線判別処理を実行する構成であることを特徴とする請求項１に記載の情報処理装置。
前記顔検出部は、
画像データに含まれる顔領域検出処理を、様々な顔領域画像情報を格納した顔検出辞書を参照して、画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用して実行する構成であることを特徴とする請求項１に記載の情報処理装置。
前記顔構成部位検出部は、
前記顔検出部の検出した顔領域からの顔構成部位検出処理を、様々な顔構成部位画像情報を格納した顔構成部位検出辞書を参照して、画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用して実行する構成であることを特徴とする請求項１に記載の情報処理装置。
前記情報処理装置は、
音声認識処理を実行する音声認識部を有し、
前記視線判別部における視線判別結果と、前記音声認識部における音声認識結果を統合して、発話者の解析を実行する構成であることを特徴とする請求項１に記載の情報処理装置。
前記情報処理装置は撮像装置であり、
前記視線判別部における視線判別結果を入力して撮像装置のシャッター制御を実行するシャッター制御部を有し、
前記シャッター制御部は、
撮像装置の取得画像に含まれる顔の視線中に、視線がカメラ方向を向いていないネガティブ状態の顔画像が含まれる場合に、シャッター操作を不可とする制御を行う構成であることを特徴とする請求項１に記載の情報処理装置。
前記情報処理装置は、さらに、
前記視線判別部において判別された複数の画像フレームに対応する視線判別結果を入力して、画像データの選別処理を行うフレーム選別部を有し、
前記フレーム選別部は、
ポジティブ状態とネガティブ状態の各状態情報を適用して画像フレームの選別を行う構成であることを特徴とする請求項１に記載の情報処理装置。
前記情報処理装置は撮像装置であり、
前記視線判別部における視線判別結果を入力して警告出力を実行する警告出力部を有し、
前記警告出力部は、
撮像装置の取得画像に含まれる顔の視線中に、視線がカメラ方向を向いていないネガティブ状態の顔画像が含まれる場合に、警告出力を行う構成であることを特徴とする請求項１に記載の情報処理装置。
前記情報処理装置は、
前記視線判別部の視線判別結果をデータ検索処理に適用して、
（ａ）視線がカメラ方向を向いているポジティブ状態、
（ｂ）視線がカメラ方向を向いていないネガティブ状態、
上記（ａ），（ｂ）の２状態のいずれかの画像を選択抽出する検索処理を実行する構成を有することを特徴とする請求項１に記載の情報処理装置。
前記情報処理装置は、
画像データの視線判別処理結果を記憶部に格納する画像データの対応情報として記憶部に格納する処理を行う構成を有することを特徴とする請求項１に記載の情報処理装置。
情報処理装置において実行する情報処理方法であり、
顔検出部が、画像データに含まれる顔領域を検出する顔検出ステップと、
顔構成部位検出部が、前記顔検出ステップにおいて検出した顔領域から顔構成部位を検出する顔構成部位検出ステップと、
視線判別部が、前記顔構成部位検出ステップにおいて顔構成部位の検出された顔画像の視線判別処理を実行する視線判別ステップを有し、
前記視線判別ステップは、
顔構成部位の検出された顔画像データの視線について、
（ａ）視線がカメラ方向を向いているポジティブ状態、
（ｂ）視線がカメラ方向を向いていないネガティブ状態、
上記（ａ），（ｂ）の２状態のいずれであるかを判別する処理を、上記（ａ），（ｂ）各状態に対応する分類データからなる学習データを格納した視線判別辞書と入力顔画像データとの照合処理によって実行するステップであることを特徴とする情報処理方法。
前記顔構成部位検出ステップは、
前記顔検出ステップにおいて検出された顔領域から目鼻口を検出するステップであり、
前記視線判別ステップは、
目鼻口の検出された顔画像データの視線判別処理を実行するステップであることを特徴とする請求項１３に記載の情報処理方法。
前記視線判別ステップは、
画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用した処理によって視線判別処理を実行するステップであることを特徴とする請求項１３に記載の情報処理方法。
前記情報処理方法は、さらに、
画像処理部が、前記顔構成部位検出部において顔構成部位の検出された顔画像の回転処理、サイズ正規化処理、顔領域切り出し処理を実行する画像処理ステップを有し、
前記視線判別ステップは、
前記画像処理ステップにおいて処理された画像を入力して視線判別処理を実行するステップであることを特徴とする請求項１３に記載の情報処理方法。
前記顔検出ステップは、
画像データに含まれる顔領域検出処理を、様々な顔領域画像情報を格納した顔検出辞書を参照して、画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用して実行するステップであることを特徴とする請求項１３に記載の情報処理方法。
前記顔構成部位検出ステップは、
前記顔検出ステップにおいて検出された顔領域からの顔構成部位検出処理を、様々な顔構成部位画像情報を格納した顔構成部位検出辞書を参照して、画像の特定位置の画素ペアの差分値を比較照合データとして利用するＰｉｘＤｉｆアルゴリズムを利用して実行するステップであることを特徴とする請求項１３に記載の情報処理方法。
前記情報処理方法は、さらに、
音声認識部が、音声認識処理を実行する音声認識ステップと、
データ処理部が、視線判別結果と、前記音声認識部における音声認識結果を統合して、発話者の解析を実行するステップを有することを特徴とする請求項１３に記載の情報処理方法。
前記情報処理装置は撮像装置であり、
前記情報処理方法は、さらに、
シャッター制御部が、前記視線判別ステップにおける視線判別結果を入力して撮像装置のシャッター制御を実行するシャッター制御ステップを有し、
前記シャッター制御ステップは、
撮像装置の取得画像に含まれる顔の視線中に、視線がカメラ方向を向いていないネガティブ状態の顔画像が含まれる場合に、シャッター操作を不可とする制御を行うステップであることを特徴とする請求項１３に記載の情報処理方法。
前記情報処理方法は、さらに、
フレーム選別部が、前記視線判別ステップにおいて判別された複数の画像フレームに対応する視線判別結果を入力して、画像データの選別処理を行うフレーム選別ステップを有し、
前記フレーム選別ステップは、
ポジティブ状態とネガティブ状態の各状態情報を適用して画像フレームの選別を行うステップであることを特徴とする請求項１３に記載の情報処理方法。
前記情報処理装置は撮像装置であり、
前記情報処理方法は、さらに、
警告出力部が、前記視線判別ステップにおける視線判別結果を入力して警告出力を実行する警告出力ステップを有し、
前記警告出力ステップは、
撮像装置の取得画像に含まれる顔の視線中に、視線がカメラ方向を向いていないネガティブ状態の顔画像が含まれる場合に、警告出力を行うステップであることを特徴とする請求項１３に記載の情報処理方法。
前記情報処理方法は、さらに、
検索部が、前記視線判別部の視線判別結果をデータ検索処理に適用して、
（ａ）視線がカメラ方向を向いているポジティブ状態、
（ｂ）視線がカメラ方向を向いていないネガティブ状態、
上記（ａ），（ｂ）の２状態のいずれかの画像を選択抽出する検索処理を実行するステップを有することを特徴とする請求項１３に記載の情報処理方法。
前記情報処理方法は、さらに、
データ処理部が、画像データの視線判別処理結果を記憶部に格納する画像データの対応情報として記憶部に格納する処理を行うステップを有することを特徴とする請求項１３に記載の情報処理方法。
情報処理装置において情報処理を実行させるコンピュータ・プログラムであり、
顔検出部に、画像データに含まれる顔領域を検出させる顔検出ステップと、
顔構成部位検出部に、前記顔検出ステップにおいて検出した顔領域から顔構成部位を検出させる顔構成部位検出ステップと、
視線判別部に、前記顔構成部位検出ステップにおいて顔構成部位の検出された顔画像の視線判別処理を実行させる視線判別ステップを有し、
前記視線判別ステップは、
顔構成部位の検出された顔画像データの視線について、
（ａ）視線がカメラ方向を向いているポジティブ状態、
（ｂ）視線がカメラ方向を向いていないネガティブ状態、
上記（ａ），（ｂ）の２状態のいずれであるかを判別する処理を、上記（ａ），（ｂ）各状態に対応する分類データからなる学習データを格納した視線判別辞書と入力顔画像データとの照合処理によって実行させるステップであることを特徴とするコンピュータ・プログラム。