[go: up one dir, main page]

JP2009059257A - 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム - Google Patents

情報処理装置、および情報処理方法、並びにコンピュータ・プログラム Download PDF

Info

Publication number
JP2009059257A
JP2009059257A JP2007227262A JP2007227262A JP2009059257A JP 2009059257 A JP2009059257 A JP 2009059257A JP 2007227262 A JP2007227262 A JP 2007227262A JP 2007227262 A JP2007227262 A JP 2007227262A JP 2009059257 A JP2009059257 A JP 2009059257A
Authority
JP
Japan
Prior art keywords
face
line
sight
image
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007227262A
Other languages
English (en)
Other versions
JP2009059257A5 (ja
Inventor
Nobuya Otani
伸弥 大谷
Atsushi Okubo
厚志 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2007227262A priority Critical patent/JP2009059257A/ja
Priority to EP08162818A priority patent/EP2031545A2/en
Priority to US12/197,408 priority patent/US8295556B2/en
Priority to CN2008102139672A priority patent/CN101383000B/zh
Priority to KR1020080086317A priority patent/KR20090024086A/ko
Publication of JP2009059257A publication Critical patent/JP2009059257A/ja
Publication of JP2009059257A5 publication Critical patent/JP2009059257A5/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】画像解析により、高精度かつ有効な判別結果を得る視線判別処理の実行構成を実現する
【解決手段】画像中の顔領域、目鼻口を検出し、目鼻口の検出された顔画像の視線判別処理を実行する。視線判別処理は、(a)視線がカメラ方向を向いているポジティブ状態、(b)視線がカメラ方向を向いていないネガティブ状態、上記(a),(b)のいずれであるかを、各状態に対応する分類データからなる学習データを格納した視線判別辞書を利用して行う。具体的には、画像の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを適用する。本構成によれば、視線がカメラ方向を向いているかいないかの2つの状態判別という明確な区分による視線判別であり、判別処理の精度が高く、また判別結果の利用価値も高い構成が実現される。
【選択図】図2

Description

本発明は、情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。さらに詳細には、カメラによって撮影された画像の解析により、撮影画像に含まれる人や動物などの視線方向を検出する処理を実行する情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。
カメラによる取得画像から、人や犬や猫などのペットや動物の視線を判定できるようになると、例えば視線がカメラを向いている瞬間にシャッターを操作することが可能となり、写真撮影時の失敗を減らすことができる。またこのような視線判定処理を実行するプログラムを例えば動画作成ソフトに組み込むことで、多数の写真データから、正面を見ている人がいる画像を選択するなど、動画の整理が効率敵に行える。
また、視線判定処理実行プログラムを例えばテレビ会議システムなどの対話システムに組み込むことで、視線に応じたカメラの切り替えやカメラ方向設定、ズーム処理などを行うことでスムーズなインタラクションが可能となる。
カメラによって撮影される画像データから視線判別を行う技術を開示した従来技術の1つとして視線方向検出がある。視線方向検出とはカメラに写っているユーザがどの位置を見ているかを推定する技術で、黒目の位置の微妙な位置関係を読み取ることで行われる。例えば非特許文献1[Passive Driver Gaze Tracking with Active Appearance Models T.Ishikawa,S.Baker,I.Matthews,and T.Kanade Proceedings of the 11th World Congress on Intelligent Transportation Systems, October, 2004.]では、顔検出した顔に対して、AAM[Active Appearance Models]で顔の姿勢を求めておき、更に目の部分から黒目の位置を検出し、目と黒目の位置関係から眼球の姿勢推定をし、顔の姿勢と総合することで全体の視線方向を推定する構成を開示している。
しかし、この非特許文献1に記載された構成では、眼球の姿勢推定に黒目や精細な画像入力が必要となる。このためには、高性能な高解像度カメラを用いることが必須となる。一般のユーザが家のリビングで2〜3m離れた位置にカメラを置いて撮影するような場合、100万画素程度の一般的なカメラを用いることはできない。
この非特許文献1に記載された構成を実現するためには、高価な高画素のカメラを用いることが必要であり、さらに被写体の目の部分をズーム撮影して黒目位置測定精度を上げる処理や、目に赤外線を照射して目の網膜や球体部分の輝度を強くして正確に撮影するなど、精度を上げるための特別な処理が必要となる。また、顔姿勢推定を行って目の位置推定や眼球姿勢の推定を行う必要があり、処理が複雑化し、また視線方向検出の誤差も大きくなるという問題がある。
また、非特許文献2[対話システムのための視線方向認識 山畠利彦、藤江真也 画像の認識・理解シンポジウム(MIRU2006)]は、アナログ値での視線方向推定を諦め、視線方向を10クラスに分類する処理によって視線方向判別を行う手法を開示している。このように視線方向を所定の範囲で分類することで、正確な眼球の姿勢を推定する必要がなくなり、目部分の画像からPCA(主成分分析)やLDA(線形判別分析)などを適用して認識結果を出力でき、認識器直列化による誤差拡散の問題を解決している。
しかし、目部分の画像からPCA(主成分分析)で次元圧縮を行い、LDA(線形判別分析)で線形判別するためには、視線方向10クラス問題を解くことが必要となるが、この問題をロバスト(安定的)に解くことは難しい。
また、非特許文献3[眼球形状モデルに基づく視線測定法 大野健彦、武川直樹、吉川厚 (NTTコミュニケーション科学基礎研究所) 第8回画像センシングシンポジウム講演論文集,pp.307−312.]では角膜反射法による視線方向推定の方法を開示している。瞳孔中心とプルキニエ像(Purkinje’s images)の位置から視線を推定するというもので、高精度に視線が推定できる。また顔の方向によらず推定できるため、顔姿勢認識器の誤差を受けなくてすむ。
しかし、プルキニエ像を抽出するためには、カメラに対して固定された位置にあるところから光を照射しなければならず、デバイスが複雑になる。更に、プルキニエ像と瞳孔中心、及び視線方向の関係は個人差があるため、人が変わるたびに毎回キャリブレーションを行わなければならないという問題がある。
Passive Driver Gaze Tracking with Active Appearance Models T.Ishikawa,S.Baker,I.Matthews,and T.Kanade Proceedings of the 11th World Congress on Intelligent Transportation Systems, October, 2004. 対話システムのための視線方向認識 山畠利彦、藤江真也 画像の認識・理解シンポジウム(MIRU2006) 眼球形状モデルに基づく視線測定法 大野健彦、武川直樹、吉川厚 (NTTコミュニケーション科学基礎研究所) 第8回画像センシングシンポジウム講演論文集,pp.307−312.
本発明は、上述の問題点に鑑みてなされたものであり、カメラによって撮影された画像の解析により、撮影画像に含まれる人や動物などの視線方向を効率的に検出する情報処理装置、および情報処理方法、並びにコンピュータ・プログラムを提供することを目的とする。
具体的には、本発明は、カメラによって撮影された画像の解析により、撮影画像に含まれる人や動物などの視線がこちらを見ているか、見ていないかの2つの種類の視線判別を行う情報処理装置、および情報処理方法、並びにコンピュータ・プログラムを提供することを目的とする。
本発明の第1の側面は、
画像データに含まれる顔領域を検出する顔検出部と、
前記顔検出部の検出した顔領域から顔構成部位を検出する顔構成部位検出部と、
前記顔構成部位検出部において顔構成部位の検出された顔画像の視線判別処理を実行する視線判別部を有し、
前記視線判別部は、
顔構成部位の検出された顔画像データの視線について、
(a)視線がカメラ方向を向いているポジティブ状態、
(b)視線がカメラ方向を向いていないネガティブ状態、
上記(a),(b)の2状態のいずれであるかを判別する処理を、上記(a),(b)各状態に対応する分類データからなる学習データを格納した視線判別辞書と入力顔画像データとの照合処理によって実行する構成であることを特徴とする情報処理装置にある。
さらに、本発明の情報処理装置の一実施態様において、前記顔構成部位検出部は、前記顔検出部の検出した顔領域から目鼻口を検出する構成であり、前記視線判別部は、目鼻口の検出された顔画像データの視線判別処理を実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記視線判別部は、画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを利用した処理によって視線判別処理を実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は、前記顔構成部位検出部において顔構成部位の検出された顔画像の回転処理、サイズ正規化処理、顔領域切り出し処理を実行する画像処理部を有し、前記視線判別部は、前記画像処理部における処理画像を入力して視線判別処理を実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記顔検出部は、画像データに含まれる顔領域検出処理を、様々な顔領域画像情報を格納した顔検出辞書を参照して、画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを利用して実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記顔構成部位検出部は、前記顔検出部の検出した顔領域からの顔構成部位検出処理を、様々な顔構成部位画像情報を格納した顔構成部位検出辞書を参照して、画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを利用して実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は、音声認識処理を実行する音声認識部を有し、前記視線判別部における視線判別結果と、前記音声認識部における音声認識結果を統合して、発話者の解析を実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は撮像装置であり、前記視線判別部における視線判別結果を入力して撮像装置のシャッター制御を実行するシャッター制御部を有し、前記シャッター制御部は、撮像装置の取得画像に含まれる顔の視線中に、視線がカメラ方向を向いていないネガティブ状態の顔画像が含まれる場合に、シャッター操作を不可とする制御を行う構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は、さらに、前記視線判別部において判別された複数の画像フレームに対応する視線判別結果を入力して、画像データの選別処理を行うフレーム選別部を有し、前記フレーム選別部は、ポジティブ状態とネガティブ状態の各状態情報を適用して画像フレームの選別を行う構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は撮像装置であり、前記視線判別部における視線判別結果を入力して警告出力を実行する警告出力部を有し、前記警告出力部は、撮像装置の取得画像に含まれる顔の視線中に、視線がカメラ方向を向いていないネガティブ状態の顔画像が含まれる場合に、警告出力を行う構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は、前記視線判別部の視線判別結果をデータ検索処理に適用して、
(a)視線がカメラ方向を向いているポジティブ状態、
(b)視線がカメラ方向を向いていないネガティブ状態、
上記(a),(b)の2状態のいずれかの画像を選択抽出する検索処理を実行する構成を有することを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は、画像データの視線判別処理結果を記憶部に格納する画像データの対応情報として記憶部に格納する処理を行う構成を有することを特徴とする。
さらに、本発明の第2の側面は、
情報処理装置において実行する情報処理方法であり、
顔検出部が、画像データに含まれる顔領域を検出する顔検出ステップと、
顔構成部位検出部が、前記顔検出ステップにおいて検出した顔領域から顔構成部位を検出する顔構成部位検出ステップと、
視線判別部が、前記顔構成部位検出ステップにおいて顔構成部位の検出された顔画像の視線判別処理を実行する視線判別ステップを有し、
前記視線判別ステップは、
顔構成部位の検出された顔画像データの視線について、
(a)視線がカメラ方向を向いているポジティブ状態、
(b)視線がカメラ方向を向いていないネガティブ状態、
上記(a),(b)の2状態のいずれであるかを判別する処理を、上記(a),(b)各状態に対応する分類データからなる学習データを格納した視線判別辞書と入力顔画像データとの照合処理によって実行するステップであることを特徴とする情報処理方法にある。
さらに、本発明の情報処理方法の一実施態様において、前記顔構成部位検出ステップは、前記顔検出ステップにおいて検出された顔領域から目鼻口を検出するステップであり、前記視線判別ステップは、目鼻口の検出された顔画像データの視線判別処理を実行するステップであることを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記視線判別ステップは、画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを利用した処理によって視線判別処理を実行するステップであることを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記情報処理方法は、さらに、画像処理部が、前記顔構成部位検出部において顔構成部位の検出された顔画像の回転処理、サイズ正規化処理、顔領域切り出し処理を実行する画像処理ステップを有し、前記視線判別ステップは、前記画像処理ステップにおいて処理された画像を入力して視線判別処理を実行するステップであることを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記顔検出ステップは、画像データに含まれる顔領域検出処理を、様々な顔領域画像情報を格納した顔検出辞書を参照して、画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを利用して実行するステップであることを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記顔構成部位検出ステップは、前記顔検出ステップにおいて検出された顔領域からの顔構成部位検出処理を、様々な顔構成部位画像情報を格納した顔構成部位検出辞書を参照して、画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを利用して実行するステップであることを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記情報処理方法は、さらに、音声認識部が、音声認識処理を実行する音声認識ステップと、データ処理部が、視線判別結果と、前記音声認識部における音声認識結果を統合して、発話者の解析を実行するステップを有することを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記情報処理装置は撮像装置であり、前記情報処理方法は、さらに、シャッター制御部が、前記視線判別ステップにおける視線判別結果を入力して撮像装置のシャッター制御を実行するシャッター制御ステップを有し、前記シャッター制御ステップは、撮像装置の取得画像に含まれる顔の視線中に、視線がカメラ方向を向いていないネガティブ状態の顔画像が含まれる場合に、シャッター操作を不可とする制御を行うステップであることを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記情報処理方法は、さらに、フレーム選別部が、前記視線判別ステップにおいて判別された複数の画像フレームに対応する視線判別結果を入力して、画像データの選別処理を行うフレーム選別ステップを有し、前記フレーム選別ステップは、ポジティブ状態とネガティブ状態の各状態情報を適用して画像フレームの選別を行うステップであることを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記情報処理装置は撮像装置であり、前記情報処理方法は、さらに、警告出力部が、前記視線判別ステップにおける視線判別結果を入力して警告出力を実行する警告出力ステップを有し、前記警告出力ステップは、撮像装置の取得画像に含まれる顔の視線中に、視線がカメラ方向を向いていないネガティブ状態の顔画像が含まれる場合に、警告出力を行うステップであることを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記情報処理方法は、さらに、検索部が、前記視線判別部の視線判別結果をデータ検索処理に適用して、
(a)視線がカメラ方向を向いているポジティブ状態、
(b)視線がカメラ方向を向いていないネガティブ状態、
上記(a),(b)の2状態のいずれかの画像を選択抽出する検索処理を実行するステップを有することを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記情報処理方法は、さらに、データ処理部が、画像データの視線判別処理結果を記憶部に格納する画像データの対応情報として記憶部に格納する処理を行うステップを有することを特徴とする。
さらに、本発明の第3の側面は、
情報処理装置において情報処理を実行させるコンピュータ・プログラムであり、
顔検出部に、画像データに含まれる顔領域を検出させる顔検出ステップと、
顔構成部位検出部に、前記顔検出ステップにおいて検出した顔領域から顔構成部位を検出させる顔構成部位検出ステップと、
視線判別部に、前記顔構成部位検出ステップにおいて顔構成部位の検出された顔画像の視線判別処理を実行させる視線判別ステップを有し、
前記視線判別ステップは、
顔構成部位の検出された顔画像データの視線について、
(a)視線がカメラ方向を向いているポジティブ状態、
(b)視線がカメラ方向を向いていないネガティブ状態、
上記(a),(b)の2状態のいずれであるかを判別する処理を、上記(a),(b)各状態に対応する分類データからなる学習データを格納した視線判別辞書と入力顔画像データとの照合処理によって実行させるステップであることを特徴とするコンピュータ・プログラムにある。
なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能な汎用コンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータ・システム上でプログラムに応じた処理が実現される。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本発明の一実施例の構成では、画像に含まれる顔領域、目鼻口などの顔構成部位を検出し、さらに、視線判別部が目鼻口の検出された顔画像の視線判別処理を実行する。視線判別処理は、(a)視線がカメラ方向を向いているポジティブ状態、(b)視線がカメラ方向を向いていないネガティブ状態、上記(a),(b)の2状態のいずれであるかを、(a),(b)各状態に対応する分類データからなる学習データを格納した視線判別辞書を利用して行う。具体的には、画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを適用して視線判別処理を行う。本構成によれば、視線がカメラ方向を向いているかいないかの2つの状態判別という明確な区分による視線判別であり、判別処理の精度が高く、また判別結果の利用価値も高い構成が実現される。
以下、図面を参照しながら本発明の実施形態に係る情報処理装置、および情報処理方法、並びにコンピュータ・プログラムの詳細について説明する。
まず、図1を参照して本発明に係る情報処理装置の実行する処理の概要について説明する。本発明の情報処理装置は、カメラの撮影画像の解析を実行して、撮影画像に含まれる人や動物などの顔の目の視線方向を検出する処理を実行する情報処理装置であり、視線がカメラに向いているかどうかを判別する。具体的には以下の2状態を判別する。
ポジティブ状態(Positive):カメラに対して視線が向いている顔(正面顔や横顔も含む)
ネガティブ状態(Negative):カメラに対して視線が向いていない顔、例えば、横を見ている顔や、目を閉じてしまっている顔
本発明の情報処理装置は、カメラによる撮影画像に含まれる人や動物などの顔の目の視線方向が、これらの2つの状態のいずれにあるかを判別する。具体例を図1に示す。
図1(a)は、ポジティブ状態(Positive)、すなわち、カメラに対して視線が向いている顔の例であり、
図1(b)は、ネガティブ状態(Negative)、すなわち、カメラに対して視線が向いていない顔の例である。
本発明の情報処理装置の構成、および処理について、図2以下を参照して説明する。図2は、本発明の情報処理装置の一実施例構成を示す図である。本発明の情報処理装置は、弱い性能の学習機(WeakLeaner)を組み合わせて高精度な判別結果を出力する、いわゆるブースティング(Boosting)により、カメラによる撮影画像に含まれる人や動物などの顔の目の視線方向が、
(a)ポジティブ状態(Positive):カメラに対して視線が向いている、
(b)ネガティブ状態(Negative):カメラに対して視線が向いていない、
これらの2つの状態のいずれにあるかを判別する。
図2に示す情報処理装置100は、顔検出部101、目鼻口検出部102、画像処理部103、視線判別部104を有し、画像処理部103には、回転補正処理部111、顔サイズ正規化処理部112、顔領域切り出し部113が含まれる。また、顔検出部101における顔検出処理に利用される顔検出辞書121、目鼻口検出部102における目鼻口検出処理に利用される目鼻口検出辞書122、視線判別部104における視線判別処理に利用される視線判別辞書123を有する。
図2に示す情報処理装置100は、ブースティング(Boosting)の弱い性能の学習機(WeakLeaner)が、顔検出部101、目鼻口検出部102、視線判別部104において利用され、これらの処理部では、学習で得られた画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを利用した処理を行う構成となっている。なお、このアルゴリズムの詳細は、例えば、特開2005−284348に開示されている。
視線判別処理の対象画像が入力されると、まず、顔検出部101は、入力画像フレームに顔が写っているか否かの検出を行う。この顔検出処理は、顔検出辞書121を用いて行われ、上述したように、ブースティング(Boosting)の弱い性能の学習機(WeakLeaner)を利用した処理として実行され、学習で得られた画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを利用した処理によって実行される。すなわち、顔検出部101は、画像データに含まれる顔領域検出処理を、様々な顔領域画像情報を格納した顔検出辞書121を参照して、画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを利用して実行する。
顔検出辞書121には、画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムによる顔検出の学習結果が格納され、顔検出部101は、入力画像フレームに顔が映っているか否かの判断を、入力画像の特定位置の画素ペアの差分値データと、学習結果が格納された顔検出辞書121のデータとの照合によって実行する。
顔検出部101において検出された顔検出情報は、画像とともに顔構成部位検出部としての目鼻口検出部102に入力される。目鼻口検出部102は、顔検出部101において検出された顔について、顔構成部位、すなわち目・鼻・口の検出処理を行う。この目・鼻・口の検出処理は、顔構成部位検出辞書、すなわち目鼻口検出辞書122を用いてブースティング(Boosting)の弱い性能の学習機(WeakLeaner)を利用した処理として実行され、学習で得られた画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを利用した処理によって実行される。すなわち、顔構成部位検出部としての目鼻口検出部102は、顔検出部101の検出した顔領域からの顔構成部位検出処理を、様々な顔構成部位画像情報を格納した顔構成部位検出辞書、すなわち目鼻口検出辞書122を参照して、画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを利用して実行する。
目鼻口検出辞書122には、画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムによる目鼻口検出の学習結果が格納され、目鼻口検出部102は、顔検出部101において検出された顔についての目・鼻・口の検出処理を、入力画像の特定位置の画素ペアの差分値データと、学習結果が格納された目鼻口検出辞書122のデータとの照合によって実行する。
目鼻口検出部102における目鼻口検出処理において、目鼻口がすべて揃わなかった顔は、ここで処理対象から棄却し、視線判別は行わない。目鼻口がすべて検出された顔についてのみ、視線判別対象の顔として選択し、目、鼻、口の位置関係情報を取得する。
画像データは、目鼻口がすべて検出された顔の選択情報と、目、鼻、口の位置関係情報とともに画像処理部103に入力される。画像処理部103の回転補正処理部111は、視線判別対象とされた顔領域について、目、鼻、口の位置関係を利用して画像の回転補正を行う。すなわち、傾いている顔を正立させる処理を行う。
次に、回転補正された画像データは、顔サイズ正規化処理部112に入力され、顔サイズ正規化処理部112において目鼻口の距離情報を用いて顔部分のサイズが、予め設定した標準サイズに等しくなるように画像サイズの拡大、縮小を実行してサイズの正規化処理を行う。
正規化処理の施された画像は、次に顔領域切り出し部113に入力され、顔画像領域部分の切り出し処理が実行される。この切り出し画像が、視線判別部104に出力される。
視線判別部104は、切り出し画像に含まれる顔の視線判別処理を行う。この視線判別処理は、視線判別辞書123を用いてブースティング(Boosting)の弱い性能の学習機(WeakLeaner)を利用した処理として実行され、学習で得られた画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを利用した処理によって実行される。
視線判別辞書123には、
(a)視線がカメラ方向を向いているポジティブ状態、
(b)視線がカメラ方向を向いていないネガティブ状態、
上記(a),(b)の2状態に対応する分類データからなる学習データ、すなわち視線判別の学習結果が格納され、視線判別部104は、入力画像の特定位置の画素ペアの差分値データと、学習結果が格納された視線判別辞書123のデータとの照合によって視線判別処理を実行する。
視線判別部104は、切り出し画像に含まれる顔の視線判別処理として、画像に含まれる人や動物などの顔の目の視線方向が、
(a)ポジティブ状態(Positive):カメラに対して視線が向いている、
(b)ネガティブ状態(Negative):カメラに対して視線が向いていない、
これらの2つの状態のいずれにあるかを学習で得られた画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを利用した処理によって判別し、判別結果を出力する。
なお、学習結果が格納された視線判別辞書123は、上記のポジティブ状態と、ネガティブ状態との2クラスに分類した学習データが格納され、視線判別部104は、このような学習結果が格納された視線判別辞書123のデータとの照合によって視線判別を実行する。
なお、入力画像に複数の顔が含まれる場合は、ひとつの顔についての処理が終わると次の顔部について同じ処理を繰り返し、最終的に画像中に検出されたすべての顔についての処理を実行して、処理を終了する。
なお、図2に示す3つの辞書、すなわち、顔検出部101における顔検出処理に利用される顔検出辞書121、目鼻口検出部102における目鼻口検出処理に利用される目鼻口検出辞書122、視線判別部104における視線判別処理に利用される視線判別辞書123、これらの辞書は、視線判別を行う対象によって使い分ける。例えば、人の視線判別を実行する場合は、人用の辞書を、猫なら猫用の辞書を、犬なら犬用の辞書といったように用途によって使い分ける。
上述したように、視線判別部104は、切り出し画像に含まれる顔の視線判別処理として、画像に含まれる人や動物などの顔の目の視線方向が、
(a)ポジティブ状態(Positive):カメラに対して視線が向いている、
(b)ネガティブ状態(Negative):カメラに対して視線が向いていない、
これらの2つの状態のいずれにあるかを学習で得られた画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを利用した処理によって判別するが、この処理を実行する際、顔画像の全体についての処理を行うと処理時間が長くなってしまう。従って、画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを利用した処理の適用範囲を目の領域に限定するなどの処理範囲を制限する処理を行うことが好ましい。
例えば、図3に示すように、処理対象とするピクセルペアを選択するマスクを利用することで、処理を効率化できる。図3には、以下の複数の種類のマスク例を示している。
(a)両目を含む矩形領域を処理対照領域として設定するマスク
(b)各目の個別領域を処理対象領域として設定するマスク
(c)各目と鼻上部領域を処理対象領域として設定するマスク
(d)各目と鼻全体を処理対象領域として設定するマスク
これらのマスクを設定して、処理領域を限定することで、効率的な学習結果の生成や、判別処理が可能となる。
図2を参照して説明した情報処理装置における視線判別処理の性能評価データを図4に示す。被験者(撮影ユーザ)は、カメラに対して正面無向きから−5度〜+5度の範囲に顔の向きを設定し、様々な方向に視線を向けて、図2に示す構成により視線判別を実行した、
図4は、異なる部屋(ルーム1,2)での実験結果をROC曲線として示している。グラフの横軸は判別結果の誤り率、縦軸が正解率に対応する。視線判別は、
(a)ポジティブ状態(Positive):カメラに対して視線が向いている、
(b)ネガティブ状態(Negative):カメラに対して視線が向いていない、
これらの2つの状態のいずれにあるかの判別を行ったものであり、ほとんどの実験結果は正解であった。
次に、図5に示すフローチャートを参照して、図2に示す情報処理装置を適用した視線判別処理のシーケンスについて説明する。視線判別処理の対象画像が入力されると、まず、ステップS101において入力画像フレームに顔が写っているか否かの顔検出処理を行う。この処理は、図2に示す情報処理装置の顔検出部101の処理として実行される。前述したように、顔検出部101は、入力画像フレームに顔が写っているか否かの検出を顔検出辞書121を用いて、画素ペア差分値を比較照合データとして利用するPixDifアルゴリズムを利用した処理によって実行する。
次に、ステップS102において、未処理画像の有無が判別され、未処理画像がない場合は処理を終了する。未処理画像がある場合はステップS103に進む。ステップS103では、目鼻口検出処理が実行される。この処理は、図2に示す情報処理装置の目鼻口検出部102の処理として実行される。目鼻口検出部102は、顔検出部101において検出された顔について、目・鼻・口の検出処理を目鼻口検出辞書122を用いて画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを利用した処理によって実行する。
次に、ステップS104において、目鼻口検出処理において、目鼻口のすべてのパーツが検出されたか否かを判定する。前述したように、目鼻口検出部102における目鼻口検出処理において、目鼻口がすべて揃わなかった顔は、ここで処理対象から棄却し、視線判別は行わない。すなわち、ステップS111に進み、処理対象から除去して、ステップS101に進み、次の顔の処理に移行する。
目鼻口がすべて検出された顔についてのみ、ステップS105以下の処理を実行する。ステップS105〜S107は、図2に示す画像処理部103の処理である。まず、ステップS105において、画像処理部103の回転補正処理部111が、視線判別対象とされた顔領域について、目、鼻、口の位置関係を利用して画像の回転補正を行う。すなわち、傾いている顔を正立させる処理を行う。
次に、ステップS106において、顔サイズ正規化処理部112において目鼻口の距離情報を用いて顔部分のサイズが、予め設定した標準サイズに等しくなるように画像サイズの拡大、縮小によるサイズの正規化処理が行われる。次に、ステップS107において、顔領域切り出し部113が正規化処理の施された画像から顔画像領域部分の切り出し処理を実行する。
次に、ステップS108において、視線判別処理が実行される。この処理は図2に示す情報処理装置の視線判別部104の処理である。視線判別部104は、切り出し画像に含まれる顔の視線判別処理を視線判別辞書123を用いて学習で得られた画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを利用した処理によって実行する。視線判別部104は、切り出し画像に含まれる顔の視線判別処理として、画像に含まれる人や動物などの顔の目の視線方向が、
(a)ポジティブ状態(Positive):カメラに対して視線が向いている、
(b)ネガティブ状態(Negative):カメラに対して視線が向いていない、
これらの2つの状態のいずれにあるかを判別する。1つの顔画像について、この視線判別処理が終了すると、ステップS101に戻り次の顔画像の処理に移行する。ステップS102において未処理画像がないと判断されると処理が終了する。
本発明の情報処理装置では、図2に示す情報処理装置の視線判別部104の処理として、画像に含まれる人や動物などの顔の目の視線方向が、
(a)ポジティブ状態(Positive):カメラに対して視線が向いている、
(b)ネガティブ状態(Negative):カメラに対して視線が向いていない、
これらの2つの状態のいずれにあるかを判別するというきわめて明確な2状態判別処理であり、この2状態判別処理を、特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを利用して学習データとして取得された視線判別辞書123を用いて実行する構成であり、より多くの学習データから生成された辞書を適用することで正確な視線判別が可能となる。また、視線判別辞書を視線判別対象によって使い分けることで、より正確な判別が実現される。例えば、人の視線判別を実行する場合は、人用の辞書を、猫なら猫用の辞書を、犬なら犬用の辞書といったような辞書の使い分けである。
次に、図2に示す情報処理装置を利用した具体的なデータ処理アプリケーションの複数の例について、図6以下を参照して説明する。以下説明する処理は、以下の(a)〜(d)の4つの処理である。
(a)画像音声認識システムにおける利用例
(b)撮像装置における利用例A
(c)画像データ管理システムにおける利用例
(d)撮像装置における利用例B
これらの処理は、(a)(d)は例えばPC等の情報処理装置において実行され、(b),(d)はスチルカメラやビデオカメラなどの撮像装置において実行される。以下、これらの処理シーケンスについて説明する。
(a)画像音声認識システムにおける利用例
まず、上述した視線判別処理を画像音声認識システムに応用した利用例について図6に示すフローチャートを参照して説明する。図6に示すフローは、例えばPCなどの情報処理装置において実行される。図6に示す処理シーケンスおよび先に図5を参照して説明した視線判別処理を実行するプログラムが情報処理装置の記憶部に格納され、CPU等によって構成される制御部において図6に示す処理シーケンスおよび先に図5を参照して説明した視線判別処理が実行される。
図6に示す処理を実行する情報処理装置は、音声認識処理を実行する音声認識部を有し、視線判別結果と、音声認識部における音声認識結果を統合して、発話者の解析を実行する構成を有する。図6のフローにおける各ステップの処理について説明する。
図6のフローのステップS201において、画像と音声情報が入力される。画像はカメラを介して情報処理装置に入力され、音声はマイクを介して情報処理装置に入力される。
ステップS202では、入力画像に対する視線判別処理が実行される。図2に示す処理構成を適用した処理、具体的には、図5に示すフローチャートに従って視線判別処理が実行される。この視線判別処理の結果は、入力画像に含まれる顔の視線が、
(a)ポジティブ状態(Positive):カメラに対して視線が向いている、
(b)ネガティブ状態(Negative):カメラに対して視線が向いていない、
これらの2つの状態のいずれにあるかの判別結果である。
この画像に基づく視線判別処理に併せてステップS203において、入力音声情報に基づく音声認識処理が実行される。この音声認識処理は、既存の音声認識技術を適用したものでよい。
ステップS204では、画像に基づく視線判別結果と、音声に基づく音声認識結果を利用したフィルタリング処理を実行する。具体的には、例えば、音声認識結果の言葉を発した人物を特定する場合に、画像に基づく視線判別結果を用いてカメラ方向を見ている人物を発話者として特定する処理などを実行する。
ステップS205では、視線判別結果と、音声に基づく音声認識結果を利用したフィルタリング処理結果に基づいて、次のアクションを決定して決定アクションを実行する。例えばその発話者に対してカメラをズームアップするなどの処理を実行する。あるいは発話記録に際して、発話者の識別情報をメタデータとして記録するといっち処理を行うことができる。
一般的に音声認識処理は認識誤りが多く、例えば周りで騒いでいる人がいたり、様々な騒音が存在するとユーザが何も発話していなくても勝手に音声認識してしまい、コマンド(例えばカメラ制御やデータ記録などのコマンド)が入力されてしまうことが多く、対話システムの大きな問題となっている。音声認識に併せて、上述の視線判別処理を実行して視線がカメラを向いている場合にのみコマンドを受け付けるシステムにすると、システムは、余分な間違ったコマンドの実行を排除でき、確実な処理が実行できる。特にパーティやライブ会場などうるさい場所では、聞き間違えないように視線を合わせて喋ることが自然であり、対話システムにおいてユーザがコマンドを話すときにカメラと擬似的に「目を合わせる」ことも自然な動作なのでユーザに苦痛を与えることなく、自然な処理が可能となる。
(b)撮像装置における利用例A
次に、上述した視線判別処理を撮像装置において利用した処理例について図7に示すフローチャートを参照して説明する。図7に示すフローは、例えばデジタルスチルカメラなどの撮像装置において実行される。図7に示す処理シーケンスおよび先に図5を参照して説明した視線判別処理を実行するプログラムが撮像装置の記憶部に格納され、CPU等によって構成される制御部において図7に示す処理シーケンスおよび先に図5を参照して説明した視線判別処理が実行される。
図7に示すフローに従った処理を実行する情報処理装置は撮像装置であり、視線判別部における視線判別結果を入力して撮像装置のシャッター制御を実行するシャッター制御部を有する。シャッター制御部は、撮像装置の取得画像に含まれる顔の視線中に、視線がカメラ方向を向いていないネガティブ状態の顔画像が含まれる場合に、シャッター操作を不可とする制御を行う。図7のフローの各ステップの処理について説明する。
図7のフローのステップS221において、画像が入力される。画像はカメラの撮像部から入力される。ステップS222では、入力画像に対する視線判別処理が実行される。図2に示す処理構成を適用した処理、具体的には、図5に示すフローチャートに従って視線判別処理が実行される。この視線判別処理の結果は、入力画像に含まれる顔の視線が、
(a)ポジティブ状態(Positive):カメラに対して視線が向いている、
(b)ネガティブ状態(Negative):カメラに対して視線が向いていない、
これらの2つの状態のいずれにあるかの判別結果である。
ステップS223では、ステップS222で取得した視線判別結果に基づくシャッター制御処理が実行される。例えば、画像に含まれる顔の視線がカメラ方向を向いている場合(ポジティブ状態)は、シャッター操作を可能とし、画像に含まれる顔の視線がカメラ方向を向いていない場合(ネガティブ状態)は、シャッター操作を不可能な設定とするなどの制御を行う。この制御により、撮影者は、シャッター操作の可否により、被写体の視線状態を判別でき、カメラを見ていない顔を誤って撮影してしまうことを防止できる。
画像に含まれる顔の視線がカメラ方向を向いている場合(ポジティブ状態)は、シャッター操作が可能となり、ステップS224で撮影処理が実行され、ステップs225において撮影画像データが記憶部に格納される。
赤ちゃんなど、写真を撮りたくてもなかなかカメラを見てくれない人やペットを撮影するときに、片手で対象の人の気を惹きながら、片手はシャッタースイッチに置いておき、シャッターチャンスを逃さないように待つという撮り方を強いられることが多いが、片手では気を惹くのは難しいことが多く、タイマー機能を使って両手を自由にして撮影するといったことがあるが、赤ちゃんやペットのシャッターチャンスは短く、タイマーではシャッターチャンスを逸してしまうことが多かった。しかし、上述した視線判別を行うことで被写体がこっちをみている「いい顔」を確認して写真をとることができるようになる。
(c)画像データ管理システムにおける利用例
次に、上述した視線判別処理を画像データ管理システムに応用した利用例について図8に示すフローチャートを参照して説明する。図8に示すフローは、例えばPCなどの情報処理装置において実行される。図8に示す処理シーケンスおよび先に図5を参照して説明した視線判別処理を実行するプログラムが情報処理装置の記憶部に格納され、CPU等によって構成される制御部において図8に示す処理シーケンスおよび先に図5を参照して説明した視線判別処理が実行される。
図8に示すフローに従った処理を実行する情報処理装置は、視線判別部において判別された複数の画像フレームに対応する視線判別結果を入力して、画像データの選別処理を行うフレーム選別部を有する。フレーム選別部は、ポジティブ状態とネガティブ状態の各状態情報を適用して画像フレームの選別を行う。図8に示すフローの各ステップの処理について説明する。
図8のフローのステップS241において、動画像が入力される。動画像は、例えば情報処理装置の記憶部に記憶された動画像データである。
ステップS242では、入力された動画像を構成する各フレーム画像に対する視線判別処理が実行される。図2に示す処理構成を適用した処理、具体的には、図5に示すフローチャートに従って視線判別処理が実行される。この視線判別処理の結果は、入力画像に含まれる顔の視線が、
(a)ポジティブ状態(Positive):カメラに対して視線が向いている、
(b)ネガティブ状態(Negative):カメラに対して視線が向いていない、
これらの2つの状態のいずれにあるかの判別結果が各画像フレームに対応する情報として取得される。
ステップS243では、各画像フレームに対応する視線判別結果を適用した画像フレームの選別処理を実行する。例えば。画像フレームを、
(a)ポジティブ状態(Positive)の顔画像を含むフレーム、
(b)ネガティブ状態(Negative)の顔画像のみのフレーム、
(c)顔画像を含まないフレーム、
上記(a)〜(c)のフレームに分類する処理などが実行される。
ステップS244では、ステップS243において分類したフレームをインデックス、例えばサムネイル画像の表示用画像フレームとして設定し、ステップS245においてインデックス情報(サムネイル画像)の表示や分類情報に基づくデータの分類記憶処理などが行われる。
例えば、多くの動画編集ソフトウェアには各シーンに対応するサムネイル画像を表示して編集を楽にするという機能が存在する。サムネイルの作り方としては、区切られたシーンの最初のフレームを使うものや、一定フレーム間隔でいくつかのフレームを取り出し横につなげて作成するものが存在する。しかし、シーンの最初や一定間隔で切り出した画像をサムネイルとするだけではシーンの内容が分かりづらくサムネイルの意味をなさないことがある。このような場合、上述した視線判別結果を利用して、写っている人やペットがカメラ方向を見ている画像を選択してカメラ視線の「いい顔のフレーム」をインデックス画像として抜き出すことができ、分かりやすいインデックス抽出が実現され、動画編集の効率を向上することができる。
(d)撮像装置における利用例B
次に、上述した視線判別処理を撮像装置において利用した処理例について図9に示すフローチャートを参照して説明する。図9に示すフローは、例えばデジタルスチルカメラなどの撮像装置において実行される。図9に示す処理シーケンスおよび先に図5を参照して説明した視線判別処理を実行するプログラムが撮像装置の記憶部に格納され、CPU等によって構成される制御部において図9に示す処理シーケンスおよび先に図5を参照して説明した視線判別処理が実行される。
図9に示すフローに従った処理を実行する情報処理装置は撮像装置であり、視線判別部における視線判別結果を入力して警告出力を実行する警告出力部を有する。警告出力部は、撮像装置の取得画像に含まれる顔の視線中に、視線がカメラ方向を向いていないネガティブ状態の顔画像が含まれる場合に、警告出力を行う。図9に示すフローの各ステップの処理について説明する。
図9のフローのステップS261において、画像が入力される。画像はカメラの撮像部から入力される。ステップS262では、入力画像に対する視線判別処理が実行される。図2に示す処理構成を適用した処理、具体的には、図5に示すフローチャートに従って視線判別処理が実行される。この視線判別処理の結果は、入力画像に含まれる顔の視線が、
(a)ポジティブ状態(Positive):カメラに対して視線が向いている、
(b)ネガティブ状態(Negative):カメラに対して視線が向いていない、
これらの2つの状態のいずれにあるかの判別結果である。
ステップS263では、ステップS262で取得した視線判別結果に基づいて、入力画像に含まれる人物などの顔の視線の全てがカメラ方向を向いているかを判別する処理を実行する。入力画像に含まれる人物などの顔の視線の全てがカメラ方向を向いている場合、ステップS264の判定がYesとなり、処理が終了し、次の操作、例えば撮影処理が実行される。
一方、入力画像に含まれる人物などの顔の視線の全てがカメラ方向を向いていない場合、ステップS264の判定がNoとなり、ステップS265に進み、警告の出力が行われる。例えば警告音の出力、警告メッセージの表示処理が行われる。この警告により、撮影者は、撮影処理の前に被写体の視線状態を判別でき、カメラを見ていない顔を誤って撮影してしまうことを防止できる。
例えば、大切な行事での集合写真を撮ったあとその場で失敗していないかどうか確認したいことがあるが、図9に示すフローに従って視線方向判別結果を利用した処理を行うことで、カメラを見ていない顔を誤って撮影してしまうことを防止できる。集合写真では左右の端にいる人は横向き顔になることが多く、顔方向検出だけでは不十分である。知りたいのは全員が「カメラ視線であるかどうか」である。本発明の情報処理装置では、顔の向きに基づいて視線判別を行うものではなく、学習データに基づいて入力画像に含まれる顔の視線が、
(a)ポジティブ状態(Positive):カメラに対して視線が向いている、
(b)ネガティブ状態(Negative):カメラに対して視線が向いていない、
これらの2つの状態のいずれにあるかの判別を行うものであり、カメラの取得画像に基づいて、上記の視線判別処理を行い、モニタなどに警告アイコンなどを表示することができるようになる。また、多くの顔がモニタに表示されている場合、ネガティブ状態(Negative)、すなわち、カメラに対して視線が向いていない人物のみを特定した識別情報を各顔に対応付けて表示するといった処理も可能となる。
次に、上述の視線判別処理を利用したデータ検索装置の構成例について、図10を参照して説明する。図10には、(a),(b)の検索処理装置構成例を示している。
図10(a)は、写真などの多数の画像データを格納したデータベース313から、検索条件にあった画像を検索する装置である。なお、この検索装置は、例えばPCなどの情報処理装置によって実現可能である。図10(a)に示す入力部311、検索部312、データベース313、視線検出部314、表示部315は、PC等の情報処理装置の機能を用いて実現可能である。視線検出部314は、先に図2を参照して説明した処理構成であり、図5を参照して説明した視線判別処理を実行する。検索部312のデータ検索処理、視線検出部314の視線検出処理を実行するプログラムが情報処理装置の記憶部に格納され、CPU等によって構成される制御部において実行される。
入力部311は、例えば、データベース313に格納された多数の画像データから、ある期間の撮影画像であり人の顔が含まれ、かつその人の顔の視線がカメラ方向を見ている画像のみを選択する検索クエリを入力する。
検索部312は、まず、例えば検索クエリに設定された期間情報に基づいてデータベース313からその期間の画像データを検索する。検索画像は、視線検出部314に渡され、検索結果画像に対する視線判別処理が実行される。すなわち図2に示す処理構成を適用した処理、具体的には、図5に示すフローチャートに従って視線判別処理が実行される。検索結果画像に含まれる顔の視線が、
(a)ポジティブ状態(Positive):カメラに対して視線が向いている、
(b)ネガティブ状態(Negative):カメラに対して視線が向いていない、
これらの2つの状態のいずれにあるかの判別結果を生成し、判別結果情報を表示部315に出力する。表示部315は、ポジティブ状態(Positive)の顔の含まれる画像、すなわち、カメラに対して視線が向いている画像のみを選択して表示するといった処理を行う。
図10(b)は、図10(a)と同様、写真などの多数の画像データを格納したデータベース323から、検索条件にあった画像を検索する装置であるが、この装置は、データベース323に対する画像データの格納時に、画像データの視線判別を実行して、視線判別結果を画像データの対応メタ情報としてデータベース323に格納する設定としている。
入力部321からデータベース323に格納する画像データが入力されると、視線検出部322が画像に対する視線判別処理を実行する。すなわち図2に示す処理構成を適用した処理、具体的には、図5に示すフローチャートに従って視線判別処理が実行される。検索結果画像に含まれる顔の視線が、
(a)ポジティブ状態(Positive):カメラに対して視線が向いている、
(b)ネガティブ状態(Negative):カメラに対して視線が向いていない、
これらの2つの状態のいずれにあるかの判別結果を生成し、判別結果情報を画像対応のメタ情報として設定して画像データとともにデータベース323に格納する。
検索処理に際しては、検索クエリが入力部324から入力される。例えば、データベース323に格納された多数の画像データから、ある期間の撮影画像であり人の顔が含まれ、かつその人の顔の視線がカメラ方向を見ている画像のみを選択する検索クエリを入力する。検索部312は、データベース323に格納画像に設定されたメタデータとしての期間情報や視線判別情報を利用してデータ検索を実行し、検索クエリに一致するデータを取得して表示部326に表示する。例えば、表示部326には、ポジティブ状態(Positive)の顔の含まれる画像、すなわち、カメラに対して視線が向いている画像のみが表示される。
図11は、上述の視線判別処理機能を持つ動画データ管理装置の構成および処理例について説明する図である。図―11に示す装置は例えばビデオカメラによって構成される。図11(a)は、動画像データを記憶部413に格納する処理を行う際に、画像データの視線判別を実行して、視線判別結果を画像ファイルと別の独立したファイルとして記録する。
入力部411から例えば撮影動画像データが入力される。視線検出部412は、動画像の構成フレーム各々に対する視線判別処理を実行する。すなわち図2に示す処理構成を適用した処理、具体的には、図5に示すフローチャートに従って視線判別処理が実行される。検索結果画像に含まれる顔の視線が、
(a)ポジティブ状態(Positive):カメラに対して視線が向いている、
(b)ネガティブ状態(Negative):カメラに対して視線が向いていない、
これらの2つの状態のいずれにあるかの判別結果を生成する。
記憶部413には、動画像データファイルと、視線検出部412の視線検出結果情報、すなわち各フレーム画像に含まれる顔画像に対応する視線判別結果情報を記録した視線情報ファイルが記録される。
図11(b)は、動画像データを記憶部424に格納する処理を行う際に、画像データの視線判別を実行して、視線判別結果を画像データのメタデータとして記録する。
入力部421から例えば撮影動画像データが入力される。視線検出部422は、動画像の構成フレーム各々に対する視線判別処理を実行する。すなわち図2に示す処理構成を適用した処理、具体的には、図5に示すフローチャートに従って視線判別処理が実行される。検索結果画像に含まれる顔の視線が、
(a)ポジティブ状態(Positive):カメラに対して視線が向いている、
(b)ネガティブ状態(Negative):カメラに対して視線が向いていない、
これらの2つの状態のいずれにあるかの判別結果を生成する。
ファイル作成部は、動画像データのメタデータとして、各画像フレームに含まれる顔の視線が、
(a)ポジティブ状態(Positive):カメラに対して視線が向いている、
(b)ネガティブ状態(Negative):カメラに対して視線が向いていない、
これらの2つの状態のいずれにあるかの判別結果を設定したファイルを生成し、生成したメタデータ付与動画像ファイルが記憶部424に記録される。
最後に、本発明の情報処理装置の一例としての撮像装置のハードウェア構成例とPCのハードウェア構成例について図12、図13を参照して説明する。図12は、本発明の情報処理装置の一例としての撮像装置のハードウェア構成例である。
撮像装置500は、レンズ、CCD(Charge Coupled Device)などの撮像部501において取得した撮影信号をアナログ信号処理部502に入力し、アナログ信号処理部502においてノイズ除去等の処理を行い、A/D変換部503においてデジタル信号に変換される。デジタル変換されたデータは、デジタル信号処理部504において、データ圧縮などのデジタル信号処理がなされた後、例えばフラッシュメモリなどによって構成される記録デバイス515に記録される。さらに、モニタ517、ビューファインダ(EVF)516に表示される。
操作部511は、カメラ本体にあるシャッター等の他、記録デバイス515に記録されたデータの再生指定スイッチ、早送り再生や巻き戻し再生などの処理開始を行うためのスイッチ類が含まれる。
制御部510は、CPUを有し、撮像装置の実行する各種の処理の制御を予めメモリ(ROM)520などに格納されたプログラムに従って実行する。メモリ(EEPROM)512は不揮発性メモリであり、画像データ、各種の補助情報、プログラムなどが格納される。メモリ(ROM)520は、制御部(CPU)510が使用するプログラムや演算パラメータ等を格納する。メモリ(RAM)521は、制御部(CPU)510において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。
視線検出部505は、顔検出、目鼻口検出、視線判別処理などを実行する。例えば、先に図5を参照して説明した画像から顔領域検出および視線検出を行い、検出結果をデジタル信号処理部504に入力する。デジタル信号処理部504は、例えば検出結果メタデータとして設定して記録デバイス515に記録する処理などを実行する。
図13は、本発明の情報処理装置の一例としてのパーソナルコンピュータのハードウェア構成例である。CPU(Central Processing Unit)701は、ROM(Read Only Memory)702、または記憶部708に記憶されているプログラムに従って各種の処理を実行する。例えば、上述の実施例において説明した顔検出、目鼻口検出、視線判別処理などの処理プログラムを実行する。RAM(Random Access Memory)703には、CPU701が実行するプログラムやデータなどが適宜記憶される。これらのCPU301、ROM702、およびRAM703は、バス704により相互に接続されている。
CPU701はバス704を介して入出力インタフェース705に接続され、入出力インタフェース705には、キーボード、マウス、マイクロホンなどよりなる入力部706、ディスプレイ、スピーカなどよりなる出力部707が接続されている。CPU701は、入力部706から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部707に出力する。
入出力インタフェース705に接続されている記憶部708は、例えばハードディスクからなり、CPU701が実行するプログラムや各種のデータを記憶する。通信部709は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。
入出力インタフェース705に接続されているドライブ710は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア711を駆動し、記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部708に転送され記憶される。
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本発明の一実施例の構成では、画像に含まれる顔領域、目鼻口などの顔構成部位を検出し、さらに、視線判別部が目鼻口の検出された顔画像の視線判別処理を実行する。視線判別処理は、(a)視線がカメラ方向を向いているポジティブ状態、(b)視線がカメラ方向を向いていないネガティブ状態、上記(a),(b)の2状態のいずれであるかを、(a),(b)各状態に対応する分類データからなる学習データを格納した視線判別辞書を利用して行う。具体的には、画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを適用して視線判別処理を行う。本構成によれば、視線がカメラ方向を向いているかいないかの2つの状態判別という明確な区分による視線判別であり、判別処理の精度が高く、また判別結果の利用価値も高い構成が実現される。
本発明に係る情報処理装置の実行する処理の概要について説明する図である。 本発明の一実施例の情報処理装置の構成および処理について説明する図である。 本発明の一実施例の情報処理装置において適用可能なマスク設定例について説明する図である。 本発明の一実施例の情報処理装置において実行する視線判別結果の評価データについて説明する図である。 本発明の一実施例の情報処理装置において実行する視線判別処理のシーケンスを説明するフローチャートを示す図である。 本発明の視線判別処理を画像音声認識システムに応用した処理シーケンスを説明するフローチャートを示す図である。 本発明の視線判別処理を撮像装置に応用した処理シーケンスを説明するフローチャートを示す図である。 本発明の視線判別処理を画像データ管理システムに応用した処理シーケンスを説明するフローチャートを示す図である。 本発明の視線判別処理を撮像装置に応用した処理シーケンスを説明するフローチャートを示す図である。 本発明の視線判別処理をデータ検索装置に応用した場合の構成および処理について説明する図である。 本発明の視線判別処理を動画データ管理装に応用した場合の構成および処理について説明する図である。 本発明の情報処理装置の一構成例としての撮像装置のハードウェア構成例について説明する図である。 本発明の情報処理装置の一構成例としてのPCのハードウェア構成例について説明する図である。
符号の説明
100 情報処理装置
101 顔検出部
102 目鼻口検出部
103 画像処理部
104 視線判別部
111 回転補正処理部
112 顔サイズ正規化処理部
113 顔領域切り出し部
121 顔検出辞書
122 目鼻口検出辞書
123 視線判別辞書
311 入力部
312 検索部
313 データベース
314 視線検出部
315 表示部
321 入力部
322 視線検出部
323 データベース
324 入力部
325 検索部
326 表示部
411 入力部
412 視線検出部
413 記憶部
421 入力部
422 視線検出部
423 ファイル作成部
424 記憶部
500 撮像装置
501 撮像部
502 アナログ信号処理部
503 A/D変換部
504 デジタル信号処理部
505 視線検出部
510 制御部
511 操作部
512 メモリ
515 記録デバイス
516 ビューファインダ
517 モニタ
520 メモリ(ROM)
521 メモリ(RAM)
701 CPU
702 ROM
703 RAM
704 バス
705 入出力インタフェース
706 入力部
707 出力部
708 記憶部
709 通信部
710 ドライブ
711 リムーバブルメディア

Claims (25)

  1. 画像データに含まれる顔領域を検出する顔検出部と、
    前記顔検出部の検出した顔領域から顔構成部位を検出する顔構成部位検出部と、
    前記顔構成部位検出部において顔構成部位の検出された顔画像の視線判別処理を実行する視線判別部を有し、
    前記視線判別部は、
    顔構成部位の検出された顔画像データの視線について、
    (a)視線がカメラ方向を向いているポジティブ状態、
    (b)視線がカメラ方向を向いていないネガティブ状態、
    上記(a),(b)の2状態のいずれであるかを判別する処理を、上記(a),(b)各状態に対応する分類データからなる学習データを格納した視線判別辞書と入力顔画像データとの照合処理によって実行する構成であることを特徴とする情報処理装置。
  2. 前記顔構成部位検出部は、
    前記顔検出部の検出した顔領域から目鼻口を検出する構成であり、
    前記視線判別部は、
    目鼻口の検出された顔画像データの視線判別処理を実行する構成であることを特徴とする請求項1に記載の情報処理装置。
  3. 前記視線判別部は、
    画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを利用した処理によって視線判別処理を実行する構成であることを特徴とする請求項1に記載の情報処理装置。
  4. 前記情報処理装置は、
    前記顔構成部位検出部において顔構成部位の検出された顔画像の回転処理、サイズ正規化処理、顔領域切り出し処理を実行する画像処理部を有し、
    前記視線判別部は、
    前記画像処理部における処理画像を入力して視線判別処理を実行する構成であることを特徴とする請求項1に記載の情報処理装置。
  5. 前記顔検出部は、
    画像データに含まれる顔領域検出処理を、様々な顔領域画像情報を格納した顔検出辞書を参照して、画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを利用して実行する構成であることを特徴とする請求項1に記載の情報処理装置。
  6. 前記顔構成部位検出部は、
    前記顔検出部の検出した顔領域からの顔構成部位検出処理を、様々な顔構成部位画像情報を格納した顔構成部位検出辞書を参照して、画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを利用して実行する構成であることを特徴とする請求項1に記載の情報処理装置。
  7. 前記情報処理装置は、
    音声認識処理を実行する音声認識部を有し、
    前記視線判別部における視線判別結果と、前記音声認識部における音声認識結果を統合して、発話者の解析を実行する構成であることを特徴とする請求項1に記載の情報処理装置。
  8. 前記情報処理装置は撮像装置であり、
    前記視線判別部における視線判別結果を入力して撮像装置のシャッター制御を実行するシャッター制御部を有し、
    前記シャッター制御部は、
    撮像装置の取得画像に含まれる顔の視線中に、視線がカメラ方向を向いていないネガティブ状態の顔画像が含まれる場合に、シャッター操作を不可とする制御を行う構成であることを特徴とする請求項1に記載の情報処理装置。
  9. 前記情報処理装置は、さらに、
    前記視線判別部において判別された複数の画像フレームに対応する視線判別結果を入力して、画像データの選別処理を行うフレーム選別部を有し、
    前記フレーム選別部は、
    ポジティブ状態とネガティブ状態の各状態情報を適用して画像フレームの選別を行う構成であることを特徴とする請求項1に記載の情報処理装置。
  10. 前記情報処理装置は撮像装置であり、
    前記視線判別部における視線判別結果を入力して警告出力を実行する警告出力部を有し、
    前記警告出力部は、
    撮像装置の取得画像に含まれる顔の視線中に、視線がカメラ方向を向いていないネガティブ状態の顔画像が含まれる場合に、警告出力を行う構成であることを特徴とする請求項1に記載の情報処理装置。
  11. 前記情報処理装置は、
    前記視線判別部の視線判別結果をデータ検索処理に適用して、
    (a)視線がカメラ方向を向いているポジティブ状態、
    (b)視線がカメラ方向を向いていないネガティブ状態、
    上記(a),(b)の2状態のいずれかの画像を選択抽出する検索処理を実行する構成を有することを特徴とする請求項1に記載の情報処理装置。
  12. 前記情報処理装置は、
    画像データの視線判別処理結果を記憶部に格納する画像データの対応情報として記憶部に格納する処理を行う構成を有することを特徴とする請求項1に記載の情報処理装置。
  13. 情報処理装置において実行する情報処理方法であり、
    顔検出部が、画像データに含まれる顔領域を検出する顔検出ステップと、
    顔構成部位検出部が、前記顔検出ステップにおいて検出した顔領域から顔構成部位を検出する顔構成部位検出ステップと、
    視線判別部が、前記顔構成部位検出ステップにおいて顔構成部位の検出された顔画像の視線判別処理を実行する視線判別ステップを有し、
    前記視線判別ステップは、
    顔構成部位の検出された顔画像データの視線について、
    (a)視線がカメラ方向を向いているポジティブ状態、
    (b)視線がカメラ方向を向いていないネガティブ状態、
    上記(a),(b)の2状態のいずれであるかを判別する処理を、上記(a),(b)各状態に対応する分類データからなる学習データを格納した視線判別辞書と入力顔画像データとの照合処理によって実行するステップであることを特徴とする情報処理方法。
  14. 前記顔構成部位検出ステップは、
    前記顔検出ステップにおいて検出された顔領域から目鼻口を検出するステップであり、
    前記視線判別ステップは、
    目鼻口の検出された顔画像データの視線判別処理を実行するステップであることを特徴とする請求項13に記載の情報処理方法。
  15. 前記視線判別ステップは、
    画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを利用した処理によって視線判別処理を実行するステップであることを特徴とする請求項13に記載の情報処理方法。
  16. 前記情報処理方法は、さらに、
    画像処理部が、前記顔構成部位検出部において顔構成部位の検出された顔画像の回転処理、サイズ正規化処理、顔領域切り出し処理を実行する画像処理ステップを有し、
    前記視線判別ステップは、
    前記画像処理ステップにおいて処理された画像を入力して視線判別処理を実行するステップであることを特徴とする請求項13に記載の情報処理方法。
  17. 前記顔検出ステップは、
    画像データに含まれる顔領域検出処理を、様々な顔領域画像情報を格納した顔検出辞書を参照して、画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを利用して実行するステップであることを特徴とする請求項13に記載の情報処理方法。
  18. 前記顔構成部位検出ステップは、
    前記顔検出ステップにおいて検出された顔領域からの顔構成部位検出処理を、様々な顔構成部位画像情報を格納した顔構成部位検出辞書を参照して、画像の特定位置の画素ペアの差分値を比較照合データとして利用するPixDifアルゴリズムを利用して実行するステップであることを特徴とする請求項13に記載の情報処理方法。
  19. 前記情報処理方法は、さらに、
    音声認識部が、音声認識処理を実行する音声認識ステップと、
    データ処理部が、視線判別結果と、前記音声認識部における音声認識結果を統合して、発話者の解析を実行するステップを有することを特徴とする請求項13に記載の情報処理方法。
  20. 前記情報処理装置は撮像装置であり、
    前記情報処理方法は、さらに、
    シャッター制御部が、前記視線判別ステップにおける視線判別結果を入力して撮像装置のシャッター制御を実行するシャッター制御ステップを有し、
    前記シャッター制御ステップは、
    撮像装置の取得画像に含まれる顔の視線中に、視線がカメラ方向を向いていないネガティブ状態の顔画像が含まれる場合に、シャッター操作を不可とする制御を行うステップであることを特徴とする請求項13に記載の情報処理方法。
  21. 前記情報処理方法は、さらに、
    フレーム選別部が、前記視線判別ステップにおいて判別された複数の画像フレームに対応する視線判別結果を入力して、画像データの選別処理を行うフレーム選別ステップを有し、
    前記フレーム選別ステップは、
    ポジティブ状態とネガティブ状態の各状態情報を適用して画像フレームの選別を行うステップであることを特徴とする請求項13に記載の情報処理方法。
  22. 前記情報処理装置は撮像装置であり、
    前記情報処理方法は、さらに、
    警告出力部が、前記視線判別ステップにおける視線判別結果を入力して警告出力を実行する警告出力ステップを有し、
    前記警告出力ステップは、
    撮像装置の取得画像に含まれる顔の視線中に、視線がカメラ方向を向いていないネガティブ状態の顔画像が含まれる場合に、警告出力を行うステップであることを特徴とする請求項13に記載の情報処理方法。
  23. 前記情報処理方法は、さらに、
    検索部が、前記視線判別部の視線判別結果をデータ検索処理に適用して、
    (a)視線がカメラ方向を向いているポジティブ状態、
    (b)視線がカメラ方向を向いていないネガティブ状態、
    上記(a),(b)の2状態のいずれかの画像を選択抽出する検索処理を実行するステップを有することを特徴とする請求項13に記載の情報処理方法。
  24. 前記情報処理方法は、さらに、
    データ処理部が、画像データの視線判別処理結果を記憶部に格納する画像データの対応情報として記憶部に格納する処理を行うステップを有することを特徴とする請求項13に記載の情報処理方法。
  25. 情報処理装置において情報処理を実行させるコンピュータ・プログラムであり、
    顔検出部に、画像データに含まれる顔領域を検出させる顔検出ステップと、
    顔構成部位検出部に、前記顔検出ステップにおいて検出した顔領域から顔構成部位を検出させる顔構成部位検出ステップと、
    視線判別部に、前記顔構成部位検出ステップにおいて顔構成部位の検出された顔画像の視線判別処理を実行させる視線判別ステップを有し、
    前記視線判別ステップは、
    顔構成部位の検出された顔画像データの視線について、
    (a)視線がカメラ方向を向いているポジティブ状態、
    (b)視線がカメラ方向を向いていないネガティブ状態、
    上記(a),(b)の2状態のいずれであるかを判別する処理を、上記(a),(b)各状態に対応する分類データからなる学習データを格納した視線判別辞書と入力顔画像データとの照合処理によって実行させるステップであることを特徴とするコンピュータ・プログラム。
JP2007227262A 2007-09-03 2007-09-03 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム Pending JP2009059257A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2007227262A JP2009059257A (ja) 2007-09-03 2007-09-03 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
EP08162818A EP2031545A2 (en) 2007-09-03 2008-08-22 Information processing apparatus, information processing method, and computer program
US12/197,408 US8295556B2 (en) 2007-09-03 2008-08-25 Apparatus and method for determining line-of-sight direction in a face image and controlling camera operations therefrom
CN2008102139672A CN101383000B (zh) 2007-09-03 2008-09-01 信息处理装置和信息处理方法
KR1020080086317A KR20090024086A (ko) 2007-09-03 2008-09-02 정보 처리 장치, 정보 처리 방법, 및 컴퓨터 프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007227262A JP2009059257A (ja) 2007-09-03 2007-09-03 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Publications (2)

Publication Number Publication Date
JP2009059257A true JP2009059257A (ja) 2009-03-19
JP2009059257A5 JP2009059257A5 (ja) 2010-04-15

Family

ID=40177981

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007227262A Pending JP2009059257A (ja) 2007-09-03 2007-09-03 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Country Status (5)

Country Link
US (1) US8295556B2 (ja)
EP (1) EP2031545A2 (ja)
JP (1) JP2009059257A (ja)
KR (1) KR20090024086A (ja)
CN (1) CN101383000B (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012226665A (ja) * 2011-04-21 2012-11-15 Canon Inc 情報処理装置、その処理方法、プログラム及び撮像装置
JP2012242609A (ja) * 2011-05-19 2012-12-10 Mitsubishi Heavy Ind Ltd 音声認識装置、ロボット、及び音声認識方法
KR101245330B1 (ko) 2011-12-20 2013-03-25 경희대학교 산학협력단 개인용 컴퓨터 기반 시야 자가진단 시스템 및 시선 고정방법
EP2782047A2 (en) 2013-03-22 2014-09-24 Canon Kabushiki Kaisha Line-of-sight detection apparatus and image capturing apparatus
JP2016100800A (ja) * 2014-11-25 2016-05-30 カシオ計算機株式会社 撮影装置、撮影方法及びプログラム
WO2020065790A1 (ja) 2018-09-26 2020-04-02 日本電気株式会社 推定装置、推定方法、および記憶媒体
US11232584B2 (en) 2016-10-31 2022-01-25 Nec Corporation Line-of-sight estimation device, line-of-sight estimation method, and program recording medium

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5662670B2 (ja) * 2009-10-27 2015-02-04 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP5634111B2 (ja) * 2010-04-28 2014-12-03 キヤノン株式会社 映像編集装置、映像編集方法及びプログラム
JP5618686B2 (ja) * 2010-08-03 2014-11-05 キヤノン株式会社 視線検出装置、視線検出方法及びプログラム
US9507416B2 (en) * 2011-02-22 2016-11-29 Robert Howard Kimball Providing a corrected view based on the position of a user with respect to a mobile platform
JP2013092911A (ja) * 2011-10-26 2013-05-16 Sony Corp 情報処理装置、情報処理方法、および、プログラム
US20130273969A1 (en) * 2011-12-01 2013-10-17 Finding Rover, Inc. Mobile app that generates a dog sound to capture data for a lost pet identifying system
US10559380B2 (en) 2011-12-30 2020-02-11 Elwha Llc Evidence-based healthcare information management protocols
US10340034B2 (en) 2011-12-30 2019-07-02 Elwha Llc Evidence-based healthcare information management protocols
US10402927B2 (en) 2011-12-30 2019-09-03 Elwha Llc Evidence-based healthcare information management protocols
US10528913B2 (en) 2011-12-30 2020-01-07 Elwha Llc Evidence-based healthcare information management protocols
US10475142B2 (en) 2011-12-30 2019-11-12 Elwha Llc Evidence-based healthcare information management protocols
US10679309B2 (en) 2011-12-30 2020-06-09 Elwha Llc Evidence-based healthcare information management protocols
US10552581B2 (en) 2011-12-30 2020-02-04 Elwha Llc Evidence-based healthcare information management protocols
US9148537B1 (en) * 2012-05-18 2015-09-29 hopTo Inc. Facial cues as commands
US9395826B1 (en) 2012-05-25 2016-07-19 hopTo Inc. System for and method of translating motion-based user input between a client device and an application host computer
US8995772B2 (en) * 2012-11-09 2015-03-31 Microsoft Technology Licensing, Llc Real-time face detection using pixel pairs
WO2015072604A1 (ko) * 2013-11-15 2015-05-21 엘지전자(주) 투명 디스플레이 장치와 그의 제어방법
JP2015142317A (ja) * 2014-01-30 2015-08-03 シャープ株式会社 電子機器
JP6573193B2 (ja) * 2015-07-03 2019-09-11 パナソニックIpマネジメント株式会社 判定装置、判定方法、および判定プログラム
US10671837B2 (en) * 2015-09-08 2020-06-02 Nec Corporation Face recognition system, face recognition method, display control apparatus, display control method, and display control program
JP6872742B2 (ja) * 2016-06-30 2021-05-19 学校法人明治大学 顔画像処理システム、顔画像処理方法及び顔画像処理プログラム
CN105930834B (zh) * 2016-07-01 2019-04-09 北京邮电大学 基于球哈希二值编码的人脸识别方法及装置
US10740446B2 (en) 2017-08-24 2020-08-11 International Business Machines Corporation Methods and systems for remote sensing device control based on facial information
CN108924483A (zh) * 2018-06-27 2018-11-30 南京朴厚生态科技有限公司 一种基于深度学习技术的野外动物的自动监测系统和方法
CN110458122B (zh) * 2019-08-15 2022-04-22 京东方科技集团股份有限公司 一种视线标校方法、显示装置的播放方法和视线标校系统
CN115269653B (zh) * 2022-07-29 2023-07-04 中汽研汽车检验中心(武汉)有限公司 一种针对安全达标车型检测项目的自动视同判定方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175246A (ja) * 1997-12-12 1999-07-02 Toshiba Corp 視線検出装置及びその方法
JP2006319610A (ja) * 2005-05-12 2006-11-24 Matsushita Electric Ind Co Ltd 撮像装置
JP2007265367A (ja) * 2006-03-30 2007-10-11 Fujifilm Corp 視線検出方法および装置ならびにプログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5640610A (en) * 1992-03-18 1997-06-17 Nikon Corporation Camera with a line-of-sight detecting device
JP3352238B2 (ja) * 1994-07-26 2002-12-03 キヤノン株式会社 視線検出装置及びカメラ
EP0701162B1 (en) * 1994-09-07 2003-11-26 Canon Kabushiki Kaisha A camera having a line-of-sight detecting means
USRE38884E1 (en) * 1995-02-16 2005-11-22 Sumitomo Electric Industries, Ltd. Two-way interactive system, terminal equipment and image pickup apparatus having mechanism for matching lines of sight between interlocutors through transmission means
WO1997046978A1 (en) * 1996-06-06 1997-12-11 British Telecommunications Public Limited Company Personal identification
JPH11110120A (ja) * 1997-10-07 1999-04-23 Canon Inc 視線情報入力装置及び視線情報入力方法
JP2000259814A (ja) * 1999-03-11 2000-09-22 Toshiba Corp 画像処理装置及びその方法
US7221809B2 (en) * 2001-12-17 2007-05-22 Genex Technologies, Inc. Face recognition system and method
AU2003219926A1 (en) * 2002-02-26 2003-09-09 Canesta, Inc. Method and apparatus for recognizing objects
CN1174337C (zh) * 2002-10-17 2004-11-03 南开大学 识别人眼注视与否的方法和装置及其应用
JP4218348B2 (ja) * 2003-01-17 2009-02-04 オムロン株式会社 撮影装置
US7593550B2 (en) * 2005-01-26 2009-09-22 Honeywell International Inc. Distance iris recognition
JP5093968B2 (ja) * 2003-10-15 2012-12-12 オリンパス株式会社 カメラ
JP4604190B2 (ja) * 2004-02-17 2010-12-22 国立大学法人静岡大学 距離イメージセンサを用いた視線検出装置
JP2005253778A (ja) * 2004-03-12 2005-09-22 Gen Tec:Kk 視線検出方法及び同装置
JP4482796B2 (ja) 2004-03-26 2010-06-16 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
JP4628882B2 (ja) 2005-06-16 2011-02-09 富士フイルム株式会社 判別器の学習方法、顔判別方法および装置並びにプログラム
JP2007011935A (ja) 2005-07-04 2007-01-18 Fujifilm Holdings Corp 顔判別方法および装置並びにプログラム
JP2007094618A (ja) * 2005-09-28 2007-04-12 Omron Corp 通知制御装置および方法、記録媒体、並びに、プログラム。
JP4824420B2 (ja) * 2006-02-07 2011-11-30 アイテック株式会社 視線ベクトル検出方法及び同装置
JP4993918B2 (ja) 2006-02-24 2012-08-08 三菱電線工業株式会社 集合導体及びその製造方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175246A (ja) * 1997-12-12 1999-07-02 Toshiba Corp 視線検出装置及びその方法
JP2006319610A (ja) * 2005-05-12 2006-11-24 Matsushita Electric Ind Co Ltd 撮像装置
JP2007265367A (ja) * 2006-03-30 2007-10-11 Fujifilm Corp 視線検出方法および装置ならびにプログラム

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012226665A (ja) * 2011-04-21 2012-11-15 Canon Inc 情報処理装置、その処理方法、プログラム及び撮像装置
JP2012242609A (ja) * 2011-05-19 2012-12-10 Mitsubishi Heavy Ind Ltd 音声認識装置、ロボット、及び音声認識方法
KR101245330B1 (ko) 2011-12-20 2013-03-25 경희대학교 산학협력단 개인용 컴퓨터 기반 시야 자가진단 시스템 및 시선 고정방법
WO2013094995A1 (ko) * 2011-12-20 2013-06-27 포항공과대학교 산학협력단 개인용 컴퓨터 기반 시야 자가진단 시스템 및 시야 자가진단 방법
US9426375B2 (en) 2013-03-22 2016-08-23 Canon Kabushiki Kaisha Line-of-sight detection apparatus and image capturing apparatus
EP2782047A2 (en) 2013-03-22 2014-09-24 Canon Kabushiki Kaisha Line-of-sight detection apparatus and image capturing apparatus
JP2016100800A (ja) * 2014-11-25 2016-05-30 カシオ計算機株式会社 撮影装置、撮影方法及びプログラム
US11232584B2 (en) 2016-10-31 2022-01-25 Nec Corporation Line-of-sight estimation device, line-of-sight estimation method, and program recording medium
US11232586B2 (en) 2016-10-31 2022-01-25 Nec Corporation Line-of-sight estimation device, line-of-sight estimation method, and program recording medium
US11232585B2 (en) 2016-10-31 2022-01-25 Nec Corporation Line-of-sight estimation device, line-of-sight estimation method, and program recording medium
WO2020065790A1 (ja) 2018-09-26 2020-04-02 日本電気株式会社 推定装置、推定方法、および記憶媒体
US12112570B2 (en) 2018-09-26 2024-10-08 Nec Corporation Direction estimation device, direction estimation method, and storage medium
US12125315B2 (en) 2018-09-26 2024-10-22 Nec Corporation Direction estimation device, direction estimation method, and storage medium
US12217539B2 (en) 2018-09-26 2025-02-04 Nec Corporation Estimation device, estimation method, and storage medium

Also Published As

Publication number Publication date
US20090060291A1 (en) 2009-03-05
CN101383000A (zh) 2009-03-11
EP2031545A2 (en) 2009-03-04
CN101383000B (zh) 2012-08-22
US8295556B2 (en) 2012-10-23
KR20090024086A (ko) 2009-03-06

Similar Documents

Publication Publication Date Title
JP2009059257A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
KR101632819B1 (ko) 무인 이미지 캡쳐를 위한 방법 및 장치
JP4757173B2 (ja) 撮像装置及びその制御方法及びプログラム
US9171230B2 (en) Object detection method, object detection apparatus and image pickup apparatus
US8314854B2 (en) Apparatus and method for image recognition of facial areas in photographic images from a digital camera
KR101180471B1 (ko) 한정된 메모리 환경 하에서 얼굴 인식 성능 향상을 위한 참조 얼굴 데이터베이스 관리 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
US20090174805A1 (en) Digital camera focusing using stored object recognition
WO2019214201A1 (zh) 活体检测方法及装置、系统、电子设备、存储介质
US9159362B2 (en) Method and system for detecting and recognizing social interactions in a video
JP4710979B2 (ja) 対象物検出装置、学習装置、対象物検出方法およびプログラム
US11812132B2 (en) Imaging device, control method therefor, and recording medium
US20120300092A1 (en) Automatically optimizing capture of images of one or more subjects
US11176679B2 (en) Person segmentations for background replacements
CN110557560B (zh) 摄像设备及其控制方法和存储介质
CN102857693A (zh) 图像处理设备及其控制方法和存储介质
CN102054165A (zh) 图像处理装置及图像处理方法
JP5159390B2 (ja) 物体検知方法及びその装置
JP4708835B2 (ja) 顔検出装置、顔検出方法、及び顔検出プログラム
WO2024062971A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
CN118844057A (zh) 记录方法、记录装置及程序
Voit et al. Estimating the lecturer’s head pose in seminar scenarios–a multi-view approach
DeCamp Headlock: Wide-range head pose estimation for low resolution video
Ronzhin Algorithms for automation of meeting participant registration and audiovisual recording in intelligent room

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100302

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110902

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111115