JP2013171494A

JP2013171494A - 画像処理装置および方法、並びにプログラム

Info

Publication number: JP2013171494A
Application number: JP2012035995A
Authority: JP
Inventors: Shingo Tsurumi; 辰吾鶴見
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-02-22
Filing date: 2012-02-22
Publication date: 2013-09-02

Abstract

【課題】より確実に、安定してユーザの視点位置を求める。
【解決手段】検出処理部は、表示部を観察するユーザを被写体として撮影された撮影画像から、ユーザの顔と眼を検出する。撮影画像からユーザの顔と眼が検出された場合、位置算出処理部は、撮影画像上の眼の位置と、ユーザの統計的な眼間距離とに基づいて、ユーザの視点位置を算出する。このとき、位置算出処理部は、得られた視点位置と顔の検出結果とから、ユーザの実際の眼間距離と顔幅の関係を示す関係情報も算出する。また、撮影画像からユーザの顔のみが検出された場合、位置算出処理部は、顔の検出結果と、過去に算出した関係情報とからユーザの視点位置を算出する。本技術は、画像処理装置に適用することができる。
【選択図】図３

Description

本技術は画像処理装置および方法、並びにプログラムに関し、特に、より確実に、安定してユーザの視点位置を求めることができるようにした画像処理装置および方法、並びにプログラムに関する。

例えば、ディスプレイに対するユーザの眼の位置（視点位置）に基づいて、ディスプレイへの３Ｄ映像の表示を制御する裸眼立体表示技術が知られている（例えば、特許文献１参照）。このような技術では、ディスプレイからユーザまでの距離、すなわち３次元におけるユーザの視点位置が必要となる。

そこで、撮影された画像からユーザの眼の位置を検出し、その検出結果からユーザの視点位置を求める技術が提案されている。

特開２０１１−１３９２８１号公報

しかしながら、上述した技術では、安定して、確実にユーザの視点位置を求めることは困難であった。例えば、撮影された画像からユーザの眼を検出し、その検出結果からユーザの視点位置を求める方法では、ユーザが俯いたときなど、画像上にユーザの眼がない場合には、ユーザの視点位置を得ることができなくなってしまうことがあった。

本技術は、このような状況に鑑みてなされたものであり、より確実に、安定してユーザの視点位置を求めることができるようにするものである。

本技術の一側面の画像処理装置は、ユーザを被写体として撮影された撮影画像に基づいて、前記撮影画像から前記ユーザの顔を検出する顔検出部と、前記撮影画像から前記ユーザの眼を検出する眼検出部と、前記ユーザの眼が検出された場合、前記ユーザの眼の検出結果に基づいて、実空間における前記ユーザの位置を算出する位置算出部と、前記ユーザの眼が検出された場合、算出された前記ユーザの位置と前記ユーザの顔の検出結果とに基づいて、前記ユーザの眼間距離と顔幅の関係を示す関係情報を算出する関係情報算出部とを備え、前記位置算出部は、前記ユーザの顔が検出され、前記ユーザの眼が検出されなかった場合、前記ユーザの顔の検出結果および前記関係情報に基づいて、前記ユーザの位置を算出する。

前記位置算出部には、前記ユーザの眼が検出された場合、平均的なユーザの眼間距離と、前記ユーザの眼の検出結果とに基づいて、前記ユーザの位置を算出させることができる。

画像処理装置には、前記撮影画像に基づいて、前記ユーザの性別、年齢、または人種の少なくとも何れかを判定する判定部をさらに設け、前記位置算出部には、前記判定部による判定結果により定まる前記平均的なユーザの眼間距離と、前記ユーザの眼の検出結果とに基づいて、前記ユーザの位置を算出させることができる。

前記関係情報算出部には、前記関係情報として実際の前記ユーザの顔幅を算出させることができる。

画像処理装置には、前記撮影画像から検出された前記ユーザの顔の領域から特徴量を抽出する顔識別部と、前記特徴量と前記関係情報を対応付けて保持する関係情報保持部と
をさらに設け、前記位置算出部には、処理対象の前記撮影画像の直前の前記撮影画像から前記ユーザの顔が検出されず、かつ前記処理対象の前記撮影画像から前記ユーザの顔が検出され、前記ユーザの眼が検出されなかった場合、前記特徴量に基づいて選択した前記関係情報、および前記ユーザの顔の検出結果に基づいて、前記ユーザの位置を算出させることができる。

本技術の一側面の画像処理方法またはプログラムは、ユーザを被写体として撮影された撮影画像に基づいて、前記撮影画像から前記ユーザの顔を検出し、前記撮影画像から前記ユーザの眼を検出し、前記ユーザの眼が検出された場合、前記ユーザの眼の検出結果に基づいて、実空間における前記ユーザの位置を算出し、前記ユーザの眼が検出された場合、算出された前記ユーザの位置と前記ユーザの顔の検出結果とに基づいて、前記ユーザの眼間距離と顔幅の関係を示す関係情報を算出し、前記ユーザの顔が検出され、前記ユーザの眼が検出されなかった場合、前記ユーザの顔の検出結果および前記関係情報に基づいて、前記ユーザの位置を算出するステップを含む。

本技術の一側面においては、ユーザを被写体として撮影された撮影画像に基づいて、前記撮影画像から前記ユーザの顔が検出され、前記撮影画像から前記ユーザの眼が検出され、前記ユーザの眼が検出された場合、前記ユーザの眼の検出結果に基づいて、実空間における前記ユーザの位置が算出され、前記ユーザの眼が検出された場合、算出された前記ユーザの位置と前記ユーザの顔の検出結果とに基づいて、前記ユーザの眼間距離と顔幅の関係を示す関係情報が算出され、前記ユーザの顔が検出され、前記ユーザの眼が検出されなかった場合、前記ユーザの顔の検出結果および前記関係情報に基づいて、前記ユーザの位置が算出される。

本技術の一側面によれば、より確実に、安定してユーザの視点位置を求めることができる。

顔幅方式によるユーザの視点位置の算出について説明する図である。顔幅方式と眼幅方式の切り替えについて説明する図である。画像処理システムの構成例を示す図である。視点位置算出処理について説明するフローチャートである。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
［視点位置の算出について］
本技術は、例えば顔検出や眼検出の結果を用いて、表示部（ディスプレイ）に対するユーザの眼の位置（視点位置）を推定し、その推定結果に基づいて、表示部への３Ｄ映像（立体画像）の表示を制御するヘッドトラッキング方式の裸眼立体表示に関する技術である。なお、本技術は、ユーザの視点位置に基づいて画像表示等、各種の制御を行なう場合に適用可能であるが、以下では、本技術を立体画像の表示制御に利用する場合を例として説明を続ける。

本技術では、表示部に対する３次元のユーザの眼の位置（視点位置）を求める手法として、ユーザの顔の検出結果を用いて視点位置を求める手法と、ユーザの眼の検出結果を用いて視点位置を求める手法とが、適宜切り替えられながら用いられる。

このとき、ユーザの眼の検出結果から視点位置が求められた場合には、その視点位置に基づいて、ユーザの実際の眼間距離と顔サイズの関係を示す関係情報が求められる。そして、ユーザの顔の検出結果を用いて視点位置を求める場合には、ユーザの顔の検出結果だけでなく、関係情報も用いられてユーザの視点位置が求められる。

なお、以下、ユーザの顔の検出結果を用いて視点位置を求める手法を顔幅方式とも称し、ユーザの眼の検出結果を用いて視点位置を求める手法を眼幅方式とも称することとする。

それでは、以下において本技術によるユーザの視点位置の算出について説明する。

まず、顔検出を利用して、ユーザの視点位置を求める手法について説明する。

例えば、図１に示すように、画像が表示される表示部１１が３次元空間上に配置されており、ユーザが図中、上側から下方向を向いて表示部１１を観察するとする。また、表示部１１の中心の位置には、ユーザを撮影する撮影部１２が配置され、撮影部１２によりユーザを被写体とした撮影画像ＰＣ１１が撮影されるとする。つまり、撮影画像ＰＣ１１が図示されている位置にある被写体が撮影されて、撮影画像ＰＣ１１が得られるとする。

なお、図中、横方向は表示部１１を観察するユーザの両眼が並んでいる方向であり、図１は、表示部１１とユーザを、ユーザの真上から見下ろした図となっている。

図１において、撮影部１２の画角がＡＨであるとし、撮影部１２の光軸と平行な直線ＤＲ１１と、撮影画像ＰＣ１１との交点の位置、つまり撮影画像ＰＣ１１の図中、横方向の中心位置が位置Ｏであるとする。例えば、撮影部１２の図中、横方向の画角が63.24度であれば、画角ＡＨは、ＡＨ＝63.24×π／180などとされる。

このとき、撮影画像ＰＣ１１の図中、横方向の幅を「１」とすると、撮影部１２から撮影画像ＰＣ１１上の位置Ｏまでの図中、縦方向の距離ＩＷＤは、次式（１）により求められる。

また、撮影画像ＰＣ１１上の領域ＦＣがユーザの顔の領域であり、領域ＦＣの図中、横方向の幅がwidthであったとする。ここで、領域ＦＣは、撮影画像ＰＣ１１上の位置ｘから位置ｘ’までの間の領域である。

撮影画像ＰＣ１１の横方向の幅は「１」であるから、位置Ｏを「０」とすると、撮影画像ＰＣ１１の図中、横方向の任意の位置、例えば位置ｘや位置ｘ’は-0.5乃至0.5の範囲内の数値により表現することができる。また、撮影画像ＰＣ１１上のユーザの顔の領域ＦＣの幅widthは、０乃至１の間の値となる。

いま、撮影部１２の中心からユーザの顔の図中、左端までの角度、つまり、直線ＤＲ１１と直線ＤＲ１２とのなす角度が角度φであるとする。また、ユーザの顔幅に相当する角度、つまり直線ＤＲ１２と直線ＤＲ１３とがなす角度が角度θであるとする。

ここで、直線ＤＲ１２は、撮影部１２と領域ＦＣの図中、左端の位置ｘとを結ぶ直線であり、直線ＤＲ１３は、撮影部１２と領域ＦＣの図中、右端の位置ｘ’とを結ぶ直線である。

このとき角度φは、ユーザの顔の領域ＦＣの位置ｘと、上述した距離ＩＷＤとから次式（２）により求まる。

したがって、ユーザの顔幅に相当する角度θは、式（２）により求まった角度φ、距離ＩＷＤ、ユーザの顔の領域ＦＣの位置ｘ、およびユーザの顔の領域ＦＣの幅widthを用いて、次式（３）により求めることができる。

このように、ユーザの顔幅に相当する角度θが求まると、この角度θと、ユーザの実際の顔幅ＦＷとから、次式（４）により実空間（３次元）における表示部１１（撮影部１２）から、ユーザの視点位置（顔）までの距離Ｒを求めることができる。ここで、ユーザの視点位置は、例えばユーザの左右の眼の中間の位置である。

なお、ユーザの実際の顔幅ＦＷは、例えばユーザが子供であれば、12.5cm程度であり、ユーザが大人であれば17.0cm程度である。また、ユーザの顔幅ＦＷは、幅widthに対応する、実空間上におけるユーザの顔の横方向の幅である。

以上のように、顔幅方式によるユーザの視点位置の算出では、撮影部１２の画角ＡＨ、撮影画像ＰＣ１１上のユーザの顔の位置ｘと幅width、およびユーザの実際の顔幅ＦＷが分かれば、３次元におけるユーザの視点位置（距離Ｒ）を求めることができる。なお、後述するように顔幅方式では、顔幅ＦＷの値は、ユーザの実際の眼間距離と顔幅の関係を示す関係情報が用いられて求められる。

次に、眼幅方式によるユーザの視点位置の算出について説明する。

眼幅方式においても、顔幅方式と同様の計算によりユーザの視点位置を算出することができる。具体的には、例えば図１における位置ｘおよび位置ｘ’が、仮にユーザの右眼の位置および左眼の位置であったとする。この場合、位置ｘをユーザの右眼位置とし、幅widthをユーザの左右の眼の幅、つまり眼間距離として式（３）を計算すれば、角度θとしてユーザの眼幅に相当する角度を得ることができる。

したがって、この角度θから、式（４）と同様の計算により、撮影部１２からユーザの視点位置までの距離Ｒを得ることができる。つまり、ユーザの眼幅に相当する角度をθ’とし、実際のユーザの眼間距離をＥＷとすると、次式（５）を計算することで視点位置までの距離Ｒを求めることができる。

以上のことから、眼幅方式によるユーザの視点位置の算出では、撮影部１２の画角ＡＨ、撮影画像ＰＣ１１上のユーザの眼の位置と眼間距離、およびユーザの実際の眼間距離ＥＷが分かれば、３次元におけるユーザの視点位置（距離Ｒ）を求めることができる。

なお、以下では、撮影画像ＰＣ１１上におけるユーザの眼の位置（図１の例ではユーザの右眼位置）をｘｅとし、撮影画像ＰＣ１１上におけるユーザの眼間距離をＨＥとする。

ところで、上述したように顔幅方式によるユーザの視点位置の算出では、ユーザの実際の顔幅ＦＷが必要となり、眼幅方式によるユーザの視点位置の算出では、ユーザの実際の眼間距離ＥＷが必要となる。

これらの計算に用いられる顔幅ＦＷや眼間距離ＥＷについては、個人ごとに直接、顔幅ＦＷや眼間距離ＥＷを測定して得られた値を用いる方法と、統計的な平均値を顔幅ＦＷや眼間距離ＥＷの値として用いる方法が考えられる。

例えば、顔幅ＦＷや眼間距離ＥＷとして統計的な平均値を用いる場合、顔幅ＦＷの個人差よりも眼間距離ＥＷの個人差の方が少ないため、顔幅方式と比べて眼幅方式の方が、より正確にユーザの視点位置を求めることが可能である。

また、顔幅方式または眼幅方式の何れかにより、ユーザの視点位置までの距離Ｒが求まれば、実際の顔幅ＦＷと眼間距離ＥＷの関係を求めることができる。

そこで、本技術では、撮影画像からユーザの顔と眼が検出されている間は、眼間距離ＥＷとして統計的な平均値が用いられて眼幅方式により距離Ｒが算出される。また、眼幅方式により距離Ｒが算出されると、算出された距離Ｒや眼間距離ＥＷ、顔検出結果から、実際の顔幅ＦＷと眼間距離ＥＷの関係を示す関係情報が求められ、保持される。例えば関係情報は、距離Ｒから求まる各個人の顔幅ＦＷとされる。

これに対して、撮影画像からユーザの顔のみが検出され、ユーザの眼が検出されなかった場合には、関係情報として求められた顔幅ＦＷが用いられて、顔幅方式により距離Ｒが算出される。

具体的には、例えば図２に示すように、眼幅方式と顔幅方式とが切り替えられてユーザの視点位置（距離Ｒ）が算出される。なお、図２において、図中、横方向は時間方向を示している。また、斜線が施された長方形は、撮影画像からユーザの顔が検出された区間を示しており、斜線が施されていない長方形は、撮影画像からユーザの眼が検出された区間を示している。

図２の例では、区間Ｑ１から区間Ｑ３までの間は、継続してユーザの顔が検出されている。また、区間Ｑ１と区間Ｑ３では継続してユーザの眼が検出されているが、区間Ｑ２ではユーザの眼は検出されていない。

なお、ユーザの顔が継続して検出されている区間では、検出されたユーザの顔のトラッキングと、検出されたユーザの顔の識別が行なわれる。例えば、顔の識別は、撮影画像上の顔の領域から抽出された特徴量により行なわれる。

図２において、区間Ｑ１に注目すると、区間Ｑ１ではユーザの顔も眼も検出されている。そこで、この区間Ｑ１では、ユーザの眼の検出結果から眼幅方式により距離Ｒ（視点位置）が算出されるとともに、関係情報としての顔幅ＦＷが算出され、保持される。

ここで、保持される顔幅ＦＷは、より詳細には例えば区間Ｑ１を構成する各フレームにおいて求められた顔幅ＦＷの平均値とされる。また、求められた関係情報としての顔幅ＦＷは、撮影画像上のユーザの顔の領域から抽出された特徴量と対応付けられて保持される。これにより、ユーザ個人ごとに関係情報としての顔幅ＦＷを保持することができる。

区間Ｑ１に続く区間Ｑ２では、撮影画像からユーザの顔は検出されているが、ユーザの眼は検出されていない。そこで、区間Ｑ２では、検出されている顔について保持されている関係情報としての顔幅ＦＷと、顔の検出結果とが用いられて顔幅方式により距離Ｒ（視点位置）が算出される。

例えば、区間Ｑ２のように、ユーザが下を向いた場合など、条件によっては撮影画像からユーザの顔は検出されるが、ユーザの眼は検出されないということがある。

そのような場合に、ユーザの眼が検出されている間は眼幅方式により視点位置が算出されていたが、眼が検出されなくなったときに、統計的な顔幅が用いられて顔幅方式により視点位置が算出されると、時系列に並ぶ視点位置が不連続になったり、視点位置の誤差が大きくなったりしてしまう。

そこで、区間Ｑ２のようなユーザの顔のみが検出された区間では、予め求めておいた関係情報を用いて顔幅方式により視点位置を算出することで、時間方向にみて連続的で、より正確な視点位置を得ることができる。つまり、ユーザの眼が検出されない区間があっても、より確実に、安定してユーザの視点位置を求めることができる。

また、区間Ｑ２の後の区間Ｑ３では、再びユーザの顔と眼が検出されている。また、顔のトラッキング結果から、区間Ｑ１乃至区間Ｑ３で検出されていた顔は同じユーザの顔である。そこで、区間Ｑ３では、これまでの顔幅方式から眼幅方式に切り替えられて、距離Ｒ（視点位置）が算出されるとともに、関係情報としての顔幅ＦＷが算出され、保持される。つまり、関係情報の更新が行なわれる。

区間Ｑ３と区間Ｑ４の間では、ユーザの顔の眼も検出されないので、この区間では、ユーザの視点位置の算出は行われない。

その後、区間Ｑ４において、再びユーザの顔が検出されている。なお、区間Ｑ４では、ユーザの顔は検出されているが、ユーザの眼は検出されていないため、関係情報が用いられて、顔幅方式により距離Ｒ（視点位置）が算出される。

但し、区間Ｑ４の直前の区間では、ユーザの顔は検出されていないので、区間Ｑ４において検出された顔と、区間Ｑ４よりも前にある区間で検出された顔とが同じユーザの顔であるかが、顔から抽出された特徴量により特定される。そして、それらの区間で検出された顔が同じ顔である場合には、その顔についての関係情報が、区間Ｑ４での視点位置の算出に用いられる。

このように、撮影画像上の顔領域の追跡が途切れた場合であっても、特徴量を比較して同一のユーザ（顔）であるかを特定することで、より確実に、安定してユーザの視点位置を求めることができる。

さらに、区間Ｑ４以降においては、ユーザの顔も眼も検出されているので、この区間では眼幅方式によりユーザの視点位置が算出され、関係情報の更新も行なわれることになる。

［画像処理システムの構成例］
次に、本技術を適用した具体的な実施の形態について説明する。図３は、本技術を適用した画像処理システムの一実施の形態の構成例を示す図である。なお、図３において、図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図３の画像処理システムは、撮影部１２、画像処理装置４１、表示制御部４２、および表示部１１から構成される。この画像処理システムは、例えばユーザの視点位置に応じて表示部１１に表示する立体画像の視差制御を行なうものであり、テレビジョン受像機やパーソナルコンピュータ、携帯電話機などに内蔵されている。

撮影部１２は表示部１１の上部中央に設けられており、表示部１１をほぼ正面から観察するユーザを被写体として撮影し、その結果得られた撮影画像を画像処理装置４１に供給する。

画像処理装置４１は、撮影部１２から供給された撮影画像からユーザの顔や眼を検出し、その検出結果に基づいてユーザの視点位置を算出して表示制御部４２に供給する。画像処理装置４１は、検出処理部５１および位置算出処理部５２から構成される。

検出処理部５１は、撮影部１２から供給された撮影画像からユーザの顔や眼を検出し、その検出結果を位置算出処理部５２に供給する。検出処理部５１は、顔検出部６１、眼検出部６２、判定部６３、および顔識別部６４を備えている。

顔検出部６１は、撮影部１２からの撮影画像からユーザの顔を検出する。眼検出部６２は、撮影部１２からの撮影画像からユーザの眼を検出する。また、判定部６３は、撮影部１２からの撮影画像に基づいて、検出されたユーザの性別、年齢、および人種の判定を行なう。なお、ユーザの性別等の判定結果は、ユーザの実際の眼間距離ＥＷの特定に用いられる。

顔識別部６４は、撮影画像から検出されたユーザの顔の領域から特徴量を抽出することで、顔識別を行なう。

顔検出部６１乃至顔識別部６４で得られた顔の検出結果、眼の検出結果、ユーザの性別等の判定結果、および顔領域の特徴量は、適宜、検出処理部５１から位置算出処理部５２に供給される。

位置算出処理部５２は、検出処理部５１から供給された顔の検出結果等に基づいて、３次元におけるユーザの視点位置（距離Ｒ）を算出し、表示制御部４２に供給する。位置算出処理部５２は、視点位置算出部７１、関係情報算出部７２、および関係情報保持部７３を備えている。

視点位置算出部７１は、検出処理部５１から供給された顔や眼の検出結果に基づいて、ユーザの視点位置を算出する。このとき、視点位置算出部７１は、必要に応じて関係情報保持部７３に保持されている関係情報を用いてユーザの視点位置を算出する。

関係情報算出部７２は、検出処理部５１からの顔の検出結果と、視点位置算出部７１による視点位置の算出結果とに基づいて関係情報を算出し、関係情報保持部７３に保持させる。関係情報保持部７３は、関係情報算出部７２により算出された関係情報を、検出処理部５１から供給された特徴量と対応付けて保持する。

また、表示制御部４２は、図示せぬ記録部等から取得した立体画像を表示部１１に供給し、立体表示させる。このとき表示制御部４２は、位置算出処理部５２から供給されたユーザの視点位置に応じて、表示部１１に表示させる立体画像の視差制御を行なう。具体的には、例えば表示制御部４２は、ユーザの視点位置に応じて、表示部１１の各表示領域に対して立体画像を構成する右眼画像または左眼画像を割り当てることで、ユーザが適切に立体画像を視聴できるようにする。

表示部１１は、裸眼方式で立体画像を表示させるディスプレイからなり、表示制御部４２の制御にしたがって、表示制御部４２から供給された立体画像を表示する。

［視点位置算出処理の説明］
ところで、図３の画像処理システムに対して、立体画像の表示が指示されると、撮影部１２は、撮影画像を撮影して順次、画像処理装置４１に供給する。すると、画像処理装置４１は、視点位置算出処理を行なって、ユーザの視点位置を表示制御部４２に出力する。そして、表示制御部４２は、画像処理装置４１からの視点位置に応じて視差制御を行い、表示部１１に立体画像を表示させる。

以下、図４のフローチャートを参照して、画像処理装置４１による視点位置算出処理について説明する。

ステップＳ１１において、顔検出部６１は、撮影部１２から供給された撮影画像に基づいて顔検出を行い、撮影画像からユーザの顔の領域を検出する。なお、顔検出の方法は、例えば識別器を用いる方法など、どのような方法であってもよい。

ステップＳ１２において、顔検出部６１はステップＳ１１における顔検出の結果と、過去の顔検出の結果とに基づいて、撮影画像上における顔の領域のトラッキング（追跡）を行なう。これにより、各時刻の撮影画像において検出された顔が同一ユーザの顔であるかを特定することができる。

ステップＳ１３において、眼検出部６２は、撮影部１２から供給された撮影画像に基づいて眼検出を行い、撮影画像からユーザの眼の領域を検出する。このとき、眼検出部６２は、必要に応じて顔検出部６１による顔検出の結果を利用し、撮影画像上の顔の領域内からユーザの眼の領域を検出する。なお、眼の検出方法は、識別器やテンプレートを用いる方法など、どのような方法であってもよい。

ステップＳ１４において、判定部６３は、撮影部１２から供給された撮影画像と、顔検出部６１による顔検出の結果とに基づいて、撮影画像から検出されたユーザの性別、年齢、および人種の判定を行なう。

ステップＳ１５において、顔識別部６４は、撮影部１２から供給された撮影画像と、顔検出部６１による顔検出の結果とに基づいて、撮影画像から検出された顔の識別を行なう。すなわち、顔識別部６４は、撮影画像上の顔の領域から特徴量を抽出する。なお、この特徴量は、必要に応じて顔のトラッキングに用いられるようにしてもよい。

ステップＳ１６において、検出処理部５１は、撮影画像から顔が検出されたか否かを判定する。例えば、ステップＳ１１の処理において、撮影画像からユーザの顔が検出された場合、顔が検出されたと判定される。

ステップＳ１６において、顔が検出されなかったと判定された場合、処理はステップＳ１１に戻り、上述した処理が繰り返される。すなわち、次のフレームの撮影画像が処理対象とされ、撮影画像に対する顔検出等が行なわれる。

なお、撮影画像から顔が検出されなかった場合には、実質的には上述したステップＳ１２乃至ステップＳ１５の処理は行なわれないことになる。

これに対してステップＳ１６において、顔が検出されたと判定された場合、処理はステップＳ１７へと進む。このとき検出処理部５１は、適宜、ステップＳ１１乃至ステップＳ１５の処理で得られた、顔検出の結果、顔のトラッキング結果、眼検出の結果、性別等の判定結果、および顔の特徴量を位置算出処理部５２に供給する。

ステップＳ１７において、位置算出処理部５２は、検出処理部５１から供給された眼検出の結果に基づいて、撮影画像からユーザの眼が検出されたか否かを判定する。

ステップＳ１７において、眼が検出されたと判定された場合、ステップＳ１８において、視点位置算出部７１は、撮影画像上のユーザの眼の位置と、ユーザの眼間距離ＥＷとに基づいて３次元のユーザの眼の位置、つまり実空間におけるユーザの視点位置（距離Ｒ）を算出する。

例えば、視点位置算出部７１は、性別、年齢、および人種と、それらの性別、年齢、および人種が同じであるユーザの平均的（統計的）な眼間距離ＥＷとが対応付けられた眼幅テーブルを予め記録している。視点位置算出部７１は、記録している眼幅テーブルから、検出処理部５１から供給されたユーザの性別、年齢、および人種の判定結果から特定される眼間距離ＥＷを取得する。つまり、判定の結果得られた性別、年齢、および人種により特定される眼間距離ＥＷが読み出される。

また、視点位置算出部７１は、検出処理部５１から供給された眼検出の結果としての撮影画像上におけるユーザの眼の位置ｘｅおよび眼間距離ＨＥと、既知である撮影部１２の画角ＡＨとに基づいて式（１）乃至式（３）と同様の計算を行う。

この計算により、ユーザの眼幅に相当する角度θ’が得られるので、視点位置算出部７１は、得られた角度θ’と、眼幅テーブルから読み出した眼間距離ＥＷとから上述した式（５）を計算し、表示部１１からユーザまでの距離Ｒを視点位置として算出する。なお、ユーザの視点位置は、距離Ｒでもよいし、距離Ｒから求まる３次元座標空間上におけるユーザの視点位置の座標でもよい。

このように、眼間距離ＥＷとして、性別，年齢，人種ごとの統計的な値のなかから、撮影画像上のユーザの性別，年齢，人種と合致するものを選択して用いることで、より高精度にユーザの視点位置（距離Ｒ）を求めることができる。

なお、ユーザの性別、年齢、および人種の判定結果により特定される眼間距離ＥＷが用いられると説明したが、ユーザの性別、年齢、人種のうちの少なくとも何れか１つが用いられて眼間距離ＥＷが特定されるようにしてもよい。

また、センサ等によりユーザの眼間距離ＥＷを直接測定し、その測定結果を予め視点位置算出部７１に記録しておくようにしてもよいし、ユーザにより直接入力または選択された眼間距離ＥＷを予め視点位置算出部７１に記録しておくようにしてもよい。

ステップＳ１９において関係情報算出部７２は、検出処理部５１からの顔の検出結果と、視点位置算出部７１による視点位置の算出結果とに基づいて関係情報を算出する。

具体的には関係情報算出部７２は、検出処理部５１からの顔検出結果としての撮影画像上におけるユーザの顔の位置ｘ、および撮影画像上におけるユーザの顔の幅widthと、既知である撮影部１２の画角ＡＨとに基づいて式（１）乃至式（３）を計算する。

この計算により、ユーザの顔幅に相当する角度θが得られるので、関係情報算出部７２は、得られた角度θと、視点位置算出部７１により算出された距離Ｒとから、式（４）よりユーザの実際の顔幅ＦＷを関係情報として算出する。

ステップＳ２０において、関係情報保持部７３は、ステップＳ１９の処理において関係情報算出部７２により算出された関係情報を保持する。

より具体的には、関係情報保持部７３は、保持している関係情報としての顔幅ＦＷのうち、その関係情報に対応付けられている特徴量が、検出処理部５１から供給された特徴量と最も類似している関係情報を特定する。例えば、特徴量の差分など、特徴量間の距離が最も短いものが類似する特徴量とされる。また、顔のトラッキングにより顔が継続して検出されている場合には、その顔について求められた関係情報が特定される。

そして、関係情報保持部７３は、特定された関係情報としての顔幅ＦＷと、ステップＳ１９において算出された関係情報としての顔幅ＦＷとに基づいて関係情報を更新し、更新後の関係情報を保持する。

例えば、関係情報の更新では、新たにステップＳ１９で算出された顔幅ＦＷと、過去に求められたいくつかの顔幅ＦＷとの平均値が求められ、得られた平均値が更新後の顔幅ＦＷ（関係情報）とされる。

なお、例えば顔幅ＦＷの更新は、予め定められた回数だけ更新された後は行なわれないようにしてもよいし、顔が連続して検出されている区間でのみ顔幅ＦＷの更新が行なわれ、新たに顔が検出された場合には、新たな関係情報が保持されるようにしてもよい。

ステップＳ２１において、位置算出処理部５２は、視点位置算出部７１により算出されたユーザの視点位置（距離Ｒ）、つまり３次元の眼の位置を表示制御部４２に出力する。これらのステップＳ１８乃至ステップＳ２１で行なわれる処理が、例えば図２の区間Ｑ１や区間Ｑ３で行なわれる処理である。

ステップＳ２２において、位置算出処理部５２は、視点位置を算出する処理を終了するか否かを判定する。例えば、ユーザにより立体画像の再生停止が指示された場合、処理を終了すると判定される。

ステップＳ２２において、処理を終了しないと判定された場合、処理はステップＳ１１に戻り、上述した処理が繰り返される。

また、ステップＳ２２において、処理を終了すると判定された場合、視点位置算出処理は終了する。

さらに、上述したステップＳ１７において、眼が検出されなかったと判定された場合、処理はステップＳ２３に進む。

ステップＳ２３において、視点位置算出部７１は、検出処理部５１からの顔検出結果や特徴量と、関係情報保持部７３に保持されている関係情報とに基づいて、３次元のユーザの眼の位置、つまり実空間におけるユーザの視点位置（距離Ｒ）を算出する。

具体的には、検出処理部５１から供給された顔のトラッキング結果が、撮影画像からユーザの顔と眼が検出された区間から、継続して顔が検出されているという結果であるとする。この場合、視点位置算出部７１は、継続して検出されている顔について求められた関係情報を、関係情報保持部７３から取得する。すなわち、処理対象となっているフレームが、例えば図２の区間Ｑ２内のフレームである場合、継続して検出されている顔の関係情報が取得される。このとき、必要に応じて、顔識別部６４により顔の領域から抽出された特徴量が用いられる。

また、検出処理部５１から供給された顔のトラッキング結果が、最後に撮影画像からユーザの顔と眼が検出された区間から、処理対象の撮影画像までの間に、顔が検出されていない区間があるという結果であったとする。この場合、視点位置算出部７１は、処理対象となっている撮影画像から検出された顔と同じ顔について算出された関係情報を関係情報保持部７３から取得する。

例えば、処理対象の撮影画像よりも前の撮影画像のうち、最後に顔と眼が検出された撮影画像についての顔の特徴量と、処理対象の撮影画像の顔の特徴量とが類似している場合には、それらの顔は同じ顔であるとして、その顔の関係情報が取得される。また、例えば顔識別部６４により処理対象の撮影画像上の顔の領域から抽出された特徴量との類似度が最も高い特徴量に対応付けられた関係情報が、関係情報保持部７３から取得されるようにしてもよい。

なお、最後に撮影画像からユーザの顔と眼が検出された区間から、処理対象の撮影画像までの間に、顔が検出されていない区間がある場合とは、例えば処理対象の撮影画像が、図２の区間Ｑ４内にある場合などである。例えば、図２の区間Ｑ４において、区間Ｑ４で顔から抽出された特徴量と、直前の区間Ｑ３で顔から抽出された特徴量とから、これらの顔が同じであると特定されたときには、区間Ｑ３で検出された顔の関係情報が取得される。

視点位置算出部７１は、関係情報保持部７３から関係情報としての顔幅ＦＷを取得すると、ユーザの顔幅に相当する角度θを算出する。

すなわち、視点位置算出部７１は、検出処理部５１からの顔検出結果としての撮影画像上におけるユーザの顔の位置ｘ、および撮影画像上におけるユーザの顔の幅widthと、既知である撮影部１２の画角ＡＨとに基づいて式（１）乃至式（３）を計算し、角度θを求める。そして、視点位置算出部７１は、得られた角度θと関係情報としての顔幅ＦＷとから、式（４）を計算することで、ユーザの視点位置（距離Ｒ）を算出する。

ステップＳ２３において、ユーザの視点位置が算出されると、その後、ステップＳ２１およびステップＳ２２の処理が行なわれて視点位置算出処理は終了する。

以上のようにして、画像処理装置４１は、顔検出と眼検出の結果に応じて、眼幅方式と顔幅方式とを切り替えてユーザの視点位置（距離Ｒ）を算出する。また、画像処理装置４１は、眼幅方式により視点位置を算出した場合には、その算出結果から実際のユーザの眼間距離と顔幅の関係を求め、関係情報として保持しておく。

このように、眼幅方式により視点位置を算出した場合には、関係情報を求めて保持しておき、顔幅方式で視点位置を算出する場合には関係情報を用いることで、より確実に、安定してユーザの視点位置を求めることができる。その結果、表示制御部４２による立体画像の視差制御において、より安定した、正確な視差制御を行なうことができるようになり、表示部１１に表示する立体画像のクロストークを減少させたり、逆視を抑制したりできるようになる。

ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図５は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）２０１，ROM（Read Only Memory）２０２，RAM（Random Access Memory）２０３は、バス２０４により相互に接続されている。

バス２０４には、さらに、入出力インターフェース２０５が接続されている。入出力インターフェース２０５には、入力部２０６、出力部２０７、記録部２０８、通信部２０９、及びドライブ２１０が接続されている。

入力部２０６は、キーボード、マウス、マイクロホンなどよりなる。出力部２０７は、ディスプレイ、スピーカなどよりなる。記録部２０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部２０９は、ネットワークインターフェースなどよりなる。ドライブ２１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア２１１を駆動する。

以上のように構成されるコンピュータでは、CPU２０１が、例えば、記録部２０８に記録されているプログラムを、入出力インターフェース２０５及びバス２０４を介して、RAM２０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU２０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア２１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア２１１をドライブ２１０に装着することにより、入出力インターフェース２０５を介して、記録部２０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部２０９で受信し、記録部２０８にインストールすることができる。その他、プログラムは、ROM２０２や記録部２０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

［１］
ユーザを被写体として撮影された撮影画像に基づいて、前記撮影画像から前記ユーザの顔を検出する顔検出部と、
前記撮影画像から前記ユーザの眼を検出する眼検出部と、
前記ユーザの眼が検出された場合、前記ユーザの眼の検出結果に基づいて、実空間における前記ユーザの位置を算出する位置算出部と、
前記ユーザの眼が検出された場合、算出された前記ユーザの位置と前記ユーザの顔の検出結果とに基づいて、前記ユーザの眼間距離と顔幅の関係を示す関係情報を算出する関係情報算出部と
を備え、
前記位置算出部は、前記ユーザの顔が検出され、前記ユーザの眼が検出されなかった場合、前記ユーザの顔の検出結果および前記関係情報に基づいて、前記ユーザの位置を算出する
画像処理装置。
［２］
前記位置算出部は、前記ユーザの眼が検出された場合、平均的なユーザの眼間距離と、前記ユーザの眼の検出結果とに基づいて、前記ユーザの位置を算出する
［１］に記載の画像処理装置。
［３］
前記撮影画像に基づいて、前記ユーザの性別、年齢、または人種の少なくとも何れかを判定する判定部をさらに備え、
前記位置算出部は、前記判定部による判定結果により定まる前記平均的なユーザの眼間距離と、前記ユーザの眼の検出結果とに基づいて、前記ユーザの位置を算出する
［２］に記載の画像処理装置。
［４］
前記関係情報算出部は、前記関係情報として実際の前記ユーザの顔幅を算出する
［１］乃至［３］の何れかに記載の画像処理装置。
［５］
前記撮影画像から検出された前記ユーザの顔の領域から特徴量を抽出する顔識別部と、
前記特徴量と前記関係情報を対応付けて保持する関係情報保持部と
をさらに備え、
前記位置算出部は、処理対象の前記撮影画像の直前の前記撮影画像から前記ユーザの顔が検出されず、かつ前記処理対象の前記撮影画像から前記ユーザの顔が検出され、前記ユーザの眼が検出されなかった場合、前記特徴量に基づいて選択した前記関係情報、および前記ユーザの顔の検出結果に基づいて、前記ユーザの位置を算出する
［１］乃至［４］の何れかに記載の画像処理装置。

４１画像処理装置，６１顔検出部，６２眼検出部，６３判定部，６４顔識別部，７１視点位置算出部，７２関係情報算出部，７３関係情報保持部

Claims

ユーザを被写体として撮影された撮影画像に基づいて、前記撮影画像から前記ユーザの顔を検出する顔検出部と、
前記撮影画像から前記ユーザの眼を検出する眼検出部と、
前記ユーザの眼が検出された場合、前記ユーザの眼の検出結果に基づいて、実空間における前記ユーザの位置を算出する位置算出部と、
前記ユーザの眼が検出された場合、算出された前記ユーザの位置と前記ユーザの顔の検出結果とに基づいて、前記ユーザの眼間距離と顔幅の関係を示す関係情報を算出する関係情報算出部と
を備え、
前記位置算出部は、前記ユーザの顔が検出され、前記ユーザの眼が検出されなかった場合、前記ユーザの顔の検出結果および前記関係情報に基づいて、前記ユーザの位置を算出する
画像処理装置。
前記位置算出部は、前記ユーザの眼が検出された場合、平均的なユーザの眼間距離と、前記ユーザの眼の検出結果とに基づいて、前記ユーザの位置を算出する
請求項１に記載の画像処理装置。
前記撮影画像に基づいて、前記ユーザの性別、年齢、または人種の少なくとも何れかを判定する判定部をさらに備え、
前記位置算出部は、前記判定部による判定結果により定まる前記平均的なユーザの眼間距離と、前記ユーザの眼の検出結果とに基づいて、前記ユーザの位置を算出する
請求項２に記載の画像処理装置。
前記関係情報算出部は、前記関係情報として実際の前記ユーザの顔幅を算出する
請求項１に記載の画像処理装置。
前記撮影画像から検出された前記ユーザの顔の領域から特徴量を抽出する顔識別部と、
前記特徴量と前記関係情報を対応付けて保持する関係情報保持部と
をさらに備え、
前記位置算出部は、処理対象の前記撮影画像の直前の前記撮影画像から前記ユーザの顔が検出されず、かつ前記処理対象の前記撮影画像から前記ユーザの顔が検出され、前記ユーザの眼が検出されなかった場合、前記特徴量に基づいて選択した前記関係情報、および前記ユーザの顔の検出結果に基づいて、前記ユーザの位置を算出する
請求項１に記載の画像処理装置。
ユーザを被写体として撮影された撮影画像に基づいて、前記撮影画像から前記ユーザの顔を検出し、
前記撮影画像から前記ユーザの眼を検出し、
前記ユーザの眼が検出された場合、前記ユーザの眼の検出結果に基づいて、実空間における前記ユーザの位置を算出し、
前記ユーザの眼が検出された場合、算出された前記ユーザの位置と前記ユーザの顔の検出結果とに基づいて、前記ユーザの眼間距離と顔幅の関係を示す関係情報を算出し、
前記ユーザの顔が検出され、前記ユーザの眼が検出されなかった場合、前記ユーザの顔の検出結果および前記関係情報に基づいて、前記ユーザの位置を算出する
ステップを含む画像処理方法。
ユーザを被写体として撮影された撮影画像に基づいて、前記撮影画像から前記ユーザの顔を検出し、
前記撮影画像から前記ユーザの眼を検出し、
前記ユーザの眼が検出された場合、前記ユーザの眼の検出結果に基づいて、実空間における前記ユーザの位置を算出し、
前記ユーザの眼が検出された場合、算出された前記ユーザの位置と前記ユーザの顔の検出結果とに基づいて、前記ユーザの眼間距離と顔幅の関係を示す関係情報を算出し、
前記ユーザの顔が検出され、前記ユーザの眼が検出されなかった場合、前記ユーザの顔の検出結果および前記関係情報に基づいて、前記ユーザの位置を算出する
ステップを含む処理をコンピュータに実行させるプログラム。