JP2014116716A

JP2014116716A - 追尾装置

Info

Publication number: JP2014116716A
Application number: JP2012267902A
Authority: JP
Inventors: Hiroshi Oishi; 浩大石
Original assignee: Samsung Display Co Ltd
Current assignee: Samsung Display Co Ltd
Priority date: 2012-12-07
Filing date: 2012-12-07
Publication date: 2014-06-26
Also published as: KR20140074201A; US9323989B2; US20140161313A1

Abstract

【課題】ハードウェアによる処理に適した眼の認識追尾処理を提供する。
【解決手段】本発明の一実施形態として、画像情報を連続するフレームの形式で取得する画像情報取得部と、前記取得された画像情報の一つのフレームより縮小したサブ画像を複数生成し、眼の画像との尤度を算出して尤度の大きなサブ画像より眼の位置を決定する追尾部とを有し、前記追尾部は、前記一つのフレームより時間的に前に取得された画像情報の一つのフレームより決定された位置を参照して、生成するサブ画像の位置を決定する追尾装置を提供する。
【選択図】図１

Description

本発明は、物体を認識し追尾する装置に関し、特に眼を認識し追尾する装置に関する。

顔認識及び顔部位認識の技術は古くから研究されてきた分野である。近年、著しい発展を見せている統計的学習アルゴリズムの実用化により、顔認識及び顔部位認識の技術の応用は数多くなされている。特に、デジタルカメラや監視カメラにおける応用はよく知られている。また、顔部位認識技術の一部である眼の認識追尾技術も、車載カメラによる居眠り判定や３ＤＤｉｓｐｌａｙにおける視点位置に応じたレンダリング処理など多様な応用範囲が考えられる。

例えば、眼の追尾技術については、特許文献１に開示がされている。

特開２０１０−４１５２６号公報

しかし、顔認識及び顔部位認識の技術や眼の認識追尾技術における処理には、通常非常に複雑かつ膨大な演算処理が要求されるため、一般的にはソフトェアを用いて処理されることが多い。一方で、このような処理をハードウェアによりリアルタイムにて処理したいという要求も増えており、汎用的な応用に対するリアルタイム処理可能な眼の認識追尾処理のハードウェアの開発が重要となってきている。

そこで、本発明の目的の一つとして、ハードウェアによる処理に適した眼の認識追尾処理について開示する。

本発明の一実施形態として、画像情報を連続するフレームの形式で取得する画像情報取得部と、前記取得された画像情報の一つのフレームより縮小したサブ画像を複数生成し、眼の画像との尤度を算出して尤度の大きなサブ画像より眼の位置を決定する追尾部とを有し、前記追尾部は、前記一つのフレームより時間的に前に取得された画像情報の一つのフレームより決定された位置を参照して、生成するサブ画像の位置を決定する追尾装置を提供する。

この形態の追尾装置は、時間的に一つ前に取得されたフレームより決定された眼の位置を参照して次のフレームにおける眼の位置を決定するので、眼の探索範囲を狭めることができ、高速な処理が可能となる。

また、追尾部が一つのフレームより複数生成するサブ画像の大きさは等しいことが好ましい。

これにより、サブ画像の処理に必要な時間を一定とすることができ、本発明の一実施形態に係る追尾装置をハードウェアによる実現に適した構成とすることができる。

また、記追尾部は、一つのフレームにガウシアンフィルタを施し、ピクセルを間引いてサブ画像を生成してもよい。

ガウシアンフィルタを用いることにより、ピクセルを間引いてもサブ画像と元の画像の部分との違いを小さくすることができ、追尾性能を向上させることができる。

また、追尾部は、サブ画像より両眼の片眼それぞれの尤度を算出し、両眼の距離、片眼の幅、両眼を結ぶ直線が水平線となす角度をパラメータとして有するモデルを生成して、眼の位置を決定してもよい。

一般に、人の画像を認識する際には、両眼が撮影されるので、両眼のモデルを生成することにより、追尾性能をさらに向上させることができる。

また、追尾部は、前記パラメータに対するパーティクルフィルタを用いて生成するサブ画像の位置を決定してもよい。

これにより、眼の複数の候補の位置を生成して管理して追尾することができ、追尾性能をさらに向上させることができる。

また、パーティクルフィルタは、フレームが取得される周期期間内に前記追尾部が眼の位置を決定することができる数のサブ画像の位置を生成してもよい。

これにより、フレームの周期を単位として動作をさせることが可能となり、ハードウェア化に適した追尾装置を提供することができる。

本発明により、ハードウェアによる処理に適した眼の認識追尾処理を提供することができる。

本発明の一実施形態に係る追尾装置の機能ブロック図である。本発明の一実施形態に係る追尾装置の顔認識抽出部の処理を説明するための図である。本発明の一実施形態に係る追尾装置の尤度計算部の処理を説明するための図である。本発明の一実施形態に係る追尾装置の尤度計算部の処理を説明するための図である。本発明の一実施形態に係る追尾装置の候補座標生成部の処理を説明するための図である。本発明の一実施形態に係る追尾装置による処理のフローチャートである。本発明の一実施形態に係る追尾装置を実現するためのハードウェア構成図である。本発明の一実施形態に係る追尾装置を実現するためのハードウェア構成におけるタイミングチャートである。

以下に本発明を実施するための形態について図面を参照しながら説明を行う。なお、本発明は、以下に説明がされる形態に限定されることはなく、種々の変形を行っても実施することが可能である。

図１は、本発明の一実施形態に係る追尾装置の機能ブロック図の一例を示す。追尾装置１００は、画像取得部１０１と、顔認識抽出部１０２と、追尾部１０３とを有する。

画像取得部１０１は、画像情報を取得する。画像情報は、好ましくはフレーム単位で取得される。例えば、毎秒３０フレームの割合で画像情報の取得がされる。画像情報は、追尾装置１００に備えられたカメラなどの撮像装置により取得することができ、あるいは、追尾装置１００に接続された撮像装置や画像情報再生装置から取得することができる。

顔認識抽出部１０２は、画像取得部１０１により取得された画像情報に顔画像が含まれているかどうかを判定し、顔画像が含まれていれば、眼を含む画像の領域を抽出する。なお、顔認識抽出部１０２は、本発明の一実施形態に係る追尾装置１００に備わっている必要はなく、追尾装置１００とは別の装置として実現され、追尾部１０３に接続されていてもよい。

顔認識抽出部１０２は、図１に示すように、顔領域認識部１０４と眼領域抽出部１０５とを備えていてもよい。顔領域認識部１０４は、画像取得部１０１により取得された画像情報に顔画像が含まれているかどうかを判定し、顔画像が含まれていれば、顔画像の領域を抽出する。例えば、図２（ａ）に示すように、画像取得部１０１により取得された画像情報２００に顔２０１が含まれていれば、顔画像の領域２０２を抽出する。この場合、領域２０２には、顔の両眼が含まれるようにするのが好ましい。なお、画像取得部１０１により取得された画像情報に顔画像が含まれているかどうかを判定する処理としては、公知のものを任意に使用することができる。

眼領域抽出部１０５は、顔領域認識部１０４により抽出された顔画像の領域２０２から両眼を含む領域２０３を抽出する。両眼を含む領域２０３は、一般的に、顔画像の領域２０２よりも小さいため、次に説明する追尾部１０３の探索領域を小さくすることができ、高速に追尾の処理を行うことができる。なお、顔領域認識部１０４により抽出された顔画像の領域２０２から両眼を含む領域２０３を抽出する処理としては、公知のものを任意に使用することができる。

また、顔認識抽出部１０２は、図１に示すように、顔領域認識部１０４と眼領域抽出部１０５との２段階の処理を行う必要はなく、顔認識の結果から得られる両眼の位置のパラメータなどを用いて、画像取得部１０１により取得された画像情報２００から、両眼を含む領域２０３を直接抽出してもよい。

追尾部１０３は、顔認識抽出部１０２により抽出された両眼を含む領域から、両眼の位置を初期の両眼の位置として検出し、また、検出された両眼の位置から次のフレームにおける両眼の位置の候補を生成して、次のフレームにおける両眼の位置を検出する。なお、検出される両眼の位置は一つに限定する必要はない。複数の位置を検出した場合には、その後の追尾により、眼でないと判明した段階で位置情報を破棄などすればよい。

追尾部１０３は、図１に示すように、尤度計算部１０６と、パラメータ生成部１０９と、候補座標生成部１１０とを有する。

尤度計算部１０６は、領域２０３内の候補座標から、候補座標を含むサブ画像を抽出し、サブ画像が眼の画像であることについての尤度（類似度あるいは確からしさ）を計算する。候補座標は、顔認識抽出部１０２により顔認識が行われたときに眼の位置として計算される座標と以下に説明される候補座標生成部１１０により算出される座標とのいずれか又は両方である。候補座標生成部１１０による処理が行われてないときには、候補座標は、顔認識抽出部１０２により顔認識が行われたときに眼の位置として計算される座標となる。眼の位置は、例えば眼の中心として定義することができる。このとき、尤度計算部１０６は、候補座標を含む右眼の候補のサブ画像及び左眼の候補のサブ画像それぞれを抽出し、眼のモデル及びサンプル画像などとの類似度を計算し、候補座標に対して計算した尤度を対応付ける。

なお、候補座標生成部１１０は、後に説明されるパラメータ生成部１０９により生成される両眼のモデル情報より、右眼及び左眼それぞれの候補の中心座標を算出する。

尤度計算部１０６は、図１に示すように、ＥＳＦ部１０７と、ＬＤＡ部１０８とを有していてもよい。

ＥＳＦ部１０７は、両眼を含む領域２０３の画像情報から、例えば１６×１６ピクセルのサブ画像を生成し、明るさの分布から眼として判定される際の尤度を算出する。なお、両眼を含む領域２０３から、例えば１６×１６ピクセルのサブ画像を生成する際には、両眼を含む領域２０３の画像情報の部分画像を特定し、特定された部分画像からピクセルを間引くことにより、１６×１６ピクセルのサブ画像を生成することができる。大きさが一定のサブ画像を生成することにより、ハードウェアの処理を行う際の処理時間を一定とすることができ、タイミングの調整が容易となる。また、１６×１６ピクセルのサブ画像の生成の前の領域２０３の画像にガウシアンフィルタを施すことにより、ピクセルの間引きにかかわらず、眼の認識精度を上げることができ、追尾性能を上げることができる。

なお、サブ画像を生成するための画像情報の部分画像の特定は、例えば、部分画像を矩形とする場合に、矩形の左上の座標、幅及び高さを生成して行い、複数の特定を行うことができる。この生成は、例えば顔認識抽出部１０２により抽出が行われたときの両眼の座標情報に基づいて行ったり、後に説明する候補座標生成部１１０の算出する右眼及び左眼それぞれの中心座標に基づいて行ったりすることができる。

図３を参照して、ＥＳＦ部１０７により、明るさの分布から眼として判定される際の尤度の算出の一例について説明する。図３は、眼の画像の構造の一例を示す。図３において、符号３０１は、眼の瞳孔と虹彩との部分Ｃ１であり、符号３０２及び３０３との部分Ｃ２よりも明度が小さくなる。そこで、尤度の一例として、Ｃ１の中心点３０４の座標を（ｘ，ｙ）とした場合、尤度ＥＳＦ（ｘ，ｙ）は、
ＥＳＦ（ｘ，ｙ）＝ σ^２ _ｂ／σ^２ _Ｔ
として算出される。なお、
σ^２ _ｂ＝ｎ_１（ｍ_１−ｍ）^２＋ｎ_２（ｍ_２−ｍ）^２
σ^２ _Ｔ＝ Σ_ｘ∈Ｃ（ｘ−ｍ）^２
であり、ｎ_１は部分Ｃ１のピクセルの総数であり、ｎ_２は部分Ｃ２のピクセルの総数であり、ｍ_１は部分Ｃ１の明度（ｌｕｍｉｎａｎｎｃｅ）の平均であり、ｍ_２は部分Ｃ２の明度（ｌｕｍｉｎａｎｎｃｅ）の平均であり、ｍは部分Ｃの明度（ｌｕｍｉｎａｎｎｃｅ）の平均である。また、Ｃは、部分Ｃ１と部分Ｃ２との和集合である。

ＥＳＦ部１０７は、上記のように算出された尤度の値が大きい上位例えば１０個のサブ画像を抽出することができる。以上のように算出される尤度を用いることにより、頑強な眼の判定を実施することができる。

ＬＤＡ部１０８は、ＥＳＦ部１０７により、検出された部分画像から、線形判別分析（ＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｔｉｏｎＡｎａｌｙｓｉｓ）を行い、眼の判定の精度を高める。

ＬＤＡ部１０８は、具体的には、あらかじめ、眼の画像と眼ではない画像とを多次元領域に線形変換しておく。例えば、上述のようにＥＳＦ部１０７において１６×１６ピクセルのサブ画像が用いられる場合には、１６×１６ピクセルの大きさの眼の画像と眼ではない画像を準備する。それぞれの画像は、１６×１６＝２５６次元の点を表わしていると考えられるので、各画像の点に対して線形変換を行うことにより、例えば３２次元の空間の点に変換する。

図４は、変換された３２次元の空間の点を示す。点４０１は、眼ではないサンプル画像を３２次元の空間の点に変換した結果を示し、このような眼ではないサンプル画像を３２次元の空間の点に変換した点がクラスター４０３を形成している。また、４０２は、眼のサンプル画像を３２次元の空間の点に変換した結果を示し、このような眼のサンプル画像を３２次元の空間の点に変換した点がクラスター４０４を形成している。

そこで、ＥＳＦ部１０７により尤度の値が大きいと判断された上位１０個のサブ画像について、それぞれのサブ画像を３２次元の点４０５に変換して、クラスター４０３との距離４０６及びクラスター４０４との距離４０７を算出し、距離に応じて、眼のサンプル画像との尤度を判断する。点４０５とクラスター４０３及び４０４との距離４０６及び４０７は、例えば、点４０５とクラスター４０３及び４０４の各中心点までの距離として定義することができる。そこで、例えば、クラスター４０３までの距離４０６がクラスター４０４まので距離４０７より小さければ、そのサブ画像は眼の画像ではないと判断し、そうでなければ、そのサブ画像は眼の画像であると判断する。

以上により、尤度計算部１０６により眼の候補の中心の座標に対して尤度を決定して対応付けることができる。

パラメータ生成部１０９は、尤度計算部１０６により求められた尤度に基づいて、眼のモデル情報を生成する。眼のモデル情報は、図５に示すように、それぞれの眼の中心５０１及び５０２の座標から、両眼の中心間の距離Ｌ（例えば画像情報でのピクセル数）、それぞれの眼の幅Ｓ（例えば画像情報でのピクセル数）、それぞれの眼の中心５０１及び５０２を結ぶ直線５０３が水平線５０４となす角θ並びにそれぞれの眼の中心５０１及び５０２の中点（両眼の中点）の座標を含む。Ｌ、Ｓ、θ、中点の座標などのパラメータ値を用いて、次のフレームにおける眼の位置を予測し、眼のモデル情報を生成する。予測の方法としては、これまので、Ｌ、Ｓ、θ、中点の座標の値の履歴を求めて変動の方向を算出したり、パーティクルフィルタの手法を用いたりすることができる。パーティクルフィルタの手法としては、右眼の中点の座標を（ｘ_Ｒ，ｙ_Ｒ）、左眼の中点の座標を（ｘ_Ｌ、ｙ_Ｌ）、両眼の中点の座標を（ｘ_Ｃ，ｙ_Ｃ）とした場合に、尤度Ｌｉｋｅｌｉｆｏｏｄ（ｘ_Ｃ，ｙ_Ｃ、Ｌ、Ｓ、θ）を
Ｌｉｋｅｌｉｆｏｏｄ（ｘ_Ｃ，ｙ_Ｃ、Ｌ、Ｓ、θ）
＝ＥＳＦ（ｘ_Ｒ，ｙ_Ｒ）×ＥＳＦ（ｘ_Ｌ，ｙ_Ｌ）
と定義し、次のフレームにおける眼の位置の候補を生成する。この場合、Ｌｉｋｅｌｉｆｏｏｄ（ｘ_Ｃ，ｙ_Ｃ、Ｌ、Ｓ、θ）の高い候補は、そのまま使用される。ただし、擬似乱数が付加されてもよい。また、Ｌｉｋｅｌｉｆｏｏｄ（ｘ_Ｃ，ｙ_Ｃ、Ｌ、Ｓ、θ）が小さな候補は破棄される。

パラメータ生成部１０９が生成したモデルの情報（パラメータの値など）は、候補座標生成部１１０へ伝達される。

候補座標生成部１１０は、パラメータ生成部１１０により生成されたモデルの情報から、右眼及び左眼それぞれの候補の中心座標を算出する。例えば図５を参照すると、右眼の候補の中心座標５０１のＸ座標は、中点５０５のＸ座標に−（Ｌｃｏｓθ）／２を加算して算出され、そのＹ座標は、中点５０５のＹ座標に（Ｌｓｉｎθ）／２を加算して算出される。

図６は、本実施形態に係る追尾装置による処理を説明するフローチャートである。ステップＳ６０１の処理として、顔認識抽出部１０２が画像取得部１０１より画像を取得し、ステップＳ６０２の処理として、例えば顔領域認識部１０４により顔認識を行う。ステップＳ６０３において、顔が認識されたかどうかを判断し、顔が認識されていなければステップＳ６０１へ戻る。

顔が認識されればステップＳ６０４の処理として、例えば眼領域抽出部１０５により、両眼を含む領域の画像を抽出する。ステップＳ６０５の処理として、尤度計算部１０６により、眼の候補座標に対して尤度を計算する。ステップＳ６０６の処理として、パラメータ生成部１０９により、眼のモデル情報を生成する。そして、ステップＳ６０７の処理として、候補座標生成部１１０により、眼の候補座標を生成する。

ステップＳ６０８の処理として、画像取得部１０１から、追尾部１０３が次の画像情報のフレームを取得する。ステップＳ６０９の処理として処理を終了するべきかどうかを判断し、そうでなければステップＳ６０４へ戻る。

なお、ステップＳ６０６の処理のパラメータ生成部１０９による処理において、Ｌｉｋｅｌｉｆｏｏｄ（ｘ_Ｃ，ｙ_Ｃ、Ｌ、Ｓ、θ）の値が所定の値を下回ったり、眼のモデル情報の生成が困難となったりした場合には、ステップＳ６０１へ戻ってもよい。また、例えばＥＳＦ部１０７で算出される尤度の最大値が特定の値を下回ったり、ＬＤＡ部１０８により、サブ画像が眼でない画像のクラスターに属したりするなどの条件が成立した場合にも、ステップＳ６０１へ戻ってもよい。

図７は、図１に示す追尾装置１００を主にハードウェアにより構成する際の構成図の一例である。

画像取得部１０１に対応して、フレームバッファ７０２が配置され、取得された画像がフレーム単位でフレームバッファ７０２に格納される。

また、図７においては、顔領域抽出部１０４に対応するハードウェアは明示されておらず、図示しない顔領域認識部１０４に対応するハードウェアにより認識された顔画像の情報、具体的には両眼を含む矩形などの座標情報、が顔認識情報受信部７０３により受信される。受信された顔認識情報は、転送部７０４及びパーティクルフィルタ部７０５に転送される。

パーティクルフィルタ部７０５は、パラメータ生成部１０９に対応するハードウェアであり、次の探索のパラメータを生成する。

転送部７０４は、顔認識情報受信部７０３より受信された顔認識情報により特定される領域をフレームバッファ７０２から読み出し、尤度計算部１０６及び候補座標生成部１１０に対応するハードウェア７０６−１、７０６−２に転送する。なお、図７においては、尤度計算部１０６及び候補座標生成部１１０に対応するハードウェア７０６−１、７０６−２の二つが示されているが、尤度計算部１０６及び候補座標生成部１１０に対応するハードウェアは二つに限定されることはなく、任意の数を備えることができる。尤度計算部１０６及び候補座標生成部１１０に相当するそれぞれのハードウェアは、例えば、画像に含まれる顔が複数存在する場合に、複数の顔のそれぞれを分担したり、パーティクルフィルタ部７０５の生成するパラメータの一部をそれぞれ分担したりする。

転送部７０４より転送された領域は、一時メモリ７１０に格納される。そして、尤度計算部１０６に対応するハードウェアとしての左眼抽出部７１１と右眼抽出部７１２とに領域が転送される。左眼抽出部７１１と右眼抽出部７１２とのそれぞれは、領域より左眼の画像と右眼のサブ画像とを抽出する。このとき、左眼抽出部７１１と右眼抽出部７１２とは、追尾制御部７１３による制御を受ける。

追尾制御部７１３は、パーティクルフィルタ部７０５より得られるパラメータを参照し、ＥＳＦ部１０７に対応する左眼ＥＳＦ部と右眼ＥＳＦ部７１５とを動作させ、また、ＬＤＡ部１０８に対応する左眼ＬＤＡ部７１６と右眼ＬＤＡ部７１７とを動作させ、左眼及び右眼のサブ画像を抽出し、尤度を計算し、結果をパーティクルフィルタ部７０５にフィードバックするとともに、結果を出力部７０７に出力する。

図８は、図７に構成図を示すハードウェアの動作のタイミングチャートの一例である。区間８０１が１フレームの時間の長さを示し、時間区間８０２において、ｎ番目のフレームデータがカメラなどの撮影装置により取得され、あるいは、映像情報再生装置から取得される。取得されたフレームデータは、顔認識を行うハードウェアなどに転送され、また、一つ前のフレーム（ｎ−１番目のフレーム）がフレームバッファに７０２に格納される。

また、時間区間８０３において、顔認識の結果が顔認識情報受信部７０３により受信がされる。なお、顔認識は、ｎ−１番目のフレームデータにより行われる。

時間区間８０４において、転送部７０４より、両眼を含む領域の画像が一時メモリ７１０に転送される。また、時間区間８０５において、パーティクルフィルタ部７０５よりパラメータが生成される。生成されるパラメータの数は、時間区間８０５の後から区間８０１の終わりまでに尤度計算部１０６と候補座標生成部１１０とが処理できる数が上限となる。したがって、尤度計算部１０６及び候補座標生成部１１０に対応するハードウェアを増設することにより、多くのパラメータを処理することができ、追尾精度を上げることができる。

パーティクルフィルタ部７０５より生成されたパラメータそれぞれを用いて、時間区間８０６において、探索とモデル化とが行われる。

Claims

画像情報を連続するフレームの形式で取得する画像情報取得部と、
前記取得された画像情報の一つのフレームより縮小したサブ画像を複数生成し、眼の画像との尤度を算出して尤度の大きなサブ画像より眼の位置を決定する追尾部と
を有し、
前記追尾部は、前記一つのフレームより時間的に前に取得された画像情報の一つのフレームより決定された位置を参照して、生成するサブ画像の位置を決定する追尾装置。
前記追尾部が前記一つのフレームより複数生成するサブ画像の大きさは互いに等しいことを特徴とする請求項１に記載の追尾装置。
前記追尾部は、前記一つのフレームにガウシアンフィルタを施し、ピクセルを間引いてサブ画像を生成する請求項１または２に記載の追尾装置。
前記追尾部は、
サブ画像より両眼の片眼それぞれの尤度を算出し、
両眼の距離、片眼の幅、両眼を結ぶ直線が水平線となす角度をパラメータとして有するモデルを生成して、眼の位置を決定する請求項１から３のいずれかに記載の追尾装置。
前記追尾部は、前記パラメータに対するパーティクルフィルタを用いて、複数生成するサブ画像の位置を決定する請求項４に記載の追尾装置。
前記パーティクルフィルタは、フレームが取得される周期期間内に前記追尾部が眼の位置を決定することができる数のサブ画像の位置を生成する請求項５に記載の追尾装置。