以下、図面を参照して、ここで開示する技術の実施の形態について説明する。
最初に従来技術における学習型画像処理と本技術に係る学習型画像処理との違いについて説明する。
本技術においては、例えば、図1に示されるように、動画像などとして時系列に撮影された画像21−1乃至画像21−5を入力画像系列として与え、この入力画像系列から前景のビューモデルと背景のビューモデルを自動的に学習させるようにする。
図1の例においては、画像21−1乃至画像21−5にノート型パーソナルコンピュータの画像が表示されている。画像21−1乃至画像21−5は、例えば、カメラをノート型パーソナルコンピュータの周囲の異なる位置に移動させて様々な角度からノート型パーソナルコンピュータを撮影した画像とされている。例えば、ノート型パーソナルコンピュータに向かって左から右へカメラを移動させて動画像を撮影することでこのような画像が取得される。
同図の場合、ノート型パーソナルコンピュータが前景として学習される。また、ノート型パーソナルコンピュータが設置された机およびノート型パーソナルコンピュータの背後の本などが背景として学習される。前景の学習結果は、前景のビューモデルと称され、背景の学習結果は、背景のビューモデルと称される。なお、ビューモデルの詳細については後述する。
本技術においては、前景と背景の運動の独立性を前提とする。すなわち、学習の対象となる前景がMO1により特定される運動を行う場合、学習の対象となる背景はMO1以外のMO2により特定される運動を行うことを前提とする。
また、本技術においては、光学上の前後関係を前提とする。すなわち、学習の対象となる背景は前景により隠れることがあるが、学習の対象となる前景は背景により隠れることがないことを前提とする。
本技術では、上述のような前景と背景の運動の独立性および光学上の前後関係を制約事項とした上で、例えば、画像21−1乃至画像21−5における前景(ノート型パーソナルコンピュータ)についてのビュー変換推定を行って前景のビューモデルを学習する。また、画像21−1乃至画像21−5における背景(机、本など)についてのビュー変換推定を行って背景のビューモデルを学習する。
従って、図2に示されるように、従来の技術では、大量のラベル画像を記憶して学習するなどすることなく、動画を入力するだけ画像認識を行うことが可能となる。
例えば、従来の画像認識においては、ノート型パーソナルコンピュータを複数の向きから撮影した画像のそれぞれに対してラベルを付したものを学習させていた。ラベルは、例えば、ノート型パーソナルコンピュータの向き、画像の中でノート型パーソナルコンピュータが表示されている領域を特定する情報などにより構成される。これに対して、本技術では、図2に示されるように、ラベルなしの動画を入力するだけノート型パーソナルコンピュータの認識を行うことが可能となる。
次に、本技術において用いられる基本的なモデルについて説明する。
本技術は、対象となる画像を認識するにあたって、シングルビューモデルとマルチビューモデルのいずれにも対応可能とされる。
ここで、シングルビューモデルは、学習の対象となる前景または背景を1つのビューモデルで表現できると仮定するモデルを意味する。
一方、マルチビューモデルは、学習の対象となる前景または背景を複数のビューモデルで表現できると仮定するモデルを意味する。また、ここでのビューモデルは、マルチビューモデルにおける1枚の画像を意味するものと考えられる。
例えば、入力画像系列をI_1,I_2,I_3,・・・I_Sで表し、入力画像系列に対する画像特徴量をX_1,X_2,X_3,・・・X_Sで表すこととする。なお、入力画像系列は、例えば、動画の画像データとすることができ、その場合、I_1,I_2,I_3,・・・I_Sのそれぞれが、動画のフレームの画像データに対応する。また、入力画像系列に対する画像特徴量は、例えば、入力画像系列(動画)を構成する画像(各フレームの画像)における各画素値の集合とすることができる。
本技術では、時刻毎に前景または背景のビューモデルを変換することにより、入力画像系列の画像特徴量(観測特徴量とも称する)が得られるものと仮定する。すなわち、時刻sにおけるビューモデルMのビュー変換Tsにより時刻sにおける観測特徴量Xsを式(1)により得ることができる。
なお、式(1)におけるMは、シングルビューモデルとされる。また、ビュー変換Tsは、例えば、アフィン変換などとして表される座標変換などとされる。
一方、マルチビューモデルを用いる場合、複数のビューモデルが存在することになり、例えば、L個のビューモデルを有するマルチビューモデルMvは、Mv={M1,M2,M3,・・・ML}で表されることになる。複数のビューモデルは、例えば、学習の対象となる前景を、正面、背面、側面、・・・からみた画像に対応するものとされる。
この場合、例えば、時刻毎にいずれかのビューモデルをビュー変換することにより、画像特徴量(観測特徴量とも称する)が得られるものと仮定する。すなわち、時刻sにおけるビューモデルMvのビュー変換Tsにより時刻sにおける観測特徴量Xsを式(2)により得ることができる。
本技術では、式(1)または式(2)に示したようなビューモデルを次に述べるような処理により学習する。
図3は、本技術の一実施の形態に係るビューモデル学習装置100の構成例を示すブロック図である。同図のビューモデル学習装置100は、前景および背景の学習において、シングルビューモデルを用いるものとされる。
同図に示されるように、ビューモデル学習装置100は、画像系列入力部101、画像特徴量抽出部102、前景背景合成観測部103、前景推定学習部104、および背景推定学習部105を有する構成とされている。
前景推定学習部104は、ビューモデル学習部111、ビューモデルパラメータ112、ビューモデル出力部113、ビュー変換推定部114、ビュー変換運動推定部115、およびビュー変換情報出力部116を有する構成とされている。
また、背景推定学習部105は、ビューモデル学習部121、ビューモデルパラメータ122、ビューモデル出力部123、ビュー変換推定部124、ビュー変換運動推定部125、およびビュー変換情報出力部126を有する構成とされている。
同図の画像系列入力部101は、入力画像系列の入力を制御する機能ブロックとされ、上述したように各時刻に対応づけられた画像が入力画像系列として、画像特徴量抽出部102に供給される。
画像特徴量抽出部102は、入力画像系列を構成する各時刻の画像から画像特徴量を抽出する。画像特徴量の具体的な例としては、例えば、ピクセルごとの輝度値、複数のピクセルからなる領域毎の輝度ヒストグラム、カラーヒストグラム、エッジヒストグラムなどとされる。あるいはまた、ハリスコーナー検出などで検出した特徴点毎に座標とステアラブルフィルタなどの特徴量を持つ局所特徴量が画像特徴量とされるようにしてもよい。
なお、画像特徴量は、後述するビューモデルのビューモデルパラメータと同様に、原則として幾何的な要素(幾何モデル)と、特徴量的な要素(特徴量モデル)とによって構成される。例えば、画像特徴量は、1フレーム分の画像の各画素の画素位置(幾何モデル)と画素値(特徴量モデル)から成るようにしてもよい。あるいはまた、画像特徴量は、1フレーム分の画像の中の所定の特徴点の画素の画素位置(幾何モデル)と画素値(特徴量モデル)から成るようにしてもよい。
さらに、後述するように、局所特徴量が用いられる場合、画像特徴量が1フレーム分の画像の中の所定の特徴点の画素の画素位置(幾何モデル)のみから構成されるようにすることも可能である。
前景背景合成観測部103は、前景推定学習部104および背景推定学習部105により出力(推定)された推定前景ビューおよび推定背景ビューを合成する。そして、前景背景合成観測部103は、合成された画像の画像特徴量と画像特徴量抽出部102から供給される画像特徴量とを比較し、推定に対する評価値を前景推定学習部104および背景推定学習部105にそれぞれフィードバックするようになされている。
すなわち、前景背景合成観測部103は、前景推定学習部104から推定前景ビューを取得する。いま、ビューモデルパラメータ112に、前景のビューモデルMFGが記憶されているものとし、時刻sにおける前景のビューモデルのビュー変換をTFG,sとすると、時刻sにおける推定前景ビューは、TFG,sMFGとして表すことができる。
また、前景背景合成観測部103は、背景推定学習部105から背景推定ビューを取得する。いま、ビューモデルパラメータ122に、背景のビューモデルMBGが記憶されているものとし、時刻sにおける背景のビューモデルのビュー変換をTBG,s とすると、時刻sにおける推定背景ビューは、TBG,sMBGとして表すことができる。
そして、前景背景合成観測部103は、前景背景の合成ビューモデルMFGBG,sを構成する。
さらに、前景背景合成観測部103は、画像特徴量抽出部102から供給された画像特徴量のパラメータと、合成ビューモデルのパラメータとの対応関係を決定する。例えば、時刻sにおける画像特徴量Xsがパラメータとして、x1,x2,x3,・・・xNを有しており、合成ビューモデルMFGBG,sがパラメータとして、m1,m2,m3,・・・mNを有していたとする。
例えば、画像特徴量がピクセルごとの輝度値(各画素値)とされる場合、入力画像系列における時刻sの画像と時刻sの合成ビューモデルの対応する座標の画素値同士を対応付けられる。
例えば、時刻sの画像の座標(0,0)の画素x1は、時刻sの合成ビューモデルの座標(0,0)の画素m1に対応づけられ、時刻sの画像の座標(0,1)の画素x2は、時刻sの合成ビューモデルの座標(0,1)の画素m2に対応づけられ、・・・のように対応関係が決定される。このような時刻sにおける画像とビューモデルとの対応関係をCXFGB,sで表すことにする。
そして、前景背景合成観測部103は、上述の対応関係CXFGB,sのもとで、画像特徴量Xsに対する合成ビューモデルMFGBG,sの評価値Esを計算する。評価値Esは、例えば、対応する画素値間の差分絶対値和(実際には、より複雑な演算により求められる)などとされる。
図3における前景推定学習部104は、次のように動作する。
ビュー変換推定部114は、例えば、時刻sにおける画像特徴量Xsに対して適切なビュー変換Tsを推定する。つまり、ビュー変換推定部114は、前景のビューモデルをビュー変換して画像特徴量Xsの中の前景の画像を得ることができるようなビュー変換を推定する。
この際、ビュー変換推定部114は、適切なビュー変換の候補を複数出力する(推定する)ものとされ、例えば、異なる100個のパラメータを持つアフィン変換がビュー変換の候補として出力される。
ここでビュー変換は、例えば、前景のビューモデルを幾何的に変換するものとされる。具体的には、ビューモデルを並進移動される変換、拡大縮小させる変換、回転させる変換、これらの変換の組み合わせを総称したアフィン変換、さらに投影変換などがビュー変換とされる。なお、ビュー変換の候補はほぼ無限に存在するため、後述するビュー変換運動推定部115の推定結果に基づいて、出力すべきビュー変換の候補が特定されるようになされている。
ビュー変換運動推定部115は、時刻sにおけるビュー変換Tsから時刻s+1におけるビュー変換T´s+1を推定するようになされている。通常、前景の運動には規則的な連続性があると仮定できるので、変換のダイナミクスについて、例えば、T´s+1=FT(Ts)の式が成立するモデルと仮定することができる。このモデルとして、例えば、HMM(Hidden Markov Model)、FNN(Feed Forward Neural Network)、RNN(Recurrent Neural Network)などのダイナミクス学習推定モデルを用いることができるし、パーティクルフィルタ、カンマンフィルタなどのダイナミクス推定モデルを用いることもできる。
より具体的には、ビュー変換運動推定部115は、ある時刻において前景背景合成観測部103が出力した評価値Esに基づいて、各ビュー変換の事後確率を計算するようになされている。そして、ビュー変換推定部114が、各ビュー変換の事後確率に基づいて、ある時刻におけるビュー変換として適切なものを選択して出力することにより、ビュー変換の推定が行われるようになされている。
ビューモデルパラメータ112は、前景のビューモデルのパラメータを記憶する。ここで、前景のビューモデルのパラメータとは、いわば、前景に関する画像の特徴量をモデル化したものであって、複数の特徴点の幾何モデルのパラメータおよび各特徴点の特徴量モデルのパラメータを要素として構成される。
幾何モデルは、複数特徴点間の相対位置関係に関する統計モデルとされ、特徴量モデルは、各特徴点の特徴量に関する統計モデルとされる。例えば、画像特徴量がピクセルごとの輝度値(各画素値)とされる場合、幾何モデルは、各画素の座標値を意味するものとなる。一方、特徴量モデルは、複数の推定前景ビューから得られた各座標の画素値に重みが乗じられるなどして得られた平均値を意味するものとなる。なお、幾何モデルおよび特徴量モデルの統計モデルとしては、平均だけを用いる方式、正規分布(平均、分散)を用いる方式がある。
ビューモデル学習部111は、入力画像系列の各時刻の画像の画像特徴量において、前景背景合成観測部103により決定された対応関係に基づいて選択された特徴点に関して、上述した幾何モデルと特徴量モデルを学習する。この際、ビューモデル学習部111は、ビュー変換推定部114により推定されたビュー変換(例えば、アフィン変換)の逆変換によって変換することにより幾何モデルを学習する。そして、ビューモデル学習部111は、前景背景合成観測部103により出力される評価値に基づいて特徴量モデルを全時刻分統計学習する。これにより、ビューモデルのパラメータが学習されることになる。
なお、幾何モデルのパラメータと特徴量モデルパラメータとから構成されるビューモデルのパラメータがどのような演算により算出されて学習されるかについては後述する。
ビューモデル学習部111により学習された幾何モデルと特徴量モデルがビューモデルパラメータ112に記憶される。従って、前景のビューモデルMFGの実体的な数値などはビューモデルパラメータ112に記憶される。
ビュー変換情報出力部116は、ビュー変換推定部114により推定された各時刻におけるビュー変換、および、各時刻における画像とビューモデルとの対応関係を出力する。ここで出力されたビュー変換、および、画像とビューモデルとの対応関係により、例えば、学習された前景が画像の中のどこに、どの大きさで、どの向きに存在するかを表すことができる。
ビューモデル出力部113は、ビューモデル学習部111により学習された前景のビューモデルを出力する。ここで、出力されたビューモデル(幾何モデルと特徴量モデル)は、別の入力動画像に対して認識する際に利用できる。例えば、与えられた画像の中に前景がどこに、どの大きさで、どの向きに存在するかを求める際に、ビューモデル出力部113から出力されたビューモデルを利用できる。
図3の背景推定学習部105のビューモデル学習部121乃至ビュー変換情報出力部126は、それぞれ前景推定学習部104のビューモデル学習部111乃至ビュー変換情報出力部116と同様の機能ブロックであるため、詳細な説明は省略する。ただし、当然のことながら、背景推定学習部105は背景のビューモデルのビュー変換を推定し、背景のビューモデルを学習する。
図4は、本技術の別の実施の形態に係るビューモデル学習装置200の構成例を示すブロック図である。同図のビューモデル学習装置200は、前景および背景の学習において、マルチビューモデルを用いるものとされる。
同図に示されるビューモデル学習装置200は、画像系列入力部201、画像特徴量抽出部202、前景背景合成観測部203、前景推定学習部204、背景推定学習部205を有する構成とされている。
前景推定学習部204は、マルチビューモデル・ビュー遷移学習部211、マルチビューモデルパラメータ212、ビュー遷移モデルパラメータ213、マルチビューモデル・ビュー遷移出力部214を有している。さらに、前景推定学習部204は、ビュー及び変換推定部215、ビュー変換運動推定部216、ビュー遷移推定部217、ビュー及び変換情報出力部218を有する構成とされている。
背景推定学習部205は、マルチビューモデル・ビュー遷移学習部221、マルチビューモデルパラメータ222、ビュー遷移モデルパラメータ223、マルチビューモデル・ビュー遷移出力部224を有している。さらに、背景推定学習部205は、ビュー及び変換推定部225、ビュー変換運動推定部226、ビュー遷移推定部227、ビュー及び変換情報出力部228を有する構成とされている。
同図の画像系列入力部201は、入力画像系列の入力を制御する機能ブロックとされ、上述したように各時刻に対応づけられた画像が入力画像系列として、画像特徴量抽出部202に供給される。
画像特徴量抽出部202は、入力画像系列を構成する各時刻の画像から画像特徴量を抽出する。画像特徴量の具体的な例としては、例えば、ピクセルごとの輝度値、複数のピクセルからなる領域毎の輝度ヒストグラム、カラーヒストグラム、エッジヒストグラムなどとされる。あるいはまた、ハリスコーナー検出などで検出した特徴点毎に座標とステアラブルフィルタなどの特徴量を持つ局所特徴量が画像特徴量とされるようにしてもよい。
なお、画像特徴量は、後述するビューモデルのビューモデルパラメータと同様に、原則として幾何的な要素(幾何モデル)と、特徴量的な要素(特徴量モデル)とによって構成される。例えば、画像特徴量は、1フレーム分の画像の各画素の画素位置(幾何モデル)と画素値(特徴量モデル)から成るようにしてもよい。あるいはまた、画像特徴量は、1フレーム分の画像の中の所定の特徴点の画素の画素位置(幾何モデル)と画素値(特徴量モデル)から成るようにしてもよい。
さらに、後述するように、局所特徴量が用いられる場合、画像特徴量が1フレーム分の画像の中の所定の特徴点の画素の画素位置(幾何モデル)のみから構成されるようにすることも可能である。
前景背景合成観測部203は、前景推定学習部204および背景推定学習部205により出力(推定)された推定前景ビューおよび推定背景ビューを合成する。そして、前景背景合成観測部203は、合成された画像の画像特徴量と画像特徴量抽出部202から供給される画像特徴量とを比較し、推定に対する評価値を前景推定学習部204および背景推定学習部205にそれぞれフィードバックするようになされている。
すなわち、前景背景合成観測部203は、前景推定学習部204から推定前景ビューを取得する。なお、ビューモデル学習装置200は、マルチビューモデルを用いるものとされるので、ビューモデル学習装置100の場合と異なり、複数のビューモデルの中から選択された所定のビューモデルに対してビュー変換が施された推定前景ビューが取得されることになる。
また、前景背景合成観測部203は、背景推定学習部205から背景推定ビューを取得する。なお、ビューモデル学習装置200は、マルチビューモデルを用いるものとされるので、ビューモデル学習装置100の場合と異なり、複数のビューモデルの中から選択された所定のビューモデルに対してビュー変換が施された推定背景ビューが取得されることになる。
そして、前景背景合成観測部203は、ビューモデル学習装置100の場合と同様に、前景背景の合成ビューモデルを構成する。
さらに、前景背景合成観測部203は、ビューモデル学習装置100の場合と同様に、画像特徴量抽出部202から供給された画像特徴量のパラメータと、合成ビューモデルのパラメータとの対応関係を決定する。
そして、前景背景合成観測部203は、上述の対応関係のもとで、画像特徴量Xsに対する合成ビューモデルの評価値Esを計算する。
図4における前景推定学習部204は、次のように動作する。
ビュー及び変換推定部215は、図3のビュー変換推定部114と同様に、例えば、時刻sにおける画像特徴量Xsに対して適切なビュー変換Tsを推定する。ビュー及び変換推定部215は、ビュー変換推定部114の場合と異なり、さらに、後述するビュー遷移推定部217の推定に基づいて適切なビューモデルを推定する。
ビュー及び変換推定部215により、例えば、適切なビューモデルおよびビュー変換の組み合わせの候補を複数出力するものとされ、例えば、ビューモデルVM1とビュー変換T1の組み合わせ、ビューモデルVM2とビュー変換T2の組み合わせ、・・・のような候補が出力される。
ビュー変換運動推定部216は、図3のビュー変換運動推定部115の場合と同様に、時刻sにおけるビュー変換Tsから時刻s+1におけるビュー変換T´s+1を推定するようになされている。
より具体的には、ビュー変換運動推定部216は、ある時刻において前景背景合成観測部203が出力した評価値Esに基づいて、各ビュー変換の事後確率を計算するようになされている。そして、ビュー及び変換推定部215が、各ビュー変換の事後確率に基づいて、次の時刻におけるビュー変換として適切なものを選択して出力することにより、ビュー変換の推定が行われるようになされている。
マルチビューモデルパラメータ212は、例えば、L個のビューモデルを有し、マルチビューモデルMV={M1,M2,M3,・・・ML}から構成される。M1,M2,M3,・・・MLのそれぞれは、例えば、学習の対象となる前景を、正面、背面、側面、・・・からみた画像に対応するものとされる。
マルチビューのビューモデルの場合、M1,M2,M3,・・・MLが、個々に幾何モデルと特徴量モデルを有するものとされ、M1,M2,M3,・・・MLのそれぞれをビューモデルと称することにする。
ビュー遷移推定部217は、時刻sのビューモデルMv,sから時刻s+1のビューモデルM´v,s+1を推定する。ここで、学習の対象となる前景には三次元の構造があると仮定できるため、例えば、M´v,s+1=F(Mv,s)の式が成立するモデルを仮定することができる。このモデルとして、例えば、HMMなどのダイナミクス学習推定モデルを用いることができる。
より具体的には、ビュー遷移推定部217は、ある時刻において前景背景合成観測部203が出力した評価値Esに基づいて、各ビュー遷移に対応するビューモデルの事後確率を計算するようになされている。そして、ビュー及び変換推定部215が、各ビューモデルの事後確率に基づいて、次の時刻におけるビューモデルとして適切なものを選択して出力することにより、ビューモデル(ビュー遷移)の推定が行われるようになされている。
マルチビューモデル・ビュー遷移学習部211は、ビューモデル学習部111の場合と同様に、前景のマルチビューモデルを学習する。すなわち、入力画像系列の各時刻の画像の画像特徴量において、前景背景合成観測部203により決定された対応関係に基づいて選択された特徴点に関して、上述した幾何モデルと特徴量モデルを学習する。この際、例えば、複数のビューモデルであるM1,M2,M3,・・・MLのそれぞれに対応付けられて幾何モデルと特徴量モデルが学習される。
また、マルチビューモデル・ビュー遷移学習部211は、ビューモデル学習部111の場合と異なり、さらに、ビュー遷移モデルを必要に応じて学習する。
ここで、ビュー遷移モデルは、ダイナミクスモデルとされ、具体的には、HMMなどの所定のダイナミクスモデルのパラメータが必要に応じて学習される。なお、ダイナミクスモデルのパラメータは、予め与えられるようにしてもよい。
ダイナミクスモデルの詳細な説明については後述する。また、幾何モデルのパラメータと特徴量モデルパラメータとから構成されるビューモデルのパラメータがどのような演算により算出されて学習されるかについても後述する。
ビュー遷移モデルパラメータ213には、上述したダイナミクスモデルのパラメータが記憶される。例えば、HMMの状態遷移確率の各値などがパラメータとされて記憶される。従って、前景のビュー遷移モデルの実体的な数値などはビュー遷移モデルパラメータ213に記憶される。
この際、ビュー遷移モデルパラメータ213に記憶されるパラメータは、それぞれ学習の対象となる前景に対応づけられて記憶されているようになされている。例えば、ノート型パーソナルコンピュータを前景として学習した場合は、ノート型パーソナルコンピュータを特定するインデックスなどが付されてHMMの状態遷移確率の各値などがパラメータとされて記憶される。また、例えば、人形を前景として学習した場合は、人形を特定するインデックスなどが付されてHMMの状態遷移確率の各値などがパラメータとされて記憶される。
このようにすることで、例えば、学習の対象となる物体の動きに応じたビュー遷移のダイナミクスモデルを効率的に学習させることができる。
ビュー及び変換情報出力部218は、ビュー及び変換推定部215により推定された各時刻におけるビューモデル、ビュー変換、および、各時刻における画像とビューモデルとの対応関係を出力する。ここで出力されたビュー変換、および、画像とビューモデルとの対応関係により、例えば、学習された前景が画像の中のどこに、どの大きさで、どの向きに存在するかを表すことができる。
マルチビューモデル・ビュー遷移出力部214は、マルチビューモデル・ビュー遷移学習部211により学習された前景のマルチビューモデルおよびビュー遷移モデルを出力する。ここで出力されたマルチビューモデルとビュー遷移モデルは、別の入力動画像に対して認識する際に利用できる。例えば、与えられた画像の中に前景がどこに、どの大きさで、どの向きに存在するかを求める際に、ビューモデル出力部113から出力されたビューモデルを利用できる。
図4の背景推定学習部205のマルチビューモデル・ビュー遷移学習部221乃至ビュー及び変換情報出力部228は、それぞれ前景推定学習部204のマルチビューモデル・ビュー遷移学習部221乃至ビュー及び変換情報出力部228と同様の機能ブロックであるため、詳細な説明は省略する。ただし、当然のことながら、背景推定学習部205は背景のマルチビューモデルのビュー遷移およびビュー変換を推定し、背景のマルチビューモデルおよびビュー遷移モデルを学習する。
次に、図3のビューモデル学習部111におけるビューモデルパラメータの学習について説明する。
本技術では、EMアルゴリズムを用いて算出する。すなわち、上述した式(1)を確率的生成モデルのモデル式に置き換えて、その確率的生成モデルに対してEMアルゴリズムを適用することで、ビューモデルパラメータを算出して学習する。なお、EMアルゴリズムの詳細については、例えば、「“Unsupervised Learning of Multiple Objects in Images” Michalis K. Titsias, Doctor Thesis, University of Edinburgh, 2005」などに詳細に開示されている。
まず、ビューモデルMのパラメータがm1,m2,m3,・・・mNで与えられるものとする。ビューモデルMのパラメータは、実際には、幾何モデルのパラメータ(例えば、各特徴点の座標値など)mG1,mG2,mG3,・・・mGNと、特徴量モデルのパラメータ(例えば、各特徴点の画素値など)mF1,mF2,mF3,・・・mFNとから構成される。以下適宜、M={m1,m2,m3,・・・mN}、MG={mG1,mG2,mG3,・・・mGN}、MF={mF1,mF2,mF3,・・・mFN}のように表すことにする。
また、時刻sにおける入力画像系列の画像特徴量Xsがパラメータとしてx1,x2,x3,・・・xNを有するものとする。画像特徴量Xsのパラメータは、実際には、幾何モデルのパラメータ(例えば、特徴点の座標値など)xG1,xG2,xG3,・・・xGNと、特徴量モデルのパラメータ(例えば、各特徴点の画素値など)xF1,xF2,xF3,・・・xFNとから構成される。以下適宜、Xs={x1,x2,x3,・・・xN}、XG,s={xG1,xG2,xG3,・・・xGN}、XF,s={xF1,xF2,xF3,・・・xFN}のように表すことにする。
さらに、時刻sにおいて出力されるビュー変換の候補として、T1、T2、・・・T100があるものとする。以下、適宜T={T1、T2、・・・T100}のように表すことにする。なお、ビュー変換の種類は全部でNT個存在するものとする。
上記を前提として、式(1)に対応する確率的生成モデルのモデル式を、式(3)により表すことができる。
ここで、PTkは、ビュー変換Tkの事前確率を表しており、Tkは、時刻sにおいて出力されるビュー変換の第k番目の候補とされる。そして、Cs,kは、時刻sにおいてビュー変換Tkが施された場合の画像特徴量のパラメータとビューモデルパラメータとの対応関係を表している。
また、上述したように、ビューモデルのパラメータは幾何モデルのパラメータと特徴量モデルのパラメータとから構成されている。従って、式(3)より幾何モデルについての確率的生成モデルのモデル式を、式(4)で表すことができ、特徴量モデルについての確率的生成モデルのモデル式を、式(5)で表すことができる。
上述した確率的生成モデルで表現されるビューモデルの学習は、全ての時刻の画像特徴量X1、X2、・・・Xsに関するP(X│M)の対数尤度LHをビューモデルパラメータに関して最大化する最尤推定の問題として定式化できる。そして、この問題はEMアルゴリズムを用いて解くことができる。なお、P(X│M)の対数尤度LHは、式(6)により表される。また、ここでは、抽出された画像特徴量の数(時刻sの数)をNxで表すこととする。
EMアルゴリズムにおけるEステップは、ビューモデルM={m1,m2,m3,・・・mN}が与えられたもとで、各時刻の画像特徴量X1、X2、・・・Xsに対するビュー変換T={T1、T2、・・・T100}の事後確率を求めることに相当する。すなわち、画像特徴量Xsが抽出(観測)された場合、ビュー変換がTkである確率P(Tk│Xs)として式(7)により求めることができる。
式(7)におけるP(Xs│Tk)は尤度であり、図3の前景背景合成観測部103により算出される。この尤度P(Xs│Tk)が上述した評価値Esとして用いられることになる。式(7)におけるPTkは、ビュー変換Tkが出力される事前確率であり、図3のビュー変換運動推定部115により算出される。そして、ビュー変換推定部114が最終的に式(7)を演算する。
一方、EMアルゴリズムのMステップでは、各時刻の各ビュー変換の事後確率P(Tk│Xs)が与えられたもとで、ビューモデルパラメータが算出される。M={m1,m2,m3,・・・mN}は、式(8)により算出することができる。
式(8)の演算は、図3のビューモデル学習部111により行われる。式(8)により求められたビューモデルパラメータ{m1,m2,m3,・・・mN}に基づいて、既にビューモデルパラメータ112に記憶されているビューモデルパラメータが更新されていく。このようにして、ビューモデルパラメータが学習されるのである。なお、式(8)においては、全部でNT個のビュー変換が存在することを前提としている。
つまり、ビュー変換推定部114がNT個のビュー変換のそれぞれの事後確率を都度計算し、これがビュー変換運動推定部115に記憶される。そして、ビュー変換推定部114が、ビュー変換運動推定部115から出力される事後確率に基づいて、ビュー変換を推定し、推定前景ビューが生成され、さらに合成ビューモデルが構成される。
そして、合成ビューモデルのビューモデルパラメータと、実際に入力された画像から抽出された画像特徴量とが比較され、前景背景合成観測部103により評価値が算出される。ここで算出された評価値に基づいて、ビュー変換推定部114が各ビュー変換のそれぞれの事後確率を計算し、ビューモデル学習部111が、ビューモデルパラメータをその事後確率によって重み付けして更新していくのである。
上記においては、図3のビューモデル学習部111におけるビューモデルパラメータの学習について説明したが、図3のビューモデル学習部121におけるビューモデルパラメータの学習も同様に行われる。
次に図4のマルチビューモデル・ビュー遷移学習部211によるビューモデルパラメータの学習について説明する。
まず、マルチビューモデルMvが{M1,M2,M3,・・・ML}から構成されるているものとする。ここで、ビューモデルM1がビューモデルパラメータ{m11,m12,m13,・・・m1N}を有し、ビューモデルM2がビューモデルパラメータ{m21,m22,m23,・・・m2N}を有し、・・・のように各ビューモデルがビューモデルパラメータを有している。そして、上述したように、ビューモデルのパラメータは、実際には、幾何モデルのパラメータと、特徴量モデルのパラメータとから構成される。
また、時刻sにおける入力画像系列の画像特徴量Xsがパラメータとしてx1,x2,x3,・・・xNを有するものとする。画像特徴量Xsのパラメータは、実際には、幾何モデルのパラメータ(例えば、特徴点の座標値など)xG1,xG2,xG3,・・・xGNと、特徴量モデルのパラメータ(例えば、各特徴点の画素値など)xF1,xF2,xF3,・・・xFNとから構成される。以下適宜、Xs={x1,x2,x3,・・・xN}、XG,s={xG1,xG2,xG3,・・・xGN}、XF,s={xF1,xF2,xF3,・・・xFN}のように表すことにする。
さらに、時刻sにおいて出力されるビュー変換の候補として、T1、T2、・・・T100があるものとする。以下、適宜T={T1、T2、・・・T100}のように表すことにする。なお、ビュー変換の種類は全部でNT個存在するものとする。
上記を前提として、式(2)に対応する確率的生成モデルのモデル式を、式(9)により表すことができる。式(9)は、画像特徴量Xsに対してのビューモデルMvとビュー変換Tkの評価値を表すものであり、図4の前景背景合成観測部203により算出され、これが評価値Esとしてビュー及び変換推定部215およびマルチビューモデル・ビュー遷移学習部211に供給される。
ここで、PMvは、マルチビューモデルの中のビューモデルMvの事前確率を表しており、PTkは、ビュー変換Tkの事前確率を表しており、Tkは、時刻sにおいて出力されるビュー変換の第k番目の候補とされる。そして、Cs,kは、時刻sにおいてビュー変換Tkが施された場合の画像特徴量のパラメータとビューモデルパラメータとの対応関係を表している。
なお、シングルビューの場合において説明したのと同様に、幾何モデルについての確率的生成モデルのモデル式と、特徴量モデルについての確率的生成モデルのモデル式も表すことができるが、ここでは省略する。
上述した確率的生成モデルで表現されるビューモデルの学習は、全ての時刻の画像特徴量X1、X2、・・・Xsに関するP(X│Mv)の対数尤度LHをビューモデルパラメータに関して最大化する最尤推定の問題として定式化できる。そして、この問題はEMアルゴリズムを用いて解くことができる。なお、P(X│Mv)の対数尤度LHは、式(10)により表される。
EMアルゴリズムにおけるEステップは、マルチビューモデルMv={M1,M2,M3,・・・ML}の各ビューモデルM1={m11,m12,m13,・・・m1N}、M2={m21,m22,m23,・・・m2N}・・・が与えられたもとで、各時刻の画像特徴量X1、X2、・・・Xsに対するマルチビューモデルMv={M1,M2,M3,・・・ML}およびビュー変換T={T1、T2、・・・T100}の事後確率を求めることに相当する。すなわち、画像特徴量Xsが抽出(観測)された場合、ビューモデルがMvである確率として式(11)、および、画像特徴量Xsが抽出(観測)された場合、ビュー変換がTkである確率P(Tk│Xs)として式(12)により求めることができる。
式(11)におけるP(Xs│Mv)はビューモデルに係る尤度であり、図4の前景背景合成観測部203により算出された式(9)による評価値に基づいてビュー及び変換推定部215が算出する。すなわち、式(9)により算出された評価値において、ビューモデルMvを1つ抽出して、そのビューモデルMvにおける各ビュー変換についての評価値の総和を演算することにより、それぞれのビューモデルに係る尤度が得られる。式(11)におけるPMvは、ビューモデルMvが推定される確率であり、図4のビュー遷移推定部217により算出される。そして、ビュー及び変換推定部215が最終的に式(11)を演算する。
式(12)におけるP(Xs│Tk)はビュー変換に係る尤度であり、図4の前景背景合成観測部203により算出された式(9)による評価値に基づいてビュー及び変換推定部215が算出する。すなわち、式(9)により算出された評価値において、ビュー変換Tkを1つ抽出して、そのビュー変換Tkにおける各ビューモデルについての評価値の総和を演算することにより、それぞれのビュー変換に係る尤度が得られる。式(12)におけるPTkは、ビュー変換Tkが出力される確率であり、図4のビュー変換運動推定部216により算出される。そして、ビュー及び変換推定部215が最終的に式(12)を演算する。
一方、EMアルゴリズムのMステップでは、各時刻の各ビューモデルの事後確率P(Mv│Xs)、および各時刻の各ビュー変換の事後確率P(Tk│Xs)が与えられたもとで、ビューモデルパラメータが算出される。Mv={mv1,mv2,mv3,・・・mvN}は、式(13)により算出することができる。
式(13)の演算は、図4のマルチビューモデル・ビュー遷移学習部211により行われる。式(13)により求められたビューモデルパラメータ{mv1,mv2,mv3,・・・mvN}に基づいて、既にマルチビューモデルパラメータ212に記憶されている各ビューモデルのビューモデルパラメータが更新されていく。なお、式(13)においては、全部でNT個のビュー変換が存在することを前提としている。
つまり、ビュー及び変換推定部215がNT個のビュー変換のそれぞれの事後確率を都度計算し、これがビュー変換運動推定部216に記憶される。また、ビュー及び変換推定部215がL個のビューモデル(ビュー遷移の結果)のそれぞれの事後確率を都度計算し、これがビュー遷移推定部217に記憶される。そして、ビュー及び変換推定部215が、ビュー変換運動推定部216から出力される事後確率に基づいてビュー変換を推定するとともに、ビュー遷移推定部217から出力される事後確率に基づいてビュー遷移を推定し、推定前景ビューが生成され、さらに合成ビューモデルが構成される。
そして、合成ビューモデルのビューモデルパラメータと、実際に入力された画像から抽出された画像特徴量とが比較され、前景背景合成観測部203により評価値が算出される。ここで算出された評価値に基づいて、ビュー及び変換推定部215が各ビュー変換のそれぞれの事後確率を計算するとともに、各ビューモデルのそれぞれの事後確率を計算する。さらに、マルチビューモデル・ビュー遷移学習部211が、ビューモデルパラメータをそれらの事後確率によって重み付けして更新していくのである。
なお、式(13)による演算により、例えば、マルチビューモデルを構成するL個のビューモデルのうち、1つのビューモデルのビューモデルパラメータが求められることになる。従って、マルチビューモデルを構成するビューモデルの数だけ、式(13)の演算が行われる。
このようにして、ビューモデルパラメータが学習されるのである。
また、上述したように、マルチビューモデル・ビュー遷移学習部211は、ビュー遷移モデルも学習する。例えば、式(11)におけるP(Mv│Xs)に基づいて、ビュー遷移モデルのパラメータが演算されて学習される。
上記においては、図4のマルチビューモデル・ビュー遷移学習部211における学習について説明したが、図4のマルチビューモデル・ビュー遷移学習部221における学習も同様に行われる。
次に、図5のフローチャートを参照して、図3のビューモデル学習装置100によるビューモデル学習処理の例について説明する。
ステップS21において、画像系列入力部101は、動画の入力を受け付ける。これにより、各時刻に対応づけられたフレームの画像が入力画像系列として、画像特徴量抽出部102に供給される。
ステップS22において、画像特徴量抽出部102は、ステップS21の処理に伴って入力された入力画像系列を構成する各時刻の画像から画像特徴量を抽出する。
ステップS23において、前景推定学習部104は、図6のフローチャートを参照して後述する前景推定処理を実行する。これにより、前景のビューモデルに対して複数のビュー変換が施された推定前景ビューが出力される。
ステップS24において、背景推定学習部105は、図7のフローチャートを参照して後述する背景推定処理を実行する。これにより、背景のビューモデルに対して複数のビュー変換が施された推定背景ビューが出力される。
ステップS25において、前景背景合成観測部103は、図8のフローチャートを参照して後述する合成観測処理を実行する。これにより、ステップS23の処理で出力された推定前景ビューとステップS24の処理で出力された推定背景ビューを合成して合成ビューモデルが生成され、ステップS22の処理で抽出された画像特徴量に対する合成ビューモデルの評価値が算出される。
なお、実際には、ステップS23乃至ステップS25の処理が動画の長さの分だけ繰り返し実行されたあと、処理がステップS26に進むことになる。
ステップS26において、前景推定学習部104は、図9のフローチャートを参照して後述する前景学習処理を実行する。これにより、ステップS25の処理に伴って得られた評価値に基づいて前景のビューモデルパラメータが更新される。
ステップS27において、背景推定学習部105は、図10のフローチャートを参照して後述する背景学習処理を実行する。これにより、ステップS25の処理に伴って得られた評価値に基づいて背景のビューモデルパラメータが更新される。
なお、実際には、例えば、所定の回数、または式(6)に示される対数尤度の変化量が所定の閾値以下となるまで、ステップS23乃至ステップS27の処理が繰り返し実行されることになる。
このようにしてビューモデル学習処理が実行される。
次に、図6のフローチャートを参照して、図5のステップS23の前景推定処理の詳細な例について説明する。
ステップS41において、ビュー変換運動推定部115は、時刻s-1におけるビュー変換Ts-1から時刻sにおけるビュー変換T´sを推定する。通常、前景の運動には規則性もしくは連続性があると仮定できるので、変換のダイナミクスについて、例えば、パーティクルフィルタなどのダイナミクス推定モデルが用いられ、運動が推定される。
ステップS42において、ビュー変換推定部114は、ステップS41のビュー変換運動推定部115による推定結果に基づいて、時刻sにおける適切なビュー変換Tsを推定する。この際、ビュー変換推定部114は、適切なビュー変換の候補を複数出力するものとされ、例えば、異なる100個のパラメータを持つアフィン変換がビュー変換の候補として出力される。具体的には、前景のビューモデルを並進移動される変換、拡大縮小させる変換、回転させる変換、これらの変換の組み合わせを総称したアフィン変換、もしくは投影変換が出力される。
ステップS43において、ビュー変換推定部114は、前景のビューモデルに対して、ステップS42の処理で推定された複数のビュー変換を施す。このとき、ビューモデルパラメータ112から前景のビューモデルのパラメータが読み出され、ビュー変換が施される。
ステップS44において、ビュー変換推定部114は、ステップS43の処理の結果得られた推定前景ビューを出力する。ここでは、ビュー変換の各候補に対応する複数の推定前景ビューがそれぞれ出力される。
このようにして、前景推定処理が実行される。
次に、図7のフローチャートを参照して、図5のステップS24の背景推定処理の詳細な例について説明する。
ステップS61において、ビュー変換運動推定部125は、時刻s-1におけるビュー変換Ts-1から時刻sにおけるビュー変換T´sを推定する。通常、背景の運動には規則的な連続性があると仮定できるので、変換のダイナミクスについて、例えば、パーティクルフィルタなどのダイナミクス推定モデルが用いられ、運動が推定される。
ステップS62において、ビュー変換推定部124は、ステップS61のビュー変換運動推定部125による推定結果に基づいて、時刻sにおける適切なビュー変換Tsを推定する。この際、ビュー変換推定部124は、適切なビュー変換の候補を複数出力するものとされ、例えば、異なる100個のパラメータを持つアフィン変換がビュー変換の候補として出力される。具体的には、例えば、前景の画像を並進移動させるアフィン変換、拡大縮小させるアフィン変換、回転させるアフィン変換、射影するアフィン変換などのパターンのアフィン変換が出力される。
ステップS63において、ビュー変換推定部124は、背景のビューモデルに対して、ステップS62の処理で推定された複数のビュー変換を施す。このとき、ビューモデルパラメータ122から背景のビューモデルのパラメータが読み出され、ビュー変換が施される。
ステップS64において、ビュー変換推定部124は、ステップS63の処理の結果得られた推定背景ビューを出力する。ここでは、ビュー変換の各候補に対応する複数の推定背景ビューがそれぞれ出力される。
あるいはまた、背景推定処理の場合、ステップS62において、ビュー変換の候補が1つだけ出力され、ステップS64において1つの推定背景ビューが出力されるようにしてもよい。例えば、前景を構成する物体が移動などする場合、前景と比較して、背景の動きが十分に小さいと考えられるからである。
このようにして、背景推定処理が実行される。
次に、図8のフローチャートを参照して、図5のステップS25の合成観測処理の詳細な例について説明する。
ステップS81において、前景背景合成観測部103は、前景背景の合成ビューモデルを構成する。
このとき、前景背景合成観測部103は、図6のステップS44の処理で出力された推定前景ビューと、図7のステップS64の処理で出力された推定背景ビューを合成する。さらに、前景背景合成観測部103は、図5のステップS22の処理で抽出された画像特徴量のパラメータと、合成ビューモデルのパラメータとの対応関係を決定する。
ステップS82において、前景背景合成観測部103は、ステップS22の処理で抽出された画像特徴量に対する、ステップS81の処理で構成された合成ビューモデルの評価値を算出する。
このようにして合成観測処理が実行される。
次に、図9のフローチャートを参照して、図5のステップS26の前景学習処理の詳細な例について説明する。
ステップS101において、ビュー変換推定部114およびビューモデル学習部111は、図8のステップS82の処理で算出された評価値であって、各時刻における合成ビューモデルの評価値をそれぞれ取得する。このとき、尤度P(Xs│Tk)が、各時刻に対応づけられて評価値として取得される。
ステップS102において、ビュー変換推定部114は、各ビュー変換の事後確率を求める。このとき、事後確率は、画像特徴量Xsが抽出(観測)された場合、ビュー変換がTkである確率P(Tk│Xs)として上述した式(7)により求められる。
なお、式(7)におけるPTkは、ビュー変換Tkが出力される確率であり、ビュー変換運動推定部115により、各ビュー変換に対応付けられて算出され、ビュー変換推定部114に供給されるものとする。
ステップS103において、ビューモデル学習部111は、ビューモデルパラメータを算出する。すなわち、ステップS102の処理で得られた各時刻の各ビュー変換の事後確率P(Tk│Xs)が与えられたもとで、ビューモデルパラメータが上述した式(8)により算出される。
ステップS104において、ビューモデル学習部111は、ステップS103の処理により得られたビューモデルパラメータに基づいて、ビューモデルパラメータ112を更新する。
このようにして前景学習処理が実行される。
次に、図10のフローチャートを参照して、図5のステップS27の背景学習処理の詳細な例について説明する。
ステップS121において、ビュー変換推定部124およびビューモデル学習部121は、図8のステップS82の処理で算出された評価値であって、各時刻における合成ビューモデルの評価値をそれぞれ取得する。このとき、尤度P(Xs│Tk)が、各時刻に対応づけられて評価値として取得される。
ステップS122において、ビュー変換推定部124は、各ビュー変換の事後確率を求める。このとき、事後確率は、画像特徴量Xsが抽出(観測)された場合、ビュー変換がTkである確率P(Tk│Xs)として上述した式(7)により求められる。
なお、式(7)におけるPTkは、ビュー変換Tkが出力される確率であり、ビュー変換運動推定部125により、各ビュー変換に対応付けられて算出され、ビュー変換推定部124に供給されるものとする。
ステップS123において、ビューモデル学習部121は、ビューモデルパラメータを算出する。すなわち、ステップS122の処理で得られた各時刻の各ビュー変換の事後確率P(Tk│Xs)が与えられたもとで、ビューモデルパラメータが上述した式(8)により算出される。
ステップS124において、ビューモデル学習部121は、ステップS123の処理により得られたビューモデルパラメータに基づいて、ビューモデルパラメータ122を更新する。
このようにして背景学習処理が実行される。
次に、図11のフローチャートを参照して、図4のビューモデル学習装置200によるビューモデル学習処理の例について説明する。
ステップS151において、画像系列入力部201は、動画の入力を受け付ける。これにより、各時刻に対応づけられた画像が入力画像系列として、画像特徴量抽出部202に供給される。
ステップS152において、画像特徴量抽出部202は、ステップS151の処理に伴って入力された入力画像系列を構成する各時刻の画像から画像特徴量を抽出する。
ステップS153において、前景推定学習部204は、図12のフローチャートを参照して後述する前景推定処理を実行する。これにより、例えば、前景のマルチビューモデルを構成するビューモデルのうちの適切なビューモデルおよび複数あるビュー変換のうちの適切なビュー変換の組み合わせの候補が複数出力される。例えば、ビューモデルVM1とビュー変換T1の組み合わせ、ビューモデルVM2とビュー変換T2の組み合わせ、・・・のような候補が出力される。これらの組み合わせにより得られる推定前景ビューがそれぞれ出力される。
ステップS154において、背景推定学習部205は、図13のフローチャートを参照して後述する背景推定処理を実行する。これにより、例えば、背景のマルチビューモデルを構成するビューモデルのうちの適切なビューモデルおよび複数あるビュー変換のうちの適切なビュー変換の組み合わせの候補が複数出力される。これらの組み合わせにより得られる推定背景ビューがそれぞれ出力される。
ステップS155において、前景背景合成観測部203は、図14のフローチャートを参照して後述する合成観測処理を実行する。これにより、ステップS153の処理で出力された推定前景ビューとステップS154の処理で出力された推定背景ビューを合成して合成ビューモデルが生成され、ステップS152の処理で抽出された画像特徴量に対する合成ビューモデルの評価値が算出される。
なお、実際には、ステップS153乃至ステップS155の処理が動画の長さの分だけ繰り返し実行されたあと、処理がステップS156に進むことになる。
ステップS156において、前景推定学習部204は、図15のフローチャートを参照して後述する前景学習処理を実行する。これにより、ステップS155の処理に伴って得られた評価値に基づいて前景のビューモデルパラメータが更新される。
ステップS157において、背景推定学習部205は、図16のフローチャートを参照して後述する背景学習処理を実行する。これにより、ステップS155の処理に伴って得られた評価値に基づいて背景のビューモデルパラメータが更新される。
なお、実際には、例えば、所定の回数、または式(10)に示される対数尤度の変化量が所定の閾値以下となるまで、ステップS23乃至ステップS27の処理が繰り返し実行されることになる。
このようにしてビューモデル学習処理が実行される。
次に、図12のフローチャートを参照して、図11のステップS153の前景推定処理の詳細な例について説明する。
ステップS171において、ビュー遷移推定部217は、時刻s−1のビューモデルMv,s−1から時刻sのビューモデルM´v,sを推定する。ここで、学習の対象となる前景には三次元の構造があると仮定できるため、例えば、HMMなどの確率的生成モデルが用いられて、ビューモデルの遷移が推定される。
ステップS172において、ビュー及び変換推定部215は、ステップS171のビュー遷移推定部217の推定結果に基づいて、ビューモデルの候補を推定する。この際、ビュー及び変換推定部215は、適切なビューモデルの候補を複数出力するものとされる。
ステップS173において、ビュー変換運動推定部216は、時刻s-1におけるビュー変換Ts-1から時刻sにおけるビュー変換T´sを推定する。通常、前景の運動には規則的な連続性があると仮定できるので、変換のダイナミクスについて、例えば、パーティクルフィルタなどのダイナミクス推定モデルが用いられ、運動が推定される。
ステップS174において、ビュー及び変換推定部215は、ステップS172のビュー変換運動推定部216による推定結果に基づいて、時刻sにおける適切なビュー変換Tsを推定する。この際、ビュー及び変換推定部215は、適切なビュー変換の候補を複数出力するものとされ、例えば、複数個のパターンのアフィン変換がビュー変換の候補として出力される。具体的には、例えば、前景の画像を並進移動させるアフィン変換、拡大縮小させるアフィン変換、回転させるアフィン変換、射影するアフィン変換などのパターンのアフィン変換が出力される。
ステップS175において、ビュー及び変換推定部215は、ステップS172の処理で出力されたビューモデルのそれぞれに対してステップS174の処理で出力されたビュー変換を施す。このとき、マルチビューモデルパラメータ212から、推定された各ビューモデルのパラメータが読み出され、ビュー変換が施される。
この際、例えば、ビューモデルとビュー変換の組み合わせについて、予め定められた個数の組み合わせが選定されてビュー変換が施される。例えば、ビューモデルVM1とビュー変換T1の組み合わせ、ビューモデルVM2とビュー変換T2の組み合わせ、・・・のようなビューモデルとビュー変換の組み合わせが100通り選定され、それぞれの組み合わせにおいてビュー変換が施される。
ステップS176において、ビュー及び変換推定部215は、ステップS175の処理の結果得られた推定前景ビューを出力する。ここでは、ビューモデルとビュー変換の組み合わせに対応する複数の推定前景ビューがそれぞれ出力される。
このようにして、前景推定処理が実行される。
次に、図13のフローチャートを参照して、図11のステップS154の背景推定処理の詳細な例について説明する。
ステップS191において、ビュー遷移推定部227は、時刻s−1のビューモデルMv,s−1から時刻sのビューモデルM´v,sを推定する。ここで、学習の対象となる背景には三次元の構造があると仮定できるため、例えば、HMMなどのダイナミクス学習推定モデルが用いられて、ビューモデルの遷移が推定される。
ステップS192において、ビュー及び変換推定部225は、ステップS191のビュー遷移推定部227の推定結果に基づいて、ビューモデルの候補を推定する。この際、ビュー及び変換推定部225は、適切なビューモデルの候補を複数出力するものとされる。
ステップS193において、ビュー変換運動推定部226は、時刻s-1におけるビュー変換Ts-1から時刻sにおけるビュー変換T´sを推定する。通常、背景の運動には規則性もしくは連続性があると仮定できるので、変換のダイナミクスについて、例えば、パーティクルフィルタなどのダイナミクス推定モデルが用いられ、運動が推定される。
ステップS194において、ビュー及び変換推定部225は、ステップS192のビュー変換運動推定部226による推定結果に基づいて、時刻sにおける適切なビュー変換Tsを推定する。この際、ビュー及び変換推定部225は、適切なビュー変換の候補を複数出力するものとされ、例えば、異なる100個のパラメータを持つアフィン変換がビュー変換の候補として出力される。具体的には、背景のビューモデルを並進移動される変換、拡大縮小させる変換、回転させる変換、これらの変換の組み合わせを総称したアフィン変換、もしくは投影変換が出力される。
ステップS195において、ビュー及び変換推定部225は、ステップS192の処理で出力されたビューモデルのそれぞれに対してステップS194の処理で出力されたビュー変換を施す。このとき、マルチビューモデルパラメータ222から、推定された各ビューモデルのパラメータが読み出され、ビュー変換が施される。
この際、例えば、ビューモデルとビュー変換の組み合わせについて、予め定められた個数の組み合わせが選定されてビュー変換が施される。例えば、ビューモデルとビュー変換の組み合わせが100通り選定され、それぞれの組み合わせにおいてビュー変換が施される。
ステップS196において、ビュー及び変換推定部225は、ステップS195の処理の結果得られた推定背景ビューを出力する。ここでは、ビューモデルとビュー変換の組み合わせに対応する複数の推定背景ビューがそれぞれ出力される。
あるいはまた、背景推定処理の場合、ステップS192においてビューモデルの候補が1つだけ出力され、ステップS194においてビュー変換の候補が1つだけ出力され、ステップS196において1つの推定背景ビューが出力されるようにしてもよい。例えば、前景を構成する物体が移動などする場合、前景と比較して、背景の動きが十分に小さいと考えられるからである。
このようにして、背景推定処理が実行される。
次に、図14のフローチャートを参照して、図11のステップS155の合成観測処理の詳細な例について説明する。
ステップS211において、前景背景合成観測部203は、前景背景の合成ビューモデルを構成する。
このとき、前景背景合成観測部203は、図12のステップS176の処理で出力された推定前景ビューと、図13のステップS196の処理で出力された推定背景ビューを合成する。さらに、前景背景合成観測部203は、図5のステップS152の処理で抽出された画像特徴量のパラメータと、合成ビューモデルのパラメータとの対応関係を決定する。
ステップS212において、前景背景合成観測部203は、ステップS152の処理で抽出された画像特徴量に対する、ステップS211の処理で構成された合成ビューモデルの評価値を算出する。このとき、上述した式(9)による演算が行われて、評価値が算出される。
このようにして合成観測処理が実行される。
次に、図15のフローチャートを参照して、図11のステップS156の前景学習処理の詳細な例について説明する。
ステップS231において、ビュー及び変換推定部215およびマルチビューモデル・ビュー遷移学習部211は、図14のステップS212の処理で算出された評価値であって、各時刻における合成ビューモデルの評価値をそれぞれ取得する。
ステップS232において、ビュー及び変換推定部215は、ステップS231で取得した評価値に基づいてビューモデルに係る尤度を算出する。このとき、尤度P(Xs│Mv)が、各時刻に対応づけられて算出される。
ステップS233において、ビュー及び変換推定部215は、ステップS231で取得した評価値に基づいてビュー変換に係る尤度を算出する。このとき、尤度P(Xs│Tk)が、各時刻に対応づけられて算出される。
ステップS234において、ビュー及び変換推定部215は、各ビューモデルの事後確率を求める。このとき、事後確率は、画像特徴量Xsが抽出(観測)された場合、ビューモデルがMvである確率P(Mv│Xs)として上述した式(11)により求められる。
ステップS235において、ビュー及び変換推定部215は、各ビュー変換の事後確率を求める。このとき、事後確率は、画像特徴量Xsが抽出(観測)された場合、ビュー変換がTkである確率P(Tk│Xs)として上述した式(12)により求められる。
なお、式(11)におけるPMvは、ビューモデルMvが出力される確率であり、ビュー遷移推定部217により、各ビューモデルに対応付けられて算出され、ビュー及び変換推定部215に供給されるものとする。式(12)におけるPTkは、ビュー変換Tkが出力される確率であり、ビュー変換運動推定部216により、各ビュー変換に対応付けられて算出され、ビュー及び変換推定部215に供給されるものとする。
ステップS236において、マルチビュー・ビュー遷移学習部211は、ビューモデルパラメータを算出する。すなわち、ステップS234の処理で得られた各時刻の各ビューモデルの事後確率P(Mv│Xs)、および、ステップS235の処理で得られた各ビュー変換の事後確率P(Tk│Xs)が与えられたもとで、ビューモデルパラメータが上述した式(13)により算出される。
ステップS237において、マルチビューモデル・ビュー遷移学習部211は、ステップS236の処理により得られたビューモデルパラメータに基づいて、マルチビューモデルパラメータ212を更新する。
このようにして前景学習処理が実行される。
次に、図16のフローチャートを参照して、図11のステップS157の背景学習処理の詳細な例について説明する。
ステップS251において、ビュー及び変換推定部225およびマルチビューモデル・ビュー遷移学習部221は、図14のステップS212の処理で算出された評価値であって、各時刻における合成ビューモデルの評価値をそれぞれ取得する。
ステップS252において、ビュー及び変換推定部225は、ステップS251で取得した評価値に基づいてビューモデルに係る尤度を算出する。このとき、尤度P(Xs│Mv)が、各時刻に対応づけられて算出される。
ステップS253において、ビュー及び変換推定部225は、ステップS251で取得した評価値に基づいてビュー変換に係る尤度を算出する。このとき、尤度P(Xs│Tk)が、各時刻に対応づけられて算出される。
ステップS254において、ビュー及び変換推定部225は、各ビューモデルの事後確率を求める。このとき、事後確率は、画像特徴量Xsが抽出(観測)された場合、ビューモデルがMvである確率P(Mv│Xs)として上述した式(11)により求められる。
ステップS255において、ビュー及び変換推定部225は、各ビュー変換の事後確率を求める。このとき、事後確率は、画像特徴量Xsが抽出(観測)された場合、ビュー変換がTkである確率P(Tk│Xs)として上述した式(12)により求められる。
なお、式(11)におけるPMvは、ビューモデルMvが出力される事前確率であり、ビュー遷移推定部227により、各ビューモデルに対応付けられて算出され、ビュー及び変換推定部225に供給されるものとする。式(12)におけるPTkは、ビュー変換Tkが出力される確率であり、ビュー変換運動推定部226により、各ビュー変換に対応付けられて算出され、ビュー及び変換推定部225に供給されるものとする。
ステップS256において、マルチビュー・ビュー遷移学習部221は、ビューモデルパラメータを算出する。すなわち、ステップS254の処理で得られた各時刻の各ビューモデルの事後確率P(Mv│Xs)、および、ステップS255の処理で得られた各ビュー変換の事後確率P(Tk│Xs)が与えられたもとで、ビューモデルパラメータが上述した式(13)により算出される。
ステップS257において、マルチビューモデル・ビュー遷移学習部221は、ステップS256の処理により得られたビューモデルパラメータに基づいて、マルチビューモデルパラメータ222を更新する。
このようにして背景学習処理が実行される。
例えば、従来の学習型画像処理においては、認識器を構成するために認識対象のモデルを学習する際に、学習データとして大量の画像データに対して認識対象のラベルを付した学習が行われていた。
例えば、顔認識における画像の学習においては、人物の名称および顔の向き、その人物の顔画像が表示されている領域を特定する情報などがラベルとして付される。また、物体認識における画像の学習においては、物体の名称および物体の向き、その物体が表示されている領域を特定する情報などがラベルとして付される。
このようなラベル付けは、例えば、学習型画像処理における学習の際の処理負荷を増大させ、短時間で学習を完了させることを困難なものとしていた。
これに対して、本技術を用いれば、大量の画像データに対して認識対象のラベルを付した学習などは不要となり、例えば、単に動画像などを入力するだけで、簡単に学習を完了させることができる。
また、本技術では、マルチビューモデルを構成する個々のビューモデルについてのビュー遷移推定がHMMなどを用いて確率的に行われるようにモデル化されている。このため、例えば、個々のビュー毎に学習を完了させていくなどの必要がなく、ビュー数が増えても、簡単に学習を完了させることができる。
さらに、本技術では、画像の中の前景と背景を分解し、それぞれ前景のビューモデルと背景のビューモデルとして学習させるようにしたので、例えば、実際の動画像のように前景と距離が近い背景が含まれる場合でも簡単に学習を完了させることができる。
従って、本技術によれば、従来の場合と比較してより少ない演算量で学習型画像処理を行うことができる。
図5乃至図10を参照して上述した処理においては、前景と背景がそれぞれシングルビューモデルにより表現されるものとし、前景と背景のそれぞれに同様のビュー変換が施されることを前提として説明した。また、図11乃至図16を参照して上述した処理においては、前景と背景がそれぞれ同様のマルチビューモデルにより表現されるものとし、前景と背景のそれぞれに同様のビュー変換が施されることを前提として説明した。
しかしながら、実際には、前景と背景とで、異なるビューモデル、異なるビュー変換が適用されるようにしてもよい。
例えば、前景はマルチビューモデルにより表現され、背景はシングルビューモデルにより表現されることとしてビューモデルの学習が行われるようにしてもよい。
あるいはまた、前景のビュー変換運動推定には、HMM、FNN、RNNなどのダイナミクス学習推定モデルが用いられ、背景のビュー変換運動推定には、パーティクルフィルタ、カンマンフィルタなどのダイナミクス推定モデルが用いられるようにしてもよい。
つまり、例えば、図4のビューモデル学習装置200の背景推定学習部205の構成を、図3のビューモデル学習装置100の背景推定学習部105に置き換えるなどの変形例も実現できる。また、例えば、前景推定学習部204のビュー変換運動推定部216とビュー遷移推定部217とが統合された構成とされ、背景推定学習部205のビュー遷移推定およびビュー変換運動推定とは異なる方式で推定が行われるなどの変形例を実現可能である。
このように、本技術によるビューモデルの学習、および、その学習結果を用いた画像の認識には、様々なバリエーションが存在する。この後、前景のビューモデルとビュー変換、および、背景のビューモデルとビュー変換を具体的に設定し、ビューモデルを学習させて画像を認識させる例について説明する。
すなわち、本技術を適用した画像処理装置による具体的なビューモデルの学習および画像の認識の例として、第1の具体例乃至第3の具体例について説明する。
[第1の具体例]
第1の具体例においては、図17に示されるような前景の画像が図18に示されるような背景の画像の中で移動する動画を入力して学習させ、画像の中のどの部分の領域が前景の画像であるかを認識させる。
いまの場合、図3のビューモデル学習装置100により、前景をシングルビューモデルとして学習させ、背景もシングルビューモデルとして学習させ、その後、学習結果であるビューモデルを用いて前景の画像を認識させることにする。
なお、ビューモデルを学習した後の画像の認識においても、ビューモデルを学習する際に行った場合と同様に、ビュー変換の推定、または、ビュー遷移の推定が行われるが、画像の認識を行う場合、通常、ビュー変換またはビュー遷移の候補が1つのみ出力される。
図17に示される前景の画像は、5×5画素の矩形の領域として構成され、各画素が白色または黒色とされた所定のパターンの画像とされている。
図18に示される背景の画像は、20×20画素の矩形の領域として構成され、各画素が白色または黒色とされた所定のパターンの画像とされている。
ここでは、画像系列入力部101に、次のような動画像が入力されるものとする。すなわち、各時刻の入力画像は背景中の所定の位置に前景を重ねて表示した画像とし、次の時刻における前景の位置を1画素分上下左右のいずれかに確率的に移動させることにより、背景中を前景が移動する入力画像系列とされる。
従って、第1の具体例では、背景の(またはカメラの)運動はなく、前景が並進運動のみ行うことを仮定する。なお、第1の具体例では、入力画像系列のバイナリパターン(0or1)をグレースケールパターン(0から1の連続値)に変換したものを画像特徴量として用いることにする。また、前景のビューモデルMFGおよび背景のビューモデルMBGも、所定数の画素により構成される矩形の領域であり、各画素の輝度値(画素値)が0から1の連続値で構成されていることとする。
図18に示される背景の上に、図17に示される前景が合成され、図19に示されるような時系列の画像となってビューモデル学習装置100に入力される。なお、図19は、動画として入力される画像の中の3つの時刻の画像を抽出したものとされる。図19において時刻s=s1の画像においては、前景の画像は、図中中央下の領域301に表示されている。時刻s=s2の画像においては、前景の画像は、図中中央やや右下の領域302に表示されている。時刻s=s3の画像においては、前景の画像は、図中中央の領域303に表示されている。
画像特徴量抽出部102は、上述したように入力画像系列のバイナリパターンをグレースケールパターンに変換したものを画像特徴量として抽出する。画像特徴量抽出部102は、例えば、時刻sにおいて画像特徴量Xsを抽出する。
前景背景合成観測部103は、前景推定学習部104により推定された推定前景ビューを背景推定学習部105により推定された推定背景ビューに合成する。推定前景ビューは、前景のビューモデルMFGに、所定のビュー変換Tkを施すことにより得られる。なお、いまの場合、背景に運動はないので、推定背景ビューは、背景のビューモデルMBGをそのまま用いることができる。前景背景合成観測部103は、前景背景の合成ビューモデルMk,FGBGを構成する。
前景背景の合成ビューモデルMk,FGBGは、式(14)により求められる。
式(14)における+を円で囲んだ演算子は、次の演算を意味するものとする。すなわち、ビュー変換Tkが施された前景のビューモデルMFGの幾何モデルTkMFG,Gと幾何的に対応する背景のビューモデルMBGの特徴点M´BG,Gを求める。いまの場合、前景の各画素を重ねる背景の座標位置がそれぞれ特徴点M´BG,Gとして求められることになる。さらに、特徴点M´BG,Gの特徴量M´BG,Fを前景のビューモデルMFGの特徴量モデルMFG,Fによって置き換える。
つまり、前景の各画素を重ねる背景の座標位置の画素の輝度値のそれぞれが、前景の各画素の輝度値に置き換えられるのである。
また、上述したように、ここでは前景は並進運動のみを行うものと仮定するので、式(16)におけるビュー変換Tkは、式(15)に示されるアフィン変換により表される。
そして、前景背景合成観測部103は、前景背景の合成ビューモデルMk,FGBGの尤度P(Xs│Mk,FGBG)を評価値として算出する。なお、尤度P(Xs│Mk,FGBG)を評価値として算出する。なお、いまの場合、前景背景の合成ビューモデルMk,FGBGの尤度は、ビュー変換Tkの尤度P(Xs│Tk)と同義であるから、上述の評価値は、式(16)により求めることができる。
式(16)におけるσとDは、それぞれ予め定められた所定のパラメータとされる。なお、式(16)において、CFGB,sが入力画像系列における時刻sの画像と合成ビューモデルとの対応関係を表している。すなわち、式(16)の最右辺の分子は、入力画像系列における時刻sの画像の各画素の輝度値と、前景背景の合成ビューモデルにおいて対応する各画素の輝度値の差分自乗値の総和を意味するものとなる。
式(16)により求められた尤度に基づいて、ビュー変換推定部114によるビュー変換の推定、ビューモデル学習部111によるビューモデルの学習などが行われる。
第1の具体例においては、ビュー変換推定部114およびビュー変換運動推定部115における推定がHMMアルゴリズムにより行われるものとする。
上述したように、前景は並進運動のみと仮定するため、背景のビューモデルの中の前景のビューモデルの位置と対応付けたHMMの状態遷移確率テーブルを用意する。いまの場合、状態遷移確率テーブルには、例えば、ビュー変換Taからビュー変換Tbに遷移する確率、ビュー変換Taからビュー変換Tcに遷移する確率、・・・が記述されることになる。すなわち、複数種類存在するビュー変換(例えば、右に1並進、左に1並進、・・・)のそれぞれがHMMの内部状態ノードとされ、時刻sのノードから時刻s+1のノードに遷移する確率が記述されたテーブルが用意される。
このとき、状態遷移確率テーブルには、HMMの内部状態ノードを2次元格子状に配置し、状態間の遷移確率を配置された2次元格子状において近傍となるもの以外の遷移確率をゼロにするような制約を加えることとする。
例えば、このような状態遷移確率テーブルを、予めビュー変換運動推定部115に記憶させておき、ビュー変換推定部114と連携して動作することで、後述するようにビュー変換推定が行われるようになされている。
HMMを用いたビュー変換の推定は、ある時刻において出力すべきビュー変換の事後確率を算出することで行われる。ある時刻において出力すべきビュー変換の事後確率は、式(17)により求めることができる。すなわち、各ビュー変換に対応する各状態における観測尤度P(Xs│Tk)と状態間の遷移確率P(Tk│Tk−1)に基づいて算出されることであり、さらにこれはHMMにおけるフォワード状態確率α(Tk)とバックワード状態確率β(Tk)とを用いて求めることができる。
なお、フォワード状態確率は、HMMの状態確率の計算で通常用いるフォワードアルゴリズムにより式(18)の通りに求めることができる。また、バックワード状態確率は、HMMの状態確率の計算で通常用いるバックワードアルゴリズムにより式(19)の通りに求めることができる。
フォワードアルゴリズムとバックアワードアルゴリズムの詳細については、例えば、‘‘パターン認識と機械学習(下)’’,C.M.ビショップ著,P.335(英語原書:‘‘Pattern Recognition and Machine Learning (Information Science and Statistics) ’’,Christopher M. BishopSpringer, New York, 2006.)(以下、文献Aという)に開示されている。
すなわち、画像特徴量抽出部102により、画像特徴量Xsが抽出された場合、例えば、ビュー変換推定部114が複数のビュー変換の候補を推定する。ここで推定されたそれぞれの候補について、HMMの状態遷移確率テーブルを参照して式(18)と式(19)の演算が行われる。これにより、ビュー変換の候補のそれぞれについてのフォワード状態確率α(Tk)とバックワード状態確率β(Tk)が得られる。
ビュー変換運動推定部115は、式(17)の演算を行い、ビュー変換の各候補についての事後確率を計算する。そして、例えば、ビュー変換推定部114がビュー変換の候補を出力する場合、出力すべき候補の数だけ、ビュー変換の事後確率に基づいてビュー変換が選択されて出力されることになる。
このようにして、推定されたビュー変換の候補を用いて、前景のビューモデルに対してビュー変換が施される。
また、ビューモデルの学習は、次のようにして行われる。
ビューモデル学習部111は、各時刻の画像特徴量Xsにおける前景のビューモデルに施された各ビュー変換TFG,kの事後確率P(TFG,k│Xs)を取得して、式(20)に示される演算により、前景のビューモデルMFGのビューモデルパラメータを算出する。
なお、式(20)におけるCX,FGBG,sは時刻sにおける画像特徴量Xsから前景に対応する画像特徴量を抽出することを意味している。
また、ビューモデル学習部121は、各時刻の画像特徴量Xsにおける前景のビューモデルに施された各ビュー変換TFG,kの事後確率P(TFG,k│Xs)を取得して、式(21)に示される演算により、背景のビューモデルM BGのビューモデルパラメータを算出する。
図20は、第1の具体例におけるビューモデルの学習、および画像の認識におけるビュー変換推定の仕組みを説明する図である。
同図に示されるように、前景のビューモデルMFGに対してビュー変換Tkが施され、推定前景ビューとされたものが、背景のビューモデルMGBに合成される。これにより、合成ビューモデルMk,FGBGが構成される。
図20においては、図中左上側のハッチングされた矩形の図形により前景のビューモデルMFGが示されている。また、図中左下側の白い矩形の図形により背景のビューモデルMBGが示されている。さらに、図中右上側の矩形の図形により合成ビューモデルMk,FGBGが示されている。
なお、上述したように、いまの場合、前景は並進運動のみを行うものと仮定するので、ビュー変換Tkは、式(15)に示されるアフィン変換により表される。従って、推定前景ビューは、前景のビューモデルMFGを、背景の中のいずれかの位置にそのまま移動させた画像となる。このとき、矩形の前景の左上の頂点の位置を、例えば、矩形の背景の左側の辺からの距離(または画素数)uと上側の辺からの距離(または画素数)vによって表すことができる。
この場合、状態遷移確率テーブルは、図20の右下に示されるようなものとなる。すなわち、状態遷移確率テーブルの水平方向の軸により上述したvの値が特定され、垂直方向の軸により上述したuの値が特定され、テーブル内の各ノードが、前景の左上の頂点の位置を、(u,v)に移動(並進)させるビュー変換を意味する。そして、各ノード間の遷移確率が記述されることになる。
また、上述したように、状態遷移確率テーブルには、HMMの内部状態ノードを2次元格子状に配置し、状態間の遷移確率を配置された2次元格子状において近傍となるもの以外の遷移確率をゼロにするような制約が加えられる。このようにすることで状態推定の効率を向上させることができる。
第1の具体例においては、ビュー変換推定にHMMのアルゴリズムを用いるようにしたので、例えば、ビュー変換の候補のそれぞれについてのフォワード状態確率α(Tk)とバックワード状態確率β(Tk)を簡単に得ることができる。その結果、式(17)に示されるビュー変換の各候補についての事後確率の計算を簡単に行うようにすることができ、より効率的にビュー変換推定することが可能となる。なお、HMMの状態遷移確率は通常のHMMの学習と同様にフォワード状態確率及びバックワード状態確率に基づいて更新する。
図21は、第1の具体例における画像の認識結果の例を示す図である。同図は、図17に示されるような前景の画像が図18に示されるような背景の画像の中で移動する動画の別の例を示している。図21は、動画として入力される画像の中の3つの時刻の画像を抽出したものとされる。なお、図21における前景は、図19に示される場合とは異なった動きをするものとする。
図21に示されるように、時刻s=s11、時刻s=s12、時刻s=s13のいずれの画像においても、図中の枠線で示されるように、前景の画像が認識されている。
[第2の具体例]
第2の具体例では、図4のビューモデル学習装置200における背景推定学習部の構成を図3の背景推定学習部105と同様のものとしたものを用いる。そして、そのビューモデル学習装置200により、前景をマルチビューモデルとして学習させ、背景はシングルビューモデルとして学習させ、その後、学習結果であるビューモデルを用いて前景の画像を認識させることにする。
なお、ビューモデルを学習した後の画像の認識においても、ビューモデルを学習する際に行った場合と同様に、ビュー変換の推定、または、ビュー遷移の推定が行われるが、画像の認識を行う場合、通常、ビュー変換またはビュー遷移の候補が1つのみ出力される。
また、第2の具体例においては、前景のビュー遷移推定にHMMを用い、前景のビュー変換推定にパーティクルフィルタを用い、背景のビュー変換推定にパーティクルフィルタを用いることにする。
図22は、第2の具体例において、入力画像系列として用いられる画像の例を示す図である。同図に示されるように、この入力画像系列は、例えば、カメラをノート型パーソナルコンピュータの周囲の異なる位置に移動させて様々な角度からノート型パーソナルコンピュータを撮影した画像とされている。例えば、ノート型パーソナルコンピュータに向かって左から右へカメラを移動させて動画像を撮影することでこのような時刻s=s1乃至時刻s=s6の画像が取得される。
第2の具体例の場合、ノート型パーソナルコンピュータが前景として学習される。また、ノート型パーソナルコンピュータが設置された机およびノート型パーソナルコンピュータの背後の本などが背景として学習される。
図22に示される入力画像系列には、前景のノート型パーソナルコンピュータの様々な角度から見た画像(ビュー)が含まれる。さらに、この入力画像系列の前景は、カメラが移動することによって背景に対して相対的に並進し、また拡大、縮小されるものと仮定する。
一方、この入力画像系列の背景は、カメラが移動することによって並進するものと仮定する。
なお、第2の具体例においては、入力画像系列のRGBパターンをグレースケールパターン(0から1の連続値)に変換したものを画像特徴量として用いることにする。
そうすると、前景のマルチビューモデルMFG,Vを構成する各ビューモデル{MFG,1、MFG,2、・・・MFG,L}のビューモデルパラメータは、それぞれ所定の大きさの矩形の領域の各画素の座標値(位置)および輝度値(画素値)として構成される。
また、背景のビューモデルMBGは、図22の各時刻の画像において表示されている背景の画像より大きい面積を有する矩形の画像とされ、その各画素の座標値(位置)および輝度値(画素値)がビューモデルパラメータとされる。
第2の具体例の場合、図22に示されるような入力画像系列が画像系列入力部201に入力される。画像特徴量抽出部202は、入力画像系列の各時刻における画像のRGBパターンをグレースケールパターンに変換したものを画像特徴量として抽出する。
前景背景合成観測部203は、前景推定学習部204から出力される推定前景ビューと、背景推定学習部105から出力される推定背景ビューを合成して合成ビューモデルMFGBGを構成する。
合成ビューモデルMFGBGは、式(22)により求められる。
式(22)における+を円で囲んだ演算子は、次の演算を意味するものとする。すなわち、ビュー変換TFG,kが施された前景のマルチビューモデルMFG,vの幾何モデルTFG,kMFG,v,Gと幾何的に対応する特徴点であって、ビュー変換TBG,kが施された背景のビューモデルMBGの特徴点M´BG,Gを求める。いまの場合、前景の各画素を重ねる背景の座標位置がそれぞれ特徴点M´BG,Gとして求められることになる。さらに、特徴点M´BG,Gの特徴量M´BG,Fを前景のビューモデルMFG,vの特徴量モデルMFG,v,Fによって置き換える。
つまり、前景の各画素を重ねる背景の座標位置の画素の輝度値のそれぞれが、前景の各画素の輝度値に置き換えられるのである。
また、上述したように、ここでは前景は並進し、また拡大、縮小されるものと仮定するので、式(22)におけるビュー変換TFG,kは、式(23)に示されるアフィン変換により表される。
さらに、上述したように、ここでは背景は並進のみするものと仮定するので、式(22)におけるビュー変換TBG,kは、式(24)に示されるアフィン変換により表される。
そして、前景背景合成観測部203は、時刻sにおける合成ビューモデルMFGBGの尤度P(Xs│MFGBG)を式(25)と式(26)により計算する。なお、後述する式(27)の計算に必要なビュー変換に関する尤度と、式(30)の計算に必要なビューモデルに関する尤度を、式(26)の最も右側の項に基づいて算出する(尤度を求める対象以外の変数について周辺化して算出する)。
なお、式(26)におけるσとDは、それぞれ予め定められた所定のパラメータとされる。式(26)におけるCFGBG,sは、入力画像系列の時刻sにおける画像と合成ビューモデルMFGBGの対応関係を表している。式(26)により得られた尤度は評価値として用いられる。
次に、前景のビュー変換推定とビュー遷移推定について説明する。
ビュー及び変換推定部215、およびビュー変換運動推定部216は、次のようにしてビュー変換推定を行う。
並進、拡大、縮小を仮定したビュー変換TFG,kの4つのパラメータを状態量とするパーティクルフィルタを用意する。ここで、4つのパラメータは、上述した式(23)の右辺の行列の中の第1行第1列の要素、第1行第3列の要素、第2行第2列の要素、第2行第3列の要素に該当する。パーティクルフィルタの各パーティクルには、前景のビュー変換を特定する4つのパラメータの組み合わせが対応付けられており、1つのパーティクルを特定することにより1つのビュー変換が特定される。
なお、パーティクルフィルタは、例えば、画像認識における対象トラッキング等でよく用いられている。パーティクルフィルタの詳細については、例えば、文献AのP.364などに開示されている。
パーティクルフィルタを用いたビュー変換推定は、ある時刻のビュー変換の事後確率を算出し、その事後確率に基づいて、次の時刻のビュー変換の事後確率を算出することにより行われる。
ある時刻(時刻s)のビュー変換の事後確率は、その時刻にサンプリングされたパーティクルの事後確率w(l) sによって近似できる。時刻sにサンプリングされたパーティクルの事後確率は、時刻sにおけるビュー変換に係る尤度に基づいて式(27)の通りに算出できる。なお、ビュー変換に係る尤度は、上述したように、前景背景合成観測部203により算出された評価値に基づいてビュー及び変換推定部215が算出する。
なお、式(27)では、時刻sにおけるビュー変換に係る尤度がP(Xs│T(l) s,k)、または、P(Xs│T(m) s,k)により表されている。式(27)における(l)と(m)は、パーティクルのインデックスを表しており、全部でM個のパーティクルが存在するものとする。上述したように、ビュー変換のそれぞれは、各パーティクルに対応づけられるものなので、ビュー変換にパーティクルのインデックスが付されている。
次の時刻(時刻s+1)のビュー変換のサンプリングに用いる確率は、式(27)の計算により得られた時刻sにサンプリングされたパーティクルの事後確率にw(l) sと、状態更新規則F(T(l) s+1,k│Ts,k)に基づいて、式(28)により計算する。
ここで、状態更新則は、例えば、時刻sのビュー変換Ts,kのパラメータの状態量xsに関して式(29)で与えられる。
これは、状態量xsが時刻s+1において状態量xsの分散σの正規分布で表現される近傍にあることを表している。例えば、学習、認識の対象となる前景の運動が緩やかである場合には、この状態更新規則が十分に有効である。一方、学習、認識の対象となる前景の運動がその仮定を外れる場合には、対象の運動を考慮した状態更新則を設計したり、サンプルから状態更新モデルを学習する必要がある。
このようにして、ビュー変換運動推定部216が、時刻s+1におけるビュー変換の事後確率を、ビュー変換の種類(4つのパラメータの組み合わせ)毎に算出する。そして、例えば、ビュー及び変換推定部215がビュー変換の候補を出力する場合、出力すべき候補の数だけ、時刻s+1におけるビュー変換の事後確率に基づいてビュー変換が選択されて出力されることになる。
このようにして、推定されたビュー変換の候補を用いて、前景のビューモデルに対してビュー変換が施される。
なお、ここでは、パーティクルフィルタを前景と背景とで個別に適用することを前提として説明するが、合成ビューモデルを作成する際には、前景のパーティクルおよび背景のパーティクルから、それぞれ確率的に(例えば一様分布確率に基づいて)パーティクルを選択することとする。そして、そのパーティクルが持つビュー変換パラメータの状態量に基づいて、前景背景合成ビューモデルが構成されることとする。
また、ビュー及び変換推定部215、およびビュー遷移推定部217は、次のようにしてビュー遷移推定を行う。
前景のマルチビューモデルの中の複数のビューモデルのそれぞれがHMMの内部状態ノードとされたHMMの状態遷移確率テーブルを用意する。いまの場合、状態遷移確率テーブルには、例えば、ビューモデルMaからビューモデルMbに遷移する確率、ビューモデルMaからビューモデルMcに遷移する確率、・・・が記述されることになる。
このとき、状態遷移確率テーブルには、HMMの内部状態ノードを2次元格子状に配置し、状態間の遷移確率を配置された2次元格子状において近傍となるもの以外の遷移確率をゼロにするような制約を加えることとする。前景は、何らかの3次元構造を持つと仮定でき、その3次元構造から生まれる複数のビュー間の遷移はその3次元構造を覆う2次元平面上で起こると仮定できるからである。さらに、より厳密には球面上に配置する方法も可能である。
例えば、このような状態遷移確率テーブルを、予めビュー遷移推定部217に記憶させておき、ビュー及び変換推定部215と連携して動作することで、後述するようにビュー遷移の推定が行われるようになされている。
HMMを用いたビューの推定は、ある時刻におけるビューモデルの事後確率を算出することにより行われる。ある時刻におけるビューモデルの事後確率は、各状態における観測尤度P(Xs│MFG,v)と状態間の遷移確率P(MFG,v│MFG,v´)に基づいて算出されるものであり、さらにこれはHMMにおけるフォワード状態確率α(MFG,v)とバックワード状態確率β(MFG,v)とを用いて、式(30)により求めることができる。
なお、フォワード状態確率は、HMMの状態確率の計算で通常用いるフォワードアルゴリズムにより式(31)の通りに求めることができる。また、バックワード状態確率は、HMMの状態確率の計算で通常用いるバックワードアルゴリズムにより式(32)の通りに求めることができる。
すなわち、画像特徴量抽出部202により、時刻sにおいて画像特徴量Xsが抽出された場合、例えば、ビュー及び変換推定部215が複数のビュー遷移の候補を推定する。ここで推定されたそれぞれの候補について、HMMの状態遷移確率テーブルを参照して式(31)と式(32)の演算が行われる。これにより、ビュー変換の候補のそれぞれについてのフォワード状態確率α(MFG,v)とバックワード状態確率β(MFG,v)が得られる。
このようにして、ビュー遷移推定部217が、次の時刻において遷移すべきビューモデルの事後確率を、ビューモデル毎に算出する。そして、例えば、ビュー及び変換推定部215がビュー遷移の候補を出力する場合、出力すべき候補の数だけ、次の時刻において遷移すべきビューモデルの事後確率に基づいてビューモデルが選択されて出力されることになる。
このようにして、ビュー遷移推定されて出力された前景のビューモデルに対して、上述のように推定されたビュー変換の候補を用いたビュー変換が施される。
次に、背景のビュー変換について説明する。
ビュー変換推定部124、およびビュー変換運動推定部125は、次のようにしてビュー変換推定を行う。
並進を仮定したビュー変換TBG,kの2つのパラメータを状態量とするパーティクルフィルタを用意する。ここで、2つのパラメータは、上述した式(24)の右辺の行列の中の第1行第3列の要素、第2行第3列の要素に該当する。
そして、前景のビュー変換において説明した場合と同様に、次の時刻でサンプルすべきパーティクルの事後確率が算出され、その事後確率に基づいて各ビュー変換が候補として出力されることになる。
このようにして、推定されたビュー変換の候補を用いて、背景のビューモデルに対してビュー変換が施される。
なお、ここでは、パーティクルフィルタを前景と背景とで個別に適用することを前提として説明するが、合成ビューモデルを作成する際には、前景のパーティクルおよび背景のパーティクルから、それぞれ確率的に(例えば一様分布確率に基づいて)パーティクルを選択することとする。そして、そのパーティクルが持つビュー変換パラメータの状態量に基づいて、前景背景合成ビューモデルが構成されることとする。
次に、ビューモデルの学習について説明する。
マルチビューモデル・ビュー遷移学習部211は、次のようにして前景のマルチビューモデルを構成する各ビューモデルのビューモデルパラメータを算出する。
すなわち、マルチビューモデル・ビュー遷移学習部211は、上述したようにして求めたビュー変換の事後確率と、ビューモデルの事後確率に基づいて、マルチビューモデルを構成するビューモデルMFG,vのビューモデルパラメータを式(33)によって演算する。
なお、式(33)において、前景のビューモデルに対して施されるビュー変換がTFG,kとして表されており、合計NT個のビュー変換の種類が存在するものとされている。また、式(33)による演算により、例えば、マルチビューモデルを構成するL個のビューモデルのうち、1つのビューモデルのビューモデルパラメータが求められることになる。従って、マルチビューモデルを構成するビューモデルの数だけ、式(13)の演算が行われる。
また、ビューモデル学習部121は、次のようにして背景のビューモデルのビューモデルパラメータを算出する。
すなわち、ビューモデル学習部121は、上述したようにして求めたビュー変換の事後確率に基づいて、ビューモデルMBGのビューモデルパラメータを式(34)によって演算する。
なお、式(34)において、背景のビューモデルに対して施されるビュー変換がTBG,kとして表されており、合計NT個のビュー変換の種類が存在するものとされている。
図23は、第2の具体例におけるビューモデルの学習を説明する図である。
図23に示されるように、第2の具体例では、前景のマルチビューモデルMFG,Vを構成する所定のビューモデルに対してビュー変換TFG,kが施される。これが、推定前景ビューとされる。また、背景のビューモデルMBGに対してビュー変換TBG,kが施される。これが推定背景ビューとされる。
この例では、図中の左上側において、前景のマルチビューモデルが概念的に示されている。すなわち、いまの場合、前景のマルチビューモデルが9個のビューモデルから構成されるものとし、図中の左上側に前景のマルチビューモデルMFG,Vを構成するビューモデルとして9個のビューモデルが、それぞれ矩形の図で示されている。
また、この例では、背景のビューモデルMBGは、合成ビューモデルMFGBG,kにおいて表示されている背景の画像より大きい面積を有する矩形の画像とされている。すなわち、図中の左下側にしめされた大きい矩形により、背景のビューモデルMBGの全体の大きさ(面積)が示されており、小さい矩形により、背景推定ビューとして出力される部分の大きさ(面積)が示されている。
そして、推定前景ビューと推定背景ビューが合成されて合成ビューモデルMFGBG,kが構成される。すなわち、図中の右側において、合成ビューモデルMFGBG,kとして、白い矩形とハッチングされた矩形が重ねられて表示されている。白い矩形は、図中の左下側に示される背景のビューモデルMBGの中から抽出された領域の画像にビュー変換TBG,kが施された背景推定ビューとされる。また、ハッチングされた矩形は、図中の左上側に示される前景のマルチビューモデルMFGの中から選択されたビューモデルに対してビュー変換TFG,kが施された推定前景ビューとされる。
第2の具体例においては、前景と背景のビュー変換推定にパーティクルフィルタを用いるようにしたので、例えば、ビュー変換のパラメータが多い場合においても、ビュー変換の推定を効率的に行うことができる。そして、例えば、式(28)に示されるようなビュー変換の事後確率の計算を簡単に行うことができる。
また、第2の具体例においては、前景のビュー遷移推定にHMMのアルゴリズムを用いるようにしたので、例えば、ビュー遷移の候補のそれぞれについてのフォワード状態確率α(Tk)とバックワード状態確率β(Tk)を簡単に得ることができる。その結果、式(30)に示されるビュー遷移の各候補についての事後確率の計算を簡単に行うようにすることができ、より効率的にビュー変換推定することが可能となる。
さらに、上述したように、状態遷移確率テーブルには、HMMの内部状態ノードを2次元格子状に配置し、状態間の遷移確率を配置された2次元格子状において近傍となるもの以外の遷移確率をゼロにするような制約が加えられる。このようにすることで状態推定の効率を向上させることができる。
図24は、第2の具体例において、図22に示されるような入力画像系列を入力して、前景のマルチビューモデルおよび背景のビューモデルを学習させて画像を認識させた結果を説明する図である。なお、図24の右上に示される画像が、学習すべき画像として入力された画像とされる。
図24の図中左上側に示されるように、前景のマルチビューモデルとして、ノート型パーソナルコンピュータを、それぞれ異なる角度から見た画像に対応する9個のビューモデルが学習されている。また、図24の図中左下側に示されるように、背景のビューモデルとして、ノート型パーソナルコンピュータが設置された机およびノート型パーソナルコンピュータの背後の本などの画像に対応するビューモデルが学習されている。
図24に示されるようにビューモデルは、実際の画像とは異なり、前景または背景の対象物がぼんやりと表示されている。これは、上述したように、ビューモデルのパラメータである各画素の輝度値が、ビュー変換またはビュー遷移の事後確率に基づいて重み付けされるなどして更新されるためである。
そして、図24の図中右下側に示されるように、合成ビューモデルが構成されている。すなわち、前景のマルチビューモデルを構成する所定のビューモデルに対して所定のビュー変換が施された推定前景ビューと、背景のビューモデルに対して所定のビュー変換が施された推定背景ビューとが重ねて表示された合成ビューモデルが構成されている。
図24においては、入力画像とほぼ同様の合成ビューモデルが構成されており、適切に画像の学習及び認識が行われていることが分かる。
[第3の具体例]
第3の具体例においては、図3のビューモデル学習装置100により、前景をシングルビューモデルとして学習させ、背景もシングルビューモデルとして学習させ、その後、学習結果であるビューモデルを用いて前景の画像を認識させることにする。
なお、ビューモデルを学習した後の画像の認識においても、ビューモデルを学習する際に行った場合と同様に、ビュー変換の推定が行われるが、画像の認識を行う場合、通常、ビュー変換の候補が1つのみ出力される。
また、第3の具体例においては、ビューモデルとして局所特徴量(ハリスコーナー)を用いることとし、ビュー変換推定にはパーティクルフィルタを用いることとする。
図25は、第3の具体例において、入力画像系列として用いられる画像の例を示す図である。同図に示されるように、この入力画像系列は、例えば、机の上の人形(ぬいぐるみ)を、手動で姿勢を固定して前後左右に移動させ、カメラで撮影したものとされる。例えば、人形を徐々に移動させて動画像を撮影することでこのような時刻s=s1乃至時刻s=s3の画像が取得される。
第3の具体例の場合、人形が前景として学習される。また、人形が設置された机、および人形の背後のコーヒーカップ、テーブルタップなどが背景として学習される。
第3の具体例の場合、図25に示される入力画像系列の前景の人形は、背景に対して相対的に並進し、拡大、または、縮小されるものと仮定する。
一方、この入力画像系列の背景は、カメラが移動することによって並進するものと仮定する。
第3の具体例においては、入力画像系列の各画像のRGBパターンをグレースケールパターン(0から1の連続値)に変換し、ハリスコーナー検出方法により検出された特徴点位置の集合を画像特徴量として用いることとする。図25に示される時刻s=s1乃至時刻s=s3の画像のそれぞれにおいて、人形、机、コーヒーカップ、テーブルタップの各点において十字などの形状で示される点がプロットされている。これらの点がハリスコーナー検出方法により検出された特徴点位置とされる。
なお、ここでは、ハリスコーナー検出方法により特徴点を検出する例について説明するが、特徴点の検出は他の方式により行われるようにしてもよい。
従って、第3の具体例の場合、画素の輝度値などを画像特徴量に含める必要はなく、各特徴点の座標位置などによってのみ画像特徴量が構成されることになる。例えば、各時刻における画像特徴量X1、X2、・・・XsにおけるX1は、時刻1の画像から検出された特徴点の座標位置の集合(x1,y9)、(x18,y31)、・・・の情報によって構成されることになる。また、X1は、時刻1の画像から検出された特徴点の座標位置の集合(x3,y6)、(x11,y38)、・・・の情報によって構成されることになる。このため、第3の具体例の場合、ビューモデルパラメータは、幾何モデルのみを含むものとすれば足り、特徴量モデルを含む必要はない。
ハリスコーナー検出方法においては、通常画像のエッジが特徴点として検出される。例えば、前景となる人形の画像の中のエッジとなる点、背景となるコーヒーカップ、テーブルタップの画像の中のエッジとなる点が特徴点として検出される。
第3の具体例の場合、人形の画像の中の第1番目のエッジ点、第2番目のエッジ点、・・・の各特徴点の集合、および、2次元空間内におけるそれぞれの特徴点についての相対的位置関係を前景のビューモデルとして学習させることになる。また、第3の具体例の場合、コーヒーカップ、テーブルタップの画像の中の第1番目のエッジ点、第2番目のエッジ点、・・・の各特徴点の集合、および、2次元空間内におけるそれぞれの特徴点について相対的位置関係を背景のビューモデルとして学習させることになる。
なお、特徴点の情報として幾何モデル(座標位置など)の他に、ステアラブルフィルタなどの特徴量モデルを追加するようにしてもよい。
第3の具体例の場合、図25に示されるような入力画像系列が画像系列入力部101に入力される。画像特徴量抽出部102は、入力画像系列の各時刻における画像からハリスコーナー検出方法により特徴点を検出する。
前景背景合成観測部103は、前景推定学習部104から出力される推定前景ビューと、背景推定学習部105から出力される推定背景ビューを合成して合成ビューモデルMFGBGを構成する。
推定前景ビューは、前景のビューモデルMFGに対してビュー変換TFG,kを施して得られるものなので、TFG,kMFGと記述することにする。また、推定背景ビューは、背景のビューモデルMBGに対してビュー変換TBG,kを施して得られるものなので、TBG,kMBGと記述することにする。
合成ビューモデルMFGBGは、式(35)により求められる。
式(35)における+を円で囲んだ演算子は、2組の特徴点の集合を足し合わせる演算を意味するものとする。すなわち、画像特徴量および合成ビューモデルは、どちらも特徴点の位置の情報によって構成される。従って、合成ビューモデルMFGBGは、推定前景ビューTFG,kMFGによって表される特徴点の集合と、推定背景ビューTBG,kMBGによって表される特徴点の集合とを足したものである。
また、上述したように、ここでは前景は並進し、また拡大、縮小されるものと仮定するので、式(35)におけるビュー変換TFG,kは、式(36)に示されるアフィン変換により表される。
さらに、上述したように、ここでは背景は並進のみするものと仮定するので、式(35)におけるビュー変換TBG,kは、式(37)に示されるアフィン変換により表される。
そして、前景背景合成観測部103は、時刻sにおける合成ビューモデルMFGBGの尤度P(Xs│MFGBG)を式(38)と式(39)により計算する。
なお、式(39)におけるσとDは、それぞれ予め定められた所定のパラメータとされる。式(39)におけるCFGBG,sは、入力画像系列の時刻sにおける画像の特徴点と合成ビューモデルMFGBGの特徴点との対応関係を表している。式(39)により得られた尤度は評価値として用いられる。
また、この際、入力画像系列の時刻sにおける画像の特徴点と合成ビューモデルMFGBGの特徴点との対応関係は、例えば、次のようにして定められる。すなわち、対応付けられた特徴点ペア間の距離が集合全体として小さくなるように、組み合わせ最適化アルゴリズムのオークションアルゴリズムにより特徴点ペアが選択される。
なお、オークションアルゴリズムについては、「組合せ最適化[短編集]、久保幹雄・松井知己著 1999年01月10日 ISBN978-4-254-12617-4 C3341 朝倉書店 3章 割当問題」などに詳細に開示されている。
そして、例えば、上述したように対応付けられた特徴点ペア間の距離に基づく尤度が式(38)と式(39)により計算されるのである。
次に、前景と背景のビュー変換について説明する。
前景のビュー変換については、ビュー変換推定部114、およびビュー変換運動推定部115が、次のようにしてビュー変換推定を行う。
ここでは並進、拡大、縮小を仮定したビュー変換TFG,kの4つのパラメータを状態量とするパーティクルフィルタを用意する。ここで、4つのパラメータは、上述した式(36)の右辺の行列の中の第1行第1列の要素、第1行第3列の要素、第2行第2列の要素、第2行第3列の要素に該当する。パーティクルフィルタの各パーティクルには、前景のビュー変換を特定する4つのパラメータの組み合わせが対応付けられており、1つのパーティクルを特定することにより1つのビュー変換が特定される。
第2の具体例において説明した通り、パーティクルフィルタを用いたビュー変換推定は、ある時刻のビュー変換の事後確率を算出し、その事後確率に基づいて、次の時刻のビュー変換の事後確率を算出することにより行われる。
すなわち、ある時刻(時刻s)のビュー変換の事後確率は、その時刻にサンプリングされたパーティクルの事後確率w(l) sによって近似できる。時刻sにサンプリングされたパーティクルの事後確率は、時刻sにおけるビュー変換に係る尤度に基づいて算出できる。なお、ビュー変換に係る尤度は、上述したように、前景背景合成観測部103により算出された評価値に基づいてビュー変換推定部114が算出する。
次の時刻(時刻s+1)のビュー変換をサンプリングに用いる確率は、時刻sにサンプリングされたパーティクルの事後確率にw(l) sと、状態更新規則F(T(l) s+1,k│Ts,k)に基づいて計算される。
このようにして、ビュー変換運動推定部115が、時刻s+1におけるビュー変換の事後確率を、ビュー変換の種類(4つのパラメータの組み合わせ)毎に算出する。そして、例えば、ビュー変換推定部114がビュー変換の候補を出力する場合、出力すべき候補の数だけ、時刻s+1におけるビュー変換の事後確率に基づいてビュー変換が選択されて出力されることになる。
このようにして、推定されたビュー変換の候補を用いて、前景のビューモデルに対してビュー変換が施される。
背景のビュー変換については、ビュー変換推定部124、およびビュー変換運動推定部125が、次のようにしてビュー変換推定を行う。
並進を仮定したビュー変換TBG,kの2つのパラメータを状態量とするパーティクルフィルタを用意する。ここで、2つのパラメータは、上述した式(37)の右辺の行列の中の第1行第3列の要素、第2行第3列の要素に該当する。
そして、前景のビュー変換において説明した場合と同様に、次の時刻でサンプルすべきパーティクルの事後確率が算出され、その事後確率に基づいて各ビュー変換が候補として出力されることになる。
このようにして、推定されたビュー変換の候補を用いて、前景のビューモデルに対してビュー変換が施される。
次に、ビューモデルの学習について説明する。
ビューモデル学習部111は、次のようにして前景のビューモデルのビューモデルパラメータを算出する。
すなわち、ビューモデル学習部111は、上述したようにして求めたビュー変換の事後確率に基づいて、ビューモデルMFGのビューモデルパラメータを式(40)によって演算する。
なお、式(40)において、前景のビューモデルに対して施されるビュー変換がTFG,kとして表されており、合計NT個のビュー変換の種類が存在するものとされている。
また、ビューモデル学習部121は、次のようにして背景のビューモデルのビューモデルパラメータを算出する。
すなわち、ビューモデル学習部121は、上述したようにして求めたビュー変換の事後確率に基づいて、ビューモデルMBGのビューモデルパラメータを式(41)によって演算する。
なお、式(41)において、背景のビューモデルに対して施されるビュー変換がTBG,kとして表されており、合計NT個のビュー変換の種類が存在するものとされている。
図26乃至図28は、第3の具体例におけるビューモデルの学習を説明する図である。
図26に示されるように、第3の具体例では、前景のビューモデルMFGに対してビュー変換TFG,kが施される。これが、推定前景ビューとされる。また、背景のビューモデルMBGに対してビュー変換TBG,kが施される。これが推定背景ビューとされる。
この例では、前景のビューモデルMFGとして図中左上側に示される矩形の中に複数の点が示されている。これらの点のそれぞれが前景のビューモデルを構成する特徴点とされている。
また、この例では、背景のビューモデルMBGとして図中左下側に示される矩形の中に複数の点が示されている。これらの点のそれぞれが背景のビューモデルを構成する特徴点とされている。
そして、推定前景ビューと推定背景ビューが合成されて合成ビューモデルMFGBG,kが構成される。上述したように、合成ビューモデルは、推定前景ビューによって表される特徴点の集合と、推定背景ビューによって表される特徴点の集合とを足したものとされる。この例では、合成ビューモデルMFGBG,kとして図中右側中央に示される矩形の中に複数の点が示されている。これらの点のそれぞれが合成ビューモデルを構成する特徴点とされている。
第3の具体例においては、第1の具体例または第2の具体例の場合と異なり、画像特徴量やビューモデルパラメータに局所特徴量を用いるようにした。従って、第1の具体例または第2の具体例の場合と比較して、照明条件など環境の変化に対してロバストな認識を行うことが可能となる。その結果、例えば、低コストで高速な画像の学習、認識を可能とする装置を実現することができる。
図27と図28は、第3の具体例において、図25に示されるような入力画像系列を入力して、前景のビューモデルおよび背景のビューモデルを学習させて画像を認識させた結果を説明する図である。
図27と図28は、前景または背景の特徴点として認識された点が図中の十字または図中の円で示されるプロット点として表示されている。図27と図28において図中の左側(前景推定)の画像に重ねて表示されている円などの形状で示されるプロット点が、前景の特徴点として学習および認識(推定)された点を表している。また、図27と図28において図中の右側(背景推定)の画像に重ねて表示されている円などの形状で示されるプロット点が、背景の特徴点として学習および認識(推定)された点を表している。
なお、図27は、学習の初期において画像を認識させた結果を説明する図であり、図28は、充分な学習が行われた後で画像を認識させた結果を説明する図である。
図27に示されるように、学習の初期においては、例えば、前景推定の画像に示されるように、背景の一部が前景の特徴点としてプロットされており、誤って背景の一部が前景として認識されている。また、例えば、図27の背景推定の画像に示されるように、前景の一部が背景の特徴点としてプロットされており、誤って前景の一部が背景として認識されている。すなわち、学習の初期においては、前景と背景が適切に認識できていないことが分かる。
これに対して、図28に示されるように、充分な学習が行われた後においては、前景と背景がほぼ適切に認識されていることが分かる。すなわち、図28に示される認識結果によれば、入力画像の前景の特徴量と背景の特徴点をほぼ正しくプロットした合成ビューモデルが構成されていることが分かる。
以上においては、第1の具体例、第2の具体例、および第3の具体例として、本技術を適用した画像処理装置による具体的なビューモデルの学習および画像の認識の例を説明した。
しかし、当然のことながら、現実には、上記の以外の具体例も多々実現され得る。例えば、前景をマルチビューモデルによって学習し、さらに背景もマルチビューモデルによって学習する具体例も実現できる。また、例えば、前景の運動を、並進、拡大、縮小と仮定するとともに、背景の運動も並進、拡大、縮小と仮定する具体例も実現できる。
あるいはまた、前景、背景の運動として、さらに回転、投影などを仮定するようにすることもできる。
このように、本技術によるビューモデルの学習、および、その学習結果を用いた画像の認識には、様々なバリエーションが存在するが、上述した具体例を参照すれば、他のどのような具体例も実施できると考えられる。従って、ここでは、それらの具体例を全て開示したに等しい。
また、以上において、前景として1つの対象(例えば、ノート型パーソナルコンピュータ)を学習または認識し、背景として1つの対象(例えば、机と本)を学習または認識する例について説明した。しかし、例えば、前景として複数の対象を学習または認識し、背景として複数の対象を学習または認識するようにすることも可能である。
また、以上においては、本技術を画像の認識に適用する例について説明したが、例えば、画像以外のセンサ情報について本技術を適用することも可能である。例えば、圧力センサなどを用いた触覚センサのセンサ情報について本技術を適用することも可能である。
なお、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば図29に示されるような汎用のパーソナルコンピュータ700などに、ネットワークや記録媒体からインストールされる。
図29において、CPU(Central Processing Unit)701は、ROM(Read Only Memory)702に記憶されているプログラム、または記憶部708からRAM(Random Access Memory)703にロードされたプログラムに従って各種の処理を実行する。RAM703にはまた、CPU701が各種の処理を実行する上において必要なデータなども適宜記憶される。
CPU701、ROM702、およびRAM703は、バス704を介して相互に接続されている。このバス704にはまた、入出力インタフェース705も接続されている。
入出力インタフェース705には、キーボード、マウスなどよりなる入力部706、LCD(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部707、ハードディスクなどより構成される記憶部708、モデム、LANカードなどのネットワークインタフェースカードなどより構成される通信部709が接続されている。通信部709は、インターネットを含むネットワークを介しての通信処理を行う。
入出力インタフェース705にはまた、必要に応じてドライブ710が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア711が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部708にインストールされる。
上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、インターネットなどのネットワークや、リムーバブルメディア711などからなる記録媒体からインストールされる。
なお、この記録媒体は、図29に示される、装置本体とは別に、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク(フロッピディスク(登録商標)を含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク(MD(Mini-Disk)(登録商標)を含む)、もしくは半導体メモリなどよりなるリムーバブルメディア711により構成されるものだけでなく、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているROM702や、記憶部708に含まれるハードディスクなどで構成されるものも含む。
なお、本明細書において上述した一連の処理は、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。