JP2017102808A

JP2017102808A - 画像処理装置および方法

Info

Publication number: JP2017102808A
Application number: JP2015237227A
Authority: JP
Inventors: 篤史木村; Atsushi Kimura; 大資田原; Daishi Tahara; 博之勢川; Hiroyuki Segawa; 稲田　徹悟; Tetsugo Inada; 徹悟稲田; 大場　章男; Akio Oba; 章男大場; 寛史岡本; Hiroshi Okamoto
Original assignee: Sony Corp; Sony Interactive Entertainment LLC
Current assignee: Sony Corp; Sony Interactive Entertainment LLC
Priority date: 2015-12-04
Filing date: 2015-12-04
Publication date: 2017-06-08
Also published as: US10474876B2; US20170161547A1

Abstract

【課題】複数人の姿勢を同時に推定する場合にも高速に安定して処理を行うことができる。【解決手段】姿勢最適化部は、人体領域抽出部からの人体領域情報を用いて、最適化順序／領域生成部からの順序／領域制御情報に基づく優先順位に沿って、複数人の姿勢推定を順番に行う。姿勢推定は、人体が存在する可能性のある領域に整合するように、人体のモデルの姿勢のパラメータの最適化を行う処理であり、入力画像から得られた人体領域情報と、人体モデルのシルエットが一致するように最適化が行われる。本開示は、例えば、人体のモデルの関節位置や角度を最適化する画像処理装置に適用することができる。【選択図】図３

Description

本開示は、画像処理装置および方法に関し、特に、複数人の姿勢を同時に推定する場合にも高速に安定して処理を行うことができるようにした画像処理装置および方法に関する。

カメラ等からの入力画像に対し、背景差分(background subtraction)アルゴリズムなどによって動被写体部分のシルエット領域に対し人体モデルをエネルギ最適化によってあてはめて姿勢を推定する姿勢推定技術がある（例えば、非特許文献１参照）。

また、複数の動被写体部分のシルエットを３次元的に投影し、人体部分を示す３次元形状を推定するVisual Hullという手法を用いた上で人体モデルの最適化を行う技術もある（例えば、非特許文献２参照）。

これらの技術はいずれもエネルギ関数の最適化問題に帰着するが、最適化の対象である人体モデルを構成するパラメータは極めて多いため、計算量が非常に多かった。また、複数の人物の姿勢を同時に推定する場合には、パラメータ数がさらに増加するため、計算量はさらに増加する。

また、複数の人物の姿勢を同時に推定する場合、シルエットに対して最適化にしても、３次元形状に対しての最適化においても、人体の存在領域が１人の姿勢推定の場合よりも複雑な形状になるため、安定して正しい姿勢推定を行うことは困難であった。

以上のように、これまで、複数人物に対して高速に安定して正しい姿勢を推定し続けるということが困難であった。

本開示は、このような状況に鑑みてなされたものであり、複数人の姿勢を同時に推定する場合にも高速に安定して処理を行うことができるものである。

本技術の一側面の画像処理装置は、入力画像から検出された複数の人物の周辺領域に対して優先度をそれぞれ設定する優先度設定部と、前記優先度設定部より設定された優先度を用いて選択された人物の周辺領域に基づいて、前記入力画像から抽出された人体領域に対する人体モデルの姿勢を逐次的に推定する姿勢推定部とを備える。

前記優先度設定部は、顔検出における顔検出枠の大きさによって優先度を設定することができる。

前記優先度設定部は、人体のデプス情報に基づく人体が位置する近さによって優先度を設定することができる。

前記優先度設定部は、１つ前の処理フレームの複数の人物の姿勢推定結果から算出される距離値を用いて、優先度を設定することができる。

前記入力画像から個人を特定する個人特定部をさらに備え、前記姿勢推定部は、前記ユーザが、前記個人特定部により特定された個人の優先度を指定するためのインタフェースにより指定された優先度に基づいて、前記入力画像から抽出された人体領域に対する人体モデルの姿勢を逐次的に推定することができる。

前記個人特定部は、顔識別により前記入力画像から個人を特定することができる。

前記個人特定部は、前記人物が所持する検出または識別可能なコントローラ、または、前記人物に装着されたマーカにより前記入力画像から個人を特定することができる。

前記個人特定部は、前記人物の周辺領域における特徴的な色により前記入力画像から個人を特定することができる。

前記優先度設定部は、前記複数の人物の周辺領域のうち、前記優先度の低い領域を排除領域として設定し、前記姿勢推定部は、前記優先度設定部により設定された排除領域を排除して、前記入力画像から抽出された人体領域に対する人体モデルの姿勢を逐次的に推定することができる。

前記姿勢推定部は、前記優先度設定部により設定された排除領域においては、前記入力画像から抽出された人体領域に対する人体モデルの姿勢を逐次的に推定することを禁止することができる。

処理対象の人数を制限する人数制限部をさらに備え、前記姿勢推定部は、前記人数制限部により制限された人数以上の人体モデルの姿勢を逐次的に推定することを禁止することができる。

前記人数制限部は、顔検出における顔の数に基づいて処理対象の人数を制限することができる。

前記人数制限部は、ユーザによる指定に基づいて処理対象の人数を制限することができる。

本技術の一側面の画像処理方法は、画像処理装置が、入力画像から検出された複数の人物の周辺領域に対して優先度をそれぞれ設定し、設定された優先度を用いて選択された人物の周辺領域に基づいて、前記入力画像から抽出された人体領域に対する人体モデルの姿勢を逐次的に推定する。

本技術の一側面においては、入力画像から検出された複数の人物の周辺領域に対して優先度がそれぞれ設定され、設定された優先度を用いて選択された人物の周辺領域に基づいて、前記入力画像から抽出された人体領域に対する人体モデルの姿勢が逐次的に推定される。

本技術によれば、複数人の姿勢を同時に推定する場合にも高速に安定して処理を行うことができる。

なお、本明細書に記載された効果は、あくまで例示であり、本技術の効果は、本明細書に記載された効果に限定されるものではなく、付加的な効果があってもよい。

本技術を適用した画像処理装置の構成例を示すブロック図である。推定目標の情報の例を示す図である。姿勢最適化部の構成例を示すブロック図である。画像処理装置の画像処理を説明するフローチャートである。図４のステップＳ１４の指定目標生成処理を説明するフローチャートである。操作画面の例を示す図である。図４のステップＳ１５の順序／領域生成処理を説明するフローチャートである。推定目標の情報の例を示す図である。優先領域および排除領域の例を示す図である。図７のステップＳ５１の排除領域の設定処理を説明するフローチャートである。図７のステップＳ５２の優先順位リストによる優先領域の設定処理を説明するフローチャートである。図７のステップＳ５３のリストなしの優先領域の設定処理を説明するフローチャートである。図４のステップＳ１６の姿勢最適化処理を説明するフローチャートである。パーソナルコンピュータの構成例を示すブロック図である。

以下、本開示を実施するための形態（以下実施の形態とする）について説明する。

＜画像処理装置の構成例＞
図１は、本技術を適用した画像処理装置の構成例を示す図である。図１の例においては、カメラなどからの入力画像から人体らしい領域を抽出し、抽出された人体らしい領域に整合するように人体のモデルの関節位置や角度を最適化する画像処理を行う画像処理装置である。その際、本技術においては、ユーザが複数人の場合の例を説明する。

図１の例において、画像処理装置１は、UI（User Interface）部１１、人体領域抽出部１２、人物検出特定部１３、推定目標生成部１４、最適化順序／領域生成部１５、姿勢最適化部１６、および推定目標記憶部１７を含むように構成される。なお、図示せぬ外部から画像が、人体領域抽出部１２および人物検出特定部１３に、入力画像として入力される。

UI部１１は、図示せぬモニタに操作画面を出力し、リモートコントローラやスティックなどを介して入力されるユーザの操作に対応する指示情報を推定目標生成部１４に入力する。

人体領域抽出部１２は、入力画像から認証対象である人体が存在する可能性のある空間領域を抽出する。例えば、背景差分アルゴリズムが用いられて入力画像から人体らしい領域が抽出され、人体領域情報が生成されて、姿勢最適化部１６に出力される。

人物検出特定部１３は、入力画像、または、赤外センサやレーザ測位などの各種センサからのセンシング情報（まとめて、入力情報とも称する）を用いて、人物らしい領域の検出や個人識別を行い、個人を特定し、人物情報を生成する。なお、人物検出特定部１３の処理としては、個人特定を行うものと行わないものがある。

具体的には、人物検出特定部１３は、入力情報を用いて、個人特定を行わないものとしては、
・顔検出（顔の位置・大きさの検出）
・人体領域の代表的なデプス値（デプス情報）の検出
・人数特定（例えば、顔検出した顔の総数）
個人特定を行うものとしては、
・顔識別（個人を特定）
・人体領域らしい大まかな位置に対する服装の代表的な色や模様の抽出
・マーカ（身体に付けた個人特定用の印）や、ゲーム等で使用するコントローラ、スポーツで使用するラケット・バットなど特定の物体の検出
などを行い、位置・大きさや人物を個別特定するラベルを合わせて出力する。

人物検出特定部１３は、生成した人物情報を、推定目標生成部１４および最適化順序／領域生成部１５に出力する。

推定目標生成部１４は、UI部１１からのユーザの操作に対応する指示情報や、人物検出特定部１３からの人物情報に基づいて、姿勢推定を開始する前に認識対象の人数などの推定目標（姿勢推定の各設定値）を決定する。例えば、「Ａさん、Ｂさんの２人を推定対象として、さらに、Ａさんを優先的に推定する。また、周囲にいるＣさんは推定しない」といった内容を決定する。

具体的には、推定目標生成部１４は、図２に示される推定目標の情報を生成する。例えば、人数が「３人」で、対象人物リストが「Ａさん、Ｂさん、Ｃさん」で、対象人物優先順位リストが、「1.Ｂさん、2.Ｃさん、3.Ａさん」で、回避人物リストが、「Ｘさん、Ｙさん、Ｚさん」である推定目標の情報が生成され、推定目標記憶部１７に記憶される。

なお、回避人物リストは、回避人物として人物を指示する方法（この場合には、優先度を低く設定してもよい）もあるが、例えば、回避人物リストは、対象人物リストに登録されておらず、かつ、優先順位リストの最下位の人物から順に作成されてもよい。また、優先順位に限らず、優先度としてもよい。優先順位の上から順は、優先度の高いものから順となるし、優先度の低い順は、回避リストにおいて上位に登録される。

また、推定目標生成部１４は、人物検出特定部１３からの人物情報に基づく、人物を特定するための操作画面をUI部１１に生成させる。

最適化順序／領域生成部１５は、人物検出特定部１３からの人物情報を用いて、複数人姿勢推定の順番や推定箇所の領域などの制御情報を生成する。具体的には、最適化順序／領域生成部１５は、推定目標記憶部１７からの推定目標の各リストを参照して、優先順位（優先度）を設定し、推定順序／領域および排除領域を決め、それを制御情報とする。

なお、推定目標記憶部１７からの推定目標の情報を用いずに、人物検出特定部１３からの人物情報から特定のルールに基づいて、優先順位（優先度）を設定し、推定順序／領域および排除領域を決めるようにしてもよい。

推定目標の情報が用いられない場合、具体的には、以下の処理があげられる。
・顔検出で、その検出枠が大きいほど手前にいる可能性が高いので、検出枠が大きいほど優先順位をあげる（すなわち、優先度を高くする）。
・デプス情報が得られている場合、手前（近い位置）ほど優先順位をあげる。
・デプス情報（例えば、デプスマップのデプス値）の大小で判断するのではなく、１つ前の処理フレームの複数人姿勢の推定結果から算出される距離値（＝デプス値と本質的に同一）の大小を用いて、処理対象フレームに優先順位をつけてもよい。具体的には、例えば、２人が左右にいるような状況で、１つ前のフレームで、複数人姿勢推定の結果、右側の人物が、左側の人物よりも手前にいると推定された場合、次の処理対象フレームでも、右側の領域が手前にある可能性が高いので、右側の人物領域の優先度を高く設定する。
・顔検出で、その検出枠が一定の大きさ以下ならば、その人物領域を排除領域とする。

なお、デプス情報については、ユーザと向かい合う位置において、入力画像を撮像する撮像装置などを基に手前や奥が示されている。

最適化順序／領域生成部１５は、生成した順序／領域制御情報を、姿勢最適化部１６に出力する。

姿勢最適化部１６は、人体領域抽出部１２からの人体領域情報を用いて、最適化順序／領域生成部１５からの順序／領域制御情報に基づく優先順位（優先度）に沿って、複数人の姿勢推定を順番に行う。姿勢推定は、人体が存在する可能性のある領域に整合するように、人体のモデル（ツリー構造）の姿勢のパラメータである関節位置、角度、関節の数などの最適化を行う処理であり、入力画像から得られた人体領域情報と、人体モデルのシルエットが一致するように最適化が行われる。その際、一致度（例えば、差分絶対値和）をエネルギとし、エネルギが最小になるように、姿勢のパラメータ（関節位置・角度・関節の数）などが最適化される。なお、姿勢最適化部１６は、排除領域とされた領域については、姿勢推定対象領域から排除したり、姿勢推定処理を禁止する。

姿勢最適化部１６においては、例えば、推定できなくなるまで、推定目標記憶部１７からの推定目標の人数まで、あるいは、人物検出特定部１３で顔検出された人数の総数まで、姿勢推定が行われる。

推定目標記憶部１７は、推定目標生成部１４により生成された推定目標の情報を記憶している。

図３は、姿勢最適化部１６の構成例を示すブロック図である。

姿勢最適化部１６は、制御部５１、初期姿勢推定部５２、重みマップ生成部５３、エネルギ最適化部５４、および姿勢情報記憶部５５を含むように構成されている。図３の例においては、優先順位１の人物６１の姿勢推定が終了して、優先順位２の人物６２の姿勢推定が行われるタイミングの状態が示されている。

人体領域抽出部１２からの人体領域情報は、エネルギ最適化部５４に入力される。最適化順序／領域生成部１５からの順序／領域制御情報は、制御部５１、初期姿勢推定部５２、および重みマップ生成部５３に入力される。

制御部５１は、順序／領域制御情報に基づいて姿勢推定の対象人物を優先順位（優先度の高い）の順に選択し、選択した対象人物に対して、初期姿勢推定部５２に初期姿勢推定を行わせ、重みマップ生成部５３に、重みマップ生成を行わせる。また、制御部５１は、推定目標の人数を、推定目標記憶部１７から取得し、例えば、推定目標の人数まで姿勢最適化処理が行われるように、初期姿勢推定部５２、および重みマップ生成部５３を制御する。すなわち、推定目標の人数以降の処理は禁止される。

初期姿勢推定部５２は、制御部５１の制御のもと、順序／領域制御情報に基づいて、選択された対象人物が存在しそうな領域の近くに初期姿勢を設定し、設定した初期姿勢の情報を、エネルギ最適化部５４に出力する。

重みマップ生成部５３には、姿勢情報記憶部５５から、既に推定済みの人物領域の情報が入力される。重みマップ生成部５３は、制御部５１の制御のもと、順序／領域制御情報および既に推定済みの人物領域の情報に基づいて、推定対象人物の領域、推定済みの人物領域周辺、排除領域の重み付けを生成する。重みマップ生成部５３は、生成された重み付けの情報である重みマップを、エネルギ最適化部５４に出力する。

エネルギ最適化部５４は、人体領域抽出部１２からの人体領域情報に対し、人体モデルの姿勢によって決まる不一致具合（エネルギ）を最小にするように姿勢を最適化する逐次姿勢推定を行う。その際、初期姿勢推定部５２からの人体モデルの位置・姿勢の初期値が用いられるとともに、重みマップ生成部５３からの重みマップを、最適化制御やエネルギの計算に反映させることで、すでに推定済みの領域や排除領域の影響を受けないようになされる。

エネルギ最適化部５４は、最適化された姿勢情報を、図示せぬ後段および姿勢情報記憶部５５に出力する。また、エネルギ最適化部５４は、対象人物の姿勢推定の終了通知を制御部５１に出力する。

＜画像処理装置の処理例＞
次に、図４のフローチャートを参照して、画像処理装置１の画像処理について説明する。

ステップＳ１１において、図示せぬ外部（撮像装置など）より、人体領域抽出部１２および人物検出特定部１３に入力画像が入力される。

ステップＳ１２において、人体領域抽出部１２は、背景差分アルゴリズムによりステップＳ１１により入力された入力画像から人体らしい領域を抽出し、人体領域情報を生成する。人体領域抽出部１２は、生成された人体領域情報を、姿勢最適化部１６に出力する。

ステップＳ１３において、人物検出特定部１３は、入力画像、または、センシング情報を用いて、人物らしい領域の検出や個人識別を行い、人物を特定し、人物情報を生成する。生成された人物情報は、推定目標生成部１４および最適化順序／領域生成部１５に出力される。

ステップＳ１４において、指定目標生成部１４は、UI部１１からのユーザの操作に対応する指示情報や、人物検出特定部１３からの人物情報に基づいて、姿勢推定を開始する前に認識対象の人数などの推定目標（姿勢推定の各設定値）を生成する処理を行う。なお、この指定目標生成処理は、図５を参照して後述される。ステップＳ１４の処理により、推定目標の情報が生成され、推定目標記憶部１７に記憶される。

ステップＳ１５において、最適化順序／領域生成部１５は、人物検出特定部１３からの人物情報を用いて、複数人姿勢推定の順番や推定箇所の領域などの制御情報を生成する順序／領域生成処理を行う。この順序／領域生成処理は、図７を参照して後述される。このステップＳ１５の処理により、順序／領域制御情報が生成され、姿勢最適化部１６に出力される。

ステップＳ１６において、姿勢最適化部１６は、人体領域抽出部１２からの人体領域情報を用いて、姿勢最適化処理を行う。この姿勢最適化処理は、図１３を参照して後述される。ステップＳ１６の処理により、最適化順序／領域生成部１５からの順序／領域制御情報に基づく優先順位に沿って、複数人の姿勢推定が順番に行われる。

以上のように、複数の人物が存在する場合、人物に対し優先順位（優先度）を設定した上で逐次姿勢推定を行うようにしたので、高速かつ安定的な処理が可能となる。

次に、図５のフローチャートを参照して、図４のステップＳ１４の指定目標生成処理について説明する。なお、この指定目標生成処理は、UI部１１からのユーザの操作に対応する指示情報や、人物検出特定部１３からの人物情報に基づいて行われる。

例えば、UI部１１は、モニタに図６Ａに示される操作画面を表示させる。図６Ａの例においては、プレーヤの人数の選択を促す操作画面が示されている。操作画面には、１人乃至５人が選択可能に表示されている。操作画面の右下隅には、この選択をスキップするGUIが表示されており、ユーザは、選択をしない選択を行うこともできる。UI部１１からは、ユーザの操作に対応する指示情報が指定目標生成部１４に入力される。

ステップＳ３１において、指定目標生成部１４は、UI部１１からのユーザの操作に対応する指示情報や、人物検出特定部１３からの人物情報に基づいて、姿勢推定する人数を決定する。なお、この人数の情報に対応して、後述する姿勢推定処理の継続、停止（禁止）が制御される。また、例えば、スキップされた場合、人物検出特定部１３からの人物情報（顔検出結果など）に基づいて、姿勢推定する人数が決定される。

次に、例えば、UI部１１は、モニタに図６Ｂに示される操作画面を表示させる。図６Ｂの例においては、プレーヤの選択を促す操作画面が示されている。操作画面には、１人乃至５人の各顔画像と名前が選択可能に表示されている。操作画面の右下隅には、この選択をスキップするGUIが表示されており、ユーザは、選択をしない選択を行うこともできる。UI部１１からは、ユーザの操作に対応する指示情報が指定目標生成部１４に入力される。

ステップＳ３２において、指定目標生成部１４は、UI部１１からのユーザの操作に対応する指示情報や、人物検出特定部１３からの人物情報に基づいて、認識対象の人物を個人特定してリストアップする。

次に、例えば、UI部１１は、モニタに図６Ｃに示される操作画面を表示させる。図６Ｃの例においては、プレーヤの順番指定を促す操作画面が示されている。操作画面には、１の文字とＢさんの顔画像、２の文字とＣさんの顔画像、３の文字とＢさんの顔画像が表示されている。操作画面の右下隅には、この選択をスキップするGUIが表示されており、ユーザは、選択をしない選択を行うこともできる。UI部１１からは、ユーザの操作に対応する指示情報が指定目標生成部１４に入力される。

指定目標生成部１４は、ステップＳ３３において、UI部１１からのユーザの操作に対応する指示情報や、人物検出特定部１３からの人物情報に基づいて、認識対象の人物に優先順位を付与する。なお、順位ではなく、優先度であってもよい。

次に、例えば、UI部１１は、モニタに図６Ｄに示される操作画面を表示させる。図６Ｄの例においては、プレーヤではない観客の選択を促す操作画面が示されている。操作画面には、プレーヤとして選択済みであることを示す１乃至３の文字が重畳されたＡさん、Ｂさん、Ｃさんを示す矩形と、選択されなかったＤさん、Ｅさん、Ｖさん、Ｗさん、Ｘさん、Ｙさん、Ｚさんの顔画像が表示されている。操作画面の右下隅には、この選択をスキップするGUIが表示されており、ユーザは、選択をしない選択を行うこともできる。UI部１１からは、ユーザの操作に対応する指示情報が指定目標生成部１４に入力される。

指定目標生成部１４は、ステップＳ３４において、UI部１１からのユーザの操作に対応する指示情報や、人物検出特定部１３からの人物情報に基づいて、認識の対象外とする人物を個人特定してリストアップする。

指定目標生成部１４は、ステップＳ３５において、ステップＳ３１乃至Ｓ３４での設定に基づいて、例えば、図２に示されるような指定目標の情報を生成し、生成した指定目標の情報を、指定目標記憶部１７に記憶させる。

次に、図７のフローチャートを参照して、図４のステップＳ１５の順序／領域生成処理を説明する。なお、図７の例においては、図８に示されるような推定目標の情報が用いられる。図８の例においては、例えば、人数が「３人」で、対象人物リストが「Ａさん、Ｂさん、Ｃさん、Ｅさん」で、対象人物優先順位リストが、「1.Ｂさん、2.Ｃさん、3.Ａさん」で、回避人物リストが、「Ｘさん、Ｙさん、Ｚさん」である推定目標の情報が生成され、推定目標記憶部１７に記憶されている。

ステップＳ５１において、最適化順序／領域生成部１５は、推定目標記憶部１７からの推定目標の回避人物リストを参照して、排除領域を設定する。この排除領域の設定処理は、図１０を参照して後述される。ステップＳ５１の処理により、図９Ａに示されるように、回避人物リストにあるＸさんの周辺領域が排除領域として設定される。

ステップＳ５２において、最適化順序／領域生成部１５は、推定目標記憶部１７からの推定目標の優先順位リストを参照して、優先順位ありの優先領域を設定する。この優先順位ありの優先領域の設定処理は、図１１を参照して後述される。ステップＳ５２の処理により、図９Ｂに示されるように、図９Ａの排除領域に加えて、対象人物優先順位リストにあるＡさんとＢさんの周辺領域が、それぞれ、優先領域（２番目）、優先領域（１番目）として設定される。

ステップＳ５３において、最適化順序／領域生成部１５は、推定目標記憶部１７からの推定目標の優先順位リストを参照して、リストなしの優先領域を設定する。このリストなしの優先領域の設定処理は、図１２を参照して後述される。ステップＳ５３の処理により、図９Ｃに示されるように、図９Ａの排除領域と図９Ｂの優先領域に加えて、対象人物リストにあるが、優先順位のないＸさんの周辺領域が、優先領域（番号なし）として設定される。

以上のようにして順序／領域が設定され、順序／領域制御情報として、姿勢最適化部１６に出力される。なお、この処理は一例であり、特定された個人の情報と、優先度に基づいて、排除領域や優先領域などを決めることも可能である。

次に、図１０のフローチャートを参照して、図７のステップＳ５１の排除領域の設定処理について説明する。

ステップＳ７１において、最適化順序／領域生成部１５は、推定目標記憶部１７からの推定目標の回避人物リストの登録人物が１人以上いるか否かを判定する。ステップＳ７１において、推定目標の回避人物リストの登録人物が１人以上いると判定された場合、処理は、ステップＳ７２に進む。

ステップＳ７２において、最適化順序／領域生成部１５は、人物検出特定部１３からの人物情報で特定された人物を１人選択する。ステップＳ７３において、選択された人物が、指定目標の回避人物リストに載っているか否かが判定される。ステップＳ７３において、回避人物リストに載っていると判定された場合、処理は、ステップＳ７４に進む。

ステップＳ７４において、最適化順序／領域生成部１５は、選択された人物の人物領域周辺を、排除領域に設定する。ステップＳ７３において、回避人物リストに載っていないと判定された場合、ステップＳ７４をスキップし、ステップＳ７５に進む。

ステップＳ７５において、回避人物リストに載っているすべての人物について終了したか否か判定され、すべての人物について終了したと判定された場合、排除領域設定処理は、終了される。

ステップＳ７５において、すべての人物について終了したと判定された場合、処理は、ステップＳ７２に戻り、それ以降の処理を繰り返す。

また、ステップＳ７１において、推定目標の回避人物リストの登録人物が１人以上いないと判定された場合、ステップＳ７２乃至Ｓ７５はスキップされ、排除領域設定処理は、終了される。

次に、図１１のフローチャートを参照して、図７のステップＳ５２の優先順位リストによる優先領域設定処理について説明する。

ステップＳ９１において、最適化順序／領域生成部１５は、推定目標記憶部１７からの推定目標の対象人物優先順位リストの登録人物が１人以上いるか否かを判定する。ステップＳ９１において、対象人物優先順位リストの登録人物が１人以上いると判定された場合、処理は、ステップＳ９２に進む。

ステップＳ９２において、最適化順序／領域生成部１５は、優先順位リストの上位から順番に１人選択する。ステップＳ９３において、最適化順序／領域生成部１５は、選択された人物が、人物検出特定部１３からの人物情報において個人特定した人物にいるか否かを判定する。ステップＳ９３において、個人特定した人物にいると判定された場合、処理は、ステップＳ９４に進む。

ステップＳ９４において、最適化順序／領域生成部１５は、その人物の人物領域周辺を、番号（上位順）とともに優先領域に設定する。ステップＳ９３において、個人特定した人物にいないと判定された場合、ステップＳ９４をスキップし、ステップＳ９５に進む。

ステップＳ９５において、対象人物優先順位リストに載っているすべての人物について終了したか否か判定され、すべての人物について終了したと判定された場合、優先順位リストによる優先領域設定処理は、終了される。

ステップＳ９５において、まだすべての人物について終了していないと判定された場合、処理は、ステップＳ９２に戻り、それ以降の処理を繰り返す。

また、ステップＳ９１において、対象人物優先順位リストの登録人数が１人以上いないと判定された場合、ステップＳ９２乃至Ｓ９５はスキップされ、優先順位リストによる優先領域設定処理は、終了される。

次に、図１１のフローチャートを参照して、図７のステップＳ５３のリストなしの優先領域設定処理について説明する。

ステップＳ１１１において、最適化順序／領域生成部１５は、推定目標記憶部１７からの推定目標の対象人物リストに、優先領域に指定されていいない人物がいるか否かを判定する。ステップＳ１１１において、優先領域に指定されていいない人物がいると判定された場合、処理は、ステップＳ１１２に進む。

ステップＳ１１２において、最適化順序／領域生成部１５は、優先領域に指定されていいない人物を１人選択する。ステップＳ１１３において、最適化順序／領域生成部１５は、選択された人物が、人物検出特定部１３からの人物情報において個人特定した人物にいるか否かを判定する。ステップＳ１１３において、個人特定した人物にいると判定された場合、処理は、ステップＳ１１４に進む。

ステップＳ１１４において、最適化順序／領域生成部１５は、その人物の人物領域周辺を、順になしで優先領域に設定する。ステップＳ１１３において、個人特定した人物にいないと判定された場合、ステップＳ１１４をスキップし、ステップＳ１１５に進む。

ステップＳ１１５において、優先領域に指定されていいないと判定されたすべての人物について終了したか否か判定され、すべての人物について終了したと判定された場合、リストなしの優先領域設定処理は、終了される。

ステップＳ１１５において、まだすべての人物について終了していないと判定された場合、処理は、ステップＳ１１２に戻り、それ以降の処理を繰り返す。

また、ステップＳ１１１において、対象人物リストに、優先領域に指定されていいない人物がいないと判定された場合、ステップＳ１１２乃至Ｓ１１５はスキップされ、リストなしの優先領域設定処理は終了される。

次に、図１３のフローチャートを参照して、図４のステップＳ１６の姿勢最適化処理について説明する。

人体領域抽出部１２からの人体領域情報は、エネルギ最適化部５４に入力される。最適化順序／領域生成部１５からの順序／領域制御情報は、制御部５１に入力され、制御部５１を介して、初期姿勢推定部５２および重みマップ生成部５３に入力される。

制御部５１は、ステップＳ１５１において、優先順位の上から順に優先領域を選択する。ステップＳ１５２において、初期姿勢推定部５２は、制御部５１により選択された優先領域の初期姿勢を設定する。初期姿勢推定部５２は、設定した初期姿勢の情報を、エネルギ最適化部５４に出力する。

ステップＳ１５３において、重みマップ生成部５３は、制御部５１により選択された優先領域を処理する際の重みマップを生成する。すなわち、上述したように、順序／領域制御情報および既に推定済みの人物領域の情報に基づいて、推定対象人物の領域、推定済みの人物領域周辺、排除領域の重み付けが生成される。重みマップ生成部５３は、生成された重み付けの情報である重みマップを、エネルギ最適化部５４に出力する。

ステップＳ１５４において、エネルギ最適化部５４は、人体領域抽出部１２からの人体領域情報に対し、人体モデルの姿勢によって決まる不一致具合（エネルギ）を最小にするように姿勢を最適化する。その際、エネルギ最適化部５４においては、初期姿勢推定部５２からの人体モデルの位置・姿勢の初期値が用いられるとともに、重みマップ生成部５３からの重みマップを、最適化制御やエネルギの計算に反映させることで、すでに推定済みの領域や排除領域の影響を受けないようになされる。

制御部５１は、推定目標の人数を、推定目標記憶部１７から取得する。ステップＳ１５５において、エネルギ最適化部５４からの終了通知に対応して、制御部５１は、推定目標の人数に達したか否かを判定する。ステップＳ１５５において、推定目標の人数に達したと判定された場合、姿勢最適化処理は終了される。

ステップＳ１５５において、また、推定目標の人数に達していないと判定された場合、処理は、ステップＳ１５１に戻り、それ以降の処理が繰り返される。

なお、ステップＳ１５５の処理の停止条件は、図１３の例においては、推定目標の人数に達するまでとして、推定目標で人数を決める例を説明したが、例えば、人数の上限なしで、姿勢推定できなくなるまで、または、人物検出特定部１３で顔検出した人数の総数まで（入力画像で人数カウントして、姿勢推定の人数を決める）、としてもよい。

以上のように、本技術においては、複数の人物が存在する場合には、人物に対し、優先順位を定義した上で逐次姿勢推定処理を行うことによって、高速かつ安定的な処理が可能となる。

顔識別（個人特定）やコントローラ、マーカなどにより人物の特定が可能な場合、予めユーザが予め優先順位を指定することによって、目的に応じたより安定的な姿勢推定が可能となる。

また、複数の人物が存在する場合には、排除対象者を直接、または、優先順位の逆から定義することによって、誤推定を低減しつつ、高速化に処理することができる。

さらに、顔検出などにより人数の特定が可能な場合、姿勢推定対象の人数を制限することにより姿勢の誤推定を低減しつつ、高速化に処理することができる。

以上により、本技術によれば、複数人の姿勢を同時に推定する場合にも高速に安定して処理を行うことができる。

＜パーソナルコンピュータ＞
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な汎用のパーソナルコンピュータなどが含まれる。

図１４は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータのハードウエアの構成例を示すブロック図である。

パーソナルコンピュータ５００において、CPU（Central Processing Unit）５０１、ROM（Read Only Memory）５０２、RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インタフェース５０５が接続されている。入出力インタフェース５０５には、入力部５０６、出力部５０７、記憶部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロホンなどよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記憶部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインタフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

以上のように構成されるパーソナルコンピュータ５００では、CPU５０１が、例えば、記憶部５０８に記憶されているプログラムを、入出力インタフェース５０５及びバス５０４を介して、RAM５０３にロードして実行する。これにより、上述した一連の処理が行われる。

コンピュータ（CPU５０１）が実行するプログラムは、リムーバブル記録媒体５１１に記録して提供することができる。リムーバブル記録媒体５１１は、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディア等である。また、あるいは、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータにおいて、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インタフェース５０５を介して、記憶部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記憶部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記憶部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要な段階で処理が行われるプログラムであっても良い。

また、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本明細書において、システムとは、複数のデバイス（装置）により構成される装置全体を表すものである。

なお、本開示における実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本開示は、１つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、以上において、１つの装置（または処理部）として説明した構成を分割し、複数の装置（または処理部）として構成するようにしてもよい。逆に、以上において複数の装置（または処理部）として説明した構成をまとめて１つの装置（または処理部）として構成されるようにしてもよい。また、各装置（または各処理部）の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置（または処理部）の構成の一部を他の装置（または他の処理部）の構成に含めるようにしてもよい。つまり、本技術は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有するのであれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例また修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

なお、本技術は以下のような構成も取ることができる。
（１）入力画像から検出された複数の人物の周辺領域に対して優先度をそれぞれ設定する優先度設定部と、
前記優先度設定部より設定された優先度を用いて選択された人物の周辺領域に基づいて、前記入力画像から抽出された人体領域に対する人体モデルの姿勢を逐次的に推定する姿勢推定部と
を備える画像処理装置。
（２）前記優先度設定部は、顔検出における顔検出枠の大きさによって優先度を設定する
前記（１）に記載の画像処理装置。
（３）前記優先度設定部は、人体のデプス情報に基づく人体が位置する近さによって優先度を設定する
前記（１）に記載の画像処理装置。
（４）前記優先度設定部は、１つ前の処理フレームの複数の人物の姿勢推定結果から算出される距離値を用いて、優先度を設定する
前記（１）に記載の画像処理装置。
（５）前記入力画像から個人を特定する個人特定部
をさらに備え、
前記姿勢推定部は、ユーザが、前記個人特定部により特定された個人の優先度を指定するためのインタフェースにより指定された優先度に基づいて、前記入力画像から抽出された人体領域に対する人体モデルの姿勢を逐次的に推定する
前記（１）乃至（４）のいずれかに記載の画像処理装置。
（６）前記個人特定部は、顔識別により前記入力画像から個人を特定する
前記（５）に記載の画像処理装置。
（７）前記個人特定部は、前記人物が所持する検出または識別可能なコントローラ、または、前記人物に装着されたマーカにより前記入力画像から個人を特定する
前記（５）に記載の画像処理装置。
（８）前記個人特定部は、前記人物の周辺領域における特徴的な色により前記入力画像から個人を特定する
前記（５）に記載の画像処理装置。
（９）前記複数の人物の周辺領域のうち、前記優先度の低い領域を排除領域として設定する排除領域設定部を
さらに備え
前記姿勢推定部は、前記排除領域設定部により設定された排除領域を排除して、前記入力画像から抽出された人体領域に対する人体モデルの姿勢を逐次的に推定する
前記（１）乃至（９）のいずれかに記載の画像処理装置。
（１０）前記姿勢推定部は、前記排除領域設定部により設定された排除領域においては、前記入力画像から抽出された人体領域に対する人体モデルの姿勢を逐次的に推定することを禁止する
前記（９）に記載の画像処理装置。
（１１）処理対象の人数を制限する人数制限部を
さらに備え、
前記指定推定部は、前記人数制限部により制限された人数以上の人体モデルの姿勢を逐次的に推定することを禁止する
前記（１）乃至（１０）のいずれかに記載の画像処理装置。
（１２）前記人数制限部は、顔検出における顔の数に基づいて処理対象の人数を制限する
前記（１１）に記載の画像処理装置。
（１３）前記人数制限部は、ユーザによる指定に基づいて処理対象の人数を制限する
前記（１１）に記載の画像処理装置。
（１４）画像処理装置が、
入力画像から検出された複数の人物の周辺領域に対して優先度をそれぞれ設定し、
設定された優先度を用いて選択された人物の周辺領域に基づいて、前記入力画像から抽出された人体領域に対する人体モデルの姿勢を逐次的に推定する
画像処理方法。

１画像処理装置，１１ UI部，１２人体領域抽出部，１３人物検出特定部，１４推定目標生成部，１５最適化順序／領域生成部，１６姿勢最適化部，１７推定目標記憶部，５１制御部，５２初期姿勢推定部，５３重みマップ生成部，５４エネルギ最適化部，５５姿勢情報記憶部

Claims

入力画像から検出された複数の人物の周辺領域に対して優先度をそれぞれ設定する優先度設定部と、
前記優先度設定部より設定された優先度を用いて選択された人物の周辺領域に基づいて、前記入力画像から抽出された人体領域に対する人体モデルの姿勢を逐次的に推定する姿勢推定部と
を備える画像処理装置。
前記優先度設定部は、顔検出における顔検出枠の大きさによって優先度を設定する
請求項１に記載の画像処理装置。
前記優先度設定部は、人体のデプス情報に基づく人体が位置する近さによって優先度を設定する
請求項１に記載の画像処理装置。
前記優先度設定部は、１つ前の処理フレームの複数の人物の姿勢推定結果から算出される距離値を用いて、優先度を設定する
請求項１に記載の画像処理装置。
前記入力画像から個人を特定する個人特定部
をさらに備え、
前記姿勢推定部は、ユーザが、前記個人特定部により特定された個人の優先度を指定するためのインタフェースにより指定された優先度に基づいて、前記入力画像から抽出された人体領域に対する人体モデルの姿勢を逐次的に推定する
請求項１に記載の画像処理装置。
前記個人特定部は、顔識別により前記入力画像から個人を特定する
請求項５に記載の画像処理装置。
前記個人特定部は、前記人物が所持する検出または識別可能なコントローラ、または、前記人物に装着されたマーカにより前記入力画像から個人を特定する
請求項５に記載の画像処理装置。
前記個人特定部は、前記人物の周辺領域における特徴的な色により前記入力画像から個人を特定する
請求項５の記載の画像処理装置。
前記優先度設定部は、前記複数の人物の周辺領域のうち、前記優先度の低い領域を排除領域として設定し、
前記姿勢推定部は、前記優先度設定部により設定された排除領域を排除して、前記入力画像から抽出された人体領域に対する人体モデルの姿勢を逐次的に推定する
請求項１の記載の画像処理装置。
前記姿勢推定部は、前記優先度設定部により設定された排除領域においては、前記入力画像から抽出された人体領域に対する人体モデルの姿勢を逐次的に推定することを禁止する
請求項９の記載の画像処理装置。
処理対象の人数を制限する人数制限部を
さらに備え、
前記姿勢推定部は、前記人数制限部により制限された人数以上の人体モデルの姿勢を逐次的に推定することを禁止する
請求項１の記載の画像処理装置。
前記人数制限部は、顔検出における顔の数に基づいて処理対象の人数を制限する
請求項１１の記載の画像処理装置。
前記人数制限部は、ユーザによる指定に基づいて処理対象の人数を制限する
請求項１１の記載の画像処理装置。
画像処理装置が、
入力画像から検出された複数の人物の周辺領域に対して優先度をそれぞれ設定し、
設定された優先度を用いて選択された人物の周辺領域に基づいて、前記入力画像から抽出された人体領域に対する人体モデルの姿勢を逐次的に推定する
画像処理方法。