[go: up one dir, main page]

JP2022054251A - 生成装置、生成方法、およびプログラム - Google Patents

生成装置、生成方法、およびプログラム Download PDF

Info

Publication number
JP2022054251A
JP2022054251A JP2020161329A JP2020161329A JP2022054251A JP 2022054251 A JP2022054251 A JP 2022054251A JP 2020161329 A JP2020161329 A JP 2020161329A JP 2020161329 A JP2020161329 A JP 2020161329A JP 2022054251 A JP2022054251 A JP 2022054251A
Authority
JP
Japan
Prior art keywords
subject
image
images
value
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020161329A
Other languages
English (en)
Other versions
JP2022054251A5 (ja
Inventor
秀憲 伊藤
Hidenori Ito
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2020161329A priority Critical patent/JP2022054251A/ja
Priority to EP21187357.5A priority patent/EP3951715B1/en
Priority to US17/387,295 priority patent/US11776213B2/en
Publication of JP2022054251A publication Critical patent/JP2022054251A/ja
Publication of JP2022054251A5 publication Critical patent/JP2022054251A5/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】被写体の姿勢モデルを適切に生成する。【解決手段】姿勢推定装置(110)は、複数の撮像装置(100)が被写体を異なる方向から撮像することに基づいて得られた複数の撮像画像から、該被写体の領域を抽出した複数の被写体画像を取得し、該複数の被写体画像について、該被写体に対する精度を示す信頼度を取得し、該信頼度に基づいて、該複数の被写体画像から1つ以上の被写体画像を選択し、該選択された1つ以上の被写体画像に基づいて、該被写体の3次元姿勢を示す姿勢モデルを生成する。【選択図】図1

Description

本発明は、人物の姿勢モデル生成技術に関する。
複数の異なる位置に設定された複数の撮像装置(多視点カメラ)により得られた画像(多視点カメラ画像)を用いて、被写体(人体)の姿勢モデルを推定する技術(姿勢推定技術)が注目されている。姿勢モデルは、被写体を構成する関節の位置、関節同士の接続関係、被写体の部位間の角度などを表す情報である。姿勢推定技術は、多視点カメラ画像に写る被写体の関節位置を推定することで、肘や膝などの角度などを推定できる。さらに、推定された姿勢モデルを用いることで、スポーツ選手の運動量や疲労度の評価、新旧のフォーム比較のような運動解析が可能になる。特許文献1では、多視点カメラを用いて被写体を撮像し、得られた多視点カメラ画像から被写体領域の画像(被写体画像)を抽出し、該被写体画像から該被写体の3次元関節位置を持つ姿勢モデルを推定している。
特開2016-126425号公報
特許文献1では、被写体一人が写る被写体画像における特徴点を用いて該被写体の形状モデルを推定し、該形状モデルから姿勢モデルを推定している。しかしながら、姿勢モデルを精度よく推定するためには、対象となる被写体を撮像した複数のカメラから、より高精度に被写体部分を抽出したカメラを選択する必要がある。さらに、多数のカメラに同じ被写体が写る場合、これらのカメラからの多視点カメラ画像の全てを用いて姿勢モデルを推定すると処理時間の増加を招く。
本発明は、上記の課題に鑑みてなされたものであり、被写体の姿勢モデルを適切に生成することを目的とする
上記目的を達成するための一手段として、本発明の生成装置は以下の構成を有する。すなわち、複数の撮像装置が被写体を異なる方向から撮像することに基づいて得られた複数の撮像画像から、前記被写体の領域を抽出した複数の被写体画像を取得する第1の取得手段と、前記複数の被写体画像について、前記被写体に対する精度を示す信頼度を取得する第2の取得手段と、前記信頼度に基づいて、前記複数の被写体画像から1つ以上の被写体画像を選択する選択手段と、前記選択された1つ以上の被写体画像に基づいて、前記被写体の3次元姿勢を示す姿勢モデルを生成する生成手段と、を有する。
本発明によれば、被写体の姿勢モデルを適切に生成することができる。
実施形態1における画像処理システムの構成例を示す図である。 実施形態1における標準形状モデルと姿勢モデルを示す模式図である。 実施形態1における形状推定装置のハードウェア構成例を示す図である。 実施形態1における撮影対象とカメラ配置の例を示す図である。 実施形態1における姿勢推定装置により実行される処理のフローチャートである。 実施形態1における前景確率画像と前景確率のヒストグラムの例を示す図である。 図6におけるヒストグラムと2クラス分類した結果を示す図である。 実施形態1における複数のカメラに対して設定したカメラグループを示す図である。 実施形態1における各カメラ(撮像装置)の信頼度、撮影角度およびカメラグループを示した表である。
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
<実施形態1>
本実施形態では、姿勢推定に用いる被写体画像を、機械学習の結果(学習済みモデル)を用いて抽出するケースにおいて、被写体抽出時の前景に対する確率値を用いて姿勢推定に用いる画像を選択し、被写体の姿勢モデルを推定する方法について述べる。本実施形態の画像処理システムは、複数の撮像装置が異なる方向から撮像することにより得られた複数の画像に基づいて、被写体の姿勢モデルを推定する。
本実施形態における被写体の姿勢推定モデルは、後述するように、一時的な形状モデルを取得した後に、該形状モデルに基づいて推定し生成される。
形状モデルは、例えば被写体が人物である場合、被写体のシルエット、輪郭を示し、点群や複数のボクセルで表現されてもよい。また、形状モデルは、複数のポリゴンを含むポリゴンデータとして表現されてもよい。
姿勢モデルは、例えば被写体が人物である場合、その人物の関節位置を表す点と、骨格を表す線とで表現されてもよい。つまり、この場合、姿勢モデルは、複数の点と、2点間を結ぶ線と、を含んでもよい。姿勢モデルは、これに限定されず、それ以外の表現であってもよく、関節位置を示す点のみで表現されていてもよい。また、すべての関節位置が表現されていなくてもよく、一部の関節位置が表現されていてもよい。また、姿勢モデルが、被写体の3次元姿勢を表すものであれば、必ずしも関節位置を点で表現しなくても、いくつか又はすべての関節位置に代えて特徴的な部位を点で表現してもよい。また、人物の顔などの輪郭については、複数の点と直線あるいは曲線で表現してもよいし、球や楕円球で表現してもよい。
[画像処理システムの構成]
本実施形態における画像処理システムの構成例を図1に示す。本実施形態における画像処理システム10は、撮像装置100と姿勢推定装置110とを含む。なお、図1には1台の撮像装置100を示すが、同様の構成の複数の撮像装置100が、無線または有線の接続で姿勢推定装置110に接続されているものとする。また、以下の説明において、「撮像装置」は、「カメラ」と同義に用いられるものとする。
複数の撮像装置100は、多数の異なる方向から撮像領域を撮像する、多視点カメラを構成し、異なる方向から撮像した複数の画像(多視点カメラ画像)を生成・取得する。撮像領域は、例えば、スポーツが行われる競技場の平面と任意の高さで囲まれた領域である。各撮像装置100は、撮像領域を取り囲むようにそれぞれ異なる位置・異なる方向に設置され、同期して撮像を行う。なお、各撮像装置100は撮像領域の全周にわたって設置されなくてもよく、設置場所の制限等によっては撮像領域の一部の方向にのみ設置されてもよい。多視点カメラを構成する撮像装置100の数は限定されず、例えば撮像領域をサッカーやラグビーの競技場とする場合、競技場の周囲に数十~数百台程度の撮像装置100が設置されてもよい。また、望遠カメラと広角カメラなど画角が異なるカメラが撮像装置100として設置されてもよい。撮像装置100は、現実世界の1つの時刻情報で同期され、撮像した画像(映像)には毎フレームの画像に撮像時刻情報が付与される。
さらに、撮像装置100は、自装置の位置、姿勢(向き、撮像方向)、焦点距離、光学中心、歪みなどの状態情報を取得し、管理する。撮像装置100の位置、姿勢(向き、撮像方向)は、撮像装置100自身によって制御されてもよいし、撮像装置100の位置や姿勢を制御する雲台によって制御されてもよい。以下では、撮像装置100の状態情報をカメラパラメータとして説明を行うが、そのパラメータには、雲台等の別の装置により制御されるパラメータ(各種情報)が含まれていてもよい。撮像装置100の位置、姿勢(向き、撮像方向)に関するカメラパラメータは、いわゆる外部パラメータであり、撮像装置100の焦点距離、画像中心、歪みに関するパラメータは、いわゆる内部パラメータである。
姿勢推定装置110は、複数の撮像装置100から得られた複数の画像から、被写体の姿勢モデルを推定して生成する生成装置として機能する。姿勢推定装置110は、被写体の姿勢モデルを、例えば、次のような方法で推定して生成する。まず、姿勢推定装置110は、複数の撮像装置100から、複数の撮像装置100が異なる方向から撮像することにより得られた複数の撮像画像(多視点カメラ画像)を取得する。次に、姿勢推定装置110は、撮像画像から、人物などの被写体に対応する前景領域を抽出した被写体画像を取得(生成)する。被写体画像とは、撮像装置100により撮像されて取得された撮像画像から、被写体領域(前景領域)を抽出した画像である。前景領域として抽出される被写体とは、一般的に、時系列で同じ方向から撮像を行った場合において動きのある(その位置や形が変化し得る)動的被写体(動体)を指す。被写体は、例えば、ある競技において、それが行われるフィールド内にいる選手や審判などの人物、球技であれば人物に加えボールなども含む。また、コンサートやエンタテイメントにおいては、歌手、演奏者、パフォーマー、司会者などが被写体である。
本実施形態では、姿勢モデルを推定するために、標準的な人の形を模した3次元の標準形状モデルとその姿勢モデル(初期姿勢モデル)が、あらかじめ姿勢推定装置110に入力されるものとする。当該標準形状モデルと初期姿勢モデルは、姿勢推定用パラメータとして所定の1つ以上のファイルに記載され、あらかじめ姿勢推定装置110に入力され、ROM312等の記憶手段に格納されうる。
図2に、姿勢推定装置110に入力される標準形状モデル200と初期姿勢モデル210の一例を示す。これらのモデルはCG(Computer Graphic)でも用いられる一般的なモデルで良く、ファイル形式(フォーマット)はFBX形式など一般的な形式で良い。標準形状モデル200は、例えば、3次元のメッシュモデルで表現され、頂点座標と三角形もしくは四角形の面を構成する頂点IDの情報が含まれる。初期姿勢モデル210は、頭部や首、臍、肩、肘、手首、足の付け根、膝、足首のような人体の主要部位や関節部位の位置を表す情報211とそれらの接続関係を示す情報212、隣接部位間の角度情報が含まれる。姿勢モデルの部位とメッシュモデルの部位とを対応付けておくことで、姿勢モデルの右腕を回転すれば、対応するメッシュモデルの部位も回転できる。姿勢推定では、このような姿勢モデルに対応したメッシュモデルを、各カメラ画像(各カメラの撮像画像)に射影した画像と各カメラの前景領域とが一致するように変形させ、最も一致した際の姿勢を被写体の姿勢モデルとして推定する。ただし、3次元の姿勢モデルを推定する方法はこれに限定されない。例えば、2次元画像上で2次元の姿勢を推定し、各カメラとの対応に基づいて、3次元の姿勢モデルを推定する方法など、種々の方法を用いてもよい。
[姿勢推定装置の構成]
次に、姿勢推定装置110の構成について説明する。まず、姿勢推定装置110の内部構成について、図1を参照して説明する。姿勢推定装置110は、画像取得部111、信頼度算出部112、画像選択部113、姿勢推定部114を有する。
画像取得部111は、複数の撮像装置100から、異なる方向から撮像することによって得られた複数の撮像画像を取得する。そして、画像取得部111は、該撮像画像のそれぞれから、撮像画像に含まれる被写体領域(前景画像)を抽出した被写体画像を取得する。画像取得部111は、このようにして、複数の被写体画像を取得する。被写体領域の抽出には、画像内に含まれる特定オブジェクト(サッカーの試合であれば、選手やボール)を前景領域として分離(抽出・検出)する前景背景分離手法を用いることができる。この手法には種々の方法があるが、本実施形態では、機械学習による前景背景分離手法を用いる例について説明する。
機械学習を用いた前景背景分離手法では、前景領域を分離したいシーンに類似したシーンの撮影画像と、その中に含まれる前景領域をマーキングしたシルエット画像との組である学習データを大量に準備し、ニューラルネットワークに入力し学習する。学習データとして用いるシルエット画像は、撮像画像内の前景領域を人が判断してマーキングしてもよいし、背景差分法など別の前景背景分離手法を用いて前景領域をマーキングすることで生成してもよい。大量の学習データに含まれる前景領域の特徴を統計的に学習することで、分離対象である撮像画像における各画素が、前景領域に対応するオブジェクトを構成する画素であるか否かを、画素ごとの確率値(前景確率値)として導出する。そして、画像取得部111は、前景確率値を所定の閾値で2値化することで、撮像画像に含まれる前景領域(被写体領域)に対応した被写体画像(マスク画像)を生成する。また、画像取得部111は、撮像画像に含まれる各画素が前景確率値を有する画像である前景確率画像を生成し、さらに、該前景確率画像に基づいて、前景確率の分布状況(例えばヒストグラム)の情報を生成する。該前景確率の分布状況の情報は、信頼度算出部112で使用される。
信頼度算出部112は、画像取得部111で生成した、前景確率の分布状況に基づいて、抽出した被写体領域の前景領域に対する信頼度を算出して取得する。この信頼度は、導出した前景確率値に基づく被写体画像がどれほど実際の前景領域に対応するかを示す(すなわち、実際の被写体に対する精度を示す、あるいは被写体の領域の抽出精度(確からしさ)を示す)値(指標)を表す。以下、この信頼度を、単に信頼度と称する。信頼度の算出方法については、動作フローの説明(図5)において後述する。
画像選択部113は、信頼度算出部112で算出された信頼度に基づき、姿勢推定に用いる1つ以上の被写体画像を選択する。被写体画像の選択においては、信頼度の他に、撮像装置100の配置を考慮してもよい。姿勢推定に用いるアルゴリズムにより、被写体画像を選択基準がかわる。例えば、なるべくいろいろな方向から撮影した被写体画像を準備した方がよいアルゴリズムの場合であれば、被写体画像の信頼度とともに撮像装置100の配置も考慮して、被写体画像を選択してもよい。
姿勢推定部114は、選択した1つ以上の被写体画像と、被写体が写る撮像装置100のカメラパラメータを用いて、被写体の姿勢モデルを推定して生成する。
次に、姿勢推定装置110のハードウェア構成について説明する。図3に、姿勢推定装置110のハードウェア構成例を示す。姿勢推定装置110は、CPU(Central Processing Unit)311、ROM(Read Only Memory)312、RAM(Random Access Memory)313、補助記憶装置314、表示部315、操作部316、通信I/F(インタフェース)317、及びバス318を有する。CPU311は、ROM312やRAM313に格納されているコンピュータプログラムやデータを用いて姿勢推定装置110の全体を制御することで、図1に示す姿勢推定装置110の各機能を実現する。なお、姿勢推定装置110がCPU311とは異なる1又は複数の専用のハードウェアを有し、CPU311による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ASIC(特定用途向け集積回路)、FPGA(フィールドプログラマブルゲートアレイ)、およびDSP(デジタルシグナルプロセッサ)などがある。ROM312は、変更を必要としないプログラムなどを格納する。RAM313は、補助記憶装置314から供給されるプログラムやデータ、及び通信I/F317を介して外部から供給されるデータなどを一時記憶する。補助記憶装置314は、例えばハードディスクドライブ等で構成され、画像データや音声データなどの種々のデータを記憶する。
表示部315は、例えば液晶ディスプレイやLED(Light Emitting Diode)等で構成され、ユーザが姿勢推定理装置1を操作するためのGUI(Graphical User Interface)などを表示する。操作部316は、例えばキーボードやマウス、ジョイスティック、タッチパネル等で構成され、ユーザによる操作を受けて各種の指示をCPU311に入力する。CPU311は、表示部315を制御する表示制御部、及び操作部316を制御する操作制御部として動作する。
通信I/F317は、姿勢推定装置110の外部の装置との通信に用いられる。例えば、姿勢推定装置110が外部の装置と有線で接続される場合には、通信用のケーブルが通信I/F317に接続される。姿勢推定装置110が外部の装置と無線通信する機能を有する場合には、通信I/F317はアンテナ(不図示)を備える。バス318は、姿勢推定装置110の各部をつないで情報を伝達する。
本実施形態では、表示部315と操作部316が姿勢推定装置110の内部に存在するものとするが、表示部315と操作部316との少なくとも一方が姿勢推定装置110の外部に別の装置として存在していてもよい。
[動作フロー]
続いて、姿勢推定装置110の動作について説明する。まず、本実施形態における撮影対象とカメラ配置について説明する。図4に、本実施形態における撮影対象とカメラ配置の例を示す。なお、図4並びに後述する図8における参照符号について、番号の後ろに付与したアルファベットのみが異なる符号は、同一機能を持つ装置の別インスタンスを示すものとする。例えば、図4(a)において、カメラ403Aとカメラ403Bは同一の機能を持つ別インスタンスを示している。なお、同一の機能を持つとは、少なくとも特定の機能(撮像機能など)を有することを指すものであり、例えばカメラ403Aとカメラ403Bが有する機能及び性能の一部が異なっていてもよい。また、以下の説明において、カメラ403は、カメラ403A~403Hの総称を表す。
図4(a)は、撮影対象(被写体の一例)を含む撮影領域とそれを取り囲むように配置したカメラ403A~403Hを示している。撮影領域401と、該撮影領域401に存在する撮影対象402を取り囲んで撮影するように、カメラ403A~403Hが配置されている。図4(b)は、撮影領域とカメラ配置の位置関係を撮影領域の真上から見下ろした平面上に図示したものである。図4(b)では、撮影対象402を撮影する各カメラの撮影対象402に対する相対的な撮影角度を、カメラ403Bを例として示している。具体的には、カメラ403Bの撮影対象402に対する相対的な撮影角度を、角度基準404と、カメラ403Bと撮影対象を結んだ直線405Bとのなす角度406Bとして示している。このようにしてカメラ403~403Hに対して導出される撮影角度は、カメラの配置を示す情報の一例であり、後述する姿勢推定に用いるカメラを選択する処理において、必要に応じて参照されうる。
図5は、姿勢推定装置110により実行される処理のフローチャートである。図5に示すフローチャートは、姿勢推定装置110のCPU311がROM312やRAM313に格納されている制御プログラムを実行し、情報の演算および加工並びに各ハードウェアの制御を実行することにより実現されうる。
S510において、姿勢推定部114は、姿勢推定用パラメータが記載されたファイルを読み込む。該姿勢推定用パラメータは、図2を用いて前述した姿勢モデルを含む。該姿勢モデルは初期姿勢として姿勢推定(後述するS550)に用いられる。
S520において、画像取得部111は被写体画像を取得する。本実施形態では前述の通り、被写体画像(前景画像)の取得方法として機械学習による手法を用いるものとする。また、画像取得部111は、前述の通り、該機械学習を通じて、前景確率画像(各画素が前景領域である確率値(前景確率値)を有する画像)を生成する。前景確率画像は、被写体領域を含む任意のサイズの画像であり得る。さらに、画像取得部111は、生成した前景確率画像に基づいて、前景確率の分布状況の情報として、前景確率のヒストグラムを生成する。
図6に、本ステップにおいて生成される前景確率画像と前景確率のヒストグラムの例を示す。図6(a)は、前景確率の高低の区別が明確である例を示し、図6(b)は、前景確率の高低の区別が明確でない例を示す。結果として、図6(a)は、被写体領域が比較的上手にできた例であり、図6(b)は比較的上手に検出できなかった例に対応する。
図6(a)における前景確率画像601は、画素ごと前景確率値を有し、前景確率値の高い画素を白、低い画素を黒で表している。例えば、所定の第1の閾値より高い前景確率値は高いと判定し、所定の第2の閾値より低い前景確率値は、低いと判定することができる。ヒストグラム602は、これらの前景確率の頻度を集計した結果である。図6(a)のヒストグラムは、前景確率値の高い画素の頻度と低い画素の頻度が多く、前景確率値が中間値を取る画素がほとんどない分布となっている。
図6(b)における前景確率画像603は、前景確率画像601と同様に、前景確率の高い画素を白、前景確率値の低い画素を黒で表しており、前景確率値が中間値を取る画素を斜線で表している。例えば、前述の所定の第1の閾値と第2の閾値の間にある値を中間値とする。ヒストグラム604は、これらの前景確率値の頻度を集計した結果である。図6(b)のヒストグラムは、前景確率が高い画素、低い画素とともに中間値を取る画素がある程度存在する分布となっている。
S530において、信頼度算出部112は、画像取得部111で生成した前景確率のヒストグラムを用いて、被写体画像の信頼度を算出して取得する。被写体画像の信頼度の算出方法の一例として、本実施形態では、前景確率のヒストグラムを周知の判別分析法(大津の二値化)により2クラス分類して算出する手法について説明する。大津の二値化は、ある分布に対して、分離度=(クラス間分散)/(クラス内分散)が最大となるように二値化閾値を決める手法である。分離度は2つのクラスがどれだけ離れた分布になっているかを示す値となっているため、この値が大きいほど、前景確率の中間値が少なく、前景確率の高い画素と低い画素の割合が大きい分布になっていると言える。分離度が大きいということは、機械学習による前景背景分離手法において、前景確率と前景でない確率(=背景である確率)がよりはっきりと区別出来ているということを意味し、前景画像がより鮮明に抽出出来ていることを意味する。
図6における前景確率のヒストグラム(ヒストグラム602、ヒストグラム604)を大津の二値化により2クラス分類した結果を図7に示す。図7(a)は、ヒストグラム602を2クラス分類した閾値701を、図7(b)は、ヒストグラム604を2クラス分類した閾値702を示している。それぞれの分離度をC1、C2とすると、C1>C2の大小関係となる。これは、前述のように、前景確率の高い画素と低い画素の割合が大きい分布の場合に、分離度はより大きい値になるからである。本実施形態では、この分離度をそのまま前景画像の信頼度として用いる。よって、図6に示す前景確率のヒストグラム(分布状況)において、確率値として取り得る最低値に近い確率値と最高値に近い確率値の割合が大きいほど、分離度は大きくなり、信頼度は高くなる(大きくなる)。なお、前景画像の信頼度の算出方法はこれに限らず、任意の2クラス化手法と、前景クラスと判定した画素群と背景クラスと判定した画素群の分離度を表す任意の指標を採用することが可能である。
S540において、画像選択部113は姿勢推定に用いる被写体画像を、S530で算出された信頼度などを用いて選択する。信頼度の他に用いる指標は、そのシステムで用いる姿勢推定手法により決定されうる。例えば、姿勢推定対象の被写体をなるべく様々な方向から撮影した画像を用いた方がよい手法を用いる場合、信頼度の他にカメラの配置情報も考慮して被写体画像を選択してもよい。
このような、信頼度とカメラの配置情報を考慮した被写体画像の選択方法の一例を、図8と図9を用いて説明する。本例では、姿勢推定用の1つ以上の被写体画像として、カメラ403A~403Hから得られる複数の被写体画像から4つ選択する場合を想定する。カメラの配置のばらつきを持たせるために、図4(b)で説明した撮影角度を用いて各カメラを4つのグループに分類する。図8に、図4(b)のように配置されたカメラに対して設定したカメラグループの例(グループ1~4)を示す。本例では、グループ1~4のそれぞれにおいて、最も信頼度の高い被写体画像を取得できるカメラを選択する。これにより、被写体をなるべく様々な方向から撮影し、かつ信頼度の高い被写体画像を取得できるカメラを選択することが可能となる。各カメラに対する信頼度(本実施形態では、前述した分離度)、撮影角度およびグループを示した表を図9に示す。この表から、同一グループ内で信頼度を比較し、信頼度の高いカメラによる撮像画像から得られる被写体画像を選択することとなる。
S550において、姿勢推定部114は、選択された被写体画像を用いて姿勢を推定する。姿勢推定の方法は多視点カメラ情報と初期姿勢モデルを用いる既知の方法で良い。例えば、次のような方法がある。まず、初期姿勢モデルを変形させて、一時的な形状モデルを取得し、選択された前景画像に射影する。そして、射影された領域と前景画像との類似度を評価する。これらの処理を類似度が一定の閾値を満たすまで姿勢モデルを変えながら繰り返し、閾値を満たしたときの姿勢モデルを、最適な姿勢モデルと推定できる。また、連続的に運動する被写体を撮影した場合、初期姿勢モデルは1フレーム前の姿勢モデルでも良い。
このように、本実施形態によれば、多視点カメラに写る被写体の姿勢モデルを推定して生成する場合に、被写体部分の検出精度を考慮して、姿勢推定を行う上で最適な1つ以上の被写体画像を選択できる。その結果、姿勢推定の処理時間や誤差を低減できる。
なお、本実施形態の説明は、各カメラは1つの同一の被写体を撮影している想定での説明となっているが、撮影領域に複数の被写体が存在する場合についても、本実施形態を適用可能である。その場合、例えば被写体ごとに本実施形態の処理を行えばよい。
また、本実施形態では、被写体の撮影方向のばらつきを保証するために、角度に基づきカメラグループを設定する方法を用いたが、他の方法も可能である。例えば、信頼度とカメラ配置のばらつきの度合に基づいて算出する指標が最大化されるようにカメラを選択する方法でもよい。
<実施形態1の変形例>
実施形態1では、被写体の前景画像を分離手法として、機械学習の結果に基づく手法を用いた場合を説明したが、他の手法を用いてもよい。例えば、前景画像を分離する手法として、予め作成した背景画像と撮影画像の画素値の差分から前景画像を抽出(生成)する背景差分による手法を用いることもできる。この場合、実施形態1で用いた前景確率のヒストグラムの代わりに、抽出した前景画像の周辺領域における撮影画像と背景画像の各画素の差分値のヒストグラムを用いることができる。撮影画像と背景画像の差分値の分離度が大きいということは、前景に対応する画素と背景に対応する画素の色輝度の差分がはっきりしているということであり、これにより前景境界に忠実に前景部分を分離出来たことを意味する。すなわち、抽出した前景画像の周辺領域における撮影画像において、差分値が大きい値をとるほど(もしくは、差分値として取り得る最大値に近い値を取る割合が多いほど)、信頼度は高くなる(大きくなる)。このように前景部分が忠実に分離出来た前景画像を選択することで、より姿勢推定に適した被写体画像を選択することができる。
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
100 撮像装置、110 姿勢推定装置、111 画像取得部、112 信頼度算出部、113 画像選択部、114 姿勢推定部

Claims (11)

  1. 複数の撮像装置が被写体を異なる方向から撮像することに基づいて得られた複数の撮像画像から、前記被写体の領域を抽出した複数の被写体画像を取得する第1の取得手段と、
    前記複数の被写体画像について、前記被写体に対する精度を示す信頼度を取得する第2の取得手段と、
    前記信頼度に基づいて、前記複数の被写体画像から1つ以上の被写体画像を選択する選択手段と、
    前記選択された1つ以上の被写体画像に基づいて、前記被写体の3次元姿勢を示す姿勢モデルを生成する生成手段と、
    を有することを特徴とする生成装置。
  2. 前記第1の取得手段は、前記複数の撮像画像のそれぞれについて、撮像画像における各画素が前記被写体の領域を構成する画素であるか否かを示す確率値を、画素ごとに導出し、当該確率値に基づいて、前記撮像画像における前記被写体画像を取得することを特徴とする請求項1に記載の生成装置。
  3. 前記第1の取得手段は、前記撮像画像における各画素の前記確率値を所定の閾値で2値化することによって、前記被写体画像を取得することを特徴とする請求項2に記載の生成装置。
  4. 前記第1の取得手段は、機械学習による結果に基づいて、前記撮像画像における各画素の前記確率値を導出することを特徴とする請求項2または3に記載の生成装置。
  5. 前記第2の取得手段は、前記撮像画像における各画素の前記確率値の分布に基づいて、前記被写体画像に対する前記信頼度を取得することを特徴とする請求項2から4のいずれか1項に記載の生成装置。
  6. 前記第2の手段は、前記確率値の分布において、確率値として取り得る最低値に近い確率値と最高値に近い確率値の割合が大きいほど、値が大きくなるように、前記信頼度を取得することを特徴とする請求項5に記載の生成装置。
  7. 前記第1の取得手段は、前記複数の撮像画像のそれぞれについて、撮像画像の撮影領域に前記被写体が存在しない背景画像の画素値と、前記撮像画像の画素値との差分値を、画素ごとに導出し、当該差分値に基づいて、前記被写体画像を取得することを特徴とする請求項1に記載の生成装置。
  8. 前記第2の取得手段は、前記撮像画像における前記差分値が大きい値をとるほど、値が大きくなるように、前記信頼度を取得することを特徴とする請求項7に記載の生成装置。
  9. 前記選択手段は、前記信頼度と前記複数の撮像装置の配置を示す情報に基づいて、前記1つ以上の被写体画像を選択することを特徴とする請求項1から8のいずれか1項に記載の生成装置。
  10. 複数の撮像装置が被写体を異なる方向から撮像することに基づいて得られた複数の撮像画像から、前記被写体の領域を抽出した複数の被写体画像を取得する第1の取得工程と、
    前記複数の被写体画像のそれぞれについて、前記被写体に対する精度を示す信頼度を取得する第2の取得工程と、
    前記信頼度に基づいて、前記複数の被写体画像から1つ以上の被写体画像を選択する選択工程と、
    前記選択された1つ以上の被写体画像に基づいて、前記被写体の3次元姿勢を示す姿勢モデルを生成する生成工程と、
    を有することを特徴とする生成方法。
  11. コンピュータを、請求項1から9のいずれか1項に記載の生成装置として機能させるためのプログラム。
JP2020161329A 2020-08-05 2020-09-25 生成装置、生成方法、およびプログラム Pending JP2022054251A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020161329A JP2022054251A (ja) 2020-09-25 2020-09-25 生成装置、生成方法、およびプログラム
EP21187357.5A EP3951715B1 (en) 2020-08-05 2021-07-23 Generation apparatus, generation method, and program
US17/387,295 US11776213B2 (en) 2020-08-05 2021-07-28 Pose generation apparatus, generation method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020161329A JP2022054251A (ja) 2020-09-25 2020-09-25 生成装置、生成方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2022054251A true JP2022054251A (ja) 2022-04-06
JP2022054251A5 JP2022054251A5 (ja) 2023-10-05

Family

ID=80996863

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020161329A Pending JP2022054251A (ja) 2020-08-05 2020-09-25 生成装置、生成方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP2022054251A (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000251078A (ja) * 1998-12-22 2000-09-14 Atr Media Integration & Communications Res Lab 人物の3次元姿勢推定方法および装置ならびに人物の肘の位置推定方法および装置
JP2006172080A (ja) * 2004-12-15 2006-06-29 Hitachi Global Storage Technologies Netherlands Bv 光源のパラメータ設定方法及び識別記号の認識方法
JP2012099070A (ja) * 2010-11-05 2012-05-24 Glory Ltd 被写体検出方法および被写体検出装置
CN110796699A (zh) * 2019-06-18 2020-02-14 叠境数字科技(上海)有限公司 多目相机系统的最优视角选择方法和三维人体骨骼检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000251078A (ja) * 1998-12-22 2000-09-14 Atr Media Integration & Communications Res Lab 人物の3次元姿勢推定方法および装置ならびに人物の肘の位置推定方法および装置
JP2006172080A (ja) * 2004-12-15 2006-06-29 Hitachi Global Storage Technologies Netherlands Bv 光源のパラメータ設定方法及び識別記号の認識方法
JP2012099070A (ja) * 2010-11-05 2012-05-24 Glory Ltd 被写体検出方法および被写体検出装置
CN110796699A (zh) * 2019-06-18 2020-02-14 叠境数字科技(上海)有限公司 多目相机系统的最优视角选择方法和三维人体骨骼检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KARIM ISKAKOV, ET AL.: "Learnable Triangulation of Human Pose", 2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), JPN6024025178, 27 October 2019 (2019-10-27), US, ISSN: 0005358161 *
ZHONG LIU, ET AL.: "A New Model-Based Method for Multi-View Human Body Tracking and Its Application to View Transfer in", IEEE TRANSACTIONS ON MULTIMEDIA, vol. Volume: 20, Issue: 6, June 2018, JPN6024025179, 30 October 2017 (2017-10-30), US, pages 1321 - 1334, ISSN: 0005358162 *

Similar Documents

Publication Publication Date Title
JP6748773B2 (ja) 映像提示装置、映像提示方法、およびプログラム
JP5837508B2 (ja) 姿勢状態推定装置および姿勢状態推定方法
US11776213B2 (en) Pose generation apparatus, generation method, and storage medium
JP7566973B2 (ja) 情報処理装置、情報処理方法及びプログラム
US9743014B2 (en) Image recognition system, image recognition apparatus, image recognition method, and computer program
JP6587421B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP5873442B2 (ja) 物体検出装置および物体検出方法
CN109035334B (zh) 位姿的确定方法和装置、存储介质及电子装置
US20180321776A1 (en) Method for acting on augmented reality virtual objects
JP7250493B2 (ja) 画像処理装置、三次元形状データの生成方法およびプログラム
JP5940862B2 (ja) 画像処理装置
CN108227920B (zh) 运动封闭空间追踪方法及追踪系统
KR20120065063A (ko) 고속 스테레오 카메라를 이용한 구형 물체의 비행 정보 측정 시스템 및 방법
US20230351615A1 (en) Object identifications in images or videos
JP7634955B2 (ja) 制御装置および学習装置及び制御方法
JP5503510B2 (ja) 姿勢推定装置および姿勢推定プログラム
Wang et al. Practical color-based motion capture
JP6799468B2 (ja) 画像処理装置、画像処理方法及びコンピュータプログラム
JP7500333B2 (ja) 生成装置、生成方法、およびプログラム
JP2022054251A (ja) 生成装置、生成方法、およびプログラム
CN111462294A (zh) 一种图像处理方法、电子设备及计算机可读存储介质
KR102715450B1 (ko) 사람의 동작분석시스템
US20250005846A1 (en) Image processing apparatus, image processing method, and non-transitory computer-readable medium
CN112511764B (zh) 移动图像整合方法及移动图像整合系统
JP2022131197A (ja) 画像処理装置、画像処理方法、およびプログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20210103

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230925

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230925

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240624

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240628

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20241118