WO2019171944A1

WO2019171944A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2019171944A1
Application number: PCT/JP2019/006202
Authority: WO
Inventors: 岳成田
Original assignee: ソニー株式会社
Priority date: 2018-03-06
Filing date: 2019-02-20
Publication date: 2019-09-12
Also published as: EP3764323B1; EP3764323A4; EP3764323A1; CN111801710A; JPWO2019171944A1; US11393124B2; US20200410714A1; JP7207396B2

Abstract

本技術は、物体の姿勢を容易に推定することができるようにする情報処理装置、情報処理方法、およびプログラムに関する。本技術の一側面の情報処理装置は、認識対象となる物体であるモデル全体のうち、他の部分と対称性を有する所定の部分のデータを用いた学習が行われることによって得られた、対応点の特定に用いられる学習済みデータに基づいて、モデル上の第１の点に対応する、入力されたシーンに含まれるモデル上の第２の点を対応点として特定し、対応点に基づいて、シーンに含まれるモデルの姿勢を推定する。本技術は、プロジェクションマッピングによって画像を投影する投影システムを制御する装置に適用することができる。

Description

情報処理装置、情報処理方法、およびプログラム

　本技術は、情報処理装置、情報処理方法、およびプログラムに関し、特に、物体の姿勢を容易に推定することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。

　予め登録された物体を、カメラにより撮像された画像や、測距センサにより測定された距離を表す点群のデータに基づいて認識し、その姿勢を推定する技術がある。

　このような姿勢推定の技術は、例えば、複数台のプロジェクタを連動させて物体に画像を投影するPM(Projection Mapping)のシステムにおいて用いられる。推定された物体の姿勢に基づいて、投影する画像の内容を変えたり、投影する画像に対して補正を施したりするなどの処理が行われる。

特開２０１６－２０７１４７号公報

　物体の姿勢は、例えば、撮像された画像に写る物体上のある点に対応する、予め登録された物体上の点を特定し、これらの対応点の関係に基づいて推定される。姿勢の推定に用いられる対応点は、例えば、画像に写る物体の各点の特徴量を抽出し、学習済みの特徴量とマッチングを行うことによって特定される。

　認識の対象となる物体に対称性がある場合、撮像された画像に写る物体上のある点に対応する対応点の候補として多数の点が存在することになり、マッチングの計算時間が長くなってしまう。物体上のある位置の点と、対称性のある位置の点とは同じ特徴量によって表されることになり、特徴量のデータが重複した形で辞書に格納される。

　本技術はこのような状況に鑑みてなされたものであり、物体の姿勢を容易に推定することができるようにするものである。

　本技術の一側面の情報処理装置は、認識対象となる物体であるモデル全体のうち、他の部分と対称性を有する所定の部分のデータを用いた学習が行われることによって得られた、対応点の特定に用いられる学習済みデータに基づいて、前記モデル上の第１の点に対応する、入力されたシーンに含まれる前記モデル上の第２の点を前記対応点として特定する対応点取得部と、前記対応点に基づいて、前記シーンに含まれる前記モデルの姿勢を推定する姿勢推定部とを備える。

　本技術の他の側面の情報処理装置は、認識対象となる物体であるモデル全体のうち、他の部分と対称性を有する所定の部分のデータを用いた学習を行うことによって、入力されたシーンに含まれる前記モデルの姿勢の推定時に、前記モデル上の第１の点に対応する、前記シーンに含まれる前記モデル上の第２の点を対応点として特定することに用いられる学習済みデータを生成する生成部を備える。

　本技術の一側面においては、認識対象となる物体であるモデル全体のうち、他の部分と対称性を有する所定の部分のデータを用いた学習が行われることによって得られた、対応点の特定に用いられる学習済みデータに基づいて、前記モデル上の第１の点に対応する、入力されたシーンに含まれる前記モデル上の第２の点が前記対応点として特定され、前記対応点に基づいて、前記シーンに含まれる前記モデルの姿勢が推定される。

　本技術の他の側面においては、認識対象となる物体であるモデル全体のうち、他の部分と対称性を有する所定の部分のデータを用いた学習を行うことによって、入力されたシーンに含まれる前記モデルの姿勢の推定時に、前記モデル上の第１の点に対応する、前記シーンに含まれる前記モデル上の第２の点を対応点として特定することに用いられる学習済みデータが生成される。

　本技術によれば、物体の姿勢を容易に推定することができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術の一実施形態に係る投影システムの構成例を示す図である。投影システムの構成例を示すブロック図である。モデルの姿勢を推定する一般的な方法の流れを示す図である。モデルの姿勢を推定する他の一般的な方法の流れを示す図である。モデルの例を示す図である。対応点のマッチングの例を示す図である。撮像画像処理部の構成例を示すブロック図である。モデルの座標変換の例を示す図である。部分領域の算出例を示す図である。部分領域の算出例を示す図である。部分領域の算出例を示す図である。対応点のマッチングの例を示す図である。設定値の計算の例を示す図である。設定値の計算の例を示す図である。姿勢仮説の類似度の計算の例を示す図である。姿勢仮説の類似度の計算の例を示す図である。姿勢仮説の類似度の計算の例を示す図である。学習処理について説明するフローチャートである。推定処理について説明するフローチャートである。撮像画像処理部の他の構成例を示すブロック図である。学習処理について説明するフローチャートである。推定処理について説明するフローチャートである。コンピュータの構成例を示すブロック図である。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．投影システムについて
　　１－１．投影システムの構成
　　１－２．一般的な姿勢推定について
　２．本技術を適用した姿勢推定について
　　２－１．特徴量を用いた例
　　２－２．機械学習を用いた例
　３．変形例

＜＜１．投影システムについて＞＞
＜１－１．投影システムの構成＞
　図１は、本技術の一実施形態に係る投影システムの構成例を示す図である。

　図１の投影システムは、制御装置１に対して、プロジェクタ＃０，＃１が有線または無線の通信を介して接続されることによって構成される。プロジェクタ＃０，＃１は、投影方向を物体２２に向けるように、投影空間の上方に設置されている。プロジェクタ＃０，＃１の設置位置については、投影空間の上方の位置以外の位置であってもよい。

　制御装置１は、パーソナルコンピュータ、スマートフォン、タブレット端末等の装置から構成される。制御装置１は、プロジェクタ＃０，＃１による画像の投影を制御する装置である。

　プロジェクタ＃０，＃１は、制御装置１による制御に従って、所定の画像を表す投影光を照射する。

　図１の投影システムにおいては、プロジェクタ＃０，＃１を用いて、床面２１に置かれた物体２２に画像が投影される。プロジェクタ＃０が照射する投影光による画像は、主に、物体２２の左側の位置に投影され、プロジェクタ＃１が照射する投影光による画像は、主に、物体２２の右側の位置に投影される。

　物体２２に対しては、例えば、金属の質感や木材の質感などの、物体２２の表面の質感を表現するためのテクスチャ画像が投影される。質感の表現に限らず、各種の情報の提示や立体感の演出が画像の投影によって行われるようにしてもよい。

　また、プロジェクタ＃０，＃１からは、床面２１上の、物体２２の周りの位置にキャラクタを表示するための画像などの各種の画像が投影される。

　このように、図１の投影システムは、立体的な形状を有する物体２２の表面に画像を投影するPM(Projection Mapping)のシステムである。立体的な形状を有する物体ではなく、平面的な形状を有する物体を対象として画像の投影が行われるようにしてもよい。

　図２は、投影システムの構成例を示すブロック図である。

　図２の例においては、プロジェクタ＃０，＃１以外のプロジェクタも示されている。このように２台以上のプロジェクタが設けられるようにしてもよい。プロジェクタ＃０乃至＃Ｎのそれぞれには、表示デバイス、レンズ、光源などよりなる投影部の他に、カメラにより構成される撮像部が設けられる。

　例えば、プロジェクタ＃０の撮像部＃０－１は、物体２２を含む投影空間の状況を撮像する。撮像部＃０－１により撮像された画像は制御装置１に供給される。

　投影部＃０－２は、制御装置１による制御に従って、プロジェクタ＃０に割り当てられた投影画像を投影する。

　プロジェクタ＃１乃至＃Ｎの撮像部＃１－１乃至＃Ｎ－１も、それぞれ、投影空間の状況を撮像する。投影部＃１－２乃至＃Ｎ－２も、それぞれ、自身に割り当てられた投影画像を投影する。

　図２の例においては、投影部の数と撮像部の数が同じ数とされているが、それぞれの数が異なっていてもよい。また、撮像部が、プロジェクタに内蔵されているのではなく、離れた位置に設けられるようにしてもよい。制御装置１の構成が、プロジェクタに設けられるようにしてもよい。

　制御装置１は、撮像画像処理部３１と投影画像処理部３２から構成される。

　撮像画像処理部３１は、各プロジェクタの撮像部により撮像された画像に基づいて、物体２２の姿勢を推定する。制御装置１に対しては、撮像された画像に写る物体２２を認識し、姿勢を推定するための情報が用意されている。撮像画像処理部３１は、物体２２の姿勢の推定結果を表す情報を投影画像処理部３２に出力する。

　投影画像処理部３２は、物体２２を投影対象として各プロジェクタから投影させる投影画像を生成する。投影画像処理部３２は、適宜、撮像画像処理部３１により推定された物体２２の姿勢に基づいて、投影する画像の内容を変えたり、投影する画像に対して補正を施したりするなどの処理を行う。

　このように、制御装置１は、予め登録された物体２２を、カメラにより撮像された画像に基づいて認識し、その姿勢を推定する機能を有する情報処理装置である。物体の姿勢の推定が、カメラにより撮像された画像に基づいて行われるのではなく、測距センサにより測定された距離を表す点群のデータなどの各種の入力に基づいて行われるようにしてもよい。

　以下、制御装置１の姿勢推定機能について説明する。

　以下においては、適宜、登録された認識対象の物体をモデルという。また、画像データや、距離を表す点群のデータなどの、姿勢の推定の対象として入力されるモデルのデータをシーンという。シーンにより、所定の姿勢を有するモデルが表される。

　なお、モデルと、シーンに含まれるモデルの姿勢の関係は、２次元または３次元の剛体変換や、ホモグラフィー変換により表されるものであってもよい。

＜１－２．一般的な姿勢推定について＞
　図３は、シーンに含まれるモデルを認識し、その姿勢を推定する一般的な方法の流れを示す図である。

　矢印Ａ１の先に示すように、はじめに、モデル全体から特徴量が抽出される。抽出された特徴量のデータは、矢印Ａ２の先に示すように辞書を構成するデータとして格納される。

　例えば画像を入力とする場合、特徴量としてSIFT，SURF，ORBが用いられる。また、距離を表す点群を入力とする場合、特徴量としてSHOT，FPFH，PPFが用いられる。SIFT，SURF，ORBについては、それぞれ下記の文献[1]乃至[3]に記載されている。また、SHOT，FPFH，PPFについては、それぞれ下記の文献[4]乃至[6]に記載されている。

　[1] Lowe, David G. "Object recognition from local scale-invariant features." Computer vision, 1999. The proceedings of the seventh IEEE international conference on. Vol. 2. Ieee, 1999.
　[2] Bay, Herbert, Tinne Tuytelaars, and Luc Van Gool. "Surf: Speeded up robust features." Computer vision-ECCV 2006 (2006): 404-417.
　[3] Rublee, Ethan, et al. "ORB: An efficient alternative to SIFT or SURF." Computer Vision (ICCV), 2011 IEEE international conference on. IEEE, 2011.
　[4] Tombari, Federico, Samuele Salti, and Luigi Di Stefano. "Unique signatures of histograms for local surface description." European conference on computer vision. Springer, Berlin, Heidelberg, 2010.
　[5] Rusu, Radu Bogdan, Nico Blodow, and Michael Beetz. "Fast point feature histograms (FPFH) for 3D registration." Robotics and Automation, 2009. ICRA'09. IEEE International Conference on. IEEE, 2009.
　[6] Drost, Bertram, et al. "Model globally, match locally: Efficient and robust 3D object recognition." Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on. Ieee, 2010.

　姿勢推定の実行時、矢印Ａ１１の先に示すようにシーンから特徴量が抽出される。矢印Ａ１２，Ａ１３の先に示すように、シーンから抽出された特徴量と、辞書に格納された特徴量とのマッチングが行われ、モデルと、シーンに含まれるモデルとの対応点が取得される。例えば、モデル上の点と、その点に対応する、シーンに含まれるモデル上の点が対応点として複数取得される。

　矢印Ａ１４の先に示すように、対応点の関係に基づいて、シーンに含まれるモデルの姿勢仮説が算出され、条件に最も適合する姿勢仮説が、矢印Ａ１５の先に示すように、姿勢の推定結果として出力される。

　図４は、モデルの姿勢を推定する他の一般的な方法の流れを示す図である。

　図４に流れを示す姿勢推定は、機械学習を用いた方法である。

　矢印Ａ２１の先に示すように、はじめに、対応点の関係を学習した対応点推定器が作成される。ここでは、シーンを入力としたときに対応点を出力する推定器が対応点推定器として作成される。対応点推定器は、例えば、Random Forestの推定器、Random Fernsの推定器、ニューラルネットワークとして構成される。

　姿勢推定の実行時、矢印Ａ２２，Ａ２３の先に示すように、対応点推定器の入力としてシーンを用いることによって、モデルと、シーンに含まれるモデルの対応点が取得される。

　矢印Ａ２４の先に示すように、対応点の関係に基づいて、シーンに含まれるモデルの姿勢仮説が算出され、条件に最も適合する姿勢仮説が、矢印Ａ２５の先に示すように、姿勢の推定結果として出力される。

　図５は、モデルの例を示す図である。

　以下、モデルが、図５に示すような平面の物体であり、５つの頂点が等間隔に配置された星型の物体であるものとする。図５の例においては、モデルの姿勢と、シーンに含まれるモデルの姿勢が同一ではない。このようなシーンに含まれるモデルの姿勢が、モデルのデータを用いた学習を行うことによって予め生成された学習済みのデータに基づいて推定される。

　ここで、図５に示すモデルは、対称性を有している。

　したがって、図３に示す特徴量を用いた推定方法の場合、モデル上の異なる位置から算出された、同一、またはほぼ同一の値を持つ特徴量のデータが重複して辞書に格納される。例えば、それぞれの頂点近傍の部分は、形状だけを見た場合には同じ形状であるから、同じ特徴量により表される。

　その結果、姿勢推定の実行時、図６に示すように、シーン中の点と、モデル上の多数の点とをマッチングするための計算が発生することになり、計算時間が長くなる。また、シーン中の点が、モデル上の複数の点と対応付けられるため、最終的な姿勢推定の結果が不安定になる。

　一方、図４に示す機械学習を用いた推定方法の場合、姿勢推定器の学習が不安定になる。

　例えば、モデルが対称性を有している場合の姿勢推定については、下記の文献[7]に記載されている。
　[7] de Figueiredo, Rui Pimentel, Plinio Moreno, and Alexandre Bernardino. "Fast 3D object recognition of rotationally symmetric objects." Iberian Conference on Pattern Recognition and Image Analysis. Springer, Berlin, Heidelberg, 2013.

　文献[7]に記載された技術は、点群から抽出されたPPF（文献[6]）を用いて回転体の３次元物体認識を行うものである。この技術は、入力が点群であり、かつ、特徴量としてPPFを用いる場合にしか適用できない。また、回転体以外の、任意の対称性を有する物体の認識については適用できない。

　制御装置１においては、回転体以外の、任意の対称性を有する物体の姿勢についても、推定することが可能とされる。

＜＜２．本技術を適用した姿勢推定について＞＞
＜２－１．特徴量を用いた例＞
　図７は、撮像画像処理部３１の構成例を示すブロック図である。

　図７に示すように、撮像画像処理部３１は、学習部５１と推定部５２から構成される。

　学習部５１は、モデルのデータに基づいて学習を行い、対応点の取得に用いられる辞書を生成する生成部として機能する。学習部５１は、モデルデータ記憶部６１、特徴量抽出領域算出部６２、特徴量抽出部６３、および辞書記憶部６４から構成される。

　モデルデータ記憶部６１は、モデルのデータを記憶する。モデルデータ記憶部６１が記憶するモデルのデータには、モデルのテクスチャや形状（テクスチャと形状のうちの少なくともいずれか）に関するデータと、モデルの対称性に関するデータが含まれる。破線矢印の先に示すように、モデルの対称性に関するデータは、学習時、特徴量抽出領域算出部６２に供給され、姿勢推定時、推定部５２のモデル姿勢推定部７３に供給される。

　ここで、モデルの対称性は、モデルＭに対して座標変換を施した場合に、変換後のモデルＭが、変換前のモデルＭと一致するような座標変換の集合｛Ｔ_i｝として表される。座標変換Ｔ_iを施した変換後のモデルＭが、変換前のモデルＭと例えばテクスチャや形状において同一である場合に、モデルＭは対称性を有していることになる。

　図８に示すようにモデルのそれぞれの頂点を頂点Ａ乃至Ｅとすると、｛Ｔ_i｝は、頂点Ａを頂点Ｂに移す座標変換Ｔ₁、頂点Ａを頂点Ｃに移す座標変換Ｔ₂、頂点Ａを頂点Ｄに移す座標変換Ｔ₃、頂点Ａを頂点Ｅに移す座標変換Ｔ₄の４つの座標変換の集合となる。

　｛Ｔ_i｝は、有限集合であってもよいし、無限集合であってもよい。モデルの対称性に関するデータは、制御装置１のユーザにより入力されるようにしてもよいし、モデルのテクスチャや形状に関するデータに基づいて制御装置１において自動的に推定されるようにしてもよい。

　特徴量抽出領域算出部６２は、モデルの表面全体のうちの、特徴量を抽出する対象となる一部の領域である部分領域を算出する。部分領域の算出（設定）は、モデルの対称性に関するデータを参照して行われる。

　具体的には、特徴量抽出領域算出部６２は、下式（１）の条件と下式（２）の条件を満たす部分領域Ｓ₀を設定する。

　式（１）は、部分領域Ｓ₀にいかなる座標変換Ｔ_iを施しても、変換後の部分領域Ｓ₀において、変換前の部分領域Ｓ₀と重複がないことを要請する条件を表す。

　また、式（２）は、部分領域Ｓ₀に座標変換Ｔ_iを施した変換後の領域の和集合が、モデルＭの表面全体を覆うことを要請する条件を表す。Ｓ_Mは、モデルＭの表面全体である。ｉ＝１，２，３，４である場合、式（２）は、下式（３）のように表される。

　図９は、部分領域Ｓ₀の算出例を示す図である。

　図９のＡにおいて斜線を付して示す部分領域Ｓ₀は、図９のＢに示すように、いかなる座標変換Ｔ_i（ｉ＝１，２，３，４）を施しても、変換後の領域が、部分領域Ｓ₀自身と重複することがないことから、式（１）の条件を満たすといえる。

　また、部分領域Ｓ₀自身と、座標変換Ｔ_i（ｉ＝１，２，３，４）後の領域Ｔ₁Ｓ₀，Ｔ₂Ｓ₀，Ｔ₃Ｓ₀，Ｔ₄Ｓ₀との和集合がモデルＭの全体を覆うことから、式(２)の条件を満たすといえる。

　モデル全体のデータのうち、このようにして算出された部分領域Ｓ₀のデータが特徴量抽出領域算出部６２から特徴量抽出部６３に供給される。

　特徴量抽出部６３は、部分領域Ｓ₀のデータに基づいて、部分領域Ｓ₀内の各点の特徴量を抽出する。抽出された部分領域Ｓ₀の特徴量のデータは、辞書記憶部６４に供給され、辞書を構成するデータとして記憶される。

　モデルの対称性を考慮して、対称性を有する他の部分の位置に座標変換によって移動させた場合に、座標変換後のいずれの領域とも重複しない領域を部分領域Ｓ₀として設定することにより、同じような特徴量のデータが重複して辞書に格納されてしまうことを防ぐことが可能になる。

　仮に、図１０のＡに示すような形で部分領域Ｓ₀が設定された場合について考える。この場合、部分領域Ｓ₀は、座標変換Ｔ₁を施した変換後の図１０のＢに示す領域Ｔ₁Ｓ₀と重複し、図１０のＣに斜線を付して示す領域の特徴量が重複して辞書に格納されてしまう。式（１）の条件を満たすように部分領域Ｓ₀が設定されることにより、そのような重複する領域の特徴量のデータが辞書に格納されてしまうことを防ぐことが可能になる。

　また、姿勢を正しく推定するためには、対応点となる多くの点に関する特徴量が用意されていることが望ましい。モデルの対称性を考慮して、対称性を有する他の部分の位置に座標変換によって移動させた場合に、モデルの全体に相当するように部分領域Ｓ₀を設定することにより、多くの対応点を用いた姿勢の推定が可能になる。

　仮に、図１１に斜線を付して示すような形で部分領域Ｓ₀が設定された場合について考える。この場合、部分領域Ｓ₀は、式（１）の条件を満たすものの、図９に示すようにして部分領域Ｓ₀が設定された場合と比べて、特徴量が得られる点の数が少なくなる。式（２）の条件を満たすように部分領域Ｓ₀が設定されることにより、対応点となる多くの点に関する特徴量を用意することが可能になる。

　式（１）と式（２）の両方の条件を満たすように部分領域Ｓ₀が設定されることにより、対称性を考慮した、必要十分といえる特徴量を抽出することが可能になる。

　図７の説明に戻り、推定部５２は、学習部５１による学習によって得られた辞書を参照し、シーンに含まれるモデルの姿勢を推定する。推定部５２は、特徴量抽出部７１、対応点取得部７２、およびモデル姿勢推定部７３から構成される。

　特徴量抽出部７１は、シーン全体の特徴量を抽出し、対応点取得部７２に出力する。

　対応点取得部７２は、辞書に格納されている部分領域Ｓ₀の特徴量と、シーン全体の特徴量とのマッチングを行い、モデル上の点に対応する、シーンに含まれるモデル上の点を対応点として取得する。

　図１２は、対応点の例を示す図である。

　学習時、図１２の左側に示す部分領域Ｓ₀内の特徴量が得られているから、モデル上の頂点Ａに対応する対応点として、図１２に示すように、頂点ａ，頂点ｂ，頂点ｃ，頂点ｄ，頂点ｅが取得される。マッチングに用いる特徴量が少ないため、図６を参照して説明したようにモデル全体の特徴量同士のマッチングを行う場合と比べて、マッチングにかかる計算時間を短縮することが可能になる。

　このようにして取得された対応点の情報は、モデル姿勢推定部７３に供給される。

　モデル姿勢推定部７３は、対応点取得部７２により取得された対応点に基づいて、シーンに含まれるモデルの姿勢の候補である姿勢仮説を設定する。例えば、モデル上の点と、その点に対応する、シーンに含まれるモデル上の点との関係に基づいて姿勢仮説が設定される。姿勢仮説は例えば複数設定される。

　また、モデル姿勢推定部７３は、複数の姿勢仮説の中から１つの姿勢仮説を最終的な姿勢として選択し、推定結果として出力する。最終的な姿勢の選択は、モデルの対称性に関するデータを参照して行われる。

　最終的な姿勢の選択は、例えば、RANSAC(Random Sampling Consensus)などのロバスト推定や、姿勢クラスタリングにより行われる。ロバスト推定は、与えられた観測値に外れ値（outlier）が含まれている可能性を考慮して推定を行う方法である。

　はじめに、RANSACによる一般的な姿勢の推定について説明する。ここでいう一般的な姿勢の推定は、モデルの対称性を考慮しないで姿勢を推定することを表す。

　RANSACは、姿勢仮説ｈに対する信頼度s(h)を定義し、姿勢仮説群の中から、信頼度s(h)の値が大きい姿勢仮説ｈを選択する処理を繰り返し行う方法である。信頼度s(h)は、例えば下式（４）により表される。式（４）は、inlierの数によって信頼度を定義する式である。

　ここで、ｐ_mはモデル上の点を表し、ｐ_sはシーン上の点（シーンに含まれるモデル上の点）を表す。ｐ_mとｐ_sは、対応点取得部７２により対応点として取得される。d(p,q)は、点ｐと点ｑ間の距離を定義する関数である。点ｐと点ｑ間の距離として例えばユークリッド距離が用いられる。ユークリッド距離は、下式（５）により表される。

　また、式（４）のσは、予め定められた閾値である。また、１（・）は、括弧内の条件が成立する場合に１の値をとり、それ以外の場合に０の値をとる関数である。

　式（４）においては、モデル上の点ｐ_mに姿勢仮説ｈを与えたときのシーン上の点ｈｐ_mと、点ｐ_mの対応点であるシーン上の点ｐ_sとの距離の最小値が閾値σより小さい場合に値１が設定される。また、そのような値の設定が全ての点ｐ_sについて行われたときの設定値の合計が、信頼度s(h)として求められる。

　図１３は、設定値の計算の例を示す図である。

　モデル上に示す点ｐ_mに対して実線矢印で示すように姿勢仮説ｈを与えた場合、モデル上の点ｐ_mは、シーン上の点ｈｐ_mとして表される。シーン上の点ｈｐ_mと、対応点である複数の点ｐ_sのそれぞれとの距離のうちの最小となる距離が、閾値σと比較され、設定値が設定される。図１３の例においては、シーン上に示す白抜きの三角はそれぞれ対応点としての点ｐ_sを表す。

　次に、姿勢クラスタリングによる一般的な姿勢の推定について説明する。

　姿勢クラスタリングは、姿勢仮説群の中から、姿勢の類似度が高い姿勢仮説同士をグルーピングすることで、最終的なモデルの姿勢を算出するものである。２つの姿勢仮説ｈ₁，ｈ₂間の類似度l(h₁,h₂)は、例えば下式（６）により表される。式（６）は、並進成分と回転成分によって類似度を定義する式である。

　ここで、trans(h)は姿勢仮説ｈの並進成分の大きさを表し、angle(h)は姿勢仮説ｈの回転角の大きさを表す。σ_t，σ_rは、予め定められた閾値である。

　並進成分の値が閾値σ_tより小さく、かつ、回転成分の値が閾値σ_rより小さい場合に、類似度l(h₁,h₂)は１の値をとる。

　推定部５２のモデル姿勢推定部７３は、このようなRANSACや姿勢クラスタリングを、モデルの対称性を考慮して行う。上述したように、モデルの対称性は｛Ｔ_i｝として表される。モデルの対称性｛Ｔ_i｝を考慮することにより、値は異なるが、実質的に類似する姿勢仮説が等価の姿勢仮説として扱われる。

　RANSACにおいてモデルの対称性を考慮した場合、信頼度s(h)を定義する上式（４）は、下式（７）のように変更される。

　式（７）においては、モデル上の点ｐ_mに姿勢仮説ｈを与えたときのシーン上の点ｈｐ_mの計算に、モデルの対称性｛Ｔ_i｝が用いられる。モデルの対称性｛Ｔ_i｝を用いたシーン上の点Ｔ_iｈｐ_mと、点ｐ_mの対応点であるシーン上の点ｐ_sとの距離の最小値が閾値σより小さい場合に値１が設定される。また、そのような値の設定が全ての点ｐ_sについて行われたときの設定値の合計が信頼度s’(h)として求められる。

　図１４は、設定値の計算の例を示す図である。

　モデル上に示す点ｐ_mに対して、実線矢印で示すようにモデルの対称性｛Ｔ_i｝を考慮して姿勢仮説ｈを与えた場合、モデル上の点ｐ_mは、シーン上の点Ｔ_iｈｐ_mとして表される。シーン上の点Ｔ_iｈｐ_mと、対応点である複数の点ｐ_sのそれぞれとの距離のうちの最小となる距離が、閾値σと比較され、設定値が設定される。

　一方、姿勢クラスタリングにおいてモデルの対称性を考慮した場合、類似度l(h₁,h₂)を定義する上式（６）は、下式（８）のように変更される。

　式（８）においては、姿勢仮説ｈ₁の設定に、モデルの対称性｛Ｔ_i｝が用いられる。モデルの対称性｛Ｔ_i｝を用いた姿勢仮説Ｔ_iｈ₁のそれぞれと、姿勢仮説ｈ₂間の類似度の最大値が、類似度l’(T_ih₁,h₂)として算出される。

　図１５は、姿勢仮説の類似度の計算の例を示す図である。

　例えば、図１５の左側に示す姿勢仮説ｈ₁と右側に示す姿勢仮説ｈ₂が取得されている場合について考える。この場合、モデルＭが対称性を有しているため、両者の姿勢仮説は実質的に等価であると考えられる。姿勢仮説ｈ₁と姿勢仮説ｈ₂の類似度l(h₁,h₂)は値１として求められることが望ましい。

　しかし、上式（６）で表される類似度の計算においては、姿勢仮説ｈ₁と姿勢仮説ｈ₂の類似度l(h₁,h₂)は値０として求められる。これは、姿勢仮説ｈ₁と姿勢仮説ｈ₂の回転成分の値が大きく異なるためである。

　一方、モデルの対称性｛Ｔ_i｝を考慮した、上式（８）で表される類似度の計算においては、姿勢仮説ｈ₁と姿勢仮説ｈ₂の類似度l’(h₁,h₂)は値１として求められる。これは、姿勢仮説ｈ₁に座標変換Ｔ₁(頂点Ａを頂点Ｂに移す座標変換)を施した場合、姿勢仮説ｈ₁のモデルは、図１６の左側に示す姿勢に変換され、変換後の姿勢仮説Ｔ₁ｈ₁と、姿勢仮説ｈ₂の値が近くなるためである。姿勢仮説Ｔ₁ｈ₁と姿勢仮説ｈ₂を重ねて示した場合、２つの姿勢仮説の関係は図１７のように示される。

　この結果、値は異なるものの、実質的に類似する２つの姿勢仮説ｈ₁，ｈ₂をグルーピングすることが可能となり、最終的な姿勢推定のロバスト性を向上させることが可能になる。

　モデル姿勢推定部７３は、このような、モデルの対称性を考慮したRANSAC、または姿勢クラスタリングにより１つの姿勢仮説を最終的な姿勢として選択し、推定結果として出力する。

・制御装置の動作
　ここで、以上のような構成を有する制御装置１の動作について説明する。

　はじめに、図１８のフローチャートを参照して、辞書を生成する処理である学習処理について説明する。

　図１８の学習処理は、例えば、モデルのテクスチャや形状に関するデータと、モデルの対称性に関するデータが入力されたときに開始される。

　ステップＳ１において、特徴量抽出領域算出部６２は、モデルの対称性に関するデータを参照し、特徴量を抽出する対象となる部分領域Ｓ₀を算出する。ここでは、上述したように式（１）の条件と式（２）の条件とを満たす部分領域Ｓ₀が設定される。

　ステップＳ２において、特徴量抽出部６３は、部分領域Ｓ₀内の特徴量を抽出する。

　ステップＳ３において、辞書記憶部６４は、部分領域Ｓ₀の特徴量のデータを辞書に格納し、処理を終了させる。

　次に、図１９のフローチャートを参照して、シーンに含まれるモデルの姿勢を推定する処理である推定処理について説明する。

　図１９の推定処理は、シーンのデータが入力されたときに開始される。

　ステップＳ１１において、特徴量抽出部７１は、シーン全体の特徴量を抽出する。

　ステップＳ１２において、対応点取得部７２は、辞書記憶部６４に記憶されている辞書を参照し、部分領域Ｓ₀の特徴量とシーン全体の特徴量とのマッチングを行うことによって、モデル上の点に対応する、シーンに含まれるモデル上の点を対応点として取得する。

　ステップＳ１３において、モデル姿勢推定部７３は、モデルの対称性を考慮したRANSACまたは姿勢クラスタリングを行うことによって１つの姿勢仮説を最終的な姿勢として選択し、推定結果として出力する。

　以上のようにして撮像画像処理部３１により推定された物体の姿勢に基づいて、投影画像の補正などが投影画像処理部３２において行われる。

　以上のように、学習時の特徴量の抽出対象となる領域を部分領域Ｓ₀に限定することにより、対応点の取得のための計算を高速化することが可能になる。

　また、物体の対称性を考慮して姿勢を推定することによって、実質的に類似する複数の姿勢仮説を等価の姿勢仮説として扱うことができる。これにより、最終的な姿勢推定のロバスト性を向上させることが可能になる。

　さらに、制御装置１が処理対象とするモデルの対称性は任意であるため、回転体に限らず、任意の対称性を有する物体についての姿勢推定が可能になる。

＜２－２．機械学習を用いた例＞
　図２０は、撮像画像処理部３１の他の構成例を示すブロック図である。

　図２０に示す撮像画像処理部３１においては、機械学習が行われることによって姿勢推定器が生成される。また、機械学習によって生成された姿勢推定器を用いて姿勢が推定される。姿勢推定器の学習と、姿勢推定器を用いた姿勢の推定が、モデルの対称性を考慮して行われる。上述した説明と重複する説明については適宜省略する。

　図２０に示すように、撮像画像処理部３１は、学習部１０１と推定部１０２から構成される。

　学習部１０１は、モデルのデータに基づいて機械学習を行い、対応点の取得に用いられる推定器を生成する生成部として機能する。学習部１０１は、モデルデータ記憶部１１１、対応点推定領域算出部１１２、および対応点推定器１１３から構成される。

　モデルデータ記憶部１１１は、モデルのデータを記憶する。モデルデータ記憶部１１１が記憶するモデルのデータには、モデルのテクスチャや形状に関するデータと、モデルの対称性に関するデータが含まれる。破線矢印の先に示すように、モデルの対称性に関するデータは、学習時、対応点推定領域算出部１１２に供給され、姿勢推定時、推定部１０２のモデル姿勢推定部１２２に供給される。

　対応点推定領域算出部１１２は、図７の特徴量抽出領域算出部６２と同様に、モデルの表面全体のうちの一部の領域である部分領域Ｓ₀を算出する。部分領域Ｓ₀が、対応点の推定に用いられる領域となる。対応点推定領域算出部１１２により、上式（１）の条件と上式（２）の条件を満たす部分領域Ｓ₀が設定される。

　対応点推定領域算出部１１２は、モデル全体のうちの部分領域Ｓ₀のデータを用いた機械学習を行い、対応点推定器１１３を生成する。対応点推定器１１３の生成には、適宜、対応点に関する情報も用いられる。

　部分領域Ｓ₀のデータを用いた機械学習によって生成された対応点推定器１１３は、シーンを入力としたときに対応点を出力とする推定器である。対応点推定器１１３は、例えば、Random Forestの推定器、Random Fernsの推定器、ニューラルネットワークとして構成される。

　推定部１０２は、学習部１０１による機械学習によって得られた対応点推定器１１３を用いて対応点を取得し、シーンに含まれるモデルの姿勢を推定する。推定部１０２は、対応点取得部１２１とモデル姿勢推定部１２２から構成される。

　対応点取得部１２１は、対応点推定器１１３にシーンを入力し、対応点推定器１１３から出力された対応点を取得する。対応点推定器１１３を用いて取得された対応点の情報はモデル姿勢推定部１２２に供給される。

　モデル姿勢推定部１２２は、図７のモデル姿勢推定部７３と同様に、対応点取得部１２１により取得された対応点に基づいて、シーンに含まれるモデルの姿勢の候補である姿勢仮説を設定する。

　また、モデル姿勢推定部１２２は、モデルの対称性を考慮したRANSAC、または姿勢クラスタリングにより１つの姿勢仮説を最終的な姿勢として選択し、推定結果として出力する。

・制御装置の動作
　ここで、図２０の構成を有する制御装置１の動作について説明する。

　はじめに、図２１のフローチャートを参照して、姿勢推定器を生成する処理である学習処理について説明する。

　ステップＳ５１において、対応点推定領域算出部１１２は、モデルの対称性に関するデータを参照し、部分領域Ｓ₀を算出する。ここでは、上述したように式（１）の条件と式（２）の条件とを満たす部分領域Ｓ₀が算出される。

　ステップＳ５２において、対応点推定領域算出部１１２は、モデル全体のうちの部分領域Ｓ₀のデータを用いた機械学習を行い、対応点推定器１１３を生成する。

　次に、図２２のフローチャートを参照して、シーンに含まれるモデルの姿勢を推定する処理である推定処理について説明する。

　ステップＳ６１において、対応点取得部１２１は、対応点推定器１１３にシーンを入力し、対応点推定器１１３から出力された対応点を取得する。

　ステップＳ６２において、モデル姿勢推定部１２２は、モデルの対称性を考慮したRANSACまたは姿勢クラスタリングにより１つの姿勢仮説を最終的な姿勢として選択し、推定結果として出力する。

　以上のように、機械学習に用いる領域を部分領域Ｓ₀に限定することにより、推定器の計算を高速化することが可能になる。

＜＜３．変形例＞＞
　図７の例においては、辞書の学習を行う学習部５１と、辞書を用いて姿勢の推定を行う推定部５２とが１つの装置において実現されるものとしたが、それぞれ異なる装置において実現されるようにしてもよい。この場合、学習部５１を有する装置において生成された辞書が、推定部５２を有する装置に供給され、姿勢の推定に用いられる。

　図２０の例においては、姿勢推定器の機械学習を行う学習部１０１と、姿勢推定器を用いて姿勢の推定を行う推定部１０２とが１つの装置において実現されるものとしたが、それぞれ異なる装置において実現されるようにしてもよい。この場合、学習部１０１を有する装置において生成された姿勢推定器が、推定部１０２を有する装置に供給され、姿勢の推定に用いられる。

　プロジェクタとは別の筐体の装置として制御装置１が用意されるものとしたが、複数のプロジェクタのうちのいずれかに、制御装置１の上述した機能が搭載されるようにしてもよい。

　複数のプロジェクタのそれぞれと制御装置１が有線または無線の通信を介して接続されるものとしたが、インターネットを介して接続されるようにしてもよい。

　以上のような対称性を有する物体の姿勢の推定は、図１を参照して説明した投影システム以外のシステムに適用可能である。以上のような姿勢推定の技術は、例えば、推定した姿勢に基づいてコンテンツを表示する拡張現実感(AR)や仮想現実感(VR)、ロボットによる物体の把持などに用いられる。

・コンピュータの構成例
　上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

　図２３は、上述した処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　例えば、制御装置１は、図２３に示すような構成を有するコンピュータにより実現される。

　CPU(Central Processing Unit)２０１、ROM(Read Only Memory)２０２、RAM(Random Access Memory)２０３は、バス２０４により相互に接続されている。

　バス２０４には、さらに、入出力インタフェース２０５が接続されている。入出力インタフェース２０５には、キーボード、マウスなどよりなる入力部２０６、ディスプレイ、スピーカなどよりなる出力部２０７が接続される。また、入出力インタフェース２０５には、ハードディスクや不揮発性のメモリなどよりなる記憶部２０８、ネットワークインタフェースなどよりなる通信部２０９、リムーバブルメディア２１１を駆動するドライブ２１０が接続される。

　以上のように構成されるコンピュータでは、CPU２０１が、例えば、記憶部２０８に記憶されているプログラムを入出力インタフェース２０５及びバス２０４を介してRAM２０３にロードして実行することにより、上述した一連の処理が行われる。

　CPU２０１が実行するプログラムは、例えばリムーバブルメディア２１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部２０８にインストールされる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

・構成の組み合わせ例
　本技術は、以下のような構成をとることもできる。
（１）
　認識対象となる物体であるモデル全体のうち、他の部分と対称性を有する所定の部分のデータを用いた学習が行われることによって得られた、対応点の特定に用いられる学習済みデータに基づいて、前記モデル上の第１の点に対応する、入力されたシーンに含まれる前記モデル上の第２の点を前記対応点として特定する対応点取得部と、
　前記対応点に基づいて、前記シーンに含まれる前記モデルの姿勢を推定する姿勢推定部と
　を備える情報処理装置。
（２）
　前記所定の部分は、テクスチャと形状のうちの少なくともいずれかの対称性を有する複数の前記他の部分のそれぞれの位置に移動させた場合に、いずれの前記他の部分とも重複する領域がないように設定された部分である
　前記（１）に記載の情報処理装置。
（３）
　前記所定の部分は、さらに、対称性を有する複数の前記他の部分のそれぞれの位置に移動させた場合に、移動後の部分の和集合が、前記モデル全体に相当するように設定された部分である
　前記（２）に記載の情報処理装置。
（４）
　前記所定の部分の特徴量を抽出する特徴量抽出部をさらに備え、
　前記対応点取得部は、前記所定の部分の各点の前記特徴量のデータを含む、前記学習済みデータとしての辞書に基づいて前記対応点を特定する
　前記（３）に記載の情報処理装置。
（５）
　前記辞書を記憶する辞書記憶部をさらに備える
　前記（４）に記載の情報処理装置。
（６）
　前記対応点取得部は、前記所定の部分のデータと前記対応点に関する情報を用いた機械学習を行うことによって得られた、前記学習済みデータとしての推定器に基づいて前記対応点を特定する
　前記（３）に記載の情報処理装置。
（７）
　前記姿勢推定部は、RANSACを用いることによって、前記第１の点と前記第２の点との関係に基づいて特定される複数の姿勢仮説のうちの所定の姿勢仮説を、前記シーンに含まれる前記モデルの姿勢として推定する
　前記（３）乃至（６）のいずれかに記載の情報処理装置。
（８）
　前記姿勢推定部は、前記所定の部分を、対称性を有する複数の前記他の部分のそれぞれの位置に移動させる座標変換に相当する変換を前記第１の点に施したときの変換後の前記第１の点と、前記第２の点との距離に基づいて算出されるそれぞれの前記姿勢仮説の信頼度に基づいて、前記シーンに含まれる前記モデルの姿勢を推定する
　前記（７）に記載の情報処理装置。
（９）
　前記姿勢推定部は、複数の前記座標変換に相当する変換を前記第１の点に施したときの複数の変換後の前記第１の点のうち、前記第２の点との距離が最も近い変換後の前記第１の点と、前記第２の点との距離を算出することを、複数の前記第２の点のそれぞれについて行い、前記信頼度を算出する
　前記（８）に記載の情報処理装置。
（１０）
　前記姿勢推定部は、前記第１の点と前記第２の点との関係に基づいて特定される複数の姿勢仮説のクラスタリングを、前記姿勢仮説の類似度を指標として行うことによって、前記シーンに含まれる前記モデルの姿勢を推定する
　前記（３）乃至（６）のいずれかに記載の情報処理装置。
（１１）
　前記姿勢推定部は、前記所定の部分を、対称性を有する複数の前記他の部分のそれぞれの位置に移動させる座標変換に相当する変換を、前記類似度を求める複数の前記姿勢仮説のうちの所定の前記姿勢仮説に対して施し、変換後の前記姿勢仮説と他の前記姿勢仮説との前記類似度を算出する
　前記（１０）に記載の情報処理装置。
（１２）
　情報処理装置が、
　認識対象となる物体であるモデル全体のうち、他の部分と対称性を有する所定の部分のデータを用いた学習が行われることによって得られた、対応点の特定に用いられる学習済みデータに基づいて、前記モデル上の第１の点に対応する、入力されたシーンに含まれる前記モデル上の第２の点を前記対応点として特定し、
　前記対応点に基づいて、前記シーンに含まれる前記モデルの姿勢を推定する
　情報処理方法。
（１３）
　コンピュータに、
　認識対象となる物体であるモデル全体のうち、他の部分と対称性を有する所定の部分のデータを用いた学習が行われることによって得られた、対応点の特定に用いられる学習済みデータに基づいて、前記モデル上の第１の点に対応する、入力されたシーンに含まれる前記モデル上の第２の点を前記対応点として特定し、
　前記対応点に基づいて、前記シーンに含まれる前記モデルの姿勢を推定する
　処理を実行させるためのプログラム。
（１４）
　認識対象となる物体であるモデル全体のうち、他の部分と対称性を有する所定の部分のデータを用いた学習を行うことによって、入力されたシーンに含まれる前記モデルの姿勢の推定時に、前記モデル上の第１の点に対応する、前記シーンに含まれる前記モデル上の第２の点を対応点として特定することに用いられる学習済みデータを生成する生成部を備える
　情報処理装置。
（１５）
　テクスチャと形状のうちの少なくともいずれかの対称性を有する複数の前記他の部分のそれぞれの位置に移動させた場合に、いずれの前記他の部分とも重複する領域がないように、前記所定の部分を設定する領域算出部をさらに備える
　前記（１４）に記載の情報処理装置。
（１６）
　前記領域算出部は、さらに、対称性を有する複数の前記他の部分のそれぞれの位置に移動させた場合に、移動後の部分の和集合が、前記モデル全体に相当するように前記所定の部分を設定する
　前記（１５）に記載の情報処理装置。
（１７）
　情報処理装置が、
　認識対象となる物体であるモデル全体のうち、他の部分と対称性を有する所定の部分のデータを用いた学習を行うことによって、入力されたシーンに含まれる前記モデルの姿勢の推定時に、前記モデル上の第１の点に対応する、前記シーンに含まれる前記モデル上の第２の点を対応点として特定することに用いられる学習済みデータを生成する
　情報処理方法。
（１８）
　コンピュータに、
　認識対象となる物体であるモデル全体のうち、他の部分と対称性を有する所定の部分のデータを用いた学習を行うことによって、入力されたシーンに含まれる前記モデルの姿勢の推定時に、前記モデル上の第１の点に対応する、前記シーンに含まれる前記モデル上の第２の点を対応点として特定することに用いられる学習済みデータを生成する
　処理を実行させるためのプログラム。

　１　制御装置，　３１　撮像画像処理部，　３２　投影画像処理部，　５１　学習部，　５２　推定部，　６１　モデルデータ記憶部，　６２　特徴量抽出領域算出部，　６３　特徴量抽出部，　６４　辞書記憶部，　７１　特徴量抽出部，　７２　対応点取得部，　７３　モデル姿勢推定部，　１０１　学習部，　１０２　推定部，　１１１　モデルデータ記憶部，　１１２　対応点推定領域算出部，　１１３　対応点推定器，　１２１　対応点取得部，　１２２　モデル姿勢推定部

Claims

　認識対象となる物体であるモデル全体のうち、他の部分と対称性を有する所定の部分のデータを用いた学習が行われることによって得られた、対応点の特定に用いられる学習済みデータに基づいて、前記モデル上の第１の点に対応する、入力されたシーンに含まれる前記モデル上の第２の点を前記対応点として特定する対応点取得部と、
　前記対応点に基づいて、前記シーンに含まれる前記モデルの姿勢を推定する姿勢推定部と
　を備える情報処理装置。
　前記所定の部分は、テクスチャと形状のうちの少なくともいずれかの対称性を有する複数の前記他の部分のそれぞれの位置に移動させた場合に、いずれの前記他の部分とも重複する領域がないように設定された部分である
　請求項１に記載の情報処理装置。
　前記所定の部分は、さらに、対称性を有する複数の前記他の部分のそれぞれの位置に移動させた場合に、移動後の部分の和集合が、前記モデル全体に相当するように設定された部分である
　請求項２に記載の情報処理装置。
　前記所定の部分の特徴量を抽出する特徴量抽出部をさらに備え、
　前記対応点取得部は、前記所定の部分の各点の前記特徴量のデータを含む、前記学習済みデータとしての辞書に基づいて前記対応点を特定する
　請求項３に記載の情報処理装置。
　前記辞書を記憶する辞書記憶部をさらに備える
　請求項４に記載の情報処理装置。
　前記対応点取得部は、前記所定の部分のデータと前記対応点に関する情報を用いた機械学習を行うことによって得られた、前記学習済みデータとしての推定器に基づいて前記対応点を特定する
　請求項３に記載の情報処理装置。
　前記姿勢推定部は、RANSACを用いることによって、前記第１の点と前記第２の点との関係に基づいて特定される複数の姿勢仮説のうちの所定の姿勢仮説を、前記シーンに含まれる前記モデルの姿勢として推定する
　請求項３に記載の情報処理装置。
　前記姿勢推定部は、前記所定の部分を、対称性を有する複数の前記他の部分のそれぞれの位置に移動させる座標変換に相当する変換を前記第１の点に施したときの変換後の前記第１の点と、前記第２の点との距離に基づいて算出されるそれぞれの前記姿勢仮説の信頼度に基づいて、前記シーンに含まれる前記モデルの姿勢を推定する
　請求項７に記載の情報処理装置。
　前記姿勢推定部は、複数の前記座標変換に相当する変換を前記第１の点に施したときの複数の変換後の前記第１の点のうち、前記第２の点との距離が最も近い変換後の前記第１の点と、前記第２の点との距離を算出することを、複数の前記第２の点のそれぞれについて行い、前記信頼度を算出する
　請求項８に記載の情報処理装置。
　前記姿勢推定部は、前記第１の点と前記第２の点との関係に基づいて特定される複数の姿勢仮説のクラスタリングを、前記姿勢仮説の類似度を指標として行うことによって、前記シーンに含まれる前記モデルの姿勢を推定する
　請求項３に記載の情報処理装置。
　前記姿勢推定部は、前記所定の部分を、対称性を有する複数の前記他の部分のそれぞれの位置に移動させる座標変換に相当する変換を、前記類似度を求める複数の前記姿勢仮説のうちの所定の前記姿勢仮説に対して施し、変換後の前記姿勢仮説と他の前記姿勢仮説との前記類似度を算出する
　請求項１０に記載の情報処理装置。
　情報処理装置が、
　認識対象となる物体であるモデル全体のうち、他の部分と対称性を有する所定の部分のデータを用いた学習が行われることによって得られた、対応点の特定に用いられる学習済みデータに基づいて、前記モデル上の第１の点に対応する、入力されたシーンに含まれる前記モデル上の第２の点を前記対応点として特定し、
　前記対応点に基づいて、前記シーンに含まれる前記モデルの姿勢を推定する
　情報処理方法。
　コンピュータに、
　認識対象となる物体であるモデル全体のうち、他の部分と対称性を有する所定の部分のデータを用いた学習が行われることによって得られた、対応点の特定に用いられる学習済みデータに基づいて、前記モデル上の第１の点に対応する、入力されたシーンに含まれる前記モデル上の第２の点を前記対応点として特定し、
　前記対応点に基づいて、前記シーンに含まれる前記モデルの姿勢を推定する
　処理を実行させるためのプログラム。
　認識対象となる物体であるモデル全体のうち、他の部分と対称性を有する所定の部分のデータを用いた学習を行うことによって、入力されたシーンに含まれる前記モデルの姿勢の推定時に、前記モデル上の第１の点に対応する、前記シーンに含まれる前記モデル上の第２の点を対応点として特定することに用いられる学習済みデータを生成する生成部を備える
　情報処理装置。
　テクスチャと形状のうちの少なくともいずれかの対称性を有する複数の前記他の部分のそれぞれの位置に移動させた場合に、いずれの前記他の部分とも重複する領域がないように、前記所定の部分を設定する領域算出部をさらに備える
　請求項１４に記載の情報処理装置。
　前記領域算出部は、さらに、対称性を有する複数の前記他の部分のそれぞれの位置に移動させた場合に、移動後の部分の和集合が、前記モデル全体に相当するように前記所定の部分を設定する
　請求項１５に記載の情報処理装置。
　情報処理装置が、
　認識対象となる物体であるモデル全体のうち、他の部分と対称性を有する所定の部分のデータを用いた学習を行うことによって、入力されたシーンに含まれる前記モデルの姿勢の推定時に、前記モデル上の第１の点に対応する、前記シーンに含まれる前記モデル上の第２の点を対応点として特定することに用いられる学習済みデータを生成する
　情報処理方法。
　コンピュータに、
　認識対象となる物体であるモデル全体のうち、他の部分と対称性を有する所定の部分のデータを用いた学習を行うことによって、入力されたシーンに含まれる前記モデルの姿勢の推定時に、前記モデル上の第１の点に対応する、前記シーンに含まれる前記モデル上の第２の点を対応点として特定することに用いられる学習済みデータを生成する
　処理を実行させるためのプログラム。