WO2021106686A1

WO2021106686A1 - モデル作成装置及びモデル作成方法

Info

Publication number: WO2021106686A1
Application number: PCT/JP2020/042830
Authority: WO
Inventors: 泰樹矢野; 宣隆木村; 亮坂井
Original assignee: 株式会社日立製作所
Priority date: 2019-11-28
Filing date: 2020-11-17
Publication date: 2021-06-03
Also published as: CN114303173A; US20220343538A1; JP7362453B2; JP2021086449A; CN114303173B; US12154294B2

Abstract

モデル作成装置は、登録対象物体の１以上の姿勢の画像と、基準物体の形状を示す基準モデルと、を保持し、登録対象物体の第１姿勢の特徴を示す情報を取得し、基準モデルが示す第１姿勢の形状が、所定の第１条件に基づいて類似しないと判定した場合、登録対象物体の特徴を示す情報に基づいて基準モデルを修正して、登録対象物体の形状を示すモデルを作成する。

Description

モデル作成装置及びモデル作成方法

参照による取り込み

　本出願は、２０１９年１１月２８日に出願された日本特許出願第２０１９－２１５６７３号の優先権を主張し、その内容を参照することにより、本出願に取り込む。

　本発明は、モデル作成装置及びモデル作成方法に関する。

　本技術分野の背景技術として、特開平８－２３３５５６号公報（特許文献１）がある。この公報には、「撮像手段１と、撮像手段１により撮像された所定視点位置からの被写体画像が記憶される第１の画像記憶手段３と、撮像された被写体画像に最も近い視点位置からの対象物画像を標準３次元形状モデルを基に生成する３次元形状モデル記憶手段２と、この生成された対象物画像が記憶される第２の画像記憶手段４と、各画像記憶手段に記憶された被写体画像と対象物画像との差異を抽出する差異抽出手段５と、抽出された差異を基に標準３次元形状モデルを修整する形状モデル修整手段とを有する。被写体の代表的な形状モデルである標準３次元形状モデルを被写体画像と対象物画像との差異を基に修整
することにより、被写体の形状モデルを復元する。」と記載されている（要約参照）。

特開平８－２３３５５６号公報

　特許文献１に記載の技術では、新規に作成する３Ｄモデルの認識に対して局所領域がどの程度影響を与えるかを推定することは困難であるため、局所領域をどの程度正確に３Ｄモデルに反映すべきかを評価することは難しい。つまり、特許文献１に記載の技術では、局所領域の上記評価が不十分であることにより、新規３Ｄモデルの認識性能が不十分となるおそれがある。また、特許文献１に記載の技術では、対象物画像の３Ｄモデルの認識にほとんど影響を与えない局所領域の変動(ノイズ)も新規３Ｄモデルに反映してしまうため、新規３Ｄモデルの作成に際して多量のデータ及び処理が必要となるおそれがある。

　また、特許文献１に記載の技術において局所領域をどの程度正確に３Ｄモデル反映すべきかを判定するためには、多量のデータ及び処理が必要となる。そこで、本発明の一態様は、認識性能に影響を与える登録対象物体の局所情報を反映した、登録対象物体のモデルを少ないデータ量及び処理で作成することを目的とする。

　上記課題を解決するため、本発明の一態様は以下の構成を採用する。登録対象物体の形状を示すモデルを作成するモデル作成装置であって、プロセッサとメモリとを備え、前記メモリは、前記登録対象物体の１以上の姿勢の画像と、基準物体の形状を示す基準モデルと、を保持し、前記プロセッサは、前記登録対象物体の第１姿勢の特徴を示す情報を取得し、前記基準モデルが示す前記第１姿勢の形状が、所定の第１条件に基づいて類似しないと判定した場合、前記特徴を示す情報に基づいて前記基準モデルを修正して、前記登録対象物体の形状を示すモデルを作成する、モデル作成装置。

　本発明の一態様によれば、認識性能に影響を与える登録対象物体の局所情報を反映した、登録対象物体のモデルを少ないデータ量及び処理で作成することができる。

　上記した以外の課題、構成、及び効果は、以下の実施形態の説明により明らかにされる。

実施例１におけるモデル作成装置の機能構成例を示すブロック図である。実施例１におけるモデル作成装置のハードウェア構成例を示すブロック図である。実施例１におけるモデル作成装置に提供される登録対象物体２０の画像を撮像する撮像システムの一例である。実施例１における登録対象物体の３Ｄモデルを作成するモデル作成処理の一例を示すフローチャートである。実施例１における３Ｄモデル修正処理の一例を示すフローチャートである。実施例１における３Ｄモデル修正有無を判定する処理の具体例を示す説明図である。実施例１における３Ｄモデル修正処理の詳細な例を示す説明図である。実施例２における３Ｄモデル修正有無を判定する処理の具体例を示す説明図である。実施例２における３Ｄモデル修正有無を判定する処理の具体例を示す説明図である。実施例３における３Ｄモデル選択処理の一例を示す説明図である。実施例３における３Ｄモデル選択処理の一例を示す説明図である。実施例４におけるモデル作成処理の一例を示すフローチャートである。実施例４における特徴抽出器の修正処理の一例を示す説明図である。実施例４における特徴抽出器の修正処理の一例を示す説明図である。

　以下、本発明の実施形態を図面に基づいて詳細に説明する。本実施形態において、同一の構成には原則として同一の符号を付け、繰り返しの説明は省略する。なお、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。

　図１は、モデル作成装置の機能構成例を示すブロック図である。モデル作成装置１００は、登録済の基準物体の形状を示すモデルを用いて、新規登録される登録対象物体の形状を示すモデルを作成する。頂点とメッシュ（面）とを用いて物体の形状を示すことが可能な３Ｄ（３次元）モデルは、当該モデルの一例である。本実施例では、主に３Ｄモデルを用いて物体の形状を表す例を説明するが、２Ｄモデル等の他のモデルが用いられてもよい。また、モデルは物体の形状のみならず、模様や視点等を示してもよい。

　モデル作成装置１００は、例えば、画像取得部１１１、認識部１１２、認識結果比較部１１３、モデル修正部１１４、及び出力部１１５を有する。画像取得部１１１は、登録対象物体の画像を取得する。認識部１１２は、物体の画像を後述する特徴抽出器に入力することにより物体の姿勢を出力する。

　認識結果比較部１１３は、登録対象物体の画像を特徴抽出器に入力して得られた姿勢が正しい姿勢であるかを判定する。モデル修正部１１４は、基準物体の３Ｄモデルを修正して、登録対象物体の３Ｄモデルを作成する。出力部１１５は、基準物体及び登録対象物体の画像に関する情報、特徴抽出器によって出力された姿勢に関する情報、及び作成された３Ｄモデルに関する情報等を出力する。

　また、モデル作成装置１００は、画像データ１３１及びモデルデータ１３２を保持する。画像データ１３１は、１以上の基準物体の１以上の姿勢の画像、及び画像取得部１１１によって取得した新規登録物体の１以上の姿勢の画像が、姿勢と紐づけられているデータである。基準物体の１以上の姿勢の画像は予め画像データ１３１に含まれている。

　モデルデータ１３２は、基準物体の形状を示す３Ｄモデルと、モデル作成装置１００が作成した登録物体の形状を示す３Ｄモデルと、を含む。基準物体の形状を示す３Ｄモデルは、モデル作成処理が実行される前に予めモデルデータ１３２に含まれている。また、モデルデータ１３２において、各３Ｄモデルに対応する物体と、物体が属するカテゴリと、が定義されている。

　また、モデルデータ１３２は、基準物体それぞれについて、当該基準物体に対応する特徴抽出器を有する。特徴抽出器に、物体の画像が入力されると当該画像の特徴を抽出し、抽出した特徴に基づいて当該画像における物体の姿勢を推定し、推定した姿勢を出力する。また、特徴抽出器は、抽出した特徴を出力することもできる。各基準物体に対応する特徴抽出器は、当該基準物体の画像を学習することにより作成されたものである。モデルデータ１３２は、各基準物体に対応する特徴抽出器に加えて、全ての基準物体に共通して対応可能な特徴抽出器を含んでもよく、当該特徴抽出器が各基準物体に対応する特徴抽出器に代えて用いられてもよい。

　なお、全ての基準物体に共通して対応可能な特徴抽出器は、さらに、物体の１以上の姿勢の画像が入力されると、当該画像の特徴を抽出して当該画像の物体がどの基準物体に該当するかを示す結果を出力可能であってもよい（さらに、どの基準物体にも該当しないという結果を出力可能であってもよい）。

　なお、ある基準物体に対応する特徴抽出器による姿勢認識方法として、例えば、登録対象物体の１以上の姿勢の画像と、基準物体の１以上の姿勢の画像と、がそれぞれオートエンコーダに入力されて得られた当該登録対象物体の各姿勢の特徴と当該基準物体の各姿勢の特徴とを比較して、最も近い特徴を有する姿勢を認識結果として返す方法がある。モデルデータ１３２はこのような姿勢認識方法を利用する特徴抽出器に限らず、基準物体の画像を学習して得られた学習データから作成された特徴抽出器であって、画像が入力されると姿勢が出力可能な任意の特徴抽出器を有してもよい。

　なお、上記した例では、特徴抽出器は、画像が入力されると当該画像の特徴を抽出して、抽出した特徴に基づいて姿勢を推定するが、画像が入力されると当該画像の特徴の抽出のみを行う特徴抽出器と、特徴抽出器から当該特徴が入力されて姿勢を推定する姿勢推定器と、に分離されていてもよい。

　図２は、モデル作成装置１００のハードウェア構成例を示すブロック図である。モデル作成装置１００は、例えば、プロセッサ１１０、メモリ１２０、補助記憶装置１３０、入力装置１４０、出力装置１５０、及び通信ＩＦ（Ｉｎｔｅｒｆａｃｅ）１６０を有し、これらがバス等の内部通信線１７０によって接続された計算機によって構成される。

　プロセッサ１１０は、メモリ１２０に格納されたプログラムを実行する。メモリ１２０は、不揮発性の記憶素子であるＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）及び揮発性の記憶素子であるＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）を含む。ＲＯＭは、不変のプログラム（例えば、ＢＩＯＳ（Ｂａｓｉｃ　Ｉｎｐｕｔ／Ｏｕｔｐｕｔ　Ｓｙｓｔｅｍ））などを格納する。ＲＡＭは、ＤＲＡＭ（Ｄｙｎａｍｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）のような高速かつ揮発性の記憶素子であり、プロセッサ１１０が実行するプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。

　補助記憶装置１３０は、例えば、磁気記憶装置（ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ））、フラッシュメモリ（ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ））等の大容量かつ不揮発性の記憶装置であり、プロセッサ１１０が実行するプログラム及びプログラムの実行時に使用されるデータを格納する。すなわち、プログラムは、補助記憶装置１３０から読み出されて、メモリ１２０にロードされて、プロセッサ１１０によって実行される。

　入力装置１４０は、キーボードやマウスなどの、オペレータからの入力を受ける装置である。出力装置１５０は、ディスプレイ装置やプリンタなどの、プログラムの実行結果をオペレータが視認可能な形式で出力する装置である。通信ＩＦ１６０は、所定のプロトコルに従って、他の装置との通信を制御するネットワークインターフェース装置である。

　プロセッサ１１０が実行するプログラムは、リムーバブルメディア（ＣＤ－ＲＯＭ、フラッシュメモリなど）又はネットワークを介してモデル作成装置１００に提供され、非一時的記憶媒体である不揮発性の補助記憶装置１３０に格納される。このため、モデル作成装置１００は、リムーバブルメディアからデータを読み込むインターフェースを有するとよい。

　モデル作成装置１００は、物理的に一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。例えば、モデル作成装置１００が１つの計算機でなく、物体の認識を行うための教示物体及び認識手法の登録を行う計算機である教示物体登録装置と、設定された認識手法を用いてある物体が教示物体であるか否かの判定を行う計算機である判定装置と、に分かれていてもよい。

　プロセッサ１１０は、例えば、それぞれ前述した機能部である、画像取得部１１１、認識部１１２、認識結果比較部１１３、モデル修正部１１４、及び出力部１１５を有する。

　例えば、プロセッサ１１０は、メモリ１２０にロードされた画像取得プログラムに従って動作することで、画像取得部１１１として機能し、メモリ１２０にロードされた認識プログラムに従って動作することで、認識部１１２として機能する。プロセッサ１１０に含まれる他の機能部についても、プログラムと機能部の関係は同様である。

　なお、プロセッサ１１０に含まれる機能部による機能の一部又は全部が、例えば、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）やＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等のハードウェアによって実現されてもよい。

　補助記憶装置１３０は、例えば、前述した画像データ１３１及びモデルデータ１３２を保持する。なお、補助記憶装置１３０に格納されている一部又は全部の情報は、メモリ１２０に格納されていてもよいし、モデル作成装置１００に接続されている外部のデータベース等に格納されていてもよい。

　なお、本実施形態において、モデル作成装置１００が使用する情報は、データ構造に依存せずどのようなデータ構造で表現されていてもよい。本実施形態ではテーブル形式で情報が表現されているが、例えば、リスト、データベース又はキューから適切に選択したデータ構造体が、情報を格納することができる。

　図３は、モデル作成装置１００に提供される登録対象物体２０の画像を撮像する撮像システムの一例である。撮像システムは、例えば、カメラ１０、ターンテーブル３０、及び端末２００を含む。カメラ１０は、登録対象物体２０を撮像する。カメラ１０には、例えばアーム１１が取り付けられており、アーム１１が動作することにより、カメラ１０は様々な位置や角度からの撮像が可能となる。物体の姿勢はカメラ１０から見た物体の角度を表し、物体とカメラの相対的な位置関係により決定される。

　登録対象物体２０は、ターンテーブル３０上に搭載されている。ターンテーブル３０が回転したり、アーム１１が動作したりすることにより、カメラ１０は様々な姿勢の登録対象物体２０を撮像可能である。端末２００は、カメラ１０に接続された計算機である。端末２００は、カメラ１０による撮像や、アーム１１の動作を制御する。また、端末２００は、カメラ１０が撮像した登録対象物体２０の画像を取得する。また、端末２００がターンテーブル３０の動作を制御することにより、カメラ１０は登録対象物体２０の複数の姿勢の画像を撮像することができる。

　また、図３には示していないが、端末２００はモデル作成装置１００に接続され、取得した登録対象物体２０の画像をモデル作成装置１００に送信し、モデル作成装置１００の画像取得部１１１は、受信した画像を画像データ１３１に保存する。なお、端末２００はモデル作成装置１００の画像取得部１１１からの指示に従って、カメラ１０、アーム１１、及びターンテーブル３０を制御してもよい。

　また、モデル作成装置１００と端末２００とが一体化されていてもよい。また、カメラ１０がモデル作成装置１００に内蔵されていてもよく、この場合、画像取得部１１１の指示によって撮像が行われる。

　また、図３の例とは異なり、例えば登録対象物体２０を中心とした球面（又は半球面等であってもよい）上に設置された複数のカメラ１０が、登録対象物体２０の複数の姿勢の画像を撮像してもよい。また、アーム１１の代わりにロボットハンド等に固定されたカメラ１０が、ロボットハンド等が動作することによって、登録対象物体２０の複数の姿勢の画像を撮像してもよい。

　図４は、登録対象物体２０の３Ｄモデルを作成するモデル作成処理の一例を示すフローチャートである。画像取得部１１１は、登録対象物体２０の１以上の姿勢の画像、及び姿勢の情報を取得する（Ｓ４１）。モデル作成装置１００は、各姿勢の画像に対して、ステップＳ４３～ステップＳ４５の処理を実行する（Ｓ４２）。

　認識部１１２は、基準物体の姿勢を認識する特徴抽出器をモデルデータ１３２から取得し、登録対象物体の当該姿勢の画像を当該特徴抽出器に入力して姿勢を出力することにより、姿勢を認識する（Ｓ４３）。なお、ステップＳ４３において、利用者によって選択された特徴抽出器が利用されてもよいし、登録対象物体に最も特徴が近い基準物体（例えば特徴量間の２乗距離が最小の基準物体）に対応する特徴抽出器が利用されてもよい。但し、複数回行われるステップＳ４３において利用される特徴抽出器は同じものである。また、全ての基準物体に共通して対応可能な特徴抽出器がモデルデータ１３２に含まれている場合には、ステップＳ４３において当該特徴抽出器が利用されてもよい。認識結果比較部１１３は、登録対象物体の姿勢と、ステップＳ４３で認識された姿勢と、が同じであるか否か（認識成功であるか認識失敗であるか）を判定する（Ｓ４４）。

　認識結果比較部１１３は、登録対象物体の姿勢と、ステップＳ４３で認識された姿勢と、が同じであると判定した場合（Ｓ４４：ＹＥＳ）、ステップＳ４２に戻り、次の姿勢についてステップＳ４３～ステップＳ４５の処理を実行する。但し、全ての姿勢について処理が終了した場合には、モデル作成処理を終了する。

　認識結果比較部１１３が、登録対象物体の姿勢と、ステップＳ４３で認識された姿勢と、が同じでないと判定した場合（Ｓ４４：ＮＯ）、モデル修正部１１４はある基準物体の３Ｄモデルをモデルデータ１３２から取得して、取得した３Ｄモデルを修正することにより、登録対象物体の３Ｄモデルを作成する（Ｓ４５）。ステップＳ４５の詳細については、後述する。

　図５は、ステップＳ４５における３Ｄモデル修正処理の一例を示すフローチャートである。モデル修正部１１４は、当該登録対象物体の３Ｄモデル作成のための３Ｄモデル修正処理が初回の３Ｄモデル修正処理であるか否か（即ち登録対象物体に対して初回のステップＳ４５の処理であるか否か）を判定する（Ｓ５１）。モデル修正部１１４は、当該３Ｄモデル修正処理が２回目以降の３Ｄモデル修正処理であると判定した場合（Ｓ５１：ＮＯ）、後述するステップＳ５４に遷移する。

　モデル修正部１１４は、当該３Ｄモデル修正処理が初回の３Ｄモデル修正処理であると判定した場合（Ｓ５１：ＹＥＳ）、モデルデータ１３２から３Ｄモデルを取得する（Ｓ５２）。具体的には、例えば、モデル修正部１１４は、例えば、モデル作成装置１００の利用者によって選択された基準物体の３Ｄモデルをモデルデータ１３２から取得する。また、モデル修正部１１４は、例えば、基準物体が属するカテゴリが与えられていた場合、モデルデータ１３２から、当該カテゴリに属する全ての基準物体の３Ｄモデルを取得し、当該取得したモデルの平均モデルをステップＳ５２において取得する３Ｄモデルとしてもよい。

　モデル修正部１１４は、ステップＳ５２で取得した３Ｄモデルのコピーを、登録対象物体の３Ｄモデルとしてモデルデータ１３２に登録する（Ｓ５３）。モデル修正部１１４は、登録対象物体の当該姿勢の画像に基づいて、登録対象物体の３Ｄモデルを修正する（Ｓ５４）。３Ｄモデルの修正方法の詳細については、後述する。

　モデル修正部１１４は、修正した３Ｄモデルを登録対象物体の３Ｄモデルとしてモデルデータ１３２に上書きして登録し（Ｓ５５）、３Ｄモデル修正処理を終了する。

　図６は、３Ｄモデル修正有無を判定する処理の具体例を示す説明図である。（ａ）の例では、基準物体Ａの姿勢θ１の画像が、基準物体Ａの画像を学習して作成された特徴抽出器Ａに入力されると姿勢θ１が出力されている。また、基準物体Ａの姿勢θ２の画像が特徴抽出器Ａに入力されると姿勢θ２が出力されている。

　（ｂ）の例では、登録対象物体Ｂの姿勢θ１の画像が特徴抽出器Ａに入力されると姿勢θ１が出力されるが、登録対象物体Ｂの姿勢θ２の画像が、特徴抽出器Ａに入力されると姿勢θ３が出力されている。つまり、登録対象物体Ｂの姿勢θ１については、ステップＳ４５における３Ｄモデルの修正処理は不要であるが、登録対象物体Ｂの姿勢θ２については、異なる姿勢θ３が出力されたため、ステップＳ４５における３Ｄモデルの修正処理が必要である。

　図７は、ステップＳ３５における３Ｄモデル修正処理の詳細な例を示す説明図である。以下、登録対象物体の画像がＲＧＢである例を説明する。図７の例において、モデル修正部１１４は、登録対象物体の姿勢θ１の画像の局所領域７１と、３Ｄモデルの局所領域７１に対応する局所領域７２と、が類似していない（例えば局所領域７１と局所領域７２とにおける特徴量の類似度が所定値以下である（例えば距離が所定値以上である））と判定した状態である。

　局所領域７１と局所領域７２とを比較すると、局所領域７１は２面からなるが局所領域７２は１面からなる。従って、モデル修正部１１４は、３Ｄモデルの局所領域７２に頂点７３を追加することで面を増やす。モデル修正部１１４は追加した頂点７３を移動させることにより、局所領域７２を局所領域７１に類似又は一致させる。

　このように図７の例では、モデル修正部１１４は、３Ｄモデルにおける異なる領域のメッシュを精緻化することにより、当該異なる領域を類似又は一致する領域へと修正する。なお、モデル修正部１１４は、局所領域７２と局所領域７１との差異に応じて、局所領域７２の頂点を削除した上で他の頂点を移動させてもよいし、局所領域７２のある頂点を移動させるだけでもよい。

　なおこのように、モデル修正部１１４は、３Ｄモデルのメッシュを精緻化する場合、例えば、ニューラルネットを利用して自動的にメッシュの頂点数やトポロジーを変更することで、メッシュを生成することができる。

　また、例えば、ステップＳ５２で取得された３Ｄモデルがいずれかの基準物体の３Ｄモデルそのものである場合、画像取得部１１１は当該基準物体の局所領域７２の近傍がより詳細に撮像された画像（例えばより解像度の高い画像又は拡大画像）を取得し、モデル修正部１１４は、当該取得した画像をさらに用いてステップＳ５５における３Ｄモデルを修正した上で、上記したメッシュの精緻化を行ってもよい。

　また、モデル修正部１１４は、ステップＳ５２において同一カテゴリの基準物体の３Ｄモデルの平均モデルが取得された場合であっても、当該平均モデルに対して、上記した方法と同様にメッシュを精緻化して当該平均モデルを修正することができる。また、モデル修正部１１４は、ステップＳ５２において同一カテゴリの基準物体の画像を画像データ１３１から取得して、取得した画像の平均である平均画像から３Ｄモデルを構築して、これを平均モデルとしてもよい。

　また、ステップＳ５２で取得された３Ｄモデルがいずれかの基準物体の３Ｄモデルそのものである場合、モデル修正部１１４は、当該基準物体の各姿勢の画像のうち、ステップＳ４４において認識が失敗した姿勢の画像を、登録対象物体の画像に差し替えた画像群を用いて、３Ｄモデルを再構築することにより、登録対象物体の３Ｄモデルを作成してもよい。

　また、登録対象物体の画像がＲＧＢ－Ｄｅｐｔｈ画像である場合、モデル修正部１１４は、当該画像から得られる撮像点群をメッシュ化して得られたメッシュを、ステップＳ５２において取得した３Ｄモデルと統合することによって、当該３Ｄモデルを修正する。また、さらに基準物体の画像もＲＧＢ－Ｄｅｐｔｈ画像であれば、モデル修正部１１４は、当該３Ｄモデルに対応する基準物体の当該姿勢の画像から得られる撮像点群を、登録対象物体の画像から得られる撮像点群に差し替えることによって、当該３Ｄモデルを修正してもよい。

　また、本実施例及び後述する実施例において、モデルデータ１３２に基準物体の２Ｄモデルが格納されている場合、モデル作成装置１００は、基準物体の２Ｄモデルを修正して、登録対象物体の２Ｄモデルを作成してもよい。

　例えば、モデル修正部１１４は、ステップＳ５２において取得し、ステップＳ５３においてコピーした２Ｄモデルが基準物体の画像によって構成された２Ｄモデルである場合、当該２Ｄモデルの当該姿勢（視点）の画像を、登録対象物体の当該姿勢の画像に差し替えることによって、当該２Ｄモデルを修正する。なお、当該２Ｄモデルが基準物体の１枚の画像によって構成された２Ｄモデルである場合、当該画像を登録対象物体の画像に差し替えることによって、当該２Ｄモデルを修正する。

　また、例えば、モデル修正部１１４は、ステップＳ５２において取得し、ステップＳ５３においてコピーした２Ｄモデルが基準物体の画像中のエッジやＳＩＦＴ（Ｓｃａｌｅ　Ｉｎｖａｒｉａｎｔ　Ｆｅａｔｕｒｅ　Ｔｒａｎｓｆｏｒｍ）等の局所特徴から作成された２Ｄモデルである場合、当該２Ｄモデルの当該姿勢（視点）の画像から当該局所特徴を取得し、２Ｄモデルの局所特徴を、取得した局所特徴に差し替えることによって、当該２Ｄモデルを修正する。なお、当該２Ｄモデルが基準物体の１枚の画像によって構成された２Ｄモデルである場合、当該画像の局所特徴を登録対象物体の局所特徴に差し替えることによって、当該２Ｄモデルを修正する。

　なお、登録対象物体の画像にノイズが含まれる場合、モデル修正部１１４は、例えば、当該画像から当該登録対象物体のシルエットを推定し、上記したいずれかの方法で２Ｄモデルを修正する。

　上記した処理により、本実施例のモデル作成装置１００は、登録対象物体の３Ｄモデルを、基準物体の３Ｄモデルを、特徴抽出器による認識性能に影響を与える部分についてのみ修正することによって作成するため、認識性能に影響を与える登録対象物体の局所情報を反映した３Ｄモデルを少ないデータ量及び処理量で作成することができる。

　本実施例では、モデル修正処理の詳細の別例について説明する。以下の実施例においては、実施例１との相違点を説明し、実施例１と重複する説明は省略する。図８は、３Ｄモデル修正有無を判定する処理の具体例を示す説明図である。

　図６の（ｂ）の例と同様に、登録対象物体Ｂの姿勢θ１の画像が特徴抽出器Ａに入力されると姿勢θ１が出力されるが、登録対象物体Ｂの姿勢θ２の画像が、特徴抽出器Ａに入力されると姿勢θ３が出力されている。つまり、登録対象物体Ｂの姿勢θ１については、ステップＳ４５における３Ｄモデルの修正処理は不要であるが、登録対象物体Ｂの姿勢θ２については、異なる姿勢θ３が出力されたため、ステップＳ４５における３Ｄモデルの修正処理が必要である。

　また、認識部１１２が特徴抽出器によって得た基準物体の局所領域８１と、基準物体の局所領域８２と、が類似していない（例えば特徴量の類似度が所定値以下である）と判定したものとする。

　このとき、モデル修正部１１４は、画像取得部１１１に対して、登録対象物体のモデルの修正が必要であると判定された姿勢の局所領域８２の近傍がより詳細に撮像された画像（例えばより解像度の高い画像又は拡大画像）を取得するよう指示する。例えば、画像取得部１１１は、端末２００に対して当該画像を撮像するよう指示し、端末２００から当該画像を取得する。モデル修正部１１４は、当該取得された画像情報を用いて、ステップＳ５４におけるモデル修正を行う。

　図８の処理において、モデル修正部１１４は、登録対象物体の基準物体に類似していない局所領域（差異領域）の近傍の画像に基づいて３Ｄモデルを修正するため、登録基準物体の差異領域の詳細を反映した３Ｄモデルを作成することができる。

　図９は、３Ｄモデル修正有無を判定する処理の具体例を示す説明図である。図８の例と同様に、登録対象物体Ｂの姿勢θ１の画像が特徴抽出器Ａに入力されると姿勢θ１が出力されるが、登録対象物体Ｂの姿勢θ２の画像が、特徴抽出器Ａに入力されると姿勢θ３が出力されている。つまり、登録対象物体Ｂの姿勢θ１については、ステップＳ４５における３Ｄモデルの修正処理は不要であるが、登録対象物体Ｂの姿勢θ２については、異なる姿勢θ３が出力されたため、ステップＳ４５における３Ｄモデルの修正処理が必要である。

　このとき、出力部１１５は、局所領域指定画面９０を出力装置１５０に出力する。局所領域指定画面９０は、例えば、物体画像表示領域９１、局所領域変更ボタン９２、保存ボタン９３、及びキャンセルボタン９４を含む。

　局所領域指定画面９０は、登録対象物体の姿勢θ２の画像（即ち誤った姿勢が出力されたときの入力画像）と、局所領域を示す表示（図中点線の楕円）と、が表示されている。なお、類似していない領域を利用者が容易に把握できるように、局所領域指定画面９０には、例えば当該利用者からの指示によって、登録対象物体の姿勢θ２の画像に代えて又は加えて、基準物体の姿勢θ２の画像（即ち基準物体の正しく出力されるべき姿勢の画像）が表示されてもよい。

　局所領域変更ボタン９２は、局所領域の範囲を変更するためのボタンである。例えば、局所領域変更ボタン９２が選択されると、局所領域指定画面９０における局所領域を示す表示が利用者の入力によって変更可能な状態となる。保存ボタン９３は、変更された局所領域を保存するためのボタンである。保存ボタン９３が選択されると、モデル修正部１１４は、変更された局所領域の画像情報を用いて、ステップＳ５４におけるモデル修正を行う。

　キャンセルボタン９４は、局所領域を変更することなく終了するためのボタンである。キャンセルボタン９４が選択されると、モデル修正部１１４は、変更前の局所領域の画像情報を用いて、ステップＳ５４におけるモデル修正を行う。

　モデル修正部１１４は、画像取得部１１１に対して、登録対象物体のモデルの修正が必要であると判定された姿勢の、局所領域指定画面９０によって決定された局所領域の近傍がより詳細に撮像された画像（例えばより解像度の高い画像又は拡大画像）を取得するよう指示する。例えば、画像取得部１１１は、端末２００に対して当該画像を撮像するよう指示し、端末２００から当該画像を取得する。モデル修正部１１４は、当該取得された画像情報を用いて、ステップＳ５４におけるモデル修正を行う。

　図９の処理において、モデル修正部１１４は、利用者によって選択された局所領域（差異領域）の近傍の画像に基づいて３Ｄモデルを修正するため、登録基準物体の、特に特徴抽出器によって認識が困難な差異領域の詳細を反映した３Ｄモデルを作成することができる。

　本実施例は、ステップＳ５２における３Ｄモデルの選択処理の別例を示す。図１０は、ステップＳ５２における３Ｄモデル選択処理の一例を示す説明図である。モデル修正部１１４は、画像データ１３１から登録対象物体及び複数の基準物体（例えばユーザが選択した複数の基準物体、又は全ての基準物体）の画像を取得し、取得した画像を当該複数の基準物体それぞれに対応する特徴抽出器に入力する。

　なお、モデル修正部１１４は、登録対象物体及び複数の基準物体のある姿勢（１又は複数の同じ姿勢）の画像を取得して特徴抽出器に入力してもよいし、登録対象物体及び複数の基準物体の全ての姿勢の画像を取得して特徴抽出器に入力してもよい。

　モデル修正部１１４は、特徴抽出器が抽出した特徴に基づいて、複数の基準物体それぞれについて、登録対象物体との類似度を算出する。コサイン類似度や、特徴量間の２乗距離はいずれもモデル修正部１１４が算出する類似度の一例である。モデル修正部１１４は、算出した類似度が最も高い基準物体を類似物体であると判定し、類似物体の３Ｄモデルをモデルデータ１３２から取得する。

　図１０の例では、登録対象物体Ｂと基準物体Ａとの類似度が０．６であり、登録対象物体Ｂと基準物体Ｘとの類似度が０．４であるため、モデル修正部１１４は基準物体Ａを類似物体であるとし、基準物体Ａの３Ｄモデルをモデルデータ１３２から取得する。

　図１０の処理において、モデル修正部１１４は、登録対象物体と類似度の高い基準物体の３Ｄモデルを選択するため、修正対象として適切な３Ｄモデルを選択することができ、ひいては当該３Ｄモデルの修正にかかる処理量が低減する可能性が高い。

　図１１は、ステップＳ５２における３Ｄモデル選択処理の一例を示す説明図である。図１０の例と同様に、モデル修正部１１４は、複数の基準物体それぞれについて、登録対象物体との類似度を算出する。モデル修正部１１４は、算出した全ての類似度が所定の閾値以下であると判定した場合、ステップＳ５２において、モデルを選択せずに、モデル修正処理を中止して、登録対象物体の３Ｄモデルを新たに作成する。

　図１１の例では、類似度の閾値が０．５であり、登録対象物体Ｂと基準物体Ａとの類似度が閾値を下回る０．４であり、登録対象物体Ｂと基準物体Ｘとの類似度が閾値を下回る０．３であるため、モデル修正部１１４は基準物体の３Ｄモデルを選択することなく、登録対象物体Ｂの３Ｄモデルを新たに作成する。

　図１１の処理において、モデル修正部１１４は、登録対象物体と類似度の高い基準物体がない場合に、登録対象物体の３Ｄモデルを新たに作成するため、修正対象の不適切な３Ｄモデルを選択することがない。また、仮に、モデル修正部１１４が、登録対象物体と類似度の高い基準物体の３Ｄモデルを選択した場合には、当該３Ｄモデルを修正して登録対象物体の３Ｄモデルを作成すると、かえって処理量が多くなったり、認識性能が不十分となったりするおそれがある。モデル修正部１１４は、図１１の処理を行うことによって、このような事態の発生を抑制することができる。

　本実施例は、モデル作成処理の別例を示す。本実施例のモデル作成装置１００は、登録対象物体の認識結果に応じて、特徴抽出器を修正する。図１２は、本実施例のモデル作成処理の一例を示すフローチャートである。

　認識結果比較部１１３は、登録対象物体の姿勢と、ステップＳ４３で認識された姿勢と、が同じであると判定した場合（Ｓ４４：ＹＥＳ）、又はステップＳ４５におけるモデル修正処理が終了した後、認識部１１２は、登録対象物体の画像に基づいて、特徴抽出器を修正する（Ｓ４６）。以下、特徴抽出器の修正処理の具体例について説明する。

　図１３は、特徴抽出器の修正処理の一例を示す説明図である。図８の例と同様に、登録対象物体Ｂの姿勢θ１の画像が特徴抽出器Ａに入力されると姿勢θ１が出力されるが、登録対象物体Ｂの姿勢θ２の画像が、特徴抽出器Ａに入力されると姿勢θ３が出力されている。

　このとき、認識部１１２は、画像データ１３１から登録対象物体の姿勢θ２の画像（即ち特徴抽出器から正しく出力されるべき姿勢の登録対象物体の画像）を取得して、取得した画像と姿勢θ２とを紐づけて特徴抽出器Ａに追加学習させて、モデルデータ１３２における特徴抽出器Ａを上書きする。これにより、認識部１１２は、登録対象物体の特徴抽出器において認識精度の低い姿勢の画像を高速に学習させることができる。

　なお、特徴抽出器と姿勢推定器とが分離している場合には、認識部１１２は、姿勢推定器に上記した追加学習をさせ、さらに登録対象物体の姿勢θ２の画像（即ち姿勢推定器から正しく出力されるべき姿勢の登録対象物体の画像）を当該特徴抽出器に追加学習させて、モデルデータ１３２における当該特徴抽出器を上書きする。

　そして、次回の登録対象物体の３Ｄモデルの生成において、認識部１１２は、上書きされた特徴抽出器Ａを用いて、ステップＳ５２における当該登録対象物体の姿勢を出力する処理を行う。これにより、前回の登録対象物体の特徴を反映した特徴抽出器Ａを用いた姿勢推定が行われるため、前回の登録対象物体に近い特徴を有する登録対象物体に対するモデル作成処理の処理量が低減する。

　なお、画像データ１３１に登録対象物体の姿勢θ２の十分な数の画像がない（例えば所定枚数以下の画像しかない）場合には、画像取得部１１１に対して、登録対象物体の姿勢θ２の所定数の画像を取得するよう指示する。例えば、画像取得部１１１は、端末２００に対して当該所定数の登録対象物体の画像を撮像するよう指示し、端末２００から当該所定数の登録対象物体の画像を取得する。

　図１４は、特徴抽出器の修正処理の一例を示す説明図である。図８の例と同様に、登録対象物体Ｂの姿勢θ１の画像が特徴抽出器Ａに入力されると姿勢θ１が出力されるが、登録対象物体Ｂの姿勢θ２の画像が、特徴抽出器Ａに入力されると姿勢θ３が出力されている。

　このとき、認識部１１２は、画像データ１３１から登録対象物体の姿勢θ３の画像（即ち特徴抽出器から誤って出力された姿勢の登録対象物体の画像）を取得して、取得した画像と姿勢θ３と紐づけて特徴抽出器Ａに追加学習させて、モデルデータ１３２における特徴抽出器Ａを上書きする。これにより、認識部１１２は、登録対象物体の特徴抽出器において認識精度の低い姿勢の画像を高速に学習させることができる。

　なお、特徴抽出器と姿勢推定器とが分離している場合には、認識部１１２は、姿勢推定器に上記した追加学習をさせ、さらに登録対象物体の姿勢θ３の画像（即ち特徴抽出器から誤って出力された姿勢の登録対象物体の画像）を当該特徴抽出器に追加学習させて、モデルデータ１３２における当該特徴抽出器を上書きする。

　なお、画像データ１３１に登録対象物体の姿勢θ３の十分な数の画像がない（例えば所定枚数以下の画像しかない）場合には、画像取得部１１１に対して、登録対象物体の姿勢θ３の所定数の画像を取得するよう指示する。例えば、画像取得部１１１は、端末２００に対して当該所定数の登録対象物体の画像を撮像するよう指示し、端末２００から当該所定数の登録対象物体の画像を取得する。

　なお、例えば、認識部１１２は、登録対象物体の姿勢θ２の画像（即ち特徴抽出器から正しく出力されるべき姿勢の登録対象物体の画像）と、登録対象物体の姿勢θ３の画像（即ち特徴抽出器から誤って出力された姿勢の登録対象物体の画像）と、の双方を特徴抽出器に追加学習させてもよい。

　なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることも可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

　また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

　また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

Claims

　登録対象物体の形状を示すモデルを作成するモデル作成装置であって、
　プロセッサとメモリとを備え、
　前記メモリは、
　前記登録対象物体の１以上の姿勢の画像と、
　基準物体の形状を示す基準モデルと、を保持し、
　前記プロセッサは、
　前記登録対象物体の第１姿勢の特徴を示す情報を取得し、
　前記基準モデルが示す前記第１姿勢の形状が、所定の第１条件に基づいて類似しないと判定した場合、前記特徴を示す情報に基づいて前記基準モデルを修正して、前記登録対象物体の形状を示すモデルを作成する、モデル作成装置。
　請求項１に記載のモデル作成装置であって、
　前記メモリは、前記基準物体の画像を学習することによって作成され、画像が入力されると姿勢を出力する特徴抽出器を保持し、
　前記プロセッサは、
　前記登録対象物体の前記第１姿勢の第１画像を前記特徴抽出器に入力して、前記第１姿勢と異なる第２姿勢が出力された場合、前記特徴を示す情報に基づいて前記基準モデルを修正して、前記登録対象物体の形状を示すモデルを作成する、モデル作成装置。
　請求項２に記載のモデル作成装置であって、
　前記メモリは、
　複数の前記基準物体それぞれの形状を示す基準モデルと、
　前記複数の前記基準物体それぞれの前記１以上の姿勢の画像と、保持し、
　前記プロセッサは、
　前記第１画像を前記特徴抽出器に入力して、前記第２姿勢が出力された場合、
　前記登録対象物体の前記第１画像と、前記複数の基準物体それぞれの前記第１姿勢の画像と、を前記特徴抽出器に入力して、前記登録対象物体と前記複数の基準物体それぞれとの類似度を算出し、
　前記算出した類似度が最も高い基準物体の基準モデルを、前記登録対象物体の前記第１姿勢の特徴を示す情報に基づいて修正して、前記登録対象物体の形状を示すモデルを作成する、モデル作成装置。
　請求項２に記載のモデル作成装置であって、
　前記メモリは、
　複数の前記基準物体それぞれの形状を示す基準モデルと、
　前記複数の基準物体それぞれの前記１以上の姿勢の画像と、保持し、
　前記特徴抽出器は、前記複数の基準物体の画像を学習することによって作成されたものであり、
　前記第１画像を前記特徴抽出器に入力して、前記第２姿勢が出力された場合、
　前記第１画像と、前記複数の基準物体それぞれの前記第１姿勢の画像と、を比較して、前記登録対象物体と前記複数の基準物体それぞれとの類似度を算出し、
　前記算出した類似度の全てが所定の閾値以下である場合、前記基準モデルの修正を行うことなく、前記登録対象物体の形状を示すモデルを新たに作成する、モデル作成装置。
　請求項２に記載のモデル作成装置であって、
　前記メモリは、前記登録対象物体の前記第１姿勢の前記第１画像と異なる第２画像を保持し、
　前記プロセッサは、
　前記第１画像を前記特徴抽出器に入力して、前記第２姿勢が出力された場合、
　前記第２画像を前記特徴抽出器に学習させ、
　学習後の前記特徴抽出器を前記メモリに格納する、モデル作成装置。
　請求項５に記載のモデル作成装置であって、
　前記特徴抽出器は、画像の特徴を抽出する抽出部と、前記抽出部が抽出した特徴に基づいて姿勢を出力する姿勢推定部と、を含み、
　前記第１画像を前記特徴抽出器に入力して、前記第２姿勢が出力された場合、
　前記第２画像を前記姿勢推定部に学習させる、モデル作成装置。
　請求項２に記載のモデル作成装置であって、
　前記メモリは、前記登録対象物体の前記第２姿勢の第３画像を保持し、
　前記プロセッサは、
　前記第１画像を前記特徴抽出器に入力して、前記第２姿勢が出力された場合、
　前記第３画像を前記特徴抽出器に学習させる、
　学習後の前記特徴抽出器を前記メモリに格納する、モデル作成装置。
　請求項７に記載のモデル作成装置であって、
　前記特徴抽出器は、画像の特徴を抽出する抽出部と、前記抽出部が抽出した特徴に基づいて姿勢を出力する姿勢推定部と、を含み、
　前記第１画像を前記特徴抽出器に入力して、前記第２姿勢が出力された場合、
　前記第３画像を前記姿勢推定部に学習させる、モデル作成装置。
　請求項１に記載のモデル作成装置であって、
　前記メモリは、前記基準物体の画像の局所領域の特徴を示す情報を保持し、
　前記プロセッサは、
　前記基準モデルが示す前記第１姿勢の形状が、前記第１条件に基づいて類似しないと判定した場合、
　前記登録対象物体と、前記基準物体と、において所定の第２条件に基づいて、特徴を示す情報が類似していない局所領域を特定し、
　前記登録対象物体の前記特定した局所領域の詳細画像を取得し、
　前記詳細画像の特徴を示す情報を取得し、
　前記詳細画像の特徴を示す情報に基づいて前記基準モデルを修正して、前記登録対象物体の形状を示すモデルを作成する、モデル作成装置。
　請求項１に記載のモデル作成装置であって、
　表示装置を備え、
　前記メモリは、前記基準物体の画像の局所領域の特徴を示す情報を保持し、
　前記プロセッサは、
　前記基準モデルが示す前記第１姿勢の形状が、前記第１条件に基づいて類似しないと判定した場合、
　前記登録対象物体の前記第１姿勢の画像を前記表示装置に表示し、
　局所領域の指定を受け付け、
　指定された局所領域の特徴を示す情報を取得し、
　前記指定された局所領域の特徴を示す情報に基づいて前記基準モデルを修正して、前記登録対象物体の形状を示すモデルを作成する、モデル作成装置。
　請求項１に記載のモデル作成装置であって、
　前記基準モデルは、メッシュと頂点とによって前記基準物体の形状が規定される３次元モデルであり、
　前記プロセッサは、
　前記基準モデルが示す前記第１姿勢の形状が、前記第１条件に基づいて類似しないと判定した場合、
　前記登録対象物体の前記第１姿勢における画像が示す形状に基づいて、前記基準モデルにおける頂点を増減し、前記増減後の頂点を移動させることによって、前記基準モデルを修正する、モデル作成装置。
　請求項１に記載のモデル作成装置であって、
　前記メモリは、
　複数の前記基準物体それぞれの前記１以上の姿勢の画像と、
　前記登録対象物体と前記複数の基準物体が属するカテゴリを示すカテゴリ情報と、を保持し、
　前記プロセッサは、
　前記カテゴリ情報を参照して、前記登録対象物体と同じカテゴリに属する基準物体を特定し、
　前記特定した基準物体の画像を平均化した画像の形状を示す平均モデルを作成し、
　前記基準モデルが示す前記第１姿勢の形状が、前記第１条件に基づいて類似しないと判定した場合、前記特徴を示す情報に基づいて前記平均モデルを修正して、前記登録対象物体の形状を示すモデルを作成する、モデル作成装置。
　モデル作成装置が登録対象物体の形状を示すモデルを作成する方法であって、
　前記モデル作成装置は、
　前記登録対象物体の１以上の姿勢の画像と、
　基準物体の形状を示す基準モデルと、を保持し、
　前記方法は、
　前記モデル作成装置が、前記登録対象物体の第１姿勢の特徴を示す情報を取得し、
　前記モデル作成装置が、前記基準モデルが示す前記第１姿勢の形状が、所定の第１条件に基づいて類似しないと判定した場合、前記特徴を示す情報に基づいて前記基準モデルを修正して、前記登録対象物体の形状を示すモデルを作成する、方法。