[go: up one dir, main page]

JP6128910B2 - 学習装置、学習方法及びプログラム - Google Patents

学習装置、学習方法及びプログラム Download PDF

Info

Publication number
JP6128910B2
JP6128910B2 JP2013058567A JP2013058567A JP6128910B2 JP 6128910 B2 JP6128910 B2 JP 6128910B2 JP 2013058567 A JP2013058567 A JP 2013058567A JP 2013058567 A JP2013058567 A JP 2013058567A JP 6128910 B2 JP6128910 B2 JP 6128910B2
Authority
JP
Japan
Prior art keywords
learning
feature amount
local region
classifier
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013058567A
Other languages
English (en)
Other versions
JP2014182754A5 (ja
JP2014182754A (ja
Inventor
貴之 猿田
貴之 猿田
裕輔 御手洗
裕輔 御手洗
裕人 吉井
裕人 吉井
優和 真継
優和 真継
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2013058567A priority Critical patent/JP6128910B2/ja
Priority to US14/218,074 priority patent/US9489593B2/en
Publication of JP2014182754A publication Critical patent/JP2014182754A/ja
Publication of JP2014182754A5 publication Critical patent/JP2014182754A5/ja
Application granted granted Critical
Publication of JP6128910B2 publication Critical patent/JP6128910B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/759Region-based matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Description

本発明は、特に、識別器を学習するために用いて好適な学習装置、画像学習方法及びプログラムに関する。
従来、識別手法の1つとして、撮像部によって得られる対象物体の画像から抽出される特徴量をコンピュータに学習させ、入力された画像の中に映る物体の種別を識別する研究がなされている。また、物体のモデル情報などを用いて、種別だけではなく、位置や姿勢を同時に推定するような研究もなされている。その技術の応用先としては、高度な組立等の作業をロボットに行わせるための、部品の位置・姿勢識別(認識)などが挙げられる。
非特許文献1には、学習画像からコードブック化した特徴と検出された特徴とを対応付け、確率的投票で物体の中心位置を推定する手法(implicit−shape−model)が提案されている。この手法によれば、種別だけではなく、物体の位置も推定することができることが記載されている。
また、特許文献1に記載の方法では、入力画像の中から特徴点を抽出してその特徴量を算出し、学習画像における特徴量と類似する特徴点同士を、対応点として設定する。そして、入力画像における対応点ごとに学習画像の特徴点の特徴量(位置情報を含む)に基づいて基準点に投票することにより対象物を識別するとともに、位置も推定するようにしている。
識別精度を向上させるためには、特徴点およびその特徴点を特徴づける特徴量を適切に選択することが重要である。また、特徴点の代わりに局所領域など対象物体の部分的な領域(以下、局所領域と記す)を用いる場合もある。特許文献2には、学習過程で作成される木構造の各ノードにおいて、認識対象が存在する領域(フォアグラウンド領域)から特徴量を抽出して背景が激しく変動する状況においても対象物を識別できるようにした技術が開示されている。
また、特許文献3には、標準パターンとの相違度または類似度の損失値を求める損失関数を用いて、識別にとって重要な部分に識別処理に用いる局所領域を密に配置する技術が開示されている。さらに、非特許文献2には、画像データから所定のキーポイントを多数検出し、それらのキーポイントのうち、様々な変動を与えた状況であっても、安定的に検出できる可能性の高いキーポイントを、部分的な特徴として選択する技術が開示されている。
特開2008−257649号公報 特開2011−216087号公報 特許第4852086号公報
B.Leibe, "Robust Object Detection with Interleaved Categorization and Segmentation", IJCV Special Issue on Learning for Vision for learning, Aug. 2007. Vincent Lepetit and Pascal Fua, "Keypoint Recognition Using Randomized Trees", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28, No. 9, pp.1465-1479, September 2006 Mustafa Ozuysal, Michael Calonder, Vincent Lepetit and Pascal Fua, "Fast Keypoint Recognition using Random Ferns", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 3, pp. 448-461, March 2010 H.Bay, "Speeded-Up Robust Features (SURF)", Computing Vision and Image Understanding, Vol.110 (3) June 2008, pp.346-359. E.Tola, "A Fast Local Descriptor for Dense Matching", CVPR 2008. K.Mikolajczyk, "A Performance Evaluation of Local Descriptors", PAMI, 27(10) 2004, pp.1615-1630.
対象物を識別する際には、学習画像に基づいて対象物を識別する。したがって、対象物を識別する精度を向上させるためには、識別器を精度良く学習できるようにすることが重要である。しかしながら従来の技術では、識別器を学習させる精度が不十分であったため、対象物を識別する精度も不十分であった。
本発明は前述の問題点に鑑み、精度良く識別器を学習できるようにすることを目的としている。
本発明の学習装置は、対象物の局所領域を識別する識別器を学習する学習装置であって、前記識別器で用いる特徴量と当該特徴量を取得する複数の位置とを設定する特徴量設定手段と、前記特徴量設定手段によって設定された特徴量を取得する複数の位置のうち、前記対象物の領域に含まれる位置の割合に基づく所定の選択条件に基づいて前記対象物の局所領域を選択する選択手段と、前記特徴量設定手段によって設定された特徴量及び前記選択手段によって選択された局所領域を用いて前記識別器を学習する学習手段とを有することを特徴とする。
本発明によれば、識別力の高い識別器を学習することができ、対象物を精度良く識別することができる。
対象物が山積みにされている様子を示す図である。 対象物の局所領域を説明するための図である。 本発明の第1の実施形態における対象物識別装置の機能構成例を示すブロック図である。 本発明の第1の実施形態における識別器を学習する処理手順の一例を示すフローチャートである。 本発明の第1の実施形態において、学習された識別器を用いて対象物を識別する処理手順の一例を示すフローチャートである。 対象物を撮像している様子を説明するための図である。 測地ドームの各視点から対象物を捉えた様子を説明するための図である。 学習画像の例を示す図である。 局所領域と対象物中心の関係を示す図である。 山積み対象物に対する識別時のスキャン方法を示す図である。 識別時に用いる投票空間の例を示す図である。 局所領域における特徴量の取得位置を示す図である。 局所領域のフォアグラウンドとバックグラウンドとを説明するための図である。 局所領域の配置方法を示す図である。 本発明の第2の実施形態における対象物識別装置の機能構成例を示すブロック図である。 本発明の第2の実施形態における識別器を学習する処理手順の一例を示すフローチャートである。 本発明の第3の実施形態における対象物識別装置の機能構成例を示すブロック図である。 本発明の第3の実施形態における識別器を学習する処理手順の一例を示すフローチャートである。 本発明の第4の実施形態における対象物識別装置の機能構成例を示すブロック図である。 本発明の第4の実施形態における識別器を学習する処理手順の一例を示すフローチャートである。 本発明の第5の実施形態における対象物識別装置の機能構成例を示すブロック図である。 本発明の第5の実施形態において、学習された識別器を用いて対象物を識別する処理手順の一例を示すフローチャートである。
以下、本発明の実施形態について、図面を参照しながら説明する。
(第1の実施形態)
本実施形態では、図1に示すように対象物30が山積みされている状況から各対象物がどの位置にどのような姿勢で存在しているかを識別する例について説明する。なお、図2に示すような各姿勢で撮像された対象物30の部分領域は、その際に識別器に登録する局所領域40を示している。
各局所領域の情報には、対象物の姿勢や、対象物における位置の情報が付与されている。そして、識別器によって局所領域を識別して集計することにより対象物がどの位置に、どのような姿勢で存在するかを識別することができる。そこで本実施形態では、識別器を学習する際に登録する局所領域を予め設定された特徴量及び局所領域の選択条件に合わせて適切に選択する。
図3は、本実施形態における対象物識別装置300の機能構成例を示すブロック図である。
図3において、撮像部301は、対象物を撮像して画像データを取得する。また、本実施形態に係る対象物識別装置300は、特徴量設定部302、局所領域選択条件設定部303、局所領域選択部304、識別器学習部305、画像入力部306、及び識別部307を備えている。さらに、記憶部として特徴量保持部308、学習画像保持部309、及び識別器保持部310を備えている。なお、これらの各構成の処理内容については、以下のフローチャートと合わせて説明する。
図4は、識別器を学習する処理手順の一例を示すフローチャートである。まず、学習する処理手順について説明する。
最初に、ステップS401において、特徴量設定部302は、識別器で用いる特徴量を設定する。特徴量を設定する方法としては、不図示の操作部からユーザの操作に応じて登録してもよいし、予め登録されている特徴量の中からユーザが選択できるようにしてもよい。具体的な特徴量に関しては後述する。そして、設定した特徴量を特徴量保持部308に保持する。
次に、ステップS402において、局所領域選択条件設定部303は、学習に登録する局所領域の選択条件を設定する。この条件についてもユーザの操作により登録してもよいし、予め登録されている条件の中からユーザが選択できるようにしてもよい。また、図4に示す処理を開始する前に局所領域を選択する条件を予め決定しておいて、この工程をスキップしてもよい。そして、設定した選択条件を局所領域選択部304に出力する。
次に、ステップS403において、局所領域選択部304は、先のステップS401及びS402で設定された特徴量と局所領域の選択条件との両方または局所領域の選択条件のみに基づいて、学習に登録する局所領域を選択する。局所領域を選択する学習画像は学習画像保持部309に保持されており、選択した局所領域を識別器学習部305に出力する。なお、ステップS401〜S403は、特徴的な処理であるため、後で詳しく説明する。
次に、ステップS404において、識別器学習部305は、ステップS403において選択された局所領域を識別する識別器を学習する。具体的な識別器についての説明は後述する。そして、学習された識別器を識別器保持部310に保持する。
図5は、学習された識別器を用いて対象物を識別する処理手順の一例を示すフローチャートである。
まず、ステップS501において、画像入力部306は、撮像部301によって撮像された対象物の画像を入力する。次に、ステップS502において、識別部307は、画像入力部306によって入力された対象物の画像を、識別器保持部310に保持されている識別器を用いて識別し、対象物のクラスを出力する。
図6は、対象物を撮像している様子を説明するための図である。
図6において、カメラ10は、図3の撮像部301に相当するものであり、識別の対象物30を捉えている。計算機20は、図3の対象物識別装置300に相当するものであり、前述した図3に示した構成を有している。なお、特徴量保持部308、学習画像保持部309、及び識別器保持部310については、不図示の不揮発性の記憶装置として計算機20と接続された構成としてもよい。
次に、図4及び図5に示したフローチャートに従って、学習処理及び識別処理それぞれの具体的な処理について述べる。まず、学習処理及び識別処理の基本的な方法について簡単に説明する。
本実施形態では、非特許文献3に開示されているようなFern型識別器を用いることとして説明する。Fern型識別器とは、複数の要素識別器を並べた識別器であり、要素識別器には、一般に、比較的単純な2値の識別器が用いられる。つまり、何らかの単純な識別規則に基づいてデータを識別し、{0、1}の結果を出力するような要素識別器を用いる。Fern型識別器を構成する要素識別器の個数は任意の個数でよいが、ここでは、1個につき16個の要素識別器で構成されるFern型識別器を用いる。各要素識別器の出力は{0,1}と出力されるため、16個の上記要素識別器を用いれば、全出力結果は「0000000000000000」から「1111111111111111」となるため、216=65536通りのいずれかの結果が得られることになる。学習時には識別する各局所領域がこの65536通りのいずれかの結果になるかを記録することになる。このようなFern型識別器を複数用いて識別処理を行う。
本実施形態では、Fern型識別器を用いて対象物の部分領域を示している局所領域を識別する。どの位置から局所領域を取得するかについてはステップS403の具体的な処理として後述する。本実施形態における対象物の学習画像は、図7に示すように対象物30を囲う測地ドーム60の各視点61から捉えた学習画像を利用する。図8には、学習画像の例を示す。
識別の際には、このFern型識別器を用いて各局所領域を識別することにより、入力画像に対象物がどのような姿勢でどのような位置にあるかを識別することができる。識別する際には、例えば、図9に示すように、ある対象物30の姿勢θの学習画像の各々の局所領域40の中心32から対象物の中心33までのベクトル(x,y)を記録しておく。
また、識別時は、例えば、図10に示すような山積み対象物31の中から各対象物がどの位置にどのような姿勢で置かれているかを識別する。このとき、図10に示すように画像中をスキャンしながら各領域がどの局所領域に合致するかを先に学習した識別器を用いて識別を行い、各局所領域に付与されている情報をもとに、投票空間に投票を行う。画像上でスキャンしている位置を(u,v)とおけば、投票される位置(X,Y,ID)は、以下の式(1)により算出される。
(X,Y,ID)=(u+x,v+y,θ) ・・・(1)
ここで、IDはクラスを示していて、この場合は対象物のある姿勢を示している。最終的には、図11に示す投票空間70の中で最大投票数をもつ位置(Xmax,Ymax,IDmax)を検出して識別を行う。これにより、位置(Xmax,Ymax)に対象物がクラスIDmaxに登録されている姿勢で存在することになる。なお、ここではクラスIDに姿勢を定義して姿勢を識別したが、クラスIDに定義するのは対象物の種別など何でもよい。
次に、図4及び図5に示す各工程の処理を具体的に説明する。
まず、図4のステップS401では、学習時、識別時に利用する特徴量を予め設定する。本実施形態ではFern型識別器を用いるため、特徴量としては比較的単純な2点の値の大小比較による2値判定を用いる。例えば、位置が異なる2点(以下、参照点1および参照点2)の値を比較し、その大小関係を識別して、{0、1}の結果を出力するというものである。
ステップS401では、各要素識別器で参照する参照点1および参照点2の位置を決定する。本実施形態においては局所領域の中心を基準位置に定めて、その位置からの相対位置の組み合わせを要素識別数の数(16個)だけ設定することになる。設定位置はいかなる位置でもよいが、例えば、図12(a)に示すように、局所領域40において参照点1(図12における点50)および参照点2(図12における点51)をランダムな位置に設定する。その他の例としては、参照点1もしくは参照点2のどちらかの1点を局所領域の中心(もしくはある特定の点)に固定して、もう一方の参照点をランダムな位置に設定するなどがあげられる。図12(b)に示す例では、参照点1を局所領域40内の中心に固定して、参照点2をランダムな位置に設定している。
ここではランダムな位置に設定する例を示したが、全ての参照点をユーザにより設定可能にしてもよい。また、予め設定された複数の点の中からユーザが参照点を選択できるようにしてもよい。本実施形態のように識別器を複数使う場合には識別器ごとにその位置を設定してもよい。
なお、ここでは特徴量として比較的単純な2点の値の大小比較による2値判定を説明したが、局所領域内の特徴抽出をして何らかのルールで{0,1}の結果を出力するような特徴量を定めてもよい。特徴抽出方法としては例えば非特許文献4に開示されているSURFのような抽出された特徴点まわりの輝度勾配の情報を記述するものでもよい。また、非特許文献5及び6に開示されているその他のいわゆるKeypointsなどの特徴点でもよい。または、画像パッチやedgelet、局所画像内のヒストグラム特徴などでもよい。
ただし、それらをFern型識別器の特徴量として利用する場合には各要素識別器が{0,1}の結果を出力する条件を予め定めておく必要がある。例えば、特徴のある次元の値に応じて所定の閾値に対する大小比較で{0、1}を出力してもよいし、標準特徴を定めて、その特徴とのχ2距離を計算して所定の閾値に対する{0、1}を出力してもよい。このとき、閾値についてはユーザにより設定可能にしてもよいし、識別器を学習する際に分岐精度が向上するように選択してもよい。例えば、学習に登録した局所領域がほぼ同数ずつ{0、1}と判別されるような閾値を選択すればよい。また、特徴量を取得する前にエッジ抽出などの前処理をかける場合にはそれも合わせてここで決定しておく。
次に、ステップS402では、学習に登録する局所領域を選択する条件を設定する。本実施形態では、局所領域を選択する条件として局所領域のフォアグラウンド率を条件とする。局所領域のフォアグラウンドとは、図13に示すように、局所領域40内で対象物30を捉えている部分41である。42は局所領域のバックグラウンドである。また、局所領域のフォアグラウンド率とは局所領域中の対象物領域の割合を示しており、以下の式(2)により算出され、図13に示す例の場合、以下の式(3)により算出される。
(フォアグラウンド率)=(局所領域中の対象物領域の面積)/(局所領域の面積) ・・・(2)
(フォアグラウンド率)=(部分41の領域の面積)/(部分41+バックグラウンド42の領域の面積) ・・・(3)
例えば、局所領域のフォアグラウンド率が100%であれば、対象物領域に局所領域が完全に含まれており、0%であれば局所領域は対象物領域外に配置されていることになる。また、先のFern型識別器を用いる場合は特徴量を取得する位置は16×2=32点であるため、以下の式(4)に示すように、その32点のうち、何点が対象物領域を参照しているかを示す値になる。
(フォアグラウンド率)=(局所領域中の対象物領域を参照している点)/(全点数) ・・・(4)
なお、フォアグラウンド率については、ユーザにより設定可能としてもよいし、予め設定しておいてもよい。フォアグラウンド率は例えば50%や100%などの適当な数値で設定すればよく、50%以上や20%以上80%以下などのように範囲設定してもよい。
次に、ステップS403では、ステップS401及びS402によって決定された特徴量と選択条件との両方もしくは選択条件のみに基づいて学習時に登録する局所領域を選択する。
まず、選択条件のみに基づいて局所領域を選択する方法について説明する。例えば、特徴量が局所領域内の統計量である場合は、選択条件のみに基づいて選択すればよい。この場合、局所領域のフォアグラウンド率を定義すれば、対象物領域内で局所領域を配置できる領域が決定される。
図14に示すように、ある姿勢の対象物30の学習画像に対して、局所領域40をスキャンして各位置(図14では局所領域の中心32の位置で表している)でのフォアグラウンド率を計算し、設定したフォアグラウンド率を満たしているか否かをチェックする。ここで、n局所領域の位置(X,Y)でのフォアグラウンド率をF(X,Y)とおく。(X,Y)は対象物画像座標系で局所領域の中心位置を示していて、局所領域サイズと対象物画像(もしくは対象物のモデルとその姿勢)が与えられれば、F(X,Y)を算出することができる。設定したフォアグラウンド率をFとした場合、以下の式(5)を満たす(X,Y)を探索すればよい。
F(X,Y)>F ・・・(5)
この方法によれば、対象物画像中でスキャンしたあと、局所領域の中心を(X,Y)として局所領域を配置すればよい。配置方法は(X,Y)からランダムに選択してもよいし、ユーザにより登録できるようにしてもよい。また、局所領域の数は予め設定しておいてもよく、取得できるだけ全て登録してもよい。また、Fern型識別器のような複数の識別器を利用する場合は識別器ごとに局所領域の位置を変更してもよい。
これらにより、ステップS401及びS402によって決定された特徴量、選択条件に合わせた局所領域を選択できる。フォアグラウンド率を設定することにより、対象物のフォアグラウンドを多く学習できるため、図10に示すような背景がクラッタな状況においても対象物の位置・姿勢を高精度に識別することができる。
次に、特徴量と選択条件との両方に基づいて局所領域を選択する方法について説明する。
例えば、特徴量を取得する位置が局所領域内で決定されている場合には、特徴量を取得する位置と選択条件とを合わせて考慮する必要がある。図12(a)に示した例のように参照点1および参照点2をランダムな位置に設定している場合には各位置がフォアグラウンドになるかどうかを集計して、フォアグラウンド率を満たす位置に局所領域を配置する。一方、図12(b)に示した例のように参照点1、参照点2のどちらかを局所領域の中心(又はある特定の点)に固定し、もう一方の参照点をランダムな位置に設定してフォアグラウンド率を50%以上とした場合は局所領域の中心位置は対象物領域のどこでもよい。
なお、ここではフォアグラウンド率について説明を行ったが、特徴量によっては局所領域内のエッジ率など局所領域内のなんらかの統計量であればなんでもよい。対象物の学習画像に対して局所領域の位置が決定された場合に、一意に統計量が記述できるものであればよい。また、画像として距離画像を利用する場合には距離画像の信頼度などでもよい。エッジ率の場合は、以下の式(6)によって局所領域内のエッジ率を算出すればよい。
(エッジ率)=(局所領域中のエッジ画素数)/(局所領域の画素数) ・・・(6)
また、距離画像の信頼度の場合は予め学習画像の各点の距離データおよび距離データの信頼度を用意しておく。信頼度の算出方法では、識別時の距離画像の取得方法がステレオ法の場合は対象物画像のエッジ上では信頼度が高く、平面上では信頼度が低い。逆に光切断法など距離データを取得する場合には、平面上では信頼度が高い。もしくはカメラ位置などを利用して各点の法線ベクトルとの角度で信頼度を定めてもいい。それらの方法で各点の信頼度を算出した後、以下の式(7)により、局所領域の信頼度を求める。
(信頼度)=Σ(局所領域中の各点の信頼度)/(局所領域の画素数) ・・・(
7)
次に、ステップS404では、ステップS403において選択された局所領域をステップS401で設定した特徴量で識別する識別器を学習する。先の例だと126000個の局所領域を識別する識別器を学習することになる。各局所領域をステップS401で定めた要素識別器で65536通りのいずれか(リーフ)に割り振る。そして、各局所領域がどのリーフに割り振られたか(リーフ情報)を記録しておく。以上の作業をFern型識別器ごとに行い、50個のFern型識別器を学習し、この50個のFern型識別器を識別器保持部310に保持しておく。
次に、識別処理における各工程の具体的な処理内容を説明する。
まず、ステップS501では、図10で示したような対象物が多数存在する画像が入力される。この画像を撮像部301から入力してもよく、予め取得されている画像を外部装置から入力してもよい。
次に、ステップS502では、識別器保持部310に保持されているFern型識別器を用いて各対象物の位置および姿勢を識別する。先に説明したとおり、図10に示すように画像をスキャンして、各局所領域の識別結果を投票空間に投票する。そして、投票空間のなかで最大投票数をもつ(Xmax,Ymax,IDmax)を検出することによって識別を行う。これにより、(Xmax,Ymax)の位置に対象物がIDmaxに登録されている姿勢で存在することになる。よって、画像中の(Xmax,Ymax)の位置IDmaxに登録されている姿勢および面内回転角で対象物が存在していることが認識できる。
本実施形態においてはFern型識別器を用いて説明したが、他にもサポートベクターマシーン(SVM)やKNearestNeighborなど各局所領域を識別できるものなら何でもよい。
以上のように本実施形態によれば、識別器を学習する際に登録する局所領域を予め設定された特徴量と局所領域の選択条件とに合わせて、適切に選択することによって対象物を識別する精度を向上させることができる。
(第2の実施形態)
本実施形態では、予め設定された特徴量と局所領域の選択条件に合わせて局所領域を選択した後、選択された局所領域に基づいて、少なくとも特徴量もしくは局所領域を選択する条件のいずれかを変更する。そして、識別器に登録する局所領域を再度選択して識別器を再学習する。
図15は、本実施形態における対象物識別装置1500の機能構成例を示すブロック図である。本実施形態に係る対象物識別装置1500は、図3に示した構成に加えて、条件再設定部1501と局所領域再選択部1502とが具備されている。これらの構成の詳細な説明については後述する。なお、その他の構成については、図3と同様であるため、説明は省略する。
図16は、本実施形態において、識別器を学習する処理手順の一例を示すフローチャートである。なお、学習された識別器を用いて対象物を識別する処理手順については、図5と同様であるため、説明は省略する。
まず、ステップS401〜S403については、それぞれ図4のステップS401〜S403の処理と同様である。
次に、ステップS1601おいて、ステップS403において設定された局所領域に基づいて局所領域を再度設定するべきか否かを判定する。なお、この判定方法については後述する。この判定の結果、局所領域を再度設定すべきである場合にはステップS1602へ進み、設定しなくてもよい場合にはステップS404に進む。ステップS404においては、図4のステップS404と同様である。
ステップS1602においては、条件再設定部1501は、特徴量もしくは局所領域の選択条件を再設定する。そして、ステップS1603において、局所領域再選択部1502は、ステップS1602において設定された特徴量もしくは局所領域の選択条件に基づいて局所領域を再選択し、ステップS1601に戻る。
次に、ステップS1601における判定処理の詳細について説明する。例えば、局所領域の選択条件としてフォアグラウンド率を設定した場合に、フォアグラウンド率を満たす局所領域の数がある姿勢で多く取得できないことがある。また、フォアグラウンド率を高くすると局所領域の位置が部品の中央部分に集中する傾向が強まることがある。対象物がクラッタな状況やオクルージョンされている状況でも高精度に対象物を識別するためには、局所領域は対象物画像に対して多くかつ分散して配置されている方がいい。そこで本実施形態では、予め各姿勢を識別するのに必要な局所領域数を定めておいて、所定数を満たさない場合は再設定が必要であると判定する。もしくは局所領域の設定された位置の分布(分散)を調べて、そのばらつき具合から再設定が必要であるか否かを判定する。
位置の分散は局所領域をNとして、各局所領域の位置をXi(i=1、2、・・・N)とすると、分散Vは以下の式(8)により表すことができる。
Figure 0006128910
このように、分散Vが所定の閾値より小さい場合には再設定する必要があると判定する。
再設定が必要であると判定された場合には、特徴量、もしくは局所領域の選択条件を再設定する。特徴量を変更する場合に、例えば図12に示すような参照点を決定する場合にはより内側の領域から選択する。また、局所領域の選択条件を再設定する場合には、フォアグラウンド率を小さめに設定する。例えば、ステップS402で設定されたフォアグラウンド率をFとして、再設定されたフォアグラウンド率をF´とすれば、以下の式(9)の関係となる。
F´=αF ・・・(9)
ここで、αはスカラーで定義され、0.9などの値でよい。
このようにして再設定した特徴量、選択条件に基づいて局所領域を再選択する。そして、局所領域を再度設定するべきか否かを判定し、必要がなければ局所領域を識別する識別器を学習する。他の処理については第1の実施形態と同様である。以上のように本実施形態によれば、識別器を学習する際に登録する各対象物クラスの局所領域を途中で再設定して適切に選択することにより対象物を識別する精度をより向上させることができる。
(第3の実施形態)
本実施形態では、予め設定された特徴量と局所領域の選択条件とに合わせて各クラスの局所領域を選択した後、選択された局所領域に基づいて、識別不可能なクラスを識別対象から除外して残りの対象物クラスを識別する識別器を学習する。このように識別不可能のクラスを予め学習対象クラスから除外することにより残りのクラスの識別精度を向上させる。
図17は、本実施形態における対象物識別装置1700の機能構成例を示すブロック図である。本実施形態に係る対象物識別装置1700は、図3に示した構成に加えてチェック部1701、及び識別クラス削除部1702が具備されている。これらの構成の詳細な説明については後述する。なお、その他の構成については、図3と同様であるため、説明は省略する。
図18は、本実施形態において、識別器を学習する処理手順の一例を示すフローチャートである。なお、学習された識別器を用いて対象物を識別する処理手順については、図5と同様であるため、説明は省略する。
まず、ステップS401〜S403については、それぞれ図4のステップS401〜S403の処理と同様である。
次に、ステップS1801において、チェック部1701は、各対象物クラスで選択された局所領域をチェックし、それぞれのクラスについてそのクラスが識別可能か否かを判別する。判別方法としては、第2の実施形態と同様に各対象物のクラスで選択された局所領域の数もしくはばらつき具合をチェックする。ばらつき具合のチェック方法は第2の実施形態と同様に分散などを用いて調べればよい。
次に、ステップS1802において、識別クラス削除部1702は、ステップS1801で識別不可能だと判別されたクラスの局所領域を学習時に登録する局所領域から削除する。次に、ステップS404においては、図4のステップS404と同様である。
以上のように本実施形態によれば、識別器を学習する際に登録する各対象物クラスの局所領域に応じて各対象物クラスが識別可能かどうかを判別し、対象物クラス数を限定することにより、識別精度をより向上させることができる。
(第4の実施形態)
本実施形態では、予め設定された特徴量と局所領域の選択条件とに合わせて局所領域を選択した後、各対象物クラスで選択された局所領域に基づいて、各局所領域の識別時の重みを決定する。各対象物クラスの局所領域の重みを決定することにより、十分に局所領域を選択することができなかった対象物クラスも識別できるようにし、全体の識別精度を向上させる。
図19は、本実施形態における対象物識別装置1900の機能構成例を示すブロック図である。本実施形態に係る対象物識別装置1900は、図3に示した構成に加えて局所領域重み決定部1901が具備されている。この構成の詳細な説明については後述する。なお、その他の構成については、図3と同様であるため、説明は省略する。
図20は、本実施形態において、識別器を学習する処理手順の一例を示すフローチャートである。なお、学習された識別器を用いて対象物を識別する処理手順については、図5と同様であるため、説明は省略する。
まず、ステップS401〜S403については、それぞれ図4のステップS401〜S403の処理と同様である。
次に、ステップS2001において、局所領域重み決定部1901は、設定された各対象物クラスの局所領域に基づいて各局所領域の識別時の重みを決定する。識別時にはその重みを利用して統合処理を行って識別する。決定された重みは学習された識別器とともに識別器保持部310に保持される。識別時の重みの決定方法については、各対象物クラスで設定された局所領域数に応じて、1/(局所領域数)と設定してもよいし、ばらつき具合から1/(ばらつき具合)と設定してもよい。
なお、識別時の処理内容は第1の実施形態と同様であるが、投票時にステップS2001で決定された重みを付けて投票する。クラス数をKとおいて、各局所領域の重みをWk(k=1、2、・・・・K)とした場合、投票される位置(X,Y,ID)は、以下の式(10)により重み付けされる。
(X,Y,ID)=(X,Y,ID)+Wk ・・・(10)
また、識別結果がSVMなどのようにそのIDらしさを示すスコアSが出力される場合には、以下の式(11)により重み付けされる。
(X,Y,ID)=(X,Y,ID)+WkS ・・・(11)
以上のように本実施形態によれば、識別器を学習する際に登録する各対象物クラスの局所領域に応じて各対象物クラスを識別する際の局所領域の重みを決定する。そして、対象物クラスすべての識別能力を一定にすることにより識別をロバストにすることができる。
(第5の実施形態)
本実施形態では、第1の実施形態に係る識別器の学習方法で学習された識別器を用いて識別処理を行った後、識別結果に応じて少なくとも特徴量もしくは局所領域の選択条件のいずれかを変更して、識別器に登録する局所領域を再度選択して識別器を再学習する。局所領域の変更方法はクラッタな状況でも高精度に識別するためには、フォアグラウンド率をさらに高くして局所領域を選択するか、選択する局所領域数を増やすことが考えられる。選択する局所領域数を増やすことによって様々な位置で局所領域が取得されるためオクルージョンに強くなり、対象物の識別精度を向上させる。
図21は、本実施形態における対象物識別装置2100の機能構成例を示すブロック図である。本実施形態に係る対象物識別装置2100は、図3に示した構成に加えて、条件再設定部2101と局所領域再選択部2102とが具備されている。これらの構成の詳細な説明については後述する。なお、その他の構成については、図3と同様であるため、説明は省略する。
図22は、本実施形態において、学習された識別器を用いて対象物を識別する処理手順の一例を示すフローチャートである。なお、識別器を学習する処理手順については、図4と同様であるため、説明は省略する。
まず、ステップS501及びS502については、それぞれ図5のステップS501及びS502の処理と同様である。
次に、ステップS2201において、識別部307は、ステップS502の識別結果に基づいて識別器を評価する。識別器の評価方法としては評価データを用意してもよいし、ユーザが判断できるようにしてもよい。また、評価基準を設けてもよく、例えば、山積み対象物をロボットで把持する場合の対象物の位置・姿勢を識別する場合には把持成功率などを評価してもよい。この評価の結果、再設定が必要であると判断した場合はステップS2201に進み、再設定は必要ないと判断した場合は処理を終了する。
ステップS2202においては、条件再設定部2101は、特徴量、局所領域の選択条件、選択する局所領域数のうち少なくとも1つを再設定する。例えば、局所領域の選択条件がフォアグラウンド率である場合は、フォアグラウンド率を少し高めにしてより厳しめに局所領域を選択するようにしてもよい。もしくは局所領域の数を増やすために、フォアグラウンド率を少し低めに設定したり、特徴量もしくは局所領域数を変更したりしてもよい。また、設定方法としては、ユーザの選択に応じて設定できるようにしてもよく、フォアグラウンド率などの場合は予め設定方法を決定しておいて、その中から変更してもよい。また、Fern型識別器などを利用する場合には、いくつかの識別器のみを変更してもよい。
次に、ステップS2203において、局所領域再選択部2102は、ステップS2202で再設定された条件に基づいて局所領域を再選択する。そして、ステップS2204において、識別器学習部305は、ステップS2203で再選択された局所領域を識別する識別器を再学習する。
以上のように本実施形態によれば、識別結果に応じて、再度識別器に登録する局所領域を選択して再学習するようにしたので、識別精度をより向上させることができる。なお、本実施形態では、第1の実施形態の識別器の学習方法によって学習された例について説明したが、第2〜第4の実施形態の何れかの方法によって学習された識別器に適用してもよい。
(その他の実施形態)
また、本発明は、以下の処理(制御)を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
302 特徴量設定部
303 局所領域選択条件設定部
304 局所領域選択部
305 識別器学習部

Claims (14)

  1. 対象物の局所領域を識別する識別器を学習する学習装置であって、
    前記識別器で用いる特徴量と当該特徴量を取得する複数の位置とを設定する特徴量設定手段と、
    前記特徴量設定手段によって設定された特徴量を取得する複数の位置のうち、前記対象物の領域に含まれる位置の割合に基づく所定の選択条件に基づいて前記対象物の局所領域を選択する選択手段と、
    前記特徴量設定手段によって設定された特徴量及び前記選択手段によって選択された局所領域を用いて前記識別器を学習する学習手段とを有することを特徴とする学習装置。
  2. 前記所定の選択条件を設定する選択条件設定手段をさらに有することを特徴とする請求項1に記載の学習装置。
  3. 前記特徴量は、前記局所領域の中で所定の位置で取得される値と他の所定の位置で取得される値とを比較した2値判定の結果であることを特徴とする請求項1又は2に記載の学習装置。
  4. 前記特徴量設定手段は、前記局所領域の中で特徴量を取得する位置をランダムに設定することを特徴とする請求項1又は2に記載の学習装置。
  5. 前記特徴量設定手段は、前記局所領域の中で特徴量を取得する位置の1点を前記局所領域の中心に設定することを特徴とする請求項1又は2に記載の学習装置。
  6. 前記所定の選択条件は、前記特徴量設定手段によって設定された特徴量を取得する複数の位置の条件であることを特徴とする請求項1乃至5の何れか1項に記載の学習装置。
  7. 前記選択手段によって選択された局所領域に応じて、少なくとも前記特徴量もしくは前記所定の選択条件のいずれかを変更する条件再設定手段をさらに有し、
    前記選択手段は、前記条件再設定手段によって再設定された条件に基づいて前記対象物の局所領域を再度選択し、
    前記学習手段は、前記選択手段によって再度選択された局所領域を用いて前記識別器を学習することを特徴とする請求項1乃至の何れか1項に記載の学習装置。
  8. 前記選択手段によって選択された局所領域に応じて、前記対象物のクラスが識別可能か否かを判別する判別手段をさらに有し、
    前記学習手段は、前記判別手段によって識別が不可能と判別された局所領域を除いた局所領域を用いて前記識別器を学習することを特徴とする請求項1乃至の何れか1項に記載の学習装置。
  9. 前記選択手段によって選択された局所領域に基づいて、各局所領域の識別時の重みを決定する重み決定手段をさらに有することを特徴とする請求項1乃至の何れか1項に記載の学習装置。
  10. 前記対象物が撮像された画像を入力する画像入力手段と、
    前記学習手段によって学習された識別器を用いて、前記画像入力手段によって入力された画像における前記対象物のクラスを識別する識別手段とをさらに有することを特徴とする請求項1乃至の何れか1項に記載の学習装置。
  11. 前記対象物が撮像された画像を入力する画像入力手段と、
    前記学習手段によって学習された識別器を用いて、前記重み決定手段によって決定された重みに応じて前記画像入力手段によって入力された画像における前記対象物のクラスを識別する識別手段とをさらに有することを特徴とする請求項に記載の学習装置。
  12. 前記対象物が撮像された画像を入力する画像入力手段と、
    前記学習手段によって学習された識別器を用いて、前記画像入力手段によって入力された画像における前記対象物のクラスを識別する識別手段と、
    前記識別手段による識別結果に応じて、少なくとも前記特徴量もしくは前記所定の選択条件のいずれかを変更する条件再設定手段とをさらに有し、
    前記選択手段は、前記条件再設定手段によって再設定された条件に基づいて前記対象物の局所領域を再度選択し、
    前記学習手段は、前記選択手段によって再度選択された局所領域を用いて前記識別器を再学習することを特徴とする請求項1乃至の何れか1項に記載の学習装置。
  13. 対象物の局所領域を識別する識別器を学習する学習方法であって、
    前記識別器で用いる特徴量と当該特徴量を取得する複数の位置とを設定する特徴量設定工程と、
    前記特徴量設定工程において設定された特徴量を取得する複数の位置のうち、前記対象物の領域に含まれる位置の割合に基づく所定の選択条件に基づいて前記対象物の局所領域を選択する選択工程と、
    前記特徴量設定工程において設定された特徴量及び前記選択工程において選択された局所領域を用いて前記識別器を学習する学習工程とを有することを特徴とする学習方法。
  14. 対象物の局所領域を識別する識別器を学習する学習装置を制御するためのプログラムであって、
    前記識別器で用いる特徴量と当該特徴量を取得する複数の位置とを設定する特徴量設定工程と、
    前記特徴量設定工程において設定された特徴量を取得する複数の位置のうち、前記対象物の領域に含まれる位置の割合に基づく所定の選択条件に基づいて前記対象物の局所領域を選択する選択工程と、
    前記特徴量設定工程において設定された特徴量及び前記選択工程において選択された局所領域を用いて前記識別器を学習する学習工程とをコンピュータに実行させることを特徴とするプログラム。
JP2013058567A 2013-03-21 2013-03-21 学習装置、学習方法及びプログラム Expired - Fee Related JP6128910B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013058567A JP6128910B2 (ja) 2013-03-21 2013-03-21 学習装置、学習方法及びプログラム
US14/218,074 US9489593B2 (en) 2013-03-21 2014-03-18 Information processing apparatus and training method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013058567A JP6128910B2 (ja) 2013-03-21 2013-03-21 学習装置、学習方法及びプログラム

Publications (3)

Publication Number Publication Date
JP2014182754A JP2014182754A (ja) 2014-09-29
JP2014182754A5 JP2014182754A5 (ja) 2016-05-12
JP6128910B2 true JP6128910B2 (ja) 2017-05-17

Family

ID=51569184

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013058567A Expired - Fee Related JP6128910B2 (ja) 2013-03-21 2013-03-21 学習装置、学習方法及びプログラム

Country Status (2)

Country Link
US (1) US9489593B2 (ja)
JP (1) JP6128910B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6128910B2 (ja) * 2013-03-21 2017-05-17 キヤノン株式会社 学習装置、学習方法及びプログラム
US20150103184A1 (en) * 2013-10-15 2015-04-16 Nvidia Corporation Method and system for visual tracking of a subject for automatic metering using a mobile device
JP6203077B2 (ja) * 2014-02-21 2017-09-27 株式会社東芝 学習装置、密度計測装置、学習方法、学習プログラム、及び密度計測システム
RU2634225C1 (ru) * 2016-06-20 2017-10-24 Общество с ограниченной ответственностью "САТЕЛЛИТ ИННОВАЦИЯ" (ООО "САТЕЛЛИТ") Способы и системы поиска объекта в видеопотоке
JP7278088B2 (ja) * 2019-01-31 2023-05-19 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
EP3928247A1 (en) * 2019-02-22 2021-12-29 Google LLC Memory-guided video object detection
CN111127548B (zh) * 2019-12-25 2023-11-24 深圳市商汤科技有限公司 抓取位置检测模型训练方法、抓取位置检测方法及装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4750444B2 (ja) * 2005-03-24 2011-08-17 株式会社日立ハイテクノロジーズ 外観検査方法及びその装置
US8103087B2 (en) * 2006-01-20 2012-01-24 Hitachi High-Technologies Corporation Fault inspection method
JP5028014B2 (ja) * 2006-02-08 2012-09-19 株式会社日立ハイテクノロジーズ パターン検査方法及びその装置
JP4988408B2 (ja) 2007-04-09 2012-08-01 株式会社デンソー 画像認識装置
WO2008129881A1 (ja) * 2007-04-18 2008-10-30 The University Of Tokyo 特徴量選択方法、特徴量選択装置、画像分類方法、画像分類装置、コンピュータプログラム、及び記録媒体
JP4852086B2 (ja) 2008-10-06 2012-01-11 株式会社東芝 パターン認識装置
JP5537282B2 (ja) * 2009-09-28 2014-07-02 株式会社日立ハイテクノロジーズ 欠陥検査装置および欠陥検査方法
US9053393B2 (en) 2010-03-19 2015-06-09 Canon Kabushiki Kaisha Learning method and apparatus for pattern recognition
CN102542303A (zh) * 2010-12-24 2012-07-04 富士通株式会社 生成用于检测图像中的特定对象的分类器的装置和方法
US9600745B2 (en) * 2011-03-17 2017-03-21 Nec Corporation Image recognition system, image recognition method, and non-transitory computer readable medium storing image recognition program
JP5755046B2 (ja) * 2011-06-22 2015-07-29 キヤノン株式会社 画像認識装置、画像認識方法及びプログラム
JP5891409B2 (ja) * 2012-01-12 2016-03-23 パナソニックIpマネジメント株式会社 特徴抽出装置、特徴抽出方法、および特徴抽出プログラム
JP5439543B2 (ja) * 2012-06-14 2014-03-12 株式会社日立製作所 欠陥分類方法及びその装置
JP5802175B2 (ja) * 2012-08-02 2015-10-28 株式会社日立製作所 画像処理装置
JP6128910B2 (ja) * 2013-03-21 2017-05-17 キヤノン株式会社 学習装置、学習方法及びプログラム
US9367766B2 (en) * 2014-07-22 2016-06-14 Adobe Systems Incorporated Text line detection in images

Also Published As

Publication number Publication date
US9489593B2 (en) 2016-11-08
JP2014182754A (ja) 2014-09-29
US20140286568A1 (en) 2014-09-25

Similar Documents

Publication Publication Date Title
JP6128910B2 (ja) 学習装置、学習方法及びプログラム
JP6838005B2 (ja) 指紋に基づく認証のための装置及びコンピュータ実装方法
JP4883649B2 (ja) 画像認識方法、画像認識装置および画像認識プログラム
KR101130817B1 (ko) 얼굴 인식 방법, 장치, 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체
CN109284675B (zh) 一种用户的识别方法、装置及设备
Donoser et al. Discriminative feature-to-point matching in image-based localization
JP5588395B2 (ja) 画像をオブジェクト及びそのパーツに関して効率的に解釈するためのシステムと方法
JP5929896B2 (ja) 画像認識システム、画像認識方法および画像認識用プログラム
JP6211407B2 (ja) 画像検索システム、画像検索装置、検索サーバ装置、画像検索方法、及び画像検索プログラム
US9147130B2 (en) Information processing method, information processing apparatus, and recording medium for identifying a class of an object by using a plurality of discriminators
JP5963609B2 (ja) 画像処理装置、画像処理方法
JPWO2010101187A1 (ja) 画像データベースの作成方法、作成プログラム及び画像検索方法
Psyllos et al. M-SIFT: A new method for Vehicle Logo Recognition
EP2443612A1 (en) Image recognition method and image recognition apparatus
Guo A KNN classifier for face recognition
CN108596079B (zh) 手势识别方法、装置及电子设备
KR102286571B1 (ko) 영상에서 다수의 객체를 인식하는 방법
JP3914864B2 (ja) パターン認識装置及びその方法
JPWO2020050413A1 (ja) 認証用顔画像候補判定装置、認証用顔画像候補判定方法、プログラム、および記録媒体
CN111428064B (zh) 小面积指纹图像快速索引方法、装置、设备及存储介质
CN105190689A (zh) 包括基于毗连特征的对象检测和/或双边对称对象分段的图像处理
KR101521136B1 (ko) 얼굴 인식 방법 및 얼굴 인식 장치
JP5791751B2 (ja) 画像認識方法及び画像認識装置
KR101240901B1 (ko) 얼굴 인식 방법, 장치, 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체
KR101306576B1 (ko) 차분 성분을 고려한 조명 변화에 강인한 얼굴 인식 시스템

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160317

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170314

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170411

R151 Written notification of patent or utility model registration

Ref document number: 6128910

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees