JP4883649B2 - 画像認識方法、画像認識装置および画像認識プログラム - Google Patents
画像認識方法、画像認識装置および画像認識プログラム Download PDFInfo
- Publication number
- JP4883649B2 JP4883649B2 JP2008532003A JP2008532003A JP4883649B2 JP 4883649 B2 JP4883649 B2 JP 4883649B2 JP 2008532003 A JP2008532003 A JP 2008532003A JP 2008532003 A JP2008532003 A JP 2008532003A JP 4883649 B2 JP4883649 B2 JP 4883649B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- image
- local
- next stage
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 230
- 239000013598 vector Substances 0.000 claims description 226
- 238000004364 calculation method Methods 0.000 claims description 116
- 238000012545 processing Methods 0.000 claims description 115
- 230000008569 process Effects 0.000 claims description 51
- 230000006870 function Effects 0.000 claims description 13
- 238000004148 unit process Methods 0.000 claims 2
- 238000002474 experimental method Methods 0.000 description 26
- 230000007423 decrease Effects 0.000 description 13
- 238000007796 conventional method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 238000009826 distribution Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000007717 exclusion Effects 0.000 description 4
- 241000282320 Panthera leo Species 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000002902 bimodal effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2115—Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Description
(1)対象物を表す画像が入力画像として与えられたとき、局所記述子の探索により、画像データベース中から前記対象物を含む画像を識別する画像認識方法であって、入力画像からその局所的な特徴を表す複数の局所記述子を導出する工程と、前記画像データベース中の画像から得られる各局所記述子のうち、入力画像の各局所記述子に対して探索を行う対象をそれぞれ限定する限定工程と、前記探索の対象中から入力画像の各局所記述子に近いものを探索し、入力画像の各局所記述子に対する近傍の各局所記述子を特定する探索工程と、近傍の各局所記述子が得られた画像のうち、認識結果とすべき画像を、統計的処理を用いて識別する識別工程とを備え、前記限定工程は、認識結果とすべき画像を識別し得る程度の数に前記探索の対象を限定し、各工程をコンピュータが実行することを特徴とする画像認識方法を提供する。
(2)対象物を表す画像が入力画像として与えられたとき、局所記述子の探索により、画像データベース中から前記対象物を含む画像を識別する装置であって、入力画像からその局所的な特徴を表す複数の局所記述子を導出する特徴導出部と、前記画像データベース中の画像から得られる各局所記述子のうち、入力画像の各局所記述子に対して探索を行う対象をそれぞれ限定する限定部と、前記探索の対象中から入力画像の各局所記述子に近いものを探索し、入力画像の各局所記述子に対する近傍の各局所記述子を特定する探索部と、近傍の各局所記述子が得られた画像のうち、認識結果とすべき画像を、統計的処理を用いて識別する識別部とを備え、前記限定部は、認識結果とすべき画像を識別し得る程度の数に前記探索の対象を限定することを特徴とする画像認識装置を提供する。
(3)対象物を表す画像が入力画像として与えられたとき、局所記述子の探索により、画像データベース中から前記対象物を含む画像を識別する機能をコンピュータを用いて実現するプログラムであって、入力画像からその局所的な特徴を表す複数の局所記述子を導出する特徴導出部と、前記画像データベース中の画像から得られる各局所記述子のうち、入力画像の各局所記述子に対して探索を行う対象をそれぞれ限定する限定部と、前記探索の対象中から入力画像の各局所記述子に近いものを探索し、入力画像の各局所記述子に対する近傍の各局所記述子を特定する探索部と、近傍の各局所記述子が得られた画像のうち、認識結果とすべき画像を、統計的処理を用いて識別する識別部としてコンピュータを機能させ、前記限定部は、認識結果とすべき画像を識別し得る程度の数に前記探索の対象を限定することを特徴とする画像認識プログラムを提供する。
(4)ハッシュ表を用いて体系づけられた画像データベース中から、入力画像に含まれる対象物のパターンに基づいて前記対象物を含む画像を認識する方法であって、前記パターンの局所的な特徴量を表す1以上の特徴ベクトルを抽出する工程と、抽出された特徴ベクトルからハッシュ表のインデックスを算出するインデックス算出工程と、算出されたインデックスで前記ハッシュ表を参照して画像データベース中の候補画像を決定し、決定した候補画像に投票を行う投票工程と、各特徴ベクトルについての投票結果に基づいて認識結果の画像を得る工程とを備え、前記ハッシュ表の作成工程は、画像データベースに登録する各画像から抽出された各特徴ベクトルに対して、ハッシュ表のインデックスを算出し、各特徴ベクトルのうち識別能力の低い特徴ベクトルの除外を行い、残された各特徴ベクトルに対応する画像参照用データを登録する各工程を含むことを特徴とする画像認識方法を提供する。
(5)ハッシュ表を用いて体系づけられた画像データベース中から、入力画像に含まれる対象物のパターンに基づいて前記対象物を含む画像を認識する装置であって、前記パターンの局所的な特徴を表す1以上の特徴ベクトルを抽出する特徴点抽出部と、抽出された特徴ベクトルからハッシュ表のインデックスを算出するインデックス算出部と、算出されたインデックスで前記ハッシュ表を参照して画像データベース中の候補画像を決定し、決定した候補画像に投票を行う投票部と、各特徴ベクトルについての投票結果に基づいて認識結果の画像を得る画像選択部とを備え、前記ハッシュ表の作成工程は、画像データベースに登録する各画像から抽出された各特徴ベクトルに対して、特徴量の変動を考慮してハッシュ表のインデックスを算出し、各特徴ベクトルのうち識別能力の低い特徴ベクトルの除外を行い、残された各特徴ベクトルに対応する画像参照用データを登録する各工程を含むことを特徴とする画像認識装置を提供する。
ここで、特徴ベクトルの除外について、そのアイデアを判り易く説明する。この発明の画像認識方法は、特徴ベクトルを用いて画像を認識するものである。認識の基本は,データベースに登録された特徴ベクトルと入力画像の特徴ベクトルの照合にある。特徴ベクトルは画像の局所的な特徴を表すので、一般に、一つの画像から複数の特徴ベクトルを得る。ところが、データベースに登録された物体(画像)の特徴ベクトルの中には,その物体の特徴をよく表す(識別能力の高い)ものと、そうでない(識別能力の低い)ものがある。物体の特徴をよく表すものとは、その特徴ベクトルがあれば、入力画像はその物体であるといえるような、十分な証拠となる特徴ベクトルである。一方,そうでない特徴ベクトルというのは、様々な物体の画像に表れるため、その特徴ベクトルがあるからといって、どの物体であるのかの判断には使えないものである。特徴ベクトルの除外とは、後者、すなわち、証拠となりえない特徴ベクトルを辞書から削除する処理をいう。より具体的には、
i)どれほど似た特徴ベクトルが多いのかを計算し、
ii)一定の閾値を超えたものを不要とする
という流れで処理を行い、識別能力の低い特徴ベクトルを削除する。
前記(1)の画像認識方法において、前記限定工程は、認識結果とすべき画像が識別されるように、入力画像に応じて探索対象を限定する程度を異ならせ得るものであってもよい。即ち、近似の程度を入力画像に応じて異ならせてもよい。このようにすれば、認識に用いる近似の程度を画像に応じて変更することによって処理時間を短縮することができる。
また、認識結果とすべき画像が識別できなかったとき、前記限定工程は、探索対象を限定する程度を緩め、かつ、先に探索対象とされたものを除外して新たな探索対象を決定する処理をさらに行い、決定された探索対象について探索工程および識別工程を実行するようにしてもよい。このようにすれば、近似の程度を変えて限定工程、探索工程および識別工程を多段階で実行した場合であっても、各段階で探索対象となったものを一度に探索した場合に比べてあまり遜色のない処理時間で認識を行うことができる。
さらに、検索対象を限定する程度を段階的に緩めて前記限定工程、探索工程および識別工程を繰り返しても認識結果とすべき画像が識別できないとき、その局所記述子についての探索結果をリジェクトするしてもよい。このようにすれば、リジェクトを行わない場合に比べて誤認識率を抑制することができる。
さらに、各局所記述子はベクトルとして表現され、特徴量の変動を考慮してハッシュ表のインデックス値を算出する処理は、各局所記述子の要素を離散化して得られる離散値に誤差の範囲を含めてインデックス値を算出する処理であり、前記誤差の範囲は、前記変動に応じて決定されるものであってもよい。即ち、インデックスを算出する際、要素の値と変動の推定値から算出した値の範囲が、離散化に用いる複数の区間にまたがる場合、各区間に対応する離散値を用いて複数のインデックスを算出するようにしてもよい。
ハッシュ表は、所定手順に従って局所記述子の要素の値から所定の算出手順で離散値であるインデックス値を算出するが、特徴ベクトルの要素の値に変動があると、異なる離散値が算出されてしまう可能性が高いといえる。特徴ベクトルの各要素は、所定の閾値で離散化された離散値である。そこで、特徴ベクトルの各要素の値を中心とする変動の推定区間が離散化の閾値を超えた複数の区間にまたがる場合、各区間に対応する離散値を要素の値として複数のインデックスを算出する。このようにすれば、上記変動に対する認識率の低下を抑制することができる。換言すれば、特徴ベクトルのある要素が離散化の閾値に近い場合、閾値をまたぐ可能性も考慮してインデックスを計算することによって、認識率を確保することができる。
また、前記探索工程は、入力画像の各局所記述子とそれに対応する類に属するハッシュ表中の各局所記述子との間の距離計算を行い、所定距離内または最短距離にある局所記述子を特定する工程であってもよい。
さらに、この発明の好ましい態様について説明する。
例えば、画像データベース中の対象物のパターンが、入力画像と異なる角度から対象物をみたパターンである(変動がある)場合、認識されるべき画像と入力画像との間で対応関係にある特徴ベクトルの要素の値は変化する。
このようにすれば、特徴ベクトルの距離計算の回数をインデックスに登録されたものだけに絞り込んで距離計算の回数を減らすことができる。
ここで示した種々の好ましい態様は、それら複数を組み合わせることもできる。
11 特徴点抽出部
13 インデックス算出部
15、35 画像データベース
16 暫定最近傍データベース
17、37 ハッシュ表
19 投票部
21 投票テーブル
23 画像選択部
24 信頼性判定部
38 特徴点照合部
次に、前記識別器のより詳細な構成について説明する。
1. 構成と要件
一画像を複数の特徴ベクトルで表現し、特徴ベクトルの近似最近傍探索と投票によって認識する場合、性能の限界は近似を行わない場合の認識率である。近似を行えばそれだけ高速化が実現できるが、一般に認識率は低下する。先に述べたように、このような近似の程度と認識率の関係は、認識対象の画像によって異なるため、認識率を保ちつつ処理時間を短縮するためには、近似の程度を適応的に調整する必要がある。
処理効率を保ちつつ複数の識別器を利用する具体的な手法としては、近似最近傍探索に基づく識別器を多段階に縦列接続する構成が考えられる。図18は、識別器を多段階に縦列接続した構成を示すブロック図である。
<1> 認識処理打ち切りの判定方法
<2>「難しい」画像に対しても処理効率を保つ方法
の2点である。<1>については、少ない計算量で、なるべく正確に判定することが望まれる。<2>は、後段まで認識処理を繰り返す画像についても、処理効率を低下させないための方策である。理想的には、多段階化した識別器でs段まで処理が進んだ場合の計算量が、s段目と同じ近似の程度を持つ識別器を単独で使った場合と同等であればよい。以下、各々について述べる。
認識誤りを引き起こす画像には、そもそも得票数が少ない、得票数がある程度得られる場合でも第2位の候補と得票数に開きが殆どない、という性質がある。これらの点に着目すると、信頼性判定部の処理として,得票数を用いた次のような簡便な判定方法が考えられる。1位の得票数をV1、2位の得票数をV2とすると、V1>t, rV1>V2を同時に満たすならば、処理を打ち切って1位得票の画像を回答とする。ここで、tは得票数の閾値、rは1位と2位の得票数の比の閾値である。なお、最終段については、上式にかかわらず得票数最大の画像を認識結果とする場合と、上式を満たさない場合にはリジェクトとする場合の2通りがある。
近似の程度が異なるN個の近似最近傍探索器1,…,N(以後、単に探索器と呼ぶ)を考える。近似の程度は、探索器 (s-1)の方が探索器 sよりも強いとする。探索器 sを用いて、特徴ベクトルqiに対して近似最近傍探索を行った結果、距離計算の対象として得られる特徴ベクトルの集合をPi (S)とする。近似最近傍探索では、通常、近似の程度が強いほど、距離計算の対象となる特徴ベクトル数が少ないという性質がある。すなわち、すべてのiとsに対して|Pi (S)|≧|Pi (S-1)|が成り立つ。
定義 1. 単調性 すべてのiとsについて、
Pi (S)⊇Pi (S-1) (1)
が成り立つとき、近似最近傍探索器には単調性があるという。
定義 2. 差分検索性 近似最近傍探索器が差集合
Pi (S)−Pi (S-1) (2)
を効率的に求められるとき、差分検索性があるという。
なお、図24で符号10が付された枠内のブロックは、多段階識別器を構成する各段の識別器の詳細な構成を示す。また、図23、24の信頼性判定部24は、図15、16の画像選択部23の機能を包含している。信頼性判定部24は、s段目までの投票結果で十分な信頼性が得られた場合、認識結果とすべき画像を決定する(画像選択部23の機能に対応)。しかし、十分な信頼性が得られなかった場合は、さらに次の段(s+1)段目に進むべきであると判定する。最終段(N段目)まで進んでも十分な信頼性が得られなかった場合はその結果をリジェクトすると判定する。
識別器として、以下の概念に基づく手法を提供する。この実施形態では、局所記述子としてPCA-SIFTを用いる。PCA-SIFTを用いる場合の最近傍探索手法として、発明者らは、従来のANNやLSHよりも高速な手法をこの発明の一側面として提案する。発明者らの最近傍探索手法は、後述するように単調性ならびに差分検索性を持つため、多段階化にも極めて好適である。そこで、多段階化の実施形態においては、発明者らの手法を識別器として適用した構成について説明する。
高速化の一つは、特徴ベクトルの距離計算の回数を減らす方法である。具体的には、近傍に多数の特徴ベクトルがあって、多くの距離計算が避けられないような場合、そのような特徴ベクトルを破棄することによって高速化を図る。以下、この手法を「距離計算あり」の手法という。もう一つは、距離計算を一切行わない手法である。処理としてはハッシュ表を引いて投票することだけを行う。以下、この手法を「距離計算なし」の手法という。
また、この実施形態によれば、ANNやLSHという従来の近似最近傍探索法を用いる場合と比べて、同じ認識率を達成するために必要な計算時間が短くてよい。後述する実験例では、計算時間が、従来技術の1/2から1/3に短縮された。また、距離計算なしの手法は、メモリの使用量が少ないため、スケーラビリティという点でも優れている。
図15および図16は、この発明の画像認識装置の構成例を示すブロック図である。図15は、距離計算なしの手法に対応するブロック図であり、図16は、距離計算ありの方法に対応するブロック図である。この発明の画像認識方法は、例えば、前記画像認識装置上で実行される。画像認識装置のハードウェアは、例えば、CPUと、CPUが実行する処理手順を示すプログラムを格納したハードディスク装置などの記憶装置、CPUにワークエリアを提供するRAM、データを入出力する入出力回路などから構成される。より具体的には、例えば、上記構成を有するパーソナルコンピュータであってもよい。あるいは、異なる態様として、機器組み込み型の装置として、大規模集積回路(LSI)とハードディスク装置およびそれらの処理を制御するマイクロコンピュータから構成されてもよい。
インデックス算出部13は、特徴ベクトルから所定の算出方法でハッシュ表のインデックスを算出するブロックである。画像データベース15には、画像IDが付された複数の画像が登録されている。また、画像データベース15は、画像を参照するためのハッシュ表17を有する。
画像選択部23は、得票テーブル21を参照し、最大得票数を得た画像を選択するブロックである。
なお、図15の画像認識装置では、参照されたインデックスに対して登録された全ての画像IDに投票を行うので、特徴点照合部38に対応するブロックは存在しない。
本実施形態で利用する特徴ベクトルについて述べる。
1. SIFT
SIFT (Scale-Invariant Feature Transform)とは、Loweによって提案された特徴点とそれに付随する特徴ベクトルの抽出法である(例えば、D.G. Lowe, "Distinctive image features from scale-invariant keypoints," International Journal of Computer Vision, vol.60, no.2, pp.91-110, 2004.参照)。その名が示す通り、画像の拡大縮小、回転や視点のずれに対して、ロバストであるという特徴を持つ。従来は処理時間が問題視されてきたが、GPU(Graphical Processing Unit)の利用によって、高速な処理が可能となりつつある。
Keらは、SIFTの特徴ベクトルに対して、主成分分析(PCA)を適用することにより、SIFTの安定性や識別性を向上させるPCA-SIFTを提案している(例えば、Y.Ke and R.Sukthankar, Pca-sift: A more distinctive representation for local image descriptors, CVPR2004, Vol.2, pp.506-513, 2004.参照)。本実施形態では、このPCA-SIFTを画像の局所記述子として利用する。PCA-SIFTによって得られる特徴ベクトルは、36次元の実数値ベクトルである。即ち、SIFTから得た特徴ベクトルに対して、URL:http://www.cs.cmu.edu/~yke/ pcasift/で提供されているソフトウェアを用いることにより,36次元のベクトルに変換される。
1次元目は双峰性の分布であり、2次元目以降は単峰性の分布を示す。また、次元が大きくなるにつれて分散が小さくなる。平均値はいずれも0の付近である。
1. 投票による物体認識
画像データベースに多数の画像が納められており、各々の画像は1つの物体を表すものとする。認識対象の画像(以下、検索質問と呼ぶ)が与えられたとき、物体認識のタスクを、検索質問に最もマッチする画像をデータベースから検索することと定義する。
非特許文献3に挙げたANN(Approximate Nearest Neighbor)は、木構造を用いて近似最近傍探索を高速に行う手法である。木のノードは、特徴空間を分割したhyperrectangle(以後、セルと呼ぶ)に対応しており、葉ノードには特徴ベクトルも対応つけられている。
非特許文献4に挙げたLSH(Locality Sensitive Hashing)は、ハッシュ表を用いた近似最近傍探索の手法である。ここでは、実験で用いるE2LSH (Exact Euclidean LSH; 以後単にLSHと呼ぶ)について述べる。
d次元ベクトルp=(x1,…, xd)を考える。LSHでは、一つの特徴ベクトルをL通りのk次元ベクトルに変換し、各々に対応するL個のハッシュ表に登録する。検索時には、検索質問の特徴ベクトルqを用いて、全てのハッシュ表を検索し、得られた特徴ベクトルp1,…, psの中からqとのユークリッド距離が最小のものを結果とする。このように複数のハッシュを用いることによって、良い近似最近傍の特徴ベクトルが安定的に求められる。
LSHでは、i=1,…,kのk個の異なるai,tiを用いてk次元ベクトルとすることにより、ユークリッド距離の離れたvが同じベクトルとならないようにしている。一方で、L個のgjを用いることにより、ユークリッド距離の近いvが対象から漏れてしまうことを防いでいる。
以上が、従来技術を代表するANNならびにLSHの説明である。次に、この発明の手法について説明する。
1. 考え方
物体の局所的な特徴を捉えた特徴ベクトルを用いて、投票処理によって物体を認識する場合、検索質問の特徴ベクトルに対して、必ずしも最近傍の特徴ベクトルをデータベースから発見する必要はなく、特徴ベクトルに付与された画像のラベルが正解のものであればよい。さらに、認識結果が投票によって決定されるため、正解の得票数が逆転しなければ、誤った票が他の画像に入っても問題は生じない。このような特性を活かして、本発明では、大幅な近似を施すことにより、ANNやLSHを用いる場合と比べて高速な処理を実現する。
まず、本発明の2通りの手法に共通のデータ登録について述べる。本発明の手法と同様にハッシュ表を用いるLSHでは、ハッシュ表の数が多くなると大量のメモリを消費する。
そこで本実施形態では、メモリ量を削減するため、ハッシュ表を1つだけ使うこととする。
特徴ベクトルをハッシュ表に登録する方法は次のとおりである。PCA-SIFTによって得られた36次元の実数値ベクトルpの第1次元から第d次元までをとり、
特に、2値で離散化する場合(2進数で表現する場合)には、閾値T0=0を用いて、
以上の処理を、データベースに登録する全ての特徴ベクトルに対して施すことにより、データの登録は完了する。
次に距離計算を用いる検索について述べる。本実施形態では、検索質問Qから得た各特徴ベクトルqに対して、上記のハッシュ表から特徴ベクトルを検索する。得られた特徴ベクトルの集合をPとすると、次にPの中からqの最近傍となる特徴ベクトルp*を求める。
そして、2つの特徴ベクトルの距離dist(q,p*)が
本実施形態では、値の変動幅eをパラメータとして、変動への対処を施す。具体的には、q=(x1,…, xd)とし、離散化のための閾値をTi(i=0,1,…,z)とするとき、区間
ただし、このような「様々な可能性を試す」という処理を制限なく導入すると、膨大な計算時間が必要となってしまう。そこで本実施形態では、処理の対象となる次元数bをあまり大きくない値に留めることとする。なお、3値以上に離散化した場合、必ずしも処理対象の次元の可能な全ての離散値をインデックスの計算に用いる必要はない。例えば、図17においてインデックス計算に用いる離散値をランダムに選び、1と2のみを用いる処理であってもよい。
特に特徴ベクトルの各次元の値を2値に離散化する場合には、各次元qjの値が
なお、このような変動への対処は、検索時ではなく登録時に行うことも可能である。具体的には、登録の際に同様にビットベクトルを2b個作成し、ハッシュ表に登録する。こうすると、検索時に複数のビットベクトルを用いてハッシュ表にアクセスする必要がなくなるため、処理時間の短縮が期待できる。しかしながら、多数の特徴ベクトルを登録するため、メモリへの負担は大きくなる。予備実験の結果、処理時間には大きな差がなく、メモリへの負担が目立ったため、本実施形態では、検索時に変動に対処することとした。
距離を用いない方法では、検索質問の特徴ベクトルqに対して上記のような距離計算を施して近似最近傍を求めるのではなく、ハッシュ表から得た特徴ベクトルの集合Pに属する全ての特徴ベクトル
発明者らの手法のパラメータはb,c,d,eの4つである。この実施形態では、このうちbを変更することで近似の程度を調整する。具体的には、第s段ではb=s-1とした識別器を用いる。発明者らの手法は、bの増加に伴ってハッシュ表のアクセスに用いるインデックスが増加するだけである。そのため、単調性だけではなく差分探索性も満たす。
本発明の手法の有効性を検証するため実験を行った。まず、発明者らの手法を適用した識別器と、従来の手法による識別器との比較実験を説明する。
1. 実験条件
1.1. 画像データベース
最初に、実験に用いる画像について説明する。まず、収集方法の異なるA,B,Cの3種類のデータセットを準備した。図4は、実験に用いた登録画像の一例を示す説明図である。Aは、Googleのイメージ検索を用いて収集した3,100枚の画像である。検索キーワードとしては、ポスター、雑誌、表紙などを用いた。図4(a)に例を示す。
検索質問として、次の手順で作成した画像を2,000枚用いた。まず、DB1に含まれる画像の中でA,B,Cから、それぞれ100,200,200枚を無作為に選択し、A4の紙面に印刷した。次に、カメラを用いて印刷した紙面を撮影した。撮影した画像(検索質問画像)の例を図5に示す。図に示す通り、紙面全体が写る配置で、紙面に対するカメラの光軸の角度θを90°, 75°, 60°に変化させた。また、角度を90°として紙面の一部分を撮影した。その結果、1枚の紙面に対して、合計4通りの画像を得た。さらに、撮影した画像を512×341pixelに縮小し、PCA-SIFTにより特徴ベクトルを求めた。その結果、画像一枚あたり平均605個の特徴ベクトルが得られた。なお、印刷にはOKI(登録商標) C5200n(カラーレーザプリンタ)、撮影にはCANON(登録商標) EOS Kiss(登録商標) Digital(630万画素)と付属のレンズEF-S 18-55mm USMを用いた。
実験では、近似最近傍探索の比較手法としてANNとLSHを用い、本発明の手法と比較した。なお、ANNとしてはURL:http://www.cs.umd.edu/~mount/ANN/, LSHとしてはURL:http://www.mit.edu/~andoni/ で提供されているプログラムを用いた。評価基準としては、認識率と処理時間を用いた。認識率は、検索質問の画像が正しく認識できた割合を表す。また、処理時間は、検索質問の画像1枚あたりの検索に要した時間を表す。ただし、特徴ベクトルの抽出に必要な時間は含めていない。なお、実験に用いた計算機は、CPUが AMD Opteron(登録商標) 2.8GHz、メモリが16GBのものである。
なお、実験を通して、本発明の手法では、離散化はすべて2値(U=2)とし、T0=0とした。また、距離計算ありの手法での距離の最大値の閾値dmaxは3,000に固定した。
まず、DB3を用いて各手法のパラメータと認識率、処理速度の関係について述べる。
2.1. ANN
ANNを用いて、許容誤差εを2から100まで変化させたとき認識率および処理時間の実験結果を図6に示す。εの増加に伴って、認識率、処理時間が減少していることが分かる。
εが2から10程度までは、処理時間の減少に比べ、認識率の減少は緩やかである。
図7に、LSHを用いて変換後のベクトルの次元数kとハッシュ関数の数Lを変化させたときの認識率および処理時間の実験結果を示す。まず、Lの増加に伴って、認識率、処理時間が増加していることが分かる。Lを更に増加させると、認識率を向上させることができると考えられるが、メモリ不足により実行できなかった。また、図示されているもの以外にも種々のkについて試したところ、kを減少させると、認識率は改善するものの、処理時間が増大することが分かった。この理由は、kが小さいと、距離計算の対象となる特徴ベクトルの数が増加するためであると考えられる。
距離計算ありの本発明の手法を用いて、衝突の閾値cと認識率、処理時間の関係について調べた。このとき、ハッシュ表のサイズとしてはHsize=2dとした。e=200, b=7, d=24,26, 28とし、cを変化させたときの認識率および処理時間の実験結果を図8に示す。cが減少するにつれ、処理時間が減少していることが分かる。ただし、cを小さくしすぎると、認識率が低下した。これは、認識に寄与していたものも削除してしまったためと考えられる。一方、cを増加させた場合に、計算時間は増加するものの、認識率が減少することはほとんどなかった。これは、最近傍にはなり得ない特徴ベクトルを検索したとしても、距離計算によって排除可能なためと考えられる。
次に、距離計算なしの本発明の手法を用いて、cと認識率、処理時間の関係について調べた。d=24, 26,28、e=200、b=5とし、cを変化させた結果を図10に示す。d=24, 26, 28の値について、それぞれc=2, 3, 4という小さい値のときに認識率が最大となった。これは、距離計算を用いない手法では、cが大きくなるにつれて、最近傍にはならない特徴ベクトルが多数投票に関与するためと思われる。図8に示した距離計算を用いる場合と好対照であることが分かる。
各手法の特徴を比較するため、パラメータをさまざまに変え、横軸に認識率、縦軸に処理時間を描いたグラフを図12に示す。ANNでパラメータを変化させたものを線で描き、評価の基準とした。右にプロットされているものほど認識率が高く、下にプロットされているものほど処理時間が短い。そのため、右下にプロットされているものほど優れていると言える。LSHは、ほぼANNの線を越えることはなかった。本発明の手法で距離の計算を行うものは、認識率が98%以下の場合は、ANNよりも優れていた。本発明の手法で距離の計算を行わないものは、ほとんどの場合でANNより優れていた。
各種パラメータの代表的な値を用いた認識率と処理時間を表2に示す。
距離計算なしの手法を除く全ての手法では、検索のために元の特徴ベクトルのデータを保持しなければならないため、DB4, DB5のデータについては、メモリ不足で検索を実行できなかった。一方、距離計算を用いない手法は、ハッシュ表に画像IDのみを登録すればよいため、メモリへの負担が少なく、10万画像までの実験を行うことができた。そこで、e=200, d=28とし、bとcを変化させ、登録画像数と認識率、処理時間の関係について調べた。最も認識率のよいものを図14に示す。そのときのbは、DB1から順に5, 6, 5, 6, 5で、cは1, 1, 2, 4, 5であった。登録画像数を10万件に増加させた場合でも、認識率87.3%、処理時間20.6msを得た。θ=60°の場合を除外すると認識率は91.4%となる。
続いて、近似最近傍探索の従来法であるANN、LSHに加え、距離計算ありの手法を用いて1段の識別器を構成し、発明者らの手法を適用した多段階の識別器を用いる場合と比較した。
1. 実験条件
局所記述子としては、PCA-SIFTのサイトで提供されるものを用いた。ハッシュ表のサイズはHsize=2dとした。以下に示す処理時間は、検索質問の画像1枚あたりの認識に要した時間を表す。ただし、特徴ベクトルの抽出に必要な時間は含めない。使用計算機は、実験1と同じ構成のものである。また、この実験では、図23に示す多段階識別器を用いた。
画像データベースの画像は、実験1と同様の出所から収集したが、その数は、Googleのイメージ検索を用いて収集した画像が3,100枚、PCA-SIFTのサイトで公開されている画像が3,450枚、写真共有サイトのflickrにおいてanimal,birthday,foodなどのタグにより収集した画像が3,450枚、合計10,000枚の画像である。
検索質問としては、データベースに対応する画像のあるものとないものの2種類を作成した。前者については、データベースに含まれる画像の中から、収集方法ごとに100,200,200枚の合計500枚を無作為に選択した。後者については、画像データベースには含まれない画像を199枚用意した。次に、これらをA4の用紙に印刷し、カメラを用いて撮影した。実験1と同様、紙面全体が写る配置で、紙面に対するカメラの光軸の角度θを90°,75°,60°に変化させた。また、角度を90°として紙面の一部分を撮影した。その結果、1枚の紙面に対して、合計4通りの画像を得た。さらに、撮影した画像を512×341pixelに縮小し、PCA-SIFTにより特徴ベクトルを求めた。その結果、画像1枚あたり平均612個の特徴ベクトルが得られた。
まず、対応する画像がデータベースにある検索質問のみを用いて、実験を行った。
2.1. 近似最近傍探索の精度と画像の認識率の関係
最初に、予備実験として、画像を認識するために必要な最近傍探索の精度を調べた。具体的には、多段階化なしの手法(ANN,LSH,距離計算ありの手法)について、パラメータをさまざまに変え、近似最近傍探索の精度と画像の認識率の関係を計測した。近似最近傍探索の精度とは、近似最近傍探索によって真の最近傍が求まった割合である。
同様に、距離計算なしの手法を用いて、bと認識率と処理時間の関係について調べた。e=200,c=3,d=28,t=2,r=0.5とし、bを変化させた結果を図21に示す。距離計算なしの手法でも、処理時間を削減できることが分かった。
各手法の特徴を比較するため、パラメータをさまざまに変え、認識率と処理時間の関係を描いたグラフを図22に示す。ANNで許容誤差εを変化させたものを線で描き、評価の基準とした。右にプロットされているものほど認識率が高く、下にプロットされているものほど処理時間が短い。そのため、右下にプロットされているものほど優れているといえる。LSHは、ほぼANNの線を越えることはなかった。距離計算ありの手法では、最大認識率はANNに及ばないものの、認識率が98%以下の場合には、同じ認識率を、ANNに比べて1/10から1/40程度の処理時間で実現できている。提案手法では、多段階化を行うことで、処理時間が距離計算ありの手法の1/5程度にまで削減されている。
次に、リジェクトをする場合の実験結果について述べる。評価尺度を次の様に定める。対応する画像のある検索質問に対しては、認識率C1、誤認識率E1、リジェクト率R1 (C1+E1+R1=1)とする。対応する画像のない検索質問に対しては、誤認識率E2、リジェクト率R2(E2+R2=1)とする。
本発明の範囲には、特許請求の範囲と均等の意味および範囲内でのすべての変更とが含まれることが意図される。
Claims (15)
- 対象物を表す画像が入力画像として与えられたとき、局所記述子の探索により、画像データベース中から前記対象物を含む画像を識別する画像認識方法であって、
入力画像からその部分的特徴をそれぞれ表す複数の局所記述子を導出する工程と、
前記画像データベース中の画像から得られる各局所記述子のうち、入力画像の各局所記述子に対して探索を行う対象をそれぞれ限定する限定工程と、
前記探索の対象中から入力画像の各局所記述子に対応するものを近似最近傍探索の手法を用いて特定する探索工程と、
対応する各局所記述子が得られた画像のうち、認識結果とすべき画像を、投票処理を用いて識別する識別工程とを備え、
認識結果とすべき画像が識別できなかったとき、前記限定工程は、より多くの検索対象を次段階の探索対象として決定し、前記探索工程は、それら次段階の探索対象から対応する各局所記述子を特定し、前記識別工程は、それらの局所記述子に係る画像の投票処理を用いて次段階における識別を行い、かつ、前記限定工程は、(1)次段階の探索対象が以前の段階のいずれの探索対象をも含む単調性および(2)次段階の探索対象のうち、以前の段階で探索対象とされたものについては以前の段階での探索および投票の結果を使用し、以前の段階と次段階の差分の探索対象を次段階における探索および投票の対象とする差分検索性を満たしながらより多くの探索対象を決定し、決定された探索対象について探索工程および識別工程を実行し、
各工程をコンピュータが実行することを特徴とする画像認識方法。 - 認識結果とすべき画像が識別できなかったとき、前記限定工程は、より多くの検索対象を次段階の探索対象とし、かつ、先に探索対象とされたものを除外して新たな探索対象を決定する処理をさらに行い、
決定された探索対象について探索工程および識別工程を実行する請求項1に記載の画像認識方法。 - より多くの検索対象を次段階の探索対象として前記限定工程、探索工程および識別工程を繰り返しても認識結果とすべき画像が識別できないとき、その局所記述子についての探索結果をリジェクトする請求項2に記載の画像認識方法。
- 前記画像データベースは、各画像から導出される各局所記述子をそれから予め定められた計算式により算出されるインデックス値でその局所記述子を分類してなるハッシュ表を含んでなり、
前記限定工程は、特徴量の変動を考慮して入力画像の各局所記述子からインデックス値を算出し、算出されたインデックス値で前記ハッシュ表を参照してその類に属する局所記述子を探索対象とし、
前記識別工程は、探索工程により特定された各局所記述子について、それが得られた画像に投票し、
前記ハッシュ表は、各類について、その類に属する局所記述子の数が閥値を超える場合にその類の局所記述子を探索対象から除外して作成されるものである請求項1〜3の何れか一つに記載の画像認識方法。 - 前記限定工程は、前記ハッシュ表に係る閾値をより大きくすることによってより多くの検索対象を決定する請求項4に記載の画像認識方法。
- 各局所記述子は予め定められた次元数のベクトルとして表現され、
前記限定工程は、インデックス値の算出に用いる前記ベクトルの要素の数をより少なくすることによってより多くの検索対象を決定する請求項4に記載の画像認識方法。 - 各局所記述子は所定の次元数のベクトルとして表現され、
特徴量の変動を考慮してハッシュ表のインデックス値を算出する処理は、各局所記述子を表すベクトルの要素を離散化して得られる離散値に誤差の範囲を含めてインデックス値を算出する処理であり、
前記誤差の範囲は、前記変動に応じて決定されるものである請求項4に記載の画像認識方法。 - 前記限定工程は、前記ベクトルの各要素のうちで誤差の範囲を含めてインデックス値を算出する要素の数をより大きくすることによってより多くの検索対象を決定する請求項7に記載の画像認識方法。
- 前記限定工程は、考慮する前記変動の大きさをより大きくすることによってより多くの検索対象を決定する請求項4または7に記載の画像認識方法。
- 各局所記述子はベクトルとして表現され、
特徴量の変動を考慮してハッシュ表のインデックス値を算出する処理は、各局所記述子の要素を離散化して得られる離散値に誤差の範囲を含めてインデックス値を算出する処理であり、
前記誤差の範囲は、前記変動に応じて決定されるものである請求項4に記載の画像認識方法。 - 前記探索工程は、入力画像の各局所記述子とそれに対応する類に属するハッシュ表中の各局所記述子との間の距離計算を行い、距離が閾値以下であるかまたは最短距離にある局所記述子を特定する工程である請求項4に記載の画像認識方法。
- 前記探索工程は、入力画像の各局所記述子に対応する類に属するハッシュ表中の各局所記述子をいずれも対応する局所記述子とする工程である請求項4に記載の画像認識方法。
- 対象物を表す画像が入力画像として与えられたとき、局所記述子の探索により、画像データベース中から前記対象物を含む画像を識別する装置であって、
入力画像からその部分的特徴をそれぞれ表す複数の局所記述子を導出する特徴導出部と前記画像データベース中の画像から得られる各局所記述子のうち、入力画像の各局所記述子に対して探索を行う対象をそれぞれ限定する限定部と、
前記探索の対象中から入力画像の各局所記述子に対応するものを近似最近傍探索の手法を用いて特定する探索部と、
対応する各局所記述子が得られた画像のうち、認識結果とすべき画像を、投票処理を用いて識別する識別部とを備え、
認識結果とすべき画像が識別できなかったとき、前記限定部は、より多くの検索対象を次段階の探索対象として決定し、前記探索部は、それら次段階の探索対象から対応する各局所記述子を特定し、前記識別部は、それらの局所記述子に係る画像の投票処理を用いて次段階における識別を行い、かつ、前記限定部は、(1)次段階の探索対象が以前の段階のいずれの探索対象をも含む単調性および(2)次段階の探索対象のうち、以前の段階で探索対象とされたものについては以前の段階での探索および投票の結果を使用し、以前の段階と次段階の差分の探索対象を次段階における探索および投票の対象とする差分検索性を満たしながらより多くの探索対象を決定し、決定された探索対象を探索部および識別部が処理することを特徴とする画像認識装置。 - 認識結果とすべき画像が識別できなかったとき、前記限定部は、より多くの検索対象を次段階の探索対象とし、かつ、先に探索対象とされたものを除外して新たな探索対象を決定する処理をさらに行い、
探索部は、決定された探索対象についてさらに対応する各局所記述子を特定し、識別部は、特定された各局所記述子に基づいて認識結果とすべき画像をさらに識別する請求項13に記載の画像認識装置。 - 対象物を表す画像が入力画像として与えられたとき、局所記述子の探索により、画像データベース中から前記対象物を含む画像を識別する機能をコンピュータを用いて実現するプログラムであって、
入力画像からその部分的特徴をそれぞれ表す複数の局所記述子を導出する特徴導出部と、前記画像データベース中の画像から得られる各局所記述子のうち、入力画像の各局所記述子に対して探索を行う対象をそれぞれ限定する限定部と、
前記探索の対象中から入力画像の各局所記述子に対応するものを近似最近傍探索の手法を用いて特定する探索部と、
対応する各局所記述子が得られた画像のうち、認識結果とすべき画像を、投票処理を用いて識別する識別部としてコンピュータを機能させ、
認識結果とすべき画像が識別できなかったとき、前記限定部は、より多くの検索対象を次段階の探索対象として決定し、前記探索部は、それら次段階の探索対象から対応する各局所記述子を特定し、前記識別部は、それらの局所記述子に係る画像の投票処理を用いて次段階における識別を行い、かつ、前記限定部は、(1)次段階の探索対象が以前の段階のいずれの探索対象をも含む単調性および(2)次段階の探索対象のうち、以前の段階で探索対象とされたものについては以前の段階での探索および投票の結果を使用し、以前の段階と次段階の差分の探索対象を次段階における探索および投票の対象とする差分検索性を満たしながらより多くの探索対象を決定し、決定された探索対象を探索部および識別部が処理することを特徴とする画像認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008532003A JP4883649B2 (ja) | 2006-08-31 | 2007-08-01 | 画像認識方法、画像認識装置および画像認識プログラム |
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006236113 | 2006-08-31 | ||
JP2006236113 | 2006-08-31 | ||
JP2007129737 | 2007-05-15 | ||
JP2007129737 | 2007-05-15 | ||
PCT/JP2007/065086 WO2008026414A1 (fr) | 2006-08-31 | 2007-08-01 | Procédé de reconnaissance d'image, dispositif de reconnaissance d'image et programme de reconnaissance d'image |
JP2008532003A JP4883649B2 (ja) | 2006-08-31 | 2007-08-01 | 画像認識方法、画像認識装置および画像認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2008026414A1 JPWO2008026414A1 (ja) | 2010-01-14 |
JP4883649B2 true JP4883649B2 (ja) | 2012-02-22 |
Family
ID=39135700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008532003A Expired - Fee Related JP4883649B2 (ja) | 2006-08-31 | 2007-08-01 | 画像認識方法、画像認識装置および画像認識プログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US8199973B2 (ja) |
EP (1) | EP2063394A4 (ja) |
JP (1) | JP4883649B2 (ja) |
CN (1) | CN101536035B (ja) |
HK (1) | HK1134364A1 (ja) |
WO (1) | WO2008026414A1 (ja) |
Families Citing this family (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009129337A (ja) * | 2007-11-27 | 2009-06-11 | Hitachi Ltd | 三次元類似形状検索装置 |
US8340451B2 (en) * | 2008-04-28 | 2012-12-25 | Osaka Prefecture University Public Corporation | Method for constructing image database for object recognition, processing apparatus and processing program |
KR101257999B1 (ko) * | 2008-04-30 | 2013-04-24 | 고리츠다이가쿠호징 오사카후리츠다이가쿠 | 3차원 물체 인식용 화상 데이터베이스의 작성 방법, 처리 장치 및 처리용 프로그램 |
US8140448B2 (en) * | 2008-05-09 | 2012-03-20 | International Business Machines Corporation | System and method for classifying data streams with very large cardinality |
US8429216B2 (en) * | 2008-09-23 | 2013-04-23 | Hewlett-Packard Development Company, L.P. | Generating a hash value from a vector representing a data object |
JP5527554B2 (ja) * | 2009-03-04 | 2014-06-18 | 公立大学法人大阪府立大学 | 画像検索方法、画像検索プログラム及び画像登録方法 |
US20120084305A1 (en) | 2009-06-10 | 2012-04-05 | Osaka Prefecture University Public Corporation | Compiling method, compiling apparatus, and compiling program of image database used for object recognition |
WO2010148539A1 (en) * | 2009-06-26 | 2010-12-29 | Intel Corporation | Techniques to detect video copies |
CN102782708A (zh) * | 2009-12-02 | 2012-11-14 | 高通股份有限公司 | 用于图像辨识的描述符小块的快速子空间投影 |
US8352494B1 (en) * | 2009-12-07 | 2013-01-08 | Google Inc. | Distributed image search |
CN102216958A (zh) * | 2010-02-01 | 2011-10-12 | 株式会社摩如富 | 物体检测装置以及物体检测方法 |
CN101790064A (zh) * | 2010-02-23 | 2010-07-28 | 公安部第三研究所 | 具有视频结构化描述功能的硬盘录像设备及其方法 |
US9058561B2 (en) | 2010-03-22 | 2015-06-16 | Aptima, Inc. | Systems and methods of cognitive patterns knowledge generation |
US9530073B2 (en) | 2010-04-20 | 2016-12-27 | Qualcomm Incorporated | Efficient descriptor extraction over multiple levels of an image scale space |
JP5818327B2 (ja) * | 2010-04-28 | 2015-11-18 | オリンパス株式会社 | 三次元物体認識用画像データベースの作成方法および作成装置 |
CN102375990B (zh) * | 2010-08-17 | 2015-03-04 | 富士通株式会社 | 图像处理方法和设备 |
WO2012032788A1 (ja) * | 2010-09-10 | 2012-03-15 | パナソニック株式会社 | 排他的分類器による一般物体の画像認識装置及び方法 |
US8548237B2 (en) | 2010-10-18 | 2013-10-01 | Hewlett-Packard Development Company, L.P. | Ordinal and spatial local feature vector based image representation |
KR101675785B1 (ko) * | 2010-11-15 | 2016-11-14 | 삼성전자주식회사 | 특징점을 이용한 영상 검색 방법 및 상기 방법을 수행하는 장치 |
JP5563494B2 (ja) * | 2011-02-01 | 2014-07-30 | 株式会社デンソーアイティーラボラトリ | 対応参照画像検索装置及び方法、コンテンツ重畳装置、システム、及び方法、並びにコンピュータプログラム |
US8612441B2 (en) * | 2011-02-04 | 2013-12-17 | Kodak Alaris Inc. | Identifying particular images from a collection |
US9122705B1 (en) * | 2011-03-15 | 2015-09-01 | Google Inc. | Scoring hash functions |
JP5601277B2 (ja) | 2011-05-06 | 2014-10-08 | 富士通株式会社 | 情報処理装置、情報処理システムおよび検索方法 |
JP5692725B2 (ja) * | 2011-05-27 | 2015-04-01 | 公立大学法人大阪府立大学 | 近似最近傍探索に係るデータベースの登録方法および登録装置 |
CN102855498B (zh) * | 2011-07-01 | 2016-08-31 | 富士通株式会社 | 字符识别方法和装置 |
JP5485954B2 (ja) * | 2011-09-06 | 2014-05-07 | 東芝テック株式会社 | 店舗システム及びプログラム |
US9400945B2 (en) * | 2011-09-23 | 2016-07-26 | GM Global Technology Operations LLC | System and method of fast object detection using parts to whole fragment detection |
US10152674B2 (en) * | 2012-01-16 | 2018-12-11 | Texas Instruments Incorporated | Accelerated decision tree execution |
CN103377373A (zh) * | 2012-04-25 | 2013-10-30 | 佳能株式会社 | 图像特征产生方法及设备、分类器、系统和捕获设备 |
CN102722554B (zh) * | 2012-05-28 | 2014-07-02 | 中国人民解放军信息工程大学 | 位置敏感哈希随机性减弱方法 |
US9165068B2 (en) * | 2012-08-03 | 2015-10-20 | Adobe Systems Incorporated | Techniques for cloud-based similarity searches |
CN102930529B (zh) * | 2012-09-24 | 2014-04-16 | 南京工业大学 | 一种基于非对称模板搜索的快速伪造区域盲检测方法 |
JP6164899B2 (ja) * | 2013-04-05 | 2017-07-19 | キヤノン株式会社 | ハッシュ値生成装置、システム、判定方法、プログラム、記憶媒体 |
IL226219A (en) | 2013-05-07 | 2016-10-31 | Picscout (Israel) Ltd | Efficient comparison of images for large groups of images |
US9286549B1 (en) | 2013-07-15 | 2016-03-15 | Google Inc. | Sublinear time classification via feature padding and hashing |
JP5808371B2 (ja) * | 2013-08-28 | 2015-11-10 | ヤフー株式会社 | 画像認識装置、画像認識方法及び画像認識プログラム |
JP6151141B2 (ja) * | 2013-09-18 | 2017-06-21 | 株式会社東芝 | 仕分装置および仕分方法 |
CN103678660B (zh) * | 2013-12-24 | 2017-01-11 | 北京邮电大学 | 一种图像检索方法 |
US9569692B2 (en) * | 2014-10-31 | 2017-02-14 | The Nielsen Company (Us), Llc | Context-based image recognition for consumer market research |
US9600524B2 (en) | 2014-12-22 | 2017-03-21 | Blackberry Limited | Method and system for efficient feature matching |
CN104732221A (zh) * | 2015-03-30 | 2015-06-24 | 郑州师范学院 | 一种基于OpenCL并行加速的SIFT特征匹配方法 |
CN104933407A (zh) * | 2015-05-28 | 2015-09-23 | 成都佳发安泰科技股份有限公司 | 基于sift变换的指纹识别方法 |
JP6493102B2 (ja) * | 2015-09-02 | 2019-04-03 | トヨタ自動車株式会社 | 物体認識方法、物体認識装置及びプログラム |
US10885098B2 (en) | 2015-09-15 | 2021-01-05 | Canon Kabushiki Kaisha | Method, system and apparatus for generating hash codes |
WO2017072890A1 (ja) * | 2015-10-28 | 2017-05-04 | 株式会社東芝 | データ管理システム、データ管理方法およびプログラム |
US10424072B2 (en) * | 2016-03-01 | 2019-09-24 | Samsung Electronics Co., Ltd. | Leveraging multi cues for fine-grained object classification |
US10579860B2 (en) | 2016-06-06 | 2020-03-03 | Samsung Electronics Co., Ltd. | Learning model for salient facial region detection |
US10832180B2 (en) | 2017-10-30 | 2020-11-10 | The Aerospace Corporation | Artificial intelligence system that employs windowed cellular automata to create plausible alternatives |
US10740646B2 (en) * | 2017-10-30 | 2020-08-11 | The Aerospace Corporation | Programmable cellular automata for memory search, recall, simulation, and improvisation |
US10762431B2 (en) | 2017-10-30 | 2020-09-01 | The Aerospace Corporation | Low probability transitions and boundary crossing into disallowed states for a more optimal solution |
CN108805157B (zh) * | 2018-04-11 | 2022-02-18 | 南京理工大学 | 基于部分随机监督离散式哈希的遥感图像分类方法 |
JP7207862B2 (ja) * | 2018-04-26 | 2023-01-18 | 株式会社日立製作所 | 物体認識装置および方法 |
CN110471942B (zh) * | 2018-05-08 | 2022-04-15 | 北京大学 | 一种基于均衡哈希编码的飞行器查询方法及系统 |
US11120070B2 (en) * | 2018-05-21 | 2021-09-14 | Microsoft Technology Licensing, Llc | System and method for attribute-based visual search over a computer communication network |
CN109389148B (zh) * | 2018-08-28 | 2021-11-23 | 昆明理工大学 | 一种基于改进DHash算法的图像相似判定方法 |
WO2020129066A1 (en) * | 2018-12-20 | 2020-06-25 | Tracxone Ltd. | System and method for classifier training and retrieval from classifier database for large scale product identification |
CN110134804B (zh) * | 2019-05-20 | 2021-09-17 | 北京达佳互联信息技术有限公司 | 图像检索方法、装置及存储介质 |
JP2022133491A (ja) * | 2019-08-06 | 2022-09-14 | 学校法人明星学苑 | 圧縮データ検索エンジンを用いた情報処理装置およびその情報処理方法 |
CN112529921A (zh) * | 2019-09-24 | 2021-03-19 | 上海壹品仓软件科技有限公司 | 一种线上线下多渠道商品库存共享系统和方法 |
CN110751188B (zh) * | 2019-09-26 | 2020-10-09 | 华南师范大学 | 基于多标记学习的用户标签预测方法、系统及存储介质 |
CN111008210B (zh) * | 2019-11-18 | 2023-08-11 | 浙江大华技术股份有限公司 | 商品识别方法、装置、编解码器及存储装置 |
JP7521543B2 (ja) * | 2020-01-31 | 2024-07-24 | 日本電気株式会社 | 物体認識装置、物体認識理方法、及び、プログラム |
US11645733B2 (en) | 2020-06-16 | 2023-05-09 | Bank Of America Corporation | System and method for providing artificial intelligence architectures to people with disabilities |
WO2022093263A1 (en) * | 2020-10-30 | 2022-05-05 | Hewlett-Packard Development Company, L.P. | Multi-modal hierarchical semantic search engine |
US20240078270A1 (en) * | 2022-09-07 | 2024-03-07 | Sage Global Services Limited | Classifying documents using geometric information |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60142788A (ja) * | 1983-12-29 | 1985-07-27 | Hitachi Ltd | パターン認識における特微量評価方法および装置 |
JPS63132381A (ja) * | 1986-11-25 | 1988-06-04 | Hitachi Ltd | 画像デ−タ検索・表示システム |
JPH0484277A (ja) * | 1990-07-26 | 1992-03-17 | Nec Corp | 特徴量選択方法及び装置と高速識別方法及び装置 |
JPH05233881A (ja) * | 1992-02-21 | 1993-09-10 | Fujitsu Ltd | 文字認識装置における認識文字テーブル作成方法 |
JPH06168277A (ja) * | 1992-11-30 | 1994-06-14 | Canon Inc | 画像検索装置及び方法 |
JP2000285190A (ja) * | 1999-03-31 | 2000-10-13 | Toshiba Corp | 帳票識別方法および帳票識別装置および記憶媒体 |
JP2003242509A (ja) * | 2001-12-13 | 2003-08-29 | Toshiba Corp | パターン認識装置及びその方法 |
JP2004133629A (ja) * | 2002-10-09 | 2004-04-30 | Ricoh Co Ltd | 特定マーク検出用辞書作成装置、特定マーク検出装置、特定マーク認識装置並びにプログラムおよび記録媒体 |
WO2006092957A1 (ja) * | 2005-03-01 | 2006-09-08 | Osaka Prefecture University Public Corporation | 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4658429A (en) * | 1983-12-29 | 1987-04-14 | Hitachi, Ltd. | System and method for preparing a recognition dictionary |
US7016532B2 (en) | 2000-11-06 | 2006-03-21 | Evryx Technologies | Image capture and identification system and process |
US7200270B2 (en) * | 2001-12-13 | 2007-04-03 | Kabushiki Kaisha Toshiba | Pattern recognition apparatus and method using distributed model representation of partial images |
US7684029B2 (en) * | 2004-10-29 | 2010-03-23 | Avago Technologies General Ip (Singapore) Pte. Ltd. | Method and apparatus for identifying a sensed light environment |
-
2007
- 2007-08-01 JP JP2008532003A patent/JP4883649B2/ja not_active Expired - Fee Related
- 2007-08-01 US US12/439,493 patent/US8199973B2/en not_active Expired - Fee Related
- 2007-08-01 EP EP07791766A patent/EP2063394A4/en not_active Withdrawn
- 2007-08-01 WO PCT/JP2007/065086 patent/WO2008026414A1/ja active Application Filing
- 2007-08-01 CN CN200780040849XA patent/CN101536035B/zh not_active Expired - Fee Related
-
2010
- 2010-03-05 HK HK10102372.2A patent/HK1134364A1/xx not_active IP Right Cessation
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60142788A (ja) * | 1983-12-29 | 1985-07-27 | Hitachi Ltd | パターン認識における特微量評価方法および装置 |
JPS63132381A (ja) * | 1986-11-25 | 1988-06-04 | Hitachi Ltd | 画像デ−タ検索・表示システム |
JPH0484277A (ja) * | 1990-07-26 | 1992-03-17 | Nec Corp | 特徴量選択方法及び装置と高速識別方法及び装置 |
JPH05233881A (ja) * | 1992-02-21 | 1993-09-10 | Fujitsu Ltd | 文字認識装置における認識文字テーブル作成方法 |
JPH06168277A (ja) * | 1992-11-30 | 1994-06-14 | Canon Inc | 画像検索装置及び方法 |
JP2000285190A (ja) * | 1999-03-31 | 2000-10-13 | Toshiba Corp | 帳票識別方法および帳票識別装置および記憶媒体 |
JP2003242509A (ja) * | 2001-12-13 | 2003-08-29 | Toshiba Corp | パターン認識装置及びその方法 |
JP2004133629A (ja) * | 2002-10-09 | 2004-04-30 | Ricoh Co Ltd | 特定マーク検出用辞書作成装置、特定マーク検出装置、特定マーク認識装置並びにプログラムおよび記録媒体 |
WO2006092957A1 (ja) * | 2005-03-01 | 2006-09-08 | Osaka Prefecture University Public Corporation | 文書・画像検索方法とそのプログラム、文書・画像登録装置および検索装置 |
Also Published As
Publication number | Publication date |
---|---|
CN101536035A (zh) | 2009-09-16 |
EP2063394A4 (en) | 2011-08-03 |
US8199973B2 (en) | 2012-06-12 |
WO2008026414A1 (fr) | 2008-03-06 |
US20100027895A1 (en) | 2010-02-04 |
CN101536035B (zh) | 2012-09-26 |
HK1134364A1 (en) | 2010-04-23 |
JPWO2008026414A1 (ja) | 2010-01-14 |
EP2063394A1 (en) | 2009-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4883649B2 (ja) | 画像認識方法、画像認識装置および画像認識プログラム | |
JP5294342B2 (ja) | 物体認識用画像データベースの作成方法、処理装置および処理用プログラム | |
Zheng et al. | SIFT meets CNN: A decade survey of instance retrieval | |
JP5527555B2 (ja) | 画像データベースの作成方法、作成プログラム及び画像検索方法 | |
Jégou et al. | On the burstiness of visual elements | |
US8892542B2 (en) | Contextual weighting and efficient re-ranking for vocabulary tree based image retrieval | |
US9747308B2 (en) | Method and apparatus for searching an image, and computer-readable recording medium for executing the method | |
CN102460511B (zh) | 用于物体识别的图像数据库的制作方法以及制作装置 | |
Jégou et al. | Exploiting descriptor distances for precise image search | |
Khan et al. | Automatic target recognition in infrared imagery using dense hog features and relevance grouping of vocabulary | |
JP5598925B2 (ja) | 高次元の特徴ベクトルを高精度で検索する検索装置及びプログラム | |
JP6128910B2 (ja) | 学習装置、学習方法及びプログラム | |
Tian et al. | Image classification based on the combination of text features and visual features | |
JP6017277B2 (ja) | 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法 | |
Paul et al. | Mining images for image annotation using SURF detection technique | |
Amato et al. | Aggregating binary local descriptors for image retrieval | |
JP5833499B2 (ja) | 高次元の特徴ベクトル集合で表現されるコンテンツを高精度で検索する検索装置及びプログラム | |
Che et al. | Image retrieval by information fusion based on scalable vocabulary tree and robust Hausdorff distance | |
JP2017040972A (ja) | 特徴量生成装置、方法、及びプログラム | |
Weng et al. | Random VLAD based deep hashing for efficient image retrieval | |
Kuric | Automatic image annotation using global and local features | |
Lakemond et al. | Fast Exact Nearest Neighbour Matching in High Dimensions Using d‐D Sort | |
Balasundaram et al. | An efficient and reduced memory indexing approach based on priority rank spectral hashing for multibiometric database | |
Aly et al. | Bag of Words for Large scale object recognition | |
Becker et al. | Codebook-free exemplar models for object detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110628 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110810 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110913 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110921 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111122 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111201 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141216 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |