[go: up one dir, main page]

JP5527555B2 - 画像データベースの作成方法、作成プログラム及び画像検索方法 - Google Patents

画像データベースの作成方法、作成プログラム及び画像検索方法 Download PDF

Info

Publication number
JP5527555B2
JP5527555B2 JP2011502784A JP2011502784A JP5527555B2 JP 5527555 B2 JP5527555 B2 JP 5527555B2 JP 2011502784 A JP2011502784 A JP 2011502784A JP 2011502784 A JP2011502784 A JP 2011502784A JP 5527555 B2 JP5527555 B2 JP 5527555B2
Authority
JP
Japan
Prior art keywords
vector
image
feature
search
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011502784A
Other languages
English (en)
Other versions
JPWO2010101187A1 (ja
Inventor
貴行 本道
浩一 黄瀬
幸人 古橋
泰治 峯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Osaka Prefecture University
Original Assignee
Olympus Corp
Osaka Prefecture University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Corp, Osaka Prefecture University filed Critical Olympus Corp
Priority to JP2011502784A priority Critical patent/JP5527555B2/ja
Publication of JPWO2010101187A1 publication Critical patent/JPWO2010101187A1/ja
Application granted granted Critical
Publication of JP5527555B2 publication Critical patent/JP5527555B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/56Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/434Query formulation using image data, e.g. images, photos, pictures taken by a user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

この発明は、画像データベースの作成方法、作成プログラム及び画像検索方法に関する。より詳細には、局所特徴量を用いた特定物体認識に用いる画像データベースの作成方法、その作成方法をコンピュータが実行するためのプログラム及び前記画像データベースを用いた画像検索方法に関する。
特定物体認識(specific object recognition)とは、画像として写された物体が、他の画像中のどの物体とまったく同じなのかを言い当てる処理のことである。この明細書では、画像認識とも呼ぶ。このような処理は、部品の過不足の検出、偽造品などの検出、バーコードの代替などへの用途が考えられ、実用性が高いといえる。ここで、「画像として写された物体」とは検索質問としての画像に写っているインスタンス(検索対象)のことを指し、「どの物体とまったく同じなのかを言い当てる処理」とは、予め多数の画像が登録された画像データベースの中から、同一のインスタンスが写っている画像を検索する処理、即ち、画像検索の処理ということもできる。
前記特定物体認識の一手法として、局所特徴量(local feature)を用いる手法が知られている。この手法は、画像から所定の手順により抽出される局所特徴量でその画像を表現し、他の画像から抽出された局所特徴量と比較あるいは照合することにより、識別(認識)を行うものである。局所特徴量の例として、SIFT(Scale-Invariant Feature Transform、例えば、非特許文献1参照)や、PCA-SIFT(Principal Component Analysis-SIFT、例えば、非特許文献2参照)などがある。これらの局所特徴量は多次元のベクトル量として表現されるため、特徴ベクトルともいわれる。これらの手法の利点は、画像の局所的な特徴に基づいて多数の特徴ベクトルを抽出するため、検索質問中のインスタンスおよび/または前記画像データベースに登録された画像中のインスタンスに多少の隠れや変動があっても、高精度の認識ができる点にある。
この発明に関連する他の文献として、非特許文献3、4、5がある。それらの文献とこの発明との具体的な関連については後述する。
D. G. Lowe, "Distinctive image features from scale-invariant keypoints", Internal Journal of Computer Vision, 60, 2, pp.91-110, 2004. Y. Ke, and R. Sukthankar, "PCA-SIFT: A more distinctive representation for local image descriptors", Proc. CVPR'04, vol.2, pp.506-513, 2004. 野口, 黄瀬, 岩村: "局所記述子に基づく物体認識のため のメモリ削減の実験的検討", 画像の認識・理解シンポジウム (MIRU2008)論文集, OS10-3, pp.251-258, 2008. D. Nister and H. Stewenius, "Scalable Recognition with a Vocabulary Tree", Proc. CVPR2006, pp.775-781, 2006. S. Arya, D. Mount, R. Silverman and A. Y. Wu, "An optimal algorithm for approximate nearest neighbor searching", Journal of the ACM, vol.45, no.6, pp.891-923, 1998.
1枚の画像から抽出される局所特徴量の数は、VGAサイズの画像で通常は数千程度、多い場合には数万にもなる。そのため、認識対象の画像のサイズが大きかったり数が多かったりする場合は、それらの局所特徴量の照合に要する処理時間や、記憶に必要となるメモリ容量が問題となる。
これらの問題を解決するため、個々の局所特徴量の記録に必要なメモリ容量を削減するというアプローチが提案されている(前記非特許文献3参照)。具体的には、特徴ベクトルの各次元の値を表す多値データのビット数を削減するスカラー量子化によって個々の局所特徴量を画像データベースに登録するために要するメモリ量を減らし、画像データベース全体のメモリ容量を削減している。この手法は、事前に特徴ベクトルの各次元の値の分布を調べておくことにより、スカラー量子化を比較的簡単に行うことができるというメリットがある。これに対して、ベクトル量子化という概念も提唱されている。D. Nisterらは、ベクトル量子化の方法の1つとして、Vocabulary Treeという木構造を使ったものを提唱している(例えば、非特許文献4参照)。しかしながら、この手法では高い認識率を維持するために、木構造の高さを高くしなければならず、削減効果が十分に見込めないという問題点もある。
この発明は、以上のような事情を考慮してなされたものであって、画像から抽出される局所特徴量を用いた近傍探索によって物体認識を行う手法において、前記物体認識の認識率を大きく低下させずに前記物体認識に係る画像データベースの記憶容量を削減する方法、および、その方法をコンピュータが実行するためのプログラムを提供するものである。また、前記方法に基づいて作成された画像データベースを用いて画像検索を行う方法を提供するものである。
この発明は、物体認識のために検索質問画像と照合されるべき参照画像の異なる位置の局所的特徴に対応し、各局所的特徴の位置と特性とをベクトル位置、ベクトル長及びベクトル方向として表す参照特徴ベクトルを前記参照画像から抽出する抽出工程と、異なる参照特徴ベクトルからなる複数のクラスタを、各参照ベクトルがそのいずれかに属するように作成するクラスタリング工程と、各クラスタの参照特徴ベクトルの中からそのクラスタの代表ベクトルを選択する選択工程と、前記代表ベクトルを参照画像と関連付けて物体認識用の画像データベースに登録する工程とを備え、前記クラスタリング工程は、近いベクトル位置の参照特徴ベクトルが同じクラスタに属するよう各クラスタを作成し、前記選択工程は、長いベクトル長の参照特徴ベクトルを優先して前記代表ベクトルを選択し、前記検索質問画像と前記参照画像とは、前記検索質問画像から少なくとも一つのクエリ特徴ベクトルを生成し、前記クエリ特徴ベクトルと前記代表ベクトルとの間で近傍探索を適用して照合され、各工程がコンピュータより実行される画像データベースの作成方法を提供する。
また、異なる観点から、この発明は、物体認識のために検索質問画像と照合されるべき参照画像の異なる位置の局所的特徴に対応し、各局所的特徴の位置と特性とをベクトル位置、ベクトル長及びベクトル方向として表す参照特徴ベクトルを前記参照画像から抽出する抽出ステップと、異なる参照特徴ベクトルからなる複数のクラスタを、各参照ベクトルがそのいずれかに属するように作成するクラスタリングステップと、各クラスタの参照特徴ベクトルの中からそのクラスタの代表ベクトルを選択する選択ステップと、前記代表ベクトルを参照画像と関連付けて物体認識用の画像データベースに登録するステップとをコンピュータに実行させ、前記クラスタリングステップは、近いベクトル位置の参照特徴ベクトルが同じクラスタに属するよう各クラスタを作成し、前記選択ステップは、長いベクトル長の参照特徴ベクトルを優先して前記代表ベクトルを選択し、前記検索質問画像と前記参照画像とは、前記検索質問画像から少なくとも一つのクエリ特徴ベクトルを生成し、前記クエリ特徴ベクトルと前記代表ベクトルとの間で近傍探索を適用して照合される画像データベースの作成プログラムを提供する。
また、前記画像データベースの作成方法に対応するものとして、この発明は、物体認識用の画像データベースに登録された参照画像と照合されるべき検索質問画像からその局所的特徴を表す少なくとも一つのクエリ特徴ベクトルを抽出する抽出工程と、前記クエリ特徴ベクトルと各参照画像に関連する前記代表ベクトルとの間で近傍探索を適用して照合を行う照合工程と、前記照合により前記クエリ特徴ベクトルの近傍にあるとされた代表ベクトルが抽出された参照画像を決定する工程とを備え、前記代表ベクトルは、前記参照画像の複数の局所的特徴の位置と特性をベクトル位置、ベクトル長及びベクトル方向として表す参照特徴ベクトルを抽出し、近いベクトル位置の参照特徴ベクトルが同じクラスタに属するように複数のクラスタを作成し、それぞれのクラスタから長いベクトル長の参照特徴ベクトルを優先的に選択して得られ、前記画像データベースは、前記参照画像とその参照画像から抽出された代表ベクトルとが予め関連付けて格納されてなり、各工程がコンピュータより実行される画像検索方法を提供する。
なお、前記検索質問画像からクエリ特徴ベクトルを生成する手順は、参照特徴ベクトルを抽出する手順と同様である。
この発明の画像データベースの作成方法によれば、近いベクトル位置の参照特徴ベクトルが同じクラスタに属するよう各クラスタを作成し、長いベクトル長の参照特徴ベクトルを優先して各クラスタから所定の数の代表ベクトルを選択し、前記代表ベクトルと前記クエリ特徴ベクトルとの間で照合が行われるので、前記代表ベクトルを選択しない場合に比べて、画像データベースへの特徴ベクトルの登録に要するメモリ容量を節約することができる。しかも、各クラスタからそれぞれの代表ベクトルが登録されるので、つまり、画像の一部に偏らず全領域にわたり略均一に登録されるので、画像中にインスタンスが偏在していたり幾何学的変換による歪みを受けて写されていたりしても、頑強(ロバスト)な認識を行うことができる。
この発明による画像データベースの作成プログラムは、前述した画像データベースの作成方法と同様の利点を有する。
公知の近似最近傍探索手法であるANNの概念を示す説明図である。この実施形態の近似最近傍探索手法にはANNを適用している。 この発明の実験例で、画像データベースに登録された画像の一例を示す説明図である。(a)は、Googleイメージ検索を用いて収集した画像の例、(b)は、PCA-SIFTのWebサイトで公開されていた画像の例、(c)は写真共有サイトのflickrにおいて収集した画像の例である。 この発明の実験例で、検索質問として用いた画像の一例を示す説明図である。(a), (b), (c)は撮影角度がそれぞれ90°, 75°, 60°でインスタンスの写真を撮影した画像ある。(d)は、そのインスタンスの写真の一部分を撮影した画像の例である。 この発明の実験例の結果を示すグラフである。図3(a), (b), (c), (d)に示した検索質問に対する認識率およびそれらの平均の認識率を示す。
以下、この発明の好ましい態様について説明する。
前記クラスタリング工程は、予め定められた数のクラスタを生成してもよい。画像中にインスタンスが偏在していたり幾何学的変換による歪みを受けて写されていたりしても、代表ベクトルが画像の全領域にわたり略均一に分散していれば、頑強(ロバスト)な認識を行うことができる。生成されるクラスタの数を多くすればするほど、代表ベクトルは均一に分散する。十分にロバストな認識が行われるクラスタの細かさを、例えば、実験的に予め決定しておき、前記クラスタリング工程が、予め定められた数のクラスタを生成するようにすれば、十分にロバストな認識が実現できる。
また、前記選択工程は、各クラスタから一つの代表ベクトルを選択してもよい。
さらにまた、前記クラスタリング工程は、ケーミーンズ(k-means)法を用いて特徴ベクトルを分けてもよい。このようにすれば、k-means法を用いることによって画像の全領域に渡り満遍なく分散されるように特徴ベクトルをクラスタリングすることができる。
ここで示した種々の好ましい態様は、それら複数を組み合わせることもできる。
以下、図面を用いてこの発明をさらに詳述する。なお、以下の説明は、すべての点で例示であって、この発明を限定するものと解されるべきではない。
この発明の特徴的な一側面は、画像認識に用いる画像データベースのメモリ容量の削減を、局所特徴量の取捨選択の観点から検討し、その解決手法を提供する点にある。より具体的には、特徴ベクトルのベクトル長(スケール)と画像空間上での分散の均一性とを考慮して局所特徴量の取捨選択を行う。
以下に述べる実施形態及び実験例により、局所特徴量の取捨選択を行わない場合の画像データベースのメモリ容量に対し10%程度にまでメモリ容量を削減した画像データベースを用いた場合においても、98%の認識率を得ることができ、この発明の有効性が実証された。
ここで、この発明による記憶容量の削減手法を説明に先立ち、特定物体認識に対して行われているスカラー量子化による従来のメモリ容量削減手法と画像認識処理について改めて述べておく。スカラー量子化によるメモリ容量削減手法は、この発明の手法と異なるアプローチで画像データベースのメモリ容量を削減する手法であって、この発明による手法と組み合わせることができ、また組み合わせることが効果的である。
≪スカラー量子化によるメモリ削減手法≫
前記非特許文献3では、特定物体認識に必要なメモリ容量を削減するため、スカラー量子化というアプローチを提案している。これは、個々の局所特徴量を表す特徴ベクトルの各次元が取り得る値を離散値に制限することによって、メモリ容量の削減を実現するものである。即ち、各次元の値を所定のビット長に制限するものである。画像データベースに登録する局所特徴量の数は、変わらないものの、個々の局所特徴量の登録に要するメモリ容量が小さくなるため、全体として画像データベースに必要なメモリ量が削減される。
〔特徴ベクトルの抽出〕
この実施形態においては、PCA-SIFTの手法を適用して参照画像及び検索質問画像からそれぞれの局所特徴量(特徴ベクトル)を抽出する。
前記非特許文献3で、PCA-SIFTを適用して得られる特徴ベクトルは、特徴ベクトルの各次元を2bitで表現しても、画像認識の認識率はほとんど変化しない旨が述べられている。PCA-SIFTにより抽出される特徴ベクトルの各次元の値は、short型整数で表現した場合に16bitで表現される。従って、特徴ベクトルの各次元をスカラー量子化して2bitに削減すると、特徴ベクトル単体は、1/8程度のメモリ容量になる。画像データベースとしては、特徴ベクトルの格納の他に必要なメモリ容量があるが、それを考慮しても、画像データベースのメモリ容量を1/3程度に削減できる旨が述べられている。
〔クエリ特徴ベクトルと参照特徴ベクトルとの照合〕
画像検索は、クエリ特徴ベクトルと参照特徴ベクトルとを照合して行われる。前記照合処理は、検索質問画像から抽出されたクエリ特徴ベクトルと、画像データベースに登録されている参照特徴ベクトルとの間の距離計算を行い、各クエリ特徴ベクトルに対して近傍となる参照特徴ベクトルを決定する。そして、決定した参照特徴ベクトルに関連付けられた画像IDを得る。
〔認識結果としての参照画像の決定〕
照合の結果に基づき画像認識の結果を決定する処理を行う。前記処理は、前記照合処理によって得られた各クエリ特徴ベクトルに対する画像IDへの投票を行って、最大得票を得た画像IDが示す参照画像を認識結果として決定する。
スカラー量子化の結果、距離計算の精度は低下する。それでも認識率がほとんど変化しない理由として、投票による多数決のおかげで誤った画像IDが除外されることが挙げられる。
≪局所特徴量の取捨選択によるメモリ削減手法≫
先に述べたスカラー量子化とは異なるアプローチによって画像データベースのメモリ容量を削減する手法として、発明者らは、特徴ベクトルの取捨選択を行うことに着目した。
〔取捨選択の方針〕
参局所特徴量の取捨選択によるメモリ削減手法においても、PCA-SIFTの手法を用いて局所特徴量を抽出するものとする。
参照画像から抽出される局所特徴量の数は、参照画像の内容によって異なる。局所特徴量の取捨選択を行わない無削減状態の画像データベースでは画像から抽出された局所特徴量を全て登録する。そのため、異なる参照画像の間で、登録される局所特徴量の数が大きく異なる。数多くの局所特徴量が多抽出される参照画像では、参照画像中の特定の部分から類似した局所特徴量が多数抽出されることがある。類似した局所特徴量は、その全てを画像データベースに登録しておく必要はない。類似しているが故に、認識率の向上にはあまり寄与しないと考えられるからである。よって、画像1枚から画像データベースに抽出する局所特徴量の数の最大値をRに制限し、参照特徴ベクトルを格納するために必要なメモリ容量の増大を防ぐことにする。抽出された参照特徴ベクトルの数がRを越えない場合には、抽出された局所特徴量を全て画像データベースに登録する。参照特徴ベクトルの数がRを越えた場合には、以下の着想に基づき、登録する局所特徴量を選択する。
〔クラスタリング〕
この発明では、撮影角度の変化に対する耐性が比較的強いとされる、長いベクトル長の特徴ベクトルを優先的に選択し、画像データベースに登録することとする。認識結果とされるべき参照画像及び対応する検索質問画像に、検索対象の全体が写っている可能性は低くないといえる。しかしながら、長いベクトル長の特徴ベクトルが、前記参照画像又は検索質問画像の一部領域に偏在していると、その領域以外の部分がノイズとなってしまい検索質問に対応する参照画像の検索が困難になる。こういった検索対象の偏在に対処するため、参照特徴ベクトルが抽出された参照画像の中で参照特徴ベクトルの位置を示す座標値について、最大クラスタ数をRとするk-meansクラスタリングを行う。
〔代表ベクトルの選択と画像データベースへの登録〕
さらに、k-meansクラスタリングによって得られた各クラスタ内の参照特徴ベクトルの中からベクトル長が最も大きなものを優先して選択する。
選択した参照特徴ベクトルを画像データベースに登録する。即ち、各クラス他を代表する代表ベクトルだけを画像データベースに登録する。
この手順により、参照画像の中から偏りなく略均一に参照特徴ベクトルを選択することになる。よって、参照画像の中に検索対象の物体が一部分しか写っていない場合においても、認識できる可能性を高めることができると考えられる。
〔照合に用いる近似最近傍探索の手法〕
クエリ特徴ベクトルと参照特徴ベクトル(あるいは、代表ベクトル)との照合には、ANN(Approximate Nearest Neighbor、例えば、非特許文献5参照)の手法を用いることができる。ANNは、木構造を用いて、近似最近傍探索を高速に行う手法である。近似を行うことにより、ベクトル照合の精度は低下するものの、検索にかかる処理時間を削減することが可能となる。
ANNによる近似最近傍探索の概念を図1に示す。ただし、簡単のため、説明に関与するセルのみを描いている。画像データベース中の参照特徴ベクトルは、幾つかのセルに分けられ木構造をなすようにして画像データベースに登録されている。いま、qを検索質問のクエリ特徴ベクトル、p1 からp6 を参照特徴ベクトルとし、現在、p1 が近傍のベクトルとして発見されているとする。rはクエリ特徴ベクトルqと参照特徴ベクトルp1 とがなす距離である。最近傍探索を実行する場合、実線で示される超球と重なるセルには、p1 より近傍の参照特徴ベクトル、即ち、qとの距離がrよりも近い参照特徴ベクトルが存在する可能性があるため、探索の対象となる。一方、近似最近傍探索を行う場合、p1 までの距離rに対して、許容誤差εを用いて定義される半径
の超球を考え、それと交わるセルのみを探索の対象とする。これにより、最近傍の参照特徴ベクトル(図1の場合はp3 )を発見できない可能性は出てくるが、探索の対象となるセルの数が減少するため、探索時間を削減できる。
この発明の手法では、局所特徴量の削減のため、あるクエリ特徴ベクトルに対し、最近傍の参照特徴ベクトル(正解となるべき参照特徴ベクトル)が対応づけられないことも考えられる。そのため、ANNによる照合の結果として対応付けられたクエリ特徴ベクトルと参照特徴ベクトルとの距離dが、予め定められた閾値tよりも近い場合にのみ、画像に投票を行う。
≪実験例≫
〔参照画像と画像データベース〕
局所特徴量の取捨選択の有効性を実証する実験を行った。実験に用いた画像データベースは、参照画像として10万枚が登録されたものを用いた。参照画像10万枚の画像データベースは、A, B, Cの3種類のデータセットで構成されている。Aは、Googleイメージ検索を用いて収集した、3,100枚の画像からなる。画像の収集に用いた検索キーワードは、ポスター"、"雑誌"、"表紙" などである。Bは、PCA-SIFTのサイトで公開されている18,500枚の画像からなる。Cは、写真共有サイトのflickrにおいて、"animal", "birthday", "food","japan"などのタグにより収集した78,400枚の画像からなる。主に物体や、自然の写真、人物の写真などを含む。
図2に、上記の手順で収集された参照画像の例を示す。
なお、参照画像収集の際には、600×600 pixel以下のサイズの画像は除外し、各参照画像の長辺が640pixel以下になるように縮小した。画像サイズは、およそVGAサイズである。
そして、これらの参照画像に対し、PCA-SIFT(http://www.cs.cmu.edu/yke/pcasift/で提供されていたものを用いた)の手法を適用して局所特徴量を抽出した。抽出された局所特徴量の総数は、1.82×108である。そのサブセットである参照画像1万枚のデータベースにおいて抽出された局所特徴量の総数は、2.07×107である。
そして、各画像データベースに対して、比較のため前記非特許文献4のベクトル量子化による従来のメモリ削減手法、並びに、この発明による局所特徴量の取捨選択によるメモリ削減手法をそれぞれ適用し、合計で4つの画像データベースを作成した。
〔ベクトル量子化によるメモリ削減手法〕
ここで、ベクトル量子化による従来のメモリ削減手法について簡単に説明する。
ベクトル量子化では、特徴空間上の一定領域に分布している特徴ベクトルをまとめることによって行う。そのため、何らかの方法により、特徴ベクトルをどのようにしてまとめるのかを定める必要がある。本稿では、以下のようにして、特徴ベクトルをまとめることにする。まず、kd-tree を作成するときに用いられている、standard kd-tree splitting rule を用いて特徴空間を分割する。これは、特徴空間上で、最も分散が大きい次元を選択し、その次元上に分布している点の座標の中央値で、空間を分割する方法である。分割空間に含まれる特徴ベクトルの最大数(バケットサイズ)b を設定し、各空間内に含まれる特徴ベクトルの数を、b 以下になるまで分割する。そして、分割された特徴空間に分布している特徴ベクトルの重心を求め、その空間上の特徴ベクトルを重心ベクトルに置換する。データベース中には、重心ベクトルを記録すると共に、置換した特徴ベクトルに付与されていた画像ID を、この重心ベクトルに付与し直すことで、ベクトル量子化を行う。
この重心ベクトルは、ベクトル量子化の符号語(codeword)に相当するものであり、しばしばvisual word と呼ばれる。
〔実験パラメータ〕
ベクトル量子化の方法で画像データベースを作成する際に用いたパラメータbの値は、b=1, 2, 3, 5, 10, 20 である。
一方、局所特徴量の取捨選択によるメモリ削減手法で画像データベースを作成する際に用いたパラメータRの値は、R = 300, 200, 100, 75, 50である。Rの各値に対して、参照画像10万枚の画像データベース内に登録された局所特徴量の数を表1に示す。
〔検索質問画像〕
検索対象を得るために、データセットA, B, C のそれぞれから100、200、200枚の合計500枚の参照画像を無作為に選択した。よって、各検索対象は、認識されるべき参照画像が画像データベースに必ず存在する。次に、これらの検索対象をA4の用紙に印刷し、カメラを用いて撮影した。
図3は、得られた撮影画像の例である。図3に示すとおり、検索対象の紙面全体が写る配置で、その紙面に対するカメラの光軸の角度θを90°, 75°, 60°に変化させてそれぞれ撮影画像を得た。また、角度を90°として紙面の一部分を撮影した。その結果、1つの検索対象につき、それぞれ4つの撮影画像を得た。さらに、撮影された撮影画像を512×341 pixelに縮小して検索質問画像とし、PCA-SIFTにより特徴ベクトルを求めた。その結果、検索質問画像1枚あたり平均612個のクエリ特徴ベクトルが得られた。
〔閾値tの決定〕
まず、前述のANNを用いた照合に係る距離の閾値tとして、どの程度の値を定めるのが適切かを調べる実験を行った。具体的には、作成した画像データベースに対してtの値を変化させて、認識率がどのように変化するかを調べた。得られた実験結果のうち、参照画像1枚の画像データベースから抽出する局所特徴量の最大数RをR = 50とした場合の結果を表2に示す。表2の結果から、閾値tの値が、およそ、t = 3873, 3162の場合に認識率がよくなっていることが分かる。Rの値を変化させたときにおいても、総じて、t = 3873, 3162のあたりで認識率がよくなっていることがわかった。この結果に基づいて、以下の実験では、閾値tは、t = 3873とした。
〔特徴量の取捨選択の有効性〕
次に、以下の(A),(B),(C),(D)の4手法を比較した。(A)は、k-meansクラスタリングをして、その中で長いベクトル長の特徴ベクトルを選択する方法である。(B)は、各画像から画像空間上でk-meansクラスタリングをして、その中から、局所特徴量をランダムに選択する方法である。(C)は、各画像から、長いベクトル長の特徴ベクトルから順に選択する方法である。(D)は、各画像からランダムに局所特徴量を選択する方法である。
前述の4手法について、同じRの値を用いて画像データベースを作成し、認識率を比較した。距離の閾値は、t = 3873である。R = 50のときの結果を図4に示す。
図4で、縦軸は認識率を示しており、横軸は、左端の「平均」が、以降に述べる4つのデータを通した平均認識率を示す。「60°」は、撮影角度60°の検索質問画像の平均認識率を、「75°」は、撮影角度75°の検索質問画像の平均認識率を、「90°」は、撮影角度90°の検索質問画像の平均認識率を、「一部」は、一部分を撮影した検索質問画像の平均認識率を示す。図4より、画像全体が写っている場合においては、手法(A)が最もよい認識率となっている。
図4の手法(A)と(C)を比較すると、特定平面物体全体が写っている画像を認識する場合、角度変化への耐性が強いとされる、長いベクトル長の特徴ベクトルが認識に有利であるといえる。
しかしながら、長いベクトル長の特徴ベクトルだけを登録した場合、手法(C)において、検索対象の一部分のみが写っている検索質問画像を用いると、認識率が著しく下がっている。この原因の一つとして、長いベクトル長の特徴ベクトルが、検索質問画像の撮影範囲外の部分に偏ってしまった結果、クエリ特徴ベクトルと参照特徴ベクトルとの照合がうまくできなかったと考えられる。
これに対して、k-means法を適用し、画像の各部分から満遍なく局所特徴量を選択する手法(A)を用いると、認識率が大きく回復していることがわかる。よって、画像上から長いベクトル長の特徴ベクトルを満遍なく選択することが重要であるといえる。
続いて、手法(A)に対して、Rの値を変化させたときの認識率を表3に示す。∞は、局所特徴量を画像データベースに登録する際に、その最大数を制限しなかった場合を示している。
表3より、元の画像データベースの10%程度のメモリ容量でも、98%以上の認識率が実現されている。Rが小さくなるにつれ、一部分のみを拡大した検索質問に対しては、認識率の低下が現われ、次第に大きくなっている。これは、長いベクトル長の特徴ベクトルを選択したためであると考えられる。
以上の実験例に示したように、特徴ベクトルのベクトル長と、画像空間上での分散の均一性を考慮して局所特徴量を取捨選択することで、無削減状態の1/10程度の画像データベースを用いた場合においても、98%の認識率を得ることができ、子の発明による面離削減手法の有効性が実証された。
前述した実施の形態の他にも、この発明について種々の変形例があり得る。それらの変形例は、この発明の範囲に属さないと解されるべきものではない。この発明には、請求の範囲と均等の意味および前記範囲内でのすべての変形とが含まれるべきである。
この発明は、SIFT(Scale-Invariant Feature Transform)などの局所特徴量を用いて、何万枚、何十万枚といった大規模な画像データベースを対象に特定物体認識を行うような場合の画像データベースの作成に極めて有効な手法である。
大規模特定物体認識の画像データベースでは、画像データベースに保持しておく局所特徴量(特徴ベクトル)の数が増大する。そのため、メモリ容量の削減が課題となる。この発明によれば、局所特徴量の取捨選択の方法を工夫することによって、局所特徴量を画像データベースに保持しておくのに要するメモリ容量を節約することができる。
p1, p2, p3, p4, p5, p6:画像データベース中の画像の特徴ベクトル
q:検索質問の特徴ベクトル
r:ベクトルp1とqとの距離、半径

Claims (5)

  1. 特定物体認識のために、物体が写された検索質問画像と照合されるべき参照画像の異なる位置の局所的特徴に対応し、各局所特徴量をベクトル位置、ベクトル長及びベクトル方向として表す参照特徴ベクトルを前記参照画像から抽出する抽出工程と、
    異なる参照特徴ベクトルからなる複数のクラスタを、各参照ベクトルがそのいずれかに属するように作成するクラスタリング工程と、
    各クラスタの参照特徴ベクトルの中からそのクラスタの代表ベクトルを選択する選択工程と、
    前記代表ベクトルを参照画像と関連付けて特定物体認識用の画像データベースに登録する工程とを備え、
    前記画像データベースはメモリに格納され、
    前記クラスタリング工程は、前記参照画像中で各参照ベクトルの位置を示す座標値についてクラスタリングを行い
    前記選択工程は、各クラスタ内で最も長いベクトル長の参照特徴ベクトル前記代表ベクトルとして選択し、
    前記検索質問画像と前記参照画像とは、前記検索質問画像から複数のクエリ特徴ベクトルを生成し、各クエリ特徴ベクトルと各代表ベクトルとの間で近似最近傍探索を適用して照合され、
    各工程がコンピュータより実行される画像データベースの作成方法。
  2. 前記選択工程は、各クラスタから一つの代表ベクトルを選択する請求項に記載の方法。
  3. 前記クラスタリング工程は、ケーミーンズ・クラスタリングを用いて前記複数のクラスタを作成する請求項1または2に記載の方法。
  4. 特定物体認識用の画像データベースに登録された参照画像と照合されるべき物体が写された検索質問画像からその局所的特徴を表す複数のクエリ特徴ベクトルを抽出する抽出工程と、
    各クエリ特徴ベクトルと各参照画像に関連する複数の代表ベクトルとの間で近似最近傍探索を適用して照合を行う照合工程と、
    前記照合により前記クエリ特徴ベクトルの最近傍にあるとされた代表ベクトルが抽出された参照画像を決定する工程とを備え、
    前記画像データベースはメモリに格納され、
    各代表ベクトルは、前記参照画像の複数の局所特徴量をベクトル位置、ベクトル長及びベクトル方向として表す参照特徴ベクトルを抽出し、
    前記参照画像中で各参照ベクトルの位置を示す座標値についてクラスタリングを行い、それぞれのクラスタから最も長いベクトル長の参照特徴ベクトル選択して得られ、
    前記画像データベースは、前記参照画像とその参照画像から抽出された代表ベクトルとが予め関連付けて格納されてなり、
    各工程がコンピュータより実行される画像検索方法。
  5. 特定物体認識のために、物体が写された検索質問画像と照合されるべき参照画像の異なる位置の局所的特徴に対応し、各局所特徴量をベクトル位置、ベクトル長及びベクトル方向として表す参照特徴ベクトルを前記参照画像から抽出する抽出ステップと、
    異なる参照特徴ベクトルからなる複数のクラスタを、各参照ベクトルがそのいずれかに属するように作成するクラスタリングステップと、
    各クラスタの参照特徴ベクトルの中からそのクラスタの代表ベクトルを選択する選択ステップと、
    前記代表ベクトルを参照画像と関連付けて特定物体認識用の画像データベースに登録するステップとをコンピュータに実行させ、
    前記画像データベースはメモリに格納され、
    前記クラスタリングステップは、各参照ベクトルの位置を示す座標値についてクラスタリングを行い
    前記選択ステップは、各クラスタ内で最も長いベクトル長の参照特徴ベクトル前記代表ベクトルとして選択し、
    前記検索質問画像と前記参照画像とは、前記検索質問画像から複数のクエリ特徴ベクトルを生成し、各クエリ特徴ベクトルと各代表ベクトルとの間で近似最近傍探索を適用して照合される画像データベースの作成プログラム。
JP2011502784A 2009-03-04 2010-03-03 画像データベースの作成方法、作成プログラム及び画像検索方法 Expired - Fee Related JP5527555B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011502784A JP5527555B2 (ja) 2009-03-04 2010-03-03 画像データベースの作成方法、作成プログラム及び画像検索方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009050637 2009-03-04
JP2009050637 2009-03-04
PCT/JP2010/053448 WO2010101187A1 (ja) 2009-03-04 2010-03-03 画像データベースの作成方法、作成プログラム及び画像検索方法
JP2011502784A JP5527555B2 (ja) 2009-03-04 2010-03-03 画像データベースの作成方法、作成プログラム及び画像検索方法

Publications (2)

Publication Number Publication Date
JPWO2010101187A1 JPWO2010101187A1 (ja) 2012-09-10
JP5527555B2 true JP5527555B2 (ja) 2014-06-18

Family

ID=42709742

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011502784A Expired - Fee Related JP5527555B2 (ja) 2009-03-04 2010-03-03 画像データベースの作成方法、作成プログラム及び画像検索方法

Country Status (6)

Country Link
US (1) US8649614B2 (ja)
EP (1) EP2405392B1 (ja)
JP (1) JP5527555B2 (ja)
CN (1) CN102341824B (ja)
HK (1) HK1165067A1 (ja)
WO (1) WO2010101187A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5430636B2 (ja) * 2011-11-15 2014-03-05 ヤフー株式会社 データ取得装置、方法及びプログラム
CN103136228A (zh) 2011-11-25 2013-06-05 阿里巴巴集团控股有限公司 一种图片搜索方法以及图片搜索装置
US9734262B2 (en) * 2012-09-05 2017-08-15 Patrick DeLeFevre Method and system for understanding text
CN103324677B (zh) * 2013-05-24 2017-02-01 西安交通大学 一种可分级的快速图像gps位置估计方法
GB2516037A (en) 2013-07-08 2015-01-14 Univ Surrey Compact and robust signature for large scale visual search, retrieval and classification
US9734144B2 (en) * 2014-09-18 2017-08-15 Empire Technology Development Llc Three-dimensional latent semantic analysis
CN105069457B (zh) * 2015-07-15 2020-02-11 杭州易现先进科技有限公司 图像识别方法和装置
CN106933867B (zh) * 2015-12-30 2020-02-21 杭州华为企业通信技术有限公司 一种图像查询方法和装置
CN105718858B (zh) * 2016-01-13 2019-01-11 合肥工业大学 一种基于正负广义最大池化的行人识别方法
CN105718531B (zh) * 2016-01-14 2019-12-17 广州市万联信息科技有限公司 图像数据库的建立方法及图像识别方法
US10489712B2 (en) * 2016-02-26 2019-11-26 Oath Inc. Quality-based scoring and inhibiting of user-generated content
US10437878B2 (en) * 2016-12-28 2019-10-08 Shutterstock, Inc. Identification of a salient portion of an image
US10503775B1 (en) * 2016-12-28 2019-12-10 Shutterstock, Inc. Composition aware image querying
US11042586B2 (en) * 2016-12-29 2021-06-22 Shutterstock, Inc. Clustering search results based on image composition
US10248663B1 (en) * 2017-03-03 2019-04-02 Descartes Labs, Inc. Geo-visual search
CN108536769B (zh) * 2018-03-22 2023-01-03 深圳市安软慧视科技有限公司 图像分析方法、搜索方法及装置、计算机装置及存储介质
CN111177190B (zh) * 2018-11-13 2023-05-30 杭州海康威视数字技术股份有限公司 数据处理方法、装置、电子设备及可读存储介质
CN110442749B (zh) * 2019-07-18 2023-05-23 腾讯音乐娱乐科技(深圳)有限公司 视频帧处理方法及装置
JP7416400B2 (ja) * 2019-10-18 2024-01-17 国立研究開発法人産業技術総合研究所 識別補助データ生成技術及び識別情報抽出技術
US11270155B2 (en) * 2019-11-26 2022-03-08 Dash Hudson Duplicate image detection based on image content
CN112765381B (zh) * 2021-01-18 2025-01-07 深圳市华尊科技股份有限公司 图像检索方法、电子设备及相关产品
CN113159039A (zh) * 2021-02-09 2021-07-23 北京市商汤科技开发有限公司 图像识别方法及装置、电子设备和存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6100901A (en) * 1998-06-22 2000-08-08 International Business Machines Corporation Method and apparatus for cluster exploration and visualization
JP3873793B2 (ja) 2002-03-29 2007-01-24 日本電気株式会社 顔メタデータ生成方法および顔メタデータ生成装置
JP4217664B2 (ja) * 2004-06-28 2009-02-04 キヤノン株式会社 画像処理方法、画像処理装置
US7596618B2 (en) * 2004-12-07 2009-09-29 Hewlett-Packard Development Company, L.P. Splitting a workload of a node
US8046363B2 (en) * 2006-04-13 2011-10-25 Lg Electronics Inc. System and method for clustering documents
JP5096776B2 (ja) * 2007-04-04 2012-12-12 キヤノン株式会社 画像処理装置及び画像検索方法
CN100587715C (zh) 2008-06-21 2010-02-03 华中科技大学 一种基于内容的鲁棒图像拷贝检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200700763025; 上東太一ほか: 'Bag-of-Keypoints表現を用いたWeb画像分類' 情報処理学会研究報告 Vol.2007 No.42, 20070515, 201-208頁, 社団法人情報処理学会 *
CSNG200800937011; 池谷直紀ほか: '3軸加速度センサを用いた移動状況推定方式' 情報処理学会研究報告Vol.2008 No.66 Vol.2008 No.66, 20080718, 75-80頁, 社団法人情報処理学会 Information Processing Socie *

Also Published As

Publication number Publication date
JPWO2010101187A1 (ja) 2012-09-10
US8649614B2 (en) 2014-02-11
WO2010101187A1 (ja) 2010-09-10
EP2405392A1 (en) 2012-01-11
US20110317923A1 (en) 2011-12-29
CN102341824A (zh) 2012-02-01
EP2405392B1 (en) 2015-08-05
EP2405392A4 (en) 2014-09-10
CN102341824B (zh) 2016-05-18
HK1165067A1 (zh) 2012-09-28

Similar Documents

Publication Publication Date Title
JP5527555B2 (ja) 画像データベースの作成方法、作成プログラム及び画像検索方法
JP4883649B2 (ja) 画像認識方法、画像認識装置および画像認識プログラム
JP5294342B2 (ja) 物体認識用画像データベースの作成方法、処理装置および処理用プログラム
JP5818327B2 (ja) 三次元物体認識用画像データベースの作成方法および作成装置
Amato et al. kNN based image classification relying on local feature similarity
Ali et al. A leaf recognition approach to plant classification using machine learning
Amato et al. Geometric consistency checks for kNN based image classification relying on local features
Grycuk et al. Content-based image indexing by data clustering and inverse document frequency
JP6017277B2 (ja) 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法
Biswas et al. An efficient and robust algorithm for shape indexing and retrieval
Khalid et al. Precise shape matching of large shape datasets using hybrid approach
Bakić et al. Inria IMEDIA2's participation at ImageCLEF 2012 plant identification task
Nguyen et al. A symbol spotting approach based on the vector model and a visual vocabulary
Amato et al. Local feature based image similarity functions for knn classification
Belhi et al. CNN Features vs Classical Features for Largescale Cultural Image Retrieval
Guruprasad et al. Multimodal recognition framework: an accurate and powerful Nandinagari handwritten character recognition model
Paliwal et al. A score based indexing scheme for palmprint databases
Zhang et al. Where’s the weet-bix?
Rajput Sketch based image retrieval using grid approach on large scale database
Amato et al. On knn classification and local feature based similarity functions
He et al. Clustering-based descriptors for fingerprint indexing and fast retrieval
CN111242152A (zh) 基于目标提取的图像检索方法
Brogan et al. Needle in a haystack: A framework for seeking small objects in big datasets
Chen et al. Mobile visual search from dynamic image databases
Aly et al. Bag of Words for Large scale object recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140304

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140401

R150 Certificate of patent or registration of utility model

Ref document number: 5527555

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees