JP5191441B2 - インデクス構築方法及び装置及び情報検索方法及び装置及びプログラム - Google Patents
インデクス構築方法及び装置及び情報検索方法及び装置及びプログラム Download PDFInfo
- Publication number
- JP5191441B2 JP5191441B2 JP2009117963A JP2009117963A JP5191441B2 JP 5191441 B2 JP5191441 B2 JP 5191441B2 JP 2009117963 A JP2009117963 A JP 2009117963A JP 2009117963 A JP2009117963 A JP 2009117963A JP 5191441 B2 JP5191441 B2 JP 5191441B2
- Authority
- JP
- Japan
- Prior art keywords
- field
- value
- storage means
- index
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
・全体数
・値の種類(カーディナリティ)
・頻出する値と出現数(コモン値)
を事前に取得しておく。コモン値について補足すると、事前に定めた閾値を超えて出現する値であり、「全体数の1%以上」といった相対数で定めることも多い。
"/レストラン/ジャンル/小分類"、"/レストラン/場所/駅"、"/レストラン/サービス"、"/レストラン/雰囲気"
をこの順でつなげた値をインデクスしておく。図12のデータの場合、
データ0001:"焼き鳥_新宿_飲み放題あり_パーティ向け"
データ0002:"レバノン料理_新宿_デート向け"
という値がインデクスされる。このインデクスに対し、検索要求も
"焼き鳥_新宿_飲み放題あり_パーティ向け"
というつなげた値で行われ、データ001を含めた該当するデータ群を得る。
"/レストラン/ジャンル/小分類"
"/レストラン/場所/駅"
…
といった「項目名+値」をハッシュ値に変換して格納することで適用する(但し、ハッシュ値を使用した場合、異なる値が同一のハッシュ値に重複する場合があるため、再チェックが必要である)。
入力された構造化データを抽出し、フィールド記憶手段から該構造化データのフィールド名に対応するフィールドIDを取得し、
値インデクス記憶手段のフィールドIDに対応するデータ構造に構造化データの値を登録する第1のインデクス作成ステップ(ステップ1)と、
フィールド記憶手段からフィールド名及びフィールドIDを取得し、該フィールドIDに基づいて値インデクス記憶手段から値を取得し、
取得した値から統計情報を算出し、該統計情報のうち集合インデクスの対象とする閾値を超えているフィールド名と値の組であるペアを抽出し、統計情報記憶手段に格納し、
統計情報記憶手段から集合インデクスの対象とするペアを取得し、該ペアに基づいて値インデクス記憶手段から該ペアが出現するデータID群を取得し、
データID群のデータID毎のペアに対し、数値を割り当てて集合インデクス記憶手段に格納する第2のインデクス作成ステップ(ステップ2)と、を行う。
数値として、順序性のある数値、または、ハッシュ値を用いる。
入力された構造化データを抽出し、フィールド記憶手段から該構造化データのフィールド名に対応するフィールドIDを取得し、
値インデクス記憶手段の前記フィールドIDに対応するデータ構造に構造化データの値を登録し、
フィールド記憶手段からフィールド名及びフィールドIDを取得し、該フィールドIDに基づいて前記値インデクス記憶手段から値を取得し、
取得した前記値から統計情報を算出し、該統計情報のうち集合インデクスの対象とする閾値を超えているフィールド名と値の組であるペアを抽出し、統計情報記憶手段に格納し、
統計情報記憶手段から集合インデクスの対象とする前記ペアを取得し、該ペアに基づいて値インデクス記憶手段から該ペアが出現するデータID群を取得し、
データID群のデータID毎のペアに対し、順序性のある数値、または、ハッシュ値を割り当てて集合インデクス記憶手段に格納しておき、
複数の検索条件が入力された場合に、各検索条件に合致する推定数を取得し(ステップ3)、
推定数に基づいて、値インデクス記憶手段に格納されている各項目毎の値のインデクス群または、集合インデクス記憶手段に格納されている集合インデクスのいずれかを用いて検索する(ステップ4)。
構造化データに出現する全てのフィールドのフィールド名及びフィールドIDを格納したフィールド記憶手段1と、
フィールドIDに対応するデータ構造に構造化データの値を保持する値インデクス記憶手段2と、
フィールド毎に統計情報を格納する統計情報記憶手段3と、
全てのフィールドに頻出する値を格納する集合インデクス記憶手段4と、
入力された構造化データを抽出し、フィールド記憶手段1から該構造化データのフィールド名に対応するフィールドIDを取得する手段と、
値インデクス記憶手段2のフィールドIDに対応するデータ構造に構造化データの値を登録する手段と、
フィールド記憶手段1からフィールド名及びフィールドIDを取得し、該フィールドIDに基づいて値インデクス記憶手2段から値を取得する手段と、
取得した値から統計情報を算出し、該統計情報のうち集合インデクスの対象とする閾値を超えているフィールド名と値の組であるペアを抽出し、統計情報記憶手段3に格納する手段と、
統計情報記憶手段3から集合インデクスの対象とするペアを取得し、該ペアに基づいて値インデクス記憶手段2から該ペアが出現するデータID群を取得する手段と、
データID群のデータID毎のペアに対し、数値を割り当てて集合インデクス記憶手段4に格納する手段と、を有する。
構造化データに出現する全てのフィールドのフィールド名及びフィールドIDを格納したフィールド記憶手段1と、
フィールドIDに対応するデータ構造に構造化データの値を保持する値インデクス記憶手段2と、
フィールド毎に統計情報を格納する統計情報記憶手段3と、
全てのフィールドに頻出する値を格納する集合インデクス記憶手段4と、
入力された構造化データを抽出し、フィールド記憶手段1から該構造化データのフィールド名に対応するフィールドIDを取得する手段と、
値インデクス記憶手段2のフィールドIDに対応するデータ構造に構造化データの値を登録する手段と、
フィールド記憶手段1からフィールド名及びフィールドIDを取得し、該フィールドIDに基づいて値インデクス記憶手段2から値を取得する手段と、
取得した前記値から統計情報を算出し、該統計情報のうち集合インデクスの対象とする閾値を超えているフィールド名と値の組であるペアを抽出し、統計情報記憶手段3に格納する手段と、
統計情報記憶手段3から集合インデクスの対象とするペアを取得し、該ペアに基づいて値インデクス記憶手段2から該ペアが出現するデータID群を取得する手段と、
データID群のデータID毎のペアに対し、数値を割り当てて集合インデクス記憶手段4に格納する手段と、
複数の検索条件が入力された場合に、各検索条件に合致する推定数を取得する手段と、
推定数に基づいて、値インデクス記憶手段2に格納されている各項目毎の値のインデクス群または、集合インデクス記憶手段4に格納されている集合インデクスのいずれかを用いて検索する手段と、を有する。
2 値インデクス記憶手段、値インデクス部
3 統計情報記憶手段、統計情報管理部
4 集合インデクス記憶手段、集合インデクス部
5 インデクス構築手段、インデクス構築部
6 検索手段、検索部
Claims (8)
- 複数の項目を持つ大量の構造化データ群に対して、蓄積・検索する情報処理システムにおけるインデクス構築方法であって、
入力された構造化データを抽出し、フィールド記憶手段から該構造化データのフィールド名に対応するフィールドIDを取得し、
値インデクス記憶手段の前記フィールドIDに対応するデータ構造に前記構造化データの値を登録する第1のインデクス作成ステップと、
前記フィールド記憶手段からフィールド名及びフィールドIDを取得し、該フィールドIDに基づいて前記値インデクス記憶手段から値を取得し、
取得した前記値から統計情報を算出し、該統計情報のうち集合インデクスの対象とする閾値を超えているフィールド名と値の組であるペアを抽出し、統計情報記憶手段に格納し、
前記統計情報記憶手段から集合インデクスの対象とする前記ペアを取得し、該ペアに基づいて前記値インデクス記憶手段から該ペアが出現するデータID群を取得し、
前記データID群のデータID毎のペアに対し、数値を割り当てて集合インデクス記憶手段に格納する第2のインデクス作成ステップと、
を行うことを特徴とするインデクス構築方法。 - 前記第2のインデクス作成ステップにおいて、
前記数値として、順序性のある数値、または、ハッシュ値を用いる
請求項1記載のインデクス構築方法。 - 複数の項目を持つ大量の構造化データ群に対して、蓄積・検索する情報処理システムにおける情報検索方法であって、
入力された構造化データを抽出し、フィールド記憶手段から該構造化データのフィールド名に対応するフィールドIDを取得し、
値インデクス記憶手段の前記フィールドIDに対応するデータ構造に前記構造化データの値を登録し、
前記フィールド記憶手段からフィールド名及びフィールドIDを取得し、該フィールドIDに基づいて前記値インデクス記憶手段から値を取得し、
取得した前記値から統計情報を算出し、該統計情報のうち集合インデクスの対象とする閾値を超えているフィールド名と値の組であるペアを抽出し、統計情報記憶手段に格納し、
前記統計情報記憶手段から集合インデクスの対象とする前記ペアを取得し、該ペアに基づいて前記値インデクス記憶手段から該ペアが出現するデータID群を取得し、
前記データID群のデータID毎のペアに対し、順序性のある数値、または、ハッシュ値を割り当てて集合インデクス記憶手段に格納しておき、
複数の検索条件が入力された場合に、各検索条件に合致する推定数を取得し、
前記推定数に基づいて、前記値インデクス記憶手段に格納されている各項目毎の値のインデクス群、または、前記集合インデクス記憶手段に格納されている集合インデクスのいずれかを用いて検索する
ことを特徴とする情報検索方法。 - 複数の項目を持つ大量の構造化データ群に対して、蓄積・検索する情報処理システムにおけるインデクス構築装置であって、
構造化データに出現する全てのフィールドのフィールド名及びフィールドIDを格納したフィールド記憶手段と、
前記フィールドIDに対応するデータ構造に前記構造化データの値を保持する値インデクス記憶手段と、
フィールド毎に統計情報を格納する統計情報記憶手段と、
全てのフィールドに頻出する値を格納する集合インデクス記憶手段と、
入力された構造化データを抽出し、前記フィールド記憶手段から該構造化データのフィールド名に対応するフィールドIDを取得する手段と、
前記値インデクス記憶手段の前記フィールドIDに対応するデータ構造に前記構造化データの値を登録する手段と、
前記フィールド記憶手段からフィールド名及びフィールドIDを取得し、該フィールドIDに基づいて前記値インデクス記憶手段から値を取得する手段と、
取得した前記値から統計情報を算出し、該統計情報のうち集合インデクスの対象とする閾値を超えているフィールド名と値の組であるペアを抽出し、統計情報記憶手段に格納する手段と、
前記統計情報記憶手段から集合インデクスの対象とする前記ペアを取得し、該ペアに基づいて前記値インデクス記憶手段から該ペアが出現するデータID群を取得する手段と、
前記データID群のデータID毎のペアに対し、数値を割り当てて集合インデクス記憶手段に格納する手段と、
を有することを特徴とするインデクス構築装置。 - 前記データID群のデータID毎のペアに対して割り当てる前記数値として、順序性のある数値、または、ハッシュ値を用いる
請求項4記載のインデクス構築装置。 - 複数の項目を持つ大量の構造化データ群に対して、蓄積・検索する情報処理システムにおける情報検索装置であって、
構造化データに出現する全てのフィールドのフィールド名及びフィールドIDを格納したフィールド記憶手段と、
前記フィールドIDに対応するデータ構造に前記構造化データの値を保持する値インデクス記憶手段と、
フィールド毎に統計情報を格納する統計情報記憶手段と、
全てのフィールドに頻出する値を格納する集合インデクス記憶手段と、
入力された構造化データを抽出し、前記フィールド記憶手段から該構造化データのフィールド名に対応するフィールドIDを取得する手段と、
前記値インデクス記憶手段の前記フィールドIDに対応するデータ構造に前記構造化データの値を登録する手段と、
前記フィールド記憶手段からフィールド名及びフィールドIDを取得し、該フィールドIDに基づいて前記値インデクス記憶手段から値を取得する手段と、
取得した前記値から統計情報を算出し、該統計情報のうち集合インデクスの対象とする閾値を超えているフィールド名と値の組であるペアを抽出し、統計情報記憶手段に格納する手段と、
前記統計情報記憶手段から集合インデクスの対象とする前記ペアを取得し、該ペアに基づいて前記値インデクス記憶手段から該ペアが出現するデータID群を取得する手段と、
前記データID群のデータID毎のペアに対し、数値を割り当てて集合インデクス記憶手段に格納する手段と、
複数の検索条件が入力された場合に、各検索条件に合致する推定数を取得する手段と、
前記推定数に基づいて、前記値インデクス記憶手段に格納されている各項目毎の値のインデクス群または、前記集合インデクス記憶手段に格納されている集合インデクスのいずれかを用いて検索する手段と、
を有することを特徴とする情報検索装置。 - 請求項4または5記載のインデクス構築装置を構成する各手段としてコンピュータを機能させるためのインデクス構築プログラム。
- 請求項6記載の情報検索装置を構成する各手段としてコンピュータを機能させるための情報検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009117963A JP5191441B2 (ja) | 2009-05-14 | 2009-05-14 | インデクス構築方法及び装置及び情報検索方法及び装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009117963A JP5191441B2 (ja) | 2009-05-14 | 2009-05-14 | インデクス構築方法及び装置及び情報検索方法及び装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010267080A JP2010267080A (ja) | 2010-11-25 |
JP5191441B2 true JP5191441B2 (ja) | 2013-05-08 |
Family
ID=43363999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009117963A Expired - Fee Related JP5191441B2 (ja) | 2009-05-14 | 2009-05-14 | インデクス構築方法及び装置及び情報検索方法及び装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5191441B2 (ja) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4860416B2 (ja) * | 2006-09-29 | 2012-01-25 | 株式会社ジャストシステム | 文書検索装置、文書検索方法および文書検索プログラム |
JP4374014B2 (ja) * | 2006-11-21 | 2009-12-02 | 株式会社日立製作所 | インデクス生成装置及びそのプログラム |
JP4839195B2 (ja) * | 2006-12-12 | 2011-12-21 | 日本電信電話株式会社 | Xml文書の適合度の算出方法およびそのプログラムと、情報処理装置 |
-
2009
- 2009-05-14 JP JP2009117963A patent/JP5191441B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010267080A (ja) | 2010-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wylot et al. | RDF data storage and query processing schemes: A survey | |
JP6617117B2 (ja) | 半構造データのためのスケーラブルな分析プラットフォーム | |
CN109388637B (zh) | 数据仓库信息处理方法、装置、系统、介质 | |
US9798772B2 (en) | Using persistent data samples and query-time statistics for query optimization | |
Zhang et al. | Bed-tree: an all-purpose index structure for string similarity search based on edit distance | |
CN104462582B (zh) | 一种基于结构和内容二级过滤的Web数据相似性检测方法 | |
CN111627552B (zh) | 一种医疗流式数据血缘关系分析、存储方法及装置 | |
CN111858601B (zh) | 树形结构数据查询方法、装置、设备及存储介质 | |
CN111506621B (zh) | 一种数据统计方法及装置 | |
JPWO2014109109A1 (ja) | インデックスキー生成装置及びインデックスキー生成方法並びに検索方法 | |
CN113779349A (zh) | 数据检索系统、装置、电子设备和可读存储介质 | |
CN116034349A (zh) | 列式分析存储格式的半结构化数据的概率文本索引 | |
Sun et al. | Dima: A distributed in-memory similarity-based query processing system | |
Kricke et al. | Graph data transformations in Gradoop | |
CN116186041A (zh) | 数据湖索引创建方法、装置、电子设备及计算机存储介质 | |
JP5470082B2 (ja) | 情報蓄積検索方法及び情報蓄積検索プログラム | |
KR20180077830A (ko) | 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치 | |
Chu et al. | Automatic data extraction of websites using data path matching and alignment | |
US20190012361A1 (en) | Highly atomized segmented and interrogatable data systems (hasids) | |
CN112800083A (zh) | 一种面向政府决策的政务大数据分析方法及设备 | |
CN117472940A (zh) | 数据血缘关系构建方法和装置、电子设备及存储介质 | |
CN116975098A (zh) | 查询计划构建方法、装置、电子设备和存储介质 | |
CN110825792A (zh) | 基于golang中间件协程模式下的高并发分布式数据检索方法 | |
JP5191441B2 (ja) | インデクス構築方法及び装置及び情報検索方法及び装置及びプログラム | |
JP7211255B2 (ja) | 検索処理プログラム、検索処理方法及び情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110825 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130129 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5191441 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160208 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |