JP2009289196A - 情報検索プログラム、情報管理プログラム、情報検索装置、情報管理装置、情報検索方法、および情報管理方法 - Google Patents
情報検索プログラム、情報管理プログラム、情報検索装置、情報管理装置、情報検索方法、および情報管理方法 Download PDFInfo
- Publication number
- JP2009289196A JP2009289196A JP2008143527A JP2008143527A JP2009289196A JP 2009289196 A JP2009289196 A JP 2009289196A JP 2008143527 A JP2008143527 A JP 2008143527A JP 2008143527 A JP2008143527 A JP 2008143527A JP 2009289196 A JP2009289196 A JP 2009289196A
- Authority
- JP
- Japan
- Prior art keywords
- compressed file
- archive
- compressed
- file group
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/1727—Details of free space management performed by the file system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/172—Caching, prefetching or hoarding of files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0866—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches for peripheral storage systems, e.g. disk cache
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/12—Replacement control
- G06F12/121—Replacement control using replacement algorithms
- G06F12/122—Replacement control using replacement algorithms of the least frequently used [LFU] type, e.g. with individual count value
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】アーカイブ200は、書庫領域201と管理領域202とデータ領域203とを有する。データ領域203には、圧縮ファイル群f(圧縮ファイルf1〜fn)が記憶されている。アーカイブ200はその記憶領域230に格納されており、一部の圧縮ファイル群f´がキャッシュ領域240に格納される。ここで、キャッシュ領域240とは、アーカイブ200の記憶領域230に対して相対的に決まる記憶領域230であり、アーカイブ200の記憶領域230よりも高速アクセスできる領域である。たとえば、アーカイブ200の記憶領域230が磁気ディスクである場合、キャッシュ領域240はメインメモリやキャッシュメモリとなる。
【選択図】図2
Description
狭義のアーカイブとは、一般に、複数のフォルダとその配下の多くのファイルを1ファイル化する技術である。電子メールなどに添付し送受信され、データ交換などの目的に利用されており、圧縮技術との組合せが多いことから、広義では、圧縮の付属技術として紹介されることもある。インターネットの普及とともに、アーカイブ技術が進歩し、その操作性や圧縮方式と組合せ、多種・多様なツールが開発された。パソコンなどのハードウェアの進歩は目ざましく、特にCPUの高速化、メモリやハードディスクや光ディスクなどの媒体の大容量化は顕著である。
図1は、実施の形態1にかかる情報検索装置のハードウェア構成を示すブロック図である。図1において、情報検索装置は、CPU(Central Processing Unit)101と、ROM(Read‐Only Memory)102と、RAM(Random Access Memory)103と、磁気ディスクドライブ104と、磁気ディスク105と、光ディスクドライブ106と、着脱可能な記録媒体の一例としての光ディスク107と、ディスプレイ108と、I/F(Interface)109と、キーボード110と、マウス111と、スキャナ112と、プリンタ113と、を備えている。また、各構成部はバス100によってそれぞれ接続されている。
図2は、アーカイブの記憶内容を示す説明図である。アーカイブは、図1に示したRAM103、磁気ディスク105などの記憶領域に記憶されている。アーカイブ200は、書庫領域201と管理領域202とデータ領域203とを有する。書庫領域201には、文字出現マップ連携テーブル211とファイルパス連携テーブル212と仮想アーカイブ容量テーブル213とが記憶されている。管理領域202には、圧縮パラメータ221とファイルパステーブル222と文字出現マップM(単字出現マップM1および連字出現マップM2)とが記憶されている。データ領域203には、圧縮ファイル群f(圧縮ファイルf1〜fn)が記憶されている。
図11は、情報検索装置の機能的構成を示すブロック図である。情報検索装置1100は、並び替え処理部1101と、積算部1102と、書込み部1103と、設定部1104と、入力部1105と、特定部1106と、読出し部1107と、伸長部1108と、検索部1109と、出力部1110と、更新部1111と、を含む構成である。
図13は、情報検索装置1100の仮想アーカイブ設定機能が実行する仮想アーカイブ設定処理手順を示すフローチャートである。まず、並び替え処理部1101により、文字出現マップ連携テーブル211を、アクセス頻度の降順にソートする(ステップS1301)。ここで、並び替え後の順位kをk=1とし(ステップS1302)、積算部1102により、順位1〜k+1までの圧縮ファイルの合計サイズを計算する(ステップS1303)。そして、合計サイズs(1_k+1)が、s(1_k+1)>Tsであるか否かを判断する(ステップS1304)。ここで、Tsはキャッシュ領域240に記憶可能な最大の記憶容量である。
図14は、情報検索装置1100の情報検索機能が実行する情報検索処理手順を示すフローチャートである。入力部1105により、検索文字列の入力を受け付ける(ステップS1401)。そして、検索文字列を単字または連字(以下、単に「文字」)に分解する(ステップS1402)。つぎに、分解された文字ごとのビット列を文字出現マップMから抽出して(ステップS1403)、抽出されたビット列を同一ビット番号で論理積演算する(ステップS1404)。
つぎに、実施の形態2について説明する。インターネットでのサイト検索などは、定期的に各サイトの更新を監視し、形態素解析を行った要約データをもとに、大規模なインデックスを作成し、全文検索が行われている。サイトのデータ量の増大に対し、従来では、各サイトの監視の処理の高速化とスループットの増加、複数のコンピュータによる検索のスケーラビリティが課題となっている。
図18は、アーカイブ200−1の圧縮符号テーブルおよび圧縮パラメータ221を示す説明図である。ここでは、説明を単純化するため、アーカイブ200−1に含まれる圧縮された検索対象ファイル群には、文字a〜fが記述されているものとする。図18中、(A)はアーカイブ200−1の圧縮符号テーブル1800であり、(B)はアーカイブ200−1の圧縮パラメータP1である。圧縮符号テーブル1800において、出現回数が高い文字ほど短い圧縮符号が割り当てられている。
つぎに、実施の形態2におけるアーカイブの再構成について説明する。ここでは、上述したアーカイブ200−1とアーカイブ200−2とを統合して、統合アーカイブAを生成する。まず、アーカイブ200−1の記憶内容について説明する。
図47は、マスターサーバー1501(情報管理装置)の機能的構成を示すブロック図である。マスターサーバー1501は、受信部4701と、共通圧縮パラメータ生成部4702と、共通ハフマン木生成部4703と、伸長部4704と、圧縮部4705と、再構成部4706と、送信部4707と、を含む構成である。受信部4701〜送信部4707は、具体的には、たとえば、図1に示したROM102、RAM103、磁気ディスク105などの記憶領域に記憶されたプログラムをCPU101に実行させることによって、または、I/F109によってその機能を実現する。
つぎに、マスターサーバー1501によるアーカイブ再構成処理手順について説明する。図48および図49は、マスターサーバー1501によるアーカイブ再構成処理手順を示すフローチャートである。図48において、まず、受信部4701により、各スレーブサーバー1502−1〜1502−Nのアーカイブ200−1〜200−Nとハフマン木h−1〜h−Nとを収集する(ステップS4801)。
つぎに、実施の形態3について説明する。実施の形態3は、実施の形態2の一部を改良した構成である。実施の形態2では、各アーカイブ200−Iの圧縮ファイル群を、その圧縮に用いられたハフマン木h−Iでそれぞれ伸長する工程と、伸長された検索対象ファイル群を共通ハフマン木Hで再圧縮する工程とを実行する。この伸長および再圧縮という2パス処理をおこなっておくことにより、各スレーブサーバー1502−Iにおいて、共通ハフマン木Hを用いて圧縮/伸長することができる構成としている。
図54は、実施の形態3にかかるマスターサーバー1501(情報管理装置)の機能的構成を示すブロック図である。マスターサーバー1501は、実施の形態2で説明した構成のほか、選択部5401と、特定部5402と、設定部5403と、変換部5404と、を含む構成である。選択部5401〜変換部5404は、具体的には、たとえば、図1に示したROM102、RAM103、磁気ディスク105などの記憶領域に記憶されたプログラムをCPU101に実行させることによって、または、I/F109によってその機能を実現する。
つぎに、実施の形態3におけるマスターサーバー1501によるアーカイブ再構成処理手順について説明する。図55は、マスターサーバー1501によるアーカイブ再構成処理手順(後半)を示すフローチャートである。なお、再構成処理手順(前半)は、図48と同一であるため、説明を省略する。
前記各圧縮ファイルへのアクセス頻度の高い順に並び替える並び替え手段、
前記圧縮ファイル群が記憶されている記憶領域に対するキャッシュ領域の記憶容量を超えないように、前記並び替え手段による並び替え後のアクセス頻度の高い順から前記圧縮ファイルのサイズを積算する積算手段、
前記積算手段によって積算された圧縮ファイル群を、当該ファイル群の検索に先立って、前記記憶領域からキャッシュ領域に書き込む書込み手段、
として機能させることを特徴とする情報検索プログラム。
前記キャッシュ領域の記憶容量を超えない最大の積算値となるように、前記並び替え手段による並び替え後のアクセス頻度の高い順から前記圧縮ファイルのサイズを積算し、
前記書込み手段は、
前記最大の積算値として積算された圧縮ファイル群を、当該ファイル群の検索に先立って、前記記憶領域からキャッシュ領域に書き込む書込み手段、
として機能させることを特徴とする情報検索プログラム。
前記書込み手段によって前記キャッシュ領域に書き込まれた圧縮ファイル群について常駐フラグを設定する設定手段、
検索文字列の入力を受け付ける入力手段、
前記圧縮ファイルごとの文字の存否を特定する文字出現マップを参照することにより、前記入力手段によって入力された検索文字列を構成するすべての文字が存在する圧縮ファイルを特定する特定手段、
前記特定手段によって特定された圧縮ファイルを、前記設定手段によって設定された常駐フラグに基づく領域から読み出す読出し手段、
前記読出し手段によって読み出された圧縮ファイルを伸長する伸長手段、
前記伸長手段によって伸長された検索対象ファイルを出力する出力手段、
として機能させることを特徴とする付記1または2に記載の情報検索プログラム。
前記伸長手段によって伸長された検索対象ファイルの中から前記検索文字列に一致または関連する文字列を検索する検索手段として機能させ、
前記出力手段は、
前記検索手段によって検索された検索結果を出力することを特徴とする付記3に記載の情報検索プログラム。
前記伸長手段によって前記圧縮ファイルが伸長された場合、当該圧縮ファイルへのアクセス頻度を更新する更新手段として機能させ、
前記並び替え手段は、
前記更新手段によって更新された更新後のアクセス頻度に基づいて、前記各圧縮ファイルへのアクセス頻度の高い順に並び替えることを特徴とする付記3または4に記載の情報検索プログラム。
前記検索手段によって検索対象ファイルが検索された場合、当該検索対象ファイルが圧縮された圧縮ファイルへのアクセス頻度を更新する更新手段として機能させ、
前記並び替え手段は、
前記更新手段によって更新された更新後のアクセス頻度に基づいて、前記各圧縮ファイルへのアクセス頻度の高い順に並び替えることを特徴とする付記4に記載の情報検索プログラム。
前記各スレーブサーバーから前記アーカイブを受信する受信手段、
前記受信手段によって受信されたアーカイブごとの前記検索対象ファイル群に記述されている各文字および当該各文字の出現頻度に関する圧縮パラメータに基づいて、前記出現頻度を前記文字ごとに集計することにより、前記各圧縮ファイル群に共通の圧縮パラメータを生成する圧縮パラメータ生成手段、
前記圧縮パラメータ生成手段によって生成された共通の圧縮パラメータに基づいて、前記各圧縮ファイル群に共通のハフマン木を生成する共通ハフマン木生成手段、
前記圧縮ファイルへのアクセス頻度の合計が互いに近似するように、前記各スレーブサーバーに前記圧縮ファイルを割り当てる割当手段、
前記割当手段によって前記各スレーブサーバーに割り当てられた圧縮ファイル群を含むあらたなアーカイブと前記共通ハフマン木生成手段によって生成された共通のハフマン木とを、割当先となるスレーブサーバーに送信する送信手段、
として機能させることを特徴とする情報管理プログラム。
前記アーカイブごとに、当該アーカイブに含まれている圧縮ファイル群を、当該圧縮ファイル群の圧縮に用いられた圧縮パラメータに基づくハフマン木により伸長する伸長手段、
前記伸長手段によって伸長された検索対象ファイル群を、前記共通のハフマン木により圧縮する圧縮手段として機能させ、
前記割当手段は、
前記圧縮手段によって圧縮された再圧縮ファイルの元となる圧縮ファイルへのアクセス頻度の合計が互いに近似するように、前記各スレーブサーバーに前記再圧縮ファイルを割り当て、
前記送信手段は、
前記再圧縮ファイル群を含むあらたなアーカイブと前記共通のハフマン木とを、前記割当先となるスレーブサーバーに送信することを特徴とする付記7に記載の情報管理プログラム。
前記アーカイブごとに、当該アーカイブ内の圧縮ファイル群の圧縮に用いられたハフマン木から任意の葉を順次選択する選択手段、
前記選択手段によって順次選択された葉で伸長される文字と同一文字の葉を、前記共通のハフマン木から特定する特定手段、
前記ハフマン木における前記選択された葉に、当該選択された葉で伸長される文字に代えて、前記特定手段によって特定された葉に割り当てられた圧縮符号を設定する設定手段、
前記設定手段による設定後のハフマン木を用いて、前記アーカイブ内の圧縮ファイル群を、前記設定手段によって設定された圧縮符号で圧縮された圧縮ファイル群に変換する変換手段として機能させ、
前記割当手段は、
前記変換手段によって変換された変換後の圧縮ファイルの変換元となる圧縮ファイルへのアクセス頻度の合計が互いに近似するように、前記各スレーブサーバーに前記変換後の圧縮ファイルを割り当て、
前記送信手段は、
前記変換手段による変換後の圧縮ファイル群を含むアーカイブと前記共通のハフマン木とを、前記割当先となるスレーブサーバーに送信することを特徴とする付記7に記載の情報管理プログラム。
前記アクセス頻度の順位の合計が互いに近似するように割り当てることを特徴とする付記7〜9のいずれか一つに記載の情報管理プログラム。
前記各圧縮ファイルへのアクセス頻度の高い順に並び替える並び替え手段と、
前記圧縮ファイル群が記憶されている記憶領域に対するキャッシュ領域の記憶容量を超えないように、前記並び替え手段による並び替え後のアクセス頻度の高い順から前記圧縮ファイルのサイズを積算する積算手段と、
前記積算手段によって積算された圧縮ファイル群を、当該ファイル群の検索に先立って、前記記憶領域からキャッシュ領域に書き込む書込み手段と、
を備えることを特徴とする情報検索装置。
前記各スレーブサーバーから前記アーカイブを受信する受信手段と、
前記受信手段によって受信されたアーカイブごとの前記検索対象ファイル群に記述されている各文字および当該各文字の出現頻度に関する圧縮パラメータに基づいて、前記出現頻度を前記文字ごとに集計することにより、前記各圧縮ファイル群に共通の圧縮パラメータを生成する圧縮パラメータ生成手段と、
前記圧縮パラメータ生成手段によって生成された共通の圧縮パラメータに基づいて、前記各圧縮ファイル群に共通のハフマン木を生成する共通ハフマン木生成手段と、
前記圧縮ファイルへのアクセス頻度の合計が互いに近似するように、前記各スレーブサーバーに前記圧縮ファイルを割り当てる割当手段と、
前記割当手段によって前記各スレーブサーバーに割り当てられた圧縮ファイル群を含むあらたなアーカイブと前記共通ハフマン木生成手段によって生成された共通のハフマン木とを、割当先となるスレーブサーバーに送信する送信手段と、
を備えることを特徴とする情報管理装置。
前記各圧縮ファイルへのアクセス頻度の高い順に並び替える並び替え工程と、
前記圧縮ファイル群が記憶されている記憶領域に対するキャッシュ領域の記憶容量を超えないように、前記並び替え工程による並び替え後のアクセス頻度の高い順から前記圧縮ファイルのサイズを積算する積算工程と、
前記積算工程によって積算された圧縮ファイル群を、当該ファイル群の検索に先立って、前記記憶領域からキャッシュ領域に書き込む書込み工程と、
を実行することを特徴とする情報検索方法。
前記各スレーブサーバーから前記アーカイブを受信する受信工程と、
前記受信工程によって受信されたアーカイブごとの前記検索対象ファイル群に記述されている各文字および当該各文字の出現頻度に関する圧縮パラメータに基づいて、前記出現頻度を前記文字ごとに集計することにより、前記各圧縮ファイル群に共通の圧縮パラメータを生成する圧縮パラメータ生成工程と、
前記圧縮パラメータ生成工程によって生成された共通の圧縮パラメータに基づいて、前記各圧縮ファイル群に共通のハフマン木を生成する共通ハフマン木生成工程と、
前記圧縮ファイルへのアクセス頻度の合計が互いに近似するように、前記各スレーブサーバーに前記圧縮ファイルを割り当てる割当工程と、
前記割当工程によって前記各スレーブサーバーに割り当てられた圧縮ファイル群を含むあらたなアーカイブと前記共通ハフマン木生成工程によって生成された共通のハフマン木とを、割当先となるスレーブサーバーに送信する送信工程と、
を実行することを特徴とする情報管理方法。
1101 並び替え処理部
1102 積算部
1103 書込み部
1104 設定部
1105 入力部
1106 特定部
1107 読出し部
1108 伸長部
1109 検索部
1110 出力部
1111 更新部
1500 検索システム
1501 マスターサーバー
1502 スレーブサーバー群
4701 受信部
4702 共通圧縮パラメータ生成部
4703 共通ハフマン木生成部
4704 伸長部
4705 圧縮部
4706 再構成部
4707 送信部
4711 統合部
4712 割当部
4713 アーカイブ生成部
5401 選択部
5402 特定部
5403 設定部
5404 変換部
Claims (8)
- 文字列が記述された検索対象ファイルが圧縮された圧縮ファイル群を含むアーカイブにアクセス可能なコンピュータを、
前記各圧縮ファイルへのアクセス頻度の高い順に並び替える並び替え手段、
前記圧縮ファイル群が記憶されている記憶領域に対するキャッシュ領域の記憶容量を超えないように、前記並び替え手段による並び替え後のアクセス頻度の高い順から前記圧縮ファイルのサイズを積算する積算手段、
前記積算手段によって積算された圧縮ファイル群を、当該ファイル群の検索に先立って、前記記憶領域からキャッシュ領域に書き込む書込み手段、
として機能させることを特徴とする情報検索プログラム。 - 前記積算手段は、
前記キャッシュ領域の記憶容量を超えない最大の積算値となるように、前記並び替え手段による並び替え後のアクセス頻度の高い順から前記圧縮ファイルのサイズを積算し、
前記書込み手段は、
前記最大の積算値として積算された圧縮ファイル群を、当該ファイル群の検索に先立って、前記記憶領域からキャッシュ領域に書き込む書込み手段、
として機能させることを特徴とする情報検索プログラム。 - 前記コンピュータを、
前記書込み手段によって前記キャッシュ領域に書き込まれた圧縮ファイル群について常駐フラグを設定する設定手段、
検索文字列の入力を受け付ける入力手段、
前記圧縮ファイルごとの文字の存否を特定する文字出現マップを参照することにより、前記入力手段によって入力された検索文字列を構成するすべての文字が存在する圧縮ファイルを特定する特定手段、
前記特定手段によって特定された圧縮ファイルを、前記設定手段によって設定された常駐フラグに基づく領域から読み出す読出し手段、
前記読出し手段によって読み出された圧縮ファイルを伸長する伸長手段、
前記伸長手段によって伸長された検索対象ファイルを出力する出力手段、
として機能させることを特徴とする請求項1または2に記載の情報検索プログラム。 - 文字列が記述された検索対象ファイルが圧縮された圧縮ファイル群を含むアーカイブを記憶する複数のスレーブサーバーにアクセス可能なマスターサーバーを、
前記各スレーブサーバーから前記アーカイブを受信する受信手段、
前記受信手段によって受信されたアーカイブごとの前記検索対象ファイル群に記述されている各文字および当該各文字の出現頻度に関する圧縮パラメータに基づいて、前記出現頻度を前記文字ごとに集計することにより、前記各圧縮ファイル群に共通の圧縮パラメータを生成する圧縮パラメータ生成手段、
前記圧縮パラメータ生成手段によって生成された共通の圧縮パラメータに基づいて、前記各圧縮ファイル群に共通のハフマン木を生成する共通ハフマン木生成手段、
前記圧縮ファイルへのアクセス頻度の合計が互いに近似するように、前記各スレーブサーバーに前記圧縮ファイルを割り当てる割当手段、
前記割当手段によって前記各スレーブサーバーに割り当てられた圧縮ファイル群を含むあらたなアーカイブと前記共通ハフマン木生成手段によって生成された共通のハフマン木とを、割当先となるスレーブサーバーに送信する送信手段、
として機能させることを特徴とする情報管理プログラム。 - 文字列が記述された検索対象ファイルが圧縮された圧縮ファイル群を含むアーカイブにアクセス可能な情報検索装置であって、
前記各圧縮ファイルへのアクセス頻度の高い順に並び替える並び替え手段と、
前記圧縮ファイル群が記憶されている記憶領域に対するキャッシュ領域の記憶容量を超えないように、前記並び替え手段による並び替え後のアクセス頻度の高い順から前記圧縮ファイルのサイズを積算する積算手段と、
前記積算手段によって積算された圧縮ファイル群を、当該ファイル群の検索に先立って、前記記憶領域からキャッシュ領域に書き込む書込み手段と、
を備えることを特徴とする情報検索装置。 - 文字列が記述された検索対象ファイルが圧縮された圧縮ファイル群を含むアーカイブを記憶する複数のスレーブサーバーにアクセス可能な情報管理装置であって、
前記各スレーブサーバーから前記アーカイブを受信する受信手段と、
前記受信手段によって受信されたアーカイブごとの前記検索対象ファイル群に記述されている各文字および当該各文字の出現頻度に関する圧縮パラメータに基づいて、前記出現頻度を前記文字ごとに集計することにより、前記各圧縮ファイル群に共通の圧縮パラメータを生成する圧縮パラメータ生成手段と、
前記圧縮パラメータ生成手段によって生成された共通の圧縮パラメータに基づいて、前記各圧縮ファイル群に共通のハフマン木を生成する共通ハフマン木生成手段と、
前記圧縮ファイルへのアクセス頻度の合計が互いに近似するように、前記各スレーブサーバーに前記圧縮ファイルを割り当てる割当手段と、
前記割当手段によって前記各スレーブサーバーに割り当てられた圧縮ファイル群を含むあらたなアーカイブと前記共通ハフマン木生成手段によって生成された共通のハフマン木とを、割当先となるスレーブサーバーに送信する送信手段と、
を備えることを特徴とする情報管理装置。 - 文字列が記述された検索対象ファイルが圧縮された圧縮ファイル群を含むアーカイブにアクセス可能な情報検索装置が、
前記各圧縮ファイルへのアクセス頻度の高い順に並び替える並び替え工程と、
前記圧縮ファイル群が記憶されている記憶領域に対するキャッシュ領域の記憶容量を超えないように、前記並び替え工程による並び替え後のアクセス頻度の高い順から前記圧縮ファイルのサイズを積算する積算工程と、
前記積算工程によって積算された圧縮ファイル群を、当該ファイル群の検索に先立って、前記記憶領域からキャッシュ領域に書き込む書込み工程と、
を実行することを特徴とする情報検索方法。 - 文字列が記述された検索対象ファイルが圧縮された圧縮ファイル群を含むアーカイブを記憶する複数のスレーブサーバーにアクセス可能なマスターサーバーが、
前記各スレーブサーバーから前記アーカイブを受信する受信工程と、
前記受信工程によって受信されたアーカイブごとの前記検索対象ファイル群に記述されている各文字および当該各文字の出現頻度に関する圧縮パラメータに基づいて、前記出現頻度を前記文字ごとに集計することにより、前記各圧縮ファイル群に共通の圧縮パラメータを生成する圧縮パラメータ生成工程と、
前記圧縮パラメータ生成工程によって生成された共通の圧縮パラメータに基づいて、前記各圧縮ファイル群に共通のハフマン木を生成する共通ハフマン木生成工程と、
前記圧縮ファイルへのアクセス頻度の合計が互いに近似するように、前記各スレーブサーバーに前記圧縮ファイルを割り当てる割当工程と、
前記割当工程によって前記各スレーブサーバーに割り当てられた圧縮ファイル群を含むあらたなアーカイブと前記共通ハフマン木生成工程によって生成された共通のハフマン木とを、割当先となるスレーブサーバーに送信する送信工程と、
を実行することを特徴とする情報管理方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008143527A JP5782214B2 (ja) | 2008-05-30 | 2008-05-30 | 情報検索プログラム、情報検索装置および情報検索方法 |
US12/361,316 US8037035B2 (en) | 2008-05-30 | 2009-01-28 | Apparatus for searching and managing compressed files |
US13/232,089 US20120005172A1 (en) | 2008-05-30 | 2011-09-14 | Information searching apparatus, information managing apparatus, information searching method, information managing method, and computer product |
US15/044,781 US9858282B2 (en) | 2008-05-30 | 2016-02-16 | Information searching apparatus, information managing apparatus, information searching method, information managing method, and computer product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008143527A JP5782214B2 (ja) | 2008-05-30 | 2008-05-30 | 情報検索プログラム、情報検索装置および情報検索方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013076465A Division JP5494860B2 (ja) | 2013-04-01 | 2013-04-01 | 情報管理プログラム、情報管理装置および情報管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009289196A true JP2009289196A (ja) | 2009-12-10 |
JP5782214B2 JP5782214B2 (ja) | 2015-09-24 |
Family
ID=41381027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008143527A Active JP5782214B2 (ja) | 2008-05-30 | 2008-05-30 | 情報検索プログラム、情報検索装置および情報検索方法 |
Country Status (2)
Country | Link |
---|---|
US (3) | US8037035B2 (ja) |
JP (1) | JP5782214B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011138230A (ja) * | 2009-12-25 | 2011-07-14 | Fujitsu Ltd | 情報処理プログラム、情報検索プログラム、情報処理装置、および情報検索装置 |
JP2012256144A (ja) * | 2011-06-08 | 2012-12-27 | Jfe Systems Inc | データ管理保存システム |
JP2013088815A (ja) * | 2011-10-14 | 2013-05-13 | Harman Becker Automotive Systems Gmbh | 圧縮ナビゲーション地図データ |
US9146933B2 (en) | 2011-12-22 | 2015-09-29 | International Business Machines Corporation | Compressed storage access system with uncompressed frequent use data |
JP2016025536A (ja) * | 2014-07-22 | 2016-02-08 | 富士通株式会社 | 圧縮プログラム、圧縮方法および圧縮装置 |
JPWO2014045320A1 (ja) * | 2012-09-21 | 2016-08-18 | 富士通株式会社 | 制御プログラム、制御方法および制御装置 |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8918374B1 (en) * | 2009-02-13 | 2014-12-23 | At&T Intellectual Property I, L.P. | Compression of relational table data files |
US8949260B2 (en) * | 2009-10-09 | 2015-02-03 | Ricoh Co., Ltd. | Method and apparatus for secure and oblivious document matching |
US9176995B2 (en) * | 2010-02-22 | 2015-11-03 | International Business Machines Corporation | Organization of data within a database |
WO2012117544A1 (ja) * | 2011-03-02 | 2012-09-07 | 富士通株式会社 | 検索プログラム、検索装置、および検索方法 |
US9323769B2 (en) * | 2011-03-23 | 2016-04-26 | Novell, Inc. | Positional relationships between groups of files |
US8838721B2 (en) * | 2011-04-15 | 2014-09-16 | Hitachi, Ltd. | File sharing system and file sharing method |
WO2012150637A1 (ja) * | 2011-05-02 | 2012-11-08 | 富士通株式会社 | 抽出方法、情報処理方法、抽出プログラム、情報処理プログラム、抽出装置、および情報処理装置 |
US8898592B2 (en) * | 2011-06-30 | 2014-11-25 | International Business Machines Corporation | Grouping expanded and collapsed rows in a tree structure |
US9251289B2 (en) | 2011-09-09 | 2016-02-02 | Microsoft Technology Licensing, Llc | Matching target strings to known strings |
WO2013065199A1 (ja) * | 2011-11-04 | 2013-05-10 | 富士通株式会社 | 照合制御プログラム、照合制御装置および照合制御方法 |
WO2014083620A1 (ja) * | 2012-11-27 | 2014-06-05 | 株式会社日立製作所 | ストレージ装置及び階層制御方法 |
US9519574B2 (en) | 2012-11-28 | 2016-12-13 | Microsoft Technology Licensing, Llc | Dynamic content access window loading and unloading |
US9330159B2 (en) | 2012-12-27 | 2016-05-03 | Teradata Us, Inc. | Techniques for finding a column with column partitioning |
US10423596B2 (en) * | 2014-02-11 | 2019-09-24 | International Business Machines Corporation | Efficient caching of Huffman dictionaries |
US20190087599A1 (en) | 2014-04-02 | 2019-03-21 | International Business Machines Corporation | Compressing a slice name listing in a dispersed storage network |
JP2016170750A (ja) * | 2015-03-16 | 2016-09-23 | 富士通株式会社 | データ管理プログラム、情報処理装置およびデータ管理方法 |
KR20170027036A (ko) * | 2015-09-01 | 2017-03-09 | 에스케이하이닉스 주식회사 | 데이터 처리 시스템 |
US9930146B2 (en) | 2016-04-04 | 2018-03-27 | Cisco Technology, Inc. | System and method for compressing content centric networking messages |
JP6737117B2 (ja) * | 2016-10-07 | 2020-08-05 | 富士通株式会社 | 符号化データ検索プログラム、符号化データ検索方法および符号化データ検索装置 |
CN109429101B (zh) * | 2017-08-31 | 2021-03-05 | 中国电信股份有限公司 | 交互式网络电视的桌面加载方法和装置 |
US10877959B2 (en) * | 2018-01-17 | 2020-12-29 | Sap Se | Integrated database table access |
CN109413176B (zh) * | 2018-10-19 | 2021-06-08 | 中国银行股份有限公司 | 报告单下载方法及装置 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04274557A (ja) * | 1991-02-28 | 1992-09-30 | Hitachi Ltd | フルテキストサーチ方法 |
JPH0877201A (ja) * | 1994-09-09 | 1996-03-22 | Toshiba Corp | 文書データベース検索システム及び文書データベース検索方法 |
JPH08221954A (ja) * | 1995-02-14 | 1996-08-30 | Sanyo Electric Co Ltd | マルチメディア再生装置 |
JPH1165915A (ja) * | 1997-08-25 | 1999-03-09 | Fujitsu Ltd | 情報処理装置 |
JPH11345060A (ja) * | 1998-06-02 | 1999-12-14 | Dainippon Printing Co Ltd | 仮想空間共有システム |
JP2002023958A (ja) * | 2000-07-06 | 2002-01-25 | Hitachi Ltd | 計算機、計算機システムおよびデータ転送方法 |
JP2003280950A (ja) * | 2002-03-26 | 2003-10-03 | Fujitsu Ltd | ファイル管理システム |
JP2003337822A (ja) * | 2002-05-21 | 2003-11-28 | Fujitsu Ltd | 圧縮検索アーカイブ処理方法,圧縮検索アーカイブ処理プログラムおよびそのプログラムの記録媒体 |
JP2004258865A (ja) * | 2003-02-25 | 2004-09-16 | Canon Inc | 情報処理方法 |
JP2005099911A (ja) * | 2003-09-22 | 2005-04-14 | Dainippon Printing Co Ltd | ネットワークを利用したデータ保管システム |
JP2006302012A (ja) * | 2005-04-21 | 2006-11-02 | Sony Corp | ファイル管理装置、ファイル管理方法及びプログラム |
WO2006123448A1 (ja) * | 2005-05-20 | 2006-11-23 | Fujitsu Limited | 情報検索プログラム |
JP2007034536A (ja) * | 2005-07-25 | 2007-02-08 | Sony Corp | データ記憶装置及び方法、並びに記録再生システム |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5532694A (en) * | 1989-01-13 | 1996-07-02 | Stac Electronics, Inc. | Data compression apparatus and method using matching string searching and Huffman encoding |
US5333313A (en) * | 1990-10-22 | 1994-07-26 | Franklin Electronic Publishers, Incorporated | Method and apparatus for compressing a dictionary database by partitioning a master dictionary database into a plurality of functional parts and applying an optimum compression technique to each part |
CA2108833A1 (en) * | 1992-10-22 | 1994-04-23 | Masanori Ishii | File compression processor |
US5809527A (en) * | 1993-12-23 | 1998-09-15 | Unisys Corporation | Outboard file cache system |
US5748121A (en) * | 1995-12-06 | 1998-05-05 | Intel Corporation | Generation of huffman tables for signal encoding |
JP3305190B2 (ja) * | 1996-03-11 | 2002-07-22 | 富士通株式会社 | データ圧縮装置及びデータ復元装置 |
US5822759A (en) * | 1996-11-22 | 1998-10-13 | Versant Object Technology | Cache system |
US6112208A (en) * | 1997-08-25 | 2000-08-29 | Fujitsu Limited | Data compressing method and apparatus to generate bit maps in accordance with extracted data symbols |
US6393149B2 (en) * | 1998-09-17 | 2002-05-21 | Navigation Technologies Corp. | Method and system for compressing data and a geographic database formed therewith and methods for use thereof in a navigation application program |
JP4556087B2 (ja) * | 2001-03-22 | 2010-10-06 | ソニー株式会社 | データ処理装置およびデータ処理方法、並びにプログラムおよびプログラム記録媒体 |
US7076544B2 (en) * | 2002-04-08 | 2006-07-11 | Microsoft Corporation | Caching techniques for streaming media |
US7126500B2 (en) * | 2002-06-26 | 2006-10-24 | Microsoft Corporation | Method and system for selecting grammar symbols for variable length data compressors |
US20040225497A1 (en) * | 2003-05-05 | 2004-11-11 | Callahan James Patrick | Compressed yet quickly searchable digital textual data format |
US20060242163A1 (en) * | 2005-04-22 | 2006-10-26 | Microsoft Corporation | Local thumbnail cache |
US7307552B2 (en) * | 2005-11-16 | 2007-12-11 | Cisco Technology, Inc. | Method and apparatus for efficient hardware based deflate |
US20070168398A1 (en) | 2005-12-16 | 2007-07-19 | Powerfile, Inc. | Permanent Storage Appliance |
US8776052B2 (en) * | 2007-02-16 | 2014-07-08 | International Business Machines Corporation | Method, an apparatus and a system for managing a distributed compression system |
JP2008204055A (ja) * | 2007-02-19 | 2008-09-04 | Hitachi Ltd | コンテンツ管理方法、ファイルサーバおよび読み出し制御プログラム |
US7688233B2 (en) * | 2008-02-07 | 2010-03-30 | Red Hat, Inc. | Compression for deflate algorithm |
-
2008
- 2008-05-30 JP JP2008143527A patent/JP5782214B2/ja active Active
-
2009
- 2009-01-28 US US12/361,316 patent/US8037035B2/en active Active
-
2011
- 2011-09-14 US US13/232,089 patent/US20120005172A1/en not_active Abandoned
-
2016
- 2016-02-16 US US15/044,781 patent/US9858282B2/en active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04274557A (ja) * | 1991-02-28 | 1992-09-30 | Hitachi Ltd | フルテキストサーチ方法 |
JPH0877201A (ja) * | 1994-09-09 | 1996-03-22 | Toshiba Corp | 文書データベース検索システム及び文書データベース検索方法 |
JPH08221954A (ja) * | 1995-02-14 | 1996-08-30 | Sanyo Electric Co Ltd | マルチメディア再生装置 |
JPH1165915A (ja) * | 1997-08-25 | 1999-03-09 | Fujitsu Ltd | 情報処理装置 |
JPH11345060A (ja) * | 1998-06-02 | 1999-12-14 | Dainippon Printing Co Ltd | 仮想空間共有システム |
JP2002023958A (ja) * | 2000-07-06 | 2002-01-25 | Hitachi Ltd | 計算機、計算機システムおよびデータ転送方法 |
JP2003280950A (ja) * | 2002-03-26 | 2003-10-03 | Fujitsu Ltd | ファイル管理システム |
JP2003337822A (ja) * | 2002-05-21 | 2003-11-28 | Fujitsu Ltd | 圧縮検索アーカイブ処理方法,圧縮検索アーカイブ処理プログラムおよびそのプログラムの記録媒体 |
JP2004258865A (ja) * | 2003-02-25 | 2004-09-16 | Canon Inc | 情報処理方法 |
JP2005099911A (ja) * | 2003-09-22 | 2005-04-14 | Dainippon Printing Co Ltd | ネットワークを利用したデータ保管システム |
JP2006302012A (ja) * | 2005-04-21 | 2006-11-02 | Sony Corp | ファイル管理装置、ファイル管理方法及びプログラム |
WO2006123448A1 (ja) * | 2005-05-20 | 2006-11-23 | Fujitsu Limited | 情報検索プログラム |
JP2007034536A (ja) * | 2005-07-25 | 2007-02-08 | Sony Corp | データ記憶装置及び方法、並びに記録再生システム |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011138230A (ja) * | 2009-12-25 | 2011-07-14 | Fujitsu Ltd | 情報処理プログラム、情報検索プログラム、情報処理装置、および情報検索装置 |
JP2012256144A (ja) * | 2011-06-08 | 2012-12-27 | Jfe Systems Inc | データ管理保存システム |
JP2013088815A (ja) * | 2011-10-14 | 2013-05-13 | Harman Becker Automotive Systems Gmbh | 圧縮ナビゲーション地図データ |
US9146933B2 (en) | 2011-12-22 | 2015-09-29 | International Business Machines Corporation | Compressed storage access system with uncompressed frequent use data |
JPWO2014045320A1 (ja) * | 2012-09-21 | 2016-08-18 | 富士通株式会社 | 制御プログラム、制御方法および制御装置 |
US10318483B2 (en) | 2012-09-21 | 2019-06-11 | Fujitsu Limited | Control method and control device |
JP2016025536A (ja) * | 2014-07-22 | 2016-02-08 | 富士通株式会社 | 圧縮プログラム、圧縮方法および圧縮装置 |
Also Published As
Publication number | Publication date |
---|---|
US20090299973A1 (en) | 2009-12-03 |
US20160162504A1 (en) | 2016-06-09 |
US9858282B2 (en) | 2018-01-02 |
JP5782214B2 (ja) | 2015-09-24 |
US8037035B2 (en) | 2011-10-11 |
US20120005172A1 (en) | 2012-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5782214B2 (ja) | 情報検索プログラム、情報検索装置および情報検索方法 | |
US11146614B2 (en) | Distributed computing on document formats | |
AU2005200166B2 (en) | Searchable archive | |
CN102541751B (zh) | 用于数据去重复的可缩放块存储的方法和系统 | |
EP2478452B1 (en) | File search system and program | |
US9514179B2 (en) | Table boundary detection in data blocks for compression | |
CN110268394A (zh) | Kvs树 | |
CN104881466B (zh) | 数据分片的处理以及垃圾文件的删除方法和装置 | |
US8799291B2 (en) | Forensic index method and apparatus by distributed processing | |
US20040205044A1 (en) | Method for storing inverted index, method for on-line updating the same and inverted index mechanism | |
CN102893265B (zh) | 管理可独立访问的数据单元的存储 | |
CN110268399A (zh) | 用于维护操作的合并树修改 | |
EP0627697B1 (en) | Indexing/compression scheme for supporting graphics and data selection | |
US10810174B2 (en) | Database management system, database server, and database management method | |
US5481704A (en) | Indexing/compression scheme for supporting graphics and data selection | |
JP2018045285A (ja) | 情報処理システム、制御装置、処理プログラム、及び処理方法 | |
JP2888188B2 (ja) | 情報検索装置 | |
JP5494860B2 (ja) | 情報管理プログラム、情報管理装置および情報管理方法 | |
CN104714985B (zh) | 一种提升表单审批效率的方法及装置 | |
JP6006740B2 (ja) | インデックス管理装置 | |
JP2016053976A (ja) | データ生成方法、装置及びプログラム、検索処理方法、装置及びプログラム | |
Bookstein et al. | Using bitmaps for medium sized information retrieval systems | |
JP6931442B2 (ja) | 符号化プログラム、インデックス生成プログラム、検索プログラム、符号化装置、インデックス生成装置、検索装置、符号化方法、インデックス生成方法および検索方法 | |
JP2016062522A (ja) | データベース管理システム、データベースシステム、データベース管理方法およびデータベース管理プログラム | |
JP2007048318A (ja) | リレーショナルデータベースの処理方法およびリレーショナルデータベース処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130401 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130910 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131111 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20131224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140324 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20140408 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20141003 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150622 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150717 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5782214 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |