[go: up one dir, main page]

JP4774145B2 - 構造化文書圧縮装置および構造化文書復元装置並びに構造化文書処理システム - Google Patents

構造化文書圧縮装置および構造化文書復元装置並びに構造化文書処理システム Download PDF

Info

Publication number
JP4774145B2
JP4774145B2 JP2000357568A JP2000357568A JP4774145B2 JP 4774145 B2 JP4774145 B2 JP 4774145B2 JP 2000357568 A JP2000357568 A JP 2000357568A JP 2000357568 A JP2000357568 A JP 2000357568A JP 4774145 B2 JP4774145 B2 JP 4774145B2
Authority
JP
Japan
Prior art keywords
tag
document
unit
structured document
structured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000357568A
Other languages
English (en)
Other versions
JP2002163248A (ja
Inventor
宣子 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2000357568A priority Critical patent/JP4774145B2/ja
Priority to US09/826,915 priority patent/US7856595B2/en
Publication of JP2002163248A publication Critical patent/JP2002163248A/ja
Application granted granted Critical
Publication of JP4774145B2 publication Critical patent/JP4774145B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、SGML(Standard Generalized Markup Language)やXML(eXtensible Markup Language)等の構造化文書のための圧縮・復元に係る技術に関し、特に、同一のデータ構造を有する多数の構造化文書、例えば同一フォーマットの多数の伝票類を取り扱う際に用いて好適の、構造化文書圧縮装置および構造化文書復元装置並びに構造化文書処理システムに関する。
【0002】
【従来の技術】
近年、文字コード,画像データ等の様々な種類のデータがコンピュータで扱われるようになるに伴い、取り扱われるデータ量も増大している。そのような大量のデータをそのまま取り扱うと、そのデータを記憶するために多大な記憶容量が必要になり、そのデータの伝送に多大な時間を要することになるが、そのデータ中の冗長な部分を省いて圧縮すれば、記憶容量を減らしたり、遠隔地への伝送を高速化したりすることができる。様々なデータを一つの方式で圧縮することができる方法として、例えばユニバーサル符号化が提案されている。
【0003】
一般的なユニバーサルデータ圧縮方式としては、データ系列の類似性を利用した辞書型符号化方式と、データ列の出現頻度を利用した確率統計型符号化方式とがある(例えば、CQ出版社刊:植松友彦著“文書データ圧縮アルゴリズム入門”参照)。いずれの方式においても、生成される圧縮データは、バイナリコード(例えば、8ビットコードで見ると、0x00〜0xFFの全てのコードを使用する)になっている。例えば図19は一般的なユニバーサルデータ圧縮について説明するための図であるが、この図19に示すように、ユニバーサルデータ圧縮により、XML文書1,2,3はそれぞれバイナリデータ1,2,3に圧縮・変換されることになる。
【0004】
一方、最近では計算機で取り扱うデータの形式を統一する動きがある。即ち、これまで、計算機やアプリケーションによってバラバラであったデータ形式を、異なる計算機やアプリケーションでも使用できるようにするものである。
このようなデータ形式を統一するための規格として、XMLが、1998年2月にW3C(World Wide Web Consortium)によって正式に勧告されている。このXMLは、同様の規格SGMLのサブセットになっており、文書自身の中にタグを埋め込む形で、その文書のデータ構造が記述される。XMLやSGMLにより記述された文書は、一般に構造化文書と呼ばれる。
【0005】
このような構造化文書は、データ構造をタグとして文書に埋め込んだ構成を採用しているので、データ構造について高い柔軟性/拡張性を有するという利点が得られる。
また、人が見て意味のあるテキストによってタグが記述されているので、XML文書のデータ構造の視認性が高い。従って、データ交換を行ないやすくなり、複数種類の記述方法を緩やかに統合することができるという利点も得られる。このことは、構造化文書を成すデータが、アプリケーションに依存しないことを意味する。
【0006】
以下では、XML規格に従って、「<」と「>」とで囲まれた文字列(要素名を表す文字列)をタグ、「<文字列>」を開始タグ、「</文字列>」を終了タグ、これらの開始タグと終了タグとの間にはさまれた領域に記述された文字列を要素(もしくは要素内容)と呼ぶ。
【0007】
XML規格に従って記述されたXML文書の利用は、ウェブ(Web)やデータベースの分野を中心に増えつつあり、特に、XML文書は、EDI(Electric Data Interchange),EC(Electric Commerce),携帯電話サービス,デジタルテレビ向けサービス,Webサービスなどで広く利用されつつある。
図20は、上述のようなXML文書を取り扱う一般的なシステムの構成例を示すブロック図である。この図20に示すシステムでは、バードディスク(データベース)10,読出部20,メモリ展開部30およびメモリ40がそなえられている。
【0008】
ハードディスク(データベース)10は、XML文書(図20では3つのXML文書1,2,3)を格納・保持するものであり、読出部20は、ハードディスク10のXML文書をメモリ展開部30へ読み出すものである。
メモリ展開部30は、読出部20から入力されたXML文書を、メモリ40上に展開するためのもので、解析部31,生成部32および格納部33を有して構成されている。
【0009】
ここで、解析部31は、メモリ40上に展開すべき各XML文書におけるタグを解析することにより、各XML文書のデータ構造(木構造)を解析するものであり、生成部32は、解析部31によるデータ構造解析結果に従って、各XML文書に応じた文書データを生成するものであり、格納部33は、生成部32により生成された文書データをメモリ40上に展開し格納するものである。
【0010】
上述の構成により、図20に示すシステムでは、ハードディスク10に格納されているXML文書が、読出部20により読み出されてメモリ展開部30に入力されると、解析部31により、そのXML文書のデータ構造(木構造)が解析される。そして、生成部32において、解析部31によるデータ構造解析結果に従い、そのXML文書に応じた文書データが生成され、生成された文書データが、格納部33によりメモリ40上に展開されて格納される。
【0011】
【発明が解決しようとする課題】
ところで、XML文書(構造化文書)は、データ構造について高い柔軟性/拡張性を有するとともに高い視認性を有するが、人が見て意味を理解できるようにタグを記述するため、冗長な記述となり、そのXML文書のデータ量は大幅に増大する。従って、XML文書を圧縮して、データ量を削減することが望まれている。
【0012】
しかしながら、ユニバーサルデータ圧縮を用いると、例えば図19に示すごとく、圧縮データが全てバイナリデータになるため、XML文書の利点の一つであるデータの視認性が全くなくなってしまい、圧縮データを元の状態に復元しなければ、その圧縮データの内容を一切把握することができない。このため、圧縮データの復元アルゴリズムが分からなければ、データ交換もタグ解析も行なうことができない。
【0013】
一方、図20を参照しながら説明したごとくXML文書をメモリ40上に展開する際、XML文書(構造化文書)ではデータ構造がタグとしてXML文書中に埋め込まれているため、解析部31によるタグ解析処理(データ構造解析処理)の負荷が高くなる。特に、同一のデータ構造を有する多数のXML文書(例えば発注伝票)をメモリ40上に展開する場合、全てのXML文書が同一のデータ構造を有しているにもかかわらず、XML文書一つ一つについてデータ構造解析処理を行なわなければならず、無駄なタグ解析処理の量が増大し、その処理による負荷が極めて高くなるという課題があった。
【0014】
本発明は、このような課題に鑑み創案されたもので、構造化文書の利点であるデータ構造の視認性や柔軟性/拡張性の高さを生かしたまま、構造化文書を圧縮できるようにして、構造化文書のデータ量の削減をはかるとともに、同一のデータ構造を有する多数の構造化文書を取り扱う際に無駄なタグ解析を行なう必要を一切なくして、タグ解析の負荷の低減をはかった、構造化文書圧縮装置および構造化文書復元装置並びに構造化文書処理システムを提供することを目的とする。
【0015】
【課題を解決するための手段】
上記目的を達成するために、本発明の構造化文書圧縮装置(請求項1)は、同一のデータ構造を有する複数の構造化文書を圧縮する装置であって、該構造化文書におけるタグを出現順序に従って抽出してリスト化した該複数の構造化文書について共通の前記データ構造を示す一つのタグリストを、該複数の構造化文書のうちの少なくとも一つから取得するタグリスト取得部と、各構造化文書中のタグを所定の区切りコードに置き換えタグ以外のデータ内容をそのまま記述した圧縮文書を各構造化文書毎に生成する構造化文書圧縮部と、該タグリスト取得部により取得された前記一つのタグリストと、該複数の構造化文書のそれぞれについて該構造化文書圧縮部により生成された複数の圧縮文書とを対応させ該複数の構造化文書の圧縮結果として出力する出力部とをそなえたことを特徴としている。
【0016】
また、本発明の構造化文書復元装置(請求項)は、上述した本発明の構造化文書圧縮装置(請求項1)により生成された複数の圧縮文書を復元する装置であって、タグリストに対応するデータ構造をメモリ上に複製データ構造として展開・複製する複製部と、その複製データ構造におけるタグの位置と各圧縮文書中の前記所定の区切りコードの位置とを対応させながら各圧縮文書中の要素内容を該メモリ上における該複製データ構造の所定領域に書き出すことにより、各圧縮文書を復元する書出部とをそなえたことを特徴としている。
【0017】
そして、本発明の構造化文書処理システム(請求項)は、同一のデータ構造を有する複数の構造化文書に対する処理を行なうべく、上述した本発明の構造化文書圧縮装置(請求項1)および構造化文書復元装置(請求項)を含んで構成されたことを特徴としている。
【0018】
上述した、本発明の構造化文書圧縮装置(請求項1)、あるいは、本発明の構造化文書処理システム(請求項)における構造化文書圧縮装置では、複数の構造化文書について共通のデータ構造が、タグリスト取得部により、一つのタグリストとして取得されるとともに、各構造化文書は、構造化文書圧縮部のタグ圧縮処理(タグを所定の区切りコードに置き換える処理)により圧縮文書に変換された後、一つのタグリストと複数の圧縮文書とが、複数の構造化文書についての圧縮結果として出力部から出力される。
【0019】
従って、複数の構造化文書の圧縮結果は、データ構造(一つのタグリスト)とデータ内容(複数の圧縮文書)とに分離された状態で出力される。
また、上述のごとく生成された圧縮文書では、タグが所定の区切りコードに置換されているだけで、データ内容(要素内容)はそのまま記述されている。このため、構造化文書の利点であるデータ構造の視認性や柔軟性/拡張性の高さを生かしたまま、構造化文書を圧縮することができる。
【0020】
さらに、上述した、本発明の構造化文書復元装置(請求項)、あるいは、本発明の構造化文書処理システム(請求項)における構造化文書復元装置では、タグリストに対応するデータ構造が、複製部により、圧縮文書毎にメモリ上に複製データ構造として展開・複製される。そして、各圧縮文書中の要素内容が、書出部により、複製データ構造におけるタグの位置と各圧縮文書中の所定の区切りコードの位置との対応をとりながら、メモリ上における複製データ構造の所定領域に書き出される。これにより、各圧縮文書(各構造化文書)が、メモリ上に展開された状態で復元されることになる。
【0021】
このとき、複数の構造化文書の圧縮結果は、データ構造(一つのタグリスト)とデータ内容(複数の圧縮文書)とに分離されているので、一つのタグリストに対する解析処理を一度だけ行なって、複数の圧縮文書に共通のデータ構造を取得してしまえば、後は、取得されたデータ構造を複製して流用することにより、圧縮文書毎に一々タグ解析を行なう必要をなくすことができる。
【0022】
一方、本発明の関連技術としての構造化文書圧縮装置は、例えば上述した構造化文書圧縮装置(請求項1)における構造化文書圧縮部として用いられるものであって、構造化文書を圧縮すべく、該構造化文書中のタグを検出するタグ検出部と、該タグ検出部により検出された該タグを所定の区切りコードに置き換えて圧縮するタグ圧縮部とをそなえたことを特徴としている。
【0023】
また、本発明の関連技術としての構造化文書復元装置は上記関連技術としての構造化文書圧縮装置により生成された圧縮文書を復元する装置であって、該構造化文書におけるタグを出現順序に従ってリスト化したタグリストを予め保持するタグリスト保持部と、該圧縮文書中の所定の区切りコードを検出する区切りコード検出部と、該タグリストにおけるタグの位置と該区切りコード検出部により検出された前記所定の区切りコードの位置とを対応させながら、該区切りコード検出部により検出された前記所定の区切りコードを、該タグリストにおける対応するタグに置き換えて復元するタグ復元部とをそなえたことを特徴としている。
【0024】
上述した本発明の関連技術としての構造化文書圧縮装置では、構造化文書中のタグがタグ検出部により検出されると、そのタグは、タグ圧縮部により所定の区切りコードに置き換えられて圧縮される。このような単純な置換処理によって圧縮文書が生成される。
そして、生成された圧縮文書では、上述した通り、タグが所定の区切りコードに置換されているだけで、データ内容(要素内容)はそのまま記述されている。従って、構造化文書の利点であるデータ構造の視認性や柔軟性/拡張性の高さを生かしたまま、構造化文書を圧縮することができる。
【0025】
また、上述した本発明の関連技術としての構造化文書復元装置では、復元対象の圧縮文書に対応したタグリストが、タグリスト保持部に予め保持されており、圧縮文書中の区切りコードが区切りコード検出部によって検出されると、その区切りコードは、タグ復元部により、その区切りコードに対応したタグに置き換えられる。
【0026】
このとき、タグ復元部においては、タグリストにおけるタグの位置と区切りコード検出部により検出された所定の区切りコードの位置との対応をとることにより、検出された所定の区切りコードがタグリスト中のどのタグに対応するかが認識されるので、所定の区切りコードを適切なタグに復元することができる。これにより、圧縮文書は、元の構造化文書に復元される。
【0027】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。
〔1〕第1実施形態の説明
図1は本発明の第1実施形態における構造化文書圧縮装置の構成を示すブロック図、図2は本発明の第1実施形態における構造化文書復元装置(メモリ展開部)の構成を示すブロック図である。
【0028】
図1に示す構造化文書圧縮装置110および図2に示すメモリ展開部(構造化文書復元装置)210は、同一のデータ構造(文書構造,木構造)を有する複数の構造化文書に対する処理を行なうための構造化文書処理システムに含まれ、この構造化文書処理システムの一部を構成するものである。
【0029】
なお、以下に説明する各実施形態においては、構造化文書がXML(eXtensible Markup Language)であり、特に、同一のデータ構造を有する多数のXML文書を取り扱う場合について説明する。また、構造化文書処理システムによって実行される処理は、例えばXML文書の蓄積,加工,転送等である。なお、処理対象となるXML文書は、例えば図3(A)を参照しながら後述するような発注伝票文書である。
【0030】
そして、構造化文書処理システムにおいては、XML文書のための記憶容量を削減したり前記処理を高速化すべくXML文書を圧縮するための構造化文書圧縮装置110がそなえられ、さらに、構造化文書圧縮装置110による圧縮データをメモリ214上に復元・展開するためのメモリ展開部(構造化文書復元装置)210がそなえられている。
【0031】
第1実施形態の構造化文書圧縮装置110は、図1に示すように、タグリスト取得部111,構造化文書圧縮部112および出力部113をそなえて構成される一方、第1実施形態のメモリ展開部210は、図2に示すように、解析部211,複製部212および書出部213をそなえて構成されている。
【0032】
ここで、構造化文書圧縮装置110およびメモリ展開部210は、同一のコンピュータ上、もしくは、それぞれ異なるコンピュータ上にそなえられている。そして、構造化文書圧縮装置110を成すタグリスト取得部111,構造化文書圧縮部112および出力部113としての機能は、コンピュータ上で所定のプログラム(構造化文書圧縮プログラム)を実行することにより実現される。同様に、メモリ展開部210を成す解析部211,複製部212および書出部213としての機能は、コンピュータ上で所定のプログラム(構造化文書復元プログラム)を実行することにより実現されるようになっている。
【0033】
さて、図1において、ハードディスク(データベース)300は、圧縮対象である、同一データ構造を有する複数のXML文書(図1ではXML文書1〜3)を予め格納・保持するものである。また、ハードディスク(データベース)400は、構造化文書圧縮装置110による圧縮結果を格納・保持するものである。なお、圧縮対象のXML文書と構造化文書圧縮装置110による圧縮結果とを、同じハードディスク300もしくは400に格納するように構成してもよい。
【0034】
タグリスト取得部111は、ハードディスク300に格納された複数のXML文書について共通の一つのタグリストを取得するものである。タグリストは、図3(B)を参照しながら後述するごとく、XML文書におけるタグを出現順序に従って抽出してリスト化したもので、どのようなタグがどのような順序で出現するかを示すものである。同一データ構造を有する複数のXML文書についてのタグリストは全て同一のものとなる。
【0035】
このタグリスト取得部111は、予め生成されデータベース(図示略)等に格納されているタグリストを、そのデータベースから取得してもよいし、ハードディスク300に格納されている複数のXML文書のうちの少なくとも一つから、タグリストを抽出・生成して取得してもよい。
構造化文書圧縮部112は、各XML文書中のタグを所定の区切りコードに置き換えたXML圧縮文書を生成するものである。なお、第1実施形態では、図3(C)を参照しながら後述するごとく、所定の区切りコードとして「,」を用いる。
【0036】
出力部113は、タグリスト取得部111により取得された一つのタグリストと、複数のXML文書のそれぞれについて構造化文書圧縮部112により生成された複数のXML圧縮文書(図1ではXML圧縮文書1〜3)とを対応させ複数のXML文書の圧縮結果としてハードディスク400に出力・格納するものである。
【0037】
一方、図2において、読出部500は、ハードディスク400に格納された、共通のタグリストと複数のXML圧縮文書とをメモリ展開部210へ読み出すものであり、メモリ展開部210は、タグリストに基づいて複数のXML圧縮文書をメモリ214上に復元・展開すべく、解析部211,複製部212および書出部213を有している。
【0038】
解析部211は、ハードディスク400から読出部500によって読み出されたタグリストを解析し、復元・展開対象である複数のXML圧縮文書について共通のデータ構造を解析結果として得るものである。
複製部212は、解析部211によって得られた、タグリストに対応するデータ構造を、メモリ214上に複製データ構造として展開・複製するものである。
書出部213は、複製データ構造におけるタグの位置と各XML圧縮文書中の区切りコード「,」の位置とを対応させながら、各XML圧縮文書中の要素内容をメモリ214上における複製データ構造の所定領域に書き出すものである。
【0039】
次に、上述のごとく構成された、第1実施形態の構造化文書圧縮装置110およびメモリ展開部210の動作について説明する。
図1に示す構造化文書圧縮装置110においては、複数のXML文書について共通のデータ構造が、タグリスト取得部111により、一つのタグリストとして取得されるとともに、各XML文書は、構造化文書圧縮部112のタグ圧縮処理により、タグを区切りコード「,」に置き換えたXML圧縮文書に変換される。
【0040】
この後、タグリスト取得111により取得されたタグリストと、構造化文書圧縮部112により得られた複数のXML圧縮文書とが、複数のXML文書についての圧縮結果として出力部113から出力され、ハードディスク400に格納される。つまり、第1実施形態では、複数のXML文書の圧縮結果が、データ構造(タグ情報)とデータ内容(タグ情報以外の情報)とに分離された状態で出力されることになる。なお、データ構造(タグ情報)は、前記一つのタグリストであり、データ内容は、区切りコードと要素内容とからなる、複数のXML圧縮文書である。
【0041】
このとき、タグリストと各XML圧縮文書とは、例えば図15〜図17を参照しながら後述する手法等によって対応付けられており、複数のXML文書について共通のデータ構造を示す一つのタグリストは、複数のXML圧縮文書によって共有される。
【0042】
ここで、図3(A)〜図3(C)を参照しながら、第1実施形態における具体的なXML文書の圧縮状態について説明する。なお、図3(A)〜図3(C)はいずれも第1実施形態におけるデータ例を示すもので、図3(A)はXML文書の一例を示す図、図3(B)は図3(A)に示すXML文書から得られたタグリストを示す図、図3(C)は図3(A)に示すXML文書の圧縮状態を示す図である。
【0043】
図3(A)には、圧縮前つまり圧縮対象のXML文書の一例として、発注伝票をXMLにより記述した例が示されている。この図3(A)に示すXML文書では、開始タグ<発注伝票>,<発注者>,<名前>,<電話番号>,<商品>,<メーカ>,<製品番号>,<製品名>,<価格>と、終了タグ</発注伝票>,</発注者>,</名前>,</電話番号>,</商品>,</メーカ>,</製品番号>,</製品名>,</価格>とにより、XML文書のデータ構造(つまり発注伝票のフォーマット)が定義されている。
【0044】
この図3(A)に示すXML文書においては、開始タグ<名前>と終了タグ</名前>との間には、発注者の名前「STUV」が要素内容として記述され、開始タグ<電話番号>と終了タグ</電話番号>との間には、発注者の電話番号「1111」が要素内容として記述され、開始タグ<メーカ>と終了タグ</メーカ>との間には、商品のメーカ「A社」が要素内容として記述され、開始タグ<製品番号>と終了タグ</製品番号>との間には、商品の製品番号「1234」が要素内容として記述され、開始タグ<製品名>と終了タグ</製品名>との間には、商品の製品名「ABCD」が要素内容として記述され、開始タグ<価格>と終了タグ</価格>との間には、商品の価格「980」が要素内容として記述されている。
【0045】
また、図3(B)は、図3(A)に示したXML文書のタグリストを示している。このタグリストは、前述した通り、予め何らかの手段により作成されているか、もしくは、タグリスト取得部111により、図3(A)に示すXML文書から直接的に抽出して作成されるもので、図3(B)に示す例では、図3(A)のXML文書から、ただ単に要素内容「STUV」,「1111」,「A社」,「ABCD」,「980」を取り除いた構成となっている。
【0046】
そして、図3(C)には、図3(A)に示すXML文書に対し、構造化文書圧縮部112によるタグ圧縮処理を施した結果、即ち、図3(A)に示すXML文書中のタグを区切りコード「,」に置き換えたXML圧縮文書が示されている。
これらの図3(A)〜図3(C)を比較対照しても明らかなように、タグリスト中の各タグとXML圧縮文書中の各区切りコード「,」とは一対一で対応するとともに、XML圧縮文書において区切りコード「,」はタグの位置に対応して配置される。また、XML文書中の要素内容は、XML圧縮文書中においてそのまま記述されている。従って、第1実施形態のXML圧縮文書は、XML文書と同様、自由なデータ構造を表現することができるほか、テキストで記述されるため、視認性を維持することもできる。
【0047】
一方、図2に示すメモリ展開部210においては、まず、復元・展開対象のXML圧縮文書に対応付けられたタグリストが、ハードディスク400から読出部500により読み出されて解析部211に入力される。この解析部211においては、入力されたタグリストが解析され、その解析結果として、復元・展開対象の複数のXML圧縮文書について共通のデータ構造が得られる。そして、解析部211で得られたデータ構造は、複製部212により、XML圧縮文書毎にメモリ214上に複製データ構造として展開・複製される。
【0048】
この後、各XML圧縮文書中の要素内容が、書出部213により、複製データ構造におけるタグの位置と、各XML圧縮文書中の区切りコード「,」の位置との対応をとりながら、メモリ214上における複製データ構造の所定領域に書き出される。これにより、各XML圧縮文書(各構造化文書)が、メモリ214上に展開された状態で復元されることになる。
【0049】
このように、本発明の第1実施形態によれば、構造化文書圧縮部112により生成された各XML圧縮文書においては、タグが区切りコード「,」に置換されているだけで、データ内容(要素内容)はそのまま記述されているので、XML文書(構造化文書)の利点であるデータ構造の視認性や柔軟性/拡張性を生かしたまま、XML文書を圧縮してXML文書のデータ量を削減することができる。
【0050】
従って、XML文書(XML圧縮文書)を格納するための記憶領域の容量を削減することができ、XML圧縮文書を格納する記憶媒体(本実施形態ではハードディスク400)の記憶領域を有効に利用できるようになるほか、XML文書データの伝送速度を高速化することができる。
【0051】
また、複数のXML文書の圧縮結果は、データ構造(一つのタグリスト)とデータ内容(複数のXML圧縮文書)とに分離されているので、第1実施形態のメモリ展開部210では、一つのタグリストに対する解析処理を解析部211において一度だけ行ない、複数のXML圧縮文書に共通のデータ構造を取得してしまえば、後は、取得されたデータ構造を複製部212により複製して流用することで、XML圧縮文書毎に一々タグ解析を行なう必要がなくなる。
【0052】
これにより、同一のデータ構造を有する多数のXML文書を取り扱う際に、メモリ展開部210の解析部211において無駄なタグ解析を行なう必要が一切なくなるので、タグ解析の負荷が大幅に低減され、XML文書をメモリ214に展開する際の処理速度を飛躍的に高速化することができる。
【0053】
〔2〕第2実施形態の説明
図4は本発明の第2実施形態における構造化文書圧縮装置の構成を示すブロック図、図5は本発明の第2実施形態における構造化文書復元装置の構成を示すブロック図である。
図4に示す構造化文書圧縮装置120および図5に示す構造化文書復元装置220は、XML文書に対する処理を行なうための構造化文書処理システムに含まれて、この構造化文書処理システムの一部を構成するものである。
【0054】
この第2実施形態の構造化文書圧縮装置120は、XML文書を圧縮するためのもので、図4に示すように、入力部121,タグ検出部122,タグ圧縮部123および出力部124をそなえて構成されている。なお、構造化文書圧縮装置120は、第1実施形態の構造化文書圧縮部112として用いることも可能である。
【0055】
また、第2実施形態の構造化文書復元装置220は、構造化文書圧縮装置120により生成されたXML圧縮文書(圧縮データ)をXML文書に復元するためのもので、図5に示すように、入力部221,タグリスト保持部222,区切りコード検出部223,タグ復元部224および出力部225をそなえて構成されている。
【0056】
ここで、構造化文書圧縮装置120および構造化文書復元装置220は、同一のコンピュータ上、もしくは、それぞれ異なるコンピュータ上にそなえられている。そして、構造化文書圧縮装置120を成す入力部121,タグ検出部122,タグ圧縮部123および出力部124としての機能は、コンピュータ上で所定のプログラム(構造化文書圧縮プログラム)を実行することにより実現される。同様に、構造化文書復元装置220を成す入力部221,区切りコード検出部223,タグ復元部224および出力部225としての機能は、コンピュータ上で所定のプログラム(構造化文書復元プログラム)を実行することにより実現されるようになっている。
【0057】
さて、図4に示す構造化文書圧縮装置120において、入力部121は、圧縮対象のXML文書を、ハードディスク等(例えば図1の符号300参照)から取り込むものであり、タグ検出部122は、入力部121により取り込まれたXML文書中のタグを検出するものである。
【0058】
タグ圧縮部123は、タグ検出部122により検出されたタグを、所定の区切りコードに置き換えて圧縮するものである。なお、第2実施形態では、第1実施形態と同様、図6(C)を参照しながら後述するごとく、所定の区切りコードとして「,」を用いる。また、2種類の区切りコード「,」および「/」を準備しておき、タグ圧縮部123が、これら2種類の区切りコードを開始タグと終了タグとで使い分け、図6(D)を参照しながら後述するごとく、開始タグを「,」に置き換えるとともに終了タグを「/」に置き換えるように構成してもよい。
出力部124は、タグ圧縮部123を用いて生成されたXML圧縮文書を、圧縮結果として、ハードディスク等(例えば図1,図2,図15〜図17の符号400,410,420,440参照)に出力・格納するものである。
【0059】
一方、図5に示す構造化文書復元装置220において、入力部221は、復元対象のXML圧縮文書を、記憶媒体等(例えば図1,図2,図15〜図17に示すハードディスク400,410,420,440)から取り込むものである。
タグリスト保持部222は、XML文書におけるタグを出現順序に従ってリスト化したタグリスト〔例えば図6(B)参照〕を予め保持するものである。このタグリスト保持部222には、予め生成されたタグリストをデータベース(図示略)等から取得して格納する。
【0060】
なお、第2実施形態においても、第1実施形態と同様、処理対象となる複数のXML文書が同一のデータ構造を有していることを前提としており、タグリストは、第1実施形態において前述した通り、これら複数のXML文書により共有され、各XML文書において、どのようなタグがどのような順序で出現するかを示すものである。
【0061】
区切りコード検出部223は、入力部221により取り込まれたXML圧縮文書中の区切りコードを検出するものである。
タグ復元部224は、タグリスト保持部222に保持されたタグリストにおけるタグの位置と、区切りコード検出部223により検出された区切りコードの位置とを対応させながら、その区切りコードを、タグリストにおける対応するタグに置き換えて復元するものである。
出力部225は、タグ復元部224を用いて復元されたXML文書を、復元結果として、記憶媒体等(例えば図1に示すハードディスク300)に出力・格納するものである。
【0062】
次に、上述のごとく構成された、第2実施形態の構造化文書圧縮装置120および構造化文書復元装置220の動作について説明する。
図4に示す構造化文書圧縮装置120においては、まず、圧縮対象のXML文書を入力部121により取り込み、そのXML文書中のタグをタグ検出部122により探索する。タグ以外の部分(つまり要素内容の部分)はそのまま出力部124へ送られるが、タグ検出部122によりタグが検出されると、そのタグは、タグ圧縮部123により所定の区切りコードに置き換えられて圧縮されてから、出力部124へ送られる。このような単純な置換処理によって生成されたXML圧縮文書が、圧縮結果として出力部124から出力される。
【0063】
ここで、図6(A)〜図6(D)を参照しながら第2実施形態における具体的なXML文書の圧縮状態について説明する。なお、図6(A)〜図6(D)はいずれも第2実施形態におけるデータ例を示すもので、図6(A)はXML文書の一例を示す図、図6(B)は図6(A)に示すXML文書に対応するタグリストを示す図、図6(C)は図6(A)に示すXML文書の圧縮状態の一例を示す図、図6(D)は図6(A)に示すXML文書の圧縮状態の他例を示す図である。
【0064】
図6(A)には、圧縮前つまり圧縮対象のXML文書の一例として、発注伝票をXMLにより記述した例が示されている。特に、図6(A)では、図3(A)を参照しながら前述した発注伝票の一部分(商品のメーカ,製品番号および価格にかかる記述部分)が抽出されて示されている。
【0065】
また、図6(B)は、図6(A)に示したXML文書のタグリストを示しており、このようなタグリストが、予め何らかの手段により抽出・生成されて、構造化文書復元装置220のタグリスト保持部222に格納されている。なお、図6(B)に示すタグリストでは、タグの前後に付される括弧表示(“<”および“>”)が省略されている。
【0066】
そして、図6(C)には、図6(A)に示すXML文書に対し、タグ圧縮部123によるタグ圧縮処理を施した結果、即ち、図6(A)に示すXML文書中のタグを区切りコード「,」に置き換えたXML圧縮文書が示されている。
また、図6(D)には、同一のXML文書についての他の圧縮結果が示されている。つまり、図6(D)に示すXML圧縮文書は、タグ圧縮部123によるタグ圧縮処理に際して、XML文書中の開始タグを「,」に置き換え、XML文書中の終了タグを「/」に置き換えたものである。
【0067】
これらの図6(A)〜図6(D)を比較対照しても明らかなように、タグリスト中の各タグとXML圧縮文書中の各区切りコード「,」または「/」とは一対一で対応するとともに、XML圧縮文書において区切りコード「,」または「/」はタグの位置に対応して配置される。また、XML文書中の要素内容は、XML圧縮文書中においてそのまま記述されている。
【0068】
従って、第2実施形態のXML圧縮文書によっても、XML文書と同様の自由なデータ構造表現が可能であり、要素内容の視認性が維持される。特に、図6(D)に示すXML圧縮文書では、2種類の区切りコード「,」と「/」とがそれぞれ開始タグと終了タグとに対応して用いられるので、開始タグおよび終了タグの位置を視認することも可能になる。
【0069】
一方、図5に示す構造化文書復元装置220においては、まず、例えば図6(C)もしくは図6(D)に示すような復元対象のXML圧縮文書を入力部221により取り込み、そのXML圧縮文書中の区切りコード(「,」もしくは「,」と「/」)を区切りコード検出部223により探索する。
【0070】
区切りコード以外の部分(つまり要素内容の部分)は、そのまま出力部225へ送られるが、区切りコード検出部223により区切りコードが検出されると、その区切りコードは、タグ復元部224により、その区切りコードに対応したタグに置き換えられてから、出力部225へ送られる。このような単純な置換処理によって例えば図6(A)に示すようなXML文書が復元され、出力部225から出力される。
【0071】
タグ復元部224による置換処理に際しては、タグリスト保持部222に保持されたタグリストにおけるタグの位置と、区切りコード検出部223により検出された区切りコードの位置との対応をとることにより、検出された区切りコードがタグリスト中のどのタグに対応するかが認識されるので、区切りコードを適切なタグ(対応するタグ)に復元することができる。このようにして、XML圧縮文書は、元のXML文書に復元される。
【0072】
このように、本発明の第2実施形態の構造化文書圧縮装置120によれば、XML文書中で検出されたタグを所定の区切りコードに置換するという極めて単純な置換処理によって、XML文書(構造化文書)の利点であるデータ構造の視認性や柔軟性/拡張性の高さを生かしたまま、XML文書を圧縮してXML文書のデータ量を削減することができる。
【0073】
従って、第2実施形態においても、第1実施形態と同様、XML文書(XML圧縮文書)を格納するための記憶領域の容量を削減することができ、XML圧縮文書を格納する記憶媒体(例えば図1,図2,図15〜図17に示すハードディスク400,410,420,440)の記憶領域を有効に利用できるようになるほか、XML文書データの伝送速度を高速化することができる。
【0074】
また、第2実施形態の構造化文書復元装置220によれば、XML圧縮文書中で検出された区切りコードを、そのXML圧縮文書についてのタグリスト中のタグと対応させながら、所定のタグに置き換えるという簡易な置換処理によって、XML圧縮文書を極めて容易に元のXML文書に復元することができるという利点もある。
【0075】
〔3〕第3実施形態の説明
図7は本発明の第3実施形態における構造化文書圧縮装置の構成を示すブロック図、図8は本発明の第3実施形態における構造化文書復元装置の構成を示すブロック図である。なお、図中、既述の符号と同一の符号は同一の部分もしくはほぼ同一の部分を示しているので、その詳細な説明は省略する。
【0076】
図7に示す構造化文書圧縮装置130および図8に示す構造化文書復元装置230も、第2実施形態と同様、XML文書に対する処理を行なうための構造化文書処理システムに含まれて、この構造化文書処理システムの一部を構成するもので、それぞれ、図4に示す構造化文書圧縮装置120および図5に示す構造化文書復元装置220とほぼ同様に構成されている。
【0077】
ただし、第3実施形態の構造化文書圧縮装置130は、XML文書のタグ内に属性が記述されている場合には、その属性を圧縮後も残すことにより属性の視認性をも維持しながら、XML文書の圧縮を行なえるように構成したもので、図7に示すように、第2実施形態と同様の入力部121,タグ検出部122,タグ圧縮部123および出力部124のほか、さらに、属性付きタグ検出部131および属性付きタグ圧縮部132をそなえて構成されている。なお、この構造化文書圧縮装置130も、第1実施形態の構造化文書圧縮部112として用いることが可能である。
【0078】
また、第3実施形態の構造化文書復元装置230は、構造化文書圧縮装置130により生成されたXML圧縮文書(圧縮データ)をXML文書に復元するためのもので、図8に示すように、第2実施形態と同様の入力部221,タグリスト保持部222,区切りコード検出部223,タグ復元部224および出力部225のほか、さらに、属性リスト保持部231,属性付きタグ検出部232および属性付きタグ復元部233をそなえて構成されている。
【0079】
ここで、第3実施形態の構造化文書圧縮装置130および構造化文書復元装置230も、同一のコンピュータ上、もしくは、それぞれ異なるコンピュータ上にそなえられている。そして、構造化文書圧縮装置130を成す入力部121,タグ検出部122,タグ圧縮部123,出力部124,属性付きタグ検出部131および属性付きタグ圧縮部132としての機能は、コンピュータ上で所定のプログラム(構造化文書圧縮プログラム)を実行することにより実現される。同様に、構造化文書復元装置230を成す入力部221,区切りコード検出部223,タグ復元部224,出力部225,属性付きタグ検出部232および属性付きタグ復元部233としての機能は、コンピュータ上で所定のプログラム(構造化文書復元プログラム)を実行することにより実現されるようになっている。
【0080】
さて、図7に示す構造化文書圧縮装置130において、属性付きタグ検出部131は、タグ検出部122に含まれており、タグ検出部122により検出されたタグが属性値をもつ属性付きタグであるか否かを検出するものである。なお、属性付きタグとは、そのタグ内に、要素内容に付加したい情報(属性)を記述されたものである。その属性は、具体的には図9(A)を参照しながら後述するごとく、開始タグ内において、要素名の後にスペースを空け「属性名=‘属性値’」として記述される。つまり、属性付きタグは、一般的には「<要素名 属性名=‘属性値’>」と記述される。
【0081】
属性付きタグ圧縮部132は、属性付きタグ検出部131により検出された属性付きタグを、そのタグ内に記述された属性値と所定の区切りコードとにより置き換えて圧縮するものである。この属性付きタグ圧縮部132によって置き換えられる区切りコードとしては、例えば図9(C)や図9(D)を参照しながら後述するごとく「,」あるいは「=」を用いる。
【0082】
また、本実施形態では、属性付きタグ圧縮部132により属性付きタグを属性値と区切りコードとに置き換える際、その区切りコードは属性値の前後に配置されるようになっている〔図9(C)や図9(D)参照〕。例えば「<要素名 属性名=‘属性値’>」は「,属性値,」もしくは「,属性値=」という圧縮記述に置き換えられる。また、複数の属性をもつタグ、例えば「<要素名 属性名1=‘属性値1’属性名2=‘属性値2’>」と記述されたタグは「,属性値1,属性値2,」もしくは「,属性値1=属性値2=」という圧縮記述に置き換えられる。
【0083】
なお、第3実施形態の出力部124は、タグ圧縮部123および属性付きタグ圧縮部132を用いて生成されたXML圧縮文書を、圧縮結果として、ハードディスク等(例えば図1,図2,図15〜図17の符号400,410,420,440参照)に出力・格納するようになっている。
【0084】
一方、図8に示す構造化文書復元装置230において、属性リスト保持部231は、XML圧縮文書における属性名を出現順序に従ってリスト化した属性リストを予め保持するものである。この属性リスト保持部231には、予め生成された属性リストをデータベース(図示略)等から取得して格納する。
【0085】
ここで、第3実施形態の属性リストは、実際には、図9(B)を参照しながら後述するごとく、タグリストに含まれる形で与えられるものである。このため、図8では、属性リスト保持部231がタグリスト保持部222に含まれている。以下では、属性リストを含むタグリストのことをタグ・属性リストと表記する場合がある。このようなタグ・属性リストにおいては、そのリストに記入された文字列が属性名である場合、そのことが明確に分かるように、例えば図9(B)に示すごとく、その文字列の前(左側)に、例えばコード「=」を付与している。
【0086】
また、第3実施形態においても、第1実施形態と同様、処理対象となる複数のXML文書が同一のデータ構造を有していることを前提としており、タグリストおよび属性リスト(タグ・属性リスト)は、これら複数のXML文書により共有され、各XML文書において、どのようなタグがどのような順序で出現するか、あるいは、どのような属性がどのような順序で出現するかを示すものである。
【0087】
属性付きタグ検出部232は、タグ復元部224に含まれており、タグ復元部224で復元対象となったタグが属性付きタグに復元されるべきものであるか否かを検出するものである。このとき、属性付きタグ検出部232は、区切りコードの配置状態や区切りコードの種類を認識することにより、もしくは、XML圧縮文書内の属性値とタグ・属性リスト内の属性名との対応関係を参照・認識することにより、復元対象のタグが、属性付きタグに復元されるべきもの、即ち、属性をもつものであるか否かを検出している。
【0088】
属性付きタグ復元部233は、属性付きタグ検出部232により復元対象として検出されたタグを、そのタグに対応した属性を有する属性付きタグに復元するものである。第3実施形態においては、復元対象となるXML圧縮文書のうち属性付きタグに対応する部分は、まず、タグ復元部224において要素名のみを含む通常のタグ「<要素名>」として復元される。第3実施形態の属性付きタグ復元部233は、属性付きタグについての属性値と属性リストにおける属性名とを対応させて、属性付きタグ内の属性を復元するものである。
【0089】
より具体的に説明すると、属性付きタグ復元部233は、復元すべき属性に対応する属性名を属性リスト(タグ・属性リスト)から読み出し、復元すべき属性に相当する区切りコードとこの区切りコードに組み合わされたデータ(属性値)とを通常の属性記述に置き換えることで、タグ復元部224で復元されたタグ内に属性を復元させ、属性付きタグの復元を行なうようになっている。例えば「属性値,」または「属性値=」という属性の圧縮記述は「属性名=‘属性値’」に置き換えられ、「属性値1,属性値2,」または「属性値1=属性値2=」という属性の圧縮記述は「属性名1=‘属性値1’属性名2=‘属性値2’」に置き換えられる。
【0090】
なお、第3実施形態の出力部225は、タグ復元部224および属性付きタグ復元部233を用いて復元されたXML文書を、復元結果として、記憶媒体等(例えば図1に示すハードディスク300)に出力・格納するようになっている。
次に、上述のごとく構成された、第3実施形態の構造化文書圧縮装置130および構造化文書復元装置230の動作について説明する。
【0091】
図7に示す構造化文書圧縮装置130においては、まず、圧縮対象のXML文書を入力部121により取り込み、そのXML文書中のタグをタグ検出部122により探索する。タグ以外の部分(つまり要素内容の部分)は、そのまま出力部124へ送られるが、タグ検出部122によりタグが検出されると、属性付きタグ検出部131により、そのタグが属性付きタグであるか否かが検出される。
【0092】
属性付きタグでない場合、第2実施形態で説明した通り、そのタグは、タグ圧縮部123により所定の区切りコードに置き換えられて圧縮されてから、出力部124へ送られる。
一方、属性付きタグである場合、そのタグは、属性付きタグ圧縮部132により、そのタグ内に記述された属性値と所定の区切りコードとに置き換えられて圧縮されてから、出力部124へ送られる。
【0093】
第3実施形態においては、XML文書が属性付きタグを有している場合、上述のような単純な置換処理により、要素内容とともに属性値を残したままのXML圧縮文書が生成され圧縮結果として出力部124から出力される。
ここで、図9(A)〜図9(D)を参照しながら、第3実施形態における具体的なXML文書の圧縮状態について説明する。なお、図9(A)〜図9(D)はいずれも第3実施形態におけるデータ例を示すもので、図9(A)はXML文書の一例を示す図、図9(B)は図9(A)に示すXML文書に対応するタグ・属性リストを示す図、図9(C)は図9(A)に示すXML文書の圧縮状態の一例を示す図、図9(D)は図9(A)に示すXML文書の圧縮状態の他例を示す図である。
【0094】
図9(A)には、圧縮前つまり圧縮対象のXML文書の一例として、発注伝票をXMLにより記述した例が示されている。特に、図9(A)では、図6(A)に示した例とほぼ同様の発注伝票の一部分が抽出されて示されている。この図9(A)に示す例では、さらに、製品番号を要素名としてもつ開始タグが属性を有している。即ち、その開始タグ(属性付きタグ)内には、属性として「製品名=‘ABCD’色=‘青’」が記述されている。ここで、「製品名」および「色」が属性名であり、「ABCD」および「青」が属性値である。
【0095】
また、図9(B)は、図9(A)に示したXML文書のタグ・属性リストを示しており、このようなタグ・属性リストが、予め何らかの手段により抽出・生成されて、構造化文書復元装置230のタグリスト保持部222および属性リスト保持部231に格納されている。この図9(B)に示すタグ・属性リストは、図6(B)に示したタグリストに、製品番号の属性名に係る項目、つまり「=製品名」および「=色」をさらに追加したものである。
【0096】
そして、図9(C)には、図9(A)に示すXML文書に対し、タグ圧縮部123および属性付きタグ圧縮部132による圧縮処理を施した結果、即ち、図9(A)に示すXML文書中のタグを区切りコード「,」に置き換えるとともに、属性を“属性値+区切りコード「,」”に置き換えたXML圧縮文書が示されている。つまり、図9(A)における属性付きタグ「<製品番号 製品名=‘ABCD’色=‘青’>」は、図9(C)に示すXML圧縮文書では、「,ABCD,青,」に置き換えられている。
【0097】
また、図9(D)には、同一のXML文書についての他の圧縮結果が示されている。つまり、図9(D)に示すXML圧縮文書は、タグ圧縮部123によるタグ圧縮処理に際して、XML文書中の開始タグを「,」に置き換え、XML文書中の終了タグを「/」に置き換えるとともに、属性付きタグ圧縮部132による圧縮処理に際し、属性値に付加する区切りコードとして「=」を用いたものである。従って、図9(A)における属性付きタグ「<製品番号 製品名=‘ABCD’色=‘青’>」は、図9(D)に示すXML圧縮文書では、「,ABCD=青=」に置き換えられている。
【0098】
これらの図9(A)〜図9(D)を比較対照しても明らかなように、タグ・属性リスト中の各タグとXML圧縮文書中の各区切りコード「,」または「/」とは一対一で対応するとともに、XML圧縮文書において区切りコード「,」または「/」はタグの位置に対応して配置される。また、XML文書中の要素内容は、XML圧縮文書中においてそのまま記述されている。さらに、XML文書中の属性値は、XML圧縮文書中において、右側に区切りコード「,」または「=」を付加された状態で、そのまま記述されている。
【0099】
従って、第3実施形態のXML圧縮文書によっても、XML文書と同様の自由なデータ構造表現が可能であり、要素内容のみならず属性値についても視認性が維持される。特に、図9(D)に示すXML圧縮文書では、3種類の区切りコード「,」と「/」と「=」がそれぞれ開始タグと終了タグと属性とに対応して用いられるので、開始タグ,終了タグおよび属性(属性付きタグ)の位置を視認することも可能になる。
【0100】
一方、図8に示す構造化文書復元装置230においては、まず、例えば図9(C)もしくは図9(D)に示すような復元対象のXML圧縮文書を入力部221により取り込み、そのXML圧縮文書中の区切りコード(「,」や「/」)を区切りコード検出部223により探索する。
【0101】
区切りコードおよび属性値以外の部分(つまり要素内容の部分)は、そのまま出力部225へ送られるが、区切りコード検出部223により区切りコードが検出されると、その区切りコードは、タグ復元部224により、その区切りコードに対応したタグに置き換えられる。タグ復元部224による置換処理に際しては、第2実施形態と同様、タグリスト保持部222に保持されたタグリストにおけるタグの位置と、区切りコード検出部223により検出された区切りコードの位置との対応をとることにより、検出された区切りコードがタグリスト中のどのタグに対応するかが認識されるので、区切りコードを適切なタグ(対応するタグ)に復元することができる。
【0102】
そして、第3実施形態では、属性付きタグ検出部232により、タグ復元部224で復元対象となったタグが属性をもつものであるか否かを検出し、属性をもたないものであると認識された場合には、タグ復元部224で復元されたタグ(属性をもたないタグ)は、そのまま出力部225へ送られる。
一方、属性をもつものであると認識された場合には、タグ復元部224により要素名のみを含む状態で復元された通常のタグ(例えば<製品番号>)内に、そのタグに対応する属性を、属性付きタグ復元部233によって復元させてから、出力部225へ送られる。
【0103】
例えば図9(C)や図9(D)に示す圧縮記述「,ABCD,青,」や「,ABCD=青=」については、その圧縮記述の最初の区切りコード「,」が検出され、その区切りコードが「製品番号」に対応するものであることが認識される。さらに、図9(B)に示すタグ・属性リストを参照することにより、上記圧縮記述に対応するタグは、「製品名」および「色」を属性名とする2つの属性をもつことが認識される。このような属性情報の認識に応じて、属性付きタグ復元部233により、上記圧縮記述は、図9(A)に示すような属性付きタグ「<製品番号製品名=‘ABCD’色=‘青’>」に変換・復元される。
【0104】
このように、本発明の第3実施形態の構造化文書圧縮装置130によれば、第2実施形態の構造化文書圧縮装置120と同様の作用効果が得られるほか、タグが属性値をもつ属性付きタグである場合には、その属性付きタグが属性値および所定の区切りコードに置き換えられて圧縮される。これにより、XML圧縮文書において属性値がそのまま記述されるので、要素内容だけでなく属性値の視認性を保ちながらXML文書の圧縮を行なうことができる。
【0105】
また、第3実施形態の構造化文書復元装置230によれば、第2実施形態の構造化文書圧縮装置220と同様の作用効果が得られるほか、上述のような圧縮を施された属性付きタグが復元対象になると、その属性付きタグについての属性値とXML圧縮文書についてのタグ・属性リスト中の属性名とを対応させることにより、属性付きタグを極めて容易に復元することができる。
【0106】
〔4〕第4実施形態の説明
図10は本発明の第4実施形態における構造化文書圧縮装置の要部構成を示すブロック図である。
この図10に示す構造化文書圧縮装置140は、図4に示す構造化文書圧縮装置120の前段に、さらに、入力部141,タグリスト保持部142,タグ並び替え部143および省略タグ補完部144をそなえて構成されたものである。なお、この構造化文書圧縮装置140も、第1実施形態の構造化文書圧縮部112として用いることが可能である。また、構造化文書圧縮装置140の要部を成す入力部141,タグ並び替え部143および省略タグ補完部144も、コンピュータ上で所定のプログラム(構造化文書圧縮プログラム)を実行することにより実現される。
【0107】
さて、図10に示す構造化文書圧縮装置140において、入力部141は、圧縮対象のXML文書を、ハードディスク等(例えば図1の符号300参照)から取り込むものである。
また、タグリスト保持部142は、所定のデータ構造を定義すべく所定の順序でタグを並べたタグリストを予め保持するものである。より詳細に説明すると、第3実施形態においても、第1および第2実施形態と同様、処理対象となる複数のXML文書が、同一のデータ構造を有していることを前提としている。そして、タグリスト保持部142に保持されるタグリストは、構造化文書圧縮装置220のタグリスト保持部222に保持されるタグリストと同様、これら複数のXML文書により共有され、各XML文書において、どのようなタグがどのような順序で出現するかを示すものである。なお、タグリスト保持部142には、圧縮処理対象となるXML文書について予め生成されたタグリストが、データベース(図示略)等から取得して格納される。
【0108】
タグ並び替え部143は、入力されたXML文書とタグリストとを比較し、XML文書におけるタグの記述順序をタグリストにおけるタグの配列順序(所定の順序)に合わせるように、圧縮前のXML文書のタグを並び替えるものである。このとき、対になる開始タグと終了タグとの順序を変更する場合、タグ並び替え部143は、これらの開始タグと終了タグとの間に記述された要素内容も一緒に移動させる。
【0109】
省略タグ補完部144は、タグリスト保持部142に保持されたタグリストに従って、タグ並び替え部143による処理を施されたXML文書中で省略されているタグを補完するものである。つまり、省略タグ補完部144は、入力されたXML文書とタグリストとを比較し、そのXML文書中から欠落しているタグを検出すると、欠落タグに対応するタグをタグリストから読み出し、その欠落タグを補完するものである。このとき、対になる開始タグと終了タグとを補完する場合、省略タグ補完部144は、これらの開始タグと終了タグとの間に記述されるべき要素内容を空のままとする。
【0110】
そして、タグ並び替え部143および省略タグ補完部144による処理を施されたXML文書は、第2実施形態の構造化文書圧縮装置120に入力されるようになっている。
【0111】
次に、上述のごとく構成された、第4実施形態の構造化文書圧縮装置140の動作について説明する。
図10に示す構造化文書圧縮装置140においては、まず、圧縮対象のXML文書を入力部141により取り込み、タグ並び替え部143において、そのXML文書とタグリストとが比較され、万一、XML文書中にタグの記述順序の逆転等の不備がある場合には、XML文書におけるタグの記述順序がタグリストにおけるタグの配列順序に合うように圧縮前のXML文書のタグが並び替えられる。
【0112】
そして、並び替え処理を施されたXML文書は、省略タグ補完部144に入力され、この省略タグ補完部144において、そのXML文書とタグリストとが比較され、そのXML文書中から欠落しているタグが検出されると、欠落タグに対応するタグがタグリストから読み出され、その欠落タグが補完される。
【0113】
ここで、図11(A)〜図11(C)を参照しながら、第4実施形態における具体的なXML文書の圧縮状態について説明する。なお、図11(A)〜図11(C)はいずれも第4実施形態におけるデータ例を示すもので、図11(A)はタグリストの一例を示す図、図11(B)はタグの記述に不備のあるXML文書の一例を示す図、図11(C)は図11(B)に示すXML文書を図11(A)に示すタグリストに従って正規化した結果を示す図である。
【0114】
図11(A)には、図6(B)に示したものと全く同じタグリストが示されており、ここでは、この図11(A)に示すタグリストに従って、タグ並び替え部143および省略タグ補完部144による処理をXML文書に施す場合について説明する。その処理対象になるXML文書は、例えば図11(B)に示すものである。
【0115】
まず、タグ並び替え部143において、図11(A)のタグリストと図11(B)のXML文書とを比較することにより、図11(B)のXML文書では、価格についてのタグおよび要素内容「300」と、製品番号についてのタグおよび要素内容「B7」との配置順序が逆転していることが認識され、その順序が並び替えられる。
【0116】
そして、省略タグ補完部144において、上述のごとく順序を並び替えられたXML文書と図11(A)のタグリストとを比較することにより、そのXML文書では、メーカについてのタグが欠落していることが認識され、メーカについての開始タグと終了タグとが空要素の状態で補完される。
その結果、図11(B)に示すようにタグの記述に不備のあったXML文書が、図11(B)に示すタグリストに応じたデータ構造をもつXML文書に修正され、図11(C)に示すようなXML文書に正規化(整頓)される。
【0117】
つまり、構造化文書圧縮装置120による圧縮対象である、全てのXML文書に対し、タグ並び替え部143および省略タグ補完部144による処理を施すことによって、全てのXML文書が、タグリストに応じたデータ構造をもつXML文書となるように正規化される。
【0118】
そして、上述のごとく正規化されたXML文書が、構造化文書圧縮装置120に入力され、第2実施形態で前述したように圧縮される。なお、当然、不備のないXML文書は、タグ並び替え部143および省略タグ補完部144をそのまま通過して、構造化文書圧縮装置120に入力される。
【0119】
ところで、図12は本発明の第4実施形態における構造化文書圧縮装置の変形例の要部構成を示すブロック図である。
この図12に示す構造化文書圧縮装置150は、図7に示す構造化文書圧縮装置130の前段に、さらに、入力部151,タグ・属性リスト保持部152,タグ・属性並び替え部153および省略タグ・属性補完部154をそなえて構成されたものである。なお、この構造化文書圧縮装置150も、第1実施形態の構造化文書圧縮部112として用いることが可能である。また、構造化文書圧縮装置150の要部を成す入力部151,タグ・属性並び替え部153および省略タグ・属性補完部154も、コンピュータ上で所定のプログラム(構造化文書圧縮プログラム)を実行することにより実現される。
【0120】
さて、図12に示す構造化文書圧縮装置150において、入力部151は、属性付きタグを含む圧縮対象のXML文書を、ハードディスク等(例えば図1の符号300参照)から取り込むものである。
また、タグ・属性リスト保持部152は、所定のデータ構造を定義すべく所定の順序で並べたタグと属性名とをもつタグ・属性リストを予め保持するものである。より詳細に説明すると、この第4実施形態の変形例においても、第1〜第3実施形態と同様、処理対象となる複数のXML文書が、同一のデータ構造を有していることを前提としている。そして、タグ・属性リスト保持部152に保持されるタグ・属性リストは、構造化文書圧縮装置230のタグ・属性リストと同様、これら複数のXML文書により共有され、各XML文書において、どのようなタグがどのような順序で出現するか、あるいは、どのような属性がどのような順序で出現するかを示すものである。なお、タグ・属性リスト保持部152には、圧縮処理対象となるXML文書について予め生成されたタグ・属性リストが、データベース(図示略)等から取得して格納される。
【0121】
タグ・属性並び替え部153は、入力されたXML文書とタグ・属性リストとを比較し、XML文書におけるタグおよび属性の記述順序をタグ・属性リストにおけるタグおよび属性の配列順序(所定の順序)に合わせるように、圧縮前のXML文書のタグや属性を並び替えるものである。このとき、対になる開始タグと終了タグとの順序を変更する場合、タグ・属性並び替え部153は、これらの開始タグと終了タグとの間に記述された要素内容も一緒に移動させる。
【0122】
省略タグ・属性補完部154は、タグ・属性リスト保持部152に保持されたタグ・属性リストに従って、タグ・属性並び替え部153による処理を施されたXML文書中で省略されているタグや属性を補完するものである。つまり、省略タグ・属性補完部154は、入力されたXML文書とタグリストとを比較して、そのXML文書中から欠落しているタグや属性を検出すると、欠落タグや欠落属性に対応するタグあるいは属性名をタグ・属性リストから読み出し、その欠落タグや欠落属性を補完するものである。このとき、対になる開始タグと終了タグとを補完する場合、省略タグ・属性補完部154は、これらの開始タグと終了タグとの間に記述されるべき要素内容を空のままとする。また、属性を補完する場合、省略タグ・属性補完部154は、属性値としてデフォルト値等を設定する。
【0123】
そして、タグ・属性並び替え部153および省略タグ・属性補完部154による処理を施されたXML文書は、第3実施形態の構造化文書圧縮装置130に入力されるようになっている。
【0124】
次に、上述のごとく構成された、第4実施形態の変形例の構造化文書圧縮装置150の動作について説明する。
図12に示す構造化文書圧縮装置150においては、まず、圧縮対象のXML文書を入力部151により取り込み、タグ・属性並び替え部153において、そのXML文書とタグ・属性リストとが比較され、万一、XML文書中にタグや属性の記述順序の逆転等の不備がある場合には、XML文書におけるタグや属性の記述順序がタグ・属性リストにおけるタグや属性の配列順序に合うように、圧縮前のXML文書のタグや属性が並び替えられる。
【0125】
そして、並び替え処理を施されたXML文書は、省略タグ・属性補完部154に入力され、この省略タグ・属性補完部154において、そのXML文書とタグ・属性リストとが比較され、そのXML文書中から欠落しているタグや属性が検出されると、欠落タグや欠落属性に対応するタグや属性がタグ・属性リストから読み出され、その欠落タグや欠落属性が補完される。
【0126】
その結果、タグや属性の記述に不備のあったXML文書が、タグ・属性リストに応じたデータ構造をもつXML文書に修正され正規化(整頓)される。
つまり、構造化文書圧縮装置130による圧縮対象である、全てのXML文書に対し、タグ・属性並び替え部153および省略タグ・属性補完部154による処理を施すことによって、全てのXML文書が、タグ・属性リストに応じたデータ構造をもつXML文書となるように正規化される。
【0127】
そして、上述のごとく正規化されたXML文書が、構造化文書圧縮装置130に入力され、第3実施形態で前述したように圧縮される。なお、当然、不備のないXML文書は、タグ・属性並び替え部153および省略タグ・属性補完部154をそのまま通過して、構造化文書圧縮装置130に入力される。
【0128】
このように、本発明の第4実施形態における構造化文書圧縮装置140,150によれば、所定のデータ構造を定義する、タグリストまたはタグ・属性リストに従って、圧縮前のXML文書のタグや属性が所定の順序に並び替られるとともに、XML文書中で省略されているタグや属性が補完される。これにより、タグまたは属性の記述順序の逆転や、タグまたは属性の記述の欠落といった不備をもつXML文書は、所定のデータ構造を有するように正規化される。
【0129】
従って、同一のデータ構造を有する多数のXML文書を圧縮処理対象とする場合、上述のような不備をもつXML文書が含まれていても、圧縮処理前に、圧縮処理対象の全てのXML文書が、タグリストもしくはタグ・属性リストで定義された所定のデータ構造を有するように正規化される。これにより、多数のXML圧縮文書を、一つのタグリストまたはタグ・属性リストによって確実に管理し取り扱うことが可能になる。
【0130】
〔5〕第5実施形態の説明
図13は本発明の第5実施形態における構造化文書圧縮装置および構造化文書復元装置の構成を示すブロック図である。
図13に示す構造化文書圧縮装置160および構造化文書復元装置260は、XML文書に対する処理を行なうための構造化文書処理システムに含まれて、この構造化文書処理システムの一部を構成するものである。
【0131】
この第5実施形態の構造化文書圧縮装置160は、XML文書を圧縮するためのもので、図13に示すように、上述した構造化文書圧縮装置120,130,140,150のいずれか一つに対し、さらに、入力部161,サブ文書抽出部162,サブ文書統合部163および出力部164をそなえて構成されている。
【0132】
また、第5実施形態の構造化文書復元装置260は、構造化文書圧縮装置160により生成されたXML圧縮文書(圧縮データ)をXML文書に復元するためのもので、図13に示すように、上述した構造化文書復元装置220,230のいずれか一方に対し、さらに、入力部161,サブ文書抽出部162,サブ文書統合部163および出力部164をそなえて構成されている。
【0133】
ここで、構造化文書圧縮装置160および構造化文書復元装置260は、同一のコンピュータ上、もしくは、それぞれ異なるコンピュータ上にそなえられている。そして、構造化文書圧縮装置160における各種機能は、コンピュータ上で所定のプログラム(構造化文書圧縮プログラム)を実行することにより実現される。同様に、構造化文書復元装置260における各種機能は、コンピュータ上で所定のプログラム(構造化文書復元プログラム)を実行することにより実現されるようになっている。
【0134】
なお、図13に示すように、構造化文書圧縮装置160と構造化文書復元部260とは、サブ文書抽出部162とサブ文書統合部163との間に配置される装置が異なる以外は、全く同じ構成になっている。
さて、図13に示す構造化文書圧縮装置160において、入力部161は、圧縮対象のXML文書を、ハードディスク等(例えば図1の符号300参照)から取り込むものであり、サブ文書抽出部162は、入力されたXML文書から、所定の要素名をもつ開始タグと終了タグとで囲まれた領域をサブ文書として抽出し、そのサブ文書を構造化文書圧縮装置120,130,140,150のいずれか一つ(以下、第5実施形態では、構造化文書圧縮装置120とする)に出力するものである。
【0135】
そして、サブ文書統合部163は、構造化文書圧縮装置120からサブ文書の圧縮結果を受け、その圧縮結果とサブ文書以外の部分とを統合するものであり、出力部164は、サブ文書統合部163によって統合されたXML圧縮文書を、圧縮結果として、ハードディスク等(例えば図1,図2,図15〜図17の符号400,410,420,440参照)に出力・格納するものである。
【0136】
一方、図13に示す構造化文書復元装置260において、入力部161は、復元対象のXML圧縮文書を、記憶媒体等(例えば図1,図2,図15〜図17に示すハードディスク400,410,420,440)から取り込むものであり、サブ文書抽出部162は、入力されたXML圧縮文書から、所定の要素名をもつ開始タグと終了タグとで囲まれた領域をサブ文書として抽出し、そのサブ文書を構造化文書復元装置220もしくは230(以下、第5実施形態では、構造化文書復元装置220とする)に出力するものである。
【0137】
そして、サブ文書統合部163は、構造化文書復元装置220からサブ文書の復元結果を受け、その復元結果とサブ文書以外の部分とを統合するものであり、出力部164は、サブ文書統合部163によって統合されたXML文書を、復元結果として、記憶媒体等(例えば図1に示すハードディスク300)に出力・格納するものである。
【0138】
なお、構造化文書復元装置260において構造化文書復元装置220を用いる場合、その構造化文書復元装置220において用いられるタグリストは、サブ文書におけるタグを出現順序に従ってリスト化して予め生成されたもので、データベース(図示略)等から取得される。また、構造化文書復元装置260において構造化文書復元装置230を用いる場合、その構造化文書復元装置230において用いられるタグ・属性リストは、サブ文書におけるタグや属性を出現順序に従ってリスト化して予め生成されたもので、やはり、データベース(図示略)等から取得される。
【0139】
次に、上述のごとく構成された、第5実施形態の構造化文書圧縮装置160および構造化文書復元装置260の動作について説明する。
図13に示す構造化文書圧縮装置160においては、まず、圧縮対象のXML文書を入力部161により取り込み、サブ文書抽出部162により、そのXML文書から、所定の要素名をもつ開始タグと終了タグとで囲まれた領域がサブ文書として抽出され、そのサブ文書が構造化文書圧縮装置120に出力される。
【0140】
そして、構造化文書圧縮装置120においては、入力されたサブ文書に対し、第2実施形態で前述した圧縮処理が施され、タグを所定の区切りコードに置き換えるようにして圧縮されたサブ文書が生成される。
圧縮されたサブ文書は、サブ文書統合部163によりサブ文書以外の部分と統合され、統合されたXML文書が圧縮結果として出力部164から出力される。
【0141】
ここで、図14(A)および図14(B)を参照しながら、第5実施形態における具体的なXML文書の圧縮状態について説明する。なお、図14(A)および図14(B)はいずれも第5実施形態におけるデータ例を示すもので、図14(A)は複数のサブ文書を含むXML文書の一例を示す図、図14(B)は図14(A)に示すXML文書の圧縮状態を示す図である。
【0142】
図14(A)には、圧縮前つまり圧縮対象のXML文書の一例として、同一のデータ構造をもつ複数(図中3つ)のサブ文書を含む、発注伝票についてのXML文書が示されている。この図14(A)に示すXML文書では、開始タグ<商品>と終了タグ</商品>とで囲まれた領域が3つ存在し、これらの領域は全く同じデータ構造を有している。つまり、各領域においては、メーカ,製品番号および価格についてのタグと要素内容とが記述されている。ただし、これらの領域に記述された要素内容は異なっている。
【0143】
図14(A)に示すXML文書を、構造化文書圧縮装置160により圧縮する場合、サブ文書抽出部162において、サブ文書の抽出基準として開始タグ<商品>および終了タグ</商品>を予め設定しておくことにより、図14(A)に示すXML文書から、開始タグ<商品>と終了タグ</商品>とにより囲まれた、3つの領域がサブ文書として抽出される。
【0144】
抽出された各サブ文書に対し、構造化文書圧縮装置120による圧縮処理を施した結果、図14(A)に示すサブ文書中のタグは区切りコード「,」に置き換えられる。そして、置換処理後のサブ文書とサブ文書以外の部分とをサブ文書統合部163により統合すると、図14(B)に示すようなXML圧縮文書が生成される。
【0145】
一方、図13に示す構造化文書復元装置260においては、まず、例えば図14(B)に示すようなXML圧縮文書を復元対象として入力部161により取り込み、圧縮処理時と同様、サブ文書抽出部162により、そのXML圧縮文書から、開始タグ<商品>と終了タグ</商品>とで囲まれた領域(実質的なXML圧縮文書)がサブ文書として抽出され、そのサブ文書(XML圧縮文書)が構造化文書復元装置220に出力される。
【0146】
そして、構造化文書復元装置220においては、入力されたサブ文書に対し、第2実施形態で前述した復元処理が施されて、区切りコード「,」が適切なタグに復元され、サブ文書が元のXML文書に復元される。
復元されたサブ文書は、サブ文書統合部163によりサブ文書以外の部分と統合され、統合されたXML文書が復元結果として出力部164から出力される。
【0147】
このように、本発明の第5実施形態における構造化文書圧縮装置160によれば、一つのXML文書中に、同一のデータ構造を有する領域(サブ文書)が複数存在する場合、XML文書からそのサブ文書が抽出され、各サブ文書中のタグを区切りコード「,」に置き換えることにより、各サブ文書について、XML文書の利点であるデータ構造の視認性や柔軟性/拡張性の高さを生かしたまま、XML文書が圧縮されてXML文書のデータ量を削減することができる。
【0148】
従って、第1実施形態や第2実施形態と同様、XML文書を格納するための記憶領域(例えば図1,図2,図15〜図17に示すハードディスク400,410,420,440)の容量を削減することができるとともに、XML文書データの伝送速度を高速化することができる。
【0149】
また、第5実施形態の構造化文書復元装置260によれば、上述のような圧縮を施されたサブ文書を含むXML文書が復元対象になると、その復元対象のサブ文書中で検出された区切りコード「,」を、サブ文書についてのタグリスト中のタグと対応させながら、所定のタグに置き換えるという簡易な置換処理により、復元対象の書を極めて容易に元の構造化文書に復元することができる。
【0150】
〔6〕タグリストの一括管理手法の説明
次に、複数種類のデータ構造(つまり複数種類のタグリスト)を一つの構造化文書処理システムで管理する場合の、本実施形態におけるタグリストの一括管理手法について、図15〜図18を参照しながら説明する。なお、図15〜図17は、それぞれ、本実施形態におけるタグリストの一括管理手法の第1例〜第3例を説明するための図、図18本実施形態におけるタグリストの一括管理手法の第2例および第3例におけるタグリスト識別情報の付加例を示す図である。
である。
【0151】
図15に示す構造化文書処理システムでは、ハードディスク(データベース)410において、構造化文書圧縮装置120〜160により生成された複数(図15では3つ)のXML圧縮文書が格納される。ここで、3つのXML圧縮文書には、それぞれ、識別情報(識別子)1〜3が付与されているものとする。
【0152】
そして、ハードディスク410には、タグリスト群保持部411およびタグリスト管理部412が保持されている。
タグリスト群保持部411は、処理対象となるXML文書のデータ構造に対応した複数種類(図15では2種類)のタグリストを予め保持するものである。ここで、2種類のタグリストには、それぞれ、タグリスト識別情報(タグリスト識別子)A,Bが付与されているものとする。
【0153】
タグリスト管理部412は、構造化文書圧縮装置120〜160によって生成されたXML圧縮文書の識別情報1〜3と、タグリスト群保持部411に保持されているタグリストA,Bとの対応関係をテーブルによって一括管理するものである。例えば図15に示すタグリスト管理部412のテーブルによれば、XML圧縮文書1,2,3とタグリストA,A,Bとがそれぞれ対応関係にある。
このタグリスト管理部412により、ハードディスク410に保持されている複数のXML圧縮文書をそれぞれ復元する際に必要なタグリストが、一括管理される。
【0154】
従って、構造化文書復元装置220,230,260においてXML圧縮文書を復元する際には、そのXML圧縮文書の識別情報をキーにしてタグリスト管理部412のテーブルを検索することにより、そのXML圧縮文書の識別情報に対応した、タグリスト識別情報を得る。そして、構造化文書復元装置210〜230,260は、そのタグリスト識別情報により特定されるタグリストを、ハードディスク410のタグリスト群保持部411から読み出し、上述したようなXML圧縮文書の復元処理に使用する。
【0155】
図16に示す構造化文書処理システムでは、ハードディスク(データベース)420において、構造化文書圧縮装置110〜150により生成された複数(図16では3つ)のXML圧縮文書1〜3が格納されるとともに、図15に示したものと同様のタグリスト群保持部411が保持されている。
【0156】
また、ハードディスク420には、構造化文書圧縮装置120〜160がアクセス可能に接続されるとともに構造化文書復元装置220,230,260がアクセス可能に接続されており、構造化文書圧縮装置120〜160には、タグリスト識別情報付加部171がそなえられるとともに、構造化文書復元装置220,230,260には、タグリスト識別情報取得部172がそなえられている。
【0157】
タグリスト識別情報付加部171は、構造化文書圧縮装置120〜160によって生成されたXML圧縮文書に、そのXML圧縮文書に対応するタグリストを特定するためのタグリスト識別情報を付加するものであり、タグリスト識別情報取得部172は、XML圧縮文書に付加されたタグリスト識別情報を取得するものである。
【0158】
従って、構造化文書圧縮装置120〜160においてXML圧縮文書が生成されると、そのXML圧縮文書に対応するタグリスト識別情報(識別子)を、例えば図18に示すごとく、タグリスト識別情報付加部171によりXML圧縮文書の開始タグ内に属性として書き込んで付加する。なお、図16に示す例では、XML圧縮文書1〜3のそれぞれにタグリスト識別情報A,A,Bが付加されている。また、図18では、XML圧縮文書1または2における開始タグ<商品>の中に、タグリスト識別情報Aが属性「tag=‘タグリストA’」として記入された例が示されている。
【0159】
一方、構造化文書復元装置220,230,260においてXML圧縮文書を復元する際には、そのXML圧縮文書に付加されているタグリスト識別情報を、タグリスト識別情報取得部172により取得する。そして、構造化文書復元装置220,230,260は、そのタグリスト識別情報により特定されるタグリストを、ハードディスク420のタグリスト群保持部411から読み出し、上述したようなXML圧縮文書の復元処理に使用する。
【0160】
図17に示す構造化文書処理システムでは、管理サーバ600におけるハードディスク(データベース)430に、図15に示したものと同様のタグリスト群保持部411が保持されている。
また、管理サーバ600は、LAN等のネットワーク700を介して構造化文書圧縮装置120〜160や構造化文書復元装置220,230,260と通信可能に接続されるほか、これらの構造化文書圧縮装置120〜160や構造化文書復元装置220,230,260は、ハードディスク(データベース)440にアクセス可能に接続されている。このハードディスク440には、図16に示した例と同様、構造化文書圧縮装置120〜160において生成されそれぞれタグリスト識別情報を付加されたXML圧縮文書が格納されている。
【0161】
従って、構造化文書圧縮装置120〜160においてXML圧縮文書が生成されると、図16に示したシステムと同様、そのXML圧縮文書に対応するタグリスト識別情報(識別子)を、例えば図18に示すごとく、タグリスト識別情報付加部171によりXML圧縮文書の開始タグ内に属性として書き込んで付加する。なお、図17に示す例でも、XML圧縮文書1〜3のそれぞれにはタグリスト識別情報A,A,Bが付加されている。
【0162】
一方、構造化文書復元装置220,230,260においてXML圧縮文書を復元する際には、そのXML圧縮文書に付加されているタグリスト識別情報を、タグリスト識別情報取得部172により取得する。そして、構造化文書復元装置220,230,260は、そのタグリスト識別情報により特定されるタグリストを、ハードディスク430(即ち、管理サーバ600上)のタグリスト群保持部411から、ネットワーク700経由で読み出し、上述したようなXML圧縮文書の復元処理に使用する。
【0163】
このように、図15〜図17に示す構造化文書処理システムによれば、XML圧縮文書とタグリストとの対応関係をタグリスト管理部412によって管理したり、XML圧縮文書に対応するタグリストを特定するためのタグリスト識別情報をXML圧縮文書に付加したりすることで、タグリスト群が一括管理され、XML圧縮文書とタグリストとの対応関係を確実に把握することができ、XML圧縮文書を、そのXML圧縮文書に対応したタグリストに基づいて復元することができる。
【0164】
従って、XML文書に対し圧縮・復元処理を施しながらXML文書を取り扱うシステムにおいて、異なる種類のデータ構造(即ちタグリスト)をもつXML文書(XML圧縮文書)が混在しても、混乱を招くことなく、各XML圧縮文書に応じたタグリストを確実に取得して復元処理を行なうことができる。
【0165】
また、図17に示す構造化文書処理システムによれば、タグリスト群を管理サーバ600上で保持・管理し、ネットワーク700を介して処理に必要なタグリストを管理サーバ600から読み出すように構成することにより、タグリスト群が一括管理される。従って、複数種類のタグリストを構造化文書圧縮装置毎や構造化文書復元装置毎に管理する必要がなくなり、複数の構造化文書圧縮装置や構造化文書復元装置によって共用することができる。
【0166】
なお、図15〜図18に示したシステムでは、タグリスト群を一括管理する場合について説明したが、タグ・属性リスト群についても上述と同様にして一括管理することができる。
【0167】
〔7〕その他
なお、本発明は上述した実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で種々変形して実施することができる。
例えば、上述した実施形態では、構造化文書がXMLである場合について説明したが、本発明は、これに限定されるものではなく、タグを用いて記述される、XMLと同様の構造化文書(SGML等)に対し、上述した実施形態と同様に適用され、上述と同様の作用効果を得ることができる。
【0168】
また、上述した実施形態では、区切りコードとして「,」や「/」や「=」を用いた場合について説明したが、本発明は、これに限定されるものではなく、要素内容の記述に使用されることのない、他の文字あるいは記号を区切りコードとして用いてもよく、この場合も、上述した実施形態と同様の作用効果を得ることができる。
【0169】
〔8〕付記
(付記1) 同一のデータ構造を有する複数の構造化文書を圧縮する装置であって、
該構造化文書におけるタグを出現順序に従って抽出してリスト化した、該複数の構造化文書について共通の一つのタグリストを取得するタグリスト取得部と、
各構造化文書中のタグを所定の区切りコードに置き換えた圧縮文書を生成する構造化文書圧縮部と、
該タグリスト取得部により取得された前記一つのタグリストと、該複数の構造化文書のそれぞれについて該構造化文書圧縮部により生成された複数の圧縮文書とを対応させ該複数の構造化文書の圧縮結果として出力する出力部とをそなえたことを特徴とする、構造化文書圧縮装置。
【0170】
(付記2) 該構造化文書圧縮部が、
前記の各構造化文書中のタグを検出するタグ検出部と、
該タグ検出部により検出された該タグを前記所定の区切りコードに置き換えて圧縮するタグ圧縮部とをそなえて構成されていることを特徴とする、付記1記載の構造化文書圧縮装置。
【0171】
(付記3) 構造化文書を圧縮する装置であって、
該構造化文書中のタグを検出するタグ検出部と、
該タグ検出部により検出された該タグを所定の区切りコードに置き換えて圧縮するタグ圧縮部とをそなえたことを特徴とする、構造化文書圧縮装置。
【0172】
(付記4) 構造化文書を圧縮する装置であって、
該構造化文書から、所定の要素名をもつ開始タグと終了タグとで囲まれた領域をサブ文書として抽出するサブ文書抽出部と、
該サブ文書抽出部により抽出された該サブ文書中のタグを検出するタグ検出部と、
該タグ検出部により検出された該タグを所定の区切りコードに置き換えて圧縮するタグ圧縮部とをそなえたことを特徴とする、構造化文書圧縮装置。
【0173】
(付記5) 該タグ検出部により検出された該タグが属性値をもつ属性付きタグであるか否かを検出する属性付きタグ検出部と、
該属性付きタグ検出部により検出された該属性付きタグを前記属性値および所定の区切りコードに置き換えて圧縮する属性タグ付きタグ圧縮部とをそなえたことを特徴とする、付記3または付記4に記載の構造化文書圧縮装置。
【0174】
(付記6) 所定のデータ構造を定義すべく所定の順序でタグを並べたタグリストを予め保持するタグリスト保持部と、
該タグリスト保持部に保持された前記タグリストに従って、圧縮前の前記構造化文書のタグを前記所定の順序に並び替えるタグ並び替え部と、
該タグリスト保持部に保持された前記タグリストに従って、該構造化文書中で省略されているタグを補完する省略タグ補完部とをそなえたことを特徴とする、付記3または付記4に記載の構造化文書圧縮装置。
【0175】
(付記7) 所定のデータ構造を定義すべく所定の順序で並べたタグと属性名とをもつタグ・属性リストを予め保持するタグ・属性リスト保持部と、
該タグ・属性リスト保持部に保持された前記タグ・属性リストに従って、圧縮前の前記構造化文書のタグおよび属性を前記所定の順序に並び替えるタグ・属性並び替え部と、
該タグ・属性リスト保持部に保持された前記タグ・属性リストに従って、該構造化文書中で省略されているタグおよび属性を補完する省略タグ・属性補完部とをそなえたことを特徴とする、付記5記載の構造化文書圧縮装置。
【0176】
(付記8) 同一のデータ構造を有する複数の構造化文書を圧縮する方法であって、
該構造化文書におけるタグを出現順序に従って抽出してリスト化した、該複数の構造化文書について共通の一つのタグリストを取得し、
各構造化文書中のタグを所定の区切りコードに置き換えた圧縮文書を生成し、
前記一つのタグリストと、該複数の構造化文書のそれぞれについて生成された複数の圧縮文書とを対応させ該複数の構造化文書の圧縮結果として出力することを特徴とする、構造化文書圧縮方法。
【0177】
(付記9) 構造化文書を圧縮する方法であって、
該構造化文書中のタグを検出し、
検出された該タグを所定の区切りコードに置き換えて圧縮することを特徴とする、構造化文書圧縮方法。
【0178】
(付記10) 構造化文書を圧縮する方法であって、
該構造化文書から、所定の要素名をもつ開始タグと終了タグとで囲まれた領域をサブ文書として抽出し、
該サブ文書中のタグを検出し、
検出された該タグを所定の区切りコードに置き換えて圧縮することを特徴とする、構造化文書圧縮方法。
【0179】
(付記11) 同一のデータ構造を有する複数の構造化文書を圧縮する機能をコンピュータにより実現するための構造化文書圧縮プログラムを格納したコンピュータ読取可能な記録媒体であって、
該構造化文書圧縮プログラムが、
該構造化文書におけるタグを出現順序に従って抽出してリスト化した、該複数の構造化文書について共通の一つのタグリストを取得するタグリスト取得部、
各構造化文書中のタグを所定の区切りコードに置き換えた圧縮文書を生成する構造化文書圧縮部、および、
該タグリスト取得部により取得された前記一つのタグリストと、該複数の構造化文書のそれぞれについて該構造化文書圧縮部により生成された複数の圧縮文書とを対応させ該複数の構造化文書の圧縮結果として出力する出力部として、該コンピュータに機能させることを特徴とする、構造化文書圧縮プログラムを格納したコンピュータ読取可能な記録媒体。
【0180】
(付記12) 構造化文書を圧縮する機能をコンピュータにより実現するための構造化文書圧縮プログラムを格納したコンピュータ読取可能な記録媒体であって、
該構造化文書圧縮プログラムが、
該構造化文書中のタグを検出するタグ検出部、および、
該タグ検出部により検出された該タグを所定の区切りコードに置き換えて圧縮するタグ圧縮部として、該コンピュータを機能させることを特徴とする、構造化文書圧縮プログラムを格納したコンピュータ読取可能な記録媒体。
【0181】
(付記13) 構造化文書を圧縮する機能をコンピュータにより実現するための構造化文書圧縮プログラムを格納したコンピュータ読取可能な記録媒体であって、
該構造化文書圧縮プログラムが、
該構造化文書から、所定の要素名をもつ開始タグと終了タグとで囲まれた領域をサブ文書として抽出するサブ文書抽出部、
該サブ文書抽出部により抽出された該サブ文書中のタグを検出するタグ検出部、および、
該タグ検出部により検出された該タグを所定の区切りコードに置き換えて圧縮するタグ圧縮部として、該コンピュータを機能させることを特徴とする、構造化文書圧縮プログラムを格納したコンピュータ読取可能な記録媒体。
【0182】
(付記14) 同一のデータ構造を有する複数の構造化文書中のタグを所定の区切りコードに置き換えることにより生成された複数の圧縮文書を、該複数の構造化文書におけるタグを出現順序に従ってリスト化したタグリストに基づいて復元する装置であって、
該タグリストに対応するデータ構造をメモリ上に複製データ構造として展開・複製する複製部と、
該複製データ構造におけるタグの位置と各圧縮文書中の前記所定の区切りコードの位置とを対応させながら、各圧縮文書中の要素内容を該メモリ上における該複製データ構造の所定領域に書き出す書出部とをそなえたことを特徴とする、構造化文書復元装置。
【0183】
(付記15) 構造化文書中のタグを所定の区切りコードに置き換えることにより生成された圧縮文書を復元する装置であって、
該構造化文書におけるタグを出現順序に従ってリスト化したタグリストを予め保持するタグリスト保持部と、
該圧縮文書中の前記所定の区切りコードを検出する区切りコード検出部と、
該タグリストにおけるタグの位置と該区切りコード検出部により検出された前記所定の区切りコードの位置とを対応させながら、該区切りコード検出部により検出された前記所定の区切りコードを、該タグリストにおける対応するタグに置き換えて復元するタグ復元部とをそなえたことを特徴とする、構造化文書復元装置。
【0184】
(付記16) 構造化文書において所定の要素名をもつ開始タグと終了タグとで囲まれた領域であるサブ文書中のタグを所定の区切りコードに置き換えることにより生成された圧縮文書を復元する装置であって、
該サブ文書におけるタグを出現順序に従ってリスト化したタグリストを予め保持するタグリスト保持部と、
該圧縮文書から該サブ文書を抽出するサブ文書抽出部と、
該サブ文書抽出部により抽出された該サブ文書中の前記所定の区切りコードを検出する区切りコード検出部と、
該タグリストにおけるタグの位置と該区切りコード検出部により検出された前記所定の区切りコードの位置とを対応させながら、該区切りコード検出部により検出された前記所定の区切りコードを、該タグリストにおける対応するタグに置き換えて復元するタグ復元部とをそなえたことを特徴とする、構造化文書復元装置。
【0185】
(付記17) 該圧縮文書中において、属性付きタグ内の属性が属性値および所定の区切りコードに置き換えられて圧縮されている場合、
該圧縮文書における属性名を出現順序に従ってリスト化した属性リストを予め保持する属性リスト保持部と、
該タグ復元部で復元対象となったタグが属性付きタグに復元されるべきものであるか否かを検出する属性付きタグ検出部と、
該属性付きタグについての属性値と該属性リストにおける属性名とを対応させて、該属性付きタグ検出部により検出された該属性付きタグ内の該属性を復元する属性付きタグ復元部とをそなえたことを特徴とする、付記15または付記16に記載の構造化文書復元装置。
【0186】
(付記18) 同一のデータ構造を有する複数の構造化文書中のタグを所定の区切りコードに置き換えることにより生成された複数の圧縮文書を、該複数の構造化文書におけるタグを出現順序に従ってリスト化したタグリストに基づいて復元する方法であって、
該タグリストに対応するデータ構造をメモリ上に複製データ構造として展開・複製し、
該複製データ構造におけるタグの位置と各圧縮文書中の前記所定の区切りコードの位置とを対応させながら、各圧縮文書中の要素内容を該メモリ上における該複製データ構造の所定領域に書き出すことを特徴とする、構造化文書復元方法。
【0187】
(付記19) 構造化文書中のタグを所定の区切りコードに置き換えることにより生成された圧縮文書を復元する方法であって、
該構造化文書におけるタグを出現順序に従ってリスト化したタグリストを予め保持し、
該圧縮文書中の前記所定の区切りコードを検出し、
検出された前記所定の区切りコードの位置と該タグリストにおけるタグの位置とを対応させながら、検出された前記所定の区切りコードを該タグリストにおける対応するタグに置き換えて復元することを特徴とする、構造化文書復元方法。
【0188】
(付記20) 構造化文書において所定の要素名をもつ開始タグと終了タグとで囲まれた領域であるサブ文書中のタグを所定の区切りコードに置き換えることにより生成された圧縮文書を復元する方法であって、
該サブ文書におけるタグを出現順序に従ってリスト化したタグリストを予め保持し、
該圧縮文書から該サブ文書を抽出し、
抽出された該サブ文書中の前記所定の区切りコードを検出し、
検出された前記所定の区切りコードの位置と該タグリストにおけるタグの位置とを対応させながら、検出された前記所定の区切りコードを該タグリストにおける対応するタグに置き換えて復元することを特徴とする、構造化文書復元方法。
【0189】
(付記21) 同一のデータ構造を有する複数の構造化文書中のタグを所定の区切りコードに置き換えることにより生成された複数の圧縮文書を、該複数の構造化文書におけるタグを出現順序に従ってリスト化したタグリストに基づいて復元する機能をコンピュータにより実現するための構造化文書復元プログラムを格納したコンピュータ読取可能な記録媒体であって、
該構造化文書復元プログラムが、
該タグリストに対応するデータ構造をメモリ上に複製データ構造として展開・複製する複製部、および、
該複製データ構造におけるタグの位置と各圧縮文書中の前記所定の区切りコードの位置とを対応させながら、各圧縮文書中の要素内容を該メモリ上における該複製データ構造の所定領域に書き出す書出部として、該コンピュータを機能させることを特徴とする、構造化文書復元プログラムを格納したコンピュータ読取可能な記録媒体。
【0190】
(付記22) 構造化文書中のタグを所定の区切りコードに置き換えることにより生成された圧縮文書を復元する機能をコンピュータにより実現するための構造化文書復元プログラムを格納したコンピュータ読取可能な記録媒体であって、
該構造化文書復元プログラムが、
該圧縮文書中の前記所定の区切りコードを検出する区切りコード検出部、および、
該構造化文書におけるタグを出現順序に従ってリスト化したタグリストにおけるタグの位置と、該区切りコード検出部により検出された前記所定の区切りコードの位置とを対応させながら、該区切りコード検出部により検出された前記所定の区切りコードを、該タグリストにおける対応するタグに置き換えて復元するタグ復元部として、該コンピュータを機能させることを特徴とする、構造化文書復元プログラムを格納したコンピュータ読取可能な記録媒体。
【0191】
(付記23) 構造化文書において所定の要素名をもつ開始タグと終了タグとで囲まれた領域であるサブ文書中のタグを所定の区切りコードに置き換えることにより生成された圧縮文書を復元する機能をコンピュータにより実現するための構造化文書復元プログラムを格納したコンピュータ読取可能な記録媒体であって、
該構造化文書復元プログラムが、
該圧縮文書から該サブ文書を抽出するサブ文書抽出部、
該サブ文書抽出部により抽出された該サブ文書中の前記所定の区切りコードを検出する区切りコード検出部、および、
該サブ文書におけるタグを出現順序に従ってリスト化したタグリストにおけるタグの位置と、該区切りコード検出部により検出された前記所定の区切りコードの位置とを対応させながら、該区切りコード検出部により検出された前記所定の区切りコードを、該タグリストにおける対応するタグに置き換えて復元するタグ復元部として、該コンピュータを機能させることを特徴とする、構造化文書復元プログラムを格納したコンピュータ読取可能な記録媒体。
【0192】
(付記24) 同一のデータ構造を有する複数の構造化文書に対する処理を行なうべく、該複数の構造化文書を圧縮する構造化文書圧縮装置と、該構造化文書圧縮装置による圧縮データを該複数の構造化文書に復元する構造化文書復元装置とを含んで構成される構造化文書処理システムにおいて、
該構造化文書圧縮装置が、
該構造化文書におけるタグを出現順序に従って抽出してリスト化した、該複数の構造化文書について共通の一つのタグリストを取得するタグリスト取得部と、
各構造化文書中のタグを所定の区切りコードに置き換えた圧縮文書を生成する構造化文書圧縮部と、
該タグリスト取得部により取得された前記一つのタグリストと、該複数の構造化文書のそれぞれについて該構造化文書圧縮部により生成された複数の圧縮文書とを対応させ該複数の構造化文書の圧縮結果として出力する出力部とをそなえて構成されるとともに、
該構造化文書復元装置が、
該複数の圧縮文書の復元結果を格納するメモリと、
該タグリストに対応するデータ構造を該メモリ上に複製データ構造として展開・複製する複製部と、
該複製データ構造におけるタグの位置と各圧縮文書中の前記所定の区切りコードの位置とを対応させながら、各圧縮文書中の要素内容を該メモリ上における該複製データ構造の所定領域に書き出す書出部とをそなえて構成されたことを特徴とする、構造化文書処理システム。
【0193】
(付記25) 構造化文書に対する処理を行なうべく、該構造化文書を圧縮する構造化文書圧縮装置と、該構造化文書圧縮装置による圧縮データを該構造化文書に復元する構造化文書復元装置とを含んで構成される構造化文書処理システムにおいて、
該構造化文書圧縮装置が、
該構造化文書中のタグを検出するタグ検出部と、
該タグ検出部により検出された該タグを所定の区切りコードに置き換えて圧縮するタグ圧縮部とをそなえて構成されるとともに、
該構造化文書復元装置が、
該構造化文書におけるタグを出現順序に従ってリスト化したタグリストを予め保持するタグリスト保持部と、
該圧縮文書中の前記所定の区切りコードを検出する区切りコード検出部と、
該タグリストにおけるタグの位置と該区切りコード検出部により検出された前記所定の区切りコードの位置とを対応させながら、該区切りコード検出部により検出された前記所定の区切りコードを、該タグリストにおける対応するタグに置き換えて復元するタグ復元部とをそなえて構成されたことを特徴とする、構造化文書処理システム。
【0194】
(付記26) 構造化文書に対する処理を行なうべく、該構造化文書を圧縮する構造化文書圧縮装置と、該構造化文書圧縮装置による圧縮データを該構造化文書に復元する構造化文書復元装置とを含んで構成される構造化文書処理システムにおいて、
該構造化文書圧縮装置が、
該構造化文書から、所定の要素名をもつ開始タグと終了タグとで囲まれた領域をサブ文書として抽出するサブ文書抽出部と、
該サブ文書抽出部により抽出された該サブ文書中のタグを検出するタグ検出部と、
該タグ検出部により検出された該タグを所定の区切りコードに置き換えて圧縮するタグ圧縮部とをそなえて構成されるとともに、
構造化文書復元装置が、
該サブ文書におけるタグを出現順序に従ってリスト化したタグリストを予め保持するタグリスト保持部と、
該圧縮文書から該サブ文書を抽出するサブ文書抽出部と、
該サブ文書抽出部により抽出された該サブ文書中の前記所定の区切りコードを検出する区切りコード検出部と、
該タグリストにおけるタグの位置と該区切りコード検出部により検出された前記所定の区切りコードの位置とを対応させながら、該区切りコード検出部により検出された前記所定の区切りコードを、該タグリストにおける対応するタグに置き換えて復元するタグ復元部とをそなえて構成されたことを特徴とする、構造化文書処理システム。
【0195】
(付記27) 処理対象となりうる構造化文書のデータ構造に対応した複数のタグリストを予め保持するタグリスト群保持部と、
該構造化文書圧縮装置によって生成された該圧縮文書と、該タグリスト群保持部に保持されている該タグリストとの対応関係を管理するタグリスト管理部とをそなえたことを特徴とする、付記25または付記26に記載の構造化文書処理システム。
【0196】
(付記28) 処理対象となりうる構造化文書のデータ構造に対応した複数のタグリストを予め保持するタグリスト群保持部と、
該構造化文書圧縮装置によって生成された該圧縮文書に、該圧縮文書に対応するタグリストを特定するためのタグリスト識別情報を付加するタグリスト識別情報付加部と、
該圧縮文書に付加された前記タグリスト識別情報を取得するタグリスト識別情報取得部とをそなえ、
該構造化文書復元装置が、該タグリスト識別情報取得部によって取得された前記タグリスト識別情報に対応する該タグリストを用いて、該圧縮文書を復元することを特徴とする、付記25または付記26に記載の構造化文書処理システム。
【0197】
(付記29) 該タグリスト群保持部が管理サーバ上に配置され、
処理に必要なタグリストが、ネットワークを介して該管理サーバ上の該タグリスト群保持部から読み出されることを特徴とする、付記27または付記28に記載の構造化文書処理システム。
【0198】
【発明の効果】
以上詳述したように、本発明の構造化文書圧縮装置(請求項)および構造化文書復元装置(請求項)並びに構造化文書処理システム(請求項)によれば、以下のような効果ないし利点を得ることができる。
(1)本発明により生成される圧縮文書では、タグが所定の区切りコードに置換されているだけで、データ内容(要素内容)はそのまま記述されているので、構造化文書の利点であるデータ構造の視認性や柔軟性/拡張性を生かしたまま、構造化文書を圧縮して構造化文書のデータ量を削減することができる。従って、構造化文書を格納するための記憶領域の容量を削減することができるとともに構造化文書データの伝送速度を高速化することができる(請求項1,)。
【0199】
(2)複数の構造化文書の圧縮結果は、データ構造(一つのタグリスト)とデータ内容(複数の圧縮文書)とに分離されているので、一つのタグリストに対する解析処理を一度だけ行なって、複数の圧縮文書に共通のデータ構造を取得してしまえば、後は、取得されたデータ構造を複製して流用することにより、圧縮文書毎に一々タグ解析を行なう必要がなくなる。従って、同一のデータ構造を有する多数の構造化文書を取り扱う際に、無駄なタグ解析を行なう必要が一切なくなり、タグ解析の負荷が大幅に低減され、構造化文書をメモリに展開する際の処理速度を飛躍的に高速化することができる(請求項1,)。
【0200】
(3)構造化文書中で検出されたタグを所定の区切りコードに置換するという極めて単純な置換処理によって、構造化文書の利点であるデータ構造の視認性や柔軟性/拡張性の高さを生かしたまま、構造化文書を圧縮して構造化文書のデータ量を削減することができる。従って、構造化文書を格納するための記憶領域の容量を削減することができるとともに構造化文書データの伝送速度を高速化することができる。このような圧縮を行なった場合、圧縮文書中で検出された所定の区切りコードを、その圧縮文書についてのタグリスト中のタグと対応させながら、所定のタグに置き換えるという簡易な置換処理によって、圧縮文書を極めて容易に元の構造化文書に復元することができる。
【0201】
(4)一つの構造化文書中に、同一のデータ構造を有する領域(サブ文書)が複数存在する場合、構造化文書から、そのサブ文書が、所定の要素名をもつ開始タグと終了タグとで囲まれた領域として抽出され、各サブ文書中のタグを所定の区切りコードに置き換えることにより、各サブ文書について、構造化文書の利点であるデータ構造の視認性や柔軟性/拡張性の高さを生かしたまま、構造化文書を圧縮して構造化文書のデータ量を削減することができる。従って、構造化文書を格納するための記憶領域の容量を削減することができるとともに構造化文書データの伝送速度を高速化することができる。このような圧縮を行なった場合、復元対象におけるサブ文書中で検出された所定の区切りコードを、サブ文書についてのタグリスト中のタグと対応させながら、所定のタグに置き換えるという簡易な置換処理によって、復元対象の文書を極めて容易に元の構造化文書に復元することができる。
【0202】
(5)タグが属性値をもつ属性付きタグである場合には、その属性付きタグを属性値および所定の区切りコードに置き換えて圧縮する。これにより、圧縮文書において属性値がそのまま記述されるので、属性値の視認性を保ちながら構造化文書の圧縮を行なうことができる。このような圧縮を施された属性付きタグが復元対象になると、その属性付きタグについての属性値とその圧縮文書についての属性リスト中の属性名とを対応させることにより、属性付きタグを極めて容易に復元することができる。
【0203】
(6)所定のデータ構造を定義する、タグリストまたはタグ・属性リストに従って、圧縮前の前記構造化文書のタグまたは属性を所定の順序に並び替えるとともに、構造化文書中で省略されているタグまたは属性を補完することにより、タグまたは属性の記述順序の逆転や、タグまたは属性の記述の欠落といった不備をもつ構造化文書は、所定のデータ構造を有するように正規化される。従って、同一のデータ構造を有する多数の構造化文書を圧縮処理対象とする場合、上述のような不備をもつ構造化文書が含まれていても、圧縮処理前に、圧縮処理対象の全ての構造化文書が、タグリストまたはタグ・属性リストで定義された所定のデータ構造を有するように正規化される。これにより、多数の構造化文書(圧縮文書)を、一つのタグリストまたはタグ・属性リストによって確実に管理し取り扱うことが可能になる。
【0204】
(7)圧縮文書とタグリストとの対応関係をタグリスト管理部によって管理したり、圧縮文書に対応するタグリストを特定するためのタグリスト識別情報を圧縮文書に付加したりすることで、タグリスト群が一括され、圧縮文書とタグリストとの対応関係を確実に把握でき、圧縮文書を、その圧縮文書に対応したタグリストに基づいて復元することができる。従って、構造化文書に対し圧縮・復元処理を施しながら構造化文書を取り扱うシステムにおいて、異なる種類のデータ構造(即ちタグリスト)をもつ構造化文書(圧縮文書)が混在しても、混乱を招くことなく、各圧縮文書に応じたタグリストを確実に取得して復元処理を行なうことができる。
【0205】
(8)タグリスト群を管理サーバ上で保持・管理し、ネットワークを介して処理に必要なタグリストを管理サーバから読み出すように構成することにより、タグリスト群が一括管理される。従って、複数種類のタグリストを圧縮装置毎や復元装置毎に管理する必要がなくなり、複数の圧縮装置や復元装置によって共用することができる。
【図面の簡単な説明】
【図1】本発明の第1実施形態における構造化文書圧縮装置の構成を示すブロック図である。
【図2】本発明の第1実施形態における構造化文書復元装置(メモリ展開部)の構成を示すブロック図である。
【図3】(A)〜(C)はいずれも第1実施形態におけるデータ例を示すもので、(A)はXML文書の一例を示す図、(B)は(A)に示すXML文書から得られたタグリストを示す図、(C)は(A)に示すXML文書の圧縮状態を示す図である。
【図4】本発明の第2実施形態における構造化文書圧縮装置の構成を示すブロック図である。
【図5】本発明の第2実施形態における構造化文書復元装置の構成を示すブロック図である。
【図6】(A)〜(D)はいずれも第2実施形態におけるデータ例を示すもので、(A)はXML文書の一例を示す図、(B)は(A)に示すXML文書に対応するタグリストを示す図、(C)は(A)に示すXML文書の圧縮状態の一例を示す図、(D)は(A)に示すXML文書の圧縮状態の他例を示す図である。
【図7】本発明の第3実施形態における構造化文書圧縮装置の構成を示すブロック図である。
【図8】本発明の第3実施形態における構造化文書復元装置の構成を示すブロック図である。
【図9】(A)〜(D)はいずれも第3実施形態におけるデータ例を示すもので、(A)はXML文書の一例を示す図、(B)は(A)に示すXML文書に対応するタグ・属性リストを示す図、(C)は(A)に示すXML文書の圧縮状態の一例を示す図、(D)は(A)に示すXML文書の圧縮状態の他例を示す図である。
【図10】本発明の第4実施形態における構造化文書圧縮装置の要部構成を示すブロック図である。
【図11】(A)〜(C)はいずれも第4実施形態におけるデータ例を示すもので、(A)はタグリストの一例を示す図、(B)はタグの記述に不備のあるXML文書の一例を示す図、(C)は(B)に示すXML文書を(A)に示すタグリストに従って正規化した結果を示す図である。
【図12】本発明の第4実施形態における構造化文書圧縮装置の変形例の要部構成を示すブロック図である。
【図13】本発明の第5実施形態における構造化文書圧縮装置および構造化文書復元装置の構成を示すブロック図である。
【図14】(A)および(B)はいずれも第5実施形態におけるデータ例を示すもので、(A)は複数のサブ文書を含むXML文書の一例を示す図、(B)は(A)に示すXML文書の圧縮状態を示す図である。
【図15】本実施形態におけるタグリストの一括管理手法の第1例を説明するための図である。
【図16】本実施形態におけるタグリストの一括管理手法の第2例を説明するための図である。
【図17】本実施形態におけるタグリストの一括管理手法の第3例を説明するための図である。
【図18】本実施形態におけるタグリストの一括管理手法の第2例および第3例におけるタグリスト識別情報の付加例を示す図である。
【図19】一般的なユニバーサルデータ圧縮について説明するための図である。
【図20】XML文書を取り扱う一般的なシステムの構成例を示すブロック図である。
【符号の説明】
110 構造化文書圧縮装置
111 タグリスト取得部
112 構造化文書圧縮部
113 出力部
120 構造化文書圧縮装置
121 入力部
122 タグ検出部
123 タグ圧縮部
124 出力部
130 構造化文書圧縮装置
131 属性付きタグ検出部
132 属性付きタグ圧縮部
140 構造化文書圧縮装置
141 入力部
142 タグリスト保持部
143 タグ並び替え部
144 省略タグ補完部
150 構造化文書圧縮装置
151 入力部
152 タグ・属性リスト保持部
153 タグ・属性並び替え部
154 省略タグ・属性補完部
160 構造化文書圧縮装置
161 入力部
162 サブ文書抽出部
163 サブ文書統合部
164 出力部
171 タグリスト識別情報付加部
172 タグリスト識別情報取得部
210 メモリ展開部(構造化文書復元装置)
211 解析部
212 複製部
213 書出部
214 メモリ
220 構造化文書復元装置
221 入力部
222 タグリスト保持部
223 区切りコード検出部
224 タグ復元部
225 出力部
230 構造化文書復元装置
231 属性リスト保持部
232 属性付きタグ検出部
233 属性付きタグ復元部
260 構造化文書復元装置
300,400,410,420,430,440 ハードディスク(データベース)
411 タグリスト群保持部
412 タグリスト管理部
500 読出部
600 管理サーバ
700 ネットワーク

Claims (3)

  1. 同一のデータ構造を有する複数の構造化文書を圧縮する装置であって、
    該構造化文書におけるタグを出現順序に従って抽出してリスト化した、該複数の構造化文書について共通の前記データ構造を示す一つのタグリストを、該複数の構造化文書のうちの少なくとも一つから取得するタグリスト取得部と、
    各構造化文書中のタグを所定の区切りコードに置き換えタグ以外のデータ内容をそのまま記述した圧縮文書を各構造化文書毎に生成する構造化文書圧縮部と、
    該タグリスト取得部により取得された前記一つのタグリストと、該複数の構造化文書のそれぞれについて該構造化文書圧縮部により生成された複数の圧縮文書とを対応させ該複数の構造化文書の圧縮結果として出力する出力部とをそなえたことを特徴とする、構造化文書圧縮装置。
  2. 同一のデータ構造を有する複数の構造化文書中のタグを所定の区切りコードに置き換えることにより生成された、タグ以外のデータ内容をそのまま記述した複数の圧縮文書を、該複数の構造化文書におけるタグを出現順序に従ってリスト化して該複数の構造化文書のうちの少なくとも一つから取得し、該複数の構造化文書について共通の前記データ構造を示すタグリストに基づいて復元する装置であって、
    該タグリストに対応するデータ構造をメモリ上に複製データ構造として展開・複製する複製部と、
    該複製データ構造におけるタグの位置と各圧縮文書中の前記所定の区切りコードの位置とを対応させながら、各圧縮文書中の要素内容を該メモリ上における該複製データ構造の所定領域に書き出すことにより、各圧縮文書を復元する書出部とをそなえたことを特徴とする、構造化文書復元装置。
  3. 同一のデータ構造を有する複数の構造化文書に対する処理を行なうべく、該複数の構造化文書を圧縮する構造化文書圧縮装置と、該構造化文書圧縮装置による圧縮データを該複数の構造化文書に復元する構造化文書復元装置とを含んで構成される構造化文書処理システムにおいて、
    該構造化文書圧縮装置が、
    該構造化文書におけるタグを出現順序に従って抽出してリスト化した、該複数の構造化文書について共通の前記データ構造を示す一つのタグリストを、該複数の構造化文書のうちの少なくとも一つから取得するタグリスト取得部と、
    各構造化文書中のタグを所定の区切りコードに置き換えタグ以外のデータ内容をそのまま記述した圧縮文書を各構造化文書毎に生成する構造化文書圧縮部と、
    該タグリスト取得部により取得された前記一つのタグリストと、該複数の構造化文書のそれぞれについて該構造化文書圧縮部により生成された複数の圧縮文書とを対応させ該複数の構造化文書の圧縮結果として出力する出力部とをそなえて構成されるとともに、
    該構造化文書復元装置が、
    該複数の圧縮文書の復元結果を格納するメモリと、
    該タグリストに対応するデータ構造を該メモリ上に複製データ構造として展開・複製する複製部と、
    該複製データ構造におけるタグの位置と各圧縮文書中の前記所定の区切りコードの位置とを対応させながら、各圧縮文書中の要素内容を該メモリ上における該複製データ構造の所定領域に書き出すことにより、各圧縮文書を復元する書出部とをそなえて構成されたことを特徴とする、構造化文書処理システム。
JP2000357568A 2000-11-24 2000-11-24 構造化文書圧縮装置および構造化文書復元装置並びに構造化文書処理システム Expired - Fee Related JP4774145B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000357568A JP4774145B2 (ja) 2000-11-24 2000-11-24 構造化文書圧縮装置および構造化文書復元装置並びに構造化文書処理システム
US09/826,915 US7856595B2 (en) 2000-11-24 2001-04-06 Structured document compressing apparatus and method, record medium in which a structured document compressing program is stored, structured document decompressing apparatus and method, record medium in which a structured document decompressing program is stored, and structured document processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000357568A JP4774145B2 (ja) 2000-11-24 2000-11-24 構造化文書圧縮装置および構造化文書復元装置並びに構造化文書処理システム

Publications (2)

Publication Number Publication Date
JP2002163248A JP2002163248A (ja) 2002-06-07
JP4774145B2 true JP4774145B2 (ja) 2011-09-14

Family

ID=18829607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000357568A Expired - Fee Related JP4774145B2 (ja) 2000-11-24 2000-11-24 構造化文書圧縮装置および構造化文書復元装置並びに構造化文書処理システム

Country Status (2)

Country Link
US (1) US7856595B2 (ja)
JP (1) JP4774145B2 (ja)

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2813743B1 (fr) * 2000-09-06 2003-01-03 Claude Seyrat Procede de compression/decompression de documents structures
GB0110326D0 (en) * 2001-04-27 2001-06-20 Ibm Method and apparatus for interoperation between legacy software and screen reader programs
US7669120B2 (en) * 2002-06-21 2010-02-23 Microsoft Corporation Method and system for encoding a mark-up language document
WO2004061713A1 (ja) * 2002-12-27 2004-07-22 Fujitsu Limited 構造化文書の構造変換装置、構造変換方法、記録媒体
US7350199B2 (en) * 2003-01-17 2008-03-25 Microsoft Corporation Converting XML code to binary format
ATE377897T1 (de) * 2003-02-14 2007-11-15 Research In Motion Ltd System und verfahren für kompakte nachrichtenübermittlung in der netzwerkkommunikation
JP3815567B2 (ja) 2003-03-31 2006-08-30 日本電気株式会社 コンピュータシステム、コンピュータプログラム、コンピュータ間の通信方法、構造化文書の符号化方法、符号化された構造化文書の復号方法
US7356528B1 (en) * 2003-05-15 2008-04-08 At&T Corp. Phrase matching in documents having nested-structure arbitrary (document-specific) markup
US7530015B2 (en) * 2003-06-25 2009-05-05 Microsoft Corporation XSD inference
US20070112810A1 (en) * 2003-07-08 2007-05-17 Mattias Jonsson Method for compressing markup languages files, by replacing a long word with a shorter word
US20050060431A1 (en) * 2003-09-12 2005-03-17 Lewontin Stephen Paul System, apparatus, and method for using reduced web service messages
JP4261299B2 (ja) 2003-09-19 2009-04-30 株式会社エヌ・ティ・ティ・ドコモ データ圧縮装置、データ復元装置およびデータ管理装置
JP4177218B2 (ja) 2003-09-24 2008-11-05 株式会社エヌ・ティ・ティ・ドコモ 文書変換装置
US7801702B2 (en) 2004-02-12 2010-09-21 Lockheed Martin Corporation Enhanced diagnostic fault detection and isolation
US20050240555A1 (en) * 2004-02-12 2005-10-27 Lockheed Martin Corporation Interactive electronic technical manual system integrated with the system under test
US20050223288A1 (en) * 2004-02-12 2005-10-06 Lockheed Martin Corporation Diagnostic fault detection and isolation
US7509387B2 (en) * 2004-04-07 2009-03-24 Nokia Corporation System, apparatus, and method for using reduced Web service messages
JPWO2005101210A1 (ja) * 2004-04-09 2008-03-06 シャープ株式会社 データ解析装置およびデータ解析プログラム
US8954400B2 (en) * 2004-09-13 2015-02-10 International Business Machines Corporation Method, system and program product for managing structured data
US20060120181A1 (en) * 2004-10-05 2006-06-08 Lockheed Martin Corp. Fault detection and isolation with analysis of built-in-test results
US20060085692A1 (en) * 2004-10-06 2006-04-20 Lockheed Martin Corp. Bus fault detection and isolation
US20080052281A1 (en) * 2006-08-23 2008-02-28 Lockheed Martin Corporation Database insertion and retrieval system and method
US8346737B2 (en) * 2005-03-21 2013-01-01 Oracle International Corporation Encoding of hierarchically organized data for efficient storage and processing
JP2007122278A (ja) * 2005-10-26 2007-05-17 Canon Inc 文書処理装置及びその方法、プログラム
US7668857B2 (en) * 2005-11-07 2010-02-23 International Business Machines Corporation Meta-data tags used to describe data behaviors
US7593949B2 (en) * 2006-01-09 2009-09-22 Microsoft Corporation Compression of structured documents
US7620645B2 (en) * 2006-02-24 2009-11-17 Microsoft Corporation Scalable algorithm for sharing EDI schemas
US20070300147A1 (en) * 2006-06-25 2007-12-27 Bates Todd W Compression of mark-up language data
US20080077606A1 (en) * 2006-09-26 2008-03-27 Motorola, Inc. Method and apparatus for facilitating efficient processing of extensible markup language documents
US7836396B2 (en) * 2007-01-05 2010-11-16 International Business Machines Corporation Automatically collecting and compressing style attributes within a web document
KR100865015B1 (ko) * 2007-01-26 2008-10-23 삼성에스디에스 주식회사 실시간 통합 관리정보 데이터 변환 및 모니터링 장치 및 그방법
JP4756003B2 (ja) * 2007-03-01 2011-08-24 エヌ・ティ・ティ・コミュニケーションズ株式会社 データ圧縮転送装置、データ圧縮転送システム、データ圧縮転送方法、およびデータ圧縮転送プログラム
FR2914759B1 (fr) * 2007-04-03 2009-06-05 Canon Kk Procede et dispositif de codage d'un document hierarchise
US8224980B2 (en) * 2007-05-07 2012-07-17 International Business Machines Corporation Adaptive parsing and compression of SOAP messages
WO2008142799A1 (ja) * 2007-05-24 2008-11-27 Fujitsu Limited 情報検索プログラム、該プログラムを記録した記録媒体、情報検索方法、および情報検索装置
WO2008142800A1 (ja) * 2007-05-24 2008-11-27 Fujitsu Limited 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法
US7747558B2 (en) * 2007-06-07 2010-06-29 Motorola, Inc. Method and apparatus to bind media with metadata using standard metadata headers
JP4898615B2 (ja) * 2007-09-20 2012-03-21 キヤノン株式会社 情報処理装置および符号化方法
US20090112900A1 (en) * 2007-10-31 2009-04-30 Krishnamurthy Viswanathan Collaborative Compression
JP5134989B2 (ja) * 2008-01-31 2013-01-30 株式会社東芝 サーバ、データ転送方法及びプログラム
JP5194936B2 (ja) * 2008-03-27 2013-05-08 日本電気株式会社 ファイル変換装置、ファイル変換方法及びプログラム
US20100083083A1 (en) * 2008-09-30 2010-04-01 Apple Inc. Compressed table format
JP2010258787A (ja) * 2009-04-24 2010-11-11 Mitsubishi Electric Corp シグナリング圧縮装置、シグナリング伸長装置およびシグナリング圧縮伸長装置
US8713426B2 (en) * 2009-06-25 2014-04-29 Oracle International Corporation Technique for skipping irrelevant portions of documents during streaming XPath evaluation
US8549398B2 (en) 2009-09-17 2013-10-01 International Business Machines Corporation Method and system for handling non-presence of elements or attributes in semi-structured data
JP5570202B2 (ja) * 2009-12-16 2014-08-13 キヤノン株式会社 構造化文書解析装置、構造化文書解析方法、及びコンピュータプログラム
US9165086B2 (en) 2010-01-20 2015-10-20 Oracle International Corporation Hybrid binary XML storage model for efficient XML processing
US8566343B2 (en) 2010-06-02 2013-10-22 Oracle International Corporation Searching backward to speed up query
US8447785B2 (en) 2010-06-02 2013-05-21 Oracle International Corporation Providing context aware search adaptively
US9477651B2 (en) * 2010-09-29 2016-10-25 International Business Machines Corporation Finding partition boundaries for parallel processing of markup language documents
US20120233153A1 (en) * 2011-03-11 2012-09-13 International Business Machines Corporation Hierarchical browsing operations on a directory attribute
US9390099B1 (en) * 2011-03-29 2016-07-12 Emc Corporation Method and apparatus for improving a compression ratio of multiple documents by using templates
JP2013045208A (ja) * 2011-08-23 2013-03-04 Fujitsu Ltd データ生成方法、装置及びプログラム、検索処理方法、装置及びプログラム
WO2013079999A1 (en) * 2011-12-02 2013-06-06 Canon Kabushiki Kaisha Methods and devices for encoding and decoding messages
US9619443B2 (en) 2012-03-05 2017-04-11 International Business Machines Corporation Enhanced messaging transaction performance with auto-selected dual-tag fields
JP2014059757A (ja) * 2012-09-18 2014-04-03 International Business Maschines Corporation 木構造を有するデータを処理する装置、処理方法およびプログラム
WO2014147671A1 (ja) * 2013-03-22 2014-09-25 富士通株式会社 圧縮装置、圧縮方法、伸張装置、伸張方法および情報処理システム
WO2015094150A1 (en) * 2013-12-16 2015-06-25 Hewlett-Packard Development Company, L.P. Tagging a program code portion
JP6467937B2 (ja) * 2015-01-21 2019-02-13 富士通株式会社 文書処理プログラム、情報処理装置および文書処理方法
US9940351B2 (en) * 2015-03-11 2018-04-10 International Business Machines Corporation Creating XML data from a database
US10733237B2 (en) 2015-09-22 2020-08-04 International Business Machines Corporation Creating data objects to separately store common data included in documents
US10467275B2 (en) * 2016-12-09 2019-11-05 International Business Machines Corporation Storage efficiency
CN110287279B (zh) * 2019-05-24 2021-08-13 国网冀北电力有限公司 一种将非结构化的日志报告转为结构化系统报表的方法
US11620190B2 (en) * 2021-04-21 2023-04-04 EMC IP Holding Company LLC Techniques for performing backups using hints
KR102737239B1 (ko) * 2021-10-14 2024-12-03 주식회사 크리에이트바라 개인별 공연 정보 제공 시스템 및 방법
US12032578B1 (en) * 2023-01-24 2024-07-09 Sap Se Data compression, store, and search system

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5504891A (en) * 1991-10-17 1996-04-02 Ricoh Company, Ltd. Method and apparatus for format conversion of a hierarchically structured page description language document
US5572731A (en) * 1992-12-30 1996-11-05 Hewlett-Packard Company Sequentially navigated object oriented computer system
US5544298A (en) * 1993-01-22 1996-08-06 Data Management Corp. Code generation and data access system
US5748188A (en) * 1995-10-12 1998-05-05 Ncr Corporation Hypertext markup language (HTML) extensions for graphical reporting over an internet
JP3305191B2 (ja) 1996-03-19 2002-07-22 富士通株式会社 文書管理装置及びデータ圧縮方法及びデータ復元方法
US6247128B1 (en) * 1997-07-22 2001-06-12 Compaq Computer Corporation Computer manufacturing with smart configuration methods
US5963743A (en) * 1997-08-29 1999-10-05 Dell Usa, L.P. Database for facilitating software installation and testing for a build-to-order computer system
US5999929A (en) * 1997-09-29 1999-12-07 Continuum Software, Inc World wide web link referral system and method for generating and providing related links for links identified in web pages
US6230168B1 (en) * 1997-11-26 2001-05-08 International Business Machines Corp. Method for automatically constructing contexts in a hypertext collection
US6507874B1 (en) * 1998-01-07 2003-01-14 Microsoft Corporation System for efficient routing and translation of data
JP4003854B2 (ja) 1998-09-28 2007-11-07 富士通株式会社 データ圧縮装置及び復元装置並びにその方法
US6635088B1 (en) * 1998-11-20 2003-10-21 International Business Machines Corporation Structured document and document type definition compression
US6463440B1 (en) * 1999-04-08 2002-10-08 International Business Machines Corporation Retrieval of style sheets from directories based upon partial characteristic matching
US6601026B2 (en) * 1999-09-17 2003-07-29 Discern Communications, Inc. Information retrieval by natural language querying
US6535886B1 (en) * 1999-10-18 2003-03-18 Sony Corporation Method to compress linguistic structures
US6330530B1 (en) * 1999-10-18 2001-12-11 Sony Corporation Method and system for transforming a source language linguistic structure into a target language linguistic structure based on example linguistic feature structures
JP3368883B2 (ja) * 2000-02-04 2003-01-20 インターナショナル・ビジネス・マシーンズ・コーポレーション データ圧縮装置、データベースシステム、データ通信システム、データ圧縮方法、記憶媒体及びプログラム伝送装置

Also Published As

Publication number Publication date
US7856595B2 (en) 2010-12-21
US20020065822A1 (en) 2002-05-30
JP2002163248A (ja) 2002-06-07

Similar Documents

Publication Publication Date Title
JP4774145B2 (ja) 構造化文書圧縮装置および構造化文書復元装置並びに構造化文書処理システム
CN111400408B (zh) 数据同步方法、装置、设备及存储介质
US5812999A (en) Apparatus and method for searching through compressed, structured documents
US6378054B1 (en) Data backup device and method for use with a computer, and computer-readable recording medium having data backup program recorded thereon
US7552130B2 (en) Optimal data storage and access for clustered data in a relational database
US7689630B1 (en) Two-level bitmap structure for bit compression and data management
US20050015396A1 (en) System and method for structuring data in a computer system
US7316015B2 (en) Method, apparatus, and program for constructing an execution environment, and computer readable medium recording program thereof
KR20090075885A (ko) 개별적으로 액세스 가능한 데이터 유닛의 기억 관리 방법 및 시스템
US7530017B2 (en) Document transformation system
CN103593442B (zh) 日志数据的去重方法及装置
CN106874399B (zh) 一种联网备份系统及备份方法
AU2007202450B2 (en) Information processing apparatus, information processing system, and program
US7231591B2 (en) Computer system suitable for communications of structured documents
US7379940B1 (en) Focal point compression method and apparatus
JP2001101049A (ja) ファイル復元装置
JPH10261969A (ja) データ圧縮方法および装置
US20020143779A1 (en) Data structures and methods for imaging computer readable media
US20060004838A1 (en) Sharing large objects in distributed systems
US8244677B2 (en) Focal point compression method and apparatus
JP2006171800A (ja) データ集計装置、その方法、及びプログラム
US10853177B2 (en) Performant process for salvaging renderable content from digital data sources
JPH0844609A (ja) データバックアップ方法
CN113505153A (zh) 一种基于iOS系统的备忘录备份方法和相关设备
JP2679602B2 (ja) 退避媒体作成システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080801

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080805

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090205

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090318

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20090424

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110627

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140701

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees