JP2004508647A - 構造化文書の圧縮/解凍方法 - Google Patents
構造化文書の圧縮/解凍方法 Download PDFInfo
- Publication number
- JP2004508647A JP2004508647A JP2002526128A JP2002526128A JP2004508647A JP 2004508647 A JP2004508647 A JP 2004508647A JP 2002526128 A JP2002526128 A JP 2002526128A JP 2002526128 A JP2002526128 A JP 2002526128A JP 2004508647 A JP2004508647 A JP 2004508647A
- Authority
- JP
- Japan
- Prior art keywords
- document
- data set
- schema
- automaton
- elements
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
- H04N21/2353—Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
- H04N19/25—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with scene description coding, e.g. binary format for scenes [BIFS] compression
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Library & Information Science (AREA)
- Document Processing Apparatus (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Computer And Data Communications (AREA)
- Compression Of Band Width Or Redundancy In Fax (AREA)
Abstract
Description
本発明は、構造化文書を圧縮/解凍する方法に関する。
【0002】
本発明は、これに限定する訳ではないが、特にデジタル伝送ネットワークを介した画像または画像シーケンス、ビデオまたは音声データなどの文書の伝送、およびそのような文書の記憶に適用される。
【0003】
現在、いくつかのデジタル文書の圧縮アルゴリズムが存在する。圧縮アルゴリズムには、データ・タイプを考慮せずに文書のバイナリ・データを直接処理するものがある。こうしたアルゴリズムには、どの文書でも処理できるという利点があるが、一般的には、音声または画像タイプである大容量文書の処理には効果的ではない(圧縮率が低い)。
【0004】
さらに、他の圧縮アルゴリズムとして、より効率的なものとして、例えば画像や音声など、あるデータ・タイプに特別に適合させたものが知られるが、対象とするデータだけを含むのではない文書に適用すると、使用することができないか、あるいは効果的でないという結果になる。
【0005】
しかし、利用され、データ伝送ネットワークでやり取りされる文書は、1つの構造にまとめられたいくつかの情報タイプを含むようになりつつある。
【0006】
構造化文書とは、それぞれがタイプと関連付けられ、主に階層的な関係に従って、ともに配列されたデータ・セットの集合である。こうした文書にはSGML、HTML、XMLなどの構造化言語が使用され、特に、文書を構成する異なるデータ・セットを区別することが可能になる。これに対し、いわゆる線形文書では、文書の内容情報はプレゼンテーションおよびタイピングの情報と混在している。
【0007】
このため、構造化文書は、文書の異なるデータ・セットを区分するロケータまたはマーカを含む。SGML、XML、またはHTMLフォーマットの場合、「タグ」と称されるこうしたロケータは「<XXXX>」と「</XXXX>」の形をとり、最初のマーカはデータ・セット「XXXX」の始まりを意味し、2番目のマーカはこのセットの終わりを意味する。データ・セットは、いくつかのより低いレベルのデータ・セットからなることができる。このように、構造化文書は階層的あるいは木構造のスキーマを有し、各ノードはデータ・セットを表し、より低いレベルのデータ・セットを含むデータ・セットを表す、より高い階層レベルのノードに連結される。この木構造の枝の最後に位置するノードは、所定タイプのデータを含むデータ・セットを表し、このデータ・セットは、データのサブセットに分解することができない。
【0008】
一般に、構造化文書は、文書の各データ・セットの情報の構造およびタイプを規則の形で示す、いわゆる構造スキーマと関連付けられる。スキーマは、ネストになったデータ・セット構造のグループによって構築され、これらのグループは、例えば順序付けされたシーケンス、順番付けされた、あるいは、順番付けされていない二者択一の要素グループまたは必須の要素グループなどである。
【0009】
構造化文書はこのように構造スキーマと関連付けられ、テキスト・データまたはバイナリ・データの形で表される区分マーカを含み、このマーカは、マーカによって画定される他のデータ・セットを、それ自体が含むことのできるデータ・セットを画定する。この結果、このように構造化された文書は、テキスト・データだけでなく、任意の他タイプの情報(例えば音声データ、画像など)も含むことができる。したがって、ある特定のデータ・タイプに固有の圧縮アルゴリズムは、このタイプの文書の処理には効果的でなく、適さない。
【0010】
本発明の目的は、これらの欠点を取り除くことである。このために、本発明は、文書の構造を定義し、データ・セットを表すネストになった構造要素を含む、少なくとも1つの木構造スキーマと関連付けられた構造化文書を圧縮および解凍する方法を提案し、この構造要素は3つのカテゴリ、すなわち、構造化された、あるいは、構造化されない要素グループに分解される構造化されたルート要素、および構造中の最下位レベルの要素に対応する基本要素、に分類され、各基本要素とルート要素は、情報タイプと関連付けられる。
【0011】
本発明によれば、初めに、基本要素の少なくとも1つの情報タイプを、適合する圧縮アルゴリズムと関連付け、この方法は次のステップを含む。
−文書の構造スキーマの構文解析を行い、構造スキーマを正規化してスキーマの構造要素の単一の所定の順番を得るステップ、
−正規化した構造スキーマをコンパイルして、ルート要素1つにつき1つの有限オートマトンを得るステップであって、各オートマトンは、それぞれが、構造要素を表す遷移によって相互に連結された状態を含むステップ、および
−文書に有限オートマトンを実行することを含めて構造化文書を圧縮し、圧縮する文書中で前記アルゴリズムと関連付けられた情報タイプのデータ・セットに遭遇すると、前記圧縮アルゴリズムを実行するステップ。
【0012】
構造スキーマをコンパイルすることにより文書の構造が非常に簡潔に表され、基本構造要素に対応する各データ・セットをある情報タイプと関連付けるとすると、そのタイプに最も合った圧縮アルゴリズムによってデータ・セットを処理することができる。このように、文書が、例えばテキスト・データ、画像、音声データを含む場合、そのデータは構造化文書内に完全に位置し、低レベルの構造要素とあるタイプとに関連付けられる。オートマトンを実行すると、ある圧縮アルゴリズムと関連付けられた基本タイプのデータ・セットの存在を検出し、そのデータに対応するアルゴリズムを順次呼び出して対応するバイナリの情報シーケンスを得、このシーケンスは、出現すると同時に、その圧縮で得られるバイナリ文書に挿入される。
【0013】
さらにデータ伝送の場合では、伝送される文書が常に同じ構造スキーマを有する場合は、文書を伝送するたびにその構造スキーマを伝送する必要はなく、本発明による方法を用いて得られる圧縮率の点で、さらに利得が生じる。そのスキーマがすでに文書の受け取り側に知られている場合には、スキーマの伝送はさらに無意味になる。例えばHTML文書の場合には、一番最初でさえ、文書スキーマを符号化する必要がない。
【0014】
有限オートマトンとは状態のセットと理解されたく、各状態は、入力事象のセットと、入力事象ごとにオートマトンのアクティブな状態のセットを定義する遷移関数とに関連付けられる。この定義によると、例えばコード変換テーブルに関して、入力事象ごとに次の状態に対応するテーブル、または再度対応テーブルを示す1つの状態につき1つのテーブルに基づいて、また、オートマトンに含まれる状態と同じだけの多くの行および列を有し、テーブルの各ボックスが2つの対応する状態間の遷移の記述を含む、1つのオートマトンにつき1つのテーブルに基づいて、複数の表現を考えることができる。
【0015】
解凍する際は、圧縮と同じ方法で構造スキーマを処理して、圧縮に用いられたオートマトンを判定し、全く同一でなくとも少なくとも、同等の構造を有する元のフォーマットに文書を再構築するために圧縮された文書の内容を分析し、圧縮の際に使用された圧縮アルゴリズムに対応する解凍アルゴリズムを実行して、圧縮された文書内に位置するバイナリの情報シーケンスから、元のデータ・セットを復元する。
【0016】
文書とともに構造スキーマを伝送する場合、本発明による方法は、好ましくは、本来の構造スキーマ、あるいは、変換と正規化の後に得られる構造スキーマ、あるいは、コンパイル後に得られる構造スキーマを伝送するステップを含む。
【0017】
本発明の実施例の1つによれば、圧縮された文書中に各データ・セットを配置することにより、文書全体、または解凍するセットより前のデータ・セットを解凍する必要なしに、特定の情報要素に直接アクセスすることが可能になる。
【0018】
本発明の別の実施例によれば、各構造スキーマ要素を、さらに可能な出現回数のセットと関連付け、その構造要素を有するデータ・セットが、それが属する1つ上の階層レベルのデータ・セット中に現れることができる回数を示す。
【0019】
本発明によるプロセスは、構造要素のグループの階層レベル数を減らすことにより、文書の構造スキーマを最適化するステップを含むことができる。この最適化により、構造スキーマを単純化することができるが、圧縮プロセスの効率はより低くなる。
【0020】
以下に、添付の図面を参照して、本発明による方法を実施する好ましいモードの1つを非制限的な意味で説明する。
【0021】
図1は、本発明による方法の様々なステップ間の結びつきを示す。
【0022】
この方法は、文書の構造を定義する構造スキーマ1と、文書の構造化データとによって構築された構造化文書2を処理するものである。
【0023】
XMLスキーマ言語では、構造スキーマは、例えば次のような形である。
【0024】
このスキーマは、「C」という名の要素は、任意選択のブール・タイプの第1の要素「a2」と、常にこの構造中に存在する整数タイプの第2の要素「a1」と、それぞれタイプ「TA」と「TB」である二者択一の要素「A」および「B」からなるグループとによって構築された複雑な構造を持ち、要素「A」および「B」の1回の機会に1つが構造中に現れることを示している。
【0025】
タイプ「TA」と「TB」は、同様の定式化によってこの文書の構造スキーマに定義される。
【0026】
一般には次の要素グループが文書構造の定義に使用される。
−SEQ:そのすべてが、指示される順番で文書中に現れなければならない順番付けられた要素のリストを定義する。
−CHO:二者択一要素のセットを定義し、グループのうち1要素が現れなければならない。
−ET:変更されることのない何らかの順序で、そのすべてが文書中に現れなければならない要素のセットを定義する。
−ETNO:すべてが何らかの順序で文書中になければならない要素のセットを定義する。順序は重要でない。
−ANY:文書中に現れることが可能なすべての可能な要素のうち、いずれかの要素を含む。
【0027】
本発明によれば、この定式化をこの方法のステップ11で分析および変換して、1つの構造要素につき1つのツリーの対応で構文木4を得る。構造要素TCに対応する構文木は、次の式(1)によって表される。
【数1】
の式で、
「→」は、TCがこの記号の後に定義される構造に与えられる名前であることを示し、
「( )」は、その要素グループを読む優先度を示し、
「,」は、シーケンス・タイプ(SEQ)の要素グループに対応し、
「|」は、二者択一要素グループ(CHO)を表し、
「&」は、ETタイプの要素グループを表し、
「&NO」は、順番付けられていないETタイプの要素グループを表し、
「{}」は、要素を構造要素名または基本タイプ(例えば整数やブール)と関連付け、
「Ax..y」は、文書中で要素Aをxからyの回数繰り返すことを示し、yは中間値を表す「*」に等しくなることができる。
【0028】
この定式化では、任意の要素(ANY)を表す記号「$」も使用する。
【0029】
式(1)は図2cに示すツリーで表すことができ、このツリーは、シーケンス・タイプ・グループ44の1回の出現によって構築されるルート要素「TC」43を含む。このグループは、順番付けられていない「ET」タイプ・グループ45の1回の出現と、二者択一グループ46の1回の出現を含む。
【0030】
グループ45は、整数「a1」とブール「a2」の1回の出現によって構築され、グループ46は、「TA」タイプの要素「A」と「TB」タイプの要素「B」の1回の出現を含む。
【0031】
ステップ11で得られるタイプ「TA」および「TB」は、例えば次の式によって得られ、
【数2】
それぞれ図2aと2bに示すツリーによって表される。
【0032】
タイプ「TA」31は、それぞれETタイプとSEQタイプである2つの単一のグループ33、34によって構築される単一のシーケンス・タイプ・グループ32を含む。グループ33は、それぞれ「a3」と「a4」という2つの整数タイプの1回の出現を含む。グループ34は、それぞれ「X」と「Y」という2つのタイプ「TC」の1回の出現を含む。
【0033】
タイプ「TB」39は単一のシーケンス・タイプ・グループ40によって構築され、このグループはそれぞれ「a1」と「a5」という2つのブールを含む。
【0034】
以上の説明では、各要素の名前とそのタイプを区別したが、本発明による方法は、このような区別をしない構造化言語にも適用することができる。
【0035】
さらに、構造要素は決定性でなければならない。換言すると、要素はいくつかの異なる形で解釈することが可能であってはならない。例えば、スキーマ「(a|(a,b))」では、「a」が現れる場合に「b」がaの後に現れなければならないかどうかが分からない。この目的のために、非決定性のスキーマを決定性スキーマに変換するために、本発明による方法で適用できるアルゴリズムがある。これについては、例えば「Regular expressions into finite automata」(Bruggemann−Klein,Anne、Extended Abstract in I.Simon,Hrsg,LATIN 1992、s.97−98、Springer−Verlag、ベルリン 1992。完全版はTheoretical Computer Science 120、197〜213、1993)を参照されたい。したがって、先に挙げたスキーマは、例えば「(a,b0..1)」と置き替えることができる。
【0036】
本発明による方法の次のステップ12では、構文木に変換した構造スキーマの要素に、初めに簡約化または単純化のプロセスを行うことができる。
【0037】
この簡約化プロセスは、図3に示すように、すべてのツリー31、39、および43から単一の構文木51を生成することにより、大まかな平坦化を行うものである。
【0038】
このツリーは事実上、文書中で遭遇する可能性の高いすべての要素タイプのディクショナリを表し、これらの要素は、少なくとも1回(1..*)文書中に現れる二者択一タイプのグループ52に合わせてまとめられる。このツリーでは、複雑なタイプの要素「A」、「B」、「X」、および「Y」は「ANY」タイプと関連づけられ、異なる要素タイプで(要素「TB」および「TC」に)2度現れている要素「a1」は、XML言語によるデフォルトの「pcdata」タイプか、または、例えば「text」など、最初の文書中にある要素タイプと関連付けられる。これと同じデータ・セットはいくつかの方式で表すことができ、例えば、バイナリ・シーケンスを文字列または整数と考えることもできる。
【0039】
あるいは、この簡約化プロセスは、構文木をローカルに平坦化して、図4aから4cに31’、39’、および43’で示すツリーを得るものであってもよい。
【0040】
これら各図では、グループ32〜34(図2a)、40(図2b)、および44〜46(図2c)をそれぞれ二者択一タイプ・グループ53、54、55に置き換えており、これらのグループは少なくとも1回現れる(1..*)。
【0041】
ツリー「TA」、「TB」、および「TC」には、さらに追加的なプロセスを施して、構造スキーマに生じるあいまい性を除去することができる。
【0042】
ステップ12で、ツリー「TA」、「TB」、および「TC」に、スキーマの要素の単一の順番が得られるような方式で、スキーマを再度順番付けすることからなる正規化プロセスも行う。このプロセスでは、前のプロセスで得られた構文木の異なるノードに、2進数を割り当てる。この数は、関連する要素を圧縮する際に用いられる。
【0043】
この正規化プロセスは、各グループに、そのグループの名前と、すでに順番付けられているそのグループのすべての要素と、下位グループの署名の連接によって構築される署名を割り当てるものである。したがって、図4のグループ53は、署名「CHO.a3.a4.X.Y」(または「|a3.a4.X.Y」)と関連付けられる。
【0044】
この正規化プロセスで、順番付けられたグループ(SEQ)がすでに正規化されていると考える。したがって正規化するグループは、二者択一タイプ(「CHO」)と、「ET」および「ETNO」グループになる。このプロセスは、下位グループgiおよび要素eiからなる各グループGについて、次のステップを含む。
−グループGを正規化する前にグループGの下位グループgiを正規化し、正規化アルゴリズムは再帰アルゴリズムであるステップ、
−下位グループgiの前にグループGの任意の要素eiを配列するステップ、
−所定の順序で要素eiを配列するステップ、
−所定の順序で下位グループgiを配列するステップ、および
−以上のステップの結果確立される順序に従って、その構成要素(要素および下位グループ)のすべての署名の連接により得られるグループGの署名を判定するステップ。
【0045】
グループの構成要素を配列する所定の順序は、構成要素個々の署名の英数字順でも、あるいは、各自の最小出現回数の降順にして、同じ最小出現回数を有する構成要素を英数字順に配列してもよい。
【0046】
この正規化プロセスは、本発明による方法では必要でないことに留意されたい。スキーマ中に構成要素が現れる順序は、実際には保存してもよい。
【0047】
この方法の次のステップ13は、有限オートマトン5の生成である。このプロセスでは、1つの構文木グループにつき1つのオートマトンの対応で、各構文木に基本オートマトンのセットを生成し、次いで、その基本オートマトンを組み合わせる。
【0048】
図5aで、1つ下の階層レベルの署名m1、m2〜mnのn個の要素からなるシーケンシャル・グループ(SEQ)のオートマトンは、図に円で表す0からn+1の番号を付けたn+2個の状態を含み、各ノードは、グループ要素に対応する円弧で表す、要素の署名を名前とした遷移によってその次のノードに連結され、最後の遷移F(状態n+1に向かう)は、このグループの終わりをマークしている。
【0049】
図5bでは、1つ下の階層レベルの署名m1、m2〜mnのn個の要素からなる二者択一タイプ・グループ(CHO)のオートマトンは、番号「0」の初期状態と、番号1〜nのn個の最終状態を含み、状態0は、それぞれn個のグループ要素に対応するn個の遷移によって最終状態1〜nに連結されている。
【0050】
図5cでは、1つ下の階層レベルの署名m1、m2〜mnのn個の要素からなるETグループのオートマトンは、n個の要素のすべての可能な組み合わせを表す1+n+n(n−1)+n(n−1)(n−2)+...+n!個の状態を含む。
【0051】
この種のオートマトンは、以下のような単純なアルゴリズムによって生成することができる。
Eをグループのすべての可能な構成要素のセットとする。
Function_1を実行する(E,初期状態)
Function_1(E、状態e):
Repeat Eが空でない間は、
Eから要素miを選択し、それをEから除外する
状態e’と、eとe’を結ぶ円弧を作成する
表示されるmi
EをE’として複製する
Function_1を実行する(E’、状態e’)
End repeat
【0052】
1つ下の階層レベルの署名m1、m2〜mnのn個の要素からなるグループETNOのオートマトンは、グループ中の要素の出現順序に関する情報が失われても許容できるか、順序が固定されているのであれば、SEQのオートマトンでよい。
【0053】
これらのオートマトン(タイプCHO、ETおよびETNOのグループの場合)は、任意選択の要素、すなわち、可能な出現の総数が(0..k)の形である要素の回避プロセスを適用することにより最適化することができる。
【0054】
この規則は、最小の出現回数ゼロと関連付けられた各要素は、必ずしも符号化されないという事実を反映している。
【0055】
図6に示すように、このプロセスでは、任意選択の要素「2」の1つ上流に位置する状態「1」と、要素「2」の1つ下流に位置するすべての状態「3」との間に遷移を追加し、この新しい遷移はそれが終了する状態に対応する要素の署名「m3」と関連付ける。
【0056】
1つ下流に位置する状態の1つも任意選択要素と関連付ける場合には、その状態の1つ上流に位置するすべての状態にも遷移を提供しなければならない。
【0057】
このプロセスは以下のアルゴリズムを使用して行うことができる。
関連付けられた要素が最小の0回の出現を有するオートマトンのノードのサブセットをZとする。
Repeat(このオートマトンが次の手順によって修正される間は):
For Zの要素Xごとに:
For Xの入ってくる遷移TExごとに:
For Xの出て行く遷移TSxごとに:
1.遷移TExのソース・ノードと遷移TSxの宛先ノードを結ぶ新しい遷移Nを作成する。この遷移は、円弧TSxの値によってマークする。
2.グラフ中に同じ遷移がまだ存在しなければ、それをグラフに追加する。
End for
End for
End for
End repeat
【0058】
このように1つの構造スキーマに対して生成されたオートマトンは、相互にネストになっていることに留意されたい。実際、図2に示すスキーマ例に対応するオートマトンでは、タイプTA31に対応するオートマトンでタイプTC(要素XおよびY)に遭遇すると、タイプTC43に対応するオートマトンを完全に実行してから、タイプTAに対応するオートマトンの実行を続ける。
【0059】
本発明による方法の次のステップ14では、先に得たオートマトンを簡約化し、変換する。
【0060】
したがって、図7aおよび7bを参照して説明する方法で、同じ構文木のオートマトン(互いを呼び出す異なるツリーのオートマトンは除く)を併合することができる。
【0061】
図7aおよび7bは、本発明による方法により、構造要素(a1 0..*、(b1|b2)0..*)から生成されたオートマトンを示している。最初のオートマトン(図7a)はグループSEQ(「,」)に対応し、2番目のオートマトン(図7b)は、二者択一グループ(「|」)に対応する。
【0062】
これらのオートマトンを実行すると、第1のオートマトンで状態2に達すると第2のオートマトンの実行が起動され、第2のオートマトンで最終状態1または2に達すると、続いて第1のオートマトン、言い換えると第1のオートマトンの状態2と最終状態3の間の遷移Fの実行に移る。
【0063】
2つのオートマトンを併合するプロセスにより図8に示すオートマトンを得ることができ、この図では、CHOグループの各選択肢を、選択された選択肢の中に現れるグループ要素の署名「b1」、「b2」と連接したこのグループの署名「cho.b1.b2」と関連付けた遷移によって示している。
【0064】
このステップ14では、例えばHoporoftのアルゴリズムを適用することにより、状態の数を最小にするプロセスをオートマトンに施し、次いで、正規化プロセスを施して、正規化されたオートマトン6を得てもよい。
【0065】
このプロセスに次いで、各ノードからの遷移に0〜nの番号を付ける。
【0066】
次のステップ15では、文書の各要素または基本データ・セットの圧縮された値を見つけるバイナリ・シーケンスの連続を得るために、文書2を再度読み、文書の構造にオートマトンを実行することにより、文書に含まれるデータを圧縮する。第1のタイプの符号化によると、このバイナリ・シーケンスは(K.N.V1..VN)eの形であり、各要素または要素のグループeに対して、Nは要素eの出現回数または要素eに対応する連続したデータ・セットの数であり、Kは要素eに到達することを可能にした遷移の回数であり、V1..VNは、要素eのN回の出現の、可能性としては圧縮された個々の値である。eが要素のグループである場合、その値Vはeが含む要素の数と同じだけの多数のバイナリ・シーケンス(K.N.V)に分解される。ただし、ある場合には、特にNの数が固定されている場合には、Nを省略することができる。これと同じことは、例えばシーケンス・タイプのグループで、ある状態から1つの円弧しか出ていない場合には、Kにも当てはまる。
【0067】
いくつかの符号化されたパラメータをまとめる圧縮文書の概略的な見出しを初めに作成することができ、これは文書を記述するのに有用である。この見出しは、使用される1つまたは複数の構造スキーマの署名と、例えば以下のような使用された符号化を記述するパラメータのセットを含むことができる。
−各要素の長さの符号化が必須か、任意選択か、あるいは文書中に存在しないかを示すパラメータ
−要素をサブタイプ(sub−type)する、すなわち、その基本タイプよりも厳密なタイプと関連付けることが可能か不可能かを示すパラメータ
−出現回数に使用する符号化タイプを示すパラメータ
【0068】
文書の各情報要素も見出しと関連付けることができ、要素の存在と性質はその文書見出しに示される。
【0069】
したがって、要素の見出しは、文書を解凍する際に文書中のそれより前の要素をすべて解凍することなく特定の要素にアクセスできるようにする形で、符号化されたその要素の長さを含むことができる。要素の見出しは、例えば要素の値を符号化する直前に文書に挿入する。
【0070】
一般的には、文書の圧縮は、文書を順次読み、スキーマのオートマトンを実行することからなり、これにより、さらに、その文書の構造がコンパイルされたスキーマに対応していることを確認できるようになる。
【0071】
このプロセス中に、各要素が文書中に現れる出現回数を符号化する。このために、次の規則を適用する。
【0072】
要素eの出現回数を(i..j)によって定義する場合、次の事例を区別することができる。
【0073】
jが「*」と異なり、iが0と異なる場合には、符号化を2部分、すなわち(i..i)と(0..j−i)に分解し、この定式化はi回の出現が必須であることを指定するので、第1の部分は符号化しない。第2の部分は|log2(j−i+1)|ビットで符号化する。
【0074】
jが「*」と異なり、iが0に等しい場合は、この符号化が必須である場合には、文書中に少なくとも1つの要素eがあることになるので、出現回数は1からjの間、すなわち|log2(j)|ビットで符号化される。
【0075】
jが「*」に等しい場合はASN1などの符号化技術を使用し、その符号化に従って最初のバイトがコーディング・バイトの数を表し、続くバイトが出現回数の値を含む。各バイトの高位ビットを使用してそのビットが出現回数の最後のコーディング・バイトであるか否かを示し、各バイトの次の7ビットを使用して出現回数を符号化することも可能である。
【0076】
あるいは、構造スキーマの要素の出現回数を取り込む必要がない別の符号化タイプを選択してもよい。この符号化タイプによると、オートマトンの最終状態を表す「escape」または「esc」と呼ばれるタイプを導入する。したがって、初めに以前に得たオートマトンへの変換を適用することが必要となる。
【0077】
この変換は、オートマトンの各状態に1つ前の状態への戻り遷移を追加し、最終状態に「esc」遷移を追加して、オートマトンの実行の終了をマークすることからなる。これにより要素の符号化はわずか(KV)の形になり、すなわち遷移「esc」の回数Kescで終了するオートマトンの符号化となる。
【0078】
実際この符号化タイプは、複雑な形態の符号化と、最大の出現回数を持たない要素にのみ有用である。この符号化タイプは、特に、pが整数である場合に2Pと異なる複数の要素を含む二者択一タイプのグループを符号化するのに適している。
【0079】
この符号化タイプは、上述のタイプと組み合わせることができる。これは、圧縮した文書の見出しと、複数回の出現がある符号化中の位置に割り当てられたビットにのみ示せばよい。
【0080】
本発明によれば、文書のデータ・セットの少なくとも1つの基本タイプを外部圧縮モジュール16と関連付ける。このように、文書を読み取る際には遭遇するデータ・セットの個々のタイプを分析し、データ・セットのタイプを外部圧縮モジュール16に関連付けるときには、そのタイプをそのデータ・セットの内容に適用し、圧縮の結果を、対応するデータ・セットの値として圧縮した文書に挿入する。
【0081】
外部圧縮モジュールは、例えば音声情報には「mp3」規格を、画像には「jpeg」規格を、ビデオ・タイプ・データには「MPEG1」または「MEPG2」を適用することができる。
【0082】
データ・セットのタイプに圧縮モジュールを関連付けない場合は、デフォルトの圧縮モジュールを使用するか、そのタイプのデータ・セットが最初の文書に現れたときに回復することができる。
【0083】
長さの符号化が任意選択または必須であることが文書の見出しに示される場合、要素は、その要素の値の複数ビットとして長さを含む圧縮文書内の見出しと関連付けられている。これにより、特に、ある要素を求める限りはオートマトンを用いてそれら要素の個々の長さだけを読み取ることにより、文書中でその要素より前に位置する要素を解凍しなくとも、圧縮された文書のその要素に直接アクセスすることが可能になる。
【0084】
要素の長さは以下のように符号化することができる。
【0085】
文書の見出し中で要素の長さの符号化が必須であると示される場合は、次の式を使用して要素の長さLを複数ビットとして計算する。
L=8p+h
pは要素の長さを符号化するのに用いられるバイト数を表し(ASN1符号化、またはこの数を符号化するのに使用される各バイトの高位ビットを使用して)、hはこの長さの残りのビット数を表す(h<8)。
【0086】
要素の値を符号化するために呼び出される外部圧縮モジュール16は、この長さを提供することができることに留意されたい。
【0087】
要素の長さの符号化が必須でない場合は、要素の値に対応する最初のビットの値が、続くビットが要素の長さを表すか、表さないかを示す。
【0088】
要素をサブタイプすることができる場合(文書の見出しに示される)は、圧縮された文書中で要素の値の直前に位置する要素の見出しに任意の新しいタイプを挿入する。最初のビットが、その要素タイプが予想されるタイプと異なるか、異ならないかを示す。第1の事例では、要素の見出し中の続くビットが新しいタイプのコードを含み、このコードは、要素の基本タイプのすべての可能な下位タイプに番号を付けることによって判断し、この番号付けは文書の構造を符号化することによって与えられる。
【0089】
より正確には、文書は3つの主要なステップで符号化する。
【0090】
第1のステップでは、各ノードから出る円弧に番号を付ける。ノードから出る円弧が1つだけの場合はこのステップは任意選択である。n個の円弧が出る場合は、その円弧それぞれを、正規化の際に割り当てられる円弧の順序で与えられる番号と関連付ける(ステップ14)。この番号はn’ビットで符号化し、n’は、2n’―1<n≦2n’である。
【0091】
したがって、状態Eからn回の遷移が生じる場合、各遷移は|log2(n−1)|+1ビットで符号化されることになる。
【0092】
第2のステップでは、各下位オートマトンの出現回数を上述のように符号化する。
【0093】
第3のステップでは下位オートマトンを符号化する。このプロセスは次のアルゴリズムで表すことができる。
オートマトンの開始位置に入り、
While アクティブな状態が最終状態でない間は、
必要ならば交差する円弧を符号化する
必要ならば出現回数nを符号化する
到達したノードに対応する下位オートマトン中を移動する
その下位オートマトンをn回符号化する
最初のオートマトンに戻る
End While
【0094】
例えば、オートマトン(a1|a2|a3)(0..*)の出現「a2 a3 a2 a1 a3」を符号化するには、出て行く円弧が3つある。したがってこの円弧は2ビットで番号を付ける。したがって、出現回数を符号化する場合、符号化の結果は以下のようになる。
0000 0101 01 Va2 10 Va3 00 Xa1 00 Va1 10 Va3
「0000 0101」は出現回数、すなわち、5の2進値を表し、Va1、Va2、およびVa3はそれぞれa1、a2、およびa3の出現の値である。
【0095】
出現回数を符号化しない場合は
01 Va2 10 Va3 00 Va1 00 Va1 10 Va3 11
となり、11は、出て行く遷移「esc」の数に対応する。
【0096】
図7a、7bの例では、オートマトン(a1 0..*、b1|b2)0..*)の出現「b3 b1 a1」の符号化により、次の結果が得られる(状態を併合しない場合)。
0000 0010 シーケンスの出現回数(ここでは倍)
1 円弧「cho.b1.b2」の符号化
0000 0010 グループ「cho.b1.b2」の出現回数(ここでは倍)
1 グループ「cho.b1.b2」中の円弧b2の符号化
Vb2 値b2の符号化
0 グループ「cho.b1.b2」の円弧b1の符号化
Vb1 値b1の符号化
0 円弧a1の符号化
0000 0001 a1の出現回数
Va1 a1の値の符号化
1 出て行く円弧Fの符号化
【0097】
状態を併合した場合(図8)は、
0000 0010 シーケンスの出現回数
10 円弧「cho.b1.b2−b2」の符号化
0000 0010 グループ「cho.b1.b2」の出現回数
Vb2 値b2の符号化
0 グループ「cho.b1.b2」の円弧b1の符号化
Vb1 値b1の符号化
00 円弧a1の符号化
0000 0001 a1の出現回数
Va1 a1の値の符号化
10 出て行く円弧Fの符号化
【0098】
特にグループETNOの場合に符号化を最適化するような形でスキーマが解釈され、再度順序付けされている場合には、このオートマトンを再配列することが必要となる場合がある。
【0099】
属性の順番が有用でない場合(XML言語など)は、例えば英数字順など所定の順番で、そしてそれらの属性が必須か否かに従って、要素の属性を再度順序付けをするように符号化を行うことが可能である。この配列により、圧縮後の記述のサイズをその分だけ小さくすることができる。
【0100】
文書の構造スキーマにステップ11から15を実行してオートマトンを得、次いでステップ15’で文書の復号と解凍を行うことにより、このように得た文書を解凍するプロセスを行う。ステップ15’では、文書中で遭遇する圧縮された情報要素のタイプと名前を判定できるような方式で、圧縮された文書中を移動して、ステップ11から14の結果得られたオートマトンを実行する。外部圧縮モジュール16を用いて得た要素の値は、対応する解凍モジュール16’を用いて解凍する。
【0101】
同じ構造スキーマを有するいくつかの文書を処理する(圧縮または解凍)場合は、ステップ11から15を一度だけ実行し、ステップ15および16(または15’および16’)だけを、処理する各文書に適用すればよいことに留意されたい。
【図面の簡単な説明】
【図1】
本発明による方法の様々なステップ間の結びつきを表すブロック図である。
【図2a、2bおよび2c】
ツリーの形で構造スキーマを示す略図である。
【図3】
本発明による簡約化方法を図2の構造スキーマに適用することにより得られる構造スキーマの図である。
【図4a、4b、および4c】
本発明による別の簡約化方法を図2の構造スキーマに適用することにより得られる構造スキーマの図である。
【図5a〜5c】
本発明による方法で得られ、使用される3つの有限オートマトンをそれぞれ示す図である。
【図6】
本発明による方法で使用される最適化法を表す別のオートマトンの図である。
【図7aおよび7b】
本発明によるプロセスを使用して特定の構造スキーマから得られる2つのオートマトンの図である。
【図8】
図7aおよび7bに示すオートマトンに簡約化法を適用する図である。
Claims (10)
- 文書の構造を定義し、文書のデータ・セットを表すネストになった構造要素(32、33、34、40、44、45、46、a3、a4、X、Y、a1、a5、a1、a2、A、B)を含む少なくとも1つの木構造スキーマ(1;31、39、43)と関連付けられた構造化文書を圧縮および解凍する方法であって、構造要素は、3つのカテゴリ、すなわち、構造化されたルート要素(31、39、43)、要素のグループ(32、33、34、40、44、45、46)、および、構造中の最下位レベルの要素に対応する構造化された(X、Y、A、B)または非構造化(a3、a4、a1、a5、a1、a2)基本要素、に分類され、各基本要素は情報タイプと関連付けられ、基本要素の少なくとも1つの情報タイプを初めに適合された圧縮アルゴリズム(16)と関連付け、
−文書の構造スキーマの構文解析(11)を行うステップ、
−正規化した構造スキーマをコンパイル(13)して、1つのルート要素につき1つの有限オートマトン(5)を得、各オートマトンは、それぞれが構造要素を表す遷移(「m1」、「m2」、〜「mn」)によって相互に連結された状態(「0」、「1」、〜「n」)を含むステップ、および
−文書に有限オートマトン(5)を実行することを含めて圧縮のために構造化文書(2)を圧縮(15)し、前記アルゴリズムと関連づけられた情報タイプのデータ・セットに構造化文書(2)中で遭遇すると前記圧縮アルゴリズム(16)を実行するステップ
を含むことを特徴とする方法。 - 圧縮された文書(10)を解凍するために、ステップ(11、12、13)を実行して、圧縮に使用されたオートマトン(5)を構造スキーマ(1)から判断することと、圧縮された文書(10)にオートマトン(5)を実行(15’)して文書の内容を分析することと、少なくとも同等の構造を有する元の形式に文書を再構築するために、圧縮(15)の際に用いられた圧縮アルゴリズム(16)に対応する解凍アルゴリズム(16’)を実行して、オートマトンを実行しながら、圧縮された文書中に位置するバイナリ情報シーケンスから元の構造化文書(2)のデータ・セットを復元することとを含むことを特徴とする請求項1に記載の方法。
- 構造スキーマ(1)を文書とともに伝送する場合において、構造スキーマ(5)を伝送するステップを含むことを特徴とする請求項1または2に記載の方法。
- 文書の構造スキーマ(5)を正規化(12)して、スキーマの要素の単一の所定の順番を得るステップを含むことを特徴とする請求項1から3のいずれか一項に記載の方法。
- 各データ・セットを圧縮された文書中に配置することにより、解凍するセットより前のデータ・セットを解凍する必要なしに、特定のデータ・セットに直接アクセスすることを可能にすることを特徴とする請求項1から4のいずれか一項に記載の方法。
- 各構造スキーマ要素をさらに可能な出現回数のセットと関連付け、その構造要素を有するデータ・セットが、それが属する1つ上の階層レベルのデータ・セット中に現れることができる回数を示すことを特徴とする請求項1から5のいずれか一項に記載の方法。
- 構造要素のグループの階層レベル数を減らすことにより文書の構造スキーマを最適化するステップを含むことを特徴とする請求項1から6のいずれか一項に記載の方法。
- 圧縮された文書(10)が、元の文書のデータ・セットごとに、そのデータ・セットと関連付けられた構造要素に対応する遷移数と、圧縮されたデータ・セットの2進値とを含むことを特徴とする請求項1から7のいずれか一項に記載の方法。
- 圧縮された文書(10)中で、構造スキーマの構造要素の少なくとも一部の各構造要素が、文書中におけるデータ・セットの複数回の出現と関連付けられることを特徴とする請求項8に記載の方法。
- 圧縮された文書(10)中で、同じタイプのデータ・セットの数回の出現のグループの終わりが、最終状態番号への遷移を表すバイナリ・シーケンスによって見つけられることを特徴とする請求項8または9に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0011356A FR2813743B1 (fr) | 2000-09-06 | 2000-09-06 | Procede de compression/decompression de documents structures |
PCT/FR2001/002719 WO2002021848A1 (fr) | 2000-09-06 | 2001-08-31 | Procede de compression/decompression de documents structures |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004508647A true JP2004508647A (ja) | 2004-03-18 |
JP4653381B2 JP4653381B2 (ja) | 2011-03-16 |
Family
ID=8854020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002526128A Expired - Fee Related JP4653381B2 (ja) | 2000-09-06 | 2001-08-31 | 構造化文書の圧縮/解凍方法 |
Country Status (11)
Country | Link |
---|---|
US (2) | US8015218B2 (ja) |
EP (1) | EP1316220B1 (ja) |
JP (1) | JP4653381B2 (ja) |
AT (1) | ATE285656T1 (ja) |
AU (1) | AU2001287796A1 (ja) |
DE (1) | DE60107964T2 (ja) |
DK (1) | DK1316220T3 (ja) |
ES (1) | ES2234878T3 (ja) |
FR (1) | FR2813743B1 (ja) |
PT (1) | PT1316220E (ja) |
WO (1) | WO2002021848A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012502337A (ja) * | 2008-09-08 | 2012-01-26 | トムソン ライセンシング | 要素の符号化方法と装置 |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3368883B2 (ja) * | 2000-02-04 | 2003-01-20 | インターナショナル・ビジネス・マシーンズ・コーポレーション | データ圧縮装置、データベースシステム、データ通信システム、データ圧縮方法、記憶媒体及びプログラム伝送装置 |
EP1276324B1 (en) * | 2001-07-13 | 2006-10-04 | France Telecom | Method for compressing a hierarchical tree, corresponding signal and method for decoding a signal |
US20030188265A1 (en) * | 2002-04-02 | 2003-10-02 | Murata Kikai Kabushiki Kaisha | Structured document processing device and recording medium recording structured document processing program |
KR100968083B1 (ko) * | 2002-07-15 | 2010-07-05 | 지멘스 악티엔게젤샤프트 | 구조화된 문서들, 특히 xml 문서들을인코딩/디코딩하기 위한 방법 및 장치 |
BR0312681A (pt) * | 2002-07-15 | 2005-04-26 | Siemens Ag | Processo e dispositivo para codificação e decodificação de documentos estruturados, especialmente de documentos xml |
US7603654B2 (en) * | 2004-03-01 | 2009-10-13 | Microsoft Corporation | Determining XML schema type equivalence |
US8977859B2 (en) * | 2004-05-04 | 2015-03-10 | Elsevier, Inc. | Systems and methods for data compression and decompression |
US7509631B2 (en) * | 2004-05-21 | 2009-03-24 | Bea Systems, Inc. | Systems and methods for implementing a computer language type system |
US8111694B2 (en) | 2005-03-23 | 2012-02-07 | Nokia Corporation | Implicit signaling for split-toi for service guide |
US20070143664A1 (en) * | 2005-12-21 | 2007-06-21 | Motorola, Inc. | A compressed schema representation object and method for metadata processing |
US20110208703A1 (en) * | 2006-05-24 | 2011-08-25 | Damien Fisher | Selectivity estimation |
DE112007001386A5 (de) * | 2006-07-07 | 2009-03-19 | Universität Paderborn | Verfahren zur Kompression einer Datensequenz eines elektronischen Dokuments |
US7747558B2 (en) | 2007-06-07 | 2010-06-29 | Motorola, Inc. | Method and apparatus to bind media with metadata using standard metadata headers |
US7925643B2 (en) * | 2008-06-08 | 2011-04-12 | International Business Machines Corporation | Encoding and decoding of XML document using statistical tree representing XSD defining XML document |
EP2219117A1 (en) * | 2009-02-13 | 2010-08-18 | Siemens Aktiengesellschaft | A processing module, a device, and a method for processing of XML data |
RU2413985C2 (ru) * | 2009-03-05 | 2011-03-10 | Борис Васильевич Черников | Способ преобразования слабоформализуемых документов для минимизации их объема при хранении |
JP5570202B2 (ja) * | 2009-12-16 | 2014-08-13 | キヤノン株式会社 | 構造化文書解析装置、構造化文書解析方法、及びコンピュータプログラム |
EP2388701A1 (en) * | 2010-05-17 | 2011-11-23 | Siemens Aktiengesellschaft | Method and apparatus for providing a service implementation |
US20150312298A1 (en) * | 2011-03-24 | 2015-10-29 | Kevin J. O'Keefe | Method and system for information exchange and processing |
US9543980B2 (en) | 2014-10-10 | 2017-01-10 | Massachusettes Institute Of Technology | Systems and methods for model-free compression and model-based decompression |
US10733237B2 (en) | 2015-09-22 | 2020-08-04 | International Business Machines Corporation | Creating data objects to separately store common data included in documents |
JP6903892B2 (ja) * | 2016-10-12 | 2021-07-14 | 富士通株式会社 | 検証プログラム、検証装置、検証方法、符号化プログラム、符号化装置および符号化方法 |
US10467275B2 (en) * | 2016-12-09 | 2019-11-05 | International Business Machines Corporation | Storage efficiency |
CN108763379B (zh) * | 2018-05-18 | 2022-06-03 | 北京奇艺世纪科技有限公司 | 一种数据压缩方法、数据解压缩方法、装置及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10187680A (ja) * | 1996-12-20 | 1998-07-21 | Nec Corp | 単語、文、部分の粒度で管理するドキュメントリポジトリ装置 |
JP2001217720A (ja) * | 2000-02-04 | 2001-08-10 | Internatl Business Mach Corp <Ibm> | データ圧縮装置、データベースシステム、データ通信システム、データ圧縮方法、記憶媒体及びプログラム伝送装置 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5438512A (en) * | 1993-10-22 | 1995-08-01 | Xerox Corporation | Method and apparatus for specifying layout processing of structured documents |
AU2585797A (en) * | 1996-03-15 | 1997-10-01 | University Of Massachusetts | Compact tree for storage and retrieval of structured hypermedia documents |
US6266419B1 (en) * | 1997-07-03 | 2001-07-24 | At&T Corp. | Custom character-coding compression for encoding and watermarking media content |
US6121903A (en) * | 1998-01-27 | 2000-09-19 | Infit Communications Ltd. | On-the-fly data re-compression |
US6363381B1 (en) * | 1998-11-03 | 2002-03-26 | Ricoh Co., Ltd. | Compressed document matching |
US6553141B1 (en) * | 2000-01-21 | 2003-04-22 | Stentor, Inc. | Methods and apparatus for compression of transform data |
US6883137B1 (en) * | 2000-04-17 | 2005-04-19 | International Business Machines Corporation | System and method for schema-driven compression of extensible mark-up language (XML) documents |
IT1314626B1 (it) * | 2000-04-21 | 2002-12-20 | Ik Multimedia Production Srl | Procedimento per la codifica e la decodifica di flussi di dati,rappresentanti suoni in forma digitale, all'interno di un |
US20020029229A1 (en) * | 2000-06-30 | 2002-03-07 | Jakopac David E. | Systems and methods for data compression |
CN1401188B (zh) * | 2000-10-17 | 2011-06-08 | 皇家菲利浦电子有限公司 | Mpeg-7样品的二进制格式 |
US6850948B1 (en) * | 2000-10-30 | 2005-02-01 | Koninklijke Philips Electronics N.V. | Method and apparatus for compressing textual documents |
JP4774145B2 (ja) * | 2000-11-24 | 2011-09-14 | 富士通株式会社 | 構造化文書圧縮装置および構造化文書復元装置並びに構造化文書処理システム |
WO2002056478A1 (en) * | 2001-01-11 | 2002-07-18 | Koninklijke Philips Electronics N.V. | Data compression method with identifier of regressive string reference |
FR2820563B1 (fr) * | 2001-02-02 | 2003-05-16 | Expway | Procede de compression/decompression d'un document structure |
WO2002093358A1 (en) * | 2001-05-17 | 2002-11-21 | Cyber Operations, Llc | System and method for encoding and decoding data files |
JP3832807B2 (ja) * | 2001-06-28 | 2006-10-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | データ処理方法及びその手法を用いたエンコーダ、デコーダ並びにxmlパーサ |
US20030028673A1 (en) * | 2001-08-01 | 2003-02-06 | Intel Corporation | System and method for compressing and decompressing browser cache in portable, handheld and wireless communication devices |
BR0312681A (pt) * | 2002-07-15 | 2005-04-26 | Siemens Ag | Processo e dispositivo para codificação e decodificação de documentos estruturados, especialmente de documentos xml |
US6667700B1 (en) * | 2002-10-30 | 2003-12-23 | Nbt Technology, Inc. | Content-based segmentation scheme for data compression in storage and transmission including hierarchical segment representation |
US7509574B2 (en) * | 2005-02-11 | 2009-03-24 | Fujitsu Limited | Method and system for reducing delimiters |
-
2000
- 2000-09-06 FR FR0011356A patent/FR2813743B1/fr not_active Expired - Fee Related
-
2001
- 2001-08-31 US US10/363,330 patent/US8015218B2/en not_active Expired - Fee Related
- 2001-08-31 EP EP01967412A patent/EP1316220B1/fr not_active Expired - Lifetime
- 2001-08-31 DE DE60107964T patent/DE60107964T2/de not_active Expired - Lifetime
- 2001-08-31 WO PCT/FR2001/002719 patent/WO2002021848A1/fr active IP Right Grant
- 2001-08-31 PT PT01967412T patent/PT1316220E/pt unknown
- 2001-08-31 AT AT01967412T patent/ATE285656T1/de not_active IP Right Cessation
- 2001-08-31 ES ES01967412T patent/ES2234878T3/es not_active Expired - Lifetime
- 2001-08-31 DK DK01967412T patent/DK1316220T3/da active
- 2001-08-31 JP JP2002526128A patent/JP4653381B2/ja not_active Expired - Fee Related
- 2001-08-31 AU AU2001287796A patent/AU2001287796A1/en not_active Abandoned
-
2011
- 2011-07-26 US US13/190,692 patent/US20110283183A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10187680A (ja) * | 1996-12-20 | 1998-07-21 | Nec Corp | 単語、文、部分の粒度で管理するドキュメントリポジトリ装置 |
JP2001217720A (ja) * | 2000-02-04 | 2001-08-10 | Internatl Business Mach Corp <Ibm> | データ圧縮装置、データベースシステム、データ通信システム、データ圧縮方法、記憶媒体及びプログラム伝送装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012502337A (ja) * | 2008-09-08 | 2012-01-26 | トムソン ライセンシング | 要素の符号化方法と装置 |
Also Published As
Publication number | Publication date |
---|---|
FR2813743A1 (fr) | 2002-03-08 |
DE60107964D1 (de) | 2005-01-27 |
DK1316220T3 (da) | 2005-01-24 |
ES2234878T3 (es) | 2005-07-01 |
ATE285656T1 (de) | 2005-01-15 |
FR2813743B1 (fr) | 2003-01-03 |
US20110283183A1 (en) | 2011-11-17 |
AU2001287796A1 (en) | 2002-03-22 |
US20040013307A1 (en) | 2004-01-22 |
JP4653381B2 (ja) | 2011-03-16 |
US8015218B2 (en) | 2011-09-06 |
EP1316220B1 (fr) | 2004-12-22 |
PT1316220E (pt) | 2005-02-28 |
DE60107964T2 (de) | 2005-05-25 |
EP1316220A1 (fr) | 2003-06-04 |
WO2002021848A1 (fr) | 2002-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4653381B2 (ja) | 構造化文書の圧縮/解凍方法 | |
KR100614677B1 (ko) | 구조화된 문서를 압축/복원하기 위한 방법 | |
US7043686B1 (en) | Data compression apparatus, database system, data communication system, data compression method, storage medium and program transmission apparatus | |
JP4373721B2 (ja) | マークアップ言語文書を符号化するための方法およびシステム | |
US7739586B2 (en) | Encoding of markup language data | |
US8120515B2 (en) | Knowledge based encoding of data with multiplexing to facilitate compression | |
US20090254882A1 (en) | Methods and devices for iterative binary coding and decoding of xml type documents | |
CN100561464C (zh) | 文档变换系统 | |
US7509574B2 (en) | Method and system for reducing delimiters | |
US7676742B2 (en) | System and method for processing of markup language information | |
CN108563795B (zh) | 一种加速压缩流量正则表达式匹配的Pairs方法 | |
CN108573069B (zh) | 一种加速压缩流量正则表达式匹配的Twins方法 | |
US8024353B2 (en) | Method and system for sequentially accessing compiled schema | |
US20060184547A1 (en) | Method and system for fast encoding of data documents | |
US7735001B2 (en) | Method and system for decoding encoded documents | |
US20060184874A1 (en) | System and method for displaying an acceptance status | |
US20060212799A1 (en) | Method and system for compiling schema | |
Al-Hussaini | File compression using probabilistic grammars and LR parsing | |
Leighton | Two new approaches for compressing XML | |
Müldner et al. | SXSAQCT and XSAQCT: XML queryable compressors | |
CN118523780A (zh) | 一种对sas数据集进行解压以及压缩的方法及应用 | |
Böttcher et al. | Schema-based Parallel Compression and Decompression of XML Data | |
Harrusi et al. | Compact XML grammar based compression | |
WO2008003310A1 (de) | Verfahren zur kompression einer datensequenz eines elektronischen dokuments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080718 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100301 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100308 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100527 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100603 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100706 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100713 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100728 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100804 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100831 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101201 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4653381 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131224 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |