JP6846426B2

JP6846426B2 - 音声データおよびブロック処理ストレージシステム上に記憶されたデータの削減

Info

Publication number: JP6846426B2
Application number: JP2018530118A
Authority: JP
Inventors: シャラングパニ，ハーシュバーダン
Original assignee: Ascava Inc
Current assignee: Ascava Inc
Priority date: 2015-12-10
Filing date: 2016-12-09
Publication date: 2021-03-24
Anticipated expiration: 2036-12-09
Also published as: TW201735009A; KR102705306B1; KR20180094004A; CN108475508B; EP3387647A4; EP3387647A1; WO2017100619A1; TWI720086B; CN108475508A; EP3387647B1; JP2019502154A; HK1257688A1

Description

背景
本開示はデータの記憶、取出し、および通信に関する。より具体的には、本開示はコンテンツ連想シーブ（sieve）を用いるデータの無損失削減に関する。

関連技術
現代の情報化時代は、莫大な量のデータの作成、取得、および分析を特徴とする。新たなデータは多様なソースから生成され、その例として、購入取引記録、企業および政府の記録および通信、電子メール、ソーシャルメディアの投稿、デジタル写真および映像、マシンログ、埋込装置からの信号、デジタルセンサ、携帯電話全地球測位衛星、宇宙衛星、科学計算、ならびにグランドチャレンジ科学がある。データは多様なフォーマットで生成され、そのほとんどは構造化されておらず、旧来のデータベースへのエントリに適していない。企業、政府、および個人は前例のないほどの速度でデータを生成しており、このデータを記憶、分析、および通信するのに苦労している。蓄積されるデータを保持するストレージシステムの購入に年間何百億ドルという費用が費やされている。データを処理するコンピュータシステムにも同様の多額の費用が費やされている。

最新型のコンピュータおよびストレージシステムにおいて、データは、ストレージ階層として組織化される、複数のストレージ層にわたって収容されデプロイされる。頻繁かつ迅速にアクセスする必要があるデータは、最も高価であるが最速の層に入れられるが、データの大部分（バックアップ用のコピーを含む）は、最も密度が高く最も安価な記憶媒体に記憶されることが好ましい。最速および最も高価なデータストレージ層は、コンピュータシステムの揮発性ランダムアクセスメモリまたはＲＡＭであり、これはマイクロプロセッサコアに近接して存在しており、データのランダムアクセスのための最低待ち時間および最高帯域幅を提供する。漸進的に密度が高くなり安価になるが遅くなる層（ランダムアクセスの漸進的に高くなる待ち時間および低くなる帯域幅を有する）として、不揮発性ソリッドステートメモリまたはフラッシュストレージ、ハードディスクドライブ（ＨＤＤ）、および最後にテープドライブがある。

増加するデータをより効果的に記憶して処理するために、コンピュータ業界はデータ記憶媒体の密度および速度、ならびにコンピュータの処理能力を向上させ続けている。しかし、データ量の増加はコンピューティングおよびデータストレージシステムの容量および密度の向上をはるかに上回っている。２０１４年のデータストレージ業界からの統計では、過去数年間に作成されて取得された新たなデータは、これまでに世界中で取得されたデータの大半を含むことが明らかになっている。今日まで世界中で作成されたデータの量は数ゼタバイト（ゼタバイトは１０²¹バイトである）を超えると見積もられている。データの大幅な増加は、このデータを確実に記憶、処理、および通信しなければならないデータ記憶、計算、および通信システムに大きな要求を突き付けている。これは、データを低コストで記憶し、同様に効率的に処理して通信することができるようにデータを圧縮する、無損失データ削減または圧縮技術の使用の増加の動機付けとなっている。

さまざまな無損失データ削減または圧縮技術が長年にわたって生まれて進化してきた。これらの技術は、データを調べてデータ内に何らかの形態の冗長を探し、その冗長を利用して、情報を損失することなくデータフットプリントの削減を実現する。データ内の特定の形態の冗長を利用することを試みる所与の技術について、達成されるデータ削減の程度は、その特定の形態の冗長がどれほど頻繁にデータ内に見つかるかに依存する。データ削減技術は、データ内のいずれかの利用可能な冗長を柔軟に発見して利用することが可能であることが望ましい。データは多種多様なソースおよび環境からさまざまなフォーマットで生じるため、この多様なデータを取扱う汎用無損失データ削減技術の開発および採用に大きい関心が集まっている。汎用データ削減技術は、アルファベット以外の入力データの予備知識が不要な技術である。したがって、これは一般的に、データの構造および統計的分布特性を予め知る必要なしに、あらゆるデータに適用可能である。

データ圧縮技術のさまざまな実現例同士を比較するために用いられ得る適合度メトリクスとして、ターゲットデータセット上で達成されるデータ削減の程度、圧縮または削減が達成される効率、およびデータが将来の使用のために復元されて取出される効率がある。効率メトリクスは、ソリューションのパフォーマンスおよびコスト効果を評価する。パフォーマンスメトリクスとして、新たなデータが消費され削減され得るスループットまたは取込速度、入力データを削減するのに必要な待ち時間または時間、データが復元され取出され得るスループットまたは速度、およびデータを復元して取出すのに必要な待ち時間または時間がある。コストメトリクスとして、マイクロプロセッサコアまたはマイクロプロセッサ利用（中央処理装置利用）といった、必要ないずれかの専用ハードウェアコンポーネントのコスト、専用スクラッチメモリおよびメモリ帯域幅の量、ならびにデータを保持するさまざまなストレージ層から要求されるアクセス回数および帯域幅がある。なお、効率的で迅速な圧縮ならびに復元および取出しを同時に提供しつつデータのフットプリントを削減することには、データを記憶して通信するための全体のコストを削減するだけでなく、その後のデータの処理を効率的に可能にするという利点もある。

業界で現在使用されている汎用データ圧縮技術の多くは、Abraham LempelおよびJacob Zivによって１９７７年に開発されたLempel-Ziv圧縮法に由来する。たとえば、Jacob Ziv and Abraham Lempel, "A Universal Algorithm for Sequential Data Compression," IEEE transactions on information theory, Vol. IT-23, NO. 3, May 1997参照。この方法は、インターネットを介した効率的なデータ送信を可能にする基礎となった。Lempel-Ziv法（LZ77、LZ78およびそれらの変形と名付けられる）は、繰返し発生する文字列を、シーケンシャルに提示される入力データストリームのスライディングウインドウ内に見られる以前の発生の参照で置換することによって、データフットプリントを削減する。入力データストリームからの所与のデータブロックから新規な文字列を消費すると、これらの技術は、最大でウインドウの長さまで、現在のおよび以前のブロック内で以前に見られたすべての文字列を検索する。新規な文字列が重複である場合、それは元の文字列の逆方向参照で置換される。重複文字列によって除去されるバイトの数が逆方向参照に必要なバイトの数よりも大きければ、データの削減が達成されている。ウインドウ内に見えるすべての文字列を検索するために、かつ最大の文字列一致を提供するために、これらの技術の実現例では、反復走査を含み、かつウインドウ内に見えるすべての文字列の辞書を含む一時的な帳簿構造を構築する、さまざまなスキームを使用する。新たな入力バイトを消費して新規な文字列をアセンブルすると、これらの技術は、既存のウインドウ内の全バイトを走査するか、または、文字列の辞書の参照を作成し（その後何らかの計算を行ない）、重複が見つかったか否かを決定し、重複を逆方向参照で置換する（あるいは、辞書に追加が必要か否かを決定する）。

Lempel-Ziv圧縮法は、データに適用される第２の最適化を伴うことが多く、この最適化では、ソースシンボルが、圧縮中のデータブロック内のソースシンボルの発生の頻度または確率に基づいて動的に再符号化され、より短い長さのコードがより頻繁なシンボルに用いられることによってデータを削減できるように可変幅符号化スキームが使用されることが多い。たとえば、David A. Huffman, "A Method for the Construction of Minimum-Redundancy Codes," Proceedings of the IRE-Institute of Radio Engineers, Sep. 1952, pp. 1098-1101参照。この技術はハフマン再符号化と称され、典型的に、頻度を計算するための１回目のデータの通過、およびデータを実際に符号化するための２回目の通過を必要とする。この主題に沿ったいくつかの変形も使用されている。

これらの技術を用いる一例は、Lempel-Ziv LZ77圧縮法をハフマン再符号化と組合せた「Deflate」として知られるスキームである。Deflateは、バイトのシーケンスを（通常はより短い）ビットのシーケンスとして表わすための方法、および後者のビットシーケンスをバイトにパックするための方法を指定する、圧縮ストリームデータフォーマット仕様を提供する。Deflateスキームは本来、PKZIPアーカイブユーティリティのためにPKWARE, Inc.社のPhillip W. Katzによって設計された。たとえば、"String searcher, and compressor using same," Phillip W. Katz、米国特許第５，０５１，７４５号（１９９１年９月２４日）参照。米国特許第５，０５１，７４５号には、予め定められたターゲット文字列（入力文字列）を求めてシンボルのベクトル（ウインドウ）を検索するための方法が記載されている。このソリューションは、ウインドウ内のシンボル毎にポインタを有するポインタアレイを使用しており、ハッシング方法を用いて、入力文字列の同一コピーを求めて検索する必要があるウインドウ内の可能性のある場所をフィルタする。その後、それらの場所で走査および文字列一致が行なわれる。

Deflateスキームは、データ圧縮用のzlibライブラリにおいて実現される。zlibは、Linux（登録商標）、Mac OS X、iOSといったいくつかのソフトウェアプラットフォーム、およびさまざまなゲーミングコンソールの主要なコンポーネントであるソフトウェアライブラリである。zlibライブラリは、zip（ファイルアーカイビング）、gzip（単一ファイル圧縮）、png（無損失圧縮画像のためのポータブルネットワークグラフィックスフォーマット）、および多くの他のアプリケーションによって使用されるDeflate圧縮および復元コードを提供する。zlibは今や、データ送信および記憶のために幅広く使用されている。サーバおよびブラウザによるほとんどのＨＴＴＰトランザクションは、zlibを用いてデータを圧縮して復元する。同様の実装はデータストレージシステムによってますます使用されつつある。

２０１４年４月にインテル社が発表した「High Performance ZLIB Compression on Intel（登録商標）Architecture Processors」と題された論文は、現在のインテルプロセッサ（コアＩ７４７７０プロセッサ、３．４ＧＨｚ、８ＭＢキャッシュ）上で動作し、かつデータのカルガリーコーパスに対して実行されるzlibライブラリの最適化バージョンの圧縮およびパフォーマンスを特徴化している。zlibで用いられるDeflateフォーマットは、一致用の最小文字列長さを３文字に設定し、最大一致長さを２５６文字に設定し、ウインドウのサイズを３２キロバイトに設定している。この実装は９レベルの最適化についての制御を提供し、レベル９は最高圧縮を提供するが計算の大部分を使用して最も網羅的な文字列の一致を実行し、レベル１は最速レベルであり、貪欲な文字列一致を使用する。この論文は、zlibレベル１（最速レベル）を使用し、シングルスレッドプロセッサを使用し、平均１７．６６クロック／バイトの入力データを消費して、５１％の圧縮率を報告している。３．４ＧＨｚのクロック周波数では、これは、単一のマイクロプロセッサコアを使い果たしつつ１９２ＭＢ／秒の取込速度を意味する。この報告ではさらに、パフォーマンスが、適度な圧縮のゲインのために最適化レベル６を用いると３８ＭＢ／秒の取込速度（平均８８．１クロック／バイト）に、最適化レベル９を用いると１６ＭＢ／秒の取込速度（平均２０９．５クロック／バイト）に急激に低下することが記載されている。

既存のデータ圧縮ソリューションは典型的に、現在のマイクロプロセッサ上でシングルプロセッサコアを用いて１０ＭＢ／秒から２００ＭＢ／秒の範囲の取込速度で動作する。取込速度をさらに高めるためには、複数のコアを使用するか、またはウインドウサイズを減少させる。コストは増加するが、カスタムハードウェアアクセラレータを用いると、取込速度のさらなる向上が達成される。

上記の既存のデータ圧縮法は、典型的に１つのメッセージもしくはファイル、または場合によってはいくつかのファイルのサイズであるローカルウインドウ内の短い文字列および記号のレベルで細かい冗長を利用するのに効果的である。これらの方法は、大型または超大型データセット上で動作し、かつ高速のデータ取込みおよびデータ取出しを必要とするアプリケーションで用いられる場合、重大な制限および欠点がある。

１つの重要な制限は、これらの方法の実際的な実現例が、ローカルウインドウ内でしか冗長を効率的に利用できないことである。これらの実現例は、任意に長いデータの入力ストリームを受付けることができるが、効率のため、細かい冗長を発見すべきウインドウのサイズに制限が課される。これらの方法は高度に計算集約的であり、ウインドウ内のすべてのデータへの頻繁かつ迅速なアクセスを必要とする。さまざまな帳簿構造の文字列一致およびルックアップは、新規な入力文字列を作成する新規な１バイト（またはいくつかのバイト）の入力データを消費するとトリガされる。所望の取込速度を達成するために、文字列一致のためのウインドウおよび関連の機械はほとんどがプロセッサキャッシュサブシステム内に存在している必要があり、これによって実際面でウインドウサイズに制約が課される。

たとえば、シングルプロセッサコア上で２００ＭＢ／秒の取込速度を達成するためには、利用可能な平均タイムバジェット／取込バイト（すべてのデータアクセスおよび計算を含む）は５ｎｓ．であり、つまり、３．４ＧＨｚの動作周波数で現在のプロセッサを用いて１７クロックである。このバジェットは、（少数のサイクルを占める）オンチップキャッシュへのアクセスを収容し、その後、何らかの文字列一致が行なわれる。現在のプロセッサは、数メガバイトの容量のオンチップキャッシュを有する。メインメモリへのアクセスは２００サイクル（〜７０ｎｓ．）を占めるため、ほとんどがメモリ内に存在する大きいウインドウは取込速度をさらに遅くさせる。また、ウインドウサイズが増加するにつれて、かつ重複文字列までの距離が増加するにつれて、逆方向参照の長さを指定するコストも増加するため、重複を求めてより長い文字列のみがより広い範囲全体にわたって検索されることが促進される。

ほとんどの現在のデータストレージシステム上では、ストレージ階層のさまざまな層にわたって記憶されるデータのフットプリントは、システム内のメモリ容量より数桁大きい。たとえば、システムが数百ギガバイトのメモリを提供し得るのに対して、フラッシュストレージ内に存在するアクティブデータのデータフットプリントは数十テラバイトであり得、ストレージシステム内の全データは数百テラバイトから数ペタバイトの範囲であり得る。また、後続のストレージ層へのデータアクセスの達成可能なスループットは、後続の層毎に１桁以上減少する。スライディングウインドウが大きくなり過ぎてメモリに収まらなくなると、これらの技術は、かなり低い帯域幅、およびデータ記憶の次のレベルへのランダムなＩＯ（入力または出力操作）アクセスの高い待ち時間によって抑圧される。

たとえば、既存のデータ内に既に存在しており２５６テラバイトのフットプリントにわたって分散している、たとえば平均長さが４０バイトの１００個の文字列を参照することによって当該データからアセンブルされ得る４キロバイトの受信データのファイルまたはページを考えてみる。各参照には、４０バイトを保存することを約束しつつ、そのアドレスを指定するために６バイト、文字列長さに１バイトを要する。この例で述べるページは５倍よりも大きく圧縮可能であるが、このページについての取込速度は、（これらの文字列が存在する場所を完全にかつ安価に予想できたとしても）１００個の重複文字列をフェッチして検証するのに必要なストレージシステムへの１００回以上のＩＯアクセスによって制限されることになる。２５０，０００回のランダムなＩＯアクセス／秒（４ＫＢのページへの１ＧＢ／秒のランダムアクセスの帯域幅を意味する）を提供するストレージシステムは、ストレージシステムの全帯域幅を使い果たしつつ、わずか１０ＭＢ／秒の取込速度のために毎秒４ＫＢのサイズのそのようなページを２，５００枚しか圧縮できないため、ストレージシステムとして利用不可能である。

テラバイトまたはペタバイトのオーダの大きいウインドウサイズを用いる従来の圧縮法の実現例は、ストレージシステムへのデータアクセスの帯域幅減少によって不足することになり、許容できないほど遅くなる。したがって、これらの技術の実際的な実現例は、プロセッサキャッシュまたはシステムメモリに収まるウインドウサイズに対して、冗長が局所的に存在している場合にのみ冗長を効率的に発見して利用する。冗長データが受信データから空間的にまたは時間的に数テラバイト、ペタバイト、またはエクサバイトだけ離れている場合、これらの実現例は許容可能な速度で冗長を発見することができなくなり、ストレージアクセス帯域幅によって制限される。

従来の方法の別の制限は、それら方法がデータのランダムアクセスに適していないことである。いずれかのブロック内のいずれかのチャンクにアクセスできるようにする前に、圧縮されたウインドウ全体に跨っているデータのブロックを復元しなければならない。これは、ウインドウのサイズに実際的な制限を課す。また、旧来は非圧縮データに対して行なわれる操作（たとえば検索操作）を圧縮データに対して効率的に行なうことができない。

従来の方法（および特にLempel-Zivに基づく方法）のさらに別の制限は、それら方法が、同一文字列を逆方向参照で置換する、１つの次元のみに沿って冗長があるか検索することである。ハフマン再符号化スキームの制限は、周波数を計算して次に再符号化するためにデータを２回通過しなければならないことである。これは、ブロックが大きくなると遅くなる。

データのグローバルストア全体にわたって長い重複文字列を検出するデータ圧縮法は、デジタルフィンガープリンティングとハッシングスキームとの組合せを用いることが多い。この圧縮プロセスはデータ重複排除と称される。データ重複排除の最も基本的な技術は、ファイルを固定サイズのブロックに分割し、データレポジトリ全体にわたって重複ブロックを探す。ファイルのコピーが作成されると、第１のファイル内の各ブロックは第２のファイル内に重複を有することになり、当該重複は元のブロックの参照で置換され得る。潜在的な重複ブロック同士の一致を迅速化するために、ハッシングの方法が使用される。ハッシュ関数は、文字列をそのハッシュ値と称される数値にコンバートする関数である。２つの文字列同士が等しい場合、それらのハッシュ値同士も等しい。ハッシュ関数は複数の文字列を所与のハッシュ値にマップし、これによって長い文字列をはるかに短い長さのハッシュ値に減少させることができる。ハッシュ値同士の一致は、２つの長い文字列同士の一致よりもはるかに速くなる。したがって、ハッシュ値同士の一致がまず行なわれて、重複であり得る可能性のある文字列がフィルタされる。入力文字列またはブロックのハッシュ値が、レポジトリ内に存在する文字列またはブロックのハッシュ値と一致する場合、入力文字列は次に同一のハッシュ値を有するレポジトリ内の各文字列と比較されて重複の存在が確認され得る。

ファイルを固定サイズのブロックに分割することは単純で簡便であり、固定サイズのブロックは高パフォーマンスのストレージシステムにおいて非常に望ましい。しかし、この技術は、それが発見可能な冗長の量に制限があり、つまり、これらの技術は圧縮レベルが低い。たとえば、第１のファイルのコピーが第２のファイルを作成するために作られた場合、１バイトのデータでさえも第２のファイルに挿入されると、すべての下流ブロックの整列が変更され、新たな各ブロックのハッシュ値が新たに計算され、データ重複排除法はすべての重複を見つけることができなくなる。

データ重複排除法におけるこの制限に対処するために、業界では、一致するコンテンツの場所でデータストリームを同期させ整列させるフィンガープリンティングの使用が採用されている。この後者のスキームでは、フィンガープリントに基づいて可変サイズのブロックがもたらされる。Michael Rabinは、ランダムに選択した既約多項式を用いてビット文字列をフィンガープリントできることを示している。たとえば、Michael O. Rabin, "Fingerprinting by Random Polynomials," Center for Research in Computing Technology, Harvard University, TR-15-81, 1981参照。このスキームでは、ランダムに選択された素数ｐを用いて、長い文字列を、大きい整数モジュロｐと見なされるその文字列の剰余を計算することによってフィンガープリントする。このスキームでは、ｋビット整数に対して整数演算を行う必要があり、ここでｋ＝ｌｏｇ₂（ｐ）である。あるいは、オーダｋのランダムな既約素数多項式を用いてもよく、その場合、フィンガープリントは素数多項式のデータモジュロの多項式表現である。

このフィンガープリンティングの方法はデータ重複排除システムにおいて用いられ、チャンク境界を確立すべき好適な位置を特定することによって、当該システムがグローバルレポジトリ内のこれらのチャンクの重複を探すことができる。チャンク境界は、特定値のフィンガープリントが見つかると設定され得る。そのような使用の例として、フィンガープリントは、オーダ３２以下の多項式を使用することによって、入力データ内の４８バイト文字列毎に（入力の最初のバイトで始まり、次いで、その後は連続バイト毎に）計算され得る。次いで、３２ビットフィンガープリントの下位１３ビットを調べて、それら１３ビットの値が予め指定された値（たとえば値１）であるたびにブレークポイントを設定することができる。ランダムデータについては、その１３ビットがその特定値を有する可能性は２¹³分の１であるため、そのようなブレークポイントはおよそ８ＫＢ毎に遭遇する可能性が高く、平均サイズが８ＫＢの可変サイズのチャンクがもたらされる。ブレークポイントまたはチャンク境界は、データのコンテンツに依存するフィンガープリントと効果的に整列することになる。フィンガープリントが長時間見つからない場合、ブレークポイントを何らかの予め指定された閾値で強制することができるので、システムは、レポジトリについて予め指定されたサイズよりも短いチャンクを確実に作成する。たとえば、Athicha Muthitacharoen, Benjie Chen and David Mazieres, "A Low-bandwidth Network File System," SOSP '01, Proceedings of the eighteenth ACM symposium on Operating Systems Principles, 10/21/2001, pp. 174-187参照。

Michael RabinおよびRichard Karpによって開発されたラビン−カープ（Rabin-Karp）文字列一致技術は、フィンガープリンティングおよび文字列一致の効率をさらに向上させた（たとえば、Michael O. Rabin and R. Karp, "Efficient Randomized Pattern-Matching Algorithms," IBM Jour. of Res. and Dev., Vol. 31, 1987, pp. 249-260参照）。なお、そのフィンガープリントについてのｍバイト部分文字列を調べるフィンガープリンティング法は、フィンガープリンティング多項式関数をＯ（ｍ）時間で評価し得る。この方法は、たとえばｎバイト入力ストリームの各バイトで始まる部分文字列に適用される必要があるので、データストリーム全体に対してフィンガープリンティングを行なうのに必要な全労力はＯ（ｎ×ｍ）となる。ラビン−カープはローリングハッシュと称されるハッシュ関数を特定しており、これに対して、部分文字列の長さとは無関係に一定数の演算のみを行なうことによって、前の部分文字列から次の部分文字列のハッシュ値を計算することができる。したがって、右に１バイトシフトした後、新たなｍバイト文字列に対するフィンガープリントの計算を増分的に行なうことができる。これによって、フィンガープリントを計算する労力がＯ（１）に、データストリーム全体をフィンガープリントするための全労力がＯ（ｎ）に、データのサイズと直線的に減少する。これによって、フィンガープリントの計算および識別が大きく迅速化される。

上記のデータ重複排除法についての典型的なデータアクセスおよび計算要件は以下のように説明することができる。所与の入力について、フィンガープリンティングが完了してチャンクが作成されると、当該チャンクのハッシュ値が計算された後、これらの方法はまず、すべてのチャンクのハッシュ値をレポジトリ内に維持するグローバルハッシュテーブルを検索してルックアップするために、メモリおよび後続のストレージ層への１セットのアクセスを必要とする。これは典型的に、ストレージへの１回目のＩＯアクセスを必要とする。ハッシュテーブル内に一致があると、続いて２回目の一組のストレージＩＯ（典型的に１回であるが、同一のハッシュ値を有するチャンクがどのくらいレポジトリ内に存在するかに依存して２回以上であり得る）が行われて、同一のハッシュ値を有する実際のデータチャンクがフェッチされる。最後に、バイト単位の一致が行われ、入力されたチャンクがフェッチされた潜在的に一致するチャンクと比較されて重複が確認され識別される。この後、新たな重複ブロックをオリジナルの参照で置換するための（メタデータ空間への）３回目のストレージＩＯアクセスが行なわれる。グローバルハッシュテーブル内に一致がない場合（または重複が見つからない場合）、システムは、新たなブロックをレポジトリに入力するために１回のＩＯ、およびグローバルハッシュテーブルを更新して新たなハッシュ値を入力するためにさらにもう１回のＩＯを必要とする。ゆえに、大型データセットについては（メタデータおよびグローバルハッシュテーブルがメモリに収まらず、したがってそれらにアクセスするためにストレージＩＯを必要とする場合）、そのようなシステムは入力チャンク毎に平均３回のＩＯを必要とし得る。グローバルハッシュテーブルにアクセスするための１回目のストレージＩＯを必要とせずにグローバルハッシュテーブル内の欠落を頻繁に検出できるようにさまざまなフィルタを使用して、チャンクのうちのいくつかを処理するのに必要なＩＯの回数を２回にまで削減することによって、さらなる向上が可能である。

２５０，０００回のランダムＩＯアクセス／秒（４ＫＢのページへの１ＧＢ／秒のランダムアクセスの帯域幅を意味する）を提供するストレージシステムは、毎秒４ＫＢの平均サイズの約８３,３３３個（入力チャンク毎に３回のＩＯで分割される２５０，０００個）の入力チャンクを取込んで重複排除することによって、ストレージシステムの全帯域幅を使い果たしつつ３３３ＭＢ／秒の取込速度を可能にする。ストレージシステムの帯域幅の半分のみが用いられる（したがって残りの半分は記憶データへのアクセスに利用可能である）場合も、そのような重複排除システムはやはり１６６ＭＢ／秒の取込速度を提供可能である。これらの取込速度（Ｉ／Ｏ帯域幅によって制限される）は、十分な処理能力がシステムで利用可能であるという条件で達成可能である。ゆえに、十分な処理能力を前提として、データ重複排除システムは、無駄のないＩＯでデータのグローバルスコープ全体にわたってデータの大きい重複を見つけることができ、現在のストレージシステムに対して数百メガバイト／秒の取込速度でデータ削減を提供することができる。

上記の説明に基づいて、これらの重複排除法はグローバルスコープ全体にわたって長い文字列の重複を見つけるのに効果的であるが、それらは主に大きい重複を見つけるのに効果的であることが明確であるべきである。より細かくデータに変形または変更がある場合は、利用可能な冗長はこの方法を用いて見つけられない。これによって、これらの方法が有用なデータセットの幅が大きく減少する。これらの方法は、たとえば、バックアップ中の新たなデータが変更されるファイルをほんのわずかしか有しておらず、残りはすべて以前のバックアップで保存されたファイルの重複である、定期的なデータのバックアップなどの、一定のデータストレージシステムおよびアプリケーションに使用されている。同様に、データ重複排除に基づくシステムは、データセンタにおける仮想環境といった、データまたはコードの複数の完全なコピーが作られる環境でデプロイされることが多い。しかし、データが発展して、より一般的にまたはより細かく変更されるにつれて、データ重複排除に基づく技術はその有効性が失われつつある。

いくつかのアプローチ（通常はデータバックアップアプリケーションで使用される）では、入力データと入力のハッシュ値と一致するハッシュ値を有する文字列との間の実際のバイト単位の比較が行なわれない。そのようなソリューションは、ＳＨＡ−１などの強いハッシュ関数を用いて低い衝突可能性に依拠する。しかし、（複数の異なる文字列同士が同一のハッシュ値にマップし得る）衝突の有限のゼロでない可能性のため、そのような方法は無損失データ削減を提供すると見なすことができず、したがって、プライマリストレージおよび通信の高いデータ完全性要件を満たさない。

いくつかのアプローチでは、複数の既存のデータ圧縮技術同士が組合される。典型的に、そのようなセットアップでは、まずグローバルデータ重複排除法がデータに適用される。続いて、重複排除されたデータセットに対して、小さいウインドウを使用して、ハフマン再符号化と組合されたLempel-Ziv文字列圧縮法が適用されてさらなるデータ削減が達成される。

しかし、これまでに知られているすべての技術の利用にも係わらず、増加して蓄積されるデータの必要性と、世界経済が最良の利用可能な現代のストレージシステムを用いて手軽に収容できるものとの間には桁違いの大きさのギャップが存在し続けている。増加するデータが要求する記憶容量の並外れた要件を考慮すると、データのフットプリントをさらに削減する改良された方法が必要であり続けている。既存の技術の制限に対処する、または既存の技術が対処していない次元に沿ったデータ内の利用可能な冗長を利用する方法を開発することが必要であり続けている。同時に、許容可能な速度で、かつ許容可能な処理コストで効率的にデータにアクセスしてデータを取出すことが可能であることも重要であり続けている。

要約すると、大型および超大型データセット全体にわたって冗長を利用し、高速のデータ取込みおよびデータ取出しを提供することができる無損失データ削減ソリューションが長年にわたって切実に求められ続けている。

概要
本明細書に記載の実施形態は、高速のデータ取込みおよびデータ取出しを提供しつつ、大型および超大型データセットに対する無損失データ削減を実行可能な、かつ既存のデータ圧縮システムの欠点および制限を受けない技術およびシステムを特徴とする。

具体的には、いくつかの実施形態は、データチャンクに基づいて１つ以上の基本データエレメントを識別し得、上記識別することは、データチャンクのコンテンツを用いて、基本データエレメントのコンテンツに基づいて基本データエレメントを組織化するデータ構造内をナビゲートすることを含む。次に、当該実施形態は、再構成プログラムを１つ以上の基本データエレメントに適用することによってデータチャンクが再構成され得るように、データチャンクおよび識別された１つ以上の基本データエレメントに基づいて上記再構成プログラムを決定し得る。当該実施形態は次に、データチャンクの無損失削減表現を生成し得、無損失削減表現は、識別された１つ以上の基本データエレメント内の各基本データエレメントの参照と、再構成プログラムの記述とを含む。

入力データセットは、構造の１つ以上のコンポーネントに基づいて入力データセットに対して検索を行なうことを可能にする構造を有し得る。本明細書に記載のいくつかの実施形態は、入力データセットの構造を認識することができる。当該実施形態は次に、構造の１つ以上のコンポーネントに基づいて、削減されたデータセットに対して検索を行なうことができるように、入力データセットの構造のコンポーネントを用いて基本データエレメントを組織化し得る。

いくつかの実施形態は、基本データエレメントを組織化するデータ構造から、データ構造（上記データ構造は基本データストアと称される）に提示される入力クエリ内の一定のフィールドまたは次元の値に基づいて、基本データエレメントについてのメタデータの参照、または基本データエレメントについてのメタデータ、または基本データエレメントのいずれかを、コンテンツ連想的に取出し得る。基本データエレメントごとに、基本データストアは、基本データエレメントを参照する各チャンクの無損失削減表現の逆方向参照を保持し得る。これによって、基本データストアのコンテンツ連想検索に基づくデータチャンクの取出しが可能になる。ゆえに、データが無損失削減形態にある間にデータのコンテンツ連想検索および取出しを行なうことができる。

いくつかの実施形態は、データチャンクをスキャンしてデータチャンク内のキーワードを検出し、次にデータチャンク内に見つかったキーワードについての逆索引を維持し得、そのような索引は、キーワード毎に、当該キーワードを含む各チャンクの無損失削減表現の参照を含む。これによって、データチャンクが削減形態で記憶されている間にデータチャンクをキーワードで検索することができる。

本明細書に記載のいくつかの実施形態に従う、入力データをエレメントに因子分解し、これらを基本データストア内に存在している基本データエレメントから導出するデータ削減のための方法および装置を示す図である。本明細書に記載のいくつかの実施形態に従う、図１Ａに示す方法および装置の変形を示す図である。本明細書に記載のいくつかの実施形態に従う、図１Ａに示す方法および装置の変形を示す図である。本明細書に記載のいくつかの実施形態に従う、図１Ａに示す方法および装置の変形を示す図である。本明細書に記載のいくつかの実施形態に従う、図１Ａに示す方法および装置の変形を示す図である。本明細書に記載のいくつかの実施形態に従う、図１Ａに示す方法および装置の変形を示す図である。本明細書に記載のいくつかの実施形態に従う、図１Ａに示す方法および装置の変形を示す図である。本明細書に記載のいくつかの実施形態に従う、蒸留データの構造を記述するフォーマットおよび仕様の例を提示する図である。図１Ａから図１Ｇに示すデータ削減のための方法および装置の変形についての入力データの無損失削減形態への概念的な変換を示す図である。図１Ａから図１Ｇに示すデータ削減のための方法および装置の変形についての入力データの無損失削減形態への概念的な変換を示す図である。図１Ａから図１Ｇに示すデータ削減のための方法および装置の変形についての入力データの無損失削減形態への概念的な変換を示す図である。図１Ａから図１Ｇに示すデータ削減のための方法および装置の変形についての入力データの無損失削減形態への概念的な変換を示す図である。図１Ａから図１Ｇに示すデータ削減のための方法および装置の変形についての入力データの無損失削減形態への概念的な変換を示す図である。図１Ａから図１Ｇに示すデータ削減のための方法および装置の変形についての入力データの無損失削減形態への概念的な変換を示す図である。図１Ａから図１Ｇに示すデータ削減のための方法および装置の変形についての入力データの無損失削減形態への概念的な変換を示す図である。図１Ａから図１Ｇに示すデータ削減のための方法および装置の変形についての入力データの無損失削減形態への概念的な変換を示す図である。本明細書に記載のいくつかの実施形態に従う、入力データをエレメントに因子分解し、これらエレメントを基本データストア内に存在する基本データエレメントから導出することによるデータ削減のためのプロセスを示す図である。本明細書に記載のいくつかの実施形態に従う、基本データエレメントをそれらの名前に基づいて組織化するために用いられ得るデータ組織システムを示す図である。本明細書に記載のいくつかの実施形態に従う、基本データエレメントをそれらの名前に基づいて組織化するために用いられ得るデータ組織システムを示す図である。本明細書に記載のいくつかの実施形態に従う、基本データエレメントをそれらの名前に基づいて組織化するために用いられ得るデータ組織システムを示す図である。本明細書に記載のいくつかの実施形態に従う、基本データエレメントをそれらの名前に基づいて組織化するために用いられ得るデータ組織システムを示す図である。本明細書に記載のいくつかの実施形態に従う、基本データエレメントをそれらの名前に基づいて組織化するために用いられ得るデータ組織システムを示す図である。本明細書に記載のいくつかの実施形態に従う自己記述ツリーノードデータ構造を提示する図である。本明細書に記載のいくつかの実施形態に従う自己記述リーフノードデータ構造を提示する図である。本明細書に記載のいくつかの実施形態に従うナビゲーションルックアヘッドフィールドを含む自己記述リーフノードデータ構造を提示する図である。本明細書に記載のいくつかの実施形態に従う、２５６ＴＢの基本データがどのようにツリー形態に組織化され得るかの例を示し、当該ツリーがどのようにメモリおよびストレージ内にレイアウトされ得るかを提示する図である。本明細書に記載の実施形態を用いてデータがどのように組織化され得るかの実際の例を示す図である。本明細書に記載の実施形態を用いてデータがどのように組織化され得るかの実際の例を示す図である。本明細書に記載の実施形態を用いてデータがどのように組織化され得るかの実際の例を示す図である。本明細書に記載のいくつかの実施形態に従う、図１Ａを参照して説明したコンテンツ連想マッパーについてツリーデータ構造がどのように使用され得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、図１Ｂを参照して説明したコンテンツ連想マッパーについてツリーデータ構造がどのように使用され得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、図１Ｃを参照して説明したコンテンツ連想マッパーについてツリーデータ構造がどのように使用され得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、再構成プログラム内に指定され得る変換の例を提供する図である。本明細書に記載のいくつかの実施形態に従う、基本データエレメントから導出されている候補エレメントの結果の例を示す図である。本明細書に記載のいくつかの実施形態に従う、入力データを固定サイズのエレメントに因子分解し、当該エレメントを図３Ｄおよび図３Ｅを参照して説明したツリーデータ構造に組織化することによって、どのようにデータ削減が実行され得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、入力データを固定サイズのエレメントに因子分解し、当該エレメントを図３Ｄおよび図３Ｅを参照して説明したツリーデータ構造に組織化することによって、どのようにデータ削減が実行され得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、入力データを固定サイズのエレメントに因子分解し、当該エレメントを図３Ｄおよび図３Ｅを参照して説明したツリーデータ構造に組織化することによって、どのようにデータ削減が実行され得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、入力データを固定サイズのエレメントに因子分解し、当該エレメントを図３Ｄおよび図３Ｅを参照して説明したツリーデータ構造に組織化することによって、どのようにデータ削減が実行され得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、入力データを固定サイズのエレメントに因子分解し、当該エレメントを図３Ｄおよび図３Ｅを参照して説明したツリーデータ構造に組織化することによって、どのようにデータ削減が実行され得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、図１Ｃに示すシステムに基づくData Distillation（商標）スキームの例を示す図である。本明細書に記載のいくつかの実施形態に従う、図１Ｃに示すシステムに基づくData Distillation（商標）スキームの例を示す図である。本明細書に記載のいくつかの実施形態に従う、図１Ｃに示すシステムに基づくData Distillation（商標）スキームの例を示す図である。本明細書に記載のいくつかの実施形態に従う、再構成プログラム内に指定された変換がどのように基本データエレメントに適用されて導出エレメントをもたらすかの例を提供する図である。本明細書に記載のいくつかの実施形態に従うデータ取出しプロセスを示す図である。本明細書に記載のいくつかの実施形態に従うデータ取出しプロセスを示す図である。本明細書に記載のいくつかの実施形態に従う、Data Distillation（商標）メカニズム（ソフトウェア、ハードウェア、またはそれらの組合せを用いて実現され得る）を含むシステムを示す図である。本明細書に記載のいくつかの実施形態に従う、Data Distillation（商標）メカニズム（ソフトウェア、ハードウェア、またはそれらの組合せを用いて実現され得る）を含むシステムを示す図である。本明細書に記載のいくつかの実施形態に従う、Data Distillation（商標）装置がどのようにサンプル汎用計算プラットフォームとインターフェイスし得るかを示す図である。 Data Distillation（商標）装置がブロック処理ストレージシステムにおけるデータ削減にどのように用いられ得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、帯域幅が制約された通信媒体全体にわたるデータの通信のためのData Distillation（商標）装置の使用を示す図である。本明細書に記載のいくつかの実施形態に従う、帯域幅が制約された通信媒体全体にわたるデータの通信のためのData Distillation（商標）装置の使用を示す図である。本明細書に記載のいくつかの実施形態に従う、さまざまな使用モデルについてData Distillation（商標）装置によって生成される削減データのさまざまなコンポーネントを示す図である。本明細書に記載のいくつかの実施形態に従う、さまざまな使用モデルについてData Distillation（商標）装置によって生成される削減データのさまざまなコンポーネントを示す図である。本明細書に記載のいくつかの実施形態に従う、さまざまな使用モデルについてData Distillation（商標）装置によって生成される削減データのさまざまなコンポーネントを示す図である。本明細書に記載のいくつかの実施形態に従う、さまざまな使用モデルについてData Distillation（商標）装置によって生成される削減データのさまざまなコンポーネントを示す図である。本明細書に記載のいくつかの実施形態に従う、さまざまな使用モデルについてData Distillation（商標）装置によって生成される削減データのさまざまなコンポーネントを示す図である。本明細書に記載のいくつかの実施形態に従う、さまざまな使用モデルについてData Distillation（商標）装置によって生成される削減データのさまざまなコンポーネントを示す図である。本明細書に記載のいくつかの実施形態に従う、さまざまな使用モデルについてData Distillation（商標）装置によって生成される削減データのさまざまなコンポーネントを示す図である。本明細書に記載のいくつかの実施形態に従う、さまざまな使用モデルについてData Distillation（商標）装置によって生成される削減データのさまざまなコンポーネントを示す図である。本明細書に記載のいくつかの実施形態に従う、さまざまな使用モデルについてData Distillation（商標）装置によって生成される削減データのさまざまなコンポーネントを示す図である。本明細書に記載のいくつかの実施形態に従う、蒸留プロセスが非常に大型のデータセットを超高速の取込速度で収容できるようにどのように分散システム上にデプロイおよび実行され得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、蒸留プロセスが非常に大型のデータセットを超高速の取込速度で収容できるようにどのように分散システム上にデプロイおよび実行され得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、蒸留プロセスが非常に大型のデータセットを超高速の取込速度で収容できるようにどのように分散システム上にデプロイおよび実行され得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、蒸留プロセスが非常に大型のデータセットを超高速の取込速度で収容できるようにどのように分散システム上にデプロイおよび実行され得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、蒸留プロセスが非常に大型のデータセットを超高速の取込速度で収容できるようにどのように分散システム上にデプロイおよび実行され得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、削減データに対して多次元検索およびデータ取出しがどのように行なわれ得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、削減データに対して多次元検索およびデータ取出しが削減データに対してどのように行なわれ得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、削減データに対して多次元検索およびデータ取出しが削減データに対してどのように行なわれ得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、削減データに対して多次元検索およびデータ取出しが削減データに対してどのように行なわれ得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、削減データに対して多次元検索およびデータ取出しが削減データに対してどのように行なわれ得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、削減データに対して多次元検索およびデータ取出しが削減データに対してどのように行なわれ得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、削減データに対して多次元検索およびデータ取出しが削減データに対してどのように行なわれ得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、削減データに対して多次元検索およびデータ取出しが削減データに対してどのように行なわれ得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、削減データに対して多次元検索およびデータ取出しが削減データに対してどのように行なわれ得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、削減データに対して多次元検索およびデータ取出しが削減データに対してどのように行なわれ得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、削減データに対して多次元検索およびデータ取出しが削減データに対してどのように行なわれ得るかを示す図である。本明細書に記載のいくつかの実施形態に従う、削減データに対して多次元検索およびデータ取出しが削減データに対してどのように行なわれ得るかを示す図である。ＭＰＥＧ１、Ｌａｙｅｒ３規格（ＭＰ３とも称される）に従って音声データを圧縮および復号するためのエンコーダおよびデコーダのブロック図を示す。ＭＰＥＧ１、Ｌａｙｅｒ３規格（ＭＰ３とも称される）に従って音声データを圧縮および復号するためのエンコーダおよびデコーダのブロック図を示す。図１Ａに最初に示したデータ蒸留装置がどのように改良されてＭＰ３データに対してデータ削減を実行し得るかを示す図である。

詳細な説明
以下の説明は、当業者が本発明を行って用いることができるように提示されており、特定の用途およびその要件の文脈において提供されている。開示される実施形態に対するさまざまな変更が当業者に容易に明らかとなり、本明細書に定義される一般原理は本発明の精神および範囲から逸脱することなく他の実施形態および用途にも適用され得る。ゆえに、本発明は示される実施形態に限定されず、本明細書に開示される原理および特徴と一致した最も広範な範囲が与えられる。本開示において、ある語句が「および／または」という語を一組のエンティティとともに用いる場合、当該語句は特に記載のない限りその一組のエンティティのすべての可能性のある組合せを包含する。たとえば、「Ｘ、Ｙ、および／またはＺ」という語句は、「Ｘのみ」、「Ｙのみ」、「Ｚのみ」、「Ｚを含まないＸおよびＹ」、「Ｙを含まないＸおよびＺ」、「Ｘを含まないＹおよびＺ」、ならびに「Ｘ、Ｙ、およびＺ」の７個の組合せを包含する。

コンテンツ連想シーブを用いたデータの効率的な無損失削減
本明細書に記載のいくつかの実施形態では、データセット全体にわたってグローバルに冗長を効率的に発見して利用するようにデータが組織化されて記憶される。入力データストリームはエレメントと称される構成片またはチャンクに分割され、エレメント同士間の冗長がエレメント自体よりも細かく検出され利用されることによって、記憶データのフットプリント全体が削減される。基本データエレメントと称される一組のエレメントが識別されてデータセットのための共通および共有のビルディングブロックとして用いられ、基本データストアまたはシーブと称される構造に記憶される。基本データエレメントは単に、一定サイズのビット、バイト、または桁のシーケンスである。基本データエレメントは、実現例に依存して固定サイズであってもよく、または可変サイズであってもよい。入力データの他の構成要素が基本データエレメントから導出されて導出エレメント（Derivative Element）と称される。ゆえに、入力データは基本データエレメントおよび導出エレメントに因子分解される。

基本データストアは、基本データストアをコンテンツ連想的に検索してアクセスできるように、基本データエレメントを順序付けて組織化する。何らかの入力コンテンツを前提として、いくつかの制限を伴い、基本データストアに問合わせて、そのコンテンツを含む基本データエレメントを取出すことができる。入力エレメントを前提として、当該エレメントの値、または当該エレメント内の一定のフィールドの値を用いて基本データストアを検索して、１つのまたは小さい一組の基本データエレメントを迅速に提供することができ、そこから、導出を指定するのに必要な最小ストレージで入力エレメントを導出することができる。いくつかの実施形態では、基本データストア内のエレメントはツリー形態に組織化される。基本データエレメントに対して変換を実行することによって基本データエレメントから導出エレメントが導出され、そのような変換は、１つ以上の基本データエレメントから導出エレメントをどのように生成するかを記述する再構成プログラム内に指定されている。距離閾値が、導出エレメントの記憶フットプリントのサイズに対する制限を指定する。この閾値は、基本データエレメントからの導出エレメントの最大許容距離を指定し、また、導出エレメントを生成するために用いられ得る再構成プログラムのサイズに制限を課す。

導出データの取出しは、導出によって指定される１つ以上の基本データエレメントに対して再構成プログラムを実行することによって達成される。

本開示では、上記の汎用無損失データ削減技術はData Distillation（商標）プロセスと称され得る。これは、化学の蒸留と同様の、混合物をその構成要素に分離する機能を果たす。基本データストアは、シーブまたはData Distillation（商標）シーブとも称される。

このスキームでは、入力データストリームはエレメントのシーケンスに因子分解され、各エレメントは、基本データエレメント、または１つ以上の基本データエレメントから導出される導出エレメントである。各エレメントは無損失削減表現に変換され、これは、基本データエレメントの場合は基本データエレメントの参照を含み、導出エレメントの場合は、導出に伴う１つ以上の基本データエレメントの参照と、再構成プログラムの記述とを含む。ゆえに、入力データストリームは、無損失削減表現内にあるエレメントのシーケンスに因子分解される。この（無損失削減表現内に現われる）エレメントのシーケンスは、蒸留データストリームまたは蒸留データと称される。蒸留データ内のエレメントのシーケンスは、入力データ内のエレメントのシーケンスと１対１の対応関係を有しており、すなわち、蒸留データ内のエレメントのシーケンス内のｎ番目のエレメントは、入力データ内のエレメントのシーケンス内のｎ番目のエレメントに対応する。

本開示に記載の汎用無損失データ削減技術は、入力データストリームを受信し、蒸留データストリームおよび基本データストアのフットプリントの合計が入力データストリームのフットプリントよりも通常は小さいように、入力データストリームを蒸留データストリームと基本データストアとの組合せにコンバートする。本開示では、蒸留データストリームおよび基本データストアは無損失削減データと総称され、同じ意味で「削減データストリーム」または「削減データ」とも称される。同様に、本開示に記載の無損失データ削減技術によって生成され、かつ無損失削減フォーマットで現われるエレメントのシーケンスについて、「削減出力データストリーム」、「削減出力データ」、「蒸留データストリーム」、および「蒸留データ」という語は同じ意味で用いられる。

図１Ａは、本明細書に記載のいくつかの実施形態に従う、入力データをエレメントに因子分解し、これらを基本データストア内に存在している基本データエレメントから導出するデータ削減のための方法および装置を示す。この図はデータ削減またはData Distillation（商標）方法および装置の全体ブロック図を示しており、機能コンポーネント、構造、および演算の概要を提供している。図１Ａに示すコンポーネントおよび／または演算はソフトウェア、ハードウェア、またはそれらの組合せを用いて実現され得る。

バイトのシーケンスが入力データストリームから受信され、Data Distillation（商標）装置とも称されるデータ削減装置１０３に入力データ１０２として提示される。パーサおよび因子分解部１０４が受信データをパースし、当該データをチャンクまたは候補エレメントに分割する。因子分解部は、入力ストリーム内のどこにブレークを挿入してストリームを候補エレメントにスライスアップするかを決定する。データ内の連続する２つのブレークが識別されると、候補エレメント１０５がパーサおよび因子分解部によって作成され、Data Distillation（商標）シーブとも称される基本データストア１０６に提示される。

Data Distillation（商標）シーブまたは基本データストア１０６は、（図１ＡにおいてＰＤＥとラベル付けされている）すべての基本データエレメントを含んでおり、それらの値またはコンテンツに基づいてそれらを順序付けて組織化する。シーブは２種類のアクセスのサポートを提供する。第１に、基本データエレメントの各々には、基本データエレメントがシーブ内に存在する場所の参照によって、直接アクセス可能である。第２に、エレメントには、ソフトウェア、ハードウェア、またはそれらの組合せで実現され得るコンテンツ連想マッパー１２１を用いることによって、コンテンツ連想的にアクセス可能である。シーブへのこの第２のアクセス形態は、候補エレメント１０５と完全に一致する基本データエレメントを識別するために、または、候補エレメントをそこから導出可能な基本データエレメントを識別するために、開示される実施形態によって用いられる重要な特徴である。具体的には、たとえば候補エレメント１０５などの候補エレメントを前提として、基本データストア１０６を（候補エレメント１０５の値に基づいて、または候補エレメント１０５内の一定のフィールドの値に基づいて）検索して、１つのまたは小さい一組の基本データエレメント１０７を迅速に提供することができ、そこから、導出を指定するのに必要な最小ストレージで候補エレメントを導出することができる。

シーブまたは基本データストア１０６は、その値がデータ空間にわたって分散している一組の基本データエレメントで初期化され得る。あるいは、シーブは空で開始してもよく、図１Ａ〜図１Ｃおよび図２を参照して本明細書に記載されるData Distillation（商標）プロセスに従って、データが取込まれるにつれて基本データエレメントがシーブに動的に追加されてもよい。

導出部１１０は、候補エレメント１０５と、（基本データストア１０６からコンテンツ連想的に取出されるコンテンツである）導出に好適な取出された基本データエレメント１０７とを受信し、候補エレメント１０５がこれらの基本データエレメントの１つ以上から導出可能であるか否かを判断し、削減されたデータコンポーネント１１５（関連の基本データエレメントの参照および再構成プログラムで構成される）を生成し、基本データストアに更新１１４を提供する。候補エレメントが、取出された基本データエレメントの重複である場合、導出部は、基本データストア内にある基本データエレメントの参照（またはポインタ）と、これが基本データエレメントであるというインジケータとを、蒸留データ１０８に入れる。重複が見つからない場合、導出部は、候補エレメントを、１つ以上の取出された基本データエレメントに対して実行された１つ以上の変換の結果として表現し、この一連の変換は、たとえば再構成プログラム１１９Ａなどの再構成プログラムと総称される。各導出では、その固有のプログラムを導出部によって構築する必要があり得る。再構成プログラムは、基本データエレメントに適用可能な挿入、削除、置換、連結、算術、および論理演算といった変換を指定する。導出エレメントのフットプリント（再構成プログラムのサイズに、必要な基本データエレメントの参照のサイズを加えたものとして計算される）が（データ削減を可能にするための）候補エレメントに関して一定の指定された距離閾値内にあるという条件で、候補エレメントは導出エレメントとして再公式化され、再構成プログラムと１つの（または複数の）関連の基本データエレメントの参照との組合せで置換され、この場合、これらは削減されたデータコンポーネント１１５を形成する。閾値を超えた場合、または基本データストアから好適な基本データエレメントが取出されなかった場合、基本データストアは候補を新規な基本データエレメントとしてインストールするように指示され得る。この場合、導出部は、新たに追加された基本データエレメントの参照と、さらに、これが基本データエレメントであるというインジケータとを蒸留データに入れる。

データの取出し要求（たとえば取出し要求１０９）は、基本データエレメントを含む基本データストア内の場所の参照の形態、または、導出物（Derivative）の場合には、基本データエレメントのそのような参照と、関連付けられた再構成プログラムとの組合せ（または複数の基本データエレメントに基づく導出物の場合は、複数の基本データエレメントの参照と、関連付けられた再構成プログラムとの組合せ）の形態であり得る。基本データストア内の基本データエレメントの１つ以上の参照を用いて、取出部１１１は基本データストアにアクセスして１つ以上の基本データエレメントをフェッチし、１つ以上の基本データエレメントおよび再構成プログラムを再構成部１１２に与えることができ、再構成部１１２は、（再構成プログラム内に指定されている）変換を１つ以上の基本データエレメントに対して実行して再構成データ１１６（要求されたデータ）を生成し、それをデータ取出し要求に応答して取出されたデータ出力１１３に供給する。

本実施形態の変形では、基本データエレメントは、（ハフマン符号化およびLempel Ziv法を含む先行技術において公知の技術を用いて）圧縮形態でシーブに記憶され、必要に応じて復元されてもよい。これには、基本データストアのフットプリント全体を削減するという利点がある。唯一の制約は、コンテンツ連想マッパー１２１が、前と同様に基本データエレメントへのコンテンツ連想アクセスを提供し続けなければならないことである。

図１Ｂおよび図１Ｃは、本明細書に記載のいくつかの実施形態に従う、図１Ａに示す方法および装置の変形を示す。図１Ｂでは、再構成プログラムは基本データストアに記憶されて基本データエレメントと同様に取扱われ得る。再構成プログラム１１９Ａ自体を提供する代わりに、再構成プログラムの参照またはポインタ１１９Ｂが蒸留データ１０８内に提供される。再構成プログラムが他の導出物によって共有される場合、および、再構成プログラムの参照またはポインタ（さらに、再構成プログラムと再構成プログラムの参照とを区別するために必要な任意のメタデータを加えたもの）のストレージスペースが再構成プログラム自体よりも小さくて済む場合、さらなるデータ削減が達成される。

図１Ｂでは、再構成プログラムは基本データエレメントと同様に取扱われてアクセスされ、基本データエレメントとして基本データストアに記憶されることによって、基本データストアからの再構成プログラムのコンテンツ連想検索および取出しが可能になり得る。導出エレメントを作成する導出プロセスの際、導出部１１０が導出に必要な再構成プログラムを決定すると、導出部１１０は次いで、この候補再構成プログラムが基本データストア内に既に存在しているか否か、またはこの候補再構成プログラムが基本データストア内に既に存在している別のエントリから導出可能であるか否かを判断し得る。候補再構成プログラムが基本データストア内に既に存在している場合は、導出部１１０は既存のエントリの参照を決定し、当該参照を蒸留データ１０８に含めることができる。候補再構成プログラムが基本データストア内に既に存在している既存のエントリから導出可能である場合、導出部は候補再構成プログラムの導出物または再公式化を蒸留データに供給し得、すなわち、導出部は、基本データストア内に予め存在しているエントリの参照を、この予め存在しているエントリから候補再構成プログラムを導出する増分的な再構成プログラムとともに、蒸留データに入れる。候補再構成プログラムが基本データストア内に存在しておらず、基本データストアへのエントリからも導出不可能である場合は、導出部１１０は再構成プログラムを基本データストアに追加し（再構成プログラムをストアに追加する演算は、新たに追加されたエントリの参照を戻し得る）、再構成プログラムの参照を蒸留データ１０８に含めることができる。

図１Ｃは、本明細書に記載のいくつかの実施形態に従う、図１Ｂに示す方法および装置の変形を提示する。具体的には、再構成プログラムを記憶して再構成プログラムに問合せるために用いられる図１Ｃのメカニズムは、基本データエレメントを記憶して基本データエレメントに問合せるために用いられるメカニズムと同様であるが、再構成プログラムは、基本データエレメントを含む構造とは別の構造内に維持される。そのような構造へのエントリは、基本再構成プログラム（図１ＣにおいてＰＲＰとラベル付けされている）と称される。基本データストア１０６は、迅速なコンテンツ連想ルックアップ操作をサポートするコンテンツ連想マッパー１２１を含んでいることを思い起こされたい。図１Ｃに示す実施形態は、コンテンツ連想マッパー１２１と同様のコンテンツ連想マッパー１２２を含む。図１Ｃでは、コンテンツ連想マッパー１２２およびコンテンツ連想マッパー１２１は基本データストアまたはシーブ１０６の一部であるとして示されている。他の実施形態では、コンテンツ連想マッパー１２２および再構成プログラムは、基本データストアまたはシーブ１０６とは別に記憶されてもよい。

本実施形態の変形では、基本データエレメントは、（ハフマン符号化およびLempel Ziv法を含む先行技術において公知の技術を用いて）圧縮形態でシーブに記憶され、必要に応じて復元されてもよい。同様に、基本再構成プログラムは、（ハフマン符号化およびLempel Ziv法を含む先行技術において公知の技術を用いて）圧縮形態で基本再構成プログラムシーブに記憶され、必要に応じて復元されてもよい。これには、基本データシーブおよび基本再構成プログラムシーブのフットプリント全体を削減するという利点がある。唯一の制約は、コンテンツ連想マッパー１２１および１２２が、前と同様に基本データエレメントおよび基本再構成プログラムへのコンテンツ連想アクセスを提供し続けなければならないことである。

図１Ｄは、本明細書に記載のいくつかの実施形態に従う、図１Ａに示す方法および装置の変形を提示する。具体的には、図１Ｄに記載の実施形態では、基本データエレメントは蒸留データ内にインラインに記憶されている。基本データシーブまたは基本データストア１０６は基本データエレメントへのコンテンツ連想アクセスを提供し続け、基本データエレメントを論理的に包含し続ける。それは、蒸留データ内にインラインに配置されている基本データエレメントの参照またはリンクを維持する。たとえば、図１Ｄでは、基本データエレメント１３０は蒸留データ１０８内にインラインに配置されている。基本データシーブまたは基本データストア１０６は基本データエレメント１３０の参照１３１を維持する。ここでも、このセットアップにおいて、導出エレメントの無損失削減表現は、必要な基本データエレメントの参照を含む。データ取出し時、取出部１１１は、必要な基本データエレメントをその配置場所からフェッチする。

図１Ｅは、本明細書に記載のいくつかの実施形態に従う、図１Ｄに示す方法および装置の変形を提示する。具体的には、図１Ｅに記載の実施形態では、図１Ｂに示すセットアップと同様に、再構成プログラムが他の基本再構成プログラムから導出され、増分再構成プログラムに基本再構成プログラムの参照を加えたものとして指定され得る。そのような基本再構成プログラムは基本データエレメントと同様に取扱われ、基本データシーブに論理的にインストールされる。さらに、このセットアップでは、基本データエレメントおよび基本再構成プログラムの両方が蒸留データ内にインラインに記憶される。基本データシーブまたは基本データストア１０６は、基本データエレメントおよび基本再構成プログラムへのコンテンツ連想アクセスを提供し続け、これら基本データエレメントおよび基本再構成プログラムを、それらが蒸留データ内にインラインに配置されている場所の参照またはリンクを維持しつつ、論理的に包含し続ける。たとえば、図１Ｅでは、基本データエレメント１３０は蒸留データ１０８内にインラインに配置されている。また図１Ｅでは、基本再構成プログラム１３２は蒸留データ内にインラインに配置されている。基本データシーブまたは基本データストア１０６は、基本データエレメント１３０（PDE_i）の参照１３１（Reference_to_PDE_i）、および基本再構成プログラム１３２（Prime_Recon_Program_l）の参照１３３（Reference_to_PDE_k）を維持する。ここでも、このセットアップにおいて、導出エレメントの無損失削減表現は、必要な基本データエレメントおよび必要な基本再構成プログラムの参照を含む。データ取出しの際、取出部１１１は、必要なコンポーネントを、対応する蒸留データ内のそれらの配置場所からフェッチする。

図１Ｆは、本明細書に記載のいくつかの実施形態に従う、図１Ｅに示す方法および装置の変形を提示する。具体的には、図１Ｆに記載の実施形態では、図１Ｃに示すセットアップと同様に、基本データシーブ１０８は別個のマッパー、すなわち、基本データエレメントのためのコンテンツ連想マッパー１２１、および基本再構成プログラムのためのコンテンツ連想マッパー１２２を含む。

図１Ｇは、図１Ａから図１Ｆに示す方法および装置のより一般化した変形を提示する。具体的には、図１Ｇに記載の実施形態では、基本データエレメントは基本データシーブ内に、または蒸留データ内にインラインに配置され得る。いくつかの基本データエレメントは基本データシーブ内に配置され得、他の基本データエレメントは蒸留データ内にインラインに配置される。同様に、基本再構成プログラムは基本データシーブ内に、または蒸留データ内にインラインに配置され得る。いくつかの基本再構成プログラムは基本データシーブ内に配置され得、他の基本再構成プログラムは蒸留データ内にインラインに配置される。基本データシーブは、すべての基本データエレメントおよび基本再構成プログラムを論理的に包含しており、基本データエレメントまたは基本再構成プログラムが蒸留データ内にインラインに配置されている場合は、基本データシーブはその場所の参照を供給する。

入力データをエレメントに因子分解し、これらを基本データストア内に存在している基本データエレメントから導出するデータ削減のための方法および装置の上記の説明は、例示および説明目的で提示されているに過ぎない。それらは網羅的であること、または本発明を開示された形態に限定することを意図していない。したがって、多くの変更および変形が当業者に明らかになるであろう。

図１Ｈは、本明細書に記載のいくつかの実施形態に従う、Data Distillation（商標）プロセスのための方法および装置の図１Ａの蒸留データ１１９Ａの構造を記述するフォーマットおよび仕様の例を提示する。Data Distillation（商標）プロセスは入力データを基本データエレメントおよび導出エレメントに因子分解するので、データの無損失削減表現のためのフォーマットはこれらエレメントを識別し、蒸留データ内のこれらのエレメントのさまざまなコンポーネントを記述する。自己記述フォーマットは蒸留データ内の各レコードを識別し、それが基本データエレメントであるか導出エレメントであるかを指示し、さまざまなコンポーネント、すなわち、シーブにインストールされる１つ以上の基本データエレメントの参照、基本データストアにインストールされる再構成プログラムの参照（図１Ｂの１１９Ｂのように）、または再構成プログラム（ＲＰ）ストアに記憶される再構成プログラムの参照（図１Ｃの１１９Ｃのように）、およびインラインの再構成プログラム（ＲＰ）を記述する。再構成プログラム（ＲＰ）ストアは、同じ意味で基本再構成プログラム（ＰＲＰ）ストアとも称される。図１Ｈのフォーマットは、複数の基本データエレメントに対して再構成プログラムを実行することによって導出を指定する規定を有し、導出エレメントおよび基本データエレメントの各々のサイズは独立して指定可能である。図１Ｈのフォーマットはさらに、基本データストア内に配置されるのではなく蒸留データ内にインラインに配置されている基本データエレメントを指定する規定を有する。これは、エレメントのタイプが、蒸留データ内にインラインに配置されている基本データエレメントであることを指定するオペコード符号化７によって指定される。蒸留データは、このフォーマットを用いてデータストレージシステムに記憶される。このフォーマットのデータは、当該データのさまざまなコンポーネントがフェッチされた後に再構成され得るように、データ取出部１１１によって消費される。

図１Ｉから図１Ｐは、図１Ａから図１Ｇに示すデータ削減のための方法および装置の変形についての入力データの無損失削減形態への概念的な変換を示す。図１Ｉは、どのように入力データのストリームが候補エレメントに因子分解され、続いて、候補エレメントが基本データエレメントまたは導出エレメントと見なされるかを示す。最後に、データは無損失削減形態に変換される。図１Ｉから図１Ｎは、さまざま実施形態についての無損失削減形態の変形を示す。

図１Ｉおよび図１Ｊは、図１Ａに示す方法および装置によって生成されるデータの無損失削減形態の例を示す。図１Ｉの無損失削減形態はコンテンツ連想マッパーを含んでおり、データの連続的なさらなる取込み、および既存の基本データエレメントに対するこのデータの削減を可能にする形態である。一方、図１Ｊの無損失削減形態はコンテンツ連想マッパーをもはや保持しておらず、より小さいフットプリントのデータがもたらされる。図１Ｋおよび図１Ｌは、図１Ｃに示す方法および装置によって生成されるデータの無損失削減形態の例を示す。図１Ｋの無損失削減形態はコンテンツ連想マッパーを含んでおり、データの連続的なさらなる取込み、ならびに既存の基本データエレメントおよび基本再構成プログラムに対するこのデータの削減を可能にする形態である。一方、図１Ｌの無損失削減形態はコンテンツ連想マッパーをもはや保持しておらず、より小さいフットプリントのデータがもたらされる。

図１Ｍおよび図１Ｎは、図１Ｆに示す方法および装置によって生成されるデータの無損失削減形態の例を示しており、基本データエレメントおよび基本再構成プログラムは蒸留データ内にインラインに配置されている。図１Ｍの無損失削減形態はコンテンツ連想マッパーを含んでおり、データの連続的なさらなる取込み、ならびに既存の基本データエレメントおよび基本再構成プログラムに対するこのデータの削減を可能にする形態である。一方、図１Ｎの無損失削減形態はコンテンツ連想マッパーをもはや保持しておらず、より小さいフットプリントのデータがもたらされる。図１Ｏおよび図１Ｐは、図１Ｇに示す方法および装置によって生成されるデータの無損失削減形態の例を示しており、基本データエレメントおよび基本再構成プログラムは蒸留データ内にインラインに、または基本データシーブ内に配置され得る。図１Ｏの無損失削減形態はコンテンツ連想マッパーを含んでおり、データの連続的なさらなる取込み、ならびに既存の基本データエレメントおよび基本再構成プログラムに対するこのデータの削減を可能にする形態である。一方、図１Ｐの無損失削減形態はコンテンツ連想マッパーをもはや保持しておらず、より小さいフットプリントのデータがもたらされる。

図１Ａから図１Ｐに示す実施形態の変形では、削減データのさまざまなコンポーネントは、（ハフマン符号化およびLempel Ziv法といった）先行技術において公知の技術を用いてさらに削減または圧縮され、この圧縮形態で記憶されてもよい。これらのコンポーネントは続いて、それらがデータ蒸留装置での使用に必要となったときに圧縮され得る。これには、データのフットプリント全体をさらに削減するという利点がある。

図２は、本明細書に記載のいくつかの実施形態に従う、入力データをエレメントに因子分解し、これらエレメントを基本データストア内に存在する基本データエレメントから導出することによるデータ削減のためのプロセスを示す。入力データが到着すると、当該データはパースされ、一連の候補エレメントに因子分解されるか分割され得る（オペレーション２０２）。次の候補エレメントが入力から消費され（オペレーション２０４）、基本データストアのコンテンツ連想ルックアップが候補エレメントのコンテンツに基づいて実行されて、候補エレメントをそこから導出可能ないずれかの好適なエレメントがあるか否かが調べられる（オペレーション２０６）。基本データストアがそのようなエレメントを全く見つけなかった場合（オペレーション２０８の「Ｎｏ」のブランチ）、候補エレメントが割当てられて新たな基本データエレメントとしてシーブに入力され、候補エレメントのために作成された蒸留データへのエントリが、新たに作成された基本データエレメントの参照となる（オペレーション２１６）。基本データストアのコンテンツ連想ルックアップが、候補がそこから導出される可能性がある１つ以上の好適なエレメントをもたらす場合（オペレーション２０８の「Ｙｅｓ」のブランチ）、取出された基本データエレメントに対して分析および計算が行われて、当該エレメントから候補エレメントが導出される。なお、いくつかの実施形態では、まず好適な基本データエレメントのためのメタデータのみがフェッチされてこのメタデータに対して分析が行われ、この好適な基本データエレメントは有用であると見なされた場合にのみ続いてフェッチされる（これらの実施形態では、基本データエレメントのためのメタデータが基本データエレメントのコンテンツについての何らかの情報を提供することによって、システムがメタデータに基づいて迅速に一致を排除するか導出可能性を評価することができる）。他の実施形態では、基本データストアは基本データエレメントを直接（すなわち、基本データエレメントを取出す前にまずメタデータを取出してメタデータを分析することなく）取出すので、分析および計算は取出された基本データエレメントに対して行なわれる。

候補がこれらエレメントのうちのいずれかの重複であるか否かを調べるための第１の確認が行なわれる（オペレーション２１０）。この確認は任意の好適なハッシング技術を用いて迅速化され得る。候補が基本データストアから取出された基本データエレメントと同一である場合（オペレーション２１０の「Ｙｅｓ」のブランチ）、候補エレメントのために作成された蒸留データへのエントリは、この基本データエレメントの参照と、このエントリが基本データエレメントであるという指示とに置換される（オペレーション２２０）。重複が見つからない場合（オペレーション２１０の「Ｎｏ」のブランチ）、候補エレメントに基づいて基本データストアから取出されたエントリが、候補エレメントをそこから導出できる可能性があるエントリと見なされる。以下は、基本データストアの重要な、新規な、非自明な特徴である：基本データストア内に重複が見つからない場合、基本データストアは基本データエレメントを戻すことができ、基本データエレメントは、候補エレメントと同一ではないが、１つ以上の変換を基本データエレメントに適用することによって候補エレメントがそこから導出される可能性があるエレメントである。プロセスは次に分析および計算を行って、最適な基本データエレメントまたは一組の好適な基本データエレメントから候補エレメントを導出し得る（オペレーション２１２）。いくつかの実施形態では、導出は、候補エレメントを、１つ以上の基本データエレメントに対して実行した変換の結果として表現し、そのような変換は再構成プログラムと総称される。各導出では、その固有のプログラムを構築する必要があり得る。再構成プログラムを構築するのに加えて、プロセスはさらに、候補エレメントの再公式化を記憶するために、かつ再公式化から候補エレメントを再構成するために必要なストレージリソースおよび／または計算リソースのレベルを一般的に示す距離メトリックを計算し得る。いくつかの実施形態では、導出エレメントのフットプリントは、基本データエレメントからの候補の距離の測定として用いられ、具体的には、距離メトリックは、再構成プログラムのサイズに、導出に伴う１つ以上の基本データエレメントの参照のサイズのを加えた合計と定義され得る。最小距離を有する導出が選択され得る。この導出のための距離は距離閾値と比較され（オペレーション２１４）、距離が距離閾値を超えない場合、導出が受付けられる（オペレーション２１４の「Ｙｅｓ」のブランチ）。データ削減をもたらすために、距離閾値は常に候補エレメントのサイズ未満でなければならない。たとえば、距離閾値は候補エレメントのサイズの５０％に設定されてもよく、これによって、導出物は、そのフットプリントが候補エレメントのフットプリントの半分以下である場合にのみ受付けられることになり、これによって、好適な導出が存在する候補エレメント毎に２倍以上の削減が確実となる。距離閾値は、ユーザが指定した入力に基づく、またはシステムによって選択される、予め定められた割合または分率であってもよい。距離閾値は、システムの静的または動的パラメータに基づいてシステムによって決定されてもよい。導出が受付けられると、候補エレメントが再公式化され、再構成プログラムと１つ以上の基本データエレメントの参照との組合せで置換される。候補エレメントのために作成された蒸留データへのエントリは導出で置換され、すなわち、それは、再構成プログラムに、導出に伴う１つ以上の基本データエレメントの参照を加えたものとともに、これは導出エレメントであるという指示に置換される（オペレーション２１８）。一方、最良導出のための距離が距離閾値を超えた場合（オペレーション２１４の「Ｎｏ」のブランチ）、可能性のある導出物はいずれも受付けられない。その場合、候補エレメントが割当てられて新たな基本データエレメントとしてシーブに入力され得、候補エレメントのために作成された蒸留データへのエントリは、これが基本データエレメントであるという指示とともに、新たに作成された基本データエレメントの参照となる（オペレーション２１６）。

最後に、プロセスは追加の候補エレメントがあるか否かを確認し（オペレーション２２２）、追加の候補エレメントがある場合（オペレーション２２２の「Ｙｅｓ」のブランチ）はオペレーション２０４に戻り、追加の候補エレメントがない場合（オペレーション２２２の「Ｎｏ」のブランチ）はプロセスを終了し得る。

図２のオペレーション２０２を実行するために、すなわち受信データをパースしてそれを候補エレメントに分割するために、さまざまな方法が利用され得る。因子分解アルゴリズムは、バイトストリーム内のどこにブレークを挿入してストリームを候補エレメントにスライスアップするかを決定する必要がある。可能性のある技術として、ストリームを固定サイズのブロック（４０９６バイトのページなど）に分割すること、または、フィンガープリンティングの方法（ランダムな素数多項式を入力ストリームの部分文字列に適用する技術など）を適用して、エレメントの境界となる好適なフィンガープリントのデータストリーム内の位置を特定すること（この技術によって可変サイズのエレメントを得ることができる）、または、入力をパースしてヘッダもしくは何らかの予め宣言された構造を検出し、この構造に基づいてエレメントの輪郭を描くことがある（がこれらに限定されない）。入力はパースされて、スキーマによって宣言される一定の構造が検出され得る。入力はパースされて、データ内の予め宣言されたパターン、文法、または正規表現の存在が検出され得る。データ内の連続する２つのブレークが識別されると、候補エレメントが作成され（候補エレメントは連続する２つのブレーク同士の間にあるデータである）、コンテンツ連想ルックアップのために基本データストアに提示される。可変サイズのエレメントが作成されると、候補エレメントの長さを指定し、候補エレメントとともにメタデータとして伝送する必要がある。

基本データストアの１つの重要な機能は、基本データストアに提示される候補エレメントに基づいてコンテンツ連想ルックアップを提供すること、および、導出を指定するのに必要な最小ストレージで候補エレメントをそこから導出可能な１つのまたは小さい一組の基本データエレメントを迅速に提供することである。これは、大型データセットを前提とすると困難な問題である。テラバイトのデータを前提として、キロバイトサイズのエレメントであっても、検索して選択する何十億ものエレメントが存在する。この問題はデータセットが大きくなるとより深刻になる。好適な技術を用いてエレメントを組織化して順序付けした後、エレメントのその組織内の類似および導出可能性を検出して、小さい一組の好適な基本データエレメントを迅速に提供可能であることが重要になる。

シーブへのエントリは各エレメント（すなわち基本データエレメント）の値に基づいて順序付けられ得るので、すべてのエントリは値によって昇順または降順に配置され得る。あるいは、エントリは、エレメント内の一定のフィールドの値に基づく主軸に沿って、次にエレメントの残りのコンテンツを用いる副軸に沿って順序付けられてもよい。この文脈において、フィールドは、エレメントのコンテンツからの一組の隣接バイトである。フィールドは、フィンガープリントの場所がフィールドの位置を特定するようにエレメントのコンテンツにフィンガープリンティングの方法を適用することによって、位置が特定され得る。あるいは、エレメントのコンテンツ内部の一定の固定オフセットを選択してフィールドの位置を特定してもよい。他の方法を用いてフィールドの位置を特定してもよく、当該方法として、エレメントをパースして一定の宣言された構造を検出し、その構造内のフィールドの位置を特定することがあるが、これに限定されない。

さらに別の形態の組織では、エレメント内の一定のフィールドまたはフィールド同士の組合せを次元と見なすことができるので、これらの次元の連結、およびそれに続く各エレメントの残りのコンテンツを用いてデータエレメントを順序付けて組織化してもよい。一般的に、フィールドおよび次元同士の間の対応関係またはマッピングは任意に複雑であり得る。たとえば、いくつかの実施形態では、１つのフィールドのみが１つの次元のみにマップし得る。他の実施形態では、たとえばＦ１、Ｆ２、およびＦ３などの複数のフィールドの組合せが１つの次元にマップし得る。フィールドの組合せは、２つのフィールド同士を連結することによって、またはそれらにその他の好適な関数を適用することによって達成され得る。重要な要件は、フィールドの配置、次元、およびエレメントを組織化するために用いられるエレメントの残りのコンテンツが、すべての基本データエレメントをそれらのコンテンツによって固有に識別してシーブ内に順序付けることが可能でなければならないことである。

いくつかの実施形態では、エレメントのコンテンツは以下のような表現：エレメント = Head .* sig1 .* sig2 .* … sigI .*… sigN .* Tailとして表わすことができ、式中、「Head」はエレメントの先頭バイトを含むバイトのシーケンスであり、「Tail」はエレメントの終了バイトを含むバイトのシーケンスであり、「sig1」、「sig2」、「sigI」、および「sigN」は、エレメントを特徴付けるエレメントのコンテンツの本体内の一定長さのさまざまな署名またはパターンまたは正規表現またはバイトのシーケンスである。さまざまな署名同士の間の「.*」という表現はワイルドカード表現であり、すなわち、これは、「.*」という表現に続く署名以外の任意の値の任意の数の中間バイトを許可する正規表現の表記法である。いくつかの実施形態では、Ｎタプル（sig1, sig2, … sigI,…sigN）がエレメントの骨格データ構造またはスケルトンと称され、エレメントの減少した本質的なサブセットまたは本質と見なすことができる。他の実施形態では、（Ｎ＋２）タプル（Head, sig1, sig2, … sigI,… sigN, Tail）がエレメントの骨格データ構造またはスケルトンと称される。あるいは、HeadまたはTailを残りの署名とともに含むＮ＋１タプルを使用してもよい。

フィンガープリンティングの方法がエレメントのコンテンツに適用されて、エレメントのコンテンツ内の骨格データ構造のさまざまなコンポーネント（または署名）の場所が判定され得る。あるいは、エレメントのコンテンツ内部の一定の固定オフセットを選択してコンポーネントの位置を特定してもよい。他の方法を用いて骨格データ構造のコンポーネントの位置を特定してもよく、当該方法として、エレメントをパースして一定の宣言された構造を検出し、その構造内のコンポーネントの位置を特定することがあるが、これに限定されない。基本データエレメントは、それらの骨格データ構造に基づいてシーブ内に順序付けられ得る。言い換えると、エレメントの骨格データ構造のさまざまなコンポーネントを次元と見なすことができるため、これらの次元同士の連結、およびそれに続く各エレメントの残りのコンテンツを用いて、基本データエレメントをシーブ内に順序付けて組織化してもよい。

いくつかの実施形態では入力データが候補エレメントに因子分解され、各候補エレメントのサイズは、グローバルデータセット内のすべてのそのようなエレメントにアクセスするのに必要な参照のサイズより実質的に大きい。そのようなデータチャンクに分割される（かつコンテンツ連想的にアクセスされる）データに関する１つの観察は、実際のデータは、データチャンクが指定可能なすべての可能性のある値に対して非常に疎らであることである。たとえば、１ゼタバイトのデータセットを考えてみる。このデータセット内の全バイトをアドレス指定するには約７０ビットが必要である。１２８バイト（１０２４ビット）のチャンクサイズでは、１ゼタバイトのデータセット内に約２⁶³個のチャンクが存在するので、これらすべてのチャンクをアドレス指定するには６３ビット（８バイト未満）が必要である。なお、１０２４ビットのエレメントまたはチャンクは２¹⁰²⁴個の可能性のある値のうちの１つを有し得るが、データセット内の所与のチャンクの実際値の数はせいぜい２⁶³個（すべてのチャンクが別個である場合）である。これは、実際のデータは、エレメントのコンテンツが達し得るまたは名付け得る値の数に対して非常に疎らであることを示す。これによって、効率的なコンテンツベースのルックアップを可能にし、新たなエレメントをツリー構造に効率的に追加することを可能にし、かつ、ツリー構造自体に必要な増分ストレージの面でコスト効率の高い態様で非常に疎らなデータを組織化するのに適しているツリー構造の使用が可能になる。１ゼタバイトのデータセット内には別個のチャンクが２⁶³個しかないため、それら同士を区別するのに６３個の区別ビットの情報しか必要でないが、関連の区別ビットはエレメントの１０２４ビットにわたって分散し、エレメント毎に異なる場所で起こり得る。したがって、すべてのエレメント同士を完全に区別するためには、コンテンツから固定の６３ビットを調べるのみでは不十分であり、むしろ、エレメントのコンテンツ全体が、エレメントをソートするのに、特に、データセット内のすべてのエレメントへの真のコンテンツ連想アクセスを提供するソリューションに関与する必要がある。Data Distillation（商標）フレームワークでは、データを順序付けて組織化するために用いられるフレームワーク内の導出可能性を検出可能であることが望ましい。上記のすべてを念頭に置いて、コンテンツに基づくツリー構造（より多くのコンテンツが調べられるにつれてデータを漸進的に区別する）は、因子分解されたデータセット内のすべてのエレメントを順序付けて区別するのに好適な組織である。そのような構造は、導出可能エレメントのグループ分け、または導出可能性の同様のプロパティを有するエレメントのグループ分けとして取扱われ得るサブツリーの多数の中間レベルを提供する。そのような構造は、各サブツリーを特徴付けるメタデータで、またはデータの各エレメントを特徴付けるメタデータで階層的に拡張され得る。そのような構造は、データ内の実際値の密度、近接、および分布を含む、当該構造が含むデータ全体の構成を効果的に通信し得る。

いくつかの実施形態では、基本データエレメントがツリー形態でシーブ内に組織化される。各基本データエレメントは、当該基本データエレメントのコンテンツ全体から構築される別個の「名前」を有する。この名前は、基本データエレメントを固有に識別するのに、かつそれをツリー内のすべての他のエレメントに対して区別するのに十分であるように設計される。基本データエレメントのコンテンツから名前を構築可能な方法はいくつかある。名前は単に基本データエレメントの全バイトで構成されてもよく、これらのバイトは、それらが基本データエレメント内に存在しているのと同じ順序で名前内に現われる。別の実施形態では、次元と称される一定のフィールドまたはフィールド同士の組合せ（フィールドおよび次元は上記の通り）を用いて名前の先頭バイトが形成され、基本データエレメントの残りのコンテンツは残りの名前を形成しているので、基本データエレメントのコンテンツ全体がエレメントの完全な固有の名前を作成するのに関与している。さらに別の実施形態では、エレメントの骨格データ構造のフィールドが次元として選択され（フィールドおよび次元は上記の通り）、当該フィールドを用いて名前の先頭バイトが形成され、基本データエレメントの残りのコンテンツは残りの名前を形成しているので、基本データエレメントのコンテンツ全体がエレメントの完全な固有の名前を作成するのに関与している。

各基本データエレメントの名前を用いて、基本データエレメントが順序付られてツリーに組織化される。ほとんどの実用的なデータセット、さらにはサイズが非常に大きい（たとえば、４ＫＢサイズの２⁵⁸個のエレメントで構成される１ゼタバイトのデータセットなど）データセットについては、名前のバイトの小さいサブセットが基本データエレメントの大半をソートしてツリー内に順序付ける役割を果たすことが多いと予想される。

図３Ａ、図３Ｂ、図３Ｃ、図３Ｄおよび図３Ｅは、本明細書に記載のいくつかの実施形態に従う、基本データエレメントをそれらの名前に基づいて組織化するために用いられ得るさまざまなデータ組織システムを示す。

図３Ａは、基本データエレメントが各基本データエレメントの名前からの連続バイトの値に基づいて漸進的に小さくなるグループに組織化されるトライデータ構造を示す。図３Ａに示す例では、各基本データエレメントは、当該基本データエレメントのコンテンツ全体から構築される別個の名前を有しており、この名前は単に基本データエレメントの全バイトで構成されており、これらのバイトは、それらが基本データエレメント内に存在しているのと同じ順序で名前内に現われる。トライのルートノードはすべての基本データエレメントを表わす。トライの他のノードは基本データエレメントのサブセットまたはグループを表わす。トライのルートノードまたは第１レベル（図３Ａにおいてルート３０２とラベル付けされている）で始まり、基本データエレメントはそれらの名前の最大有効バイト（図３ＡにおいてＮ１とラベル付けされている）の値に基づいてサブツリーにグループ分けされる。それらの名前の最大有効バイトにおいて同じ値を有するすべての基本データエレメントが共通のサブツリーに互いにグループ分けされ、その値が示すリンクが、ルートノードからそのサブツリーを表わすノードに存在する。たとえば、図３Ａでは、ノード３０３は、各自の名前のそれらの最大有効バイトＮ１内に同じ値２を各々が有する基本データエレメントのサブツリーまたはグループを表わす。図３Ａでは、このグループは基本データエレメント３０５，３０６および３０７を含む。

トライの第２レベルにおいて、各基本データエレメントの名前の２番目の最大有効バイトを用いて、基本データエレメントの各グループがより小さいサブグループにさらに分割される。たとえば、図３Ａでは、ノード３０３によって表わされる基本データエレメントのグループが、２番目の最大有効バイトＮ２を用いてサブグループにさらに細分割される。ノード３０４は、それらの最大有効バイトＮ１内に値２を有し、かつ各自の名前のそれらの２番目の最大有効バイトＮ２内に値１を有する基本データエレメントのサブグループを表わす。このサブグループは基本データエレメント３０５および３０６を含む。

細分割のプロセスは、親ノードから各子ノードのリンクを作成するトライの各レベルで継続し、子ノードは親ノードによって表わされる基本データエレメントのサブセットを表わす。このプロセスは、トライのリーフに個別の基本データエレメントしか存在しなくなるまで継続する。リーフノードはリーフのグループを表わす。図３Ａでは、ノード３０４がリーフノードである。ノード３０４によって表わされる基本データエレメントのグループは、基本データエレメント３０５および３０６を含む。図３Ａでは、このグループは、個別の基本データエレメント３０５および３０６に、それらの名前の３番目の最大有効バイトを用いてさらに細分割される。Ｎ３＝３の値は基本データエレメント３０５に至り、値Ｎ３＝５は基本データエレメント３０６に至る。この例では、それらの完全な名前のうち、基本データエレメント３０５および３０６を完全に識別するのに３つの有効バイトのみで十分である。同様に、基本データエレメント３０７を識別するのに名前からの２つの有効バイトのみで十分である。

この例は、基本データエレメントの所与の混合において、名前のバイトのサブセットのみがツリー内の基本データエレメントを識別する役割を果たし、固有の基本データエレメントに到達するのに名前全体は不要であることを示す。また、基本データエレメントまたは基本データエレメントのグループは各々が、それらを固有に識別できるようにするために異なる数の有効バイトを必要とし得る。ゆえに、ルートノードから基本データエレメントまでのトライの深さは基本データエレメント毎に異なり得る。さらに、トライにおいて、各ノードは下位のサブツリーに下降する異なる数のリンクを有し得る。

そのようなトライでは、各ノードは、このノードにどのように到達するかを指定するバイトのシーケンスで構成される名前を有する。たとえば、ノード３０４についての名前は「２１」である。また、ツリー内のエレメントの現在の分布におけるエレメントを固有に識別するエレメントの名前からのバイトのサブセットは、ルートノードからこの基本データエレメントまでの「パス」である。たとえば、図３Ａでは、値２１３を有するパス３０１が基本データエレメント３０５を識別する。

ここに記載するトライ構造は、ツリー内のエレメントの名前のすべての区別バイトが１レベルの深さをトライに追加するため、深いツリー（すなわち多くのレベルを有するツリー）を作成し得る。

なお、図３Ａ〜図３Ｅのツリーデータ構造は左から右に描かれている。したがって、図の左側から図の右側に移動するにつれて、ツリーの高レベルからツリーの低レベルに移動する。所与のノードの下位に（すなわち図３Ａ〜図３Ｅの所与のノードの右側に向かって）、名前からの区別バイトの一定値によって選択される任意の子について、その子の下位のサブツリーに存在しているすべてのエレメントは、当該エレメントの名前内のその対応するバイト内に同じ値を有する。

次に、入力候補エレメントを前提として、トライ構造のコンテンツ連想ルックアップのための方法を説明する。この方法は、候補エレメントの名前を用いるトライ構造のナビゲーションを伴い、その後、分析およびスクリーニングが続いて行なわれて、コンテンツ連想ルックアップ全体の結果として何を戻すべきかが決定される。言い換えると、トライナビゲーションプロセスは第１の結果を戻し、次に、その結果に対して分析およびスクリーニングが行われて、コンテンツ連想ルックアップ全体の結果が判定される。

トライナビゲーションプロセスを開始するために、候補エレメントの名前から最大有効バイトの値を用いて、ルートノードから、それらの名前の最大有効バイト内にその同じ値を有する基本データエレメントのサブツリーを表わす後続ノードまでのリンク（その値によって示される）が選択される。このノードから進んで、候補エレメントの名前からの第２のバイトを調べ、その値が示すリンクを選択することによって、１レベル深く（または低く）トライの中へと進み、それらの名前からの少なくとも２つの有効バイトにおいて候補エレメントと共有するようになった基本データエレメントのより小さいサブグループが選択される。このプロセスは、１つの基本データエレメントに到達するまで、または候補エレメントの名前からの対応するバイトの値と一致するリンクがなくなるまで継続される。これらの条件のいずれか一方の下で、ツリーナビゲーションプロセスが終了する。１つの基本データエレメントに到達すると、それはトライナビゲーションプロセスの結果として戻され得る。そうでない場合、１つの代替案は「欠落」を報告することである。別の代替案は、ナビゲーションが終了したノードをルートとするサブツリー内にある複数の基本データエレメントを戻すことである。

トライナビゲーションプロセスが終了すると、他の基準および要件を用いてトライナビゲーションプロセスの結果が分析されスクリーニングされて、コンテンツ連想ルックアップの結果として何を戻すべきかが決定され得る。たとえば、１つの基本データエレメントまたは複数の基本データエレメントがトライナビゲーションプロセスによって戻された場合は、それらは、コンテンツ連想ルックアップの結果として戻される資格を得る前に、候補エレメントの名前と一定の最小数のバイトを共有しているという付加的な要件があり得る（そうでない場合、コンテンツ連想ルックアップは欠落を戻す）。スクリーニング要件の別の例は、トライナビゲーションプロセスが、複数の基本データエレメント（トライナビゲーションが終了したノードをルートとする）がトライナビゲーションプロセスの結果として戻されるように、１つの基本データエレメントに到達することなく終了した場合は、これら複数の基本データエレメントは、これらエレメントの数が一定の指定された制限未満である場合にのみ、コンテンツ連想ルックアップ全体の結果として戻される資格を得るようなものであってもよい（そうでない場合、コンテンツ連想ルックアップは欠落を戻す）。複数の要件同士の組合せを使用して、コンテンツ連想ルックアップの結果を判定してもよい。このように、ルックアッププロセスは、「欠落」を報告するかもしくは１つの基本データエレメントを戻し、または１つの基本データエレメントでない場合は、候補エレメントを導出するための良好な開始点である可能性が高い一組の基本データエレメントを戻す。

以下に記載する図３Ｂ〜図３Ｅは、図３Ａに示すツリーデータ構造の変形および変更に関する。これらの変形は、図３Ａに示すトライデータ構造に対する向上および利点を提供するが、データ構造をナビゲートするためのプロセスは図３Ａを参照して上記したプロセスと同様である。すなわち、図３Ｂ〜図３Ｅに示すツリーデータ構造のためのツリーナビゲーションが終了した後、続いて分析およびスクリーニングが行われてコンテンツ連想ルックアップ全体の結果が判定され、プロセス全体は、欠落、１つの基本データエレメント、または候補エレメントを導出するための良好な開始点である可能性が高い一組の基本データエレメントを戻す。

図３Ｂは、基本データエレメントをそれらの名前に基づいて組織化するために用いられ得る別のデータ組織システムを示す。図３Ｂに示す例では、各基本データエレメントは、当該基本データエレメントのコンテンツ全体から構築される別個の名前を有しており、この名前は単に当該基本データエレメントの全バイトで構成されており、これらのバイトは、それらが基本データエレメント内に存在しているのと同じ順序で名前内に現われる。図３Ｂは、１つのリンクが下位のサブツリー内の基本データエレメントの名前から（図３Ａのトライに用いられる単一のバイトではなく）複数のバイトを使用して再分割または次のレベルのグループ分けを作成する、よりコンパクトな構造を示す。親ノードから子ノードへのリンクは、ここでは複数のバイトによって示されている。さらに、任意の所与の親ノードから、各リンクは、そのリンクと関連付けられているサブツリーを区別して識別するために異なる数のバイトを使用し得る。たとえば、図３Ｂでは、ルートノードからノード３０８のリンクは名前から４バイト（Ｎ₁Ｎ₂Ｎ₃Ｎ₄＝９８４５）を用いることによって区別されているが、ルートノードからノード３０９へのリンクは名前から３バイト（Ｎ₁Ｎ₂Ｎ₃＝３４７）を用いることによって区別されている。

なお、（所与の候補エレメントからのコンテンツを用いる）ツリーナビゲーションの際、ツリー内のいずれかの親ノードに到着すると、ツリーナビゲーションプロセスは、候補エレメントの名前から十分なバイトを調べてどのリンクを選択すべきかを明確に決定することを保証する必要がある。所与のリンクを選択するために、候補の名前からのバイトは、その特定のリンクへの移行を示す全バイトと一致しなければならない。ここでも、そのようなツリーにおいて、ツリーの各ノードは、このノードにどのように到達すべきかを指定するバイトのシーケンスで構成される名前を有する。たとえば、ノード３０９の名前は、これが基本データエレメント（たとえばエレメント３１１および３１２）のグループを表わしており、それらの名前の先頭の３バイトが「３４７」であるため、「３４７」であり得る。名前の先頭の３バイトが３４７である候補エレメントを用いてツリーをルックアップすると、このデータパターンによって、ツリーナビゲーションプロセスは図３Ｂに示すようにノード３０９に到達する。ここでも、ツリー内のエレメントの現在の混合内のエレメントを固有に識別するエレメントの名前からのバイトのサブセットは、ルートノードからこの基本データエレメントへの「パス」である。たとえば、図３Ｂでは、バイトのシーケンス３４７５は基本データエレメント３１２に至り、その例に示す基本データエレメントの混合内の基本データエレメント３１２を固有に識別する。

多様で疎らなデータについて、図３Ｂのツリー構造は、図３Ａのトライ構造よりも柔軟でコンパクトであることが判明している。

図３Ｃは、基本データエレメントをそれらの名前に基づいて組織化するために用いられ得る別のデータ組織システムを示す。図３Ｃに示す例では、各基本データエレメントは、当該基本データエレメントのコンテンツ全体から構築される別個の名前を有しており、この名前は単に当該基本データエレメントの全バイトで構成されており、これらのバイトは、それらが基本データエレメント内に存在しているのと同じ順序で名前内に現われる。図３Ｃは、（必要および／または有用であれば）正規表現を使用してさまざまなリンクに至る基本データエレメントの名前からの値を指定することによってツリーおよびグループエレメントをサブツリー内にさらにコンパクト化する（図３Ｂに記載の組織に対する）別の変形を示す。正規表現の使用によって、同じサブツリー下の対応するバイト上の同一表現を共有するエレメントの効率的なグループ分けが可能になり、これに続いて、当該サブツリー内の別個の基本データエレメントのより局所的な曖昧性除去を行なうことができる。また、正規表現の使用によって、エレメントを下位の任意のサブツリーにマップするために必要なバイトの値を記述する、よりコンパクトな方法が可能になる。これによって、ツリーを指定するのに必要なバイトの数がさらに減少する。たとえば、正規表現３１８は２８個の連続した「Ｆ」のパターンを指定しており、ツリーナビゲーション時にこのリンクをたどると、エレメント３１４に到達することができ、これは正規表現３１８に従って２８個の連続した「Ｆ」を有するパターン３２０を含む。同様に、エレメント３１６に到達するパスは、１６個の連続した「０」を有するパターンを指定する正規表現を使用するリンクまたはブランチを有する。そのようなツリーについては、ツリーナビゲーションプロセスは、どのリンクを選択すべきかを決定するためにそのような正規表現を検出して実行する必要がある。

図３Ｄは、基本データエレメントをそれらの名前に基づいて組織化するために用いられ得る別のデータ組織システムを示す。図３Ｄに示す例では、各基本データエレメントは、当該基本データエレメントのコンテンツ全体から構築される別個の名前を有する。フィンガープリンティングの方法が各エレメントに適用されて、選択されたフィンガープリントを評価するコンテンツを含むフィールドの場所が識別される。エレメント内に見つかった第１のフィンガープリントの場所におけるフィールドは次元として取扱われ、このフィールドからの一定数のバイト（たとえばｘバイトであり、ここでｘはエレメント内のバイトの数より実質的に小さい）が抽出されてエレメントの名前の先頭バイトとして用いられ、名前の残りのバイトは、基本データエレメントの残りのバイトで構成され、それらが基本データエレメント内に存在しているのと同じ周期的順序で現われる。この名前を用いて基本データエレメントがツリーに組織化される。この例では、エレメント内にフィンガープリントが検出されない場合、名前は、単にエレメントの全バイトをそれらがエレメント内に存在している順序で用いることによって公式化される。別個のサブツリー（フィンガープリントが見つからなかったという指示によって示される）が、すべてのそのようなエレメントをそれらの名前に基づいて保持して組織化する。

たとえば、図３Ｄに示すように、フィンガープリンティング技術がエレメント３３８（ｔバイトのデータ、すなわちＢ₁Ｂ₂Ｂ₃…Ｂ_tを含む）に適用されて、「次元１」として選択されるフィールドを識別するバイトＢ_i+1におけるフィンガープリント場所「フィンガープリント１」が得られ得る。次に、「フィンガープリント１」によって識別された場所からのｘバイトを抽出して「次元１」が形成され得、これらｘバイトは図３Ｄの各エレメントの名前の先頭バイトＮ₁Ｎ₂…Ｎ_xとして用いられ得る。続いて、エレメント３３８からの残りのｔ−ｘバイト（Ｂ_i+x+1で始まり、後でＢ₁Ｂ₂Ｂ₃…Ｂ_iにラップアラウンドす
る）が連結され、名前の残りのバイトＮ_x+1Ｎ_x+2…Ｎ_tとして用いられる。エレメント内
にフィンガープリントが見つからない場合、名前Ｎ₁Ｎ₂……Ｎ_tは単にエレメント３３８
からのＢ₁Ｂ₂Ｂ₃…Ｂ_tである。基本データエレメントは、それらの名前を用いてソートされてツリーに組織化される。たとえば、基本データエレメント（ＰＤＥ）３３０は、パス１３６５４…０６を用いてツリーの２つのレベルをトラバースした後に識別されて到達され、バイト１３６５４…０は次元１からのバイトであるＮ₁Ｎ₂……Ｎ_xである。（フィンガープリントが見つからなかったという指示によって示される）リンク３３４に沿ったルートから到達されるノード３３５における別個のサブツリーが、選択されたフィンガープリントを評価しなかったコンテンツを有するすべての基本データエレメントを保持して組織化する。ゆえに、この組織では、たとえばリンク３３６などのいくつかのリンクは、エレメント内に現われるのと同じ順序で現われるエレメントのバイトで構成される名前を用いてエレメントを組織化し得るが、たとえばリンク３４０などの他のリンクは、フィンガープリントを用いて公式化される名前を用いてエレメントを組織化し得る。

候補エレメントを受信すると、プロセスは上記と同一の技術を適用して候補エレメントの名前を判定し、この名前を用いてコンテンツ連想ルックアップのためにツリーをナビゲートする。ゆえに、同一の一貫した処理が基本データエレメントに（それらがツリーにインストールされると）、および候補エレメントに（それらをパーサおよび因子分解部から受信すると）適用されてそれらの名前が作成される。ツリーナビゲーションプロセスは、候補エレメントの名前を用いてツリーをナビゲートする。本実施形態では、候補エレメント内にフィンガープリントが見つからない場合、ツリーナビゲーションプロセスは、フィンガープリントを評価しなかったコンテンツを有する基本データエレメントを組織化して含んでいるサブツリーをたどってナビゲートする。

図３Ｅは、基本データエレメントをそれらの名前に基づいて組織化するために用いられ得る別のデータ組織システムを示す。図３Ｅに示す例では、各基本データエレメントは、当該基本データエレメントのコンテンツ全体から構築される別個の名前を有する。フィンガープリンティングの方法が各エレメントに適用されて、２つのフィンガープリントのいずれか一方を評価するコンテンツを含むフィールドの場所が識別される。エレメント内の第１のフィンガープリント（図３Ｅのフィンガープリント１）の第１の発生の場所にあるフィールドは第１の次元（次元１）として取扱われ、第２のフィンガープリント（図３Ｅのフィンガープリント２）の第１の発生の場所にあるフィールドは第２の次元（次元２）として取扱われる。フィンガープリンティングを用いてエレメント上の２つの別個のフィンガープリントを探すと、４つの可能なシナリオにつながる：（１）両フィンガープリントがエレメント内に見つかる、（２）フィンガープリント１は見つかるがフィンガープリント２は見つからない、（３）フィンガープリント２は見つかるがフィンガープリント１は見つからない、および（４）フィンガープリントがまったく見つからない。基本データエレメントは、上記シナリオの各々に対応する４つのサブツリーにグループ分けされ得る。図３Ｅでは、「ＦＰ１」はフィンガープリント１の存在を示し、「ＦＰ２」はフィンガープリント２の存在を示し、「〜ＦＰ１」はフィンガープリント１の欠如を示し、「〜ＦＰ２」はフィンガープリント２の欠如を示す。

４つのシナリオの各々について、エレメントの名前は以下のように作成される：（１）両フィンガープリントが見つかる場合、「フィンガープリント１」によって識別される場所からのｘバイトが抽出されて「次元１」が形成され得、「フィンガープリント２」によって識別される場所からのｙバイトが抽出されて「次元２」が形成され得、これらｘ＋ｙバイトが、図３Ｅにおけるそのような各エレメントの名前の先頭バイトＮ₁Ｎ₂…Ｎ_x+yとして用いられ得る。続いて、エレメント３４８からの残りのｔ−（ｘ＋ｙ）バイトが周期的に（第１の次元からのバイトの後に開始して）抽出され、連結されて名前の残りのバイトＮ_x+y+1Ｎ_x+y+2…Ｎ_tとして用いられる。（２）フィンガープリント１は見つかるがフィンガープリント２は見つからない場合、「フィンガープリント１」によって識別される場所からのｘバイトが抽出されて先頭次元が形成され得、これらｘバイトはそのような各エレメントの名前の先頭バイトＮ₁Ｎ₂…Ｎ_xとして用いられ得る。続いて、エレメント３４８からの残りのｔ−ｘバイト（Ｂ_i+x+1から開始し、後でＢ₁Ｂ₂Ｂ₃…Ｂ_iにラップアラウンドする）が連結され、名前の残りのバイトＮ_x+1Ｎ_x+2…Ｎ_tとして用いられる。（３）フィンガープリント２は見つかるがフィンガープリント１は見つからない場合、「フィンガープリント２」によって識別される場所からのｙバイトが抽出されて先頭次元が形成され得、これらｙバイトは、そのような各エレメントの名前の先頭バイトＮ₁Ｎ₂…Ｎ_yとして用いられ得る。続いて、エレメント３４８からの残りのｔ−ｙバイト（Ｂ_j+y+1から開始し、後でＢ₁Ｂ₂Ｂ₃…Ｂ_jにラップアラウンドする）が連結され、名前の残りのバイトＮ_y+1Ｎ_y+2…Ｎ_tとして用いられる。（４）エレメント内にフィンガープリントがまったく見つからない場合、名前Ｎ₁Ｎ₂……Ｎ_tは単にエレメント３４８からのＢ₁Ｂ₂Ｂ₃…Ｂ_tである。ゆえに、これら４つのシナリオ毎に別個のサブツリーが存在する。エレメント３４８のための名前（Ｎ₁Ｎ₂Ｎ₃…Ｎ_t）を抽出するためのプロセスは、以下のように４つのシナリオについて要約することができる：
（１）フィンガープリント１およびフィンガープリント２の両方が見つかる：
Ｎ₁−Ｎ_x←Ｂ_i+1−Ｂ_i+x＝次元１からのｘバイト
Ｎ_x+1−Ｎ_x+y←Ｂ_j+1−Ｂ_j+y＝次元２からのｙバイト
Ｎ_x+y+1…Ｎ_t＝（ｔバイトのサイズの候補エレメントからの）残りのバイト＝Ｂ_i+x+1Ｂ_i+x+2Ｂ_i+x+3…Ｂ_jＢ_j+y+1Ｂ_j+y+2Ｂ_j+y+3…Ｂ_tＢ₁Ｂ₂Ｂ₃…Ｂ_i
（２）フィンガープリント１は見つかり、フィンガープリント２は見つからない：
Ｎ₁−Ｎ_x←Ｂ_i+1−Ｂ_i+x＝次元１からのｘバイト
Ｎ_x+1…Ｎ_t＝（ｔバイトのサイズの候補エレメントからの）残りのバイト＝Ｂ_i+x+1Ｂ_i+x+2Ｂ_i+x+3…Ｂ_tＢ₁Ｂ₂Ｂ₃…Ｂ_i
（３）フィンガープリント２は見つかり、フィンガープリント１は見つからない：
Ｎ₁−Ｎ_y←Ｂ_j+1−Ｂ_j+y＝次元２からのｙバイト
Ｎ_y+1…Ｎ_t＝（ｔバイトのサイズの候補エレメントからの）残りのバイト＝Ｂ_j+y+1Ｂ_j+y+2Ｂ_j+y+3…Ｂ_tＢ₁Ｂ₂Ｂ₃…Ｂ_j
（４）フィンガープリントがまったく見つからない：
Ｎ₁−Ｎ_x←Ｂ₁−Ｂ_t
候補エレメントを受信すると、プロセスは上記と同一の技術を適用して候補エレメントの名前を判定する。本実施形態では、（フィンガープリント１およびフィンガープリント２が見つかるか否かに依存して）上記の名前構築の４つの方法が、基本データエレメントがシーブに入力される際の基本データエレメントに対するのと同様に、候補エレメントに適用される。ゆえに、同一の一貫した処理が基本データエレメントに（それらがツリーにインストールされると）、および候補エレメントに（それらをパーサおよび因子分解部から受信すると）適用されてそれらの名前が作成される。ツリーナビゲーションプロセスは、候補エレメントの名前を用いてコンテンツ連想ルックアップのためにツリーをナビゲートする。

コンテンツ連想ルックアップが成功すると、候補エレメントと同一のパターンを特定次元の場所に有する基本データエレメントがもたらされる。たとえば、両フィンガープリントが候補エレメント内に見つかると、ツリーナビゲーションプロセスは、ルートノードから開始して、それをツリーのリンク３５４にダウンさせる。候補エレメントが「次元１」としてパターン「９９…３」を有し、「次元２」としてパターン「７…５」を有する場合、ツリーナビゲーションプロセスはノード３３４に到着する。これは、導出のターゲットの可能性が高い、２つの基本データエレメント（ＰＤＥ３５２およびＰＤＥ３５３）を含むサブツリーに到達する。付加的な分析およびスクリーニングが（最初にメタデータを調べることによって、かつ必要であれば、続いて実際の基本データエレメントをフェッチして調べることによって）行われて、どの基本データエレメントが導出に最適であるかが判断される。ゆえに、本明細書に記載の実施形態は、シーブ内に用いられ得るさまざまなツリー構造を識別する。そのような構造の組合せまたはそれらの変形を使用して基本データエレメントが組織化され得る。いくつかの実施形態では基本データエレメントはツリー形態に組織化され、エレメントのコンテンツ全体がエレメントの名前として用いられる。しかし、バイトがエレメントの名前内に現われる順番は、必ずしも当該バイトがエレメント内に現われる順番とは限らない。エレメントの一定のフィールドが次元として抽出されて名前の先頭バイトを形成するために用いられ、エレメントの残りのバイトは残りの名前を構成する。これらの名前を用いて、エレメントはシーブ内にツリー形態で順序付けられる。名前の先頭桁を用いてツリーのより高位のブランチ（またはリンク）同士が区別され、残りの桁を用いてツリーのすべてのブランチ（またはリンク）が漸進的に区別される。ツリーの各ノードは、そのノードから発生する異なる数のリンクを有し得る。また、ノードからの各リンクは異なる数のバイトによって区別され示され得、これらのバイトの記述は、それらの仕様を表現する正規表現および他の強力な方法を用いて達成され得る。これら特徴はすべて、コンパクトなツリー構造をもたらす。ツリーのリーフノードには、個々の基本データエレメントの参照が存在している。

一実施形態では、フィンガープリンティングの方法が基本データエレメントを含むバイトに適用され得る。フィンガープリントによって識別される場所に存在するバイトの数を用いて、名前のエレメントのコンポーネントが作成され得る。１つ以上のコンポーネントが組合されて次元が提供され得る。複数のフィンガープリントを用いて複数の次元が識別され得る。これら次元は連結され、エレメントの名前の先頭バイトとして用いられ、エレメントの残りのバイトはエレメントの残りの名前を含む。次元はフィンガープリントによって識別される位置にあるため、これによって、名前が各エレメントからの一貫したコンテンツから形成されている可能性が高くなる。フィンガープリントによって位置を特定されたフィールドにおけるコンテンツの同一の値を有するエレメントは、ツリーの同一のレッグに沿って互いにグループ分けされる。このように、同様のエレメントはツリーデータ構造内に互いにグループ分けされる。内部にフィンガープリントが見つからないエレメントは、それらの名前の代替の公式化を用いて、別個のサブツリー内に互いにグループ分けされ得る。

一実施形態では、フィンガープリンティングの方法がエレメントのコンテンツに適用されて、エレメントのコンテンツ内の（上記の）骨格データ構造のさまざまなコンポーネント（または署名）の場所が判定され得る。あるいは、エレメントのコンテンツ内部の一定の固定オフセットを選択してコンポーネントの位置を特定してもよい。他の方法を用いてエレメントの骨格データ構造のコンポーネントの位置を特定してもよく、当該方法として、エレメントをパースして一定の宣言された構造を検出し、その構造内のコンポーネントの位置を特定することがあるが、これに限定されない。エレメントの骨格データ構造のさまざまなコンポーネントを次元と見なすことができるため、これらの次元同士の連結、およびそれに続く各エレメントの残りのコンテンツを用いて、各エレメントの名前が作成される。名前を用いて基本データエレメントが順序付けられてツリーに組織化される。

別の実施形態では、エレメントの一定の構造を検出するためにエレメントがパースされる。この構造内の一定のフィールドは次元として識別される。複数のそのような次元は連結されて名前の先頭バイトとして用いられ、エレメントの残りのバイトはエレメントの残りの名前を含む。次元はエレメントをパースしてその構造を検出することによって識別される位置にあるため、これによって、名前が各エレメントからの一貫したコンテンツから形成されている可能性が高くなる。パースすることによって位置を特定されたフィールドにおけるコンテンツの同一の値を有するエレメントは、ツリーの同一のレッグに沿って互いにグループ分けされる。このように、ここでも、同様のエレメントはツリーデータ構造内に互いにグループ分けされる。

いくつかの実施形態では、ツリーデータ構造内の各ノードは自己記述仕様を含む。ツリーノードは１つ以上の子を有する。各子エントリは、当該子へのリンク上の区別バイトについての情報、および当該子ノードの参照を含む。子ノードはツリーノードまたはリーフノードであり得る。図３Ｆは、本明細書に記載のいくつかの実施形態に従う、自己記述ツリーノードデータ構造を提示する。図３Ｆに示すツリーノードデータ構造は、（Ａ）ルートノードからこのツリーノードへのパスに関連する情報であって、以下のコンポーネントのすべてまたはサブセットを含む：名前からこのツリーノードに到達するためのバイトの実際のシーケンス、ルートノードからこのノードに到達するために消費する名前のバイトの数、この消費するバイトの数が何らかの予め指定された閾値よりも大きいか否かの指示、ならびに、このノードへのパスを記述し、ツリーのコンテンツ連想検索に、およびツリーの構築に関連する決定に有用な他のメタデータ、（Ｂ）ノードが有する子の数を指定し、（Ｃ）各子（各子はツリーの１つのブランチに対応する）について、（１）子ＩＤ、（２）ツリーのこのリンクを下位に移行させるために名前の後続バイトから必要とされる区別バイトの数、（３）それをこのリンクにダウンさせる名前からのバイトの実際値についての仕様、および（４）子ノードの参照を指定する。

図３Ｇは、本明細書に記載のいくつかの実施形態に従う、自己記述リーフノードデータ構造を提示する。リーフノードは１つ以上の子を有する。各子は基本データエレメントへのリンクである。各子エントリは、基本データエレメントへのリンク上の区別バイトについての情報、基本データエレメントの参照、重複および導出物のカウント、ならびに基本データエレメントについての他のメタデータを含む。図３Ｇに示すリーフノードデータ構造は、（Ａ）ルートノードからこのリーフノードへのパスに関連する情報であって、以下のコンポーネントのすべてまたはサブセットを含む：名前からこのリーフノードに到達するためのバイトの実際のシーケンス、ルートノードからこのノードに到達するために消費する名前のバイトの数、この消費するバイトの数が何らかの予め指定された閾値よりも大きいか否かの指示、ならびに、このノードへのパスを記述し、ツリーのコンテンツ連想検索に、およびツリーの構築に関連する決定に有用な他のメタデータ、（Ｂ）ノードが有する子の数を指定し、（Ｃ）各子（各子はリーフノード下の１つの基本データエレメントに対応する）について、（１）子ＩＤ、（２）基本データエレメントへのツリーのこのリンクを下位に移行させるために名前の後続バイトから必要とされる区別バイトの数、（３）それをこのレッグにダウンさせる名前からのバイトの実際値についての仕様、（４）ツリーのこのパス上のツリーを終了させる基本データエレメントの参照、（５）いくつの重複および導出物がこの基本データエレメントを指しているかのカウント（これは、ストレージシステム内のデータが削除されるとシーブからエントリを削除可能であるか否かを確かめるために用いられる）、ならびに（６）基本データエレメントのサイズを含む基本データエレメントについての他のメタデータ等を指定する。

新規な基本データエレメントがツリーにインストールされる効率を増加させるために、いくつかの実施形態では、ツリーのリーフノードで維持される基本データエレメント毎に付加的なフィールドがリーフノードデータ構造に組込まれる。なお、新規なエレメントをツリーに挿入する必要がある場合、サブツリー内のどこに新規なエレメントを挿入すべきかを決定するために、またはサブツリーのさらなるパーティション分割をトリガするか否かを決定するために、対象のサブツリー内の基本データエレメントの各々の名前またはコンテンツのさらなるバイトが必要であり得る。これら付加的なバイトが必要であるので、新規なエレメントに対してこれらのエレメント毎に関連の区別バイトを抽出するために、対象の基本データエレメントのうちのいくつかをフェッチすることが必要であり得る。このタスクに必要なＩＯの数を減らして最適化する（かつ、ほとんどの場合は完全になくす）ために、リーフノード内のデータ構造は、そのリーフノード下の各基本データエレメントの名前からの一定数の付加的なバイトを含む。これら付加的なバイトはナビゲーションルックアヘッドバイトと称され、新規な受信エレメントに対して基本データエレメントをソートするのに役立つ。所与の基本データエレメントについてのナビゲーションルックアヘッドバイトは、基本データエレメントがシーブにインストールされると、リーフノード構造にインストールされる。この目的で保持すべきバイトの数は、関与するサブツリーの深さ、およびそのサブツリー内の基本データエレメントの密度を含むさまざまな基準を用いて静的にまたは動的に選択され得る。たとえば、ツリーの浅いレベルにインストールされている基本データエレメントについては、このソリューションは、非常に深いツリー内に存在する基本データエレメントに対してよりも長いナビゲーションルックアヘッドフィールドを追加し得る。また、新規なエレメントがシーブにインストールされており、かつ既存のターゲットサブツリー内に多くの基本データエレメントが既にある（差し迫った再パーティション分割の可能性が高い）場合は、付加的なナビゲーションルックアヘッドバイトは、新規な基本データエレメントがサブツリーにインストールされている間、その新規な基本データエレメントのために保持され得る。

図３Ｈは、ナビゲーションルックアヘッドフィールドを含むリーフノードについてのリーフノードデータ構造を提示する。このデータ構造は、（Ａ）ルートノードからこのリーフノードへのパスに関連する情報であって、以下のコンポーネントのすべてまたはサブセットを含む：名前からこのリーフノードに到達するためのバイトの実際のシーケンス、ルートノードからこのノードに到達するために消費する名前のバイトの数、この消費するバイトの数が何らかの予め指定された閾値よりも大きいか否かの指示、ならびに、このノードへのパスを記述し、ツリーのコンテンツ連想検索に、およびツリーの構築に関連する決定に有用な他のメタデータ、（Ｂ）ノードが有する子の数を指定し、（Ｃ）各子（各子はリーフノード下の１つの基本データエレメントに対応する）について、（１）子ＩＤ、（２）基本データエレメントへのツリーのこのリンクを下位に移行させるために名前の後続バイトから必要とされる区別バイトの数、（３）それをこのレッグにダウンさせるバイトの実際値についての仕様、（４）ツリーのこのパス上のツリーを終了させる基本データエレメントの参照、（５）何バイトのナビゲーションルックアヘッドが基本データエレメントのために保持されているか、およびそれらのバイトの実際値を指定するナビゲーションルックアヘッドフィールド、（６）いくつの重複および導出物がこの基本データエレメントを指しているかのカウント（これは、ストレージシステム内のデータが削除されるとシーブからエントリを削除可能であるか否かを確かめるために用いられる）、ならびに（７）基本データエレメントのサイズを含む基本データエレメントについての他のメタデータ等を指定する。

いくつかの実施形態では、ツリーのさまざまなブランチを用いて、子サブツリーに至るリンクに沿った区別バイトを範囲デリミタと解釈することによって形成されるグループまたは範囲にさまざまなデータエレメントがマップされる。その子サブツリー内のすべてのエレメントは、エレメント内の対応するバイトの値が、特定の子サブツリーへのリンクに指定される区別バイトの値以下となるようなものである。ゆえに、各サブツリーはこうして、特定の範囲内に収まる値を有するエレメントのグループを表わすことになる。所与のサブツリーの内部で、ツリーの各後続レベルはエレメントのセットをより小さい範囲に漸進的に分割する。本実施形態は、図３Ｆに示す自己記述ツリーノード構造のコンポーネントに異なる解釈を提供する。図３ＦのＮ個の子は、ツリーノードデータ構造内でそれらの区別バイトの値によって順序付けられ、非重複範囲の順序付けられたシーケンスを表わす。Ｎ個のノードに対して、Ｎ＋１個の範囲が存在し、最低のまたは１番目の範囲は最小エントリ以下の値を含み、Ｎ＋１番目の範囲はＮ番目のエントリよりも大きい値を含む。Ｎ＋１番目の範囲は範囲外として取扱われるので、Ｎ個のリンクは下位のＮ個のサブツリーまたは範囲に至る。

たとえば、図３Ｆでは、子１は最低範囲を規定しており、その範囲を区別するために（abef12d6743aの値の）６バイトを使用しており、子１の範囲は00000000からabef12d6743aである。候補エレメントの対応する６バイトは、終了値を含むこの範囲内に収まり、この子についてのリンクが選択される。候補エレメントの対応する先頭６バイトが範囲デリミタabef12d6743aよりも大きい場合、子１は選択されない。候補が子２の範囲内に収まるか否かを調べるためには、２つの条件を満たす必要があり、第１に、候補は直前の子（この例では子１）の範囲外にある必要があり、第２に、その名前の中の対応するバイトは子２の範囲デリミタ以下である必要がある。この例では、子２の範囲デリミタはdcfaの値の２バイトで記述されている。ゆえに、候補エレメントについての対応する２バイトはdcfa以下である必要がある。この方法を用いて、ツリーノード内の候補エレメントおよびすべての子を調べて、Ｎ＋１個の範囲のうちのどれに候補エレメントが収まるかを確認することができる。図３Ｆに示す例では、候補エレメントの名前の対応する４バイトが、f3231929である子Ｎへのリンクについての区別バイトの値よりも大きい場合、欠落状態が検出される。

ツリーナビゲーションプロセスは、この新たな範囲ノードを収容するように修正され得る。範囲ノードに到着すると、そのノードから発生する所与のリンクを選択するために、候補の名前からのバイトは、その特定のリンクについて規定された範囲内に収まる必要がある。候補の名前からのバイトの値が、すべてのリンク内の対応するバイトの値よりも大きく、候補エレメントが下位のサブツリーが跨っているすべての範囲外にある場合−この場合（「範囲外状態」と称する）、欠落状態が検出され、ツリーナビゲーションプロセスは終了する。候補エレメントの名前の先頭バイトが、子サブツリーに至るリンクに沿った対応する区別バイトによって決定される範囲内に収まる場合、ツリーナビゲーションは下位のそのサブツリーに継続する。「範囲外状態」のために終了しない限り、ツリーナビゲーションは、リーフノードデータ構造に到達するまでツリーの下方へとより深く漸進的に継続し得る。

この種類の範囲ノードは、図３Ａ〜図３Ｅに記載のトライノードとともにツリー構造において使用され得る。いくつかの実施形態では、ツリー構造の一定数のレベルの上位ノードがトライノードであり得、ツリーのトラバースは、候補エレメントの名前の先頭バイトと、ツリーのリンクに沿った対応するバイトとの正確な一致に基づいている。後続のノードは範囲ノードであり得、ツリーのトラバースは、候補エレメントの名前の対応するバイトが収まる範囲によって決まる。ツリーナビゲーションプロセスが終了すると、本文書で上述したように、さまざまな基準を用いて、コンテンツ連想ルックアップ全体の結果として何を戻すべきかが決定され得る。

ツリーノードおよびリーフノードを表現および使用するための方法および装置の上記の説明は、例示および説明目的で提示されているに過ぎない。それらは網羅的であること、または本発明を開示された形態に限定することを意図していない。したがって、多くの変更および変形が当業者に明らかになるであろう。

候補エレメントが入力として提示されると、上記のツリーノードおよびリーフノード構造をトラバースすることができ、ツリーのコンテンツ連想ルックアップを候補エレメントのコンテンツに基づいて実行することができる。候補エレメントの名前は、基本データエレメントがシーブにインストールされたときに基本データエレメントの名前が基本データエレメントのコンテンツから構築されたのと同様に、候補エレメントのバイトから構築される。入力候補エレメントを前提として、ツリーのコンテンツ連想ルックアップのための方法は、候補エレメントの名前を用いるツリー構造のナビゲーションを伴い、その後、分析およびスクリーニングが続いて行われて、コンテンツ連想ルックアップ全体の結果として何を戻すべきかが決定される。言い換えると、ツリーナビゲーションプロセスは第１の結果を戻し、次に、その結果に対して分析およびスクリーニングが行なわれて、コンテンツ連想ルックアップ全体の結果が判定される。

候補と同じ名前の先頭バイト（またはそれらが同じ範囲に収まるようなバイト）を有する基本データエレメントがある場合、ツリーは、リンクによって示されるエレメントのサブツリーの形態の基本データエレメントのそのサブセットを識別する。一般的に、各ツリーノードまたはリーフノードは、ツリーナビゲーションプロセスが、存在する場合はどの送信リンクを選択すべきかを判断して、入力エレメントの名前の対応するバイトと、選択されたリンクに沿ってツリーがナビゲートされると到達するノードのアイデンティティとに基づいてツリー内の次の下位レベルにナビゲートすることを可能にする情報を記憶し得る。各ノードがこの情報を含んでいる場合は、ツリーナビゲーションプロセスは、一致が見つからなくなるまで（この点で、ツリーナビゲーションプロセスは、現在のノードをルートとするサブツリー内に存在する一組の基本データエレメントを戻すことができる）、または基本データエレメントに到達するまで（この点で、ツリーナビゲーションプロセスは、基本データエレメントおよび任意の関連のメタデータを戻すことができる）、ツリー内の各レベルに再帰的にナビゲートダウンし得る。

ツリーナビゲーションプロセスが終了すると、他の基準および要件を用いてツリーナビゲーションプロセスの結果が分析されスクリーニングされて、コンテンツ連想ルックアップ全体の結果として何を戻すべきかが決定され得る。まず、候補と共通の名前から最多数の先頭バイトを有する基本データエレメントを選ぶことができる。次に、１つの基本データエレメントまたは複数の基本データエレメントがツリーナビゲーションプロセスによって戻された場合は、それらは、コンテンツ連想ルックアップの結果として戻される資格を得る前に、候補エレメントの名前と一定の最小数のバイトを共有しているという付加的な要件があり得る（そうでない場合、コンテンツ連想ルックアップは欠落を戻す）。スクリーニング要件の別の例は、ツリーナビゲーションプロセスが、複数の基本データエレメント（ツリーナビゲーションが終了したノードをルートとする）がツリーナビゲーションプロセスの結果として戻されるように、１つも基本データエレメントに到達することなく終了した場合は、これら複数の基本データエレメントは、これらエレメントの数が４〜１６個のエレメントといった一定の指定された制限未満である場合にのみ、コンテンツ連想ルックアップ全体の結果として戻される資格を得るようなものであってもよい（そうでない場合、コンテンツ連想ルックアップは欠落を戻す）。複数の要件同士の組合せを使用して、コンテンツ連想ルックアップの結果を判定してもよい。複数の候補がまだ残っている場合は、ナビゲーションルックアヘッドバイトおよび関連のメタデータを調べて、どの基本データエレメントが最適であるかを決定してもよい。選択を１つの基本データエレメントにまだ狭めることができない場合は、複数の基本データエレメントを導出機能に供給してもよい。このように、ルックアッププロセスは、「欠落」を報告するかもしくは１つの基本データエレメントを戻し、または１つの基本データエレメントでない場合は、候補エレメントを導出するための良好な開始点である可能性が高い一組の基本データエレメントを戻す。

ツリーは、効率的なコンテンツ連想アクセスのために設計される必要がある。バランスの取れたツリーは、データの大部分について同程度のアクセス深度を提供する。ツリーのいくつかの上位レベルはプロセッサキャッシュ内に、次のいくつかのレベルは高速メモリ内に、その後続レベルはフラッシュストレージに存在していることが多いと予想される。超大型データセットについては、１つ以上のレベルがフラッシュストレージ内に、またはさらにはディスク内に存在しなければならない可能性もある。

図４は、本明細書に記載のいくつかの実施形態に従う、２５６ＴＢの基本データがどのようにツリー形態に組織化され得るかの例を示し、当該ツリーがどのようにメモリおよびストレージ内にレイアウトされ得るかを提示する。ノード毎に６４（２⁶）個の子の平均ファンアウトを仮定して、基本データエレメントの参照は、（平均して）ツリーの第６レベル（すなわち５個のリンクトラバースまたはホップの後）に存在している（たとえば図３Ｈに示すような）リーフノードデータ構造に到達することによってアクセスされ得る。したがって、５個のホップ後のツリーの第６レベルにおけるそのような構造は、さらに２³⁰個のそのようなノードに沿って存在し、各々が平均６４個の子（これらの子は基本データエレメントの参照である）を有するので、約６４０億個の基本データエレメントを収容している。４ＫＢのエレメントサイズでは、これによって２５６ＴＢの基本データエレメントが収容される。

ツリーは、以下のようにツリーの６レベルをトラバースすることができるようにレイアウトされ得る：オンチップキャッシュ内に存在する３レベル（約２５６Ｋ個のノードへのリンクのための移行を指定する約４０００個の「上位レベル」ツリーノードデータ構造を含む）、メモリ内の２レベル（約１０億個のリーフノードへのリンクのための移行を指定する１６００万個の「中位レベル」ツリーノードデータ構造を含む）、およびフラッシュストレージ内の第６レベル（１０億個のリーフノードデータ構造を収容する）。フラッシュストレージ内のツリーのこの第６レベルに存在している１０億個のリーフノードデータ構造は、６４０億個の基本データエレメントの参照（リーフノード毎に平均で６４個のエレメント）を供給する。

図４に示す例では、第４および第５レベルにおいて、各ノードは平均で１６バイト／エレメント（子ＩＤに１バイト、たとえばＰＤＥの６バイト参照、およびさらに、バイトカウントに１バイト、およびさらに、実際の移行バイトを指定するために平均で８バイト、および何らかのメタデータ）を費やす。第６レベルにおいて、各リーフノードは平均で４８バイト／エレメント（子ＩＤに１バイト、バイトカウントに１バイト、実際の移行バイトを指定するために８バイト、基本データエレメントの６バイト参照、この基本データエレメントからの導出物のカウントのために１バイト、ナビゲーションルックアヘッドの１６バイト、基本データエレメントのサイズに２バイト、および１３バイトの他のメタデータ）を費やし、したがって、ツリーに必要なフラッシュストレージ内の全容量（基本データエレメントの参照を含み、いずれかのメタデータを含む）は約３テラバイトである。ツリーの上位ノードに必要な全容量はこのサイズのほんの一部である（ノードが少なく、子ノードのより緊密な参照を指定するのに必要なバイトが少なくて済み、ノード毎に必要なメタデータが少なくて済むため）。この例では、上位ツリーノードは平均で８バイト／エレメント（子ＩＤに１バイト、バイトカウントに１バイト、およびさらに、実際の移行バイトを指定するために平均で３〜４バイト、および子ノードの２〜３バイト参照）を費やす。全体として、この例では、２５６ＴＢの基本データを有する合成データセットが、３ＴＢ（または２５６ＴＢの１．１７％）の付加的な装置を用いて１０億個のグループにソートされる。

２５６ＴＢの基本データの各々が４ＫＢの６４０億個の基本データエレメントを含む図４に示す例では、６４０億個の基本データエレメント同士を完全に区別するために５バイト（または３６ビット）未満のアドレスが必要である。コンテンツ連想の観点から、データの混合が、平均４バイトの漸進的な名前が最初の３レベルの各々で消費され、８バイトが次の３レベルの各々で消費されるようなものである場合、（平均で）合計３６バイト（２８８ビット）の名前が６４０億個の基本データエレメントのすべてを区別することになる。これら３６バイトは、各エレメントを構成する４ＫＢの１％未満である。４ＫＢの基本データエレメントがそのバイトの１％（またはさらには５〜１０％）によって識別可能である場合は、（バイトの大半を構成する）残りのバイトはゆらぎに耐えることができ、そのようなゆらぎを有する候補でもこの基本データエレメントに到達することができ、そこからの導出のために考慮され得る。

なお、（下位のさまざまな下位のサブツリー同士を区別するための）任意の所与のリンク上に必要なバイトの数は、データセットを含むエレメントの混合内の実際のデータによって支配される。同様に、所与のノードから出るリンクの数もデータによって異なる。自己記述ツリーノードおよびリーフノードデータ構造は、リンク毎に必要なバイトの実際の数および値、ならびに任意のノードから発生するリンクの数を宣言する。

ツリーのさまざまなレベルで費やされるキャッシュ、メモリ、およびストレージの量を制限するようにさらに制御して、入力を、増分ストレージの割当てられたバジェット内で可能な限り多くの区別されたグループにソートすることができる。エレメント同士を完全に区別するために非常に深いサブツリーを必要とするデータの密度およびポケットが存在する状況に対処するために、そのような密度は、大きい一組の関連のエレメントをツリーの一定の深さ（たとえば第６レベル）におけるフラットなグループにグループ分けし、これらに対して合理化された検索および導出を行なうことによって（まずナビゲーションルックアヘッドおよびメタデータを調べて最良の基本データエレメントを判定するか、または（フォールバックとして）残りのデータについて当該方法によって与えられる全導出ではなく重複のみを探すことによって）効率的に対処され得る。これによって非常に深いツリーの作成が回避される。別の代替案は、これらのレベルが利用可能なメモリに収まる限り、（多くのレベルを有する）深いツリーを許可することである。より深いレベルがフラッシュまたはディスクにスピルアウトした瞬間に、ツリーをそのレベルから前方にフラット化して、待ち時間を最小化するための工程を取ることができ、そうしなければ、フラッシュまたはディスクに記憶されたツリーノードのより深いレベルへの複数の連続アクセスによって待ち時間が発生する。

多くの場合、各基本データエレメントを識別するのに、エレメントの名前からの全バイトの比較的小さい一部で十分であると予想される。本明細書に記載の実施形態を用いてさまざまな実世界データセットに対して行なった研究では、基本データエレメントのバイトの小さいサブセットがエレメントの大半を順序付けてソリューションを可能にする役割を果たすことが確認されている。ゆえに、そのようなソリューションは、そのオペレーションのために必要なストレージの量の観点で効率的である。

図４の例に必要なアクセスの観点から、４ＫＢのチャンクの入力（または候補エレメント）を受信するごとに、スキームはツリー構造に問合せてリーフノードに到達するために以下のアクセスを必要とする：３つのキャッシュ参照、２つのメモリ参照（または場合によっては複数のメモリ参照）、およびさらに、リーフノードデータ構造にアクセスするためのフラッシュストレージからの１回のＩＯ。ストレージからのこの１回のＩＯは４ＫＢのページをフェッチし、これは、対象の基本データエレメントに費やされる４８バイトを含む、約６４個のエレメントのグループについてのリーフノードデータ構造の情報を保持する。これら４８バイトは、対象の基本データエレメントについてのメタデータを含む。これによってツリールックアッププロセスが終了する。続いて、必要なＩＯの回数は、候補エレメントが重複であるか、導出物であるか、またはシーブにインストールすべき新規な基本データエレメントであるかに依存する。

基本データエレメントの重複である候補エレメントは、基本データエレメントをフェッチして当該重複を検証するために１回のＩＯを必要とする。重複が検証されると、ツリー内のメタデータを更新するためにもう１回ＩＯがある。したがって、重複エレメントの取込みにはツリールックアップの後に２回のＩＯが必要であり、全部で３回のＩＯが必要である。

ツリールックアップに失敗し、重複でも導出物でもない候補エレメントは、当該エレメントを新たな基本データエレメントとしてシーブに記憶するためにもう１回のＩＯ、およびツリー内のメタデータを更新するためにさらにもう１回のＩＯを必要とする。ゆえに、ツリールックアップに失敗する候補エレメントの取込みにはツリールックアップ後に２回のＩＯが必要であり、全部で３回のＩＯが必要である。しかし、ツリールックアッププロセスがストレージＩＯを必要とせずに終了する候補エレメントについては、そのような候補エレメントを取込むためには全部で２回のＩＯで済む。

導出物である（しかし重複ではない）候補エレメントはまず、導出を計算するために必要な基本データエレメントをフェッチするために１回のＩＯを必要とする。ほとんどの場合、導出は（複数ではなく）１つの基本データエレメントからのものであると予想されるので、基本データエレメントをフェッチするには１回のＩＯのみで済むと予想される。導出の完了が成功したのに続いて、再構成プログラムおよび導出詳細を記憶されるエレメントについて作成されたエントリに記憶するためにもう１回のＩＯが、かつ新たな導出物を反映するようにツリー内のメタデータ（カウントなど）を更新するためにさらにもう１回のＩＯが必要となる。したがって、導出物となる候補エレメントの取込みには第１のツリールックアップの後にさらに３回のＩＯが必要であり、全部で４回のＩＯが必要である。

要約すると、（超大型データセット全体にわたってグローバルに冗長を利用しつつ）候補エレメントを取込み、当該候補エレメントにData Distillation（商標）法を適用するためには、約３回から４回のＩＯが必要である。旧来のデータ重複排除技術が必要とするものと比較して、これは典型的に候補エレメント毎にＩＯが１回増えただけであり、その見返りに、エレメント自体よりも細かくデータセット全体にわたってグローバルに冗長を利用することができる。

２５０，０００回のランダムＩＯアクセス／秒（４ＫＢのページへの１ＧＢ／秒のランダムアクセスの帯域幅を意味する）を提供するストレージシステムは、約６２，５００個の入力チャンク／秒（各々が４ＫＢの平均サイズの入力チャンク毎に４回のＩＯで分割される２５０，０００個）に対してData Distillation（商標）法を取込んで実行することができる。これによって、ストレージシステムの全帯域幅を使い果たしつつ２５０ＭＢ／秒の取込速度が可能になる。ストレージシステムの帯域幅の半分のみが用いられる（したがって残りの半分は記憶データのアクセスに利用可能である）場合も、そのようなData Distillation（商標）システムはやはり１２５ＭＢ／秒の取込速度を提供可能である。ゆえに、十分な処理能力を前提として、Data Distillation（商標）システムは、無駄のないＩＯで（エレメント自体よりも細かく）データセット全体にわたってグローバルに冗長を利用することができ、現在のストレージシステムに対して数百メガバイト／秒の取込速度でデータ削減を提供することができる。

ゆえに、試験結果によって確認されたように、本明細書に記載の実施形態は、無駄のないＩＯアクセスで、装置に必要な最小の増分ストレージで、莫大なデータストアからエレメントがあるかを検索する（導出を指定するのに必要な最小ストレージで、そこから入力エレメントが導出され得る）複雑なタスクを達成する。このように構築されたこのフレームワークによって、エレメントの全バイトのより小さい割合を用いて導出に好適なエレメントを見つけることが実行可能になり、バイトの大部分がゆらぎおよび導出に利用可能になる。このスキームがほとんどのデータに対して効果的に働く理由を説明する重要な洞察は、ツリーが、シーブ内のエレメントを特定する区別バイトおよび識別バイトの位置を特定することができる使いやすい細かい構造を提供することであり、これらのバイトは各々がデータ内の異なる深さおよび位置にあるが、それらをツリー構造内で効率的に分離して記憶できることである。

図５Ａ〜図５Ｃは、本明細書に記載の実施形態を用いてデータがどのように組織化され得るかの実際の例を示す。図５Ａは、５１２バイトの入力データ、および因子分解の結果（たとえば図２のオペレーション２０２を実行した結果）を示す。この例では、フィンガープリンティングが適用されてデータ内のブレークが求められるので、連続するブレークが候補エレメントを識別する。交互に現われる候補エレメントは太字および通常フォントを用いて示されている。たとえば、第１の候補エレメントは「b8ac83d9dc7caf18f2f2e3f783a0ec69774bb50bbe1d3ef1ef8a82436ec43283 bc1c0f6a82e19c224b22f9b2」であり、次の候補エレメントは「ac83d9619ae5571ad2bbcc15d3e493eef62054b0 5b2dbccce933483a6d3daab3cb19567dedbe33e952a966c49f3297191cf22aa3 1b98b9dcd0fb54a7f761415e」である、などである。図５Ａの入力は、示されるように１２個の可変サイズの候補エレメントに因子分解される。各チャンクの先頭バイトを用いてエレメントがシーブ内に順序付けられて組織化される。図５Ｂは、図５Ａに示す１２個の候補エレメントが、それらの名前を用いて、かつ図３Ｂに記載のツリー構造を用いて、どのようにツリー形態でシーブ内に基本データエレメントとして組織化され得るかを示す。各エレメントは、当該エレメントのコンテンツ全体から構築される別個の名前を有する。この例では、フィンガープリンティングが適用されて１２個の候補エレメント同士の間のブレークが求められるので、各候補エレメントの先頭バイトは既にアンカーフィンガープリントと整列していることになる。したがって、各名前の先頭バイトは、このフィンガープリントをアンカーとするコンテンツの第１の次元からすでに構築されていることになる。名前の先頭バイトはさまざまなエレメントを組織化する。たとえば、エレメントの名前の最初のバイトが「0x22」と等しい場合は、トップリンクを取って基本データエレメント♯１を選択する。なお、図５Ｂのさまざまなリンクは、図３Ｂに示すツリーデータ構造を参照して説明したようにさまざまな数のバイトを用いて区別される。

図５Ｃは、図５Ａに示す１２個の候補エレメントが、図３Ｄを参照して説明したツリーデータ構造を用いてどのように組織化され得るかを示す。フィンガープリンティングが各エレメントのコンテンツにさらに適用されて、エレメントのコンテンツ内の２次フィンガープリントが識別される。第１のフィンガープリント（各エレメントの境界に既に存在している）および第２のフィンガープリントの場所から抽出されたコンテンツのバイトが連結されて名前の先頭バイトが形成され、これを用いてエレメントが組織化される。言い換えると、名前のエレメントは以下のように構築される：２つの次元またはフィールド（それぞれアンカーフィンガープリントおよび２次フィンガープリントによって位置を特定される）からのデータのバイトが連結されて名前の先頭バイトが形成され、残りのバイトがそれに続く。この名前の構築の選択の結果として、バイトのさまざまなシーケンスによってさまざまな基本データエレメントが（図５Ｂに対して）図５Ｃにおいてもたらされる。たとえば、基本データエレメント♯４に到達するために、ツリーナビゲーションプロセスはまず、第１の次元（すなわち第１のフィンガープリント）におけるフィールドの先頭バイトである「46093f9d」に対応するリンクを取り、次に、第２の次元（すなわち第２のフィンガープリント）に位置するフィールドの先頭バイトである「c4」に対応するリンクを取る。

図６Ａ〜図６Ｃは、本明細書に記載のいくつかの実施形態に従う、それぞれ図１Ａ〜図１Ｃを参照して説明したコンテンツ連想マッパー１２１および１２２にどのようにツリーデータ構造が使用され得るかを示す。

好適な基本データエレメント（そこから候補エレメントを導出することを試みる）を見つけるという困難な問題が解決すると、問題は、基本データエレメントの１つまたは小さいサブセットを調べること、および、導出を指定するのに必要な最小ストレージでそれらから候補エレメントを最適に導出することに絞り込まれる。他の目的として、ストレージシステムへのアクセス数を最小限に維持すること、ならびに導出時間および再構成時間を許容可能に維持することがある。

導出部は、１つ以上の基本データエレメントに対して行った変換の結果として候補エレメントを表現する必要があり、これらの変換を、データが取出されると導出物を再生成するために用いられる再構成プログラムとして指定する必要がある。各導出では、その固有のプログラムを構築する必要があり得る。導出部の機能は、これらの変換を識別し、再構成プログラムを最小フットプリントで作成することである。１つ以上の基本データエレメントに対して、または各エレメントの特定のフィールドに対して実行される算術、代数、または論理演算を含む、さまざまな変換が使用され得る。また、１つ以上の基本データエレメントにおけるバイトの連結、挿入、置換、および削除といった、バイト操作変換を用いてもよい。

図７Ａは、本明細書に記載のいくつかの実施形態に従う、再構成プログラム内に指定され得る変換の例を提供する。この例で指定される変換の語彙は、エレメント内の特定長さのフィールドに対する算術演算、ならびに、基本データエレメント内の指定されたオフセットにおける宣言された長さのバイトの挿入、削除、付加、および置換を含む。さまざまな技術および演算が導出部によって使用されて、候補エレメントと１つ以上の基本データエレメントとの間の類似および相違が検出され、再構成プログラムが構築され得る。導出部は、根本的なハードウェアにおいて利用可能な語彙を利用してその機能を実行し得る。この作業の最終結果は、再構成プログラムについて指定される語彙で変換を指定すること、および、最小量の増分ストレージを用いて、高速データ取出しをも可能にする態様でそれを行なうことである。

導出部は、根本的なマシンの処理能力を利用し、自身に割当てられた処理予算内で作業して、システムのコストパフォーマンス制約内で可能な最良の分析を提供し得る。マイクロプロセッサコアがより容易に利用可能であると仮定して、かつストレージへのＩＯアクセスが高価であると仮定して、Data Distillation（商標）ソリューションは、現在のマイクロプロセッサの処理能力を利用して、数個の基本データエレメントから候補エレメントのコンテンツの局所的な分析および導出を効率的に行なうように設計されている。（超大型データに対する）Data Distillation（商標）ソリューションのパフォーマンスは、計算処理によってではなく典型的なストレージシステムのＩＯ帯域幅によって速度が制限される。たとえば、２５０，０００回のＩＯ／秒をサポートする典型的なフラッシュベースのストレージシステムに対して数百メガバイト／秒の取込速度をサポートするために必要な計算および分析を行なうのに、２、３個のマイクロプロセッサコアで十分であると予想される。なお、インテルXeonプロセッサＥ５−２６８７Ｗ（１０コア、３．１ＧＨｚ、２５ＭＢキャッシュ）といった現在のマイクロプロセッサからの２つのそのようなマイクロプロセッサコアは、プロセッサから利用可能な全計算能力のごく一部（１０分の２）である。

図７Ｂは、本明細書に記載のいくつかの実施形態に従う、基本データエレメントから導出されている候補エレメントの結果の例を示す。具体的には、データパターン「Elem」は基本データストアに記憶されている基本データエレメントであり、データパターン「Cand」は基本データエレメントから導出すべき候補エレメントである。「Cand」と「Elem」との間の１８個の共通バイトがハイライト表示されている。再構成プログラム７０２は、データパターン「Cand」がデータパターン「Elem」からどのように導出され得るかを指定する。図７Ｂに示すように、再構成プログラム７０２は、１バイトの置換、６バイトの挿入、３バイトの削除、７バイトのバルク置換を用いることによって「Elem」から「Cand」をどのように導出するかを示す。導出物を指定するコストは２０バイト＋３バイト参照＝２３バイトであり、これは元のサイズの６５．７１％である。なお、示される再構成プログラム７０２は人間が読取り可能なプログラムの表現であり、プログラムが本明細書の記載の実施形態によってどのように実際に記憶されるかではない場合がある。同様に、乗算および加算などの算術演算に基づく他の再構成プログラムも図７Ｂに示されている。たとえば、「Elem」がbc1c0f6a790c82e19c224b22f900ac83d9619ae5571ad2bbec152054ffffff83であり、「Cand」がbc1c0f6a790c82e19c224b22f91c4da1aa0369a0461ad2bbec152054ffffff83である場合は、乗算(00ac83d9619ae557)*2a = [00]1c4da1aa0369a046を用いて示されるように８バイトの差が導出され得る。導出物を指定するコストは４バイト＋３バイト参照＝７バイトであり、これは元のサイズの２０．００％である。あるいは、「Elem」がbc1c0f6a790c82e19c224b22f9b2ac83ffffffffffffffffffffffffffffb283であり、「Cand」がbc1c0f6a790c82e19c224b22f9b2ac8300000000000000000000000000002426である場合は、加算を用いて、たとえば、オフセット１６で始まる１６バイト領域に0x71a3を加算して繰り上げを切り捨てることによって、示されるように１６バイトの差が導出され得る。導出物を指定するコストは５バイト＋３バイト参照＝８バイトであり、これは元のサイズの２２．８５％である。なお、図７Ａのサンプル符号化は例示目的で選択されているに過ぎない。図７Ｂの例は３２バイトのデータサイズを有しており、したがって、エレメント内の長さおよびオフセットフィールドには５ビットで十分である。大きいエレメント（たとえば４ＫＢのエレメント）については、これらのフィールドのサイズを１２ビットに増加させる必要がある。同様に、サンプル符号化は３バイトまたは２４ビットの参照サイズを収容する。これによって、１６００万個の基本データエレメントを参照することが可能になるべきである。参照が、たとえば２５６ＴＢのデータ内のいずれかの場所をアドレス指定できる必要がある場合、参照は６バイトのサイズである必要がある。そのようなデータセットを４ＫＢのエレメントに因子分解すると、参照を指定するのに必要な６バイトは４ＫＢのエレメントのサイズのほんの一部である。

（１つ以上の基本データエレメントから導出される）導出エレメントを指定するのに必要な情報のサイズは、再構成プログラムのサイズと、必要な（１つ以上の）基本データエレメントを指定するのに必要な参照のサイズとの合計である。候補エレメントを導出エレメントとして指定するのに必要な情報のサイズは、基本データエレメントからの候補の距離と称される。候補が複数のセットの基本データエレメントのうちのいずれか１セットから実行可能に導出され得る場合、最短距離を有する基本データエレメントのセットがターゲットとして選択される。

２つ以上の基本データエレメントから（これらの各々から導出した抽出をアセンブルすることによって）候補エレメントを導出する必要がある場合、導出部は、ストレージシステムへの付加的なアクセスのコストを考慮に入れ、それを、より小さい再構成プログラムおよびより小さい距離の利点と比較検討する必要がある。候補についての最適な再構成プログラムが作成されると、その距離が距離閾値と比較され、距離が閾値を超えない場合は導出が受付けられる。導出が受付けられると、候補エレメントは導出エレメントとして再公式化され、基本データエレメントと再構成プログラムとの組合せで置換される。候補エレメントについて作成された蒸留データへのエントリは、再構成プログラムと、関連の基本データエレメントの１つ以上の参照とで置換される。最良の導出についての距離が距離閾値を超える場合は、導出物は受付けられない。

データ削減をもたらすために、距離閾値は常に候補エレメントのサイズ未満でなければならない。たとえば、距離閾値は候補エレメントのサイズの５０％に設定されてもよく、これによって、導出物は、そのフットプリントが候補エレメントのフットプリントの半分以下である場合にのみ受付けられることになり、これによって、好適な導出が存在する候補エレメント毎に２倍以上の削減が確実になる。距離閾値は、ユーザが指定した入力に基づく、またはシステムによって選択される、予め定められた割合または分数であってもよい。距離閾値は、システムの静的または動的パラメータに基づいてシステムによって決定されてもよい。

図８Ａ〜８Ｅは、本明細書に記載のいくつかの実施形態に従う、入力データを固定サイズのエレメントに因子分解し、当該エレメントを図３Ｄおよび図３Ｅを参照して説明したツリーデータ構造に組織化することによってどのようにデータ削減が実行され得るかを示す。図８Ａは、どのように入力データが３２バイトのチャンクに単純に因子分解され得るかを示す。具体的には、図８Ａは最初の１０個のチャンクを、そしてたとえば４２００万個のチャンクの後に現われるさらにいくつかのチャンクを示す。図８Ｂは、名前の先頭バイトが（アンカーフィンガープリント、２次フィンガープリントおよび３次フィンガープリントの場所に対応する）エレメントのコンテンツ内の３つの次元からのコンテンツで構成されるように構築された名前を用いる、シーブ内の基本データエレメントの組織を示す。具体的には、図８Ｂでは、各３２バイトのチャンクが３２バイトの候補エレメント（固定サイズのブロック）になる。フィンガープリンティングの方法がエレメントのコンテンツに適用される。各エレメントは、以下のように構築される名前を有する：エレメントの３つの次元またはフィールド（それぞれアンカーフィンガープリント、２次フィンガープリント、および３次フィンガープリントによって位置が特定される）からのデータのバイトが連結されて名前の先頭バイトが形成され、エレメントの残りのバイトがそれに続く。名前を用いてエレメントがシーブ内に組織化される。図８Ｂに示すように、最初の１０個のチャンクは重複または導出物を含んでおらず、エレメントとしてシーブに順次インストールされる。図８Ｂは、１０番目のチャンクが消費された後のシーブを示す。図８Ｃは、さらに数百万個のデータ入力のエレメントを消費した後の、たとえば次の４２００万個のチャンクが提示された後の、その後の時点におけるシーブのコンテンツを示す。シーブは重複または導出物があるか否か調べられる。エレメントから導出不可能なチャンクはシーブにインストールされる。図８Ｃは、４２００万個のチャンクが消費された後のシーブを示しており、たとえば１６，０００，０１０個のエレメント（３バイトの参照アドレスで論理的にアドレス指定可能）を含んでおり、残りの２６，０００，０００個のチャンクは導出物になる。図８Ｄは、続いてシーブに提示されてシーブへの（エレメント番号２４，７８９として示される）エントリの重複として識別される、新規な入力の例を示す。この例では、シーブは、エレメント２４，７８９（チャンク９）をチャンク４２，０００，０１１について最適なエレメントとして識別する。導出機能は、新たなチャンクが正確な重複であると判断し、それをエレメント２４，７８９の参照で置換する。導出物を表わすコストは元の３５Ｂに対して３バイト参照であり、これは元のサイズの８．５７％である。図８Ｄは、シーブ内の（エレメント番号１８７，１２６として示される）エントリの導出物にコンバートされる入力の第２の例（チャンク４２，０００，０１２）を示す。この例では、シーブは正確な一致がないと判断する。シーブは、エレメント１８７，１２５および１８７，１２６（チャンク８および１）を最適なエレメントとして識別する。新たなエレメントは最適なエレメントから導出される。エレメント１８７，１２５に対する導出およびエレメント１８７，１２６に対する導出が図８Ｄに示されている。エレメント１８７，１２５に対する導出を表わすコストは３９バイト＋３バイト参照＝４２バイトであり、これは元のサイズの１２０．００％である。エレメント１８７，１２６に対する導出を表わすコストは１２バイト＋３バイト参照＝１５バイトであり、これは元のサイズの４２．８５％である。（エレメント１８７，１２６に対する）最良の導出が選択される。再構成サイズは閾値と比較される。たとえば、閾値が５０％である場合、この導出物（４２．８５％）は受付けられる。図８Ｅは、基本データエレメントから導出されるデータチャンクの２つの付加的な例を提供しており、導出物が２つの基本データエレメントからの導出によって実際に作成される一例を含む。第１の例では、チャンク４２，０００，０１３が提示される。シーブは、エレメント９，２９９，９９８（チャンク１０）を最適なエレメントとして識別する。エレメント９，２９９，９９８に対する導出が図８Ｅに示されている。導出物を表わすコストは４バイト＋３バイト参照＝７バイトであり、これは元のサイズの２０．００％である。再構成サイズは閾値と比較される。たとえば、閾値が５０％である場合、この導出物（２０．００％）は受付けられる。第２の例では、チャンク４２，０００，０１４が提示される。この例では、チャンク４２，０００，０１４は、チャンクの半分がエレメント９，２９９，９９７から最良に導出され得、チャンクの残りの半分がエレメント９，２９９，９９８から最良に導出され得るようなものである。したがって、マルチ導出エレメントが作成されてさらなるデータ削減がもたらされる。マルチエレメント導出は図８Ｅに示されている。このマルチ導出エレメントを表わすコストは３バイト参照＋３バイト＋３バイト参照＝９バイトであり、これは元のサイズの２５．７１％である。再構成サイズは閾値と比較され、たとえば閾値が５０％である場合、この導出物（２５．７１％）は受付けられる。なお、単一の導出エレメントからの最良の結果は４５．７１％であったはずである。

図８Ａ〜８Ｅは、Data Distillation（商標）システムが固定サイズのブロックを消費して生成しつつデータ削減を行うのに効果的であり得るという、Data Distillation（商標）システムの重要な利点を示す。なお、固定サイズのブロックは高パフォーマンスストレージシステムにおいて非常に望ましい。Data Distillation（商標）装置を用いて、多数の固定サイズのブロックで構成される大きい受信入力ファイルが、すべての基本データエレメントが固定サイズであるように、多数の固定サイズのエレメントに因子分解され得る。導出エレメント毎の潜在的に可変サイズの再構成プログラムは互いにパックされて蒸留データファイル内にインラインに維持され得、これは続いて固定サイズのブロックにチャンク分けされ得る。ゆえに、すべての実用的な目的で、ストレージシステム内で固定サイズのブロックを消費して作成しつつ、強力なデータ削減を実行することができる。

図９Ａ〜図９Ｃは、最初に図１Ｃに示したData Distillation（商標）スキームの例を示す。このスキームは、コンテンツ連想的にアクセスされ得る別個の基本再構成プログラムストアを使用する。そのような構造によって、基本再構成プログラムストア内に既に存在している再構成プログラムを構築する導出物の検出が可能になる。そのような導出物は、既存の再構成プログラムを参照するように再公式化され得る。これによって、再構成プログラム同士の間の冗長の検出が可能になる。図９Ａでは、入力データが取込まれる。フィンガープリンティングの方法が当該データに適用され、フィンガープリント位置にチャンク境界が設定される。入力は、示されるように８個の候補エレメント（図９Ａにおいて太字および通常のフォントで示される交互に現われるチャンク）に因子分解される。図９Ｂでは、８個の候補エレメントがシーブ内に組織化されて示されている。各エレメントは、当該エレメントのコンテンツ全体から構築される別個の名前を有する。この例では、名前のエレメントは以下のように構築される：２つの次元またはフィールド（それぞれアンカーフィンガープリントおよび２次フィンガープリントによって位置を特定される）からのデータのバイトが連結されて名前の先頭バイトが形成され、残りのバイトがそれに続く。この名前を用いてシーブ内にエレメントが順序付けられ、また、ツリー構造を介してシーブへのコンテンツ連想アクセスが提供される。図９Ｂはさらに、基本再構成プログラムを含む第２のコンテンツ連想構造を示す。図９Ｃは重複再構成を示す。いずれの基本データエレメントの重複でもない５５バイトの候補エレメント（図９Ｃに示す）が到着すると仮定する。エレメント３が最適なエレメントとして選択され、最初の２つの次元はＰＤＥ２および３について同一であるが、８８ａ７で始まる残りのバイトはエレメント３と一致する。新たな入力は、１２バイト再構成プログラム（ＲＰ）を用いてエレメント３から導出される。符号化は図７Ａに示すようなものである。なお、この例については、最大エレメントサイズは６４ビットであり、すべてのオフセットおよび長さは、図７Ａに示す５ビットの長さおよびオフセットとは対照的に、６ビット値として符号化される。ＲＰストアが検索され、この新たなＲＰは見つけられない。このＲＰは基本ＲＰストアに挿入され、その値に基づいて順序付けられる。新たなエレメントは、ＲＰストア内の基本データエレメント３の参照、および参照４における新たに作成された基本再構成プログラムの参照として再公式化される。この導出エレメントについての全ストレージサイズは、３バイトのＰＤＥ参照、３バイトのＲＰ参照、１２バイトのＲＰ＝１８バイトであり、これは、それをＰＤＥとして記憶することに対して、サイズの３１．０％である。その後、５５バイトの候補エレメントのコピーが到着すると仮定する。前と同様に、エレメント３に基づいて１２バイトのＲＰが作成される。ＲＰストアが検索され、基本ＲＰＩＤ＝３、ＲＰ参照＝４を有するＲＰが見つけられる。この候補エレメントは、基本データエレメント３の参照および再構成プログラム４の参照としてシステム内に表わされる。この導出エレメントについて追加される全ストレージサイズは、３バイトのＰＤＥ参照、３バイトのＲＰ参照＝６バイトとなり、これは、それをＰＤＥとして記憶することに対して、サイズの１０．３％である。

図１０Ａは、本明細書に記載のいくつかの実施形態に従う、再構成プログラム内に指定された変換がどのように基本データエレメントに適用されて導出エレメントをもたらすかの例を提供する。この例は、１８７，１２６と番号付けられた基本データエレメント（この基本データエレメントは図８Ｃのシーブ内にも示されている）に、示される再構成プログラムによって指定されるような４つの変換（挿入、置換、削除、および付加）を適用することによって当該基本データエレメントから生成されるように指定された導出エレメントを示す。図１０Ａに示すように、エレメント１８７，１２６がシーブからロードされ、再構成プログラムが実行されてエレメント１８７，１２６からチャンク４２，０００，０１２が導出される。図１０Ｂ〜図１０Ｃは、本明細書に記載のいくつかの実施形態に従うデータ取出しプロセスを示す。各データ取出し要求は本質的に蒸留データ内のエレメントの形態を取り、無損失削減フォーマットで取出しエンジンに提示される。エレメント毎の無損失削減フォーマットは、関連付けられた基本データエレメントおよび再構成プログラムの参照を含む。Data Distillation（商標）装置の取出部は基本データエレメントおよび再構成プログラムをフェッチし、これらを再構成のために再構成部に供給する。蒸留データのエレメントについての関連の基本データエレメントおよび再構成プログラムがフェッチされた後、再構成部は再構成プログラムを実行して、エレメントをその本来の未削減形態で生成する。再構成を実行するためにデータ取出しプロセスが必要とする労力は、再構成プログラムのサイズおよび基本データエレメントのサイズに対して直線的である。したがって、当該システムによって高いデータ取出率を達成することができる。

蒸留データ内の無損失削減形態からその本来の未削減形態にエレメントを再構成するためには、基本データエレメントおよび当該エレメントについて指定された再構成プログラムのみをフェッチするだけでよいことが明白である。ゆえに、所与のエレメントを再構成するために、他のエレメントにアクセスするかまたは他のエレメントを再構成することは不要である。このため、Data Distillation（商標）装置は、再構成および取出しの要求のランダムなシーケンスをサービスする場合にも効率的である。なお、Lempel Ziv法といった旧来の圧縮法は、所望のブロックを含むデータのウインドウ全体をフェッチして復元する必要がある。たとえば、ストレージシステムがLempel-Ziv法を利用して３２ＫＢのウインドウを用いて４ＫＢのデータのブロックを圧縮し、次に所与の４ＫＢのブロックをフェッチして復元する場合、３２ＫＢのウインドウ全体をフェッチして復元する必要がある。これは、所望のデータを提供するためにより大きい帯域幅を消費し、より大量のデータを復元する必要があるため、パフォーマンスペナルティを課す。Data Distillation（商標）装置はそのようなペナルティを受けない。

Data Distillation（商標）装置は、システム内のデータ全体にわたってグローバルに冗長を効率的に発見して利用する態様でデータを組織化して記憶するようにさまざまな方法でコンピュータシステムに統合され得る。図１１Ａ〜図１１Ｇは、本明細書に記載のいくつかの実施形態に従う、Data Distillation（商標）メカニズム（ソフトウェア、ハードウェア、またはそれらの組合せを用いて実現され得る）を含むシステムを示す。図１１Ａは、プロセッサ、メモリおよびデータストレージコンポーネントで構成されるハードウェアプラットフォーム上で実行されるシステムソフトウェア上で動作するソフトウェアアプリケーションを有する汎用計算プラットフォームを提示する。図１１Ｂは、プラットフォームのアプリケーション層に統合されたData Distillation（商標）装置を示しており、各特定のアプリケーションは当該装置を用いてそのアプリケーションのためのデータセット内で冗長を利用する。図１１Ｃは、データ仮想化層またはサービスの上位で動作するすべてのアプリケーションについて当該データ仮想化層またはサービスを提供するように使用されるData Distillation（商標）装置を示す。図１１Ｄおよび図１１Ｅは、サンプル計算プラットフォームのオペレーティングシステム、ファイルシステムおよびデータ管理サービスを有するData Distillation（商標）装置の２つの異なる統合形態を示す。他の統合方法として、図１１Ｆに示すようなフラッシュベースのデータストレージサブシステムにおいて使用されるようなハードウェアプラットフォームにおける埋込計算スタックとの統合があるが、これに限定されない。

図１１Ｇは、図１１Ｄに示すサンプル計算プラットフォームを有するData Distillation（商標）装置の統合のさらなる詳細を提示する。図１１Ｇは、汎用プロセッサ上のソフトウェアとして実行されるパーサおよび因子分解部、導出部、取出部、ならびに再構成部、ならびにストレージ階層のいくつかのレベルにわたって存在しているコンテンツ連想マッピング構造を有する、Data Distillation（商標）装置のコンポーネントを示す。基本データストアは、（フラッシュベースのストレージドライブといった）記憶媒体内に存在し得る。

図１１Ｈは、Data Distillation（商標）装置がどのようにサンプル汎用計算プラットフォームとインターフェイスし得るかを示す。

ファイルシステムは、ファイル（たとえばテキスト文書、スプレッドシート、実行可能ファイル、マルチメディアファイル等）を識別子（たとえばファイル名、ファイルハンドル等）と関連付け、ファイルと関連付けられた識別子を用いることによってファイル上で操作（たとえば読出、書込、挿入、付加、削除等）を実行できるようにする。ファイルシステムによって実現されるネームスペースはフラットであってもよく、または階層状であってもよい。また、ネームスペースは多層化されてもよく、たとえば、最上層識別子が完全に分解されるまで、最上層識別子が、順次下層において１つ以上の識別子に分解されてもよい。このように、ファイルシステムは、ファイルのコンテンツを物理的に記憶する物理データストレージデバイスおよび／または記憶媒体（たとえばコンピュータメモリ、フラッシュドライブ、ディスクドライブ、ネットワークストレージデバイス、ＣＤ−ＲＯＭ、ＤＶＤ等）の抽象化を提供する。

情報をファイルシステムに記憶するために用いられる物理ストレージデバイスおよび／または記憶媒体は１つまたは複数のストレージ技術を用いてもよく、同一のネットワーク場所に存在してもよいし、または異なるネットワーク場所にわたって分散していてもよい。ファイルおよび当該ファイル上で実行されるように要求される１つ以上の操作と関連付けられた識別子を前提として、ファイルシステムは（１）１つ以上の物理ストレージデバイスおよび／または記憶媒体を識別することができ、（２）当該ファイルシステムによって識別された物理ストレージデバイスおよび／または記憶媒体に、当該識別子と関連付けられたファイル上で実行されるように要求された操作を実行させることができる。

システム内で読出または書込操作が実行されるたびに、異なるソフトウェアおよび／またはハードウェアコンポーネントが関与し得る。「リーダ」という用語は、所与の読出操作がシステム内で実行される際に関与するシステム内のソフトウェアおよび／またはハードウェアコンポーネントの集まりを指し得、「ライタ」という用語は、所与の書込操作がシステム内で実行される際に関与するシステム内のソフトウェアおよび／またはハードウェアコンポーネントの集まりを指し得る。本明細書に記載のデータ削減のための方法および装置のいくつか実施形態は、所与の読出または書込操作が実行される際に関与するシステムの１つ以上のソフトウェアおよび／またはハードウェアコンポーネントによって利用され得るか、またはそれに組込まれ得る。異なるリーダおよびライタは異なるデータ削減実現例を利用するかまたは組込み得る。しかし、特定のデータ削減実現例を利用するかまたは組込む各ライタは、これも同一のデータ削減実現例を利用するかまたは組込むリーダに対応する。なお、当該システムにおいて実行される読出および書込操作の中には、データ削減装置を利用しないかまたは組込まない操作もある。たとえば、Data Distillation（商標）装置またはデータ削減装置１０３が基本データエレメントを取出すか、または新たな基本データエレメントを基本データストアに追加すると、当該装置はデータ削減なしで読出および書込操作を直接実行することができる。

具体的には、図１１Ｈにおいて、ライタ１５０Ｗは一般的に、所与の書込操作が実行される際に関与するシステムのソフトウェアおよび／またはハードウェアコンポーネントを指し得、リーダ１５０Ｒは一般的に、所与の読出操作が実行される際に関与するシステムのソフトウェアおよび／またはハードウェアコンポーネントを指し得る。図１１Ｈに示すように、ライタ１５０Ｗは入力データをData Distillation（商標）装置またはデータ削減装置１０３に与え、Data Distillation（商標）装置またはデータ削減装置１０３から蒸留データ１０８を受信する。リーダ１５０Ｒは取出し要求１０９をData Distillation（商標）装置またはデータ削減装置１０３に与え、取出されたデータ出力１１３をData Distillation（商標）装置またはデータ削減装置１０３から受信する。

図１１Ｈについての実現例として、Data Distillation（商標）装置またはデータ削減装置１０３をアプリケーション、オペレーティングシステムカーネル、ファイルシステム、データ管理モジュール、デバイスドライバ、またはフラッシュもしくはディスクドライブのファームウェアに組込むかまたは利用することがあるが、これらに限定されない。これは、図１１Ｂ〜図１１Ｆに記載のさまざまな構成および使用方法に及ぶ。

図１１Ｉは、Data Distillation（商標）装置がブロック処理ストレージシステムにおけるデータ削減にどのように用いられ得るかを示す。そのようなブロック処理システムでは、データはブロックで記憶され、各ブロックはロジカルブロックアドレスすなわちＬＢＡによって識別される。ブロックは、特定のＬＢＡによって識別されるブロックに新規なデータが上書きされ得るように、絶えず変更されて上書きされている。システム内の各ブロックは候補エレメントとして取扱われ、Data Distillation（商標）装置を用いて、候補エレメントが、（特定の基本データエレメントブロックに記憶される）基本データエレメントの参照と、導出エレメントの場合は（特定の再構成プログラムブロックに記憶される）再構成プログラムの参照とを含む無損失削減形態に削減され得る。図１１Ｉは、ＬＢＡによって識別されるブロックのコンテンツを無損失削減形態の対応するエレメントにマップするデータ構造１１５１を導入する。各ＬＢＡに対して、関連付けられたエレメントの仕様が存在することになる。固定サイズのブロックを用いるシステムにとっては、受信ブロック、基本データエレメントブロック１１５２、および再構成プログラムブロック１１５３がすべて固定サイズであることが便利である。このシステムでは、各基本データエレメントは個別のブロックとして記憶され得る。複数の再構成プログラムが、これも同一の固定サイズである再構成プログラムブロック内にパックされてもよい。データ構造は、基本データエレメントおよび再構成プログラムごとに、カウントフィールドの参照と、リーフノードデータ構造に存在している関連付けられたメタデータとをさらに含むため、ブロックが新規なデータで上書きされると、ＬＢＡに存在している以前のデータを有効に管理することができる。すなわち、（上書きされている）既存の基本データエレメントおよび再構成プログラムのカウントフィールドをデクリメントしなければならず、同様に、ＬＢＡ内への受信データによって参照される基本データエレメントのカウントをインクリメントしなければならない。このデータ構造１１５１内のカウントフィールドの参照を維持することによって、上書きを迅速に管理することができるため、Data Distillation（商標）装置が提供するデータ削減を最大限に活用する高パフォーマンスのブロック処理ストレージシステムが可能になる。

図１２Ａは、本明細書に記載のいくつかの実施形態に従う、帯域幅が制約された通信媒体全体にわたるデータの通信のためのData Distillation（商標）装置の使用を示す。示されるセットアップでは、通信ノードＡは、通信ノードＢに送信すべき一組のファイルを作成する。ノードＡは、Data Distillation（商標）装置を用いて、入力ファイルを、基本データストアにインストールされる基本データエレメントおよび導出エレメントのための再構成プログラムの参照とを含む蒸留データまたは蒸留ファイルに変換する。ノードＡは次に、蒸留ファイルを基本データストアとともにノードＢに送信する（基本データストアは、蒸留ファイルを送信する前に、送信するのと同時に、または送信した後に送信され得、さらに、基本データストアは、同一の通信チャネル上で、または蒸留ファイルを送信するために用いられる通信ファイルとは異なる通信チャネル上で送信され得る）。ノードＢは基本データストアをその端における対応の構造にインストールし、続いてノードＢのData Distillation（商標）装置内に存在している取出部および再構成部を介して蒸留ファイルを送り、ノードＡが作成した元の一組のファイルをもたらす。ゆえに、Data Distillation（商標）装置を媒体の両端で使用して削減データのみを送信することによって、帯域幅が制約された通信媒体がより効率的に使用される。なお、Data Distillation（商標）を使用することによって、（Lempel-Zivといった従来の技術を用いて実行可能である範囲を超えて）より大きい範囲にわたって冗長を利用することができるので、さらに大型のファイルまたはファイルのグループを効率的に送信することができる。

次に、複数のノードにわたって分散しているデータをワークグループが共同して共有する広域ネットワークインストールにおけるData Distillation（商標）装置の使用を説明する。データがまず作成されると、当該データは図１２Ａに示すように削減されて通信され得る。広域ネットワークはデータのコピーを各サイトに維持して、当該データへの迅速なローカルアクセスを可能にする。Data Distillation（商標）装置の使用によって各サイトのフットプリントを削減することができる。さらに、続いていずれかのサイトで新規データを取込むと、新規データと既存の基本データストアのコンテンツとの間のいずれかの冗長を利用して新規データを削減することができる。

そのようなインストールでは、任意の所与のサイトにおけるデータのいずれの修正も、各サイトの基本データストアが一貫して保持されるように、すべての他のサイトに通信する必要がある。したがって、図１２Ｂに示すように、基本データエレメントのインストールおよび削減などの更新、ならびにメタデータ更新は、本明細書に記載のいくつかの実施形態に従って各サイトの基本データストアに通信され得る。たとえば、所与のサイトのシーブに新規な基本データエレメントがインストールされると、基本データエレメントをすべての他のサイトに通信する必要がある。各サイトは、基本データエレメントの値を用いてコンテンツ連想的にシーブにアクセスし、シーブ内のどこに新たなエントリを追加する必要があるかを判断することができる。同様に、所与のサイトのシーブから基本データエレメントが削除されると、この削除を反映するようにすべての他のサイトを更新する必要がある。これが達成され得る１つの方法は、各サイトが基本データエレメントを用いてコンテンツ連想的にシーブにアクセスしてリーフノードへのどのエントリを削除する必要があるかを判断できるように、すべてのサイトに基本データエレメントを、ツリー内の関連リンクへの必要な更新およびストアからのその基本データエレメントの削除とともに通信することによってである。別の方法は、基本データエレメントが存在しているリーフノード内の基本データエレメントについてのエントリの参照をすべてのサイトに通信することである。

ゆえに、Data Distillation（商標）装置を用いて、広域ネットワークのさまざまなサイトにわたって記憶されているデータのフットプリントを削減し、ネットワークの通信リンクを効率的に使用することができる。

図１２Ｃ〜図１２Ｋは、本明細書に記載のいくつかの実施形態に従う、さまざまな使用モデルについてData Distillation（商標）装置によって生成される削減データのさまざまなコンポーネントを示す。

図１２Ｃは、Data Distillation（商標）装置１２０３がどのように一組の入力ファイル１２０１を取込み、蒸留プロセスの完了後に一組の蒸留ファイル１２０５および基本データシーブまたは基本データストア１２０６を生成するかを示す。図１２Ｃの基本データシーブまたは基本データストア１２０６自体は２つのコンポーネント、すなわち、図１２Ｄに示すようなマッパー１２０７および基本データエレメント（またはＰＤＥ）１２０８で構成されている。

マッパー１２０７自体は内部に２つのコンポーネント、すなわち、ツリー全体を規定する一組のツリーノードデータ構造および一組のリーフノードデータ構造を有する。一組のツリーノードデータ構造は１つ以上のファイルに入れられ得る。同様に、一組のリーフノードデータ構造は１つ以上のファイルに入れられ得る。いくつかの実施形態では、ツリーノードファイルと称される１つのファイルが、所与のデータセット（入力ファイル１２０１）のために基本データエレメントについて作成されたツリーのための一組のツリーノードデータ構造全体を保持し、リーフノードファイルと称される別の１つのファイルが、そのデータセットのための基本データエレメントについて作成されたツリーのための一組のリーフノードデータ構造全体を保持する。

図１２Ｄでは、基本データエレメント１２０８は、所与のデータセット（入力ファイル１２０１）のために作成された一組の基本データエレメントを含む。一組の基本データエレメントは１つ以上のファイルに入れられ得る。いくつかの実施形態では、ＰＤＥファイルと称される１つのファイルが、所与のデータセットのために作成された一組の基本データエレメント全体を保持する。

ツリーノードファイル内のツリーノードは、ツリーノードファイル内の他のツリーノードの参照を含む。ツリーノードファイル内のツリーノードの最深層（または最低レベル）は、リーフノードファイル内のリーフノードデータ構造へのエントリの参照を含む。リーフノードファイル内のリーフノードデータ構造へのエントリは、ＰＤＥファイル内の基本データエレメントの参照を含む。

ツリーノードファイル、リーフノードファイル、およびＰＤＥファイルは、装置によって作成されるすべてのコンポーネントの詳細を示す図１２Ｅに示されている。図１２Ｅは、ファイル１、ファイル２、ファイル３、…ファイルＮと名付けられたＮ個のファイルを含む一組の入力ファイル１２０１を示しており、当該ファイルはData Distillation（商標）装置によって削減されて、一組の蒸留ファイル１２０５および基本データシーブのさまざまなコンポーネント、すなわち、ツリーノードファイル１２０９、リーフノードファイル１２１０、およびＰＤＥファイル１２１１を生成する。蒸留ファイル１２０５は、file1.dist, file2.dist, file3.dist…fileN.distと名付けられたＮ個のファイルを含む。Data Distillation（商標）装置は入力データをその構成要素に因子分解し、２つのカテゴリのデータエレメント、すなわち基本データエレメントおよび導出エレメントを作成する。蒸留ファイルは無損失削減フォーマットのデータエレメントの記述を含み、ＰＤＥファイル内の基本データエレメントの参照を含む。入力ファイル１２０１内の各ファイルは、蒸留ファイル１２０５内の対応する蒸留ファイルを有する。たとえば、入力ファイル１２０１内のファイル１１２１２は、蒸留ファイル１２０５内のfile１．distと名付けられた蒸留ファイル１２１３に対応する。

なお、図１２Ｅは、図１Ａに従う蒸留データおよび基本データストアの組織に基づいてデータ蒸留装置によって作成されたさまざまなコンポーネントを示しており、再構成プログラムは蒸留ファイル内のエレメントの無損失削減表現に入れられている。なお、（図１Ｂに従う）いくつかの実施形態では、再構成プログラムを基本データストアに入れて、それらを基本データエレメントと同様に取扱うことができる。蒸留ファイル内のエレメントの無損失削減表現は、（再構成プログラム自体を含むのではなく）基本データストア内の再構成プログラムの参照を含む。これらの実施形態では、再構成プログラムは基本データエレメントと同様に取扱われてＰＤＥファイル１２１１内に生成される。さらに別の実施形態では、図１Ｃに従って、再構成プログラムは、基本データエレメントとは別個に、再構成プログラムストアと称される構造に記憶される。そのような実施形態では、蒸留ファイル内のエレメントの無損失削減表現は、再構成プログラムストア内の再構成プログラムの参照を含む。そのような実施形態では、図１２Ｆに示すように、基本データエレメントのツリー組織のためのツリーノードファイル１２０９、リーフノードファイル１２１０およびＰＤＥファイル１２１１を生成することに加えて、装置は、再構成ツリーノードファイル１２１９および再構成リーフノードファイル１２２０と称される第２の一組のツリーおよびリーフノードファイルを、ＲＰファイル１２２１と称されるすべての再構成プログラムを含むファイルとともに生成する。

図１２Ｅに示すData Distillation（商標）装置はさらに、ツリーノードファイル１２０９、リーフノードファイル１２１０、ＰＤＥファイル１２１１および蒸留ファイル１２０５の１つ以上における演算を支配する構成および制御情報を記憶する。あるいは、この情報を含む第５のコンポーネントが生成されてもよい。図１２Ｆに示す装置と同様に、構成および制御情報は図１２Ｆに示すさまざまなコンポーネントの１つ以上に記憶されてもよく、またはそれは、この目的で生成された別のコンポーネントに記憶されてもよい。

図１２ＧはData Distillation（商標）装置の使用の概要を示しており、所与のデータセット（入力データセット１２２１）がData Distillation（商標）装置１２０３に送られ処理されて、無損失削減データセット（無損失削減データセット１２２４）が生成される。入力データセット１２２１は、ファイル、オブジェクト、ブロック、チャンク、またはデータストリームからの抽出の集まりで構成され得る。なお、図１２Ｅは、データセットがファイルで構成される例を示す。図１２Ｇの入力データセット１２２１は図１２Ｅの入力ファイル１２０１に対応し、図１２Ｇの無損失削減データセット１２２４は図１２Ｅに示す４つのコンポーネント、すなわち、図１２Ｅの蒸留ファイル１２０５、ツリーノードファイル１２０９、リーフノードファイル１２１０、およびＰＤＥファイル１２１１を含む。図１２Ｇでは、Data Distillation（商標）装置は、当該装置に提示される入力データセットの範囲全体にわたるデータエレメント同士の間の冗長を利用する。

Data Distillation（商標）装置は、入力データセットのサブセット全体にわたって冗長を利用し、当該装置に提示されるデータのサブセット毎に無損失削減を提供するように構成され得る。たとえば、図１２Ｈに示すように、入力データセット１２２１は多数のより小さいデータの集まりにパーティション分割され得、各集まりは本開示において「ロット」または「データのロット」または「データロット」と称される。図１２Ｈは、入力データロット１２２４を取込んで無損失削減データロット１２２５を生成するように構成されたData Distillation（商標）装置を示す。図１２Ｈは、データロット１、…データロットｉ、…データロットｎである多数のデータの集まりで構成される入力データセット１２２１を示す。このデータは一度に１データロットずつData Distillation（商標）装置に提示され、各データロットの範囲全体にわたって冗長が利用されて無損失削減データロットが生成される。たとえば、入力データセット１２２１からのデータロットｉ１２２６が装置に送られ、無損失削減データロットｉ１２２８が無損失削減データセット１２２７に供給される。入力データセット１２２１からの各データロットは装置に送られ、対応する無損失削減データロットが無損失削減データセット１２２７に供給される。データロット１、…データロットｉ…データロットｎのすべてを消費して削減すると、入力データセット１２２１は無損失削減データセット１２２７に削減される。

Data Distillation（商標）装置は、設計によって、データのグローバルスコープ全体にわたって冗長を利用するのに既に効率的であるが、上記の技術を用いてデータ削減プロセスをさらに迅速化させ、その効率をさらに向上させてもよい。データ削減プロセスのスループットは、データロットのサイズをシステムの利用可能なメモリに収まることができるように制限することによって増加し得る。たとえば、サイズが多くのテラバイト、またはさらにはペタバイトである入力データセットを、各々のサイズがたとえば２５６ＧＢである多数のデータロットに分割することができ、各データロットを迅速に削減することができる。２５６ＧＢのメモリを有するシングルプロセッサコア（インテルXeon Ｅ５−１６５０Ｖ３、Haswell ３．５Ｇｈｚプロセッサ）を用いて、２５６ＧＢの範囲全体にわたって冗長を利用するそのようなソリューションが我々の研究所で実現され、さまざまなデータセットに対して２〜３倍の削減レベルを提供しつつ数百メガバイト／秒のデータの取込速度がもたらされた。なお、２５６ＧＢの範囲は、Lempel Ziv法が現代のプロセッサに対して１０ＭＢ／秒から２００ＭＢ／秒の取込みパフォーマンスを提供するウインドウのサイズである３２ＫＢより何百万倍も大きい。ゆえに、冗長の範囲を適切に制限することによって、データ蒸留プロセスの速度の向上が、いくらかの削減を潜在的に犠牲にして達成され得る。

図１２Ｉは図１２Ｈのセットアップの変形を示しており、入力データセットのデータ削減（およびデータ再構成／取出し）のスループットを大きく高める複数のプロセッサ上で動作する複数のデータ蒸留プロセスを示す。図１２Ｉは、ｘ個のデータロットにパーティション分割された入力データセット１２０１を示しており、ｘ個の独立したデータロットは、独立したプロセッサコア上で動作するｊ個の独立したプロセスに送り込まれ（各プロセスには、それに送り込まれるいずれかのデータロットを収容するのに十分なメモリが割当てられている）、並列に実行され、データ削減および再構成／取出しの両方について約ｊ倍の迅速化をもたらす。図１２Ｊは、使用モデルについてData Distillation（商標）装置によって生成される削減データのさまざまなコンポーネントを示しており、ここでは入力データセットの削減の後にマッパーをもはや保持しなくてもよい。そのような使用モデルの例として、ある種のデータバックアップおよびデータアーカイビングアプリケーションがある。そのような使用モデルでは、削減データの唯一のその後の使用は、削減データセットからの入力データセットの再構成および取出しである。そのようなシナリオでは、データ削減が完了した後にマッパーを記憶しないことによって、削減データのフットプリントをさらに削減することができる。図１２Ｊは装置に送られる入力ファイル１２０１を示しており、当該装置は蒸留ファイル１２０５およびＰＤＥファイル１２１１を生成し、これらコンポーネントはこのシナリオでは削減データを含む。なお、入力ファイル１２０１は、蒸留ファイル１２０５およびＰＤＥファイル１２１１のみを用いて、完全に再生成および回復され得る。蒸留ファイル内のエレメント毎の無損失削減表現は、必要な場合は再構成プログラム、およびＰＤＥファイル内の基本データエレメントの参照を含むことを思い起こされたい。ＰＤＥファイルと結合されると、これは再構成を実行するのに必要なすべての情報である。

なお、図１２Ｊは、図１Ａに従う蒸留データおよび基本データストアの組織に基づいてデータ蒸留装置によって作成されるさまざまなコンポーネントを示しており、再構成プログラムは蒸留ファイル内のエレメントの無損失削減表現に入れられる。なお、（図１Ｂに従う）いくつかの実施形態では、再構成プログラムを基本データストアに入れて、それらを基本データエレメントと同様に取扱うことができる。蒸留ファイル内のエレメントの無損失削減表現は、（再構成プログラム自体を含むのではなく）基本データストア内の再構成プログラムの参照を含む。これらの実施形態では、再構成プログラムは基本データエレメントと同様に取扱われてＰＤＥファイル１２１１内に生成される。さらに別の実施形態では、図１Ｃに従って、再構成プログラムは、基本データエレメントとは別個に、再構成プログラムストアと称される構造に記憶される。そのような実施形態では、蒸留ファイル内のエレメントの無損失削減表現は、再構成プログラムストア内の再構成プログラムの参照を含む。そのような実施形態では、基本データエレメントのためのＰＤＥファイルを生成することに加えて、装置は、ＲＰファイルと称されるすべての再構成プログラムを含むファイルをさらに生成する。これは、使用モデルについての削減データのコンポーネントを示す図１２Ｋに示されており、ここではマッパーをもはや保持しなくてもよい。図１２Ｋは、蒸留ファイル１２０５、ＰＤＥファイル１２１１、およびＲＰファイル１２２１を含む削減されたデータコンポーネントを示す。

図１２Ｌ〜図１２Ｐは、本明細書に記載のいくつかの実施形態に従う、蒸留プロセスが超大型データセットを超高速の取込速度で収容できるようにどのように分散システム上にデプロイおよび実行され得るかを示す。

分散コンピューティングパラダイムは、複数のコンピュータ上で動作するプログラムによる大型データセットの分散処理を伴う。図１２Ｌは、分散コンピューティングクラスタと称される組織内に互いにネットワーク化された多数のコンピュータを示す。図１２Ｌはコンピュータ間のポイントツーポイントリンクを示しているが、図１２Ｌに示すトポロジの代わりに、たとえばハブアンドスポークトポロジまたはメッシュトポロジなどの任意の通信トポロジを用いてもよいことが理解されるであろう。所与のクラスタにおいて、１つのノードが、タスクをスレーブノードに分散させてそれらの全体動作を制御および調整するマスターノードとして指名される。スレーブノードはマスターノードによって指示される通りにタスクを実行する。

データ蒸留プロセスは、分散コンピューティングクラスタの複数のノードにわたって分散して実行されて、クラスタ内の多数のコンピュータの全体的な計算、メモリ、および記憶容量を利用し得る。このセットアップでは、マスターノード上のマスター蒸留モジュールがスレーブノード上で動作するスレーブ蒸留モジュールと対話して、分散したデータ蒸留を達成する。この分散を容易にするために、装置の基本データシーブは、スレーブノード上で動作する複数のスレーブモジュールにわたって分散され得る複数の独立したサブセットまたはサブツリーにパーティション分割され得る。データ蒸留装置においては、基本データエレメントはそれらの名前に基づいてツリー形態に組織化されており、それらの名前はそれらのコンテンツから導出されることを思い起こされたい。基本データシーブは、基本データシーブ内のエレメントの名前の先頭バイトに基づいて複数の独立したサブセットまたは子シーブにパーティション分割され得る。ネームスペースを複数のサブツリーにわたってパーティション分割する複数の方法があり得る。たとえば、エレメントの名前の先頭バイトの値が多数の部分範囲にパーティション分割され、各部分範囲が子シーブに割当てられてもよい。クラスタ内のスレーブモジュールと同数のサブセットまたはパーティションが作成され得るため、独立した各パーティションは特定のスレーブモジュール上にデプロイされる。デプロイされた子シーブを用いて、各スレーブモジュールは自身が受信する候補エレメントに対してデータ蒸留プロセスを実行するように設計される。

図１２Ｍは、４つのノード上で動作する４つのスレーブモジュール上にデプロイされることになるＰＤＳ＿１，ＰＤＳ＿２，ＰＤＳ＿３およびＰＤＳ＿４とラベル付けされた４つの基本データシーブまたは子シーブへの基本データシーブのサンプルパーティション分割を示す。パーティション分割は基本データエレメントの名前の先頭バイトに基づいている。示される例では、ＰＤＳ＿１内のすべてのエレメントの名前の先頭バイトはＡからＩの範囲内にあり、シーブＰＤＳ＿１はそれに向かう値の範囲によってマーク付けされる名前Ａ＿Ｉを有する。同様に、ＰＤＳ＿２内のすべてのエレメントの名前の先頭バイトはＪからＯの範囲内にあり、子シーブＰＤＳ＿２はそれに向かう値の範囲によってマーク付けされる名前Ｊ＿Ｏを有する。同様に、ＰＤＳ＿３内のすべてのエレメントの名前の先頭バイトはＰからＳの範囲内にあり、子シーブＰＤＳ＿３はそれに向かう値の範囲によってマーク付けされる名前Ｐ＿Ｓを有する。最後に、ＰＤＳ＿４内のすべてのエレメントの名前の先頭バイトはＴからＺの範囲内にあり、子シーブＰＤＳ＿４はそれに向かう値の範囲によってマーク付けされる名前Ｔ＿Ｚを有する。

このセットアップでは、マスターノード上で動作するマスターモジュールは入力ファイルを受信し、入力ファイルの軽量パースおよび因子分解を行なって入力ファイルを候補エレメントのシーケンスに分割し、その後、各候補エレメントをさらなる処理のために好適なスレーブモジュールに導く。軽量パースは、スキーマに対して各候補エレメントをパースすることを含んでいてもよく、または候補エレメントに対してフィンガープリンティングを適用して、候補エレメントの名前の先頭バイトを構成する次元を求めることを含んでいてもよい。マスターにおけるパースは、どのスレーブモジュールが候補エレメントを受信すべきかを決定するのに必要な数のバイトのみを識別するように制限される。候補エレメントの名前の先頭バイト内の値に基づいて、候補は、この特定値に対応する子シーブを保持するスレーブノードにおけるスレーブモジュールに転送される。

データがシーブ内に蓄積するにつれて、パーティションは断続的に再検討および再バランシングされ得る。パーティション分割および再バランシング機能はマスターモジュールによって実行され得る。

候補エレメントを受信すると、各スレーブモジュールは、候補エレメントの完全なパースおよび調査によって候補エレメントの名前を作成することから始めて、データ蒸留プロセスを実行する。この名前を用いて、スレーブモジュールは子シーブのコンテンツ連想ルックアップを行ない、蒸留プロセスを実行して、候補エレメントをその子シーブに対する無損失削減表現のエレメントにコンバートする。蒸留ファイル内のエレメントの無損失削減表現は、スレーブモジュールと、それに対してエレメントが削減された対応する子シーブとを識別するためのSlaveNumberと称されるフィールドを用いて高められる。エレメントの無損失削減表現はマスターモジュールに送り返される。候補エレメントが子シーブ内に見つからない場合、または子シーブ内の基本データエレメントから導出できない場合、新規な基本データエレメントが子シーブ内に割当てられるように識別される。

マスターモジュールは入力ファイルからのすべての候補エレメントを適切なスレーブモジュールに導き続け、入力ファイルのためのすべてのエレメントを受信するまで、受信するエレメント記述を（無損失削減表現で）蓄積する。すべてのエレメントを受信した点で、グローバルコミット通信がすべてのスレーブモジュールに発行されて、それぞれの子シーブがそれらの個別の蒸留プロセスの結果で更新され得る。入力のための蒸留ファイルはマスターモジュールにおいて記憶される。

いくつかの実施形態では、任意のスレーブがその子シーブを新規な基本データエレメントまたはメタデータで更新できる前に蒸留ファイル全体が準備されるのを待つのではなく、子シーブの更新は候補エレメントがスレーブモジュールにおいて処理されると完了されてもよい。

いくつかの実施形態では、各子シーブは、図１Ｂおよび図１Ｃについての記述に従う基本データエレメントおよび再構成プログラムを含む。そのような実施形態では、再構成プログラムは子シーブに記憶され、無損失削減表現は、基本データエレメントおよび子シーブ内の再構成プログラム（必要な場合）の両方の参照を含む。これによって、エレメントのサイズ、およびしたがってマスターモジュールにおいて記憶される必要がある蒸留ファイルのサイズがさらに減少する。全体的な方法は、各ファイル内の各チャンクまたは候補エレメントのコンテンツに基づいて、すべてのスレーブノードの組合された記憶容量を活用してファイルをすべてのノードに分散させる。

データ取出しも同様にマスターモジュールによって調整される。マスターモジュールは蒸留ファイルを受信し、蒸留ファイル内のエレメント毎に無損失削減仕様を調べる。マスターモジュールは、どのスレーブモジュールがエレメントを再構成することになるかを示すフィールド「SlaveNumber」を抽出する。エレメントは次に再構成のために適切なスレーブモジュールに送られる。再構成エレメントは次にマスターモジュールに送り返される。マスターモジュールはすべてのスレーブからの再構成エレメントをアセンブルし、ファイルを要求している消費者に再構成ファイルを転送する。

図１２Ｎは、データ蒸留装置がどのように分散システムにおいてデプロイおよび実行され得るかを示す。入力ファイル１２５１がマスターモジュールに送られ、マスターモジュールがファイル内の各候補エレメントの名前の先頭バイトをパースして識別する。マスターモジュールは候補エレメントを４つのスレーブモジュールの１つに導く。ＰＤＳ＿１を保持するスレーブノード１におけるスレーブモジュール１、またはＡからＩの範囲内の値を有する名前の先頭バイトを有する基本データエレメントを含む名前Ａ＿Ｉを有する子シーブは、名前Ａ＿Ｉを有する子シーブ内に既に存在しているエレメントの重複であると判断される名前ＢＣＤ…を有する候補エレメント１２５２を受信する。スレーブモジュール１は、エレメントが基本であり、アドレスrefPDE1においてスレーブ１内に存在しているというインジケータを含む無損失削減表現１２５３を戻す。マスターは図１２Ｎに示すようにすべての候補エレメントを関連のスレーブモジュールに送信し、蒸留ファイルをアセンブルして収集して最後に記憶する。

図１２Ｏは図１２Ｎに示すスキームの変形を示す。この変形では、蒸留ファイル内の各エレメントの無損失削減表現において、それに対してエレメントが削減された特定のChild＿Sieveを識別するフィールドは、そのChild＿Sieveが存在しているモジュールまたはノードの番号の代わりに、そのChild＿Sieveの名前を含む。したがって、フィールドSlaveNumberはフィールドChild＿Sieve＿Nameで置換される。これには、関連のChild＿Sieveを、Child＿Sieveが存在しているモジュールまたは物理ノードの番号ではなくその仮想アドレスによって参照するという利点がある。ゆえに、図１２Ｏに見ることができるように、ＰＤＳ＿１を保持するスレーブノード１におけるスレーブモジュール１、またはＡからＩの範囲内の値を有する名前の先頭バイトを有する基本データエレメントを含む名前Ａ＿Ｉを有する子シーブは、名前Ａ＿Ｉを有する子シーブ内に既に存在しているエレメントの重複であると判断される名前ＢＣＤ…を有する候補エレメント１２５２を受信する。スレーブモジュール１は、エレメントが基本であり、アドレスrefPDE1において名前Ａ＿Ｉを有するChild＿Sieve内に存在しているというインジケータを含む無損失削減表現１２５４を戻す。

なお、図１２Ｌから図１２Ｏに記載の構成を使用することによって、データ蒸留プロセスの全体的なスループット率を増加させることができる。マスターにおけるスループットはこうして、軽量パースおよびマスターモジュールからの候補エレメントのディスパッチによって制限されることになる。多数の候補エレメントについての蒸留は、それらのコンテンツがそれらを別個のスレーブモジュールに導く限り、並列に実行される。

全体的なスループットをさらに高めるために、軽量パース、およびどのChild＿Sieveが候補エレメントを受信すべきかを識別するための入力ストリームの因子分解のタスクを並列化することができる。このタスクは、マスターモジュールによって、複数のスレーブノード上で動作するスレーブモジュールによって並列に実行される複数の同時タスクにパーティション分割され得る。これは、データストリーム内をルックアヘッドし、データストリームを複数の一部重複するセグメントにスライスすることによって達成され得る。これらのセグメントはマスターによってスレーブモジュールの各々に送信され、スレーブモジュールは軽量パースおよび因子分解を並列に行い、因子分解の結果をマスターに送り返す。マスターは、セグメントの各々の境界にわたる因子分解を解いた後、候補エレメントを適切なスレーブモジュールにルーティングする。

図１２Ｌから図１２Ｏは、データ蒸留装置がマスターノード上で動作する１つのマスター蒸留モジュールおよびスレーブノード上で動作する複数のスレーブ蒸留モジュールを用いて分散して動作する構成を説明した。マスターモジュールは、さまざまな子シーブにわたって基本データエレメントのパーティション分割を行なう役割を担っていた。示される構成では、取込むべきすべての入力ファイルがマスターモジュールによって取込まれ、無損失削減された蒸留ファイルがマスターモジュールに保持されていると同時に、すべての基本データエレメント（および任意の基本再構成プログラム）はさまざまなスレーブにおける子シーブ内に存在していた。ファイルのデータ取出し要求もマスターによって処理され、対応する蒸留ファイルの再構成はマスターによって調整されていた。図１２Ｐは、入力ファイルがスレーブ蒸留モジュールのいずれか（およびそれらのモジュールに保持されている対応する蒸留ファイル）によって取込まれ得、データ取出し要求がスレーブ蒸留モジュールのいずれかによって処理され得る変形を示す。マスターモジュールは同じ態様で子シーブにわたって基本データエレメントのパーティション分割を行ない続けるので、子シーブにわたる基本データエレメントの分散は図１２Ｌから図１２Ｏに示す構成における分散と同じである。しかし、図１２Ｐに示す新たな構成では、各スレーブモジュールはデータの取込みおよび取出しの両方が可能であるため、各スレーブモジュールはパーティション分割を認識している。さらに、すべてのモジュールは、それらのモジュールによってデータを取込んだ際にモジュールの各々において作成および記憶される蒸留ファイルの存在および場所を認識している。これによって、いずれかのスレーブモジュールは、システム全体に記憶されているファイルのいずれかのデータ取出し要求を満たすことができる。

図１２Ｐに示すように、スレーブモジュールの各々は分散ストレージシステムからデータを取込んで取出すことができる。たとえば、スレーブ蒸留モジュール１１２７０は入力ファイルＩ１２７１を取込み、軽量パースを行なって入力ファイルＩを因子分解し、入力ファイルＩからの各候補エレメントの名前に対応する子シーブを含むモジュールに候補エレメントをルーティングする。たとえば、入力ファイルＩからの候補エレメント１２７５はスレーブ蒸留モジュール２１２７９に送信される。同様に、スレーブ蒸留モジュール２１２７９は入力ファイルＩＩを取込み、軽量パースを行なって入力ファイルＩＩを因子分解し、入力ファイルＩＩからの各候補エレメントの名前に対応する子シーブを含むモジュールに候補エレメントをルーティングする。たとえば、入力ファイルＩＩからの候補エレメント１２７７はスレーブ蒸留モジュール１１２７０に送信される。スレーブ蒸留モジュールの各々は自身が受信する候補エレメントを処理し、それらの子シーブに対する蒸留プロセスを完了し、候補エレメントの無損失削減表現を、データを取込んだ開始モジュールに戻す。たとえば、スレーブ蒸留モジュール１１２７０からの入力ファイルＩから候補エレメント１２７５を受信したことに応答して、スレーブ蒸留モジュール２１２７９は無損失削減エレメント１２７６をスレーブ蒸留モジュール１１２７０に戻す。同様に、スレーブ蒸留モジュール２１２７９からの入力ファイルＩＩから候補エレメント１２７７を受信したことに応答して、スレーブ蒸留モジュール１１２７０は無損失削減エレメント１２７８をスレーブ蒸留モジュール２１２７９に戻す。

この構成では、データの取出しは任意のスレーブモジュールにおいて満たされ得る。取出し要求を受信するモジュールは、まずその要求ファイルについての蒸留ファイルがどこに存在するかを判断し、対応するスレーブモジュールから蒸留ファイルをフェッチする必要がある。続いて、開始スレーブモジュールは、その蒸留ファイル内のさまざまなエレメントの分散再構成を調整して元のファイルをもたらし、要求しているアプリケーションにそれを供給する必要がある。

このように、データ蒸留プロセスは分散システムの複数のノードにわたって分散して実行されて、クラスタ内の多数のコンピュータの全体的な計算、メモリ、および記憶容量をより効果的に利用し得る。システム内のすべてのノードを利用してデータが取込まれて取出され得る。これによって、システム内のノードの組合された全記憶容量を最大限に活用しつつ超高速なデータ取込みおよび取出しが可能となるはずである。また、これによって、システム内の任意のノード上で動作するアプリケーションが、システム内のどこかに記憶されている任意のデータについてローカルノードにおいて問合せることができ、その問合せの答えを効率的にかつシームレスに得ることができる。

図１２Ｍから図１２Ｐに記載の構成では、システムのさまざまなノード内に存在している子シーブにわたるデータのパーティション分割は、入力ファイルを因子分解することによってエレメントが抽出される、グローバルに可視的なネームスペース内のエレメントの名前に基づいていた。代替の構成では、データロット、または一定のメタデータを共有するファイルのグループ全体が特定のノード上に割当てられて記憶され得る。ゆえに、全体のデータの一次パーティション分割はデータロットに基づいており、マスターによって行なわれて管理される。すべてのスレーブモジュールはデータロットのモジュールへの割当を認識し続けている。データロットは所与のスレーブノード上に完全に存在する。そのスレーブノード上で動作する蒸留スレーブモジュール上の子シーブは、このデータロットに属するすべての基本データエレメントを含む。換言すれば、所与のデータロットについてのすべての基本データエレメントのツリー全体が、１つのスレーブ蒸留モジュール内の１つの子シーブ上に完全に存在する。所与のデータロットについてのすべての蒸留ファイルも同じスレーブ蒸留モジュール上に存在する。この構成を用いて、入力ファイルを依然としてスレーブ蒸留モジュールのいずれかによって取込むことができ、データ取出し要求を依然としてスレーブ蒸留モジュールのいずれによって処理することができる。しかし、所与のデータロットについてのデータ蒸留プロセス全体が、そのデータロットを含むモジュール上で完全に実行される。データ取込みおよびデータ取出しの要求は、開始モジュールから、特定のデータロットを保持するように指定されている特定のスレーブモジュールにルーティングされる。このソリューションには、データロットを因子分解して蒸留する際に分散環境における通信オーバーヘッドが減少するという利点がある。冗長はグローバルデータフットプリント全体にわたって利用されなくなり、局所的にデータロット内で非常に効率的に利用される。このソリューションは依然として分散システムの組合された記憶容量を用いており、システムの任意のノードからの任意のデータに問合せ、当該データを取込み、当該データを取出すシームレスな能力を提供する。

ゆえに、上述の多数の技術を使用して、分散システムにおいてリソースを効率的に用いて、超大型データセットに対して超高速でデータ蒸留が行なわれる。

本明細書に記載の実施形態を用いてさまざまな実世界データベースに対してデータ削減を行い、これら実施形態の有効性を判定した。検討した実世界データベースとして、企業電子メールのエンロンコーパス、さまざまな米国政府記録および文書、MongoDB NOSQLデータベースに入力された米国運輸省記録、ならびに公衆が利用可能な企業のパワーポイントプレゼンテーションがある。本明細書に記載の実施形態を用いて、入力データを平均で４ＫＢの可変サイズのエレメント（フィンガープリンティングによって境界が決まる）に因子分解すると、これらデータベース全体にわたって３．２３倍の平均データ削減が達成された。３．２３倍の削減は、削減データのサイズが３．２３倍で割った元のデータのサイズと等しいことを意味しており、これによって３１％の圧縮率の削減フットプリントがもたらされる。旧来のデータ重複排除技術は、同等のパラメータを用いてこれらデータセットに対して１．４８７倍のデータ削減を提供することがわかった。本明細書に記載の実施形態を用いて、入力データを４ＫＢの固定サイズのエレメントに因子分解すると、これらデータセット全体にわたって１．８６倍の平均データ削減が達成された。旧来のデータ重複排除技術は、同等のパラメータを用いてこれらデータセットに対して１．０８倍のデータ削減を提供することがわかった。したがって、Data Distillation（商標）ソリューションは、旧来のデータ重複排除ソリューションよりもはるかに良好なデータ削減を提供することがわかった。

また、テストランでは、基本データエレメントのバイトの小さいサブセットがシーブ内のエレメントの大半を順序付けることによって、その演算のための最小の増分ストレージで済むソリューションを可能にすることが確認された。

これらの結果によって、Data Distillation（商標）装置は、エレメント自体よりも細かく、データセット全体にわたってグローバルにデータエレメント同士の間の冗長を利用することを効率的に可能にすることが確認された。この方法によって提供される無損失データ削減は、無駄のないデータアクセスおよびＩＯで、それら自体が最小の増分ストレージで済むデータ構造を使用して、かつ、現代のマルチコアマイクロプロセッサ上で利用可能な全計算処理能力のごく一部を用いて達成される。前節に記載の実施形態は、高速のデータ取込みおよびデータ取出しを提供しつつ、大型および超大型データセットに対する無損失データ削減を実行する、かつ従来の技術の欠点および制限を受けないシステムおよび技術を特徴とする。

コンテンツ連想シーブ内に存在している基本データエレメントからデータを導出することによる無損失削減されたデータに対するコンテンツ連想検索および取出しの実行
上記本文に記載されて図１Ａから図１２Ｌに示されたデータ蒸留装置は、無損失削減フォーマットで記憶されているデータからの情報に対する検索、および当該情報のコンテンツ連想的な取出しを効率的に行なうために一定の特徴を用いて改良され得る。そのような多次元検索およびデータ取出しは、アナリティクスまたはデータウェアハウジングアプリケーションの重要なビルディングブロックである。次にこれらの改良を説明する。

図１３は、図３Ｈに示した構造と同様のリーフノードデータ構造を示す。しかし、図１３では、基本データエレメント毎のリーフノードデータ構造内のエントリが、その特定の基本データエレメントの参照を含む蒸留データ内のすべてのエレメントの参照（逆方向参照または逆方向リンクとも称される）を含むように改良されている。データ蒸留スキームは入力ファイルからのデータをエレメントのシーケンスに因子分解して、これらが図１Ｈに記載のような仕様を用いて削減フォーマットで蒸留ファイルに入れられることを思い起こされたい。蒸留ファイル内には、基本データエレメントおよび導出エレメントの２種類のエレメントがある。蒸留ファイル内のこれらのエレメントの各々の仕様は、基本データストア内に存在している基本データエレメントの参照を含む。これらの参照（蒸留ファイル内のエレメントから基本データストア内の基本データエレメントまで）の各々について、リーフノードデータ構造にインストールされた対応する逆方向リンクまたは逆方向参照（リーフノードデータ構造内の基本データエレメントについてのエントリから蒸留ファイル内のエレメントまで）が存在することになる。逆方向参照は、エレメントの無損失削減表現の開始をマーク付けする蒸留ファイル内のオフセットを判断する。いくつかの実施形態では、逆方向参照は、蒸留ファイルの名前と、エレメントの開始の位置を特定するそのファイル内のオフセットとを含む。図１３に示すように、蒸留ファイル内の各エレメントの逆方向参照とともに、リーフノードデータ構造はさらに、蒸留ファイル内の参照されているエレメントが基本データエレメント（prime）であるか否か、またはそれが導出エレメント（deriv）であるか否かを識別するインジケータを維持する。蒸留プロセス時、エレメントが蒸留ファイル内に入れられた場合は、逆方向リンクがリーフノードデータ構造にインストールされる。

逆方向参照または逆方向リンクは、基本データシーブを共有するすべての蒸留ファイル内のすべてのエレメントに到達可能なユニバーサルハンドルとして設計される。

データエレメントサイズは、各参照がデータエレメントのサイズのごく一部であるように選択されると予想されるため、逆方向参照を追加しても、達成されるデータ削減には大きく影響しないと予想される。たとえば、（マルチ導出エレメントが許可されないように）導出エレメントの各々が１つ以下の基本データエレメントから導出されるように制約されるシステムを考えてみる。すべてのリーフノードデータ構造にわたる逆方向参照の総数は、すべての蒸留ファイルにわたるエレメントの総数と等しくなる。３２ＧＢのサイズのサンプル入力データセットが８ＧＢの無損失削減データに削減され、１ＫＢの平均エレメントサイズを使用し、４倍の削減率をもたらすと仮定してみる。入力データ内には３２Ｍ個のエレメントが存在する。各逆方向参照のサイズが８Ｂである場合、逆方向参照が占める全空間は２５６ＭＢ、または０．２５ＧＢである。これは、８ＧＢのフットプリントの削減データに対して小さい増加である。新たなフットプリントは８．２５ＧＢとなり、達成される効果的な削減は３．８８倍となり、これは３％の削減の損失を表わす。これは、削減データに対する強力なコンテンツ連想データ取出しの利点のために支払わなくてはならない小さな代償である。

本文書において先に述べたように、蒸留装置は、候補エレメントのコンテンツ内の骨格データ構造のさまざまなコンポーネントの場所を判定するさまざまな方法を使用することができる。エレメントの骨格データ構造のさまざまなコンポーネントを次元と見なすことができるため、これらの次元同士の連結、およびそれに続く各エレメントの残りのコンテンツを用いて、各エレメントの名前が作成される。名前を用いて基本データエレメントが順序付けられてツリーに組織化される。

入力データの構造がわかっている使用モデルでは、スキーマがさまざまなフィールドまたは次元を規定する。そのようなスキーマは、このコンテンツ連想データ取出し装置を使用しているアナリティクスアプリケーションによって供給され、アプリケーションへのインターフェイスを介して装置に提供される。スキーマ内の宣言に基づいて、蒸留装置のパーサは候補エレメントのコンテンツをパースしてさまざまな次元を検出して位置を特定し、候補エレメントの名前を作成することができる。上述のように、次元に対応するフィールド内に同じコンテンツを有するエレメントは、ツリーの同一のレッグに沿って互いにグループ分けされる。シーブにインストールされた基本データエレメント毎に、次元についての情報がメタデータとして、リーフノードデータ構造内のその基本データエレメントについてのエントリに記憶され得る。この情報は、宣言された次元の各々におけるコンテンツの場所、サイズ、および値を含み得、図１３において「基本データエレメントについての他のメタデータ」と称されるフィールドに記憶され得る。

図１４Ａは、本明細書に記載のいくつかの実施形態に従う、入力データセットの構造の記述、ならびに入力データセットの構造と次元との対応関係の記述を提供するサンプルスキーマを示す。構造記述１４０２は、入力データの完全な構造を記述するより完全なスキーマの抜粋または一部である。構造記述１４０２はキーワードのリスティング（たとえば「PROD_ID」、「MFG」、「MONTH」、「CUS_LOC」、「CATEGORY」、および「PRICE」）を含み、キーワードに対応する値のタイプがその後に続く。コロン記号「：」はキーワードを値のタイプと分けるデリミタとして用いられ、セミコロン記号「；」は別個の対のキーワードを対応する値のタイプと分けるデリミタとして用いられる。なお、（構造１４０２がその一部である）完全なスキーマは、各入力の開始および終了を識別する付加的なフィールドと、場合によってはさらに次元の外部の他のフィールドとを指定し得る。次元マッピング記述１４０４は、基本データエレメントを組織化するために用いられる次元が構造化入力データセット内のキーワード値にどのようにマップするかを記述している。たとえば、次元マッピング記述１４０４内の一行目は、入力データセット内のキーワード「MFG」に対応する値の最初の４バイト（一行目はテキスト「prefix＝４」で終わるため）を用いて次元１が作成されることを指定している。次元マッピング記述１４０４内の残りの行は、構造化入力データに基づいて他の３つの次元をどのように作成するかを記述している。この次元へのキーワードのマッピングにおいて、入力内に現われるキーワードの順序は次元の順序と必ずしも一致しない。提供されるスキーマ記述を用いて、パーサは入力データ内のこれらの次元を認識して候補エレメントの名前を作成することができる。たとえば図１４Ａでは、次元マッピング記述１４０４を用いて、候補エレメントの名前は以下のように作成される。（１）名前の最初の４バイトは、次元１と宣言されるキーワード「MFG」に対応する値からの最初の４バイトであり、（２）名前の次の４バイトは、次元２と宣言されるキーワード「CATEGORY」に対応する値からの最初の４バイトであり、（３）名前の次の３バイトは、次元３と宣言されるキーワード「CUS_LOC」に対応する値からの最初の３バイトであり、（４）名前の次の３バイトは、次元４と宣言されるキーワード「MONTH」に対応する値からの最初の３バイトであり、（５）名前の次のバイトセットは次元からの残りのバイトの連結で構成され、（６）最後に、次元のすべてのバイトを使い果たした後、名前の残りのバイトは候補エレメントの残りのバイトの連結から作成される。

この装置を駆動するアプリケーションによって供給されるスキーマは、第１の次元の数および第２の次元の数を指定し得る。これら第１および第２の次元のすべてについての情報は、リーフノードデータ構造内のメタデータ内に保持され得る。第１の次元を用いて主軸が形成され、これに沿ってエレメントがシーブ内にソートされて組織化される。第１の次元が使い果たされ、大きいメンバーシップを有するサブツリーが依然として残っている場合は、ツリーのさらに深部で第２の次元も用いて、エレメントがより小さいグループに細分割され得る。第２の次元についての情報はメタデータとして保持され、リーフノード内のエレメント同士を区別するための二次基準としても用いられ得る。コンテンツ連想的な多次元検索および取出しを提供するいくつかの実施形態では、すべての受信データはスキーマが宣言する次元毎にキーワードおよび有効値を含んでいなければならないという要件が課され得る。これによって、システムには、有効データのみがシーブ内の所望のサブツリーに入ることを保証する方法が与えられる。次元と指定されたすべてのフィールドを含んでいない、または次元についてのフィールドに対応する値内に無効値を含んでいる候補エレメントは、先に図３Ｅに示したように異なるサブツリーの下方に送られる。

データ蒸留装置は、次元内のコンテンツに基づくデータのコンテンツ連想検索および取出しを包括的にサポートするために、１つの付加的な方法で制約される。導出エレメントが基本データエレメントから作成されると、導出部は、基本データエレメントおよび導出物の両方が、対応する次元の各々についての値内に全く同じコンテンツを有することを保証するように制約される。ゆえに、導出物が作成されている間、再構成プログラムは、導出エレメントを構築するために、基本データエレメントの次元のいずれかに対応するフィールド内のコンテンツにゆらぎを起こさせることまたはコンテンツを変更することが許可されない。候補エレメントを前提として、シーブのルックアップ時、候補エレメントがターゲット基本データエレメントの対応する次元と比べていずれかの次元に異なるコンテンツを有する場合、導出物を受付ける代わりに新規な基本データエレメントをインストールする必要がある。たとえば、候補エレメントがリーフノードに到着して、第１の次元のサブセット内に同じコンテンツを有するが、残りの第１の次元または第２の次元内に異なるコンテンツを有する基本データエレメントを見つけるように、この第１の次元のサブセットがツリー内の別個のグループにエレメントを十分にソートした場合は、導出物を作成する代わりに、新規な基本データエレメントをインストールする必要がある。この特徴によって、単に基本データストアに問合せるだけで、次元を用いてすべてのデータを検索できることが保証される。

上述の制限は、ほとんどの使用モデルについてデータ削減の程度を大幅に妨げないと予想される。たとえば、入力データが、各々が１０００バイトのサイズのデータウェアハウストランザクションである一組のエレメントで構成されている場合、かつ、一組の６個の第１の次元および１４個の第２の次元が、各々がたとえば次元毎に８バイトのデータを有するスキーマによって指定されている場合、次元においてコンテンツが占める全バイトは１６０バイトである。導出物を作成する際にこれら１６０バイトに対するゆらぎは許可されない。これによって、残りの８４０バイトの候補エレメントデータが依然として導出物を作成するためのゆらぎに利用可能であり続けるため、冗長を利用するのに十分な機会が残されており、同時に、データウェアハウスからのデータを次元を用いてコンテンツ連想的に検索して取出すことができる。

次元内のフィールドについての特定値を含むデータの検索クエリを実行するために、装置はツリーをトラバースして、指定された次元と一致するツリー内のノードに到達することができ、そのノードよりも下方のすべてのリーフノードデータ構造はルックアップの結果として戻され得る。リーフノードに存在している基本データエレメントの参照を用いて、必要であれば所望の基本データエレメントをフェッチすることができる。逆方向リンクによって、所望であれば、蒸留ファイルからの（無損失削減フォーマットの）入力エレメントの取出しが可能になる。その後、エレメントが再構成されて元の入力データがもたらされ得る。ゆえに、改良された装置によって、（全データの小さいサブセットである）基本データストア内のデータに対してすべての検索を行なうことができ、なおかつ、必要に応じてすべての導出エレメントに到達してそれらを取出すことができる。

改良された装置を用いて、強力な検索のための検索およびルックアップクエリ、ならびにクエリによって指定された次元内のコンテンツに基づく関連のデータのサブセットの取出しを実行することができる。コンテンツ連想データ取出しクエリは、「フェッチ（次元１、次元１の値；次元２、次元２の値；…）の形態を有する。クエリは、検索に伴う次元と、コンテンツ連想検索およびルックアップのための指定次元の各々に用いられる値とを指定する。クエリはすべての次元を指定してもよく、または次元のサブセットのみを指定してもよい。クエリは、複数の次元に基づく複合条件を検索および取出しの基準として指定してもよい。指定次元の指定値を有するシーブ内のすべてのデータが取出される。

さまざまなフェッチクエリがサポートされ、このコンテンツ連想データ取出し装置を使用しているアナリティクスアプリケーションが当該クエリを利用することができる。そのようなクエリは、インターフェイスを介してアプリケーションから装置に供給される。インターフェイスはアプリケーションから装置にクエリを与え、装置からアプリケーションにクエリの結果を戻す。まず、クエリFetchRefsを用いて、当該クエリと一致する基本データエレメント毎に図１３のリーフノードデータ構造の参照またはハンドルが（エントリの子ＩＤまたは索引とともに）フェッチされ得る。第２の形態のクエリFetchMetaDataを用いて、当該クエリと一致する基本データエレメント毎に図１３のリーフノードデータ構造内のエントリからメタデータ（骨格データ構造、次元についての情報、および基本データエレメントの参照を含む）がフェッチされ得る。第３の形態のクエリFetchPDEsは、検索基準と一致するすべての基本データエレメントをフェッチする。別の形態のクエリFetchDistilledElementsは、検索基準と一致する蒸留ファイル内のすべてのエレメントをフェッチする。さらに別の形態のクエリFetchElementsは、検索基準と一致する入力データ内のすべてのエレメントをフェッチする。なお、FetchElementsクエリについては、装置はまず蒸留エレメントをフェッチし、次に関連の蒸留エレメントを入力データからのエレメントに再構成してこれらをクエリの結果として戻す。

そのような多次元コンテンツ連想フェッチプリミティブに加えて、インターフェイスはさらに、（基本データエレメントの参照を用いて）基本データエレメントに、かつ（エレメントの逆方向参照を用いて）蒸留ファイル内のエレメントに直接アクセスする能力をアプリケーションに提供し得る。さらに、インターフェイスは、（蒸留エレメントの参照を与えられて）蒸留ファイル内の蒸留エレメントを再構成して当該エレメントを入力データ内に存在していたように供給する能力をアプリケーションに提供し得る。

これらのクエリの適切な組合せがアナリティクスアプリケーションによって用いられて、検索が行なわれ、関連の和集合および共通集合が求められ、重要な洞察が収集され得る。

以下に説明する図１４Ｂは、構造記述１４０２内に記述された構造を有する入力データセットの例を示す。この例では、ファイル１４０５に含まれている入力データはｅコマーストランザクションを含む。入力データは、図１４Ａのスキーマおよび次元宣言を用いて、データ蒸留装置内のパーサによって一連の候補エレメント１４０６にコンバートされる。なお、各候補エレメントの名前の先頭バイトは次元からのコンテンツで構成されている。たとえば、候補エレメント１についての名前１４０７の先頭バイトはPRINRACQNYCFEBである。これらの名前を用いて候補エレメントがツリー形態に組織化される。データ削減の完了後、蒸留データは蒸留ファイル１４０８に入れられる。

以下に説明する図１４Ｃは、どのように次元マッピング記述１４０４を用いて構造記述１４０２に従って図１４Ａに示す入力データセットをパースし、次元マッピング記述１４０４に従って次元を求め、求めた次元に基づいて基本データエレメントをツリーに組織化することがきるかを示す。図１４Ｃでは、基本データエレメントは４つの次元から取られた合計１４文字を用いてマスターツリーに組織化されている。マスターツリー内には、さまざまな基本データエレメントについてのリーフノードデータ構造の一部が示されている。なお、見やすくするために、図１３の完全なリーフノードデータ構造は示されていない。しかし、図１４Ｃは、リーフノードデータ構造内の各エントリのパス情報または名前と、子ＩＤと、蒸留ファイル内のエレメントが「prime」（Ｐで示す）であるか「deriv」（Ｄで示す）であるかのインジケータとともに、基本データエレメントから蒸留ファイル内のエレメントまでのすべての逆方向参照または逆方向リンクと、さらに基本データエレメントの参照とを示す。図１４Ｃは、マスターツリー内の５個の基本データエレメントにマップされる蒸留ファイル内の７個のエレメントを示す。図１４Ｃでは、名前PRINRACQNYCFEBを有する基本データエレメントについての逆方向リンクＡは蒸留ファイル内のエレメント１を再び参照する。一方、名前NIKESHOELAHJUNを有する基本データエレメントはエレメント２、エレメント３、およびエレメント５８への逆方向リンクＢ，ＣおよびＥをそれぞれ有する。なお、エレメント３およびエレメント５８はエレメント２の導出物である。

図１４Ｄは、検索の効率を向上させるために次元から作成される補助索引または補助ツリーを示す。この例では、作成される補助マッピングツリーは（CATEGORYである）次元２に基づいている。この補助ツリーを直接トラバースすることによって、入力データ内の所与のCATEGORYのすべてのエレメントを、別の方法では引起される可能性があるマスターツリーのより高額なトラバースなしで見つけることができる。たとえば、「SHOE」で示されているレッグの下方へのトラバースによって、ADIDSHOESJCSEPおよびNIKESHOELAHJUNであるshoesについての２つの基本データエレメントが直接得られる。

あるいは、そのような補助ツリーは第２の次元に基づいており、当該次元を用いる検索の迅速な集束に役立つように用いられてもよい。

次に、図１４Ｄに示す装置上で実行されるクエリの例を提供する。クエリFetchPDEs（次元１、NIKE;）は、NIKESHOELAHJUNおよびNIKEJERSLAHOCTと名付けられた２つの基本データエレメントを戻す。クエリFetchDistilledElements（次元１、NIKE;）は、無損失削減フォーマットの蒸留エレメントとなるエレメント２、エレメント３、エレメント５８およびエレメント５９を戻す。クエリFetchElements（次元１、NIKE;次元２、SHOE）は、入力データファイル１４０５からトランザクション２、トランザクション３およびトランザクション５８を戻す。クエリFetchMetaData（次元２、SHOES）は、ADIDSHOESJCSEPおよびNIKESHOELAHJUNと名付けられた２つの基本データエレメントの各々についてリーフノードデータ構造エントリに記憶されたメタデータを戻す。

ここまで説明した装置を用いて、次元と称されるフィールド内に指定されているコンテンツに基づく検索をサポートすることができる。また、当該装置を用いて、次元のリスティングに含まれていないキーワードのリスティングに基づく検索をサポートすることができる。そのようなキーワードは、装置を駆動している検索エンジンなどのアプリケーションによって装置に提供され得る。キーワードはスキーマ宣言によって装置に指定されてもよく、またはすべてのキーワードを含むキーワードリストを介して渡されてもよく、各キーワードは宣言分離記号（スペース、またはコンマ、または改行など）によって分離されている。あるいは、スキーマおよびキーワードリストの両方を用いてすべてのキーワードを包括的に指定してもよい。非常に多くのキーワードを指定してもよく、装置はキーワードの数に制限を課さない。これらの検索キーワードをキーワードと称する。装置は、これらのキーワードを用いて検索の逆索引を維持し得る。逆索引は、キーワード毎に、このキーワードを含む蒸留ファイル内のエレメントの逆方向参照のリスティングを含む。

スキーマ内のキーワード宣言またはキーワードリストに基づいて、蒸留装置のパーサは候補エレメントのコンテンツをパースして、受信する候補エレメント内のさまざまなキーワードを（見つけた場合は、見つけた場所に）検出して位置を特定することができる。その後、候補エレメントはデータ蒸留装置によって基本データエレメントまたは導出エレメントにコンバートされ、エレメントとして蒸留ファイルに入れられる。このエレメント内に見つかったキーワードについての逆索引は、蒸留ファイル内のこのエレメントの逆方向参照で更新され得る。エレメント内に見つかったキーワード毎に、逆索引は蒸留ファイル内にこのエレメントの逆方向参照を含むように更新される。蒸留ファイル内のエレメントは無損失削減表現であることを思い起こされたい。

キーワードを用いてデータの検索クエリを実行すると、逆索引を調べて、このキーワードを含む蒸留ファイル内のエレメントの逆方向参照を見つけて抽出する。そのようなエレメントの逆方向参照を用いて、エレメントの無損失削減表現を取出すことができ、エレメントを再構成することができる。そして、再構成エレメントを検索クエリの結果として提供することができる。

逆索引は、再構成エレメント内のキーワードのオフセットの位置を特定する情報を含むように改良され得る。なお、候補エレメント内に検出された各キーワードのオフセットまたは場所はパーサによって求められ得るため、この情報も、蒸留ファイル内のエレメントの逆方向参照が逆索引に入れられると逆索引内に記録され得る。検索クエリを実行すると、逆索引を調べて関連のキーワードを含む蒸留ファイル内のエレメントの逆方向参照が取出された後、かつエレメントが再構成された後、（元の入力候補エレメントと同じ）再構成エレメント内のキーワードの記録されたオフセットまたは場所を用いて、キーワードが存在している入力データ内の正確な位置を特定することができる。

図１５は、キーワードに基づく検索を容易にする逆索引を示す。キーワード毎に、逆索引は値の対を含み、第１はキーワードを含む蒸留ファイル内の無損失削減エレメントの逆参照であり、第２の値は再構成エレメント内のキーワードのオフセットである。

次元とキーワードとの相違を指摘しておくことが重要である。なお、次元は主軸として用いられ、これに沿って基本データエレメントをシーブ内に組織化する。次元は、データ内の各エレメントの骨格データ構造を形成する。次元は、受信データの構造の知識に基づいて宣言される。導出部は、作成される任意の導出エレメントが、対応する次元の各々についてのフィールドの値内に基本データエレメントと全く同じコンテンツを有さなければならないように制約される。キーワードについては、これらの特性は成り立たない。そもそもキーワードがデータ内に存在するという先験的要件がなく、基本データストアはキーワードに基づいて組織化されなくてもよく、導出部はキーワードを含むコンテンツを伴う導出に関して制約もされない。導出部は、必要であればキーワードの値を変更することによって基本データエレメントから導出物を自由に作成することができる。キーワードは単純に入力データのスキャン時に見つかった場所に記録され、逆索引が更新されるので、キーワードは、キーワードに基づくコンテンツ連想検索を実行すると位置が特定され得る。

当該装置は、キーワードのリスティングの更新を可能にし得る。キーワードは、無損失削減形態で記憶されているデータを全く変更せずに追加され得る。新たなキーワードが追加されると、新規な受信データが、更新されたキーワードリストに対してパースされ得、受信データで更新された逆索引はその後無損失削減形態で記憶される。既存のデータ（無損失削減形態で既に記憶されている）を新たなキーワードに対して索引付けする必要がある場合、装置は蒸留ファイル内（一度に１つ以上の蒸留ファイル、または一度に１つの無損失削減データロット）を漸進的に読込み、元のファイルを再構成し（しかし無損失削減された記憶データを乱すことなく）、再構成ファイルをパースして逆索引を更新し得る。この間ずっと、データレポジトリ全体が無損失削減形態で記憶され続け得る。

図１６Ａは、図１４Ａに示したスキーマの変形であるスキーマ宣言を示す。図１６Ａのスキーマは、第２の次元１６０９の宣言およびキーワードのリスティング１６１０を含む。図１６Ｂは、宣言された第１の次元に基づく名前を有する一組の候補エレメントにパースされてコンバートされる構造記述１６０２内に記述された構造を有する入力データセット１６１１の例を示す。候補エレメントは蒸留ファイル１６１３内のエレメントにコンバートされる。第２の次元「PROD_ID」の宣言は、候補エレメント５８が基本データエレメント「NIKESHOELAHJUN with PROD_ID=348」から導出され得ず、したがって、１つの付加的な基本データエレメント「NIKESHOELAHJUN with PROD_ID=349」が基本データストア内に作成されるように、導出部に対して制約を課す。入力データセットは図１４Ｂに示したものと同一であるが、蒸留の結果は７個の蒸留エレメント、しかし６個の基本データエレメントをもたらすものである。図１６Ｃは、蒸留プロセスの結果として作成された蒸留ファイル、マスターツリー、および基本データエレメントを示す。

図１６Ｄは、第２の次元「PROD_ID」について作成された補助ツリーを示す。特定のPROD_ID値を有するこのツリーをトラバースすると、その特定のPROD_IDを有する基本データエレメントが得られる。たとえば、PROD_ID=251を有する基本データエレメントを求めるクエリFetchPDEs（次元５，２５１）、またはあるいはクエリFetchPDEs（PROD_ID，２５１）は、基本データエレメントWILSBALLLAHNOVをもたらす。

図１６Ｅは、図１６Ａの構造１６１０内に宣言された３つのキーワードについて作成された逆索引（キーワードについての逆索引１６３１とラベル付けされている）を示す。これらのキーワードはFEDERER、LAVERおよびSHARAPOVAである。逆索引は、入力データセット１６１１をパースして消費した後に更新される。クエリFetchDistilledElements（キーワードFederer）は（マスターツリーまたは補助ツリーではなく）逆索引を利用してエレメント２、エレメント３およびエレメント５８を戻す。

図１７は、コンテンツ連想データ取出しのために改良された全体的な装置のブロック図を示す。コンテンツ連想データ取出しエンジン１７０１は、データ蒸留装置にスキーマ１７０４、またはデータの次元を含む構造定義を与える。エンジン１７０１はさらに、装置にキーワードリスト１７０５を与える。エンジン１７０１は、蒸留装置からのデータの検索および取出しのためのクエリ１７０２を発行し、クエリの結果を結果１７０３として受信する。導出部１１０は、導出物を作成する際に次元の宣言を認識して次元の場所におけるコンテンツの変更を禁止するように改良されている。なお、リーフノードデータ構造内のエントリから蒸留ファイル内のエレメントまでの逆方向参照は基本データシーブ１０６内のリーフノードデータ構造に記憶される。同様に、補助索引も基本データシーブ１０６に記憶される。エレメントが蒸留データに書込まれている間に導出部１１０によって逆方向参照１７０９で更新される逆索引１７０７も示されている。このコンテンツ連想データ取出しエンジンは他のアプリケーション（アナリティクス、データウェアハウジング、およびデータ分析アプリケーションなど）と対話して、実行したクエリの結果をそれらに提供する。

要約すると、改良されたデータ蒸留装置によって、無損失削減形態で記憶されているデータに対する強力な多次元コンテンツ連想検索および取出しが可能となる。

Data Distillation（商標）装置を音声および映像データを無損失削減するために使用することができる。本方法によって達成されるデータ削減は、コンテンツ連想シーブ内に存在している基本データエレメントから音声および映像データのコンポーネントを導出することによって達成される。そのような目的のための本方法の適用を次に説明する。

図１８Ａ〜図１８Ｂは、ＭＰＥＧ１、Ｌａｙｅｒ３規格（ＭＰ３とも称される）に従って音声データを圧縮および復号するためのエンコーダおよびデコーダのブロック図を示す。ＭＰ３は、有損失および無損失データ削減技術の組合せを用いて入力音声を圧縮するデジタル音声用の音声符号化フォーマットである。ＭＰ３は、コンパクトディスク（ＣＤ）音声を１．４Ｍｂｐｓから１２８Ｋｂｐｓに圧縮する。ＭＰ３は人間の耳の限界を利用して、大抵の人の耳には聞こえない音声のコンポーネントを抑制する。これを達成するために、知覚符号化技術と総称される一連の技術が用いられる。当該技術は、音声データのスニペットのサイズを損失はあるが知覚不可能なように減少させる。知覚符号化技術は有損失であり、これらのステップ時に失われた情報を取戻すことはできない。これらの知覚符号化技術は、本文書において先に説明した無損失データ削減技術であるハフマン符号化によって補足される。

ＭＰ３では、入力音声ストリームがいくつかの小さいデータフレームのシーケンスに圧縮され、各データフレームがフレームヘッダおよび圧縮音声データを含んでいる。元の音声ストリームは周期的にサンプリングされて、音声のスニペットのシーケンスを生成する。これが次に知覚符号化およびハフマン符号化を用いて圧縮されて、ＭＰ３データフレームのシーケンスを生成する。知覚符号化技術およびハフマン符号化技術の双方が、音声データの各スニペット内で局所的に適用される。ハフマン符号化技術は、冗長を音声のスニペット内で局所的に利用するが、音声ストリームにわたって全体的には利用しない。ゆえに、ＭＰ３技術は、冗長を全体的には、すなわち単一の音声ストリームにわたっても、複数の音声ストリーム同士の間でも、利用しない。これは、ＭＰ３が達成可能なレベルを超えるさらなるデータ削減の機会を提供する。

各ＭＰ３データフレームは２６ｍｓの音声スニペットを表わす。各フレームは１１５２個のサンプルを記憶しており、各々が５７６個のサンプルを含む２つのグラニュールに細分される。図１８Ａのエンコーダブロック図に見ることができるように、デジタル音声信号の符号化の際、フィルタリングの処理を通じて、かつ修正離散コサイン変換（ＭＤＣＴ）の適用によって、時間領域サンプルが取られて５７６個の周波数領域サンプルに変換される。知覚符号化技術を適用して、サンプルに含まれている情報の量を減少させる。知覚符号化の出力は、周波数ラインごとに減少した情報を含む、非一様量子化グラニュール１８１０である。次にハフマン符号化を用いてグラニュールのサイズをさらに減少させる。各グラニュールの５７６本の周波数ラインは、それらの符号化のために複数のハフマンテーブルを用い得る。ハフマン符号化の出力は、スケールファクタ、ハフマン符号化ビット、および補助データを含むフレームの主要なデータコンポーネントである。サイド情報（さまざまなフィールドを特徴付けて位置を特定するために用いられる）がＭＰ３ヘッダに入れられる。符号化の出力は、ＭＰ３符号化音声信号である。１２８Ｋｂｐｓのビットレートでは、ＭＰ３フレームのサイズは４１７または４１８バイトである。

図１８Ｃは、図１Ａに最初に示したデータ蒸留装置がどのように改良されてＭＰ３データに対してデータ削減を実行し得るかを示す。図１８Ｃに示す方法は、ＭＰ３データを候補エレメントに因子分解し、エレメント間の冗長をエレメント自体よりも細かい粒度で利用する。ＭＰ３データについては、グラニュールがエレメントとして選択される。一実施形態では、（図１８Ａに示すような）非一様量子化グラニュール１８１０はエレメントとして取扱われ得る。別の実施形態では、エレメントは、量子化周波数ライン１８５４とスケールファクタ１８５５との連結で構成され得る。

図１８Ｃでは、ＭＰ３符号化データのストリーム１８６２がデータ蒸留装置１８６３によって受信されて蒸留ＭＰ３データのストリーム１８６８に削減されて、無損失削減形態で記憶される。ＭＰ３符号化データの入力ストリーム１８６２は、ＭＰ３ヘッダおよびＭＰ３データの対のシーケンスで構成される。ＭＰ３データは、ＣＲＣ、サイド情報、主データおよび補助データを含む。装置によって作成された出力する蒸留ＭＰ３データは、同様の対のシーケンス（各対は蒸留ＭＰ３ヘッダであり、その後に無損失削減形態のエレメント仕様が続く）で構成される。蒸留ＭＰ３ヘッダは主データ以外の元のフレームのすべてのコンポーネントを含み、すなわち、ＭＰ３ヘッダ、ＣＲＣ、サイド情報、および補助データを含む。この蒸留ＭＰ３データ内のエレメントフィールドは、無損失削減形態で指定されるグラニュールを含む。パーサ／因子分解部１８６４が、入力するＭＰ３符号化ストリームの第１の復号化を実行して（ハフマン復号化の実行を含む）、（図１８Ｂに示す）量子化周波数ライン１８５１およびスケールファクタ１８５２を抽出し、かつ音声グラニュール１８６５を候補エレメントとして生成する。パーサ／因子分解部が実行する第１の復号化ステップは、図１８Ｂの同期化およびエラーチェック１８５１、ハフマン復号化１８５２、およびスケールファクタ復号化１８５３のステップと同一である。これらのステップは任意の標準的なＭＰ３デコーダにおいて実行され、既存の技術において周知である。基本データシーブ１８６６は、グラニュールを、コンテンツ連想的にアクセスされるように組織化される基本データエレメントとして含む。グラニュールを基本データシーブにインストールする際、グラニュールのコンテンツを用いて、シーブのどこにグラニュールをインストールすべきかを確認し、シーブの適切なリーフノード内の骨格データ構造およびメタデータを更新する。その後、グラニュールは、ＭＰ３データ内に存在していた時に占めていたフットプリントと同程度のフットプリントでシーブに記憶され得るように、ハフマン符号化されて圧縮される。シーブ内のグラニュールが導出部によって基本データエレメントとして必要とされるたびに、グラニュールは復元されてから導出部に供給される。このデータ蒸留装置を用いて、入力音声グラニュールは、シーブ内に存在している基本データエレメント（音声グラニュールでもある）から導出部１８７０によって導出され、グラニュールの無損失削減表現または蒸留表現が作成されて蒸留ＭＰ３データ１８６８に入れられる。このグラニュールの蒸留表現は、ＭＰ３フレームの主データフィールドに本来存在していたハフマン符号化情報を置換するエレメントフィールドに入れられる。各エレメントまたはグラニュールの蒸留表現は図１Ｈに示すフォーマットを用いて符号化される。蒸留データ内の各エレメントは、基本データエレメント（シーブ内の基本データエレメントまたは基本グラニュールの参照が添付されている）、または導出エレメント（シーブ内の基本データエレメントまたは基本グラニュールの参照に加えて、参照されている基本データエレメントから導出エレメントを生成する再構成プログラムが添付されている）のいずれか一方である。導出ステップの際、導出を受付けるための閾値は、削減されているフレームの主データフィールド内に存在していた元のハフマン符号化情報のサイズの一部であるように設定され得る。ゆえに、再構成プログラムと基本データエレメントの参照との合計が、（ハフマン符号化データを含んでいた）ＭＰ３符号化フレームの対応する主データフィールドのサイズのこの一部未満でない限り、導出は受付けられない。再構成プログラムと基本データエレメントの参照との合計が、（ハフマン符号化データを含んでいた）符号化ＭＰ３フレームの既存の主データフィールドのサイズのこの一部未満である場合は、導出を受付ける決定がなされ得る。

上述の方法によって、装置に記憶された複数の音声グラニュール全体にわたって、グローバルスコープで冗長を利用することができる。ＭＰ３符号化データファイルは蒸留ＭＰ３データに変換されて無損失削減形態で記憶され得る。取出される必要がある場合は、（取出部１８７１および再構成部１８７２を使用する）データ取出し処理を呼出してＭＰ３符号化データ１８７３を再構成することができる。図１８Ｃに示す装置では、再構成部は、再構成プログラムを実行して所望のグラニュールを生成する役割を果たす。再構成部はさらに、ＭＰ３符号化データを生成するのに必要なハフマン符号化ステップ（図１８Ａではハフマン符号化１８１１として示される）を実行するように改良されている。次にこのデータを標準的なＭＰ３デコーダに供給して音声を再生することができる。

このように、データ蒸留装置は、ＭＰ３音声ファイルのサイズをさらに減少させるように適合されて使用され得る。

説明したスキームの別の変形では、ＭＰ３符号化ストリームを受信すると、パーサ／因子分解部は、主データフィールド全体を、導出のための候補エレメントとして、または基本データシーブにインストールするための基本データエレメントとして取得する。この変形では、すべてのエレメントがハフマン符号化され続けることになり、再構成プログラムはすでにハフマン符号化されているエレメントに作用することになる。このデータ蒸留装置の変形を用いてＭＰ３音声ファイルのサイズをさらに減少させてもよい。

上記の説明は、当業者が実施形態を行って用いることができるように提示されている。開示される実施形態に対するさまざまな変更が当業者に容易に明らかとなり、本明細書に定義される一般原理は本開示の精神および範囲から逸脱することなく他の実施形態および用途にも適用され得る。ゆえに、本発明は示される実施形態に限定されず、本明細書に開示される原理および特徴と一致した最も広範な範囲が与えられる。

本開示に記載のデータ構造およびコードは、コンピュータ読取可能記憶媒体および／またはハードウェアモジュールおよび／またはハードウェア装置上に部分的または完全に格納され得る。コンピュータ読取可能記憶媒体として、揮発性メモリ、不揮発性メモリ、ディスクドライブ、磁気テープ、ＣＤ（コンパクトディスク）、ＤＶＤ（デジタル汎用ディスクもしくはデジタルビデオディスク）といった磁気および光学記憶装置、または現在公知のもしくは将来開発される、コードおよび／もしくはデータを格納可能な他の媒体があるがこれらに限定されない。本開示に記載のハードウェアモジュールまたは装置として、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、専用もしくは共有プロセッサ、および／または現在公知のもしくは将来開発される他のハードウェアモジュールもしくは装置があるがこれらに限定されない。

本開示に記載の方法およびプロセスは、コンピュータ読取可能記憶媒体または装置に格納されるコードおよび／またはデータとして部分的にまたは完全に具体化され得るので、コンピュータシステムが当該コードおよび／またはデータを読出して実行すると、コンピュータシステムは関連付けられた方法およびプロセスを実行する。当該方法およびプロセスはハードウェアモジュールまたは装置においても部分的にまたは完全に具体化され得るので、ハードウェアモジュールまたは装置は、起動されると、関連付けられた方法およびプロセスを実行する。なお、当該方法およびプロセスは、コード、データ、およびハードウェアモジュールまたは装置の組合せを用いて具体化されてもよい。

本発明の実施形態の上記の説明は、例示および説明目的で提示されているに過ぎない。それらは網羅的であること、または本発明を開示された形態に限定することを意図していない。したがって、多くの変更および変形が当業者に明らかになるであろう。また、上記の開示は本発明を制限することを意図していない。

Claims

音声データを削減するための方法であって、前記方法は、
圧縮された音声データを復元して一組の音声コンポーネントを得ることと、
前記一組の音声コンポーネント内の各音声コンポーネントについて、
前記音声コンポーネントを用いて、基本音声コンポーネントのコンテンツに基づいて前記基本音声コンポーネントを組織化するデータ構造に対してコンテンツ連想ルックアップを実行することによって、１つ以上の基本音声コンポーネントを識別することと、
前記１つ以上の基本音声コンポーネントを用いて前記音声コンポーネントを無損失削減することとを備え、前記１つ以上の基本音声コンポーネントを用いて前記音声コンポーネントを無損失削減することは、
（ｉ）前記１つ以上の基本音声コンポーネントの参照のサイズと（ｉｉ）再構成プログラムの記述のサイズとの合計が前記音声コンポーネントのサイズの閾値分率未満であると判断したことに応答して、前記音声コンポーネントの第１の無損失削減表現を生成することを備え、前記第１の無損失削減表現は、前記１つ以上の基本音声コンポーネント内の各基本音声コンポーネントの参照と、前記再構成プログラムの記述とを含み、さらに、
（ｉ）前記１つ以上の基本音声コンポーネントの前記参照の前記サイズと（ｉｉ）前記再構成プログラムの前記記述の前記サイズとの前記合計が前記音声コンポーネントの前記サイズの前記閾値分率以上であると判断したことに応答して、
前記音声コンポーネントを前記データ構造内の新たな基本音声コンポーネントとして追加することと、
前記音声コンポーネントの第２の無損失削減表現を生成することとを備え、前記第２の無損失削減表現は前記新たな基本音声コンポーネントの参照を含む、方法。
前記圧縮された音声データはＭＰ３音声データであり、各音声コンポーネントは、音声信号の一組のサンプルを含むＭＰ３フレームまたはグラニュールである、請求項１に記載の方法。
前記圧縮された音声データは、音声信号の時間領域表現または前記音声信号の周波数領域表現である、請求項１に記載の方法。
前記データ構造はツリーデータ構造であり、前記コンテンツ連想ルックアップを実行することは、前記ツリーデータ構造内のエッジのシーケンスをトラバースすることを備え、前記エッジのシーケンス内の各エッジは、前記音声コンポーネントと関連付けられている名前の一部に対応し、前記ツリーデータ構造内のノードまでナビゲートするために用いられる前記名前の各部分は、前記ノードをルートとするサブツリー内のすべての基本音声コンポーネント内に存在するコンテンツに対応する、請求項１に記載の方法。
前記再構成プログラムの前記記述は変換のシーケンスを指定し、前記変換のシーケンスは、前記１つ以上の基本音声コンポーネントに適用されると前記音声コンポーネントをもたらす、請求項１に記載の方法。
前記再構成プログラムの前記記述は、再構成プログラムストアに記憶されている第２の再構成プログラムの参照を含み、前記第２の再構成プログラムは変換のシーケンスを指定し、前記変換のシーケンスは、前記１つ以上の基本音声コンポーネントに適用されると前記音声コンポーネントをもたらす、請求項１に記載の方法。
前記再構成プログラムの前記記述は、再構成プログラムストアに記憶されている第２の再構成プログラムの参照と、第３の再構成プログラムの記述とを含み、前記第３の再構成プログラムは、前記第２の再構成プログラムに適用されると変換のシーケンスをもたらし、前記変換のシーケンスは、前記１つ以上の基本音声コンポーネントに適用されると前記音声コンポーネントをもたらす、請求項１に記載の方法。
前記データ構造に記憶されている前記基本音声コンポーネントは、圧縮技術を用いて符号化される、請求項１に記載の方法。
音声データを削減するための装置であって、前記装置は、
圧縮された音声データを復元して一組の音声コンポーネントを得るための手段と、
前記一組の音声コンポーネント内の各音声コンポーネントについて、
前記音声コンポーネントを用いて、基本音声コンポーネントのコンテンツに基づいて前記基本音声コンポーネントを組織化するデータ構造に対してコンテンツ連想ルックアップを実行することによって、１つ以上の基本音声コンポーネントを識別するための、および、
前記１つ以上の基本音声コンポーネントを用いて前記音声コンポーネントを無損失削減するための手段とを備え、前記１つ以上の基本音声コンポーネントを用いて前記音声コンポーネントを無損失削減することは、
（ｉ）前記１つ以上の基本音声コンポーネントの参照のサイズと（ｉｉ）再構成プログラムの記述のサイズとの合計が前記音声コンポーネントのサイズの閾値分率未満であると判断したことに応答して、前記音声コンポーネントの第１の無損失削減表現を生成することを備え、前記第１の無損失削減表現は、前記１つ以上の基本音声コンポーネント内の各基本音声コンポーネントの参照と、前記再構成プログラムの記述とを含み、さらに、
（ｉ）前記１つ以上の基本音声コンポーネントの前記参照の前記サイズと（ｉｉ）前記再構成プログラムの前記記述の前記サイズとの前記合計が前記音声コンポーネントの前記サイズの前記閾値分率以上であると判断したことに応答して、
前記音声コンポーネントを前記データ構造内の新たな基本音声コンポーネントとして追加することと、
前記音声コンポーネントの第２の無損失削減表現を生成することとを備え、前記第２の無損失削減表現は前記新たな基本音声コンポーネントの参照を含む、装置。
前記圧縮された音声データはＭＰ３音声データであり、各音声コンポーネントは、音声信号の一組のサンプルを含むＭＰ３フレームまたはグラニュールである、請求項９に記載の装置。
前記圧縮された音声データは、音声信号の時間領域表現または前記音声信号の周波数領域表現である、請求項９に記載の装置。
前記データ構造はツリーデータ構造であり、前記コンテンツ連想ルックアップを実行することは、前記ツリーデータ構造内のエッジのシーケンスをトラバースすることを備え、前記エッジのシーケンス内の各エッジは、前記音声コンポーネントと関連付けられている名前の一部に対応し、前記ツリーデータ構造内のノードまでナビゲートするために用いられる前記名前の各部分は、前記ノードをルートとするサブツリー内のすべての基本音声コンポーネント内に存在するコンテンツに対応する、請求項９に記載の装置。
前記再構成プログラムの前記記述は変換のシーケンスを指定し、前記変換のシーケンスは、前記１つ以上の基本音声コンポーネントに適用されると前記音声コンポーネントをもたらす、請求項９に記載の装置。
前記再構成プログラムの前記記述は、再構成プログラムストアに記憶されている第２の再構成プログラムの参照を含み、前記第２の再構成プログラムは変換のシーケンスを指定し、前記変換のシーケンスは、前記１つ以上の基本音声コンポーネントに適用されると前記音声コンポーネントをもたらす、請求項９に記載の装置。
前記再構成プログラムの前記記述は、再構成プログラムストアに記憶されている第２の再構成プログラムの参照と、第３の再構成プログラムの記述とを含み、前記第３の再構成プログラムは、前記第２の再構成プログラムに適用されると変換のシーケンスをもたらし、前記変換のシーケンスは、前記１つ以上の基本音声コンポーネントに適用されると前記音声コンポーネントをもたらす、請求項９に記載の装置。
前記データ構造に記憶されている前記基本音声コンポーネントは、圧縮技術を用いて符号化される、請求項９に記載の装置。
データブロックを記憶するブロック処理ストレージシステムにおいてデータを無損失削減するための方法であって、前記方法は、
一組の動作を実行することによって、ロジカルブロックアドレスと関連付けられている新たなデータブロックを無損失削減することを備え、前記一組の動作は、
前記新たなデータブロックを用いて、基本データエレメントブロックのコンテンツに基づいて前記基本データエレメントブロックを組織化するデータ構造に対してコンテンツ連想ルックアップを実行することによって、１つ以上の基本データエレメントブロックを識別することと、
前記１つ以上の基本データエレメントブロックを用いて前記新たなデータブロックを無損失削減することによって、前記新たなデータブロックの無損失削減表現を得ることとを備え、前記新たなデータブロックの前記無損失削減表現は、前記１つ以上の基本データエレメントブロック内の各基本データエレメントブロックの参照と、再構成プログラムの記述とを含み、前記新たなデータブロックは、前記１つ以上の基本データエレメントブロックに前記再構成プログラムを適用することによって再構成され得、
前記方法はさらに、
前記新たなデータブロックの前記無損失削減表現を記憶することと、
前記ロジカルブロックアドレスと前記新たなデータブロックの前記無損失削減表現との関連付けを記憶することとを備える、方法。
前記データ構造はツリーデータ構造であり、前記コンテンツ連想ルックアップを実行することは前記ツリーデータ構造内のエッジのシーケンスをトラバースすることを備え、前記エッジのシーケンス内の各エッジは前記新たなデータブロックと関連付けられている名前の一部に対応し、前記ツリーデータ構造内のノードまでナビゲートするために用いられる前記名前の各部分は、前記ノードをルートとするサブツリー内のすべての基本データエレメントブロック内に存在するコンテンツに対応する、請求項１７に記載の方法。
前記方法は、前記新たなデータブロックの前記無損失削減表現によって参照される各基本データエレメントブロックと関連付けられている基本データエレメントカウントフィールドをインクリメントすることをさらに備える、請求項１７に記載の方法。
前記ロジカルブロックアドレスと前記新たなデータブロックの前記無損失削減表現との前記関連付けは、前記ロジカルブロックアドレスと古いデータブロックの無損失削減表現との関連付けに置き換わり、前記方法は、前記古いデータブロックの前記無損失削減表現によって参照される各基本データエレメントブロックと関連付けられている基本データエレメントカウントフィールドをデクリメントすることをさらに備える、請求項１７に記載の方法。
前記方法は、前記再構成プログラムと関連付けられている再構成プログラムカウントフィールドをインクリメントすることをさらに備える、請求項１７に記載の方法。
前記ロジカルブロックアドレスと前記新たなデータブロックの前記無損失削減表現との前記関連付けは、前記ロジカルブロックアドレスと古いデータブロックの無損失削減表現との関連付けに置き換わり、前記方法は、前記古いデータブロックの前記無損失削減表現によって参照される再構成プログラムと関連付けられている再構成プログラムカウントフィールドをデクリメントすることをさらに備える、請求項１７に記載の方法。
前記再構成プログラムの前記記述は変換のシーケンスを指定し、前記変換のシーケンスは、前記１つ以上の基本データエレメントブロックに適用されると前記新たなデータブロックをもたらす、請求項１７に記載の方法。
データブロックを記憶するブロック処理ストレージシステムにおいてデータを無損失削減するための装置であって、前記装置は、
一組の動作を実行することによって、ロジカルブロックアドレスと関連付けられている新たなデータブロックを無損失削減するための手段を備え、前記一組の動作は、
前記新たなデータブロックを用いて、基本データエレメントブロックのコンテンツに基づいて前記基本データエレメントブロックを組織化するデータ構造に対してコンテンツ連想ルックアップを実行することによって、１つ以上の基本データエレメントブロックを識別することと、
前記１つ以上の基本データエレメントブロックを用いて前記新たなデータブロックを無損失削減することによって、前記新たなデータブロックの無損失削減表現を得ることとを備え、前記新たなデータブロックの前記無損失削減表現は、前記１つ以上の基本データエレメントブロック内の各基本データエレメントブロックの参照と、再構成プログラムの記述とを含み、前記新たなデータブロックは、前記１つ以上の基本データエレメントブロックに前記再構成プログラムを適用することによって再構成され得、
前記装置はさらに、
前記新たなデータブロックの前記無損失削減表現を記憶するための手段と、
前記ロジカルブロックアドレスと前記新たなデータブロックの前記無損失削減表現との関連付けを記憶するための手段とを備える、装置。
前記データ構造はツリーデータ構造であり、前記コンテンツ連想ルックアップを実行することは前記ツリーデータ構造内のエッジのシーケンスをトラバースすることを備え、前記エッジのシーケンス内の各エッジは前記新たなデータブロックと関連付けられている名前の一部に対応し、前記ツリーデータ構造内のノードまでナビゲートするために用いられる前記名前の各部分は、前記ノードをルートとするサブツリー内のすべての基本データエレメントブロック内に存在するコンテンツに対応する、請求項２４に記載の装置。
前記新たなデータブロックの前記無損失削減表現によって参照される各基本データエレメントブロックと関連付けられている基本データエレメントカウントフィールドをインクリメントするための手段をさらに備える、請求項２４に記載の装置。
前記ロジカルブロックアドレスと前記新たなデータブロックの前記無損失削減表現との前記関連付けは、前記ロジカルブロックアドレスと古いデータブロックの無損失削減表現との関連付けに置き換わり、前記装置は、前記古いデータブロックの前記無損失削減表現によって参照される各基本データエレメントブロックと関連付けられている基本データエレメントカウントフィールドをデクリメントするための手段をさらに備える、請求項２４に記載の装置。
前記装置は、前記再構成プログラムと関連付けられている再構成プログラムカウントフィールドをインクリメントするための手段をさらに備える、請求項２４に記載の装置。
前記ロジカルブロックアドレスと前記新たなデータブロックの前記無損失削減表現との前記関連付けは、前記ロジカルブロックアドレスと古いデータブロックの無損失削減表現との関連付けに置き換わり、前記装置は、前記古いデータブロックの前記無損失削減表現によって参照される再構成プログラムと関連付けられている再構成プログラムカウントフィールドをデクリメントするための手段をさらに備える、請求項２４に記載の装置。
前記再構成プログラムの前記記述は変換のシーケンスを指定し、前記変換のシーケンスは、前記１つ以上の基本データエレメントブロックに適用されると前記新たなデータブロックをもたらす、請求項２５に記載の装置。