[go: up one dir, main page]

JP2001519952A - データ要約装置 - Google Patents

データ要約装置

Info

Publication number
JP2001519952A
JP2001519952A JP54364398A JP54364398A JP2001519952A JP 2001519952 A JP2001519952 A JP 2001519952A JP 54364398 A JP54364398 A JP 54364398A JP 54364398 A JP54364398 A JP 54364398A JP 2001519952 A JP2001519952 A JP 2001519952A
Authority
JP
Japan
Prior art keywords
section
value
data set
data item
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP54364398A
Other languages
English (en)
Other versions
JP2001519952A5 (ja
Inventor
ウィークス、リチャード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=8229299&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2001519952(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of JP2001519952A publication Critical patent/JP2001519952A/ja
Publication of JP2001519952A5 publication Critical patent/JP2001519952A5/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/917Text
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)
  • Executing Machine-Instructions (AREA)

Abstract

(57)【要約】 本発明の第1の態様にしたがって、データの組を要約するシステムであって:目標のデータ項目のための第1のデータメモリと;前記データの組をセクションに分割し、各前記セクションと前記目標のデータ項目とを比較する手段と;前記比較結果に依存して各前記セクションに対する格付け値を計算する手段と;予め決められた閾値より大きい格付け値をもつセクションからデータの組の要約をコンパイルする手段とを含むシステムを提供する。本発明の別の態様にしたがって、目標情報のためのデータメモリをもつ処理装置へのデータの組の入力を要約する方法であって;1)前記データの組をセクションに分割する段階と;2)前記セクションと前記目標情報とを比較する段階と;3)前記比較結果に依存して各前記セクションごとに格付け値を計算する段階と;4)予め決められた閾値よりも大きい格付け値をもつセクションからデータの組の要約をコンパイルする段階とを含む方法を提供する。

Description

【発明の詳細な説明】 データ要約装置 技術分野 本発明は、データを解析する方法および装置の分野に関するものであり、デー タを要約する際に特殊応用が見付かっている。 本発明の背景 CD−ROM、イントラネット、およびワールドフイドウエブのような技術の 最近の進歩により、電子フォーマットで使用できる情報資源量は著しく増加した 。 この資源増加に関係する問題は、これらのシステムの個々のユーザが関心をも っているデータの組(すなわち、例えば雑誌の記事、ニュースの記事、技術的な 明細、および他の情報のようなデータの組)を位置決めし、識別することである 。 情報検索ツール、例えばサーチエンジンおよびウエブガイドは、ユーザが関心 をもっているデータの組を位置決めするのを助ける1つの手段である。さらに順 向(proactive)ツールおよびサービス(例えば、ニュースを集めたもの(News gro up)、www.pointcast.comで使用できるPOTNTCASTTMシステムのような放送サービ ス、またはJASPERエージェントのようなツールであって、現在共に審査中の出願 である公開国際特許出願PCT GB96/00132号に詳細に記載されているもの)を使用 して、個々のユーザが関心をもっている情報を識別することができる。 関心をもっているデータの組が情報検索ツールによって位置決めされると、ユ ーザは一般的にデータの組の要約を与えられる。Michael Honeyによる文献“Pat terns of Lexisin Text(英語版)”(Oxford University Press,1991年,ISBN 0194 371425)は、データの組を要約する1つの方法を詳細に開示している。 従来技術の方法によって生成された典型的な要約は、データの組の主題(subje ct matter)(すなわち、メイントピック)を詳細に記載している。しかしながら 、ユーザが実際に関心をもっている目標のデータ項目は、しばしば位置決めされ たデータの組のメイントピックではないことがある。この環境のもとでは、メィ ントピックのみを与える要約は、目標のデータ項目とデータの組との関係の仕方 およびその理由、またはデータの組の中のこれらの目標のデータ項目の位置を識 別しない。 例を挙げると、目標情報は作家“D.H.Lawrence”の誕生日であってもよい。サ ーチエンジンは、彼の小説“Sons and Lovers”の批評を最も主題としている記 事にこの情報を位置決めすることができる。情報検索ツールは、この誕生日を見 付けると、批評を選択し、要約を生成する。しかしながら作家の誕生日は“Sons of Lovers”の批評のメイントピックにとってあまり重要ではないので、この要 約は実際はD.H.Lawrenceの誕生日を含んでいない。さらにこの要約は批評中で作 家の誕生日に関する情報が現れるところを識別しない。 本発明の第1の態様にしたがって、データの組を要約する装置であって; 目標のデータ項目を記憶する目標のデータ項目メモリと; 前記データの組をセクションに分けて、各セクションを前記目標データ項目 と比較するセクショニング(区分けする)手段と; 前記セクションごとに前記比較の結果に依存する格付け値を計算する計算手 段と; 各格付け値にしたがって1または複数のセクションを選択することによって データの組の要約をコンパイルするコンパイル手段とを含む装置を提供する。 例えば、予め選択された閾値よりも高い(または、該閾値よりも低い、すなわ ち環境に依存して)格付け値をもつセクションを選択することができる。 本発明の第2の態様にしたがって、データの組を要約する方法であって; 1)データの組を処理手段への入力として受取る段階と; 2)目標データ項目メモリ内に目標のデータ項目を記憶する段階と; 3)前記データの組をセクションに分割する段階と; 4)各前記セクションを前記目標のデータ項目と比較する段階と; 5)前記比較の結果に依存して各前記セクションに対する格付け値を計算す る段階と; 6)各格付け値にしたがって1または複数のセクションを選択することによ ってデータの組の要約をコンパイルする段階とを含むデータの組を要約する方法 を提供する。 好ましいのは、目標のデータ項目はユーザによって、例えば直接にまたはユー ザプロフィールを介して目標のデータ項目メモリにロードすることができること である。本発明のこのような実施形態の長所は、要約ツールがデータの組の要約 を生成できることであり、なお該データの組の要約には、要約の生成を要求する ユーザによって特定される目標のデータ項目を含む。 本発明の好ましい実施形態によって、多くの付加的な特徴を個々にまたは組合 せて与えることができ、少なくともこれらの特徴のいくつかを以下に記載するこ とにする。 データの組は、構文、段落、および他の句読法にしたがってセクションに分割 することができる。その代りに、ページ、章、および見出しのような他のフォー マットがセクションの境界を形成してもよい。 データの組を要約する文脈の内部では、キーデータ項目はデータの組の中に含 まれる情報の実質的な内容を形成するデータ項目である。例えば書かれた散文か ら成るドキュメント(文書)において、冠詞および接続詞(例えば‘it’,‘ar e’,‘as’,‘the’,‘when’,‘they’,‘by’,などのような単語)は一 般的に、キーデータ項目であるとは考えられない。その理由は、データの組内に 含まれている主題を識別しないからである。 本発明の好ましい特徴によると、この装置はさらに: 前記データの組のキーデータ項目を識別するキーデータ項目識別子と; 前記データの組内の前記キーデータ項目の分配パターンを識別する分配パタ ーン識別子と; 前記キーデータ項目の前記識別された分配パターンに依存して各前記セクシ ョンに対する分配値を計算する分配値計算器と; 各セクションに対する前記分配値に依存して1つのやり方で関連する格付け 値を調節する格付け値調節手段とを含む。 好ましくはこの方法はさらに: 7)前記データの組のキーデータ項目を識別する段階と; 8)前記データの組内の前記キーデータ項目の分配パターンを識別する段階 と; 9)前記キーデータ項目の前記識別された分配パターンに依存して各前記セ クションに対する分配値を計算する段階と; 10)各セクションに対する前記分配値に依存して1つのやり方で関連する 格付け値を調節する段階とを含む。 データの組内のキーデータ項目の分配により格付け値を精密にすることによっ て、要約されるデータのメイントピックの文脈中に目標のデータ項目を詳細に記 載することができる。これは、特定のデータ項目が意図される目的にどのように 関係しているかをユーザが決定する能力を強化する。 好ましくは、該装置および方法は、各セクションに対する分配値を計算するた めに: 各セクション内の各キーデータ項目に対する第1の得点(スコア)を決定す ることと; 各セクションごとに、各キーデータ項目に対する前記第1のスコアを合計す ることとを行い、 考慮中のキーデータ項目がデータの組内に現れる回数は、考慮中のキーデータ 項目が考慮中のセクションに現れる回数よりも少なくなるように、各キーデータ 項目の前記第1のスコアが計算される。 本発明のこの特徴は、特定のセクションのキーデータ項目が解析されるデータ の組の残りに現れるかの頻度の基準(測度)を与える。これは、データの組全体 におけるキーデータ項目の分配の1つの基準を与える。 好ましくは前記装置および方法は各キーデータ項目に対する第2の得点を計算 し、前記第2の得点に依存して前記分配値を計算または変更し、前記第2の得点 は: データの組中のセクションの位置に対応してデータの組の各セクションに位 置の値を割り当てることと; データの組の各キーデータ項目に対して、考慮中のキーデータ項目が現れる 第1のセクションの位置の値を、考慮中のキーデータ項目が現れる最後のセクシ ョンの位置の値から減算する計算を行なうこととによって計算される。 第2の得点は、データの組全体に拡散しているキーデータ項目をデータの組の 一部分の周りに集まったキーデータ項目よりも重く重み付けをするように働く。 この特徴の背後には、データの組全体に拡散しているキーデータ項目が、1つの セクションの周りに集まったキーデータ項目よりも要約されたデータの組のメイ ントピックにとって一層重要であることが多いことを仮定している。 好ましくは、前記装置はユーザの入力にしたがって、データの組の該セクショ ンの位置の値かまたはセクションの格付け値の何れかにしたがって要約内のセク ションを選択的に順序付けるようにされている。 好ましくは前記方法はさらに、位置の値にしたがって命令される複数のセクシ ョンを含む要約と格付け値にしたがって順序付けられる複数のセクションを含む 要約との間で選択する選択入力を受取る段階を含む。 好ましいのは前記装置および方法は: 考慮中のキーデータ項目が同時に現れる各対のセクションを識別することに よって各キーデータ項目に対する第3の得点を計算し、各データの対ごとに、考 慮中の同時に現れる部分のより高い位置の値から考慮中の同時に現れるセクショ ンのより低い位置の値を減算し、考慮中のキーデータ項目の第2の得点によって この減算結果を除算し; 各セクションの各キーデータ項目に対して計算される第3の得点を合計する ことによって各セクションに対する第1の調整値を計算し; 各セクションの第1の調整値に依存して各セクションに対する前記格付け値 を調整する。 この第1の調節値は、各キーデータ項目が、データの組の別のセクションに現 れるキーデータ項目の回数とデータ項目内で最初と最後に現れるキーデータ項目 の分離とにしたがって、各セクションの重み付けに貢献できるようにする。した がって、セクションの重み付けにおいて頻繁に現れるキーデータ項目はデータの 組の小さいセクションの周りに集まるキーデータ項目よりも一層貢献することに なる。 好ましくは、前記装置および方法は、各セクションの分配値の平方根によって 各セクションに対する前記第1の調節位置を除算することによって、各セクショ ンに対する第2の調節値を計算する。 この計算は、セクションの長さに対して第1の調節値を正規化する。分配値の 平方根は、分配値のみによる除算よりも良好な結果を与えることが分かっている 。 その理由は第2の値の平方根が、セクションの長さが取扱っている情報のメイン トピック関係をもたないという命題と、セクションの長さのみがセクションが取 扱っている情報のメイントピックにどのように関連しているかを決定するという 命題との間の折衷であるからである。 好ましくは、前記装置および方法は、対応するセクションの位置の値によって 各格付け値を除算することによって、各セクションの格付け値を変更する。 この格付け値変更によって、1つの情報の後に現れるセクションに対して、1 つの情報の先に現れるセクションの重み付けを増加する。 異なるタイプのデータの組が要約されるとき、キーデータ項目の分配に関係す る別の規則を適用してもよい。例えば情報表では、列または行、あるいはその両 方の見出しは、データの組内に含まれる情報の正確な要約に対する基本を形成す ることが多い。 図面の簡単な説明 ここで本発明の実施形態にしたがって、情報要約装置を例示的に添付の図面を 参照して記載することにする: 図1は、情報要約装置を組込んだ情報検索および処理システムを示す; 図2は、使用中の情報要約装置の模式図を示す; 図3は、情報要約装置の構成要素の模式図である; 図4は、図1の情報要約装置の動作のフローチャートである; 図5は、図4の段階405のフローチャートである; 図6は、図4の段階410ないし415のフローチャートである; 図7は、図4の段階420のフローチャートである; 図8は、図4に詳細に示された実施形態に組み込むことができる付加的な特徴 のフローチャートである; 図9は、図4の実施形態に組込むことができる付加的な特徴のフローチャート である; 図10は、図8の段階830のフローチャートである; 図11は、図8の段階830に組込むことができる付加的な特徴のフローチャー トである; 図12は、図8の段階830に組込むことができる付加的な特徴のフローチャー トである; 図13は、図8の段階830に組込むことができる付加的な特徴のフローチャー トである; 図14は、図8の段階830に組込むことができる付加的な特徴のフローチャー トである; 図15は、図4の段階420に組込むことができる付加的な特徴のフローチャー トである。 好ましい実施形態の開示 図1を参照すると、情報要約装置は情報検索アーキテクチャ、例えばインター ネットに接続されたクライアントーサーバ形式の周知の形態に構成することがで きる。 さらに詳しくは、インターネットサービスプロバイダ、遠隔通信キャリア、ま たは、国際会社のような、他の形態のサービスプロバイダの顧客は、パーソナル コンピュータまたはワークステーション140をもつ多数のユーザをもつことがで きる。こういったものはWWWビュワー135を介して顧客のクライアントのコン テキスト内で顧客のワールドワイドウエブ(WWW)ファイルサーバ130へ接続 することができる。情報要約ツール100は、ビュワー135のエクステンションを形 成し、WWWファイルサーバ130上に実際に置くようにしてもよい。 顧客のWWWファイルサーバ130は周知のやり方で、例えば顧客自身のネット ワーク145およびルータ150を介してインターネットに接続することができる。次 にサービスプロバイダのファイルサーバ155へはインターネット、さらにルータ1 65を介してアクセスすることができる。 顧客のファイルサーバ130はさらに、情報アクセスツール105、情報アクセスツ ール105によって使用されるユーザプロフィールを記憶するプロフィールメモリ1 15、および同様に情報アクセスツール105によって使用されるインテリジェント ページメモリ110上に置くか、またはこれらによってアクセスすることができる 。 情報アクセスツール105は、上述で識別されたJASPERエージェントとして知 られているタイプであってもよい。 1つの実施形態では、要約ツール100はネットスケープ(Netscape)のような 周知のビュワーのエクステンションとして構成され、ビュワー135によって抽出 されるWWWページを要約するように動作することができる。しかしながら、明 らかに要約ツール100を他の環境内に組込むか、または個々に使用することがで き、多くの異なる源から、または多くの異なるタイプのドキュメントおよびデー タセットを要約するのに使用することができる。しかしながら好ましいのはそれ らが、要約ツール100は受取り、処理するようにされている電子フォーマットか 、またはそのような電子フォーマットへ変換可能となっていることである。さら に、要約ツール100を要約するのにもっとも適したドキュメントおよびデータセ ットは、通常はテキスト形式、例えば英語のような普通の言語である。 図2を参照して概観すると、要約装置100は、データの組200をセクション295 に分割し、セクション295を解析し、一定のセクションを選択して、要約235を生 成する動作をする。データセクショニング(区分け)ツール240は、データの組2 00がどのように分割されるかを決定する。セクション295は普通ユーザの関心を 反映する目標のデータ項目215、およびデータの組200それ自体の主題を反映する キーデータ項目225に関係して解析される。次に要約生成規則230は、解析に関し てセクションがどのように選択されるかを決定するのに使用される。 要約装置100は、データの組200および目標のデータ項目215をを受領するよう にされている処理モジュール205を含む。モジュール205は、データの組200それ 自体からキーデータ項目を作り、データの組200を生成して、その要約235を出力 として生成する。 目標のデータ項目の組215は、ユーザがデータの組200に位置したいという1ま たは複数のタイプの情報を示す。したがってこのような目標のデータ項目は、キ ーワード、用語、語句、番号、日付、および/またはユーザが位置決めたいタイ プの情報を識別または規定、あるいはその両方を行うのに役立つ他の情報を含む ことができる。 同様に、キーデータ項目はキーワード、用語、語句、番号、日付、および/ま たは他の情報を含むことができる。 記載した好ましい実施形態はさらに2つの入力をもつ。これらには停止リスト 情報210、およびデータの組200からキーデータ項目225を生成するのに使用され るステム(stem)情報220がある。 停止リスト情報210はデータ項目のリストを含み、該データ項目には一般的に 使用されている単語と、一般的にデータの組200の主題を識別するのに機能し 定冠詞および不定冠詞とを含む。このデータ項目リストはデータの組200から 不必要なデータ項目を削除するのに使用することができる。このやり方では、デ ータの組200の主題の中心である可能性がより高いデータ項目を識別し、キーデ ータ項目225の組に形成することができる。停止リスト210は、一定のデータ項目 、例えば一般的な構文および用語を含むこともできる。 ステム情報220は接頭辞および接尾辞のリストを含み、これを使用して、キー データ項目の組225内のデータ項目を基本形のみに低減する。例えば単語‘bo unce’がキーデータ項目の組225内のデータ項目であると仮定する。ステム 情報220は好ましくは、“bounce”のみに低減して、例えば基本形’bo unc’に対してキーデータ項目225内に’bounclng’、’bounc ed’、‘bounces’、などが付加的に現れるように動作する。 その代りに、ポータアルゴリズム(Porter's Algorithm)を使用して、キーデー タ項目の組225内に含まれているキーデータ項目をステムすることができる。ポ ータアルゴリズムは、Porter,M Pによる文献(“An Algorithm for Suffix Str ipping”、Program 14(3)、pp.130-137、1980)に詳細に記載されている。 停止リストおよびステム情報はデータの組200からキーデータ項目の組225を生 成するシステムに不要なときもあることに注意すべきである。とくにシステムが その代りにスピーチおよび単語の末尾の両方の部分を設定する完全なディクショ ナリへアクセスするとき、ステミング手続きは不要なこともある。ステミング動 作において重要なことは、関連する単語を等しくすることであり、これに関して シーソラスも使用できる。 本発明の別の実施形態は、一般的な言語処理アルゴリズムまたはデータの組20 0内のキーデータ項目225を識別する当業者には周知のシステムあるいは他の技術 、もしくはその両方を使用できる。 要約装置100を使用する際に、セクション295は、主として散文で書かれたデー タの組200において、通常構文または段落である。以下に記載した例では、各セ クション295はデータの組200の構文である。 要約を構成するセクションを選択する第1の段階として、セクション295は目 標のデータ項目の組215と比較される。この目標のデータ項目の組215は、例えば 他のプロセスで使用されるユーザプロフィールからのキーワードの組であっても よい。実際には、図1の実施形態では、要約装置100にアクセス可能なユーザプ ロフィール情報は各ユーザに対して目標のデータ項目を含んでおり、実際にプロ フィールメモリ115に記憶され、情報アクセスツール105によって使用される。プ ロフィールメモリ115内の各ユーザプロフィールは、少なくとも部分的に関連す るユーザに対する目標のデータ項目の組215を含み、該目標のデータ項目は要約 装置100の処理モジュール205への入力でもある。 データの組200と目標のデータ項目215の選択した組との比較に基づいて、各セ クション295は格付け値285を割当てられ、該格付け値285は目標のデータ項目の 組215を含む範囲の測度である。 次に分配値290も各セクション290に対して計算される。分配値290は、全体的 にデータの組200の主題に対する各セクション295の関連度として働く。格付け値 285と分配値295とを計算する方法を以下でさらに詳しく記載する。この実施形態 では、比較的に高い分配値290は、セクション295が比較的に低い分配値290をも つセクション295よりもデータの組200の主題に関してさらに詳しいことを示す。 次にデータの組200の要約235は格付け値285および分配値290に基づいて、要約 生成規則230を使用して、セクション295に対して計算される。例えば、データの 組200の要約235は、格付け値285にしたがってセクション295に命令し、分配値29 0にしたがって格付け値285を変更することによって生成することができる。次に 所定数のセクション295は最も高く格付けされたものから下方向に連続的に選択 され、要約235として出力される。 要約235は、異なる順番で選択されたセクションを再生することによって生成 することができる。例えば、選択されたセクションがデータの組200に現れる順 番か、または分配値290によって変更される格付け値285の順番で再生することが できる。ユーザが選択できるように、要約235が生成されることが好ましい。 ここで情報要約装置100およびその動作をより詳しく記載する。 図3を参照すると、情報要約装置100の基本素子は、処理モジュール205、1組 のデータメモリ、および入力/出力(I/O)能力360を含む。情報要約装置100 はソフトウエアおよびデータメモリを含み、ロードして、顧客ファイルサーバ13 0のような周知の形式のプラットフォーム上を走行することができる。したがっ て要約装置100を支援するハードウエアは周知のタイプであり、一般的にオペレ ーティングシステム、データメモリ、および処理容量を含み、種々の素子間のデ ータ流320を支援し、例えば処理モジュール205とI/O能力360との間の通信315 を必要なときに制御する。(図3に別々に示したが、処理モジュール205および I/O能力360は実際には同じソフトウエアモジュールの異なる部分として設計 することができる。) 処理モジュール205は、ファイルサーバ130のマイクロプロセッサのような処理 容量上にインストールされたソフトウエアプロセスを含み、I/O能力360経由 での入力に応答して、データの組200の要約を促して制御する。 データメモリは: ・データセクショニング(区分)規則240を記憶するデータセクショニング規則 メモリ330と; ・停止リスト210を記憶する停止リストメモリ335と; ・ステミング情報220を記憶するステミング規則メモリ340と; ・目標のデータ項目215の組を記憶する目標のデータ項目メモリ350と; ・処理モジュール205によって処理されたデータを記憶する処理されたデータの メモリ355と; ・データの組200を記憶するデータの組メモリ365と; ・分配値規則を記憶する分配値規則メモリ395と; ・要約生成規則230を記憶する要約生成規則メモリ390とを含む。 明白にするために図3に個々に示したように、1または複数のデータメモリは 処理モジュール205と別々になっていなくてもよく、その内容を処理モジュール 205の論理内に単に埋込むだけでもよい。さらにデータメモリは、必ずしも持続 性メモリを提供する必要はない。例えば目標データ項目メモリ350はユーザによ って、すなわち別のプロセスから、データの組で要約を行っている間に目標のデ ータ項目の入力のみを記憶することができる。 I/O能力360の機能はおおむね周知のタイプであり、したがって本明細書に は詳細に記載しない。しかしながら、I/O能力360が与える機能の種類は次の 通りである。 I/O能力360は要約装置100、例えばユーザのパーソナルコンピュータ、ワー クステーション140、または情報ツール105の外部のシステムまたは素子と通信す る。I/O能力360はさらに、共働する通信ネットワーク145またはインターネッ ト、あるいはその両方に接続されて、遠隔のユーザ、システム、および構成要素 は要約装置100にアクセスし、走行できるようになる。I/O能力360はおおむね インターフェイスを備えて、データの組200を受取って処理し、要約235を出力す る。したがってこれらのインターフェイスは、例えばシンプルメッセージ転送(S imple Message Transfer)(SMTP)、ハイパーテキスト転送(HTTP)、およ びファイル転送(FTP)のような一般的に使用されるプロトコルによる転送の ために、テキスト、すなわちワード(Word)およびHTML(ハイパーテキストマ ークアップ言語)のフォーマットを受領し、出力するように設計することができ る。I/O能力360はさらに、要約装置100に対するユーザインターフェイスを備 えて、したがって例えばユーザの要求および情報を捕捉するフォーム能力を、お そらくは登録および認証プロセスと共に構成し、登録したユーザのみが要約装置 を走行することができる。 処理モジュール205が、種々のフォーマット、例えば平易なテキスト、すなわ ちワードおよびHTML内でデータの組200を処理するようにされているとき、 I/O能力360はデータの組200を到達するまでモジュール205へ送るか、または 互換性のあるフォーマットに記憶されるように動作することができる。しかしな がらモジュールを1または2つのフォーマット、すなわち平易なテキストのみの データの組200の上でのみ動作するようにするとき、I/O能力360はフィルタま たは変換処理プロセスを行って、他のフォーマットをもつデータの組200は 受領可能なフォーマットに変換することができる。市販のソフトウエアはこの目 的に利用でき、本明細書にはさらに詳しく記載しないことにする。 このタイプの周知のフィルタは通常は、ファイルからフォーマットの文字、例 えば太字タイプおよび異なるフォントのフォーマット用文字を取去る(ストリッ プする)ことによって動作することに注意すべきである。したがって通常、本発 明の要約装置のいくつかのフォーマットに対して有益であるファイル内に存在す る情報が失われる。さもなければ、例えばこのようなフィルタによって取去られ る見出しのフォーマット用文字を使用して、見出しであるデータの組200のセク ションに与えられる格付け値を増加することができる。 I/O能力360はさらに、他のプロセスによって呼び出すことができるインタ ーフェイスを備えて、別のときに要約を実行することができる。例えばこの例は 高レベルのユーザに対して要約を与える要求をもつ管理システム内の報告ツール であってもよい。このような報告用ツールは、そのシステムにロードする必要が あるドキュメント上で要約装置100を走行することが必要であり、高レベルのユ ーザに関係して既に記憶している目標のデータ項目を使用して行われる。このよ うな報告用ツールは、データの組200および目標のデータ項目215の両方をI/O 能力360を介して要約装置100へ直接にロードすることが必要である。 動作の際に、要約されるデータの組200はデータの組のメモリ365へロードする ことができる。該メモリ365は“オン−オフ”ベースで動作し例えば共働ネット ワーク145から、またはバッチあるいは反復されるプロセスとして、例えば情報 ツール105を介して、さもなければ情報ツール105によって実行される正規の動作 における段階として行うことができる。受領およびローディングも、例えば遠隔 のユーザによる直接的な入力または情報ツール105を介してのユーザ入力に応答 して、I/O能力360によって処理することができる。 このとき目標のデータ項目の組215も目標のデータ項目メモリ350へ、“オン− オフ”ベースで、またはバッチあるいは反復されるプロセスの一部としてロード することができる。例えば、ユーザは特定の要約実行で使用するために目標のデ ータ項目の組215を入力できるか、または目標のデータ項目の組215は、要約サー ビスのユーザ登録の出力としてロードすることができる。繰返して記載するが、 受領およびローディングはI/O能力360によって処理することができる。 その代りに、図1の実施形態では目標のデータ項目の組215を情報ツール105か ら目標のデータ項目メモリ350へ送ることができる。ここでは目標のデータ項目 メモリ345へ送られる目標のデータ項目の組215は、プロフィールメモリ115内に 記憶されるユーザプロフィールであってもよい。 ユーザまたは他の入力から要約装置100へ受取られた目標のデータ項目の組215 は、実際には処理モジュール205によって変更して、例えば目標のデータ項目の 組215を拡張して、類義語および他の関連する単語を含むようにしてもよい。目 標のデータ項目の組215の拡張は、シーソラスを使用するが、または情報クラス タリング技術を使用することによって達成でき、なお情報クラスタリング技術は 、例えば本出願人の共に審査中の国際特許出願PCT GB96/00132号内の類似性マト リックスを使用して行われる。 図3に関係して既に記載した各データメモリは、ランダムアクセスメモリの一 部、ハードドライブ、これらの素子を組合せたもの、または当業者にはよく知ら れている他のメモリデバイスであってもよい。プロセスの概要 図4は、本発明の1つの実施形態の段階を詳しく示している。図4では、とく にデータの組200をセクションに分割し、セクション内における目標のデータ項 目の存在にしたがってセクションを格付けすることによってデータの組200を処 理することに関する段階を示している。 このプロセスは、処理モジュール205によって走行され、例えばユーザワーク ステーション140から到来する要求に応答してI/O能力360から周知のやり方で 開始されることになる。到来する要求は、インターネットを介してアクセス可能 なファイル(データの組200)に対するURL(ユニバーサルリソースロケータ) 、要約が要求されたという指示、およびそれに加えて通常はユーザ識別子を含ん でもよい。その代りにもちろんユーザ入力はデータの組200を含んでもよく、ま たは処理モジュール205に対する手段を含んで、データの組メモリ365内に既に記 憶された選択されたデータの組を位置決めしてもよい。ユーザ入力は目標のデー タ項目の組215であって、またはユーザ識別子は処理モジュール205が目標 のデータ項目メモリ350内に目標のデータ項目215を位置決めするのに十分であっ てもよい。 段階400では、処理モジュール205はデータの組200を所定のURLからインタ ーネットを介して、またはデータメモリ365からダウンロードし、データセクシ ョニング規則メモリ330からデータセクショニング規則240の組を選択する。段階 405ではデータの組200はデータセクショニング規則240にしたがってセクション2 95に分割される。次に各セクションは処理されたデータメモリ355内に記憶され るのがよい。処理されたデータメモリ355の構成は、以下で図5を参照してさら に詳しく記載する。 段階410では、ユーザ入力が1組の目標のデータ項目215を含まなかったとき、 処理モジュール205は目標のデータ項目メモリ350から、例えば関連するユーザ識 別子にしたがって選択される組を検索する。次に処理モジュール205は、目標の データ項目の組215に対して各セクション295を比較する。 この比較は、目標のデータ項目の組215内のデータ項目が各選択されたセクシ ョン295内に現れる回数を識別する。 段階415では、格付け値285は、選択されたセクション295内に現れる目標のデ ータ項目の実例(instance)の数に対応する各セクション295に割当てられる。格 付け値285を使用して、目標のデータ項目の組215と密接に整合するデータの組20 0内のセクションを識別する。その代りに、格付け値285を変更して、セクション 295内で反復されるデータ項目に対して1回のみ報告することができる。 段階420では、セクション295の格付け値285を評価し、要約を生成する。1つ の実施形態では、最高の格付け値285をもつセクション295から選択した所定数の セクション295を使用して、格付け値285のみから要約を生成する。 別の実施形態では、以下でさらに詳しく記載するように、種々の他の規則をデ ータの組200に適用する。これらの規則は、セクション295の格付け値285を調節 する。該規則はデータの組200に関する文脈の情報を含む要約を生成することを 目的とし、要約を形成するセクション295は全体的にデータの組200の文脈の中で 理解できるであろう。 格付け値285を生成および変更する全ての規則は要約規則メモリ390内に記憶 できるか、または1または複数の該規則を処理モジュール205に組込むことがで きる。セクショニング 図5は、図4の段階405のフローチャートをさらに詳しく示す。 段階505では、データの組200をセクション295へ分割する規則は、データセク ショニング規則メモリ330から検索される。これらの規則は、要約がエンドユー ザに対してまとめられる方法に影響を与える。データの組200を構文ごとにセク ションに分けるとき、段落ごとにセクションに分けたデータの組200から異なる 要約が生成されることになる。同様に、表をセル、行、または列にセクション化 することができる。したがってユーザは適用される特定のデータセクショニング 規則を選択できることが好ましい。この選択はユーザとI/O能力360との間の 対話によって処理し、処理モジュール205へ送ることができる。 段階510では、選択されたデータの組200はデータの組のメモリ355から検索さ れ、位置の値280が初期化されて、選択されたデータの組200内の識別されたセク ション295を昇順に分類できるようにすることが好ましい。 段階515では、データの組200は最初にセクション295の開始として標識(タグ )をつけられ、現在の位置の値、この場合は“1”で分類される。 段階520ではデータの組200の第1のデータ項目が読取られ、段階525ではこれ はセクショニング基準によって特定される規則に適合するかを試験され、例えば データ項目が“構文の末尾”の信号を発している期間マーカであるときには、1 つの規則の組のもとで構文295の末尾が識別される。 セクショニング規則によって特定されるセクション295の終りの基準が適合し ないとき、セクション295の終りが識別されるまで、次のデータ項目を読取る段 階520と該次のデータ項目を試験する段階525とが反復される。 セクション295の終りが識別されると、データの組200の終りを試験する段階53 0が適用される。この試験が失敗する場合には、位置の値のカウンタをインクリ メントする段階535を実行し、セクション295の開始に標識を付けて、位置カウン タの現在の値でそれを分類する段階515から上述のプロセスを実行する。 データの組200の終りが識別されるとき、注釈を付けられたデータの組200は データの組のメモリ355内に記憶される。 その代りのものでは、データの組200はセクション295の標識および分類を使用 して注釈を付ける必要はない。リンクされたリストの構成を使用でき、各セクシ ョンはリンクされたリストの個々の要素として記憶される。さらにその代りに、 ダイナミックに生成されたアレイ内に各セクションを記憶してもよい。 図5の段階を図2のデータの組200に適用することによって、以下に詳しく記 載した結果が生成される。例えば、適用されるセクショニング規則は、各構文が セクション295を表し、各セクション295が位置の値280を使用して昇順に分類さ れる。 目標のデータ項目を使用した各付け値の割当て 図6は、各セクション295を目標のデータ項目の組と比較する図4の段階410 および段階415を詳細に記載している。段階605では、目標のデータ項目は目標の データ項目のメモリ345から検索され、段階610では第1のセクション295の第1 のデータ項目が検索され、次に段階615が行われて、目標のデータ項目の組215と 選択されたデータ項目とを比較する。 段階620では、目標のデータ項目の組215と選択されたデータ項目の組とを比較 することによって整合が識別されるとき、現在のセクション295に対して格付け 値285をインクリメントする段階625が行われる。段階620で整合が識別されない とき、段階630でセクション295に対して格付け値285はインクリメントされず、 直ぐに選択されたセクション295の終りに対して試験する。 データの組200が分類され、図5に関係して詳しく記載したセクショニングプ ロセス中に標識を付けられるとき、これらの標識を使用して、セクション295の 終りを識別することができる。 セクション295の終りを試験する段階630の結果がノーであるとき、段階635で データの組200の次のデータ項目を選択し、プロセスはループバックして、段階6 15で選択されたデータの組と目標のデータ項目の組215とを比較し、(適切なと きは)段階625で新しく選択されたデータ項目に対して現在のセクション295の格 付け値285をインクリメントする。 セクション295の終りを試験する段階630がイエスのとき、段階640でデータの 組200に対して試験する。一般的に、現在のデータ項目は“ファイル文字の終り ”またはデータの組200の終りを示す他の標準のマーカと比較される。 段階640でデータの組200の終りに到達しなかったとき、段階645で次のセクシ ョン295を選択し、新しく選択されたセクション295の格付け値285を初期化する 。次に段階635で、新しく選択されたデータ項目に対して段階615にループバック する前に、段階635で新しく選択されたセクション295の次のデータ項目を選択す る。 図2のデータの組200の例では、目標のデータ項目は“夜”および“星”であ る。例示的なデータの組200に対して図6の段階を完了した結果は次の通りであ る: (上述のおよび次の記述はデータの組200のセクション295を等しく取扱ってい ることに注意すべきである。しかしながら、いくつかのセクションはデータの組 200の中で比較的高い方の重要度をもつことができ、これらを増加した格付け値2 85に割り当てることができる。例えば見出しはHTMLファイル内で識別可能 であり、処理モジュール205はそれらを検出するように設計され、格付け値285を 増加することができる。)要約の生成 図7は、図4の段階420を詳細に記載し、各セクション295の格付け値285を決 定するときにデータの組200の要約を生成する。 段階705では、要約制御モジュール305によって要約生成規則にアクセスする。 これらの規則は、要約を構成するセクション295を選択する手続きを詳細に記載 している。 この例では、所定の長さの要約が生成されるまで、該規則は最高の格付け値28 5をもつセクション295から降順に選択する。 以下に記載する別の実施形態では次の複雑な規則を使用することができる。 段階710では、各セクション295の格付け値285を検索し、要約規則と比較する 。 段階720では規則に従うセクション295を選択し、要約内のセクション295に順 番をつける段階725が実行される。 要約を順序付ける少なくとも2つの方法が可能であり、第1の方法では要約を 格付け値にしたがって昇順または降順に順序付ける。第2の方法ではセクション 295の順序、すなわちセクション295がデータの組200内で現れる順序で、格付け 値285を順序付けることである。 要約のセクション295を順序付ける段階725の次には、当業者によく知られてい るプロセスにしたがって、要約を出力するか、または記憶する段階730を実行す ることができる。 図7の段階のもとでは、例示的なデータの組200の要約はセクション6および 7から成り、該セクション6および7は次の通りである: 6:The night was clear.(夜空は澄んでいた。) 7:I counted the stars that night.(私は夜空の星を数えた。) これは、これらのセクション295が1および2の格付け値をもつからである。 残りのセクション295の全てが同じ格付け値285、すなわち0をもつとき、他のセ クション295は含まれない。 以下に記載する別の実施形態にしたがって、データの組200の他のセクション を要約に組込むことができる。 このような実施形態は、目標のデータ項目を含むセクション295に基づいて要 約235を生成し、要約235を選択されたデータの組200の全体的な主題の文脈に入 れるのに役立つデータの組200の追加のセクション295をもつ。キーデータ値の組の生成 図8、9、および、10はデータの組200の文脈上の情報にしたがって格付け 値285を変更できる別の実施形態の一定の態様を詳細に記載する。主要なデータ 項目の組は各データの組に対して生成され、キーデータ項目はデータの組200の 全体的な主題に比較的に強く関係している。各セクション295を再検討して、セ クション内に現れるキーデータ項目の割合を反映する分配値290を得る。次に分 配値290を使用して、セクションの格付け値285を変更する。 分配値290は、以下に記載したように種々の異なる規則にしたがって計算およ び変更することができ、分配値290は処理モジュール205によって使用するために 分配値の規則メモリ395に記憶される。(代わりに分配値290はもちろん、処理論 理内に埋め込むことができる。) 図8を参照すると、データの組200に対するキーデータ項目の組を生成する段 階では、全体的な主題にほとんど関係しない単語を取出す。これは停止リスト21 0を使用して達成することができる。 段階805では、データの組200の第1のセクション295の第1のデータ項目がア クセスされて、キーデータ項目が実行されるか否かを試験する段階810が行われ る。通常キーデータ項目を試験する段階810では、停止リストデータメモリ335内 の停止リスト210にアクセスする。選択されたデータ項目が停止リスト210上の単 語と整合するときは、キーデータ項目であると考えられない。 通常は停止リストは、冠詞および接続詞のような小さい値の単語、例えば“it ”、“are”、“they”、“has”、“where”、“at”、“in”、等々のような 単語から成り、要約されるデータの組200の主題を反映しないことが多い。 データ項目が停止リスト210上の単語と整合しないとき、段階815でキーデータ 項目メモリ350のキーデータ項目の組225内のデータ項目を記憶する。これはセク ション295を識別するのに役立つやり方で行われ、このセクションは例えばキー データ項目225を位置の値280と関係付けることによって、各データ項目が置かれ ていたセクションである。 データの組200の終りをチェックする段階820はそこで否定的な結果で行なわれ 、データの組のメモリ355からデータの組200の次のデータ項目がアクセスされる ようにする。キーデータ項目225を識別する段階810およびキーデータ項目をキー データ項目メモリ355に記憶する段階815は、データの組200の終りに到 達するまで各次のキーデータ項目に対して繰り返し行われる。 次にデータの組200内の各セクション295に対する分配値を計算する段階835が 、キーデータ項目225に関係して行われる。この分配値計算は、図10を参照し てより完全に記載する。 別の実施形態では異なるやり方で1組のキーデータ項目225を識別し、異なる 分配値290に到達することができる。例示的に追加の段階を図9に関係して記載 する。 キーデータ項目の分配値を計算することの目的は、全てのセクション295の中 で選択されたデータの組200の主題を反映するセクション295を決定できるように することである。データの組200の主題をより強く反映するセクション295は要約 に組込まれることが好ましい。 段階840では分配値290は格付け値285を正確にする仕組みとして働き、要約内 に含まれるセクション295の選択を助ける。格付け値の正確さを向上することは 、図10ないし15を参照して以下でさらに詳しく記載する。 例示的なデータの組200によると、目標のデータ項目は“night(夜)”および “star(星)”である。次に図7および8のプロセスでは、格付け値285および位 置の値280を使用してキーデータ項目の組225を生成する。 図9は、1組のキーデータ項目225を生成するのに使用できる別の段階を詳細 に示す。図8と9との主要な相違は、図9にはキーデータ項目をステムする(ste mming,語幹に操作すること)段階920およびキーデータ項目の組225から2つおよ び単一のキーデータ項目を削除する段階945があることである。 キーデータ項目をステムする段階920は、基本形に対するキーデータ項目を低 減するポータアルゴリズム(Poter's Algorithm)に関係して既に記載した効果を もつ。段階920では分配値290の計算の精度を向上し、名詞、形容詞、および複数 のようなキーデータ項目の種々の文法形態は特定の目標のデータ項目との整合を 形成して、それによりセクション295の格付け値を増加する。 二重のキーデータ項目は、セクション295に2回以上現れるものである。段階9 45でキーデータ項目の組350からデータの組200のいずれが1つのセクション295 内でのキーデータ項目の二重発生を削除することは、一見したところでは直観に 反していることがある。しかしながら、幾つかの異なるキーデータ項目225をも つセクションは、反復される1つのキーデータ項目をもつセクションよりも、デ ータの組200の全体的な主題により関係付け可能なことが分かった。 単一のキーデータ項目は、全データの組200内に1回のみ現れる。これらもキ ーデータ項目から削除される。 上記の表3の処理されたデータ項目200へこのプロセスを応用すると次のよう になる: この実施形態は、セクション295内のデータ項目の位置が重要でないと仮定し ていることに注意すべきである。データの組200内で1つのみが現れるので、2 つの“mat(マット)”はセクション2から削除され、“kingdom(王国)”、“coun ted(数えた)”、および“stars(星)”はキーデータ項目の組350から全て削除さ れることにも注意すべきである。 もちろんこの段階では格付け値285は変更されないままである。分配値 図10は、各セクション295に対して分配値を計算する図8の段階830のフロー チャートである。 各セクションに対して、多数の段階、すなわち段階1005、段階1015、および段 階1020を含み、段階1005、1015、および1020はキーデータ項目メモリ350に記憶 される各キーデータ項目にアクセスするループで接続されている。 このループは、各キーデータ項目に対して第1の得点を計算する段階1010を結 合している。この第1の得点は、現在のセクション295とは異なるキーデータセ ット200の他の各セクション295の考慮中のキーデータ項目が現れる回数からなる 。(もちろん、2つのキーデータ項目が削除されると、段階945では第1の得 点は総セクション数−1よりも大きくならない。) 各キーデータ項目に対して第1の得点を計算する段階1010を第1のセクション に対して実行すると、段階1005、1010、1015、および1020が各次のセクション( 図示されていない)に対して繰り返される。 次にプロセスは段階1025に移り、各セクション295に対して分配値290を計算す る。段階1025では、各セクション295ごとにセクション295内の各キーデータ項目 の第1のメモリを合計する。 データ項目が現れる回数が増加すると、選択されたデータの組200の主題に対 する該データ項目の重要度が増すという仮定のもとで、この分配値290は、セク ション295の各キーデータ項目がデータの組200内の他のセクション295に現れる 回数を反映している。 表5は、図10の段階を図2の例示的なデータ項目の組200に適用した結果を 示す。したがって例えば最後のセクション295では、他のところで“dog(犬)”は 2回、“sat(座った)”は3回、“floor(床)”は1回現れるので、“6”の分配 値をもつことになる: 各キーデータ項目について第1の得点を計算するこの段階1010は、異なるやり 方で計算されてよく、すなわち各キーデータ項目がキーデータ項目内に現れる全 回数の和から1を減じたものとして計算できる。 次に各セクションに対する分配値290を使用して、格付け値285を変更し、それ によって生成された和を変更する。 一般的に、多数のセクション295は同じ格付け値をもつことになる。 その理由は、選択されたセクション295内のデータ項目数の整数値であるから である。分配値290は、同じ格付け値285をもつセクション295の順序を定める測 度として働く。 分配値290を使用して、格付け値285を変更する1つの方法は、各分配値290を 10、または100(適切なとき)で除算することであり、その結果各分配値29 0は10分の1の値に低減し、各格付け値に付加できるようになる。 この例で得られる結果を次の表6に記載する: データ項目の第2の得点 図11は、図8の段階830へ組込むことができる各キーデータ項目に対する第 2の得点を計算する付加的な特徴を示すフローチャートである。次にこの第2の メモリを使用して、上述で計算した各セクション295の分配値290を変更するか、 または新しい分配値290を計算するのに個々に使用することもできる。 図11のプロセスは、キーデータ項目の組内のキーデータ項目の別の分配測度 を表す。 図11のプロセスでは、先ず段階1105でキーデータ項目メモリ350からキーデ ータ項目の組225を検索し、次に多数の計算段階、すなわち段階1110、1115、お よび1120へ進み、次に各キーデータ項目に対してこれらの計算段階1110、1115、 および1120を行うことを保証する制御ループ試験を行う。 計算段階1110、1115、および1120では各キーデータ項目に対して第2の得点を 計算する。この第2の得点は、データの組200内のキーデータ項目の何れが現れ ても同じである。したがってキーデータ項目の組225内の各キーデータ項目に対 して1回のみ計算されることが必要である。段階1120では、計算されると、組22 5内のキーデータ項目が現れる度ごとに第2の得点が割当てられる。 第2の得点はキーデータ項目の組225内の1つのキーデータ項目が現れてから 次のデータ項目が現れるまでの最大の分離として計算される。これは、最初に段 階1110でキーデータ項目の組225内のキーデータ項目の最高の位置の値[図5の 段階515で割当てられる]と最低の位置の値を識別して検索する実行することに よって計算される。次に段階1115で選択されたキーデータ項目に対して最高の位 置の値から最低の位置の値を減算する段階1115が続く。 図11は図10に類似しており、各キーデータ項目ごとに演算が行われ、この 演算はキーデータ項目の組225内のキーデータ項目の全てを参照する。 しかしながら、図11の制御ループは図10とは異なる。図11の制御ループ は、キーデータ項目メモリ350内のキーデータ項目の組にアクセスする特定の構 成および方法に依存する図10のプロセスよりも一層効果的である。 制御ループ段階1125では、キーデータ項目の組225の終りに対して、例えば次 のデータの存在を探すことによって試験する。データが存在するときは、次のキ ーデータ項目が選択される。選択されたキーデータ項目に対して第2の得点が既 に検索されているとき、データの組200の先行するセクション295内に同じキーデ ータ項目が現れることによって、プロセスは段階1125に戻って、次のデータ項目 を探す。選択されたデータ項目が第2の得点をもたないとき、プロセスは段階11 10、1115、および1120に戻って、選択されたキーデータ項目を処理する。 表7は、例示的なデータの組200中のキーデータ項目に対して図11の段階を 適用した結果を示す。表7を参照すると、例えばキーデータ項目“sat(座った) ”は、最初にセクション1に現れ、最後にセクション8に現れるので、8−1= 7から第2の得点として7を得る。 段階1125が完了し、第2の得点が各キーデータ項目に対して計算されると、段 階1140が行われて、キーデータ項目を使用して各セクション295の分配値290を変 更する。 段階1140は、各セクション295の第2の得点を合計して、その結果を使用して 、セクション295の順番をさらに厳正することによって達成される。これは、図 10において計算される分配値290に付加されるか、またはこの分配値290の代り に使用することができる。例えば、既に記載した表5を参照すると、各セクショ ンごとに第2の得点を第1の得点に加えて、分割前の分配値290を与えることが できる。 第2の得点を使用する長所は、キーデータ項目225がデータの組200内に著しく 離れて現れるとき、データの組200の主題にさらに関連することである。調節値の生成 図12は、図8の段階830に組込むことができる追加の段階を詳細に示す。図 12に詳細に記載した段階では、分配値290を調節するのに使用できる各セクシ ョン295ごとに値を計算する。これは第1の調節値と呼ばれ、各キーデータ項目 に対して第1および第2の得点、および図12の段階1210のもとで計算される各 キーデータ項目に対する第3の得点を使用して計算される。 図12のプロセスも2つの制御ループをもつ。第1のループは第3の得点を計 算する段階1210がデータの組200の各キーデータ項目ごとに実行されることを確 実にし、第2の制御ループは第1の調節値を計算する段階1230が各セクション29 5ごとに実行されることを確実にする。 図12のプロセスは、先ず段階1205で第1のセクション295内の第1のキーデ ータ項目にアクセスする。 次に第1のループでは、先ず段階1210で選択されたキーデータ項目に対して第 3の得点を計算する。この計算は、考慮中のキーデータ項目が一緒に発生するセ クション295の全ての対を識別し、前記対のセクションのそれぞれに対してより 高い位置の値からより低い位置の値を減算することによって行われる。次に各対 の減算結果は、考慮中のキーデータ項目の第2の得点によって除算される。次に これらの各値は、考慮中のキーデータ項目に対して加算され、考慮中のキーデー タ項目ごとに第3の得点が生成される。 第3の得点が各キーデータ項目ごとに計算されると、第2の制御ループは入力 され、データの組200の各セクション295ごとに第1の調節値295を計算する。 キーデータの組200の各セクション295に対する第1の調節値は、段階1230にお いて選択されたセクション295内の各キーデータ項目の第3の得点の和として計 算される。 上述のプロセスは、次の擬似(シュード)コードを使用してより好ましく表す ことができる: for each section S set its adjustment value to zero for each key data item for every pair of sections(i,j),where i>j,that the key data item occur s in add(i-j)/Sd to the adjustment values of sections si and sj (上述の擬似コードおよび次の記述の目的に対して、“Sd”は第2の得点を 意味し、“Wd”は分配値を意味する。) 上述の表3に戻って、例示的なデータの組200のセクション8を検討する。キ ーデータ項目“dog(犬)”は5(=8−3)の第2の得点をもつ。構文3および 4に“dog(犬)”が現れることは次の式で表される。 (8−3)/5+(8−4)/5=1.8 単語“sat”および“floor(床)”に対してこれら演算を反復することによって 、セクション8に対する調節値を得られる: (8-3)/5+(8-4)/5+(8-1)/7+(8-3)/7+(8-4)/7+(8-5)/3=5.09(近似値) “dog” “dog” “sat” “sat” “sat” “floor” “犬” “犬” “座った” “座った” “座った” “床” このプロセスの結果から上述で第2の得点を使用したように、データの組200 全体で広く間隔を空けた構文中の単語間のリンクが好ましいことが分かる。広い 間隔は、その内容がデータの組200の主題に対してより有効に貢献することを仮 定している。 図12は、第1の調節値を使用して各セクション295の分配値290を変更する段 階1245で終了している。これは図11の段階1140に類似したやり方で、キーデー タ項目の第2の得点に対して行なうことができる。 図13は、図8の段階820に組込むことができる追加段階を詳細に示す。追加 段階は、データの組200のキーデータ項目に対する別の分散パターンを決定する 。この別の分配パターンは、第2の調節値を使用して測定される。 図13は制御ループを含み、各セクション295が計算された第2の調節値をも つことを保証する。 第2の調節値の計算では、先ず段階1310で選択されたセクション295の第1の 調節値にアクセスし、段階1315で選択されたセクションの分配値290にアクセス する。 次に第2の調節値は、段階1320で分配値290の平方根によって第1の調節値を 除算することによって計算される。 この正規化を行ない、長い構文が短い構文と比較して比例して高い得点を得な いことが好ましい。√Wdによる除算はWdのみによる除算に好ましい結果を与え ることが分かっている。 これを例示的なデータの組200に適用し、上述の図5を参照して、セクション 8に対する第2の調節値は次の式によつて計算される: 5.09/√6=2.08(近似値) 段階1325では、分配値290は第2の調節値によって変更される。 図11および12に関係して既に記載した方法と類似した他の方法も可能であ るが、これに対する1つの方法は、古い分配値290を第2の調節値と置換して行 われる。 図14は、図8の段階830に組込むことができる追加段階を詳細に記載してい る。図14に記載した段階では、各セクション295に対するスキューイング値を 定める。各セクション295のスキューイング(串ざし)値を使用して、各セクシ ョン295の分配値を変更する。 図14では先ず段階1405でデータの組200およびセクション情報にアクセスす る。次に1410に進み、データの組200内のセクション295のスーパー(特別な)グ ループを識別する。スーパーグループは種々の形態をとり、例えば各セクション 295が1つの構文に対応するとき、スーパーグループはデータの組200の段落であ ってもよい。その代りに、セクション295が段落のときは、データの組200のスー パーグループはデータの組200のページおよび章であってもよい。 図2の例示的なデータの組200において、スーパーグループ1はセクション1 、2、3、4、および5からなり、スーパーグループ2はセクション6、7、お よび8からなる。 段階1415ではスキューイング値はスーパーグループ内のセクション295の位置 にしたがって各セクション295に割り当てられ、先に位置するセクション295はよ り好ましい: 好ましい方式は、 セクション1:スキューイング値=1.2 セクション2:スキューイング値=1.1 セクション3:スキューイング値=1.05 セクション4:スキューイング値ニ1.025 など。 スキューイング値によって分配値290を乗算する段階1420にしたがって、各セ クション295の分配値290が変更される。 図13の実施形態をセクション8が分配値290に対して使用するとき、次の乗 算を行う: 2.08*1.05=2.18(近似値) 構文8は第2の組200の第2のスーパーグループ内の第3の構文であるので、 値1.05をスキューイング値として使用する。 このスキューイング値は、段落内の最も重要な情報が段落のほぼ最初に現れる ことが多いという仮定に基づいて演算する。 同様のスキューイング値をデータの組200のスーパーグループごとに適用する ことができる: スーパーグループ1:各セクションは1.2で乗算される、 スーパーグループ2:各セクションは1.1で乗算される、 スーパーグループ3:各セクションは1.05で乗算される、 スーパーグループ4:各セクションは1.025で乗算される、 など。 したがってセクション8に対する分配値は次の通りである: 2.18*1.1=(=2.39(近似値)) 上記の式が成立するのは、セクション8がデータの組200の第2のスーパーグ ループに含まれるからである。 図13および14の段階を適用することにより、次の(近似の)スキュー分配 値290が得られる。 要約の長さおよびセクションレーティング(細かい等級付け) 図15は、要約を生成する図4の段階420へ組込むことのできる追加段階のフ ローチャートである。 先ず段階1505で格付け値にしたがって降順にセクション295を順序付け、統い て段階1510で分配値290にしたがって同じ格付け値でセクション295を順序付ける 。 セクション295を順序付けると、ユーザまたは外部アプリケーションによって 特定される要約長データ、あるいはこれらがないときは、要約長デフォルト値が 要約制御モジュール305から検索される。 段階1520では最高の格付け値をもつセクション295(2以上のセクション295が 同じ格付け値をもつときに、最高の分配値290をとる)が検索され、セクション2 95の長さが計算される。次にこの長さは要約長カウンタに対して記憶され、段階 1525で要約の長さは特定の長さと比較される。 この長さが要約長の要件を満たさないとき、段階1530で次の最高の格付けセク ション295が選択され、段階1525の要約長試験を反復する前に予め計算された要 約の長さに再び付加される。 十分な長さの要約を含むセクション295が識別されると、段階1530で要約順序 決め規則が適用される。この規則は要約が格付け値の順序または位置の値の順序 の何れにしたがって生成されるかを特定する。段階1540で要約順序決め規則にし たがってセクション295の順序が決められると、段階1545で要約が出力される。 他の実施形態では、要約を生成するときのセクションの長さを考慮しないこと がある。これらの実施形態は、全てのセクション295が要約内で再生成される上 述の閾値の値を選択する。例えば、データの組200の百分率値を再生成する要約 がある。 この方法の例は、例示的なデータの組200および図13および14の結果を使 用して以下に記載する。 簡単にするために、各セクション295は分配値290のリスト内の位置に対応する 整数値を与える。例えば、この例ではセクション295が8つあり、それにしたが って各セクション295は、以下で“レーティング”と呼ぶ値として、1ないし8 の間の以下に記載する値を割り当てられ、セクション295は分配値290によって決 定される順番と同じ順番で順序付けられる。 これらのレーティングを使用して、これらのレーティングの閾値を変化させ、 上述の閾値以上のレーティングをもつセクション295のみを含むことによって、 全ての可能な長さの要約を供給することができる。 幾つかの実施形態では、例えば要約の詳細は長さよりも重要であり、上述のこ のレーティング技術の等級は細かすぎることがあり(すなわち、幾つかの詳細を 損失することがある)、このような場合は以下で記載するようなより粗いレーテ ィングシステムを使用することができる。セクションレーティング (粗い等級付け) 粗いレーティング方式を使用すると、独特のセクションレーティング数はより 少なくなるので、(2つのセクション295の下限数を使用して)オリジナルの文 書の約1/2、1/4、1/8、などの要約が生成される。 例えば、細かいレーティングから粗いレーティングへのマッピングは次の通り である。 細かい: 87654321 粗い : 33322111 粗い構文のとき、レーティングは次の通りである: したがって2の閾値レーティングを選択することにより、次に記載する構文1 、3、4、5、および8を含む要約を生成する: The cat sat on the mat.(猫はマットの上に座った。) The dog also sat on the mat.(犬もマットの上に座った。) Both cat and dog sat on the mat.(猫も犬もマットの上に座った。) The mat is on the floor.(マットは床の上にある。) The dog sat on the floor.(犬は床の上に座った。) しかしながら、この要約は目標のデータ項目を説明していなかった。目標のデ ータ項目を説明するために、目標のデータ項目に整合する単語または段落を含む 全てのセクション295のレーティングは、全ての他のセクション295の得点を超過 するほどに十分に増加する。目標のデータ項目に2以上の単語および段落がある とき、目標のデータ項目に整合するN+1を含む全ての構文は、目標のデータ項 目に整合するNを含む全てのセクション295のレーティングを超過するほど十分 に増加したレーティングを有する。 例示的なデータの組200において、“night,star(夜、星)”のデータ項目を使 用するとき、粗い等級付けシステムのもとでの構文6(“night(夜)”を含む) のレーティングは1から4へ増加し、構文7(“night(夜)”および“star(星) ”の両方を含む)のレーティングは1から5へ増加する。目標のデータ項目を考 慮するレーティングを促進するとき、オリジナルの等級付けの差異が保たれる。 この例では、粗いセクション295のレーティングは次の通りである: したがって3の閾値レーティングを選択することにより、セクション1、4、 6、7、および8を含む要約を生成することになる。 The cat sat on the mat.(猫はマットの上に座った。) Both cat and dog sat on the mat.(猫も犬もマットの上に座った。) The night was clear.(夜空は澄んでいた。) I counted the stars that night.(私はその夜星を数えた。) The dog sat on the floor.(犬は床の上に座った。) このやり方で目標のデータ項目を説明することにより、データの組200内に現 れる目標のデータ項目のみを説明するだけでなく、要約235を全データ項目の組2 00の主題の文脈へ置換することのできる要約235を生成できる。 好ましい実施形態は、当業者には周知であり、Sun Microsystems(CA,USA)から 販売されているJavaプログラミング言語を使用して構成することができる。 Javaプログラミング言語は一般的にインターネットブラウザおよびサーバに 関係するアプリケーションに使用されている。このような実施形態では上述のよ うに要約装置100は入力してURLを使用することができる。次に要約装置はビ ュワー135にURLを要約装置100にダウンロードするように要求することができ る。いったんダウンロードされると、次の要約装置はURLのデータの組200を 要約するようにプロセスを進めることができる。 要約がその中にHTML標識をもつ構文を含むとき、要約235内に直前の構文 を強制的に含めることが好ましい。これは後続の処理段階で先ず要約装置の出力 をスキャンして、HTML標識を検出することによって達成することができる。 別の処理段階では、各構文の開放部を検索することである。構文が単語および 語句、例えば“A1so(そのうえ)”、“Furthermore(さらに)”、“In addition( 加えて)”、“However(しかし)”[コンマが次に記載されるとき]、“He(彼)”、 “She(彼女)”で始まるとき、直前の構文は要約235に強制的に含まれることが好 ましい。 要約を生成するためにデータの組200から1つの構文を取除くと、要約内の引 用符は不完全になることがある。これは、要約を前でまたは後でスキャンする後 処理段階によって検出することができる。不完全な引用符が見付かると、もとの データの組200は参照され、引用中の最後の構文に引用符が追加される。 例えば、データの組200を次のように仮定する: (1)He said,“The project has finished. (彼は次のように言った。“プロジェクトは完了した。) (2)We must celebrate our success. (我々は成功を祝わなければならない。) (3)Everyone will receive a token gift. (皆に記念品を送ろう。") (4)The project was the closed. (プロジェクトは終了した。) これは構文1、2、および4をもつ要約を生成するとき、生成された要約はの ように読取られることになる。 (1)He sald,“The project has finished. (彼は次のように言った。“プロジェクトは完了した。) (2)We must celebrate our success". (我々は成功を祝わなければならない。") (4)The project was the closed. (プロジェクトは終了した。) 構文2の最後に引用符が追加されたことに注意すべきである。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,ML,MR, NE,SN,TD,TG),AP(GH,GM,KE,L S,MW,SD,SZ,UG,ZW),EA(AM,AZ ,BY,KG,KZ,MD,RU,TJ,TM),AL ,AM,AT,AU,AZ,BA,BB,BG,BR, BY,CA,CH,CN,CU,CZ,DE,DK,E E,ES,FI,GB,GE,GH,GM,GW,HU ,ID,IL,IS,JP,KE,KG,KP,KR, KZ,LC,LK,LR,LS,LT,LU,LV,M D,MG,MK,MN,MW,MX,NO,NZ,PL ,PT,RO,RU,SD,SE,SG,SI,SK, SL,TJ,TM,TR,TT,UA,UG,US,U Z,VN,YU,ZW

Claims (1)

  1. 【特許請求の範囲】 1.データの組を要約するシステムであって; 目標のデータ項目を記憶する目標のデータ項目メモリと; 前記データの組をセクションに分けて、各セクションを前記目標データ項目 と比較するセクショニング手段と; 前記セクションごとに前記比較の結果に依存する格付け値を計算する計算手 段と; 各格付け値にしたがって1または複数のセクションを選択することによって データの組の要約をコンパイルするコンパイル手段とを含むシステム。 2.目標のデータ項目を目標のデータ項目メモリへ入力するユーザ入力をさらに 含む請求項1記載のシステム。 3.システムがさらに: 前記データの組のキーデータ項目を識別するキーデータ項目識別子と; 前記セクション内の前記キーデータ項目の分配に依存して各セクションに対 する分配値を計算する分配値計算器と; 各セクションに対する前記分配値に 依存するやり方で関連する格付け値を調節する格付け値調節手段とをさらに含む 請求項1または2記載のシステム。 4.コンパイルされた要約内の前記セクションが、データの組内での該セクショ ンの出現順にしたがって順序付けられる請求項1ないし3の何れが1項記載のシ ステム。 5.コンパイルされた要約内の前記セクションが、格付け値にしたがって順序付 けられる請求項1ないし3の何れが1項記載のシステム。 6.前記分配値計算器が各セクションに対する前記分配値を計算するのに: 各セクション内の各キーデータ項目に対して第1の得点を決定することと; 各セクションごとに、各キーデータ項目に対して前記第1の得点を要約する こととを行い、 考慮中のキーデータ項目がデータの組内に現れる回数が、考慮中のキーデータ 項目が考慮中のセクション内に現れる回数よりも少ないときに、各キーデータ項 目の前記第1の得点が計算される請求項2ないし5の何れか1項記載のシステム 。 7.前記分配値計算器が、各キーデータ項目ごとに第2の得点を計算することに よって各セクションに対する前記分配値を計算または変更し、前記第2の得点が : データの組内のセクションの位置にしたがってデータの組の各セクションに 位置の値を割り当てることと; データの組の各キーデータ項目ごとに、考慮中のキーデータ項目が現れる第 1セクションの位置の値を考慮中のキーデータ項目が現れる最後のセクションの 位置の値から減算する計算を行うこととによって計算される請求項2ないし6の 何れか1項記載のシステム。 8.前記分配値計算器が、各キーデータ項目に対して第3の得点を計算し、各セ クションごとに計算される第3の得点を合計することによって各セクションに対 する前記分配値を計算および変更し、前記第3の得点が: データの組内のセクションの位置に対応してデータの組の各セクションに対 して位置の値を割当てることと; キーデータ項目が共に現れる全ての対のセクションを識別することと; 各識別された対のセクションに対して、より高い位置の値からより低い位置 の値を減算し、減算結果を第2の得点によって除算することとによって計算され る請求項7記載のシステム。 9.データの組を要約する方法であって: 1)データの組を処理手段への入力として受取る段階と; 2)目標データメモリ内に1または複数の目標のデータ項目を記憶する段階 と; 3)前記データの組をセクションに分割する段階と; 4)各前記セクションを前記目標のデータ項目と比較する段階と; 5)前記比較の結果に依存して各前記セクションに対する格付け値を計算す る段階と; 6)各格付け値にしたがって1または複数のセクションを選択することによ ってデータの組の要約をコンパイルする段階とを含むデータの組を要約する方法 。 10.ユーザの入力において前記1または複数の目標のデータ項目を受取る段階 をさらに含む請求項9記載の方法。 11.7)前記データの組内のキーデータ項目を識別する段階と; 8)前記キーデータ項目の分配に依存して各前記セクションごとに分配値 を計算する段階と; 9)前記分配値に依存して前記格付け値を変更する段階とをさらに含む請 求項9または10記載の方法。 12.コンパイルされた要約内のセクションが、データの組内での出現順にした がって順序付けられる請求項9ないし11のいずれか1項記載の方法。 13.コンパイルされた要約内のセクションが、段階5の格付け値にしたがって 順序付けられる請求項9ないし11のいずれか1項記載の方法。 14.前記分配値を各セクションに対して計算または変更するのに: 各セクションにおいて各キーデータ項目ごとに第1の得点を決定する段階と ; 各セクションごとに各キーデータ項目の前記第1の得点を合計する段階とを 行い、 考慮中のキーデータ項目がデータの組内に現れる回数が考慮中のキーデータ 項目が考慮中のセクション内に現れる回数よりも少なくなるように、各キーデー タ項目の前記第1の得点が計算される請求項11ないし13の何れか1項記載の 方法。 15.各キーデータ項目に対する第2の得点を計算することによって、前記分配 値が各セクションごとに計算または変更され;第2の得点を計算するのに、デー タの組内のセクションの位置に対応してデータの組内の各セクションの位置の値 を割当て、データの組の各キーデータ項目ごとに、考慮中のキーデータ項目が現 れる第1のセクションの位置の値を、考慮中のキーデータ項目が現れる最後のセ クションの位置の値から減算する計算を行う請求項11ないし14の何れか1項 記載の方法。 16.各セクションに対して前記分配値を計算するのに、キーデータ項目が共に 現れるセクションの全ての対を識別することによって各キーデータ項目に対して 第3の得点を計算し、より高い分配値からより低い分配値を減算するセクション の各対に対して、第2の得点によって減算結果を除算し、各セクションに対して 計算された第3の得点を加算して、各セクションごとに第4の値を計算し、各セ クションに対する前記第4の値にしたがって分配値を計算または変更する請求項 15記載の方法。 17.データの組を要約する装置であって、該装置が: i)データの組を受取るデータの組の入力と; ii)受取ったデータの組をセクションに分割する手段と; iii)その選択されたセクションを含むデータの組の要約を出力するようにセクシ ョンを処理する手段とを含み、 データの組を処理する手段が: iv)目標のデータ項目の少なくとも1つの組を受取る入力と; v)データの組の入力で受取った受取られたデータの組から1組のキーデータ項 目を生成する手段との一方または両方を含み: データの組を処理する手段が、その中の目標のデータ項目を検出する手段また はデータの組内のキーデータ項目の分配を検出する手段、あるいはこの両者によ って要約内で使用するセクションを選択するようにされているデータの組を要約 する装置。 18.該装置が、最初にセクション内に目標のデータ項目を検出し、各セクショ ンの格付け値をその存在またはさもなければセクション内の目標のデータ項目に したがって割当て、データの組内のキーデータ項目の検出された分配にしたがっ て格付け値を変更することによって要約内で使用するセクションを選択するよう にされている請求項17記載の装置。
JP54364398A 1997-04-16 1998-04-16 データ要約装置 Withdrawn JP2001519952A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP97302616.4 1997-04-16
EP97302616 1997-04-16
PCT/GB1998/001119 WO1998047083A1 (en) 1997-04-16 1998-04-16 Data summariser

Publications (2)

Publication Number Publication Date
JP2001519952A true JP2001519952A (ja) 2001-10-23
JP2001519952A5 JP2001519952A5 (ja) 2005-11-10

Family

ID=8229299

Family Applications (1)

Application Number Title Priority Date Filing Date
JP54364398A Withdrawn JP2001519952A (ja) 1997-04-16 1998-04-16 データ要約装置

Country Status (9)

Country Link
US (1) US6334132B1 (ja)
EP (1) EP0976069B1 (ja)
JP (1) JP2001519952A (ja)
AU (1) AU746762B2 (ja)
CA (1) CA2286097C (ja)
DE (1) DE69811066T2 (ja)
ES (1) ES2192323T3 (ja)
NZ (1) NZ500057A (ja)
WO (1) WO1998047083A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002529945A (ja) * 1998-10-29 2002-09-10 ジェネシス・テレコミュニケーションズ・ラボラトリーズ・インコーポレーテッド マルチメディア通信センタ内で格納されたマルチメディアファイルに関する要約記録を提供する格納媒体インターフェースエンジン

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4214598B2 (ja) * 1998-04-02 2009-01-28 ソニー株式会社 文書処理方法および装置ならびに記録媒体
EP0950956A1 (en) 1998-04-17 1999-10-20 BRITISH TELECOMMUNICATIONS public limited company Computer network
JP2000011005A (ja) * 1998-06-17 2000-01-14 Hitachi Ltd データ分析方法及び装置及びデータ分析プログラムを記録したコンピュータ読み取り可能な記録媒体
US6665837B1 (en) * 1998-08-10 2003-12-16 Overture Services, Inc. Method for identifying related pages in a hyperlinked database
US6549897B1 (en) * 1998-10-09 2003-04-15 Microsoft Corporation Method and system for calculating phrase-document importance
US8069407B1 (en) 1998-12-08 2011-11-29 Yodlee.Com, Inc. Method and apparatus for detecting changes in websites and reporting results to web developers for navigation template repair purposes
US7672879B1 (en) 1998-12-08 2010-03-02 Yodlee.Com, Inc. Interactive activity interface for managing personal data and performing transactions over a data packet network
US7085997B1 (en) 1998-12-08 2006-08-01 Yodlee.Com Network-based bookmark management and web-summary system
US6834276B1 (en) * 1999-02-25 2004-12-21 Integrated Data Control, Inc. Database system and method for data acquisition and perusal
US6928404B1 (en) * 1999-03-17 2005-08-09 International Business Machines Corporation System and methods for acoustic and language modeling for automatic speech recognition with large vocabularies
US7752535B2 (en) 1999-06-01 2010-07-06 Yodlec.com, Inc. Categorization of summarized information
US8666757B2 (en) * 1999-07-28 2014-03-04 Fair Isaac Corporation Detection of upcoding and code gaming fraud and abuse in prospective payment healthcare systems
JP3463010B2 (ja) * 1999-09-17 2003-11-05 Necエレクトロニクス株式会社 情報処理装置および情報処理方法
US7475334B1 (en) * 2000-01-19 2009-01-06 Alcatel-Lucent Usa Inc. Method and system for abstracting electronic documents
US20050026199A1 (en) * 2000-01-21 2005-02-03 Shaw Sandy C. Method for identifying biomarkers using Fractal Genomics Modeling
US20050079524A1 (en) * 2000-01-21 2005-04-14 Shaw Sandy C. Method for identifying biomarkers using Fractal Genomics Modeling
US6820237B1 (en) * 2000-01-21 2004-11-16 Amikanow! Corporation Apparatus and method for context-based highlighting of an electronic document
US20050158736A1 (en) * 2000-01-21 2005-07-21 Shaw Sandy C. Method for studying cellular chronomics and causal relationships of genes using fractal genomics modeling
US7366719B2 (en) * 2000-01-21 2008-04-29 Health Discovery Corporation Method for the manipulation, storage, modeling, visualization and quantification of datasets
US20020078091A1 (en) * 2000-07-25 2002-06-20 Sonny Vu Automatic summarization of a document
US7017114B2 (en) * 2000-09-20 2006-03-21 International Business Machines Corporation Automatic correlation method for generating summaries for text documents
WO2002033584A1 (en) * 2000-10-19 2002-04-25 Copernic.Com Text extraction method for html pages
KR100877461B1 (ko) * 2001-12-28 2009-01-07 인터내셔널 비지네스 머신즈 코포레이션 실시간 데이터 웨어하우징
US9280603B2 (en) 2002-09-17 2016-03-08 Yahoo! Inc. Generating descriptions of matching resources based on the kind, quality, and relevance of available sources of information about the matching resources
US7406458B1 (en) * 2002-09-17 2008-07-29 Yahoo! Inc. Generating descriptions of matching resources based on the kind, quality, and relevance of available sources of information about the matching resources
EP1563628A4 (en) 2002-11-06 2010-03-10 Ibm COMMON USE OF CONFIDENTIAL DATA AND RESOLUTION OF ANONYTE ENTITIES
US8620937B2 (en) * 2002-12-27 2013-12-31 International Business Machines Corporation Real time data warehousing
WO2004061668A1 (en) * 2002-12-31 2004-07-22 International Business Machines Corporation Authorized anonymous authentication
US7200602B2 (en) 2003-02-07 2007-04-03 International Business Machines Corporation Data set comparison and net change processing
WO2004097596A2 (en) * 2003-03-24 2004-11-11 Systems Research & Development Secure coordinate identification method, system and program
CN1614585A (zh) * 2003-11-07 2005-05-11 摩托罗拉公司 文本概括
US7836408B1 (en) * 2004-04-14 2010-11-16 Apple Inc. Methods and apparatus for displaying relative emphasis in a file
US20060112045A1 (en) * 2004-10-05 2006-05-25 Talbot Patrick J Knowledge base comprising executable stories
US7917460B2 (en) * 2004-06-30 2011-03-29 Northrop Grumman Corporation Systems and methods for generating a decision network from text
US20060200464A1 (en) * 2005-03-03 2006-09-07 Microsoft Corporation Method and system for generating a document summary
US8010480B2 (en) * 2005-09-30 2011-08-30 Google Inc. Selecting high quality text within identified reviews for display in review snippets
US8145617B1 (en) 2005-11-18 2012-03-27 Google Inc. Generation of document snippets based on queries and search results
US7870481B1 (en) * 2006-03-08 2011-01-11 Victor Zaud Method and system for presenting automatically summarized information
EP2050024A1 (en) * 2006-07-27 2009-04-22 Sapio Systems Aps A method of processing a collection of document sources
US7606752B2 (en) 2006-09-07 2009-10-20 Yodlee Inc. Host exchange in bill paying services
US8661029B1 (en) 2006-11-02 2014-02-25 Google Inc. Modifying search result ranking based on implicit user feedback
US8204831B2 (en) 2006-11-13 2012-06-19 International Business Machines Corporation Post-anonymous fuzzy comparisons without the use of pre-anonymization variants
US7921092B2 (en) * 2006-12-04 2011-04-05 Yahoo! Inc. Topic-focused search result summaries
US8261334B2 (en) 2008-04-25 2012-09-04 Yodlee Inc. System for performing web authentication of a user by proxy
US7644071B1 (en) * 2008-08-26 2010-01-05 International Business Machines Corporation Selective display of target areas in a document
US8984398B2 (en) * 2008-08-28 2015-03-17 Yahoo! Inc. Generation of search result abstracts
US7958109B2 (en) * 2009-02-06 2011-06-07 Yahoo! Inc. Intent driven search result rich abstracts
US8555359B2 (en) 2009-02-26 2013-10-08 Yodlee, Inc. System and methods for automatically accessing a web site on behalf of a client
US8498974B1 (en) 2009-08-31 2013-07-30 Google Inc. Refining search results
US8972391B1 (en) 2009-10-02 2015-03-03 Google Inc. Recent interest based relevance scoring
US8706728B2 (en) * 2010-02-19 2014-04-22 Go Daddy Operating Company, LLC Calculating reliability scores from word splitting
US8515969B2 (en) * 2010-02-19 2013-08-20 Go Daddy Operating Company, LLC Splitting a character string into keyword strings
US9058393B1 (en) 2010-02-19 2015-06-16 Go Daddy Operating Company, LLC Tools for appraising a domain name using keyword monetary value data
US8909558B1 (en) 2010-02-19 2014-12-09 Go Daddy Operating Company, LLC Appraising a domain name using keyword monetary value data
US9623119B1 (en) * 2010-06-29 2017-04-18 Google Inc. Accentuating search results
WO2012054788A1 (en) 2010-10-21 2012-04-26 Rillip Inc. Method and system for performing a comparison
US9002926B2 (en) 2011-04-22 2015-04-07 Go Daddy Operating Company, LLC Methods for suggesting domain names from a geographic location data
US9275040B1 (en) 2012-09-14 2016-03-01 Go Daddy Operating Company, LLC Validating user control over contact information in a domain name registration database
US9864755B2 (en) 2013-03-08 2018-01-09 Go Daddy Operating Company, LLC Systems for associating an online file folder with a uniform resource locator
US9953105B1 (en) 2014-10-01 2018-04-24 Go Daddy Operating Company, LLC System and method for creating subdomains or directories for a domain name
US9779125B2 (en) 2014-11-14 2017-10-03 Go Daddy Operating Company, LLC Ensuring accurate domain name contact information
US9785663B2 (en) 2014-11-14 2017-10-10 Go Daddy Operating Company, LLC Verifying a correspondence address for a registrant
US9767193B2 (en) * 2015-03-27 2017-09-19 Fujitsu Limited Generation apparatus and method
US11526518B2 (en) 2017-09-22 2022-12-13 Amazon Technologies, Inc. Data reporting system and method
WO2019060774A1 (en) * 2017-09-22 2019-03-28 Amazon Technologies, Inc. SYSTEM AND METHOD FOR DATA REPORTING
US11562144B2 (en) * 2020-03-16 2023-01-24 Robert Bosch Gmbh Generative text summarization system and method
US11755981B2 (en) * 2021-05-17 2023-09-12 International Business Machines Corporation Peer review system with polynomial discounting

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0743717B2 (ja) * 1989-02-06 1995-05-15 株式会社テレマティーク国際研究所 抄録文作成装置
JPH03278270A (ja) 1990-03-28 1991-12-09 Ricoh Co Ltd 抄録文作成装置
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
EP0610760B1 (en) * 1993-01-28 2003-05-02 Kabushiki Kaisha Toshiba Document detection system with improved document detection efficiency
JPH06259423A (ja) 1993-03-02 1994-09-16 N T T Data Tsushin Kk 要約自動作成方式
US5696963A (en) * 1993-11-19 1997-12-09 Waverley Holdings, Inc. System, method and computer program product for searching through an individual document and a group of documents
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US5918240A (en) * 1995-06-28 1999-06-29 Xerox Corporation Automatic method of extracting summarization using feature probabilities
US5867164A (en) * 1995-09-29 1999-02-02 Apple Computer, Inc. Interactive document summarization
US5787435A (en) * 1996-08-09 1998-07-28 Digital Equipment Corporation Method for mapping an index of a database into an array of files
US5897637A (en) * 1997-03-07 1999-04-27 Apple Computer, Inc. System and method for rapidly identifying the existence and location of an item in a file

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002529945A (ja) * 1998-10-29 2002-09-10 ジェネシス・テレコミュニケーションズ・ラボラトリーズ・インコーポレーテッド マルチメディア通信センタ内で格納されたマルチメディアファイルに関する要約記録を提供する格納媒体インターフェースエンジン

Also Published As

Publication number Publication date
DE69811066D1 (de) 2003-03-06
NZ500057A (en) 2002-09-27
ES2192323T3 (es) 2003-10-01
US6334132B1 (en) 2001-12-25
CA2286097C (en) 2006-11-07
WO1998047083A1 (en) 1998-10-22
AU7062898A (en) 1998-11-11
AU746762B2 (en) 2002-05-02
CA2286097A1 (en) 1998-10-22
DE69811066T2 (de) 2003-11-20
EP0976069A1 (en) 2000-02-02
EP0976069B1 (en) 2003-01-29

Similar Documents

Publication Publication Date Title
JP2001519952A (ja) データ要約装置
US6826576B2 (en) Very-large-scale automatic categorizer for web content
US8078625B1 (en) URL-based content categorization
CN1104696C (zh) 自动添加信息的超级文本链接接收文件的系统和方法
US7512598B2 (en) Synthesizing information-bearing content from multiple channels
US8176418B2 (en) System and method for document collection, grouping and summarization
US8335779B2 (en) Method and apparatus for gathering, categorizing and parameterizing data
US8849787B2 (en) Two stage search
US7333985B2 (en) Dynamic content clustering
US20030221163A1 (en) Using web structure for classifying and describing web pages
US20070022085A1 (en) Techniques for unsupervised web content discovery and automated query generation for crawling the hidden web
US20030135430A1 (en) Method and apparatus for classification
US7523109B2 (en) Dynamic grouping of content including captive data
US7324988B2 (en) Method of generating a distributed text index for parallel query processing
WO2002054288A1 (en) Automated adaptive classification system for bayesian knowledge networks
WO2003017023A2 (en) System and method for extracting content for submission to a search engine
JP2002541580A (ja) 文書をパージングするシステム及び方法
KR20000054268A (ko) 문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템
KR20040017008A (ko) 검색엔진을 활용한 정보 제공 시스템 및 그 방법
Zhang et al. Informing the curious negotiator: Automatic news extraction from the internet
WO2002041182A1 (fr) Systeme et procede de distribution de nouvelles interessantes
JP2003173351A (ja) 情報解析、収集、検索方法、装置、プログラム、および記録媒体
WO2004025496A1 (en) System and method for document collection, grouping and summarization
WO2001035281A1 (en) Content engine

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050224

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080212

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080512

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080812

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080930

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090512