JP5392904B2 - ドキュメントを分類するシステム、方法、およびソフトウェア - Google Patents
ドキュメントを分類するシステム、方法、およびソフトウェア Download PDFInfo
- Publication number
- JP5392904B2 JP5392904B2 JP2009102510A JP2009102510A JP5392904B2 JP 5392904 B2 JP5392904 B2 JP 5392904B2 JP 2009102510 A JP2009102510 A JP 2009102510A JP 2009102510 A JP2009102510 A JP 2009102510A JP 5392904 B2 JP5392904 B2 JP 5392904B2
- Authority
- JP
- Japan
- Prior art keywords
- target
- headnote
- score
- class
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99942—Manipulating data structure, e.g. compression, compaction, compilation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Devices For Executing Special Programs (AREA)
Description
本特許明細書の一部分は、著作権保護の対象となる資料を含む。著作権所有者は、特許商標庁の特許ファイルまたは記録に記載されるように、特許明細書または特許開示の何者かによるファクシミリでの複製に対する異議はないが、それ以外の、いかなる場合も無断転載が禁止される。以下の著作権表示Copyright(C)2001、West Groupが本明細書に適用される。
本発明は、裁判上の見解の頭注等のテキストおよびドキュメントを分類するシステム、方法、およびソフトウェアに関する。
米国法体系、および、世界中の他の法体系は、法に準拠した紛争の解決を明確化または解釈するために裁判官の書面の宣告(判決の書面宣告)に大きく依存する。裁判上の各見解は、特定の法的紛争を解決するためだけでなく、将来における類似の紛争を解決するためにも重要である。そのために、我々の法体系内にある裁判官および弁護士は、新規の紛争を解決するために最も重要であるものについて、刻々と拡大する過去の見解判例法の主体を継続的にリサーチする。
West Key Number Systemは、90,000を超える独自の法律カテゴリまたはクラスにまたがる2000万を越える頭注の階層的分類である。各クラスは、記述的名称を有するだけでなく、キーナンバー分類として公知の固有の英数字コードも有する。
これおよび他の必要に対応するために、本発明者は、ターゲット分類システムによりテキストまたはドキュメントの分類を容易にするシステム、方法、およびソフトウェアを考案した。例えば、ある例示的システムは、頭注をALR注釈へ分類することを支援し、別のシステムは、American Jurisprudence(別の百科事典スタイルのリーガルリファレンス)のセクションへ頭注を分類することを支援し、さらに別のシステムは、頭注をWest Key Number Systemへ分類することを支援する。しかしながら、これら、および他の実施形態は、eメール等の他のタイプのドキュメントの分類に適用可能である。
スコアターゲットクラスのそれぞれ1つと関連したテキストと入力テキストとの類似に基づいた第1のタイプ、
入力テキストと関連した非ターゲットクラスのセットと、ターゲットクラスのそれぞれ1つと関連した非ターゲットクラスのセットとの類似に基づいた第2のタイプ、
入力テキストと関連した1つ以上の非ターゲットクラスのセットがターゲットクラスの1つに付与される確率に基づいた第3のタイプ、および、
ターゲットクラスのそれぞれ1つと関連したテキストに入力テキストが付与される確率基づいた第4のタイプ
のうちの少なくとも2つにクラス特有の重みを付与することを必然的に伴う。
(項目1)
入力テキストを、2つ以上のターゲットクラスを有するターゲット分類システムに分類するためのシステムであって:
該ターゲットクラスの各々について、該入力テキストおよびターゲットクラスに基づく少なくとも第1のスコアおよび第2のスコアを決定するための手段;
該ターゲットクラスの各々について、該ターゲットクラスに対する第1のクラスに固有の重みによりスケーリングされる第1のスコア、および該ターゲットクラスに対する第2のクラスに固有の重みによりスケーリングされる第2のスコアに基づく、対応する複合スコアを決定するための手段;および
該ターゲットクラスの各々について、該対応する複合スコアおよび該ターゲットクラスに対するクラスに固有の決定閾値に基づき、該入力テキストの該ターゲットクラスへの分類を分類または推奨するか否かを決定するための手段を備える、システム。
(項目2)
入力テキストを、2つ以上のターゲットクラスを有するターゲット分類システムに分類するための方法であって:
各ターゲットクラスについて:
少なくとも第1のクラスに固有の重みおよび第2のクラスに固有の重み、ならびにクラスに固有の決定閾値を提供する工程;
該入力テキストおよびターゲットクラスに基づく個々の第1のスコアおよび第2のスコアを決定するために、少なくとも第1の分類方法および第2の分類方法を用いる工程;
該クラスに対する第1のクラスに固有の重みによりスケーリングされた第1のスコア、および該ターゲットクラスに対する第2のクラスに固有の重みによりスケーリングされた第2のスコアに基づき複合スコアを決定する工程;および
該複合スコアおよび該クラスに固有の決定閾値に基づき、該入力テキストの該ターゲットクラスへの分類を分類または推奨する工程、を包含する、方法。
(項目3)
前記第1のスコアおよび第2のスコアの少なくとも1つが、前記入力テキストと関連する1つ以上の名詞ワードのペアのセット、および前記ターゲットクラスと関連する1つ以上の名詞ワードペアのセットに基づき、各セット中の少なくとも1つの名詞ワードのペアが、名詞および非隣接語を含む、項目2に記載の方法。
(項目4)
前記各第1のクラスに固有の重みおよび第2のクラスに固有の重み、ならびにクラスに固有の決定閾値を提供する工程が、前記ターゲット分類システムに分類されるテキストに基づく所定のレベルのリコールで、所定のレベルの正確さを生じる第1のクラスに固有の重みおよび第2のクラスに固有の重みならびにクラスに固有の決定閾値の組合せをサーチすることを包含する、項目2に記載の方法。
(項目5)
非ターゲット分類システムが2つ以上の非ターゲットクラスを含み、そして前記第1のスコアおよび第2のスコアの少なくとも1つが、前記入力テキストと関連している1つ以上の非ターゲットクラス、および前記ターゲットクラスと関連している1つ以上の非ターゲットクラスに基づく、項目2に記載の方法。
(項目6)
前記入力テキストが、法律関係ドキュメントのための頭注であり;そして
前記ターゲット分類システムおよび非ターゲット分類システムが、法律分類システムである、項目5に記載の方法。
(項目7)
前記ターゲット分類システムが、1000より多いターゲットクラスを含む、項目2に記載の方法。
(項目8)
第1の領域および第2の領域を含むグラフィカルユーザインターフェースを表示する工程であって、該第1の領域が、前記入力テキストの少なくとも一部分を表示または識別し、そして前記第2の領域が、前記ターゲット分類システムおよび該入力テキストが分類のために推奨された少なくとも1つのターゲットクラスに関する情報を表示する工程;および該グラフィカルユーザインターフェース上に選択可能な特徴を表示する工程をさらに包含し、ここで、該特徴を選択することが、該入力テキストの、前記1つのターゲットクラスへの分類を開始する、項目2に記載の方法。
(項目9)
項目2に記載の方法を実装するための命令を含む、機械読出し可能な媒体。
(項目10)
入力テキストを、2つ以上のターゲットクラスを有するターゲット分類システムに分類する方法であって:
各ターゲットクラスについて:
該入力テキストおよびターゲットクラスに基づく第1のスコアおよび第2のスコアを決定する工程;
該ターゲットクラスに対する第1のクラスに固有の重みによりスケーリングされる第1のスコア、および該ターゲットクラスに対する第2のクラスに固有の重みによりスケーリングされる第2のスコアに基づく、複合スコアを決定する工程;および
該複合スコアおよび該ターゲットクラスに対するクラスに固有の決定閾値に基づく該入力テキストの該ターゲットクラスへの分類のために、該入力テキストを識別するか否かを決定する工程を包含する、方法。
(項目11)
前記第1のスコアおよび第2のスコアの少なくとも1つが、前記入力テキストと関連する1つ以上の名詞ワードのペアのセット、および前記ターゲットクラスと関連する1つ以上の名詞ワードペアのセットに基づき、各セット中の少なくとも1つの名詞ワードのペアが、名詞および非隣接語を含む、項目10に記載の方法。
(項目12)
前記第1のスコアおよび第2のスコアを決定する工程が、以下の任意の2つ:
前記ターゲットクラスと関連するテキストに対する、前記入力テキストの少なくとも1つ以上の部分の類似性に基づくスコア;
前記入力テキストと関連する1つ以上の非ターゲットクラスのセットと該ターゲットクラスと関連する1つ以上の非ターゲットクラスのセットの類似性に基づくスコア;
該入力テキストと関連する1つ以上の非ターゲットクラスのセットが与えられた場合の、該ターゲットクラスの確率に基づくスコア;および
該入力テキストの少なくとも一部分が与えられた場合の、該ターゲットクラスの確率に基づくスコア、を決定することを包含する、項目10に記載の方法。
(項目13)
各ターゲットクラスがドキュメントであり、そして該ターゲットクラスと関連するテキストが、該ドキュメントのテキストまたは該ターゲットクラスと関連する別のドキュメントのテキストを含む、項目12に記載の方法。
(項目14)
項目10に記載の方法であって:
各ターゲットクラスに対する第1のスコアおよび第2のスコアを決定する工程が:
該ターゲットクラスと関連するテキストに対する前記入力テキストの少なくとも1つ以上の部分の類似性を基に第1のスコアを決定すること;および
該入力テキストと関連する1つ以上の非ターゲットクラスのセットと、該ターゲットクラスと関連する1つ以上の非ターゲットクラスのセットとの類似性を基に第2のスコアを決定すること、を包含し、
ここで、該方法が、各ターゲットクラスについて以下を決定する工程をさらに包含し:
該入力テキストと関連する1つ以上の非ターゲットクラスのセットが与えられた場合の、該ターゲットクラスの確率に基づく第3のスコア;および
該入力テキストの少なくとも一部分が与えられた場合の、該ターゲットクラスの確率に基づく第4のスコア;そして
ここで、前記複合スコアが、該ターゲットクラスに対する第3のクラスに固有の重みによりスケーリングされる該第3のスコア、および該ターゲットクラスに対する第4のクラスに固有の重みによりスケーリングされる該第4のスコアにさらに基づく、方法。
(項目15)
項目10に記載の方法であって:
前記入力テキストが第1のメタデータと関連し、そして各ターゲットクラスが第2のメタデータと関連し;そして
前記第1のスコアおよび第2のスコアの少なくとも1つが、該第1のメタデータおよび第2のメタデータに基づく、方法。
(項目16)
前記第1のメタデータが前記入力テキストと関連している非ターゲットクラスの第1のセットを包含し、そして前記第2のメタデータが前記ターゲットクラスと関連している非ターゲットクラスの第2のセットを包含する、項目15に記載の方法。
(項目17)
項目9に記載の方法を実施するための命令を含む、機械読み出し可能な媒体。
(項目18)
2つ以上のターゲットクラスを有するターゲット分類システムに従って入力テキストを分類する方法であって:
各ターゲットクラスについて、該ターゲットクラスに対する第1のクラスに固有の重みによりスケーリングされる第1のスコアおよび該ターゲットクラスに対する第2のクラスに固有の重みによりスケーリングされる第2のスコアに基づく複合スコアを決定する工程であって、該第1のスコアおよび第2のスコアが、該入力テキストおよび該ターゲットクラスに関連するテキストに基づく工程;および
各ターゲットクラスについて、該複合スコアおよび該ターゲットクラスに対するクラスに固有の決定閾値に基づく該入力テキストの該ターゲットクラスへの分類を分類または推奨する工程、を包含する、方法。
(項目19)
前記第1のスコアおよび第2のスコアが:
前記ターゲットクラスと関連するテキストに対する前記入力テキストの少なくとも1つ以上の部分の類似性に基づくスコア;
前記入力テキストと関連する1つ以上の非ターゲットクラスのセットと該ターゲットクラスと関連する1つ以上の非ターゲットクラスのセットの類似性に基づくスコア;
該入力テキストと関連する1つ以上の非ターゲットクラスのセットが与えられた場合の、該ターゲットクラスの確率に基づくスコア;および
該入力テキストの少なくとも一部分が与えられた場合の、該ターゲットクラスの確率に基づくスコア、からなる群から選択される、項目18に記載の方法。
(項目20)
前記入力テキストの推奨された分類の受諾または拒絶に基づき、前記ターゲットクラスの1つについて前記クラスに固有の閾値をアップデートする工程をさらに包含する、項目18に記載の方法。
(項目21)
テキストをターゲット分類システム中の1つ以上のターゲットクラスに分類する方法であって:テキストの一部分中の1つ以上の名詞ワードのペアを識別する工程を包含する、方法。
(項目22)
前記テキストの一部分中の1つ以上の名詞ワードを識別する工程が:
該テキストの一部分中の第1の名詞を識別すること;および
該第1の名詞の語の所定の数内の1つ以上の語を識別すること、を包含する、項目21に記載の方法。
(項目23)
前記第1の名詞の語の所定の数内の1つ以上の語を識別することが、1つ以上のストップワードのセットを排除することを包含する、項目21に記載の方法。
(項目24)
前記テキストの一部分が段落である、項目21に記載の方法。
(項目25)
前記テキストの一部分中の識別された名詞ワードのペアの1つ以上、および前記ターゲットクラスの1つと関連するテキスト中の1つ以上の名詞ワードのペアの頻度に基づく1つ以上のスコアを決定する工程をさらに包含する、項目21に記載の方法。
(項目26)
前記1つ以上のスコアが:
前記ターゲットクラスと関連するテキストに対する前記入力テキストの少なくとも1つ以上の部分の類似性に基づく少なくとも1つのスコア;
該入力テキストと関連する1つ以上の非ターゲットクラスのセットと、該ターゲットクラスと関連する1つ以上の非ターゲットクラスのセットの類似性に基づく少なくとも1つのスコア;
該入力テキストと関連する1つ以上の非ターゲットクラスのセットが与えられた場合の、該ターゲットクラスの確率に基づく少なくとも1つのスコア;および
該入力テキストの少なくとも一部分が与えられた場合の、該ターゲットクラスの確率に基づく少なくとも1つのスコアを含む、項目25に記載の方法。
(項目27)
項目25に記載の方法であって、前記ターゲットクラスの1つと関連する他のテキスト中で、1つ以上の識別された名詞ワードのペア、および1つ以上の名詞ワードのペアに基づく1つ以上のスコアを決定する工程が:
各識別された名詞ワードのペアに対する個々の重みを決定することであって、該個々の重みが、該テキスト中の識別された語名詞のペアの用語の頻度と該ターゲットクラスの1つと関連する他のテキスト中の名詞ワードのペアのドキュメントの頻度の逆数の積に基づくこと、を包含する、方法。
(項目28)
入力テキストを、ターゲット分類システム中の1つ以上のターゲットクラスに分類する方法であって:
該入力テキスト中の名詞ワードのペアの第1のセットを識別する工程であって、該第1のセットが、該入力テキスト中の名詞および非隣接語から形成される少なくとも1つの名詞ワードのペアを含む、工程;
名詞ワードのペアの2つ以上の第2のセットを識別する工程であって、各第2のセットが,該ターゲットクラスの個々の1つと関連するテキスト中の名詞および非隣接語から形成される少なくとも1つの名詞ワードのペアを含む、工程;
該名詞ワードのペアの第1および第2のセットに基づくスコアのセットを決定する工程;および
該スコアのセットに基づき、該入力テキストの該ターゲットクラスの1つ以上への分類を分類または推奨する工程、を包含する、方法。
この説明は、上記の図面を参照にして組み込み、1つ以上の発明の1つ以上の特定の実施形態を説明する。これらの実施形態は、制限するためではなく、例示して1つ以上の発明を教示するために提供され、当業者が本発明を実施するか実践することが出来るように十分詳細に図示されて、説明される。従って、その説明は、発明をあいまいなものにすることを避けるために適宜、当業者に公知の特定の情報を省略し得る。
図1は、ドキュメント分類スキームに従った電子ドキュメントの分類を自動的に分類するか、推奨する例示的なドキュメント分類システム100の図を示す。例示的な実施形態は、ケース、ケースの引用、または関連する頭注の分類を、13,779のALR注釈(全注釈数は、1ヶ月あたり20〜30注釈のオーダーの割合で増加している)によって提示された1つ以上のカテゴリに分類するか、推奨する。しかし、本発明は、ドキュメントの任意の特定のタイプ、または分類システムの任意の特定のタイプに制限されない。
サンプルの頭注およびその関連するウエストキー番号クラス識別子が以下に示される。
行政手続法(APA)の訴訟では、審理は2度行われる。最初、裁判所は基本法を審査して、被害者が、法的救済が有効となる前に特定の行政ルートに従うかどうかを決定する。その成文法が沈黙している場合、裁判所は、政府機関の規制が上位の政府機関当局への償還請求を必要とするかどうかを尋ねる。
15AK229−行政法および手続−行政権と他の権力との分離−立法権
データベース120において、各頭注は、例えば、ウエストキー番号分類システムに基づく1つ以上のクラス識別子に関連する。(ウエストキー番号システムのさらなる詳細は、West’s Analysis of American Law:Guide to the American Digest System,2000 Edition,West Group,1999(これは本明細書中に参照として援用される)を参照されたい)。例えば、頭注122は、クラス(単数または複数)識別子122.1、クラス識別子122.2および122.3に関連し、頭注124は、クラス(単数または複数)識別子124.1および124.2に関連する。
注釈で引用されたケースに関連する頭注のすべてを用いることは可能であるが、例示的実施形態では、ケースに関連する全頭注のセットの中から、現在表されている注釈に最も関連する頭注を選択する。各注釈について、このことは、注釈で引用されたすべてのケース内のすべての頭注を用いて特徴ベクトルを構築し、引用された頭注と引用注釈の頭注との間の類似性に基づいて各ケースから1、2または3の頭注を選択し、最も類似する頭注を関連頭注として表示することを伴う。最も関連のある頭注を決定するために、例示的実施形態は、識別子131〜134を用いて類似性スコアを演算し、各頭注について4つのスコアの平均値を求め、スコアの最も高い頭注と最も高いスコアの少なくとも80%のスコアを有する頭注とを最も関連する頭注と定義する。80%という値は経験的に選択された。
例示的実施形態は、注釈自体のテキストではなく注釈に関連する頭注を用いるが、注釈−テキストベクトルは、より多数の成分を含み得る。実際、注釈ベクトルによっては、数千数万の語または名詞−ワード対を含み得るものもあり、その大半は語頻度は低い。したがって、語の数を管理可能な数に減少させるのみならず、ベクトル−空間内に存在することが知られている希有のワードの問題を回避するためにも、例示的実施形態は低重み語を除去する。
Vh=tfh*idfH (3)
として表される。上記式において、tfhは、入力頭注内の関連する語または名詞−ワード対の頻度(すなわち、現れる全回数)を示す。idfHは、すべての頭注内の関連する語または名詞−ワード対のドキュメント頻度の逆数を示す。
i=1から4でありa∈Aである注釈−分類子重みwia、およびa∈Aである注釈閾値гaは同調位相中に得られる。0≦wia≦1である重みは、各類似値を注釈aにルーティングし得るとの自信を反映する。類似値およびa∈Aである注釈閾値гaがまた得られ、それらは注釈の同質性を反映する。一般に、狭い話題を扱う注釈は、複数のものに関する話題を扱う注釈よりも高い閾値を有する傾向にある。
「次の注釈」と書かれたボタン470は、次の注釈に割り当てることを推奨されている頭注のセットをユーザが表示させることを可能にする。具体的には、これは、予備的分類記憶装置140から頭注を取り出し、ウィンドウ410に表示することのみを必要とするのではなく、ウィンドウ430内に関連する注釈アウトラインを表示することをも必要とする。
「出口」と書かれたボタン490により、エディタは、エディタセッションを終了させることが可能となる。終了すると、受領および推奨がALR注釈データベース110に格納される。
図5は、米国判決記録(AmJur)の135,000のセクションのうちの1つ以上へのドキュメントの分類を容易にするように調節された例示的な分類システム500の形態のシステム100の変形例を示す。ALR注釈と同様に、各AmJur注釈は、裁判所によって決定された、関連する判例を引用する。同様に、AmJurのアップデートには時間がかかる。
(頭注をWest Key Number Systemに分類するための例示的システム)
図6は、West Key Number Systemのクラスに対して入力頭注の分類を容易にするように調整された例示的な分類システム600の形態でシステム100の別の改変を示す。Key Number Systemは、450の上位レベルのクラスを有する階層的な分類システムである。これは、さらに、92,000のサブクラスに細分され、それぞれ、独特なクラスの識別子を有する。システム100との比較において、システム600は、分類子131および134、複合スコアジェネレータ610、ならびに割り当て決定−メーカー620を含む。
(他の例示的適用)
現在の様々な例示のシステムのコンポーネントは、無数の方法で組み合わされ、より重大な複雑性およびより重大でない複雑性の両方の他の分類器システムを形成し得る。さらに、コンポーネントおよびシステムは、頭注以外の他のタイプのドキュメントに対して調整され得る。確かに、コンポーネントおよびシステムおよび実施される教示および動作の原理は、任意のテキストまたはデータ分類器コンテキストに仮想的に関連する。
本技術の促進において、発明者は、様々な例示のシステム、方法、およびソフトウェアを提示した。様々な例示のシステム、方法、およびソフトウェアは、例えば14,000ALRの注釈で表された、頭注または分類システムに関連したリーガルケースなどといったテキストの分類を容易にする。例示のシステムは、テキストに基づいた分類の推奨およびクラスの類似および確率的な関係を分類するか、または作成する。システムはまた、グラフィカルユーザインターフェースを提供し、推奨された分類の編集処理を容易にし、従って、例えばAmerican Legal Reports、American Jurisprudence、および無数の他のものといったドキュメント収集の自動化された更新を提供する。
Claims (14)
- ターゲット分類システムにおいて入力テキストを1つ以上のターゲットクラスに分類する自動化された方法であって、前記方法は、前記ターゲット分類システムによって実行され、前記ターゲット分類システムは、識別手段と、決定手段とを備え、
前記方法は、
前記識別手段が、前記入力テキスト中の複数の頭注の各頭注について、前記頭注中の1つ以上の名詞ワードペアを識別することであって、前記頭注は、法律の観点に関する電子テキストサマリであり、前記頭注中の1つ以上の名詞ワードペアを識別することは、前記頭注中の第1の名詞を識別することと、前記第1の名詞から除去されたワードの数に関係なく前記頭注中のどこかに位置する1つ以上のワードを識別することとを含み、前記第1の名詞から除去されたワードの数に関係なく前記頭注中のどこかに位置する1つ以上のワードを識別することは、1つ以上のストップワードのセットを排除することを含む、ことと、
前記決定手段が、前記入力テキスト中の前記複数の頭注の各頭注について、前記ターゲットクラスのうちの1つのターゲットクラスに対する前記頭注の類似性を示す1つ以上のスコアを、前記頭注中の前記識別された名詞ワードペアのうちの1つ以上の名詞ワードペアの頻度と前記ターゲットクラスのうちの前記1つのターゲットクラスに割り当てられた注釈または他の頭注のテキスト中の1つ以上の名詞ワードペアの頻度とに基づいて、決定することと
を含む、方法。 - 前記1つ以上のスコアは、
前記ターゲットクラスと関連するテキストに対する前記入力テキストの少なくとも1つ以上の部分の類似性に基づいた少なくとも1つのスコアと、
前記入力テキストと関連する1つ以上の非ターゲットクラスのセットと、前記ターゲットクラスと関連する1つ以上の非ターゲットクラスのセットとの類似性に基づく少なくとも1つのスコアと、
前記入力テキストと関連する1つ以上の非ターゲットクラスのセットが与えられた場合の前記ターゲットクラスの確率に基づいた少なくとも1つのスコアと、
前記入力テキストの少なくとも一部分が与えられた場合の前記ターゲットクラスの確率に基づいた少なくとも1つのスコアと
を含む、請求項1に記載の方法。 - 前記1つ以上の識別された名詞ワードペア、およびターゲットクラスのうちの1つと関連する他のテキスト中の1つ以上の名詞ワードペアに基づいて1つ以上のスコアを決定することは、
前記識別された名詞ワードペアの各々に対するそれぞれの重みを決定することを含み、
前記それぞれの重みは、前記テキスト中の識別されたワード名詞ペアの用語の頻度と、前記ターゲットクラスのうちの1つと関連する他のテキスト中の名詞ワードペアの逆ドキュメント頻度との積に基づく、請求項1に記載の方法。 - 前記ターゲット分類システムは、分類手段をさらに備え、
前記方法は、
前記分類手段が、前記ターゲットクラスのうちの1つ以上について、前記ターゲットクラスに対するクラス固有の決定閾値および前記1つ以上のスコアに基づいて、前記ターゲットクラスへの前記テキストの分類を分類または推奨することをさらに含む、請求項1に記載の方法。 - 前記ターゲット分類システムは、アップデート手段をさらに備え、
前記方法は、
前記アップデート手段が、前記テキストの推奨された分類の受諾または拒絶に基づいて、前記ターゲットクラスのうちの1つについて前記クラス固有の決定閾値をアップデートすることをさらに包含する、請求項4に記載の方法。 - 入力テキストを、2つ以上のターゲットクラスを有するターゲット分類システムに分類することに関する命令を含むマシン読み取り可能な媒体であって、前記入力テキストは、法律の観点に関する電子テキストサマリであり、
前記命令は、
前記入力テキスト中の複数の頭注の各頭注について、前記ターゲットクラスのうちの1つのターゲットクラスに対する前記頭注の類似性を示す第1のスコアおよび第2のスコアを、前記入力テキストと前記ターゲットクラスのうちの前記1つのターゲットクラスとに基づいて、決定するための第1のセットの命令であって、前記第1のスコアは、前記頭注中のどこかに位置する1つ以上の名詞ワードペアの識別されたセットの頻度、前記ターゲットクラスのうちの前記1つのターゲットクラスに割り当てられた注釈または他の頭注のテキスト中の1つ以上の名詞ワードペアの前記識別されたセットの頻度、前記1つのターゲットクラスに割り当てられた注釈または他の頭注のテキストに対する前記入力テキストの少なくとも1つ以上の部分の類似性、または前記入力テキストと関連する1つ以上の非ターゲットクラスのセットと、前記1つのターゲットクラスと関連する1つ以上の非ターゲットクラスのセットとの類似性に基づき、前記1つ以上の名詞ワードペアのセットは、前記頭注中の第1の名詞を識別することと、前記第1の名詞から除去されたワードの数に関係なく前記頭注中のどこかに位置する1つ以上のワードを識別することとにより、識別され、前記第1の名詞から除去されたワードの数に関係なく前記頭注中のどこかに位置する1つ以上のワードを識別することは、1つ以上のストップワードのセットを排除することを含み、前記第2のスコアは、前記入力テキストと関連する1つ以上の非ターゲットクラスのセットが与えられた場合の前記1つのターゲットクラスの確率、または前記入力テキストの少なくとも一部分が与えられた場合の前記1つのターゲットクラスの確率に基づく、第1のセットの命令と、
前記第1のスコアおよび前記第2のスコアに基づいて複合スコアを決定するための第2のセットの命令と、
前記複合スコアを決定閾値と比較するための第3のセットの命令と
を含む、媒体。 - 前記第1のスコアおよび前記第2のスコアに基づいて複合スコアを決定するための第2のセットの命令は、
前記第1のスコアおよび前記第2のスコアを、前記1つのターゲットクラスと関連するそれぞれの第1のクラス固有の重みおよび第2のクラス固有の重みにより重み付けするための命令と、
前記重み付けされた第1のスコアを前記第2の重み付けされたスコアに追加するための命令と
を含む、請求項6に記載の媒体。 - 前記第1のスコアは、前記入力テキストと関連する1つ以上の名詞ワードペアのセットと、前記1つのターゲットクラスと関連する1つ以上の名詞ワードペアのセットとに基づき、各セット中の少なくとも1つの名詞ワードペアは、名詞および非隣接ワードを含む、請求項6に記載の媒体。
- 前記ターゲットクラスのうちの1つ以上について、前記複合スコアおよび前記決定閾値に基づいて、前記入力テキストの前記ターゲットクラスへの分類を分類または推奨するための命令をさらに含む、請求項6に記載の媒体。
- 前記入力テキストの推奨された分類の受諾または拒絶に基づいて、前記ターゲットクラスのうちの1つについて前記決定閾値をアップデートするための命令をさらに含む、請求項9に記載の媒体。
- 入力テキストを、2つ以上のターゲットクラスを有するターゲット分類システムに分類するための命令を含むマシン読み取り可能な媒体であって、前記入力テキストは、法律の観点に関する電子テキストサマリであり、
前記命令は、
前記入力テキスト中の複数の頭注の各頭注について、前記ターゲットクラスのうちの1つのターゲットクラスに対する前記頭注の類似性を示す第1のスコアおよび第2のスコアを、前記入力テキストと前記ターゲットクラスのうちの前記1つのターゲットクラスとに基づいて、決定するための第1のセットの命令であって、前記第1のスコアは、前記頭注中のどこかに位置する1つ以上の名詞ワードペアの識別されたセットの頻度、前記ターゲットクラスのうちの前記1つのターゲットクラスに割り当てられた注釈または他の頭注のテキスト中の1つ以上の名詞ワードペアの前記識別されたセットの頻度、前記入力テキストと関連する1つ以上の非ターゲットクラスのセットと、前記1つのターゲットクラスと関連する1つ以上の非ターゲットクラスのセットとの類似性に基づき、前記1つ以上の名詞ワードペアのセットは、前記頭注中の第1の名詞を識別することと、前記第1の名詞から除去されたワードの数に関係なく前記頭注中のどこかに位置する1つ以上のワードを識別することとにより、識別され、前記第1の名詞から除去されたワードの数に関係なく前記頭注中のどこかに位置する1つ以上のワードを識別することは、1つ以上のストップワードのセットを排除することを含み、前記第2のスコアは、前記入力テキストの少なくとも一部分が与えられた場合の前記1つのターゲットクラスの確率に基づく、第1のセットの命令と、
前記第1のスコアおよび前記第2のスコアの線形結合に基づいて複合スコアを決定するための第2のセットの命令と、
前記複合スコアを決定閾値と比較するための第3のセットの命令と
を含む、媒体。 - 前記第1のスコアは、前記入力テキストと関連する1つ以上の名詞ワードペアのセットと、前記1つのターゲットクラスと関連する1つ以上の名詞ワードペアのセットとに基づき、各セット中の少なくとも1つの名詞ワードペアは、名詞および非隣接ワードを含む、請求項11に記載の媒体。
- 前記ターゲットクラスの各々は、ドキュメントであり、前記1つのターゲットクラスに割り当てられた注釈または他の頭注のテキストは、前記ドキュメントのテキスト、または前記ターゲットクラスと関連する別のドキュメントのテキストを含む、請求項11に記載の媒体。
- 前記ターゲットクラスのうちの1つ以上について、前記複合スコアおよび前記決定閾値に基づいて、前記入力テキストの前記ターゲットクラスへの分類を分類または推奨するための命令と、
前記入力テキストの推奨された分類の受諾または拒絶に基づいて、前記ターゲットクラスのうちの1つについて前記決定閾値をアップデートするための命令と
をさらに包含する、請求項11に記載の媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US33686201P | 2001-11-02 | 2001-11-02 | |
US60/336,862 | 2001-11-02 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003542441A Division JP4342944B2 (ja) | 2001-11-02 | 2002-11-01 | ドキュメントを分類するシステム、方法、およびソフトウェア |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013130658A Division JP2013178851A (ja) | 2001-11-02 | 2013-06-21 | ドキュメントを分類するシステム、方法、およびソフトウェア |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009163771A JP2009163771A (ja) | 2009-07-23 |
JP5392904B2 true JP5392904B2 (ja) | 2014-01-22 |
Family
ID=23317997
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003542441A Expired - Fee Related JP4342944B2 (ja) | 2001-11-02 | 2002-11-01 | ドキュメントを分類するシステム、方法、およびソフトウェア |
JP2009102510A Expired - Fee Related JP5392904B2 (ja) | 2001-11-02 | 2009-04-20 | ドキュメントを分類するシステム、方法、およびソフトウェア |
JP2013130658A Withdrawn JP2013178851A (ja) | 2001-11-02 | 2013-06-21 | ドキュメントを分類するシステム、方法、およびソフトウェア |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003542441A Expired - Fee Related JP4342944B2 (ja) | 2001-11-02 | 2002-11-01 | ドキュメントを分類するシステム、方法、およびソフトウェア |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013130658A Withdrawn JP2013178851A (ja) | 2001-11-02 | 2013-06-21 | ドキュメントを分類するシステム、方法、およびソフトウェア |
Country Status (12)
Country | Link |
---|---|
US (3) | US7062498B2 (ja) |
EP (2) | EP2012240A1 (ja) |
JP (3) | JP4342944B2 (ja) |
CN (1) | CN1701324B (ja) |
AT (1) | ATE421730T1 (ja) |
AU (2) | AU2002350112B8 (ja) |
CA (2) | CA2470299C (ja) |
DE (1) | DE60231005D1 (ja) |
DK (1) | DK1464013T3 (ja) |
ES (1) | ES2321075T3 (ja) |
NZ (1) | NZ533105A (ja) |
WO (1) | WO2003040875A2 (ja) |
Families Citing this family (103)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6154757A (en) * | 1997-01-29 | 2000-11-28 | Krause; Philip R. | Electronic text reading environment enhancement method and apparatus |
US7593920B2 (en) * | 2001-04-04 | 2009-09-22 | West Services, Inc. | System, method, and software for identifying historically related legal opinions |
US7062498B2 (en) * | 2001-11-02 | 2006-06-13 | Thomson Legal Regulatory Global Ag | Systems, methods, and software for classifying text from judicial opinions and other documents |
US7139755B2 (en) | 2001-11-06 | 2006-11-21 | Thomson Scientific Inc. | Method and apparatus for providing comprehensive search results in response to user queries entered over a computer network |
US7356461B1 (en) * | 2002-01-14 | 2008-04-08 | Nstein Technologies Inc. | Text categorization method and apparatus |
US7188107B2 (en) * | 2002-03-06 | 2007-03-06 | Infoglide Software Corporation | System and method for classification of documents |
US8201085B2 (en) * | 2007-06-21 | 2012-06-12 | Thomson Reuters Global Resources | Method and system for validating references |
JP2006512693A (ja) * | 2002-12-30 | 2006-04-13 | トムソン コーポレイション | 法律事務所用の知識管理システム |
US20040133574A1 (en) | 2003-01-07 | 2004-07-08 | Science Applications International Corporaton | Vector space method for secure information sharing |
US7725544B2 (en) | 2003-01-24 | 2010-05-25 | Aol Inc. | Group based spam classification |
US7089241B1 (en) * | 2003-01-24 | 2006-08-08 | America Online, Inc. | Classifier tuning based on data similarities |
US20040193596A1 (en) * | 2003-02-21 | 2004-09-30 | Rudy Defelice | Multiparameter indexing and searching for documents |
US7590695B2 (en) | 2003-05-09 | 2009-09-15 | Aol Llc | Managing electronic messages |
US7218783B2 (en) * | 2003-06-13 | 2007-05-15 | Microsoft Corporation | Digital ink annotation process and system for recognizing, anchoring and reflowing digital ink annotations |
US7739602B2 (en) | 2003-06-24 | 2010-06-15 | Aol Inc. | System and method for community centric resource sharing based on a publishing subscription model |
US7051077B2 (en) * | 2003-06-30 | 2006-05-23 | Mx Logic, Inc. | Fuzzy logic voting method and system for classifying e-mail using inputs from multiple spam classifiers |
US8473532B1 (en) * | 2003-08-12 | 2013-06-25 | Louisiana Tech University Research Foundation | Method and apparatus for automatic organization for computer files |
US20050097120A1 (en) * | 2003-10-31 | 2005-05-05 | Fuji Xerox Co., Ltd. | Systems and methods for organizing data |
US7676739B2 (en) * | 2003-11-26 | 2010-03-09 | International Business Machines Corporation | Methods and apparatus for knowledge base assisted annotation |
AR047363A1 (es) * | 2003-12-31 | 2006-01-18 | Thomson Global Resources Ag | Sistemas, metodos, software e interfases para la integracion de jurisprudencia en presentaciones judiciales, escritos judiciales y/u otros documentos de apoyo a las presentaciones judiciales |
CN102456075B (zh) * | 2003-12-31 | 2016-01-27 | 汤姆森路透社全球资源公司 | 响应来自用户的查询的方法和系统 |
US7647321B2 (en) * | 2004-04-26 | 2010-01-12 | Google Inc. | System and method for filtering electronic messages using business heuristics |
US7953814B1 (en) | 2005-02-28 | 2011-05-31 | Mcafee, Inc. | Stopping and remediating outbound messaging abuse |
US7680890B1 (en) | 2004-06-22 | 2010-03-16 | Wei Lin | Fuzzy logic voting method and system for classifying e-mail using inputs from multiple spam classifiers |
US8484295B2 (en) | 2004-12-21 | 2013-07-09 | Mcafee, Inc. | Subscriber reputation filtering method for analyzing subscriber activity and detecting account misuse |
KR20070061887A (ko) * | 2004-09-21 | 2007-06-14 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 컴플라이언스 정보 제공 방법 |
US9015472B1 (en) | 2005-03-10 | 2015-04-21 | Mcafee, Inc. | Marking electronic messages to indicate human origination |
US8738708B2 (en) * | 2004-12-21 | 2014-05-27 | Mcafee, Inc. | Bounce management in a trusted communication network |
US9160755B2 (en) | 2004-12-21 | 2015-10-13 | Mcafee, Inc. | Trusted communication network |
US8185560B2 (en) * | 2005-01-28 | 2012-05-22 | Thomson Reuters Global Resources | Systems, methods, software for integration of case law, legal briefs, and litigation documents into law firm workflow |
US7499591B2 (en) * | 2005-03-25 | 2009-03-03 | Hewlett-Packard Development Company, L.P. | Document classifiers and methods for document classification |
US9177050B2 (en) * | 2005-10-04 | 2015-11-03 | Thomson Reuters Global Resources | Systems, methods, and interfaces for extending legal search results |
US20070078889A1 (en) * | 2005-10-04 | 2007-04-05 | Hoskinson Ronald A | Method and system for automated knowledge extraction and organization |
WO2007041688A1 (en) * | 2005-10-04 | 2007-04-12 | Thomson Global Resources | Systems, methods, and software for identifying relevant legal documents |
US7917519B2 (en) * | 2005-10-26 | 2011-03-29 | Sizatola, Llc | Categorized document bases |
US7529748B2 (en) * | 2005-11-15 | 2009-05-05 | Ji-Rong Wen | Information classification paradigm |
CN100419753C (zh) * | 2005-12-19 | 2008-09-17 | 株式会社理光 | 数字化数据集中按照分类信息搜索目标文档的方法和装置 |
US8726144B2 (en) * | 2005-12-23 | 2014-05-13 | Xerox Corporation | Interactive learning-based document annotation |
US7333965B2 (en) * | 2006-02-23 | 2008-02-19 | Microsoft Corporation | Classifying text in a code editor using multiple classifiers |
KR100717401B1 (ko) * | 2006-03-02 | 2007-05-11 | 삼성전자주식회사 | 역방향 누적 히스토그램을 이용한 음성 특징 벡터의 정규화방법 및 그 장치 |
US7735010B2 (en) * | 2006-04-05 | 2010-06-08 | Lexisnexis, A Division Of Reed Elsevier Inc. | Citation network viewer and method |
CA2687769A1 (en) * | 2006-05-23 | 2007-12-06 | David P. Gold | System and method for organizing, processing and presenting information |
JP4910582B2 (ja) * | 2006-09-12 | 2012-04-04 | ソニー株式会社 | 情報処理装置および方法、並びに、プログラム |
JP2008070958A (ja) * | 2006-09-12 | 2008-03-27 | Sony Corp | 情報処理装置および方法、並びに、プログラム |
US20080071803A1 (en) * | 2006-09-15 | 2008-03-20 | Boucher Michael L | Methods and systems for real-time citation generation |
US7844899B2 (en) * | 2007-01-24 | 2010-11-30 | Dakota Legal Software, Inc. | Citation processing system with multiple rule set engine |
US20080235258A1 (en) * | 2007-03-23 | 2008-09-25 | Hyen Vui Chung | Method and Apparatus for Processing Extensible Markup Language Security Messages Using Delta Parsing Technology |
US9323827B2 (en) * | 2007-07-20 | 2016-04-26 | Google Inc. | Identifying key terms related to similar passages |
DE102007034505A1 (de) | 2007-07-24 | 2009-01-29 | Hella Kgaa Hueck & Co. | Verfahren und Vorrichtung zur Verkehrszeichenerkennung |
CN100583101C (zh) * | 2008-06-12 | 2010-01-20 | 昆明理工大学 | 基于领域知识的文本分类特征选择及权重计算方法 |
US10354229B2 (en) | 2008-08-04 | 2019-07-16 | Mcafee, Llc | Method and system for centralized contact management |
US8352857B2 (en) * | 2008-10-27 | 2013-01-08 | Xerox Corporation | Methods and apparatuses for intra-document reference identification and resolution |
CA2764319A1 (en) | 2009-06-01 | 2010-12-09 | West Services Inc. | Advanced features, service and displays of legal and regulatory information |
CA2764496C (en) | 2009-06-05 | 2018-02-27 | Wenhui Liao | Feature engineering and user behavior analysis |
US8572084B2 (en) * | 2009-07-28 | 2013-10-29 | Fti Consulting, Inc. | System and method for displaying relationships between electronically stored information to provide classification suggestions via nearest neighbor |
CA2772082C (en) | 2009-08-24 | 2019-01-15 | William C. Knight | Generating a reference set for use during document review |
US10146864B2 (en) * | 2010-02-19 | 2018-12-04 | The Bureau Of National Affairs, Inc. | Systems and methods for validation of cited authority |
EP2583204A4 (en) | 2010-06-15 | 2014-03-12 | Thomson Reuters Scient Inc | SYSTEM AND METHOD FOR CITATION PROCESSING, PRESENTATION AND TRANSPORT FOR VALIDATING REFERENCES |
US8195458B2 (en) * | 2010-08-17 | 2012-06-05 | Xerox Corporation | Open class noun classification |
CN102033949B (zh) * | 2010-12-23 | 2012-02-29 | 南京财经大学 | 基于修正的k近邻文本分类方法 |
US9122666B2 (en) | 2011-07-07 | 2015-09-01 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for creating an annotation from a document |
US9305082B2 (en) | 2011-09-30 | 2016-04-05 | Thomson Reuters Global Resources | Systems, methods, and interfaces for analyzing conceptually-related portions of text |
WO2013123182A1 (en) * | 2012-02-17 | 2013-08-22 | The Trustees Of Columbia University In The City Of New York | Computer-implemented systems and methods of performing contract review |
US9058308B2 (en) | 2012-03-07 | 2015-06-16 | Infosys Limited | System and method for identifying text in legal documents for preparation of headnotes |
US9201876B1 (en) * | 2012-05-29 | 2015-12-01 | Google Inc. | Contextual weighting of words in a word grouping |
US8955127B1 (en) * | 2012-07-24 | 2015-02-10 | Symantec Corporation | Systems and methods for detecting illegitimate messages on social networking platforms |
CN103577462B (zh) * | 2012-08-02 | 2018-10-16 | 北京百度网讯科技有限公司 | 一种文档分类方法及装置 |
JP5526209B2 (ja) | 2012-10-09 | 2014-06-18 | 株式会社Ubic | フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム |
JP5823943B2 (ja) * | 2012-10-10 | 2015-11-25 | 株式会社Ubic | フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム |
US9083729B1 (en) | 2013-01-15 | 2015-07-14 | Symantec Corporation | Systems and methods for determining that uniform resource locators are malicious |
US9189540B2 (en) * | 2013-04-05 | 2015-11-17 | Hewlett-Packard Development Company, L.P. | Mobile web-based platform for providing a contextual alignment view of a corpus of documents |
US20150026104A1 (en) * | 2013-07-17 | 2015-01-22 | Christopher Tambos | System and method for email classification |
JP2015060581A (ja) * | 2013-09-20 | 2015-03-30 | 株式会社東芝 | キーワード抽出装置、方法およびプログラム |
CN103500158A (zh) * | 2013-10-08 | 2014-01-08 | 北京百度网讯科技有限公司 | 批注电子文档的方法和装置 |
US10552459B2 (en) | 2013-10-31 | 2020-02-04 | Micro Focus Llc | Classifying a document using patterns |
US10255646B2 (en) | 2014-08-14 | 2019-04-09 | Thomson Reuters Global Resources (Trgr) | System and method for implementation and operation of strategic linkages |
US20160048510A1 (en) * | 2014-08-14 | 2016-02-18 | Thomson Reuters Global Resources (Trgr) | System and method for integration and operation of analytics with strategic linkages |
US10572877B2 (en) * | 2014-10-14 | 2020-02-25 | Jpmorgan Chase Bank, N.A. | Identifying potentially risky transactions |
US9652627B2 (en) * | 2014-10-22 | 2017-05-16 | International Business Machines Corporation | Probabilistic surfacing of potentially sensitive identifiers |
US20160162576A1 (en) * | 2014-12-05 | 2016-06-09 | Lightning Source Inc. | Automated content classification/filtering |
US20160314184A1 (en) * | 2015-04-27 | 2016-10-27 | Google Inc. | Classifying documents by cluster |
JP5887455B2 (ja) * | 2015-09-08 | 2016-03-16 | 株式会社Ubic | フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム |
US9852337B1 (en) * | 2015-09-30 | 2017-12-26 | Open Text Corporation | Method and system for assessing similarity of documents |
WO2017066746A1 (en) * | 2015-10-17 | 2017-04-20 | Ebay Inc. | Generating personalized user recommendations using word vectors |
CN106874291A (zh) * | 2015-12-11 | 2017-06-20 | 北京国双科技有限公司 | 文本分类的处理方法及装置 |
EP3437260B1 (en) * | 2016-03-31 | 2021-09-29 | Bitdefender IPR Management Ltd. | System and methods for automatic device detection |
US11347777B2 (en) * | 2016-05-12 | 2022-05-31 | International Business Machines Corporation | Identifying key words within a plurality of documents |
AU2017274558B2 (en) | 2016-06-02 | 2021-11-11 | Nuix North America Inc. | Analyzing clusters of coded documents |
CA3023079A1 (en) | 2016-06-16 | 2017-12-21 | Thomson Reuters Global Resources Unlimited Company | Scenario analytics system |
US10146758B1 (en) | 2016-09-30 | 2018-12-04 | Amazon Technologies, Inc. | Distributed moderation and dynamic display of content annotations |
US10325409B2 (en) * | 2017-06-16 | 2019-06-18 | Microsoft Technology Licensing, Llc | Object holographic augmentation |
CN107657284A (zh) * | 2017-10-11 | 2018-02-02 | 宁波爱信诺航天信息有限公司 | 一种基于语义相似性扩展的商品名称分类方法及系统 |
CN110390094B (zh) * | 2018-04-20 | 2023-05-23 | 伊姆西Ip控股有限责任公司 | 对文档进行分类的方法、电子设备和计算机程序产品 |
US11087088B2 (en) * | 2018-09-25 | 2021-08-10 | Accenture Global Solutions Limited | Automated and optimal encoding of text data features for machine learning models |
US11424012B1 (en) * | 2019-06-05 | 2022-08-23 | Ciitizen, Llc | Sectionalizing clinical documents |
US11862305B1 (en) | 2019-06-05 | 2024-01-02 | Ciitizen, Llc | Systems and methods for analyzing patient health records |
US11170271B2 (en) * | 2019-06-26 | 2021-11-09 | Dallas Limetree, LLC | Method and system for classifying content using scoring for identifying psychological factors employed by consumers to take action |
US11636117B2 (en) | 2019-06-26 | 2023-04-25 | Dallas Limetree, LLC | Content selection using psychological factor vectors |
CN110377742B (zh) * | 2019-07-23 | 2024-05-10 | 腾讯科技(深圳)有限公司 | 文本分类评测方法、装置、可读存储介质和计算机设备 |
AU2021307783A1 (en) * | 2020-07-14 | 2023-02-16 | Thomson Reuters Enterprise Centre Gmbh | Systems and methods for the automatic categorization of text |
US11775592B2 (en) * | 2020-08-07 | 2023-10-03 | SECURITI, Inc. | System and method for association of data elements within a document |
US11941497B2 (en) * | 2020-09-30 | 2024-03-26 | Alteryx, Inc. | System and method of operationalizing automated feature engineering |
US11782957B2 (en) | 2021-04-08 | 2023-10-10 | Grail, Llc | Systems and methods for automated classification of a document |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US583120A (en) * | 1897-05-25 | Soldeeing machine | ||
US5054093A (en) * | 1985-09-12 | 1991-10-01 | Cooper Leon N | Parallel, multi-unit, adaptive, nonlinear pattern class separator and identifier |
US5157783A (en) | 1988-02-26 | 1992-10-20 | Wang Laboratories, Inc. | Data base system which maintains project query list, desktop list and status of multiple ongoing research projects |
US4961152A (en) * | 1988-06-10 | 1990-10-02 | Bolt Beranek And Newman Inc. | Adaptive computing system |
US5488725A (en) | 1991-10-08 | 1996-01-30 | West Publishing Company | System of document representation retrieval by successive iterated probability sampling |
US5265065A (en) | 1991-10-08 | 1993-11-23 | West Publishing Company | Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query |
US5383120A (en) * | 1992-03-02 | 1995-01-17 | General Electric Company | Method for tagging collocations in text |
US5438629A (en) * | 1992-06-19 | 1995-08-01 | United Parcel Service Of America, Inc. | Method and apparatus for input classification using non-spherical neurons |
US5497317A (en) | 1993-12-28 | 1996-03-05 | Thomson Trading Services, Inc. | Device and method for improving the speed and reliability of security trade settlements |
US5434932A (en) | 1994-07-28 | 1995-07-18 | West Publishing Company | Line alignment apparatus and process |
JP4142098B2 (ja) * | 1995-04-27 | 2008-08-27 | ノースロップ グラマン コーポレーション | 適応フィルタ型ニューラルネットワーク分類器 |
US5778397A (en) * | 1995-06-28 | 1998-07-07 | Xerox Corporation | Automatic method of generating feature probabilities for automatic extracting summarization |
US5918240A (en) * | 1995-06-28 | 1999-06-29 | Xerox Corporation | Automatic method of extracting summarization using feature probabilities |
DE19526264A1 (de) * | 1995-07-19 | 1997-04-10 | Daimler Benz Ag | Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von Texten |
US5644720A (en) | 1995-07-31 | 1997-07-01 | West Publishing Company | Interprocess communications interface for managing transaction requests |
JP3040945B2 (ja) | 1995-11-29 | 2000-05-15 | 松下電器産業株式会社 | 文書検索装置 |
US6539352B1 (en) * | 1996-11-22 | 2003-03-25 | Manish Sharma | Subword-based speaker verification with multiple-classifier score fusion weight and threshold adaptation |
JPH1185797A (ja) * | 1997-09-01 | 1999-03-30 | Canon Inc | 文書自動分類装置、学習装置、分類装置、文書自動分類方法、学習方法、分類方法および記憶媒体 |
US6052657A (en) | 1997-09-09 | 2000-04-18 | Dragon Systems, Inc. | Text segmentation and identification of topic using language models |
JP3571231B2 (ja) * | 1998-10-02 | 2004-09-29 | 日本電信電話株式会社 | 情報自動分類方法および装置と情報自動分類プログラムを記録した記録媒体 |
AU1122100A (en) * | 1998-10-30 | 2000-05-22 | Justsystem Pittsburgh Research Center, Inc. | Method for content-based filtering of messages by analyzing term characteristicswithin a message |
JP2000222431A (ja) * | 1999-02-03 | 2000-08-11 | Mitsubishi Electric Corp | 文書分類装置 |
WO2000067162A1 (en) | 1999-05-05 | 2000-11-09 | West Publishing Company | Document-classification system, method and software |
JP2001034622A (ja) * | 1999-07-19 | 2001-02-09 | Nippon Telegr & Teleph Corp <Ntt> | 文書分類方法、装置、および文書分類プログラムを記録した記録媒体 |
CA2381460A1 (en) * | 1999-08-06 | 2001-02-15 | James S. Wiltshire, Jr. | System and method for classifying legal concepts using legal topic scheme |
SG89289A1 (en) * | 1999-08-14 | 2002-06-18 | Kent Ridge Digital Labs | Classification by aggregating emerging patterns |
US6651058B1 (en) * | 1999-11-15 | 2003-11-18 | International Business Machines Corporation | System and method of automatic discovery of terms in a document that are relevant to a given target topic |
US7565403B2 (en) * | 2000-03-16 | 2009-07-21 | Microsoft Corporation | Use of a bulk-email filter within a system for classifying messages for urgency or importance |
US20020099730A1 (en) * | 2000-05-12 | 2002-07-25 | Applied Psychology Research Limited | Automatic text classification system |
US6751600B1 (en) * | 2000-05-30 | 2004-06-15 | Commerce One Operations, Inc. | Method for automatic categorization of items |
US6782377B2 (en) * | 2001-03-30 | 2004-08-24 | International Business Machines Corporation | Method for building classifier models for event classes via phased rule induction |
US7295965B2 (en) * | 2001-06-29 | 2007-11-13 | Honeywell International Inc. | Method and apparatus for determining a measure of similarity between natural language sentences |
EP1421518A1 (en) * | 2001-08-08 | 2004-05-26 | Quiver, Inc. | Document categorization engine |
US7062498B2 (en) * | 2001-11-02 | 2006-06-13 | Thomson Legal Regulatory Global Ag | Systems, methods, and software for classifying text from judicial opinions and other documents |
-
2001
- 2001-12-21 US US10/027,914 patent/US7062498B2/en not_active Expired - Lifetime
-
2002
- 2002-11-01 JP JP2003542441A patent/JP4342944B2/ja not_active Expired - Fee Related
- 2002-11-01 WO PCT/US2002/035177 patent/WO2003040875A2/en active Application Filing
- 2002-11-01 AU AU2002350112A patent/AU2002350112B8/en not_active Expired
- 2002-11-01 NZ NZ533105A patent/NZ533105A/en not_active IP Right Cessation
- 2002-11-01 CN CN028266501A patent/CN1701324B/zh not_active Expired - Fee Related
- 2002-11-01 AT AT02786640T patent/ATE421730T1/de not_active IP Right Cessation
- 2002-11-01 CA CA2470299A patent/CA2470299C/en not_active Expired - Lifetime
- 2002-11-01 DK DK02786640T patent/DK1464013T3/da active
- 2002-11-01 EP EP08017291A patent/EP2012240A1/en not_active Ceased
- 2002-11-01 EP EP02786640A patent/EP1464013B1/en not_active Expired - Lifetime
- 2002-11-01 DE DE60231005T patent/DE60231005D1/de not_active Expired - Lifetime
- 2002-11-01 CA CA2737943A patent/CA2737943C/en not_active Expired - Lifetime
- 2002-11-01 ES ES02786640T patent/ES2321075T3/es not_active Expired - Lifetime
-
2005
- 2005-08-30 US US11/215,715 patent/US7580939B2/en not_active Expired - Lifetime
-
2009
- 2009-04-20 JP JP2009102510A patent/JP5392904B2/ja not_active Expired - Fee Related
- 2009-07-23 AU AU2009202974A patent/AU2009202974B2/en not_active Expired
- 2009-08-21 US US12/545,642 patent/US20100114911A1/en not_active Abandoned
-
2013
- 2013-06-21 JP JP2013130658A patent/JP2013178851A/ja not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
EP2012240A1 (en) | 2009-01-07 |
EP1464013B1 (en) | 2009-01-21 |
WO2003040875A2 (en) | 2003-05-15 |
CA2737943C (en) | 2013-07-02 |
ES2321075T3 (es) | 2009-06-02 |
JP2005508542A (ja) | 2005-03-31 |
JP4342944B2 (ja) | 2009-10-14 |
DE60231005D1 (de) | 2009-03-12 |
AU2002350112B8 (en) | 2009-04-30 |
CN1701324B (zh) | 2011-11-02 |
ATE421730T1 (de) | 2009-02-15 |
AU2002350112B2 (en) | 2009-04-23 |
CA2470299A1 (en) | 2003-05-15 |
US20100114911A1 (en) | 2010-05-06 |
WO2003040875A3 (en) | 2003-08-07 |
US7580939B2 (en) | 2009-08-25 |
US20060010145A1 (en) | 2006-01-12 |
NZ533105A (en) | 2006-09-29 |
EP1464013A2 (en) | 2004-10-06 |
JP2009163771A (ja) | 2009-07-23 |
AU2009202974A1 (en) | 2009-08-13 |
DK1464013T3 (da) | 2009-05-18 |
CA2737943A1 (en) | 2003-05-15 |
AU2009202974B2 (en) | 2012-07-19 |
AU2002350112A1 (en) | 2003-05-19 |
JP2013178851A (ja) | 2013-09-09 |
CA2470299C (en) | 2011-04-26 |
US7062498B2 (en) | 2006-06-13 |
US20030101181A1 (en) | 2003-05-29 |
CN1701324A (zh) | 2005-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5392904B2 (ja) | ドキュメントを分類するシステム、方法、およびソフトウェア | |
US12061655B2 (en) | Graphical user interface for presentation of events | |
US6912536B1 (en) | Apparatus and method for presenting document data | |
US5873076A (en) | Architecture for processing search queries, retrieving documents identified thereby, and method for using same | |
US5640553A (en) | Relevance normalization for documents retrieved from an information retrieval system in response to a query | |
US5737734A (en) | Query word relevance adjustment in a search of an information retrieval system | |
US5717914A (en) | Method for categorizing documents into subjects using relevance normalization for documents retrieved from an information retrieval system in response to a query | |
US6826576B2 (en) | Very-large-scale automatic categorizer for web content | |
US5721902A (en) | Restricted expansion of query terms using part of speech tagging | |
US5822731A (en) | Adjusting a hidden Markov model tagger for sentence fragments | |
US7496567B1 (en) | System and method for document categorization | |
US5675788A (en) | Method and apparatus for generating a composite document on a selected topic from a plurality of information sources | |
JP3921837B2 (ja) | 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法 | |
US6836772B1 (en) | Key word deriving device, key word deriving method, and storage medium containing key word deriving program | |
CN110807099B (zh) | 一种基于模糊集的文本分析检索方法 | |
WO1997010554A1 (en) | Architecture for processing search queries, retrieving documents identified thereby, and method for using same | |
Drori | Using frequently occurring words to identify the subject of a document |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090420 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100407 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110726 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20111025 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20111028 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20111125 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20111130 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20111222 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20111228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120712 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20121011 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20121016 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20121109 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20121114 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20121211 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20121214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130115 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130621 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130806 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131010 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131011 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5392904 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |