JP3270783B2 - 複数の文書検索方法 - Google Patents
複数の文書検索方法Info
- Publication number
- JP3270783B2 JP3270783B2 JP15583693A JP15583693A JP3270783B2 JP 3270783 B2 JP3270783 B2 JP 3270783B2 JP 15583693 A JP15583693 A JP 15583693A JP 15583693 A JP15583693 A JP 15583693A JP 3270783 B2 JP3270783 B2 JP 3270783B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- query
- documents
- word
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 24
- 238000004364 calculation method Methods 0.000 description 5
- 230000001186 cumulative effect Effects 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
の処理方法と技術における改良に関し、特に、文書イメ
ージの単語または用語の識別と検出のための方法におけ
る改良に関し、更に詳しくは、コンピュータが少ないメ
モリ要件で照会単語または用語があるかに関して多数の
文書イメージを検索するための方法における改良に関す
る。
て、文書処理における関心は益々広がっている。大きな
文書全体の中で特定の検索用語を探し出すことがしばし
ば望まれる。例えば、特定の主題に関係する書類または
出版物を探し出すための検索を行うとき、特定の単語又
は語句を含む証言録取書または発見文書において特定の
証拠を探し出すとき、ある種のキーワードを含んでいる
法律文書のデータベースにおいて関連する法廷の判決を
探し出すとき、並びに、様々なその他の事例においてで
ある。
ピー(hard copy) 」、即ち、書類複写のために検出され
ることができる電子メモリ媒体で文書テキストとイメー
ジが符号化されている電子形式で、文書が時には提供さ
れる。従来、1つまたはそれ以上の照会用語、通常は単
語、を探し出すため多数の当該文書が検索されるとき、
その照会用語が比較されることに対してインデックス
(索引)が作成される。当該インデックスは2つの部分
から成る。第1の部分は、文書識別子(本明細書中では
「文書識別子(document id) 」) である。文書識別子
は、収集の中での各文書の識別にすぎず、数字、キーワ
ード或いは語句、又は、その他の独自の識別子であって
もよい。第2の部分は、単語、並びに、単語が識別され
る文書内でその単語が現れる回数(本明細書中では「単
語頻度(word frequency)」) である。
語または照会単語がある特定の文書を識別するために、
ステップ10において、通常は単語の全てのインデック
スがコンピュータメモリの中に持ち込まれ、照会単語が
メモリの中の単語の各々に対して、1回に1語ずつ比較
される。各単語が比較されるときに、単語が現れる文書
に関して「スコア(得点)(score) 」が保持される。従
って、ステップ11において最初の照会単語が処理さ
れ、ステップ13にて最初の単語に関して部分的な「ス
コア」が計算される。次に、ステップ14において次の
照会単語が処理され、ステップ16において累積「スコ
ア」が計算される。ステップ17において連続する照会
単語と累積スコアが完了するまで処理されるために、累
積スコアが生成され続ける。最後の照会単語が検索され
た後、ステップ18において、「スコア」を用いて照会
単語による「ヒット(hit) 」の数の順序で文書が識別又
は分類され、ステップ19において見つけ出された文書
のリストが表示される。
書の収集で、コンピュータにアクセス可能なメモリを大
量に必要とする。その文書が大容量のメモリディスクに
保存されている場合にすら、メモリ要件は、しばしばパ
ーソナルコンピュータまたはポータブルコンピュータで
の文書の検索を不可能にすることがあり、概して、関連
する大きなメモリと共に大型のメインフレームコンピュ
ータを必要とする。
文書検索技術が提案され、その技術は、文書のイメージ
の1つまたはそれ以上の形態学的な性質が処理されて、
照会の単語、用語またはイメージに対して比較をするた
めに使用される。当該技術に従って、文書が走査され、
その様々なイメージの形態学的な性質は、イメージの内
容を解読せずに直接決定される。しかしながら、大きな
文書の全体の検索を実施するときには、上記のインデッ
クスに類似してはいるが、単語の代わりに使用される形
態学的な性質の頻度のリストを備えたインデックスを生
成する1つの技術を使用できる。また、特に大きな文書
の収集では、大量のメモリが検索照会を実施するのに必
要とされる。
て、本発明の1つの目的は、従って、用いられてきた従
来の方法より少ないメモリを使って、大きな文書の収集
に対して類似性の検索を実施するための改良された方法
を提供することである。
することの可能な上記記載されたタイプの改良された方
法を提供することである。
性に関して複数の文書の検索を実施するための方法は、
(a)第1文書を検索するステップと、(b) 第1文書にお
いて照会の発生する数を決定するステップと、(c) 次の
文書を検索するステップと、(d) 次の文書において照会
の発生する数を決定するステップと、(e) 複数の文書の
各々が検索されて、照会の発生する数が複数の文書の各
々において決定されるまで、ステップ(c) 及びステップ
(d) を繰り返すステップと、から成る。
語または単語に対する類似性に関して複数の文書の検索
を実施するための方法が提供される。本方法は、第1文
書を検索するステップ、並びに、第1文書の中で照会単
語の発生する数を決定するステップを含む。本方法は、
次に、次の文書を検索するステップと、次の文書におい
て照会単語の発生する数を決定するステップを含む。複
数の文書の各々が検索されて、照会単語の発生する数が
複数の文書の各々で決定されるまで、上記のステップが
繰り返される。
き、その全ては、文書の収集全体の中で用語毎に検索さ
れるよりも、むしろ各文書の中で順次検索される。文書
は次に、各文書の中で決定された照会単語の発生する数
に従ってランク付けられ、文書のリストがその文書のラ
ンク付けに従って作成される。
含まれる単語のリストが作成されて、照会単語はその作
成された単語のリストと比較される。
第1の部分と比較される。続いて、全ての照会単語が文
書の第2の部分と比較される。文書は次に、各文書で決
定された照会単語の発生する数に従ってランク付けら
れ、文書のリストはその文書のランク付けに従って作成
される。
クスへと編成される。この場合には、文書を検索する代
わりに、及びその照会用語と文書に関係した文書識別子
と用語頻度対のリストのセグメントが検査される。即
ち、本実施例では、 (a)第1文書に関して、各々の照会
用語について逆インデックスを検索し、該照会用語の発
生頻度を決定するステップと、(b)前記第1文書に関す
る前記照会用語の発生頻度に基づいて、該第1文書の類
似性スコアを計算するステップと、(c) 次の文書に関し
て、各々の前記照会用語について逆インデックスを検索
し、該照会用語の発生頻度を決定するステップと、(d)
前記次の文書に関する前記照会用語の発生頻度に基づい
て、該次の文書の類似性スコアを計算するステップと、
(e)複数の文書各々の類似性スコアが計算されるまで、
ステッブ(c)及びステップ(d)を繰り返すステップと、を
有する、複数の文書の逆インデックスを用いて複数用語
を照会する、類似性に関して複数の文書を検索するコン
ピュータで実行される方法を提供する。
の単語、音節、語句、イメージ、又は同等のもののシー
ケンスから形成される照会によって実施されるタイプの
類似性検索を実施するための技術に関する。「照会単語
(query word)」という用語が本明細書中で使用されてい
るが、「単語(word)」とは、単語、単語の一部、或い
は、文字、数字、表意文字または外国語の音節等のアル
ファベット以外の言語文字、及び「万能札(wildcard)」
の文字と同等のもの等の単語または文字の代用語を含む
その他の言語記号を含む文書またはイメージの部分に言
及すると理解すべきである。類似性検索の結果は、その
照会に最も高い類似性の指数を有するインデックスを付
けた収集からの文書のランク付けしたリストである。照
会に関する文書の類似性の指数は、各照会単語が現れる
文書の数、各文書で照会単語が現れる回数、並びに、全
体において文書の数を含むことのできるユーザの定義し
た数式から得られる数字である。ある場合には、照会単
語の相対的な重要性、或いは、照会単語の発生の順序、
或いは、その他の同様の検索基準を指定するように使用
される異なる重みを含むことが望ましいこともある。
めに、逆インデックスが使用されることが好ましい。逆
インデックスは、全体、即ち、文書の収集の中の各々の
独自の単語に関して文書識別子と単語頻度の対のリスト
を含む。単語頻度とは、対にされる文書識別子(documen
t id) によって識別される文書の中にその単語が現れる
回数である。文書識別子と単語頻度対は、文書識別子に
よって昇順または降順で配列されることが好ましい。
単一の照会の単語に関して文書識別子と単語頻度の対の
リスト全体を調べ、各照会単語が処理されるときに、そ
のリストの中に見つけ出される各文書の部分的なスコア
を計算することによって通常行われるような従来の方法
と対照的である。本発明の好ましい実施例の方法に従っ
て、図2を参照すると、他の照会単語のそれらにアクセ
スする前に、照会単語の全ての文書識別子と単語頻度対
にアクセスするよりも、むしろその比較は1つの流れ
(ストリーム)の文書識別子と単語頻度対からもう1つ
の流れの文書識別子と単語頻度対へと切り換えられる。
従って、1つの文書における全ての文書識別子と単語頻
度対は、他の文書識別子と単語頻度対へと続ける前に訪
問される。
に対する文書識別子と単語頻度対は、コンピュータのメ
モリの中へと検索される。従って、本発明の技術がメモ
リの制約された場合の使用に特に適切であり、n-方向の
組み合わせアルゴリスムに類似であり、この場合には組
み合わせは実施されておらず、むしろ1組の計算が実施
されていることが分かる。
単語が第1文書に対して比較、検索、或いは、処理され
て、ステップ23において完全な文書の「スコア」が第
1文書に関して計算される。本発明に従って類似性検索
を実施するにあたっては、収集の全ての文書のリスト
を、或いは、少なくとも処理されているリストの中に見
られた全ての文書のリストを保持することが望ましい。
これは、文書の部分的なスコアを追跡するために望まし
い。このリストは、処理されている文書識別子と単語頻
度対の文書識別子の部分に対応する点でアクセスするこ
とができる。従って、各照会単語のリストが処理される
につれて、文書のリストは、文書識別子の順序に依存し
て増加(または減少)する点でアクセスすることができ
る。
書の次の文書識別子と単語頻度対をコンピュータのメモ
リの中に検索し、ステップ27において再び全ての照会
単語を次の文書に対応して処理することによって続けら
れ、ステップ28において新しい「スコア」がその次の
文書に関して計算される。ステップ30において、この
処理は全ての文書が処理されるまで継続される。一旦全
ての照会単語が処理されると、完全に計算された、或い
は、累積「スコア」がランクの順序に分類され、ステッ
プ31においてそのリストが表示される。また、部分的
なスコアが計算される毎に分類されたリストを処理の最
後で直ちに生成させるため、変更した文書のスコアを、
必要に応じて、ランク付けに再配置することができる。
ている文書識別子と単語頻度対の照会単語のリストの部
分と共に、全体のリストをメモリの中に保持するための
十分なメモリがシステムになかったならば、文書リスト
の殆どは各照会単語と比較するために外部記憶装置から
ページ付けされていた。本発明の技術では、対の1つの
照会単語の流れは、他の照会単語の流れに切り換えられ
て、例えば、次に最も低い文書識別子等に続く前に、全
ての様々なリストにおける最も低い文書識別子に関する
全ての計算を実施する。本発明によれば、一度に文書リ
ストにおける1つの文書への入力を含み、各照会単語に
関しては、文書識別子と単語頻度対のリストにおいて1
つの入力を含むに充分なだけのメモリがあれば良い。大
きな文書収集の場合には、文書のリストが非常に大きく
なるので、これが従来の技術よりもずっと小さいメモリ
の要件での計算を可能にする。
識別同士の間で比較を行うにあたって、従来の技術より
も更に多くの計算を実施することが必要となることが注
目される。しかしながら、この計算はディスクの入力/
出力のコストに比べて経費が安い。
の文書(1つより多い)を同時に処理することである。
この文書の数は、利用できるメモリに基づく実行時間、
或いは、予期される目標機械に基づく編集時間で決定さ
れることができる。文書識別が処理されている現行の範
囲の文書識別を越えるまで、文書識別子と単語頻度対の
各リストは処理される。次に、計算は次の照会単語リス
トへと進むことになる。このバリエーションは、完全に
は取り除かないけれども、実行される余分な計算の量を
減少させ、従来のアプローチほど多くは無いけれども、
より多くのメモリを必要とする。
施するためのステップを概説しているブロック図であ
る。
類似性検索を実施するためのステップを概説しているブ
ロック図である。
Claims (1)
- 【請求項1】 (a)複数の文書の逆インデックスの中の
第1文書に関する逆インデックスをメモリの中へ持ち込
み、各々の照会用語について該第1文書に関する逆イン
デックスを検索し、該照会用語の発生頻度を決定するス
テップと、 (b)前記第1文書に関する前記照会用語の発生頻度に基
づいて、該第1文書の類似性スコアを計算するステップ
と、 (c) 複数の文書の逆インデックスの中の次の文書に関す
る逆インデックスをメモリの中へ持ち込み、各々の照会
用語について該次の文書に関する逆インデックスを検索
し、該照会用語の発生頻度を決定するステップと、 (d)前記次の文書に関する前記照会用語の発生頻度に基
づいて、該次の文書の類似性スコアを計算するステップ
と、 (e)複数の文書各々の類似性スコアが計算されるまで、
ステップ(c)及びステップ(d)を繰り返すステップと、 を有する、照会用語に関する文書識別子及び用語発生頻
度の対のリストを含む複数の文書の逆インデックスを用
いて複数用語を照会する、類似性に関して複数の文書を
検索するコンピュータで実行される方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US95316692A | 1992-09-29 | 1992-09-29 | |
US953166 | 1992-09-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06131398A JPH06131398A (ja) | 1994-05-13 |
JP3270783B2 true JP3270783B2 (ja) | 2002-04-02 |
Family
ID=25493666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP15583693A Expired - Fee Related JP3270783B2 (ja) | 1992-09-29 | 1993-06-25 | 複数の文書検索方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5544049A (ja) |
EP (1) | EP0590858B1 (ja) |
JP (1) | JP3270783B2 (ja) |
DE (1) | DE69330701T2 (ja) |
Families Citing this family (107)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5642502A (en) * | 1994-12-06 | 1997-06-24 | University Of Central Florida | Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text |
US5721902A (en) * | 1995-09-15 | 1998-02-24 | Infonautics Corporation | Restricted expansion of query terms using part of speech tagging |
US5640553A (en) * | 1995-09-15 | 1997-06-17 | Infonautics Corporation | Relevance normalization for documents retrieved from an information retrieval system in response to a query |
US5794237A (en) * | 1995-11-13 | 1998-08-11 | International Business Machines Corporation | System and method for improving problem source identification in computer systems employing relevance feedback and statistical source ranking |
US5911140A (en) * | 1995-12-14 | 1999-06-08 | Xerox Corporation | Method of ordering document clusters given some knowledge of user interests |
JPH09198398A (ja) * | 1996-01-16 | 1997-07-31 | Fujitsu Ltd | パターン検索装置 |
US5819260A (en) * | 1996-01-22 | 1998-10-06 | Lexis-Nexis | Phrase recognition method and apparatus |
US5867799A (en) * | 1996-04-04 | 1999-02-02 | Lang; Andrew K. | Information system and method for filtering a massive flow of information entities to meet user information classification needs |
US6314420B1 (en) | 1996-04-04 | 2001-11-06 | Lycos, Inc. | Collaborative/adaptive search engine |
JP2833580B2 (ja) * | 1996-04-19 | 1998-12-09 | 日本電気株式会社 | 全文インデックス作成装置および全文データベース検索装置 |
US7349892B1 (en) | 1996-05-10 | 2008-03-25 | Aol Llc | System and method for automatically organizing and classifying businesses on the World-Wide Web |
US5909677A (en) * | 1996-06-18 | 1999-06-01 | Digital Equipment Corporation | Method for determining the resemblance of documents |
US6457004B1 (en) * | 1997-07-03 | 2002-09-24 | Hitachi, Ltd. | Document retrieval assisting method, system and service using closely displayed areas for titles and topics |
US5813002A (en) * | 1996-07-31 | 1998-09-22 | International Business Machines Corporation | Method and system for linearly detecting data deviations in a large database |
US6119114A (en) * | 1996-09-17 | 2000-09-12 | Smadja; Frank | Method and apparatus for dynamic relevance ranking |
US6173298B1 (en) | 1996-09-17 | 2001-01-09 | Asap, Ltd. | Method and apparatus for implementing a dynamic collocation dictionary |
US5870740A (en) * | 1996-09-30 | 1999-02-09 | Apple Computer, Inc. | System and method for improving the ranking of information retrieval results for short queries |
US5898836A (en) | 1997-01-14 | 1999-04-27 | Netmind Services, Inc. | Change-detection tool indicating degree and location of change of internet documents by comparison of cyclic-redundancy-check(CRC) signatures |
US5832478A (en) * | 1997-03-13 | 1998-11-03 | The United States Of America As Represented By The National Security Agency | Method of searching an on-line dictionary using syllables and syllable count |
US6185559B1 (en) | 1997-05-09 | 2001-02-06 | Hitachi America, Ltd. | Method and apparatus for dynamically counting large itemsets |
US6460034B1 (en) * | 1997-05-21 | 2002-10-01 | Oracle Corporation | Document knowledge base research and retrieval system |
AUPO710597A0 (en) * | 1997-06-02 | 1997-06-26 | Knowledge Horizons Pty. Ltd. | Methods and systems for knowledge management |
US6012053A (en) * | 1997-06-23 | 2000-01-04 | Lycos, Inc. | Computer system with user-controlled relevance ranking of search results |
US5933822A (en) * | 1997-07-22 | 1999-08-03 | Microsoft Corporation | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision |
DE69730057T2 (de) * | 1997-09-29 | 2005-08-04 | Webplus Ltd., Road Town | Ein multi-element vertrauensentsprechungssystem und verfahren hierfür |
GB9727322D0 (en) * | 1997-12-29 | 1998-02-25 | Xerox Corp | Multilingual information retrieval |
US6067539A (en) * | 1998-03-02 | 2000-05-23 | Vigil, Inc. | Intelligent information retrieval system |
IL126373A (en) | 1998-09-27 | 2003-06-24 | Haim Zvi Melman | Apparatus and method for search and retrieval of documents |
AU1907300A (en) * | 1998-11-30 | 2000-06-19 | Justsystem Corporation | Term-length term-frequency method for measuring document similarity and classifying text |
US9451310B2 (en) | 1999-09-21 | 2016-09-20 | Quantum Stream Inc. | Content distribution system and method |
US7831512B2 (en) | 1999-09-21 | 2010-11-09 | Quantumstream Systems, Inc. | Content distribution system and method |
US7062510B1 (en) * | 1999-12-02 | 2006-06-13 | Prime Research Alliance E., Inc. | Consumer profiling and advertisement selection system |
US20020049705A1 (en) * | 2000-04-19 | 2002-04-25 | E-Base Ltd. | Method for creating content oriented databases and content files |
US6654749B1 (en) | 2000-05-12 | 2003-11-25 | Choice Media, Inc. | Method and system for searching indexed information databases with automatic user registration via a communication network |
US7062483B2 (en) * | 2000-05-18 | 2006-06-13 | Endeca Technologies, Inc. | Hierarchical data-driven search and navigation system and method for information retrieval |
US7617184B2 (en) | 2000-05-18 | 2009-11-10 | Endeca Technologies, Inc. | Scalable hierarchical data-driven navigation system and method for information retrieval |
US7325201B2 (en) * | 2000-05-18 | 2008-01-29 | Endeca Technologies, Inc. | System and method for manipulating content in a hierarchical data-driven search and navigation system |
US7035864B1 (en) | 2000-05-18 | 2006-04-25 | Endeca Technologies, Inc. | Hierarchical data-driven navigation system and method for information retrieval |
GB2364583B (en) * | 2000-07-08 | 2004-09-22 | Paul David Mills | Database interrogation |
US7249121B1 (en) * | 2000-10-04 | 2007-07-24 | Google Inc. | Identification of semantic units from within a search query |
US6978419B1 (en) * | 2000-11-15 | 2005-12-20 | Justsystem Corporation | Method and apparatus for efficient identification of duplicate and near-duplicate documents and text spans using high-discriminability text fragments |
US8156051B1 (en) * | 2001-01-09 | 2012-04-10 | Northwest Software, Inc. | Employment recruiting system |
JP2004524622A (ja) * | 2001-03-07 | 2004-08-12 | ジョン ソン キム | 商品満足度を適用した電子商取引方法及びシステム |
US7089184B2 (en) * | 2001-03-22 | 2006-08-08 | Nurv Center Technologies, Inc. | Speech recognition for recognizing speaker-independent, continuous speech |
KR100685023B1 (ko) * | 2001-11-13 | 2007-02-20 | 주식회사 포스코 | 유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템 |
US6963869B2 (en) * | 2002-01-07 | 2005-11-08 | Hewlett-Packard Development Company, L.P. | System and method for search, index, parsing document database including subject document having nested fields associated start and end meta words where each meta word identify location and nesting level |
US20030140037A1 (en) * | 2002-01-23 | 2003-07-24 | Kenneth Deh-Lee | Dynamic knowledge expert retrieval system |
US7376709B1 (en) * | 2002-05-09 | 2008-05-20 | Proquest | Method for creating durable web-enabled uniform resource locator links |
US6892198B2 (en) * | 2002-06-14 | 2005-05-10 | Entopia, Inc. | System and method for personalized information retrieval based on user expertise |
US20040024776A1 (en) * | 2002-07-30 | 2004-02-05 | Qld Learning, Llc | Teaching and learning information retrieval and analysis system and method |
US20050004932A1 (en) * | 2003-05-15 | 2005-01-06 | Peter Nordin | Device, a computer network search engine, a personal computer for generating an indication of a relation between a text and a subject reference |
US7734627B1 (en) | 2003-06-17 | 2010-06-08 | Google Inc. | Document similarity detection |
JP2005043977A (ja) * | 2003-07-23 | 2005-02-17 | Hitachi Ltd | 文書間の類似度算出方法および装置 |
CA2542438A1 (en) * | 2003-10-21 | 2005-04-28 | Intellectual Property Bank Corp. | Document characteristic analysis device for document to be surveyed |
US7428528B1 (en) | 2004-03-31 | 2008-09-23 | Endeca Technologies, Inc. | Integrated application for manipulating content in a hierarchical data-driven search and navigation system |
US8494855B1 (en) * | 2004-10-06 | 2013-07-23 | West Interactive Corporation Ii | Method, system, and computer readable medium for comparing phonetic similarity of return words to resolve ambiguities during voice recognition |
US7533094B2 (en) * | 2004-11-23 | 2009-05-12 | Microsoft Corporation | Method and system for determining similarity of items based on similarity objects and their features |
EP1846815A2 (en) * | 2005-01-31 | 2007-10-24 | Textdigger, Inc. | Method and system for semantic search and retrieval of electronic documents |
US9400838B2 (en) | 2005-04-11 | 2016-07-26 | Textdigger, Inc. | System and method for searching for a query |
US20070073651A1 (en) * | 2005-09-23 | 2007-03-29 | Tomasz Imielinski | System and method for responding to a user query |
US20070078842A1 (en) * | 2005-09-30 | 2007-04-05 | Zola Scot G | System and method for responding to a user reference query |
US8019752B2 (en) | 2005-11-10 | 2011-09-13 | Endeca Technologies, Inc. | System and method for information retrieval from object collections with complex interrelationships |
US8694530B2 (en) | 2006-01-03 | 2014-04-08 | Textdigger, Inc. | Search system with query refinement and search method |
US20070185860A1 (en) * | 2006-01-24 | 2007-08-09 | Michael Lissack | System for searching |
US7788358B2 (en) | 2006-03-06 | 2010-08-31 | Aggregate Knowledge | Using cross-site relationships to generate recommendations |
US7853630B2 (en) | 2006-03-06 | 2010-12-14 | Aggregate Knowledge | System and method for the dynamic generation of correlation scores between arbitrary objects |
US7904524B2 (en) * | 2006-03-06 | 2011-03-08 | Aggregate Knowledge | Client recommendation mechanism |
US7634471B2 (en) * | 2006-03-30 | 2009-12-15 | Microsoft Corporation | Adaptive grouping in a file network |
US7624130B2 (en) * | 2006-03-30 | 2009-11-24 | Microsoft Corporation | System and method for exploring a semantic file network |
US8862573B2 (en) | 2006-04-04 | 2014-10-14 | Textdigger, Inc. | Search system and method with text function tagging |
US8065135B2 (en) * | 2006-04-06 | 2011-11-22 | Research In Motion Limited | Handheld electronic device and method for employing contextual data for disambiguation of text input |
US7477165B2 (en) | 2006-04-06 | 2009-01-13 | Research In Motion Limited | Handheld electronic device and method for learning contextual data during disambiguation of text input |
US20080016157A1 (en) * | 2006-06-29 | 2008-01-17 | Centraltouch Technology Inc. | Method and system for controlling and monitoring an apparatus from a remote computer using session initiation protocol (sip) |
US20080104257A1 (en) * | 2006-10-26 | 2008-05-01 | Yahoo! Inc. | System and method using a refresh policy for incremental updating of web pages |
US20080104502A1 (en) * | 2006-10-26 | 2008-05-01 | Yahoo! Inc. | System and method for providing a change profile of a web page |
US8745183B2 (en) * | 2006-10-26 | 2014-06-03 | Yahoo! Inc. | System and method for adaptively refreshing a web page |
US20080114750A1 (en) * | 2006-11-14 | 2008-05-15 | Microsoft Corporation | Retrieval and ranking of items utilizing similarity |
US8676802B2 (en) | 2006-11-30 | 2014-03-18 | Oracle Otc Subsidiary Llc | Method and system for information retrieval with clustering |
JP5241828B2 (ja) * | 2007-06-14 | 2013-07-17 | グーグル・インコーポレーテッド | 辞書の単語及び熟語の判定 |
CN101779200B (zh) * | 2007-06-14 | 2013-03-20 | 谷歌股份有限公司 | 词典词和短语确定方法和设备 |
US7693908B2 (en) * | 2007-06-28 | 2010-04-06 | Microsoft Corporation | Determination of time dependency of search queries |
US7693823B2 (en) * | 2007-06-28 | 2010-04-06 | Microsoft Corporation | Forecasting time-dependent search queries |
US8290921B2 (en) * | 2007-06-28 | 2012-10-16 | Microsoft Corporation | Identification of similar queries based on overall and partial similarity of time series |
US8090709B2 (en) * | 2007-06-28 | 2012-01-03 | Microsoft Corporation | Representing queries and determining similarity based on an ARIMA model |
US7685100B2 (en) | 2007-06-28 | 2010-03-23 | Microsoft Corporation | Forecasting search queries based on time dependencies |
US7685099B2 (en) * | 2007-06-28 | 2010-03-23 | Microsoft Corporation | Forecasting time-independent search queries |
US7689622B2 (en) * | 2007-06-28 | 2010-03-30 | Microsoft Corporation | Identification of events of search queries |
US20090037431A1 (en) * | 2007-07-30 | 2009-02-05 | Paul Martino | System and method for maintaining metadata correctness |
US8032714B2 (en) | 2007-09-28 | 2011-10-04 | Aggregate Knowledge Inc. | Methods and systems for caching data using behavioral event correlations |
US7856434B2 (en) * | 2007-11-12 | 2010-12-21 | Endeca Technologies, Inc. | System and method for filtering rules for manipulating search results in a hierarchical search and navigation system |
US20110099164A1 (en) * | 2009-10-23 | 2011-04-28 | Haim Zvi Melman | Apparatus and method for search and retrieval of documents and advertising targeting |
US8434134B2 (en) | 2010-05-26 | 2013-04-30 | Google Inc. | Providing an electronic document collection |
US9442930B2 (en) | 2011-09-07 | 2016-09-13 | Venio Inc. | System, method and computer program product for automatic topic identification using a hypertext corpus |
US9442928B2 (en) | 2011-09-07 | 2016-09-13 | Venio Inc. | System, method and computer program product for automatic topic identification using a hypertext corpus |
US8856640B1 (en) | 2012-01-20 | 2014-10-07 | Google Inc. | Method and apparatus for applying revision specific electronic signatures to an electronically stored document |
US9529916B1 (en) | 2012-10-30 | 2016-12-27 | Google Inc. | Managing documents based on access context |
US11308037B2 (en) | 2012-10-30 | 2022-04-19 | Google Llc | Automatic collaboration |
US9384285B1 (en) | 2012-12-18 | 2016-07-05 | Google Inc. | Methods for identifying related documents |
US20140278357A1 (en) * | 2013-03-14 | 2014-09-18 | Wordnik, Inc. | Word generation and scoring using sub-word segments and characteristic of interest |
US9514113B1 (en) * | 2013-07-29 | 2016-12-06 | Google Inc. | Methods for automatic footnote generation |
US9842113B1 (en) | 2013-08-27 | 2017-12-12 | Google Inc. | Context-based file selection |
US9529791B1 (en) | 2013-12-12 | 2016-12-27 | Google Inc. | Template and content aware document and template editing |
US9735868B2 (en) * | 2014-07-23 | 2017-08-15 | Qualcomm Incorporated | Derivation of an identifier encoded in a visible light communication signal |
US9679065B2 (en) * | 2014-07-31 | 2017-06-13 | Wal-Mart Stores, Inc. | L-gram and r-gram frequency-weighted query responses |
US9703763B1 (en) | 2014-08-14 | 2017-07-11 | Google Inc. | Automatic document citations by utilizing copied content for candidate sources |
CN110929125B (zh) * | 2019-11-15 | 2023-07-11 | 腾讯科技(深圳)有限公司 | 搜索召回方法、装置、设备及其存储介质 |
US11615245B2 (en) * | 2021-02-02 | 2023-03-28 | International Business Machines Corporation | Article topic alignment |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4358824A (en) * | 1979-12-28 | 1982-11-09 | International Business Machines Corporation | Office correspondence storage and retrieval system |
US4554631A (en) * | 1983-07-13 | 1985-11-19 | At&T Bell Laboratories | Keyword search automatic limiting method |
US4823306A (en) * | 1987-08-14 | 1989-04-18 | International Business Machines Corporation | Text search system |
JPH0259861A (ja) * | 1988-08-25 | 1990-02-28 | Nec Corp | 索引付文書作成・保管・検索装置 |
JPH0675265B2 (ja) * | 1989-09-20 | 1994-09-21 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | 情報検索方法及びシステム |
US5404514A (en) * | 1989-12-26 | 1995-04-04 | Kageneck; Karl-Erbo G. | Method of indexing and retrieval of electronically-stored documents |
EP0501416B1 (en) * | 1991-02-28 | 2000-05-10 | Hitachi, Ltd. | Method and apparatus for registering text document data and for document retrieval |
-
1993
- 1993-06-25 JP JP15583693A patent/JP3270783B2/ja not_active Expired - Fee Related
- 1993-09-22 DE DE69330701T patent/DE69330701T2/de not_active Expired - Fee Related
- 1993-09-22 EP EP93307488A patent/EP0590858B1/en not_active Expired - Lifetime
-
1995
- 1995-05-22 US US08/447,317 patent/US5544049A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US5544049A (en) | 1996-08-06 |
EP0590858B1 (en) | 2001-09-05 |
DE69330701T2 (de) | 2002-07-11 |
EP0590858A1 (en) | 1994-04-06 |
DE69330701D1 (de) | 2001-10-11 |
JPH06131398A (ja) | 1994-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3270783B2 (ja) | 複数の文書検索方法 | |
JP4467791B2 (ja) | 情報管理及び検索 | |
US6826576B2 (en) | Very-large-scale automatic categorizer for web content | |
JP5255766B2 (ja) | 対話形サーチクエリー改良のためのシステム及び方法 | |
JP4976666B2 (ja) | 情報検索システムにおけるフレーズ識別方法 | |
JP4944405B2 (ja) | 情報検索システムにおけるフレーズに基づくインデックス化方法 | |
EP1622052B1 (en) | Phrase-based generation of document description | |
US5640553A (en) | Relevance normalization for documents retrieved from an information retrieval system in response to a query | |
US6633868B1 (en) | System and method for context-based document retrieval | |
US5742816A (en) | Method and apparatus for identifying textual documents and multi-mediafiles corresponding to a search topic | |
US5721902A (en) | Restricted expansion of query terms using part of speech tagging | |
US5659742A (en) | Method for storing multi-media information in an information retrieval system | |
US5737734A (en) | Query word relevance adjustment in a search of an information retrieval system | |
JP3636941B2 (ja) | 情報検索方法と情報検索装置 | |
KR100756921B1 (ko) | 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. | |
US8543380B2 (en) | Determining a document specificity | |
US20070005567A1 (en) | System and method for adaptive multi-cultural searching and matching of personal names | |
JP2006048684A (ja) | 情報検索システムにおけるフレーズに基づく検索方法 | |
EP2045732A2 (en) | Determining the depths of words and documents | |
US20050071333A1 (en) | Method for determining synthetic term senses using reference text | |
JP3249743B2 (ja) | 文書検索システム | |
WO2002037328A2 (en) | Integrating search, classification, scoring and ranking | |
JPH0991297A (ja) | 文字列検索方法及び装置 | |
JP2004506960A (ja) | 蓋然論マッチング・エンジン | |
JP3068397B2 (ja) | 文書管理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20010515 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20020108 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080118 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090118 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090118 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100118 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |