DE69330701T2 - Verfahren zur Durchführung der Suche nach Ähnlichkeiten mit einer Abfrage in einer Dokumentenmenge - Google Patents
Verfahren zur Durchführung der Suche nach Ähnlichkeiten mit einer Abfrage in einer DokumentenmengeInfo
- Publication number
- DE69330701T2 DE69330701T2 DE69330701T DE69330701T DE69330701T2 DE 69330701 T2 DE69330701 T2 DE 69330701T2 DE 69330701 T DE69330701 T DE 69330701T DE 69330701 T DE69330701 T DE 69330701T DE 69330701 T2 DE69330701 T2 DE 69330701T2
- Authority
- DE
- Germany
- Prior art keywords
- document
- documents
- search
- list
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
- Die Erfindung betrifft Verbesserungen bei Text- und Bildverarbeitungsverfahren und -techniken und konkret Verbesserungen bei Verfahren zur Wort- und Begriffsidentifizierung und zur -suche in Dokumentbildern, noch genauer Verbesserungen bei Verfahren zum rechnergestützten Durchsuchen einer Reihe von Dokumentbildern nach Abfragewörtern oder -begriffen, die weniger Speicherplatz erfordern.
- Das Interesse an einer Dokumentverarbeitung sowohl in elektronischer als auch Papierform vorliegender Dokumente ist immer stärker geworden. Oft wird es gewünscht, bestimmte Suchbegriffe innerhalb einer großen Menge von Dokumenten aufzufinden, z. B. bei der Recherche von Aufsätzen oder Publikationen zu speziellen Themen, beim Auffinden bestimmter Aussagen in Erklärungen oder Enthüllungen, die spezielle Wörter oder Wendungen enthalten, beim Finden relevanter Gerichtsbeschlüsse mit bestimmten Schlüsselbegriffen in einer juristischen Datenbank und in vielerlei anderen Fällen.
- Mitunter liegen die Dokumente in elektronischer Form vor, wobei der Text und die Bilder auf einem elektronischen Speichermedium codiert worden sind, von dem die Dokumente zur genauen Durchsicht oder zur Erstellung einer "hard copy", also eines Papierausdrucks abgerufen werden können. In der Vergangenheit wurde beim Durchsuchen einer großen Anzahl von Dokumenten nach einem oder mehreren Suchbegriffen, meist Wörter, ein Index erstellt, mit dem die Suchbegriffe verglichen wurden. Ein solcher Index besteht meist aus zwei Teilen. Bei dem ersten handelt es sich um einen Dokument-Identifier oder -namen (hier Dokument-ID genannt). Der Dokument-ID bezeichnet einfach jedes Dokument in der Dokumentsammlung, und zwar mit einer Zahl, einem Schlüsselbegriff oder einer -wendung oder irgendeiner anderen eindeutigen Kennzeichnung. Den zweiten Teil bilden ein Wort und die Anzahl des Auftretens des Wortes im Dokument, in dem es identifiziert wurde (hier auch "Worthäufigkeit" genannt).
- Bislang wurde zum Identifizieren der speziellen Dokumente, in denen die Suchwörter vorhanden sind, der Index aller Wörter in einen Rechnerspeicher 10 eingestellt, woraufhin die Suchwörter nacheinander mit jedem einzelnen Wort im Speicher verglichen werden, wie in Fig. 1 abgebildet ist. Nach dem Vergleich jedes Wortes werden jene Dokumente, in denen es vorkam, vermerkt, es wird ein Zählwert oder Ergebnis (Score) von ihnen ermittelt und festgehalten. Folglich wird ein erstes Suchwort bearbeitet (11), und ein Teilergebnis dafür errechnet (13). Danach wird ein nächstes Suchwort bearbeitet (14) und ein Gesamtergebnis berechnet (16). Dieses Gesamtergebnis wird solange weiter erzeugt, bis alle nachfolgenden Suchwörter vollständig verarbeitet und die Gesamtergebnisse ermittelt sind (17). Nachdem die Suche nach dem letzte Wort beendet ist, können mit den Zählergebnissen die Dokumente identifiziert (18) oder in der Reihefolge der "Treffer" bezüglich der Suchwörter angeordnet und n einer Liste der gefundenen Dokumente angezeigt werden (19).
- Für solche Verfahren wird allerdings viel zugreifbarer Rechnerspeicherplatz benötigt, vor allem bei großen Dokumentsammlungen. Wegen dieses Speicherbedarfs ist die Dokumentsuche auf Personal- oder tragbaren Computern selbst dann praktisch oft nicht durchführbar, wenn die Dokumente auf Speicherplatten mit großer Kapazität gespeichert sind. Allgemein sind dazu Großrechner mit entsprechend großer Speicherkapazität erforderlich.
- Auf dem Gebiet der Bildverarbeitung sind in jüngster Zeit direkte Papierdokument- Suchmethoden vorgeschlagen worden, bei denen eine oder mehrere morphologische Eigenschaften der Bilder auf dem Dokument verarbeitet und zum Vergleich mit einem Suchwort, -begriff oder -bild verwendet werden. Nach diesen Verfahren wird ein Dokument eingescannt, und die morphologischen Eigenschaften seiner verschiedenen Bilder werden direkt bestimmt, ohne den Inhalt des Bildes zu decodieren. Demgegenüber kann beim Durchsuchen einer großen Dokumentmenge ein Verfahren verwendet werden, mit dem ein Index erstellt wird - ähnlich wie oben beschrieben, allerdings mit einer Häufigkeitsliste der morphologischen Eigenschaften anstelle der Wörter. Auch hier wird, besonders bei großen Dokumentsammlungen, zur Durchführung von Abfragen viel Speicherplatz benötigt.
- In dem Dokument von D. Lucarella "Heuristics to locate the best document set in information retrieval systems", von der 8. Internationalen Jahrestagung zu Computern und Kommunikation vom 22. März 1989, USA, Seiten 567-571, ist ein System zum Vergleich eines Suchbegriffs mit einer Reihe von Dokumenten zwecks Abfrage der relevanten Dokumente beschrieben. Dabei findet in allen Dokumenten eine Match- Suche nach dem ersten Suchwort statt, anschließend erfolgt die Betrachtung des nächsten Suchwortes in allen Dokumenten. Dies wird für alle Suchwörter in der Abfrage wiederholt. Dadurch ist es möglich, die relevanten Dokumente aufzufinden, jedoch ist für das Verfahren eine große Menge zugreifbaren Speichers, insbesondere bei großen zusammenhängenden Dokumenten, erforderlich.
- Angesichts dessen hat die vorliegende Erfindung das Ziel, ein verbessertes Verfahren zur Durchführung einer Suche nach Ähnlichkeiten in einer großen Dokumentsammlung mit weniger Speicher als bei herkömmlichen Verfahren zu schaffen.
- Ein anderes Ziel der Erfindung besteht in der Schaffung eines verbesserten Verfahrens der beschriebenen Art, das effizient angewandt werden kann.
- Durch die Erfindung wird ein Verfahren zur Durchführung einer Suchvorgangs in einer Vielzahl von Dokumenten gemäß der beigefügten Patentansprüche 1 und 2 bereitgestellt.
- Im weiteren Sinne der Erfindung wird ein Verfahren vorgestellt, mit dem eine Vielzahl von Dokumenten nach Ähnlichkeiten mit einem Suchbegriff oder -wort durchsucht wird. Zu dem Verfahren gehört die Abfrage eines ersten Dokuments und das Ermitteln der Auftrittshäufigkeit des Suchwortes im ersten Dokument. Anschließend wird ein nächstes Dokument abgefragt und festgestellt, wie oft das Suchwort darin vorkommt. Diese Schritte werden solange wiederholt, bis jedes aus der Vielzahl der Dokumente abgefragt und die Häufigkeit des Suchwortes in jedem von ihnen ermittelt worden ist.
- Das Suchwort kann mehrere Suchbegriffe umfassen, die insgesamt nacheinander in jedem Dokument und nicht einzeln in der gesamten Dokumentsammlung gesucht werden. Ausgehend von der Häufigkeit des Auftretens der Suchwörter in jedem Dokument werden danach die Dokumente bewertet und in eine entsprechende Rangliste eingeordnet.
- Bei einer Ausführungsform wird eine Liste der in dem aufgefundenen Dokument enthaltenen Wörter erzeugt, und die Suchwörter werden mit der erzeugten Wortliste verglichen.
- Bei Einer anderen Ausführungsform werden alle Suchwörter mit einem ersten Teil der Dokumente und anschließend mit einem zweiten Teil verglichen. Danach werden sie nach der festgestellten Häufigkeit der Suchwörter in jedem Dokument geordnet und in einer Rangliste festgehalten.
- Bei einer anderen Ausführungsform wird ein invertierter Index der Dokumente erstellt. Anstelle des Abfragens eines Dokuments wird in diesem Fall das Segment einer Liste mit den Paaren von Dokument-IDs und Häufigkeitsangaben des Suchbegriffs im Hinblick auf den Suchbegriff und das Dokument untersucht.
- Die Erfindung ist in den beigefügten Zeichnungen abgebildet, wobei:
- Fig. 1 ein Blockdiagramm ist, welches die einzelnen Schritte einer Suche nach Ähnlichkeiten in einer Dokumentmenge gemäß dem bisherigen Stand der Technik darstellt, und
- Fig. 2 im Blockdiagramm die Schritte einer Suche nach Ähnlichkeiten in einer Dokumentmenge gemäß einer bevorzugten Ausführungsform der Erfindung zeigt.
- Die vorliegende Erfindung betrifft ein Suchverfahren in einer Vielzahl von Dokumenten, das in jedem herkömmlichen Informationsverarbeitungssystem ausgeführt werden kann, wie es z. B. in Fig. 1 der europäischen Patentanmeldung Nr. 93396281.2 schematisch dargestellt und anhand dieser Figur beschrieben worden ist. Mit der vorliegenden Anmeldung wurde eine Kopie davon eingereicht.
- Die vorliegende Erfindung betrifft Techniken zum Suchen nach Ähnlichkeiten, bei denen die Ähnlichkeitssuche mittels Abfrage, bestehend aus einer Sequenz aus einem oder mehreren Wörtern, Silben, Wendungen, Bildern oder dergleichen, erfolgt. Zwar wird in dieser Patentschrift der Begriff "Suchwort" verwendet, doch natürlich umfasst das "Wort" ein Wort, einen Wortteil oder Teile eines Dokuments oder Bildes, welches Buchstaben, Zahlen oder andere Sprachsymbole, einschließlich nichtalphabetischer Sprachzeichen, wie z. B. Ideogramme, fremdsprachliche Syllabarien sowie Wort- und Zeichensubstitute, z. B. "Wildcard" oder Stellvertretersymbole oder dergleichen. Im Ergebnis der Ähnlichkeitssuche entsteht eine Rangliste von Dokumenten aus der indexierten Sammlung mit den höchsten Ähnlichkeitsquotienten bei der Abfrage. Der Ähnlichkeitsquotient eines Dokuments in Bezug auf eine Abfrage ist eine Zahl, die aus einer anwenderdefinierten Formel resultiert, welche die Anzahl der Dokumente, in denen das Suchwort erscheint, die Häufigkeit des Vorkommens in jedem Dokument und die Anzahl der Dokumente insgesamt einschließen kann. Manchmal ist es günstig, unterschiedliche Wichtungen der relativen Bedeutung von Suchwörtern vorzunehmen oder eine Reihefolge des Erscheinens von Suchwörtern oder ein anderes ähnliches Suchkriterium zu verwenden.
- Für eine erfindungsgemäße Ähnlichkeitssuche wird vorzugsweise ein invertierter Index zum Einsatz gebracht. Dieser enthält eine Liste aus paarweise angeordneten Dokument-Identifiern und der Worthäufigkeit für jedes eindeutige Wort in der Dokumentmenge bzw. -sammlung. Die Worthäufigkeit gibt an, wie viel Mal das Wort in dem durch den dazugehörigen Dokument-ID identifizierten Dokument vorkommt. Vorzugsweise werden diese Paare, bestehend aus Dokument-ID und Worthäufigkeit, in aufsteigender oder absteigender Reihenfolge der Dokument-IDs angeordnet. Das erfindungsgemäße Verfahren steht im Gegensatz zu früheren Verfahren, bei denen ein Ähnlichkeitsquotient gewöhnlich berechnet wurde, indem für ein einziges Suchwort die gesamte Liste der Dokument-IDs/Worthäufigkeitspaare durchgegangen und nachdem jedes Suchwort bearbeitet worden ist, die Teilergebnisse für jedes Dokument in der Liste berechnet werden. Demgegenüber werden bei dem Verfahren gemäß einer bevorzugten Ausführungsform der Erfindung (siehe Fig. 2) nicht alle Dokument-ID/Worthäufigkeitspaare für ein Suchwort abgefragt, ehe auf jene eines anderen Suchwortes zugegriffen wird, sondern bei dem Vergleich wird von einem Strom von Dokument/Worthäufigkeitspaaren zu einem anderen umgeschaltet. Folglich werden alle Dokument-ID/Worthäufigkeitspaare für ein Dokument aufgesucht, ehe zu anderen übergegangen wird.
- Dementsprechend werden die Dokument-ID/Worthäufigkeitspaare für das erste Dokument in einen Rechnerspeicher eingestellt (20). Daraus wird erkennbar, dass sich das erfindungsgemäße Verfahren besonders eignet, wenn nur begrenzte Speicherkapazität zur Verfügung steht, es ist analog zu einem n-fachen Mischalgorithmus, wenngleich in diesem Fall kein Mischen erfolgt, sondern eine Reihe von Berechnungen durchgeführt wird.
- Als Nächstes werden alle Suchwörter im Hinblick auf das erste Dokument verglichen, gesucht oder verarbeitet (21), und es wird ein vollständiges Ergebnis für dieses erste Dokument errechnet (23). Bei einer erfindungsgemäßen Ähnlichkeitssuche ist es wünschenswert, eine Liste aller Dokumente in der Sammlung oder zumindest eine Liste all jener Dokumente zu führen, die in den bearbeiteten Listen durchgesehen wurden. Dies ist günstig, um die Teilergebnisse der Dokumente zurückverfolgen zu können. Auf diese Liste kann an Punkten zugegriffen werden, die den Dokument-ID- Teilen der gerade in Bearbeitung befindlichen Dokument-ID/Worthäufigkeitspaare entsprechen. Wenn die Liste für jedes Suchwort bearbeitet ist, kann je nach der Reihenfolge der Dokument-IDs an aufsteigenden (oder absteigenden) Punkten auf die Dokumentliste zugegriffen werden.
- Weiter geht es, indem die Dokument-ID/Worthäufigkeitspaare für das nächste Dokument in den Rechnerspeicher eingestellt worden sind (25), erneut alle Suchwörter im Hinblick auf das nächste Dokument verarbeitet werden (27) und ein neues Ergebnis für das nächste Dokument berechnet wird (28). Dieser Prozess wird solange fortgesetzt, bis alle Dokumente verarbeitet worden sind (30). Danach werden die vollständig berechneten bzw. Gesamtergebnisse in einer Rangliste sortiert, welche angezeigt wird (31). Will man hingegen sofort nach Ende dieses Prozesses eine sortierte Liste erstellen, dann kann man gegebenenfalls nach jeder Teilberechnung das veränderte Gesamtergebnis für die Dokumente in der Rangliste entsprechend neu anordnen.
- Wenn bei früheren Verfahren nicht genügend Speicherplatz im System vorhanden war, um die gesamte Liste zusammen mit dem Teil der Liste von gerade bearbeiteten Dokument-ID/Worthäufigkeitspaaren für das betreffende Suchwort im Speicher zu behalten, dann wurde zum Vergleich mit jedem Suchwort der Großteil der Dokumentliste von einem externen Speicher eingelagert. Bei dem erfindungsgemäßen Verfahren hingegen wird von einem Strom von Paaren für das Suchwort zum nächsten geschaltet, um sämtliche Berechnungen, z. B. für den niedrigsten Dokument-ID der verschiedenen Listen, auszuführen, ehe es zum zweitniedrigsten Dokument-ID weitergeht, und so weiter. Erfindungsgemäß braucht man nur genug Speicher für den Eintrag jeweils eines Dokuments in der Dokumentliste und für jedes Suchwort einen Eintrag in der Liste der Dokument-ID/Worthäufigkeitspaare. Da bei umfangreichen Dokumentsammlungen die Dokumentenliste sehr lang ist, wird auf diese Weise eine Berechnung mit viel geringerem Speicherbedarf als bei früheren Verfahren möglich. Natürlich können für Vergleiche zwischen den Identifikationen des aktuellen Elements in den einzelnen Suchwortlisten mehr Berechnungen als bei früheren Verfahren notwendig sein. Verglichen mit den Platten-Input/Output-Kosten ist diese Berechnung jedoch preisgünstig.
- Bei einer alternativen Ausführungsform des erfindungsgemäßen Verfahrens werden mehrere Dokumente gleichzeitig verarbeitet. Die Anzahl von Dokumenten könnte ausgehend vom verfügbaren Speicherplatz zum Zeitpunkt des Programmlaufs oder ausgehend vom später voraussichtlich verwendeten Gerät zum Zeitpunkt des Kompilierens festgelegt werden. Dabei würde jede Liste von Dokument-ID/Worthäufigkeitspaaren solange bearbeitet werden, bis die Dokument-Identifikationen über den gegenwärtig bearbeiteten Bereich von Dokument-Identifikationen hinausgehen. Danach würde die Berechnung bei der nächsten Suchwortliste fortgesetzt. Bei dieser Variante verringert sich die Zahl zusätzlicher Berechnungen, obwohl sie diese nicht vollständig eliminiert, und es wird mehr Speicher benötigt, wenn auch nicht so viel wie bei früheren Verfahren.
Claims (8)
1. Verfahren zum Durchsuchen einer Vielzahl von Dokumenten nach Ähnlichkeiten
mit einer Vielzahl von Suchwörtern, wobei das Verfahren dadurch
gekennzeichnet ist, dass es folgende Schritte umfasst:
(a) Abfragen eines ersten Dokuments,
(b) Feststellen, wie viele Male jedes aus der Vielzahl von Suchwörtern im
ersten Dokument vorkommt;
(c) Abfragen eines nächsten Dokuments,
(d) Feststellen, wie viele Male jedes aus der Vielzahl von Suchwörtern im
nächsten Dokument vorkommt,
(e) Wiederholen der Schritte (c) und (d) solange, bis jedes aus der Vielzahl
von Dokumenten durchsucht und die Häufigkeit jedes aus der Vielzahl der
Suchwörter in jedem aus der Vielzahl von Dokumenten ermittelt worden ist.
2. /erfahren zum Durchsuchen einer Vielzahl von Dokumenten nach Ähnlichkeiten
mit einer Vielzahl von Suchwörtern, wobei das Verfahren dadurch
gekennzeichnet ist, dass es folgende Schritte umfasst:
(a) Abfragen eines ersten Teils der Vielzahl von Dokumenten,
(b) Feststellen, wie viele Male jedes aus der Vielzahl von Suchwörtern in
jedem Dokument im ersten Teil aus der Vielzahl von Dokumenten vorkommt,
(c) Wiederauffinden eines zweiten Teils aus der Vielzahl von Dokumenten,
(d) Feststellen, wie viele Male jedes aus der Vielzahl von Suchwörtern in
jedem Dokument im zweiten Teil aus der Vielzahl von Dokumenten
vorkommt.
3. Verfahren nach Anspruch 1 oder Anspruch 2, welches weiterhin das Aufstellen
einer Rangordnung für die Dokumente entsprechend der ermittelten Häufigkeit
der Suchwörter in jedem Dokument umfasst.
4. Verfahren nach Anspruch 3, welches weiterhin das Erstellen einer
Dokumentenliste entsprechend ihrer Rangordnung umfasst.
5. Verfahren nach einem der vorangehenden Ansprüche, wobei die genannten
Schritte des Abfragens eines Dokuments das Einbringen eines Bildes aus dem
durchsuchten Dokument in einen elektronischen Speicher einschließen.
6. Verfahren nach einem der vorangehenden Ansprüche, wobei der Schritt des
Ermittelns der Häufigkeit jedes der Suchwörter das Erstellen einer Liste von
Wörtern, die in dem durchsuchten Dokument enthalten sind, und das
Vergleichen der Suchwörter mit der erstellten Wortliste umfasst.
7. Verfahren nach Anspruch 6, wenn eine Abhängigkeit von Anspruch 1 vorliegt,
wobei das Verfahren zum Erstellen einer Wortliste auch die Erzeugung eines
Indexes mit Einträgen für sämtliche Wörter sämtlicher Dokumente umfasst, von
denen jedes Dokument durch einen Dokument-Identifier gekennzeichnet ist,
jeder Eintrag einen Dokument-Identifier und eine Angabe darüber enthält, wie
häufig ein Wort in dem identifizierten Dokument erscheint, und wobei das
Verfahren zum Vergleichen der Suchwörter mit der erstellten Wortliste für jeden
Dokument-Identifier wiederum den Vergleich jedes aus der Vielzahl von
Suchwörtern mit jedem Wort einschließt, das mit jedem Dokument-Identifier
gekoppelt ist.
8. Verfahren nach Anspruch 6, wenn eine Abhängigkeit von Anspruch 2 vorliegt,
wobei das Verfahren zum Aufstellen einer Wortliste das Erstellen eines Indexes
für sämtliche Wörter eines Teils aller Dokumente umfasst, wobei jedes der
Dokumente durch einen Dokument-Identifier gekennzeichnet ist und jeder Eintrag
einen Dokument-Identifier und eine Angabe enthält, wie häufig ein Wort in dem
identifizierten Dokument erscheint, und wobei das Verfahren zum Vergleichen
der Suchwörter mit der erstellten Wortliste für jeden Dokument-Identifier
wiederum den Vergleich jedes aus der Vielzahl von Suchwörtern mit jedem Wort
einschließt, das mit jedem Dokument-Identifier gekoppelt ist.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US95316692A | 1992-09-29 | 1992-09-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69330701D1 DE69330701D1 (de) | 2001-10-11 |
DE69330701T2 true DE69330701T2 (de) | 2002-07-11 |
Family
ID=25493666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69330701T Expired - Fee Related DE69330701T2 (de) | 1992-09-29 | 1993-09-22 | Verfahren zur Durchführung der Suche nach Ähnlichkeiten mit einer Abfrage in einer Dokumentenmenge |
Country Status (4)
Country | Link |
---|---|
US (1) | US5544049A (de) |
EP (1) | EP0590858B1 (de) |
JP (1) | JP3270783B2 (de) |
DE (1) | DE69330701T2 (de) |
Families Citing this family (107)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5642502A (en) * | 1994-12-06 | 1997-06-24 | University Of Central Florida | Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text |
US5721902A (en) * | 1995-09-15 | 1998-02-24 | Infonautics Corporation | Restricted expansion of query terms using part of speech tagging |
US5640553A (en) * | 1995-09-15 | 1997-06-17 | Infonautics Corporation | Relevance normalization for documents retrieved from an information retrieval system in response to a query |
US5794237A (en) * | 1995-11-13 | 1998-08-11 | International Business Machines Corporation | System and method for improving problem source identification in computer systems employing relevance feedback and statistical source ranking |
US5911140A (en) * | 1995-12-14 | 1999-06-08 | Xerox Corporation | Method of ordering document clusters given some knowledge of user interests |
JPH09198398A (ja) * | 1996-01-16 | 1997-07-31 | Fujitsu Ltd | パターン検索装置 |
US5819260A (en) * | 1996-01-22 | 1998-10-06 | Lexis-Nexis | Phrase recognition method and apparatus |
US5867799A (en) * | 1996-04-04 | 1999-02-02 | Lang; Andrew K. | Information system and method for filtering a massive flow of information entities to meet user information classification needs |
US6314420B1 (en) | 1996-04-04 | 2001-11-06 | Lycos, Inc. | Collaborative/adaptive search engine |
JP2833580B2 (ja) * | 1996-04-19 | 1998-12-09 | 日本電気株式会社 | 全文インデックス作成装置および全文データベース検索装置 |
US7349892B1 (en) | 1996-05-10 | 2008-03-25 | Aol Llc | System and method for automatically organizing and classifying businesses on the World-Wide Web |
US5909677A (en) * | 1996-06-18 | 1999-06-01 | Digital Equipment Corporation | Method for determining the resemblance of documents |
US6457004B1 (en) * | 1997-07-03 | 2002-09-24 | Hitachi, Ltd. | Document retrieval assisting method, system and service using closely displayed areas for titles and topics |
US5813002A (en) * | 1996-07-31 | 1998-09-22 | International Business Machines Corporation | Method and system for linearly detecting data deviations in a large database |
US6119114A (en) * | 1996-09-17 | 2000-09-12 | Smadja; Frank | Method and apparatus for dynamic relevance ranking |
US6173298B1 (en) | 1996-09-17 | 2001-01-09 | Asap, Ltd. | Method and apparatus for implementing a dynamic collocation dictionary |
US5870740A (en) * | 1996-09-30 | 1999-02-09 | Apple Computer, Inc. | System and method for improving the ranking of information retrieval results for short queries |
US5898836A (en) | 1997-01-14 | 1999-04-27 | Netmind Services, Inc. | Change-detection tool indicating degree and location of change of internet documents by comparison of cyclic-redundancy-check(CRC) signatures |
US5832478A (en) * | 1997-03-13 | 1998-11-03 | The United States Of America As Represented By The National Security Agency | Method of searching an on-line dictionary using syllables and syllable count |
US6185559B1 (en) | 1997-05-09 | 2001-02-06 | Hitachi America, Ltd. | Method and apparatus for dynamically counting large itemsets |
US6460034B1 (en) * | 1997-05-21 | 2002-10-01 | Oracle Corporation | Document knowledge base research and retrieval system |
AUPO710597A0 (en) * | 1997-06-02 | 1997-06-26 | Knowledge Horizons Pty. Ltd. | Methods and systems for knowledge management |
US6012053A (en) * | 1997-06-23 | 2000-01-04 | Lycos, Inc. | Computer system with user-controlled relevance ranking of search results |
US5933822A (en) * | 1997-07-22 | 1999-08-03 | Microsoft Corporation | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision |
DE69730057T2 (de) * | 1997-09-29 | 2005-08-04 | Webplus Ltd., Road Town | Ein multi-element vertrauensentsprechungssystem und verfahren hierfür |
GB9727322D0 (en) * | 1997-12-29 | 1998-02-25 | Xerox Corp | Multilingual information retrieval |
US6067539A (en) * | 1998-03-02 | 2000-05-23 | Vigil, Inc. | Intelligent information retrieval system |
IL126373A (en) | 1998-09-27 | 2003-06-24 | Haim Zvi Melman | Apparatus and method for search and retrieval of documents |
AU1907300A (en) * | 1998-11-30 | 2000-06-19 | Justsystem Corporation | Term-length term-frequency method for measuring document similarity and classifying text |
US9451310B2 (en) | 1999-09-21 | 2016-09-20 | Quantum Stream Inc. | Content distribution system and method |
US7831512B2 (en) | 1999-09-21 | 2010-11-09 | Quantumstream Systems, Inc. | Content distribution system and method |
US7062510B1 (en) * | 1999-12-02 | 2006-06-13 | Prime Research Alliance E., Inc. | Consumer profiling and advertisement selection system |
US20020049705A1 (en) * | 2000-04-19 | 2002-04-25 | E-Base Ltd. | Method for creating content oriented databases and content files |
US6654749B1 (en) | 2000-05-12 | 2003-11-25 | Choice Media, Inc. | Method and system for searching indexed information databases with automatic user registration via a communication network |
US7062483B2 (en) * | 2000-05-18 | 2006-06-13 | Endeca Technologies, Inc. | Hierarchical data-driven search and navigation system and method for information retrieval |
US7617184B2 (en) | 2000-05-18 | 2009-11-10 | Endeca Technologies, Inc. | Scalable hierarchical data-driven navigation system and method for information retrieval |
US7325201B2 (en) * | 2000-05-18 | 2008-01-29 | Endeca Technologies, Inc. | System and method for manipulating content in a hierarchical data-driven search and navigation system |
US7035864B1 (en) | 2000-05-18 | 2006-04-25 | Endeca Technologies, Inc. | Hierarchical data-driven navigation system and method for information retrieval |
GB2364583B (en) * | 2000-07-08 | 2004-09-22 | Paul David Mills | Database interrogation |
US7249121B1 (en) * | 2000-10-04 | 2007-07-24 | Google Inc. | Identification of semantic units from within a search query |
US6978419B1 (en) * | 2000-11-15 | 2005-12-20 | Justsystem Corporation | Method and apparatus for efficient identification of duplicate and near-duplicate documents and text spans using high-discriminability text fragments |
US8156051B1 (en) * | 2001-01-09 | 2012-04-10 | Northwest Software, Inc. | Employment recruiting system |
JP2004524622A (ja) * | 2001-03-07 | 2004-08-12 | ジョン ソン キム | 商品満足度を適用した電子商取引方法及びシステム |
US7089184B2 (en) * | 2001-03-22 | 2006-08-08 | Nurv Center Technologies, Inc. | Speech recognition for recognizing speaker-independent, continuous speech |
KR100685023B1 (ko) * | 2001-11-13 | 2007-02-20 | 주식회사 포스코 | 유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템 |
US6963869B2 (en) * | 2002-01-07 | 2005-11-08 | Hewlett-Packard Development Company, L.P. | System and method for search, index, parsing document database including subject document having nested fields associated start and end meta words where each meta word identify location and nesting level |
US20030140037A1 (en) * | 2002-01-23 | 2003-07-24 | Kenneth Deh-Lee | Dynamic knowledge expert retrieval system |
US7376709B1 (en) * | 2002-05-09 | 2008-05-20 | Proquest | Method for creating durable web-enabled uniform resource locator links |
US6892198B2 (en) * | 2002-06-14 | 2005-05-10 | Entopia, Inc. | System and method for personalized information retrieval based on user expertise |
US20040024776A1 (en) * | 2002-07-30 | 2004-02-05 | Qld Learning, Llc | Teaching and learning information retrieval and analysis system and method |
US20050004932A1 (en) * | 2003-05-15 | 2005-01-06 | Peter Nordin | Device, a computer network search engine, a personal computer for generating an indication of a relation between a text and a subject reference |
US7734627B1 (en) | 2003-06-17 | 2010-06-08 | Google Inc. | Document similarity detection |
JP2005043977A (ja) * | 2003-07-23 | 2005-02-17 | Hitachi Ltd | 文書間の類似度算出方法および装置 |
CA2542438A1 (en) * | 2003-10-21 | 2005-04-28 | Intellectual Property Bank Corp. | Document characteristic analysis device for document to be surveyed |
US7428528B1 (en) | 2004-03-31 | 2008-09-23 | Endeca Technologies, Inc. | Integrated application for manipulating content in a hierarchical data-driven search and navigation system |
US8494855B1 (en) * | 2004-10-06 | 2013-07-23 | West Interactive Corporation Ii | Method, system, and computer readable medium for comparing phonetic similarity of return words to resolve ambiguities during voice recognition |
US7533094B2 (en) * | 2004-11-23 | 2009-05-12 | Microsoft Corporation | Method and system for determining similarity of items based on similarity objects and their features |
EP1846815A2 (de) * | 2005-01-31 | 2007-10-24 | Textdigger, Inc. | Verfahren und system zur semantischen suche und zum abruf elektronischer dokumente |
US9400838B2 (en) | 2005-04-11 | 2016-07-26 | Textdigger, Inc. | System and method for searching for a query |
US20070073651A1 (en) * | 2005-09-23 | 2007-03-29 | Tomasz Imielinski | System and method for responding to a user query |
US20070078842A1 (en) * | 2005-09-30 | 2007-04-05 | Zola Scot G | System and method for responding to a user reference query |
US8019752B2 (en) | 2005-11-10 | 2011-09-13 | Endeca Technologies, Inc. | System and method for information retrieval from object collections with complex interrelationships |
US8694530B2 (en) | 2006-01-03 | 2014-04-08 | Textdigger, Inc. | Search system with query refinement and search method |
US20070185860A1 (en) * | 2006-01-24 | 2007-08-09 | Michael Lissack | System for searching |
US7788358B2 (en) | 2006-03-06 | 2010-08-31 | Aggregate Knowledge | Using cross-site relationships to generate recommendations |
US7853630B2 (en) | 2006-03-06 | 2010-12-14 | Aggregate Knowledge | System and method for the dynamic generation of correlation scores between arbitrary objects |
US7904524B2 (en) * | 2006-03-06 | 2011-03-08 | Aggregate Knowledge | Client recommendation mechanism |
US7634471B2 (en) * | 2006-03-30 | 2009-12-15 | Microsoft Corporation | Adaptive grouping in a file network |
US7624130B2 (en) * | 2006-03-30 | 2009-11-24 | Microsoft Corporation | System and method for exploring a semantic file network |
US8862573B2 (en) | 2006-04-04 | 2014-10-14 | Textdigger, Inc. | Search system and method with text function tagging |
US8065135B2 (en) * | 2006-04-06 | 2011-11-22 | Research In Motion Limited | Handheld electronic device and method for employing contextual data for disambiguation of text input |
US7477165B2 (en) | 2006-04-06 | 2009-01-13 | Research In Motion Limited | Handheld electronic device and method for learning contextual data during disambiguation of text input |
US20080016157A1 (en) * | 2006-06-29 | 2008-01-17 | Centraltouch Technology Inc. | Method and system for controlling and monitoring an apparatus from a remote computer using session initiation protocol (sip) |
US20080104257A1 (en) * | 2006-10-26 | 2008-05-01 | Yahoo! Inc. | System and method using a refresh policy for incremental updating of web pages |
US20080104502A1 (en) * | 2006-10-26 | 2008-05-01 | Yahoo! Inc. | System and method for providing a change profile of a web page |
US8745183B2 (en) * | 2006-10-26 | 2014-06-03 | Yahoo! Inc. | System and method for adaptively refreshing a web page |
US20080114750A1 (en) * | 2006-11-14 | 2008-05-15 | Microsoft Corporation | Retrieval and ranking of items utilizing similarity |
US8676802B2 (en) | 2006-11-30 | 2014-03-18 | Oracle Otc Subsidiary Llc | Method and system for information retrieval with clustering |
JP5241828B2 (ja) * | 2007-06-14 | 2013-07-17 | グーグル・インコーポレーテッド | 辞書の単語及び熟語の判定 |
CN101779200B (zh) * | 2007-06-14 | 2013-03-20 | 谷歌股份有限公司 | 词典词和短语确定方法和设备 |
US7693908B2 (en) * | 2007-06-28 | 2010-04-06 | Microsoft Corporation | Determination of time dependency of search queries |
US7693823B2 (en) * | 2007-06-28 | 2010-04-06 | Microsoft Corporation | Forecasting time-dependent search queries |
US8290921B2 (en) * | 2007-06-28 | 2012-10-16 | Microsoft Corporation | Identification of similar queries based on overall and partial similarity of time series |
US8090709B2 (en) * | 2007-06-28 | 2012-01-03 | Microsoft Corporation | Representing queries and determining similarity based on an ARIMA model |
US7685100B2 (en) | 2007-06-28 | 2010-03-23 | Microsoft Corporation | Forecasting search queries based on time dependencies |
US7685099B2 (en) * | 2007-06-28 | 2010-03-23 | Microsoft Corporation | Forecasting time-independent search queries |
US7689622B2 (en) * | 2007-06-28 | 2010-03-30 | Microsoft Corporation | Identification of events of search queries |
US20090037431A1 (en) * | 2007-07-30 | 2009-02-05 | Paul Martino | System and method for maintaining metadata correctness |
US8032714B2 (en) | 2007-09-28 | 2011-10-04 | Aggregate Knowledge Inc. | Methods and systems for caching data using behavioral event correlations |
US7856434B2 (en) * | 2007-11-12 | 2010-12-21 | Endeca Technologies, Inc. | System and method for filtering rules for manipulating search results in a hierarchical search and navigation system |
US20110099164A1 (en) * | 2009-10-23 | 2011-04-28 | Haim Zvi Melman | Apparatus and method for search and retrieval of documents and advertising targeting |
US8434134B2 (en) | 2010-05-26 | 2013-04-30 | Google Inc. | Providing an electronic document collection |
US9442930B2 (en) | 2011-09-07 | 2016-09-13 | Venio Inc. | System, method and computer program product for automatic topic identification using a hypertext corpus |
US9442928B2 (en) | 2011-09-07 | 2016-09-13 | Venio Inc. | System, method and computer program product for automatic topic identification using a hypertext corpus |
US8856640B1 (en) | 2012-01-20 | 2014-10-07 | Google Inc. | Method and apparatus for applying revision specific electronic signatures to an electronically stored document |
US9529916B1 (en) | 2012-10-30 | 2016-12-27 | Google Inc. | Managing documents based on access context |
US11308037B2 (en) | 2012-10-30 | 2022-04-19 | Google Llc | Automatic collaboration |
US9384285B1 (en) | 2012-12-18 | 2016-07-05 | Google Inc. | Methods for identifying related documents |
US20140278357A1 (en) * | 2013-03-14 | 2014-09-18 | Wordnik, Inc. | Word generation and scoring using sub-word segments and characteristic of interest |
US9514113B1 (en) * | 2013-07-29 | 2016-12-06 | Google Inc. | Methods for automatic footnote generation |
US9842113B1 (en) | 2013-08-27 | 2017-12-12 | Google Inc. | Context-based file selection |
US9529791B1 (en) | 2013-12-12 | 2016-12-27 | Google Inc. | Template and content aware document and template editing |
US9735868B2 (en) * | 2014-07-23 | 2017-08-15 | Qualcomm Incorporated | Derivation of an identifier encoded in a visible light communication signal |
US9679065B2 (en) * | 2014-07-31 | 2017-06-13 | Wal-Mart Stores, Inc. | L-gram and r-gram frequency-weighted query responses |
US9703763B1 (en) | 2014-08-14 | 2017-07-11 | Google Inc. | Automatic document citations by utilizing copied content for candidate sources |
CN110929125B (zh) * | 2019-11-15 | 2023-07-11 | 腾讯科技(深圳)有限公司 | 搜索召回方法、装置、设备及其存储介质 |
US11615245B2 (en) * | 2021-02-02 | 2023-03-28 | International Business Machines Corporation | Article topic alignment |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4358824A (en) * | 1979-12-28 | 1982-11-09 | International Business Machines Corporation | Office correspondence storage and retrieval system |
US4554631A (en) * | 1983-07-13 | 1985-11-19 | At&T Bell Laboratories | Keyword search automatic limiting method |
US4823306A (en) * | 1987-08-14 | 1989-04-18 | International Business Machines Corporation | Text search system |
JPH0259861A (ja) * | 1988-08-25 | 1990-02-28 | Nec Corp | 索引付文書作成・保管・検索装置 |
JPH0675265B2 (ja) * | 1989-09-20 | 1994-09-21 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | 情報検索方法及びシステム |
US5404514A (en) * | 1989-12-26 | 1995-04-04 | Kageneck; Karl-Erbo G. | Method of indexing and retrieval of electronically-stored documents |
EP0501416B1 (de) * | 1991-02-28 | 2000-05-10 | Hitachi, Ltd. | Verfahren und Anordnung zum Registrieren von Textdokumenten und zur Dokumentwiederauffindung |
-
1993
- 1993-06-25 JP JP15583693A patent/JP3270783B2/ja not_active Expired - Fee Related
- 1993-09-22 DE DE69330701T patent/DE69330701T2/de not_active Expired - Fee Related
- 1993-09-22 EP EP93307488A patent/EP0590858B1/de not_active Expired - Lifetime
-
1995
- 1995-05-22 US US08/447,317 patent/US5544049A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US5544049A (en) | 1996-08-06 |
EP0590858B1 (de) | 2001-09-05 |
JP3270783B2 (ja) | 2002-04-02 |
EP0590858A1 (de) | 1994-04-06 |
DE69330701D1 (de) | 2001-10-11 |
JPH06131398A (ja) | 1994-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69330701T2 (de) | Verfahren zur Durchführung der Suche nach Ähnlichkeiten mit einer Abfrage in einer Dokumentenmenge | |
DE69330993T2 (de) | Verfahren zur Komprimierung von Indizen für komplette Texte | |
DE69718798T2 (de) | Echtzeitsuchmotor mit strukturierten zusammenfassungen | |
DE69229521T2 (de) | Datenbankauffindungssystem | |
DE69618089T2 (de) | Automatische Methode zur Erzeugung von Merkmalwahrscheinlichkeiten für automatische Extraktionszusammenfassung | |
DE69804495T2 (de) | Informationsmanagement und wiedergewinnung von schlüsselbegriffen | |
DE69131941T2 (de) | System und verfahren für informationsauffindung | |
DE69423137T2 (de) | Verfahren zur Verarbeitung mehrerer elektronisch gespeicherte Dokumente | |
DE69032712T2 (de) | Hierarchischer vorsuch-typ dokument suchverfahren, vorrichtung dazu, sowie eine magnetische plattenanordnung für diese vorrichtung | |
DE69926305T2 (de) | Rechnerlesbarer Speicher zum Speichern einer Datenbank und Indizes | |
DE69900854T2 (de) | Ein suchsystem und verfahren zum zurückholen von daten und die anwendung in einem suchgerät | |
DE19952769B4 (de) | Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache | |
DE69930690T2 (de) | Verfahren und Gerät um einen Index herzustellen, Benutzung von einem Index und ein Speichermedium | |
DE69227948T2 (de) | Verfahren und Gerät um ein dynamisches Lexikon in ein Textinformationsauffindungssystem zu integrieren | |
DE69526168T2 (de) | Verfahren und Gerät zur Klassifikation von Dokumentinformationen | |
DE69617515T2 (de) | Automatisches Verfahren zur Erzeugung von thematischen Zusammenfassungen | |
DE69130793T2 (de) | Datenbank Suchprozessor | |
DE60304331T2 (de) | Abrufen übereinstimmender dokumente durch abfragen in einer nationalen sprache | |
DE3853894T2 (de) | Auf Paradigmen basierende morphologische Textanalyse für natürliche Sprachen. | |
DE69623082T2 (de) | Automatische Methode zur Extraktionszusammenfassung durch Gebrauch von Merkmal-Wahrscheinlichkeiten | |
DE69032576T2 (de) | Dynamische Optimierung eines einzelnen relationalen Zugriffs | |
CA2513851C (en) | Phrase-based generation of document descriptions | |
DE3788750T2 (de) | Schätzeinrichtung des Indexschlüsselbereiches. | |
DE60118973T2 (de) | Verfahren zum abfragen einer struktur komprimierter daten | |
DE69933187T2 (de) | Dokumentensuchverfahren und Dienst |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8320 | Willingness to grant licences declared (paragraph 23) | ||
8339 | Ceased/non-payment of the annual fee |