-
Die
Erfindung betrifft ein Computersystem, ein Verfahren und ein digitales
Speichermedium zur mehrsprachigen assoziativen Suche.
-
Die
assoziative Suche ist ein an sich aus dem Stand der Technik bekanntes
Verfahren. Im Gegensatz zu üblichen
Datenbankabfrageverfahren wird bei der assoziativen Suche keine
vorgegebene Abfragesprache zur Formulierung einer Suchanfrage verwendet,
sondern eine Textpassage. In der Textpassage kann der Anwender eine
Suchanfrage inhaltlich mit eigenen Worten oder Sätzen beschreiben.
-
Diese
Art der Suche beruht entweder auf vorher festgelegten Algorithmen
oder auf einem zuvor trainierten neuronalen Netz. Für das Training
des neuronalen Netzes werden vorklassifizierte Beispieldokumente
verwendet. Dabei dient der Text eines Beispieldokuments als Eingabeparameter
für das neuronale
Netz und die von dem neuronalen Netz ermittelte Klassifikation wird
mit der vorgegebenen Klassifikation abgeglichen, um die Neuronen
zu trainieren.
-
Eine
entsprechende Software für
die assoziative Suche ist kommerziell erhältlich von SER Systems AG,
SER brainware (www.ser.de). Dieses Programm ermöglicht die assoziative Suche
auf der Basis von beispielhaften Textpassagen. Die assoziative Suche
bedient sich dabei eines zuvor in einem Klassifikationsmodus trainierten
neuronalen Netzes. Der dabei verwendete Lernprozess wird auch als "Learning by Example" bezeichnet.
-
Ein
Nachteil vorbekannter assoziativer Suchverfahren ist, dass die Suchanfrage
nur in derselben Sprache formuliert werden kann, in der das neuronale
Netz trainiert worden ist.
-
Der
Erfindung liegt demgegenüber
die Aufgabe zugrunde, ein verbessertes Verfahren für die assoziative
Suche zu schaffen, welches eine mehrsprachige assoziative Suche
ermöglicht.
Ferner liegt der Erfindung die Aufgabe zugrunde, ein entsprechendes
Computersystem und ein digitales Speichermedium zu schaffen.
-
Die
der Erfindung zugrunde liegenden Aufgaben werden jeweils mit den
Merkmalen der unabhängigen
Patentansprüche
gelöst.
Bevorzugte Ausführungsformen
der Erfindung sind in den abhängigen
Patentansprüchen
angegeben.
-
Die
Erfindung schafft ein Verfahren zur mehrsprachigen assoziativen
Suche, welches die Eingabe des Suchtextes in einer ersten Sprache
ermöglicht, die
von einer zweiten Sprache verschieden ist, in der das neuronale
Netz des assoziativen Suchmoduls trainiert worden ist. Hierzu wird
der Suchtext der ersten Sprache mittels automatischer Übersetzung
in die zweite Sprache übersetzt und
dann in das assoziative Suchmodul eingegeben. Es können dabei
einfache auf Wort-zu-Wort-Äquivalenz
basierende automatische Übersetzungsverfahren
zum Einsatz kommen, aber auch weiterentwickelte Grammatik und Syntax
berücksichtigende Übersetzungsverfahren verwendet
werden.
-
Die
Erfindung macht sich dabei den überraschenden
Effekt zunutze, dass, obwohl automatische Übersetzungen, insbesondere
auf Wort-zu-Wort-Äquivalenz
basierende automatische Übersetzungen,
relativ ungenau sind und mitunter kaum verständliche oder grammatikalisch
fehlerhafte Übersetzungsergebnisse
haben, dennoch ein solcher automatisch übersetzter Suchtext für eine assoziative
Suche verwendet werden kann, ohne dass dies die Qualität der assoziativen
Suche wesentlich beeinträchtigt.
-
Nach
einer bevorzugten Ausführungsform der
Erfindung wird die Sprache des Suchtextes automatisch erkannt. Solche
automatischen Erkennungsverfahren sind an sich aus dem Stand der
Technik bekannt und beispielsweise in Microsoft WORD implementiert.
Der Benutzer kann also in einer beliebigen Sprache, die von dem
System unterstützt
wird, seinen Suchtext eingeben. Die Sprache des Suchtextes wird
dann automatisch erkannt und es wird das für die Übersetzung von der Sprache
des Suchtextes in die zweite Sprache erforderliche Übersetzungsmodul
aufgerufen.
-
Nach
einer weiteren bevorzugten Ausführungsform
der Erfindung findet die assoziative Suche in Dokumenten unterschiedlicher
Sprachen statt. Hierzu wird für
jede der Sprachen ein neuronales Netz mit Beispieldokumenten der
jeweiligen Sprache trainiert.
-
Vorzugsweise
werden die Ergebnisse der verschiedenen assoziativen Suchen in einer
einzigen sortierten Liste ausgegeben. Für die Sortierung der Liste
können
dabei so genannte Ranking-Werte oder Vertrauenswerte verwendet werden,
die den Grad der Übereinstimmung
des Suchtextes mit einem Treffer angeben.
-
Nach
einer weiteren bevorzugten Ausführungsform
der Erfindung werden Textdateien durch automatische Spracherkennung
aus Sprachdateien gewonnen. In diesen Textdateien kann dann mit
einem erfindungsgemäßen Verfahren
recherchiert werden. Bei einer Sprachdatei handelt es sich beispielsweise
um die Tondatei einer Multimediadatei, die z.B. auf einer DVD gespeichert
ist.
-
Im
Weiteren werden bevorzugte Ausführungsbeispiele
der Erfindung mit Bezugnahme auf die Zeichnungen näher erläutert. Es
zeigen:
-
1 ein
Blockdiagramm einer ersten Ausführungsform
eines erfindungsgemäßen Computersystems,
-
2 ein
Flussdiagramm einer ersten Ausführungsform
eines erfindungsgemäßen Verfahrens,
-
3 ein
Blockdiagramm einer zweiten Ausführungsform
eines erfindungsgemäßen Computersystems
mit mehreren sprachspezifischen neuronalen Netzen,
-
4 ein
Flussdiagramm einer zweiten Ausführungsform
eines erfindungsgemäßen Verfahrens zur
Durchführung
einer assoziativen Suche basierend auf mehreren in verschiedenen
Sprachen trainierten neuronalen Netzen.
-
Die 1 zeigt
ein Computersystem 100 zur Durchführung einer assoziativen Suche
in einer Datenbank 102. Das Computersystem 100 hat
eine Nutzerschnittstelle 104 zur Eingabe eines Suchtextes
in einer Eingabesprache SE. Das Computersystem 100 hat
ferner ein Übersetzungsmodul 106 für die automatische Übersetzung
von der Eingabesprache SE in eine Zielsprache
SZ.
-
Grundsätzlich kann
es sich bei dem Übersetzungsmodul
106 um ein beliebiges Übersetzungsprogramm
handeln. Vorzugsweise wird ein auf Wort-zu-Wort-Äquivalenz basierendes Übersetzungsverfahren
eingesetzt. Solche Übersetzungsverfahren
werden in kommerziell erhältlichen Sprachcomputern
eingesetzt und sind an sich aus dem Stand der Technik bekannt.
-
Das
Computersystem 100 hat ferner ein assoziatives Suchmodul 108,
welches ein neuronales Netz 110 beinhaltet. Das neuronale
Netz 110 ist mit von einem Benutzer kategorisierten Dokumenten
der Zielsprache SZ in einem Klassifikationsmodus
trainiert worden.
-
Wenn
in das assoziative Suchmodul 108 ein Suchtext in der Zielsprache
SZ eingegeben wird, werden Dokumente der
Datenbank 102 mittels des neuronalen Netzes 110 ermittelt,
die zu der durch den Suchtext passenden Kategorie gehören. Zusätzlich wird
für jeden
der "Treffer" ein so genannter
Ranking-Wert ausgegeben, der den Grad der Übereinstimmung zwischen dem
Suchtext und dem Treffer angibt. Die entsprechende Trefferliste
wird vorzugsweise nach den Ranking-Werten sortiert und über die Nutzerschnittstelle 104 als
Trefferliste 112 ausgegeben.
-
Beim
Betrieb des Computersystems 100 gibt ein Benutzer über die
Nutzerschnittstelle 104 einen Eingabetext in der Eingabesprache
SE ein. Bei dem Suchtext kann es sich um
eine Suchanfrage handeln, in der der Anwender inhaltlich mit einigen
Worten, Sätzen
oder einer beispielhaften Textpassage, die zu suchenden Dokumente
umschreibt.
-
Durch
die Eingabe des Suchtextes in der Sprache SE wird
das Übersetzungsmodul 106 gestartet,
welches den Suchtext automatisch in die Zielsprache SZ übersetzt.
Der übersetzte
Suchtext wird dann in das assoziative Suchmodul 108 eingegeben.
-
Mittels
des neuronalen Netzes 110 werden dann in einem Extraktionsmodus
zu dem Suchtext ähnliche
Dokumente der Datenbank 102 identifiziert und mit einem
Ranking-Wert bewertet. Die entsprechenden Ergebnisse werden als
Trefferliste 112 ausgegeben, wobei jedes Element der Trefferliste
beispielsweise ein Hyperlink auf das betreffende Dokument der Datenbank 102 sein
kann.
-
Die 2 zeigt
ein entsprechendes Flussdiagramm. In dem Schritt 200 gibt
ein Benutzer einen Suchtext in einer Eingabesprache SE ein.
Daraufhin erfolgt in dem Schritt 202 die automatische Übersetzung
des Suchtextes von der Eingabesprache SE in eine
Zielsprache SE. Vorzugsweise erfolgt diese
automatische Übersetzung
mit einem relativ einfachen auf Wort-zu-Wort-Äquivalenz basierenden Übersetzungsverfahren.
-
In
dem Schritt 204 wird der in die Zielsprache SZ übersetzte
Suchtext in ein assoziatives Suchmodul eingegeben, welches ein mit
Dokumenten der Zielsprache SZ trainiertes
neuronales Netz aufweist. In dem Schritt 206 erfolgt die
Durchführung
der assoziativen Suche mit dem neuronalen Netz. Neben den eigentlichen
Treffern ermittelt das neuronale Netz für jeden der Treffer auch einen
Ranking- oder Vertrauenswert (Schritt 208). In dem Schritt 210 erfolgt
die Ausgabe der nach Ranking sortierten Trefferliste.
-
Von
besonderem Vorteil bei der Verwendung eines auf Wort-zu-Wort-Äquivalenz
beruhenden Übersetzungsverfahrens
ist, dass einerseits die Qualität
der Übersetzung
für die
Zwecke der assoziativen Suche ausreichend ist und dass andererseits
die für die Übersetzung
erforderliche Zeit minimal ist. Dies ist für eine benutzerfreundliche
Durchführung
von Datenbankabfragen wesentlich, da insbesondere aus softwareergonomischen
Gründen
die Latenzzeit zwischen der Eingabe des Suchtextes und der Ausgabe
der Trefferliste möglichst
gering sein sollte.
-
Die 3 zeigt
ein Blockdiagramm eines Computersystems 300. Elemente der 3,
die Elementen der 1 entsprechen, sind mit um 200 erhöhten Bezugszeichen
gekennzeichnet.
-
Im
Unterschied zu der Ausführungsform
der 1 ermöglicht
die Nutzerschnittstelle 304 die Eingabe eines Suchtextes
in einer beliebigen Sprache SEC, die von
dem Computersystem 300 unterstützt wird, wobei 0 < j ≤ m. Beispielsweise
unterstützt
das Computersystem 300 Suchanfragen in Deutsch, Englisch,
Französisch,
Japanisch und Russisch, d. h. m = 5.
-
Die
Nutzerschnittstelle 304 ist mit einem Spracherkennungsmodul 305 verknüpft. Das
Spracherkennungsmodul 305 erkennt automatisch die Eingabesprache
SEj, in der der Nutzer über die Nutzerschnittstelle 304 den
Eingabetext eingegeben hat. Das Spracherkennungsmodul 305 ist
mit einem Übersetzungsmodul 306 verknüpft.
-
Das Übersetzungsprogramm 307 hat
für jede
der m verschiedenen von dem Computersystem 300 unterstützten Eingabesprachen
SEj eine entsprechende Übersetzungskomponente 314.
Jede der Übersetzungskomponenten 314 hat
eine Anzahl von n Übersetzungsmodulen 306 für die automatische Übersetzung
der Eingabesprache SEj in eine der von dem
Computersystem 300 unterstützten Zielsprachen SZi, wobei 0 < i ≤ n.
-
Im
Weiteren wird ohne Beschränkung
der Allgemeinheit davon ausgegangen, dass die Anzahl m der vom Computersystem 300 unterstützten Eingabesprachen
gleich der Anzahl n der unterstützten Zielsprachen
ist, und dass außerdem
die Eingabesprachen mit den Zielsprachen identisch sind. In diesem
Fall beinhaltet jede der Übersetzungskomponenten 314 eine
Anzahl von m–1 Übersetzungsmodulen 306 zur Übersetzung
von der jeweiligen Eingabesprache in die anderen Zielsprachen.
-
Beispielsweise
hat also die Übersetzungskomponente 314 der
Eingabesprache Deutsch SEl Übersetzungsmodule 306 für die automatische Übersetzung
in die Zielsprachen Englisch, Französisch, Japanisch und Russisch.
Entsprechen verhält
es sich für
die anderen Übersetzungskomponenten 314,
die jeweils einer anderen der Eingabesprachen zugeordnet sind.
-
Das Übersetzungsprogram 307 ist
mit einem assoziativen Suchmodul 308 verknüpft. Das
assoziative Suchmodul 308 hat für jede der Zielsprachen ein neuronales
Netz 310, welches mit kategorisierten Dokumenten der jeweiligen
Zielsprache trainiert worden ist. In dem betrachteten Beispielsfall
hat das assoziative Suchmodul 308 also eine Anzahl von
m verschiedenen neuronalen Netzen 310, wobei jedes der neuronalen
Netze 310 einer der von dem Computersystem 300 unterstützten Sprachen
zugeordnet ist. Entsprechend beinhaltet die Datenbank 302 Dokumente
dieser verschiedenen Sprachen, in denen mittels assoziativer Suche
gesucht werden kann. Alternativ können die Dokumente in mehreren
Datenbanken verteilt gespeichert sein.
-
Beim
Betrieb des Computersystems 300 gibt der Benutzer über die
Nutzerschnittstelle 304 einen Eingabetext in einer der
vom Computersystem 300 unterstützten Eingabesprachen SEj ein. Die Eingabesprache wird daraufhin
von dem Spracherkennungsmodul 305 automatisch erkannt.
Dann wird die der Eingabesprache zugeordnete Übersetzungskomponente 314 gestartet,
sodass der Suchtext mittels der Übersetzungsmodule 306 der
betreffenden Übersetzungskomponente 314 in
die verschiedenen von der Eingabesprache unterschiedlichen Zielsprachen
SZi mit i ≠ j übersetzt
wird.
-
Die
verschiedenen Übersetzungen
des Suchtextes werden dann zur Grundlage der entsprechenden assoziativen
Suchen durch die neuronalen Netze 310 gemacht. Ferner wird
auch der Suchtext der Eingabesprache für die assoziative Suche mittels einer
der neuronalen Netze 310 verwendet, da die Eingabesprache
ja in dem hier betrachteten Beispielsfall auch gleichzeitig eine
der Zielsprachen ist. Die Ergebnisse der einzelnen assoziativen
Suchen werden dann in einer sortierten Trefferliste 312 über die
Nutzerschnittstelle 304 ausgegeben.
-
Wenn
ein Benutzer also beispielsweise einen Suchtext in Deutsch SE1 über
die Nutzerschnittstelle 304 eingibt, so wird Deutsch als
Eingabesprache SE1 von dem Spracherkennungsmodul 305 automatisch
erkannt. Daraufhin wird von dem Spracherkennungsmodul 305 die Übersetzungskomponente 314 des Übersetzungsmoduls 307,
welche der Eingabesprache Deutsch SE1 zugeordnet
ist, gestartet. Daraufhin wird der Suchtext durch die verschiedenen Übersetzungsmodule 306 in
die Zielsprachen Englisch, Französisch,
Japanisch und Russisch übersetzt.
-
Ferner
wird der Originalsuchtext in das der deutschen Sprache zugeordnete
neuronale Netz 310 für
die Durchführung
einer assoziativen Suche eingegeben. Entsprechend werden die nach
Englisch, Französisch,
Japanisch und Russisch übersetzten Suchtexte
in die den jeweiligen Sprachen zugeordneten neuronalen Netze 310 des
assoziativen Suchmoduls 308 eingegeben. Die entsprechenden
in der jeweiligen Sprache aufgefundenen Treffer werden vorzugsweise
in einer gemeinsamen Trefferliste 312 ausgegeben, die nach
den Ranking-Werten sortiert ist.
-
Die 4 zeigt
ein entsprechendes Flussdiagramm. In dem Schritt 400 wird
ein Suchtext in einer der von dem System unterstützten Sprachen SEj eingegeben.
In dem Schritt 402 wird die Eingabesprache automatisch
erkannt und danach die Übersetzung
in die von der Eingabesprache verschiedenen Zielsprachen in dem
Schritt 404 gestartet. Vorzugsweise wird dabei ein Übersetzungsverfahren
basierend auf Wort-zu-Wort-Äquivalenz
verwendet.
-
Die
in die verschiedenen Zielsprachen übersetzten Suchtexte sowie
auch der Suchtext in der Eingabesprache – wenn es sich bei der Eingabesprache
um eine der Zielsprachen handelt – werden in dem Schritt 406 in
das assoziative Suchmodul eingegeben.
-
Danach
werden in den parallel ablaufenden Schritten 408, 410, 412,
jeweils assoziative Suchen nach Dokumenten der verschiedenen Zielsprachen durchgeführt. Beispielsweise
wird in dem Schritt 408 eine Suche nach Dokumenten der
Zielsprache SZ1 mit Hilfe des in die Zielsprache
SZ1 übersetzten
Eingabetextes durchgeführt.
Entsprechend wird in dem Schritt 410 eine Suche nach Dokumenten
der Zielsprache SZ2 mit Hilfe des in die
Zielsprache SZ2 übersetzten Suchtextes durchgeführt, usw.
-
In
den entsprechenden Schritten 414, 416, 418,
... wird jeweils ein Ranking-Wert für jeden der ermittelten Treffer
berechnet. In dem Schritt 420 werden die Treffer nach Ranking-Werten
sortiert und in dem Schritt 422 in einer einzigen Trefferliste
ausgegeben.
-
- 100
- Computersystem
- 102
- Datenbank
- 104
- Nutzerschnittstelle
- 106
- Übersetzungsmodul
- 108
- assoziatives
Suchmodul
- 110
- neuronales
Netz
- 112
- Trefferliste
- 300
- Computersystem
- 302
- Datenbank
- 304
- Nutzerschnittstelle
- 306
- Übersetzungsmodul
- 307
- Übersetzungsprogramm
- 308
- assoziatives
Suchmodul
- 310
- neuronales
Netz
- 312
- Trefferliste
- 305
- Spracherkennungsmodul
- 314
- Übersetzungskomponente