DE69835239T2

DE69835239T2 - Verfahren und anordnung zur übersetzung von informationen

Info

Publication number: DE69835239T2
Application number: DE69835239T
Authority: DE
Inventors: Ari Becks; Simo Heikkilä
Original assignee: MASTER S INNOVATIONS Ltd Oy; MASTER'S INNOVATIONS Ltd Oy
Current assignee: MASTER S INNOVATIONS Ltd Oy; MASTER'S INNOVATIONS Ltd Oy
Priority date: 1998-05-27
Filing date: 1998-05-27
Publication date: 2007-06-14
Anticipated expiration: 2018-05-28
Also published as: EA004243B1; DE69835239D1; NO20005930D0; NO319431B1; NO20005930L; EP1080424B1; EA200001108A1; JP2002517040A; EP1080424A1; WO1999062002A1

Description

Die Erfindung bezieht sich auf ein Verfahren und eine Anordnung zum Übersetzen von Informationen, die als Zeichenkette in einer ersten Sprache vorliegen sind, in eine Zeichenkette in einer zweiten Sprache. Die Erfindung wird vorteilhaft in der maschinellen Übersetzung von Textinformationen implementiert.
Es gibt bereits bekannte Verfahren zur linguistisch basierten maschinellen Übersetzung von Textinformationen. In diesen Verfahren ist die Syntax jeder Sprache exakt programmiert, so dass jede Sprache ihren eigenen Programmalgorithmus erfordert. Für die Speicherung von Wortschätzen in unterschiedlichen Sprachen wird ein zentralisierter Übersetzungsspeicher mit hoher Kapazität verwendet. Das EuroTra-Übersetzungssystem der europäischen Union kann als ein Beispiel für ein solches Verfahren erwähnt werden. Solche bereits bekannten Verfahren weisen eine Anzahl Nachteile auf. Eine exakte Syntaxprogrammierung erfordert äußerst extensive Programmieroperationen. Ein solcher Syntaxalgorithmus, sowie der notwendige Übersetzungsspeicher, erfordern einen großen Speicherplatz in der Datenbank. Da ein Übersetzungsverfahren, das auf diese Weise arbeitet, komplex ist, erfordert das Übersetzen innerhalb einer vernünftigen Zeitspanne einen extrem leistungsfähigen Computer. Aufgrund dieser Nachteile ist die für eine Übersetzung geeignete Ausrüstung teuer. Bekannte Verfahren weisen ferner den Nachteil auf, dass eine Aktualisierung des Übersetzungsalgorithmus jedes Mal eine Programmierung und eine Aktualisierung des Computerprogramms erfordert.
Das Dokument EP 805403 offenbart ein Übersetzungsverfahren des Standes der Technik, das auf dem Übersetzen von Segmenten entsprechend der syntaktischen Struktur eines Satzes beruht. In diesem Verfahren werden Strukturen in definierten Typen von Strukturen auf der Grundlage ihres syntaktischen Charakters klassifiziert; Verbphrasen, Nominalphrasen und dergleichen bilden vorgegebene Einheiten der Satzstruktur. Die Strukturen werden somit in vorgegebene syntaktische Typen unterteilt, die dauerhaft in das System programmiert werden, wobei die Übersetzung auf dieser festen, programmierten syntaktischen Struktur beruht.
Es ist die Aufgabe der vorliegenden Erfindung, eine Lösung für die Übersetzung von Informationen zu schaffen, die ermöglicht, die obenbeschriebenen Unzulänglichkeiten des Standes der Technik zu überwinden.
Eine Idee der Erfindung ist, die zu übersetzenden Informationen in strukturelle Segmente zu unterteilen und die Übersetzung mittels struktureller Segmente zu bewerkstelligen. Die Übersetzung wird auf der Grundlage von Modellsegmenten und Regeln durchgeführt, die in der Wissensbasis gespeichert sind. Die in der Wissensbasis enthaltenen Daten nehmen vorteilhaft zu, so dass im Verlauf des Übersetzens immer dann, wenn es notwendig ist, der Benutzer aufgefordert wird, Übersetzungen neuer Struktursegmente über eine Benutzerschnittstelle zur Verfügung zu stellen, wobei diese Übersetzungen anschließend als Modellsegmente in der Wissensbasis gespeichert werden. Aufgrund der von der Erfindung zur Verfügung gestellten Lösung erfordert die Übersetzungsausrüstung eine kleinere Speicherkapazität und eine geringere Prozessorgeschwindigkeit. Außerdem ist sehr viel weniger Programmierung erforderlich, wobei die Operation der Ausrüstung ohne Programmaktualisierung entwickelt werden kann.
Das Verfahren der Erfindung zur maschinellen Übersetzung von Informationen, die als eine Zeichenkette in einer ersten Sprache vorliegen, in eine Zeichenkette in einer zweiten Sprache ist gekennzeichnet durch

– Speichern von Modellsegmenten in Form von Zeichenketten in der ersten Sprache in der Wissensbasis und, logisch mit diesen verbunden, von Modellsegmenten in Form von Zeichenketten in der zweiten Sprache,
– Identifizieren eines Struktursegments in der Zeichenkette der ersten Sprache einer ersten Regel folgend,
– Vergleichen des identifizierten Struktursegments mit Modellsegmenten in Form von Zeichenketten in der ersten Sprache, die gemäß einer zweiten Regel gespeichert sind,
– Anstreben einer Auswahl eines Modellsegments auf der Grundlage des Vergleichs,
– Lesen eines Modellsegments in Form einer Zeichenkette in der zweiten Sprache, das mit dem ausgewählten Modell logisch verbunden ist, d. h. eines äquivalenten Segments,
– Übersetzen des Struktursegments in das Übersetzungssegment in Form einer Zeichenkette in der zweiten Sprache auf der Grundlage des äquivalenten Segments und einer dritten Regel.

Die Anordnung der Erfindung zur Übersetzung von Informationen, die als eine Zeichenkette in einer ersten Sprache vorliegen, in eine Zeichenkette in einer zweiten Sprache ist dadurch gekennzeichnet, dass sie umfasst:

– Wissensbasismittel zum Speichern von Modellsegmenten in der Form der Zeichenketten in der ersten Sprache und, in logischer Verbindung mit diesen, zum Speichern äquivalenter Segmente in Form von Zeichenketten in der zweiten Sprache, und zum Speichern einer ersten, einer zweiten und einer dritten Regel,
– Mittel zum Identifizieren von Struktursegmenten in den Informationen, die als Zeichenketten in der ersten Sprache vorliegen, einer ersten Regel folgend,
– Mittel zum Vergleichen des identifizierten Struktursegments mit den gespeicherten Modellsegmenten in Form von Zeichenketten in der ersten Sprache, einer zweiten Regel folgend,
– Mittel zum Auswählen eines Modellsegmentes auf der Grundlage des Vergleichs,
– Mittel zum Lesen eines Modellsegments, d. h. eines äquivalenten Segments, in Form einer Zeichenkette in der zweiten Sprache, das mit dem ausgewählten Modellsegment im Wissensbasismittel logisch verbunden ist, und
– Mittel zum Übersetzen des Struktursegments in das Übersetzungssegment in Form einer Zeichenkette in der zweiten Sprache auf der Grundla ge des äquivalenten Segments und der dritten Regel, wobei das Übersetzungssegment die Informationen repräsentiert, die in der zweiten Sprache vorliegen sollen.

Bevorzugte Ausführungsformen der Erfindung sind in den abhängigen Ansprüche beschrieben.
Die Erfindung wird im Folgenden mit Hilfe der beigefügten Zeichnungen genauer beschrieben, in welchen:
1 ein Flussdiagramm eines Verfahrens gemäß der Erfindung zum Übersetzen von Informationen ist;
2 ein Blockdiagramm einer Anordnung gemäß der Erfindung zum Übersetzen von Informationen ist;
3 Textinformationen zeigt, die in Struktursegmente unterteilt sind;
4 den Übersetzungsprozess eines Strukturelements mit einem nahen Modellsegment, das in der Wissensbasis erscheint, zeigt; und
5 den Übersetzungsprozess eines Struktursegments ohne nahes Modellsegment, das in der Wissensbasis erscheint, zeigt.
1 zeigt ein Verfahren gemäß der Erfindung zum Übersetzen von Informationen. Zuerst werden die übersetzenden Informationen gelesen, Block 101, und werden gemäß einer ersten Regel in Struktursegmente unterteilt, Block 102. Anschließend wird das erste Struktursegment in den unübersetzten Informationen gelesen, Block 103. Das gelesene Struktursegment wird mit Modellsegmenten verglichen, die in der Wissensbasis gespeichert sind, Blöcke 104 und 110. Der Vergleich wird anschließend entsprechend einer zweiten Regel durchgeführt, die bestimmt, ob das Modellsegment einem zu übersetzenden Struktursegment nahe kommt. Wenn in der Wissensbasis ein Modellsegment gefunden wird, das zu diesem bestimmten Struktursegment nahe verwandt ist, wird ein Modellsegment, d. h. ein äquivalentes Segment, in der zweiten Sprache, das mit dem nahen Modell logisch verbunden ist, in der Wissensdatenbank gelesen, Block 121. Anschließend wird ein in die zweite Sprache übersetztes Übersetzungssegment aus dem zu übersetzenden Struktursegment auf der Grundlage des gelesenen äquivalenten Segments einer dritten Regel folgend gebildet, Block 122. Danach wird geprüft, ob es weitere nicht übersetzte Struktursegmente gibt, Block 123. Wenn noch nicht übersetzte Struktursegmente vorhanden sind, kehrt der Prozess zum Block 103 zurück, wo das folgende nicht übersetzte Struktursegment für die Übersetzung gelesen wird. Wenn im Block 123 keine nicht übersetzten Struktursegmente übrig sind, werden die Übersetzungssegmente entsprechend einer vierten Regel in Sätzen angeordnet, wobei die übersetzten Informationen anschließend gespeichert werden. Die gespeicherten Informationen können ferner z. B. auf einen Bildschirm angezeigt werden, oder z. B. auf Papier oder einer Scheibe ausgedruckt werden, Block 124.
Wenn im Block 110 in der Wissensbasis kein Modellsegment gefunden wird, das dem Struktursegment nahe kommt, wird dieses bestimmte Struktursegment über ein Benutzerschnittstellenmittel, z. B. einen Anzeigebildschirm, angezeigt, Block 131. Der Benutzer gibt anschließend die Übersetzung des Struktursegments, d. h. das äquivalente Segment, ein, Block 132. Das Struktursegment und das äquivalente Segment werden für eine zukünftige Verwendung als Modellsegmente in der Wissensbasis gespeichert, Blöcke 133, 134. Anschließend rückt der Prozess zum Block 123 vor, um wie oben erläutert fortzufahren. In diesem Fall ist das äquivalente Segment gewöhnlich direkt ein Übersetzungssegment, wenn der Benutzer aufgefordert worden ist, die Übersetzung des Struktursegments in Form der ursprünglichen Informationen anzugeben. Somit ist die Operation des Blocks 122 in diesem Fall nicht unabdingbar.
Die erste Regel, mit der die Struktursegmente identifiziert werden, kann z. B. auf der Identifikation von "Zwischenwörtern" oder von Fällen beruhen. Zwischenwörter sind z. B. Präpositionen und Partikel, die gewöhnlich Standardzeichenketten bilden. Somit können sie identifiziert werden, indem einfach die Zeichenketten, die jedes Wort bilden, z. B. mit den obigen bekannten Zeichenketten verglichen werden, die ein Zwischenwort bilden. Die Identifikation von Fällen kann z. B. mit Hilfe von Nachsilben durchgeführt werden, indem die letzten Zeichen der Wörter mit bekannten Nachsilben verglichen werden. Wie wohlbekannt ist, können die Zeichenketten, die ein Wort bilden, mittels Interpunktion getrennt sein. Da ein Struktursegment vorteilhaft mehrere Wörter umfassen kann, kann es auch ein oder mehrere Interpunktionszeichen enthalten.
In der einfachsten Version kann die zweite Regel, mit der ein Struktursegment mit den Modellsegmenten verglichen wird, Ähnlichkeit implizieren. In diesem Fall wird exakt das gleiche Modellsegment wie das zu übersetzende vorliegende Struktursegment in der Wissensbasis gesucht. Unter Berücksichtigung des für die Wissensbasis benötigten Speicherplatzes ist es daher nicht bevorzugt, die verschiedenen Fälle von z. B. dem Modellsegment separat in der Wissensbasis zu speichern, sondern auch ein Modellsegment mit einem anderen Fall, der zweiten Regel folgend, zu identifizieren. In dieser Situation sollte das äquivalente Segment, das mit dem Modellsegment logisch verbunden ist, auch in den Fall versetzt werden, der erforderlich ist, um ein Übersetzungssegment zu erzeugen. Dies wird gemäß der dritten Regel bewerkstelligt, die folglich Informationen über die Fälle der fraglichen Sprache abdeckt.
In vielen Fällen impliziert die vierte Regel, mit der die Übersetzungssegmente in übersetzten Sätzen angeordnet werden, das Platzieren der Übersetzungssegmente in der gleichen Reihenfolge, in der sich die zu übersetzenden Struktursegmente in der ersten Sprache befanden. Diese Reihenfolge kann jedoch von der Sprache abhängen, so dass auch die vierte Regel sprachspezifisch ist.
Bei der Speicherung der Modellsegmente kann auch vorteilhaft ein Typidentifizierer des Modellsegments gespeichert werden. In diesem Fall ist der Typidentifizierer in logischer Verbindung mit jedem Modellsegment gespeichert. Wenn Typidentifizierer verwendet werden, können verschiedene Regeln auf die Identifikation und Übersetzung des Struktursegments auf der Grundlage des Modellsegments angewendet werden, in Abhängigkeit vom Typ des Struktursegments. Typen von Struktursegmenten sind z. B. das Objekt einer Aktion, ein Eigenname, ein Verb, ein Platzwort, ein Adjektiv oder eine Redensart. Wenn Typidentifizierer verwendet werden, wird der Benutzer ferner aufgefordert, den Typ anzugeben, auf den sich das bestimmte Struk tursegment und dessen Übersetzung bezieht, wenn das Struktursegment übersetzt wird.
Eine Idee der Erfindung ist, die Wissensbasis im interaktiv betriebenen Übersetzungsprozess zu aktualisieren. Es ist zu beachten, dass die Aktualisierung der Wissensbasis nicht unbedingt auf die Speicherung neuer Modell- oder Äquivalentsegmente beschränkt ist, sondern die obenerwähnten Regeln ebenfalls vorteilhaft aktualisiert werden können. Die Aktualisierung wird anschließend z. B. in Verbindung mit der Übersetzung eines neuen Struktursegments durchgeführt, das vom Benutzer eingegeben wird, indem die Regelmäßigkeit der eingegebenen Übersetzung identifiziert wird.
Die Übersetzung eines Informationsstücks aus einer ersten Sprache in eine zweiten Sprache wurde oben beschrieben. Die vorangehenden Aktualisierungen der Wissensbasis werden bei der Übersetzung der nachfolgenden Informationsstücke vorteilhaft genutzt. Somit kann der Prozess der Erfindung zum schrittweisen Übersetzen erster und zweiter Stücke von Informationen z. B. die folgenden Schritte umfassen:

– Lesen erster Informationen, die als eine Zeichenkette in der ersten Sprache vorliegen,
– Durchführen der Übersetzung der ersten Informationen, die als eine Zeichenkette in der ersten Sprache vorliegen, auf der Grundlage von Daten in der Wissensbasis in erste Informationen, die als eine Zeichenkette in der zweiten Sprache vorliegen, bis zu dem Ausmaß, das hinsichtlich der in der Wissensbasis verfügbaren Daten machbar ist,
– Bestimmen zusätzlicher Daten, die erforderlich sind, um die Übersetzung der ersten Informationen, die als eine Zeichenkette in der ersten Sprache vorliegen, in erste Informationen, die als eine Zeichenkette in der zweiten Sprache vorliegen, abzuschließen,
– Eingeben der zusätzlichen Daten in die Wissensbasis im Hinblick auf eine Aktualisierung der Wissensbasis,
– Nachbearbeiten der Übersetzung der ersten Informationen, die als eine Zeichenkette in der ersten Sprache vorliegen, in erste Informationen, die als eine Zeichenkette in der zweiten Sprache vorliegen,
– Speichern der ersten Informationen, die als eine Zeichenkette in der zweiten Sprache vorliegen,
– Speichern der zweiten Informationen, die als eine Zeichenkette in der ersten Sprache vorliegen,
– Durchführen der Übersetzung der ersten Informationen, die als eine Zeichenkette in der ersten Sprache vorliegen, auf der Grundlage der aktualisierten Daten in der Wissensbasis in zweite Informationen, die als eine Zeichenkette in der zweiten Sprache vorliegen.

2 ist ein Blockdiagramm einer Vorrichtungsanordnung der Erfindung für die Übersetzung von Informationen. Die Anordnung umfasst eine Plattenstation 21, einen Anzeigebildschirm 22 und eine Tastatur 23 als Schnittstellenmittel, die mit dem Prozessor 20 verbunden sind. Mittels der Plattenstation können zu übersetzende Informationen von der Platte der Vorrichtung zugeführt werden, wobei die übersetzten Informationen für die Verwendung in anderen Vorrichtung auf der Platte gespeichert werden können. Die fraglichen Informationen können zwischen der Vorrichtung und einer anderen Datenverarbeitungsanlage auch über einen E/A-Bus übertragen werden. Der Anzeigebildschirm 22 kann verwendet werden, um solche Struktursegmente dem Benutzer anzuzeigen, für die in der Wissensbasis keine Übersetzung gefunden worden ist. Der Benutzer kann die Übersetzung eines solchen Struktursegments unter Verwendung der Tastatur 23 eingeben. Das obenerwähnte Schnittstellenmittel kann auch bei der Überarbeitung und Korrektur von übersetzten Informationen verwendet werden.
Die in 2 gezeigte Vorrichtung umfasst ferner einen elektrischen Speicher 24 zum vorübergehenden Speichern unter anderem von Struktursegmenten und Übersetzungssegmenten. Außerdem umfasst die Vorrichtung einen Massenspeicher 25 zum Speichern der Wissensbasis, d. h. von Modellsegmenten, Typidentifizierern und Regeln, sowie von Programmen. Zum Beispiel kann ein Festplattenlaufwerk oder ein Optikplattenlaufwerk als Massenspeicher verwendet werden. Die obenerwähnten Komponenten können bereitgestellt werden, indem bereits bekannte Computerkomponenten veranlasst werden, gemäß der Erfindung unter Verwendung spezieller Software zu arbeiten. Zeichenketten und andere Daten werden vorzugsweise als elektrische Signale zwischen den Komponenten übertragen.
Die Implementierung der Erfindung ist keinesfalls auf die obenbeschriebenen Komponenten beschränkt, vielmehr kann die Anordnung der Erfindung viele unterschiedliche Konfigurationen aufweisen, die ein Fachmann aufgrund dieser Beschreibung entwerfen kann.
3 zeigt einen englischen Satz, der in Struktursegmente 31, 32, 33 und 34 unterteilt ist. Wie in der Figur gezeigt ist, umfasst ein Struktursegment typischerweise sukzessiv eng verwandte Wörter in einem Satz. Ein solches Struktursegment enthält häufig auch ein Interpunktionszeichen, das die Wörter trennt.
4 zeigt die Übersetzung des ersten Struktursegments des in 3 erscheinenden Satzes mit Hilfe einer Lösung der Erfindung. In der Figur wird das zu übersetzende Struktursegment 42 im Übersetzungsspeicher 41 gespeichert, wobei dieses Struktursegment mit den in der Wissensbasis 44 gespeicherten Modellsegmenten verglichen wird. In dem in 4 gezeigten Fall wurde dieses bestimmte Struktursegment im voraus in der Wissensbasis als Modellsegment 45 gespeichert, welches bei dem Vergleich gefunden wird. Wenn z. B. die vorliegenden Informationen ins Finnische zu übersetzen sind, wird das finnische Modellsegment 46, das mit dem obenerwähnten englischen Modellsegment logisch verbunden ist, in der Wissensbasis gelesen. In 4 zeigt die Doppellinie, die die Modellsegmente 45 und 46 verbindet, eine logische Verbindung. Wenn das finnische Modellsegment gelesen worden ist, wird es als Übersetzungssegment im Übersetzungsspeicher gespeichert.
5 zeigt die Übersetzung des in 3 gezeigten zweiten Struktursegments mit Hilfe einer Lösung der Erfindung. In diesem Fall wurde weder ein englisches Struktursegment, das zu übersetzen ist, noch irgendein finnisches Äquivalenzsegment im voraus als Modellsegment in der Wissensbasis gespeichert. In diesem Fall wird das zu übersetzende Struktursegment 52, das im Übersetzungsspeicher 51 gespeichert ist, mit den Modellsegmenten in der Wissensbasis verglichen, wobei dann, wenn das gewünschte Äquivalenzsegment nicht in der Wissensbasis gefunden wird, das zu übersetzende Struktursegment 58 auf dem Anzeigebildschirm der Schnittstelle 57 angezeigt wird. Anschließend gibt der Benutzer die Übersetzung 59 des Struktur segments 58 über die Schnittstelle in die Wissensbasis 54 ein. Auf diese Weise werden ein englisches und ein finnisches Modellsegment in logischer Verbindung in der Wissensbasis gespeichert. Anschließend wird die finnische Übersetzung des Struktursegments als Übersetzungssegment 53 im Übersetzungsspeicher 51 gespeichert.
Sollten die obenerwähnten Struktursegmente in den Eingangsinformationen erneut erscheinen, werden die entsprechenden Modell- und Äquivalenzsegmente in der Wissensbasis gefunden, wobei keine Notwendigkeit besteht, den Benutzer aufzufordern, diese zu wiederholen. Wenn jedoch die folgenden Eingangsinformationen den Satz "we have expanded our operation largely in Finnland" enthalten, würde "largely" ein neues Struktursegment sein. Wenn kein nahes Modellsegment im Voraus in der Wissensbasis gespeichert worden ist, wird der Benutzer aufgefordert, die Übersetzung desselben einzugeben, wobei "largely" als ein Modellsegment in der Wissensbasis gespeichert wird, und in logischer Verbindung hiermit auch die eingegebene Übersetzung, die vom Benutzer eingegeben worden ist.
Es ist zu beachten, dass die Operation der Ausrüstung so beschaffen sein kann, dass der Übersetzungsprozess zuerst maschinell für die gesamten Informationen durchgeführt wird, bis zu dem Ausmaß, der mittels der in der Wissensbasis gespeicherten Modellsegmente möglich ist. Anschließend kann der Benutzer die notwendigen Übersetzungen neuer Struktursegmente in die Wissensbasis eingeben. Eine solche Anordnung hat den Vorteil, dass der Benutzer nicht beim Computer stehen muss und auf den Abschluss des Übersetzungsprozesses warten muss, sondern die Wissensbasis mit einer einzigen Eingabe zu einem beliebigen geeigneten Zeitpunkt aktualisieren kann.
Die Modellsegmente können in der Wissensbasis als Paar von Segmenten gespeichert sein, wobei spezifische Paare von Modellsegmenten für jedes Sprachpaar gespeichert sind. Eine weitere Möglichkeit der Vorgehensweise ist, Modellsegmente in mehreren Sprachen logisch zu verbinden, so dass die gleichen Modellsegmente als solche in der Übersetzung mehrerer Sprachpaare verwendet werden können. In diesem Fall können die Modellsegmente jeder Sprache als eine Eingabe in die Wissensbasis eingegeben werden, jedes Mal dann, wenn sie zum ersten Mal in der fraglichen Sprache erscheinen. Wenn die eingegebenen Informationen anschließend während der Übersetzung des einen Sprachpaares in die Wissensbasis eingegeben werden, werden die in der Wissensbasis enthaltenen Informationen automatisch auch in den anderen Sprachpaaren zunehmen.
Die Lösung der Erfindung ist prinzipiell nicht sprachspezifisch, sondern kann auf ein beliebiges Sprachpaar angewendet werden. Auch ist die Implementierung der Erfindung nicht auf "natürliche" Sprachen beschränkt, die in gewöhnlicher Kommunikation verwendet werden, da sie auch verwendet werden kann, um irgendeine Sprache, die aus Zeichenketten besteht, in eine zweite Sprache, die aus Zeichenketten besteht, zu übersetzen. Programmiersprachen und Datenaustauschprotokolle können als Beispiele solcher anderer Sprachen erwähnt werden.
Die Lösung der Erfindung hat viele Vorteile gegenüber dem Stand der Technik. Ihre Operation erfordert jedoch ein wenig sprachspezifische Kenntnis für die Unterteilung der Sprache in Struktursegmente. Ein zweiter Vorteil der Lösung besteht darin, dass zusätzliche Informationen während des Prozesses im Speicher gesammelt werden, so dass die Vorrichtung neue Paare von Modellsegmenten und Regeln "lernt". Mit einer direkten Konfiguration und einer kleinen Menge an Programmierung und Aktualisierung ist es somit möglich, ein effizientes Mittel für die maschinelle Übersetzung zu schaffen.
Die Lösung der Erfindung ist für die Verwendung in Situationen angepasst, in denen die Anordnung der Erfindung verwendet wird, um die Anforderungen mehrerer Benutzer zu erfüllen. In diesem Fall umfasst die Anordnung vorzugsweise mehrere Schnittstellen, die mit der Wissensbasis z. B. über ein Datenübertragungsnetzwerk kommunizieren können. Die Wissensbasis kann dann vorzugsweise in einer solchen Weise dezentralisiert sein, das die erste Wissensbasis, d. h. die Hauptwissensbasis, von einer gegebenen Benutzergruppe verwendet werden kann, und die zweite Wissensbasis, d. h. eine Unterwissensbasis, nur von einigen in einer solchen gegebenen Benutzergruppe verwendet werden kann. Dies ermöglicht unterschiedlichen Benutzern, ihre eigene Wissensbasis z. B. mit speziellen Wortschätzen oder Ausdrücken zu aktualisieren, ohne dass solches Wissen, das für spezielle Zwecke geeignet ist, von anderen Benutzern verwendet wird.
In einer solchen dezentralisierten Wissensbasis kann die Aktualisierung der ersten Wissensbasis, d. h. der Hauptwissensbasis, anhand der zweiten Wissensbasen, d. h. der Unterwissensbasen, durchgeführt werden. Die in den zweiten Wissensbasen gespeicherten Daten werden anschließend mittels vorgegebener Kriterien in die erste Wissensbasis übertragen. Ein solches Kriterium kann die Häufigkeit spezifischer Daten sein. Der Datenaustausch zwischen den Wissensbasen kann auch mittels eines gemeinsamen Hauptwissensdatenbank-Administrators stattfinden, der alle zu übertragenden Daten prüft und genehmigt.
Eine Anzahl von Ausführungsformen für die Lösung gemäß der Erfindung wurde oben beschrieben. Das Prinzip der Erfindung kann selbstverständlich innerhalb des Schutzumfangs der Ansprüche z. B. hinsichtlich von Einzelheiten der Ausführungsform und von Gebieten der Anwendung variieren.

Claims

Verfahren zur maschinellen Übersetzung von Informationen, die als Zeichenkette in einer ersten Sprache vorliegen, in eine Zeichenkette in einer zweiten Sprache, umfassend: Speichern von Modellsegmenten in einer Wissensbasis in Form von Zeichenketten in der ersten Sprache und, in logischer Verbindung mit diesen, von Modellsegmenten (133, 134) in Form von Zeichenketten in der zweiten Sprache, Identifizieren eines Struktursegments in der Zeichenkette der ersten Sprache einer ersten Regel (102) folgend, Vergleichen des identifizierten Struktursegments mit Modellsegmenten (104) in Form von Zeichenketten in der ersten Sprache, die gemäß einer zweiten Regel gespeichert sind, Anstreben einer Auswahl eines Modellsegments (110) auf der Grundlage des Vergleichs, Lesen eines Modells, d. h. eines äquivalenten Segments (121) in Form einer Zeichenkette in der zweiten Sprache, das mit dem ausgewählten Modellsegment logisch verbunden ist, und Übersetzen des Struktursegments in ein Übersetzungssegment in Form einer Zeichenkette in der zweiten Sprache auf der Grundlage des äquivalenten Segments und einer dritten Regel (122), Identifizieren eines Zwischenwortes und/oder einer Nachsilbe, wobei die erste Regel im Wesentlichen auf der Identifikation des Zwischenwortes und/oder der Nachsilbe beruht, dadurch gekennzeichnet, dass in dem Verfahren dann, wenn kein Modellsegment, das nach der zweiten Regel auszuwählen ist, als Ergebnis des Vergleichs der Struktursegmente gefun den wird, das Struktursegment mittels einer Benutzerschnittstelle (131) angezeigt wird, wobei das äquivalente Segment des angezeigten Struktursegments mittels der Benutzerschnittstelle (132, 133) in der Wissensbasis gespeichert wird, und wenigstens eine der Regeln auf der Grundlage der Daten von der Benutzerschnittstelle aktualisiert wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Informationen, die als Zeichenkette in der zweiten Sprache vorliegen sollen, auf der Grundlage von Übersetzungssegmenten und einer vierten Regel (124) erzeugt werden.
Verfahren nach irgendeinem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass das Struktursegment ein Satzzeichen umfasst.
Verfahren nach irgendeinem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass der Typbezeichner des Modellsegments in logischer Verbindung mit dem Modellsegment gespeichert wird.
Verfahren nach irgendeinem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass es mehr als zwei logisch miteinander verbundene Modellsegmente gibt, die verschiedene Sprachen repräsentieren.
Verfahren nach irgendeinem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass Informationen über die Benutzerschnittstelle zugeführt werden, um die Wissensbasis mit einer Auffassung zur Übersetzung der ersten Informationen zu aktualisieren, wobei die eingegebenen Daten verwendet werden, um andere Daten zu aktualisieren als diejenigen, die für die Übersetzung der ersten Informationen in der Wissensbank benötigt werden.
Verfahren nach irgendeinem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass es Schritte umfasst zum Lesen der ersten Informationen, die als Zeichenkette in der ersten Sprache vorliegen, Übersetzen der als Zeichenkette in der ersten Sprache vorliegenden ersten Informationen auf der Grundlage von Daten in der Wissensdatenbank in erste Informationen, die als Zeichenkette in der zweiten Sprache vorliegen, bis zu einem Ausmaß, das durch die in der Wissensbasis verfügbaren Daten ermöglicht wird, Bestimmen der zusätzlichen Daten, die benötigt werden, um die Übersetzung der als Zeichenkette in der ersten Sprache vorliegenden ersten Informationen in erste Informationen in Form einer Zeichenkette in der zweiten Sprache abzuschließen, Zuführen der zusätzlichen Daten in die Wissensbasis, um die Wissensbasis zu aktualisieren, Abschließen der Übersetzung der als Zeichenkette in der ersten Sprache vorliegenden ersten Informationen in erste Informationen, die als Zeichenkette in der zweiten Sprache vorliegen, Speichern der in der zweiten Sprache vorliegenden ersten Informationen, Lesen der zweiten Informationen, die als Zeichenkette in der ersten Sprache vorliegen, Übersetzen der zweiten Informationen, die als Zeichenkette in der ersten Sprache vorliegen, in zweite Informationen, die als Zeichenkette in der zweiten Sprache vorliegen, auf der Grundlage der aktualisierten Daten in der Wissensbasis.
Anordnung zum Übersetzen von Informationen, die als Zeichenkette in einer ersten Sprache vorliegen, in eine Zeichenkette in einer zweiten Sprache, umfassend: Wissensbasismittel (20, 25) zum Speichern von Modellsegmenten in Form von Zeichenketten in der ersten Sprache und, in logischer Verbindung mit diesen, von äquivalenten Segmenten in Form von Zeichenketten in der zweiten Sprache, und zum Speichern einer ersten, einer zweiten und einer dritten Regel, Mittel (20, 24) zum Identifizieren von Struktursegmenten in den Informationen, die als Zeichenkette in der ersten Sprache vorliegen, einer ersten Regel folgend, Mittel (20, 25) zum Vergleichen der identifizierten Struktursegmente mit den Modellsegmenten, die in Form von Zeichenketten in der ersten Sprache gespeichert sind, einer zweiten Regel folgend, Mittel (20) zum Auswählen eines Modellsegments auf der Grundlage des Vergleichs, Mittel (20, 25) zum Lesen des Modells, d. h. des äquivalenten Segments in Form einer Zeichenkette in der zweiten Sprache, das mit dem ausgewählten Modellsegment im Wissensbasismittel logisch verbunden ist, und Mittel (20, 24) zum Übersetzen des Strukturelements in ein Übersetzungssegment in Form einer Zeichenkette in der zweiten Sprache auf der Grundlage des äquivalenten Segments und einer dritten Regel, wobei das Übersetzungssegment die Informationen repräsentiert, die in der zweiten Sprache vorliegen sollen, wobei das Mittel (20, 24) zum Identifizieren des Struktursegments in den als Zeichenkette in der ersten Sprache vorliegenden Informationen Mittel zum Identifizieren eines Zwischenwortes und/oder einer Nachsilbe umfasst, wobei die erste Regel im Wesentlichen auf der Identifikation des Zwischenwortes und/oder der Nachsilbe beruht, dadurch gekennzeichnet, dass die Anordnung ein Benutzerschnittstellenmittel (22, 23) zum Verbinden des Benutzers mit dem Wissensbasismittel umfasst, dann, wenn als Ergebnis des Vergleichs der Strukturelemente kein Modellsegment, das der zweiten Regel folgend auszuwählen ist, gefunden wird, das Benutzerschnittstellenmittel (22, 23) dafür ausgelegt ist, das Struktursegment. anzuzeigen, wobei das äquivalente Segment des angezeigten Struktursegments dafür ausgelegt ist, mittels der Benutzerschnittstelle (22, 23) in der Wissensbasis gespeichert zu werden, und wenigstens eine der Regeln dafür ausgelegt ist, auf der Grundlage der Daten vom Benutzerschnittstellenmittel (22, 23) aktualisiert zu werden.
Anordnung nach Anspruch 8, dadurch gekennzeichnet, dass sie ferner Mittel (20, 25) zum Erzeugen von Informationen, die als Zeichenkette in der zweiten Sprache vorliegen sollen, auf der Grundlage von wenigstens zwei Übersetzungssegmenten und einer vierten Regel umfasst.
Anordnung nach Anspruch 8 oder Anspruch 9, dadurch gekennzeichnet, dass das Benutzerschnittstellenmittel mit dem Wissensbasismittel über ein Datenübertragungsnetz verbunden ist.
Anordnung nach irgendeinem der Ansprüche 8 bis 10, dadurch gekennzeichnet, dass das Wissensbasismittel ein erstes Wissensbasismittel (25) und ein zweites Wissensbasismittel umfasst, so dass spezifische Benutzer Zugriff auf das erste Wissensbasismittel haben und nur einige der spezifischen Benutzer Zugriff auf das zweite Wissensbasismittel haben.
Anordnung nach irgendeinem der Ansprüche 8 bis 11, dadurch gekennzeichnet, dass das Wissensbasismittel ein erstes Wissensbasismittel (25) und ein zweites Wissensbasismittel umfasst, wobei die Anordnung Mittel für die Dateneingabe von dem Benutzerschnittstellenmittel in das zweite Wissensbasismittel und Mittel zum selektiven Übertragen von in der zweiten Wissensbasis gespeicherten Daten zum ersten Wissensbasismittel umfasst.