[go: up one dir, main page]

DE69835239T2 - Verfahren und anordnung zur übersetzung von informationen - Google Patents

Verfahren und anordnung zur übersetzung von informationen Download PDF

Info

Publication number
DE69835239T2
DE69835239T2 DE69835239T DE69835239T DE69835239T2 DE 69835239 T2 DE69835239 T2 DE 69835239T2 DE 69835239 T DE69835239 T DE 69835239T DE 69835239 T DE69835239 T DE 69835239T DE 69835239 T2 DE69835239 T2 DE 69835239T2
Authority
DE
Germany
Prior art keywords
language
segment
knowledge base
string
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69835239T
Other languages
English (en)
Other versions
DE69835239D1 (de
Inventor
Ari Becks
Simo Heikkilä
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MASTER S INNOVATIONS Ltd Oy
MASTER'S INNOVATIONS Ltd Oy
Original Assignee
MASTER S INNOVATIONS Ltd Oy
MASTER'S INNOVATIONS Ltd Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MASTER S INNOVATIONS Ltd Oy, MASTER'S INNOVATIONS Ltd Oy filed Critical MASTER S INNOVATIONS Ltd Oy
Application granted granted Critical
Publication of DE69835239D1 publication Critical patent/DE69835239D1/de
Publication of DE69835239T2 publication Critical patent/DE69835239T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Exchange Systems With Centralized Control (AREA)
  • Document Processing Apparatus (AREA)

Description

  • Die Erfindung bezieht sich auf ein Verfahren und eine Anordnung zum Übersetzen von Informationen, die als Zeichenkette in einer ersten Sprache vorliegen sind, in eine Zeichenkette in einer zweiten Sprache. Die Erfindung wird vorteilhaft in der maschinellen Übersetzung von Textinformationen implementiert.
  • Es gibt bereits bekannte Verfahren zur linguistisch basierten maschinellen Übersetzung von Textinformationen. In diesen Verfahren ist die Syntax jeder Sprache exakt programmiert, so dass jede Sprache ihren eigenen Programmalgorithmus erfordert. Für die Speicherung von Wortschätzen in unterschiedlichen Sprachen wird ein zentralisierter Übersetzungsspeicher mit hoher Kapazität verwendet. Das EuroTra-Übersetzungssystem der europäischen Union kann als ein Beispiel für ein solches Verfahren erwähnt werden. Solche bereits bekannten Verfahren weisen eine Anzahl Nachteile auf. Eine exakte Syntaxprogrammierung erfordert äußerst extensive Programmieroperationen. Ein solcher Syntaxalgorithmus, sowie der notwendige Übersetzungsspeicher, erfordern einen großen Speicherplatz in der Datenbank. Da ein Übersetzungsverfahren, das auf diese Weise arbeitet, komplex ist, erfordert das Übersetzen innerhalb einer vernünftigen Zeitspanne einen extrem leistungsfähigen Computer. Aufgrund dieser Nachteile ist die für eine Übersetzung geeignete Ausrüstung teuer. Bekannte Verfahren weisen ferner den Nachteil auf, dass eine Aktualisierung des Übersetzungsalgorithmus jedes Mal eine Programmierung und eine Aktualisierung des Computerprogramms erfordert.
  • Das Dokument EP 805403 offenbart ein Übersetzungsverfahren des Standes der Technik, das auf dem Übersetzen von Segmenten entsprechend der syntaktischen Struktur eines Satzes beruht. In diesem Verfahren werden Strukturen in definierten Typen von Strukturen auf der Grundlage ihres syntaktischen Charakters klassifiziert; Verbphrasen, Nominalphrasen und dergleichen bilden vorgegebene Einheiten der Satzstruktur. Die Strukturen werden somit in vorgegebene syntaktische Typen unterteilt, die dauerhaft in das System programmiert werden, wobei die Übersetzung auf dieser festen, programmierten syntaktischen Struktur beruht.
  • Es ist die Aufgabe der vorliegenden Erfindung, eine Lösung für die Übersetzung von Informationen zu schaffen, die ermöglicht, die obenbeschriebenen Unzulänglichkeiten des Standes der Technik zu überwinden.
  • Eine Idee der Erfindung ist, die zu übersetzenden Informationen in strukturelle Segmente zu unterteilen und die Übersetzung mittels struktureller Segmente zu bewerkstelligen. Die Übersetzung wird auf der Grundlage von Modellsegmenten und Regeln durchgeführt, die in der Wissensbasis gespeichert sind. Die in der Wissensbasis enthaltenen Daten nehmen vorteilhaft zu, so dass im Verlauf des Übersetzens immer dann, wenn es notwendig ist, der Benutzer aufgefordert wird, Übersetzungen neuer Struktursegmente über eine Benutzerschnittstelle zur Verfügung zu stellen, wobei diese Übersetzungen anschließend als Modellsegmente in der Wissensbasis gespeichert werden. Aufgrund der von der Erfindung zur Verfügung gestellten Lösung erfordert die Übersetzungsausrüstung eine kleinere Speicherkapazität und eine geringere Prozessorgeschwindigkeit. Außerdem ist sehr viel weniger Programmierung erforderlich, wobei die Operation der Ausrüstung ohne Programmaktualisierung entwickelt werden kann.
  • Das Verfahren der Erfindung zur maschinellen Übersetzung von Informationen, die als eine Zeichenkette in einer ersten Sprache vorliegen, in eine Zeichenkette in einer zweiten Sprache ist gekennzeichnet durch
    • – Speichern von Modellsegmenten in Form von Zeichenketten in der ersten Sprache in der Wissensbasis und, logisch mit diesen verbunden, von Modellsegmenten in Form von Zeichenketten in der zweiten Sprache,
    • – Identifizieren eines Struktursegments in der Zeichenkette der ersten Sprache einer ersten Regel folgend,
    • – Vergleichen des identifizierten Struktursegments mit Modellsegmenten in Form von Zeichenketten in der ersten Sprache, die gemäß einer zweiten Regel gespeichert sind,
    • – Anstreben einer Auswahl eines Modellsegments auf der Grundlage des Vergleichs,
    • – Lesen eines Modellsegments in Form einer Zeichenkette in der zweiten Sprache, das mit dem ausgewählten Modell logisch verbunden ist, d. h. eines äquivalenten Segments,
    • – Übersetzen des Struktursegments in das Übersetzungssegment in Form einer Zeichenkette in der zweiten Sprache auf der Grundlage des äquivalenten Segments und einer dritten Regel.
  • Die Anordnung der Erfindung zur Übersetzung von Informationen, die als eine Zeichenkette in einer ersten Sprache vorliegen, in eine Zeichenkette in einer zweiten Sprache ist dadurch gekennzeichnet, dass sie umfasst:
    • – Wissensbasismittel zum Speichern von Modellsegmenten in der Form der Zeichenketten in der ersten Sprache und, in logischer Verbindung mit diesen, zum Speichern äquivalenter Segmente in Form von Zeichenketten in der zweiten Sprache, und zum Speichern einer ersten, einer zweiten und einer dritten Regel,
    • – Mittel zum Identifizieren von Struktursegmenten in den Informationen, die als Zeichenketten in der ersten Sprache vorliegen, einer ersten Regel folgend,
    • – Mittel zum Vergleichen des identifizierten Struktursegments mit den gespeicherten Modellsegmenten in Form von Zeichenketten in der ersten Sprache, einer zweiten Regel folgend,
    • – Mittel zum Auswählen eines Modellsegmentes auf der Grundlage des Vergleichs,
    • – Mittel zum Lesen eines Modellsegments, d. h. eines äquivalenten Segments, in Form einer Zeichenkette in der zweiten Sprache, das mit dem ausgewählten Modellsegment im Wissensbasismittel logisch verbunden ist, und
    • – Mittel zum Übersetzen des Struktursegments in das Übersetzungssegment in Form einer Zeichenkette in der zweiten Sprache auf der Grundla ge des äquivalenten Segments und der dritten Regel, wobei das Übersetzungssegment die Informationen repräsentiert, die in der zweiten Sprache vorliegen sollen.
  • Bevorzugte Ausführungsformen der Erfindung sind in den abhängigen Ansprüche beschrieben.
  • Die Erfindung wird im Folgenden mit Hilfe der beigefügten Zeichnungen genauer beschrieben, in welchen:
  • 1 ein Flussdiagramm eines Verfahrens gemäß der Erfindung zum Übersetzen von Informationen ist;
  • 2 ein Blockdiagramm einer Anordnung gemäß der Erfindung zum Übersetzen von Informationen ist;
  • 3 Textinformationen zeigt, die in Struktursegmente unterteilt sind;
  • 4 den Übersetzungsprozess eines Strukturelements mit einem nahen Modellsegment, das in der Wissensbasis erscheint, zeigt; und
  • 5 den Übersetzungsprozess eines Struktursegments ohne nahes Modellsegment, das in der Wissensbasis erscheint, zeigt.
  • 1 zeigt ein Verfahren gemäß der Erfindung zum Übersetzen von Informationen. Zuerst werden die übersetzenden Informationen gelesen, Block 101, und werden gemäß einer ersten Regel in Struktursegmente unterteilt, Block 102. Anschließend wird das erste Struktursegment in den unübersetzten Informationen gelesen, Block 103. Das gelesene Struktursegment wird mit Modellsegmenten verglichen, die in der Wissensbasis gespeichert sind, Blöcke 104 und 110. Der Vergleich wird anschließend entsprechend einer zweiten Regel durchgeführt, die bestimmt, ob das Modellsegment einem zu übersetzenden Struktursegment nahe kommt. Wenn in der Wissensbasis ein Modellsegment gefunden wird, das zu diesem bestimmten Struktursegment nahe verwandt ist, wird ein Modellsegment, d. h. ein äquivalentes Segment, in der zweiten Sprache, das mit dem nahen Modell logisch verbunden ist, in der Wissensdatenbank gelesen, Block 121. Anschließend wird ein in die zweite Sprache übersetztes Übersetzungssegment aus dem zu übersetzenden Struktursegment auf der Grundlage des gelesenen äquivalenten Segments einer dritten Regel folgend gebildet, Block 122. Danach wird geprüft, ob es weitere nicht übersetzte Struktursegmente gibt, Block 123. Wenn noch nicht übersetzte Struktursegmente vorhanden sind, kehrt der Prozess zum Block 103 zurück, wo das folgende nicht übersetzte Struktursegment für die Übersetzung gelesen wird. Wenn im Block 123 keine nicht übersetzten Struktursegmente übrig sind, werden die Übersetzungssegmente entsprechend einer vierten Regel in Sätzen angeordnet, wobei die übersetzten Informationen anschließend gespeichert werden. Die gespeicherten Informationen können ferner z. B. auf einen Bildschirm angezeigt werden, oder z. B. auf Papier oder einer Scheibe ausgedruckt werden, Block 124.
  • Wenn im Block 110 in der Wissensbasis kein Modellsegment gefunden wird, das dem Struktursegment nahe kommt, wird dieses bestimmte Struktursegment über ein Benutzerschnittstellenmittel, z. B. einen Anzeigebildschirm, angezeigt, Block 131. Der Benutzer gibt anschließend die Übersetzung des Struktursegments, d. h. das äquivalente Segment, ein, Block 132. Das Struktursegment und das äquivalente Segment werden für eine zukünftige Verwendung als Modellsegmente in der Wissensbasis gespeichert, Blöcke 133, 134. Anschließend rückt der Prozess zum Block 123 vor, um wie oben erläutert fortzufahren. In diesem Fall ist das äquivalente Segment gewöhnlich direkt ein Übersetzungssegment, wenn der Benutzer aufgefordert worden ist, die Übersetzung des Struktursegments in Form der ursprünglichen Informationen anzugeben. Somit ist die Operation des Blocks 122 in diesem Fall nicht unabdingbar.
  • Die erste Regel, mit der die Struktursegmente identifiziert werden, kann z. B. auf der Identifikation von "Zwischenwörtern" oder von Fällen beruhen. Zwischenwörter sind z. B. Präpositionen und Partikel, die gewöhnlich Standardzeichenketten bilden. Somit können sie identifiziert werden, indem einfach die Zeichenketten, die jedes Wort bilden, z. B. mit den obigen bekannten Zeichenketten verglichen werden, die ein Zwischenwort bilden. Die Identifikation von Fällen kann z. B. mit Hilfe von Nachsilben durchgeführt werden, indem die letzten Zeichen der Wörter mit bekannten Nachsilben verglichen werden. Wie wohlbekannt ist, können die Zeichenketten, die ein Wort bilden, mittels Interpunktion getrennt sein. Da ein Struktursegment vorteilhaft mehrere Wörter umfassen kann, kann es auch ein oder mehrere Interpunktionszeichen enthalten.
  • In der einfachsten Version kann die zweite Regel, mit der ein Struktursegment mit den Modellsegmenten verglichen wird, Ähnlichkeit implizieren. In diesem Fall wird exakt das gleiche Modellsegment wie das zu übersetzende vorliegende Struktursegment in der Wissensbasis gesucht. Unter Berücksichtigung des für die Wissensbasis benötigten Speicherplatzes ist es daher nicht bevorzugt, die verschiedenen Fälle von z. B. dem Modellsegment separat in der Wissensbasis zu speichern, sondern auch ein Modellsegment mit einem anderen Fall, der zweiten Regel folgend, zu identifizieren. In dieser Situation sollte das äquivalente Segment, das mit dem Modellsegment logisch verbunden ist, auch in den Fall versetzt werden, der erforderlich ist, um ein Übersetzungssegment zu erzeugen. Dies wird gemäß der dritten Regel bewerkstelligt, die folglich Informationen über die Fälle der fraglichen Sprache abdeckt.
  • In vielen Fällen impliziert die vierte Regel, mit der die Übersetzungssegmente in übersetzten Sätzen angeordnet werden, das Platzieren der Übersetzungssegmente in der gleichen Reihenfolge, in der sich die zu übersetzenden Struktursegmente in der ersten Sprache befanden. Diese Reihenfolge kann jedoch von der Sprache abhängen, so dass auch die vierte Regel sprachspezifisch ist.
  • Bei der Speicherung der Modellsegmente kann auch vorteilhaft ein Typidentifizierer des Modellsegments gespeichert werden. In diesem Fall ist der Typidentifizierer in logischer Verbindung mit jedem Modellsegment gespeichert. Wenn Typidentifizierer verwendet werden, können verschiedene Regeln auf die Identifikation und Übersetzung des Struktursegments auf der Grundlage des Modellsegments angewendet werden, in Abhängigkeit vom Typ des Struktursegments. Typen von Struktursegmenten sind z. B. das Objekt einer Aktion, ein Eigenname, ein Verb, ein Platzwort, ein Adjektiv oder eine Redensart. Wenn Typidentifizierer verwendet werden, wird der Benutzer ferner aufgefordert, den Typ anzugeben, auf den sich das bestimmte Struk tursegment und dessen Übersetzung bezieht, wenn das Struktursegment übersetzt wird.
  • Eine Idee der Erfindung ist, die Wissensbasis im interaktiv betriebenen Übersetzungsprozess zu aktualisieren. Es ist zu beachten, dass die Aktualisierung der Wissensbasis nicht unbedingt auf die Speicherung neuer Modell- oder Äquivalentsegmente beschränkt ist, sondern die obenerwähnten Regeln ebenfalls vorteilhaft aktualisiert werden können. Die Aktualisierung wird anschließend z. B. in Verbindung mit der Übersetzung eines neuen Struktursegments durchgeführt, das vom Benutzer eingegeben wird, indem die Regelmäßigkeit der eingegebenen Übersetzung identifiziert wird.
  • Die Übersetzung eines Informationsstücks aus einer ersten Sprache in eine zweiten Sprache wurde oben beschrieben. Die vorangehenden Aktualisierungen der Wissensbasis werden bei der Übersetzung der nachfolgenden Informationsstücke vorteilhaft genutzt. Somit kann der Prozess der Erfindung zum schrittweisen Übersetzen erster und zweiter Stücke von Informationen z. B. die folgenden Schritte umfassen:
    • – Lesen erster Informationen, die als eine Zeichenkette in der ersten Sprache vorliegen,
    • – Durchführen der Übersetzung der ersten Informationen, die als eine Zeichenkette in der ersten Sprache vorliegen, auf der Grundlage von Daten in der Wissensbasis in erste Informationen, die als eine Zeichenkette in der zweiten Sprache vorliegen, bis zu dem Ausmaß, das hinsichtlich der in der Wissensbasis verfügbaren Daten machbar ist,
    • – Bestimmen zusätzlicher Daten, die erforderlich sind, um die Übersetzung der ersten Informationen, die als eine Zeichenkette in der ersten Sprache vorliegen, in erste Informationen, die als eine Zeichenkette in der zweiten Sprache vorliegen, abzuschließen,
    • – Eingeben der zusätzlichen Daten in die Wissensbasis im Hinblick auf eine Aktualisierung der Wissensbasis,
    • – Nachbearbeiten der Übersetzung der ersten Informationen, die als eine Zeichenkette in der ersten Sprache vorliegen, in erste Informationen, die als eine Zeichenkette in der zweiten Sprache vorliegen,
    • – Speichern der ersten Informationen, die als eine Zeichenkette in der zweiten Sprache vorliegen,
    • – Speichern der zweiten Informationen, die als eine Zeichenkette in der ersten Sprache vorliegen,
    • – Durchführen der Übersetzung der ersten Informationen, die als eine Zeichenkette in der ersten Sprache vorliegen, auf der Grundlage der aktualisierten Daten in der Wissensbasis in zweite Informationen, die als eine Zeichenkette in der zweiten Sprache vorliegen.
  • 2 ist ein Blockdiagramm einer Vorrichtungsanordnung der Erfindung für die Übersetzung von Informationen. Die Anordnung umfasst eine Plattenstation 21, einen Anzeigebildschirm 22 und eine Tastatur 23 als Schnittstellenmittel, die mit dem Prozessor 20 verbunden sind. Mittels der Plattenstation können zu übersetzende Informationen von der Platte der Vorrichtung zugeführt werden, wobei die übersetzten Informationen für die Verwendung in anderen Vorrichtung auf der Platte gespeichert werden können. Die fraglichen Informationen können zwischen der Vorrichtung und einer anderen Datenverarbeitungsanlage auch über einen E/A-Bus übertragen werden. Der Anzeigebildschirm 22 kann verwendet werden, um solche Struktursegmente dem Benutzer anzuzeigen, für die in der Wissensbasis keine Übersetzung gefunden worden ist. Der Benutzer kann die Übersetzung eines solchen Struktursegments unter Verwendung der Tastatur 23 eingeben. Das obenerwähnte Schnittstellenmittel kann auch bei der Überarbeitung und Korrektur von übersetzten Informationen verwendet werden.
  • Die in 2 gezeigte Vorrichtung umfasst ferner einen elektrischen Speicher 24 zum vorübergehenden Speichern unter anderem von Struktursegmenten und Übersetzungssegmenten. Außerdem umfasst die Vorrichtung einen Massenspeicher 25 zum Speichern der Wissensbasis, d. h. von Modellsegmenten, Typidentifizierern und Regeln, sowie von Programmen. Zum Beispiel kann ein Festplattenlaufwerk oder ein Optikplattenlaufwerk als Massenspeicher verwendet werden. Die obenerwähnten Komponenten können bereitgestellt werden, indem bereits bekannte Computerkomponenten veranlasst werden, gemäß der Erfindung unter Verwendung spezieller Software zu arbeiten. Zeichenketten und andere Daten werden vorzugsweise als elektrische Signale zwischen den Komponenten übertragen.
  • Die Implementierung der Erfindung ist keinesfalls auf die obenbeschriebenen Komponenten beschränkt, vielmehr kann die Anordnung der Erfindung viele unterschiedliche Konfigurationen aufweisen, die ein Fachmann aufgrund dieser Beschreibung entwerfen kann.
  • 3 zeigt einen englischen Satz, der in Struktursegmente 31, 32, 33 und 34 unterteilt ist. Wie in der Figur gezeigt ist, umfasst ein Struktursegment typischerweise sukzessiv eng verwandte Wörter in einem Satz. Ein solches Struktursegment enthält häufig auch ein Interpunktionszeichen, das die Wörter trennt.
  • 4 zeigt die Übersetzung des ersten Struktursegments des in 3 erscheinenden Satzes mit Hilfe einer Lösung der Erfindung. In der Figur wird das zu übersetzende Struktursegment 42 im Übersetzungsspeicher 41 gespeichert, wobei dieses Struktursegment mit den in der Wissensbasis 44 gespeicherten Modellsegmenten verglichen wird. In dem in 4 gezeigten Fall wurde dieses bestimmte Struktursegment im voraus in der Wissensbasis als Modellsegment 45 gespeichert, welches bei dem Vergleich gefunden wird. Wenn z. B. die vorliegenden Informationen ins Finnische zu übersetzen sind, wird das finnische Modellsegment 46, das mit dem obenerwähnten englischen Modellsegment logisch verbunden ist, in der Wissensbasis gelesen. In 4 zeigt die Doppellinie, die die Modellsegmente 45 und 46 verbindet, eine logische Verbindung. Wenn das finnische Modellsegment gelesen worden ist, wird es als Übersetzungssegment im Übersetzungsspeicher gespeichert.
  • 5 zeigt die Übersetzung des in 3 gezeigten zweiten Struktursegments mit Hilfe einer Lösung der Erfindung. In diesem Fall wurde weder ein englisches Struktursegment, das zu übersetzen ist, noch irgendein finnisches Äquivalenzsegment im voraus als Modellsegment in der Wissensbasis gespeichert. In diesem Fall wird das zu übersetzende Struktursegment 52, das im Übersetzungsspeicher 51 gespeichert ist, mit den Modellsegmenten in der Wissensbasis verglichen, wobei dann, wenn das gewünschte Äquivalenzsegment nicht in der Wissensbasis gefunden wird, das zu übersetzende Struktursegment 58 auf dem Anzeigebildschirm der Schnittstelle 57 angezeigt wird. Anschließend gibt der Benutzer die Übersetzung 59 des Struktur segments 58 über die Schnittstelle in die Wissensbasis 54 ein. Auf diese Weise werden ein englisches und ein finnisches Modellsegment in logischer Verbindung in der Wissensbasis gespeichert. Anschließend wird die finnische Übersetzung des Struktursegments als Übersetzungssegment 53 im Übersetzungsspeicher 51 gespeichert.
  • Sollten die obenerwähnten Struktursegmente in den Eingangsinformationen erneut erscheinen, werden die entsprechenden Modell- und Äquivalenzsegmente in der Wissensbasis gefunden, wobei keine Notwendigkeit besteht, den Benutzer aufzufordern, diese zu wiederholen. Wenn jedoch die folgenden Eingangsinformationen den Satz "we have expanded our operation largely in Finnland" enthalten, würde "largely" ein neues Struktursegment sein. Wenn kein nahes Modellsegment im Voraus in der Wissensbasis gespeichert worden ist, wird der Benutzer aufgefordert, die Übersetzung desselben einzugeben, wobei "largely" als ein Modellsegment in der Wissensbasis gespeichert wird, und in logischer Verbindung hiermit auch die eingegebene Übersetzung, die vom Benutzer eingegeben worden ist.
  • Es ist zu beachten, dass die Operation der Ausrüstung so beschaffen sein kann, dass der Übersetzungsprozess zuerst maschinell für die gesamten Informationen durchgeführt wird, bis zu dem Ausmaß, der mittels der in der Wissensbasis gespeicherten Modellsegmente möglich ist. Anschließend kann der Benutzer die notwendigen Übersetzungen neuer Struktursegmente in die Wissensbasis eingeben. Eine solche Anordnung hat den Vorteil, dass der Benutzer nicht beim Computer stehen muss und auf den Abschluss des Übersetzungsprozesses warten muss, sondern die Wissensbasis mit einer einzigen Eingabe zu einem beliebigen geeigneten Zeitpunkt aktualisieren kann.
  • Die Modellsegmente können in der Wissensbasis als Paar von Segmenten gespeichert sein, wobei spezifische Paare von Modellsegmenten für jedes Sprachpaar gespeichert sind. Eine weitere Möglichkeit der Vorgehensweise ist, Modellsegmente in mehreren Sprachen logisch zu verbinden, so dass die gleichen Modellsegmente als solche in der Übersetzung mehrerer Sprachpaare verwendet werden können. In diesem Fall können die Modellsegmente jeder Sprache als eine Eingabe in die Wissensbasis eingegeben werden, jedes Mal dann, wenn sie zum ersten Mal in der fraglichen Sprache erscheinen. Wenn die eingegebenen Informationen anschließend während der Übersetzung des einen Sprachpaares in die Wissensbasis eingegeben werden, werden die in der Wissensbasis enthaltenen Informationen automatisch auch in den anderen Sprachpaaren zunehmen.
  • Die Lösung der Erfindung ist prinzipiell nicht sprachspezifisch, sondern kann auf ein beliebiges Sprachpaar angewendet werden. Auch ist die Implementierung der Erfindung nicht auf "natürliche" Sprachen beschränkt, die in gewöhnlicher Kommunikation verwendet werden, da sie auch verwendet werden kann, um irgendeine Sprache, die aus Zeichenketten besteht, in eine zweite Sprache, die aus Zeichenketten besteht, zu übersetzen. Programmiersprachen und Datenaustauschprotokolle können als Beispiele solcher anderer Sprachen erwähnt werden.
  • Die Lösung der Erfindung hat viele Vorteile gegenüber dem Stand der Technik. Ihre Operation erfordert jedoch ein wenig sprachspezifische Kenntnis für die Unterteilung der Sprache in Struktursegmente. Ein zweiter Vorteil der Lösung besteht darin, dass zusätzliche Informationen während des Prozesses im Speicher gesammelt werden, so dass die Vorrichtung neue Paare von Modellsegmenten und Regeln "lernt". Mit einer direkten Konfiguration und einer kleinen Menge an Programmierung und Aktualisierung ist es somit möglich, ein effizientes Mittel für die maschinelle Übersetzung zu schaffen.
  • Die Lösung der Erfindung ist für die Verwendung in Situationen angepasst, in denen die Anordnung der Erfindung verwendet wird, um die Anforderungen mehrerer Benutzer zu erfüllen. In diesem Fall umfasst die Anordnung vorzugsweise mehrere Schnittstellen, die mit der Wissensbasis z. B. über ein Datenübertragungsnetzwerk kommunizieren können. Die Wissensbasis kann dann vorzugsweise in einer solchen Weise dezentralisiert sein, das die erste Wissensbasis, d. h. die Hauptwissensbasis, von einer gegebenen Benutzergruppe verwendet werden kann, und die zweite Wissensbasis, d. h. eine Unterwissensbasis, nur von einigen in einer solchen gegebenen Benutzergruppe verwendet werden kann. Dies ermöglicht unterschiedlichen Benutzern, ihre eigene Wissensbasis z. B. mit speziellen Wortschätzen oder Ausdrücken zu aktualisieren, ohne dass solches Wissen, das für spezielle Zwecke geeignet ist, von anderen Benutzern verwendet wird.
  • In einer solchen dezentralisierten Wissensbasis kann die Aktualisierung der ersten Wissensbasis, d. h. der Hauptwissensbasis, anhand der zweiten Wissensbasen, d. h. der Unterwissensbasen, durchgeführt werden. Die in den zweiten Wissensbasen gespeicherten Daten werden anschließend mittels vorgegebener Kriterien in die erste Wissensbasis übertragen. Ein solches Kriterium kann die Häufigkeit spezifischer Daten sein. Der Datenaustausch zwischen den Wissensbasen kann auch mittels eines gemeinsamen Hauptwissensdatenbank-Administrators stattfinden, der alle zu übertragenden Daten prüft und genehmigt.
  • Eine Anzahl von Ausführungsformen für die Lösung gemäß der Erfindung wurde oben beschrieben. Das Prinzip der Erfindung kann selbstverständlich innerhalb des Schutzumfangs der Ansprüche z. B. hinsichtlich von Einzelheiten der Ausführungsform und von Gebieten der Anwendung variieren.

Claims (12)

  1. Verfahren zur maschinellen Übersetzung von Informationen, die als Zeichenkette in einer ersten Sprache vorliegen, in eine Zeichenkette in einer zweiten Sprache, umfassend: Speichern von Modellsegmenten in einer Wissensbasis in Form von Zeichenketten in der ersten Sprache und, in logischer Verbindung mit diesen, von Modellsegmenten (133, 134) in Form von Zeichenketten in der zweiten Sprache, Identifizieren eines Struktursegments in der Zeichenkette der ersten Sprache einer ersten Regel (102) folgend, Vergleichen des identifizierten Struktursegments mit Modellsegmenten (104) in Form von Zeichenketten in der ersten Sprache, die gemäß einer zweiten Regel gespeichert sind, Anstreben einer Auswahl eines Modellsegments (110) auf der Grundlage des Vergleichs, Lesen eines Modells, d. h. eines äquivalenten Segments (121) in Form einer Zeichenkette in der zweiten Sprache, das mit dem ausgewählten Modellsegment logisch verbunden ist, und Übersetzen des Struktursegments in ein Übersetzungssegment in Form einer Zeichenkette in der zweiten Sprache auf der Grundlage des äquivalenten Segments und einer dritten Regel (122), Identifizieren eines Zwischenwortes und/oder einer Nachsilbe, wobei die erste Regel im Wesentlichen auf der Identifikation des Zwischenwortes und/oder der Nachsilbe beruht, dadurch gekennzeichnet, dass in dem Verfahren dann, wenn kein Modellsegment, das nach der zweiten Regel auszuwählen ist, als Ergebnis des Vergleichs der Struktursegmente gefun den wird, das Struktursegment mittels einer Benutzerschnittstelle (131) angezeigt wird, wobei das äquivalente Segment des angezeigten Struktursegments mittels der Benutzerschnittstelle (132, 133) in der Wissensbasis gespeichert wird, und wenigstens eine der Regeln auf der Grundlage der Daten von der Benutzerschnittstelle aktualisiert wird.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Informationen, die als Zeichenkette in der zweiten Sprache vorliegen sollen, auf der Grundlage von Übersetzungssegmenten und einer vierten Regel (124) erzeugt werden.
  3. Verfahren nach irgendeinem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass das Struktursegment ein Satzzeichen umfasst.
  4. Verfahren nach irgendeinem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass der Typbezeichner des Modellsegments in logischer Verbindung mit dem Modellsegment gespeichert wird.
  5. Verfahren nach irgendeinem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass es mehr als zwei logisch miteinander verbundene Modellsegmente gibt, die verschiedene Sprachen repräsentieren.
  6. Verfahren nach irgendeinem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass Informationen über die Benutzerschnittstelle zugeführt werden, um die Wissensbasis mit einer Auffassung zur Übersetzung der ersten Informationen zu aktualisieren, wobei die eingegebenen Daten verwendet werden, um andere Daten zu aktualisieren als diejenigen, die für die Übersetzung der ersten Informationen in der Wissensbank benötigt werden.
  7. Verfahren nach irgendeinem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass es Schritte umfasst zum Lesen der ersten Informationen, die als Zeichenkette in der ersten Sprache vorliegen, Übersetzen der als Zeichenkette in der ersten Sprache vorliegenden ersten Informationen auf der Grundlage von Daten in der Wissensdatenbank in erste Informationen, die als Zeichenkette in der zweiten Sprache vorliegen, bis zu einem Ausmaß, das durch die in der Wissensbasis verfügbaren Daten ermöglicht wird, Bestimmen der zusätzlichen Daten, die benötigt werden, um die Übersetzung der als Zeichenkette in der ersten Sprache vorliegenden ersten Informationen in erste Informationen in Form einer Zeichenkette in der zweiten Sprache abzuschließen, Zuführen der zusätzlichen Daten in die Wissensbasis, um die Wissensbasis zu aktualisieren, Abschließen der Übersetzung der als Zeichenkette in der ersten Sprache vorliegenden ersten Informationen in erste Informationen, die als Zeichenkette in der zweiten Sprache vorliegen, Speichern der in der zweiten Sprache vorliegenden ersten Informationen, Lesen der zweiten Informationen, die als Zeichenkette in der ersten Sprache vorliegen, Übersetzen der zweiten Informationen, die als Zeichenkette in der ersten Sprache vorliegen, in zweite Informationen, die als Zeichenkette in der zweiten Sprache vorliegen, auf der Grundlage der aktualisierten Daten in der Wissensbasis.
  8. Anordnung zum Übersetzen von Informationen, die als Zeichenkette in einer ersten Sprache vorliegen, in eine Zeichenkette in einer zweiten Sprache, umfassend: Wissensbasismittel (20, 25) zum Speichern von Modellsegmenten in Form von Zeichenketten in der ersten Sprache und, in logischer Verbindung mit diesen, von äquivalenten Segmenten in Form von Zeichenketten in der zweiten Sprache, und zum Speichern einer ersten, einer zweiten und einer dritten Regel, Mittel (20, 24) zum Identifizieren von Struktursegmenten in den Informationen, die als Zeichenkette in der ersten Sprache vorliegen, einer ersten Regel folgend, Mittel (20, 25) zum Vergleichen der identifizierten Struktursegmente mit den Modellsegmenten, die in Form von Zeichenketten in der ersten Sprache gespeichert sind, einer zweiten Regel folgend, Mittel (20) zum Auswählen eines Modellsegments auf der Grundlage des Vergleichs, Mittel (20, 25) zum Lesen des Modells, d. h. des äquivalenten Segments in Form einer Zeichenkette in der zweiten Sprache, das mit dem ausgewählten Modellsegment im Wissensbasismittel logisch verbunden ist, und Mittel (20, 24) zum Übersetzen des Strukturelements in ein Übersetzungssegment in Form einer Zeichenkette in der zweiten Sprache auf der Grundlage des äquivalenten Segments und einer dritten Regel, wobei das Übersetzungssegment die Informationen repräsentiert, die in der zweiten Sprache vorliegen sollen, wobei das Mittel (20, 24) zum Identifizieren des Struktursegments in den als Zeichenkette in der ersten Sprache vorliegenden Informationen Mittel zum Identifizieren eines Zwischenwortes und/oder einer Nachsilbe umfasst, wobei die erste Regel im Wesentlichen auf der Identifikation des Zwischenwortes und/oder der Nachsilbe beruht, dadurch gekennzeichnet, dass die Anordnung ein Benutzerschnittstellenmittel (22, 23) zum Verbinden des Benutzers mit dem Wissensbasismittel umfasst, dann, wenn als Ergebnis des Vergleichs der Strukturelemente kein Modellsegment, das der zweiten Regel folgend auszuwählen ist, gefunden wird, das Benutzerschnittstellenmittel (22, 23) dafür ausgelegt ist, das Struktursegment. anzuzeigen, wobei das äquivalente Segment des angezeigten Struktursegments dafür ausgelegt ist, mittels der Benutzerschnittstelle (22, 23) in der Wissensbasis gespeichert zu werden, und wenigstens eine der Regeln dafür ausgelegt ist, auf der Grundlage der Daten vom Benutzerschnittstellenmittel (22, 23) aktualisiert zu werden.
  9. Anordnung nach Anspruch 8, dadurch gekennzeichnet, dass sie ferner Mittel (20, 25) zum Erzeugen von Informationen, die als Zeichenkette in der zweiten Sprache vorliegen sollen, auf der Grundlage von wenigstens zwei Übersetzungssegmenten und einer vierten Regel umfasst.
  10. Anordnung nach Anspruch 8 oder Anspruch 9, dadurch gekennzeichnet, dass das Benutzerschnittstellenmittel mit dem Wissensbasismittel über ein Datenübertragungsnetz verbunden ist.
  11. Anordnung nach irgendeinem der Ansprüche 8 bis 10, dadurch gekennzeichnet, dass das Wissensbasismittel ein erstes Wissensbasismittel (25) und ein zweites Wissensbasismittel umfasst, so dass spezifische Benutzer Zugriff auf das erste Wissensbasismittel haben und nur einige der spezifischen Benutzer Zugriff auf das zweite Wissensbasismittel haben.
  12. Anordnung nach irgendeinem der Ansprüche 8 bis 11, dadurch gekennzeichnet, dass das Wissensbasismittel ein erstes Wissensbasismittel (25) und ein zweites Wissensbasismittel umfasst, wobei die Anordnung Mittel für die Dateneingabe von dem Benutzerschnittstellenmittel in das zweite Wissensbasismittel und Mittel zum selektiven Übertragen von in der zweiten Wissensbasis gespeicherten Daten zum ersten Wissensbasismittel umfasst.
DE69835239T 1998-05-27 1998-05-27 Verfahren und anordnung zur übersetzung von informationen Expired - Fee Related DE69835239T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/FI1998/000441 WO1999062002A1 (en) 1998-05-27 1998-05-27 A method and arrangement for translation of information

Publications (2)

Publication Number Publication Date
DE69835239D1 DE69835239D1 (de) 2006-08-24
DE69835239T2 true DE69835239T2 (de) 2007-06-14

Family

ID=8556719

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69835239T Expired - Fee Related DE69835239T2 (de) 1998-05-27 1998-05-27 Verfahren und anordnung zur übersetzung von informationen

Country Status (6)

Country Link
EP (1) EP1080424B1 (de)
JP (1) JP2002517040A (de)
DE (1) DE69835239T2 (de)
EA (1) EA004243B1 (de)
NO (1) NO319431B1 (de)
WO (1) WO1999062002A1 (de)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7096210B1 (en) 2000-03-10 2006-08-22 Honeywell International Inc. Trainable, extensible, automated data-to-knowledge translator
EP1306775A1 (de) 2001-10-29 2003-05-02 BRITISH TELECOMMUNICATIONS public limited company Maschinelle Übersetzung
FI114347B (fi) * 2002-03-20 2004-09-30 Master S Innovations Ltd Oy Menetelmä ja laitteisto datan kääntämiseksi
EP1349079A1 (de) * 2002-03-28 2003-10-01 BRITISH TELECOMMUNICATIONS public limited company Maschinenübersetzung
US8706477B1 (en) 2008-04-25 2014-04-22 Softwin Srl Romania Systems and methods for lexical correspondence linguistic knowledge base creation comprising dependency trees with procedural nodes denoting execute code
US8762130B1 (en) 2009-06-17 2014-06-24 Softwin Srl Romania Systems and methods for natural language processing including morphological analysis, lemmatizing, spell checking and grammar checking
US8762131B1 (en) 2009-06-17 2014-06-24 Softwin Srl Romania Systems and methods for managing a complex lexicon comprising multiword expressions and multiword inflection templates

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2070734C1 (ru) * 1986-10-03 1996-12-20 Бритиш Телекоммьюникейшнз Паблик Лимитед Компани Устройство для перевода фраз из нескольких слов с первого языка на второй
US6161083A (en) * 1996-05-02 2000-12-12 Sony Corporation Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation

Also Published As

Publication number Publication date
EA004243B1 (ru) 2004-02-26
DE69835239D1 (de) 2006-08-24
NO20005930D0 (no) 2000-11-23
NO319431B1 (no) 2005-08-08
NO20005930L (no) 2001-01-29
EP1080424B1 (de) 2006-07-12
EA200001108A1 (ru) 2001-06-25
JP2002517040A (ja) 2002-06-11
EP1080424A1 (de) 2001-03-07
WO1999062002A1 (en) 1999-12-02

Similar Documents

Publication Publication Date Title
DE69710458T2 (de) Verfahren und system für die berechnung von semantischen logischen formen von syntaxbäumen
DE69530816T2 (de) Textbearbeitungssystem und Verfahren unter Verwendung einer Wissensbasis
DE69322741T2 (de) Vorrichtung und Methode zur Verwendung im Ausrichten von zweisprachigen Corpora
DE3788488T2 (de) Sprachenübersetzungssystem.
DE69130747T2 (de) Übersetzungsverfahren und -system zur Übertragung zwischen zwei Sprechern mit unterschiedlicher Sprache
DE60029732T2 (de) Phrasenübersetzungsverfahren und -system
DE68928231T2 (de) Verfahren und Vorrichtung zur Maschinenübersetzung
DE69930690T2 (de) Verfahren und Gerät um einen Index herzustellen, Benutzung von einem Index und ein Speichermedium
DE3750492T2 (de) Datenbanksystem für Parallelprozessor.
DE60208604T2 (de) Automatisches Verfahren zur Erzeugung von Image-buttons
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE3032664C2 (de) Elektronisches Sprachübersetzungsgerät.
DE69418739T2 (de) Automatisches Übersetzungssystem mit Hilfe einer Zwischensprache
DE3587152T2 (de) System zur maschinellen uebersetzung.
DE69427848T2 (de) Unterstützungssystem zur Herstellung von Wörterbüchern
DE69602827T2 (de) Verfahren zum erstellen einer telekommunikationsnetzwerkdatenbasis
DE60319586T2 (de) Elektronisches wörterbuch mit beispielsätzen
DE2801610A1 (de) Verfahren zum definieren von anfangswerten fuer die textverarbeitung
DE69632835T2 (de) Verfahren zur automatischen verarbeitung von information über benutzerdaten
DE19922974A1 (de) Verfahren und Vorrichtung zur Bearbeitung eines Dokuments
DE69518677T2 (de) Elektronischer Übersetzungsapparat
DE69733294T2 (de) Einrichtung und Verfahren zum Zugriff auf eine Datenbank
DE69835239T2 (de) Verfahren und anordnung zur übersetzung von informationen
DE69837428T2 (de) Speichermedium mit elektronischer Schaltung und mit diesem Speichermedium augestatteter Sprachsynthesizer
DE69229583T2 (de) Verfahren zur Flektieren von Wörtern und Datenverarbeitungseinheit zur Durchführung des Verfahrens

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee