DE69322741T2 - Vorrichtung und Methode zur Verwendung im Ausrichten von zweisprachigen Corpora - Google Patents
Vorrichtung und Methode zur Verwendung im Ausrichten von zweisprachigen CorporaInfo
- Publication number
- DE69322741T2 DE69322741T2 DE69322741T DE69322741T DE69322741T2 DE 69322741 T2 DE69322741 T2 DE 69322741T2 DE 69322741 T DE69322741 T DE 69322741T DE 69322741 T DE69322741 T DE 69322741T DE 69322741 T2 DE69322741 T2 DE 69322741T2
- Authority
- DE
- Germany
- Prior art keywords
- file
- control commands
- source file
- files
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
- Die vorliegende Erfindung betrifft eine Vorrichtung zur Registrierung von Verbindungen zwischen Abschnitten maschinenlesbarer Quelldateien. Insbesondere betrifft die Erfindung die Registrierung derartiger Verbindungen zwischen Text in verschiedenen natürlichen Sprachen enthaltenden Quelldateien zur Erzeugung oder zum Hinzufügen eines ausgerichteten Korpus.
- Ein ausgerichteter Korpus besteht aus Worten, Phrasen und Sätzen in einer ersten Sprache, die auf im wesentlichen gleiche Worte, Phrasen oder Sätze in einer zweiten Sprache abgebildet werden. Der ausgerichtete Korpus kann bei automatischen Übersetzungssystemen verwendet werden, bei denen bei gegebenem Wort, Phrase oder Satz in einer ersten Sprache das Äquivalent in der zweiten Sprache erhalten werden kann. Gleichermaßen kann bei gegebenem Wort, gegebener Phrase oder gegebenem Satz in der zweiten Sprache das Äquivalent in der ersten Sprache erhalten werden. Dieses Prinzip kann derart ausgedehnt werden, daß ein vielsprachiges System ausgebildet wird, so daß bei gegebenem Wort, gegebener Phrase oder gegebenem Satz in einer der erhältliche Sprachen alle anderen gleichzeitig übersetzt werden können.
- Verfahren zur automatischen Erzeugung ausgerichteter Korpora wurden beispielsweise von W. A. Gale und K. W. Church in "A Program for Aligning Sentences in Bilingual Corpora" und von P. F. Brown et al. in "Aligning Sentences in Parallel Corpora", in Proceedings of the 29th Annual Meeting of the Association of Computational Linguistics, Berkeley California beschrieben. Ein vollständiges Übersetzungssystem von Brown et al. ist in der EP-A-0 525 470 beschrieben, die zum vorliegenden Anmeldedatum nicht veröffentlicht war. Bei diesen Systemen wird die Ausrichtung durch den Vergleich der Längen der Sätze entweder bezüg lich der Wortanzahl (Brown et al.) oder der Zeichenanzahl (Gale und Church) durchgeführt.
- Beide Referenzen nutzen die Verfügbarkeit des Canadian Hansard in zwei Sprachen, Französisch und Englisch aus. Brown et al. nutzen das Vorhandensein bestimmter beschreibender Kommentare in den Hansard-Texten aus, die beispielsweise die Zeit der Sprache, die Namen der Sprecher usw. anzeigen. Diese Kommentare werden als Ankerpunkte im Text verwendet, und die Satzausrichtung wird nach der Ausrichtung der Ankerpunkte durchgeführt. Sektionen der Dateien, die keine passenden Ankerpunkte aufweisen, werden ausgeklammert. Die als Ankerpunkte verwendeten Kommentare sind für den Hansard-Text spezifisch und in jeder Sprachversion verschieden.
- Der Erfindung liegt die Aufgabe zugrunde, eine verbesserte Vorrichtung zur automatischen Registrierung von Verbindungen zwischen Abschnitten maschinenlesbarer Quelldateien auszugestalten, um die Erzeugung ausgerichteter Korpora zu ermöglichen.
- Erfindungsgemäß ist eine Vorrichtung zur automatischen Registrierung von Verbindungen zwischen Abschnitten maschinenlesbarer erster und zweiter Quelldateien ausgestaltet, die jeweils Text enthalten, der in der ersten Quelldatei in einer ersten natürlichen Sprache und in der zweiten Quelldatei in einer zweiten natürlichen Sprache vorliegt, dadurch gekennzeichnet, daß jede Quelldatei ferner Steuerbefehle zur Steuerung einer automatischen Dokumentverarbeitungseinrichtung enthält, und die Vorrichtung eine Einrichtung zur Lokalisierung der Steuerbefehle in der ersten Quelldatei, eine Einrichtung zur Lokalisierung der Steuerbefehle in der zweiten Quelldatei, eine Bestimmungseinrichtung zur Bestimmung von Entsprechnungen zwischen den Steuerbefehlen in der ersten Quelldatei und den Steuerbefehlen in der zweiten Quelldatei und eine Registriereinrichtung aufweist, die auf die Bestimmungseinrichtung anspricht, um in der Vorrichtung eine Verbindung zwischen einem Textabschnitt der ersten Quelldatei, der zwischen einem Paar Steuerbefehle darin lokalisiert ist, und dem Textabschnitt der zweiten Quelldatei zu registrieren, der zwischen dem entsprechenden Paar der Steuerbefehle darin lokalisiert ist.
- Gemäß einem bevorzugten Ausführungsbeispiel der Erfindung weist die Bestimmungseinrichtung eine Einrichtung zur Speicherung einer Vielzahl von Identifizierungskodes, die jeweils jeweiligen verschiedenen Steuerbefehlen entsprechen und mit dem jeweiligen Steuerbefehl assoziiert sind, und eine Einrichtung zum Herleiten jeweiliger erster und zweiter Zwischendateien aus der ersten und der zweiten Quelldatei auf, wobei jede Zwischendatei den Inhalt der entsprechenden Quelldatei enthält, wobei aber deren Steuerbefehle durch die jeweiligen Identifizierungskodes ersetzt sind, und wobei die Bestimmungseinrichtung zur Bestimmung der Entsprechungen unter Verwendung der Identifizierungskodes der Zwischendateien betreibbar ist.
- Erfindungsgemäß ist ferner ein Verfahren ausgestaltet, wie es im Patentanspruch 6 definiert ist.
- Die Erfindung wird nachstehend anhand von Ausführungsbeispielen unter Bezugnahme auf die beiliegende Zeichnung näher beschrieben. Es zeigen:
- Fig. 1 ein System zur automatischen Übersetzung eines Texts,
- Fig. 2 den Betrieb des in Fig. 1 gezeigten Systems,
- Fig. 3 eine Übersicht eines Ausführungsbeispiels einschließlich der Erzeugung von Zwischendateien und des Vergleichs der Zwischendateien,
- Fig. 4 Einzelheiten des Betriebs einer ersten Stufe des bevorzugten Ausführungsbeispiels, die die Erzeugung der Zwischendateien betrifft, und
- Fig. 5 Einzelheiten des Betriebs einer zweiten Stufe des bevorzugten Ausführungsbeispiels, die die Erzeugung eines ausgerichteten Korpus durch den Vergleich der Zwischendateien betrifft.
- Zuerst wird das in den Fig. 1 und 2 gezeigte System beschrieben. Die Beschreibung dient dem Verständnis der Art und Weise, wie ausgerichtete Korpora bei der Übersetzung verwendet werden können. Das in den Fig. 1 und 2 gezeigte System bildet allerdings keinen speziellen Teil der Erfindung, stellt aber ein System dar, das ausgerichtete Korpora verwendet, die unter Verwendung der Verbindungen zwischen Abschnitten von Quelldateien erzeugt werden können, die automatisch durch eine Einrichtung der Erfindung registriert wurden.
- In Fig. 1 ist ein System zur Übersetzung eines Texts gezeigt, das eine Umgebung zur Anwendung eines ausgerichteten Korpus bildet.
- Operationsbefehle und Daten von dem ausgerichteten Korpus werden einer Verarbeitungseinrichtung 15 von einem Magnetfestplattenlaufwerk 16 zugeführt. Ein Diskettenlaufwerk 17 nimmt Eingabetext in einer ersten Sprache enthaltende Disketten auf und empfängt auch Daten bezüglich eines Ausgabetexts in einer zweiten Sprache, der in eine separate Datei auf der Diskette geschrieben ist. Am Ende des Vorgangs speichert die Diskette die ursprüngliche Datei des Eingangstexts plus dem übersetzten Ausgabetext in einer separaten Datei.
- Das in Fig. 1 gezeigte System könnte anstelle eines Ersatzes für einen Übersetzer als Unterstützung für den Übersetzer verwendet werden. Somit könnte jeder Satz oder jeder Teil eines Satzes auf einer Ausgabeeinrichtung wie einer visuellen Anzeigeeinrichtung 18 angezeigt werden, während Informationen der Verarbeitungseinrichtung 15 über eine Eingabeeinrichtung wie eine Tastatur 19 zugeführt werden könnten.
- Der Betrieb eines derartigen Systems kann wie in Fig. 2 gezeigt aussehen. Wie es vorstehend angeführt ist, ist ein ausgerichteter Korpus 21 auf dem Magnetfestplattenlaufwerk 16 oder einer ähnlichen Einrichtung resident, eine Eingabedatei ist auf dem Diskettenlaufwerk 17 oder einer ähnliche Einrichtung resident und die Ausgabedatei wird nach ihrer Erzeugung durch die Verarbeitungseinrichtung 15 auf das Diskettenlaufwerk 17 geschrieben. Bei einer alternativen Anordnung könnten zwei Diskettenlaufwerke vorgesehen sein und die Ausgabedatei könnte auf das zweite Laufwerk geschrieben werden. Alternativ dazu könnte die Ausgabedatei auf das Festplattenlaufwerk 16 oder eine andere geeignete Speichereinrichtung geschrieben werden.
- Dokumente werden seitenweise verarbeitet. Das in Fig. 2 gezeigte Ablaufdiagramm beschreibt daher den Betrieb des Systems unter Bezugnahme auf eine einzelne Seite. Eine Seite kann geladen werden, die tatsächlich keine Informationen enthält, und es ist wichtig, daß das System nicht gesperrt wird, wenn keine Informationen zur Verarbeitung vorliegen. In Schritt 24 wird abgefragt, ob das Ende der Seite erreicht wurde. Wurde es erreicht, hält der Ablauf an Schritt 25 an. Normalerweise enthält die Seite Text, und daher wird der erste Satz der Eingabedatei in Schritt 26 gelesen. Dann wird in Schritt 27 eine Überprüfung bezüglich des ausgerichteten Korpus 21 diesbezüglich durchgeführt, ob der berücksichtigte Satz in dem Korpus vorhanden ist. Ist der Eingabesatz in dem Korpus vorhanden, wird der ausgerichtete Ausgabesatz von dem Korpus zurückgegeben und in Schritt 28 die übersetzte Form des Satzes in die Ausgabedatei geschrieben. Bei einem Ausführungsbeispiel kann der Bediener zur Überprüfung der Übersetzung mittels der Zufuhr der Übersetzung zu der visuellen Anzeigeeinrichtung 18 aufgefordert werden, bevor die Daten tatsächlich in die Ausgabedatei geschrieben werden. Allerdings wird bei dem in Fig. 2 dargestellten Ausführungsbeispiel die Übersetzung automatisch durchgeführt, um die Verarbeitungsgeschwindigkeit zu verbessern.
- Ist als Ergebnis der in Schritt 27 durchgeführten Überprüfung der Eingabesatz nicht in dem Korpus vorhanden, wird der Bediener zur Durchführung einer Eingabe der korrekten Übersetzung in Schritt 29 über die Tastatur 19 aufgefordert. In Schritt 30 wird die von dem Bediener bereitgestellte Übersetzung in die Zieldatei geschrieben und es wird eine Überprüfung in Schritt 31 für den Bediener durchgeführt, ob die neue Übersetzung zu dem Korpus hinzugefügt werden soll. Bestätigt der Bediener dies, wird die neue Ausrichtung in Schritt 32 zu dem Korpus hinzugefügt. Ist die Antwort des Bedieners negativ, wird Schritt 32 ignoriert.
- Somit werden als Antwort auf jede Anforderung zur Übersetzung eines Satzes drei Antworten möglich. Bei der ersten ist die Übersetzung in dem Korpus vorhanden und die Übersetzung wird automatisch in die Ausgabedatei geschrieben. Alternativ dazu ist der Satz nicht in dem Korpus vorhanden, eine Eingabe wird durch den Bediener vorgenommen und die Übersetzung wird dann zu dem Korpus hinzugefügt, nachdem sie in die Ausgabedatei geschrieben wurde. Bei der dritten Antwort ist der Satz nicht in dem Korpus vorhanden, wiederum wird eine Eingabe durch den Bediener vorgenommen, aber diesmal wird die neue Übersetzung nicht zu dem Korpus hinzugefügt.
- Nach dem Schreiben eines Satzes in die Ausgabedatei kehrt der Ablauf zu Schritt 24 zurück, bei dem noch einmal überprüft wird, ob das System das Ende der Seite erreicht hat. Ist die Antwort negativ, wird wiederum ein weiterer Satz in Schritt 26 gelesen und der Ablauf wiederholt. Am Ende der Seite stoppt der Ablauf an Schritt 25, wie es vorstehend angeführt ist.
- Somit ist ersichtlich, daß, unter der Annahme daß wiederholt ähnliche Gegenstände übersetzt werden, das System lernen wird und sich die Einträge in dem Korpus erweitern. Die Wissensbasis des Korpus wird sich erhöhen, und eventuell ist ein manuelle Übersetzungen vornehmender Bediener nicht länger erforderlich und kann von einem Bediener mit minimalen Fähigkeiten ersetzt werden. Möglicherweise laufen mehrere Systeme parallel, und es kann eine manuelle Übersetzungseinrichtung gelegentlich zur Unterstützung von Bedienern ohne Fachkenntnis erforderlich sein.
- Ein Problem bei dem in Fig. 2 gezeigten System besteht darin, daß signifikante Betriebsmittel zur Ausbildung des Korpus bis zu dem Punkt erforderlich sind, an dem Bediener ohne Fachwissen eingesetzt werden können. Zu Beginn ist es wahrscheinlich, daß die Verwendung des Systems tatsächlich länger als eine einfache manuelle Übersetzung dauern wird. Des weiteren ist es auch sehr wahrscheinlich, daß Systems, die möglicherweise in dem gleichen Büro betrieben werden, sich unterschiedlich entwickeln, wobei ein Korpus auf einem System sich merklich von einem Korpus auf einem anderen System unterscheidet, so daß es scheint, als ob Bediener mit verschiedenen Geschwindigkeiten arbeiten, was zu weiteren Unkalkulierbarkeiten führt.
- Der Betrieb des Systems zur Erzeugung eines ausgerichteten Korpus gemäß der Erfindung kann unter Verwendung einer Hardware durchgeführt werden, die im wesentlichen gleich der in Fig. 1 gezeigten ist, wobei die Verarbeitung in der Verarbeitungseinrichtung 15 im Ansprechen auf von dem Magnetfestplattenlaufwerk 16 oder einer ähnlichen Einrichtung empfangene Anweisungen bzw. Befehle durchgeführt wird, wobei Ausgabedaten auf das Plattenlaufwerk 16 oder das Diskettenlaufwerk 17 oder eine ähnliche Einrichtung geschrieben werden.
- Der Betrieb des Systems zur Erzeugung eines ausgerichteten Korpus ist in Fig. 3 dargestellt.
- In Schritt 310 ist es erforderlich, korrelierte Kopien in verschiedenen Sprachen der gleichen Dokumentation zu erzeugen oder herbeizuführen. In einigen Situationen ist diese Dokumentation nicht verfügbar. Somit muß eine Entscheidung mit der Wirkung getroffen werden, daß alle Dokumentationen in der Zukunft, wenn Übersetzungen in mehreren verschiedenen Sprachen erforderlich sind, in korrelierter Form erzeugt werden sollen, d. h., das Layout aller Versionen sollte gleich bzw. ähnlich sein, so daß die WP-(Textverarbeitungs-)Dateien im wesentlichen die gleichen WP-spezifischen Befehle enthalten, wobei lediglich der zwischen diesen Befehlen enthaltene Text tatsächlich unterschiedlich ist, da der Text in verschiedenen natürlichen Sprachen geschrieben ist.
- In vielen Situationen kann Text dieser Art bereits verfügbar sein, und es kann ein schneller Fortschritt unter Verwendung der Erfindung in Richtung der Ausbildung extensiver Korpora gemacht werden. Insbesondere können Texte erzeugt worden sein, die sich auf einen Gegenstand ähnlich dem beziehen, für den ein Korpus erzeugt wird. Somit können Gerätehandbücher bezüglich bestimmter Gerätearten erzeugt worden sein, bei denen, obwohl Entwicklungen gemacht und Modifikationen eingeführt wurden, die Terminologie ziemlich konsistent ist. Daher sorgt dieser Text nicht nur für die schnelle Erzeugung eines sinnvollen Korpus sondern stellt auch sicher, daß die für nachfolgende Modelle verwendete Terminologie mit der zuvor verwendeten Terminologie konsistent ist.
- Bei diesem Beispiel wird angenommen, daß ein Korpus ausgebildet wird, der Sätze, Phrasen und Worte zweier Sprachen ausrichtet, obwohl auch, wie vorstehend angeführt, Sätze, Phrasen und Worte von mehr als zwei Sprachen ausgerichtet werden können.
- In Schritt 320 wird eine erste Quelldatei unter Verwendung des in Fig. 4 ausführlich dargestellten Vorgangs zur Erzeugung einer ersten Zwischendatei gelesen. Eine Zwischendatei ist eine Datei, in der die WP-spezifischen Befehle in Zeichen übersetzt wurden, die innerhalb des Bereichs druckbarer Zeichen in dem Zeichensatz, wie dem ASCII-Zeichensatz, liegen, und durch ein Zeichen (oder einen Satz aus Zeichen) abgegrenzt sind, daß sie als solche identifiziert. Eine Tabelle ist zur Abbildung WP- spezifischer Befehle auf identifizierbare Zeichenketten vorgesehen. Bei der Verwendung verschiedener WP-Systeme ist es daher nur erforderlich, Einträge in dieser Tabelle zu verbessern, und es sind keine Modifikationen des Rests des Systems erforderlich.
- In Schritt 330 wird der in Fig. 4 gezeigte Vorgang zur Erzeugung einer zweiten Zwischendatei aus der zweiten Quelldatei wiederholt. Somit sind nach Beendigung dieses Schritts zwei Zwischendateien verfügbar, die jeweils aus der ersten Sprache und der zweiten Sprache hergeleitet sind. In Schritt 340 wird das in Fig. 5 gezeigte System zum Vergleichen der Zwischendateien zur Erzeugung eines ausgerichteten Korpus verwendet. Danach wird in Schritt 350 abgefragt, ob dem Korpus ausreichende Daten zugeführt wurden, und wird diese Frage mit nein beantwortet, kehrt der Ablauf zu Schritt 310 zurück und es wird ein weiteres Paar korrelierter Dokumente gelesen. Somit kann die Anzahl von Iterationen von der Anzahl verfügbarer Eingabedateien abhängen, oder wenn viele Dateien ähnlich sind, werden weniger als all diese verarbeitet. Wiederum ist es auch möglich, daß ungenügende Eingabedateien zur Erzeugung eines Korpus jedes Werts verfügbar sind und die Verarbeitung auf Halten eingestellt werden muß, bis weitere korrelierte Kopien verfügbar werden.
- Wurde einmal der Korpus erzeugt und eine bestätigende Antwort auf die in Schritt 350 erhobene Frage gegeben, kann der Korpus in einem Übersetzungssystem der vorstehend bezüglich Fig. 2 beschriebenen Art verwendet werden, wie es in Schritt 360 angeführt ist.
- Somit besteht die Erzeugung eines ausgerichteten Korpus im wesentlichen aus zwei Stufen. Die erste Stufe erzeugt Zwischendateien, in denen WP-Befehle in eine identifizierbare Form umgewandelt werden, und die zweite Stufe besteht aus dem Vergleich korrelierter Zwischendateien zur Erzeugung von Einträgen für den ausgerichteten Korpus.
- Durch Textverarbeitungssysteme erzeugte WP-Datendateien enthalten druckbare Zeichen, nicht druckbare Zeichen und andere Nicht-Zeichendaten. Effektiv gesehen ist die Datei eine Folge von Bytes, wobei jedes Byte ein Zeichen oder einen anderen Datentyp darstellt. In den in Fig. 3 gezeigten Schritten 320 und 330 des Systems werden Text-definierende ASCII-Zeichen in unmodifizierter Form beibehalten. Bilden ASCII-Kodes oder ähnliche Kodes die Grundlage vieler WP-Systeme, tendiert der für jedes Textzeichen verwendete Kode dazu, der gleiche für jedes WP- System zu sein. Somit werden während der Erzeugung der Zwischendateien Textzeichen nicht modifiziert, und diese Zeichen bilden die Basis zur Definition von Ausrichtungen, die dem ausgerichteten Korpus zugeführt werden können.
- Bei alternativen Ausführungsbeispielen können andere Kodes als ASCII-Kodes verwendet werden, wie EBCDIC, BCDIC oder ein 16- Bit-Zeichensatz, wie UNICODE.
- Anders als die Textzeichen tendieren die Befehlszeichen dazu, auf spezifische Art und Weise bei jedem Textverarbeitungssystem verwendet zu werden. Die Wahl, welche Zeichen für eine bestimmte Darstellung verwendet werden, ist rein willkürlich. Die Zeichen werden erzeugt, wenn die Datei erzeugt wird. Wenn die Datei gedruckt wird, werden die Zeichen durch das WP-System zur Zufuhr geeigneter Befehle zu einem Drucker interpretiert. Für gewöhnlich enthält jedes WP-System eine Vielzahl von Programmen, die für gewöhnlich als Druckertreiber bezeichnet werden, die sicherstellen, daß im Ansprechen auf die durch das WP- System erzeugten Steuerbefehle geeignete Befehle für das bestimmte Fabrikat des verwendeten Druckers zu dem Drucker gesendet werden, um den gewünschten Effekt zu erhalten.
- In den Zwischendateien wurden WP-Befehle in eine gemeinsame identifizierbare Form umgewandelt, um Textblöcke abzugrenzen, die mit einem ähnlichen Textblock in der parallelen korrelierten Datei ausgerichtet werden können. Folgendes ist eine vereinfachte Version einer typischen Eingabedatei:
- (a) code - LARGE TEXT
- code - UNDERLINE TEXT
- text 1
- code - NORMAL SIZE
- code - PARAGRAPH
- text 2
- text 3
- text 4
- Die Zeichenkette in diesem Beispiel enthält zuallererst einen Kode, der bestimmt, daß der folgende Text zu vergrößern ist, beispielsweise für die Ausbildung einer Überschrift. Der nachfolgende Kode legt fest, daß der folgende Text auch zu unterstreichen ist. Danach enthält die Kette einen Kode, der den Interpretierer dazu anweist, die Zeichengröße auf die normale Größe zurückzusetzen, wobei ein weiterer Kode folgt, der den Beginn des Paragraphen bzw. Abschnitts bestimmt.
- Eine Zwischendatei wird aus der vorstehend angeführten Datei erzeugt und besteht aus dem folgenden:
- (b) < LT>
- < UL>
- text 1
- < NS>
- < PA>
- text 2
- text 3
- Die nicht druckbaren Kodes werden in druckbare (Zeichen-)Ketten umgewandelt und in winkligen Klammern oder anderen Identifizierungsbegrenzern angeordnet, um sie als solche zu identifizieren. Somit ergibt sich der Kode für "large text" zu LT in winkligen Klammern und, auf ähnliche Weise, der Kode für "underline text" zu UL in winkligen Klammern.
- Der Text bleibt unmodifiziert, da es sich um diese Abschnitte der Zwischendateien handelt, die dem ausgerichteten Korpus zu geführt werden. Die in den winkligen Klammern angeordneten Zeichen müssen keine Informationen als solche tragen. Der Zweck dieser Zeichen besteht in der Ausbildung einer Ausrichtung zwischen den zwei Zwischendateien, so daß ein aus korrelierten Eingabedateien hergeleitetes Paar von Zwischendateien ähnliche Sätze bzw. gleiche Sätze von WP-Befehlen enthält.
- Somit wird unter Berücksichtigung von zwei aus korrelierten Texten erhaltenen Zwischendateien jede Zwischendatei durch die Befehle LT und UL in Winkelklammern initiiert. Diese Kennung wird dann als Mittel zur Ausrichtung des nachfolgenden Texts verwendet. Das heißt, der Text 1 einer ersten Zwischendatei wird mit dem Text 1 einer zweiten Zwischendatei ausgerichtet.
- In Fig. 4 ist ein System zur Erzeugung von Zwischendateien gezeigt. Jede Quelldatei 41 kann viele Seiten enthalten, und die Datei wird seitenweise verarbeitet. Die Datei 41 kann in irgendeiner Sprache vorliegen, und daher kann bei der Verarbeitung der zwei Quelldateien jeweils das gleiche System verwendet werden. Das System in Fig. 4 betrifft die WP-Befehle, wobei außerhalb des druckbaren ASCII-Bereichs liegende Zeichen und WP- Befehle in Zeichenketten innerhalb dieses Bereichs umgewandelt werden, wie es vorstehend beschrieben ist, wobei Winkelklammern zur Identifizierung dieser hinzugefügt werden. Die Tabelle 42 hängt von der Art des verwendeten WP-Systems ab, und bei der Verwendung eines unterschiedlichen WP-Systems muß die Tabelle 42 ersetzt werden. Die Tabelle 42 ist daher als separate Datei beispielsweise auf der Platte 16 gespeichert, und während des Betriebs wird die bestimmte benötigte Tabelle durch einen Aufruf der Tabellendatei ausgewählt.
- Die Datei 41 ist die Quelleneingabedatei, und ein in Fig. 2 gezeigtes System ist nicht zur Erzeugung einer separaten Zwischendatei eingerichtet. Die Zwischendatei wird durch Modifikation von Einträgen in der Quelldatei derart erzeugt, daß die nach der Beendigung des Ablaufs in Fig. 4 erzeugte Zwischenda tei die gleichen Speicherplätze wie die zu Beginn gelesene Quelldatei 41 belegt.
- Es ist möglich, wenn auch unwahrscheinlich, daß eine Eingabequelldatei 41 lehr ist, und daher ist es wichtig, daß das in Fig. 4 gezeigte System aufgrund einer Unfähigkeit zur Identifikation von Daten in der Datei nicht scheitert. In Schritt 43 wird daher abgefragt, ob eine andere Seite in der Datei 41 vorhanden ist, und wird diese Frage mit nein beantwortet, stoppt der Betrieb des Systems im Schritt 44. Wartet eine andere Seite in der Datei 41, wird die Frage in Schritt 43 mit ja beantwortet, und die Seite wird in Schritt 44 gelesen.
- Systeme zum Austauschen eines Eintrags durch einen anderen sind als solche bekannt, und für gewöhnlich wird ein Austausch dieser Art durch aufeinanderfolgendes Beobachten einer Eingabekette durchgeführt, und, wenn ein neues Zeichen ankommt, wird ein Vergleich mit Einträgen in einer Nachschlagetabelle durchgeführt, um nachzusehen, ob ein Austausch vorgenommen werden kann. Bei der vorliegendsn Anwendung wurde ein derartiger Versuch allerdings derart eingeschätzt, daß er bei dem Erfordernis verschiedener Tabellen 42 für unterschiedliche Textverarbeitungssysteme Probleme verursacht. Daher wird die Durchführung des Vorgangs auf entgegengesetzte Weise attraktiv. Somit wird die ganze Seite im Speicher gehalten und in der Tabelle 42 gespeicherte Tabellenwerte werden aufeinanderfolgend gelesen. Somit wird der ersten Wert in der Tabelle 42 gelesen und die gesamte Seite abgetastet, um zu überprüfen, ob dieser Wert in der Datei vorhanden ist. Ist der Wert in der Datei vorhanden, werden die Einträge ausgetauscht. Das heißt, der WP-spezifische Wert wird durch den aus der Tabelle 42 gelesenen neuen Wert ersetzt.
- Somit wird in Schritt 45 abgefragt, ob ein anderer Eintrag in der Umwandlungstabelle 42 vorhanden ist. Zu Beginn muß diese Frage mit ja beantwortet werden, woraufhin der erste Eintrag aus der Tabelle 42 in Schritt 46 gelesen wird. In Schritt 47 wird abgefragt, ob bezüglich des aus der Tabelle 42 gelesenen Eintrags ein WP-spezifischer Eintrag in der von der Datei 41 gelesenen Seite gefunden wurde. Wurde nach der Abtastung der gesamten Seite kein derartiger Eintrag gefunden, wird die Frage in Schritt 47 mit nein beantwortet, und es wird nochmals in Schritt 45 überprüft, ob ein anderer Eintrag in der Umwandlungstabelle vorhanden ist. Wird ein Eintrag auf der Seite gefunden, wird in Schritt 48 der Austausch durchgeführt, und in Schritt 49 wird der Abtastvorgang durch die Abfrage fortgesetzt, ob das Ende der Seite erreicht wurde. Wenn nicht, wird die Abtastung durch Rückkehr zu Schritt 47 fortgesetzt, wo überprüft wird, ob der Eintrag in dem Dokument vorhanden ist. Somit wird eine vollständige Abtastung für den Eintrag durchgeführt und der Abtastvorgang durch die Unfähigkeit zum Auffinden eines Eintrags, was in Schritt 47 erfaßt wird, oder durch das Erreichen des Seitenendes beendet, was in Schritt 49 identifiziert wird.
- Nachdem die Seite für einen Eintrag in der Tabelle 42 abgetastet wurde, wird in Schritt 45 noch einmal abgefragt, ob ein weiterer Eintrag in der Umwandlungstabelle vorhanden ist. Nachdem alle Einträge in der Umwandlungstabelle über die betreffende Seite abgetastet wurden, wird die in Schritt 45 gestellte Frage mit nein beantwortet, woraufhin die Wiederholung der in Schritt 43 gestellten Frage folgt, ob eine weitere Seite vorhanden ist. Ist eine weitere Seite vorhanden, wird diese aus der Datei 41 gelesen und die Verarbeitung wiederholt. Schließlich sind alle Seiten aus der Datei 41 gelesen, und die in Schritt 43 gestellte Frage wird mit nein beantwortet, woraufhin der Ablauf in Schritt 44 anhält.
- Das System zur Erzeugung eines ausgerichteten Korpus, wie es in Schritt 44 in Fig. 3 definiert ist, ist in Fig. 5 ausführlich dargestellt.
- Das bezüglich Fig. 4 beschriebene System wurde zweimal zur Erzeugung von zwei Zwischendateien 51, 52 verwendet. Die Zwi schendateien werden aus in unterschiedlichen natürlichen Sprachen geschriebenen korrelierten parallelen Dateien hergeleitet, die dem System über Disketten und Diskettenlaufwerke 17 zugeführt werden.
- Das System wird in Schritt 53 initiiert, woraufhin in Schritt 54 die zwei Zwischendateien 51, 52 durch die Vorrichtung unter der Steuerung eines im Handel erhältlichen Differenzdatei- Vergleicherprogramms verglichen werden. Ein geeignetes Dateivergleicherprogramm ist beispielsweise DIFF, das in UNIX- Betriebssystemen vorgesenen und aufrufbar ist.
- DIFF listet die Unterschiede zwischen zwei Dateien auf, was als Minimalprotokoll von Zeilenaufbereitungen (oder Formulierungen) ausgedrückt wird, die dazu erforderlich sind, die eine Datei mit der anderen in Übereinstimmung zu bringen. Die Zwischendateien 51, 52 liefern Einaben für einen DIFF-Aufruf, der wiederum ein Protokoll bzw. eine Liste von zur Umwandlung von Zeilen der Datei 51 in Zeilen der Datei 52 erforderlichen Formulierungen erzeugt. Somit sind die Zeilen, die keine Modifikation erfordern, diejenigen, die die WP-Formatierungsbefehle enthalten, die den zwei Zwischendateien gemein sind. Gleichermaßen erfordern die entsprechende Textstücke enthaltenden Zeilen Veränderungen zwischen den Dateien. Somit identifiziert das DIFF- Programm Zeilen, die sich zwischen den zwei Dateien nicht unterscheiden, die wiederum Zeilen darstellen, die zu dem ausgerichteten Korpus 61 geschrieben werden können.
- Drei Arten von Formulierungen werden durch das DIFF-Programm bei dessen Vergleich der zwei Zwischendateien erzeugt, die aus "Löschen", "Anhängen" und "Ändern" bestehen.
- Eine "Löschen"-Formulierung markiert ein Textstück oder einen WP-Formatierungsbefehl in der Zwischendatei 51 als in der Zwischendatei 52 nicht vorhanden. Derartige Formulierungen werden vom System ignoriert, da sie keine sinnvollen Ausrichtungsdaten liefern.
- Eine "Anhängen"-Formulierung markiert einen Textteil oder WP- Formatierungsbefehl in der Zwischendatei 52 als in der Zwischendatei 51 nicht vorhanden. Gleichermaßen werden diese "Anhängen"-Formulierungen vom System ignoriert, da sie keine sinnvollen Ausrichtungsdaten liefern.
- Eine "Ändern"-Formulierung markiert ein Textstück der Zwischendatei 51 und ein übereinstimmendes Textstück der Zwischendatei 52. Diese "Ändern"-Formulierungen liefern sinnvolle Ausrichtungsdaten.
- Die "Ändern"-Formulierung identifiziert einen Zeilenbereich in der Zwischendatei 51 als von einem gleichen Zeilenbereich in der Zwischendatei 52 unterschiedlich. Dieser Unterschied ist deshalb vorhanden, da, obwohl der Informationsinhalt der gleiche ist, der Text der Dateien 51 und 52 in unterschiedlichen Sprachen vorliegt.
- Somit ist die Ausrichtung möglich, da der Text, der auszurichten ist und die gleichen Informationen in unterschiedlichen Sprachen darstellt, tatsächlich verschieden ist, und diese Unterschiede können zwischen den zwei Dateien identifiziert werden. Allerdings werden Textabschnitte, die als unterschiedlich identifiziert werden und daher ausgerichtet werden können, durch die Begrenzer in der Textdatei identifiziert. Anders als der Text sind diese Begrenzer zwischen den zwei Dateien im wesentlichen äquivalent, vorausgesetzt, daß äquivalente Formatierungsbefehle verwendet werden. Somit werden Abschnitte des Texts, die äquivalent sind, zum Trennen von Abschnitten des Texts verwendet, die als unterschiedlich identifiziert werden, und diese Abschnitte des Texts, die als unterschiedlich identifiziert sind, bilden dann die Grundlage zur Ausbildung der Eingabe für den ausgerichteten Korpus.
- Die Ausgabe in Schritt 54 besteht aus einer Liste von durch das DIFF-Programm erzeugten Formulierungen für die Zwischendateien 51, 52. Jede Formulierung wird wiederum in Schritt 55 gelesen, und wenn keine Formulierungen mehr vorhanden sind, wird der Ablauf in Schritt 63 beendet. Ist eine Formulierung für das Lesen verfügbar, wird sie gelesen und in Schritt 56 überprüft, ob es sich um eine "Ändern"-Formulierung handelt. Handelt es sich nicht um eine "Ändern"-Formulierung, kehrt der Ablauf zu Schritt 55 zurück, und es wird die nächste Formulierung gelesen. Handelt es sich um eine Ändern-Formulierung, wird in Schritt 57 der Text der Sprache 1 aus der Formulierung extrahiert, und in Schritt 58 wird der Text der Sprache 2 extrahiert. Aus den in den Schritten 57 und 58 erhaltenen Texten der Sprachen 1 und 2 wird in Schritt 59 ein ausgerichtetes Paar entsprechender Texte ausgebildet.
- In Schritt 60 wird ein Vergleich diesbezüglich durchgeführt, ob diese Ausrichtung bereits in dem ausgerichteten Korpus 61 vorhanden ist. Ist dieser Eintrag bereits vorhanden, woraus sich die Antwort ja auf die in Schritt 60 gestellte Frage ergibt, wird die Ausrichtung ignoriert und der Ablauf für die nächste Formulierung wiederholt. Wird die in Schritt 60 gestellte Frage, ob die Ausrichtung bereits in dem Korpus vorhanden ist, mit nein beantwortet, wird die Ausrichtung in den Korpus geschrieben.
- Daraus ist ersichtlich, daß durch die Bereitstellung einer wesentlichen Anzahl von Zwischendateien, die unter Verwendung des in Fig. 4 dargestellten Systems erzeugt werden, das in Fig. 5 gezeigte System einen ausgerichteten Korpus erzeugen wird, der in Verbindung mit dem in Fig. 2 gezeigten System verwendet werden kann. Ein maximaler Gewinn kann aus dem System gezogen werden, wenn zur Erzeugung von Zwischendateien verwendete und danach zur Erzeugung des ausgerichteten Korpus verwendete Quelldateien sich auf ähnliche Gegenstände wie Quelldateien beziehen, die durch das System zu übersetzen sind. Somit kann eine Gerätefamilie, wie Fotokopierer, Laserdrucker, Terminals, usw., ihren eigenen bestimmten ausgerichteten Korpus haben, der unter Verwendung von für frühere Modelle erzeugten Quelldateien er zeugt wird. Danach kann dieser Korpus zur Übersetzung der Befehlshandbücher für neue Modelle verwendet werden, was diesen Vorgang bezüglich der Konsistenz, Zuverlässigkeit und Erzeugungsgeschwindigkeit erheblich erleichtert.
- Die Erfindung wurde im Hinblick auf Begrenzer beschrieben, die durch WP-Befehle vorgesehen werden. Alternativ dazu können auch andere Begrenzer verwendet werden, wie in einer Dokumentstrukturierungssprache, wie der Standard Generalised Markup Language oder Office Document Architecture, vorgesehene Markierungen. Gleichermaßen können typographische Befehle verwendet werden, wie sie in Sprachen wie TEX, LATEX oder TROFF vorgesehen sind.
Claims (10)
1. Vorrichtung (15-19) zur automatischen Registrierung von
Verbindungen zwischen Abschnitten Maschinen-lesbarer erster
und zweiter Quelldateien (41), die jeweils Text enthalten,
der in der ersten Quelldatei in einer ersten natürlichen
Sprache und in der zweiten Quelldatei in einer zweiten
natürlichen Sprache vorliegt,
dadurch gekennzeichnet, daß
jede Quelldatei ferner Steuerbefehle zur Steuerung einer
automatischen Dokumentverarbeitungseinrichtung enthält, und die
Vorrichtung
eine Einrichtung (15) zur Lokalisierung der
Steuerbefehle in der ersten Quelldatei,
eine Einrichtung (15) zur Lokalisierung der
Steuerbefehle in der zweiten Quelldatei,
eine Bestimmungseinrichtung (15) zur Bestimmung (54) von
Entsprechungen zwischen den Steuerbefehlen in der ersten
Quelldatei und den Steuerbefehlen in der zweiten Quelldatei
und
eine Registriereinrichtung (15) aufweist, die auf die
Bestimmungseinrichtung anspricht, um in der Vorrichtung eine
Verbindung zwischen einem Textabschnitt der ersten
Quelldatei, der zwischen einem Paar der Steuerbefehle darin
lokalisiert ist, und dem Textabschnitt der zweiten Quelldatei zu
registrieren, der zwischen dem entsprechenden Paar der
Steuerbefehle darin lokalisiert ist (57-59).
2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß
die Bestimmungseinrichtung
eine Einrichtung (42) zur Speicherung einer Vielzahl von
Identifizierungscodes, die jeweils jeweiligen verschiedenen
Steuerbefehlen entsprechen und mit dem jeweiligen
Steuerbefehl assoziiert sind, und
eine Einrichtung zum Herleiten jeweiliger erster und
zweiter Zwischendateien (51, 52) aus der ersten und der
zweiten Quelldatei aufweist, wobei jede Zwischendatei den Inhalt
der entsprechenden Quelldatei enthält, wobei aber deren
Steuerbefehle durch die jeweiligen Identifizierungscodes ersetzt
sind,
wobei die Bestimmungseinrichtung (15) zur Bestimmung
(54) der Entsprechungen unter Verwendung der
Identifizierungscodes der Zwischendateien betreibbar ist.
3. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, daß
die Bestimmungseinrichtung einen Differenz-Datei-Komparator
(DIFF) aufweist, der zum Vergleichen (54) des Inhalts der
ersten und der zweiten Zwischendatei zur Bestimmung der
Entsprechungen betreibbar ist, indem in jeder Zwischendatei die
Identifizierungscodes lokalisiert werden, die die gleichen
wie jene in der anderen Zwischendatei sind.
4. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß
die Bestimmungseinrichtung einen Differenz-Datei-Komparator
(DIFF) aufweist, der zum Vergleichen des Inhalts der ersten
und der zweiten Quelldatei zur Bestimmung der Entsprechungen
betreibbar ist, indem in jeder Quelldatei die Steuerbefehle
lokalisiert werden, die die gleichen wie jene in der anderen
Quelldatei sind.
5. Vorrichtung nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß
die Steuerbefehle Textsystem-Formatierungsbefehle sind.
6. Verfahren zur automatischen Registrierung von Verbindungen
zwischen Abschnitten Maschinen-lesbarer erster und zweiter
Quelldateien (41), die jeweils Text enthalten, der in der
ersten Quelldatei in einer ersten natürlichen Sprache und in
der zweiten Quelldatei in einer zweiten natürlichen Sprache
vorliegt,
dadurch gekennzeichnet, daß
jede Quelldatei ferner Steuerbefehle zur Steuerung einer
automatischen Dokumentverarbeitungseinrichtung enthält und das
Verfahren die Schritte
Lokalisieren der Steuerbefehle in der ersten Quelldatei,
Lokalisieren der: Steuerbefehle in der zweiten
Quelldatei,
Bestimmen (54) von Entsprechungen zwischen den
Steuerbefehlen in der ersten Quelldatei und den Steuerbefehlen in der
zweiten Quelldatei, und
Registrieren (57-39) einer Verbindung zwischen einem
Textabschnitt der ersten Quelldatei, der zwischen einem Paar
der Steuerbefehle darin lokalisiert ist, und dem
Textabschnitt der zweiten Quelldatei, der zwischen dem
entsprechenden Paar der Steuerbefehle darin lokalisiert ist,
entsprechend dem Ergebnis des Bestimmungsschritts aufweist.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß
der Bestimmungsschritt die Schritte
Speichern (42) einer Vielzahl von Identifizierungscodes,
die jeweils jeweiligen verschiedenen Steuerbefehlen
entsprechen und mit dem jeweiligen Steuerbefehl assoziiert sind, und
Herleiten (43-49) jeweiliger erster und zweiter
Zwischendateien (51, 52) aus der ersten und der zweiten
Quelldatei aufweist, wobei jede Zwischendatei den Inhalt der
entsprechenden Quelldatei aufweist, wobei aber deren
Steuerbefehle durch die jeweiligen Identifizierungscodes ersetzt
sind,
wobei der Bestimmungsschritt zur Bestimmung der
Entsprechungen unter Verwendung der Identifizierungscodes der
Zwischendateien (51, 52) durchgeführt wird.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß
in dem Bestimmungsschritt ein Differenz-Datei-Komparator
(DIFF) zum Vergleichen (54) des Inhalts der ersten und der
zweiten Zwischendatei (51, 52) verwendet wird, um die
Entsprechungen durch Lokalisieren der Identifizierungscodes in
jeder Zwischendatei zu bestimmen, die die gleichen wie jene
in der anderen Zwischendatei sind.
9. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß
in dem Bestimmungsschritt ein Differenz-Datei-Komparator
(DIFF) zum Vergleichen (54) des Inhalts der ersten und der
zweiten Quelldatei verwendet wird, um die Entsprechungen
durch Lokalisieren der Steuerbefehle in jeder Quelldatei zu
bestimmen, die die gleichen wie jene in der anderen
Quelldatei sind.
10. Verfahren nach einem der Ansprüche 6 bis 9, dadurch
gekennzeichnet, daß
die Steuerbefehle Textsystem-Formatierungsbefehle sind.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB9222768A GB2272091B (en) | 1992-10-30 | 1992-10-30 | Apparatus for use in aligning bilingual corpora |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69322741D1 DE69322741D1 (de) | 1999-02-04 |
DE69322741T2 true DE69322741T2 (de) | 1999-06-02 |
Family
ID=10724271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69322741T Expired - Lifetime DE69322741T2 (de) | 1992-10-30 | 1993-10-29 | Vorrichtung und Methode zur Verwendung im Ausrichten von zweisprachigen Corpora |
Country Status (5)
Country | Link |
---|---|
US (1) | US5893134A (de) |
EP (1) | EP0597611B1 (de) |
DE (1) | DE69322741T2 (de) |
ES (1) | ES2128395T3 (de) |
GB (1) | GB2272091B (de) |
Families Citing this family (68)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69837979T2 (de) * | 1997-06-27 | 2008-03-06 | International Business Machines Corp. | System zum Extrahieren einer mehrsprachigen Terminologie |
JPH1185756A (ja) * | 1997-09-03 | 1999-03-30 | Sharp Corp | 翻訳装置及び翻訳装置制御プログラムを記憶した媒体 |
US6151022A (en) * | 1997-12-01 | 2000-11-21 | Microsoft Corporation | Method and apparatus for statically testing visual resources |
US6345243B1 (en) * | 1998-05-27 | 2002-02-05 | Lionbridge Technologies, Inc. | System, method, and product for dynamically propagating translations in a translation-memory system |
US6345244B1 (en) * | 1998-05-27 | 2002-02-05 | Lionbridge Technologies, Inc. | System, method, and product for dynamically aligning translations in a translation-memory system |
US6240409B1 (en) | 1998-07-31 | 2001-05-29 | The Regents Of The University Of California | Method and apparatus for detecting and summarizing document similarity within large document sets |
US6493709B1 (en) * | 1998-07-31 | 2002-12-10 | The Regents Of The University Of California | Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment |
US6658626B1 (en) | 1998-07-31 | 2003-12-02 | The Regents Of The University Of California | User interface for displaying document comparison information |
US6490051B1 (en) * | 1998-09-21 | 2002-12-03 | Microsoft Corporation | Printer driver and method for supporting worldwide single binary font format with built in support for double byte characters |
GB9821969D0 (en) | 1998-10-08 | 1998-12-02 | Canon Kk | Apparatus and method for processing natural language |
US7133873B1 (en) * | 1999-12-14 | 2006-11-07 | United Parcel Service Of America, Inc. | System and method for modifying output of computer program without source code modifications |
US6473729B1 (en) * | 1999-12-20 | 2002-10-29 | Xerox Corporation | Word phrase translation using a phrase index |
US6484178B1 (en) * | 1999-12-30 | 2002-11-19 | The Merallis Company | Universal claims formatter |
US8706747B2 (en) | 2000-07-06 | 2014-04-22 | Google Inc. | Systems and methods for searching using queries written in a different character-set and/or language from the target pages |
US7137108B1 (en) * | 2000-10-26 | 2006-11-14 | International Business Machines Corporation | Identifying non-externalized text strings that are not hard-coded |
US7016829B2 (en) * | 2001-05-04 | 2006-03-21 | Microsoft Corporation | Method and apparatus for unsupervised training of natural language processing units |
US8214196B2 (en) | 2001-07-03 | 2012-07-03 | University Of Southern California | Syntax-based statistical translation model |
US7146321B2 (en) * | 2001-10-31 | 2006-12-05 | Dictaphone Corporation | Distributed speech recognition system |
US7133829B2 (en) * | 2001-10-31 | 2006-11-07 | Dictaphone Corporation | Dynamic insertion of a speech recognition engine within a distributed speech recognition system |
US6785654B2 (en) | 2001-11-30 | 2004-08-31 | Dictaphone Corporation | Distributed speech recognition system with speech recognition engines offering multiple functionalities |
US6766294B2 (en) * | 2001-11-30 | 2004-07-20 | Dictaphone Corporation | Performance gauge for a distributed speech recognition system |
US20030128856A1 (en) * | 2002-01-08 | 2003-07-10 | Boor Steven E. | Digitally programmable gain amplifier |
US20030154071A1 (en) * | 2002-02-11 | 2003-08-14 | Shreve Gregory M. | Process for the document management and computer-assisted translation of documents utilizing document corpora constructed by intelligent agents |
AU2003269808A1 (en) * | 2002-03-26 | 2004-01-06 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
US7236931B2 (en) * | 2002-05-01 | 2007-06-26 | Usb Ag, Stamford Branch | Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems |
US7292975B2 (en) * | 2002-05-01 | 2007-11-06 | Nuance Communications, Inc. | Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription |
JP3943582B2 (ja) * | 2003-05-30 | 2007-07-11 | 富士通株式会社 | 対訳文対応付け装置 |
US7711545B2 (en) * | 2003-07-02 | 2010-05-04 | Language Weaver, Inc. | Empirical methods for splitting compound words with application to machine translation |
US8548794B2 (en) * | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
AU2004285259A1 (en) * | 2003-10-29 | 2005-05-12 | Benjamin M. W. Carpenter | System and method for managing documents |
US8296127B2 (en) | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US8666725B2 (en) * | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
US8972444B2 (en) | 2004-06-25 | 2015-03-03 | Google Inc. | Nonstandard locality-based text entry |
US8392453B2 (en) | 2004-06-25 | 2013-03-05 | Google Inc. | Nonstandard text entry |
WO2006042321A2 (en) * | 2004-10-12 | 2006-04-20 | University Of Southern California | Training for a text-to-text application which uses string to tree conversion for training and decoding |
US7680646B2 (en) * | 2004-12-21 | 2010-03-16 | Xerox Corporation | Retrieval method for translation memories containing highly structured documents |
US7882116B2 (en) | 2005-05-18 | 2011-02-01 | International Business Machines Corporation | Method for localization of programming modeling resources |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US7624020B2 (en) * | 2005-09-09 | 2009-11-24 | Language Weaver, Inc. | Adapter for allowing both online and offline training of a text to text system |
US8032372B1 (en) | 2005-09-13 | 2011-10-04 | Escription, Inc. | Dictation selection |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
CN101030197A (zh) * | 2006-02-28 | 2007-09-05 | 株式会社东芝 | 双语词对齐方法和装置、训练双语词对齐模型的方法和装置 |
CN101030196B (zh) * | 2006-02-28 | 2010-05-12 | 株式会社东芝 | 训练双语词对齐模型的方法和装置、双语词对齐方法和装置 |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US7805289B2 (en) * | 2006-07-10 | 2010-09-28 | Microsoft Corporation | Aligning hierarchal and sequential document trees to identify parallel data |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US7979425B2 (en) | 2006-10-25 | 2011-07-12 | Google Inc. | Server-side match |
US8433556B2 (en) | 2006-11-02 | 2013-04-30 | University Of Southern California | Semi-supervised training for statistical word alignment |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
US8831928B2 (en) * | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
TWI431491B (zh) * | 2010-12-20 | 2014-03-21 | King Yuan Electronics Co Ltd | 晶圓機台測試檔案之比對裝置以及比對方法 |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
US9305082B2 (en) * | 2011-09-30 | 2016-04-05 | Thomson Reuters Global Resources | Systems, methods, and interfaces for analyzing conceptually-related portions of text |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
CN103383680A (zh) * | 2012-05-02 | 2013-11-06 | 成都勤智数码科技股份有限公司 | It运维系统的多语化系统 |
CN103383679A (zh) * | 2012-05-02 | 2013-11-06 | 成都勤智数码科技股份有限公司 | 多语统一的it运维知识库实现方法 |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58101365A (ja) * | 1981-12-14 | 1983-06-16 | Hitachi Ltd | 機械翻訳システム |
US4734036A (en) * | 1984-11-30 | 1988-03-29 | Helene Kasha | Method and device for learning a language |
JPH0664585B2 (ja) * | 1984-12-25 | 1994-08-22 | 株式会社東芝 | 翻訳編集装置 |
JPS61223978A (ja) * | 1985-03-29 | 1986-10-04 | Toshiba Corp | 翻訳表示装置 |
US5351189A (en) * | 1985-03-29 | 1994-09-27 | Kabushiki Kaisha Toshiba | Machine translation system including separated side-by-side display of original and corresponding translated sentences |
US4965763A (en) * | 1987-03-03 | 1990-10-23 | International Business Machines Corporation | Computer method for automatic extraction of commonly specified information from business correspondence |
NL8900600A (nl) * | 1989-03-13 | 1990-10-01 | Bso Buro Voor Systeemontwikkel | Tweetalige kennisbank. |
GB9103080D0 (en) * | 1991-02-14 | 1991-04-03 | British And Foreign Bible The | Analysing textual documents |
JPH04264971A (ja) * | 1991-02-20 | 1992-09-21 | Nippon Computer Kenkyusho:Kk | 学習型共起辞書作成装置 |
US5477451A (en) * | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
JPH05151260A (ja) * | 1991-11-29 | 1993-06-18 | Hitachi Ltd | 翻訳テンプレート学習方法および翻訳テンプレート学習システム |
JP3220560B2 (ja) * | 1992-05-26 | 2001-10-22 | シャープ株式会社 | 機械翻訳装置 |
AU6018694A (en) * | 1993-04-26 | 1994-11-21 | Taligent, Inc. | Text transliteration system |
US5331556A (en) * | 1993-06-28 | 1994-07-19 | General Electric Company | Method for natural language data processing using morphological and part-of-speech information |
-
1992
- 1992-10-30 GB GB9222768A patent/GB2272091B/en not_active Expired - Lifetime
-
1993
- 1993-10-29 DE DE69322741T patent/DE69322741T2/de not_active Expired - Lifetime
- 1993-10-29 EP EP93308661A patent/EP0597611B1/de not_active Expired - Lifetime
- 1993-10-29 ES ES93308661T patent/ES2128395T3/es not_active Expired - Lifetime
-
1996
- 1996-05-21 US US08/650,967 patent/US5893134A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
GB2272091A (en) | 1994-05-04 |
US5893134A (en) | 1999-04-06 |
GB2272091B (en) | 1996-10-23 |
GB9222768D0 (en) | 1992-12-09 |
EP0597611A2 (de) | 1994-05-18 |
EP0597611B1 (de) | 1998-12-23 |
EP0597611A3 (en) | 1994-09-21 |
DE69322741D1 (de) | 1999-02-04 |
ES2128395T3 (es) | 1999-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69322741T2 (de) | Vorrichtung und Methode zur Verwendung im Ausrichten von zweisprachigen Corpora | |
DE68926845T2 (de) | Maschinenübersetzungssystem | |
DE3751716T2 (de) | System zur maschinellen Übersetzung | |
DE69400869T2 (de) | System zum transkribieren von texteingaben | |
DE69427848T2 (de) | Unterstützungssystem zur Herstellung von Wörterbüchern | |
DE19709968C2 (de) | Verfahren und System zum Übersetzen eines Dokumentes | |
DE69028592T2 (de) | Gerät zur automatischen Generierung eines Index | |
DE3751276T2 (de) | Zergliedergerät für Naturalsprachen. | |
DE69712216T2 (de) | Verfahren und gerät zum übersetzen von einer sparche in eine andere | |
DE69530816T2 (de) | Textbearbeitungssystem und Verfahren unter Verwendung einer Wissensbasis | |
DE69527026T2 (de) | Maschinelles Übersetzungssystem | |
DE68928693T2 (de) | Verfahren zur Behandlung von digitalen Textdaten | |
DE69803043T2 (de) | Übersetzungssystem | |
DE3782447T2 (de) | Dokumentverarbeitungsapparat. | |
DE3587993T2 (de) | Verfahren und Gerät zur Natursprachenverarbeitung. | |
DE68928231T2 (de) | Verfahren und Vorrichtung zur Maschinenübersetzung | |
DE3587009T2 (de) | Uebersetzungssystem. | |
DE4015905C2 (de) | Sprachanalyseeinrichtung, -verfahren und -programm | |
DE68929461T2 (de) | Verfahren zur Verarbeitung von digitalen Textdaten | |
DE3789073T3 (de) | System zur maschinellen Übersetzung. | |
DE69331044T2 (de) | Vorrichtung und Verfahren zur syntaktischen Signalanalyse | |
DE3382758T2 (de) | Verfahren zur Umwandlung einer ersten editierbaren Dokumentenform, vorbereitet von einem interaktiven Textverarbeitungssystem, in eine zweite editierbare Dokumentenform, die für ein Interaktiv- oder Stapeltextverarbeitungssystem brauchbar ist. | |
EP1671262A1 (de) | Verfahren und system zum erfassen von daten aus maschinell lesbaren dokumenten | |
DE3034510A1 (de) | Elektronisches uebersetzungsgeraet | |
DE69229583T2 (de) | Verfahren zur Flektieren von Wörtern und Datenverarbeitungseinheit zur Durchführung des Verfahrens |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: CANON K.K., TOKIO/TOKYO, JP |