DE69322741T2

DE69322741T2 - Vorrichtung und Methode zur Verwendung im Ausrichten von zweisprachigen Corpora

Info

Publication number: DE69322741T2
Application number: DE69322741T
Authority: DE
Inventors: Timothy Francis Canon Research Centr Guildford Surrey Gu2 5Yd O'donoghue; Thomas Juliusz Canon Res.Cntr.Eur.Ltd. Guildford Surrey Gu2 5Yd Wachtel
Original assignee: Canon Research Centre Europe Ltd; Canon Europa NV
Current assignee: Canon Inc
Priority date: 1992-10-30
Filing date: 1993-10-29
Publication date: 1999-06-02
Anticipated expiration: 2013-10-30
Also published as: GB2272091A; US5893134A; GB2272091B; GB9222768D0; EP0597611A2; EP0597611B1; EP0597611A3; DE69322741D1; ES2128395T3

Description

Die vorliegende Erfindung betrifft eine Vorrichtung zur Registrierung von Verbindungen zwischen Abschnitten maschinenlesbarer Quelldateien. Insbesondere betrifft die Erfindung die Registrierung derartiger Verbindungen zwischen Text in verschiedenen natürlichen Sprachen enthaltenden Quelldateien zur Erzeugung oder zum Hinzufügen eines ausgerichteten Korpus.
Ein ausgerichteter Korpus besteht aus Worten, Phrasen und Sätzen in einer ersten Sprache, die auf im wesentlichen gleiche Worte, Phrasen oder Sätze in einer zweiten Sprache abgebildet werden. Der ausgerichtete Korpus kann bei automatischen Übersetzungssystemen verwendet werden, bei denen bei gegebenem Wort, Phrase oder Satz in einer ersten Sprache das Äquivalent in der zweiten Sprache erhalten werden kann. Gleichermaßen kann bei gegebenem Wort, gegebener Phrase oder gegebenem Satz in der zweiten Sprache das Äquivalent in der ersten Sprache erhalten werden. Dieses Prinzip kann derart ausgedehnt werden, daß ein vielsprachiges System ausgebildet wird, so daß bei gegebenem Wort, gegebener Phrase oder gegebenem Satz in einer der erhältliche Sprachen alle anderen gleichzeitig übersetzt werden können.
Verfahren zur automatischen Erzeugung ausgerichteter Korpora wurden beispielsweise von W. A. Gale und K. W. Church in "A Program for Aligning Sentences in Bilingual Corpora" und von P. F. Brown et al. in "Aligning Sentences in Parallel Corpora", in Proceedings of the 29th Annual Meeting of the Association of Computational Linguistics, Berkeley California beschrieben. Ein vollständiges Übersetzungssystem von Brown et al. ist in der EP-A-0 525 470 beschrieben, die zum vorliegenden Anmeldedatum nicht veröffentlicht war. Bei diesen Systemen wird die Ausrichtung durch den Vergleich der Längen der Sätze entweder bezüg lich der Wortanzahl (Brown et al.) oder der Zeichenanzahl (Gale und Church) durchgeführt.
Beide Referenzen nutzen die Verfügbarkeit des Canadian Hansard in zwei Sprachen, Französisch und Englisch aus. Brown et al. nutzen das Vorhandensein bestimmter beschreibender Kommentare in den Hansard-Texten aus, die beispielsweise die Zeit der Sprache, die Namen der Sprecher usw. anzeigen. Diese Kommentare werden als Ankerpunkte im Text verwendet, und die Satzausrichtung wird nach der Ausrichtung der Ankerpunkte durchgeführt. Sektionen der Dateien, die keine passenden Ankerpunkte aufweisen, werden ausgeklammert. Die als Ankerpunkte verwendeten Kommentare sind für den Hansard-Text spezifisch und in jeder Sprachversion verschieden.
Der Erfindung liegt die Aufgabe zugrunde, eine verbesserte Vorrichtung zur automatischen Registrierung von Verbindungen zwischen Abschnitten maschinenlesbarer Quelldateien auszugestalten, um die Erzeugung ausgerichteter Korpora zu ermöglichen.
Erfindungsgemäß ist eine Vorrichtung zur automatischen Registrierung von Verbindungen zwischen Abschnitten maschinenlesbarer erster und zweiter Quelldateien ausgestaltet, die jeweils Text enthalten, der in der ersten Quelldatei in einer ersten natürlichen Sprache und in der zweiten Quelldatei in einer zweiten natürlichen Sprache vorliegt, dadurch gekennzeichnet, daß jede Quelldatei ferner Steuerbefehle zur Steuerung einer automatischen Dokumentverarbeitungseinrichtung enthält, und die Vorrichtung eine Einrichtung zur Lokalisierung der Steuerbefehle in der ersten Quelldatei, eine Einrichtung zur Lokalisierung der Steuerbefehle in der zweiten Quelldatei, eine Bestimmungseinrichtung zur Bestimmung von Entsprechnungen zwischen den Steuerbefehlen in der ersten Quelldatei und den Steuerbefehlen in der zweiten Quelldatei und eine Registriereinrichtung aufweist, die auf die Bestimmungseinrichtung anspricht, um in der Vorrichtung eine Verbindung zwischen einem Textabschnitt der ersten Quelldatei, der zwischen einem Paar Steuerbefehle darin lokalisiert ist, und dem Textabschnitt der zweiten Quelldatei zu registrieren, der zwischen dem entsprechenden Paar der Steuerbefehle darin lokalisiert ist.
Gemäß einem bevorzugten Ausführungsbeispiel der Erfindung weist die Bestimmungseinrichtung eine Einrichtung zur Speicherung einer Vielzahl von Identifizierungskodes, die jeweils jeweiligen verschiedenen Steuerbefehlen entsprechen und mit dem jeweiligen Steuerbefehl assoziiert sind, und eine Einrichtung zum Herleiten jeweiliger erster und zweiter Zwischendateien aus der ersten und der zweiten Quelldatei auf, wobei jede Zwischendatei den Inhalt der entsprechenden Quelldatei enthält, wobei aber deren Steuerbefehle durch die jeweiligen Identifizierungskodes ersetzt sind, und wobei die Bestimmungseinrichtung zur Bestimmung der Entsprechungen unter Verwendung der Identifizierungskodes der Zwischendateien betreibbar ist.
Erfindungsgemäß ist ferner ein Verfahren ausgestaltet, wie es im Patentanspruch 6 definiert ist.
Die Erfindung wird nachstehend anhand von Ausführungsbeispielen unter Bezugnahme auf die beiliegende Zeichnung näher beschrieben. Es zeigen:
Fig. 1 ein System zur automatischen Übersetzung eines Texts,
Fig. 2 den Betrieb des in Fig. 1 gezeigten Systems,
Fig. 3 eine Übersicht eines Ausführungsbeispiels einschließlich der Erzeugung von Zwischendateien und des Vergleichs der Zwischendateien,
Fig. 4 Einzelheiten des Betriebs einer ersten Stufe des bevorzugten Ausführungsbeispiels, die die Erzeugung der Zwischendateien betrifft, und
Fig. 5 Einzelheiten des Betriebs einer zweiten Stufe des bevorzugten Ausführungsbeispiels, die die Erzeugung eines ausgerichteten Korpus durch den Vergleich der Zwischendateien betrifft.
Zuerst wird das in den Fig. 1 und 2 gezeigte System beschrieben. Die Beschreibung dient dem Verständnis der Art und Weise, wie ausgerichtete Korpora bei der Übersetzung verwendet werden können. Das in den Fig. 1 und 2 gezeigte System bildet allerdings keinen speziellen Teil der Erfindung, stellt aber ein System dar, das ausgerichtete Korpora verwendet, die unter Verwendung der Verbindungen zwischen Abschnitten von Quelldateien erzeugt werden können, die automatisch durch eine Einrichtung der Erfindung registriert wurden.
In Fig. 1 ist ein System zur Übersetzung eines Texts gezeigt, das eine Umgebung zur Anwendung eines ausgerichteten Korpus bildet.
Operationsbefehle und Daten von dem ausgerichteten Korpus werden einer Verarbeitungseinrichtung 15 von einem Magnetfestplattenlaufwerk 16 zugeführt. Ein Diskettenlaufwerk 17 nimmt Eingabetext in einer ersten Sprache enthaltende Disketten auf und empfängt auch Daten bezüglich eines Ausgabetexts in einer zweiten Sprache, der in eine separate Datei auf der Diskette geschrieben ist. Am Ende des Vorgangs speichert die Diskette die ursprüngliche Datei des Eingangstexts plus dem übersetzten Ausgabetext in einer separaten Datei.
Das in Fig. 1 gezeigte System könnte anstelle eines Ersatzes für einen Übersetzer als Unterstützung für den Übersetzer verwendet werden. Somit könnte jeder Satz oder jeder Teil eines Satzes auf einer Ausgabeeinrichtung wie einer visuellen Anzeigeeinrichtung 18 angezeigt werden, während Informationen der Verarbeitungseinrichtung 15 über eine Eingabeeinrichtung wie eine Tastatur 19 zugeführt werden könnten.
Der Betrieb eines derartigen Systems kann wie in Fig. 2 gezeigt aussehen. Wie es vorstehend angeführt ist, ist ein ausgerichteter Korpus 21 auf dem Magnetfestplattenlaufwerk 16 oder einer ähnlichen Einrichtung resident, eine Eingabedatei ist auf dem Diskettenlaufwerk 17 oder einer ähnliche Einrichtung resident und die Ausgabedatei wird nach ihrer Erzeugung durch die Verarbeitungseinrichtung 15 auf das Diskettenlaufwerk 17 geschrieben. Bei einer alternativen Anordnung könnten zwei Diskettenlaufwerke vorgesehen sein und die Ausgabedatei könnte auf das zweite Laufwerk geschrieben werden. Alternativ dazu könnte die Ausgabedatei auf das Festplattenlaufwerk 16 oder eine andere geeignete Speichereinrichtung geschrieben werden.
Dokumente werden seitenweise verarbeitet. Das in Fig. 2 gezeigte Ablaufdiagramm beschreibt daher den Betrieb des Systems unter Bezugnahme auf eine einzelne Seite. Eine Seite kann geladen werden, die tatsächlich keine Informationen enthält, und es ist wichtig, daß das System nicht gesperrt wird, wenn keine Informationen zur Verarbeitung vorliegen. In Schritt 24 wird abgefragt, ob das Ende der Seite erreicht wurde. Wurde es erreicht, hält der Ablauf an Schritt 25 an. Normalerweise enthält die Seite Text, und daher wird der erste Satz der Eingabedatei in Schritt 26 gelesen. Dann wird in Schritt 27 eine Überprüfung bezüglich des ausgerichteten Korpus 21 diesbezüglich durchgeführt, ob der berücksichtigte Satz in dem Korpus vorhanden ist. Ist der Eingabesatz in dem Korpus vorhanden, wird der ausgerichtete Ausgabesatz von dem Korpus zurückgegeben und in Schritt 28 die übersetzte Form des Satzes in die Ausgabedatei geschrieben. Bei einem Ausführungsbeispiel kann der Bediener zur Überprüfung der Übersetzung mittels der Zufuhr der Übersetzung zu der visuellen Anzeigeeinrichtung 18 aufgefordert werden, bevor die Daten tatsächlich in die Ausgabedatei geschrieben werden. Allerdings wird bei dem in Fig. 2 dargestellten Ausführungsbeispiel die Übersetzung automatisch durchgeführt, um die Verarbeitungsgeschwindigkeit zu verbessern.
Ist als Ergebnis der in Schritt 27 durchgeführten Überprüfung der Eingabesatz nicht in dem Korpus vorhanden, wird der Bediener zur Durchführung einer Eingabe der korrekten Übersetzung in Schritt 29 über die Tastatur 19 aufgefordert. In Schritt 30 wird die von dem Bediener bereitgestellte Übersetzung in die Zieldatei geschrieben und es wird eine Überprüfung in Schritt 31 für den Bediener durchgeführt, ob die neue Übersetzung zu dem Korpus hinzugefügt werden soll. Bestätigt der Bediener dies, wird die neue Ausrichtung in Schritt 32 zu dem Korpus hinzugefügt. Ist die Antwort des Bedieners negativ, wird Schritt 32 ignoriert.
Somit werden als Antwort auf jede Anforderung zur Übersetzung eines Satzes drei Antworten möglich. Bei der ersten ist die Übersetzung in dem Korpus vorhanden und die Übersetzung wird automatisch in die Ausgabedatei geschrieben. Alternativ dazu ist der Satz nicht in dem Korpus vorhanden, eine Eingabe wird durch den Bediener vorgenommen und die Übersetzung wird dann zu dem Korpus hinzugefügt, nachdem sie in die Ausgabedatei geschrieben wurde. Bei der dritten Antwort ist der Satz nicht in dem Korpus vorhanden, wiederum wird eine Eingabe durch den Bediener vorgenommen, aber diesmal wird die neue Übersetzung nicht zu dem Korpus hinzugefügt.
Nach dem Schreiben eines Satzes in die Ausgabedatei kehrt der Ablauf zu Schritt 24 zurück, bei dem noch einmal überprüft wird, ob das System das Ende der Seite erreicht hat. Ist die Antwort negativ, wird wiederum ein weiterer Satz in Schritt 26 gelesen und der Ablauf wiederholt. Am Ende der Seite stoppt der Ablauf an Schritt 25, wie es vorstehend angeführt ist.
Somit ist ersichtlich, daß, unter der Annahme daß wiederholt ähnliche Gegenstände übersetzt werden, das System lernen wird und sich die Einträge in dem Korpus erweitern. Die Wissensbasis des Korpus wird sich erhöhen, und eventuell ist ein manuelle Übersetzungen vornehmender Bediener nicht länger erforderlich und kann von einem Bediener mit minimalen Fähigkeiten ersetzt werden. Möglicherweise laufen mehrere Systeme parallel, und es kann eine manuelle Übersetzungseinrichtung gelegentlich zur Unterstützung von Bedienern ohne Fachkenntnis erforderlich sein.
Ein Problem bei dem in Fig. 2 gezeigten System besteht darin, daß signifikante Betriebsmittel zur Ausbildung des Korpus bis zu dem Punkt erforderlich sind, an dem Bediener ohne Fachwissen eingesetzt werden können. Zu Beginn ist es wahrscheinlich, daß die Verwendung des Systems tatsächlich länger als eine einfache manuelle Übersetzung dauern wird. Des weiteren ist es auch sehr wahrscheinlich, daß Systems, die möglicherweise in dem gleichen Büro betrieben werden, sich unterschiedlich entwickeln, wobei ein Korpus auf einem System sich merklich von einem Korpus auf einem anderen System unterscheidet, so daß es scheint, als ob Bediener mit verschiedenen Geschwindigkeiten arbeiten, was zu weiteren Unkalkulierbarkeiten führt.
Der Betrieb des Systems zur Erzeugung eines ausgerichteten Korpus gemäß der Erfindung kann unter Verwendung einer Hardware durchgeführt werden, die im wesentlichen gleich der in Fig. 1 gezeigten ist, wobei die Verarbeitung in der Verarbeitungseinrichtung 15 im Ansprechen auf von dem Magnetfestplattenlaufwerk 16 oder einer ähnlichen Einrichtung empfangene Anweisungen bzw. Befehle durchgeführt wird, wobei Ausgabedaten auf das Plattenlaufwerk 16 oder das Diskettenlaufwerk 17 oder eine ähnliche Einrichtung geschrieben werden.
Der Betrieb des Systems zur Erzeugung eines ausgerichteten Korpus ist in Fig. 3 dargestellt.
In Schritt 310 ist es erforderlich, korrelierte Kopien in verschiedenen Sprachen der gleichen Dokumentation zu erzeugen oder herbeizuführen. In einigen Situationen ist diese Dokumentation nicht verfügbar. Somit muß eine Entscheidung mit der Wirkung getroffen werden, daß alle Dokumentationen in der Zukunft, wenn Übersetzungen in mehreren verschiedenen Sprachen erforderlich sind, in korrelierter Form erzeugt werden sollen, d. h., das Layout aller Versionen sollte gleich bzw. ähnlich sein, so daß die WP-(Textverarbeitungs-)Dateien im wesentlichen die gleichen WP-spezifischen Befehle enthalten, wobei lediglich der zwischen diesen Befehlen enthaltene Text tatsächlich unterschiedlich ist, da der Text in verschiedenen natürlichen Sprachen geschrieben ist.
In vielen Situationen kann Text dieser Art bereits verfügbar sein, und es kann ein schneller Fortschritt unter Verwendung der Erfindung in Richtung der Ausbildung extensiver Korpora gemacht werden. Insbesondere können Texte erzeugt worden sein, die sich auf einen Gegenstand ähnlich dem beziehen, für den ein Korpus erzeugt wird. Somit können Gerätehandbücher bezüglich bestimmter Gerätearten erzeugt worden sein, bei denen, obwohl Entwicklungen gemacht und Modifikationen eingeführt wurden, die Terminologie ziemlich konsistent ist. Daher sorgt dieser Text nicht nur für die schnelle Erzeugung eines sinnvollen Korpus sondern stellt auch sicher, daß die für nachfolgende Modelle verwendete Terminologie mit der zuvor verwendeten Terminologie konsistent ist.
Bei diesem Beispiel wird angenommen, daß ein Korpus ausgebildet wird, der Sätze, Phrasen und Worte zweier Sprachen ausrichtet, obwohl auch, wie vorstehend angeführt, Sätze, Phrasen und Worte von mehr als zwei Sprachen ausgerichtet werden können.
In Schritt 320 wird eine erste Quelldatei unter Verwendung des in Fig. 4 ausführlich dargestellten Vorgangs zur Erzeugung einer ersten Zwischendatei gelesen. Eine Zwischendatei ist eine Datei, in der die WP-spezifischen Befehle in Zeichen übersetzt wurden, die innerhalb des Bereichs druckbarer Zeichen in dem Zeichensatz, wie dem ASCII-Zeichensatz, liegen, und durch ein Zeichen (oder einen Satz aus Zeichen) abgegrenzt sind, daß sie als solche identifiziert. Eine Tabelle ist zur Abbildung WP- spezifischer Befehle auf identifizierbare Zeichenketten vorgesehen. Bei der Verwendung verschiedener WP-Systeme ist es daher nur erforderlich, Einträge in dieser Tabelle zu verbessern, und es sind keine Modifikationen des Rests des Systems erforderlich.
In Schritt 330 wird der in Fig. 4 gezeigte Vorgang zur Erzeugung einer zweiten Zwischendatei aus der zweiten Quelldatei wiederholt. Somit sind nach Beendigung dieses Schritts zwei Zwischendateien verfügbar, die jeweils aus der ersten Sprache und der zweiten Sprache hergeleitet sind. In Schritt 340 wird das in Fig. 5 gezeigte System zum Vergleichen der Zwischendateien zur Erzeugung eines ausgerichteten Korpus verwendet. Danach wird in Schritt 350 abgefragt, ob dem Korpus ausreichende Daten zugeführt wurden, und wird diese Frage mit nein beantwortet, kehrt der Ablauf zu Schritt 310 zurück und es wird ein weiteres Paar korrelierter Dokumente gelesen. Somit kann die Anzahl von Iterationen von der Anzahl verfügbarer Eingabedateien abhängen, oder wenn viele Dateien ähnlich sind, werden weniger als all diese verarbeitet. Wiederum ist es auch möglich, daß ungenügende Eingabedateien zur Erzeugung eines Korpus jedes Werts verfügbar sind und die Verarbeitung auf Halten eingestellt werden muß, bis weitere korrelierte Kopien verfügbar werden.
Wurde einmal der Korpus erzeugt und eine bestätigende Antwort auf die in Schritt 350 erhobene Frage gegeben, kann der Korpus in einem Übersetzungssystem der vorstehend bezüglich Fig. 2 beschriebenen Art verwendet werden, wie es in Schritt 360 angeführt ist.
Somit besteht die Erzeugung eines ausgerichteten Korpus im wesentlichen aus zwei Stufen. Die erste Stufe erzeugt Zwischendateien, in denen WP-Befehle in eine identifizierbare Form umgewandelt werden, und die zweite Stufe besteht aus dem Vergleich korrelierter Zwischendateien zur Erzeugung von Einträgen für den ausgerichteten Korpus.
Durch Textverarbeitungssysteme erzeugte WP-Datendateien enthalten druckbare Zeichen, nicht druckbare Zeichen und andere Nicht-Zeichendaten. Effektiv gesehen ist die Datei eine Folge von Bytes, wobei jedes Byte ein Zeichen oder einen anderen Datentyp darstellt. In den in Fig. 3 gezeigten Schritten 320 und 330 des Systems werden Text-definierende ASCII-Zeichen in unmodifizierter Form beibehalten. Bilden ASCII-Kodes oder ähnliche Kodes die Grundlage vieler WP-Systeme, tendiert der für jedes Textzeichen verwendete Kode dazu, der gleiche für jedes WP- System zu sein. Somit werden während der Erzeugung der Zwischendateien Textzeichen nicht modifiziert, und diese Zeichen bilden die Basis zur Definition von Ausrichtungen, die dem ausgerichteten Korpus zugeführt werden können.
Bei alternativen Ausführungsbeispielen können andere Kodes als ASCII-Kodes verwendet werden, wie EBCDIC, BCDIC oder ein 16- Bit-Zeichensatz, wie UNICODE.
Anders als die Textzeichen tendieren die Befehlszeichen dazu, auf spezifische Art und Weise bei jedem Textverarbeitungssystem verwendet zu werden. Die Wahl, welche Zeichen für eine bestimmte Darstellung verwendet werden, ist rein willkürlich. Die Zeichen werden erzeugt, wenn die Datei erzeugt wird. Wenn die Datei gedruckt wird, werden die Zeichen durch das WP-System zur Zufuhr geeigneter Befehle zu einem Drucker interpretiert. Für gewöhnlich enthält jedes WP-System eine Vielzahl von Programmen, die für gewöhnlich als Druckertreiber bezeichnet werden, die sicherstellen, daß im Ansprechen auf die durch das WP- System erzeugten Steuerbefehle geeignete Befehle für das bestimmte Fabrikat des verwendeten Druckers zu dem Drucker gesendet werden, um den gewünschten Effekt zu erhalten.
In den Zwischendateien wurden WP-Befehle in eine gemeinsame identifizierbare Form umgewandelt, um Textblöcke abzugrenzen, die mit einem ähnlichen Textblock in der parallelen korrelierten Datei ausgerichtet werden können. Folgendes ist eine vereinfachte Version einer typischen Eingabedatei:
(a) code - LARGE TEXT
code - UNDERLINE TEXT
text 1
code - NORMAL SIZE
code - PARAGRAPH
text 2
text 3
text 4
Die Zeichenkette in diesem Beispiel enthält zuallererst einen Kode, der bestimmt, daß der folgende Text zu vergrößern ist, beispielsweise für die Ausbildung einer Überschrift. Der nachfolgende Kode legt fest, daß der folgende Text auch zu unterstreichen ist. Danach enthält die Kette einen Kode, der den Interpretierer dazu anweist, die Zeichengröße auf die normale Größe zurückzusetzen, wobei ein weiterer Kode folgt, der den Beginn des Paragraphen bzw. Abschnitts bestimmt.
Eine Zwischendatei wird aus der vorstehend angeführten Datei erzeugt und besteht aus dem folgenden:
(b) < LT>
< UL>
text 1
< NS>
< PA>
text 2
text 3
Die nicht druckbaren Kodes werden in druckbare (Zeichen-)Ketten umgewandelt und in winkligen Klammern oder anderen Identifizierungsbegrenzern angeordnet, um sie als solche zu identifizieren. Somit ergibt sich der Kode für "large text" zu LT in winkligen Klammern und, auf ähnliche Weise, der Kode für "underline text" zu UL in winkligen Klammern.
Der Text bleibt unmodifiziert, da es sich um diese Abschnitte der Zwischendateien handelt, die dem ausgerichteten Korpus zu geführt werden. Die in den winkligen Klammern angeordneten Zeichen müssen keine Informationen als solche tragen. Der Zweck dieser Zeichen besteht in der Ausbildung einer Ausrichtung zwischen den zwei Zwischendateien, so daß ein aus korrelierten Eingabedateien hergeleitetes Paar von Zwischendateien ähnliche Sätze bzw. gleiche Sätze von WP-Befehlen enthält.
Somit wird unter Berücksichtigung von zwei aus korrelierten Texten erhaltenen Zwischendateien jede Zwischendatei durch die Befehle LT und UL in Winkelklammern initiiert. Diese Kennung wird dann als Mittel zur Ausrichtung des nachfolgenden Texts verwendet. Das heißt, der Text 1 einer ersten Zwischendatei wird mit dem Text 1 einer zweiten Zwischendatei ausgerichtet.
In Fig. 4 ist ein System zur Erzeugung von Zwischendateien gezeigt. Jede Quelldatei 41 kann viele Seiten enthalten, und die Datei wird seitenweise verarbeitet. Die Datei 41 kann in irgendeiner Sprache vorliegen, und daher kann bei der Verarbeitung der zwei Quelldateien jeweils das gleiche System verwendet werden. Das System in Fig. 4 betrifft die WP-Befehle, wobei außerhalb des druckbaren ASCII-Bereichs liegende Zeichen und WP- Befehle in Zeichenketten innerhalb dieses Bereichs umgewandelt werden, wie es vorstehend beschrieben ist, wobei Winkelklammern zur Identifizierung dieser hinzugefügt werden. Die Tabelle 42 hängt von der Art des verwendeten WP-Systems ab, und bei der Verwendung eines unterschiedlichen WP-Systems muß die Tabelle 42 ersetzt werden. Die Tabelle 42 ist daher als separate Datei beispielsweise auf der Platte 16 gespeichert, und während des Betriebs wird die bestimmte benötigte Tabelle durch einen Aufruf der Tabellendatei ausgewählt.
Die Datei 41 ist die Quelleneingabedatei, und ein in Fig. 2 gezeigtes System ist nicht zur Erzeugung einer separaten Zwischendatei eingerichtet. Die Zwischendatei wird durch Modifikation von Einträgen in der Quelldatei derart erzeugt, daß die nach der Beendigung des Ablaufs in Fig. 4 erzeugte Zwischenda tei die gleichen Speicherplätze wie die zu Beginn gelesene Quelldatei 41 belegt.
Es ist möglich, wenn auch unwahrscheinlich, daß eine Eingabequelldatei 41 lehr ist, und daher ist es wichtig, daß das in Fig. 4 gezeigte System aufgrund einer Unfähigkeit zur Identifikation von Daten in der Datei nicht scheitert. In Schritt 43 wird daher abgefragt, ob eine andere Seite in der Datei 41 vorhanden ist, und wird diese Frage mit nein beantwortet, stoppt der Betrieb des Systems im Schritt 44. Wartet eine andere Seite in der Datei 41, wird die Frage in Schritt 43 mit ja beantwortet, und die Seite wird in Schritt 44 gelesen.
Systeme zum Austauschen eines Eintrags durch einen anderen sind als solche bekannt, und für gewöhnlich wird ein Austausch dieser Art durch aufeinanderfolgendes Beobachten einer Eingabekette durchgeführt, und, wenn ein neues Zeichen ankommt, wird ein Vergleich mit Einträgen in einer Nachschlagetabelle durchgeführt, um nachzusehen, ob ein Austausch vorgenommen werden kann. Bei der vorliegendsn Anwendung wurde ein derartiger Versuch allerdings derart eingeschätzt, daß er bei dem Erfordernis verschiedener Tabellen 42 für unterschiedliche Textverarbeitungssysteme Probleme verursacht. Daher wird die Durchführung des Vorgangs auf entgegengesetzte Weise attraktiv. Somit wird die ganze Seite im Speicher gehalten und in der Tabelle 42 gespeicherte Tabellenwerte werden aufeinanderfolgend gelesen. Somit wird der ersten Wert in der Tabelle 42 gelesen und die gesamte Seite abgetastet, um zu überprüfen, ob dieser Wert in der Datei vorhanden ist. Ist der Wert in der Datei vorhanden, werden die Einträge ausgetauscht. Das heißt, der WP-spezifische Wert wird durch den aus der Tabelle 42 gelesenen neuen Wert ersetzt.
Somit wird in Schritt 45 abgefragt, ob ein anderer Eintrag in der Umwandlungstabelle 42 vorhanden ist. Zu Beginn muß diese Frage mit ja beantwortet werden, woraufhin der erste Eintrag aus der Tabelle 42 in Schritt 46 gelesen wird. In Schritt 47 wird abgefragt, ob bezüglich des aus der Tabelle 42 gelesenen Eintrags ein WP-spezifischer Eintrag in der von der Datei 41 gelesenen Seite gefunden wurde. Wurde nach der Abtastung der gesamten Seite kein derartiger Eintrag gefunden, wird die Frage in Schritt 47 mit nein beantwortet, und es wird nochmals in Schritt 45 überprüft, ob ein anderer Eintrag in der Umwandlungstabelle vorhanden ist. Wird ein Eintrag auf der Seite gefunden, wird in Schritt 48 der Austausch durchgeführt, und in Schritt 49 wird der Abtastvorgang durch die Abfrage fortgesetzt, ob das Ende der Seite erreicht wurde. Wenn nicht, wird die Abtastung durch Rückkehr zu Schritt 47 fortgesetzt, wo überprüft wird, ob der Eintrag in dem Dokument vorhanden ist. Somit wird eine vollständige Abtastung für den Eintrag durchgeführt und der Abtastvorgang durch die Unfähigkeit zum Auffinden eines Eintrags, was in Schritt 47 erfaßt wird, oder durch das Erreichen des Seitenendes beendet, was in Schritt 49 identifiziert wird.
Nachdem die Seite für einen Eintrag in der Tabelle 42 abgetastet wurde, wird in Schritt 45 noch einmal abgefragt, ob ein weiterer Eintrag in der Umwandlungstabelle vorhanden ist. Nachdem alle Einträge in der Umwandlungstabelle über die betreffende Seite abgetastet wurden, wird die in Schritt 45 gestellte Frage mit nein beantwortet, woraufhin die Wiederholung der in Schritt 43 gestellten Frage folgt, ob eine weitere Seite vorhanden ist. Ist eine weitere Seite vorhanden, wird diese aus der Datei 41 gelesen und die Verarbeitung wiederholt. Schließlich sind alle Seiten aus der Datei 41 gelesen, und die in Schritt 43 gestellte Frage wird mit nein beantwortet, woraufhin der Ablauf in Schritt 44 anhält.
Das System zur Erzeugung eines ausgerichteten Korpus, wie es in Schritt 44 in Fig. 3 definiert ist, ist in Fig. 5 ausführlich dargestellt.
Das bezüglich Fig. 4 beschriebene System wurde zweimal zur Erzeugung von zwei Zwischendateien 51, 52 verwendet. Die Zwi schendateien werden aus in unterschiedlichen natürlichen Sprachen geschriebenen korrelierten parallelen Dateien hergeleitet, die dem System über Disketten und Diskettenlaufwerke 17 zugeführt werden.
Das System wird in Schritt 53 initiiert, woraufhin in Schritt 54 die zwei Zwischendateien 51, 52 durch die Vorrichtung unter der Steuerung eines im Handel erhältlichen Differenzdatei- Vergleicherprogramms verglichen werden. Ein geeignetes Dateivergleicherprogramm ist beispielsweise DIFF, das in UNIX- Betriebssystemen vorgesenen und aufrufbar ist.
DIFF listet die Unterschiede zwischen zwei Dateien auf, was als Minimalprotokoll von Zeilenaufbereitungen (oder Formulierungen) ausgedrückt wird, die dazu erforderlich sind, die eine Datei mit der anderen in Übereinstimmung zu bringen. Die Zwischendateien 51, 52 liefern Einaben für einen DIFF-Aufruf, der wiederum ein Protokoll bzw. eine Liste von zur Umwandlung von Zeilen der Datei 51 in Zeilen der Datei 52 erforderlichen Formulierungen erzeugt. Somit sind die Zeilen, die keine Modifikation erfordern, diejenigen, die die WP-Formatierungsbefehle enthalten, die den zwei Zwischendateien gemein sind. Gleichermaßen erfordern die entsprechende Textstücke enthaltenden Zeilen Veränderungen zwischen den Dateien. Somit identifiziert das DIFF- Programm Zeilen, die sich zwischen den zwei Dateien nicht unterscheiden, die wiederum Zeilen darstellen, die zu dem ausgerichteten Korpus 61 geschrieben werden können.
Drei Arten von Formulierungen werden durch das DIFF-Programm bei dessen Vergleich der zwei Zwischendateien erzeugt, die aus "Löschen", "Anhängen" und "Ändern" bestehen.
Eine "Löschen"-Formulierung markiert ein Textstück oder einen WP-Formatierungsbefehl in der Zwischendatei 51 als in der Zwischendatei 52 nicht vorhanden. Derartige Formulierungen werden vom System ignoriert, da sie keine sinnvollen Ausrichtungsdaten liefern.
Eine "Anhängen"-Formulierung markiert einen Textteil oder WP- Formatierungsbefehl in der Zwischendatei 52 als in der Zwischendatei 51 nicht vorhanden. Gleichermaßen werden diese "Anhängen"-Formulierungen vom System ignoriert, da sie keine sinnvollen Ausrichtungsdaten liefern.
Eine "Ändern"-Formulierung markiert ein Textstück der Zwischendatei 51 und ein übereinstimmendes Textstück der Zwischendatei 52. Diese "Ändern"-Formulierungen liefern sinnvolle Ausrichtungsdaten.
Die "Ändern"-Formulierung identifiziert einen Zeilenbereich in der Zwischendatei 51 als von einem gleichen Zeilenbereich in der Zwischendatei 52 unterschiedlich. Dieser Unterschied ist deshalb vorhanden, da, obwohl der Informationsinhalt der gleiche ist, der Text der Dateien 51 und 52 in unterschiedlichen Sprachen vorliegt.
Somit ist die Ausrichtung möglich, da der Text, der auszurichten ist und die gleichen Informationen in unterschiedlichen Sprachen darstellt, tatsächlich verschieden ist, und diese Unterschiede können zwischen den zwei Dateien identifiziert werden. Allerdings werden Textabschnitte, die als unterschiedlich identifiziert werden und daher ausgerichtet werden können, durch die Begrenzer in der Textdatei identifiziert. Anders als der Text sind diese Begrenzer zwischen den zwei Dateien im wesentlichen äquivalent, vorausgesetzt, daß äquivalente Formatierungsbefehle verwendet werden. Somit werden Abschnitte des Texts, die äquivalent sind, zum Trennen von Abschnitten des Texts verwendet, die als unterschiedlich identifiziert werden, und diese Abschnitte des Texts, die als unterschiedlich identifiziert sind, bilden dann die Grundlage zur Ausbildung der Eingabe für den ausgerichteten Korpus.
Die Ausgabe in Schritt 54 besteht aus einer Liste von durch das DIFF-Programm erzeugten Formulierungen für die Zwischendateien 51, 52. Jede Formulierung wird wiederum in Schritt 55 gelesen, und wenn keine Formulierungen mehr vorhanden sind, wird der Ablauf in Schritt 63 beendet. Ist eine Formulierung für das Lesen verfügbar, wird sie gelesen und in Schritt 56 überprüft, ob es sich um eine "Ändern"-Formulierung handelt. Handelt es sich nicht um eine "Ändern"-Formulierung, kehrt der Ablauf zu Schritt 55 zurück, und es wird die nächste Formulierung gelesen. Handelt es sich um eine Ändern-Formulierung, wird in Schritt 57 der Text der Sprache 1 aus der Formulierung extrahiert, und in Schritt 58 wird der Text der Sprache 2 extrahiert. Aus den in den Schritten 57 und 58 erhaltenen Texten der Sprachen 1 und 2 wird in Schritt 59 ein ausgerichtetes Paar entsprechender Texte ausgebildet.
In Schritt 60 wird ein Vergleich diesbezüglich durchgeführt, ob diese Ausrichtung bereits in dem ausgerichteten Korpus 61 vorhanden ist. Ist dieser Eintrag bereits vorhanden, woraus sich die Antwort ja auf die in Schritt 60 gestellte Frage ergibt, wird die Ausrichtung ignoriert und der Ablauf für die nächste Formulierung wiederholt. Wird die in Schritt 60 gestellte Frage, ob die Ausrichtung bereits in dem Korpus vorhanden ist, mit nein beantwortet, wird die Ausrichtung in den Korpus geschrieben.
Daraus ist ersichtlich, daß durch die Bereitstellung einer wesentlichen Anzahl von Zwischendateien, die unter Verwendung des in Fig. 4 dargestellten Systems erzeugt werden, das in Fig. 5 gezeigte System einen ausgerichteten Korpus erzeugen wird, der in Verbindung mit dem in Fig. 2 gezeigten System verwendet werden kann. Ein maximaler Gewinn kann aus dem System gezogen werden, wenn zur Erzeugung von Zwischendateien verwendete und danach zur Erzeugung des ausgerichteten Korpus verwendete Quelldateien sich auf ähnliche Gegenstände wie Quelldateien beziehen, die durch das System zu übersetzen sind. Somit kann eine Gerätefamilie, wie Fotokopierer, Laserdrucker, Terminals, usw., ihren eigenen bestimmten ausgerichteten Korpus haben, der unter Verwendung von für frühere Modelle erzeugten Quelldateien er zeugt wird. Danach kann dieser Korpus zur Übersetzung der Befehlshandbücher für neue Modelle verwendet werden, was diesen Vorgang bezüglich der Konsistenz, Zuverlässigkeit und Erzeugungsgeschwindigkeit erheblich erleichtert.
Die Erfindung wurde im Hinblick auf Begrenzer beschrieben, die durch WP-Befehle vorgesehen werden. Alternativ dazu können auch andere Begrenzer verwendet werden, wie in einer Dokumentstrukturierungssprache, wie der Standard Generalised Markup Language oder Office Document Architecture, vorgesehene Markierungen. Gleichermaßen können typographische Befehle verwendet werden, wie sie in Sprachen wie TEX, LATEX oder TROFF vorgesehen sind.

Claims

1. Vorrichtung (15-19) zur automatischen Registrierung von Verbindungen zwischen Abschnitten Maschinen-lesbarer erster und zweiter Quelldateien (41), die jeweils Text enthalten, der in der ersten Quelldatei in einer ersten natürlichen Sprache und in der zweiten Quelldatei in einer zweiten natürlichen Sprache vorliegt,

dadurch gekennzeichnet, daß

jede Quelldatei ferner Steuerbefehle zur Steuerung einer automatischen Dokumentverarbeitungseinrichtung enthält, und die Vorrichtung

eine Einrichtung (15) zur Lokalisierung der Steuerbefehle in der ersten Quelldatei,

eine Einrichtung (15) zur Lokalisierung der Steuerbefehle in der zweiten Quelldatei,

eine Bestimmungseinrichtung (15) zur Bestimmung (54) von Entsprechungen zwischen den Steuerbefehlen in der ersten Quelldatei und den Steuerbefehlen in der zweiten Quelldatei und

eine Registriereinrichtung (15) aufweist, die auf die Bestimmungseinrichtung anspricht, um in der Vorrichtung eine Verbindung zwischen einem Textabschnitt der ersten Quelldatei, der zwischen einem Paar der Steuerbefehle darin lokalisiert ist, und dem Textabschnitt der zweiten Quelldatei zu registrieren, der zwischen dem entsprechenden Paar der Steuerbefehle darin lokalisiert ist (57-59).

2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Bestimmungseinrichtung

eine Einrichtung (42) zur Speicherung einer Vielzahl von Identifizierungscodes, die jeweils jeweiligen verschiedenen Steuerbefehlen entsprechen und mit dem jeweiligen Steuerbefehl assoziiert sind, und

eine Einrichtung zum Herleiten jeweiliger erster und zweiter Zwischendateien (51, 52) aus der ersten und der zweiten Quelldatei aufweist, wobei jede Zwischendatei den Inhalt der entsprechenden Quelldatei enthält, wobei aber deren Steuerbefehle durch die jeweiligen Identifizierungscodes ersetzt sind,

wobei die Bestimmungseinrichtung (15) zur Bestimmung (54) der Entsprechungen unter Verwendung der Identifizierungscodes der Zwischendateien betreibbar ist.

3. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, daß die Bestimmungseinrichtung einen Differenz-Datei-Komparator (DIFF) aufweist, der zum Vergleichen (54) des Inhalts der ersten und der zweiten Zwischendatei zur Bestimmung der Entsprechungen betreibbar ist, indem in jeder Zwischendatei die Identifizierungscodes lokalisiert werden, die die gleichen wie jene in der anderen Zwischendatei sind.

4. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Bestimmungseinrichtung einen Differenz-Datei-Komparator (DIFF) aufweist, der zum Vergleichen des Inhalts der ersten und der zweiten Quelldatei zur Bestimmung der Entsprechungen betreibbar ist, indem in jeder Quelldatei die Steuerbefehle lokalisiert werden, die die gleichen wie jene in der anderen Quelldatei sind.

5. Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Steuerbefehle Textsystem-Formatierungsbefehle sind.

6. Verfahren zur automatischen Registrierung von Verbindungen zwischen Abschnitten Maschinen-lesbarer erster und zweiter Quelldateien (41), die jeweils Text enthalten, der in der ersten Quelldatei in einer ersten natürlichen Sprache und in der zweiten Quelldatei in einer zweiten natürlichen Sprache vorliegt,

dadurch gekennzeichnet, daß

jede Quelldatei ferner Steuerbefehle zur Steuerung einer automatischen Dokumentverarbeitungseinrichtung enthält und das Verfahren die Schritte

Lokalisieren der Steuerbefehle in der ersten Quelldatei,

Lokalisieren der: Steuerbefehle in der zweiten Quelldatei,

Bestimmen (54) von Entsprechungen zwischen den Steuerbefehlen in der ersten Quelldatei und den Steuerbefehlen in der zweiten Quelldatei, und

Registrieren (57-39) einer Verbindung zwischen einem Textabschnitt der ersten Quelldatei, der zwischen einem Paar der Steuerbefehle darin lokalisiert ist, und dem Textabschnitt der zweiten Quelldatei, der zwischen dem entsprechenden Paar der Steuerbefehle darin lokalisiert ist, entsprechend dem Ergebnis des Bestimmungsschritts aufweist.

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß der Bestimmungsschritt die Schritte

Speichern (42) einer Vielzahl von Identifizierungscodes, die jeweils jeweiligen verschiedenen Steuerbefehlen entsprechen und mit dem jeweiligen Steuerbefehl assoziiert sind, und

Herleiten (43-49) jeweiliger erster und zweiter Zwischendateien (51, 52) aus der ersten und der zweiten Quelldatei aufweist, wobei jede Zwischendatei den Inhalt der entsprechenden Quelldatei aufweist, wobei aber deren Steuerbefehle durch die jeweiligen Identifizierungscodes ersetzt sind,

wobei der Bestimmungsschritt zur Bestimmung der Entsprechungen unter Verwendung der Identifizierungscodes der Zwischendateien (51, 52) durchgeführt wird.

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß in dem Bestimmungsschritt ein Differenz-Datei-Komparator (DIFF) zum Vergleichen (54) des Inhalts der ersten und der zweiten Zwischendatei (51, 52) verwendet wird, um die Entsprechungen durch Lokalisieren der Identifizierungscodes in jeder Zwischendatei zu bestimmen, die die gleichen wie jene in der anderen Zwischendatei sind.

9. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß in dem Bestimmungsschritt ein Differenz-Datei-Komparator (DIFF) zum Vergleichen (54) des Inhalts der ersten und der zweiten Quelldatei verwendet wird, um die Entsprechungen durch Lokalisieren der Steuerbefehle in jeder Quelldatei zu bestimmen, die die gleichen wie jene in der anderen Quelldatei sind.

10. Verfahren nach einem der Ansprüche 6 bis 9, dadurch gekennzeichnet, daß die Steuerbefehle Textsystem-Formatierungsbefehle sind.