DE69031354T2

DE69031354T2 - Natursprachenverarbeitungssystem

Info

Publication number: DE69031354T2
Application number: DE69031354T
Authority: DE
Inventors: Koichi Masegi; Shogo Shibata; Yoshihiro Tokuume
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1989-03-14
Filing date: 1990-03-13
Publication date: 1998-01-08
Anticipated expiration: 2010-03-14
Also published as: EP0388156A2; DE69031354D1; US5101349A; EP0388156A3; EP0388156B1; JPH02240769A

Description

Hintergrund der Erfindung

Gebiet der Erfindung

Die Erfindung bezieht sich auf ein System zur Verarbeitung natürlicher Sprache und insbesondere auf eine Satzstrukturerzeugungsvorrichtung zur Verwendung in einem maschinellen Übersetzungsgerät oder dergleichen.

Beschreibung des Standes der Technik

Auf dem Gebiet der Systeme zur Verarbeitung natürlicher Sprache, die natürlichsprachliche Ausgaben in Reaktion auf natürlichsprachliche Eingaben bereitstellen, wurden verschiedene Typen von Übersetzungssystemen vorgeschlagen, wie zum Beispiel ein maschinelles Übersetzungssystem zur Übersetzung zum Beispiel vom Japanischen ins Englische und ein interaktives Antwortsystem, das so angeordnet ist, das es eine Frage in Englisch oder Japanisch entgegennimmt und eine Antwort in Englisch oder Japanisch gibt. In einem solchen System wird zuerst ein in Japanisch (oder Englisch) eingegebener Satz analysiert und die Begriffsstruktur (semantische Struktur) des japanischen (oder englischen) Satzes bestimmt. Die Begriffsstruktur wird im allgemeinen als ein semantisches Netzwerk ausgedrückt, das Knoten, die individuelle Begriffe darstellen und Bögen, die die Beziehungen zwischen den Begriffen darstellen, umfaßt. Der japanische (oder englische) Begriff, der aus der Analyse des japanischen (oder englischen) Satzes erhalten wurde, wird in die entsprechende japanische (oder englische) Begriffsstruktur übertragen, um die Unterschiede zwischen den Strukturen der japanischen und der englischen Sprache auszugleichen. Die Übersetzung in den entsprechenden englischen (oder japanischen) Satz wird erreicht auf Grundlage der Begriffsstruktur der englischen (oder japanischen) Sprache. Die Erfindung bezieht sich auf das vorstehend beschriebene Verfahren, das im allgemeinen "Erzeugung einer Satzstruktur" genannt wird.
Unter Bezug auf Fig. 2, die ein Blockdiagramm darstellt, das die allgemeine Anordnung eines konventionellen maschinellen Übersetzungssystems zeigt, wird das technische Gebiet, auf das sich die Erfindung bezieht, im folgenden genauer erklärt. In Fig. 2 ist ein Eingabesatz durch S21 bezeichnet. Eine Morphemanalysevorrichtung 21 teilt den Eingabesatz S21 in eine Vielzahl von Morphemen. Im allgemeinen ist die Morphemanalysevorrichtung 21 erforderlich, um eine agglutinierende Sprache, wie zum Beispiel Japanisch, zu verarbeiten, in der keine klare Unterteilung zwischen den Worten besteht, die einen Satz ausmachen, ist aber nicht erforderlich im Bezug auf ein flektierende Sprache, wie zum Beispiel Englisch, in der eine klare Unterteilung zwischen den Worten vorhanden ist. Der Eingabesatz S21 wird in der Morphemanalysevorrichtung 21 einer Morphemanalyse unterworfen und als eine Wortkette S22 ausgegeben. Eine Satzstrukturanalysevorrichtung 22 analysiert die grammatikalische Struktur der Wortkette S22.
Die Analyse der Satzstruktur der Wortkette S22 ergibt einen Phrasenstrukturbaum S23. Eine Semantikanalysevorrichtung 23 führt eine Analyse auf semantischer Ebene auf Grundlage des Phrasenstrukturbaumes S23 durch. Die Semantikanalysevorrichtung 23 gibt als Ergebnis ihrer semantischen Analyse eine semantische Struktur S24 aus. Eine Übertragungsvorrichtung 24 nimmt die semantische Struktur S24 der Eingabesprache (zum Beispiel Japanisch), die durch die Semantikanalysevorrichtung 23 analysiert wurde, entgegen und überträgt sie in die semantische Struktur S25 der gewünschten Sprache (zum Beispiel Englisch). Eine Satzstrukturerzeugungsvorrichtung 25 erzeugt einen Phrasenstrukturbaum S26 aus der semantischen Struktur S25 der gewünschten Sprache. Eine Morphemerzeugungsvorrichtung 26 erzeugt einen übersetzten Satz S27.
Es wurde auch vorgeschlagen, ein konventionelles maschinelles Übersetzungssystem bereitzustellen, das ein Erzeugungssystem einschließt, das anders als die vorstehend beschriebene Übersetzungsvorrichtung nicht in die Satzstrukturerzeugungsvorrichtung 25 und die Morphemerzeugungsvorrichtung 26 getrennt ist. Ein solches maschinelles Übersetzungssystem erzeugt den übersetzten Satz S27 direkt aus der semantischen Struktur S24, ohne den Phrasenstrukturbaum S26 zu erzeugen.
Fig. 3 zeigt in schematischer Form den Anzeigebildschirm einer Anzeigevorrichtung (CRT) (nicht dargestellt), die an die konventionelle Übersetzungsvorrichtung angeschlossen ist, die in Fig. 2 dargestellt ist. Der abgebildete Anzeigebildschirm bildet sechs Fenster ab. Diese sechs Fenster zeigen den Eingabesatz S21, den Phrasenstrukturbaum S23 des Eingabesatzes S21, die semantische Struktur S24 des Eingabesatzes S21, die semantische Struktur S25 der Zielsprache, den Phrasenstrukturbaum S26 der Zielsprache beziehungsweise den ausgegebenen, übersetzten Satz S27 an gemäß der Abfolge, die unter Bezug auf Fig. 2 erklärt wird.
Die erfindungsgemäße Vorrichtung zur Erzeugung von natürlichsprachlichen Sätzen bezieht sich zum Beispiel auf eine Satzstrukturerzeugungsvorrichtung, wie zum Beispiel die Satzstrukturerzeugungsvorrichtung 25 in Fig. 2.
Auf dem Gebiet der Vorrichtungen zur Erzeugung von natürlichsprachlichen Sätzen, das die Erfindung betrifft, wurden konventionelle Satzstrukturerzeugungsvorrichtungen konstruiert, die übersetzte Sätze erzeugen, wie es zum Beispiel in Nikkei Electronics 17. Dezember 1984, "Machine Translation System for Multi Language Using Common Sense, Which Utilizes Concept Structure Independent of Language as Intermediate Structure" (Maschinelles Übersetzungssystem für mehrere Sprachen unter Verwendung des gemeinsamen Sinns, das eine Begriffsstruktur unabhängig von der Sprache als Zwischenstruktur einsetzt), und dem offengelegten japanischen Patent Nr.63/136260 erläutert ist. Eine solche konventionelle Satzstrukturerzeugungsvorrichtung ist so angeordnet, daß sie ein Wörterbuch unter Bezug auf Knotennamen (im folgenden als "Worte" bezeichnet) als Schlüsselworte durchsucht, während sie einer Begriffsstruktur, wie zum Beispiel einem semantischen Netzwerk folgt, und dann Satzerzeugungsregeln, die mit den Worten verknüpft sind, auf der Grundlage des Ergebnisses der Suche aktiviert, wodurch ein übersetzter Satz erzeugt wird.
Das Wörterbuch, das in einer solchen konventionellen Satzstrukturerzeugungsvorrichtung verwendet wird, speichert Erzeugungssysmbole, von denen einige die Gruppen der Erzeugungsregeln bezeichnen, die mit den interessierenden Worten verknüpft sind. Die Erzeugungssymbole dienen als Zeiger, die die Gruppen der Erzeugungsregeln bezeichnen, die sich auf die Worte beziehen. Die "Erzeugungsregel" kann als Produktionsregel betrachtet werden für die Bereitstellung einer Wortkette durch Untersuchen eines jeden Knotens und eines jeden Bogens, der in einem semantischen Netzwerk vorhanden ist. Wie in Fig. 5 dargestellt, können die Erzeugungsregeln sorgfältig klassifiziert sein und für jeden Teil der Sprache hergestellt sein, wie zum Beispiel Substantiv, intransitives Verb, transitives Verb, Pronominalobjektsfall und so weiter. Jede Gruppe von Erzeugungsregeln schließt eine Vielzam von Erzeugungsregeln ein. Die Aufeinanderfolge der Anwendung der Erzeugungsregeln wird im voraus festgelegt, so daß sie die Reihenfolge der Worte bestimmt.
Im folgenden wird eine Erläuterung des Verfahrens zur Erzeugung des englischen Satzes "He went to Kobe by bus." (Er fuhr nach Kobe mit dem Bus.) aus dem semantischen Netzwerk, das in Fig. 4 dargestellt ist, mit Hilfe des vorstehend beschriebenen, konventionellen Satzstrukturerzeugungssystems gegeben. Im semantischen Netzwerk in Fig. 4 bezeichnet der Knoten, der durch einen Doppelkreis dargestellt ist, daß das Wort "go" (gehen) ein Prädikat darstellt. Bögen, die die Bogennamen "AGENT" (Ursache), "GOAL" (Ziel) und "INST" (Mittel) tragen, stellen tiefgehende Fallbeziehungen dar, wie zum Beispiel einen Ursachenfall, ein Ziel und ein Mittel. Ein Bogen "PAST" (Präteritum) bezeichnet die Vergangenheitsform und ein Bogen "ST" bezeichnet ein prädikatives Wort, das als Primärwort im Satz dient.
Fig. 5 zeigt ein Beispiel eines Wörterbuches, das mit den Erzeugungsregeln bereitgestellt wurde, die im konventionellen Erzeugungssystem verwendet werden. In dem Wörterbuch, das in Fig. 5 dargestellt ist, bedeutet "*", daß (1) wenn "*" in einem Bedingungsfeld verwendet wird, dies anzeigt, daß keine Bedingung festgelegt ist, (2) wenn "*" in einem Bogennamenfeld verwendet wird, dies anzeigt, daß kein Bogennamen festgelegt ist, und (3) wenn "*" in einem Nachrichtenfeld verwendet wird, dies anzeigt, daß keine Nachricht ausgegeben werden muß.
Unter Bezug auf das semantische Netzwerk in Fig. 4 beginnt der Prozeß der Satzerzeugung mit dem Knoten "go", auf den der Bogen "ST" hinzeigt. Eine Regelinterpretationseinrichtung zum Interpretieren der Erzeugungsregeln untersucht die Erzeugungsregeln, die mit "go" verbunden sind, eine nach der anderen. In diesem Fall zeigt das Erzeugungssymbol von "go" "VI" an, was bedeutet, daß die Erzeugungsregeln eines intransitiven Verbes (VI) angewendet werden, und zwar in aufsteigender Reihenfolge beginnend bei Regel (1), die in der Tabelle "intransitives Verb (VI)" von Fig. 5 dargestellt sind. So wird also die erste Regel (1), die mit dem intransitiven Verb verknüpft ist, angewendet. Die Aktion, die mit der Regel (1) verbunden ist, heißt "abgehender Bogen". Der Begriff "abgehender Bogen" bedeutet einen Bogen, der vom entsprechenden Knoten wegweist.
Wenn die Aktion "abgehender Bogen" lautet, bezeichnet der entsprechende Bogenname den Typ des Knotens, auf den der Bogen zeigt. In Regel (1) ist der Typ "AGENT". Die Nachricht, die mit dem veranschaulichten Knoten verbunden ist, lautet "SUBJ". Entsprechend betrachtet Regel (1) den Knoten, der vom abgehenden Bogen bezeichnet wird, als AGENT (Ursache) und erzeugt AGENT als Subjekt. Dann schreitet der Prozeß zu einem Unternetzwerk weiter, das mit dem abgehenden Bogen "AGENT" beginnt. Zu dieser Zeit wird eine Nachricht, die "SUBJ (Subjekt)" lautet, an den Knoten "he" gesendet.
Um das Unternetzwerk, das mit "AGENT" beginnt, zu verarbeiten, schreitet der Prozeß zum Knoten "he" fort. Zu dieser Zeit wird ein Merker gesetzt, der anzeigt, daß der Knoten "go" gerade bearbeitet wird. Dann wird, weil das Erzeugungssymbol von "he" "PS" lautet (Pronominalsubjektsfall), der Teil "Pronominalsubjektsfall (PS)" des Wörterbuches in Fig. 5 durchsucht, so daß die Erzeugungsregeln des Pronominalsubjektsfalls (PS) auf die Verarbeitung des Knotens "he" angewendet werden. Wie vorstehend beschrieben, wurde die Nachricht "SUBJ (Subjekt)" bereits zum Knoten "he" gesendet, und es wird geprüft, ob diese Nachricht jeder Bedingung entspricht, die im Bedingungsfeld einer jeden Regel im Wörterbuch enthalten ist. In diesem Fall erfüllt die Nachricht "SUBJ (Subjekt)" die Bedingung von Regel (5) im Gegensatz zu den Regeln (1) bis (4). Entsprechend, wie als "Selbstausgabe" in der Spalte "Handlung" der Erzeugungsregel (5) angegeben, wird das Wort "he" selbst ausgegeben.
Die Erzeugungsregel (5) in Fig. 5 zeigt nicht die Erzeugung eines neuen Bogens an, und das Wörterbuch in Fig. 5 enthält keine andere Erzeugungsregel, die auf Regel (5) folgt. Entsprechend endet die Erzeugung des Unternetzwerkes von "he", die mit "AGENT" anfängt, mit Regel (5). Der Prozeß kehrt von der Verarbeitung des Unternetzwerkes zur Verarbeitung des Knotens "go" zurück.
Zur Verarbeitung des Knotens "go" werden die Regel (2) und alle darauf folgenden Regeln des intransitiven Verbs in Fig. 5 nacheinander untersucht. Keine der Erzeugungsregeln (2), (3) und (4) wird auf diese Verarbeitung angewendet wegen der Struktur des Knotens "go". Da der Bogen "PAST", der die Vergangenheitsform bezeichnet, aus dem Knoten "go" wegweist, wird Regel (5) angewendet. Durch Anwenden von Regel (5) wird die Vergangenheitsform "went" von "go" ausgegeben. Weder Regel (6) noch Regel (7) werden angewendet. Der Prozeß schreitet weiter zu Regel (8), gemäß der der abgehende Bogen "GOAL" ausgeführt wird. Da der Typ dieses Bogens ein abgehender Bogen ist, wird die Erzeugung einer Phrase entsprechend dem Unternetzwerk, das mit "GOAL" beginnt, begonnen. Dieser Phrasenerzeugungsprozeß folgt Schritten ähnlich denen, die im Zusammenhang mit dem abgehenden Bogen "AGENT" erklärt wurden. Wenn die Präposition "to" gemäß dem Bogen "GOAL" ausgewämt wird, wird untersucht, ob "go" und "Kobe" gemeinsam auftreten, verknüpft durch das "to". Auf diese Weise wird "to Kobe" von diesem Unternetzwerk erzeugt.
Dann wird gemäß Regel (9) die Erzeugung einer Phrase entsprechend einem Unternetzwerk begonnen, das mit INST beginnt, so daß "by bus" erzeugt wird. Schließlich wird ein Punkt (.) erzeugt gemäß dem ankommenden Bogen ST, wodurch die gesamte Verarbeitung, die mit dem Knoten "go" verknüpft ist, vollständig ist. In dieser Weise wird die Satzerzeugung vervollständigt, und der englische Satz "He went to Kobe by bus." wird erhalten.
Ein anderes konventionelles Satzstrukturerzeugungsverfahren wird beschrieben in "Generation of English Sentence from Conceptually Dependent Diagram" (Erzeugung eines englischen Satzes aus einem begriffsmäßig abhängigen Diagram) Aufsatz 5L-3 des 28th National Meeting of the Institute of Electronics, Information and Communication Engineers (28. Nationales Treffen des Institutes für Elektronik-, Informations- und Kommunikationsingenieurswesen). Bei diesem konventionellen Satzstrukturerzeugungsverfahren wird eine Phrasenstruktur aus einem semantischen Netzwerk unter Verwendung der folgenden grammatikalischen Regeln, die auf verbesserten Phrasenstrukturregeln beruhen, erzeugt.
1. S (NP(A) VP(V*) NP(O))
2. S (NP(A) VP(V*) INF2(O))
3. S (NP(A) VP (V(*) NP(R) NP(O)))
Diese grammatikalischen Regeln, die ausgedrückt sind in der Form α(β1 ... βn) werden kurz erläutert. α(β1 ... βn) ist eine Phrasenstrukturregel zum Umwandeln von α in die Sequenz β1... βn. In den vorstehend aufgeführten grammatikalischen Regeln stellt "NP" eine Nominalphrase dar, "VP" eine Verbalphrase, "A" einen Ursachenfall, "O" einen Objektfall, "R" einen Empfängerfall, "*" ein Prädikat dar. Im vorstehend genannten Ausdrucksverfahren werden jede Phrasenstrukturregel und die entsprechenden Fallinformationen (semantische Informationen) im selben Teil beschrieben. Mit anderen Worten wird jede Phrase und ihre Bedeutung als Paar im selben Teil beschrieben.
Allerdings erzeugen die vorstehend beschriebenen, konventionellen Systeme zur Verarbeitung natürlicher Sprache, die im Zusammenhang mit Figg. 4 und 5 und dergleichen erläutert wurden, das heißt, die Systeme zur Verarbeitung natürlicher Sprache des Typs, der nicht mit einem Satzstrukturerzeugungsprozeß versehen ist, einen Satz aus einem semantischen Netzwerk, indem sie ein Wörterbuches unter Bezug auf einen Knotennamen als Schlüsselwort durchsuchen, während sie dem semantischen Netzwerk folgen, dann die Satzerzeugungsregeln aktivieren, die mit dem gewünschten Wort verknüpft sind und in einem Satzerzeugungsregelspeicherteil abgelegt sind, und dann einen übersetzten Satz erzeugen. Bei diesem Verfahren wird es mit zunehmender Komplexität und Menge der Erzeugungsregeln immer schwieriger für Bediener, die nicht auch derjenige sind, der die Satzerzeugungsregeln geschaffen hat, die Struktur der Satzerzeugungsregeln zu verstehen. Zusätzlich wird die Wartung, die erforderlich ist, um die Regeln zu ändern, schwieriger und die Erweiterbarkeit ist begrenzt.
Darüber hinaus sei auf die folgenden Probleme hingewiesen. In den vorstehend genannten Erzeugungssystemen bestimmt die Reihenfolge der Anwendung der Erzeugungsregeln die Reihenfolge der Worte. Daraus folgt, daß keine Grammatik explizit erscheint (Phrasenstrukturregeln). Es ist deshalb unmöglich, sicherzustellen, daß ein erzeugter Satz der Grammatik entspricht.
Das konventionelle Satzstrukturerzeugungssystem, das mit dem vorstehend beschriebenen Satzstrukturerzeugungsverfahren versehen ist, bringt eine Zahl von Problemen mit sich. Da zum Beispiel Fallinformationen, die semantische Informationen darstellen, mit Phrasenstrukturregeln, die Satzstrukturregeln darstellen, gemischt werden müssen, ist es erforderlich, eine Vielzahl von identischen Phrasenstrukturregeln in der folgenden Art zu schreiben.
1. S(NP (A) VP (V(*) NP(R) NP(O)
I give him a book. (Ich gebe ihm ein Buch.)
2. S(NP (A) VP(V(*) NP(O) NP(C)))
I call him a scholar. (Ich nenne ihn einen Gelehrten)
C ist ein Inhaltsbestimmungsfall.
Eine Veröffentlichung von K. Uehara et al. mit dem Titel "Steps Toward an Actor-Oriented Integrated Parser" (Schritte in Richtung auf einen wirkungselementorientierten, integrierten Parser (Übersetzungsprogramm)) in Proceedings of the International Conference on Fifth Generation Computer Systems (Fortschritte der internationalen Konferenz über Computersysteme der fünften Generation) 1984, 6. November 1984, Tokyo, JP, Seite 660 bis 668 beschreibt einen integrierten Parser, in dem eine syntaktische, semantische und Kontextanalyse als integraler Teil des Wirkens des Parsers auftritt. Die Berechnung während des Durchlaufs des Parsers wird erreicht, indem Nachrichten zwischen den Wirkungselementen (actors) weitergereicht werden, wobei die Nachrichten eine ziemlich starre Form haben müssen. Die Seite entspricht dem Einleitungsteil von Anspruch 1.
Gemäß der Erfindung wird eine Vorrichtung zum Erzeugen von natürlichsprachlichen Sätzen bereitgestellt zum Erzeugen einer Phrasenstruktur aus einer Satzeingabe in die Vorrichtung, wobei die Vorrichtung folgendes umfaßt:
Eine Grammatikregelspeichereinrichtung zum Speichern einer Vielzahl von grammatikalischen Regeln,
eine Sucheinrichtung zum Suchen grammatikalischer Regeln, die in der Grammatikregelspeichereinrichtung gespeichert sind,
eine Interpretationseinrichtung zum Interpretieren der grammatikalischen Regeln, die durch die Sucheinrichtung gesucht wurden, und
eine Erzeugungseinrichtung zum Erzeugen einer Phrasenstruktur für den Satz,
dadurch gekennzeichnet, daß die Vorrichtung so gestaltet ist, daß sie einen Eingabesatz verarbeitet, der als Merkmalstruktur bereitgestellt ist, in der die Satzelemente als Merkmale dargestellt sind, und daß jede der grammatikalischen Regeln folgendes einschließt: einen Phrasenstrukturteil, der eine Phrasenstrukturregel beschreibt, die eine grammatikalische Funktion darstellt, einen semantischen Teil, der eine Art und Weise beschreibt, in der Merkmalinformationen in der Phrasenstrukturregel von einer bestimmten übergeordneten Kategorie auf eine untergeordnete Kategorien weitergereicht werden, einen Bedingungsteil, der eine Bedingung beschreibt, unter der die grammatikalische Regel angewendet wird, und einen Nachrichtenteil, der eine Nachricht zum Einbringen von Begrenzungen auf die Verwendung der Phrasenstrukturregel beschreibt, wenn die untergeordnete Kategorie eine neue übergeordnete Kategorie wird, wobei die Sucheinrichtung so gestaltet ist, daß sie die grammatikalischen Regeln gemäß der Art und Weise durchsucht, die im semantischen Teil beschrieben ist, um so die Merkmalinformationen in der Phrasenstruktur weiterzureichen, und die Erzeugungseinrichtung so gestaltet ist, daß sie eine grammatikalische Regel, die durch die Interpretationseinrichtung interpretiert wurde, auf den Eingabesatz anwendet und die Phrasenstruktur aus der Information über die grammatikalische Funktion, die durch die grammatikalische Regel eingebracht wird, erzeugt.
Eine Ausführungsform der Erfindung stellt eine Satzstrukturerzeugungsvorrichtung bereit, die eine Beschreibung grammatikalischer Regeln auf der Grundlage einer klaren Konstruktion ermöglicht und die zum Beispiel in Bezug auf Wartbarkeit und Erweiterbarkeit hervorsticht.
Eine Ausführungsform der Erfindung stellt eine Satzstrukturerzeugungsvorrichtung bereit, die die grammatikalische Richtigkeit des erzeugten Satzes sicherstellen kann.
Eine Ausführungsform der Erfindung stellt eine Satzstrukturerzeugungsvorrichtung bereit, die die Analyse und Erzeugung, die bisher getrennt beschrieben wurden, in einer ähnlichen Weise mit Hilfe einer Vereinheitlichungsgrammatik beschreiben kann.
Mit einer Ausführungsform der Erfindung ist es möglich, ein bemerkenswert einfaches, systematisches Erzeugungsverfahren zum Erzeugen eines Phrasenstrukturbaumes (Phrasenstruktur) einzig durch das Prinzip des "Weiterreichens von Attributinformationen" von einem Knoten höherer Ordnung zu einem Knoten niedriger Ordnung entlang dem Phrasenstrukturbaum zu erreichen.
In einer bevorzugten Ausführungsform wird die grammatikalische Regel, die in der Grammatikregelspeichereinrichtung gespeichert ist, unter Verwendung der Merkmalbeschreibungsregel beschrieben.
In einer bevorzugten Ausführungsform ist die Begriffsstruktur des Eingabesatzes eine Merkmalstruktur, die aus einem semantischen Netzwerk umgesetzt wurde.
In einer anderen bevorzugten Ausführungsform umfaßt die Vorrichtung weiter eine Analyseeinrichtung zum Analysieren des Eingabesatzes gemäß einer Vereinheitlichungsgrammatik und zum Ausgeben der sich ergebenden Merkmalstruktur. Die vorstehend genannte Erzeugungseinrichtung kann eine Einrichtung für rekursive Aufrufe einschließen zum Ausführen eines Programmes, das rekursiv aufgerufen werden kann, und die Begriffsstruktur der Satzeingabe durch die Eingabeeinrichtung ist die Merkmalstruktur.
Die vorstehend genannte Anordnung ermöglicht die Analyse und Erzeugung, die bisher getrennt wurden, um sie in ähnlicher Weise mit Hilfe einer Vereinheitlichungsgrammatik zu beschreiben.
In einer anderen bevorzugten Ausführungsform schließt der Phrasenstrukturteil eine Phrase als eine Kategorie ein, wobei der Phrasenstrukturteil eine übergeordnete Kategorie und wenigstens eine untergeordnete Kategorie, die die übergeordnete Kategorie bildet, umfaßt.
Die Merkmalstruktur, die zur untergeordneten Kategorie weitergereicht wird, kann eine Vorrichtung umfassen, worin die Merkmalstruktur, die zur untergeordneten Kategorie weitergereicht wird, wenigstens eine Merkmalstruktur der übergeordneten Kategorie umfaßt.
In einer anderen bevorzugten Ausführungsform der Erfindung wählt die Sucheinrichtung, wenn die Nachricht, die im Nachrichtenteil beschrieben ist, von der übergeordneten Kategorie zur untergeordneten Kategorie weitergereicht wird, wenigstens die Nachricht und als untergeordnete Kategorie eine Kategorie, die die Anwendungsbedingungen entspricht, die im Bedingungsteil beschrieben ist, aus.
In einer anderen bevorzugten Ausführungsform der Erfindung ist die Anwendungsbedingung, die im Bedingungsteil beschrieben ist, vom Typ "Verb" oder vom Typ "Satz".
Ausführungsformen der Erfindung werden im folgenden mit Hilfe von Beispielen beschrieben unter Bezug auf die beigefügten Zeichnungen, in denen:
Fig. 1 ein Blockdiagramm darstellt, das eine Satzstrukturerzeugungsvorrichtung gemäß einer Ausführungsform der Erfindung zeigt,
Fig. 2 ein Blockdiagramm darstellt, das ein maschinelles Übersetzungssystem gemäß dem Stand der Technik zeigt,
Fig. 3 eine Ansicht darstellt, die den Ablauf der Übersetzung im System von Fig. 2 als ein Feld von Bildschirmfenstern zeigt,
Fig. 4 ein Diagramm darstellt, das ein Beispiel des semantischen Netzwerkes zeigt, das im konventionellen System in Fig. 2 verwendet wird,
Fig. 5 eine Ansicht ist, die die Erzeugungsregeln darstellt, die im konventionellen System verwendet werden,
Fig. 6A eine Ansicht ist, die ein Beispiel der Phrasenstrukturregeln darstellt, die verwendet werden zur Erklärung der LFG (Lexical Functional Grammar, Grammatik auf Wortschatzbasis) zur Verwendung in der Ausführungsform der Erfindung,
Fig. 6B ein Diagramm ist, das die Phrasenstrukturregeln in Fig. 6A als eine C- Struktur darstellt,
Fig. 6C ein Diagramm ist, das eine F-Struktur darstellt, die aus den Phrasenstrukturregeln von Fig. 6A erhalten wird,
Fig. 7 ein Diagramm ist, das ein Beispiel der grammatikalischen Regeln darstellt, die in der LFG verwendet werden,
Fig. 8 ein Diagramm ist, das ein Beispiel der Einträge eines Wörterbuches zur Verwendung mit der LFG darstellt,
Fig. 9 ein Flußdiagramm ist, das ein Verfahren zur Erzeugung einer Satzstruktur gemäß einer ersten Ausführungsform der Erfindung darstellt,
Figg. 10 bis 13 Diagramme sind, die zur Veranschaulichung eines Verfahrens zur Erzeugung eines Satzes "The boy who I saw is John." (Der Junge, den ich sah, heißt John.) in der ersten Ausführungsform dienen, wobei Fig. 10 ein Diagramm ist, das eine F-Struktur zur Erzeugung eines solchen Satzes zeigt, Fig. 11 ein Diagramm ist, das eine Phrasenstruktur zeigt, die schließlich erhalten wird, Fig. 12 ein Diagramm ist, das grammatikalische Regeln zur Verwendung im Erzeugungsverfahren darstellt, und Fig. 13 ein Diagramm darstellt, das ein entsprechendes semantisches Netzwerk zeigt,
Figg. 14 bis 17 Diagramme sind, die zur Veranschaulichung eines Verfahrens zur Erzeugung eines Satzes "I stop at Kobe to rest." (Ich mache Rast in Kobe.) in der zweiten Ausführungsform dienen, wobei Fig. 14 ein Diagramm darstellt, das das semantische Netzwerk eines solchen Satzes zeigt, Fig. 15 ein Diagramm ist, das eine F-Struktur zur Erzeugung des Satzes zeigt, und Fig. 16 ein Diagramm darstellt, das eine Phrasenstruktur zeigt, die schließlich erhalten wird, und
Figg. 18A und 18B Flußdiagramme sind, die den Ablauf eines Erzeugungsverfahrens gemäß der zweiten Ausführungsform zeigen.

Beschreibung der bevorzugten Ausführungsformen

Zwei Ausführungsformen (eine erste und eine zweite Ausführungsform), in denen ein erfindungsgemäßes Verfahren zur Erzeugung einer natürlichen Sprache auf eine Vereinheitlichungsgrammatik angewendet wird, werden im folgenden erläutert unter Bezug auf die beigefügten Zeichnungen. Bevor diese Ausführungsformen erklärt werden, wird im folgenden die Vereinheitlichungsgrammatik erläutert, auf die die vorliegende Erfindung wirksam angewendet werden kann.

Vereinheitlichungsgrammatik

Der Begriff "Merkmal" ist ein Schlüsselwort in der folgenden Erklärung. Jedes Merkmal schließt einen Merkmalsnamen und einen Merkmalswert ein und stellt eine grammatikalische Funktion dar. Einfache Beispiele für Merkmalnamen sind "Subjekt" ("SUBJ"), "Objekt" ("OBJ"), "Genus" ("GENDER") und "Numerus" ("NUMBER"), "Kasus" ("CASE") und so weiter.
Die erfindungsgemäße Satzstrukturerzeugungsvorrichtung empfängt als Eingabe eine Merkmalstruktur, die ein Merkmal als Element darstellt, und gibt eine entsprechende Phrasenstruktur aus. Es ist offensichtlich, daß die Einführung der Merkmalstruktur es möglich macht, die Analyse einer Satzstruktur und die Erzeugung der Satzstruktur, die beide bisher getrennt voneinander durchgeführt wurden, mit Hilfe der Vereinheitlichungsgrammatik in der gleichen Weise zu beschreiben.
Die Vereinheitlichungsgrammatik beschreibt eine Grammatik unter Verwendung von Merkmalen und stellt die Beziehungen zwischen den aufbauenden Elementen eines Satzes als Vereinheitlichung der Merkmale dar; wie es beschrieben wird in (1) Schieber: "An Introduction to Unification-Based Approaches to Grammar" (Eine Einführung in vereinheitlichungsbasierte Ansätze zur Grammatik), CSLI Lecture Notes Nr. 4 1986 und (2) Nomura: "Fundamental Technique of Natural Language Processing" (Fundamentale Techniken der Verarbeitung natürlicher Sprache), zusammengestellt vom Institute of Electronics, Information and Communication Engineers (Institut für Elektronik-, Informations- und Kommunikationsingenieurswesen) und veröffentlicht von Corona-sha (1988). Die Vereinheitlichung ist eine Art von Summensatzoperation (sum-set operation).
Es folgt eine Erläuterung der Grammatik (Vereinheitlichungsanalyse) zum Analysieren der Struktur eines Satzes mit Hilfe einer Vereinheitlichungsoperation unter Verwendung einer Vereinheitlichungsgrammatik. Obwohl es verschiedene Arten von Vereinheitlichungsgrammatik gibt, wird sich für die folgende Erläuterung auf die Grammatik auf Wortschatzbasis (LFG) bezogen.
Die LFG verwendet als ihre grammatikalische Regeln Phrasenstrukturregeln, denen grammatikalische Funktionen zugefügt werden. Die Satzstruktur des Satzes wird durch zwei Hierarchien dargestellt: Eine C-Struktur, die einen Phrasenstrukturbaum darstellt, und eine F-Struktur, die die hierarchische Struktur der grammatikalischen Funktion darstellt.
Die C-Struktur (Bestandteilsstruktur) ist selbst ein Strukturbaum. Die C-Struktur stellt sich als Analysebaum dar, der erhalten wird, indem eine normale Satzanalyse unter Verwendung der Phrasenstrukturregeln, die in den grammatikahschen Regeln der LFG enthalten sind, durchgeführt wird. Die F-Struktur (Merkmalstruktur) ist eine Merkmalstruktur, in der die Beziehungen zwischen grammatikalischen Funktionen, die in den grammatikalischen Regeln beschrieben sind, hierarchisch dargestellt werden in Bezug auf die Satzstruktur, die durch die C-Struktur dargestellt ist. Die C-Struktur wird im Prozeß der Erzeugung der F-Struktur verwendet. Entsprechend wird das Analyseergebnis in der LFG mit der F-Struktur dargestellt. Wenn zum Beispiel jede Phrasenstrukturregel ER, die in Fig. 6A dargestellt ist, als Phrasenstrukturregel der grammatikalischen Regeln verwendet wird, sieht die C-Struktur des Satzes "He sees tables." (Er sieht Tische) so aus, wie es in Fig. 6B dargestellt ist. Die F-Struktur, die sich aus der Analyse der LFG entsprechend der C-Struktur ergibt, sieht zum Beispiel so aus, wie es in Fig. 6C dargestellt ist.
Kurz gesagt sieht die F-Struktur (Merkmalstruktur), wie sie in Fig. 6C dargestellt ist, wie folgt aus. Das Subjekt "SUB" liegt in der Singularform vor und wird als "NUM SG" dargestellt. Da das Subjekt in der dritten Person vorliegt, wird der Numerus als "PERS 3" dargestellt. Der Genus des Subjektes wird als "GEN MASC" dargestellt, weil es männlichen Geschlechtes ist. Da das Subjekt im Nominativ vorliegt, wird der Kasus als "CASE NOM" wiedergegeben. Da die Bezeichnung (predicate) des Subjektes "HE" ist, wird die Bezeichnung dargestellt als "PRED HE". Da der Tempus in diesem Satz Präsens ist, wird er als "TENSE PRES" dargestellt. Das Prädikat wird als "SEES < (SUB)(OBJ)> " dargestellt. Der prädikative Teil (Prädikat) des Satzes lautet "SEES" und ist einem Prädikat und einem Objekt beigefügt. Deshalb wird "SEES" als "SEES < (SUB)(OBJ)> " dargestellt. Auch liegt das Objekt "OBJ" im Plural vor und wird als "NUM PL" dargestellt. Sein Inhalt (Bezeichnung) lautet "TABLE" und wird als "PRED TABLE" dargestellt.
In der vorstehend dargelegten Beschreibung dienen "SUB", "OBJ", "NUM" und so weiter als individuelle grammatikalische Funktionen. Es gibt zwei Arten von Merkmalswerten: Einer nimmt einen primitiven Wert an, ein anderer nimmt die F-Struktur an. Die Merkmalswerte der Art, die die primitiven Werte annehmen, sind zum Beispiel die Merkmalswerte "SG" und "PL" relativ zum Merkmal "NUM". Die Merkmalswerte der Art, die die F-Struktur annehmen, sind zum Beispiel Merkmalswerte relativ zu den Merkmalen "SUB" und "OBJ".
Die grammatikalischen Regeln der LFG werden im folgenden beschrieben.
Die grammatikalischen Regeln der LFG werden durch Phrasenstrukturregeln und die grammatikalischen Funktionen nichtterminaler Symbole, die in den Phrasenregeln erscheinen, dargestellt. Die grammatikalischen Funktionen sind in der Form dargestellt, die ein Funktionsschema genannt wird, unter Verwendung von Metavariablen. Die grammatikalischen Regeln der LFG werden zum Beispiel als die sechs Beispiele veranschaulicht (LR1 bis LR6), die in Fig. 7 dargestellt sind.
Von den sechs Beispielen in Fig. 7 ist zum Beispiel LR1 (S T NP VP) eine Phrasenstrukturregel. Die Regel LR1 zeigt an, daß der Satz S eine Nominalphrase NP und eine Verbalphrase VP einschließt. Der Ausdruck, der unterhalb des nichtterminalen Symbols einer jeden Phrasenstrukturregel auf der rechten Seite angebracht ist, wird ein funktionales Schema genannt (zum Beispiel "(ISUBJ) = O" oder "I = O"). Ein nach oben gerichteter Pfeil und ein nach unten gerichteter Pfeil in jedem funktionalen Schema werden Metavariablen genannt. Mit anderen Worten schließen die grammatikalischen Regeln der LFG die Phrasenstrukturregeln und die funktionalen Schemata ein. Die terminalen Symbole sind Buchstabenausdrücke (zum Beispiel das vorstehend genannte "he"), die im Schlußprozeß der Phrasenerzeugung auftauchen, und nichtterminale Symbole sind Symbole, die keine terminalen Symbole sind. Spezifisch sind in "S T NP VP" NP und VP nichtterminale Symbole.
Die Metavariable I bezeichnet eine F-Struktur, die dem nichtterminalen Symbol ("S" in Beispiel LR1) auf der linken Seite einer jeden Phrasenstrukturregel entspricht, das heißt, der F-Struktur eines übergeordneten Knoten im Phrasenstrukturbaum, der der Phrasenstrukturregel entspricht. Zum Beispiel zeigt (ISUB) an, daß NP, mit dem (ISUB) verknüpft ist, das SUB des übergeordneten Knotens S in der F-Struktur des übergeordneten Knotens S darstellt. Die Metavariable O veranschaulicht eine F-Struktur, die einem nichtterminalen Symbol entspricht, mit dem das funktionale Schema verknüpft ist, das heißt, die F-Struktur des untergeordneten Knotens (oder Knoten N in Fig. 6B) des Phrasenstrukturbaumes (zum Beispiel Fig. 6B), der der Phrasenstrukturregel entspricht. Das nichtterminale Symbol in Klammern kann in jeder Phrasenstrukturregel weggelassen werden. Zum Beispiel kann in Regel LR2 die Nominalphrase NP oder die Präpositionalphrase PP weggelassen werden. Jedes Element, das mit einem * bezeichnet ist, kann oder kann nicht auftauchen. Die Anzahl der Elemente kann eines oder mehrere sein, und die Reihenfolge des Erscheinens ist nicht von Bedeutung. Zum Beispiel kann in Regel LR3 die Präpositionalphrase PP mehrere Male auftauchen. Wenn eine Vielzahl von Elementen, die mit einem * markiert sind, erscheint, werden die entsprechenden Elemente unabhängig voneinander behandelt. Mit anderen Worten weisen die Elemente unabhängige F-Strukturen auf.
LR1 in Fig. 7 entspricht der Phrasenstrukturregel ER1 in Fig. 6A. LR1 zeigt an, daß die Nominalphrase NP und die Verbalphrase VP im Satz S in dieser Reihenfolge angeordnet sind, und jedes nichtterminale Symbol zeigt an, daß die Bedingung, die durch das funktionale Schema dargestellt ist, das an das nichtterminale Schema angeschlossen ist, erfüllt sein muß.
Der erste Ausdruck von LR1 auf der rechten Seite
NP
(ISUB) = O
ist zu lesen als: "Die F-Struktur von NP wird zum Bereich SUB der F-Struktur des übergeordneten Knotens verschoben." Mit anderen Worten wird angezeigt, daß die F-Struktur der Nominalphrase die F-Struktur des Subjektes SUB des Satzes S darstellt. Entsprechend wird angezeigt, daß die grammatikalische Funktion des Subjektes des Satzes eine grammatikalische Funktion ist, die durch NP in der Phrasenstrukturregel LR1 durchgeführt wird.
Der zweite Term von LRI auf der rechten Seite
VP
I = O
ist zu lesen als: "Die F-Struktur von VP wird auf die F-Struktur des übergeordneten Knotens verschoben". Das funktionale Schema I = O zeigt an, daß in den untergeordneten Knoten der Phrasenstrukturregel auf der rechten Seite ein Knoten, der dem funktionalen Schema beigefügt ist, ein Kopf ist.
Im folgenden wird eine Erklärung der Ausdrücke gegeben, die für den Vokabeleintrag in ein Wörterbuch unter Einsatz der Techniken des LFGs verwendet werden.
Die Vokabeleinträge in das Wörterbuch werden dargestellt unter Verwendung der funktionalen Schemata wie im Fall der vorstehend beschriebenen, grammatikalischen Regeln. Die Metavariable I der funktionalen Schemata bezieht sich auf die F-Struktur eines übergeordneten Knotens wie im Fall der grammatikalischen Regeln, die vorstehend beschrieben wurden. Die übergeordneten Knoten der Vokabeleinträge stellen immer jeweils präterminale Symbole dar. Die Metavariable I bezieht sich auf die F-Struktur eines übergeordneten Knotens wie Falle der grammatikalischen Regeln, die vorstehend beschrieben wurden. Der übergeordnete Knoten eines jeden Vokabeleintrages ist immer ein präterminales Symbol. Das präterminale Symbol bedeutet ein Symbol, das einen Teil der Sprache direkt vor einem terminalen Symbol definiert, während das terminale Symbol der letzte Buchstabenausdruck ist. Zum Beispiel ist im Beispiel LD1 in Fig. 8 V ein präterminales Symbol. Beispiele der Vokabeleinträge sind in Fig. 8 dargestellt.
In Beispiel LD1 von Fig. 8 zeigen die Merkmale "TENSE", "NUM" und "PERS" Tempus, Numerus beziehungsweise Genus an. Die Merkmalswerte "SG", "PL" und "3" bezeichnen "Singular", "Plural" beziehungsweise "Dritte Person". Im Beispiel LD1 bezeichnet "V", daß "sees" ein Verb darstellt. "(I TENSE) = PRES" bezeichnet, daß das Verb "sees" eine Präsensform ist. Zusätzlich bezeichnen "(I SUB NUM) = SG" und "(I SUB PERS) =3", daß das Subjekt die Dritte Person Singular sein muß. Der Wert des Merkmals "PRED" wird in das Symbol ' ' eingeschlossen und der Bereich, der in ' ' eingeschlossen ist, wird eine semantische Form genannt. Die semantische Form gibt die Informationen, die erforderlich sind, um die Bedeutung des entsprechenden Eintrages zu interpretieren.
Die grammatikalischen Regeln und das Wörterbuch der LFG sind so, wie sie vorstehend beschrieben wurden. Im folgenden wird eine Erklärung eines Satzanalyseverfahren gegeben, das die LFG verwendet.
Die Satzanalyse wird in zwei Schritten durchgeführt: Bildung einer C-Struktur und Bildung einer F-Struktur. Die Bildung einer C-Struktur wird verwirklicht durch eine gewöhnliche Satzstrukturanalyse, die Phrasenstrukturregeln in den grammatikalischen Regeln (solche, die zum Beispiel in Fig. 7 dargestellt sind) und Teile der Sprache im Wörterbuch (das zum Beispiel in Fig. 8 dargestellt ist) einsetzt. Es wird KEIN funktionales Schema verwendet.
Wenn die C-Struktur gebildet wird, wird eine F-Struktur aus der C-Struktur erhalten, indem das funktionale Schema verwendet wird. In diesem Fall wird eine Operation eingesetzt, die Unifikation beziehungsweise Vereinheitlichung genannt wird.
Es wird angenommen, daß die C-Struktur erhalten wird, die der entspricht, die in Fig. 6B dargestellt ist. Aus Beispiel LD1 in Fig. 8 ergibt sie die entsprechende F-Struktur von "V" zu:
Aus dem Beispiel LD3 in Fig. 8 geht hervor, daß eine F-Struktur, die "TABLE" entspricht, diese ist:
Die grammatikalische Regel LR2 lautet:
Das funktionale Schema (IOBJ) = O von NP bedeutet, daß die F-Struktur von NP an den "OBJ NO"-Teil der F-Struktur des übergeordneten Knotens VP weitergereicht wird. Entsprechend lautet die F-Struktur FS3 von VP:
Im Verfahren zum Bereitstellen von FS3 wird die Tatsache ausgenutzt, daß die Vereinheitlichung eine Art von Summensatzoperation darstellt.
Wie vorstehend beschrieben, ist die Vereinheitlichung eine Operation, bei der die F-Struktur FS1 von V und die F-Struktur FS2 von NP zu einer F-Struktur FS3 höherer Ordnung zusammengesetzt wird gemäß dem funktionalen Schema der grammatikalischen Regel LR2.
Die Vereinheitlichungsbearbeitung ist nicht nur eine Art von Summensatzoperation, sondern eine Operation, bei der die Konsistenz geprüft wird. Die Operation des Prüfens der Konsistenz wird im folgenden erklärt.
Aus LD2 ergibt sich, daß die F-Struktur von NP entsprechend "he" die folgende FS4 darstellt:
Die grammatikalische Regel LR1 lautet:
Deshalb lautet die F-Struktur FS5 von S:
Es wird hier gezeigt, daß es möglich ist, die Konsistenz des vorstehend genannten "he" zu prüfen. [NUM SG] und [PERS 3] in der F-Struktur von NP sind konsistent mit [NUM SG] und [PERS 3] in SUB der F-Struktur in FS3 des vorstehend genannten VP. Es folgt deshalb, daß die Vereinheitlichungsanalyse erfolgreich durchgeführt wurde.
Die so erhaltene F-Struktur FS5 des Satzes ist die semantische Struktur des Satzes, der schließlich durch die LFG-Analyse erhalten wird.
Die vorstehend dargestellte Beschreibung ist eine Erläuterung der Vereinheitlichungsanalyse, die ein LFG-Verfahren einsetzt. Die erste Ausführungsform und zweite Ausführungsform der Erfindung werden im folgenden in dieser Reihenfolge erläutert.

Konstruktion der Vorrichtung

Fig. 1 ist ein Blockdiagramm, das eine Satzstrukturerzeugungsvorrichtung zeigt, die geeignet ist zur Verwendung sowohl mit der ersten als auch mit der zweiten Ausführungsform. Die Satzstrukturerzeugungsvorrichtung ist so angeordnet, daß sie eine Phrasenstruktur aus einer Merkmalstruktur erzeugt.
Die Vorrichtung, die in Fig. 1 dargestellt ist, umfaßt einen Grammatikregelspeicherabschnitt 11 zum Speichern grammatikalischer Regeln zur Verwendung bei der Erzeugung von Satzstrukturen. Jede grammatikalische Regel, die im Grammatikregelspeicherabschnitt 11 gespeichert ist, schließt einen Phrasenstrukturteil, einen Semantikteil, einen Bedingungsteil und einen Nachrichtenteil ein. Fig. 12 zeigt ein Beispiel der grammatikalischen Regeln. In Fig. 12 bezeichnet "@sem" den Semantikteil "@con" den Bedingungsteil und "@mes" Nachrichtenteil.
Der Phrasenstrukturteil beschreibt Phrasenstrukturregeln, wie zum Beispiel "SDEC T NP VP" und "VP T V NP". In Fig. 12 bezeichnen SDEC, NP, VP und V einen beschreibenden Satz, eine Nominalphrase, eine Verbalphrase beziehungsweise ein Verb, und diese Elemente werden grammatikalische Kategorien genannt.
Der Semantikteil beschreibt die Art und Weise, wie Merkmalinformationen von einer übergeordneten Kategorie (die grammatikalische Kategorie der Phrasenstrukturregel auf ihrer linken Seite) zu einer untergeordneten Kategorie (die grammatikalische Kategorie der Phrasenstruktur der Phrasenstrukturregel auf ihrer rechten Seite) weitergereicht werden. Der Bedingungsteil beschriebt die Informationen, die erforderlich sind, um die Anwendungsbedingungen für eine entsprechende grammatikalische Regel zu beschreiben. Der Nachrichtenteil beschreibt Regeln zum Einbringen von Begrenzungen auf die Anwendung einer grammatikalischen Regel unter Verwendung der untergeordneten Kategorie der Grammatik als eine übergeordnete Kategorie.
Die Vorrichtung, die in Fig. 1 dargestellt ist, umfaßt auch einen Grammatikregelsuchabschnitt 12, einen Grammatikregelinterpretationsabschnitt 13, einen Erzeugungsabschnitt 14 und einen Arbeitsspeicher 15. Der Grammatikregelinterpretationsabschnitt 13 interpretiert eine grammatikalische Regel, die im Grammatikregelspeicherabschnitt 11 vom Grammatikregelsuchabschnitt 12 gesucht wurde. Der Erzeugungsabschnitt 14 erzeugt Phrasenstrukturen unter Verwendung von grammatikalischen Regeln und Steuerung der Eingabe/Ausgabe von Informationen verschiedener Art. Eine Merkmalstruktur, die die Bedeutung eines Satzes darstellt, wird anfänglich im Arbeitsspeicher 15 eingestellt (der als Arbeitsbereich dient), und es wird eine Phrasenstruktur im Arbeitsspeicher 15 konstruiert auf der Basis der Merkmalstruktur.
Vorstehend wurde eine Erklärung der Konstruktion der Vorrichtung gemäß sowohl der ersten wie auch der zweiten Ausführungsform gegeben. Jetzt werden die Satzstrukturerzeugungsprozesse gemäß der ersten Ausführungsform und der zweiten Ausführungsform in dieser Reihenfolge erklärt. Der Satzstrukturerzeugungsprozeß gemäß der ersten Ausführungsform nutzt ein semantisches Netzwerk als eine Hilfe und die Verfahrensweise ist im Flußdiagramm in Fig. 9 dargestellt. Der Satzstrukturerzeugungsprozeß gemäß der zweiten Ausführungsform nutzt eine rekursive Prozedur, die ein semantisches Netzwerk einsetzt, und die Prozedur wird in den Flußdiagrammen in Figg. 18A und 18B dargestellt.

Erste Ausführungsform

Fig. 9 ist ein Flußdiagramm des Satzstrukturerzeugungsprozesses gemäß der ersten Ausführungsform, der geeignet ist zur Verwendung in der Satzstrukturerzeugungsvorrichtung in Fig. 1 gemäß der ersten Ausführungsform. In der folgenden Erläuterung unter Bezug auf das Flußdiagramm in Fig. 9 bezieht sich Beispiel 1 auf den Prozeß des Empfangens einer Merkmalstruktur, wie sie zum Beispiel in Fig. 10 dargestellt ist, und der Ausgabe einer Phrasenstruktur, wie sie zum Beispiel in Fig. 11 dargestellt ist, unter Bezug auf die grammatikalische Regel, die in Fig. 12 dargestellt ist, und Beispiel 2 bezieht sich auf den Prozeß des Empfangens einer Merkmalstruktur, wie sie in Fig. 15 dargestellt ist, und der Ausgabe einer Phrasenstruktur, wie sie in Fig. 17 dargestellt ist, unter Bezug auf die grammatikalische Regel, die in Fig. 16 dargestellt ist.

Steuerprozedur

Der gesamte Prozeß wird im folgenden unter Bezug auf das Flußdiagramm in Fig. 9 erläutert.
Zuerst wird in Schritt S201 eine Merkmalstruktur, wie zum Beispiel die, die in Fig. 10 dargestellt ist, als eine grammatikalische Kategorie "bun" festgelegt ("bun" ist ein japanischer Begriff, der im Englischen einem Satz entspricht), die in der obersten Position eines Phrasenstrukturbaumes angeordnet ist. Dann wird in Schritt S202 der Grammatikregelspeicherabschnitt durchsucht, um eine grammatikalische Regel zu erhalten, die "bun" als übergeordnete Kategorie betrachtet (eine grammatikalische Kategorie auf der linken Seite einer Phrasenstrukturregel). Im Beispiel, das in Fig. 12 dargestellt ist, ist die gewünschte Regel als Regel R1 dargestellt. In Schritt S203 wird eine Entscheidung über die Anwendungsbedingung für die Grammatik gefällt, die im Bedingungsteil der erhalten grammatikalischen Regel beschrieben ist. In Schritt S203 wird bestimmt, daß diese Anwendungsbedingung für die Grammatik nicht erfüllt ist, und der Prozeß geht zu Schritt S204 weiter, wo bestimmt wird, ob es eine andere grammatikalische Regel gibt, die "bun" als übergeordnete Kategorie betrachtet. Wenn keine solche grammatikalische Regel gefunden wird, geht der Prozeß zu Schritt S205 weiter, in dem festgelegt wird, daß die Erzeugung einer Satzstruktur fehlgeschlagen ist. Wenn in Schritt S204 eine andere grammatikalische Regel gefunden wird, geht der Prozeß zu Schritt S206 weiter, in dem die grammatikalische Regel geholt wird. Der Prozeß kehrt dann zu Schritt S203 zurück, wo bestimmt wird, ob die Anwendungsbedingung für die Grammatik, die im Bedingungsteil der grammatikalischen Regel beschrieben ist, erfüllt ist.
Wenn in Schritt S203 bestimmt wird, daß die grammatikalische Regel, die in Schritt S202 oder S206 geholt wurde, erfüllt ist, wird die grammatikalische Regel in Schritt S206 angewendet und der Prozeß kehrt zu Schritt S203 zurück. In Schritt S203 wird festgelegt, ob die Anwendungsbedingung für die Grammatik, die in Bedingungsteil beschrieben ist, erfüllt ist. Wenn sie erfüllt ist, ist es möglich, die grammatikalische Regel anzuwenden.
Dann werden in Schritt S207 der Phrasenstrukturteil und der Semantikteil der Grammatikregel ausgeführt. Der Phrasenstrukturteil beschreibt eine Phrasenstrukturregel, und der Semantikteil beschreibt die Art und Weise, wie die Merkmalinformationen von einer übergeordneten Kategorie zu einer untergeordneten Kategorie "weitergeleitet" werden. Gemäß der Beschreibung im Semantikteil wird die Merkmalinformation von der übergeordneten Kategorie zur untergeordneten Kategorie weitergeleitet, wodurch Informationen über den Satz angemessen verteilt werden. Der Weiterleitungsprozeß der Merkmalinformationen von der übergeordneten Kategorie zur untergeordneten Kategorie wird später im Detail unter Bezug auf Figg. 10 bis 12 erläutert.
Dann wird in Schritt S208 der Nachrichtenteil ausgeführt. Dieser Nachrichtenteil wird bereitgestellt, um Begrenzungen in die Anwendung einer grammatikalischen Regel einzuführen, die als übergeordnete Kategorie die untergeordnete Kategorie der grammatikalischen Regel einsetzt, die in Schritt S206 geholt wurde. Insbesondere wird der Nachrichtenteil verwendet, um den Prozeß des Anwendens einer grammatikalischen Regel zu steuern unter Verwendung des vorstehend genannten Bedingungsteils und des vorstehend genannten Nachrichtenteils.
Wenn eine grammatikalische Regel in der vorstehend beschriebenen Weise ausgeführt wird, geht der Prozeß zu Schritt S209 weiter, um eine Phrasenstruktur niederer Ordnung zu erzeugen (Phrasenstrukturbaum). In Schritt S209 wird bestimmt, ob eine grammatikalische Regel existiert, die als übergeordnete Kategorie die untergeordnete Kategorie dieser grammatikalischen Regel verwendet. Wenn eine solche grammatikalische Regel gefunden wird, kehrt der Prozeß zu Schritt S203 zurück, wo eine Entscheidung über den Bedingungsteil gefällt wird, um zu sehen, ob die grammatikalische Regel anwendbar ist. Dann wird der vorstehend beschriebene Prozeß wiederholt.
Wenn in Schritt S209 bestimmt wird, daß es keine grammatikalische Regel gibt, die die untergeordnete Kategorie als übergeordnete Kategorie einsetzt, geht der Prozeß zu S210 weiter, wo bestimmt wird, ob die untergeordnete Kategorie ein präterminales Symbol darstellt. Das präterminale Symbol bedeutet eine grammatikalische Kategorie, wie zum Beispiel N oder V in Fig. 11, die keine grammatikalische Kategorie niederer Ordnung aufweist. Ein Symbol, dessen Ordnung niedriger ist als die des präterminalen Symbols, wird ein terminales Symbol genannt, was dem "the" oder "boy" im Beispiel, das in Fig. 11 dargestellt ist, entspricht.
Wenn in Schritt S210 bestimmt wird, daß die untergeordnete Kategorie kein präterminales Symbol darstellt, geht der Prozeß zu Schritt S211 weiter, in dem bestimmt wird, daß die Satzstrukturanalyse femgeschlagen ist. Wenn in Schritt S210 bestimmt wird, daß die untergeordnete Kategorie das präterminale Symbol ist, geht der Prozeß zu Schritt S212 weiter, in dem das gewünschte Wort aus den Merkmalinformationen entnommen wird, die zum präterminalen Symbol weitergereicht wurden. Wenn zum Beispiel das präterminale Symbol "DET" lautet, wobei das terminale Symbol in den Merkmalinformationen "the" lautet, wird "the" entnommen und unter das vorstehend genannte präterminale Symbol gesetzt. In Schritt S213 wird bestimmt, ob im Bezug auf alle präterminale Symbole Wörter festgelegt werden. Wenn es irgendein präterminales Symbol gibt, für das ein Wort nicht festgelegt wird, kehrt der Prozeß zu Schritt S212 zurück, wo ein Wort im Bezug auf das präterminale Symbol festgelegt wird.

Beispiel 1

Ein Beispiel, in dem die Satzstrukturerzeugungstechnik gemäß der ersten Ausführungsform auf ein linguistisches Phänomen, wie zum Beispiel einen Relativsatz angewendet wird, wird im folgenden mit Bezug auf Figg. 10 bis 13 erläutert.
Fig. 12 ist ein Flußdiagramm, das ein Beispiel der grammatikalischen Regeln darstellt, die im Grammatikregelspeicherabschnitt 11 beschrieben sind. In diesem Beispiel bezeichnet "@sem" einen Semantikteil, "@con" einen Bedingungsteil und "@mes" einen Nachrichtenteil. "I" bezeichnet die Merkmalstruktur der übergeordneten Kategorie, und "=" besagt, daß die Merkmalstrukturen auf beiden Seiten gleich sind."-" bezeichnet die Löschung einer Merkmalstruktur. "= =" und "≠" bezeichnen Übereinstimmung beziehungsweise fehlende Übereinstimmung von Werten. "++" bezeichnet das Zufügen einer Nachricht. Unter Bezug auf die grammatikalischen Kategorien bezeichnet "bun" einen Satz, "SDEC" einen deklarativen Satz, "END" eine Interpunktion, "NP" eine Nominalphrase, "BEP", eine BE-Verbalphrase, "PRED" eine Prädikatphrase, "VP" eine Verbalphrase, "DDET" eine nicht unbestimmte Bestimmungsphrase, wie zum Beispiel einen bestimmten Artikel, "NOMHD" einen Nominalkopf, "SREL/NP" einen Relativsatz, "RELPRO" ein Relativpronomen und "V" ein Verb. Details der grammatikalischen Regeln werden später erläutert im Verlaufe der Erläuterung der Verarbeitung, die durch die vorliegende Satzstrukturerzeugungsvorrichtung durchgeführt wird.
Fig. 13 ist ein schematisches Diagramm, das ein semantisches Netzwerk zeigt, das dem Satz "The boy who I saw is John." (Der Junge, den ich sah, heißt John) entspricht.
Fig. 10 ist ein Diagramm, das eine Merkmalstruktur zeigt, die den Satz "The boy who I saw is John." darstellt. Wie in Fig. 10 dargestellt, ist die Merkmalstruktur so aufgebaut, daß sie Paare aus einem Merkmalsnamen und einem Merkmalswert einschließt. Wie vorstehend beschrieben, gibt es zwei Arten von Merkmalswerten: Einen, der einen primitiven Wert annimmt und einen anderen, der eine F-Struktur annimmt. In Fig. 10 zeigt [1] in zum Beispiel Kopf [1] die Verknüpfung der Merkmalstruktur an. Die Merkmalstruktur in Fig. 10 wird erhalten durch Umwandeln des semantischen Netzwerkes in Fig. 13. Diese Umwandlung wird unter Bezug auf ein englisches Wörterbuch durchgeführt.
Der Prozeß, mit dem die Satzstrukturerzeugungsvorrichtung der ersten Ausführungsform die Phrasenstruktur in Fig. 11 aus der Merkmalstruktur in Fig. 10 erzeugt, wird im folgenden im Detail im Bezug auf das Flußdiagramm in Fig. 9 beschrieben. Im übrigen wird eine grammatikalische Regel, die mit diesem Prozeß verknüpft ist, in Fig. 12 dargestellt.
Zuerst wird die Merkmalstruktur in Fig. 10 als "bun" festgelegt (Schritt S201), um die Erzeugung einer Satzstruktur zu beginnen. Der Grammatikregelspeicherabschnitt 11 wird durchsucht, um eine grammatikalische Regel zu erhalten, die "bun" als übergeordnete Kategorie ausnutzt (Schritt S202), und die grammatikalische Regel R1, deren Struktur als "bun" T SDEC END beschrieben ist, wird gefunden. Da R1 keinen Bedingungsteil einschließt, werden ein Phrasenstrukturteil, ein Semantikteil und ein Nachrichtenteil in den Schritten S207 und S208 ausgeführt. Der Semantikteil lautet @sem I = SDEC, die Merkmalstruktur von "bun" wird direkt in "SDEC" weitergeleitet. Dann wird die untergeordnete Kategorie von "bun" durchsucht, um die Regel R2 zu finden. Im folgenden werden die Schritte S203 bis S208 wiederholt.
Der grammatikalische Code des Hauptverbs von "SDEC" lautet Wv1 und entspricht dem Bedingungsteil von R2, wodurch R2 angewendet wird. "(I head syn) = = Wv1", das in den Bedingungsteil von R2 gesetzt wurde, zeigt an, daß der Merkmalswert des Merkmalsnamens "syn" in der Merkmalstruktur des Merkmalnamens "head" in der Merkmalstruktur von SDEC Wv1 lautet. Der Merkmalname "syn" ist eine Abkürzung für Syntaxcode. Wv1 ist ein grammatikalischer Code, der in "Longman Dictionary of Contemporary English" verwendet wird und bezeichnet ein BE-Verb.
In der Regel R2 ist die Beschreibung "(I subcat SUB) = NP" im Semantikteil besonders wichtig. Gemäß dieser Beschreibung wird die Merkmalstruktur des Merkmalnamens "SUB" in der Merkmalstruktur des Merkmalnamens "subcat" in der Merkmalstruktur der untergeordneten Kategorie auf NP weitergeleitet. "subcat" ist eine Abkürzung für Unterkategorisierung und dient dazu, Elemente zu bündeln, die eine grammatikalisch starke Verbindung zu einem Hauptverb aufweisen (einem BE-Verb in diesem Fall).
Der Nachrichtenteil von R2 schließt den Nachrichtenbeschreibung "(NP rel) T NP ++ SREL" ein. Diese Beschreibung besagt, daß, wenn NP, das in R2 erzeugt wurde, einen Relativsatz (rel) besitzt, die Nachricht "SREL" zu NP zugefügt wird. Da das Beispiel in Fig. 10 einen Relativsatz einschließt, wird SREL zu NP zugefügt.
Da die Nachricht "SREL" dem Bedingungsteil von R4 entspricht, wird R4 angewendet. Die grammatikalische Kategorie "SREL/NP" im Phrasenstrukturteil von R4 zeigt einen Relativsatz an. "/" wird ein Schrägstrich beziehungsweise ein "slash" genannt und zeigt an, welche Informationen weggelassen werden. Zum Beispiel bedeutet /NP, daß NP im Relativsatz "SREL" weggelassen wird.
Dann wird R5 auf die grammatikalische Kategorie "SREL/NP" angewendet. Entsprechend der Beschreibung "(I relpro) = RELPRO" in R5 wird die Merkmalstruktur des Merkmalnamens "relpro" in die Merkmalstruktur der übergeordneten Kategorie " SREL/NP" auf das Relativpronomen RELPRO weitergeschrieben. Auch wird gemäß der Beschreibung "I - (I relpro) = SDEC" im Semantikteil von R5 eine Merkmalstruktur, in der die Merkmalstruktur von relpro aus der Merkmalstruktur von SREL/NP gelöscht wird, auf SDEC weitergeschrieben. In der vorstehend genannten Notierung bedeutet "-" das Weglassen einer Merkmalstruktur. Da der grammatikalische Code dieses deklarativen Satzes SDEC T&sub1; lautet, wird nicht R2 sondern R3 als eine untergeordnete Kategorie durchsucht. SDEC führt über R3 zu R6.
Die Weglaßinformation "/NP" wird in die Merkmalstruktur als ein Schrägstrichmerkmal eingeführt und automatisch gemäß dem Weiterleiten der Merkmale gesendet. Wenn diese Information auf NP eingestellt ist, wird φ(null) ausgegeben.
Die Phrasenstruktur, die schließlich erhalten wird, ist in Fig. 11 dargestellt.

Beispiel 2

Beispiel 1 wurde in Verbindung mit den Figg. 10 bis 13 erläutert unter Bezug auf das linguistische Phänomen eines Relativsatzes. Allerdings kann die Erfindung auf eine weite Vielfalt von linguistischen Phänomenen angewendet werden. Es folgt unter Bezug auf Beispiel 2 eine Erklärung der Verarbeitung von freien Fällen, die im Zusammenhang mit einer Entscheidung über die angemessene Reihenfolge der Worte stehen, die eine wichtige Rolle in der Erzeugung einer Satzstruktur spielt.
Die Merkmalstruktur von Beispiel 2 wird, wie in Fig. 15 dargestellt, aus einem semantischen Netzwerk erhalten, das dem Satz "I stop at Kobe to rest." ("Ich mache Rast in Kobe." oder "Ich unterbreche [meine Reise] in Kobe, um zu rasten.") in Fig. 14. Grammatikalische Regeln, die mit dem Verarbeiten des Merkmalstruktur in Fig. 15 verknüpft sind, sind in Fig. 16 dargestellt.
Die Verarbeitung der freien Fälle wird erklärt. Die freien Fälle schließen einen Zweckfall (PUR), einen Raumfall (SPA), einen Grundfall, einen Bedingungsfall und so weiter ein. "Stop", das im folgenden erklärt wird, befaßt sich mit aus freien Fällen bestehenden Elementen, wie zum Beispiel dem Zweckfall PUR und dem Raumfall SPA. Unter den freien Fällen wird, da der Verarbeitung des Zweckfalls, des Begründungsfalls, des Bedingungsfalls oder dergleichen der Vorzug gegeben wird, die Verarbeitung des Objektfalls PUR in diesem Beispiel am Anfang ausgeführt.
Die bevorzugte Bearbeitung wird durchgeführt mit Hilfe eines Nachrichtenteils der Regel R1 in Fig. 16. Insbesondere wird gemäß
(VP obl PUR head pos) = = v T VP ++ INF
wenn ein Zweckfallelement ein Verb ist, INF, das eine Infinitivphrase darstellt, als Nachricht an VP angehängt. In diesem Fall wird, da der Bedingungsteil von R3 in Fig. 16 eine Nachricht PP erfordert, die eine Präpositionalphrase PP anzeigt, R3 nicht angewendet und R2, die INF erfordert, angewendet. Obl, das in den Nachrichtenteil von R1 gestellt wird, ist eine Abkürzung für indirekt (oblique) und ein Merkmalname, der das Bündeln von beliebigen Elementen bedeutet.
(VP obl) T VP ++ PP im Nachrichtenteil der Regel R2 in Fig. 16 zeigt an, daß, wenn VP in einer übergeordneten Kategorie einen freien Fall besitzt, PP an VP in einer untergeordneten Kategorie als Nachricht angehängt wird. Entsprechend wird R3 auf VP angewendet. (I obl *x) = PP im Semantikteil von R3 zeigt an, daß, wenn VP einen freien Fall besitzt, eine bestimmte Merkmalstruktur als die Merkmalstruktur von PP betrachtet wird. In dieser Beschreibung stellt die Variable *x ein einen freien Fall darstellendes Element dar. In dieser Art und Weise wird ein Raumfall als Präpositionsphrase erzeugt.
Fig. 17 zeigt eine Phrasenstruktur, die schließlich aus Beispiel 2 erhalten wird.

Zweite Ausführungsform

Die Satzstruktur gemäß der ersten Ausführungsform, die vorstehend beschrieben wurde, wurde erklärt, beruhend auf der Annahme, daß ein semantisches Netzwerk als Begriffsstruktur verwendet wird und daß das semantische Netzwerk in eine Merkmalstruktur umgewandelt wird. Wenn allerdings eine Analyse auf Grundlage der Vereinheitlichungsgrammatik durchgeführt wird, die grammatikalische Funktionen unter Verwendung von Merkmalen beschreibt und die die Beziehungen zwischen den Aufbauelementen des Satzes als Vereinheitlichung der Merkmale darstellt, können die Merkmalstrukturen als Begriffsstrukturen eingesetzt werden. Entsprechend ist es nicht immer nötig, das Verfahren der Umwandlung des semantischen Netzwerkes in die Merkmalstruktur zu verwenden.
Als zweite Ausführungsform des Satzstrukturerzeugungsverfahrens, das vom Erzeugungsabschnitt 14 durchgeführt wird, wird ein Verfahren der Verwendung einer Merkmalstruktur als Begriffsstruktur erläutert unter Bezug auf Figg. 18A und 18B.
Ein Abriß der Verarbeitung der zweiten Ausführungsform wird kurz erläutert.
Im Erzeugungsabschnitt 14 spielt das "gen"-Programm zur Erzeugung eines Phrasenstrukturbaumes die Hauptrolle.
Dieses Programm führt eine rekursive Verarbeitung durch und erzeugt eine Struktur, deren Ordnung niedriger ist als die eines bestimmten Phrasenstrukturbaumes durch rekursives Aufrufen von "gen" in "gen".
Wenn "gen" "gen" aufruft, werden eine grammatikalische Kategorie und eine entsprechende Merkmalstruktur dem aufgerufenen "gen" als Argument beigegeben. Das aufgerufene "gen" neigt dazu, einen Unterbaum zu erzeugen, der als übergeordnete Kategorie die grammatikalische Kategorie einsetzt, die als Argument mitgegeben wurde. Wenn diese untergeordnete Kategorie (oder grammatikalische Kategorie, die als Argument mitgegeben wurde) kein präterminales Symbol darstellt, wird "gen" wieder aufgerufen, indem die untergeordnete Kategorie und eine entsprechende Merkmalstruktur als Argument verwendet werden, um einen Unterbaum zu erzeugen, dessen Ordnung niedriger ist als die der untergeordneten Kategorie. Wenn die untergeordnete Kategorie ein präterminales Symbol darstellt, wird kein Unterbaum niedrigerer Ordnung erzeugt, und der Unterbaum, dessen Ordnung niedriger ist als die des präterminalen Symbols, wird aufgebaut. Der aufgebaute Unterbaum wird von dem "gen" als Rückgabewert verwendet, das das präterminale Symbol als Argument betrachtet.
Wenn die Rückgabewerte (Unterbäume) von "gen", die die entsprechenden untergeordneten Kategorien als Argumente verwenden, zurückgegeben werden, wird ein Unterbaum durch Zusammenbauen des Rückgabewerte (Unterbäume) und einer übergeordneten Kategorie erzeugt, und der Unterbaum wird als Rückgabewert von dem "gen" eingesetzt, das die übergeordnete Kategorie als Argument verwendet.
In dieser Weise wird der Rückgabewert von dem "gen", das als Argument die oberste Kategorie, die "bun" genannt wird, verwendet, das heißt, der gewünschte Phrasenstrukturbaum, erhalten.
Der Phrasenstrukturerzeugungsprozeß gemäß der zweiten Ausführungsform wird im folgenden im Detail beschrieben mit Bezug auf Figg. 18A und 18B.
In Schritt S301 wird das Erzeugungsprogramm "gen" unter Verwendung von "bun" als Argument, das die oberste Kategorie (grammatikalische Kategorie höchster Ordnung) eines Phrasenstrukturbaumes und der Merkmalstruktur eines Satzes darstellt, aufgerufen. Das "gen", das durch die Zahl S303 bezeichnet wird, erzeugt einen Rückgabewert, indem es im Inneren einen rekursiven Aufruf wiederholt. Wenn der Rückgabewert von "gen" S303 erhalten wird, wird er in Schritt S302 (Fig. 18A) als Wert festgesetzt, der "TREE" genannt wird. Der gewünschte Phrasenstrukturbaum wird so erhalten.
Das "gen" S303 ist ein rekursives Verarbeitungsprogramm zum Erzeugen eines Phrasenstrukturbaumes.
Zuerst setzt in Schritt S304 das "gen" S303 eine grammatikalische Kategorie, die als Argument übergeben wurde, als einen Wert namens "cat" und eine Merkmalstruktur als einen Wert namens "FS" fest. In Schritt S305 wird eine grammatikalische Regel, die "cat" als übergeordnete Kategorie verwendet, gesucht. Der Grammatikregelsuchabschnitt 12, der in Fig. 1 dargestellt ist, wird für diesen Zweck verwendet.
In Schritt S306 wird bestimmt, ob eine grammatikalische Regel, die "cat" als übergeordnete Kategorie verwendet, verfügbar ist. Wenn die übergeordnete Kategorie gefunden wurde, wird die grammatikalische Regel in Schritt S307 angewendet. Schritt S307 schließt die Schritte S308 bis S313 ein und führt eine Verarbeitung durch, die ähnlich der ist, die im Zusammenhang mit den Schritten S203 bis S209 erläutert wurde. Insbesondere wird, bevor der Grammatikregelin terpretationsabschnitt 13 in Fig. 1 die grammatikalische Regel anwendet, bestimmt, ob der Bedingungsteil der grammatikalischen Regel erfüllt ist. Wenn er nicht erfüllt ist, geht der Prozeß zu Schritt S309 weiter, wo bestimmt wird, ob es eine andere grammatikalische Regel gibt. Wenn es keine andere grammatikalische Regel gibt, geht der Prozeß zu Schritt S310 weiter, wo bestimmt wird, daß die Erzeugung einer Satzstruktur fehlgeschlagen ist. Wenn eine andere grammatikalische Regel existieft, wird sie in Schritt S311 angewendet.
Wenn in Schritt S308 festgelegt wird, daß der Bedingungsteil erfüllt ist, geht der Prozeß zu Schritt S312 weiter, wo der Phrasenstrukturteil und der Semantikteil ausgeführt werden, um ein Merkmal weiterzuleiten. Dann wird in Schritt S312 ein Nachrichtenteil ausgeführt.
Wenn die Anwendung der grammatikalischen Regeln dieser Art vervollständigt ist, geht der Prozeß zu Schritt S314 weiter, wo "gen" aufgerufen wird, indem es als Argument jede untergeordnete Kategorie der grammatikalischen Regel und eine entsprechende Merkmalstruktur einsetzt. Der Erzeugungsabschnitt 14 ist gekennzeichnet durch die rekursive Verarbeitung des aufrufenden "gen" innerhalb von "gen" in der vorstehend beschriebenen Weise. Bei dieser Verarbeitungsform wird, da im allgemeinen eine Vielzahl von untergeordneten Kategorien existiert, "gen" viele Male wiederholt.
In Schritt S315 wird bestimmt, ob Rückgabewerte von allen "gens" erhalten wurden, die rekursiv aufgerufen wurden. Wenn die Rückgabewerte der "gens" relativ zu allen untergeordneten Kategorien erhalten wurden, werden die Rückgabewerte und die übergeordneten Kategorien in Schritt S316 zu einer Liste zusammengebaut und als Rückgabewert desjenigen "gens" zurückgegeben, das die übergeordnete Kategorie als Argument verwendet. Dieser Rückgabewert ist ein Unterbaum, der eine niedrigere Ordnung besitzt als die übergeordnete Kategorie.
Die vorstehend genannte Erläuterung wurde gegeben unter der Annahme, daß in Schritt S306 bestimmt wurde, daß es eine grammatikalische Regel gibt, die die grammatikalische Kategorie "cat" als übergeordnete Kategorie verwendet. Im folgenden wird eine Erläuterung des Falles gegeben, in dem festgestellt wird, daß es keine solche grammatikalische Regel gibt.
In diesem Fall geht der Prozeß zu Schritt S317 weiter, wo bestimmt wird, ob "cat" ein präterminales Symbol ist, wie zum Beispiel V (Verb) oder N (Hauptwort). Wenn bestimmt wurde, daß "cat" kein präterminales Symbol ist, geht die Kontrolle zu Schritt S318 weiter, wo bestimmt wird, daß die Erzeugung einer Satzstruktur fehlgeschlagen ist. Wenn festgestellt wird, daß "cat" ein präterminales Symbol ist, geht der Prozeß zu Schritt S319 weiter, wo ein Wort aus der Merkmalstruktur herausgeholt wird, die an "cat" weitergeleitet wurde. In Schritt S320 wird ein Unterbaum, der durch "cat" gebildet wurde, und das Wort als Rückgabewert von "gen" zurückgegeben, das "cat" als Argument einsetzt.
Wie vorstehend beschrieben, unterscheidet sich die zweite Ausführungsform von der ersten Ausführungsform darin, daß es, selbst wenn kein semantisches Netzwerk eingesetzt wird, möglich ist, einen Phrasenstrukturbaum aus einer Merkmalstruktur durch rekursives Aufrufen des Erzeugungsprogrammes zu erzeugen.
Wie aus den zwei Ausführungsformen, die vorstehend beschrieben wurden, hervorgeht, ermöglicht die Erfindung eine Verarbeitung auf Grundlage einer klaren Konstruktion, die grammatikalische Regeln einsetzt, die durch deklarative Beschreibungen ausgedrückt sind. Das liegt daran, daß die Erfindung ein bemerkenswert einfaches, systematisches Erzeugungsverfahren zum Erzeugen eines Phrasenstrukturbaumes (Phrasenstruktur) einzig durch das Prinzip der "Weiterleitung eines Merkmales" von einem Knoten höherer Ordnung zu einem Knoten niedriger Ordnung entlang des Phrasenstrukturbaumes einsetzt. Entsprechend ist es möglich, einen Phrasenstrukturbaum zu erhalten, der in Wartbarkeit und Erweiterbarkeit hervorsticht. Es ist auch möglich, zuverlässig einen Satz zu erzeugen, der der Grammatik entspricht.
Die erfindungsgemäße Satzstrukturerzeugungsvorrichtung ist so angeordnet, daß sie als Eingabe eine Merkmalstruktur empfängt, die durch eine Merkmal dargestellt wird, das als Aufbauelement dient, und dann eine Phrasenstruktur ausgibt. Obwohl Analyse und Erzeugung bisher getrennt voneinander ausgeführt wurden, macht es die Einführung einer solchen Merkmalbeschreibung möglich, die Analyse und die Erzeugung innerhalb der Vereinheitlichungsgrammatik in ähnlicher Weise zu beschreiben.
Zusätzlich kann das Problem der Satzstrukturerzeugungstechnik, das in der vorstehend genannten Literaturstelle "Generation of English Sentence from Conceptually Dependent Diagram" vorgeschlagen wurde, in der folgenden Weise gelöst werden.
Es wird zum Beispiel angenommen, daß in den folgenden Phrasenstrukturregeln (SDEC T NP VP, VP T V NP NP), die durch die Formulierung von R3 in Fig. 12 ausgedrückt sind, die entsprechenden Semantikteile wie folgt beschrieben sind:
worin REC einen Empfangsfall und COT einen Inhaltsbestimmungsfall bedeutet. Wie vorstehend beschrieben, wird es, da Phrasenstrukturregeln und entsprechende Fallinformationen (semantische Informationen) im gleichen Teil beschrieben sind, im konventionellen Verfahren erforderlich, sie unter Verwendung von zwei Ausdrücken zu beschreiben:
S (NP(A) VP (V(*) NP(R) NP(O)))
S (NP(A) VP (V(*) NP(O) NP(C)))
Im Gegensatz dazu wird gemäß der Erfindung eine Phasenstrukturregel und die entsprechende Fallinformation in einem Phrasenstrukturteil beziehungsweise in einem Phrasenstrukturteil beschrieben. Entsprechend kann die Phrasenstrukturregel durch eine einzelne Beschreibung dargestellt werden, und die Klarheit der Konstruktion kann bemerkenswert verbessert werden.

Claims

1. Vorrichtung zur Erzeugung von natürlichsprachlichen Sätzen zur Erzeugung einer Phrasenstruktur aus einer Satzeingabe in die Vorrichtung, wobei die Vorrichtung folgendes umfaßt:

Eine Grammatikregelspeichereinrichtung (11) zum Speichern einer Vielzahl von grammatikalischen Regeln,

eine Sucheinrichtung (12) zum Suchen grammatikalischer Regeln, die in der Grammatikregelspeichereinrichtung gespeichert sind,

eine Interpretationseinrichtung (13) zum Interpretieren der grammatikalischen Regeln, die durch die Sucheinrichtung gesucht wurden, und

eine Erzeugungseinrichtung zum Erzeugen einer Phrasenstruktur für den Satz,

dadurch gekennzeichnet, daß die Vorrichtung so gestaltet ist, daß sie einen Eingabesatz verarbeitet, der als Merkmalstruktur bereitgestellt ist, in der die Satzelemente als Merkmale dargestellt sind, und daß jede der grammatikalischen Regeln folgendes einschließt: einen Phrasenstrukturteil, der eine Phrasenstrukturregel beschreibt, die eine grammatikalische Funktion darstellt, einen semantischen Teil, der eine Art und Weise beschreibt, in der Merkmalinformationen in der Phrasenstrukturregel von einer bestimmten übergeordneten Kategorie auf eine untergeordnete Kategorien weitergereicht werden, einen Bedingungsteil, der eine Bedingung beschreibt, unter der die grammatikalische Regel angewendet wird, und einen Nachrichtenteil, der eine Nachricht zum Einbringen von Begrenzungen auf die Verwendung der Phrasenstrukturregel beschreibt, wenn die untergeordnete Kategorie eine neue übergeordnete Kategorie wird, wobei die Sucheinrichtung so gestaltet ist, daß sie die grammatikalischen Regeln gemäß der Art und Weise durchsucht, die im semantischen Teil beschrieben ist, um so die Merkmalinformationen in der Phrasenstruktur weiterzureichen, und die Erzeugungseinrichtung so gestaltet ist, daß sie eine grammatikalische Regel, die durch die Interpretationseinrichtung interpretiert wurde, auf den Eingabesatz anwendet und die Phrasenstruktur aus der Information über die grammatikalische Funktion, die durch die grammatikalische Regel eingebracht wird, erzeugt.

2. Vorrichtung nach Anspruch 1, worin die Merkmalstruktur des Eingabesatzes beschrieben wird unter Verwendung einer Merkmalbeschreibungsregel einer Vereinheitlichungsgrammatik (unification grammar).

3. Vorrichtung nach Anspruch 2, worin die Einrichtung zur Speicherung der grammatikalischen Regel so gestaltet ist, daß sie eine grammatikalische Regel speichert, die unter Verwendung der Merkmalbeschreibungsregel beschrieben wird.

4. Vorrichtung nach einem der Ansprüche 1 bis 3, umfassend eine Einrichtung zur Umwandlung der Merkmalstruktur des Eingabesatzes aus einem semantischen Netzwerk.

5. Vorrichtung nach einem der Ansprüche 1 bis 3, zusätzlich umfassend eine Analyseeinrichtung zum Analysieren eines Satzes, um die Merkmalstruktur des Eingabesatzes bereitzustellen.

6. Vorrichtung nach einem der vorhergehenden Ansprüche, worin der Phrasenstrukturteil eine Phrase als eine Kategorie einschließt und eine übergeordnete Kategorie und wenigstens eine untergeordnete Kategorie aufweist, die die übergeordnete Kategorie bildet.

7. Vorrichtung nach einem der vorhergehenden Ansprüche, worin die Merkmalstruktur, die auf die untergeordnete Kategorie weitergereicht wird, wenigstens eine Merkmalstruktur der übergeordneten Kategorie umfaßt.

8. Vorrichtung nach einem der vorhergehenden Ansprüche, worin die Sucheinrichtung so gestaltet ist, daß sie eine Kategorie, die die Bedingung erfüllt, die im Bedingungsteil der Nachricht beschrieben ist, als untergeordnete Kategorie auswählt, wenn die Nachricht, die im Nachrichtenteil beschrieben ist, von der übergeordneten Kategorie auf die untergeordnete Kategorie weitergereicht wird.