DE69710459T2

DE69710459T2 - Identifizierung von wörtern im japanischem text durch ein rechnersystem

Info

Publication number: DE69710459T2
Application number: DE69710459T
Authority: DE
Inventors: H. Halstead; Hisami Suzuki
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1996-06-28
Filing date: 1997-06-25
Publication date: 2002-06-27
Anticipated expiration: 2017-06-26
Also published as: WO1998000794A1; EP0907924B1; US5963893A; EP0907924A1; JP2000514218A; US5946648A; CN1223733A; CN1135485C; DE69710459D1

Description

Die vorliegende Erfindung bezieht sich allgemein auf Datenverarbeitungssysteme und insbesondere auf die Identifizierung von Wörtern in einem japanischen Text durch ein Computersystem.
Ein japanischer Text setzt vier unterschiedliche Schreibsysteme ein, die jeweils separate Zeichensätze einsetzen. Diese Schreibsysteme sind Hiragana, Katakana, Kanji und Romaji. Katakana-Zeichen stellen Silben, typischerweise Konsonanten- und Vokal- Kombinationen, dar und werden zum Schreiben von Wörtern, angelehnt an westliche Sprachen, wie beispielsweise Englisch, verwendet. Hiragana-Zeichen stellen auch Silben dar und werden sehr umfangreich zum Schreiben von grammatikalischen Worten, wie beispielsweise Adverben, funktionale Kategorien, wie beispielsweise Beugung von Verben, oder anderen Markierungen, verwendet. Hiragana und Katakana sind kollektiv als Kana bekannt. In Abhängigkeit von dem Corpora besitzen Worte, geschrieben in Hiragana und Katakana, eine durchschnittliche Wortlänge zwischen 3 und 5 Zeichen. Kanji-Zeichen sind Zeichen, die weitgehend an das Chinesische angelehnt sind, und sind ideographische Zeichen, die eine Bedeutung darstellen. Romaji sind romanische bzw. lateinische Zeichen, die zum Beispiel in dem lateinischen Alphabet vorgefunden werden, das für Englisch verwendet wird.
In einer natürlichen Sprachverarbeitung verkompliziert das Vorhandensein von mehrfachen Schreibsystemen die Aufgabe einer Verarbeitung und eines Parsing bzw. eine Syntaxanalyse eines japanischen Textes. Dieser Text wird weiterhin durch die Art und Weise verkompliziert, in der Worte in Japanisch geschrieben werden. Insbesondere werden Worte zusammen ohne separierende Abstände geschrieben, d. h. dort sind keine begrenzenden, weißen Zwischenräume zwischen den Worten vorhanden. Es ist demzufolge für ein Computersystem schwierig, individuelle Worte innerhalb einer Textfolge, geschrieben in Japanisch, zu identifizieren. Eine herkömmliche Maßnahme ist diejenige gewesen, maximal Kana und Kanji in der Textfolge mit Worten in einem Wörterbuch bzw. Dictionary anzupassen. IBM Journal of Research and Deveiopment, "CRITAC-An experimental system for Japanese text proofreading", K. Takeda et al., März 1998, No. 2, Armonk, NY, USA, beschreibt ein experimentelles System für eine japanische Textkorrekturlesung, bezeichnet als CRITAC (CRITquing using Accumulated knowledge). Das beschriebene System kann typographische Fehler, Kana-zu-Kanji-Konversions-Fehler und stilistische, Fehler in einem japanischen Text erfassen.
Leider erfordert, um eine große Anzahl von Worten zu erfassen, diese Maßnahme ein großes Dictionary bzw. Wörterbuch, das zu groß ist, um es effektiv in einem primären Speicher, d. h. einem RAM, zu speichern. Als Folge muss das Dictionary in einem sekundären Speicher gespeichert werden und das Overhead, zugeordnet einem Zugreifen auf den sekundären Speicher, muss zu jedem Zeitpunkt herangezogen werden, zu dem ein Wort aus dem Dictionary gesucht wird. Weiterhin können sogar sehr große Dictionarys nicht eine vollständige Abdeckung aller Worte garantieren. Diese Schwierigkeit wird durch die dynamische Art verkompliziert, welche Worte Teil einer gegebenen, natürlichen Sprache sind. Worte werden zugeführt, d. h. neue Worte werden geprägt, und Worte werden aus der Sprache entfernt, d. h. Worte fallen außerhalb der Benutzung oder werden antiquiert, wenn die Zeit fortschreitet. Demzufolge begrenzt ein festgelegtes Dictionary, durch seine Art, die Abdeckung für Worte einer gegebenen Sprache und das Dictionary wird während der Zeit seinen Umfang bzw. Erfassung verlieren.
Die EP-A1-0 547 222 schlägt ein System für eine Syntax-Analyse der japanischen Sprache vor. Dieses System weist eine lokale Syntax-Analysiereinheit auf, die Einbeziehungen unter den Worten in einem japanischen Sprachtext bestimmt und einen entsprechenden, analytischen Baum bildet, der diese Folgerungen anzeigt. Das System weist weiterhin eine generische Syntax-Analysiereinheit auf, die, wenn ein japanischer Satz, angezeigt in dem analytischen Baum, ein komplexer Satz ist, die Wahrscheinlichkeit eines Bereichs bestimmt, zu dem ein nachgestelltes Verhältniswort als ein Hilfswort zu einem Hauptwort funktioniert, abhängig von der Syntax-Information der vorstehenden Worte, Bedeutungs- Informationen und vorbestimmten, analytischen Regeln, basierend auf den strukturellen Merkmalen der vorstehenden, japanischen Sprache, impliziert wird, wobei weiterhin der analytische Baum, so, wie es erforderlich ist, korrigiert wird.
Es ist die Aufgabe der vorliegenden Erfindung, ein verbessertes Verfahren zum Darstellen einer Analyse einer Eingabe-Folge von Zeichen einer natürlichen Sprache und ein Computersystem, das einen Speicher besitzt, und auf dem das Verfahren durchgeführt wird, zu schaffen.
Diese Aufgabe wird durch ein Verfahren und ein Computersystem gemäß den Gegenständen der unabhängigen Ansprüche 1 und 13 gelöst.
Bevorzugte Ausführungsformen sind Gegenstand der abhängigen Ansprüche.
Insbesondere wird, mit diesem Verfahren, die Eingabe-Folge verarbeitet, um Zeichen einer natürlichen Sprache in der Folge und Morpheme in der Folge zu identifizieren. Eine Struktur wird in dem Speicher erzeugt, der eine gerichtete, azyklische Graphik hält, die Morphem-Übergänge und eine Buchstabierung für morphologische Analysen der Eingabe- Folge hält.
Gemäß einem Aspekt der vorliegenden Erfindung sind n-gram-Schablonen vorgesehen, die ein Muster von Zeichen-Typen, aufgefunden in Stämmen, spezifizieren. Jede Mustervorlage bzw. Schablone umfasst auch Informationen, die sich auf die Wahrscheinlichkeit beziehen, dass die Mustervorlage in einem Stamm auftritt. Mindestens einige der Mustervorlagen werden zu einem Bereich einer Eingabe-Folge angepasst, um passende solche der Mustervorlagen zu identifizieren. Die passenden Mustervorlagen werden dazu verwendet, zu identifizieren, welcher Bereich der Eingabe-Folge ein Stamm ist. Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird eine Eingabe-Folge von japanischen Zeichen vorgesehen und eine morphologische Analyse wird in Bezug auf die Eingabe-Folge in einer Weise von rechts nach links durch Verarbeitung des am weitesten rechts liegenden Zeichens zuerst und weiteres Verarbeiten, um Zeichen in einer Folge nach links von dem ersten Zeichen aus zu verarbeiten, durchgeführt. Die morphologische Analyse identifiziert Grenz-Morpheme und mindestens ein Lexem in der Eingabe-Folge.
Gemäß einem zusätzlichen Aspekt der vorliegenden Erfindung wird eine morphologische Analyse in Bezug auf eine Eingabe-Folge von japanischen Zeichen durchgeführt, um eine direkte, azyklische Graphik zu erhalten. Diese Graphik besitzt Knoten, die Zeichen oder Morpheme und Hinweiszeiger, die die Knoten miteinander verbinden, darstellen. Die Graphik besitzt einen Root-Knoten und Blatt-Knoten. Für jeden Blatt-Knoten ist ein Pfad vorhanden, der von dem Blatt-Knoten zu einem Root-Knoten führt, und eine morphologische Analyse von mindestens einem Bereich der Eingabe-Folge darstellt, die Grenz-Morpheme umfasst. Die Pfade, die von dem Root-Knoten zu dem Blatt-Knoten führen, werden markiert, um Pfade zu favorisieren, die eine Analyse für einen größeren Bereich der Eingabe- Folge umfassen, und Pfade favorisieren, die eine größere Anzahl von Grenz-Morphemen umfassen. Der höchste Markierungspfad wird als die morphologische Analyse ausgewählt, um auf den Bereich der Eingabe-Folge angewandt zu werden.
Gemäß einem anderen Aspekt der vorliegenden Erfindung wird ein Verfahren zum Verarbeiten einer Eingabe-Folge von japanischen Zeichen auf dem Computersystem durchgeführt. Gemäß diesem Verfahren werden Phrasen-Unterbrechungen in einer Eingabe-Folge durch Anwenden einer statistischen Technik identifiziert. Diese Phrasen-Unterbrechungen begrenzen Phrasen. Für jede Phrase innerhalb einer Eingabe-Folge wird eine Anzahl von Schritten durchgeführt. Zuerst werden mögliche Postfix-verbundene Morpheme identifiziert und eine graphische Darstellung solcher Morpheme wird erzeugt. Mögliche Stämme in der Phrase werden durch Vergleichen von Zeichen in der Eingabe-Folge mit Stamm-Zeichen- Mustervorlagen identifiziert, die ein Muster von Zeichen-Typen in einem Stamm identifizieren. Mögliche Präfix-verbundene Morpheme werden für jeden möglichen Stamm identifiziert. Eine graphische Darstellung der Präfix-verbundenen Morpheme wird erzeugt. Eine beste Kombination der möglichen Postfix-verbundenen Morpheme, der Stämme und der Präfix-verbundenen Morpheme wird als Analyse der Phrasen-Eingabe-Folge ausgewählt, die am besten die Eingabe-Folge charakterisiert.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Verfahren in einem Computersystem ausgeführt, dem ein vollständig spezifiziertes Dictionary fehlt. Mit diesem Verfahren wird eine Eingabe-Folge von Zeichen vorgesehen, wo den Zeichen weiße Zwischenräume zwischen ihnen selbst fehlen. Die Eingabe-Folge wird verarbeitet, um Worte, Stämme und Affices bzw. Beifügungen in den Worten selbst zu identifizieren.
Gemäß einem anderen Aspekt der vorliegenden Erfindung wird der Text eines Dokuments, das Zeichen besitzt, verarbeitet, um eine morphologische Liste des Textes zu erhalten. Markierer werden in die morphologische Liste eingesetzt, um Auswahl-Grenzen innerhalb des Textes zu identifizieren. Wenn ein Benutzer die Eingabevorrichtung verwendet, um eine Auswahl eines Textes anzufordern, werden die Markierer dazu verwendet, die Granularität der sich ergebenden Auswahl zu identifizieren.

Kurze Beschreibung der Zeichnungen

Eine bevorzugte Ausführungsform der vorliegenden Erfindung wird nachfolgend unter Bezugnahme auf die folgenden Zeichnungen beschrieben.
Fig. 1 zeigt ein Blockdiagramm eines Computersystems, das zum Ausführen der bevorzugten Ausführungsform der vorliegenden Erfindung geeignet ist.
Fig. 2 zeigt ein Blockdiagramm, das die verschiedenen Analyse-Stufen darstellt, die durch die bevorzugte Ausführungsform der vorliegenden Erfindung ausgeführt werden.
Fig. 3 zeigt ein Flußdiagramm, das die Schritte zeigt, die durch die bevorzugte Ausführungsform der vorliegenden Erfindung ausgeführt werden.
Fig. 4 zeigt ein Blockdiagramm, das die Verarbeitung darstellt, die in einer Hard-Phrase- Break-(HPB) Analyse durchgeführt wird.
Fig. 5 zeigt ein Flußdiagramm, das die Schritte darstellt, die während einer HPB-Analyse durchgeführt werden.
Fig. 6 zeigt eine Darstellung eines Beispiels einer japanischen Eingabe-Text-Folge, die verarbeitet worden ist, um HPB's zu identifizieren.
Fig. 7 zeigt ein Blockdiagramm, das den Datenfluss in einer Postfix-Analyse darstellt.
Fig. 8 zeigt ein Flußdiagramm, das die Schritte darstellt, die während einer Postfix-Analyse durchgeführt werden.
Fig. 9 zeigt ein Beispiel eines Morphem-Eintritts.
Fig. 10 zeigt ein Flußdiagramm, das die Schritte darstellt, die in einer Iteration der Postfix- Analyse durchgeführt werden.
Fig. 11 zeigt ein Beispiel einer Postfix-Morphologie-Liste.
Fig. 12 zeigt das Format eines Knotens in einer Postfix-Morphologie-Liste.
Fig. 13 zeigt eine Auswerte-Tabelle für den Postfix-Auswerte-Abschnitt, der in der bevorzugten Ausführungsform der vorliegenden Erfindung verwendet wird.
Fig. 14 zeigt die Analyse und den Datenfluss, durchgeführt in der Stamm-Analyse.
Fig. 15 zeigt ein Flußdiagramm, das die Schritte darstellt, die in einer primären Lexikon- Durchsicht durchgeführt werden.
Fig. 17 zeigt das Format, eines SPB-Baums, gebildet durch SPB-Knoten.
Fig. 18 zeigt den Datenfluss in einer Präfix-Analyse.
Fig. 19 zeigt ein Flußdiagramm, das die Schritte darstellt, die in einer Präfix-Analyse durchgeführt werden.
Fig. 20 zeigt ein Flußdiagramm, das Schritte darstellt, die dazu durchgeführt werden, eine optimale Analyse einer Phrase gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung durchzuführen.
Fig. 21A zeigt ein Flußdiagramm, das die Schritte darstellt, die durchgeführt werden, um Auswahl-Markierer in einem Anwendungs-Programm in der bevorzugten Ausführungsform der vorliegenden Erfindung zu verwenden.
Fig. 21 B zeigt ein Flußdiagramm, das die Schritte darstellt, die in einer zweiten und einer dritten Anwendung ausgeführt werden.
Die bevorzugte Ausführungsform der vorliegenden Erfindung bezieht sich auf eine Wortunterteilungseinrichtung zum Unterteilen einer Textfolge aus japanisch in separate Worte oder Jiu-Jitsu-Phrasen. Die bevorzugte Ausführungsform der vorliegenden Erfindung führt eine primäre, morphologische Verarbeitung in Bezug auf die Text-Folge durch, um die Abhängigkeit des Systems von großen, statischen Dictionarys zu reduzieren und um den Zugriffs-Overhead und die Probleme einer unbekannten Wort-Identifikation, zugeordnet der "Up-front" Dictionary-Verwendung, zu vermeiden. Die bevorzugte Ausführungsform der vorliegenden Erfindung setzt eine einzigartige, morphologische Liste ein, die Übergänge unter Morphemen einsetzt, die durch die morphologische Verarbeitung identifiziert sind. Diese Liste ist eine sehr kompakte Darstellung morphologischer Analysen. Die bevorzugte Ausführungsform der vorliegenden Erfindung setzt auch Opheme (Orthographeme) ein, die Zeichen-Typ-Mustervorlagen-Muster sind, die während einer Stamm-Analyse verwendet werden, um Stämme zu identifizieren.
Die morphologische Analyse, durchgeführt durch die bevorzugte Ausführungsform, sucht danach, "Morpheme" zu identifizieren, die Basis-Einheiten einer Bedeutung oder formeller nicht unterteilbarer, linguistische Einheiten sind. Jedes Morphem kann eine alleinstehende, linguistische Einheit sein, die den Inhalt, bekannt als ein "Stamm", enthält, oder eine Begrenzngs-Linguistik-Einheit, die auf einen Stamm begrenzt ist. In der Diskussion nachfolgend für einen japanischen Text werden die Stämme als Jiu-Jitsu bzw. als "jiritsugo" bezeichnet, und die verbundenen Morpheme werden als "fuzukugo" bezeichnet. Ein Beispiel hilft dabei, die Unterscheidung zwischen Stämmen und Verbundenen Morphemen zu unterscheiden. Das englische Wort "walks" umfasst einen Stamm "walk" und ein verbundenes Morphem "s". Der Stamm "walk" enthält einen Inhalt, der bedeutet, sich über eine Fläche zu bewegen, also im Schritt per Fuß zu bewegen; dagegen ist "s" funktional und spezifiziert, dass das Verb für die drille Person Singular Präsenz steht.
Die bevorzugte Ausführungsform der vorliegenden Erfindung identifziert Jiritsugo Phrasen, was eine 'Einheit ist, die ein oder mehr autonome Wort(e) enthält oder Jiritsugo-bzw. Jui-Jitsu-Stämme plus irgendeine Anzahl von abhängigen Morphemen. Diese abhängigen Mocphemen nehmen typischerweise die Form von Affices an (d. h. entweder Präfices oder Postfices). Eine Ausnahme ist diejenige, dass eine Jiritsugo-Phrase ein zusammengesetztes Hauptwort oder ein zusammengesetztes Verb umfassen kann, das mehrfache Jiritsugo einsetzt. Solche zusammengesetzten Hauptwörter und zusammengesetzten Verben werden in weiterem Detail nachfolgend diskutiert werden.
Die bevorzugte Ausführungsform der vorliegenden Erfindung setzt auch eine neuartige Kombination von statistischen Verfahren ein, um die Eingabe-Text-Folge zu verarbeiten. Zuerst werden statistische Wahrscheinlichkeiten zum Aufbrechen von Unigrammen und zum Aufbrechen von Bigrammen angewandt, um die Wahrscheinlichkeit zu bestimmen, dass Hard-Phrase-Breaks (HPB's) innerhalb der Eingabe-Text-Folge vorhanden sind. Eine HPB spezifiziert eine Stelle der Textfolge, die eine sehr hohe Wahrscheinlichkeit besitzt, die als ein Grenzpunkt zwischen zwei Phrasen dient. Die bevorzugte Ausführungsform der vorliegenden Erfindung verwendet auch intersoft-phrase-break-(inter-SPB)- Morphem-Bigramme und intra-Soft-Phrase-Break-(intra-SPB)-Morphem-Bigramm- Wahrscheinlichkeiten. Eine Soft-Phrase-Break spezifiziert Unterbrechungen zwischen Jiritsugo-Phrasen, die während einer Analyse eines Textes zwischen HPB's bestimmt werden. Eine mögliche Jiritsugo-Phrasen-Analyse wird durch PBS begrenzt, allerdings wird der Term SPB nachfolgend dazu verwendet werden, sich auf eine Jiritsugo-Phrase zu beziehen. Inter-SPB-Morphem-Bigramme beziehen sich auf Bigramme, gebildet durch Morpheme in zwei unterschiedlichen Soft-Phrase-Breaks, wogegen intra-SPB-Morphem- Bigramme durch Morpheme innerhalb eines einzelnen Soft-Phrase-Breaks gebildet werden. Diese Bigramm-Wahrscheinlichkeiten werden dazu verwendet, mögliche morphologische Analysen zu gewichten und bestimmte Stamm-Analysen einzuschränken. Kanji- Bigramm-Wahrscheinlichkeiten werden auch vorgesehen, um bestimmte Stamm-Analysen zu gewichten.
Fig. 1 zeigt ein Blockdiagramm eines Computersystem 10, das zum Durchführen der bevorzugten Ausführungsform der vorliegenden Erfindung geeignet ist. Fachleute auf dem betreffenden Fachgebiet werden erkennen, dass das Computersystem 10, das in Fig. 1 dargestellt ist, dazu vorgesehen ist, nur erläuternd zu sein, und dass die vorliegende Erfindung mit anderen Computer-Systemen-Konfigurationen praktiziert werden kann, umfassend verteilte Systeme und Multiprozessor-Systeme. Das Computersystem 10 umfasst einen Prozessor 12, mindestens eine Eingabevorrichtung 14 und mindestens eine Ausgabevorrichtung 16. Die Eingabevorrichtung 14 kann, zum Beispiel, ein Tastenfeld, eine Mouse, ein Mikrofon, eine hinweisende Vorrichtung, ein digitalisierendes Tableau oder eine andere Eingabevorrichtung sein. Die Ausgabevorrichtung 16 kann, zum Beispiel, eine Videoanzeigevorrichtung, ein Drucker, ein Lautsprecher oder eine andere Ausgabevorrichtung sein. Das Computersystem 10 kann auch eine Netzwerk-Schnittstelle 15 umfassen, die das Computersystem schnittstellenmäßig mit einem Netzwerk 17 verbindet. Das Computersystem umfasst zusätzlich eine Speichervorrichtung 18, die Anwendungsprogramme 20 hält und eine Wort-Unterteilungs-Einrichtung 22. Die Wort-Unterteilungs- Einrichtung 22 hält die Instruktionen zum Durchführen der bevorzugten Ausführungsform der vorliegenden Erfindung, die hier beschrieben ist. Obwohl die Wort-Unterteilungs- Einrichtung 22 in Fig. 1 so dargestellt ist, dass sie von dem Anwendungsprogramm 20 unterschiedlich ist, werden Fachleute auf dem betreffenden Fachgebiet erkennen, dass die Wort-Unterteilungs-Einrichtung direkt in die Anwendungsprogramme integriert werden kann oder eine selbständige Einrichtung sein kann, die Teil einer Systemdatei oder des Betriebssystems ist.
Fig. 2 zeigt ein Blockdiagramm, das die Stufen einer Verarbeitung darstellt, die durch die Wort-Unterteilungs-Einrichtung 22 durchgeführt wird, um Jiujitsu-Phrasen in einer eingegebenen Folge eines japanischen Textes zu identifizieren. Die Analysestufen der Fig. 2 werden nachfolgend in Verbindung mit dem Flußdiagramm der fig. 3 beschrieben. Zu Anfang wird eine HPB-Analyse 26 in Bezug auf einen Abschnitt des japanischen Eingabe- Textes 24 durchgeführt, um HPB's in dem Eingabe-Text zu lokalisieren (Schritt 36 in Fig. 3). Der Eingabe-Text 24 kann unterschiedliche Formen annehmen. Zum Beispiel kann der Eingabe-Text ein Teil eines Wortverarbeitungsdokuments sein. Alternativ kann der Eingabe-Text 24 durch einen Benutzer unter Verwendung der Eingabevorrichtung 14 eingegeben werden, oder er kann Teil eines anderen Typs eines Dokuments sein. Die HPB's werden über statistische Techniken identifiziert. Insbesondere beruht, wie in der Fig. 4 dargestellt ist, die HPB-Analyse 26 auf Unigramm- und Bigramm-Phrasen-Unterbrechungs- Wahrscheinlichkeiten 47, um statistisch zu identifizieren, wo Phrasen-Unterbrechungen am wahrscheinlichsten innerhalb des Eingabe-Textes 24 auftreten. Die Unigramm- Bigramm-Phrasen-Unterbrechungs-Wahrscheinlichkeiten 47 hatten Daten, die sich auf unterbrochenen Unigramme beziehen (d. h. einzelne Zeichen, wie beispielsweise Punktuierungs-Markierung) und unterbrechende Bigramme (zwei Zeichen). Insbesondere wird, für jedes Unigramm, eine Identifikation des Zeichens und die Phrasen-Unterbrechungs- Stelle relativ zu dem Zeichen gespeichert, wogegen für Bigramme eine Identifikation eines ersten Zeichens und die Zeichenklasse des Zeichens, das dem ersten Zeichen folgt, gespeichert werden. Fachleute auf dem betreffenden Fachgebiet werden erkennen, dass in alternativen Ausführungsformen Unigramme Daten für eine Zeichenklasse haften können, im Gegensatz zu einer Identifikation eines Zeichens. Weiterhin können die Bigramme alternativ Zeichen-Klassen-Daten für beide Zeichen halten, können keine Zeichen-Klassen- Daten halten oder können Zeichen-Klassen-Daten für das erste Zeichen, allerdings Identifikations-Informationen für das zweite Zeichen, halten. Die Zeichen-Klassen umfassen eine Punktuierung, Hirigana Katakana, Kanji und Romaji. In einer Ausführungsform werden Wahrscheinlichkeiten von links begrenzenden Unigrammen, von rechts unterbrochenen Unigrammen und von Bigrammen mit einer Unterbrechung zwischen Zeichen gespeichert. Die Wahrscheinlichkeiten für unterbrochene Unigramme und Bigramme werden durch Verarbeiten mit Identifizierungskennzeichen versehenen Stämmen (corpora) erhalten, die unterbrechende Unigramme und Bigramme identifizieren: Allgemein ist die Unterbrechung in der Frequenz eines links unterbrechenden Unigramms oder eines rechts unterbrechenden Unigramms die Zahl der Male, mit der eine Unterbrechung nach links oder nach rechts jeweils für das Unigramm, unterteilt durch die Gesamtzahl der Unterbrechungen bzw. Grenzen in dem Dokument, auftritt. Die Wahrscheinlichkeit eines Aufteilens für das Unigramm ist gleich der Aufteilungsfrequenz geteilt durch die gesamte Frequenz von Auftretungen in dem Stamm. Für ein Bigramm ist die Aufteilungsfrequenz die Zahl der Male, mit der eine Aufteilung bzw. Unterbrechung zwischen zwei Token auftritt, die das Bigramm bilden, geteilt durch die gesamte Anzahl von Unterbrechungen indem Dokument. Die Wahrscheinlichkeit einer Aufteilung des Bigramms ist gleich zu der Aufteilungsfrequenz geteilt durch die gesamte Frequenz des Bigramms (sowohl Unterteilung als auch Nicht- Unterteilung) in dem Stamm.
Fig. 5 zeigt ein Flußdiagramm, das die Schritte darstellt, die in der HPB-Analyse 26 durchgeführt werden. Die Verarbeitung des Eingabe-Textes 24 beginnt an der ersten bekannten oder angenommenen HPB (Schritt 50 in Fig. 4). Dort wo die erste bekannte oder angenommene Hard'-Phrase-Break (Hard-Phrasen-Unterbrechung) auftritt, hängt davon ab, ob eine Zahl von Bit-Zeichen durch die Client-Anwendung 20 gesetzt ist, die die Wort- Aufteilungs-Einrichtung 22 aufruft. Falls das TOKENIZE_HPB_END Bit gesetzt ist, wird angenommen, dass das letzte Zeichen des Eingabe-Textes 24 einer HPB vorausgeht. Falls das TOKENIZE_HPB_BEGIN Bit gesetzt ist, wird angenommen, dass das erste Zeichen einer Hard-Phrasen-Unterbrechung folgt. Allgemein schreitet die Hard-Phrasen- Unterbrechungs-Analyse von der ersten zu der letzten bekannten oder angenommenen Hard-Phrasen-Unterbrechung fort.
Ein Beispiel ist hilfreich beim Darstellen der Effekte, die diese Bit-Zeichen beim Verarbeiten in der HPB-Unterbrechung-Analyse 26 haben. Es wird angenommen, dass der Eingabe-Text wie folgt ist:
ABC/DEF/GHI
In dem vorstehenden Beispiel sind die HPB's durch Schrägstriche, umgeben durch Freiräume, bezeichnet. Falls keines der Bit-Zeichen eingestellt ist, wird eine HPB-Analyse in Bezug auf "DEF" durchgeführt, da keine Hard-Phrasen-Unterbrechungen (Hard-Phrase- Break) angenommen werden und nur bekannte Phrasen-Unterbrechungen vorhanden sind. Falls das Bit-Zeichen TOKENIZE_HPB_BEGIN eingestellt ist, ist eine HPB-Analyse in Bezug auf "ABC'DEF" durchgeführt, da eine Phrasen-Unterbrechung an dem Beginn des Eingabe-Textes angenommen wird. Falls nur das Bit-Zeichen TOKENIZE_HPB_END eingesetzt ist, wird eine HPB-Analyse in Bezug auf "DEFGHI" durchgeführt, da eine Phrasen- Unterbrechung an dem Ende des Eingabe-Textes angenommen wird. Zuletzt wird, falls sowohl das Bit-Zeichen TOKENIZE_HPB_BEGIN als auch das Bit-Zeichen TOKE- NIZE_HPB_END gesetzt sind, dann eine HPB-Analyse in Bezug auf "ABCDEFGHI" durchgeführt.
Allgemein wird die HPB-Analyse 26 durch Vergleichen jedes Zeichens oder jedes Paars benachbarter Zeichen mit den Unigramm- und Bigramm-Phrasen-Unterbrechung- Wahrscheinlichkeiten 47 vorgenommen, um zu bestimmen, ob dort eine Anpassung vorhanden ist (Schritt S2 in Fig. 5). Falls dort eine Anpassung vorhanden ist, wird die HPB nur durch Eingeben einer Wahrscheinlichkeit für die Phrasen-Unterbrechung in einem Eintritt in einem bezeichneten Feld angemerkt. Die Wort-Unterbrechungseinrichtung 22 behält ein Feld bei, das jede Zeichen-Zeichen-Kante in dem Eingabe-Text 24 beschreibt. Jeder Eintritt in das Feld umfasst einen Wert, der 10 g Basis 2 der Unterbrechungs- Wahrscheinlichkeit entspricht. Demzufolge führt die HPB-Analyse 26 zu einem Eingabe- Text mit Hard-Phrasen-Unterbrechungen, angeführt bei 48 (Fig. 4).
Fig. 6 stellt ein Beispiel eines Bereichs eines Eingabe-Textes dar, der verarbeitet worden ist, um Hard-Phrasen-Unterbrechungen zu identifzieren. In dem Beispiel, das in Fig. 6 dargestellt ist, sind die HPGBs mit "/" bezeichnet. Der Eingabe-Text besitzt auch SPB's, bezeichnet mit "/". Wie die SPB's angeordnet werden, wird in weiterem Detail nachfolgend beschrieben.
Die Wort-Aufteilungs-Einrichtung 22 schreitet dann fort, um die Zeichen innerhalb jedes Unterabschnitts des Eingabe-Textes zu verarbeiten, der durch HPB's abgegrenzt ist. Es wird angenommen, dass jeder dieser Unterabschnitte potentiell eine Jiu-Jitsu-Phrase hält. Punktuierungs-Zeichen, die HPB-Unigramme spezifizieren, werden als Einzel-Zeichen-Jiu- Jitsu-Phrasen behandelt. Der erste Schritt in dieser Verarbeitung der Unterabschnitte ist die Postfix-Analyse und eine primäre Lexikon-Durchsicht 27, die versucht, Postfix- Morpheme zu identifizieren, die an einem Stamm angebunden sind (Schritt 38 in Fig. 3), und favorisiert bestimmte, lexikalisierte Worte, die homographisch zu ausgewählten Postfix-Analysen sind (Schritt 37 in Fig. 3). Diese Stufe 27 der Verarbeitung nimmt den Unterabschnitt des Eingabe-Textes und erzeugt eine morphologische Liste (die eine gerichtete, azyklische, gewichtete Graphik ist), die alle möglichen, morphologischen Analysen für die Zeichen innerhalb des Unterabschnitts 'hält. Die Rolle und das Format dieser morphologischen Liste wird in weiterem Detail nachfolgend beschrieben werden.
Zu Zwecken der Effektivität führt die bevorzugte Ausführungsform der vorliegenden Erfindung primär eine Lexikon-Durchsicht (Schritt 32 in Fig. 3) vor dem Beginn der Postfix- Analyse durch. Insbesondere werden Folgen unmittelbar links der Hard-Phrasen- Unterbrechung in dem primären Lexikon 96 (Fig. 7) durchgesehen, um zu bestimmen, ob sie Folgen sind, die mit einem Hiragana Zeichen enden und Null-Längen-Postfix-Analysen haben. Die primäre Lexikon-Durchsicht vermeidet, dass man jede der bis zu 18 Null- Längen-Postfix-Analysen, die einem Hiragana Zeichen folgen können, zu der morphologischen Liste hinzufügen muss.
Wie in Fig. 7 dargestellt ist, verwendet die Postfix-Analyse eine Morphologie-Datei 58, um eine Postfix-Morphologie-Liste 80 für den Unterabschnitt des Eingabe-Textes 56 aufzubauen. Die Morphologie-Datei 58 enthält Morpheme. Die Morphologie-Datei 58 enthält Morpheme nur für verbundene Morpheme oder Morpheme, die als verbundene Morpheme behandelt werden sollen. In der bevorzugten Ausführungsform der vorliegenden Erfindung kann die Morphologie-Datei 58 zum Beispiel zwischen 600 und 1000 Morpheme enthalten.
Jedes Morphem besitzt ein Format ähnlich demjenigen, das in Fig. 9 gezeigt wird. Insbesondere spezifiziert jedes Morphem einen Namen für das Morphem (z. B. "INFL_vADJ kattari" in Fig. 9). Jedes Morphem enthält auch einen "Analyse" Abschnitt, der Analysen spezifiziert, worin jede Analyse ein Paradigma und die Oberflächen- Darstellung des Morphems für das Paradigma enthält. In dem Beispiel, das in Fig. 9 dargestellt ist, identifiziert "ADJ" das Adjektiv-Paradigma und die japanischen Zeichen, die nach rechts von "< < " sind, sind die Oberflächen-Darstellungen des Morphems. Das Paradigma spezifiziert eine morphologische Kategorie (MCat) für das nächste Zeichen nach links von dem verbundenen Morphem in dem Eingabe-Text. Das Paradigma entspricht grob einer Bestimmung eines Teils einer Sprache. Das Morphem umfasst auch einen Abschnitt "Next Statesu. Der Abschnitt "Next States" spezifiziert die Zustände, die dem Morphem nach rechts folgen können. Zum Beispiel spezifziert der Zustand RNONE einen Fall, bei dem dort keine Zeichen nach rechts von dem Morphem vorhanden sind. Die Zustände, aufgelistet in dem Abschnitt "Next States", können Beschränkungen umfassen. Zum Beispiel umfasst der Zustand LNFL_verb 6 state eine Analyse, bezeichnet als "SU- RU" (was dem Namen des Paradigma in der Analyse entspricht). Die Auflistung von "LNFL_verb_6:SURU" in dem Abschnitt "Next States" Fig. 9 zeigt an, dass nur die SURU Analyse des Morphems INFL_verb 6 dem Morphem INFL_vADJ kattari folgt. Zusätzlich können Auswahl-Informationen (Schritt S9 in Fig. 7) für ausgewählte Morpheme umfasst sein, wie in größerem Detail nachfolgend beschrieben werden wird.
Fig. 8 zeigt ein Flußdiagramm, das eine Übersicht der Schritte liefert, die in eine einzelne Iteration in der Postfix-Analyse und der Primär = Lexikon-Durchsicht 27 durchgeführt werden. Zu Anfang werden die Folgen, die unmittelbar links von einem HPB sind, das mit einem Hiragana endet, in dem Primär-Lexikon 96 (Fig. 7) durchgesehen, um Hiragana- Zeichen mit Null-Längen-Postfix-Analysen (Schritt 61) zu identifizieren. Als nächstes werden die Unterabschnitte des Eingabe-Textes 56 verarbeitet, um die Postfix-Morphologie- Liste mit Auswahl-Informationen 80 zu erzeugen (Schritt 62 in Fig. 8). Auswahl-Grenzen sind in die morphologische Liste eingeschlossen, wie in weiterem Detail nachfolgend beschrieben werden wird. Genauer gesagt können Unterstreichungen, die Auswahl-Grenzen bezeichnen, in die morphologische Liste eingeschlossen werden. Während einer Postfix- Analyse wird, wenn eine Unterstreichung umfasst ist, ein Auswahl-Offset 59 erzeugt, das die Zahl von Zeichen von der nächsten Auswahl-Grenze (oder zwischen aufeinanderfolgenden Auswahl-Grenzen) in dem Eingabe-Text identifiziert. Diese Postfix-Analyse verwendet die Morpheme, enthalten in der Morphologie-Datei 58. Allgemein werden die Schritte, die in Fig. 10 angezeigt sind, für jede Oberflächen-Darstellung eines Morphems durchgeführt, das eine Passung in der Morphologie-Datei 58 findet. In einer Postfix- Analyse tritt die Verarbeitung von rechts nach links beginnend an einer Hard-Phrasen- Unterbrechung auf und fährt fort, bis dort nicht länger irgendwelche Zeichen vorhanden sind, die passende Oberflächen-Darstellungen in dem Morphem, gespeichert in der Morphologie-Datei 58, haben, oder bis eine andere Hard-Phrasen-Unterbrechung erreicht ist. Zu Anfang wird eine passende Oberflächen-Darstellung gefunden (Schritt 68 in Fig. 10) durch Nachsehen an den Zeichen, spezifziert in der Oberflächen-Darstellung in dem "Analysen" Abschnitt des Morphems und der Zeichen in dem Unterabschnitt des Eingabe- Text 56, der verarbeitet wird. Das Paradigma der Analyse, das die passende Oberflächen- Darstellung enthält, wird angeführt (Schritt 70) und der nächste Zustand für das Morphem wird identifiziert (Schritt 72). Es wird dann bestimmt, ob der tatsächliche, nächste Zustand irgendeinem der nächsten Zustände, spezifiziert innerhalb des Abschnitts "nächste Zustände" bzw. "next states" des Morphems entspricht (Schritt 74). Ein nächster Zustand eines Morphems ist intern der vorherige Zustand. Da die Analyse von rechts nach links fortschreitet, ist die interne Morphologie-Graphik eine umgekehrte Version derjenigen, die dargestellt ist. Falls der nächste Zustand demjenigen in dem Unterabschnitt der nächsten Zustände entspricht, wird die Analyse zu der morphologischen Liste 80 hinzugefügt (Schritt 76): Ansonsten wird die Analyse nicht zu der morphologischen Liste hinzugefügt. Dieser Prozess schreitet auf einer Basis Morphem für Morphem fort, bis alle möglichen Analysen abgearbeitet sind.
Fig. 11 zeigt ein Beispiel einer Postfix-Morphologie-Liste 80 für den Bereich der Eingabe- Folge, bezeichnet durch eine Klammer 55 in Fig. 6. Die Liste umfasst eine Anzahl von Knoten 82, die durch Hinweiszeiger 84 verbunden sind, die mit Feld-Offsets dargestellt sind. Die Oberflächen-Darstellungen 83 von Morphemen sind auch dargestellt und Markierungen sind in Parenthese dargestellt. Das Format eines Knoten 82 ist in Fig. 12 gezeigt. Jeder Knoten 82 umfasst ein Zeichen-Feld 86, das einen 16-Bit-Unicode-Wert spezifiziert (der durch 4 hexadezimale Ziffern (Digits) spezifiziert werden kann), und zwar für den Knoten, der die zugeordneten Zeichen oder das Morphem identifiziert. Wie vorstehend erwähnt ist, werden Metazeichen durch solche Unicode-Werte codiert, unter Verwendung eines Bereichs des speziell erweiterten Zeichenbereichs f800-feff oder darüber. Die Knoten können "überladen" sein, wie dies durch die unterbrochene Linie 87 in Fig. 12 angezeigt ist, um die Unterstreichung zu spezifizieren. Jeder Knoten 82 umfasst ein Zeichen- Feld 88, das ein Zeichen hält, das spezifiziert, ob dort ein Down-Pointer (Hinweiszeiger nach unten) und ein Zeichen vorhanden ist, das spezifiziert, ob das Ende eines Worts erreicht worden ist. Der Knoten umfasst zusätzlich ein Down-Pointer-Feld 84, das dazu verwendet wird, einen Down-Pointer in der Form eines Offsets zu einem nächsten Knoten in der morphologischen Liste zu halten. Diese Postfix-Morphologie-Liste 80 speichert sowohl Buchstabierungs-Informationen als auch morphologische Informationen. Die Unterlinierungen für Bezeichnungs-Auswahl-Informationen sind in den Buchstabierungs- Informationen eingeschlossen. Dies erleichtert eine kompaktere Darstellung solcher Daten.
Jeder der Pfade in der Postfix-Morphologie-Liste 80 für jeden Unterabschnitt eines Eingabe-Textes 56 wird markiert (Schritt 64 in Fig. 8) und die Markierungen werden eingestellt (Schritt 39 in Fig. 3). Beispiel-Markierungen sind in den Klammern in Fig. 11 dargestellt. Der Wert der Markierungslinie hängt von der Zahl von Zeichen in dem Pfad, der Tiefe der Analyse (wie tief der Baum ist, der zu dem Blatt an dem Ende der Analyse führt) und den intra-SPB-Morphem-Bigramm-Wahrscheinlichkeiten ab. Demzufolge wird ein Wert für den Pfad, der zu jedem Blatt der Postfix-Morphologie-Liste führt, anfänglich unter Verwendung der Tabelle berechnet, die in Fig. 13 gezeigt ist, und wird einfach unter Verwendung von intra-SPB-Morphem-Bigramm-Wahrscheinlichkeiten zurückversetzt oder unterstützt. Dies wird im weiteren Detail nachfolgend beschrieben werden. Für Fachleute auf dem betreffenden Fachgebiet wird ersichtlich werden, dass diese Tabelle dazu vorgesehen ist, nur erläuternd zu sein, und dass andere Markierungs-Maßnahmen verwendet werden können. Wie anhand der Tabelle der Fig. 13 zu sehen ist, hebt die Markierungslinie die Analysen hervor, die eine größere Zahl von Zeichen und eine tiefere Zahl von Niveaus haben. Das System behält intra-SPB-Morphem-Bigramm-Wahrscheinlichkeiten und inter-SPB- Morphem-Bigramm-Wahrscheinlichkeiten bei. Diese Wahrscheinlichkeiten werden durch eine analysierte, mit Zeichen versehene Corpora bzw. einen Stamm und durch Bestimmen derWahrscheinlichkeit des Auftretens solcher intra-SPB-Morphem-Bigramme und inter- SPB-Morphem-Bigramme bestimmt. Ein Beispiel ist hilfreich, um zu erläutern, was mit einem intra-SPB-Morphem-Bigramm und einem inter-SPB-Morphem-Bigramm gemeint ist.
Unter Vorgabe von zwei SPB's A und B und Morphemen a1, a2, a3 in dem SPB A und Morphemen b1, b2, b3 in SPB B (die zwei SPB's können als/a1 a2 a3/b1 b2 b3 dargestellt werden), wird das inter-SPB-Bigramm-Morphem durch die zwei Morpheme gebildet, die die letzten Morpheme von benachbarten SPB's über die Phrasen-Grenze hinaus sind (d. h. a3 und b3). Die intra-SPB-Bigramm-Daten beziehen sich auf Bigramm-Daten zwischen Morphemen innerhalb der SPB's. Demzufolge sind dabei intra-SPB-Bigramme für BEGIN und a1; a1' und a2; a2 und a3; a3 und END; BEG'IN und b1; b1 und b2; b2 und b3; b3 und END, vorhanden. Wie vorstehend erwähnt ist, werden die intra-SPB-Morphem-Bigramm- Wahrscheinlichkeiten bei jedem Pfad angewandt, der ein Blatt mit dem Stamm bzw. Root der Postfix-Morphologie-Liste 80 verbindet. Die Markierungen der Pfade, die unwahrscheinlich intra-SPB-Morphem-Bigramme umfassen, werden zurückgestellt, wogegen die Pfade, die intra-SPB-Morphem-Bigramme umfassen, die dahingehend wahrscheinlich sind aufzutreten, deren Markierungen hervorgehoben besitzen.
Wenn einmal die Markierungen für alle Pfade der Postfix-Morphologie-Liste im Schritt 64 berechnet sind, werden die Markierungen sortiert und die höchsten Markierungen-Pfade werden beibehalten (Schrift 66 in Fig. 8). Der Schwellwert, bei dem Pfade beibehalten werden oder ausgesondert werden, ist empirisch abgeleitet. Zum Beispiel werden, in einer Maßnahme, die oberen 20 Markierungspfade jeder morphologischen Liste beibehalten. Die Wort-Aufteilungs-Einrichtung 22 schreitet dann fort, um Stamm-Analysen 30 durchzuführen, um Stämme zu identifizieren (Schritt 40 in Fig. 3): Das zentrale Ziel der Stamm- Analyse 30 ist dasjenige, zu identifzieren, welche Zeichen den Stamm bilden, zu denen die Postfix-Verbindungs-Morpherne verbunden sind. Eine Ausnahme wird für die Stämme gemacht; die Ziffern, Zähler oder andere, quantifizierbare Einheiten umfassen (zum Beispiel Kalenderdaten, wie beispielsweise "06127196", Mengen, wie beispielsweise "2 Yen" und Straßenadressen). Diese spezielle Klasse von Stämmen wird während einer Postfix- Analyse analysiert. Spezielle Morpheme sind vorgesehen und eine spezielle Null-Länge MCat (LNONE) wird dazu vorgesehen. Fig. 14 zeigt ein Blockdiagramm, das die funktionalen Hauptkomponenten der Stamm-Analyse 30 darstellt. Allgemein werden die Eingabe- Text- und Postfix-Morphologie-Listen 89, die von der Postfix-Analyse abgeleitet wurden, durch die Stamm-Analyse 30 verwendet. Die Stamm-Analyse 30 umfasst eine primäre, lexikalische Durchsicht 90, eine Ophem-Anpassung 92, Markierungsbeschränkungen für nicht häufige Stammkanten 93, ein Kanji-Bigramm-Analyse 94 für eine inter-SPB- Gewichtung 95. Die Ergebnisse der Stamm-Analyse 36 umfassen einen Text, die Postfix- Listen-Morphologie-Listen und die Teil-Soft-Phrasen-Unterbrechung-(SPB)-Analysen 95 (die später in weiterem Detail beschrieben werden).
Das Ziel der primären, lexikalischen Durchsicht 90 ist dasjenige, Worte zu identifizieren, die als nicht verbundene Morpheme behandelt werden sollten und um die Behandlung solcher Worte zu korrigieren. Zum Beispiel können Adverben oftmals als verbundene Morpheme behandelt werden, aufgrund deren orthographischer Ähnlichkeit zu verbundenen Morphemen, allerdings sollten sie als separate Worte behandelt werden. Das primäre Lexikon 96 ist als eine gerichtete, azyklische, gewichtete Graphik organisiert (ähnlich der morphologischen Postfix- und Präfix = Bäume) und hält Abverben, häufig verwendete Worte (Verben, Adjektive; usw.) und lexikalisierte zusammengesetzte Worte. Allgemein hält das primäre Lexikon 96 Worte; die nicht als verbundene Postfix-Morpheme betrachtet werden sollten. Das primäre Lexikon 96 ist in Dateien unterteilt, wobei eine Datei für jedes MCat vorgesehen ist. Jede Datei in dem primären Lexikon 96 enthält eine Liste von Worten. Das primäre Aggregat-Lexikon 96, gebildet durch diese Dateien, wird durch Teile der Sprache sortiert und dann durch eine Umkehr-Unicode-Reihenfolge.
Fig. 15 zeigt ein Flußdiagramm, das die Schritte darstellt, die in einer Durchsicht 90 des primären Lexikons für eine gegebene Postfix-Morphologie-Postfix-Liste durchgeführt werden. Die höchsten Markierungs-Blätter des Postfix-Baums werden in dem primären Lexikon durchgesehen (Schritt 102 in Fig. 15). Nur die höchsten Markierungs-Blätter werden in dem primären Lexikon 96 zum Zwecke der Effektivität durchgesehen. Eine Ausnahme, die vorstehend beschrieben ist, ist diejenige für eine Folgenanalyse ohne Postfices, endend in Hiragana, die fehlerhaft eine Postfix-Markierung von 1 (entsprechend einem Eintritt mit einer Länge Null und einem Morphem in Fig. 13) haben, die allerdings immer durchgesehen werden. Es ist unwahrscheinlich, dass die niedrigsten Markierungs-Blätter als die geeignete Analyse ausgewählt werden, und deshalb ist kein Erfordernis vorhanden, zu bestimmen, ob irgendeines der identifizierten, verbundenen Postfix-Morpheme anstelle davon als separates Wort behandelt werden sollte. Der Schwellwert, der sich darauf bezieht, weiche Zahl oder welcher Prozentsatz von Blättern in dem primären Lexikon durchgesehen werden sollte, ist einstellbar und kann so ausgewählt werden, um am besten eine solche Auswahl zu optimieren. Falls ein passender Eintritt in dem primären Lexikon gefunden ist (siehe Schritt 104 in Fig. 15), ist dies eine Indikation, dass die Blätter als ein separates Wort, im Gegensatz zu einem verbundenen Morphem, behandelt werden soll. Eine Markierungslinie wird jedem passenden Eintritt in das primäre Lexikon als ein separates Wort zugeordnet und die Markierung wird mit einem Bonus versehen, um diese Analyse favorisierter gegenüber der Verbindungs-Morphem-Analyse zu gewichten. Allgemein können dabei nur n mögliche Anpassungen vorhanden sein, wobei n die Länge in den Zeichen des Stamms mit maximaler Länge ist (Schritt 106 in Fig. 15). Analysen werden für jeden der Eintritte in das primäre Lexikon vorgesehen. Falls andererseits keine Anpassung in dem Schritt 104 vorgefunden wird, werden die Markierungen nicht manipuliert. Die Stamm-Analyse führt dann eine Orphem-Anpassung 92 durch. Wie vorstehend diskutiert wurde, ist ein Orphem eine Zeichen-Typ-Schablone für ein MCat. Zum Beispiel ist das Orphem KK (das repräsentativ für Kanji-Kanji ist) ein gültiges Orphem für das VN2 MCat. Das Orphem spezifiziert ein Muster von Zeichen-Typen, gefunden in Jiu-Jitsu-Phrasen. Die Orphem-Anpassung 92, die Orphem-Schablonen 98 verwendet, die Orphem-Muster für Stämme und das Log für die Häufgkeit, mit dem die Orpheme auftreten, speichern. Jedes Blatt der gegebenen Postfix-Morphologie-Liste 80 hält einen Wert, der den Teil einer Sprache des Zeichens oder der Zeichen spezifiziert, die links des Postfix-Bereichs der Jiu-Jitsu-Phrase liegt. Mit der Ausnahme von Stämmen mit einer Null-Länge ist mindestens eines der Zeichen links von dem verbundenen Postfix-Morphemen, dargestellt durch den Postfix-Baum, ein Bereich eines Stamms. Die Orphem-Anpassung 92 versucht zu identifizieren, welche dieser Zeichen der Stamm sind.
Fig. 16 zeigt ein Flußdiagramm, das die Schritte darstellt, die während einer Orphem- Anpassung 92 durchgeführt werden: Für jede Blatt-Analyse ist der Teil einer Sprache, zugeordnet dem Blatt (das das MCat identifiziert, das dem Stamm zugeordnet ist), als ein Ergebnis einer Postfix-Analyse bekannt (Schritt 107 in Fig. 16). Da die Orphem-Stamm- Schablonen 98 durch Teile einer Sprache organisiert sind, wird das bestimmte MCat des Blatts als Index verwendet, um mögliche Orphem-Muster für einen Stamm mit diesem MCat zu lokalisieren (Schritt 109 in Fig. 16). Die passenden Orpheme werden identifiziert (Schritt 110 in Fig. 16), Präfices werden analysiert (Schritt 111) und Jiu-Jitsu-Phrasen- (S'PB)-Analysen werden für die passenden Orpheme 28 erzeugt (Schritt 112 von Fig. 16). SPB-Analysen werden in weiterem Detail nachfolgend diskutiert werden.
Ein Beispiel ist beim Darstellen hilfreich, wie die Orphem-Anpassung fortschreitet. Es wird angenommen, dass die Folge von japanischen Zeichen, die verarbeitet werden sollen, "h.KHK.hhhKKhh'P" ist. In diesem Beispiel haben die Buchstaben die folgenden Bedeutungen. H stellt ein Hiragana-Zeichen dar, das nicht zu einem verbundenen Morphem aufgelistet ist; h stellt ein Hiragana-Zeichen dar, das Teile eines verbundenen Morphems ist; K stellt ein Kanji-Zeichen dar; und P stellt ein Punktuierungs-Zeichen dar. Die Perioden werden dazu verwendet, die Unterbrechungen zwischen dem Präfix, dem Stamm und dem Postfix zu spezifizieren. Weiterhin wird angenommen, dass eine der Postfix-Analysen (hhh'KKhh) die nGOsu" MCat Klasse spezifiziert. Zusätzlich wird angenommen, dass die Orphem-Stamm-Schablonen 98 für die GOsu MCat Klasse wie folgt sind:
K"4
H"0
HH"0
H"0
KH'K"0
HHHHHH"0
HKHK"0.
In den Orphem-Schablonen, die vorstehend angegeben sind, spezifiziert die erste Spalte die Zeichen-Typ-Schablone, die zweite Spalte spezifiziert die Zeichen-Anpassungs- Informationen (die in allen diesen Beispielen leer ist) und eine dritte Spalte spezifiziert log der Häufigkeit eines Auftretens des Orphem-Schablonen-Musters. Die Spalten sind durch Kommas separiert. Für dieses Beispiel passen das erste, das zweite, das sechste und das achte Orphem die Eingabe an. Diese sind in einer Weise von rechts nach links an dem Beginn des Stamm-Bereichs der Phrase angepasst, die der Postfix-Analyse folgt. In diesem Beispiel ist die sechste Analyse die beste Anpassung, da sie alle der Stamm-Zeichen anpasst und eine erfolgreiche Präfix-Analyse ermöglicht.
Ein anderes Beispiel von Orphem-Schablonen hilft dabei, die Verwendung der zweiten Spalte in der Orphem-Schablone darzustellen, die Zeichen-Anpassungs-Informationen spezifiziert:
VVV,,0
H'H'HH,,O
HHHH"1212,0
WW"1212,0
KK,,0,.
Der Wert "1212" in der zweiten Spalte für das dritte Orphem zeigt an, dass das erste und das dritte Zeichen und das zweite und das vierte Zeichen dieselben sein müssen, um dieses Orphem anzupassen. Demzufolge müssen, für das dritte Orphem, um zu passen, nicht alle der Zeichen Hiragana-Zeichen sein, sondern das erste Zeichen und das dritte Zeichen muss dasselbe sein und das zweite Zeichen und das vierte Zeichen müssen dieselben sein. Die zweite Spalte kann auch die Identität von Zeichen halten, die spezifizieren; dass ein bestimmtes Zeichen in der Oberflächen-Darstellung (d. h. der Eingabe-Folge) gleich zu dem Zeichen sein muss, das innerhalb der zweiten Spalte an einer gegebenen Position spezifiziert ist.
Allgemein wird, für jeden Unterabschnitt der Eingabe-Text-Folge, die durch die HPB's begrenzt sind, ein Baum einer SPB-Analyse erzeugt werden. Jeder SPB-Knoten in diesem Baum 115 ist einem gegebenen Bereich des Eingabe-Textes zugeordnet und umfasst ein Feld 116, das ein Offset in ein Textfeld, wo das SPB beginnt, hält. Der SPB-Knoten 115 umfasst auch ein Feld 117, das die Länge (d. h. Zahl von Zeichen) der SPB hält. Das Feld 118 identifiziert die Eltern S'PB und der SPB in dem HPB-Analyse-Baum. Das Feld 119 hält eine Zählung der unterschiedlichen Jiu-Jitsu-Phrasen-Analysen, die nebeneinander innerhalb eines SPB-Knotens existieren, vnd das Feld 120 hält eine Komposit- Markierungslinie für die SPB. Das Feld 121 hält eine sekundäre Stamm-Markierungslinie und ein Feld 122 hält einen Wert, der das Niveau der SPB in dem SPB-Baum spezifziert. Für jeden S'PB-Knoten wird ein Feld aus Jiu-Jitsu-Phrasen Analysen gehalten. Jede Jiu- Jitsv-Phrasen-Analyse besitzt eine Struktur ähnlich derjenigen, die in Fig. 17 B dargestellt ist. Insbesondere hält jede Jiu-Jitsu-Phrasen-Analyse 123 ein Feld 124, das ein Offset zu einem Präfix-Knoten in einer Präfix-Morphologie-Liste liefert, und ein Feld 125, das einen Wert hält, der ein Offset zu einem Posffix-Knoten in einer Postfix-Morphologie-Liste spezcfiziert. Das Feld 126 hält ein Offset zu einem Unterabschnitt, wo Auswahl-Informationen gehalten werden. Das Feld 127 hält die Markierungslinie Präfix-Analyse, die der Jiu-Jitsu- Phrasen-Analyse zugeordnet ist, und eine Markierung der Postfx-Analyse, die der Jiu- Jitsu-Phrasen-Analyse zugeordnet ist. Das Feld 128 hält die Markierungslinie des Stammbereichs (der auf der Häufigkeit des zugeordneten Orphems basiert) und das Feld 129 hält eine inter-SPB-Zahl, um diesen Wert cache-mäßig zu speichern.
Die Fig. 17C hilft dabei, ein Beispiel des Baums von SPB-Knoten zu erläutern, der für jede HPB erzeugt ist (d. h. für den Text, verbunden durch HPB's). Der SPB-Analyse-Baum ist durch die SPB-Knoten gebildet, die die Struktur ähnlich derjenigen haben, die vorstehend diskutiert ist. Jeder Knoten weist zu einem Feld von Analysen hin, die eine Struktur ähnlich derjenigen haben, die in Fig. 17B gezeigt ist.
Um die Wahrscheinlichkeit zu erhöhen, dass eine Postfix-Analyse an eine Stamm-Analyse gebunden wird, die ein Orphem-Muster mit hoher Frequenz bzw. Häufigkeit liefert, belohnt die Wort-Unterteilungs-Einrichtung 22 solche Postfix-Analysen. Insbesondere wird den Postfix-Analysen Boni zu deren Markierungen gegeben, wenn das resultierte, passende Orphem eine Orphem-Muster mit hoher Häufigkeit ist. Demzufolge wird, wenn eine Postfix-Analyse mit einer Orphem-Muster-Passung über die Erzeugung einer Jiu-Jitsu- Phrasen-(S'PB)-Analysen-Struktur verbunden wird, der Postfix-Analyse eine Belohnung gegeben, wenn das Orphem-Muster ein hoch auftretendes Muster ist (siehe Schritt 113 in Fig. 16). Belohnungen werden empirisch durch Auswählen von Werten abgeleitet, die die besten Ergebnisse für einen Folge-Korpus erzeugen.
Fig. 14 zeigt eine Kanji-Bigramm-Analyse 94 als eine separate Komponente während der Stamm-Analyse 30. Diese Darstellung kann etwas täuschend dahingehend sein, dass die Kanji-Bigramm-Analyse tatsächlich in andere Analysen eingebunden wird, die während der Stamm-Analyse durchgeführt werden. Kanji-Bigramme sind Bigramme von Kanjli- Zeichen und sind beim Unterteilen von zusammengesetzten Substantiven nützlich (Schritt 41 in Fig. 3). Eine Kanji-Bigramm-Analyse 94 verwendet einen Satz von Kanji-Bigrammen 100, die ähnlich den Zeichen-Bigrammen gespeichert sind, die vorstehend in Bezug auf die Hard-Phrasen-Unterbrechungs-Analyse 26 diskutiert wurden. Die Kanji-Bigramme 100 werden dazu verwendet, die volle, maximale Anpassungslänge zu identifizieren, die der längsten, akzeptierbaren Folge von Kanji-Zeichen in einer Orphem-Anpassung entsprechen und zusammengesetzte Substantive berücksichtigen. Die Kanji-Bigramme 1 OO werden auch dazu verwendet, Orphem-Anpassungen zu beschränken, um so nicht zuzulassen, dass Orphem-Anpassungen Hard-Phrasen-Unterbrechungen kreuzen (Schritt 93 in fig. 14). Wie in Fig. 14 dargestellt ist, werden Markierungseinschnitte für nicht häufige Stammkanten dazu verwendet, dabei zu helfen, mögliche SPB-Analysen zurückzusetzen, die inter-S'PB-Morphem-Bigramme haben, die von einer niedrigen Wahrscheinlichkeit sind (Schritt 95 in Fig. 4). Zum Beispiel würde, für den dargestellten SPB-Analyse-Baum, gezeigt in Fig. 17C, der Wert des inter-SPB-Morphem-Bigramms für SPB1 und SPB 2 durchgesehen werden, um zu bestimmen, ob die Analyse zurückzusetzen oder zu unterstützen ist. Der gespeicherte Wert für intra- und inter SPB-Morphem-Bigramme wird von der Basis-Log-Datei der Wahrscheinlichkeit des Bigramms in einem Folge-Korpus abgeleitet. Nach der Schlussfolgerung der Identifikation von passenden Orphemen (Schritt 112 in Fig. 16) wird eine Präfix-Analyse 32 angewandt, um irgendwelche verbundenen Präfix- Orpheme zu bestimmen, die an die Stämme angebunden sind (Schritt 111 in Fig. 16). Eine Ausnahme wird für Null-Länge-(LNONE)-MCats gemacht, die weder passende Morpheme noch primäre Lexikon-Eintritte haben. Eine Präfix-Analyse wird für Postfices mit Null-Länge-(LNONE) = MCats übersprungen, obwohl SPB-Knoten noch erzeugt werden.
Wie in Fig. 18 dargestellt ist, wird ein Unterabschnitt eines Eingabe-Textes 120 verarbeitet, um eine Präfix-Analyse 32 durchzuführen, unter Verwendung einer Morphologie-Datei für Präfices 132, die die Morpheme halten. Dies führt zu einer Präfx-Morphologie-Liste 131, die alle möglichen Analysen für den Unterabschnitt eines Eingabe-Textes hält. Die Präfix-Morphologie-Liste 131 ist ähnlich der Postfix-Morphologie-Liste organisiert, befaßt sich mit Analysen von verbundenen Präfix-Morphemen, die sich an die linke Seite des Stamms anhängen, im Gegensatz zu Postfix-Morphemen, die sich an die rechte Seite des Stamms anhängen. Auswahl-Informationen 133 sind vorgesehen und in die Präfx- Morphologie-Liste 1'31 in einer Art und Weise ähnlich des Einschlusses von Auswahl- Informationen in die Postfix-Morphologie-Liste eingeschlossen.
Fig. 19 zeigt ein Flußdiagramm, das eine Übersicht der Schritte darstellt, die durch die Präfix-Analyse 32 durchgeführt werden. Insbesondere wird eine Präfix-Morphologie-Liste 124 durch Identifizieren von verbundenen Morphemen aufgebaut, die mit möglichen Stamm-Analysen verbunden sind (Schritt 124 in Fig. 19). Die Pfade in dem sich ergebenden Präfix-Baum werden unter Verwendung einer Markierungs-Tabelle einschnittsmäßig markiert (Schritt 126 in Fig. 19). Die höchsten Einschnittsmarkierungs-Pfade werden dann basierend auf einem empirisch abgeleiteten Abschneiden beibehalten und die Präfix- Morphologie-Listenpefade werden mit den jeweiligen Soft-Phrasen-Break-Analyse- Strukturen verbunden, und zwar über das Feld 1'24 der SPB-Analyse 123 (Schritt 128 in Fig. 19).
Wie vorstehend erwähnt ist, ist der Präfix-Baum unter Verwendung der Morpheme in der Präfix-Morphologie-Datei 132 aufgebaut. Die Anpassung beginnt an dem ersten Zeichen nach links von der gegebenen Stamm-Analyse. Die Oberflächen-Darstellungen der Morpheme werden an die Zeichen angepasst, die links von dem Stamm liegen, um passende Morpheme zu identifizieren. Dieser Prozess schreitet fort, bis alle Analysen für die gegebene Stamm-Analyse ausgesondert sind. Präfix-Analysen sind selten tiefer als ein Morphem.
Wie vorstehend beschrieben ist, werden Schritte wiederholt, bis der Unterabschnitt vollständig analysiert worden ist.
Die Wort-Unterteilungs-Einrichtung 22 hat, an diesem Punkt, alle Strukturen entwickelt, die sie benötigt, um die beste Analyse für die Jiu-Jitsu-Phrase auszuwählen und um Ausgabe- Token 33 zu separieren (Schritt 44 in Fig. 3). Die Wort-Urtterteilungs-Einrichtung 22 muss dann die beste SPB-Analyse auswählen. Wie in Fig. 20 dargestellt ist, berechnet die Wort- Unterteilungs-Einrichtung 22 Markierungs-Unterteilungen für die SPB-Analysen (Schritt 130 in Fig. 20). Diese Markierungseinschnitte sind bereits so eingestellt worden, wie dies vorstehend beschrieben ist (Schritt 43 in Fig. 3). Der Markierungseinschnitt für jede Analyse ist die Kombination des Markierungseinschnitts für den Postfix-Pfad und den Präfix- Pfad, zugeordnet der SPB-Analyse. Die SPB-Analysen mit den höchsten Affix- Markierungseinschnitten werden als die besten Analysen ausgewählt, von denen an eine Analyse nach links fortführt. In dem Ereignis, das zwei SPB-Analysen desselben Affix- Markierungseinschnitts hat, wird eine Verbindung durch Auswählen der SPB mit dem höchsten Stamm-Markierungseinschnitt aufgebrochen (Schritt 132 in Fig. 20). Diese Analyse kann verwendet werden, um Token 33 (Fig. 2), die Analyse-Informationen enthalten, paketmäßig auszugeben, die dann weiter zu den Anwendungsprogrammen 20 geführt werden. Die Diskussion nachfolgend wird drei erläuternde Anwendungen berücksichtigen. Die Schritte 37-45 der Fig. 3 können wiederholt werden, wenn dort mehr Phrasen enthalten sind, die verbleiben, um in dem Abschnitt (siehe Schritt 45) des Eingabe-Textes verarbeitet zu werden. (Siehe den zurückführenden Pfeil nach der Päfx-Analyse in Fig. 2.) Zusätzlich können die Schritte 36-45 an zusätzlichen Abschnitten des Eingabe-Textes wiederholt werden, wenn dort solche zusätzlichen Abschnitte vorhanden sind, die dahingehend verbleiben, verarbeitet zu werden (siehe Schritt 46 in Fig. 3). (Siehe den zurückführenden Pfeil von dem Kasten 31 in Fig. 2.)
Eine erste Anwendung bezieht sich auf die Granularität einer Auswahl von Zeichen innerhalb des Eingabe-Textes. Insbesondere sind, wie vorstehend diskutiert wurde, die unterstrichenen bzw. markierten Zeichen in der morphologischen Liste eingeschlossen, um Auswahl-Grenzen zu spezifizieren. Diese Auswahl-Grenzen können durch ein Anwendungsprogramm verwendet werden, um eine Granularität einer Auswahl zu bestimmen.
Allgemein werden die Schritte, gezeigt in Fig. 21A, für diese Anwendung durchgeführt. Die Offsets, wo die Unterstreichungen innerhalb eines Bereichs des Eingabe-Textes angeordnet sind, werden gefunden (Schritt 134 in Fig. 21A). Diese Offsets werden dann zu der Anwendung zurückgeführt (Schritt 136 in Fig. 21A). Die Anwendung verwendet dann diese Offsets, um Auswahl-Grenzen zu definieren (typischerweise als Punkte, wo eine Auswahl zu beginnen ist und zu beenden ist). Diese Grenzen helfen dabei, die Granularität einer Auswahl zu bestimmen (Schritt 138 in Fig. 21A).
Eine zweite Anwendung, in der ein Wort-Aufbrechen durch die bevorzugte Ausführungsform der vorliegenden Erfindung vorgesehen ist, kann bei einer Autosummierung verwendet werden. Eine Autosummierung versucht, kritische Sätze oder Phrasen eines Eingabe- Textes zu identifizieren, die adäquat den Inhalt des Textes zusammenfassen. Die Auto- Summierung kann nach bestimmten Worten suchen, wie beispielsweise "in summary", die gute Indizes von zusammenfassenden Informationen sind, die in dem Satz oder in der Phrase gehalten werden. Für eine Autosummierung wünscht die Anwendung zu erkennen; wo der Stamm in der Phrase oder in den Sätzen beginnt, und die verbundenen Postfix- Morpheme angeordnet sind. Eine dritte Anwendung ist eine Inhalt-Indexierung. Die Inhalt- Indexierung versucht, die Stämme zu identifizieren, die innerhalb des Satzes oder der Phrasen angeordnet sind, um Informationen über den Inhalt des Satzes oder der Phrasen zu erhalten und um diesen Inhalt zu indexieren. Demzufolge werden Offsets in dem Stamm-Bereich der Sätze oder der Phrasen zu der Anwendung in diesem Fall hindurchgeführt.
Fig. 21B zeigt ein Flußdiagramm, das die Schritte auf einem hohen Niveau darstellt, die für die Autosummierungs-Inhalt-tndexier-Anwendungen durchgeführt werden. Die Wort- Unterteilungs-Einrichtung 22 führt Offsets zurück, die die erwünschten Komponenten identifizieren, d. h. Stämme oder verbundene Morpheme, und zwar zu der Anwendung (Schritt 14 in Fig. 21B). Diese Offsets sind dazu verwendet worden, die Stelle der Komponenten zu identifizieren und häufige Informationen, die sich auf die Komponenten beziehen, zusammenzustellen (Schritt 142 in Fig. 21B).

Claims

1. Verfahren zur Verwendung in einem Computersystem (10), das einen Speicher (18) besitzt, wobei das Verfahren für eine repräsentative Analyse (26, 27, 30, 32) einer Eingabe-Folge (24) von Zeichen einer natürlichen Sprache dient, nützlich dazu, individuelle Worte innerhalb der Eingabe-Folge (24) zu identifizieren, wobei die mittels Computer ausgeführten Schritte aufweisen:

Verarbeiten der Eingabe-Folge (24), um die Zeichen der natürlichien Sprache in der Folge (24) und Morpheme in der Folge zu identifizieren; und

Erzeugen (62) in dem Speicher (18) eine gerichtete, azyklische Graphik, wobei die gerichtete, azyklische Graphik verbundene Knoten (SPB0-SPB4, ROOT), die einen Stamm (ROOT) und Blätter bzw. Beiwerk (SPB0, SPB2, SPB4) umfassen, Knoten der gerichteten, azyklischen Graphik, die Morphem-Informationen darstellen, und eine Buchstabierung für morphologische Analysen (27) der Eingabe-Folge (24) aufweist, so daß die erzeugte Struktur verwendet werden kann, um die individuellen Worte innerhalb der Eingabe-Folge (24) zu identifizieren, wobei jeder Pfad in der gerichteten, azyklischen Graphik von dem Stamm (ROOT) zu einem Blatt (SPB0, SPB2, SPB4) eine alternative, morphologische Analyse der Eingabe-Folge (24) darstellt.

2. Verfahren nach Anspruch 1, wobei die Eingabe-Folge (24) japanische Zeichen (55) umfaßt.

3. Verfahren nach Anspruch 1 oder 2, wobei der Schritt einer Verarbeitung der Eingabe- Folge (24) ein Verarbeiten der Eingabe-Folge (24) aufweist, um verbundene Morpheme (38, 42) zu identifizieren, die an eine Folge gebunden sind.

4. Verfahren nach Anspruch 3, wobei Postfix-verbundene Morpheme identifiziert werden (38).

5. Verfahren nach einem der Ansprüche 1 bis 4, das weiterhin die mittels Computer ausgeführten Schritte aufweist:

Vorsehen von n-gramm-(n-grarn)-Mustervorlagen (98), die ein Muster von Zeichen-Typen, gefunden in Stämmen, und für jede Mustervorlage (98), Informationen, die sich auf die Wahrscheinlichkeit beziehen, daß die Mustervorlage in einem Stamm auftritt, spezifizieren;

aneinander Anpassen (92) mindestens einiger der Mustervorlagen (98) an einen Bereich der Eingabe-Folge (24), um eine Anpassung einiger der Mustervorlagen (98) zu identifizieren (24); und

Verwenden (112) der angepaßten Mustervorlagen (98), um zu identifizieren, welcher Bereich der Eingabe-Folge (24) ein Stamm ist.

6. Verfahren nach Anspruch 5, wobei die Mustervorlagen (98) für eine Anzahl von unterschiedlichen, morphologischen Kategorien (58) vorgesehen sind und die Anpassung (92) mit Mustervorlagen (98) für eine einzelne, morphologische Kategorie durchgeführt wird.

7. Verfahren nach Anspruch 1, wobei der Verarbeitungsschritt den Schritt umfaßt: Durchführen einer morphologischen Analyse (27) in Bezug auf die Eingabe-Folge (24) in einer Weise von rechts nach links durch Verarbeiten des am weitesten rechts liegenden Zeichens zuerst und durch Fortschreiten, um Zeichen in einer Sequenz nach links von dem ersten Zeichen zu verarbeiten, um verbundene Morpheme (38, 42) und zumindest ein Lexem in der Eingabe-Folge (24) zu identifizieren.

8. Verfahren nach einem der Ansprüche 1 bis 7, wobei der Erzeugungsschritt (72) ergibt:

eine gerichtete, azyklische Graphik, die Knoten, die Zeichen oder Morpheme darstellen, und Hinweiszeiger, die Knoten miteinander verbinden, besitzt, wobei die Graphik einen Stamm-Knoten (ROOT) und Blatt-Knoten (SPB0, SPB2, SPB4) besitzt, und für jeden Blatt- Knoten ein Pfad vorhanden ist, der von dem Stamm-Knoten zu dem Blatt-Knoten führt, der eine morphologische Analyse (27) mindestens eines Bereichs der Eingabe-Folge (24) darstellt, die verbundene Morpheme umfaßt,

und wobei das Verfahren weiterhin die Schritte aufweist:

Auswerten der Pfade (64), die von dem Stamm-Knoten (ROOT) zu den Blatt-Knoten (SPB0, SPB2, SPB4) führen, um Pfade zu favorisieren, die eine Analyse für einen größeren Bereich der Eingabe-Folge (24) umfassen, und um die Pfade zu favorisieren, die eine größere Zahl von verbundenen Morphemen umfassen; und

Auswählen (66) des höchsten Auswertepfads als die morphologische Analyse, die auf den Bereich der Eingabe-Folge (24) anzuwenden ist.

9. Verfahren nach Anspruch 1, wobei der Verarbeitungsschritt die mittels Computer ausgeführten Schritte umfaßt:

Identifizieren von Phrasen-Unterbrechungen (26, 36) in der Eingabe-Folge (24) durch Anwenden einer statistischen Technik, so daß die Phrasen-Unterbrechungen Phrasen abgrenzen;

für jede Phrase innerhalb der Eingabe-Folge (24), identifizieren möglicher Postfix-verbundener Morpheme (38) und Erzeugen einer graphischen Darstellung von solchen Morphemen (80);

identifizieren möglicher Stämme (40) in der Phrase durch Vergleichen von Zeichen in der Eingabe-Folge (24) mit Stamm-Zeichen-Mustervorlagen (98), die jeweils ein Muster von Zeichen-Typen in einem Stamm identifizieren;

identifizieren möglicher Präfix-verbundener Morpheme (42) für jeden möglichen Stamm und Erzeugen einer graphischen Darstellung der Präfix-verbundener Morpheme (131); und

Auswählen (43, 44) einer basten Kombination der möglichen Postfix-verbundenen Morpheme, Stämme und Präfix-verbundenen Morpheme als eine Analyse der Phrase in der Eingabe-Folge (24), die am besten die Eingabe-Folge charakterisiert.

10. Verfahren nach Anspruch 9, wobei die Eingabe-Folge (24) japanische Zeichen (55) umfaßt.

11. Verfahren nach Anspruch 9 oder 10, wobei die statistische Technik, verwendet beim Identifizieren von Phrasen-Unterbrechungen (26), auf Wahrscheinlichkeiten eines Aufteilens von Unigrammen und eines Aufteilens von Bigrammen (47) beruht.

12. Verfahren nach einem der Ansprüche 9 bis 11, wobei das Identifizieren von möglichen Stämmen auf Wahrscheinlichkeiten beruht (40), daß Stamm-Zeichen-Mustervorlagen auftreten.

13. Computersystem (10), das aufweist:

eine Phrasen-Aufteilungs-Analyse-Komponente zum Identifizieren von Hard-Phrasen- Unterbrechungen (26) in einer Zeichen-Eingabe-Folge (24);

einen Analysierer zum Analysieren der Eingabe-Folge (24), um mögliche Stämme und Affices (27, 30, 32) in der Eingabe-Folge zu identifzieren;

einen Baum-Generator zum Erzeugen eines Baums (62), der die möglichen Stämme und Affices, identifiziert durch den Analysierer, darstellt, wobei der erzeugte Baum aus Knoten (SPB0-SPB4, ROOT), umfassend einen Stamm-Knoten (ROOT) und Blatt-Knoten (SPB0, SPB2, SPB4), zusammengesetzt ist, wobei jeder Pfad in dem Baum von dem Stamm- Knoten zu einem Blau-Knoten eine alternative, morphologische Analyse (27) der Eingabe- Folge (24) darstellt.

14. Computersystem (10) nach Anspruch 13, das weiterhin aufweist: einen Selektor zur Verwendung des erzeugten Baums, um einen Stamm und ein oder mehr Affices unter diesen auszuwählen (64, 66), die als eine Darstellung mindestens eines Teils der Eingabe-Folge (24) identifiziert worden sind, und zum Identifzieren der Kombination des ausgewählten Stamms und der ausgewählten Affces als ein Wort.

15. Computersystem nach Anspruch 13 oder 14, wobei die Eingabe-Folge (24) primär japanische Zeichen (55) umfaßt.

16. Computersystem nach einem der Ansprüche 13 bis 15, wobei dem System (10) ein vollständig spezifiziertes Dictionary fehlt, wobei das Computersystem (10) ein Verfahren durchführt, das die Schritte aufweist:

Liefern einer Eingabe-Folge (24) aus Zeichen, wobei den Zeichen weißer Zwischenraum zwischen den Zeichen fehlt; und

Verarbeiten der Eingabe-Folge (24), um Worte und Stämme und Affices in den Worten zu identifizieren.

17. Computersystem nach Anspruch 16, das ein Verfahren durchführt, das weiterhin den Schritt einer Verwendung der Identifkation der Worte, Stämme und Affices in einer Verarbeitung der natürlichen Sprache aufweist.

18. Computersystem nach Anspruch 16 oder 17, das ein Verfahren durchführt, das weiterhin den Schritt einer Verwendung der Identifikation der Worte, Stämme und Affices in einer Inhalt-Indexierung der Eingabe-Folge (24) aufweist.

19. Computersystem nach einem der Ansprüche 16 bis 18, das ein Verfahren durchführt, das weiterhin den Schritt einer Verwendung der Identifikation der Worte, Stämme und Affices in einer Autosummierungs-Anwendung, die versucht, eine Zusammenfassung der Eingabe-Folge (24) zu erzeugen, aufweist.

20. Verfahren nach Anspruch 1, wobei die Eingabe-Folge (24) ein Dokument mit einem Text, der Zeichen besitzt, definiert, wobei das Computersystem (10) eine Eingabevorrichtung (14) zum Auswählen eines Textes besitzt, wobei die Struktur, die in dem Erzeugungsschritt (62) erzeugt ist, eine morphologische Liste des Textes ist;

wobei das Verfahren weiterhin die Schritte aufweist:

Einsetzen von Markierern in die morphologische Liste, um Auswahlgrenzen innerhalb des Textes zu identifizieren; und

auf einen Benutzer hin, der die Eingabevorrichtung (14) verwendet, um eine Auswahl des Textes auszuwählen, Verwenden der Markierer, um eine Granularität einer resultierenden Auswahl (138) zu identifizieren, wobei die Granularität spezifiziert, welche Zeichen in dem Text ausgewählt sind.