[go: up one dir, main page]

DE68923981T2 - Verfahren zur Bestimmung von Textteilen und Verwendung. - Google Patents

Verfahren zur Bestimmung von Textteilen und Verwendung.

Info

Publication number
DE68923981T2
DE68923981T2 DE68923981T DE68923981T DE68923981T2 DE 68923981 T2 DE68923981 T2 DE 68923981T2 DE 68923981 T DE68923981 T DE 68923981T DE 68923981 T DE68923981 T DE 68923981T DE 68923981 T2 DE68923981 T2 DE 68923981T2
Authority
DE
Germany
Prior art keywords
speech
words
probability
text
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE68923981T
Other languages
English (en)
Other versions
DE68923981D1 (de
Inventor
Kenneth Ward Church
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Application granted granted Critical
Publication of DE68923981D1 publication Critical patent/DE68923981D1/de
Publication of DE68923981T2 publication Critical patent/DE68923981T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

    Erfindungsgebiet
  • Die vorliegende Erfindung betrifft Verfahren zur Sprachteilbestimmung und Verfahren zur Benutzung der Ergebnisse einschließlich von Zwischenverfahren der Nominalphrasenanalyse, und mit Sprachsynthese, Spracherkennung, Schreibertraining, Korrekturlesen, Indexieren und Datenabruf.
  • Stand der Technik
  • Es wurde schon vor langer Zeit erkannt, daß die Fähigkeit der Bestimmung von Sprachteilen, besonders für Worte, die als unterschiedliche Sprachteile benutzt werden können, für viele unterschiedliche Probleme in der Anwendung der englischen Sprache relevant ist. Beispielsweise ist bekannt, daß Sprachbetonung einschließlich von Tonhöhe, Dauer und Energie von den bestimmten Sprachteilen von Worten und ihrer Satzordnung abhängig ist. Dementsprechend ist zur Sprachsynthese Sprachteilanalyse des schriftlichen oder nichtverbalen Eingabetextes notwendig, um ein wie menschliche Sprache klingendes Ergebnis zu erzeugen.
  • Darüber hinaus kann die automatische Sprachteilbestimmung eine wichtige Rolle bei der automatischen Spracherkennung, in der Ausbildung und dem Trainieren von Schreibern mit computerunterstützten Verfahren, beim Redigieren und Korrekturlesen von an einer Textverarbeitungsstation erzeugten Dokumenten, bei der Indexierung eines Dokuments und bei verschiedenen Formen des Abrufs von wortabhängigen Daten aus einer Datenbank spielen.
  • Beispielsweise finden sich einige dieser Anwendungen in verschiedenen Versionen von Writer's Workbench von AT&T. Man siehe den Artikel von Barbara Wallraff, "The Literate Computer" [Der gebildete Computer] in The Atlantic Monthly, Januar 1988, SS. 64 et seq., insbesondere die letzten zwei Absätze auf Seite 68. Das Verhältnis von Sprachteilen zur Indexierung findet sich in dem am 1. April 1986 C. L. Raye erteilten US-Patent Nr. 4,580,218.
  • Bislang sind in der Literatur zwei Hauptverfahren der automatischen Sprachteilbestimmung besprochen und zu einem gewissen Maß eingesetzt worden. Das erste ist von verschiedenen Ad-Hoc-Regeln abhängig, mit denen bestimmte interessierende Situationen erkannt werden sollen. Diese Regeln können beispielsweise auf die Benutzung von Wortendungen zur Vorhersage von Sprachteilen oder auf irgendeine Abwandlung davon bezogen sein. Einige Ad-Hoc-Regeln für Sprachteilbestimmung sind in dem unter dem UNIX - Betriebssystem laufenden Anwendungsprogramm Writer's Workbench benutzt worden. Diese Regeln sind gewöhnlich bezüglich der von ihnen erfolgreich lösbaren Probleme sehr begrenzt und es mangelt ihnen an grundlegender Einheitlichkeit. Dieses Verfahren ist in Computer Science Technical Report, Nr. 81, "PARTS - A System for Assigning Word Classes to English Text" [PARTS - Ein System zur Zuweisung von Wortklassen zu englischem Text] von L. L. Cherry, Juni 1978, Bell Telephone Laboratories Incorporated, beschrieben. Das zweite Hauptverfahren, das potentiell eine größere grundlegende Einheitlichkeit aufweist, ist das in dem Artikel "The Automatic Tagging of the LOB Corpus" [Die automatische Markierung des LOB-Korpus], in ICAME News, Band 7, SS. 13-33, von G. Leech et al., 1983, Universität Lancaster, England, beschriebene "N-Gramm"- Verfahren. Ein Teil des dort beschriebenen Verfahrens macht den zugewiesenen Sprachteil abhängig von den gegenwärtig besten Wahlen von Sprachteilen gewisser vorhergehender oder nachfolgender Worte auf Grundlage gewisser Regeln hinsichtlich möglicher Kombinationen aufeinanderfolgender Sprachteile. Bei dieser Analyse werden auch verschiedene Ad-Hoc-Regeln benutzt, so daß insgesamt dieses Verfahren immer noch nicht so genau wie wünschenswert ist. Zusätzlich werden bei diesem Verfahren keine lexikalischen Wahrscheinlichkeiten auf systematische Weise modelliert.
  • Die obigen Verfahren haben unter den Forschern der Technik aufgrund der obigen Betrachtungen und aufgrund enttäuschender Ergebnisse kein bedeutendes Interesse erweckt.
  • In der Tat sind Vermutungen angestellt worden, daß jedes "N-Gramm"-Verfahren schlechte Ergebnisse zeigen wird, da mit ihm der wahrscheinliche Satzaufbau nicht genügend überblickt werden kann. Andererseits ist es nicht möglich gewesen, den einem menschlichen Gehirn möglichen Gesamtüberblick bei der Analyse der Sprachteile in einem Satz robust in einen Rechner einzuprogrammieren. Man siehe das Buch A Theory of Syntactic Recognition for Natural Language [Eine Theorie der syntaktischen Erkennung bei natürlicher Sprache] von M. Marcus, MIT Press, Cambridge, MA, 1980. Infolgedessen ist die "N- Gramm"-artige Sprachteilbestimmung im Gegensatz zur "N- Gramm"-Analyse der Häufigkeit des Auftretens von Worten größtenteils auf Aufgaben wie die Beihilfe zur Erzeugung von größeren Volumina voll "markierten" Textes zur Verwendung bei zukünftiger Forschung beschränkt gewesen. Zu diesem Zweck müssen die Ergebnisse durch Eingriff eines sehr fähigen Menschens korrigiert werden.
  • Trotzdem wäre es wünschenswert, Sprachteile mit einem hohen Wahrscheinlichkeitsgrad mit relativ einfachen Verfahren wie dem "N-Gramm"-Verfahren identifizieren zu können, so daß es leicht in allen anfangs oben erwähnten Anwendungen angewandt werden kann.
  • Beschreibung der Erfindung
  • Erfindungsgemäß entspricht ein automatisiertes Verfahren zur Zuweisung von Sprachteilen zu Worten in einer Nachricht dem Anspruch 1 und ein automatisiertes Verfahren zur Bestimmung von Beginn- und Endegrenzen von Nominalphrasen in einer Nachricht dem Anspruch 4. Bevorzugte Formen der Verfahren entsprechen den abhängigen Ansprüchen.
  • In einer bevorzugten Ausführungsform der Erfindung sind Sprachteile Worten in einer Nachricht durch Optimieren des Produkts von lexikalen Einzelwortwahrscheinlichkeiten und normierten textabhängigen Dreiwortwahrscheinlichkeiten zugewiesen. Bei der Normierung werden die enthaltenen textabhängigen Zweiwortwahrscheinlichkeiten benutzt. Endpunkten von Sätzen (einschließlich einer Mehrzahl von Leerstellen zwischen ihnen), Interpunktion und mit niedriger Häufigkeit auftretenden Worten werden lexikale Wahrscheinlichkeiten zugewiesen und werden sonst so behandelt, als wenn sie Worte wären, so daß in der vorbekannten N-Gramm-Sprachteilzuweisung angetroffene Unterbrechungen und die vorbekannte Anwendung von Ad-Hoc-Regeln allgemein vermieden werden. Damit wird die Allgemeingültigkeit des Verfahrens hergestellt.
  • In einer Nachricht, in der den Worten vorher Sprachteile zugewiesen worden sind, werden die Nominalphrasen auf eine Weise identifiziert, die ihre Verwendung für Sprachsynthese erleichtert. Diese Nominalphrasenanalyse kann auch andere Anwendungen haben. Insbesondere ein hochprobabilistisches Verfahren, das anfangs an jedem Beginn oder Ende eines Wortes Anfänge und Enden von Nominalphrasen zuweist und nacheinander solche Zuweisungen durch Eliminieren der Zuweisungen mit der niedrigsten Wahrscheinlichkeit eliminiert, bis nur nichtkursive Zuweisungen mit sehr hoher Wahrscheinlichkeit übrigbleiben. Mit nichtrekursiven Zuweisungen ist gemeint, daß keine Nominalphrasenzuweisung, die sich teilweise oder ganz innerhalb einer anderen Nominalphrase befindet, behalten wird.
  • Als Alternative können mit dem Verfahren dieses Merkmals der vorliegenden Erfindung auch einige Nominalphrasen mit hoher Wahrscheinlichkeit beibehalten werden, die ganz innerhalb anderer Nominalphrasen auftreten, da solche Zuweisungen in der Praxis, beispielsweise bei Sprachsynthese, nützlich sind.
  • Einige Nominalphrasenzuweisungen, die stets eliminiert werden, sind Endungen ohne entsprechende Anfänge (zum Beispiel an einem Satzanfang) oder Anfänge ohne Endungen (zum Beispiel an einem Satzende), jedoch werden mit meinem Verfahren weiterhin Zuweisungen der Anfänge und Enden von Nominalphrasen mit niedriger Wahrscheinlichkeit elminiert oder, anders gesagt, nur die Zuweisungen mit höchster Wahrscheinlichkeit bewahrt.
  • Andere Nominalphrasen mit niedriger Wahrscheinlichkeit werden dadurch eliminiert, daß jeder Satz einer Nachricht wiederholt von Anfang bis Ende abgetastet wird und bei jeder Abtastung die Wahrscheinlichkeiten für jedes Paar eines Anfangs und eines Endes multipliziert werden und dann diejenigen Kombinationen mit einem Produkt in der Nähe oder oberhalb der vorher für das Gebiet des Satzes erhaltenen höchsten Wahrscheinlichkeit, oder die zumindest nicht mit anderen Nominalphrasen hoher Wahrscheinlichkeit unvereinbar sind, behalten werden.
  • Die Ausgabe des vorliegenden Sprachteilzuweisungsverfahrens kann die Eingabe in das vorliegende Nominalphrasenanalyseverfahren sein. In diesem Zusammenhang verstärken die in beiden Verfahren benutzten Optimierungsverfahren zu größter Wahrscheinlichkeit einander, da jedes Verfahren für sich selbst eine bessere Leistung als das des Standes der Technik aufweist.
  • Kurze Beschreibung der Zeichnung
  • Weitere Merkmale und Vorteile der vorliegenden Erfindung werden aus der folgenden detaillierten Beschreibung im Zusammenhang mit der Zeichnung offenbar. In der Zeichnung zeigt:
  • Figur 1 ein Flußdiagramm eines Sprachteilzuweisungsverfahrens nach der vorliegenden Erfindung;
  • Figur 2 ein Flußdiagramm eines Nominalphrasenanalyseverfahrens nach der vorliegenden Erfindung;
  • Figur 3 ein Blockschaltbild eines Sprachsynthetisierers unter Benutzung der Verfahren der Figuren 1 und 2; und
  • Figur 4 ein Blockschaltbild einer Textaufbereitung unter Benutzung des Verfahrens der Figur 1.
  • Beschreibung der beispielhaften Ausführungsformen
  • Im Verfahren der Figur 1 wird für Darstellungszwecke angenommen, daß die Nachricht eine Textnachricht war, die gelesen und in einer elektronischen Form gespeichert worden ist. Wie im Block 11 angedeutet, wird der erste Schritt dann das satzweise Lesen des gespeicherten Textes sein. Dieser Schritt erfordert die Bestimmung von Satzgrenzen. Dafür gibt es viele bekannte Verfahren, aber hier wird bevorzugt, die Anfangsannahme zu treffen, daß jeder Punkt einen Satz beendet, und dann diesen Satz und seine Ergebnisse zu verwerfen, wenn durch das vorliegende Verfahren nachher bewiesen wird, daß der Punkt einen wahrscheinlicheren Anwendungszweck hatte.
  • Auf alle Fälle schreitet das vorliegende Verfahren fort, beginnend am Ende jeden Satz zu bearbeiten.
  • Die nachfolgenden Schritte können in drei allgemeine Schritte gruppiert werden:
  • Markieren der Worte mit Zeichen (Block 12);
  • Berechnen der lexikalen Sprachteilwahrscheinlichkeiten (Block 13), beginnend am Satzende; und
  • Optimieren der textabhängigen Sprachteilwahrscheinlichkeiten (Block 14), natürlich mit dem allgemeinen Endschritt (15) des Anwendens des Ergebnisses auf irgendeine der vielen möglichen Nutzungen von Sprachteilanalyse.
  • Diese allgemeinen Schritte können, wie nunmehr erläutert wird, in viele weitere detaillierte Schritte eingeteilt werden.
  • Bei der Markierung von Worten mit Zeichen führe ich an dem gewöhnlichen linguistischen Ansatz zur Sprachteilanalyse geringe, aber doch bedeutende Änderungen durch. Trotzdem benutze ich aus praktischen Gründen dieselben Bezeichnungen von Sprachteilen wie die in der "Liste der Markierungen" in dem Buch von W. Nelson Francis et al., Freguency Analvysis of English Usage [Häufigkeitsanalyse im Gebrauch des Englischen], Houghton Mifflin Co., 1982, auf Seiten 6-8 angeführten. Sie werden überall dort, wo es zum Verständnis von Beispielen beiträgt, hier wiederholt werden.
  • Zu der Markierung mit Zeichen gehört die Kennzeichnung von Worten und gewissen Nichtworten wie Interpunktion und Klammern. Zusätzlich hat sich als wichtig herausgestellt, nach jedem Satzpunkt zwei Leerstellen zuzuweisen, um für solche Stellen in einem markierten Textkörper wie dem, der die Grundlage für das Buch von Francis et al. bildetete (der vorangehende Textkörper wird gewöhnlich der "Brown-Korpus" genannt), eine neue Menge von Häufigkeiten zu erzeugen. An dem Vorgang beteiligte Zeichenarten sind die eigentlichen Worte eines Satzes und die Strukturanzeiger, die den Prozeß darüber informieren, daß das Ende eines Satzes erreicht worden ist. Diese Strukturanzeiger enthalten beispielsweise einen Satzendeanzeiger wie z.B. das maschinenlesbare Zeichen für einen Punkt, einen durch ein entsprechendes im Manuskript oder der Datei zusammen mit den Textworten gespeichertes Formatierungszeichen dargestellten Kopf oder Absatzanzeiger und einen Dateiendeanzeiger.
  • Etwas vorausschauend werden wir sehen, daß für jedes abschließende Wort in einem Satz seine textabhängige Wahrscheinlichkeit zusammen mit der für den Punkt und die nachfolgende Leerstelle gemessen werden wird. Diese drei bilden ein "Trigramm", und die Wahrscheinlichkeitsanalyse ist daher die Untersuchung der Frage: "Wie wahrscheinlich ist es, daß dieses Wort als ein gewisser Sprachteil einen Satz beenden kann?" In diesem Fall ist die textabhängige Wahrscheinlichkeit, den Punkt an dieser Stelle zu beobachten, sehr hoch (in der Nähe von 1,0); und die textabhängige Wahrscheinlichkeit für die Leerstelle ist 1,0. In jedem Fall sind diese Wahrscheinlichkeiten dieselben, sowohl in Zähler als auch im Nenner der normierten Wahrscheinlichkeit, so daß die resultierende textabhängige Wahrscheinlichkeit nur die gemessene Wahrscheinlichkeit dafür ist, den betroffenen Sprachteil am Ende eines Satzes zu sehen, was wiederum eine Statistik ist, die aus dem Textkörper tabelliert und in einem Festspeicher des Rechners gespeichert werden kann.
  • Nach Markierung der beobachteten Worte und Zeichen, wie in Verbindung mit Block 12 erläutert, werden mit dem vorliegenden Verfahren als nächstes die lexikalen Sprachteilwahrscheinlichkeiten (die Wahrscheinlichkeit der Beobachtung des Sprachteils i bei dem gegebenen Wort j) in Abhängigkeit von der Häufigkeit des Auftretens wie folgt berechnet: Würde jeder Sinn jedes interessierenden Wortes mit einigermaßen hoher Häufigkeit im Brown-Korpus auftreten, würde diese Berechnung einfach der Quotient der beobachteten Häufigkeit des Auftretens des Wortes als bestimmter Sprachteil, geteilt durch seine Gesamthäufigkeit des Auftretens, ungeachtet des Sprachteils sein.
  • Hier wird diese Berechnung für Worte oder Zeichen mit niedriger Häufigkeit des Auftretens wie folgt ersetzt: Man bedenke, daß es nach dem Gesetz von Zipf stets einen langen Schwanz von Worten, die nur wenige Male erscheinen, geben wird, egal wie viel Text wir betrachten. Im Brown-Korpus erscheinen beispielsweise 40.000 Worte fünfmal oder weniger oft. Wenn ein Wort wie yawn einmal als Substantivum und einmal als Verbum erscheint, wie hoch ist die Wahrscheinlichkeit, daß es ein Adjektiv sein kann? Ohne weitere Information ist es unmöglich, das zu sagen. Glücklicherweise kann dieses Problem in gewissem Maß durch Wörterbücher gelindert werden. Zu der Häufigkeitszählung von Möglichkeiten im Wörterbuch addieren wir eins. Beispielsweise wird yawn zufälligerweise in unserem Wörterbuch als entweder ein Substantivum oder als ein Verbum aufgeführt. Damit glätten wir die Möglichkeiten. In diesem Fall bleiben die Wahrscheinlichkeiten unverändert. Yawn wird 50% der Zeit als Substantivum und die übrige Zeit als Verbum geschätzt, sowohl vor als auch nach der Glättung. Es besteht keine Möglichkeit, daß yawn ein Adjektiv ist.
  • In manchen anderen Fällen macht die Glättung einen großen Unterschied. Man betrachte das Wort cans. Dieses Wort erscheint fünfmal als Substantivum in der Mehrzahl und niemals als Verbum im Brown-Korpus. Das Lexikon (und seine morphologischen Routinen) geben glücklicherweise beide Möglichkeiten an. So lautet die revidierte Schätzung, daß cans 6/7 Mal als Substantivum in der Mehrzahl und 1/7 Mal als Verbum erscheint.
  • So addieren wir "eins" zu jeder beobachteten Häufigkeit des Auftretens als jeder mögliche Sprachteil entsprechend dem Lernmaterial, einem ungekürzten Wörterbuch; und berechnen daraus die lexikalischen Wahrscheinlichkeiten.
  • Um damit zu beginnen, unseren Wahrscheinlichkeitssuchbaum für dieses Wort aufzubauen, multiplizieren wir nun diese lexikalische Wahrscheinlichkeit mit der normierten geschätzten textabhängigen Wahrscheinlichkeit, d.h. der Häufigkeit der Beobachtungen des Sprachteiles X bei gegebenen nachfolgenden bereits bestimmten Sprachteilen Y und Z, geteilt durch die "Bigramm"-Häufigkeit der Beobachtungen des Sprachteils Y bei gegebenem Sprachteil Z. Die letzteren beiden Daten können von einem bereits markierten Korpus tabelliert werden, auf den von Francis et al. in ihrem Buch Bezug genommen wird. Die tabellierten Daten werden in einem Rechnerspeicher gespeichert.
  • Wir schreiten damit fort, den obigen Prozeß für das betreffende Wort als jeden anderen Sprachteil, der es sein kann, zu wiederholen, und behalten nur die maximalen Wahrscheinlichkeiten aus unseren vorigen Berechnungsmengen. Ehe wir zum vorletzten Wort im Satz fortschreiten, haben wir eine maximale Produktwahrscheinlichkeit für das letzte Wort errechnet.
  • Es lassen sich bereits zweierlei Dinge über den Prozeß in Betracht ziehen. Als erstes liegen die in dem Produkt benutzten lexikalischen Wahrscheinlichkeiten entlang einem Kontinuum und sind nicht nur einer von drei willkürlich zugewiesenen Werten, so wie sie in der Literaturstelle von Leech et al. benutzt werden. Zweitens ist, obwohl die Anwendungen der Mathematik für Worte, die in Wirklichkeit am Ende eines Satzes liegen, trivial zu sein scheinen, der bedeutende Punkt, daß überall dieselbe Mathematik angewandt wird.
  • Zu einem vollständigeren spezifischen Beispiel fortschreitend sollte bedacht werden, daß die Wahrscheinlichkeitsschätzungen durch Lernen am markierten Brown- Korpus erhalten wurden, auf den Bezug genommen, der aber nicht in der oben erwähnten Analyse von Francis et al. erwähnt ist. Es ist ein Korpus mit annähernd einer Million Worten, wobei Sprachteilmarkierungen zugewiesen und mühsam von Hand überprüft wurden.
  • Die Gesamtleistung des vorliegenden Verfahrens ist überraschend gut, wenn man in Betracht zieht, daß seine Funktionsweise streng ortsbezogen ist und daß es ihm im allgemeinen unmöglich ist, auf beide Seiten einer Nominalphrase zu schauen, um beispielsweise die Anwendungsmöglichkeit eines möglichen Hilfsverbs zu bestimmen.
  • Wenn jeder Möglichkeit im Wörterbuch gleiches Gewicht zugeteilt werden muß, ist die Syntaxanalyse sehr schwierig. Im allgemeinen liegt der Brennpunkt von Wörterbüchern auf dem Möglichen und nicht auf dem Wahrscheinlichen. Man betrachte den trivialen Satz "I see a bird". In der Praxis ist jedes Wort in dem Satz unzweideutig. Nach Francis und Kucera erscheint "I" als Pronomen in 5837 von 5838 Beobachtungen (100%), "see" erscheint als Verbum in 771 von 772 Beobachtungen (100%), "a" erscheint als Artikel in 23013 von 23019 Beobachtungen (100%) und "bird" erscheint als Substantiv in 26 von 26 Beobachtungen (100%). Nach Websters Siebentem New Collegiate Dictionary ist jedoch jedes Wort zweideutig. Zusätzlich zu den gewünschten Zuweisungen von Markierungen (Sprachteilen) sind die ersten drei Worte als Substantiva und das letzte als intransitives Verbum aufgeführt. Es wäre zu hoffen, daß diese unerwünschten Zuweisungen von der Syntaxanalyse als syntaktisch schlecht gebildet ausgeschlossen werden könnten. Leider gibt es im Stand der Technik keine konsequente Art und Weise, dieses Ergebnis zu erzielen. Wenn die Syntaxanalyse Nominalphrasen der Form:
  • [NP [N city] [N school][N committee][N meeting]]
  • akzeptiert, dann kann sie
  • [NP[N I][N see] [N a] [N bird]] nicht ausschließen, wobei "NP" für "Nominalphrase" und "N" für "Substantiv" stehen.
  • Gleichermaßen muß die Syntaxanalyse wahrscheinlich auch bird als intransitives Verbum akzeptieren, da:
  • [S[NP[N I][N see][N a]] [VP[V bird]]] syntaktisch nicht falsch ist, wobei "S" für "Subjekt" und "VP" für "Verbalphrase" und "V" für "Verbum" stehen.
  • Diese Sprachteilzuweisungen sind nicht falsch; sie sind nur äußerst unwahrscheinlich.
  • Man betrachte nochmals den Satz "I see a bird". Das Problem besteht darin, eine Zuweisung von Sprachteilen zu Worten zu finden, die sowohl die lexikalischen als auch die textabhängigen Wahrscheinlichkeiten optimiert, die beide aus dem markierten Brown-Korpus geschätzt werden. Die lexikalischen Wahrscheinlichkeiten werden aus den folgenden Häufigkeiten geschätzt (PPSS = Pronomen im Singular; NP = Eigenname; VB = Verbum; UH = Interjektion; IN = Präposition; AT = Artikel; NN = Substantiv): Wort Sprachteile I see a bird In (französisch)
  • Die lexikalischen Wahrscheinlichkeiten werden auf offensichtliche Weise geschätzt. Beispielsweise wird die Wahrscheinlichkeit, daß "I" ein Pronomen ist, Wahrsch(PPSS "I") als die Häuf(PPSS "I")/Häuf("I") beziehungsweise 5837/5838 geschätzt. Die Wahrscheinlichkeit, daß "see" ein Verbum ist, wird als 771/772 geschätzt. Die anderen Schätzungen der lexikalischen Wahrscheinlichkeit folgen demselben Muster.
  • Die textabhängige Wahrscheinlichkeit, die Wahrscheinlichkeit der Beobachtung des Sprachteiles X bei gegebenen folgenden zwei Sprachteilen Y und Z wird durch Teilen der Trigramm-Sprachteilhäufigkeit XYZ durch die Bigramm-Sprachteilhäufigkeit YZ geschätzt. So wird beispielsweise geschätzt, daß die Wahrscheinlichkeit der Beobachtung eines Verbums vor einem Artikel und einem Substantiv das Verhältnis der Häuf(VB, AT, NN) über der Häuf(AT, NN) beziehungsweise 3412/53091 = 0,064 ist. Die Wahrscheinlichkeit der Beobachtung eines Substantivums im selben Zusammenhang wird als Verhältnis der Häuf(NN, AT, NN) über 53091 beziehungsweise 629/53091 = 0,01 geschätzt. Die anderen Schätzungen der textabhängigen Wahrscheinlichkeit folgen demselben Muster.
  • Um die Zuweisung von Sprachteilmarkierungen zu Worten zu finden, wird eine Suche durchgeführt, die das Produkt der lexikalischen und textabhängigen Wahrscheinlichkeit optimiert. Konzeptmäßig zählt die Suche alle möglichen Zuweisungen von Sprachteilen zu Eingangsworten auf. In diesem Fall gibt es vier Eingangsworte, von denen drei auf zwei Weisen zweideutig sind, wodurch eine Menge von 2*2*2*1=8 mölichen Zuweisungen von Sprachteilen zu
  • Eingangsworten erzeugt wird: I see a bird
  • Jede der acht Folgen wird dann durch das Produkt der lexikalischen Wahrscheinlichkeiten und der textabhängigen Wahrscheinlichkeiten gewichtet und die beste Folge wird ausgewählt. In diesem Fall ist die erste Folge bei weitem die beste.
  • Es ist in der Tat nicht notwendig, alle möglichen Zuweisungen auf zuzählen, da die Bewertungsfunktion nicht mehr als zwei Worte übersehen kann. Anders gesagt, ist es in dem Vorgang der Aufzählung von Sprachteilfolgen in manchen Fällen möglich, zu wissen, daß eine Folge unmöglich mit einer anderen in den Wettbewerb treten kann und daher verworfen werden kann. Aufgrund dieser Tatsache werden nur (n) Wege aufgezählt. Diese Optimierung läßt sich mit einem Beispiel erläutern:
  • Man finde alle Zuweisungen von Sprachteilen zu "bird" und bewerte die Teilfolge. Hiernach sind alle Bewertungen als logarithmische Wahrscheinlichkeiten zu deuten.
  • (-4,848072 "NN")
  • Man finde alle Zuweisungen von Sprachteilen zu "a" und bewerte diese. An dieser Stelle gibt es zwei Wege:
  • (-7,4453945 "AT" "NN")
  • (-15,01957 "IN "NN")
  • Man finde nunmehr Zuweisungen von "see" und bewerte diese. An dieser Stelle scheint die Anzahl von Wegen immer noch exponentiell zu wachsen.
  • (-10,1914 "VB" "AT" "NN")
  • (-18,54318 "VB" "IN" "NN")
  • (-29,974142 "UH" "AT" "NN")
  • (-36,53299 "UH" "IN" "NN")
  • Nunmehr finde man Zuweisungen von "I" und bewerte diese. Es ist zu bemerken, daß es jedoch nicht mehr notwendig ist, die Hypothese aufzustellen, daß "a" eine französische Präposition IN sein könnte, da alle vier Wege PPSS VB IN NN, NN VB IN NN, PPSS UH IN NN und NP UH IN NN weniger hoch bewertet werden als irgendein anderer Weg und irgendeine zusätzliche Eingabe die relative Bewertung keinesfalls ändern könnte. Insbesondere wird der Weg PPSS VB IN NN niedriger als der Weg PPSS VB AT NN bewertet und eine zusätzliche Eingabe wird PPSS VB IN NN nicht helfen, da die textabhängige Bewertungsfunktion ein begrenztes Fenster von drei Sprachteilen aufweist und dies nicht dazu ausreicht, an dem bestehenden PPSS und VB vorbeizusehen.
  • (-12,927581 "PPSS" "VB" "AT" "NN")
  • (-24,177242 "NP" "VB" "AT" "NN")
  • (-35,667458 "PPSS" "UH" "AT" "NN")
  • (-44,33943 "NP" "UH" "AT" "NN")
  • Die Suche läuft noch zwei Iterationen weiter, mit der Annahme von leeren Sprachteilen für außerhalb des Bereichs liegende Worte.
  • (-13,262333 Leerstelle "PPSS" "VB" "AT" "NN")
  • (-26,5196 Leerstelle "NP" "VB" "AT" "NN")
  • Abschließend ist das Ergebnis: PPSS VB AT NN.
  • (-13,262333 Leerstelle Leerstelle "PPSS" "VB" "AT" "NN").
  • Ein etwas interessanteres Beispiel ist: "Can they can cans".
  • cans
  • (-5,456845 "NNS"), wobei "NNS" für "Substantiv in der Mehrzahl" steht.
  • can
  • (-12,603266 "NN" "NNS")
  • (-15,935471 "VB" "NNS")
  • (-15,946739 "MD" "NNS"), wobei "MD" für "Modell-Hilfswort" steht.
  • they
  • (-18,02618 "PPSS" "MD" "NNS")
  • (-18,779934 "PPSS" "VB" "NNS")
  • (-21,411636 "PPSS" "NN" "NNS")
  • can
  • (-21,766554 "MD" "PPSS" "VB" "NNS")
  • (-26,45485 "NN" "PPSS" "MD" "NNS")
  • (-28,306572 "VB" "PPSS" "MD" "NNS")
  • (-21,932137 Leerstelle "MD" "PPSS" "VB" "NNS")
  • (-30,170452 Leerstelle "VB" "PPSS" "MD" "NNS")
  • (-31,453785 Leerstelle "NN" "PPSS" "MD" "NNS")
  • Und das Ergebnis ist: Can/MD they/PPSS can/VB cans/NNS
  • Weitere Einzelheiten des Verfahrens - Optimierung von Wahrscheinlichkeiten - sind aus Anhang A ersichtlich.
  • Mit dieser Beschreibung wird die Beschreibung der Funktionsweise bis zu der des Blocks 14 vollendet.
  • Als Beispiel der im Block 15 auftretenden Nutzungen ist die Anzeige konzeptmäßig die einfachste, aber immer noch praktisch, insbesondere in einem Dialogsystem mit einem menschlichen Bediener. Ein ausführlicheres Nutzungsbeispiel wird hiernach in der Beschreibung der Figuren 3 und 4 gegeben. Als erstes ist es jedoch wünschenswert, noch ein Werkzeug zu beschreiben. Dieses Werkzeug ist die Nominalphrasen-Syntaxanalyse unter Verwendung einer Erweiterung des vorliegenden Verfahrens.
  • Ähnliche stochastische Verfahren sind zur Lokalisierung einfacher Nominalphrasen mit sehr hoher Genauigkeit angewandt worden. Das vorgeschlagene Verfahren ist ein stochastisches Analog der Vorrangs-Syntaxanalyse. Man erinnere sich, daß bei Vorrangs-Syntaxanalyse eine Tabelle angewandt wird, die besagt, ob zwischen beliebigen zwei (Abschluß- oder Nichtabschluß-)Kategorien eine Klammer auf oder Klammer zu einzufügen ist. Das vorgeschlagene Verfahren bedient sich einer Tabelle, die die Wahrscheinlichkeiten einer Klammer auf und Klammer zu zwischen allen Paaren von Sprachteilen angibt. Ein Beispiel wird unten für die fünf Sprachteile: AT (Artikel), NN (Substantiv im Singular), NNS (Substantiv nicht im Singular), VB (nicht gebeugtes Verbum), IN (Präposition) gezeigt. Diese Wahrscheinlichkeiten wurden aus circa 40.000 Worten von aus dem Brown-Korpus ausgewähltem Lernmaterial geschätzt. Das Lernmaterial wurde durch aufwendige halbautomatische Mittel syntaktisch in Nominalphrasen eingeteilt. Wahrscheinlichkeit des Beginnens einer Nominalphrase zwischen ersten und zweiten Worten Zweites Wort Erstes Wort Wahrscheinlichkeit des Beendens einer Nominalphrase zwischen ersten und zweiten Worten Zweites Wort Erstes Wort
  • Der stochastischen Syntaxanalyse wird eine Folge von Sprachteilen als Eingabe gegeben und sie wird aufgefordert, dem Anfang und Ende von Nominalphrasen entsprechende Klammern einzufügen. Konzeptmäßig zählt die Syntaxanalyse alle möglichen syntaktischen Aufteilungen der Eingabe auf und wertet sie jeweils nach den Vorrangswahrscheinlichkeiten. Man betrachte beispielsweise die Eingangsfolge: NN VB. Es gibt fünf mögliche Weisen, diese Folge mit Klammern zu versehen (angenommen, es gibt keine Rekursion):
  • NN VB
  • [NN] VB
  • [NN VB]
  • [NN] [VB]
  • NN [VB]
  • Jede dieser syntaktischen Einteilungen wird durch Multiplizieren von sechs Vorrangswahrscheinlichkeiten bewertet, der Wahrscheinlichkeit, daß eine Klammer auf/zu an irgendeiner der drei Stellen (vor dem NN, nach dem NN oder nach dem VB) erscheint (oder nicht erscheint). Die syntaktische Einteilung mit der höchsten Bewertung wird als Ausgabe zurückgeführt.
  • Das Verfahren funktioniert beachtenswert gut, wenn man bedenkt, wie einfach es ist. Es besteht eine Neigung, die Anzahl der Klammern zu unterschätzen und zwei Nominalphrasen zusammen zuführen.
  • Es ist zu bemerken, daß die in der Figur 2 beschriebene Nominalphrasen-Syntaxanalyse annimmt, daß die Ausgabe aus der Sprachteilzuweisung der Figur 1 ihre Eingabe ist. Sie könnte jedoch auch die Ergebnisse jedes anderen Sprachteilzuweisungsverfahrens benutzen.
  • Auf alle Fälle sind im Block 22 alle möglichen Nominalphrasengrenzen zugewiesen. Im Block 23 werden nichtpaarige Grenzen beseitigt. Bei jedem Satz würden diese eine Beendigungsgrenze am Satzanfang und eine Beginngrenze am Satzende (einschließlich Leerstellen) umfassen.
  • Zu der Funktion des Blocks 24 gehört das Auslegen eines Wahrscheinlichkeitsbaumes für jede in sich widerspruchsfreie Zuweisung von Nominalphrasengrenzen. Die Zuweisungen mit der höchsten Wahrscheinlichkeit werden dann für die spätere Verarbeitung, z.B. Nutzung der Ergebnisse, wie in Block 25 angedeutet, zurückgehalten.
  • Wir wenden uns nunmehr einer spezifischeren Anwendung der vorliegenden Erfindung zu. Sprachteilmarkierung ist ein bedeutendes praktisches Problem mit möglichen Anwendungen in vielen Bereichen einschließlich Sprachsynthese, Spracherkennung, Buchstabierungskorrektur, Korrekturlesen, Fragenbeantwortung, Maschinenübersetzung und die Durchsuchung von großen Textdatenbänken (beispielsweise Patenten, Zeitungen). Mein besonderes Interesse liegt in Sprachsyntheseanwendungen, wobei es klar ist, daß die Aussprache manchmal von Sprachteilen abhängig ist. Man betrachte die folgenden drei Beispiele, wo die Aussprache von Sprachteilen abhängig ist.
  • Als erstes gibt es Worte wie "wind", wo das Substantiv einen anderen Vokal als das Verbum hat. Das heißt, das Substantiv "wind" weist einen kurzen Vokal wie bei "The wind is strong" auf, während das Verbum "wind" einen langen wie bei "Do not forget to wind your watch" aufweist.
  • Zweitens wird das Pronomen "that" wie bei "Did you see THAT?" betont, ungleich dem Ergänzungswort "that" wie bei "it is a shame that he is leaving".
  • Drittens beachte man den Unterschied zwischen "oily FLUID" und "TRANSMISSION fluid"; als allgemeine Regel wird eine Adjektiv-Substantiv-Folge wie "oily FLUID" typisch rechts betont, während eine Substantiv- Substantiv-Folge wie "TRANSMISSION fluid" typisch links betont wird, wie beispielsweise von Erik Fudge in English Word Stress, George Allen & Unroin (Publishers) Ltd., London, 1984 angegeben. Dies sind nur drei der vielen Konstruktionen, die natürlicher klingen würden, wenn der Synthetisierer Zugriff auf genaue Sprachteilinformationen hätte.
  • In der Figur 3 ist der Sprachteilmarkierer 31 ein das Verfahren der Figur 1 benutzender Rechner. Die Nominalphrasen-Syntaxanalyse 32 ist ein das Verfahren der Figur 2 benutzender Rechner.
  • Die Ausgaben des Markierers 31 und der Syntaxanalyse 32 werden in einem Syntaxanalysator angewandt, um die Eingangssignale für den Absolutbetonungssignalgenerator 18 der Figur 1 des C.H. Coker et al. erteilten US- Patents Nr. 3,704,345 bereitzustellen.
  • Als Beispiel für die besprochenen Regeln wird die Aufmerksamkeit auf Anhang 5.1 auf Seiten 144-149 des Buches von Fudge gerichtet, in dem die Regeln für Nominalphrasen aufgeführt sind.
  • In anderer Hinsicht ist die Funktionsweise der Ausführungsform der Figur 3 gleich der der Ausführungsform der Figur 1 im Patent von Coker.
  • Gleichermaßen funktioniert in den Ausführungsformen der Figur 4 der Sprachteilmarkierer 41 wie in Figur 1 beschrieben und die Nominalphrasen-Syntaxanalyse 42 funktioniert wie in Figur 2 beschrieben.
  • In diesem Fall wird die Nominalphrasen- und Sprachteilinformation in dem Texteditiersystem 43 angewandt, das dem in dem F. R. Lange et al. erteilten US-Patent Nr. 4,674,065 beschriebenen entspricht. Insbesondere bietet der Sprachteilmarkierer 41 und die Nominalphrasen-Syntaxanalyse 42 einen Ersatz für den "Sprachteil"-Teil 33 im Patent von Lange et al., um bei der Erzeugung der Editieranzeigen darin behilflich zu sein. Die meinem Verfahren der Figuren 1 und 2 innewohnende Genauigkeit sollte nützlichere Editieranzeigen als im Falle des Standes der Technik ergeben.
  • Als Alternative kann das Texteditiersystem 43 das im Computer Science Technical Report, Nr. 91 "Writing Tools - The STYLE & Diction Programs", von L. L. Cherry et al., Februar 1981, Bell Telephone Laboratories Incorporated beschriebene System Writer's Workbench sein. Meine Verfahren würden ein Ersatz für das darin mit "PARTS" bezeichnete Verfahren sein.
  • Es sollte klar sein, daß verschiedene Abänderungen meiner Erfindung durchgeführt werden können, ohne von dessen Rahmen abzuweichen.
  • Beispielsweise würde eine Weise der Realisierung der Betonungsregeln des Buches von Fudge die mittels des von Jonathan Allen et al. in dem Buch From Text to Speech: The MIT Talk Svstem, The Cambridge University Press, Cambridge (1987) und insbesondere im Kapitel 10 "The Fundamental Frequency Generator" [Der Grundfrequenzgenerator] offenbarten Algorithmus sein.
  • Weiterhin sind die lexikalischen Wahrscheinlichkeiten nicht die einzigen Wahrscheinlichkeiten, die durch Glätten verbessert werden könnten. Textabhängige Häufigkeiten scheinen ebenfalls dem Gesetz von Zipf zu folgen. Das heißt, für die Menge aller Folgen von drei Sprachteilen haben wir die Häufigkeit der Folge über seinem Rang auflogarithmischem Papier aufgezeichnet und die klassische lineare Beziehung und Steigung von beinahe -1 beobachtet. Es ist klar, daß Glättungsverfahren sehr gut auf Alternativen textabhängiger Häufigkeiten angewandt werden könnten. Dasselbe läßt sich auch für die bei der Nominalphrasen-Syntaxanalyse benutzten Vorrangswahrscheinlichkeiten sagen.
  • Die Verfahren der vorliegenden Erfindung sind auch für andere Anwendungen wie beispielsweise Spracherkennung relevant. Textabhängige Sprachteilwahrscheinlichkeiten könnten bessere Wahlmöglichkeiten für ein zu erkennendes gesprochenes Wort ermöglichen.
  • Meine Verfahren können auch direkt die beschriebene Sprachteilmarkierung in dem System für die Abfrage einer Datenbank ersetzen, das in dem am 18. August 1987 C. W. Thompson et al. erteilten US-Patent Nr. 4,688,194 offenbart ist.

Claims (6)

1. Ein automatisiertes Verfahren zur Zuweisung von Sprachteilen zu Worten in einer Nachricht, mit folgenden Schritten:
Speichern (13) von Daten in einem Rechnersystem, die für Worte relevant sind, die wahrscheinlich in der Nachricht enthalten sind, und für Anwendungen der besagten Worte als verschiedene Sprachteile, und Einsetzen von Verarbeitungsmitteln im Rechnersystem zum Auswählen (14), für jedes Wort in der Nachricht, eines wahrscheinlichen Sprachteils als Reaktion auf einen wahrscheinlichen Sprachteil für mindestens ein benachbartes Wort in der Nachricht und als Reaktion auf die besagten gespeicherten Daten, wobei das besagte Verfahren dadurch gekennzeichnet ist, daß
der Speicherschritt das Speichern von statistischen Daten in bezug auf
(1) die tatsächliche Wahrscheinlichkeit des Auftretens jedes der besagten wahrscheinlichen Worte als bestimmter Sprachteil (hiernach die lexikalische Wahrscheinlichkeit), und
(2) die tatsächlichen Wahrscheinlichkeiten des Auftretens jedes der besagten Worte als bestimmter Sprachteil, wenn sie neben Worten auftreten, die bestimmte Sprachteile sind (hiernach die textabhängige Wahrscheinlichkeit) umfaßt, und der Auswählschritt die Maximierung, für jedes Wort in der Nachricht, seiner Gesamtwahrscheinlichkeit, daß es ein bestimmter Sprachteil ist, anhand eines Optimierungsverfahrens des finiten Zustandes umfaßt, wobei das besagte Verfahren sowohl auf die gespeicherten lexikalischen Wahrscheinlichkeiten für jedes besagte Wort als auch die gespeicherten textabhängigen Wahrscheinlichkeiten für mindestens das besagte benachbarte Wort reagiert.
2 Automatisiertes Verfahren nach Anspruch 1, weiterhin mit Zuweisung von gepaarten Nominalphrasenbeginn- und -endegrenzen in der besagten Nachricht, wobei besagtes Verfahren weiterhin durch folgende Schritte gekennzeichnet ist:
Zuweisen aller möglichen Nominalphrasengrenzen, Beseitigen aller nicht gepaarten Grenzen und Optimieren von textabhängigen Nominalphrasengrenzenwahrscheinlichkeiten.
3. Automatisiertes Verfahren nach Anspruch 1, weiterhin dadurch gekennzeichnet, daß der Schritt des Speicherns von statistischen Daten das Speichern von Daten enthält, die zur Beseitigung von unwahrscheinlichen Sprachteilanwendungen geglättet worden sind, und
der Auswählschritt weiterhin die Bestimmung des Produkts der lexikalen Wahrscheinlichkeit und der textabhängigen Wahrscheinlichkeit enthält, wobei
die lexikale Wahrscheinlichkeit als der Quotient der Häufigkeit des Auftretens des Wortes als bestimmter Sprachteil, geteilt durch die Häufigkeit seines Auftretens als alle Sprachteile, geschätzt wird, und
die textabhängige Wahrscheinlichkeit durch Teilen der Trigrammhäufigkeit durch die Bigrammhäufigkeit geschätzt wird, wobei die Trigrammhäufigkeit die Häufigkeit des Auftretens des bestimmten Sprachteils in Reihenfolge mit den zwei nachfolgenden Sprachteilen, wie bereits für die zwei folgenden Worte bestimmt, ist, und die Bigrammhäufigkeit die Häufigkeit des Auftretens des bestimmten Sprachteils des nachfolgenden Wortes in Reihenfolge mit dem nächstfolgenden Sprachteil, wie bereits für das nächstfolgende Wort bestimmt, ist; und
Wiederholen des Bestimmungsschrittes für eine Anzahl möglicher Sprachteilkombinationen einschließlich des Zurückhaltens von Produkten, die vorherige Produkte für dasselbe Wort überschreiten.
4. Automatisiertes Verfahren zur Bestimmung von Beginn- und Endegrenzen von Nominalphrasen in einer Nachricht mit einer Folge von Worten, gekennzeichnet durch folgende Schritte:
Speichern von Daten in einem Rechnersystem, wobei die Daten die Wahrscheinlichkeit des Auftretens von Nominalphrasengrenzen zwischen den besagten Worten betreffen, und in Verarbeitungsmitteln im Rechnersystem, Durchführen der Schritte des Zuweisens (22) von allen möglichen Nominalphrasengrenzen, Beseitigen (23) von allen nicht paarigen Grenzen und Auwählen (24) von optimalen Wahlmöglichkeiten für die besagten Grenzen unter Benutzung von textabhängigen Nominalphrasengrenzenwahrscheinlichkeiten auf Grundlage der besagten gespeicherten Daten.
5. Automatisiertes Verfahren nach Anspruch 1 oder 4, dadurch gekennzeichnet, daß
der besagte Speicherschritt das Speichern von Informationen betreffend die gemeinsame Häufigkeit des Auftretens von Sprachteilen bei Gruppen nahegelegener Worte umfaßt,
weiterhin dadurch gekennzeichnet, daß der besagte Auswählschritt das Zuweisen von Sprachteilen in der Nachricht durch N-Grammanalyse in bezug auf die Sprachteile nahegelegener Worte umfaßt, einschließlich folgender Schritte:
Darstellen von gewissen Nichtworten als Worte mit empirisch bestimmten Häufigkeiten des Auftretens in einer nichtsprachlichen Aufzeichnung der Nachricht,
Berechnen einer optimalen normalisierten textabhängigen Wahrscheinlichkeit, daß jedes andere nahegelegene Wort in der Nachricht ein bestimmter Sprachteil im Verhältnis zu den textabhängigen Sprachteilwahrscheinlichkeiten unterschiedlicher Anwendungen der besagten Nichtworte ist, wobei die normalisierte textabhängige Wahrscheinlichkeit die Trigramm-Sprachteilwahrscheinlichkeit, geteilt durch die Bigramm-Sprachteilwahrscheinlichkeit, ist, die alle durch Beginnen am Ende eines Satzes, einschließlich von Leerstellen, bestimmt werden, umfaßt.
6. Automatisiertes Verfahren nach Anspruch 1 oder Anspruch 3, weiterhin dadurch gekennzeichnet, daß
der Speicherschritt das Speichern von statistischen Daten in bezug auf:
(1) die tatsächliche Wahrscheinlichkeit des Auftretens jedes von gewissen Zeichen, die Nichtworte wie beispielsweise Interpunktion und vor und nach Sätzen auftretende zusätzliche Leerstellen sind, (die lexikalische Wahrscheinlichkeit), und
(2) die tatsächlichen Wahrscheinlichkeiten des Auftretens jedes der besagten Zeichen, wenn sie neben Worten auftreten, die besondere Sprachteile sind, oder neben anderen Zeichen auftreten, (die textabhängige Wahrscheinlichkeit) enthält, und der Auswählschritt die Zeichen so behandelt, als wenn sie Worte wären.
DE68923981T 1988-02-05 1989-01-27 Verfahren zur Bestimmung von Textteilen und Verwendung. Expired - Fee Related DE68923981T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US07/152,740 US5146405A (en) 1988-02-05 1988-02-05 Methods for part-of-speech determination and usage

Publications (2)

Publication Number Publication Date
DE68923981D1 DE68923981D1 (de) 1995-10-05
DE68923981T2 true DE68923981T2 (de) 1996-05-15

Family

ID=22544213

Family Applications (1)

Application Number Title Priority Date Filing Date
DE68923981T Expired - Fee Related DE68923981T2 (de) 1988-02-05 1989-01-27 Verfahren zur Bestimmung von Textteilen und Verwendung.

Country Status (9)

Country Link
US (1) US5146405A (de)
EP (1) EP0327266B1 (de)
JP (1) JPH0769910B2 (de)
KR (1) KR970006402B1 (de)
AU (1) AU617749B2 (de)
CA (1) CA1301345C (de)
DE (1) DE68923981T2 (de)
ES (1) ES2076952T3 (de)
IN (1) IN175380B (de)

Families Citing this family (195)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5530863A (en) * 1989-05-19 1996-06-25 Fujitsu Limited Programming language processing system with program translation performed by term rewriting with pattern matching
US5157759A (en) * 1990-06-28 1992-10-20 At&T Bell Laboratories Written language parser system
US5418717A (en) * 1990-08-27 1995-05-23 Su; Keh-Yih Multiple score language processing system
JP2764343B2 (ja) * 1990-09-07 1998-06-11 富士通株式会社 節/句境界抽出方式
NL9100849A (nl) * 1991-05-16 1992-12-16 Oce Nederland Bv Werkwijze voor het met behulp van een computersysteem corrigeren van een fout in een, in een natuurlijke taal gestelde zin, alsmede een inrichting geschikt voor het uitvoeren van deze werkwijze.
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5475796A (en) * 1991-12-20 1995-12-12 Nec Corporation Pitch pattern generation apparatus
US5541836A (en) * 1991-12-30 1996-07-30 At&T Corp. Word disambiguation apparatus and methods
US5267345A (en) * 1992-02-10 1993-11-30 International Business Machines Corporation Speech recognition apparatus which predicts word classes from context and words from word classes
US5383120A (en) * 1992-03-02 1995-01-17 General Electric Company Method for tagging collocations in text
US5293584A (en) * 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
JPH06195373A (ja) * 1992-12-24 1994-07-15 Sharp Corp 機械翻訳装置
US5440481A (en) * 1992-10-28 1995-08-08 The United States Of America As Represented By The Secretary Of The Navy System and method for database tomography
JPH0756957A (ja) * 1993-08-03 1995-03-03 Xerox Corp ユーザへの情報提供方法
US5873056A (en) * 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
DE69427525T2 (de) * 1993-10-15 2002-04-18 At&T Corp., New York Trainingsmethode für ein tts-system, sich daraus ergebendes gerät und methode zur bedienung des gerätes
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
US5510981A (en) * 1993-10-28 1996-04-23 International Business Machines Corporation Language translation apparatus and method using context-based translation models
SE513456C2 (sv) * 1994-05-10 2000-09-18 Telia Ab Metod och anordning vid tal- till textomvandling
US5485372A (en) * 1994-06-01 1996-01-16 Mitsubishi Electric Research Laboratories, Inc. System for underlying spelling recovery
US5537317A (en) * 1994-06-01 1996-07-16 Mitsubishi Electric Research Laboratories Inc. System for correcting grammer based parts on speech probability
US5610812A (en) * 1994-06-24 1997-03-11 Mitsubishi Electric Information Technology Center America, Inc. Contextual tagger utilizing deterministic finite state transducer
US5850561A (en) * 1994-09-23 1998-12-15 Lucent Technologies Inc. Glossary construction tool
WO1996041281A1 (en) * 1995-06-07 1996-12-19 International Language Engineering Corporation Machine assisted translation tools
US5721938A (en) * 1995-06-07 1998-02-24 Stuckey; Barbara K. Method and device for parsing and analyzing natural language sentences and text
AU713208B2 (en) * 1995-06-13 1999-11-25 British Telecommunications Public Limited Company Speech synthesis
US5873660A (en) * 1995-06-19 1999-02-23 Microsoft Corporation Morphological search and replace
US5828991A (en) * 1995-06-30 1998-10-27 The Research Foundation Of The State University Of New York Sentence reconstruction using word ambiguity resolution
US5680628A (en) * 1995-07-19 1997-10-21 Inso Corporation Method and apparatus for automated search and retrieval process
US5794177A (en) * 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
US5721902A (en) * 1995-09-15 1998-02-24 Infonautics Corporation Restricted expansion of query terms using part of speech tagging
US5819260A (en) * 1996-01-22 1998-10-06 Lexis-Nexis Phrase recognition method and apparatus
SG49804A1 (en) * 1996-03-20 1998-06-15 Government Of Singapore Repres Parsing and translating natural language sentences automatically
US5999896A (en) * 1996-06-25 1999-12-07 Microsoft Corporation Method and system for identifying and resolving commonly confused words in a natural language parser
US5878386A (en) * 1996-06-28 1999-03-02 Microsoft Corporation Natural language parser with dictionary-based part-of-speech probabilities
US5802533A (en) * 1996-08-07 1998-09-01 Walker; Randall C. Text processor
US6279017B1 (en) * 1996-08-07 2001-08-21 Randall C. Walker Method and apparatus for displaying text based upon attributes found within the text
US7672829B2 (en) * 1997-03-04 2010-03-02 Hiroshi Ishikura Pivot translation method and system
WO1998039711A1 (fr) * 1997-03-04 1998-09-11 Hiroshi Ishikura Systeme d'analyse du langage et procede correspondant
CA2303312A1 (en) * 1997-09-24 1999-04-01 Guido Gallopyn Apparatus and method for distinguishing similar-sounding utterances in speech recognition
US6182028B1 (en) 1997-11-07 2001-01-30 Motorola, Inc. Method, device and system for part-of-speech disambiguation
US6260008B1 (en) * 1998-01-08 2001-07-10 Sharp Kabushiki Kaisha Method of and system for disambiguating syntactic word multiples
US6098042A (en) * 1998-01-30 2000-08-01 International Business Machines Corporation Homograph filter for speech synthesis system
GB9806085D0 (en) * 1998-03-23 1998-05-20 Xerox Corp Text summarisation using light syntactic parsing
CN1159662C (zh) 1998-05-13 2004-07-28 国际商业机器公司 连续语音识别中的标点符号自动生成装置及方法
US6167370A (en) * 1998-09-09 2000-12-26 Invention Machine Corporation Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures
US6185524B1 (en) * 1998-12-31 2001-02-06 Lernout & Hauspie Speech Products N.V. Method and apparatus for automatic identification of word boundaries in continuous text and computation of word boundary scores
CA2367320A1 (en) 1999-03-19 2000-09-28 Trados Gmbh Workflow management system
DE19942171A1 (de) * 1999-09-03 2001-03-15 Siemens Ag Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US6647395B1 (en) * 1999-11-01 2003-11-11 Kurzweil Cyberart Technologies, Inc. Poet personalities
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6615172B1 (en) 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US6665640B1 (en) 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7120574B2 (en) 2000-04-03 2006-10-10 Invention Machine Corporation Synonym extension of search queries with validation
US7962326B2 (en) * 2000-04-20 2011-06-14 Invention Machine Corporation Semantic answering system and method
US6684202B1 (en) * 2000-05-31 2004-01-27 Lexis Nexis Computer-based system and method for finding rules of law in text
US6810375B1 (en) 2000-05-31 2004-10-26 Hapax Limited Method for segmentation of text
US6941513B2 (en) 2000-06-15 2005-09-06 Cognisphere, Inc. System and method for text structuring and text generation
US6952666B1 (en) * 2000-07-20 2005-10-04 Microsoft Corporation Ranking parser for a natural language processing system
US6732098B1 (en) 2000-08-11 2004-05-04 Attensity Corporation Relational text index creation and searching
US6732097B1 (en) 2000-08-11 2004-05-04 Attensity Corporation Relational text index creation and searching
US6728707B1 (en) 2000-08-11 2004-04-27 Attensity Corporation Relational text index creation and searching
US6741988B1 (en) 2000-08-11 2004-05-25 Attensity Corporation Relational text index creation and searching
US7171349B1 (en) 2000-08-11 2007-01-30 Attensity Corporation Relational text index creation and searching
US6738765B1 (en) 2000-08-11 2004-05-18 Attensity Corporation Relational text index creation and searching
US8272873B1 (en) 2000-10-16 2012-09-25 Progressive Language, Inc. Language learning system
DE10057634C2 (de) * 2000-11-21 2003-01-30 Bosch Gmbh Robert Verfahren zur Verarbeitung von Text in einer Rechnereinheit und Rechnereinheit
US6978239B2 (en) * 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification
US7263488B2 (en) * 2000-12-04 2007-08-28 Microsoft Corporation Method and apparatus for identifying prosodic word boundaries
US6910004B2 (en) * 2000-12-19 2005-06-21 Xerox Corporation Method and computer system for part-of-speech tagging of incomplete sentences
US20020129066A1 (en) * 2000-12-28 2002-09-12 Milward David R. Computer implemented method for reformatting logically complex clauses in an electronic text-based document
US6859771B2 (en) * 2001-04-23 2005-02-22 Microsoft Corporation System and method for identifying base noun phrases
US7177792B2 (en) * 2001-05-31 2007-02-13 University Of Southern California Integer programming decoder for machine translation
US8214196B2 (en) * 2001-07-03 2012-07-03 University Of Southern California Syntax-based statistical translation model
US9009590B2 (en) * 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
JP2003242176A (ja) * 2001-12-13 2003-08-29 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
US6988063B2 (en) * 2002-02-12 2006-01-17 Sunflare Co., Ltd. System and method for accurate grammar analysis using a part-of-speech tagged (POST) parser and learners' model
AU2003269808A1 (en) 2002-03-26 2004-01-06 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US20030191645A1 (en) * 2002-04-05 2003-10-09 Guojun Zhou Statistical pronunciation model for text to speech
CA2530899C (en) 2002-06-28 2013-06-25 Conceptual Speech, Llc Multi-phoneme streamer and knowledge representation speech recognition system and method
US7567902B2 (en) * 2002-09-18 2009-07-28 Nuance Communications, Inc. Generating speech recognition grammars from a large corpus of data
US20040167887A1 (en) * 2002-12-06 2004-08-26 Attensity Corporation Integration of structured data with relational facts from free text for data mining
US10733976B2 (en) * 2003-03-01 2020-08-04 Robert E. Coifman Method and apparatus for improving the transcription accuracy of speech recognition software
US7496498B2 (en) * 2003-03-24 2009-02-24 Microsoft Corporation Front-end architecture for a multi-lingual text-to-speech system
KR100481598B1 (ko) * 2003-05-26 2005-04-08 한국전자통신연구원 복합 형태소 분석 장치 및 방법
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US8548794B2 (en) 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US7475010B2 (en) * 2003-09-03 2009-01-06 Lingospot, Inc. Adaptive and scalable method for resolving natural language ambiguities
US7813916B2 (en) 2003-11-18 2010-10-12 University Of Utah Acquisition and application of contextual role knowledge for coreference resolution
US20100262621A1 (en) * 2004-03-05 2010-10-14 Russ Ross In-context exact (ice) matching
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
WO2005089340A2 (en) * 2004-03-15 2005-09-29 University Of Southern California Training tree transducers
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US7664748B2 (en) * 2004-07-12 2010-02-16 John Eric Harrity Systems and methods for changing symbol sequences in documents
GB2417103A (en) * 2004-08-11 2006-02-15 Sdl Plc Natural language translation system
WO2006042321A2 (en) 2004-10-12 2006-04-20 University Of Southern California Training for a text-to-text application which uses string to tree conversion for training and decoding
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US7974833B2 (en) 2005-06-21 2011-07-05 Language Weaver, Inc. Weighted system of expressing language information using a compact notation
JP2007024960A (ja) 2005-07-12 2007-02-01 Internatl Business Mach Corp <Ibm> システム、プログラムおよび制御方法
US7389222B1 (en) 2005-08-02 2008-06-17 Language Weaver, Inc. Task parallelization in a text-to-text system
US7813918B2 (en) * 2005-08-03 2010-10-12 Language Weaver, Inc. Identifying documents which form translated pairs, within a document collection
JP2007058509A (ja) * 2005-08-24 2007-03-08 Toshiba Corp 言語処理システム
US8700404B1 (en) * 2005-08-27 2014-04-15 At&T Intellectual Property Ii, L.P. System and method for using semantic and syntactic graphs for utterance classification
US7624020B2 (en) * 2005-09-09 2009-11-24 Language Weaver, Inc. Adapter for allowing both online and offline training of a text to text system
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US20100280818A1 (en) * 2006-03-03 2010-11-04 Childers Stephen R Key Talk
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US7562811B2 (en) 2007-01-18 2009-07-21 Varcode Ltd. System and method for improved quality management in a product logistic chain
JP2009537038A (ja) 2006-05-07 2009-10-22 バーコード リミティド 製品ロジスティックチェーンにおける品質管理を改善するためのシステムおよび方法
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8521506B2 (en) 2006-09-21 2013-08-27 Sdl Plc Computer-implemented method, computer software and apparatus for use in a translation system
US9984071B2 (en) 2006-10-10 2018-05-29 Abbyy Production Llc Language ambiguity detection of text
US9047275B2 (en) 2006-10-10 2015-06-02 Abbyy Infopoisk Llc Methods and systems for alignment of parallel text corpora
US8195447B2 (en) 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US8214199B2 (en) * 2006-10-10 2012-07-03 Abbyy Software, Ltd. Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9645993B2 (en) 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US8548795B2 (en) * 2006-10-10 2013-10-01 Abbyy Software Ltd. Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US20080086298A1 (en) * 2006-10-10 2008-04-10 Anisimovich Konstantin Method and system for translating sentences between langauges
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
EP2122506A4 (de) * 2007-01-10 2011-11-30 Sysomos Inc Verfahren und system für informationsentdeckung und textanalyse
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8528808B2 (en) 2007-05-06 2013-09-10 Varcode Ltd. System and method for quality management utilizing barcode indicators
KR100887726B1 (ko) * 2007-05-28 2009-03-12 엔에이치엔(주) 자동 띄어쓰기 방법 및 그 시스템
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8812296B2 (en) 2007-06-27 2014-08-19 Abbyy Infopoisk Llc Method and system for natural language dictionary generation
CN105045777A (zh) * 2007-08-01 2015-11-11 金格软件有限公司 使用互联网语料库的自动的上下文相关的语言校正和增强
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
WO2009063464A2 (en) 2007-11-14 2009-05-22 Varcode Ltd. A system and method for quality management utilizing barcode indicators
US11704526B2 (en) 2008-06-10 2023-07-18 Varcode Ltd. Barcoded indicators for quality management
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
US8190423B2 (en) * 2008-09-05 2012-05-29 Trigent Software Ltd. Word sense disambiguation using emergent categories
US9262403B2 (en) 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
GB2468278A (en) * 2009-03-02 2010-09-08 Sdl Plc Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation
CN102439595A (zh) * 2009-03-13 2012-05-02 发明机器公司 基于文本文档和用户问题的语义标记的问答系统和方法
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
EP2480988A1 (de) * 2009-09-25 2012-08-01 Shady Shehata Verfahren und system zur extraktion von schlüsselsätzen aus einem natürlichen text zur suchmaschinenindizierung
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US20110161067A1 (en) * 2009-12-29 2011-06-30 Dynavox Systems, Llc System and method of using pos tagging for symbol assignment
US20110161073A1 (en) * 2009-12-29 2011-06-30 Dynavox Systems, Llc System and method of disambiguating and selecting dictionary definitions for one or more target words
WO2011092691A1 (en) * 2010-02-01 2011-08-04 Ginger Software, Inc. Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US8788260B2 (en) * 2010-05-11 2014-07-22 Microsoft Corporation Generating snippets based on content features
US9128929B2 (en) 2011-01-14 2015-09-08 Sdl Language Technologies Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
EP2546760A1 (de) 2011-07-11 2013-01-16 Accenture Global Services Limited Bereitstellung einer Benutzereingabe in Systemen zur gemeinsamen Entdeckung von Themen und Empfindungen
US8676730B2 (en) * 2011-07-11 2014-03-18 Accenture Global Services Limited Sentiment classifiers based on feature extraction
US8620837B2 (en) 2011-07-11 2013-12-31 Accenture Global Services Limited Determination of a basis for a new domain model based on a plurality of learned models
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9263059B2 (en) 2012-09-28 2016-02-16 International Business Machines Corporation Deep tagging background noises
US8807422B2 (en) 2012-10-22 2014-08-19 Varcode Ltd. Tamper-proof quality management barcode indicators
EP2915068A4 (de) 2012-11-02 2016-08-03 Fido Labs Inc System und verfahren zur verarbeitung natürlicher sprache
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9811517B2 (en) 2013-01-29 2017-11-07 Tencent Technology (Shenzhen) Company Limited Method and system of adding punctuation and establishing language model using a punctuation weighting applied to chinese speech recognized text
CN103971684B (zh) * 2013-01-29 2015-12-09 腾讯科技(深圳)有限公司 一种添加标点的方法、系统及其语言模型建立方法、装置
CN104143331B (zh) 2013-05-24 2015-12-09 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
US9311299B1 (en) * 2013-07-31 2016-04-12 Google Inc. Weakly supervised part-of-speech tagging with coupled token and type constraints
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
DE202013104836U1 (de) 2013-10-29 2014-01-30 Foseco International Limited Speiseraufbau
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
WO2015164209A1 (en) * 2014-04-25 2015-10-29 Mayo Foundation For Medical Education And Research Enhancing reading accuracy, efficiency and retention
RU2596600C2 (ru) 2014-09-02 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы обработки изображений математических выражений
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
CN107615268B (zh) * 2015-03-10 2021-08-24 非对称实验室公司 用于根据词之间的不确定性而对词间隔进行不对称格式化的系统和方法
US9703394B2 (en) * 2015-03-24 2017-07-11 Google Inc. Unlearning techniques for adaptive language models in text entry
CA2985160C (en) 2015-05-18 2023-09-05 Varcode Ltd. Thermochromic ink indicia for activatable quality labels
US10697837B2 (en) 2015-07-07 2020-06-30 Varcode Ltd. Electronic quality indicator
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US10956670B2 (en) 2018-03-03 2021-03-23 Samurai Labs Sp. Z O.O. System and method for detecting undesirable and potentially harmful online behavior
US10599767B1 (en) * 2018-05-31 2020-03-24 The Ultimate Software Group, Inc. System for providing intelligent part of speech processing of complex natural language
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
RU2721190C1 (ru) 2018-12-25 2020-05-18 Общество с ограниченной ответственностью "Аби Продакшн" Обучение нейронных сетей с использованием функций потерь, отражающих зависимости между соседними токенами
CN111353295A (zh) * 2020-02-27 2020-06-30 广东博智林机器人有限公司 序列标注方法、装置、存储介质及计算机设备
US11594213B2 (en) * 2020-03-03 2023-02-28 Rovi Guides, Inc. Systems and methods for interpreting natural language search queries

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
JPS58175074A (ja) * 1982-04-07 1983-10-14 Toshiba Corp 構文分析方式
US4674065A (en) * 1982-04-30 1987-06-16 International Business Machines Corporation System for detecting and correcting contextual errors in a text processing system
US4456973A (en) * 1982-04-30 1984-06-26 International Business Machines Corporation Automatic text grade level analyzer for a text processing system
US4688195A (en) * 1983-01-28 1987-08-18 Texas Instruments Incorporated Natural-language interface generating system
US4580218A (en) * 1983-09-08 1986-04-01 At&T Bell Laboratories Indexing subject-locating method
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
JPS6140672A (ja) * 1984-07-31 1986-02-26 Hitachi Ltd 多品詞解消処理方式

Also Published As

Publication number Publication date
EP0327266A3 (de) 1992-01-02
KR890013549A (ko) 1989-09-23
EP0327266A2 (de) 1989-08-09
JPH01224796A (ja) 1989-09-07
JPH0769910B2 (ja) 1995-07-31
DE68923981D1 (de) 1995-10-05
CA1301345C (en) 1992-05-19
ES2076952T3 (es) 1995-11-16
AU617749B2 (en) 1991-12-05
IN175380B (de) 1995-06-10
KR970006402B1 (ko) 1997-04-28
US5146405A (en) 1992-09-08
AU2899089A (en) 1989-08-10
EP0327266B1 (de) 1995-08-30

Similar Documents

Publication Publication Date Title
DE68923981T2 (de) Verfahren zur Bestimmung von Textteilen und Verwendung.
DE69617515T2 (de) Automatisches Verfahren zur Erzeugung von thematischen Zusammenfassungen
DE69623082T2 (de) Automatische Methode zur Extraktionszusammenfassung durch Gebrauch von Merkmal-Wahrscheinlichkeiten
DE69424350T2 (de) Kontextsensitive Methode zum Auffinden von Informationen über ein Wort in einem elektronischen Wörterbuch
DE69726339T2 (de) Verfahren und Apparat zur Sprachübersetzung
DE69607601T2 (de) System und verfahren zur spracherkennung mit automatischer erzeugung einer syntax
DE68913669T2 (de) Namenaussprache durch einen Synthetisator.
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE69625950T2 (de) Verfahren und Vorrichtung zur Spracherkennung und Übersetzungssystem
DE3853894T2 (de) Auf Paradigmen basierende morphologische Textanalyse für natürliche Sprachen.
DE69513369T2 (de) Verfahren und vorrichtung zur zusammenfassung statischer prozesse in eine auf regeln basierende grammatikalisch definierte natuerliche sprache
DE68928775T2 (de) Verfahren und Vorrichtung zur Herstellung einer Zusammenfassung eines Dokumentes
DE69618089T2 (de) Automatische Methode zur Erzeugung von Merkmalwahrscheinlichkeiten für automatische Extraktionszusammenfassung
EP1168298B1 (de) Verfahren zum Zusammensetzen von Ansagen zur Sprachausgabe
DE19952769B4 (de) Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache
DE69530816T2 (de) Textbearbeitungssystem und Verfahren unter Verwendung einer Wissensbasis
DE69331209T2 (de) Umformung von verwandten Wortformen für Textindexierung und Wiederauffindung mittels endlicher Automaten
DE69032750T2 (de) Maschinelles Übersetzungssystem und -verfahren
DE69829074T2 (de) Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten
DE69315374T2 (de) Spracherkennungssystem zur naturgetreuen Sprachübersetzung
DE69829389T2 (de) Textnormalisierung unter verwendung einer kontextfreien grammatik
DE3750135T2 (de) Textverarbeitungssystem und -verfahren zur Prüfung des richtigen und folgerichtigen Gebrauchs von Einheiten und chemischen Formeln in einem Textverarbeitungssystem.
DE69331044T2 (de) Vorrichtung und Verfahren zur syntaktischen Signalanalyse
WO2015113578A1 (de) Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text
DE3616751A1 (de) Uebersetzungssystem

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee