DE68923981T2 - Verfahren zur Bestimmung von Textteilen und Verwendung. - Google Patents
Verfahren zur Bestimmung von Textteilen und Verwendung.Info
- Publication number
- DE68923981T2 DE68923981T2 DE68923981T DE68923981T DE68923981T2 DE 68923981 T2 DE68923981 T2 DE 68923981T2 DE 68923981 T DE68923981 T DE 68923981T DE 68923981 T DE68923981 T DE 68923981T DE 68923981 T2 DE68923981 T2 DE 68923981T2
- Authority
- DE
- Germany
- Prior art keywords
- speech
- words
- probability
- text
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 67
- 230000008569 process Effects 0.000 title claims description 7
- 230000001419 dependent effect Effects 0.000 claims description 32
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 206010048232 Yawning Diseases 0.000 description 4
- 239000012530 fluid Substances 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 239000003550 marker Substances 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000001915 proofreading effect Effects 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/04—Speaking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
- Die vorliegende Erfindung betrifft Verfahren zur Sprachteilbestimmung und Verfahren zur Benutzung der Ergebnisse einschließlich von Zwischenverfahren der Nominalphrasenanalyse, und mit Sprachsynthese, Spracherkennung, Schreibertraining, Korrekturlesen, Indexieren und Datenabruf.
- Es wurde schon vor langer Zeit erkannt, daß die Fähigkeit der Bestimmung von Sprachteilen, besonders für Worte, die als unterschiedliche Sprachteile benutzt werden können, für viele unterschiedliche Probleme in der Anwendung der englischen Sprache relevant ist. Beispielsweise ist bekannt, daß Sprachbetonung einschließlich von Tonhöhe, Dauer und Energie von den bestimmten Sprachteilen von Worten und ihrer Satzordnung abhängig ist. Dementsprechend ist zur Sprachsynthese Sprachteilanalyse des schriftlichen oder nichtverbalen Eingabetextes notwendig, um ein wie menschliche Sprache klingendes Ergebnis zu erzeugen.
- Darüber hinaus kann die automatische Sprachteilbestimmung eine wichtige Rolle bei der automatischen Spracherkennung, in der Ausbildung und dem Trainieren von Schreibern mit computerunterstützten Verfahren, beim Redigieren und Korrekturlesen von an einer Textverarbeitungsstation erzeugten Dokumenten, bei der Indexierung eines Dokuments und bei verschiedenen Formen des Abrufs von wortabhängigen Daten aus einer Datenbank spielen.
- Beispielsweise finden sich einige dieser Anwendungen in verschiedenen Versionen von Writer's Workbench von AT&T. Man siehe den Artikel von Barbara Wallraff, "The Literate Computer" [Der gebildete Computer] in The Atlantic Monthly, Januar 1988, SS. 64 et seq., insbesondere die letzten zwei Absätze auf Seite 68. Das Verhältnis von Sprachteilen zur Indexierung findet sich in dem am 1. April 1986 C. L. Raye erteilten US-Patent Nr. 4,580,218.
- Bislang sind in der Literatur zwei Hauptverfahren der automatischen Sprachteilbestimmung besprochen und zu einem gewissen Maß eingesetzt worden. Das erste ist von verschiedenen Ad-Hoc-Regeln abhängig, mit denen bestimmte interessierende Situationen erkannt werden sollen. Diese Regeln können beispielsweise auf die Benutzung von Wortendungen zur Vorhersage von Sprachteilen oder auf irgendeine Abwandlung davon bezogen sein. Einige Ad-Hoc-Regeln für Sprachteilbestimmung sind in dem unter dem UNIX - Betriebssystem laufenden Anwendungsprogramm Writer's Workbench benutzt worden. Diese Regeln sind gewöhnlich bezüglich der von ihnen erfolgreich lösbaren Probleme sehr begrenzt und es mangelt ihnen an grundlegender Einheitlichkeit. Dieses Verfahren ist in Computer Science Technical Report, Nr. 81, "PARTS - A System for Assigning Word Classes to English Text" [PARTS - Ein System zur Zuweisung von Wortklassen zu englischem Text] von L. L. Cherry, Juni 1978, Bell Telephone Laboratories Incorporated, beschrieben. Das zweite Hauptverfahren, das potentiell eine größere grundlegende Einheitlichkeit aufweist, ist das in dem Artikel "The Automatic Tagging of the LOB Corpus" [Die automatische Markierung des LOB-Korpus], in ICAME News, Band 7, SS. 13-33, von G. Leech et al., 1983, Universität Lancaster, England, beschriebene "N-Gramm"- Verfahren. Ein Teil des dort beschriebenen Verfahrens macht den zugewiesenen Sprachteil abhängig von den gegenwärtig besten Wahlen von Sprachteilen gewisser vorhergehender oder nachfolgender Worte auf Grundlage gewisser Regeln hinsichtlich möglicher Kombinationen aufeinanderfolgender Sprachteile. Bei dieser Analyse werden auch verschiedene Ad-Hoc-Regeln benutzt, so daß insgesamt dieses Verfahren immer noch nicht so genau wie wünschenswert ist. Zusätzlich werden bei diesem Verfahren keine lexikalischen Wahrscheinlichkeiten auf systematische Weise modelliert.
- Die obigen Verfahren haben unter den Forschern der Technik aufgrund der obigen Betrachtungen und aufgrund enttäuschender Ergebnisse kein bedeutendes Interesse erweckt.
- In der Tat sind Vermutungen angestellt worden, daß jedes "N-Gramm"-Verfahren schlechte Ergebnisse zeigen wird, da mit ihm der wahrscheinliche Satzaufbau nicht genügend überblickt werden kann. Andererseits ist es nicht möglich gewesen, den einem menschlichen Gehirn möglichen Gesamtüberblick bei der Analyse der Sprachteile in einem Satz robust in einen Rechner einzuprogrammieren. Man siehe das Buch A Theory of Syntactic Recognition for Natural Language [Eine Theorie der syntaktischen Erkennung bei natürlicher Sprache] von M. Marcus, MIT Press, Cambridge, MA, 1980. Infolgedessen ist die "N- Gramm"-artige Sprachteilbestimmung im Gegensatz zur "N- Gramm"-Analyse der Häufigkeit des Auftretens von Worten größtenteils auf Aufgaben wie die Beihilfe zur Erzeugung von größeren Volumina voll "markierten" Textes zur Verwendung bei zukünftiger Forschung beschränkt gewesen. Zu diesem Zweck müssen die Ergebnisse durch Eingriff eines sehr fähigen Menschens korrigiert werden.
- Trotzdem wäre es wünschenswert, Sprachteile mit einem hohen Wahrscheinlichkeitsgrad mit relativ einfachen Verfahren wie dem "N-Gramm"-Verfahren identifizieren zu können, so daß es leicht in allen anfangs oben erwähnten Anwendungen angewandt werden kann.
- Erfindungsgemäß entspricht ein automatisiertes Verfahren zur Zuweisung von Sprachteilen zu Worten in einer Nachricht dem Anspruch 1 und ein automatisiertes Verfahren zur Bestimmung von Beginn- und Endegrenzen von Nominalphrasen in einer Nachricht dem Anspruch 4. Bevorzugte Formen der Verfahren entsprechen den abhängigen Ansprüchen.
- In einer bevorzugten Ausführungsform der Erfindung sind Sprachteile Worten in einer Nachricht durch Optimieren des Produkts von lexikalen Einzelwortwahrscheinlichkeiten und normierten textabhängigen Dreiwortwahrscheinlichkeiten zugewiesen. Bei der Normierung werden die enthaltenen textabhängigen Zweiwortwahrscheinlichkeiten benutzt. Endpunkten von Sätzen (einschließlich einer Mehrzahl von Leerstellen zwischen ihnen), Interpunktion und mit niedriger Häufigkeit auftretenden Worten werden lexikale Wahrscheinlichkeiten zugewiesen und werden sonst so behandelt, als wenn sie Worte wären, so daß in der vorbekannten N-Gramm-Sprachteilzuweisung angetroffene Unterbrechungen und die vorbekannte Anwendung von Ad-Hoc-Regeln allgemein vermieden werden. Damit wird die Allgemeingültigkeit des Verfahrens hergestellt.
- In einer Nachricht, in der den Worten vorher Sprachteile zugewiesen worden sind, werden die Nominalphrasen auf eine Weise identifiziert, die ihre Verwendung für Sprachsynthese erleichtert. Diese Nominalphrasenanalyse kann auch andere Anwendungen haben. Insbesondere ein hochprobabilistisches Verfahren, das anfangs an jedem Beginn oder Ende eines Wortes Anfänge und Enden von Nominalphrasen zuweist und nacheinander solche Zuweisungen durch Eliminieren der Zuweisungen mit der niedrigsten Wahrscheinlichkeit eliminiert, bis nur nichtkursive Zuweisungen mit sehr hoher Wahrscheinlichkeit übrigbleiben. Mit nichtrekursiven Zuweisungen ist gemeint, daß keine Nominalphrasenzuweisung, die sich teilweise oder ganz innerhalb einer anderen Nominalphrase befindet, behalten wird.
- Als Alternative können mit dem Verfahren dieses Merkmals der vorliegenden Erfindung auch einige Nominalphrasen mit hoher Wahrscheinlichkeit beibehalten werden, die ganz innerhalb anderer Nominalphrasen auftreten, da solche Zuweisungen in der Praxis, beispielsweise bei Sprachsynthese, nützlich sind.
- Einige Nominalphrasenzuweisungen, die stets eliminiert werden, sind Endungen ohne entsprechende Anfänge (zum Beispiel an einem Satzanfang) oder Anfänge ohne Endungen (zum Beispiel an einem Satzende), jedoch werden mit meinem Verfahren weiterhin Zuweisungen der Anfänge und Enden von Nominalphrasen mit niedriger Wahrscheinlichkeit elminiert oder, anders gesagt, nur die Zuweisungen mit höchster Wahrscheinlichkeit bewahrt.
- Andere Nominalphrasen mit niedriger Wahrscheinlichkeit werden dadurch eliminiert, daß jeder Satz einer Nachricht wiederholt von Anfang bis Ende abgetastet wird und bei jeder Abtastung die Wahrscheinlichkeiten für jedes Paar eines Anfangs und eines Endes multipliziert werden und dann diejenigen Kombinationen mit einem Produkt in der Nähe oder oberhalb der vorher für das Gebiet des Satzes erhaltenen höchsten Wahrscheinlichkeit, oder die zumindest nicht mit anderen Nominalphrasen hoher Wahrscheinlichkeit unvereinbar sind, behalten werden.
- Die Ausgabe des vorliegenden Sprachteilzuweisungsverfahrens kann die Eingabe in das vorliegende Nominalphrasenanalyseverfahren sein. In diesem Zusammenhang verstärken die in beiden Verfahren benutzten Optimierungsverfahren zu größter Wahrscheinlichkeit einander, da jedes Verfahren für sich selbst eine bessere Leistung als das des Standes der Technik aufweist.
- Weitere Merkmale und Vorteile der vorliegenden Erfindung werden aus der folgenden detaillierten Beschreibung im Zusammenhang mit der Zeichnung offenbar. In der Zeichnung zeigt:
- Figur 1 ein Flußdiagramm eines Sprachteilzuweisungsverfahrens nach der vorliegenden Erfindung;
- Figur 2 ein Flußdiagramm eines Nominalphrasenanalyseverfahrens nach der vorliegenden Erfindung;
- Figur 3 ein Blockschaltbild eines Sprachsynthetisierers unter Benutzung der Verfahren der Figuren 1 und 2; und
- Figur 4 ein Blockschaltbild einer Textaufbereitung unter Benutzung des Verfahrens der Figur 1.
- Im Verfahren der Figur 1 wird für Darstellungszwecke angenommen, daß die Nachricht eine Textnachricht war, die gelesen und in einer elektronischen Form gespeichert worden ist. Wie im Block 11 angedeutet, wird der erste Schritt dann das satzweise Lesen des gespeicherten Textes sein. Dieser Schritt erfordert die Bestimmung von Satzgrenzen. Dafür gibt es viele bekannte Verfahren, aber hier wird bevorzugt, die Anfangsannahme zu treffen, daß jeder Punkt einen Satz beendet, und dann diesen Satz und seine Ergebnisse zu verwerfen, wenn durch das vorliegende Verfahren nachher bewiesen wird, daß der Punkt einen wahrscheinlicheren Anwendungszweck hatte.
- Auf alle Fälle schreitet das vorliegende Verfahren fort, beginnend am Ende jeden Satz zu bearbeiten.
- Die nachfolgenden Schritte können in drei allgemeine Schritte gruppiert werden:
- Markieren der Worte mit Zeichen (Block 12);
- Berechnen der lexikalen Sprachteilwahrscheinlichkeiten (Block 13), beginnend am Satzende; und
- Optimieren der textabhängigen Sprachteilwahrscheinlichkeiten (Block 14), natürlich mit dem allgemeinen Endschritt (15) des Anwendens des Ergebnisses auf irgendeine der vielen möglichen Nutzungen von Sprachteilanalyse.
- Diese allgemeinen Schritte können, wie nunmehr erläutert wird, in viele weitere detaillierte Schritte eingeteilt werden.
- Bei der Markierung von Worten mit Zeichen führe ich an dem gewöhnlichen linguistischen Ansatz zur Sprachteilanalyse geringe, aber doch bedeutende Änderungen durch. Trotzdem benutze ich aus praktischen Gründen dieselben Bezeichnungen von Sprachteilen wie die in der "Liste der Markierungen" in dem Buch von W. Nelson Francis et al., Freguency Analvysis of English Usage [Häufigkeitsanalyse im Gebrauch des Englischen], Houghton Mifflin Co., 1982, auf Seiten 6-8 angeführten. Sie werden überall dort, wo es zum Verständnis von Beispielen beiträgt, hier wiederholt werden.
- Zu der Markierung mit Zeichen gehört die Kennzeichnung von Worten und gewissen Nichtworten wie Interpunktion und Klammern. Zusätzlich hat sich als wichtig herausgestellt, nach jedem Satzpunkt zwei Leerstellen zuzuweisen, um für solche Stellen in einem markierten Textkörper wie dem, der die Grundlage für das Buch von Francis et al. bildetete (der vorangehende Textkörper wird gewöhnlich der "Brown-Korpus" genannt), eine neue Menge von Häufigkeiten zu erzeugen. An dem Vorgang beteiligte Zeichenarten sind die eigentlichen Worte eines Satzes und die Strukturanzeiger, die den Prozeß darüber informieren, daß das Ende eines Satzes erreicht worden ist. Diese Strukturanzeiger enthalten beispielsweise einen Satzendeanzeiger wie z.B. das maschinenlesbare Zeichen für einen Punkt, einen durch ein entsprechendes im Manuskript oder der Datei zusammen mit den Textworten gespeichertes Formatierungszeichen dargestellten Kopf oder Absatzanzeiger und einen Dateiendeanzeiger.
- Etwas vorausschauend werden wir sehen, daß für jedes abschließende Wort in einem Satz seine textabhängige Wahrscheinlichkeit zusammen mit der für den Punkt und die nachfolgende Leerstelle gemessen werden wird. Diese drei bilden ein "Trigramm", und die Wahrscheinlichkeitsanalyse ist daher die Untersuchung der Frage: "Wie wahrscheinlich ist es, daß dieses Wort als ein gewisser Sprachteil einen Satz beenden kann?" In diesem Fall ist die textabhängige Wahrscheinlichkeit, den Punkt an dieser Stelle zu beobachten, sehr hoch (in der Nähe von 1,0); und die textabhängige Wahrscheinlichkeit für die Leerstelle ist 1,0. In jedem Fall sind diese Wahrscheinlichkeiten dieselben, sowohl in Zähler als auch im Nenner der normierten Wahrscheinlichkeit, so daß die resultierende textabhängige Wahrscheinlichkeit nur die gemessene Wahrscheinlichkeit dafür ist, den betroffenen Sprachteil am Ende eines Satzes zu sehen, was wiederum eine Statistik ist, die aus dem Textkörper tabelliert und in einem Festspeicher des Rechners gespeichert werden kann.
- Nach Markierung der beobachteten Worte und Zeichen, wie in Verbindung mit Block 12 erläutert, werden mit dem vorliegenden Verfahren als nächstes die lexikalen Sprachteilwahrscheinlichkeiten (die Wahrscheinlichkeit der Beobachtung des Sprachteils i bei dem gegebenen Wort j) in Abhängigkeit von der Häufigkeit des Auftretens wie folgt berechnet: Würde jeder Sinn jedes interessierenden Wortes mit einigermaßen hoher Häufigkeit im Brown-Korpus auftreten, würde diese Berechnung einfach der Quotient der beobachteten Häufigkeit des Auftretens des Wortes als bestimmter Sprachteil, geteilt durch seine Gesamthäufigkeit des Auftretens, ungeachtet des Sprachteils sein.
- Hier wird diese Berechnung für Worte oder Zeichen mit niedriger Häufigkeit des Auftretens wie folgt ersetzt: Man bedenke, daß es nach dem Gesetz von Zipf stets einen langen Schwanz von Worten, die nur wenige Male erscheinen, geben wird, egal wie viel Text wir betrachten. Im Brown-Korpus erscheinen beispielsweise 40.000 Worte fünfmal oder weniger oft. Wenn ein Wort wie yawn einmal als Substantivum und einmal als Verbum erscheint, wie hoch ist die Wahrscheinlichkeit, daß es ein Adjektiv sein kann? Ohne weitere Information ist es unmöglich, das zu sagen. Glücklicherweise kann dieses Problem in gewissem Maß durch Wörterbücher gelindert werden. Zu der Häufigkeitszählung von Möglichkeiten im Wörterbuch addieren wir eins. Beispielsweise wird yawn zufälligerweise in unserem Wörterbuch als entweder ein Substantivum oder als ein Verbum aufgeführt. Damit glätten wir die Möglichkeiten. In diesem Fall bleiben die Wahrscheinlichkeiten unverändert. Yawn wird 50% der Zeit als Substantivum und die übrige Zeit als Verbum geschätzt, sowohl vor als auch nach der Glättung. Es besteht keine Möglichkeit, daß yawn ein Adjektiv ist.
- In manchen anderen Fällen macht die Glättung einen großen Unterschied. Man betrachte das Wort cans. Dieses Wort erscheint fünfmal als Substantivum in der Mehrzahl und niemals als Verbum im Brown-Korpus. Das Lexikon (und seine morphologischen Routinen) geben glücklicherweise beide Möglichkeiten an. So lautet die revidierte Schätzung, daß cans 6/7 Mal als Substantivum in der Mehrzahl und 1/7 Mal als Verbum erscheint.
- So addieren wir "eins" zu jeder beobachteten Häufigkeit des Auftretens als jeder mögliche Sprachteil entsprechend dem Lernmaterial, einem ungekürzten Wörterbuch; und berechnen daraus die lexikalischen Wahrscheinlichkeiten.
- Um damit zu beginnen, unseren Wahrscheinlichkeitssuchbaum für dieses Wort aufzubauen, multiplizieren wir nun diese lexikalische Wahrscheinlichkeit mit der normierten geschätzten textabhängigen Wahrscheinlichkeit, d.h. der Häufigkeit der Beobachtungen des Sprachteiles X bei gegebenen nachfolgenden bereits bestimmten Sprachteilen Y und Z, geteilt durch die "Bigramm"-Häufigkeit der Beobachtungen des Sprachteils Y bei gegebenem Sprachteil Z. Die letzteren beiden Daten können von einem bereits markierten Korpus tabelliert werden, auf den von Francis et al. in ihrem Buch Bezug genommen wird. Die tabellierten Daten werden in einem Rechnerspeicher gespeichert.
- Wir schreiten damit fort, den obigen Prozeß für das betreffende Wort als jeden anderen Sprachteil, der es sein kann, zu wiederholen, und behalten nur die maximalen Wahrscheinlichkeiten aus unseren vorigen Berechnungsmengen. Ehe wir zum vorletzten Wort im Satz fortschreiten, haben wir eine maximale Produktwahrscheinlichkeit für das letzte Wort errechnet.
- Es lassen sich bereits zweierlei Dinge über den Prozeß in Betracht ziehen. Als erstes liegen die in dem Produkt benutzten lexikalischen Wahrscheinlichkeiten entlang einem Kontinuum und sind nicht nur einer von drei willkürlich zugewiesenen Werten, so wie sie in der Literaturstelle von Leech et al. benutzt werden. Zweitens ist, obwohl die Anwendungen der Mathematik für Worte, die in Wirklichkeit am Ende eines Satzes liegen, trivial zu sein scheinen, der bedeutende Punkt, daß überall dieselbe Mathematik angewandt wird.
- Zu einem vollständigeren spezifischen Beispiel fortschreitend sollte bedacht werden, daß die Wahrscheinlichkeitsschätzungen durch Lernen am markierten Brown- Korpus erhalten wurden, auf den Bezug genommen, der aber nicht in der oben erwähnten Analyse von Francis et al. erwähnt ist. Es ist ein Korpus mit annähernd einer Million Worten, wobei Sprachteilmarkierungen zugewiesen und mühsam von Hand überprüft wurden.
- Die Gesamtleistung des vorliegenden Verfahrens ist überraschend gut, wenn man in Betracht zieht, daß seine Funktionsweise streng ortsbezogen ist und daß es ihm im allgemeinen unmöglich ist, auf beide Seiten einer Nominalphrase zu schauen, um beispielsweise die Anwendungsmöglichkeit eines möglichen Hilfsverbs zu bestimmen.
- Wenn jeder Möglichkeit im Wörterbuch gleiches Gewicht zugeteilt werden muß, ist die Syntaxanalyse sehr schwierig. Im allgemeinen liegt der Brennpunkt von Wörterbüchern auf dem Möglichen und nicht auf dem Wahrscheinlichen. Man betrachte den trivialen Satz "I see a bird". In der Praxis ist jedes Wort in dem Satz unzweideutig. Nach Francis und Kucera erscheint "I" als Pronomen in 5837 von 5838 Beobachtungen (100%), "see" erscheint als Verbum in 771 von 772 Beobachtungen (100%), "a" erscheint als Artikel in 23013 von 23019 Beobachtungen (100%) und "bird" erscheint als Substantiv in 26 von 26 Beobachtungen (100%). Nach Websters Siebentem New Collegiate Dictionary ist jedoch jedes Wort zweideutig. Zusätzlich zu den gewünschten Zuweisungen von Markierungen (Sprachteilen) sind die ersten drei Worte als Substantiva und das letzte als intransitives Verbum aufgeführt. Es wäre zu hoffen, daß diese unerwünschten Zuweisungen von der Syntaxanalyse als syntaktisch schlecht gebildet ausgeschlossen werden könnten. Leider gibt es im Stand der Technik keine konsequente Art und Weise, dieses Ergebnis zu erzielen. Wenn die Syntaxanalyse Nominalphrasen der Form:
- [NP [N city] [N school][N committee][N meeting]]
- akzeptiert, dann kann sie
- [NP[N I][N see] [N a] [N bird]] nicht ausschließen, wobei "NP" für "Nominalphrase" und "N" für "Substantiv" stehen.
- Gleichermaßen muß die Syntaxanalyse wahrscheinlich auch bird als intransitives Verbum akzeptieren, da:
- [S[NP[N I][N see][N a]] [VP[V bird]]] syntaktisch nicht falsch ist, wobei "S" für "Subjekt" und "VP" für "Verbalphrase" und "V" für "Verbum" stehen.
- Diese Sprachteilzuweisungen sind nicht falsch; sie sind nur äußerst unwahrscheinlich.
- Man betrachte nochmals den Satz "I see a bird". Das Problem besteht darin, eine Zuweisung von Sprachteilen zu Worten zu finden, die sowohl die lexikalischen als auch die textabhängigen Wahrscheinlichkeiten optimiert, die beide aus dem markierten Brown-Korpus geschätzt werden. Die lexikalischen Wahrscheinlichkeiten werden aus den folgenden Häufigkeiten geschätzt (PPSS = Pronomen im Singular; NP = Eigenname; VB = Verbum; UH = Interjektion; IN = Präposition; AT = Artikel; NN = Substantiv): Wort Sprachteile I see a bird In (französisch)
- Die lexikalischen Wahrscheinlichkeiten werden auf offensichtliche Weise geschätzt. Beispielsweise wird die Wahrscheinlichkeit, daß "I" ein Pronomen ist, Wahrsch(PPSS "I") als die Häuf(PPSS "I")/Häuf("I") beziehungsweise 5837/5838 geschätzt. Die Wahrscheinlichkeit, daß "see" ein Verbum ist, wird als 771/772 geschätzt. Die anderen Schätzungen der lexikalischen Wahrscheinlichkeit folgen demselben Muster.
- Die textabhängige Wahrscheinlichkeit, die Wahrscheinlichkeit der Beobachtung des Sprachteiles X bei gegebenen folgenden zwei Sprachteilen Y und Z wird durch Teilen der Trigramm-Sprachteilhäufigkeit XYZ durch die Bigramm-Sprachteilhäufigkeit YZ geschätzt. So wird beispielsweise geschätzt, daß die Wahrscheinlichkeit der Beobachtung eines Verbums vor einem Artikel und einem Substantiv das Verhältnis der Häuf(VB, AT, NN) über der Häuf(AT, NN) beziehungsweise 3412/53091 = 0,064 ist. Die Wahrscheinlichkeit der Beobachtung eines Substantivums im selben Zusammenhang wird als Verhältnis der Häuf(NN, AT, NN) über 53091 beziehungsweise 629/53091 = 0,01 geschätzt. Die anderen Schätzungen der textabhängigen Wahrscheinlichkeit folgen demselben Muster.
- Um die Zuweisung von Sprachteilmarkierungen zu Worten zu finden, wird eine Suche durchgeführt, die das Produkt der lexikalischen und textabhängigen Wahrscheinlichkeit optimiert. Konzeptmäßig zählt die Suche alle möglichen Zuweisungen von Sprachteilen zu Eingangsworten auf. In diesem Fall gibt es vier Eingangsworte, von denen drei auf zwei Weisen zweideutig sind, wodurch eine Menge von 2*2*2*1=8 mölichen Zuweisungen von Sprachteilen zu
- Eingangsworten erzeugt wird: I see a bird
- Jede der acht Folgen wird dann durch das Produkt der lexikalischen Wahrscheinlichkeiten und der textabhängigen Wahrscheinlichkeiten gewichtet und die beste Folge wird ausgewählt. In diesem Fall ist die erste Folge bei weitem die beste.
- Es ist in der Tat nicht notwendig, alle möglichen Zuweisungen auf zuzählen, da die Bewertungsfunktion nicht mehr als zwei Worte übersehen kann. Anders gesagt, ist es in dem Vorgang der Aufzählung von Sprachteilfolgen in manchen Fällen möglich, zu wissen, daß eine Folge unmöglich mit einer anderen in den Wettbewerb treten kann und daher verworfen werden kann. Aufgrund dieser Tatsache werden nur (n) Wege aufgezählt. Diese Optimierung läßt sich mit einem Beispiel erläutern:
- Man finde alle Zuweisungen von Sprachteilen zu "bird" und bewerte die Teilfolge. Hiernach sind alle Bewertungen als logarithmische Wahrscheinlichkeiten zu deuten.
- (-4,848072 "NN")
- Man finde alle Zuweisungen von Sprachteilen zu "a" und bewerte diese. An dieser Stelle gibt es zwei Wege:
- (-7,4453945 "AT" "NN")
- (-15,01957 "IN "NN")
- Man finde nunmehr Zuweisungen von "see" und bewerte diese. An dieser Stelle scheint die Anzahl von Wegen immer noch exponentiell zu wachsen.
- (-10,1914 "VB" "AT" "NN")
- (-18,54318 "VB" "IN" "NN")
- (-29,974142 "UH" "AT" "NN")
- (-36,53299 "UH" "IN" "NN")
- Nunmehr finde man Zuweisungen von "I" und bewerte diese. Es ist zu bemerken, daß es jedoch nicht mehr notwendig ist, die Hypothese aufzustellen, daß "a" eine französische Präposition IN sein könnte, da alle vier Wege PPSS VB IN NN, NN VB IN NN, PPSS UH IN NN und NP UH IN NN weniger hoch bewertet werden als irgendein anderer Weg und irgendeine zusätzliche Eingabe die relative Bewertung keinesfalls ändern könnte. Insbesondere wird der Weg PPSS VB IN NN niedriger als der Weg PPSS VB AT NN bewertet und eine zusätzliche Eingabe wird PPSS VB IN NN nicht helfen, da die textabhängige Bewertungsfunktion ein begrenztes Fenster von drei Sprachteilen aufweist und dies nicht dazu ausreicht, an dem bestehenden PPSS und VB vorbeizusehen.
- (-12,927581 "PPSS" "VB" "AT" "NN")
- (-24,177242 "NP" "VB" "AT" "NN")
- (-35,667458 "PPSS" "UH" "AT" "NN")
- (-44,33943 "NP" "UH" "AT" "NN")
- Die Suche läuft noch zwei Iterationen weiter, mit der Annahme von leeren Sprachteilen für außerhalb des Bereichs liegende Worte.
- (-13,262333 Leerstelle "PPSS" "VB" "AT" "NN")
- (-26,5196 Leerstelle "NP" "VB" "AT" "NN")
- Abschließend ist das Ergebnis: PPSS VB AT NN.
- (-13,262333 Leerstelle Leerstelle "PPSS" "VB" "AT" "NN").
- Ein etwas interessanteres Beispiel ist: "Can they can cans".
- cans
- (-5,456845 "NNS"), wobei "NNS" für "Substantiv in der Mehrzahl" steht.
- can
- (-12,603266 "NN" "NNS")
- (-15,935471 "VB" "NNS")
- (-15,946739 "MD" "NNS"), wobei "MD" für "Modell-Hilfswort" steht.
- they
- (-18,02618 "PPSS" "MD" "NNS")
- (-18,779934 "PPSS" "VB" "NNS")
- (-21,411636 "PPSS" "NN" "NNS")
- can
- (-21,766554 "MD" "PPSS" "VB" "NNS")
- (-26,45485 "NN" "PPSS" "MD" "NNS")
- (-28,306572 "VB" "PPSS" "MD" "NNS")
- (-21,932137 Leerstelle "MD" "PPSS" "VB" "NNS")
- (-30,170452 Leerstelle "VB" "PPSS" "MD" "NNS")
- (-31,453785 Leerstelle "NN" "PPSS" "MD" "NNS")
- Und das Ergebnis ist: Can/MD they/PPSS can/VB cans/NNS
- Weitere Einzelheiten des Verfahrens - Optimierung von Wahrscheinlichkeiten - sind aus Anhang A ersichtlich.
- Mit dieser Beschreibung wird die Beschreibung der Funktionsweise bis zu der des Blocks 14 vollendet.
- Als Beispiel der im Block 15 auftretenden Nutzungen ist die Anzeige konzeptmäßig die einfachste, aber immer noch praktisch, insbesondere in einem Dialogsystem mit einem menschlichen Bediener. Ein ausführlicheres Nutzungsbeispiel wird hiernach in der Beschreibung der Figuren 3 und 4 gegeben. Als erstes ist es jedoch wünschenswert, noch ein Werkzeug zu beschreiben. Dieses Werkzeug ist die Nominalphrasen-Syntaxanalyse unter Verwendung einer Erweiterung des vorliegenden Verfahrens.
- Ähnliche stochastische Verfahren sind zur Lokalisierung einfacher Nominalphrasen mit sehr hoher Genauigkeit angewandt worden. Das vorgeschlagene Verfahren ist ein stochastisches Analog der Vorrangs-Syntaxanalyse. Man erinnere sich, daß bei Vorrangs-Syntaxanalyse eine Tabelle angewandt wird, die besagt, ob zwischen beliebigen zwei (Abschluß- oder Nichtabschluß-)Kategorien eine Klammer auf oder Klammer zu einzufügen ist. Das vorgeschlagene Verfahren bedient sich einer Tabelle, die die Wahrscheinlichkeiten einer Klammer auf und Klammer zu zwischen allen Paaren von Sprachteilen angibt. Ein Beispiel wird unten für die fünf Sprachteile: AT (Artikel), NN (Substantiv im Singular), NNS (Substantiv nicht im Singular), VB (nicht gebeugtes Verbum), IN (Präposition) gezeigt. Diese Wahrscheinlichkeiten wurden aus circa 40.000 Worten von aus dem Brown-Korpus ausgewähltem Lernmaterial geschätzt. Das Lernmaterial wurde durch aufwendige halbautomatische Mittel syntaktisch in Nominalphrasen eingeteilt. Wahrscheinlichkeit des Beginnens einer Nominalphrase zwischen ersten und zweiten Worten Zweites Wort Erstes Wort Wahrscheinlichkeit des Beendens einer Nominalphrase zwischen ersten und zweiten Worten Zweites Wort Erstes Wort
- Der stochastischen Syntaxanalyse wird eine Folge von Sprachteilen als Eingabe gegeben und sie wird aufgefordert, dem Anfang und Ende von Nominalphrasen entsprechende Klammern einzufügen. Konzeptmäßig zählt die Syntaxanalyse alle möglichen syntaktischen Aufteilungen der Eingabe auf und wertet sie jeweils nach den Vorrangswahrscheinlichkeiten. Man betrachte beispielsweise die Eingangsfolge: NN VB. Es gibt fünf mögliche Weisen, diese Folge mit Klammern zu versehen (angenommen, es gibt keine Rekursion):
- NN VB
- [NN] VB
- [NN VB]
- [NN] [VB]
- NN [VB]
- Jede dieser syntaktischen Einteilungen wird durch Multiplizieren von sechs Vorrangswahrscheinlichkeiten bewertet, der Wahrscheinlichkeit, daß eine Klammer auf/zu an irgendeiner der drei Stellen (vor dem NN, nach dem NN oder nach dem VB) erscheint (oder nicht erscheint). Die syntaktische Einteilung mit der höchsten Bewertung wird als Ausgabe zurückgeführt.
- Das Verfahren funktioniert beachtenswert gut, wenn man bedenkt, wie einfach es ist. Es besteht eine Neigung, die Anzahl der Klammern zu unterschätzen und zwei Nominalphrasen zusammen zuführen.
- Es ist zu bemerken, daß die in der Figur 2 beschriebene Nominalphrasen-Syntaxanalyse annimmt, daß die Ausgabe aus der Sprachteilzuweisung der Figur 1 ihre Eingabe ist. Sie könnte jedoch auch die Ergebnisse jedes anderen Sprachteilzuweisungsverfahrens benutzen.
- Auf alle Fälle sind im Block 22 alle möglichen Nominalphrasengrenzen zugewiesen. Im Block 23 werden nichtpaarige Grenzen beseitigt. Bei jedem Satz würden diese eine Beendigungsgrenze am Satzanfang und eine Beginngrenze am Satzende (einschließlich Leerstellen) umfassen.
- Zu der Funktion des Blocks 24 gehört das Auslegen eines Wahrscheinlichkeitsbaumes für jede in sich widerspruchsfreie Zuweisung von Nominalphrasengrenzen. Die Zuweisungen mit der höchsten Wahrscheinlichkeit werden dann für die spätere Verarbeitung, z.B. Nutzung der Ergebnisse, wie in Block 25 angedeutet, zurückgehalten.
- Wir wenden uns nunmehr einer spezifischeren Anwendung der vorliegenden Erfindung zu. Sprachteilmarkierung ist ein bedeutendes praktisches Problem mit möglichen Anwendungen in vielen Bereichen einschließlich Sprachsynthese, Spracherkennung, Buchstabierungskorrektur, Korrekturlesen, Fragenbeantwortung, Maschinenübersetzung und die Durchsuchung von großen Textdatenbänken (beispielsweise Patenten, Zeitungen). Mein besonderes Interesse liegt in Sprachsyntheseanwendungen, wobei es klar ist, daß die Aussprache manchmal von Sprachteilen abhängig ist. Man betrachte die folgenden drei Beispiele, wo die Aussprache von Sprachteilen abhängig ist.
- Als erstes gibt es Worte wie "wind", wo das Substantiv einen anderen Vokal als das Verbum hat. Das heißt, das Substantiv "wind" weist einen kurzen Vokal wie bei "The wind is strong" auf, während das Verbum "wind" einen langen wie bei "Do not forget to wind your watch" aufweist.
- Zweitens wird das Pronomen "that" wie bei "Did you see THAT?" betont, ungleich dem Ergänzungswort "that" wie bei "it is a shame that he is leaving".
- Drittens beachte man den Unterschied zwischen "oily FLUID" und "TRANSMISSION fluid"; als allgemeine Regel wird eine Adjektiv-Substantiv-Folge wie "oily FLUID" typisch rechts betont, während eine Substantiv- Substantiv-Folge wie "TRANSMISSION fluid" typisch links betont wird, wie beispielsweise von Erik Fudge in English Word Stress, George Allen & Unroin (Publishers) Ltd., London, 1984 angegeben. Dies sind nur drei der vielen Konstruktionen, die natürlicher klingen würden, wenn der Synthetisierer Zugriff auf genaue Sprachteilinformationen hätte.
- In der Figur 3 ist der Sprachteilmarkierer 31 ein das Verfahren der Figur 1 benutzender Rechner. Die Nominalphrasen-Syntaxanalyse 32 ist ein das Verfahren der Figur 2 benutzender Rechner.
- Die Ausgaben des Markierers 31 und der Syntaxanalyse 32 werden in einem Syntaxanalysator angewandt, um die Eingangssignale für den Absolutbetonungssignalgenerator 18 der Figur 1 des C.H. Coker et al. erteilten US- Patents Nr. 3,704,345 bereitzustellen.
- Als Beispiel für die besprochenen Regeln wird die Aufmerksamkeit auf Anhang 5.1 auf Seiten 144-149 des Buches von Fudge gerichtet, in dem die Regeln für Nominalphrasen aufgeführt sind.
- In anderer Hinsicht ist die Funktionsweise der Ausführungsform der Figur 3 gleich der der Ausführungsform der Figur 1 im Patent von Coker.
- Gleichermaßen funktioniert in den Ausführungsformen der Figur 4 der Sprachteilmarkierer 41 wie in Figur 1 beschrieben und die Nominalphrasen-Syntaxanalyse 42 funktioniert wie in Figur 2 beschrieben.
- In diesem Fall wird die Nominalphrasen- und Sprachteilinformation in dem Texteditiersystem 43 angewandt, das dem in dem F. R. Lange et al. erteilten US-Patent Nr. 4,674,065 beschriebenen entspricht. Insbesondere bietet der Sprachteilmarkierer 41 und die Nominalphrasen-Syntaxanalyse 42 einen Ersatz für den "Sprachteil"-Teil 33 im Patent von Lange et al., um bei der Erzeugung der Editieranzeigen darin behilflich zu sein. Die meinem Verfahren der Figuren 1 und 2 innewohnende Genauigkeit sollte nützlichere Editieranzeigen als im Falle des Standes der Technik ergeben.
- Als Alternative kann das Texteditiersystem 43 das im Computer Science Technical Report, Nr. 91 "Writing Tools - The STYLE & Diction Programs", von L. L. Cherry et al., Februar 1981, Bell Telephone Laboratories Incorporated beschriebene System Writer's Workbench sein. Meine Verfahren würden ein Ersatz für das darin mit "PARTS" bezeichnete Verfahren sein.
- Es sollte klar sein, daß verschiedene Abänderungen meiner Erfindung durchgeführt werden können, ohne von dessen Rahmen abzuweichen.
- Beispielsweise würde eine Weise der Realisierung der Betonungsregeln des Buches von Fudge die mittels des von Jonathan Allen et al. in dem Buch From Text to Speech: The MIT Talk Svstem, The Cambridge University Press, Cambridge (1987) und insbesondere im Kapitel 10 "The Fundamental Frequency Generator" [Der Grundfrequenzgenerator] offenbarten Algorithmus sein.
- Weiterhin sind die lexikalischen Wahrscheinlichkeiten nicht die einzigen Wahrscheinlichkeiten, die durch Glätten verbessert werden könnten. Textabhängige Häufigkeiten scheinen ebenfalls dem Gesetz von Zipf zu folgen. Das heißt, für die Menge aller Folgen von drei Sprachteilen haben wir die Häufigkeit der Folge über seinem Rang auflogarithmischem Papier aufgezeichnet und die klassische lineare Beziehung und Steigung von beinahe -1 beobachtet. Es ist klar, daß Glättungsverfahren sehr gut auf Alternativen textabhängiger Häufigkeiten angewandt werden könnten. Dasselbe läßt sich auch für die bei der Nominalphrasen-Syntaxanalyse benutzten Vorrangswahrscheinlichkeiten sagen.
- Die Verfahren der vorliegenden Erfindung sind auch für andere Anwendungen wie beispielsweise Spracherkennung relevant. Textabhängige Sprachteilwahrscheinlichkeiten könnten bessere Wahlmöglichkeiten für ein zu erkennendes gesprochenes Wort ermöglichen.
- Meine Verfahren können auch direkt die beschriebene Sprachteilmarkierung in dem System für die Abfrage einer Datenbank ersetzen, das in dem am 18. August 1987 C. W. Thompson et al. erteilten US-Patent Nr. 4,688,194 offenbart ist.
Claims (6)
1. Ein automatisiertes Verfahren zur Zuweisung von
Sprachteilen zu Worten in einer Nachricht, mit folgenden
Schritten:
Speichern (13) von Daten in einem Rechnersystem,
die für Worte relevant sind, die wahrscheinlich in der
Nachricht enthalten sind, und für Anwendungen der
besagten Worte als verschiedene Sprachteile, und
Einsetzen von Verarbeitungsmitteln im Rechnersystem zum
Auswählen (14), für jedes Wort in der Nachricht, eines
wahrscheinlichen Sprachteils als Reaktion auf einen
wahrscheinlichen Sprachteil für mindestens ein
benachbartes Wort in der Nachricht und als Reaktion auf
die besagten gespeicherten Daten, wobei das besagte
Verfahren dadurch gekennzeichnet ist, daß
der Speicherschritt das Speichern von
statistischen Daten in bezug auf
(1) die tatsächliche Wahrscheinlichkeit des
Auftretens jedes der besagten wahrscheinlichen Worte als
bestimmter Sprachteil (hiernach die lexikalische
Wahrscheinlichkeit), und
(2) die tatsächlichen Wahrscheinlichkeiten des
Auftretens jedes der besagten Worte als bestimmter
Sprachteil, wenn sie neben Worten auftreten, die
bestimmte Sprachteile sind (hiernach die textabhängige
Wahrscheinlichkeit) umfaßt, und der Auswählschritt die
Maximierung, für jedes Wort in der Nachricht, seiner
Gesamtwahrscheinlichkeit, daß es ein bestimmter
Sprachteil ist, anhand eines Optimierungsverfahrens des finiten
Zustandes umfaßt, wobei das besagte Verfahren sowohl auf
die gespeicherten lexikalischen Wahrscheinlichkeiten für
jedes besagte Wort als auch die gespeicherten
textabhängigen Wahrscheinlichkeiten für mindestens das besagte
benachbarte Wort reagiert.
2 Automatisiertes Verfahren nach Anspruch 1,
weiterhin mit Zuweisung von gepaarten
Nominalphrasenbeginn- und -endegrenzen in der besagten Nachricht, wobei
besagtes Verfahren weiterhin durch folgende Schritte
gekennzeichnet ist:
Zuweisen aller möglichen Nominalphrasengrenzen,
Beseitigen aller nicht gepaarten Grenzen und Optimieren
von textabhängigen
Nominalphrasengrenzenwahrscheinlichkeiten.
3. Automatisiertes Verfahren nach Anspruch 1,
weiterhin dadurch gekennzeichnet, daß der Schritt des
Speicherns von statistischen Daten das Speichern von
Daten enthält, die zur Beseitigung von unwahrscheinlichen
Sprachteilanwendungen geglättet worden sind, und
der Auswählschritt weiterhin die Bestimmung des
Produkts der lexikalen Wahrscheinlichkeit und der
textabhängigen Wahrscheinlichkeit enthält, wobei
die lexikale Wahrscheinlichkeit als der Quotient
der Häufigkeit des Auftretens des Wortes als bestimmter
Sprachteil, geteilt durch die Häufigkeit seines
Auftretens als alle Sprachteile, geschätzt wird, und
die textabhängige Wahrscheinlichkeit durch Teilen
der Trigrammhäufigkeit durch die Bigrammhäufigkeit
geschätzt wird, wobei die Trigrammhäufigkeit die
Häufigkeit des Auftretens des bestimmten Sprachteils in
Reihenfolge mit den zwei nachfolgenden Sprachteilen, wie
bereits für die zwei folgenden Worte bestimmt, ist, und
die Bigrammhäufigkeit die Häufigkeit des Auftretens des
bestimmten Sprachteils des nachfolgenden Wortes in
Reihenfolge mit dem nächstfolgenden Sprachteil, wie
bereits für das nächstfolgende Wort bestimmt, ist; und
Wiederholen des Bestimmungsschrittes für eine
Anzahl möglicher Sprachteilkombinationen einschließlich
des Zurückhaltens von Produkten, die vorherige Produkte
für dasselbe Wort überschreiten.
4. Automatisiertes Verfahren zur Bestimmung von
Beginn- und Endegrenzen von Nominalphrasen in einer
Nachricht mit einer Folge von Worten, gekennzeichnet
durch folgende Schritte:
Speichern von Daten in einem Rechnersystem, wobei
die Daten die Wahrscheinlichkeit des Auftretens von
Nominalphrasengrenzen zwischen den besagten Worten
betreffen, und in Verarbeitungsmitteln im Rechnersystem,
Durchführen der Schritte des Zuweisens (22) von allen
möglichen Nominalphrasengrenzen, Beseitigen (23) von
allen nicht paarigen Grenzen und Auwählen (24) von
optimalen Wahlmöglichkeiten für die besagten Grenzen
unter Benutzung von textabhängigen
Nominalphrasengrenzenwahrscheinlichkeiten auf Grundlage der besagten
gespeicherten Daten.
5. Automatisiertes Verfahren nach Anspruch 1 oder 4,
dadurch gekennzeichnet, daß
der besagte Speicherschritt das Speichern von
Informationen betreffend die gemeinsame Häufigkeit des
Auftretens von Sprachteilen bei Gruppen nahegelegener
Worte umfaßt,
weiterhin dadurch gekennzeichnet, daß der besagte
Auswählschritt das Zuweisen von Sprachteilen in der
Nachricht durch N-Grammanalyse in bezug auf die
Sprachteile nahegelegener Worte umfaßt, einschließlich
folgender Schritte:
Darstellen von gewissen Nichtworten als Worte mit
empirisch bestimmten Häufigkeiten des Auftretens in einer
nichtsprachlichen Aufzeichnung der Nachricht,
Berechnen einer optimalen normalisierten
textabhängigen Wahrscheinlichkeit, daß jedes andere
nahegelegene Wort in der Nachricht ein bestimmter
Sprachteil im Verhältnis zu den textabhängigen
Sprachteilwahrscheinlichkeiten unterschiedlicher Anwendungen der
besagten Nichtworte ist, wobei die normalisierte
textabhängige Wahrscheinlichkeit die
Trigramm-Sprachteilwahrscheinlichkeit, geteilt durch die
Bigramm-Sprachteilwahrscheinlichkeit, ist, die alle durch Beginnen am Ende
eines Satzes, einschließlich von Leerstellen, bestimmt
werden, umfaßt.
6. Automatisiertes Verfahren nach Anspruch 1 oder
Anspruch 3, weiterhin dadurch gekennzeichnet, daß
der Speicherschritt das Speichern von
statistischen Daten in bezug auf:
(1) die tatsächliche Wahrscheinlichkeit des
Auftretens jedes von gewissen Zeichen, die Nichtworte wie
beispielsweise Interpunktion und vor und nach Sätzen
auftretende zusätzliche Leerstellen sind, (die
lexikalische Wahrscheinlichkeit), und
(2) die tatsächlichen Wahrscheinlichkeiten des
Auftretens jedes der besagten Zeichen, wenn sie neben
Worten auftreten, die besondere Sprachteile sind, oder
neben anderen Zeichen auftreten, (die textabhängige
Wahrscheinlichkeit) enthält, und der Auswählschritt die
Zeichen so behandelt, als wenn sie Worte wären.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/152,740 US5146405A (en) | 1988-02-05 | 1988-02-05 | Methods for part-of-speech determination and usage |
Publications (2)
Publication Number | Publication Date |
---|---|
DE68923981D1 DE68923981D1 (de) | 1995-10-05 |
DE68923981T2 true DE68923981T2 (de) | 1996-05-15 |
Family
ID=22544213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE68923981T Expired - Fee Related DE68923981T2 (de) | 1988-02-05 | 1989-01-27 | Verfahren zur Bestimmung von Textteilen und Verwendung. |
Country Status (9)
Country | Link |
---|---|
US (1) | US5146405A (de) |
EP (1) | EP0327266B1 (de) |
JP (1) | JPH0769910B2 (de) |
KR (1) | KR970006402B1 (de) |
AU (1) | AU617749B2 (de) |
CA (1) | CA1301345C (de) |
DE (1) | DE68923981T2 (de) |
ES (1) | ES2076952T3 (de) |
IN (1) | IN175380B (de) |
Families Citing this family (195)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5530863A (en) * | 1989-05-19 | 1996-06-25 | Fujitsu Limited | Programming language processing system with program translation performed by term rewriting with pattern matching |
US5157759A (en) * | 1990-06-28 | 1992-10-20 | At&T Bell Laboratories | Written language parser system |
US5418717A (en) * | 1990-08-27 | 1995-05-23 | Su; Keh-Yih | Multiple score language processing system |
JP2764343B2 (ja) * | 1990-09-07 | 1998-06-11 | 富士通株式会社 | 節/句境界抽出方式 |
NL9100849A (nl) * | 1991-05-16 | 1992-12-16 | Oce Nederland Bv | Werkwijze voor het met behulp van een computersysteem corrigeren van een fout in een, in een natuurlijke taal gestelde zin, alsmede een inrichting geschikt voor het uitvoeren van deze werkwijze. |
US5477451A (en) * | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
US5475796A (en) * | 1991-12-20 | 1995-12-12 | Nec Corporation | Pitch pattern generation apparatus |
US5541836A (en) * | 1991-12-30 | 1996-07-30 | At&T Corp. | Word disambiguation apparatus and methods |
US5267345A (en) * | 1992-02-10 | 1993-11-30 | International Business Machines Corporation | Speech recognition apparatus which predicts word classes from context and words from word classes |
US5383120A (en) * | 1992-03-02 | 1995-01-17 | General Electric Company | Method for tagging collocations in text |
US5293584A (en) * | 1992-05-21 | 1994-03-08 | International Business Machines Corporation | Speech recognition system for natural language translation |
JPH06195373A (ja) * | 1992-12-24 | 1994-07-15 | Sharp Corp | 機械翻訳装置 |
US5440481A (en) * | 1992-10-28 | 1995-08-08 | The United States Of America As Represented By The Secretary Of The Navy | System and method for database tomography |
JPH0756957A (ja) * | 1993-08-03 | 1995-03-03 | Xerox Corp | ユーザへの情報提供方法 |
US5873056A (en) * | 1993-10-12 | 1999-02-16 | The Syracuse University | Natural language processing system for semantic vector representation which accounts for lexical ambiguity |
DE69427525T2 (de) * | 1993-10-15 | 2002-04-18 | At&T Corp., New York | Trainingsmethode für ein tts-system, sich daraus ergebendes gerät und methode zur bedienung des gerätes |
JP2986345B2 (ja) * | 1993-10-18 | 1999-12-06 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声記録指標化装置及び方法 |
US5510981A (en) * | 1993-10-28 | 1996-04-23 | International Business Machines Corporation | Language translation apparatus and method using context-based translation models |
SE513456C2 (sv) * | 1994-05-10 | 2000-09-18 | Telia Ab | Metod och anordning vid tal- till textomvandling |
US5485372A (en) * | 1994-06-01 | 1996-01-16 | Mitsubishi Electric Research Laboratories, Inc. | System for underlying spelling recovery |
US5537317A (en) * | 1994-06-01 | 1996-07-16 | Mitsubishi Electric Research Laboratories Inc. | System for correcting grammer based parts on speech probability |
US5610812A (en) * | 1994-06-24 | 1997-03-11 | Mitsubishi Electric Information Technology Center America, Inc. | Contextual tagger utilizing deterministic finite state transducer |
US5850561A (en) * | 1994-09-23 | 1998-12-15 | Lucent Technologies Inc. | Glossary construction tool |
WO1996041281A1 (en) * | 1995-06-07 | 1996-12-19 | International Language Engineering Corporation | Machine assisted translation tools |
US5721938A (en) * | 1995-06-07 | 1998-02-24 | Stuckey; Barbara K. | Method and device for parsing and analyzing natural language sentences and text |
AU713208B2 (en) * | 1995-06-13 | 1999-11-25 | British Telecommunications Public Limited Company | Speech synthesis |
US5873660A (en) * | 1995-06-19 | 1999-02-23 | Microsoft Corporation | Morphological search and replace |
US5828991A (en) * | 1995-06-30 | 1998-10-27 | The Research Foundation Of The State University Of New York | Sentence reconstruction using word ambiguity resolution |
US5680628A (en) * | 1995-07-19 | 1997-10-21 | Inso Corporation | Method and apparatus for automated search and retrieval process |
US5794177A (en) * | 1995-07-19 | 1998-08-11 | Inso Corporation | Method and apparatus for morphological analysis and generation of natural language text |
US5721902A (en) * | 1995-09-15 | 1998-02-24 | Infonautics Corporation | Restricted expansion of query terms using part of speech tagging |
US5819260A (en) * | 1996-01-22 | 1998-10-06 | Lexis-Nexis | Phrase recognition method and apparatus |
SG49804A1 (en) * | 1996-03-20 | 1998-06-15 | Government Of Singapore Repres | Parsing and translating natural language sentences automatically |
US5999896A (en) * | 1996-06-25 | 1999-12-07 | Microsoft Corporation | Method and system for identifying and resolving commonly confused words in a natural language parser |
US5878386A (en) * | 1996-06-28 | 1999-03-02 | Microsoft Corporation | Natural language parser with dictionary-based part-of-speech probabilities |
US5802533A (en) * | 1996-08-07 | 1998-09-01 | Walker; Randall C. | Text processor |
US6279017B1 (en) * | 1996-08-07 | 2001-08-21 | Randall C. Walker | Method and apparatus for displaying text based upon attributes found within the text |
US7672829B2 (en) * | 1997-03-04 | 2010-03-02 | Hiroshi Ishikura | Pivot translation method and system |
WO1998039711A1 (fr) * | 1997-03-04 | 1998-09-11 | Hiroshi Ishikura | Systeme d'analyse du langage et procede correspondant |
CA2303312A1 (en) * | 1997-09-24 | 1999-04-01 | Guido Gallopyn | Apparatus and method for distinguishing similar-sounding utterances in speech recognition |
US6182028B1 (en) | 1997-11-07 | 2001-01-30 | Motorola, Inc. | Method, device and system for part-of-speech disambiguation |
US6260008B1 (en) * | 1998-01-08 | 2001-07-10 | Sharp Kabushiki Kaisha | Method of and system for disambiguating syntactic word multiples |
US6098042A (en) * | 1998-01-30 | 2000-08-01 | International Business Machines Corporation | Homograph filter for speech synthesis system |
GB9806085D0 (en) * | 1998-03-23 | 1998-05-20 | Xerox Corp | Text summarisation using light syntactic parsing |
CN1159662C (zh) | 1998-05-13 | 2004-07-28 | 国际商业机器公司 | 连续语音识别中的标点符号自动生成装置及方法 |
US6167370A (en) * | 1998-09-09 | 2000-12-26 | Invention Machine Corporation | Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures |
US6185524B1 (en) * | 1998-12-31 | 2001-02-06 | Lernout & Hauspie Speech Products N.V. | Method and apparatus for automatic identification of word boundaries in continuous text and computation of word boundary scores |
CA2367320A1 (en) | 1999-03-19 | 2000-09-28 | Trados Gmbh | Workflow management system |
DE19942171A1 (de) * | 1999-09-03 | 2001-03-15 | Siemens Ag | Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung |
US20060116865A1 (en) | 1999-09-17 | 2006-06-01 | Www.Uniscape.Com | E-services translation utilizing machine translation and translation memory |
US6647395B1 (en) * | 1999-11-01 | 2003-11-11 | Kurzweil Cyberart Technologies, Inc. | Poet personalities |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US7050977B1 (en) * | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6615172B1 (en) | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
US6665640B1 (en) | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7120574B2 (en) | 2000-04-03 | 2006-10-10 | Invention Machine Corporation | Synonym extension of search queries with validation |
US7962326B2 (en) * | 2000-04-20 | 2011-06-14 | Invention Machine Corporation | Semantic answering system and method |
US6684202B1 (en) * | 2000-05-31 | 2004-01-27 | Lexis Nexis | Computer-based system and method for finding rules of law in text |
US6810375B1 (en) | 2000-05-31 | 2004-10-26 | Hapax Limited | Method for segmentation of text |
US6941513B2 (en) | 2000-06-15 | 2005-09-06 | Cognisphere, Inc. | System and method for text structuring and text generation |
US6952666B1 (en) * | 2000-07-20 | 2005-10-04 | Microsoft Corporation | Ranking parser for a natural language processing system |
US6732098B1 (en) | 2000-08-11 | 2004-05-04 | Attensity Corporation | Relational text index creation and searching |
US6732097B1 (en) | 2000-08-11 | 2004-05-04 | Attensity Corporation | Relational text index creation and searching |
US6728707B1 (en) | 2000-08-11 | 2004-04-27 | Attensity Corporation | Relational text index creation and searching |
US6741988B1 (en) | 2000-08-11 | 2004-05-25 | Attensity Corporation | Relational text index creation and searching |
US7171349B1 (en) | 2000-08-11 | 2007-01-30 | Attensity Corporation | Relational text index creation and searching |
US6738765B1 (en) | 2000-08-11 | 2004-05-18 | Attensity Corporation | Relational text index creation and searching |
US8272873B1 (en) | 2000-10-16 | 2012-09-25 | Progressive Language, Inc. | Language learning system |
DE10057634C2 (de) * | 2000-11-21 | 2003-01-30 | Bosch Gmbh Robert | Verfahren zur Verarbeitung von Text in einer Rechnereinheit und Rechnereinheit |
US6978239B2 (en) * | 2000-12-04 | 2005-12-20 | Microsoft Corporation | Method and apparatus for speech synthesis without prosody modification |
US7263488B2 (en) * | 2000-12-04 | 2007-08-28 | Microsoft Corporation | Method and apparatus for identifying prosodic word boundaries |
US6910004B2 (en) * | 2000-12-19 | 2005-06-21 | Xerox Corporation | Method and computer system for part-of-speech tagging of incomplete sentences |
US20020129066A1 (en) * | 2000-12-28 | 2002-09-12 | Milward David R. | Computer implemented method for reformatting logically complex clauses in an electronic text-based document |
US6859771B2 (en) * | 2001-04-23 | 2005-02-22 | Microsoft Corporation | System and method for identifying base noun phrases |
US7177792B2 (en) * | 2001-05-31 | 2007-02-13 | University Of Southern California | Integer programming decoder for machine translation |
US8214196B2 (en) * | 2001-07-03 | 2012-07-03 | University Of Southern California | Syntax-based statistical translation model |
US9009590B2 (en) * | 2001-07-31 | 2015-04-14 | Invention Machines Corporation | Semantic processor for recognition of cause-effect relations in natural language documents |
JP2003242176A (ja) * | 2001-12-13 | 2003-08-29 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
US6988063B2 (en) * | 2002-02-12 | 2006-01-17 | Sunflare Co., Ltd. | System and method for accurate grammar analysis using a part-of-speech tagged (POST) parser and learners' model |
AU2003269808A1 (en) | 2002-03-26 | 2004-01-06 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
US20030191645A1 (en) * | 2002-04-05 | 2003-10-09 | Guojun Zhou | Statistical pronunciation model for text to speech |
CA2530899C (en) | 2002-06-28 | 2013-06-25 | Conceptual Speech, Llc | Multi-phoneme streamer and knowledge representation speech recognition system and method |
US7567902B2 (en) * | 2002-09-18 | 2009-07-28 | Nuance Communications, Inc. | Generating speech recognition grammars from a large corpus of data |
US20040167887A1 (en) * | 2002-12-06 | 2004-08-26 | Attensity Corporation | Integration of structured data with relational facts from free text for data mining |
US10733976B2 (en) * | 2003-03-01 | 2020-08-04 | Robert E. Coifman | Method and apparatus for improving the transcription accuracy of speech recognition software |
US7496498B2 (en) * | 2003-03-24 | 2009-02-24 | Microsoft Corporation | Front-end architecture for a multi-lingual text-to-speech system |
KR100481598B1 (ko) * | 2003-05-26 | 2005-04-08 | 한국전자통신연구원 | 복합 형태소 분석 장치 및 방법 |
US7711545B2 (en) * | 2003-07-02 | 2010-05-04 | Language Weaver, Inc. | Empirical methods for splitting compound words with application to machine translation |
US8548794B2 (en) | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US7475010B2 (en) * | 2003-09-03 | 2009-01-06 | Lingospot, Inc. | Adaptive and scalable method for resolving natural language ambiguities |
US7813916B2 (en) | 2003-11-18 | 2010-10-12 | University Of Utah | Acquisition and application of contextual role knowledge for coreference resolution |
US20100262621A1 (en) * | 2004-03-05 | 2010-10-14 | Russ Ross | In-context exact (ice) matching |
US7983896B2 (en) | 2004-03-05 | 2011-07-19 | SDL Language Technology | In-context exact (ICE) matching |
WO2005089340A2 (en) * | 2004-03-15 | 2005-09-29 | University Of Southern California | Training tree transducers |
US8296127B2 (en) * | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US8666725B2 (en) | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
US7664748B2 (en) * | 2004-07-12 | 2010-02-16 | John Eric Harrity | Systems and methods for changing symbol sequences in documents |
GB2417103A (en) * | 2004-08-11 | 2006-02-15 | Sdl Plc | Natural language translation system |
WO2006042321A2 (en) | 2004-10-12 | 2006-04-20 | University Of Southern California | Training for a text-to-text application which uses string to tree conversion for training and decoding |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US7974833B2 (en) | 2005-06-21 | 2011-07-05 | Language Weaver, Inc. | Weighted system of expressing language information using a compact notation |
JP2007024960A (ja) | 2005-07-12 | 2007-02-01 | Internatl Business Mach Corp <Ibm> | システム、プログラムおよび制御方法 |
US7389222B1 (en) | 2005-08-02 | 2008-06-17 | Language Weaver, Inc. | Task parallelization in a text-to-text system |
US7813918B2 (en) * | 2005-08-03 | 2010-10-12 | Language Weaver, Inc. | Identifying documents which form translated pairs, within a document collection |
JP2007058509A (ja) * | 2005-08-24 | 2007-03-08 | Toshiba Corp | 言語処理システム |
US8700404B1 (en) * | 2005-08-27 | 2014-04-15 | At&T Intellectual Property Ii, L.P. | System and method for using semantic and syntactic graphs for utterance classification |
US7624020B2 (en) * | 2005-09-09 | 2009-11-24 | Language Weaver, Inc. | Adapter for allowing both online and offline training of a text to text system |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US20100280818A1 (en) * | 2006-03-03 | 2010-11-04 | Childers Stephen R | Key Talk |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US7562811B2 (en) | 2007-01-18 | 2009-07-21 | Varcode Ltd. | System and method for improved quality management in a product logistic chain |
JP2009537038A (ja) | 2006-05-07 | 2009-10-22 | バーコード リミティド | 製品ロジスティックチェーンにおける品質管理を改善するためのシステムおよび方法 |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US8521506B2 (en) | 2006-09-21 | 2013-08-27 | Sdl Plc | Computer-implemented method, computer software and apparatus for use in a translation system |
US9984071B2 (en) | 2006-10-10 | 2018-05-29 | Abbyy Production Llc | Language ambiguity detection of text |
US9047275B2 (en) | 2006-10-10 | 2015-06-02 | Abbyy Infopoisk Llc | Methods and systems for alignment of parallel text corpora |
US8195447B2 (en) | 2006-10-10 | 2012-06-05 | Abbyy Software Ltd. | Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
US8214199B2 (en) * | 2006-10-10 | 2012-07-03 | Abbyy Software, Ltd. | Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
US9645993B2 (en) | 2006-10-10 | 2017-05-09 | Abbyy Infopoisk Llc | Method and system for semantic searching |
US8145473B2 (en) | 2006-10-10 | 2012-03-27 | Abbyy Software Ltd. | Deep model statistics method for machine translation |
US9633005B2 (en) | 2006-10-10 | 2017-04-25 | Abbyy Infopoisk Llc | Exhaustive automatic processing of textual information |
US9235573B2 (en) | 2006-10-10 | 2016-01-12 | Abbyy Infopoisk Llc | Universal difference measure |
US8548795B2 (en) * | 2006-10-10 | 2013-10-01 | Abbyy Software Ltd. | Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system |
US20080086298A1 (en) * | 2006-10-10 | 2008-04-10 | Anisimovich Konstantin | Method and system for translating sentences between langauges |
US8433556B2 (en) | 2006-11-02 | 2013-04-30 | University Of Southern California | Semi-supervised training for statistical word alignment |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
EP2122506A4 (de) * | 2007-01-10 | 2011-11-30 | Sysomos Inc | Verfahren und system für informationsentdeckung und textanalyse |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
US8959011B2 (en) | 2007-03-22 | 2015-02-17 | Abbyy Infopoisk Llc | Indicating and correcting errors in machine translation systems |
US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
US8528808B2 (en) | 2007-05-06 | 2013-09-10 | Varcode Ltd. | System and method for quality management utilizing barcode indicators |
KR100887726B1 (ko) * | 2007-05-28 | 2009-03-12 | 엔에이치엔(주) | 자동 띄어쓰기 방법 및 그 시스템 |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
US8812296B2 (en) | 2007-06-27 | 2014-08-19 | Abbyy Infopoisk Llc | Method and system for natural language dictionary generation |
CN105045777A (zh) * | 2007-08-01 | 2015-11-11 | 金格软件有限公司 | 使用互联网语料库的自动的上下文相关的语言校正和增强 |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
WO2009063464A2 (en) | 2007-11-14 | 2009-05-22 | Varcode Ltd. | A system and method for quality management utilizing barcode indicators |
US11704526B2 (en) | 2008-06-10 | 2023-07-18 | Varcode Ltd. | Barcoded indicators for quality management |
US9262409B2 (en) | 2008-08-06 | 2016-02-16 | Abbyy Infopoisk Llc | Translation of a selected text fragment of a screen |
US8190423B2 (en) * | 2008-09-05 | 2012-05-29 | Trigent Software Ltd. | Word sense disambiguation using emergent categories |
US9262403B2 (en) | 2009-03-02 | 2016-02-16 | Sdl Plc | Dynamic generation of auto-suggest dictionary for natural language translation |
GB2468278A (en) * | 2009-03-02 | 2010-09-08 | Sdl Plc | Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation |
CN102439595A (zh) * | 2009-03-13 | 2012-05-02 | 发明机器公司 | 基于文本文档和用户问题的语义标记的问答系统和方法 |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
EP2480988A1 (de) * | 2009-09-25 | 2012-08-01 | Shady Shehata | Verfahren und system zur extraktion von schlüsselsätzen aus einem natürlichen text zur suchmaschinenindizierung |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
US20110161067A1 (en) * | 2009-12-29 | 2011-06-30 | Dynavox Systems, Llc | System and method of using pos tagging for symbol assignment |
US20110161073A1 (en) * | 2009-12-29 | 2011-06-30 | Dynavox Systems, Llc | System and method of disambiguating and selecting dictionary definitions for one or more target words |
WO2011092691A1 (en) * | 2010-02-01 | 2011-08-04 | Ginger Software, Inc. | Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US8788260B2 (en) * | 2010-05-11 | 2014-07-22 | Microsoft Corporation | Generating snippets based on content features |
US9128929B2 (en) | 2011-01-14 | 2015-09-08 | Sdl Language Technologies | Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
EP2546760A1 (de) | 2011-07-11 | 2013-01-16 | Accenture Global Services Limited | Bereitstellung einer Benutzereingabe in Systemen zur gemeinsamen Entdeckung von Themen und Empfindungen |
US8676730B2 (en) * | 2011-07-11 | 2014-03-18 | Accenture Global Services Limited | Sentiment classifiers based on feature extraction |
US8620837B2 (en) | 2011-07-11 | 2013-12-31 | Accenture Global Services Limited | Determination of a basis for a new domain model based on a plurality of learned models |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US8971630B2 (en) | 2012-04-27 | 2015-03-03 | Abbyy Development Llc | Fast CJK character recognition |
US8989485B2 (en) | 2012-04-27 | 2015-03-24 | Abbyy Development Llc | Detecting a junction in a text line of CJK characters |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9263059B2 (en) | 2012-09-28 | 2016-02-16 | International Business Machines Corporation | Deep tagging background noises |
US8807422B2 (en) | 2012-10-22 | 2014-08-19 | Varcode Ltd. | Tamper-proof quality management barcode indicators |
EP2915068A4 (de) | 2012-11-02 | 2016-08-03 | Fido Labs Inc | System und verfahren zur verarbeitung natürlicher sprache |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
US9811517B2 (en) | 2013-01-29 | 2017-11-07 | Tencent Technology (Shenzhen) Company Limited | Method and system of adding punctuation and establishing language model using a punctuation weighting applied to chinese speech recognized text |
CN103971684B (zh) * | 2013-01-29 | 2015-12-09 | 腾讯科技(深圳)有限公司 | 一种添加标点的方法、系统及其语言模型建立方法、装置 |
CN104143331B (zh) | 2013-05-24 | 2015-12-09 | 腾讯科技(深圳)有限公司 | 一种添加标点的方法和系统 |
US9311299B1 (en) * | 2013-07-31 | 2016-04-12 | Google Inc. | Weakly supervised part-of-speech tagging with coupled token and type constraints |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
DE202013104836U1 (de) | 2013-10-29 | 2014-01-30 | Foseco International Limited | Speiseraufbau |
RU2592395C2 (ru) | 2013-12-19 | 2016-07-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Разрешение семантической неоднозначности при помощи статистического анализа |
RU2586577C2 (ru) | 2014-01-15 | 2016-06-10 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Фильтрация дуг в синтаксическом графе |
WO2015164209A1 (en) * | 2014-04-25 | 2015-10-29 | Mayo Foundation For Medical Education And Research | Enhancing reading accuracy, efficiency and retention |
RU2596600C2 (ru) | 2014-09-02 | 2016-09-10 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способы и системы обработки изображений математических выражений |
US9626358B2 (en) | 2014-11-26 | 2017-04-18 | Abbyy Infopoisk Llc | Creating ontologies by analyzing natural language texts |
CN107615268B (zh) * | 2015-03-10 | 2021-08-24 | 非对称实验室公司 | 用于根据词之间的不确定性而对词间隔进行不对称格式化的系统和方法 |
US9703394B2 (en) * | 2015-03-24 | 2017-07-11 | Google Inc. | Unlearning techniques for adaptive language models in text entry |
CA2985160C (en) | 2015-05-18 | 2023-09-05 | Varcode Ltd. | Thermochromic ink indicia for activatable quality labels |
US10697837B2 (en) | 2015-07-07 | 2020-06-30 | Varcode Ltd. | Electronic quality indicator |
US10635863B2 (en) | 2017-10-30 | 2020-04-28 | Sdl Inc. | Fragment recall and adaptive automated translation |
US10817676B2 (en) | 2017-12-27 | 2020-10-27 | Sdl Inc. | Intelligent routing services and systems |
US10956670B2 (en) | 2018-03-03 | 2021-03-23 | Samurai Labs Sp. Z O.O. | System and method for detecting undesirable and potentially harmful online behavior |
US10599767B1 (en) * | 2018-05-31 | 2020-03-24 | The Ultimate Software Group, Inc. | System for providing intelligent part of speech processing of complex natural language |
US11256867B2 (en) | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
RU2721190C1 (ru) | 2018-12-25 | 2020-05-18 | Общество с ограниченной ответственностью "Аби Продакшн" | Обучение нейронных сетей с использованием функций потерь, отражающих зависимости между соседними токенами |
CN111353295A (zh) * | 2020-02-27 | 2020-06-30 | 广东博智林机器人有限公司 | 序列标注方法、装置、存储介质及计算机设备 |
US11594213B2 (en) * | 2020-03-03 | 2023-02-28 | Rovi Guides, Inc. | Systems and methods for interpreting natural language search queries |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3704345A (en) * | 1971-03-19 | 1972-11-28 | Bell Telephone Labor Inc | Conversion of printed text into synthetic speech |
JPS58175074A (ja) * | 1982-04-07 | 1983-10-14 | Toshiba Corp | 構文分析方式 |
US4674065A (en) * | 1982-04-30 | 1987-06-16 | International Business Machines Corporation | System for detecting and correcting contextual errors in a text processing system |
US4456973A (en) * | 1982-04-30 | 1984-06-26 | International Business Machines Corporation | Automatic text grade level analyzer for a text processing system |
US4688195A (en) * | 1983-01-28 | 1987-08-18 | Texas Instruments Incorporated | Natural-language interface generating system |
US4580218A (en) * | 1983-09-08 | 1986-04-01 | At&T Bell Laboratories | Indexing subject-locating method |
US4692941A (en) * | 1984-04-10 | 1987-09-08 | First Byte | Real-time text-to-speech conversion system |
JPS6140672A (ja) * | 1984-07-31 | 1986-02-26 | Hitachi Ltd | 多品詞解消処理方式 |
-
1988
- 1988-02-05 US US07/152,740 patent/US5146405A/en not_active Expired - Lifetime
-
1989
- 1989-01-27 DE DE68923981T patent/DE68923981T2/de not_active Expired - Fee Related
- 1989-01-27 ES ES89300790T patent/ES2076952T3/es not_active Expired - Lifetime
- 1989-01-27 EP EP89300790A patent/EP0327266B1/de not_active Expired - Lifetime
- 1989-02-01 AU AU28990/89A patent/AU617749B2/en not_active Ceased
- 1989-02-03 CA CA000590100A patent/CA1301345C/en not_active Expired - Fee Related
- 1989-02-04 KR KR1019890001364A patent/KR970006402B1/ko not_active IP Right Cessation
- 1989-02-04 JP JP1024794A patent/JPH0769910B2/ja not_active Expired - Fee Related
-
1990
- 1990-01-16 IN IN46MA1990 patent/IN175380B/en unknown
Also Published As
Publication number | Publication date |
---|---|
EP0327266A3 (de) | 1992-01-02 |
KR890013549A (ko) | 1989-09-23 |
EP0327266A2 (de) | 1989-08-09 |
JPH01224796A (ja) | 1989-09-07 |
JPH0769910B2 (ja) | 1995-07-31 |
DE68923981D1 (de) | 1995-10-05 |
CA1301345C (en) | 1992-05-19 |
ES2076952T3 (es) | 1995-11-16 |
AU617749B2 (en) | 1991-12-05 |
IN175380B (de) | 1995-06-10 |
KR970006402B1 (ko) | 1997-04-28 |
US5146405A (en) | 1992-09-08 |
AU2899089A (en) | 1989-08-10 |
EP0327266B1 (de) | 1995-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE68923981T2 (de) | Verfahren zur Bestimmung von Textteilen und Verwendung. | |
DE69617515T2 (de) | Automatisches Verfahren zur Erzeugung von thematischen Zusammenfassungen | |
DE69623082T2 (de) | Automatische Methode zur Extraktionszusammenfassung durch Gebrauch von Merkmal-Wahrscheinlichkeiten | |
DE69424350T2 (de) | Kontextsensitive Methode zum Auffinden von Informationen über ein Wort in einem elektronischen Wörterbuch | |
DE69726339T2 (de) | Verfahren und Apparat zur Sprachübersetzung | |
DE69607601T2 (de) | System und verfahren zur spracherkennung mit automatischer erzeugung einer syntax | |
DE68913669T2 (de) | Namenaussprache durch einen Synthetisator. | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
DE69625950T2 (de) | Verfahren und Vorrichtung zur Spracherkennung und Übersetzungssystem | |
DE3853894T2 (de) | Auf Paradigmen basierende morphologische Textanalyse für natürliche Sprachen. | |
DE69513369T2 (de) | Verfahren und vorrichtung zur zusammenfassung statischer prozesse in eine auf regeln basierende grammatikalisch definierte natuerliche sprache | |
DE68928775T2 (de) | Verfahren und Vorrichtung zur Herstellung einer Zusammenfassung eines Dokumentes | |
DE69618089T2 (de) | Automatische Methode zur Erzeugung von Merkmalwahrscheinlichkeiten für automatische Extraktionszusammenfassung | |
EP1168298B1 (de) | Verfahren zum Zusammensetzen von Ansagen zur Sprachausgabe | |
DE19952769B4 (de) | Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache | |
DE69530816T2 (de) | Textbearbeitungssystem und Verfahren unter Verwendung einer Wissensbasis | |
DE69331209T2 (de) | Umformung von verwandten Wortformen für Textindexierung und Wiederauffindung mittels endlicher Automaten | |
DE69032750T2 (de) | Maschinelles Übersetzungssystem und -verfahren | |
DE69829074T2 (de) | Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten | |
DE69315374T2 (de) | Spracherkennungssystem zur naturgetreuen Sprachübersetzung | |
DE69829389T2 (de) | Textnormalisierung unter verwendung einer kontextfreien grammatik | |
DE3750135T2 (de) | Textverarbeitungssystem und -verfahren zur Prüfung des richtigen und folgerichtigen Gebrauchs von Einheiten und chemischen Formeln in einem Textverarbeitungssystem. | |
DE69331044T2 (de) | Vorrichtung und Verfahren zur syntaktischen Signalanalyse | |
WO2015113578A1 (de) | Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text | |
DE3616751A1 (de) | Uebersetzungssystem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |