DE69029188T2 - Auf Wahrscheinlichkeitclusterbildung gestützte Schriftzeichenerkennung - Google Patents
Auf Wahrscheinlichkeitclusterbildung gestützte SchriftzeichenerkennungInfo
- Publication number
- DE69029188T2 DE69029188T2 DE69029188T DE69029188T DE69029188T2 DE 69029188 T2 DE69029188 T2 DE 69029188T2 DE 69029188 T DE69029188 T DE 69029188T DE 69029188 T DE69029188 T DE 69029188T DE 69029188 T2 DE69029188 T2 DE 69029188T2
- Authority
- DE
- Germany
- Prior art keywords
- probability
- character
- candidate
- cluster
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000013459 approach Methods 0.000 description 6
- 230000001419 dependent effect Effects 0.000 description 5
- 238000012805 post-processing Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000003909 pattern recognition Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000006467 substitution reaction Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004138 cluster model Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
Description
- Die vorliegende Erfindung bezieht sich auf Techniken zum Erkennen von Zeichen. Genauer gesagt bezieht sich die Erfindung auf Techniken, die einen Satz Wahrscheinlichkeitszeichen-Idenditäten verwenden, um ein unbekanntes Eingangszeichen zu erkennen.
- Kundu, A., und Bahl, P., "Recognition of Handwritten Script: A Hidden Markov Model Based Approach", International Conference on Acoustics, Speech, and Signal Processing, New York, April 1988, Seiten 928-931, beschreiben eine auf Buchstaben basierende Worterkennungseinrichtung, deren Ausgang entweder das korrekt erkannte Wort oder ein kleiner Satz von Wörtern ist, der das korrekte Wort als eine seiner Hypothesen umfaßt. Seite 929 beschreibt einen Satz von Merkmalen, für die, mit Abtastbuchstaben, optimale Symbole erzeugt werden, und zwar unter Verwendung eines Vektor-Quantisier- Algorithmus und eines ungewichteten, euklidischen Abstands als die Abstandsmessung. Die Merkmalsvektoren jedes Buchstabens werden dann als eines der Symbole gemaß einem minimalen Abstandskriterium, der nahesten Nachbarregel, klassifiziert, und eine Wahrscheinlichkeit wird dann in Bezug auf das Symbol bestimmt. Diese Symbole werden dann zur Erkennung in Verbindung mit einem verdeckten Markov-Model verwendet. Goshtasby, A., und Ehrich, R.W., "Contextual Word Recognition Using Probabilistic Relaxation Labeling", Pattern Recoanition, Vol 21, No. 5,1988, Seiten 455462, beschreiben eine textabhängige Worterkennungstechnik, die eine wahrscheinlichkeitsmäßige Relaxationskennzeichnung verwendet. Wie in Bezug auf Fig. 1 dort beschrieben ist, umfaßt ein textabhängiges Worterkennungssystem ein Zeichenerkennungseinrichtungsmodul, das jedem Eingabezeichen 26 Zahlen zuordnet, die die Annahmen darstellen, daß das Zeichen in dem Eingang Kennzeichnungen von a bis z besitzt. Die Annahmen werden dann zu Wahrscheinlichkeiten transformiert. Der Ausgang der Zeichenerkennungseinrichtung ist tatsächlich eine Sequenz aus Sätzen, die als Substitutionssätze bezeichnet werden, wobei jeder davon die Alternativen für ein bestimmtes Zeichen mit einer Nicht-Null-Wahrscheinlichkeit enthält. Alle möglichen Worte würden durch Auswahl eines Zeichens von jedem der Substitutionssätze erhalten werden, allerdings ist nur eines der Worte, die von den Substitutionssätzen gebildet werden können, das korrekte Wort. Ein Nach-Prozessor identifiziert das korrekte Wort von der Sequenz der Substitutionssätze unter Verwendung textabhängiger Informationen aus der Sprache. Abschnitt 2, der auf Seite 456 beginnt, betrachtet die Haupt-Nach-Verarbeitungstechniken. Die Abschnitte 3 und 4 führen in Ergebnisse ein und beschreiben sie, die durch einen vorgeschlagenen Nach-Prozessor produziert sind, der Übergangswahrscheinlichkeiten von Zeichen verwendet, um die Kennzeichnungswahrscheinlichkeiten in einem Wort iterativ zu verbessern, bis die Wahrscheinlichkeiten konvergieren und ein einziges Wort bestimmen. Fig. 5 stellt dar, wie der Nach-Prozessor auf Ähnlichkeitsmessungen eines Eingabeworts arbeitet, die Messungen mit geringer Ähnlichkeit auf Null setzen und die verbleibenden Ähnlichkeiten zu Wahrscheinlichkeitswerten transformieren, auf die ein Relaxations-Prozeß iterativ angewandt wird, bis die am meisten konsistente Kennzeichnung erhalten ist.
- Die US-A 4,773,099 beschreibt Musterklassifikationstechniken, die unbekannte Eingabezeichen klassifizieren. Während einer Vorverarbeitungsphase werden Referenzdaten analysiert, um "Ringcluster" für jede Klasse von Eingangsdaten zu bilden. Wenn die Eingangsdaten Zeichen sind, wird ein Satz Ringcluster jeder Zeichenklasse zugeordnet. Diese Ringcluster werden so gebildet, daß sie später während der Klassifikation eines unbekannten Eingabezeichens verwendet werden können. Wie in Bezug auf die Fig. 12-13 und den darauffolgenden Figuren dargestellt und beschrieben ist, produziert das Klassifikationsmodul einen Möglichkeitssatz, der eine Liste von Zeichen ist, die die unbekannten Zeichen sein könnten, mit zugeordneten Mnahmen. Wie zu Beginn in Spalte 23, Zeile 32, beschrieben ist, kann ein Möglichkeitssatz, der keine Zeichen-Kandidaten umfaßt, für eine Nachverarbeitung zu einem Buchstabierkorrekturmodul geschickt werden, das textabhängige Informationen verwendet, um es mit einem einzelnen Zeichen- Kandidaten zu ersetzen. Ein Möglichkeitssatz, der mehr als einen Zeichen-Kandidaten umfaßt, kann weiter zu anderen Modulen geschickt werden, wie beispielsweise eine Unterlinienprüfeinrichtung und ein Kontextmodul, so daß nur ein Zeichen-Kandidat in dem Möglichkeitssatz, nachdem diese Nachverarbeitung vervollständigt ist, verbleibt. Die Annahmen können dazu verwendet werden, um Zeichen zu kennzeichnen, die nicht mit Sicherheit wiedererkannt wurden, so daß sie durch einen Wortverarbeitungsoperator geprüft werden können. Die Annahmewerte können auch durch die Nachverarbeitungsmodule verwendet werden, um beim Auswählen eines der Zeichen-Kandidaten zu unterstützen.
- Die US-A 3V969,698 beschreibt ein Clusterspeichergerät für eine Nachbehandlungsfehlerkorrektur in einer Zeichen- und Phonem-Wiedererkennung. Wie in Bezug auf Fig. 6 dargestellt und beschrieben ist, gibt ein Clusterspeichergerät Gruppen von gültigen Alpha-Worten als potentielle Kandidaten für die korrekte Form eines fehlerkannten Worts aus. Eine Übertragungsfunktion wird gemessen, um die Neigung für eine Fehllesung zu bestimmen und wird als eine Reihe von Gleichungen ausgedrückt wobei jede eine Wahrscheinlichkeit eines Zeichens darstellt, daß es zu einem falschen Ausgabezeichen verwechselt ist. Wie in Bezug auf Fig. 7 dargstellt und beschrieben ist, liefert ein Clusterspeichergerät eine Gruppe korrekter Worte, die dieselbe Wahrscheinlichkeit dahingehend besitzt, daß sie mit einem ungültigen Wort zu einem regionalen Kontextgerät verwechselt worden ist. Das regionale Kontextgerät führt eine konditionsmäßige Wahrscheinlichkeitsanalyse aus, um zu bestimmen, welches der korrekten Worte am ehesten dem ungültigen Wort entspricht.
- Kahan, 5., Pavlidis, T., und Baird, H.S., "On the Recognition of Printed Characters of Any Font and Size", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol PAMI-9, No. 2, März 1987, Seiten 274-288, beschreiben eine Omnifont-Zeichenerkennung mit variabler Größe. Abschnitt III beschreibt einen primären Klassifizierer, der ein Zeichen von einer strukturellen Beschreibung mit einem statistischen Bayesian-Klassifizierer erkennt, der binäre Merkmale benutzt. Ein Merkmal definierende Bereiche in einem Parameterraum werden durch einen automatischen Clusterbildungsalgorithmus ausgewählt, der Cluster produziert, wie dies in Fig. 5 dargestellt ist. Die Cluster werden zu etwa 100 Clustern mit bestimmtem Hub gestrichen bzw. gestrafft, wobei 30 davon in Fig. 8 dargestellt sind. Der Ausgang des primären Klassifizierers ist eine kurze Liste von Klassifikationen, in abfallender Reihenfolge einer geschätzten a posterion Wahrscheinlichkeit. Abschnitt I, beschreibt, wie eine Konturanalyse auch verwendet wird, wenn das Ergebnis einer Klassifikation in eine von wenigen suspekten Konfusionsgruppen fällt.
- Abschnitt VI beschreibt eine Feldanordnung von Strukturen, wobei jede aus einer Bondingbox und den ersten k-Auswahlen des Klassifizierers besteht, wobei jede Auswahl aus einem Namen und einer Figur einer Übertragungsgüte proportional zu dem Logarithmus der Posterior-Wahrscheinlichkeit besteht. Ein Layout-Kontext und ein linguistischer Kontext werden dann verwendet, um eine eindeutige Aussage zu machen, wobei der linguistische Kontext Buchstabierungs-Grammatik- und Punktuationsregeln umfaßt. Abschnitt VII beschreibt eine Buchstabierkorrektur falsch buchstabierter Worte.
- Nagy, G., "Optical Character Recognition--Theory and Practice" in Krishnaiah, P.R., und Kanal, L.N., eds., Handbook of Statistics. Vol 2, North-Holland, 1982, Seiten 621 und 633-643, präsentieren eine Übersicht von Zeichenerkennungstechniken. Die Seiten 634-639 beschreiben verschiedene Maßnahmen für eine Zeichenklassifikation und besprechen die konditionsmäßigen Wahrscheinlichkeitsfunktionen P(v/ak) eines Beobachtens des Signals v, wenn die Klasse des Musters, die betrachtet wird, ak ist. Seite 634 erwähnt die Möglichkeit einer Zurückweisung eines Zeichens, d.h. ein Nichtzuordnen von diesem zu irgendeiner Klasse, wie dies in Fig. 5 dargestellt ist, als eine "Zurückweisungs-" Entscheidung; Seite 634 erwähnt auch, daß die optimale Entscheidung aus einer Auswahl der Klasse ak besteht, für die eine a posterion Wahrscheinlichkeit P(ai/v) die größte ist, und liefert eine Baye'sche Formel zur Berechnung der a posterion Klassenwahrscheinlichkeiten. Die Seiten 639-643 beschreiben Erkennungstechniken, die textabhängige Informationen verwenden.
- Bozinovic, R., und Srihari, S.N:, "Knowledge-based Cursive Script Interpretation". Seventh International Conference on Pattern Recognition. Montreal. Canada. July 30-August 2.1984. Proceedings, Vol 2, Seiten 774-776, beschreiben eine auf einer Kenntnis basierende Maßnahme für eine Wortniveau-Offline-Kursiv- Schriftart-Erkennung. Wie in Abschnitt I in Bezug auf Fig. 1 dargestellt und beschrieben ist, umfaßt der Gesamtprozeß eine Vorsegmentierung, eine Lexikon-Durchsicht und ein Buchstabenhypothesieren und führt zu einem ASCII-Wort. Abschnitt III beschreibt eine Vorsegmentierung, eine Buchstaben-Hypothesierung und eine lexikale Darstellung, wobei das Lexion in der Form eines Baums organisiert ist.
- Die US-A-3,643,215 beschreibt eine Mustererkennungsvorrichtung, in der ein Muster, das zur Klassifizierung präsentiert ist, anfänglich gesucht wird und Deskriptoren produziert werden, wie dies in Bezug auf die Fig. 1 und 3 dargestellt und beschrieben ist. Die Deskriptoren werden dazu verwendet, eine Liste aus Merkmalsnamen zu erhalten, und um daraufhin eine Klassennamen-Vorhersage zu erhalten. Der Klassenname wird dann verwendet, ein Merkmal vorherzusagen. Ein Annahmekoeffizient bzw. -pegel wird gemäß dem Erfolg der Vorhersagen variiert, bis er einen Akzeptanzschwellwert übersteigt, wobei in diesem Fall der Klassenname geliefert wird, wie dies in Bezug auf die Fig. 2 und 3 dargestellt und beschrieben ist.
- Burton, D.K., Shore, J.E. und Buck, J.T., "Isolated-Wort Speech Recognition Using Multisection Vector Quantization Codebooks", IEEE Transactions on Acoustics. Speech. and Signal Processing, Vol ASSP-33, No. 4, August 1985, Seiten 837-849, beschreiben eine Maßnahme für eine Spracherkennung isolierter Worte unter Verwendung einer Vektor-Quantisierung (VQ). Seite 837 beschreibt eine frühere Maßnahme, in der ein VQ-Codebuch für jedes Wort in dem Erkennungsvokabular durch Anwenden einer iterativen Clustertechnik zu einer Trainingssequenz erzeugt wird, die verschiedene Wiederholungen des Vokabularworts enthält. Der Clusterprozeß stellt jedes Vokabularwort als einen Satz unabhängiger Spektren dar. Das neue Verfahren beschreibt in dem Artikel eingearbeitete Zeitsequenzinformationen mittels einer Sequenz der VQ-Codebücher, die als Multisektions-Codebücher bezeichnet sind, was in weiterem Detail auf Seite 839 beschrieben ist. Wie auf Seite 838 beschrieben ist, werden neue Worte unter Durchführen einer VQ und eines Auffindens des Vielfachabschnitt-Codebuchs, das die kleinste durchschnittliche Verzerrung erreicht, klassifiziert.
- Die US-A-4,783,804 beschreibt die Verwendung von Markow-Modellsprachmusterschablonen in einer Spracherkennung. Die Fig. 4-6 stellen Schritte bei der Formation von Markov-Modellschablonen dar und Fig. 5 stellt Schritte beim Separieren von Rahmenmerkmalssignalen in Clustern dar.
- Die US-A-4,837,831 beschreibt Techniken zum Erzeugen und zum Verwenden von Vielfachwortklangmodellen in einer Spracherkennung. Ein Bereich einer akustischen Beschreibung einer Aussprache wird gegen Clustermodelle, die ähnliche Klänge von unterschiedlichen Worten darstellen, bewertet. Die sich ergebende Bewertung für jedes Cluster wird dazu verwendet, eine Wortbewertung für jedes Wort zu berechnen, das durch dieses Cluster dargestellt ist. Ein Untersatz von Vokabular-Worten wird für einen längeren Vergleich gegenüber der Aussprache ausgewählt.
- Die vorliegende Erfindung liefert Techniken zum Erkennen eines Zeichen-Kandidaten basierend auf einer Zwischenerkennung eines Clusters aus Zeichenwahrscheinlichkeiten. Weiterhin schafft die Erfindung Techniken zum Verwenden einer Zeichenwahrscheinlichkeits-Clusteridentifiziereinrichtung bei einer Erkennung. Zum Beispiel kann die Clusteridentifiziereinrichtung dazu verwendet werden, nach Daten zu suchen, die Zeichenwahrscheinlichkeiten eines Clusters definieren.
- Gemäß einem Aspekt der Erfindung wird ein Verfahren zum Identifizieren, welches verschiedener Zeichenwahrscheinlichkeitscluster am nahesten zu einem Zeichen-Kandidaten ist, geschaffen, wobei der Zeichen-Kandidat ein Teil eines Textes ist und separat zur Identifikation präsentiert wird, wobei das Verfahren die Schritte aufweist: Erhalten eines Satzes Wahrscheinlichkeitswerte für einen Zeichen-Kandidaten, wobei der Satz Wahrscheinlichkeitswerte einen jeweiligen Wahrscheinlichkeitswert für jeden eines Satzes von Zeichen-Typen umfaßt, wobei jeder Wahrscheinlichkeitswert eines Zeichen-Typs eine Wahrscheinlichkeit anzeigt, daß der Zeichen-Kandidat ein Fall des Zeichen-Typs ist; und Verwenden des Satzes Wahrscheinlichkeitswerte, um zu identifizieren, welcher einer Zahl Zeichenwahrscheinlichkeitscluster am nahesten zu dem Kandidaten ist, wobei die Zeichenwahrscheinlichkeitscluster-Bereiche eines Raums sind, wobei die Zeichen- Kandidaten in Bezug auf ihren Wahrscheinlichkeitswert für jeden Zeichen-Typ die Position des Zeichen-Kandidaten in der Dimension des Zeichen-Typs anzeigen, so daß der Satz der Wahrscheinlichkeitswerte die Position des Zeichen-Kandidaten in dem Zeichenwahrscheinlichkeitsraum definiert.
- Gemäß einem anderen Aspekt der Erfindung wird ein System zum Verarbeiten von Daten geschaffen, das aufweist: einen Klassifizierer zum Liefern eines Satzes Wahrscheinlichkeitswerte für einen Zeichen-Kandidaten, wobei der Zeichen-Kandidat ein Teil eines Textes ist und separat zur Identifizierung präsentiert wird, wobei der Satz Wahrscheinlichkeitswerte einen jeweiligen Wahrscheinlichkeitswert für jeden eines Satzes Zeichen- Typen umfaßt, wobei jeder Wahrscheinlichkeitswert eines Zeichen-Typs eine Wahrscheinlichkeit anzeigt, daß der Zeichen-Kandidat ein Fall des Zeichen-Typs ist; eine Wahrscheinlichkeitscluster-Identifiziereinrichtung zum Verwenden des Satzes Wahrscheinlichkeitswerte, um Daten zu produzieren, die identifizieren, welcher einer Anzahl Zeichenwahrscheinlichkeitscluster am nahesten zu dem Zeichen-Kandidaten ist, wobei die Zeichenwahrscheinlichkeitscluster Bereiche eines Raums sind, wobei der Raum eine jeweilige Dimension für jeden der Zeichen-Typen umfaßt, wobei der jeweilige Wahrscheinlichkeitswert des Zeichen-Kandidaten für jeden Zeichen-Typ die Position des Zeichen-Kandidaten in der Dimension des Zeichen-Typs anzeigt, so daß der Satz Wahrscheinlichkeitswerte die Position des Zeichen-Kandidaten in dem Raum definiert; und eine Einschränkungs-Erfüllungseinrichtung zum Liefern von Daten, die einen Zeichen-Typ des Zeichen-Kandidaten basierend auf den das Cluster identifizierenden Daten von der Wahrscheinlichkeitscluster-Identifiziereinrichtung identifizieren.
- Die Erfindung basiert auf der Erkennung eines fundamentalen Problems bei herkömmlichen Maßnahmen für eine Zeichen- und Phonemerkennung. Jeder Zeichen-Kandidat wird typischerweise als ein Fall eines einzelnen Zeichen-Typs klassifiziert; von einer kurzen Liste von Zeichen- oder Phonem-Typen, entweder einer festgelegten Länge oder die Wahrscheinlichkeiten besitzen, die einen festgelegten Schwellwert übersteigen; oder als ein fragwürdiges Zeichen, ein Zeichen, bei dem eine Schlußfolgerung nicht erreicht werden kann, da vielleicht keine der Möglichkeiten einen festgelegten Schwellwert übersteigt. Das Ergebnis einer Klassifikation wird zu einer Nachklassifiziereinrichtung oder einem Nachprozessor übertragen, bevor zu dem nächsten Kandidat in der Sequenz fortgefahren wird. Allerdings rangiert eine Klassifizierung auf diese Art und Weise nutzlos Informationen über andere Zeichen-Typen aus, die auf den Kandidaten angewandt werden können, Informationen, die oftmals bei der Erkennung nützlich sind. Die Erfindung basiert weiterhin auf der Erkenntnis, daß dieses Problem durch Heranziehen einer unterschiedlichen Maßnahme gelöst werden kann. Im Gegensatz zu einem Klassifizieren jedes Kandidaten als ein Fall eines einzelnen, wahrscheinlichsten Typs oder einer kurzen Liste wahrscheinlichster Typen identifiziert eine Technik gemäß der Erfindung, welcher eine einer Anzahl von Zeichenwahrscheinlichkeitsclustern am nahesten zu dem Kandidaten kommt, und zwar basierend auf einem vollständigen Satz von Wahrscheinlichkeiten für den Kandidaten. Die Wahrscheinlichkeitscluster werden in einem Zeichenwahrscheinlichkeitsraum definiert, wobei jeder Cluster eine jeweilige Wahrscheinlichkeit für jeden Zeichen-Typ in einem Satz von Zeichen-Typen besitzt. Deshalb liefert eine Identifizierung, welcher Cluster am nahesten zu einem Kandidaten kommt, relativ akkurate Informationen über seine Wahrscheinlichkeit für irgendeinen Typ.
- Ein anderer Aspekt der Erfindung basiert auf der Erkennung eines fundamentalen Problems in der Architektur herkömmlicher Zeichenerkennungssysteme. Solche Systeme halten herkömmlich alle Informationen über einen Kandidaten zurück, bis der Kandidat als ein Fall eines einzelnen, wahrscheinlichsten Typs oder eines einer kleinen Zahl von wahrscheinlichsten Typen klassifiziert ist. Daten, die den wahrscheinlichsten Typ oder die Typen anzeigen, können dann zu einer Nachklassifiziereinrichtung oder einem Nachprozessor geliefert werden. Um vollständige Informationen über einen Kandidaten zwischen Prozessen oder Prozessoren zu übertragen, würde eine höhere Bandbreite erfordern, die mit der herkömmlichen, niedrigen Bandbreitenverbindung zwischen einer Klassifiziereinrichtung und einer Nachklassifiziereinrichtung in Wechselwirkung treten würde, die für eine Modularisierung notwendig ist. Eine Modularisierung ist wichtig, da sie ermöglicht, daß unterschiedliche Nachklassifiziereinrichtungen mit einer gegebenen Klassifiziereinrichtung verwendet werden können, und ermöglicht auch, daß unterschiedliche Klassifiziereinrichtungen mit einer gegebenen Nachklassifiziereinrichtung verwendet werden können. Kurz gesagt ist es schwierig, ein System zu schaffen, das modular ist und das vollständige Informationen zu einer Nachklassifiziereinrichtung oder einem Nachprozessor liefert.
- Dieser Aspekt basiert weiterhin auf der Erkenntnis, daß die Verbindung mit geringer Bandbreite zwischen Modulen eines Erkennungssystems nicht die Übertragung relativ vollständiger Informationen über jeden Kandidaten ausschließt. Anders ausgedrückt kann ein eingangsseitiges Modul eines Erkennungssystems relativ vollständige Informationen über jeden Kandidaten zu einem ausgangsseitigen Modul liefern, das eine weitere Verarbeitung durchführt.
- Diese Lösung kann durch Vorsehen, und zwar für jeden Kandidaten, von Daten, die einen Wahrscheinlichkeitscluster identifizieren, der am nahesten zu dem Kandidaten in dem Zeichenwahrscheinlichkeitsraum ist und der eine jeweilige Wahrscheinlichkeit für jeden Erkennungstyp besitzt, ausgeführt werden. Die Datenidentifizierung jedes Clusters (nachfolgend hier als ein "Cluster"ID" bezeichnet) kann selbst dazu verwendet werden, um Daten zu erhalten, die einen Zeichen-Typ (nachfolgend als ein "Zeichen-ID" bezeichnet) über irgendeine geeignete Einschränkungs-Erfüllungstechnik identifizieren. Falls es notwendig ist, eine Übereinstimmung zu erzielen, kann das Cluster-ID dazu verwendet werden, eine jeweilige Wahrscheinlichkeit des Clusters für irgendeinen oder mehrere Typen zu suchen, geeignete Daten über die Wahrscheinlichkeiten, die während einer vorherigen Trainingsphase für ein Suchen während einer darauffolgenden Identifikationsphase gespeichert sind.
- Diese Ausführung ermöglicht eine Modularität zwischen einer Wahrscheinlichkeitscluster-Identifiziereinrichtung und einer Einschränkungs-Erfüllungseinrichtung, und zwar mit einer Verbindung einer niedrigen Bandbreite zwischen ihnen zum Übertragen von Cluster-ID's. Während einer Trainingsphase speichert die Clusteridentifiziereinrichtung Daten über die Zeichenwahrscheinlichkeiten für jedes Cluster und während einer Identifikationsphase kann die Einschränkungs-Erfüllungseinrichtung ein Cluster-ID verwenden, um die entsprechenden Wahrscheinlichkeitsdaten zu suchen. Ein Vorteil dieser Lösung ist derjenige, daß während einer Identifikation die Einschränkungs-Erfüllungseinrichtung von der Wahrscheinlichkeitscluster-Identifiziereinrichtung nur abhängt, um eine Sequenz aus Cluster-ID's zu liefern. Als Folge kann die Einschränkungs-Erfüllungseinrichtung über einen willkürlich großen Kontext mit relativ vollständigen Informationen über jeden Kandidaten innerhalb dieses Kontextes arbeiten, wobei die Informationen in einer kompakten Form von den Cluster-ID's erhalten werden. Die Wahrscheinlichkeitscluster-Identifiziereinrichtung und die Einschränkungs-Erfüllungseinrichtung können unabhängig auf einem einzelnen Prozessor arbeiten oder können auf parallelen Prozessoren arbeiten, und in jedem Fall wird die Verwendung von Cluster-ID's eine relativ niedrige Bandbreiten-Verbindung zwischen den Prozessen ermöglichen.
- Die vorliegende Erfindung wird nun beispielhaft unter Bezugnahme auf die beigefügten Zeichnungen beschrieben werden, in denen:
- Fig. 1 zeigt ein schematisches Blockdiagramm, das einige funktionale Komponenten eines Erkennungssystems gemäß der Erfindung darstellt;
- Fig. 2 zeigt ein Flußdiagramm, das Schritte darstellt, die durch eine Wahrscheinlichkeitscluster-Identifiziereinrichtung und eine Einschränkungs-Erfüllungseinrichtung der Fig. 1 durchgeführt werden;
- Fig. 3 zeigt ein Flußdiagramm, das Schritte darstellt, die während einer Trainingsphase einer Wahrscheinlichkeitscluster-Identifiziereinrichtung durchgeführt werden;
- Fig. 4 zeigt ein Flußdiagramm, das Schritte darstellt, die während einer Identifikationsphase durch eine Wahrscheinlichkeitscluster-Identifiziereinrichtung durchgeführt werden, und
- Fig. 5 zeigt ein schematisches Diagramm, das die Komponenten eines Systems darstellt, das die Schritte in den Fig. 3 und 4 durchführen kann.
- Der folgende, konzeptmäßige Aufbau ist zum Verstehen der Erfindung hilfreich und die Ausdrücke, die nachfolgend definiert sind, besitzen Bedeutungen, die durch diese Beschreibung hinweg angegeben sind, einschließlich der Ansprüche.
- Ein "Wort" ist die kleinste Einheit einer Bedeutung in einer Sprache. "Geschriebene Worte" bedeutet Worte, die in der Form von diskreten Elementen, wie beispielsweise alphabetische, numerische oder piktogrammartige Elementen, aufgezeichnet sind. "Gesprochene Worte" oder "Sprache" bedeuten Worte, die in einer kontinuierlichen Form wie beispielsweise als Äußerung eines Sprechers, aufgenommen werden. Worte, die in kontinuierlicher Form aufgezeichnet sind, wie beispielsweise eine aufgezeichnete Sprache, sind deshalb nicht geschriebene Worte, sondern gespochene Worte, wenn sie abgespielt werden. Ein "isoliert gesprochenes Wort" ist ein gesprochenes Wort, das von irgendwelchen vorhergehenden oder nachfolgenden Worten diskret empfangen wird. Ein "Text" ist eine Anordnung von geschriebenen Worten, gewöhnlich eine Sequenz. Ein Text kann demzufolge Null oder mehr Worte umfassen, jedes mindestens mit einem diskreten Element.
- Ein "Zeichen" bedeutet ein diskretes Element, das in einem Text erscheint. Zeichen können demzufolge nicht nur alphanumerische Elemente umfassen, sondern auch Punktuations-Markierungen, diakritische Zeichen und andere Elemente, die in einem Text enthalten sind. Ein "Zeichen-Typ" ist eine Kategorie, aus der ein Zeichen ein Fall sein kann, wie beispielsweise ein Buchstaben oder eine Zahl.
- Ein "Zeichen-Kandidat" ist irgendein Teil eines Textes, der separat einem System zur Klassifikation oder Identifikation präsentiert wird. In typischen Zeichenerkennungssystemen ist ein Zeichen-Kandidat ein Teil des Textes, der auf der Basis von Kriterien segmentiert worden ist, die anzeigen, daß der Zeichen-Kandidat ein Zeichen ist. Ein "Kandidat" bedeutet ein Zeichen-Kandidat.
- Ein "Zeichenwahrscheinlichkeitsraum", ist ein mathematischer Raum, in dem jede Dimension die Wahrscheinlichkeit anzeigt, daß ein Kandidat ein Fall eines spezifischen Zeichen-Typs ist.
- Ein "Zeichenwahrscheinlichkeitscluster" ist ein statistisch definierter Bereich eines Zeichenwahrscheinlichkeitsraums, in dem Zeichen oder Zeichen-Kandidaten auftreten. Ein Zeichenwahrscheinlichkeitscluster kann zum Beispiel mittels der Wahrscheinlichkeiten der Zeichen und Zeichen-Kandidaten definiert werden, die in ihm oder durch ein anderes statistisches Maß seiner Mitte auftreten. Es könnte weiterhin durch die Varianz der Wahrscheinlichkeiten der Zeichen und Kandidaten definiert werden, die in ihm auftreten, oder durch ein anderes statistisches Maß seiner Form oder Größe.
- Ein "Cluster" bedeutet ein Zeichenwahrscheinlichkeitscluster.
- Ein "Cluster-ID" sind Daten, die einen eines Satzes von Clustern anzeigen. Ein "Zeichen-ID" sind Daten, die einen eines Satzes von Zeichen-Typen anzeigen. Der "Abstand" zwischen einem Cluster und einem Kandidaten kann durch den euklidischen Abstand zwischen Kandidatenwahrscheinlichkeiten oder irgendeinem anderen statistischen Maß eines Abstands definiert werden. Einer einer Zahl von Clustern ist "am nächsten" zu einem Kandidat, wenn der Abstand zwischen dem Cluster und dem Kandidaten kleiner als der Abstand zwischen irgendeinem der anderen Cluster und dem Kandidaten ist.
- Eine "Einschränkungs-Erfüllungseinrichtung" ist irgendeine Komponente eines Systems, die bestimmt, ob Daten, die ihr präsentiert sind, einen Satz von Einschränkungen erfüllen. Eine Einschränkungs-Erfüllungseinrichtung könnte ein Prozeß, ein Prozessor oder irgendeine andere Komponente sein, die zum Bestimmen geeignet ist, ob Daten Einschränkungen erfüllen. Sie könnte die Einschränkungen in irgendeiner geeigneten Form handhaben, einschließlich Regeln oder Mustern oder irgendeiner Kombination von Regeln und Mustern.
- Allgemeine Merkmale der Erfindung können anhand der Fig. 1 und 2 verstanden werden. Fig. 1 stellt einige Komponenten eines Systems, das Merkmale der Erfindung umsetzt, dar. Fig. 2 stellt Schritte dar, die durch Komponenten des Systems der Fig. 1 durchgeführt werden.
- Fig. 1 stellt einige Komponenten eines Zeichenerkennungssystems 10 dar. Das System 10 kann auch andere, herkömmliche Komponenten, die nicht dargestellt sind, umfassen, wie beispielsweise eine Komponente, die Daten über einen Text, dessen Zeichen erkannt werden sollen, in Zeichen-Kandidaten segmentiert, und eine Komponente, die Daten enthält, die sich auf jeden Kandidaten bezieht, umfassen. Die Wahrscheinlichkeitscluster-Identifiziereinrichtung 12 empfängt Daten über jeden Kandidaten in einer Sequenz und die Daten, die sie empfängt, könnten, wie dargestellt ist, Wahrscheinlichkeitsdaten sein, die, für jeden erkennbaren Zeichen-Typ, die Wahrscheinlichkeit anzeigen, daß der Kandidat von diesem Typ ist. Die Identifiziereinrichtung 12 bestimmt, welcher einer Zahl von Clustern am nahesten zu jedem Kandidat ist, und die Cluster können Zeichenwahrscheinlichkeitscluster sein, wie dies vorstehend definiert ist. Unter Bestimmung, daß ein gegebenes Cluster am nahesten zu einem Kandidat ist, liefert die Identifiziereinrichtung 12 das entsprechende Cluster-ID als sein Ausgang.
- Die Einschränkungs-Erfüllungseinrichtung 14 empfängt die Cluster-ID's von der Identifiziereinrichtung 12 und sucht nach relevanten Daten aus dem Speicher 16. Der Speicher 16 speichert illustrativ Regeln/Muster-Daten 181 die sich auf Regeln und Muster beziehen,die die Einschränkungs-Erfüllungseinrichtung 14 zum Bestimmen verwenden kann, ob eine Sequenz der Cluster-ID's relevante Beschränkungen erfüllt. Der Speicher 16 speichert auch Zeichen/Wahrscheinlichkeitsdaten 20, auf die basierend auf einem Cluster-ID zugegriffen werden kann, um die jeweilige Wahrscheinlichkeit eines spezifischen Zeichen-Typs für diesen Cluster zu erhalten. Basierend auf den gesuchten Daten und den Cluster-ID's erhält die Einschränkungs-Erfüllungseinrichutng 14 eine Sequenz von Zeichen-ID'S, die sie als ihren Ausgang liefert. Die Einschränkungs-Erfüllungseinrichtung 14 könnte alternativ Wort-Identifizierer als ihren Ausgang liefern.
- Fig. 2 stellt Schritte dar,die durch die Wahrscheinlichkeitscluster-Identifiziereinrichtung 12, angezeigt durch die Buchstaben "CI" und die Einschränkungs-Erfüllungseinrichtung 14, angezeigt durch die Buchstaben "CS", durchgeführt werden.
- In dem Kasten 30 empfängt die Identifiziereinrichtung 12 Daten für den nächsten Kandidaten, wie beispielsweise Wahrscheinlichkeitsdaten für die Zeichen-Typen,wie dies vorstehend besprochen ist. In dem Kasten 32 wird das naheste Cluster identifiziert und in dem Kasten 34 wird seine Cluster-ID ausgegeben, bevor zurückgekehrt wird, um Daten für den nächsten Kandidaten in dem Kasten 30 zu empfangen.
- In dem Kasten 40 empfängt die Einschränkungs-Erfüllungseinrichtung 14 das nächste Cluster-ID von der Identifiziereinrichtung 12. In dem Fall eines Durchführens einer Einschränkungs-Erfüllung wird die Verzweigung in dem Kasten 42 basierend darauf, ob Daten über die jeweilige Wahrscheinlichkeit eines spezifizierten Zeichen-Typs in Bezug auf das Cluster-ID benötigt werden, durchgeführt. Falls dies der Fall ist, sucht der Schritt in dem Kasten 44 die erforderlichen Wahrscheinlichkeiten. Die Verzweigung in dem Kasten 46 hängt davon ab, ob eine Einschränkungs-Erfüllung erfolgreich ist; falls dies der Fall ist, liefert die Einschränkungs-Erfüllungseinrichtung 14 die identifizierten Zeichen- ID's als Ausgang in dem Kasten 48; falls dies nicht der Fall ist, kehrt sie zurück, um das nächste Cluster-ID in dem Kasten 40 zu empfangen.
- Die Erfindung könnte in einer Vielfalt von Arten und Weisen ausgeführt werden. Die Fig. 3-5 stellen eine Ausführung dar, die für einen einzelnen,seriellen Prozessor geeignet ist. Fig. 3 stellt Schritte in der Trainingsphase der Clusteridentifiziereinrichtung dar und Fig. 4 stellt Schritte in deren Identifikationsphase dar. Fig. 5 stellt Komponenten eines Systems dar, das die Schritte in den Fig. 3 und 4 ausführt.
- Die Trainingsphase in Fig. 3 folgt allgemein den Schritten des Isodata-Algorithmus, der in Tou, J.T., und Gonzalez, R.C., Pattern Recognition Principles, Addison-Wesley, London, 1974, Seiten 97-100, beschrieben ist. Wie dort angemerkt ist, ist der Isodata-Algorithmus ähnlich im Prinzip zu einer K-Bedeutungsclusterbildung. Eine K-Bedeutungsclusterbildung oder irgendein anderer geeigneter Algorithmus könnten in der Trainingsphase verwendet werden, vorausgesetzt, daß das Ergebnis einen Satz von Clustern in einem Zeichen- oder Phonem-Wahrscheinlichkeitsraum ist, jeder mit einem jeweiligen Satz Wahrscheinlichkeiten und einem Cluster-ID. Die Koordinaten der Bedeutung oder einer anderen statistischen Mitte jedes Clusters können zum Beispiel als seine Wahrscheinlichkeiten dienen.
- In dem Schritt im Kasten 100 wählt der Benutzer Anfangswahrscheinlichkeitsclusterzentren und -parameter, wie im Schritt I, des Isodata-Algorithmus aus. Diese Anfangsclusterzentren könnten zufällig ausgewählt werden. Die Zahl der Clusterzentren die erwünscht ist, könnte dreimal der Zahl der erkennbaren Zeichen sein. Die minimale Zahl der Proben pro Cluster könnte fünf sein. Die Standardabweichungsparameter könnten auf die minimale Komponente der Abtaststandardabweichung für alle Trainingsdaten eingestellt sein. Der Klumpenbildungsparameter könnte auf ein Drittel des Standardabweichungsparameters eingestellt werden. Die maximale Zahl der Paare der Clusterzentren, die zusammengeballt werden können, könnte auf zwei eingestellt werden. Die Zahl der Iterationen, die zugelassen ist, könnte anfänglich auf 100 eingestellt werden, abhängig davon, daß sie erhöht werden, wie dies eine Konvergenz und Computerzeit zuläßt.
- Der Schritt in dem Kasten 102 dustert dann einen Satz Abtastwahrscheinlichkeitslisten und führt darauf bezogene Berechnungen durch, wie in den Schritten 2 bis 6 des Isodata-Algorithmus. Die Abtastwahrscheinlichkeitslisten sollten von demselben Klassifizierer erhalten werden,wie derjenige, der in der Identifikationsphase verwendet wird. Der Klassifizierer kann ein Entscheidungsbaum oder irgendein anderer, herkömmlicher Klassifizierer sein, der eine vollständige Wahrscheinlichkeitsliste für einen Kandidaten liefert. Um die Abtastwahrscheinlichkeitslisten für ein Clustern in dem Kasten 102 zu liefern, sollte der Klassifizierer auf einem Text oder einer Sprache arbeiten, die völlig für den Text oder die Sprache, die in der Identifikationsphase identifiziert werden soll, repräsentativ ist. Das Ergebnis eines Clusterns wird ein neuer Satz von Clusterzentren sein, jeder mit einem entsprechenden Zentrum, dessen Koordinaten eine vollständige Wahrscheinlichkeitsliste definieren.
- Wenn eine Clusterbildung abgeschlossen ist, verzweigt sich die Trainingsphase in einen Kasten 110, basierend darauf, ob die abschließende Iteration durchgeführt worden ist. Falls dies nicht der Fall ist, spaltet der Schritt in dem Kasten 112 die Clusterzentren auf, klumpt Clusterzentren, falls geeignet, zusammen, ermöglicht dem Benutzer, neue Parameter einzustellen, und führt darauf bezogene Berechnungen, wie in den Schritten 7-13 des Isodata-Algorithmus, durch. Dann kehrt die Trainingsphase zurück, um die Abtastwahrscheinlichkeitslisten wieder zu dustern, und zwar in dem Kasten 102. Wenn die abschließende Iteration durchgeführt worden ist, speichert der Schritt in dem Kasten 114 für jedes abschließende Cluster sein ID und die Koordinaten seines Zentrums, die eine entsprechende Wahrscheinlichkeitsliste definieren. Dies vervollständigt die Trainingsphase.
- Die Identifikationsphase in Fig. 4 beginnt in einem Kasten 120 durch Empfangen eines Satzes von Kandidatenwahrscheinlichkeitslisten zur Identifikation. Diese Wahrscheinlichkeitslisten sollten durch denselben Klassifizierer geliefert werden, der die Abtastwahrscheinlichkeitslisten liefert, die in dem Kasten 102 in Fig. 3 zusammengeklumpt wurden, und könnten asynchron von dem Klassifizierer durch einen Puffer oder eine pufferende Datenstruktur empfangen sein.
- Der Schritt in dem Kasten 122 beginnt eine iterative Schleife, die jede der Kandidatenwahrscheinlichkeitslisten von dem Puffer in Folge handhabt. Der Schritt in dem Kasten 124 vergleicht die nächste Kandidatenwahrscheinlichkeitsliste mit den Wahrscheinlichkeitslisten der abschließenden Cluster, wie sie in dem Kasten 114 in Fig. 3 gespeichert sind, um das naheste Cluster zu finden. Dieser Vergleich könnte mit einem euklidischen Abstand oder mit einem Mahalanolis-Abstand vorgenommen werden. Wenn das naheste Cluster gefunden ist, wird sein Cluster-ID in dem Kasten 126 ausgegeben, und die Identifikationsphase kehrt dann zu dem Schritt in dem Kasten 122 zurück, was fortfährt, bis keine Kandidaten, die gehandhabt werden müssen, verbleiben, wobei zu diesem Zeitpunkt die Identifiaktionsphase abgeschlossen ist.
- Die Schritte in Fig. 4 entsprechen den Schritten, die durch die Clusteridentifiziereinrichtung in Fig. 2 durchgeführt werden. Der Kasten 120 entspricht dem Kasten 30; der Kasten 124 entspricht dem Kasten 32 und der Kasten 126 entspricht dem Kasten 34.
- Fig. 5 stellt ein System 150 zum Durchführen der Schritte in den Fig. 3 und 4 dar. Das System 150 umfaßt einen Prozessor 152, eine Workstation-CPU oder einen anderen geeigneten Prozessor. Der Prozessor 152 empfängt Eingänge über Eingabevorrichtungen 154, die eine Text-Abtasteinrichtung, eine Sprachempfangseinrichtung, ein Tastenfeld mit einer Maus und andere geeignete Vorrichtungen umfassen können. Der Prozessor 152 liefert Ausgänge über die Ausgabevorrichtung 156, die eine CRT oder eine andere Anzeige umfassen kann. Der Prozessor greift auch auf einen Speicher 158 während seiner Betriebsweisen zu.
- Der Speicher 158 umfaßt erläuternd einen Programmspeicher 160 und einen Datenspeicher 170, obwohl der Speicher 158 in irgendeiner geeigneten Art und Weise gehandhabt werden könnte. Der Programmspeicher 160 umfaßt einen Klassifizierer 162, ein Clusteridentifiziereinrichtungs-Trainingsprogramm 164, das so ausgeführt werden könnte, wie in Fig. 3, ein Cluster-Identifikationsprogramm 166, das so ausgeführt werden könnte, wie in Fig. 4, und eine Einschränkungs-Erfüllungseinrichtung 168. Der Datenspeicher 170 umfaßt Regel/Muster-Daten 172 für die Einschränkungs-Erfüllungseinrichtung 168, Trainingsabtastungen 174 und Traningsparameter 176 für das Trainingsprogramm 164, Clusterwahrscheinlichkeitslisten/ID's 178, die durch das Trainingsprogramm 164 gespeichert sind und auf die durch das Identifikationsprogramm 166 zugegriffen wird, und einen zusätzlichen, temporären Speicher für Daten, wie beispielsweise den Kandidatenwahrscheinlichkeitslistenpuffer. Der Datenspeicher 170 umfaßt auch irgendwelche Daten, die durch den Klassifizierer 162 erforderlich sind, und kann deshalb Bit-Tafeln, Schablonen bzw. Modelle oder andere Darstellungen von Kandidatenzeichen umfassen.
- Die Ausführung der Fig. 5 umfaßt eine Komponente entsprechend jeder der Komponenten in Fig. 1. Das Identifikationsprogramm 166 entspricht der Clusteridentifiziereinrichtung 12; die Einschränkungs-Erfüllungseinrichtung 168 entspricht der Einschränkungs- Erfüllungseinrichtung 14; die Regeln/Musterdaten 172 entsprechen den Regeln/Musterdaten 18; und die Clusterwahrscheinlichkeitslisten/ID's 178 entsprechen den Zeichen/Wahrscheinlichkeitsdaten 20. Die Einschränkungs-Erfüllungseinrichtung 168 kann demzufolge ein Cluster-ID verwenden, um auf eine entsprechende Wahrscheinlichkeitsliste in den Clusterwahrscheinlichkeitslisten/ID's 178 zuzugreifen, falls dies notwendig ist, um ein Zeichen zu erkennen.
- Die Erfindung könnte auf viele andere Arten und Weisen ausgeführt werden.
- Die vorstehend beschriebene Ausführung könnte so modifiziert werden, um einen optimalen Gebrauch von der verfügbaren Bandbreite zwischen der Wahrscheinlichkeitscluster-Identifiziereinrichtung und der Einschränkungs-Erfüllungseinrichtung zu machen Eine mögliche Einstellung ist diejenige, die Zahl der Wahrscheinlichkeitscluster so auszuwählen, daß die Cluster-ID's einer gegebenen, fixierten Länge verwendet werden können. Eine andere Einstellung ist diejenige, kurze Cluster-ID's für Hochfrequenzcluster und längere Cluster-ID's für Niederfrequenzcluster vorzusehen.
- Eine Einschränkungs-Erfüllungseinrichtung zur Verwendung in der Erfindung könnte irgendeine einer breiten Vielfalt von Formen annehmen. Allgemein könnte eine auf eine Anwendung zugeschnittene Vielfachfach-Kontext- oder dynamische Kontext-Kenntnis dazu gebracht werden, sich auf einen Erkennungsprozeß durch die Einschränkungs-Erfüllungseinrichtung zu beziehen. Vielfachbedeutungsprüfer könnten für vielfache Sprachen verwendet werden. Eine für ein Formfeld spezifische Grammatik, die Buchstabierbzw. Bedeutungszeichen steuert, könnte auch verwendet werden. Prozesse, die dazu geeignet sind, den Vorteil einer minimalen Redundanz in einer spezialisierten Eingabe wahrzunehmen, wie beispielsweise Finanz-, zeitorientierte oder Teilelisteninformationen, könnten verwendet werden. Zusätzlich zu einer Zeichenerkennung könnte die Einschränkungs-Erfüllungseinrichtung eine Worterkennung und eine Schrifttypenerkennung anwenden, um einen Inhalt der Cluster-ID's zu extrahieren.
- Die Ausführung, die vorstehend beschrieben ist, setzt einen einzelnen, seriellen Prozessor für eine Wahrscheinlichkeitsclusteridentifikation und für eine Einschränkungs-Erfüllung ein. Diese Funktionen könnten allerdings gleichzeitig durch parallele Prozessoren oder in irgendeiner anderen geeigneten Art und Weise durchgeführt werden und jede Funktion könnte ähnlich auf einem Multiprozessor oder irgendeiner anderen, geeigneten Archtitektur ausgeführt werden. Weiterhin könnten, wenn ein einzelner, serieller Prozessor verwendet wird, herkömmliche Techniken, wie beispielsweise ein Multitasking, angewandt werden.
Claims (11)
1. Verfahren zum Identifizieren, welches verschiedener
Zeichenwahrscheinlichkeitscluster am nahesten zu einem Zeichen-Kandidaten ist, wobei der Zeichen-
Kandidat ein Teil eines Textes ist und separat zur Identifikation präsentiert wird,
wobei das Verfahren die Schritte aufweist:
Erhalten eines Satzes Wahrscheinlichkeitswerte für einen Zeichen-Kandidaten,
wobei der Satz Wahrscheinlichkeitswerte einen jeweiligen Wahrscheinlichkeitswert
für jeden eines Satzes von Zeichen-Typen umfaßt, wobei jeder Wahrscheinlich
keitswert eines Zeichen-Typs eine Wahrscheinlichkeit anzeigt, daß der Zeichen-
Kandidat ein Fall des Zeichen-Typs ist; und
Verwenden des Satzes Wahrscheinlichkeitswerte, um zu identifizieren, welcher
einer Zahl Zeichenwahrscheinlichkeitscluster am nahesten zu dem Kandidaten ist
wobei die Zeichenwahrscheinlichkeitscluster Bereiche eines Raums sind, wobei
der Raum eine jeweilige Dimension für jeden der Zeichen-Typen besitzt, wobei der
jeweilige Wahrscheinlichkeitswert des Zeichen-Kandidaten für jeden Zeichen-Typ
die Position des Zeichen-Kandidaten in der Dimension des Zeichen-Typs anzeigt,
so daß der Satz der Wahrscheinlichkeitswerte die Position des
Zeichen-Kandidaten in dem Zeichenwahrscheinlichkeitsraum anzeigt.
2. Verfahren nach Anspruch 1, das weiterhin einen Schritt eines Speicherns
jeweiliger Wahrscheinlichkeitsdaten für jedes der Zeichenwahrscheinlichkeitscluster vor
dem Schritt einer Verwendung des Satzes der Wahrscheinlichkeitswerte aufweist.
3. Verfahren nach Anspruch 2, wobei der Speicherschritt eine Clusterbildung von
Abtastwahrscheinlichkeitsdaten aufweist, um die Zeichenwahrscheinlichkeitscluster
zu erhalten.
4. Verfahren nach Anspruch 2 oder 3, das weiterhin einen Schritt eines Erkennens
des Kandidaten basierend auf den jeweiligen Wahrscheinlichkeitsdaten für das
identifizierte, naheste Wahrscheinlichkeitscluster aufweist.
5. Verfahren nach einem der Ansprüche 2 bis 4, wobei die jeweiligen
Wahrscheinlichkeitsdaten jedes Clusters ein Satz von Wahrscheinlichkeitswerten ist, wobei der
Satz Wahrscheinlichkeitswerte einen jeweiligen Wahrscheinlichkeitswert für jeden
eines Satzes erkennbarer Zeichen-Typen umfaßt.
6. Verfahren nach einem vorhergehenden Anspruch, wobei der Schritt einer
Verwendung des Satzes Wahrscheinlichkeitswerte einen Unterschritt eines Erhaltens von
Daten, die das naheste Wahrscheinlichkeitscluster identifizieren, aufweist, wobei
das Verfahren weiterhin den Schritt eines Erhaltens von Daten aufweist, die einen
Zeichen-Typ des Kandidatenzeichens identifizieren, und zwar basierend auf den
Daten, die das naheste Cluster identifizieren.
7. System zum Verarbeiten von Daten, das aufweist:
einen Klassifizierer zum Liefern eines Satzes Wahrscheinlichkeitswerte für einen
Zeichen-Kandidaten, wobei der Zeichen-Kandidat ein Teil eines Textes ist und
separat zur Identifizierung präsentiert wird, wobei der Satz Wahrscheinlichkeitswerte
einen jeweiligen Wahrscheinlichkeitswert für jeden eines Satzes Zeichen-Typen
umfaßt, wobei jeder Wahrscheinlichkeitswert eines Zeichen-Typs eine
Wahrscheinlichkeit anzeigt, daß der Zeichen-Kandidat ein Fall des Zeichen-Typs ist;
eine Wahrscheinlichkeitscluster-Identifiziereinrichtung (12) zum Verwenden des
Satzes Wahrscheinlichkeitswerte, um Daten zu produzieren, die identifizieren,
welcher einer Anzahl Zeichenwahrscheinlichkeitscluster am nahesten zu dem
Zeichen-Kandidaten ist, wobei die Zeichenwahrscheinlichkeitscluster Bereiche eines
Raums sind, wobei der Raum eine jeweilige Dimension für jeden der
Zeichen-Typen umfaßt, wobei der jeweilige Wahrscheinlichkeitswert des Zeichen-Kandidaten
für jeden Zeichen-Typ die Position des Zeichen-Kandidaten in der Dimension des
Zeichen-Typs anzeigt, so daß der Satz Wahrscheinlichkeitswerte die Position des
Zeichen-Kandidaten in dem Raum definiert; und
eine Einschränkungs-Erfüllungseinrichtung (14) zum Liefern von Daten, die einen
Zeichen-Typ des Zeichen-Kandidaten basierend auf den das Cluster
identifizierenden Daten von der Wahrscheinlichkeitscluster-Identifiziereinrichtung identifizieren.
8. System nach Anspruch 7, das weiterhin gespeicherte Wahrscheinlichkeitsdaten
aufweist, die jeweilige Wahrscheinlichkeitsdaten für jedes der
Zeichenwahrscheinlichkeitscluster umfassen, wobei die Einschränkungs-Erfüllungseinrichtung die das
Cluster identifizierenden Daten verwendet, um auf jeweilige
Wahrscheinlichkeitsdaten des identifizierten, nahesten Clusters zuzugreifen.
9. System nach Anspruch 8, wobei die jeweiligen Wahrscheinlichkeitsdaten für jedes
Cluster einen jeweiligen Satz von Wahrscheinlichkeitswerten für das Cluster
umfassen, wobei jeder jeweilige Satz von Clustern der Wahrscheinlichkeitswerte
einen jeweiligen Wahrscheinlichkeitswert für jeden der Zeichen-Typen umfaßt.
10. System nach Anspruch 7 bis 9, wobei die Klassifiziereinrichtung auch jeweilige
Wahrscheinlichkeitsdaten für einen Satz von Abtastzeichen liefert; und wobei das
System weiterhin einen Trainer zum Speichern der jeweiligen
Wahrscheinlichkeitsdaten für jedes der Zeichenwahrscheinlichkeitscluster basierend auf jeweiligen
Wahrscheinlichkeitsdaten für die Abtastzeichen aufweist.
11. System nach Anspruch 10, wobei der Trainer dazu geeignet ist, die
Zeichenwahrscheinlichkeitscluster und die jeweiligen Wahrscheinlichkeitsdaten für jedes der
Cluster durch Clusterbildung der Wahrscheinlichkeitsdaten für die Abtastzeichen
zu erhalten.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/427,148 US5075896A (en) | 1989-10-25 | 1989-10-25 | Character and phoneme recognition based on probability clustering |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69029188D1 DE69029188D1 (de) | 1997-01-02 |
DE69029188T2 true DE69029188T2 (de) | 1997-03-20 |
Family
ID=23693682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69029188T Expired - Fee Related DE69029188T2 (de) | 1989-10-25 | 1990-10-25 | Auf Wahrscheinlichkeitclusterbildung gestützte Schriftzeichenerkennung |
Country Status (4)
Country | Link |
---|---|
US (1) | US5075896A (de) |
EP (1) | EP0425290B1 (de) |
JP (1) | JP2991473B2 (de) |
DE (1) | DE69029188T2 (de) |
Families Citing this family (194)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2836159B2 (ja) * | 1990-01-30 | 1998-12-14 | 株式会社日立製作所 | 同時通訳向き音声認識システムおよびその音声認識方法 |
JPH0481988A (ja) * | 1990-07-24 | 1992-03-16 | Sharp Corp | クラスタリング方式 |
EP0498978A1 (de) * | 1991-02-13 | 1992-08-19 | International Business Machines Corporation | Automatische Erkennung von Zeichen in Kursivschrift |
US5392367A (en) * | 1991-03-28 | 1995-02-21 | Hsu; Wen H. | Automatic planar point pattern matching device and the matching method thereof |
US5257323A (en) * | 1991-05-29 | 1993-10-26 | Canon Kabushiki Kaisha | Selection agent for a symbol determination system with multiple character recognition processors |
KR950008022B1 (ko) * | 1991-06-19 | 1995-07-24 | 가부시끼가이샤 히다찌세이사꾸쇼 | 문자처리방법 및 장치와 문자입력방법 및 장치 |
JP3118725B2 (ja) * | 1991-09-11 | 2000-12-18 | 株式会社日立製作所 | 自動分類方法 |
US5343537A (en) * | 1991-10-31 | 1994-08-30 | International Business Machines Corporation | Statistical mixture approach to automatic handwriting recognition |
US5483650A (en) * | 1991-11-12 | 1996-01-09 | Xerox Corporation | Method of constant interaction-time clustering applied to document browsing |
US5442778A (en) * | 1991-11-12 | 1995-08-15 | Xerox Corporation | Scatter-gather: a cluster-based method and apparatus for browsing large document collections |
US5544257A (en) * | 1992-01-08 | 1996-08-06 | International Business Machines Corporation | Continuous parameter hidden Markov model approach to automatic handwriting recognition |
WO1994020952A1 (en) * | 1993-03-12 | 1994-09-15 | Sri International | Method and apparatus for voice-interactive language instruction |
US5325445A (en) * | 1992-05-29 | 1994-06-28 | Eastman Kodak Company | Feature classification using supervised statistical pattern recognition |
JPH064093A (ja) * | 1992-06-18 | 1994-01-14 | Matsushita Electric Ind Co Ltd | Hmm作成装置、hmm記憶装置、尤度計算装置及び、認識装置 |
JP2611904B2 (ja) * | 1992-10-19 | 1997-05-21 | 株式会社エイ・ティ・アール視聴覚機構研究所 | 文字認識装置 |
JP3422541B2 (ja) * | 1992-12-17 | 2003-06-30 | ゼロックス・コーポレーション | キーワードのモデル化方法及び非キーワードhmmの提供方法 |
US5535305A (en) * | 1992-12-31 | 1996-07-09 | Apple Computer, Inc. | Sub-partitioned vector quantization of probability density functions |
JPH0773190A (ja) * | 1993-04-29 | 1995-03-17 | Matsushita Electric Ind Co Ltd | ペンベースコンピューターシステム用絵文字ネーミング |
US5537488A (en) * | 1993-09-16 | 1996-07-16 | Massachusetts Institute Of Technology | Pattern recognition system with statistical classification |
DE69427525T2 (de) * | 1993-10-15 | 2002-04-18 | At&T Corp., New York | Trainingsmethode für ein tts-system, sich daraus ergebendes gerät und methode zur bedienung des gerätes |
EP0654755B1 (de) * | 1993-11-23 | 2000-08-02 | International Business Machines Corporation | Anlage und Verfahren zur automatischen Handschrifterkennung mittels eines benutzerunabhängigen chirographischen Labelalphabets |
US6304675B1 (en) | 1993-12-28 | 2001-10-16 | Sandia Corporation | Visual cluster analysis and pattern recognition methods |
US5621859A (en) * | 1994-01-19 | 1997-04-15 | Bbn Corporation | Single tree method for grammar directed, very large vocabulary speech recognizer |
US5745649A (en) * | 1994-07-07 | 1998-04-28 | Nynex Science & Technology Corporation | Automated speech recognition using a plurality of different multilayer perception structures to model a plurality of distinct phoneme categories |
JP3260979B2 (ja) * | 1994-07-15 | 2002-02-25 | 株式会社リコー | 文字認識方法 |
US5825978A (en) * | 1994-07-18 | 1998-10-20 | Sri International | Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions |
EP0694862A3 (de) * | 1994-07-22 | 1996-07-24 | At & T Corp | Erkennung von degradierten, graustufenförmigen Dokumenten mittels zweidimensionalen versteckten Pseudo-Markovmodellen und N-best-Hypothesen |
US5768423A (en) * | 1994-09-02 | 1998-06-16 | Panasonic Technologies Inc. | Trie structure based method and apparatus for indexing and searching handwritten databases with dynamic search sequencing |
US5854855A (en) * | 1994-09-09 | 1998-12-29 | Motorola, Inc. | Method and system using meta-classes and polynomial discriminant functions for handwriting recognition |
US5802205A (en) * | 1994-09-09 | 1998-09-01 | Motorola, Inc. | Method and system for lexical processing |
DE4436408C1 (de) * | 1994-10-12 | 1995-12-07 | Daimler Benz Ag | Mustererkennungsverfahren |
US5642440A (en) * | 1994-12-08 | 1997-06-24 | Grumman Aerospace Corporation | System using ergodic ensemble for image restoration |
US5982926A (en) * | 1995-01-17 | 1999-11-09 | At & T Ipm Corp. | Real-time image enhancement techniques |
US5864810A (en) * | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
JPH08293028A (ja) * | 1995-04-24 | 1996-11-05 | Matsushita Electric Ind Co Ltd | 並列画像クラスタリング装置 |
US6044171A (en) * | 1995-05-09 | 2000-03-28 | Polyakov; Vladislav G. | Method and apparatus for pattern recognition and representation using fourier descriptors and iterative transformation-reparametrization |
US5659771A (en) * | 1995-05-19 | 1997-08-19 | Mitsubishi Electric Information Technology Center America, Inc. | System for spelling correction in which the context of a target word in a sentence is utilized to determine which of several possible words was intended |
US5774576A (en) * | 1995-07-17 | 1998-06-30 | Nec Research Institute, Inc. | Pattern recognition by unsupervised metric learning |
US6282324B1 (en) * | 1995-08-31 | 2001-08-28 | Northrop Grumman Corporation | Text image deblurring by high-probability word selection |
US5778095A (en) * | 1995-12-20 | 1998-07-07 | Xerox Corporation | Classification of scanned symbols into equivalence classes |
US5787422A (en) * | 1996-01-11 | 1998-07-28 | Xerox Corporation | Method and apparatus for information accesss employing overlapping clusters |
US5982933A (en) * | 1996-01-12 | 1999-11-09 | Canon Kabushiki Kaisha | Information processing method, information processing apparatus, and storage medium |
US5742522A (en) * | 1996-04-01 | 1998-04-21 | General Electric Company | Adaptive, on line, statistical method and apparatus for detection of broken bars in motors by passive motor current monitoring and digital torque estimation |
US5806030A (en) * | 1996-05-06 | 1998-09-08 | Matsushita Electric Ind Co Ltd | Low complexity, high accuracy clustering method for speech recognizer |
US5828999A (en) * | 1996-05-06 | 1998-10-27 | Apple Computer, Inc. | Method and system for deriving a large-span semantic language model for large-vocabulary recognition systems |
US5850480A (en) * | 1996-05-30 | 1998-12-15 | Scan-Optics, Inc. | OCR error correction methods and apparatus utilizing contextual comparison |
JP2973944B2 (ja) * | 1996-06-26 | 1999-11-08 | 富士ゼロックス株式会社 | 文書処理装置および文書処理方法 |
WO1998014934A1 (en) * | 1996-10-02 | 1998-04-09 | Sri International | Method and system for automatic text-independent grading of pronunciation for language instruction |
CN1110775C (zh) * | 1996-12-10 | 2003-06-04 | 许文星 | 平面图形点的自动对比方法及装置 |
JP3969775B2 (ja) * | 1996-12-17 | 2007-09-05 | キヤノン株式会社 | 手書き情報入力装置および手書き情報入力方法 |
US6137911A (en) * | 1997-06-16 | 2000-10-24 | The Dialog Corporation Plc | Test classification system and method |
US6298158B1 (en) * | 1997-09-25 | 2001-10-02 | Babylon, Ltd. | Recognition and translation system and method |
US6067514A (en) * | 1998-06-23 | 2000-05-23 | International Business Machines Corporation | Method for automatically punctuating a speech utterance in a continuous speech recognition system |
CN1343337B (zh) | 1999-03-05 | 2013-03-20 | 佳能株式会社 | 用于产生包括音素数据和解码的字的注释数据的方法和设备 |
US6662180B1 (en) * | 1999-05-12 | 2003-12-09 | Matsushita Electric Industrial Co., Ltd. | Method for searching in large databases of automatically recognized text |
US6618697B1 (en) | 1999-05-14 | 2003-09-09 | Justsystem Corporation | Method for rule-based correction of spelling and grammar errors |
US6631211B1 (en) * | 1999-07-08 | 2003-10-07 | Perkinelmer Las, Inc. | Interactive system for analyzing scatter plots |
US6882970B1 (en) | 1999-10-28 | 2005-04-19 | Canon Kabushiki Kaisha | Language recognition using sequence frequency |
US7212968B1 (en) | 1999-10-28 | 2007-05-01 | Canon Kabushiki Kaisha | Pattern matching method and apparatus |
US7310600B1 (en) | 1999-10-28 | 2007-12-18 | Canon Kabushiki Kaisha | Language recognition using a similarity measure |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
GB0011798D0 (en) * | 2000-05-16 | 2000-07-05 | Canon Kk | Database annotation and retrieval |
GB0015233D0 (en) | 2000-06-21 | 2000-08-16 | Canon Kk | Indexing method and apparatus |
GB0023930D0 (en) | 2000-09-29 | 2000-11-15 | Canon Kk | Database annotation and retrieval |
GB0027178D0 (en) | 2000-11-07 | 2000-12-27 | Canon Kk | Speech processing system |
GB0028277D0 (en) * | 2000-11-20 | 2001-01-03 | Canon Kk | Speech processing system |
US7343041B2 (en) * | 2001-02-22 | 2008-03-11 | International Business Machines Corporation | Handwritten word recognition using nearest neighbor techniques that allow adaptive learning |
US7139755B2 (en) * | 2001-11-06 | 2006-11-21 | Thomson Scientific Inc. | Method and apparatus for providing comprehensive search results in response to user queries entered over a computer network |
EP1363271A1 (de) | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
DE10220524B4 (de) | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
US7167587B2 (en) * | 2002-08-30 | 2007-01-23 | Lockheed Martin Corporation | Sequential classifier for use in pattern recognition system |
US7366352B2 (en) * | 2003-03-20 | 2008-04-29 | International Business Machines Corporation | Method and apparatus for performing fast closest match in pattern recognition |
CN101107602B (zh) * | 2003-12-31 | 2012-01-18 | 汤姆森路透社全球资源公司 | 用于扩展搜索结果超出初始查询定义的界限之外的系统、方法、界面和软件 |
JP4172584B2 (ja) * | 2004-04-19 | 2008-10-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 文字認識結果出力装置、文字認識装置、その方法及びプログラム |
NO20052966D0 (no) * | 2005-06-16 | 2005-06-16 | Lumex As | Monsterkodede ordboker |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8175394B2 (en) | 2006-09-08 | 2012-05-08 | Google Inc. | Shape clustering in post optical character recognition processing |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
KR100933707B1 (ko) * | 2008-05-30 | 2009-12-24 | 고려대학교 기술지주 (주) | 사용자 필적 조합 시스템 |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
DE112011100329T5 (de) | 2010-01-25 | 2012-10-31 | Andrew Peter Nelson Jerram | Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US9244612B1 (en) | 2012-02-16 | 2016-01-26 | Google Inc. | Key selection of a graphical keyboard based on user input posture |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9471220B2 (en) | 2012-09-18 | 2016-10-18 | Google Inc. | Posture-adaptive selection |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8782549B2 (en) | 2012-10-05 | 2014-07-15 | Google Inc. | Incremental feature-based gesture-keyboard decoding |
US8701032B1 (en) | 2012-10-16 | 2014-04-15 | Google Inc. | Incremental multi-word recognition |
US8850350B2 (en) | 2012-10-16 | 2014-09-30 | Google Inc. | Partial gesture text entry |
US8843845B2 (en) | 2012-10-16 | 2014-09-23 | Google Inc. | Multi-gesture text input prediction |
US8819574B2 (en) | 2012-10-22 | 2014-08-26 | Google Inc. | Space prediction for text input |
US8832589B2 (en) | 2013-01-15 | 2014-09-09 | Google Inc. | Touch keyboard using language and spatial models |
AU2014214676A1 (en) | 2013-02-07 | 2015-08-27 | Apple Inc. | Voice trigger for a digital assistant |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
US9081500B2 (en) | 2013-05-03 | 2015-07-14 | Google Inc. | Alternative hypothesis error correction for gesture typing |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10924478B2 (en) | 2018-07-02 | 2021-02-16 | Paypal, Inc. | Identification based on snapshot of device memory |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB1243969A (en) * | 1967-11-15 | 1971-08-25 | Emi Ltd | Improvements relating to pattern recognition devices |
US3810162A (en) * | 1970-06-01 | 1974-05-07 | Texas Instruments Inc | Nonlinear classification recognition system |
US3755780A (en) * | 1971-06-28 | 1973-08-28 | Pattern Analysis & Recognition | Method for recognizing characters |
US3969698A (en) * | 1974-10-08 | 1976-07-13 | International Business Machines Corporation | Cluster storage apparatus for post processing error correction of a character recognition machine |
US4180799A (en) * | 1978-04-21 | 1979-12-25 | Caere Corporation | Apparatus and method for recognizing characters |
US4541115A (en) * | 1983-02-08 | 1985-09-10 | Pattern Processing Technologies, Inc. | Pattern processing system |
US4783804A (en) * | 1985-03-21 | 1988-11-08 | American Telephone And Telegraph Company, At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
US4773099A (en) * | 1985-10-10 | 1988-09-20 | The Palantir Corporation | Pattern classification means for use in a pattern recognition system |
US4903305A (en) * | 1986-05-12 | 1990-02-20 | Dragon Systems, Inc. | Method for representing word models for use in speech recognition |
US4837831A (en) * | 1986-10-15 | 1989-06-06 | Dragon Systems, Inc. | Method for creating and using multiple-word sound models in speech recognition |
JPS63225300A (ja) * | 1987-03-16 | 1988-09-20 | 株式会社東芝 | パタ−ン認識装置 |
US4958375A (en) * | 1988-02-17 | 1990-09-18 | Nestor, Inc. | Parallel, multi-unit, adaptive pattern classification system using inter-unit correlations and an intra-unit class separator methodology |
JPH02143326A (ja) * | 1988-11-25 | 1990-06-01 | Canon Inc | ソーティング回路 |
-
1989
- 1989-10-25 US US07/427,148 patent/US5075896A/en not_active Expired - Lifetime
-
1990
- 1990-10-18 JP JP2280534A patent/JP2991473B2/ja not_active Expired - Fee Related
- 1990-10-25 EP EP90311710A patent/EP0425290B1/de not_active Expired - Lifetime
- 1990-10-25 DE DE69029188T patent/DE69029188T2/de not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP0425290B1 (de) | 1996-11-20 |
EP0425290A2 (de) | 1991-05-02 |
EP0425290A3 (en) | 1992-10-28 |
JPH03144875A (ja) | 1991-06-20 |
US5075896A (en) | 1991-12-24 |
JP2991473B2 (ja) | 1999-12-20 |
DE69029188D1 (de) | 1997-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69029188T2 (de) | Auf Wahrscheinlichkeitclusterbildung gestützte Schriftzeichenerkennung | |
DE69315374T2 (de) | Spracherkennungssystem zur naturgetreuen Sprachübersetzung | |
DE69818231T2 (de) | Verfahren zum diskriminativen training von spracherkennungsmodellen | |
DE69907513T2 (de) | Handgeschriebene oder gesprochene wort-erkennung mit neuronalen netzwerken | |
DE69519297T2 (de) | Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen | |
DE69225371T2 (de) | Schlüsselwörtererkennung in einem zusammenhängenden Text mittels zweier "Hidden Markov" Modelle | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE69518723T2 (de) | Verminderung des Suchraumes bei Spracherkennung unter Verwendung von Phonemgrenzen und Phonemklassen | |
DE69719236T2 (de) | Verfahren und System zur Spracherkennung mittels verborgener Markoff-Modelle mit kontinuierlichen Ausgangswahrscheinlichkeiten | |
Grosicki et al. | ICDAR 2009 handwriting recognition competition | |
DE69613338T2 (de) | Verfahren und system zur mustererkennung mittels baumstrukturierten wahrscheinlichkeitsdichten | |
DE69524036T2 (de) | Vorrichtung zur erkennung von gesprächsthemen | |
DE602004012347T2 (de) | Spracherkennung | |
DE69814104T2 (de) | Aufteilung von texten und identifizierung von themen | |
DE19721198C2 (de) | Statistisches Sprachmodell für flektierende Sprachen | |
DE69619442T2 (de) | Verifizierung einer Sprachäusserung für die Erkennung einer Folge von Wörtern mittels wortbezogenem Training zur Minimierung des Verifizierungsfehlers | |
DE69831114T2 (de) | Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen | |
DE69422097T2 (de) | Training von kombinierten Kettenmodellen mit minimaler Fehlerrate | |
DE69620324T2 (de) | Unterscheidende Verifizierung von Äusserungen für die Erkennung zusammenhängender Ziffern | |
DE69626344T2 (de) | Ein hierarchisch strukturiertes Wörterbuch verwendender Spracherkenner | |
DE60305568T2 (de) | Schlüsselworterkennung in einem Sprachsignal | |
DE69416670T2 (de) | Sprachverarbeitung | |
DE69528023T2 (de) | Anlage und Verfahren zur automatischen Interpretation von Eingabeausdrucken mittels neuer a posteriori Washscheinlichkeitmasse und optimal trainierter Datenverarbeitungsnetzwerken | |
DE69229124T2 (de) | Mehrteiliger expertsystem | |
DE20004416U1 (de) | Spracherkennungsvorrichtung unter Verwendung mehrerer Merkmalsströme |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |