DE69226594T2 - Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt. - Google Patents
Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt.Info
- Publication number
- DE69226594T2 DE69226594T2 DE69226594T DE69226594T DE69226594T2 DE 69226594 T2 DE69226594 T2 DE 69226594T2 DE 69226594 T DE69226594 T DE 69226594T DE 69226594 T DE69226594 T DE 69226594T DE 69226594 T2 DE69226594 T2 DE 69226594T2
- Authority
- DE
- Germany
- Prior art keywords
- prototype
- vector signal
- value
- signal
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 239000013598 vector Substances 0.000 claims description 263
- 230000007704 transition Effects 0.000 claims description 27
- 238000000034 method Methods 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 15
- 230000003044 adaptive effect Effects 0.000 description 9
- 230000006978 adaptation Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 5
- 239000003550 marker Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
- Die Erfindung bezieht sich auf Sprachcodierungseinheiten und - verfahren, wie zum Beispiel für Spracherkennungssysteme.
- Bei Spracherkennungssystemen ist bekannt geworden, Spracheinheiten (zum Beispiel Wörter, Teilwörter oder Woftfolgen) so zu modellieren, als erzeugten sie entweder (1) akustische Merkmalvektoren, welche die Werte der Merkmale einer Äußerung darstellen, oder (2) akustische Markierungen, die diskrete Gruppen akustischer Merkmalvektoren darstellen. Modelle, die akustische Merkmalvektoren erzeugen, werden manchmal als kontinuierliche Parametermodelle bezeichnet. Andererseits werden Modelle, die akustische Markierungen erzeugen, manchmal als diskrete Parametermodelle bezeichnet. Während kontinuierliche Parametermodelle in der Lage sind, mehr akustische Informationen als diskrete Parametermodelle darzustellen (und daher in der Lage sind, Spracheinheiten genauer darzustellen), ist es auch schwieriger, kontinuierliche Parametermodelle genau aufzubauen als diskrete Parametermodelle.
- Es ist eine Aufgabe der Erfindung, ein Verfahren der Sprachcodierung und eine Vorrichtung bereitzustellen, die in der Lage ist, mehr akustische Informationen als bei Codierung für diskrete Parametermodelle darzustellen, und die einfacher als kontinuierliche Parametermodelle zu modellieren ist.
- Es ist eine ändere Aufgabe der Erfindung, ein Spracherkennungssystem und -verfahren bereitzustellen, das in der Lage ist, Spracheinheiten mit mehr akustischen Informationen als ein dis kretes Parametermodell zu modellieren, und das noch einfacher als ein kontinuierliches Parametermodell zu erzeugen ist.
- Gemäß der Erfindung enthält eine Vorrichtung zur Sprachcodierung Mittel zum Messen des Wertes mindestens eines Merkmals einer Äußerung über jedes einer Folge aufeinanderfolgender Zeitintervalle, um eine Folge von Merkmalvektorsignalen zu erzeugen, welche die Merkmalwerte darstellen. Zum Speichern einer Vielzahl von Prototypvektorsignalen werden Speichermittel zur Verfügung gestellt. Jedes Prototypvektorsignal hat mindestens einen Parameterwert und einen eindeutigen Identifikationswert. Zum Vergleichen der Abweichung des Merkmalwertes eines ersten Merkmalvektorsignals von den Parameterwerten der Prototypvektorsignale werden Mittel bereitgestellt, um Prototypübereinstimmungswerte für das erste Merkmalvektorsignal und jedes Prototypvektorsignal zu erhalten. Das Rangbestimmungsmittel ordnet einen ersten Rangwert dem Prototypvektorsignal mit dem besten Prototypübereinstimmungswert zu. Ein zweiter Rangwert wird dem Prototypvektorsignal mit dem zweitbesten Prototypübereinstimmungswert zugeordnet. Mindestens der Identifikationswert und der Rangwert des erstrangigen Prototypvektorsignals und der Identifikationswert und der Rangwert des zweitrangigen Prototypvektorsignals werden als ein codiertes Äußerungsdarstellungssignal des ersten Merkmalvektorsignals ausgegeben.
- Vorzugsweise werden alle Proaotypübereinstimmungswerte für das erste Merkmalvektorsignal vom höchsten zum niedrigsten sortiert. Jedem Prototypübereinstimmungswert wird ein Rangwert zugeordnet, der die geschätzte Abweichung des zugeordneten Prototypvektorsignals von dem, ersten Merkmalvektorsignal bezüglich der geschätztem Abweichung aller anderen Prototypvektorsignale von dem ersten Merkmalvektorsignal darstellt. Der Identifikationswert und der Rangwert jedes Prototypvektorsignals werden als ein codiertes Äußerungsdarstellungssignal des ersten Merkmalvektorsignals ausgegeben.
- Es wird ebenfalls bevorzugt, daß die Erfindung weiterhin Mittel zum Speichern der codierten Äußerungsdarstellungssignale aller Merkmalvektorsignale umfaßt.
- In einer Form der Erfindung wird der Rangwert für ein ausgewähltes Prototypvektorsignal und für ein gegebenes Merkmalvektorsignal monoton auf die Zahl der anderen Prototypvektorsignale bezogen, die Prototypübereinstimmungswerte aufweisen, die besser als der Prototypübereinstimmungswert des ausgewählten Prototypvektorsignals für das gegebene Merkmalvektorsignal sind.
- Vorzugsweise umfaßt das Mittel zum Speichern von Prototypvektorsignalen elektronischen Schreib-/Lesespeicher. Das Meßmittel kann zum Beispiel ein Mikrofon umfassen.
- Ein entsprechendes Sprachcodierungsverfahren wird ebenfalls gemäß der Erfindung bereitgestellt.
- Eine Vorrichtung zur Sprachcodierung gemäß der Erfindung enthält Mittel zum Messen des Wertes mindestens eines Merkmals einer Äußerung über jedes einer Folge aufeinanderfolgender Zeitintervalle, um eine Folge von Merkmalvektorsignalen zu erzeugen, welche die Merkmalwerte darstellen. Ein Speichermittel speichert eine Vielzahl von Prototypvektorsignalen. Jedes Prototypvektorsignal hat mindestens einen Parameterwert und einen eindeutigen Identifikationswert. Ein Vergleichsmittel vergleicht die Abweichung des Merkmalwertes jedes Merkmalvektorsignals mit den Parameterwerten der Prototypvektorsignale, um Prototypübereinstimmungswerte für jedes Merkmalvektorsignal und jedes Prototypvektorsignal zu erhalten.
- Das Rangbestimmungsmittel ordnet für jedes Merkmalvektorsignal dem Prototypvektorsignal mit dem besten Prototypübereinstimmungswert einen ersten Rangwert und dem Prototypvektorsignal mit dem zweitbesten Prototypübereinstimmungswert einen zweiten Rangwert zu. Es werden Mittel zum Ausgeben mindestens des Identifikationswertes und des Rangwertes des erstrangigen Prototypvektorsignals und des Identifikationswertes und des Rangwertes des zweirangigen Prototypvektorsignals für jedes Merkmalvektorsignal als ein codiertes Äußerungsdarstellungssignal des Merkmalvektorsignals bereitgestellt, um eine Folge codierter Äußerungsdarstellungssignale zu erzeugen.
- Die Vorrichtung zur Spracherkennung enthält weiterhin Mittel zum Speichern von Wahrscheinlichkeitsmodellen für eine Vielzahl von Spracheinheiten. Mindestens ein erstes Modell für eine erste Spracheinheit hat (a) mindestens zwei Status, (b) mindestens einen Übergang, der sich von einem Status zu demselben oder einem anderen Status erstreckt, (c) eine Übergangswahrscheinlichkeit für jeden Übergang, (d) eine Vielzahl von Modellausgaben für mindestens einen Prototypvektor bei einem Übergang und (e) Ausgabewahrscheinlichkeiten bei einem Übergang für jede Modellausgabe. Jede Modellausgabe umfaßt den Identifikationswert des Prototypvektors und einen Rangwert.
- Ein Übereinstimmungswertprozessor erzeugt einen Übereinstimmungswert für jede einer Vielzahl von Spracheinheiten. Jeder Übereinstimmungswert umfaßt einen Schätzwert der Wahrscheinlichkeit, daß das Wahrscheinlichkeitsmodell der Spracheinheit eine Folge von Modellausgaben ausgeben würde, die mit einer Bezugsfolge übereinstimmt, die den Identifikationswert und Rang-Wert mindestens eines Prototypvektors von jedem codierten Äußerungsdarstellungssignal in der Folge codierter Äußerungsdarstellungssignale umfaßt. Eine oder mehrere beste Kandidaten spracheinheiten mit den besten Übereinstimmungswerten werden gekennzeichnet, und mindestens eine Sprachteileinheit einer oder mehrerer der besten Kandidatenspracheinheiten wird ausgegeben.
- Vorzugsweise wird allen Prototypvektorsignalen für jedes Merkmalvektorsignal ein Rangwert zugeordnet. Jeder Rangwert stellt die geschätzte Abweichung des zugeordneten Prototypvektorsignals von dem Merkmalvektorsignal bezüglich der geschätzten Abweichung aller Prototypvektorsignale von dem Merkmalvektorsignal dar. Für jedes Merkmalvektorsignal werden die Identifikationswerte und der Rangwert aller Prototypvektorsignale als ein codiertes Äußerungsdarstellungssignal des Merkmalvektorsignals ausgegeben.
- Vorzugsweise umfaßt jeder Übereinstimmungswert weiterhin einen Schätzwert der Wahrscheinlichkeit des Auftretens der Spracheinheit.
- Das Mittel zum Speichern von Prototypvektorsignalen kann elektronischen Schreib-/Lesespeicher umfassen. Das Meßmittel kann ein Mikrofon umfassen. Das Sprachteileinheitausgabemittel kann eine Videoanzeige, wie zum Beispiel eine Katodenstrahlröhre, eine LCD-Anzeige, oder einen Drucker enthalten. Alternativ kann das Sprachteileinheitausgabemittel einen Sprachgenerator, zum Beispiel mit einem Lautsprecher oder einem Kopfhörer enthalten.
- Ein entsprechendes Verfahren der Spracherkennung wird ebenfalls gemäß der Erfindung bereitgestellt.
- Gemäß der vorliegenden Erfindung enthält das codierte Sprachsignal durch das Verschlüsseln jedes akustischen Merkmalvektors mit den Rangwerten aller Prototypvektoren mehr Informationen als ein diskretes parametercodiertes Signal. Gleichzeitig ist · es einfacher, die Erzeugung von Prototypvektorrangwerten, als die Erzeugung akustischer Merkmalvektoren mit kontinuierlichen Parametern zu modellieren.
- Fig. 1 ist ein Blockschaltbild eines Beispiels einer Vorrichtung zur Spracherkennung gemäß der vorliegenden Erfindung.
- Fig. 2 ist eine schematische Darstellung eines Beispiels eines Wahrscheinlichkeitsmodells einer Spracheinheit.
- Fig. 3 ist ein Blockschaltbild eines Beispiels eines akustischen Merkmalwertmaßes.
- Fig. 1 ist ein Blockschaltbild eines Beispiels einer Vorrichtung zur Spracherkennung gemäß der vorliegenden Erfindung, die eine Vorrichtung zur Sprachcodierung gemäß der vorliegenden Erfindung enthält. Ein Maß des akustischen Merkmalwertes 10 wird zum Messen des Wertes mindestens eines Merkmals einer Äußerung über jedes einer Folge aufeinanderfolgender Zeitintervalle zum Erzeugen einer Folge von Merkmalvektorsignalen bereitgestellt, welche die Merkmalwerte darstellen. Tabelle 1 stellt eine hypothetische Folge eindimensionaler Merkmalvektorsignale entsprechend den Zeitintervallen t1, t2, t3, t4 beziehungsweise t5 dar. TABELLE 1
- Ein Prototypvektorspeicher 12 speichert eine Vielzahl von Prototypvektorsignalen. Jedes Prototypvektorsignal hat mindestens einen Parameterwert und einen eindeutigen Identifikationswert.
- Tabelle 2 zeigt ein hypothetisches Beispiel von fünf Prototypvektorsignalen mit je einem Parameterwert und mit Identifikationswerten P1, P2, P3, P4 beziehungsweise PS. TABELLE 2
- Ein Vergleichsprozessor 14 vergleicht die Abweichung des Merkmalwertes jedes Merkmalvektorsignals von den Parameterwerten, der Prototypvektorsignale, um Prototypübereinstimmungswerte für jedes Merkmalvektorsignal und jedes Prototypvektorsignal zu erhalten.
- Tabelle 3 stellt ein hypothetisches Beispiel von Prototypübereinstimmungswerten für die Merkmalvektorsignale von Tabelle 1 und die Prototypvektorsignale von Tabelle 2 dar. TABELLE 3
- In dem hypothetischen Beispiel werden die Merkmalvektorsignale und das Prototypvektorsignal gezeigt, als hätten sie nur eine Dimension mit nur einem Parameterwert für diese Dimension. Praktisch können die Merkmalvektorsignale und Prototypvektorsignale jedoch zum Beispiel fünfzig Dimensionen aufweisen, wobei jede Dimension zwei Parameterwerte aufweist. Die beiden Parameterwerte jeder Dimension können zum Beispiel ein Mittelwert und ein Wert der Standardabweichung (oder Varianz) sein.
- Noch bezogen auf Fig. 1 enthält die Spracherkennungs- und Sprachcodierungsvorrichtung weiterhin einen Rangwertprozessor 16, um für jedes Merkmalvektorsignal dem Prototypvektorsignal mit dem besten Prototypübereinstimmungswert einen ersten Rangwert und dem Prototypvektorsignal mit dem zweitbesten Prototypübereinstimmungswert einen zweiten Rangwert zuzuordnen.
- Vorzugsweise ordnet der Rangwertprozessor 16 für jedes Merkmalvektorsignal allen Prototypvektorsignalen einen Rangwert zu. Jeder Rangwert stellt die geschätzte Abweichung des zugeordneten Prototypvektorsignals von dem Merkmalvektorsignal bezüglich der geschätzten Abweichung aller anderen Prototypvektorsignale von dem Merkmalvektorsignal dar. Insbesondere ist der Rangwert eines ausgewählten Prototypvektorsignals für ein gegebenes Merkmalvektorsignal monoton auf die Anzahl anderer Prototypvektorsignale mit Prototypübereinstimmungswerten bezogen, die besser als der Prototypübereinstimmungswert des ausgewählten Prototypvektorsignals für das gegebene Merkmalvektorsignal sind.
- Tabelle 4 zeigt ein hypothetisches Beispiel von Prototypvektorrangwerten, die aus den Prototypübereinstimmungswerten von Tabelle 3 gewonnen werden. TABELLE 4
- Wie in den Tabellen 3 und 4 gezeigt, hat das Prototypvektorsignal PS den besten (in diesen Fall den engsten) Prototypübereinstimmungswert mit dem Merkmalvektorsignal zur Zeit t1 und wird daher dem ersten Rangwert von "1" zugeordnet. Das Prototypvektorsignal P1 hat den zweitbesten Prototypübereinstimmungswert mit dem Merkmalvektorsignal zur Zeit t1 und wird daher dem zweiten Rangwert von "2" zugeordnet. Ähnlich werden für das Merkmalvektorsignal zur Zeit t1 die Prototypvektorsignale P2, P4 und P3 den Rangwerten "3", "4" beziehungsweise "5" zugeordnet. Somit stellt jeder Rangwert die geschätzte Abweichung des zugeordneten Prototypvektorsignals von dem Merkmalvektorsignal bezüglich der geschätzten Abweichung aller anderen Prototypvektorsignale von dem Merkmalvektorsignal dar.
- Wie in Tabelle 5 gezeigt, ist es alternativ ausreichend, daß der Rangwert für ein ausgewähltes Prototypvektorsignal für ein gegebenes Merkmalvektorsignal monoton auf die Anzahl der anderen Prototypvektorsignale mit Prototypübereinstimmungswerten, die besser als der Prototypübereinstimmungswert des ausgewählten Prototypvektorsignals für das gegebene Merkmälvektorsignal sind, bezogen wird. So könnten zum. Beispiel den Prototypvektorsignalen PS, P1, P2, P4 und P3 Rangwerte von "1", "2", "3", "3" beziehungsweise "3" zugeordnet sein. Anders gesagt, die Proto typvektorsignale können entweder einzeln oder in Gruppen sortiert werden. TABELLE 5
- Zusätzlich zum Erzeugen der Rangwerte gibt der Rangwertprozessor 16 für jedes Merkmalvektorsignal mindestens den Identifikationswert und den Rangwert des erstrangigen Prototypvektorsignals und den Identifikationswert und den Rangwert des zweitrangigen Prototypvektorsignals als ein codiertes Äußerungsdarstellungssignal des Merkmalvektorsignals aus, um eine Folge codierter Äußerungsdarstellungssignale zu erzeugen.
- Es wird zu Fig. 1 zurückgekehrt, die Vorrichtung zur Sprachcodierung und Spracherkennung gemäß der Erfindung enthält vorzugsweise einen Speicher 18 für das codierte Äußerungsdarstellungssignal zum Speichern der codierten Äußerungsdarstellungssignale aller Merkmalvektorsignale.
- Ein Spracheinheitmodellspeicher 20 wird zum Speichern von Wahrscheinlichkeitsmodellen für eine Vielzahl von Spracheinheiten bereitgestellt. Die Spracheinheiten können zum Beispiel Wörter, Teilwörter (das heißt Teile von Wörtern) oder Folgen von Wörtern oder alles Vorhergehende sein.
- Der Spracheinheitmodellspeicher 20 enthält mindestens ein erstes Modell für eine erste Spracheinheit. Das Modell hat minde stens zwei Status, mindestens einen Übergang, der sich von einem Status zu demselben oder einem anderen Status erstreckt, eine Übergangswahrscheinlichkeit für jeden Übergang, eine Vielzahl von Modellausgaben für mindestens einen Prototypvektor bei einem Übergang und Ausgabewahrscheinlichkeiten bei einem Übergang für jede Modellausgabe. Jede Modellausgabe umfaßt den Identifikationswert des Prototypvektors und einen Rangwert.
- Fig. 2 und Tabellen 6 und 7 stellen hypothetische Beispiele von Wahrscheinlichkeitsmodellen der Spracheinheiten "A" und "B" dar. Jedes Modell hat vier Status 51, 52, 53 und 54. Jeder der Status 51, 52 und 53 hat einen Übergang, der sich von dem Status zurück zu demselben Status erstreckt, und einen anderen Übergang, der sich von dem Status zu dem nächsten Status erstreckt. Wie in den Tabellen 6 und 7 gezeigt, hat jeder Übergang eine Übergangswahrscheinlichkeit und eine Vielzahl von Modellausgaben. In diesen Beispielen gibt das Modell bei jedem Übergang den Identifikationswert und Rangwert nur eines Prototypvektors aus. Jedoch kann das Modell im allgemeinen bei jedem Übergang den Identifikationswert und Rangwert einer Vielzahl von Prototypvektoren ausgeben. TABELLE 6 TABELLE 7
- So stellt zum Beispiel die Modellausgabe (P5, R1) den Identifikationswert des Prototypvektors PS und einen Rangwert von "1" (R1) dar.
- Schließlich hat, wie in den Tabellen 6 und 7 gezeigt, jedes der hypothetischen Wahrscheinlichkeitsspracheinheitsmodelle eine Ausgabewahrscheinlichkeit bei jedem Übergang für jede Modellausgabe.
- Die Modellausgabewahrscheinlichkeiten der Wahrscheinlichkeitsmodelle der Spracheinheiten können durch den Vorwärts-Rückwärts-Algorithmus geschätzt und durch reduzierte Schätzung auf dieselbe Art geglättet werden, die für Markovmodelle mit diskreten Parametern, basierend auf der Äußerung eines bekannten Träiningstextes, bekannt ist. (Siehe zum Beispiel F. Jelinek, "Continuous Speech Recognition by Statistical Methods.", Proceedings of the IEEE, Bd. 64, Nr. 4, Seiten 532-556, April 1976; und F. Jelinek u. a., "Interpolated Estimation of Markov Source Parameters from Sparse Data:", Pattern Recognition in Practice, Seiten 381-402, 1980.)
- Es wird zu Fig. 1 zurückgekehrt, die Vorrichtung zur Spracherkennung gemäß der vorliegenden Erfindung enthält einen Übereinstimmungswertprozessor 22 zum Erzeugen eines Übereinstimmungswertes für jede einer Vielzahl von Spracheinheiten. Jeder Übereinstimmungswert umfaßt einen Schätzwert der Wahrscheinlichkeit, daß das Wahrscheinlichkeitsmodell der Spracheinheit eine Folge von Modellausgaben ausgeben wird, die mit einer Referenzfolge übereinstimmt, die den Identifikationswert und Rangwert von mindestens einem Prototypvektor von jedem codierten Äußerungsdarstellungssignal in der Folge codierter Äußerungsdarstellungssignale umfaßt.
- Tabellen 8 und 9 zeigen hypothetische Beispiele des Erzeugens von Übereinstimmungswerten zwischen der hypothetischen Folge von fünf codierten Äußerungsdarstellungssignalen von Tabelle 4 und den hypothetischen Wahrscheinlichkeitsspracheinheitsmodellen mit vier Status der Tabellen 6 und 7. TABELLE 8: ÜBEREINSTIMMUNGSWERTERZEUGUNG: Spracheinheit "A"
- TABELLE 9 ÜBEREINSTIMMUNGSWERTERZEUGUNG: Spracheinheit "B"
- Es gibt fünf mögliche verschiedene Pfade durch jedes Vier-Status-Modell, die in der Lage sind, eine Folge von genau fünf codierten Äußerungsdarstellungssignalen zu erzeugen. Die Wahrscheinlichkeit, daß jeder Pfad die beobachtete Folge von fünf codierten Äußerungsdarstellungssignalen erzeugt, wird für jeden Pfad geschätzt und summiert, um den Gesamtübereinstimmungswert für jedes Spracheinheitsmodell zu erzeugen. In diesem Beispiel ist der Gesamtübereinstimmungswert für das Modell der Spracheinheit "A" besser (wahrscheinlicher) als der Gesamtübereinstimmungswert für das Modell der Spracheinheit "B". Daher wird der Selektor 24 für die bester Kandidatenspracheinheiten mindestens die eine beste Kandidatenspracheinheit "A" mit dem besten Übereinstimmungswert kennzeichnen, und die Sprachteileinheitausgabe 26 wird mindestens eine Sprachteileinheit mindestens der Spracheinheit "A" ausgeben.
- Falls alle der Spracheinheiten Folgen von zwei oder mehr Wörtern umfassen und falls die Wortfolgen aller der besten Kandidatenspracheinheiten mit demselben Wort beginnen, kann die Sprachteileinheitausgabe 26 zum Beispiel dieses eine Wort ausgeben, das den Anfang aller der besten Kandidatenspracheinheiten bildet.
- Der Übereinstimmungswertprozessor 22 kann zusätzlich zum Schätzen der Wahrscheinlichkeit, daß das Wahrscheinlichkeitsmodell einer Spracheinheit eine Folge von Modellausgaben ausgeben wird, die mit einer Referenzfolge codierter Äußerungsdarstellungssignale übereinstimmt, auch die Wahrscheinlichkeit des Auftretens der Spracheinheit selbst schätzen. Die Schätzung der Wahrscheinlichkeit des Auftretens der Spracheinheit kann durch ein Sprachmodell erhalten werden. (Siehe zum Beispiel Jelinek, 1976, oben.)
- Der Vergleichsprozessor 14, der Rangwertprozessor 16, der Übereinstimmungswertprozessor 22 und der Selektor 24 für die besten Kandidatenspracheinheiten gemäß der vorliegenden Erfindung können durch geeignete Programmierung entweder ein Spezial- oder ein Universal digitalcomputersystem sein. Die Speicher 12, 18 und 20 können elektronische Computerspeicher sein. Die Sprachteileinheitausgabe 26 kann zum Beispiel eine Videoanzeige, wie zum Beispiel eine Katodenstrahlröhre, eine LCD-Anzeige, oder ein Drucker sein. Alternativ kann das Ausgabemittel eine Sprachausgabeeinheit sein, wie zum Beispiel ein Sprachsynthesizer mit einem Lautsprecher oder Kopfhörern.
- Ein Beispiel eines akustischen Merkmalwertmaßes wird in Fig. 3 gezeigt. Das Meßmittel enthält ein Mikrofon 28 zum Erzeugen eines analogen elektrischen Signals entsprechend der Äußerung. Das analoge elektrische Signal vom Mikrofon 28 wird durch den Analog-Digital-Wandler 30 in ein digitales elektrisches Signal umgewandelt. Zu diesem Zweck kann das analoge Signal durch den Analog-Digital-Wandler 30 zum Beispiel mit einer Rate von zwanzig Kilohertz abgetastet werden.
- Ein Fenstergenerator 32 erhält zum Beispiel vom Analog-Digital- Wandler 30 alle 10 ms (eine Hundertstelsekunde) einen Abtastwert des digitalen Signals mit einer Dauer von 20 ms. Jeder Abtastwert von zwanzig Millisekunden des digitalen Signals wird durch den Spektralanalysator 34 analysiert, um die Amplitude des digitalen Signalwertes in jedem der beispielsweise zwanzig Frequenzbänder zu erhalten. Vorzugsweise erzeugt der Spektralanalysator 34 auch ein Signal der einundzwanzigsten Dimension, das die Gesamtamplitude oder Gesamtleistung des Abtastwertes von zehn Millisekunden des digitalen Signals darstellt. Der Spektralanalysator 34 kann zum Beispiel ein Prozessor zur Schnellen Fouriertransformation sein. Alternativ kann er eine Bank von zwanzig Bandpaßfiltern sein.
- Die vom Spektralanalysierer 34 erzeugten einundzwanzigdimensionalen Vektorsignale können angepaßt werden, um Hintergrundrauschen durch einen adaptiven Rauschunterdrückungsprozessor 36 zu entfernen. Der Rauschunterdrückungsprozessor 36 subtrahiert einen Rauschvektor N(t) von dem Merkmalvektor F(t), der in den Rauschunterdrückungsprozessor eingegeben wird, um einen Ausgabemerkmalvektor F'(t) zu erzeugen. Der Rauschunterdrückungsprozessor 36 paßt sich an wechselnde Rauschstärken durch periodische Aktualisierung des Rauschvektors N(t) jedesmal an, wenn der vorherige Merkmalvektor F(t - 1) als Geräusch oder Geräuschlosigkeit gekennzeichnet wurde. Der Rauschvektor N(t) wird gemäß folgender Formel aktualisiert
- N(t) = N(t - 1) + k [F(t - 1) - Fp(t - 1)], [1]
- wobei N(t) der Rauschvektor zur Zeit t ist, N(t - 1) der Rauschvektor zur Zeit (t - 1) ist, k ein feststehender Parameter des adaptiven Rauschunterdrückungsmodells ist, F(t - 1) die Merkmalvektoreingabe in den Rauschunterdrückungsprozessor 36 zur Zeit (t - 1) ist und Geräusch oder Geräuschlosigkeit darstellt und Fp(t - 1) ein Geräuschlosigkeit- oder Geräüschprototypvektor vom Speicher 38 ist, der dem Merkmalvektor F(t - 1) am nächsten ist.
- Der vorherige Merkmalvektor F(t - 1) wird als Geräusch oder Geräuschlosigkeit erkannt, falls entweder (a), die Gesamtenergie des Vektors unterhalb eines Schwellenwertes liegt oder (b) der nächste Prototypvektor im Anpassungsprototypvektorspeicher 40 zu dem Merkmalvektor ein Prototyp ist, der Geräusch oder Geräuschlosigkeit darstellt. Zum Zwecke der Analyse der Gesamtenergie des Merkmalvektors kann der Schwellenwert zum Beispiel das fünfte Prozentil aller Merkmalvektoren (entsprechend sowohl Sprache als auch Geräuschlosigkeit) sein, die in den zwei Sekunden vor dem Auswerten des Merkmalvektors erzeugt wurden.
- Nach der Rauschunterdrückung wird der Merkmalvektor F'(t) durch den Normalisierungsprozessor 42 für Kurzzeitmittelwerte zur Anpassung an Variationen der Lautstärke der Eingabesprache normalisiert. Der Normalisierungsprozessor 42 normalisiert den einundzwanzigdimensionalen Merkmalvektor F'(t), um einen zwanzigdimensionalen normalisierten Merkmalvektor X(t) zu erzeugen. Die einundzwanzigste. Dimension des Merkmalvektors F'(t), welche die Gesamtamplitude oder Gesamtleistung darstellt, wird gelöscht. Jede Komponente i des normalisierten Merkmalvektors X(t) zur Zeit t kann zum Beispiel durch die Gleichung
- Xi(t) = F'&sub1;(t) - Z(t) [2]
- im logarithmischen Bereich gegeben sein, wobei F'1(t) die i-te Komponente des nichtnormalisierten Vektors zur Zeit t ist und wobei Z(t) ein gewichteter Mittelwert der Komponenten von F'(t) und Z(t - 1) gemäß den Gleichungen 3 und 4 ist:
- Z(t) = 0,9Z(t - 1) + 0,1M(t) [3]
- und wobei
- Der normalisierte zwanzigdimensionale Merkmalvektor X(t) kann weiterhin durch einen adaptiven Markierer 44 zur Anpassung an Variationen in der Ausspräche von Sprechlauten verarbeitet werden. Ein angepaßter zwanzigdimensionaler Merkmalvektor X'(t) wird durch Subtrahieren eines zwanzigdimensionalen Anpassungsvektors A(t) von dem zwanzigdimensionalen Merkmalvektor X(t) erzeugt, welcher der Eingabe des adaptiven Markierers 44 bereitgestellt wird. Der Anpassungsvektor A(t) zur Zeit t kann zum Beispiel durch die Formel
- A(t) = A(t - 1) + k[X (t - 1) - Xp(t - 1)], [5]
- gegeben sein, wobei k ein feststehender Parameter des adaptiven Markierungsmodells ist, X(t - 1) die·normalisierte zwanzigdimensionale Vektoreingabe für den adaptive Markierer 44 zur Zeit (t - 1) ist, Xp(t - 1) der Anpassungsprototypvektor (vom Anpassungsprototypspeicher 40) ist, der dem zwanzigdimensionalen Merkmalvektor X(t - 1) zur Zeit (t - 1) am nächsten ist, und A(t - 1) der Anpassungsvektor zur Zeit (t - 1) ist.
- Das zwanzigdimensionale angepaßte Merkmalvektorsignal X'(t) von dem adaptiven Markierer 44 wird vorzugsweise einem Hörmodell 46 zur Verfügung gestellt. Das Hörmodell 46 kann zum Beispiel ein Modell bereitstellen, wie das menschliche Hörsystem akustische Signale wahrnimmt. Ein Beispiel eines Hörmodells wird in der US-Patentschrift 4 980 918 von Bahl et al. mit dem Titel "Speech Recognition System with Efficient Storage and Rapid Assembly of Fhonological Graphs" beschrieben.
- Vorzugsweise berechnet das Hörmodell 46 gemäß der vorliegenden Erfindung für jedes Frequenzband i des angepaßten Merkmalvektorsignals X'(t) zur Zeit t einen neuen Parameter Ei.(t) gemäß Gleichungen 6 und 7:
- Ei(t) = K&sub1; + K&sub2;(K'i(t)) (Ni(t - 1)) [6]
- wobei,
- Ni(t) = K&sub3; · Ni(t - 1) - Ei.(t - 1) [7]
- und wobei
- K&sub1;, K&sub2; und K&sub3; feststehende Parameter des Hörmodells sind. Für jedes Zeitintervall von einer Hundertstelsekunde ist die Ausgabe des Hörmodells 46 ein modifiziertes zwanzigdimensionales Merkmalvektorsignal. Dieser Merkmalvektor wird um eine einundzwanzigste Dimension mit einem Wert gleich der Quadratwurzel aus der Summe der Quadrate der Werte der anderen zwanzig Dimensionen vergrößert.
- Für jedes Intervall von einer Hundertstelsekunde verknüpft ein Verknüpfer 48 vorzugsweise neun einundzwanzigdimensionale Merkmalvektoren, die das eine aktuelle Zeitintervall von einer Hundertstelsekunde, die vier vorhergehenden Zeitintervalle von einer Hundertstelsekunde und die vier folgenden Zeitintervalle von einer Hundertstelsekunde darstellen, um einen einzigen verbundenen Vektor von 189 Dimensionen zu erzeugen. Jeder 189- dimensionale verbundene Vektor wird vorzugsweise in einem Rotator 50 mit einer Rotationsmatrix multipliziert, um den verbundenen Vektor zu rotieren und den verbundenen Vektor auf fünfzig Dimensionen zu verringern.
- Die im Rotator 50 verwendete Rotationsmatrix kann zum Beispiel durch Klassifizieren einer Gruppe von 189-dimensionalen verbundenen Vektoren, die während einer Trainingssitzung erhalten werden, in M Klassen erhalten werden. Die Inverse der Kovarianzmatrix für alle verbundenen Vektoren in der Trainingsgruppe wird mit der Binnenwertkovarianzmatrix für alle verbundenen Vektoren in allen M Klassen multipliziert. Die ersten fünfzig Eigenvektoren der resultierenden Matrix bilden die Rotationsmatrix. (Siehe zum Beispiel "Vector Quantization Procedure For Speech Recognition Systems Using Discrete Parameter Phoneme- Based Markov Word Models" von L. R. Bahl et al., IBM Technical Disclosure Bulletin, Band 32, Nr. 7, Dezember 1989, Seiten 320 und 321).
- Der Fenstergenerator 32, der Spektralanalysator 34, der adaptive Rauschunterdrückungsprozessor 36, Normalisierungsprozessor 42 für Kurzzeitmittel, adaptive Markierer 44, Hörmodell 46, Verknüpfer 48 und Rotator 50 können geeignet programmierte Spezial- oder Universaldigitalsignalprozessoren sein. Die Prototypspeicher 38 und 40 können elektronische Computerspeicher sein.
- Die Prototypvektoren im Prototypspeicher 12 können zum Beispiel durch Gruppieren von Merkmalvektorsignalen aus einer Trainingsgruppe in eine Vielzahl von Gruppen und danach Berechnen von Mittelwert und Standardabweichung für jede Gruppe erhalten werden. Wenn der Trainingstext eine Folge von Wortsegmentmodellen (die ein Modell einer Folge von Worten bilden) umfaßt und jedes Wortsegmentmodell eine Folge von Elementarmodellen mit gekennzeichneten Positionen in den Wortsegmentmodellen umfaßt, können die Merkmalvektorsignale durch Festlegen, daß jede Gruppierung einem einzigen Elementarmodell in einer einzigen Position in einem einzigen Wortsegmentmodell entspricht, gruppiert werden. Ein derartiges Verfahren wird in der US-Patentanmeldung Nr. 730,714, eingereicht am 16. Juli 1991, mit dem Titel "Fast Algorithm for Deriving Acoustic Prototypes for Automatic Speech Recognition" genauer beschrieben.
- Alternativ können alle akustischen Merkmalvektoren, die durch die Äußerung eines Trainingstextes erzeugt werden und die einem gegebenen Elementarmodell entsprechen, durch K-Mittelwert- Euklid-Gruppierung oder K-Mittelwert-Gauß-Gruppierung oder beidem gruppiert werden. Ein derartiges Verfahren wird zum Beispiel in der Europäischen Patentanmeldung 91 121 180.3 beschrieben.
Claims (27)
1. Vorrichtung zur Sprachcodierung, die folgendes enthält:
Mittel zum Messen des Wertes mindestens eines Merkmals
einer Äußerung über jedes einer Folge aufeinanderfolgender
Zeitintervalle, um eine Folge von Merkmalvektorsignalen zu
erzeugen, welche die Merkmalwerte darstellen;
Mittel zum Speichern einer Vielzahl von
Prototypvektorsignalen, wobei jedes Prototypvektorsignal mindestens einen
Parameterwert und einen eindeutigen Identifikationswert
aufweist;
Mittel zum Vergleichen der Abweichung des Merkmalwertes
eines ersten Merkmalvektorsignals von den Parameterwerten
der Prototypvektorsignale, um
Prototypübereinstimmungshäufigkeiten für das erste Merkmalvektorsignal und jedes
Prototypvektorsignal zu erhalten;
wobei die Vorrichtung zur Sprachcodierung gekennzeichnet
ist durch:
Rangbestimmungsmittel zum Zuordnen eines erstrangigen
Wertes zu dem Prototypvektorsignal mit dem besten
Prototypübereinstimmungswert und zum Zuordnen eines,
zweitrangigen Wertes zu dem Prototypvektorsignal mit dem zweitbesten
Prototypübereinstimmungswert;
Mittel zum Ausgeben mindestens des Identifikationswertes
und des Rangwertes des erstrangigen Prototypvektorsignals
und des Identifikationswertes und des Rangwertes des
zweitrangigen Prototypvektorsignals als ein codiertes
Äußerungsdarstellungssignal des ersten Merkmalvektorsignals.
2. Vorrichtung zur Sprachcodierung gemäß Anspruch 1, dadurch
gekennzeichnet, daß:
das Rangbestimmungsmittel Mittel zur Rangbestimmung aller
Prototypübereinstimmungswerte für das erste
Merkmälvektorsignal vom höchsten zum niedrigsten und zum Zuordnen eines
Rangwertes zu jedem Prototypübereinstimmungswert umfaßt,
wobei jeder Rangwert die geschätzte Abweichung des
zugeordneten Prototypvektorsignals von dem ersten
Merkmalvektorsignal bezüglich der geschätzten Abweichung aller
anderen Prototypvektorsignale zu dem ersten
Merkmalvektorsignal darstellt; und
das Ausgabemittel Mittel zum Ausgeben des
Identifikationswertes jedes Prototypvektorsignals und des Rangwertes
jedes Prototypvektorsignals als ein codiertes
Äußerungsdarstellungssignal des ersten Merkmalvektorsignals umfaßt.
3. Vorrichtung zur Sprachcodierung gemäß Anspruch 2, die
weiterhin Mittel zum Speichern des codierten
Äußerungsdarstellungssignals des Merkmalvektorsignals umfaßt.
4. Vorrichtung zur Sprachcodierung gemäß Anspruch 3, dadurch
gekennzeichnet, daß der Rangwert für ein ausgewähltes
Prototypvektorsignal für eingegebenes Merkmalvektorsignal
monoton, auf die Anzahl anderer Prototypvektorsignale mit
Prototypübereinstimmungswerten, die besser als der
Prototypübereinstimmungswert des ausgewählten
Prototypvektorsignals für das gegebene Merkmalvektorsignal sind, bezogen
ist.
5. Vorrichtung zur Sprachcodierung gemäß Anspruch 4, dadurch
gekennzeichnet, daß das Mittel zum Speichern von
Prototypvektorsignalen elektronischen Schreib-/Lesespeicher
umfaßt.
6. Vorrichtung zur Sprachcodierung gemäß Anspruch 5, dadurch
gekennzeichnet, daß das Meßmittel ein Mikrofon umfaßt.
7. Verfahren zur Sprachcodierung, das folgendes umfaßt:
Messen des Wertes mindestens eines Merkmals einer Äußerung
über jedes einer Folge aufeinanderfolgender
Zeitintervalle, um eine Folge von Merkmalvektorsignalen zu erzeugen,
welche die Merkmalwerte darstellen;
Speichern einer Vielzahl von Prototypvektorsignalen, wobei
jedes Prototypvektorsignal mindestens einen Parameterwert
und einen eindeutigen Identifikationswert aufweist;
Vergleichen der Abweichung des Merkmalwertes eines ersten
Merkmalvektorsignals von den Parameterwerten des
Prototypvektorsignals, um Prototypübereinstimmungswerte für das
erste Merkmalvektorsignal und jedes Prototypvektorsignal
zu erhalten;
wobei das Verfahren zur Sprachcodierung durch die
folgenden Schritte gekennzeichnet ist:
Rangbestimmung des Prototypvektorsignals mit dem besten
Prototypübereinstimmungswert mit einem erstrangigen Wert -
und Rangbestimmung des Prototypvektorsignals mit dem
zweitbesten Prototypübereinstimmungswert mit einem
zweitrangigen Wert;
Ausgeben mindestens des Identifikationswertes und des
Rangwertes des erstrangigen Prototypvektorsignals und des
Identifikationswertes und des Rangwertes des zweitrangigen
Prototypvektorsignals als ein codiertes
Äußerungsdarstellungssignal des ersten Merkmalvektorsignals.
8. Verfahren zur Sprachcodierung gemäß Anspruch 7, dadurch
gekennzeichnet, daß:
der Schritt der Rangbestimmung die Rangbestimmung aller
Prototypübereinstimmungswerte für das erste
Merkmalvektorsignal vom höchsten zum niedrigsten und zum Zuordnen eines
Rangwertes zu jedem Prototypübereinstimmungswert enthält,
wobei jeder Rangwert die geschätzte Abweichung des
zugeordneten Prototypvektorsignals von dem ersten
Merkmalvektorsignal bezüglich der geschätzten Abweichung aller
anderen Prototypvektorsignale von dem ersten
Merkmalvektorsignal darstellt; und
der Schritt des Ausgebens das Ausgeben des
Identifikationswertes jedes Prototypvektorsignals und des Rangwertes
jedes Prototypvektorsignals als ein codiertes
Äußerungsdarstellungssignal des ersten Merkmalvektorsignals umfaßt.
9. Verfahren zur Sprachcodierung gemäß Anspruch 8, da
weiterhin den Schritt des Speicherns der codierten
Äußerungsdarstellungssignale aller Merkmalvektorsignale enthält.
10. Verfahren zur Sprachcodierung gemäß Anspruch 9, dadurch
gekennzeichnet, daß der Rangwert für ein ausgewähltes
Prototypvektorsignal für ein gegebenes Merkmalvektorsignal
monoton auf die Anzahl anderer Prototypvektorsignale mit
Prototypübereinstimmungswerten, die besser als der
Prototypübereinstimmungswert des ausgewählten
Prototypvektorsi
gnals für das gegebene Merkmalvektorsignal sind, bezogen
ist.
11. Vorrichtung zur Spracherkennung, dadurch gekennzeichnet,
daß sie folgendes umfaßt:
Vorrichtung zur Spracherkennung gemäß Ansprüchen 1 bis 6,
wobei jedes Merkmalvektorsignal der Folge von
Merkmalvektorsignalen so verarbeitet wird, daß es eine Folge
codierter Äußerungsdarstellungssignale erzeugt;
wobei die Vorrichtung zur Spracherkennung weiterhin durch
folgendes gekennzeichnet ist:
Mittel zum Speichern von Wahrscheinlichkeitsmodellen für
eine Vielzahl von Spracheinheiten, mindestens eines ersten
Modells für eine erste Spracheinheit mit (a) mindestens
zwei Status, (b) mindestens einem Übergang, der sich von
einem Status zu demselben oder einem anderen Status
ausdehnt, (c) einer Übergangswahrscheinlichkeit für jeden
Übergang, (d) einer Vielzahl von Modellausgaben für
mindestens einen Prototypvektor bei einem Übergang, wobei jede
Modellausgabe den Identifikationswert des Prototypvektors -
und einen Rangwert umfaßt, und (e)
Ausgabewahrscheinlichkeiten bei einem Übergang für jede Modellausgabe;
Mittel zum Erzeugen eines Übereinstimmungswertes für jede
einer Vielzahl von Spracheinheiten, wobei jeder
Übereinstimmungswert einen Schätzwert der Wahrscheinlichkeit
umfaßt, daß das Wahrscheinlichkeitsmodell der Spracheinheit
eine Folge von Modellausgaben ausgeben würde, die mit
einer Referenzfolge übereinstimmt, die den
Identifikationswert und Rangwert mindestens eines Prototypvektors von
je
dem codierten Äußerungsdarstellungssignal in der Folge
codierter Äußerungsdarstellungssignale umfaßt;
Mittel zum Kennzeichnen einer oder mehrerer bester
Kandidatenspracheinheiten mit den besten
Übereinstimmungswerten; und
Mittel zum Ausgeben mindestens einer Sprachuntereinheit
einer oder mehrerer der besten Kandidatenspracheinheiten.
12. Vorrichtung zur Spracherkennung gemäß Anspruch 11, dadurch
gekennzeichnet, daß:
das Rangbestimmungsmittel Mittel zum Zuordnen eines
Rangwertes zu allen Prototypvektorsignalen für jedes
Merkmalvektorsignal umfaßt, wobei jeder Rangwert die geschätzte
Abweichung des zugeordneten Prototypvektorsignals von dem
Merkmalvektorsignal bezüglich der geschätzten Abweichung
aller anderen Prototypvektorsignale von dem
Merkmalvektorsignal darstellt; und
das Ausgabemittel Mittel zum Ausgeben der
Identifikationswerte und der Rangwerte der Prototypvektorsignale für
jedes Merkmälvektorsignal als ein codiertes
Äußerungsdarstellungssignal des Merkmalvektorsignals umfaßt, um eine
Folge codierter Äußerungsdarstellungssignale zu erzeugen.
13. Vorrichtung zur Spracherkennung gemäß Ansprüch 12, dadurch
gekennzeichnet, daß der Rangwert für ein ausgewähltes
Prototypvektorsignal für ein gegebenes Merkmälvektorsignal
monoton auf die Anzahl anderer Prototypvektorsignale mit
Prototypübereinstimmungswerten, die besser als der
Prototypübereinstimmungswert des ausgewählten
Prototypvektorsi
gnals für das gegebene Merkmalvektorsignal sind, bezogen
ist.
14. Vorrichtung zur Spracherkennung gemäß Anspruch 11, dadurch
gekennzeichnet, daß jeder Übereinstimmungswert weiterhin
einen Schätzwert der Wahrscheinlichkeit des Auftretens der
Spracheinheit umfaßt.
15. Vorrichtung zur Spracherkennung gemäß Anspruch 14, dadurch
gekennzeichnet, daß das Mittel zum Speichern von
Prototypvektorsignalen elektronischen Schreib-/Lesespeicher
umfaßt.
16. Vorrichtung zur Spracherkennung gemäß Anspruch 15, dadurch
gekennzeichnet, daß das Meßmittel ein Mikrofon umfaßt.
17. Vorrichtung zur Spracherkennung gemäß Anspruch 16, dadurch
gekennzeichnet, daß das Ausgabemittel für
Sprachuntereinheiten eine Videoanzeige umfaßt.
18. Vorrichtung zur Spracherkennung gemäß Anspruch 17, dadurch
gekennzeichnet, daß die Videoanzeige eine
Katodenstrahlröhre umfaßt.
19. Vorrichtung zur Spracherkennung gemäß Anspruch 17, dadurch
gekennzeichnet, daß die Videoanzeige eine LCD-Anzeige
umfaßt.
20. Vorrichtung zur. Spracherkennung gemäß Anspruch 17, dadurch
gekennzeichnet, daß die Videoanzeige einen Drucker umfaßt.
21. Vorrichtung zur Spracherkennung gemäß Anspruch 16, dadurch
gekennzeichnet, daß das Ausgabemittel für
Sprachuntereinheiten einen Sprachgenerator umfaßt.
22. Vorrichtung zur Spracherkennung gemäß Anspruch 21, dadurch
gekennzeichnet, daß der Sprachgenerator einen Lautsprecher
umfaßt.
23. Vorrichtung zur Spracherkennung gemäß Anspruch 21, dadurch
gekennzeichnet, daß der Sprachgenerator einen Kopfhörer
umfaßt.
24. Verfahren der Spracherkennung, dadurch gekennzeichnet, daß
es folgendes umfaßt:
Verfahren der Sprachcodierung gemäß Ansprüchen 7 bis 10,
wobei jedes Merkmalvektorsignal der Folge von
Merkmalvektorsignalen so verarbeitet wird, daß es eine Folge
codierter Äußerungsdarstellungssignale erzeugt;
wobei das Verfahren der Spracherkennung weiterhin durch
die folgenden Schritte gekennzeichnet ist:
Speichern von Wahrscheinlichkeitsmodellen für eine
Vielzahl von Spracheinheiten, mindestens eines ersten Modells
für eine erste Spracheinheit mit (a) mindestens zwei
Status, (b) mindestens einem Übergang, der sich von einem
Status zu demselben oder einem anderen Status ausdehnt,
(c) einer Übergangswahrscheinlichkeit für jeden Übergang,
(d) einer Vielzahl von Modellausgaben für mindestens einen
Prototypvektor bei einem Übergang, wobei jede
Modellausgabe den Identifikationswert des Prototypvektors und einen
Rangwert enthält, (e) Ausgabewahrscheinlichkeiten bei
einem Übergang für jede Modellausgabe;
Erzeugen eines Übereinstimmungswertes für jede einer
Vielzahl von Spracheinheiten, wobei jeder Übereinstimmungswert
einen Schätzwert der Wahrscheinlichkeit enthält, daß das
Wahrscheinlichkeitsmodell der Spracheinheit eine Folge von
Modellausgaben ausgeben wird, die mit einer Referenzfolge
übereinstimmen, die den Identifikationswert und den
Rangwert mindestens eines Prototypvektors von jedem codierten
Äußerungsdarstellungssignal in der Folge codierter
Äußerungsdarstellungssignale umfaßt;
Identifizieren einer besten oder mehrerer bester
Kandidatenspracheinheiten mit den besten Übereinstimmungswerten;
und
Ausgeben mindestens einer Sprachuntereinheit einer oder
mehrerer der besten Kandidatenspracheinheiten.
25. Verfahren der Spracherkennung gemäß Anspruch 24, dadurch
gekennzeichnet, daß:
der Schritt der Rangbestimmung das Zuordnen eines
Rangwertes zu allen Prototypvektorsignalen für jedes
Merkmalvektorsignal umfaßt, wobei jeder Rangwert die geschätzte
Abweichung des zugeordneten Prototypvektorsignals von dem
Merkmalvektorsignal bezüglich der geschätzten Abweichung
aller anderen Prototypvektorsignale von dem
Merkmalvektorsignal enthält; und
der Schritt des Ausgebens das Ausgeben der
Identifikationswerte und der Rangwerte der Prototypvektorsignale für
jedes Merkmalvektorsignal als ein codiertes
Äußerungsdarstellungssignal des Merkmalvektorsignals enthält um eine, ·
Folge codierter Äüßerungsdarstellungssignale zu erzeugen.
26. Verfahren der Spracherkennung gemäß Anspruch 25, dadurch
gekennzeichnet, daß der Rangwert für ein ausgewähltes
Pro
totypvektorsignal für ein gegebenes Merkmalvektorsignal
monoton auf die Anzahl anderer Prototypvektorsignale, mit
Prototypübereinstimmungswerten, die besser als der
Prototypübereinstimmungswert des ausgewählten
Prototypvektorsignals für das gegebene Merkmalvektorsignal sind, bezogen
ist.
27. Verfahren der Spracherkennung gemäß Anspruch 24, dadurch
gekennzeichnet, daß jeder Übereinstimmungswert weiterhin
einen Schätzwert der Wahrscheinlichkeit des Auftretens der
Spracheinheit enthält.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/781,440 US5222146A (en) | 1991-10-23 | 1991-10-23 | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69226594D1 DE69226594D1 (de) | 1998-09-17 |
DE69226594T2 true DE69226594T2 (de) | 1999-04-22 |
Family
ID=25122749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69226594T Expired - Fee Related DE69226594T2 (de) | 1991-10-23 | 1992-09-19 | Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt. |
Country Status (5)
Country | Link |
---|---|
US (1) | US5222146A (de) |
EP (1) | EP0538626B1 (de) |
JP (1) | JP2597791B2 (de) |
CA (1) | CA2073991C (de) |
DE (1) | DE69226594T2 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112010005706B4 (de) * | 2010-06-28 | 2018-11-08 | Mitsubishi Electric Corporation | Spracherkennungsvorrichtung |
Families Citing this family (181)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5497447A (en) * | 1993-03-08 | 1996-03-05 | International Business Machines Corporation | Speech coding apparatus having acoustic prototype vectors generated by tying to elementary models and clustering around reference vectors |
CA2126380C (en) * | 1993-07-22 | 1998-07-07 | Wu Chou | Minimum error rate training of combined string models |
US5522011A (en) * | 1993-09-27 | 1996-05-28 | International Business Machines Corporation | Speech coding apparatus and method using classification rules |
WO1995009416A1 (en) * | 1993-09-30 | 1995-04-06 | Apple Computer, Inc. | Continuous reference adaptation in a pattern recognition system |
US5566272A (en) * | 1993-10-27 | 1996-10-15 | Lucent Technologies Inc. | Automatic speech recognition (ASR) processing using confidence measures |
US5539860A (en) * | 1993-12-22 | 1996-07-23 | At&T Corp. | Speech recognition using bio-signals |
US5539861A (en) * | 1993-12-22 | 1996-07-23 | At&T Corp. | Speech recognition using bio-signals |
US5727124A (en) * | 1994-06-21 | 1998-03-10 | Lucent Technologies, Inc. | Method of and apparatus for signal recognition that compensates for mismatching |
US5729656A (en) * | 1994-11-30 | 1998-03-17 | International Business Machines Corporation | Reduction of search space in speech recognition using phone boundaries and phone ranking |
US5828997A (en) * | 1995-06-07 | 1998-10-27 | Sensimetrics Corporation | Content analyzer mixing inverse-direction-probability-weighted noise to input signal |
JP3092491B2 (ja) * | 1995-08-30 | 2000-09-25 | 日本電気株式会社 | 記述長最小基準を用いたパターン適応化方式 |
US5806029A (en) * | 1995-09-15 | 1998-09-08 | At&T Corp | Signal conditioned minimum error rate training for continuous speech recognition |
US5737433A (en) * | 1996-01-16 | 1998-04-07 | Gardner; William A. | Sound environment control apparatus |
US6012027A (en) * | 1997-05-27 | 2000-01-04 | Ameritech Corporation | Criteria for usable repetitions of an utterance during speech reference enrollment |
US7630895B2 (en) * | 2000-01-21 | 2009-12-08 | At&T Intellectual Property I, L.P. | Speaker verification method |
US6023673A (en) * | 1997-06-04 | 2000-02-08 | International Business Machines Corporation | Hierarchical labeler in a speech recognition system |
US5970239A (en) * | 1997-08-11 | 1999-10-19 | International Business Machines Corporation | Apparatus and method for performing model estimation utilizing a discriminant measure |
US6151573A (en) * | 1997-09-17 | 2000-11-21 | Texas Instruments Incorporated | Source normalization training for HMM modeling of speech |
US5946653A (en) * | 1997-10-01 | 1999-08-31 | Motorola, Inc. | Speaker independent speech recognition system and method |
US5903813A (en) * | 1998-07-24 | 1999-05-11 | Advanced Materials Products, Inc. | Method of forming thin dense metal sections from reactive alloy powders |
US6980952B1 (en) * | 1998-08-15 | 2005-12-27 | Texas Instruments Incorporated | Source normalization training for HMM modeling of speech |
US6233560B1 (en) | 1998-12-16 | 2001-05-15 | International Business Machines Corporation | Method and apparatus for presenting proximal feedback in voice command systems |
US6937984B1 (en) | 1998-12-17 | 2005-08-30 | International Business Machines Corporation | Speech command input recognition system for interactive computer display with speech controlled display of recognized commands |
US8275617B1 (en) | 1998-12-17 | 2012-09-25 | Nuance Communications, Inc. | Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands |
US6192343B1 (en) | 1998-12-17 | 2001-02-20 | International Business Machines Corporation | Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms |
US7206747B1 (en) | 1998-12-16 | 2007-04-17 | International Business Machines Corporation | Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
KR100406307B1 (ko) * | 2001-08-09 | 2003-11-19 | 삼성전자주식회사 | 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템 |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
WO2003081742A1 (en) * | 2002-03-22 | 2003-10-02 | Freescale Semiconductor, Inc. | Circuit for electrostatic discharge protection |
US7209332B2 (en) * | 2002-12-10 | 2007-04-24 | Freescale Semiconductor, Inc. | Transient detection circuit |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US20120311585A1 (en) * | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
DE112011100329T5 (de) | 2010-01-25 | 2012-10-31 | Andrew Peter Nelson Jerram | Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8924222B2 (en) | 2010-07-30 | 2014-12-30 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for coding of harmonic signals |
US9208792B2 (en) | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US20130346068A1 (en) * | 2012-06-25 | 2013-12-26 | Apple Inc. | Voice-Based Image Tagging and Searching |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
AU2014214676A1 (en) | 2013-02-07 | 2015-08-27 | Apple Inc. | Voice trigger for a digital assistant |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
KR101904293B1 (ko) | 2013-03-15 | 2018-10-05 | 애플 인크. | 콘텍스트-민감성 방해 처리 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR101857648B1 (ko) | 2013-03-15 | 2018-05-15 | 애플 인크. | 지능형 디지털 어시스턴트에 의한 사용자 트레이닝 |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4831653A (en) * | 1980-11-12 | 1989-05-16 | Canon Kabushiki Kaisha | System for registering speech information to make a voice dictionary |
US4435617A (en) * | 1981-08-13 | 1984-03-06 | Griggs David T | Speech-controlled phonetic typewriter or display device using two-tier approach |
JPS58130393A (ja) * | 1982-01-29 | 1983-08-03 | 株式会社東芝 | 音声認識装置 |
US4587670A (en) * | 1982-10-15 | 1986-05-06 | At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
JPS59153599U (ja) * | 1983-03-31 | 1984-10-15 | カルソニックカンセイ株式会社 | 音声認識装置 |
US4718094A (en) * | 1984-11-19 | 1988-01-05 | International Business Machines Corp. | Speech recognition system |
US4980918A (en) * | 1985-05-09 | 1990-12-25 | International Business Machines Corporation | Speech recognition system with efficient storage and rapid assembly of phonological graphs |
US4819271A (en) * | 1985-05-29 | 1989-04-04 | International Business Machines Corporation | Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments |
US4805207A (en) * | 1985-09-09 | 1989-02-14 | Wang Laboratories, Inc. | Message taking and retrieval system |
DE3779351D1 (de) * | 1986-03-28 | 1992-07-02 | American Telephone And Telegraph Co., New York, N.Y., Us | |
JPS62267800A (ja) * | 1986-05-16 | 1987-11-20 | 株式会社日立製作所 | 音声認識制御方式 |
US4837831A (en) * | 1986-10-15 | 1989-06-06 | Dragon Systems, Inc. | Method for creating and using multiple-word sound models in speech recognition |
US4926488A (en) * | 1987-07-09 | 1990-05-15 | International Business Machines Corporation | Normalization of speech by adaptive labelling |
EP0302614B1 (de) * | 1987-07-16 | 1993-03-10 | Fujitsu Limited | Spracherkennungseinrichtung |
US4918731A (en) * | 1987-07-17 | 1990-04-17 | Ricoh Company, Ltd. | Speech recognition method and apparatus |
US4817156A (en) * | 1987-08-10 | 1989-03-28 | International Business Machines Corporation | Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker |
US5072452A (en) * | 1987-10-30 | 1991-12-10 | International Business Machines Corporation | Automatic determination of labels and Markov word models in a speech recognition system |
JPH0293597A (ja) * | 1988-09-30 | 1990-04-04 | Nippon I B M Kk | 音声認識装置 |
JP2776848B2 (ja) * | 1988-12-14 | 1998-07-16 | 株式会社日立製作所 | 雑音除去方法、それに用いるニューラルネットワークの学習方法 |
US5040213A (en) * | 1989-01-27 | 1991-08-13 | Ricoh Company, Ltd. | Method of renewing reference pattern stored in dictionary |
JPH0636156B2 (ja) * | 1989-03-13 | 1994-05-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置 |
US5020107A (en) * | 1989-12-04 | 1991-05-28 | Motorola, Inc. | Limited vocabulary speech recognition system |
US5182773A (en) * | 1991-03-22 | 1993-01-26 | International Business Machines Corporation | Speaker-independent label coding apparatus |
-
1991
- 1991-10-23 US US07/781,440 patent/US5222146A/en not_active Expired - Lifetime
-
1992
- 1992-07-16 CA CA002073991A patent/CA2073991C/en not_active Expired - Fee Related
- 1992-09-11 JP JP4243816A patent/JP2597791B2/ja not_active Expired - Fee Related
- 1992-09-19 DE DE69226594T patent/DE69226594T2/de not_active Expired - Fee Related
- 1992-09-19 EP EP92116043A patent/EP0538626B1/de not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112010005706B4 (de) * | 2010-06-28 | 2018-11-08 | Mitsubishi Electric Corporation | Spracherkennungsvorrichtung |
Also Published As
Publication number | Publication date |
---|---|
JPH05216490A (ja) | 1993-08-27 |
EP0538626A2 (de) | 1993-04-28 |
EP0538626A3 (en) | 1993-12-29 |
JP2597791B2 (ja) | 1997-04-09 |
US5222146A (en) | 1993-06-22 |
CA2073991C (en) | 1996-08-06 |
EP0538626B1 (de) | 1998-08-12 |
DE69226594D1 (de) | 1998-09-17 |
CA2073991A1 (en) | 1993-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69226594T2 (de) | Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt. | |
DE69425776T2 (de) | Spracherkennungseinrichtung mit verbesserter Ausschliessung von Wörtern und Tönen welche nicht im Vokabular enthalten sind | |
DE4397106B4 (de) | Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung | |
DE69010722T2 (de) | Spracherkennungssystem. | |
DE69423692T2 (de) | Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln | |
DE3878071T2 (de) | Sprachnormierung durch adaptive klassifizierung. | |
DE3876379T2 (de) | Automatische bestimmung von kennzeichen und markov-wortmodellen in einem spracherkennungssystem. | |
DE69010941T2 (de) | Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache. | |
DE69315374T2 (de) | Spracherkennungssystem zur naturgetreuen Sprachübersetzung | |
DE3884880T2 (de) | Billige Spracherkennungseinrichtung und Verfahren. | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE3878001T2 (de) | Spracherkennungseinrichtung unter anwendung von phonemermittlung. | |
DE69707876T2 (de) | Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung | |
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE3783154T2 (de) | Spracherkennungssystem. | |
DE69705830T2 (de) | Sprachverarbeitung | |
DE69224253T2 (de) | Sprachkodiergerät | |
DE69129015T2 (de) | Sprecherunabhängiges Gerät zur Markierungskodierung | |
DE3874049T2 (de) | Schnelle anpassung eines spracherkenners an einen neuen sprecher auf grund der daten eines referenzsprechers. | |
DE69127961T2 (de) | Verfahren zur Spracherkennung | |
DE3306730C2 (de) | ||
DE60222249T2 (de) | Spracherkennungsystem mittels impliziter sprecheradaption | |
DE69838189T2 (de) | Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen | |
DE69519453T2 (de) | Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien | |
DE69614233T2 (de) | Sprachadaptionssystem und Spracherkenner |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |