[go: up one dir, main page]

DE69226594T2 - Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt. - Google Patents

Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt.

Info

Publication number
DE69226594T2
DE69226594T2 DE69226594T DE69226594T DE69226594T2 DE 69226594 T2 DE69226594 T2 DE 69226594T2 DE 69226594 T DE69226594 T DE 69226594T DE 69226594 T DE69226594 T DE 69226594T DE 69226594 T2 DE69226594 T2 DE 69226594T2
Authority
DE
Germany
Prior art keywords
prototype
vector signal
value
signal
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69226594T
Other languages
English (en)
Other versions
DE69226594D1 (de
Inventor
Lalit R. Amawalk New York 10501 Bahl
Peter Vincent Mahopac Falls New York 10542 De Souza
Ponani S. Yorktown Heights New York 10598 Gopalakrishnan
Michael Alan White Plains New York 10404 Picheny
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Application granted granted Critical
Publication of DE69226594D1 publication Critical patent/DE69226594D1/de
Publication of DE69226594T2 publication Critical patent/DE69226594T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

  • Die Erfindung bezieht sich auf Sprachcodierungseinheiten und - verfahren, wie zum Beispiel für Spracherkennungssysteme.
  • Bei Spracherkennungssystemen ist bekannt geworden, Spracheinheiten (zum Beispiel Wörter, Teilwörter oder Woftfolgen) so zu modellieren, als erzeugten sie entweder (1) akustische Merkmalvektoren, welche die Werte der Merkmale einer Äußerung darstellen, oder (2) akustische Markierungen, die diskrete Gruppen akustischer Merkmalvektoren darstellen. Modelle, die akustische Merkmalvektoren erzeugen, werden manchmal als kontinuierliche Parametermodelle bezeichnet. Andererseits werden Modelle, die akustische Markierungen erzeugen, manchmal als diskrete Parametermodelle bezeichnet. Während kontinuierliche Parametermodelle in der Lage sind, mehr akustische Informationen als diskrete Parametermodelle darzustellen (und daher in der Lage sind, Spracheinheiten genauer darzustellen), ist es auch schwieriger, kontinuierliche Parametermodelle genau aufzubauen als diskrete Parametermodelle.
  • Es ist eine Aufgabe der Erfindung, ein Verfahren der Sprachcodierung und eine Vorrichtung bereitzustellen, die in der Lage ist, mehr akustische Informationen als bei Codierung für diskrete Parametermodelle darzustellen, und die einfacher als kontinuierliche Parametermodelle zu modellieren ist.
  • Es ist eine ändere Aufgabe der Erfindung, ein Spracherkennungssystem und -verfahren bereitzustellen, das in der Lage ist, Spracheinheiten mit mehr akustischen Informationen als ein dis kretes Parametermodell zu modellieren, und das noch einfacher als ein kontinuierliches Parametermodell zu erzeugen ist.
  • Gemäß der Erfindung enthält eine Vorrichtung zur Sprachcodierung Mittel zum Messen des Wertes mindestens eines Merkmals einer Äußerung über jedes einer Folge aufeinanderfolgender Zeitintervalle, um eine Folge von Merkmalvektorsignalen zu erzeugen, welche die Merkmalwerte darstellen. Zum Speichern einer Vielzahl von Prototypvektorsignalen werden Speichermittel zur Verfügung gestellt. Jedes Prototypvektorsignal hat mindestens einen Parameterwert und einen eindeutigen Identifikationswert. Zum Vergleichen der Abweichung des Merkmalwertes eines ersten Merkmalvektorsignals von den Parameterwerten der Prototypvektorsignale werden Mittel bereitgestellt, um Prototypübereinstimmungswerte für das erste Merkmalvektorsignal und jedes Prototypvektorsignal zu erhalten. Das Rangbestimmungsmittel ordnet einen ersten Rangwert dem Prototypvektorsignal mit dem besten Prototypübereinstimmungswert zu. Ein zweiter Rangwert wird dem Prototypvektorsignal mit dem zweitbesten Prototypübereinstimmungswert zugeordnet. Mindestens der Identifikationswert und der Rangwert des erstrangigen Prototypvektorsignals und der Identifikationswert und der Rangwert des zweitrangigen Prototypvektorsignals werden als ein codiertes Äußerungsdarstellungssignal des ersten Merkmalvektorsignals ausgegeben.
  • Vorzugsweise werden alle Proaotypübereinstimmungswerte für das erste Merkmalvektorsignal vom höchsten zum niedrigsten sortiert. Jedem Prototypübereinstimmungswert wird ein Rangwert zugeordnet, der die geschätzte Abweichung des zugeordneten Prototypvektorsignals von dem, ersten Merkmalvektorsignal bezüglich der geschätztem Abweichung aller anderen Prototypvektorsignale von dem ersten Merkmalvektorsignal darstellt. Der Identifikationswert und der Rangwert jedes Prototypvektorsignals werden als ein codiertes Äußerungsdarstellungssignal des ersten Merkmalvektorsignals ausgegeben.
  • Es wird ebenfalls bevorzugt, daß die Erfindung weiterhin Mittel zum Speichern der codierten Äußerungsdarstellungssignale aller Merkmalvektorsignale umfaßt.
  • In einer Form der Erfindung wird der Rangwert für ein ausgewähltes Prototypvektorsignal und für ein gegebenes Merkmalvektorsignal monoton auf die Zahl der anderen Prototypvektorsignale bezogen, die Prototypübereinstimmungswerte aufweisen, die besser als der Prototypübereinstimmungswert des ausgewählten Prototypvektorsignals für das gegebene Merkmalvektorsignal sind.
  • Vorzugsweise umfaßt das Mittel zum Speichern von Prototypvektorsignalen elektronischen Schreib-/Lesespeicher. Das Meßmittel kann zum Beispiel ein Mikrofon umfassen.
  • Ein entsprechendes Sprachcodierungsverfahren wird ebenfalls gemäß der Erfindung bereitgestellt.
  • Eine Vorrichtung zur Sprachcodierung gemäß der Erfindung enthält Mittel zum Messen des Wertes mindestens eines Merkmals einer Äußerung über jedes einer Folge aufeinanderfolgender Zeitintervalle, um eine Folge von Merkmalvektorsignalen zu erzeugen, welche die Merkmalwerte darstellen. Ein Speichermittel speichert eine Vielzahl von Prototypvektorsignalen. Jedes Prototypvektorsignal hat mindestens einen Parameterwert und einen eindeutigen Identifikationswert. Ein Vergleichsmittel vergleicht die Abweichung des Merkmalwertes jedes Merkmalvektorsignals mit den Parameterwerten der Prototypvektorsignale, um Prototypübereinstimmungswerte für jedes Merkmalvektorsignal und jedes Prototypvektorsignal zu erhalten.
  • Das Rangbestimmungsmittel ordnet für jedes Merkmalvektorsignal dem Prototypvektorsignal mit dem besten Prototypübereinstimmungswert einen ersten Rangwert und dem Prototypvektorsignal mit dem zweitbesten Prototypübereinstimmungswert einen zweiten Rangwert zu. Es werden Mittel zum Ausgeben mindestens des Identifikationswertes und des Rangwertes des erstrangigen Prototypvektorsignals und des Identifikationswertes und des Rangwertes des zweirangigen Prototypvektorsignals für jedes Merkmalvektorsignal als ein codiertes Äußerungsdarstellungssignal des Merkmalvektorsignals bereitgestellt, um eine Folge codierter Äußerungsdarstellungssignale zu erzeugen.
  • Die Vorrichtung zur Spracherkennung enthält weiterhin Mittel zum Speichern von Wahrscheinlichkeitsmodellen für eine Vielzahl von Spracheinheiten. Mindestens ein erstes Modell für eine erste Spracheinheit hat (a) mindestens zwei Status, (b) mindestens einen Übergang, der sich von einem Status zu demselben oder einem anderen Status erstreckt, (c) eine Übergangswahrscheinlichkeit für jeden Übergang, (d) eine Vielzahl von Modellausgaben für mindestens einen Prototypvektor bei einem Übergang und (e) Ausgabewahrscheinlichkeiten bei einem Übergang für jede Modellausgabe. Jede Modellausgabe umfaßt den Identifikationswert des Prototypvektors und einen Rangwert.
  • Ein Übereinstimmungswertprozessor erzeugt einen Übereinstimmungswert für jede einer Vielzahl von Spracheinheiten. Jeder Übereinstimmungswert umfaßt einen Schätzwert der Wahrscheinlichkeit, daß das Wahrscheinlichkeitsmodell der Spracheinheit eine Folge von Modellausgaben ausgeben würde, die mit einer Bezugsfolge übereinstimmt, die den Identifikationswert und Rang-Wert mindestens eines Prototypvektors von jedem codierten Äußerungsdarstellungssignal in der Folge codierter Äußerungsdarstellungssignale umfaßt. Eine oder mehrere beste Kandidaten spracheinheiten mit den besten Übereinstimmungswerten werden gekennzeichnet, und mindestens eine Sprachteileinheit einer oder mehrerer der besten Kandidatenspracheinheiten wird ausgegeben.
  • Vorzugsweise wird allen Prototypvektorsignalen für jedes Merkmalvektorsignal ein Rangwert zugeordnet. Jeder Rangwert stellt die geschätzte Abweichung des zugeordneten Prototypvektorsignals von dem Merkmalvektorsignal bezüglich der geschätzten Abweichung aller Prototypvektorsignale von dem Merkmalvektorsignal dar. Für jedes Merkmalvektorsignal werden die Identifikationswerte und der Rangwert aller Prototypvektorsignale als ein codiertes Äußerungsdarstellungssignal des Merkmalvektorsignals ausgegeben.
  • Vorzugsweise umfaßt jeder Übereinstimmungswert weiterhin einen Schätzwert der Wahrscheinlichkeit des Auftretens der Spracheinheit.
  • Das Mittel zum Speichern von Prototypvektorsignalen kann elektronischen Schreib-/Lesespeicher umfassen. Das Meßmittel kann ein Mikrofon umfassen. Das Sprachteileinheitausgabemittel kann eine Videoanzeige, wie zum Beispiel eine Katodenstrahlröhre, eine LCD-Anzeige, oder einen Drucker enthalten. Alternativ kann das Sprachteileinheitausgabemittel einen Sprachgenerator, zum Beispiel mit einem Lautsprecher oder einem Kopfhörer enthalten.
  • Ein entsprechendes Verfahren der Spracherkennung wird ebenfalls gemäß der Erfindung bereitgestellt.
  • Gemäß der vorliegenden Erfindung enthält das codierte Sprachsignal durch das Verschlüsseln jedes akustischen Merkmalvektors mit den Rangwerten aller Prototypvektoren mehr Informationen als ein diskretes parametercodiertes Signal. Gleichzeitig ist · es einfacher, die Erzeugung von Prototypvektorrangwerten, als die Erzeugung akustischer Merkmalvektoren mit kontinuierlichen Parametern zu modellieren.
  • BESCHREIBUNG DER ZEICHNUNGEN
  • Fig. 1 ist ein Blockschaltbild eines Beispiels einer Vorrichtung zur Spracherkennung gemäß der vorliegenden Erfindung.
  • Fig. 2 ist eine schematische Darstellung eines Beispiels eines Wahrscheinlichkeitsmodells einer Spracheinheit.
  • Fig. 3 ist ein Blockschaltbild eines Beispiels eines akustischen Merkmalwertmaßes.
  • Fig. 1 ist ein Blockschaltbild eines Beispiels einer Vorrichtung zur Spracherkennung gemäß der vorliegenden Erfindung, die eine Vorrichtung zur Sprachcodierung gemäß der vorliegenden Erfindung enthält. Ein Maß des akustischen Merkmalwertes 10 wird zum Messen des Wertes mindestens eines Merkmals einer Äußerung über jedes einer Folge aufeinanderfolgender Zeitintervalle zum Erzeugen einer Folge von Merkmalvektorsignalen bereitgestellt, welche die Merkmalwerte darstellen. Tabelle 1 stellt eine hypothetische Folge eindimensionaler Merkmalvektorsignale entsprechend den Zeitintervallen t1, t2, t3, t4 beziehungsweise t5 dar. TABELLE 1
  • Ein Prototypvektorspeicher 12 speichert eine Vielzahl von Prototypvektorsignalen. Jedes Prototypvektorsignal hat mindestens einen Parameterwert und einen eindeutigen Identifikationswert.
  • Tabelle 2 zeigt ein hypothetisches Beispiel von fünf Prototypvektorsignalen mit je einem Parameterwert und mit Identifikationswerten P1, P2, P3, P4 beziehungsweise PS. TABELLE 2
  • Ein Vergleichsprozessor 14 vergleicht die Abweichung des Merkmalwertes jedes Merkmalvektorsignals von den Parameterwerten, der Prototypvektorsignale, um Prototypübereinstimmungswerte für jedes Merkmalvektorsignal und jedes Prototypvektorsignal zu erhalten.
  • Tabelle 3 stellt ein hypothetisches Beispiel von Prototypübereinstimmungswerten für die Merkmalvektorsignale von Tabelle 1 und die Prototypvektorsignale von Tabelle 2 dar. TABELLE 3
  • In dem hypothetischen Beispiel werden die Merkmalvektorsignale und das Prototypvektorsignal gezeigt, als hätten sie nur eine Dimension mit nur einem Parameterwert für diese Dimension. Praktisch können die Merkmalvektorsignale und Prototypvektorsignale jedoch zum Beispiel fünfzig Dimensionen aufweisen, wobei jede Dimension zwei Parameterwerte aufweist. Die beiden Parameterwerte jeder Dimension können zum Beispiel ein Mittelwert und ein Wert der Standardabweichung (oder Varianz) sein.
  • Noch bezogen auf Fig. 1 enthält die Spracherkennungs- und Sprachcodierungsvorrichtung weiterhin einen Rangwertprozessor 16, um für jedes Merkmalvektorsignal dem Prototypvektorsignal mit dem besten Prototypübereinstimmungswert einen ersten Rangwert und dem Prototypvektorsignal mit dem zweitbesten Prototypübereinstimmungswert einen zweiten Rangwert zuzuordnen.
  • Vorzugsweise ordnet der Rangwertprozessor 16 für jedes Merkmalvektorsignal allen Prototypvektorsignalen einen Rangwert zu. Jeder Rangwert stellt die geschätzte Abweichung des zugeordneten Prototypvektorsignals von dem Merkmalvektorsignal bezüglich der geschätzten Abweichung aller anderen Prototypvektorsignale von dem Merkmalvektorsignal dar. Insbesondere ist der Rangwert eines ausgewählten Prototypvektorsignals für ein gegebenes Merkmalvektorsignal monoton auf die Anzahl anderer Prototypvektorsignale mit Prototypübereinstimmungswerten bezogen, die besser als der Prototypübereinstimmungswert des ausgewählten Prototypvektorsignals für das gegebene Merkmalvektorsignal sind.
  • Tabelle 4 zeigt ein hypothetisches Beispiel von Prototypvektorrangwerten, die aus den Prototypübereinstimmungswerten von Tabelle 3 gewonnen werden. TABELLE 4
  • Wie in den Tabellen 3 und 4 gezeigt, hat das Prototypvektorsignal PS den besten (in diesen Fall den engsten) Prototypübereinstimmungswert mit dem Merkmalvektorsignal zur Zeit t1 und wird daher dem ersten Rangwert von "1" zugeordnet. Das Prototypvektorsignal P1 hat den zweitbesten Prototypübereinstimmungswert mit dem Merkmalvektorsignal zur Zeit t1 und wird daher dem zweiten Rangwert von "2" zugeordnet. Ähnlich werden für das Merkmalvektorsignal zur Zeit t1 die Prototypvektorsignale P2, P4 und P3 den Rangwerten "3", "4" beziehungsweise "5" zugeordnet. Somit stellt jeder Rangwert die geschätzte Abweichung des zugeordneten Prototypvektorsignals von dem Merkmalvektorsignal bezüglich der geschätzten Abweichung aller anderen Prototypvektorsignale von dem Merkmalvektorsignal dar.
  • Wie in Tabelle 5 gezeigt, ist es alternativ ausreichend, daß der Rangwert für ein ausgewähltes Prototypvektorsignal für ein gegebenes Merkmalvektorsignal monoton auf die Anzahl der anderen Prototypvektorsignale mit Prototypübereinstimmungswerten, die besser als der Prototypübereinstimmungswert des ausgewählten Prototypvektorsignals für das gegebene Merkmälvektorsignal sind, bezogen wird. So könnten zum. Beispiel den Prototypvektorsignalen PS, P1, P2, P4 und P3 Rangwerte von "1", "2", "3", "3" beziehungsweise "3" zugeordnet sein. Anders gesagt, die Proto typvektorsignale können entweder einzeln oder in Gruppen sortiert werden. TABELLE 5
  • Zusätzlich zum Erzeugen der Rangwerte gibt der Rangwertprozessor 16 für jedes Merkmalvektorsignal mindestens den Identifikationswert und den Rangwert des erstrangigen Prototypvektorsignals und den Identifikationswert und den Rangwert des zweitrangigen Prototypvektorsignals als ein codiertes Äußerungsdarstellungssignal des Merkmalvektorsignals aus, um eine Folge codierter Äußerungsdarstellungssignale zu erzeugen.
  • Es wird zu Fig. 1 zurückgekehrt, die Vorrichtung zur Sprachcodierung und Spracherkennung gemäß der Erfindung enthält vorzugsweise einen Speicher 18 für das codierte Äußerungsdarstellungssignal zum Speichern der codierten Äußerungsdarstellungssignale aller Merkmalvektorsignale.
  • Ein Spracheinheitmodellspeicher 20 wird zum Speichern von Wahrscheinlichkeitsmodellen für eine Vielzahl von Spracheinheiten bereitgestellt. Die Spracheinheiten können zum Beispiel Wörter, Teilwörter (das heißt Teile von Wörtern) oder Folgen von Wörtern oder alles Vorhergehende sein.
  • Der Spracheinheitmodellspeicher 20 enthält mindestens ein erstes Modell für eine erste Spracheinheit. Das Modell hat minde stens zwei Status, mindestens einen Übergang, der sich von einem Status zu demselben oder einem anderen Status erstreckt, eine Übergangswahrscheinlichkeit für jeden Übergang, eine Vielzahl von Modellausgaben für mindestens einen Prototypvektor bei einem Übergang und Ausgabewahrscheinlichkeiten bei einem Übergang für jede Modellausgabe. Jede Modellausgabe umfaßt den Identifikationswert des Prototypvektors und einen Rangwert.
  • Fig. 2 und Tabellen 6 und 7 stellen hypothetische Beispiele von Wahrscheinlichkeitsmodellen der Spracheinheiten "A" und "B" dar. Jedes Modell hat vier Status 51, 52, 53 und 54. Jeder der Status 51, 52 und 53 hat einen Übergang, der sich von dem Status zurück zu demselben Status erstreckt, und einen anderen Übergang, der sich von dem Status zu dem nächsten Status erstreckt. Wie in den Tabellen 6 und 7 gezeigt, hat jeder Übergang eine Übergangswahrscheinlichkeit und eine Vielzahl von Modellausgaben. In diesen Beispielen gibt das Modell bei jedem Übergang den Identifikationswert und Rangwert nur eines Prototypvektors aus. Jedoch kann das Modell im allgemeinen bei jedem Übergang den Identifikationswert und Rangwert einer Vielzahl von Prototypvektoren ausgeben. TABELLE 6 TABELLE 7
  • So stellt zum Beispiel die Modellausgabe (P5, R1) den Identifikationswert des Prototypvektors PS und einen Rangwert von "1" (R1) dar.
  • Schließlich hat, wie in den Tabellen 6 und 7 gezeigt, jedes der hypothetischen Wahrscheinlichkeitsspracheinheitsmodelle eine Ausgabewahrscheinlichkeit bei jedem Übergang für jede Modellausgabe.
  • Die Modellausgabewahrscheinlichkeiten der Wahrscheinlichkeitsmodelle der Spracheinheiten können durch den Vorwärts-Rückwärts-Algorithmus geschätzt und durch reduzierte Schätzung auf dieselbe Art geglättet werden, die für Markovmodelle mit diskreten Parametern, basierend auf der Äußerung eines bekannten Träiningstextes, bekannt ist. (Siehe zum Beispiel F. Jelinek, "Continuous Speech Recognition by Statistical Methods.", Proceedings of the IEEE, Bd. 64, Nr. 4, Seiten 532-556, April 1976; und F. Jelinek u. a., "Interpolated Estimation of Markov Source Parameters from Sparse Data:", Pattern Recognition in Practice, Seiten 381-402, 1980.)
  • Es wird zu Fig. 1 zurückgekehrt, die Vorrichtung zur Spracherkennung gemäß der vorliegenden Erfindung enthält einen Übereinstimmungswertprozessor 22 zum Erzeugen eines Übereinstimmungswertes für jede einer Vielzahl von Spracheinheiten. Jeder Übereinstimmungswert umfaßt einen Schätzwert der Wahrscheinlichkeit, daß das Wahrscheinlichkeitsmodell der Spracheinheit eine Folge von Modellausgaben ausgeben wird, die mit einer Referenzfolge übereinstimmt, die den Identifikationswert und Rangwert von mindestens einem Prototypvektor von jedem codierten Äußerungsdarstellungssignal in der Folge codierter Äußerungsdarstellungssignale umfaßt.
  • Tabellen 8 und 9 zeigen hypothetische Beispiele des Erzeugens von Übereinstimmungswerten zwischen der hypothetischen Folge von fünf codierten Äußerungsdarstellungssignalen von Tabelle 4 und den hypothetischen Wahrscheinlichkeitsspracheinheitsmodellen mit vier Status der Tabellen 6 und 7. TABELLE 8: ÜBEREINSTIMMUNGSWERTERZEUGUNG: Spracheinheit "A"
  • TABELLE 9 ÜBEREINSTIMMUNGSWERTERZEUGUNG: Spracheinheit "B"
  • Es gibt fünf mögliche verschiedene Pfade durch jedes Vier-Status-Modell, die in der Lage sind, eine Folge von genau fünf codierten Äußerungsdarstellungssignalen zu erzeugen. Die Wahrscheinlichkeit, daß jeder Pfad die beobachtete Folge von fünf codierten Äußerungsdarstellungssignalen erzeugt, wird für jeden Pfad geschätzt und summiert, um den Gesamtübereinstimmungswert für jedes Spracheinheitsmodell zu erzeugen. In diesem Beispiel ist der Gesamtübereinstimmungswert für das Modell der Spracheinheit "A" besser (wahrscheinlicher) als der Gesamtübereinstimmungswert für das Modell der Spracheinheit "B". Daher wird der Selektor 24 für die bester Kandidatenspracheinheiten mindestens die eine beste Kandidatenspracheinheit "A" mit dem besten Übereinstimmungswert kennzeichnen, und die Sprachteileinheitausgabe 26 wird mindestens eine Sprachteileinheit mindestens der Spracheinheit "A" ausgeben.
  • Falls alle der Spracheinheiten Folgen von zwei oder mehr Wörtern umfassen und falls die Wortfolgen aller der besten Kandidatenspracheinheiten mit demselben Wort beginnen, kann die Sprachteileinheitausgabe 26 zum Beispiel dieses eine Wort ausgeben, das den Anfang aller der besten Kandidatenspracheinheiten bildet.
  • Der Übereinstimmungswertprozessor 22 kann zusätzlich zum Schätzen der Wahrscheinlichkeit, daß das Wahrscheinlichkeitsmodell einer Spracheinheit eine Folge von Modellausgaben ausgeben wird, die mit einer Referenzfolge codierter Äußerungsdarstellungssignale übereinstimmt, auch die Wahrscheinlichkeit des Auftretens der Spracheinheit selbst schätzen. Die Schätzung der Wahrscheinlichkeit des Auftretens der Spracheinheit kann durch ein Sprachmodell erhalten werden. (Siehe zum Beispiel Jelinek, 1976, oben.)
  • Der Vergleichsprozessor 14, der Rangwertprozessor 16, der Übereinstimmungswertprozessor 22 und der Selektor 24 für die besten Kandidatenspracheinheiten gemäß der vorliegenden Erfindung können durch geeignete Programmierung entweder ein Spezial- oder ein Universal digitalcomputersystem sein. Die Speicher 12, 18 und 20 können elektronische Computerspeicher sein. Die Sprachteileinheitausgabe 26 kann zum Beispiel eine Videoanzeige, wie zum Beispiel eine Katodenstrahlröhre, eine LCD-Anzeige, oder ein Drucker sein. Alternativ kann das Ausgabemittel eine Sprachausgabeeinheit sein, wie zum Beispiel ein Sprachsynthesizer mit einem Lautsprecher oder Kopfhörern.
  • Ein Beispiel eines akustischen Merkmalwertmaßes wird in Fig. 3 gezeigt. Das Meßmittel enthält ein Mikrofon 28 zum Erzeugen eines analogen elektrischen Signals entsprechend der Äußerung. Das analoge elektrische Signal vom Mikrofon 28 wird durch den Analog-Digital-Wandler 30 in ein digitales elektrisches Signal umgewandelt. Zu diesem Zweck kann das analoge Signal durch den Analog-Digital-Wandler 30 zum Beispiel mit einer Rate von zwanzig Kilohertz abgetastet werden.
  • Ein Fenstergenerator 32 erhält zum Beispiel vom Analog-Digital- Wandler 30 alle 10 ms (eine Hundertstelsekunde) einen Abtastwert des digitalen Signals mit einer Dauer von 20 ms. Jeder Abtastwert von zwanzig Millisekunden des digitalen Signals wird durch den Spektralanalysator 34 analysiert, um die Amplitude des digitalen Signalwertes in jedem der beispielsweise zwanzig Frequenzbänder zu erhalten. Vorzugsweise erzeugt der Spektralanalysator 34 auch ein Signal der einundzwanzigsten Dimension, das die Gesamtamplitude oder Gesamtleistung des Abtastwertes von zehn Millisekunden des digitalen Signals darstellt. Der Spektralanalysator 34 kann zum Beispiel ein Prozessor zur Schnellen Fouriertransformation sein. Alternativ kann er eine Bank von zwanzig Bandpaßfiltern sein.
  • Die vom Spektralanalysierer 34 erzeugten einundzwanzigdimensionalen Vektorsignale können angepaßt werden, um Hintergrundrauschen durch einen adaptiven Rauschunterdrückungsprozessor 36 zu entfernen. Der Rauschunterdrückungsprozessor 36 subtrahiert einen Rauschvektor N(t) von dem Merkmalvektor F(t), der in den Rauschunterdrückungsprozessor eingegeben wird, um einen Ausgabemerkmalvektor F'(t) zu erzeugen. Der Rauschunterdrückungsprozessor 36 paßt sich an wechselnde Rauschstärken durch periodische Aktualisierung des Rauschvektors N(t) jedesmal an, wenn der vorherige Merkmalvektor F(t - 1) als Geräusch oder Geräuschlosigkeit gekennzeichnet wurde. Der Rauschvektor N(t) wird gemäß folgender Formel aktualisiert
  • N(t) = N(t - 1) + k [F(t - 1) - Fp(t - 1)], [1]
  • wobei N(t) der Rauschvektor zur Zeit t ist, N(t - 1) der Rauschvektor zur Zeit (t - 1) ist, k ein feststehender Parameter des adaptiven Rauschunterdrückungsmodells ist, F(t - 1) die Merkmalvektoreingabe in den Rauschunterdrückungsprozessor 36 zur Zeit (t - 1) ist und Geräusch oder Geräuschlosigkeit darstellt und Fp(t - 1) ein Geräuschlosigkeit- oder Geräüschprototypvektor vom Speicher 38 ist, der dem Merkmalvektor F(t - 1) am nächsten ist.
  • Der vorherige Merkmalvektor F(t - 1) wird als Geräusch oder Geräuschlosigkeit erkannt, falls entweder (a), die Gesamtenergie des Vektors unterhalb eines Schwellenwertes liegt oder (b) der nächste Prototypvektor im Anpassungsprototypvektorspeicher 40 zu dem Merkmalvektor ein Prototyp ist, der Geräusch oder Geräuschlosigkeit darstellt. Zum Zwecke der Analyse der Gesamtenergie des Merkmalvektors kann der Schwellenwert zum Beispiel das fünfte Prozentil aller Merkmalvektoren (entsprechend sowohl Sprache als auch Geräuschlosigkeit) sein, die in den zwei Sekunden vor dem Auswerten des Merkmalvektors erzeugt wurden.
  • Nach der Rauschunterdrückung wird der Merkmalvektor F'(t) durch den Normalisierungsprozessor 42 für Kurzzeitmittelwerte zur Anpassung an Variationen der Lautstärke der Eingabesprache normalisiert. Der Normalisierungsprozessor 42 normalisiert den einundzwanzigdimensionalen Merkmalvektor F'(t), um einen zwanzigdimensionalen normalisierten Merkmalvektor X(t) zu erzeugen. Die einundzwanzigste. Dimension des Merkmalvektors F'(t), welche die Gesamtamplitude oder Gesamtleistung darstellt, wird gelöscht. Jede Komponente i des normalisierten Merkmalvektors X(t) zur Zeit t kann zum Beispiel durch die Gleichung
  • Xi(t) = F'&sub1;(t) - Z(t) [2]
  • im logarithmischen Bereich gegeben sein, wobei F'1(t) die i-te Komponente des nichtnormalisierten Vektors zur Zeit t ist und wobei Z(t) ein gewichteter Mittelwert der Komponenten von F'(t) und Z(t - 1) gemäß den Gleichungen 3 und 4 ist:
  • Z(t) = 0,9Z(t - 1) + 0,1M(t) [3]
  • und wobei
  • Der normalisierte zwanzigdimensionale Merkmalvektor X(t) kann weiterhin durch einen adaptiven Markierer 44 zur Anpassung an Variationen in der Ausspräche von Sprechlauten verarbeitet werden. Ein angepaßter zwanzigdimensionaler Merkmalvektor X'(t) wird durch Subtrahieren eines zwanzigdimensionalen Anpassungsvektors A(t) von dem zwanzigdimensionalen Merkmalvektor X(t) erzeugt, welcher der Eingabe des adaptiven Markierers 44 bereitgestellt wird. Der Anpassungsvektor A(t) zur Zeit t kann zum Beispiel durch die Formel
  • A(t) = A(t - 1) + k[X (t - 1) - Xp(t - 1)], [5]
  • gegeben sein, wobei k ein feststehender Parameter des adaptiven Markierungsmodells ist, X(t - 1) die·normalisierte zwanzigdimensionale Vektoreingabe für den adaptive Markierer 44 zur Zeit (t - 1) ist, Xp(t - 1) der Anpassungsprototypvektor (vom Anpassungsprototypspeicher 40) ist, der dem zwanzigdimensionalen Merkmalvektor X(t - 1) zur Zeit (t - 1) am nächsten ist, und A(t - 1) der Anpassungsvektor zur Zeit (t - 1) ist.
  • Das zwanzigdimensionale angepaßte Merkmalvektorsignal X'(t) von dem adaptiven Markierer 44 wird vorzugsweise einem Hörmodell 46 zur Verfügung gestellt. Das Hörmodell 46 kann zum Beispiel ein Modell bereitstellen, wie das menschliche Hörsystem akustische Signale wahrnimmt. Ein Beispiel eines Hörmodells wird in der US-Patentschrift 4 980 918 von Bahl et al. mit dem Titel "Speech Recognition System with Efficient Storage and Rapid Assembly of Fhonological Graphs" beschrieben.
  • Vorzugsweise berechnet das Hörmodell 46 gemäß der vorliegenden Erfindung für jedes Frequenzband i des angepaßten Merkmalvektorsignals X'(t) zur Zeit t einen neuen Parameter Ei.(t) gemäß Gleichungen 6 und 7:
  • Ei(t) = K&sub1; + K&sub2;(K'i(t)) (Ni(t - 1)) [6]
  • wobei,
  • Ni(t) = K&sub3; · Ni(t - 1) - Ei.(t - 1) [7]
  • und wobei
  • K&sub1;, K&sub2; und K&sub3; feststehende Parameter des Hörmodells sind. Für jedes Zeitintervall von einer Hundertstelsekunde ist die Ausgabe des Hörmodells 46 ein modifiziertes zwanzigdimensionales Merkmalvektorsignal. Dieser Merkmalvektor wird um eine einundzwanzigste Dimension mit einem Wert gleich der Quadratwurzel aus der Summe der Quadrate der Werte der anderen zwanzig Dimensionen vergrößert.
  • Für jedes Intervall von einer Hundertstelsekunde verknüpft ein Verknüpfer 48 vorzugsweise neun einundzwanzigdimensionale Merkmalvektoren, die das eine aktuelle Zeitintervall von einer Hundertstelsekunde, die vier vorhergehenden Zeitintervalle von einer Hundertstelsekunde und die vier folgenden Zeitintervalle von einer Hundertstelsekunde darstellen, um einen einzigen verbundenen Vektor von 189 Dimensionen zu erzeugen. Jeder 189- dimensionale verbundene Vektor wird vorzugsweise in einem Rotator 50 mit einer Rotationsmatrix multipliziert, um den verbundenen Vektor zu rotieren und den verbundenen Vektor auf fünfzig Dimensionen zu verringern.
  • Die im Rotator 50 verwendete Rotationsmatrix kann zum Beispiel durch Klassifizieren einer Gruppe von 189-dimensionalen verbundenen Vektoren, die während einer Trainingssitzung erhalten werden, in M Klassen erhalten werden. Die Inverse der Kovarianzmatrix für alle verbundenen Vektoren in der Trainingsgruppe wird mit der Binnenwertkovarianzmatrix für alle verbundenen Vektoren in allen M Klassen multipliziert. Die ersten fünfzig Eigenvektoren der resultierenden Matrix bilden die Rotationsmatrix. (Siehe zum Beispiel "Vector Quantization Procedure For Speech Recognition Systems Using Discrete Parameter Phoneme- Based Markov Word Models" von L. R. Bahl et al., IBM Technical Disclosure Bulletin, Band 32, Nr. 7, Dezember 1989, Seiten 320 und 321).
  • Der Fenstergenerator 32, der Spektralanalysator 34, der adaptive Rauschunterdrückungsprozessor 36, Normalisierungsprozessor 42 für Kurzzeitmittel, adaptive Markierer 44, Hörmodell 46, Verknüpfer 48 und Rotator 50 können geeignet programmierte Spezial- oder Universaldigitalsignalprozessoren sein. Die Prototypspeicher 38 und 40 können elektronische Computerspeicher sein.
  • Die Prototypvektoren im Prototypspeicher 12 können zum Beispiel durch Gruppieren von Merkmalvektorsignalen aus einer Trainingsgruppe in eine Vielzahl von Gruppen und danach Berechnen von Mittelwert und Standardabweichung für jede Gruppe erhalten werden. Wenn der Trainingstext eine Folge von Wortsegmentmodellen (die ein Modell einer Folge von Worten bilden) umfaßt und jedes Wortsegmentmodell eine Folge von Elementarmodellen mit gekennzeichneten Positionen in den Wortsegmentmodellen umfaßt, können die Merkmalvektorsignale durch Festlegen, daß jede Gruppierung einem einzigen Elementarmodell in einer einzigen Position in einem einzigen Wortsegmentmodell entspricht, gruppiert werden. Ein derartiges Verfahren wird in der US-Patentanmeldung Nr. 730,714, eingereicht am 16. Juli 1991, mit dem Titel "Fast Algorithm for Deriving Acoustic Prototypes for Automatic Speech Recognition" genauer beschrieben.
  • Alternativ können alle akustischen Merkmalvektoren, die durch die Äußerung eines Trainingstextes erzeugt werden und die einem gegebenen Elementarmodell entsprechen, durch K-Mittelwert- Euklid-Gruppierung oder K-Mittelwert-Gauß-Gruppierung oder beidem gruppiert werden. Ein derartiges Verfahren wird zum Beispiel in der Europäischen Patentanmeldung 91 121 180.3 beschrieben.

Claims (27)

1. Vorrichtung zur Sprachcodierung, die folgendes enthält:
Mittel zum Messen des Wertes mindestens eines Merkmals einer Äußerung über jedes einer Folge aufeinanderfolgender Zeitintervalle, um eine Folge von Merkmalvektorsignalen zu erzeugen, welche die Merkmalwerte darstellen;
Mittel zum Speichern einer Vielzahl von Prototypvektorsignalen, wobei jedes Prototypvektorsignal mindestens einen Parameterwert und einen eindeutigen Identifikationswert aufweist;
Mittel zum Vergleichen der Abweichung des Merkmalwertes eines ersten Merkmalvektorsignals von den Parameterwerten der Prototypvektorsignale, um Prototypübereinstimmungshäufigkeiten für das erste Merkmalvektorsignal und jedes Prototypvektorsignal zu erhalten;
wobei die Vorrichtung zur Sprachcodierung gekennzeichnet ist durch:
Rangbestimmungsmittel zum Zuordnen eines erstrangigen Wertes zu dem Prototypvektorsignal mit dem besten Prototypübereinstimmungswert und zum Zuordnen eines, zweitrangigen Wertes zu dem Prototypvektorsignal mit dem zweitbesten Prototypübereinstimmungswert;
Mittel zum Ausgeben mindestens des Identifikationswertes und des Rangwertes des erstrangigen Prototypvektorsignals und des Identifikationswertes und des Rangwertes des zweitrangigen Prototypvektorsignals als ein codiertes Äußerungsdarstellungssignal des ersten Merkmalvektorsignals.
2. Vorrichtung zur Sprachcodierung gemäß Anspruch 1, dadurch gekennzeichnet, daß:
das Rangbestimmungsmittel Mittel zur Rangbestimmung aller Prototypübereinstimmungswerte für das erste Merkmälvektorsignal vom höchsten zum niedrigsten und zum Zuordnen eines Rangwertes zu jedem Prototypübereinstimmungswert umfaßt, wobei jeder Rangwert die geschätzte Abweichung des zugeordneten Prototypvektorsignals von dem ersten Merkmalvektorsignal bezüglich der geschätzten Abweichung aller anderen Prototypvektorsignale zu dem ersten Merkmalvektorsignal darstellt; und
das Ausgabemittel Mittel zum Ausgeben des Identifikationswertes jedes Prototypvektorsignals und des Rangwertes jedes Prototypvektorsignals als ein codiertes Äußerungsdarstellungssignal des ersten Merkmalvektorsignals umfaßt.
3. Vorrichtung zur Sprachcodierung gemäß Anspruch 2, die weiterhin Mittel zum Speichern des codierten Äußerungsdarstellungssignals des Merkmalvektorsignals umfaßt.
4. Vorrichtung zur Sprachcodierung gemäß Anspruch 3, dadurch gekennzeichnet, daß der Rangwert für ein ausgewähltes Prototypvektorsignal für eingegebenes Merkmalvektorsignal monoton, auf die Anzahl anderer Prototypvektorsignale mit Prototypübereinstimmungswerten, die besser als der Prototypübereinstimmungswert des ausgewählten Prototypvektorsignals für das gegebene Merkmalvektorsignal sind, bezogen ist.
5. Vorrichtung zur Sprachcodierung gemäß Anspruch 4, dadurch gekennzeichnet, daß das Mittel zum Speichern von Prototypvektorsignalen elektronischen Schreib-/Lesespeicher umfaßt.
6. Vorrichtung zur Sprachcodierung gemäß Anspruch 5, dadurch gekennzeichnet, daß das Meßmittel ein Mikrofon umfaßt.
7. Verfahren zur Sprachcodierung, das folgendes umfaßt: Messen des Wertes mindestens eines Merkmals einer Äußerung über jedes einer Folge aufeinanderfolgender Zeitintervalle, um eine Folge von Merkmalvektorsignalen zu erzeugen, welche die Merkmalwerte darstellen;
Speichern einer Vielzahl von Prototypvektorsignalen, wobei jedes Prototypvektorsignal mindestens einen Parameterwert und einen eindeutigen Identifikationswert aufweist;
Vergleichen der Abweichung des Merkmalwertes eines ersten Merkmalvektorsignals von den Parameterwerten des Prototypvektorsignals, um Prototypübereinstimmungswerte für das erste Merkmalvektorsignal und jedes Prototypvektorsignal zu erhalten;
wobei das Verfahren zur Sprachcodierung durch die folgenden Schritte gekennzeichnet ist:
Rangbestimmung des Prototypvektorsignals mit dem besten Prototypübereinstimmungswert mit einem erstrangigen Wert - und Rangbestimmung des Prototypvektorsignals mit dem zweitbesten Prototypübereinstimmungswert mit einem zweitrangigen Wert;
Ausgeben mindestens des Identifikationswertes und des Rangwertes des erstrangigen Prototypvektorsignals und des Identifikationswertes und des Rangwertes des zweitrangigen Prototypvektorsignals als ein codiertes Äußerungsdarstellungssignal des ersten Merkmalvektorsignals.
8. Verfahren zur Sprachcodierung gemäß Anspruch 7, dadurch gekennzeichnet, daß:
der Schritt der Rangbestimmung die Rangbestimmung aller Prototypübereinstimmungswerte für das erste Merkmalvektorsignal vom höchsten zum niedrigsten und zum Zuordnen eines Rangwertes zu jedem Prototypübereinstimmungswert enthält, wobei jeder Rangwert die geschätzte Abweichung des zugeordneten Prototypvektorsignals von dem ersten Merkmalvektorsignal bezüglich der geschätzten Abweichung aller anderen Prototypvektorsignale von dem ersten Merkmalvektorsignal darstellt; und
der Schritt des Ausgebens das Ausgeben des Identifikationswertes jedes Prototypvektorsignals und des Rangwertes jedes Prototypvektorsignals als ein codiertes Äußerungsdarstellungssignal des ersten Merkmalvektorsignals umfaßt.
9. Verfahren zur Sprachcodierung gemäß Anspruch 8, da weiterhin den Schritt des Speicherns der codierten Äußerungsdarstellungssignale aller Merkmalvektorsignale enthält.
10. Verfahren zur Sprachcodierung gemäß Anspruch 9, dadurch gekennzeichnet, daß der Rangwert für ein ausgewähltes Prototypvektorsignal für ein gegebenes Merkmalvektorsignal monoton auf die Anzahl anderer Prototypvektorsignale mit Prototypübereinstimmungswerten, die besser als der Prototypübereinstimmungswert des ausgewählten Prototypvektorsi gnals für das gegebene Merkmalvektorsignal sind, bezogen ist.
11. Vorrichtung zur Spracherkennung, dadurch gekennzeichnet, daß sie folgendes umfaßt:
Vorrichtung zur Spracherkennung gemäß Ansprüchen 1 bis 6, wobei jedes Merkmalvektorsignal der Folge von Merkmalvektorsignalen so verarbeitet wird, daß es eine Folge codierter Äußerungsdarstellungssignale erzeugt;
wobei die Vorrichtung zur Spracherkennung weiterhin durch folgendes gekennzeichnet ist:
Mittel zum Speichern von Wahrscheinlichkeitsmodellen für eine Vielzahl von Spracheinheiten, mindestens eines ersten Modells für eine erste Spracheinheit mit (a) mindestens zwei Status, (b) mindestens einem Übergang, der sich von einem Status zu demselben oder einem anderen Status ausdehnt, (c) einer Übergangswahrscheinlichkeit für jeden Übergang, (d) einer Vielzahl von Modellausgaben für mindestens einen Prototypvektor bei einem Übergang, wobei jede Modellausgabe den Identifikationswert des Prototypvektors - und einen Rangwert umfaßt, und (e) Ausgabewahrscheinlichkeiten bei einem Übergang für jede Modellausgabe;
Mittel zum Erzeugen eines Übereinstimmungswertes für jede einer Vielzahl von Spracheinheiten, wobei jeder Übereinstimmungswert einen Schätzwert der Wahrscheinlichkeit umfaßt, daß das Wahrscheinlichkeitsmodell der Spracheinheit eine Folge von Modellausgaben ausgeben würde, die mit einer Referenzfolge übereinstimmt, die den Identifikationswert und Rangwert mindestens eines Prototypvektors von je dem codierten Äußerungsdarstellungssignal in der Folge codierter Äußerungsdarstellungssignale umfaßt;
Mittel zum Kennzeichnen einer oder mehrerer bester Kandidatenspracheinheiten mit den besten Übereinstimmungswerten; und
Mittel zum Ausgeben mindestens einer Sprachuntereinheit einer oder mehrerer der besten Kandidatenspracheinheiten.
12. Vorrichtung zur Spracherkennung gemäß Anspruch 11, dadurch gekennzeichnet, daß:
das Rangbestimmungsmittel Mittel zum Zuordnen eines Rangwertes zu allen Prototypvektorsignalen für jedes Merkmalvektorsignal umfaßt, wobei jeder Rangwert die geschätzte Abweichung des zugeordneten Prototypvektorsignals von dem Merkmalvektorsignal bezüglich der geschätzten Abweichung aller anderen Prototypvektorsignale von dem Merkmalvektorsignal darstellt; und
das Ausgabemittel Mittel zum Ausgeben der Identifikationswerte und der Rangwerte der Prototypvektorsignale für jedes Merkmälvektorsignal als ein codiertes Äußerungsdarstellungssignal des Merkmalvektorsignals umfaßt, um eine Folge codierter Äußerungsdarstellungssignale zu erzeugen.
13. Vorrichtung zur Spracherkennung gemäß Ansprüch 12, dadurch gekennzeichnet, daß der Rangwert für ein ausgewähltes Prototypvektorsignal für ein gegebenes Merkmälvektorsignal monoton auf die Anzahl anderer Prototypvektorsignale mit Prototypübereinstimmungswerten, die besser als der Prototypübereinstimmungswert des ausgewählten Prototypvektorsi gnals für das gegebene Merkmalvektorsignal sind, bezogen ist.
14. Vorrichtung zur Spracherkennung gemäß Anspruch 11, dadurch gekennzeichnet, daß jeder Übereinstimmungswert weiterhin einen Schätzwert der Wahrscheinlichkeit des Auftretens der Spracheinheit umfaßt.
15. Vorrichtung zur Spracherkennung gemäß Anspruch 14, dadurch gekennzeichnet, daß das Mittel zum Speichern von Prototypvektorsignalen elektronischen Schreib-/Lesespeicher umfaßt.
16. Vorrichtung zur Spracherkennung gemäß Anspruch 15, dadurch gekennzeichnet, daß das Meßmittel ein Mikrofon umfaßt.
17. Vorrichtung zur Spracherkennung gemäß Anspruch 16, dadurch gekennzeichnet, daß das Ausgabemittel für Sprachuntereinheiten eine Videoanzeige umfaßt.
18. Vorrichtung zur Spracherkennung gemäß Anspruch 17, dadurch gekennzeichnet, daß die Videoanzeige eine Katodenstrahlröhre umfaßt.
19. Vorrichtung zur Spracherkennung gemäß Anspruch 17, dadurch gekennzeichnet, daß die Videoanzeige eine LCD-Anzeige umfaßt.
20. Vorrichtung zur. Spracherkennung gemäß Anspruch 17, dadurch gekennzeichnet, daß die Videoanzeige einen Drucker umfaßt.
21. Vorrichtung zur Spracherkennung gemäß Anspruch 16, dadurch gekennzeichnet, daß das Ausgabemittel für Sprachuntereinheiten einen Sprachgenerator umfaßt.
22. Vorrichtung zur Spracherkennung gemäß Anspruch 21, dadurch gekennzeichnet, daß der Sprachgenerator einen Lautsprecher umfaßt.
23. Vorrichtung zur Spracherkennung gemäß Anspruch 21, dadurch gekennzeichnet, daß der Sprachgenerator einen Kopfhörer umfaßt.
24. Verfahren der Spracherkennung, dadurch gekennzeichnet, daß es folgendes umfaßt:
Verfahren der Sprachcodierung gemäß Ansprüchen 7 bis 10, wobei jedes Merkmalvektorsignal der Folge von Merkmalvektorsignalen so verarbeitet wird, daß es eine Folge codierter Äußerungsdarstellungssignale erzeugt;
wobei das Verfahren der Spracherkennung weiterhin durch die folgenden Schritte gekennzeichnet ist:
Speichern von Wahrscheinlichkeitsmodellen für eine Vielzahl von Spracheinheiten, mindestens eines ersten Modells für eine erste Spracheinheit mit (a) mindestens zwei Status, (b) mindestens einem Übergang, der sich von einem Status zu demselben oder einem anderen Status ausdehnt, (c) einer Übergangswahrscheinlichkeit für jeden Übergang, (d) einer Vielzahl von Modellausgaben für mindestens einen Prototypvektor bei einem Übergang, wobei jede Modellausgabe den Identifikationswert des Prototypvektors und einen Rangwert enthält, (e) Ausgabewahrscheinlichkeiten bei einem Übergang für jede Modellausgabe;
Erzeugen eines Übereinstimmungswertes für jede einer Vielzahl von Spracheinheiten, wobei jeder Übereinstimmungswert einen Schätzwert der Wahrscheinlichkeit enthält, daß das Wahrscheinlichkeitsmodell der Spracheinheit eine Folge von Modellausgaben ausgeben wird, die mit einer Referenzfolge übereinstimmen, die den Identifikationswert und den Rangwert mindestens eines Prototypvektors von jedem codierten Äußerungsdarstellungssignal in der Folge codierter Äußerungsdarstellungssignale umfaßt;
Identifizieren einer besten oder mehrerer bester Kandidatenspracheinheiten mit den besten Übereinstimmungswerten; und
Ausgeben mindestens einer Sprachuntereinheit einer oder mehrerer der besten Kandidatenspracheinheiten.
25. Verfahren der Spracherkennung gemäß Anspruch 24, dadurch gekennzeichnet, daß:
der Schritt der Rangbestimmung das Zuordnen eines Rangwertes zu allen Prototypvektorsignalen für jedes Merkmalvektorsignal umfaßt, wobei jeder Rangwert die geschätzte Abweichung des zugeordneten Prototypvektorsignals von dem Merkmalvektorsignal bezüglich der geschätzten Abweichung aller anderen Prototypvektorsignale von dem Merkmalvektorsignal enthält; und
der Schritt des Ausgebens das Ausgeben der Identifikationswerte und der Rangwerte der Prototypvektorsignale für jedes Merkmalvektorsignal als ein codiertes Äußerungsdarstellungssignal des Merkmalvektorsignals enthält um eine, · Folge codierter Äüßerungsdarstellungssignale zu erzeugen.
26. Verfahren der Spracherkennung gemäß Anspruch 25, dadurch gekennzeichnet, daß der Rangwert für ein ausgewähltes Pro totypvektorsignal für ein gegebenes Merkmalvektorsignal monoton auf die Anzahl anderer Prototypvektorsignale, mit Prototypübereinstimmungswerten, die besser als der Prototypübereinstimmungswert des ausgewählten Prototypvektorsignals für das gegebene Merkmalvektorsignal sind, bezogen ist.
27. Verfahren der Spracherkennung gemäß Anspruch 24, dadurch gekennzeichnet, daß jeder Übereinstimmungswert weiterhin einen Schätzwert der Wahrscheinlichkeit des Auftretens der Spracheinheit enthält.
DE69226594T 1991-10-23 1992-09-19 Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt. Expired - Fee Related DE69226594T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US07/781,440 US5222146A (en) 1991-10-23 1991-10-23 Speech recognition apparatus having a speech coder outputting acoustic prototype ranks

Publications (2)

Publication Number Publication Date
DE69226594D1 DE69226594D1 (de) 1998-09-17
DE69226594T2 true DE69226594T2 (de) 1999-04-22

Family

ID=25122749

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69226594T Expired - Fee Related DE69226594T2 (de) 1991-10-23 1992-09-19 Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt.

Country Status (5)

Country Link
US (1) US5222146A (de)
EP (1) EP0538626B1 (de)
JP (1) JP2597791B2 (de)
CA (1) CA2073991C (de)
DE (1) DE69226594T2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112010005706B4 (de) * 2010-06-28 2018-11-08 Mitsubishi Electric Corporation Spracherkennungsvorrichtung

Families Citing this family (181)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5497447A (en) * 1993-03-08 1996-03-05 International Business Machines Corporation Speech coding apparatus having acoustic prototype vectors generated by tying to elementary models and clustering around reference vectors
CA2126380C (en) * 1993-07-22 1998-07-07 Wu Chou Minimum error rate training of combined string models
US5522011A (en) * 1993-09-27 1996-05-28 International Business Machines Corporation Speech coding apparatus and method using classification rules
WO1995009416A1 (en) * 1993-09-30 1995-04-06 Apple Computer, Inc. Continuous reference adaptation in a pattern recognition system
US5566272A (en) * 1993-10-27 1996-10-15 Lucent Technologies Inc. Automatic speech recognition (ASR) processing using confidence measures
US5539860A (en) * 1993-12-22 1996-07-23 At&T Corp. Speech recognition using bio-signals
US5539861A (en) * 1993-12-22 1996-07-23 At&T Corp. Speech recognition using bio-signals
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
US5729656A (en) * 1994-11-30 1998-03-17 International Business Machines Corporation Reduction of search space in speech recognition using phone boundaries and phone ranking
US5828997A (en) * 1995-06-07 1998-10-27 Sensimetrics Corporation Content analyzer mixing inverse-direction-probability-weighted noise to input signal
JP3092491B2 (ja) * 1995-08-30 2000-09-25 日本電気株式会社 記述長最小基準を用いたパターン適応化方式
US5806029A (en) * 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
US5737433A (en) * 1996-01-16 1998-04-07 Gardner; William A. Sound environment control apparatus
US6012027A (en) * 1997-05-27 2000-01-04 Ameritech Corporation Criteria for usable repetitions of an utterance during speech reference enrollment
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6023673A (en) * 1997-06-04 2000-02-08 International Business Machines Corporation Hierarchical labeler in a speech recognition system
US5970239A (en) * 1997-08-11 1999-10-19 International Business Machines Corporation Apparatus and method for performing model estimation utilizing a discriminant measure
US6151573A (en) * 1997-09-17 2000-11-21 Texas Instruments Incorporated Source normalization training for HMM modeling of speech
US5946653A (en) * 1997-10-01 1999-08-31 Motorola, Inc. Speaker independent speech recognition system and method
US5903813A (en) * 1998-07-24 1999-05-11 Advanced Materials Products, Inc. Method of forming thin dense metal sections from reactive alloy powders
US6980952B1 (en) * 1998-08-15 2005-12-27 Texas Instruments Incorporated Source normalization training for HMM modeling of speech
US6233560B1 (en) 1998-12-16 2001-05-15 International Business Machines Corporation Method and apparatus for presenting proximal feedback in voice command systems
US6937984B1 (en) 1998-12-17 2005-08-30 International Business Machines Corporation Speech command input recognition system for interactive computer display with speech controlled display of recognized commands
US8275617B1 (en) 1998-12-17 2012-09-25 Nuance Communications, Inc. Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands
US6192343B1 (en) 1998-12-17 2001-02-20 International Business Machines Corporation Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms
US7206747B1 (en) 1998-12-16 2007-04-17 International Business Machines Corporation Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
KR100406307B1 (ko) * 2001-08-09 2003-11-19 삼성전자주식회사 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
WO2003081742A1 (en) * 2002-03-22 2003-10-02 Freescale Semiconductor, Inc. Circuit for electrostatic discharge protection
US7209332B2 (en) * 2002-12-10 2007-04-24 Freescale Semiconductor, Inc. Transient detection circuit
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120311585A1 (en) * 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8924222B2 (en) 2010-07-30 2014-12-30 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coding of harmonic signals
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US20130346068A1 (en) * 2012-06-25 2013-12-26 Apple Inc. Voice-Based Image Tagging and Searching
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
AU2014214676A1 (en) 2013-02-07 2015-08-27 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
KR101904293B1 (ko) 2013-03-15 2018-10-05 애플 인크. 콘텍스트-민감성 방해 처리
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101857648B1 (ko) 2013-03-15 2018-05-15 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4831653A (en) * 1980-11-12 1989-05-16 Canon Kabushiki Kaisha System for registering speech information to make a voice dictionary
US4435617A (en) * 1981-08-13 1984-03-06 Griggs David T Speech-controlled phonetic typewriter or display device using two-tier approach
JPS58130393A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
JPS59153599U (ja) * 1983-03-31 1984-10-15 カルソニックカンセイ株式会社 音声認識装置
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4819271A (en) * 1985-05-29 1989-04-04 International Business Machines Corporation Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments
US4805207A (en) * 1985-09-09 1989-02-14 Wang Laboratories, Inc. Message taking and retrieval system
DE3779351D1 (de) * 1986-03-28 1992-07-02 American Telephone And Telegraph Co., New York, N.Y., Us
JPS62267800A (ja) * 1986-05-16 1987-11-20 株式会社日立製作所 音声認識制御方式
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US4926488A (en) * 1987-07-09 1990-05-15 International Business Machines Corporation Normalization of speech by adaptive labelling
EP0302614B1 (de) * 1987-07-16 1993-03-10 Fujitsu Limited Spracherkennungseinrichtung
US4918731A (en) * 1987-07-17 1990-04-17 Ricoh Company, Ltd. Speech recognition method and apparatus
US4817156A (en) * 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
US5072452A (en) * 1987-10-30 1991-12-10 International Business Machines Corporation Automatic determination of labels and Markov word models in a speech recognition system
JPH0293597A (ja) * 1988-09-30 1990-04-04 Nippon I B M Kk 音声認識装置
JP2776848B2 (ja) * 1988-12-14 1998-07-16 株式会社日立製作所 雑音除去方法、それに用いるニューラルネットワークの学習方法
US5040213A (en) * 1989-01-27 1991-08-13 Ricoh Company, Ltd. Method of renewing reference pattern stored in dictionary
JPH0636156B2 (ja) * 1989-03-13 1994-05-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置
US5020107A (en) * 1989-12-04 1991-05-28 Motorola, Inc. Limited vocabulary speech recognition system
US5182773A (en) * 1991-03-22 1993-01-26 International Business Machines Corporation Speaker-independent label coding apparatus

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112010005706B4 (de) * 2010-06-28 2018-11-08 Mitsubishi Electric Corporation Spracherkennungsvorrichtung

Also Published As

Publication number Publication date
JPH05216490A (ja) 1993-08-27
EP0538626A2 (de) 1993-04-28
EP0538626A3 (en) 1993-12-29
JP2597791B2 (ja) 1997-04-09
US5222146A (en) 1993-06-22
CA2073991C (en) 1996-08-06
EP0538626B1 (de) 1998-08-12
DE69226594D1 (de) 1998-09-17
CA2073991A1 (en) 1993-04-24

Similar Documents

Publication Publication Date Title
DE69226594T2 (de) Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt.
DE69425776T2 (de) Spracherkennungseinrichtung mit verbesserter Ausschliessung von Wörtern und Tönen welche nicht im Vokabular enthalten sind
DE4397106B4 (de) Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung
DE69010722T2 (de) Spracherkennungssystem.
DE69423692T2 (de) Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln
DE3878071T2 (de) Sprachnormierung durch adaptive klassifizierung.
DE3876379T2 (de) Automatische bestimmung von kennzeichen und markov-wortmodellen in einem spracherkennungssystem.
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
DE69315374T2 (de) Spracherkennungssystem zur naturgetreuen Sprachübersetzung
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE3878001T2 (de) Spracherkennungseinrichtung unter anwendung von phonemermittlung.
DE69707876T2 (de) Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE3783154T2 (de) Spracherkennungssystem.
DE69705830T2 (de) Sprachverarbeitung
DE69224253T2 (de) Sprachkodiergerät
DE69129015T2 (de) Sprecherunabhängiges Gerät zur Markierungskodierung
DE3874049T2 (de) Schnelle anpassung eines spracherkenners an einen neuen sprecher auf grund der daten eines referenzsprechers.
DE69127961T2 (de) Verfahren zur Spracherkennung
DE3306730C2 (de)
DE60222249T2 (de) Spracherkennungsystem mittels impliziter sprecheradaption
DE69838189T2 (de) Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE69614233T2 (de) Sprachadaptionssystem und Spracherkenner

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee