[go: up one dir, main page]

DE69634784T2 - Unterscheidende Verifizierung von Äusserungen für die Erkennung zusammenhängender Ziffern - Google Patents

Unterscheidende Verifizierung von Äusserungen für die Erkennung zusammenhängender Ziffern Download PDF

Info

Publication number
DE69634784T2
DE69634784T2 DE69634784T DE69634784T DE69634784T2 DE 69634784 T2 DE69634784 T2 DE 69634784T2 DE 69634784 T DE69634784 T DE 69634784T DE 69634784 T DE69634784 T DE 69634784T DE 69634784 T2 DE69634784 T2 DE 69634784T2
Authority
DE
Germany
Prior art keywords
verification
chain
signal
models
hypothesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69634784T
Other languages
English (en)
Other versions
DE69634784D1 (de
Inventor
Wu Berkley Heights Chou
Biing-Hwang Warren Juang
Chin-Hui New Providence Lee
Mazing Manalapan Rahim
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of DE69634784D1 publication Critical patent/DE69634784D1/de
Application granted granted Critical
Publication of DE69634784T2 publication Critical patent/DE69634784T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Complex Calculations (AREA)

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung betrifft das Gebiet der Spracherkennung und -verifikation allgemein und insbesondere das Gebiet des Sprachverifikationstrainings.
  • Allgemeiner Stand der Technik
  • Die Spracherkennung ist ein Prozeß, bei dem eine unbekannte gesprochene Äußerung identifiziert wird. Durch einen als Training bekannten Prozeß werden bekannte Wörter oder Wortketten untersucht und Merkmale der Wörter oder der Wortketten werden abgetastet und als Erkennungsmodelle in einem Spracherkennungsspeicher aufgezeichnet. Die Erkennungsmodelle repräsentieren typische akustische Wiedergaben bekannter Äußerungen. Beim Trainingsprozeß wird ein Trainingsalgorithmus auf die Erkennungsmodelle angewandt, um diese gespeicherten Repräsentationen zu bilden, die zur Erkennung zukünftiger unbekannter Wörter und Wortketten verwendet werden.
  • Im Betrieb empfängt eine Spracherkennungsvorrichtung eine unbekannte Äußerung und extrahiert Merkmale aus einer unbekannten Äußerung, um die unbekannte Äußerung zu erkennen. Die extrahierten Merkmale der unbekannten Äußerung werden als ein Testmuster bezeichnet.
  • Die Erkennungsvorrichtung vergleicht dann Kombinationen eines oder mehrerer Erkennungsmodelle im Speicher mit dem Testmuster für die unbekannte Äußerung. Mit einer Bewertungstechnik wird eine relatives Maß dafür bereitgestellt, wie gut jede Kombination von Erkennungsmodellen mit dem Testmuster übereinstimmt. Die unbekannte Äußerung wird als die mit der Kombination eines oder mehrerer Erkennungsprozessormodelle assoziierten Wörtern erkannt, die am deutlichsten mit der unbekannten Äußerung übereinstimmen.
  • In der bisherigen Praxis der Spracherkennung wurde eine Anzahl "N" gültiger Möglichkeiten oder Klassen für die Spracherkennungsmodellierung und das Modelltraining verwendet. Bei einem solchen Modell mit N Klassen wird angenommen, daß alle zu erkennenden Äußerungseingaben gültig sind. Ein Erkennungsmodell für jedes der "N" möglichen Klassen der Existenz wird in einem Speicher der Erkennungsvorrichtung gespeichert. Alle zu erkennenden Spracheingaben (gültig oder nicht) werden als eine der N Klassen klassifiziert. Die Erkennungsvorrichtung berechnet eine Bewertung für die Äußerung für jedes der N Modelle und vergleicht die Äußerung mit der einen Klasse (der N Klassen) mit der besten Bewertung.
  • Zusätzlich zu den N gültigen Klassen der Erkennung wurde das Konzept einer zusätzlichen Klasse ("N + 1") entwickelt, um ein assoziiertes Modell des Typs N + 1 bereitzustellen, das als "Füller-"Modell bezeichnet wird. In einem solchen System wird die zu erkennende Eingangsäußerung im Vergleich zu jedem der N Modelle für die N gültigen Klassen von Eingaben und zusätzlich im Vergleich zu dem Füllerklassenmodell N + 1 bewertet. Das (N + 1)-Modell wird dann so ausgelegt, daß es alle ungültigen Eingaben repräsentiert. Die Verwendung eines (N + 1)-Füllermodells hat ferner den Erkennungsprozeß so verfeinert, daß er berücksichtigt, daß eine Eingangsäußerung oder ein Segment einer Eingangsäußerung möglicherweise nicht gültig ist.
  • Nachdem eine unbekannte Äußerung durch einen Spracherkennungsprozeß klassifiziert wurde, ist es häufig wünschenswert, die Authentizität der durch die Spracherkennungsvorrichtung getroffenen Klassifizierungsentscheidung zu bewerten. Dies läßt sich durch einen Prozeß mit zwei Durchgängen erreichen, wobei eine unbekannte Äußerung zuerst durch Bewertung im Vergleich zu N Modellen, die N mögliche gültige Klassen repräsentieren, erkannt (klassifiziert) wird. Das Erkennungsmodell, das die beste Bewertung ergibt, wird mit seiner assoziierten Klasse verglichen, die als eine nachfolgend zu verifizierende Hypotheseäußerung erkannt wird. Die hypothetische erkannte Äußerung wird dann in einem zweiten Durchgang im Vergleich zu einem Füllerverifikationsmodell verifiziert, das dem zuvor besprochenen (N + 1)-Erkennungsfüllermodell ähnlich sein kann.
  • Ein Spracherkennungsprozeß mit zwei Durchgängen ermöglicht die Erkennung einer unbekannten Äußerung, gefolgt durch eine berechnete Bestimmung, wie sicher sich das System bei der Erkennungsentscheidung ist. Zum Beispiel klassifiziert die Erkennungsvorrichtung eine unbekannte Äußerung als ein bestimmtes Wort und der Verifizierer berechnet unter Verwendung eines Füllermodells eine statistische Wahrscheinlichkeit, daß diese Klassifizierung korrekt ist. Mit dem Verifizierer wird eine binäre Entscheidung (entweder "Ja" oder "Nein") getroffen, ob die Erkennungsvorrichtung richtig klassifiziert hat.
  • Die Äußerungsverifikation repräsentiert einen wichtigen Aspekt der Spracherkennungssystementwicklung. Bei der Äußerungsverifikation wird ein Teil einer gesamten Äußerung oder die gesamte Äußerung auf der Basis einer berechneten Konfidenzbewertung zurückgewiesen. Diese Konfidenzbewertung kann auf einer Wahrscheinlichkeitsverhältnisdistanz basieren, die prüft, ob ein Wort in einem gegebenen Sprachsegment existiert oder nicht. Die Wahrscheinlichkeitsverhältnisdistanz ist besonders dann nützlich, wenn Äußerungen ohne gültige Wörter gesprochen werden, mit schlecht erkannten Äußerungen oder wenn signifikante Verwirrung zwischen Wörtern besteht, die eine hohe Fehlerrate erzeugen kann.
  • Eine erfolgreiche Durchführung der Äußerungsverifikation im Kontext eines Spracherkennungssystems hängt eng mit der Effektivität der Techniken zusammen, die zum Trainieren von Verifikationsmodellen verwendet werden, die in dem Verifikationsprozeß benutzt werden. Es besteht eine Unzulänglichkeit bei herkömmlichen Trainingsverfahren, die auf das Fehlen einer direkten Beziehung zwischen Training und Verifikationsfehlerrate zurückzuführen ist. Ein Problem von andauerndem Interesse hat darin bestanden, ein Trainingsverfahren zu finden, das die Verifikationsfehlerrate direkt minimiert.
  • Aus Rahim et al., "Robust Utterance Verification for Connected Digits Recognition", ICASSP 95, S. 285–288, ist ein Ansatz für die auf Ketten basierende Verifikation bekannt, der unter Verwendung eines geometrischen Mittelwerts aller erkannten Ziffern eine auf Äußerungen basierende Konfidenzbewertung berechnet.
  • Aus der nur kraft Artikel 54 (3) EPC Teil des Stands der Technik bildenden EP-A-0 781 ist ein Spracherkennungsverfahren und eine Vorrichtung bekannt, die eine erste Stufe zum Bereitstellen von Schlüsselworthypothesen und eine zweite Stufe zum Bereitstellen eines Testens dieser Hypothesen durch Äußerungsverifikation aufweisen. Die verwendete Äußerungsverifikation besitzt drei separate Modelle für jedes Wort: ein Schlüsselwortverifikationsmodell, ein Fehlerkennungsverifikationsmodell und ein Nicht-Schlüsselwort-Verifikationsmodell. Ferner werden alle drei unabhängig von den Schlüsselwortmodellen der Erkennungsvorrichtung entwickelt. Aufgrund dieser Unabhängigkeit können die drei Verifikationsmodelle unter Verwendung existierender Sprachdatenbanken iterativ so trainiert werden, daß ein Minimum an Verifikationsfehlern bereitgestellt wird.
  • Kurze Darstellung der Erfindung
  • Die Erfindung wird in Anspruch 1 und in Anspruch 6 definiert, bevorzugte Formen werden in den abhängigen Ansprüchen definiert. Ein Fortschritt in der Spracherkennungstechnologie wird durch die vorliegende Erfindung bereitgestellt, bei der ein Spracherkennungssystem eine Erkennungs- und Verifikationsstrategie mit zwei Durchgängen zur Erkennung einer unbekannten Kette verbundener Wörter verwendet. Gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung umfaßt das Spracherkennungssystem einen Erkennungsprozessor zum Erzeugen einer Hypothesekette verbundener Wörter auf der Basis einer akustischen Eingangskette unbekannter verbundener Wörter; und einen Verifikationsprozessor, der als Reaktion auf die Hypothesekette verbundener Wörter ein auf Ketten basierendes Konfidenzmaßsignal erzeugt. Eine Erkennungsdatenbank speichert Erkennungsmodelle zur Verwendung durch den Erkennungsprozessor. Eine Verifikationsdatenbank speichert Verifikationsmodelle zur Verwendung durch den Verifikationsprozessor.
  • Die Erkennung im ersten Durchgang wird mit einem herkömmlichen Viterbi-Beam-Suchalgorithmus unter Verwendung einer Menge von Hidden-Markov-Modellen durchgeführt, die so trainiert werden, daß ein Kettenklassifikationsfehler minimiert wird. Die Äußerungsverifikation im zweiten Durchgang wird durchgeführt, um die erkannte Hypothesekette unter Verwendung einer Menge von Hidden-Markov-Modellen zu verifizieren, die gemäß der vorliegenden Erfindung mit einem Trainingsprozeß des minimalen Kettenverifikationsfehlers (MSVE) trainiert werden.
  • Es wird ein Verfahren zum Trainieren der in der Verifikationsdatenbank gespeicherten Verifikationsmodelle zur Minimierung des Verifikationsfehlers verwendet. Bei dem Trainingsverfahren wird ein erwarteter Kettenverifikationsfehler berechnet und minimiert.
  • Bei dem Trainingsprozeß werden zuerst Verifikationsmodelle in der Verifikationsdatenbank initialisiert. Es wird eine bekannte Hypothesekette gewählt. Der Verifikationsprozessor erzeugt auf der Basis des aktuellen Verifikationsmodells für die bekannte Hypothesekette ein erstes auf Ketten basierendes Konfidenzmaßsignal.
  • Eines oder mehrere konkurrierende Kettenmodelle, die dem aktuellen Verifikationsmodell für die bekannte Hypothesekette verwechselbar ähnlich sind, werden erzeugt. Das eine bzw. die mehreren konkurrierenden Kettenmodelle werden dem Verifikationsprozessor zugeführt, der auf der Basis der bekannten Hypothesekette und des einen bzw. der mehreren konkurrierenden Kettenmodelle ein oder mehrere auf Ketten basierende Konfidenzmaßsignale erzeugt.
  • Der Verifikationsprozessor erzeugt auf der Basis des ersten auf Ketten basierenden Konfidenzmaßsignales für die bekannte Hypothesekette und der auf Ketten basierenden Konfidenzmaßsignale auf der Basis des einen bzw. der mehreren konkurrierenden Kettenmodelle ein Fehlverifikationssignal. Ein auf dem Fehlverifikationssignal basierendes Verlustfunktionssignal liefert einen Gradienten, der die Verifikation der bekannten Hypothesekette auf der Basis des aktuellen Verifikationsmodells für diese bekannte Hypothesekette mit der Verifikation der bekannten Hypothesekette mit dem einen bzw. den mehreren anderen konkurrierenden Verifikationsmodellen in Beziehung setzt. Die Gradientenbestimmung wird unter Verwendung einer Ableitung des Verlustfunktionssignals erzielt.
  • Die Verifikationsmodelle werden aktualisiert, um die Wahrscheinlichkeit einer Fehlverifikation einer unbekannten Hypothesekette zu minimieren. Der Aktualisierungsprozeß schätzt ein erwartetes Verlustfunktionssignal und stellt die Verifikationsmodelle als Reaktion auf das geschätzte Verlustfunktionssignal iterativ ein, um die Verifikationsfehlerwahrscheinlichkeit zu minimieren.
  • Das Spracherkennungssystem der vorliegenden Erfindung kann betrieben werden, um einen optimalen Verifikationsschwellensignalwert zum Verifizieren von durch den Verifikationsprozessor erzeugten Konfidenzmaßsignalen zu erzeugen. Der Verifikationsschwellensignalwert liefert die Grundlage für eine Entscheidung, eine erkannte Hypothesekette zurückzuweisen, und wird so gewählt, daß eine Verifikationsfehlerrate aufrechterhalten wird.
  • Eine bekannte Hypothesekette wird in den Verifikationsprozessor eingegeben, der so gekoppelt ist, daß er auf die in der Verifikationsdatenbank gespeicherten Verifikationsmodelle zugreift. Auf der Basis der bekannten Hypothesekette werden ein oder mehrere konkurrierende Kettenmodelle erzeugt. Das eine bzw. die mehreren konkurrierenden Kettenmodelle werden dem Verifikationsprozessor zugeführt.
  • Der Verifikationsprozessor wird für eine vorgewählte Anzahl von Runden betrieben, um auf der Basis eines aktuellen Verifikationsmodells für die bekannte Hypothesekette ein erstes auf Ketten basierendes Konfidenzmaßsignal zu erzeugen und um für jedes des einen bzw. der mehreren konkurrierenden Kettenmodelle auf der Basis der bekannten Hypothesekette ein auf Ketten basierendes Konfidenzmaß zu erzeugen. Es wird eine erste Verteilung von auf Ketten basierenden Konfidenzmaßsignalwerten auf der Basis eines aktuellen Verifikationsmodells für eine bekannte Hypothesekette aufgezeichnet. Es wird eine zweite Verteilung von auf Ketten basierenden Konfidenzmaßsignalwerten für die bekannte Hypothesekette und ein Konkurrenzmodell aufgezeichnet. Es werden jeweilige Mittelwerte für die erste Verteilung und für die zweite Verteilung berechnet. Auf der Basis des ersten und des zweiten Mittelwerts wird der Verifikationsschwellensignalwert gewählt und eingestellt.
  • Die hier gelehrten Techniken betreffen direkt die Minimierung der Kettenverifikationsfehlerrate.
  • Weitere Aufgaben, Vorteile und kennzeichnende Merkmale der Erfindung werden aus der folgenden ausführlichen Beschreibung in Verbindung mit den angefügten Zeichnungen, in der bevorzugte Ausführungsformen der Erfindung offengelegt werden, ersichtlich werden.
  • Kurze Beschreibung der Zeichnungsfiguren
  • 1 zeigt ein beispielhaftes auf HMM basierendes Spracherkennungssystem gemäß der vorliegenden Erfindung.
  • 2 zeigt eine ausführlichere schematische Ansicht eines Verifikationsteils des beispielhaften auf HMM basierenden Spracherkennungssystems von 1;
  • 3 zeigt einen beispielhaften erweiterten Trainer von 2; und
  • 4 zeigt Konfidenzmaßsignalwertverteilungen zur Beschreibung der Verifikationsschwellensignalwertbestimmung.
  • Ausführliche Beschreibung
  • Der Klarheit halber werden die beispielhaften Ausführungsformen der vorliegenden Erfindung als einzelne Funktionsblöcke (einschließlich als „Prozessoren" bezeichneter Funktionsblöcke) umfassend beschrieben. Die von diesen Blöcken repräsentierten Funktionen können entweder durch Verwendung von gemeinsam benutzter oder spezieller Hardware bereitgestellt werden, darunter u.a. Hardware, die Software ausführen kann. Zum Beispiel können die Funktionen der in 13 gezeigten Prozessoren durch einen einzigen gemeinsam benutzten Prozessor bereitgestellt werden (die Verwendung des Begriffs "Prozessor" sollte nicht als sich ausschließlich auf Hardware, die Software ausführen kann, beziehend aufgefaßt werden).
  • Ausführungsbeispiele können Hardware für digitale Signalverarbeitung (DSP) umfassen, wie zum Beispiel den AT&T DSP16 oder DSP32C, Nurlesespeicher (ROM) zum Speichern von Software zur Durchführung der nachfolgend besprochenen Operationen und Direktzugriffsspeicher (RAM) zum Speichern von DSP-Ergebnissen. Außerdem können höchstintegrierte Hardwareausführungsformen (VLSI) sowie kundenspezifische VLSI-Schaltkreise in Verbindung mit einer Vielzweck-DSP-Schaltung bereitgestellt werden.
  • 1 zeigt eine beispielhafte Ausführungsform der vorliegenden Erfindung zum Zweck der allgemeinen Beschreibung im Kontext eines auf HMM basierenden Spracherkennungssystems. Das Spracherkennungssystem 8 umfaßt einen Erkennungsprozessor 10 eine Erkennungsdatenbank 12 mit einer Menge separater Erkennungsmodelle mit Hidden-Markov-Modell ("HMM"), einem Verifikationsprozessor 14 und eine Verifikationsdatenbank 16 mit einer Menge separater HMM-Verifikationsmodelle.
  • Der Erkennungsprozessor empfängt als Eingabe eine unbekannte Sprachkette 18 (eine Äußerung) von Wörtern. Der Erkennungsprozessor 10 greift als Reaktion die Eingabe der unbekannten Sprachkette 18 auf die Erkennungsdatenbank zu und bewertet die unbekannte Sprachkette von Wörtern im Vergleich zu den Erkennungsmodellen in der Erkennungsdatenbank 12, um die unbekannte Kette von Wörtern zu klassifizieren und um ein Hypothese-erkannte-Kette-Signal zu erzeugen. Der Verifikationsprozessor empfängt das Hypothesekettensignal 20 als zu verifizierende Eingabe. Der Verifikationsprozessor 14 greift auf die Verifikationsdatenbank 16 zu, um das Hypothesekettensignal im Vergleich zu in der Verifikationsdatenbank gespeicherten Verifikationsmodellen zu testen. Auf der Basis des Verifikationstests erzeugt der Verifikationsprozessor 14 ein Konfidenzmaßsignal 22. Das Konfidenzmaßsignal wird zu einem Schwellenkomparator 24 geleitet, um mit einem Verifikationsschwellensignalwert verglichen zu werden, um die Genauigkeit der durch den Erkennungsprozessor 10 getroffenen Klassifikationsentscheidung zu bestimmen.
  • 2 zeigt eine ausführlichere Ansicht zur Beschreibung der Verifikationstrainings- und-Testprozesse in dem Spracherkennungssystem 8. Mit Bezug auf 2 umfaßt das Spracherkennungssystem eine Trainingssprachdatenbank 26, einen Merkmalextraktor 28, einen ersten Modusschalter 30, einen zweiten Modusschalter 32, einen Kalkulator 34 für auf Wörtern basierende Konfidenzbewertung, einen Prozessor 36 für eine mittlere auf Wörtern basierende Konfidenzbewertung, einen Generator 38 für ein auf Ketten basierendes Konfidenzmaßsignal, einen Schwellenkomparator 40, einen herkömmlichen HMM-Trainer 42, eine HMM-Parameterverifikationsdatenbank 44, einen N-bestes-Kettenmodellgenerator 46 und einen erweiterten Trainer 48.
  • Die Trainingssprachdatenbank 26 umfaßt Proben bekannter Sprachsignale in digitaler Form. Jedes Sprachsignal entspricht einer Kette eines oder mehrerer gesprochener Wörter. Diese Proben werden für die Zwecke des herkömmlichen 42 bzw. erweiterten 48 Trainers verwendet. Proben bekannter Sprachketten aus der Trainingssprachdatenbank 26 werden anderen Komponenten des Systems über den ersten Modusschalter 30 zugeführt.
  • Der erste Modusschalter 30 gibt zwei Betriebsarten des Systems wieder: einen Modus für Training (T) und einen Modus der Verifikation (V) zum Testen. Wenn sich der erste Modusschalter 30 in der T-Stellung befindet (wie gezeigt), können dem Gleichgewicht des Systems Trainingskettensignale aus der Trainingsdatenbank 26 zugeführt werden, so daß durch einen Trainingsteil 50 des Systems Training durchgeführt werden kann. Wenn sich der erste Modusschalter in der V-Stellung befindet, werden hypothetische erkannte Sprachkettensignale in digitaler Form dem Gleichgewicht des Systems zur Verifikation durch den Verifikationsteil 52 des Systems zugeführt.
  • Der Merkmalextraktor 28 des Systems ist an den ersten Modusschalter 30 angekoppelt. Abhängig von dem Zustand des ersten Modusschalters empfängt der Merkmalextraktor 28 entweder Trainingskettensignale oder Hypothesesprachkettensignale. Auf der Basis dieser empfangenen Kettensignale produziert der Merkmalextraktor einen oder mehrere Merkmalvektoren O, die Kettensignale zu Verifikations- oder Trainingszwecken charakterisieren.
  • Aus dem Merkmalextraktor ausgegebene Merkmalvektoren werden dem zweiten Modusschalter 32 zugeführt. Der zweite Modusschalter arbeitet in Tandem mit dem ersten Modusschalter. Das heißt, beide Schalter werden auf der Basis eines beiden Schaltern zugeführten Modussignals 54 gleichzeitig in denselben Zustand (T oder V) versetzt. Der zweite Modusschalter 32 lenkt die Ausgabe des Merkmalextraktors 28 entweder zu dem Verifikationsteil 52 oder dem Trainingsteil 50 des Systems.
  • Der Verifikationsteil 52 des Systems kann ausgewählt werden, um die durch den Erkennungsprozessor 10 (1) getroffenen Erkennungsentscheidungen zu prüfen. Der in 2 gezeigte Verifikationsteil 52 umfaßt den Kalkulator 34 für die auf Wörtern basierende Konfidenzbewertung, den Prozessor 36 für die mittlere auf Wörtern basierende Konfidenzbewertung und den Generator 38 für auf Ketten basierende Konfidenzmaßsignale.
  • Der Merkmalextraktor 28 gibt eine Reihe von Rahmen von Merkmalvektoren aus. Wortsignale auf der Basis der Rahmen von Merkmalvektoren werden dem Kalkulator 34 für die auf Wörtern basierende Konfidenzbewertung zugeführt. Der Kalkulator für die auf Wörtern basierende Konfidenzbewertung führt an den diskreten Wortsignalen Berechnungen durch. Der Kalkulator 34 für die auf Wörtern basierende Konfidenzbewertung vergleicht eine Kette eines oder mehrerer Verifikationsmodelle (in diesem Fall Hidden-Markov-Modelle "HMMs") mit jedem Wortsignal des hypothetischen erkannten Sprachkettensignals. Der Kalkulator 34 für die Konfidenzbewertung erzeugt für jedes Wortsignal des Hypothesenkettensignals eine auf Wörtern basierende Konfidenzbewertung. Die für jedes Wortsegment der Kette berechnete auf Wörtern basierende Konfidenzbewertung gibt einen Konfidenzgrad an, daß jedes bestimmte Wort der Hypothesekette korrekt erkannt wurde und genau einem Wort der dem Spracherkennungssystem zugeführten Eingangsäußerung entspricht.
  • Der Prozessor 36 für die mittlere auf Wörtern basierende Konfidenzbewertung liefert ein Mittel zur Durchführung einer mathematischen Mittelungsoperation an der Menge von auf Wörtern basierenden Konfidenzbewertungen, die für jedes Wortsegmentsignal des Hypothesekettensignals erzeugt werden, um ein mittleres auf Wörtern basierendes Konfidenzbewertungssignal zu erzeugen. Das mittlere Konfidenzbewer tungssignal wird zu dem Generator 38 für das auf Ketten basierende Konfidenzmaßsignal geleitet.
  • Der Generator 38 für das auf Ketten basierende Konfidenzmaßsignal wird zum Empfang des mittleren Konfidenzbewertungssignals gekoppelt und reagiert, um ein auf Ketten basierendes Konfidenzmaßsignal zu erzeugen. Das auf Ketten basierende Konfidenzmaßsignal realisiert Verifikationstestergebnisse und liefert ein Maß für die Konfidenz, daß das dem Verifikationsprozessor vorgelegte Hypothesenkettensignal genau die tatsächliche gesprochene Wortkette repräsentiert.
  • Um zu verifizieren, daß das dem Verifikationsprozessor zugeführte hypothetische erkannte Sprachkettensignal die ursprünglich in das Spracherkennungssystem eingegebene unbekannte Sprachkette von Wörtern ist, wird das Konfidenzmaßsignal mit einem Verifikationsschwellensignalwert 40 verglichen. Wenn das Konfidenzmaßsignal unter dem Schwellensignalwert liegt, wird das Hypothesekettensignal als die tatsächliche gesprochene Eingangsäußerung falsch repräsentierend zurückgewiesen; das heißt, das dem Verifikationsprozessor zugeführte Hypothesekettensignal konnte nicht verifiziert werden.
  • Der Trainingsteil 50 des Systems umfaßt den herkömmlichen HMM-Trainer 42, die HMM-Parameterdatenbank 44, den N-bestes-Kettenmodellgenerator 46 und den erweiterten Trainer 48. Der herkömmliche HMM-Trainer 42 ist dergestalt, wie in dem US Patent Nr. 4,783,804 beschrieben und stellt ein herkömmliches Training von HMMs bereit. Die Ausgabe des herkömmlichen Trainers umfaßt eine Menge von einem oder mehreren herkömmlich trainierten HMMs θI sowie die Merkmalvektoren O der Trainingssprachketten, auf denen die Menge von HMMs basiert. Die Ausgabe des herkömmlichen Trainers 42 wird in der HMM-Parameterdatenbank 44 zur Verwendung durch den N- bestes-Kettengenerator 46 und den erweiterten Trainer 48 als Initialisierungsparameter aufgezeichnet.
  • Der erweiterte Trainer 48 empfängt Anfangsparameter θI und gibt eine Menge erweiterter oder aktualisierter HMMs θU an die HMM-Parameterdatenbank zurück. Letztendlich werden während der Verarbeitung im Verifikationsmodus dem Kalkulator 34 für auf Wörter basierende Konfidenzbewertung erweiterte Modelle θU zugeführt. Die Verwendung der erweiterten HMMs, θU anstelle herkömmlich trainierter HMMs θI durch den Kalkulator für auf Wörter basierende Konfidenzbewertung ermöglicht eine Erzielung einer verringerten Kettenverifikationsfehlerrate.
  • Der N-bestes-Kettenmodellgenerator 46 ist so gekoppelt, daß er die Parameter θI des Hidden-Markov-Modells (HMM) und Trainingssprachketten O aus der HMM-Parameterdatenbank 44 empfängt. Der N-bestes-Kettenmodellgenerator 46 wirkt zum Erzeugen einer Menge von Kettenmodellen, die starke Konkurrenten für das aktuelle Verifikationsmodell für das hypothetische erkannte Kettensignal sind. Diese Konkurrenz-Kettenmodelle liefern eine Grundlage für ein diskriminatives Training des erweiterten Trainers 48; das heißt zum Training der Verifikationsmodelle dergestalt, daß ein in den Verifikationsprozessor eingegebenes korrektes Hypothesekettensignal bewirkt, daß der Verifikationsprozessor ein extrem hohes Konfidenzmaßsignal erzeugt, und eine falsche Hypothesenketteneingabe bewirkt, daß der Verifikationsprozessor ein niedriges Konfidenzmaßsignal erzeugt.
  • Der N-bestes-Kettengenerator 46 erzeugt die "N" besten (oder stärksten konkurrierenden) Kettenmodelle durch Bestimmung der "N" besten (konkurrierenden) Wortketten und für jede solche Wortkette die beste Sequenz von HMM-Verifikationsmodellen. Die Bestimmung der N-besten Wortketten erfolgt durch Verwendung der DSP- Implementierung eines modifizierten Viterbi-Decodierers.
  • Der modifizierte Viterbi-Decodierer erstellt eine teilweise Wegliste, d.h. eine Liste aller Bewertungen (oder Metriken) aller zu einem beliebigen Grammatikknoten (d.h. Wortknoten) zu jedem Zeitpunkt führenden teilweisen Wege. Am Ende der modifizierten Viterbi-Vorwärtssuche verwendet der Decodierer dann eine in der Technik wohlbekannte A*-Zurückverfolgungsbaumsuche. Der Generator führt die Baumsuche durch, indem er den obersten (besten) teilweisen Weg wachsen läßt, der sich an der obersten Position eines "Stapels" (einer Datenliste mit Rangordnung) befindet. Die Rangordnung aller teilweisen Wege auf dem Stapel wird durch die bestmögliche Bewertung, die ein teilweiser Weg bei Abschluß erzielen kann, bestimmt. Die bei der Vorwärts-Viterbi-Suche erstellte teilweise Wegliste ergibt eine Bewertung für einen beliebigen unvollständigen teilweisen Weg in der Rückwärtsbaumsuche. Aufgrund der Beschaffenheit "bestes zuerst" der A*-Prozedur werden die obersten N Ketten sequentiell erzeugt.
  • Die Zulässigkeit des A*-Algorithmus bzw. sichere Befunde des optimalen Weges bzw. der optimalen Wege ist garantiert, wenn eine obere Schranke des unvollständigen Teils eines teilweisen Weges als der Stapeldecodierer verwendet wird, wenn die Stapeltiefe tief genug ist, um etwaige Suchfehler zu vermeiden. Bei der Baum-Trellis-Prozedur wird die dichteste obere Schranke oder die tatsächliche Bewertung eines Weges erhalten, wenn entlang beider Richtungen dieselben HMMs in den Suchen verwendet werden. Folglich ist die Sucheffizienz des Algorithmus maximiert und ein Stapel von N Einträgen wird benötigt.
  • Der Generator erzeugt N-beste-Kettenmodelle auf der Basis der N-beste-Wortketten durch eine Viterbi- Ausrichtung der Eingangssprachkette O in bezug auf die Modellmengen für jede gegebene Wortkette in der N-beste-Kettenliste. Dieser Schritt wird vom Generator durchgeführt, weil viele Kettenmodelle derselben Wortkette entsprechen können; das Kettenmodell, das für eine gegebene Modellmenge am besten mit der Eingangsäußerung übereinstimmt, ist jedoch einzigartig.
  • Es ist zu beachten, daß der Generator eine Fähigkeit zur Modellierung ungesehener Konkurrenzketten bereitstellt. Dies ist darauf zurückzuführen, daß konkurrierende Wortkettenmodelle, die durch N-beste-Decodierung erzeugt werden, nicht durch das Trainingsmaterial beschränkt werden. Die N-beste-Kettenliste ist dynamisch und gibt die akustische Auflösung auf Kettenebene auf der Basis der gegebenen Sprachverifikationsmodellmenge wieder.
  • Folglich werden die grundlegenden Verifikationsmodelle in der HMM-Parameterdatenbank 44 durch Kettenmodelle trainiert, die durch den N-bestes-Kettenmodellgenerator (eine Art von Spracherkennungsvorrichtung) erzeugt werden. Die erzeugten Kettenmodelle können auf Wortketten basieren, die nicht in dem ursprünglichen Trainingsmaterial vorhanden sind, die die Erkennungsvorrichtung aber mit dem bekannten Hypothesekettensignal zum Verwechseln findet. Diese ungesehenen Konkurrenz-Wortketten, die die Erkennungsvorrichtung mit dem bekannten Hypothesenkettensignal zum Verwechseln findet, werden diskriminativ modelliert, um die Verifikationsmodellierungsabdeckung für solche ungesehenen, verwechselbaren ähnlichen Zeichenketten zu verbessern. Eine Modellierung, die die Verifikationsmodelle darauf vorbereitet, eine Grundlage zur Unterscheidung ungesehener Ketten (die wahrscheinlich mit einer korrekten Kette verwechselt werden) aus der korrekten Hypothesekette bereitzustellen, ist nützlich, weil eine solche Modellierung Schwierigkeiten verringert, die bei der Erkennung und Verifikation kontinuierlicher Sprache aufgrund einer schlechten Kettenabdeckung des Trainingsmaterials angetroffen werden.
  • Die Funktionsweise des N-bestes-Kettenmodellgenerators wird ausführlich in EP-A-0559349 beschrieben.
  • Beim Minimal-Kettenverifikationsfehlerratentraining werden die N-bestes-Kettenebenenmodelle in eine Menge von diskriminanten Funktionen aufgenommen, die speziell dafür ausgelegt sind, Kettenfehler zu repräsentieren und zu verringern. Dies geschieht durch Betrieb des erweiterten Trainers 48, wie nachfolgend beschrieben.
  • Der Äußerungsverifikationsprozessor 14 (1) arbeitet zum Formulieren und Anwenden eines statistischen Hypothesetests zum Verifizieren einer vorgeschlagenen hypothetischen erkannten Äußerung in Form eines Hypothesekettensignals. Die Verifikationsprozeßaufgabe besteht in dem Testen der Nullhypothese, daß ein Hypothesenschlüsselwort oder eine Hypothesenmenge von Schlüsselwörtern in einer unbekannten Äußerung existiert, im Vergleich zu der alternativen Hypothese, daß kein solches hypothetisches Wort bzw. keine solche Schlüsselwortmenge in der unbekannten Äußerung existiert (d.h. daß die vorgeschlagene erkannte Hypotheseäußerung 20 falsch ist).
  • Der Verifikationsprozeß wird unter Verwendung einer Wahrscheinlichkeitsverhältnisdistanzberechnung entworfen, um die Genauigkeit einer vorgeschlagenen Hypotheseäußerung zu verifizieren. Gemäß der vorliegenden Erfindung werden Äußerungsverifikationsmodelle auf der Kettenebene erzeugt (trainiert), und die Verifikationsprüfung wird auf der Kettenebene durchgeführt. Die hier gelehrte Äußerungsverifikation verwendet eine Form geometrischer Mittelung, die die Beiträge von auf Wörtern basierenden Konfidenzbewertungen der Wortsignalsegmente zur Erzeugung des auf Ketten basierenden Konfidenzmaßsignals für ein Hypothesenkettensignal kombiniert. Das auf Ketten basierende Konfidenzmaßsignal wird im Vergleich zu einem Schwellensignalwert 40 (2) verifiziert, um das gesamte Hypothesenkettensignal oder einen Teil davon zu akzeptieren oder zurückzuweisen.
  • Mit Bezug auf 2 wird im Verifikationsprüfmodus eine hypothetisierte Kette von Wörtern 55 durch den ersten Modusschalter 30 zur Präsentation für den Verifikationsteil 52 zu dem Merkmalextraktor 28 geleitet. Die hypothetisierte Kette (Signal 55) von Wörtern i wird als Ergebnis des Erkennungsprozesses in eine N-Anzahl von Wörtern {Oq} segmentiert.
  • Der Verifikationsteil 52 verwendet eine gegebene Menge von Modellen θU zur Verifikation. Der Verifikationsteil 52 erzeugt ein Konfidenzmaßsignal auf der Basis der hypothetisierten Kette von Wörtern auf der Basis der aktuellen Menge von Modellen in der HMM-Parameterdatenbank 44. Die hypothetisierte Kette von Wörtern wird zurückgewiesen, wenn das erzeugte Konfidenzmaßsignal si(O; θ) = log[(l/N)ΣNq=1 exp{K·L(Oq; θ, l)}]1/x (1)unter einem vordefinierten Verifikationsschwellensignalwert τ liegt. Hierbei ist K eine negative Konstante und L(Oq; θ, l) bedeutet die Konfidenzbewertung des Sprachsegments q, das als die Ziffer (der Rahmen) l erkannt wird. Folglich hängt das Konfidenzmaßsignal mathematisch mit dem Mittelwert der Konfidenzbewertungen jedes Sprachsegments q (Wortrahmens) des Kettensignals zusammen.
  • Verifikationsmodelle auf HMM-Basis werden zum Zugriff und zur Verwendung durch den Verifikationsteil 52 in der Verifikationsdatenbank 44 gespeichert. Innerhalb der Verifikationsdatenbank 44 bestehen die Verifikationsmodelle θ aus drei verschiedenen Mengen: Schlüsselwörter {θ1 (k)}, Anti-Schlüsselwörter {θ1 (a)}, die Verwechselbarkeit zwischen Schlüsselwörtern behandeln, und ein allgemeines akustisches Füllermodell θ(f) zum Identifizieren von Nicht-Schlüsselwörtern (ungültigen Eingaben).
  • Die auf Wörtern basierende Konfidenzbewertung 34 des Sprachsegments q, L(Oq; θ, l) kann unter Verwendung eines Log-Wahrscheinlichkeitsverhältnisses zwischen einer Schlüsselworthypothese und ihrer alternativen Konkurrenzhypothese konstruiert werden, z.B. L(Oq; θ, l) = g1(Oq) – G1(Oq), (2)mit g1(Oq) = logp(Oq1 (k)), und G1(Oq) = log[½p(Oq1 ( a )) + ½p(Oq( f))]. (3)
  • Somit betrifft die Konfidenzbewertungsberechnung für ein Sprachsegment q einen Vergleich zwischen einer Wortmodellbewertung und Bewertungen, die mit dem Anti-Wort-Modell und unter Verwendung des Füllermodells berechnet werden.
  • Ein Verfahren zur Maximierung des Konfidenzmaßsignals si(O; θ) in Gleichung 1 besteht darin, eine Maximum-Likelihood-Prozedur zum Trainieren der in der Datenbank 44 zu speichernden Parameter von θ anzuwenden. Auf der Basis von Spracherkennungsexperimenten hat sich jedoch gezeigt, daß diese Art von Training im Hinblick auf die Minimierung der Verifikations- oder Erkennungsfehlerrate nicht die beste Leistungsfähigkeit ergibt.
  • Aus diesem Grund würde ein Trainingsprozeß mit minimalem Kettenklassifizierungsfehler (MSCE) entwickelt, um die Erkennungsmodelle in der Erkennungsdatenbank 12 zu erzeugen (1). Mit einem solchen Spracherkennungstrainingsverfahren wird eine Spracherkennungsdatenbank auf der Basis eines oder mehrerer bekannter Sprachsignale und einer Menge aktueller Erkennungsmodelle bereitgestellt. Bei dem MSCE-Trainingsprozeß wird auf der Basis des bekannten Sprachsignals und eines aktuellen Erkennungsmodells für dieses Signal ein erstes Erkennungsvorrichtungs-Bewertungssignal erzeugt. Es wird eine Menge verwechselbarer Hypothesen erzeugt und auf die Erkennungsvorrichtung angewandt, um eines oder mehrere weitere Erkennungsvorrichtungs-Bewertungssignale zu erzeugen, die jeweils auf dem bekannten Sprachsignal und einem anderen aktuellen Erkennungsmodell basieren.
  • Ein Erkennungsprozessor erzeugt auf der Basis des ersten Erkennungsvorrichtungs-Bewertungssignals und der anderen konkurrierenden Erkennungsvorrichtungs-Bewertungssignale ein Fehlklassifikations-(Fehlerkennungs)-Signal. Erkennungsmodellparameter werden auf der Basis des Fehlerkennungssignals modifiziert, um die Wahrscheinlichkeit einer Fehlerkennung des bekannten Sprachsignals beim Training oder eines unbekannten Sprachsignals beim Testbetrieb zu vermindern. Eine ausführliche Beschreibung der Ausführungsform und Prozeduren findet sich in der oben erwähnten EP-A-0559349.
  • Das Ziel bei dem auf Ketten basierenden Training mit minimalem Kettenklassifizierungsfehler (MSCE) ist die Minimierung einer erwarteten Klassifikationsfehlerrate der erwarteten Kette. Im Gegensatz dazu besteht das Ziel bei dem Training mit minimalem Kettenverifikationsfehler (MSVE) in der Minimierung einer erwarteten Ketten-Verifikations-Fehlerrate. Die spezifische Zielfunktion und die mathematische Strategie, die bei dem MSCE-Ansatz verwendet werden, ist deshalb nicht mit optimaler Äußerungsverifikationsleistungsfähigkeit vereinbar.
  • Die vorliegende Erfindung verwendet einen Trainingsprozeß mit minimalem Kettenverifikationsfehler (MSVE) mit demselben Gedanken wie beim MSCE-Training, aber für die Verifikationsmodelle in der HMM-Parameterdatenbank 44 ausgelegt. Ein Fehlverifikationsmaß wird berechnet und zur Minimierung der erwarteten Kettenverifikationsfehlerrate benutzt.
  • Das MSVE-Training wird auf der Kettenebene angewandt und ist mit der in Gleichung 1 verwendeten Zielfunktion vereinbar. Das MSVE-Training wird so implementiert, daß die folgende erwartete Funktion minimiert wird: E[S{– si(O; θ) + Si(O; θ)}], (4)wobei S( ) eine glatte, nichtlineare 0-1-Sigmoidfunktion ist.
  • Mit Bezug auf 3 umfaßt der erweiterte Trainer 48 einen Kettenfehlverifikationsmaßprozessor 56, einen Kettenmodellverlustfunktionsprozessor 58 und einen HMM-Aktualisierungsprozessor 60. Ein Ziel des erweiterten Trainingsprozesses ist die Minimierung der erwarteten Verlustfunktion, die mit Bezug auf Gleichung 4 beschrieben wird, um so Kettenverifikationsfehler im wesentlichen zu eliminieren. Bei einer bevorzugten Ausführungsform wird der erweiterte Trainingsprozeß als zwei Prozeßschritte realisiert, die durch die oben erwähnten Prozessoren in dem Spracherkennungssystem durchgeführt werden.
  • A. Der Kettenfehlverifikationsmaßprozessor
  • Der Kettenfehlverifikationsmaßprozessor 56 empfängt HMM-Parameter θI, N Kettenmodelle sj und eine Trainingssprachkettenprobe O aus dem N-bestes-Kettenmodellgenerator 46. Auf der Basis der Kettenprobe O, der Modelle sj und von θI bestimmt der Fehlverifikationsprozessor 56 als einen ersten Prozeßschritt ein Kettenfehlverifikationsmaß für die i-te hypothetisierte Kette di(O; θ): di(O; θ) = –si(O; θ) + Si(O; θ), (5)wobei si(0; θ) eine auf Äußerungen basierende Diskriminantenfunktion gemäß der Definition durch Gleichung 1 und Si(O; θ) eine Anti-Diskriminantenfunktion ist, die folgendermaßen definiert ist: si(O; θ) = log[(l/N – 1)ΣNj,j+i exp{η·sj(O; θ)}]1/n, η > 0, (6)wobei N die Gesamtzahl konkurrierender Kettenhypothesen und η eine beispielsweise auf zwei gesetzte positive Zahl ist.
  • Der Kettenfehlverifikationsprozessor 56 bestimmt den Wert eines Skalars d zur Verwendung durch die in 3 gezeigten nachfolgenden Prozessoren und erzeugt ein Fehlverifikationssignal, das eine Differenz zwischen folgendem beschreibt: (a) dem Konfidenzmaßsignal auf der Basis eines bekannten Hypothesekettensignals und eines aktuellen Verifikationsmodells für das bekannte Hypothesenkettensignal, und (b) einem Mittelwert eines oder mehrerer weiterer Konfidenzmaßsignale auf der Basis der N-bestes-Konkurrenz-Verifikationsmodelle für dieses bekannte Hypothesekettensignal.
  • B. Der Kettenmodellverlustfunktionsprozessor
  • Ein zweiter Prozeßschritt approximiert den Verifikationsfehlerzählwert. Dies geschieht durch Verwendung einer nichtlinearen Sigmoidfunktion. Der Kettenmodellverlustfunktionsprozessor 58 wertet eine glatte Kettenverlustfunktion li(O; θ) auf der Basis des aus dem Fehlverifikationsmaßrozessor 56 empfangenen Skalarwerts di(O; θ) aus. Diese Verlustfunktion ist folgendermaßen definiert:
    Figure 00230001
    wobei α und β Konstanten sind, die die Steigung bzw. die Verschiebung der nichtlinearen Sigmoid-Glättungsfunktion steuern.
  • Der Kettenmodellverlustfunktionsprozessor 58 führt den Skalar 1 als Ausgabe dem HMM-Aktualisierungsprozessor 60 in Form eines Verlustfunktionssignals zu.
  • Die oben besprochenen Parameter α und β helfen bei der Bereitstellung einer geglätteten Approximation für die Kettenverlustfunktion li(O; θ). Der Gradient der Kettenverlustfunktion wird von dem HMM-Aktualisierungsprozessor 60 zur Aktualisierung der HMM-Parameter θI des aktuellen Verifikationsmodells verwendet. Der Gradient setzt Konfidenzmessung eines bekannten Hypothesekettensignals auf der Basis eines aktuellen Verifikationsmodells für dieses Hypthesekettensignal mit einer Konfidenzmessung des bekannten Hypothesekettensignals auf der Basis eines oder mehrerer anderer aktueller Verifikationsmodelle in Beziehung. Deshalb ist die Minimierung der erwarteten Kettenverluste dieser Verlustfunktion direkt mit der Minimierung der Kettenverifikationsfehlerwahrscheinlichkeit verknüpft.
  • C. Der HMM-Aktualisierungsprozessor
  • Vor einer Besprechung der Aktualisierung von Verifikationsmodellparametern werden einige Hintergrundinformationen für die Funktionsweise des HMM-Aktualisierungsprozessors 60 angegeben. Das Training mit minimalem Kettenverifikationsfehler (MSVE) betrifft das Finden einer Menge von Parametern θ, die die erwartete Verlustfunktion von Gleichung 7, die als E[li(O; θ)] bezeichnet werden kann, minimiert.
  • Um die minimierende Menge von Parametern θ zu finden, wird die Parametermenge θ in jeder Iteration n gemäß folgendem aktualisiert: θn+1 = θn – ∈nVn∇E[li(O; θ)], ∈n > 0. (8)
  • In Gleichung 8 ist θn die Anfangs-HMM-Parametermengenschätzung. E[li(O; θ)] ist die erwartete Verlustfunktion. ∇ repräsentiert eine mathematische Ableitungsoperation. θn+1 ist die beste Schätzung für die HMM-Parametermenge zur Minimiering der erwarteten Verlustfunktion E[li(O; θ)].
  • Diese Gleichung erzielt eine Gradientenabstiegsrekursion zur Einstellung der Verifikationsmodellparameter zur Erzielung des Minimums der erwarteten Verlustfunktion, wobei ∈n' eine Lernrate oder Sequenz von Schrittgrößenparametern zur Verwendung bei den Iterationen und Vn eine nachfolgend definierte positiv-definite Lernmatrix ist.
  • Die durch Gleichung 8 repräsentierte Rekursion konvergiert auf einen stationären Punkt der erwarteten Verluste, solange Σn-1 – ∈n = ∞ und Σn-1 – ∈n 2 < ∞ gilt.
  • Bei der dargestellten Ausführungsform von 3 werden die HMM-Parameter durch den HMM-Aktualisierungsprozessor 60 gemäß (8) adaptiv eingestellt. Aufgrund der Struktur der HMMs müssen ihre Parameter bestimmte Nebenbedingungen erfüllen. Der HMM-Aktualisierungsprozessor verwendet transformiert HMM-Parameter als Teil des Parameteraktualisierungsprozesses zur Erfüllung aller solcher Nebenbedingungen. Der HMM-Aktualisierungsprozessor verwendet die folgenden Transformationen:
  • (1) Logarithmus der Varianz
    • σ2 i,j,k,d = log σ2 i,j,k,d (9)wobei σ2 i,j,k,d die Varianz des i-ten Verifikationsmodells, des j-ten Zustands, der k-ten Mischungskomponente und der d-ten Dimension eines Merkmalvektors ist, wobei jedes Verifikationsmodell zum Beispiel ein Wort oder ein Subwort widerspiegeln kann.
  • (2) Der transformierte Logarithmus der Mischungsgewichte
  • Die ursprünglichen Mischungsgewichte ci,j,k hängen folgendermaßen mit den transformierten Mischungsgewichten ci,j,k zusammen:
    Figure 00250001
    wobei L die Gesamtzahl der Mischungsgewichte in dem j-ten Zustand in dem i-ten Verifikationsmodell ist.
  • (3) Der transformierte Logarithmus der Übergangswahrscheinlichkeit
  • Die ursprünglichen Übergangswahrscheinlichkeiten ai,j hängen folgendermaßen mit den transformierten Übergangswahrscheinlichkeiten zusammen:
    Figure 00250002
    wobei M die Gesamtzahl von Zuständen in dem i-ten Verifikationsmodell ist.
  • Ein signifikanter Aspekt der beispielhaften Ausführungsform betrifft die Handhabung kleiner Varianz. Bei bestimmten in der Vergangenheit vorgeschlagenen korregierenden Trainingsalgorithmen wird ein Varianzeinstellung vermieden, weil, wenn sie falsch gehandhabt wird, einen nachteiligen Effekt haben kann.
  • Varianzen in HMMs können sogar um 104 bis 106 mal unterschiedlich sein. Diese Varianzen treten in dem Exponententeil der Beobachtungswahrscheinlichkeitsdichtefunktion bi l(x) auf und haben einen dominanten Effekt auf die Wahrscheinlichkeitsbewertung von HMMs. Bei der beispielhaften Ausführungsform führt dies zu einer unterschiedlichen Empfindlichkeit gegenüber HMM-Parametereinstellungen insbesondere der Einstellung der Mittelwertparameter in der Beobachtungswahrscheinlichkeitsdichtefunktion von HMMs.
  • Um diese enorm unterschiedliche Empfindlichkeitsdifferenz zu kompensieren, verwendet die Ausführungsform eine positiv-definite Matrix Vn. Die positiv-definite Matrix Vn ist eine Diagonalmatrix diag(σ1 2(n), ..., σD 2(n)), (12)für jeden Zustand, wobei σ2(n) die Varianz des HMM θI zum Zeitpunkt n ist.
  • Der HMM-Aktualisierungsprozessor 60 aktualisiert die Parameter μ, σ2, c und a auf der Basis von θI, O und 1 und gibt ein aktualisiertes θU an die HMM-Parameterdatenbank 44 zurück. Sowohl θI als auch θU umfassen Parameter μ, σ2, c und a, wobei θI und θU nicht aktualisierte bzw. aktualisierte Größen repräsentieren.
  • Beim Training mit minimalem Kettenverifikationsfehler wird bei der Aktualisierung der Modellparameter wie in Gleichung 8 gezeigt, die Ableitung der Verlustfunktion ∇l gefunden. Der Term ∂l/∂θ wird spezifisch für jeden Modellparameter berechnet und ist abhängig davon, ob der zugrundeliegende HMM ein Schlüsselwortmodell, ein Anti-Schlüsselwortmodell oder ein Füllermodell ist, unterschiedlich. Dieser Schritt ist von dem bei dem Training mit minimalem Kettenklassifizierungsfehler verwendeten verschieden, wobei die Ableitung ∂l/∂θ allen Modellen gemeinsam ist.
  • Bei MSVE kann ∂l/∂θ als eine Kettenregel geschrieben werden, so daß ∂l/∂θ = ∂l/∂L·∂L/∂θ ist, wobei der Term ∂l/∂L allen Verifikationsmodellen gemeinsam ist. ∂l/∂L besteht aus den folgenden partiellen Ableitungen: ∂l/∂d·[∂d/∂si + ∂d/∂Si·∂Si/∂sj]·∂S/∂L. ∂l/∂d = αli(1 – li); ∂d/∂si = –1; ∂d/∂Si = 1;
  • Figure 00270001
  • Die Ableitung ∂L/∂θ ist abhängig davon, ob das aktualisierte Modell ein Schlüsselwortmodell θ(k), ein Anti-Schlüsselwortmodell θ(a) oder ein Füllermodell θ(f) ist, unterschiedlich.
  • Für θ(k):
  • Figure 00270002
  • Für θ(a):
  • Figure 00280001
  • Für θ(a):
  • Figure 00280002
  • Für θ(f):
  • Figure 00280003
  • Der Term ∂p( )/∂θ ist allen Verifikationsmodellen gemeinsam und unterscheidet sich nur durch die spezifischen Parameter des aktualisierten Modells. Diese Wahrscheinlichkeit p( ) ist folgendermaßen definiert: P(Oqθ) = Σil...iqbil(Ol)·aili2·bi2(O2)· ... biq(Oq)
  • Die durch den HMM-Aktualisierungsprozessor 60 bereitgestellten Parameteraktualisierungen lauten:
  • (1) Mittelwertaktualisierung
    • μi,j,k,d(n + 1) = μi,j,k,d(n) – ∈n Σnn=ωj ωj+1[(∂1/O, θ)/∂logbi,j(onn)]γi,j,k(onn)(onn(d) – μi,j,k,d(n) (13) dabei ist(onn(d) die Komponente der d-ten Dimension des Merkmalvektors onn, ωj entspricht dem Zeitrahmen, in dem der optimale Weg zuerst in den Zustand j eintritt, ωj+1 entspricht dem Zeitrahmen, in dem der optimale Weg in den Zustand j + 1 eintritt, l(O, θ) ist die gemäß (7) konstruierte Verlustfunktion, ∈n ist die Schrittgröße und es gilt γi,j,k(onn) = (ci,j,k(2Π)–D/2D d=1σi,j,k,d)–1ΠD d=1e–(onn(d)-μi,j,k,d)2σ i,j,k,d)/bi,j)onn), (14)wobei D die Dimension des Merkmalvektors ist. Die Mittelwertaktualisierung wird durch einen Subprozeß des HMM-Aktualisierungsprozessors 60 bereitgestellt.
  • (2) Varianzaktualisierung
  • Die Aktualisierung von σ2 = log σ2 wird gemäß der folgenden Formel durchgeführt: σ2 i,j,k,d(n + 1) = σ2 i,j,k,d(n) – ∈nΣωj+1-1nn=ωj (∂1/O, θ)/∂logbi,j(onn)]γi,j,k(onn)·((onn(d) – μi,j,k,d)2/2σ2 i,j,k,d(n) – 0,5), (15)wobei γi,j,k(onn) wie in (14) definiert ist. Deshalb wird die Varianz zum Zeitpunkt n + 1 gegeben durch σ2 i,j,k,d(n + 1) = eσi,j,k,d(n+1) (16)
  • Die Varianz wird von unten bei 10–6 abgeschnitten und erfüllt die Nebenbedingung σ2 i,j,k,d 2(n) > 10–6. Die Varianzaktualisierung wird durch einen Subprozeß des HMM-Aktualisierungsprozessors 60 bereitgestellt.
  • (3) Mischungsgewichteaktualisierung
  • sDie parametrisierten Mischungsgewichte werden folgendermaßen eingestellt: ci,j,kk(n + 1) = ci,j,k(n) – ∈nΣωj+1-1nn=θj ∂1/O, θ)/∂logbi,j(onn)) – [ci,j,k(n)/bi,j(onn)][N(onn, μi,j,k,d, Vi,j,k,d) – bi,j(onn)]. (17)
  • Deshalb werden die Mischungsgewichte zum Zeitpunkt n + 1 gegeben durch
  • Figure 00300001
  • Die eingestellten Mischungsgewichte erfüllen deshalb die folgenden Nebenbedingungen:
    Figure 00300002
    und ci,j,k(n) > 0 während des Trainingsprozesses der vorliegenden Erfindung. Die Mischungsgewichteaktualisierung wird durch einen Subprozeß des HMM-Aktualisierungsprozessors 60 bereitgestellt.
  • (4) Zustandsübergangswahrscheinlichkeitsaktualisierung:
  • In einem HMM von links nach rechts wird die parametrisierte Übergangswahrscheinlichkeit des l-ten Wortmodells eingestellt durch: α 1 i,i(n + 1) = α 1 i,i(n) – en[∂l/O, θ)/∂gl] (N1 i,i – (N1 i,i + 1)[(eIi,i+1(n))/(eIi,i(n) + eIi,i+1(n))]) α 1 i,i+1(n + 1) = α 1 i,i+i(n) – ∈n[∂l/O, θ)/∂gl] (1 – (1 + N1 i,i)[(eIi,i+1(n))/(eIi,i(n) + eIi,i+1(n))]) (19) dabei ist g1 die Wahrscheinlichkeitsbewertung von O in dem l-ten Verifikationsmodell, i ist der Endzustand, und die Gesamtselbstübergangsanzahl im Zustand i wird als N1 i,i = {# von }t(ωt-1, ωt) = (i, i) in dem l-ten Verifikationsmodell λl}. (20)
  • Folglich wird die Übergangswahrscheinlichkeit zum Zeitpunkt (n + 1) gegeben durch a1 i,i(n + 1) = [(eIi,i(n+1))/(eIi,i(n+1) + eIi,i+1(n+1))] a1 i,i+1(n + 1) = [(eIi,i(n+1))/(eIi,i+1(n+1) + eIi,i+1(n+1))], (21)wodurch ebenfalls die Nebenbedingungen Σja1 i,j (n) = 1, a1 i,i > 0 und a1 i,i+i > 0 erfüllt werden. Die Zustandsübergangswahrscheinlichkeitsaktualisierung wird durch einen Subprozeß des HMM-Aktualisierungsprozessors 60 bereitgestellt.
  • Durch den HMM-Aktualisierungsprozessors 60 berechnete Aktualisierungsausdrücke (15–18) betreffen eine aktualisierte Beobachtungswahrscheinlichkeitsdichtefunktion des i-ten Verifikationsmodells in dem j-ten Zustand gemäß
    Figure 00310001
    dabei sind ci,j,k die Mischungsgewichte und N(O, μi,j,k, Vi,j,k) ist eine D-dimensionale Gaußsche Normalverteilung des i-ten Erkennungseinheitsmodells, des j-ten Zustands und der k-ten Mischung mit einer Diagonal-Kovarianzmatrix Vi,j,k. Aus einem Subprozeß des HMM-Aktualisierungsprozessors 60 ausgegebene Werte für μ(n + 1), σ2(n + 1) und c(n + 1) werden zusammen mit Werten für die Zustandsübergangswahrscheinlichkeiten a(n + 1), die durch einen weiteren Subprozeß des HMM-Aktualisierungsprozessors 60 bereitgestellt werden, an die HMM-Parameterdatenbank 44 zurückgegeben. θu umfaßt aktualisierte Werte für μ, σ2, c und a.
  • Oben angegebene Ausdrücke für HMM-Parameteraktualisierung betreffen die Verwendung eines einzigen Sprachtrainingskettensignals aus der HMM-Parameterdatenbank 44 zur Erweiterung von HMM-Parametern. Der erweiterte Trainer 48 kann jedoch mehrmals iteriert werden, um die HMM-Parameter zu verbessern. Zum Beispiel kann der erweiterte Trainer 48 in mehreren Durchgängen oder Runden durch die vollständige HMM-Parameterdatenbank operieren. Es kann auf eine beliebige von mehreren Weisen bewirkt werden, daß der erweiterte Trainer mit der Verarbeitung von Proben aufhört. Zum Beispiel kann der erweiterte Trainer 48 anhalten, wenn er eine feste Anzahl von Runden durch die HMM-Parameterdatenbank 44 von Proben durchgeführt hat. Außerdem kann der erweiterte Trainer einen Datensatz der inkrementellen Verbesserung der Kettenverifikationsfehlerrate aufgrund der Verarbeitung aller Sprachtrainingskettensignale der aktuellen Runde führen. Wenn die inkrementelle Verbesserung unter eine Schwelle abfällt, kann die Verarbeitung anhalten.
  • Das MSVE-Training kann implementiert und auf die bevorzugte Spracherkennungssystemausführungsform angewandt werden, um subwortspezifische Schlüsselwort- und Anti-Schlüsselwortmodellparameter zu entwerfen. In jeder Trainingsrunde wird die durch Gleichung 1 definierte Diskriminantenfunktion Si(O; θ) auf dem Konfidenzmaßsignalwert für das bekannte Hypothesekettensignal auf der Basis des aktuellen Verifikationsmodells eingestellt, und die durch Gleichung 16 definierte Anti-Diskriminantenfunktion Si(O; θ) wird durch die Konfidenzmaßsignalwerte für das bekannte Hypothesekettensignal auf der Basis eines oder mehrerer konkurrierender Kettenmodelle unter Verwendung einer N-bestes-Kettenhypothese approximiert. Das Fehlverifikationsmaßsignal wird wie in Gleichung 5 bestimmt. Eine Verteilung von Konfidenzmaßsignalwerten und Fehlverifikationsmaßen für eine Trainingsrunde kann im Speicher aufgezeichnet und zur Bestimmung eines kritischen Schwellenwerts verwendet werden.
  • Die Leistungsfähigkeit von Äußerungsverifikationssystemen läßt sich durch Auswahl einer entsprechenden kritischen Schwelle verbessern. Schwellen können gemäß einem vordefinierten Kriterium gesetzt werden, wie zum Beispiel um eine minimale Gesamtfehlerrate zu erhalten oder um ein gleiche Fehlerrate zu erzielen, bei der Falschzurückweisungsfehler (Typ I) gleich Falschannahmefehlern (Typ II) sind. Die Verifikationsschwelle kann anfänglich so gesetzt werden, daß ein gewünschter Kompromiß zwischen Falschzurückweisungsfehlern (Typ I) und Falschannahmefehlern (Typ II) erhalten wird. Die jeweiligen Fehlerraten können durch Umgebungsungleichheit zwischen den Trainingsdaten und den Testdaten beeinflußt werden. Umgebungsungleichzeit können verschiedene Sprecher mit verschiedenen Akzenten oder verschiedene Umgebungsgeräusche sein.
  • Eine gleiche Verifikationsfehlerrate sowohl für Fehler des Typs I als auch für Fehler des Typs II kann durch das Spracherkennungssystem der vorliegenden Erfindung erreicht werden, die gleiche Fehlerrate kann jedoch für verschiedene gewählte Schwellensignalwerte variieren. Bei verschiedenen gewählten Schwellenwerten kann die Fehlerrate für Typ I höher oder niedriger als die Fehlerrate für Typ II sein. Deshalb ist ein Betriebsschwellensignalwert zur Durchführung der Verifikation des Hypothesewortkettensignals unter spezifischen Umgebungsbedingungen möglicherweise nicht für verschiedene Umgebungsbedingungen angemessen.
  • Verschiedene Fehlerraten für Fehler des Typs I und des Typs II können in kommerziellen Anwendungen vorteilhaft sein, bei denen Falschzurückweisungsfehler möglicherweise schädlicher als Falschannahmefehler sind oder umgekehrt. Die vorliegende Erfindung liefert einen Mechanismus zur Einstellung des kritischen Schwellenwerts des durch den Verifikationsprozessor erzeugten Konfidenzmaßsignals, um einen wünschenswerten Kompromiß zwischen Fehlern des Typs I und des Typs II aufrechtzuerhalten.
  • Eine Schwellenanpassungstechnik gemäß der vorliegenden Erfindung verwendet den als Reaktion auf bekannte Hypothesenkettensignale erzeugten Konfidenzmaßsignalwert zur Anpassung des Verifikationsschwellensignalwerts. Der Schwellenarbeitspunkt wird eingestellt, während Gruppen von Hypothesekettensignalen verfügbar werden. Für eine Klasse korrekter Hypothesekettensignale 72 und für eine Klasse falscher Hypothesekettensignale 74 wird wie in 4 gezeigt eine Verteilung von Konfidenzmaßsignalwerten (aus Gleichung 1) aufgezeichnet. Die rechte Verteilung 72 präsentiert die Konfidenzmaßsignale, die erzeugt werden, wenn eine Wortkette sowohl gültig ist als auch korrekt klassifiziert (erkannt) wird. Die Verteilung 74 auf der linken Seite präsentiert die Konfidenzmaßsignale, die für ungültige Wortketten und die anderen Ketten, die falsch erkannt wurden, erzeugt werden.
  • Die beiden Verteilungen 72, 74 weisen eine ähnliche Form auf, wobei die Varianzen der beiden Verteilungen fast gleich sind. Dieses Merkmal wird gemäß der vorliegenden Lehre zur Durchführung der Schwellenanpassung verwendet.
  • Es entspreche XH0 dem mittleren Konfidenzmaßsignalwert von S(O; θ), so daß O ∈ C ist, und es entspreche XHl dem mittleren Konfidenzmaßsignalwert S(O; θ), so daß O ∈ C ist, wobei C ein korrekt erkanntes Hypothesekettensignal ist. Unter der Annahme einer gleichen Varianz für beide Verteilungen wird, um eine gleiche Fehlerrate oder eine minimale Gesamtfehlerrate zu erzielen, die kritische Schwelle τs auf den folgenden Wert gelegt: τs = [XHo + XHl]/2 (23)
  • Die Schwellenanpassung kann während des Betriebsverifikationstestens ausgeführt werden, um so τs in die Mitte zwischen den beiden Verteilungen zu legen und den Wert von τs einzustellen, wenn XH0 – τs ≠ τs – XHl ist. In der Praxis ist es schwierig, die tatsächlichen augenblicklichen Mittelwerte der beiden Verteilungen zu bestimmen, während das System läuft. Folglich beginnt die Verifikationsverarbeitung mit bestimmten Anfangssetzungen für XH0 und XH1. Diese Werte werden jedesmal dann eingestellt, wenn eine ausreichende Anzahl von Ketten ("R") empfangen wurde, so daß τs angepaßt werden kann. Dieser Prozeß wird folgendermaßen ausgeführt.
  • Unter Verwendung einer Anzahl R von Kettenkonfidenzmaßsignalwerten werden die Werte von XH0 und XHl geschätzt und zur Berechnung eines Fehlermaßes verwendet: E1 = (XH0 – τs) – (τs – XHl). (24)
  • Um eine Vorbelastung der Mittelwerte aufgrund der langen Enden der Verteilungen 72, 74 von 4 zu vermeiden, werden Konfidenzmaße, die eine vordefinierte Maximal- und Minimalschwelle überschreiten, abgeschnitten. Zusätzlich wird die Fehlerfunktion mit einem verschobenen Sigmoid der folgenden Form geglättet:
    Figure 00360001
    wobei α1, das den Glättungsgrad bestimmt, auf 0,1 gesetzt wurde. Nach der Verarbeitung von n Ketten würde die kritische Schwelle τs dann folgendermaßen aktualisiert: Δτs(n) = B1E1, (26)wobei B1 die Schrittgröße und Δτs(n) = τs(n) – τs(n – 1) ist. Während der Anpassung wurde nicht zugelassen, daß der Wert von τs τs(0) ± 2 überschreitet.
  • Während der Anpassung des Verifikationsschwellenwerts gemäß der vorliegenden Erfindung werden Ketten zur Erkennung und Verifikation in einer zufälligen Reihenfolge präsentiert, um gleiche und ausreichende Informationen zur Schätzung der Mittelwerte sicherzustellen. Die kritische Schwelle wird zu Anfang auf einen minimalen Fehlerratenpunkt gesetzt und dann alle 20 Ketten (d.h. R = 20) eingestellt, um die Verfügbarkeit einer ausreichenden, aber nicht minimalen Anzahl von Ketten zur Berechnung des Mittelwerts jeder Verteilung sicherzustellen. Dieses Verfahren zur Einstellung des Verifikationsschwellensignalwerts ermöglicht eine Vorauswahl und Aufrechterhaltung von Fehlerraten sowohl des Typs I als auch des Typs II vor und nach der Anpassung.
  • Eine sprecherunabhängige Datenbank verbundener Ziffern auf Telefonbasis wurde beim experimentellen Training und der Betriebsprüfung gemäß der vorliegenden Erfindung verwendet. Es wurden Ziffernketten im Bereich von Eins bis Sechzehn Ziffern Länge aus verschiedenen Einsatzversuchssammlungen extrahiert. Die Einsatzversuchssammlungen repräsentierten unterschiedliche Umgebungsbedingungen und akustische Wandlergeräte.
  • Die Trainingsmenge bestand aus 16089 Ziffernketten. Die Testmenge bestand aus 27702 Ziffernketten. Ungefähr 22% der Äußerungen enthielten Worte außerhalb des Vokabulars, falsche Starts und signifikante Hintergrundgeräusche. Zum Training der Füllermodelle wurde eine separate Datenbank aus 3000 phonetisch reichhaltigen Sätzen bereitgestellt. Die Verifikationsergebnisse überstiegen 99% korrekte Zurückweisung.
  • Aus dem obigen ist ersichtlich, daß die vorliegende Erfindung einen auf Ketten basierenden Trainingsprozeß mit minimalem Verifikationsfehler zur Äußerungsverifikation bereitstellt. Der diskriminative Ansatz für das Training der Verifikationsprozessormodelle ist mit der für die Äußerungsverifikation verwendeten Zielfunktion vereinbar und hängt direkt mit der Minimierung der erwarteten Kettenverifikationsfehlerrate zusammen.
  • Im Hinblick auf das obige wird Durchschnittsfachleuten klar sein, daß die vorliegende Erfindung sowohl auf die sprecherabhängige als auch auf die sprecherunabhängige Spracherkennung anwendbar ist. Ferner wird ersichtlich sein, daß, obwohl sie im Kontext der Spracherkennung besprochen werden, die zum Trainieren von Modellen verwendeten Techniken auch auf die Mustererkennung im allgemeinen anwendbar sind.
  • Es versteht sich, daß die oben beschriebenen Ausführungsformen lediglich beispielhaft sind und daß Fachleute viele Varianten konzipieren können, ohne von dem Schutzumfang der Erfindung abzuweichen, der durch die angefügten Ansprüche definiert wird.

Claims (8)

  1. Spracherkennungssystem zum Erkennen einer Kette verbundener gesprochener Wörter, umfassend: einen Erkennungsprozessor (10) zum Erzeugen eines Hypothesenkettensignals, das eine unbekannte Sprachäußerung repräsentiert, als Reaktion auf eine akustische Eingangskette verbundener gesprochener Wörter; eine Erkennungsdatenbank (12) zum Speichern von Erkennungsmodellen; einen Verifikationsprozessor (14) zum Erzeugen eines auf Ketten basierenden Konfidenzmaßsignals als Reaktion auf das Hypothesenkettensignal, das eine unbekannte Sprachäußerung repräsentiert; und eine Verifikationsdatenbank (16) zum Speichern von Verifikationsmodellen; ferner umfassend an den Verifikationsprozessor angekoppelte Mittel zum Berechnen eines Verifikationsschwellensignalwerts eines auf Ketten basierenden Konfidenzmaßsignals; Mittel zum Messen des auf Ketten basierenden Konfidenzmaßsignals zur Erzeugung eines gemessenen Signalwerts; und Mittel zum Vergleichen des gemessenen Signalwerts mit dem Schwellensignalwert.
  2. Spracherkennungssystem nach Anspruch 1, wobei die Verifikationsmodelle eine Menge von Hidden-Markov-Modellparametern umfassen.
  3. Spracherkennungssystem nach Anspruch 1 oder Anspruch 2, wobei die Verifikationsmodelle aus der folgenden Gruppe ausgewählt werden: Schlüsselwortmodelle, Anti-Schlüsselwortmodelle, akustische Füllermodelle und Kombinationen davon.
  4. Spracherkennungssystem nach einem der vorhergehenden Ansprüche, wobei die Verifikationsmodelle diskriminatives Training widerspiegeln.
  5. Spracherkennungssystem nach einem der vorhergehenden Ansprüche, wobei das Hypothesenkettensignal eine segmentierte Reihe von Wortsignalen umfaßt; und der Verifikationsprozessor folgendes umfaßt: Mittel zum Berechnen einer auf Wörtern basierenden Konfidenzbewertung für jedes Wortsignal der segmentierten Reihe; und Mittel zum Erzeugen des auf Ketten basierenden Konfidenzmaßsignals als Reaktion auf einen Mittelwert der auf Wörtern basierenden Konfidenzbewertungen für jedes Wortsignal der segmentierten Reihe.
  6. Sprachsignalverarbeitungsverfahren zum Erzeugen einer Verifikationsschwellensignalprobe eines durch einen Verifikationsprozessor für ein Spracherkennungssystem erzeugten Konfidenzmaßsignals, mit den folgenden Schritten: (A) Durchführen einer Runde des Betriebs des Verifikationsprozessors, um folgendes auszuführen: (i) Erzeugen eines ersten auf Ketten basierenden Konfidenzmaßsignals auf der Basis eines bekannten Hypothesenkettensignals, das eine unbekannte Sprachäußerung repräsentiert, und eines aktuellen Verifikationsmodells für das bekannte Hypothesenkettensignal, das eine unbekannte Sprachäußerung repräsentiert; (ii) Erzeugen eines oder mehrerer weiterer auf Ketten basierender Konfidenzmaßsignale, wobei jedes solche auf Ketten basierende Konfidenzmaßsignal auf dem bekannten Hypothesenkettensignal, das eine unbekannte Sprachäußerung repräsentiert, und einem weiteren Verifikationsmodell basiert; (B) Wiederholen von Schritt (A) für eine vorgewählte Anzahl von Runden; (C) Aufzeichnen einer ersten Verteilung erster auf Ketten basierender Konfidenzmaßsignalwerte für die vorgewählte Anzahl von Runden; (D) Aufzeichnen einer zweiten Verteilung des einen bzw. der mehreren auf Ketten basierenden Konfidenzmaßsignalwerte für die vorgewählte Anzahl von Runden; (E) Berechnen eines ersten Mittelwerts für die erste Verteilung; (F) Berechnen eines zweiten Mittelwerts für die zweite Verteilung; und (G) Erzeugen der Verifikationsschwellensignalprobe auf der Basis des ersten Mittelwerts und des zweiten Mittelwerts.
  7. Verfahren nach Anspruch 6, ferner mit den folgenden Schritten: Auswählen einer Falschzurückweisungs-Verifikationsfehlerrate; Auswählen einer Falschannahme-Verifikationsfehlerrate; und Schätzen eines Anfangsverifikationsschwellensignalwerts auf der Basis der gewählten Falschzurückweisungs-Verifikationsfehlerrate und der gewählten Falschannahme-Verifikationsfehlerrate.
  8. Verfahren nach Anspruch 7, ferner mit den folgenden Schritten: Erzeugen des Verifikationsschwellensignalwerts, während das Spracherkennungssystem in Betrieb ist; und Aufrechterhalten der Falschzurückweisungs-Verifikationsfehlerrate und der Falschannahme-Verifikationsfehlerrate, während das Erkennungssystem in Betrieb ist.
DE69634784T 1995-09-15 1996-09-03 Unterscheidende Verifizierung von Äusserungen für die Erkennung zusammenhängender Ziffern Expired - Fee Related DE69634784T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US528902 1995-09-15
US08/528,902 US5737489A (en) 1995-09-15 1995-09-15 Discriminative utterance verification for connected digits recognition

Publications (2)

Publication Number Publication Date
DE69634784D1 DE69634784D1 (de) 2005-06-30
DE69634784T2 true DE69634784T2 (de) 2006-03-23

Family

ID=24107677

Family Applications (2)

Application Number Title Priority Date Filing Date
DE69620324T Expired - Fee Related DE69620324T2 (de) 1995-09-15 1996-09-03 Unterscheidende Verifizierung von Äusserungen für die Erkennung zusammenhängender Ziffern
DE69634784T Expired - Fee Related DE69634784T2 (de) 1995-09-15 1996-09-03 Unterscheidende Verifizierung von Äusserungen für die Erkennung zusammenhängender Ziffern

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE69620324T Expired - Fee Related DE69620324T2 (de) 1995-09-15 1996-09-03 Unterscheidende Verifizierung von Äusserungen für die Erkennung zusammenhängender Ziffern

Country Status (5)

Country Link
US (1) US5737489A (de)
EP (2) EP1184840B1 (de)
JP (1) JP3549681B2 (de)
CA (1) CA2181205C (de)
DE (2) DE69620324T2 (de)

Families Citing this family (110)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3536471B2 (ja) * 1995-09-26 2004-06-07 ソニー株式会社 識別装置および識別方法、並びに音声認識装置および音声認識方法
US5835890A (en) * 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
US6490555B1 (en) * 1997-03-14 2002-12-03 Scansoft, Inc. Discriminatively trained mixture models in continuous speech recognition
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US5920838A (en) * 1997-06-02 1999-07-06 Carnegie Mellon University Reading and pronunciation tutor
EP0902417B1 (de) * 1997-09-12 2003-12-10 Siemens Aktiengesellschaft Verfahren und Einrichtung zur Spracherkennung von verwirrenden Wörtern
US6049768A (en) * 1997-11-03 2000-04-11 A T & T Corp Speech recognition system with implicit checksum
AU2901299A (en) * 1998-03-09 1999-09-27 Lernout & Hauspie Speech Products N.V. Apparatus and method for simultaneous multimode dictation
JP2000020089A (ja) * 1998-07-07 2000-01-21 Matsushita Electric Ind Co Ltd 音声認識方法及びその装置、並びに音声制御システム
DE19842151A1 (de) * 1998-09-15 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Adaption von linguistischen Sprachmodellen
US6292778B1 (en) * 1998-10-30 2001-09-18 Lucent Technologies Inc. Task-independent utterance verification with subword-based minimum verification error training
DE69829187T2 (de) 1998-12-17 2005-12-29 Sony International (Europe) Gmbh Halbüberwachte Sprecheradaptation
US6922669B2 (en) * 1998-12-29 2005-07-26 Koninklijke Philips Electronics N.V. Knowledge-based strategies applied to N-best lists in automatic speech recognition systems
US6205426B1 (en) * 1999-01-25 2001-03-20 Matsushita Electric Industrial Co., Ltd. Unsupervised speech model adaptation using reliable information among N-best strings
CN1343337B (zh) 1999-03-05 2013-03-20 佳能株式会社 用于产生包括音素数据和解码的字的注释数据的方法和设备
DE19933524A1 (de) * 1999-07-16 2001-01-18 Nokia Mobile Phones Ltd Verfahren zur Eingabe von Daten in ein System
US7149690B2 (en) 1999-09-09 2006-12-12 Lucent Technologies Inc. Method and apparatus for interactive language instruction
JP3834169B2 (ja) * 1999-09-22 2006-10-18 日本放送協会 連続音声認識装置および記録媒体
US6473735B1 (en) * 1999-10-21 2002-10-29 Sony Corporation System and method for speech verification using a confidence measure
KR100307623B1 (ko) * 1999-10-21 2001-11-02 윤종용 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
US7212968B1 (en) 1999-10-28 2007-05-01 Canon Kabushiki Kaisha Pattern matching method and apparatus
US7310600B1 (en) * 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US7031923B1 (en) 2000-03-06 2006-04-18 International Business Machines Corporation Verbal utterance rejection using a labeller with grammatical constraints
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
US6438519B1 (en) * 2000-05-31 2002-08-20 Motorola, Inc. Apparatus and method for rejecting out-of-class inputs for pattern classification
GB0015233D0 (en) 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
GB2364814A (en) 2000-07-12 2002-02-06 Canon Kk Speech recognition
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
GB0027178D0 (en) 2000-11-07 2000-12-27 Canon Kk Speech processing system
GB0028277D0 (en) 2000-11-20 2001-01-03 Canon Kk Speech processing system
US7400712B2 (en) * 2001-01-18 2008-07-15 Lucent Technologies Inc. Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access
US7506022B2 (en) * 2001-05-04 2009-03-17 Microsoft.Corporation Web enabled recognition architecture
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US20020178182A1 (en) * 2001-05-04 2002-11-28 Kuansan Wang Markup language extensions for web enabled recognition
US7409349B2 (en) * 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US7103543B2 (en) * 2001-05-31 2006-09-05 Sony Corporation System and method for speech verification using a robust confidence measure
JP2005500580A (ja) * 2001-08-14 2005-01-06 ソニー エレクトロニクス インク ロバストな信頼度尺度を用いて音声検証を行う装置及び方法
US7711570B2 (en) 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US8229753B2 (en) * 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
GB2385697B (en) * 2002-02-14 2005-06-15 Canon Kk Speech processing apparatus and method
US7016842B2 (en) * 2002-03-26 2006-03-21 Sbc Technology Resources, Inc. Method and system for evaluating automatic speech recognition telephone services
EP1377000B1 (de) * 2002-06-11 2009-04-22 Swisscom (Schweiz) AG Verfahren, angewandt in einem sprachgesteuerten automatischen Rufnummernauskunftsystem
US7502737B2 (en) * 2002-06-24 2009-03-10 Intel Corporation Multi-pass recognition of spoken dialogue
TWI223791B (en) * 2003-04-14 2004-11-11 Ind Tech Res Inst Method and system for utterance verification
US7260535B2 (en) 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
US20040230637A1 (en) * 2003-04-29 2004-11-18 Microsoft Corporation Application controls for speech enabled recognition
DE10341305A1 (de) * 2003-09-05 2005-03-31 Daimlerchrysler Ag Intelligente Nutzeradaption bei Dialogsystemen
US8160883B2 (en) * 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US7552055B2 (en) 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
WO2005088607A1 (de) * 2004-03-12 2005-09-22 Siemens Aktiengesellschaft Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen
GB0410248D0 (en) 2004-05-07 2004-06-09 Isis Innovation Signal analysis method
US7788103B2 (en) * 2004-10-18 2010-08-31 Nuance Communications, Inc. Random confirmation in speech based systems
US7844465B2 (en) * 2004-11-30 2010-11-30 Scansoft, Inc. Random confirmation in speech based systems
US7509259B2 (en) * 2004-12-21 2009-03-24 Motorola, Inc. Method of refining statistical pattern recognition models and statistical pattern recognizers
JP4753412B2 (ja) * 2005-01-20 2011-08-24 株式会社国際電気通信基礎技術研究所 発音評定装置、およびプログラム
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8200495B2 (en) * 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7827032B2 (en) 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
KR100631786B1 (ko) 2005-02-18 2006-10-12 삼성전자주식회사 프레임의 신뢰도를 측정하여 음성을 인식하는 방법 및 장치
CN101416237B (zh) * 2006-05-01 2012-05-30 日本电信电话株式会社 基于源和室内声学的概率模型的语音去混响方法和设备
US8688451B2 (en) * 2006-05-11 2014-04-01 General Motors Llc Distinguishing out-of-vocabulary speech from in-vocabulary speech
CN101118745B (zh) * 2006-08-04 2011-01-19 中国科学院声学研究所 语音识别系统中的置信度快速求取方法
US8842886B2 (en) * 2006-08-15 2014-09-23 Avery Glasser Adaptive tuning of biometric engines
AU2007335251B2 (en) 2006-12-19 2014-05-15 Validvoice, Llc Confidence levels for speaker recognition
US8423364B2 (en) * 2007-02-20 2013-04-16 Microsoft Corporation Generic framework for large-margin MCE training in speech recognition
US7437291B1 (en) * 2007-12-13 2008-10-14 International Business Machines Corporation Using partial information to improve dialog in automatic speech recognition systems
US8180641B2 (en) * 2008-09-29 2012-05-15 Microsoft Corporation Sequential speech recognition with two unequal ASR systems
TWI420433B (zh) * 2009-02-27 2013-12-21 Ind Tech Res Inst 語音互動系統與方法
TWI421857B (zh) * 2009-12-29 2014-01-01 Ind Tech Res Inst 產生詞語確認臨界值的裝置、方法與語音辨識、詞語確認系統
CN102117615B (zh) * 2009-12-31 2013-01-02 财团法人工业技术研究院 产生词语确认临界值的装置、方法及系统
WO2012036305A1 (ja) * 2010-09-17 2012-03-22 日本電気株式会社 音声認識装置、音声認識方法、及びプログラム
US9118669B2 (en) 2010-09-30 2015-08-25 Alcatel Lucent Method and apparatus for voice signature authentication
US9706247B2 (en) 2011-03-23 2017-07-11 Audible, Inc. Synchronized digital content samples
US8855797B2 (en) 2011-03-23 2014-10-07 Audible, Inc. Managing playback of synchronized content
US8948892B2 (en) 2011-03-23 2015-02-03 Audible, Inc. Managing playback of synchronized content
US9703781B2 (en) 2011-03-23 2017-07-11 Audible, Inc. Managing related digital content
US9760920B2 (en) 2011-03-23 2017-09-12 Audible, Inc. Synchronizing digital content
US9734153B2 (en) 2011-03-23 2017-08-15 Audible, Inc. Managing related digital content
US8862255B2 (en) 2011-03-23 2014-10-14 Audible, Inc. Managing playback of synchronized content
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US20130090926A1 (en) * 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
WO2013163494A1 (en) * 2012-04-27 2013-10-31 Interactive Itelligence, Inc. Negative example (anti-word) based performance improvement for speech recognition
US9075760B2 (en) 2012-05-07 2015-07-07 Audible, Inc. Narration settings distribution for content customization
US9269349B2 (en) * 2012-05-24 2016-02-23 Nuance Communications, Inc. Automatic methods to predict error rates and detect performance degradation
US9317500B2 (en) 2012-05-30 2016-04-19 Audible, Inc. Synchronizing translated digital content
US8972265B1 (en) 2012-06-18 2015-03-03 Audible, Inc. Multiple voices in audio content
US9141257B1 (en) 2012-06-18 2015-09-22 Audible, Inc. Selecting and conveying supplemental content
US9536439B1 (en) 2012-06-27 2017-01-03 Audible, Inc. Conveying questions with content
US9679608B2 (en) 2012-06-28 2017-06-13 Audible, Inc. Pacing content
US10109278B2 (en) * 2012-08-02 2018-10-23 Audible, Inc. Aligning body matter across content formats
CN103631802B (zh) * 2012-08-24 2015-05-20 腾讯科技(深圳)有限公司 歌曲信息检索方法、装置及相应的服务器
US9367196B1 (en) 2012-09-26 2016-06-14 Audible, Inc. Conveying branched content
US9632647B1 (en) 2012-10-09 2017-04-25 Audible, Inc. Selecting presentation positions in dynamic content
US9223830B1 (en) 2012-10-26 2015-12-29 Audible, Inc. Content presentation analysis
US9159319B1 (en) * 2012-12-03 2015-10-13 Amazon Technologies, Inc. Keyword spotting with competitor models
CN103971678B (zh) * 2013-01-29 2015-08-12 腾讯科技(深圳)有限公司 关键词检测方法和装置
US9280906B2 (en) 2013-02-04 2016-03-08 Audible. Inc. Prompting a user for input during a synchronous presentation of audio content and textual content
US9472113B1 (en) 2013-02-05 2016-10-18 Audible, Inc. Synchronizing playback of digital content with physical content
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
US9317486B1 (en) 2013-06-07 2016-04-19 Audible, Inc. Synchronizing playback of digital content with captured physical content
US9489360B2 (en) 2013-09-05 2016-11-08 Audible, Inc. Identifying extra material in companion content
US9899021B1 (en) * 2013-12-20 2018-02-20 Amazon Technologies, Inc. Stochastic modeling of user interactions with a detection system
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US11232788B2 (en) * 2018-12-10 2022-01-25 Amazon Technologies, Inc. Wakeword detection
KR102637025B1 (ko) * 2021-03-26 2024-02-16 구글 엘엘씨 자동 음성 인식을 위한 다언어 리스코어링 모델들

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4348553A (en) * 1980-07-02 1982-09-07 International Business Machines Corporation Parallel pattern verifier with dynamic time warping
US5125022A (en) * 1990-05-15 1992-06-23 Vcs Industries, Inc. Method for recognizing alphanumeric strings spoken over a telephone network
US5127043A (en) * 1990-05-15 1992-06-30 Vcs Industries, Inc. Simultaneous speaker-independent voice recognition and verification over a telephone network
US5303299A (en) * 1990-05-15 1994-04-12 Vcs Industries, Inc. Method for continuous recognition of alphanumeric strings spoken over a telephone network
US5349645A (en) * 1991-12-31 1994-09-20 Matsushita Electric Industrial Co., Ltd. Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches
EP0559349B1 (de) * 1992-03-02 1999-01-07 AT&T Corp. Lernverfahren und Gerät zur Spracherkennung
US5440662A (en) * 1992-12-11 1995-08-08 At&T Corp. Keyword/non-keyword classification in isolated word speech recognition
US5717826A (en) * 1995-08-11 1998-02-10 Lucent Technologies Inc. Utterance verification using word based minimum verification error training for recognizing a keyboard string

Also Published As

Publication number Publication date
EP0763816B1 (de) 2002-04-03
EP0763816A3 (de) 1998-05-13
DE69620324D1 (de) 2002-05-08
EP1184840A1 (de) 2002-03-06
DE69634784D1 (de) 2005-06-30
EP1184840B1 (de) 2005-05-25
CA2181205A1 (en) 1997-03-16
DE69620324T2 (de) 2002-10-31
JPH09127972A (ja) 1997-05-16
CA2181205C (en) 2001-01-02
JP3549681B2 (ja) 2004-08-04
EP0763816A2 (de) 1997-03-19
US5737489A (en) 1998-04-07

Similar Documents

Publication Publication Date Title
DE69634784T2 (de) Unterscheidende Verifizierung von Äusserungen für die Erkennung zusammenhängender Ziffern
DE69422097T2 (de) Training von kombinierten Kettenmodellen mit minimaler Fehlerrate
DE69322894T2 (de) Lernverfahren und Gerät zur Spracherkennung
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE69315374T2 (de) Spracherkennungssystem zur naturgetreuen Sprachübersetzung
DE69518723T2 (de) Verminderung des Suchraumes bei Spracherkennung unter Verwendung von Phonemgrenzen und Phonemklassen
DE69615748T2 (de) Verfahren und Gerät zur Sprecherprüfung mittels Unterscheidung der Prototypen-Zusammenstellung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69829187T2 (de) Halbüberwachte Sprecheradaptation
EP0925579B1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE69225173T2 (de) Spracherkennungsgerät
DE69029188T2 (de) Auf Wahrscheinlichkeitclusterbildung gestützte Schriftzeichenerkennung
DE69416670T2 (de) Sprachverarbeitung
DE69226796T2 (de) Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung
DE69229124T2 (de) Mehrteiliger expertsystem
DE69838189T2 (de) Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
DE102008017993B4 (de) Sprachsuchvorrichtung
DE69707876T2 (de) Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung
DE60115738T2 (de) Sprachmodelle für die Spracherkennung
DE69129015T2 (de) Sprecherunabhängiges Gerät zur Markierungskodierung
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE69914839T2 (de) Sprecherverifikation und -erkennung mittels Eigenstimmen
DE69318447T2 (de) Erkennungssystem
DE68924134T2 (de) Spracherkennungssystem.

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee