DE69634784T2

DE69634784T2 - Unterscheidende Verifizierung von Äusserungen für die Erkennung zusammenhängender Ziffern

Info

Publication number: DE69634784T2
Application number: DE69634784T
Authority: DE
Inventors: Wu Berkley Heights Chou; Biing-Hwang Warren Juang; Chin-Hui New Providence Lee; Mazing Manalapan Rahim
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1995-09-15
Filing date: 1996-09-03
Publication date: 2006-03-23
Anticipated expiration: 2016-09-04
Also published as: EP0763816B1; EP0763816A3; DE69620324D1; EP1184840A1; DE69634784D1; EP1184840B1; CA2181205A1; DE69620324T2; JPH09127972A; CA2181205C; JP3549681B2; EP0763816A2; US5737489A

Description

Technisches Gebiet
Die vorliegende Erfindung betrifft das Gebiet der Spracherkennung und -verifikation allgemein und insbesondere das Gebiet des Sprachverifikationstrainings.
Allgemeiner Stand der Technik
Die Spracherkennung ist ein Prozeß, bei dem eine unbekannte gesprochene Äußerung identifiziert wird. Durch einen als Training bekannten Prozeß werden bekannte Wörter oder Wortketten untersucht und Merkmale der Wörter oder der Wortketten werden abgetastet und als Erkennungsmodelle in einem Spracherkennungsspeicher aufgezeichnet. Die Erkennungsmodelle repräsentieren typische akustische Wiedergaben bekannter Äußerungen. Beim Trainingsprozeß wird ein Trainingsalgorithmus auf die Erkennungsmodelle angewandt, um diese gespeicherten Repräsentationen zu bilden, die zur Erkennung zukünftiger unbekannter Wörter und Wortketten verwendet werden.
Im Betrieb empfängt eine Spracherkennungsvorrichtung eine unbekannte Äußerung und extrahiert Merkmale aus einer unbekannten Äußerung, um die unbekannte Äußerung zu erkennen. Die extrahierten Merkmale der unbekannten Äußerung werden als ein Testmuster bezeichnet.
Die Erkennungsvorrichtung vergleicht dann Kombinationen eines oder mehrerer Erkennungsmodelle im Speicher mit dem Testmuster für die unbekannte Äußerung. Mit einer Bewertungstechnik wird eine relatives Maß dafür bereitgestellt, wie gut jede Kombination von Erkennungsmodellen mit dem Testmuster übereinstimmt. Die unbekannte Äußerung wird als die mit der Kombination eines oder mehrerer Erkennungsprozessormodelle assoziierten Wörtern erkannt, die am deutlichsten mit der unbekannten Äußerung übereinstimmen.
In der bisherigen Praxis der Spracherkennung wurde eine Anzahl "N" gültiger Möglichkeiten oder Klassen für die Spracherkennungsmodellierung und das Modelltraining verwendet. Bei einem solchen Modell mit N Klassen wird angenommen, daß alle zu erkennenden Äußerungseingaben gültig sind. Ein Erkennungsmodell für jedes der "N" möglichen Klassen der Existenz wird in einem Speicher der Erkennungsvorrichtung gespeichert. Alle zu erkennenden Spracheingaben (gültig oder nicht) werden als eine der N Klassen klassifiziert. Die Erkennungsvorrichtung berechnet eine Bewertung für die Äußerung für jedes der N Modelle und vergleicht die Äußerung mit der einen Klasse (der N Klassen) mit der besten Bewertung.
Zusätzlich zu den N gültigen Klassen der Erkennung wurde das Konzept einer zusätzlichen Klasse ("N + 1") entwickelt, um ein assoziiertes Modell des Typs N + 1 bereitzustellen, das als "Füller-"Modell bezeichnet wird. In einem solchen System wird die zu erkennende Eingangsäußerung im Vergleich zu jedem der N Modelle für die N gültigen Klassen von Eingaben und zusätzlich im Vergleich zu dem Füllerklassenmodell N + 1 bewertet. Das (N + 1)-Modell wird dann so ausgelegt, daß es alle ungültigen Eingaben repräsentiert. Die Verwendung eines (N + 1)-Füllermodells hat ferner den Erkennungsprozeß so verfeinert, daß er berücksichtigt, daß eine Eingangsäußerung oder ein Segment einer Eingangsäußerung möglicherweise nicht gültig ist.
Nachdem eine unbekannte Äußerung durch einen Spracherkennungsprozeß klassifiziert wurde, ist es häufig wünschenswert, die Authentizität der durch die Spracherkennungsvorrichtung getroffenen Klassifizierungsentscheidung zu bewerten. Dies läßt sich durch einen Prozeß mit zwei Durchgängen erreichen, wobei eine unbekannte Äußerung zuerst durch Bewertung im Vergleich zu N Modellen, die N mögliche gültige Klassen repräsentieren, erkannt (klassifiziert) wird. Das Erkennungsmodell, das die beste Bewertung ergibt, wird mit seiner assoziierten Klasse verglichen, die als eine nachfolgend zu verifizierende Hypotheseäußerung erkannt wird. Die hypothetische erkannte Äußerung wird dann in einem zweiten Durchgang im Vergleich zu einem Füllerverifikationsmodell verifiziert, das dem zuvor besprochenen (N + 1)-Erkennungsfüllermodell ähnlich sein kann.
Ein Spracherkennungsprozeß mit zwei Durchgängen ermöglicht die Erkennung einer unbekannten Äußerung, gefolgt durch eine berechnete Bestimmung, wie sicher sich das System bei der Erkennungsentscheidung ist. Zum Beispiel klassifiziert die Erkennungsvorrichtung eine unbekannte Äußerung als ein bestimmtes Wort und der Verifizierer berechnet unter Verwendung eines Füllermodells eine statistische Wahrscheinlichkeit, daß diese Klassifizierung korrekt ist. Mit dem Verifizierer wird eine binäre Entscheidung (entweder "Ja" oder "Nein") getroffen, ob die Erkennungsvorrichtung richtig klassifiziert hat.
Die Äußerungsverifikation repräsentiert einen wichtigen Aspekt der Spracherkennungssystementwicklung. Bei der Äußerungsverifikation wird ein Teil einer gesamten Äußerung oder die gesamte Äußerung auf der Basis einer berechneten Konfidenzbewertung zurückgewiesen. Diese Konfidenzbewertung kann auf einer Wahrscheinlichkeitsverhältnisdistanz basieren, die prüft, ob ein Wort in einem gegebenen Sprachsegment existiert oder nicht. Die Wahrscheinlichkeitsverhältnisdistanz ist besonders dann nützlich, wenn Äußerungen ohne gültige Wörter gesprochen werden, mit schlecht erkannten Äußerungen oder wenn signifikante Verwirrung zwischen Wörtern besteht, die eine hohe Fehlerrate erzeugen kann.
Eine erfolgreiche Durchführung der Äußerungsverifikation im Kontext eines Spracherkennungssystems hängt eng mit der Effektivität der Techniken zusammen, die zum Trainieren von Verifikationsmodellen verwendet werden, die in dem Verifikationsprozeß benutzt werden. Es besteht eine Unzulänglichkeit bei herkömmlichen Trainingsverfahren, die auf das Fehlen einer direkten Beziehung zwischen Training und Verifikationsfehlerrate zurückzuführen ist. Ein Problem von andauerndem Interesse hat darin bestanden, ein Trainingsverfahren zu finden, das die Verifikationsfehlerrate direkt minimiert.
Aus Rahim et al., "Robust Utterance Verification for Connected Digits Recognition", ICASSP 95, S. 285–288, ist ein Ansatz für die auf Ketten basierende Verifikation bekannt, der unter Verwendung eines geometrischen Mittelwerts aller erkannten Ziffern eine auf Äußerungen basierende Konfidenzbewertung berechnet.
Aus der nur kraft Artikel 54 (3) EPC Teil des Stands der Technik bildenden EP-A-0 781 ist ein Spracherkennungsverfahren und eine Vorrichtung bekannt, die eine erste Stufe zum Bereitstellen von Schlüsselworthypothesen und eine zweite Stufe zum Bereitstellen eines Testens dieser Hypothesen durch Äußerungsverifikation aufweisen. Die verwendete Äußerungsverifikation besitzt drei separate Modelle für jedes Wort: ein Schlüsselwortverifikationsmodell, ein Fehlerkennungsverifikationsmodell und ein Nicht-Schlüsselwort-Verifikationsmodell. Ferner werden alle drei unabhängig von den Schlüsselwortmodellen der Erkennungsvorrichtung entwickelt. Aufgrund dieser Unabhängigkeit können die drei Verifikationsmodelle unter Verwendung existierender Sprachdatenbanken iterativ so trainiert werden, daß ein Minimum an Verifikationsfehlern bereitgestellt wird.
Kurze Darstellung der Erfindung
Die Erfindung wird in Anspruch 1 und in Anspruch 6 definiert, bevorzugte Formen werden in den abhängigen Ansprüchen definiert. Ein Fortschritt in der Spracherkennungstechnologie wird durch die vorliegende Erfindung bereitgestellt, bei der ein Spracherkennungssystem eine Erkennungs- und Verifikationsstrategie mit zwei Durchgängen zur Erkennung einer unbekannten Kette verbundener Wörter verwendet. Gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung umfaßt das Spracherkennungssystem einen Erkennungsprozessor zum Erzeugen einer Hypothesekette verbundener Wörter auf der Basis einer akustischen Eingangskette unbekannter verbundener Wörter; und einen Verifikationsprozessor, der als Reaktion auf die Hypothesekette verbundener Wörter ein auf Ketten basierendes Konfidenzmaßsignal erzeugt. Eine Erkennungsdatenbank speichert Erkennungsmodelle zur Verwendung durch den Erkennungsprozessor. Eine Verifikationsdatenbank speichert Verifikationsmodelle zur Verwendung durch den Verifikationsprozessor.
Die Erkennung im ersten Durchgang wird mit einem herkömmlichen Viterbi-Beam-Suchalgorithmus unter Verwendung einer Menge von Hidden-Markov-Modellen durchgeführt, die so trainiert werden, daß ein Kettenklassifikationsfehler minimiert wird. Die Äußerungsverifikation im zweiten Durchgang wird durchgeführt, um die erkannte Hypothesekette unter Verwendung einer Menge von Hidden-Markov-Modellen zu verifizieren, die gemäß der vorliegenden Erfindung mit einem Trainingsprozeß des minimalen Kettenverifikationsfehlers (MSVE) trainiert werden.
Es wird ein Verfahren zum Trainieren der in der Verifikationsdatenbank gespeicherten Verifikationsmodelle zur Minimierung des Verifikationsfehlers verwendet. Bei dem Trainingsverfahren wird ein erwarteter Kettenverifikationsfehler berechnet und minimiert.
Bei dem Trainingsprozeß werden zuerst Verifikationsmodelle in der Verifikationsdatenbank initialisiert. Es wird eine bekannte Hypothesekette gewählt. Der Verifikationsprozessor erzeugt auf der Basis des aktuellen Verifikationsmodells für die bekannte Hypothesekette ein erstes auf Ketten basierendes Konfidenzmaßsignal.
Eines oder mehrere konkurrierende Kettenmodelle, die dem aktuellen Verifikationsmodell für die bekannte Hypothesekette verwechselbar ähnlich sind, werden erzeugt. Das eine bzw. die mehreren konkurrierenden Kettenmodelle werden dem Verifikationsprozessor zugeführt, der auf der Basis der bekannten Hypothesekette und des einen bzw. der mehreren konkurrierenden Kettenmodelle ein oder mehrere auf Ketten basierende Konfidenzmaßsignale erzeugt.
Der Verifikationsprozessor erzeugt auf der Basis des ersten auf Ketten basierenden Konfidenzmaßsignales für die bekannte Hypothesekette und der auf Ketten basierenden Konfidenzmaßsignale auf der Basis des einen bzw. der mehreren konkurrierenden Kettenmodelle ein Fehlverifikationssignal. Ein auf dem Fehlverifikationssignal basierendes Verlustfunktionssignal liefert einen Gradienten, der die Verifikation der bekannten Hypothesekette auf der Basis des aktuellen Verifikationsmodells für diese bekannte Hypothesekette mit der Verifikation der bekannten Hypothesekette mit dem einen bzw. den mehreren anderen konkurrierenden Verifikationsmodellen in Beziehung setzt. Die Gradientenbestimmung wird unter Verwendung einer Ableitung des Verlustfunktionssignals erzielt.
Die Verifikationsmodelle werden aktualisiert, um die Wahrscheinlichkeit einer Fehlverifikation einer unbekannten Hypothesekette zu minimieren. Der Aktualisierungsprozeß schätzt ein erwartetes Verlustfunktionssignal und stellt die Verifikationsmodelle als Reaktion auf das geschätzte Verlustfunktionssignal iterativ ein, um die Verifikationsfehlerwahrscheinlichkeit zu minimieren.
Das Spracherkennungssystem der vorliegenden Erfindung kann betrieben werden, um einen optimalen Verifikationsschwellensignalwert zum Verifizieren von durch den Verifikationsprozessor erzeugten Konfidenzmaßsignalen zu erzeugen. Der Verifikationsschwellensignalwert liefert die Grundlage für eine Entscheidung, eine erkannte Hypothesekette zurückzuweisen, und wird so gewählt, daß eine Verifikationsfehlerrate aufrechterhalten wird.
Eine bekannte Hypothesekette wird in den Verifikationsprozessor eingegeben, der so gekoppelt ist, daß er auf die in der Verifikationsdatenbank gespeicherten Verifikationsmodelle zugreift. Auf der Basis der bekannten Hypothesekette werden ein oder mehrere konkurrierende Kettenmodelle erzeugt. Das eine bzw. die mehreren konkurrierenden Kettenmodelle werden dem Verifikationsprozessor zugeführt.
Der Verifikationsprozessor wird für eine vorgewählte Anzahl von Runden betrieben, um auf der Basis eines aktuellen Verifikationsmodells für die bekannte Hypothesekette ein erstes auf Ketten basierendes Konfidenzmaßsignal zu erzeugen und um für jedes des einen bzw. der mehreren konkurrierenden Kettenmodelle auf der Basis der bekannten Hypothesekette ein auf Ketten basierendes Konfidenzmaß zu erzeugen. Es wird eine erste Verteilung von auf Ketten basierenden Konfidenzmaßsignalwerten auf der Basis eines aktuellen Verifikationsmodells für eine bekannte Hypothesekette aufgezeichnet. Es wird eine zweite Verteilung von auf Ketten basierenden Konfidenzmaßsignalwerten für die bekannte Hypothesekette und ein Konkurrenzmodell aufgezeichnet. Es werden jeweilige Mittelwerte für die erste Verteilung und für die zweite Verteilung berechnet. Auf der Basis des ersten und des zweiten Mittelwerts wird der Verifikationsschwellensignalwert gewählt und eingestellt.
Die hier gelehrten Techniken betreffen direkt die Minimierung der Kettenverifikationsfehlerrate.
Weitere Aufgaben, Vorteile und kennzeichnende Merkmale der Erfindung werden aus der folgenden ausführlichen Beschreibung in Verbindung mit den angefügten Zeichnungen, in der bevorzugte Ausführungsformen der Erfindung offengelegt werden, ersichtlich werden.
Kurze Beschreibung der Zeichnungsfiguren
1 zeigt ein beispielhaftes auf HMM basierendes Spracherkennungssystem gemäß der vorliegenden Erfindung.
2 zeigt eine ausführlichere schematische Ansicht eines Verifikationsteils des beispielhaften auf HMM basierenden Spracherkennungssystems von 1;
3 zeigt einen beispielhaften erweiterten Trainer von 2; und
4 zeigt Konfidenzmaßsignalwertverteilungen zur Beschreibung der Verifikationsschwellensignalwertbestimmung.
Ausführliche Beschreibung
Der Klarheit halber werden die beispielhaften Ausführungsformen der vorliegenden Erfindung als einzelne Funktionsblöcke (einschließlich als „Prozessoren" bezeichneter Funktionsblöcke) umfassend beschrieben. Die von diesen Blöcken repräsentierten Funktionen können entweder durch Verwendung von gemeinsam benutzter oder spezieller Hardware bereitgestellt werden, darunter u.a. Hardware, die Software ausführen kann. Zum Beispiel können die Funktionen der in 1–3 gezeigten Prozessoren durch einen einzigen gemeinsam benutzten Prozessor bereitgestellt werden (die Verwendung des Begriffs "Prozessor" sollte nicht als sich ausschließlich auf Hardware, die Software ausführen kann, beziehend aufgefaßt werden).
Ausführungsbeispiele können Hardware für digitale Signalverarbeitung (DSP) umfassen, wie zum Beispiel den AT&T DSP16 oder DSP32C, Nurlesespeicher (ROM) zum Speichern von Software zur Durchführung der nachfolgend besprochenen Operationen und Direktzugriffsspeicher (RAM) zum Speichern von DSP-Ergebnissen. Außerdem können höchstintegrierte Hardwareausführungsformen (VLSI) sowie kundenspezifische VLSI-Schaltkreise in Verbindung mit einer Vielzweck-DSP-Schaltung bereitgestellt werden.
1 zeigt eine beispielhafte Ausführungsform der vorliegenden Erfindung zum Zweck der allgemeinen Beschreibung im Kontext eines auf HMM basierenden Spracherkennungssystems. Das Spracherkennungssystem 8 umfaßt einen Erkennungsprozessor 10 eine Erkennungsdatenbank 12 mit einer Menge separater Erkennungsmodelle mit Hidden-Markov-Modell ("HMM"), einem Verifikationsprozessor 14 und eine Verifikationsdatenbank 16 mit einer Menge separater HMM-Verifikationsmodelle.
Der Erkennungsprozessor empfängt als Eingabe eine unbekannte Sprachkette 18 (eine Äußerung) von Wörtern. Der Erkennungsprozessor 10 greift als Reaktion die Eingabe der unbekannten Sprachkette 18 auf die Erkennungsdatenbank zu und bewertet die unbekannte Sprachkette von Wörtern im Vergleich zu den Erkennungsmodellen in der Erkennungsdatenbank 12, um die unbekannte Kette von Wörtern zu klassifizieren und um ein Hypothese-erkannte-Kette-Signal zu erzeugen. Der Verifikationsprozessor empfängt das Hypothesekettensignal 20 als zu verifizierende Eingabe. Der Verifikationsprozessor 14 greift auf die Verifikationsdatenbank 16 zu, um das Hypothesekettensignal im Vergleich zu in der Verifikationsdatenbank gespeicherten Verifikationsmodellen zu testen. Auf der Basis des Verifikationstests erzeugt der Verifikationsprozessor 14 ein Konfidenzmaßsignal 22. Das Konfidenzmaßsignal wird zu einem Schwellenkomparator 24 geleitet, um mit einem Verifikationsschwellensignalwert verglichen zu werden, um die Genauigkeit der durch den Erkennungsprozessor 10 getroffenen Klassifikationsentscheidung zu bestimmen.
2 zeigt eine ausführlichere Ansicht zur Beschreibung der Verifikationstrainings- und-Testprozesse in dem Spracherkennungssystem 8. Mit Bezug auf 2 umfaßt das Spracherkennungssystem eine Trainingssprachdatenbank 26, einen Merkmalextraktor 28, einen ersten Modusschalter 30, einen zweiten Modusschalter 32, einen Kalkulator 34 für auf Wörtern basierende Konfidenzbewertung, einen Prozessor 36 für eine mittlere auf Wörtern basierende Konfidenzbewertung, einen Generator 38 für ein auf Ketten basierendes Konfidenzmaßsignal, einen Schwellenkomparator 40, einen herkömmlichen HMM-Trainer 42, eine HMM-Parameterverifikationsdatenbank 44, einen N-bestes-Kettenmodellgenerator 46 und einen erweiterten Trainer 48.
Die Trainingssprachdatenbank 26 umfaßt Proben bekannter Sprachsignale in digitaler Form. Jedes Sprachsignal entspricht einer Kette eines oder mehrerer gesprochener Wörter. Diese Proben werden für die Zwecke des herkömmlichen 42 bzw. erweiterten 48 Trainers verwendet. Proben bekannter Sprachketten aus der Trainingssprachdatenbank 26 werden anderen Komponenten des Systems über den ersten Modusschalter 30 zugeführt.
Der erste Modusschalter 30 gibt zwei Betriebsarten des Systems wieder: einen Modus für Training (T) und einen Modus der Verifikation (V) zum Testen. Wenn sich der erste Modusschalter 30 in der T-Stellung befindet (wie gezeigt), können dem Gleichgewicht des Systems Trainingskettensignale aus der Trainingsdatenbank 26 zugeführt werden, so daß durch einen Trainingsteil 50 des Systems Training durchgeführt werden kann. Wenn sich der erste Modusschalter in der V-Stellung befindet, werden hypothetische erkannte Sprachkettensignale in digitaler Form dem Gleichgewicht des Systems zur Verifikation durch den Verifikationsteil 52 des Systems zugeführt.
Der Merkmalextraktor 28 des Systems ist an den ersten Modusschalter 30 angekoppelt. Abhängig von dem Zustand des ersten Modusschalters empfängt der Merkmalextraktor 28 entweder Trainingskettensignale oder Hypothesesprachkettensignale. Auf der Basis dieser empfangenen Kettensignale produziert der Merkmalextraktor einen oder mehrere Merkmalvektoren O, die Kettensignale zu Verifikations- oder Trainingszwecken charakterisieren.
Aus dem Merkmalextraktor ausgegebene Merkmalvektoren werden dem zweiten Modusschalter 32 zugeführt. Der zweite Modusschalter arbeitet in Tandem mit dem ersten Modusschalter. Das heißt, beide Schalter werden auf der Basis eines beiden Schaltern zugeführten Modussignals 54 gleichzeitig in denselben Zustand (T oder V) versetzt. Der zweite Modusschalter 32 lenkt die Ausgabe des Merkmalextraktors 28 entweder zu dem Verifikationsteil 52 oder dem Trainingsteil 50 des Systems.
Der Verifikationsteil 52 des Systems kann ausgewählt werden, um die durch den Erkennungsprozessor 10 (1) getroffenen Erkennungsentscheidungen zu prüfen. Der in 2 gezeigte Verifikationsteil 52 umfaßt den Kalkulator 34 für die auf Wörtern basierende Konfidenzbewertung, den Prozessor 36 für die mittlere auf Wörtern basierende Konfidenzbewertung und den Generator 38 für auf Ketten basierende Konfidenzmaßsignale.
Der Merkmalextraktor 28 gibt eine Reihe von Rahmen von Merkmalvektoren aus. Wortsignale auf der Basis der Rahmen von Merkmalvektoren werden dem Kalkulator 34 für die auf Wörtern basierende Konfidenzbewertung zugeführt. Der Kalkulator für die auf Wörtern basierende Konfidenzbewertung führt an den diskreten Wortsignalen Berechnungen durch. Der Kalkulator 34 für die auf Wörtern basierende Konfidenzbewertung vergleicht eine Kette eines oder mehrerer Verifikationsmodelle (in diesem Fall Hidden-Markov-Modelle "HMMs") mit jedem Wortsignal des hypothetischen erkannten Sprachkettensignals. Der Kalkulator 34 für die Konfidenzbewertung erzeugt für jedes Wortsignal des Hypothesenkettensignals eine auf Wörtern basierende Konfidenzbewertung. Die für jedes Wortsegment der Kette berechnete auf Wörtern basierende Konfidenzbewertung gibt einen Konfidenzgrad an, daß jedes bestimmte Wort der Hypothesekette korrekt erkannt wurde und genau einem Wort der dem Spracherkennungssystem zugeführten Eingangsäußerung entspricht.
Der Prozessor 36 für die mittlere auf Wörtern basierende Konfidenzbewertung liefert ein Mittel zur Durchführung einer mathematischen Mittelungsoperation an der Menge von auf Wörtern basierenden Konfidenzbewertungen, die für jedes Wortsegmentsignal des Hypothesekettensignals erzeugt werden, um ein mittleres auf Wörtern basierendes Konfidenzbewertungssignal zu erzeugen. Das mittlere Konfidenzbewer tungssignal wird zu dem Generator 38 für das auf Ketten basierende Konfidenzmaßsignal geleitet.
Der Generator 38 für das auf Ketten basierende Konfidenzmaßsignal wird zum Empfang des mittleren Konfidenzbewertungssignals gekoppelt und reagiert, um ein auf Ketten basierendes Konfidenzmaßsignal zu erzeugen. Das auf Ketten basierende Konfidenzmaßsignal realisiert Verifikationstestergebnisse und liefert ein Maß für die Konfidenz, daß das dem Verifikationsprozessor vorgelegte Hypothesenkettensignal genau die tatsächliche gesprochene Wortkette repräsentiert.
Um zu verifizieren, daß das dem Verifikationsprozessor zugeführte hypothetische erkannte Sprachkettensignal die ursprünglich in das Spracherkennungssystem eingegebene unbekannte Sprachkette von Wörtern ist, wird das Konfidenzmaßsignal mit einem Verifikationsschwellensignalwert 40 verglichen. Wenn das Konfidenzmaßsignal unter dem Schwellensignalwert liegt, wird das Hypothesekettensignal als die tatsächliche gesprochene Eingangsäußerung falsch repräsentierend zurückgewiesen; das heißt, das dem Verifikationsprozessor zugeführte Hypothesekettensignal konnte nicht verifiziert werden.
Der Trainingsteil 50 des Systems umfaßt den herkömmlichen HMM-Trainer 42, die HMM-Parameterdatenbank 44, den N-bestes-Kettenmodellgenerator 46 und den erweiterten Trainer 48. Der herkömmliche HMM-Trainer 42 ist dergestalt, wie in dem US Patent Nr. 4,783,804 beschrieben und stellt ein herkömmliches Training von HMMs bereit. Die Ausgabe des herkömmlichen Trainers umfaßt eine Menge von einem oder mehreren herkömmlich trainierten HMMs θ_I sowie die Merkmalvektoren O der Trainingssprachketten, auf denen die Menge von HMMs basiert. Die Ausgabe des herkömmlichen Trainers 42 wird in der HMM-Parameterdatenbank 44 zur Verwendung durch den N- bestes-Kettengenerator 46 und den erweiterten Trainer 48 als Initialisierungsparameter aufgezeichnet.
Der erweiterte Trainer 48 empfängt Anfangsparameter θ_I und gibt eine Menge erweiterter oder aktualisierter HMMs θ_U an die HMM-Parameterdatenbank zurück. Letztendlich werden während der Verarbeitung im Verifikationsmodus dem Kalkulator 34 für auf Wörter basierende Konfidenzbewertung erweiterte Modelle θ_U zugeführt. Die Verwendung der erweiterten HMMs, θ_U anstelle herkömmlich trainierter HMMs θ_I durch den Kalkulator für auf Wörter basierende Konfidenzbewertung ermöglicht eine Erzielung einer verringerten Kettenverifikationsfehlerrate.
Der N-bestes-Kettenmodellgenerator 46 ist so gekoppelt, daß er die Parameter θ_I des Hidden-Markov-Modells (HMM) und Trainingssprachketten O aus der HMM-Parameterdatenbank 44 empfängt. Der N-bestes-Kettenmodellgenerator 46 wirkt zum Erzeugen einer Menge von Kettenmodellen, die starke Konkurrenten für das aktuelle Verifikationsmodell für das hypothetische erkannte Kettensignal sind. Diese Konkurrenz-Kettenmodelle liefern eine Grundlage für ein diskriminatives Training des erweiterten Trainers 48; das heißt zum Training der Verifikationsmodelle dergestalt, daß ein in den Verifikationsprozessor eingegebenes korrektes Hypothesekettensignal bewirkt, daß der Verifikationsprozessor ein extrem hohes Konfidenzmaßsignal erzeugt, und eine falsche Hypothesenketteneingabe bewirkt, daß der Verifikationsprozessor ein niedriges Konfidenzmaßsignal erzeugt.
Der N-bestes-Kettengenerator 46 erzeugt die "N" besten (oder stärksten konkurrierenden) Kettenmodelle durch Bestimmung der "N" besten (konkurrierenden) Wortketten und für jede solche Wortkette die beste Sequenz von HMM-Verifikationsmodellen. Die Bestimmung der N-besten Wortketten erfolgt durch Verwendung der DSP- Implementierung eines modifizierten Viterbi-Decodierers.
Der modifizierte Viterbi-Decodierer erstellt eine teilweise Wegliste, d.h. eine Liste aller Bewertungen (oder Metriken) aller zu einem beliebigen Grammatikknoten (d.h. Wortknoten) zu jedem Zeitpunkt führenden teilweisen Wege. Am Ende der modifizierten Viterbi-Vorwärtssuche verwendet der Decodierer dann eine in der Technik wohlbekannte A*-Zurückverfolgungsbaumsuche. Der Generator führt die Baumsuche durch, indem er den obersten (besten) teilweisen Weg wachsen läßt, der sich an der obersten Position eines "Stapels" (einer Datenliste mit Rangordnung) befindet. Die Rangordnung aller teilweisen Wege auf dem Stapel wird durch die bestmögliche Bewertung, die ein teilweiser Weg bei Abschluß erzielen kann, bestimmt. Die bei der Vorwärts-Viterbi-Suche erstellte teilweise Wegliste ergibt eine Bewertung für einen beliebigen unvollständigen teilweisen Weg in der Rückwärtsbaumsuche. Aufgrund der Beschaffenheit "bestes zuerst" der A*-Prozedur werden die obersten N Ketten sequentiell erzeugt.
Die Zulässigkeit des A*-Algorithmus bzw. sichere Befunde des optimalen Weges bzw. der optimalen Wege ist garantiert, wenn eine obere Schranke des unvollständigen Teils eines teilweisen Weges als der Stapeldecodierer verwendet wird, wenn die Stapeltiefe tief genug ist, um etwaige Suchfehler zu vermeiden. Bei der Baum-Trellis-Prozedur wird die dichteste obere Schranke oder die tatsächliche Bewertung eines Weges erhalten, wenn entlang beider Richtungen dieselben HMMs in den Suchen verwendet werden. Folglich ist die Sucheffizienz des Algorithmus maximiert und ein Stapel von N Einträgen wird benötigt.
Der Generator erzeugt N-beste-Kettenmodelle auf der Basis der N-beste-Wortketten durch eine Viterbi- Ausrichtung der Eingangssprachkette O in bezug auf die Modellmengen für jede gegebene Wortkette in der N-beste-Kettenliste. Dieser Schritt wird vom Generator durchgeführt, weil viele Kettenmodelle derselben Wortkette entsprechen können; das Kettenmodell, das für eine gegebene Modellmenge am besten mit der Eingangsäußerung übereinstimmt, ist jedoch einzigartig.
Es ist zu beachten, daß der Generator eine Fähigkeit zur Modellierung ungesehener Konkurrenzketten bereitstellt. Dies ist darauf zurückzuführen, daß konkurrierende Wortkettenmodelle, die durch N-beste-Decodierung erzeugt werden, nicht durch das Trainingsmaterial beschränkt werden. Die N-beste-Kettenliste ist dynamisch und gibt die akustische Auflösung auf Kettenebene auf der Basis der gegebenen Sprachverifikationsmodellmenge wieder.
Folglich werden die grundlegenden Verifikationsmodelle in der HMM-Parameterdatenbank 44 durch Kettenmodelle trainiert, die durch den N-bestes-Kettenmodellgenerator (eine Art von Spracherkennungsvorrichtung) erzeugt werden. Die erzeugten Kettenmodelle können auf Wortketten basieren, die nicht in dem ursprünglichen Trainingsmaterial vorhanden sind, die die Erkennungsvorrichtung aber mit dem bekannten Hypothesekettensignal zum Verwechseln findet. Diese ungesehenen Konkurrenz-Wortketten, die die Erkennungsvorrichtung mit dem bekannten Hypothesenkettensignal zum Verwechseln findet, werden diskriminativ modelliert, um die Verifikationsmodellierungsabdeckung für solche ungesehenen, verwechselbaren ähnlichen Zeichenketten zu verbessern. Eine Modellierung, die die Verifikationsmodelle darauf vorbereitet, eine Grundlage zur Unterscheidung ungesehener Ketten (die wahrscheinlich mit einer korrekten Kette verwechselt werden) aus der korrekten Hypothesekette bereitzustellen, ist nützlich, weil eine solche Modellierung Schwierigkeiten verringert, die bei der Erkennung und Verifikation kontinuierlicher Sprache aufgrund einer schlechten Kettenabdeckung des Trainingsmaterials angetroffen werden.
Die Funktionsweise des N-bestes-Kettenmodellgenerators wird ausführlich in EP-A-0559349 beschrieben.
Beim Minimal-Kettenverifikationsfehlerratentraining werden die N-bestes-Kettenebenenmodelle in eine Menge von diskriminanten Funktionen aufgenommen, die speziell dafür ausgelegt sind, Kettenfehler zu repräsentieren und zu verringern. Dies geschieht durch Betrieb des erweiterten Trainers 48, wie nachfolgend beschrieben.
Der Äußerungsverifikationsprozessor 14 (1) arbeitet zum Formulieren und Anwenden eines statistischen Hypothesetests zum Verifizieren einer vorgeschlagenen hypothetischen erkannten Äußerung in Form eines Hypothesekettensignals. Die Verifikationsprozeßaufgabe besteht in dem Testen der Nullhypothese, daß ein Hypothesenschlüsselwort oder eine Hypothesenmenge von Schlüsselwörtern in einer unbekannten Äußerung existiert, im Vergleich zu der alternativen Hypothese, daß kein solches hypothetisches Wort bzw. keine solche Schlüsselwortmenge in der unbekannten Äußerung existiert (d.h. daß die vorgeschlagene erkannte Hypotheseäußerung 20 falsch ist).
Der Verifikationsprozeß wird unter Verwendung einer Wahrscheinlichkeitsverhältnisdistanzberechnung entworfen, um die Genauigkeit einer vorgeschlagenen Hypotheseäußerung zu verifizieren. Gemäß der vorliegenden Erfindung werden Äußerungsverifikationsmodelle auf der Kettenebene erzeugt (trainiert), und die Verifikationsprüfung wird auf der Kettenebene durchgeführt. Die hier gelehrte Äußerungsverifikation verwendet eine Form geometrischer Mittelung, die die Beiträge von auf Wörtern basierenden Konfidenzbewertungen der Wortsignalsegmente zur Erzeugung des auf Ketten basierenden Konfidenzmaßsignals für ein Hypothesenkettensignal kombiniert. Das auf Ketten basierende Konfidenzmaßsignal wird im Vergleich zu einem Schwellensignalwert 40 (2) verifiziert, um das gesamte Hypothesenkettensignal oder einen Teil davon zu akzeptieren oder zurückzuweisen.
Mit Bezug auf 2 wird im Verifikationsprüfmodus eine hypothetisierte Kette von Wörtern 55 durch den ersten Modusschalter 30 zur Präsentation für den Verifikationsteil 52 zu dem Merkmalextraktor 28 geleitet. Die hypothetisierte Kette (Signal 55) von Wörtern i wird als Ergebnis des Erkennungsprozesses in eine N-Anzahl von Wörtern {O_q} segmentiert.
Der Verifikationsteil 52 verwendet eine gegebene Menge von Modellen θ_U zur Verifikation. Der Verifikationsteil 52 erzeugt ein Konfidenzmaßsignal auf der Basis der hypothetisierten Kette von Wörtern auf der Basis der aktuellen Menge von Modellen in der HMM-Parameterdatenbank 44. Die hypothetisierte Kette von Wörtern wird zurückgewiesen, wenn das erzeugte Konfidenzmaßsignal si(O; θ) = log[(l/N)ΣNq=1 exp{K·L(Oq; θ, l)}]1/x (1)unter einem vordefinierten Verifikationsschwellensignalwert τ liegt. Hierbei ist K eine negative Konstante und L(O_q; θ, l) bedeutet die Konfidenzbewertung des Sprachsegments q, das als die Ziffer (der Rahmen) l erkannt wird. Folglich hängt das Konfidenzmaßsignal mathematisch mit dem Mittelwert der Konfidenzbewertungen jedes Sprachsegments q (Wortrahmens) des Kettensignals zusammen.
Verifikationsmodelle auf HMM-Basis werden zum Zugriff und zur Verwendung durch den Verifikationsteil 52 in der Verifikationsdatenbank 44 gespeichert. Innerhalb der Verifikationsdatenbank 44 bestehen die Verifikationsmodelle θ aus drei verschiedenen Mengen: Schlüsselwörter {θ₁ ^(k)}, Anti-Schlüsselwörter {θ₁ ^(a)}, die Verwechselbarkeit zwischen Schlüsselwörtern behandeln, und ein allgemeines akustisches Füllermodell θ^(f) zum Identifizieren von Nicht-Schlüsselwörtern (ungültigen Eingaben).
Die auf Wörtern basierende Konfidenzbewertung 34 des Sprachsegments q, L(O_q; θ, l) kann unter Verwendung eines Log-Wahrscheinlichkeitsverhältnisses zwischen einer Schlüsselworthypothese und ihrer alternativen Konkurrenzhypothese konstruiert werden, z.B. L(Oq; θ, l) = g1(Oq) – G1(Oq), (2)mit g₁(O_q) = logp(O_q|θ₁ ^(k)), und G1(Oq) = log[½p(Oq|θ1 ( a )) + ½p(Oq|θ( f))]. (3)
Somit betrifft die Konfidenzbewertungsberechnung für ein Sprachsegment q einen Vergleich zwischen einer Wortmodellbewertung und Bewertungen, die mit dem Anti-Wort-Modell und unter Verwendung des Füllermodells berechnet werden.
Ein Verfahren zur Maximierung des Konfidenzmaßsignals s_i(O; θ) in Gleichung 1 besteht darin, eine Maximum-Likelihood-Prozedur zum Trainieren der in der Datenbank 44 zu speichernden Parameter von θ anzuwenden. Auf der Basis von Spracherkennungsexperimenten hat sich jedoch gezeigt, daß diese Art von Training im Hinblick auf die Minimierung der Verifikations- oder Erkennungsfehlerrate nicht die beste Leistungsfähigkeit ergibt.
Aus diesem Grund würde ein Trainingsprozeß mit minimalem Kettenklassifizierungsfehler (MSCE) entwickelt, um die Erkennungsmodelle in der Erkennungsdatenbank 12 zu erzeugen (1). Mit einem solchen Spracherkennungstrainingsverfahren wird eine Spracherkennungsdatenbank auf der Basis eines oder mehrerer bekannter Sprachsignale und einer Menge aktueller Erkennungsmodelle bereitgestellt. Bei dem MSCE-Trainingsprozeß wird auf der Basis des bekannten Sprachsignals und eines aktuellen Erkennungsmodells für dieses Signal ein erstes Erkennungsvorrichtungs-Bewertungssignal erzeugt. Es wird eine Menge verwechselbarer Hypothesen erzeugt und auf die Erkennungsvorrichtung angewandt, um eines oder mehrere weitere Erkennungsvorrichtungs-Bewertungssignale zu erzeugen, die jeweils auf dem bekannten Sprachsignal und einem anderen aktuellen Erkennungsmodell basieren.
Ein Erkennungsprozessor erzeugt auf der Basis des ersten Erkennungsvorrichtungs-Bewertungssignals und der anderen konkurrierenden Erkennungsvorrichtungs-Bewertungssignale ein Fehlklassifikations-(Fehlerkennungs)-Signal. Erkennungsmodellparameter werden auf der Basis des Fehlerkennungssignals modifiziert, um die Wahrscheinlichkeit einer Fehlerkennung des bekannten Sprachsignals beim Training oder eines unbekannten Sprachsignals beim Testbetrieb zu vermindern. Eine ausführliche Beschreibung der Ausführungsform und Prozeduren findet sich in der oben erwähnten EP-A-0559349.
Das Ziel bei dem auf Ketten basierenden Training mit minimalem Kettenklassifizierungsfehler (MSCE) ist die Minimierung einer erwarteten Klassifikationsfehlerrate der erwarteten Kette. Im Gegensatz dazu besteht das Ziel bei dem Training mit minimalem Kettenverifikationsfehler (MSVE) in der Minimierung einer erwarteten Ketten-Verifikations-Fehlerrate. Die spezifische Zielfunktion und die mathematische Strategie, die bei dem MSCE-Ansatz verwendet werden, ist deshalb nicht mit optimaler Äußerungsverifikationsleistungsfähigkeit vereinbar.
Die vorliegende Erfindung verwendet einen Trainingsprozeß mit minimalem Kettenverifikationsfehler (MSVE) mit demselben Gedanken wie beim MSCE-Training, aber für die Verifikationsmodelle in der HMM-Parameterdatenbank 44 ausgelegt. Ein Fehlverifikationsmaß wird berechnet und zur Minimierung der erwarteten Kettenverifikationsfehlerrate benutzt.
Das MSVE-Training wird auf der Kettenebene angewandt und ist mit der in Gleichung 1 verwendeten Zielfunktion vereinbar. Das MSVE-Training wird so implementiert, daß die folgende erwartete Funktion minimiert wird: E[S{– si(O; θ) + Si(O; θ)}], (4)wobei S( ) eine glatte, nichtlineare 0-1-Sigmoidfunktion ist.
Mit Bezug auf 3 umfaßt der erweiterte Trainer 48 einen Kettenfehlverifikationsmaßprozessor 56, einen Kettenmodellverlustfunktionsprozessor 58 und einen HMM-Aktualisierungsprozessor 60. Ein Ziel des erweiterten Trainingsprozesses ist die Minimierung der erwarteten Verlustfunktion, die mit Bezug auf Gleichung 4 beschrieben wird, um so Kettenverifikationsfehler im wesentlichen zu eliminieren. Bei einer bevorzugten Ausführungsform wird der erweiterte Trainingsprozeß als zwei Prozeßschritte realisiert, die durch die oben erwähnten Prozessoren in dem Spracherkennungssystem durchgeführt werden.
A. Der Kettenfehlverifikationsmaßprozessor
Der Kettenfehlverifikationsmaßprozessor 56 empfängt HMM-Parameter θ_I, N Kettenmodelle s_j und eine Trainingssprachkettenprobe O aus dem N-bestes-Kettenmodellgenerator 46. Auf der Basis der Kettenprobe O, der Modelle s_j und von θ_I bestimmt der Fehlverifikationsprozessor 56 als einen ersten Prozeßschritt ein Kettenfehlverifikationsmaß für die i-te hypothetisierte Kette d_i(O; θ): di(O; θ) = –si(O; θ) + Si(O; θ), (5)wobei s_i(0; θ) eine auf Äußerungen basierende Diskriminantenfunktion gemäß der Definition durch Gleichung 1 und S_i(O; θ) eine Anti-Diskriminantenfunktion ist, die folgendermaßen definiert ist: si(O; θ) = log[(l/N – 1)ΣNj,j+i exp{η·sj(O; θ)}]1/n, η > 0, (6)wobei N die Gesamtzahl konkurrierender Kettenhypothesen und η eine beispielsweise auf zwei gesetzte positive Zahl ist.
Der Kettenfehlverifikationsprozessor 56 bestimmt den Wert eines Skalars d zur Verwendung durch die in 3 gezeigten nachfolgenden Prozessoren und erzeugt ein Fehlverifikationssignal, das eine Differenz zwischen folgendem beschreibt: (a) dem Konfidenzmaßsignal auf der Basis eines bekannten Hypothesekettensignals und eines aktuellen Verifikationsmodells für das bekannte Hypothesenkettensignal, und (b) einem Mittelwert eines oder mehrerer weiterer Konfidenzmaßsignale auf der Basis der N-bestes-Konkurrenz-Verifikationsmodelle für dieses bekannte Hypothesekettensignal.
B. Der Kettenmodellverlustfunktionsprozessor
Ein zweiter Prozeßschritt approximiert den Verifikationsfehlerzählwert. Dies geschieht durch Verwendung einer nichtlinearen Sigmoidfunktion. Der Kettenmodellverlustfunktionsprozessor 58 wertet eine glatte Kettenverlustfunktion l_i(O; θ) auf der Basis des aus dem Fehlverifikationsmaßrozessor 56 empfangenen Skalarwerts di(O; θ) aus. Diese Verlustfunktion ist folgendermaßen definiert:
wobei α und β Konstanten sind, die die Steigung bzw. die Verschiebung der nichtlinearen Sigmoid-Glättungsfunktion steuern.
Der Kettenmodellverlustfunktionsprozessor 58 führt den Skalar 1 als Ausgabe dem HMM-Aktualisierungsprozessor 60 in Form eines Verlustfunktionssignals zu.
Die oben besprochenen Parameter α und β helfen bei der Bereitstellung einer geglätteten Approximation für die Kettenverlustfunktion l_i(O; θ). Der Gradient der Kettenverlustfunktion wird von dem HMM-Aktualisierungsprozessor 60 zur Aktualisierung der HMM-Parameter θ_I des aktuellen Verifikationsmodells verwendet. Der Gradient setzt Konfidenzmessung eines bekannten Hypothesekettensignals auf der Basis eines aktuellen Verifikationsmodells für dieses Hypthesekettensignal mit einer Konfidenzmessung des bekannten Hypothesekettensignals auf der Basis eines oder mehrerer anderer aktueller Verifikationsmodelle in Beziehung. Deshalb ist die Minimierung der erwarteten Kettenverluste dieser Verlustfunktion direkt mit der Minimierung der Kettenverifikationsfehlerwahrscheinlichkeit verknüpft.
C. Der HMM-Aktualisierungsprozessor
Vor einer Besprechung der Aktualisierung von Verifikationsmodellparametern werden einige Hintergrundinformationen für die Funktionsweise des HMM-Aktualisierungsprozessors 60 angegeben. Das Training mit minimalem Kettenverifikationsfehler (MSVE) betrifft das Finden einer Menge von Parametern θ, die die erwartete Verlustfunktion von Gleichung 7, die als E[l_i(O; θ)] bezeichnet werden kann, minimiert.
Um die minimierende Menge von Parametern θ zu finden, wird die Parametermenge θ in jeder Iteration n gemäß folgendem aktualisiert: θn+1 = θn – ∈nVn∇E[li(O; θ)], ∈n > 0. (8)
In Gleichung 8 ist θ_n die Anfangs-HMM-Parametermengenschätzung. E[l_i(O; θ)] ist die erwartete Verlustfunktion. ∇ repräsentiert eine mathematische Ableitungsoperation. θ_n+1 ist die beste Schätzung für die HMM-Parametermenge zur Minimiering der erwarteten Verlustfunktion E[l_i(O; θ)].
Diese Gleichung erzielt eine Gradientenabstiegsrekursion zur Einstellung der Verifikationsmodellparameter zur Erzielung des Minimums der erwarteten Verlustfunktion, wobei ∈_n' eine Lernrate oder Sequenz von Schrittgrößenparametern zur Verwendung bei den Iterationen und V_n eine nachfolgend definierte positiv-definite Lernmatrix ist.
Die durch Gleichung 8 repräsentierte Rekursion konvergiert auf einen stationären Punkt der erwarteten Verluste, solange Σ_n-1 – ∈_n = ∞ und Σ_n-1 – ∈_n ² < ∞ gilt.
Bei der dargestellten Ausführungsform von 3 werden die HMM-Parameter durch den HMM-Aktualisierungsprozessor 60 gemäß (8) adaptiv eingestellt. Aufgrund der Struktur der HMMs müssen ihre Parameter bestimmte Nebenbedingungen erfüllen. Der HMM-Aktualisierungsprozessor verwendet transformiert HMM-Parameter als Teil des Parameteraktualisierungsprozesses zur Erfüllung aller solcher Nebenbedingungen. Der HMM-Aktualisierungsprozessor verwendet die folgenden Transformationen:
(1) Logarithmus der Varianz

σ2 i,j,k,d = log σ2 i,j,k,d (9)wobei σ² _i,j,k,d die Varianz des i-ten Verifikationsmodells, des j-ten Zustands, der k-ten Mischungskomponente und der d-ten Dimension eines Merkmalvektors ist, wobei jedes Verifikationsmodell zum Beispiel ein Wort oder ein Subwort widerspiegeln kann.

(2) Der transformierte Logarithmus der Mischungsgewichte
Die ursprünglichen Mischungsgewichte c_i,j,k hängen folgendermaßen mit den transformierten Mischungsgewichten c_i,j,k zusammen:
wobei L die Gesamtzahl der Mischungsgewichte in dem j-ten Zustand in dem i-ten Verifikationsmodell ist.
(3) Der transformierte Logarithmus der Übergangswahrscheinlichkeit
Die ursprünglichen Übergangswahrscheinlichkeiten a_i,j hängen folgendermaßen mit den transformierten Übergangswahrscheinlichkeiten zusammen:
wobei M die Gesamtzahl von Zuständen in dem i-ten Verifikationsmodell ist.
Ein signifikanter Aspekt der beispielhaften Ausführungsform betrifft die Handhabung kleiner Varianz. Bei bestimmten in der Vergangenheit vorgeschlagenen korregierenden Trainingsalgorithmen wird ein Varianzeinstellung vermieden, weil, wenn sie falsch gehandhabt wird, einen nachteiligen Effekt haben kann.
Varianzen in HMMs können sogar um 10⁴ bis 10⁶ mal unterschiedlich sein. Diese Varianzen treten in dem Exponententeil der Beobachtungswahrscheinlichkeitsdichtefunktion bⁱ _l(x) auf und haben einen dominanten Effekt auf die Wahrscheinlichkeitsbewertung von HMMs. Bei der beispielhaften Ausführungsform führt dies zu einer unterschiedlichen Empfindlichkeit gegenüber HMM-Parametereinstellungen insbesondere der Einstellung der Mittelwertparameter in der Beobachtungswahrscheinlichkeitsdichtefunktion von HMMs.
Um diese enorm unterschiedliche Empfindlichkeitsdifferenz zu kompensieren, verwendet die Ausführungsform eine positiv-definite Matrix V_n. Die positiv-definite Matrix V_n ist eine Diagonalmatrix diag(σ1 2(n), ..., σD 2(n)), (12)für jeden Zustand, wobei σ²(n) die Varianz des HMM θ_I zum Zeitpunkt n ist.
Der HMM-Aktualisierungsprozessor 60 aktualisiert die Parameter μ, σ², c und a auf der Basis von θ_I, O und 1 und gibt ein aktualisiertes θ_U an die HMM-Parameterdatenbank 44 zurück. Sowohl θ_I als auch θ_U umfassen Parameter μ, σ², c und a, wobei θ_I und θ_U nicht aktualisierte bzw. aktualisierte Größen repräsentieren.
Beim Training mit minimalem Kettenverifikationsfehler wird bei der Aktualisierung der Modellparameter wie in Gleichung 8 gezeigt, die Ableitung der Verlustfunktion ∇l gefunden. Der Term ∂l/∂θ wird spezifisch für jeden Modellparameter berechnet und ist abhängig davon, ob der zugrundeliegende HMM ein Schlüsselwortmodell, ein Anti-Schlüsselwortmodell oder ein Füllermodell ist, unterschiedlich. Dieser Schritt ist von dem bei dem Training mit minimalem Kettenklassifizierungsfehler verwendeten verschieden, wobei die Ableitung ∂l/∂θ allen Modellen gemeinsam ist.
Bei MSVE kann ∂l/∂θ als eine Kettenregel geschrieben werden, so daß ∂l/∂θ = ∂l/∂L·∂L/∂θ ist, wobei der Term ∂l/∂L allen Verifikationsmodellen gemeinsam ist. ∂l/∂L besteht aus den folgenden partiellen Ableitungen: ∂l/∂d·[∂d/∂si + ∂d/∂Si·∂Si/∂sj]·∂S/∂L. ∂l/∂d = αli(1 – li); ∂d/∂si = –1; ∂d/∂Si = 1;
Die Ableitung ∂L/∂θ ist abhängig davon, ob das aktualisierte Modell ein Schlüsselwortmodell θ^(k), ein Anti-Schlüsselwortmodell θ^(a) oder ein Füllermodell θ^(f) ist, unterschiedlich.
Für θ^(k):
Für θ^(a):
Für θ^(a):
Für θ^(f):
Der Term ∂p( )/∂θ ist allen Verifikationsmodellen gemeinsam und unterscheidet sich nur durch die spezifischen Parameter des aktualisierten Modells. Diese Wahrscheinlichkeit p( ) ist folgendermaßen definiert: P(Oqθ) = Σil...iqbil(Ol)·aili2·bi2(O2)· ... biq(Oq)
Die durch den HMM-Aktualisierungsprozessor 60 bereitgestellten Parameteraktualisierungen lauten:
(1) Mittelwertaktualisierung

μi,j,k,d(n + 1) = μi,j,k,d(n) – ∈n Σnn=ωj ωj+1[(∂1/O, θ)/∂logbi,j(onn)]γi,j,k(onn)(onn(d) – μi,j,k,d(n) (13) dabei ist(o_nn(d) die Komponente der d-ten Dimension des Merkmalvektors o_nn, ω_j entspricht dem Zeitrahmen, in dem der optimale Weg zuerst in den Zustand j eintritt, ω_j+1 entspricht dem Zeitrahmen, in dem der optimale Weg in den Zustand j + 1 eintritt, l(O, θ) ist die gemäß (7) konstruierte Verlustfunktion, ∈_n ist die Schrittgröße und es gilt γi,j,k(onn) = (ci,j,k(2Π)–D/2(ΠD d=1σi,j,k,d)–1ΠD d=1e–(onn(d)-μi,j,k,d)2σ i,j,k,d)/bi,j)onn), (14)wobei D die Dimension des Merkmalvektors ist. Die Mittelwertaktualisierung wird durch einen Subprozeß des HMM-Aktualisierungsprozessors 60 bereitgestellt.

(2) Varianzaktualisierung
Die Aktualisierung von σ² = log σ² wird gemäß der folgenden Formel durchgeführt: σ2 i,j,k,d(n + 1) = σ2 i,j,k,d(n) – ∈nΣωj+1-1nn=ωj (∂1/O, θ)/∂logbi,j(onn)]γi,j,k(onn)·((onn(d) – μi,j,k,d)2/2σ2 i,j,k,d(n) – 0,5), (15)wobei γ_i,j,k(o_nn) wie in (14) definiert ist. Deshalb wird die Varianz zum Zeitpunkt n + 1 gegeben durch σ2 i,j,k,d(n + 1) = eσi,j,k,d(n+1) (16)
Die Varianz wird von unten bei 10^–6 abgeschnitten und erfüllt die Nebenbedingung σ² _i,j,k,d ²(n) > 10^–6. Die Varianzaktualisierung wird durch einen Subprozeß des HMM-Aktualisierungsprozessors 60 bereitgestellt.
(3) Mischungsgewichteaktualisierung
sDie parametrisierten Mischungsgewichte werden folgendermaßen eingestellt: ci,j,kk(n + 1) = ci,j,k(n) – ∈nΣωj+1-1nn=θj ∂1/O, θ)/∂logbi,j(onn)) – [ci,j,k(n)/bi,j(onn)][N(onn, μi,j,k,d, Vi,j,k,d) – bi,j(onn)]. (17)
Deshalb werden die Mischungsgewichte zum Zeitpunkt n + 1 gegeben durch
Die eingestellten Mischungsgewichte erfüllen deshalb die folgenden Nebenbedingungen:
und c_i,j,k(n) > 0 während des Trainingsprozesses der vorliegenden Erfindung. Die Mischungsgewichteaktualisierung wird durch einen Subprozeß des HMM-Aktualisierungsprozessors 60 bereitgestellt.
(4) Zustandsübergangswahrscheinlichkeitsaktualisierung:
In einem HMM von links nach rechts wird die parametrisierte Übergangswahrscheinlichkeit des l-ten Wortmodells eingestellt durch: α 1 i,i(n + 1) = α 1 i,i(n) – en[∂l/O, θ)/∂gl] (N1 i,i – (N1 i,i + 1)[(eIi,i+1(n))/(eIi,i(n) + eIi,i+1(n))]) α 1 i,i+1(n + 1) = α 1 i,i+i(n) – ∈n[∂l/O, θ)/∂gl] (1 – (1 + N1 i,i)[(eIi,i+1(n))/(eIi,i(n) + eIi,i+1(n))]) (19) dabei ist g₁ die Wahrscheinlichkeitsbewertung von O in dem l-ten Verifikationsmodell, i ist der Endzustand, und die Gesamtselbstübergangsanzahl im Zustand i wird als N1 i,i = {# von }t(ωt-1, ωt) = (i, i) in dem l-ten Verifikationsmodell λl}. (20)
Folglich wird die Übergangswahrscheinlichkeit zum Zeitpunkt (n + 1) gegeben durch a1 i,i(n + 1) = [(eIi,i(n+1))/(eIi,i(n+1) + eIi,i+1(n+1))] a1 i,i+1(n + 1) = [(eIi,i(n+1))/(eIi,i+1(n+1) + eIi,i+1(n+1))], (21)wodurch ebenfalls die Nebenbedingungen Σ_ja¹ _i,j (n) = 1, a¹ _i,i > 0 und a¹ _i,i+i > 0 erfüllt werden. Die Zustandsübergangswahrscheinlichkeitsaktualisierung wird durch einen Subprozeß des HMM-Aktualisierungsprozessors 60 bereitgestellt.
Durch den HMM-Aktualisierungsprozessors 60 berechnete Aktualisierungsausdrücke (15–18) betreffen eine aktualisierte Beobachtungswahrscheinlichkeitsdichtefunktion des i-ten Verifikationsmodells in dem j-ten Zustand gemäß
dabei sind c_i,j,k die Mischungsgewichte und N(O, μ_i,j,k, V_i,j,k) ist eine D-dimensionale Gaußsche Normalverteilung des i-ten Erkennungseinheitsmodells, des j-ten Zustands und der k-ten Mischung mit einer Diagonal-Kovarianzmatrix V_i,j,k. Aus einem Subprozeß des HMM-Aktualisierungsprozessors 60 ausgegebene Werte für μ(n + 1), σ²(n + 1) und c(n + 1) werden zusammen mit Werten für die Zustandsübergangswahrscheinlichkeiten a(n + 1), die durch einen weiteren Subprozeß des HMM-Aktualisierungsprozessors 60 bereitgestellt werden, an die HMM-Parameterdatenbank 44 zurückgegeben. θ_u umfaßt aktualisierte Werte für μ, σ², c und a.
Oben angegebene Ausdrücke für HMM-Parameteraktualisierung betreffen die Verwendung eines einzigen Sprachtrainingskettensignals aus der HMM-Parameterdatenbank 44 zur Erweiterung von HMM-Parametern. Der erweiterte Trainer 48 kann jedoch mehrmals iteriert werden, um die HMM-Parameter zu verbessern. Zum Beispiel kann der erweiterte Trainer 48 in mehreren Durchgängen oder Runden durch die vollständige HMM-Parameterdatenbank operieren. Es kann auf eine beliebige von mehreren Weisen bewirkt werden, daß der erweiterte Trainer mit der Verarbeitung von Proben aufhört. Zum Beispiel kann der erweiterte Trainer 48 anhalten, wenn er eine feste Anzahl von Runden durch die HMM-Parameterdatenbank 44 von Proben durchgeführt hat. Außerdem kann der erweiterte Trainer einen Datensatz der inkrementellen Verbesserung der Kettenverifikationsfehlerrate aufgrund der Verarbeitung aller Sprachtrainingskettensignale der aktuellen Runde führen. Wenn die inkrementelle Verbesserung unter eine Schwelle abfällt, kann die Verarbeitung anhalten.
Das MSVE-Training kann implementiert und auf die bevorzugte Spracherkennungssystemausführungsform angewandt werden, um subwortspezifische Schlüsselwort- und Anti-Schlüsselwortmodellparameter zu entwerfen. In jeder Trainingsrunde wird die durch Gleichung 1 definierte Diskriminantenfunktion S_i(O; θ) auf dem Konfidenzmaßsignalwert für das bekannte Hypothesekettensignal auf der Basis des aktuellen Verifikationsmodells eingestellt, und die durch Gleichung 16 definierte Anti-Diskriminantenfunktion S_i(O; θ) wird durch die Konfidenzmaßsignalwerte für das bekannte Hypothesekettensignal auf der Basis eines oder mehrerer konkurrierender Kettenmodelle unter Verwendung einer N-bestes-Kettenhypothese approximiert. Das Fehlverifikationsmaßsignal wird wie in Gleichung 5 bestimmt. Eine Verteilung von Konfidenzmaßsignalwerten und Fehlverifikationsmaßen für eine Trainingsrunde kann im Speicher aufgezeichnet und zur Bestimmung eines kritischen Schwellenwerts verwendet werden.
Die Leistungsfähigkeit von Äußerungsverifikationssystemen läßt sich durch Auswahl einer entsprechenden kritischen Schwelle verbessern. Schwellen können gemäß einem vordefinierten Kriterium gesetzt werden, wie zum Beispiel um eine minimale Gesamtfehlerrate zu erhalten oder um ein gleiche Fehlerrate zu erzielen, bei der Falschzurückweisungsfehler (Typ I) gleich Falschannahmefehlern (Typ II) sind. Die Verifikationsschwelle kann anfänglich so gesetzt werden, daß ein gewünschter Kompromiß zwischen Falschzurückweisungsfehlern (Typ I) und Falschannahmefehlern (Typ II) erhalten wird. Die jeweiligen Fehlerraten können durch Umgebungsungleichheit zwischen den Trainingsdaten und den Testdaten beeinflußt werden. Umgebungsungleichzeit können verschiedene Sprecher mit verschiedenen Akzenten oder verschiedene Umgebungsgeräusche sein.
Eine gleiche Verifikationsfehlerrate sowohl für Fehler des Typs I als auch für Fehler des Typs II kann durch das Spracherkennungssystem der vorliegenden Erfindung erreicht werden, die gleiche Fehlerrate kann jedoch für verschiedene gewählte Schwellensignalwerte variieren. Bei verschiedenen gewählten Schwellenwerten kann die Fehlerrate für Typ I höher oder niedriger als die Fehlerrate für Typ II sein. Deshalb ist ein Betriebsschwellensignalwert zur Durchführung der Verifikation des Hypothesewortkettensignals unter spezifischen Umgebungsbedingungen möglicherweise nicht für verschiedene Umgebungsbedingungen angemessen.
Verschiedene Fehlerraten für Fehler des Typs I und des Typs II können in kommerziellen Anwendungen vorteilhaft sein, bei denen Falschzurückweisungsfehler möglicherweise schädlicher als Falschannahmefehler sind oder umgekehrt. Die vorliegende Erfindung liefert einen Mechanismus zur Einstellung des kritischen Schwellenwerts des durch den Verifikationsprozessor erzeugten Konfidenzmaßsignals, um einen wünschenswerten Kompromiß zwischen Fehlern des Typs I und des Typs II aufrechtzuerhalten.
Eine Schwellenanpassungstechnik gemäß der vorliegenden Erfindung verwendet den als Reaktion auf bekannte Hypothesenkettensignale erzeugten Konfidenzmaßsignalwert zur Anpassung des Verifikationsschwellensignalwerts. Der Schwellenarbeitspunkt wird eingestellt, während Gruppen von Hypothesekettensignalen verfügbar werden. Für eine Klasse korrekter Hypothesekettensignale 72 und für eine Klasse falscher Hypothesekettensignale 74 wird wie in 4 gezeigt eine Verteilung von Konfidenzmaßsignalwerten (aus Gleichung 1) aufgezeichnet. Die rechte Verteilung 72 präsentiert die Konfidenzmaßsignale, die erzeugt werden, wenn eine Wortkette sowohl gültig ist als auch korrekt klassifiziert (erkannt) wird. Die Verteilung 74 auf der linken Seite präsentiert die Konfidenzmaßsignale, die für ungültige Wortketten und die anderen Ketten, die falsch erkannt wurden, erzeugt werden.
Die beiden Verteilungen 72, 74 weisen eine ähnliche Form auf, wobei die Varianzen der beiden Verteilungen fast gleich sind. Dieses Merkmal wird gemäß der vorliegenden Lehre zur Durchführung der Schwellenanpassung verwendet.
Es entspreche X_H0 dem mittleren Konfidenzmaßsignalwert von S(O; θ), so daß O ∈ C ist, und es entspreche X_Hl dem mittleren Konfidenzmaßsignalwert S(O; θ), so daß O ∈ C ist, wobei C ein korrekt erkanntes Hypothesekettensignal ist. Unter der Annahme einer gleichen Varianz für beide Verteilungen wird, um eine gleiche Fehlerrate oder eine minimale Gesamtfehlerrate zu erzielen, die kritische Schwelle τ_s auf den folgenden Wert gelegt: τs = [XHo + XHl]/2 (23)
Die Schwellenanpassung kann während des Betriebsverifikationstestens ausgeführt werden, um so τ_s in die Mitte zwischen den beiden Verteilungen zu legen und den Wert von τ_s einzustellen, wenn X_H0 – τ_s ≠ τ_s – X_Hl ist. In der Praxis ist es schwierig, die tatsächlichen augenblicklichen Mittelwerte der beiden Verteilungen zu bestimmen, während das System läuft. Folglich beginnt die Verifikationsverarbeitung mit bestimmten Anfangssetzungen für X_H0 und X_H1. Diese Werte werden jedesmal dann eingestellt, wenn eine ausreichende Anzahl von Ketten ("R") empfangen wurde, so daß τ_s angepaßt werden kann. Dieser Prozeß wird folgendermaßen ausgeführt.
Unter Verwendung einer Anzahl R von Kettenkonfidenzmaßsignalwerten werden die Werte von X_H0 und X_Hl geschätzt und zur Berechnung eines Fehlermaßes verwendet: E1 = (XH0 – τs) – (τs – XHl). (24)
Um eine Vorbelastung der Mittelwerte aufgrund der langen Enden der Verteilungen 72, 74 von 4 zu vermeiden, werden Konfidenzmaße, die eine vordefinierte Maximal- und Minimalschwelle überschreiten, abgeschnitten. Zusätzlich wird die Fehlerfunktion mit einem verschobenen Sigmoid der folgenden Form geglättet:
wobei α₁, das den Glättungsgrad bestimmt, auf 0,1 gesetzt wurde. Nach der Verarbeitung von n Ketten würde die kritische Schwelle τ_s dann folgendermaßen aktualisiert: Δτs(n) = B1E1, (26)wobei B₁ die Schrittgröße und Δτ_s(n) = τ_s(n) – τ_s(n – 1) ist. Während der Anpassung wurde nicht zugelassen, daß der Wert von τ_s τ_s(0) ± 2 überschreitet.
Während der Anpassung des Verifikationsschwellenwerts gemäß der vorliegenden Erfindung werden Ketten zur Erkennung und Verifikation in einer zufälligen Reihenfolge präsentiert, um gleiche und ausreichende Informationen zur Schätzung der Mittelwerte sicherzustellen. Die kritische Schwelle wird zu Anfang auf einen minimalen Fehlerratenpunkt gesetzt und dann alle 20 Ketten (d.h. R = 20) eingestellt, um die Verfügbarkeit einer ausreichenden, aber nicht minimalen Anzahl von Ketten zur Berechnung des Mittelwerts jeder Verteilung sicherzustellen. Dieses Verfahren zur Einstellung des Verifikationsschwellensignalwerts ermöglicht eine Vorauswahl und Aufrechterhaltung von Fehlerraten sowohl des Typs I als auch des Typs II vor und nach der Anpassung.
Eine sprecherunabhängige Datenbank verbundener Ziffern auf Telefonbasis wurde beim experimentellen Training und der Betriebsprüfung gemäß der vorliegenden Erfindung verwendet. Es wurden Ziffernketten im Bereich von Eins bis Sechzehn Ziffern Länge aus verschiedenen Einsatzversuchssammlungen extrahiert. Die Einsatzversuchssammlungen repräsentierten unterschiedliche Umgebungsbedingungen und akustische Wandlergeräte.
Die Trainingsmenge bestand aus 16089 Ziffernketten. Die Testmenge bestand aus 27702 Ziffernketten. Ungefähr 22% der Äußerungen enthielten Worte außerhalb des Vokabulars, falsche Starts und signifikante Hintergrundgeräusche. Zum Training der Füllermodelle wurde eine separate Datenbank aus 3000 phonetisch reichhaltigen Sätzen bereitgestellt. Die Verifikationsergebnisse überstiegen 99% korrekte Zurückweisung.
Aus dem obigen ist ersichtlich, daß die vorliegende Erfindung einen auf Ketten basierenden Trainingsprozeß mit minimalem Verifikationsfehler zur Äußerungsverifikation bereitstellt. Der diskriminative Ansatz für das Training der Verifikationsprozessormodelle ist mit der für die Äußerungsverifikation verwendeten Zielfunktion vereinbar und hängt direkt mit der Minimierung der erwarteten Kettenverifikationsfehlerrate zusammen.
Im Hinblick auf das obige wird Durchschnittsfachleuten klar sein, daß die vorliegende Erfindung sowohl auf die sprecherabhängige als auch auf die sprecherunabhängige Spracherkennung anwendbar ist. Ferner wird ersichtlich sein, daß, obwohl sie im Kontext der Spracherkennung besprochen werden, die zum Trainieren von Modellen verwendeten Techniken auch auf die Mustererkennung im allgemeinen anwendbar sind.
Es versteht sich, daß die oben beschriebenen Ausführungsformen lediglich beispielhaft sind und daß Fachleute viele Varianten konzipieren können, ohne von dem Schutzumfang der Erfindung abzuweichen, der durch die angefügten Ansprüche definiert wird.

Claims

Spracherkennungssystem zum Erkennen einer Kette verbundener gesprochener Wörter, umfassend: einen Erkennungsprozessor (10) zum Erzeugen eines Hypothesenkettensignals, das eine unbekannte Sprachäußerung repräsentiert, als Reaktion auf eine akustische Eingangskette verbundener gesprochener Wörter; eine Erkennungsdatenbank (12) zum Speichern von Erkennungsmodellen; einen Verifikationsprozessor (14) zum Erzeugen eines auf Ketten basierenden Konfidenzmaßsignals als Reaktion auf das Hypothesenkettensignal, das eine unbekannte Sprachäußerung repräsentiert; und eine Verifikationsdatenbank (16) zum Speichern von Verifikationsmodellen; ferner umfassend an den Verifikationsprozessor angekoppelte Mittel zum Berechnen eines Verifikationsschwellensignalwerts eines auf Ketten basierenden Konfidenzmaßsignals; Mittel zum Messen des auf Ketten basierenden Konfidenzmaßsignals zur Erzeugung eines gemessenen Signalwerts; und Mittel zum Vergleichen des gemessenen Signalwerts mit dem Schwellensignalwert.
Spracherkennungssystem nach Anspruch 1, wobei die Verifikationsmodelle eine Menge von Hidden-Markov-Modellparametern umfassen.
Spracherkennungssystem nach Anspruch 1 oder Anspruch 2, wobei die Verifikationsmodelle aus der folgenden Gruppe ausgewählt werden: Schlüsselwortmodelle, Anti-Schlüsselwortmodelle, akustische Füllermodelle und Kombinationen davon.
Spracherkennungssystem nach einem der vorhergehenden Ansprüche, wobei die Verifikationsmodelle diskriminatives Training widerspiegeln.
Spracherkennungssystem nach einem der vorhergehenden Ansprüche, wobei das Hypothesenkettensignal eine segmentierte Reihe von Wortsignalen umfaßt; und der Verifikationsprozessor folgendes umfaßt: Mittel zum Berechnen einer auf Wörtern basierenden Konfidenzbewertung für jedes Wortsignal der segmentierten Reihe; und Mittel zum Erzeugen des auf Ketten basierenden Konfidenzmaßsignals als Reaktion auf einen Mittelwert der auf Wörtern basierenden Konfidenzbewertungen für jedes Wortsignal der segmentierten Reihe.
Sprachsignalverarbeitungsverfahren zum Erzeugen einer Verifikationsschwellensignalprobe eines durch einen Verifikationsprozessor für ein Spracherkennungssystem erzeugten Konfidenzmaßsignals, mit den folgenden Schritten: (A) Durchführen einer Runde des Betriebs des Verifikationsprozessors, um folgendes auszuführen: (i) Erzeugen eines ersten auf Ketten basierenden Konfidenzmaßsignals auf der Basis eines bekannten Hypothesenkettensignals, das eine unbekannte Sprachäußerung repräsentiert, und eines aktuellen Verifikationsmodells für das bekannte Hypothesenkettensignal, das eine unbekannte Sprachäußerung repräsentiert; (ii) Erzeugen eines oder mehrerer weiterer auf Ketten basierender Konfidenzmaßsignale, wobei jedes solche auf Ketten basierende Konfidenzmaßsignal auf dem bekannten Hypothesenkettensignal, das eine unbekannte Sprachäußerung repräsentiert, und einem weiteren Verifikationsmodell basiert; (B) Wiederholen von Schritt (A) für eine vorgewählte Anzahl von Runden; (C) Aufzeichnen einer ersten Verteilung erster auf Ketten basierender Konfidenzmaßsignalwerte für die vorgewählte Anzahl von Runden; (D) Aufzeichnen einer zweiten Verteilung des einen bzw. der mehreren auf Ketten basierenden Konfidenzmaßsignalwerte für die vorgewählte Anzahl von Runden; (E) Berechnen eines ersten Mittelwerts für die erste Verteilung; (F) Berechnen eines zweiten Mittelwerts für die zweite Verteilung; und (G) Erzeugen der Verifikationsschwellensignalprobe auf der Basis des ersten Mittelwerts und des zweiten Mittelwerts.
Verfahren nach Anspruch 6, ferner mit den folgenden Schritten: Auswählen einer Falschzurückweisungs-Verifikationsfehlerrate; Auswählen einer Falschannahme-Verifikationsfehlerrate; und Schätzen eines Anfangsverifikationsschwellensignalwerts auf der Basis der gewählten Falschzurückweisungs-Verifikationsfehlerrate und der gewählten Falschannahme-Verifikationsfehlerrate.
Verfahren nach Anspruch 7, ferner mit den folgenden Schritten: Erzeugen des Verifikationsschwellensignalwerts, während das Spracherkennungssystem in Betrieb ist; und Aufrechterhalten der Falschzurückweisungs-Verifikationsfehlerrate und der Falschannahme-Verifikationsfehlerrate, während das Erkennungssystem in Betrieb ist.