DE69422097T2

DE69422097T2 - Training von kombinierten Kettenmodellen mit minimaler Fehlerrate

Info

Publication number: DE69422097T2
Application number: DE69422097T
Authority: DE
Inventors: Chou; Biing-Hwang Juang; Chin-Hui Lee
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1993-07-22
Filing date: 1994-07-13
Publication date: 2000-08-24
Anticipated expiration: 2014-07-14
Also published as: CA2126380C; JPH07152394A; EP0635820A1; JP3672595B2; US5606644A; DE69422097D1; CA2126380A1; EP0635820B1

Description

Gebiet der Erfindung

Die vorliegende Erfindung betrifft im allgemeinen das Trainieren von Datenbanken mit Mustern und insbesondere das Trainieren von Sprachmusterdatenbanken für Sprachverarbeitungsaufgaben, z. B. Spracherkennung.

Hintergrund der Erfindung

Die Aufgabe von der Erkennung von Fließsprache besteht darin, eine zugrundeliegende Wortfolge aus einer Sprachäußerung zu identifizieren (d. h. zu erkennen). Die Erkennung wird mittels eines Satzes von Spracherkennungsmustern oder -modellen (nachstehend Modelle genannt) ausgeführt. Diese Basisspracherkennungsmodelle sind die Aufbaublöcke für Wörter und Wörterketten, z. B. Aussagen oder Sätze. In letzter Zeit wurden Forschungsanstrengungen auf das Problem konzentriert, wie diese Basisspracherkennungseinheiten für Fließspracherkennung auszuwählen und darzustellen ist.
Ein herkömmlicher Ansatz hinsichtlich des Fließspracherkennungsproblems besteht darin, daß statistische Mustererkennung mit akustischen Erkennungsmodellen, z. B. Schablonen oder versteckten Markov-Modelle (HMM) verwendet werden. Basierend auf einer lexikalischen Beschreibung einer Vokabel werden akustische Spracherkennungsmodelle vorgeschrieben und ihre Parameter dann statistisch durch einen Vorgang bestimmt, der als Trainieren bekannt ist. Die Basismodelle können ganze Wörter oder Teilwörter (z. B. Laute reflektieren, welche die akustische Darstellung von ausgesprochenen Phonemen sind). Eine Annahme, die bei diesem Ansatz zur Fließspracherkennung generell angenommen wird, besteht darin, daß eine flüssig gesprochene Wortfolge, d. h. eine Wortkette, durch eine lineare Verkettung von Basisspracherkennungsmodellen (von Wörtern oder Teilwörtern) gemäß der lexikalischen Übertragung der Wörter in die Kette adäquat dargestellt werden kann. Üblicherweise bedeutete dies eine Verkettung der Spracherkennungsmodelle, die direkt aus den Trainingszeichen (z. B. aus Wörtern) abgeschätzt wurden. Eine Verkettung akustischer Erkennungsmodelle bildet ein Modell der Wortkette und ist eine Art Wortkettenmodell. Bei einer Fließspracherkennung werden für eine gegebene Erkennungsaufgabe Mehrfachkettenmodelle hypothetisch angenommen. Jedes dieser Kettenmodelle wird mit einer zu erkennenden Fließsprachäußerung verglichen. Die Treffernähe jedes Vergleichs wird durch eine Erkennungsbewertung angezeigt. Das Kettenmodell, das der Fließsprachäußerung am nächsten ist, "erkennt" die Äußerung.
Ein weiterer üblicher Ansatz für die Fließsprachenerkennung ist die Erweiterung des Wortkettenmodells durch nicht akustische Erkennungsmodelle. Diese nicht akustischen Erkennungsmodell umfassen unter anderem Sprachmodelle, auf Laute basierende Modelle, semantische Modelle, syntaktische Modelle und andere Erkenntnisquellen (z. B. Tonhöhe, Betonung, Sprechgeschwindigkeit, Ton, Dauer usw.). Bei einem derartigen Lösungsansatz kann eine Wortkette aus einer Kombination aus akustischen Modellen, Sprachmodellen usw. erstellt werden. Die Erkennungsbewertung einzelner Modelle sind in einer Gesamtkettenmodellerkennungsbewertung eingebaut. Das Einbauen der Bewertung in eine Kettenmodellerkennungsbewertung wird z. B. durch eine gewichtete Summe einzelner Erkennungsbewertungen aus einzelnen Kettenmodellen erfüllt.
Gewöhnlich wird das Trainieren einzelner Erkennungsmodelle auf individueller Basis ausgeführt. Beim Trainieren akustischer Modelle wird z. B. die Trainingssprache in einzelne Trainingswortsprachproben- oder Teilworttrainingssprachproben geteilt. Individuelle akustische Modelle werden deshalb mit Trainingssprachproben trainiert, die aus einer längeren Trainingssprachäußerung isoliert worden sind. Außerdem werden akustische und andere Modelle individuell trainiert, während die Parameter, die zum Kombinieren derartiger Modelle für Zwecke der Spracherkennung benutzt werden, heuristisch ausgewählt werden können, d. h. getrennt und neben dem Training anderer Modelle.
Dieses gesamte individuelle Training regiert die Tatsache, daß derartige Modelle für Zwecke der Fließspracherkennung zusammen benutzt werden. Das heißt wie gut die Fließspracherkennung ist, bemißt sich danach, wie gut eine Kombination der Modelle (d. h. ein Kettenmodell) im Vergleich mit einer gänzlich unbekannten Kette ist. Eine Kombination von Modellen wird gegenüber einer weiteren ausgewählt, und zwar basierend darauf, wie gut jedes Kettenmodell an die unbekannte Wortkette in der Zusammensetzung angepaßt ist. Diese Anpassung an die Zusammensetzung kann als globale Kombinationsbewertung bezeichnet werden. Sollte eine Fließspracherkennungseinrichtung einen Fehler machen, tut sie es, basierend auf Vergleiche, die an einem globalen oder Kettenniveau durchgeführt wurden, an (und folglich nicht) auf der Ebene der individuellen Wortäußerung, bei denen die Modelle oder andere Informationsquellen trainiert worden sind. Wegen dieser Diskrepanz zwischen der Ebene des Trainierens und des Erkennens ist die Perfektion der Fließspracherkennung schlechter als gewünscht.
Die Erfindung betrifft ein Verfahren gemäß Anspruch 1, einen Spracherkennungstrainer gemäß Anspruch 17 und ein Spracherkennungssystem gemäß Anspruch 20. Bevorzugte Ausführungsformen der Erfindung werden in den unabhängigen Ansprüchen aufgeführt.

Zusammenfassung der Erfindung

Die vorliegende Erfindung stellt eine Technik bereit, die zum Trainieren von Spracherkennungsmodellen (inklusive akustischer Modelle, Sprachmodellen und anderen Erkenntnisquellen) auf einem globalen Kettenniveau geeignet ist, um so die Wortkettenerkennungsfehlerrate zu senken, d. h. zu minimieren. Die Erfindung liefert eine diskriminative Analyse zur Kettenmodell-Niveauanpassung.
Gemäß einer beispielhaften Ausführungsform der Erfindung wird ein Satz verwechselbarer Kettenmodelle erzeugt, die auf einer einzelnen von einer Trainingsdatenbank erhaltenen lexikalischen Kette basieren. Jedes Kettenmodell umfaßt eine Kombination aus akustischen Modellen und Sprachmodellen. Bei gegebener Trainigsketten-Sprachprobe aus der Trainingsdatenbank werden akustische, Sprach- und Kombinationsmodel-Parameter abgeschätzt, um so die Wahrscheinlichkeit zu erhöhen, daß das lexikalische Kettenmodell die beste Erkennungsbewertung aus dem Satz verwechselbarer Modelle darstellt. Auf diese Weise wird die Kettenerkennungsfehlerrate vermindert.
Die Parameterabschätzung, welche minimierte Kettenerkennungsfehlerrate bereitgestellt, wird durch den Einsatz einer speziell konstruierten Verlustfunktion erhalten. Diese Verlustfunktion gleicht die allophonischen Ketten-Niveau-Unterschiede bei den Sprachereknnungseinheitenmodellen aus, indem die in Konkurrenz stehenden Kettenmodelle in Betracht gezogen werden. Indem eine Beziehung zwischen dem Kettenmodellbewertungsunterschied und dem erwarteten Kettenerkennungsfehler hergestellt wird, die in Konkurrenz miteinander stehen, kann die Minimierung des erwarteten Fehlers direkt in Beziehung auf die Maximierung der Wahrscheinlichkeit zum Erhalten eines richtigen Bewertungsranges zwischen dem lexikalischen Kettenmodell und anderen verwechselbaren Kettenmodellen gezogen werden.

Beschreibung der Zeichnungen

Es zeigen:
Fig. 1 ein beispielhaftes Spracherkennungssystem gemäß der vorliegenden Erfindung,
Fig. 2 eine beispielhafte Ausführungsform einer verbesserten Trainingseinrichtung, die in Fig. 1 dargestellt ist,
Fig. 3 eine Ausführungsform des Kettenmodell- Aktualisierungsprozessors, der in Fig. 2 erscheint,

Detaillierte Beschreibung

A. Beispielhafte Ausführungsform der Hardware

Für die Klarheit der Beschreibung wird die beispielhafte Ausführungsform der vorliegenden Erfindung mit einzelnen Funktionsblöcken (einschließlich den Funktionsblöcken, die als "Prozessoren" bezeichnet werden) dargestellt. Die Funktionen dieser dargestellten Blöcke kann durch den Einsatz entweder geteilter oder spezieller Hardware einschließlich, Hardware, die zum Ausführen der Software in der Lage ist, bereitgestellt werden, muß aber nicht darauf beschränkt sein. Beispielsweise können die Funktionen der Prozessoren, die in den Fig. 1, 2 oder 3 dargestellt werden, mittels eines einzigen "geteilten" Prozessors ausgeführt werden (der Gebrauch des Ausdrucks "Prozessor" soll sich nicht ausschließlich auf die Hardware beziehen, die in der Lage ist, Software auszuführen).
Beispielhafte Ausführungsformen können digitale Signalprozessorhardware (DSP), z. B. den DSP 16 oder DSP 32C von AT & T, Nur-Lesespeicher (ROM) zum Speichern der Software, welche die vorstehend erörterten Operationen ausführt, und einen Speicher mit direktem Zugriff (RAM) zum Speichern der DSP-Ergebnisse umfassen. Ferner können sowohl VLSI-Hardware-Ausführungsformen mit Integration im großen Maßstab, VLSI) als auch frei erhältliche VLSI-Schaltkreise in Verbindung mit einem Allzweck-DSP-Schaltkreis bereitgestellt werden.

B. Eine beispielhafte Ausführungsform

Die Spracherkennung ist ein Verfahren, bei welchem eine unbekannte Sprachäußerung (gewöhnlich in Form eines digitalen PCM-Signals) identifiziert wird. Im Wesentlichen wird die Spracherkennung durch Vergleich der Merkmale einer unbekannten Sprachäußerung mit den Merkmalen eines bekannten Wortes oder einer Wortkette verglichen.
Um eine unbekannte Äußerung zu erkennen, extrahiert eine Spracherkennungseinrichtung Merkmale aus der Äußerung, um diese zu charakterisieren. Die Merkmale der unbekannten Äußerung werden als Testmuster bezeichnet. Die Erkennungseinrichtung vergleicht dann Kombinationen eines oder mehrerer Referenzmuster in der Datenbank mit den Testmustern der unbekannten Äußerung. Eine Bewertungstechnik wird verwendet, um ein Relativmaß darüber bereitzustellen, wie gut jede Referenzmusterkombination mit den Testmustern übereinstimmt. Die unbekannte Äußerung wird als die Wortfolge erkannt, die der Kombination eines oder mehrerer Referenzmuster zugeordnet ist, die am meisten mit der unbekannten Äußerung übereinstimmt.
Fig. 1 stellt ein beispielhaftes Spracherkennungssystem 1 gemäß der vorliegenden Erfindung dar. Das System umfaßt eine Datenbank 10 für Trainingssprache, einen Merkmalsextrahierer 20, Mode-Schalter 15, 30, einen Bewertungsvergleicher 40, einen Bewertungsprozessor 50, eine herkömmliche HMM-Trainiereinrichtung 60, eine Erkennungsmodell-Parameterdatenbank 70, einen Generator 75 für das N-beste-Kettenmodell und eine verbesserte Trainiereinrichtung 80.
Die Datenbank 10 für Trainingssprachen des Systems 1 umfaßt Proben bekannter Sprachsignale in digitaler Form. Jedes Sprachsignal entspricht einer Kette oder Folge von einem oder mehreren gesprochenen Wörtern. Diese Proben werden für die herkömmliche bzw. verbesserte Trainiereinrichtung 60 bzw. 80 verwendet. Proben bekannter Sprachketten von einer Datenbank 10 werden für andere Komponenten des Systems 1 über den Mode-Schalter 15 bereitgestellt.
Der Mode-Schalter 15 spiegelt zwei Betriebsmoden des Systems 1 wieder, nämlich: eine Trainings-Mode (T) und eine Erkennungs-Mode (R). Wenn sich der Schalter 15 in der T- Stellung (oder Zustand) befindet, kann die Trainingssprache von der Datenbank 10 zum Rest des Systems 1 bereitgestellt werden, so daß das Training durch den Trainingsabschnitt 90 ausgeführt wird. Wenn sich der Schalter 15 in der R-Stellung befindet, werden unbekannte Sprachäußerungen (Signale) in digitaler Form dem Rest des Systems 1 für die Erkennung durch den Erkennungsabschnitt 95 zugeführt.
Der Merkmalextrahierer 20 des Systems 1 ist mit dem Mode-Schalter 15 verbunden. Abhängig von der Stellung des Mode-Schalters 15 empfängt der Extrahierer 20 entweder Trainings- oder unbekannte Sprachsignalketten. Basierend auf diesen empfangenen Sprachsignalen erzeugt der Extrahierer 20 einen oder mehrere Merkmalvektoren X, welche die empfangene Sprache charakterisieren. Der Merkmalextrahierer 20 kann ein konventioneller Merkmalextrahierer sein, z. B. ein Merkmalextrahierer mit Filterbank, ein Merkmalextrahierer mit linearer Vorhersage-Kodierung (LPC) oder ein Merkmalextrahierer mit diskreter Fourier-Transformation (DFT) sein.
Die Merkmalvektoren-Ausgangssignale des Extrahierers 20 werden einem zweiten Mode-Schalter 30 zugeführt. Dieser Mode- Schalter 30 arbeitet im Tandem mit dem Mode-Schalter 15. Das heißt, beide Schalter werden zur gleichen Zeit auf die gleiche Stellung - T oder R - gesetzt, und zwar basierend auf einem Mode-Signal, das an beiden Schaltern 15, 30 ansteht. Der Mode-Schalter 30 führt das Ausgangssignal des Extrahierers 20 entweder zum Erkennungs- oder zum Trainingsabschnitt des Systems 1.
Der Erkennungsabschnitt 95 des Systems 1 umfaßt einen Bewertungsvergleicher 40 und einen Bewertungsprozessor 50. Der Bewertungsvergleicher 40 ist herkömmlich. Der Vergleicher 40 bezieht ein Kettenmodell auf eine unbekannte Sprachsignalkette und bestimmt eine Bewertung, welche die Nähe oder Übereinstimmung des Vergleichs anzeigt. Die Kettenmodelle umfassen beispielsweise eine Kombination aus akustischen Kettenmodellen und Sprachkettenmodellen. Herkömmliche Bewertungsvergleicher für akustische und Sprachmodelle können für den Vergleicher 40 verwendet werden. Siehe z. B. Lee und Rabiner, A Frame Synchronous Network Search Algorithm for Connected Word Recognition, Band 37, No. 4, IEEE Trans, Acoust., Speech, and Sig. Pro., 1649-58 (1989).
Siehe ferner beispielsweise US-PS-4,783,804 mit dem Titel "Hidden Markov Model Speech Recognition Arrangement" welche gemeinsame Anmelder mit der vorliegenden Anmeldung haben. Die durch den Vergleicher 40 erzeugten Bewertungen werden dem Bewertungsprozessor 50 zugeführt. Der Bewertungsprozessor 50 bestimmt, welche der bereitgestellten Bewertungen den größten Wert aufweist und identifiziert die Wörterkette in Abhängigkeit mit dieser Bewertung. Die unbekannte Sprachsignalkette wird durch den Prozessor 50 als die bekannte Sprache erkannt, die dem identifizierten Kettenmodell zugeordnet ist. Der Prozessor 50 erhält Darstellungen der identifizierten Sprache für die Ausgabe aus der Modell-Parameterdatenbank 70 (siehe unten).
Der Trainingsabschnitt 90 des Systems 1 umfaßt eine herkömmliche HMM-Trainiereinrichtung 60, eine Modell- Parameterdatenbank 70, einen Generator 75 für das N-beste- Kettenmodell und eine verbesserte Trainiereinrichtung 80. Die HMM-Trainiereinrichtung 60, z. B. die, welche in der US-PS- 4,783,804 beschrieben wird, sorgt für die herkömmliches Trainieren der akustischen HMMs.
Die Modell-Parameterdatenbank 70 speichert eine Sammlung Λ = {Λ&sub1;, ..., Λn} von m Erkennungsmodellsätzen, die auf Akustik, Sprache usw. basieren. Bei der beispielhaften Ausführungsform der Erfindung ist
Λ = {ΛA, ΛL, ΛC}, wobei ΛA ein Satz akustischer Modelle, ΛL ein Satz von Sprachmodellen und ΛC ein kombiniertes Modell ist (ΛC umfaßt einen Parametersatz, der beim Kombinieren von ΛA und ΛL zum Bilden eines globalen Kettenmodells verwendet wird).
Das Ausgangssignal der Trainiereinrichtung 60 umfaßt einen Satz eines oder mehrerer herkömmlicher trainierter akustischer HMMs ΛA, sowie die Merkmalvektoren X der Trainingssprachketten, auf denen die HMM-Sätze basieren. Für die beispielhafte Ausführungsform der vorliegenden Erfindung ist der Trainingsgrad, der durch die herkömmliche Trainiereinrichtung 60 bereitgestellt wird, unwichtig. Tatsächlich braucht die herkömmliche Trainiereinrichtung 60 nicht mehr zu tun als einen Anfangssatz HMM-Parameter ΛI bereitzustellen (selbst wenn dies trivial ist), die vom ROM- Speicher wiedergewonnen werden können.
Das Ausgangssignal der Trainiereinrichtung 60, ΛA (0), wird in der Modell-Datenbank 70 für den Gebrauch durch den Generator 75 und die verbesserte Trainiereinrichtung 80 als Initialisierungsparameter aufgezeichnet. Die verbesserte Trainiereinrichtung 80 empfängt ΛI und X von der Datenbank 70 und gibt einen Satz verbesserter oder aktualisierter HMMs, ΛU zur Datenbank 70 zurück. Schließlich werden verbesserte Modelle ΛU dem Bewertungsvergleicher 40 während des Erkennungs-Mode zugeführt. Der Gebrauch verbesserter Modelle ΛU von dem Listenvergleicher 40 sorgt für eine verminderte Kettenerkennungs-Fehlerrate.
Der Generator 75 für das N-beste-Kettenmodell empfängt die Modelle ΛI sowie die Trainingssprachenketten X und erzeugt einen Satz Kettenmodelle, die in starker Konkurrenz zu dem lexikalischen Kettenmodell stehen. Diese konkurrierenden Kettenmodell liefern eine Basis für das diskriminative Trainieren der verbesserten Trainiereinrichtung 80.
Der Generator 75 erzeugt die N-besten (oder am meisten verwechselbaren (Kettenmodelle durch Bestimmen der N-besten (verwechselbaren) Wortketten und für jede dieser Wortkette die entsprechenden Kettenmodelle. Die Bestimmung der N-besten Wortketten wird durch den Einsatz eines modifizierten Viterbi-Dekoders von dem Typ vorgenommen, wie er in dem Aufsatz "A tree-trellis based fast search for finding N-best sentence hypotheses in continuous speech recognition, in Proc. ICASSP (1991) von F. K. Soong und E. F. Huang beschrieben wird. Dieser Dekoder erzeugt eine Karte mit Teilwegen, d. h. eine Liste aller Bewertungen (oder Maße) aller Teilwege, die zu einem beliebigen Grammatikknoten (d. h. einer Wortverbindung) zu allen Zeitpunkten führen. Am Grammatikknoten kann eine Bewertung für Unigramart- Sprachmodell hinzuaddiert werden. Beispielsweise kann ein Logarithmus einer Unigram-Wahrscheinlichkeit eines gegebenen Wortes zu einer Wegbewertung hinzugefügt werden, wenn der Weg den Endzustand des gegebenen Wortes erreicht. Am Ende der modifizierten Viterbi-Vorwärtssuche verwendet der Dekoder eine spurverfolgende A*-Baumverzweigungssuchmethode. Ein derartiges Verfahren wird in Proc. ICASSP, 1991, Seiten 705 bis 708, von F. K. Soong und E. F. Huang beschrieben. Der Generator 75 führt die Baumverzweigungssuche durch Wachsenlassen des obersten (besten) Teilweges aus, der sich an der Spitzseite eines "Stapels" (eine nach Rang geordnete Datenliste) befindet. Die Rangordnung aller Teilwege auf dem Stapel wird durch die bestmögliche Bewertung bestimmt, die ein Teilweg erreichen kann, wenn er vollständig ist. Die Teilwegkarte, die bei der nach vorne gerichteten Viterbi- Suche ausgearbeitet wird, liefert eine Bewertung für jeden unvollständigen Teilweg bei der rückwärtigen Baumverzweigungsuche. Aufgrund der "erstbesten" Natur der A*- Methode werden die oberen N-Ketten nacheinander erzeugt.
Die Zulässigkeit des A*-Algorithmus oder das sichere Auffinden des optimalen Weges bzw. der optimalen Wege ist garantiert, wenn eine obere Grenze des unvollständigen Teils eines Teilweges in dem Stapeldekoder verwendet wird, vorausgesetzt die Stapeltiefe ist tief genug, um Suchfehler zu vermeiden. Bei dem Dreitrellisalgorithmus wird die dichteste Obergrenze oder die tatsächliche Bewertung des Weges erhalten, wenn die gleichen HMM- und Sprachmodelle bei den Suchen entlang beider Richtungen verwendet werden. Daraus ergibt sich, daß die Sucheffizienz des Algorithmus maximiert wird und ein Stapel von N-Eingängen notwendig ist.
Der Generator 75 erzeugt die N-besten Kettenmodelle, basierend auf den N-besten Wortketten durch eine Viterbi- Ausrichtung der Eingabesprachkette X, und zwar in Abhängigkeit von den Modellsätzen für jede gegebene Wortkette in der N-besten Kettenliste. Dieser Schritt wird durch den Generator 75 ausgeführt, da es viele Kettenmodelle geben kann, die der gleichen Wortkette entsprechen, aber das Kettenmodell, das am besten mit der eingegebenen Äußerung für einen gegebenen Modellsatz übereinstimmt, ist einzigartig.
Es sei bemerkt, daß der Generator 75 die Fähigkeit zum Erstellen ungesehener in Konkurrenz stehender Ketten aufweist. Dies ist so aufgrund der Tatsache, daß in Konkurrenz stehende Wortketten, die durch die N-beste Dekodierung erzeugt werden, nicht durch das Trainingsmaterial begrenzt sind. Während eine Trainingsäußerung einer einzelnen Wortkette entspricht, ist die N-beste Kettenliste, die der Äußerung zugeordnet ist, dynamisch und spiegelt das Wiedergabeschärfeniveau des Kettenmodells basierend auf dem Spracherkennungseinheitenmodellsatz wieder. Die Basiserkennungseinheitenmodelle werden deshalb mittels Wortketten trainiert, die durch einen Generator für das N-beste Kettenmodell erzeugt werden. Diese Wortketten umfassen Wortketten, die nicht im Originaltrainingsmaterial vorhanden sind, aber deren Kettenmodelle die Erkennungseinrichtung als verwechselbar mit dem Kettenmodell der lexikalischen Kette erachtet. "Ungesehene" (erstmalig auftauchende) Wortketten, welche die Erkennungseinrichtung verwechselbar mit der lexikalischen Wortkette findet, werden diskriminativ modelliert. Deshalb kann die Modellabdeckung für die "ungesehenen" Ketten verbessert werden. Die Modellierung "ungesehener" Ketten kann nützlich sein, da derartiges Erzeugen die Schwierigkeiten vermindert, die bei der Fließspracherkennung aufgrund des schlechten Kettengeltungsbereiches des Trainingsmaterials auftreten.
Der vorstehend beschriebene Betrieb des Generators 75 kann wie folgt zusammengefaßt werden. Man nimmt an, daß S = W&sub1;,..., Wls eine beliebige Wortkette ist. Mit gegebenem Modellsatz Λ, welches akustische Modelle, Sprach- und andere Erkenntnisquellen umfaßt, ist die optimale Zustandsfolge ΘS eine Funktion des Merkmalvektors X und der Wortkette S. Die N-beste Kettenhypothese {S&sub1;, ..., SN} kann induktiv wie folgt definiert werden.
S&sub1; = arg [log (X, ΘS Λ) + log (S Λ]
Sk = [log (X, ΘS, S Λ) + log (S Λ]
wobei log (X, ΘS, S Λ) die akustische Modellbewertung und log (S Λ) die Sprachmodellbewertung und gemäß anderen Erkenntnisquellen darstellen. Beim Training mit minimaler Ketten-Fehlerrate werden diese akustischen Trainingssprachproben auf Kettenniveau in einen Satz diskriminanter Funktionen eingebaut, die speziell für die Darstellung von Kettenfehlern gestaltet sind. Dies wird durch den Betrieb der verbesserten Trainiereinrichtung 80 ausgeführt, wie nachstehend beschrieben.
Fig. 2 stellt eine beispielhafte Ausführungsform der verbesserten Trainiereinrichtung 80, die in Fig. 1 erscheint, dar. Die verbesserte Trainiereinrichtung 80 arbeitet an der Trainingssprache, die durch die Datenbank 70 bereitgestellt wird. Als Ergebnis des Betriebes der verbesserten Trainiereinrichtung 80 wird ein aktualisierter Satz von Erkennungsmodellen ΛU zurück zur Datenbank 70 gegeben. ΛU kann dann während des Erkennungs-Modes nacheinander als Referenzmustersatz der Erkennungseinrichtung 1 oder als ein neues Λ verwendet werden, das als Ergebnis der weiteren Verarbeitung des Λ oder von zusätzlicher Trainingssprache weiter aktualisiert werden soll.
Der Klarheit der Erläuterung und der Einfachheit der Berechnung wegen wird der Aktualisierungsprozessor 88 beispielhaft als Verarbeitung einer einzigen Trainingskette während des betrachteten Zeitraums beschrieben. Mit einer geringfügigen Modifikation, wie sie nachstehend beschrieben werden soll (siehe Diskussionsabschnitt), kann die Ausführungsform basierend auf verschiedenen Trainingssprachbeispielen das Λ aktualisieren.
Die verbesserte Trainiereinrichtung 80 (Fig. 2) umfaßt einen Prozessor 82 für das Maß der Ketten-Fehlkennung, einen Prozessor 84 für die Verlustfunktion des Kettenmodells 84 und einen Prozessor 88 für Aktualisierung des Kettenmodells.

1. Prozessor für das Maß der Ketten-Fehlkennung

Der Prozessor 82 für das Maß der Ketten-Fehlkennung empfängt die Modelle Λ und ein Trainingssprachkettenbeispiel X von der Datenbank 70. Basierend auf das Kettenbeispiel X und Λ bestimmt der Prozessor 82 ein Kettenfehlkennungsmaß d(X, Λ):
wobei g(X, Slex, Λ&sub1;, ..., Λm) eine Erkennungsbewertung des eingegebenen Äußerungssignals X mit gegebenen Slex als richtige Kette ist;
g(X, Sk, Λ&sub1;, ..., Λm) eine Erkennungsbewertung für j ede in Konkurrenz stehende Kette ist. η eine positive Zahl ist, die beispielsweise auf 2 gesetzt ist; N die Gesamtzahl der in Konkurrenz stehenden Ketten ist, die durch den Generator 75 bereitgestellt werden; g kann beispielsweise die Form einer gewichteten Summe der Erkennungseinrichtungsbewertung sein:
g(X, S, Λ&sub1;, ..., Λm) = α&sub1;g&sub1;(X, S, Λ&sub1;)
+ α&sub2;g&sub2;(X, S, Λ&sub2;) + ... + αmgm(X, S, Λm) (9)
oder im Fall der Ausführungsform
g(X, S, ΛA, ΛL, ΛC) = αAgA(X, S, ΛA) + αLgL (X, S, ΛL) (10)
wobei αA und αL Parameter des kombinierten Modells ΛC,
gA = log (X, ΘS, S ΛA), gL = log P(W&sub1;) + log P(Wτ Wτ-1), ΛL ein auf ein Bigram basierendes Sprachmodell, S eine geordnete Wortkette mit W&sub1;, W&sub2;, ..., Wn geordneten Wörtern, P(W) eine Wahrscheinlichkeit vom Unigram-Sprachmodell und P(Wτ Wτ-1) eine Wahrscheinlichkeit von einem Bigram-Sprachmodell sind.
Der Prozessor 82 für das Maß der Ketten-Fehlkennung bestimmt den Wert eines Skalars d für den Gebrauch durch die nachfolgenden, in Fig. 2 gezeigten, Prozessoren

2. Prozessor für Kettenmodell-Verlustfunktion

Der Kettenmodell-Verlustfunktionsprozessor 84 bewertet eine glatte Kettenverlustfunktion 1, die auf dem Skalarwert, d(X,A) basiert, der vom Prozessor 82 kommend empfangen wird.
wobei γ beispielhaft auf 1 gesetzt ist und d&sub0; ein beispielsweise auf 0 gesetzter Bias-Ausdruck ist.
Der Prozessor 84 liefert einen Skalar 1 als Ausgangssignal am Kettenmodell-Aktualisierungsprozessor 88.
Die Parameter γ und η (vorstehend erörtert) helfen dabei, einen geglättete Annährung an die Kettenverlustfunktion 1 bereitzustellen. Der Gradient der Kettenverlustfunktion (11) wird von dem Kettenmodell- Aktualisierungsprozessor 88 dazu benutzt, die Modellparameter Λ zu aktualisieren. Deshalb ist die Minimierung des erwarteten Kettenverlustes dieser Verlustfunktion direkt mit der Minimierung der Kettenfehlerwahrscheinlichkeit verbunden. Der Bias-Parameter d&sub0; kann dazu verwendet werden, die Wirksamkeit der in Konkurrenz stehenden Kettenmodelle im Trainingsprozeß zu verbessern.

3. Kettenmodell-Aktualisierungsprozessor

Fig. 3 stellt ein beispielhaftes Blockdiagramm des Kettenmodell-Aktualisierungsprozessors 88 dar. Wie in der Figur gezeigt, aktualisiert der Prozessor 88 die akustischen HMM-Parameter u, σ², c und a (Mittelwert, Varianz, gemischte Gewichtung und Übergangswahrscheinlichkeit, wie nachstehend ausführlicher erörtert), die Sprachmodellparameter P(Wj) und P(Wj Wj-1) und die kombinierten Modellparameter αi basierend auf Λ, X und l. Der Prozessor 88 gibt die aktualisierten Parameter ΛU zur Parameterdatenbank 70 zurück. Sowohl Λ als auch ΛU umfassen die Parameter u, σ², c, a, P (Wj), P(Wj Wj-1) und αi mit Λ und ΛU, welche die alten bzw. aktualisierten Werte darstellen.
Bevor eine detaillierte Beschreibung der Modellparameter, die durch den Prozessor 88 aktualisiert werden, vorgelegt wird, wird zuerst Hintergrundwissen einer Funktion offenbart.
Der erwartete Verlust, welcher der Kettenfehlerrate zugeordnet ist, ist gegeben durch:
L(Λ) = EX[l(X,Λ)] (12)
Beim Training mit minimaler Kettenfehlerrate ist es das Ziel, den erwarteten Verlust (12) über den Trainingsbeispielen zu minimieren. Der erwartete Verlust (12) kann durch die aktualisierten Modellparameter minimiert werden, so daß
Λn+1 = Λn - &epsi;nUn l(X,Λ), (13)
wobei seine Folge von Stufengrößenparametern und Un eine Folge von positiv definierten Matrizen ist, die nachstehend definiert werden. Die mittels (13) dargestellte Rekursion konvergiert zu einem festen Punkt des erwarteten Verlustes, und vorausgesetzt, daß &epsi;n = ∞ und &epsi;n² < ∞ ist.
Bei der beispielhaften Ausführungsform in Fig. 2 werden die Modelle A adaptiv gemäß (13) mit dem Aktualisierungsprozessor 88 eingestellt.

a. Akustische Modell-Aktualisierung

Aufgrund der Struktur der akustischen HMMs müssen deren Parameter bestimmten Vorgaben genügen. Der Kettenmodell- Aktualisierungsprozessor 88 verwendet transformierte HMM- Parameter als Teil des Aktualisierungsverfahrens der akustischen Modellparameter, um all diesen Vorgaben zu genügen. Die nachstehenden Transformationen werden vom Prozessor 88 angewendet: (1) Logarithmus der Varianz
wobei darstellen: σ²i,j,k,d die Varianz des i-ten Modells der Erkennungseinheit, ein j-ter Zustand, eine k-te Mischungskomponente und eine d-te Dimension des Merkmalsvektors. Jedes Modell der Erkennungseinheit spiegelt beispielsweise ein Wort oder ein Teilwort wider.

(2) Transformierter Logarithmus der Mischungsgewichtungen

Die Originalmischungsgewichtungen ci,j,k beziehen sich auf die transformierten Mischungsgewichtungen i,j,k wie folgt:
wobei L die Gesamtzahl der Mischungsgewichtungen im j-ten Zustand in dem Modell der i-ten Erkennungseinheit ist.

(3) Transformierter Logarithmus der Übergangswahrscheinlichkeit

Die ursprünglichen Übergangswahrscheinlichkeiten ai,j beziehen sich auf die transformierten Übergangswahrscheinlichkeiten wie folgt:
wobei M die Gesamtzahl der Zustände im Modell der i-ten Erkennungseinheit ist.
Ein beachtenswerter Gesichtspunkt der beispielhaften Ausführungsform betrifft die Handhabung einer kleinen Varianz. Bei einigen korrigierenden Trainingsalgorithmen, die in der Vergangenheit vorgeschlagen worden sind, wird die Varianzeinstellung vermieden, da sie einen ungünstigen Effekt aufweisen kann, wenn sie falsch durchgeführt wird.
Varianzen in den HMMs können sich mehr als um das 10&sup4; bis 10&sup6;-fache unterscheiden. Diese Varianzen treten im Exponententeil der
Wahrnehmungswahrscheinlichkeitsdichtefunktion b (x) auf und haben eine dominante Wirkung bei der Wahrscheinlichkeitsbewertung der HMMs. Bei der beispielhaften Ausführungsform führt dies zu einer unterschiedlichen Empfindlichkeit bei den HMM-Parametereinstellungen, und zwar im Speziellen bei der Einstellung der Mittelwert-Parameter bei der Wahrnehmungswahrscheinlichkeitsdichtefunktion der HMMs.
Um diesen großen Unterschied hinsichtlich der Empfindlichkeit auszugleichen, verwendet die Ausführungsform eine positiv definierte Matrix Un. Die positiv definierte Matrix Un ist eine Diagonalmatrix:
diag(α²&sub1;(n), ..., α²D(n)) (17)
für jeden Zustand, wobei σ²(n) die Varianz der HMM Λi zum Zeitpunkt n ist.
Hinsichtlich der Aktualisierungsausdrücke selbst umfaßt jeder einen Term &sub1;, wie vorstehend (13) beschrieben. Im Wesentlichen nimmt &sub1; die Form ∂l/∂d(X,Λ)·∂d(X,Λ)∂Λ an, wobei d(X,Λ) in (8) definiert wird. Der Ausdruck ∂l/∂d(X,Λ) = li(1 - li) ist den Aktualisierungen gemeinsam und wird als Teilableitung dargestellt. Der Ausdruck ∂l/∂d(X,Λ). wird im Speziellen für jeden aktualisierten Modellparameter dargestellt.
Die Aktualisierungen der akustischen Modellparameter, die vom Aktualisierungsprozessor 88 bereitgestellt werden, lauten wie folgt: (4) Mittelwert-Aktualisierung
wobei xnn(d) die d-te Dimensionskomponente des Merkmalvektors xnn ist, Q dem Zeitrahmen entspricht, in dem der optimale Weg zuerst den Zustand j erreicht, θj+1 dem Zeitrahmen entspricht, in welchem der optimale Weg den Zustand j+1 erreicht, l(X,Λ) die Verlustfunktion ist, die gemäß (11) aufgebaut ist, &epsi;n die Stufengröße und
ist, wobei D die Größe des Merkmalvektors ist. Die Mittelwert-Aktualisierung wird durch den Block 88-1 in Fig. 3 bereitgestellt.

(5) Varianzaktualisierung

Die Aktualisierung = logσ² wird gemäß der folgenden Formel ausgeführt:
wobei γi,j,k(xnn) wie in (19) definiert ist. Somit wird die Varianz zum Zeitpunkt n + 1 gegeben durch:
(n + 1) = e (21)
Die Varianz liegt fest bei 10&supmin;&sup6; und genügt der Bedingung
σ²i,j,k,d(n) > 10&supmin;&sup6;. Die Varianzaktualisierung wird durch den Block 88-2 in Fig. 3 bereitgestellt.

(6) Aktualisierung der Mischungsgewichtung

Die parameterisierten Mischungsgewichtungen werden gemäß nachstehender Gleichung eingestellt:
wobei N(x,u,V) eine Normalverteilungsfunktion mit dem Mittelwert u und der Varianz V ist. Somit werden die Mischungsgewichtungen zum Zeitpunkt n+1 gegeben durch:
Somit erfüllen die eingestellten Mischungsgewichtungen die Vorgaben Σk ci,j,k (n) = 1 und ci,j,k(n) > 0 während des Trainingsprozesses. Die Aktualisierung der Mischungsgewichtungen wird durch Block 88-3 in Fig. 3 bereitgestellt.

(7) Aktualisierung der Zustandsübergangswahrscheinlichkeit:

Bei einem links-nach-rechts HMM wird die parameterisierte Übergangswahrscheinlichkeit des l-ten Wortmodells wie folgt eingestellt,
wobei g&sub1; die Wahrscheinlichkeitsbewertung von X in dem 1-ten Modell der Erkennungseinheit ist, und i nicht der Endzustand ist und die Gesamtzahl des Innenzustandes i des Selbstübergangs durch
N = {# von t (θt-1, θt) - (i, i) im n-ten Erkennungseinheitenmodell} (25)
bezeichnet wird. Folglich ist die Übergangswahrscheinlichkeit zum Zeitpunkt (n + 1) gegeben durch:
die wiederum den Vorgaben Σja (n) = 1, a > 0 und a > 0 genügt.
Die Aktualisierung der Zustandsübergangswahrscheinlichkeit wird durch Block 88-4 der Fig. 3 bereitgestellt. Die Aktualisierungsausdrücke (20-23), die durch den Aktualisierungsprozessor 88 berechnet wurden, betreffen eine aktualisierte Funktion der Wahrnehmungswahrscheinlichkeitsdichte des i-ten akustischen HMM-Modells der Erkennungseinheit in dem j-ten Zustand, gemäß:
bi,j(x) = ci,j,k N(x, ui,j,k, Vi,j,k) (27)
wobei ci,j,k die Mischungsgewichtung und N (x, yi,j,k, Vi,j,k) eine D-dimensionale normale Gauss'sche Verteilung für das i-te Modell der Erkennungseinheit, des j-ten Zustandes und der k-ten Mischung mit einer diagonal Kovarianzmatrix Vi,j,k ist.

b. Aktualisierung des Sprachmodells

Für Sprachmodelle, wie akustische Modelle tritt die Aktualisierung in der Transformierungsdomäne auf.
Beispielsweise kann die folgende Transformation durch den Prozessor 88 verwendet werden: (1) Transformation der Wahrscheinlichkeit von dem Unigraxu-Sprachmodell
wobei N die Gesamtzahl der Wörter und (Wi) = log P(Wi) ist. (2) Transformation einer Wahrscheinlichkeit vom Bigram-Sprachmodell
wobei N die Gesamt zahl der Wörter und (Wi/Wj) = log P (Wi/Wj) ist.
Die Aktualisierungen der Sprachmodellparameter, die durch den Prozessor 88 ausgeführt werden, werden wie nachstehend ausgeführt.
Es sei: Slex = W ··· W ··· s&sub1; = W ... W , ..., sk = W , ..., W
die Wortketten im Fehlkennungsmaß (8), wobei Slex die lexikalische (oder richtige) Wortkette und Σi(i = 1, ...,N) N in Konkurrenz stehende Wortketten sind, die durch den Generator (75) für die N-beste Dekodierung bestimmt werden. (3) Aktualisierung der Unigram-Sprachmodellwahrscheinlichkeit
Die Aktualisierung der Unigram-Wahrscheinlichkeit wird durch Block 88-5 in Fig. 3 bereitgestellt. (4) Aktualisierung der Blagram-Sprachmodellwahrscheinlichkeit
Die Aktualisierung der Blagramm-Wahrscheinlichkeit wird durch Block 88-6 in Fig. 3 bereitgestellt.
c. Aktualisierung der Kombinationsmodellparameter Für die Kombinationsmodellparameter, wobei das Kettenmodell g(X,S,Λ) = αigi(X,S,Λi) ist, wird die Aktualisierung wie folgt ausgeführt:
Die Aktualisierung der Kombinationsmodellparameter wird durch Block 88-7 in Fig. 3 ausgeführt.
Die Werte für u(n + 1), σ²(n + 1), c(n + 1), a(n + 1), P(Wi) (n + 1), P(Wi Wj) (n + 1) und αi(n + 1) sind Ausgangssignale von den Blöcken 88-1 bis 88-7. Wie in Fig. 3 gezeigt, umfaßt ΛU die aktualisierten Werte für u, σ², c, a, Mittelwert, Varianz, gemischte Gewichtung, Übergangswahrscheinlichkeit P(Wi), P(Wi Wj) und αi.
Die Ausdrücke für die Parameteraktualisierung, die vorstehend bereitgestellt wurden, betreffen den Einsatz eines einzigen Sprachtrainingskettenbeispiels von der Datenbank 70, um die Modellparameter zu verbessern. Die verbesserte Trainingseinrichtung 80 kann jedoch die Vorgänge viele Male wiederholen, um die Modellparameter zu verbessern. Zum Beispiel kann die verbesserte Trainiereinrichtung 80 an allen Trainingskettenbeispielen in der Datenbank 70 arbeiten. Jedoch kann die Trainiereinrichtung 80, falls gewünscht, bei verschiedenen Durchläufen oder Runden durch die vollständige Datenbank 70 arbeiten. Die Trainiereinrichtung 80 kann so konstruiert sein, daß sie das Bearbeiten der Beispiele auf verschiedene beliebige Weisen anhalten kann. Die Trainiereinrichtung 80 kann z. B. anhalten, wenn sie eine feste von Rundenanzahl durch die Datenbank 70 der Beispiele ausgeführt hat. Es wird jedoch bevorzugt, daß die Trainiereinrichtung 80 ein Aufzeichnung der zusätzlichen Verbesserung bei der Kettenfehlerrate aufgrund der Bearbeitung aller Sprachtrainingsketten des aktuellen Durchlaufs erhält.

C. Diskussion

Während die akustischen Modelle der beispielhaften Ausführungsform im Speziellen HMMs umfassen, ist die vorliegende Erfindung bei Erkennungseinrichtungen anwendbar, die andere Typen akustischer Modelle verwenden, so z. B. eine auf Schablonen basierende akustische Erkennungseinrichtung, die eine dynamische Zeitverkettung oder -Verwertung (Warpings) als Bewertungsverfahren verwendet. Um die vorliegende Erfindung auf andere Erkennungseinrichtungstypen anzupassen, muß das Bewertungsverfahren, das als Funktion g in (8) dargestellt ist, geändert werden, um den Erkennungseinrichtungstyp wiederzuspiegeln. Diese Änderung spiegelt sich bei dem Modellaktualisierungsverfahren der Erkennungseinheit in dem Ausdruck 1 wieder.
Bei der vorstehend beschriebenen Ausführungsform wird jede Beispielkette der Trainingssprache nacheinander eingesetzt. Der Kettenmodell-Aktualisierungsprozessor 88 nimmt die durch die Erkennungseinrichtung bereitgestellte Information an der aktuellen Beispielkette und aktualisiert die Modellparameter gemäß der vorstehend bereitgestellten Aktualisierungsformeln. Die Rechenkomplexität des Prozessors 88 hängt hauptsächlich von der Form des Fehlerkennungsmaßes ab, welches bestimmt, wieviele in Konkurrenz stehende mögliche Kettenmodelle für die Modellparameterabschätzung verwendet werden.
Wie vorstehend beschrieben, arbeitet jede Wiederholung der verbesserten Trainiereinrichtung 80 an einem einzelnen Sprachtrainingsbeispiel. Jedoch ist es für die Trainierreinrichtung möglich, einen aktualisierten Satz Modellparameter ΛU, basierend auf einer Vielzahl von Beispielen, bereitzustellen. Um dies durchzuführen arbeitet der Ketten-Fehlerkennungsvergleichsprozessor 82 an einem Vektor der Sprachkettenbeispiele, um einen Vektor für die Werte von d zu erhalten, wobei jeder Wert einem gegebenen Kettenbeispiel entspricht. Der Kettenmodell- Verlustfunktionsprozessor 84 empfängt den Vektor der d-Werte und erhält einen Vektor von l-Werten, die jeweils auf einem entsprechenden Wert von d basieren. Der Kettenmodell- Aktualisierungsprozessor 88 aktualisiert die Parameter, wie oben beschrieben, wobei jede Aktualisierung Λ(n) bis Λ(n + 1) durch ein einziges Sprachkettenbeispiel (der N-Kettenbeispiele) bereitgestellt wird. Jedoch werden alle Kettenbeispiele in einer Reihenfolge verwendet, so daß Λ(n + 1), das sich aus der Bearbeitung eines Beispiels ergibt, als Λ(n) zum Verarbeiten eines nachfolgenden Beispiels dient. Es sei bemerkt, daß bei der Aktualisierung Λ, basierend auf Mehrfachkettenbeispiele, der Wert von Λ auf der rechten Seite (18, 20, 22, 24, 30, 31 und 32) konstant bleibt. Nur nachdem alle Kettenbeispiele verarbeitet worden sind, ist IΛ als ΛU in der Datenbank aktualisiert.
Es sei bemerkt, daß die in (11) dargestellte Verlustfunktion lediglich ein Funktionstyp ist, der für die vorliegende Erfindung anwendbar ist. Andere Funktionstypen, z. B. die, die auf die hyperbolische Tangente basieren, sind auch anwendbar, d. h. l(d(X,Λ)) = tanh(γd(X,Λ)).
Der im Wesentlichen durch (13) und im Speziellen durch (18, 20, 22, 24, 30, 31 und 32) beschriebene Vorgang sorgt für die Identifikation eines örtlichen Minimums der Kettenverlustfunktion. Jedoch können herkömmliche Techniken zum Auffinden des globalen Minimums der Verlustfunktion, z. B. simuliertes Vergüten, angewendet werden.
Bei Betrachtung des Vorstehenden ist es einem gewöhnlichen Fachmann ersichtlich, daß die vorliegende Erfindung sowohl auf die vom Sprecher abhängige als auch auf die vom Sprecher unabhängige Spracherkennung anwendbar ist.
Obwohl die beispielhafte Ausführungsform der vorliegenden Erfindung Kettenmodelle betrifft, die linear kombinierte akustische und Sprachmodelle darstellen ist es einem gewöhnlichen Fachmann ersichtlich, daß die vorliegende Erfindung auf Kettenmodelle anwendbar ist, die andere/zusätzliche Erkenntnisquellen und Modelltypen verwenden, so z. B. semantische Modelle, phonetische Modelle, syntaktische Modelle usw. sowie andere Kombinationsmodelle, einschließlich nichtlinearer Kombinationsmodelle.

Claims

1. Verfahren zur Herstellung einer Datenbank für ein Spracherkennungsmodell, basierend auf einem Äußerungssignal von Trainingssprache und auf einer Vielzahl von Erkennungsmodellen für fließende Sprache, mit folgenden Verfahrensschritten:

a) ein Satz von einem oder mehreren Konfusionskettenmodellen wird erzeugt, wobei ein Konfusionskettenmodell eine Vielzahl der Erkennungsmodelle für fließende Sprache aus zwei oder mehreren dieser Sätze von Fließsprache- Erkennungsmodellen umfaßt, wobei jeweils wenigstens zwei dieser Modellsätze unterschiedlichen Sprachmerkmalen entsprechen und das Konfusionskettenmodell ein Modell ist, welches, wenn es zum Darstellen der Trainingssprache-Äußerung ausgewählt wird, eine Fehlerkennung der Trainingssprache-Äußerung ergibt;

b) Basierend auf dem Trainingssprache- Äußerungssignal für diese Äußerung wird ein erstes Bewertungssignal erzeugt, wobei das Kettenmodell für die Äußerung eine Vielzahl der Fließsprache- Erkennungsmodellen aus den zwei oder mehreren Fließsprache-Erkennungsmodellsätze umfaßt;

c) ein oder mehrere zweite Bewertungssignale werden erzeugt, wobei ein zweites Bewertungssignal auf dem Trainingssprache-Äußerungssignal und einem Konfusionskettenmodell basiert;

d) ein Signal wird erzeugt, welches einen Vergleich einer Wahrscheinlichkeit des richtigen Erkennens des Trainingssprache-Äußerungssignals und einer Wahrscheinlichkeit des falschen Erkennens des Trainingssprache-Äußerungssignals darstellt, wobei die Wahrscheinlichkeit der richtigen Erkennung des Trainingssprache-Äußerungssignals auf dem ersten Bewertungssignal und die Wahrscheinlichkeit der falschen Erkennung des Trainingssprache-Äußerungssignals auf dem einen oder den mehreren zweiten Bewertungssignalen beruhen; und

e) basierend auf dem Signal, welches den Vergleich der Wahrscheinlichkeit darstellt, werden ein oder mehrere der Fließsprache-Erkennungsmodelle modifiziert, um die Wahrscheinlichkeit zu erhöhen, daß ein Kettenmodell für die Äußerung eine Rangordnung bekommt, die höher ist als die der Konfusionskettenmodelle.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das Erzeugen des Satzes eines oder mehrerer Konfusionskettenmodelle das Generieren von N-besten Wortkettenmodellen umfaßt.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das erste Bewertungssignal ein Maß der Ähnlichkeit zwischen dem Trainingssprache- Äußerungssignal und dem Kettenmodell für die Äußerung wiederspiegelt.

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß das Maß der Ähnlichkeit eine Erkennungsbewertung mit logarithmischer Wahrscheinlichkeit umfaßt.

5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das zweite Bewertungssignal ein Maß der Ähnlichkeit zwischen dem Trainingssprache- Äußerungssignal und einem der Konfusionskettenmodelle wiederspiegelt.

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß das Maß der Ähnlichkeit eine Erkennungsbewertung mit logarithmischer Wahrscheinlichkeit umfaßt.

7. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das Erzeugen eines Signals, welches einen Vergleich darstellt, das Bilden einer Differenz des ersten Bewertungssignals und einer Zusammensetzung eines oder mehrerer zweiter Bewertungssignale umfaßt.

8. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das Modifizieren eines oder mehrerer der Fließsprache-Erkennungsmodelle folgende Schritte umfaßt:

1. ein Modifikationssignal für ein Erkennungsmodell, welches einen Funktionsgradienten wiederspiegelt, wird erzeugt, wobei die Funktion, die eine Erkennungsbewertung einer Trainingssprache-Äußerung wiederspiegelt, auf einem Kettenmodell für diese Äußerung basiert, und ein oder mehrere Erkennungsbewertungen der Trainingssprache-Äußerung auf einem oder mehreren Konfusionskettenmodellen basieren; und

2. ein oder mehrere Fließsprache-Erkennungsmodelle, die auf dem Modifikationssignal basieren, werden eingestellt.

9. Verfahren nach Anspruch 8,

dadurch gekennzeichnet, daß die Funktion eine Differenz der Erkennungsbewertung einer Trainingssprache- Äußerung wiederspiegelt, basierend auf einem Kettenmodell für diese Äußerung und auf einer gewichteten Summe des einen oder von mehreren Erkennungsbewertungen der Trainingssprache-Äußerung, basierend auf einem oder mehreren Konfusionskettenmodellen.

10. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß einer der Sätze der Fließsprache-Erkennungsmodelle akustische Modelle umfaßt.

11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß die akustischen Modelle versteckte -heimliche- Markov-Modelle umfassen.

12. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß eines der Sätze der Fließsprache-Erkennungsmodelle Sprachmodelle umfaßt.

13. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß eines der Sätze der Fließsprache-Erkennungsmodelle Stimmlage-Modelle umfaßt.

14. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß eines der Sätze der Fließsprache-Erkennungsmodelle Energiemodelle umfaßt.

15. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß eines der Sätze der Fließsprache-Erkennungsmodelle Sprechgeschwindigkeitsmodelle umfaßt.

16. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß eines der Sätze der Fließsprache-Erkennungsmodelle Sprechdauermodelle umfaßt.

17. Spracherkennungstrainer zum Herstellen einer Datenbank für ein Spracherkennungsmodell, basierend auf einem Äußerungssignal von Trainingssprache und auf einer Vielzahl von Erkennungsmodellen für fließende Sprache, welcher folgende Merkmale umfaßt:

a) eine Einrichtung zum Erzeugen eines Satzes von einem oder mehreren Konfusionskettenmodellen, wobei ein Konfusionskettenmodell eine Vielzahl der Erkennungsmodelle für fließende Sprache aus zwei oder mehreren dieser Sätze von Fließsprache- Erkennungsmodellen umfaßt, wobei jeweils wenigstens zwei dieser Modellsätze unterschiedlichen Sprachmerkmalen entsprechen und das Konfusionskettenmodell ein Modell ist, welches, wenn es zum Darstellen der Trainingssprache-Äußerung ausgewählt wird, eine Fehlerkennung der Trainingssprache-Äußerung ergibt;

b) eine Einrichtung zum Erzeugen eines ersten Bewertungssignals, basierend auf die Trainingssprache- Äußerung, wobei das Kettenmodell für die Äußerung eine Vielzahl der Fließsprache-Erkennungsmodelle aus den zwei oder mehreren Fließsprache-Erkennungsmodellsätze umfaßt;

c) eine Einrichtung zum Erzeugen eines oder mehrerer zweiter Bewertungssignale, wobei ein zweites Bewertungssignal auf dem Trainingssprache- Äußerungssignal und einem Konfusionskettenmodell basiert;

d) eine Einrichtung zum Erzeugen eines Signals, welches einen Vergleich einer Wahrscheinlichkeit des richtigen Erkennens des Trainingssprache- Äußerungssignals und einer Wahrscheinlichkeit des falschen Erkennens des Trainingssprache-Äußerungssignals darstellt, wobei die Wahrscheinlichkeit der richtigen Erkennung des Trainingssprache-Äußerungssignals auf dem ersten Bewertungssignal und die Wahrscheinlichkeit der falschen Erkennung des Trainingssprache-Äußerungssignals auf dem einen oder den mehreren zweiten Bewertungssignalen beruhen; und

e) eine Einrichtung, die auf das Signal anspricht, welches den Vergleich der Wahrscheinlichkeit darstellt, werden ein oder mehrere der Fließsprache- Erkennungsmodelle modifiziert, um die Wahrscheinlichkeit zu erhöhen, daß ein Kettenmodell für die Äußerung eine Rangordnung bekommt, die höher ist als die der Konfusionskettenmodelle.

18. Trainer nach Anspruch 17, dadurch gekennzeichnet, daß die Einrichtungen zum Erzeugen eines Vergleichssignals Einrichtungen zum Bilden einer Differenz zwischen dem ersten Bewertungssignal und einer Kombination eines oder mehrerer zweiter Bewertungssignale bildet.

19. Trainer nach Anspruch 17, dadurch gekennzeichnet, daß die Einrichtungen zum Modifizieren eines oder mehrerer Fließsprache- Erkennungsmodelle folgende Merkmale umfaßt:

1. eine Einrichtung zum Erzeugen eines Modifikationssignals für ein Erkennungsmodell, welches einen Funktionsgradienten darstellt, wobei die Funktion, die eine Erkennungsbewertung einer Trainingssprache-Äußerung wiederspiegelt, auf einem Kettenmodell für diese Äußerung basiert, und ein oder mehrere Erkennungsbewertungen der Trainingssprache- Äußerung auf einem oder mehreren Konfusionskettenmodellen basieren; und

2. eine Einrichtung zum Anpassen eines oder mehrerer Fließsprache-Erkennungsmodelle, die auf dem Modifikationssignal basieren.

20. Spracherkennungssystem, welches folgende Merkmale umfaßt:

a) ein Merkmalextraktor (20) zum Empfangen eines unbekannten Sprachsignals und Erzeugen von Merkmalsignalen, welche das unbekannte Sprachsignal kennzeichnen;

b) ein Speicher (70) mit einer Vielzahl darin gespeicherter Spracherkennungsmodellsätzen, wobei ein oder mehrere Spracherkennungsmodelle gemäß einem Verfahren zum Modifizieren von Parametern vorbestimmter Spracherkennungsmodelle erzeugt werden, um die Wahrscheinlichkeit zu erhöhen, daß ein richtiges Kettenmodell eine Rangordnung aufweist, die höher ist als die eines oder mehrerer Konfusionskettenmodelle,

wobei jeweils wenigstens zwei der Spracherkennungsmodellsätze unterschiedlichen Sprachmerkmalen entsprechen und wobei die Konfusionskettenmodelle Modelle sind, die, wenn sie ausgewählt sind, um eine Trainingssprache-Äußerung darzustellen, eine Fehlerkennung der Trainingssprache- Äußerung ergeben,

und wobei die Modifikation der Parameter auf einen Vergleich einer Wahrscheinlichkeit des richtigen Erkennens einer Trainingssprache-Äußerung und einer Wahrscheinlichkeit der falschen Erkennung der Trainingssprache-Äußerung basiert, wobei die Wahrscheinlichkeit der richtigen Erkennung der Trainingssprache-Äußerung auf einem ersten Bewertungssignal basiert und die Wahrscheinlichkeit der falschen Erkennung der Trainingssprache-Äußerung auf einem oder mehreren zweiten Bewertungssignalen basiert,

das zuerst erzeugte Bewertungssignal basiert auf der Trainingssprache-Äußerung und einem Kettenmodell für diese Äußerung, wobei das Kettenmodell für die Äußerung eine Vielzahl von Spracherkennungsmodellen aus wenigstens den Spracherkennungsmodellsätzen umfaßt, und jedes der zweiten erzeugten Bewertungssignale basiert auf der Trainingssprache-Äußerung und einem der Konfusionskettenmodelle; und

c) ein Bewertungsprozessor (40, 50) ist mit dem Merkmalextraktor und dem Speicher verbunden, um ein Kettenmodell mit den Merkmalen des unbekannten Sprachsignals zu vergleichen, wobei das Kettenmodell ein oder mehrere Spracherkennungsmodelle jeweils aus der Vielzahl der Spracherkennungsmodellsätze umfaßt, und um das unbekannte Sprachsignal basierend auf einer Vielzahl von Kettenmodellen zu erkennen, die im Vergleich mit den Merkmalen des unbekannten Sprachsignals am besten übereinstimmen.