[go: up one dir, main page]

DE69422097T2 - Training von kombinierten Kettenmodellen mit minimaler Fehlerrate - Google Patents

Training von kombinierten Kettenmodellen mit minimaler Fehlerrate

Info

Publication number
DE69422097T2
DE69422097T2 DE69422097T DE69422097T DE69422097T2 DE 69422097 T2 DE69422097 T2 DE 69422097T2 DE 69422097 T DE69422097 T DE 69422097T DE 69422097 T DE69422097 T DE 69422097T DE 69422097 T2 DE69422097 T2 DE 69422097T2
Authority
DE
Germany
Prior art keywords
models
utterance
signal
chain
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69422097T
Other languages
English (en)
Other versions
DE69422097D1 (de
Inventor
Chou
Biing-Hwang Juang
Chin-Hui Lee
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Application granted granted Critical
Publication of DE69422097D1 publication Critical patent/DE69422097D1/de
Publication of DE69422097T2 publication Critical patent/DE69422097T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

    Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft im allgemeinen das Trainieren von Datenbanken mit Mustern und insbesondere das Trainieren von Sprachmusterdatenbanken für Sprachverarbeitungsaufgaben, z. B. Spracherkennung.
  • Hintergrund der Erfindung
  • Die Aufgabe von der Erkennung von Fließsprache besteht darin, eine zugrundeliegende Wortfolge aus einer Sprachäußerung zu identifizieren (d. h. zu erkennen). Die Erkennung wird mittels eines Satzes von Spracherkennungsmustern oder -modellen (nachstehend Modelle genannt) ausgeführt. Diese Basisspracherkennungsmodelle sind die Aufbaublöcke für Wörter und Wörterketten, z. B. Aussagen oder Sätze. In letzter Zeit wurden Forschungsanstrengungen auf das Problem konzentriert, wie diese Basisspracherkennungseinheiten für Fließspracherkennung auszuwählen und darzustellen ist.
  • Ein herkömmlicher Ansatz hinsichtlich des Fließspracherkennungsproblems besteht darin, daß statistische Mustererkennung mit akustischen Erkennungsmodellen, z. B. Schablonen oder versteckten Markov-Modelle (HMM) verwendet werden. Basierend auf einer lexikalischen Beschreibung einer Vokabel werden akustische Spracherkennungsmodelle vorgeschrieben und ihre Parameter dann statistisch durch einen Vorgang bestimmt, der als Trainieren bekannt ist. Die Basismodelle können ganze Wörter oder Teilwörter (z. B. Laute reflektieren, welche die akustische Darstellung von ausgesprochenen Phonemen sind). Eine Annahme, die bei diesem Ansatz zur Fließspracherkennung generell angenommen wird, besteht darin, daß eine flüssig gesprochene Wortfolge, d. h. eine Wortkette, durch eine lineare Verkettung von Basisspracherkennungsmodellen (von Wörtern oder Teilwörtern) gemäß der lexikalischen Übertragung der Wörter in die Kette adäquat dargestellt werden kann. Üblicherweise bedeutete dies eine Verkettung der Spracherkennungsmodelle, die direkt aus den Trainingszeichen (z. B. aus Wörtern) abgeschätzt wurden. Eine Verkettung akustischer Erkennungsmodelle bildet ein Modell der Wortkette und ist eine Art Wortkettenmodell. Bei einer Fließspracherkennung werden für eine gegebene Erkennungsaufgabe Mehrfachkettenmodelle hypothetisch angenommen. Jedes dieser Kettenmodelle wird mit einer zu erkennenden Fließsprachäußerung verglichen. Die Treffernähe jedes Vergleichs wird durch eine Erkennungsbewertung angezeigt. Das Kettenmodell, das der Fließsprachäußerung am nächsten ist, "erkennt" die Äußerung.
  • Ein weiterer üblicher Ansatz für die Fließsprachenerkennung ist die Erweiterung des Wortkettenmodells durch nicht akustische Erkennungsmodelle. Diese nicht akustischen Erkennungsmodell umfassen unter anderem Sprachmodelle, auf Laute basierende Modelle, semantische Modelle, syntaktische Modelle und andere Erkenntnisquellen (z. B. Tonhöhe, Betonung, Sprechgeschwindigkeit, Ton, Dauer usw.). Bei einem derartigen Lösungsansatz kann eine Wortkette aus einer Kombination aus akustischen Modellen, Sprachmodellen usw. erstellt werden. Die Erkennungsbewertung einzelner Modelle sind in einer Gesamtkettenmodellerkennungsbewertung eingebaut. Das Einbauen der Bewertung in eine Kettenmodellerkennungsbewertung wird z. B. durch eine gewichtete Summe einzelner Erkennungsbewertungen aus einzelnen Kettenmodellen erfüllt.
  • Gewöhnlich wird das Trainieren einzelner Erkennungsmodelle auf individueller Basis ausgeführt. Beim Trainieren akustischer Modelle wird z. B. die Trainingssprache in einzelne Trainingswortsprachproben- oder Teilworttrainingssprachproben geteilt. Individuelle akustische Modelle werden deshalb mit Trainingssprachproben trainiert, die aus einer längeren Trainingssprachäußerung isoliert worden sind. Außerdem werden akustische und andere Modelle individuell trainiert, während die Parameter, die zum Kombinieren derartiger Modelle für Zwecke der Spracherkennung benutzt werden, heuristisch ausgewählt werden können, d. h. getrennt und neben dem Training anderer Modelle.
  • Dieses gesamte individuelle Training regiert die Tatsache, daß derartige Modelle für Zwecke der Fließspracherkennung zusammen benutzt werden. Das heißt wie gut die Fließspracherkennung ist, bemißt sich danach, wie gut eine Kombination der Modelle (d. h. ein Kettenmodell) im Vergleich mit einer gänzlich unbekannten Kette ist. Eine Kombination von Modellen wird gegenüber einer weiteren ausgewählt, und zwar basierend darauf, wie gut jedes Kettenmodell an die unbekannte Wortkette in der Zusammensetzung angepaßt ist. Diese Anpassung an die Zusammensetzung kann als globale Kombinationsbewertung bezeichnet werden. Sollte eine Fließspracherkennungseinrichtung einen Fehler machen, tut sie es, basierend auf Vergleiche, die an einem globalen oder Kettenniveau durchgeführt wurden, an (und folglich nicht) auf der Ebene der individuellen Wortäußerung, bei denen die Modelle oder andere Informationsquellen trainiert worden sind. Wegen dieser Diskrepanz zwischen der Ebene des Trainierens und des Erkennens ist die Perfektion der Fließspracherkennung schlechter als gewünscht.
  • Die Erfindung betrifft ein Verfahren gemäß Anspruch 1, einen Spracherkennungstrainer gemäß Anspruch 17 und ein Spracherkennungssystem gemäß Anspruch 20. Bevorzugte Ausführungsformen der Erfindung werden in den unabhängigen Ansprüchen aufgeführt.
  • Zusammenfassung der Erfindung
  • Die vorliegende Erfindung stellt eine Technik bereit, die zum Trainieren von Spracherkennungsmodellen (inklusive akustischer Modelle, Sprachmodellen und anderen Erkenntnisquellen) auf einem globalen Kettenniveau geeignet ist, um so die Wortkettenerkennungsfehlerrate zu senken, d. h. zu minimieren. Die Erfindung liefert eine diskriminative Analyse zur Kettenmodell-Niveauanpassung.
  • Gemäß einer beispielhaften Ausführungsform der Erfindung wird ein Satz verwechselbarer Kettenmodelle erzeugt, die auf einer einzelnen von einer Trainingsdatenbank erhaltenen lexikalischen Kette basieren. Jedes Kettenmodell umfaßt eine Kombination aus akustischen Modellen und Sprachmodellen. Bei gegebener Trainigsketten-Sprachprobe aus der Trainingsdatenbank werden akustische, Sprach- und Kombinationsmodel-Parameter abgeschätzt, um so die Wahrscheinlichkeit zu erhöhen, daß das lexikalische Kettenmodell die beste Erkennungsbewertung aus dem Satz verwechselbarer Modelle darstellt. Auf diese Weise wird die Kettenerkennungsfehlerrate vermindert.
  • Die Parameterabschätzung, welche minimierte Kettenerkennungsfehlerrate bereitgestellt, wird durch den Einsatz einer speziell konstruierten Verlustfunktion erhalten. Diese Verlustfunktion gleicht die allophonischen Ketten-Niveau-Unterschiede bei den Sprachereknnungseinheitenmodellen aus, indem die in Konkurrenz stehenden Kettenmodelle in Betracht gezogen werden. Indem eine Beziehung zwischen dem Kettenmodellbewertungsunterschied und dem erwarteten Kettenerkennungsfehler hergestellt wird, die in Konkurrenz miteinander stehen, kann die Minimierung des erwarteten Fehlers direkt in Beziehung auf die Maximierung der Wahrscheinlichkeit zum Erhalten eines richtigen Bewertungsranges zwischen dem lexikalischen Kettenmodell und anderen verwechselbaren Kettenmodellen gezogen werden.
  • Beschreibung der Zeichnungen
  • Es zeigen:
  • Fig. 1 ein beispielhaftes Spracherkennungssystem gemäß der vorliegenden Erfindung,
  • Fig. 2 eine beispielhafte Ausführungsform einer verbesserten Trainingseinrichtung, die in Fig. 1 dargestellt ist,
  • Fig. 3 eine Ausführungsform des Kettenmodell- Aktualisierungsprozessors, der in Fig. 2 erscheint,
  • Detaillierte Beschreibung A. Beispielhafte Ausführungsform der Hardware
  • Für die Klarheit der Beschreibung wird die beispielhafte Ausführungsform der vorliegenden Erfindung mit einzelnen Funktionsblöcken (einschließlich den Funktionsblöcken, die als "Prozessoren" bezeichnet werden) dargestellt. Die Funktionen dieser dargestellten Blöcke kann durch den Einsatz entweder geteilter oder spezieller Hardware einschließlich, Hardware, die zum Ausführen der Software in der Lage ist, bereitgestellt werden, muß aber nicht darauf beschränkt sein. Beispielsweise können die Funktionen der Prozessoren, die in den Fig. 1, 2 oder 3 dargestellt werden, mittels eines einzigen "geteilten" Prozessors ausgeführt werden (der Gebrauch des Ausdrucks "Prozessor" soll sich nicht ausschließlich auf die Hardware beziehen, die in der Lage ist, Software auszuführen).
  • Beispielhafte Ausführungsformen können digitale Signalprozessorhardware (DSP), z. B. den DSP 16 oder DSP 32C von AT & T, Nur-Lesespeicher (ROM) zum Speichern der Software, welche die vorstehend erörterten Operationen ausführt, und einen Speicher mit direktem Zugriff (RAM) zum Speichern der DSP-Ergebnisse umfassen. Ferner können sowohl VLSI-Hardware-Ausführungsformen mit Integration im großen Maßstab, VLSI) als auch frei erhältliche VLSI-Schaltkreise in Verbindung mit einem Allzweck-DSP-Schaltkreis bereitgestellt werden.
  • B. Eine beispielhafte Ausführungsform
  • Die Spracherkennung ist ein Verfahren, bei welchem eine unbekannte Sprachäußerung (gewöhnlich in Form eines digitalen PCM-Signals) identifiziert wird. Im Wesentlichen wird die Spracherkennung durch Vergleich der Merkmale einer unbekannten Sprachäußerung mit den Merkmalen eines bekannten Wortes oder einer Wortkette verglichen.
  • Um eine unbekannte Äußerung zu erkennen, extrahiert eine Spracherkennungseinrichtung Merkmale aus der Äußerung, um diese zu charakterisieren. Die Merkmale der unbekannten Äußerung werden als Testmuster bezeichnet. Die Erkennungseinrichtung vergleicht dann Kombinationen eines oder mehrerer Referenzmuster in der Datenbank mit den Testmustern der unbekannten Äußerung. Eine Bewertungstechnik wird verwendet, um ein Relativmaß darüber bereitzustellen, wie gut jede Referenzmusterkombination mit den Testmustern übereinstimmt. Die unbekannte Äußerung wird als die Wortfolge erkannt, die der Kombination eines oder mehrerer Referenzmuster zugeordnet ist, die am meisten mit der unbekannten Äußerung übereinstimmt.
  • Fig. 1 stellt ein beispielhaftes Spracherkennungssystem 1 gemäß der vorliegenden Erfindung dar. Das System umfaßt eine Datenbank 10 für Trainingssprache, einen Merkmalsextrahierer 20, Mode-Schalter 15, 30, einen Bewertungsvergleicher 40, einen Bewertungsprozessor 50, eine herkömmliche HMM-Trainiereinrichtung 60, eine Erkennungsmodell-Parameterdatenbank 70, einen Generator 75 für das N-beste-Kettenmodell und eine verbesserte Trainiereinrichtung 80.
  • Die Datenbank 10 für Trainingssprachen des Systems 1 umfaßt Proben bekannter Sprachsignale in digitaler Form. Jedes Sprachsignal entspricht einer Kette oder Folge von einem oder mehreren gesprochenen Wörtern. Diese Proben werden für die herkömmliche bzw. verbesserte Trainiereinrichtung 60 bzw. 80 verwendet. Proben bekannter Sprachketten von einer Datenbank 10 werden für andere Komponenten des Systems 1 über den Mode-Schalter 15 bereitgestellt.
  • Der Mode-Schalter 15 spiegelt zwei Betriebsmoden des Systems 1 wieder, nämlich: eine Trainings-Mode (T) und eine Erkennungs-Mode (R). Wenn sich der Schalter 15 in der T- Stellung (oder Zustand) befindet, kann die Trainingssprache von der Datenbank 10 zum Rest des Systems 1 bereitgestellt werden, so daß das Training durch den Trainingsabschnitt 90 ausgeführt wird. Wenn sich der Schalter 15 in der R-Stellung befindet, werden unbekannte Sprachäußerungen (Signale) in digitaler Form dem Rest des Systems 1 für die Erkennung durch den Erkennungsabschnitt 95 zugeführt.
  • Der Merkmalextrahierer 20 des Systems 1 ist mit dem Mode-Schalter 15 verbunden. Abhängig von der Stellung des Mode-Schalters 15 empfängt der Extrahierer 20 entweder Trainings- oder unbekannte Sprachsignalketten. Basierend auf diesen empfangenen Sprachsignalen erzeugt der Extrahierer 20 einen oder mehrere Merkmalvektoren X, welche die empfangene Sprache charakterisieren. Der Merkmalextrahierer 20 kann ein konventioneller Merkmalextrahierer sein, z. B. ein Merkmalextrahierer mit Filterbank, ein Merkmalextrahierer mit linearer Vorhersage-Kodierung (LPC) oder ein Merkmalextrahierer mit diskreter Fourier-Transformation (DFT) sein.
  • Die Merkmalvektoren-Ausgangssignale des Extrahierers 20 werden einem zweiten Mode-Schalter 30 zugeführt. Dieser Mode- Schalter 30 arbeitet im Tandem mit dem Mode-Schalter 15. Das heißt, beide Schalter werden zur gleichen Zeit auf die gleiche Stellung - T oder R - gesetzt, und zwar basierend auf einem Mode-Signal, das an beiden Schaltern 15, 30 ansteht. Der Mode-Schalter 30 führt das Ausgangssignal des Extrahierers 20 entweder zum Erkennungs- oder zum Trainingsabschnitt des Systems 1.
  • Der Erkennungsabschnitt 95 des Systems 1 umfaßt einen Bewertungsvergleicher 40 und einen Bewertungsprozessor 50. Der Bewertungsvergleicher 40 ist herkömmlich. Der Vergleicher 40 bezieht ein Kettenmodell auf eine unbekannte Sprachsignalkette und bestimmt eine Bewertung, welche die Nähe oder Übereinstimmung des Vergleichs anzeigt. Die Kettenmodelle umfassen beispielsweise eine Kombination aus akustischen Kettenmodellen und Sprachkettenmodellen. Herkömmliche Bewertungsvergleicher für akustische und Sprachmodelle können für den Vergleicher 40 verwendet werden. Siehe z. B. Lee und Rabiner, A Frame Synchronous Network Search Algorithm for Connected Word Recognition, Band 37, No. 4, IEEE Trans, Acoust., Speech, and Sig. Pro., 1649-58 (1989).
  • Siehe ferner beispielsweise US-PS-4,783,804 mit dem Titel "Hidden Markov Model Speech Recognition Arrangement" welche gemeinsame Anmelder mit der vorliegenden Anmeldung haben. Die durch den Vergleicher 40 erzeugten Bewertungen werden dem Bewertungsprozessor 50 zugeführt. Der Bewertungsprozessor 50 bestimmt, welche der bereitgestellten Bewertungen den größten Wert aufweist und identifiziert die Wörterkette in Abhängigkeit mit dieser Bewertung. Die unbekannte Sprachsignalkette wird durch den Prozessor 50 als die bekannte Sprache erkannt, die dem identifizierten Kettenmodell zugeordnet ist. Der Prozessor 50 erhält Darstellungen der identifizierten Sprache für die Ausgabe aus der Modell-Parameterdatenbank 70 (siehe unten).
  • Der Trainingsabschnitt 90 des Systems 1 umfaßt eine herkömmliche HMM-Trainiereinrichtung 60, eine Modell- Parameterdatenbank 70, einen Generator 75 für das N-beste- Kettenmodell und eine verbesserte Trainiereinrichtung 80. Die HMM-Trainiereinrichtung 60, z. B. die, welche in der US-PS- 4,783,804 beschrieben wird, sorgt für die herkömmliches Trainieren der akustischen HMMs.
  • Die Modell-Parameterdatenbank 70 speichert eine Sammlung Λ = {Λ&sub1;, ..., Λn} von m Erkennungsmodellsätzen, die auf Akustik, Sprache usw. basieren. Bei der beispielhaften Ausführungsform der Erfindung ist
  • Λ = {ΛA, ΛL, ΛC}, wobei ΛA ein Satz akustischer Modelle, ΛL ein Satz von Sprachmodellen und ΛC ein kombiniertes Modell ist (ΛC umfaßt einen Parametersatz, der beim Kombinieren von ΛA und ΛL zum Bilden eines globalen Kettenmodells verwendet wird).
  • Das Ausgangssignal der Trainiereinrichtung 60 umfaßt einen Satz eines oder mehrerer herkömmlicher trainierter akustischer HMMs ΛA, sowie die Merkmalvektoren X der Trainingssprachketten, auf denen die HMM-Sätze basieren. Für die beispielhafte Ausführungsform der vorliegenden Erfindung ist der Trainingsgrad, der durch die herkömmliche Trainiereinrichtung 60 bereitgestellt wird, unwichtig. Tatsächlich braucht die herkömmliche Trainiereinrichtung 60 nicht mehr zu tun als einen Anfangssatz HMM-Parameter ΛI bereitzustellen (selbst wenn dies trivial ist), die vom ROM- Speicher wiedergewonnen werden können.
  • Das Ausgangssignal der Trainiereinrichtung 60, ΛA (0), wird in der Modell-Datenbank 70 für den Gebrauch durch den Generator 75 und die verbesserte Trainiereinrichtung 80 als Initialisierungsparameter aufgezeichnet. Die verbesserte Trainiereinrichtung 80 empfängt ΛI und X von der Datenbank 70 und gibt einen Satz verbesserter oder aktualisierter HMMs, ΛU zur Datenbank 70 zurück. Schließlich werden verbesserte Modelle ΛU dem Bewertungsvergleicher 40 während des Erkennungs-Mode zugeführt. Der Gebrauch verbesserter Modelle ΛU von dem Listenvergleicher 40 sorgt für eine verminderte Kettenerkennungs-Fehlerrate.
  • Der Generator 75 für das N-beste-Kettenmodell empfängt die Modelle ΛI sowie die Trainingssprachenketten X und erzeugt einen Satz Kettenmodelle, die in starker Konkurrenz zu dem lexikalischen Kettenmodell stehen. Diese konkurrierenden Kettenmodell liefern eine Basis für das diskriminative Trainieren der verbesserten Trainiereinrichtung 80.
  • Der Generator 75 erzeugt die N-besten (oder am meisten verwechselbaren (Kettenmodelle durch Bestimmen der N-besten (verwechselbaren) Wortketten und für jede dieser Wortkette die entsprechenden Kettenmodelle. Die Bestimmung der N-besten Wortketten wird durch den Einsatz eines modifizierten Viterbi-Dekoders von dem Typ vorgenommen, wie er in dem Aufsatz "A tree-trellis based fast search for finding N-best sentence hypotheses in continuous speech recognition, in Proc. ICASSP (1991) von F. K. Soong und E. F. Huang beschrieben wird. Dieser Dekoder erzeugt eine Karte mit Teilwegen, d. h. eine Liste aller Bewertungen (oder Maße) aller Teilwege, die zu einem beliebigen Grammatikknoten (d. h. einer Wortverbindung) zu allen Zeitpunkten führen. Am Grammatikknoten kann eine Bewertung für Unigramart- Sprachmodell hinzuaddiert werden. Beispielsweise kann ein Logarithmus einer Unigram-Wahrscheinlichkeit eines gegebenen Wortes zu einer Wegbewertung hinzugefügt werden, wenn der Weg den Endzustand des gegebenen Wortes erreicht. Am Ende der modifizierten Viterbi-Vorwärtssuche verwendet der Dekoder eine spurverfolgende A*-Baumverzweigungssuchmethode. Ein derartiges Verfahren wird in Proc. ICASSP, 1991, Seiten 705 bis 708, von F. K. Soong und E. F. Huang beschrieben. Der Generator 75 führt die Baumverzweigungssuche durch Wachsenlassen des obersten (besten) Teilweges aus, der sich an der Spitzseite eines "Stapels" (eine nach Rang geordnete Datenliste) befindet. Die Rangordnung aller Teilwege auf dem Stapel wird durch die bestmögliche Bewertung bestimmt, die ein Teilweg erreichen kann, wenn er vollständig ist. Die Teilwegkarte, die bei der nach vorne gerichteten Viterbi- Suche ausgearbeitet wird, liefert eine Bewertung für jeden unvollständigen Teilweg bei der rückwärtigen Baumverzweigungsuche. Aufgrund der "erstbesten" Natur der A*- Methode werden die oberen N-Ketten nacheinander erzeugt.
  • Die Zulässigkeit des A*-Algorithmus oder das sichere Auffinden des optimalen Weges bzw. der optimalen Wege ist garantiert, wenn eine obere Grenze des unvollständigen Teils eines Teilweges in dem Stapeldekoder verwendet wird, vorausgesetzt die Stapeltiefe ist tief genug, um Suchfehler zu vermeiden. Bei dem Dreitrellisalgorithmus wird die dichteste Obergrenze oder die tatsächliche Bewertung des Weges erhalten, wenn die gleichen HMM- und Sprachmodelle bei den Suchen entlang beider Richtungen verwendet werden. Daraus ergibt sich, daß die Sucheffizienz des Algorithmus maximiert wird und ein Stapel von N-Eingängen notwendig ist.
  • Der Generator 75 erzeugt die N-besten Kettenmodelle, basierend auf den N-besten Wortketten durch eine Viterbi- Ausrichtung der Eingabesprachkette X, und zwar in Abhängigkeit von den Modellsätzen für jede gegebene Wortkette in der N-besten Kettenliste. Dieser Schritt wird durch den Generator 75 ausgeführt, da es viele Kettenmodelle geben kann, die der gleichen Wortkette entsprechen, aber das Kettenmodell, das am besten mit der eingegebenen Äußerung für einen gegebenen Modellsatz übereinstimmt, ist einzigartig.
  • Es sei bemerkt, daß der Generator 75 die Fähigkeit zum Erstellen ungesehener in Konkurrenz stehender Ketten aufweist. Dies ist so aufgrund der Tatsache, daß in Konkurrenz stehende Wortketten, die durch die N-beste Dekodierung erzeugt werden, nicht durch das Trainingsmaterial begrenzt sind. Während eine Trainingsäußerung einer einzelnen Wortkette entspricht, ist die N-beste Kettenliste, die der Äußerung zugeordnet ist, dynamisch und spiegelt das Wiedergabeschärfeniveau des Kettenmodells basierend auf dem Spracherkennungseinheitenmodellsatz wieder. Die Basiserkennungseinheitenmodelle werden deshalb mittels Wortketten trainiert, die durch einen Generator für das N-beste Kettenmodell erzeugt werden. Diese Wortketten umfassen Wortketten, die nicht im Originaltrainingsmaterial vorhanden sind, aber deren Kettenmodelle die Erkennungseinrichtung als verwechselbar mit dem Kettenmodell der lexikalischen Kette erachtet. "Ungesehene" (erstmalig auftauchende) Wortketten, welche die Erkennungseinrichtung verwechselbar mit der lexikalischen Wortkette findet, werden diskriminativ modelliert. Deshalb kann die Modellabdeckung für die "ungesehenen" Ketten verbessert werden. Die Modellierung "ungesehener" Ketten kann nützlich sein, da derartiges Erzeugen die Schwierigkeiten vermindert, die bei der Fließspracherkennung aufgrund des schlechten Kettengeltungsbereiches des Trainingsmaterials auftreten.
  • Der vorstehend beschriebene Betrieb des Generators 75 kann wie folgt zusammengefaßt werden. Man nimmt an, daß S = W&sub1;,..., Wls eine beliebige Wortkette ist. Mit gegebenem Modellsatz Λ, welches akustische Modelle, Sprach- und andere Erkenntnisquellen umfaßt, ist die optimale Zustandsfolge ΘS eine Funktion des Merkmalvektors X und der Wortkette S. Die N-beste Kettenhypothese {S&sub1;, ..., SN} kann induktiv wie folgt definiert werden.
  • S&sub1; = arg [log (X, ΘS Λ) + log (S Λ]
  • Sk = [log (X, ΘS, S Λ) + log (S Λ]
  • wobei log (X, ΘS, S Λ) die akustische Modellbewertung und log (S Λ) die Sprachmodellbewertung und gemäß anderen Erkenntnisquellen darstellen. Beim Training mit minimaler Ketten-Fehlerrate werden diese akustischen Trainingssprachproben auf Kettenniveau in einen Satz diskriminanter Funktionen eingebaut, die speziell für die Darstellung von Kettenfehlern gestaltet sind. Dies wird durch den Betrieb der verbesserten Trainiereinrichtung 80 ausgeführt, wie nachstehend beschrieben.
  • Fig. 2 stellt eine beispielhafte Ausführungsform der verbesserten Trainiereinrichtung 80, die in Fig. 1 erscheint, dar. Die verbesserte Trainiereinrichtung 80 arbeitet an der Trainingssprache, die durch die Datenbank 70 bereitgestellt wird. Als Ergebnis des Betriebes der verbesserten Trainiereinrichtung 80 wird ein aktualisierter Satz von Erkennungsmodellen ΛU zurück zur Datenbank 70 gegeben. ΛU kann dann während des Erkennungs-Modes nacheinander als Referenzmustersatz der Erkennungseinrichtung 1 oder als ein neues Λ verwendet werden, das als Ergebnis der weiteren Verarbeitung des Λ oder von zusätzlicher Trainingssprache weiter aktualisiert werden soll.
  • Der Klarheit der Erläuterung und der Einfachheit der Berechnung wegen wird der Aktualisierungsprozessor 88 beispielhaft als Verarbeitung einer einzigen Trainingskette während des betrachteten Zeitraums beschrieben. Mit einer geringfügigen Modifikation, wie sie nachstehend beschrieben werden soll (siehe Diskussionsabschnitt), kann die Ausführungsform basierend auf verschiedenen Trainingssprachbeispielen das Λ aktualisieren.
  • Die verbesserte Trainiereinrichtung 80 (Fig. 2) umfaßt einen Prozessor 82 für das Maß der Ketten-Fehlkennung, einen Prozessor 84 für die Verlustfunktion des Kettenmodells 84 und einen Prozessor 88 für Aktualisierung des Kettenmodells.
  • 1. Prozessor für das Maß der Ketten-Fehlkennung
  • Der Prozessor 82 für das Maß der Ketten-Fehlkennung empfängt die Modelle Λ und ein Trainingssprachkettenbeispiel X von der Datenbank 70. Basierend auf das Kettenbeispiel X und Λ bestimmt der Prozessor 82 ein Kettenfehlkennungsmaß d(X, Λ):
  • wobei g(X, Slex, Λ&sub1;, ..., Λm) eine Erkennungsbewertung des eingegebenen Äußerungssignals X mit gegebenen Slex als richtige Kette ist;
  • g(X, Sk, Λ&sub1;, ..., Λm) eine Erkennungsbewertung für j ede in Konkurrenz stehende Kette ist. η eine positive Zahl ist, die beispielsweise auf 2 gesetzt ist; N die Gesamtzahl der in Konkurrenz stehenden Ketten ist, die durch den Generator 75 bereitgestellt werden; g kann beispielsweise die Form einer gewichteten Summe der Erkennungseinrichtungsbewertung sein:
  • g(X, S, Λ&sub1;, ..., Λm) = α&sub1;g&sub1;(X, S, Λ&sub1;)
  • + α&sub2;g&sub2;(X, S, Λ&sub2;) + ... + αmgm(X, S, Λm) (9)
  • oder im Fall der Ausführungsform
  • g(X, S, ΛA, ΛL, ΛC) = αAgA(X, S, ΛA) + αLgL (X, S, ΛL) (10)
  • wobei αA und αL Parameter des kombinierten Modells ΛC,
  • gA = log (X, ΘS, S ΛA), gL = log P(W&sub1;) + log P(Wτ Wτ-1), ΛL ein auf ein Bigram basierendes Sprachmodell, S eine geordnete Wortkette mit W&sub1;, W&sub2;, ..., Wn geordneten Wörtern, P(W) eine Wahrscheinlichkeit vom Unigram-Sprachmodell und P(Wτ Wτ-1) eine Wahrscheinlichkeit von einem Bigram-Sprachmodell sind.
  • Der Prozessor 82 für das Maß der Ketten-Fehlkennung bestimmt den Wert eines Skalars d für den Gebrauch durch die nachfolgenden, in Fig. 2 gezeigten, Prozessoren
  • 2. Prozessor für Kettenmodell-Verlustfunktion
  • Der Kettenmodell-Verlustfunktionsprozessor 84 bewertet eine glatte Kettenverlustfunktion 1, die auf dem Skalarwert, d(X,A) basiert, der vom Prozessor 82 kommend empfangen wird.
  • wobei γ beispielhaft auf 1 gesetzt ist und d&sub0; ein beispielsweise auf 0 gesetzter Bias-Ausdruck ist.
  • Der Prozessor 84 liefert einen Skalar 1 als Ausgangssignal am Kettenmodell-Aktualisierungsprozessor 88.
  • Die Parameter γ und η (vorstehend erörtert) helfen dabei, einen geglättete Annährung an die Kettenverlustfunktion 1 bereitzustellen. Der Gradient der Kettenverlustfunktion (11) wird von dem Kettenmodell- Aktualisierungsprozessor 88 dazu benutzt, die Modellparameter Λ zu aktualisieren. Deshalb ist die Minimierung des erwarteten Kettenverlustes dieser Verlustfunktion direkt mit der Minimierung der Kettenfehlerwahrscheinlichkeit verbunden. Der Bias-Parameter d&sub0; kann dazu verwendet werden, die Wirksamkeit der in Konkurrenz stehenden Kettenmodelle im Trainingsprozeß zu verbessern.
  • 3. Kettenmodell-Aktualisierungsprozessor
  • Fig. 3 stellt ein beispielhaftes Blockdiagramm des Kettenmodell-Aktualisierungsprozessors 88 dar. Wie in der Figur gezeigt, aktualisiert der Prozessor 88 die akustischen HMM-Parameter u, σ², c und a (Mittelwert, Varianz, gemischte Gewichtung und Übergangswahrscheinlichkeit, wie nachstehend ausführlicher erörtert), die Sprachmodellparameter P(Wj) und P(Wj Wj-1) und die kombinierten Modellparameter αi basierend auf Λ, X und l. Der Prozessor 88 gibt die aktualisierten Parameter ΛU zur Parameterdatenbank 70 zurück. Sowohl Λ als auch ΛU umfassen die Parameter u, σ², c, a, P (Wj), P(Wj Wj-1) und αi mit Λ und ΛU, welche die alten bzw. aktualisierten Werte darstellen.
  • Bevor eine detaillierte Beschreibung der Modellparameter, die durch den Prozessor 88 aktualisiert werden, vorgelegt wird, wird zuerst Hintergrundwissen einer Funktion offenbart.
  • Der erwartete Verlust, welcher der Kettenfehlerrate zugeordnet ist, ist gegeben durch:
  • L(Λ) = EX[l(X,Λ)] (12)
  • Beim Training mit minimaler Kettenfehlerrate ist es das Ziel, den erwarteten Verlust (12) über den Trainingsbeispielen zu minimieren. Der erwartete Verlust (12) kann durch die aktualisierten Modellparameter minimiert werden, so daß
  • Λn+1 = Λn - εnUn l(X,Λ), (13)
  • wobei seine Folge von Stufengrößenparametern und Un eine Folge von positiv definierten Matrizen ist, die nachstehend definiert werden. Die mittels (13) dargestellte Rekursion konvergiert zu einem festen Punkt des erwarteten Verlustes, und vorausgesetzt, daß &epsi;n = &infin; und &epsi;n² < &infin; ist.
  • Bei der beispielhaften Ausführungsform in Fig. 2 werden die Modelle A adaptiv gemäß (13) mit dem Aktualisierungsprozessor 88 eingestellt.
  • a. Akustische Modell-Aktualisierung
  • Aufgrund der Struktur der akustischen HMMs müssen deren Parameter bestimmten Vorgaben genügen. Der Kettenmodell- Aktualisierungsprozessor 88 verwendet transformierte HMM- Parameter als Teil des Aktualisierungsverfahrens der akustischen Modellparameter, um all diesen Vorgaben zu genügen. Die nachstehenden Transformationen werden vom Prozessor 88 angewendet: (1) Logarithmus der Varianz
  • wobei darstellen: &sigma;²i,j,k,d die Varianz des i-ten Modells der Erkennungseinheit, ein j-ter Zustand, eine k-te Mischungskomponente und eine d-te Dimension des Merkmalsvektors. Jedes Modell der Erkennungseinheit spiegelt beispielsweise ein Wort oder ein Teilwort wider.
  • (2) Transformierter Logarithmus der Mischungsgewichtungen
  • Die Originalmischungsgewichtungen ci,j,k beziehen sich auf die transformierten Mischungsgewichtungen i,j,k wie folgt:
  • wobei L die Gesamtzahl der Mischungsgewichtungen im j-ten Zustand in dem Modell der i-ten Erkennungseinheit ist.
  • (3) Transformierter Logarithmus der Übergangswahrscheinlichkeit
  • Die ursprünglichen Übergangswahrscheinlichkeiten ai,j beziehen sich auf die transformierten Übergangswahrscheinlichkeiten wie folgt:
  • wobei M die Gesamtzahl der Zustände im Modell der i-ten Erkennungseinheit ist.
  • Ein beachtenswerter Gesichtspunkt der beispielhaften Ausführungsform betrifft die Handhabung einer kleinen Varianz. Bei einigen korrigierenden Trainingsalgorithmen, die in der Vergangenheit vorgeschlagen worden sind, wird die Varianzeinstellung vermieden, da sie einen ungünstigen Effekt aufweisen kann, wenn sie falsch durchgeführt wird.
  • Varianzen in den HMMs können sich mehr als um das 10&sup4; bis 10&sup6;-fache unterscheiden. Diese Varianzen treten im Exponententeil der
  • Wahrnehmungswahrscheinlichkeitsdichtefunktion b (x) auf und haben eine dominante Wirkung bei der Wahrscheinlichkeitsbewertung der HMMs. Bei der beispielhaften Ausführungsform führt dies zu einer unterschiedlichen Empfindlichkeit bei den HMM-Parametereinstellungen, und zwar im Speziellen bei der Einstellung der Mittelwert-Parameter bei der Wahrnehmungswahrscheinlichkeitsdichtefunktion der HMMs.
  • Um diesen großen Unterschied hinsichtlich der Empfindlichkeit auszugleichen, verwendet die Ausführungsform eine positiv definierte Matrix Un. Die positiv definierte Matrix Un ist eine Diagonalmatrix:
  • diag(&alpha;²&sub1;(n), ..., &alpha;²D(n)) (17)
  • für jeden Zustand, wobei &sigma;²(n) die Varianz der HMM &Lambda;i zum Zeitpunkt n ist.
  • Hinsichtlich der Aktualisierungsausdrücke selbst umfaßt jeder einen Term &sub1;, wie vorstehend (13) beschrieben. Im Wesentlichen nimmt &sub1; die Form &part;l/&part;d(X,&Lambda;)·&part;d(X,&Lambda;)&part;&Lambda; an, wobei d(X,&Lambda;) in (8) definiert wird. Der Ausdruck &part;l/&part;d(X,&Lambda;) = li(1 - li) ist den Aktualisierungen gemeinsam und wird als Teilableitung dargestellt. Der Ausdruck &part;l/&part;d(X,&Lambda;). wird im Speziellen für jeden aktualisierten Modellparameter dargestellt.
  • Die Aktualisierungen der akustischen Modellparameter, die vom Aktualisierungsprozessor 88 bereitgestellt werden, lauten wie folgt: (4) Mittelwert-Aktualisierung
  • wobei xnn(d) die d-te Dimensionskomponente des Merkmalvektors xnn ist, Q dem Zeitrahmen entspricht, in dem der optimale Weg zuerst den Zustand j erreicht, &theta;j+1 dem Zeitrahmen entspricht, in welchem der optimale Weg den Zustand j+1 erreicht, l(X,&Lambda;) die Verlustfunktion ist, die gemäß (11) aufgebaut ist, &epsi;n die Stufengröße und
  • ist, wobei D die Größe des Merkmalvektors ist. Die Mittelwert-Aktualisierung wird durch den Block 88-1 in Fig. 3 bereitgestellt.
  • (5) Varianzaktualisierung
  • Die Aktualisierung = log&sigma;² wird gemäß der folgenden Formel ausgeführt:
  • wobei &gamma;i,j,k(xnn) wie in (19) definiert ist. Somit wird die Varianz zum Zeitpunkt n + 1 gegeben durch:
  • (n + 1) = e (21)
  • Die Varianz liegt fest bei 10&supmin;&sup6; und genügt der Bedingung
  • &sigma;²i,j,k,d(n) > 10&supmin;&sup6;. Die Varianzaktualisierung wird durch den Block 88-2 in Fig. 3 bereitgestellt.
  • (6) Aktualisierung der Mischungsgewichtung
  • Die parameterisierten Mischungsgewichtungen werden gemäß nachstehender Gleichung eingestellt:
  • wobei N(x,u,V) eine Normalverteilungsfunktion mit dem Mittelwert u und der Varianz V ist. Somit werden die Mischungsgewichtungen zum Zeitpunkt n+1 gegeben durch:
  • Somit erfüllen die eingestellten Mischungsgewichtungen die Vorgaben &Sigma;k ci,j,k (n) = 1 und ci,j,k(n) > 0 während des Trainingsprozesses. Die Aktualisierung der Mischungsgewichtungen wird durch Block 88-3 in Fig. 3 bereitgestellt.
  • (7) Aktualisierung der Zustandsübergangswahrscheinlichkeit:
  • Bei einem links-nach-rechts HMM wird die parameterisierte Übergangswahrscheinlichkeit des l-ten Wortmodells wie folgt eingestellt,
  • wobei g&sub1; die Wahrscheinlichkeitsbewertung von X in dem 1-ten Modell der Erkennungseinheit ist, und i nicht der Endzustand ist und die Gesamtzahl des Innenzustandes i des Selbstübergangs durch
  • N = {# von t (&theta;t-1, &theta;t) - (i, i) im n-ten Erkennungseinheitenmodell} (25)
  • bezeichnet wird. Folglich ist die Übergangswahrscheinlichkeit zum Zeitpunkt (n + 1) gegeben durch:
  • die wiederum den Vorgaben &Sigma;ja (n) = 1, a > 0 und a > 0 genügt.
  • Die Aktualisierung der Zustandsübergangswahrscheinlichkeit wird durch Block 88-4 der Fig. 3 bereitgestellt. Die Aktualisierungsausdrücke (20-23), die durch den Aktualisierungsprozessor 88 berechnet wurden, betreffen eine aktualisierte Funktion der Wahrnehmungswahrscheinlichkeitsdichte des i-ten akustischen HMM-Modells der Erkennungseinheit in dem j-ten Zustand, gemäß:
  • bi,j(x) = ci,j,k N(x, ui,j,k, Vi,j,k) (27)
  • wobei ci,j,k die Mischungsgewichtung und N (x, yi,j,k, Vi,j,k) eine D-dimensionale normale Gauss'sche Verteilung für das i-te Modell der Erkennungseinheit, des j-ten Zustandes und der k-ten Mischung mit einer diagonal Kovarianzmatrix Vi,j,k ist.
  • b. Aktualisierung des Sprachmodells
  • Für Sprachmodelle, wie akustische Modelle tritt die Aktualisierung in der Transformierungsdomäne auf.
  • Beispielsweise kann die folgende Transformation durch den Prozessor 88 verwendet werden: (1) Transformation der Wahrscheinlichkeit von dem Unigraxu-Sprachmodell
  • wobei N die Gesamtzahl der Wörter und (Wi) = log P(Wi) ist. (2) Transformation einer Wahrscheinlichkeit vom Bigram-Sprachmodell
  • wobei N die Gesamt zahl der Wörter und (Wi/Wj) = log P (Wi/Wj) ist.
  • Die Aktualisierungen der Sprachmodellparameter, die durch den Prozessor 88 ausgeführt werden, werden wie nachstehend ausgeführt.
  • Es sei: Slex = W ··· W ··· s&sub1; = W ... W , ..., sk = W , ..., W
  • die Wortketten im Fehlkennungsmaß (8), wobei Slex die lexikalische (oder richtige) Wortkette und &Sigma;i(i = 1, ...,N) N in Konkurrenz stehende Wortketten sind, die durch den Generator (75) für die N-beste Dekodierung bestimmt werden. (3) Aktualisierung der Unigram-Sprachmodellwahrscheinlichkeit
  • Die Aktualisierung der Unigram-Wahrscheinlichkeit wird durch Block 88-5 in Fig. 3 bereitgestellt. (4) Aktualisierung der Blagram-Sprachmodellwahrscheinlichkeit
  • Die Aktualisierung der Blagramm-Wahrscheinlichkeit wird durch Block 88-6 in Fig. 3 bereitgestellt.
  • c. Aktualisierung der Kombinationsmodellparameter Für die Kombinationsmodellparameter, wobei das Kettenmodell g(X,S,&Lambda;) = &alpha;igi(X,S,&Lambda;i) ist, wird die Aktualisierung wie folgt ausgeführt:
  • Die Aktualisierung der Kombinationsmodellparameter wird durch Block 88-7 in Fig. 3 ausgeführt.
  • Die Werte für u(n + 1), &sigma;²(n + 1), c(n + 1), a(n + 1), P(Wi) (n + 1), P(Wi Wj) (n + 1) und &alpha;i(n + 1) sind Ausgangssignale von den Blöcken 88-1 bis 88-7. Wie in Fig. 3 gezeigt, umfaßt &Lambda;U die aktualisierten Werte für u, &sigma;², c, a, Mittelwert, Varianz, gemischte Gewichtung, Übergangswahrscheinlichkeit P(Wi), P(Wi Wj) und &alpha;i.
  • Die Ausdrücke für die Parameteraktualisierung, die vorstehend bereitgestellt wurden, betreffen den Einsatz eines einzigen Sprachtrainingskettenbeispiels von der Datenbank 70, um die Modellparameter zu verbessern. Die verbesserte Trainingseinrichtung 80 kann jedoch die Vorgänge viele Male wiederholen, um die Modellparameter zu verbessern. Zum Beispiel kann die verbesserte Trainiereinrichtung 80 an allen Trainingskettenbeispielen in der Datenbank 70 arbeiten. Jedoch kann die Trainiereinrichtung 80, falls gewünscht, bei verschiedenen Durchläufen oder Runden durch die vollständige Datenbank 70 arbeiten. Die Trainiereinrichtung 80 kann so konstruiert sein, daß sie das Bearbeiten der Beispiele auf verschiedene beliebige Weisen anhalten kann. Die Trainiereinrichtung 80 kann z. B. anhalten, wenn sie eine feste von Rundenanzahl durch die Datenbank 70 der Beispiele ausgeführt hat. Es wird jedoch bevorzugt, daß die Trainiereinrichtung 80 ein Aufzeichnung der zusätzlichen Verbesserung bei der Kettenfehlerrate aufgrund der Bearbeitung aller Sprachtrainingsketten des aktuellen Durchlaufs erhält.
  • C. Diskussion
  • Während die akustischen Modelle der beispielhaften Ausführungsform im Speziellen HMMs umfassen, ist die vorliegende Erfindung bei Erkennungseinrichtungen anwendbar, die andere Typen akustischer Modelle verwenden, so z. B. eine auf Schablonen basierende akustische Erkennungseinrichtung, die eine dynamische Zeitverkettung oder -Verwertung (Warpings) als Bewertungsverfahren verwendet. Um die vorliegende Erfindung auf andere Erkennungseinrichtungstypen anzupassen, muß das Bewertungsverfahren, das als Funktion g in (8) dargestellt ist, geändert werden, um den Erkennungseinrichtungstyp wiederzuspiegeln. Diese Änderung spiegelt sich bei dem Modellaktualisierungsverfahren der Erkennungseinheit in dem Ausdruck 1 wieder.
  • Bei der vorstehend beschriebenen Ausführungsform wird jede Beispielkette der Trainingssprache nacheinander eingesetzt. Der Kettenmodell-Aktualisierungsprozessor 88 nimmt die durch die Erkennungseinrichtung bereitgestellte Information an der aktuellen Beispielkette und aktualisiert die Modellparameter gemäß der vorstehend bereitgestellten Aktualisierungsformeln. Die Rechenkomplexität des Prozessors 88 hängt hauptsächlich von der Form des Fehlerkennungsmaßes ab, welches bestimmt, wieviele in Konkurrenz stehende mögliche Kettenmodelle für die Modellparameterabschätzung verwendet werden.
  • Wie vorstehend beschrieben, arbeitet jede Wiederholung der verbesserten Trainiereinrichtung 80 an einem einzelnen Sprachtrainingsbeispiel. Jedoch ist es für die Trainierreinrichtung möglich, einen aktualisierten Satz Modellparameter &Lambda;U, basierend auf einer Vielzahl von Beispielen, bereitzustellen. Um dies durchzuführen arbeitet der Ketten-Fehlerkennungsvergleichsprozessor 82 an einem Vektor der Sprachkettenbeispiele, um einen Vektor für die Werte von d zu erhalten, wobei jeder Wert einem gegebenen Kettenbeispiel entspricht. Der Kettenmodell- Verlustfunktionsprozessor 84 empfängt den Vektor der d-Werte und erhält einen Vektor von l-Werten, die jeweils auf einem entsprechenden Wert von d basieren. Der Kettenmodell- Aktualisierungsprozessor 88 aktualisiert die Parameter, wie oben beschrieben, wobei jede Aktualisierung &Lambda;(n) bis &Lambda;(n + 1) durch ein einziges Sprachkettenbeispiel (der N-Kettenbeispiele) bereitgestellt wird. Jedoch werden alle Kettenbeispiele in einer Reihenfolge verwendet, so daß &Lambda;(n + 1), das sich aus der Bearbeitung eines Beispiels ergibt, als &Lambda;(n) zum Verarbeiten eines nachfolgenden Beispiels dient. Es sei bemerkt, daß bei der Aktualisierung &Lambda;, basierend auf Mehrfachkettenbeispiele, der Wert von &Lambda; auf der rechten Seite (18, 20, 22, 24, 30, 31 und 32) konstant bleibt. Nur nachdem alle Kettenbeispiele verarbeitet worden sind, ist I&Lambda; als &Lambda;U in der Datenbank aktualisiert.
  • Es sei bemerkt, daß die in (11) dargestellte Verlustfunktion lediglich ein Funktionstyp ist, der für die vorliegende Erfindung anwendbar ist. Andere Funktionstypen, z. B. die, die auf die hyperbolische Tangente basieren, sind auch anwendbar, d. h. l(d(X,&Lambda;)) = tanh(&gamma;d(X,&Lambda;)).
  • Der im Wesentlichen durch (13) und im Speziellen durch (18, 20, 22, 24, 30, 31 und 32) beschriebene Vorgang sorgt für die Identifikation eines örtlichen Minimums der Kettenverlustfunktion. Jedoch können herkömmliche Techniken zum Auffinden des globalen Minimums der Verlustfunktion, z. B. simuliertes Vergüten, angewendet werden.
  • Bei Betrachtung des Vorstehenden ist es einem gewöhnlichen Fachmann ersichtlich, daß die vorliegende Erfindung sowohl auf die vom Sprecher abhängige als auch auf die vom Sprecher unabhängige Spracherkennung anwendbar ist.
  • Obwohl die beispielhafte Ausführungsform der vorliegenden Erfindung Kettenmodelle betrifft, die linear kombinierte akustische und Sprachmodelle darstellen ist es einem gewöhnlichen Fachmann ersichtlich, daß die vorliegende Erfindung auf Kettenmodelle anwendbar ist, die andere/zusätzliche Erkenntnisquellen und Modelltypen verwenden, so z. B. semantische Modelle, phonetische Modelle, syntaktische Modelle usw. sowie andere Kombinationsmodelle, einschließlich nichtlinearer Kombinationsmodelle.

Claims (20)

1. Verfahren zur Herstellung einer Datenbank für ein Spracherkennungsmodell, basierend auf einem Äußerungssignal von Trainingssprache und auf einer Vielzahl von Erkennungsmodellen für fließende Sprache, mit folgenden Verfahrensschritten:
a) ein Satz von einem oder mehreren Konfusionskettenmodellen wird erzeugt, wobei ein Konfusionskettenmodell eine Vielzahl der Erkennungsmodelle für fließende Sprache aus zwei oder mehreren dieser Sätze von Fließsprache- Erkennungsmodellen umfaßt, wobei jeweils wenigstens zwei dieser Modellsätze unterschiedlichen Sprachmerkmalen entsprechen und das Konfusionskettenmodell ein Modell ist, welches, wenn es zum Darstellen der Trainingssprache-Äußerung ausgewählt wird, eine Fehlerkennung der Trainingssprache-Äußerung ergibt;
b) Basierend auf dem Trainingssprache- Äußerungssignal für diese Äußerung wird ein erstes Bewertungssignal erzeugt, wobei das Kettenmodell für die Äußerung eine Vielzahl der Fließsprache- Erkennungsmodellen aus den zwei oder mehreren Fließsprache-Erkennungsmodellsätze umfaßt;
c) ein oder mehrere zweite Bewertungssignale werden erzeugt, wobei ein zweites Bewertungssignal auf dem Trainingssprache-Äußerungssignal und einem Konfusionskettenmodell basiert;
d) ein Signal wird erzeugt, welches einen Vergleich einer Wahrscheinlichkeit des richtigen Erkennens des Trainingssprache-Äußerungssignals und einer Wahrscheinlichkeit des falschen Erkennens des Trainingssprache-Äußerungssignals darstellt, wobei die Wahrscheinlichkeit der richtigen Erkennung des Trainingssprache-Äußerungssignals auf dem ersten Bewertungssignal und die Wahrscheinlichkeit der falschen Erkennung des Trainingssprache-Äußerungssignals auf dem einen oder den mehreren zweiten Bewertungssignalen beruhen; und
e) basierend auf dem Signal, welches den Vergleich der Wahrscheinlichkeit darstellt, werden ein oder mehrere der Fließsprache-Erkennungsmodelle modifiziert, um die Wahrscheinlichkeit zu erhöhen, daß ein Kettenmodell für die Äußerung eine Rangordnung bekommt, die höher ist als die der Konfusionskettenmodelle.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das Erzeugen des Satzes eines oder mehrerer Konfusionskettenmodelle das Generieren von N-besten Wortkettenmodellen umfaßt.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das erste Bewertungssignal ein Maß der Ähnlichkeit zwischen dem Trainingssprache- Äußerungssignal und dem Kettenmodell für die Äußerung wiederspiegelt.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß das Maß der Ähnlichkeit eine Erkennungsbewertung mit logarithmischer Wahrscheinlichkeit umfaßt.
5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das zweite Bewertungssignal ein Maß der Ähnlichkeit zwischen dem Trainingssprache- Äußerungssignal und einem der Konfusionskettenmodelle wiederspiegelt.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß das Maß der Ähnlichkeit eine Erkennungsbewertung mit logarithmischer Wahrscheinlichkeit umfaßt.
7. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das Erzeugen eines Signals, welches einen Vergleich darstellt, das Bilden einer Differenz des ersten Bewertungssignals und einer Zusammensetzung eines oder mehrerer zweiter Bewertungssignale umfaßt.
8. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das Modifizieren eines oder mehrerer der Fließsprache-Erkennungsmodelle folgende Schritte umfaßt:
1. ein Modifikationssignal für ein Erkennungsmodell, welches einen Funktionsgradienten wiederspiegelt, wird erzeugt, wobei die Funktion, die eine Erkennungsbewertung einer Trainingssprache-Äußerung wiederspiegelt, auf einem Kettenmodell für diese Äußerung basiert, und ein oder mehrere Erkennungsbewertungen der Trainingssprache-Äußerung auf einem oder mehreren Konfusionskettenmodellen basieren; und
2. ein oder mehrere Fließsprache-Erkennungsmodelle, die auf dem Modifikationssignal basieren, werden eingestellt.
9. Verfahren nach Anspruch 8,
dadurch gekennzeichnet, daß die Funktion eine Differenz der Erkennungsbewertung einer Trainingssprache- Äußerung wiederspiegelt, basierend auf einem Kettenmodell für diese Äußerung und auf einer gewichteten Summe des einen oder von mehreren Erkennungsbewertungen der Trainingssprache-Äußerung, basierend auf einem oder mehreren Konfusionskettenmodellen.
10. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß einer der Sätze der Fließsprache-Erkennungsmodelle akustische Modelle umfaßt.
11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß die akustischen Modelle versteckte -heimliche- Markov-Modelle umfassen.
12. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß eines der Sätze der Fließsprache-Erkennungsmodelle Sprachmodelle umfaßt.
13. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß eines der Sätze der Fließsprache-Erkennungsmodelle Stimmlage-Modelle umfaßt.
14. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß eines der Sätze der Fließsprache-Erkennungsmodelle Energiemodelle umfaßt.
15. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß eines der Sätze der Fließsprache-Erkennungsmodelle Sprechgeschwindigkeitsmodelle umfaßt.
16. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß eines der Sätze der Fließsprache-Erkennungsmodelle Sprechdauermodelle umfaßt.
17. Spracherkennungstrainer zum Herstellen einer Datenbank für ein Spracherkennungsmodell, basierend auf einem Äußerungssignal von Trainingssprache und auf einer Vielzahl von Erkennungsmodellen für fließende Sprache, welcher folgende Merkmale umfaßt:
a) eine Einrichtung zum Erzeugen eines Satzes von einem oder mehreren Konfusionskettenmodellen, wobei ein Konfusionskettenmodell eine Vielzahl der Erkennungsmodelle für fließende Sprache aus zwei oder mehreren dieser Sätze von Fließsprache- Erkennungsmodellen umfaßt, wobei jeweils wenigstens zwei dieser Modellsätze unterschiedlichen Sprachmerkmalen entsprechen und das Konfusionskettenmodell ein Modell ist, welches, wenn es zum Darstellen der Trainingssprache-Äußerung ausgewählt wird, eine Fehlerkennung der Trainingssprache-Äußerung ergibt;
b) eine Einrichtung zum Erzeugen eines ersten Bewertungssignals, basierend auf die Trainingssprache- Äußerung, wobei das Kettenmodell für die Äußerung eine Vielzahl der Fließsprache-Erkennungsmodelle aus den zwei oder mehreren Fließsprache-Erkennungsmodellsätze umfaßt;
c) eine Einrichtung zum Erzeugen eines oder mehrerer zweiter Bewertungssignale, wobei ein zweites Bewertungssignal auf dem Trainingssprache- Äußerungssignal und einem Konfusionskettenmodell basiert;
d) eine Einrichtung zum Erzeugen eines Signals, welches einen Vergleich einer Wahrscheinlichkeit des richtigen Erkennens des Trainingssprache- Äußerungssignals und einer Wahrscheinlichkeit des falschen Erkennens des Trainingssprache-Äußerungssignals darstellt, wobei die Wahrscheinlichkeit der richtigen Erkennung des Trainingssprache-Äußerungssignals auf dem ersten Bewertungssignal und die Wahrscheinlichkeit der falschen Erkennung des Trainingssprache-Äußerungssignals auf dem einen oder den mehreren zweiten Bewertungssignalen beruhen; und
e) eine Einrichtung, die auf das Signal anspricht, welches den Vergleich der Wahrscheinlichkeit darstellt, werden ein oder mehrere der Fließsprache- Erkennungsmodelle modifiziert, um die Wahrscheinlichkeit zu erhöhen, daß ein Kettenmodell für die Äußerung eine Rangordnung bekommt, die höher ist als die der Konfusionskettenmodelle.
18. Trainer nach Anspruch 17, dadurch gekennzeichnet, daß die Einrichtungen zum Erzeugen eines Vergleichssignals Einrichtungen zum Bilden einer Differenz zwischen dem ersten Bewertungssignal und einer Kombination eines oder mehrerer zweiter Bewertungssignale bildet.
19. Trainer nach Anspruch 17, dadurch gekennzeichnet, daß die Einrichtungen zum Modifizieren eines oder mehrerer Fließsprache- Erkennungsmodelle folgende Merkmale umfaßt:
1. eine Einrichtung zum Erzeugen eines Modifikationssignals für ein Erkennungsmodell, welches einen Funktionsgradienten darstellt, wobei die Funktion, die eine Erkennungsbewertung einer Trainingssprache-Äußerung wiederspiegelt, auf einem Kettenmodell für diese Äußerung basiert, und ein oder mehrere Erkennungsbewertungen der Trainingssprache- Äußerung auf einem oder mehreren Konfusionskettenmodellen basieren; und
2. eine Einrichtung zum Anpassen eines oder mehrerer Fließsprache-Erkennungsmodelle, die auf dem Modifikationssignal basieren.
20. Spracherkennungssystem, welches folgende Merkmale umfaßt:
a) ein Merkmalextraktor (20) zum Empfangen eines unbekannten Sprachsignals und Erzeugen von Merkmalsignalen, welche das unbekannte Sprachsignal kennzeichnen;
b) ein Speicher (70) mit einer Vielzahl darin gespeicherter Spracherkennungsmodellsätzen, wobei ein oder mehrere Spracherkennungsmodelle gemäß einem Verfahren zum Modifizieren von Parametern vorbestimmter Spracherkennungsmodelle erzeugt werden, um die Wahrscheinlichkeit zu erhöhen, daß ein richtiges Kettenmodell eine Rangordnung aufweist, die höher ist als die eines oder mehrerer Konfusionskettenmodelle,
wobei jeweils wenigstens zwei der Spracherkennungsmodellsätze unterschiedlichen Sprachmerkmalen entsprechen und wobei die Konfusionskettenmodelle Modelle sind, die, wenn sie ausgewählt sind, um eine Trainingssprache-Äußerung darzustellen, eine Fehlerkennung der Trainingssprache- Äußerung ergeben,
und wobei die Modifikation der Parameter auf einen Vergleich einer Wahrscheinlichkeit des richtigen Erkennens einer Trainingssprache-Äußerung und einer Wahrscheinlichkeit der falschen Erkennung der Trainingssprache-Äußerung basiert, wobei die Wahrscheinlichkeit der richtigen Erkennung der Trainingssprache-Äußerung auf einem ersten Bewertungssignal basiert und die Wahrscheinlichkeit der falschen Erkennung der Trainingssprache-Äußerung auf einem oder mehreren zweiten Bewertungssignalen basiert,
das zuerst erzeugte Bewertungssignal basiert auf der Trainingssprache-Äußerung und einem Kettenmodell für diese Äußerung, wobei das Kettenmodell für die Äußerung eine Vielzahl von Spracherkennungsmodellen aus wenigstens den Spracherkennungsmodellsätzen umfaßt, und jedes der zweiten erzeugten Bewertungssignale basiert auf der Trainingssprache-Äußerung und einem der Konfusionskettenmodelle; und
c) ein Bewertungsprozessor (40, 50) ist mit dem Merkmalextraktor und dem Speicher verbunden, um ein Kettenmodell mit den Merkmalen des unbekannten Sprachsignals zu vergleichen, wobei das Kettenmodell ein oder mehrere Spracherkennungsmodelle jeweils aus der Vielzahl der Spracherkennungsmodellsätze umfaßt, und um das unbekannte Sprachsignal basierend auf einer Vielzahl von Kettenmodellen zu erkennen, die im Vergleich mit den Merkmalen des unbekannten Sprachsignals am besten übereinstimmen.
DE69422097T 1993-07-22 1994-07-13 Training von kombinierten Kettenmodellen mit minimaler Fehlerrate Expired - Lifetime DE69422097T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US9614293A 1993-07-22 1993-07-22

Publications (2)

Publication Number Publication Date
DE69422097D1 DE69422097D1 (de) 2000-01-20
DE69422097T2 true DE69422097T2 (de) 2000-08-24

Family

ID=22255736

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69422097T Expired - Lifetime DE69422097T2 (de) 1993-07-22 1994-07-13 Training von kombinierten Kettenmodellen mit minimaler Fehlerrate

Country Status (5)

Country Link
US (1) US5606644A (de)
EP (1) EP0635820B1 (de)
JP (1) JP3672595B2 (de)
CA (1) CA2126380C (de)
DE (1) DE69422097T2 (de)

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5737723A (en) * 1994-08-29 1998-04-07 Lucent Technologies Inc. Confusable word detection in speech recognition
US5832430A (en) * 1994-12-29 1998-11-03 Lucent Technologies, Inc. Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification
US5845246A (en) * 1995-02-28 1998-12-01 Voice Control Systems, Inc. Method for reducing database requirements for speech recognition systems
JP3535292B2 (ja) * 1995-12-27 2004-06-07 Kddi株式会社 音声認識システム
US6076054A (en) * 1996-02-29 2000-06-13 Nynex Science & Technology, Inc. Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition
US5842165A (en) * 1996-02-29 1998-11-24 Nynex Science & Technology, Inc. Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes
US5895448A (en) * 1996-02-29 1999-04-20 Nynex Science And Technology, Inc. Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose
US5870706A (en) * 1996-04-10 1999-02-09 Lucent Technologies, Inc. Method and apparatus for an improved language recognition system
US6167377A (en) * 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
US6076057A (en) * 1997-05-21 2000-06-13 At&T Corp Unsupervised HMM adaptation based on speech-silence discrimination
US6012027A (en) * 1997-05-27 2000-01-04 Ameritech Corporation Criteria for usable repetitions of an utterance during speech reference enrollment
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US5963902A (en) * 1997-07-30 1999-10-05 Nynex Science & Technology, Inc. Methods and apparatus for decreasing the size of generated models trained for automatic pattern recognition
US5950158A (en) * 1997-07-30 1999-09-07 Nynex Science And Technology, Inc. Methods and apparatus for decreasing the size of pattern recognition models by pruning low-scoring models from generated sets of models
US6076058A (en) * 1998-03-02 2000-06-13 Lucent Technologies Inc. Linear trajectory models incorporating preprocessing parameters for speech recognition
US6182039B1 (en) * 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6076053A (en) * 1998-05-21 2000-06-13 Lucent Technologies Inc. Methods and apparatus for discriminative training and adaptation of pronunciation networks
US6233553B1 (en) * 1998-09-04 2001-05-15 Matsushita Electric Industrial Co., Ltd. Method and system for automatically determining phonetic transcriptions associated with spelled words
DE19842151A1 (de) * 1998-09-15 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Adaption von linguistischen Sprachmodellen
US6922669B2 (en) * 1998-12-29 2005-07-26 Koninklijke Philips Electronics N.V. Knowledge-based strategies applied to N-best lists in automatic speech recognition systems
US6574596B2 (en) * 1999-02-08 2003-06-03 Qualcomm Incorporated Voice recognition rejection scheme
GB9920257D0 (en) * 1999-08-26 1999-10-27 Canon Kk Signal processing system
US7149690B2 (en) 1999-09-09 2006-12-12 Lucent Technologies Inc. Method and apparatus for interactive language instruction
KR100307623B1 (ko) * 1999-10-21 2001-11-02 윤종용 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치
US6847734B2 (en) * 2000-01-28 2005-01-25 Kabushiki Kaisha Toshiba Word recognition method and storage medium that stores word recognition program
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
EP1199704A3 (de) * 2000-10-17 2003-10-15 Philips Intellectual Property & Standards GmbH Auswahl der alternativen Wortfolgen für diskriminative Anpassung
US7400712B2 (en) * 2001-01-18 2008-07-15 Lucent Technologies Inc. Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access
US6754627B2 (en) * 2001-03-01 2004-06-22 International Business Machines Corporation Detecting speech recognition errors in an embedded speech recognition system
US20030225719A1 (en) * 2002-05-31 2003-12-04 Lucent Technologies, Inc. Methods and apparatus for fast and robust model training for object classification
US7149687B1 (en) * 2002-07-29 2006-12-12 At&T Corp. Method of active learning for automatic speech recognition
US8959019B2 (en) * 2002-10-31 2015-02-17 Promptu Systems Corporation Efficient empirical determination, computation, and use of acoustic confusability measures
US7117153B2 (en) * 2003-02-13 2006-10-03 Microsoft Corporation Method and apparatus for predicting word error rates from text
US20060235698A1 (en) * 2005-04-13 2006-10-19 Cane David A Apparatus for controlling a home theater system by speech commands
US7680659B2 (en) * 2005-06-01 2010-03-16 Microsoft Corporation Discriminative training for language modeling
CN101416237B (zh) * 2006-05-01 2012-05-30 日本电信电话株式会社 基于源和室内声学的概率模型的语音去混响方法和设备
WO2007142102A1 (ja) * 2006-05-31 2007-12-13 Nec Corporation 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
WO2008105263A1 (ja) * 2007-02-28 2008-09-04 Nec Corporation 重み係数学習システム及び音声認識システム
US7844456B2 (en) * 2007-03-09 2010-11-30 Microsoft Corporation Grammar confusability metric for speech recognition
US7925505B2 (en) * 2007-04-10 2011-04-12 Microsoft Corporation Adaptation of language models and context free grammar in speech recognition
US8275615B2 (en) * 2007-07-13 2012-09-25 International Business Machines Corporation Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
CN101785050B (zh) * 2007-07-31 2012-06-27 富士通株式会社 语音识别用对照规则学习系统以及语音识别用对照规则学习方法
GB2453366B (en) * 2007-10-04 2011-04-06 Toshiba Res Europ Ltd Automatic speech recognition method and apparatus
TWI372384B (en) * 2007-11-21 2012-09-11 Ind Tech Res Inst Modifying method for speech model and modifying module thereof
US8843370B2 (en) * 2007-11-26 2014-09-23 Nuance Communications, Inc. Joint discriminative training of multiple speech recognizers
JP5572624B2 (ja) * 2008-07-03 2014-08-13 グーグル・インコーポレーテッド 機械翻訳に対するパラメータの最適化
WO2010086044A1 (en) * 2009-01-30 2010-08-05 Siemens Aktiengesellschaft Measurement of vibration characteristics of an object
KR20110006004A (ko) * 2009-07-13 2011-01-20 삼성전자주식회사 결합인식단위 최적화 장치 및 그 방법
US8438028B2 (en) * 2010-05-18 2013-05-07 General Motors Llc Nametag confusability determination
US8965763B1 (en) * 2012-02-02 2015-02-24 Google Inc. Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
US8374865B1 (en) 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US8805684B1 (en) 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8554559B1 (en) 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US9123333B2 (en) 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
US10297250B1 (en) * 2013-03-11 2019-05-21 Amazon Technologies, Inc. Asynchronous transfer of audio data
US9317736B1 (en) * 2013-05-08 2016-04-19 Amazon Technologies, Inc. Individual record verification based on features
US9159317B2 (en) * 2013-06-14 2015-10-13 Mitsubishi Electric Research Laboratories, Inc. System and method for recognizing speech
US9026431B1 (en) * 2013-07-30 2015-05-05 Google Inc. Semantic parsing with multiple parsers
US8868409B1 (en) * 2014-01-16 2014-10-21 Google Inc. Evaluating transcriptions with a semantic parser
KR102386854B1 (ko) 2015-08-20 2022-04-13 삼성전자주식회사 통합 모델 기반의 음성 인식 장치 및 방법
CN110675864A (zh) * 2019-09-12 2020-01-10 上海依图信息技术有限公司 一种语音识别方法及装置
CN111883172B (zh) * 2020-03-20 2023-11-28 珠海市杰理科技股份有限公司 用于音频丢包修复的神经网络训练方法、装置和系统
JP7508409B2 (ja) * 2021-05-31 2024-07-01 株式会社東芝 音声認識装置、方法およびプログラム
CN113707134B (zh) * 2021-08-17 2024-05-17 北京搜狗科技发展有限公司 一种模型训练方法、装置和用于模型训练的装置
CN115512696B (zh) * 2022-09-20 2024-09-13 中国第一汽车股份有限公司 模拟训练方法及车辆
CN117238276B (zh) * 2023-11-10 2024-01-30 深圳市托普思维商业服务有限公司 一种基于智能化语音数据识别的分析纠正系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4882759A (en) * 1986-04-18 1989-11-21 International Business Machines Corporation Synthesizing word baseforms used in speech recognition
US5129001A (en) * 1990-04-25 1992-07-07 International Business Machines Corporation Method and apparatus for modeling words with multi-arc markov models
US5202952A (en) * 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5293451A (en) * 1990-10-23 1994-03-08 International Business Machines Corporation Method and apparatus for generating models of spoken words based on a small number of utterances
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
US5222146A (en) * 1991-10-23 1993-06-22 International Business Machines Corporation Speech recognition apparatus having a speech coder outputting acoustic prototype ranks
US5280563A (en) * 1991-12-20 1994-01-18 Kurzweil Applied Intelligence, Inc. Method of optimizing a composite speech recognition expert

Also Published As

Publication number Publication date
CA2126380C (en) 1998-07-07
JPH07152394A (ja) 1995-06-16
EP0635820A1 (de) 1995-01-25
JP3672595B2 (ja) 2005-07-20
US5606644A (en) 1997-02-25
DE69422097D1 (de) 2000-01-20
CA2126380A1 (en) 1995-01-23
EP0635820B1 (de) 1999-12-15

Similar Documents

Publication Publication Date Title
DE69422097T2 (de) Training von kombinierten Kettenmodellen mit minimaler Fehlerrate
DE69634784T2 (de) Unterscheidende Verifizierung von Äusserungen für die Erkennung zusammenhängender Ziffern
DE69322894T2 (de) Lernverfahren und Gerät zur Spracherkennung
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69816177T2 (de) Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen
DE69518723T2 (de) Verminderung des Suchraumes bei Spracherkennung unter Verwendung von Phonemgrenzen und Phonemklassen
DE69613338T2 (de) Verfahren und system zur mustererkennung mittels baumstrukturierten wahrscheinlichkeitsdichten
DE69315374T2 (de) Spracherkennungssystem zur naturgetreuen Sprachübersetzung
DE69831114T2 (de) Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
DE69420842T2 (de) Spracherkennung unter anwendung einer zweidurchgängigen suchmethode
DE69229124T2 (de) Mehrteiliger expertsystem
EP0925579B1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE69225371T2 (de) Schlüsselwörtererkennung in einem zusammenhängenden Text mittels zweier &#34;Hidden Markov&#34; Modelle
DE69225173T2 (de) Spracherkennungsgerät
DE69807765T2 (de) Kombination von Frequenzverzerrung und spektraler Formung in einem HMM - basierten Spracherkenner
DE69318447T2 (de) Erkennungssystem
DE102008017993B4 (de) Sprachsuchvorrichtung
DE69420891T2 (de) Mustererkennung mit Baumstruktur für Referenzmustermerkmalsvektoren oder für &#34;HMM&#34;
DE69707876T2 (de) Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung
DE3874049T2 (de) Schnelle anpassung eines spracherkenners an einen neuen sprecher auf grund der daten eines referenzsprechers.
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69615667T2 (de) Spracherkennung
DE69414752T2 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
DE69829187T2 (de) Halbüberwachte Sprecheradaptation

Legal Events

Date Code Title Description
8364 No opposition during term of opposition