[go: up one dir, main page]

DE69318447T2 - Erkennungssystem - Google Patents

Erkennungssystem

Info

Publication number
DE69318447T2
DE69318447T2 DE69318447T DE69318447T DE69318447T2 DE 69318447 T2 DE69318447 T2 DE 69318447T2 DE 69318447 T DE69318447 T DE 69318447T DE 69318447 T DE69318447 T DE 69318447T DE 69318447 T2 DE69318447 T2 DE 69318447T2
Authority
DE
Germany
Prior art keywords
vectors
feature vector
feature
probabilities
orthogonal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69318447T
Other languages
English (en)
Other versions
DE69318447D1 (de
Inventor
Tsuneo Nitta
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of DE69318447D1 publication Critical patent/DE69318447D1/de
Application granted granted Critical
Publication of DE69318447T2 publication Critical patent/DE69318447T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf ein Erkennungssystem zum Erkennen eines in Form einer Sprache, eines Bildes oder dergleichen eingegebenen Signals und insbesondere auf ein Erkennungssystem, in dem zur Erkennung Hidden- Markov-Modelle (HMMs) verwendet werden.
  • In den letzten Jahren war die Spracherkennung mit einem diskreten HMM-Schema erfolgreich. Bei dieser Erkennung wird ein Sprachsignal durch eine Vektorquantisierung in eine vorbestimmte Codesequenz umgewandelt und auf der Basis einer Ähnlichkeit zwischen der Codesequenz und diskreten HMMs erkannt. Das diskrete HMM-Schema weist jedoch einen Nachteil auf, daß die Erkennungsrate durch Quantisierungsfehler gesenkt wird, die in der Vektorquantisierung auftreten.
  • Ein HMM-Schema mit stetiger Dichte (CDHMM) wurde entwikkelt, um die Quantisierungsfehler zu reduzieren. Bei der Spracherkennung dieses Schemas wird ein Sprachsignal durch Verwenden von CDHMMs erkannt, die für vorbestimmte Kategorien (Worte oder Phoneme) vorgesehen sind. Das CDHMM ist als ein Übergangsnetzwerkmodell definiert, das aus Zuständen mit jeweils einem Durchschnittsvektor u(k,s) und einer Kovananzmatrix C(k,s) besteht, wobei k eine Kategorie bezeichnet und s einen Zustand bezeichnet. Angenommen, die CDHMM- Spracherkennung werde für einen Ticketautomaten verwendet, in den Sprachsignale eingegeben werden, um Zielorte zu benennen. In diesem Fall entsprechen Worte, wie z.B. "TOKYO", "NAGOYA", "OSAKA" und dergleichen, den Kategorien, und Phoneme "T", "O", "K", "Y" und "O" entsprechen den Zuständen eines Netzwerkmodells für "TOKYO". Fig. 1 stellt ein typisches Übergangsnetzwerkmodell dar, das aus N Zuständen S&sub1;, S&sub2;,..., SN besteht. Der Anfangszustand S&sub1; ist am linken Ende des Übergangsnetzwerkmodells dargestellt, und der Endzustand SN ist am rechten Ende des Übergangsnetzwerkmodells dargestellt. In diesem Netzwerkmodell geht jeder Zustand mit einer bestimmten Wahrscheinlichkeit (Übergangswahrscheinlichkeit) in einen nächsten Zustand über, und ein merkmalvektor wird beim Übergang, außer für einen Nullübergang in den gleichen Zustand, mit einer bestimmten Wahrscheinlichkeit (Ausgabewahrscheinlichkeit) ausgegeben. Ein solches Netzwerkmodell wird "Hidden"-Markov-Modell genannt, weil nur eine Sequenz von Ausgabemerkmalvektoren beobachtbar ist.
  • In der CDHMM-Spracherkennung weist das Modell zwei Parameter von Übergangswahrscheinlichkeiten p(k,i,j) und Ausgabewahrscheinlichkeiten g(k,i,j) auf, wobei gelten:
  • p(k,i,j): Wahrscheinlichkeit eines Übergangs eines Zustands Si in einen nächsten Zustand Sj in einem Modell einer Kategorie k, und
  • g(k,i,j) : Wahrscheinlichkeit einer Ausgabe eines Merkmalvektors x beim Übergang vom Zustand Si in den Zustand Sj im Modell der Kategorie k.
  • Falls angenommen wird, daß der gleiche Merkmalvektor in einer Eigenschleife (engl. self-loop) von Si nach Si und beim Übergang von Si nach Sj ausgegeben wird, kann g(k,i,j) unter Verwendung eines Zustandes s als g(k,s) ausgedrückt werden. Der Einfachheit halber wird in der folgenden Beschreibung g(k,s) verwendet. Ein Sprachsignal wird erkannt, indem eine bedingte Wahrscheinlichkeit Pr(X M) jedes Modells M erhalten wird, das eine Merkmalvektorsequenz X = x1, x2, ... ausgibt, und die erhaltene bedingte Wahrscheinlichkeit ausgewertet wird.
  • Fig. 2 zeigt ein herkömmliches CDHMM-Spracherkennungssystem.
  • In diesem System extrahiert ein Merkmalextraktor 11 eine Sequenz von Merkmalvektoren x aus einer Eingabesprache. Ein Schaltteil SW wird geschaltet, um in einem Erkennungsmodus die Merkmalvektorsequenz X an einen CDHMM-Prozessor 12 zu liefern. Der CDHMM-Prozessor 12 liest Durchschnittsvektoren u(k,s) und Kovarianzmatrizen C(k,s) aus, die für Kategorien k und Zustände 5 vorgesehen und in einem Speicherteil 13 gespeichert sind, und definiert auf der Basis der ausgelesenen Durchschnittsvektoren u(k,s) und der Kovarianzmatrizen C(k,s) CDHMMs der Kategorien k. Im einzelnen berechnet der CDHMM-Prozessor 12 zu Anfang die folgende Gleichung (1), um Werte g (k,s) für die Zustände jedes Modells M zu erhalten.
  • In Gleichung (1) stellt P(k) einen festen Wert der Wahrscheinlichkeit dar, daß eine Kategorie k erscheint, stellt T eine Transposition und C&supmin;¹(k,s) eine inverse Matrix von C(k,s) dar. Der CDHMM-Prozessor 12 akkumuliert die erhaltenen Werte g(k,s) entlang der Zeitachse mittels eines bekannten Viterbi-Algorithmus (z.B. Seiichi Nakagawa, "Speech Recognition by Probability Models", Institute of Electronic and Communication Engineers of Japan, 3.1.3-(c), S. 44 - 46), um eine bedingte Wahrscheinlichkeit Pr(X M) jedes Modells M zu erhalten. Ein Diskriminator 15 erzeugt ein Erkennungsergebnis, das ein Modell M angibt, dessen bedingte Wahrscheinlichkeit Pr(X M) maximiert ist.
  • Der Schaltteil SW wird geschaltet, um in einem Trainings- bzw. Schulungsmodus eine Merkmalvektorsequenz X an einen Schulungsteil 14 zu liefern. Der Schulungsteil 14 schätzt u(k,s) und C(k,s) der Merkmalvektorsequenz X, die zum Bestimmen der Parameter (d.h. p(k,i,j) und g(k,s)) des Modells M erforderlich sind, dessen Wahrscheinlichkeit Pr(X M) maximiert ist. Diese Parameterschätzung kann mittels eines bekannten Vorwärts-Rückwärts-Algorithmus durchgeführt werden (z.B. Seiichi Nakagawa, "Speech Recognition by Probability Models", Institute of Electronic and Communication Engineers of Japan, 3.3.2, S. 69 - 73).
  • Wie oben beschrieben wurde, führt der CDHMM-Prozessor 12 die oben erwähnte Verarbeitung an einer Merkmalvektorsequenz einer ausgesprochenen Spracheingabe durch, und der Diskriminator 15 unterscheidet die Kategorie eines Modells M, dessen Wahrscheinlichkeit Pr(X M) maximiert ist. Das HMM-Schema mit stetiger Dichte kann theoretisch eine höhere Erkennungsrate als das diskrete HMM-Schema erreichen, falls die Kovarianzmatrizen C(k,s) eine große Zahl von Dimensionen aufweisen.
  • Die herkömmliche CDHMM-Spracherkennung ist jedoch für den praktischen Gebrauch nicht geeignet, weil eine große Menge an Schulungsdaten zum Bilden der großen Kovarianzmatrizen C(k,s) benötigt wird und eine lange Verarbeitungszeit zum Berechnen der großen Kovarianzmatrizen C(k,s) erforderlich ist. Um diese Probleme zu lösen, verwendet ein Verfahren nur Diagonalelemente der Kovarianzmatrizen oder ein HMM-Schema mit Mischdichte, worin eine Anzahl von Verteilungen bezüglich Merkmalvektoren vorbereitet ist. Obwohl diese Lösungen die Probleme lösen können, erzielt es keine gute Erkennungsrate.
  • Eine Aufgabe der vorliegenden Erfindung ist, ein Spracherkennungssystem zu schaffen, das imstande ist, die Erkennungsrate zu verbessern, ohne eine große Menge an Schulungsdaten und einen großen Berechnungsumfang zu erfordern.
  • Die Aufgabe kann durch ein Spracherkennungssystem gelöst werden, das einen Merkmalextraktor zum Extrahieren eines Merkmalvektors x aus einem Eingangssignal und einen Erkennungsteil enthält, um Hidden-Markov-Modelle mit stetiger Dichte vorbestimmter Kategorieren k als Übergangsnetzwerkmodelle zu definieren, die jeweils Parameter von Übergangswahrscheinlichkeiten p(k,i,j), daß ein Zustand Si in einen nächsten Zustand Sj übergeht, und Ausgabewahrscheinlichkeiten g(k,s) aufweisen, daß ein Merkmalvektor x in einem Überqang vom Zustand Si in einen der Zustände Si und Sj ausgegeben wird, und um das Eingangssignal auf der Basis einer Ähnlichkeit zwischen einer Sequenz X von durch den Extraktor extrahierten Merkmalvektoren und den HMMs mit stetiger Dichte zu erkennen, wobei der Erkennungsteil einen Speicherteil zum Speichern eines Satzes orthogonaler Vektoren φm(k,s), die für die HMMs mit stetiger Dichte vorgesehen sind, und einen Verarbeitungsteil enthält, um jede der Ausgabewahrscheinlichkeiten g(k,s) für die HMMs mit stetiger Dichte gemäß den entsprechenden orthogonalen Vektoren φm(k,s) zu erhalten.
  • Gemäß dem Erkennungssystem wird jede der Ausgabewahrscheinlichkeiten g (k,s) gemäß entsprechenden orthogonalen Vektoren φm(k,s) erhalten. Der orthogonale Vektorsatz kann eine kleine Anzahl (L) Achsen aufweisen, indem unnotige Vektorkomponenten ausgeschlossen werden, die Erkennungsfehler verursachen. Daher kann die Erkennungsrate verbessert werden, ohne eine große Menge an Schulungsdaten und einen großen Berechnungsumfang zu erfordern.
  • Diese Erfindung kann aus der folgenden ausführlichen Beschreibung vollständiger verstanden werden, wenn sie Verbindung mit den beigefügten Zeichnungen vorgenommen wird, in denen:
  • Fig. 1 eine Darstellung ist, die ein in einer herkömmlichen CDHMM-Spracherkennung verwendetes typisches Übergangsnetzwerkmodell darstellt;
  • Fig. 2 ein Blockdiagramm ist, das eine Anordnung eines herkömmlichen CDHMM-Spracherkennungssystems darstellt;
  • Fig. 3 ein Blockdiagramm ist, das eine Anordnung eines CDHMM-Spracherkennungssystems gemäß einer ersten Ausführungsform der vorliegenden Erfindung darstellt; und
  • Fig. 4 ein Blockdiagramm ist, das eine Anordnung eines CDHMM-Spracherkennungssystems gemäß einer zweiten Ausführungsform der vorliegenden Erfindung darstellt.
  • Mit Verweis auf Fig. 3 wird nun ein CDHMM-Spracherkennungsystem gemäß einer ersten Ausführungsform der vorliegenden Erfindung beschrieben.
  • Fig. 3 zeigt eine Anordnung des CDHMM-Spracherkennungssystems. Grundsätzlich wird im CDHMM-Spracherkennungssystem ein akustischer Merkmalvektor, wie z.B. ein Spektrum, ein Lineare-Vorhersage-Codierung-(LPC)-Cepstrum, ein Δ-Cepstrum oder ein zweidimensionales Segment davon (z.B. Zeitreihen) aus einem Eingabesprachsignal extrahiert und verwendet, um das Eingabesprachsignal auf der Basis einer Ähnlichkeit zwischen einer Sequenz der extrahierten Merkmalvektoren und CDHMMs der vorbestimmten Kategorien k einer von vorbestimmten Kategorien zuzuordnen. Jedes der CDHMMs ist als ein Übergangsnetzwerkmodell mit zwei Parametern von Übergangswahrscheinlichkeiten p(k,i,j), daß ein Zustand Si in einen nächsten Zustand Sj übergeht, und Ausgabewahrscheinlichkeiten g(k,s) definiert, daß ein Merkmalvektor x in einem Übergang vom Zustand Si in einen der Zustände Si und Sj ausgegeben wird.
  • Nach Fig. 3 enthält das Spracherkennungssystem einen Merkmalextraktor 21, einen modifizierten CDHMM-Prozessor 22, einen Speicherteil 23, einen modifizierten Schulungsteil 24, einen Diskriminator 25 und einen Schaltteil SW. Ein Signal einer ausgesprochenen Sprache wird in den Merkmalextraktor 21 eingegeben. Der Merkmalextraktor 21 extrahiert aus dem Eingangssignal sequentiell oben erwähnte Merkmalvektoren und liefert eine Sequenz der extrahierten Merkmalvektoren x (eine Merkmalvektorsequenz X) an den Schaltteil SW. Der Schaltteil SW wird geschaltet, um die Merkmalvektorsequenz X in einem Spracherkennungsmodus an den modifizierten CDHMM- Prozessor 22 und in einem Schulungsmodus an den modifizierten Schulungsteil 24 zu liefern.
  • Der modifizierte Schulungsteil 24 empfängt die vom Schaltteil SW im Schulungsmodus gelieferte Merkmalvektorsequenz X und erhält ebenso wie der in Fig. 1 dargestellte herkömmliche Schulungsteil 14 mittels des Vorwärts-Rückwärts-Alqorithmus Durchschnittsvektoren u(k,s), Kovarianzmatrizen C(k,s) und Übergangswahrscheinlichkeiten p(k,i,j) davon. Die Kovarianzmatrizen C(k,s) werden ferner einer bekannten K-L-Transformation unterzogen (z.B. E. Oja, "Subspace Method of Pattern Recognition", Research Studies Press of UK, 1983), um obere L Eigenvektoren, die als orthogonale Vektoren φm(k,s) dienen, und deren Eigenwerte λm(k,s) zu erhalten. Der Schulungsteil 24 stellt die orthogonalen Vektoren φm(k,s), die Eigenwerte λm(k,s), die Durchschnittsvektoren u(k,s) und die Übergangswahrscheinlichkeiten p(k,i,j) im Speicherteil 23 vorher ein bzw. gibt sie vor.
  • Der Speicherteil 23 speichert Wahrscheinlichkeiten P(k), daß eine Kategorie k erscheint, zusammen mit den orthogonalen Vektoren φm(k,s), den Eigenwerten λm(k,s), den Durchschnittsvektoren u(k,s) und den Übergangswahrscheinlichkeiten p(k,i,j). Die Wahrscheinlichkeiten P(k) werden nicht durch den modifizierten Schulungsteil 24 gespeichert. Falls angenommen wird, daß die auftretenden Wahrscheinlichkeiten der Kategorieren k einander gleich sind, muß P(k) im Speicherteil 23 nicht gespeichert werden.
  • Der modifizierte CDHMM-Prozessor 22 empfängt die vom Schaltteil SW gelieferte Merkmalvektorsequenz und definiert Hidden-Markov-Modelle mit stetiger Dichte vorbestimmter Kategorien k durch Verwenden der Inhalte des Speicherteils 23. Im einzelnen liest der CDHMM-Prozessor 22 die orthogonalen Vektoren φm(k,s) und die Übergangswahrscheinlichkeiten p(k,i,j) aus und erhält durch Einführen der orthogonalen Vektoren φm(k,s) in die folgende Gleichung (2) Ausgabewahrscheinlichkeiten g(k,s).
  • in der φmm(k,s) einen Satz orthogonaler Vektoren darstellt, x einen schon normierten Merkmalvektor darstellt, [ ] ein inneres Produkt darstellt und L die Anzahl der orthogonalen Vektoren (oder die Achsenzahl des orthogonalen Vektorsatzes) darstellt. Der Wert der Zahl L hängt von der Anzahl Grade von x ab und fällt gewöhnlich in den Bereich 3 ≤ L ≤ 40.
  • Der CDHMM-Prozessor 22 akkumuliert die Summe jedes (logarithmischen) Wertes von g(k,s), die durch Gleichung (2) ausgedrückt wird, und eines entsprechenden logarithmischen Wertes von p(k,i,j) für die eingegebene Merkmalvektorsequenz X und liefert für jedes Modell einen akkumulierten Wert und eine Akkumulationszahl an den Diskriminator 25.
  • Der Diskriminator 25 unterscheidet ein Modell M, dessen bedingte Wahrscheinlichkeit Pr(X M) maximiert ist, gemäß dem akkumulierten Wert und der Akkumulationszahl, die vom modifizierten CDHMM-Prozessor 22 geliefert wurden, und weist das Eingabesprachsignal der Kategorie des Modells M zu.
  • Außerdem kann in Gleichung (2) λm(k,s) durch eine Gewichtsfunktion fm(k,s) ersetzt werden, um eine n-Quadratwurzel von λm(k,s) zu erhalten. Eine solche Modifikation wird durchgeführt, wenn die Erkennungsrate durch Unterschätzen des Wertes eines unteren Teils verbessert wird.
  • Im folgenden wird der Betrieb dieses Systems beschrieben.
  • Im Schulungsmodus wird eine vom Merkmalextraktor 21 ausgegebene Merkmalvektorsequenz X über den Schaltteil SW an den modifizierten Schulungsteil 24 geliefert. Der modifizierte Schulungsteil 24 bestimmt aus der Merkmalvektorsequenz X orthogonale Vektoren φm(k,s), Eigenwerte λm(k,s), Durchschnittsvektoren u(k,s) und Übergangswahrscheinlichkeiten p(k,i,j) und stellt sie im Speicherteil 23 vorher ein, der schon P(k) speichert.
  • Im Spracherkennungsmodus wird eine vom Merkmalextraktor 21 ausgegebene Merkmalvektorsequenz X über den Schaltteil SW an den modifizierten CDHMM-Prozessor 22 geliefert. Der CDHMM-Prozessor 22 liest die orthogonalen Vektoren φm(k,s) und die Übergangswahrscheinlichkeiten p(k,i,j) aus dem Speicherteil 23 aus, erhält Ausgabewahrscheinlichkeiten g(k,s) durch Einführen der orthogonalen Vektoren φm(k,s) in Gleichung (2), akkumuliert die Summe jedes (logarithmischen) Wertes von g(k,s) und eines entsprechenden logarithmischen Wertes von p(k,i,j) für die eingegebene Merkmalvektorsequenz X und liefert für jedes Modell einen akkumulierten Wert und eine Akkumulationszahl an den Diskriminator 25. Der Diskriminator 25 unterscheidet ein Modell M, dessen bedingte Wahrscheinlichkeit Pr(X M) maximiert ist, gemäß dem akkumulierten Wert und der Akkumulationszahl, die vom modifizierten CDHMM-Prozessor 22 geliefert wurden, und weist das Eingabesprachsignal der Kategorie des Modells M zu.
  • In der oben beschriebenen ersten Ausführungsform erhält der modifizierte Schulungsteil 24 Durchschnittsvektoren u(k,s), Kovarianzmatrizen C(k,s) und Übergangswahrscheinlichkeiten p(k,i,j) einer Merkmalvektorsequenz X ebenso wie der in Fig. 1 dargestellte herkömmliche Schulungsteil 14. Der Schulungsteil 24 erhält danach obere L (orthogonale) Eigenvektoren φm(k,s) und Eigenwerte λm(k,s) durch die K-L- Transformation der Kovarianzmatrizen C(k,s) und gibt sie im Speicherteil 23 vor. Der Speicherteil 23 speichert die orthogonalen Vektoren φm(k,s) anstelle der Kovarianzmatrizen C(k,s), die im in Fig. 1 dargestellten Speicherteil 13 herkömmlicherweise gespeichert werden. Weil die orthogonalen Vektoren φm(k,s) diejenigen Eigenvektoren sind, die bei einer Erkennung sehr wichtig sind, kann eine wünschenswerte Erkennungsrate erhalten werden. Weil die Achsenzahl in φm(k,s) geringer als die in C(k,s) ist, wird außerdem der durch den modifizierten CDHMM-Prozessor 22 durchzuführende Berechnungsumfang reduziert.
  • Mit Verweis auf Fig. 4 wird nun ein CDHMM-Spracherkennungssystem gemäß einer zweiten Ausführungsform der vorliegenden Erfindung beschrieben. Dieses Erkennungssystem weist die gleiche Konstruktion wie die erste Ausführungsform auf, mit Ausnahme eines CDHMM-Prozessors 22A, eines Speicherteils 23A und eines modifizierten Schulungsteils 24A. In Fig. 4 sind ähnliche Teile durch die gleichen Bezugssymbole wie diejenigen in der ersten Ausführungsform dargestellt, und ihre ausführlichen Erklärungen werden der Einfachheit halber weggelassen.
  • In dieser Ausführungsform empfängt der modifizierte Schulungsteil 24A im Schulungsmodus eine vom Schaltteil SW gelieferte Merkmalvektorsequenz X, erhält Übergangswahrscheinlichkeiten p(k,i,j) und Korrelationsmatrizen R(k,s) der Merkmalvektorsequenz X und erhält dann durch die K-L- Transformation der Korrelationsmatrizen R(k,s) obere L Eigenvektoren, die als orthogonale Vektoren φm(k,s) dienen. Die orthogonalen Vektoren φm(k,s) und die Übergangswahrscheinlichkeiten p(k,i,j) werden im Speicherteil 23A voreingestellt.
  • Der modifizierte CDHMM-Prozessor 22A empfängt im Spracherkennungsmodus eine vom Schaltteil SW gelieferte Merkmalvektorsequenz X und definiert Hidden-Markov-Modelle mit stetiger Dichte vorbestimmter Kategorien k durch Verwenden der Inhalte des Speicherteils 23A. Im einzelnen liest der CDHMM- Prozessor 22A die orthogonalen Vektoren φm(k,s) und die Übergangswahrscheinlichkeiten p(k,i,j) aus dem Speicherteil 23A aus und erhält durch Einführen der orthogonalen Vektoren φm(k,s) in die folgende Gleichung (3) Ausgabewahrscheinlichkeiten g(k,s).
  • in der φm(k,s) einen Satz orthogonale Vektoren darstellt, x einen schon normierten Merkmalvektor darstellt, [ ] ein inneres Produkt darstellt und L die Anzahl der orthogonalen Vektoren (oder die Achsenzahl des orthogonalen Vektorsatzes) darstellt. Der Wert der Zahl L hängt von der Anzahl Grade von x ab und fällt gewöhnlich in den Bereich 3 ≤ L ≤ 40.
  • Der CDHMM-Prozessor 22A akkumuliert die Summe jedes (logarithmischen) Wertes von g(k,s), die durch Gleichung (3) ausgedrückt wird, und eines entsprechenden logarithmischen Wertes von p(k,i,j) für die eingegebene Merkmalvektorsequenz X und liefert für jedes Modell einen akkumulierten Wert und eine Akkumulationszahl an den Diskriminator 25.
  • Der Diskriminator 25 unterscheidet ein Modell M, dessen bedingte Wahrscheinlichkeit Pr(X M) maximiert ist, gemäß dem akkumulierten Wert und der Akkumulationszahl, die vom modifizierten CDHMM-Prozessor 22A geliefert wurden, und weist das Eingabesprachsignal der Kategorie des Modells M zu.
  • Gleichung (3) kann als Gleichung (2) betrachtet werden, falls P(k) und λm(k,s) in jeder Kategorie k gemeinsame Werte haben und eine der folgenden Annahmen bezüglich des Durchschnittsvektors f(k,s) hinzugefügt wird.
  • Annahme 1: "Für einen beliebigen Merkmalvektor ist immer eine inverse Kopie vorhanden". Durch diese Annahme kann der Wert des Durchschnittsvektors u(k,s) als "0" gegeben sein, und Gleichung (3) wird Gleichung (2) bis auf eine Vorspannungskomponente äquivalent.
  • Annahme 2: "Der Durchschnittsvektor u(k,s) approximiert bei einer Zunahme in der Schulungsdatenmenge asymptotisch einen gemeinsamen Vektor u". In diesem Fall kann der Merkmalvektor x in Gleichung (3) als ein Ergebnis betrachtet werden, das durch eine Art orthogonale Transformation (x' - u) T x des ursprünglichen Vektors x' erhalten wird. Der gemeinsame Vektor u ist ein Durchschnittsvektor von Merkmal vektoren, die gemäß für eine Schulung verwendeten Daten erhalten wurden. Man beachte, daß der gemeinsame Vektor durch einen Vektor u(s) ersetzt werden kann, der den Kategorien k gemeinsam ist, oder einen den Zustanden geminsamen Vektor u(k).
  • Annahme 3: Wenn ferner Annahme 2 definiert ist, "konvergiert der gemeinsame Vektor u, dem sich der Durchschnittsvektor u(k,s) asymptotisch nähert, gegen einen Vektor u&sub0; = (ε, ε, ..., ε), in dem alle Elemente schließlich die gleichen Werte haben." In diesem Fall wird der Merkmalvektor x in Gleichung (2) als ein Vektor betrachtet, der durch die orthogonale Transformation (x' - ε) T x des ursprünglichen Vektors x' erhalten wird. Außerdem wird auch die orthogonale Transformation (x' - Av(x')) T x in Betracht gezogen. Av(x') ist der Durchschnittswert der Merkmalvektoren x.
  • In Gleichung (3) ist g(k,s) nicht streng genommen die Auftrittswahrscheinlichkeit, sondern kann als Grad an Vertrauen in das Auftreten des Merkmalvektors x bezeichnet werden.
  • Im folgenden wird der Betrieb dieses Systems beschrieben.
  • Im Schulungsmodus wird eine vom Merkmalextraktor 21 ausgegebene Merkmalvektorsequenz X über den Schaltteil SW an den modifizierten Schulungsteil 24A geliefert. Der modifizierte Schulungsteil 24A bestimmt aus der Merkmalvektorsequenz x orthogonale Vektoren φm(k,s) und Übergangswahrscheinlichkeiten p(k,i,j) und gibt sie im Speicherteil 23A vor.
  • Im Spracherkennungsmodus wird eine vom Merkmalextraktor 21 ausgegebene Merkmalvektorsequenz X über den Schaltteil SW an den modifizierten CDHMM-Prozessor 22A geliefert. Der CDHMM-Prozessor 22A liest die orthogonalen Vektoren φm(k,s) und die Übergangswahrscheinlichkeiten p(k,i,j) aus dem Speicherteil 23A aus, erhält Ausgabewahrscheinlichkeiten g(k,s) durch Einführen der orthognalen Vektoren φm(k,s) in Gleichung (3), akkumuliert die Summe jedes (logarithmischen) Wertes von g(k,s) und eines entsprechenden logarithmischen Wertes von p(k,i,j) für die eingegebene Merkmalvektorsequenz X und liefert für jedes Modell einen akkumulierten Wert und eine Akkumulationszahl an den Diskriminator 25. Der Diskriminator 25 unterscheidet ein Modell M, dessen bedingte Wahrscheinlichkeit Pr(X M) maximiert ist, gemäß dem akkumulierten Wert und der Akkumulationszahl, die vom modifizierten CDHMM-Prozessor 22A geliefert wurden, und weist das Eingabesprachsignal der Kategorie des Modells M zu.
  • In der oben beschriebenen zweiten Ausführungsform erhält der modifizierte Schulungsteil 24A Korrelationsmatrizen R(k,s) und Übergangswahrscheinlichkeiten p(k,i,j) einer Merkmalvektorsequenz X. Durchschnittsvektoren u(k,s) und Kovarianzmatrizen C(k,s), die durch den in Fig. 1 dargestellten herkömmlichen Schulungsteil 14 erhalten werden, werden durch den modifizierten Schulungsteil 24A nicht erhalten. Danach erhält der Schulungsteil 24A durch die K-L-Transformation der Korrelationsmatrizen R(k,s) obere L (orthogonale) Eigenvektoren φm(k,s) und gibt die orthogonalen Vektoren φm(k,s) und die Übergangswahrscheinlichkeiten p(k,i,j) im Speicherteil 23A vor. Der Speicherteil 23A speichert die orthogonalen Vektoren φm(k,s) statt der Kovarianzmatrizen C(k,s), die herkömmlicherweise im in Fig. 1 dargestellten Speicherteil 13 gespeichert werden. Weil die orthogonalen Vektoren φm(k,s) diejenigen Eigenvektoren sind, die bei einer Spracherkennung sehr wichtig sind, kann eine wünschenswerte Erkennungsrate erhalten werden. Weil die Anzahl von Achsen in φm(k,s) geringer als die in C(k,s) ist, wird außerdem der durch den modifizierten CDHMM-Prozessor 22A durchzuführende Berechnungsumfang reduziert.
  • Die vorliegende Erfindung ist nicht auf die oben erwähnten Ausführungsformen beschränkt, und verschiedene Modifikationen können vorgenommen werden, ohne vom Umfang der vorliegenden Erfindung abzuweichen, die durch die beigefügten Ansprüche definiert ist.
  • In jeder Ausführungsform wird eine Merkmalsequenz nach einer Sprachanalyse als Merkmalvektoren verwendet. Nachdem eine vorbestimmte Segmentsequenz aus einer Eingabesprache extrahiert ist, können z.B. Vektoren mit der Segmentbewertung als ein Element als Merkmalvektoren verwendet werden. Das Spracherkennungssystem ist ausgelegt, um die Merkmalvektoren zu verarbeiten, und kann Rauschen und verschiedenen Musterabweichungen entgegenwirken.
  • Das Spracherkennungssystem ist ferner in einem Schulungsmodus betreibbar Dieser Modus ist jedoch nicht notwendig, falls ein Speicherteil vorgesehen ist, der Daten vorher speichert, die mit denjenigen identisch sind, die im Schulungsmodus erhalten wurden. In diesem Fall können der Schaltteil SW und der modifizierte Schulungsteil 24 oder 24A eliminiert werden.
  • In den ersten und zweiten Ausführungsformen sind zwar Spracherkennungssysteme beschrieben; jedoch kann die vorliegende Erfindung auch auf Bilderkennungssysteme angewandt werden.

Claims (8)

1. Erkennungssystem mit:
einer Merkmal-Extrahiereinrichtung (21) zum Extrahieren eines Merkmalvektors x aus einem Eingangssignal; und
einer Erkennungseinrichtung (22, 23, 25; 22A, 23A, 25) zum Definieren von Hidden-Markov-Modellen mit stetiger Dichte vorbestimmter Kategorien k als Übergangsnetzwerkmodelle, die jeweils Parameter von Übergangswahrscheinlichkeiten p(k,i,j), daß ein Zustand Si in einen nächsten Zustand Sj übergeht, und Ausgabewahrscheinlichkeiten g(k,s) aufweisen, daß ein Merkmalvektor x in einem Übergang vom Zustand Si in einen der Zustände Si und Sj ausgegeben wird, und zum Erkennen des Eingangssignals auf der Basis einer Ähnlichkeit zwischen einer Sequenz X von durch die Merkmal-Extrahiereinrichtung (21) extrahierten Merkmalvektoren und den HMMs mit stetiger Dichte; dadurch gekennzeichnet, daß die Erkennungseinrichtung eine Speichereinrichtung (23; 23A) zum Speichern eines Satzes orthogonaler Vektoren φm(k,s) für einen Zustand s einer Kategorie k, die für die HMMs mit stetiger Dichte vorgesehen sind, und eine Verarbeitungseinrichtung (22; 22A) zum Erhalten jeder der Ausgabewahrscheinlichkeiten g(k,s) für die HMMs mit stetiger Dichte gemäß entsprechenden orthogonalen Vektoren φm(k,s) enthält.
2. Erkennungssystem nach Anspruch 1, dadurch gekennzeichnet, daß die Speichereinrichtung einen Speicherabschnitt (22) enthält, um Wahrscheinlichkeiten P(k), daß eine Kategorie k erscheint, die Übergangswahrscheinlichkeiten p(k,i,j), Durchschnittsvektoren u(k,s), die aus in Kovarianzmatrizen C(k,s) enthaltenen vorbestimmten Eigenvektoren gebildeten orthogonalen Vektoren φm(k,s) und Eigenwerte λm(k,s) für jedes HMM mit stetiger Dichte zu speichern.
3. Erkennungssystem nach Anspruch 2, dadurch gekennzeichnet, daß die Verarbeitungseinrichtung einen Verarbeitungsabschnitt (22) zum Erhalten der Ausgabewahrscheinlichkeiten g(k,s) durch Einführen der orthogonalen Vektoren φm (k,s) in die folgende Gleichung und Akkumulieren der Summe jedes Wertes von g(k,s) und eines entsprechenden logarithmischen Wertes von p(k,i,j) für die Merkmalvektorsequenz X, um einen akkumulierten Wert und eine Akkumulationszählung für jedes Modell zu erzeugen, und einen Diskriminator (25) zum Schätzen einer Ähnlichkeit zwischen der Merkmalvektorsequenz X und jedem HMM mit stetiger Dichte aus dem akkumulierten Wert und der Akkumulationszählung für jedes Modell enthält,
worin [ ] ein inneres Produkt repräsentiert und L die Zahl von Achsen des orthogonalen Vektorsatzes repräsentiert.
4. Erkennungssystem nach Anspruch 3, gekennzeichnet, indem ferner eine Lerneinrichtung (24) zum Erhalten von Übergangswahrscheinlichkeiten p (k, i, j), Durchschnittsvektoren u(k, s) und Kovarianzmatrizen C(k,s) von einer von der Merkmal-Extrahiereinrichtung (21) extrahierten Merkmalvektorsequenz X, Erhalten von als die orthogonalen Vektoren φm(k,s) dienenden oberen L Eigenvektoren und Eigenwerten λm (k,s) durch die K-L-Transformation der Kovarianzmatrizen C(k,s) und Voreinstellen der orthogonalen Vektoren φm (k,s), der Eigenwerte λm(k,s), der Durchschnittsvektoren u(k,s) und der Übergangswahrscheinlichkeiten p(k,i,j) in dem Speicherabschnitt (23) aufweisend.
5. Erkennungssystem nach Anspruch 1, dadurch gekennzeichnet, daß die Speichereinrichtung einen Speicherabschnitt (23A) zum Speichern der Übergangswahrscheinlichkeiten p(k,i,j) und der aus in Korrelationsmatrizen R(k,s) der Merkmalvektorsequenz X enthaltenen vorbestimmten Eigenvektoren gebildeten orthogonalen Vektoren φm (k,s) futr jedes HMM mit stetiger Dichte enthält.
6. Erkennungssystem nach Anspruch 5, dadurch gekennzeichnet, daß die Verarbeitungseinrichtung einen Verarbeitungsabschnitt (22A) zum Erhalten der Ausgabewahrscheinlichkeiten g(k,s) durch Einführen der orthogonalen Vektoren φm (k,s) in die folgende Gleichung und Akkumulieren der Summe jedes Wertes von g(k,s) und eines entsprechenden logarithmischen Wertes von p(k,i,j) für die Merkmalvektorsequenz X, um einen akkumulierten Wert und eine Akkumulationszählung für jedes Modell zu erzeugen, und einen Diskriminator (25) zum Schätzen einer Ähnlichkeit zwischen der Merkmalvektorsequenz X und jedem HMM mit stetiger Dichte aus dem akkumulierten Wert und der Akkumulationszählung für jedes Modell enthält, worin [ ] ein inneres Produkt repräsentiert und L die Zahl von Achsen des orthogonalen Vektorsatzes repräsentiert.
7. Erkennungssystem nach Anspruch 6, gekennzeichnet, indem ferner eine Lerneinrichtung (24A) zum Erhalten von Übergangswahrscheinlichkeiten p (k,i,j) und der Korrelationsmatrizen R(k,s) von einer von der Merkmal-Extrahiereinrichtung (21) extrahierten Merkmalvektorsequenz X, Erhalten von als die orthogonalen Vektoren φm (k,s) dienenden oberen L Eigenvektoren durch die K-L-Transformation der Korrelationsmatrizen R(k,s) und Voreinstellen der orthogonalen Vektoren φm(k,s) und der Übergangswahrscheinlichkeiten p(k,i,j) in dem Speicherabschnitt (23A) aufweisend.
8. Erkennungssystem nach Anspruch 1, dadurch gekennzeichnet, daß die Merkmal-Extrahiereinrichtung einen Extraktor (21) zum Extrahieren eines Merkmalvektors aus einem Eingangssprachsignal enthält.
DE69318447T 1992-03-13 1993-03-12 Erkennungssystem Expired - Fee Related DE69318447T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4055713A JPH05257492A (ja) 1992-03-13 1992-03-13 音声認識方式

Publications (2)

Publication Number Publication Date
DE69318447D1 DE69318447D1 (de) 1998-06-18
DE69318447T2 true DE69318447T2 (de) 1998-11-05

Family

ID=13006522

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69318447T Expired - Fee Related DE69318447T2 (de) 1992-03-13 1993-03-12 Erkennungssystem

Country Status (4)

Country Link
US (1) US5506933A (de)
EP (1) EP0560378B1 (de)
JP (1) JPH05257492A (de)
DE (1) DE69318447T2 (de)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2105034C (en) * 1992-10-09 1997-12-30 Biing-Hwang Juang Speaker verification with cohort normalized scoring
FI98162C (fi) * 1994-05-30 1997-04-25 Tecnomen Oy HMM-malliin perustuva puheentunnistusmenetelmä
JP3581401B2 (ja) * 1994-10-07 2004-10-27 キヤノン株式会社 音声認識方法
JP2980228B2 (ja) * 1994-10-25 1999-11-22 日本ビクター株式会社 音声認識用音響モデル生成方法
JPH08123462A (ja) * 1994-10-27 1996-05-17 Sony Corp 音声認識装置
US5794198A (en) * 1994-10-28 1998-08-11 Nippon Telegraph And Telephone Corporation Pattern recognition method
US5812972A (en) * 1994-12-30 1998-09-22 Lucent Technologies Inc. Adaptive decision directed speech recognition bias equalization method and apparatus
US5710866A (en) * 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
JP3453456B2 (ja) * 1995-06-19 2003-10-06 キヤノン株式会社 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置
JPH0981183A (ja) * 1995-09-14 1997-03-28 Pioneer Electron Corp 音声モデルの作成方法およびこれを用いた音声認識装置
US6064958A (en) * 1996-09-20 2000-05-16 Nippon Telegraph And Telephone Corporation Pattern recognition scheme using probabilistic models based on mixtures distribution of discrete distribution
JP2991287B2 (ja) * 1997-01-28 1999-12-20 日本電気株式会社 抑制標準パターン選択式話者認識装置
JP2991288B2 (ja) * 1997-01-30 1999-12-20 日本電気株式会社 話者認識装置
US6260013B1 (en) * 1997-03-14 2001-07-10 Lernout & Hauspie Speech Products N.V. Speech recognition system employing discriminatively trained models
AT414325B (de) * 1998-02-18 2007-07-15 Teamaxess Ticketing Gmbh Anordnung zum verkauf von berechtigungen
US6606624B1 (en) * 1999-08-13 2003-08-12 The Regents Of The University Of California Apparatus and method for recommending to an individual selective information contained within a computer network
US6542866B1 (en) * 1999-09-22 2003-04-01 Microsoft Corporation Speech recognition method and apparatus utilizing multiple feature streams
US6405168B1 (en) * 1999-09-30 2002-06-11 Conexant Systems, Inc. Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection
KR100446630B1 (ko) * 2002-05-08 2004-09-04 삼성전자주식회사 음성신호에 대한 벡터 양자화 및 역 벡터 양자화 장치와그 방법
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US8239332B2 (en) 2007-11-20 2012-08-07 Microsoft Corporation Constrained line search optimization for discriminative training of HMMS
JP5493867B2 (ja) * 2007-12-20 2014-05-14 日本電気株式会社 統計モデル学習装置、方法及びプログラム
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
EP2550614A4 (de) * 2010-03-23 2013-09-18 Nokia Corp Verfahren und vorrichtung zur bestimmung der altersspanne eines benutzers
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
JP6495850B2 (ja) * 2016-03-14 2019-04-03 株式会社東芝 情報処理装置、情報処理方法、プログラムおよび認識システム
US11132211B1 (en) * 2018-09-24 2021-09-28 Apple Inc. Neural finite state machines

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58130393A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置
JPH0296800A (ja) * 1988-10-03 1990-04-09 Nec Corp 連続音声認識装置
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
JP3004023B2 (ja) * 1989-11-28 2000-01-31 株式会社東芝 音声認識装置

Also Published As

Publication number Publication date
EP0560378A1 (de) 1993-09-15
DE69318447D1 (de) 1998-06-18
JPH05257492A (ja) 1993-10-08
US5506933A (en) 1996-04-09
EP0560378B1 (de) 1998-05-13

Similar Documents

Publication Publication Date Title
DE69318447T2 (de) Erkennungssystem
DE69523219T2 (de) Anpassungsfähiges Lernverfahren zur Mustererkennung
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE69422097T2 (de) Training von kombinierten Kettenmodellen mit minimaler Fehlerrate
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69719236T2 (de) Verfahren und System zur Spracherkennung mittels verborgener Markoff-Modelle mit kontinuierlichen Ausgangswahrscheinlichkeiten
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE69613338T2 (de) Verfahren und system zur mustererkennung mittels baumstrukturierten wahrscheinlichkeitsdichten
DE4397106B4 (de) Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung
DE69323841T2 (de) Klassifikation bei Spracherkennung von isolierten Wörtern in Schlüsselwörter und Nicht-Schlüsselwörter
DE69816177T2 (de) Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen
DE69226796T2 (de) Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung
DE69620324T2 (de) Unterscheidende Verifizierung von Äusserungen für die Erkennung zusammenhängender Ziffern
DE69322894T2 (de) Lernverfahren und Gerät zur Spracherkennung
DE69705830T2 (de) Sprachverarbeitung
DE69518705T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE69127961T2 (de) Verfahren zur Spracherkennung
DE69635655T2 (de) Sprecherangepasste Spracherkennung
DE69229124T2 (de) Mehrteiliger expertsystem
DE69726235T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE68912397T2 (de) Spracherkennung mit Sprecheranpassung durch Lernprozess.
DE60007637T2 (de) Vermeidung von Online-Sprecherüberanpassung bei der Spracherkennung
DE68924134T2 (de) Spracherkennungssystem.
DE69636209T2 (de) Vorrichtung zur Sprachkodierung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee