DE69318447T2 - Erkennungssystem - Google Patents
ErkennungssystemInfo
- Publication number
- DE69318447T2 DE69318447T2 DE69318447T DE69318447T DE69318447T2 DE 69318447 T2 DE69318447 T2 DE 69318447T2 DE 69318447 T DE69318447 T DE 69318447T DE 69318447 T DE69318447 T DE 69318447T DE 69318447 T2 DE69318447 T2 DE 69318447T2
- Authority
- DE
- Germany
- Prior art keywords
- vectors
- feature vector
- feature
- probabilities
- orthogonal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Complex Calculations (AREA)
Description
- Die vorliegende Erfindung bezieht sich auf ein Erkennungssystem zum Erkennen eines in Form einer Sprache, eines Bildes oder dergleichen eingegebenen Signals und insbesondere auf ein Erkennungssystem, in dem zur Erkennung Hidden- Markov-Modelle (HMMs) verwendet werden.
- In den letzten Jahren war die Spracherkennung mit einem diskreten HMM-Schema erfolgreich. Bei dieser Erkennung wird ein Sprachsignal durch eine Vektorquantisierung in eine vorbestimmte Codesequenz umgewandelt und auf der Basis einer Ähnlichkeit zwischen der Codesequenz und diskreten HMMs erkannt. Das diskrete HMM-Schema weist jedoch einen Nachteil auf, daß die Erkennungsrate durch Quantisierungsfehler gesenkt wird, die in der Vektorquantisierung auftreten.
- Ein HMM-Schema mit stetiger Dichte (CDHMM) wurde entwikkelt, um die Quantisierungsfehler zu reduzieren. Bei der Spracherkennung dieses Schemas wird ein Sprachsignal durch Verwenden von CDHMMs erkannt, die für vorbestimmte Kategorien (Worte oder Phoneme) vorgesehen sind. Das CDHMM ist als ein Übergangsnetzwerkmodell definiert, das aus Zuständen mit jeweils einem Durchschnittsvektor u(k,s) und einer Kovananzmatrix C(k,s) besteht, wobei k eine Kategorie bezeichnet und s einen Zustand bezeichnet. Angenommen, die CDHMM- Spracherkennung werde für einen Ticketautomaten verwendet, in den Sprachsignale eingegeben werden, um Zielorte zu benennen. In diesem Fall entsprechen Worte, wie z.B. "TOKYO", "NAGOYA", "OSAKA" und dergleichen, den Kategorien, und Phoneme "T", "O", "K", "Y" und "O" entsprechen den Zuständen eines Netzwerkmodells für "TOKYO". Fig. 1 stellt ein typisches Übergangsnetzwerkmodell dar, das aus N Zuständen S&sub1;, S&sub2;,..., SN besteht. Der Anfangszustand S&sub1; ist am linken Ende des Übergangsnetzwerkmodells dargestellt, und der Endzustand SN ist am rechten Ende des Übergangsnetzwerkmodells dargestellt. In diesem Netzwerkmodell geht jeder Zustand mit einer bestimmten Wahrscheinlichkeit (Übergangswahrscheinlichkeit) in einen nächsten Zustand über, und ein merkmalvektor wird beim Übergang, außer für einen Nullübergang in den gleichen Zustand, mit einer bestimmten Wahrscheinlichkeit (Ausgabewahrscheinlichkeit) ausgegeben. Ein solches Netzwerkmodell wird "Hidden"-Markov-Modell genannt, weil nur eine Sequenz von Ausgabemerkmalvektoren beobachtbar ist.
- In der CDHMM-Spracherkennung weist das Modell zwei Parameter von Übergangswahrscheinlichkeiten p(k,i,j) und Ausgabewahrscheinlichkeiten g(k,i,j) auf, wobei gelten:
- p(k,i,j): Wahrscheinlichkeit eines Übergangs eines Zustands Si in einen nächsten Zustand Sj in einem Modell einer Kategorie k, und
- g(k,i,j) : Wahrscheinlichkeit einer Ausgabe eines Merkmalvektors x beim Übergang vom Zustand Si in den Zustand Sj im Modell der Kategorie k.
- Falls angenommen wird, daß der gleiche Merkmalvektor in einer Eigenschleife (engl. self-loop) von Si nach Si und beim Übergang von Si nach Sj ausgegeben wird, kann g(k,i,j) unter Verwendung eines Zustandes s als g(k,s) ausgedrückt werden. Der Einfachheit halber wird in der folgenden Beschreibung g(k,s) verwendet. Ein Sprachsignal wird erkannt, indem eine bedingte Wahrscheinlichkeit Pr(X M) jedes Modells M erhalten wird, das eine Merkmalvektorsequenz X = x1, x2, ... ausgibt, und die erhaltene bedingte Wahrscheinlichkeit ausgewertet wird.
- Fig. 2 zeigt ein herkömmliches CDHMM-Spracherkennungssystem.
- In diesem System extrahiert ein Merkmalextraktor 11 eine Sequenz von Merkmalvektoren x aus einer Eingabesprache. Ein Schaltteil SW wird geschaltet, um in einem Erkennungsmodus die Merkmalvektorsequenz X an einen CDHMM-Prozessor 12 zu liefern. Der CDHMM-Prozessor 12 liest Durchschnittsvektoren u(k,s) und Kovarianzmatrizen C(k,s) aus, die für Kategorien k und Zustände 5 vorgesehen und in einem Speicherteil 13 gespeichert sind, und definiert auf der Basis der ausgelesenen Durchschnittsvektoren u(k,s) und der Kovarianzmatrizen C(k,s) CDHMMs der Kategorien k. Im einzelnen berechnet der CDHMM-Prozessor 12 zu Anfang die folgende Gleichung (1), um Werte g (k,s) für die Zustände jedes Modells M zu erhalten.
- In Gleichung (1) stellt P(k) einen festen Wert der Wahrscheinlichkeit dar, daß eine Kategorie k erscheint, stellt T eine Transposition und C&supmin;¹(k,s) eine inverse Matrix von C(k,s) dar. Der CDHMM-Prozessor 12 akkumuliert die erhaltenen Werte g(k,s) entlang der Zeitachse mittels eines bekannten Viterbi-Algorithmus (z.B. Seiichi Nakagawa, "Speech Recognition by Probability Models", Institute of Electronic and Communication Engineers of Japan, 3.1.3-(c), S. 44 - 46), um eine bedingte Wahrscheinlichkeit Pr(X M) jedes Modells M zu erhalten. Ein Diskriminator 15 erzeugt ein Erkennungsergebnis, das ein Modell M angibt, dessen bedingte Wahrscheinlichkeit Pr(X M) maximiert ist.
- Der Schaltteil SW wird geschaltet, um in einem Trainings- bzw. Schulungsmodus eine Merkmalvektorsequenz X an einen Schulungsteil 14 zu liefern. Der Schulungsteil 14 schätzt u(k,s) und C(k,s) der Merkmalvektorsequenz X, die zum Bestimmen der Parameter (d.h. p(k,i,j) und g(k,s)) des Modells M erforderlich sind, dessen Wahrscheinlichkeit Pr(X M) maximiert ist. Diese Parameterschätzung kann mittels eines bekannten Vorwärts-Rückwärts-Algorithmus durchgeführt werden (z.B. Seiichi Nakagawa, "Speech Recognition by Probability Models", Institute of Electronic and Communication Engineers of Japan, 3.3.2, S. 69 - 73).
- Wie oben beschrieben wurde, führt der CDHMM-Prozessor 12 die oben erwähnte Verarbeitung an einer Merkmalvektorsequenz einer ausgesprochenen Spracheingabe durch, und der Diskriminator 15 unterscheidet die Kategorie eines Modells M, dessen Wahrscheinlichkeit Pr(X M) maximiert ist. Das HMM-Schema mit stetiger Dichte kann theoretisch eine höhere Erkennungsrate als das diskrete HMM-Schema erreichen, falls die Kovarianzmatrizen C(k,s) eine große Zahl von Dimensionen aufweisen.
- Die herkömmliche CDHMM-Spracherkennung ist jedoch für den praktischen Gebrauch nicht geeignet, weil eine große Menge an Schulungsdaten zum Bilden der großen Kovarianzmatrizen C(k,s) benötigt wird und eine lange Verarbeitungszeit zum Berechnen der großen Kovarianzmatrizen C(k,s) erforderlich ist. Um diese Probleme zu lösen, verwendet ein Verfahren nur Diagonalelemente der Kovarianzmatrizen oder ein HMM-Schema mit Mischdichte, worin eine Anzahl von Verteilungen bezüglich Merkmalvektoren vorbereitet ist. Obwohl diese Lösungen die Probleme lösen können, erzielt es keine gute Erkennungsrate.
- Eine Aufgabe der vorliegenden Erfindung ist, ein Spracherkennungssystem zu schaffen, das imstande ist, die Erkennungsrate zu verbessern, ohne eine große Menge an Schulungsdaten und einen großen Berechnungsumfang zu erfordern.
- Die Aufgabe kann durch ein Spracherkennungssystem gelöst werden, das einen Merkmalextraktor zum Extrahieren eines Merkmalvektors x aus einem Eingangssignal und einen Erkennungsteil enthält, um Hidden-Markov-Modelle mit stetiger Dichte vorbestimmter Kategorieren k als Übergangsnetzwerkmodelle zu definieren, die jeweils Parameter von Übergangswahrscheinlichkeiten p(k,i,j), daß ein Zustand Si in einen nächsten Zustand Sj übergeht, und Ausgabewahrscheinlichkeiten g(k,s) aufweisen, daß ein Merkmalvektor x in einem Überqang vom Zustand Si in einen der Zustände Si und Sj ausgegeben wird, und um das Eingangssignal auf der Basis einer Ähnlichkeit zwischen einer Sequenz X von durch den Extraktor extrahierten Merkmalvektoren und den HMMs mit stetiger Dichte zu erkennen, wobei der Erkennungsteil einen Speicherteil zum Speichern eines Satzes orthogonaler Vektoren φm(k,s), die für die HMMs mit stetiger Dichte vorgesehen sind, und einen Verarbeitungsteil enthält, um jede der Ausgabewahrscheinlichkeiten g(k,s) für die HMMs mit stetiger Dichte gemäß den entsprechenden orthogonalen Vektoren φm(k,s) zu erhalten.
- Gemäß dem Erkennungssystem wird jede der Ausgabewahrscheinlichkeiten g (k,s) gemäß entsprechenden orthogonalen Vektoren φm(k,s) erhalten. Der orthogonale Vektorsatz kann eine kleine Anzahl (L) Achsen aufweisen, indem unnotige Vektorkomponenten ausgeschlossen werden, die Erkennungsfehler verursachen. Daher kann die Erkennungsrate verbessert werden, ohne eine große Menge an Schulungsdaten und einen großen Berechnungsumfang zu erfordern.
- Diese Erfindung kann aus der folgenden ausführlichen Beschreibung vollständiger verstanden werden, wenn sie Verbindung mit den beigefügten Zeichnungen vorgenommen wird, in denen:
- Fig. 1 eine Darstellung ist, die ein in einer herkömmlichen CDHMM-Spracherkennung verwendetes typisches Übergangsnetzwerkmodell darstellt;
- Fig. 2 ein Blockdiagramm ist, das eine Anordnung eines herkömmlichen CDHMM-Spracherkennungssystems darstellt;
- Fig. 3 ein Blockdiagramm ist, das eine Anordnung eines CDHMM-Spracherkennungssystems gemäß einer ersten Ausführungsform der vorliegenden Erfindung darstellt; und
- Fig. 4 ein Blockdiagramm ist, das eine Anordnung eines CDHMM-Spracherkennungssystems gemäß einer zweiten Ausführungsform der vorliegenden Erfindung darstellt.
- Mit Verweis auf Fig. 3 wird nun ein CDHMM-Spracherkennungsystem gemäß einer ersten Ausführungsform der vorliegenden Erfindung beschrieben.
- Fig. 3 zeigt eine Anordnung des CDHMM-Spracherkennungssystems. Grundsätzlich wird im CDHMM-Spracherkennungssystem ein akustischer Merkmalvektor, wie z.B. ein Spektrum, ein Lineare-Vorhersage-Codierung-(LPC)-Cepstrum, ein Δ-Cepstrum oder ein zweidimensionales Segment davon (z.B. Zeitreihen) aus einem Eingabesprachsignal extrahiert und verwendet, um das Eingabesprachsignal auf der Basis einer Ähnlichkeit zwischen einer Sequenz der extrahierten Merkmalvektoren und CDHMMs der vorbestimmten Kategorien k einer von vorbestimmten Kategorien zuzuordnen. Jedes der CDHMMs ist als ein Übergangsnetzwerkmodell mit zwei Parametern von Übergangswahrscheinlichkeiten p(k,i,j), daß ein Zustand Si in einen nächsten Zustand Sj übergeht, und Ausgabewahrscheinlichkeiten g(k,s) definiert, daß ein Merkmalvektor x in einem Übergang vom Zustand Si in einen der Zustände Si und Sj ausgegeben wird.
- Nach Fig. 3 enthält das Spracherkennungssystem einen Merkmalextraktor 21, einen modifizierten CDHMM-Prozessor 22, einen Speicherteil 23, einen modifizierten Schulungsteil 24, einen Diskriminator 25 und einen Schaltteil SW. Ein Signal einer ausgesprochenen Sprache wird in den Merkmalextraktor 21 eingegeben. Der Merkmalextraktor 21 extrahiert aus dem Eingangssignal sequentiell oben erwähnte Merkmalvektoren und liefert eine Sequenz der extrahierten Merkmalvektoren x (eine Merkmalvektorsequenz X) an den Schaltteil SW. Der Schaltteil SW wird geschaltet, um die Merkmalvektorsequenz X in einem Spracherkennungsmodus an den modifizierten CDHMM- Prozessor 22 und in einem Schulungsmodus an den modifizierten Schulungsteil 24 zu liefern.
- Der modifizierte Schulungsteil 24 empfängt die vom Schaltteil SW im Schulungsmodus gelieferte Merkmalvektorsequenz X und erhält ebenso wie der in Fig. 1 dargestellte herkömmliche Schulungsteil 14 mittels des Vorwärts-Rückwärts-Alqorithmus Durchschnittsvektoren u(k,s), Kovarianzmatrizen C(k,s) und Übergangswahrscheinlichkeiten p(k,i,j) davon. Die Kovarianzmatrizen C(k,s) werden ferner einer bekannten K-L-Transformation unterzogen (z.B. E. Oja, "Subspace Method of Pattern Recognition", Research Studies Press of UK, 1983), um obere L Eigenvektoren, die als orthogonale Vektoren φm(k,s) dienen, und deren Eigenwerte λm(k,s) zu erhalten. Der Schulungsteil 24 stellt die orthogonalen Vektoren φm(k,s), die Eigenwerte λm(k,s), die Durchschnittsvektoren u(k,s) und die Übergangswahrscheinlichkeiten p(k,i,j) im Speicherteil 23 vorher ein bzw. gibt sie vor.
- Der Speicherteil 23 speichert Wahrscheinlichkeiten P(k), daß eine Kategorie k erscheint, zusammen mit den orthogonalen Vektoren φm(k,s), den Eigenwerten λm(k,s), den Durchschnittsvektoren u(k,s) und den Übergangswahrscheinlichkeiten p(k,i,j). Die Wahrscheinlichkeiten P(k) werden nicht durch den modifizierten Schulungsteil 24 gespeichert. Falls angenommen wird, daß die auftretenden Wahrscheinlichkeiten der Kategorieren k einander gleich sind, muß P(k) im Speicherteil 23 nicht gespeichert werden.
- Der modifizierte CDHMM-Prozessor 22 empfängt die vom Schaltteil SW gelieferte Merkmalvektorsequenz und definiert Hidden-Markov-Modelle mit stetiger Dichte vorbestimmter Kategorien k durch Verwenden der Inhalte des Speicherteils 23. Im einzelnen liest der CDHMM-Prozessor 22 die orthogonalen Vektoren φm(k,s) und die Übergangswahrscheinlichkeiten p(k,i,j) aus und erhält durch Einführen der orthogonalen Vektoren φm(k,s) in die folgende Gleichung (2) Ausgabewahrscheinlichkeiten g(k,s).
- in der φmm(k,s) einen Satz orthogonaler Vektoren darstellt, x einen schon normierten Merkmalvektor darstellt, [ ] ein inneres Produkt darstellt und L die Anzahl der orthogonalen Vektoren (oder die Achsenzahl des orthogonalen Vektorsatzes) darstellt. Der Wert der Zahl L hängt von der Anzahl Grade von x ab und fällt gewöhnlich in den Bereich 3 ≤ L ≤ 40.
- Der CDHMM-Prozessor 22 akkumuliert die Summe jedes (logarithmischen) Wertes von g(k,s), die durch Gleichung (2) ausgedrückt wird, und eines entsprechenden logarithmischen Wertes von p(k,i,j) für die eingegebene Merkmalvektorsequenz X und liefert für jedes Modell einen akkumulierten Wert und eine Akkumulationszahl an den Diskriminator 25.
- Der Diskriminator 25 unterscheidet ein Modell M, dessen bedingte Wahrscheinlichkeit Pr(X M) maximiert ist, gemäß dem akkumulierten Wert und der Akkumulationszahl, die vom modifizierten CDHMM-Prozessor 22 geliefert wurden, und weist das Eingabesprachsignal der Kategorie des Modells M zu.
- Außerdem kann in Gleichung (2) λm(k,s) durch eine Gewichtsfunktion fm(k,s) ersetzt werden, um eine n-Quadratwurzel von λm(k,s) zu erhalten. Eine solche Modifikation wird durchgeführt, wenn die Erkennungsrate durch Unterschätzen des Wertes eines unteren Teils verbessert wird.
- Im folgenden wird der Betrieb dieses Systems beschrieben.
- Im Schulungsmodus wird eine vom Merkmalextraktor 21 ausgegebene Merkmalvektorsequenz X über den Schaltteil SW an den modifizierten Schulungsteil 24 geliefert. Der modifizierte Schulungsteil 24 bestimmt aus der Merkmalvektorsequenz X orthogonale Vektoren φm(k,s), Eigenwerte λm(k,s), Durchschnittsvektoren u(k,s) und Übergangswahrscheinlichkeiten p(k,i,j) und stellt sie im Speicherteil 23 vorher ein, der schon P(k) speichert.
- Im Spracherkennungsmodus wird eine vom Merkmalextraktor 21 ausgegebene Merkmalvektorsequenz X über den Schaltteil SW an den modifizierten CDHMM-Prozessor 22 geliefert. Der CDHMM-Prozessor 22 liest die orthogonalen Vektoren φm(k,s) und die Übergangswahrscheinlichkeiten p(k,i,j) aus dem Speicherteil 23 aus, erhält Ausgabewahrscheinlichkeiten g(k,s) durch Einführen der orthogonalen Vektoren φm(k,s) in Gleichung (2), akkumuliert die Summe jedes (logarithmischen) Wertes von g(k,s) und eines entsprechenden logarithmischen Wertes von p(k,i,j) für die eingegebene Merkmalvektorsequenz X und liefert für jedes Modell einen akkumulierten Wert und eine Akkumulationszahl an den Diskriminator 25. Der Diskriminator 25 unterscheidet ein Modell M, dessen bedingte Wahrscheinlichkeit Pr(X M) maximiert ist, gemäß dem akkumulierten Wert und der Akkumulationszahl, die vom modifizierten CDHMM-Prozessor 22 geliefert wurden, und weist das Eingabesprachsignal der Kategorie des Modells M zu.
- In der oben beschriebenen ersten Ausführungsform erhält der modifizierte Schulungsteil 24 Durchschnittsvektoren u(k,s), Kovarianzmatrizen C(k,s) und Übergangswahrscheinlichkeiten p(k,i,j) einer Merkmalvektorsequenz X ebenso wie der in Fig. 1 dargestellte herkömmliche Schulungsteil 14. Der Schulungsteil 24 erhält danach obere L (orthogonale) Eigenvektoren φm(k,s) und Eigenwerte λm(k,s) durch die K-L- Transformation der Kovarianzmatrizen C(k,s) und gibt sie im Speicherteil 23 vor. Der Speicherteil 23 speichert die orthogonalen Vektoren φm(k,s) anstelle der Kovarianzmatrizen C(k,s), die im in Fig. 1 dargestellten Speicherteil 13 herkömmlicherweise gespeichert werden. Weil die orthogonalen Vektoren φm(k,s) diejenigen Eigenvektoren sind, die bei einer Erkennung sehr wichtig sind, kann eine wünschenswerte Erkennungsrate erhalten werden. Weil die Achsenzahl in φm(k,s) geringer als die in C(k,s) ist, wird außerdem der durch den modifizierten CDHMM-Prozessor 22 durchzuführende Berechnungsumfang reduziert.
- Mit Verweis auf Fig. 4 wird nun ein CDHMM-Spracherkennungssystem gemäß einer zweiten Ausführungsform der vorliegenden Erfindung beschrieben. Dieses Erkennungssystem weist die gleiche Konstruktion wie die erste Ausführungsform auf, mit Ausnahme eines CDHMM-Prozessors 22A, eines Speicherteils 23A und eines modifizierten Schulungsteils 24A. In Fig. 4 sind ähnliche Teile durch die gleichen Bezugssymbole wie diejenigen in der ersten Ausführungsform dargestellt, und ihre ausführlichen Erklärungen werden der Einfachheit halber weggelassen.
- In dieser Ausführungsform empfängt der modifizierte Schulungsteil 24A im Schulungsmodus eine vom Schaltteil SW gelieferte Merkmalvektorsequenz X, erhält Übergangswahrscheinlichkeiten p(k,i,j) und Korrelationsmatrizen R(k,s) der Merkmalvektorsequenz X und erhält dann durch die K-L- Transformation der Korrelationsmatrizen R(k,s) obere L Eigenvektoren, die als orthogonale Vektoren φm(k,s) dienen. Die orthogonalen Vektoren φm(k,s) und die Übergangswahrscheinlichkeiten p(k,i,j) werden im Speicherteil 23A voreingestellt.
- Der modifizierte CDHMM-Prozessor 22A empfängt im Spracherkennungsmodus eine vom Schaltteil SW gelieferte Merkmalvektorsequenz X und definiert Hidden-Markov-Modelle mit stetiger Dichte vorbestimmter Kategorien k durch Verwenden der Inhalte des Speicherteils 23A. Im einzelnen liest der CDHMM- Prozessor 22A die orthogonalen Vektoren φm(k,s) und die Übergangswahrscheinlichkeiten p(k,i,j) aus dem Speicherteil 23A aus und erhält durch Einführen der orthogonalen Vektoren φm(k,s) in die folgende Gleichung (3) Ausgabewahrscheinlichkeiten g(k,s).
- in der φm(k,s) einen Satz orthogonale Vektoren darstellt, x einen schon normierten Merkmalvektor darstellt, [ ] ein inneres Produkt darstellt und L die Anzahl der orthogonalen Vektoren (oder die Achsenzahl des orthogonalen Vektorsatzes) darstellt. Der Wert der Zahl L hängt von der Anzahl Grade von x ab und fällt gewöhnlich in den Bereich 3 ≤ L ≤ 40.
- Der CDHMM-Prozessor 22A akkumuliert die Summe jedes (logarithmischen) Wertes von g(k,s), die durch Gleichung (3) ausgedrückt wird, und eines entsprechenden logarithmischen Wertes von p(k,i,j) für die eingegebene Merkmalvektorsequenz X und liefert für jedes Modell einen akkumulierten Wert und eine Akkumulationszahl an den Diskriminator 25.
- Der Diskriminator 25 unterscheidet ein Modell M, dessen bedingte Wahrscheinlichkeit Pr(X M) maximiert ist, gemäß dem akkumulierten Wert und der Akkumulationszahl, die vom modifizierten CDHMM-Prozessor 22A geliefert wurden, und weist das Eingabesprachsignal der Kategorie des Modells M zu.
- Gleichung (3) kann als Gleichung (2) betrachtet werden, falls P(k) und λm(k,s) in jeder Kategorie k gemeinsame Werte haben und eine der folgenden Annahmen bezüglich des Durchschnittsvektors f(k,s) hinzugefügt wird.
- Annahme 1: "Für einen beliebigen Merkmalvektor ist immer eine inverse Kopie vorhanden". Durch diese Annahme kann der Wert des Durchschnittsvektors u(k,s) als "0" gegeben sein, und Gleichung (3) wird Gleichung (2) bis auf eine Vorspannungskomponente äquivalent.
- Annahme 2: "Der Durchschnittsvektor u(k,s) approximiert bei einer Zunahme in der Schulungsdatenmenge asymptotisch einen gemeinsamen Vektor u". In diesem Fall kann der Merkmalvektor x in Gleichung (3) als ein Ergebnis betrachtet werden, das durch eine Art orthogonale Transformation (x' - u) T x des ursprünglichen Vektors x' erhalten wird. Der gemeinsame Vektor u ist ein Durchschnittsvektor von Merkmal vektoren, die gemäß für eine Schulung verwendeten Daten erhalten wurden. Man beachte, daß der gemeinsame Vektor durch einen Vektor u(s) ersetzt werden kann, der den Kategorien k gemeinsam ist, oder einen den Zustanden geminsamen Vektor u(k).
- Annahme 3: Wenn ferner Annahme 2 definiert ist, "konvergiert der gemeinsame Vektor u, dem sich der Durchschnittsvektor u(k,s) asymptotisch nähert, gegen einen Vektor u&sub0; = (ε, ε, ..., ε), in dem alle Elemente schließlich die gleichen Werte haben." In diesem Fall wird der Merkmalvektor x in Gleichung (2) als ein Vektor betrachtet, der durch die orthogonale Transformation (x' - ε) T x des ursprünglichen Vektors x' erhalten wird. Außerdem wird auch die orthogonale Transformation (x' - Av(x')) T x in Betracht gezogen. Av(x') ist der Durchschnittswert der Merkmalvektoren x.
- In Gleichung (3) ist g(k,s) nicht streng genommen die Auftrittswahrscheinlichkeit, sondern kann als Grad an Vertrauen in das Auftreten des Merkmalvektors x bezeichnet werden.
- Im folgenden wird der Betrieb dieses Systems beschrieben.
- Im Schulungsmodus wird eine vom Merkmalextraktor 21 ausgegebene Merkmalvektorsequenz X über den Schaltteil SW an den modifizierten Schulungsteil 24A geliefert. Der modifizierte Schulungsteil 24A bestimmt aus der Merkmalvektorsequenz x orthogonale Vektoren φm(k,s) und Übergangswahrscheinlichkeiten p(k,i,j) und gibt sie im Speicherteil 23A vor.
- Im Spracherkennungsmodus wird eine vom Merkmalextraktor 21 ausgegebene Merkmalvektorsequenz X über den Schaltteil SW an den modifizierten CDHMM-Prozessor 22A geliefert. Der CDHMM-Prozessor 22A liest die orthogonalen Vektoren φm(k,s) und die Übergangswahrscheinlichkeiten p(k,i,j) aus dem Speicherteil 23A aus, erhält Ausgabewahrscheinlichkeiten g(k,s) durch Einführen der orthognalen Vektoren φm(k,s) in Gleichung (3), akkumuliert die Summe jedes (logarithmischen) Wertes von g(k,s) und eines entsprechenden logarithmischen Wertes von p(k,i,j) für die eingegebene Merkmalvektorsequenz X und liefert für jedes Modell einen akkumulierten Wert und eine Akkumulationszahl an den Diskriminator 25. Der Diskriminator 25 unterscheidet ein Modell M, dessen bedingte Wahrscheinlichkeit Pr(X M) maximiert ist, gemäß dem akkumulierten Wert und der Akkumulationszahl, die vom modifizierten CDHMM-Prozessor 22A geliefert wurden, und weist das Eingabesprachsignal der Kategorie des Modells M zu.
- In der oben beschriebenen zweiten Ausführungsform erhält der modifizierte Schulungsteil 24A Korrelationsmatrizen R(k,s) und Übergangswahrscheinlichkeiten p(k,i,j) einer Merkmalvektorsequenz X. Durchschnittsvektoren u(k,s) und Kovarianzmatrizen C(k,s), die durch den in Fig. 1 dargestellten herkömmlichen Schulungsteil 14 erhalten werden, werden durch den modifizierten Schulungsteil 24A nicht erhalten. Danach erhält der Schulungsteil 24A durch die K-L-Transformation der Korrelationsmatrizen R(k,s) obere L (orthogonale) Eigenvektoren φm(k,s) und gibt die orthogonalen Vektoren φm(k,s) und die Übergangswahrscheinlichkeiten p(k,i,j) im Speicherteil 23A vor. Der Speicherteil 23A speichert die orthogonalen Vektoren φm(k,s) statt der Kovarianzmatrizen C(k,s), die herkömmlicherweise im in Fig. 1 dargestellten Speicherteil 13 gespeichert werden. Weil die orthogonalen Vektoren φm(k,s) diejenigen Eigenvektoren sind, die bei einer Spracherkennung sehr wichtig sind, kann eine wünschenswerte Erkennungsrate erhalten werden. Weil die Anzahl von Achsen in φm(k,s) geringer als die in C(k,s) ist, wird außerdem der durch den modifizierten CDHMM-Prozessor 22A durchzuführende Berechnungsumfang reduziert.
- Die vorliegende Erfindung ist nicht auf die oben erwähnten Ausführungsformen beschränkt, und verschiedene Modifikationen können vorgenommen werden, ohne vom Umfang der vorliegenden Erfindung abzuweichen, die durch die beigefügten Ansprüche definiert ist.
- In jeder Ausführungsform wird eine Merkmalsequenz nach einer Sprachanalyse als Merkmalvektoren verwendet. Nachdem eine vorbestimmte Segmentsequenz aus einer Eingabesprache extrahiert ist, können z.B. Vektoren mit der Segmentbewertung als ein Element als Merkmalvektoren verwendet werden. Das Spracherkennungssystem ist ausgelegt, um die Merkmalvektoren zu verarbeiten, und kann Rauschen und verschiedenen Musterabweichungen entgegenwirken.
- Das Spracherkennungssystem ist ferner in einem Schulungsmodus betreibbar Dieser Modus ist jedoch nicht notwendig, falls ein Speicherteil vorgesehen ist, der Daten vorher speichert, die mit denjenigen identisch sind, die im Schulungsmodus erhalten wurden. In diesem Fall können der Schaltteil SW und der modifizierte Schulungsteil 24 oder 24A eliminiert werden.
- In den ersten und zweiten Ausführungsformen sind zwar Spracherkennungssysteme beschrieben; jedoch kann die vorliegende Erfindung auch auf Bilderkennungssysteme angewandt werden.
Claims (8)
1. Erkennungssystem mit:
einer Merkmal-Extrahiereinrichtung (21) zum Extrahieren
eines Merkmalvektors x aus einem Eingangssignal; und
einer Erkennungseinrichtung (22, 23, 25; 22A, 23A, 25)
zum Definieren von Hidden-Markov-Modellen mit stetiger Dichte
vorbestimmter Kategorien k als Übergangsnetzwerkmodelle, die
jeweils Parameter von Übergangswahrscheinlichkeiten p(k,i,j),
daß ein Zustand Si in einen nächsten Zustand Sj übergeht, und
Ausgabewahrscheinlichkeiten g(k,s) aufweisen, daß ein
Merkmalvektor x in einem Übergang vom Zustand Si in einen der
Zustände Si und Sj ausgegeben wird, und zum Erkennen des
Eingangssignals auf der Basis einer Ähnlichkeit zwischen einer
Sequenz X von durch die Merkmal-Extrahiereinrichtung (21)
extrahierten Merkmalvektoren und den HMMs mit stetiger Dichte;
dadurch gekennzeichnet, daß
die Erkennungseinrichtung eine Speichereinrichtung (23;
23A) zum Speichern eines Satzes orthogonaler Vektoren φm(k,s)
für einen Zustand s einer Kategorie k, die für die HMMs mit
stetiger Dichte vorgesehen sind, und eine
Verarbeitungseinrichtung (22; 22A) zum Erhalten jeder der
Ausgabewahrscheinlichkeiten g(k,s) für die HMMs mit stetiger Dichte gemäß
entsprechenden orthogonalen Vektoren φm(k,s) enthält.
2. Erkennungssystem nach Anspruch 1, dadurch
gekennzeichnet, daß die Speichereinrichtung einen Speicherabschnitt (22)
enthält, um Wahrscheinlichkeiten P(k), daß eine Kategorie k
erscheint, die Übergangswahrscheinlichkeiten p(k,i,j),
Durchschnittsvektoren u(k,s), die aus in Kovarianzmatrizen C(k,s)
enthaltenen vorbestimmten Eigenvektoren gebildeten
orthogonalen Vektoren φm(k,s) und Eigenwerte λm(k,s) für jedes HMM
mit stetiger Dichte zu speichern.
3. Erkennungssystem nach Anspruch 2, dadurch
gekennzeichnet, daß die Verarbeitungseinrichtung einen
Verarbeitungsabschnitt
(22) zum Erhalten der Ausgabewahrscheinlichkeiten
g(k,s) durch Einführen der orthogonalen Vektoren φm (k,s) in
die folgende Gleichung und Akkumulieren der Summe jedes
Wertes von g(k,s) und eines entsprechenden logarithmischen
Wertes von p(k,i,j) für die Merkmalvektorsequenz X, um einen
akkumulierten Wert und eine Akkumulationszählung für jedes
Modell zu erzeugen, und einen Diskriminator (25) zum Schätzen
einer Ähnlichkeit zwischen der Merkmalvektorsequenz X und
jedem HMM mit stetiger Dichte aus dem akkumulierten Wert und
der Akkumulationszählung für jedes Modell enthält,
worin [ ] ein inneres Produkt repräsentiert und L die Zahl von
Achsen des orthogonalen Vektorsatzes repräsentiert.
4. Erkennungssystem nach Anspruch 3, gekennzeichnet,
indem ferner eine Lerneinrichtung (24) zum Erhalten von
Übergangswahrscheinlichkeiten p (k, i, j), Durchschnittsvektoren
u(k, s) und Kovarianzmatrizen C(k,s) von einer von der
Merkmal-Extrahiereinrichtung (21) extrahierten
Merkmalvektorsequenz X, Erhalten von als die orthogonalen Vektoren φm(k,s)
dienenden oberen L Eigenvektoren und Eigenwerten λm (k,s)
durch die K-L-Transformation der Kovarianzmatrizen C(k,s) und
Voreinstellen der orthogonalen Vektoren φm (k,s), der
Eigenwerte λm(k,s), der Durchschnittsvektoren u(k,s) und der
Übergangswahrscheinlichkeiten p(k,i,j) in dem Speicherabschnitt
(23) aufweisend.
5. Erkennungssystem nach Anspruch 1, dadurch
gekennzeichnet, daß die Speichereinrichtung einen Speicherabschnitt
(23A) zum Speichern der Übergangswahrscheinlichkeiten
p(k,i,j) und der aus in Korrelationsmatrizen R(k,s) der
Merkmalvektorsequenz X enthaltenen vorbestimmten Eigenvektoren
gebildeten orthogonalen Vektoren φm (k,s) futr jedes HMM mit
stetiger Dichte enthält.
6. Erkennungssystem nach Anspruch 5, dadurch
gekennzeichnet, daß die Verarbeitungseinrichtung einen
Verarbeitungsabschnitt (22A) zum Erhalten der Ausgabewahrscheinlichkeiten
g(k,s) durch Einführen der orthogonalen Vektoren φm (k,s) in
die folgende Gleichung und Akkumulieren der Summe jedes
Wertes von g(k,s) und eines entsprechenden logarithmischen
Wertes von p(k,i,j) für die Merkmalvektorsequenz X, um einen
akkumulierten Wert und eine Akkumulationszählung für jedes
Modell zu erzeugen, und einen Diskriminator (25) zum Schätzen
einer Ähnlichkeit zwischen der Merkmalvektorsequenz X und
jedem HMM mit stetiger Dichte aus dem akkumulierten Wert und
der Akkumulationszählung für jedes Modell enthält,
worin [ ] ein inneres Produkt repräsentiert und L die Zahl von
Achsen des orthogonalen Vektorsatzes repräsentiert.
7. Erkennungssystem nach Anspruch 6, gekennzeichnet,
indem ferner eine Lerneinrichtung (24A) zum Erhalten von
Übergangswahrscheinlichkeiten p (k,i,j) und der
Korrelationsmatrizen R(k,s) von einer von der
Merkmal-Extrahiereinrichtung (21) extrahierten Merkmalvektorsequenz X, Erhalten von
als die orthogonalen Vektoren φm (k,s) dienenden oberen L
Eigenvektoren durch die K-L-Transformation der
Korrelationsmatrizen R(k,s) und Voreinstellen der orthogonalen Vektoren
φm(k,s) und der Übergangswahrscheinlichkeiten p(k,i,j) in dem
Speicherabschnitt (23A) aufweisend.
8. Erkennungssystem nach Anspruch 1, dadurch
gekennzeichnet, daß die Merkmal-Extrahiereinrichtung einen Extraktor
(21) zum Extrahieren eines Merkmalvektors aus einem
Eingangssprachsignal enthält.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4055713A JPH05257492A (ja) | 1992-03-13 | 1992-03-13 | 音声認識方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69318447D1 DE69318447D1 (de) | 1998-06-18 |
DE69318447T2 true DE69318447T2 (de) | 1998-11-05 |
Family
ID=13006522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69318447T Expired - Fee Related DE69318447T2 (de) | 1992-03-13 | 1993-03-12 | Erkennungssystem |
Country Status (4)
Country | Link |
---|---|
US (1) | US5506933A (de) |
EP (1) | EP0560378B1 (de) |
JP (1) | JPH05257492A (de) |
DE (1) | DE69318447T2 (de) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2105034C (en) * | 1992-10-09 | 1997-12-30 | Biing-Hwang Juang | Speaker verification with cohort normalized scoring |
FI98162C (fi) * | 1994-05-30 | 1997-04-25 | Tecnomen Oy | HMM-malliin perustuva puheentunnistusmenetelmä |
JP3581401B2 (ja) * | 1994-10-07 | 2004-10-27 | キヤノン株式会社 | 音声認識方法 |
JP2980228B2 (ja) * | 1994-10-25 | 1999-11-22 | 日本ビクター株式会社 | 音声認識用音響モデル生成方法 |
JPH08123462A (ja) * | 1994-10-27 | 1996-05-17 | Sony Corp | 音声認識装置 |
US5794198A (en) * | 1994-10-28 | 1998-08-11 | Nippon Telegraph And Telephone Corporation | Pattern recognition method |
US5812972A (en) * | 1994-12-30 | 1998-09-22 | Lucent Technologies Inc. | Adaptive decision directed speech recognition bias equalization method and apparatus |
US5710866A (en) * | 1995-05-26 | 1998-01-20 | Microsoft Corporation | System and method for speech recognition using dynamically adjusted confidence measure |
JP3453456B2 (ja) * | 1995-06-19 | 2003-10-06 | キヤノン株式会社 | 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置 |
JPH0981183A (ja) * | 1995-09-14 | 1997-03-28 | Pioneer Electron Corp | 音声モデルの作成方法およびこれを用いた音声認識装置 |
US6064958A (en) * | 1996-09-20 | 2000-05-16 | Nippon Telegraph And Telephone Corporation | Pattern recognition scheme using probabilistic models based on mixtures distribution of discrete distribution |
JP2991287B2 (ja) * | 1997-01-28 | 1999-12-20 | 日本電気株式会社 | 抑制標準パターン選択式話者認識装置 |
JP2991288B2 (ja) * | 1997-01-30 | 1999-12-20 | 日本電気株式会社 | 話者認識装置 |
US6260013B1 (en) * | 1997-03-14 | 2001-07-10 | Lernout & Hauspie Speech Products N.V. | Speech recognition system employing discriminatively trained models |
AT414325B (de) * | 1998-02-18 | 2007-07-15 | Teamaxess Ticketing Gmbh | Anordnung zum verkauf von berechtigungen |
US6606624B1 (en) * | 1999-08-13 | 2003-08-12 | The Regents Of The University Of California | Apparatus and method for recommending to an individual selective information contained within a computer network |
US6542866B1 (en) * | 1999-09-22 | 2003-04-01 | Microsoft Corporation | Speech recognition method and apparatus utilizing multiple feature streams |
US6405168B1 (en) * | 1999-09-30 | 2002-06-11 | Conexant Systems, Inc. | Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection |
KR100446630B1 (ko) * | 2002-05-08 | 2004-09-04 | 삼성전자주식회사 | 음성신호에 대한 벡터 양자화 및 역 벡터 양자화 장치와그 방법 |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
US8239332B2 (en) | 2007-11-20 | 2012-08-07 | Microsoft Corporation | Constrained line search optimization for discriminative training of HMMS |
JP5493867B2 (ja) * | 2007-12-20 | 2014-05-14 | 日本電気株式会社 | 統計モデル学習装置、方法及びプログラム |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
EP2550614A4 (de) * | 2010-03-23 | 2013-09-18 | Nokia Corp | Verfahren und vorrichtung zur bestimmung der altersspanne eines benutzers |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
JP6495850B2 (ja) * | 2016-03-14 | 2019-04-03 | 株式会社東芝 | 情報処理装置、情報処理方法、プログラムおよび認識システム |
US11132211B1 (en) * | 2018-09-24 | 2021-09-28 | Apple Inc. | Neural finite state machines |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58130393A (ja) * | 1982-01-29 | 1983-08-03 | 株式会社東芝 | 音声認識装置 |
JPH0296800A (ja) * | 1988-10-03 | 1990-04-09 | Nec Corp | 連続音声認識装置 |
US5033087A (en) * | 1989-03-14 | 1991-07-16 | International Business Machines Corp. | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system |
JP3004023B2 (ja) * | 1989-11-28 | 2000-01-31 | 株式会社東芝 | 音声認識装置 |
-
1992
- 1992-03-13 JP JP4055713A patent/JPH05257492A/ja active Pending
-
1993
- 1993-03-12 EP EP93104043A patent/EP0560378B1/de not_active Expired - Lifetime
- 1993-03-12 DE DE69318447T patent/DE69318447T2/de not_active Expired - Fee Related
- 1993-03-12 US US08/030,618 patent/US5506933A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP0560378A1 (de) | 1993-09-15 |
DE69318447D1 (de) | 1998-06-18 |
JPH05257492A (ja) | 1993-10-08 |
US5506933A (en) | 1996-04-09 |
EP0560378B1 (de) | 1998-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69318447T2 (de) | Erkennungssystem | |
DE69523219T2 (de) | Anpassungsfähiges Lernverfahren zur Mustererkennung | |
DE69827586T2 (de) | Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung | |
DE69422097T2 (de) | Training von kombinierten Kettenmodellen mit minimaler Fehlerrate | |
DE69818231T2 (de) | Verfahren zum diskriminativen training von spracherkennungsmodellen | |
DE69719236T2 (de) | Verfahren und System zur Spracherkennung mittels verborgener Markoff-Modelle mit kontinuierlichen Ausgangswahrscheinlichkeiten | |
DE69519297T2 (de) | Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen | |
DE69613338T2 (de) | Verfahren und system zur mustererkennung mittels baumstrukturierten wahrscheinlichkeitsdichten | |
DE4397106B4 (de) | Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung | |
DE69323841T2 (de) | Klassifikation bei Spracherkennung von isolierten Wörtern in Schlüsselwörter und Nicht-Schlüsselwörter | |
DE69816177T2 (de) | Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen | |
DE69226796T2 (de) | Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung | |
DE69620324T2 (de) | Unterscheidende Verifizierung von Äusserungen für die Erkennung zusammenhängender Ziffern | |
DE69322894T2 (de) | Lernverfahren und Gerät zur Spracherkennung | |
DE69705830T2 (de) | Sprachverarbeitung | |
DE69518705T2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE60111329T2 (de) | Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung | |
DE69127961T2 (de) | Verfahren zur Spracherkennung | |
DE69635655T2 (de) | Sprecherangepasste Spracherkennung | |
DE69229124T2 (de) | Mehrteiliger expertsystem | |
DE69726235T2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE68912397T2 (de) | Spracherkennung mit Sprecheranpassung durch Lernprozess. | |
DE60007637T2 (de) | Vermeidung von Online-Sprecherüberanpassung bei der Spracherkennung | |
DE68924134T2 (de) | Spracherkennungssystem. | |
DE69636209T2 (de) | Vorrichtung zur Sprachkodierung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |