DE69318447T2

DE69318447T2 - Erkennungssystem

Info

Publication number: DE69318447T2
Application number: DE69318447T
Authority: DE
Inventors: Tsuneo Nitta
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1992-03-13
Filing date: 1993-03-12
Publication date: 1998-11-05
Anticipated expiration: 2013-03-13
Also published as: EP0560378A1; DE69318447D1; JPH05257492A; US5506933A; EP0560378B1

Description

Die vorliegende Erfindung bezieht sich auf ein Erkennungssystem zum Erkennen eines in Form einer Sprache, eines Bildes oder dergleichen eingegebenen Signals und insbesondere auf ein Erkennungssystem, in dem zur Erkennung Hidden- Markov-Modelle (HMMs) verwendet werden.
In den letzten Jahren war die Spracherkennung mit einem diskreten HMM-Schema erfolgreich. Bei dieser Erkennung wird ein Sprachsignal durch eine Vektorquantisierung in eine vorbestimmte Codesequenz umgewandelt und auf der Basis einer Ähnlichkeit zwischen der Codesequenz und diskreten HMMs erkannt. Das diskrete HMM-Schema weist jedoch einen Nachteil auf, daß die Erkennungsrate durch Quantisierungsfehler gesenkt wird, die in der Vektorquantisierung auftreten.
Ein HMM-Schema mit stetiger Dichte (CDHMM) wurde entwikkelt, um die Quantisierungsfehler zu reduzieren. Bei der Spracherkennung dieses Schemas wird ein Sprachsignal durch Verwenden von CDHMMs erkannt, die für vorbestimmte Kategorien (Worte oder Phoneme) vorgesehen sind. Das CDHMM ist als ein Übergangsnetzwerkmodell definiert, das aus Zuständen mit jeweils einem Durchschnittsvektor u(k,s) und einer Kovananzmatrix C(k,s) besteht, wobei k eine Kategorie bezeichnet und s einen Zustand bezeichnet. Angenommen, die CDHMM- Spracherkennung werde für einen Ticketautomaten verwendet, in den Sprachsignale eingegeben werden, um Zielorte zu benennen. In diesem Fall entsprechen Worte, wie z.B. "TOKYO", "NAGOYA", "OSAKA" und dergleichen, den Kategorien, und Phoneme "T", "O", "K", "Y" und "O" entsprechen den Zuständen eines Netzwerkmodells für "TOKYO". Fig. 1 stellt ein typisches Übergangsnetzwerkmodell dar, das aus N Zuständen S&sub1;, S&sub2;,..., SN besteht. Der Anfangszustand S&sub1; ist am linken Ende des Übergangsnetzwerkmodells dargestellt, und der Endzustand SN ist am rechten Ende des Übergangsnetzwerkmodells dargestellt. In diesem Netzwerkmodell geht jeder Zustand mit einer bestimmten Wahrscheinlichkeit (Übergangswahrscheinlichkeit) in einen nächsten Zustand über, und ein merkmalvektor wird beim Übergang, außer für einen Nullübergang in den gleichen Zustand, mit einer bestimmten Wahrscheinlichkeit (Ausgabewahrscheinlichkeit) ausgegeben. Ein solches Netzwerkmodell wird "Hidden"-Markov-Modell genannt, weil nur eine Sequenz von Ausgabemerkmalvektoren beobachtbar ist.
In der CDHMM-Spracherkennung weist das Modell zwei Parameter von Übergangswahrscheinlichkeiten p(k,i,j) und Ausgabewahrscheinlichkeiten g(k,i,j) auf, wobei gelten:
p(k,i,j): Wahrscheinlichkeit eines Übergangs eines Zustands Si in einen nächsten Zustand Sj in einem Modell einer Kategorie k, und
g(k,i,j) : Wahrscheinlichkeit einer Ausgabe eines Merkmalvektors x beim Übergang vom Zustand Si in den Zustand Sj im Modell der Kategorie k.
Falls angenommen wird, daß der gleiche Merkmalvektor in einer Eigenschleife (engl. self-loop) von Si nach Si und beim Übergang von Si nach Sj ausgegeben wird, kann g(k,i,j) unter Verwendung eines Zustandes s als g(k,s) ausgedrückt werden. Der Einfachheit halber wird in der folgenden Beschreibung g(k,s) verwendet. Ein Sprachsignal wird erkannt, indem eine bedingte Wahrscheinlichkeit Pr(X M) jedes Modells M erhalten wird, das eine Merkmalvektorsequenz X = x1, x2, ... ausgibt, und die erhaltene bedingte Wahrscheinlichkeit ausgewertet wird.
Fig. 2 zeigt ein herkömmliches CDHMM-Spracherkennungssystem.
In diesem System extrahiert ein Merkmalextraktor 11 eine Sequenz von Merkmalvektoren x aus einer Eingabesprache. Ein Schaltteil SW wird geschaltet, um in einem Erkennungsmodus die Merkmalvektorsequenz X an einen CDHMM-Prozessor 12 zu liefern. Der CDHMM-Prozessor 12 liest Durchschnittsvektoren u(k,s) und Kovarianzmatrizen C(k,s) aus, die für Kategorien k und Zustände 5 vorgesehen und in einem Speicherteil 13 gespeichert sind, und definiert auf der Basis der ausgelesenen Durchschnittsvektoren u(k,s) und der Kovarianzmatrizen C(k,s) CDHMMs der Kategorien k. Im einzelnen berechnet der CDHMM-Prozessor 12 zu Anfang die folgende Gleichung (1), um Werte g (k,s) für die Zustände jedes Modells M zu erhalten.
In Gleichung (1) stellt P(k) einen festen Wert der Wahrscheinlichkeit dar, daß eine Kategorie k erscheint, stellt T eine Transposition und C&supmin;¹(k,s) eine inverse Matrix von C(k,s) dar. Der CDHMM-Prozessor 12 akkumuliert die erhaltenen Werte g(k,s) entlang der Zeitachse mittels eines bekannten Viterbi-Algorithmus (z.B. Seiichi Nakagawa, "Speech Recognition by Probability Models", Institute of Electronic and Communication Engineers of Japan, 3.1.3-(c), S. 44 - 46), um eine bedingte Wahrscheinlichkeit Pr(X M) jedes Modells M zu erhalten. Ein Diskriminator 15 erzeugt ein Erkennungsergebnis, das ein Modell M angibt, dessen bedingte Wahrscheinlichkeit Pr(X M) maximiert ist.
Der Schaltteil SW wird geschaltet, um in einem Trainings- bzw. Schulungsmodus eine Merkmalvektorsequenz X an einen Schulungsteil 14 zu liefern. Der Schulungsteil 14 schätzt u(k,s) und C(k,s) der Merkmalvektorsequenz X, die zum Bestimmen der Parameter (d.h. p(k,i,j) und g(k,s)) des Modells M erforderlich sind, dessen Wahrscheinlichkeit Pr(X M) maximiert ist. Diese Parameterschätzung kann mittels eines bekannten Vorwärts-Rückwärts-Algorithmus durchgeführt werden (z.B. Seiichi Nakagawa, "Speech Recognition by Probability Models", Institute of Electronic and Communication Engineers of Japan, 3.3.2, S. 69 - 73).
Wie oben beschrieben wurde, führt der CDHMM-Prozessor 12 die oben erwähnte Verarbeitung an einer Merkmalvektorsequenz einer ausgesprochenen Spracheingabe durch, und der Diskriminator 15 unterscheidet die Kategorie eines Modells M, dessen Wahrscheinlichkeit Pr(X M) maximiert ist. Das HMM-Schema mit stetiger Dichte kann theoretisch eine höhere Erkennungsrate als das diskrete HMM-Schema erreichen, falls die Kovarianzmatrizen C(k,s) eine große Zahl von Dimensionen aufweisen.
Die herkömmliche CDHMM-Spracherkennung ist jedoch für den praktischen Gebrauch nicht geeignet, weil eine große Menge an Schulungsdaten zum Bilden der großen Kovarianzmatrizen C(k,s) benötigt wird und eine lange Verarbeitungszeit zum Berechnen der großen Kovarianzmatrizen C(k,s) erforderlich ist. Um diese Probleme zu lösen, verwendet ein Verfahren nur Diagonalelemente der Kovarianzmatrizen oder ein HMM-Schema mit Mischdichte, worin eine Anzahl von Verteilungen bezüglich Merkmalvektoren vorbereitet ist. Obwohl diese Lösungen die Probleme lösen können, erzielt es keine gute Erkennungsrate.
Eine Aufgabe der vorliegenden Erfindung ist, ein Spracherkennungssystem zu schaffen, das imstande ist, die Erkennungsrate zu verbessern, ohne eine große Menge an Schulungsdaten und einen großen Berechnungsumfang zu erfordern.
Die Aufgabe kann durch ein Spracherkennungssystem gelöst werden, das einen Merkmalextraktor zum Extrahieren eines Merkmalvektors x aus einem Eingangssignal und einen Erkennungsteil enthält, um Hidden-Markov-Modelle mit stetiger Dichte vorbestimmter Kategorieren k als Übergangsnetzwerkmodelle zu definieren, die jeweils Parameter von Übergangswahrscheinlichkeiten p(k,i,j), daß ein Zustand Si in einen nächsten Zustand Sj übergeht, und Ausgabewahrscheinlichkeiten g(k,s) aufweisen, daß ein Merkmalvektor x in einem Überqang vom Zustand Si in einen der Zustände Si und Sj ausgegeben wird, und um das Eingangssignal auf der Basis einer Ähnlichkeit zwischen einer Sequenz X von durch den Extraktor extrahierten Merkmalvektoren und den HMMs mit stetiger Dichte zu erkennen, wobei der Erkennungsteil einen Speicherteil zum Speichern eines Satzes orthogonaler Vektoren φm(k,s), die für die HMMs mit stetiger Dichte vorgesehen sind, und einen Verarbeitungsteil enthält, um jede der Ausgabewahrscheinlichkeiten g(k,s) für die HMMs mit stetiger Dichte gemäß den entsprechenden orthogonalen Vektoren φm(k,s) zu erhalten.
Gemäß dem Erkennungssystem wird jede der Ausgabewahrscheinlichkeiten g (k,s) gemäß entsprechenden orthogonalen Vektoren φm(k,s) erhalten. Der orthogonale Vektorsatz kann eine kleine Anzahl (L) Achsen aufweisen, indem unnotige Vektorkomponenten ausgeschlossen werden, die Erkennungsfehler verursachen. Daher kann die Erkennungsrate verbessert werden, ohne eine große Menge an Schulungsdaten und einen großen Berechnungsumfang zu erfordern.
Diese Erfindung kann aus der folgenden ausführlichen Beschreibung vollständiger verstanden werden, wenn sie Verbindung mit den beigefügten Zeichnungen vorgenommen wird, in denen:
Fig. 1 eine Darstellung ist, die ein in einer herkömmlichen CDHMM-Spracherkennung verwendetes typisches Übergangsnetzwerkmodell darstellt;
Fig. 2 ein Blockdiagramm ist, das eine Anordnung eines herkömmlichen CDHMM-Spracherkennungssystems darstellt;
Fig. 3 ein Blockdiagramm ist, das eine Anordnung eines CDHMM-Spracherkennungssystems gemäß einer ersten Ausführungsform der vorliegenden Erfindung darstellt; und
Fig. 4 ein Blockdiagramm ist, das eine Anordnung eines CDHMM-Spracherkennungssystems gemäß einer zweiten Ausführungsform der vorliegenden Erfindung darstellt.
Mit Verweis auf Fig. 3 wird nun ein CDHMM-Spracherkennungsystem gemäß einer ersten Ausführungsform der vorliegenden Erfindung beschrieben.
Fig. 3 zeigt eine Anordnung des CDHMM-Spracherkennungssystems. Grundsätzlich wird im CDHMM-Spracherkennungssystem ein akustischer Merkmalvektor, wie z.B. ein Spektrum, ein Lineare-Vorhersage-Codierung-(LPC)-Cepstrum, ein Δ-Cepstrum oder ein zweidimensionales Segment davon (z.B. Zeitreihen) aus einem Eingabesprachsignal extrahiert und verwendet, um das Eingabesprachsignal auf der Basis einer Ähnlichkeit zwischen einer Sequenz der extrahierten Merkmalvektoren und CDHMMs der vorbestimmten Kategorien k einer von vorbestimmten Kategorien zuzuordnen. Jedes der CDHMMs ist als ein Übergangsnetzwerkmodell mit zwei Parametern von Übergangswahrscheinlichkeiten p(k,i,j), daß ein Zustand Si in einen nächsten Zustand Sj übergeht, und Ausgabewahrscheinlichkeiten g(k,s) definiert, daß ein Merkmalvektor x in einem Übergang vom Zustand Si in einen der Zustände Si und Sj ausgegeben wird.
Nach Fig. 3 enthält das Spracherkennungssystem einen Merkmalextraktor 21, einen modifizierten CDHMM-Prozessor 22, einen Speicherteil 23, einen modifizierten Schulungsteil 24, einen Diskriminator 25 und einen Schaltteil SW. Ein Signal einer ausgesprochenen Sprache wird in den Merkmalextraktor 21 eingegeben. Der Merkmalextraktor 21 extrahiert aus dem Eingangssignal sequentiell oben erwähnte Merkmalvektoren und liefert eine Sequenz der extrahierten Merkmalvektoren x (eine Merkmalvektorsequenz X) an den Schaltteil SW. Der Schaltteil SW wird geschaltet, um die Merkmalvektorsequenz X in einem Spracherkennungsmodus an den modifizierten CDHMM- Prozessor 22 und in einem Schulungsmodus an den modifizierten Schulungsteil 24 zu liefern.
Der modifizierte Schulungsteil 24 empfängt die vom Schaltteil SW im Schulungsmodus gelieferte Merkmalvektorsequenz X und erhält ebenso wie der in Fig. 1 dargestellte herkömmliche Schulungsteil 14 mittels des Vorwärts-Rückwärts-Alqorithmus Durchschnittsvektoren u(k,s), Kovarianzmatrizen C(k,s) und Übergangswahrscheinlichkeiten p(k,i,j) davon. Die Kovarianzmatrizen C(k,s) werden ferner einer bekannten K-L-Transformation unterzogen (z.B. E. Oja, "Subspace Method of Pattern Recognition", Research Studies Press of UK, 1983), um obere L Eigenvektoren, die als orthogonale Vektoren φm(k,s) dienen, und deren Eigenwerte λm(k,s) zu erhalten. Der Schulungsteil 24 stellt die orthogonalen Vektoren φm(k,s), die Eigenwerte λm(k,s), die Durchschnittsvektoren u(k,s) und die Übergangswahrscheinlichkeiten p(k,i,j) im Speicherteil 23 vorher ein bzw. gibt sie vor.
Der Speicherteil 23 speichert Wahrscheinlichkeiten P(k), daß eine Kategorie k erscheint, zusammen mit den orthogonalen Vektoren φm(k,s), den Eigenwerten λm(k,s), den Durchschnittsvektoren u(k,s) und den Übergangswahrscheinlichkeiten p(k,i,j). Die Wahrscheinlichkeiten P(k) werden nicht durch den modifizierten Schulungsteil 24 gespeichert. Falls angenommen wird, daß die auftretenden Wahrscheinlichkeiten der Kategorieren k einander gleich sind, muß P(k) im Speicherteil 23 nicht gespeichert werden.
Der modifizierte CDHMM-Prozessor 22 empfängt die vom Schaltteil SW gelieferte Merkmalvektorsequenz und definiert Hidden-Markov-Modelle mit stetiger Dichte vorbestimmter Kategorien k durch Verwenden der Inhalte des Speicherteils 23. Im einzelnen liest der CDHMM-Prozessor 22 die orthogonalen Vektoren φm(k,s) und die Übergangswahrscheinlichkeiten p(k,i,j) aus und erhält durch Einführen der orthogonalen Vektoren φm(k,s) in die folgende Gleichung (2) Ausgabewahrscheinlichkeiten g(k,s).
in der φmm(k,s) einen Satz orthogonaler Vektoren darstellt, x einen schon normierten Merkmalvektor darstellt, [ ] ein inneres Produkt darstellt und L die Anzahl der orthogonalen Vektoren (oder die Achsenzahl des orthogonalen Vektorsatzes) darstellt. Der Wert der Zahl L hängt von der Anzahl Grade von x ab und fällt gewöhnlich in den Bereich 3 ≤ L ≤ 40.
Der CDHMM-Prozessor 22 akkumuliert die Summe jedes (logarithmischen) Wertes von g(k,s), die durch Gleichung (2) ausgedrückt wird, und eines entsprechenden logarithmischen Wertes von p(k,i,j) für die eingegebene Merkmalvektorsequenz X und liefert für jedes Modell einen akkumulierten Wert und eine Akkumulationszahl an den Diskriminator 25.
Der Diskriminator 25 unterscheidet ein Modell M, dessen bedingte Wahrscheinlichkeit Pr(X M) maximiert ist, gemäß dem akkumulierten Wert und der Akkumulationszahl, die vom modifizierten CDHMM-Prozessor 22 geliefert wurden, und weist das Eingabesprachsignal der Kategorie des Modells M zu.
Außerdem kann in Gleichung (2) λm(k,s) durch eine Gewichtsfunktion fm(k,s) ersetzt werden, um eine n-Quadratwurzel von λm(k,s) zu erhalten. Eine solche Modifikation wird durchgeführt, wenn die Erkennungsrate durch Unterschätzen des Wertes eines unteren Teils verbessert wird.
Im folgenden wird der Betrieb dieses Systems beschrieben.
Im Schulungsmodus wird eine vom Merkmalextraktor 21 ausgegebene Merkmalvektorsequenz X über den Schaltteil SW an den modifizierten Schulungsteil 24 geliefert. Der modifizierte Schulungsteil 24 bestimmt aus der Merkmalvektorsequenz X orthogonale Vektoren φm(k,s), Eigenwerte λm(k,s), Durchschnittsvektoren u(k,s) und Übergangswahrscheinlichkeiten p(k,i,j) und stellt sie im Speicherteil 23 vorher ein, der schon P(k) speichert.
Im Spracherkennungsmodus wird eine vom Merkmalextraktor 21 ausgegebene Merkmalvektorsequenz X über den Schaltteil SW an den modifizierten CDHMM-Prozessor 22 geliefert. Der CDHMM-Prozessor 22 liest die orthogonalen Vektoren φm(k,s) und die Übergangswahrscheinlichkeiten p(k,i,j) aus dem Speicherteil 23 aus, erhält Ausgabewahrscheinlichkeiten g(k,s) durch Einführen der orthogonalen Vektoren φm(k,s) in Gleichung (2), akkumuliert die Summe jedes (logarithmischen) Wertes von g(k,s) und eines entsprechenden logarithmischen Wertes von p(k,i,j) für die eingegebene Merkmalvektorsequenz X und liefert für jedes Modell einen akkumulierten Wert und eine Akkumulationszahl an den Diskriminator 25. Der Diskriminator 25 unterscheidet ein Modell M, dessen bedingte Wahrscheinlichkeit Pr(X M) maximiert ist, gemäß dem akkumulierten Wert und der Akkumulationszahl, die vom modifizierten CDHMM-Prozessor 22 geliefert wurden, und weist das Eingabesprachsignal der Kategorie des Modells M zu.
In der oben beschriebenen ersten Ausführungsform erhält der modifizierte Schulungsteil 24 Durchschnittsvektoren u(k,s), Kovarianzmatrizen C(k,s) und Übergangswahrscheinlichkeiten p(k,i,j) einer Merkmalvektorsequenz X ebenso wie der in Fig. 1 dargestellte herkömmliche Schulungsteil 14. Der Schulungsteil 24 erhält danach obere L (orthogonale) Eigenvektoren φm(k,s) und Eigenwerte λm(k,s) durch die K-L- Transformation der Kovarianzmatrizen C(k,s) und gibt sie im Speicherteil 23 vor. Der Speicherteil 23 speichert die orthogonalen Vektoren φm(k,s) anstelle der Kovarianzmatrizen C(k,s), die im in Fig. 1 dargestellten Speicherteil 13 herkömmlicherweise gespeichert werden. Weil die orthogonalen Vektoren φm(k,s) diejenigen Eigenvektoren sind, die bei einer Erkennung sehr wichtig sind, kann eine wünschenswerte Erkennungsrate erhalten werden. Weil die Achsenzahl in φm(k,s) geringer als die in C(k,s) ist, wird außerdem der durch den modifizierten CDHMM-Prozessor 22 durchzuführende Berechnungsumfang reduziert.
Mit Verweis auf Fig. 4 wird nun ein CDHMM-Spracherkennungssystem gemäß einer zweiten Ausführungsform der vorliegenden Erfindung beschrieben. Dieses Erkennungssystem weist die gleiche Konstruktion wie die erste Ausführungsform auf, mit Ausnahme eines CDHMM-Prozessors 22A, eines Speicherteils 23A und eines modifizierten Schulungsteils 24A. In Fig. 4 sind ähnliche Teile durch die gleichen Bezugssymbole wie diejenigen in der ersten Ausführungsform dargestellt, und ihre ausführlichen Erklärungen werden der Einfachheit halber weggelassen.
In dieser Ausführungsform empfängt der modifizierte Schulungsteil 24A im Schulungsmodus eine vom Schaltteil SW gelieferte Merkmalvektorsequenz X, erhält Übergangswahrscheinlichkeiten p(k,i,j) und Korrelationsmatrizen R(k,s) der Merkmalvektorsequenz X und erhält dann durch die K-L- Transformation der Korrelationsmatrizen R(k,s) obere L Eigenvektoren, die als orthogonale Vektoren φm(k,s) dienen. Die orthogonalen Vektoren φm(k,s) und die Übergangswahrscheinlichkeiten p(k,i,j) werden im Speicherteil 23A voreingestellt.
Der modifizierte CDHMM-Prozessor 22A empfängt im Spracherkennungsmodus eine vom Schaltteil SW gelieferte Merkmalvektorsequenz X und definiert Hidden-Markov-Modelle mit stetiger Dichte vorbestimmter Kategorien k durch Verwenden der Inhalte des Speicherteils 23A. Im einzelnen liest der CDHMM- Prozessor 22A die orthogonalen Vektoren φm(k,s) und die Übergangswahrscheinlichkeiten p(k,i,j) aus dem Speicherteil 23A aus und erhält durch Einführen der orthogonalen Vektoren φm(k,s) in die folgende Gleichung (3) Ausgabewahrscheinlichkeiten g(k,s).
in der φm(k,s) einen Satz orthogonale Vektoren darstellt, x einen schon normierten Merkmalvektor darstellt, [ ] ein inneres Produkt darstellt und L die Anzahl der orthogonalen Vektoren (oder die Achsenzahl des orthogonalen Vektorsatzes) darstellt. Der Wert der Zahl L hängt von der Anzahl Grade von x ab und fällt gewöhnlich in den Bereich 3 ≤ L ≤ 40.
Der CDHMM-Prozessor 22A akkumuliert die Summe jedes (logarithmischen) Wertes von g(k,s), die durch Gleichung (3) ausgedrückt wird, und eines entsprechenden logarithmischen Wertes von p(k,i,j) für die eingegebene Merkmalvektorsequenz X und liefert für jedes Modell einen akkumulierten Wert und eine Akkumulationszahl an den Diskriminator 25.
Der Diskriminator 25 unterscheidet ein Modell M, dessen bedingte Wahrscheinlichkeit Pr(X M) maximiert ist, gemäß dem akkumulierten Wert und der Akkumulationszahl, die vom modifizierten CDHMM-Prozessor 22A geliefert wurden, und weist das Eingabesprachsignal der Kategorie des Modells M zu.
Gleichung (3) kann als Gleichung (2) betrachtet werden, falls P(k) und λm(k,s) in jeder Kategorie k gemeinsame Werte haben und eine der folgenden Annahmen bezüglich des Durchschnittsvektors f(k,s) hinzugefügt wird.
Annahme 1: "Für einen beliebigen Merkmalvektor ist immer eine inverse Kopie vorhanden". Durch diese Annahme kann der Wert des Durchschnittsvektors u(k,s) als "0" gegeben sein, und Gleichung (3) wird Gleichung (2) bis auf eine Vorspannungskomponente äquivalent.
Annahme 2: "Der Durchschnittsvektor u(k,s) approximiert bei einer Zunahme in der Schulungsdatenmenge asymptotisch einen gemeinsamen Vektor u". In diesem Fall kann der Merkmalvektor x in Gleichung (3) als ein Ergebnis betrachtet werden, das durch eine Art orthogonale Transformation (x' - u) T x des ursprünglichen Vektors x' erhalten wird. Der gemeinsame Vektor u ist ein Durchschnittsvektor von Merkmal vektoren, die gemäß für eine Schulung verwendeten Daten erhalten wurden. Man beachte, daß der gemeinsame Vektor durch einen Vektor u(s) ersetzt werden kann, der den Kategorien k gemeinsam ist, oder einen den Zustanden geminsamen Vektor u(k).
Annahme 3: Wenn ferner Annahme 2 definiert ist, "konvergiert der gemeinsame Vektor u, dem sich der Durchschnittsvektor u(k,s) asymptotisch nähert, gegen einen Vektor u&sub0; = (&epsi;, &epsi;, ..., &epsi;), in dem alle Elemente schließlich die gleichen Werte haben." In diesem Fall wird der Merkmalvektor x in Gleichung (2) als ein Vektor betrachtet, der durch die orthogonale Transformation (x' - &epsi;) T x des ursprünglichen Vektors x' erhalten wird. Außerdem wird auch die orthogonale Transformation (x' - Av(x')) T x in Betracht gezogen. Av(x') ist der Durchschnittswert der Merkmalvektoren x.
In Gleichung (3) ist g(k,s) nicht streng genommen die Auftrittswahrscheinlichkeit, sondern kann als Grad an Vertrauen in das Auftreten des Merkmalvektors x bezeichnet werden.
Im folgenden wird der Betrieb dieses Systems beschrieben.
Im Schulungsmodus wird eine vom Merkmalextraktor 21 ausgegebene Merkmalvektorsequenz X über den Schaltteil SW an den modifizierten Schulungsteil 24A geliefert. Der modifizierte Schulungsteil 24A bestimmt aus der Merkmalvektorsequenz x orthogonale Vektoren φm(k,s) und Übergangswahrscheinlichkeiten p(k,i,j) und gibt sie im Speicherteil 23A vor.
Im Spracherkennungsmodus wird eine vom Merkmalextraktor 21 ausgegebene Merkmalvektorsequenz X über den Schaltteil SW an den modifizierten CDHMM-Prozessor 22A geliefert. Der CDHMM-Prozessor 22A liest die orthogonalen Vektoren φm(k,s) und die Übergangswahrscheinlichkeiten p(k,i,j) aus dem Speicherteil 23A aus, erhält Ausgabewahrscheinlichkeiten g(k,s) durch Einführen der orthognalen Vektoren φm(k,s) in Gleichung (3), akkumuliert die Summe jedes (logarithmischen) Wertes von g(k,s) und eines entsprechenden logarithmischen Wertes von p(k,i,j) für die eingegebene Merkmalvektorsequenz X und liefert für jedes Modell einen akkumulierten Wert und eine Akkumulationszahl an den Diskriminator 25. Der Diskriminator 25 unterscheidet ein Modell M, dessen bedingte Wahrscheinlichkeit Pr(X M) maximiert ist, gemäß dem akkumulierten Wert und der Akkumulationszahl, die vom modifizierten CDHMM-Prozessor 22A geliefert wurden, und weist das Eingabesprachsignal der Kategorie des Modells M zu.
In der oben beschriebenen zweiten Ausführungsform erhält der modifizierte Schulungsteil 24A Korrelationsmatrizen R(k,s) und Übergangswahrscheinlichkeiten p(k,i,j) einer Merkmalvektorsequenz X. Durchschnittsvektoren u(k,s) und Kovarianzmatrizen C(k,s), die durch den in Fig. 1 dargestellten herkömmlichen Schulungsteil 14 erhalten werden, werden durch den modifizierten Schulungsteil 24A nicht erhalten. Danach erhält der Schulungsteil 24A durch die K-L-Transformation der Korrelationsmatrizen R(k,s) obere L (orthogonale) Eigenvektoren φm(k,s) und gibt die orthogonalen Vektoren φm(k,s) und die Übergangswahrscheinlichkeiten p(k,i,j) im Speicherteil 23A vor. Der Speicherteil 23A speichert die orthogonalen Vektoren φm(k,s) statt der Kovarianzmatrizen C(k,s), die herkömmlicherweise im in Fig. 1 dargestellten Speicherteil 13 gespeichert werden. Weil die orthogonalen Vektoren φm(k,s) diejenigen Eigenvektoren sind, die bei einer Spracherkennung sehr wichtig sind, kann eine wünschenswerte Erkennungsrate erhalten werden. Weil die Anzahl von Achsen in φm(k,s) geringer als die in C(k,s) ist, wird außerdem der durch den modifizierten CDHMM-Prozessor 22A durchzuführende Berechnungsumfang reduziert.
Die vorliegende Erfindung ist nicht auf die oben erwähnten Ausführungsformen beschränkt, und verschiedene Modifikationen können vorgenommen werden, ohne vom Umfang der vorliegenden Erfindung abzuweichen, die durch die beigefügten Ansprüche definiert ist.
In jeder Ausführungsform wird eine Merkmalsequenz nach einer Sprachanalyse als Merkmalvektoren verwendet. Nachdem eine vorbestimmte Segmentsequenz aus einer Eingabesprache extrahiert ist, können z.B. Vektoren mit der Segmentbewertung als ein Element als Merkmalvektoren verwendet werden. Das Spracherkennungssystem ist ausgelegt, um die Merkmalvektoren zu verarbeiten, und kann Rauschen und verschiedenen Musterabweichungen entgegenwirken.
Das Spracherkennungssystem ist ferner in einem Schulungsmodus betreibbar Dieser Modus ist jedoch nicht notwendig, falls ein Speicherteil vorgesehen ist, der Daten vorher speichert, die mit denjenigen identisch sind, die im Schulungsmodus erhalten wurden. In diesem Fall können der Schaltteil SW und der modifizierte Schulungsteil 24 oder 24A eliminiert werden.
In den ersten und zweiten Ausführungsformen sind zwar Spracherkennungssysteme beschrieben; jedoch kann die vorliegende Erfindung auch auf Bilderkennungssysteme angewandt werden.

Claims

1. Erkennungssystem mit:

einer Merkmal-Extrahiereinrichtung (21) zum Extrahieren eines Merkmalvektors x aus einem Eingangssignal; und

einer Erkennungseinrichtung (22, 23, 25; 22A, 23A, 25) zum Definieren von Hidden-Markov-Modellen mit stetiger Dichte vorbestimmter Kategorien k als Übergangsnetzwerkmodelle, die jeweils Parameter von Übergangswahrscheinlichkeiten p(k,i,j), daß ein Zustand Si in einen nächsten Zustand Sj übergeht, und Ausgabewahrscheinlichkeiten g(k,s) aufweisen, daß ein Merkmalvektor x in einem Übergang vom Zustand Si in einen der Zustände Si und Sj ausgegeben wird, und zum Erkennen des Eingangssignals auf der Basis einer Ähnlichkeit zwischen einer Sequenz X von durch die Merkmal-Extrahiereinrichtung (21) extrahierten Merkmalvektoren und den HMMs mit stetiger Dichte; dadurch gekennzeichnet, daß die Erkennungseinrichtung eine Speichereinrichtung (23; 23A) zum Speichern eines Satzes orthogonaler Vektoren φm(k,s) für einen Zustand s einer Kategorie k, die für die HMMs mit stetiger Dichte vorgesehen sind, und eine Verarbeitungseinrichtung (22; 22A) zum Erhalten jeder der Ausgabewahrscheinlichkeiten g(k,s) für die HMMs mit stetiger Dichte gemäß entsprechenden orthogonalen Vektoren φm(k,s) enthält.

2. Erkennungssystem nach Anspruch 1, dadurch gekennzeichnet, daß die Speichereinrichtung einen Speicherabschnitt (22) enthält, um Wahrscheinlichkeiten P(k), daß eine Kategorie k erscheint, die Übergangswahrscheinlichkeiten p(k,i,j), Durchschnittsvektoren u(k,s), die aus in Kovarianzmatrizen C(k,s) enthaltenen vorbestimmten Eigenvektoren gebildeten orthogonalen Vektoren φm(k,s) und Eigenwerte λm(k,s) für jedes HMM mit stetiger Dichte zu speichern.

3. Erkennungssystem nach Anspruch 2, dadurch gekennzeichnet, daß die Verarbeitungseinrichtung einen Verarbeitungsabschnitt (22) zum Erhalten der Ausgabewahrscheinlichkeiten g(k,s) durch Einführen der orthogonalen Vektoren φm (k,s) in die folgende Gleichung und Akkumulieren der Summe jedes Wertes von g(k,s) und eines entsprechenden logarithmischen Wertes von p(k,i,j) für die Merkmalvektorsequenz X, um einen akkumulierten Wert und eine Akkumulationszählung für jedes Modell zu erzeugen, und einen Diskriminator (25) zum Schätzen einer Ähnlichkeit zwischen der Merkmalvektorsequenz X und jedem HMM mit stetiger Dichte aus dem akkumulierten Wert und der Akkumulationszählung für jedes Modell enthält,

worin [ ] ein inneres Produkt repräsentiert und L die Zahl von Achsen des orthogonalen Vektorsatzes repräsentiert.

4. Erkennungssystem nach Anspruch 3, gekennzeichnet, indem ferner eine Lerneinrichtung (24) zum Erhalten von Übergangswahrscheinlichkeiten p (k, i, j), Durchschnittsvektoren u(k, s) und Kovarianzmatrizen C(k,s) von einer von der Merkmal-Extrahiereinrichtung (21) extrahierten Merkmalvektorsequenz X, Erhalten von als die orthogonalen Vektoren φm(k,s) dienenden oberen L Eigenvektoren und Eigenwerten λm (k,s) durch die K-L-Transformation der Kovarianzmatrizen C(k,s) und Voreinstellen der orthogonalen Vektoren φm (k,s), der Eigenwerte λm(k,s), der Durchschnittsvektoren u(k,s) und der Übergangswahrscheinlichkeiten p(k,i,j) in dem Speicherabschnitt (23) aufweisend.

5. Erkennungssystem nach Anspruch 1, dadurch gekennzeichnet, daß die Speichereinrichtung einen Speicherabschnitt (23A) zum Speichern der Übergangswahrscheinlichkeiten p(k,i,j) und der aus in Korrelationsmatrizen R(k,s) der Merkmalvektorsequenz X enthaltenen vorbestimmten Eigenvektoren gebildeten orthogonalen Vektoren φm (k,s) futr jedes HMM mit stetiger Dichte enthält.

6. Erkennungssystem nach Anspruch 5, dadurch gekennzeichnet, daß die Verarbeitungseinrichtung einen Verarbeitungsabschnitt (22A) zum Erhalten der Ausgabewahrscheinlichkeiten g(k,s) durch Einführen der orthogonalen Vektoren φm (k,s) in die folgende Gleichung und Akkumulieren der Summe jedes Wertes von g(k,s) und eines entsprechenden logarithmischen Wertes von p(k,i,j) für die Merkmalvektorsequenz X, um einen akkumulierten Wert und eine Akkumulationszählung für jedes Modell zu erzeugen, und einen Diskriminator (25) zum Schätzen einer Ähnlichkeit zwischen der Merkmalvektorsequenz X und jedem HMM mit stetiger Dichte aus dem akkumulierten Wert und der Akkumulationszählung für jedes Modell enthält, worin [ ] ein inneres Produkt repräsentiert und L die Zahl von Achsen des orthogonalen Vektorsatzes repräsentiert.

7. Erkennungssystem nach Anspruch 6, gekennzeichnet, indem ferner eine Lerneinrichtung (24A) zum Erhalten von Übergangswahrscheinlichkeiten p (k,i,j) und der Korrelationsmatrizen R(k,s) von einer von der Merkmal-Extrahiereinrichtung (21) extrahierten Merkmalvektorsequenz X, Erhalten von als die orthogonalen Vektoren φm (k,s) dienenden oberen L Eigenvektoren durch die K-L-Transformation der Korrelationsmatrizen R(k,s) und Voreinstellen der orthogonalen Vektoren φm(k,s) und der Übergangswahrscheinlichkeiten p(k,i,j) in dem Speicherabschnitt (23A) aufweisend.

8. Erkennungssystem nach Anspruch 1, dadurch gekennzeichnet, daß die Merkmal-Extrahiereinrichtung einen Extraktor (21) zum Extrahieren eines Merkmalvektors aus einem Eingangssprachsignal enthält.