DE3337353C2

DE3337353C2 - Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells

Info

Publication number: DE3337353C2
Application number: DE3337353A
Authority: DE
Inventors: Stephen Eliot Levinson; Lawrence Richard Rabiner; Man Mohan Sondhi
Original assignee: AT&T Technologies Inc
Current assignee: AT&T Corp
Priority date: 1982-10-15
Filing date: 1983-10-14
Publication date: 1996-05-09
Anticipated expiration: 2003-10-15
Also published as: FR2534719A1; JPH0422276B2; CA1187995A; US4587670A; FR2534719B1; DE3337353A1; JPS5991500A

Description

Die Erfindung betrifft einen Sprachanalysator zur Erkennung einer Äußerung als eines von einer Vielzahl von Bezugsmustern gemäß Anspruch 1.

Bei der Nachrichtenübertragung, Datenverarbeitung und in ähnlichen Anlagen ist es häufig wünschenswert, akustische Schnittstellenanordnungen zu verwenden. Eine Spracheingabe und eine Ausgabe von synthetisierter Sprache können für Anfragen, Befehle und den Austausch von Daten und anderen Informationen verwendet werden. Sprachschnittstellen ermöglichen einen Nachrichtenverkehr mit Datenverarbeitungseinrichtungen von entfernten Stellen aus, ohne daß manuell betätigte Bildschirmgeräte erforderlich sind, und ermöglichen die gleichzeitige Ausführung anderer Funktionen durch den Benutzer. Die Kompliziertheit der Sprachmuster und deren Änderungen von Sprecher zu Sprecher macht jedoch eine genaue Erkennung schwierig. Es sind zwar brauchbare Ergebnisse bei speziellen Anwendungsfällen beschränkt auf bestimmte Personen und mit eingeschränktem Vokabular erreicht worden, aber die Ungenauigkeit einer sprecherunabhängigen Erkennung hat deren Verwendung begrenzt.

Generell sind Spracherkennungsanordnungen in der Lage, ein unbekanntes Sprachmuster in eine Folge von vorgeschriebenen akustischen Merkmalssignalen umzusetzen. Diese Merkmalssignale werden dann mit vorher gespeicherten Sätzen akustischer Merkmalssignale verglichen, die identifizierte Bezugsmuster darstellen. Als Ergebnis des Vergleichs wird das unbekannte Sprachmuster als dasjenige Muster identifiziert, das das nach vorgegebenen Erkennungs kriterien am genauesten passende Bezugsmuster ist. Die Ge nauigkeit solcher Erkennungssysteme hängt in hohem Maß von den gewählten Merkmalen und den Erkennungskriterien ab. Der Vergleich zwischen der Eingangsfolge von Sprachmuster merkmalen und einer Bezugsfolge kann direkt durchgeführt werden. Es ist jedoch bekannt, daß die Sprachfrequenz und -artikulation in hohem Maße variabel sind.

Bekannte Erkennungsverfahren benutzen eine dyna mische Programmierung, um eine optimale Übereinstimmung zwischen den Mustern bei dem Vergleich zu bestimmen. Auf diese Weise werden die Einflüsse von unterschiedlichen Sprachfrequenzen und Sprachartikulationen gemildert. Die Signalverarbeitungsanordnungen für eine dynamische Zeitver zerrung und einen dynamischen Vergleich sind jedoch kompli ziert und zeitaufwendig, da die für eine Erkennung erforder liche Zeit eine Funktion der Größe des Bezugsvokabulars und der Anzahl von Bezugsmerkmalsschablonen für jedes Wort des Vokabulators ist. Im Ergebnis ist eine sprecherunabhängi ge Erkennung für Vokabulare in der Größenordnung von 50 Wörtern in Realzeit schwierig zu verwirklichen.

Ein weiterer Lösungsversuch für eine Spracher kennung beruht auf probabilistischen Markov-Modellen, die auf statistischen Schätzwerten fußende Sätze von Zuständen und Zustandsübergängen benutzen. Es sind sprecherabhängige Erkennungsanordnungen entwickelt worden, bei denen Spektral merkmalsfolgen erzeugt und in einer Folge von hierarchischen Markov-Modellen von Merkmalen, Wörtern und Sprache ausge wertet werden. Die Merkmalsfolgen werden in Markov-Modellen phonetischer Elemente analysiert. Die Modelle werden zu größeren akustischen Elementen, beispielsweise Wörtern, verknüpft. Die Ergebnisse werden dann auf eine Hierarchie von Markov-Modellen, beispielsweise syntaktischen Kontext- Modellen abgebildet, um eine Sprachmusteridentifizierung zu erhalten. Die Verwendung von Modellen verknüpfter phonemischer Elemente und die Kompliziertheit von Systemen unbeschränkter hierarchischer Markov-Modelle macht jedoch eine beträchtliche Einübung des Systems durch die identifizierten Sprecher erforderlich, um eine ausreichende Anzahl von Modellwerten zu gewinnen, damit die Markov-Modelle gültig werden.

In der US-PS 4,277,644 ist eine Mustererkennungsvorrichtung beschrieben, die insbesondere die Verwendung einer verbesserten Syntaxanalyse betrifft. Die Syntaxanalyse bedient sich der Tatsache, daß Wörter nur in einer bestimmten Reihenfolge in einem Satz Sinn ergeben. Die bekannte Vorrichtung erzeugt Syntaxsignale, die nur vorbestimmte Wortanordnungen zulassen, die als Bezugswortfolgen abgespeichert sind.

Aus der US-PS 4,348,553 ist eine Spracherkennungsanordnung bekannt, die ein Eingangssprachmuster zuerst in elementare Sprachsegmente zerlegt und anschließend diese jeweils mit einer Sammlung gespeicherter Prototypenmuster auf digitaler Basis vergleicht und dabei das Muster mit dem höchsten Korrelationsgehalt als das zu erkennende Sprachsegment identifiziert. Das bekannte Erkennungsverfahren wendet ferner eine dynamische Programmierung in Verbindung mit einem Markov- Prozeß an, um eine optimale Übereinstimmung zwischen den Sprachsegmenten bei einem Vergleich zu bestimmen. Die bekannte Vorrichtung ist allerdings kompliziert und zeitaufwendig, da die für eine Erkennung erforderliche Zeit eine Funktion der Größe des Bezugsvokabulars und der Anzahl von elementaren Sprachsegmenten für jedes Wort des Vokabulars ist.

Die vorliegende Erfindung hat zum Ziel, einen Sprachanalysator derart weiterzuentwickeln, daß er auf der Grundlage von Wahrscheinlichkeitsmodellen eine verbesserte automatische Spracherkennung erreicht, die nicht sprecherabhängig ist und mit höherer Geschwindigkeit einsetzbar ist.

Dieses Problem wird durch die Merkmale des Anspruchs 1 gelöst.

Weitere vorteilhafte Ausgestaltungen sind in den Unteransprüchen angegeben.

Nachfolgend wird die Erfindung anhand der Zeich nungen beschrieben. Es zeigen:

Fig. 1 schematisch ein Beispiel für ein beschränktes Markov-Modell mit verborgenem Wort, wie es bei der vorliegenden Erfindung be nutzt wird;

Fig. 2 ein allgemeines Flußdiagramm zur Erläuterung eines Ausführungsbeispiels der Erfindung;

Fig. 3 das Blockschaltbild einer Spracherkennungs schaltung nach der Erfindung;

Fig. 4, 5 und 6 genauere Flußdiagramme zur Erläuterung von Teilen der Arbeitsweise der Spracherkennungsschaltung nach Fig. 3:

Fig. 7 ein Gitterdiagramm zur Erläuterung der Arbeitsweise der Schaltung nach Fig. 3.

Allgemeine Beschreibung

In bekannter Weise kann ein verborgenes Markov- Modell zur Auswertung einer Folge von Beobachtungen O₁, O₂, . . . O_T benutzt werden, wobei jede Beobachtung ein dis kretes Symbol einer endlichen Anzahl solcher Symbole ist. Die Folge von Beobachtungen läßt sich deuten als Wahrschein lichkeitsfunktion einer zugrunde liegenden Markov-Kette mit Zustandsänderungen, die nicht direkt beobachtbar sind. Fig. 1 erläutert ein solches Modell.

In Fig. 1 sind N Zustände, beispielsweise 5, und M Ausgangssymbole, beispielsweise 64, vorhanden. Die Übergänge zwischen Zuständen wird durch eine Übergangsmatrix A = [a_ÿ] bestimmt. Jeder Ausdruck a_ÿ ist die Wahrscheinlichkeit für einen Übergang in den Zustand j unter der Voraussetzung, daß sich das Modell im Zustand i befindet. Die Ausgangs symbolwahrscheinlichkeit des Modells wird durch eine Matrix B = [b_j(O_t)] dargestellt, wobei b_j(O_t) die Wahrschein lichkeit für die Ausgabe des Symbols O_t ist, vorausgesetzt daß sich das Modell im Zustand i befindet. Das verborgene Markov-Modell kann zur Ableitung eines Satzes von Bezugs mustermodellen verwendet werden, und zwar ein Modell für jedes Muster im Vokabularsatz, und zur Klassifizierung einer Folge von Beobachtungen als eines der Bezugsmuster auf der Grundlage der Wahrscheinlichkeit für die Erzeugung der unbekannten Beobachtungen aus jedem Bezugsmustermodell.

Bei der Spracherkennung wird das Eingangssprach muster analysiert, um eine Folge von akustischen Merkmalen zu erzeugen. Jedes Merkmal kann ein linearer Vorhersage koeffizienten-Vektor (LPC-Vektor von Linear Prediction Coefficient) oder ein anderes akustisches Merkmal bekann ter Art sein. Die erzeugten Merkmalsvektoren werden mit einem endlichen Satz voher gespeicherter LC-Merkmalssig nale verglichen und in eine Folge von Vektor-quantisierten LPC-Signalen umgesetzt, die das Eingangssprachmuster dar stellen. Jedes der quantisierten Merkmalssignale ist eines aus dem endlichen Satz von M Symbolen, die bei dem verbor genen Markov-Modell benutzt werden können. Bei der Erken nungs-Betriebsart bildet die quantisierte LPC-Vektormerk malsfolge für eine Äußerung, beispielsweise ein Wort oder einen Ausdruck, die Beobachtungsfolge O und die Wahrschein lichkeit dafür, daß O durch ein Bezugsmustermodell K, bei spielsweise ein Wort oder einen Ausdruck eines Vokabular satzes, erzeugt wird, wie folgt gebildet:

wobei i₁, i₂, . . . i_T die Folge maximaler Wahrscheinlichkeit für die Markov-Modellzustände und O₁, O₂, . . . O_T die beobachtete Folge sind. Die Gleichung (1) läßt sich anhand der Vorwärts-Teilwahrscheinlichkeit Φ_t(i) schreiben, die defi niert ist als

Φ_t(i) = P(O₁O₂ . . . O_t und die Folge maximaler Wahrscheinlichkeit, die im Zustand i zum Zeitpunkt t | K). (2)

Φ_t+1(j) kann dann ausgedrückt werden als

für 1 j N und max {1, j-2} i j,

wobei

so daß Gleichung (1) wird:

P(O|K) = P = Φ_T(N). (4)

Nach Erzeugung des Wahrscheinlichkeitssignals für jedes Bezugsmustermodell kann das Eingangssprachmuster als dasjenige Bezugsmustermodell identifiziert werden, das dem Signal höchster Wahrscheinlichkeit entspricht.

Fig. 2 zeigt ein allgemeines Flußdiagramm zur Erläuterung der Arbeitsweise eines auf der Grundlage eines verborgenen Markov-Modell arbeitenden Spracherkenners. Wenn der Erkenner verfügbar ist (Kästchen 205), so wird das Ein gangssprachmuster in einer Folge von Digitalsignalen umge wandelt, wie Kästchen 210 zeigt. Die die Sprache darstel lenden Digitalsignale (Kästchen 210) werden dann in eine Zeitrahmenfolge von linearen Voraussagemerkmalssignalen umgesetzt (Kästchen 215). Die entsprechend dem Kästchen 215 erzeugten Signale entsprechen zwar den akustischen Merk malen des Eingangssprachmusters, die gewonnenen Signale sind aber nicht auf einen endlichen Satz begrenzt. Gemäß Kästchen 220 werden die akustischen Sprachmustermerkmale mit einem endlichen Satz von linearen Voraussagemerkmals vektoren verglichen, und es wird der am genauesten über einstimmende, gespeicherte Vektor für jedes Sprachmuster merkmalssignal gewählt. Auf diese Weise wird für jeden aufeinanderfolgenden Rahmen t des Sprachmusters ein quan tisiertes Merkmalsvektorsignal aus einem vorgegebenen end lichen Satz gewonnen. Das quantisierte Merkmalsvektorsignal ist dann die Eingangsbeobachtung für die Verarbeitung auf der Grundlage eines verborgenen Markov-Modells im Rahmen t.

Es wird ein Satz vorbestimmter Modelle gespeichert. Für jedes Bezugsmuster im Vokabular des Spracher kenners ist ein einziges Modell vorgesehen. Das Bezugmuster modell enthält eine Zustands-Ausgangssymbol-Signal matrix für jeden Modellzustand und eine Zustandswahrschein lichkeits-Signalmatrix entsprechend allen möglichen Über gängen zwischen den Zuständen für das Bezugsmustermodell. Die Bezugsmustermodelle werden entsprechend dem Kästchen 225 sequentiell gewählt, und die Wahrscheinlichkeit dafür, daß die quantisierte LPC-Vektor-Merkmalsfolgen des Eingangs sprachmusters aus dem gewählten Bezugswortmodell gewonnen wird, wird erzeugt und gespeichert (Kästchen 230). Nach Auswahl des letzten Bezugsmustermodells und Erzeugung des zugehörigen Wahrscheinlichkeitssignals wird das Maximum der Wahrscheinlichkeitssignale gewählt, und es wird ein Signal, das das beste Bezugsmuster identifiziert, zu einer Verbrauchereinrichtung übertragen, beispielsweise einem Datenverarbeiter oder einer Steueranlage.

Das verborgene Markov-Modell für jedes Bezugs muster wird so begrenzt, daß der Zustand 1 immer der Anfangszustand des ersten Rahmens ist, daß nur ein vorge schriebener Satz von Links-nach-rechts-Zustandsübergängen möglich ist und daß ein vorbestimmter Endzustand definiert ist, aus dem Übergänge in andere Zustände nicht stattfinden können. Diese Beschränkungen sind im Zustandsdiagramm gemäß Fig. 1 dargestellt. Dort ist der Zustand 1 der Anfangszustand, der Zustand 5 ist der End- oder Aufnahmezustand, und die vorgeschriebenen Übergänge von links nach rechts sind durch die Richtungspfeile zwischen den Zuständen angegeben.

Entsprechend dem Zustandsdiagramm nach Fig. 1 ist es nur möglich, in den Zustand 1 über den Weg 111 wieder einzutreten, über den Weg 112 zum Zustand 2 weiterzugeben oder über den Weg 113 vom Zustand 1 zum Zustand 3 zu gehen. Im allgemeinen sind die Übergänge auf das Wiedereintreten in einen Zustand oder das Eintreten in einen der nächsten beiden Zustände beschränkt. Es wurde festgestellt, daß diese Beschränkungen eine schnelle und genaue Erkennung von Sprach mustern ermöglichen. Die Erzeugung der Bezugsmustermodelle identifizierter Äußerungen für den Spracherkenner sind nicht auf die Sprachmuster eines identifizierten Sprechers be schränkt, sondern können aus den Äußerungen vieler unter schiedlicher Sprecher abgeleitet werden, so daß die Sprach erkennung sprecherunabhängig ist.

Ins Einzelne gehende Beschreibung

Fig. 3 zeigt ein allgemeines Blockschaltbild eines Spracherkenners zur Erläuterung der Erfindung. Die Schaltung gemäß Fig. 3 ist zur Erkennung von Sprechmustern vorgesehen, die einem elektroakustischen Wandler 300 zugeführt werden, und zur Lieferung vorgeschriebener Steuersignale einer Ver brauchereinrichtung (Verbrauchergerät) 380, die auf die identifizierten Muster anspricht. Gemäß Fig. 3 nimmt eine Filter- und Abtastschal tung 310 ein elektrisches Analagsignal vom Wandler 300 auf und führt eine Tiefpaßfilterung durch, so daß ein unerwünschtes Rauschen höherer Frequenzen entfernt wird. Die Grenz frequenz des Filters kann auf 3,2 kHz eingestellt werden. Das gefilterte Signal wird dann in bekannter Weise mit einer Frequenz von 6,7 kHz abgetastet.

Das abgetastete Signal wird einem Analog-Digital wandler 320 zugeführt, in welchem jeder aufeinanderfolgende Abtastwert in ein digitalcodiertes Signal umgesetzt wird, das die Größe des entsprechenden Abtastwertes darstellt. Die Folge codierter Signale wird einem LPC-Merkmalssignal generator 330 zugeführt. In bekannter Weise speichert der LPC-Merkmals signalgenerator 330 die digitalcodierte Signalfolge zeitweilig, gruppiert die Signale in aufeinanderfolgende, überlappen de Rahmen mit einer Dauer von 45 ms und erzeugt einen Satz von P linearen Voraussageparametersignalen für jeden Rahmen. Jeder Satz dieser LPC-Signale stellt akustische Merkmale des entsprechenden Rahmens dar. Es sei jedoch darauf hinge wiesen, daß der Fachmann auch spektrale oder andere akusti sche Merkmalssignale verwenden kann.

Der LPC-Merkmalssignalgenerator 330 stellt außerdem auf der Grundlage einer Energieanalyse der Merkmalssignalfolge den Endpunkt des dem Wandler 300 zugeführten Eingangssprach musters fest. Die Endpunkt-Feststellungsanordnung kann eine Anordnung sein, die in der US-PS 3 909 532 beschrieben ist. Alternativ können andere bekannte Verfahren zur Endpunktfeststellung benutzt werden.

Bei Feststellung eines Sprachmuster-Endpunktes im LPC-Merkmalssignalgenerator 330 wird das Steuersignal ST erzeugt und zum Erkennungsprozessor (Prozessorschaltung) 340 weitergeleitet, um dessen Operationen einzuleiten. Der Erkennungsprozessor (340) kann einen Mikroprozessor vom Typ MC68000 enthalten, der beschrieben ist in der Veröffentlichung "MC68000 16 Bit Microprocessor User's Manual", 2. Ausgabe, Motorola Inc., 1980. Die Ope rationsfolge des Erkennungsprozessors 340 wird durch einen fest ge speicherten Befehlssatz im Steuerprogrammspeicher (ROM) 335 gesteuert.

Ein Akustikmerkmal-Signalspeicher (Merkmalssignalspeicher) 370 nimmt die Rahmenfolge von LPC-Koeffizientensignalen, die das Eingangs sprachmuster darstellen, vom LPC-Merkmalssignalgenerator 330 auf und spei chert die Merkmalssignale in einer adressierbaren Rahmen reihenfolge zur Verwendung durch den Erkennungsprozessor 340. Ein Prototyp-Signalspeicher 365 enthält Signale, die einen Satz vorbestimmter LPC-Prototyp-Merkmalssignale dar stellen, welche den Bereich erwarteter LPC-Merkmalssignale im Eingangssprachmuster erfassen. Diese Prototyp-Signale bilden einen endlichen Satz von Symbolen für die Markov- Modell-Verarbeitung.

Ein Markov-Modellspeicher (Bezugsmusterspeicher) 360 enthält einen Satz codierter Signale entsprechend den verborgenen Wort-Markov- Modellen der möglichen Bezugsmuster für die unbekannte Äußerung, die dem Wandler 300 zugeführt wird. Jedes Markov- Modell umfaßt einen Satz von Signalen a_ÿ entsprechend der Wahrscheinlichkeit für die Übergänge zwischen Modellzu ständen und Signalen b_j(O_t) entsprechend der Ausgangssymbol wahrscheinlichkeit in jedem Zustand. Die Ausgangssymbole O_t, und zwar ein Symbol für jeden Sprachmusterrahmen t, entsprechen den Prototypsignalen im Prototypsignalspeicher 365. Jeder der Bezugsmusterspeicher 360 und Prototypsignalspeicher 365 kann einen Festwertspeicher ent halten, der durch den Erkennungsprozessor 340 adressierbar ist. Die Festwertspeicher speichern die Modell- und Prototypsignale permanent. Der Merkmalssignalspeicher 370 kann ein durch den Erkennungsprozessor 340 adressierbarer Schreib-Lesespeicher (RAM) sein. Der RAM 350 wird als Zwischenspeicher für die Signal verarbeitungsoperationen des Erkennungsprozessors benutzt, und die Schnittstelle (Schnittstellensammelleitung) 345 bildet eine Nachrichtenübertra gungsschnittstelle zwischen dem Erkennungsprozessor und den Einrichtungen in Fig. 3. Es könnte auch eine Q-Sammelleitungsanordnung verwendet werden.

Die Schaltung gemäß Fig. 3 kann zur Erkennung vieler unterschiedlicher Mustertypen benutzt werden. Zur Erläuterung wird eine Anordnung zur Erkennung von Ziffern, beispielsweise der Ziffern einer Fernsprechnummer oder einer Kreditkartennummer, beschrieben. Es sei angenommen, daß die englische Aussprache "nine" der Ziffer "Neun" dem Wand ler 300 zugeführt wird. Entsprechend den Kästchen 207 und 210 des Flußdiagramms in Fig. 2 wird das Eingangssprachmu ster in der Filter- und Abtastschaltung 310 gefiltert und abgetastet und dann im Analog-Digitalwandler 320 in ein Digitalsignal umgesetzt. Die Folge digitalcodierter Signale wird dem Eingang eines LPC-Merkmalssignalgenerators 330 zuge führt, in welchem die LPC-Koeffizientenmerkmalssignale für die aufeinanderfolgenden Rahmen des Sprachmusters "Nine" entsprechend dem Kästchen 215 erzeugt werden. Die erzeugten LPC-Merkmalssignale werden zum Aku stikmerkmal-Signalspeicher 370 übertragen, der durch den Rahmenindex t über die Leitung 332 adressiert wird. In jedem Rahmen wird in das Entscheidungskästchen 218 eingetre ten, um festzustellen, ob der Endpunkt des Musters erreicht worden ist. Bei Feststellung des Endpunktes wird das Signal ST im Merkmalssignalgenerator erzeugt und zum Erkennungs prozessor 340 übertragen.

Unter Ansprechen auf das Signal ST wird der Erkennungspro zessor 340 in seine Vektorquantisierungs-Betriebsart ge bracht, in welcher die LPC-Merkmalssignale im Merkmalssignalspeicher 370 entsprechend den Prototypsignalen im Prototypsignalspeicher 365 entsprechend dem Kästchen 220 quantisiert werden. Die Quantisierungs betriebsart ist genauer im Flußdiagramm gemäß Fig. 4 darge stellt.

Entsprechend Fig. 4 wird gemäß Kästchen 401 der LPC-Merkmalssignal-Rahmenindex t im Erkennungsprozessor 340 zu Anfang auf 0 zurückgestellt. Dann wird in die Schleife 403 einge treten, um die Einstellung des Prototyp-Index m einzuleiten. In der Schleife 403 wird der Rahmenindex t inkremen tiert (Kästchen 405), und der inkrementierte Rahmenindex wird mit dem letzten Rahmen (T) des Eingangssprachmusters verglichen (Kästchen 410). Solange nicht t<T ist, wird in das Kästchen 415 eingetreten, so daß das LPC-Merkmalssignal U_t des augenblicklichen Rahmeneingangssprachmusters im Merkmalssignal speicher 370 durch den Erkennungsprozessor 340 adressiert und zum RAM 350 übertragen wird. Das Signal, das den minimalen Ab stand zwischen dem Prototyp-Signal und dem Merkmalssignal (D_min) darstellt, wird zu Anfang auf Unendlich eingestellt (Kästchen 420), und der Prototyp-Index m wird im Erkennungsprozessor 340 auf 0 eingestellt (Kästchen 425). Gemäß Kästchen 430 wird dann der Prototyp-Index m im Erkennungsprozessor 340 inkremen tiert. Der inkrementierte Index m+1 wird anschließend ent sprechend Kästchen 435 mit dem letzten Index M=64 verglichen.

Zu diesem Zeitpunkt wird das augenblickliche Prototyp-Signal im Prototypsignalspeicher 365 adressiert und über den Erkennungsprozessor 340 zum RAM 350 übertragen (Kästchen 440). Es kann dann die Bestimmung des Prototyp-Signals R_m, das dem augenblicklichen Sprachmuster-Merkmalssignal U_t am ge nauesten entspricht, im Erkennungsprozessor 340 gestartet werden. Der Prozessor ist so eingerichtet, daß er iterativ das be kannte Itakura-Abstandsmetriksignal der Form

für jedes Prototyp-Signal bestimmt, wobei â ein LPC-Vektor von U_t, a ein LPC-Vektor aus R_m und V die Autokorrelations matrix auf R_m sind.

Zu Anfang werden das Abstandsmetriksignal d(U_t, R_m) und das Merkmalsindexsignal p entsprechend den Kästchen 445 und 450 auf 0 eingestellt. Dann wird in die Schleife 452 zur Abstandssignalbildung eingetreten, und für jeden Merkmalsindex wird das Abstandssignal gemäß Kästchen 455 entsprechend der folgenden Gleichung inkrementiert:

Das Indexsignal p wird im Erkennungsprozessor 340 inkrementiert (Kästchen 460), und es wird wieder über das Entscheidungs kästchen 465 in das Kästchen 455 eingetreten, bis p<P ist, wobei P das End-Merkmalsindexsignal ist. Das Abstandssignal wird in logarithmische Form gebracht (Kästchen 468) und dann entsprechend dem Entscheidungskästchen 470 mit D_min verglichen. Falls das augenblickliche Prototyp-Abstands signal gleich oder größer als D_min ist, wird erneut ohne Änderung von D_min in das Kästchen 430 eingetreten. Im an deren Fall wird das Prototyp-Indexsignal m als Darstellung des quantisierten Sprachmustersignals für den Rahmen t abge speichert, und das Abstandssignal für den Prototyp m wird als D_min im RAM 350 abgelegt. Dann wird erneut in das Käst chen 430 eingetreten. Wenn beim Kästchen 435 m<M ist, so wird O_t=m als das am genauesten entsprechende, quantisierte Signal gewählt und gemäß Kästchen 405 erneut in die Schleife 403 eingetreten, so daß die Quantisierung des nächsten Rahmens begonnen werden kann.

Wenn entsprechend dem Kästchen 410 der Sprach muster-Rahmenindex t größer als der letzte Sprachmuster rahmen T wird, ist eine Folge von quantisierten Signalan gaben O₁, O₂, . . . O_t . . . O_T für das Sprachmuster im Erkennungsprozessor 340 erzeugt worden und im RAM 350 abgespeichert. Das der Aussprache von "nine" entsprechende Sprachmuster kann beispielsweise 36 Rahmen besitzen, und es wird für jeden Rahmen eines von 64 möglichen Prototypsignalen gewählt. Auf diese Weise wird das Sprachmuster in eine Folge von quantisierten Signalen eines endlichen Satzes umgewandelt. Jeder quantisierte Signalindex O_t entspricht einem Satz von P linearen Voraussagekoeffizienten, die das quantisierte Akustikmerkmal eines Rahmens für das Sprachmuster darstellen. Für die Aussprache der Ziffer "nine" durch einen nicht identifizierten Sprecher kann die Folge quantisierter Merk malssignale auf den in der nachfolgenden Tabelle 1 aufge führten Signalen bestehen.

Tabelle 1

Nach Beendigung der Quantisierung geht der Erkennungspro zessor 340 aus der Quantisierungs-Betriebsweise und tritt in seine Markov-Modell-Auswertungsbetriebsweise entsprechend den Kästchen 225, 230 und 235 in Fig. 2 ein.

Während der Modellauswertungs-Betriebsweise werden die Markov-Modelle für den Satz von Bezugsmustern, bei spielsweise die Ziffern 0, 1, 2, . . . 9 nacheinander ausge wählt. Jedes Modell umfaßt eine A-Matrix der Übergangs wahrscheinlichkeitssymbole und eine B-Matrix der Symbolaus gangs-Wahrscheinlichkeitssignale. Die A-Matritzen für die Ziffern 0, 5 und 9 sind als Beispiel in den Tabellen 2, 3 und 4 dargestellt. Sterne stellen Übergänge dar, die durch das Modell verboten sind und als 0 bewertet werden.

Tabelle 2

Ziffer 0

A-Matrix

Tabelle 3

Ziffer 5

A-Matrix

Tabelle 4

Ziffer 9

A-Matrix

Jede der A-Matrix-Tabellen ist eine 5×5-Matrix darstellung für die Wahrscheinlichkeit aller Übergänge zwischen den fünf Zuständen des Modells in Fig. 1.

Entsprechend den Tabellen 2, 3 und 4 sind entsprechend den Einschränkungen des Modells nur Übergänge von links nach rechts in Fig. 1 möglich, die keine * oder Null- Werte haben. B-Matrizen für die Ziffern 0, 5 und 9 sind in den Tabellen 5, 6 bzw. 7 gezeigt. Je Spalteneintra gung in Tabelle 5 stellt die Wahrscheinlichkeit eines be stimmten Prototyp-Signals im entsprechenden Zustand für die Aussparung der Ziffer "zero" dar.

Es sind 64 Prototyp-Wahrscheinlichkeiten in jeder Zustandsspalte vorhanden, so daß die Größe der Matrix 5×64 beträgt. Die Tabellen 6 und 7 entsprechen den Ziffern "five" und "nine" auf entsprechende Weise.

Entsprechend dem Flußdiagramm in Fig. 2 werden die im Bezugsmusterspeicher 360 gespeicherten Markov-Modelle durch Adressie rung mittels des Musterindex k nacheinander aus diesem Speicher wiedergewonnen. Für jedes Modell wird ein Signal gebildet, das die Wahrscheinlichkeit dafür darstellt, daß die quantisierte Merkmalssignalfolge des Sprachmusters mit dem Modell übereinstimmt. Die Anordnungen zur Bildung des Wahrscheinlichkeitssignals sind genauer in Fig. 5 und 6 gezeigt. Generell wird zuerst ein Markov-Modell gewählt. Für das zu erkennende Sprachmuster wird das Modell Rahmen für Rahmen mit der quantisierten Signalfolge O₁, O₂ . . . O_t . . . O_T als Eingangssignal ausgewertet. Nach Beendigung der Auswertung für den letzten Sprachmusterrahmen wird ein Signal entsprechend der maximalen Wahrscheinlichkeit dafür, daß die quantisierte Signalfolge des Sprachmusters aus dem Modell abgeleitet worden ist, erzeugt.

Die Einschränkungen des in der Schaltung gemäß Fig. 3 benutzten verborgenen Wort-Markov-Modells mit Über gängen von links nach rechts machen es erforderlich, daß der Anfangszustand für den Rahmen t=1 nur der Zustand 1 in Fig. 1 ist und daß das logarithmische Wahrscheinlichkeits signal im Anfangszustand wird:

Φ₁(1) = ln(b₁(O1)). (7)

Der Wert Φ₁(1) wird aus der Eintragung m=14 der Spalte für den Zustand 1 der B-Matrix für die Ziffer abge leitet. Die logarithmischen Wahrscheinlichkeitssignale Φ₁(i), i=2, 3, 4 und 5 für den Rahmen t=1 werden auf - gesetzt, da diese Zustände im Modell nicht zulässig sind. Es werden dann die Signale ln(Φ₂(j)) für den Rahmen t=2 entsprechend dem folgenden Ausdruck gebildet:

für max {1, j-2}ij

unter Verwendung der Übergangswahrscheinlichkeitssignale in der A-Matrix für die Ziffer und der Symbolwahrscheinlich keitssignale in der B-Matrix entsprechend dem zweiten quan tisierten Rahmensignalindex m der Tabelle 1. Für jeden Be stimmungszustand j des Sprachmusterrahmens 2 wird das maxi male logarithmische Wahrscheinlichkeitssignal Φ₂(j) gespei chert. Es werden dann die logarithmischen Wahrscheinlich keitssignale für die aufeinanderfolgenden Zustände in der Rahmenfolge unter Verwendung der Matrixsignale A und B des Ziffernmodells und der Rahmenfolge quantisierter Sprach mustersignalindices t erzeugt. Nach der Verarbeitung des letzten Rahmens T wird das maximale logarithmische Wahr scheinlichkeitssignal für das Ziffernmodell aus dem Endzu stand 5 gewonnen, in welchem Übergänge auf andere Zustände nicht zulässig sind. Der Zustand 5 ist der aufnehmende oder absorbierende Zustand. Die Signalverarbeitung für den Satz von Ziffern wird nacheinander durchgeführt, und das größte der maximalen logarithmischen Wahrscheinlichkeitssignale sowie das entsprechende Ziffernidentifiziersignal wird im Speicher abgelegt. Bei Beendigung der Modellverarbeitung für die Ziffer "nine" wird das Sprachmuster als der Ziffern identifiziercode für das gespeichert gehaltene maximale logarithmische Wahrscheinlichkeitssignal identifiziert.

Die Markov-Modell-Verarbeitung entsprechend dem Kästchen 225, 230, 235 und 240 gemäß Fig. 2 wird von der Prozessorschaltung 340 entsprechend dem Flußdiagramm in Fig. 5 durchgeführt. Zu Anfang wird bei Beendigung der Quan tisierungs-Betriebsart aus dem Kästchen 220 in das Kästchen 501 eingetreten. Das logarithmische Signal maximaler Wahr scheinlichkeit wird auf seinen Minimalwert -∞ eingestellt und dann der gewählte Bezugsmusterindex k* auf -1 einge stellt. Der Bezugsmusterindex k wird auf -1 zurückgestellt (Kästchen 505) und dann auf 0 inkrementiert (Kästchen 507). Der augenblickliche Bezugsmusterindex k wird dann entspre chend dem Kästchen 510 mit dem letzten Indexwert K vergli chen. Da zu diesem Zeitpunkt k=0 ist, wird das Kästchen 515 gewählt, und die Matrixsignale A und B für die Ziffer k=0, d. h. "zero", werden adressiert und vom Bezugsmuster speicher 360 über die Prozessorschaltung 340 zum RAM 350 übertragen (Kästchen 515). Es wird dann das logarithmische Wahrscheinlichkeitssignal für die Ziffer "zero", nämlich ln P_C, entsprechend dem Kästchen 520 erzeugt. Wie oben erwähnt, stellt das Signal P_O die Wahr scheinlichkeit dafür dar, daß das quantisierte Eingangs sprachmuster aus dem Markov-Modell für die Ziffer "zero" gewonnen wird. Das Flußdiagramm gemäß Fig. 6 zeigt die Ein zelheiten für die Bildung des Signals ln P_k.

Gemäß Fig. 6 wird das Signal Φ₁(1) auf ln(b₁(O₁)) eingestellt (Kästchen 601) entsprechend dem Sig nal m=14 der Spalte 1 in der Matrix B gemäß Tabelle 5. Der Quellenzustandsindex i wird auf 1 eingestellt (Kästchen 605) und inkrementiert (Kästchen 607). Solange nicht i<N, dem Endzustand 5, ist, wird lnΦ₁(i) für i = 2, 3, . . . N auf -∞ eingestellt. Der Satz von Signalen Φ₁(1), Φ₁(2), . . . Φ₁(5) wird im RAM 350 gespeichert. Diese Signale Φ₁(i) entsprechen der Einschränkung, daß das Markov-Modell im ersten Zustand des ersten Sprachmusterrahmens beginnt. Fig. 7 zeigt ein baumförmiges Diagramm zur Darstellung der Folge von Zuständen des Markov-Modells für die aufeinander folgenden Eingangs-Sprachzeitrahmen 1, 2, 3 und 4. Die Spalte 710 entspricht dem ersten Rahmen, in welchem das quantisierte Indexsignal des Sprachmusters gleich O₁=14 ist. Die Spalten 720, 730 und 740 entsprechen dem zweiten, dritten bzw. vierten Rahmen. Die Markov-Zustände sind in absteigender Ordnung in jeder Spalte angegeben. Wie in Fig. 7 gezeigt ist, ist nur der Zustand 1 im ersten Zeitrahmen möglich.

Nach Bildung der Signale Φ₁(i) für den ersten Zeitrahmen wird nacheinander in die Kästchen 615 und 620 eingetreten, so daß der Zeitrahmenindex t auf 1 eingestellt und inkrementiert wird. Da der Zeitrahmenindex t nicht größer als der letzte Zeitrahmen T ist (Entscheidungskäst chen 625), wird der Bestimmungszustandsindex j entsprechend dem Kästchen 630 auf 0 eingestellt. Der Bestimmungsindex j wird gemäß Kästchen 635 auf 1 inkrementiert und mit dem Endzustand N=5 verglichen (Entscheidungskästchen 640). Ent sprechend den Einschränkungen des Markov-Modells gemäß Fig. 1 sind nur Übergänge in die nächsten beiden fol genden Zustände möglich. Demgemäß wird der Quellenzustands index i auf 0 eingestellt (Kästchen 650) und auf 1 inkre mentiert (Kästchen 652), um den Markov-Modell-Einschrän kungen zu genügen. Der Wert β, nämlich das maximale Φ₂(i), wird zu Anfang auf -∞ eingestellt (Kästchen 650).

Der inkrementierte Quellenzustandsindex i wird mit dem augenblicklichen Bestimmungszustandsindex j=1 ent sprechend Kästchen 654 verglichen und dann eingetreten in das Signalbildungskästchen 660 für den Sprachmuster-Zeit rahmens t=2, den Quellenzustandsindex i=1 des vorhergehenden Rahmens und den Bestimmungszustandsindex j=1. Das Signal α im Kästchen 660 entspricht dem Weg vom Zustand 1 in Spalte 710 (t=1) zum Zustand 1 in Spalte 720 (t=2), und sein Wert wird durch Summieren der vorher erzeugten Signale Φ₁(1) und ln(a₁₁b₁(O₂)) gewonnen. Der Signalindex O₂ ist das quantisierte Sprachmustersignal für den Rahmen t=2 in Tabelle 1. Das Signal a₁₁ wird aus den A-Matrixsignalen der Tabelle 2 in Spalte i=1 und Zeile j=1 erhalten, und das Signal b (O₂) wird aus der Eintragung m=14 in der Spalte des Zustandes 1 für die B-Matrix der Ziffer "zero" in Tabelle 5 gewonnen. Zu diesem Zeitpunkt ist α=-10,2 und β wird entsprechend dem Kästchen 665 und 670 auf diesen Wert eingestellt. Es wird dann wieder zum Inkrementieren des Quellenzustandsindex zurückgekehrt (Kästchen 652), so daß i=2 wird.

Da der Quellenzustandsindex i jetzt größer als der Bestimmungszustandsindex j=1 ist, wird Φ₂(1) auf β eingestellt (Kästchen 654 und 656), und der Bestimmungs zustandsindex j wird auf 2 inkrementiert (Kästchen 635). Der Quellenzustandsindex i wird auf 0 zurückgestellt und entsprechend den Kästchen 650 und 652 auf 1 inkrementiert. Gemäß Kästchen 660 wird das Signal α für die Indices t=2, i=1 und j=2 gebildet. Auf diese Weise wird der Weg vom Zustand 1 der Spalte 710 zum Zustand 2 der Spalte 720 in Fig. 7 durchschritten. Der Wert von α für t=2, i=1, j=2 ersetzt das Signal β=-∞ (Kästchen 665 und 670).

Wenn das Signal α für t=2, i=2 und j=2 gebildet ist, ist es kleiner als β, da Φ₁(2)=-∞ ist. Demgemäß wird β im Kästchen 670 nicht verändert. Es wird dann der Quellen zustandsindex i inkrementiert (Kästchen 652). Der in krementierte Index i=3 ist jetzt größer als j=2, und Φ₂(2) wird auf den für t=2, i=1 und j=2 gewonnenen Wert β einge stellt (Kästchen 656). In ähnlicher Weise wird entspre chend der Darstellung in Fig. 7 Φ₂(3) auf das Signal α für t=2, i=1 und j=3 eingestellt. Die Signale Φ₁(i) für i<1 sind auf -∞ eingestellt worden. Demgemäß werden für die Sig nale Φ₂(j) für j<3 auf -∞ eingestellt. Die Tabellen 8, 9 und 10 geben die logarithmischen Wahrscheinlichkeitssig nale Φ_t(j) für die Markov-Modell-Zustände in jedem Zeit rahmen t an.

Tabelle 8

Tabelle 9

Tabelle 10

Zeile 2 in Tabelle 8 gibt die Werte für Φ₂(1), Φ₂(2), Φ₂(3), Φ₂(4) und Φ₂(5) die bei der Markov-Modell- Signalverarbeitung gemäß Fig. 6 für den zweiten Sprach rahmen gewonnen worden sind.

Die Verarbeitung des zweiten Sprachrahmens ist beendet, wenn der Bestimmungszustand j entsprechend dem Entscheidungskästchen 640 größer als der Endzustand N=5 wird. Zu diesem Zeitpunkt wird der Sprachrahmenindex t auf 3 inkrementiert (Kästchen 620), und die Verarbeitung der Signale Φ₃(j) beginnt entsprechend dem Kästchen 630. Wie in Fig. 7 gezeigt, enthalten die möglichen Übergänge im Sprachmusterrahmen t=3 Übergänge vom Zustand 1 des Rahmens 2 (Spalte 720) zu den Zuständen 1, 2 und 3 des Rahmens 3 (Spalte 730), vom Zustand 2 des Rahmens 2 (Spalte 720) zu den Zuständen 2, 3 und 4 des Rahmens 3 (Spalte 730) und vom Zustand 3 des Rahmens 2 (Spalte 720) zu den Zuständen 3, 4 und 5 des Rahmens 3 (Spalte 730). Die Verarbeitung der Signale Φ₃(j) wird durchgeführt, wie mit Bezug auf die früheren Sprachmuster-Zeitrahmen gemäß Gleichung (8) be schrieben worden ist. Im Rahmen t=3 und in nachfolgenden Rahmen kann jedoch mehr als ein Quellenzustand für jeden Bestimmungszustand vorhanden sein. In Fig. 7 kann beispiels weise der Zustand 2 in Spalte 730 von den Zuständen 1 und 2 der Spalte 720 aus erreicht werden, und der Zustand 3 der Spalte 730 von den Zuständen 1, 2 und 3 der Spalte 720 aus. Für jeden Bestimmungszustand wird das erzeugte maximale Signal α entsprechend den Funktionen der Kästchen 665 und 670 als das Signal Φ₃(j) gespeichert. Mit Bezug auf den Zustand 2 der Spalte 730 gilt:

Die im Rahmen t=3 gewonnenen Signale Φ₃(1), Φ₃(2), Φ₃(3, Φ₃(4) und Φ₃(5) sind in der dritten Zeile der Tabelle 8 aufgeführt, und die Signale Φ₄(j), die sich bei der Ver arbeitung für den Rahmen t=4 ergeben, sind in der vierten Zeile der Tabelle 8 angegeben.

Die Signalverarbeitung gemäß Fig. 6 wird für die nachfolgenden Sprachrahmen entsprechend den Einschrän kungen des verborgenen Markov-Modells durchgeführt, um die maximale Wahrscheinlichkeit für das Eingangssprachmuster "nine" zu gewinnen, das aus den Matrixsignalen A und B für die Ziffer "zero" für jeden Zustand im Sprachmuster-Zeit rahmen abgeleitet wird. Nachdem α für die Indices t=36, i=5 und j=5 gewonnen worden ist, wird die Verarbeitung des letzten Zeitrahmens (T=36) entsprechend den Kästchen 665, 670, 652, 654 und 656 beendet. Es wird dann das Signal Φ_T(N) = 158,0 für den Endzustand N=5 erzeugt (Kästchen 656). Dieses Signal stellt die maximale logarithmische Wahr scheinlichkeit dafür dar, daß das Sprachmuster aus dem Markov-Modell für die Ziffer "zero" abgeleitet worden ist, und wird in der letzten Position der letzten Zeile (t=36) in Tabelle 8 aufgelistet.

Wenn der Rahmen t größer als der letzte Sprach musterrahmen T=36 wird, wird in das Kästchen 628 aus dem Entscheidungskästchen 625 eingetreten und das maximale Wahrscheinlichkeitssignal für die Ziffer "zero" gespeichert. Dann wird erneut in das Kästchen 507 gemäß Fig. 5 eingetre ten, und es beginnt die Markov-Verarbeitung für die Ziffer "one". Die Tabellen 9 und 10 zeigen die Markov-Modell- Verarbeitung für die Ziffern "five" und "nine".

Entsprechend den Kästchen 525 und 530 wird, nach dem das maximale logarithmische Wahrscheinlichkeitssignal für jede Ziffer gebildet ist, dieses Signal mit den größten Werten der Wahrscheinlichkeitswerte für die vorhergehende Ziffer verglichen, und es werden nur der größte Wert und sein Identitätscode k* gespeichert. Wenn die Verarbeitung für die Ziffer 0 beendet ist, so wird lnP_max auf -158,0 eingestellt (Tabelle 8), und k* wird entsprechend dem Käst chen 530 auf 0 eingestellt. Die Signale ln P_k für den Ziffern satz, die mit der Anordnung gemäß Fig. 3 für das Ein gangssprachmuster "nine" gewonnen worden sind, sind die jenigen für den letzten, absorbierenden Zustand 5 im Rahmen t=36.

Demgemäß bleiben ln P_max und k* von der Ziffer "zero" unverändert, bis das maximale logarithmische Wahr scheinlichkeitssignal für das Modell der Ziffer "nine" mit lnP_max im Entscheidungskästchen 525 verglichen wird. Als Ergebnis des Vergleichs wird in das Kästchen 530 eingetre ten. Das Signal ln P_max wird auf -156,9 und k* auf 9 einge stellt. Am Ende der Markov-Modell-Auswertungsbetriebsart ist das gespeicherte maximale Wahrscheinlichkeitssignal -156,9 und die gewählte Ziffer ist k*=9.

Die oben beschriebene Ziffernerkennung kann zur Erkennung einer Folge gesprochener Buchstaben, Ziffern oder Wörter, beispielsweise in einer Fernsprech- oder Kreditkar tennummer, benutzt werden. Nach Auswahl des Bezugsmodells mit dem Signal P(O|K) maximaler Wahrscheinlichkeit ent sprechend dem Kästchen 240 in Fig. 2 wird ein Bezugsindex signal erzeugt (Kästchen 245) und zur Verbrauchereinrich tung 280 übertragen, die eine Fernsprechvermittlungsanord nung oder ein Datenverarbeiter für Geschäftsvorgänge sein kann. Es wird dann in das Entscheidungskästchen 205 einge treten, so daß das nächste Sprachmuster des gesprochenen Eingangssignals verarbeitet werden kann. Die Anordnung gemäß Fig. 3 kann für die Erkennung anderer Sprachmuster, beispielsweise von Ausdrücken oder Sätzen, erweitert wer den, indem geeignete Markov-Modell-Bezugsschablonen ge wählt werden. Im Gegensatz zu bekannten Markov-Modell- Spracherkennungsanordnungen, bei denen Modelle kleiner Sprachelemente, beispielsweise von Phonemen, benutzt werden, wird bei der vorliegenden Erfindung ein einziges Modell des gesamten Bezugsmusters, beispielsweise eines Wortes oder eines Ausdrucks, zur Identifizierung einer Aus sprache als ein Bezugsmuster benutzt. Mit Vorteil ist die Anzahl der für eine Erkennung erforderlichen Zustände ver ringert, Schwierigkeiten bei der Verknüpfung von Phonemen oder anderen elementaren Sprachabschnittsmodellen werden vermieden, und es wird ein sprecherunabhängiger Betrieb auf der Grundlage verfügbarer Datenbasen erreichen. Die Markov- Modell-Schablonen, die im Bezugsmusterspeicher 360 gespeichert sind, werden aus Sprachäußerungen identifizierter Sprachmuster erzeugt, die von irgendeiner Quelle und von unterschiedlichen Sprechern stammen können. Es können Muster von bequem ver fügbaren Datenbanken oder gespeicherte Sprachäußerungen zur Erzeugung von Markov-Modellen für den Sprecher bei der sprecherunabhängigen Erkennungsanordnung gemäß Fig. 3 verwendet werden.

Claims

1. Sprachanalysator zur Erkennung einer Äußerung als eines von einer Vielzahl von Bezugsmustern, mit einem Bezugsmusterspeicherr (360) zur Speicherung einer Vielzahl von Signalen, die je einem begrenzten verborgenen Markov-Modell eines Bezugsmusters entsprechen, und mit einer Einrichtung (300, 310, 320, 330), die unter Ansprechen auf die Äußerung eine Zeitrahmenfolge akustischer Merkmalssignale ermittelt, die das Sprachmuster der Äußerung darstellen, gekennzeichnet durch
einen Prototyp-Signalspeicher (365) zur Speicherung vorbestimmter Merkmalssignale,
eine Prozessorschaltung (340), die unter Ansprechen auf die ermittelten akustischen Merkmalssignale entsprechend einer Ähnlichkeitsmetrik mehrere der vorbestimmten Merkmalssignale auswählt, die das Sprachmuster darstellen,
Einrichtung (340, 335), die unter gemeinsamen Ansprechen auf die ausgewählten vorbestimmten Merkmalssignale und auf die Signale für das begrenzte, verborgene Markov-Modell jedes Bezugsmuster ein die Wahrscheinlichkeit des Sprachmusters darstellendes Signal dafür erzeugen, daß das Sprachmuster das Bezugsmuster ist, und die unter Ansprechen auf die die Wahrscheinlichkeit darstellenden Signale das Sprachmuster als eines der Bezugsmuster erkennt.

2. Sprachanalysator nach Anspruch 1, dadurch gekennzeichnet, daß der Bezugsmusterspeicher (360) zur Speicherung einer Vielzahl der Signale, die je einem begrenzten verborgenen Markov-Modell eines Bezugsmusters entsprechen, eine Einrichtung zur Speicherung eines Satzes von Signalen aufweist, die Markov-Modellzuständen entsprechen, und zwar einschließlich eines Signals, das einem Anfangszustand entspricht, einer Vielzahl von Signalen, die mittleren Zuständen entsprechen, und eines Signals, das einem Endzustand entspricht, ferner eine Einrichtung zur Speicherung eines Satzes von Signalen, die je der Wahrscheinlichkeit für den Übergang zwischen einem vorbestimmten Paar von Zuständen entsprechen, und eine Einrichtung zur Speicherung eines Satzes von Signalen, die je die Wahrscheinlichkeit eines vorbestimmten Merkmalssignals darstellt, das in einem vorgeschriebenen Zustand auftritt.

3. Sprachanalysator nach Anspruch 2, dadurch gekennzeichnet, daß die Einrichtung (340, 335) zur Erzeugung von die Wahrscheinlichkeit darstellenden Signalen für jedes Bezugsmustermodell so ausgelegt ist, daß sie nacheinander Sprachmusterrahmen- Verarbeitungsintervallsignale erzeugt, daß sie im augenblicklichen Sprachmusterrahmen-Verarbeitungsintervall unter Ansprechen auf das gewählte, vorbestimmte, den augenblicklichen Sprachmusterrahmen darstellende Signal und die Bezugsmuster-Markov-Modellsignale einen Satz von Signalen erzeugt, die die Wahrscheinlichkeit dafür darstellen, daß das Bezugsmuster-Markov-Modell während dieses Sprachrahmens in einem vorgeschriebenen Zustand ist, und im letzten Sprachmusterrahmen-Verarbeitungsintervall unter Ansprechen auf das die Wahrscheinlichkeit dafür darstellende Signal, das das Bezugsmuster-Markov-Modell des letzten Sprachmusterrahmens im Endzustand ist, ein Signal bildet, das die Wahrscheinlichkeit dafür darstellt, daß das Sprachmuster aus dem Bezugsmuster-Markov-Modell gewonnen wird.

4. Sprachanalysator nach Anspruch 3, dadurch gekennzeichnet, daß die Einrichtung (340, 335) zur Erzeugung der die Wahrscheinlichkeit darstellenden Signale in jedem Sprachmusterrahmen-Verarbeitungsintervall unter Ansprechen auf die Markov-Modell-Zustandssignale, die Übergangswahrscheinlichkeitssignale und die Wahrscheinlichkeitssignale für das Auftreten der Merkmalssignale einen Satz von Signalen erzeugt, die die Wahrscheinlichkeit dafür darstellen, daß das Bezugsmuster- Markov-Modell entsprechend dem Sprachmusterteil bis zum augenblicklichen Rahmen sich in jedem der Bezugsmuster- Markov-Modellzustände befindet.

5. Sprachanalysator nach Anspruch 4, dadurch gekennzeichnet, daß der Prototyp-Signalspeicher (365) zur Speicherung der vorbestimmten Anzahl von vorbestimmten Merkmalssignalen eine Einrichtung zur Speicherung einer vorbestimmten Anzahl von Linear-Voraussagemerkmal(LPC)- Prototypsignalen aufweist, die den Bereich der erwarteten akustischen Merkmale des Sprachmusters erfassen.

6. Sprachanalysator nach Anspruch 4, dadurch gekennzeichnet, daß die Übergangswahrscheinlichkeitssignale entsprechend Übergängen von einem ersten bestimmten Zustand i in einen zweiten bestimmten Zustand j für J<i und J<i+2 Signale mit dem Wert 0 sind.

7. Sprachanalysator nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß das Sprachmuster die Aussprache eines Wortes und jedes Bezugsmuster ein identifiziertes gesprochenes Wortmuster ist.