DE3337353C2 - Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells - Google Patents
Sprachanalysator auf der Grundlage eines verborgenen Markov-ModellsInfo
- Publication number
- DE3337353C2 DE3337353C2 DE3337353A DE3337353A DE3337353C2 DE 3337353 C2 DE3337353 C2 DE 3337353C2 DE 3337353 A DE3337353 A DE 3337353A DE 3337353 A DE3337353 A DE 3337353A DE 3337353 C2 DE3337353 C2 DE 3337353C2
- Authority
- DE
- Germany
- Prior art keywords
- signals
- pattern
- speech
- signal
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000007704 transition Effects 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 23
- 230000004044 response Effects 0.000 claims description 6
- 108010076504 Protein Sorting Signals Proteins 0.000 abstract description 6
- 239000011159 matrix material Substances 0.000 description 22
- 238000001514 detection method Methods 0.000 description 13
- 239000013598 vector Substances 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 6
- 238000013139 quantization Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 235000010678 Paulownia tomentosa Nutrition 0.000 description 1
- 240000002834 Paulownia tomentosa Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
Die Erfindung betrifft einen Sprachanalysator zur
Erkennung einer Äußerung als eines von einer Vielzahl von
Bezugsmustern gemäß Anspruch 1.
Bei der Nachrichtenübertragung, Datenverarbeitung
und in ähnlichen Anlagen ist es häufig wünschenswert,
akustische Schnittstellenanordnungen zu verwenden. Eine
Spracheingabe und eine Ausgabe von synthetisierter Sprache
können für Anfragen, Befehle und den Austausch von Daten und
anderen Informationen verwendet werden. Sprachschnittstellen
ermöglichen einen Nachrichtenverkehr mit
Datenverarbeitungseinrichtungen von entfernten Stellen aus,
ohne daß manuell betätigte Bildschirmgeräte erforderlich
sind, und ermöglichen die gleichzeitige Ausführung anderer
Funktionen durch den Benutzer. Die Kompliziertheit der
Sprachmuster und deren Änderungen von Sprecher zu Sprecher
macht jedoch eine genaue Erkennung schwierig. Es sind zwar
brauchbare Ergebnisse bei speziellen Anwendungsfällen
beschränkt auf bestimmte Personen und mit eingeschränktem
Vokabular erreicht worden, aber die Ungenauigkeit einer
sprecherunabhängigen Erkennung hat deren Verwendung begrenzt.
Generell sind Spracherkennungsanordnungen in der
Lage, ein unbekanntes Sprachmuster in eine Folge von
vorgeschriebenen akustischen Merkmalssignalen umzusetzen.
Diese Merkmalssignale werden dann mit vorher gespeicherten
Sätzen akustischer Merkmalssignale verglichen, die
identifizierte Bezugsmuster darstellen. Als Ergebnis des
Vergleichs wird das unbekannte Sprachmuster als dasjenige
Muster identifiziert, das das nach vorgegebenen Erkennungs
kriterien am genauesten passende Bezugsmuster ist. Die Ge
nauigkeit solcher Erkennungssysteme hängt in hohem Maß von
den gewählten Merkmalen und den Erkennungskriterien ab.
Der Vergleich zwischen der Eingangsfolge von Sprachmuster
merkmalen und einer Bezugsfolge kann direkt durchgeführt
werden. Es ist jedoch bekannt, daß die Sprachfrequenz und
-artikulation in hohem Maße variabel sind.
Bekannte Erkennungsverfahren benutzen eine dyna
mische Programmierung, um eine optimale Übereinstimmung
zwischen den Mustern bei dem Vergleich zu bestimmen. Auf
diese Weise werden die Einflüsse von unterschiedlichen
Sprachfrequenzen und Sprachartikulationen gemildert. Die
Signalverarbeitungsanordnungen für eine dynamische Zeitver
zerrung und einen dynamischen Vergleich sind jedoch kompli
ziert und zeitaufwendig, da die für eine Erkennung erforder
liche Zeit eine Funktion der Größe des Bezugsvokabulars
und der Anzahl von Bezugsmerkmalsschablonen für jedes Wort
des Vokabulators ist. Im Ergebnis ist eine sprecherunabhängi
ge Erkennung für Vokabulare in der Größenordnung von 50
Wörtern in Realzeit schwierig zu verwirklichen.
Ein weiterer Lösungsversuch für eine Spracher
kennung beruht auf probabilistischen Markov-Modellen, die
auf statistischen Schätzwerten fußende Sätze von Zuständen
und Zustandsübergängen benutzen. Es sind sprecherabhängige
Erkennungsanordnungen entwickelt worden, bei denen Spektral
merkmalsfolgen erzeugt und in einer Folge von hierarchischen
Markov-Modellen von Merkmalen, Wörtern und Sprache ausge
wertet werden. Die Merkmalsfolgen werden in Markov-Modellen
phonetischer Elemente analysiert. Die Modelle werden zu
größeren akustischen Elementen, beispielsweise Wörtern,
verknüpft. Die Ergebnisse werden dann auf eine Hierarchie
von Markov-Modellen, beispielsweise syntaktischen Kontext-
Modellen abgebildet, um eine Sprachmusteridentifizierung zu
erhalten. Die Verwendung von Modellen verknüpfter
phonemischer Elemente und die Kompliziertheit von Systemen
unbeschränkter hierarchischer Markov-Modelle macht jedoch
eine beträchtliche Einübung des Systems durch die
identifizierten Sprecher erforderlich, um eine ausreichende
Anzahl von Modellwerten zu gewinnen, damit die Markov-Modelle
gültig werden.
In der US-PS 4,277,644 ist eine Mustererkennungsvorrichtung
beschrieben, die insbesondere die Verwendung einer verbesserten
Syntaxanalyse betrifft. Die Syntaxanalyse bedient sich der
Tatsache, daß Wörter nur in einer bestimmten Reihenfolge in
einem Satz Sinn ergeben. Die bekannte Vorrichtung erzeugt
Syntaxsignale, die nur vorbestimmte Wortanordnungen zulassen,
die als Bezugswortfolgen abgespeichert sind.
Aus der US-PS 4,348,553 ist eine Spracherkennungsanordnung
bekannt, die ein Eingangssprachmuster zuerst in elementare
Sprachsegmente zerlegt und anschließend diese jeweils mit einer
Sammlung gespeicherter Prototypenmuster auf digitaler Basis
vergleicht und dabei das Muster mit dem höchsten
Korrelationsgehalt als das zu erkennende Sprachsegment
identifiziert. Das bekannte Erkennungsverfahren wendet ferner
eine dynamische Programmierung in Verbindung mit einem Markov-
Prozeß an, um eine optimale Übereinstimmung zwischen den
Sprachsegmenten bei einem Vergleich zu bestimmen. Die bekannte
Vorrichtung ist allerdings kompliziert und zeitaufwendig, da die
für eine Erkennung erforderliche Zeit eine Funktion der Größe
des Bezugsvokabulars und der Anzahl von elementaren
Sprachsegmenten für jedes Wort des Vokabulars ist.
Die vorliegende Erfindung hat zum Ziel, einen
Sprachanalysator derart weiterzuentwickeln, daß er auf der
Grundlage von Wahrscheinlichkeitsmodellen eine verbesserte
automatische Spracherkennung erreicht, die nicht
sprecherabhängig ist und mit höherer Geschwindigkeit
einsetzbar ist.
Dieses Problem wird durch die Merkmale des
Anspruchs 1 gelöst.
Weitere vorteilhafte Ausgestaltungen sind in den
Unteransprüchen angegeben.
Nachfolgend wird die Erfindung anhand der Zeich
nungen beschrieben. Es zeigen:
Fig. 1 schematisch ein Beispiel für ein beschränktes
Markov-Modell mit verborgenem Wort,
wie es bei der vorliegenden Erfindung be
nutzt wird;
Fig. 2 ein allgemeines Flußdiagramm zur Erläuterung
eines Ausführungsbeispiels der
Erfindung;
Fig. 3 das Blockschaltbild einer Spracherkennungs
schaltung nach der Erfindung;
Fig. 4, 5 und 6 genauere Flußdiagramme zur Erläuterung
von Teilen der Arbeitsweise der
Spracherkennungsschaltung nach Fig. 3:
Fig. 7 ein Gitterdiagramm zur Erläuterung der
Arbeitsweise der Schaltung nach Fig. 3.
In bekannter Weise kann ein verborgenes Markov-
Modell zur Auswertung einer Folge von Beobachtungen O₁,
O₂, . . . OT benutzt werden, wobei jede Beobachtung ein dis
kretes Symbol einer endlichen Anzahl solcher Symbole ist.
Die Folge von Beobachtungen läßt sich deuten als Wahrschein
lichkeitsfunktion einer zugrunde liegenden Markov-Kette
mit Zustandsänderungen, die nicht direkt beobachtbar sind.
Fig. 1 erläutert ein solches Modell.
In Fig. 1 sind N Zustände, beispielsweise 5, und M
Ausgangssymbole, beispielsweise 64, vorhanden. Die Übergänge
zwischen Zuständen wird durch eine Übergangsmatrix A = [aÿ]
bestimmt. Jeder Ausdruck aÿ ist die Wahrscheinlichkeit für
einen Übergang in den Zustand j unter der Voraussetzung,
daß sich das Modell im Zustand i befindet. Die Ausgangs
symbolwahrscheinlichkeit des Modells wird durch eine Matrix
B = [bj(Ot)] dargestellt, wobei bj(Ot) die Wahrschein
lichkeit für die Ausgabe des Symbols Ot ist, vorausgesetzt
daß sich das Modell im Zustand i befindet. Das verborgene
Markov-Modell kann zur Ableitung eines Satzes von Bezugs
mustermodellen verwendet werden, und zwar ein Modell für
jedes Muster im Vokabularsatz, und zur Klassifizierung
einer Folge von Beobachtungen als eines der Bezugsmuster
auf der Grundlage der Wahrscheinlichkeit für die Erzeugung
der unbekannten Beobachtungen aus jedem Bezugsmustermodell.
Bei der Spracherkennung wird das Eingangssprach
muster analysiert, um eine Folge von akustischen Merkmalen
zu erzeugen. Jedes Merkmal kann ein linearer Vorhersage
koeffizienten-Vektor (LPC-Vektor von Linear Prediction
Coefficient) oder ein anderes akustisches Merkmal bekann
ter Art sein. Die erzeugten Merkmalsvektoren werden mit
einem endlichen Satz voher gespeicherter LC-Merkmalssig
nale verglichen und in eine Folge von Vektor-quantisierten
LPC-Signalen umgesetzt, die das Eingangssprachmuster dar
stellen. Jedes der quantisierten Merkmalssignale ist eines
aus dem endlichen Satz von M Symbolen, die bei dem verbor
genen Markov-Modell benutzt werden können. Bei der Erken
nungs-Betriebsart bildet die quantisierte LPC-Vektormerk
malsfolge für eine Äußerung, beispielsweise ein Wort oder
einen Ausdruck, die Beobachtungsfolge O und die Wahrschein
lichkeit dafür, daß O durch ein Bezugsmustermodell K, bei
spielsweise ein Wort oder einen Ausdruck eines Vokabular
satzes, erzeugt wird, wie folgt gebildet:
wobei i₁, i₂, . . . iT die Folge maximaler Wahrscheinlichkeit
für die Markov-Modellzustände und O₁, O₂, . . . OT die beobachtete
Folge sind. Die Gleichung (1) läßt sich anhand der
Vorwärts-Teilwahrscheinlichkeit Φt(i) schreiben, die defi
niert ist als
Φt(i) = P(O₁O₂ . . . Ot und die Folge maximaler
Wahrscheinlichkeit, die im Zustand i zum Zeitpunkt t | K). (2)
Φt+1(j) kann dann ausgedrückt werden als
für 1 j N und max {1, j-2} i j,
wobei
so daß Gleichung (1) wird:
P(O|K) = P = ΦT(N). (4)
Nach Erzeugung des Wahrscheinlichkeitssignals für
jedes Bezugsmustermodell kann das Eingangssprachmuster als
dasjenige Bezugsmustermodell identifiziert werden, das dem
Signal höchster Wahrscheinlichkeit entspricht.
Fig. 2 zeigt ein allgemeines Flußdiagramm zur
Erläuterung der Arbeitsweise eines auf der Grundlage eines
verborgenen Markov-Modell arbeitenden Spracherkenners. Wenn
der Erkenner verfügbar ist (Kästchen 205), so wird das Ein
gangssprachmuster in einer Folge von Digitalsignalen umge
wandelt, wie Kästchen 210 zeigt. Die die Sprache darstel
lenden Digitalsignale (Kästchen 210) werden dann in eine
Zeitrahmenfolge von linearen Voraussagemerkmalssignalen
umgesetzt (Kästchen 215). Die entsprechend dem Kästchen
215 erzeugten Signale entsprechen zwar den akustischen Merk
malen des Eingangssprachmusters, die gewonnenen Signale
sind aber nicht auf einen endlichen Satz begrenzt. Gemäß
Kästchen 220 werden die akustischen Sprachmustermerkmale
mit einem endlichen Satz von linearen Voraussagemerkmals
vektoren verglichen, und es wird der am genauesten über
einstimmende, gespeicherte Vektor für jedes Sprachmuster
merkmalssignal gewählt. Auf diese Weise wird für jeden
aufeinanderfolgenden Rahmen t des Sprachmusters ein quan
tisiertes Merkmalsvektorsignal aus einem vorgegebenen end
lichen Satz gewonnen. Das quantisierte Merkmalsvektorsignal
ist dann die Eingangsbeobachtung für die Verarbeitung
auf der Grundlage eines verborgenen Markov-Modells im Rahmen
t.
Es wird ein Satz vorbestimmter Modelle gespeichert.
Für jedes Bezugsmuster im Vokabular des Spracher
kenners ist ein einziges Modell vorgesehen. Das Bezugmuster
modell enthält eine Zustands-Ausgangssymbol-Signal
matrix für jeden Modellzustand und eine Zustandswahrschein
lichkeits-Signalmatrix entsprechend allen möglichen Über
gängen zwischen den Zuständen für das Bezugsmustermodell.
Die Bezugsmustermodelle werden entsprechend dem Kästchen
225 sequentiell gewählt, und die Wahrscheinlichkeit dafür,
daß die quantisierte LPC-Vektor-Merkmalsfolgen des Eingangs
sprachmusters aus dem gewählten Bezugswortmodell gewonnen
wird, wird erzeugt und gespeichert (Kästchen 230). Nach
Auswahl des letzten Bezugsmustermodells und Erzeugung des
zugehörigen Wahrscheinlichkeitssignals wird das Maximum
der Wahrscheinlichkeitssignale gewählt, und es wird ein
Signal, das das beste Bezugsmuster identifiziert, zu einer
Verbrauchereinrichtung übertragen, beispielsweise einem
Datenverarbeiter oder einer Steueranlage.
Das verborgene Markov-Modell für jedes Bezugs
muster wird so begrenzt, daß der Zustand 1 immer der
Anfangszustand des ersten Rahmens ist, daß nur ein vorge
schriebener Satz von Links-nach-rechts-Zustandsübergängen
möglich ist und daß ein vorbestimmter Endzustand definiert
ist, aus dem Übergänge in andere Zustände nicht stattfinden
können. Diese Beschränkungen sind im Zustandsdiagramm gemäß
Fig. 1 dargestellt. Dort ist der Zustand 1 der Anfangszustand,
der Zustand 5 ist der End- oder Aufnahmezustand, und die
vorgeschriebenen Übergänge von links nach rechts sind durch
die Richtungspfeile zwischen den Zuständen angegeben.
Entsprechend dem Zustandsdiagramm nach Fig. 1
ist es nur möglich, in den Zustand 1 über den Weg 111 wieder
einzutreten, über den Weg 112 zum Zustand 2 weiterzugeben
oder über den Weg 113 vom Zustand 1 zum Zustand 3 zu gehen.
Im allgemeinen sind die Übergänge auf das Wiedereintreten
in einen Zustand oder das Eintreten in einen der nächsten
beiden Zustände beschränkt. Es wurde festgestellt, daß diese
Beschränkungen eine schnelle und genaue Erkennung von Sprach
mustern ermöglichen. Die Erzeugung der Bezugsmustermodelle
identifizierter Äußerungen für den Spracherkenner sind nicht
auf die Sprachmuster eines identifizierten Sprechers be
schränkt, sondern können aus den Äußerungen vieler unter
schiedlicher Sprecher abgeleitet werden, so daß die Sprach
erkennung sprecherunabhängig ist.
Fig. 3 zeigt ein allgemeines Blockschaltbild eines
Spracherkenners zur Erläuterung der Erfindung. Die Schaltung
gemäß Fig. 3 ist zur Erkennung von Sprechmustern vorgesehen,
die einem elektroakustischen Wandler 300 zugeführt werden,
und zur Lieferung vorgeschriebener Steuersignale einer Ver
brauchereinrichtung (Verbrauchergerät) 380, die auf die identifizierten Muster
anspricht. Gemäß Fig. 3 nimmt eine Filter- und Abtastschal
tung 310 ein elektrisches Analagsignal vom Wandler 300 auf
und führt eine Tiefpaßfilterung durch, so daß ein unerwünschtes
Rauschen höherer Frequenzen entfernt wird. Die Grenz
frequenz des Filters kann auf 3,2 kHz eingestellt werden.
Das gefilterte Signal wird dann in bekannter Weise mit einer
Frequenz von 6,7 kHz abgetastet.
Das abgetastete Signal wird einem Analog-Digital
wandler 320 zugeführt, in welchem jeder aufeinanderfolgende
Abtastwert in ein digitalcodiertes Signal umgesetzt wird,
das die Größe des entsprechenden Abtastwertes darstellt.
Die Folge codierter Signale wird einem LPC-Merkmalssignal
generator 330 zugeführt. In bekannter Weise speichert der LPC-Merkmals
signalgenerator 330 die digitalcodierte Signalfolge zeitweilig,
gruppiert die Signale in aufeinanderfolgende, überlappen
de Rahmen mit einer Dauer von 45 ms und erzeugt einen Satz
von P linearen Voraussageparametersignalen für jeden Rahmen.
Jeder Satz dieser LPC-Signale stellt akustische Merkmale
des entsprechenden Rahmens dar. Es sei jedoch darauf hinge
wiesen, daß der Fachmann auch spektrale oder andere akusti
sche Merkmalssignale verwenden kann.
Der LPC-Merkmalssignalgenerator 330 stellt außerdem auf
der Grundlage einer Energieanalyse der Merkmalssignalfolge
den Endpunkt des dem Wandler 300 zugeführten Eingangssprach
musters fest. Die Endpunkt-Feststellungsanordnung kann eine
Anordnung sein, die in der US-PS 3 909 532
beschrieben ist. Alternativ können andere bekannte
Verfahren zur Endpunktfeststellung benutzt werden.
Bei Feststellung eines Sprachmuster-Endpunktes
im LPC-Merkmalssignalgenerator 330 wird das Steuersignal ST erzeugt
und zum Erkennungsprozessor (Prozessorschaltung) 340 weitergeleitet, um dessen
Operationen einzuleiten. Der Erkennungsprozessor (340) kann einen
Mikroprozessor vom Typ MC68000 enthalten, der beschrieben
ist in der Veröffentlichung "MC68000 16 Bit Microprocessor
User's Manual", 2. Ausgabe, Motorola Inc., 1980. Die Ope
rationsfolge des Erkennungsprozessors 340 wird durch einen fest ge
speicherten Befehlssatz im Steuerprogrammspeicher (ROM)
335 gesteuert.
Ein Akustikmerkmal-Signalspeicher (Merkmalssignalspeicher) 370 nimmt die
Rahmenfolge von LPC-Koeffizientensignalen, die das Eingangs
sprachmuster darstellen, vom LPC-Merkmalssignalgenerator 330 auf und spei
chert die Merkmalssignale in einer adressierbaren Rahmen
reihenfolge zur Verwendung durch den Erkennungsprozessor
340. Ein Prototyp-Signalspeicher 365 enthält Signale, die
einen Satz vorbestimmter LPC-Prototyp-Merkmalssignale dar
stellen, welche den Bereich erwarteter LPC-Merkmalssignale
im Eingangssprachmuster erfassen. Diese Prototyp-Signale
bilden einen endlichen Satz von Symbolen für die Markov-
Modell-Verarbeitung.
Ein Markov-Modellspeicher (Bezugsmusterspeicher) 360 enthält einen Satz
codierter Signale entsprechend den verborgenen Wort-Markov-
Modellen der möglichen Bezugsmuster für die unbekannte
Äußerung, die dem Wandler 300 zugeführt wird. Jedes Markov-
Modell umfaßt einen Satz von Signalen aÿ entsprechend der
Wahrscheinlichkeit für die Übergänge zwischen Modellzu
ständen und Signalen bj(Ot) entsprechend der Ausgangssymbol
wahrscheinlichkeit in jedem Zustand. Die Ausgangssymbole
Ot, und zwar ein Symbol für jeden Sprachmusterrahmen t,
entsprechen den Prototypsignalen im Prototypsignalspeicher 365. Jeder
der Bezugsmusterspeicher 360 und Prototypsignalspeicher 365 kann einen Festwertspeicher ent
halten, der durch den Erkennungsprozessor 340 adressierbar ist. Die
Festwertspeicher speichern die Modell- und
Prototypsignale permanent. Der Merkmalssignalspeicher 370 kann ein durch
den Erkennungsprozessor 340 adressierbarer Schreib-Lesespeicher (RAM)
sein. Der RAM 350 wird als Zwischenspeicher für die Signal
verarbeitungsoperationen des Erkennungsprozessors benutzt,
und die Schnittstelle (Schnittstellensammelleitung) 345 bildet eine Nachrichtenübertra
gungsschnittstelle zwischen dem Erkennungsprozessor und
den Einrichtungen in Fig. 3.
Es könnte auch eine Q-Sammelleitungsanordnung verwendet
werden.
Die Schaltung gemäß Fig. 3 kann zur Erkennung
vieler unterschiedlicher Mustertypen benutzt werden. Zur
Erläuterung wird eine Anordnung zur Erkennung von Ziffern,
beispielsweise der Ziffern einer Fernsprechnummer oder
einer Kreditkartennummer, beschrieben. Es sei angenommen,
daß die englische Aussprache "nine" der Ziffer "Neun" dem Wand
ler 300 zugeführt wird. Entsprechend den Kästchen 207 und
210 des Flußdiagramms in Fig. 2 wird das Eingangssprachmu
ster in der Filter- und Abtastschaltung 310 gefiltert und
abgetastet und dann im Analog-Digitalwandler 320 in ein
Digitalsignal umgesetzt. Die Folge digitalcodierter Signale
wird dem Eingang eines LPC-Merkmalssignalgenerators 330 zuge
führt, in welchem die LPC-Koeffizientenmerkmalssignale für
die aufeinanderfolgenden Rahmen des Sprachmusters "Nine"
entsprechend dem Kästchen 215 erzeugt
werden. Die erzeugten LPC-Merkmalssignale werden zum Aku
stikmerkmal-Signalspeicher 370 übertragen, der durch den
Rahmenindex t über die Leitung 332 adressiert wird. In jedem
Rahmen wird in das Entscheidungskästchen 218 eingetre
ten, um festzustellen, ob der Endpunkt des Musters erreicht
worden ist. Bei Feststellung des Endpunktes wird das Signal
ST im Merkmalssignalgenerator erzeugt und zum Erkennungs
prozessor 340 übertragen.
Unter Ansprechen auf das Signal ST wird der Erkennungspro
zessor 340 in seine Vektorquantisierungs-Betriebsart ge
bracht, in welcher die LPC-Merkmalssignale im Merkmalssignalspeicher 370
entsprechend den Prototypsignalen im Prototypsignalspeicher 365 entsprechend
dem Kästchen 220 quantisiert werden. Die Quantisierungs
betriebsart ist genauer im Flußdiagramm gemäß Fig. 4 darge
stellt.
Entsprechend Fig. 4 wird gemäß Kästchen 401 der
LPC-Merkmalssignal-Rahmenindex t im Erkennungsprozessor 340 zu Anfang
auf 0 zurückgestellt. Dann wird in die Schleife 403 einge
treten, um die Einstellung des Prototyp-Index m einzuleiten.
In der Schleife 403 wird der Rahmenindex t inkremen
tiert (Kästchen 405), und der inkrementierte Rahmenindex
wird mit dem letzten Rahmen (T) des Eingangssprachmusters
verglichen (Kästchen 410). Solange nicht t<T ist, wird in
das Kästchen 415 eingetreten, so daß das LPC-Merkmalssignal
Ut des augenblicklichen Rahmeneingangssprachmusters im Merkmalssignal
speicher 370 durch den Erkennungsprozessor 340 adressiert und zum
RAM 350 übertragen wird. Das Signal, das den minimalen Ab
stand zwischen dem Prototyp-Signal und dem Merkmalssignal
(Dmin) darstellt, wird zu Anfang auf Unendlich eingestellt
(Kästchen 420), und der Prototyp-Index m wird im Erkennungsprozessor
340 auf 0 eingestellt (Kästchen 425). Gemäß Kästchen 430
wird dann der Prototyp-Index m im Erkennungsprozessor 340 inkremen
tiert. Der inkrementierte Index m+1 wird anschließend ent
sprechend Kästchen 435 mit dem letzten Index M=64 verglichen.
Zu diesem Zeitpunkt wird das augenblickliche
Prototyp-Signal im Prototypsignalspeicher 365 adressiert und über den
Erkennungsprozessor 340 zum RAM 350 übertragen (Kästchen 440).
Es kann dann die Bestimmung des Prototyp-Signals Rm, das
dem augenblicklichen Sprachmuster-Merkmalssignal Ut am ge
nauesten entspricht, im Erkennungsprozessor 340 gestartet werden.
Der Prozessor ist so eingerichtet, daß er iterativ das be
kannte Itakura-Abstandsmetriksignal der Form
für jedes Prototyp-Signal bestimmt, wobei â ein LPC-Vektor
von Ut, a ein LPC-Vektor aus Rm und V die Autokorrelations
matrix auf Rm sind.
Zu Anfang werden das Abstandsmetriksignal
d(Ut, Rm) und das Merkmalsindexsignal p entsprechend den
Kästchen 445 und 450 auf 0 eingestellt. Dann wird in die
Schleife 452 zur Abstandssignalbildung eingetreten, und für
jeden Merkmalsindex wird das Abstandssignal gemäß Kästchen
455 entsprechend der folgenden Gleichung inkrementiert:
Das Indexsignal p wird im Erkennungsprozessor 340 inkrementiert
(Kästchen 460), und es wird wieder über das Entscheidungs
kästchen 465 in das Kästchen 455 eingetreten, bis p<P ist,
wobei P das End-Merkmalsindexsignal ist. Das Abstandssignal
wird in logarithmische Form gebracht (Kästchen 468) und
dann entsprechend dem Entscheidungskästchen 470 mit Dmin
verglichen. Falls das augenblickliche Prototyp-Abstands
signal gleich oder größer als Dmin ist, wird erneut ohne
Änderung von Dmin in das Kästchen 430 eingetreten. Im an
deren Fall wird das Prototyp-Indexsignal m als Darstellung
des quantisierten Sprachmustersignals für den Rahmen t abge
speichert, und das Abstandssignal für den Prototyp m wird
als Dmin im RAM 350 abgelegt. Dann wird erneut in das Käst
chen 430 eingetreten. Wenn beim Kästchen 435 m<M ist, so
wird Ot=m als das am genauesten entsprechende, quantisierte
Signal gewählt und gemäß Kästchen 405 erneut in die
Schleife 403 eingetreten, so daß die Quantisierung des nächsten
Rahmens begonnen werden kann.
Wenn entsprechend dem Kästchen 410 der Sprach
muster-Rahmenindex t größer als der letzte Sprachmuster
rahmen T wird, ist eine Folge von quantisierten Signalan
gaben O₁, O₂, . . . Ot . . . OT für das Sprachmuster im Erkennungsprozessor
340 erzeugt worden und im RAM 350 abgespeichert. Das
der Aussprache von "nine" entsprechende Sprachmuster kann
beispielsweise 36 Rahmen besitzen, und es wird für jeden
Rahmen eines von 64 möglichen Prototypsignalen gewählt.
Auf diese Weise wird das Sprachmuster in eine Folge von
quantisierten Signalen eines endlichen Satzes umgewandelt.
Jeder quantisierte Signalindex Ot entspricht einem Satz
von P linearen Voraussagekoeffizienten, die das quantisierte
Akustikmerkmal eines Rahmens für das Sprachmuster darstellen.
Für die Aussprache der Ziffer "nine" durch einen nicht
identifizierten Sprecher kann die Folge quantisierter Merk
malssignale auf den in der nachfolgenden Tabelle 1 aufge
führten Signalen bestehen.
Nach Beendigung der Quantisierung geht der Erkennungspro
zessor 340 aus der Quantisierungs-Betriebsweise und tritt
in seine Markov-Modell-Auswertungsbetriebsweise entsprechend
den Kästchen 225, 230 und 235 in Fig. 2 ein.
Während der Modellauswertungs-Betriebsweise werden
die Markov-Modelle für den Satz von Bezugsmustern, bei
spielsweise die Ziffern 0, 1, 2, . . . 9 nacheinander ausge
wählt. Jedes Modell umfaßt eine A-Matrix der Übergangs
wahrscheinlichkeitssymbole und eine B-Matrix der Symbolaus
gangs-Wahrscheinlichkeitssignale. Die A-Matritzen für die
Ziffern 0, 5 und 9 sind als Beispiel in den Tabellen 2,
3 und 4 dargestellt. Sterne stellen Übergänge dar, die durch
das Modell verboten sind und als 0 bewertet werden.
Jede der A-Matrix-Tabellen ist eine 5×5-Matrix
darstellung für die Wahrscheinlichkeit aller Übergänge
zwischen den fünf Zuständen des Modells in Fig. 1.
Entsprechend den Tabellen 2, 3 und 4 sind entsprechend
den Einschränkungen des Modells nur Übergänge von links
nach rechts in Fig. 1 möglich, die keine * oder Null-
Werte haben. B-Matrizen für die Ziffern 0, 5 und 9 sind
in den Tabellen 5, 6 bzw. 7 gezeigt. Je Spalteneintra
gung in Tabelle 5 stellt die Wahrscheinlichkeit eines be
stimmten Prototyp-Signals im entsprechenden Zustand für
die Aussparung der Ziffer "zero" dar.
Es sind 64 Prototyp-Wahrscheinlichkeiten in jeder
Zustandsspalte vorhanden, so daß die Größe der Matrix
5×64 beträgt. Die Tabellen 6 und 7 entsprechen den Ziffern
"five" und "nine" auf entsprechende Weise.
Entsprechend dem Flußdiagramm in Fig. 2 werden
die im Bezugsmusterspeicher 360 gespeicherten Markov-Modelle durch Adressie
rung mittels des Musterindex k nacheinander aus diesem
Speicher wiedergewonnen. Für jedes Modell wird ein Signal
gebildet, das die Wahrscheinlichkeit dafür darstellt, daß
die quantisierte Merkmalssignalfolge des Sprachmusters mit
dem Modell übereinstimmt. Die Anordnungen zur Bildung des
Wahrscheinlichkeitssignals sind genauer in Fig. 5 und 6
gezeigt. Generell wird zuerst ein Markov-Modell gewählt.
Für das zu erkennende Sprachmuster wird das Modell Rahmen
für Rahmen mit der quantisierten Signalfolge O₁, O₂ . . . Ot
. . . OT als Eingangssignal ausgewertet. Nach Beendigung der
Auswertung für den letzten Sprachmusterrahmen wird ein Signal
entsprechend der maximalen Wahrscheinlichkeit dafür,
daß die quantisierte Signalfolge des Sprachmusters aus dem
Modell abgeleitet worden ist, erzeugt.
Die Einschränkungen des in der Schaltung gemäß
Fig. 3 benutzten verborgenen Wort-Markov-Modells mit Über
gängen von links nach rechts machen es erforderlich, daß
der Anfangszustand für den Rahmen t=1 nur der Zustand 1
in Fig. 1 ist und daß das logarithmische Wahrscheinlichkeits
signal im Anfangszustand wird:
Φ₁(1) = ln(b₁(O1)). (7)
Der Wert Φ₁(1) wird aus der Eintragung m=14 der
Spalte für den Zustand 1 der B-Matrix für die Ziffer abge
leitet. Die logarithmischen Wahrscheinlichkeitssignale
Φ₁(i), i=2, 3, 4 und 5 für den Rahmen t=1 werden auf - gesetzt,
da diese Zustände im Modell nicht zulässig sind. Es werden
dann die Signale ln(Φ₂(j)) für den Rahmen t=2 entsprechend
dem folgenden Ausdruck gebildet:
für max {1, j-2}ij
unter Verwendung der Übergangswahrscheinlichkeitssignale
in der A-Matrix für die Ziffer und der Symbolwahrscheinlich
keitssignale in der B-Matrix entsprechend dem zweiten quan
tisierten Rahmensignalindex m der Tabelle 1. Für jeden Be
stimmungszustand j des Sprachmusterrahmens 2 wird das maxi
male logarithmische Wahrscheinlichkeitssignal Φ₂(j) gespei
chert. Es werden dann die logarithmischen Wahrscheinlich
keitssignale für die aufeinanderfolgenden Zustände in der
Rahmenfolge unter Verwendung der Matrixsignale A und B des
Ziffernmodells und der Rahmenfolge quantisierter Sprach
mustersignalindices t erzeugt. Nach der Verarbeitung des
letzten Rahmens T wird das maximale logarithmische Wahr
scheinlichkeitssignal für das Ziffernmodell aus dem Endzu
stand 5 gewonnen, in welchem Übergänge auf andere Zustände
nicht zulässig sind. Der Zustand 5 ist der aufnehmende oder
absorbierende Zustand. Die Signalverarbeitung für den Satz
von Ziffern wird nacheinander durchgeführt, und das größte
der maximalen logarithmischen Wahrscheinlichkeitssignale
sowie das entsprechende Ziffernidentifiziersignal wird im
Speicher abgelegt. Bei Beendigung der Modellverarbeitung
für die Ziffer "nine" wird das Sprachmuster als der Ziffern
identifiziercode für das gespeichert gehaltene maximale
logarithmische Wahrscheinlichkeitssignal identifiziert.
Die Markov-Modell-Verarbeitung entsprechend dem
Kästchen 225, 230, 235 und 240 gemäß Fig. 2 wird von der
Prozessorschaltung 340 entsprechend dem Flußdiagramm in
Fig. 5 durchgeführt. Zu Anfang wird bei Beendigung der Quan
tisierungs-Betriebsart aus dem Kästchen 220 in das Kästchen
501 eingetreten. Das logarithmische Signal maximaler Wahr
scheinlichkeit wird auf seinen Minimalwert -∞ eingestellt
und dann der gewählte Bezugsmusterindex k* auf -1 einge
stellt. Der Bezugsmusterindex k wird auf -1 zurückgestellt
(Kästchen 505) und dann auf 0 inkrementiert (Kästchen 507).
Der augenblickliche Bezugsmusterindex k wird dann entspre
chend dem Kästchen 510 mit dem letzten Indexwert K vergli
chen. Da zu diesem Zeitpunkt k=0 ist, wird das Kästchen
515 gewählt, und die Matrixsignale A und B für die Ziffer
k=0, d. h. "zero", werden adressiert und vom Bezugsmuster
speicher 360 über die Prozessorschaltung
340 zum RAM 350 übertragen (Kästchen 515). Es wird dann
das logarithmische Wahrscheinlichkeitssignal für die Ziffer
"zero", nämlich ln PC, entsprechend dem Kästchen 520
erzeugt. Wie oben erwähnt, stellt das Signal PO die Wahr
scheinlichkeit dafür dar, daß das quantisierte Eingangs
sprachmuster aus dem Markov-Modell für die Ziffer "zero"
gewonnen wird. Das Flußdiagramm gemäß Fig. 6 zeigt die Ein
zelheiten für die Bildung des Signals ln Pk.
Gemäß Fig. 6 wird das Signal Φ₁(1) auf
ln(b₁(O₁)) eingestellt (Kästchen 601) entsprechend dem Sig
nal m=14 der Spalte 1 in der Matrix B gemäß Tabelle 5. Der
Quellenzustandsindex i wird auf 1 eingestellt (Kästchen
605) und inkrementiert (Kästchen 607). Solange nicht i<N,
dem Endzustand 5, ist, wird lnΦ₁(i) für i = 2, 3, . . . N
auf -∞ eingestellt. Der Satz von Signalen Φ₁(1), Φ₁(2),
. . . Φ₁(5) wird im RAM 350 gespeichert. Diese Signale
Φ₁(i) entsprechen der Einschränkung, daß das Markov-Modell
im ersten Zustand des ersten Sprachmusterrahmens beginnt.
Fig. 7 zeigt ein baumförmiges Diagramm zur Darstellung der
Folge von Zuständen des Markov-Modells für die aufeinander
folgenden Eingangs-Sprachzeitrahmen 1, 2, 3 und 4. Die
Spalte 710 entspricht dem ersten Rahmen, in welchem das
quantisierte Indexsignal des Sprachmusters gleich O₁=14
ist. Die Spalten 720, 730 und 740 entsprechen dem zweiten,
dritten bzw. vierten Rahmen. Die Markov-Zustände sind in
absteigender Ordnung in jeder Spalte angegeben. Wie in Fig. 7
gezeigt ist, ist nur der Zustand 1 im ersten Zeitrahmen
möglich.
Nach Bildung der Signale Φ₁(i) für den ersten
Zeitrahmen wird nacheinander in die Kästchen 615 und 620
eingetreten, so daß der Zeitrahmenindex t auf 1 eingestellt
und inkrementiert wird. Da der Zeitrahmenindex t nicht
größer als der letzte Zeitrahmen T ist (Entscheidungskäst
chen 625), wird der Bestimmungszustandsindex j entsprechend
dem Kästchen 630 auf 0 eingestellt. Der Bestimmungsindex
j wird gemäß Kästchen 635 auf 1 inkrementiert und mit dem
Endzustand N=5 verglichen (Entscheidungskästchen 640). Ent
sprechend den Einschränkungen des Markov-Modells gemäß
Fig. 1 sind nur Übergänge in die nächsten beiden fol
genden Zustände möglich. Demgemäß wird der Quellenzustands
index i auf 0 eingestellt (Kästchen 650) und auf 1 inkre
mentiert (Kästchen 652), um den Markov-Modell-Einschrän
kungen zu genügen. Der Wert β, nämlich das maximale
Φ₂(i), wird zu Anfang auf -∞ eingestellt (Kästchen 650).
Der inkrementierte Quellenzustandsindex i wird
mit dem augenblicklichen Bestimmungszustandsindex j=1 ent
sprechend Kästchen 654 verglichen und dann eingetreten in
das Signalbildungskästchen 660 für den Sprachmuster-Zeit
rahmens t=2, den Quellenzustandsindex i=1 des vorhergehenden
Rahmens und den Bestimmungszustandsindex j=1. Das Signal
α im Kästchen 660 entspricht dem Weg vom Zustand 1 in Spalte
710 (t=1) zum Zustand 1 in Spalte 720 (t=2), und sein
Wert wird durch Summieren der vorher erzeugten Signale
Φ₁(1) und ln(a₁₁b₁(O₂)) gewonnen. Der Signalindex O₂ ist
das quantisierte Sprachmustersignal für den Rahmen t=2 in
Tabelle 1. Das Signal a₁₁ wird aus den A-Matrixsignalen
der Tabelle 2 in Spalte i=1 und Zeile j=1 erhalten, und das
Signal b (O₂) wird aus der Eintragung m=14 in der Spalte
des Zustandes 1 für die B-Matrix der Ziffer "zero" in
Tabelle 5 gewonnen. Zu diesem Zeitpunkt ist α=-10,2 und
β wird entsprechend dem Kästchen 665 und 670 auf diesen
Wert eingestellt. Es wird dann wieder zum Inkrementieren
des Quellenzustandsindex zurückgekehrt (Kästchen 652), so
daß i=2 wird.
Da der Quellenzustandsindex i jetzt größer als
der Bestimmungszustandsindex j=1 ist, wird Φ₂(1) auf β
eingestellt (Kästchen 654 und 656), und der Bestimmungs
zustandsindex j wird auf 2 inkrementiert (Kästchen 635).
Der Quellenzustandsindex i wird auf 0 zurückgestellt und
entsprechend den Kästchen 650 und 652 auf 1 inkrementiert.
Gemäß Kästchen 660 wird das Signal α für die Indices t=2,
i=1 und j=2 gebildet. Auf diese Weise wird der Weg vom Zustand
1 der Spalte 710 zum Zustand 2 der Spalte 720 in Fig. 7
durchschritten. Der Wert von α für t=2, i=1, j=2 ersetzt
das Signal β=-∞ (Kästchen 665 und 670).
Wenn das Signal α für t=2, i=2 und j=2 gebildet
ist, ist es kleiner als β, da Φ₁(2)=-∞ ist. Demgemäß wird
β im Kästchen 670 nicht verändert. Es wird dann der Quellen
zustandsindex i inkrementiert (Kästchen 652). Der in
krementierte Index i=3 ist jetzt größer als j=2, und Φ₂(2)
wird auf den für t=2, i=1 und j=2 gewonnenen Wert β einge
stellt (Kästchen 656). In ähnlicher Weise wird entspre
chend der Darstellung in Fig. 7 Φ₂(3) auf das Signal α für
t=2, i=1 und j=3 eingestellt. Die Signale Φ₁(i) für i<1
sind auf -∞ eingestellt worden. Demgemäß werden für die Sig
nale Φ₂(j) für j<3 auf -∞ eingestellt. Die Tabellen 8,
9 und 10 geben die logarithmischen Wahrscheinlichkeitssig
nale Φt(j) für die Markov-Modell-Zustände in jedem Zeit
rahmen t an.
Zeile 2 in Tabelle 8 gibt die Werte für Φ₂(1),
Φ₂(2), Φ₂(3), Φ₂(4) und Φ₂(5) die bei der Markov-Modell-
Signalverarbeitung gemäß Fig. 6 für den zweiten Sprach
rahmen gewonnen worden sind.
Die Verarbeitung des zweiten Sprachrahmens ist
beendet, wenn der Bestimmungszustand j entsprechend dem
Entscheidungskästchen 640 größer als der Endzustand N=5
wird. Zu diesem Zeitpunkt wird der Sprachrahmenindex t auf
3 inkrementiert (Kästchen 620), und die Verarbeitung der
Signale Φ₃(j) beginnt entsprechend dem Kästchen 630. Wie
in Fig. 7 gezeigt, enthalten die möglichen Übergänge im
Sprachmusterrahmen t=3 Übergänge vom Zustand 1 des Rahmens
2 (Spalte 720) zu den Zuständen 1, 2 und 3 des Rahmens 3
(Spalte 730), vom Zustand 2 des Rahmens 2 (Spalte 720) zu
den Zuständen 2, 3 und 4 des Rahmens 3 (Spalte 730) und
vom Zustand 3 des Rahmens 2 (Spalte 720) zu den Zuständen
3, 4 und 5 des Rahmens 3 (Spalte 730). Die Verarbeitung
der Signale Φ₃(j) wird durchgeführt, wie mit Bezug auf die
früheren Sprachmuster-Zeitrahmen gemäß Gleichung (8) be
schrieben worden ist. Im Rahmen t=3 und in nachfolgenden
Rahmen kann jedoch mehr als ein Quellenzustand für jeden
Bestimmungszustand vorhanden sein. In Fig. 7 kann beispiels
weise der Zustand 2 in Spalte 730 von den Zuständen 1 und
2 der Spalte 720 aus erreicht werden, und der Zustand 3
der Spalte 730 von den Zuständen 1, 2 und 3 der Spalte 720
aus. Für jeden Bestimmungszustand wird das erzeugte maximale
Signal α entsprechend den Funktionen der Kästchen 665 und
670 als das Signal Φ₃(j) gespeichert. Mit Bezug auf den
Zustand 2 der Spalte 730 gilt:
Die im Rahmen t=3 gewonnenen Signale Φ₃(1), Φ₃(2), Φ₃(3,
Φ₃(4) und Φ₃(5) sind in der dritten Zeile der Tabelle 8
aufgeführt, und die Signale Φ₄(j), die sich bei der Ver
arbeitung für den Rahmen t=4 ergeben, sind in der vierten
Zeile der Tabelle 8 angegeben.
Die Signalverarbeitung gemäß Fig. 6 wird für
die nachfolgenden Sprachrahmen entsprechend den Einschrän
kungen des verborgenen Markov-Modells durchgeführt, um die
maximale Wahrscheinlichkeit für das Eingangssprachmuster
"nine" zu gewinnen, das aus den Matrixsignalen A und B für
die Ziffer "zero" für jeden Zustand im Sprachmuster-Zeit
rahmen abgeleitet wird. Nachdem α für die Indices t=36,
i=5 und j=5 gewonnen worden ist, wird die Verarbeitung des
letzten Zeitrahmens (T=36) entsprechend den Kästchen 665,
670, 652, 654 und 656 beendet. Es wird dann das Signal
ΦT(N) = 158,0 für den Endzustand N=5 erzeugt (Kästchen 656).
Dieses Signal stellt die maximale logarithmische Wahr
scheinlichkeit dafür dar, daß das Sprachmuster aus dem
Markov-Modell für die Ziffer "zero" abgeleitet worden ist,
und wird in der letzten Position der letzten Zeile (t=36)
in Tabelle 8 aufgelistet.
Wenn der Rahmen t größer als der letzte Sprach
musterrahmen T=36 wird, wird in das Kästchen 628 aus dem
Entscheidungskästchen 625 eingetreten und das maximale
Wahrscheinlichkeitssignal für die Ziffer "zero" gespeichert.
Dann wird erneut in das Kästchen 507 gemäß Fig. 5 eingetre
ten, und es beginnt die Markov-Verarbeitung für die Ziffer
"one". Die Tabellen 9 und 10 zeigen die Markov-Modell-
Verarbeitung für die Ziffern "five" und "nine".
Entsprechend den Kästchen 525 und 530 wird, nach
dem das maximale logarithmische Wahrscheinlichkeitssignal
für jede Ziffer gebildet ist, dieses Signal mit den größten
Werten der Wahrscheinlichkeitswerte für die vorhergehende
Ziffer verglichen, und es werden nur der größte Wert und
sein Identitätscode k* gespeichert. Wenn die Verarbeitung
für die Ziffer 0 beendet ist, so wird lnPmax auf -158,0
eingestellt (Tabelle 8), und k* wird entsprechend dem Käst
chen 530 auf 0 eingestellt. Die Signale ln Pk für den Ziffern
satz, die mit der Anordnung gemäß Fig. 3 für das Ein
gangssprachmuster "nine" gewonnen worden sind, sind die
jenigen für den letzten, absorbierenden Zustand 5 im Rahmen
t=36.
Demgemäß bleiben ln Pmax und k* von der Ziffer
"zero" unverändert, bis das maximale logarithmische Wahr
scheinlichkeitssignal für das Modell der Ziffer "nine" mit
lnPmax im Entscheidungskästchen 525 verglichen wird. Als
Ergebnis des Vergleichs wird in das Kästchen 530 eingetre
ten. Das Signal ln Pmax wird auf -156,9 und k* auf 9 einge
stellt. Am Ende der Markov-Modell-Auswertungsbetriebsart
ist das gespeicherte maximale Wahrscheinlichkeitssignal
-156,9 und die gewählte Ziffer ist k*=9.
Die oben beschriebene Ziffernerkennung kann zur
Erkennung einer Folge gesprochener Buchstaben, Ziffern oder
Wörter, beispielsweise in einer Fernsprech- oder Kreditkar
tennummer, benutzt werden. Nach Auswahl des Bezugsmodells
mit dem Signal P(O|K) maximaler Wahrscheinlichkeit ent
sprechend dem Kästchen 240 in Fig. 2 wird ein Bezugsindex
signal erzeugt (Kästchen 245) und zur Verbrauchereinrich
tung 280 übertragen, die eine Fernsprechvermittlungsanord
nung oder ein Datenverarbeiter für Geschäftsvorgänge sein
kann. Es wird dann in das Entscheidungskästchen 205 einge
treten, so daß das nächste Sprachmuster des gesprochenen
Eingangssignals verarbeitet werden kann. Die Anordnung
gemäß Fig. 3 kann für die Erkennung anderer Sprachmuster,
beispielsweise von Ausdrücken oder Sätzen, erweitert wer
den, indem geeignete Markov-Modell-Bezugsschablonen ge
wählt werden. Im Gegensatz zu bekannten Markov-Modell-
Spracherkennungsanordnungen, bei denen Modelle kleiner
Sprachelemente, beispielsweise von Phonemen, benutzt
werden, wird bei der vorliegenden Erfindung ein einziges
Modell des gesamten Bezugsmusters, beispielsweise eines
Wortes oder eines Ausdrucks, zur Identifizierung einer Aus
sprache als ein Bezugsmuster benutzt. Mit Vorteil ist die
Anzahl der für eine Erkennung erforderlichen Zustände ver
ringert, Schwierigkeiten bei der Verknüpfung von Phonemen
oder anderen elementaren Sprachabschnittsmodellen werden
vermieden, und es wird ein sprecherunabhängiger Betrieb auf
der Grundlage verfügbarer Datenbasen erreichen. Die Markov-
Modell-Schablonen, die im Bezugsmusterspeicher 360 gespeichert sind, werden
aus Sprachäußerungen identifizierter Sprachmuster erzeugt,
die von irgendeiner Quelle und von unterschiedlichen
Sprechern stammen können. Es können Muster von bequem ver
fügbaren Datenbanken oder gespeicherte Sprachäußerungen
zur Erzeugung von Markov-Modellen für den Sprecher bei
der sprecherunabhängigen Erkennungsanordnung gemäß Fig. 3
verwendet werden.
Claims (7)
1. Sprachanalysator zur Erkennung einer Äußerung als
eines von einer Vielzahl von Bezugsmustern, mit einem
Bezugsmusterspeicherr (360) zur Speicherung einer Vielzahl von
Signalen, die je einem begrenzten verborgenen Markov-Modell
eines Bezugsmusters entsprechen, und
mit einer Einrichtung (300, 310, 320, 330), die unter
Ansprechen auf die Äußerung eine Zeitrahmenfolge akustischer
Merkmalssignale ermittelt, die das Sprachmuster der Äußerung
darstellen,
gekennzeichnet durch
einen Prototyp-Signalspeicher (365) zur Speicherung vorbestimmter Merkmalssignale,
eine Prozessorschaltung (340), die unter Ansprechen auf die ermittelten akustischen Merkmalssignale entsprechend einer Ähnlichkeitsmetrik mehrere der vorbestimmten Merkmalssignale auswählt, die das Sprachmuster darstellen,
Einrichtung (340, 335), die unter gemeinsamen Ansprechen auf die ausgewählten vorbestimmten Merkmalssignale und auf die Signale für das begrenzte, verborgene Markov-Modell jedes Bezugsmuster ein die Wahrscheinlichkeit des Sprachmusters darstellendes Signal dafür erzeugen, daß das Sprachmuster das Bezugsmuster ist, und die unter Ansprechen auf die die Wahrscheinlichkeit darstellenden Signale das Sprachmuster als eines der Bezugsmuster erkennt.
einen Prototyp-Signalspeicher (365) zur Speicherung vorbestimmter Merkmalssignale,
eine Prozessorschaltung (340), die unter Ansprechen auf die ermittelten akustischen Merkmalssignale entsprechend einer Ähnlichkeitsmetrik mehrere der vorbestimmten Merkmalssignale auswählt, die das Sprachmuster darstellen,
Einrichtung (340, 335), die unter gemeinsamen Ansprechen auf die ausgewählten vorbestimmten Merkmalssignale und auf die Signale für das begrenzte, verborgene Markov-Modell jedes Bezugsmuster ein die Wahrscheinlichkeit des Sprachmusters darstellendes Signal dafür erzeugen, daß das Sprachmuster das Bezugsmuster ist, und die unter Ansprechen auf die die Wahrscheinlichkeit darstellenden Signale das Sprachmuster als eines der Bezugsmuster erkennt.
2. Sprachanalysator nach Anspruch 1,
dadurch gekennzeichnet, daß der Bezugsmusterspeicher (360) zur
Speicherung einer Vielzahl der Signale, die je einem
begrenzten verborgenen Markov-Modell eines Bezugsmusters
entsprechen, eine Einrichtung zur Speicherung eines Satzes
von Signalen aufweist, die Markov-Modellzuständen
entsprechen, und zwar einschließlich eines Signals, das
einem Anfangszustand entspricht, einer Vielzahl von
Signalen, die mittleren Zuständen entsprechen, und eines
Signals, das einem Endzustand entspricht, ferner eine
Einrichtung zur Speicherung eines Satzes von Signalen, die
je der Wahrscheinlichkeit für den Übergang zwischen einem
vorbestimmten Paar von Zuständen entsprechen, und eine
Einrichtung zur Speicherung eines Satzes von Signalen, die
je die Wahrscheinlichkeit eines vorbestimmten
Merkmalssignals darstellt, das in einem vorgeschriebenen
Zustand auftritt.
3. Sprachanalysator nach Anspruch 2,
dadurch gekennzeichnet, daß die Einrichtung (340, 335) zur
Erzeugung von die Wahrscheinlichkeit darstellenden Signalen
für jedes Bezugsmustermodell so ausgelegt ist, daß sie
nacheinander Sprachmusterrahmen-
Verarbeitungsintervallsignale erzeugt, daß sie im
augenblicklichen Sprachmusterrahmen-Verarbeitungsintervall
unter Ansprechen auf das gewählte, vorbestimmte, den
augenblicklichen Sprachmusterrahmen darstellende Signal und
die Bezugsmuster-Markov-Modellsignale einen Satz von
Signalen erzeugt, die die Wahrscheinlichkeit dafür
darstellen, daß das Bezugsmuster-Markov-Modell während
dieses Sprachrahmens in einem vorgeschriebenen Zustand ist,
und im letzten Sprachmusterrahmen-Verarbeitungsintervall
unter Ansprechen auf das die Wahrscheinlichkeit dafür
darstellende Signal, das das Bezugsmuster-Markov-Modell des
letzten Sprachmusterrahmens im Endzustand ist, ein Signal
bildet, das die Wahrscheinlichkeit dafür darstellt, daß das
Sprachmuster aus dem Bezugsmuster-Markov-Modell gewonnen
wird.
4. Sprachanalysator nach Anspruch 3,
dadurch gekennzeichnet, daß die Einrichtung (340, 335) zur
Erzeugung der die Wahrscheinlichkeit darstellenden Signale
in jedem Sprachmusterrahmen-Verarbeitungsintervall unter
Ansprechen auf die Markov-Modell-Zustandssignale, die
Übergangswahrscheinlichkeitssignale und die
Wahrscheinlichkeitssignale für das Auftreten der
Merkmalssignale einen Satz von Signalen erzeugt, die die
Wahrscheinlichkeit dafür darstellen, daß das Bezugsmuster-
Markov-Modell entsprechend dem Sprachmusterteil bis zum
augenblicklichen Rahmen sich in jedem der Bezugsmuster-
Markov-Modellzustände befindet.
5. Sprachanalysator nach Anspruch 4,
dadurch gekennzeichnet, daß der Prototyp-Signalspeicher (365) zur
Speicherung der vorbestimmten Anzahl von vorbestimmten
Merkmalssignalen eine Einrichtung zur Speicherung einer
vorbestimmten Anzahl von Linear-Voraussagemerkmal(LPC)-
Prototypsignalen aufweist, die den Bereich der erwarteten
akustischen Merkmale des Sprachmusters erfassen.
6. Sprachanalysator nach Anspruch 4,
dadurch gekennzeichnet, daß die
Übergangswahrscheinlichkeitssignale entsprechend Übergängen
von einem ersten bestimmten Zustand i in einen zweiten
bestimmten Zustand j für J<i und J<i+2 Signale mit dem Wert
0 sind.
7. Sprachanalysator nach einem der Ansprüche 1 bis 6,
dadurch gekennzeichnet, daß das Sprachmuster die Aussprache
eines Wortes und jedes Bezugsmuster ein identifiziertes
gesprochenes Wortmuster ist.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US06/434,516 US4587670A (en) | 1982-10-15 | 1982-10-15 | Hidden Markov model speech recognition arrangement |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3337353A1 DE3337353A1 (de) | 1984-04-19 |
DE3337353C2 true DE3337353C2 (de) | 1996-05-09 |
Family
ID=23724541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE3337353A Expired - Fee Related DE3337353C2 (de) | 1982-10-15 | 1983-10-14 | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells |
Country Status (5)
Country | Link |
---|---|
US (1) | US4587670A (de) |
JP (1) | JPS5991500A (de) |
CA (1) | CA1187995A (de) |
DE (1) | DE3337353C2 (de) |
FR (1) | FR2534719B1 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19705471A1 (de) * | 1997-02-13 | 1997-07-24 | Sibet Gmbh Sican Forschungs Un | Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen |
DE102004017548B4 (de) * | 2004-04-07 | 2007-12-27 | Medav Gmbh | Verfahren zur Erkennung und Analyse von Funksignalen |
Families Citing this family (185)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4718092A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition activation and deactivation method |
US4718088A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition training method |
US4718093A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition method including biased principal components |
US4713778A (en) * | 1984-03-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method |
US4713777A (en) * | 1984-05-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method having noise immunity |
US5218668A (en) * | 1984-09-28 | 1993-06-08 | Itt Corporation | Keyword recognition system and method using template concantenation model |
US4852171A (en) * | 1984-11-09 | 1989-07-25 | Alcatel Usa Corp. | Apparatus and method for speech recognition |
US4718094A (en) * | 1984-11-19 | 1988-01-05 | International Business Machines Corp. | Speech recognition system |
US4741036A (en) * | 1985-01-31 | 1988-04-26 | International Business Machines Corporation | Determination of phone weights for markov models in a speech recognition system |
US5165007A (en) * | 1985-02-01 | 1992-11-17 | International Business Machines Corporation | Feneme-based Markov models for words |
CA1243779A (en) * | 1985-03-20 | 1988-10-25 | Tetsu Taguchi | Speech processing system |
US4783804A (en) * | 1985-03-21 | 1988-11-08 | American Telephone And Telegraph Company, At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
JPH0632012B2 (ja) * | 1985-03-25 | 1994-04-27 | 株式会社東芝 | 音声認識装置 |
US4980918A (en) * | 1985-05-09 | 1990-12-25 | International Business Machines Corporation | Speech recognition system with efficient storage and rapid assembly of phonological graphs |
US4819271A (en) * | 1985-05-29 | 1989-04-04 | International Business Machines Corporation | Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments |
US4833712A (en) * | 1985-05-29 | 1989-05-23 | International Business Machines Corporation | Automatic generation of simple Markov model stunted baseforms for words in a vocabulary |
US4759068A (en) * | 1985-05-29 | 1988-07-19 | International Business Machines Corporation | Constructing Markov models of words from multiple utterances |
US4977599A (en) * | 1985-05-29 | 1990-12-11 | International Business Machines Corporation | Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence |
GB2179483B (en) * | 1985-08-20 | 1989-08-02 | Nat Res Dev | Apparatus and methods for analysing data arising from conditions which can be represented by finite state machines |
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
GB8527913D0 (en) * | 1985-11-12 | 1985-12-18 | Pa Consulting Services | Analysing transitions in finite state machines |
JPS62231993A (ja) * | 1986-03-25 | 1987-10-12 | インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン | 音声認識方法 |
CA1311059C (en) * | 1986-03-25 | 1992-12-01 | Bruce Allen Dautrich | Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words |
US4827521A (en) * | 1986-03-27 | 1989-05-02 | International Business Machines Corporation | Training of markov models used in a speech recognition system |
GB8608289D0 (en) * | 1986-04-04 | 1986-05-08 | Pa Consulting Services | Noise compensation in speech recognition |
US4882759A (en) * | 1986-04-18 | 1989-11-21 | International Business Machines Corporation | Synthesizing word baseforms used in speech recognition |
US4918733A (en) * | 1986-07-30 | 1990-04-17 | At&T Bell Laboratories | Dynamic time warping using a digital signal processor |
US4852180A (en) * | 1987-04-03 | 1989-07-25 | American Telephone And Telegraph Company, At&T Bell Laboratories | Speech recognition by acoustic/phonetic system and technique |
US4811199A (en) * | 1987-05-08 | 1989-03-07 | Kuechler William L | System for storing and manipulating information in an information base |
US4817156A (en) * | 1987-08-10 | 1989-03-28 | International Business Machines Corporation | Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker |
GB8908205D0 (en) * | 1989-04-12 | 1989-05-24 | Smiths Industries Plc | Speech recognition apparatus and methods |
US5278911A (en) * | 1989-05-18 | 1994-01-11 | Smiths Industries Public Limited Company | Speech recognition using a neural net |
DE3916478A1 (de) * | 1989-05-20 | 1990-11-22 | Standard Elektrik Lorenz Ag | Neuronale netzwerkarchitektur |
US5220639A (en) * | 1989-12-01 | 1993-06-15 | National Science Council | Mandarin speech input method for Chinese computers and a mandarin speech recognition machine |
US5119425A (en) * | 1990-01-02 | 1992-06-02 | Raytheon Company | Sound synthesizer |
US5148489A (en) * | 1990-02-28 | 1992-09-15 | Sri International | Method for spectral estimation to improve noise robustness for speech recognition |
DE4110300C2 (de) * | 1991-03-28 | 1995-04-06 | Telefonbau & Normalzeit Gmbh | Verfahren zur Erweiterung des Wortschatzes für sprecherunabhängige Spracherkennung |
JP2979711B2 (ja) * | 1991-04-24 | 1999-11-15 | 日本電気株式会社 | パターン認識方式および標準パターン学習方式 |
US5276766A (en) * | 1991-07-16 | 1994-01-04 | International Business Machines Corporation | Fast algorithm for deriving acoustic prototypes for automatic speech recognition |
US5199077A (en) * | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
US5222146A (en) * | 1991-10-23 | 1993-06-22 | International Business Machines Corporation | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks |
US5371779A (en) * | 1992-03-13 | 1994-12-06 | Nec Corporation | Call initiating system for mobile telephone units |
JPH0782348B2 (ja) * | 1992-03-21 | 1995-09-06 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 音声認識用サブワードモデル生成方法 |
US5297183A (en) * | 1992-04-13 | 1994-03-22 | Vcs Industries, Inc. | Speech recognition system for electronic switches in a cellular telephone or personal communication network |
US5745873A (en) * | 1992-05-01 | 1998-04-28 | Massachusetts Institute Of Technology | Speech recognition using final decision based on tentative decisions |
US5535305A (en) * | 1992-12-31 | 1996-07-09 | Apple Computer, Inc. | Sub-partitioned vector quantization of probability density functions |
US5515475A (en) * | 1993-06-24 | 1996-05-07 | Northern Telecom Limited | Speech recognition method using a two-pass search |
GB2285700B (en) * | 1994-01-12 | 1998-06-24 | Drallim Ind | Monitoring apparatus and method |
CN1063554C (zh) * | 1994-03-03 | 2001-03-21 | 李琳山 | 中文电脑的汉语语音输入系统及其方法 |
US5825978A (en) * | 1994-07-18 | 1998-10-20 | Sri International | Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions |
DE19508711A1 (de) * | 1995-03-10 | 1996-09-12 | Siemens Ag | Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind |
JP3703164B2 (ja) * | 1995-05-10 | 2005-10-05 | キヤノン株式会社 | パターン認識方法及びその装置 |
US5752001A (en) * | 1995-06-01 | 1998-05-12 | Intel Corporation | Method and apparatus employing Viterbi scoring using SIMD instructions for data recognition |
DE69635015T2 (de) * | 1995-11-17 | 2006-03-30 | At & T Corp. | Automatische vokabularerzeugung für auf einem telekommunikationsnetzwerk basierte sprachgesteuerte wahl |
US5937384A (en) * | 1996-05-01 | 1999-08-10 | Microsoft Corporation | Method and system for speech recognition using continuous density hidden Markov models |
US5865626A (en) * | 1996-08-30 | 1999-02-02 | Gte Internetworking Incorporated | Multi-dialect speech recognition method and apparatus |
DE19640587A1 (de) * | 1996-10-01 | 1998-04-02 | Siemens Ag | Verfahren zur Berechnung eines Schwellenwertes für die Spracherkennung eines Schlüsselwortes |
US6253178B1 (en) | 1997-09-22 | 2001-06-26 | Nortel Networks Limited | Search and rescoring method for a speech recognition system |
US6157731A (en) * | 1998-07-01 | 2000-12-05 | Lucent Technologies Inc. | Signature verification method using hidden markov models |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US6665640B1 (en) | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
US7050977B1 (en) * | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US9076448B2 (en) * | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US6615172B1 (en) | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6671669B1 (en) * | 2000-07-18 | 2003-12-30 | Qualcomm Incorporated | combined engine system and method for voice recognition |
US6850888B1 (en) * | 2000-10-06 | 2005-02-01 | International Business Machines Corporation | Methods and apparatus for training a pattern recognition system using maximal rank likelihood as an optimization function |
US6754626B2 (en) * | 2001-03-01 | 2004-06-22 | International Business Machines Corporation | Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context |
JP4048741B2 (ja) * | 2001-07-24 | 2008-02-20 | セイコーエプソン株式会社 | Hmmの出力確率演算方法および音声認識装置 |
US7603276B2 (en) * | 2002-11-21 | 2009-10-13 | Panasonic Corporation | Standard-model generation for speech recognition using a reference model |
US7542949B2 (en) * | 2004-05-12 | 2009-06-02 | Mitsubishi Electric Research Laboratories, Inc. | Determining temporal patterns in sensed data sequences by hierarchical decomposition of hidden Markov models |
US8521529B2 (en) * | 2004-10-18 | 2013-08-27 | Creative Technology Ltd | Method for segmenting audio signals |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
DE112011100329T5 (de) | 2010-01-25 | 2012-10-31 | Andrew Peter Nelson Jerram | Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
AU2014214676A1 (en) | 2013-02-07 | 2015-08-27 | Apple Inc. | Voice trigger for a digital assistant |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9530412B2 (en) * | 2014-08-29 | 2016-12-27 | At&T Intellectual Property I, L.P. | System and method for multi-agent architecture for interactive machines |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9741342B2 (en) | 2014-11-26 | 2017-08-22 | Panasonic Intellectual Property Corporation Of America | Method and apparatus for recognizing speech by lip reading |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3909532A (en) * | 1974-03-29 | 1975-09-30 | Bell Telephone Labor Inc | Apparatus and method for determining the beginning and the end of a speech utterance |
US4156868A (en) * | 1977-05-05 | 1979-05-29 | Bell Telephone Laboratories, Incorporated | Syntactic word recognizer |
US4277644A (en) * | 1979-07-16 | 1981-07-07 | Bell Telephone Laboratories, Incorporated | Syntactic continuous speech recognizer |
US4348553A (en) * | 1980-07-02 | 1982-09-07 | International Business Machines Corporation | Parallel pattern verifier with dynamic time warping |
US4363102A (en) * | 1981-03-27 | 1982-12-07 | Bell Telephone Laboratories, Incorporated | Speaker identification system using word recognition templates |
US4400788A (en) * | 1981-03-27 | 1983-08-23 | Bell Telephone Laboratories, Incorporated | Continuous speech pattern recognizer |
US4481593A (en) * | 1981-10-05 | 1984-11-06 | Exxon Corporation | Continuous speech recognition |
-
1982
- 1982-10-15 US US06/434,516 patent/US4587670A/en not_active Ceased
-
1983
- 1983-09-29 CA CA000437886A patent/CA1187995A/en not_active Expired
- 1983-10-12 FR FR8316194A patent/FR2534719B1/fr not_active Expired
- 1983-10-14 DE DE3337353A patent/DE3337353C2/de not_active Expired - Fee Related
- 1983-10-15 JP JP58191711A patent/JPS5991500A/ja active Granted
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19705471A1 (de) * | 1997-02-13 | 1997-07-24 | Sibet Gmbh Sican Forschungs Un | Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen |
DE19705471C2 (de) * | 1997-02-13 | 1998-04-09 | Sican F & E Gmbh Sibet | Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen |
DE102004017548B4 (de) * | 2004-04-07 | 2007-12-27 | Medav Gmbh | Verfahren zur Erkennung und Analyse von Funksignalen |
Also Published As
Publication number | Publication date |
---|---|
FR2534719A1 (fr) | 1984-04-20 |
JPH0422276B2 (de) | 1992-04-16 |
CA1187995A (en) | 1985-05-28 |
US4587670A (en) | 1986-05-06 |
FR2534719B1 (fr) | 1986-09-19 |
DE3337353A1 (de) | 1984-04-19 |
JPS5991500A (ja) | 1984-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE69031284T2 (de) | Verfahren und Einrichtung zur Spracherkennung | |
DE3876207T2 (de) | Spracherkennungssystem unter verwendung von markov-modellen. | |
DE69514382T2 (de) | Spracherkennung | |
DE69220825T2 (de) | Verfahren und System zur Spracherkennung | |
DE69414752T2 (de) | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes | |
DE69315374T2 (de) | Spracherkennungssystem zur naturgetreuen Sprachübersetzung | |
DE69707876T2 (de) | Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung | |
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE69420842T2 (de) | Spracherkennung unter anwendung einer zweidurchgängigen suchmethode | |
DE69010722T2 (de) | Spracherkennungssystem. | |
DE3783154T2 (de) | Spracherkennungssystem. | |
DE2953262C2 (de) | ||
DE69908047T2 (de) | Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern | |
DE69622565T2 (de) | Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz | |
DE69519297T2 (de) | Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen | |
DE69518723T2 (de) | Verminderung des Suchraumes bei Spracherkennung unter Verwendung von Phonemgrenzen und Phonemklassen | |
DE69324428T2 (de) | Verfahren zur Sprachformung und Gerät zur Spracherkennung | |
DE69425776T2 (de) | Spracherkennungseinrichtung mit verbesserter Ausschliessung von Wörtern und Tönen welche nicht im Vokabular enthalten sind | |
DE69127818T2 (de) | System zur verarbeitung kontinuierlicher sprache | |
EP0925578B1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
DE69613338T2 (de) | Verfahren und system zur mustererkennung mittels baumstrukturierten wahrscheinlichkeitsdichten | |
DE102008017993B4 (de) | Sprachsuchvorrichtung | |
DE69607913T2 (de) | Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle | |
DE69416670T2 (de) | Sprachverarbeitung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8127 | New person/name/address of the applicant |
Owner name: AT & T TECHNOLOGIES, INC., NEW YORK, N.Y., US |
|
8110 | Request for examination paragraph 44 | ||
8125 | Change of the main classification |
Ipc: G10L 5/06 |
|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |