-
Die
vorliegende Erfindung betrifft ein Verfahren zum Erkennen von Wörtern in
einem Sprachsignal, wobei das Verfahren des Typs ist, der die folgenden
Schritte umfasst: Generieren einer Mehrzahl von Erkennungs-Punktzahlen
aus dem Sprachsignal und einem Wörterbucheintrag
für ein
erstes Wort, worin die Mehrzahl von Erkennungs-Punktzahlen eine
absolute Wahrscheinlichkeit wiedergeben, dass das erste Wort in
dem Sprachsignal ist.
-
Die
Beliebtheit von Spracherkennung steigt rapide an und Spracherkennung
hat sich als ziemlich nützlich
in einer Anzahl von Anwendungen erwiesen. Beispielsweise sind Haushaltsgeräte und Elektronik, Mobiltelefone
und andere mobile Verbraucher-Elektronik alles Bereiche, in denen
Spracherkennung an Bedeutung gewonnen hat. Mit diesem Anstieg an Aufmerksamkeit
wurden jedoch auch bestimmte Einschränkungen herkömmlicher
Spracherkennungs-Techniken offensichtlich.
-
Eine
besondere Einschränkung
betrifft die Endpunkt-Detektion. Die Endpunkt-Detektion umfasst
die automatische Segmentierung eines Sprachsignals in Sprach- und
Nicht-Sprach-Segmente. Nach der Segmentierung wird üblicherweise
eine Form von Mustererkennung (Pattern Matching) durchgeführt, um
ein Erkennungs-Ergebnis zu erzeugen. Von besonderer Wichtigkeit
sind jedoch Hintergrund- (oder zusätzliches) Rauschen und Kanal-(oder herkömmliches)
Rauschen. Beispielsweise ist gut dokumentiert, dass bestimmte Anwendungen ein
relativ vorhersagbares Hintergrundrauschen aufweisen (beispielsweise
das Fahren eines Autos), wobei andere Anwendungen ein hochgradig
unvorhersehbares Hintergrundrauschen umfassen, wie beispielsweise das,
das durch Mobiltelefone erzeugt wird. Während der obengenannte Endpunkt-Detektions-Ansatz
für Umgebungen
mit wenig Rauschen oder vorhersagbarem Rauschen oft annehmbar ist, sind
laute oder unvorhersagbare Hintergründe aus einer Anzahl von Gründen schwierig
zu handhaben. Ein Grund ist, dass die Fähigkeit, zwischen Sprache und
Nicht-Sprache zu unterscheiden abnimmt, wenn das Signal-Rausch-Verhältnis (signal-to-noise
ratio, SNR) sich verringert. Außerdem
wird ein nachfolgender Mustervergleich aufgrund von Verzerrungen
(das sind spektrale Abdeckungseffekte), die durch unerwartetes Hintergrund-Rauschen hervorgerufen
werden, schwieriger.
-
Bezüglich des
Kanalrauschens ist es bekannt, dass der Kanaleffekt unterschiedlich
sein kann in Abhängigkeit
der verwendeten Signal-Übertragungs/Umwandlungs-Vorrichtung.
Beispielsweise wird ein Audiosignal höchstwahrscheinlich durch ein Personalcomputer-Mikrofon
anders als durch einen Telefon-Kanal
verändert.
Es ist auch bekannt, dass der Rauschtyp, die Stärke des Rauschens und der Kanal
alle eine Umgebung definieren. Daher kann unvorhergesehenes Kanalrauschen
viele der oben beschriebenen Hintergrundrauschen-Probleme hervorrufen.
Einfach gesagt, wird die automatische Segmentierung bezüglich Sprache
und Nicht-Sprache schnell unzuverlässig, wenn mit nicht vorhersagbaren
Kanälen,
mittleren oder hohen Rauschpegeln oder nicht stationären Hintergründen umgegangen wird.
Unter diesen Bedingungen können
automatische Endpunkt-Detektoren
Fehler machen, wie beispielweise Triggern bei einem Abschnitt ohne
Sprache oder Hinzufügen
eines Rauschsegments an den Beginn und/oder an das Ende des Sprachabschnitts.
-
Ein
anderes Problem im Zusammenhang mit herkömmlicher Endpunkt-Detektion
ist die Vorhersagbarkeit des End-Benutzers (oder Sprechers). Beispielsweise
kann es wünschenswert
sein, das Kommando „Stopp" in dem Gesprochenen „Stopp
dies" zu erkennen
oder das Kommando „ja" in der Phrase „uh...
ja" zu erkennen.
Solche bedeutungslosen Wörter
und Verzögerungen
können
bedeutende Schwierigkeiten in dem Erkennungsprozess bewirken. Weiterhin
wird dadurch, dass der Benutzer alternativ dazu gezwungen wird,
einem rigiden Sprachstil zu folgen, die Natürlichkeit und Attraktivität des Systems stark
reduziert. Der Endpunkt-Detektions-Ansatz ist daher allgemein ungeeignet,
um von dem Sprecher geäußerte unbedeutende
Wörter
und Verzögerungen zu
ignorieren.
-
Obwohl
eine allgemein als Worterkennung bekannte Technik sich entwickelt
hat, um die obengenannten Benutzer-Vorhersagbarkeits-Probleme zu behandeln,
weisen alle bekannten Worterkennungs-Techniken immer noch ihre Unzulänglichkeiten
in Bezug auf eine Kompensierung von Hintergrundrauschen auf. Beispielsweise
benötigen
einige Systeme ein oder mehrere Hintergrundmodelle und verwenden
ein Vergleichsschema zwischen den Wortmodellen und den Hintergrundmodellen,
um die Trigger-Entscheidung
zu unterstützen;
dieser Ansatz wird in der
US
5,425,129 beschrieben. Andere Systeme, wie das in der
US 6,029,130 beschriebene,
kombinieren eine Worterkennung mit einer Endpunkt-Detektion, um
das Auffinden des interessanten Abschnitts des Sprachsignals zu
unterstützen.
Andere verwenden Nicht-Schlüsselwörter- (non-keyword-) oder
Abfall- (garbage-) Modelle, um mit Hintergrundrauschen umzugehen.
Ein weiterer Ansatz schließt
ein Unterscheidungs-Training ein, bei dem die Punktzahlen anderer
Wörter
verwendet werden, um einen Anstieg der Detektions-Zuverlässigkeit
zu unterstützen,
wie in der
US 5,710,864 beschrieben.
-
Alle
der oben beschriebenen Worterkennungs-Techniken basieren auf der
Annahme, dass unabhängig
von der Hintergrundumgebung die Wort-Übereinstimmungs-Punktzahl (die
eine absolute Wahr scheinlichkeit wiedergibt, dass das Wort in dem
Sprachsignal ist) der Entscheidungs-Erkennungs-Faktor ist. Daher
wird das Wort mit der besten Punktzahl als detektiert angenommen,
solange die entsprechende Punktzahl einen gegebenen Schwellwert überschreitet.
Obwohl die obige Annahme allgemein im Falle eines hohen Signal-Rausch-Verhältnisses
zutrifft, scheitert sie im Fall eines niedrigen Signal-Rausch-Verhältnisses,
wo Verständlichkeit
eines Wortes stark durch die spektralen Merkmale des Rauschens beeinflusst
sein kann. Die Reduzierung der Verständlichkeit ist durch den Rausch-Überdeckungs-Effekt
bedingt, der einige der ein Wort charakterisierenden relevanten
Informationen versteckt oder ausblendet. Der Effekt variiert von
einem Wort zu einem anderen, wodurch der Punktzahl-Vergleich zwischen
Wörtern
ziemlich schwierig und unzuverlässig
wird. Es ist daher wünschenswert,
ein Verfahren und ein System zum Erkennen von Wörtern in einem Sprachsignal
bereitzustellen, das Kanalrauschen und Hintergrundrauschen auf einer Pro-Wort-Basis
grundlegend kompensiert.
-
Ein
Verfahren zum Erkennen von Sprachkommandos, bei dem eine Gruppe
von Kommandowörtern
definiert sind, ist in der
EP
1 020 847 offenbart. Ein Zeitfenster wird definiert, innerhalb
dessen die Erkennung des Sprachkommandos ausgeführt wird. Erkennungsergebnisse
einer ersten Erkennungsstufe werden ausgewählt, aus denen ein erster Zuverlässigkeits-Wert
bestimmt wird. Ein erster Schwellwert y, mit dem der erste Zuverlässigkeits-Wert
verglichen wird, wird festgelegt. Falls der erste Zuverlässigkeits-Wert
größer oder
gleich dem ersten Schwellwert Y ist, wird das Erkennungsergebnis
der ersten Erkennungsstufe als das Erkennungsergebnis des Sprachkommandos
ausgewählt.
Falls der erste Zuverlässigkeits-Wert
kleiner ist als der erste Schwellwert Y, wird eine zweite Erkennungsstufe für das Sprachkommando
ausgeführt,
worin das Zeitfenster erweitert wird und ein Erkennungsergebnis für die zweite
Erken nungsstufe ausgewählt
wird. Ein zweiter Erkennungs-Wert wird für das Erkennungsergebnis der
zweiten Erkennungsstufe bestimmt und mit dem Schwellwert Y verglichen.
Falls der zweite Erkennungswert größer oder gleich dem ersten
Wert Y ist, wird das in der zweiten Stufe ausgewählte Kommandowort als das Erkennungsergebnis
für das Sprachkommando
ausgewählt.
Falls der zweite Erkennungswert kleiner als der erste Wert Y ist,
wird eine Vergleichsstufe ausgeführt,
worin das erste und das zweite Erkennungsergebnis verglichen werden, um
herauszufinden, mit welcher Wahrscheinlichkeit sie im Wesentlichen
gleich sind, wobei das in der zweiten Stufe ausgewählte Kommandowort
als ein Erkennungsergebnis für
das Sprachkommando ausgewählt
wird, falls die Wahrscheinlichkeit einen vorbestimmten Wert überschreitet.
-
Gemäß der vorliegenden
Erfindung wird ein Verfahren des zuvor beschriebenen Typs zum Erkennen
von Wörtern
in einem Sprachsignal vorgesehen, gekennzeichnet durch Abschätzen einer
ersten Hintergrund-Punktzahl durch Mitteln der Mehrzahl von Erkennungs-Punktzahlen über eine
vorbestimmte Zeitspanne; Auffinden eines Minimal-Erkennungswerts
unter der Mehrzahl von Erkennungs-Punktzahlen, wobei der Minimalwert
einen Zeitpunkt darstellt, worin der Erkenner am zuversichtlichsten
ist, dass das entsprechende Wort in dem Sprachsignal ist; und Berechnen
einer ersten Erkennungs-Punktzahl basierend auf einem Übereinstimmungs-Verhältnis zwischen
dem Minimal-Erkennungswert und der ersten Hintergrund-Punktzahl,
wobei die erste Zuversichtlichkeits-Punktzahl eine rauschkorrigierte
Wahrscheinlichkeit wiedergibt, dass das erste Wort in dem Sprachsignal
ist.
-
Vorzugsweise
umfasst das Verfahren weiterhin die Schritte des Normalisierens
des Übereinstimmungs-Verhältnisses,
worin das normalisierte Übereinstimmungs-Verhältnis die
erste Zuversichtlichkeits-Punktzahl definiert.
-
In
einer bevorzugten Ausführungsform
umfasst das Verfahren weiterhin den Schritt des Durchsuchens eines
vorbestimmten Bereichs der Mehrzahl der Zuverlässigkeits-Punktzahlen nach
dem Minimal-Wert, so dass lokale Minima von der Übereinstimmungs-Verhältnis-Berechnung
ausgeschlossen werden.
-
Vorzugsweise
umfasst das Verfahren weiterhin die folgenden Schritte: Erzeugen
einer zweiten Mehrzahl von Erkennungs-Punktzahlen basierend auf dem Sprachsignal
und einem Wörterbucheintrag für ein zweites
Wort, worin die zweite Mehrzahl der Erkennungs-Punktzahlen eine
absolute Wahrscheinlichkeit wiedergeben, dass das zweite Wort in
dem Sprachsignal ist; Abschätzen
einer zweiten Hintergrund-Punktzahl durch Mitteln der zweiten Mehrzahl von
Erkennungs-Punktzahlen über
eine vorbestimmte Zeitspanne; Auffinden eines zweiten Minimal-Erkennungswerts unter
der zweiten Mehrzahl der Erkennungs-Punktzahlen und Berechnen einer zweiten Zuverlässigkeits-Punktzahl basierend
auf einem Übereinstimmungs-Verhältnis zwischen
dem zweiten Minimal-Erkennungswert und der zweiten Hintergrund-Punktzahl,
worin die zweite Hintergrund-Punktzahl eine rauschkorrigierte Wahrscheinlichkeit
wiedergibt, dass das zweite Wort in dem Sprachsignal ist.
-
Gemäß einem
zweiten Aspekt der Erfindung wird ein Worterkennungssystem bereitgestellt,
das umfasst: einen Sprach-Erkenner zum Erzeugen einer Mehrzahl von
Erkennungs-Punktzahlen basierend auf einem Sprachsignal und Wörterbuch-Einträgen für eine Mehrzahl
von Wörtern,
worin die Mehrzahl von Erkennungs-Punktzahlen absolute Wahrscheinlichkeiten
wiedergeben, dass die Wörter
in dem Sprachsignal sind, gekennzeichnet durch ein Erkennungs-Modul
zum Abschätzen
von Hintergrund-Punktzahlen durch Mitteln der Mehrzahl von Erkennungs-Punktzahlen über eine
vorbestimmte Zeitspane und Auffinden von Minimal-Erkennungswerten
unter der Mehrzahl von Erkennungs-Punktzahlen, worin das Erkennungs-Modul
Zuversichtlichkeits-Punktzahlen auf einer Einzelframe-Basis basierend
auf Übereinstimmungs-Verhältnissen
zwischen den Minimal-Erkennungswerten und den Hintergrund-Punktzahlen
berechnet, wobei die Zuversichtlichkeits-Punktzahlen rauschkorrigierte
Wahrscheinlichkeiten wiedergeben, dass die Wörter in dem Sprachsignal sind.
-
Die
Erfindung wird nun lediglich exemplarisch unter Bezugnahme auf die
begleitenden Zeichnungen beschrieben, wobei die Zeichnungen zeigen:
-
1 ist
ein Blockdiagramm eines Worterkennungssystems in Übereinstimmung
mit den Merkmalen der vorliegenden Erfindung;
-
2a ist
eine vergrößerte Ansicht
des Diagramms der ersten Erkennungs-Punktzahl und der ersten Hintergrund-Punktzahl,
die in der 1 gezeigt sind;
-
2b ist
eine vergrößerte Ansicht
des Diagramms der zweiten Erkennungs-Punktzahl und der zweiten Hintergrund-Punktzahl,
die in der 1 gezeigt sind;
-
3 ist
eine detaillierte Ansicht eines Erkennungs-Moduls in Übereinstimmung
mit einer Ausführungsform
der vorliegenden Erfindung;
-
4 ist
ein Flussdiagramm eines Verfahrens zur Erkennung von Worten in einem
Sprachsignal in Überein stimmung
mit den Merkmalen der vorliegenden Erfindung;
-
5 ist
ein Flussdiagramm eines Prozesses zum Berechnen einer Worterkennungs-Zuverlässigkeits-Punktzahl
in Übereinstimmung
mit einer Ausführungsform
der vorliegenden Erfindung; und
-
6 ist
eine vergrößerte Ansicht
eines lokalen Minimums einer Erkennungs-Punktzahl in Übereinstimmung
mit einer Ausführungsform
der vorliegenden Erfindung.
-
Unter
Bezugnahme auf 1 ist ein Worterkennungssystem 10 gezeigt.
Es wird verstanden werden, dass das Worterkennungssystem allgemein ein
Sprachsignal von einer Eingabe-Vorrichtung, wie einem Mikrofon 12,
empfängt
und ein Erkanntes-Wort-Ergebnis 14 erzeugt.
Das System 10 kann in jeder beliebigen Anzahl von Vorrichtungen
implementiert werden, in denen eine Worterkennung nützlich ist.
Beispielsweise kann ein Mobiltelefon das System 10 verwenden,
um ein Sprachwahl-System (nicht gezeigt) zu implementieren. Daher
stellt in einer Ausführungsform
das Sprachsignal 13 einen kontinuierlichen Strom von Sprache
von einem Telefonbenutzer (nicht gezeigt) dar, worin das Erkennungssystem 10 nach
bestimmten Wörtern
in der Sprache sucht, um einen Wählprozess
auszuführen.
Das Erkanntes-Wort-Ergebnis 14 wird an den Rest von dem Sprachwahl-System
zur Ausführung
von verschiedenen Kommandos übergeben.
Es ist jedoch wichtig zu bemerken, dass, obwohl das Erkennungssystem 10 in
einer stark variierenden Anzahl von Anwendungen verwendet werden
kann, das Erkennungssystem 10 einheitlich für Umgebungen
mit starkem und vorhersagbarem Hintergrund- und Kanal-Rauschen geeignet ist.
-
Allgemein
umfasst das Erkennungssystem 10 einen Sprach-Erkenner 16 und
ein Erkennungs-Modul 18. Der Erkenner 16 erzeugt
Erkennungs-Punktzahlen 20, 22 (R1 und
R2) basierend auf dem Sprachsignal 13 und
Wörterbucheinträgen für eine Mehrzahl
von Wörtern 24, 26.
Es ist ersichtlich, dass das Erkennungs-Modul 18 Hintergrund-Punktzahlen 28, 30 basierend
auf den Erkennungs-Punktzahlen 20, 22 abschätzt. Das
Erkennungsmodul 18 berechnet auch Zuverlässigkeits-Punktzahlen
(weiter unten genauer beschrieben) auf einer Einzelframe-(Frame-by-Frame)-Basis von Übereinstimmungs-Verhältnissen
zwischen Minimal-Erkennungs-Werten
und den Hintergrund-Punktzahlen 28, 30. Wie weiter
unten genauer beschrieben wird, gibt die Zuverlässigkeits-Punktzahl rauschkorrigierte Wahrscheinlichkeiten
dafür,
dass die Wörter 24, 26 in dem
Sprachsignal 13 enthalten sind, an.
-
Es
ist wichtig zu bemerken, dass das Erkennungssystem 10 zum
Zwecke der Beschreibung vereinfacht wurde. Beispielsweise weist
das dargestellte Wörterbuch 32 zwei
Einträge
auf, wobei es vorgesehen ist, dass die Anwendung wesentlich mehr
benötigen
kann. Es ist auch wichtig zu bemerken, dass das Erkennungssystem 10 falls
gewünscht
konfiguriert sein kann, um das Sprachsignal 13 nach einem einzelnen
Wort abzusuchen.
-
Dennoch
erzeugt der Sprach-Erkenner
16 kontinuierliche Erkennungs-Punktzahlen
R
1 und R
2 basierend
auf dem Sprachsignal
13 und den Wörterbucheinträgen. Wie
in den
2a und
2b gezeigt,
wird es bevorzugt, dass die Erkennungs-Punktzahlen
20,
22 ein
Verständlichkeits-Kriterium
darstellen, so dass eine niedrige Erkennungs-Punktzahl eine hohe
Wahrscheinlichkeit anzeigt, dass das in Frage stehende Wort innerhalb
des Sprachsignals enthalten ist. Daher stellen die Minimalwerte
M
1 und M
2 Zeitpunkte
dar, bei denen der Erkenner am zuversichtlichsten ist, dass die
entsprechenden Wörter
in dem Sprachsignal sind. Jede beliebige Anzahl von gut bekannten
Erkennern kann konfiguriert werden, um dieses Ergebnis bereitzustellen.
Ein solcher Erkenner ist in der
US
6,073,095 beschrieben. Es ist wichtig zu bemerken, dass
die Erkennungs-Punktzahlen
20,
22 absolute
Wahrscheinlichkeiten wiedergeben, dass die Wörter in dem Sprachsignal sind.
-
Unter
fortgesetzter Bezugnahme auf die 1 bis 3 ist
ersichtlich, dass das Erkennungsmodul 18 es dem Erkennungssystem 10 ermöglicht, die
für jedes
Wort des Wörterbuchs
spezifische dynamische Verzerrung zu entfernen und dabei einen angemessenen
Punktzahl-Vergleich zu ermöglichen. Allgemein
schätzt
das Erkennungsmodul 18 kontinuierlich die Hintergrund-Punktzahlen
jedes Wortes ab. Die Trigger-Strategie basiert dann auf einem Übereinstimmungs-Verhältnis zwischen
der aktiven Punktzahl und der Hintergrund-Punktzahl bei jedem Zeitrahmen
und auf einer Pro-Wort-Basis.
-
Wie
am besten in 3 ersichtlich, umfasst daher
das Erkennungs-Modul 18 ein dem ersten Wort entsprechendes
erstes Zuverlässigkeits-Modul 34a und
ein dem zweiten Wort entsprechendes zweites Zuverlässigkeits-Modul 34b.
Es ist ersichtlich, dass die Zuversichtlichkeits-Module 34 Verfolgungs-Module 50 aufweisen,
um Minimalwerte M innerhalb der Erkennungs-Punktzahlen R aufzufinden.
-
Zurückkommend
auf 3 kann daher erkannt werden, dass die Zuverlässigkeits-Module 34 die
Minimalerkennungswerte M durch Mittelwerte B für die Erkennungs-Punktzahlen
dividieren, so dass sich die Übereinstimmungs-Verhältnisse
M/B ergeben. Die Mittelwerte B definieren daher die Hintergrund-Punktzahlen.
Jedes Zuverlässigkeits-Modul 34 normalisiert
auch die Übereinstimmungs-Verhältnisse,
so dass die normalisierten Übereinstimmungs-Verhältnisse
1–M/B
die Zuverlässigkeits-Punkt zahlen
definieren. Es wird verstanden werden, dass, wenn der Minimalwert
M kleiner wird als die Hintergrund-Punktzahl B, das Übereinstimmungs-Verhältnis M/B
sich Null annähert.
Das normalisierte Übereinstimmungs-Verhältnis (d.h.
die Zuverlässigkeit
1–M/B)
wird sich daher Eins annähern. Da
weiterhin jede Hintergrund-Punktzahl B einheitlich für ein gegebenes
Wort ist, berücksichtigen
die Zuverlässigkeits-Punktzahlen
der vorliegenden Erfindung die Tatsache, dass Rauschen unterschiedliche Wörter auf
unterschiedliche Weise beeinflusst.
-
Es
wird weiterhin verstanden werden, dass ein Erkanntes-Wort-Selektor 48 fähig ist,
die Zuverlässigkeits-Punktzahlen
mit einem vorbestimmten Zuverlässigkeits-Schwellwert
zu vergleichen, worin das in Frage stehende Wort als in dem Sprachsignal enthalten
definiert wird, wenn die entsprechende Zuverlässigkeits-Punktzahl den vorbestimmten
Zuverlässigkeits-Schwellwert überschreitet.
Es wird auch verstanden werden, dass der Erkanntes-Wort-Selektor 48 auch
bestimmen kann, ob das erste Wort und das zweite Wort einer gemeinsamen
Zeitspanne innerhalb des Sprachsignals entsprechen. Daher kann der
Selektor 48 zwischen dem ersten Wort und dem zweiten Wort
basierend auf der ersten Zuverlässigkeits-Punktzahl
und der zweiten Zuverlässigkeits-Punktzahl
wählen,
wenn das erste Wort und das zweite Wort der gemeinsamen Zeitspanne
entsprechen. Es wird weiter verstanden werden, dass der Selektor 48 mit
Wahrscheinlichkeitswerten arbeitet. Wenn beispielsweise ein besserer
Wahrscheinlichkeitswert durch die Normalisierer 56 erzeugt
wird, wird ein Zeitschalter (nicht gezeigt) gestartet. Der Zeitschalter
kann erneut gestartet werden, falls eine neue, bessere Wahrscheinlichkeit
erzeugt wird, bevor er abläuft
(d.h. vor einer Δt-Verzögerung).
Wenn 1) der Zeitschalter abläuft
und 2) der beste Wahrscheinlichkeitswert über dem Wahrscheinlichkeits-Schwellwert
liegt, dann ist das Wort ermittelt.
-
Unter
spezifischer Bezugnahme auf die 6 ist ersichtlich,
dass eine Verzögerungskomponente
des Erkanntes-Wort-Selektors 48 eine
Wortauswahl um einen vorbestimmten Bereich Δt der Erkennungs-Punktzahl 20 verzögern kann,
so dass ein lokales Minimum 52 von der Übereinstimmungs-Verhältnis-Berechnung
ausgeschlossen ist. Der Grund der Verzögerung ist, sicherzustellen,
dass das System nicht ein Wort ausgibt basierend auf der ersten Zuverlässigkeit,
die den Schwellwert übersteigt.
Um zu Triggern, muss die beste Zuverlässigkeit den Schwellwert übersteigen
und es dürfen
keine besseren Werte (für
irgendwelche Wörter
in dem Lexikon) innerhalb von Δt
Sekunden danach gefunden werden. Pragmatisch ausgedrückt, verhindert
dieses Merkmal eine verfrühte
Triggerung. Falls beispielsweise der zu erkennende Ausdruck „Victoria
Station" ist, vermeidet
die Verzögerung
eine eventuelle Triggerung bei „Victoria Sta". Der Δt-Wert repräsentiert daher
eine Validierungs-Verzögerungs-Triggerung bei
lokalen Minima und bietet einen Mechanismus, um Sicherzustellen,
dass das beste Minimum erreicht wurde.
-
Die 4 stellt
ein Verfahren 36 zum Erkennen von Wörtern in einem Sprachsignal
dar. Wie bereits beschrieben, kann das Verfahren 36 für jede beliebige
Anzahl von in dem Wörterbuch
gespeicherten Wörtern
implementiert werden. Es ist ersichtlich, dass bei einem Schritt 38 eine
erste Erkennungs-Punktzahl basierend auf dem Sprachsignal und einem
Wörterbucheintrag
für ein
erstes Wort erzeugt wird. Wie bereits beschrieben, stellt die Erkennungs-Punktzahl
eine absolute Wahrscheinlichkeit dar, dass das erste Wort in dem
Sprachsignal ist. Bei einem Schritt 40 wird eine erste
Hintergrund-Punktzahl basierend auf der ersten Erkennungs-Punktzahl abgeschätzt. Das
Verfahren bietet weiterhin die Berechnung einer ersten Zuverlässigkeits-Punktzahl
in einem Schritt 42 basie rend auf einem Übereinstimmungs-Verhältnis zwischen
einem ersten Minimal-Erkennungs-Wert und einer ersten Hintergrund-Punktzahl. Die erste
Zuverlässigkeits-Punktzahl
gibt eine rauschkorrigierte Wahrscheinlichkeit wieder, dass das
erste Wort in dem Sprachsignal ist. Es wird bevorzugt, dass die
Hintergrund-Punktzahl durch Mitteln der ersten Erkennungs-Punktzahl über eine
vorbestimmte Zeitspanne abgeschätzt
wird. Beispielsweise kann das Intervall, über dem der Mittelwert berechnet
wird, als eine bestimmte Anzahl von unmittelbar aufeinanderfolgenden
Frames definiert sein, oder kann bei dem Beginn des Sprachsignals starten.
-
Zur 5 kommend
wird der bevorzugte Ansatz zur Berechnung der ersten Zuverlässigkeits-Punktzahl
genauer gezeigt. Im Einzelnen ist ersichtlich, dass bei einem Schritt 44 der
erste Minimal-Erkennungswert durch einen Durchschnittswert für die erste
Erkennungs-Punktzahl geteilt wird, so dass sich das Übereinstimmungs-Verhältnis ergibt. Wie
bereits beschrieben, definiert der Durchschnittswert die erste Hintergrund-Punktzahl.
In einem Schritt 46 wird das Übereinstimmungs-Verhältnis normalisiert,
wobei das normalisierte Übereinstimmungs-Verhältnis die
erste Zuverlässigkeits-Punktzahl
definiert. Wie bereits beschrieben, können die in den 4 und 5 gezeigten
Schritte für
eine beliebige Anzahl von in dem Wörterbuch enthaltenen Wörtern ausgeführt werden.
-
Unter
weiterer Bezugnahme auf die 4 und 5 wird
erkannt werden, dass, wenn ein zweites Wort in einem Sprachsignal
erkannt wird, das Verfahren 36 wie oben beschrieben folgt.
Demzufolge wird bei einem Schritt 38 eine zweite Erkennungs-Punktzahl
basierend auf dem Sprachsignal und einem Wörterbucheintrag für ein zweites
Wort erzeugt. Die zweite Erkennungs-Punktzahl gibt eine absolute
Wahrscheinlichkeit wieder, dass das zweite Wort in dem Sprachsignal
ist. Bei ei nem Schritt 40 wird eine zweite Hintergrund-Punktzahl
basierend auf der zweiten Erkennungs-Punktzahl abgeschätzt. Eine
zweite Zuversichtlichkeits-Punktzahl wird im Schritt 42 basierend
auf einem Übereinstimmungs-Verhältnis zwischen
einem zweiten Minimalerkennungswert und der zweiten Hintergrund-Punktzahl berechnet.
Die zweite Hintergrund-Punktzahl gibt eine rauschkorrigierte Wahrscheinlichkeit
wieder, dass das zweite Wort in dem Sprachsignal ist.