DE60204504T2

DE60204504T2 - Schlüsselworterkennung in einem verrauschten Signal

Info

Publication number: DE60204504T2
Application number: DE60204504T
Authority: DE
Inventors: Philippe R. Morin
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2001-03-28
Filing date: 2002-03-28
Publication date: 2006-06-01
Anticipated expiration: 2022-03-29
Also published as: US6985859B2; DE60204504D1; EP1246165B1; ES2243658T3; EP1246165A1; CN1228759C; CN1434436A; US20020161581A1

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Erkennen von Wörtern in einem Sprachsignal, wobei das Verfahren des Typs ist, der die folgenden Schritte umfasst: Generieren einer Mehrzahl von Erkennungs-Punktzahlen aus dem Sprachsignal und einem Wörterbucheintrag für ein erstes Wort, worin die Mehrzahl von Erkennungs-Punktzahlen eine absolute Wahrscheinlichkeit wiedergeben, dass das erste Wort in dem Sprachsignal ist.
Die Beliebtheit von Spracherkennung steigt rapide an und Spracherkennung hat sich als ziemlich nützlich in einer Anzahl von Anwendungen erwiesen. Beispielsweise sind Haushaltsgeräte und Elektronik, Mobiltelefone und andere mobile Verbraucher-Elektronik alles Bereiche, in denen Spracherkennung an Bedeutung gewonnen hat. Mit diesem Anstieg an Aufmerksamkeit wurden jedoch auch bestimmte Einschränkungen herkömmlicher Spracherkennungs-Techniken offensichtlich.
Eine besondere Einschränkung betrifft die Endpunkt-Detektion. Die Endpunkt-Detektion umfasst die automatische Segmentierung eines Sprachsignals in Sprach- und Nicht-Sprach-Segmente. Nach der Segmentierung wird üblicherweise eine Form von Mustererkennung (Pattern Matching) durchgeführt, um ein Erkennungs-Ergebnis zu erzeugen. Von besonderer Wichtigkeit sind jedoch Hintergrund- (oder zusätzliches) Rauschen und Kanal-(oder herkömmliches) Rauschen. Beispielsweise ist gut dokumentiert, dass bestimmte Anwendungen ein relativ vorhersagbares Hintergrundrauschen aufweisen (beispielsweise das Fahren eines Autos), wobei andere Anwendungen ein hochgradig unvorhersehbares Hintergrundrauschen umfassen, wie beispielsweise das, das durch Mobiltelefone erzeugt wird. Während der obengenannte Endpunkt-Detektions-Ansatz für Umgebungen mit wenig Rauschen oder vorhersagbarem Rauschen oft annehmbar ist, sind laute oder unvorhersagbare Hintergründe aus einer Anzahl von Gründen schwierig zu handhaben. Ein Grund ist, dass die Fähigkeit, zwischen Sprache und Nicht-Sprache zu unterscheiden abnimmt, wenn das Signal-Rausch-Verhältnis (signal-to-noise ratio, SNR) sich verringert. Außerdem wird ein nachfolgender Mustervergleich aufgrund von Verzerrungen (das sind spektrale Abdeckungseffekte), die durch unerwartetes Hintergrund-Rauschen hervorgerufen werden, schwieriger.
Bezüglich des Kanalrauschens ist es bekannt, dass der Kanaleffekt unterschiedlich sein kann in Abhängigkeit der verwendeten Signal-Übertragungs/Umwandlungs-Vorrichtung. Beispielsweise wird ein Audiosignal höchstwahrscheinlich durch ein Personalcomputer-Mikrofon anders als durch einen Telefon-Kanal verändert. Es ist auch bekannt, dass der Rauschtyp, die Stärke des Rauschens und der Kanal alle eine Umgebung definieren. Daher kann unvorhergesehenes Kanalrauschen viele der oben beschriebenen Hintergrundrauschen-Probleme hervorrufen. Einfach gesagt, wird die automatische Segmentierung bezüglich Sprache und Nicht-Sprache schnell unzuverlässig, wenn mit nicht vorhersagbaren Kanälen, mittleren oder hohen Rauschpegeln oder nicht stationären Hintergründen umgegangen wird. Unter diesen Bedingungen können automatische Endpunkt-Detektoren Fehler machen, wie beispielweise Triggern bei einem Abschnitt ohne Sprache oder Hinzufügen eines Rauschsegments an den Beginn und/oder an das Ende des Sprachabschnitts.
Ein anderes Problem im Zusammenhang mit herkömmlicher Endpunkt-Detektion ist die Vorhersagbarkeit des End-Benutzers (oder Sprechers). Beispielsweise kann es wünschenswert sein, das Kommando „Stopp" in dem Gesprochenen „Stopp dies" zu erkennen oder das Kommando „ja" in der Phrase „uh... ja" zu erkennen. Solche bedeutungslosen Wörter und Verzögerungen können bedeutende Schwierigkeiten in dem Erkennungsprozess bewirken. Weiterhin wird dadurch, dass der Benutzer alternativ dazu gezwungen wird, einem rigiden Sprachstil zu folgen, die Natürlichkeit und Attraktivität des Systems stark reduziert. Der Endpunkt-Detektions-Ansatz ist daher allgemein ungeeignet, um von dem Sprecher geäußerte unbedeutende Wörter und Verzögerungen zu ignorieren.
Obwohl eine allgemein als Worterkennung bekannte Technik sich entwickelt hat, um die obengenannten Benutzer-Vorhersagbarkeits-Probleme zu behandeln, weisen alle bekannten Worterkennungs-Techniken immer noch ihre Unzulänglichkeiten in Bezug auf eine Kompensierung von Hintergrundrauschen auf. Beispielsweise benötigen einige Systeme ein oder mehrere Hintergrundmodelle und verwenden ein Vergleichsschema zwischen den Wortmodellen und den Hintergrundmodellen, um die Trigger-Entscheidung zu unterstützen; dieser Ansatz wird in der US 5,425,129 beschrieben. Andere Systeme, wie das in der US 6,029,130 beschriebene, kombinieren eine Worterkennung mit einer Endpunkt-Detektion, um das Auffinden des interessanten Abschnitts des Sprachsignals zu unterstützen. Andere verwenden Nicht-Schlüsselwörter- (non-keyword-) oder Abfall- (garbage-) Modelle, um mit Hintergrundrauschen umzugehen. Ein weiterer Ansatz schließt ein Unterscheidungs-Training ein, bei dem die Punktzahlen anderer Wörter verwendet werden, um einen Anstieg der Detektions-Zuverlässigkeit zu unterstützen, wie in der US 5,710,864 beschrieben.
Alle der oben beschriebenen Worterkennungs-Techniken basieren auf der Annahme, dass unabhängig von der Hintergrundumgebung die Wort-Übereinstimmungs-Punktzahl (die eine absolute Wahr scheinlichkeit wiedergibt, dass das Wort in dem Sprachsignal ist) der Entscheidungs-Erkennungs-Faktor ist. Daher wird das Wort mit der besten Punktzahl als detektiert angenommen, solange die entsprechende Punktzahl einen gegebenen Schwellwert überschreitet. Obwohl die obige Annahme allgemein im Falle eines hohen Signal-Rausch-Verhältnisses zutrifft, scheitert sie im Fall eines niedrigen Signal-Rausch-Verhältnisses, wo Verständlichkeit eines Wortes stark durch die spektralen Merkmale des Rauschens beeinflusst sein kann. Die Reduzierung der Verständlichkeit ist durch den Rausch-Überdeckungs-Effekt bedingt, der einige der ein Wort charakterisierenden relevanten Informationen versteckt oder ausblendet. Der Effekt variiert von einem Wort zu einem anderen, wodurch der Punktzahl-Vergleich zwischen Wörtern ziemlich schwierig und unzuverlässig wird. Es ist daher wünschenswert, ein Verfahren und ein System zum Erkennen von Wörtern in einem Sprachsignal bereitzustellen, das Kanalrauschen und Hintergrundrauschen auf einer Pro-Wort-Basis grundlegend kompensiert.
Ein Verfahren zum Erkennen von Sprachkommandos, bei dem eine Gruppe von Kommandowörtern definiert sind, ist in der EP 1 020 847 offenbart. Ein Zeitfenster wird definiert, innerhalb dessen die Erkennung des Sprachkommandos ausgeführt wird. Erkennungsergebnisse einer ersten Erkennungsstufe werden ausgewählt, aus denen ein erster Zuverlässigkeits-Wert bestimmt wird. Ein erster Schwellwert y, mit dem der erste Zuverlässigkeits-Wert verglichen wird, wird festgelegt. Falls der erste Zuverlässigkeits-Wert größer oder gleich dem ersten Schwellwert Y ist, wird das Erkennungsergebnis der ersten Erkennungsstufe als das Erkennungsergebnis des Sprachkommandos ausgewählt. Falls der erste Zuverlässigkeits-Wert kleiner ist als der erste Schwellwert Y, wird eine zweite Erkennungsstufe für das Sprachkommando ausgeführt, worin das Zeitfenster erweitert wird und ein Erkennungsergebnis für die zweite Erken nungsstufe ausgewählt wird. Ein zweiter Erkennungs-Wert wird für das Erkennungsergebnis der zweiten Erkennungsstufe bestimmt und mit dem Schwellwert Y verglichen. Falls der zweite Erkennungswert größer oder gleich dem ersten Wert Y ist, wird das in der zweiten Stufe ausgewählte Kommandowort als das Erkennungsergebnis für das Sprachkommando ausgewählt. Falls der zweite Erkennungswert kleiner als der erste Wert Y ist, wird eine Vergleichsstufe ausgeführt, worin das erste und das zweite Erkennungsergebnis verglichen werden, um herauszufinden, mit welcher Wahrscheinlichkeit sie im Wesentlichen gleich sind, wobei das in der zweiten Stufe ausgewählte Kommandowort als ein Erkennungsergebnis für das Sprachkommando ausgewählt wird, falls die Wahrscheinlichkeit einen vorbestimmten Wert überschreitet.
Gemäß der vorliegenden Erfindung wird ein Verfahren des zuvor beschriebenen Typs zum Erkennen von Wörtern in einem Sprachsignal vorgesehen, gekennzeichnet durch Abschätzen einer ersten Hintergrund-Punktzahl durch Mitteln der Mehrzahl von Erkennungs-Punktzahlen über eine vorbestimmte Zeitspanne; Auffinden eines Minimal-Erkennungswerts unter der Mehrzahl von Erkennungs-Punktzahlen, wobei der Minimalwert einen Zeitpunkt darstellt, worin der Erkenner am zuversichtlichsten ist, dass das entsprechende Wort in dem Sprachsignal ist; und Berechnen einer ersten Erkennungs-Punktzahl basierend auf einem Übereinstimmungs-Verhältnis zwischen dem Minimal-Erkennungswert und der ersten Hintergrund-Punktzahl, wobei die erste Zuversichtlichkeits-Punktzahl eine rauschkorrigierte Wahrscheinlichkeit wiedergibt, dass das erste Wort in dem Sprachsignal ist.
Vorzugsweise umfasst das Verfahren weiterhin die Schritte des Normalisierens des Übereinstimmungs-Verhältnisses, worin das normalisierte Übereinstimmungs-Verhältnis die erste Zuversichtlichkeits-Punktzahl definiert.
In einer bevorzugten Ausführungsform umfasst das Verfahren weiterhin den Schritt des Durchsuchens eines vorbestimmten Bereichs der Mehrzahl der Zuverlässigkeits-Punktzahlen nach dem Minimal-Wert, so dass lokale Minima von der Übereinstimmungs-Verhältnis-Berechnung ausgeschlossen werden.
Vorzugsweise umfasst das Verfahren weiterhin die folgenden Schritte: Erzeugen einer zweiten Mehrzahl von Erkennungs-Punktzahlen basierend auf dem Sprachsignal und einem Wörterbucheintrag für ein zweites Wort, worin die zweite Mehrzahl der Erkennungs-Punktzahlen eine absolute Wahrscheinlichkeit wiedergeben, dass das zweite Wort in dem Sprachsignal ist; Abschätzen einer zweiten Hintergrund-Punktzahl durch Mitteln der zweiten Mehrzahl von Erkennungs-Punktzahlen über eine vorbestimmte Zeitspanne; Auffinden eines zweiten Minimal-Erkennungswerts unter der zweiten Mehrzahl der Erkennungs-Punktzahlen und Berechnen einer zweiten Zuverlässigkeits-Punktzahl basierend auf einem Übereinstimmungs-Verhältnis zwischen dem zweiten Minimal-Erkennungswert und der zweiten Hintergrund-Punktzahl, worin die zweite Hintergrund-Punktzahl eine rauschkorrigierte Wahrscheinlichkeit wiedergibt, dass das zweite Wort in dem Sprachsignal ist.
Gemäß einem zweiten Aspekt der Erfindung wird ein Worterkennungssystem bereitgestellt, das umfasst: einen Sprach-Erkenner zum Erzeugen einer Mehrzahl von Erkennungs-Punktzahlen basierend auf einem Sprachsignal und Wörterbuch-Einträgen für eine Mehrzahl von Wörtern, worin die Mehrzahl von Erkennungs-Punktzahlen absolute Wahrscheinlichkeiten wiedergeben, dass die Wörter in dem Sprachsignal sind, gekennzeichnet durch ein Erkennungs-Modul zum Abschätzen von Hintergrund-Punktzahlen durch Mitteln der Mehrzahl von Erkennungs-Punktzahlen über eine vorbestimmte Zeitspane und Auffinden von Minimal-Erkennungswerten unter der Mehrzahl von Erkennungs-Punktzahlen, worin das Erkennungs-Modul Zuversichtlichkeits-Punktzahlen auf einer Einzelframe-Basis basierend auf Übereinstimmungs-Verhältnissen zwischen den Minimal-Erkennungswerten und den Hintergrund-Punktzahlen berechnet, wobei die Zuversichtlichkeits-Punktzahlen rauschkorrigierte Wahrscheinlichkeiten wiedergeben, dass die Wörter in dem Sprachsignal sind.
Die Erfindung wird nun lediglich exemplarisch unter Bezugnahme auf die begleitenden Zeichnungen beschrieben, wobei die Zeichnungen zeigen:
1 ist ein Blockdiagramm eines Worterkennungssystems in Übereinstimmung mit den Merkmalen der vorliegenden Erfindung;
2a ist eine vergrößerte Ansicht des Diagramms der ersten Erkennungs-Punktzahl und der ersten Hintergrund-Punktzahl, die in der 1 gezeigt sind;
2b ist eine vergrößerte Ansicht des Diagramms der zweiten Erkennungs-Punktzahl und der zweiten Hintergrund-Punktzahl, die in der 1 gezeigt sind;
3 ist eine detaillierte Ansicht eines Erkennungs-Moduls in Übereinstimmung mit einer Ausführungsform der vorliegenden Erfindung;
4 ist ein Flussdiagramm eines Verfahrens zur Erkennung von Worten in einem Sprachsignal in Überein stimmung mit den Merkmalen der vorliegenden Erfindung;
5 ist ein Flussdiagramm eines Prozesses zum Berechnen einer Worterkennungs-Zuverlässigkeits-Punktzahl in Übereinstimmung mit einer Ausführungsform der vorliegenden Erfindung; und
6 ist eine vergrößerte Ansicht eines lokalen Minimums einer Erkennungs-Punktzahl in Übereinstimmung mit einer Ausführungsform der vorliegenden Erfindung.
Unter Bezugnahme auf 1 ist ein Worterkennungssystem 10 gezeigt. Es wird verstanden werden, dass das Worterkennungssystem allgemein ein Sprachsignal von einer Eingabe-Vorrichtung, wie einem Mikrofon 12, empfängt und ein Erkanntes-Wort-Ergebnis 14 erzeugt. Das System 10 kann in jeder beliebigen Anzahl von Vorrichtungen implementiert werden, in denen eine Worterkennung nützlich ist. Beispielsweise kann ein Mobiltelefon das System 10 verwenden, um ein Sprachwahl-System (nicht gezeigt) zu implementieren. Daher stellt in einer Ausführungsform das Sprachsignal 13 einen kontinuierlichen Strom von Sprache von einem Telefonbenutzer (nicht gezeigt) dar, worin das Erkennungssystem 10 nach bestimmten Wörtern in der Sprache sucht, um einen Wählprozess auszuführen. Das Erkanntes-Wort-Ergebnis 14 wird an den Rest von dem Sprachwahl-System zur Ausführung von verschiedenen Kommandos übergeben. Es ist jedoch wichtig zu bemerken, dass, obwohl das Erkennungssystem 10 in einer stark variierenden Anzahl von Anwendungen verwendet werden kann, das Erkennungssystem 10 einheitlich für Umgebungen mit starkem und vorhersagbarem Hintergrund- und Kanal-Rauschen geeignet ist.
Allgemein umfasst das Erkennungssystem 10 einen Sprach-Erkenner 16 und ein Erkennungs-Modul 18. Der Erkenner 16 erzeugt Erkennungs-Punktzahlen 20, 22 (R₁ und R₂) basierend auf dem Sprachsignal 13 und Wörterbucheinträgen für eine Mehrzahl von Wörtern 24, 26. Es ist ersichtlich, dass das Erkennungs-Modul 18 Hintergrund-Punktzahlen 28, 30 basierend auf den Erkennungs-Punktzahlen 20, 22 abschätzt. Das Erkennungsmodul 18 berechnet auch Zuverlässigkeits-Punktzahlen (weiter unten genauer beschrieben) auf einer Einzelframe-(Frame-by-Frame)-Basis von Übereinstimmungs-Verhältnissen zwischen Minimal-Erkennungs-Werten und den Hintergrund-Punktzahlen 28, 30. Wie weiter unten genauer beschrieben wird, gibt die Zuverlässigkeits-Punktzahl rauschkorrigierte Wahrscheinlichkeiten dafür, dass die Wörter 24, 26 in dem Sprachsignal 13 enthalten sind, an.
Es ist wichtig zu bemerken, dass das Erkennungssystem 10 zum Zwecke der Beschreibung vereinfacht wurde. Beispielsweise weist das dargestellte Wörterbuch 32 zwei Einträge auf, wobei es vorgesehen ist, dass die Anwendung wesentlich mehr benötigen kann. Es ist auch wichtig zu bemerken, dass das Erkennungssystem 10 falls gewünscht konfiguriert sein kann, um das Sprachsignal 13 nach einem einzelnen Wort abzusuchen.
Dennoch erzeugt der Sprach-Erkenner 16 kontinuierliche Erkennungs-Punktzahlen R₁ und R₂ basierend auf dem Sprachsignal 13 und den Wörterbucheinträgen. Wie in den 2a und 2b gezeigt, wird es bevorzugt, dass die Erkennungs-Punktzahlen 20, 22 ein Verständlichkeits-Kriterium darstellen, so dass eine niedrige Erkennungs-Punktzahl eine hohe Wahrscheinlichkeit anzeigt, dass das in Frage stehende Wort innerhalb des Sprachsignals enthalten ist. Daher stellen die Minimalwerte M₁ und M₂ Zeitpunkte dar, bei denen der Erkenner am zuversichtlichsten ist, dass die entsprechenden Wörter in dem Sprachsignal sind. Jede beliebige Anzahl von gut bekannten Erkennern kann konfiguriert werden, um dieses Ergebnis bereitzustellen. Ein solcher Erkenner ist in der US 6,073,095 beschrieben. Es ist wichtig zu bemerken, dass die Erkennungs-Punktzahlen 20, 22 absolute Wahrscheinlichkeiten wiedergeben, dass die Wörter in dem Sprachsignal sind.
Unter fortgesetzter Bezugnahme auf die 1 bis 3 ist ersichtlich, dass das Erkennungsmodul 18 es dem Erkennungssystem 10 ermöglicht, die für jedes Wort des Wörterbuchs spezifische dynamische Verzerrung zu entfernen und dabei einen angemessenen Punktzahl-Vergleich zu ermöglichen. Allgemein schätzt das Erkennungsmodul 18 kontinuierlich die Hintergrund-Punktzahlen jedes Wortes ab. Die Trigger-Strategie basiert dann auf einem Übereinstimmungs-Verhältnis zwischen der aktiven Punktzahl und der Hintergrund-Punktzahl bei jedem Zeitrahmen und auf einer Pro-Wort-Basis.
Wie am besten in 3 ersichtlich, umfasst daher das Erkennungs-Modul 18 ein dem ersten Wort entsprechendes erstes Zuverlässigkeits-Modul 34a und ein dem zweiten Wort entsprechendes zweites Zuverlässigkeits-Modul 34b. Es ist ersichtlich, dass die Zuversichtlichkeits-Module 34 Verfolgungs-Module 50 aufweisen, um Minimalwerte M innerhalb der Erkennungs-Punktzahlen R aufzufinden.
Zurückkommend auf 3 kann daher erkannt werden, dass die Zuverlässigkeits-Module 34 die Minimalerkennungswerte M durch Mittelwerte B für die Erkennungs-Punktzahlen dividieren, so dass sich die Übereinstimmungs-Verhältnisse M/B ergeben. Die Mittelwerte B definieren daher die Hintergrund-Punktzahlen. Jedes Zuverlässigkeits-Modul 34 normalisiert auch die Übereinstimmungs-Verhältnisse, so dass die normalisierten Übereinstimmungs-Verhältnisse 1–M/B die Zuverlässigkeits-Punkt zahlen definieren. Es wird verstanden werden, dass, wenn der Minimalwert M kleiner wird als die Hintergrund-Punktzahl B, das Übereinstimmungs-Verhältnis M/B sich Null annähert. Das normalisierte Übereinstimmungs-Verhältnis (d.h. die Zuverlässigkeit 1–M/B) wird sich daher Eins annähern. Da weiterhin jede Hintergrund-Punktzahl B einheitlich für ein gegebenes Wort ist, berücksichtigen die Zuverlässigkeits-Punktzahlen der vorliegenden Erfindung die Tatsache, dass Rauschen unterschiedliche Wörter auf unterschiedliche Weise beeinflusst.
Es wird weiterhin verstanden werden, dass ein Erkanntes-Wort-Selektor 48 fähig ist, die Zuverlässigkeits-Punktzahlen mit einem vorbestimmten Zuverlässigkeits-Schwellwert zu vergleichen, worin das in Frage stehende Wort als in dem Sprachsignal enthalten definiert wird, wenn die entsprechende Zuverlässigkeits-Punktzahl den vorbestimmten Zuverlässigkeits-Schwellwert überschreitet. Es wird auch verstanden werden, dass der Erkanntes-Wort-Selektor 48 auch bestimmen kann, ob das erste Wort und das zweite Wort einer gemeinsamen Zeitspanne innerhalb des Sprachsignals entsprechen. Daher kann der Selektor 48 zwischen dem ersten Wort und dem zweiten Wort basierend auf der ersten Zuverlässigkeits-Punktzahl und der zweiten Zuverlässigkeits-Punktzahl wählen, wenn das erste Wort und das zweite Wort der gemeinsamen Zeitspanne entsprechen. Es wird weiter verstanden werden, dass der Selektor 48 mit Wahrscheinlichkeitswerten arbeitet. Wenn beispielsweise ein besserer Wahrscheinlichkeitswert durch die Normalisierer 56 erzeugt wird, wird ein Zeitschalter (nicht gezeigt) gestartet. Der Zeitschalter kann erneut gestartet werden, falls eine neue, bessere Wahrscheinlichkeit erzeugt wird, bevor er abläuft (d.h. vor einer Δt-Verzögerung). Wenn 1) der Zeitschalter abläuft und 2) der beste Wahrscheinlichkeitswert über dem Wahrscheinlichkeits-Schwellwert liegt, dann ist das Wort ermittelt.
Unter spezifischer Bezugnahme auf die 6 ist ersichtlich, dass eine Verzögerungskomponente des Erkanntes-Wort-Selektors 48 eine Wortauswahl um einen vorbestimmten Bereich Δt der Erkennungs-Punktzahl 20 verzögern kann, so dass ein lokales Minimum 52 von der Übereinstimmungs-Verhältnis-Berechnung ausgeschlossen ist. Der Grund der Verzögerung ist, sicherzustellen, dass das System nicht ein Wort ausgibt basierend auf der ersten Zuverlässigkeit, die den Schwellwert übersteigt. Um zu Triggern, muss die beste Zuverlässigkeit den Schwellwert übersteigen und es dürfen keine besseren Werte (für irgendwelche Wörter in dem Lexikon) innerhalb von Δt Sekunden danach gefunden werden. Pragmatisch ausgedrückt, verhindert dieses Merkmal eine verfrühte Triggerung. Falls beispielsweise der zu erkennende Ausdruck „Victoria Station" ist, vermeidet die Verzögerung eine eventuelle Triggerung bei „Victoria Sta". Der Δt-Wert repräsentiert daher eine Validierungs-Verzögerungs-Triggerung bei lokalen Minima und bietet einen Mechanismus, um Sicherzustellen, dass das beste Minimum erreicht wurde.
Die 4 stellt ein Verfahren 36 zum Erkennen von Wörtern in einem Sprachsignal dar. Wie bereits beschrieben, kann das Verfahren 36 für jede beliebige Anzahl von in dem Wörterbuch gespeicherten Wörtern implementiert werden. Es ist ersichtlich, dass bei einem Schritt 38 eine erste Erkennungs-Punktzahl basierend auf dem Sprachsignal und einem Wörterbucheintrag für ein erstes Wort erzeugt wird. Wie bereits beschrieben, stellt die Erkennungs-Punktzahl eine absolute Wahrscheinlichkeit dar, dass das erste Wort in dem Sprachsignal ist. Bei einem Schritt 40 wird eine erste Hintergrund-Punktzahl basierend auf der ersten Erkennungs-Punktzahl abgeschätzt. Das Verfahren bietet weiterhin die Berechnung einer ersten Zuverlässigkeits-Punktzahl in einem Schritt 42 basie rend auf einem Übereinstimmungs-Verhältnis zwischen einem ersten Minimal-Erkennungs-Wert und einer ersten Hintergrund-Punktzahl. Die erste Zuverlässigkeits-Punktzahl gibt eine rauschkorrigierte Wahrscheinlichkeit wieder, dass das erste Wort in dem Sprachsignal ist. Es wird bevorzugt, dass die Hintergrund-Punktzahl durch Mitteln der ersten Erkennungs-Punktzahl über eine vorbestimmte Zeitspanne abgeschätzt wird. Beispielsweise kann das Intervall, über dem der Mittelwert berechnet wird, als eine bestimmte Anzahl von unmittelbar aufeinanderfolgenden Frames definiert sein, oder kann bei dem Beginn des Sprachsignals starten.
Zur 5 kommend wird der bevorzugte Ansatz zur Berechnung der ersten Zuverlässigkeits-Punktzahl genauer gezeigt. Im Einzelnen ist ersichtlich, dass bei einem Schritt 44 der erste Minimal-Erkennungswert durch einen Durchschnittswert für die erste Erkennungs-Punktzahl geteilt wird, so dass sich das Übereinstimmungs-Verhältnis ergibt. Wie bereits beschrieben, definiert der Durchschnittswert die erste Hintergrund-Punktzahl. In einem Schritt 46 wird das Übereinstimmungs-Verhältnis normalisiert, wobei das normalisierte Übereinstimmungs-Verhältnis die erste Zuverlässigkeits-Punktzahl definiert. Wie bereits beschrieben, können die in den 4 und 5 gezeigten Schritte für eine beliebige Anzahl von in dem Wörterbuch enthaltenen Wörtern ausgeführt werden.
Unter weiterer Bezugnahme auf die 4 und 5 wird erkannt werden, dass, wenn ein zweites Wort in einem Sprachsignal erkannt wird, das Verfahren 36 wie oben beschrieben folgt. Demzufolge wird bei einem Schritt 38 eine zweite Erkennungs-Punktzahl basierend auf dem Sprachsignal und einem Wörterbucheintrag für ein zweites Wort erzeugt. Die zweite Erkennungs-Punktzahl gibt eine absolute Wahrscheinlichkeit wieder, dass das zweite Wort in dem Sprachsignal ist. Bei ei nem Schritt 40 wird eine zweite Hintergrund-Punktzahl basierend auf der zweiten Erkennungs-Punktzahl abgeschätzt. Eine zweite Zuversichtlichkeits-Punktzahl wird im Schritt 42 basierend auf einem Übereinstimmungs-Verhältnis zwischen einem zweiten Minimalerkennungswert und der zweiten Hintergrund-Punktzahl berechnet. Die zweite Hintergrund-Punktzahl gibt eine rauschkorrigierte Wahrscheinlichkeit wieder, dass das zweite Wort in dem Sprachsignal ist.

Claims

Verfahren zum Erkennen von Worten in einem Sprachsignal (13), wobei das Verfahren die folgenden Schritte umfasst: Erzeugen einer Mehrzahl von Erkennungs-Punktzahlen (20) aus einem Sprachsignal und einem Wörterbuch-Eintrag (32) für ein erstes Wort (24), worin die Mehrzahl von Erkennungs-Punktzahlen eine absolute Wahrscheinlichkeit wiedergibt, dass das erste Wort in dem Sprachsignal ist, gekennzeichnet durch Abschätzen (40) einer ersten Hintergrund-Punktzahl (28) durch Mitteln der Mehrzahl von Erkennungs-Punktzahlen über eine vorbestimmte Zeitspanne, Auffinden eines Minimal-Erkennungswerts (M1) unter der Mehrzahl von Erkennungs-Punktzahlen, wobei der Minimalwert einen Zeitpunkt wiedergibt, bei dem der Erkenner am zuversichtlichsten ist, dass das entsprechende Wort in dem Sprachsignal ist, und Berechnen (42) einer ersten Zuversichtlichkeits-Punktzahl basierend auf einem Übereinstimmungs-Verhältnis (44) zwischen dem minimalen Erkennungswert und der ersten Hintergrund-Punktzahl, wobei die erste Zuversichtlichkeits-Punktzahl eine rauschkorrigierte Wahrscheinlichkeit wiedergibt, dass das erste Wort in dem Sprachsignal ist.
Verfahren nach Anspruch 1, weiterhin umfassend den Schritt: Normalisieren (46) des Übereinstimmungs-Verhältnisses (44), worin das normalisierte Übereinstimmungs-Verhältnis die erste Zuversichtlichkeits-Punktzahl definiert.
Verfahren nach Anspruch 1, weiterhin umfassend den Schritt: Durchsuchen eines vorbestimmten Bereichs der Mehrzahl von Erkennungs-Punktzahlen nach dem Minimalwert, so dass lokale Minima von der Übereinstimmungs-Verhältnis-Berechnung ausgeschlossen sind.
Verfahren nach Anspruch 1, weiterhin umfassend den Schritt: Vergleichen der ersten Zuversichtlichkeits-Punktzahl mit einem vorbestimmten Zuversichtlichkeits-Schwellwert, wobei das erste Wort in dem Sprachsignal ist, wenn die erste Zuversichtlichkeits-Punktzahl den vorbestimmten Zuversichtlichkeits-Schwellwert überschreitet.
Verfahren nach Anspruch 4, weiterhin umfassend den Schritt: Erkennen eines zweiten Worts in dem Sprachsignal.
Verfahren nach Anspruch 1, weiterhin umfassend die Schritte: Erzeugen einer zweiten Mehrzahl von Erkennungs-Punktzahlen (22) basierend auf dem Sprachsignal und einem Wörterbucheintrag (32) für ein zweites Wort (26), worin die zweite Mehrzahl von Erkennungs-Punktzahlen eine absolute Wahrscheinlichkeit wiedergeben, dass das zweite Wort in dem Sprachsignal ist, Abschätzen (40) einer zweiten Hintergrund-Punktzahl durch Mitteln der zweiten Mehrzahl von Erkennungs-Punktzahlen über eine vorbestimmte Zeitspanne, Auffinden eines zweiten Minimal-Erkennungswerts (M2) unter der zweiten Mehrzahl von Erkennungs-Punktzahlen, und Berechnen (42) einer zweiten Zuversichtlichkeits-Punktzahl basierend auf einem Übereinstimmungs-Verhältnis zwischen dem zweiten Minimal-Erkennungswert und der zweiten Hintergrund-Punktzahl, worin die zweite Zuversichtlichkeits-Punktzahl eine rauschkorrigierte Wahrscheinlichkeit wiedergibt, dass das zweite Wort in dem Sprachsignal ist.
Verfahren nach Anspruch 6, weiterhin umfassend den Schritt: Vergleichen der zweiten Zuversichtlichkeits-Punktzahl mit dem vorbestimmten Zuversichtlichkeits-Schwellwert, wobei das zweite Wort in dem Sprachsignal ist, wenn die zweite Zuversichtlichkeits-Punktzahl den vorbestimmten Zuversichtlichkeits-Schwellwert überschreitet.
Verfahren nach Anspruch 7, weiterhin umfassend die folgenden Schritte: Bestimmen, ob das erste Wort und das zweite Wort einer gemeinsamen Zeitspanne innerhalb des Sprachsignals entsprechen, und Wählen zwischen dem ersten Wort und dem zweiten Wort basierend auf der ersten Zuversichtlichkeits-Punktzahl und der zweiten Zuversichtlichkeits-Punktzahl, wenn das erste Wort und das zweite Wort der gemeinsamen Zeitspanne entsprechen.
Verfahren nach Anspruch 1, weiterhin umfassend den Schritt: Berechnen der Zuversichtlichkeits-Punktzahl auf einer Einzelframe-Basis.
Worterkennungssystem, das umfasst: einen Sprach-Erkenner (16) zum Erzeugen einer Mehrzahl von Erkennungs-Punktzahlen (R1, R2) basierend auf einem Sprachsignal (13) und Wörterbuch-Einträgen (32) für eine Mehrzahl von Wörtern, worin die Mehrzahl von Erkennungs-Punktzahlen absolute Wahrscheinlichkeiten wiedergeben, dass die Wörter in dem Sprachsignal sind, gekennzeichnet durch ein Erkennungs-Modul (18) zum Abschätzen von Hintergrund-Punktzahlen durch Mitteln der Mehrzahl von Erkennungs-Punktzahlen über eine vorbestimmte Zeitspane und Auffinden von Minimal-Erkennungswerten unter der Mehrzahl von Erkennungs-Punktzahlen, worin das Erkennungs-Modul Zuversichtlichkeits-Punktzahlen auf einer Einzelframe-Basis basierend auf Übereinstimmungs-Verhältnissen zwischen den Minimal-Erkennungswerten und den Hintergrund-Punktzahlen berechnet, wobei die Zuversichtlichkeits-Punktzahlen rauschbezogene Wahrscheinlichkeiten wiedergeben, dass die Wörter in dem Sprachsignal sind.