[go: up one dir, main page]

DE60204504T2 - Schlüsselworterkennung in einem verrauschten Signal - Google Patents

Schlüsselworterkennung in einem verrauschten Signal Download PDF

Info

Publication number
DE60204504T2
DE60204504T2 DE60204504T DE60204504T DE60204504T2 DE 60204504 T2 DE60204504 T2 DE 60204504T2 DE 60204504 T DE60204504 T DE 60204504T DE 60204504 T DE60204504 T DE 60204504T DE 60204504 T2 DE60204504 T2 DE 60204504T2
Authority
DE
Germany
Prior art keywords
recognition
word
speech signal
scores
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60204504T
Other languages
English (en)
Other versions
DE60204504D1 (de
Inventor
Philippe R. Morin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of DE60204504D1 publication Critical patent/DE60204504D1/de
Application granted granted Critical
Publication of DE60204504T2 publication Critical patent/DE60204504T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Surgical Instruments (AREA)
  • Character Discrimination (AREA)

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zum Erkennen von Wörtern in einem Sprachsignal, wobei das Verfahren des Typs ist, der die folgenden Schritte umfasst: Generieren einer Mehrzahl von Erkennungs-Punktzahlen aus dem Sprachsignal und einem Wörterbucheintrag für ein erstes Wort, worin die Mehrzahl von Erkennungs-Punktzahlen eine absolute Wahrscheinlichkeit wiedergeben, dass das erste Wort in dem Sprachsignal ist.
  • Die Beliebtheit von Spracherkennung steigt rapide an und Spracherkennung hat sich als ziemlich nützlich in einer Anzahl von Anwendungen erwiesen. Beispielsweise sind Haushaltsgeräte und Elektronik, Mobiltelefone und andere mobile Verbraucher-Elektronik alles Bereiche, in denen Spracherkennung an Bedeutung gewonnen hat. Mit diesem Anstieg an Aufmerksamkeit wurden jedoch auch bestimmte Einschränkungen herkömmlicher Spracherkennungs-Techniken offensichtlich.
  • Eine besondere Einschränkung betrifft die Endpunkt-Detektion. Die Endpunkt-Detektion umfasst die automatische Segmentierung eines Sprachsignals in Sprach- und Nicht-Sprach-Segmente. Nach der Segmentierung wird üblicherweise eine Form von Mustererkennung (Pattern Matching) durchgeführt, um ein Erkennungs-Ergebnis zu erzeugen. Von besonderer Wichtigkeit sind jedoch Hintergrund- (oder zusätzliches) Rauschen und Kanal-(oder herkömmliches) Rauschen. Beispielsweise ist gut dokumentiert, dass bestimmte Anwendungen ein relativ vorhersagbares Hintergrundrauschen aufweisen (beispielsweise das Fahren eines Autos), wobei andere Anwendungen ein hochgradig unvorhersehbares Hintergrundrauschen umfassen, wie beispielsweise das, das durch Mobiltelefone erzeugt wird. Während der obengenannte Endpunkt-Detektions-Ansatz für Umgebungen mit wenig Rauschen oder vorhersagbarem Rauschen oft annehmbar ist, sind laute oder unvorhersagbare Hintergründe aus einer Anzahl von Gründen schwierig zu handhaben. Ein Grund ist, dass die Fähigkeit, zwischen Sprache und Nicht-Sprache zu unterscheiden abnimmt, wenn das Signal-Rausch-Verhältnis (signal-to-noise ratio, SNR) sich verringert. Außerdem wird ein nachfolgender Mustervergleich aufgrund von Verzerrungen (das sind spektrale Abdeckungseffekte), die durch unerwartetes Hintergrund-Rauschen hervorgerufen werden, schwieriger.
  • Bezüglich des Kanalrauschens ist es bekannt, dass der Kanaleffekt unterschiedlich sein kann in Abhängigkeit der verwendeten Signal-Übertragungs/Umwandlungs-Vorrichtung. Beispielsweise wird ein Audiosignal höchstwahrscheinlich durch ein Personalcomputer-Mikrofon anders als durch einen Telefon-Kanal verändert. Es ist auch bekannt, dass der Rauschtyp, die Stärke des Rauschens und der Kanal alle eine Umgebung definieren. Daher kann unvorhergesehenes Kanalrauschen viele der oben beschriebenen Hintergrundrauschen-Probleme hervorrufen. Einfach gesagt, wird die automatische Segmentierung bezüglich Sprache und Nicht-Sprache schnell unzuverlässig, wenn mit nicht vorhersagbaren Kanälen, mittleren oder hohen Rauschpegeln oder nicht stationären Hintergründen umgegangen wird. Unter diesen Bedingungen können automatische Endpunkt-Detektoren Fehler machen, wie beispielweise Triggern bei einem Abschnitt ohne Sprache oder Hinzufügen eines Rauschsegments an den Beginn und/oder an das Ende des Sprachabschnitts.
  • Ein anderes Problem im Zusammenhang mit herkömmlicher Endpunkt-Detektion ist die Vorhersagbarkeit des End-Benutzers (oder Sprechers). Beispielsweise kann es wünschenswert sein, das Kommando „Stopp" in dem Gesprochenen „Stopp dies" zu erkennen oder das Kommando „ja" in der Phrase „uh... ja" zu erkennen. Solche bedeutungslosen Wörter und Verzögerungen können bedeutende Schwierigkeiten in dem Erkennungsprozess bewirken. Weiterhin wird dadurch, dass der Benutzer alternativ dazu gezwungen wird, einem rigiden Sprachstil zu folgen, die Natürlichkeit und Attraktivität des Systems stark reduziert. Der Endpunkt-Detektions-Ansatz ist daher allgemein ungeeignet, um von dem Sprecher geäußerte unbedeutende Wörter und Verzögerungen zu ignorieren.
  • Obwohl eine allgemein als Worterkennung bekannte Technik sich entwickelt hat, um die obengenannten Benutzer-Vorhersagbarkeits-Probleme zu behandeln, weisen alle bekannten Worterkennungs-Techniken immer noch ihre Unzulänglichkeiten in Bezug auf eine Kompensierung von Hintergrundrauschen auf. Beispielsweise benötigen einige Systeme ein oder mehrere Hintergrundmodelle und verwenden ein Vergleichsschema zwischen den Wortmodellen und den Hintergrundmodellen, um die Trigger-Entscheidung zu unterstützen; dieser Ansatz wird in der US 5,425,129 beschrieben. Andere Systeme, wie das in der US 6,029,130 beschriebene, kombinieren eine Worterkennung mit einer Endpunkt-Detektion, um das Auffinden des interessanten Abschnitts des Sprachsignals zu unterstützen. Andere verwenden Nicht-Schlüsselwörter- (non-keyword-) oder Abfall- (garbage-) Modelle, um mit Hintergrundrauschen umzugehen. Ein weiterer Ansatz schließt ein Unterscheidungs-Training ein, bei dem die Punktzahlen anderer Wörter verwendet werden, um einen Anstieg der Detektions-Zuverlässigkeit zu unterstützen, wie in der US 5,710,864 beschrieben.
  • Alle der oben beschriebenen Worterkennungs-Techniken basieren auf der Annahme, dass unabhängig von der Hintergrundumgebung die Wort-Übereinstimmungs-Punktzahl (die eine absolute Wahr scheinlichkeit wiedergibt, dass das Wort in dem Sprachsignal ist) der Entscheidungs-Erkennungs-Faktor ist. Daher wird das Wort mit der besten Punktzahl als detektiert angenommen, solange die entsprechende Punktzahl einen gegebenen Schwellwert überschreitet. Obwohl die obige Annahme allgemein im Falle eines hohen Signal-Rausch-Verhältnisses zutrifft, scheitert sie im Fall eines niedrigen Signal-Rausch-Verhältnisses, wo Verständlichkeit eines Wortes stark durch die spektralen Merkmale des Rauschens beeinflusst sein kann. Die Reduzierung der Verständlichkeit ist durch den Rausch-Überdeckungs-Effekt bedingt, der einige der ein Wort charakterisierenden relevanten Informationen versteckt oder ausblendet. Der Effekt variiert von einem Wort zu einem anderen, wodurch der Punktzahl-Vergleich zwischen Wörtern ziemlich schwierig und unzuverlässig wird. Es ist daher wünschenswert, ein Verfahren und ein System zum Erkennen von Wörtern in einem Sprachsignal bereitzustellen, das Kanalrauschen und Hintergrundrauschen auf einer Pro-Wort-Basis grundlegend kompensiert.
  • Ein Verfahren zum Erkennen von Sprachkommandos, bei dem eine Gruppe von Kommandowörtern definiert sind, ist in der EP 1 020 847 offenbart. Ein Zeitfenster wird definiert, innerhalb dessen die Erkennung des Sprachkommandos ausgeführt wird. Erkennungsergebnisse einer ersten Erkennungsstufe werden ausgewählt, aus denen ein erster Zuverlässigkeits-Wert bestimmt wird. Ein erster Schwellwert y, mit dem der erste Zuverlässigkeits-Wert verglichen wird, wird festgelegt. Falls der erste Zuverlässigkeits-Wert größer oder gleich dem ersten Schwellwert Y ist, wird das Erkennungsergebnis der ersten Erkennungsstufe als das Erkennungsergebnis des Sprachkommandos ausgewählt. Falls der erste Zuverlässigkeits-Wert kleiner ist als der erste Schwellwert Y, wird eine zweite Erkennungsstufe für das Sprachkommando ausgeführt, worin das Zeitfenster erweitert wird und ein Erkennungsergebnis für die zweite Erken nungsstufe ausgewählt wird. Ein zweiter Erkennungs-Wert wird für das Erkennungsergebnis der zweiten Erkennungsstufe bestimmt und mit dem Schwellwert Y verglichen. Falls der zweite Erkennungswert größer oder gleich dem ersten Wert Y ist, wird das in der zweiten Stufe ausgewählte Kommandowort als das Erkennungsergebnis für das Sprachkommando ausgewählt. Falls der zweite Erkennungswert kleiner als der erste Wert Y ist, wird eine Vergleichsstufe ausgeführt, worin das erste und das zweite Erkennungsergebnis verglichen werden, um herauszufinden, mit welcher Wahrscheinlichkeit sie im Wesentlichen gleich sind, wobei das in der zweiten Stufe ausgewählte Kommandowort als ein Erkennungsergebnis für das Sprachkommando ausgewählt wird, falls die Wahrscheinlichkeit einen vorbestimmten Wert überschreitet.
  • Gemäß der vorliegenden Erfindung wird ein Verfahren des zuvor beschriebenen Typs zum Erkennen von Wörtern in einem Sprachsignal vorgesehen, gekennzeichnet durch Abschätzen einer ersten Hintergrund-Punktzahl durch Mitteln der Mehrzahl von Erkennungs-Punktzahlen über eine vorbestimmte Zeitspanne; Auffinden eines Minimal-Erkennungswerts unter der Mehrzahl von Erkennungs-Punktzahlen, wobei der Minimalwert einen Zeitpunkt darstellt, worin der Erkenner am zuversichtlichsten ist, dass das entsprechende Wort in dem Sprachsignal ist; und Berechnen einer ersten Erkennungs-Punktzahl basierend auf einem Übereinstimmungs-Verhältnis zwischen dem Minimal-Erkennungswert und der ersten Hintergrund-Punktzahl, wobei die erste Zuversichtlichkeits-Punktzahl eine rauschkorrigierte Wahrscheinlichkeit wiedergibt, dass das erste Wort in dem Sprachsignal ist.
  • Vorzugsweise umfasst das Verfahren weiterhin die Schritte des Normalisierens des Übereinstimmungs-Verhältnisses, worin das normalisierte Übereinstimmungs-Verhältnis die erste Zuversichtlichkeits-Punktzahl definiert.
  • In einer bevorzugten Ausführungsform umfasst das Verfahren weiterhin den Schritt des Durchsuchens eines vorbestimmten Bereichs der Mehrzahl der Zuverlässigkeits-Punktzahlen nach dem Minimal-Wert, so dass lokale Minima von der Übereinstimmungs-Verhältnis-Berechnung ausgeschlossen werden.
  • Vorzugsweise umfasst das Verfahren weiterhin die folgenden Schritte: Erzeugen einer zweiten Mehrzahl von Erkennungs-Punktzahlen basierend auf dem Sprachsignal und einem Wörterbucheintrag für ein zweites Wort, worin die zweite Mehrzahl der Erkennungs-Punktzahlen eine absolute Wahrscheinlichkeit wiedergeben, dass das zweite Wort in dem Sprachsignal ist; Abschätzen einer zweiten Hintergrund-Punktzahl durch Mitteln der zweiten Mehrzahl von Erkennungs-Punktzahlen über eine vorbestimmte Zeitspanne; Auffinden eines zweiten Minimal-Erkennungswerts unter der zweiten Mehrzahl der Erkennungs-Punktzahlen und Berechnen einer zweiten Zuverlässigkeits-Punktzahl basierend auf einem Übereinstimmungs-Verhältnis zwischen dem zweiten Minimal-Erkennungswert und der zweiten Hintergrund-Punktzahl, worin die zweite Hintergrund-Punktzahl eine rauschkorrigierte Wahrscheinlichkeit wiedergibt, dass das zweite Wort in dem Sprachsignal ist.
  • Gemäß einem zweiten Aspekt der Erfindung wird ein Worterkennungssystem bereitgestellt, das umfasst: einen Sprach-Erkenner zum Erzeugen einer Mehrzahl von Erkennungs-Punktzahlen basierend auf einem Sprachsignal und Wörterbuch-Einträgen für eine Mehrzahl von Wörtern, worin die Mehrzahl von Erkennungs-Punktzahlen absolute Wahrscheinlichkeiten wiedergeben, dass die Wörter in dem Sprachsignal sind, gekennzeichnet durch ein Erkennungs-Modul zum Abschätzen von Hintergrund-Punktzahlen durch Mitteln der Mehrzahl von Erkennungs-Punktzahlen über eine vorbestimmte Zeitspane und Auffinden von Minimal-Erkennungswerten unter der Mehrzahl von Erkennungs-Punktzahlen, worin das Erkennungs-Modul Zuversichtlichkeits-Punktzahlen auf einer Einzelframe-Basis basierend auf Übereinstimmungs-Verhältnissen zwischen den Minimal-Erkennungswerten und den Hintergrund-Punktzahlen berechnet, wobei die Zuversichtlichkeits-Punktzahlen rauschkorrigierte Wahrscheinlichkeiten wiedergeben, dass die Wörter in dem Sprachsignal sind.
  • Die Erfindung wird nun lediglich exemplarisch unter Bezugnahme auf die begleitenden Zeichnungen beschrieben, wobei die Zeichnungen zeigen:
  • 1 ist ein Blockdiagramm eines Worterkennungssystems in Übereinstimmung mit den Merkmalen der vorliegenden Erfindung;
  • 2a ist eine vergrößerte Ansicht des Diagramms der ersten Erkennungs-Punktzahl und der ersten Hintergrund-Punktzahl, die in der 1 gezeigt sind;
  • 2b ist eine vergrößerte Ansicht des Diagramms der zweiten Erkennungs-Punktzahl und der zweiten Hintergrund-Punktzahl, die in der 1 gezeigt sind;
  • 3 ist eine detaillierte Ansicht eines Erkennungs-Moduls in Übereinstimmung mit einer Ausführungsform der vorliegenden Erfindung;
  • 4 ist ein Flussdiagramm eines Verfahrens zur Erkennung von Worten in einem Sprachsignal in Überein stimmung mit den Merkmalen der vorliegenden Erfindung;
  • 5 ist ein Flussdiagramm eines Prozesses zum Berechnen einer Worterkennungs-Zuverlässigkeits-Punktzahl in Übereinstimmung mit einer Ausführungsform der vorliegenden Erfindung; und
  • 6 ist eine vergrößerte Ansicht eines lokalen Minimums einer Erkennungs-Punktzahl in Übereinstimmung mit einer Ausführungsform der vorliegenden Erfindung.
  • Unter Bezugnahme auf 1 ist ein Worterkennungssystem 10 gezeigt. Es wird verstanden werden, dass das Worterkennungssystem allgemein ein Sprachsignal von einer Eingabe-Vorrichtung, wie einem Mikrofon 12, empfängt und ein Erkanntes-Wort-Ergebnis 14 erzeugt. Das System 10 kann in jeder beliebigen Anzahl von Vorrichtungen implementiert werden, in denen eine Worterkennung nützlich ist. Beispielsweise kann ein Mobiltelefon das System 10 verwenden, um ein Sprachwahl-System (nicht gezeigt) zu implementieren. Daher stellt in einer Ausführungsform das Sprachsignal 13 einen kontinuierlichen Strom von Sprache von einem Telefonbenutzer (nicht gezeigt) dar, worin das Erkennungssystem 10 nach bestimmten Wörtern in der Sprache sucht, um einen Wählprozess auszuführen. Das Erkanntes-Wort-Ergebnis 14 wird an den Rest von dem Sprachwahl-System zur Ausführung von verschiedenen Kommandos übergeben. Es ist jedoch wichtig zu bemerken, dass, obwohl das Erkennungssystem 10 in einer stark variierenden Anzahl von Anwendungen verwendet werden kann, das Erkennungssystem 10 einheitlich für Umgebungen mit starkem und vorhersagbarem Hintergrund- und Kanal-Rauschen geeignet ist.
  • Allgemein umfasst das Erkennungssystem 10 einen Sprach-Erkenner 16 und ein Erkennungs-Modul 18. Der Erkenner 16 erzeugt Erkennungs-Punktzahlen 20, 22 (R1 und R2) basierend auf dem Sprachsignal 13 und Wörterbucheinträgen für eine Mehrzahl von Wörtern 24, 26. Es ist ersichtlich, dass das Erkennungs-Modul 18 Hintergrund-Punktzahlen 28, 30 basierend auf den Erkennungs-Punktzahlen 20, 22 abschätzt. Das Erkennungsmodul 18 berechnet auch Zuverlässigkeits-Punktzahlen (weiter unten genauer beschrieben) auf einer Einzelframe-(Frame-by-Frame)-Basis von Übereinstimmungs-Verhältnissen zwischen Minimal-Erkennungs-Werten und den Hintergrund-Punktzahlen 28, 30. Wie weiter unten genauer beschrieben wird, gibt die Zuverlässigkeits-Punktzahl rauschkorrigierte Wahrscheinlichkeiten dafür, dass die Wörter 24, 26 in dem Sprachsignal 13 enthalten sind, an.
  • Es ist wichtig zu bemerken, dass das Erkennungssystem 10 zum Zwecke der Beschreibung vereinfacht wurde. Beispielsweise weist das dargestellte Wörterbuch 32 zwei Einträge auf, wobei es vorgesehen ist, dass die Anwendung wesentlich mehr benötigen kann. Es ist auch wichtig zu bemerken, dass das Erkennungssystem 10 falls gewünscht konfiguriert sein kann, um das Sprachsignal 13 nach einem einzelnen Wort abzusuchen.
  • Dennoch erzeugt der Sprach-Erkenner 16 kontinuierliche Erkennungs-Punktzahlen R1 und R2 basierend auf dem Sprachsignal 13 und den Wörterbucheinträgen. Wie in den 2a und 2b gezeigt, wird es bevorzugt, dass die Erkennungs-Punktzahlen 20, 22 ein Verständlichkeits-Kriterium darstellen, so dass eine niedrige Erkennungs-Punktzahl eine hohe Wahrscheinlichkeit anzeigt, dass das in Frage stehende Wort innerhalb des Sprachsignals enthalten ist. Daher stellen die Minimalwerte M1 und M2 Zeitpunkte dar, bei denen der Erkenner am zuversichtlichsten ist, dass die entsprechenden Wörter in dem Sprachsignal sind. Jede beliebige Anzahl von gut bekannten Erkennern kann konfiguriert werden, um dieses Ergebnis bereitzustellen. Ein solcher Erkenner ist in der US 6,073,095 beschrieben. Es ist wichtig zu bemerken, dass die Erkennungs-Punktzahlen 20, 22 absolute Wahrscheinlichkeiten wiedergeben, dass die Wörter in dem Sprachsignal sind.
  • Unter fortgesetzter Bezugnahme auf die 1 bis 3 ist ersichtlich, dass das Erkennungsmodul 18 es dem Erkennungssystem 10 ermöglicht, die für jedes Wort des Wörterbuchs spezifische dynamische Verzerrung zu entfernen und dabei einen angemessenen Punktzahl-Vergleich zu ermöglichen. Allgemein schätzt das Erkennungsmodul 18 kontinuierlich die Hintergrund-Punktzahlen jedes Wortes ab. Die Trigger-Strategie basiert dann auf einem Übereinstimmungs-Verhältnis zwischen der aktiven Punktzahl und der Hintergrund-Punktzahl bei jedem Zeitrahmen und auf einer Pro-Wort-Basis.
  • Wie am besten in 3 ersichtlich, umfasst daher das Erkennungs-Modul 18 ein dem ersten Wort entsprechendes erstes Zuverlässigkeits-Modul 34a und ein dem zweiten Wort entsprechendes zweites Zuverlässigkeits-Modul 34b. Es ist ersichtlich, dass die Zuversichtlichkeits-Module 34 Verfolgungs-Module 50 aufweisen, um Minimalwerte M innerhalb der Erkennungs-Punktzahlen R aufzufinden.
  • Zurückkommend auf 3 kann daher erkannt werden, dass die Zuverlässigkeits-Module 34 die Minimalerkennungswerte M durch Mittelwerte B für die Erkennungs-Punktzahlen dividieren, so dass sich die Übereinstimmungs-Verhältnisse M/B ergeben. Die Mittelwerte B definieren daher die Hintergrund-Punktzahlen. Jedes Zuverlässigkeits-Modul 34 normalisiert auch die Übereinstimmungs-Verhältnisse, so dass die normalisierten Übereinstimmungs-Verhältnisse 1–M/B die Zuverlässigkeits-Punkt zahlen definieren. Es wird verstanden werden, dass, wenn der Minimalwert M kleiner wird als die Hintergrund-Punktzahl B, das Übereinstimmungs-Verhältnis M/B sich Null annähert. Das normalisierte Übereinstimmungs-Verhältnis (d.h. die Zuverlässigkeit 1–M/B) wird sich daher Eins annähern. Da weiterhin jede Hintergrund-Punktzahl B einheitlich für ein gegebenes Wort ist, berücksichtigen die Zuverlässigkeits-Punktzahlen der vorliegenden Erfindung die Tatsache, dass Rauschen unterschiedliche Wörter auf unterschiedliche Weise beeinflusst.
  • Es wird weiterhin verstanden werden, dass ein Erkanntes-Wort-Selektor 48 fähig ist, die Zuverlässigkeits-Punktzahlen mit einem vorbestimmten Zuverlässigkeits-Schwellwert zu vergleichen, worin das in Frage stehende Wort als in dem Sprachsignal enthalten definiert wird, wenn die entsprechende Zuverlässigkeits-Punktzahl den vorbestimmten Zuverlässigkeits-Schwellwert überschreitet. Es wird auch verstanden werden, dass der Erkanntes-Wort-Selektor 48 auch bestimmen kann, ob das erste Wort und das zweite Wort einer gemeinsamen Zeitspanne innerhalb des Sprachsignals entsprechen. Daher kann der Selektor 48 zwischen dem ersten Wort und dem zweiten Wort basierend auf der ersten Zuverlässigkeits-Punktzahl und der zweiten Zuverlässigkeits-Punktzahl wählen, wenn das erste Wort und das zweite Wort der gemeinsamen Zeitspanne entsprechen. Es wird weiter verstanden werden, dass der Selektor 48 mit Wahrscheinlichkeitswerten arbeitet. Wenn beispielsweise ein besserer Wahrscheinlichkeitswert durch die Normalisierer 56 erzeugt wird, wird ein Zeitschalter (nicht gezeigt) gestartet. Der Zeitschalter kann erneut gestartet werden, falls eine neue, bessere Wahrscheinlichkeit erzeugt wird, bevor er abläuft (d.h. vor einer Δt-Verzögerung). Wenn 1) der Zeitschalter abläuft und 2) der beste Wahrscheinlichkeitswert über dem Wahrscheinlichkeits-Schwellwert liegt, dann ist das Wort ermittelt.
  • Unter spezifischer Bezugnahme auf die 6 ist ersichtlich, dass eine Verzögerungskomponente des Erkanntes-Wort-Selektors 48 eine Wortauswahl um einen vorbestimmten Bereich Δt der Erkennungs-Punktzahl 20 verzögern kann, so dass ein lokales Minimum 52 von der Übereinstimmungs-Verhältnis-Berechnung ausgeschlossen ist. Der Grund der Verzögerung ist, sicherzustellen, dass das System nicht ein Wort ausgibt basierend auf der ersten Zuverlässigkeit, die den Schwellwert übersteigt. Um zu Triggern, muss die beste Zuverlässigkeit den Schwellwert übersteigen und es dürfen keine besseren Werte (für irgendwelche Wörter in dem Lexikon) innerhalb von Δt Sekunden danach gefunden werden. Pragmatisch ausgedrückt, verhindert dieses Merkmal eine verfrühte Triggerung. Falls beispielsweise der zu erkennende Ausdruck „Victoria Station" ist, vermeidet die Verzögerung eine eventuelle Triggerung bei „Victoria Sta". Der Δt-Wert repräsentiert daher eine Validierungs-Verzögerungs-Triggerung bei lokalen Minima und bietet einen Mechanismus, um Sicherzustellen, dass das beste Minimum erreicht wurde.
  • Die 4 stellt ein Verfahren 36 zum Erkennen von Wörtern in einem Sprachsignal dar. Wie bereits beschrieben, kann das Verfahren 36 für jede beliebige Anzahl von in dem Wörterbuch gespeicherten Wörtern implementiert werden. Es ist ersichtlich, dass bei einem Schritt 38 eine erste Erkennungs-Punktzahl basierend auf dem Sprachsignal und einem Wörterbucheintrag für ein erstes Wort erzeugt wird. Wie bereits beschrieben, stellt die Erkennungs-Punktzahl eine absolute Wahrscheinlichkeit dar, dass das erste Wort in dem Sprachsignal ist. Bei einem Schritt 40 wird eine erste Hintergrund-Punktzahl basierend auf der ersten Erkennungs-Punktzahl abgeschätzt. Das Verfahren bietet weiterhin die Berechnung einer ersten Zuverlässigkeits-Punktzahl in einem Schritt 42 basie rend auf einem Übereinstimmungs-Verhältnis zwischen einem ersten Minimal-Erkennungs-Wert und einer ersten Hintergrund-Punktzahl. Die erste Zuverlässigkeits-Punktzahl gibt eine rauschkorrigierte Wahrscheinlichkeit wieder, dass das erste Wort in dem Sprachsignal ist. Es wird bevorzugt, dass die Hintergrund-Punktzahl durch Mitteln der ersten Erkennungs-Punktzahl über eine vorbestimmte Zeitspanne abgeschätzt wird. Beispielsweise kann das Intervall, über dem der Mittelwert berechnet wird, als eine bestimmte Anzahl von unmittelbar aufeinanderfolgenden Frames definiert sein, oder kann bei dem Beginn des Sprachsignals starten.
  • Zur 5 kommend wird der bevorzugte Ansatz zur Berechnung der ersten Zuverlässigkeits-Punktzahl genauer gezeigt. Im Einzelnen ist ersichtlich, dass bei einem Schritt 44 der erste Minimal-Erkennungswert durch einen Durchschnittswert für die erste Erkennungs-Punktzahl geteilt wird, so dass sich das Übereinstimmungs-Verhältnis ergibt. Wie bereits beschrieben, definiert der Durchschnittswert die erste Hintergrund-Punktzahl. In einem Schritt 46 wird das Übereinstimmungs-Verhältnis normalisiert, wobei das normalisierte Übereinstimmungs-Verhältnis die erste Zuverlässigkeits-Punktzahl definiert. Wie bereits beschrieben, können die in den 4 und 5 gezeigten Schritte für eine beliebige Anzahl von in dem Wörterbuch enthaltenen Wörtern ausgeführt werden.
  • Unter weiterer Bezugnahme auf die 4 und 5 wird erkannt werden, dass, wenn ein zweites Wort in einem Sprachsignal erkannt wird, das Verfahren 36 wie oben beschrieben folgt. Demzufolge wird bei einem Schritt 38 eine zweite Erkennungs-Punktzahl basierend auf dem Sprachsignal und einem Wörterbucheintrag für ein zweites Wort erzeugt. Die zweite Erkennungs-Punktzahl gibt eine absolute Wahrscheinlichkeit wieder, dass das zweite Wort in dem Sprachsignal ist. Bei ei nem Schritt 40 wird eine zweite Hintergrund-Punktzahl basierend auf der zweiten Erkennungs-Punktzahl abgeschätzt. Eine zweite Zuversichtlichkeits-Punktzahl wird im Schritt 42 basierend auf einem Übereinstimmungs-Verhältnis zwischen einem zweiten Minimalerkennungswert und der zweiten Hintergrund-Punktzahl berechnet. Die zweite Hintergrund-Punktzahl gibt eine rauschkorrigierte Wahrscheinlichkeit wieder, dass das zweite Wort in dem Sprachsignal ist.

Claims (10)

  1. Verfahren zum Erkennen von Worten in einem Sprachsignal (13), wobei das Verfahren die folgenden Schritte umfasst: Erzeugen einer Mehrzahl von Erkennungs-Punktzahlen (20) aus einem Sprachsignal und einem Wörterbuch-Eintrag (32) für ein erstes Wort (24), worin die Mehrzahl von Erkennungs-Punktzahlen eine absolute Wahrscheinlichkeit wiedergibt, dass das erste Wort in dem Sprachsignal ist, gekennzeichnet durch Abschätzen (40) einer ersten Hintergrund-Punktzahl (28) durch Mitteln der Mehrzahl von Erkennungs-Punktzahlen über eine vorbestimmte Zeitspanne, Auffinden eines Minimal-Erkennungswerts (M1) unter der Mehrzahl von Erkennungs-Punktzahlen, wobei der Minimalwert einen Zeitpunkt wiedergibt, bei dem der Erkenner am zuversichtlichsten ist, dass das entsprechende Wort in dem Sprachsignal ist, und Berechnen (42) einer ersten Zuversichtlichkeits-Punktzahl basierend auf einem Übereinstimmungs-Verhältnis (44) zwischen dem minimalen Erkennungswert und der ersten Hintergrund-Punktzahl, wobei die erste Zuversichtlichkeits-Punktzahl eine rauschkorrigierte Wahrscheinlichkeit wiedergibt, dass das erste Wort in dem Sprachsignal ist.
  2. Verfahren nach Anspruch 1, weiterhin umfassend den Schritt: Normalisieren (46) des Übereinstimmungs-Verhältnisses (44), worin das normalisierte Übereinstimmungs-Verhältnis die erste Zuversichtlichkeits-Punktzahl definiert.
  3. Verfahren nach Anspruch 1, weiterhin umfassend den Schritt: Durchsuchen eines vorbestimmten Bereichs der Mehrzahl von Erkennungs-Punktzahlen nach dem Minimalwert, so dass lokale Minima von der Übereinstimmungs-Verhältnis-Berechnung ausgeschlossen sind.
  4. Verfahren nach Anspruch 1, weiterhin umfassend den Schritt: Vergleichen der ersten Zuversichtlichkeits-Punktzahl mit einem vorbestimmten Zuversichtlichkeits-Schwellwert, wobei das erste Wort in dem Sprachsignal ist, wenn die erste Zuversichtlichkeits-Punktzahl den vorbestimmten Zuversichtlichkeits-Schwellwert überschreitet.
  5. Verfahren nach Anspruch 4, weiterhin umfassend den Schritt: Erkennen eines zweiten Worts in dem Sprachsignal.
  6. Verfahren nach Anspruch 1, weiterhin umfassend die Schritte: Erzeugen einer zweiten Mehrzahl von Erkennungs-Punktzahlen (22) basierend auf dem Sprachsignal und einem Wörterbucheintrag (32) für ein zweites Wort (26), worin die zweite Mehrzahl von Erkennungs-Punktzahlen eine absolute Wahrscheinlichkeit wiedergeben, dass das zweite Wort in dem Sprachsignal ist, Abschätzen (40) einer zweiten Hintergrund-Punktzahl durch Mitteln der zweiten Mehrzahl von Erkennungs-Punktzahlen über eine vorbestimmte Zeitspanne, Auffinden eines zweiten Minimal-Erkennungswerts (M2) unter der zweiten Mehrzahl von Erkennungs-Punktzahlen, und Berechnen (42) einer zweiten Zuversichtlichkeits-Punktzahl basierend auf einem Übereinstimmungs-Verhältnis zwischen dem zweiten Minimal-Erkennungswert und der zweiten Hintergrund-Punktzahl, worin die zweite Zuversichtlichkeits-Punktzahl eine rauschkorrigierte Wahrscheinlichkeit wiedergibt, dass das zweite Wort in dem Sprachsignal ist.
  7. Verfahren nach Anspruch 6, weiterhin umfassend den Schritt: Vergleichen der zweiten Zuversichtlichkeits-Punktzahl mit dem vorbestimmten Zuversichtlichkeits-Schwellwert, wobei das zweite Wort in dem Sprachsignal ist, wenn die zweite Zuversichtlichkeits-Punktzahl den vorbestimmten Zuversichtlichkeits-Schwellwert überschreitet.
  8. Verfahren nach Anspruch 7, weiterhin umfassend die folgenden Schritte: Bestimmen, ob das erste Wort und das zweite Wort einer gemeinsamen Zeitspanne innerhalb des Sprachsignals entsprechen, und Wählen zwischen dem ersten Wort und dem zweiten Wort basierend auf der ersten Zuversichtlichkeits-Punktzahl und der zweiten Zuversichtlichkeits-Punktzahl, wenn das erste Wort und das zweite Wort der gemeinsamen Zeitspanne entsprechen.
  9. Verfahren nach Anspruch 1, weiterhin umfassend den Schritt: Berechnen der Zuversichtlichkeits-Punktzahl auf einer Einzelframe-Basis.
  10. Worterkennungssystem, das umfasst: einen Sprach-Erkenner (16) zum Erzeugen einer Mehrzahl von Erkennungs-Punktzahlen (R1, R2) basierend auf einem Sprachsignal (13) und Wörterbuch-Einträgen (32) für eine Mehrzahl von Wörtern, worin die Mehrzahl von Erkennungs-Punktzahlen absolute Wahrscheinlichkeiten wiedergeben, dass die Wörter in dem Sprachsignal sind, gekennzeichnet durch ein Erkennungs-Modul (18) zum Abschätzen von Hintergrund-Punktzahlen durch Mitteln der Mehrzahl von Erkennungs-Punktzahlen über eine vorbestimmte Zeitspane und Auffinden von Minimal-Erkennungswerten unter der Mehrzahl von Erkennungs-Punktzahlen, worin das Erkennungs-Modul Zuversichtlichkeits-Punktzahlen auf einer Einzelframe-Basis basierend auf Übereinstimmungs-Verhältnissen zwischen den Minimal-Erkennungswerten und den Hintergrund-Punktzahlen berechnet, wobei die Zuversichtlichkeits-Punktzahlen rauschbezogene Wahrscheinlichkeiten wiedergeben, dass die Wörter in dem Sprachsignal sind.
DE60204504T 2001-03-28 2002-03-28 Schlüsselworterkennung in einem verrauschten Signal Expired - Fee Related DE60204504T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/818,849 US6985859B2 (en) 2001-03-28 2001-03-28 Robust word-spotting system using an intelligibility criterion for reliable keyword detection under adverse and unknown noisy environments
US818849 2001-03-28

Publications (2)

Publication Number Publication Date
DE60204504D1 DE60204504D1 (de) 2005-07-14
DE60204504T2 true DE60204504T2 (de) 2006-06-01

Family

ID=25226590

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60204504T Expired - Fee Related DE60204504T2 (de) 2001-03-28 2002-03-28 Schlüsselworterkennung in einem verrauschten Signal

Country Status (5)

Country Link
US (1) US6985859B2 (de)
EP (1) EP1246165B1 (de)
CN (1) CN1228759C (de)
DE (1) DE60204504T2 (de)
ES (1) ES2243658T3 (de)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7324940B1 (en) 2003-02-28 2008-01-29 Lumen Vox, Llc Speech recognition concept confidence measurement
KR100556365B1 (ko) * 2003-07-07 2006-03-03 엘지전자 주식회사 음성 인식장치 및 방법
US7650282B1 (en) 2003-07-23 2010-01-19 Nexidia Inc. Word spotting score normalization
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7949533B2 (en) 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7827032B2 (en) 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7881933B2 (en) * 2007-03-23 2011-02-01 Verizon Patent And Licensing Inc. Age determination using speech
US8045798B2 (en) * 2007-08-30 2011-10-25 Xerox Corporation Features generation and spotting methods and systems using same
US8014603B2 (en) * 2007-08-30 2011-09-06 Xerox Corporation System and method for characterizing handwritten or typed words in a document
US8340428B2 (en) 2008-04-02 2012-12-25 Xerox Corporation Unsupervised writer style adaptation for handwritten word spotting
KR101056511B1 (ko) 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
US8700399B2 (en) * 2009-07-06 2014-04-15 Sensory, Inc. Systems and methods for hands-free voice control and voice search
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
JP6024180B2 (ja) * 2012-04-27 2016-11-09 富士通株式会社 音声認識装置、音声認識方法、及びプログラム
TWI557722B (zh) * 2012-11-15 2016-11-11 緯創資通股份有限公司 語音干擾的濾除方法、系統,與電腦可讀記錄媒體
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
CN106778540B (zh) * 2013-03-28 2019-06-28 南通大学 停车检测准确的基于双层背景的停车事件检测方法
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
US20150179165A1 (en) * 2013-12-19 2015-06-25 Nuance Communications, Inc. System and method for caller intent labeling of the call-center conversations
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US10811007B2 (en) * 2018-06-08 2020-10-20 International Business Machines Corporation Filtering audio-based interference from voice commands using natural language processing
JP7191792B2 (ja) * 2019-08-23 2022-12-19 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5761639A (en) * 1989-03-13 1998-06-02 Kabushiki Kaisha Toshiba Method and apparatus for time series signal recognition with signal variation proof learning
US5425129A (en) * 1992-10-29 1995-06-13 International Business Machines Corporation Method for word spotting in continuous speech
US5465317A (en) * 1993-05-18 1995-11-07 International Business Machines Corporation Speech recognition system with improved rejection of words and sounds not in the system vocabulary
US5604839A (en) 1994-07-29 1997-02-18 Microsoft Corporation Method and system for improving speech recognition through front-end normalization of feature vectors
US5710864A (en) * 1994-12-29 1998-01-20 Lucent Technologies Inc. Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords
JP3484801B2 (ja) * 1995-02-17 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び装置
US5719921A (en) * 1996-02-29 1998-02-17 Nynex Science & Technology Methods and apparatus for activating telephone services in response to speech
JP3611223B2 (ja) * 1996-08-20 2005-01-19 株式会社リコー 音声認識装置及び方法
EP0856832A1 (de) * 1997-02-03 1998-08-05 Koninklijke Philips Electronics N.V. Verfahren und Vorrichtung zur Worterkennung
US6029124A (en) * 1997-02-21 2000-02-22 Dragon Systems, Inc. Sequential, nonparametric speech recognition and speaker identification
DE59801227D1 (de) * 1997-09-18 2001-09-20 Siemens Ag Verfahren zur erkennung eines schlüsselworts in gesprochener sprache
US6138095A (en) * 1998-09-03 2000-10-24 Lucent Technologies Inc. Speech recognition
US6571210B2 (en) * 1998-11-13 2003-05-27 Microsoft Corporation Confidence measure system using a near-miss pattern
FI116991B (fi) 1999-01-18 2006-04-28 Nokia Corp Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja puheella ohjattava langaton viestin
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
US6539353B1 (en) * 1999-10-12 2003-03-25 Microsoft Corporation Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition

Also Published As

Publication number Publication date
US6985859B2 (en) 2006-01-10
DE60204504D1 (de) 2005-07-14
EP1246165B1 (de) 2005-06-08
ES2243658T3 (es) 2005-12-01
EP1246165A1 (de) 2002-10-02
CN1228759C (zh) 2005-11-23
CN1434436A (zh) 2003-08-06
US20020161581A1 (en) 2002-10-31

Similar Documents

Publication Publication Date Title
DE60204504T2 (de) Schlüsselworterkennung in einem verrauschten Signal
DE69426969T2 (de) Spracherkennung mit bewerteter Entscheidung
DE69032777T2 (de) Spracherkennung unter Anwendung von Stichwörtern und Nichtstichwörter-Modellierung
DE69430082T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69614789T2 (de) Vom Anwender auswählbare mehrfache Schwellenwertkriterien für Spracherkennung
DE69807765T2 (de) Kombination von Frequenzverzerrung und spektraler Formung in einem HMM - basierten Spracherkenner
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
DE60024236T2 (de) Sprach endpunktbestimmung in einem rauschsignal
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE69816610T2 (de) Verfahren und vorrichtung zur rauschverminderung, insbesondere bei hörhilfegeräten
DE3236834C2 (de) Verfahren und Gerät zur Sprachanalyse
DE3876207T2 (de) Spracherkennungssystem unter verwendung von markov-modellen.
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE60222249T2 (de) Spracherkennungsystem mittels impliziter sprecheradaption
DE69324629T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE4397100C2 (de) Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
DE60024506T2 (de) Verfahren zur mehrstufigen Spracherkennung und Funkübertragungsvorrichtung zur Steuerung durch Sprache
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE69226796T2 (de) Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE3236885A1 (de) Verfahren und geraet zur sprachanalyse
DE60212725T2 (de) Verfahren zur automatischen spracherkennung
DE69930961T2 (de) Vorrichtung und verfahren zur sprachsegmentierung
DE60023736T2 (de) Verfahren und vorrichtung zur spracherkennung mit verschiedenen sprachmodellen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee