DE69926851T2

DE69926851T2 - Verfahren und Vorrichtung zur Sprachaktivitätsdetektion

Info

Publication number: DE69926851T2
Application number: DE69926851T
Authority: DE
Inventors: David Llewellyn Guildford Rees
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1998-10-20
Filing date: 1999-10-18
Publication date: 2006-06-08
Anticipated expiration: 2019-10-19
Also published as: DE69926851D1; EP0996110A1; US20030055639A1; US20040158465A1; JP2000132177A; EP0996110B1; JP4484283B2; US6711536B2

Description

Die vorliegende Erfindung bezieht sich auf eine Vorrichtung und ein Verfahren zur Sprachverarbeitung. Die Erfindung hat insbesondere, obwohl nicht ausschließlich, Relevanz bei der Spracherfassung innerhalb eines Sprachsignals.
Bei einigen Anwendungen, wie einer Spracherkennung, einer Sprecherverifikation und Sprachübertragungssystemen, ist das zur Umwandlung der Sprache des Anwenders in ein entsprechendes elektrisches Signal verwendete Mikrofon dauerhaft eingeschaltet. Deshalb gibt es, selbst wenn der Anwender gerade nicht spricht, ein konstantes, einer Stille oder einem Hintergrundrauschen entsprechendes Ausgangssignal von dem Mikrofon. (i) Zur Vermeidung nicht erforderlicher Verarbeitung dieses Hintergrundrauschsignals, (ii) zur Verhinderung von durch das Rauschen verursachten Fehl-Erkennungen, und (iii) zur Erhöhung der Gesamtleistung verwenden derartige Systeme Spracherfassungsschaltungen, die das Signal von dem Mikrofon fortwährend überwachen und die die Hauptsprachverarbeitung lediglich dann aktivieren, wenn Sprache in dem ankommenden Signal identifiziert wird.
Die meisten Vorrichtungen gemäß dem Stand der Technik erfassen den Sprachanfang und das Sprachende durch eine Überwachung der Energie innerhalb des Eingangssignals, da Die Signalenergie während einer Stille klein, während Sprache hingegen groß ist. Insbesondere wird bei den bekannten Systemen Sprache durch Vergleich der mittleren Energie mit einem Schwellenwert und durch Warten auf seine Überschreitung erfast, was anzeigt, dass dann Sprache begonnen hat. Damit dieses Verfahren die Punkte genau bestimmen kann, an denen Sprache beginnt und endet (die sogenannten Endpunkte), muss der Schwellenwert auf einen Wert nahe der Rauschgrenze eingestellt werden. Dieses System funktioniert in einer Umgebung mit einem niedrigen, konstanten Rauschpegel gut. Es ist jedoch in vielen Umgebungen ungeeignet, in denen es einen hohen Rauschpegel gibt, der sich merklich über die Zeit verändern kann. Beispiele derartiger Umgebungen beinhalten ein Wageninneres, Nähe einer Straße, oder einen belebten öffentlichen Ort. Das Rauschen in diesen Umgebungen kann leisere Sprachanteile ausblenden, und Veränderungen in dem Rauschpegel können verursachen, dass Rauschen als Sprache erfasst wird.
Ein Ziel der vorliegenden Erfindung ist eine Bereitstellung eines alternativen Systems zur Spracherfassung innerhalb eines Eingangssignals.
Gemäß einer Ausgestaltung stellt die vorliegende Erfindung eine Spracherkennungsvorrichtung bereit, mit einer Einrichtung zum Empfang eines Eingangssignals, einer Einrichtung zur Verarbeitung des empfangenen Signals zur Erzeugung eines sich mit einer lokalen Energie innerhalb des empfangenen Signals ändernden Energiesignals, einer Einrichtung zur Filterung des Energiesignals zur Entfernung von eine Frequenz unterhalb einer vorbestimmten Frequenz aufweisenden Energieschwankungen, einer Einrichtung zur Erfassung des Vorhandenseins von Sprache in dem Eingangssignal unter Verwendung des gefilterten Energiesignals, und einer Einrichtung zum Vergleich der erfassten Sprache mit gespeicherten Referenzmodellen zur Bereitstellung eines Erkennungsergebnisses. Eine derartige Vorrichtung weist den Vorteil auf, dass sie das Vorhandensein von Sprache auch in Umgebungen genauer erfassen kann, in denen es hohe Rauschpegel gibt. Dies ist möglich, da Veränderungen in dem Rauschpegel üblicherweise relativ langsam (weniger als 1 Hz) erfolgen, verglichen mit den durch Sprache verursachten Schwankungen.
Ein exemplarisches Ausführungsbeispiel der Erfindung ist nachstehend anhand der beiliegenden Zeichnung beschrieben.
KURZBESCHREIBUNG DER ZEICHNUNGEN
Es zeigen:
1 eine schematische Ansicht eines Computers, der programmiert werden kann, um als ein Ausführungsbeispiel der vorliegenden Erfindung zu arbeiten,
2 eine schematische Übersicht eines Spracherkennungssystems,
3 ein Blockdiagramm des Prozessors, der als Teil des in 2 gezeigten Systems vorgesehen ist, das einige der Verarbeitungsschritte darstellt, die bezüglich des eingegebenen Sprachsignals ausgeführt werden,
4 eine diagrammartige Darstellung der Teilung des eingegebenen Sprachsignals S(t) in eine Serie von Zeitrahmen,
5 eine diagrammartige Darstellung eines typischen Sprachsignals für einen einzelnen Zeitrahmen,
6a eine Darstellung der durchschnittlichen Rahmenenergie eines eingegebenen Sprachsignals, die die Art darstellt, in der sich die Durchschnittsenergie zu Beginn und am Ende von Sprache innerhalb des eingegebenen Signals ändert,
6b eine Darstellung der Modulationsleistung des Energiesignals, das in 6 gezeigt ist, innerhalb eines um 4 Hz zentrierten Frequenzbandes,
7 ein Blockdiagramm, das in mehr Einzelheiten einen Endpunktdetektor gemäß 3 zeigt,
8a ein Ablaufdiagramm, das einen Teil der Schritte darstellt, die von der in 7 gezeigten Steuereinheit durchgeführt werden,
8b ein Ablaufdiagramm, das die restlichen Schritte darstellt, die die in 7 gezeigte Steuereinheit durchführt,
9 eine Darstellung der in 6a gezeigten Durchschnittsenergie nach Filterung zum Beseitigen niederfrequenter Variationen und dem Gleichspannungsoffset,
10 ein Blockdiagramm, das in mehr Einzelheiten die Verarbeitung zeigt, die der in 3 gezeigte Merkmalsausleser ausgeführt,
11 eine diagrammartige Darstellung des Antwortwertes der diskreten Fourier-Transformation des in 5 gezeigten Sprachsignals,
12 eine diagrammartige Darstellung des durchschnittlichen Ausgangssignals des Antwortwerts einer Filterbank mit Mel-Teilung,
13 eine diagrammartige Darstellung eines logarithmischen Amplitudenspektrums des Ausgangssignals aus der Filterbank mit Mel-Teilung,
14 eine diagrammartige Darstellung, die die Art und Weise veranschaulicht, in der die Energie innerhalb eines eingegebenen Rahmens über die Mel-Frequenzbänke verteilt ist,
15a eine Darstellung des logarithmischen Amplitudenspektrums des Ausgangssignals aus der Filterbank mit Mel-Teilung für ein Beispielwort, wenn ein geringes Hintergrundrauschen vorhanden ist,
15b eine Darstellung des logarithmischen Amplitudenspektrums des Ausgangssignals der Filterbank mit Mel-Teilung für dasselbe Wort, wenn hohe Pegel des Hintergrundrauschens vorhanden sind,
15c eine Darstellung gemäß 15a bei aus der Filterbank mit Mel-Teilung dem Ausgangssignal hinzugefügtem Rauschmaskierpegel,
15d eine Darstellung gemäß 15b, wenn dieselbe Rauschmaskierung für das Ausgangssignal aus der Filterbank mit Mel-Teilung erfolgt,
16 eine diagrammartige Darstellung des Cepstrum des logarithmierten Amplitudenspektrums, gezeigt in 13,
17 eine Darstellung, die eine nichtlineare Transformation veranschaulicht, die zum Skalieren der Binärwerte dient, die Kepstralkoeffizienten darstellen, um die Anzahl von dort verwendeten darstellenden Bits zu verringern,
18a schematisch die Art und Weise, in der sich der Energiepegel während der Äußerung eines Beispielwortes ändert, wobei es ein schwaches Hintergrundrauschen gibt,
18b schematisch die Art und Weise, in der der Energiepegel in einer Äußerung desselben Wortes variiert, wenn die Äußerung leiser ist und wenn es ein stärkeres Hintergrundrauschen gibt,
18c schematisch die Energiepegel der 18a und 18b nach Energienormierung und Energiemaskierung,
19a schematisch zwei Äußerungen desselben Wortes, die zum Erstellen eines Wortmodells Verwendung finden,
19b schematisch eine Äußerung eines Übungsbeispiels mit großen Oszillationen zu Beginn der Äußerung, die durch Atmen in das Mikrophon verursacht werden,
19c schematisch eine Äußerung eines Übungswortes, das sich von den Übungswörtern gemäß 19a unterscheidet,
19d schematisch eine Äußerung eines Übungswortes, bei dem ein Teil des Wortes weggeschnitten worden ist, und
19e schematisch eine Äußerung eines Übungswortes mit einem starken Rauschen innerhalb eines Sprachabschnitts.
Ausführungsbeispiele der vorliegenden Erfindung lassen sich in Computerhardware realisieren, aber das zu beschreibende Ausführungsbeispiel ist mit Software realisiert, die in Verbindung mit Verarbeitungshardware läuft, wie beispielsweise einem Personal Computer, einem Arbeitsplatzrechner, einem Kopierer, einem Faxgerät oder dergleichen.
1 zeigt einen Personal Computer (PC) 1, der programmiert werden kann, um ein Ausführungsbeispiel nach der vorliegenden Erfindung auszuführen. Eine Tastatur 3, eine Zeigereinrichtung 5, ein Mikrophon 7 und eine Fernsprechleitung 9 sind mit dem PC 1 über eine Schnittstelle 11 verbunden. Die Tastatur 3 und die Zeigereinrichtung 5 ermöglichen dem System, vom Anwender gesteuert zu werden. Das Mikrophon 7 setzt das akustische Sprachsignal des Anwenders in ein äquivalentes elektrisches Signal um und liefert dieses an den PC 1 zur Verarbeitung. Ein internes Modem und eine Sprachempfangsschaltung (nicht dargestellt) können mit der Fernsprachleitung 9 verbunden sein, so dass der PC 1 beispielsweise mit einem entfernten Computer oder mit einem entfernten Anwender kommunizieren kann.
Die Programmbefehle, die den PC 1 gemäß der vorliegenden Erfindung arbeiten lassen, lassen sich anliefern durch Verwendung eines vorhandenen PC 1 auf beispielsweise einer Speichereinrichtung, wie einer Magnetplatte 13, oder durch Herunterladen der Software aus dem Internet (nicht dargestellt) über das interne Modem und die Fernsprechleitung 9.
Die Arbeitsweise des Spracherkennungssystems dieses Ausführungsbeispiels ist nachstehend kurz anhand 2 erläutert. Eine genauere Beschreibung des Spracherkennungssystems lässt sich in der früheren europäischen Patentanmeldung EP 0 789 349 des vorliegenden Anmelders finden, auf deren Inhalt hiermit durch Referenz Bezug genommen wird. Elektrische Signale, die die eingegebene Sprache beispielsweise aus dem Mikrophon 7 darstellen, beaufschlagen einen Vorprozessor 15, der das eingegebene Sprachsignal in eine Sequenz von Parameterrahmen umsetzt, die jeweils einen zugehörigen Zeitrahmen des eingegebenen Sprachsignals repräsentieren. Die Sequenz von Parameterrahmen wird über einen Puffer 16 an einen Erkennungsblock 17 geliefert, bei dem die Sprache erkannt wird durch Vergleichen der eingegebenen Sequenz von Parameterrahmen mit Bezugsmodellen oder Wortmodellen 19, die jeweils über eine Sequenz von Parameterrahmen verfügen, die in derselben Art von Parametern wie jene der eingegebenen zu erkennenden Sprache ausgedrückt sind.
Ein Sprachmodell 21 und ein Rauschmodell 23 sind ebenfalls als Eingangssignale für den Erkennungsblock 17 vorgesehen, um beim Erkennungsprozess behilflich zu sein. Das Rauschmodell ist repräsentativ für Ruhe oder Hintergrundrauschen und enthält in diesem Ausführungsbeispiel einen einzigen Parameterrahmen der Art wie jene des eingegebenen Sprachsignals, das zu erkennen ist. Das Sprachmodell 21 wird verwendet, um die zulässige Sequenz von Wörtern aus dem Spracherkennungsblock 17 einzuschränken, um so mit Sequenzen der dem System bekannten Wörter übereinzustimmen. Die Wortsequenz aus dem Erkennungsblock 17 kann dann zur Verwendung beispielsweise in einen Wortverarbeitungspaket umgesetzt werden oder kann als Bedienbefehle verwendet werden, um die Arbeitsweise des PC 1 zu initialisieren, zu beenden oder abzuwandeln.
Nun folgt eine genauere Erläuterung einiger zuvor beschriebenen Vorrichtungsblöcke.
VORPROZESSOR
Nachstehend anhand der 3 bis 17 beschrieben ist der Vorprozessor.
Die Aufgaben des Vorprozessors 15 liegen im Auslesen der Information, die erforderlich ist für die Sprache, und zum Reduzieren der Datenmenge, die zu verarbeiten ist. Es gibt viele unterschiedliche Informationsarten, die aus dem eingegebenen Signal ausgelesen werden können. In diesem Ausführungsbeispiel ist der Vorprozessor 15 ausgelegt zum Auslesen von formantbezogenen Informationen. Formanten sind definiert als Resonanzfrequenzen des Sprachtraktes des Anwenders, die sich wie die Form des Sprachtraktes ändern.
3 zeigt ein Blockdiagramm über einige Vorverarbeitungen, die bezüglich des eingegebenen Sprachsignals ausgeführt werden. Eingegebene Sprache S(t) aus dem Mikrophon 7 oder aus der Fernsprechleitung 9 werden dem Filterblock 61 zugeführt, der Frequenzen innerhalb des eingegebenen Sprachsignals beseitigt, die eine weniger bedeutsame Information enthalten. Die meisten nützlichen Informationen für die Spracherkennung sind im Frequenzband zwischen 300 Hz und 4 KHz enthalten. Der Filterblock 61 beseitigt alle Frequenzen außerhalb dieses Frequenzbandes. Da keine Information, die für die Spracherkennung nützlich ist, vom Filterblock 61 ausgefiltert wird, gibt es keinen Verlust bei der Erkennungsleistung. In einigen Umgebungen, beispielsweise in einem Motorfahrzeug, liegt das meiste Hintergrundrauschen unterhalb 300 Hz, und der Filterblock 61 kann zu einem effektiven Anstieg des Signal-Stör-Verhältnisses von etwa 10 dB oder mehr führen. Das gefilterte Sprachsignal wird dann vom Analog-zu-Digital-Umsetzer (ADC) 63 umgesetzt in digitale Abtastwerte mit 16 Bit. Der ADC 63 tastet das gefilterte Signal mit einer Rate von 8000 pro Sekunde ab, um die Abtastwerte dem Nyquist-Abtastkriterium zu unterziehen. In diesem Ausführungsbeispiel wird die gesamte eingegebene Sprachäußerung in digitale Abtastwerte umgesetzt und vor den nachfolgenden Schritten der Verarbeitung der Sprachsignale in einem Puffer (nicht dargestellt) gespeichert.
Nachdem die eingegebene Sprache abgetastet ist, wird sie eingeteilt in sich nicht überlappende gleichlange Rahmen im Block 65. Der Grund für die Teilung des eingegebenen Sprachsignals in Rahmen ist nachstehend in mehr Einzelheiten beschrieben. Während der fortgesetzten Sprache ändert sich die formantbezogene Information kontinuierlich, wie zuvor erwähnt, und die Änderungsrate ist direkt abhängig von der Bewegungsrate des Sprachartikulierers, der auf die physiologischen Hemmnisse beschränkt ist. Um die Häufigkeiten der Formantänderung zu verfolgen, muss folglich das Sprachsignal über kurze Zeitperioden oder Rahmen analysiert werden, und dieses Verfahren ist nach dem Stand der Technik als Sprachanalyse oder sogenannte "Kurzzeitanalyse" der Sprache bekannt. Es gibt zwei Gesichtspunkte, die angesprochen werden müssen, wenn man eine Kurzzeitanalyse durchführt: (i) In welchen Raten sollten die Zeitrahmen aus dem Sprachsignal ausgelesen werden, und (ii) wie groß sollte ein Zeitrahmen gewählt werden.
Der erste Gesichtspunkt hängt ab von der Bewegungsrate des Sprachartikulierers, das heißt, die Rahmen sollten hinreichend eng sein, um sicherzustellen, dass wichtige Vorkommnisse nicht versäumt werden, und um sicherzustellen, dass es eine vernünftige Kontinuität gibt. Der zweite Gesichtspunkt wird bestimmt durch einen Kompromiss zwischen dem Zeitrahmen, der kurz genug ist, so dass die Eigenschaften der Sprachsignale während des Rahmens konstant bleiben, und dem Rahmen, der lang genug ist, um hinreichende Frequenzeinzelheiten anzugeben, so dass die Formanten unterschieden werden können.
Um in diesem Ausführungsbeispiel den erforderlichen Rechenaufwand zu reduzieren, werden sowohl am vorderen Ende der Verarbeitung und später im Erkennungszustand sich nichtüberlappende Rahmen von 128 Abtastungen (entspricht 16 Millisekunden der Sprache) direkt aus der Sprache ohne eine herkömmliche Fensterfunktion ausgelesen. Dies wird in den 4 und 5 dargestellt, die einen Abschnitt eines eingegebenen Signals S(t) und die Teilung der Signale in sich nichtüberlappende Rahmen beziehungsweise in einen dieser Rahmen S^k(r) zeigen. In einem herkömmlichen System werden sich überlappende Rahmen üblicherweise unter Verwendung einer Fensterfunktion ausgelesen, die die Frequenzverzerrungen reduziert, verursacht durch Auslesen der Rahmen aus dem Sprachsignal. Der Anmelder hat jedoch herausgefunden, dass mit sich nichtüberlappenden Rahmen diese herkömmlichen Fensterfunktionen die Spracherkennungsleistung eher verschlechtern als verbessern.
Die Sprachrahmen S^k(r) aus dem Block 65 werden dann in einen Ringpuffer 66 geschrieben, der 62 Rahmen entsprechend ungefähr einer Sekunde an Sprache speichern kann. Die in den Ringpuffer 66 geschriebenen Rahmen durchlaufen auch einen Endpunktdetektor 68, der die Rahmen verarbeitet, um herauszufinden, wann die Sprache im eingegebenen Signal beginnt, und, nachdem sie begonnen hat, wann sie endet. Bis die Sprache im eingegebenen Signal erfasst ist, werden die Rahmen im Ringpuffer dem rechenintensiven Merkmalsausleser 70 nicht zugeführt. Wenn jedoch der Endpunktdetektor 68 den Anfang der Sprache innerhalb des eingegebenen Signals erfasst, signalisiert er dem Ringpuffer den Start des Durchlaufs der empfangenen Rahmen nach dem Start des Sprachpunktes an den Merkmalsausleser 70, der dann einen Satz von Parametern für jeden Rahmen ausliest, der für das Sprachsignal innerhalb des Rahmens repräsentativ ist.
SPRACHERFASSUNG
Die Art und Weise, in der der Endpunktdetektor 68 in diesem Ausführungsbeispiel arbeitet, ist nachstehend anhand der 6 bis 9 beschrieben. In diesem Ausführungsbeispiel wird die Sprache erfasst, indem die durchschnittliche Rahmenenergie des eingegebenen Signals als abgetastetes Signal behandelt wird und nach Modulationen innerhalb dieses abgetasteten Signals gesucht wird, die ein Charakteristikum der Sprache sind. Insbesondere ist die Energie aufgrund von Sprache stark bei Frequenzen um 4 Hz moduliert, mit einer sehr geringen Modulation unter 1 Hz oder über 10 Hz. Im Gegensatz dazu neigen Änderungen im Rauschpegel dazu, relativ langsam aufzutreten, wobei die Signalenergie typischerweise bei weniger als 1 Hz moduliert ist. Darüber hinaus sind Zufallsfluktuationen in der Rauschenergie von Rahmen zu Rahmen nicht korreliert und werden über den Modulationsfrequenzbereich von 0 Hz bis zur Hälfte der Rahmenrate verteilt. Der Endpunktdetektor 68 in diesem Ausführungsbeispiel ist folglich eingerichtet, die Anwesenheit von Sprache durch Bandpassfilterung der Durchschnittsrahmenenergie in einem Frequenzband zwischen 2 Hz und 6 Hz festzustellen durch Berechnen der Modulationsleistung innerhalb dieses Frequenzbandes und durch Anwenden eines Feststellschwellenwertes für die berechnete Modulationsleistung.
6a ist eine Darstellung, die eine Durchschnittsrahmenenergie innerhalb eines beispielhaften Eingangssignals veranschaulicht. Das eingegebene Signal enthält Hintergrundrauschsabschnitte 72-1 und 72-2, die dem Hintergrundrauschen entsprechen und gebunden sind an einen Abschnitt 74, der Sprache enthält. Wie in 6a gezeigt, fluktuiert die durchschnittliche Energie mit der Zeit kaum während der Hintergrundrauschabschnitte. Im Gegensatz dazu fluktuiert der Abschnitte 74, der Sprache enthält, in der Durchschnittsrahmenenergie mit der Zeit beträchtlich und hat einen größeren Mittelwert.
Wie zuvor erwähnt, bilden die Endpunktdetektoren nach dem Stand der Technik einfach einen Schwellenwert für das in 6a gezeigte Signal, um den Start des Sprechpunktes (SOS) und das Ende des Sprechpunktes (EOS) zu bestimmen. Um diese Punkte genau zu bestimmen, muss der Schwellenwert jedoch nahe am Rauschpegel liegen. Wie dem Fachmann klar ist, gibt es bei Bedingungen hoher Rauschpegel oder bei sich laufend ändernden Rauschpegeln Anlass zu Fehlern bei der Erfassung des Start- und Endpunktes der Sprache.
Das in 6a gezeigte Energiesignal in diesem Ausführungsbeispiel ist von einem Bandpassfilter bandpassgefiltert, das die Grenzfrequenzen von 2 Hz und 6 Hz und eine Spitzenansprechempfindlichkeit bei etwa 4 Hz hat, wie zuvor erwähnt. Die Modulationsleistung des bandpassgefilterten Signals wird dann bestimmt und, wie in 6b gezeigt, für das in 6a gezeigte Energiesignal dargestellt. Diese Modulationsleistung in den Zonen 72-1 und 72-2 ist, wie dargestellt, relativ eng, verglichen mit der Modulationsleistung während des Sprachabschnitts 74. Dies ist dasselbe ungeachtet des Energiebetrages innerhalb des Hintergrundrauschens. Durch Vergleichen der Bandpassmodulationsleistung für jeden Rahmen mit einem feststehenden Feststellschwellenwert Th können folglich der Start der Sprache (SOS) und das Ende der Sprache (EOS) genauer erfasst werden als beim herkömmlichen Versuch, der zuvor insbesondere für eine verrauschte Umgebung beschrieben wurde.
Die Art und Weise, in der dies tatsächlich in diesem Ausführungsbeispiel erfolgt, ist nachstehend in mehr Einzelheiten beschrieben. 7 ist ein Blockdiagramm, das die Komponenten des in 3 gezeigten Endpunktdetektors 68 darstellt. Wie dargestellt, hat der Endpunktdetektor eine Energierecheneinheit 76, die laufend die Rahmen S^k(r) aus dem Block 65 empfängt und fortlaufend die durchschnittliche Energie E(k) des Signals innerhalb eines jeden empfangenen Rahmens errechnet und an den Puffer 78 abgibt. Da jeder neue Durchschnittsenergiewert berechnet und in den Puffer 78 eingegeben wird, wird eine Sequenz von Energiewerten vom Bandpassfilter 80 gefiltert, die festgelegt sind durch ein Gleitfenster feststehender Größe und beim Energiewert für den letzten empfangenen Rahmen enden, und die Modulationsleistungsrecheneinheit 82 errechnet die Modulationsleistung der gefilterten Sequenz. In diesem Ausführungsbeispiel wird das Bandpassfiltern mit der Leistungsberechnung kombiniert durch Errechnen des ersten Nichtgleichstromkoeffizienten einer diskreten Fourier-Transformation der Durchschnittsenergie im gleitenden Fenster. Insbesondere wird die Bandpassmodulationsleistung w_k für den Rahmen k angegeben mit:
wobei e_i die durchschnittliche Rahmenenergie für den Rahmen i ist, errechnet vom Block 76, und wobei N die Anzahl der Rahmen im Fenster ist. In diesem Ausführungsbeispiel wird N auf 16 gesetzt, was einem Bandpassfilter mit einer Spitzenansprechempfindlichkeit bei etwa 4 Hz entspricht. Der Wert von wk für jeden Rahmen wird dann verglichen mit einem Feststellschwellenwert Th in einer Schwellwertschaltung 84, die ein Steuersignal an die Steuereinheit 86 abgibt, das herausfindet, ob die Bandpassmodulationsleistung für den aktuellen Rahmen über oder unter dem Schwellenwert liegt.
Abhängig von der Anwendung kann die Steuereinheit 86 den Merkmalsausleser 70 veranlassen, die Verarbeitung des eingegebenen Signals zu beginnen, sobald die Schwellwertschaltung 84 nachweist, dass die Bandpassmodulationsleistung w_k den Feststellschwellenwert Th überschreitet. In diesem Ausführungsbeispiel wird jedoch eine genauere Bestimmung des Startens der Sprache und des Endens der Sprache durchgeführt, um dort eine minimale Verarbeitung von Hintergrundsignalen durch den Merkmalsausleser 70 sicherzustellen, um die Erkennungsfehler aufgrund von Rauschen zu reduzieren und um die Erkennungsleistung zu verbessern. In diesem Ausführungsbeispiel wird dies erreicht unter Verwendung einer maximalen Wahrscheinlichkeitsberechnung, die erfolgt, wenn die Steuereinheit 36 herausfindet, dass die Bandpassmodulationsleistung w_k den Feststellschwellenwert Th für eine vorbestimmte Anzahl von Rahmen überschreitet.
8 zeigt die Steuerschritte, die die Steuereinheit 86 bei der Entscheidung ausführt, wann die maximale Wahrscheinlichkeitsberechnung erfolgen soll. Die Steuereinheit 86 hat in diesem Ausführungsbeispiel zwei Zustände, einen INSPEECH-Zustand und einen INSILENCE-Zustand. Wenn die Steuereinheit 86 im INSILENCE-Zustand ist, sucht sie nach dem Anfang der Sprache, und wenn sie im INSPEECH-Zustand ist, dann sucht sie nach dem Ende der Sprache. Wie in 8a gezeigt, bestimmt die Steuereinheit 86 in Schritt S1, ob der INSPEECH-Zustand vorliegt. Ist dies nicht der Fall, dann schreitet die Verarbeitung fort zu Schritt S3, in dem die Steuereinheit 86 bestimmt, ob die Bandpassmodulationsleistung w_k für den aktuellen Rahmen k höher als der Feststellschwellenwert Th ist, und zwar aus dem aus der Schwellwertschaltung 84 empfangenen Signal. Ist dies nicht der Fall, dann schreitet die Verarbeitung fort zu Schritt S5, bei dem k inkrementiert wird und dieselbe Prozedur erneut für den nächsten Rahmen ausgeführt wird. Wenn die Bandpassmodulationsleistung w_k höher als der Feststellschwellenwert Th ist, dann schreitet die Verarbeitung von Schritt S1 zu Schritt S7, bei dem eine Zählung [CNTABV] erfolgt, die der Anzahl von Rahmen über dem Schwellenwert Th zugehörig ist und die inkrementiert wird. Dieser Zählwert CNTABV wird dann verglichen mit einer festgelegten Anzahl NDTCT (womit aufgezeigt ist, dass die Sprache begonnen hat) in Schritt S9. In diesem Ausführungsbeispiel ist NDTCT gleich 18, was 288 Millisekunden der eingegebenen Sprache entspricht.
Wenn die Anzahl von Rahmen über dem Schwellenwert, das heißt CNTABV, nicht größer als die vorbestimmte Anzahl NDTCT ist, dann wird die Rahmennummer k in Schritt S13 und in Schritt S15 inkrementiert, die Steuereinheit 86 bestimmt, ob die Bandpassmodulationsleistung w_k für den nächsten Rahmen über dem Feststellschwellenwert Th liegt. Das heißt, wenn die Verarbeitung zu Schritt S7 zurückkehrt, bei dem der Zählwert CNTABV der Anzahl von Rahmen über dem Schwellenwert liegt, erfolgt das Inkrementieren. Wenn die Bandpassmodulationsleistung w_k in Schritt S15 unter dem Schwellenwert liegt, dann schreitet die Verarbeitung fort zu Schritt S17, in dem der Zählwert (CNTBLW) der Anzahl aufeinanderfolgender Rahmen unter dem Schwellenwert liegt und inkrementiert wird. Danach wird in Schritt S19 der Zählwert CNTBLW der Anzahl aufeinanderfolgender Rahmen unter dem Schwellenwert verglichen mit einer vorbestimmten Zahl NHLD (zeigt auf, dass die Steuereinheit 86 das Zählen beenden soll und auf den Schwellenwert warten soll, um erneut überschritten zu werden). In diesem Ausführungsbeispiel ist NHLD gleich 6, was 96 Millisekunden des eingegebenen Signals entspricht.
Wenn der Zählwert CNTBLW größer als die vorbestimmte Zahl NHLD ist, dann werden beide Zählwerte CNTABV und CNTBLW in Schritt S21 zurückgesetzt, und die Verarbeitung kehrt zu Schritt S5 zurück, bei dem die Steuereinheit 86 durch die Aktion der Schritte S3 und S5 auf den nächsten Rahmen wartet, der über dem Feststellschwellenwert Th liegt. Wenn die Anzahl aufeinanderfolgender Rahmen in Schritt S19, die unter dem Schwellenwert liegen, nicht höher als die vorbestimmte Zahl NHLD ist, dann schreitet die Verarbeitung fort zu Schritt S23, in dem die Rahmenzahl k inkrementiert wird. In Schritt S25 bestimmt dann die Steuereinheit 86, ob die Bandpassmodulationsleistung w_k für den nächsten Rahmen über dem Feststellschwellenwert Th liegt. Ist dies nicht der Fall, dann kehrt die Verarbeitung zu Schritt S17 zurück, bei dem der Zählwert CNTBL der Anzahl aufeinanderfolgender Rahmen unter dem Schwellenwert inkrementiert wird. Wenn andererseits die Steuereinheit 86 in Schritt S25 bestimmt, dass die Bandpassmodulationsleistung w_k für den nächsten Rahmen über dem Feststellschwellenwert Th liegt, dann geht die Verarbeitung von Schritt S25 zu Schritt S27, bei dem die Anzahl von Rahmen unterhalb des Feststellschwellenwertes auf Null zurückgesetzt wird, und die Verarbeitung kehrt zu Schritt S7 zurück, bei dem die Anzahl von Rahmen, die über dem Schwellenwert liegen, inkrementiert wird. Wenn einmal der Zählwert CNTABV über NDTCT liegt, was aufzeigt, dass die Sprache begonnen hat, dann schreitet die Verarbeitung von Schritt S9 zu Schritt S28, bei dem die Steuereinheit 86 das Berechnen vom Start des Sprechpunktes initialisiert unter Verwendung einer maximalen Wahrscheinlichkeitsrechnung bezüglich der jüngsten Rahmen. Der Zustand der Steuereinheit 86 wird dann geändert in INSPEECH in schritt S29, und die Verarbeitung kehrt zurück zu Schritt S1.
Wenn zusammenfassend die Steuereinheit 86 im Zustand INSILENCE ist und wenn die Bandpassmodulationsleistung zunächst den Feststellschwellenwert Th überschreitet, dann beginnt die Steuereinheit 86 folglich das Zählen der Anzahl von Rahmen über dem Schwellenwert und der Anzahl aufeinanderfolgender Rahmen unter dem Schwellenwert. Wenn die Anzahl aufeinanderfolgender Rahmen unter dem Schwellenwert NHLD überschreitet, dann stoppt der Algorithmus das Zählen und wartet auf den Schwellenwert, der erneut überschritten wird. Wenn dies nicht erfolgt, bevor der Zählwert CNTABV der Anzahl von Rahmen über dem Schwellenwert NDTCT überschreitet, dann wird der Zustand geändert in INSPEECH, und der Startpunkt wird unter Verwendung der jüngsten Rahmen berechnet. Die volle Verarbeitung der Daten vom Merkmalsausleser 70 kann dann beginnen, nachdem der Start der Sprache errechnet worden ist.
Ist einmal der Start der Sprache bestimmt worden, dann wird die Steuereinheit 86 programmiert, um nach dem Ende der Sprache zu suchen. Insbesondere unter erneutem Bezug auf 8a wird in Schritt S1, nachdem der Start der Sprache in Schritt S28 berechnet wurde und der Zustand der Steuerung auf INSPEECH gesetzt wurde, die Verarbeitung von Schritt S1 zu Schritt S31 gehen, wie in 8b gezeigt, wo die Steuereinheit 86 überprüft, ob die Bandpassmodulationsleistung w_k für den laufenden Rahmen k unter dem Feststellschwellenwert Th liegt. Wenn w_k über dem Feststellschwellenwert liegt, dann geht die Verarbeitung in einer Schleife zu Schritt S33, wo der Rahmenzähler k inkrementiert wird, und die Steuereinheit überprüft die Bandpassmodulationsleistung des nächsten Rahmens. Wenn die Steuereinheit 86 einen Rahmen identifiziert, der eine Bandpassmodulationsleistung unter dem Schwellenwert hat, schreitet die Verarbeitung fort zu Schritt S35, bei dem der Zählwert CNTBLW der Anzahl aufeinanderfolgender Rahmen unter dem Schwellenwert inkrementiert wird. Die Verarbeitung schreitet dann fort zu Schritt S37, bei dem die Steuereinheit 86 überprüft, ob die Anzahl aufeinanderfolgender Rahmen unter dem Schwellenwert eine vorbestimmte Zahl NEND überschreitet, womit aufgezeigt wird, dass die Sprache beendet ist. In diesem Ausführungsbeispiel ist NEND gleich 14 und entspricht 224 Millisekunden.
Wenn die Anzahl aufeinanderfolgender Rahmen unter NEND liegt, dann hat die Sprache geendet, und die Verarbeitung schreitet fort zu Schritt S39, bei dem der Rahmenzähler k inkrementiert wird. Die Verarbeitung schreitet dann fort zu Schritt S41, bei dem die Steuereinheit 86 bestimmt, ob die Bandpassmodulationsleistung für den nächsten Rahmen unter dem Feststellschwellenwert Th liegt. Wenn dies nicht der Fall ist, dann wird der Zählwert CNTBLW der Anzahl von aufeinanderfolgenden Rahmen unter dem Feststellschwellenwert in Schritt S43 zurückgesetzt, und die Verarbeitung kehrt zu Schritt S33 zurück. Wenn in Schritt S41 die Bandpassmodulationsleistung noch unter dem Feststellschwellenwert liegt, dann kehrt die Verarbeitung zu Schritt S35 zurück, bei dem die Zählung der Anzahl aufeinanderfolgender Rahmen unter dem Schwellenwert inkrementiert wird. Ist einmal die Anzahl aufeinanderfolgender Rahmen unter dem Schwellenwert oberhalb von NEND, dann schreitet die Verarbeitung fort zu Schritt S45, bei dem die Steuereinheit 86 das Berechnen des Endpunktes der Sprache initialisiert unter Verwendung einer maximalen Wahrscheinlichkeitsrechnung mit den jüngsten Rahmen. Der Zustand der Steuereinheit 86 wird dann in INSILENCE in Schritt S47 geändert, und die Verarbeitung kehrt zurück zu Schritt S1.
Das bedeutet zusammenfassend, dass die Steuereinheit 86, nachdem der Beginn der Sprache bestimmt worden ist, fortlaufend nach dem Ende der Sprache sucht. Dies erfolgt durch die Steuereinheit 86, indem sie die Anzahl aufeinanderfolgender Rahmen unterhalb des Feststellschwellenwertes zählt, und wenn diese Anzahl eine vorbestimmte Anzahl, nämlich NEND, übersteigt, dann ändert die Steuereinheit 86 den Zustand in INSILENCE, und das Ende der Sprache wird berechnet.
ENDPUNKTFESTSTELLUNG MIT MAXIMALWAHRSCHEINLICHKEIT
Wie zuvor erwähnt, werden Beginn- und Endpunkte der Sprache innerhalb des eingegebenen Signals unter Verwendung eines Minimalwahrscheinlichkeitsverfahrens berechnet. Die Wahrscheinlich für das Auftreten eines Punktes bei einem speziellen Rahmen wird insbesondere berechnet, und der Rahmen mit der größten Wahrscheinlichkeit wird als der Endpunkt ausgewählt. Die durchschnittliche Signalenergie pro Rahmen wird erneut in der Wahrscheinlichkeitsberechnung verwendet, und ein einfaches Modell für diesen Parameter wird angenommen.
Wenn unter Bezug auf 7 die Steuereinheit 86 identifiziert, dass die Sprache begonnen hat, gibt sie ein Steuersignal auf Leitung 88 an den Puffer 78, womit veranlasst wird, die N frühesten Rahmenenergien vom Puffer 78 auszulesen und in ein Hochpassfilter 90 einzugeben. Das Filter 90 beseitigt den Gleichstromoffset und irgend welche langsam variierende Rauschverteilungen im Durchschnittssignal und gibt die gefilterte Energie an den Puffer 92 ab. In diesem Ausführungsbeispiel ist das Filter 90 ein Rekursivfilter zweiter Ordnung mit einer Grenzfrequenz von 1 Hz. 9 zeigt das Ausgangssignal des Hochpassfilters 90 für das in 6a gezeigte Energiesignal. Wie gezeigt, fluktuiert die gefilterte Rahmenenergie um 0 während der Ruheabschnitte 72-1 und 72-2, schwingt aber während der Sprachabschnitte 74. Als Ergebnis wird angenommen, dass während der Ruheabschnitte die gefilterten Rahmenenergien von Rahmen zu Rahmen nicht korreliert sind, wohingegen im Sprachabschnitt die gefilterte Rahmenenergie eines jeden Rahmens von der gefilterten Rahmenenergie der Nachbarrahmen abhängt.
Die Eingaberecheneinheit 94 maximaler Wahrscheinlichkeit verarbeitet dann die N gefilterten Energien, die der Puffer 92 speichert, in dem jeder Punkt als möglicher Startpunkt genommen wird (das heißt, als Endpunkt) und alle Rahmen vor diesen Punkt als Rauschen behandelt und alle Rahmen nach diesem Punkt als Sprache behandelt durch Anwenden eines jeden der bestimmten Rauschrahmen in ein Rauschmodell, und jeder der bestimmten Sprachrahmen in ein Sprachmodell, um eine Wahrscheinlichkeitsbewertung für diesen Punkt, der der Endpunkt ist, anzugeben. Dieser Prozess erfolgt für jeden der N Rahmen im Puffer 92 und der eine, der die beste Wahrscheinlichkeit angibt, wird als Endpunkt bestimmt.
In diesem Ausführungsbeispiel werden Laplacesche Statistiken verwendet, um ein Modell für die Rausch- und Sprachabschnitte zu erstellen, und die Wahrscheinlichkeit L1 dieser Rahmen 1 bis M im Puffer 92 sind "Ruhe" und werden angegeben mit:
wobei y_i die Hochpass gefilterte Energie und σ₁ die Ruhevarianz ist. Gleichermaßen wird die Wahrscheinlichkeit L2 dieser Rahmen M + 1 bis N angegeben mit:
wobei der autoregressive Prozess erster Ordnung mit einem Laplaceschen Ansteuerterm mit der Varianz σ₂ verwendet wird. Der Parameter a ist ein Prädiktionskoeffizient des autoaggressiven Modells, und in diesem Ausführungsbeispiel wird ein fester Wert von 0,8 verwendet. Die Laplaceschen Statistiken wurden als repräsentativer für die Daten ermittelt als die üblicheren Gaußschen Statistiken und führen zu der robusteren Schätzung und erfordern weniger Rechenaufwand. Jedoch können Gaußsche Statistiken verwendet werden. Das Multiplizieren der Wahrscheinlichkeiten L1 mit L2 gibt die Wahrscheinlichkeit für einen Übergang von Ruhe zu Sprache beim Rahmen M an.
Die Varianzen σ₁ und σ₂ sind unbekannt, aber Werte, die die Wahrscheinlichkeit maximieren, lassen sich errechnen aus den Daten durch Differenzieren der Gleichungen (2) und (3) und durch Herausfinden von σ, welches die Differentiale zu 0 macht. Dies ergibt folgende Ausdrücke für σ₁ und σ₂:
Durch Substituieren dieser Schätzungen in der Wahrscheinlichkeit unter Heranziehen von Logarithmen und Vernachlässigen von Konstantausdrücken ergibt die folgende logarithmische Wahrscheinlichkeit, die zu maximieren ist: 1(M) = –Mlnσ1(M) – (N – M)lnσ2(M) (6)
Diese wird für jedes M berechnet, und der Rahmen mit dem größten 1 wird dann als Endpunkt gewählt.
Derselbe Logarithmus wird verwendet zum Berechnen des Endens der Sprache (EOS), mit der Ausnahme, dass die Daten zeitumgekehrt sind. Darüber hinaus ist es wichtig, sicherzustellen, dass es genug Rahmen von Ruhe und genug Rahmen von Sprache gibt, die im Fenster von N Rahmen enthalten sind, um eine zuverlässige Endpunktpunktschätzung zu erreichen. Dies wird sichergestellt durch dynamische Auswahl der Fenstergröße (N), um eine hinreichende Anzahl von Ruhe- und Sprachrahmen zu enthalten. Dies wird erreicht durch Heranziehen aller Rahmen, da die erste Zeit des Feststellschwellenwertes Th überschritten ist, bis die Steuereinheit entscheidet, dass die Sprache begonnen hat, gemeinsam mit den 16 Rahmen, die unmittelbar dem ersten Rahmen vorangehen, der den Feststellschwellenwert überschreitet.
MERKMALSAUSLESEN
Ist einmal der Anfang der Sprache festgestellt worden, dann wird der erste Sprachrahmen von dem Ringpuffer 66 zugeführt, der in 3 gezeigt ist, dem Merkmalsausleser 70 zugeführt. 10 zeigt die Komponenten des Merkmalsauslesers 70 in mehr Einzelheiten, der in diesem Ausführungsbeispiel Verwendung findet. Der erste Schritt beim Merkmalsauslesens ist das Berechnen der Größe der diskreten Fouriertransformation (DFT) des laufenden Rahmens in Block 67, wie dargestellt, das heißt, |S^k(f)|, wobei f die diskrete Frequenzvariable ist. Nur die Größeninformation ist erforderlich, da viele Aspekte dieses Vorprozessors eingerichtet sind, die Arbeitsweise des menschlichen Hörsystems zu regulieren, das relativ unempfindlich bezüglich der Phase des eingegebenen Sprachsignals ist.
11 zeigt die Größe von DFT |S^k(f)| des Sprachsignals im Rahmen S^k(r), wie in 5 gezeigt, wobei der letzte Abtastwert, der bei einer Frequenz der Hälfte der Abtastfrequenz auftritt, das sind 4 KHz. Nach erfolgter DFT durchläuft das Spektrum eine Filterbank, die die Durchschnittswerte der Abtastungen innerhalb der Anzahl von Frequenzbändern bildet. Studien bezüglich des menschlichen Hörsystems haben gezeigt, dass die Ohrfrequenzauflösung mit höher werdender Frequenz sinkt. Eine logarithmisch geteilte Filterbank, das heißt, eine, in der mehr Frequenzbänder in der Niederfrequenzzone als in der Hochfrequenzzone sind, ist folglich vorzugsweise eine linear geteilte Filterbank, da eine logarithmisch geteilte Filterbank wahrnehmungsrelevantere Informationen zurückhält.
Im vorliegenden Ausführungsbeispiel wird eine Melgeteilte Filterbank 69 mit 16 Bändern verwendet. Die Melskala ist bei der Sprachanalysetechnik allgemein bekannt und hat eine logarithmische Teilung, mit der versucht wird, die Wahrnehmungsfrequenz eines Tones in eine lineare Skala zu bringen. 12 zeigt das Ausgangssignal |Sk(f')| der Filterbank 69 mit Melteilung, wenn die in 11 gezeigten Abtastwerte die Bank 69 passiert haben. Die sich ergebende Hüllkurve 100 des Betragsspektrums ist beträchtlich glatter aufgrund des Durchschnittseffektes von der Filterbank 69, obwohl aufgrund der logarithmischen Teilung der Filterbank weniger niedrige Frequenzen vorhanden sind.
Die formantbezogene Information wird dann aus der Sprache ausgelesen unter Verwendung von Blöcken 71, 73, 75 und 77 von 10 durch einen nachstehend zu erläuternden Prozess.
Es ist möglich, das Sprachsignal S(t) eines Anwenders in Ausdrücken eines Erregersignals E(t) und eines Filters V(t) als Modell zu erstellen, wobei das Erregersignal E(t) den Luftzug darstellt, der in den Sprachtrakt eintritt, und das Filter V(t) stellt den Filterungseffekt des Sprachtraktes dar. Folglich wird der Betrag des Frequenzspektrums |S(f)| des Sprachsignals angegeben durch die Multiplikation des Betrages des Frequenzspektrums |E(f)| des Erregersignals mit dem Betrag des Spektrums |V(f)| des Sprachtraktfilters, das heißt |S(f))| = |E(f)|·|V(f)| (7)
Ein Verfahren, das als Kepstralverfahren bekannt ist, des Auslesens der Sprachtraktinformation aus der eingegebenen Sprache ist nachstehend beschrieben. Dieses Verfahren umfasst das Trennen der Betragsantwort |V(f)| des Sprachtraktfilters aus der Erregerbetragsantwort |E(f)| durch Bilden des Logarithmus von der Sprachbetragsantwort |S(f)|, die zu der Erregung führt, und die Sprachtraktfilterkennlinien werden additiv, das heißt, log|S(f)| = log|E(f)| + log|V(f)| (8)
13 zeigt die Hüllkurve des logarithmierten Ausgangssignal von der Mel-Filterbank 69, das heißt, log |S^k(f')|, welches auf grafischem Wege die additive Natur der beiden Komponenten 101 und 103 zeigt. Die Komponente 101 ist repräsentativ für die Sprachtrakteigenschaften, das heißt, log|V(f)|, und die Komponente 103 ist repräsentativ für die Erregereigenschaften, das heißt, log|E(f)|. Die Spitzenwerte in Komponente 101 treten bei Formantfrequenzen des Sprachtraktes auf, und die gleich beabstandeten Spitzenwerte in Komponente 103 treten bei den Harmonischen der Tonhöhe des Sprechers auf.
Die Sprachtrakteigenschaften 101 können ausgelesen werden aus den Erregereigenschaften 103 durch Ausführen einer diskreten Kosinustransformation (DCT) bezüglich der Abtastwerte aus dem Block 71, und dann wird das Ergebnis gefiltert. Bevor jedoch die diskrete Kosinustransformation ausgeführt wird, erfolgt eine dynamische Rauschmaskierung durch den Rauschmaskierblock 73.
GERÄUSCHMASKIERUNG
Der Rauschmaskierblock 73 führt ein dynamisches Maskieren bezüglich eines jeden Rahmens aus, in dem zunächst das maximale logarithmische Filterbankenergieausgangssignal aus den Mel-Filterbänken 69 berechnet wird. 14 veranschaulicht die logarithmische Filterbankenergie für einen Beispielsrahmen. Der erste Schritt umfasst einfach das Bestimmen, welche Frequenzbankausgangssignale den größten Koeffizienten haben. In diesem Beispiel ist dieser die zweite Filterbank, und deren Wert wird als mel_max gespeichert. Der Rauschmaskierblock 73 bestimmt dann eine minimale logarithmische Filterbankenergie mel_min durch Subtrahieren eines vorbestimmten Bereichs mel_range, der durch Sprachübung experimentell gefunden wird, aus dem Maximum der logarithmischen Filterbankenergie, bestimmt für den laufenden Rahmen, das heißt, der Rauschmaskierblock 73 bestimmt melmin = melmax – melrange (9)
Der Rauschmaskierblock 73 bewirkt letztlich beliebige Mel-Filterbankenergien, die unter mel_min gleich bis mel_min liegen. Der Grund hierfür und die Vorteile dieser dynamischen Rauschmaskierung sind nachstehend anhand 15 erläutert.
15a zeigt die logarithmische Mel-Filterbankenergie eines Beispielrahmens, bei dem es wenig Rauschen gibt. Wie gezeigt, hat die logarithmische Mel-Energie drei Spitzenwerte 100a, 100b und 100c, die auf der Frequenzachse beabstandet sind. 15b zeigt die logarithmische Mel-Energie für denselben Rahmen, wenn es hohe Pegel an Hintergrundrauschen gibt. Wie gezeigt, wird die Spitze 100b bei hohen Pegel des Rauschens geglättet durch das Rauschen, und das Ausgangssignal hat nur die Spitzenwerte 100a und 100c. Wenn diese beiden Signale verglichen werden, um eine Anpassung miteinander zu versuchen, obwohl sie repräsentativ für dasselbe Sprachsignal sind, weil das zusätzliche Rauschen in 15b ein Signal ist, könnte eine Fehlerkennung erfolgen. Jedoch ist es durch Definieren einer Rauschgrenze unter Bezug auf den Spitzenwert der logarithmischen Filterbankenergie des jeweiligen Rahmens möglich, derartige Fehlerkennungsfehler zu reduzieren, da die Spitzenwerte in der logarithmischen Filterbankenergie, die nahe an der Rauschgrenze liegen (wodurch sie verschlechtert werden), werden automatisch maskiert und während des Anpassungsprozesses nicht berücksichtigt. Dies ist in den 15c und 15d dargestellt, die die logarithmischen Filterbankenergien, gezeigt in den 15a beziehungsweise 15b darstellen, wenn die dynamische Rauschmaskierung vom vorliegenden Ausführungsbeispiel durchgeführt wird. Wie durch die steilen Profile 102 und 104 mit der Rauschmaskierung gezeigt, entsprechen die Ausgangsignale einander mehr, selbst wenn es viel Rauschen gibt.
Das Konzept der Rauschmaskierung ist nicht neu. In Systemen, die bis heute vorgeschlagen sind, wird ein konstanter Maskierpegel bei jedem Rahmen angewandt und relativ zur Rauschgrenze berechnet. Dies erfolgt, wenn die Verstärkung und die Teilung, die für jeden Rahmen angewandt wird, dieselbe ist, oder wenn der Verstärkungsbetrag und die Skalierung eines jeden Rahmens so überwacht wird, dass derselbe Pegel der Maskierung für jeden Rahmen ausgeführt werden kann. Dies ist jedoch in Systemen schwierig zu realisieren, die einen Regelverstärker (AGC) bei der Eingabe verwenden, der eine unterschiedliche Verstärkung eines jeden Rahmens der eingegebenen Sprache vermittelt, da die angewandte Verstärkung des AGC nicht bekannt ist. Mit der dynamischen Rauschmaskierung des vorliegenden Ausführungsbeispiels, das eine verschiedene Maskierung für jeden Rahmen in der zuvor beschriebenen Weise ausführt, spielt es keine Rolle, welche Verstärkungen einem jedem Rahmen zugekommen sind, da der Maskierungspegel relativ zum Rahmenmaximum bestimmt wird.
Zurück zu 10: nachdem die logarithmischen Filterbankenergien vom Rauschmaskierblock 73 maskiert worden sind, erfolgt eine diskrete Kosinustransformation (DCT) in Block 75. Da es in diesem Ausführungsbeispiel 16 Mel-Filterbankenergien gibt, wird eine schnelle Kosinustransformation in diesem Ausführungsbeispiel im DCT-Block 75 ausgeführt, da dies einige Geschwindigkeitsverbesserungen über der Standard-DCT bereitstellt.
16 zeigt das Ausgangssignal des DCT-Blocks 75, der als Cepstrum C^k(m) bekannt ist. Die unabhängige Variable (X-Achse von 16) des Cepstrums hat Dimensionen von der Zeit und trägt den Namen "Quefrenz". Die in 13 gezeigte stark periodische Komponente 103 wird ein Spitzenwert 105 in Cepstrum bei einem Ort, der der Tonhöhenperiode T des Sprechers äquivalent ist. Die langsam variierende Komponente 101, gezeigt in 13, wird transformiert auf eine Anzahl kleiner Spitzenwerte 107 nahe dem Ursprung des Cepstrums, deren Position und Amplituden von den Formanten abhängig sind.
Da die Sprachtrakteigenschaften und die Erregereigenschaften der Sprache in getrennten Teilen des Frequenzbandes auftreten, lassen sie sich voneinander trennen durch einen Filterprozess, oder in der Cepstralterminologie durch einen sogenannten "Liftering"-Prozeß. Das in 16 gezeigte Cepstrum C^k(m) macht einen Satz diskreter Cepstralkoeffizienten (C₀, C₁, ... C₁₅) aus, und folglich kann das Liftering erzielt werden mittels eines einfachen Rechteckfensters. Um jedoch Teile des Spektrums zu bedämpfen, die als wenig zuverlässig anzusehen sind, wird eine graduellere Fensterfunktion bevorzugt. Im vorliegenden Ausführungsbeispiel wird die folgende Fensterfunktion im Lifteringblock 77 verwendet.
Die ersten neun Cepstralkoeffizienten werden in diesem Ausführungsbeispiel berechnet, da die restlichen Koeffizienten vernachlässigbare Wirkungen auf die Spracherkennungsleistung haben (im Sprecherverifikationssystem werden jedoch die Koeffizienten um den Spitzenwert 103 verwendet, da die Tonhöhe eines Sprechers eine Eigenschaft des Sprechers ist).
Die Koeffizienten aus dem Lifteringblock 77 werden durch eine Binärzahl mit 16 Bit dargestellt. Um den erforderlichen Speicherumfang zu verringern, sowohl um die Bezugsmodelle als auch die Koeffizienten während der Erkennungsverarbeitung zu speichern, wird die Anzahl von Bits für jeden Cepstralkoeffizienten auf 8 verringert. Dies lässt sich erreichen durch einfaches neues Skalieren einer jeden Binärzahl. Der Anmelder hat jedoch herausgefunden, dass die Cepstralkoeffizienten in Cluster zusammengefasst werden müssen, um einen Mittelwert, mit gelegentlichen Auslegern, und ein solches neues Skalieren wird in den meisten der Cepstralkoeffizienten zu einer Clusterung nahe Null führen.
In diesem Ausführungsbeispiel wird folglich eine nicht lineare Transformation durchgeführt durch die Bittransformationseinheit 79, die in 10 gezeigt ist. 17 zeigt die nicht lineare Transformation, die in diesem Ausführungsbeispiel angewandt wird. Insbesondere legt die X-Achse den eingegebenen Binärwert mit 16 Bit fest, und die Y-Achse legt den zugehörigen 8-Bit-Wert fest, der durch eine nicht lineare Sigmoid-Funktion gewonnen wird, wie durch die Kurve 111 dargestellt. Aus 17 ist ersichtlich, dass die Sigmoid-Funktion 111 einen Abschnitt 113 um 0 hat, der im wesentlichen linear verläuft. Dies entspricht dem Bereich, in dem die meisten Cepstralkoeffizienten zu finden sind. Die in 17 gezeigte nicht lineare Sigmoid-Funktion erhöht folglich in effektiver Weise die Auflösung, die für die Mehrzahl der Cepstralkoeffizienten verfügbar ist, die entfernt von extremen Werten liegen, während auch extreme am Überlaufen gehindert werden.
ENERGIENORMIERUNG
Zusätzlich zu den zuvor erwähnten neuen Cepstralkoeffizienten wird auch die durchschnittliche Energie des Sprachsignals in jedem Rahmen als Erkennungsmerkmal für jeden eingegebenen Rahmen verwendet. Energie ist ein wichtiges Merkmal, da sie sich unter anderem verwenden lässt zum Aufzeigen, ob das eingegebene Sprachsignals während des Rahmens einem stimmhaften Sprachsignal entspricht. Wie zuvor beschrieben, wird die Rahmenenergie eines jeden Rahmens in der Energierecheneinheit 76 berechnet und im Puffer 78 gespeichert, wie in 7 gezeigt. Die Energie des laufenden Rahmens aus dem Puffer 78 wird dann vom Normierungsblock 83 normiert, um die Variationen zu beseitigen, die durch variable Aufzeichnungsbedingungen entstanden sind.
18a und 18b veranschaulichen die Arten der Energievariationen, die die Erkennungsgenauigkeit beeinträchtigen können. Insbesondere zeigen die 18a und 18b schematisch die Energiepegel in zwei Äußerungen desselben Wortes. Die erste Äußerung 121, die in 18a gezeigt ist, ist eine laute Äußerung mit geringem Hintergrundrauschen, und die zweite 123 in 18b gezeigte Äußerung ist eine leise Äußerung mit mehr Hintergrundrauschen. Unter Verwendung der für jede Äußerung berechneten Energie von der Energierecheneinheit 76 wird ein Erkennungsmerkmal ein signifikantes Abweichung zwischen den beiden Äußerungen feststellen. Das Normieren in der Weise, dass die Spitzenenergie der beiden Äußerungen gleich ist, würde die Fehlpaarung im lauteren Abschnitt beseitigen, würde aber die Fehlpaarung zwischen den ruhigeren Abschnitten der Äußerung erhöhen. Um dieses Problem in diesem Ausführungsbeispiel zu lösen, wird ein Energiemaskierungsschritt (ähnlich der Rauschmaskierungstechnik, die zuvor beschrieben wurde) ausgeführt, die alle Energiewerte ersetzt, die mehr als einen feststehenden Betrag unter dem Maximum liegen, mit diesem Wert unter dem Maximum. Dies ist in 18c dargestellt, die beide Energiepegel der Äußerungen 121 und 123 gemäß den 18a und 18b nach der Maximumnormierung zeigt und ebenfalls den sich ergebenden Energiepegel 125 nach der Energiemaskierung mit einer konstanten Maskierungstiefe 127, die im voraus eingestellt wird und experimentell aus den Übungsdaten gewonnen wird.
Ein Problem dieser Technik besteht darin, dass die Maximalenergie für jede Äußerung nicht bekannt ist, bis die gesamte Äußerung aufgenommen worden ist. Dies verursacht das Problem, wenn die eingegebene Sprache inkremental verarbeitet wird, das heißt, wenn verarbeitet wird wie empfangen, ohne auf das Ende der Äußerung zu warten. Dieses Problem kann jedoch gelöst werden, da die Maximalenergie innerhalb einer Äußerung normalerweise mit wenigen Rahmen der Attacke der Sprache beobachtet werden kann. Da der zuvor beschriebene Sprachfeststellungsalgorithmus nur den Start der Sprache beschreibt, und zwar einige Zeit nach dem aktuellen Start der Sprache, wird es folglich leicht, dass die Maximalenergie durch die Stufe zu erwarten war, bei der die Energienormierung zuerst erforderlich ist. Der folgende Versuch zum Schätzen der Maximalenergie bestätigt dies folglich in befriedigender Weise:

i) Verzögern der Energienormierung, bis der Start der Sprache bestätigt ist und die Erkennungssuche beginnt;
ii) es wird angenommen, dass die Maximalenergie wenigstens die Maskierungstiefe 127 hat, die größer als die Ruheenergie ist;
iii) Berechnen des Maximums aller Sprachrahmen bis dahin; und
iv) Ausführen der Maximumnormierung unter Verwendung der größeren der Maximalenergie, die in (iii) identifiziert wurden, und der Ruheenergie plus der Maskierungstiefe, aber bei inkrementaler Verarbeitung Verzögern der obigen Verarbeitungen um drei Rahmen.

Nachdem die obige Energienormierung bezüglich einer jeden Rahmenenergie ausgeführt worden ist, wird der Energieausdruck neu skaliert durch einen empirisch gewählten Faktor mit geeigneten Gewichten der Energieverteilung für die Erkennungsbewertungen.
Zusammengefasst überwacht der Vorprozessor 15 stetig das Eingangssignal, und wenn er den Anfang von Sprache identifiziert, beginnt er eine Merkmalsausleseroutine, die neun Cepstralkoeffizienten ausließt sowie einen Energiekoeffizienten für jeden Rahmen der eingegebenen Sprache. Die Koeffizientvektoren oder Merkmalsvektoren aus dem Vorprozessor werden dann mit den gespeicherten Bezugsmodellen verglichen, die die bereits bekannten Wörter für das System als Modell beschreiben, sowie die akustische Umgebung, die um das System herrscht. Jedes Modell, das zu einem speziellen Wort gehört, enthält eine Sequenz von Merkmalsvektoren derselben Art aus dem zuvor beschriebenen Vorprozessor.
ÜBEN
Eine kurze Beschreibung der Art und Weise, in der die zuvor beschriebenen Wortmodelle erzeugt werden, ist nachstehend angegeben. Für eine genauere Beschreibung soll sich der Leser auf die frühere europäische Anmeldung EP 0 789 349 des hiesigen Anmelders beziehen.
Der Zweck des Übens ist das Erzeugen eines repräsentativen Modells für jedes im System zu verwendende Wort. Die Eingabe des Übungsprozesses ist ein multiples Übungsbeispiel für das Wort. Jedes Beispiel wird dargestellt durch eine Serie von Merkmalsvektoren, die der zuvor beschrieben Merkmalsausleser ausließt. Der Übungsvorgang kann ein Wortmodell aus gerade zwei Übungsbeispielen schaffen, obwohl es drei Beispiele gibt, die geringfügig genauere Wortmodelle liefern. Es gibt nur eine geringfügige Verbesserung für weitere Übungsbeispiele.
Der Übungsalgorithmus nimmt zunächst zwei Beispiele als Eingaben zum Erzeugen eines ersten Wortmodells herein. Wenn es dann zwei Beispiele gibt, die zum Üben des Wortes verwendet werden sollen, dann wird ein zweites Wortmodell aus dem ersten Modell erzeugt und ein weiteres Übungsbeispiel. Die Iteration setzt sich fort, bis eine erforderliche Anzahl von Beispielen verwendet worden sind. Das Wortmodell, das letztlich erzeugt wird, erfährt eine Speicherung als repräsentatives Modell für das Wort. In jedem Fall arbeitet der Kernteil des Übungsalgorithmus zum Erzeugen eines Wortmodells aus grade zwei Beispielen.
Der erste Schritt beim Üben ist das Ausrichten der beiden Sequenzen von Merkmalsvektoren für die beiden Beispiele. Dieser Ausrichtprozess erfolgt unter Verwendung eines flexiblen Programmierausrichtprozesses, der nicht beschränkt, wo der optimale Ausrichtweg zwischen den Wörtern beginnen oder enden muss. Dieser flexibler dynamische Ausrichtprozess ist detailliert in der früheren europäischen zuvor genannten Patentanmeldung beschrieben worden und wird hier nicht wiederholt.
19a veranschaulicht die Ergebnisse eines derartigen flexiblen dynamischen Programmierausrichtprozesses zwischen zwei Übungsbeispielen 151 und 153. Wie in 19a gezeigt, hat das Übungsbeispiel 151 Abschnitte 151-1a und 151-1b, die der Ruhe und dem Hintergrundrauschen und einem sprachenthaltenen Abschnitt 151-2 entsprechen. Das zweite Übungsbeispiel 153 hat gleichermaßen Abschnitte 153-1a und 153-1b zu Beginn und am Ende entsprechend der Stille oder Hintergrundrauschen und einen sprachenthaltenen Abschnitt 153-2. Der Ausrichtprozess veranlasst das Rauschen der Rahmen zu Beginn und am Ende eines jeden Übungsbeispiels 151 und 153, an ein Ruhe- oder Rauschmodell 155 angepasst zu werden, und die Sprachabschnitte 151-2 und 153-2, die miteinander zu paaren sind. Das Wortmodell für die Sprache wird dann erzeugt durch Durchschnittsbildung der Rahmen innerhalb des Abschnitts 151-2 und des Abschnitts 153-2, die miteinander ausgerichtet sind. Die obige Verarbeitung kann jedoch Fehler im Wortmodell hervorrufen, insbesondere, wenn das Übungsbeispiel nicht vereinbar ist. In diesem Ausführungsbeispiel wird eine Vereinbarkeitsprüfung durchgeführt, um sicher zu stellen, dass nur konsistente Übungsbeispiele zum Erzeugen eines Wortmodells herangezogen werden.
VEREINBARKEITSPRÜFUNG
Die in diesem Ausführungsbeispiel ausgeführte Vereinbarkeitsprüfung ist ausgelegt, um Unvereinbarkeiten zwischen den Beispielen herauszufinden, die für eine Anzahl von Gründen aufkommen können. Wenn beispielsweise der Anwender ein Übungsbeispiel eingibt, kann er zufällig schwer in das Mikrofon atmen zu Beginn des Übungsbeispiels. Diese Möglichkeit ist in 19b gezeigt, die große Schwingungen 155 zu Beginn der Äußerung zeigt. Alternativ kann der Anwender einfach ein falsches Wort eingeben. Dies ist in 19c dargestellt, bei der der Sprachabschnitt 159 klar unterschieden ist zu den Sprachabschnitten in Signalen 151 und 153. Eine andere Möglichkeit besteht darin, dass der Anwender nur einen Teil des Übungswortes eingibt, oder aus irgend einem Grund ein Teil des Wortes abgeschnitten wird. Dies ist in 19d dargestellt, die den ersten Teil 161 des eingegebenen Übungswortes zeigt, aber nicht den zweiten Teil. Während der Eingabe des Übungsbeispiels kann letztlich ein starker Anstieg des Hintergrundrauschens aufkommen, das das Übungsbeispiel stört. Dies ist in 19e dargestellt, die das Übungswort mit einem Abschnitt des Hintergrundrauschens 163 in der Mitte des Übungswortes zeigt.
Das vorliegende Ausführungsbeispiel überprüft, um herauszufinden, ob die beiden Übungsbeispiele als konsistent anzusehen sind, und wenn sie es sind, dann werden zu verwendet zum Erzeugen eines Modells für das Wort, das geübt wird. Sind sie aber unvereinbar, dann werden folgende Regeln angewandt:

i) wenn ein Beispiel bereits ein Wortmodell ist (erzeugt durch zwei oder mehrere vorherige Übungsbeispiele), dann wird das andere Beispiel ausrangiert, und ein extra Beispiel wird angefordert.
ii) Wenn beide Beispiele direkt aus dem Merkmalsausleser kommen, dann werden beide Beispiele gespeichert, aber es wird keine Modellerzeugung durchgeführt. Das System ruft dann ein anderes Beispiel auf. Wenn das dritte Beispiel konsistent ist mit einem der gespeicherten Beispiele, dann wird dieses konsistente Paar von Beispielen verwendet zum Erzeugen eines Wortmodells, und das andere Beispiel wird verworfen.
iii) Ist das dritte Beispiel nicht vereinbar mit irgend einem der gespeicherten Beispiele, dann wird das erste Beispiel verworfen, und das zweite Beispiel und das dritte Beispiel werden neu als erstes und zweites Beispiel herangezogen. Das System wartet dann auf ein anderes Beispiel.

Eine Zählung der Anzahl von Unvereinbarkeiten erfolgt, die für jedes geübte Wort gefunden wird. Wenn die Anzahl von Unvereinbarkeiten ein feststehendes Maximum überschreitet, dann wird die weitere Unvereinbarkeitsprüfung abgeschaltet. Dies verhindert die Möglichkeit des Systems, in eine unendliche Schleife einzutreten.
Die Vereinbarkeitsprüfung, die im vorliegenden Ausführungsbeispiel erfolgt, ist nachstehend beschrieben. Zuerst bestimmt das System den Durchschnittsrahmenwert (f -) für die Rahmen in zwei Übungsbeispielen, die zueinander ausgerichtet sind, aber enthalten keine Bewertung für die Ruheabschnitte. Diese werden durch Teilen der dynamischen Programmierungsbewertung für die ausgerichteten Rahmen durch die Anzahl ausgerichteter Rahmen berechnet. Das System bestimmt dann die Bewertung der schlechtesten Paarung zehn aufeinanderfolgender Rahmen (w) mit den ausgerichteten Sprachabschnitten. Diese Werte werden dann mit einem Modell verglichen, das modellerstellend ist, wie diese beiden Werte (f - und w) in konsistenten Äußerungen variieren, und vorausgesetzt, diese Werte für die laufenden Übungsbeispiele stimmen die mit dem Modell überein, dann werden die beiden Übungsbeispiele als konsistent herangezogen.
Das verwendete Modell wird bestimmt unter Berücksichtigung der Statistiken der beiden Werte (f - und w) für einen großen Satz von Übungsbeispielen, die als konsistent bekannt sind. Das Modell könnte einfach aus diesen beiden Werten den Durchschnitt bilden. In diesem Ausführungsbeispiel wird jedoch ein Gaußsches Modell mit zwei Merkmalsvariablen verwendet, um ein Modell des Durchschnitts der Variation und der Korrelation zwischen diesen beiden Werten zu bilden, die in diesen konsistenten Beispielen gefunden wurden. Zwei Übungsäußerungen werden dann eingeschätzt als konsistent, wenn die Statistiken für deren Übungsausrichtung (das heißt, f - und w) innerhalb von 95% des Wahrscheinlichkeitsumrisses des Gaußschen Modells mit zwei Merkmalsvariablen liegen, oder wenn f - und w der beiden Übungsbeispiele beide kleiner als die erwarteten Werte von f - und w sind, die das Modell festlegt.
Nachdem ein Paar der Übungsbeispiele als konsistent eingeschätzt wurden, können die Statistiken (f - und w) für diese Übungsbeispiele zum Aktualisieren des gespeicherten Modells für die konsistenten Äußerungen verwendet werden. Dies erfolgt unter Verwendung einer Maximalwahrscheinlichkeitsschätzungstechnik.
Nachdem das System geübt hat, kann das Spracherkennungssystem dann die eingegebene Äußerung von einem Anwender mit den gespeicherten Wortmodellen vergleichen, um ein Erkennungsergebnis bereitzustellen. Die Art und Weise, die ein solches Spracherkennungsergebnis bereitstellen kann, ist in der früheren europäischen Patentanmeldung, die zuvor angegeben worden ist, vom hiesigen Anmelder beschrieben, und wird hier nicht wiederholt.
Der Fachmann wird erkennen, die obige Sprachverarbeitung und Konsistenzüberprüfung sind in Verbindung mit dem Spracherkennungssystem beschrieben, und sie sind gleichermaßen anwendbar in anderen Spracherkennungssystemen, wie beispielsweise in Sprecherverifikationssystemen.

Claims

Spracherkennungsvorrichtung mit: einer Einrichtung (68) zum Empfang eines Eingangssignals, einer Einrichtung (76) zur Verarbeitung des empfangenen Signals zur Erzeugung eines sich mit einer lokalen Energie innerhalb des empfangenen Signals ändernden Energiesignals, einer Einrichtung (80) zur Filterung des Energiesignals zur Entfernung von eine Frequenz unterhalb einer vorbestimmten Frequenz aufweisenden Energieschwankungen, einer Einrichtung (82, 84) zur Erfassung des Vorhandenseins von Sprache in dem Eingangssignal unter Verwendung des gefilterten Energiesignals, und einer Einrichtung (17) zum Vergleich der erfassten Sprache mit gespeicherten Referenzmodellen zur Bereitstellung eines Erkennungsergebnisses.
Vorrichtung gemäß Anspruch 1, wobei die Filtereinrichtung (80) zur Entfernung von eine Frequenz oberhalb einer vorbestimmten Frequenz aufweisenden Energie-schwankungen betreibbar ist.
Vorrichtung gemäß Anspruch 2, wobei die Filtereinrichtung (80) zur Ausfilterung von Energieschwankungen unterhalb von 2 Hz und oberhalb von 10 Hz betreibbar ist.
Vorrichtung gemäß Anspruch 2 oder 3, wobei die Filtereinrichtung (80) zur Durchlassung eine Frequenz von ungefähr 4 Hz aufweisender Energieschwankungen betreibbar ist.
Vorrichtung gemäß einem der vorstehenden Ansprüche, wobei die Erfassungseinrichtung (82, 84) zum Vergleich des gefilterten Energiesignals mit einem vorbestimmten Schwellwert, und zur Erfassung des Vorhandenseins von Sprache in Abhängigkeit von dem Ergebnis des Vergleichs betreibbar ist.
Vorrichtung gemäß einem der vorstehenden Ansprüche, mit: einer Einrichtung (65) zur Teilung des Eingangssprachsignals in eine Anzahl aufeinanderfolgender Zeitrahmen, und wobei die Verarbeitungseinrichtung (76) zur Bestimmung der Energie des Eingangssignals in jedem der Zeitrahmen zur Erzeugung des Energiesignals betreibbar ist.
Vorrichtung gemäß Anspruch 6 mit: einer Modulationsleistungsbestimmungseinrichtung (82) zur Bestimmung der Modulationsleistung des gefilterten Signals innerhalb eines vorbestimmten Frequenzbands.
Vorrichtung gemäß Anspruch 7, wobei die Filtereinrichtung (80) und die Modulationsleistungsbestimmungseinrichtung (82) zur Filterung und Bestimmung der Modulationsleistung in diskreten Abschnitten des Energieschwankungssignals betreibbar sind.
Vorrichtung gemäß Anspruch 8, wobei die Filtereinrichtung (80) und die Modulationsleistungsbestimmungseinrichtung (82) durch eine Diskrete-Fouriertransformations-Einrichtung gebildet sind, die zur Bestimmung des ersten Nichtgleichstromkoeffizienten einer diskreten Fouriertransformierten für jeden diskreten Abschnitt des Energieschwankungssignals betreibbar ist.
Spracherkennungsvorrichtung gemäß Anspruch 1, wobei die Empfangseinrichtung (65) zum Empfang einer Folge jeder einen Abschnitt des Eingangssignals darstellender Eingaberahmen betreibbar ist, die Verarbeitungseinrichtung (76) zur Verarbeitung jeden Rahmens in der empfangenen Rahmenfolge zur Erzeugung einer Folge die lokale Energie innerhalb des repräsentativen Signals anzeigender Energiewerte betreibbar ist, die Filtereinrichtung (80) zur Filterung der Folge von Energiewerten zur Entfernung von eine Frequenz unterhalb einer vorbestimmten Frequenz aufweisenden Energieschwankungen betreibbar ist, und wobei die Erfassungseinrichtung (82, 84) zur Erfassung des Vorhandenseins von Sprache in dem Eingangssignal unter Verwendung der gefilterten Energiewerte betreibbar ist.
Vorrichtung gemäß einem der vorstehenden Ansprüche, ferner mit: einer Einrichtung (94) zur Bestimmung der Grenze zwischen einem Sprache enthaltenden Abschnitt und einem Hintergrundrauschen enthaltenden Abschnitt in dem Eingangssignal.
Vorrichtung gemäß Anspruch 11, wobei die Grenzbestimmungseinrichtung (94) zur Bestimmung der Wahrscheinlichkeit betreibbar ist, dass die Grenze an jedem der Vielzahl möglicher Orte innerhalb des Energiesignals lokalisiert ist, und zur Bestimmung des die größte, damit assoziierte Wahrscheinlichkeit aufweisenden Orts betreibbar ist.
Vorrichtung gemäß Anspruch 12, wobei die Grenzbestimmungseinrichtung (94) zur Bestimmung der Wahrscheinlichkeit betreibbar ist, dass die Grenze an jedem der möglichen Orte lokalisiert ist durch: i) einen Vergleich eines Abschnitts einer Folge von Energiewerten auf einer Seite des momentanen Orts mit einem die Energie des Hintergrundrauschens darstellenden Modell, ii) einen Vergleich des Abschnitts der Folge von Energiewerten auf der anderen Seite des momentanen Orts mit einem die Energie innerhalb von Sprache darstellenden Modell, und iii) einer Kombination der Ergebnisse der Vergleiche zur Bestimmung der Wahrscheinlichkeit des momentanen möglichen Orts.
Vorrichtung gemäß Anspruch 13, wobei die Modelle statistische Modelle sind.
Vorrichtung gemäß Anspruch 14, wobei die Modelle auf einer Laplace-Statistik basieren.
Vorrichtung gemäß Anspruch 14, wobei das Sprachmodell ein auto-regressives Modell ist.
Vorrichtung gemäß Anspruch 12 oder 13, wobei die Grenzbestimmungseinrichtung (94) zur Bestimmung der Wahrscheinlichkeiten betreibbar ist, wenn die Erfassungseinrichtung (82, 84) Sprache innerhalb des Eingangssignals erfasst.
Vorrichtung gemäß Anspruch 12, wobei die Grenzbestimmungseinrichtung (94) zur Bestimmung der Wahrscheinlichkeit für jeden gefilterten Energiewert innerhalb einer Folge gefilterter Energiewerte betreibbar ist.
Vorrichtung gemäß einem der Ansprüche 11 bis 18, wobei die Grenzbestimmungseinrichtung (94) zur Bestimmung der Grenze am Anfang oder am Ende eines Sprache enthaltenden Abschnitts des Eingangssignals betreibbar ist.
Vorrichtung gemäß Anspruch 10, wobei die Empfangseinrichtung (65) zum Empfang einer zeitlichen Folge ein zeitvariantes Eingangssignal darstellender Eingangsrahmen betreibbar ist, wobei jeder Rahmen einen entsprechenden Zeitabschnitt des Eingangssignals darstellt, wobei die Verarbeitungseinrichtung (76) zur Verarbeitung jeden empfangenen Rahmens zur Bestimmung eines die Energie innerhalb des Rahmens anzeigenden Energiewerts zur Erzeugung einer zeitlichen Folge der zeitlichen Folge der entsprechenden Eingaberahmen entsprechender Energiewerte dadurch betreibbar ist, wobei die Filtereinrichtung (80) zur Filterung der erzeugten zeitlichen Folge von Energiewerten zur Entfernung von Energieschwankungen innerhalb der zeitlichen Folge eine Frequenz unterhalb einer vorbestimmten Frequenz aufweisender Energiewerte betreibbar ist, um eine Folge gefilterter Energiewerte zu erzeugen, und wobei die Erfassungseinrichtung (82, 84) zur Erfassung des Vorhandenseins von Sprache in dem Eingangssignal unter Verwendung der Folge gefilterter Energiewerte betreibbar ist.
Vorrichtung gemäß Anspruch 20, wobei die Filtereinrichtung (80) zur Filterung der zeitlichen Folge von Energiewerten zur Entfernung von eine Frequenz oberhalb einer vorbestimmten Frequenz aufweisenden Energie-schwankungen betreibbar ist.
Spracherkennungsverfahren mit den Schritten: Empfangen eines Eingangssignals, Verarbeiten des empfangenen Signals zum Erzeugen eines sich mit einer lokalen Energie innerhalb des empfangenen Signals ändernden Energiesignals, Filtern des Energiesignals zum Entfernen von eine Frequenz unterhalb einer vorbestimmten Frequenz aufweisenden Energieschwankungen, Erfassen des Vorhandenseins von Sprache in dem Eingangssignal unter Verwendung des gefilterten Energiesignals, und Vergleichen der erfassten Sprache mit gespeicherten Referenzmodellen zum Bereitstellen eines Erkennungsergebnisses.
Verfahren gemäß Anspruch 22, wobei der Filterschritt eine Frequenz oberhalb einer vorbestimmten Frequenz aufweisende Energieschwankungen entfernt.
Verfahren gemäß Anspruch 23, wobei der Filterschritt Energieschwankungen unterhalb von 2 Hz und oberhalb von 10 Hz ausfiltert.
Verfahren gemäß Anspruch 23 oder 24, wobei der Filterschritt eine Frequenz von ungefähr 4 Hz aufweisende Energieschwankungen durchlässt.
Verfahren gemäß einem der Ansprüche 22 bis 25, wobei der Erfassungsschritt das gefilterte Energiesignal mit einem vorbestimmten Schwellwert vergleicht, und das Vorhandensein von Sprache in Abhängigkeit von dem Ergebnis des Vergleichsschritts erfasst.
Verfahren gemäß einem der Ansprüche 22 bis 26, wobei der Verarbeitungsschritt das Eingangssprachsignal in eine Anzahl aufeinanderfolgender Zeitrahmen teilt, und die Energie des Eingangssignals in jedem der Zeitrahmen zum Erzeugen des Energiesignals bestimmt.
Verfahren gemäß Anspruch 27, mit dem Schritt zum Bestimmen der Modulationsleistung des gefilterten Signals innerhalb eines vorbestimmten Frequenzbands.
Verfahren gemäß Anspruch 28, wobei der Filterschritt und der Modulationsleistungsbestimmungsschritt zum Filtern und Bestimmen der Modulationsleistung in diskreten Abschnitten des Energieschwankungssignals betreibbar sind.
Verfahren gemäß Anspruch 29, wobei der Filterschritt und der Modulationsleistungsbestimmungsschritt den ersten Nichtgleichstromkoeffizienten einer diskreten Fouriertransformation eines jeden diskreten Abschnitts des Energieschwankungssignals bestimmen.
Verfahren gemäß Anspruch 22, wobei der Empfangsschritt eine Folge jeder einen Abschnitt des Eingangssignals darstellender Eingaberahmen empfängt, der Verarbeitungsschritt jeden Rahmen in der empfangenen Rahmenfolge zum Erzeugen einer Folge die lokale Energie innerhalb des repräsentativen Signals anzeigender Energiewerte verarbeitet, der Filterschritt die Folge von Energiewerten zur Entfernung von eine Frequenz unterhalb einer vorbestimmten Frequenz aufweisenden Energieschwankungen filtert, und wobei der Erfassungsschritt das Vorhandensein von Sprache in dem Eingangssignal unter Verwendung der gefilterten Energiewerte erfasst.
Verfahren gemäß einem der Ansprüche 22 bis 31, ferner mit dem Schritt zum Bestimmen der Grenze zwischen einem Sprache enthaltenden Abschnitt und einem Hintergrundrauschen enthaltenden Abschnitt in dem Eingangssignal.
Verfahren gemäß Anspruch 32, wobei der Grenzbestimmungsschritt die Wahrscheinlichkeit bestimmt, dass die Grenze an jedem der Vielzahl möglicher Orte innerhalb des Energiesignals lokalisiert ist, und den die größte, damit assoziierte Wahrscheinlichkeit aufweisenden Ort bestimmt.
Verfahren gemäß Anspruch 33, wobei der Grenzbestimmungsschritt die Wahrscheinlichkeit bestimmt, dass die Grenze an jedem der möglichen Orte lokalisiert ist durch: i) Vergleichen eines Abschnitts einer Folge von Energiewerten auf einer Seite des momentanen Orts mit einem die Energie des Hintergrundrauschens darstellenden Modell, ii) Vergleichen des Abschnitts der Folge von Energiewerten auf der anderen Seite des momentanen Orts mit einem die Energie innerhalb von Sprache darstellenden Modell, und iii) Kombinieren der Ergebnisse der Vergleiche zum Bestimmen einer Wahrscheinlichkeit für den momentanen möglichen Ort.
Verfahren gemäß Anspruch 34, wobei die Modelle statistische Modelle sind.
Verfahren gemäß Anspruch 35, wobei die Modelle auf einer Laplace-Statistik basieren.
Verfahren gemäß Anspruch 35, wobei das Sprachmodell ein auto-regressives Modell ist.
Verfahren gemäß Anspruch 33 oder 34, wobei der Grenzbestimmungsschritt die Wahrscheinlichkeiten bestimmt, wenn der Erfassungsschritt Sprache innerhalb des Eingangssignals erfasst.
Verfahren gemäß Anspruch 33, wobei der Grenzbestimmungsschritt die Wahrscheinlichkeit für jeden gefilterten Energiewert innerhalb einer Folge gefilterter Energiewerte bestimmt.
Verfahren gemäß einem der Ansprüche 33 bis 39, wobei die Grenze am Anfang oder am Ende eines Sprache enthaltenden Abschnitts des Eingangssignals liegt.
Verfahren gemäß Anspruch 31, wobei der Empfangsschritt eine zeitliche Folge ein zeitvariantes Eingangssignal darstellender Eingangsrahmen empfängt, wobei jeder Rahmen einen entsprechenden Zeitabschnitt des Eingangssignals darstellt, der Verarbeitungsschritt jeden empfangenen Rahmen zum Bestimmen eines die Energie innerhalb des Rahmens anzeigenden Energiewerts zum Erzeugen einer zeitlichen Folge der zeitlichen Folge der entsprechenden Eingaberahmen entsprechender Energiewerte verarbeitet, der Filterschritt die erzeugte zeitliche Folge von Energiewerten zum Entfernen von Energieschwankungen innerhalb der zeitlichen Folge eine Frequenz unterhalb einer vorbestimmten Frequenz aufweisender Energiewerte filtert, um eine Folge gefilterter Energiewerte zu erzeugen, und wobei der Erfassungsschritt das Vorhandensein von Sprache in dem Eingangssignal unter Verwendung der gefilterten Folge von Energiewerten erfasst.
Verfahren gemäß Anspruch 41, wobei der Filterschritt die zeitliche Folge von Energiewerten zum Entfernen von eine Frequenz oberhalb einer vorbestimmten Frequenz aufweisenden Energieschwankungen filtert.
Speichermedium zur Speicherung prozessorimplementierbarer Anweisungen zur Steuerung eines Prozessors zur Implementierung des Verfahrens gemäß einem der Ansprüche 22 bis 42.
Prozessorimplementierbare Anweisungen zur Steuerung eines Prozessors zur Implementierung des Verfahrens gemäß einem der Ansprüche 22 bis 42.