[go: up one dir, main page]

DE60302407T2 - Umgebungs- und sprecheradaptierte Spracherkennung - Google Patents

Umgebungs- und sprecheradaptierte Spracherkennung Download PDF

Info

Publication number
DE60302407T2
DE60302407T2 DE60302407T DE60302407T DE60302407T2 DE 60302407 T2 DE60302407 T2 DE 60302407T2 DE 60302407 T DE60302407 T DE 60302407T DE 60302407 T DE60302407 T DE 60302407T DE 60302407 T2 DE60302407 T2 DE 60302407T2
Authority
DE
Germany
Prior art keywords
model
noise
acoustic
models
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn - After Issue
Application number
DE60302407T
Other languages
English (en)
Other versions
DE60302407D1 (de
Inventor
Soichi Tsurugashima-shi Toyama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corp filed Critical Pioneer Corp
Publication of DE60302407D1 publication Critical patent/DE60302407D1/de
Application granted granted Critical
Publication of DE60302407T2 publication Critical patent/DE60302407T2/de
Anticipated expiration legal-status Critical
Withdrawn - After Issue legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Machine Translation (AREA)
  • Navigation (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • Die vorliegende Erfindung bezieht sich auf eine Spracherkennungsvorrichtung und ein Spracherkennungsverfahren für eine Anpassung an sowohl Geräusch als auch Sprecher.
  • Die Hauptprobleme bei der automatischen Spracherkennung bestehen in Hintergrundgeräusch, das zur zu erkennenden Sprache hinzukommt, und in einer individuellen Schwankung, die durch die Sprachorgane oder Sprechgewohnheiten eines einzelnen Sprechers verursacht wird.
  • Um eine tragfähige Spracherkennung zu erzielen, die es mit diesen Problemen aufnehmen kann, wurden die Spracherkennungsverfahren untersucht (siehe beispielsweise S. 553–556 IEEE ICASSP 1998 "Improved Robustness for Speech Recognition Under Noisy Conditions Using Correlated Parallel Model Combination"), die HMM-Zusammensetzungsverfahren (HMM – Hidden Markov Model) oder auch PMC-Verfahren (PMC – Parallel Model Combination) genannt werden.
  • Bei der Vorverarbeitungsstufe vor dem Durchführen einer echten Spracherkennung generiert das HMM-Zusammensetzungsverfahren oder das PMC-Verfahren geräuschadaptive Akustikmodelle (geräuschadaptive akustische HMMs) als geräuschadaptive zusammengesetzte Akustikmodelle durch die Zusammensetzung standardmäßiger akustischer Ausgangsmodelle (akustische Ausgangs-HMMs) und Geräuschmodelle (Sprecherumgebungsgeräusch-HMM), die aus dem Hintergrundgeräusch generiert werden.
  • Bei den echten Spracherkennungsstufen wird jede Wahrscheinlichkeit geräuschadaptiver Akustikmodelle, die in einer Vorverarbeitung generiert wurden, mit Merkmalsvektorreihen verglichen, die aus einer Kepstrum-Transformation der das zusätzliche Hintergrundgeräusch enthaltenden geäußerten Sprache erhalten werden, um das geräuschadaptive Akustikmodell mit der höchsten Wahrscheinlichkeit als Ergebnis der Spracherkennung auszugeben.
  • Verschiedentlich wurden auch Sprecheranpassungen untersucht, und es sind beispielsweise ein MAP-Schätzverfahren oder ein MLLR-Verfahren zur Erneuerung des Durchschnittsvektors und der Kovarianzmatrix eines Modells bekannt. Die EP-A-0 779 609 offenbart ein Sprachanpassungssystem, das Umgebungs- und Sprecheranpassung umfasst.
  • Herkömmliche Spracherkennung weist jedoch insofern ein Problem auf, als sie einen hohen Verarbeitungsaufwand zum Durchführen einer Geräuschanpassung aller akustischen Ausgangsmodelle erfordert, damit geräuschadaptive Akustikmodelle (geräuschadaptive Akustik-HMMs) erhalten werden, die sich mit den Merkmalsvektorreihen vergleichen lassen.
  • Der erforderliche hohe Verarbeitungsaufwand, der sich nicht mit einer hohen Verarbeitungsgeschwindigkeit vereinbaren lässt, steht einer Erhöhung der Anzahl akustischer Ausgangsmodelle im Wege. Auf diese Weise blockiert der Mangel an akustischen Ausgangsmodellen die Verbesserung einer Spracherkennungsleistung. Es sollte festgehalten werden, dass es möglich ist, die Effizienz einer Umgebungsgeräuschanpassungstechnologie zu verbessern, indem eine Gruppierungstechnik verwendet wird. Es ist jedoch schwierig, hinlänglich bekannte Sprecheranpassungstechnologien wie das MLLR-Verfahren oder das MAP-Schätzungsverfahren direkt an diese Umgebungsgeräuschtechnologie anzupassen, d.h. die Koexistenz von sowohl Geräusch- als auch Sprecheranpassungstechnologien waren ein zu lösendes Thema.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die vorstehende Erfindung wurde angesichts der vorstehenden herkömmlichen Probleme gemacht. Es ist deshalb eine Aufgabe der vorliegenden Erfindung, eine Spracherkennungsvorrichtung und Verfahren bereitzustellen, die in der Lage sind, einen Verarbeitungsaufwand zu reduzieren, der für die Geräusch- und Sprecheranpassung akustischer Ausgangsmodelle erforderlich ist.
  • Nach einem ersten Aspekt der vorliegenden Erfindung wird eine Spracherkennungsvorrichtung zur Spracherkennung durch Vergleichen zusammengesetzter Akustikmodelle bereitgestellt, die an Geräusch und Sprecher mit einer Merkmalsvektorreihe, die aus einer Sprachäußerung extrahiert wurde, adaptiert sind. Die Spracherkennungsvorrichtung umfasst einen Speicherabschnitt, um vorab jedes repräsentative Akustikmodell abzuspeichern, das als ein repräsentatives Modell für Akustikmodelle ausgewählt wurde, das zu einer von Gruppen gehört, wobei jede der Gruppen zuvor gebildet wird, indem eine große Anzahl von Akustikmodellen auf Basis von Ähnlichkeit, Differenzmodellen jeder Gruppe, die aus der Differenz zwischen den Akustikmodellen, die zu einer der Gruppen gehören, und dem repräsentativen Akustikmodell der gleichen Gruppe ermittelt wird, und Gruppeninformation klassifiziert wird, um die repräsentativen Akustikmodelle den Differenzmodellen jeder gleichen Gruppe zuzuordnen. Die Spracherkennungsvorrichtung umfasst darüber hinaus einen Generierungsabschnitt, um jedes geräuschadaptive repräsentative Akustikmodell jeder Gruppe durch Geräuschadaption zu generieren, die am repräsentativen Akustikmodell jeder im Speicherabschnitt gespeicherten Gruppe durchgeführt wird, und einen Generierungsabschnitt, um jedes zusammengesetzte Akustikmodell jeder Gruppe zu generieren, indem das Differenzmodell und das geräuschadaptive repräsentative Akustikmodell unter Verwendung der Gruppeninformation zusammengesetzt werden. Zusätzlich umfasst die Spracherkennungsvorrichtung einen Erneuerungsmodellgenerierungsabschnitt, um geräusch- und sprecheradaptive Akustikmodelle zu generieren, indem eine Sprecheradaption des zusammengesetzten Akustikmodells jeder gleichen Gruppe unter Verwendung der Merkmalsvektorreihe durchgeführt wird, die aus der Sprachäußerung erhalten wurde, und einen Modellerneuerungsabschnitt, um die Differenzmodelle jeder Gruppe durch Erneuerungsdifferenzmodelle zu ersetzen, die dadurch generiert werden, dass Differenzen zwischen den geräusch- und sprecheradaptiven Akustikmodellen und den geräuschadaptiven repräsentativen Akustikmodellen erfasst werden, die über die Gruppeninformation ausgewählt wurden, wobei eine Spracherkennung durchgeführt wird, indem die aus der zu erkennenden Sprachäußerung extrahierte Merkmalsvektorreihe mit dem an Geräusch und Sprecher adaptierten zusammengesetzten Akustikmodell verglichen wird, und wobei das an Geräusch und Sprecher adaptierte zusammengesetzte Akustikmodell dadurch generiert wird, dass das Erneuerungsdifferenzmodell und das geräuschadaptive repräsentative Akustikmodell zusammengesetzt werden, das durch eine Geräuschadaption des repräsentativen Akustikmodells der Gruppe generiert wurde, die das über die Gruppeninformation ausgewählte Erneuerungsdifferenzmodell enthält.
  • Nach einem zweiten Aspekt der vorliegenden Erfindung wird eine Spracherkennungsvorrichtung zur Spracherkennung durch Vergleichen zusammengesetzter Akustikmodelle, die an Geräusch und Sprecher mit einer Merkmalsvektorreihe, die aus einer Sprachäußerung extrahiert wurde, adaptiert sind, bereitgestellt. Die Spracherkennungsvorrichtung umfasst einen Speicherabschnitt, um vorab jedes repräsentative Akustikmodell abzuspeichern, das als ein repräsentatives Modell für Akustikmodelle ausgewählt wurde, das zu einer von Gruppen gehört, wobei jede der Gruppen zuvor gebildet wird, indem eine große Anzahl von Akustikmodellen auf Basis von Ähnlichkeit, Differenzmodellen jeder Gruppe, die aus der Differenz zwischen den Akustikmodellen, die zu einer der Gruppen gehören, und dem repräsentativen Akustikmodell der gleichen Gruppe ermittelt wird, und Gruppeninformation klassifiziert wird, um die repräsentativen Akustikmodelle den Differenzmodellen jeder gleichen Gruppe zuzuordnen. Die Spracherkennungsvorrichtung umfasst darüber hinaus einen Generierungsabschnitt, um jedes geräuschadaptive repräsentative Akustikmodell jeder Gruppe durch Geräuschadaption zu generieren, die am repräsentativen Akustikmodell jeder im Speicherabschnitt gespeicherten Gruppe durchgeführt wird, und einen Generierungsabschnitt, um jedes zusammengesetzte Akustikmodell jeder Gruppe zu generieren, indem das Differenzmodell und das geräuschadaptive repräsentative Akustikmodell unter Verwendung der Gruppeninformation zusammengesetzt werden. Zusätzlich umfasst die Spracherkennungsvorrichtung einen Erkennungsverarbeitungsabschnitt, um Sprache zu erkennen, indem das zusammengesetzte Akustikmodell, das im Generierungsabschnitt für zusammengesetzte Akustikmodelle generiert wurde, mit der Merkmalsvektorreihe verglichen wird, die aus der zu erkennenden Sprachäußerung extrahiert wurde, einen Erneuerungsmodellgenerierungsabschnitt, um geräusch- und sprecheradaptive Akustikmodelle zu generieren, indem eine Sprecheradaption des zusammengesetzten Akustikmodells jeder gleichen Gruppe unter Verwendung der Merkmalsvektorreihe durchgeführt wird, die aus der Sprachäußerung erhalten wurde, und einen Modellerneuerungsabschnitt, um die Differenzmodelle jeder Gruppe durch Erneuerungsdifferenzmodelle zu ersetzen, die dadurch generiert werden, dass Differenzen zwischen den geräusch- und sprecheradaptiven Akustikmodellen und den geräuschadaptiven repräsentativen Akustikmodellen erfasst werden, die über die Gruppeninformation ausgewählt wurden, wobei der Erkennungsverarbeitungsabschnitt eine Spracherkennung durchführt, indem die Merkmalsvektorreihe, die aus der zu erkennenden Sprachäußerung extrahiert wurde, mit dem an Geräusch und Sprecher adaptierten zusammengesetzten Akustikmodell verglichen wird, das dadurch generiert wurde, dass das geräuschadaptive repräsentative Akustikmodell, das durch Geräuschadaption des repräsentativen Akustikmodells jeder Gruppe generiert wurde, die das mit der Gruppeninformation ausgewählte Erneuerungsdifferenzmodell und das durch den Erneuerungsmodellgenerierungsabschnitt und den Modellerneuerungsabschnitt erneuerte Erneuerungsdifferenzmodell enthält, bei jeder Wiederholung der Spracherkennung zusammengesetzt wird.
  • Nach einem dritten Aspekt der vorliegenden Erfindung wird ein Spracherkennungsverfahren zur Spracherkennung durch Vergleichen eines Satzes zusammengesetzter Akustikmodelle, die an Geräusch und Sprecher mit einer Merkmalsvektorreihe, die aus einer Sprachäußerung extrahiert wurde, adaptiert sind, bereitgestellt. Das Spracherkennungsverfahren umfasst den Schritt des vorab Abspeicherns in einem Speicherabschnitt jedes repräsentativen Akustikmodells, das als ein repräsentatives Modell für Akustikmodelle ausgewählt wurde, das zu einer von Gruppen gehört, wobei jede der Gruppen zuvor gebildet wird, indem eine große Anzahl von Akustikmodellen auf Basis von Ähnlichkeit, Differenzmodellen jeder Gruppe, die aus der Differenz zwischen den Akustikmodellen, die zu einer der Gruppen gehören, und dem repräsentativen Akustikmodell der gleichen Gruppe ermittelt wird, und Gruppeninformation klassifiziert wird, um die repräsentativen Akustikmodelle den Differenzmodellen jeder gleichen Gruppe zuzuordnen. Darüber hinaus umfasst das Spracherkennungsverfahren die Schritte des Generierens jedes geräuschadaptiven Akustikmodells jeder Gruppe durch Geräuschadaption, die am repräsentativen Akustikmodell jeder im Speicherabschnitt gespeicherten Gruppe durchgeführt wurde, und des Generierens jedes zusammengesetzten Akustikmodells jeder Gruppe, indem das Differenzmodell und das geräuschadaptive repräsentative Akustikmodell unter Verwendung der Gruppeninformation zusammengesetzt werden. Zusätzlich umfasst das Spracherkennungsverfahren die Schritte des Generierens von geräusch- und sprecheradaptiven Akustikmodellen, indem eine Sprecheradaption des zusammengesetzten Akustikmodells jeder gleichen Gruppe unter Verwendung der aus der Sprachäußerung erhaltenen Merkmalsvektorreihe durchgeführt wird, und des Ersetzens der gespeicherten Differenzmodelle jeder Gruppe durch Erneuerungsdifferenzmodelle, die dadurch generiert werden, dass Differenzen zwischen den geräusch- und sprecheradaptiven Akustikmodellen und den geräuschadaptiven repräsentativen Akustikmodellen erfasst werden, die über die Gruppeninformation ausgewählt wurden. Bei den zuvor erwähnten Schritten wird die Spracherkennung durchgeführt, indem die aus der zu erkennenden Sprachäußerung extrahierte Merkmalsvektorreihe mit dem an Geräusch und Sprecher adaptierten zusammengesetzten Akustikmodell verglichen wird. Darüber hinaus wird das an Geräusch und Sprecher adaptierte zusammengesetzte Akustikmodell dadurch generiert, dass das Erneuerungsdifferenzmodell und das geräuschadaptive repräsentative Akustikmodell zusammengesetzt werden, das durch eine Geräuschadaption des repräsentativen Akustikmodells der Gruppe generiert wurde, die das über die Gruppeninformation ausgewählte Erneuerungsdifferenzmodell enthält.
  • Nach einem vierten Aspekt der Erfindung wird ein Spracherkennungsverfahren zur Spracherkennung durch Vergleichen eines Satzes zusammengesetzter Akustikmodelle, die an Geräusch und Sprecher mit einer Merkmalsvektorreihe, die aus einer Sprachäußerung extrahiert wurde, bereitgestellt. Das Spracherkennungsverfahren umfasst den Schritt des vorab Abspeicherns in einem Speicherabschnitt jedes repräsentativen Akustikmodells, das als ein repräsentatives Modell für Akustikmodelle ausgewählt wurde, das zu einer von Gruppen gehört, wobei jede der Gruppen zuvor gebildet wird, indem eine große Anzahl von Akustikmodellen auf Basis von Ähnlichkeit, Differenzmodellen jeder Gruppe, die aus der Differenz zwischen den Akustikmodellen, die zu einer der Gruppen gehören, und dem repräsentativen Akustikmodell der gleichen Gruppe ermittelt wird, und Gruppeninformation klassifiziert wird, um die repräsentativen Akustikmodelle den Differenzmodellen jeder gleichen Gruppe zuzuordnen. Darüber hinaus umfasst das Spracherkennungsverfahren die Schritte des Generierens jedes geräuschadaptiven Akustikmodells jeder Gruppe durch Geräuschadaption, die am repräsentativen Akustikmodell jeder im Speicherabschnitt gespeicherten Gruppe durchgeführt wurde, und des Generierens jedes zusammengesetzten Akustikmodells jeder Gruppe, indem das Differenzmodell und das geräuschadaptive repräsentative Akustikmodell unter Verwendung der Gruppeninformation zusammengesetzt werden. Zusätzlich umfasst das Spracherkennungsverfahren die Schritte des Spracherkennens durch Vergleichen der zusammengesetzten Akustikmodelle, die im Generierungsschritt für zusammengesetzte Akustikmodelle generiert wurden, mit der Merkmalsvektorreihe, die aus der zu erkennenden Sprachäußerung extrahiert wurde, des Generierens von geräusch- und sprecheradaptiven Akustikmodellen, indem eine Sprecheradaption des zusammengesetzten Akustikmodells jeder gleichen Gruppe unter Verwendung der aus der Sprachäußerung erhaltenen Merkmalsvektorreihe durchgeführt wird, und des Ersetzens der gespeicherten Differenzmodelle jeder Gruppe durch Erneuerungsdifferenzmodelle, die dadurch generiert werden, dass Differenzen zwischen den geräusch- und sprecheradaptiven Akustikmodellen und den geräuschadaptiven repräsentativen Akustikmodellen erfasst werden, die über die Gruppeninformation ausgewählt wurden. Bei den zuvor erwähnten Schritten führt der Erkennungsverarbeitungsschritt eine Spracherkennung durch, indem die Merkmalsvektorreihe, die aus der zu erkennenden Sprachäußerung extrahiert wurde, mit dem an Geräusch und Sprecher adaptierten zusammengesetzten Akustikmodell verglichen wird, das dadurch generiert wurde, dass das geräuschadaptive repräsentative Akustikmodell, das durch Geräuschadaption des repräsentativen Akustikmodells jeder Gruppe generiert wurde, die das mit der Gruppeninformation ausgewählte Erneuerungsdifferenzmodell und das durch den Erneuerungsmodellgenerierungsabschnitt und den Modellerneuerungsabschnitt erneuerte Erneuerungsdifferenzmodell enthält, bei jeder Wiederholung der Spracherkennung zusammengesetzt wird.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Diese und weitere Aufgaben und Vorteile der vorliegenden Erfindung gehen klar aus der folgenden Beschreibung mit Bezug auf die beigefügten Zeichnungen hervor:
  • 1 ist ein Blockschema zum Veranschaulichen eines Aufbaus einer Spracherkennungsvorrichtung nach einer ersten Ausführungsform der vorliegenden Erfindung;
  • 2 ist eine erläuternde Ansicht zum Veranschaulichen eines Generierungsprinzips für repräsentative Akustik- und Differenzmodelle;
  • 3 ist eine erläuternde Ansicht zum Veranschaulichen eines Verhältnisses zwischen repräsentativen Akustikmodellen, Differenzmodellen und akustischen Ausgangsmodellen;
  • 4 ist eine erläuternde Ansicht zum Veranschaulichen eines Generierungsprinzips für geräuschadaptive zusammengesetzte Akustikmodelle;
  • 5 ist eine erläuternde Ansicht zum Veranschaulichen eines Generierungsprinzips für geräusch- und sprecheradaptive Akustikmodelle zur Anpassung an sowohl Geräusch als auch Sprecher, und eines Generierungsprinzips für ein Erneuerungsdifferenzmodell;
  • 6 ist ein Ablaufdiagramm zum Veranschaulichen der Schritte, bevor ein Differenzmodell durch ein Erneuerungsdifferenzmodell erneuert wird;
  • 7 ist ein Ablaufdiagramm zum Veranschaulichen eines Verhaltens in der Spracherkennung;
  • 8 ist ein Blockschema zum Veranschaulichen eines Aufbaus einer Spracherkennungsvorrichtung nach der zweiten Ausführungsform der vorliegenden Erfindung; und
  • 9 ist ein Ablaufdiagramm zum Veranschaulichen eines Verhaltens der Spracherkennungsvorrichtung nach der zweiten Ausführungsform der vorliegenden Erfindung.
  • AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Die bevorzugten Ausführungsformen der vorliegenden Erfindung werden mit Bezug auf die beigefügten Zeichnungen beschrieben.
  • (Erste Ausführungsform)
  • Die erste Ausführungsform der vorliegenden Erfindung wird mit Bezug auf die 1 bis 7 beschrieben. 1 ist ein Blockschema, das einen Aufbau einer Spracherkennungsvorrichtung der vorliegenden Ausführungsform zeigt.
  • Wie in 1 gezeigt ist, weist die Spracherkennungsvorrichtung einen Aufbau zum Erkennen von Sprache unter Verwendung von HMM auf und umfasst einen Speicherabschnitt 1, der vorab Akustikmodelldaten oder dergleichen abspeichert, einen Generierungsabschnitt 2 für Sprachäußerungsumgebungsgeräuschmodelle, einen Generierungsabschnitt 3 für geräuschadaptive repräsentative Akustikmodelle, einen Generierungsabschnitt 4 für zusammengesetzte Akustikmodelle, einen Erneuerungsmodellgenerierungsabschnitt 5, einen Modellerneuerungsabschnitt 6 und einen Erkennungsverarbeitungsabschnitt 7.
  • Darüber hinaus setzt die Spracherkennungsvorrichtung einen Schalter 10 und einen Sprachanalyseabschnitt 9 ein, der die Merkmalvektorreihe V(n) im Kepstrumbereich bei jeder vorbestimmten Rahmendauer unter Verwendung einer Kepstrum-Transformation eines Eingangsmodells v(t) aus einem Mikrofon 8 generiert und ausgibt.
  • Der Speicherabschnitt 1 speichert vorab viele Akustikmodelle von Teilworteinheiten wie Phonemen, die generiert werden, indem eine Standardsprachäußerung lernmäßig erfasst wird.
  • Es ist festzuhalten, dass nicht eine große Anzahl akustischer Ausgangsmodelle (die nur durch lernmäßiges Erfassen einer Standardsprachäußerung erhalten werden) in der Urform gespeichert wird, sondern dass repräsentative Akustikmodelle (C) und Differenzmodelle (D), die durch Gruppieren oder Bündeln jeder Verteilung (mit Durchschnittsvektor und Kovarianzmatrix) der großen Anzahl von akustischen Ausgangsmodellen in einer Speichereinheit 1a für repräsentative Akustikmodelle bzw. einer Differenzmodellspeichereinheit 1b gespeichert werden. Ausführlichere Beschreibungen erfolgen nachstehend.
  • Die große Anzahl akustischer Ausgangsmodelle wird durch das wie vorstehend erwähnte Gruppierungsverfahren in Gruppen G1 ~ Gx aufgeteilt. Dann werden davon, unter der Annahme, dass beispielsweise die erste (x = 1) Gruppe G1q1 Teile der akustischen Ausgangsmodelle S1,1 ~ S1,q1 als Glieder aufweist, ein repräsentatives Akustikmodell C1 und q1 Teile von Differenzmodellen d1,1 ~ d1,q1 davon abgeleitet.
  • Weist die zweite (x = 2) Gruppe G2 q2 Teile der akustischen Ausgangsmodelle S2,1 ~ S2,q2 als Glieder auf, wird ein repräsentatives Akustikmodell C2 und q2 Teile von Differenzmodellen d2,1 ~ d2,q2 davon abgeleitet. Genauso werden, wenn die letzte (x = X) Gruppe GxqX Teile von akustischen Ausgangsmodellen SX,1 ~ SX,qx aufweist, ein repräsentatives Akustikmodell CX und qX Teile von Differenzmodellen dX,1 ~ dX,qx davon abgeleitet.
  • Wie in 1 gezeigt ist, wird jedes repräsentative Akustikmodell C1 ~ CX, das zu jeder Gruppe G1 ~ GX gehört, in der Speichereinheit 1a für repräsentative Akustikmodelle abgespeichert, indem sie gruppiert werden, und jedes Differenzmodell wie d1,1 ~ d1,q1, d2,1 ~ d2,q2 und dX,1 ~ dX,qx die jedem repräsentativen Akustikmodell entsprechen, wird in der Differenzmodellspeichereinheit 1b unter jeder Gruppe abgespeichert.
  • Darüber hinaus werden in 1 q1 Teile der Differenzmodelle d1,1 ~ d1,q1, die dem repräsentativen Akustikmodell C1 der Gruppe G1 entsprechen, mit einem Code D1 bezeichnet, und q2 Teile der Differenzmodelle d2,1 ~ d2,q2, die dem repräsentativen Akustikmodell C2 der Gruppe G2 entsprechen, werden mit einem Code D2 bezeichnet. Genauso werden qX Teile der Differenzmodelle dX,1 ~ dX,qx, die dem repräsentativen Akustikmodell CX der Gruppe GX entsprechen, mit einem Code DX bezeichnet.
  • Darüber hinaus wird Gruppeninformation zum Beeinflussen des entsprechenden Verhältnisses zwischen den repräsentativen Akustikmodellen C1 ~ CX und den Differenzmodellen D1 ~ DX in einer Gruppeninformationsspeichereinheit 1c abgespeichert.
  • 2 ist ein Schema zur Veranschaulichung eines Generierungsprinzips für jedes repräsentative Akustikmodell C1 ~ CX, das jeder Gruppe G1 ~ GX entspricht, und jedes Differenzmodell D1 ~ DX, das jedem repräsentativen Akustikmodell C1 ~ CX entspricht. Das Generierungsprinzip wird nachstehend mit Bezug auf 2 erläutert.
  • Zuerst generiert das Gruppieren oder Bündeln einer großer Anzahl akustischer Ausgangsmodelle (akustische Ausgangs-HMMs) mit einer Verteilung S jede Gruppe, die einander ähnliche akustische Ausgangsmodelle enthält, und überdies wird die zuvor erwähnte Gruppeninformation bereitgestellt.
  • Gruppierungsverfahren wie das LBG- oder Splitverfahren können als Gruppierungsverfahren verwendet werden. Die Gruppierung erfolgt auf Grundlage der Ähnlichkeit der Durchschnittsvektoren jeder Verteilung von akustischen Ausgangsmodellen.
  • Die Gruppierung kann unter Verwendung von Vorabinformation wie der Ähnlichkeit von Phonemen erfolgen, die jedem Modell entsprechen. Beispielsweise können ein Vokalmodell und ein Konsonantenmodell zwei Gruppen bilden.
  • Die Gruppierung akustischer Ausgangsmodelle kann auch dadurch erfolgen, dass das erst- und letztgenannte Verfahren zusammen verwendet werden. Diese Gruppierung ermöglich die wie in 2 schematisch gezeigte Gruppierung.
  • Beispielsweise im Falle, dass ein Akustikmodell zur x-ten Gruppe GX gehört, ist das erste mit SX,1 bezeichnete Akustikmodell eine Verteilung, deren Durchschnittsvektor μSX,1 und deren Kovarianzmatrix σdX,1(= σSX,1) ist, und auch das zweite, mit SX,2 bezeichnete Akustikmodell ist eine Verteilung, deren Durchschnittsvektor μSX,2 und deren Kovarianzmatrix σdX,2(= σSX,2) ist. Genauso ist das mit SX,qx bezeichnete qx-te Akustikmodell eine Verteilung, deren Durchschnittsvektor μSX,qx und deren Kovarianzmatrix σdX,gx(= σSX,qx) ist.
  • Ein Akustikmodell, das zu den anderen Gruppen wie G1, G2 usw. gehört, ist auch eine Verteilung mit einem Durchschnittsvektor und einer Kovarianzmatrix.
  • Ein Verfahren zum Erhalten jedes repräsentativen Akustikmodells C1 ~ CX jeder Gruppe G1 ~ GX wird nun erläutert. Der einfacheren Erklärung halber wird nachstehend ein Fall zum Erhalten eines repräsentativen Akustikmodells CX der x-ten Gruppe GX erläutert.
  • Wie in 2 gezeigt ist, ist ein repräsentatives Akustikmodell CX eine Verteilung mit einem Durchschnittsvektor μCX, der aus dem Ausgangspunkt Q und einer Verteilung einer Kovarianzmatrix σCX hervorgeht (in 1 durch eine Ellipse angegeben), die dem Durchschnittsvektor μCX entspricht.
  • Unter der Annahme, dass ein repräsentatives Akustikmodell CX mit CX(μCX, σCX) bezeichnet ist, kann der Durchschnittsvektor μCX wie folgt erhalten werden:
    Figure 00120001
  • Die Kovarianzmatrix σCX kann auch wie folgt erhalten werden:
    Figure 00120002
  • In den vorstehenden Ausdrücken (1), (2) bezeichnet die Variable X die X-te Gruppe GX, die Variable y bezeichnet jedes Akustikmodell SX,y(1 ≤ y ≤ qX), das zur Gruppe GX gehört, und die Variable qX bezeichnet die Gesamtanzahl der Akustikmodelle SX,y, die zur Gruppe GX gehören.
  • Repräsentative Akustikmodelle der anderen Gruppen G1, G2 usw. können auch aus den vorstehenden Ausdrücken (1) und (2) erhalten werden.
  • Als Nächstes kann jedes Differenzmodell D1 ~ DX, das zu jeder Gruppe G1 ~ GX gehört, durch den nächsten Ausdruck (3) berechnet werden.
  • Wie das Differenzmodell DX (d.h. dX,1, dX2 ~ dX,qX) erhalten werden kann, das der in 2 gezeigten X-ten Gruppe GX entspricht, wird der Zweckmäßigkeit halber erläutert.
  • Der Durchschnittsvektor μdX,y kann erhalten werden aus μdX,y = μSX,y – μCX (3)
  • Die Kovarianzmatrix σdX,y kann bestimmt werden durch σdX,y = σSX,y. (4)
  • In den vorstehenden Ausdrücken (3) und (4) bezeichnet die Variable X die X-te Gruppe GX, die Variable y bezeichnet jedes Akustikmodell SX,y(1 ≤ y ≤ qX), das zur Gruppe GX gehört, und die Variable qX bezeichnet die Gesamtanzahl der Akustikmodelle SX,y, die zur Gruppe GX gehören.
  • Aus dem Durchschnittsvektor μdX,y und der Kovarianzmatrix σdX,y, die durch die vorstehenden Gleichungen (3) und (4) bestimmt werden, setzt sich das Differenzmodell dX,y zusammen.
  • Im Spezielleren handelt es sich beim Differenzmodell dX,1 um die Verteilung mit dem Durchschnittsvektor μdX,1 und der Kovarianzmatrix σdX,1, und beim Differenzmodell dX,2 um die Verteilung mit dem Durchschnittsvektor μdX,2 und der Kovarianzmatrix σdX,2. Genauso handelt es sich beim Differenzmodell dX,y(y = qX) um die Verteilung mit dem Durchschnittsvektor μdX,y und der Kovarianzmatrix σdX,y, und somit kann die Gesamtanzahl qX der Differenzmodelle dX,1 ~ dX,y bestimmt werden.
  • Das repräsentative Akustikmodell C1 ~ CX und das Differenzmodell D1(d1,1 ~ d1,q1) ~ DX(dX,1 ~ dX,qX) werden vorab mit der Entsprechung zu jeder Gruppe in der Speichereinheit 1a für repräsentative Akustikmodelle bzw. der Differenzmodellspeichereinheit 1b abgespeichert.
  • Wie in 3 in einem allgemeineren Ausdruck gezeigt ist, kann das akustische Ausgangsmodell SX,y, das dem Differenzmodell dX,y entspricht, dadurch bestimmt werden, dass das y-te Differenzmodell dX,y, das zur X-ten Gruppe GX gehört, und das repräsentative Akustikmodell CX, das zur gleichen Gruppe gehört wie dasjenige des Differenzmodells dX,y, zusammengesetzt werden. Auf Grundlage dieses Verhältnisses werden das repräsentative Akustikmodell CX(1 ≤ x ≤ X) und das Differenzmodell DX(1 ≤ x ≤ X), die jeder Gruppe GX(1 ≤ x ≤ X) entsprechen, in den Speichereinheiten 1a bzw. 1b abgespeichert, und werden entsprechend jeder Gruppe auf Grundlage der abgespeicherten Gruppeninformation behandelt.
  • In der vorliegenden Ausführungsform erfolgt die Verarbeitung der zuvor erwähnten Zusammensetzung durch den folgenden Ausdruck (5), (6): μdX,y + μCX = μSX,y (5) σdX,y = σSX,y. (6)
  • Das heißt, der Durchschnittsvektor wird durch Addition erhalten und die Kovarianz nur durch Ersetzen.
  • Der einfacheren Beschreibung halber wird jede Verteilung SX,y akustischer Ausgangsmodelle gekennzeichnet, indem die y-te Verteilung einer Gruppe GX nummeriert wird. In Wirklichkeit jedoch wird die Verteilung eines akustischen Ausgangsmodells mit einem HMM in Übereinstimmung gebracht, und jede Verteilung des Differenzmodells wird auch mit jedem abzuspeichernden HMM in Ubereinstimmung gebracht.
  • Gruppeninformation B, die das Verhältnis zwischen jeder Verteilung des akustischen Ausgangsmodells enthält, das zu jedem HMM gehört, und die Gruppe, zu der die Verteilung gehört, wird in einer Gruppeninformationsspeichereinheit 1c abgespeichert.
  • Beispielsweise wird die Verteilung des akustischen Ausgangsmodells mit der HMM-Zahl i, der Statuszahl j und der Mischungszahl k mit Sm i,j,k, und jedes Differenzmodell, das der vorstehenden Verteilung entspricht, mit dm i,j,k bezeichnet. Darüber hinaus wird die Gruppierung, zu der die Verteilung des akustischen Ausgangsmodells Sm i,j,k und jedes Differenzmodell dm i,j,k gehören, mit β bezeichnet, und dann wird die Gruppeninformation Bm i,j,k, die die Gruppe angibt, zu der die Verteilung Sm i,j,k gehört, bezeichnet mit Bm i,j,k = β (7)
  • Auf diese Weise kann das entsprechende Verhältnis zwischen den akustischen Ausgangsmodellen, den Differenzmodellen und der Gruppe, zu der diese Modelle gehören, durch die Gruppeninformation Bm erhalten werden.
  • Ein Generierungsabschnitt 3 für geräuschadaptive repräsentative Akustikmodelle verwendet das Jacobi-Anpassungsverfahren als geräuschadaptives Verfahren. Das repräsentative Akustikmodell C jeder Gruppe wird durch ein unter Verwendung der HMM-Zusammensetzung zusammengesetztes akustisches Ausgangsmodell erneuert und abgespeichert, das sich aus dem vorab gebildeten Ausgangsgeräuschmodell (mit NS bezeichnet) und dem repräsentativen Akustikmodell jeder Gruppe zusammensetzt.
  • Die Jacobi-Matrix J jeder Gruppe, die sich aus dem Ausgangsgeräuschmodell NS und dem erneuerten repräsentativen Akustikmodell C bestimmt, und das Ausgangsgeräuschmodell NS werden jeweils abgespeichert und dem Generierungsabschnitt 3 für geräuschadaptive repräsentative Akustikmodelle zugeführt.
  • Ein Generierungsabschnitt 2 für Sprachäußerungsumgebungsgeräuschmodelle generiert Sprachäußerungsumgebungsgeräuschmodelle (Sprachäußerungsumgebungsgeräusch-Hmms) N auf Grundlage des Hintergrundgeräuschs der Sprachumgebung während eines Zeitraums ohne Sprachäußerung.
  • Während des sprachäußerungsfreien Zeitraums, in dem sich ein Sprecher noch nicht äußert, wird das Hintergrundgeräusch in der Sprachumgebung durch ein Mikrofon 8 aufgenommen. Der Sprachanalyseabschnitt 9 generiert aus dem aufgenommenen Signal V(t) Merkmalsvektorreihen V(n) des Hintergrundgeräuschs mit jeder vorbestimmten Rahmendauer. Die Merkmalsvektorreihen V(n) werden als Hintergrundgeräuschmerkmalsvektorreihen N(n)' an den Generierungsabschnitt 2 für Sprachäußerungsumgebungsgeräuschmodelle angelegt, indem der Schalter 10 umschaltet. Dann generiert der Generierungsabschnitt 2 für Sprachäußerungsumgebungsgeräuschmodelle das Sprachäußerungsumgebungsgeräuschmodell N, indem die Merkmalsvektorreihen N(n)' lernmäßig erfasst werden.
  • Der Generierungsabschnitt 3 für geräuschadaptive repräsentative Akustikmodelle generiert geräuschadaptive repräsentative Akustikmodelle (geräuschadaptive repräsentative Akustik-HMMs) C1 N ~ CX N, die jeder Gruppe G1 ~ GX entsprechen, indem eine Geräuschanpassung der repräsentativen Akustikmodelle C1 ~ CX an die Sprachäußerungsgeräuschmodelle N eingesetzt wird, und speist sie dann in den Generierungsabschnitt 4 für zusammengesetzte Akustikmodelle ein.
  • Das Verfahren zur Geräuschanpassung setzt ein sogenanntes Geräuschanpassungsverfahren ein, um unter Verwendung der HMM-Zusammensetzung, des Jacobi-Anpassungsverfahrens o. dgl. das Sprachäußerungsumgebungsgeräuschmodell über die Verteilung des repräsentativen Akustikmodells zu legen.
  • Die HMM-Zusammensetzung berechnet das geräuschadaptive repräsentative Akustikmodell CX N jeder Gruppe unter Verwendung von Sprachäußerungsumgebungsgeräuschmodellen N und dem repräsentativen Akustikmodell CX jeder Gruppe.
  • Das Jacobi-Anpassungsverfahren berechnet das geräuschadaptive repräsentative Akustikmodell CX N unter Verwendung des repräsentativen Akustikmodells CX jeder Gruppe, das durch das zusammengesetzte Ausgangsmodell, das Ausgangsgeräusch NS, das Sprachäußerungsumgebungsgeräuschmodell N und die Jacobi-Matrix J jeder Gruppe erneuert wird.
  • Die Geräuschanpassung des repräsentativen Akustikmodells CX jeder Gruppe GX wird nachstehend allgemeiner beschrieben. Wenn davon ausgegangen wird, dass das Hintergrundgeräusch stationär und das Geräuschmodell N ein Modell mit einem Zustand und 1 Mischungszahl ist, wird ein repräsentatives Akustikmodell CX unter Verwendung einer Geräuschanpassungsverarbeitung wie dem HMM-Zusammensetzungsschema oder des Jacobi-Anpassungsverfahrens so angepasst, dass es zum geräuschadaptiven repräsentativen Akustikmodell CX N wird. Der Durchschnittsvektor und die Kovarianzmatrix des repräsentativen Modells werden zu μCX N bzw. σCX N transformiert.
  • Soll das Geräuschmodell N ein Modell mit mindestens 2 Zuständen und mindestens 2 Mischungszahlen sein, entspricht das repräsentative Akustikmodell CX mindestens zwei geräuschadaptiven Verteilungen, d.h., das repräsentative Akustikmodell CX entspricht CX,1 N, CX,2 N usw.
  • Der Generierungsabschnitt 4 für zusammengesetzte Akustikmodelle generiert mehrere zusammengesetzte Akustikmodelle (zusammengesetzte Akustik-HMMs) M durch das Zusammensetzen jedes in der Differenzmodellspeichereinheit 1b abgespeicherten Differenzmodells (in 1 mit D bezeichnet) und jedes geräuschadaptiven repräsentativen Akustikmodells (in 1 mit CN bezeichnet) im Hinblick auf jede Gruppe G1 ~ GX.
  • Allgemeiner beschrieben generiert der Generierungsabschnitt 3 für geräuschadaptive repräsentative Akustikmodelle geräuschadaptive repräsentative Akustikmodelle CX N(1 ≤ x ≤ X), die jeder Gruppe GX(1 ≤ x ≤ X) entsprechen, dann generiert der Generierungsabschnitt 4 für zusammengesetzte Akustikmodelle qX Teile von zusammengesetzten Akustikmodellen MX,1 ~ MX,y, die äquvalent zur Geräuschanpassung von akustischen Ausgangsmodellen SX,1 ~ SX,y sind, indem jedes Differenzmodell dX,1 ~ dX,y(y = qX) und jedes geräuschadaptive repräsentative Akustikmodell CX N(1 ≤ x ≤ X) zusammengesetzt wird.
  • 4 ist eine Schemazeichnung, die den Aufbau eines Satzes von Akustikmodellen M veranschaulicht, die wie vorstehend beschrieben generiert wurden. Als repräsentatives Beispiel sind der Aufbau der zusammengesetzten Akustikmodelle M1,1 ~ M1,y, die aus dem repräsentativen Akustikmodell CX generiert wurden, und die zur Gruppe GX gehörenden Differenzmodelle d1,1 ~ d1,y(y = qX) gezeigt.
  • In 4 ist die zuvor erwähnte Zusammensetzung des besseren Verständnisses halber ohne die Auswirkung der Kovarianzmatrix dargestellt.
  • Der Durchschnittsvektor und die Kovarianz eines Satzes von zusammengesetzten Akustikmodellen MX,y sind mit μMX,y bzw. σMX,y bezeichnet. Im Falle der Zusammensetzung des geräuschadaptiven repräsentativen Akustikmodells und des Differenzmodells werden, wenn die durch die Geräuschanpassung verursachte Veränderung bei der Varianz der repräsentativen Akustikmodelle nicht berücksichtigt wird, der Durchschnittsvektor μMX,y und die Kovarianzmatrix σMX,y des Satzes zusammengesetzter Akustikmodelle MX,y durch die folgenden Ausdrücke berechnet: = μdX,y + μCX N, (8) σMX,y = σdX,y.
  • Wird andererseits die durch die Geräuschanpassung verursachte Veränderung bei der Varianz der repräsentativen Akustikmodelle berücksichtigt, werden der Durchschnittsvektor μMX,y und die Kovarianzmatrix σMX,y durch die folgenden Ausdrücke berechnet: μMX,y = μdX,y + σCX N^(1/2)σCX^(–1/2)μCX N, (10) σMX,y = σCX NσCX^(–1)σdX,y. (11)
  • Da der einflussreichste Faktor bei einer Spracherkennungsdurchführung der Durchschnittsvektor μMX,y der Verteilung ist, werden der Durchschnittsvektor μMX,y und die Kovarianzmatrix σMX,y des zusammengesetzten Akustikmodells σMX,y durch den Ausdruck (8) bzw. (9) bestimmt, wovon keiner die durch die Geräuschanpassung bedingte Veränderung in der Kovarianzmatrix des repräsentativen Akustikmodells enthält. In der vorliegenden Ausführungsform werden der Durchschnittsvektor μMX,y und die Kovarianzmatrix σMX,y des Satzes zusammengesetzter Akustikmodelle μMX,y durch die vorstehenden Ausdrücke (8), (9) berechnet, wodurch sich ein Rechenverarbeitungsaufwand reduziert, um eine geräuschadaptive Leistung zu erfassen.
  • Der Satz der Differenzmodelle D1(d1,1 ~ d1,q1), D2(d2,1 ~ d2,q2) ... DX(dX,1 ~ dX,qX), die in der Differenzmodellspeichereinheit 1b abgespeichert sind, wird durch Erneuerungsdifferenzmodelle erneuert, die unter Verwendung des Erneuerungsmodellgenerierungsabschnitts 5 und des Modellerneuerungsabschnitts 6 generiert werden. Die ausführlichen Beschreibungen erfolgen nachstehend.
  • Wie in 1 gezeigt ist, ist das Differenzmodell vor der Erneuerung mit D und nach der Erneuerung mit D'' bezeichnet. Das zusammengesetzte Akustikmodell setzt sich aus dem noch nicht erneuerten Differenzmodell D zusammen, und das geräuschadaptive repräsentative Akustikmodell CN wird mit M bezeichnet, und das sich aus dem erneuerten Differenzmodell D'' und dem geräuschadaptiven repräsentativen Akustikmodell CN zusammensetzende wird mit M'' bezeichnet.
  • Der Erneuerungsmodellgenerierungsabschnitt 5 generiert ein geräusch- und sprecheradaptives Akustikmodell (geräusch- und sprecheradaptives Akustik-HMM) R durch Sprecheranpassung des zusammengesetzten Akustikmodells M an die Merkmalsvektorreihe V(n) unter Verwendung von Sprecheranpassungsverfahren wie dem MLLR- oder MAP-Verfahren.
  • Die Sprecheranpassung der vorliegenden Ausführungsform nutzt die Sprecheräußerung von Textsätzen o. dgl., die sich zur Sprecheranpassung eignen.
  • Jede Merkmalsvektorreihe jeder vorbestimmten Rahmendauer mit Eigenschaften der Sprachäußerung, die vom Sprachanalyseabschnitt 9 ausgegeben wird, der die Sprache während der Äußerungsdauer durch das Mikrofon 8 analysiert, wird durch das Umlegen des Schalters 10, wie in 1 durch eine unterbrochene Linie gezeigt ist, in den Erneuerungsmodellgenerierungsabschnitt 5 eingespeist. Das im Generierungsabschnitt 4 für zusammengesetzte Akustikmodelle generierte zusammengesetzte Akustikmodell M wird in 1 über den anderen Weg einer unterbrochenen Linie an den Erneuerungsmodellgenerierungsabschnitt 5 angelegt. Dann generiert der Erneuerungsmodellgenerierungsabschnitt 5 ein geräusch- und sprecheradaptives Akustikmodell R durch die Sprecheranpassung des zusammengesetzten Akustikmodells M an die Merkmalsvektorreihe V(n).
  • 5 ist eine Schemazeichnung zum Veranschaulichen eines Generierungsprinzips für das geräusch- und sprecheradaptive Akustikmodell R, das sowohl an Geräusch als auch Sprecher angepasst ist. Als typisches Beispiel ist die Generierung des geräusch- und sprecheradaptiven Akustikmodels RX,1 ~ RX,y aus dem zusammengesetzten Akustikmodell MX,1 ~ MX,y gezeigt, das sich auf Grundlage der Gleichungen (8) und (9) aus dem repräsentativen Akustikmodell CX der Gruppe GX und dem Differenzmodell DX(dX,1 ~ dX,y) zusammensetzt. Der einfachen Erläuterungen halber ist die Kovarianzmatrix nicht dargestellt.
  • Das geräusch- und sprecheradaptive Akustikmodell RX,1 mit einer Verteilung mit einem Durchschnittsvektor μRX,1 und einer Kovarianzmatrix σRX,1 (in dieser Figur weggelassen) wird generiert, indem die Berechnung der Ausdrücke (8) und (9) verwendet wird. Auf dieselbe Weise wird das geräusch- und sprecheradaptive Akustikmodell RX,y mit einer Verteilung mit einem Durchschnittsvektor μRX,y und einer Kovarianzmatrix σRX,y (nicht gezeigt) generiert.
  • Darüber hinaus werden die anderen der geräusch- und sprecheradaptiven Akustikmodelle, die den Gruppen G1, G2 usw. entsprechen, unter Verwendung der Ausdrücke (8) und (9) generiert, und alle geräusch- und sprecheradaptiven Akustikmodelle R werden dem Modellerneuerungsabschnitt 6 zur Verfügung gestellt.
  • Der Modellerneuerungsabschnitt 6 generiert das sprecheradaptierte Erneuerungsdifferenzmodel D'', indem das geräusch- und sprecheradaptive Akustikmodell, das im Erneuerungsmodellgenerierungsabschnitt 5 generiert wurde, das geräuschadaptive repräsentative Akustikmodell CN, das im Generierungsabschnitt 3 für geräuschadaptive repräsentative Akustikmodelle generiert wurde, und das in der Differenzmodellspeichereinheit 1b gespeicherte noch nicht erneuerte Differenzmodell D verwendet wird, um das noch nicht erneuerte Differenzmodell D mit dem Differenzmodell D'' zu erneuern.
  • Das Generierungsprinzip für das Erneuerungsdifferenzmodell DX'', das durch das geräusch- und sprecheradaptive Akustikmodell RX der Gruppe GX, das geräuschadaptive repräsentative Akustikmodell CX N und das noch nicht erneuerte Differenzmodell DX bestimmt wird, wird nun erklärt. Jeder Durchschnittsvektor μdX,1'' ~ μdX,y'' und die Kovarianzmatrizes σdX,1'' ~ σdX,y'' des Erneuerungsdifferenzmodells DX''(dX,1'' ~ dX,y'') können durch die folgenden Ausdrücke bestimmt werden: μdX,y'' = αX,y(μRX,y – σCX N^(1/2)σCX^(–1/2)μCX N) + (1 – αX,y)μdX,y (12) σdX,y'' = αX,y·(σCX N·σCX^(–1)σRX,y) + (1 – αX,y)σdX,y. (13)
  • Die vorstehenden Ausdrücke (12), (13) zeigen das Verfahren der Geräuschanpassung der Kovarianzmatrizes. Wird die Geräuschanpassung der Kovarianzmatrizes nicht durchgeführt, lassen sich der Durchschnittsvektor und die Kovarianzmatrizes durch die folgenden Ausdrücke bestimmen: μdX,y'' = αX,y·(μRX,y. – μCX N) + (1 – αX,y)μdX,y (14) σdX,y'' = αX,y·σRX,y + (1 – αX,y)σdX,y (15)
  • Wird darüber hinaus auch keine Sprecheranpassung durchgeführt, lassen sich der Durchschnittsvektor und die Kovarianzmatrizes durch die folgenden Ausdrücke bestimmen: μdX,y'' = αX,y·(μRX,y – μCX N) + (1 – αX,y)μdX,y (16) σdX,y'' = σdX,y. (17)
  • Im Falle der Sprecheranpassung ist die Anpassungswirkung auf den Durchschnittsvektor groß, auf die Kovarianzmatrix aber gering. Dies ermöglicht den Einsatz der vorstehenden Ausdrücke (16), (17), die auf den Fall anzuwenden sind, bei dem keine Sprecheranpassung der Kovarianzmatrix durchgeführt wird, um jeden Durchschnittsvektor μdX,1'' ~ μdX,y'' und die Kovarianzmatrizes σdX,1'' ~ σdX,y'' des Erneuerungsdifferenzmodells dX,1'' ~ dX,y'' zu bestimmen, wodurch Arbeitsaufwand reduziert und die Wirkung der Sprecheranpassung erreicht wird. Somit bestimmt die vorliegenden Ausführungsform das Erneuerungsdifferenzmodell dX,1'' ~ dX,y'' auf Grundlage der vorstehenden Ausdrücke (16) und (17).
  • Zusätzlich ist in den Ausdrücken (16), (17) der Koeffizient αX,y ein gewichteter Koeffizient, um das Erneuerungsdifferenzmodell dX,y einzustellen, das aus dem geräusch- und sprecheradaptiven Akustikmodell RX,y und dem zusammengesetzten Akustikmodell MX,y erhalten wurde, und sein Bereich beläuft sich auf 0,0 ≤ αX,y ≤ 1,0.
  • Bei dem gewichteten Koeffizienten αX,y kann es sich um einen vorbestimmten Wert im vorstehend erwähnten Bereich handeln, oder er kann bei jedem Anpassungsprozess verändert werden, wie der gewichtete Koeffizient des MAP-Schätzverfahrens.
  • Das Erneuerungsdifferenzmodell dX,1'' der Gruppe GX wird als Verteilung mit dem Durchschnittsvektor μdX,1'' erhalten, der durch die Vektorsumme des Vektors αX,y·(μRX,y – μCX N) des ersten Terms auf der rechten Seite des Ausdrucks (16) und des Vektors (1 – αX,y)μdX,y des zweiten Terms und die durch den Ausdruck (17) bestimmte Kovarianzmatrix σdX,1 bestimmt wird, wie in 5 gezeigt ist. Die anderen Erneuerungsdifferenzmodelle können auf dieselbe Weise bestimmt werden.
  • Der Modellerneuerungsabschnitt 6 bestimmt die Erneuerungsdifferenzmodelle D1'' ~ DX'', die jeder Gruppe G1 ~ GX entsprechen, um die noch nicht erneuerten Differenzmodelle D1 ~ DX durch die Erneuerungsdifferenzmodelle D1'' ~ DX'' zu erneuern.
  • Nach der Erneuerung der Differenzmodellspeichereinheit 1b durch das Erneuerungsdifferenzmodells D'' erkennt der Erkennungsverarbeitungsabschnitt 7 eine Sprachäußerung eines Sprechers ab dem Beginn der Erkennung echter Sprache.
  • Wenn nach dem Beginn der Spracherkennungsverarbeitung noch keine Sprachäußerung stattgefunden hat, generiert der Generierungsabschnitt 4 für zusammengesetzte Akustikmodelle das zusammengesetzte, sowohl an Geräusch als auch Sprecher angepasste Akustikmodell M'', das allen Gruppen G1 ~ GX entspricht, indem das geräuschadaptive repräsentative Akustikmodell CN, das im Generierungsabschnitt 3 für geräuschadaptive repräsentative Akustikmodelle generiert wurde, und das Erneuerungsdifferenzmodell D'' zusammengesetzt werden.
  • Als Nächstes generiert der Sprachanalyseabschnitt 9 während der Dauer einer Sprachäußerung die Merkmalsvektorreihe V(n) der Hintergrundgeräusch enthaltenden Sprachäußerung, um durch Umlegen des Schalters 10 die Merkmalsvektorreihe V(n) dem Erkennungsverarbeitungsabschnitt 7 zur Verfügung zu stellen.
  • Der Erkennungsverarbeitungsabschnitt 7 vergleicht die Merkmalsvektorreihe V(n) mit der Wort- oder Satzmodellreihe, die aus dem zusammengesetzten Akustikmodell M'' generiert wurde, um das Modell des zusammengesetzten Akustikmodells M'' mit der größten Wahrscheinlichkeit als Erkennungsergebnis auszugeben.
  • Die Verhaltensweisen der Spracherkennungsvorrichtung werden nachstehend mit Bezug auf die Ablaufdiagramme der 6 und 7 erläutert.
  • 6 zeigt das Verhalten zum Erneuern des Differenzmodells D durch das Erneuerungsdifferenzmodell D'', das vor den Schritten der Spracherkennung durchgeführt wird. 7 zeigt das Verhalten, um Sprache unter Verwendung des Erneuerungsdifferenzmodells D'' zu erkennen.
  • Wie in 6 gezeigt ist, generiert im Schritt S100, wenn die Erneuerungsverarbeitung beginnt, der Generierungsabschnitt 3 für geräuschadaptive repräsentative Akustikmodelle das geräuschadaptive repräsentative Akustikmodell CN, indem das repräsentative Akustikmodell C an Geräusch angepasst wird.
  • Konkreter ausgedrückt stellt der Sprachanalyseabschnitt 9 die Merkmalsvektorreihe N(n)' des Hintergrundgeräuschs während eines äußerungsfreien Zeitraums dem Generierungsabschnitt 2 für Sprachäußerungsumgebungsgeräuschmodelle bereit, in dem die Sprachäußerungsumgebungsgeräuschmodelle N durch lernmäßiges Erfassen der Merkmalsvektorreihe N(n)' generiert werden.
  • Dann generiert der Generierungsabschnitt 3 für geräuschadaptive repräsentative Akustikmodelle das geräuschadaptive repräsentative Akustikmodell CN, indem die Geräuschanpassung des repräsentativen Akustikmodells C auf das Sprachäußerungsumgebungsgeräuschmodell N angewendet wird.
  • Beim nächsten Schritt S102 generiert der Generierungsabschnitt 4 für zusammengesetzte Akustikmodelle das zusammengesetzte Akustikmodell M, indem das geräuschadaptive repräsentative Akustikmodell CN und das noch nicht erneuerte Differenzmodell D zusammengesetzt werden.
  • Somit wird im Schritt S102 das zusammengesetzte Akustikmodell M nur an Geräusch aber noch nicht an den Sprecher angepasst.
  • Im Schritt S104 führt der Erneuerungsmodellgenerierungsabschnitt 5 die Anpassung des zusammengesetzten Akustikmodells M an die Sprachäußerung eines Sprechers durch.
  • Und zwar stellt, während ein Sprecher Textsätze o. dgl. äußert, der Sprachanalyseabschnitt 9 durch Umlegen des Schalters 10 dem Erneuerungsmodellgenerierungsabschnitt 5 die Merkmalsvektorreihe V(n) der Sprachäußerung bereit. Dann generiert der Erneuerungsmodellgenerierungsabschnitt 5 das geräusch- und sprecheradaptive Akustikmodell R durch die Sprecheranpassung des zusammengesetzten Akustikmodells M an die Merkmalsvektorreihe V(n).
  • Somit wird im Schritt S104, wie in 5 gezeigt, das geräusch- und sprecheradaptive Akustikmodell R generiert, das sowohl an Geräusch als auch den Sprecher angepasst ist.
  • Im nächsten Schritt S106 generiert der Modellerneuerungsabschnitt 6 das an Geräusch und Sprecher angepasste Erneuerungsdifferenzmodell D'', indem das geräusch- und sprecheradaptive Akustikmodell R, das geräuschadaptive repräsentative Akustikmodell CN und das noch nicht erneuerte Differenzmodell D verwendet werden.
  • Im nächsten Schritt S108 erneuert der Modellerneuerungsabschnitt 6 das Differenzmodell D (vor der Erneuerung) im Differenzmodellspeicherabschnitt 1b mit dem Erneuerungsdifferenzmodell D'', so dass die Erneuerungsverarbeitung abgeschlossen ist.
  • Wie vorstehend erwähnt, verwendet die Ausführungsform der vorliegenden Erfindung keine einzelne Geräusch- und Sprecheranpassung des akustischen Ausgangsmodells, sondern wendet lediglich die Geräuschanpassung des repräsentativen Akustikmodells C an, um das geräuschadaptive repräsentative Akustikmodell CN zu generieren. Dann werden die zusammengesetzten Akustikmodelle M, die durch die Zusammensetzung der geräuschadaptiven repräsentativen Akustikmodelle CN und der Differenzmodelle D generiert werden, in der Sprecheranpassung verwendet, so dass der Verarbeitungsaufwand zum Anpassen an Geräusch und Sprecher merklich reduziert werden kann.
  • Bei der Erneuerungsverarbeitung wird das Erneuerungsdifferenzmodell D'', nachdem es an Geräusch und Sprecher angepasst wurde, generiert, um in der Differenzmodellspeichereinheit 1b als Ersatz für das alte Differenzmodell abgespeichert zu werden. Dies bewirkt auch eine merkliche Reduktion des Verarbeitungsaufwands für die wie nachstehend beschriebene Spracherkennung, so dass eine schnelle Spracherkennung möglich wird.
  • Als Nächstes wird das Verhalten zum Erkennen von Sprache mit Bezug auf 7 erläutert.
  • In der Spracherkennungsvorrichtung läuft die Spracherkennungsverarbeitung an, wenn ein Befehl eines Sprechers eingeht. Im Schritt von Fig. S200 von 7 generiert der Generierungsabschnitt 3 für geräuschadaptive repräsentative Akustikmodelle das geräuschadaptive repräsentative Akustikmodell CN durch die Geräuschanpassung des repräsentativen Akustikmodells C.
  • Konkreter ausgedrückt generiert der Generierungsabschnitt 2 für Sprachäußerungsumgebungsgeräuschmodelle während eines äußerungsfreien Zeitraums (in dem der Sprecher noch nichts sagt) das Sprachäußerungsumgebungsgeräuschmodell N, indem die Merkmalsvektorreihe N(n)' des Hintergrundgeräuschs vom Sprachanalyseabschnitt 9 lernmäßig erfasst wird. Dann generiert der Generierungsabschnitt 3 für geräuschadaptive repräsentative Akustikmodelle das geräuschadaptive repräsentative Akustikmodell CN, indem das repräsentative Akustikmodell C an das Sprachäußerungsumgebungsgeräuschmodell N angepasst wird.
  • Im Schritt S202 generiert der Generierungsabschnitt 4 für zusammengesetzte Akustikmodelle das zusammengesetzte, an Geräusch und Sprecher angepasste Akustikmodell M'', indem das geräuschadaptive repräsentative Akustikmodell CN und das Erneuerungsdifferenzmodell D'' zusammengesetzt werden.
  • Dann vergleicht im Schritt S204 der Erkennungsverarbeitungsabschnitt 7 die Merkmalsvektorreihe V(n) der Sprachäußerung mit dem Wort- oder Satzmodell, das aus dem zusammengesetzten Akustikmodell M'' generiert wurde, um die Sprachäußerung zu erkennen.
  • Das heißt, wenn der Sprecher beginnt, Sprache zu äußern, ist der Schalter 10 mit dem Erkennungsverarbeitungsabschnitt 7 verbunden, und die Merkmalsvektorreihe V(n) der Hintergrundgeräusch enthaltenden Sprachäußerung, die aus dem Sprachanalyseabschnitt 9 ausgegeben wird, wird dem Erkennungsverarbeitungsabschnitt 7 zur Verfügung gestellt. Dann vergleicht der Erkennungsverarbeitungsabschnitt 7 die Merkmalsvektorreihe V(n) mit der Wort- oder Satzmodellreihe, die aus dem zusammengesetzten Akustikmodell M'' generiert wurde. Als Nächstes wird das Modell des zusammengesetzten Akustikmodells M'' mit der Höchstwahrscheinlichkeit, das dem Wort oder Satz entspricht, im Schritt S206 als Spracherkennungsergebnis ausgegeben.
  • Wie vorstehend erwähnt, setzt die Ausführungsform der vorliegenden Erfindung keine einzelne Geräusch- und Sprecheranpassung der sogenannten akustischen Ausgangsmodelle ein, sondern generiert die zusammengesetzten, an Geräusch und Sprecher angepassten Akustikmodelle M'', indem die geräuschadaptiven repräsentativen Akustikmodelle CN und die Erneuerungsdifferenzmodelle D'' zusammengesetzt werden. Im Ergebnis kann der Verarbeitungsaufwand zur Anpassung an Geräusch und Sprecher extrem reduziert werden.
  • Bei einer herkömmlichen Spracherkennung geht eine Sprecheranpassung mit einer Anpassung an das Sprachäußerungsumgebungsgeräusch einher, und somit bringt es ein nur an den Sprecher zu adaptierendes Akustikmodell unweigerlich mit sich, dass auch eine Anpassung an Umgebungsgeräusch stattfindet. Das heißt, ein Akustikmodell, das sowohl die Sprecher- als auch Geräuschanpassung insgesamt umfasst, wird mit einer Merkmalsvektorreihe V(n) geäußerter Sprache verglichen. Im Ergebnis wird eine Verbesserung einer Spracherkennungsrate behindert.
  • In der vorliegenden Ausführungsform generiert das sprecheradaptierte Akustikmodell das Erneuerungsdifferenzmodell D''. Da das zusammengesetzte Akustikmodell M'', das damit verglichen werden soll, aus dem Erneuerungsdifferenzmodell D'' generiert wird, kann die Auswirkung der Geräuschanpassung gesenkt werden. Somit lässt sich der synergetische Effekt der Geräusch- und Sprecheranpassung erlangen, um eine höhere Spracherkennungsrate zu erzielen.
  • (Zweite Ausführungsform)
  • Die zweite Ausführungsform der vorliegenden Erfindung wird nachstehend mit Bezug auf die 8 und 9 erläutert. 8 ist eine Zeichnung zur Veranschaulichung des Aufbaus der Spracherkennungsvorrichtung der vorliegenden Ausführungsform. 8 weist im Hinblick auf die Teile mit derselben Funktion dieselben Bezugszahlen und -zeichen auf wie 1.
  • Der Unterschied zwischen der Spracherkennungsvorrichtung der zweiten Ausführungsform und derjenigen der ersten Ausführungsform ist wie folgt. In der Spracherkennungsvorrichtung der ersten Ausführungsform findet die Spracherkennung nach der Generierung des an Geräusch und Sprecher angepassten Erneuerungsdifferenzmodells D'' statt, wie mit Bezug auf die Ablaufdiagramme der 6 und 7 erläutert wurde. Hingegen führt die Spracherkennungsvorrichtung der vorliegenden Erfindung die Spracherkennung und die Generierung des Erneuerungsdifferenzmodells D'' gleichzeitig durch die Erneuerungsverarbeitung des Erneuerungsmodellgenerierungsabschnitts 5 und des Modellerneuerungsabschnitts 6 durch.
  • Das Verhalten der Spracherkennungsvorrichtung wird mit Bezug auf das Ablaufdiagramm von 9 erläutert.
  • Wie in 9 gezeigt ist, generiert der Generierungsabschnitt 3 für geräuschadaptive repräsentative Akustikmodelle zuerst im Schritt S300, wenn die Spracherkennungsverarbeitung beginnt, das geräuschadaptive repräsentative Akustikmodell CN, indem das repräsentative Akustikmodell C an Geräusch angepasst wird.
  • Das heißt, der Sprachanalyseabschnitt 9 stellt die Merkmalsvektorreihe N(n)' des Hintergrundgeräuschs während eines äußerungsfreien Zeitraums dem Generierungsabschnitt 2 für Sprachäußerungsumgebungsgeräuschmodelle bereit, in dem die Sprachäußerungsumgebungsgeräuschmodelle N generiert werden, indem die Merkmalsvektorreihe N(n)' lernmäßig erfasst wird.
  • Dann generiert der Generierungsabschnitt 3 für geräuschadaptive repräsentative Akustikmodelle das geräuschadaptive repräsentative Akustikmodell CN, indem die Geräuschanpassung des repräsentativen Akustikmodells C auf das Sprachäußerungsumgebungsgeräuschmodell N angewendet wird.
  • Im nächsten Schritt S302 generiert der Generierungsabschnitt 4 für zusammengesetzte Akustikmodelle das zusammengesetzte Akustikmodell M, indem das geräuschadaptive repräsentative Akustikmodell CN und das noch nicht erneuerte Differenzmodell D zusammengesetzt werden.
  • Dann vergleicht im Schritt S304 der Erkennungsverarbeitungsabschnitt 7 die Merkmalsvektorreihe V(n) der Sprachäußerung mit dem Wort- oder Satzmodell, das aus dem zusammengesetzten Akustikmodell generiert wurde, um die Sprachäußerung zu erkennen.
  • Das heißt, wenn der Sprecher beginnt, Sprache zu äußern, ist der Schalter 10 mit dem Erkennungsverarbeitungsabschnitt 7 verbunden, und die Merkmalsvektorreihe V(n) der Sprachäußerung, die im Sprachanalyseabschnitt 9 generiert wurde, wird dem Erkennungsverarbeitungsabschnitt 7 zur Verfügung gestellt. Der Erkennungsverarbeitungsabschnitt 7 vergleicht die Merkmalsvektorreihe V(n) mit der Modellreihe, wie einem Wort oder Satz, die aus dem zusammengesetzten Akustikmodell M'' generiert wurde, um das Modell des zusammengesetzten Akustikmodells M'' mit der Höchstwahrscheinlichkeit als Spracherkennungsergebnis RCG auszugeben.
  • Im Schritt S306 werden auch die Wahrscheinlichkeitswerte der höherrangigeren Kandidaten als Erkennungsergebnis ausgegeben, wodurch, indem sie mit einem vorbestimmten Standardwert verglichen werden, die Zuverlässigkeit des Erkennungsergebnisses bestimmt wird.
  • Im nächsten Schritt S308 wird bestimmt, ob das Erkennungsergebnis richtig oder falsch ist. Ist es richtig, geht der Verarbeitungsschritt zum Schritt S310 über, ist es falsch, springt der Verarbeitungsschritt zum Ende. Es wurden etliche Verfahren zum Bestimmen der Erkennungsergebniszuverlässigkeit entwickelt, deren Erläuterung hier aber unterbleibt.
  • In den Schritten S310 und S312 führt der Erneuerungsmodellgenerierungsabschnitt 5 die Sprecheranpassung unter Verwendung des zusammengesetzten Akustikmodells M, der Sprachäußerungsmerkmalsvektorreihe V(n) und des Erkennungsergebnisses RCG durch. Dann generiert der Modellerneuerungsabschnitt 6 das Erneuerungsdifferenzmodell D'' und erneuert das noch nicht erneuerte Differenzmodell D.
  • Das heißt, im Schritt S310 bestimmt der Erneuerungsmodellgenerierungsabschnitt 5 die Erkennungsmodellreihe unter Verwendung der Erkennungsergebnisse RCG, um die Sprecheranpassung des zusammengesetzten Akustikmodells M unter Verwendung der Merkmalsvektorreihe V(n) durchzuführen.
  • Wenn beispielsweise ein Sprecher "Tokio" sagt, und das Erkennungsergebnis des Wortes "Tokio" aus dem Erkennungsverarbeitungsabschnitt 7 ausgegeben wird, führt der Erneuerungsmodellabschnitt 5 die Sprecheranpassung des zusammengesetzten Akustikmodells M des Wortes "Tokio" unter Verwendung der Merkmalsvektorreihe V(n) des geäußerten Worts "Tokio" durch, so dass das geräusch- und sprecheradaptive Akustikmodell R, das an Geräusch und Sprecher angepasst ist, generiert werden kann.
  • Darüber hinaus generiert der Modellerneuerungsabschnitt D'' entsprechend dem Erkennungsergebnis RCG unter Verwendung des geräusch- und sprecheradaptiven Akustikmodells R das geräuschadaptive repräsentative Akustikmodell CN und das noch nicht erneuerte Differenzmodell D.
  • Im Schritt S312 ersetzt der Modellerneuerungsabschnitt 6 das Differenzmodell (vor der Erneuerung) D, das dem Erkennungsergebnis RCG entspricht, durch das Erneuerungsdifferenzmodell D''.
  • Ist das Erkennungsergebnis RCG das wie zuvor erwähnte Wort "Tokio", wird das noch nicht erneuerte Differenzmodell D des Wortes "Tokio" durch das Erneuerungsdifferenzmodell D'' erneuert.
  • Die wie vorstehend beschriebene Spracherkennungsvorrichtung der vorliegenden Ausführungsform führt die Spracherkennung unter Verwendung des repräsentativen Akustikmodells C und des Differenzmodells D durch, die vorab in der Speichereinheit 1a für repräsentative Akustikmodelle bzw. der Differenzmodellspeichereinheit 1b abgespeichert wurden, und kann gleichzeitig das an Geräusch und Sprecher angepasste Erneuerungsdifferenzmodell D'' generieren.
  • Das noch nicht erneuerte Differenzmodell D wird durch das sprecheradaptive Erneuerungsdifferenzmodell stufenweise mit immer mehr Genauigkeit erneuert, wenn die Spracherkennungsanzahl zunimmt. Somit wird das zusammengesetzte Akustikmodell M, das im Schritt S302 von 9 generiert wurde, nach und nach mit der Anpassung an Geräusch und Sprecher zum zusammengesetzten Akustikmodell.
  • Die ausgezeichnete Wirkung zur Verbesserung der Erkennungsrate wird mit zunehmender Anzahl der Benutzung dieser Spracherkennungsvorrichtung erzielt, weil der Erkennungsverarbeitungsabschnitt 7 die Spracherkennung durchführt, indem das zusammengesetzte sprecherangepasste Akustikmodell M'' mit der Merkmalsvektorreihe V(n) aus der Sprachäußerung verglichen wird.
  • In der ersten und zweiten Ausführungsform der vorliegenden Erfindung kann die Gruppeninformation jedes Mal erneuert werden, wenn das Differenzmodell D durch das Erneuerungsdifferenzmodell D'' erneuert wird.
  • Das heißt, in der ersten Ausführungsform können nach dem Abschluss der Verarbeitung im Schritt S108 von 6 sowohl die Gruppeninformation als auch das Erneuerungsdifferenzmodell erneuert werden, um das Akustikmodell auf Grundlage der Ähnlichkeit zwischen dem zusammengesetzten Model S'', das sich aus dem repräsentativen Akustikmodell C und dem Erneuerungsdifferenzmodell D'' zusammensetzt, und dem repräsentativen Akustikmodell C, zu der Gruppe gehören zu lassen, zu der das ähnlichste Akustikmodell gehört.
  • Das Erneuerungsdifferenzmodell dX,y'' wird wie zuvor erwähnt in der Form dm i,j,k'' für die HMM-Zahl i, die Statuszahl j und die Mischungszahl k abgespeichert.
  • Die Gruppierung, zu der dm i,j,k'' gehört, wird wie zuvor erwähnt als Gruppeninformation Bm i,j,k abgespeichert. Es sei zum Beispiel angenommen, dass die Gruppierung, zu der dm i,j,k'' gehört, β ist, d.h. Bm i,j,k = β ist, dann ist das repräsentative Akustikmodell der Gruppierung, zu der dm i,j,k'' gehört, Cβ. Deshalb wird das zusammengesetzte Modell Sm i,j,k'' aus der Zusammensetzung von dm i,j,k'' und Cβ erhalten.
  • Es sei angenommen, dass das ähnlichste repräsentative Akustikmodell als Ergebnis des Vergleichs auf Grundlage der Ähnlichkeit zwischen Sm i,j,k'' und allen repräsentativen Akustikmodellen nicht Cβ, sondern Cγ ist. In diesem Fall wird das Erneuerungsdifferenzmodell durch dm i,j,k'' = Sm i,j,k'' – Cγ ersetzt.
  • Die Gruppierungsinformation wird auch durch Bm i,j,k = γ ersetzt.
  • Die erneuerte Differenz- und Gruppeninformation wird in der Speichereinheit 1c abgespeichert.
  • Durch das Gruppieren oder Bündeln des zusammengesetzten Modells S'' können auch die Gruppeninformation B, das repräsentative Akustikmodell C und das Erneuerungsdifferenzmodell D'' erneuert werden. Allerdings benötigt der Gruppierungsvorgang gewaltige Rechenvorgänge und ist nicht effizient.
  • Im Falle der Verwendung der Jacobi-Anpassung als geräuschadaptives Verfahren benötigt die Erneuerung des repräsentativen Akustikmodells C noch gewaltigere Rechenvorgänge, um die zusammengesetzten Ausgangsmodelle herzustellen.
  • Es ist wirkungsvoll, nur das Differenzmodell und die Gruppeninformation zu erneuern, um die vorstehend erwähnte Wirkung durch einen geringen Rechenaufwand zu erzielen.
  • In der zweiten Ausführungsform können nach dem Abschluss der Verarbeitung im Schritt S310 von 9 sowohl die Gruppeninformation als auch das Erneuerungsdifferenzmodell erneuert werden, um das Akustikmodell auf Grundlage der Ähnlichkeit zwischen dem zusammengesetzten Model S'', das sich aus dem repräsentativen Akustikmodell C und dem Erneuerungsdifferenzmodell D'' zusammensetzt, und dem repräsentativen Akustikmodell C, zu der Gruppe gehören zu lassen, zu der das ähnlichste Akustikmodell gehört.
  • Das Erneuerungsdifferenzmodell dX,y'' wird wie zuvor erwähnt in der Form dm i,j,k'' für die HMM-Zahl i, die Statuszahl j und die Mischungszahl k abgespeichert.
  • Die Gruppierung, zu der dm i,j,k'' gehört, wird wie zuvor erwähnt als Gruppeninformation Bm i,j,k abgespeichert. Es sei zum Beispiel angenommen, dass die Gruppierung, zu der dm i,j,k'' gehört, β ist, d.h. Bm i,j,k = β ist, dann ist das repräsentative Akustikmodell der Gruppierung, zu der dm i,j,k'' gehört, Cβ. Deshalb wird das zusammengesetzte Modell Sm i,j,k'' aus der Zusammensetzung von dm i,j,k'' und Cβ erhalten.
  • Es sei angenommen, dass das ähnlichste repräsentative Akustikmodell als Ergebnis des Vergleichs auf Grundlage der Ähnlichkeit zwischen Sm i,j,k'' und allen repräsentativen Akustikmodellen nicht Cβ, sondern Cγ ist. In diesem Fall wird das Erneuerungsdifferenzmodell durch dm i,j,k'' = Sm i,j,k'' – Cγ ersetzt.
  • Die Gruppierungsinformation wird auch durch Bm i,j,k = γ ersetzt.
  • Die erneuerte Differenz- und Gruppeninformation wird in der Speichereinheit 1c abgespeichert.
  • Durch das Gruppieren oder Bündeln des zusammengesetzten Modells S'' können auch die Gruppeninformation B, das repräsentative Akustikmodell C und das Erneuerungsdifferenzmodell D'' erneuert werden. Allerdings benötigt der Bündelungsvorgang gewaltige Rechenvorgänge und ist nicht effizient.
  • Im Falle der Verwendung der Jacobi-Anpassung als geräuschadaptives Verfahren benötigt die Erneuerung des repräsentativen Akustikmodells C noch gewaltigere Rechenvorgänge, um die zusammengesetzten Ausgangsmodelle herzustellen.
  • Es ist wirkungsvoll, nur das Differenzmodell und die Gruppeninformation zu erneuern, um die vorstehend erwähnte Wirkung durch einen geringen Rechenaufwand zu erzielen.
  • Wie vorstehend erwähnt, ermöglichen die erste und zweite Ausführungsform, dass die Spracherkennungsrate zusätzlich zur Senkung des Verarbeitungsaufwands zur Erkennung verbessert werden kann.
  • Anders ausgedrückt generieren die Spracherkennungsvorrichtung und das Spracherkennungsverfahren der ersten Ausführungsform die Erneuerungsdifferenzmodelle, die in der Speichereinheit 1 abzuspeichern sind, bevor die Spracherkennung unter Verwendung des Erneuerungsdifferenzmodells durchgeführt wird. Das heißt, eine große Anzahl von Akustikmodellen wird auf Grundlage der Ähnlichkeit in Gruppen oder Gruppierungen aufgeteilt, um die Gruppeninformation, das repräsentative Akustikmodell und das Differenzmodell jeder Gruppe oder Gruppierung zu erhalten. Diese Modelle oder Daten werden für jede gleiche Gruppe im Speicherabschnitt 1 abgespeichert.
  • Vor der Verarbeitung der echten Spracherkennung werden die Erneuerungsdifferenzmodelle generiert, bei denen die Anpassung an Geräusch und Sprecher erfolgt, um die bereits im Speicherabschnitt 1 abgespeicherten Differenzmodelle zu erneuern.
  • Wenn das Differenzmodell im Speicherabschnitt 1 durch das Erneuerungsdifferenzmodell ersetzt wird, wird zuerst das geräuschadaptive repräsentative Akustikmodell jeder gleichen Gruppe generiert, indem die Geräuschanpassung an die repräsentativen Akustikmodelle jeder gleichen Gruppe durchgeführt wird, die im Speicherabschnitt 1 abgespeichert ist.
  • Als Nächstes wird jedes der an Geräusch angepassten zusammengesetzten Akustikmodelle dadurch generiert, dass jedes geräuschadaptive repräsentative Akustikmodell und jedes Differenzmodell der gleichen Gruppe zusammengesetzt wird.
  • Darüber hinaus wird das geräusch- und sprecheradaptive Akustikmodell durch Sprecheranpassung des geräuschadaptiven zusammengesetzten Akustikmodells an die Merkmalsvektorreihe aus der Sprachäußerung generiert.
  • Dann wird das im Speicherabschnitt 1 abgespeicherte Differenzmodell durch das Erneuerungsdifferenzmodelle ersetzt, das aus der Differenz zwischen dem geräusch- und sprecheradaptiven Akustikmodell und dem geräuschadaptiven repräsentativen Akustikmodell generiert wird.
  • Wenn in der ersten Ausführungsform während eines äußerungsfreien Zeitraums die Spracherkennung durchgeführt wird, generiert zuerst die Anpassung des repräsentativen Akustikmodells an Umgebungsgeräusch das geräuschadaptive repräsentative Akustikmodell. Dann wird das an Geräusch und Sprecher angepasste zusammengesetzte Akustikmodell generiert, indem das geräuschadaptive repräsentative Akustikmodell und das erneuerte Erneuerungsdifferenzmodell zusammengesetzt werden. Schließlich erfolgt die Spracherkennung, indem das zusammengesetzte, an Geräusch und Sprecher angepasste Akustikmodell mit der aus der Sprachäußerung extrahierten Merkmalsvektorreihe verglichen wird.
  • Wie vorstehend erwähnt, verwendet die vorliegenden Ausführungsform das repräsentative Akustikmodell, das Differenzmodell und das Erneuerungsdifferenzmodell, das durch Anpassen des Differenzmodells an Geräusch und Sprecher generiert wurde. Dann wird das zusammengesetzte Akustikmodell, das zum Vergleich mit der im Spracherkennungsbetrieb aus der Sprachäußerung extrahierten Merkmalsvektorreihe benötigt wird, generiert, indem das geräuschadaptive repräsentative Akustikmodell und das Erneuerungsdifferenzmodell zusammengesetzt werden. Dies ermöglicht es, dass die Generierung des zusammengesetzten Akustikmodells mit geringerem Verarbeitungsaufwand durchgeführt werden kann.
  • Konkreter ausgedrückt wird nicht eine Geräusch- und Sprecheranpassungsverarbeitung für alle Modelle aus einer großen Anzahl von Akustikmodellen, die zur Spracherkennung nötig sind, durchgeführt, sondern nur für das repräsentative Akustikmodell jeder Gruppe und sein Differenzmodell. Das zusammengesetzte Akustikmodell, das mit der aus der Sprachäußerung extrahierten Merkmalsvektorreihe abgeglichen werden soll, kann dadurch generiert werden, dass das repräsentative Akustikmodell und das Differenzmodell einhergehend mit der Geräusch- und Sprecheranpassung zusammengesetzt werden, wodurch eine gewaltige Abnahme bei der Verarbeitungsmenge realisiert wird.
  • Die erste Ausführungsform lässt sich wie folgt abwandeln. Nach der Generierung des geräusch- und sprecheradaptiven Modells kann die Gruppe, zu der das geräusch- und sprecheradaptiven Modell gehört, auf Grundlage der Ähnlichkeit zum geräuschadaptiven repräsentativen Akustikmodell gewechselt werden. Die Gruppeninformation kann auch so erneuert werden, dass sie dem Wechsel der Gruppe entspricht, und das Erneuerungsdifferenzmodell kann durch den Unterschied zwischen dem geräusch- und sprecheradaptiven Modell und dem geräuschadaptiven repräsentativen Akustikmodell der gewechselten Gruppe generiert werden. In diesem Falle erfolgt die Spracherkennung, indem das zusammengesetzte Akustikmodell verwendet wird, das durch die Zusammensetzung des erneuerten Differenzmodells und des geräuschadaptiven repräsentativen Akustikmodells generiert wurde, das durch die Geräuschanpassung des mit der erneuerten Gruppeninformation ausgewählten repräsentativen Akustikmodells generiert wurde. Diese Erneuerungen sowohl der Gruppeninformation als auch des Differenzmodells ermöglichen es, dass die Spracherkennungsrate verbessert werden kann.
  • Nach der Spracherkennungsvorrichtung und dem Spracherkennungsverfahren der zweiten Ausführungsform wird eine große Anzahl von Akustikmodellen auf Grundlage der Ähnlichkeit in Gruppen oder Gruppierungen aufgeteilt, um die Gruppeninformation, das repräsentative Akustikmodell und das Differenzmodell jeder Gruppe oder Gruppierung zu erhalten. Diese Modelle werden entsprechend der gleichen Gruppe im Speicherabschnitt 1 abgespeichert. Die vorliegende Ausführungsform generiert das an Geräusch und Sprecher angepasste Erneuerungsdifferenzmodell bei jeder Spracherkennung während der Spracherkennungsverarbeitung und ersetzt das Differenzmodell im Speicherabschnitt 1 durch das Erneuerungsdifferenzmodell.
  • Die Spracherkennung erfolgt dadurch, dass die aus der Sprachäußerung extrahierte Merkmalsvektorreihe mit dem zusammengesetzten Akustikmodell verglichen wird, das generiert wird, indem das geräuschadaptive repräsentative Akustikmodell und das Erneuerungsdifferenzmodell zusammengesetzt werden, wodurch der Effekt der Sprecheranpassung durch das Erneuern des abgespeicherten Differenzmodells mit dem Erneuerungsdifferenzmodell bei jeder Wiederholung der Spracherkennung verbessert wird.
  • Wenn das Differenzmodell im Speicherabschnitt 1 durch das Erneuerungsdifferenzmodell ersetzt wird, wird zuerst jedes der geräuschadaptiven repräsentativen Akustikmodelle durch Geräuschanpassung jedes der repräsentativen Akustikmodelle generiert, die im Speicherabschnitt 1 abgespeichert sind.
  • Als Nächstes wird das an Geräusch angepasste zusammengesetzte Akustikmodell generiert, indem das geräuschadaptive repräsentative Akustikmodell und das Differenzmodell jeder Gruppe zusammengesetzt werden.
  • Darüber hinaus wird das geräusch- und sprecheradaptive Akustikmodell generiert, indem die Sprecheranpassung an das geräuschadaptive zusammengesetzte Akustikmodell mit der aus der Sprachäußerung extrahierten Merkmalsvektorreihe durchgeführt wird.
  • Dann wird das Differenzmodell im Speicherabschnitt 1 durch das Erneuerungsdifferenzmodell ersetzt, das aus der Differenz zwischen dem geräusch- und sprecheradaptiven Akustikmodell und dem geräuschadaptiven repräsentativen Akustikmodell generiert wird.
  • Das alte Erneuerungsdifferenzmodell, das im Speicherabschnitt 1 abgespeichert ist, wird bei jeder Wiederholung der Spracherkennung durch das neueste Erneuerungsdifferenzmodell ersetzt.
  • Bei der Spracherkennung generiert während eines äußerungsfreien Zeitraums die Anpassung des repräsentativen Akustikmodells an Umgebungsgeräusch das geräuschadaptive repräsentative Akustikmodell. Dann wird das an Geräusch und Sprecher angepasste zusammengesetzte Akustikmodell generiert, indem das geräuschadaptive repräsentative Akustikmodell und das erneuerte Erneuerungsdifferenzmodell zusammengesetzt werden. Schließlich erfolgt die Spracherkennung, indem das zusammengesetzte, an Geräusch und Sprecher angepasste Akustikmodell mit der aus der Sprachäußerung extrahierten Merkmalsvektorreihe verglichen wird.
  • Wie vorstehend erwähnt verwendet die vorliegenden Ausführungsform das repräsentative Akustikmodell, das Differenzmodell und das Erneuerungsdifferenzmodell, das durch Anpassen des Differenzmodells an Geräusch und Sprecher generiert wird. Dann wird das zusammengesetzte Akustikmodell generiert, das bei der Spracherkennungsbetrieb benötigt wird, indem das geräuschadaptive repräsentative Akustikmodell und das Erneuerungsdifferenzmodell, wie bei jeder Spracherkennung durchgeführt wird, zusammengesetzt werden. Dies ermöglicht es, dass die Generierung des zusammengesetzten Akustikmodells mit geringerem Verarbeitungsaufwand durchgeführt werden kann.
  • Die zweite Ausführungsform lässt sich auch wie folgt abwandeln. Nach der Generierung des geräusch- und sprecheradaptiven Modells kann die Gruppe, zu der das geräusch- und sprecheradaptiven Modell gehört, auf Grundlage der Ähnlichkeit zum geräuschadaptiven repräsentativen Akustikmodell gewechselt werden. Die Gruppeninformation kann auch so erneuert werden, dass sie dem Wechsel der Gruppe entspricht, und das Erneuerungsdifferenzmodell kann durch den Unterschied zwischen dem geräusch- und sprecheradaptiven Modell und dem geräuschadaptiven repräsentativen Akustikmodell der gewechselten Gruppe generiert werden. In diesem Falle erfolgt die Spracherkennung, indem das zusammengesetzte Akustikmodell verwendet wird, das durch die Zusammensetzung der erneuerten Differenzmodells und des geräuschadaptiven repräsentativen Akustikmodells generiert wurde, das durch die Geräuschanpassung des mit der erneuerten Gruppeninformation ausgewählten repräsentativen Akustikmodells generiert wurde. Diese Erneuerungen sowohl der Gruppeninformation als auch des Differenzmodells ermöglichen es, dass die Spracherkennungsrate verbessert werden kann.
  • Nach der ersten und zweiten Ausführungsform wird eine merkliche Abnahme beim Verarbeitungsaufwand zum Generieren des zusammengesetzten Akustikmodells wie auch eine Verbesserung bei der Verarbeitungsgeschwindigkeit und der Erkennungsrate erzielt, weil das geräusch- und sprecheradaptive zusammengesetzte Akustikmodell, das mit der Merkmalsvektorreihe der Sprachäußerung verglichen werden soll, durch die Zusammensetzung des geräuschadaptiven repräsentativen Akustikmodells und des Erneuerungsdifferenzmodells generiert wird, bei der die Sprecheranpassung an das Differenzmodell unter Verwendung des geräuschadaptiven repräsentativen Akustikmodells, des Differenzmodells und der Sprachäußerung erfolgt.
  • BEZUGZEICHENLISTE
    Figure 00400001

Claims (6)

  1. Spracherkennungsvorrichtung zur Spracherkennung durch Vergleichen zusammengesetzter Akustikmodelle, die an Geräusch und Sprecher mit einer Merkmalsvektorreihe, die aus einer Sprachäußerung extrahiert wurde, adaptiert sind, umfassend: einen Speicherabschnitt (1), um vorab jedes repräsentative Akustikmodell abzuspeichern; das als ein repräsentatives Modell für Akustikmodelle ausgewählt wurde, das zu einer von Gruppen gehört, wobei jede der Gruppen zuvor gebildet wird, indem eine große Anzahl von Akustikmodellen auf Basis von Ähnlichkeit, Differenzmodellen jeder Gruppe, die aus der Differenz zwischen den Akustikmodellen, die zu einer der Gruppen gehören, und dem repräsentativen Akustikmodell der gleichen Gruppe ermittelt wird, und Gruppeninformation klassifiziert wird, um die repräsentativen Akustikmodelle den Differenzmodellen jeder gleichen Gruppe zuzuordnen, einen Generierungsabschnitt (3), um jedes geräuschadaptive repräsentative Akustikmodell jeder Gruppe durch Geräuschadaption zu generieren, die am repräsentativen Akustikmodell jeder im Speicherabschnitt (1) gespeicherten Gruppe durchgeführt wird; einen Generierungsabschnitt (4), um jedes zusammengesetzte Akustikmodell jeder Gruppe zu generieren, indem das Differenzmodell und das geräuschadaptive repräsentative Akustikmodell unter Verwendung der Gruppeninformation zusammengesetzt werden; einen Erneuerungsmodellgenerierungsabschnitt (5), um geräusch- und sprecheradaptive Akustikmodelle zu generieren, indem eine Sprecheradaption des zusammengesetzten Akustikmodells jeder gleichen Gruppe unter Verwendung der Merkmalsvektorreihe durchgeführt wird, die aus der Sprachäußerung erhalten wurde; und einen Modellerneuerungsabschnitt (6), um die Differenzmodelle jeder Gruppe durch Erneuerungsdifferenzmodelle zu ersetzen, die dadurch generiert werden, dass Differenzen zwischen den geräusch- und sprecheradaptiven Akustikmodellen und den geräuschadaptiven repräsentativen Akustikmodellen erfasst werden, die über die Gruppeninformation ausgewählt wurden; wobei eine Spracherkennung durchgeführt wird, indem die aus der zu erkennenden Sprachäußerung extrahierte Merkmalsvektorreihe mit dem an Geräusch und Sprecher adaptierten zusammengesetzten Akustikmodell verglichen wird, und wobei das an Geräusch und Sprecher adaptierte zusammengesetzte Akustikmodell dadurch generiert wird, dass das Erneuerungsdifferenzmodell und das geräuschadaptive repräsentative Akustikmodell zusammengesetzt werden, das durch eine Geräuschadaption des repräsentativen Akustikmodells der Gruppe generiert wurde, die das über die Gruppeninformation ausgewählte Erneuerungsdifferenzmodell enthält.
  2. Spracherkennungsvorrichtung zur Spracherkennung durch Vergleichen zusammengesetzter Akustikmodelle, die an Geräusch und Sprecher mit einer Merkmalsvektorreihe, die aus einer Sprachäußerung extrahiert wurde, adaptiert sind, umfassend: einen Speicherabschnitt (1), um vorab jedes repräsentative Akustikmodell abzuspeichern, das als ein repräsentatives Modell für Akustikmodelle ausgewählt wurde, das zu einer von Gruppen gehört, wobei jede der Gruppen zuvor gebildet wird, indem eine große Anzahl von Akustikmodellen auf Basis von Ähnlichkeit, Differenzmodellen jeder Gruppe, die aus der Differenz zwischen den Akustikmodellen, die zu einer der Gruppen gehören, und dem repräsentativen Akustikmodell der gleichen Gruppe ermittelt wird, und Gruppeninformation klassifiziert wird, um die repräsentativen Akustikmodelle den Differenzmodellen jeder gleichen Gruppe zuzuordnen, einen Generierungsabschnitt (3), um jedes geräuschadaptive repräsentative Akustikmodell jeder Gruppe durch Geräuschadaption zu generieren, die am repräsentativen Akustikmodell jeder im Speicherabschnitt (1) gespeicherten Gruppe durchgeführt wird; einen Generierungsabschnitt (4), um jedes zusammengesetzte Akustikmodell jeder Gruppe zu generieren, indem das Differenzmodell und das geräuschadaptive repräsentative Akustikmodell unter Verwendung der Gruppeninformation zusammengesetzt werden; einen Erkennungsverarbeitungsabschnitt (7), um Sprache zu erkennen, indem das zusammengesetzte Akustikmodell, das im Generiexungsabschnitt für zusammengesetzte Akustikmodelle generiert wurde, mit der Merkmalsvektorreihe verglichen wird, die aus der zu erkennenden Sprachäußerung extrahiert wurde; einen Erneuerungsmodellgenerierungsabschnitt (5), um geräusch- und sprecheradaptive Akustikmodelle zu generieren, indem eine Sprecheradaption des zusammengesetzten Akustikmodells jeder gleichen Gruppe unter Verwendung der Merkmalsvektorreihe durchgeführt wird, die aus der Sprachäußerung erhalten wurde; und einen Modellerneuerungsabschnitt (6), um die Differenzmodelle jeder Gruppe durch Erneuerungsdifferenzmodelle zu ersetzen, die dadurch generiert werden, dass Differenzen zwischen den geräusch- und sprecheradaptiven Akustikmodellen und den geräuschadaptiven repräsentativen Akustikmodellen erfasst werden, die über die Gruppeninformation ausgewählt wurden; wobei der Erkennungsverarbeitungsabschnitt eine Spracherkennung durchführt, indem die Merkmalsvektorreihe, die aus der zu erkennenden Sprachäußerung extrahiert wurde, mit dem an Geräusch und Sprecher adaptierten zusammengesetzten Akustikmodell verglichen wird, das dadurch generiert wurde, dass das geräuschadaptive repräsentative Akustikmodell, das durch Geräuschadaption des repräsentativen Akustikmodells jeder Gruppe generiert wurde, die das mit der Gruppeninformation ausgewählte Erneuerungsdifferenzmodell und das durch den Erneuerungsmodellgenerierungsabschnitt und den Modellerneuerungsabschnitt erneuerte Erneuerungsdifferenzmodell enthält, bei jeder Wiederholung der Spracherkennung zusammengesetzt wird.
  3. Spracherkennungsvorrichtung nach Anspruch 1 oder 2, wobei sich der Modellerneuerungsabschnitt (6) wiederholt, um die Gruppe, die das geräusch- und sprecheradaptive Akustikmodell der Gruppeninformation enthält, auf Basis einer Ähnlichkeit zwischen dem geräusch- und sprecheradaptiven Akustikmodell und dem geräuschadaptiven repräsentativen Akustikmodell bei jeder Generierung des Erneuerungsdifferenzmodells zu verändern, und das im Speicherabschnitt (1) gespeicherte Differenzmodell mit der Differenz zwischen dem geräusch- und sprecheradaptiven Akustikmodell und dem geräuschadaptiven repräsentativen Akustikmodell der Gruppe erneuert wird, die das geräusch- und sprecheradaptive Akustikmodell enthält, das auf Basis der erneuerten Gruppeninformation ausgewählt wurde.
  4. Spracherkennungsverfahren zur Spracherkennung durch Vergleichen eines Satzes zusammengesetzter Akustikmodelle, die an Geräusch und Sprecher mit einer Merkmalsvektorreihe, die aus einer Sprachäußerung extrahiert wurde, adaptiert sind, folgende Schritte umfassend: vorab Abspeichern in einem Speicherabschnitt (1) jedes repräsentativen Akustikmodells, das als ein repräsentatives Modell für Akustikmodelle ausgewählt wurde, das zu einer von Gruppen gehört, wobei jede der Gruppen zuvor gebildet wird, indem eine große Anzahl von Akustikmodellen auf Basis von Ähnlichkeit, Differenzmodellen jeder Gruppe, die aus der Differenz zwischen den Akustikmodellen, die zu einer der Gruppen gehören, und dem repräsentativen Akustikmodell der gleichen Gruppe ermittelt wird, und Gruppeninformation klassifiziert wird, um die repräsentativen Akustikmodelle den Differenzmodellen jeder gleichen Gruppe zuzuordnen; Generieren jedes geräuschadaptiven Akustikmodells jeder Gruppe durch Geräuschadaption, die am repräsentativen Akustikmodell jeder im Speicherabschnitt (1) gespeicherten Gruppe durchgeführt wurde; Generieren jedes zusammengesetzten Akustikmodells jeder Gruppe, indem das Differenzmodell und das geräuschadaptive repräsentative Akustikmodell unter Verwendung der Gruppeninformation zusammengesetzt werden; Generieren von geräusch- und sprecheradaptiven Akustikmodellen, indem eine Sprecheradaption des zusammengesetzten Akustikmodells jeder gleichen Gruppe unter Verwendung der aus der Sprachäußerung erhaltenen Merkmalsvektorreihe durchgeführt wird; und Ersetzen der gespeicherten Differenzmodelle jeder Gruppe durch Erneuerungsdifferenzmodelle, die dadurch generiert werden, dass Differenzen zwischen den geräusch- und sprecheradaptiven Akustikmodellen und den geräuschadaptiven repräsentativen Akustikmodellen erfasst werden, die über die Gruppeninformation ausgewählt wurden; wobei eine Spracherkennung durchgeführt wird, indem die aus der zu erkennenden Sprachäußerung extrahierte Merkmalsvektorreihe mit dem an Geräusch und Sprecher adaptierten zusammengesetzten Akustikmodell verglichen wird, und wobei das an Geräusch und Sprecher adaptierte zusammengesetzte Akustikmodell dadurch generiert wird, dass das Erneuerungsdifferenzmodell und das geräuschadaptive repräsentative Akustikmodell zusammengesetzt werden, das durch eine Geräuschadaption des repräsentativen Akustikmodells der Gruppe generiert wurde, die das über die Gruppeninformation ausgewählte Erneuerungsdifferenzmodell enthält.
  5. Spracherkennungsverfahren zur Spracherkennung durch Vergleichen eines Satzes zusammengesetzter Akustikmodelle, die an Geräusch und Sprecher mit einer Merkmalsvektorreihe, die aus einer Sprachäußerung extrahiert wurde, adaptiert sind, folgende Schritte umfassend: vorab Abspeichern in einem Speicherabschnitt (1) jedes repräsentativen Akustikmodells, das als ein repräsentatives Modell für Akustikmodelle ausgewählt wurde, das zu einer von Gruppen gehört, wobei jede der Gruppen zuvor gebildet wird, indem eine große Anzahl von Akustikmodellen auf Basis von Ähnlichkeit, Differenzmodellen jeder Gruppe, die aus der Differenz zwischen den Akustikmodellen, die zu einer der Gruppen gehören, und dem repräsentativen Akustikmodell der gleichen Gruppe ermittelt wird, und Gruppeninformation klassifiziert wird, um die repräsentativen Akustikmodelle den Differenzmodellen jeder gleichen Gruppe zuzuordnen; Generieren jedes geräuschadaptiven Akustikmodells jeder Gruppe durch Geräuschadaption, die am repräsentativen Akustikmodell jeder im Speicherabschnitt (1) gespeicherten Gruppe durchgeführt wurde; Generieren jedes zusammengesetzten Akustikmodells jeder Gruppe, indem das Differenzmodell und das geräuschadaptive repräsentative Akustikmodell unter Verwendung der Gruppeninformation zusammengesetzt werden; Spracherkennen durch Vergleichen der zusammengesetzten Akustikmodelle, die im Generierungsschritt für zusammengesetzte Akustikmodelle generiert wurden, mit der Merkmalsvektorreihe, die aus der zu erkennenden Sprachäußerung extrahiert wurde; Generieren von geräusch- und sprecheradaptiven Akustikmodellen, indem eine Sprecheradaption des zusammengesetzten Akustikmodells jeder gleichen Gruppe unter Verwendung der aus der Sprachäußerung erhaltenen Merkmalsvektorreihe durchgeführt wird; und Ersetzen der gespeicherten Differenzmodelle jeder Gruppe durch Erneuerungsdifferenzmodelle, die dadurch generiert werden, dass Differenzen zwischen den geräusch- und sprecheradaptiven Akustikmodellen und den geräuschadaptiven repräsentativen Akustikmodellen erfasst werden, die über die Gruppeninformation ausgewählt wurden; wobei der Erkennungsverarbeitungsschritt eine Spracherkennung durchführt, indem die Merkmalsvektorreihe, die aus der zu erkennenden Sprachäußerung extrahiert wurde, mit dem an Geräusch und Sprecher adaptierten zusammengesetzten Akustikmodell verglichen wird, das dadurch generiert wurde, dass das geräuschadaptive repräsentative Akustikmodell, das durch Geräuschadaption des repräsentativen Akustikmodells jeder Gruppe generiert wurde, die das mit der Gruppeninformation ausgewählte Erneuerungsdifferenzmodell und das durch den Erneuerungsmodellgenerierungsabschnitt und den Modellerneuerungsabschnitt erneuerte Erneuerungsdifferenzmodell enthält, bei jeder Wiederholung der Spracherkennung zusammengesetzt wird.
  6. Spracherkennungsverfahren nach Anspruch 4 oder 5, wobei sich der Differenzmodellersetzungsschritt wiederholt, um die Gruppe, die das geräusch- und sprecheradaptive Akustikmodell der Gruppeninformation enthält, auf Basis einer Ähnlichkeit zwischen dem geräusch- und sprecheradaptiven Akustikmodell und dem geräuschadaptiven repräsentativen Akustikmodell bei jeder Generierung des Erneuerungsdifferenzmodells zu verändern, und das im Speicherabschnitt gespeicherte Differenzmodell mit der Differenz zwischen dem geräusch- und sprecheradaptiven Akustikmodell und dem geräuschadaptiven repräsentativen Akustikmodell der Gruppe erneuert wird, die das geräusch- und sprecheradaptive Akustikmodell enthält, das auf Basis der erneuerten Gruppeninformation ausgewählt wurde.
DE60302407T 2002-09-18 2003-09-17 Umgebungs- und sprecheradaptierte Spracherkennung Withdrawn - After Issue DE60302407T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002271670 2002-09-18
JP2002271670A JP4109063B2 (ja) 2002-09-18 2002-09-18 音声認識装置及び音声認識方法

Publications (2)

Publication Number Publication Date
DE60302407D1 DE60302407D1 (de) 2005-12-29
DE60302407T2 true DE60302407T2 (de) 2006-07-27

Family

ID=31944556

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60302407T Withdrawn - After Issue DE60302407T2 (de) 2002-09-18 2003-09-17 Umgebungs- und sprecheradaptierte Spracherkennung

Country Status (5)

Country Link
US (1) US7257532B2 (de)
EP (1) EP1400952B1 (de)
JP (1) JP4109063B2 (de)
CN (1) CN1238833C (de)
DE (1) DE60302407T2 (de)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4033299B2 (ja) * 2003-03-12 2008-01-16 株式会社エヌ・ティ・ティ・ドコモ 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
WO2005098820A1 (ja) * 2004-03-31 2005-10-20 Pioneer Corporation 音声認識装置及び音声認識方法
JP4510517B2 (ja) * 2004-05-26 2010-07-28 日本電信電話株式会社 音響モデル雑音適応化方法およびこの方法を実施する装置
US7693713B2 (en) * 2005-06-17 2010-04-06 Microsoft Corporation Speech models generated using competitive training, asymmetric training, and data boosting
KR20080107376A (ko) * 2006-02-14 2008-12-10 인텔렉츄얼 벤처스 펀드 21 엘엘씨 화자 독립 음성 인식을 구비한 통신 장치
CN101390156B (zh) * 2006-02-27 2011-12-07 日本电气株式会社 标准模式适应装置、标准模式适应方法
US8315871B2 (en) * 2009-06-04 2012-11-20 Microsoft Corporation Hidden Markov model based text to speech systems employing rope-jumping algorithm
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
EP3091535B1 (de) 2009-12-23 2023-10-11 Google LLC Multimodale eingabe in eine elektronische vorrichtung
US8660842B2 (en) * 2010-03-09 2014-02-25 Honda Motor Co., Ltd. Enhancing speech recognition using visual information
US8265928B2 (en) * 2010-04-14 2012-09-11 Google Inc. Geotagged environmental audio for enhanced speech recognition accuracy
US8468012B2 (en) 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
JP5494468B2 (ja) 2010-12-27 2014-05-14 富士通株式会社 状態検出装置、状態検出方法および状態検出のためのプログラム
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US8972256B2 (en) * 2011-10-17 2015-03-03 Nuance Communications, Inc. System and method for dynamic noise adaptation for robust automatic speech recognition
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
US20130243077A1 (en) * 2012-03-13 2013-09-19 Canon Kabushiki Kaisha Method and apparatus for processing moving image information, and method and apparatus for identifying moving image pattern
US8374865B1 (en) 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US9406299B2 (en) * 2012-05-08 2016-08-02 Nuance Communications, Inc. Differential acoustic model representation and linear transform-based adaptation for efficient user profile update techniques in automatic speech recognition
US8805684B1 (en) * 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US8554559B1 (en) 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US9401140B1 (en) * 2012-08-22 2016-07-26 Amazon Technologies, Inc. Unsupervised acoustic model training
US20140074466A1 (en) 2012-09-10 2014-03-13 Google Inc. Answering questions using environmental context
US8484017B1 (en) 2012-09-10 2013-07-09 Google Inc. Identifying media content
US9123333B2 (en) 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
CN103971680B (zh) * 2013-01-24 2018-06-05 华为终端(东莞)有限公司 一种语音识别的方法、装置
CN103065631B (zh) * 2013-01-24 2015-07-29 华为终端有限公司 一种语音识别的方法、装置
US9734819B2 (en) 2013-02-21 2017-08-15 Google Technology Holdings LLC Recognizing accented speech
US20140270249A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression
US9237225B2 (en) 2013-03-12 2016-01-12 Google Technology Holdings LLC Apparatus with dynamic audio signal pre-conditioning and methods therefor
US20140278393A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
CN107564513B (zh) * 2016-06-30 2020-09-08 阿里巴巴集团控股有限公司 语音识别方法及装置
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
JP6703460B2 (ja) * 2016-08-25 2020-06-03 本田技研工業株式会社 音声処理装置、音声処理方法及び音声処理プログラム
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
CN108573696B (zh) * 2017-03-10 2021-03-30 北京搜狗科技发展有限公司 一种语音识别方法、装置及设备
KR20210053072A (ko) * 2019-11-01 2021-05-11 삼성전자주식회사 사용자 발화를 처리하는 전자 장치와 그 동작 방법
JP7509008B2 (ja) * 2020-11-17 2024-07-02 トヨタ自動車株式会社 情報処理システム、情報処理方法及びプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3001037B2 (ja) * 1995-12-13 2000-01-17 日本電気株式会社 音声認識装置
US6026359A (en) * 1996-09-20 2000-02-15 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on Taylor expansion
JPH10161692A (ja) * 1996-12-03 1998-06-19 Canon Inc 音声認識装置及び音声認識方法
DE19806941A1 (de) * 1998-02-19 1999-08-26 Univ Ilmenau Tech Verfahren zur Sprecheradaption von Merkmalsreferenzen
US6389393B1 (en) * 1998-04-28 2002-05-14 Texas Instruments Incorporated Method of adapting speech recognition models for speaker, microphone, and noisy environment
US6260014B1 (en) * 1998-09-14 2001-07-10 International Business Machines Corporation Specific task composite acoustic models
US7006972B2 (en) * 2002-03-20 2006-02-28 Microsoft Corporation Generating a task-adapted acoustic model from one or more different corpora

Also Published As

Publication number Publication date
CN1238833C (zh) 2006-01-25
JP2004109464A (ja) 2004-04-08
EP1400952A1 (de) 2004-03-24
JP4109063B2 (ja) 2008-06-25
US7257532B2 (en) 2007-08-14
DE60302407D1 (de) 2005-12-29
CN1492394A (zh) 2004-04-28
EP1400952B1 (de) 2005-11-23
US20040093210A1 (en) 2004-05-13

Similar Documents

Publication Publication Date Title
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69226796T2 (de) Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung
DE69807765T2 (de) Kombination von Frequenzverzerrung und spektraler Formung in einem HMM - basierten Spracherkenner
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE69823954T2 (de) Quellen-normalisierendes Training zur Sprachmodellierung
DE3783154T2 (de) Spracherkennungssystem.
DE102008017993B4 (de) Sprachsuchvorrichtung
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE69607913T2 (de) Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle
DE69613293T2 (de) Vorrichtung zur Musteranpassung für Sprach- oder Mustererkennung
DE3242866A1 (de) Verfahren und vorrichtung zum erzeugen von untereinheit-sprachmustern
EP1084490A1 (de) Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
DE69609531T2 (de) Sprachanpassungsgerät
DE10042943C2 (de) Zuordnen von Phonemen zu den sie erzeugenden Graphemen
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
EP0633559B1 (de) Verfahren und Vorrichtung zur Spracherkennung
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE10304460B3 (de) Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE102010040553A1 (de) Spracherkennungsverfahren
DE102004017486A1 (de) Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
8330 Complete renunciation