DE19806941A1

DE19806941A1 - Verfahren zur Sprecheradaption von Merkmalsreferenzen

Info

Publication number: DE19806941A1
Application number: DE1998106941
Authority: DE
Inventors: Werner Zuehlke
Original assignee: Technische Universitaet Ilmenau
Current assignee: Technische Universitaet Ilmenau
Priority date: 1998-02-19
Filing date: 1998-02-19
Publication date: 1999-08-26

Description

Die Erfindung betrifft ein Verfahren zur Sprecheradaption von Merkmalsreferenzen und kommt bei der Spracherkennung zur An wendung.

Die bekannten Verfahren zur Sprachverarbeitung segmentieren das Sprachsignal in Segmente und berechnen für diese Segmente verein barte Merkmale. Zur Erkennung eines gesprochenen Lautes oder Wortes werden die berechneten Merkmale der Segmente mit vorher trainierten Merkmalen verglichen.

Dabei ermittelte Abstandsmaße (Ähnlichkeitsmaße) sind die Grund lage für die nachfolgende Klassifizierung der Laute bzw. Worte. (Dellert, J.R., Proakis, J.G., Hansen, J.H.L. Diskrete-Time Pro cessing of Speech Signals. Macmillan Publishing Company, New York 1993, und Ruske, G.: Automatische Spracherkennung, Methoden der Klassifikation und Merkmalsextraktion, Oldenbourg-Verlag 1994.)

Bei der Klassifikation auftretende Erkennungsfehler sind neben Störungen insbesondere darauf zurückzuführen, daß die Laute von verschiedenen Sprechern unterschiedlich ausgesprochen werden. Damit haben die Laute ein unterschiedliches Spektrum und schließlich voneinander abweichende Merkmale. Diese Streuungen der Merkmale vermindern die Diskriminanz bei der Klassifikation. Zur Verbesserung der Erkennungsrate wurden Verfahren zur Spre cheradaption entwickelt und beschrieben (Yuncin, Zhao: "An Acoustic-Phonetic-Based Speaker Adaptation Technique for Improving Speaker-Independent Continuos Speech Recognition", IEEE Trans. on Speech and Audio Proc., Vol. 2, No. 3, july 1994). Bei diesen Verfahren werden vorhandene Merkmalsmuster in einer Adaptionsphase an den Sprecher adaptiert.

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzu geben, mit dem die Merkmalsreferenzen einer trainierten Sprach erkennungsanlage an den jeweiligen Sprecher angepaßt werden.

Die Aufgabe wird nach Anspruch 1 erfindungsgemäß dadurch gelöst, daß für die Dauer der Nutzung der Spracherkennung durch einen Sprecher die vorhandenen Referenzvektoren (Basisreferenzen), die zu den Zuständen bzw. Lauten gehören, durch Addition sprecher- und laut spezifischer Verschiebungsvektoren verschoben werden und die zugehörigen Streuungen durch sprecher- und lautspezifische Mul tiplikationen an den Sprecher angepaßt werden.

Gleichwertig sind Multiplikationen der Verschiebungsvektor komponenten und additive Korrekturen der Streuungen.

Die Anpassungen können bei mehrmodalen Dichtefunktionen eine oder mehrere Moden betreffen. Einige passende Referenzvektoren können auch unverändert bleiben (Addition eines Nullvektors).

Dieses Verfahren setzt voraus, daß es in der Spracherkennungs anlage eine Basisreferenz gibt und für den jeweiligen Sprecher spezifische vorher trainierte Verschiebungsvektoren und Faktoren zur Verfügung stehen.

Nach Anspruch 2 wird für einen Sprecher, der keine eigenen Anpassungsvektoren trainiert hat, ein günstiger Anpassungs vektorsatz (z. B. nach einer Sprechergruppenerkennung) aus einer vorhandenen Menge ausgewählt.

Nach Anspruch 3 ist vorgesehen, diese Verschiebungsvektoren in Sprecheradaptionsphasen in an sich bekannter Weise an die aktuelle Sprechweise und Übertragungsstrecke anzupassen.

Die Erfindung wird nachstehend an einem Ausführungsbeispiel erläutert.

Beim Training einer Spracherkennungsanlage werden aus normal gesprochenen Worten oder Texten typischer Sprecher für alle Worte bzw. Laute Basisreferenzen, in Form von Merkmalsvektoren mit den zugehörigen Streuungen ermittelt.

Für Sprecher, die die Anlage nutzen wollen, werden in einem gesonderten Training mit einer vereinbarten Wort folge die für diesen Sprecher typischen Merkmalsvektoren für alle Worte bzw. Laute ermittelt. Die Differenzen zwischen diesen Merkmalsvektoren und den Basisvektoren werden als Verschiebungsvektoren geeignet abgespeichert, z. B. auf eine Chipkarte.

Zu Beginn der Nutzung werden, vorzugsweise über eine Chipkarte, die auch die Zugangsberechtigung (evtl. mit Paßwort und Sprecher verifikation), für strukturiertes Trainingsmaterial die Adresse für das relevante Vokabular, den Dialekt, die zu korrigierende Mode usw. enthält, die Verschiebungsvektoren eingelesen und zu den entsprechenden Basisvektoren addiert und die zugehörigen Faktoren eingelesen und mit den entsprechenden Streuungen multipliziert.

Bei Nutzern, die keinen eigenen Anpassungsvektorsatz einladbar zur Verfügung haben, wird die Anlage mit dem Basisreferenzmaterial betrieben oder aus vorhandenen Anpassungsvektorsätzen wird ein günstiger Anpassungsvektorsatz ausgewählt. Sind einige typische Anpassungsvektorsätze in der Anlage gespeichert, wird durch Tests mit den verschiedenen Anpassungsvektorsätzen oder durch eine Sprechergruppenerkennung der für diesen Sprecher optimale Anpassungsvektorsatz ermittelt und anschließend verwendet.

Die verschobenen Merkmalsvektoren und die durch Multiplikationen (verringerten) Streuungen gewährleisten eine Diskriminanz im Merkmalsraum, die einem Training mit diesem einzigen Sprecher ent spricht. Da aber dessen Aussprache auch von Tag zu Tag und bei geänderter Übertragungsstrecke schwankt, ist in an sich bekannten Sprecheradaptionsphasen zu Beginn der Nutzungen eine Anpassung zumindest der Verschiebungsvektoren an die aktuelle Sprechweise vorgesehen.

Claims

1. Verfahren zur Sprecheradaption von Merkmalsreferenzen, dadurch gekennzeichnet, daß für die Dauer der Nutzung der Spracherkennung durch einen Sprecher die vorhandenen Referenzvektoren, die zu den Zuständen bzw. Lauten gehören, durch Addition sprecher- und laut spezifischer Verschiebungsvektoren verschoben werden und die zugehörigen Streuungen durch Multiplikation mit sprecher- und lautspezifischen Faktoren an den Sprecher angepaßt werden.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß für einen Sprecher ein günstiger Anpassungsvektorsatz, bestehend aus Verschiebungsvektoren und Faktoren, aus einer vorhandenen Menge ausgewählt wird.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Verschiebungsvektoren in Sprecheradaptionsphasen verbessert wer den.