[go: up one dir, main page]

DE19806941A1 - Verfahren zur Sprecheradaption von Merkmalsreferenzen - Google Patents

Verfahren zur Sprecheradaption von Merkmalsreferenzen

Info

Publication number
DE19806941A1
DE19806941A1 DE1998106941 DE19806941A DE19806941A1 DE 19806941 A1 DE19806941 A1 DE 19806941A1 DE 1998106941 DE1998106941 DE 1998106941 DE 19806941 A DE19806941 A DE 19806941A DE 19806941 A1 DE19806941 A1 DE 19806941A1
Authority
DE
Germany
Prior art keywords
speaker
vectors
adaptation
factors
speaker adaptation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE1998106941
Other languages
English (en)
Inventor
Werner Zuehlke
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Technische Universitaet Ilmenau
Original Assignee
Technische Universitaet Ilmenau
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Technische Universitaet Ilmenau filed Critical Technische Universitaet Ilmenau
Priority to DE1998106941 priority Critical patent/DE19806941A1/de
Publication of DE19806941A1 publication Critical patent/DE19806941A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Rehabilitation Tools (AREA)

Description

Die Erfindung betrifft ein Verfahren zur Sprecheradaption von Merkmalsreferenzen und kommt bei der Spracherkennung zur An­ wendung.
Die bekannten Verfahren zur Sprachverarbeitung segmentieren das Sprachsignal in Segmente und berechnen für diese Segmente verein­ barte Merkmale. Zur Erkennung eines gesprochenen Lautes oder Wortes werden die berechneten Merkmale der Segmente mit vorher trainierten Merkmalen verglichen.
Dabei ermittelte Abstandsmaße (Ähnlichkeitsmaße) sind die Grund­ lage für die nachfolgende Klassifizierung der Laute bzw. Worte. (Dellert, J.R., Proakis, J.G., Hansen, J.H.L. Diskrete-Time Pro­ cessing of Speech Signals. Macmillan Publishing Company, New York 1993, und Ruske, G.: Automatische Spracherkennung, Methoden der Klassifikation und Merkmalsextraktion, Oldenbourg-Verlag 1994.)
Bei der Klassifikation auftretende Erkennungsfehler sind neben Störungen insbesondere darauf zurückzuführen, daß die Laute von verschiedenen Sprechern unterschiedlich ausgesprochen werden. Damit haben die Laute ein unterschiedliches Spektrum und schließlich voneinander abweichende Merkmale. Diese Streuungen der Merkmale vermindern die Diskriminanz bei der Klassifikation. Zur Verbesserung der Erkennungsrate wurden Verfahren zur Spre­ cheradaption entwickelt und beschrieben (Yuncin, Zhao: "An Acoustic-Phonetic-Based Speaker Adaptation Technique for Improving Speaker-Independent Continuos Speech Recognition", IEEE Trans. on Speech and Audio Proc., Vol. 2, No. 3, july 1994). Bei diesen Verfahren werden vorhandene Merkmalsmuster in einer Adaptionsphase an den Sprecher adaptiert.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzu­ geben, mit dem die Merkmalsreferenzen einer trainierten Sprach­ erkennungsanlage an den jeweiligen Sprecher angepaßt werden.
Die Aufgabe wird nach Anspruch 1 erfindungsgemäß dadurch gelöst, daß für die Dauer der Nutzung der Spracherkennung durch einen Sprecher die vorhandenen Referenzvektoren (Basisreferenzen), die zu den Zuständen bzw. Lauten gehören, durch Addition sprecher- und laut spezifischer Verschiebungsvektoren verschoben werden und die zugehörigen Streuungen durch sprecher- und lautspezifische Mul­ tiplikationen an den Sprecher angepaßt werden.
Gleichwertig sind Multiplikationen der Verschiebungsvektor­ komponenten und additive Korrekturen der Streuungen.
Die Anpassungen können bei mehrmodalen Dichtefunktionen eine oder mehrere Moden betreffen. Einige passende Referenzvektoren können auch unverändert bleiben (Addition eines Nullvektors).
Dieses Verfahren setzt voraus, daß es in der Spracherkennungs­ anlage eine Basisreferenz gibt und für den jeweiligen Sprecher spezifische vorher trainierte Verschiebungsvektoren und Faktoren zur Verfügung stehen.
Nach Anspruch 2 wird für einen Sprecher, der keine eigenen Anpassungsvektoren trainiert hat, ein günstiger Anpassungs­ vektorsatz (z. B. nach einer Sprechergruppenerkennung) aus einer vorhandenen Menge ausgewählt.
Nach Anspruch 3 ist vorgesehen, diese Verschiebungsvektoren in Sprecheradaptionsphasen in an sich bekannter Weise an die aktuelle Sprechweise und Übertragungsstrecke anzupassen.
Die Erfindung wird nachstehend an einem Ausführungsbeispiel erläutert.
Beim Training einer Spracherkennungsanlage werden aus normal gesprochenen Worten oder Texten typischer Sprecher für alle Worte bzw. Laute Basisreferenzen, in Form von Merkmalsvektoren mit den zugehörigen Streuungen ermittelt.
Für Sprecher, die die Anlage nutzen wollen, werden in einem gesonderten Training mit einer vereinbarten Wort folge die für diesen Sprecher typischen Merkmalsvektoren für alle Worte bzw. Laute ermittelt. Die Differenzen zwischen diesen Merkmalsvektoren und den Basisvektoren werden als Verschiebungsvektoren geeignet abgespeichert, z. B. auf eine Chipkarte.
Zu Beginn der Nutzung werden, vorzugsweise über eine Chipkarte, die auch die Zugangsberechtigung (evtl. mit Paßwort und Sprecher­ verifikation), für strukturiertes Trainingsmaterial die Adresse für das relevante Vokabular, den Dialekt, die zu korrigierende Mode usw. enthält, die Verschiebungsvektoren eingelesen und zu den entsprechenden Basisvektoren addiert und die zugehörigen Faktoren eingelesen und mit den entsprechenden Streuungen multipliziert.
Bei Nutzern, die keinen eigenen Anpassungsvektorsatz einladbar zur Verfügung haben, wird die Anlage mit dem Basisreferenzmaterial betrieben oder aus vorhandenen Anpassungsvektorsätzen wird ein günstiger Anpassungsvektorsatz ausgewählt. Sind einige typische Anpassungsvektorsätze in der Anlage gespeichert, wird durch Tests mit den verschiedenen Anpassungsvektorsätzen oder durch eine Sprechergruppenerkennung der für diesen Sprecher optimale Anpassungsvektorsatz ermittelt und anschließend verwendet.
Die verschobenen Merkmalsvektoren und die durch Multiplikationen (verringerten) Streuungen gewährleisten eine Diskriminanz im Merkmalsraum, die einem Training mit diesem einzigen Sprecher ent­ spricht. Da aber dessen Aussprache auch von Tag zu Tag und bei geänderter Übertragungsstrecke schwankt, ist in an sich bekannten Sprecheradaptionsphasen zu Beginn der Nutzungen eine Anpassung zumindest der Verschiebungsvektoren an die aktuelle Sprechweise vorgesehen.

Claims (3)

1. Verfahren zur Sprecheradaption von Merkmalsreferenzen, dadurch gekennzeichnet, daß für die Dauer der Nutzung der Spracherkennung durch einen Sprecher die vorhandenen Referenzvektoren, die zu den Zuständen bzw. Lauten gehören, durch Addition sprecher- und laut spezifischer Verschiebungsvektoren verschoben werden und die zugehörigen Streuungen durch Multiplikation mit sprecher- und lautspezifischen Faktoren an den Sprecher angepaßt werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß für einen Sprecher ein günstiger Anpassungsvektorsatz, bestehend aus Verschiebungsvektoren und Faktoren, aus einer vorhandenen Menge ausgewählt wird.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Verschiebungsvektoren in Sprecheradaptionsphasen verbessert wer­ den.
DE1998106941 1998-02-19 1998-02-19 Verfahren zur Sprecheradaption von Merkmalsreferenzen Withdrawn DE19806941A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE1998106941 DE19806941A1 (de) 1998-02-19 1998-02-19 Verfahren zur Sprecheradaption von Merkmalsreferenzen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1998106941 DE19806941A1 (de) 1998-02-19 1998-02-19 Verfahren zur Sprecheradaption von Merkmalsreferenzen

Publications (1)

Publication Number Publication Date
DE19806941A1 true DE19806941A1 (de) 1999-08-26

Family

ID=7858282

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1998106941 Withdrawn DE19806941A1 (de) 1998-02-19 1998-02-19 Verfahren zur Sprecheradaption von Merkmalsreferenzen

Country Status (1)

Country Link
DE (1) DE19806941A1 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1400952A1 (de) * 2002-09-18 2004-03-24 Pioneer Corporation Umgebungs- und sprecheradaptierte Spracherkennung
US7343288B2 (en) 2002-05-08 2008-03-11 Sap Ag Method and system for the processing and storing of voice information and corresponding timeline information
US7406413B2 (en) 2002-05-08 2008-07-29 Sap Aktiengesellschaft Method and system for the processing of voice data and for the recognition of a language

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0342630A2 (de) * 1988-05-18 1989-11-23 Nec Corporation Spracherkennung mit Sprecheranpassung durch Lernprozess
DE4222916A1 (de) * 1991-12-21 1993-06-24 Daimler Benz Ag Verfahren zur schnellen sprecheradaption in einem spracherkenner fuer grossen wortschatz
EP0779609A2 (de) * 1995-12-13 1997-06-18 Nec Corporation Sprachadaptionssystem und Spracherkenner
US5692100A (en) * 1994-02-02 1997-11-25 Matsushita Electric Industrial Co., Ltd. Vector quantizer

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0342630A2 (de) * 1988-05-18 1989-11-23 Nec Corporation Spracherkennung mit Sprecheranpassung durch Lernprozess
DE4222916A1 (de) * 1991-12-21 1993-06-24 Daimler Benz Ag Verfahren zur schnellen sprecheradaption in einem spracherkenner fuer grossen wortschatz
US5692100A (en) * 1994-02-02 1997-11-25 Matsushita Electric Industrial Co., Ltd. Vector quantizer
EP0779609A2 (de) * 1995-12-13 1997-06-18 Nec Corporation Sprachadaptionssystem und Spracherkenner

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7343288B2 (en) 2002-05-08 2008-03-11 Sap Ag Method and system for the processing and storing of voice information and corresponding timeline information
US7406413B2 (en) 2002-05-08 2008-07-29 Sap Aktiengesellschaft Method and system for the processing of voice data and for the recognition of a language
EP1400952A1 (de) * 2002-09-18 2004-03-24 Pioneer Corporation Umgebungs- und sprecheradaptierte Spracherkennung

Similar Documents

Publication Publication Date Title
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
EP1184839B1 (de) Graphem-Phonem-Konvertierung
DE69635655T2 (de) Sprecherangepasste Spracherkennung
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE69514382T2 (de) Spracherkennung
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
EP1264301B1 (de) Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem
DE2740520A1 (de) Verfahren und anordnung zur synthese von sprache
EP1892700A1 (de) Verfahren zur Spracherkennung und Sprachwiedergabe
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
EP0508547B1 (de) Schaltungsanordnung zur Spracherkennung
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
EP0633559B1 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60021666T2 (de) Inkrementales Trainieren eines Spracherkenners für eine neue Sprache
DE60029456T2 (de) Verfahren zur Online-Anpassung von Aussprachewörterbüchern
WO2001067435A9 (de) Verfahren zum sprachgesteuerten initiieren von in einem gerät ausführbaren aktionen durch einen begrenzten benutzerkreis
DE60219030T2 (de) Verfahren zur mehrsprachigen Spracherkennung
DE19806941A1 (de) Verfahren zur Sprecheradaption von Merkmalsreferenzen
WO2003034402A1 (de) Verfahren zur erzeugung von sprachbausteine beschreibenden referenzsegmenten und verfahren zur modellierung von spracheinheiten eines gesprochenen testmusters
DE4111781A1 (de) Computersystem zur spracherkennung
EP1184838B1 (de) Phonetische Übersetzung für die Sprachsynthese
DE3129353A1 (de) Verfahren zur sprecherunabhaengigen erkennung von gesprochenen worten in fernmeldesystemen

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
8139 Disposal/non-payment of the annual fee