DE19806941A1 - Verfahren zur Sprecheradaption von Merkmalsreferenzen - Google Patents
Verfahren zur Sprecheradaption von MerkmalsreferenzenInfo
- Publication number
- DE19806941A1 DE19806941A1 DE1998106941 DE19806941A DE19806941A1 DE 19806941 A1 DE19806941 A1 DE 19806941A1 DE 1998106941 DE1998106941 DE 1998106941 DE 19806941 A DE19806941 A DE 19806941A DE 19806941 A1 DE19806941 A1 DE 19806941A1
- Authority
- DE
- Germany
- Prior art keywords
- speaker
- vectors
- adaptation
- factors
- speaker adaptation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000006978 adaptation Effects 0.000 title claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 12
- 230000002349 favourable effect Effects 0.000 claims abstract description 4
- 238000006073 displacement reaction Methods 0.000 claims description 9
- 239000006185 dispersion Substances 0.000 abstract 1
- 238000012549 training Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000012925 reference material Substances 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Rehabilitation Tools (AREA)
Description
Die Erfindung betrifft ein Verfahren zur Sprecheradaption von
Merkmalsreferenzen und kommt bei der Spracherkennung zur An
wendung.
Die bekannten Verfahren zur Sprachverarbeitung segmentieren das
Sprachsignal in Segmente und berechnen für diese Segmente verein
barte Merkmale. Zur Erkennung eines gesprochenen Lautes oder
Wortes werden die berechneten Merkmale der Segmente mit vorher
trainierten Merkmalen verglichen.
Dabei ermittelte Abstandsmaße (Ähnlichkeitsmaße) sind die Grund
lage für die nachfolgende Klassifizierung der Laute bzw. Worte.
(Dellert, J.R., Proakis, J.G., Hansen, J.H.L. Diskrete-Time Pro
cessing of Speech Signals. Macmillan Publishing Company, New York
1993, und Ruske, G.: Automatische Spracherkennung, Methoden der
Klassifikation und Merkmalsextraktion, Oldenbourg-Verlag 1994.)
Bei der Klassifikation auftretende Erkennungsfehler sind neben
Störungen insbesondere darauf zurückzuführen, daß die Laute von
verschiedenen Sprechern unterschiedlich ausgesprochen werden.
Damit haben die Laute ein unterschiedliches Spektrum und
schließlich voneinander abweichende Merkmale. Diese Streuungen der
Merkmale vermindern die Diskriminanz bei der Klassifikation.
Zur Verbesserung der Erkennungsrate wurden Verfahren zur Spre
cheradaption entwickelt und beschrieben (Yuncin, Zhao: "An
Acoustic-Phonetic-Based Speaker Adaptation Technique for Improving
Speaker-Independent Continuos Speech Recognition", IEEE Trans. on
Speech and Audio Proc., Vol. 2, No. 3, july 1994). Bei diesen
Verfahren werden vorhandene Merkmalsmuster in einer Adaptionsphase
an den Sprecher adaptiert.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzu
geben, mit dem die Merkmalsreferenzen einer trainierten Sprach
erkennungsanlage an den jeweiligen Sprecher angepaßt werden.
Die Aufgabe wird nach Anspruch 1 erfindungsgemäß dadurch gelöst,
daß für die Dauer der Nutzung der Spracherkennung durch einen
Sprecher die vorhandenen Referenzvektoren (Basisreferenzen), die
zu den Zuständen bzw. Lauten gehören, durch Addition sprecher- und
laut spezifischer Verschiebungsvektoren verschoben werden und die
zugehörigen Streuungen durch sprecher- und lautspezifische Mul
tiplikationen an den Sprecher angepaßt werden.
Gleichwertig sind Multiplikationen der Verschiebungsvektor
komponenten und additive Korrekturen der Streuungen.
Die Anpassungen können bei mehrmodalen Dichtefunktionen eine oder
mehrere Moden betreffen. Einige passende Referenzvektoren können
auch unverändert bleiben (Addition eines Nullvektors).
Dieses Verfahren setzt voraus, daß es in der Spracherkennungs
anlage eine Basisreferenz gibt und für den jeweiligen Sprecher
spezifische vorher trainierte Verschiebungsvektoren und Faktoren
zur Verfügung stehen.
Nach Anspruch 2 wird für einen Sprecher, der keine eigenen
Anpassungsvektoren trainiert hat, ein günstiger Anpassungs
vektorsatz (z. B. nach einer Sprechergruppenerkennung) aus einer
vorhandenen Menge ausgewählt.
Nach Anspruch 3 ist vorgesehen, diese Verschiebungsvektoren in
Sprecheradaptionsphasen in an sich bekannter Weise an die aktuelle
Sprechweise und Übertragungsstrecke anzupassen.
Die Erfindung wird nachstehend an einem Ausführungsbeispiel
erläutert.
Beim Training einer Spracherkennungsanlage werden aus normal
gesprochenen Worten oder Texten typischer Sprecher für alle Worte
bzw. Laute Basisreferenzen, in Form von Merkmalsvektoren mit den
zugehörigen Streuungen ermittelt.
Für Sprecher, die die Anlage nutzen wollen, werden in einem
gesonderten Training mit einer vereinbarten Wort folge die für
diesen Sprecher typischen Merkmalsvektoren für alle Worte bzw.
Laute ermittelt. Die Differenzen zwischen diesen Merkmalsvektoren
und den Basisvektoren werden als Verschiebungsvektoren geeignet
abgespeichert, z. B. auf eine Chipkarte.
Zu Beginn der Nutzung werden, vorzugsweise über eine Chipkarte,
die auch die Zugangsberechtigung (evtl. mit Paßwort und Sprecher
verifikation), für strukturiertes Trainingsmaterial die Adresse
für das relevante Vokabular, den Dialekt, die zu korrigierende
Mode usw. enthält, die Verschiebungsvektoren eingelesen und zu den
entsprechenden Basisvektoren addiert und die zugehörigen Faktoren
eingelesen und mit den entsprechenden Streuungen multipliziert.
Bei Nutzern, die keinen eigenen Anpassungsvektorsatz einladbar zur
Verfügung haben, wird die Anlage mit dem Basisreferenzmaterial
betrieben oder aus vorhandenen Anpassungsvektorsätzen wird ein
günstiger Anpassungsvektorsatz ausgewählt. Sind einige typische
Anpassungsvektorsätze in der Anlage gespeichert, wird durch Tests
mit den verschiedenen Anpassungsvektorsätzen oder durch eine
Sprechergruppenerkennung der für diesen Sprecher optimale
Anpassungsvektorsatz ermittelt und anschließend verwendet.
Die verschobenen Merkmalsvektoren und die durch Multiplikationen
(verringerten) Streuungen gewährleisten eine Diskriminanz im
Merkmalsraum, die einem Training mit diesem einzigen Sprecher ent
spricht. Da aber dessen Aussprache auch von Tag zu Tag und bei
geänderter Übertragungsstrecke schwankt, ist in an sich bekannten
Sprecheradaptionsphasen zu Beginn der Nutzungen eine Anpassung
zumindest der Verschiebungsvektoren an die aktuelle Sprechweise
vorgesehen.
Claims (3)
1. Verfahren zur Sprecheradaption von Merkmalsreferenzen, dadurch
gekennzeichnet, daß für die Dauer der Nutzung der Spracherkennung
durch einen Sprecher die vorhandenen Referenzvektoren, die zu den
Zuständen bzw. Lauten gehören, durch Addition sprecher- und
laut spezifischer Verschiebungsvektoren verschoben werden und die
zugehörigen Streuungen durch Multiplikation mit sprecher- und
lautspezifischen Faktoren an den Sprecher angepaßt werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß für
einen Sprecher ein günstiger Anpassungsvektorsatz, bestehend aus
Verschiebungsvektoren und Faktoren, aus einer vorhandenen Menge
ausgewählt wird.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die
Verschiebungsvektoren in Sprecheradaptionsphasen verbessert wer
den.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1998106941 DE19806941A1 (de) | 1998-02-19 | 1998-02-19 | Verfahren zur Sprecheradaption von Merkmalsreferenzen |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1998106941 DE19806941A1 (de) | 1998-02-19 | 1998-02-19 | Verfahren zur Sprecheradaption von Merkmalsreferenzen |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19806941A1 true DE19806941A1 (de) | 1999-08-26 |
Family
ID=7858282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE1998106941 Withdrawn DE19806941A1 (de) | 1998-02-19 | 1998-02-19 | Verfahren zur Sprecheradaption von Merkmalsreferenzen |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE19806941A1 (de) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1400952A1 (de) * | 2002-09-18 | 2004-03-24 | Pioneer Corporation | Umgebungs- und sprecheradaptierte Spracherkennung |
US7343288B2 (en) | 2002-05-08 | 2008-03-11 | Sap Ag | Method and system for the processing and storing of voice information and corresponding timeline information |
US7406413B2 (en) | 2002-05-08 | 2008-07-29 | Sap Aktiengesellschaft | Method and system for the processing of voice data and for the recognition of a language |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0342630A2 (de) * | 1988-05-18 | 1989-11-23 | Nec Corporation | Spracherkennung mit Sprecheranpassung durch Lernprozess |
DE4222916A1 (de) * | 1991-12-21 | 1993-06-24 | Daimler Benz Ag | Verfahren zur schnellen sprecheradaption in einem spracherkenner fuer grossen wortschatz |
EP0779609A2 (de) * | 1995-12-13 | 1997-06-18 | Nec Corporation | Sprachadaptionssystem und Spracherkenner |
US5692100A (en) * | 1994-02-02 | 1997-11-25 | Matsushita Electric Industrial Co., Ltd. | Vector quantizer |
-
1998
- 1998-02-19 DE DE1998106941 patent/DE19806941A1/de not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0342630A2 (de) * | 1988-05-18 | 1989-11-23 | Nec Corporation | Spracherkennung mit Sprecheranpassung durch Lernprozess |
DE4222916A1 (de) * | 1991-12-21 | 1993-06-24 | Daimler Benz Ag | Verfahren zur schnellen sprecheradaption in einem spracherkenner fuer grossen wortschatz |
US5692100A (en) * | 1994-02-02 | 1997-11-25 | Matsushita Electric Industrial Co., Ltd. | Vector quantizer |
EP0779609A2 (de) * | 1995-12-13 | 1997-06-18 | Nec Corporation | Sprachadaptionssystem und Spracherkenner |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7343288B2 (en) | 2002-05-08 | 2008-03-11 | Sap Ag | Method and system for the processing and storing of voice information and corresponding timeline information |
US7406413B2 (en) | 2002-05-08 | 2008-07-29 | Sap Aktiengesellschaft | Method and system for the processing of voice data and for the recognition of a language |
EP1400952A1 (de) * | 2002-09-18 | 2004-03-24 | Pioneer Corporation | Umgebungs- und sprecheradaptierte Spracherkennung |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
EP1184839B1 (de) | Graphem-Phonem-Konvertierung | |
DE69635655T2 (de) | Sprecherangepasste Spracherkennung | |
EP1466317B1 (de) | Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner | |
DE69514382T2 (de) | Spracherkennung | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
EP1264301B1 (de) | Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem | |
DE2740520A1 (de) | Verfahren und anordnung zur synthese von sprache | |
EP1892700A1 (de) | Verfahren zur Spracherkennung und Sprachwiedergabe | |
EP1273003B1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
EP0508547B1 (de) | Schaltungsanordnung zur Spracherkennung | |
DE60018696T2 (de) | Robuste sprachverarbeitung von verrauschten sprachmodellen | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
EP1282897B1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems | |
EP0633559B1 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE60021666T2 (de) | Inkrementales Trainieren eines Spracherkenners für eine neue Sprache | |
DE60029456T2 (de) | Verfahren zur Online-Anpassung von Aussprachewörterbüchern | |
WO2001067435A9 (de) | Verfahren zum sprachgesteuerten initiieren von in einem gerät ausführbaren aktionen durch einen begrenzten benutzerkreis | |
DE60219030T2 (de) | Verfahren zur mehrsprachigen Spracherkennung | |
DE19806941A1 (de) | Verfahren zur Sprecheradaption von Merkmalsreferenzen | |
WO2003034402A1 (de) | Verfahren zur erzeugung von sprachbausteine beschreibenden referenzsegmenten und verfahren zur modellierung von spracheinheiten eines gesprochenen testmusters | |
DE4111781A1 (de) | Computersystem zur spracherkennung | |
EP1184838B1 (de) | Phonetische Übersetzung für die Sprachsynthese | |
DE3129353A1 (de) | Verfahren zur sprecherunabhaengigen erkennung von gesprochenen worten in fernmeldesystemen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law | ||
8139 | Disposal/non-payment of the annual fee |