DE4412309C2 - Verfahren zur Verbesserung der Spracherkennung unter Berücksichtigung verschiedener digitaler Codierbedingungen - Google Patents
Verfahren zur Verbesserung der Spracherkennung unter Berücksichtigung verschiedener digitaler CodierbedingungenInfo
- Publication number
- DE4412309C2 DE4412309C2 DE19944412309 DE4412309A DE4412309C2 DE 4412309 C2 DE4412309 C2 DE 4412309C2 DE 19944412309 DE19944412309 DE 19944412309 DE 4412309 A DE4412309 A DE 4412309A DE 4412309 C2 DE4412309 C2 DE 4412309C2
- Authority
- DE
- Germany
- Prior art keywords
- speech
- feature vectors
- recognized
- mwn
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Die Erfindung betrifft ein Verfahren zur Verbesserung der
Spracherkennung unter Berücksichtigung verschiedener digitaler
Codierbedingungen nach dem Oberbegriff des Patentanspruchs 1.
Ein Meßverfahren zum Beurteilen der Güte von Sprachcodierern
und/oder Übertragungsstrecken ist beschrieben in der
DE 37 08 002 A1. In der Beschreibungseinleitung (Spalte 2) ist
angegeben, daß die Art des Codierverfahrens und auch die Be
schaffenheit einer Übertragungsstrecke einen großen Einfluß
haben auf die Sprachgüte und die Verständlichkeit der an einen
Empfänger ankommenden Sprachinformation. In dieser Schrift wird
ein Meßverfahren angegeben, wobei mit Hilfe eines Spracherken
ners oder eines Sprechererkenners festgestellt wird, wie groß
die Wahrscheinlichkeit ist, daß abgegebene Sprachäußerungen
richtig erkannt werden. Hierbei werden verschiedene Sprach
codierer oder Übertragungsstrecken in den Sprechweg einge
schleift, so daß festgestellt werden kann, wie groß der Anteil
der richtig erkannten Sprachäußerungen bei unterschiedlichen
Codierverfahren ist. Mit einem derartigen Verfahren kann fest
gestellt werden, welches der verschiedenen Codierverfahren für
eine elektronische Spracherkennung am geeignetsten ist und bei
welchen Codierverfahren eine mindere Qualität der Spracherken
nung zu erwarten ist. Hierfür wird ein einziger Spracherkenner
benutzt, der vorgegebene Sprachäußerungen übermittelt bekommt
und diese erkennt. Dabei werden jeweils die vorher bekannten
wahren Bedeutungen mit den erkannten Ergebnissen verglichen.
Eine Anpassung des Spracherkenners an ein Codierverfahren
findet nicht statt.
Aus der DE 43 25 404 A1 ist ein Verfahren zum Ermitteln und
Klassifizieren von Störgeräuschtypen bekannt. Damit soll er
reicht werden, daß ein Spracherkenner optimal an ein erkanntes
Störgeräusch angepaßt werden kann, um die Spracherkennung zu
optimieren. Zu diesem Zweck sind sogenannte Codebuch-Speicher
vorgesehen, welche die Referenzmuster der jeweils zu erkennen
den Sprachäußerungen enthalten. Außer einem Standardcodebuch,
in welchem die Referenzmuster der reinen Sprache enthalten
sind, ist für jeden zu erkennenden Geräuschtyp ein eigenes
Codebuch erforderlich. Diese Referenzmuster müssen zusammen mit
dem jeweiligen Geräusch durch einen Trainingsvorgang erstellt
werden. Eine zu erkennende Sprachäußerung wird einer Sprachana
lyseeinheit angeboten, die Merkmalsvektoren bildet und die
Häufigkeitsverteilungen, die aus einer Vektorquantisierung
resultieren, ebenfalls ermittelt. Es müssen nun umfangreiche
Vergleichsrechnungen stattfinden, um die abgelegten Indexdaten
mit den aus der Vektorquantisierung der eingegebenen Sprach
äußerung sich ergebenden Häufigkeitsverteilungen zu verglei
chen. Der sich bei diesem Rechenvorgang ergebende Extremwert
der Differenzen kennzeichnet einen gefundenen Störgeräuschtyp.
Daraufhin wird dann dem Spracherkenner das zu diesem Störge
räuschtyp passende Codebuch zugeschaltet, womit dann die
Spracherkennung stattfinden kann.
Obwohl bei diesem Verfahren bereits gegenüber vorbekannten
Anordnungen eine Reduzierung der Speicherkapazität und der
Rechenleistung erreicht wurde, ist der Aufwand dennoch relativ
hoch. Außerdem werden bei einem derartigen Verfahren Einflüsse
von Codierverfahren, wie sie auf Übertragungsstrecken einge
setzt werden, nicht berücksichtigt.
Die Aufgabe der Erfindung besteht darin, ein Verfahren anzuge
ben, mit dem dasjenige von mehreren bekannten Codierverfahren
ermittelt werden kann, welches bei einer zu erkennenden aktuel
len Sprachäußerung angewendet worden ist. Daraufhin soll ein
Spracherkenner eingesetzt werden, dessen zugehörige Referenzmu
ster mit diesem Codierverfahren erstellt wurden, damit optimale
Ergebnisse erreicht werden, wenn über ein Kommunikationsnetz
übertragene Sprache erkannt werden soll.
Zur Lösung dieser Aufgabe ist eine Merkmalskombination vorgese
hen, wie sie im Patentanspruch 1 angegeben ist.
Damit wird in vorteilhafter Weise erreicht, daß ein Codierungs
verfahren, welches bei einer über ein Kommunikationsnetz ankom
menden, zu erkennenden Sprachäußerung angewendet wurde, schnell
gefunden wird. Daraufhin wird derjenige Spracherkenner ange
steuert, welcher für dieses Codierverfahren optimal ausgelegt
ist. Somit ergibt sich eine hohe Qualität bei der Spracher
kennung, die auch bei Codierverfahren mit niedriger Bitrate
ausreichend ist.
Weiterbildung der Erfindung ergeben sich aus den Unteransprü
chen.
Ein Ausführungsbeispiel der Erfindung wird nachfolgend anhand
einer Zeichnung näher erläutert. In der Zeichnung ist schema
tisch dargestellt, wie eine von einem Mikrofon M aufgenommene
sprachliche Äußerung über ein Kommunikationsnetz KN an den Ein
gang E einer Sprachanalyse-Einrichtung SPA gelangt. Auf dem
Übertragungsweg innerhalb des Kommunikationsnetzes KN sind üb
licherweise Codiereinrichtungen CD vorgesehen. Es kann nicht
unbedingt davon ausgegangen werden, daß die am Eingang E einer
Sprachanalyse-Einrichtung SPA anstehende, zu erkennende sprach
liche Äußerung immer mit dem gleichen Codierverfahren angeboten
wird. Um eine hohe Qualität bei der Spracherkennung zu errei
chen, soll zunächst herausgefunden werden, welches Codierver
fahren innerhalb des Kommunikationsnetzes KN angewendet wurde.
In der Sprachanalyse-Einrichtung SPA wird eine zu erkennende
Sprachäußerung, beispielsweise ein Wort, in zeitliche Abschnit
te zerlegt, wovon in bekannter Weise Merkmalsvektoren MV errech
net werden. Diese Merkmalsvektoren MV werden der Reihe nach in
einem Merkmalsvektorspeicher MVSP abgelegt. Von dort aus werden
sie einem Codeerkenner CE angeboten, welcher diese Merkmalsvektoren
MV mit Mittelwerten MW1 bis MWn vergleicht, welche aus
Merkmalsvektoren gebildet wurden, die beim Trainieren von Wort
mustern entstanden sind. Jeder einzelne dieser Mittelwerte MW1
bis MWn stammt dabei aus Merkmalsvektoren, welche einem be
stimmten Codierverfahren zugeordnet sind, das heißt, diese
Merkmalsvektoren wurden von Sprachäußerungen gewonnen, die
unter Einsatz des betreffenden Verfahrens codiert wurden. Beim
Vergleichen der von einer aktuellen Sprachäußerung gewonnenen
Merkmalsvektoren MV mit den im Codeerkenner CE abgelegten Mit
telwerten MW1 bis MWn ergeben sich mehr oder weniger große Dif
ferenzen. Dabei wird herausgefunden, bei welchem Mittelwert MW1
bis MWn sich die geringste Differenz ergibt.
Da derjenige Mittelwert, z. B. MW1, bei dem sich die geringste
Differenz beim Vergleichen mit den Merkmalsvektoren MV der ak
tuellen Sprachäußerung ergibt, einem Codierverfahren zugeordnet
ist, ist dieses somit als dasjenige erkannt worden, welches in
nerhalb des Kommunikationsnetzes KN angewendet wurde. Wenn der
Codeerkenner CE ein derartiges Ergebnis, das heißt die gering
ste Differenz, festgestellt hat, so wird ein Schaltmittel SM
angesteuert, um einen von mehreren Spracherkennern SE1 bis SEn
anzusteuern. Unter der Annahme, daß im Codeerkenner CE die ge
ringste Differenz zwischen dem Mittelwert MW1 und den aus einer
aktuellen Sprachäußerung ermittelten Merkmalsvektoren MV er
kannt wird, wird über das Schaltmittel SM der Ausgang des Merk
malvektorspeichers MVSP mit dem Eingang des Spracherkenners SE1
verbunden. Die in diesem Spracherkenner SE1 abgelegten Refe
renzmuster für zu erkennende Worte sind in bekannter Weise wäh
rend einer Trainingsphase entstanden, wobei das betreffende Co
dierungsverfahren, beispielsweise ADPCM, angewendet wurde. Die
ser Spracherkenner SE1 liefert deshalb bessere Ergebnisse als
einer der anderen Spracherkenner SE2 bis SEn liefern würde. So
mit erscheint am Ausgang A bei jedem Codierverfahren, für wel
ches jeweils ein Spracherkenner SE1 bis SEn vorgesehen ist, ein
optimales Erkennungsergebnis.
Die mit diesem Verfahren erzielbaren Ergebnisse können noch
weiter gesteigert werden, wenn innerhalb des Codeerkenners CE
nicht nur einzelne Mittelwerte MW1 bis MWn gespeichert sind,
sondern auch die Kovarianzen, welche sich aus den beim Training
erzeugten Merkmalsvektoren ergeben. Diese Kovarianzen sind dann
in einem Speicher des Codeerkenners CE bezogen auf das jewei
lige Codierverfahren abgelegt. In diesem Fall werden von den
Merkmalsvektoren MV der aktuellen Sprachanalyse die Werte von
Gaußschen Verteilungskurven produziert, so daß einzelne Dichte
werte miteinander verglichen werden können. Mit diesem erhöhten
Aufwand kann die Erkennungssicherheit wesentlich gesteigert
werden.
Außerdem ist es möglich, mehrere aus ein und derselben Verbin
dung stammende Sprachäußerungen im Codeerkenner CE nach der
vorbeschriebenen Weise zu untersuchen, wobei jede sich bei
einer einzelnen Sprachäußerung ergebende Differenz zwischen
deren Merkmalsvektoren MV und den Mittelwerten MW1 bis MWn
zwischengespeichert wird. Diese einzelnen Differenzwerte werden
dann bezogen auf jeden einzelnen Mittelwert MW1 bis MWn ge
trennt aufsummiert, so daß der dann sich ergebende geringste
Summenwert das angewandte Codierverfahren genauer bestimmen
kann. Somit kann einer der Spracherkenner SE1 bis SEn mit grö
ßerer Sicherheit als der am besten passende ausgewählt werden.
Claims (4)
1. Verfahren zur Verbesserung der Spracherkennung unter Berück
sichtigung verschiedener digitaler Codierbedingungen mit
niedriger Bitrate, wobei durch Training mit mehreren Spre
chern gewonnene Wortmodelle abgespeichert sind, die als
Referenzmuster zum Vergleich mit zu erkennenden Worten die
nen, damit die Vergleichsergebnisse mit einer hohen Erken
nungswahrscheinlichkeit vorliegen,
dadurch gekennzeichnet,
daß mehrere Spracherkenner (SE1 bis SEn) vorgesehen sind wovon jeder einzelne für ein ganz bestimmtes Codierverfah ren, z. B. PCM mit 64 kBit/s, ADPCM, CELP nach CCITT G728, zuständig ist, wobei die darin befindlichen Referenzmuster der Wortmodelle mit dem zugehörigen Codierverfahren erzeugt wurden,
daß eine zu erkennende Sprachäußerung zunächst einer Sprach analyse-Einrichtung (SPA) zugeführt wird, welche daraus Merkmalsvektoren (MV) erzeugt, die anschließend in einen Merkmalsvektorspeicher (MVSP) gelangen,
daß die Merkmalsvektoren (MV) einem Codeerkenner (CE) ange boten werden, in welchem für jedes Codierverfahren ein aus den Merkmalsvektoren der entsprechenden Referenzmuster errechneter Mittelwert (MW1 bis MWn) abgespeichert ist,
daß die Merkmalsvektoren (MV) der zu erkennenden Sprachäuße rung mit jedem dieser Mittelwerte (MW1 bis MWn) verglichen werden, wobei die geringste Differenz über alle Merkmals vektoren (MV) einer Sprachäußerung ermittelt wird, welche dann dasjenige Codierverfahren kennzeichnet, mit dem die zu erkennende Sprachäußerung codiert wurde,
und daß dann derjenige von mehreren Spracherkennern (SE1 bis SEn) mit dem Merkmalsvektorspeicher (MVSP) verbunden wird, der für das erkannte Codierverfahren zuständig ist, um die eigentliche Spracherkennung durchzuführen.
daß mehrere Spracherkenner (SE1 bis SEn) vorgesehen sind wovon jeder einzelne für ein ganz bestimmtes Codierverfah ren, z. B. PCM mit 64 kBit/s, ADPCM, CELP nach CCITT G728, zuständig ist, wobei die darin befindlichen Referenzmuster der Wortmodelle mit dem zugehörigen Codierverfahren erzeugt wurden,
daß eine zu erkennende Sprachäußerung zunächst einer Sprach analyse-Einrichtung (SPA) zugeführt wird, welche daraus Merkmalsvektoren (MV) erzeugt, die anschließend in einen Merkmalsvektorspeicher (MVSP) gelangen,
daß die Merkmalsvektoren (MV) einem Codeerkenner (CE) ange boten werden, in welchem für jedes Codierverfahren ein aus den Merkmalsvektoren der entsprechenden Referenzmuster errechneter Mittelwert (MW1 bis MWn) abgespeichert ist,
daß die Merkmalsvektoren (MV) der zu erkennenden Sprachäuße rung mit jedem dieser Mittelwerte (MW1 bis MWn) verglichen werden, wobei die geringste Differenz über alle Merkmals vektoren (MV) einer Sprachäußerung ermittelt wird, welche dann dasjenige Codierverfahren kennzeichnet, mit dem die zu erkennende Sprachäußerung codiert wurde,
und daß dann derjenige von mehreren Spracherkennern (SE1 bis SEn) mit dem Merkmalsvektorspeicher (MVSP) verbunden wird, der für das erkannte Codierverfahren zuständig ist, um die eigentliche Spracherkennung durchzuführen.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß der Codeerkenner (CE) beim Vergleichen der Mittelwerte
(MWl bis MWn) mit den Merkmalsvektoren (MV) auch deren
Kovarianzen in Form einer Gauß-Verteilung berücksichtigt,
indem einzelne Dichtewerte miteinander verglichen werden.
3. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß bei mehreren untersuchten Sprachäußerungen die bei
vorangegangenen Ermittlungen erkannten Differenzen berück
sichtigt werden, indem die einzelnen sich ergebenden Diffe
renzen zwischen den Merkmalsvektoren (MV) und den Mittel
werten (MW1 bis MWn) für jedes Codierverfahren aufsummiert
werden, wobei die geringste Summe das erkannte Codierver
fahren kennzeichnet.
4. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß elektronische Schaltmittel (SM) vorgesehen sind, womit der Merkmalsvektorspeicher (MVSP) mit dem entsprechenden Spracherkenner (z. B. SE1) verbindbar ist,
und daß diese Schaltmittel (SM) vom Codeerkenner (CE) direkt gesteuert werden.
daß elektronische Schaltmittel (SM) vorgesehen sind, womit der Merkmalsvektorspeicher (MVSP) mit dem entsprechenden Spracherkenner (z. B. SE1) verbindbar ist,
und daß diese Schaltmittel (SM) vom Codeerkenner (CE) direkt gesteuert werden.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19944412309 DE4412309C2 (de) | 1994-04-09 | 1994-04-09 | Verfahren zur Verbesserung der Spracherkennung unter Berücksichtigung verschiedener digitaler Codierbedingungen |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19944412309 DE4412309C2 (de) | 1994-04-09 | 1994-04-09 | Verfahren zur Verbesserung der Spracherkennung unter Berücksichtigung verschiedener digitaler Codierbedingungen |
Publications (2)
Publication Number | Publication Date |
---|---|
DE4412309A1 DE4412309A1 (de) | 1995-10-12 |
DE4412309C2 true DE4412309C2 (de) | 2002-10-24 |
Family
ID=6515031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19944412309 Expired - Fee Related DE4412309C2 (de) | 1994-04-09 | 1994-04-09 | Verfahren zur Verbesserung der Spracherkennung unter Berücksichtigung verschiedener digitaler Codierbedingungen |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE4412309C2 (de) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19635754A1 (de) * | 1996-09-03 | 1998-03-05 | Siemens Ag | Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung |
DE19944325A1 (de) * | 1999-09-15 | 2001-03-22 | Thomson Brandt Gmbh | Verfahren und Vorrichtung zur Spracherkennung |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3708002A1 (de) * | 1987-03-12 | 1988-09-22 | Telefonbau & Normalzeit Gmbh | Messverfahren zum beurteilen der guete von sprachcodierern und/oder uebertragungsstrecken |
DE4325404A1 (de) * | 1993-07-29 | 1995-02-02 | Telefonbau & Normalzeit Gmbh | Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen |
-
1994
- 1994-04-09 DE DE19944412309 patent/DE4412309C2/de not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3708002A1 (de) * | 1987-03-12 | 1988-09-22 | Telefonbau & Normalzeit Gmbh | Messverfahren zum beurteilen der guete von sprachcodierern und/oder uebertragungsstrecken |
DE4325404A1 (de) * | 1993-07-29 | 1995-02-02 | Telefonbau & Normalzeit Gmbh | Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen |
Also Published As
Publication number | Publication date |
---|---|
DE4412309A1 (de) | 1995-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE19604273C5 (de) | Verfahren und Vorrichtung zum Durchführen einer Suche in einem Kodebuch im Hinblick auf das Kodieren eines Klangsignales, Zellkommunikationssystem, Zellnetzwerkelement und mobile Zell-Sender-/Empfänger-Einheit | |
DE69814517T2 (de) | Sprachkodierung | |
DE69023402T2 (de) | Verfahren zur Sprachkodierung und -dekodierung. | |
DE3236834C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE69932460T2 (de) | Sprachkodierer/dekodierer | |
DE69731588T2 (de) | Coderienrichtung mit verringerter komplexität für ein signalübertragungssystem | |
DE3853161T2 (de) | Vektorquantisierungscodierer. | |
DE2626793A1 (de) | Verfahren zur bewertung stimmhafter und stimmloser zustaende eines sprachsignals | |
DE69524890T2 (de) | Parametrische Sprachkodierung | |
DE69615870T2 (de) | Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen | |
DE69614937T2 (de) | Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche | |
DE69329568T2 (de) | Verfahren zur Sprachkodierung | |
DE4491015C2 (de) | Verfahren zum Erzeugen eines Spektralrauschbewertungsfilters zur Verwendung in einem Sprachcoder | |
DE69232166T2 (de) | Fehlerschutz für vielfachmodensprachkodierer | |
DE3711342A1 (de) | Verfahren zum erkennen zusammenhaengend gesprochener woerter | |
DE3708002C2 (de) | ||
DE69630177T2 (de) | Sprachkodierer mit der Fähigkeit zur wesentlichen Vergrösserung der Codebuchgrösse ohne aber die Zahl der übertragenen Bits zu vergrössern | |
DE69830816T2 (de) | Mehrstufige Audiodekodierung | |
DE60016305T2 (de) | Verfahren zum Betrieb eines Sprachkodierers | |
DE60109111T2 (de) | Sprachdekoder zum hochqualitativen Dekodieren von Signalen mit Hintergrundrauschen | |
DE69527345T2 (de) | CELP-Sprachkodierer mit verbessertem Langzeit-Prädiktor | |
DE4412309C2 (de) | Verfahren zur Verbesserung der Spracherkennung unter Berücksichtigung verschiedener digitaler Codierbedingungen | |
DE3215868C2 (de) | ||
EP0658878A2 (de) | System zum Übertragen eines Sprachsignals | |
DE3048107A1 (de) | Verfahren zur mustervorverarbeitung fuer ein spracherkennungssystem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8127 | New person/name/address of the applicant |
Owner name: ROBERT BOSCH GMBH, 70469 STUTTGART, DE |
|
8110 | Request for examination paragraph 44 | ||
8127 | New person/name/address of the applicant |
Owner name: TENOVIS GMBH & CO. KG, 60326 FRANKFURT, DE |
|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |