DE4031638C2 - - Google Patents
Info
- Publication number
- DE4031638C2 DE4031638C2 DE4031638A DE4031638A DE4031638C2 DE 4031638 C2 DE4031638 C2 DE 4031638C2 DE 4031638 A DE4031638 A DE 4031638A DE 4031638 A DE4031638 A DE 4031638A DE 4031638 C2 DE4031638 C2 DE 4031638C2
- Authority
- DE
- Germany
- Prior art keywords
- speaker
- dictionary
- reference patterns
- dependent
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000001419 dependent effect Effects 0.000 claims description 42
- 238000001228 spectrum Methods 0.000 claims description 27
- 238000010586 diagram Methods 0.000 description 9
- 238000000034 method Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Description
Die Erfindung betrifft eine Spracherkennungseinrichtung nach
dem Oberbegriff des Anspruchs 1.
Diese Spracherkennungseinrichtung verwendet ein binäres Zeit-Spek
trum-Muster. Darüber hinaus weist
sie ein sprecher-unabhängiges
und ein sprecher-abhängiges Wörterbuch auf.
Eine Spracherkennungseinrichtung nach dem Oberbegriff
des Anspruchs 1 ist aus der DE-OS 38 19 178 bekannt.
Üblicherweise werden ein sprecher-unabhängiges und sprecher-
abhängiges Wörterbuch, die in einer Spracherkennungseinrich
tung vorgesehen sind, wahlweise im Hinblick auf einen Spre
cher verwendet, welcher die Spracherkennungseinrichtung be
nutzt. In einer solchen Spracherkennungseinrichtung sind zwei
Spracherkennungsteile für das sprecher-unabhängige bzw. für das
sprecher-abhängige Wörterbuch vorgesehen, weil Referenzmuster,
welche in dem sprecher-unabhängigen Wörterbuch registriert
sind, durch ein Verfahren erzeugt werden, das sich von demje
nigen unterscheidet, um Referenzmuster zu schaffen, welche in
dem sprecher-abhängigen Wörterbuch registriert sind. Ein von
einem Sprecher gesprochenes Wort wird getrennt durch die zwei
Spracherkennungsteile erkannt, und die jeweiligen Erkennungs
ergebnisse werden erhalten. Dann wird eines der beiden Erken
nungsergebnisse basierend auf einer vorherbestimmten Vorschrift
ausgewählt.
Herkömmliche Spracherkennungseinrichtungen, wie sie vorstehend
beschrieben sind, benötigen jedoch zwei gesonderte Erkennungs
teile, und es ist ein gewaltiger Rechenaufwand erforderlich,
um die Erkennungsergebnisse einzustellen, welche mit Hilfe
des sprecher-unabhängigen und des sprecher-abhängigen Wör
terbuchs erhalten worden sind.
Gemäß der Erfindung soll daher eine Spracherkennungseinrich
tung nach dem Oberbegriff des Anspruchs 1 geschaffen werden, die
einen einzigen Erken
nungsteil hat, welcher ein Wort mit Hilfe eines sprecher-un
abhängigen und eines sprecher-abhängigen Wörterbuchs erkennen
kann. Gemäß der Erfindung ist dies
durch die
Merkmale im kennzeichnenden Teil des Anspruchs 1 erreicht. Vorteilhaf
te Weiterbildungen der Erfindung sind Gegenstand der Unteran
sprüche.
Nachfolgend wird die Erfindung anhand von bevorzugten Ausfüh
rungsformen unter Bezugnahme auf die anliegenden Zeichnungen
im einzelnen erläutert. Es zeigen:
Fig. 1 ein Blockdiagramm einer Spracherkennungseinrich
tung gemäß einer bevorzugten Ausführungsform der
Erfindung;
Fig. 2 ein Diagramm, in welchem ein Beispiel eines binären
Zeit-Spektrum-Musters dargestellt ist;
Fig. 3A ein Diagramm, in welchem dargestellt ist, wie ein
Referenzmuster erzeugt wird, welches in einem in
Fig. 2 dargestellten sprecher-unabhängigen Wörter
buch zu registrieren ist;
Fig. 3B ein Diagramm, in welchem dargestellt ist, wie ein
Referenzmuster erzeugt wird, welches in einem in
Fig. 2 dargestellten sprecher-abhängigen Wörter
buch zu registrieren ist;
Fig. 4 ein Diagramm, in welchem dargestellt ist, wie Mu
ster eines identischen von ein und demselben Spre
cher ausgesprochenen Worts addiert werden;
Fig. 5 ein Blockdiagramm, in welchem die Strukturen und
Betriebsarten einer Wörterbuchinformations-Spei
chereinheit und der in Fig. 2 dargestellten Wich
tungseinheit dargestellt sind;
Fig. 6 ein Blockdiagramm, in welchem verschiedene Struk
turen und Betriebsarten der Wörterbuchinformations-
Speichereinheit und der in Fig. 2 dargestellten
Wichtungseinheit dargestellt sind;
Fig. 7 ein Blockdiagramm, in welchem verschiedene Struk
turen und Betriebsarten der Wörterbuchinforma
tions-Speichereinheit und der in Fig. 2 darge
stellten Wichtungseinheit wiedergegeben sind, und
Fig. 8 ein Blockdiagramm, in welchem verschiedene Struk
turen und Operationen der Wörterbuchinformations-
Speichereinheit und der in Fig. 2 dargestellten
Wichtungseinheit dargestellt sind.
In Fig. 1 ist eine Spracherkennungseinrichtung gemäß einer
bevorzugten Ausführungsform der Erfindung dargestellt. Diese
Spracherkennungseinrichtung weist eine Vorverarbeitungsein
heit 1, eine Merkmal-Extrahiereinheit 2, einen Sprachab
schnittsdetektor 3, einen Mustergenerator 4, ein sprecher-un
abhängiges Wörterbuch 5, ein sprecher-abhängiges Wörterbuch 6,
eine Wörterbuchinformations-Speichereinheit 7, eine Wich
tungseinheit 8 und eine Erkennungseinheit 9 auf.
Eine von einem (nicht dargestellten) Mikrophon abgegebene
Sprache wird der Vorverarbeitungseinheit 1 zugeführt, welche
das Sprachsignal verstärkt und dessen hochfrequente Kompo
nente hervorhebt. Ferner wird in der Vorverarbeitungseinheit
1 das Sprachsignal mit den hervorgehobenen hochfrequenten
Komponenten zu einer AGC-Schaltung und einer Filterbank durch
gelassen, welche durch eine Anzahl Bandpaß-Filter gebildet
ist. Die vorstehend beschriebene Arbeitsweise der Vorverar
beitungseinheit 1 ist üblich.
Ein auf diese Weise erhaltenes, vorverarbeitetes Sprachsignal
wird an die Merkmalextrahiereinheit 2 und den Sprachabschnitts
detektor 3 angelegt. Die Einheit 2 extrahiert Merkmale des
vorverarbeiteten Sprachsignals von der Verarbeitungseinheit 1
in einem herkömmlichen Prozeß. Beispielsweise extrahiert die
Merkmalsextrahiereinheit 2 Leistungsspektren oder LPC-Spek
tren aus dem vorverarbeiteten Sprachsignal. Die Merkmale, wel
che mittels der Einheit 2 extrahiert worden sind, werden an
den Mustergenerator 4 abgegeben. Der Sprachabschnittdetektor
3 stellt einen Sprachabschnitt (ein Wort) in dem vorverarbei
teten Sprachsignal durch Überwachen dessen Pegels fest. Ein
Sprachabschnitt beginnt, wenn der Pegel des vorverarbeiteten
Sprachsignals einen vorherbestimmten Schwellenwertpegel über
schreitet, und dieser Sprachabschnitt endet, wenn dessen Pe
gel gleich oder kleiner als der vorherbestimmte Schwellenwert
ist. Die auf diese Weise erhaltenen Sprachabschnitte werden
an den Mustergenerator 4 abgegeben. Der Mustergenerator 4 er
zeugt ein binäres Zeit-Spektrum-Muster für jeden Sprachab
schnitt auf herkömmliche Weise. (Siehe J. Fujimoto et al,
"A SPOKEN WORD RECOGNITION METHOD BY BINARY TSP MATCHING",
Ricoh Technical Report Nr. 11, Mai 1984, S. 4 bis 12).
In Fig. 2 ist ein Beispiel eines binären Zeit-Spektrum-Mu
sters dargestellt, welches von dem Mustergenerator erzeugt
und ausgegeben worden ist. Die horizontale Richtung in Fig. 2
gibt die Frequenzen des binären Zeit-Spektrum-Musters und
die vertikale Richtung gibt den Zeitdurchgang an. Die Frequenz
des binären Zeit-Spektrum-Musters nimmt in der Zeichnung nach
rechts hin zu. Das binäre Zeit-Spektrum-Muster enthält eine
Anzahl Rahmen, welche in vorherbestimmten Intervallen erhal
ten worden sind. Beispielsweise ist der Anfangsrahmen des in
Fig. 2 dargestellten, binären Zeit-Spektrum-Musters
"001100100000000", wobei "0" oder "1" der Wert jedes Elements
ist. In dem in Fig. 2 dargestellten Beispiel ist die Frequenz
achse in 15 Frequenzbereiche unterteilt. Für jeden der Fre
quenzbereiche wird festgelegt, ob die akustische Energie
gleich oder größer als ein vorherbestimmter Schwellenwert ist
oder nicht. Wenn die akustische Energie gleich oder größer
als der vorherbestimmte Schwellenwert ist, wird für den ent
sprechenden Frequenzbereich "1" vorgesehen. Wenn dagegen die
akustische Energie kleiner als der vorherbestimmte Schwellen
wert ist, wird für den entsprechenden Frequenzbereich "0"
vorgesehen.
Das sprecher-unabhängige Wörterbuch 5 speichert Referenz-
Zeit-Spektrum-Muster von Worten, welche in einer Weise erhal
ten worden sind, welche später noch beschrieben wird. Das
sprecher-abhängige Wörterbuch 6 speichert Referenz-Zeit-
Spektrum-Muster von Worten, welche in einer Weise erhalten
worden sind, die später noch beschrieben wird. Die Wörter
buchinformations-Speichereinheit 7 erhält Wörterbuchinforma
tion (was später noch beschrieben wird) von dem sprecher-un
abhängigen und dem sprecher-abhängigen Wörterbuch 5 bzw. 6.
Ferner schreibt die Speichereinheit 7 Referenzmuster, welche
auf die in Fig. 3A und 3B dargestellten Weisen erzeugt wer
den (was später noch beschrieben wird) in das sprecher-unab
hängige und das sprecher-abhängige Wörterbuch 5 bzw. 6.
Die Wichtungseinheit 8 liest ein Referenz-Zeit-Spektrum-Mu
ster aus dem sprecher-abhängigen Wörterbuch 6 aus und wichtet
das ausgelesene Referenz-Zeit-Spektrum-Muster in einer Weise,
welche später noch im einzelnen beschrieben wird. Ein gewich
tetes Referenz-Zeit-Spektrum-Muster, das von der Wichtungsein
heit 8 erzeugt und abgegeben worden ist, wird an die Erken
nungseinheit 9 abgegeben, und ein Referenz-Zeit-Spektrum-
Muster, das aus dem sprecher-unabhängigen Wörterbuch 5 aus
gelesen worden ist, wird an die Erkennungseinheit 9 abgegeben.
Die Referenzeinheit (Erkennungseinheit) 9 führt eine Multiplikation an Elementen
(Spektralkomponenten) an entsprechenden Stellen des gewich
teten Referenzmusters und des von dem Mustergenerator 4 abge
gebenen, binären Zeit-Spektrum-Musters der eingegebenen Spra
che durch und berechnet die Summe der Ergebnisse der Multi
plikations-Operation. Die auf diese Weise erhaltene Summe
zeigt einen Ähnlichkeitsgrad der eingegebenen Sprache mit dem
in Betracht zu ziehenden Referenzmuster an. In ähnlicher
Weise führt die Referenzeinheit 9 eine Multiplikation an Ele
menten an entsprechenden Stellen des aus dem sprecher-unab
hängigen Wörterbuch 5 ausgelesenen Referenzmusters und des
von dem Mustergenerator 4 zugeführten Eingangsmusters durch
und berechnet die Summe der Ergebnisse der Multiplikations-
Operation. Auf die vorstehend beschriebene Weise werden eine
Anzahl Wort-Kandidaten erhalten. Die Erkennungseinheit 9 gibt
den Kandidaten mit dem höchsten Ähnlichkeitsgrad (dem höch
sten Summenwert) als das Erkennungsergebnis ab. Es kann aber
auch irgendein anderes bekanntes Erkennungsverfahren angewen
det werden. Beispielsweise kann ein zusätzliches Element in
der Erkennungsprozedur hinzuaddiert werden.
In Fig. 3A ist dargestellt, wie ein Referenz-Zeit-Spektrum-Mu
ster erzeugt wird, welches in dem sprecher-unabhängigen Wör
terbuch 5 zu registrieren ist. Verschiedene Sprecher A, B, C,
D, E, . . ., O sprechen dasselbe Wort aus, und es werden binäre
Zeit-Spektrum-Muster desselben Wortes, das von den Sprechern
ausgesprochen worden ist, erzeugt und addiert, so daß ein
einziges Referenz-Zeit-Spektrum-Muster des in Betracht zu zie
henden Wortes erzeugt wird. Natürlich könnnen auch die Spre
cher für jedes zu registrierende Wort wechseln.
In Fig. 3B ist dargestellt, wie ein Referenzmuster erzeugt
wird, welches in das sprecher-abhängige Wörterbuch 6 zu re
gistrieren ist. Ein Sprecher A spricht dasselbe Wort dreimal
aus, und die jeweiligen binären Zeit-Spektrum-Muster werden
erzeugt und addiert, so daß ein einziges Referenz-Zeit-Spek
trum-Muster bezüglich des Sprechers A erzeugt wird.
In der Darstellung der Fig. 4 spricht ein Sprecher A ein Wort
dreimal aus, und die jeweiligen binären Zeit-Spektrum-Muster
INP1, INP2 und INP3 werden erzeugt, und anschließend addiert;
auf diese Weise wird ein Referenzmuster erzeugt. Das Muster
INP1 hat die größte Wortlänge auf der Zeitbasis. Folglich wer
den zwei Zeilen (Rahmen) zu dem Muster INP2 addiert, und eine
Zeile wird zu dem Muster INP3 addiert. Beispielsweise werden
die zwei Zeilen, welche zu dem Muster INP2 zu addieren sind,
jeweils aus dem letzten Rahmen (der letzten Zeile) gebildet.
In Fig. 5 sind die Strukturen und Betriebsarten der Wörter
buchinformations-Speichereinheit 7 und der Wichtungseinheit 8
dargestellt. Die Speichereinheit 7 speichert Wörterbuchinfor
mation an den Referenzmuster, welche in dem sprecher-unabhän
gigen und dem sprecher-abhängigen Wörterbuch 5 bzw. 6 regi
striert sind. Die in Fig. 5 verwendete Wörterbuchinformation
setzt sich aus dem Maximalwert der Elemente der in dem spre
cher-unabhängigen Wörterbuch 5 registrierten Referenz-Zeit-
Spektrum-Muster und aus dem Maximalwert der Elemente der in
dem sprecher-abhängigen Wörterbuch 6 registrierten Referenz
muster zusammen. Im Falle der Fig. 5 ist der Maximalwert der
Elemente, die zu dem sprecher-unabhängigen Wörterbuch 5 Be
zug haben, gleich 13, und der Maximalwert der Elemente, wel
che zu dem sprecher-abhängigen Wörterbuch 6 Bezug haben, ist
gleich 3.
Die in Fig. 5 dargestellte Wichtungseinheit 8 setzt sich aus
einer Teilungseinheit (Teilungseinrichtung) 10, eine Ganzzahleinheit (Ganzzahl-Extrahiereinrichtung) 11 und eine
Multipliziereinheit (Multipliziereinrichtung) 13 zusammen. Die Teilungseinheit 11 teilt
den Maximalwert, der zu dem sprecher-unabhängigen Wörterbuch
5 in Beziehung steht, durch den Maximalwert, welcher zu dem
sprecher-abhängigen Wörterbuch 6 in Beziehung steht. In dem
in Fig. 5 dargestellten Fall teilt die Einheit 10 13 durch 3,
und gibt 4,333... ab. Die Ganzzahleinheit 11 extrahiert einen
ganzzahligen Teil aus dem geteilten Ergebnis. In dem in Fig. 5
dargestellten Fall gibt die Ganzzahleinheit 11 4 ab. Die von
der Einheit 11 abgegebene ganze Zahl ist ein Wichtungsfaktor.
Die Multipliziereinheit (Multipliziereinrichtung) 13 multipliziert das aus dem sprecher-
abhängigen Wörterbuch 6 ausgelesene Referenzmuster, insbeson
dere jedes darin enthaltene Element mit dem Wichtungsfaktor.
In dem in Fig. 5 dargestellten Fall wird ein aus dem sprecher-
abhängigen Wörterbuch 6 ausgelesenes Referenzmuster infolge
der Multiplikation mit dem Wichtungsfaktor vervierfacht. Dann
wird das vervierfachte Referenzmuster an die Erkennungsein
heit 9 abgegeben.
Die Wörterbuchinformation kann auch unter der Steuerung der
Wörterbuchinformations-Speichereinheit 7 durch Suchen des
sprecher-unabhängigen Wörterbuchs 5 und des sprecher-abhängi
gen Wörterbuchs 6 geschrieben werden. Andererseits kann auch
die Wörterbuchinformation geschrieben werden, wenn Bezugsmu
ster in den Wörterbüchern 5 und 6 registriert werden.
Es ist zu beachten, daß die in Fig. 3B dargestellte Prozedur
zum Erzeugen der Referenzmuster, welche in dem sprecher-ab
hängigen Wörterbuch 6 zu registrieren sind, sich von der in
Fig. 3A dargestellten Prozedur zum Erzeugen der Bezugsmuster
unterscheidet, welche in dem sprecher-unabhängigen Wörter
buch 5 zu registrieren sind. Folglich ist es nicht möglich,
die erhaltenen Erkennungsergebnisse zu handhaben, indem ein
fach die Referenzmuster verwendet werden, welche durch die
verschiedenen Prozeduren in der einzigen Erkennungseinheit 9
erhalten worden sind. Das heißt, Unterschiede der Referenz
muster, welche durch die verschiedenen Prozeduren erhalten
worden sind, müssen ausgeglichen werden, um dadurch diese Re
ferenzmuster unter einer ausgeglichenen Voraussetzung zu
handhaben. Dies ist durch die Wichtungseinheit 8 mit der vor
erwähnten Struktur und Arbeitsweise erreicht.
In Fig. 6 sind verschiedene Strukturen und Arbeitsweisen der
Wörterbuch-Informations-Speichereinheit 7 und der Wichtungs
einheit 8 dargestellt. Die Wörterbuchinformation, welche die
selbe wie in Fig. 5 ist, ist in der Konfiguration der Fig. 6
verwendet. Die Wichtungseinheit 8 hat einen Tabellenspeicher
12, welcher Wichtungsfaktoren speichert, die durch den maxi
malen Wert, welcher Bezug zu dem speicher-unabhängigen Wör
terbuch 5 hat, und durch den Maximalwert festgelegt sind, wel
cher Bezug zu dem sprecher-abhängigen Wörterbuch 6 hat.
In Fig. 7 sind verschiedene Strukturen und Arbeitsweisen der
Wörterbuchinformations-Speichereinheit 7 und der Wichtungsein
heit 8 dargestellt. Die in Fig. 7 verwendete Wörterbuchinfor
mation setzt sich aus der Anzahl Muster desselben Wortes,
welche addiert werden, wenn ein Referenzmuster dieses in dem
sprecher-unabhängigen Wörterbuch 5 zu registrierenden Worts
erzeugt wird, und aus der Anzahl Muster desselben Wortes zu
sammen, welche addiert werden, wenn ein Referenzmuster des in
dem sprecher-abhängigen Wörterbuchs 6 zu registrierenden Wor
tes erzeugt wird. Im in Fig. 7 dargestellten Fall werden Mu
ster von 15 verschiedenen Sprechern verwendet, um das
entsprechende Referenzmuster zu erzeugen, das in dem sprecher-
unabhängigen Wörterbuch 5 zu registrieren ist, und 3 Muster
desselben Sprechers werden verwendet, um das entsprechende
Referenzmuster zu erzeugen, das in dem sprecher-abhängigen
Wörterbuch 6 zu registrieren ist. Die Wichtungseinheit 6 ist
aus der Teilungseinheit 10 und der Ganzzahleinheit 11 in der
selben Weise wie die in Fig. 5 dargestellte Konfiguration zu
sammengesetzt. Die Teilungseinheit 10 teilt die Zahl, welche
sich auf das sprecher-unabhängige Wörterbuch 5 bezieht, durch
die Zahl, welche sich auf das sprecher-abhängige Wörterbuch
6 bezieht. In dem in Fig. 7 dargestellten Fall teilt die Tei
lungseinheit 15 durch 3, und gibt das Teilungsergebnis (wel
ches in diesem Fall gleich 5 ist) ab. Die Ganzzahleinheit 11
extrahiert den ganzzahligen Teil aus dem Teilungsergebnis.
Der extrahierte ganzzahlige Teil ist der Wichtungsfaktor.
In dem in Fig. 7 dargestellten Fall ist der Wichtungsfaktor
gleich 5.
In Fig. 8 sind verschiedene Strukturen und Arbeitsweisen der
Wörterbuchinformation-Speichereinheit 7 und der Wichtungsein
heit 8 dargestellt. Die in Fig. 8 dargestellte Struktur wird
durch Kombinieren der in Fig. 6 und 7 dargestellten Konfigura
tion erhalten. Das heißt, die Wörterbuchinformation setzt
sich aus der Anzahl Muster desselben Wortes, welche addiert
werden, wenn ein Referenzmuster des in Betracht zu ziehenden
Wortes, das in dem sprecher-unabhängigen Wörterbuch 5 zu re
gistrieren ist, erzeugt wird, und aus der Anzahl Muster des
selben Wortes, welche addiert werden, wenn ein Referenzmu
ster des in Betracht zu ziehenden Wortes erzeugt wird, das
in dem sprecher-abhängigen Wörterbuch 6 zu registrieren ist.
Die Wichtungseinheit 8 hat eine Speichertabelle 12, welche
Wichtungsfaktoren speichert, welche durch die Zahl, welche
sich auf das sprecher-unabhängige Wörterbuch 5 bezieht, und
durch die Zahl festgelegt sind, die sich auf das sprecher-ab
hängige Wörterbuch 6 bezieht.
In den vorstehend beschriebenen Ausführungsformen der Erfin
dung ist ein Wichtungsfaktor für ein Wörterbuch vorgesehen.
Es können jedoch auch Wichtungsfaktoren für die jeweiligen
Referenzmuster geschaffen werden.
Claims (8)
1. Spracherkennungseinrichtung, mit
einer Eingabeeinrichtung (1, 2, 3) zum Aufnehmen eines einge gebenen Sprachsignals und zum Extrahieren von Merkmalen aus der eingegebenen Sprache;
einem Mustergenerator (4), welcher mit der Eingabe einrichtung verbunden ist, um ein Sprachmuster der eingegebe nen Sprache aus den durch die Eingabeeinrichtung extrahierten Merkmalen zu erzeugen, wobei das Sprachmuster ein Zeit-Spek trum-Muster hat, das in vorherbestimmten Intervallen erhal tene Frequenzelemente zeigt;
einem sprecher-unabhängigen Wörterbuch (5) zum Speichern einer ersten Gruppe von Referenzmustern, die jeweils durch Addieren einer Anzahl Zeit-Spektrum-Muster eines von verschie denen Sprechern ausgesprochenen, identischen Wortes erhalten worden sind, und
einem sprecher-abhängigen Wörterbuch (6) zum Speichern einer zweiten Gruppe von Referenzmustern, die jeweils durch Addie ren von Zeit-Spektrum-Mustern eines von ein- und demselben Sprecher ausgesprochenen, identischen Worts erhalten worden sind,
gekennzeichnet durch
eine Wörterbuchinformations-Speichereinrichtung (7), welche mit dem sprecher-unabhängigen und dem sprecher-abhängigen Wörterbuch (5 bzw. 6) verbunden ist, um Wörterbuchinforma tion über die erste und über die zweite Gruppe von Referenz mustern zu speichern;
eine Wichtungseinrichtung (8), welche mit dem sprecher-abhän gigen Wörterbuch (6) und der Wörterbuchinformations-Speicher- Einrichtung (7) verbunden ist, um einen Wichtungsfaktor aus der Wörterbuchinformation zu berechnen und um die zweite Gruppe von Referenzmustern in dem sprecher-abhängigen Wörter buch mit Hilfe des Wichtungsfaktors zu wichten, um dadurch gewichtete Referenzmuster abzugeben, und
eine Erkennungseinrichtung (9), welche mit dem Muster generator (4), dem sprecher-unabhängigen Wörterbuch (5) und der Wichtungseinrichtung (8) verbunden ist, um das Sprachmuster des eingegebenen Sprachsignals, das mittels dem Mustergenerator (4) erzeugt worden ist, mit Hilfe der ersten Gruppe Referenzmuster in dem sprecher-unabhängigen Wörterbuch (5) und dem von der Wichtungseinrich tung (8) zugeführten gewichteten Referenzmuster zu erkennen, so daß die erste Gruppe von Referenzmustern und die gewichteten Referenz muster gleich behandelt werden.
einer Eingabeeinrichtung (1, 2, 3) zum Aufnehmen eines einge gebenen Sprachsignals und zum Extrahieren von Merkmalen aus der eingegebenen Sprache;
einem Mustergenerator (4), welcher mit der Eingabe einrichtung verbunden ist, um ein Sprachmuster der eingegebe nen Sprache aus den durch die Eingabeeinrichtung extrahierten Merkmalen zu erzeugen, wobei das Sprachmuster ein Zeit-Spek trum-Muster hat, das in vorherbestimmten Intervallen erhal tene Frequenzelemente zeigt;
einem sprecher-unabhängigen Wörterbuch (5) zum Speichern einer ersten Gruppe von Referenzmustern, die jeweils durch Addieren einer Anzahl Zeit-Spektrum-Muster eines von verschie denen Sprechern ausgesprochenen, identischen Wortes erhalten worden sind, und
einem sprecher-abhängigen Wörterbuch (6) zum Speichern einer zweiten Gruppe von Referenzmustern, die jeweils durch Addie ren von Zeit-Spektrum-Mustern eines von ein- und demselben Sprecher ausgesprochenen, identischen Worts erhalten worden sind,
gekennzeichnet durch
eine Wörterbuchinformations-Speichereinrichtung (7), welche mit dem sprecher-unabhängigen und dem sprecher-abhängigen Wörterbuch (5 bzw. 6) verbunden ist, um Wörterbuchinforma tion über die erste und über die zweite Gruppe von Referenz mustern zu speichern;
eine Wichtungseinrichtung (8), welche mit dem sprecher-abhän gigen Wörterbuch (6) und der Wörterbuchinformations-Speicher- Einrichtung (7) verbunden ist, um einen Wichtungsfaktor aus der Wörterbuchinformation zu berechnen und um die zweite Gruppe von Referenzmustern in dem sprecher-abhängigen Wörter buch mit Hilfe des Wichtungsfaktors zu wichten, um dadurch gewichtete Referenzmuster abzugeben, und
eine Erkennungseinrichtung (9), welche mit dem Muster generator (4), dem sprecher-unabhängigen Wörterbuch (5) und der Wichtungseinrichtung (8) verbunden ist, um das Sprachmuster des eingegebenen Sprachsignals, das mittels dem Mustergenerator (4) erzeugt worden ist, mit Hilfe der ersten Gruppe Referenzmuster in dem sprecher-unabhängigen Wörterbuch (5) und dem von der Wichtungseinrich tung (8) zugeführten gewichteten Referenzmuster zu erkennen, so daß die erste Gruppe von Referenzmustern und die gewichteten Referenz muster gleich behandelt werden.
2. Spracherkennungseinrichtung nach Anspruch 1, dadurch
gekennzeichnet, daß die Wörterbuchinformation
aufweist:
einen ersten Maximalwert der Frequenzelemente in der ersten Gruppe von Referenzmustern, die im sprecher-unabhängigen Wörterbuch (5) registriert sind, und
einen zweiten Maximalwert der Frequenzelemente in der zweiten Gruppe von Referenzmustern, welche in dem sprecher-abhängi gen Wörterbuch (6) registriert sind.
einen ersten Maximalwert der Frequenzelemente in der ersten Gruppe von Referenzmustern, die im sprecher-unabhängigen Wörterbuch (5) registriert sind, und
einen zweiten Maximalwert der Frequenzelemente in der zweiten Gruppe von Referenzmustern, welche in dem sprecher-abhängi gen Wörterbuch (6) registriert sind.
3. Spracherkennungseinrichtung nach Anspruch 2, dadurch
gekennzeichnet, daß die Wichtungseinrichtung (8)
aufweist:
eine Teilungseinrichtung (10), um den ersten Maximalwert durch den zweiten Maximalwert zu teilen und ein geteiltes Ergebnis zu geben;
eine Ganzzahl-Extrahiereinrichtung (11), welche mit der Tei lungseinrichtung (10) verbunden ist, um eine ganze Zahl aus dem geteilten Ergebnis zu extrahieren, und
eine Multipliziereinrichtung (13), welche mit dem sprecher- abhängigen Wörterbuch (6) und der Ganzzahl-Extrahiereinrich tung (11) verbunden ist, um eine der zweiten Gruppen Referenz muster, welche in dem sprecher-abhängigen Wörterbuch (6) ge speichert sind, mit der ganzen Zahl zu multiplizieren, und ein multipliziertes Ergebnis abzugeben, welches dem einen der gewichteten Referenzmuster entspricht.
eine Teilungseinrichtung (10), um den ersten Maximalwert durch den zweiten Maximalwert zu teilen und ein geteiltes Ergebnis zu geben;
eine Ganzzahl-Extrahiereinrichtung (11), welche mit der Tei lungseinrichtung (10) verbunden ist, um eine ganze Zahl aus dem geteilten Ergebnis zu extrahieren, und
eine Multipliziereinrichtung (13), welche mit dem sprecher- abhängigen Wörterbuch (6) und der Ganzzahl-Extrahiereinrich tung (11) verbunden ist, um eine der zweiten Gruppen Referenz muster, welche in dem sprecher-abhängigen Wörterbuch (6) ge speichert sind, mit der ganzen Zahl zu multiplizieren, und ein multipliziertes Ergebnis abzugeben, welches dem einen der gewichteten Referenzmuster entspricht.
4. Spracherkennungseinrichtung nach Anspruch 2, dadurch
gekennzeichnet, daß die Wichtungseinrichtung (8)
aufweist:
einen Tabellenspeicher (12) zum Speichern vorherbestimmter Wichtungsfaktoren, welche durch mögliche erste Maximalwerte der Frequenzelemente der ersten Gruppe von Referenzmustern und durch mögliche zweite Maximalwerte der Frequenzelemente der zweiten Gruppe von Referenzmustern festgelegt worden sind, und um einen der vorherbestimmten Wichtungsfaktoren abzuge ben, und
eine Multipliziereinrichtung (13), welche mit dem spre cher-abhängigen Wörterbuch (6) und dem Tabellenspeicher (12) verbunden ist, um eine der zweiten Gruppen von Referenzmu stern, die in dem sprecher-abhängigen Wörterbuch (6) re gistriert sind, mit dem abgegebenen Wichtungsfaktor zu multiplizieren und um ein Multiplikationsergebnis abzugeben, welches einem gewichteten Referenzmuster entspricht.
einen Tabellenspeicher (12) zum Speichern vorherbestimmter Wichtungsfaktoren, welche durch mögliche erste Maximalwerte der Frequenzelemente der ersten Gruppe von Referenzmustern und durch mögliche zweite Maximalwerte der Frequenzelemente der zweiten Gruppe von Referenzmustern festgelegt worden sind, und um einen der vorherbestimmten Wichtungsfaktoren abzuge ben, und
eine Multipliziereinrichtung (13), welche mit dem spre cher-abhängigen Wörterbuch (6) und dem Tabellenspeicher (12) verbunden ist, um eine der zweiten Gruppen von Referenzmu stern, die in dem sprecher-abhängigen Wörterbuch (6) re gistriert sind, mit dem abgegebenen Wichtungsfaktor zu multiplizieren und um ein Multiplikationsergebnis abzugeben, welches einem gewichteten Referenzmuster entspricht.
5. Spracherkennungseinrichtung nach Anspruch 1, dadurch ge
kennzeichnet, daß die Wörterbuchinformation eine
erste Zahl, welche der Anzahl Muster des identischen Worts
entspricht, das zum Erzeugen einer der ersten Gruppen von Re
ferenzmustern verwendet ist, und eine zweite Zahl aufweist,
welche der Anzahl Muster des identischen Wortes entspricht,
welche zum Erzeugen einer der zweiten Referenzmuster-Gruppe
entspricht.
6. Spracherkennungseinrichtung nach Anspruch 5, dadurch ge
kennzeichnet, daß die Wichtungseinrichtung (8)
aufweist:
eine Teilungseinrichtung (10), um die erste Zahl durch die zweite Zahl zu teilen, und um ein Teilungsergebnis abzuge ben;
eine Ganzzahl-Extrahiereinrichtung (11), welche mit der Tei lungseinrichtung (10) verbunden ist, um eine ganze Zahl aus dem Teilungsergebnis zu extrahieren, und
eine Multipliziereinrichtung (13), welche mit dem sprecher- abhängigen Wörterbuch (6) und der Ganzzahl-Extrahiereinrich tung (11) verbunden ist, um eine der zweiten Gruppe Referenz muster, welche in dem sprecher-abhängigen Wörterbuch (6) registriert sind, mit der ganzen Zahl zu multiplizieren, und um ein Multiplizierergebnis abzugeben, welches dem einen der gewichteten Referenzmuster entspricht.
eine Teilungseinrichtung (10), um die erste Zahl durch die zweite Zahl zu teilen, und um ein Teilungsergebnis abzuge ben;
eine Ganzzahl-Extrahiereinrichtung (11), welche mit der Tei lungseinrichtung (10) verbunden ist, um eine ganze Zahl aus dem Teilungsergebnis zu extrahieren, und
eine Multipliziereinrichtung (13), welche mit dem sprecher- abhängigen Wörterbuch (6) und der Ganzzahl-Extrahiereinrich tung (11) verbunden ist, um eine der zweiten Gruppe Referenz muster, welche in dem sprecher-abhängigen Wörterbuch (6) registriert sind, mit der ganzen Zahl zu multiplizieren, und um ein Multiplizierergebnis abzugeben, welches dem einen der gewichteten Referenzmuster entspricht.
7. Spracherkennungseinrichtung nach Anspruch 5, dadurch
gekennzeichnet, daß die Wichtungseinrichtung
(8) aufweist:
einen Tabellenspeicher (12), um vorherbestimmte Wichtungs faktoren zu speichern, welche durch mögliche erste Maximal werte der Frequenzelemente der ersten Gruppe von Referenz mustern und durch mögliche zweite Maximalwerte der Frequenz elemente der zweiten Gruppe von Referenzmustern festgelegt worden sind, und um einen der vorherbestimmten Wichtungsfaktoren abzugeben, und
eine Multipliziereinrichtung (13), welche mit dem sprecher- abhängigen Wörterbuch (6) und dem Tabellenspeicher (12) ver bunden ist, um eine der zweiten Gruppe von Referenzmustern, die in dem sprecher-abhängigen Wörterbuch (6) registriert sind, mit dem abgegebenen Wichtungsfaktor zu multiplizieren und um ein Multiplikationsergebnis abzugeben, welches einem gewich teten Referenzmuster entspricht.
einen Tabellenspeicher (12), um vorherbestimmte Wichtungs faktoren zu speichern, welche durch mögliche erste Maximal werte der Frequenzelemente der ersten Gruppe von Referenz mustern und durch mögliche zweite Maximalwerte der Frequenz elemente der zweiten Gruppe von Referenzmustern festgelegt worden sind, und um einen der vorherbestimmten Wichtungsfaktoren abzugeben, und
eine Multipliziereinrichtung (13), welche mit dem sprecher- abhängigen Wörterbuch (6) und dem Tabellenspeicher (12) ver bunden ist, um eine der zweiten Gruppe von Referenzmustern, die in dem sprecher-abhängigen Wörterbuch (6) registriert sind, mit dem abgegebenen Wichtungsfaktor zu multiplizieren und um ein Multiplikationsergebnis abzugeben, welches einem gewich teten Referenzmuster entspricht.
8. Spracherkennungseinrichtung nach Anspruch 1, dadurch
gekennzeichnet, daß die Wörterbuchinformations-
Speichereinrichtung (7) die Wörterbuchinformation zur selben
Zeit speichert, zu welcher die ersten und zweiten Gruppen
Referenzmuster in den sprecher-unabhängigen bzw. sprecher-
abhängigen Wörterbüchern (5, 6) gespeichert werden.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26109789 | 1989-10-05 | ||
JP26109889 | 1989-10-05 | ||
JP20014990A JP2989231B2 (ja) | 1989-10-05 | 1990-07-27 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE4031638A1 DE4031638A1 (de) | 1991-04-18 |
DE4031638C2 true DE4031638C2 (de) | 1992-02-27 |
Family
ID=27327767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE4031638A Granted DE4031638A1 (de) | 1989-10-05 | 1990-10-05 | Spracherkennungseinrichtung |
Country Status (2)
Country | Link |
---|---|
US (1) | US5144672A (de) |
DE (1) | DE4031638A1 (de) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3014177B2 (ja) * | 1991-08-08 | 2000-02-28 | 富士通株式会社 | 話者適応音声認識装置 |
JPH05197389A (ja) * | 1991-08-13 | 1993-08-06 | Toshiba Corp | 音声認識装置 |
US5732187A (en) * | 1993-09-27 | 1998-03-24 | Texas Instruments Incorporated | Speaker-dependent speech recognition using speaker independent models |
DE19533541C1 (de) * | 1995-09-11 | 1997-03-27 | Daimler Benz Aerospace Ag | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens |
US5915001A (en) | 1996-11-14 | 1999-06-22 | Vois Corporation | System and method for providing and using universally accessible voice and speech data files |
DE19718007A1 (de) * | 1997-04-29 | 1998-11-05 | Deutsche Telekom Ag | Verfahren und Anordnung zur besseren Auslastung der Leistungsfähigkeit des Spracherkenners eines sprachgesteuerten Kommunikationsendgerätes |
WO1999000790A1 (en) * | 1997-06-27 | 1999-01-07 | M.H. Segan Limited Partnership | Speech recognition computer input and device |
US6076056A (en) * | 1997-09-19 | 2000-06-13 | Microsoft Corporation | Speech recognition system for recognizing continuous and isolated speech |
DE69820222T2 (de) * | 1997-10-07 | 2004-09-30 | Koninklijke Philips Electronics N.V. | Verfahren und vorrichtung zur aktivierung einer sprachgesteuerten funktion in einem mehrplatznetzwerk mittels sowohl sprecherabhängiger als auch sprecherunabhängiger spracherkennung |
KR100577990B1 (ko) * | 1997-12-31 | 2006-08-30 | 엘지전자 주식회사 | 화자종속/독립음성인식장치 |
EP1426923B1 (de) * | 1998-12-17 | 2006-03-29 | Sony Deutschland GmbH | Halbüberwachte Sprecheradaptation |
US6487530B1 (en) * | 1999-03-30 | 2002-11-26 | Nortel Networks Limited | Method for recognizing non-standard and standard speech by speaker independent and speaker dependent word models |
AU5205700A (en) | 2000-06-15 | 2002-01-08 | Intel Corporation | Speaker adaptation using weighted feedback |
US20020010715A1 (en) * | 2001-07-26 | 2002-01-24 | Garry Chinn | System and method for browsing using a limited display device |
US20030101052A1 (en) * | 2001-10-05 | 2003-05-29 | Chen Lang S. | Voice recognition and activation system |
GB2383459B (en) * | 2001-12-20 | 2005-05-18 | Hewlett Packard Co | Speech recognition system and method |
DE10209324C1 (de) * | 2002-03-02 | 2002-10-31 | Daimler Chrysler Ag | Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen |
US7155385B2 (en) | 2002-05-16 | 2006-12-26 | Comerica Bank, As Administrative Agent | Automatic gain control for adjusting gain during non-speech portions |
US20090210233A1 (en) * | 2008-02-15 | 2009-08-20 | Microsoft Corporation | Cognitive offloading: interface for storing and composing searches on and navigating unconstrained input patterns |
US10224030B1 (en) * | 2013-03-14 | 2019-03-05 | Amazon Technologies, Inc. | Dynamic gazetteers for personalized entity recognition |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CH644246B (fr) * | 1981-05-15 | 1900-01-01 | Asulab Sa | Dispositif d'introduction de mots a commande par la parole. |
DE3129282A1 (de) * | 1981-07-24 | 1983-02-10 | Siemens AG, 1000 Berlin und 8000 München | Verfahren zur sprecherabhaengigen erkennung von einzelnen gesprochenen worten in fernmeldesystemen |
DE3129353A1 (de) * | 1981-07-24 | 1983-02-10 | Siemens AG, 1000 Berlin und 8000 München | Verfahren zur sprecherunabhaengigen erkennung von gesprochenen worten in fernmeldesystemen |
JPS59178587A (ja) * | 1983-03-30 | 1984-10-09 | Nec Corp | 話者確認システム |
US4741036A (en) * | 1985-01-31 | 1988-04-26 | International Business Machines Corporation | Determination of phone weights for markov models in a speech recognition system |
US4910782A (en) * | 1986-05-23 | 1990-03-20 | Nec Corporation | Speaker verification system |
DE3819178A1 (de) * | 1987-06-04 | 1988-12-22 | Ricoh Kk | Spracherkennungsverfahren und -einrichtung |
-
1990
- 1990-09-28 US US07/589,516 patent/US5144672A/en not_active Expired - Fee Related
- 1990-10-05 DE DE4031638A patent/DE4031638A1/de active Granted
Also Published As
Publication number | Publication date |
---|---|
DE4031638A1 (de) | 1991-04-18 |
US5144672A (en) | 1992-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE4031638C2 (de) | ||
DE60018886T2 (de) | Adaptive Wavelet-Extraktion für die Spracherkennung | |
EP0821346B1 (de) | Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals | |
DE69420400T2 (de) | Verfahren und gerät zur sprechererkennung | |
DE3236834C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE2753277C2 (de) | Verfahren und Einrichtung zur Spracherkennung | |
DE3236832C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE2613258C2 (de) | Schaltungsanordnung zum Erkennen von einem oder mehreren Schlüsselworten in kontinuierlicher Sprache | |
DE2825110A1 (de) | Verfahren zur erkennung kontinuierlicher sprachsignale | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE69720134T2 (de) | Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten | |
DE3819178A1 (de) | Spracherkennungsverfahren und -einrichtung | |
DE10030105A1 (de) | Spracherkennungseinrichtung | |
DE2524804A1 (de) | Verfahren und vorrichtung zur automatischen spracherkennung | |
DE2825186A1 (de) | Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale | |
DE102008017993A1 (de) | Sprachsuchvorrichtung | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE68922016T2 (de) | Einrichtung zur Sprachverarbeitung. | |
DE69614937T2 (de) | Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE3750365T2 (de) | Sprecheridentifizierung. | |
DE69128582T2 (de) | Methode zur Phonemunterscheidung | |
EP0508547A2 (de) | Schaltungsanordnung zur Spracherkennung | |
DE19581667C2 (de) | Spracherkennungssystem und Verfahren zur Spracherkennung | |
DE69516455T2 (de) | Verfahren zur Sprachkodierung mittels linearer Prädiktion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |