DE4031421C2 - Musteranpassungssystem für eine Spracherkennungseinrichtung - Google Patents
Musteranpassungssystem für eine SpracherkennungseinrichtungInfo
- Publication number
- DE4031421C2 DE4031421C2 DE4031421A DE4031421A DE4031421C2 DE 4031421 C2 DE4031421 C2 DE 4031421C2 DE 4031421 A DE4031421 A DE 4031421A DE 4031421 A DE4031421 A DE 4031421A DE 4031421 C2 DE4031421 C2 DE 4031421C2
- Authority
- DE
- Germany
- Prior art keywords
- pattern
- speech
- standard
- length
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Description
Die Erfindung betrifft ein Musteranpassungssystem für eine
Spracherkennungseinrichtung nach dem Oberbegriff des Anspruches
1.
Ein derartiges Musteranpassungssystem für eine Spracherkennungseinrichtung
ist aus der DE-OS 23 47 738 bekannt. Dieses
bekannte Musteranpassungssystem enthält ein Wörterbuch zum
Speichern von Standardsprachmustern, eine Umsetzeinrichtung,
um ein eingegebenes Sprachmuster, welches eine beliebige Musterlänge
hat, in zumindest ein umgesetztes Sprachmuster umzusetzen,
welches eine Musterlänge hat, mit welcher Standardsprachmuster
in dem Wörterbuch gespeichert sind. Bei diesem
bekannten Musteranpassungssystem wird zunächst ein gesprochenes
Eingabe-Übungswort gespeichert und es wird ein darauffolgend
gesprochenes Eingabe-Befehlswort nach Empfang einer Korrelationsfunktion
unterzogen, welche die Ähnlichkeit zwischen
dem Befehlswort und dem Übungswort anzeigt. Zur Durchführung
der Korrelationsfunktion muß eine Musterlängenanpassung vorgenommen
werden. Das bekannte System umfaßt ferner eine Vergleichseinrichtung,
um das umgesetzte Sprachmuster mit in dem
Wörterbuch gespeicherten Standardmustern zu vergleichen, um
ein Standardmuster auszuwählen, welches einen größten Ähnlichkeitsgrad
mit dem umgesetzten Sprachmuster hat.
Die Vergleichseinrichtung ist dafür ausgebildet, einen elementweisen
Vergleich einer Steuerwort-Matrix mit jeder
Übungswort-Matrix vorzunehmen und eine Korrelationsziffer zu
erzeugen, welche das Ergebnis jedes Vergleiches wiedergibt
und damit auch den ermittelten Ähnlichkeitsgrad anzeigt.
Aus der DE 37 33 659 A1 ist ein Verfahren und eine Vorrichtung
zum Vergleichen von Mustern bekannt, wobei gemäß diesem
bekannten Verfahren eine Musteranpassung angewendet wird, um
festzustellen, welche Bezugssprachmuster, die bekannt sind
und in einer Bibliothek gespeichert sind, den höchsten Ähnlichkeitsgrad
mit dem Sprachmuster einer eingegebenen, unbekannten
Sprache haben. Das wesentliche dieses bekannten Verfahrens
besteht darin, daß ein Paar erster und zweiter zu
vergleichender Muster geprüft werden, um zu sehen, ob eines
von den beiden Mustern einen instabilen Teil hat oder nicht,
wobei der instabile Teil aus dem einen der beiden Muster entfernt
wird, wenn der instabile Teil gefunden worden ist, und
dann das erste und zweite Muster verglichen werden. Durch
diese Maßnahmen wird die Sicherheit der Spracherkennung in
gewissem Umfang verbessert.
Aus der EP 0 305 215 A2 ist ein Musteranpassungssystem für
eine Spracherkennungseinrichtung bekannt, bei dem jedes der
Standardsprachmuster von mehreren verschiedenen Sprechern
stammt und in zwei verschiedenen Sprachweisen gesprochen wurde,
wobei aber die Muster nur in einer vorgegebenen einzigen
Länge gespeichert werden. Speziell werden bei diesem bekannten
Spracherkennungssystem Schablonen von Worten gespeichert
und es wird jede Schablone gekennzeichnet, die am engsten
einem empfangenen Wort entspricht. Es ist somit ein Schablonenspeicher
vorhanden, um gekennzeichnete Schablonen zu speichern
und die gespeicherten Schablonen können durch eingegebene
Worte ausgebessert werden, indem aus einem erkannten
eingegebenen Wort eine weitere kennzeichnende Schablone abgeleitet
wird, die dann in dem Schablonenspeicher abgespeichert
wird. Dabei haben alle Schablonen einen einheitlichen Wert
bzw. einheitliche Länge.
Gemäß einer spezifischen Ausführungsform dieses bekannten
Systems können mehrere Schablonenspeicher vorgesehen sein,
wobei damit der Zweck verfolgt wird, mehrere Benutzer des
Systems berücksichtigen zu können.
In Fig. 1 ist ein Diagramm zum Erläutern eines Beispiels
eines herkömmlichen Musteranpassungssystems wiedergegeben.
Hierbei zeigt Fig. 1(A) ein Eingabemuster einer eingegebenen
Sprache, welche als "tu" bezeichnet wird, und Fig. 1(B) zeigt
ein Standardmuster, welches "tu" entspricht. Das Musteranpassungs
system vergleicht das eingegebene Muster mit dem Standardmuster
und enthält einen Ähnlichkeitsgrad des Standardmusters
bezüglich des eingegebenen Musters.
Grundsätzlich gibt es zwei Methoden, die Muster in Abhängig
keit davon miteinander zu vergleichen, ob die Sprachlänge
sich ändert oder nicht, wie beispielsweise in Niimi "Sprach
erkennung", Kuoritsu Publishing Co., beschrieben ist. Bei der
ersten Methode wird eine Zeitnormung des Musters nicht-linear
durchgeführt, daher wird es als ein nicht-lineares Anpassungs
verfahren bezeichnet. Die dynamische Programmierungs-(DP-)Anpassung,
welche manchmal auch als das dynamische Zeitverformen
bezeichnet wird, ist ein typisches, nicht-lineares Anpassungsverfahren.
Andererseits wird bei einer zweiten Methode
die Zeitnormierung des Musters linear durchgeführt und daher
wird dieses als ein lineares Anpassungsverfahren bezeichnet.
Das nicht-lineare Anpassungsverfahren erfordert im Vergleich
zu dem linearen Anpassungsverfahren eine große Anzahl von
Operationen. Aus diesem Grund wird natürlich gern das lineare
Anpassungsverfahren verwendet, wenn damit eine ausreichend
hohe Anpassungsgenauigkeit erhalten werden kann.
Das lineare Anpassungsverfahren kann in zwei Formen eingeteilt
werden, d. h. ein erstes Verfahren, bei welchem durch
Zeitnormierung die Länge eines von zwei Mustern angepaßt
wird, welche mit der Länge des anderen Musters verglichen
bzw. kollationiert wird, und ein zweites Verfahren, bei welchem
zuerst durch Zeitnormierung die Länge aller Muster in
eine vorherbestimmte Länge umgewandelt wird. Bei dem ersten
Verfahren ist der Zeitnormierungsprozeß jedesmal erforderlich,
wenn zwei Muster verglichen bzw. kollationiert werden.
Bei dem zweiten Verfahren wird dagegen auch die Länge des
Standardmusters in die vorherbestimmte Länge umgewandelt,
wenn Standardmuster registriert sind, und sobald die Länge
des unbekannten Sprachmusters in die vorherbestimmte Länge
umgewandelt ist, entfällt die Notwendigkeit, Berechnungen bezüglich
der Zeitnormierung durchzuführen, wenn das unbekannte
Sprachmuster mit den registrierten Sprachmustern kollationiert
wird. Folglich kann die Anzahl Operationen, welche erforderlich
sind, wenn das unbekannte Sprachmuster mit den registrierten
Sprachmustern kollationiert wird, im Vergleich zu
dem ersten Verfahren verringert werden.
Jedoch sind die nachstehend beschriebenen Schwierigkeiten bei
dem herkömmlichen Musteranpassungssystem gegeben, bei welchem
die zweite Art des linearen Anpassungsverfahrens angewendet
wird. Beispielsweise wird ein in Fig. 2(B) dargestelltes
Sprachmuster erhalten, wenn ein Wort "utumuku" mit einer
Abtastgeschwindigkeit von 10 bis 20 ms abgetastet wird. Kurze
Worte sind im allgemeinen 5 bis 600 ms lang, während lange
Worte im allgemeinen im Bereich von 1,5 s liegen. Folglich
läuft das vorstehend beschriebene Abtasten mit der Abtastrate
von 10 bis 20 ms für kurze Wörter auf 5 bis 60 Abtastvorgänge
und für lange Worte auf annähernd 150 Abtastvorgänge hinaus;
die Anzahl Abtastwerte wird in den meisten Fällen durch Zeit
normierung in 8 oder 16 Abtastwerte umgewandelt.
Somit werden, wenn das Wort "tu" als ein Beispiel für ein
kurzes und das Wort "utumuku" als ein Beispiel für ein langes
Wort genommen wird, 50 Abtastwerte für das Wort "tu" und annähernd
120 Abtastwerte für das Wort "utumuku" erhalten. Wenn
jedoch die 50 Abtastwerte des Wortes "tu" durch die Zeitnormierung
in 8 Abtastwerte umgewandelt werden, wird die Zahl
von Abtastungen für "t" in einen Abtastwert und die Anzahl
Abtastungen für "u" in annähernd 7 Abtastwerte umgewandelt.
Wenn jedoch die 120 Abtastwerte des Wortes "utumuku" in
8 Abtastwerte umgewandelt werden, erscheinen die Konsonanten
(Laute) "t", "m" und "k" praktisch nicht in dem umgewandelten
Muster, wie aus Fig. 2(A) zu ersehen ist. Mit anderen Worten,
wenn die Zeitnormierung durchgeführt wird, bleiben bei kurzen
Worten die Konsonanten erhalten, während bei langen Worten
die Konsonanten nicht erhalten bleiben und nur die Vokale erhalten
bleiben. Folglich muß das lange Wort nur anhand der
Vokale erkannt werden. Somit ergibt sich die Schwierigkeit,
daß Worte mit derselben Anordnung von Vokalen nicht voneinander
unterschieden werden können und in einem Extremfall kann
das Wort "utumuku" als das Wort "u" erkannt werden, da die
Muster der beiden Worte nach der Zeitnormierung der Abtastwerte
annähernd dieselben sind.
Die der Erfindung zugrundeliegende Aufgabe besteht darin, ein
Musteranpassungssystem für eine Spracherkennungseinrichtung
der angegebenen Gattung zu schaffen, bei dem die Sicherheit
der Spracherkennung bzw. Worterkennung nicht mehr ausgeprägt
von der Wortlänge abhängig ist.
Diese Aufgabe wird erfindungsgemäß durch die im Kennzeichnungsteil
des Patentanspruches 1 aufgeführten Merkmale gelöst.
Besonders vorteilhafte Ausgestaltungen und Weiterbildungen
der Erfindung ergeben sich aus den Unteransprüchen.
Im folgenden wird die Erfindung anhand von Ausführungsbeispielen
unter Hinweis auf die Zeichnung näher erläutert. Es
zeigt
Fig. 1 ein Diagramm zum Erläutern eines Beispiels eines
herkömmlichen Musteranpassungssystems;
Fig. 2 ein Diagramm zum Erläutern einer Zeitnormierung
von Abtastwerten eines langen Wortes;
Fig. 3 ein Systemblockdiagramm einer ersten Ausführungs
form eines Musteranpassungssystems mit Merkmalen nach der Er
findung;
Fig. 4A und 4B Diagramme zum Erläutern einer Zeitnormierung,
welche mittels eines in Fig. 3 dargestellten Re
gisters durchgeführt ist;
Fig. 5 ein System-Blockdiagramm, in welchem eine Ausfüh
rungsform einer Bandpaß-Filterbank mit einem Mikro
phon, einem Verstärker und einem A/D-Umsetzer der in
Fig. 3 wiedergegebenen, ersten Ausführungsform
dargestellt sind;
Fig. 6 ein Flußdiagramm zum Erläutern der Arbeitsweise
eines Mikrocomputers, wenn dieser zur Durchführung
der Arbeitsweise der ersten Ausführungsform ver
wendet wird;
Fig. 7 ein System-Blockdiagramm eines wesentlichen
Teils einer Spracherkennungseinrichtung bezüglich
einer Registrierung von Standardmustern;
Fig. 8 ein Flußdiagramm zum Erläutern der Arbeitsweise
des Mikrocomputers, wenn dieser zur Durchführung
der Arbeitsweise des in Fig. 7 dargestellten
Systems verwendet wird;
Fig. 9 ein Diagramm, anhand welchem eine Schwierigkeit
erläutert wird, welche auftritt, wenn ein Konso
nant am Ende eines Wortes durch die Sprachinter
valldetektion nicht festgestellt wird;
Fig. 10 ein System-Blockdiagramm einer zweiten Ausfüh
rungsform eines Musteranpassungssystems mit Merkmalen nach der
Erfindung;
Fig. 11 ein Flußdiagramm zum Erläutern der Arbeitsweise
des Mikrocomputers, wenn dieser zur Durchführung
der Arbeitsweise des in Fig. 10 dargestellten
Systems verwendet wird;
Fig. 12 ein System-Blockdiagramm eines wesentlichen
Teils der Spracherkennungseinrichtung bezüglich
einer Registrierung von Standardmustern;
Fig. 13 ein Flußdiagramm zum Erläutern der Arbeitsweise
des Mikrocomputers, wenn dieser zur Durchführung
der Arbeitsweise des in Fig. 12 dargestellten Sy
stems verwendet wird;
Fig. 14 ein System-Blockdiagramm einer dritten Ausführungs
form des Musteranpassungssystems mit Merkmalen nach der Erfindung;
Fig. 15 ein System-Blockdiagramm eines wesentlichen
Teils der Spracherkennungseinrichtung bezüglich
einer Registrierung von Standardmustern; und
Fig. 16 ein Flußdiagramm zum Erläutern der Arbeitsweise
des Mikrocomputers, wenn dieser zum Durchführen
der Arbeitsweise des in Fig. 14 dargestellten
Systems verwendet wird.
In Fig. 3 ist eine erste Ausführungsform eines Musteranpas
sungssystems mit Merkmalen nach der Erfindung dargestellt, das bei einer
Spracherkennungseinrichtung angewendet ist. Die Spracherken
nungseinrichtung weist ein Mikrophon 11, einen Verstärker 12,
eine Bandpaß-Filterbank 13, einen Analog-Digital-(A/D)-Um
setzer 14, einen Sprachintervalldetektor 15, ein Register 16,
einen Vergleicher 17, ein Register 18, einen Vergleicher 19,
einen Schwellenwert-Speicher 20, einen Vergleicher 21, ein
Wörterbuch 22, eine Zuordnungseinrichtung 23 mit einem Register 24,
einem Vergleicher 25 und einem Register 26 auf, welche so, wie
dargestellt, miteinander verbunden sind. Der Einfachheit hal
ber sollen die Standardsprachmuster, welche auf zwei oder
mehr Arten von Rahmenlängen normiert sind, vorher in dem Wör
terbuch 22 gespeichert sein.
Eine unbekannte eingegebene Sprache, welche zu erkennen ist,
wird vom Mikrophon 11 aus eingegeben und über den Verstärker
12 der Bandpaß-Filterbank 13 zugeführt, in welcher die einge
gebene Sprache in eine vorherbestimmte Anzahl Frequenzbänder
analysiert wird. Der A/D-Umsetzer 14 quantisiert ein Ausgangs
signal der Bandpaß-Filterbank 13 beispielsweise in 12 Bits,
und diese 12 Bit-Daten werden dem Sprachintervalldetektor
15 zugeführt. Die Methode, um das Sprachintervall festzustel
len, ist bekannt; beispielsweise kann die Methode angewendet
werden, welche in Niimi, "Spracherkennung", Kuoritsu Publi
shing Co., beschrieben ist. Das festgestellte Sprachintervall
wird dem Register 18 als ein Eingangs-Sprachmuster zugeführt.
In dem Register 16 sind vorher mehrere Arten von Rahmenlängen
gespeichert, auf welche das Eingangs-Sprachmuster zu normie
ren ist. Wenn das Sprachintervall der 12 Bit-Daten festgestellt
wird, gibt der Sprachintervalldetektor 15 an den Vergleicher
17 ein Rahmenlängen-Signal ab, welches die Rahmenlänge des
festgestellten Sprachintervalls anzeigt. Der Vergleicher 17
vergleicht die Rahmenlänge des festgestellten Sprachinter
valls mit den registrierten Rahmenlängen in dem Register 16
und wählt eine oder zwei registrierte Rahmenlängen aus, wel
che der Rahmenlänge des festgestellten Sprachintervalls am
nächsten kommen. Ein Rahmenlängen-Signal, welches die ausge
wählte, registrierte Rahmenlänge anzeigt, wird an das Re
gister 18 und den Vergleicher 21 abgegeben.
Das Register 18 unterwirft das Eingangssprachmuster einer
Zeitnormierung, d. h. einer Einstellung der Rahmenlänge, um
so die Rahmenlänge, welche durch das Rahmenlängen-Signal
von dem Vergleicher 17 angezeigt wird, anzupassen. Beispiels
weise soll der Einfachheit halber das Eingangssprachmuster
eine Rahmenlänge Lx haben, und das Register 18 soll das Ein
gangssprachmuster auf eine Rahmenlänge Lx+2 ausdehnen. Eine
einfache Dehnungsmethode besteht darin, die Rahmenlänge des
Eingangssprachmusters durch eine bestimmte Zahl zu teilen,
welche um eins größer ist als die Anzahl einzufügender Rahmen,
um so den in dem Register 18 einzufügenden Teil festzulegen.
In dem vorstehend beschriebenen Fall ist die bestimmte Zahl
Lx/3 und der Einfügteil wird als Lx′ erhalten, welches
eine ganze Zahl ist. Zuerst werden der Lx-te Datenwert in dem
(Lx+2)-ten Rahmen und der (Lx-1)-te Datenwert in dem (Lx+1)-
ten Rahmen nachgebildet, und der Kopiervorgang wird in ähnlicher
Weise nacheinander wiederholt, wie in Fig. 4A dargestellt
ist. Der 2Lx′-te Datenwert wird in dem (2Lx′+1)-ten Rahmen und in
dem (Lx′+2)-ten Rahmen nachgebildet. Als nächstes wird der
(Lx′-1)-te Datenwert in dem Lx′-Rahmen nachgebildet, und der Kopierprozeß
wird in ähnlicher Weise nacheinander wiederholt, bis
der Lx′-te Datenwert in dem (Lx′+1)-ten Rahmen nachgebildet ist.
Andernfalls kann das Register 18 das eingegebene Sprachmuster
auf eine Rahmenlänge Lx-2 ausdehnen. In diesem Fall wird der
(Lx′+1)-te Datenwert in dem L₁′-ten Rahmen nachgebildet, wie
in Fig. 4B dargestellt ist. Der (Lx+n)-te Datenwert wird in
dem (Lx+n-1)-ten Rahmenwert kopiert, und der Kopierprozeß wird
in entsprechender Weise nacheinander wiederholt, bis der
2Lx′-te Datenwert in dem (2Lx′+2)-ten Rahmen nachgebildet ist.
Dann wird der (Lx′+n)-te Datenwert in dem (Lx′+n-2)-ten Rahmenwert
nachgebildet, und der Kopierprozeß wird bis zu dem
L₁-ten Datenwert wiederholt.
Die Zeitnormierung in dem Register 18 ist vorstehend als eine
Addition oder Subtraktion von zwei Rahmen beschrieben; die
Rahmenlänge ist jedoch nicht auf zwei beschränkt. Die Digita
lisierung ist durchgeführt, wenn die Musterlänge auf eine
vorherbestimmte Länge eingestellt ist. Jedoch ist es nicht
wesentlich, die Digitalisierung durchzuführen, wenn die Er
kennung mit Hilfe der Methode durchgeführt ist, welche bei
spielsweise in Terano et al., "Applied Fuzzy System",
OOmu Publishing Co. beschrieben ist.
In dieser Ausführungsform wird die Digitalisierung mittels
des Vergleichers 19 für jeden Rahmen durchgeführt. Der Ver
gleicher 19 schiebt die gesamten Daten, welche einen Rahmen
ausmachen, um drei Bits aus dem Register 18, d. h. multi
pliziert sie insgesamt mit 1/8 und gibt die geteilten Daten
als einen Schwellenwert an den Speicher 20 ab.
Danach vergleicht der Vergleicher 19 die Werte der von dem
Register 18 erhaltenen Rahmen mit dem in dem Speicher 20 ge
speicherten Schwellenwert und speichert einen Datenwert "1"
in dem Register 18, wenn der Wert des Rahmens größer als der
Schwellenwert ist, und speichert sonst "0" in dem Register.
Der Vergleicher 21 vergleicht die Rahmenlänge jedes Wortes,
welches aus dem Wörterbuch 22 gelesen wird, mit der Rahmen
länge der eingegebenen Sprache, welche von dem Register 18
erhalten wird, und lädt die Muster des Wörterbuchs 22 nur
dann in die Zuordnungseinrichtung 23, wenn die verglichenen
Werte passen. Die Zuordnungseinrichtung 23 kollationiert die
Muster des Wörterbuchs 22 mit dem Muster, welches von dem
Register 18 über den Vergleicher 21 erhalten wird und be
rechnet den Ähnlichkeitsgrad. Der Ähnlichkeitsgrad wird in
dem Register 24 gespeichert, welches anfangs auf Null ge
bracht ist. Der Ähnlichkeitsgrad "0" wird in dem Register 24
gespeichert, wenn sich die Rahmenlänge unterscheidet und
kein Kollationieren in der Zuordnungseinrichtung
23 stattfindet.
Die vorstehend beschriebene Operation wird wiederholt, bis
ein Endsignal, welches das Ende der in dem Wörterbuch 22
registrierten Muster anzeigt, von dem Wörterbuch 22 erhalten
wird. Danach wird der Ähnlichkeitsgrad, welcher an der ersten
Stelle in dem Register 24 gespeichert wird, als ein maximaler
Ähnlichkeitsgrad an das Register 26 übertragen, und der Ver
gleicher 25 vergleicht den Ähnlichkeitsgrad, welcher in dem
Register 26 gespeichert ist, mit den Ähnlichkeitsgraden, wel
che an den zweiten und nachfolgenden Stellen in dem Register
24 gespeichert sind. Wenn der in dem Register 24 gespeicherte
Ähnlichkeitsgrad größer als der in dem Register 25 gespeicher
te Ähnlichkeitsgrad ist, wird der Ähnlichkeitsgrad in dem Re
gister 24 als ein neuer maximaler Ähnlichkeitsgrad an das
Register 25 übertragen. Der maximale Ähnlichkeitsgrad
wird in dem Register 26 gespeichert, nachdem alle Ähnlich
keitsgrade verglichen sind, und das Wort, welches dem maxi
malen Ähnlichkeitsgrad entspricht, wird als das Erkennungs
ergebnis von dem Register 26 aus abgegeben.
In Fig. 5 ist eine Ausführungsform der Bandpaß-Filterbank
13 zusammen mit dem Mikrophon 11, dem Verstärker 12 und dem
A/D-Umsetzer 14 dargestellt. Die Bandpaß-Filterbank 13 weist
Bandpaßfilter 3 1 bis 3 n, Gleichrichterschaltungen 4 1 bis 4 n
und Tiefpaßfilter 5 1 bis 5 n auf, welche so, wie in Fig. 5
dargestellt, miteinander verbunden sind. Ein Signal, welches
von dem Bandpaßfilter 3 i abgegeben wird, wird in der Gleich
richterschaltung 4 i gleichgerichtet und durchläuft das Tief
paßfilter 5 i, welches vorgesehen ist, um die Zeit zu mitteln,
wobei i=1, 2, . . ., n ist. Im Ergebnis wird dann ein Lei
stungsspektrum von dem Tiefpaßfilter 5 i abgegeben. Die Lei
stungsspektren von den Tiefpaßfiltern 5 1 bis 5 n werden addiert,
um die gesamte Sprachleistung zu erhalten, und werden dann
in dem A/D-Umsetzer 14 einer A/D-Umsetzung unterzogen. Das vom
A/D-Umsetzer 14 abgegebene Leistungsspektrum wird dazu ver
wendet, das Sprachintervall von dem Umgebungsgeräusch zu tren
nen, d. h. die sogenannte Sprachintervallgewinnung wird durch
geführt. Jedoch ist die Methode der Sprachintervall-Gewinnung
nicht auf diese Ausführungsform beschränkt; vielmehr können
verschiedene andere Methoden ebenfalls angewendet werden. Bei
spielsweise kann für die Sprachintervallgewinnung eine Methode
angewendet werden, welche in Niimi, "Spracherkennung", Kuorit
su Publishing Co. vorgeschlagen worden ist.
In Fig. 10 kann ein durch eine gestrichelte Linie abgegrenzter
Teil des Spracherkennungssystems durch eine Kombination aus
einem Mikrocomputer und einem Speicher ausgeführt werden. An
hand eines Flußdiagramms in Fig. 6 wird eine Arbeitsweise
des Mikrocomputers erläutert, wenn diese Kombination angewen
det wird.
In Fig. 6 wird bei einem Schritt S1 die unbekannte, eingegebe
ne Sprache gelesen, um eine Musterlänge L der eingegebenen
Sprache zu erhalten, und beim Schritt S2 wird die Länge L
der eingegebenen Sprache entsprechend einer vorherbestimmten
Regel umgewandelt. Beispielsweise wird die Musterlänge um
gewandelt in eine Länge L1, wenn L < La ist, in eine Länge L2,
wenn La L Lb ist, und eine Länge L3, wenn Lb < L ist (wobei La und Lb Mustergrenzwertlängen sind).
Mit anderen Worten, beim Schritt S2 wird die Zeit der einge
gebenen Sprache umgesetzt; es findet jedoch keine Umsetzung
bezüglich der Frequenz statt.
Bei einem Schritt S3 wird i "1" gesetzt, und beim Schritt
S4 wird das i-te Standardmuster gelesen. Beim Schritt S5
wird dann beurteilt, ob das eingegebene Sprachmuster, wel
ches die umgesetzte Länge hat, zur Länge des i-ten Standard
musters paßt oder nicht. Beim Schritt S6 wird das eingegebene
Sprachmuster und das i-te Standardmuster nur dann verglichen
bzw. kollationiert, wenn das Beurteilungsergebnis beim
Schritt S5 ja ist. Da die zwei Muster, welche beim Schritt
S6 kollationiert werden, dieselbe Länge haben, besteht keine
Notwendigkeit, die Länge des Musters bei dem Schritt S6 umzu
wandeln. Wenn das Beurteilungsergebnis beim Schritt S5 nein
ist, oder nach dem Schritt S6 wird bei einem Schritt S7 beur
teilt, ob i n ist oder nicht, wobei n die Anzahl Standard
muster bezeichnet, welche in dem Wörterbuch gespeichert sind.
Wenn das Ergebnis beim Schritt S7 nein ist, wird beim Schritt
S8 i um eins inkrementiert, und es wird dann auf den Schritt
S4 zurückgekehrt.
Wenn das Ergebnis beim Schritt S7 ja ist, wird beim Schritt
S9 das Standardmuster mit dem größten Ähnlichkeitsgrad be
züglich des eingegebenen Sprachmusters gesucht, und beim
Schritt S10 wird das Standardmuster mit dem größten Ähn
lichkeitsgrad als das Erkennungsergebnis ausgegeben.
Wenn das unbekannte eingegebene Sprachmuster A in eine Länge
Lj umgewandelt wird, wobei i = 1, 2, 3 ist, kann das eingegebene
Sprachmuster A durch die folgende Formel (1) geschrieben
werden:
A = {A₁, A₂, . . ., ALj} (1)
Das i-te Standardmuster Bi kann dann durch die folgende Formel
(2) beschrieben werden:
B₁ = {B1i, B2i, . . ., BLji} (2)
In den vorstehenden Formeln (1) und (2) sind A₁, A₂, . . .,
B1i, B2i, . . ., BLji Vektoren, welche aus den Ausgangssignalen
der Bandpaß-Filterbank 13 gebildet sind.
Ein Abstand Di, welcher dazu verwendet wird, den Ähnlichkeitsgrad
bei dem Schritt S6 zu beurteilen, kann durch die
folgende Formel (3) beschrieben werden.
Die vorstehende Formel (3) wird manchmal als
Abstand bezeichnet. Es können natürlich auch andere
Abstände verwendet werden, um bei dem Schritt S6 den Ähnlich
keitsgrad zu beurteilen.
Bei dem vorstehend beschriebenen Schritt S9 kann das Standard
muster mit dem größten Ähnlichkeitsgrad bezüglich des einge
gebenen Sprachmusters durch Erhalten des minimalen Abstands
Di gesucht werden. Diese Standardmuster, welche eine Länge ha
ben, die sich von derjenigen des eingegebenen Sprachmusters
unterscheiden, können nicht mit dem eingegebenen Sprachmuster
bei dem Schritt S6 kollationiert werden, und folglich wird
der Wert "0" als der Ähnlichkeitswert von solchen Standardmu
stern gespeichert. Natürlich wird in dem Fall, bei welchem
der Abstand Di gespeichert wird, um den Ähnlichkeitsgrad zu
beschreiben, ein unendlich großer Wert für derartige Standard
muster gespeichert.
In dem vorstehend beschriebenen Fall wird die Länge des ein
gegebenen Sprachmusters nur in eine der Längen L1, L2 und L3
umgewandelt. Aus diesem Grund wird, wenn ein Wort
zur Zeit der Registrierung die Länge La hat, dieses Wort in
ein Standardmuster mit der Länge L2 umgewandelt. Wenn dagegen
dasselbe Wort zur Zeit der Spracherkennung eingegeben wird,
kann die Länge dieses Worts La+1 und damit etwas länger als
zur Zeit der Registrierung sein. In diesem Fall wird das ein
gegebene Sprachmuster in die Länge L1 umgesetzt und nicht mit
dem Standardmuster mit der Länge L2 verglichen bzw. kollatio
niert. Im Ergebnis wird dann keine korrekte Spracherkennung
durchgeführt, und es wird ein fehlerhaftes Erkennungsergeb
nis abgegeben. Hierzu kommt es, wenn das eingegebene Sprachmu
ster eine Länge in der Nähe der Länge La oder Lb hat.
Als nächstes wird daher eine abgewandelte Regel beschrieben,
welche anstelle der vorherbestimmten Regel verwendet werden
kann, um das vorstehend beschriebene Phänomen in Form eines
fehlerhaften Erkennungsergebnisses zu verhindern. Entspre
chend der abgewandelten Regel wird die Musterlänge L ent
sprechend den folgenden sechs Regeln umgewandelt:
- 1) Die Musterlänge L wird in die Länge L1 umgewandelt, wenn beiden Bedingungen L<La und L<La+(La-Lb)/2 genügt ist.
- 2) Die Musterlänge L wird in die Länge L1 und L2 umgewandelt, wenn beiden Bedingungen L<La und LLa+(La-Lb)/2 genügt ist.
- 3) Die Musterlänge L wird in die Längen L1 und L2 umgewandelt, wenn beiden Bedingungen LaLLb und L<Lb+(La-Lb)/2 genügt ist.
- 4) Die Musterlänge L wird in die Länge L2 und L3 umgewandelt, wenn beiden Bedingungen LaLLbl, LLb+(La-Lb)/2 genügt ist.
- 5) Die Musterlänge L wird in die Länge L2 und L3 umgewandelt, wenn beiden Bedingungen Lb<L, L<Lb-(La-Lb)/2 genügt ist.
- 6) Die Musterlänge L wird in die Länge L2 und L3 umgewandelt, wenn beiden Bedingungen Lb<La und LLb-(La-Lb)/2 genügt ist.
Mit Hilfe der vorstehend beschriebenen, abgewandelten Regel
wird die Musterlänge L in zwei Längen umgewandelt, wenn die Mu
sterlänge L in der Nähe von La oder Lb liegt. Folglich gibt es im
mer ein entsprechendes Standardmuster mit einer Länge, welche
derjenigen des eingegebenen Sprachmusters entspricht, und die
Erkennungsgenauigkeit ist im Vergleich zu dem Fall, bei welchem
die vorherbestimmte Regel verwendet wird, stark verbessert.
In dem herkömmlichen System, in welchem das eingegebene
Sprachmuster in eine konstante Länge umgesetzt wird, ist nur
der durch die Formel (3) beschriebene Abstand für die Sprach
erkennung erforderlich. In dieser Ausführungsform wird jedoch
das eingegebene Sprachmuster in ein oder zwei Längen umge
setzt, und der durch die Formel (3) beschriebene Abstand muß
durch die umgesetzten Längen des eingegebenen Sprachmusters
normiert werden. Andererseits schlägt Terano et al.,
"Applied Fuzzy System" Oomu Publishing Co. eine Methode vor,
welche keine Normierung des Abstandes für die Spracherken
nung erfordert.
Als nächstes wird ein Verfahren zum Registrieren des Standard
musters in dem Wörterbuch beschrieben. Fig. 7 zeigt nur einen
wesentlichen Teil der Spracherkennungseinrichtung bezüglich
der Registrierung der Standardmuster. In Fig. 7 sind die
Teile, welche dieselben sind wie die entsprechenden Teile in
Fig. 3, mit denselben Bezugszeichen bezeichnet und werden
daher nicht noch einmal beschrieben. Die Arbeitsweise des in
Fig. 7 dargestellten Systems ist bis auf die Erzeugung des
Binärmusters in dem Register 18 grundsätzlich dieselbe wie
diejenige des in Fig. 3 dargestellten Systems. Die Inhalte
eines Registers 31 werden anfangs auf "0" gebracht. Ein Addie
rer 32 addiert das Muster in dem Register 18 und einen ent
sprechenden Inhalt des Registers 31 und speichert die Summe
in dem Register 31. Folglich kann ein gemitteltes Muster
eines bestimmten Wortes erhalten werden, das von der Bedie
nungsperson eine Anzahl Mal gesprochen wird, und das gemittel
te Muster kann als das Standardmuster des bestimmten Wortes
registriert werden. Der Einfachheit halber soll das bestimmte
Wort von der Bedienungsperson dreimal gesprochen und daraus
das gemittelte Muster erhalten werden.
Natürlich ist es nicht wesentlich, das gemittelte Muster zu
registrieren. Wenn das gemittelte Muster nicht registriert
wird, kann das Muster in dem Register 18 unmittelbar als das
Standardmuster in dem Register 31 gespeichert werden.
Zuerst addiert der Addierer 32 ein erstes Muster des bestimm
ten Wortes, welches zuerst gesprochen wird, und es wird in
dem Register 18 zusammen mit einem Muster "0" gespeichert,
welches in dem Register 31 gespeichert wird, und es wird eine
erste Summe in das Register 31 gespeichert. Zweitens addiert
der Addierer 32 ein zweites Muster des bestimmten Wortes, wel
ches zum zweiten Mal gesprochen wird, und speichert es und die
erste Summe, welche in dem Register 31 gespeichert ist, in dem
Register 18 und speichert eine zweite Summe in das Register
31. Drittens addiert der Addierer 32 ein drittes Muster des
bestimmten Wortes, welches zum dritten Mal gesprochen wird,
und speichert es und die zweite Summe, welche in dem Register
31 gespeichert ist, in dem Register 18 und speichert eine
dritte Summe in das Register 31. Die dritte Summe wird in dem
Wörterbuch 22 als das Standardmuster des bestimmten Wortes
gespeichert. Die vorstehend beschriebene Operation wird für
jedes Wort durchgeführt, welches in dem Wörterbuch 22 zu re
gistrieren ist. Um den Inhalt des Wörterbuchs 22 selbst bei
einem Spannungsausfall zu sichern, sollte natürlich das Wör
terbuch 22 ein leistungsloser Speicher wie ein Floppy Disk
sein.
In Fig. 7 ist ein durch eine gestrichelte Linie eingerahmter
Teil der Spracherkennungseinrichtung durch eine Kombination
aus einem Mikrocomputer und einem Speicher realisiert. In
Fig. 8 ist ein Flußdiagramm dargestellt, anhand welchem eine
Arbeitsweise des Mikrocomputers erläutert wird, wenn diese
Kombination verwendet wird.
In Fig. 8 wird bei einem Schritt S11 die unbekannte eingege
bene Sprache gelesen, welche zu registrieren ist, und es wird
eine Musterlänge L der eingegebenen Sprache erhalten. Bei
einem Schritt S12 wird beurteilt, ob die Musterlänge L klei
ner als die Länge La ist oder nicht. Wenn das Ergebnis beim
Schritt S12 nein ist, wird beim Schritt S13 die Musterlänge
L in die Länge L1 umgesetzt. Wenn dagegen das Ergebnis beim
Schritt S12 ja ist, wird bei einem Schritt S14 beurteilt, ob
die Musterlänge L kleiner als die Länge Lb ist oder nicht.
Wenn das Ergebnis beim Schritt S14 nein ist, wird bei einem
Schritt S15 die Musterlänge L in die Länge L2 umgesetzt.
Wenn dagegen das Ergebnis beim Schritt S14 ja ist, wird bei
einem Schritt S16 die Musterlänge L in die Länge L3 umge
setzt. Folglich wird die vorherbestimmte Regel verwendet, um
die Musterlänge L in die Länge L1 umzusetzen, wenn L < La ist,
in die Länge L2 umzusetzen, wenn La L Lb ist und
La < Lb ist, und in die Länge L3 umgesetzt, wenn Lb < L ist.
Bei einem Schritt S17 wird das eingegebene Sprachmuster mit
der umgesetzten Länge L1, L2 oder L3 als das Standardmuster
in dem Wörterbuch registriert. Bei einem Schritt S18 wird
beurteilt, ob alle Standardmuster in dem Wörterbuch regi
striert sind oder nicht, und der Prozeß endet, wenn das Er
gebnis beim Schritt S18 ja wird.
Wenn Worte zu erkennen sind, bei welchen generell eine Um
setzung angewendet wird, sollte die Länge L1 annähernd
1200 ms und die Länge L2 annähernd 800 ms gesetzt werden und
die Länge L1 soll 32 Abtastwerten, die Länge L2 16 Abtast
werten und die Länge L3 8 Abtastwerten entsprechen. Natür
lich kann daher der in Fig. 8 dargestellte Prozeß auch abge
ändert werden, indem anstelle der vorherbestimmten Regel die
vorstehend beschriebene, abgewandelte Regel angewendet wird.
Normalerweise ist bei einer normalen Umsetzung beispielsweise eine
minimale Rahmenlänge 35 ± 30% und eine maximale Länge 150 ± 30%,
wenn ein Rahmen 10 ms ist. Somit können vier Arten von Rahmen
längen im allgemeinen die Rahmenlängen von 17 bis 226 Rahmen
abdecken. Das heißt, das Sprachmuster mit einer Rahmenlänge
von 17 bis 33 Rahmen kann durch 25 Rahmen, eine Rahmenlänge
von 34 bis 64 kann durch 49 Rahmen, eine Rahmenlänge von
65 bis 121 Rahmen kann durch 93 Rahmen und eine Rahmenlänge
von 122 bis 226 Rahmen kann durch 174 Rahmen dargestellt wer
den.
Folglich können beim Registrieren der Standardmuster in dem
Wörterbuch die vorstehend beschriebenen vier Arten von Rah
menlängen verwendet werden. Mit anderen Worten, wenn dieselbe
eingegebene Sprache, welche zu registrieren ist, dreimal von
der Bedienungsperson gesprochen wird und ein mittlerer Wert
fa 17 bis 33 Rahmen beträgt, wird diese eingegebene Sprache
als ein Standardmuster mit einer Rahmenlänge von 25 Rahmen
registriert. In ähnlicher Weise wird die eingegebene Sprache
als ein Standardmuster mit einer Rahmenlänge von 49 Rahmen
registriert, wenn der gemittelte Wert fa 34 bis 64 Rahmen ist,
als ein Standardmuster mit einer Rahmenlänge von 93 Rahmen
registriert, wenn der gemittelte Wert fa 65 bis 121 Rahmen
ist, und als ein Standardwert mit einer Rahmenlänge von 174
registriert, wenn der gemittelte Wert fa 122 bis 226 Rahmen
ist.
Wenn in diesem Fall die Spracherkennung durchgeführt wird,
wird das eingegebene Sprachmuster in Abhängigkeit von einer
Rahmenlänge fi des eingegebenen Sprachmusters in eine oder
zwei Rahmenlängen umgesetzt. Das eingegebene Sprachmuster
wird in eine Rahmenlänge von 35 Rahmen umgesetzt, wenn
fi 25 ist, in Rahmenlänge von 25 bis 49 Rahmen umgesetzt,
wenn 26 fi 49 ist, in Rahmenlängen von 49 bis 93 umge
setzt, wenn 50 fi 93 ist, in Rahmenlängen von 93 und
174 Rahmen umgesetzt, wenn 94 fi 174 ist, und in eine
Rahmenlänge von 174 Rahmen umgesetzt, wenn 175 fi ist.
Entsprechend der eingangs wiedergegebenen Erläuterungen der
Schwierigkeiten beim Stand der Technik ist die lineare An
passungsmethode wirksam, wenn das Sprachmuster vollständig
ist und kein Ausfall oder zusätzliches Rauschen in dem Sprach
muster existiert. Da jedoch bei der linearen Anpassungsme
thode das Sprachmuster linear verdichtet oder gedehnt wird,
obwohl das Sprachmuster in Abhängigkeit von den Umständen im
allgemeinen eine nicht-lineare Verdichtung oder Dehnung er
fährt, wird die Genauigkeit der Spracherkennung extrem schlecht,
wenn das Sprachmuster einen Ausfall oder zusätzliches Rau
schen enthält.
Anhand eines Diagramms in Fig. 9 wird das Umsetzen der Länge
des Sprachmusters in eine vorherbestimmte Länge erläutert.
Wenn normale Sprachmuster eines in Fig. 9(A) und (B) darge
stellten Worts "stop" verglichen werden, indem durch Zeit
normierung die Längen der Sprachmuster auf dieselbe Länge
linear verdichtet oder gedehnt werden, kann der Fehler zwi
schen den zwei Sprachmusterun unterdrückt werden. Wenn jedoch
eine erfolglose Sprachintervallfeststellung gemacht wird, und
der Buchstabe "p" am Ende des Sprachmusters ausfällt, wie in
Fig. 9(C) dargestellt ist, unterscheidet sich das in Fig. 9(A)
oder (B) dargestellte Sprachmuster von dem in Fig. 9(C) dar
gestellten Muster. In diesem Fall ist der Unterschied zwischen
den beiden Sprachmustern speziell in der Nähe des Endes des
Sprachmusters groß. Die fehlerhafte Übereinstimmung zwischen
den in Fig. 9(B) und (C) dargestellten Sprachmustern ist
durch ein strichpunktiertes Oval angezeigt.
Der Konsonant, welcher eine geringe Energie hat, wie beispiels
weise der Buchstabe "p" in dem Wort "stop", ist äußerst schwie
rig durch die Sprachintervall-Detektion festzustellen. Es kann
eine zufriedenstellende Musteranpassung durchgeführt werden,
selbst wenn der Konsonant des Wortes nicht festgestellt ist,
wenn die nicht-lineare Anpassungsmethode angewendet
wird. Wie eingangs beschrieben, erfordert jedoch die nicht
lineare Anpassungsmethode eine große Anzahl von Operationen.
Als nächstes wird daher eine zweite Ausführungsform des Mu
steranpassungssystems mit Merkmalen nach der Erfindung beschrieben, bei
welchem das Anpassungsmuster in zufriedenstellender Weise
mit Hilfe der linearen Anpassungsmethode durchgeführt werden
kann, selbst wenn der Konsonant des Wortes nicht festgestellt
wird.
In Fig. 10 ist die zweite Ausführungsform des Musteranpassungs
systems mit Merkmalen nach der Erfindung beschrieben, welches in der
Spracherkennungseinrichtung angewendet wird. In Fig. 10 sind
die Teile, welche dieselben sind wie die entsprechenden Teile
in Fig. 3, mit denselben Bezugszeichen bezeichnet und werden da
her nicht noch einmal beschrieben.
Das Sprachintervall wird mittels des Sprachintervalldetektors
15 festgestellt, und die Vergleichseinrichtung 21 vergleicht das binäre
Sprachmuster, das erzeugt wird und mit den in dem Wör
terbuch 22 registrierten Sprachmustern in ähnlicher Weise wie
bei der ersten in Verbindung mit Fig. 3 beschriebenen Ausfüh
rungsform verglichen. Nach der Sprachintervall-Detektion wird
das Sprachmuster von dem Sprachintervall-Detektor 15 einer
Summierschaltung 41 zugeführt, welche eine Summe der Energie
des Sprachmusters für jeden Rahmen erhält. Die Energiesumme
von der Summierschaltung 41 wird mit einem vorherbestimmten
Energie-Schwellenwert aus einem Schwellenwertspeicher 43 ver
glichen, um so festzustellen, ob ein Energieeinbruch in dem
Rahmen existiert oder nicht. Wenn der Energieeinbruch in dem
Rahmen existiert, ist die Energiesumme von der Summierschal
tung 41 kleiner als der vorherbestimmte Energieschwellenwert.
Der Energieeinbruch entspricht einem Ton, wie beispiels
weise dem vorstehend angeführten Konsonanten "p", welcher
leicht ausfällt.
Wenn der Energieeinbruch existiert, stellt der Vergleicher 42
auch fest, ob der Energieeinbruch näher dem Anfang oder dem
Ende des Wortes ist. Wenn beispielsweise der Energieeinbruch
näher bei dem Anfang des Wortes liegt, wird der Anfangsteil
des Wortes ausgeschieden, und das verkürzte Sprachmuster des
Restteils des Wortes wird dem Register 18 zugeführt. Gleich
zeitig wird dasselbe dem Register 18 zugeführte verkürzte
Sprachmuster auch dem Vergleicher 17 zugeführt. Danach führen
der Vergleicher 17 und das Register 18 ähnlich wie in der
ersten Ausführungsform entsprechende Operationen aus.
Nach einem Vergleichen und Zuordnen, d. h. nach einem Kolla
tionieren des verkürzten eingegebenen Sprachmusters mit dem
registrierten Standardmuster in der Vergleichs-/Zuordnungseinrichtung
23 wird der Ähnlichkeitsgrad im Anschluß an den letzten ge
speicherten Ähnlichkeitsgrad, welcher für das vollständige
eingegebene Sprachmuster erhalten wird, in dem Register 24
gespeichert. Mit anderen Worten, das Vergleichen und Zuordnen
findet zweimal bezüglich eines Standardmusters statt, d. h.
einmal mit Hilfe des vollständigen, eingegebenen Sprachmusters
und einmal mit Hilfe des verkürzten eingegebenen Sprachmusters;
somit werden für eine eingegebene Sprache zwei Ähnlichkeits
grade erhalten. Der größere Ähnlichkeitsgrad wird als der
Ähnlichkeitsgrad des eingegebenen Sprachmusters weiter verwen
det. Schließlich wird nach einem Vergleichen und Zuordnen der
vollständigen und verkürzten eingegebenen Sprachmuster mit
allen registrierten Standardmustern das Wort, welches den
maximalen Ähnlichkeitsgrad hat, als das Erkennungsergebnis
von dem Register 26 aus abgegeben.
In Fig. 10 ist ein durch eine strichpunktierte Linie einge
rahmter Teil der Spracherkennungseinrichtung durch eine Kombi
nation aus einem Mikrocomputer und einem Speicher realisiert.
Anhand eines Flußdiagramms in Fig. 11 wird die Arbeitsweise
des Mikrocomputers erläutert, wenn diese Kombination angewen
det wird. In dieser Ausführungsform ist es nicht wesentlich,
das eingegebene Sprachmuster wie in der ersten Ausführungs
form in zwei oder mehr Rahmenlängen umzusetzen. Der Einfach
heit halber soll daher das eingegebene Sprachmuster nur in
eine Rahmenlänge umgesetzt werden.
In Fig. 11 wird bei einem Schritt S21 beurteilt, ob die
Spracherkennungseinrichtung in dem Registrierbetrieb arbei
tet oder nicht. Wenn das Ergebnis beim Schritt S21 nein ist,
wird bei einem Schritt S22 die unbekannte Sprache eingegeben,
und bei einem Schritt S23 wird die eingegebene Sprache in
ein eingegebenes Sprachmuster mit einer vorherbestimmten Rah
menlänge umgesetzt und dieses eingegebene Sprachmuster wird
gespeichert. Bei einem Schritt S24 wird beurteilt, ob ein
Energieeinbruch, welcher kleiner als ein vorherbestimmter Pe
gel ist, in dem eingegebenen Sprachmuster vorhanden ist oder
nicht. Der vorherbestimmte Pegel, welcher zum Feststellen des
Energieeinbruchs verwendet wird, wird auf der Basis des Ener
giepegels bestimmt, wenn keine Sprache eingegeben wird.
Wenn das Ergebnis beim Schritt S24 ja ist, wird bei einem
Schritt S25 beurteilt, ob der Energieeinbruch näher bei dem
Wortanfang liegt oder nicht. Wenn das Ergebnis beim Schritt
S25 ja ist, wird bei einem Schritt S26 das eingegebene Sprach
muster, welches einem Teil des Wortes nach dem Energieeinbruch
bis zum Ende des Wortes entspricht, in eine vorherbestimmte
Rahmenlänge umgesetzt, und dieses eingegebene Sprachmuster
wird dann gespeichert. Wenn dagegen das Ergebnis beim Schritt
S25 nein ist, wird bei einem Schritt S27 das eingegebene
Sprachmuster, das einem Teil des Wortes von dem Wortanfang
bis unmittelbar vor dem Energieeinbruch entspricht, in eine
vorherbestimmte Rahmenlänge umgesetzt, und dies eingegebene
Sprachmuster wird dann gespeichert.
Nach dem Schritt S26 oder S27 wird bei einem Schritt S28
das verkürzte eingegebene Sprachmuster und das vollständig
eingegebene Sprachmuster mit demselben registrierten Stan
dardmuster verglichen und zugeordnet, d. h. kollationiert, um
zwei Ähnlichkeitsgrade zu erhalten, und der größere Ähnlich
keitsgrad beibehalten.
Bei einem Schritt S29 wird beurteilt, ob die vollständigen
und verkürzten eingegebenen Sprachmuster mit allen Standard
mustern verglichen sind oder nicht. Der Schritt S28 wird
wiederholt, wenn das Ergebnis beim Schritt S29 nein ist. Wenn
dagegen das Ergebnis beim Schritt S29 ja ist, wird bei einem
Schritt S32 der maximale Ähnlichkeitsgrad für die eingegebene
Sprache erhalten. Bei einem Schritt S33 wird das Wort, wel
ches den maximalen Ähnlichkeitsgrad hat, von dem Register 26
aus als das Erkennungsergebnis abgegeben, und der Prozeß
ist beendet.
Wenn dagegen das Ergebnis beim Schritt S24 nein ist, wird bei
einem Schritt S30 das vollständige eingegebene Sprachmuster
mit dem Standardmuster verglichen und zugeordnet, und bei
einem Schritt S31 wird beurteilt, ob das vollständige einge
gebene Sprachmuster mit allen Standardmustern verglichen und
zugeordnet ist oder nicht. Der Schritt S30 wird wiederholt,
wenn das Ergebnis beim Schritt S31 nein ist. Wenn das Ergeb
nis beim Schritt S31 ja ist, wird auf den Schritt S32 vor
gerückt. Wenn das Ergebnis beim Schritt S21 ja ist, arbei
tet die Spracherkennungseinrichtung in dem Registrierbetrieb,
um Standardmuster von Worten in dem Wörterbuch zu registrie
ren.
Als nächstes wird ein Prozeß beschrieben, um die Standard
muster in dem Wörterbuch zu registrieren. Fig. 12 zeigt nur
einen wesentlichen Teil der Spracherkennungseinrichtung be
züglich der Registrierung der Standardmuster. In Fig. 12 sind
diejenigen Teile, welche dieselben sind wie die entsprechen
den Teile in Fig. 7 und 10, mit denselben Bezugszeichen be
zeichnet und werden daher nicht noch einmal beschrieben. Die
Arbeitsweise des in Fig. 12 dargestellten Systems ist grund
sätzlich dieselbe wie diejenige der in Fig. 7 und 10 darge
stellten Systeme. Selbstverständlich wird das eingegebene
Sprachmuster, welches einem Teil des Wortes nach dem Energie
einbruch bis zum Ende des Wortes entspricht, in eine vorher
bestimmte Rahmenlänge umgesetzt, wenn der Energieeinbruch
am Anfang des Wortes angeordnet ist. Wenn dagegen der Energie
einbruch am Ende des Wortes zu finden ist, wird das eingege
bene Sprachmuster, welches einem Teil des Wortes von dem Be
ginn des Wortes an bis unmittelbar vor dem Energieeinbruch
entspricht, in eine vorherbestimmte Rahmenlänge umgesetzt.
In Fig. 12 ist ein durch eine gestrichelte Linie eingerahmter
Teil der Spracherkennungseinrichtung durch eine Kombination
aus einem Mikrocomputer und einem Speicher realisiert. Anhand
eines Flußdiagramms in Fig. 13 wird die Arbeitsweise des
Mikrocomputers erläutert, wenn diese Kombination angewendet
wird. In Fig. 13 wird bei einem Schritt S41 beurteilt, ob die
Spracherkennungseinrichtung in dem Registrierbetrieb arbei
tet oder nicht. Wenn das Ergebnis beim Schritt S41 ja ist,
wird bei einem Schritt S42 das Sprachmuster der eingegebenen
Sprache in eine vorherbestimmte Rahmenlänge umgesetzt und
dieses Sprachmuster wird dann als das Standardmuster regi
striert. Bei einem Schritt S43 wird beurteilt, ob der Ener
gieeinbruch in dem Sprachmuster vorhanden ist oder nicht.
Der Prozeß endet, d. h. die Registrierung dieser eingegebenen
Sprache endet, wenn das Ergebnis beim Schritt S43 nein ist.
Wenn dagegen das Ergebnis beim Schritt S43 ja ist, wird bei
einem Schritt S44 beurteilt, ob der Energieeinbruch näher
bei dem Anfang des Wortes liegt oder nicht. Wenn das Ergeb
nis beim Schritt S44 ja ist, wird bei einem Schritt S45 das
eingegebene Sprachmuster, welches einem Teil des Wortes nach
dem Energieeinbruch bis zum Wortende entspricht, in eine vor
herbestimmte Rahmenlänge umgesetzt, und dieses eingegebene
Sprachmuster wird dann als das Standardmuster registriert.
Wenn dagegen das Ergebnis beim Schritt S44 nein ist, wird
bei einem Schritt S46 das eingegebene Sprachmuster, welches
einem Teil des Wortes von dem Wortanfang an bis unmittelbar
vor dem Energieeinbruch entspricht, in eine vorherbestimmte
Rahmenlänge umgesetzt, und dieses Sprachmuster wird dann als
das Standardmuster gespeichert. Wenn folglich das Ergebnis
beim Schritt S43 ja ist, werden zwei Arten von Standardmu
stern in dem Wörterbuch bezüglich einer eingegebenen Sprache
registriert. Mit anderen Worten, ein Standardmuster wird be
züglich des vollständigen, eingegebenen Sprachmusters regi
striert, und ein Standardmuster wird bezüglich des verkürzten
eingegebenen Sprachmusters registriert.
Mit der zweiten Ausführungsform kann die Genauigkeit der
Spracherkennung verbessert werden, da ein entsprechendes
Standardmuster auch für die eingegebene Sprache registriert
ist, von welcher ein Teil leicht ausfällt. Die Genauigkeit
der Spracherkennung ist speziell dann beträchtlich verbes
sert, wenn die ersten und zweiten Ausführungsformen verknüpft
werden.
Nachstehend wird eine dritte Ausführungsform des Musteranpas
sungssystems mit Merkmalen nach der Erfindung beschrieben, wobei die
Musteranpassung in zufriedenstellender Weise mit Hilfe der
linearen Anpassungsmethode durchgeführt werden kann, selbst
wenn der Konsonant eines Wortes nicht festgestellt wird.
In Fig. 14 ist die dritte Ausführungsform des Musteranpas
sungssystems mit Merkmalen nach der Erfindung dargestellt, welches bei der
Spracherkennungseinrichtung angewendet ist. In Fig. 14 sind
wiederum die Teile, welche entsprechenden Teilen in Fig. 10
entsprechen, mit denselben Bezugszeichen bezeichnet und wer
den daher nicht noch einmal beschrieben.
Bei der zweiten Ausführungsform wird ein Teil der eingegebe
nen Sprache festgestellt, in welchem der Energieeinbruch vor
kommt. Bei dieser dritten Ausführungsform wird jedoch ein
Teil der eingegebenen Sprache, in welchem der Energieein
bruch vorliegt und die Spektralkomponente in dem hochfre
quenten Bereich konzentriert ist, festgestellt, und zwar deswegen,
da der Konsonant, welcher mittels der Sprachintervall-Detek
tion schwierig festzustellen ist, eine verhältnismäßig
geringe Energie hat und sich die Frequenzkomponenten in dem
hochfrequenten Bereich konzentrieren.
Der Einfachheit halber soll die Bandpaßfilterbank 13 15
Bandpaßfilter aufweisen, die von einer minimalen Mittelfre
quenz von 250 Hz in 1/3 Oktaven bis zu einer maximalen Mit
tenfrequenz von 6500 Hz reichen. Die Ausgangssignale des
A/D-Umsetzers 14, welche den ersten bis elften Bandpaß
filtern in dem niederfrequenten Bereich entsprechen, werden
in einer Summierschaltung 51 summiert, während die Ausgangs
signale des A/D-Umsetzers 14, welche den zwölften bis fünf
zehnten Bandpaßfiltern entsprechen, in einer Summierschaltung 52
summiert werden. Ein Vergleicher 53 vergleicht Ausgangssummen
der Summierschaltungen 51 und 52 und gibt ein Signal "1" ab,
wenn die Ausgangssumme der Summierschaltung 52 größer als
diejenige der Summierschaltung 51 ist. Andernfalls gibt der
Vergleicher 53 ein Signal "0" ab.
Bei dieser Ausführungsform wird die Konzentration der spek
tralen Komponenten in dem hochfrequenten Bereich dadurch
festgestellt, daß das zu analysierende Frequenzband in zwei
Bereiche aufgeteilt wird. Es kann auch irgendein anderes
geeignetes Verfahren angewendet werden, um die Konzentration
der Spektralkomponenten in dem hochfrequenten Bereich fest
zustellen. Beispielsweise kann die Konzentration festgestellt
werden, wenn das zu analysierende Frequenzband in zwei Be
reiche geteilt wird, und die hochfrequenten Komponenten ein
Mehrfaches der niederfrequenten Komponenten sind, oder die
Konzentration kann festgestellt werden, wenn eine Linie ent
lang der Frequenzachsenrichtung der spektralen Verteilung
gezogen wird, und die Linie eine negative Steigung hat.
Ein Addierer 54 addiert die Ausgangssummen der Summierschal
tungen 51 und 52 und legt einen addierten Wert an einen
Vergleicher 56 an. Der Vergleicher 56 gibt ein Signal "1"
ab, wenn der addierte Wert kleiner als ein vorherbestimmter,
in einem Speicher 55 gespeicherter Schwellenwert ist; andern
falls gibt er ein Signal "0" ab. Dieser vorherbestimmte
Schwellenwert wird verwendet, um den Energieeinbruch festzu
stellen, und wird beispielsweise bei annähernd 1/5 des Ener
giepegels eingestellt, welcher erhalten wird, wenn ein Vokal
eingegeben wird. Ein Multiplizierer 57 multipliziert die Aus
gangssignale der Vergleicher 53 und 56, und das unbekannte
eingegebene Sprachmuster, welches vorübergehend in einem Re
gister 58 gespeichert ist, wird an das Register 18 übertra
gen, wenn der Multiplizierer 57 ein Signal "1" abgibt. Da
nach wird das Erkennungsergebnis ähnlich wie bei den ersten
und zweiten Ausführungsformen erhalten.
Nunmehr wird ein Prozeß beschrieben, um die Standardmuster
in dem Wörterbuch zu registrieren. In Fig. 15 ist nur ein
wesentlicher Teil der Spracherkennungseinrichtung bezüglich
der Registrierung der Standardmuster dargestellt. In Fig. 15
sind diejenigen Teile, welche dieselben wie die entsprechen
den Teile in Fig. 14 sind, mit denselben Bezugszeichen be
zeichnet und werden daher nicht nochmals beschrieben. Die
Arbeitsweise des in Fig. 15 dargestellten Systems ist grund
sätzlich dieselbe wie diejenige der in Fig. 12 und 14 dar
gestellten Systeme. Selbstverständlich wird das eingegebene
Sprachmuster, welches einem Teil des Wortes nach dem Ener
gieeinbruch bis zum Ende des Wortes entspricht, in eine vor
herbestimmte Rahmenlänge umgesetzt, wenn der Energieeinbruch
an dem Wortanfang zu finden ist, da dort die Spektralkompo
nenten in dem hochfrequenten Bereich konzentriert werden.
Das eingegebene Sprachmuster, welches einem Teil des Wortes
von dem Wortanfang an bis unmittelbar vor dem Energieeinbruch
entspricht, wird in eine vorherbestimmte Rahmenlänge umge
setzt, wenn der Energieeinbruch am Wortende liegt, da
dort die spektralen Komponenten im hochfrequenten Be
reich konzentriert sind.
In Fig. 14 und 15 ist ein durch eine gestrichelte Linie ein
gerahmter Teil der Spracherkennungseinrichtung durch eine
Kombination aus einem Mikrocomputer und einen Speicher aus
geführt. Anhand eines Flußdiagramms in Fig. 16 wird der Betrieb
des Mikrocomputers erläutert, wenn diese Kombination angewen
det wird. In dieser Ausführungsform ist es nicht wesentlich,
das eingegebene Sprachmuster in zwei oder mehr Rahmenlängen
wie in der ersten Ausführungsform umzusetzen. Folglich soll
der Einfachheit halber das eingegebene Sprachmuster nur in
eine Rahmenlänge umgesetzt werden.
In Fig. 16 wird bei einem Schritt S51 beurteilt, ob das ein
gegebene Sprachmuster einen spezifischen Teil hat, in welchem
ein Energieeinbruch vorhanden ist und die spektralen Kompo
nenten in dem hochfrequenten Bereich konzentriert sind. Wenn
das Ergebnis beim Schritt S51 ja ist, wird bei einem Schritt
S52 das eingegebene Sprachmuster in eine vorherbestimmte Rah
menlänge normiert. Bei einem Schritt S53 wird der spezielle
Teil des eingegebenen Sprachmusters entfernt, und bei einem
Schritt S54 wird das eingegebene Sprachmuster abgesehen von
dem speziellen Teil in die vorherbestimmte Rahmenlänge nor
miert.
Nach dem Schritt S54 werden bei einem Schritt S56 die zwei
eingegebenen Sprachmuster, welche sich auf dieselbe einge
gebene Sprache beziehen, mit den in dem Wörterbuch registrier
ten Standardmustern verglichen. Bei einem Schritt S57 wird
der Ähnlichkeitsgrad für die zwei eingegebenen Sprachmuster
bezüglich aller Standardmuster berechnet. Bei einem Schritt
S58 wird das Wort mit dem maximalen Ähnlichkeitsgrad als das
Erkennungsergebnis ausgegeben und der Prozeß ist beendet.
Wenn dagegen das Ergebnis beim Schritt S51 nein ist, wird
bei einem Schritt S55 das eingegebene Sprachmuster in die
vorherbestimmte Länge normiert, und bei einem Schritt S56
wird das eingegebene Sprachmuster mit den in dem Wörterbuch
registrierten Standardmustern verglichen und zugeordnet. Da
nach werden die Schritte S57 und S58 in ähnlicher Weise, wie
oben beschrieben, ausgeführt.
Die Spracherkennungseinrichtung in dem Registrierbetrieb ar
beitet in ähnlicher Weise wie im Falle der zweiten Ausfüh
rungsform, außer daß bei der dritten Ausführungsform der
spezielle Teil des Wortes festgestellt wird, in welchem der
Energieeinbruch vorliegt und in welchem die spektralen Kom
ponenten in dem hochfrequenten Bereich konzentriert sind.
Dieser Unterschied ist jedoch aus Fig. 14 zu ersehen.
Bei der dritten Ausführungsform kann die Genauigkeit der
Spracherkennung verbessert werden, da ein entsprechendes
Standardmuster auch für die eingegebene Sprache registriert
wird, von welcher ein Teil ausfällt. Die Genauigkeit des
Spracherkennungssystems ist insbesondere dann, wenn die
erste und dritte Ausführungsform verknüpft werden, erheblich
verbessert. In den beschriebenen Ausführungsformen ist die
Methode, um den Ähnlichkeitsgrad zu bestimmen, jedoch nicht
auf die dort beschriebenen Methoden beschränkt.
Claims (11)
1. Musteranpassungssystem für eine Spracherkennungseinrichtung,
mit einem Wörterbuch zum Speichern von Standardsprachmustern,
mit einer Umsetzeinrichtung, um ein eingegebenes
Sprachmuster, welches eine beliebige Musterlänge
hat, in zumindest ein umgesetztes Sprachmuster umzusetzen,
welches eine Musterlänge hat, mit welcher Standardsprachmuster
in dem Wörterbuch gespeichert sind, und mit einer
Vergleichseinrichtung, um das umgesetzte Sprachmuster mit in
dem Wörterbuch gespeicherten Standardmustern zu vergleichen,
um ein Standardmuster zu erhalten, welches einen größten
Ähnlichkeitsgrad mit dem umgesetzten Sprachmustern hat, dadurch
gekennzeichnet, daß
- a) in dem Wörterbuch (22) Standardsprachmuster mit zwei oder mehr verschiedenen Musterlängen gespeichert sind, wobei die verschiedenen Muster jeweils hinsichtlich ihrer Längen klassifiziert sind,
- b) die Umsetzeinrichtung (15-20; 41-43; 51-58) dafür ausgebildet ist, ein eingegebenes Sprachmuster, welches eine beliebige Musterlänge hat, selektiv in eine der verschiedenen Musterlängen umzusetzen, und
- c) eine Zuordnungseinrichtung (23-26) vorgesehen ist, welche das eingegebene, auf eine bestimmte Musterlänge umgesetzte Sprachmuster der entsprechenden Musterlänge der in dem Wörterbuch (22) gespeicherten Standardsprachmuster zuordnet.
2. Musteranpassungssystem nach Anspruch 1, dadurch gekennzeichnet,
daß die Umsetzeinrichtung (15-20; 41-43; 51-58)
dafür ausgebildet ist, die Rahmenlänge (Lx) eines Eingangssprachmusters
auf bestimmte, im Wörterbuch gespeicherte und
klassifizierte Werte zu komprimieren oder auszudehnen.
3. Musteranpassungssystem nach Anspruch 1 oder 2, dadurch
gekennzeichnet, daß das Wörterbuch (22) jedes Standardsprachmuster
in mehreren voneinander unterschiedlichen Musterlängen
(L1-L3) speichert, und daß die Umsetzeinrichtung (15-20) das
eingegebene Sprachmuster in wenigstens eine der Längen der
Standardsprachmuster abhängig davon umsetzt, ob die Länge des
eingegebenen Sprachmusters vorgegebene Mustergrenzwertlängen
(La, Lb) überschreitet und/oder unterschreitet.
4. Musteranpassungssystem nach Anspruch 3, dadurch gekennzeichnet,
daß das Wörterbuch (22) jedes Standardsprachmuster
in drei gegenseitig unterschiedlichen Musterlängen (L1-L3)
speichert, und daß die Umsetzeinrichtung (15-20) das eingegebene
Sprachmuster in das umgesetzte Sprachmuster mit der Musterlänge
L1, wenn L<La ist, mit der Musterlänge L2, wenn
La L Lb ist, und mit der Musterlänge L3 umsetzt, wenn
Lb<L ist, wobei mit L die beliebige Musterlänge des eingegebenen
Sprachmusters bezeichnet ist, und La und Lb Mustergrenzwertlängen
sind, wobei La<Lb ist.
5. Musteranpassungssystem nach Anspruch 3 oder 4, dadurch gekennzeichnet,
daß das Wörterbuch (22) jedes Standardsprachmuster in drei wechselweise verschiedenen
Musterlängen (L1 bis L3) speichert, und die Umsetzeinrichtung (15-20)
das eingegebene Sprachmuster in das umgesetzte Sprachmuster mit der Musterlänge
L1, wenn beiden Bedingungen L<La und L<La+(La-Lb)/2 genügt ist, mit
den Musterlängen L1 und L2, wenn beiden Bedingungen L<La und LLa+(a-Lb)/2
genügt ist, mit den Musterlängen L1 und L2, wenn beiden Bedingungen LaLLb
und L<Lb+(La-Lb)/2 genügt ist, mit den Musterlängen L2 und L3,
wenn beiden Bedingungen LaLLb und LLb+(La-Lb)/2 genügt ist, mit
den Musterlängen L2 und L3, wenn beiden Bedingungen Lb<L und L<Lb-(La-Lb)/2
genügt ist, und mit den Musterlängen L2 und L3 umsetzt, wenn beiden
Bedingungen Lb<La und LLb-(La-Lb)/2 genügt ist.
6. Musteranpassungssystem nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet,
daß das Wörterbuch (22) erste und zweite Standardsprachmuster bezüglich
eines Wortes speichert, wenn ein Energiepegel in den Anfangs- oder Endteilen des
Wortes kleiner als ein vorherbestimmter Pegel ist, wobei das erste Standardmuster
dem ganzen Wort entspricht, und das zweite Standardmuster dem Wort ausschließlich
dem Anfangs- oder Endteil entspricht.
7. Musteranpassungssystem nach Anspruch 1 oder 5, dadurch gekennzeichnet,
daß die Vergleichs- und Zuordnungseinrichtung (21, 23-26) das umgesetzte Sprachmuster
mit dem ersten und zweiten Standardmuster kollationiert und das Wort mit
dem größten Ähnlichkeitsgrad auswählt, wenn eines der beiden Standardmuster eine
größte Ähnlichkeit unter den in dem Wörterbuch (22) gespeicherten Standardmustern
hat.
8. Musteranpassungssystem nach Anspruch 6, dadurch gekennzeichnet, daß der
vorherbestimmte Pegel auf der Basis eines Energiepegels, der sich ergibt, wenn
keine Spracheingabe erfolgt, festgelegt ist.
9. Musteranpassungssystem nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet
daß das Wörterbuch (22) erste und zweite Standardsprachmuster
bezüglich eines Wortes speichert, wenn ein Energiepegel am Wortanfang oder -ende
niedriger als ein vorherbestimmter Pegel ist, und Spektralkomponenten hat, welche
in einem hochfrequenten Bereich konzentriert sind, wobei das erste Standardmuster
dem ganzen Wort entspricht und das zweite Standardmuster dem Wort ausschließlich
dem Anfangs- oder Endteil entspricht.
10. Musteranpassungssystem nach Anspruch 6, dadurch gekennzeichnet, daß der
vorherbestimmte Pegel niedriger als der Energiepegel eines Vokals ist.
11. Musteranpassungssystem nach Anspruch 10, dadurch gekennzeichnet, daß
der vorherbestimmte Pegel annähernd ein Fünftel (1/5) des Energiepegels eines
Vokals ist.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26110489 | 1989-10-05 | ||
JP5301790 | 1990-03-05 | ||
JP12374690 | 1990-05-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE4031421A1 DE4031421A1 (de) | 1991-04-18 |
DE4031421C2 true DE4031421C2 (de) | 1995-08-24 |
Family
ID=27294820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE4031421A Expired - Fee Related DE4031421C2 (de) | 1989-10-05 | 1990-10-04 | Musteranpassungssystem für eine Spracherkennungseinrichtung |
Country Status (2)
Country | Link |
---|---|
US (1) | US5191635A (de) |
DE (1) | DE4031421C2 (de) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5457645A (en) * | 1989-11-24 | 1995-10-10 | Matsushita Electric Industrial Co., Ltd. | Pattern recognition system including a circuit for detecting maximum or minimum data elements which determines the standard pattern closest to the input pattern |
JPH05197389A (ja) * | 1991-08-13 | 1993-08-06 | Toshiba Corp | 音声認識装置 |
KR100202425B1 (ko) * | 1992-08-27 | 1999-06-15 | 정호선 | 가전제품의 리모콘 명령어를 인식하기 위한 음성 인식 시스템 |
CA2125337A1 (en) * | 1993-06-30 | 1994-12-31 | Marlin Jay Eller | Method and system for searching compressed data |
US5706398A (en) * | 1995-05-03 | 1998-01-06 | Assefa; Eskinder | Method and apparatus for compressing and decompressing voice signals, that includes a predetermined set of syllabic sounds capable of representing all possible syllabic sounds |
JP3581752B2 (ja) * | 1995-10-09 | 2004-10-27 | 株式会社リコー | 音声認識装置及び音声認識方法 |
DE19610848A1 (de) * | 1996-03-19 | 1997-09-25 | Siemens Ag | Rechnereinheit zur Spracherkennung und Verfahren zur rechnergestützten Abbildung eines digitalisierten Sprachsignals auf Phoneme |
JP3578587B2 (ja) * | 1997-03-28 | 2004-10-20 | 株式会社リコー | 音声認識装置および音声認識方法 |
EP1083545A3 (de) | 1999-09-09 | 2001-09-26 | Xanavi Informatics Corporation | Eigennamen Spracherkennung in einem Navigationssystem |
US20050234712A1 (en) * | 2001-05-28 | 2005-10-20 | Yongqiang Dong | Providing shorter uniform frame lengths in dynamic time warping for voice conversion |
US7788097B2 (en) * | 2002-06-06 | 2010-08-31 | Nuance Communications, Inc. | Multiple sound fragments processing and load balancing |
US7340392B2 (en) * | 2002-06-06 | 2008-03-04 | International Business Machines Corporation | Multiple sound fragments processing and load balancing |
JP4667082B2 (ja) * | 2005-03-09 | 2011-04-06 | キヤノン株式会社 | 音声認識方法 |
JP4804052B2 (ja) * | 2005-07-08 | 2011-10-26 | アルパイン株式会社 | 音声認識装置、音声認識装置を備えたナビゲーション装置及び音声認識装置の音声認識方法 |
US20090210233A1 (en) * | 2008-02-15 | 2009-08-20 | Microsoft Corporation | Cognitive offloading: interface for storing and composing searches on and navigating unconstrained input patterns |
US20170323240A1 (en) | 2016-05-06 | 2017-11-09 | General Electric Company | Computing system to control the use of physical state attainment with inspection |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB1435779A (en) * | 1972-09-21 | 1976-05-12 | Threshold Tech | Word recognition |
US4183806A (en) * | 1976-11-22 | 1980-01-15 | Mineral Deposits Limited | Gravitational separator employing an improved eluent supply system |
JPS5722295A (en) * | 1980-07-15 | 1982-02-05 | Nippon Electric Co | Speaker recognizing system |
US4761815A (en) * | 1981-05-01 | 1988-08-02 | Figgie International, Inc. | Speech recognition system based on word state duration and/or weight |
US4489434A (en) * | 1981-10-05 | 1984-12-18 | Exxon Corporation | Speech recognition method and apparatus |
JPH0632012B2 (ja) * | 1985-03-25 | 1994-04-27 | 株式会社東芝 | 音声認識装置 |
JPS6350896A (ja) * | 1986-08-21 | 1988-03-03 | 沖電気工業株式会社 | 音声認識装置 |
DE3733659A1 (de) * | 1986-10-03 | 1988-04-21 | Ricoh Kk | Verfahren zum vergleichen von mustern |
US5146503A (en) * | 1987-08-28 | 1992-09-08 | British Telecommunications Public Limited Company | Speech recognition |
-
1990
- 1990-10-04 DE DE4031421A patent/DE4031421C2/de not_active Expired - Fee Related
- 1990-10-05 US US07/593,798 patent/US5191635A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US5191635A (en) | 1993-03-02 |
DE4031421A1 (de) | 1991-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE4031421C2 (de) | Musteranpassungssystem für eine Spracherkennungseinrichtung | |
DE3819178C2 (de) | ||
DE3236834C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE3236832C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE69420400T2 (de) | Verfahren und gerät zur sprechererkennung | |
DE69725802T2 (de) | Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung | |
DE69010722T2 (de) | Spracherkennungssystem. | |
DE3750314T2 (de) | Sprachprozessor. | |
DE3878001T2 (de) | Spracherkennungseinrichtung unter anwendung von phonemermittlung. | |
DE3645118C2 (de) | ||
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE3236885A1 (de) | Verfahren und geraet zur sprachanalyse | |
DE4029698A1 (de) | Sprachgesteuertes fernbedienungssystem | |
DE2753707A1 (de) | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache | |
DE69614937T2 (de) | Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche | |
EP0836175B1 (de) | Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal | |
DE2659083A1 (de) | Verfahren und vorrichtung zur sprechererkennung | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE3733391A1 (de) | Verfahren zur spracherkennung | |
DE4031638A1 (de) | Spracherkennungseinrichtung | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE3733659C2 (de) | ||
DE69516455T2 (de) | Verfahren zur Sprachkodierung mittels linearer Prädiktion | |
DE69922769T2 (de) | Vorrichtung und Verfahren zur Sprachverarbeitung | |
DE2720666C2 (de) | Verfahren und Anordnung zur Geräuschanalyse |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |