DE3733659C2 - - Google Patents
Info
- Publication number
- DE3733659C2 DE3733659C2 DE3733659A DE3733659A DE3733659C2 DE 3733659 C2 DE3733659 C2 DE 3733659C2 DE 3733659 A DE3733659 A DE 3733659A DE 3733659 A DE3733659 A DE 3733659A DE 3733659 C2 DE3733659 C2 DE 3733659C2
- Authority
- DE
- Germany
- Prior art keywords
- pattern
- speech pattern
- speech
- patterns
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims abstract description 132
- 238000001514 detection method Methods 0.000 claims description 15
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 description 27
- 239000003550 marker Substances 0.000 description 18
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 239000000523 sample Substances 0.000 description 14
- 230000006978 adaptation Effects 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 10
- 239000000872 buffer Substances 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 6
- 238000005259 measurement Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000008602 contraction Effects 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 4
- 210000003608 fece Anatomy 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000006866 deterioration Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 230000007261 regionalization Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000000059 patterning Methods 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000272517 Anseriformes Species 0.000 description 1
- 241001051118 Garcinia nigrolineata Species 0.000 description 1
- 241001071864 Lethrinus laticaudis Species 0.000 description 1
- 241000022844 Praxis Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 210000000941 bile Anatomy 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- RKWPMPQERYDCTB-UHFFFAOYSA-N ethyl n-[4-[benzyl(2-phenylethyl)amino]-2-(4-nitrophenyl)-1h-imidazo[4,5-c]pyridin-6-yl]carbamate Chemical compound N=1C(NC(=O)OCC)=CC=2NC(C=3C=CC(=CC=3)[N+]([O-])=O)=NC=2C=1N(CC=1C=CC=CC=1)CCC1=CC=CC=C1 RKWPMPQERYDCTB-UHFFFAOYSA-N 0.000 description 1
- PVCRZXZVBSCCHH-UHFFFAOYSA-N ethyl n-[4-[benzyl(2-phenylethyl)amino]-2-(4-phenoxyphenyl)-1h-imidazo[4,5-c]pyridin-6-yl]carbamate Chemical compound N=1C(NC(=O)OCC)=CC=2NC(C=3C=CC(OC=4C=CC=CC=4)=CC=3)=NC=2C=1N(CC=1C=CC=CC=1)CCC1=CC=CC=C1 PVCRZXZVBSCCHH-UHFFFAOYSA-N 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- RJMIEHBSYVWVIN-UHFFFAOYSA-N indoprofen Chemical compound C1=CC(C(C(O)=O)C)=CC=C1N1C(=O)C2=CC=CC=C2C1 RJMIEHBSYVWVIN-UHFFFAOYSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 239000013074 reference sample Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Toys (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
- Image Analysis (AREA)
Description
Die Erfindung betrifft ein Verfahren zum Vergleichen eines
Eingangs-Sprachmusters mit einem registrierten Sprachmuster,
welches in einer Bibliothek gespeichert ist, und zum
Berechnen des Ähnlichkeitsgrades zwischen den Mustern.
Ferner betrifft die Erfindung auch ein Verfahren zur
Herstellung eines Bezugs-Sprachmusters, welches in einer
Bibliothek abzuspeichern ist.
Aus der DE 27 53 277 A1 ist ein Verfahren zur Sprachmuster-
und/oder Stimmenmusteridentifizierung bekannt. Bei diesem
bekannten Verfahren werden mehrere Bezugssprachmuster oder
Bezugsstimmenmuster abgespeichert, beispielsweise in Form
einer Speicherbibliothek, und es wird ein unbekanntes
Sprachmuster oder Stimmenmuster mit den Bezugs-Sprachmustern
oder Bezugs-Stimmenmustern aus der Speicherbibliothek
verglichen, um anhand einer ermittelten höchsten Ähnlichkeit
das unbekannte Sprachmuster oder Stimmenmuster zu
identifizieren. Ferner wird bei diesem bekannten Verfahren
zumindest das unbekannte Sprachmuster oder Stimmenmuster in
vorbestimmte Musterabschnitte (Sprachrahmen) aufgeteilt,
die dann für die Durchführung eines Bezugsmustervergleichs
verwendet werden. Bei diesem bekannten Verfahren wird ferner
von einem einzelnen eingegebenen Sprachmuster oder
Stimmenmuster ein Bezugs-Sprachmuster oder Bezugs-Stimmenmuster
gebildet, d. h. es wird dabei nicht untersucht, ob
eventuell bei mehrfacher Aussprache ein und desselben Wortes
oder der Aussprache ein und derselben Stimmenfolge ein
spezifisches stimmloses Zwischenintervall auftritt oder
nicht.
Aus der DE-OS 23 47 738 ist ein Spracherkennungsverfahren
und Vorrichtung zur Durchführung dieses Verfahrens bekannt,
wonach gesprochene Eingabe-Übungswörter erzeugt und anschließend
ein gesprochenes Eingabe-Befehlswort erzeugt
wird, um eine Korrelationsfunktion auszuführen, gemäß welcher
die Ähnlichkeit zwischen dem Befehlswort und jedem
Übungswort angezeigt werden kann. Dabei wird ein Merkmalsauszug
von empfangenen Eingabewörtern erzeugt und es werden
digitale Merkmalsauszüge gebildet. Die betreffenden Merkmalssignale
werden gespeichert, welche während eines
Übungswortes auftreten, und zwar in Form einer zeitabhängigen
Matrix. Ferner werden auch die Merkmalssignale gespeichert,
welche von dem Befehlswort gewonnen wurden und werden
ebenfalls als zeitabhängige Matrix gespeichert.
Schließlich wird ein gliedweiser Vergleich zwischen der Befehlswortmatrix
mit jeder Übungswortmatrix durchgeführt, um
eine Korrelationsziffer zu gewinnen, welche das Ergebnis
jedes Vergleichs anzeigt.
Bei einem der am meisten üblichen Muster-Vergleichsverfahren
wird eine Musteranpassung benutzt. Bei diesem Musteranpassungsverfahren
wird der Ähnlichkeitsgrad zwischen einem
eingegebenen unbekannten Muster und jedem einer Anzahl von
registrierten, bekannten Bezugsmustern festgestellt; dann
wird das eingegebene Muster durch eines der Bezugsmuster
identifiziert, das den höchsten Ähnlichkeitsgrad hat. Wenn
dieses Verfahren in der Praxis angewendet wird, ergibt sich
eine Schwierigkeit aufgrund des Umgebungsrauschens, das
sich mit einem eingegebenen Muster vermischt. Wenn beispielsweise
im Fall von Anwendungen zur Spracherkennung ein
sporadisch auftretendes Rauschen im Hintergrund während des
Erkennungsprozesses erzeugt wird, oder wenn das Geräusch
beim Öffnen und Schließen in eine Sprache während des Aussprechens
eingebracht worden ist, wird eine eingegebene
Sprache mit Bezugsmustern verglichen, bei welchen Rauschen
vorhanden ist, so daß eine richtige Ähnlichkeit nicht festgestellt
werden kann. Wenn, wie oben beschrieben, die Sprache
sehr empfindlich bezüglich Rauschen ist, ergibt sich
durch das Rauschen ein zusätzliches Problem in einer eingegebenen
Sprache; wenn andererseits die Empfindlichkeit bezüglich
Rauschen zu gering ist, ist es richtig, daß die
Chance, Rauschen aufzunehmen, geringer wird; es ergibt sich
jedoch eine weitere Schwierigkeit beim Abtasten eines Teils
einer Sprache/Stimme beispielsweise im Falle eines Wortes
"Stopp", bei welchem das Wortende ein Konsonant ist, welcher
für sich ausgesprochen wird, es oft der Fall ist, daß
der letzte Laut /p/ nicht festzustellen ist.
In Fig. 7a und 7b ist der Fall dargestellt, daß der Wortklang
für "Stopp" durch Musteranpassung zu erkennen ist. In
Fig. 7a ist ein Bezugsmuster und in Fig. 7b ist ein zu
identifizierendes eingegebenes Muster dargestellt. Das Bezugsmuster
der Fig. 7a hat ein genaues Muster, welches das
Wort "Stopp" in seiner Gänze darstellt; jedoch fehlt bei
dem eingegebenen Muster der Fig. 7a der letzte Laut /p/. Im
Ergebnis wird, wenn diese beiden Muster durch Musteranpassung
verglichen werden, das Musterende /p/ des Bezugsmusters
von Fig. 7a entsprechend ausgebildet, um dem Musterende /o/
des eingegebenen Musters der Fig. 7b zu entsprechen. Aus
diesem Grund wird der Ähnlichkeitsgrad zwischen diesen beiden
Mustern geringer, was zu einem fehlerhaften Erkennungsergebnis
führt. Eine solche fehlerhafte Übereinstimmung
kann durch Verwenden des dynamischen Anpassungsschemas mit
einem freien Endpunkt verhindert werden; jedoch gibt es
auch Fälle, in welchen ein Teil eines Musters an seinem
vorderen oder hinteren Ende verlorengeht oder ein Geräusch
hinzugefügt wird, was notwendigerweise die Anzahl Berechnungen
erhöhen würde, wobei dieses Verfahren an sich schon
eine große Anzahl von Berechnungen erfordert.
Wie oben beschrieben, wird bei dem Musteranpassungsverfahren
der Ähnlichkeitsgrad festgestellt, indem ein eingegebenes,
unbekanntes Muster mit jeweils einer Anzahl Bezugsmuster
verglichen wird, welche in irgendeiner Weise
vorher ausgebildet worden sind; dann wird die Identität des
eingegebenen Musters mit einem Bezugsmuster festgestellt,
welches den höchsten Ähnlichkeitsgrad hat. Folglich ist es
äußerst wichtig bei dem Musteranpassungsverfahren, wie genau
ein Muster extrahiert werden kann, und diese Wichtigkeit
ist nicht nur auf die Anwendung bei Spracherkennung
beschränkt. Um zu verhindern, daß Umgebungsrauschen eingebracht
wird, wenn eine Sprache/Stimme extrahiert wird oder
wenn ein Sprachintervall festzulegen ist, muß daher insbesondere
ein Schwellenwertpegel richtig festgelegt werden,
um so ein geringes Geräusch nicht aufzunehmen.
Ein übliches Verfahren, um ein Sprachintervall festzustellen
ist in Fig. 8 dargestellt, in welcher der Energiepegel
einer Sprache verwendet wird, um die Sprache von dem Hintergrundrauschen
zu trennen. Bei diesem Verfahren ist ein
Sprachenergie-Schwellenwertpegel A zum Beschneiden von Geräuschen
vor dem Eingeben einer Sprache festgelegt worden,
und ein Sprechintervall L ist als ein Zeitabschnitt von
einem Zeitpunkt t₁ an, wenn der Sprachenergiepegel den
Schwellenwertpegel A überschritten hat, bis zu einem Zeitpunkt
t₂ festgelegt, wenn der Sprachenergiepegel unter den
Schwellenwertpegel A abgenommen hat. Dies ist der Grundgedanke
beim Ermitteln eines Sprachintervalls; jedoch sind
schon verschiedene Verbesserungen gemacht worden, um eine
Sprache/Stimme, die von Interesse ist, von Geräuschen zu
trennen. Außerdem ist es als eine Merkmalsquantität nicht
notwendig, irgendein ganz bestimmtes zu verwenden; vielmehr
kann irgendein gewünschtes Merkmal verwendet werden, das
besonders typisch ist, wie beispielsweise ein Energiespektrum,
ein LPC oder ähnliches Spektrum. Wenn beispielsweise
der Fall eines Energiespektrums genommen wird, kann dies
durchgeführt werden, indem eine eingegebene Sprache/Stimme
an eine Bandpaß-Filterbank angelegt wird, und das Analyseverfahren
frei geändert wird, um das charakteristische
Merkmal der Bandpaß-Filterbank zu selektieren. Eine Sprechintervall
feststellende Einheit und eine die Merkmalsquantität
umsetzende Einheit können in irgendeiner Reihenfolge
bezüglich des Flusses eines Sprachsignals angeordnet sein,
das von einer Spracheingabeeinheit geliefert worden ist.
Wenn in einem solchen Fall ein geräuschvoller Konsonant mit
geringer Energie, wie beispielsweise der Laut /f/ am Anfang
oder Ende eines Ausdruckes vorhanden ist, ist dies sehr
schwierig aufzunehmen. In Fig. 9a ist ein Bezugsmuster für
die /Familie/ und in Fig. 9b ist ein Eingabemuster für denselben
Wortklang (word voice) dargestellt. Wie dargestellt,
ist es oft der Fall, daß der Laut verlorengeht. Aus diesem
Grund kann keine richtige Anpassung durchgeführt werden,
aus welcher sich ein niedrigerer Ähnlichkeitsgrad ergeben
würde, der somit zu einer fehlerhaften Erkennung führen
würde
Die der Erfindung zugrundeliegende Aufgabe besteht darin,
ein Verfahren zur Durchführung eines Sprachmustervergleichs
zu schaffen, welches auch zur Herstellung von Bezugs-
Sprachmustern verwendet werden kann und welches eine verbesserte
bzw. wesentlich erhöhte Sicherheit bei der Sprachmuster-
Identifizierung bietet.
Gemäß einem ersten Lösungsvorschlag wird diese Aufgabe erfindungsgemäß
durch die im Patentanspruch 1 aufgeführten
Merkmale gelöst.
Ein zweckmäßiges Verfahren zur Erstellung von Bezugssprachmustern
ergibt sich aus dem Patentanspruch 12.
Besonders vorteilhafte Ausgestaltungen und Weiterbildungen
des erfindungsgemäßen Verfahrens ergeben sich aus den Unteransprüchen.
Im folgenden wird die Erfindung anhand von Ausführungsbeispielen
unter Hinweis auf die Zeichnung näher erläutert. Es
zeigen
Fig. 1 eine schematische, größtenteils in Blockform wie
dergegebene Darstellung eines Spracherken
nungssystems gemäß einer Ausführungsform mit Merkmalen nach der
Erfindung;
Fig. 2a bis 2c Darstellungen, welche zur Erläuterung der Ar
beitsweise des in Fig. 1 dargestellten Systems
dienen;
Fig. 3 eine schematische Darstellung eines Spracher
kennungssystems, das bezüglich des Systems in
Fig. 1 modifiziert ist;
Fig. 4a bis 4c Darstellungen zur Erläuterung der Arbeitswei
se des in Fig. 3 wiedergegebenen Systems;
Fig. 5 und 6 in Blockform alternative Spracherkennungssy
steme gemäß weiterer Ausführungsformen mit Merkmalen nach der
Erfindung;
Fig. 7a, 7b, 8, 9a und 9b Darstellungen zum Erläutern der
Schwierigkeiten, die durch die Erfindung zu
lösen sind, wenn sie zur Spracherkennung ver
wendet wird;
Fig. 10 eine schematische, größenteils in Blockform wieder
gegebene Darstellung eines Spracherkennungs
systems gemäß noch einer weiteren Ausführungs
form mit Merkmalen nach der Erfindung;
Fig. 11a bis 11c Darstellungen zur Erläuterung der Arbeits
weise des in Fig. 10 dargestellten Systems;
Fig. 12a und 12b Darstellungen zur Erläuterung der Vorteile
einer weiteren Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 13 eine schematische, meist in Blockform wieder
gegebene Darstellung eines Spracherkenungs
systems gemäß einer Ausführungsform, mit wel
cher das in Fig. 12a und 12b dargestellte Sche
ma durchgeführt wird;
Fig. 14 eine schematische, größtenteils in Blockform wieder
gegebene Darstellung eines Spracherkennungs
systems gemäß noch einer weiteren Ausführungs
form mit Merkmalen nach der Erfindung;
Fig. 15a, 15b und 16 Darstellungen zur Erläuterung der Ar
beitsweise des in Fig. 14 wiedergegebenen Sy
stems;
Fig. 17 ein Flußdiagramm eines Bezugsmuster-Bildungs
verfahrens gemäß noch einer weiteren Ausfüh
rungsform mit Merkmalen nach der Erfindung;
Fig. 18 eine schematische, größtenteils in Blockform wieder
gegebene Darstellung eines Bezugsmuster-Bil
dungssystems zur Durchführung des in Fig. 17
dargestellten Verfahrens;
Fig. 19 eine schematische, größenteils in Blockform wieder
gegebene Darstellung eines alternativen Be
zugsmuster-Bildungssystems mit Merkmalen nach der Erfin
dung;
Fig. 20a, 20b, 21 und 22 Darstellungen zur Erläuterung der
Probleme, welche hinsichtlich eines anderen
Aspektes der Erfindung zu lösen sind;
Fig. 23 ein Flußdiagramm einer Folge von Schritten
eines Mustervergleichsverfahrens gemäß noch
einer weiteren Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 24 eine Darstellung, wie Fig. 24a und 24b zu
sammenzusetzen sind;
Fig. 24a und 24b, wenn sie so wie in 24 dargestellt, zu
sammengesetzt sind, eine schematische, größenteils
in Blockform wiedergegebene Darstellung eines
Spracherkennungssystems zur Durchführung des
in Fig. 23 wiedergegebenen Verfahrens;
Fig. 25 ein Flußdiagramm einer Folge von Schritten
eines Mustervergleichsverfahrens, welches
eine Abwandlung des Verfahrens in Fig. 23 ist;
Fig. 26 eine Darstellung, wie Fig. 26a und 26b zusam
menzusetzen sind;
Fig. 26a und 26b, wenn sie so wie in Fig. 26 dargestellt, zu
sammengsetzt sind, eine schematische, größtenteils
in Blockform wiedergegebene Darstellung ein
Spracherkennungssystems zum Durchführen des
Verfahrens in Fig. 25;
Fig. 27a und 27b Darstellungen von Sprachmustern zum Erläu
tern der Vorteile eines Gesichtspunkts der
Erfindung;
Fig. 28a und 28b Darstellungen zum Erläutern der Schwierig
keiten, welche gemäß einem Aspekt der Erfin
dung zu lösen sind;
Fig. 29 eine schematische, größtenteils in Blockform wieder
gegebene Darstellung eines Sprachmuster-Ver
arbeitungssystems;
Fig. 30a bis 30c Darstellungen zum Erläutern der Arbeitsweise
des Systems in Fig. 29;
Fig. 31 eine schematische, größtenteils in Blockform wieder
gegebene Darstellung eines weiteren Sprachmu
sterverarbeitungssystems;
Fig. 32a bis 32c Darstellungen zum Erläutern der Arbeitsweise
des Systems in Fig. 31;
Fig. 33 eine Darstellung, wie Fig. 33a und 33b zusam
menzusetzen sind;
Fig. 33a und 33b, wenn sie so wie in Fig. 33 dargestellt, zu
sammengesetzt sind, eine schematische, größtenteils
in Blockform wiedergegebene Darstellung eines
Spracherkennungssystems gemäß noch einer wei
teren Ausführung mit Merkmalen nach der Erfindung;
Fig. 34 eine Darstellung, wie Fig. 34a und 34b zusam
menzusetzen sind;
Fig. 34a und 34b, wenn sie so wie in Fig. 34 dargestellt, zu
sammengesetzt sind, ein Flußdiagramm zu Er
läutern der Arbeitsweise des Systems in
Fig. 33;
Fig. 35 ein Flußdiagramm einer Folge von Schritten
eines Mustervergleichsverfahrens gemäß noch
einer weiteren Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 36 eine Darstellung, wie Fig. 36a und 36b zusam
menzusetzen sind;
Fig. 36a und 36b wenn sie so, wie in Fig. 36 dargestellt, zu
sammengesetzt sind, eine schematische, größtenteils
in Blockform wiedergegebene Darstellung eines
Spracherkennungssystems zum Durchführen des
Verfahrens in Fig. 35;
Fig. 37 ein Flußdiagramm einer Folge von Schritten
eines Mustervergleichsverfahrens gemäß noch
einer weiteren Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 38 eine Darstellung, wie Fig. 38a und 38b zusam
menzusetzen sind;
Fig. 38a und 38b wenn sie, wie in Fig. 38 dargestellt, zusam
mengesetzt sind, eine schematische, größtenteils in
Blockform wiedergegebene Darstellung eines
Spracherkennungssystems zum Durchführen des
Verfahrens in Fig. 37;
Fig. 39 ein Flußdiagramm einer Folge von Schritten
eines Mustervergleichsverfahrens gemäß noch
einer weiteren Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 40 eine Darstellung, wie Fig. 40a und 40b zusam
menzusetzen sind;
Fig. 40a und 40b, wenn sie, wie in Fig. 40 dargestellt, zusam
mengesetzt sind, eine schematische, größtenteils in
Blockform wiedergegebene Darstellung eines
Spracherkennungssystems zum Durchführen des
in Fig. 39 dargestellten Verfahrens;
Fig. 41a, 41b, 42a und 42b Darstellungen zum Erläutern der
Vorteile eines weiteren Aspektes der Erfin
dung;
Fig. 43a und 43b Darstellungen zum Erläutern der Schwierig
keiten, welche gemäß einem weiteren Aspekt
der Erfindung zu lösen sind;
Fig. 44 ein Flußdiagramm einer Folge von Schritten
eines Mustervergleichsverfahrens gemäß noch
einer weiteren Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 45 eine Darstellung, wie Fig. 45a und 45b zusam
menzusetzen sind;
Fig. 45a und 45b wenn sie, wie in Fig. 45 dargestellt, zusam
mengesetzt sind, eine schematische, größtenteils in
Blockform wiedergegebene Darstellung eines
Spracherkennungssystems zum Durchführen des
in Fig. 44 dargestellten Verfahrens;
Fig. 46 ein Flußdiagramm einer Folge von Schritten
eines Mustervergleichsverfahrens gemäß noch
einer weiteren Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 47 eine Darstellung, wie Fig. 47a und 47b zusam
menzusetzen sind;
Fig. 47a und 47b wenn sie, wie in Fig. 47 dargestellt, zusam
mengesetzt sind, eine schematische, größtenteils in
Blockform wiedergegebene Darstellung eines
Spracherkennungssystems zum Durchführen des
in Fig. 46 dargestellten Verfahrens;
Fig. 48 ein Flußdiagramm einer Folge von Schritten
eines Mustervergleichsverfahrens gemäß noch
einer weiteren Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 49 eine Darstellung, wie Fig. 49a und 49b zusam
menzusetzen sind;
Fig. 49a und 49b wenn sie, wie in Fig. 49 dargestellt, zusam
mengesetzt sind, eine schematische, großteils
in Blockform wiedergegebene Darstellung eines
Spracherkennungssystems zum Durchführen des
in Fig. 48 dargestellten Verfahrens;
Fig. 50 ein Flußdiagramm einer Folge von Schritten
eines Mustervergleichsverfahrens gemäß noch
einer weiteren Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 51 eine Darstellung, wie Fig. 51a und 51b zusam
menzusetzen sind;
Fig. 51a und 51b wenn sie, wie in Fig. 51 dargestellt, zusam
mengesetzt sind, eine schematisch, großteils
in Blockform wiedergegebene Darstellung eines
Spracherkennungssystems zum Durchführen des
in Fig. 50 dargestellten Verfahrens;
Fig. 52 ein Spracherkennungssystem gemäß noch einer
weiteren Ausführungsform mit Merkmalen nach der Erfindung,
Fig. 53a und 53b ein Flußdiagramm zum Erläutern der Arbeits
weise des in Fig. 52 dargestellten Systems;
Fig. 54a, 54b, 55a, 55b, 56a bis 56c, 57a, 57b, 58a bis 58b
Darstellungen anhand welcher die Vorteile
noch eines weiteren Aspektes der Erfindung
erläutert weden, welche nach den in Fig. 52
und 53 dargestellten Ausführungsformen durch
geführt worden ist;
Fig. 59a, 59b, 60a bis 60c und 61a bis 61c Darstellungen, an
hand welcher die Schwierigkeiten erläutert
werden, die gemäß noch einem weiteren Aspekt
der Erfindung zu lösen sind;
Fig. 62 eine schematische, großteils in Blockform
wiedergegebene Darstellung eines Spracherken
nungssystems gemäß noch einer weiteren Aus
führungsform mit Merkmalen nach der Erfindung;
Fig. 63a und 63b ein Flußdiagramm, anhand welchem die Arbeits
weise des in Fig. 62 dargestellten Systems er
läutert wird;
Fig. 64a, 64b, 65a, 65b, 66a, 66b Darstellungen, anhand wel
cher die Vorteile noch einer weiteren Ausfüh
rungsform erläutert werden;
Fig. 67 ein Flußdiagramm einer Folge von Schritten
eines Spracherkennungsverfahrens gemäß noch
einer weiteren Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 68 eine schematische, in Blockform wiedergegebe
ne Darstellung eines Spracherkennungssystems
zum Durchführen des in Fig. 67 dargestellten
Verfahrens;
Fig. 69 ein Flußdiagramm einer Folge von Schritten
eines Spracherkennungsverfahres gemäß noch
einer weiteren Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 70 eine schematische in Blockform wiedergegebene
Darstellung eines Spracherkennungssystems zum
Durchführen des in Fig. 69 dargestellten Ver
fahrens, und
Fig. 71 und 72 Darstellungen, anhand welcher die Arbeitswei
se der in Fig. 69 und 70 dargestellten Ausfüh
rungsformen erläutert wird.
Gemäß dem Patentanspruch 1 ist ein Mustervergleichsver
fahren geschaffen, um ein erstes Sprachmuster mit einem zwei
ten Sprachmuster zu vergleichen, welches im Voraus regi
striert worden ist. Beim ersten Schritt wird geprüft, ob
eines der ersten und zweiten Sprachmuster einen instabilen
Bestandteil (Komponente) zum Ausbilden einer Sprache hat oder nicht. Wenn
ein solcher instabiler Bestandteil zumindest in einer der
beiden Sprachmuster vorhanden ist, wird jedes der beiden
Sprachmuster in den instabilen und einen stabilen Bestand
teil (Komponente) aufgeteilt. Es wird dann nur ein Vergleich zwischen den
beiden Sprachmustern zwischen den jeweils stabilen Bestandtei
len durchgeführt. Oder andererseits, wenn ein solcher insta
biler Bestandteil in beiden Sprachmustern vorhanden ist,
wird jedes der beiden Sprachmuster in einen instabilen und
einen stabilen Bestandteil aufgeteilt. Es wird dann ein Ver
gleich zwischen den beiden Sprachmustern zwischen den je
weils instabilen Bestandteilen und zwischen den jeweils sta
bilen Bestandteilen durchgeführt.
In Fig. 1 ist großteils in Blockform ein Mustervergleichssy
stem gemäß einer Ausführungsform mit Merkmalen nach der Erfindung dargestellt,
wenn sie zur Sprachverarbeitung angewendet wird. Das darge
stellte Sprachmuster-Vergleichssystem hat eine Sprachein
gabeeinheit 1, eine Energiemeßeinheit 2, eine Merkmalsquan
tität-Umsetzeinheit 3, eine eine stumme Stelle feststellende
Einheit 4, eine eine stumme Stelle (am Ende) feststellende
Einheit 8, eine Markierungs-Addiereinheit 6 , eine Bibliothek
7, eine Markierungs-Beurteilungseinheit 8, eine Musterent
fernungseinheit 9 und eine Musteranpassungseinheit 10. In
dieser Ausführungsform wird beim Vergleich von zwei Mustern
geprüft, ob ein Energieminimum in einem vorbestimmten Be
reich vom Anfang oder Ende eines Musters an vorhanden ist
oder nicht. Wenn ein solches Energieminimum nur in einem der
beiden zu vergleichenden Muster vorhanden ist, wird der Teil
des Musters, der ein solches Energieminimum von dem Anfang
oder dem Ende an hat, bis zu dem Energieminimum entfernt,
und dann werden die beiden Muster verglichen.
Zuerst wird eine Sprache in der Spracheingabeeinheit 1 ein
gegeben; während die eingegebene Sprache in eine Merkmals
quantität umgesetzt wird, wird die Energie der eingegebenen
Sprache gemessen. Die Spracheneingabeeinheit 1 kann vorzugs
weise aus einem Mikrophon bestehen, und das Messen der
Sprachenergie kann durchgeführt werden, indem Bandpaßfilter,
welche den hörbaren Bereich überdecken, verwendet werden und
Ausgänge dieser Bandpaßfilter festgestellt werden. Es kann
irgendeine Merkmalsqualität, welche auf dem Gebiet der Mu
ster-(üblicherweise Sprach-)Erkennung bekannt ist, verwendet
werden, und beispielsweise kann ein Energiespektrum, welches
ohne weiteres von einer Bandpaß-Filterbank erhalten werden
kann, in vorteilhafter Weise verwendet werden. Basierend auf
der Größe der gemessenen Sprachenergie wird festgestellt, wo
ein stimmloser Intervall in der Sprache vorhanden ist. Bei
spielsweise wird in Abhängigkeit davon, ob dieses stimmlose
Intervall in 100 ms von dem hinteren Sprechende festgestellt
wird oder nicht, eine vorherbestimmte Markierung zu einem
Merkmalquantitäts-Umsetzmuster (Merkmalsmuster oder eingege
benem Muster) hinzugefügt. Andererseits wird ein Bezugsmu
ster aus einer Bibliothek herausgenommen und es wird ge
prüft, ob das Bezugsmuster auch dieselbe Markierung wie die
jenige des Merkmalsmusters hat oder nicht. Wenn die Markie
rungen dieselben sind, dann wird in üblicher Weise bei einem
Musteranpassnungsschritt fortgefahren. Zu beachten ist, daß,
obwohl ein Verfahren zum Erzeugen eines Biblotheksmusters
hier im einzelnen nicht erläutert wird, eine vorherbestimmte
Markierung zu einem Bibliotheksmuster in ähnlicher Weise
während dessen Ausbildung zugeteilt wird, in Abhängigkeit
davon, ob ein stimmloses Intervall an dem hinteren Ende vor
handen ist oder nicht.
Wenn sich dagegen die Markierungen zwischen dem Bibliotheks-
und dem eingegebenen Muster unterscheiden, wird dieser Teil
des Musters, das ein stimmloses Intervall hat, vom Anfang des
stimmlosen Intervalls bis zu dem hinteren Ende des Musters aus
dem Muster mit einem stimmlosen Intervall entfernt und dann
wird eine Musteranpassung zwischen dem Bezugs- und eingegebe
nen Muster vom Anfang an bis zu dem stimmlosen Intervall
durchgeführt. Anhand von Fig. 2a bis 2c wird im einzelnen der
Fall beschrieben, daß das Bezugsmuster eine in Fig. 2a darge
stellte Zusammensetzung und das eingegebene Muster eine in
Fig. 2b dargestellte Zusammensetzung hat, bei welcher der
hintere Endteil fehlt. In diesem Fall hat das Bezugsmuster
eine Markierung, welche anzeigt, daß es ein stimmloses Inter
vall an seinem Ende hat, während das eingegebene Muster eine
andere Markierung hat, die anzeigt, daß es an seinem hinte
ren Ende kein stimmloses Intervall hat. Es
wird das Bezugsmuster der Fig. 2a verarbeitet,
um den hinteren Endteil /p/ zu entfernen, um das Bezugsmu
ster mit der in Fig. 2c dargestellten Zusammensetzung wieder
festzulegen. Es wird dann ein Vergleich zwischen dem einge
gebenen Muster und Fig. 2b und dem wieder festgelegten Be
zugsmuster der Fig. 2a vorgenommen. Vorstehend ist der Fall
beschrieben worden, daß der hintere Endteil von einem der
beiden zu vergleichenden Muster verlorengegangen ist; dieser
Aspekt der Erfindung ist genauso gut bei dem Fall anwendbar,
daß ein Kopfteil von einem der beiden Muster verlorengegan
gen ist.
In Fig. 3 ist großteils in Blockform ein Mustervergleichssy
stem gemäß einer weiteren Ausführungsform für
den Fall dargestellt, daß ein Mustervergleich durchzuführen
ist, wobei ein Kopfteil von einem der beiden zu vergleichen
den Sprachmuster verlorengegangen ist. Das in Fig. 3 darge
stellte System ist in vieler Hinsicht in seinem Aufbau dem
in Fig. 1 dargestellten System ähnlich, weshalb ähnliche oder
gleiche Elemente mit den gleichen Bezugszeichen bezeichnet
sind. Das System der Fig. 3 weist eine ein stimmloses Intervall
(am Kopfteil) beurteilende Einrichtung 11 auf, und in dieser
Ausführungsform wird ein vorderer oder Kopfteil eines
Sprachmusters entfernt, wenn ein stimmloses Intervall entwe
der in dem Bezugs- oder dem eingegebenen Muster innerhalb
von 100 ms von dem Anfang des Musters an vorhanden ist, und
dann werden die beiden Muster verglichen oder einander ange
paßt. In diesem Fall wird angenommen, daß das Bezugsmuster
normal und vollständig ist; dagegen weist das eingegebene
Muster an seinem Kopfteil einen Geräuschbestandteil infolge
eines Geräusches, das beim Öffnen und Schließen des Mundes
erzeugt worden ist, oder ein sporadisch erzeugtes Geräusch
auf.
Anhand von Fig. 4a bis 4c wird dies im einzelnen erläutert,
wenn das Wort /ido/ ausgesprochen wird, das im japanischen
"Bewegung" bedeutet; in Fig. 4a ist ein Sprachmuster mit
einem zusätzlichen Geräusch /n/ an seinem Kopfende dar
gestellt, so daß in diesem Fall ein stimmloses Intervall zwi
schen dem Geräusch /n/ und dem Wort /ido/ vorhanden ist.
Folglich kann durch die die stimmlose Stelle feststellende
Einheit 4 und die die stimmlose Stelle (am Kopfende) beurtei
lende Einrichtung 11 festgestellt werden, daß dieses stimmlo
se Intervall innerhalb von 100 ms von dem Kopfende des Mu
sters an vorhanden ist. Bei einer Bestätigung wird eine vor
herbestimmte Markierung, welche das Vorhandensein eines
stimmlosen Intervalls an dem Kopfende anzeigt, hinzugefügt.
In Fig. 4b ist dagegen ein Bibliotheksmuster dargestellt,
welches an seinem Kopfende kein stimmloses Intervall hat.
Folglich wird dieser Teil des eingegebenen Musters der Fig. 4
von dem stimmlosen Intervall zurück bis zu dem Kopfende aus
dem eingegebenen Muster durch die Entfernungseinheit 9 ent
fernt, und dann werden die beiden Muster in der Musteranpas
sungseinheit 10 verglichen. Obwohl irgendein Musteranpas
sungsschema verwendet werden kann, wird vorzugsweise ein
Verfahren angewendet, welches weniger Berechnungsschritte
erfordert, in dem beispielsweise die Musterlänge linear ge
dehnt oder zusammengezogen wird. In diesem Fall wird dann
der Anfang zum Bestimmen der zeitlichen Länge des in Fig. 4a
dargestellten Musters an der Stelle unmittelbar nach dem
stimmlosen Intervall geändert. Außerdem kann die das stimmlose
Intervall feststellende Einheit 4 entsprechend ausgeführt
werden, um das Hintergrundrauschen unter der Voraussetzung
zu überwachen, daß keine Sprache einzugeben ist; beim Einge
ben einer Sprache wird ein stimmloses Intervallsignal erzeugt,
wenn die eingegebene Sprache im Pegel mit dem Hintergrund
rauschen vergleichbar ist. An der Einheit 11 wird eine stimm
lose Stelle durch Vergleich mit einem Signal festgestellt,
welche das ansteigende oder abfallende Ende eines Sprachin
tervalls anzeigt.
In den vorstehend beschriebenen Ausführungsformen ist die
Aufmerksamkeit auf die Tatsache gerichtet worden, daß das
Geräusch, welches beim Öffnen und Schließen des Mundes oder
der Lippen erzeugt worden ist, gern am Kopfende eines Aus
drucks vorhanden ist und in seiner zeitlichen Länge kurz ist
und in Form eines Impulses vorliegt, so daß ein stimmloses
Intervall gern vor dem Aussprechen eines Ausdrucks vorhanden
ist, und daß ein stimmloses Intervall gern am Ende eines Aus
druckes vorhanden ist, wenn an sich am Ende eines Wortes ein
Konsonant auszusprechen ist. Die vorstehend beschriebenen
beiden Ausführungsformen sind vorzugsweise in einem einzigen
System vereinigt, welches das Zufügen eines Geräuschbestand
teils am Beginn einer Sprache oder eines Ausdrucks und das
Weglassen eines Konsonanten am Ende eines Ausdrucks ausglei
chen kann.
Wie oben beschrieben, wird
selbst wenn ein Geräusch infolge des Öffnens
und Schließens des Mundes oder der Lippen, welches beim Aus
sprechen eines Wortes oder Ausdruckes unvermeidlich ist,
oder ein sporadisch erzeugtes Hintergrundrauschen vorhanden
ist, ein derartiges Rauschen in angemessener Weise vor einer
Musteranpassung entfernt werden und selbst wenn der hintere
Endteil eines Sprachmusters fehlt, wird eine Musteranpassung
durchgeführt.
Folglich kann entsprechend dieses Aspekts der Erfindung die
Genauigkeit einer Musteranpassung erhöht werden.
In Fig. 5 ist schematisch großteils in Blockform ein Sprach
erkennungssystem gemäß einer weiteren Ausführungsform
dargestellt. Das dargestellte Spracherkennungssy
stem hat ein Mikrophon 21, eine ein Sprachintervall fest
stellende Einheit 22, ein Hochpaßfilter 23a, ein Tiefpaßfil
ter 23b, eine Merkmale extrahierende Einheit 24, eine Mul
tipliziereinheit 25, einen Vergleicher 26, eine Hinweis-
oder Flag-(/f/)Einheit 27, einen Vergleicher 28, ein drittes
Register 29 , ein Bibliotheksregister 30, einen Markierungs
vergleicher 31, eine Registereinheit 32 mit einem ersten und
einem zweiten Register 32a bzw. 32b und eine eine Ähnlich
keit feststellende Einheit 33. Diese Ausführungsform ist
entsprechend ausgeführt, um die Aufmerksamkeit auf die Tat
sache zu lenken, daß ein schwacher Konsonant, wie /f/ ein
charakteristisches Merkmal hat, das sich in einem hochfre
quenten Bereich konzentriert, wenn er einer Frequenzanalyse
unterzogen wird. Bei dieser Ausführungsform wird ein Aus
druck/Wort eingegeben, um ein Sprachsignal zu erzeugen, wel
ches dann einer Frequenzanalyse unterzogen wird, um das Ver
hältnis hoch- und niederfrequenten Bestandteilen festzustel
len. Wenn es mehr hochfrequente Bestandteile gibt, wird die
Dauer dieses Zustands festgestellt. Wenn nur eines der bei
den zu vergleichenden Sprachmuster einen Teil hat, in wel
chem mehr hochfrequente Bestandteile vorhanden sind, wird
dieser Teil entfernt, und für eine Anpassung werden dann die
beiden Sprachmuster verglichen.
Anhand von Fig. 5 wird im einzelnen beschrieben, daß Sprache
in das Mikrophon 21 eingegeben wird, um ein Sprachsignal zu
erzeugen, und dessen Sprachintervall wird mittels der Ein
heit 22 festgestellt. Das Sprachsignal wird dann mittels der
ein Merkmal extrahierenden Einheit 24 in eine Merkmalsquan
tität umgesetzt, um dadurch ein eingegebenes Muster festzu
legen, welches dann in dem dritten Register 29 gespeichert
wird. Dasselbe Sprachsignal wird mittels der Hoch- und Tief
paßfilter 23a und 23b einer Frequenzanalyse unterzogen, um
hoch- und niederfrequente Bestandteile zu erzeugen, deren
Größe durch den Vergleicher 26 verglichen wird. In einem
Beispiel überdecken die hochfrequenten Bestandteile einen
Hochfrequenzbereich von 1 bis 6 kHz und die niederfrequenten
Bestandteile einen niederfrequenten Bereich von 200 Hz bis
1 kHz. In dieser Ausführungsform wird ein Flag /f/ hervorge
hoben, wenn die hochfrequenten Bestandteile um den Faktor
2 oder mehr, was durch die Multipliziereinheit 25 angezeigt
wird, größer als die niederfrequenten Bestandteile sind.
Außerdem wird in der das Sprachintervall feststellenden Ein
heit 22 ein Signal, welches den Beginn und das Ende des
Sprachintervalls anzeigt, an den Vergleicher 28 geliefert.
Wenn das Flag /f/ für den Beginn oder das Ende des Sprachin
tervalls eingegeben und hervorgehoben wird, wird eine vorher
bestimmte Markierung dem dritten Register 29 zugeführt, wo
durch die Dauer des Flags /f/ aufgezeichnet ist.
Dann wird ein Bezugsmuster aus dem Bibliotheksregister 30
herausgenommen und es wird in dem Markierungsvergleicher 31
geprüft, ob dieses Bezugsmuster eine Markierung hat oder
nicht, welche dieselbe wie diejenige des eingegebenen Mu
sters ist, das nunmehr in dem dritten Register 29 gespei
chert ist. Wenn die Markierungen dieselben sind, dann werden
das eingegebene und das Bezugsmuster an das erste bzw. zwei
te Register 32a und 32b übertragen; hierauf folgt dann der
Schritt der Anpassung der zwei Muster, um den dazwischen
bestehenden Ähnlichkeitsgrad zu bestimmen. Wenn dagegen die
zwei Markierungen verschieden sind, wenn z. B. das Bezugsmu
ster eine Markierung hat, welche das Fehlen des Flags /f/
am Anfang anzeigt, und das eingegebene Muster eine andere
Markierung hat, welche das Vorhandensein des Flags /f/ am
Anfang anzeigt, wird ein Punkt des eingegebenen Musters nach
dem Flag /f/ zu Beginn des Musters wieder als der Beginn
eines Sprachmusters definiert, und dieses wieder definierte
eingegebene Muster wird dann an das erste Register 32a über
tragen, während das Bezugsmuster unverändert an das zweite
Register 32b übertragen wird. Dann werden diese beiden Mu
ster verglichen, um den Ähnlichkeitsgrad zu bestimmen. Die
gleichen Argumente gelten auch für den Fall, daß das Flag
/f/ in dem eingegebenen Muster nicht, jedoch in dem Bezugs
muster vorhanden ist. Folglich wird gemäß der Erfindung,
selbst wenn ein Sprachintervall fehlerhaft ausgeführt worden
ist, wobei der Laut /f/ am Anfang oder Ende eines Bezugs-
oder eingegebenen Musters verlorengegangen ist, dieser Feh
ler entsprechend korrigiert und folglich kann eine Anpassung
zwischen den beiden Mustern genau durchgeführt werden.
In Fig. 6 ist schematisch großteils in Blockform ein Sprach
erkennungssystem dargestellt, welches in vieler Hinsicht dem
System in Fig. 5 ähnlich ist, so daß gleiche Elemente mit den
gleichen Bezugszeichen bezeichnet sind. Diese Ausführungs
form ist für den Fall vorgesehen, daß das Bezugs- und das
eingegebene Muster den Laut /f/ an derselben Stelle haben.
In Fig. 6 weist das System eine Registereinheit 34 aus einem
vierten bzw. fünften Register 34a und 34b auf. Ebenso ist in
dem dargestellten System eine erste, eine Ähnlichkeit fest
stellende Einheit 33, eine zweite, eine Ähnlichkeit feststel
lende Einheit 35 und ein Addierer 36 vorgesehen.
Wenn beispielsweise der Laut /f/ am Anfang vorhanden ist,
wird das Vorhandensein des Lauts /f/ am Anfang jedes der
beiden Muster durch Markierungsvergleich herausgefunden, und
die Länge der jeweiligen Laute /f/ kann bestimmt werden.
Folglich wird dieser Teil des eingegebenen Musters von
Anfang an über die durch den Laut /f/ bestimmte Länge in dem
ersten Register 32a und der entsprechende Teil des Bezugsmu
sters in dem zweiten Register 32b gespeichert. Außerdem wird
der restliche Teil des eingegebenen Musters in dem Register
34a und der entsprechende Restteil des Bezugsmustes in dem
Register 34b gespeichert. Dann wird der Ähnlichkeitsgrad
zwischen den beiden Registern 32a und 32 b und auch zwischen
den beiden Registern 34a und 34b berechnet. Die Summe dieser
berechneten, partiellen Ähnlichkeitsgrade wird in dem Addie
rer 36 als ein Gesamtähnlichkeitsgrad erhalten. In der dar
gestellten Ausführungsform sind vier gesonderte Register
32a, 32b, 34a und 34b vorgesehen; normalerweise reichen je
doch die Register 32a und 32b aus, da die zwei Ähnlichkeits
grade nacheinander berechnet werden können; d. h. nach der
Bestimmung des ersten Ähnlichkeitsgrads wird der Inhalt,
welcher in den Registern 34a und 34b zu speichern ist, in
den Registern 32a und 32b gespeichert, um den zweiten Ähn
lichtkeitsgrad zu berechnen, und dann wird der vorher be
rechnete erste Ähnlichkeitsgrad hinzuaddiert, um so den Ge
samtähnlichkeitsgrad zu erhalten. Außerdem werden in der
vorstehend beschriebenen Ausführungsform zwei partielle
Ähnlichkeitsgrade gesondert berechnet, und dann addiert, um
den Gesamtähnlichkeitsgrad zu berechnen. Jedoch ist dieser
Rechenvorgang nicht nur auf eine Addition beschränkt; viel
mehr kann der Gesamtähnlichkeitsgrad bestimmt werden, indem
ein Element vorgesehen wird, um den Ähnlichkeitsgrad zwi
schen den Registern 32a und 32b zu berechnen, ein Element
vorgesehen wird, um den Ähnlichkeitsgrad zwischen den Regi
stern 34a und 34b zu berechnen und indem dann diese Elemente
summiert werden. Wie vorstehend beschrieben, kann gemäß
einer der in Fig. 5 und 6 dargestellten Ausführungsformen
eine Anpassung zwischen zwei Mustern richtig durchgeführt
werden, selbst wenn ein Teil zumindest eines der beiden Mu
ster fehlt.
Nunmehr wird die Ausbildung eines Bezugs- oder Bibliotheksmusters beschrie
ben, das bei einer Mustererkennung verwendbar ist. Das am
meisten übliche Mustererkennungsschema ist eines, bei wel
chem eine Musteranpassung angewendet wird. In diesem Schema
sind eine Anzahl Bezugsmuster in einer Bibliothek gespei
chert, und ein eingegebenes, unbekanntes, zu identifizieren
des Muster wird mit jedem der Anzahl Bezugsmuster vergli
chen, um festzustellen, welches der Anzahl Bezugsmuster den
höchsten Ähnlichkeitsgrad hat, um dadurch die Identität des
eingegebenen Musters zu bestimmen. In diesem Fall hat die
Qualität oder das charakteristische Merkmal des registrier
ten Bezugsmusters einen bedeutenden Einfluß auf die Durch
führung einer Musteranpassung. Folglich ist es wesentlich,
ein Bezugsmuster hoher Qualität zu erzeugen, um eine hohe
Erkennungsrate bei der Mustererkennung zu erhalten.
Wenn die Musteranpassung in der Spracherkennung als Beispiel
genommen wird, kann die Spracherkennung im allgemeinen in
ein begrenztes Sprechersystem und in ein unbegrenztes Spre
chersystem eingeteilt werden. Im Falle des unbegrenzten
Sprechsystems werden Bezugssprachmuster bereits von einem
Hersteller gebildet und in ein Spracherkennungssystem einge
bracht, bevor es auf den Markt gebracht wird. Da in diesem
Fall angenommen wird, daß eine beliebige Sprache/Stimme
erkannt werden kann, kann das Spracherkennungssystem verwen
det werden, nachdem geprüft ist, ob die Daten zur Ausbildung
von Bezugsmustern normal sind oder nicht. Im Falle des be
grenzten Sprechersystems muß jedoch ein Benutzer vor einer
Benutzung erst Sprachen/Stimmen registrieren und das
Spracherkennungssystem kann nach der Durchführung eines
Trainings verwendet werden. Aus diesem Grund kann ein zu re
gistrierendes Sprachmuster nicht auf dessen Normalität ge
prüft werden, so daß es die Möglichkeit gibt, daß die Quali
tät von Bezugsmustern schlecht ist. Vorherrschende Ursache
im Hinblick auf das Verschlechtern der Qualität von Bezugs
mustern, wenn diese registriert sind, ist eine falsche Fest
stellung eines Sprachintervalls. Wenn beispielsweise das Ge
räusch, das beim Öffnen und Schließen des Mundes, um Sprache
auszudrücken, oder ein sporadisches Hintergrundgeräusch er
zeugt worden ist, unmittelbar vor oder im Anschluß an das
Aussprechen eines Ausdrucks erzeugt worden ist, kann das
Sprachmuster nicht von einem solchen Geräusch unterschieden
werden, so daß ein solches Geräusch in das Sprachmuster ein
verleibt wird. Außerdem gibt es auch den Fall, daß ein Teil
eines Wortes verlorengeht. Aus diesen Gründen kann die Qua
lität eines Bezugsmusters schlechter werden. Es gibt ein bekanntes
Verfahren zum Erzeugen eines Bezugsmusters, bei welchem das
Mittel aus einer Anzahl Sprachmuster gebildet wird, indem
dasselbe Wort eine Anzahl mal ausgesprochen wird. Bei diesem
Mittelungsverfahren können statistische Informationsschwan
kungen bei der Erzeugung eines Wortes in das sich ergebende
gemittelte Sprachmuster eingebracht werden. Da jedoch eine
Anzahl Aussprechvorgänge erforderlich sind, um ein Bezugs
muster zu erzeugen, würde, selbst wenn eine unvollständige
Feststellung eines Sprachintervalls einmal aufgetreten ist,
dies eine Verschlechterung in der Qualität des sich ergeben
den Bezugsmusters zur Folge haben.
Dieser Aspekt wird im einzelnen anhand von Fig. 20a und 20b
beschrieben; in Fig. 20a ist ein ungewöhnliches Sprachmuster
dargestellt, bei welchem an Anfang ein Geräuschbestandteil
hinzugefügt worden ist, während in Fig. 20b ein normales
Sprachmuster für dasselbe Wort dargestellt ist. Ein Konso
nantenabschnitt ist mit B bezeichnet. Wenn ein Mittelwert
zwischen dem normalen Muster der Fig. 20b und dem annormalen
Muster der Fig. 20a, das einen Geräuschbestandteil A hat, ge
nommen wird, wird die Mittelung durch eine Entsprechung zwi
schen den jeweiligen vorderen Enden und den jeweiligen hin
teren Enden durchgeführt, wie durch die gestrichelte Linie
angezeigt ist. Im Ergebnis wird dann der Geräuschbestandteil
A des anormalen Musters der Fig. 20a zu dem vorderen Teil des
Konsonantenteils B des normalen Musters der Fig. 20b hinzuge
fügt, was ein gemitteltes Muster ergeben würde, das in der
Qualität schlechter ist.
Insbesondere im Falle des begrenzten Sprechersystems ändert
sich die Erkennbarkeit in Abhängigkeit davon, ob die Regi
strierung von Bezugsmustern richtig durchgeführt worden ist
oder nicht. Folglich ist es für die Worte, welche einen
schwachen Laut am Anfang oder am Ende haben, da dieser
schwache Laut gern verlorengeht, denkbar, ein Muster zu re
gistrieren, welches dadurch wieder festgelegt wird, daß ein
solcher leicht verlorengegangener Teil aus einem normalen
Muster wirksam entfernt wird. Die Ausführung hat, selbst
wenn ein schwacher Lautteil eines Wortes verlorengegangen
ist, und nicht festgestellt wird, ein solches Sprachmuster,
bei welchem ein Teil der ursprünglichen Sprachinformation
verlorengegangen ist, einen hohen Ähnlichkeitsgrad mit dem
registrierten Muster, so daß eine Erkennung richtig durchge
führt werden kann. Jedoch wird entsprechend diesem Schema,
wenn ein schwacher Laut /h/ von dem englichen Wort /his/
vorlorengegangen ist, ein Laut /is/ erzeugt, welcher ein an
deres Wort darstellt. Dies führt dann zu einem Durcheinan
der, wodurch es dann zu einer schlechteren Erkennungsrate
kommt.
Im Falle des begrenzten Sprechersystems muß der Benutzer zu
erst seine eigenen Laute für ausgewählte Worte re
gistrieren. Beim Registrieren von Lauten als Bezugssprachmu
ster gibt es ein Verfahren, bei welchem ein Laut nur einmal
für ein zu registrierendes Wort ausgesprochen wird und es
gibt ein anderes Verfahren, bei welchem eine Vielzahl Laute
erzeugt werden, indem dasselbe Wort eine Anzahl Mal ausge
sprochen wird, und dann die Anzahl Laute gemittelt wird. In
Fig. 21 ist hauptsächlich in Blockform ein Spracherkennungs
system dargestellt, in welchem eine Anzahl Sprachmuster für
dasselbe Wort erzeugt werden und dann ein gemitteltes Muster
aus der Anzahl Sprachmuster festgelegt wird. Bei der in
Fig. 21 dargestellten Ausführung wird das sogenannte binäre
Zeit-Spektrum-Muster-(BTSP)-Verfahren angewendet, welches
ein Beispiel für die Musteranpassungsverfahren ist. Das dar
gestellte System weist eine Laute aufnehmende Einheit 21,
wie beispielsweise ein Mikrophon 21, eine Filterbank 22,
eine Korrektureinheit 23, bei welcher die Methode der klein
sten Quadrate angewendet ist, eine binäre Umsetzeinheit 54,
eine BTSP bildende Einheit 55, einen Addierer 56, um eine
Anzahl n Sprachmuster durch lineares Drehen und Zusammenzie
hen zu addieren, eine Bibliothek 57, eine ein Spitzenwertmu
ster bildende Einheit 58, eine Einheit 59, bei welcher eine
Musterlänge durch lineares Dehnen oder Zusammenziehen ange
paßt wird, eine die Ähnlichkeit berechnende Einheit 60 und
eine Anzeigeeinheit 61 in Form einer Kathodenstrahlröhre auf.
Bei dieser Ausführung wird eine in das Mikrophon 21 eingege
bene Sprache in ein Sprachsignal umgesetzt, welches dann mit
Hilfe einer Bandpaß-Filterbank einer Frequenzanalyse unter
zogen wird, um dadurch ein Zeit-Frequenz- oder ein zeit
spektrales Verteilungsmuster (TSP) festzulegen. Ein solches
zeit-spektrales Muster wird dann binär-bewertet, wobei die
Scheitelwerte durch "Einsen" und der Rest durch "Nullen" ge
kennzeichnet sind, um dadurch ein binäres TSP-(BTSP)-Muster
festzulegen. Bei dem Registrierungsmode werden eine Anzahl
solcher BTSP-Muster, welche geschaffen worden sind, indem
dasselbe Wort eine Anzahl Mal ausgesprochen wird, einander
überlagert, um ein Bezugsmuster festzulegen, welches dann
als ein Bezugsmuster registriert wird.
In dem Erkennungsmode wird eine zu erkennende, unbekannte
Sprache/Stimme eingegeben; ein entsprechendes BTSP-Muster
wird in ähnlicher Weise wie dasjenige gebildet, das für den
Registrierungsmode beschrieben worden ist, und das auf diese
Weise erzeugte, eingegebene BTSP-Muster wird mit jedem der
vorher registrierten Bezugsmuster verglichen, um den Ähnlich
keitsgrad mit jedem der Bezugsmuster festzustellen. In die
sem Fall kann dann der Ähnlichkeitsgrad beispielsweise da
durch bestimmt werden, daß die Anzahl von sich überdeckenden
Einsen gezählt wird, wenn das eingegebene Muster über ein
Bezugsmuster gelegt wird. Normalerweise werden im Falle des
unbegrenzten Sprechersystems, welches dazu bestimmt ist, da
mit die Sprache, die von irgendjemand erzeugt worden ist,
erkannt werden kann, eine Anzahl verschiedener Bezugsmuster
für ein zu registrierendes Wort gebildet, wodurch die Menge
an Rechenvorgängen größer wird. Das dargestellte System hat
den Vorteil, daß die Realisierung eines Spracherkennungssy
stems in der Art des unbegrenzten Sprechersystems erleich
tert wird, ohne daß die Anzahl an Berechnungen größer wird,
wenn ein Bezugsmuster richtig ausgebildet ist. Wenn ein Be
zugsmuster auf diese Weise erzeugt wird, wird angenommen,
daß alle die Muster, aus welchen ein Durchschnittsmuster de
finiert wird, vollständig sind. Dies ist jedoch in der Pra
xis nicht immer der Fall; beispielsweise haben ein Laut /v/
am Wortende von "five" und ein Laut /f/ am Wortanfang von
"full" eine äußerst niedrige Energie und es ist daher ver
hältnismäßig schwierig, diese schwachen Laute richtig fest
zustellen. Folglich ist es schwierig, ein normales Muster
für solche Worte zu erhalten, was zu einer Verschlechterung
der Qualität eines Bezugsmusters führen könnte.
Folglich ist ein Verfahren zum Ausbilden
eines Bezugsmusters dahingehend verbessert, daß der Durch
schnitt aus einer Anzahl Sprachmuster gebildet wird, in wel
chen ein unstabiler Bestandteil (Komponente) beim Erzeugen eines Wortes
in jedem der Sprachmuster als ein notwendiges Element beim
Mitteln der Anzahl Sprachmuster vorgesehen ist. Oder in dem
Fall, daß die Anzahl Sprachmuster diese Muster, welche einen
unstabilen Bestandteil (Komponente) beim Erzeugen eines Wortes haben, und
diese Muster enthalten, welche keinen solchen unstabilen Be
standteil (Komponente) haben, wird der unstabile Bestandteil eines Mu
sters, das den unstabilen Bestandteil hat, zu einem Muster
addiert, das keinen unstabilen Bestandteil hat und dann wird
ein Mittelwert aus den beiden Mustern festgesetzt. Ferner
wird bei einer Anzahl Muster, die einen instabilen Bestand
teil beim Erzeugen eines Wortes haben, das in der Anzahl
Sprachmuster vorhanden ist, jedes der Sprachmuster in den
unstabilen und einen stabilen Bestandteil (Komponente) aufgeteilt; nach
der Mittelung der Muster auf einer Bestandteilbasis werden
die beiden Bestandteile zusammengefaßt, um ein Bezugsmuster
festzulegen.
In Fig. 10 ist ein großteils in Blockform wiedergegebenes Sy
stem zur Erzeugung eines Bezugsmusters dargestellt, das in
einer Spracherkennungseinrichtung verwendbar ist. Gemäß dem
dargestellten System werden eine Anzahl Muster für eine zu
registrierende Elementart, wie ein Wort, gebildet, und die
Anzahl Muster werden gemittelt oder unabhängig registriert,
um ein Bezugsmuster festzulegen. In dieser Ausführungsform
wird geprüft, ob ein Energieminimum innerhalb einer vorher
bestimmten Länge entweder von dem Anfang oder von dem Ende
jedes der Anzahl Muster vorhanden ist. Falls dies Muster
sind, die kein solches Energieminimum haben, wird der Teil
eines Musters, der ein Energieminimum hat, entweder von dem
Anfang oder von dem Ende des Musters an bis zu seinem Ener
gieminimum an einer vorherbestimmten Stelle des Musters ad
diert, das kein Energieminimum hat, um dadurch ein Bezugsmu
ster festzulegen.
Das in Fig. 10 dargestellte System weist eine Spracheingabe
einheit 1, eine Energiemeßeinheit 2, eine Merkmalsquantität-
Umsetzeinheit 3, eine ein stimmloses Intervall feststellende
Einheit 4, eine ein stimmloses Intervall (am vorderen Ende)
feststellende Einheit 11, eine Markierungs-Addiereinheit 6,
eine Muster-Speichereinheit 37, eine Markierungs-Beurtei
lungseinheit 8, eine ein Muster am Kopfende addierende Ein
heit 39 und eine Überlagerungs- und Mittelungseinheit 40
auf. Zuerst wird die Sprache in ein Mikrophon 1 eingegeben,
um in ein Sprachsignal umgesetzt zu werden, welches dann der
Energiemeßeinheit 2 zugeführt wird, wo die Sprachenergie ge
messen wird. Das Sprachsignal wird dann in eine Merkmalsquan
tität umgesetzt. Als Merkmalsquantität kann irgendeine be
kannte Merkmalsquantität, beispielsweise ein Energiespektrum
LPC-Koeffizienten und ein -Spektrum verwendet werden. Anhand
der gemessenen Energie wird geprüft, ob ein stimmloses Inter
vall vorhanden ist oder nicht und bei ja wird dessen Positi
on festgestellt. Dann wird geprüft, ob ein stimmloses Inter
vall in einem vorbestimmten Bereich von dem Beginn des
Sprachintervalls her ausfindig gemacht wird oder nicht; in
Abhängigkeit von dem Ergebnis dieser Prüfung wird eine vor
herbestimmte Markierung zu einem Muster addiert, welches
durch Merkmalsumsetzung gebildet ist. Hier wird als Beispiel
angenommen, daß geprüft wird, ob ein stimmloses Intervall in
nerhalb von 100 ms von dem Beginn an vorhanden ist oder
nicht. Wenn dies der Fall ist, wird eine Markierung -1 hinzu
addiert, während bei nein eine Markierung +1 addiert wird.
Das Muster, zu dem eine solche Markierung addiert ist, wird
dann gespeichert. In ähnlicher Weise wird ein anderer Laut
für dasselbe Wort ausgesprochen und ein ähnliches
Muster wird gebildet und dem vorher gespeicherten Muster
überlagert, um eine Mittelwertbildung durchzuführen. In die
sem Augenblick wird vor einer Überlagerung geprüft, ob das
folgende Muster dieselbe Markierung wie diejenige des vor
hergehenden Musters, welches gespeichert ist, hat oder
nicht. Wenn die Markierungen dieselben sind, wird eine Mit
telwertbildung des folgenden und vorhergehenden Musters in
üblicher Weise durchgeführt, und das sich ergebende, gemit
telte Muster wird gespeichert.
Wenn sich dagegen die beiden Markierungen unterscheiden,
dann wird dadurch angezeigt, daß eines der beiden Muster ein
stimmloses Intervall und das andere keines hat. In diesem
Fall wird der Teil des Musters, das an seinem vorderen Ende
(Fig. 11a) ein stimmloses Intervall hat, von dem Anfang an bis
zu dem stimmlosen Intervall des Musters an dem vorderen Ende
des anderen Musters, das kein stimmloses Intervall hat
(Fig. 11b) hinzuaddiert, um dadurch ein anderes in Fig. 11c
dargestelltes Muster zu bilden. Das auf diese Weise gebil
dete Muster der Fig. 11c wird im vorher gespeicherten Muster
der Fig. 11a überlagert, um so eine Mittelung durchzuführen.
Auf diese Weise wird, nachdem solche Überlagerungen eine
vorherbestimmte Anzahl Mal durchgeführt werden, ein Bezugs
muster festgelegt. Wie bereits ausgeführt, kann gemäß dieser
Ausführungsform eine Mittelung bezüglich der Geräusch- und
der Signalabschnitte gesondert durchgeführt werden, so daß
dadurch verhindert wird, daß der Signalteil in seiner Quali
tät durch die Mittelung verschlechtert wird. In der vorbe
schriebenen Ausführungsform ist ein Geräuschbestandteil am
Anfang eines Wortes vorhanden. Selbstverständlich ist jedoch
diese Technik auch für den Fall anwendbar, daß ein hinteres
Ende eines Sprachsignals verlorengegangen ist. Beispiels
weise ist es bei einem Wort, das einen Doppelkonsonanten an
einem Ende hat, wie beispielsweise /Stopp/, oft der Fall,
daß ein solcher Doppelkonsonant und das Folgende durch die
ein Sprachintervall feststellende Einheit nicht festgestellt
werden und verlorengehen. Wenn eine Anzahl Sprachmuster für
ein solches Wort diese Muster, bei welchem das hintere Ende
verlorengegangen ist, und diese Muster, bei welchen das
hintere Ende nicht verlorengegangen ist, enthalten, ist das
sich ergebende, gemittelte Muster in seiner Qualität
schlechter, wenn es gemittelt worden ist. Das heißt, wie in
Fig. 12a und 12b dargestellt ist, wird, wenn eine Mittelung
zwischen dem Muster der Fig. 12a, welches am Ende den Laut
/p/ hat und zwischen dem anderen Muster der Fig. 12b, bei
welchem der hintere Endlaut /p/ verlorengegangen ist, der
hintere Laut /p/ des in Fig. 12a dargestellten Musters mit
dem hinteren Endlaut /o/ des in Fig. 12b dargestellten Mu
sters gemittelt.
In Fig. 13 ist großteils in Blockform ein Bezugsmuster-Bil
dungssystem zur Durchführung des Verfahrens dargestellt, um
das Auftreten einer Verschlechterung infolge des Verlusts
des hinteren Endlautes zu verhindern. Das in Fig. 13 darge
stellte System ist im Aufbau in vieler Hinsicht dem System
in Fig. 10 ähnlich, so daß gleiche Elemente mit den gleichen
Bezugszeichen bezeichnet sind. Das dargestellte System weist
eine ein stimmloses Intervall (am hinteren Ende) beurteilende
Einrichtung 5 und eine ein hinteres Endmuster addierende
Einheit 42 auf. In der Ausführungsform wird geprüft, ob ein
stimmloses Intervall innerhalb von 100 ms von dem hinteren En
de des Sprachintervalls aus vorhanden ist oder nicht; in
ähnlicher Weise wie bei der vorher beschriebenen Ausführungs
form wird eine vorherbestimmte Markierung in Abhängigkeit
von dem Ergebnis einer solchen Überprüfung addiert. Bei
einer Mittelwertbildung von ähnlichen Mustern können, wenn
diese beiden zu mittelnden Muster dieselbe Markierung haben,
da beide Muster einen in Fig. 12a dargestellten Aufbau haben,
diese beiden Muster mit ihren übereinstimmenden Anfängen und
Enden gemittelt werden. Wenn dagegen die zwei Muster unter
schiedliche Markierung haben, dann hat eines der beiden Mu
ster einen in Fig. 12a dargestellten Aufbau, während das an
dere einen in Fig. 12b wiedergegebenen Aufbau hat. Da in die
sem Fall bei dem in Fig. 12b dargestellten Muster der hintere
Endlaut /p/ verlorengegangen ist, wird dieser Teil des in
Fig. 12a dargestellten Musters von dem stimmlosen Intervall an
bis zu dem hinteren Ende zu dem Ende des in Fig. 12b darge
stellten Musters addiert und dann wird eine Mittelung zwi
schen den Mustern durchgeführt. Auf diese Weise kann verhin
dert werden, daß ein sich ergebendes Muster durch einen Mit
telungsprozeß verschlechtert wird.
In der dargestellten Ausführungsform kann die Spracheingabe
einheit 1 durch ein Mikrophon realisiert sein, und die Ener
giemessung an der Einheit 2 kann durch Messen von Ausgangs
signalen an tonfrequenten Bandpaßfiltern durchgeführt wer
den. Üblicherweise wird eine Sprache in einem Abtastab
schnitt in der Größenordnung von 10 ms abgetastet, so daß die
Zuweisung oder Hinzufügung einer Markierung durch Feststel
len der Tatsache durchgeführt werden kann, daß ein stimmloses
Intervall in den ersten 10 Abtastzeitabschnitten aufgetreten
ist, oder das Ende einer Sprache innerhalb von 10 Abtast
zeitabschnitten vom Auftreten eines stimmlosen Intervalls an
erreicht ist. Es ist der Fall beschrieben worden, bei wel
chem die Erfindung zur Spracherkennung angewendet worden
ist; jedoch ist die Erfindung nicht auf
Spracherkennung beschränkt. Die Geräuschverarbeitung
am Anfang sowie am Ende eines Musters, wie sie vorstehend
beschrieben ist, kann unabhängig oder in Kombination hiermit
durchgeführt werden. Außerdem kann die Feststellung des vor
deren und hinteren Endes eines Musters auch anders als in
100 ms durchgeführt werden.
In Fig. 14 ist ein Bezugsmuster-Bildungsmuster gemäß einer
weiteren Ausführungsform mit Merkmalen nach der Erfindung dargestellt. Gemäß
dieser Ausführungsform wird eine Sprache registriert, die in
eine Merkmalparameter-Verteilung umgesetzt ist. Das heißt,
eine Sprache wird in das Mikrophon 21 eingegeben, um ein
entsprechendes Sprachsignal zu erzeugen, welches dann einer
Frequenzanalyse unterzogen wird, wobei hochfrequente Be
standteile in ihrer Größe/Amplitude mit niederfrequenten Be
standteilen verglichen werden. Wenn die Amplitude der hoch
frequenten Bestandteile am Anfang oder Ende eines Sprachin
tervalls größer als die niederfrequenten Bestandteile ist,
wird die Dauer dieses Zustands gemessen. Dann wird wieder
ein ursprüngliches Sprachmuster durch Entfernen des Teils
mit stärkeren hochfrequenten Bestandteilen festgelegt, und
das auf diese Weise wieder festgelegte Sprachmuster wird als
ein Bezugssprachmuster registriert.
Das in Fig. 14 dargestellte System hat ein Mikrophon 21, eine
ein Sprachintervall feststellende Einheit 22, eine Filter
bank 23, ein Hochpaßfilter 23a, ein Tiefpaßfilter 23b, eine
Multipliziereinheit 25, einen Vergleicher 26, ein Register
46, einen Zeitzähler 47, eine Multipliziereinheit 48 und
einen Start-Ende-Antrieb 49. Nunmehr wird der Fall der Re
gistrierung eines Wortes, wie beispielsweise des Wortes
"his" betrachtet. Zuerst wird ein Wort wie "his" in das
Mikrophon 21 eingegeben, so daß ein Sprachintervall mittels
der Einheit 22 festgestellt wird, und die Information, die
sich auf das infrage kommende Wort bezieht, wird an die Fil
terbank 23 geliefert. In dem dargestellten Beispiel ist die
Filterbank 23 bezüglich der Informationsflußrichtung hinter
der Einheit 22 angeordnet; jedoch können diese Elemente er
forderlichenfalls in ihrer Lage auch ausgetauscht werden.
Das Sprachintervall kann mittels des vorher anhand von Fig. 8
beschriebenen Verfahrens oder durch irgend ein anderes Ver
fahren festgestellt werden. In der dargestellten Ausfüh
rungsform wird die Filterbank als eine Methode zum Durchfüh
ren einer Frequenzanalyse benutzt; jedoch kann auch irgend
ein anderes Verfahren, wie beispielsweise ein FFT-Verfahren
angewendet werden.
In Fig. 14 hat die Filterbank 23 ein Hochpaß- und ein Tief
paßfilter 23a bzw. 23b, so daß ein hochfrequentes Ausgangs
signal mit einem niederfrequenten Ausgangssignal verglichen
wird. Beispielsweise kann in einem Bereich von 200 bis
6000 Hz, der normalerweise für eine Frequenzanalyse erfor
derlich ist, der Bereich von 2000 bis 6000 Hz als der hoch
frequente Bereich und der Rest als der niederfrequente Be
reich festgelegt werden. Da insbesondere in dieser Ausfüh
rungsform dieser Teil des Sprachmusters, welcher einen
stärkeren hochfrequenten Ausgang hat, festzustellen ist,
wird, wenn die hochfrequente Energie einen Faktor 2 oder
mehr am Anfang oder Ende des Sprachintervalls größer als die
niederfrequente Energie ist, die Dauer eines solchen Zustan
des gemessen. In diesem Fall ist die Dauer des hochfrequen
ten Ausgangs, der stärker als der niederfrequente Ausgang
ist, von dem Sprachbeginn an leicht zu messen; ein Messen
der Dauer an dem Ende einer Sprache ist nicht so leicht. Aus
diesem Grund wird, wie in Fig. 15a und 15b dargestellt ist,
während sowohl ein Signal der Fig. 15a, das einen größeren
hochfrequenten Ausgang anzeigt als auch ein Signal der
Fig. 15b überwacht werden, welches ein Sprachintervall an
zeigt, ein Zähler zum Zeitpunkt T1 bei dem Ansteigen des
hochfrequenten Ausgangssignals der Fig. 15a gestartet und der
Zähler wird wieder gestoppt, um zum Zeitpunkt T1 beim Anstei
gen des hochfrequenten Ausgangssignals gelöscht zu werden.
Diese Arbeitsweise wird wiederholt, und der nach der Beendi
gung des Sprachsignals erhaltene Wert wird als eine auf das
hintere hochfrequente Ende bezogene Dauer T3 bestimmt. Hier
durch ist dann ein neues Muster mit einem Drittel dieser
Dauer gebildet, und dieses Muster wird registriert. Dies ist
in Fig. 16 dargestellt. In einer Annäherung wird der Laut /h/
wirksam ausgeschieden, um wieder ein zu registrierendes Mu
ster festzulegen. In diesem Fall können jedoch keine Unter
scheidungen mit einem anderen Wort /is/ gemacht werden. Un
ter diesen Umständen kann beim Registrieren eines Musters
mit einer Information die zwischen /h/ und /i/ überbrückt,
Unterscheidungen zwischen /his/ und /is/ bei der Formungs
stufe gemacht werden. Der /h/-Teil hat geringe Energie und
geht folglich in der das Sprachintervall feststellenden Ein
heit 22 leicht verloren; jedoch hat der Vokalteil /i/ eine
große Energie und geht folglich nicht verloren. Aus diesem
Grund geht der Überbrückungsteil von /h/ zu /i/ selten ver
loren. Das heißt, bei dieser Ausführungsform ist die Muster
länge einer Fom im wesentlichen gleich dem Fall, bei wel
chem der Teil von /h/ ausgeschieden ist; aber die Informa
tion von /h/ wird leicht übriggelassen, um dadurch die Er
kennungsrate zu erhöhen. Daher kann gemäß dieser Ausfüh
rungsform, selbst wenn ein Teil eines Sprachmustes verlo
rengegangen ist, eine Art Form oder Schablohne für eine rich
tige Spracherkennung registriert werden.
Fig. 17 zeigt ein Flußdiagramm einer Folge von Schritten zum
Ausbilden eines zu registrierenden Bezugsmusters gemäß noch
einer weiteren Ausführungform mit Merkmalen nach der Erfindung. Fig. 18 zeigt
großteils in Blockform ein Bezugsmuster-Bildungssystem zur
Durchführung des in Fig. 17 dargestellten Verfahrens. In die
ser Ausführungsform werden eine Anzahl von Merkmalsquantitä
ten(-mustern), welche dadurch erhalten werden, daß dasselbe
zu registrierende Wort eine Anzahl Mal ausgesprochen wird,
verarbeitet, um ein zu registrierendes Bezugsmuster festzu
legen. Wenn in diesem Fall diese Muster am Anfang oder Ende
des Musters einen hochfrequenten Bestandteil und diese Mu
ster keinen solchen hochfrequenten Bestandteil haben, werden
die Muster verarbeitet, während die hochfrequenten Bestand
teile abgetrennt werden, und dann werden die hochfrequenten
Bestandteile zu dem verarbeiteten Ergebnis hinzugefügt.
Das in Fig. 18 dargestellte System hat ein Mikrophon 21, eine
ein Sprachintervall feststellende Einheit 22, ein Hochpaß
filter 23a, ein Tiefpaßfilter 23b, einen Vergleicher 26, Re
gister 45a und 45b, Mittelungseinheiten 26a und 26b, einen
Addierer 47 und ein Musterregister 48. Der Aufbau des in
Fig. 18 dargestellten Systems wird anhand des in Fig. 17 dar
gestellten Flußdiagramms beschrieben; zuerst wird eine Spra
che eingegeben und es wird geprüft, ob die eingegebene Spra
che an dem Wortanfang oder -ende einen hochfrequenten Be
standteil hat oder nicht. Wenn dies der Fall ist, wird der
hochfrequente Bestandteil abgetrennt, und eine Anzahl
Sprachmuster die erzeugt worden sind, indem dasselbe Wort
eine Anzahl Mal ausgesprochen wird, werden für die hochfre
quenten Bestandteile und die restlichen Teile gesondert ge
mittelt. Schließlich werden beide Teile zusammengefaßt, um
ein gewünschtes Muster festzulegen. Auf diese Weise kann ge
mäß dieser Ausführungsform, selbst wenn dieser Teil eines
Sprachmusters mit einem hochfrequenten Bestandteil einmal
oder mehrmals während des wiederholten Aussprechens dessel
ben Wortes verlorengegangen ist, da die beiden Teile ge
trennt gemittelt werden und dann die gemittelten Teile ver
bunden oder zusammengefaßt werden, um ein vollständiges
Sprachmuster festzulegen, ein derartiger Verlust einer Teil
information entsprechend ausgeglichen werden. In Fig. 18 wird
in das Mikrophon 21 eingegebene Sprache in ein Sprachsignal
umgesetzt, welches dann an die Hoch- und Tiefpaßfilter 23a
und 23b angelegt wird. Durch Vergleichen der Ausgänge dieser
Hoch- und Tiefpaßfilter 23a und 23b wird bestimmt, ob das
Sprachmuster einen hochfrequenten Bestandteil hat oder
nicht. Gleichzeitig wird ein Sprachintervall von dem Sprach
signal her festgelegt, und es wird geprüft, ob der hochfre
quente Bestandteil am Anfang oder Ende des Sprachintervalls
vorhanden ist oder nicht. Wenn ein hochfrequenter Bestand
teil vorhanden ist, wird ein Schalter S zu dem Register 45b
geschaltet, während wenn kein solcher hochfrequenter Be
standteil vorhanden ist, der Schalter S zu dem Register 45a
geschaltet wird. Das heißt, der hochfrequente Bestandteil am
Anfang oder Ende des Sprachintervalls wird in dem Register
45b und der Rest in dem Register 45a gespeichert. Beispiels
weise werden in dem Fall, daß dasselbe Wort dreimal ausge
sprochen wird, beim Speichern von drei Sprachmustern in den
Registern der Inhalt des jeweiligen Registers gemittelt, und
dann werden die gemittelten Ergebnisse zusammengefaßt. Wenn
in diesem Fall der Inhalt des Registers 45b die Information
am Anfang des Sprachintervalls ist, wird der Inhalt des Re
gisters 45b vor dem gemittelten Ergebnis des Registers 45a
angeordnet. Wenn dagegen die hinteren Enddaten in dem Regi
ster 45b gespeichert werden, werden diese nach dem Inhalt
des Registers 45a angeordnet. Folglich kann das Feststellen
eines Sprachintervalls mittels eines anhand von Fig. 8 be
schriebenen Verfahrens oder durch irgendein anderes ge
wünschtes Verfahren durchgeführt werden. Der Mittelungsvor
gang kann mittels eines gewünschten Verfahrens in Abhängig
keit von dem anschließenden Benutzungszweck des Musters
durchgeführt werden. Im vorliegenden Fall kann das folgende
Verfahren angewendet werden. Bei einer Mittelung von drei
Mustern wird die Musterlänge auf das kürzeste Muster einge
stellt und die Muster werden addiert, indem Daten gleichför
mig gemacht werden. Ein auf diese Weise gebildetes Muster
kann dann ein Bezugsmuster hoher Qualität festlegen, das mit
einem Teil vervollständigt ist, welcher gern verlorengeht.
In Fig. 19 ist hauptsächlich in Blockform ein Bezugsmuster-
Bildungssystem gemäß noch einer weiteren Ausführungsform mit Merkmalen nach der
Erfindung dargestellt. Wenn es in dieser Ausführungsform Mu
ster gibt, die einen hochfrequenten Anteil am Anfang oder
Ende des Merkmalsmusters haben und die
keinen solchen hochfrequenten Bestandteil haben, wird der
Teil des Musters mit einem hochfrequenten Bestandteil zu dem
Teil ohne einen solchen hochfrequenten Bestandteil zugefügt.
In Fig. 19 weist das System ein Mikrophon 21, eine ein Sprach
intervall feststellende Einheit 22, ein Hochpaßfilter 23a,
ein Tiefpaßfilter 23b, einen Vergleicher 26, ein Register
45, ein Flag-Prüfeinheit 49, eine Muster-Verbindungseinheit
50, einen Addierer 47 und ein Musterregister 48 auf. Da der
Verfahrensablauf bis auf die Prüfung des Fehlens oder Vor
handenseins eines hochfrequenten Bestandteils in dem Sprach
signal derselbe wie bei der Ausführungsform in Fig. 17 und 18
ist, wird für die vorliegende Ausführungsform nurmehr der
anschließende Ablauf beschrieben. Zuerst wird ein Flag in
Abhängigkeit davon aufgestellt bzw. eingebracht, ob ein
hochfrequenter Bestandteil am Anfang oder Ende des Sprachin
tervalls vorhanden ist oder nicht, und das Muster wird dann
zusammen mit dem Flag in dem Register 45 gespeichert. Bei
Beendigung der Schaffung all der Laute bzw. Aussprechvor
gänge für dasselbe Wort, wird geprüft, ob es Sprachmuster
mit einem unterschiedlichen Flag gibt. In diesem Fall wer
den, wenn alle die Sprachmuster ein Flag oder kein Flag ha
ben, eine Mittelung der Sprachmuster, so wie sie sind,
durchgeführt. Andernfalls wird der hochfrequente Bestandteil
des Musters mit einem Flag zu dem Anfang oder Ende des Mu
sters oder ein Flag hinzuaddiert, und nach Durchführung
eines Mittelungsvorgangs wird das gemittelte Muster in dem
Musterregister 48 registiert. Das auf diese Weise erhaltene
Muster ist dann bezüglich des verlorengegangenen Teils ausge
glichen und hat folglich eine hohe Qualität. Es kann ge
mäß dieser Ausführungsform selbst wenn ein Muster teilweise
verlorengegangen ist, ein normales Bezugsmuster hoher Quali
tät gebildet und registriert werden.
Wie vorstehend beschrieben, gibt es beim Ausbilden eines
Sprachmusters einen Fall, bei welchem eine unerwünschte Ge
räuschkomponente eingebracht wird, und es gibt auch einen
Fall, bei welchem ein Teil der Sprachinformation verloren
geht. Beispielsweise im Falle eines Wortes mit einem Konso
nanten, welcher unabhängig ausgesprochen wird, wie /Stopp/
geht der letzte Laut /p/ gern verloren und kann nicht auf
genommen werden. In Fig. 28a und 28b ist ein Beispiel darge
stellt, um ein Anpassen für ein Wort, wie /Stopp/ durchzu
führen. In Fig. 28a ist ein Bezugsmuster und in Fig. 28b ist
ein eingegebenes Muster dargestellt. Das Bezugsmuster in
Fig. 28a legt genau ein Sprachmuster für das ganze Wort fest;
andererseits ist bei dem eingegebenen, in Fig. 28b darge
stellten Muster der letzte Laut /p/ verlorengegangen. Wenn
folglich diese beiden Muster für eine Anpassung verglichen
werden, wird der letzte Laut /p/ des Bezugsmusters in Fig. 28
in Entsprechung mit dem letzten Laut /o/ des eingegebenen,
in Fig. 28b dargestellten Musters gebracht. Aus diesem Grund
wird der Ähnlichkeitsgrad zwischen diesen Mustern schlech
ter, was dann zu einer fehlerhaften Erkennung führen könnte.
Um mit dieser Schwierigkeit fertig zu werden, können solche
Verfahren und Systeme geschaffen werden, die in Fig. 28 bis
32 dargestellt sind, welche in ihrem Aufbau genau mit den
Fig. 1 bis 4 übereinstimmen, welche eingangs im einzelnen be
schrieben worden sind.
Da das System in Fig. 29 genau mit dem System in Fig. 1 über
einstimmt und das System in Fig. 31 genau mit dem System in
Fig. 3 übereinstimmt, abgsehen davon, daß die Zahl "100" zu
den Bezugszeichen hinzugefügt ist, brauchen die Systeme hier
nicht noch einmal beschrieben zu werden. Mit Hilfe der Ver
fahren, welche in den in Fig. 29 und 31 dargestellten Syste
men durchgeführt werden, kann die Genauigkeit einer Muster
anpassung erhöht werden. Jedoch können in einem solchen Mu
ster-Vergleichsverfahren nachteilige Einflüsse für einen
Laut erzeugt werden, welcher manchmal einen größeren manch
mal einen niedrigeren Energiepegel hat, wie beispielsweise
der Laut /b/. In Fig. 27a und 27b ist ein Beispiel eines Wor
tes /onbu/ dargestellt, was im japanischen Sparschwein be
deutet; das Muster in Fig. 27 hat einen Laut /b/, dessen
Energie nicht nennenswert abgenommen hat, während das Mu
ster in Fig. 27b einen Laut /b/ hat, dessen Energie beträcht
lich abgenommen hat. In einem solchen Fall wird gemäß dem
Verfahren, das bei den in Fig. 29 und 31 dargestellten Syste
men angewendet ist, der Teil /bu/ dieses Musters durch An
passung ausgeschieden.
Unter diesen Umständen wird, wenn zwei
Muster verglichen werden, geprüft, ob ein Minimum an
Energie in der Nähe des Anfangs oder des Endes jedes der
Muster vorhanden ist oder nicht; wenn ein derartiges Ener
gieminimum nur in einem der beiden Muster vorhanden ist,
wird dieser Teil eines derartigen Musters, das ein Energie
minimum hat, zwischen dem Minimum und dem Ende entfernt.
Wenn das Ergebnis, das dadurch erhalten worden ist, daß eine
reelle Zahl, welche gleich 1 oder kleiner ist, zu der Mu
sterlänge des Musters mit keinem solchen Energieminimum mul
tipliziert wird, länger als die Musterlänge des anderen Mu
sters ist, wird es auf dieselbe Weise behandelt, wie das Mu
ster mit keinem Energieminimum oder aber wenn das Ergebnis
das erhalten worden ist, indem eine reelle Zahl, die gleich
1 oder größer ist zu der Musterlänge des Musters mit einem
Energieminimum multipliziert wird, kürzer als die Musterlän
ge des anderen Musters ist, wird dies in derselben Weise be
handelt wie das Muster ohne Energieminimum.
In Fig. 23 ist ein Flußdiagramm einer Schrittfolge eines Mu
stervergleichsverfahrens gemäß noch einer weiteren Ausfüh
rungsform mit Merkmalen nach der Erfindung dargestellt, und in Fig. 24 ist ein
Mustervergleichsverfahren zur Durchführung des in Fig. 23
dargestellten Verfahrens wiedergegeben. Das dargestellte Mu
stervergleichssystem weist ein Mikrophon 21 , eine ein
Sprachintervall bestimmende Einheit 71, eine Bandpaß-Filter
bank 72, ein Register 73, ein Sprachenergie-Meßeinheit 74,
einen Vergleicher 75, eine Schwellenwert erzeugende Einheit
76, einen Zeitzähler 77, einen Vergleicher 78, einen Zähler
79 für lautlose Intervalle, einen Markierungsvergleicher 80,
einen Umschalter 81, eine Bibliothek 82, Rahmenlängeneinhei
ten 83 und 84, eine Multipliziereinheit 85, eine zu multi
plizierende Konstante setzende Einheit 86, einen Vergleicher
87, einen Umschalter 88, eine Muster-Entfernungseinheit 89,
eine Anpassungseinheit 90 und eine Anzeigeeinheit 91 auf.
Wenn eine Geräuschkomponente in eine eingegebene Sprache
eingebracht worden ist, wird die Musterlänge im Vergleich zu
der Musterlänge eines normalen Musters größer; jedoch wird
gemäß der Erfindung die Aufmerksamkeit auf die Tatsache ge
richtet, daß die Musterlänge in dem in Fig. 27 dargestellten
Fall nicht größer wird.
Wie in Fig. 23 und 24 dargestellt, wird die Energie einer in
das Mikrophon 21 eingegebenen Sprache durch die Meßeinheit
74 gemessen, wodurch die Lage eines stimmlosen Intervalls in
der Sprache festgestellt wird. Eine der Sprache zuzuordnende
Markierung unterscheidet sich in Abhängigkeit davon, ein
solches stimmloses Intervall innerhalb von 100 ms von dem an
fang des Sprachintervalls an ausfindig zu machen. Beim Her
ausnehmen eines Bibliotheks- oder Bezugsmusters, welches zu
sammen mit der Hinzufügung einer solchen Markierung regi
striert worden ist, wird geprüft, ob die Markierung des Be
zugsmusters dieselbe ist wie diejenige des eingegebenen Mu
sters oder nicht. Wenn die beiden Markierungen dieselben
sind, wird der Schalter 81 zu einem Kontakt a umgeschaltet,
so daß ein gewöhnlicher Musteranpassungsprozeß durchgeführt
wird. Wenn andererseits sich die zwei Markierungen unter
scheiden, wird der Schalter 81 zu einem Kontakt b umgeschal
tet, um dadurch die beiden Muster den jeweiligen Rahmenlän
gen-Vergleichern 83 und 84 zuzuführen, in welchen die Rah
menlänge mit einer dem stimmlosen Intervall entsprechenden
Markierung als Fr1 und die Rahmenlänge ohne eine solche Mar
kierung als Fr2 gesetzt wird. Eine Musterentfernung wird nur
dann durchgeführt, wenn der Bedingung, daß Fr1 kleiner als
0,9 × Fr2 genügt worden ist, und dann wird eine Musteranpas
sung durchgeführt. Wenn hiermit ein notwendiger Laut aus
einem solchen Muster entfernt worden ist, wie in Fig. 27 dar
gestellt ist, wird die Musterlänge kürzer, um dadurch der
Bedingung zu genügen, das Fr1 kleiner als 0,9 × Fr2 ist, wo
durch dann die Muster-Entfernungseinheit 89 umgangen ist.
Wenn dagegen eine Geräuschkomponente hinzugefügt worden ist,
wird die Musterlänge durch das Hinzufügen einer solchen Ge
räuschkomponente verlängert, so daß der Bedingung, daß Fr1
kleiner als 0,9 × Fr2 ist, nicht genügt ist, und folglich
wird auf die Muster-Entfernungseinheit 89 übergegangen, um
vor einer Anpassung eine erforderliche Musterentfernung
durchzuführen.
In Fig. 25 und 26 ist eine weitere Ausführungsform mit Merkmalen nach der Er
findung dargestellt, welche grundsätzlich dieselbe wie die
vorhergehende anhand von Fig. 23 und 24 beschriebene Ausfüh
rungsform ist. In Fig. 25 ist ein Flußdiagramm eines Muster
vergleichsverfahrens dieser Ausführungsform dargestellt, und
in Fig. 26 ist großteils in Blockform ein Mustervergleichsver
fahren zum Durchführen des in Fig. 25 dargestellten Verfah
rens wiedergegeben. Da die vorliegende Ausführungsform sehr
ähnlich der vorherigen anhand von Fig. 23 und 24 beschriebe
nen Ausführungsform ist, sind mit den gleichen Bezugszeichen
die gleichen Elemente bezeichnet. In der in Fig. 25 und 26
dargestellten Ausführungsform wird eine vorbestimmte re
elle Zahl, die gleich eins oder größer ist (in der darge
stellten Ausführungsform ist 1,1 in der die zu multiplizie
rende Konstante setzende Einheit 86 gesetzt) zu der Muster
länge des Musters mit einem Energieminimum multipliziert;
wenn das Ergebnis einer solchen Multiplikation kleiner als
die Musterlänge des anderen Musters ist, wird es in dersel
ben Weise wie das Muster ohne Energieminimum behandelt. Wenn
in der dargestellten Ausführungsform das Ergebnis 1,1 zu
einem Muster mit einem stimmlosen Intervall zu multiplizie
ren, d. h. ein Muster, bei dem möglicherweise ein Rauschbe
standteil hinzugefügt ist, kürzer als ein Muster ohne ein
stimmloses Intervall ist, wird dann bestimmt, daß dieses
stimmlose Intervall nicht eine Geräuschkomponente ist, so daß
keine Musterentfernung durchgeführt wird. Auf diese Weise
wird ein Muster, in welchem Unterschei
dungen zwischen Geräusch- und Sprachinformation schwierig
ist, automatisch unterschieden, um dadurch die Geräuschin
formation zu entfernen, so daß eine Musteranpassung mit ho
her Genauigkeit durchgeführt werden kann.
Weiterhin ist ein Mu
stervergleichsverfahren und ein System geschaffen, in wel
chem eine Musteranpassung bezüglich eines eingegebenen Mu
sters mit einem Geräuschbestandteil durchgeführt wird, in
dem ein solcher Geräuschbestandteil entfernt wird, und es
wird dann eine Erkennungsberechnung an einem Zeitpunkt ein
geleitet, der früher als das Eingeben einer zu erkennenden,
eingegebenen Sprache liegt. Das heißt, um ein derartiges
Ziel zu erreichen, wird beim Vergleichen von zwei Mustern
zuerst geprüft, ob ein Energieminimum in einem vorherbe
stimmten Bereich von dem vorderen Ende (Anfang) oder von dem
rückwärtigen Ende jedes der Muster vorhanden ist oder nicht.
Wenn ein derartiges Energieminimum nur in einem der Muster
vorhanden ist, wird dieser Teil des Musters, das ein Energie
minimum hat, zwischen dem Energieminimum und dem vorderen
oder hinteren Ende des Musters entfernt und dann werden die
beiden Muster verglichen. Zu einem Zeitpunkt nach dem Einge
ben des Musters für einen vorherbestimmten Zeitabschnitt im
Anschluß an das Feststellen des vorderen Endes einer Sprache
wird festgelegt, ob ein Energieminimum am vorderen Ende des
Musters zu entfernen ist oder nicht; danach wird festgelegt,
ob das Energieminimum am hinteren Ende des Musters zu ent
fernen ist oder nicht.
In Fig. 33 (33a und 33b) ist in Blockform ein Spracherken
nungssystem gemäß noch einer weiteren Ausführungsform mit Merkmalen nach der
Erfindung dargestellt. In Fig. 34 (34a und 34b) ist ein Fluß
diagramm dargestellt, anhand dessen die Arbeitsweise des in
Fig. 33 dargstellten Spracherkennungssystems erläutert wird.
Das Spracherkennungssystem weist ein Mikrophon 21, eine
Bandpaß-Filterbank 72, eine ein Sprachintervall feststellen
de Einheit 71, ein Register 73 , eine Sprachenergie feststel
lende Einheit 124, einen Vergleicher 125, einen Schwellen
wert erzeugende Einheit 126, einen Zähler 127 für lautlose
Intervalle, einen Zeitzähler 128, Vegleicher 129 und 130,
eine Zeitrückführeinheit 131 (z. B., um sie zuvor 100 ms zu
einem entsprechenden Zeitpunkt zurückzuführen), eine eine
vorherbestimmte Zeit erzeugende Einheit 132, eine Markie
rungs-Zufügungseinheit 133, einen Vergleicher 134, eine Bib
liothek 135, einen Umschalter 136, eine Muster-Entfernungs
einheit 137, um etwas bis zu einem lautlosen Abschnitt zu
entfernen, eine Anpassungseinheit 138, eine Kanditaten-Aus
wähleinheit 139 und eine Anzeigeeinheit 140 auf. In dieser
Ausführungsform wird festgelegt, ob die Nähe des vorderen
oder hinteren Endes eines Musters innerhalb von 100 ms liegt.
Zuerst wird Sprache in das Mikrophon 21 eingegeben, um ein
Sprachsignal zu erzeugen, welches dann in eine Merkmalsgröße
umgesetzt wird. In dieser Ausführungsform wird das Frequenz
spektrum des Sprachsignals, das durch ein Sprachsignal er
zeugt worden ist, das durch die Bandpaß-Filterbank 72 verar
beitet worden ist, als eine Merkmalsgröße verwendet. Dann
wird das Sprachintervall festgestellt, und das eingegebene
unbekannte Muster wird in dem Register 73 gespeichert.
Gleichzeitig wird die Zeit, welche seit dem Feststellungs
zeitpunkt des vorderen Endes (Anfang) des Sprachintervalls
verstrichen ist, durch den Zähler 128 gezählt.
Außerdem wird die Energie eines Sprachsignals festgestellt,
und wenn diese Energie kleiner als der Schwellenwert ist,
wird dies als ein Teil eines stimmlosen Intervalls betrach
tet, so daß dessen Lage und Zahl in dem Zähler 127 gespei
chert werden. Wenn dann der Zeitzähler 127 100 ms erreicht
hat, wird eine Markierung von -1 hinzugefügt, soweit ein
stimmloses Intervall vorhanden gewesen ist, und es wird eine
Markierung von 1 hinzugefügt, soweit kein stimmloses Inter
vall gewesen ist. Gleichzeitig mit dem Hinzufügen einer Mar
kierung wird ein Bezugsmuster aus der Bibliothek 135 heraus
genommen, um so eine vorläufige Anpassung bezüglich der in
der Bibliothek 135 gespeicherten Bezugsmuster durchzuführen.
Jedes der in der Bibliothek 135 gespeicherten Bezugsmuster
hat eine Markierung von -1 oder 1 in Abhängigkeit davon, ob
ein stimmloses Intervall am vorderen oder hinteren Ende einer
Sprache vorhanden ist oder nicht. Dann wird zuerst vergli
chen, ob das Bezugsmuster aus der Bibliothek 135 dieselbe
Markierung wie diejenige des eingegebenen Musters hat oder
nicht. Wenn die zwei Markierungen dieselben sind, da ein
stimmloses Intervall in jedem der beiden Muster vorhanden
ist, wird eine vorläufige Anpassung durchgeführt. Eine sol
che vorläufige Anpassung kann beispielsweise durch Verglei
chen vorherbestimmter Teile der beiden Muster durchgeführt
werden. Wenn sich dagegen die beiden Markierungen unterschei
den wird der Teil des Musters, das ein stimmloses Intervall
hat, zwischen dem vorderen Ende und dem stimmlosen Intervall
entfernt, und dann wird die vorläufige Anpassung durchge
führt, um Kandidaten-Bezugsmuster auszuwählen.
Wenn dagegen der vorherbestimmte Zeitabschnitt von 100 ms
oder mehr von dem vorderen Ende einer Sprache an verstri
chen ist, wird der Wert bestimmt, auf welchem von dem augen
blicklichen Zeitpunkt auf einen Zeitpunkt von über 100 ms zu
rückgegangen worden ist, und es wird zu derselben Zeit zu
sammen mit einem Beendigungssignal der Sprache geprüft, ob
ein stimmloses Intervall innerhalb der letzten 100 ms vorhan
den gewesen ist oder nicht; eine Markierung von -1 oder 1
wird dann in Abhängigkeit davon, ob ein stimmloses Intervall
vorhanden gewesen ist oder nicht, in ähnlicher Weise wie bei
dem vorderen Ende des Musters hinzugefügt. Die restliche Ar
beitsweise, welche für das vordere Ende des Musters durch
geführt worden ist, wird dann auch für das hintere Ende des
Musters durchgeführt, und es wird erforderlichenfalls ein
Teil des Musters entfernt; die endgültige Anpassung wird für
die Kandidaten-Bezugsmuster durchgeführt, welche vorher aus
gewählt worden sind.
In dem vorher beschriebenen Ausführungsbeispiel
ist ein Mustervergleichsverfahren und -system vorgese
hen, in welchen ein Schwellenwert, z. B. 100 ms, verwendet
wird, um zu prüfen, ob ein Energieminimum in der Nähe des
vorderen Endes (Anfangs) eines Sprachmusters vorhanden ist
oder nicht. Wenn ein Energieminimum bei 110 ms vorhanden ist,
wird in diesem Fall eine Markierung, welche das Fehlen eines
Energieminimums anzeigt, zugeteilt. Wenn dagegen ein Ener
gieminimum bei 90 ms in dem anderen Muster vorhanden ist,
wird dieses Minimum vor einer Anpassung entfernt. Folglich
gibt es eine Möglichkeit, eine richtige Anpassung durchzu
führen. Dies wird nun im einzelnen unter Bezugnahme auf
Fig. 43a und 43b beschrieben. Für das in Fig. 43a dargestell
te Muster wird festgelegt, daß kein Energieminimum in der
Nähe des hinteren Endes des Musters vorhanden ist. Für das
in Fig. 43b dargestellte Muster wird dagegen festgelegt, daß
ein Energieminimum in der Nähe des hinteren Endes des Mu
sters vorhanden ist. Folglich wird der letzte Laut /p/ des
Musters in Fig. 43b entfernt, bevor das Muster in Fig. 43b für
ein Anpassen mit dem Muster in Fig. 43a verglichen wird. Dies
führt dann zu einer unrichtigen Anpassung.
Ein Aspekt der Erfindung ist insbesondere darauf gerichtet,
ein derartiges bei der vorstehend beschriebenen Ausfüh
rungsform auftretendes Problem zu lösen, damit eine Anpas
sung zwischen zwei Mustern richtig durchgeführt werden kann.
Mit anderen Worten wird beim Vergleich
von zwei Mustern zuerst geprüft, ob ein Energieminimum in
der Nähe des vorderen oder hinteren Endes jedes der Muster
vorhanden ist oder nicht. Wenn ein derartiges Energieminimum
nur in einem der Muster vorhanden ist, wird dieser Teil des
Musters, 59773 00070 552 001000280000000200012000285915966200040 0002003733659 00004 59654 das ein Energieminimum hat, zwischen dem Minimum
und dem vorderen oder hinteren Ende aus dem Muster entfernt
und dann wird ein Vergleich zwischen den zwei Mustern durch
geführt. Wenn dagegen eine Anzahl Minima vorhanden ist, wird
die Länge zwischen dem ersten und dem zweiten Minimum eines
ersten Musters mit der Länge zwischen dem vorderen Ende und
dem ersten Minimum und der Länge zwischen dem ersten und
zweiten Minimum eines zweiten Musters verglichen; nur wenn
der Musterlängenunterschied bei dem letzteren größer ist,
wird dieser Teil des zweiten Musters zwischen dem vorderen
Ende und dem ersten Minimum entfernt, und es wird eine An
passung zwischen dem ersten und zweiten Muster durchgeführt.
In Fig. 35 ist ein Flußdiagramm eines Mustervergleichsverfah
rens gemäß noch einer weiteren Ausführungsform mit Merkmalen nach der Erfindung
dargestellt. In Fig. 36 (36a und 36b) ist großteils in Block
form ein Spracherkennungssystem zum Durchführen des Verfah
rens in Fig. 35 dargestellt. Das Spracherkennungssystem weist
einen elektroakustischen Wandler 21, wie beispielsweise ein
Mikrophon, eine ein Sprachintervall feststellende Einheit
71, eine Bandpaß-Filterbank 72, ein Register 73, eine
Sprachenergie-Meßeinheit 242, einen Vergleicher 225, eine
Schwellenwert erzeugende Einheit 226, einen Zeitzähler 227,
einen Vergleicher 228, einen Zähler 229 für stimmlose Inter
valle, einen Markierungsvergleicher 230, einen Umschalter
231, eine Bibliothek 232, Recheneinheiten 233 bis 235, einen
Vergleicher 236, einen Umschalter 237, eine Musterentfer
nungseinheit 238, eine Anpassungseinheit 239 und eine Anzei
geeinheit 240 auf.
In Fig. 41a und 41b sind zwei Beispiele eines Sprachmusters
dargestellt, wenn ein Wort "mitaka" auf japanisch ausgespro
chen wird. In diesem Fall wird eine Länge m2 zwischen dem
zweiten und dritten Minimum des Musters der Fig. 41a mit
einer Länge n1 zwischen dem vorderen Ende und dem ersten Mi
nimum des Musters der Fig. 41b und auch mit der Länge n2 zwi
schen dem ersten und zweiten Minimum des Musters der Fig. 41b
verglichen. Wenn der Absolutwert der Differenz (n1-m2)
kleiner als der Absolutwert der Differenz (n2-m2) ist,
dann wird festgelegt, daß das Minimum, welches innerhalb von
100 ms von dem vorderen Ende vorhanden sein sollte, was als
Nähe zu dem vorderen Ende betrachtet werden kann, über den
Bereich von 100 ms hinaus ausgedehnt, und folglich werden die
zwei Muster als normal festgelegt und so, wie sie sind, mit
einander verglichen. Wenn dagegen der Absolutwert der Dif
ferenz (n1-m2) größer als der Absolutwert der Differenz
(n2-m2) ist, dann wird festgelegt, daß ein Laut, welcher
vor der Länge n1 vorhanden sein sollte, verloren gegangen
ist, und daß folglich der vordere Endteil des Musters der
Fig. 41a entfernt und erst dann zur Anpassung die beiden Mu
ster verglichen werden.
Wie unter Bezugnahme auf Fig. 35 und 36 beschrieben wird,
wird, wenn ein ausgesprochenes Wort in das Mikrophon 21 ein
gegeben wird, ein entsprechendes Sprachsignal erzeugt, und
dann wird die Energie der Sprache durch die Meßeinheit 224
gemessen, um dadurch ein stimmloses Intervall festzustellen
und es wird der Sprache eine andere Markierung zugeteilt in
Abhängigkeit davon, ob ein solches stimmloses Intervall in
nerhalb von 100 ms von dem vorderen Ende (Beginn) der Sprache
an vorhanden ist. Ein Bezugsmuster, welches in der Biblio
thek 232 registriert worden ist, und in welchem eine ähnli
che Markierung zugeteilt ist, wird aus der Bibliothek 232
entnommen, und es wird geprüft, ob das Bezugsmuster dieselbe
Markierung wie das eingegebene Muster hat. Wenn die beiden
Muster dieselbe Markierung haben, wird der Schalter 231 zu
einem Kontakt a umgeschaltet, um dadurch einen gewöhnlichen
Mustervergleich durchzuführen. Wenn dagegen die zwei Markie
rungen verschieden sind, wird der Schalter 231 zu einem Kon
takt b umgeschaltet, um dann, wie oben beschrieben, die Be
rechnungen durchzuführen.
Wenn beispielsweise, wie in Fig. 41 dargestellt, das Bezugs
muster (z. B. ein in Fig. 41a dargestelltes Muster) sich von
dem eingegebenen Muster (z. B. von dem Muster in Fig. 41b) un
terscheidet, werden Werte von n1, n2 und m2 in den Rechen
einheiten 233 bis 235 berechnet, und dann wird festgelegt,
ob in Abhängigkeit von der Größenbeziehung zwischen den Ab
solutwerten von (n1-m2) und (n-m2) zu der Musterentfer
nungseinheit 238 überzugehen ist oder nicht. Vorstehend ist
der Fall für das vordere Sprachende beschrieben worden; je
doch auch in dem Fall, daß eine Geräuschkomponente zu dem
hinteren Ende einer Sprache hinzugefügt worden ist oder ein
Laut am hinteren Ende einer Sprache (eines Wortes) verloren
gegangen ist, kann eine derartige Hinzufügung einer Rausch
komponente oder der Verlust eines Lautes am hinteren Ende
eines Wortes auf die folgende Weise durchgeführt werden.
Wenn eine Anzahl von m Minima in dem ersten Muster und eine
Anzahl von n Minima in dem zweiten Muster vorhanden sind,
während die Länge zwischen dem (m-1)ten und dem m-ten Minimum
des ersten Musters mit der Länge zwischen dem n-ten Minimum
und dem hinteren Ende des zweiten Musters verglichen. Nur
wenn der Musterlängen-Unterschied bei letzterem kleiner ist,
wird der Teil des zweiten Musters zwischen den bei
den Mustern entfernt. In dem Beispiel in Fig. 42 hat jedes
Muster zwei stimmlose Intervalle; jedoch unterscheidet sich
eine zuzuteilende Markierung bei dem Muster der Fig. 42b, in
welchem ein stimmloses Intervall innerhalb 100 ms von dem hin
teren Ende der Sprache aufzufinden ist, von dem Muster der
Fig. 42a, in welchem ein stimmloses Intervall nicht innerhalb
von 100 ms von dem hinteren Ende der Sprache vorhanden ist.
Aus diesem Grund wird unter normalen Voraussetzungen der
letzte Laut /p/ des in Fig. 42b dargestellten Musters ent
fernt. Gemäß der Erfindung wird jedoch eine Länge m2 des
Musters der Fig. 32a mit Längen n2 und n3 des Musters der
Fig. 42 verglichen, und nur wenn der Absolutwert der Diffe
renz (n2-m2) größer als der Absolutwert der Differenz
(n3-m2) ist, wird zu der Musterentfernungseinheit 238
übergegangen, in welcher der letzte Laut /p/ des in Fig. 42b
dargestellten Musters entfernt wird.
In Fig. 37 ist ein Flußdiagramm dargestellt, welches die
Schrittfolge einer Ausführungsform für eine Anpassung zwi
schen einem Muster mit einem stimmlosen Intervall, das inner
halb von 100 ms von dem hinteren Ende einer Sprache aufgefun
den ist, wie es vorstehend beschrieben ist, und einem Mu
ster ohne ein solches stimmloses Intervall dargestellt. In
Fig. 38 ist schematisch ein Spracherkennungssystem zum Durch
führen des Verfahrens der Fig. 37 dargestellt. Die in Fig. 37
und 38 dargestellte Ausführungsform ist in vieler Hinsicht
der in Fig. 35 und 36 dargestellten Ausführungsform ähnlich,
so daß nur die Elemente dieser Ausführungsformen, welche
sich von den entsprechenden Elementen der vorherigen Ausfüh
rungsformen unterscheiden, mit Bezugszeichen bezeichnet
sind, bei welchen ein Buchstabe "a" hinzugefügt ist. Das
heißt, in dieser Ausführungsform werden die Werte von n2, n3
und m2 durch die Recheneinheit 233a bestimmt, und der Abso
lutwert der Differenz (n3-m2) wird in der Recheneinheit
235a bestimmt. Jedoch gibt es bei einer Sprache, da die Ge
samtlänge sich dehnt und zusammenzieht, einen Fall, bei wel
chem eine fehlerhafte Bestimmung vorgenommen wird, wenn nur
auf den Absolutwert eines Musters vertraut wird. Unter die
sen Umständen können in den in Fig. 35 bis 38 dargestellten
Ausführungsformen statt der Längen m2, n1, n2 und n3 Werte
verwendet werden, welche durch die Sprachlänge normiert
sind, d. h. m2/M, n1/N, n2/N und n3/N. Hierbei gegen die Wer
te M und N die Gesamtlänge der jeweiligen Worte (Sprache)
an.
In Fig. 39 ist ein Flußdiagramm einer Ausführungsform darge
stellt, welches bei solchen normierten Werten Verwendung
findet. In Fig. 40 ist schematisch großteils in Blockform ein
Spracherkennungssystem zum Durchführen des Verfahrens in
Fig. 39 dargestellt. In der Ausführungsform in Fig. 39 und 40
sind die Elemente dieser Ausführungsform, welche sich von
denen der vorherigen in Fig. 35 bis 38 dargestellten Ausfüh
rungsform unterscheiden, mit Bezugszeichen bezeichnet, bei
welchen der Buchstabe "b" hinzugefügt ist. Das heißt, in
dieser Ausführungsform werden in der Recheneinheit 233b Längen
n1, m2, n2 und m3 bestimmt, und die Absolutwerte der
normierten Differenzen (n2/N-m2/M) werden in der Rechen
einheit 234b bestimmt. Außerdem wird der Absolutwert der
normierten Differenz (n1/N-n2/M) in der Recheneinheit 235b
bestimmt.
Weiterhin ist ein Musteran
passungsverfahren und -system geschaffen, bei welchem eine
Musteranpassung durchführbar ist, selbst wenn ein Energie
minimum in seiner Position etwas verschoben wird. Das heißt,
gemäß der Erfindung wird beim Vergleichen von zwei Mustern
zuerst geprüft, ob es ein Energieminimum in der Nähe des
vorderen oder hinteren Endes jedes der Muster gibt oder
nicht. Wenn ein derartiges Energieminimum nur in einem der
beiden Muster vorhanden ist, wird dieser Teil des Musters
welches ein solches Energieminimum hat, zwischen dem Ener
gieminimum und dem vorderen oder hinteren Ende entfernt oder
beseitigt, und dann werden die beiden Muster verglichen.
Wenn in diesem Fall die beiden Muster eine unterschiedliche
Anzahl von Energieminima haben, wird der Teil des Musters,
das eine größere Anzahl von Minima hat, zwischen dem vorde
ren Ende des Musters und dem ersten Minimum oder zwischen
dem letzten Minimum und dem hinteren Ende beseitigt. Oder
aber es wird geprüft, ob ein Eingangssignal eine Anzahl
Energieminima hat oder nicht; wenn eine Anzahl Energieminima
vorhanden ist, wird das Verhältnis zwischen der Musterlänge
und der Minimumstelle festgestellt, wobei, wenn das sich er
gebende Verhältnis nahe dem Verhältnis des Bezugsmusters
ist und das Energieminimum nur in der Nähe des Endes eines
der Muster besteht, eine Anpassung zwischen den Mustern
durchgeführt, wobei angenommen wird, daß beide Muster Minima
oder keine Minima haben. Ferner wird zuerst geprüft, ob ein
Eingangssignal eine Anzahl Energieminima hat oder nicht;
wenn eine Anzahl Energieminima vorhanden ist, wird das Ver
hältnis zwischen der Musterlänge und der Minimumposition
festgestellt, wobei, wenn das sich ergebende Verhältnis nahe
dem Verhältnis des Bezugsmusters ist, die Musterlänge zwi
schen dem Energieminimum und dem Musterende jedes der Muster
gleich oder kleiner als ein vorherbestimmter Wert ist, und
das Energieminimum nur in der Nähe des Endes eines der Mu
ster vorhanden ist, eine Anpassung zwischen den Mustern
durchgeführt wird unter der Annahme, daß beide Muster Minima
oder keine Minima haben. Ferner wird alternativ hierzu zu
erst geprüft, ob ein Eingangssignal eine Anzahl Energiemini
ma hat oder nicht, und wenn die Anzahl Energieminima sich
zwischen dem eingegebenen und dem Bezugsmuster unterschei
det, wird die Länge zwischen dem Minimum, das dem Musterende
am nächsten ist, und einem stimmlosen Intervall des Musters,
das eine größere Anzahl von Energieminima hat, von der Mu
sterlänge des Musters, das eine größere Anzahl von Minima
hat, subtrahiert, um einen Wert zu erhalten, welcher dann
mit der Musterlänge des anderen Musters verglichen wird, wo
bei, wenn der auf diese Weise erhaltene Wert näher bei der
Musterlänge des anderen Musters liegt, dieser Teil des Mu
sters, das eine größere Anzahl von Minima hat, zwischen dem
Minimum und dem Musterende beseitigt wird; dann erst werden
die beiden Muster miteinander verglichen.
In Fig. 44 ist ein Flußdiagramm dargestellt, das eine Schritt
folge eines Musteranpassungs- oder Vergleichsverfahrens ge
mäß noch einer weiteren Ausführungsform mit Merkmalen nach der Erfindung dar
stellt. In Fig. 45 ist ein Spracherkennungssystem zum Durch
führen des Verfahrens in Fig. 44 dargestellt. Das Spracher
kennungssystem hat ein Mikrophon 21, eine ein Sprachinter
vall feststellende Einheit 71, eine Bandpaß-Filtereinheit
72, ein Register 73, eine Sprachenergie-Meßeinheit 224, ei
nen Vergleicher 225, eine Schwellenwert erzeugende Einheit
226, einen Zeitzähler 227, einen Vergleicher 228, einen
Zähler 229 für stimmlose Intervalle, einen Markierungsver
gleicher 230, einen Umschalter 231, eine Bibliothek 232,
eine Musterentfernungseinheit 238, eine Anpassungseinheit
239 und eine Anzeigeeinheit 240. In dieser Ausführungsform
wird beim Vergleichen von zwei Mustern, wenn ein Energie
minimum in der Nähe des vorderen oder hinteren Endes eines
Musters vorhanden ist, dieser Teil des Musters, das ein Ener
gieminimum hat, zwischen dem Energieminimum und dem vor
deren oder hinteren Ende des Musters entfernt, und dann wer
den die beiden Muster zur Anpassung miteinander verglichen.
Wenn in diesem Fall die Anzahl Minima zwischen den beiden
Mustern unterschiedlich ist, wird der Teil des Musters, das
eine größere Anzahl Minima hat, zwischen dem ersten oder
letzten Minimum und dem Musterende entfernt, und dann werden
die beiden Muster verglichen. Hierbei wird angenommen, daß
ein Energieminimum in einer Sprache einem stimmlosen Ab
schnitt in der Sprache (dem Wort) enspricht.
Zuerst wird, wenn die Sprache in das Mikrophon 21 eingegeben
wird, ein Sprachsignal erzeugt, und die Energie der Sprache
wird durch die Einheit 242 gemessen. Gleichzeitig wird ge
prüft, ob ein stimmloses Intervall vorhanden ist oder nicht
und es wird die Anzahl solcher stimmloser Intervalle aufge
zeichnet. Dann wird ein Bezugsmuster aus der Bibliothek 232
herausgenommen, und die Anzahl Sprachintervalle in dem Be
zugsmuster wird mit der Anzahl Sprachintervalle in dem ein
gegebenen Muster verglichen. Wenn diese Zahlen übereinstim
men, wird zu einem gewöhnlichen Anpassungsschritt übergegan
gen, um die zwei Muster, sowie sie sind zu vergleichen. Es
wird dann auf einen Schritt übergegangen, um einen Teil
eines Musters nur dann zu entfernen, wenn diese Zahlen nicht
übereinstimmen. Das heißt, wie im einzelnen noch beschrieben
wird, wird die Energie einer in das Mikrophon 21 eingegebenen
Sprache mittels der Einheit 224 gemessen, um dadurch die
Stelle eines stimmlosen Intervalls festzustellen, und es wird
eine andere Marke in Abhängigkeit davon verwendet, ob ein
solches stimmloses Intervall innerhalb von 100 ms von dem vor
deren Ende des Musters aufgefunden wird. Ein Bezugsmuster,
indem eine solche Markierung zugeteilt ist, wird aus der
Bibliothek 232 herausgenommen, und es wird geprüft, zu se
hen, ob das eingegebene Muster eine Markierung hat oder
nicht, welche mit der Markierung des Bezugsmusters identisch
ist. Wenn die zwei Markierungen, dieselben sind, dann wird
der Umschalter 231 zu einem Kontakt a umgeschaltet, so daß
die beiden Muster so wie sie sind, in üblicher Weise vergli
chen werden. Wenn dagegen die zwei Markierungen unterschied
lich sind, dann wird der Schalter 231 zu einem Kontakt b um
geschaltet, so daß dieser Teil des Musters, welcher eine
größere Anzahl von Energieminima hat, zwischen dem ersten
oder letzten Minimum und dem Musterende durch die Musterent
fernungseinheit 238 beseitigt, und danach werden die beiden
Muster durch die Anpassungseinheit 239 verglichen. Im Ergeb
nis kann somit ein fehlerhaftes Muster durch Verschieben ei
nes stimmlosen Intervalls entsprechend korrigiert werden, und
es kann eine Musteranpassung mit hoher Genauigkeit durchge
führt werden.
In Fig. 46 ist ein Flußdiagramm eines Mustervergleichsver
fahrens gemäß noch einer weiteren Ausführungsform mit Merkmalen nach der Erfin
dung dargestellt. In Fig. 47 ist schematisch großteils in
Blockform ein Spracherkennungssystem zum Durchführen des
Verfahrens in Fig. 46 dargestellt. Diese Ausführungsform ist
im Aufbau in vieler Hinsicht der vorstehend anhand von Fig. 44
und 45 beschriebenen Ausführungsform ähnlich, so daß die
gleichen Bezugszeichen für die gleichen Elemente verwendet
sind. Die Ausführungsform weist einen Vergleicher 241, eine
Anzahl stimmlose Intervalle erzeugende Einheit 242, einen Um
schalter 243, eine Recheneinheit 244, einen Vergleicher 245,
eine eine zu multiplizierende Konstante setzende Einheit 246
und einen Umschalter 247 auf. In dieser Ausführungsform wird
beim Vergleichen von zwei Mustern zuerst geprüft, ob ein
Energieminimum in der Nähe des vorderen oder hinteren En
des eines Musters vorhanden ist oder nicht. Wenn ein der
artiges Energieminimum nur in einem der Muster vorhanden
ist, wird dieser Teil des Musters, das ein solches Energie
minium hat, zwischen dem Energieminimum und dem vorderen
oder hinteren Ende entfernt, und dann erst werden für eine
Anpassung die beiden Muster verglichen. In diesen Fällen
wird gemäß der Erfindung geprüft, ob ein Eingangssignal eine
Anzahl Energieminima hat oder nicht. Wenn eine Anzahl Ener
gieminima vorhanden ist, wird das Verhältnis zwischen der
Musterlänge und der Position des Energieminimums festge
stellt. Wenn das sich ergebende Verhältnis im Vergleich zu
dem Verhältnis des Bezugsmusters näherliegt und ein Energie
minimum nur in der Nähe eines der Muster existiert, wird
eine Musteranpassung unter der Annahme durchgeführt, daß
beide Muster Energieminima oder keine Energieminima haben.
Hierbei ist angenommen, daß ein Energieminimum einem stimmlosen
Abschnitt einer Sprache entspricht.
Wenn Sprache in das Mikrophon 21 eingegeben wird, wird des
sen Energie durch die Einheit 224 gemessen, und es wird ge
prüft, ob es ein stimmloses Intervall in der Sprache gibt
oder nicht. Wenn dies der Fall ist, wird deren Lage bestimmt.
Wenn ein solches stimmloses Intervall innerhalb von 100 ms von
dem vorderen Ende des Sprachmusters aufgefunden wird, wird
eine Markierung zugeteilt, welche die Möglichkeit anzeigt,
daß eine Rauschkomponente an dem vorderen Ende des Sprach
musters eingegeben worden ist. Gleichzeitig wird die Anzahl
stimmloser Intervalle festgestellt. Wenn zwei oder mehr stimmlose
Intervalle in einem der Muster vorliegen, wird geprüft,
ob der Unterschied zwischen den Positionsverhältnissen der
stimmlosen Intervalle innerhalb 10 Prozent liegt oder nicht.
Wenn sie innerhalb 10% liegen, dann wird der Schalter 244
aus der in Fig. 47b dargestellten Schaltung umgeschaltet, um
die Musterentfernungseinheit 238 zu umgehen und um folglich
einen gewöhnlichen Anpassungsvorgang durchzuführen. Wenn da
gegen die Differenz 10 Prozent oder mehr ist, dann wird der
Schalter 247 in die in Fig. 47b dargestellte Position ge
bracht und es wird ein Muster mit einer größeren Anzahl von
stimmlosen Intervallen der Einheit 238 zugeführt.
Das heißt, gemäß dieser Ausführungsform wird für zwei Mu
ster mit stimmlosen Intervallen, die bei 110 ms und 90 ms auf
gefunden worden sind, eine Musteranpassung zwischen den
beiden Mustern unter der Annahme durchgeführt, daß kein
Geräusch eingebracht ist und keine Information verloren wor
den ist. Hierbei ist das Verhältnis der Position von stimmlosen
Intervallen durch f′/f festgelegt, wobei f eine Muster
länge (in ms) und f′ eine stimmlose Position (in ms) ist.
Wenn die Musterlänge und die Anzahl stimmloser Intervalle
groß ist, kann es zu einer Fehlerzunahme grade durch das
Verhältnis kommen. Unter diesen Umständen wird dann geprüft,
ob ein Eingangssignal eine Anzahl Energieminima hat oder
nicht. Wenn eine Anzahl Energieminima bestehen, wird das Ver
hältnis zwischen der Musterlänge und der Energieminimum-
Position bestimmt, und das sich ergebende Verhältnis wird
mit dem entsprechenden Verhältnis des Bezugsmusters vergli
chen. Wenn die beiden Verhältnisse nahe beieinanderliegen
und die Länge zwischen dem Energieminimum und dem Musterende
jedes der Muster gleich oder kleiner als ein vorherbestimm
ter Wert ist und wenn darüber hinaus ein Energieminimum nur
in der Nähe des Endes eines der Muster vorhanden ist, dann
wird eine Musteranpassung unter der Annahme durchgeführt,
daß beide Muster Energieminima oder keine Energieminima ha
ben.
In Fig. 28 ist ein Flußdiagramm der Ausführungsform zur
Durchführung einer Musteranpassung dargestellt, wobei ein
Verhältnis zwischen der Musterlänge und der Minimumposition
festgelegt wird, wenn eine Anzahl Energieminima vorhanden
ist. In Fig. 49 (49a und 49b) ist schematisch großteils in
Blockform ein Spracherkennungssystem zur Durchführung des
Verfahrens in Fig. 48 dargestellt. In dieser Ausführungsform
wird nach einer Überprüfung der Differenz des Verhältnisses
der Positionen von stimmlosen Intervallen der absolute Ab
stand oder die entsprechende Zeit eines stimmlosen Abschnitts
überprüft, und nur wenn diese Differenz größer als 200 ms
ist, wird zu der Musterentfernungseinheit 238 übergegangen.
Selbstverständlich sind die speziellen Werte, die hier als
10 Prozent und 200 ms angegeben sind, nur Beispiele und es
können auch andere Werte verwendet werden, solange sie die
Nähe in geeigneter Weise festlegen können.
In Fig. 50 ist ein Flußdiagramm einer Schrittfolge eines
Mustervergleichsverfahrens gemäß noch einer weiteren Aus
führungsform mit Merkmalen nach der Erfindung dargestellt. In Fig. 51 (51a oder
51b) ist großteils in Blockform ein Spracherkennungssystem
mit einem Aufbau zum Durchführen des Verfahrens in Fig. 50
dargestellt. Da diese Ausführungsform in vieler Hinsicht
der vorherigen anhand von Fig. 49 beschriebenen Ausführungs
form ähnlich ist, sind gleiche Bezugszeichen für die glei
chen Elemente verwendet. In dieser Ausführungsform wird beim
Vergleichen von zwei Mustern zuerst geprüft, ob ein Energie
minimum in der Nähe des vorderen oder hinteren Endes eines
Musters vorhanden ist oder nicht. Wenn ein Energieminimum
nur in einem der Muster vorhanden ist, wird dieser Teil des
Musters, welcher ein solches Energieminimum hat, zwischen
dem Energieminimum und dem vorderen oder hinteren Ende ent
fernt, und danach werden die beiden Muster zur Anpassung
miteinander verglichen. In diesem Fall wird bei dieser Aus
führungsform geprüft, um zu sehen, ob ein Eingangssignal ein
Energieminimum hat oder nicht. Wenn die Anzahl Energieminima
zwischen dem eingegebenen Muster und dem Bezugsmuster unter
schiedlich ist, wird die Länge zwischen dem Energieminimum,
welches dem Musterende am nächsten ist, und einem stimmlosen
Intervall des Musters, das eine größere Anzahl Energiemi
nima hat, von der Musterlänge des Musters subtrahiert, um
einen Wert zu erhalten, welcher dann mit der Musterlänge des
anderen Mustes verglichen wird. Wenn der auf diese Weise
erhaltene Wert näher bei der Musterlänge des anderen Musters
liegt, dann wird dieser Teil des Musters, das eine größere
Anzahl Energieminima hat, zwischen dem Energieminimum und
dem Musterende entfernt, und dann werden die beiden Muster
für ein Anpassen miteinander verglichen. Das heißt, wenn
ein stimmloses Intervall am vorderen Ende eines eingegebenen
Musters vorhanden ist und es eine Markierung hat, welche
sich von der Markierung eines Bezugsmusters unterscheidet,
dann wird die Länge von dem vorderen Ende bis zu dem stimm
losen Intervall des eingegebenen Musters von der Gesamt
musterlänge Fa des eingegebenen Musters subtrahiert, um die
Länge fb zu bestimmen. Dann wird geprüft, welche der Längen
fa und fb näher bei der Gesamtmusterlänge Fl des Bezugs
musters liegt. Nur wenn die Länge Fb näher bei der Länge Fl
liegt, wird zu der Musterentfernungseinheit 238 übergegan
gen.
Nunmehr wird die Ausbildung eines
Bezugsmusters beschrieben, das insbesondere bei einer
Spracherkennung verwendbar ist. Wie vorstehend beschrieben,
ist es äußerst wichtig, ein Bezugssprachmuster mit einer
sehr hohen Qualität zu erzeugen, um so eine höhere Erken
nungsrate zu erhalten. Als Verfahren zum Erzeugen eines der
artigen Bezugsmusters ist vorgeschlagen worden, dasselbe
Wort eine Anzahl Mal auszusprechen, um eine Anzahl Sprach
muster zu erzeugen, welche dann gemittelt werden, um ein
einziges Bezugsmuster festzulegen. Bei dieser Technik kann
die statistische Information von Sprachschwankungen auch in
dem Bezugsmuster erhalten werden; da jedoch die Aussprache
eine Anzahl mal wiederholt werden muß, um ein einziges Be
zugsmuster zu erzeugen, würde, selbst wenn eine der Ausspra
chen eine schlechte Feststellung eines Sprachintervalls hat,
dies dazu führen, daß das sich ergebende Bezugsintervall in
seiner Qualität verschlechtert ist. Ein in Fig. 59a darge
stelltes Muster hat einen Geräuschanteil, der zu Beginn
einer Sprache (eines Wortes) eingebracht worden ist, während
ein in Fig. 59b dargestelltes Muster ein normales Muster
ist. Wenn ein Durchschnittswert zwischen den beiden Mustern
genommen wird, wird eine Übereinstimmung zwischen den bei
den vorderen Enden und zwischen den beiden hinteren Enden
hergestellt. Im Ergebnis wird dann der Geräuschbestand
teil des Musters in Fig. 59a zu dem vorderen Teil des nor
malen in Fig. 59b dargestellten Musters hinzugefügt. Daher
wird das sich ergebende, gemittelte Muster in der Qualität
schlechter.
Um hiermit fertigzuwerden, ist, wie vorstehend beschrieben,
gemäß der Erfindung ein Verfahren vorgeschlagen, bei welchem
das Vorhandensein oder Fehlen eines Energieminimums inner
halb einer vorherbestimmten Länge von dem vorderen oder hin
teren Ende eines Musters geprüft wird, und wenn ein solches
Energieminimum nur in einem der beiden zu vergleichenden
Muster vorhanden ist, dann wird dieser Teil des Musters, das
ein Energieminimum hat, zwischen dem Musterende und dem
Energieminimum zu dem Muster hinzugefügt, das kein solches
Energieminimum hat. Wenn jedoch gemäß einem derartigen Ver
fahren, wie in Fig. 60 dargestellt ist, ein Durchschnitts
wert zwischen dem Muster mit einem Geräuschanteil N, der in
Fig. 60a dargestellt ist, und dem Muster ohne einen Geräusch
anteil, wie in Fig. 60b dargestellt ist gebildet wird, wird
der Geräuschanteil N am vorderen Ende des Musters der Fig. 60a
zu dem Muster der Fig. 60b hinzugefügt, und dann werden
die beiden Muster, die nunmehr beide den Geräuschanteil ha
ben, gemittelt, wodurch ein in Fig. 60c dargestelltes Mu
ster erzeugt wird. Gemäß diesem Verfahren wird jedoch in dem
Fall, daß ein Energieminimum manchmal erscheint und manchmal
auch nicht erscheint, wenn ein bestimmtes Wort ausgesprochen
wird, wie es beispielsweise in dem Fig. 61a dargestellten
Fall für das japanische Wort "Ido" der Fall ist, das im eng
lischen "Bewegung" bedeutet oder in dem Fall, daß ein Ener
gieminimum in seiner Lage bezüglich der Zeitachse nahe dem
Schwellenwert verschoben wird, der in Fig. 61b dargestellte
Fall wird unnötige Information am vorderen oder hinteren En
de des Musters hinzugefügt, wie in Fig. 61c dargestellt ist,
so daß es einen Fall gibt, bei welchem durch das Anwenden
einer Mittelung ein eher schlechteres Bezugsmuster erzeugt
wird.
Zur Lösung dieser Geschwindigkeit ist ein Verfahren und ein
System geschaffen, um ein Bezugsmuster hoher Qualität zu
erzeugen, welche insbesondere bei einer Spracherkennung
verwendbar sind. Gemäß der Erfindung werden eine Anzahl Mu
ster für einen ganz bestimmten interessierenden Fall er
zeugt, wie beispielsweise für eine Sprache oder ein Wort,
und die Anzahl Muster werden verarbeitet, um ein Bezugs
muster festzulegen. Es wird geprüft, ob es ein Muster ist
oder nicht, welches ein Energieminimum innerhalb einer vor
herbestimmten Länge von dem vorderen oder hinteren Ende des
Musters hat. Wenn es ein Muster ohne ein solches Energie
minimum ist, wird dieser Teil des Musters, das ein Energie
minimum hat, zwischen dem Energieminimum und dem Musterende
zu dem Muster ohne ein derartiges Energieminimum hinzugefügt.
In diesem Fall wird gemäß der Erfindung eine erste vorherbe
stimmte Länge von dem vorderen oder hinteren Ende des Musters
an, das kein Energieminimum innerhalb einer zweiten vorherbe
stimmten Länge von dem vorderen oder hinteren Ende hat, be
züglich der Ähnlichkeit mit dem Teil des Musters verglichen,
das ein Energieminimum zwischen dem vorderen oder hinteren
Ende und dem Energieminimum hat, und es wird auch mit einem
Block verglichen, der eine große Energie nach oder vor dem
Energieminimum aufweist, und das vorstehend erwähnte hin
zufügen eines Musterbestandteils wird nur dann durchgeführt,
wenn die zuerst angeführte Ähnlichkeit kleiner ist als die
an zweiter Stelle angeführte Ähnlichkeit.
In Fig. 52 ist schematisch großteils in Blockform ein Sprach
erkennungssystem gemäß noch einer weiteren Ausführungsform
dargestellt, wobei dieses System sich beson
ders für eine Verwendung in Verbindung mit dem Sprachver
gleichsverfahren eignet. In Fig. 53 (Fig. 53a und 53b) ist
ein Flußdiagramm, anhand welchem die Arbeitsweise des in
Fig. 52 dargestellten Systems erläutert wird, dargestellt.
Das dargestellte System weist ein Mikrophon 301, eine Vor
verarbeitungseinheit 302, eine Merkmal-Extrahiereinheit 303 ,
einen Puffer 304 für das eingegebene Muster, einen Puffer
305 für das Bibliotheksmuster, eine Sprachenergie-Meßein
heit 306, eine ein Sprachintervall feststellende Einheit
307, eine ein stimmloses Intervall am Kopfende überprü
fende Einheit 308, eine ein Sprachintervall am hinteren Ende
überprüfende Einheit 309, eine Blockähnlichkeits-Anpassungs
einheit 310, einen Vergleicher 311, eine Muster-Addierein
heit 312, eine Registrierungs-Anpassnungseinheit 313 und ei
nen Bibliotheksspeicher 314 auf. Bei dieser Ausführung wird
Sprache in das Mikrophon 301 eingegeben, um ein entsprechen
des Sprachsignal zu erzeugen, welches dann durch die Vor
verarbeitungseinheit 301 entsprechend verarbeitet wird; da
nach wird eine Merkmalsgröße der Sprache durch die Einheit
303 extrahiert. Wie vorstehend beschrieben, kann irgendeine
gewünschte Merkmalsgröße oder -Quantität verwendet werden,
wie ein Energiespektrum, LPC-Koeffizienten, ein Cepstrum
oder igendeine andere Merkmalsgröße.
Gleichzeitig wird die Spracheenergie durch die Einheit 306
gemessen, und ein Sprachintervall wird auch durch die Ein
heit 307 festgestellt. Die Prüfeinheit 308 überprüft, um zu
sehen, ob ein stimmloses Intervall in einer vorherbestimmten
Zeitlänge von dem vorderen Ende des Sprachmusters aus vor
handen ist oder nicht; in ähnlicher Weise überprüft die
Prüfeinheit 309, um zu sehen, ob ein stimmloses Intervall in
einem vorherbestimmten Zeitintervall von dem hinteren Ende
des Sprachmusters aus vorhanden ist oder nicht. Für die
erste Aussprache wird das vorstehend beschriebene Verfahren
durchgeführt, so daß das sich ergebende Sprachmuster in dem
Bibliotheksmuster-Speicher 305 gespeichert wird. Bei der
zweiten Aussprache für dasselbe Wort wird das zweite Wort in
ähnlicher Weise verarbeitet, und das sich ergebende Muster
wird in dem Puffer 304 für eingegebene Muster gespeichert.
Dann wird eine Mittelung zwischen dem ersten Muster in dem
Puffer 305 und dem zweiten Muster in dem Puffer 304 durchge
führt, um ein gemitteltes Muster zu erzeugen, welches dann
als Bezugsmuster in dem Bibliotheksspeicher 314 gespeichert
wird. Für das dritte und folgende Aussprechen desselben
Wortes wird die Mittelbildung zwischen dem Bezugsmuster und
dem eingegebenen Muster durchgeführt.
Wenn, wie in Fig. 60a dargestellt, ein Geräuschanteil (z. B.
das Geräusch beim Öffnen und Schließen des Mundes oder der
Lippen oder ein Hintergrundgeräusch) in das Muster an dessen
Kopfende eingebracht worden ist, wird ein Zeichen durch die
das vordere Ende eines stimmlosen Intervalls überprüfende
Einheit für das in Fig. 60a dargestellte Muster gesetzt. Da
bei dem nächsten eingegebenen, in Fig. 60a dargestellten Mu
ster kein Geräuschanteil vorhanden ist, wird der Geräuschan
teil des Mustes der Fig. 60a zu dem vorderen Ende des Mu
sters der Fig. 60b hinzugefügt, um das in Fig. 60c darge
stellte Muster zu erzeugen. Die beiden Muster werden dann
gemittelt, um dadurch ein Bezugsmuster hoher Güte festzulegen.
Jedoch wird, wie in Fig. 61 dargestellt ist, für den Fall,
daß das Muster in Fig. 61a ein stimmloses Intervall inner
halb einer vorherbestimmten Länge von dem vorderen Ende hat
und das Muster in Fig. 61b kein solches stimmloses Intervall
hat, ein fehlerhaftes Bezugsmuster erzeugt, wie in Fig. 61c
dargestellt ist. In diesem Fall hat das Muster in Fig. 61a
keine Rauschkomponente, obwohl ein stimmloses Intervall inner
halb einer vorherbestimmten Länge hat, ähnlich wie im Fall
der Fig. 60a, wobei in diesem Fall der Geräuschanteil N ein
gebracht worden ist.
Zur Lösung dieses Aspekts der Erfindung wird, wie in Fig. 54
dargestellt, für den Fall, daß ein stimmloses Intervall
innerhalb einer vorherbestimmten Länge von dem vorderen Ende
aus in einem der Muster vorhanden ist und kein derartiges
stimmloses Intervall in dem anderen Muster vorhanden ist, die
Ähnlichkeit M0 zwischen den vorderen Enden a und b der je
weiligen Muster und auch die Ähnlichkeit M1 zwischen dem vor
deren Teil b des in Fig. 54b dargestellten Musters, das kein
stimmloses Intervall hat, und dem Block c nach dem stimmlosen
Intervall des in Fig. 54a dargestellten Musters, das ein
stimmloses Intervall hat, bestimmt. Da im Falle der Fig. 54
(54a und 54b) die beiden Muster Silben "i" und "do" ohne
eine Hinzufügung eines Rauschanteils und ohne Informations
verlust aufweisen, ist die Ähnlichkeit M0 größer als die Ähn
lichkeit M1. Wenn in einem solchen Fall die Beziehung gilt,
M0 ist größer als M1, dann wird die Mittelung zwischen den
beiden Mustern ohne Hinzufügen eines Musterbestandteils
durchgeführt. Wenn dagegen ein Geräuschanteil am vorderen
Ende eingebracht worden ist, wie in Fig. 55a dargestellt
ist, oder der hintere Teil der Sprachinformation verloren
gegangen ist, wie in Fig. 55b dargestellt ist, sollte die
Ähnlichkeit M0 zwischen den Teilen a und b kleiner sein als
die Ähnlichkeit M1 zwischen den Teilen b und c. Folglich
wird, solange die Bedingung gilt, M0 ist kleiner als M1, der
Rauschanteil des Musters der Fig. 55a zu dem vorderen Ende
des Mustes der Fig. 55b hinzuaddiert.
In dem in Fig. 56a und 56b dargestellten Fall haben beide
Muster ein stimmloses Intervall innerhalb einer vorherbe
stimmten Länge von dem vorderen Ende aus. In dem Muster der
Fig. 56a ist ein Geräuschanteil an dem vorderen Ende ein
gebracht worden, und die Ähnlichkeit M0 sollte kleiner sein
als die Ähnlichkeit M1. Folglich sollte der Rauschanteil des
Musters der Fig. 56a vor einer Mittelung an dem vorderen
Ende des Musters der Fig. 56b hinzugefügt werden. Folglich
werden gemäß der Erfindung für den Fall, daß jedes der bei
den Muster ein stimmloses Intervall an dem vorderen Ende hat,
wenn die Anzahl stimmloser Intervalle zwischen den beiden Mu
stern verschieden ist, wenn beispielsweise das Muster der
Fig. 56a zwei stimmlose Intervalle hat und das Muster der
Fig. 56b nur ein stimmloses Intervall hat, die zwei Ähnlich
keiten zwischen ausgewählten Teil der beiden Muster berech
net, und es wird bestimmt, ob eine Musteraddition vor einer
Mittelung durchzuführen ist oder nicht, wie vorstehend be
reits beschrieben ist. Und zwar ist dies bezüglich des vor
deren Ende eines Sprachmusters beschrieben; jedoch kann
eine entsprechende Verarbeitung auch für das hintere Ende
eines Musters durchgefüht werden. Wenn wie im Falle der
Durchführung des vorstehend beschriebenen Verfahrens für
das vordere Ende eines der Muster ein stimmloses Intervall
innerhalb einer vorherbestimmten Länge von dem hinteren
Ende hat, ist es äußerst schwierig festzulegen, ob ein Mu
sterbestandteil an dem vorderen oder an dem hinteren Ende
hinzuzufügen ist. Folglich wird in einem solchen Fall vor
zugsweise die Verarbeitung bezüglich des vorderen Endes
nicht durchgeführt, selbst wenn den vorstehend beschriebe
nen Bedingungen genügt ist, da das Verarbeitungsergebnis für
das vordere Ende noch nicht bekanntgeworden ist (Fig. 57);
die vorstehend beschriebene Verarbeitung für das vordere En
de wird durchgeführt, wenn beide Muster ein stimmloses Inter
vall innerhalb einer vorbestimmten Länge ausgehend von
dem hinteren Ende haben (Fig. 58).
In Fig. 62 ist schematisch großteils in
Blockform ein Spracherkennungssystem gemäß noch einer wei
teren Ausführungsform mit Merkmalen nach der Erfindung dargestellt. Die in
Fig. 62 dargestellte Ausführungsform ist in vieler Hinsicht
der Ausführungsform in Fig. 52 ähnlich, so daß gleiche Ele
mente mit den gleichen Bezugszeichen bezeichnet sind. In
Fig. 63 (63a und 63b) ist ein Flußdiagramm dargestellt, das
zur Erläuterung der Arbeitsweise des in Fig. 62 dargestell
ten Systems verwendet wird. Dieses Spracherkennungssystem
weist ein Mikrophon 301, eine Vorverarbeitungseinheit 302,
eine Merkmal-Extrahiereinheit 303, einen Puffer 304 für ein
eingegebenes Muster, einen Puffer 305 für ein Bibliotheks
muster, eine Sprachenergie-Meßeinheit 306, eine ein Sprach
intervall feststellende Einheit 307, eine ein stimmloses In
tervall am vorderen Ende überprüfende Einheit 308, eine ein
stimmloses Intervall am hinteren Ende überprüfende Einheit
309, eine Rahmenlängen-Berechnungseinheit 320, einen Ver
gleicher 311, eine Muster-Addiereinheit 312, eine Registrie
rungs-Anpassungseinheit 313 und einen Bibliotheksspeicher
314 auf.
Die grundsätzliche Arbeitsweise dieser Ausführungsform ist
derjenigen sehr ähnlich, welche unter Bezugnahme auf Fig. 52
vorstehend beschrieben worden ist, weshalb auf diese Be
schreibung Bezug genommen wird. Im Aufbau unterscheidet sich
die in Fig. 62 dargestellte Ausführungsform von der in Fig. 52
dargestellten Ausführungsform dadurch, daß zusätzlich
eine Rahmenlängen-Berechnungseinheit 320 vorgesehen ist.
Wenn bei dieser Ausführungsform, wie in Fig. 64 dargestellt
ist, ein stimmloses Intervall innerhalb einer vorherbestimm
ten Länge ausgehend von dem vorderen Ende in einem der bei
den zu vergleichenden Muster vorhanden ist, wie in Fig. 64a
dargestellt ist, und wenn kein solches stimmloses Intervall
in dem anderen Muster vorhanden ist, wie in Fig. 64b darge
stellt ist, wird der Kopfteil des Musters der Fig. 64a, das
ein stimmloses Intervall hat zu dem vorderen Ende des Musters
der Fig. 54b, das kein stimmloses Intervall hat, nur dann
hinzugefügt, wenn der Absolutwert der Differenz zwischen der
gesamten Rahmenlänge (x + nf) des Musters der Fig. 64b zusam
men mit der Hinzufügung des Kopfteils des Musters 64a und
die Rahmenlänge xf des Musters der Fig. 64a kleiner als der
Absolutwert der Differenz zwischen der ursprünglichen Rah
menlänge nf des Musters der Fig. 64 und der Rahmenlänge
des Musters der Fig. 64a ist. Diese Bedingung kann auf fol
gende Weise ausgedrückt werden:
K1 × Absolutwert von (nf-xf) ist größer als
K2 × Abso lutwert von (x+nf-xf). (1)
K2 × Abso lutwert von (x+nf-xf). (1)
Hierbei sind K1 und K2 Konstante, welche die Differenzgren
zen festlegen und sind vorzugsweise so gesetzt, daß sie der
Bedingung K1/K2 = 1 · 1 genügen.
In Fig. 64 (64a, 64b) ist der Fall dargestellt, daß kein Mu
sterbestandteil hinzugefügt wird, d. h. K1 × Absolutwert von
(xf-nf) ist kleiner als K2 × Absolutwert von (x+nf-xf).
In Fig. 65 (65a, 65b) ist der Fall dargestellt, daß ein
Musterbestandteil hinzugefügt werden sollte, d. h. K1 ×
Absolutwert von (xf-nf) ist größer als K2 × Absolutwert
von (x+nf-xf). Auf diese Weise wird ein Teil des Musters
zu dem anderen Muster nur dann hinzugefügt, wenn die Län
gendifferenz zwischen den beiden Mustern mit einer Hinzu
fügung kleiner ist als ohne eine Hinzufügung. Mit Hilfe
dieser Methode kann jederzeit ein Bezugsmuster hoher Quali
tät erhalten werden.
In dem in Fig. 66 dargestellten Fall haben die beiden Muster
ein stimmloses Intervall innerhalb einer vorherbestimmten
Länge ausgehend von dem vorderen Ende, und die Anzahl der
stimmlosen Intervalle ist bei den beiden Mustern verschieden.
Ganz offensichtlich ist durch die vorstehend beschriebene
Beziehung den beiden in Fig. 66a und 66b dargestellten Mu
stern genügt. Folglich wird gemäß der Erfindung dem Kopfteil
des Musters der Fig. 66a der Kopfteil des Musters der Fig. 66b
hinzugefügt, und dann wird eine Mittelung zwischen den
Mustern hindurchgeführt. Es sollte beachtet werden, daß, ob
wohl es bezüglich des Kopfendes eines Musters beschrieben
worden ist, dies genauso bei dem hinteren Teil eines Musters
anwendbar ist. Außerdem gelten die Argumente, welche bezüg
lich der Fig. 57 und 58 in der vorherigen Ausführungsform
beschrieben worden sind, auch für die vorliegende Ausfüh
rungsform.
Nunmehr wird die Erfindung bezüglich einer vorläufigen Mu
steranpassung beschrieben. Als weiterer Fortschritt auf dem
Gebiet der Spracherkennung ist nunmehr ein Spracherkennungs
system durchführbar, bei dem annähernd 1000 Worte erkannt
werden können. Das Grundschema bei dieser Spracherkennung
ist beinahe immer eine Musteranpassung. Wenn die Anzahl
Worte, welche durch ein Spracherkennungssystem erkannt wer
den können, zunimmt, nimmt die Anzahl an Bezugssprachmustern
zu, welche für eine Anpassung bezüglich eines eingegebenen,
unbekannten Sprachmusters zu registrieren sind, was dann
eine größere Speicherkapazität erfordert. Außerdem wird
die Zeit zum Durchführen einer Musteranpassung länger, da
der Ähnlichkeitsgrad zwischen dem eingegebenen unbekannten
Muster und jedem der Bezugsmuster berechnet werden muß. Um
mit diesem Problem fertigzuwerden, ist vorgeschlagen worden,
ein vorläufiges Auswählschema anzuwenden, welches die Be
zugsmuster auf eine kleinere Anzahl von sogenannten Kandi
daten-Mustern mit bestimmten Merkmalen beschränkt; es wird
dann eine Musteranpassung zwischen dem eingegebenen Muster
und jedem der ausgewählten Kandidaten-Muster durchgeführt,
deren Anzahl geringer ist. Üblicherweise kann die Anzahl
stimmloser Intervalle, die in jedem Muster vorhanden sind,
oder die Dauer eines solchen stimmlosen Intervalls als Merk
mal für eine vorläufige Auswahl benutzt werden.
Jedoch besteht im Falle eines Wortes, wie "Stopp", das in
Fig. 71 dargestellt ist, an sich ein Konsonant am vorderen
oder hinteren Ende des Wortes, so daß es oft der Fall ist,
daß dieser Teil des Wortes nach dem stimmlosen Intervall A2
am hinteren Ende verloren geht und nicht festgestellt wird.
Folglich ändert sich die Durchführung des vorläufigen Aus
wahlschemas in Abhängigkeit davon, ob die Anzahl stimmloser
Intervalle oder die Dauer eines stimmlosen Intervalles rich
tig festgestellt wird oder nicht. Diese Schwierigkeit be
steht nicht nur für ein Wort wie "Stopp", welches einen
unabhängig ausgesprochenen Konsonanten hat, sondern auch für
ein Wort, wie "fifteen", welches einen schwach ausgespro
chenen Laut, wie nämlich /f/ "fifteen" an dem vorderen Ende des
Wortes hat, wie in Fig. 72 dargestellt ist.
Zur Lösung dieser Schwierigkeit kann
eine vorläufige Auswahl von Bezugsmustern genau durchgeführt werden,
selbst wenn ein Sprach- oder Sprechintervall nicht richtig
festgestellt wird. In Fig. 67 ist ein Flußdiagramm einer
vorläufigen Auswählmethode dargestellt, das in einem Sprach
erkennungssystem gemäß noch einer weiteren Ausführungsform
mit Merkmalen nach der Erfindung anwendbar ist. In Fig. 68 ist in Blockform
ein vorläufiges Auswählsystem zur Durchführung des Verfah
rens in Fig. 67 dargestellt. Das System weist ein Mikro
phon 401, eine ein Sprechintervall feststellende Einheit 402,
eine Filterbank 403, einen Hoch/Tief-Frequenzbereich-Ver
gleicher 404, einen Vergleicher 405, einen Zähler 406 und
eine Anpassungseinheit 407 auf. Bei diesem Aufbau wird eine
erste Anzahl Muster auf eine zweite Anzahl beschränkt, wel
che kleiner als die erste Anzahl Muster ist, um die Anzahl
Merkmale, welche die Muster besitzen und/oder die Dauer ei
nes derartigen Merkmals zu vergleichen. Wenn ein solcher
Merkmalteil am vorderen oder hinteren Ende eines Musters
vorhanden ist, wird dieser Merkmalsteil aus dem Muster ent
fernt, und die Anzahl an Merkmalsteilen oder die Dauer eines
solchen Merkmalsteils werden festgelegt, um in dem vorläu
figen Auswahlschema verwendet zu werden. Wie in Fig. 67 dar
gestellt, wird zuerst geprüft, ob der Laut /f/ an dem vorde
ren Ende eines eingegebenen Sprachmusters vorhanden ist oder
nicht; wenn dies der Fall ist, wird dieser Laut /f/ von dem
Kopfende des eingegebenen Musters entfernt. In ähnlicher
Weise wird dann geprüft, ob ein anderer Laut /f/ am hinteren
Ende des eingegebenen Musters vorhanden ist oder nicht; wenn
dies der Fall ist, wird dieser Laut /f/ von dem hinteren
Ende des eingegebenen Musters entfernt. Dann wird die Anzahl
von /f/-Lauten, die in dem restlichen eingegebenen Muster
vorhanden sind, gezählt. Die auf diese Weise gezählte Anzahl
von /f/-Lauten wird zusammen mit einem zugeordneten Bezugs
muster in einer Bibliothek gespeichert. Im Erkennungsmode
wird die Anzahl von /f/-Lauten eines eingegebenen Musters,
welches, wie oben beschrieben, gezählt worden ist, mit der
gespeicherten Anzahl von /f/-Lauten jedes der Bezugsmuster
verglichen, um dadurch vorläufig mögliche Kandidaten-Muster
aus den in einem Speicher gespeicherten Bezugsmusters aus
zuwählen.
Dies wird nunmehr im einzelnen anhand von Fig. 68 beschrie
ben; die Sprache wird in das Mikrophon 401 eingegeben, um
entsprechendes Sprachsignal zu erzeugen, welches dann der
das Sprechintervall feststellenden Einheit 402 zugeführt
wird, in welcher eine Sprachinformation extrahiert wird.
Das Sprachsignal wird dann einer Frequenzanalyse in der Fil
terbank 403 unterzogen. In dieser Ausführungsform folgt auf
die Filterbank 403 in der Flußrichtung eines Sprachsignals
der Detektor 402. Jedoch kann die Reihenfolge der Anordnung
zwischen den beiden Elementen erforderlichenfalls auch
umgedreht werden. Außerdem wird in der dargestellten Ausfüh
rungsform als eine Merkmalsgröße das Ergebnis einer Frequenz
analyse verwendet, d. h. ein Energiespektrum; jedoch kann
auch irgendeine andere gewünschte Größe, wie beispielsweise
LPC-Koeffizienten, verwendet werden. Um in der dargestellten
Ausführungsform den Laut /f/ festzustellen, wird geprüft, ob
der hochfrequente Bestandteil größer als der niederfrequente
Bestandteil ist oder nicht. Bei diesem Verfahren werden
nicht nur der Laut /f/, sondern auch andere Laute wie /s/,
welche eine ähnliche Charakteristik haben festgestellt, je
doch ist dies kein bedeutsames Problem, da alle diese Laute
als eine Einheit behandelt werden können.
Als Alternative hierzu, den Laut /f/ festzustellen, wird ein
Muster eines Lautes, das dem Laut /f/ ähnlich ist, regi
striert, und es kann eine Anpassung zwischen diesem Muster
und einem eingegebenen Muster durchgeführt werden. Der Ver
gleicher 405 legt fest, ob ein Laut, welcher möglicherweise
ein /f/-Laut sein kann, bei der Feststellung eines anstei
genden Endes einer Sprache (eines Wortes) durch die Fühlein
heit 402 festgestellt wird, oder ob ein Laut, der möglicher
weise ein /f/-Laut sein kann, fortwährend am Ende eines
Wortes vorhanden ist und es werden die Länge eines derar
tigen Lautes und die Anzahl derartiger Laute durch den Zäh
ler 406 gezählt. In diesem Fall startet der Zähler 406 beim
Feststellen eines /f/-Lautes und der Zähler 406 stoppt beim
Feststellen eines anderen Lautes als der /f/-Laut.
In Fig. 69 ist ein Flußdiagramm eines vorläufigen Auswähl
verfahrens dargstellt, das insbesondere in Verbindung mit
einer Spracherkennung verwendbar ist und gemäß noch einer
weiteren Ausführungsform mit Merkmalen nach der Erfindung ausgelegt ist. In
Fig. 70 ist schematisch in Blockform ein Auswählsystem zur
Durchführung des Verfahrens in Fig. 69 dargestellt. Wenn in
dieser Ausführungsform ein vorherbestimmter Merkmalsteil
in der Nähe des vorderen oder hinteren Endes eines Musters
vorhanden ist, wird dieser Merkmalsteil aus dem Muster ent
fernt, und die Anzahl an anderen Merkmalsteilen oder die Dau
er eines solchen Merkmalsteils in dem übrigen Teil des Mu
ster wird festgestellt. Mit Hilfe der auf diese Weise er
haltenen Information wird dann eine vorläufige Auswahl durch
geführt, um die Anzahl Bezugsmuster zu begrenzen, welche
für eine Musteranpassung zu verwenden sind. Da die in Fig. 70
dargestellte Ausführungsform in vieler Hinsicht der in
Fig. 68 dargestellten Ausführungsform ähnlich sind, sind die
gleichen Bezugszeichen für die gleichen Elemente verwendet.
Im Falle eines solchen Lautes, wie /f/-Lautes, wird
dieser oft in der Nähe des vorderen oder hinteren Endes ei
nes Wortes aufgefunden; wenn ein Konsonant an sich ausge
sprochen wird, existiert ein stimmloses Intervall vor oder
nach einem solchen Konsonanten. In der vorliegenden Ausfüh
rungsform, wie sie in Fig. 70 dargestellt ist, wird statt
des Hoch/Tieffrequenz-Bereichs-Vergleichers 404 der in Fig. 68
dargestellten Ausführungsform eine Energie feststellende
Einheit 408 vorgesehen, welche dazu verwendet wird, die
Stelle eines stimmlosen Intervalls zu bestimmen. Folglich wird
ein stimmloses Intervall auf der Basis der Größe von Sprach
energie bestimmt. Wenn ein solches stimmloses Intervall in
nerhalb von 0,1 bis 0,2 s von dem vorderen oder hinteren Ende
der Sprache (des Wortes) herausgefunden wird, wird festge
legt, daß das Sprachmuster einen Aufbau hat, wie er in Fig. 71
dargestellt ist. Folglich wird dieser Teil aus dem
Sprachmuster entfernt, und es wird geprüft, wie viele stimmlose
Intervalle in dem restlichen Teil des Sprachmusters
vorhanden sind, oder wie lang das stimmlose Intervall in dem
restlichen Teil des Sprachmusters andauert; dann werden sol
che Daten zusammen mit dem zugeordneten Sprachmuster ge
speichert. In dem Erkennungsmode wird ein eingegebenes Mu
ster in ähnlicher Weise verarbeitet, um die Anzahl an stimmlosen
Intervallen und/oder die Dauer eines stimmlosen Inter
valles festzustellen; diese Daten werden dann verwendet, um
sie mit den gespeicherten Daten von registrierten Bezugs
mustern zu vergleichen, um dadurch die Bezugsmuster zu be
schränken, um so mögliche Kandidaten-Muster auszuwählen.
Jedes dieser Kandidatenmuster wird dann durch eine Musteran
passung vollständig mit dem eingegebenen Muster verglichen,
um so das eine Kandidaten-Muster mit dem höchsten Ähnlich
keitsgrad auszuwählen. Auf diese Weise kann die Identität
des eingegebenen Musters oder der eingegebenen Sprache (Wortes) er
kannt werden.
Bezugszeichenliste
1 Spracheingabe
2 Energie-Messung
3 Merkmalsgrößen-Umsetzung
4 Feststellen einer lautlosen Stelle
5 Liegt lautlose Stelle in 100 ms n. hint. Ende?
6 Markierungsaddition
7 Bibliothek
8 Dieselbe Markierung?
9 Musterentfernung
10 Musteranpassung
11 Liegt lautlose Stelle innerhalb 100 ms vom Kopfende?
21 Mikrophon
22 Filterbank
23 Sprachintervall-Feststellung
24 Merkmalsextraktion
26 Vergleich
27 /f/-Flag
28 Vergleich
29 Register 3
30 Bibliotheksregister
31 Markierungsvergleich
32a Register 1
32b Register 2
33 Ähnlichkeitsgrad
34a Register 4
34b Register 5
35 Ähnlichkeitsgrad
36 Addierer
37 Musterspeicherung
39 Addition von Kopfende-Muster
40 Überlagerungs-Mitteilungsvorgang
42 Addition von dem internen Ende-Muster
45 Register
45a Register
45b Register
46 Register
46a Mittelung
46b Mittelung
47 Zeitzählen
48 Musterregister
49 Flag-Prüfeinheit
50 Muster-Verbindungseinheit
54 Binäre Umsetzung
55 BTSP-Formierung
56 Addierer von Sprachmustern die n-mal durch lineare Expansion oder Kontraktion erzeugt worden sind
57 Bibliothek
58 Scheitelwert-Musterbildung
59 Musterlängenanpassung durch lineare Expansion oder Kontraktion
60 Ähnlichkeitsberechnung
71 Sprachintervall-Festlegung
72 Bandpaßfilter
73 Register
74 Energiemessung
75 Vergleich
76 Schwellenwert
77 Zeitzähler
78 Vergleich
79 Zähler für lautlose Intervalle
80 Markierungsvergleich
81 Umschalter
82 Bibliothek
83 Rahmen-Länge
84 Rahmen-Länge
85 Multipliziereinheit
86 Multiplizierkonstanten-Einstelleinheit
87 Vergleich
88 Umschalter
89 Musterentfernung
90 Anpassung
91 Resultatanzeige
101 Spracheingabe
102 Energiemessung
103 Merkmalsgrößen-Umwandlung
104 Lautlose Positionsfeststellung
105 Liegt lautlose Position innerhalb von 100 ms vom hinteren Ende?
106 Markierungsaddition
107 Bibliothek
108 Dieselbe Markierung?
109 Musterentfernung
110 Musteranpassung
111 Liegt lautlose Position innerhalb von 100 ms vom Kopfende?
124 Energie
125 Vergleich
126 Schwellenwert
127 Zähler für lautlose Intervalle
128 Zeitzähler
129 Vergleich
130 Vergleich
131 Zeit - 100 ms
132 Zeiterzeugungseinheit
133 Markierungsaddition
134 Vergleich
135 Bibliothek
137 Musterentfernung an lautloser Position
138 Anpassung
139 Kandidaten
140 Ergebnis
224 Energiemessung
225 Vergleich
226 Schwellenwert
227 Zeitzähler
228 Vergleich
229 Zähler für lautlose Intervalle
230 Markierungsvergleich
232 Bibliothek
233 Recheneinheit
234 Recheneinheit
235 Recheneinheit
236 Vergleich
237 Umschalter
238 Muster-Entfernung
239 Anpassung
240 Resultatanzeige
241 Vergleich
242 Nummer der lautlosen Abschnitte 2
245 Vergleich
246 Multiplizierkonstanten-Einstelleinheit
247 Schalter
249 Vergleich
253 Vergleich
301 Mikrophon
302 Vorverarbeitung
303 Merkmals-Extraktion
304 Puffer für Eingabemuster
305 Puffer für Bibliotheksmuster
306 Sprachenergie-Feststellung
307 Sprachintervall-Feststellung
308 Lautloses Prüfen am Kopfende
309 Lautloses Prüfen am Wortende
310 Blockähnlichkeit
311 Vergleich
312 Muster-Addition
313 Registrierungs-Anpassung
314 Bibliotheksspeicher
320 Rahmenlängen-Berechnung
401 Mikrophon
402 Sprachintervall-Feststellung
403 Filterbank
404 Vergleich von hoch-/niederfrequentem Bereich
405 Vergleich
406 Zähler
407 Anpassung
408 Energiefeststellung
2 Energie-Messung
3 Merkmalsgrößen-Umsetzung
4 Feststellen einer lautlosen Stelle
5 Liegt lautlose Stelle in 100 ms n. hint. Ende?
6 Markierungsaddition
7 Bibliothek
8 Dieselbe Markierung?
9 Musterentfernung
10 Musteranpassung
11 Liegt lautlose Stelle innerhalb 100 ms vom Kopfende?
21 Mikrophon
22 Filterbank
23 Sprachintervall-Feststellung
24 Merkmalsextraktion
26 Vergleich
27 /f/-Flag
28 Vergleich
29 Register 3
30 Bibliotheksregister
31 Markierungsvergleich
32a Register 1
32b Register 2
33 Ähnlichkeitsgrad
34a Register 4
34b Register 5
35 Ähnlichkeitsgrad
36 Addierer
37 Musterspeicherung
39 Addition von Kopfende-Muster
40 Überlagerungs-Mitteilungsvorgang
42 Addition von dem internen Ende-Muster
45 Register
45a Register
45b Register
46 Register
46a Mittelung
46b Mittelung
47 Zeitzählen
48 Musterregister
49 Flag-Prüfeinheit
50 Muster-Verbindungseinheit
54 Binäre Umsetzung
55 BTSP-Formierung
56 Addierer von Sprachmustern die n-mal durch lineare Expansion oder Kontraktion erzeugt worden sind
57 Bibliothek
58 Scheitelwert-Musterbildung
59 Musterlängenanpassung durch lineare Expansion oder Kontraktion
60 Ähnlichkeitsberechnung
71 Sprachintervall-Festlegung
72 Bandpaßfilter
73 Register
74 Energiemessung
75 Vergleich
76 Schwellenwert
77 Zeitzähler
78 Vergleich
79 Zähler für lautlose Intervalle
80 Markierungsvergleich
81 Umschalter
82 Bibliothek
83 Rahmen-Länge
84 Rahmen-Länge
85 Multipliziereinheit
86 Multiplizierkonstanten-Einstelleinheit
87 Vergleich
88 Umschalter
89 Musterentfernung
90 Anpassung
91 Resultatanzeige
101 Spracheingabe
102 Energiemessung
103 Merkmalsgrößen-Umwandlung
104 Lautlose Positionsfeststellung
105 Liegt lautlose Position innerhalb von 100 ms vom hinteren Ende?
106 Markierungsaddition
107 Bibliothek
108 Dieselbe Markierung?
109 Musterentfernung
110 Musteranpassung
111 Liegt lautlose Position innerhalb von 100 ms vom Kopfende?
124 Energie
125 Vergleich
126 Schwellenwert
127 Zähler für lautlose Intervalle
128 Zeitzähler
129 Vergleich
130 Vergleich
131 Zeit - 100 ms
132 Zeiterzeugungseinheit
133 Markierungsaddition
134 Vergleich
135 Bibliothek
137 Musterentfernung an lautloser Position
138 Anpassung
139 Kandidaten
140 Ergebnis
224 Energiemessung
225 Vergleich
226 Schwellenwert
227 Zeitzähler
228 Vergleich
229 Zähler für lautlose Intervalle
230 Markierungsvergleich
232 Bibliothek
233 Recheneinheit
234 Recheneinheit
235 Recheneinheit
236 Vergleich
237 Umschalter
238 Muster-Entfernung
239 Anpassung
240 Resultatanzeige
241 Vergleich
242 Nummer der lautlosen Abschnitte 2
245 Vergleich
246 Multiplizierkonstanten-Einstelleinheit
247 Schalter
249 Vergleich
253 Vergleich
301 Mikrophon
302 Vorverarbeitung
303 Merkmals-Extraktion
304 Puffer für Eingabemuster
305 Puffer für Bibliotheksmuster
306 Sprachenergie-Feststellung
307 Sprachintervall-Feststellung
308 Lautloses Prüfen am Kopfende
309 Lautloses Prüfen am Wortende
310 Blockähnlichkeit
311 Vergleich
312 Muster-Addition
313 Registrierungs-Anpassung
314 Bibliotheksspeicher
320 Rahmenlängen-Berechnung
401 Mikrophon
402 Sprachintervall-Feststellung
403 Filterbank
404 Vergleich von hoch-/niederfrequentem Bereich
405 Vergleich
406 Zähler
407 Anpassung
408 Energiefeststellung
Claims (21)
1. Verfahren zum Vergleichen eines Eingangs-Sprachmusters
mit einem registrierten Sprachmuster, welches in einer Bibliothek
gespeichert ist, und zum Berechnen des Ähnlichkeitsgrades
zwischen den Mustern, dadurch gekennzeichnet,
daß
gemäß einem ersten Feststellschritt das Vorhandensein oder Fehlen einer unstabilen Komponente in dem Eingangs-Sprachmuster festgestellt wird,
gemäß einem ersten Teilungsschritt das Eingangs-Sprachmuster in eine unstabile Komponente und eine verbleibende stabile Komponente aufgeteilt wird, wenn gemäß dem ersten Feststellschritt festgestellt wurde, daß das Eingangs-Sprachmuster eine unstabile Komponente enthält,
gemäß einem zweiten Feststellschritt das Vorhandensein oder Fehlen einer unstabilen Komponente in dem gespeicherten Sprachmuster festgestellt wird,
gemäß einem zweiten Teilungsschritt das gespeicherte Sprachmuster in eine unstabile Komponente und eine verbleibende stabile Komponente aufgeteilt wird, wenn gemäß dem zweiten Feststellschritt festgestellt wurde, daß das gespeicherte Sprachmuster eine unstabile Komponente enthält,
dann ein Vergleichsschritt durchgeführt wird, um die stabile Komponente des Eingangs-Sprachmusters, die gemäß dem ersten Teilungsschritt erhalten wurde, mit der stabilen Komponente des gespeicherten Sprachmusters, die bei dem zweiten Teilungsschritt erhalten wurde, zu vergleichen, und ein Schritt zur Berechnung des Ähnlichkeitsgrades durchgeführt wird, um den Ähnlichkeitsgrad zwischen dem Eingangs- Sprachmuster und dem gespeicherten Sprachmuster auf der Grundlage des Ergebnisses des Vergleichsschrittes zu berechnen.
gemäß einem ersten Feststellschritt das Vorhandensein oder Fehlen einer unstabilen Komponente in dem Eingangs-Sprachmuster festgestellt wird,
gemäß einem ersten Teilungsschritt das Eingangs-Sprachmuster in eine unstabile Komponente und eine verbleibende stabile Komponente aufgeteilt wird, wenn gemäß dem ersten Feststellschritt festgestellt wurde, daß das Eingangs-Sprachmuster eine unstabile Komponente enthält,
gemäß einem zweiten Feststellschritt das Vorhandensein oder Fehlen einer unstabilen Komponente in dem gespeicherten Sprachmuster festgestellt wird,
gemäß einem zweiten Teilungsschritt das gespeicherte Sprachmuster in eine unstabile Komponente und eine verbleibende stabile Komponente aufgeteilt wird, wenn gemäß dem zweiten Feststellschritt festgestellt wurde, daß das gespeicherte Sprachmuster eine unstabile Komponente enthält,
dann ein Vergleichsschritt durchgeführt wird, um die stabile Komponente des Eingangs-Sprachmusters, die gemäß dem ersten Teilungsschritt erhalten wurde, mit der stabilen Komponente des gespeicherten Sprachmusters, die bei dem zweiten Teilungsschritt erhalten wurde, zu vergleichen, und ein Schritt zur Berechnung des Ähnlichkeitsgrades durchgeführt wird, um den Ähnlichkeitsgrad zwischen dem Eingangs- Sprachmuster und dem gespeicherten Sprachmuster auf der Grundlage des Ergebnisses des Vergleichsschrittes zu berechnen.
2. Verfahren nach Anpruch 1, dadurch gekennzeichnet,
daß dann, wenn die unstabile Komponente
sowohl beim ersten als auch beim zweiten Feststellschritt
festgestellt worden ist, auch
die unstabile Komponente des Eingangs-Sprachmusters, die
beim ersten Teilungschritt erhalten wurde, mit der unstabilen
Komponente des gespeicherten Sprachmusters, die beim
zweiten Teilungsschritt erhalten wurde, verglichen wird.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet,
daß die unstabile Komponente ein
Teil eines Sprachmusters ist, gerechnet vom Anfang desselben
bis zu einem stimmlosen Intervall desselben, sofern das
stimmlose Intervall innerhalb einer vorbestimmten Zeitdauer,
gerechnet vom Anfangsende des Sprachmusters, vorhanden ist.
4. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet,
daß die unstabile Komponente ein
Teil eines Sprachmusters ist, gerechnet von dessen stimmlosen
Intervall bis zu seinem hinteren Ende, sofern das stimmlose
Intervall innerhalb einer vorbestimmten Zeitdauer bis
zum hinteren Ende des Sprachmusters auftritt.
5. Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet,
daß die vorbestimmte Zeitperiode
gleich 100 Millisekunden ist.
6. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet,
daß die unstabile Komponente
einen Teil eines Sprachmusters bildet, der dicht am Anfangsende
des Sprachmusters gelegen ist und der einen Unterschied
hinsichtlich einer hochfrequenten Komponente und einer niederfrequenten
Komponente größer als ein vorbestimmter Wert
aufweist.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet,
daß die Hochfrequenzkomponente zwischen
1 KHz und 6 KHz liegt und die Niederfrequenzkomponente zwischen
200 Hz und 1 KHz liegt.
8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch
gekennzeichnet, daß der erste Feststellschritt
gleichzeitig mit der Erstellung des Eingangs-Sprachmusters
ausgeführt wird.
9. Verfahren nach einem der Ansprüche 1 bis 7, dadurch
gekennzeichnet, daß der erste Feststellschritt
durch Feststellen einer Identifikationsmarke ausgeführt
wird, welche das Vorhandensein oder Fehlen der unstabilen
Komponente anzeigt, die zum Zeitpunkt der Erstellung
des Eingangs-Sprachmusters hinzugefügt wurde.
10. Verfahren nach einem der Ansprüche 1 bis 7, dadurch
gekennzeichnet, daß der zweite Feststellschritt
durch Feststellen einer Identifikationsmarke ausgeführt
wird, welche das Vorhandensein oder Fehlen der unstabilen
Komponente anzeigt, welche zum Zeitpunkt der Erstellung
des Eingangs-Sprachmusters hinzugefügt wurde.
11. Verfahren nach Anspruch 9 oder 10, dadurch gekennzeichnet,
daß die Identifikationsmarke Informationen
enthält, welche anzeigen, ob die unstabile Komponente
nahe dem Anfangsende eines Sprachmusters oder nahe
dem hinteren Ende des Sprachmusters gelegen ist, als auch
Informationen enthält, welche das Vorhandensein oder Fehlen
der unstabilen Komponente anzeigen.
12. Verfahren zur Herstellung eines Bezugs-Sprachmusters,
welches in einer Bibliothek abzuspeichern ist, dadurch
gekennzeichnet, daß
gemäß einem Feststellschritt das Vorhandensein oder Fehlen einer unstabilen Komponente in jedem einer Vielzahl von Sprachmustern festgestellt wird, die durch mehrmaliges Erzeugen des gleichen Wortes erhalten werden,
dann ein Teilungsschritt durchgeführt wird, um das Sprachmuster in eine unstabile Komponente und eine stabile Komponente aufzuteilen, wenn bei dem Feststellschritt festgetellt wurde, daß das Sprachmuster eine unstabile Komponente enthält, und
dann ein Überlagerungsschritt durchgeführt wird, um ein einzelnes Sprachmuster dadurch herzustellen, daß für jede Gruppe von unstabilen Komponenten und stabilen Komponenten, die bei dem Teilungsschritt erhalten wurde, eine Überlagerung durchgeführt wird.
gemäß einem Feststellschritt das Vorhandensein oder Fehlen einer unstabilen Komponente in jedem einer Vielzahl von Sprachmustern festgestellt wird, die durch mehrmaliges Erzeugen des gleichen Wortes erhalten werden,
dann ein Teilungsschritt durchgeführt wird, um das Sprachmuster in eine unstabile Komponente und eine stabile Komponente aufzuteilen, wenn bei dem Feststellschritt festgetellt wurde, daß das Sprachmuster eine unstabile Komponente enthält, und
dann ein Überlagerungsschritt durchgeführt wird, um ein einzelnes Sprachmuster dadurch herzustellen, daß für jede Gruppe von unstabilen Komponenten und stabilen Komponenten, die bei dem Teilungsschritt erhalten wurde, eine Überlagerung durchgeführt wird.
13. Verfahren nach Anspruch 12, dadurch gekennzeichnet,
daß nach dem Teilungsschritt ein Kopierschritt
durchgeführt wird, um eine der unstabilen Komponenten,
die bei dem Teilungsschritt erhalten wurde, in
diejenigen Sprachmuster einzukopieren, die keine unstabilen
Komponenten enthalten, sofern die Vielzahl der Sprachmuster
solche mit unstabilen Komponenten und solche mit
nicht unstabilen Komponenten aufweisen.
14. Verfahren nach Anspruch 12 oder 13, dadurch gekennzeichnet,
daß die unstabile Komponente
einen Teil eines Sprachmusters vom Anfangsende zu einem
stimmlosen Intervall darstellt, sofern der stimmlose Intervall
in einem vorbestimmten Zeitabschnitt, gerechnet
vom Anfangsende des Sprachmusters, vorhanden ist.
5. Verfahren nach Anspruch 12 oder 13, dadurch gekennzeichnet,
daß die unstabile Komponente
einen Teil eines Sprachmusters, gerechnet von seinem
stimmlosen Intervall bis zu seinem hinteren Ende, darstellt,
sofern das stimmlose Intervall innerhalb einer
vorbestimmten Zeit bzw. Zeitabschnitt zum hinteren Ende
des Sprachmusters auftritt.
16. Verfahren nach Anspruch 13 oder 14, dadurch gekennzeichnet,
daß das vorbestimmte Zeitintervall
100 Millisekunden beträgt.
17. Verfahren nach Anspruch 12 oder 13, dadurch gekennzeichnet,
daß die unstabile Komponente
als ein Abschnitt des Sprachmusters definiert ist, der nahe
dem Anfangsende des Sprachmusters gelegen ist und der
einen Unterschied hinsichtlich einer hochfrequenten Komponente
und einer niederfrequenten Komponente aufweist, der
oberhalb eines vorbestimmten Wertes liegt.
18. Verfahren nach Anspruch 17, dadurch gekennzeichnet,
daß die Hochfrequenzkomponente in
einem Frequenzbereich von 1 KHz und 6 KHz liegt und die
niederfrequente Komponente in einem Frequenzbereich zwischen
200 Hz und 1 KHz liegt.
19. Verfahren nach einem der Ansprüche 12 bis 18, dadurch
gekennzeichnet, daß der erste Feststellschritt
gleichzeitig mit der Erstellung des Eingangs-
Sprachmusters durchgeführt wird.
20. Verfahren nach einem der Ansprüche 12 bis 19, dadurch
gekennzeichnet, daß der erste Feststellschritt
dadurch ausgeführt wird, indem eine Identifikationsmarke
festgestellt wird, welche das Vorhandensein oder
das Fehlen einer unstabilen Komponente anzeigt, die zum
Zeitpunkt der Erstellung des Eingangs-Sprachmusters erzeugt
wurde.
21. Verfahren nach Anspruch 20, dadurch gekennzeichnet,
daß die Identifikationsmarke Informationen
enthält, welche anzeigen, ob die unstabile Komponente
nahe dem Anfangsende oder nahe dem hinteren Ende gelegen
ist als auch die Informationen enthält, welche das Vorhandensein
oder das Fehlen der unstabilen Komponente anzeigen.
Applications Claiming Priority (11)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP23690286 | 1986-10-03 | ||
JP23690186 | 1986-10-03 | ||
JP61275655A JP2534240B2 (ja) | 1986-11-19 | 1986-11-19 | パタ―ン比較方法 |
JP61275656A JP2534241B2 (ja) | 1986-11-19 | 1986-11-19 | パタ―ン比較方法 |
JP61278054A JP2534242B2 (ja) | 1986-11-21 | 1986-11-21 | パタ―ン比較方法 |
JP61278053A JP2768938B2 (ja) | 1986-11-21 | 1986-11-21 | パターン比較方法 |
JP61290068A JP2534244B2 (ja) | 1986-12-05 | 1986-12-05 | 標準パタ―ン作成方法 |
JP61290067A JP2534243B2 (ja) | 1986-12-05 | 1986-12-05 | 標準パタ―ン作成方法 |
JP62238336A JP2882791B2 (ja) | 1986-10-03 | 1987-09-21 | パターン比較方式 |
JP62238337A JP2901976B2 (ja) | 1987-09-21 | 1987-09-21 | パターン照合予備選択方式 |
JP62238510A JP2882792B2 (ja) | 1986-10-03 | 1987-09-22 | 標準パターン作成方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3733659A1 DE3733659A1 (de) | 1988-04-21 |
DE3733659C2 true DE3733659C2 (de) | 1993-03-18 |
Family
ID=27582276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19873733659 Granted DE3733659A1 (de) | 1986-10-03 | 1987-10-05 | Verfahren zum vergleichen von mustern |
Country Status (3)
Country | Link |
---|---|
US (1) | US5033089A (de) |
DE (1) | DE3733659A1 (de) |
GB (2) | GB2196460B (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102010041435A1 (de) | 2010-09-27 | 2012-03-29 | Siemens Medical Instruments Pte. Ltd. | Verfahren zum Rekonstruieren eines Sprachsignals und Hörvorrichtung |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4031421C2 (de) * | 1989-10-05 | 1995-08-24 | Ricoh Kk | Musteranpassungssystem für eine Spracherkennungseinrichtung |
JPH07210190A (ja) * | 1993-12-30 | 1995-08-11 | Internatl Business Mach Corp <Ibm> | 音声認識方法及びシステム |
US5657424A (en) * | 1995-10-31 | 1997-08-12 | Dictaphone Corporation | Isolated word recognition using decision tree classifiers and time-indexed feature vectors |
US20030125946A1 (en) * | 2002-01-03 | 2003-07-03 | Wen-Hao Hsu | Method and apparatus for recognizing animal species from an animal voice |
US20030216909A1 (en) * | 2002-05-14 | 2003-11-20 | Davis Wallace K. | Voice activity detection |
DE10232916B4 (de) * | 2002-07-19 | 2008-08-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals |
EP1603116A1 (de) * | 2003-02-19 | 2005-12-07 | Matsushita Electric Industrial Co., Ltd. | Spracherkennungsanordnung und -verfahren |
US8457962B2 (en) * | 2005-08-05 | 2013-06-04 | Lawrence P. Jones | Remote audio surveillance for detection and analysis of wildlife sounds |
US20080256613A1 (en) * | 2007-03-13 | 2008-10-16 | Grover Noel J | Voice print identification portal |
JP5024154B2 (ja) * | 2008-03-27 | 2012-09-12 | 富士通株式会社 | 関連付け装置、関連付け方法及びコンピュータプログラム |
US9020816B2 (en) * | 2008-08-14 | 2015-04-28 | 21Ct, Inc. | Hidden markov model for speech processing with training method |
JP5799586B2 (ja) * | 2011-05-27 | 2015-10-28 | 富士通株式会社 | 生体認証装置、生体認証方法及び生体認証用コンピュータプログラム |
JP5867066B2 (ja) | 2011-12-26 | 2016-02-24 | 富士ゼロックス株式会社 | 音声解析装置 |
JP6031761B2 (ja) | 2011-12-28 | 2016-11-24 | 富士ゼロックス株式会社 | 音声解析装置および音声解析システム |
US10709388B2 (en) * | 2015-05-08 | 2020-07-14 | Staton Techiya, Llc | Biometric, physiological or environmental monitoring using a closed chamber |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3418429A (en) * | 1965-10-13 | 1968-12-24 | Ibm | Speech analysis system |
GB1157732A (en) * | 1967-06-30 | 1969-07-09 | Standard Telephones Cables Ltd | Improvements in apparatus for Recognising Speech |
GB1435779A (en) * | 1972-09-21 | 1976-05-12 | Threshold Tech | Word recognition |
US4092493A (en) * | 1976-11-30 | 1978-05-30 | Bell Telephone Laboratories, Incorporated | Speech recognition system |
USRE32172E (en) * | 1980-12-19 | 1986-06-03 | At&T Bell Laboratories | Endpoint detector |
GB2137791B (en) * | 1982-11-19 | 1986-02-26 | Secr Defence | Noise compensating spectral distance processor |
JPS59139099A (ja) * | 1983-01-31 | 1984-08-09 | 株式会社東芝 | 音声区間検出装置 |
JPS6024597A (ja) * | 1983-07-21 | 1985-02-07 | 日本電気株式会社 | 音声登録方式 |
US4720802A (en) * | 1983-07-26 | 1988-01-19 | Lear Siegler | Noise compensation arrangement |
US4821325A (en) * | 1984-11-08 | 1989-04-11 | American Telephone And Telegraph Company, At&T Bell Laboratories | Endpoint detector |
US4833713A (en) * | 1985-09-06 | 1989-05-23 | Ricoh Company, Ltd. | Voice recognition system |
US4827519A (en) * | 1985-09-19 | 1989-05-02 | Ricoh Company, Ltd. | Voice recognition system using voice power patterns |
US4802224A (en) * | 1985-09-26 | 1989-01-31 | Nippon Telegraph And Telephone Corporation | Reference speech pattern generating method |
US4751737A (en) * | 1985-11-06 | 1988-06-14 | Motorola Inc. | Template generation method in a speech recognition system |
GB8608288D0 (en) * | 1986-04-04 | 1986-05-08 | Pa Consulting Services | Noise compensation in speech recognition |
-
1987
- 1987-10-05 DE DE19873733659 patent/DE3733659A1/de active Granted
- 1987-10-05 GB GB8723297A patent/GB2196460B/en not_active Expired
-
1990
- 1990-01-05 US US07/464,638 patent/US5033089A/en not_active Expired - Lifetime
- 1990-08-13 GB GB9017697A patent/GB2233137B/en not_active Expired
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102010041435A1 (de) | 2010-09-27 | 2012-03-29 | Siemens Medical Instruments Pte. Ltd. | Verfahren zum Rekonstruieren eines Sprachsignals und Hörvorrichtung |
Also Published As
Publication number | Publication date |
---|---|
GB2233137A (en) | 1991-01-02 |
GB2233137B (en) | 1991-06-05 |
GB2196460B (en) | 1991-05-15 |
US5033089A (en) | 1991-07-16 |
DE3733659A1 (de) | 1988-04-21 |
GB2196460A (en) | 1988-04-27 |
GB9017697D0 (en) | 1990-09-26 |
GB8723297D0 (en) | 1987-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3733659C2 (de) | ||
DE69615832T2 (de) | Sprachsynthese mit wellenformen | |
DE69433254T2 (de) | Verfahren und Vorrichtung zur Sprachdetektion | |
DE69719270T2 (de) | Sprachsynthese unter Verwendung von Hilfsinformationen | |
DE2626793C3 (de) | Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals | |
EP0076234B1 (de) | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung | |
DE3783154T2 (de) | Spracherkennungssystem. | |
DE69938374T2 (de) | Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle | |
DE3878541T2 (de) | Verfahren und einrichtung, um ein markov-modell-referenzmuster von woertern zu erzeugen. | |
DE68924134T2 (de) | Spracherkennungssystem. | |
DE3236834A1 (de) | Verfahren und geraet zur sprachanalyse | |
DE3236832A1 (de) | Verfahren und geraet zur sprachanalyse | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
DE69216648T2 (de) | Spracherkennungsgerät zur Berechnung einer korrigierten Ähnlichkeit die kaum abhängig ist von Umständen der Erzeugung von Eingangsmustern | |
EP0076233A1 (de) | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE60018696T2 (de) | Robuste sprachverarbeitung von verrauschten sprachmodellen | |
DE4031421C2 (de) | Musteranpassungssystem für eine Spracherkennungseinrichtung | |
DE4010028C2 (de) | Spracherkennungsverfahren | |
DE68914032T2 (de) | Spracherkennungssystem. | |
DE69516455T2 (de) | Verfahren zur Sprachkodierung mittels linearer Prädiktion | |
DE19920501A1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter Sprachsynthese | |
DE69824613T2 (de) | Ein system und verfahren zur prosodyanpassung | |
DE60110541T2 (de) | Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz | |
DE602004011292T2 (de) | Vorrichtung zur Sprachdetektion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |