[go: up one dir, main page]

DE3733659C2 - - Google Patents

Info

Publication number
DE3733659C2
DE3733659C2 DE3733659A DE3733659A DE3733659C2 DE 3733659 C2 DE3733659 C2 DE 3733659C2 DE 3733659 A DE3733659 A DE 3733659A DE 3733659 A DE3733659 A DE 3733659A DE 3733659 C2 DE3733659 C2 DE 3733659C2
Authority
DE
Germany
Prior art keywords
pattern
speech pattern
speech
patterns
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE3733659A
Other languages
English (en)
Other versions
DE3733659A1 (de
Inventor
Seigou Yokosuka Kanagawa Jp Yasuda
Junichiroh Yokohama Kanagawa Jp Fujimoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP61275655A external-priority patent/JP2534240B2/ja
Priority claimed from JP61275656A external-priority patent/JP2534241B2/ja
Priority claimed from JP61278053A external-priority patent/JP2768938B2/ja
Priority claimed from JP61278054A external-priority patent/JP2534242B2/ja
Priority claimed from JP61290067A external-priority patent/JP2534243B2/ja
Priority claimed from JP61290068A external-priority patent/JP2534244B2/ja
Priority claimed from JP62238336A external-priority patent/JP2882791B2/ja
Priority claimed from JP62238337A external-priority patent/JP2901976B2/ja
Priority claimed from JP62238510A external-priority patent/JP2882792B2/ja
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of DE3733659A1 publication Critical patent/DE3733659A1/de
Publication of DE3733659C2 publication Critical patent/DE3733659C2/de
Application granted granted Critical
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Toys (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Image Analysis (AREA)

Description

Die Erfindung betrifft ein Verfahren zum Vergleichen eines Eingangs-Sprachmusters mit einem registrierten Sprachmuster, welches in einer Bibliothek gespeichert ist, und zum Berechnen des Ähnlichkeitsgrades zwischen den Mustern. Ferner betrifft die Erfindung auch ein Verfahren zur Herstellung eines Bezugs-Sprachmusters, welches in einer Bibliothek abzuspeichern ist.
Aus der DE 27 53 277 A1 ist ein Verfahren zur Sprachmuster- und/oder Stimmenmusteridentifizierung bekannt. Bei diesem bekannten Verfahren werden mehrere Bezugssprachmuster oder Bezugsstimmenmuster abgespeichert, beispielsweise in Form einer Speicherbibliothek, und es wird ein unbekanntes Sprachmuster oder Stimmenmuster mit den Bezugs-Sprachmustern oder Bezugs-Stimmenmustern aus der Speicherbibliothek verglichen, um anhand einer ermittelten höchsten Ähnlichkeit das unbekannte Sprachmuster oder Stimmenmuster zu identifizieren. Ferner wird bei diesem bekannten Verfahren zumindest das unbekannte Sprachmuster oder Stimmenmuster in vorbestimmte Musterabschnitte (Sprachrahmen) aufgeteilt, die dann für die Durchführung eines Bezugsmustervergleichs verwendet werden. Bei diesem bekannten Verfahren wird ferner von einem einzelnen eingegebenen Sprachmuster oder Stimmenmuster ein Bezugs-Sprachmuster oder Bezugs-Stimmenmuster gebildet, d. h. es wird dabei nicht untersucht, ob eventuell bei mehrfacher Aussprache ein und desselben Wortes oder der Aussprache ein und derselben Stimmenfolge ein spezifisches stimmloses Zwischenintervall auftritt oder nicht.
Aus der DE-OS 23 47 738 ist ein Spracherkennungsverfahren und Vorrichtung zur Durchführung dieses Verfahrens bekannt, wonach gesprochene Eingabe-Übungswörter erzeugt und anschließend ein gesprochenes Eingabe-Befehlswort erzeugt wird, um eine Korrelationsfunktion auszuführen, gemäß welcher die Ähnlichkeit zwischen dem Befehlswort und jedem Übungswort angezeigt werden kann. Dabei wird ein Merkmalsauszug von empfangenen Eingabewörtern erzeugt und es werden digitale Merkmalsauszüge gebildet. Die betreffenden Merkmalssignale werden gespeichert, welche während eines Übungswortes auftreten, und zwar in Form einer zeitabhängigen Matrix. Ferner werden auch die Merkmalssignale gespeichert, welche von dem Befehlswort gewonnen wurden und werden ebenfalls als zeitabhängige Matrix gespeichert. Schließlich wird ein gliedweiser Vergleich zwischen der Befehlswortmatrix mit jeder Übungswortmatrix durchgeführt, um eine Korrelationsziffer zu gewinnen, welche das Ergebnis jedes Vergleichs anzeigt.
Bei einem der am meisten üblichen Muster-Vergleichsverfahren wird eine Musteranpassung benutzt. Bei diesem Musteranpassungsverfahren wird der Ähnlichkeitsgrad zwischen einem eingegebenen unbekannten Muster und jedem einer Anzahl von registrierten, bekannten Bezugsmustern festgestellt; dann wird das eingegebene Muster durch eines der Bezugsmuster identifiziert, das den höchsten Ähnlichkeitsgrad hat. Wenn dieses Verfahren in der Praxis angewendet wird, ergibt sich eine Schwierigkeit aufgrund des Umgebungsrauschens, das sich mit einem eingegebenen Muster vermischt. Wenn beispielsweise im Fall von Anwendungen zur Spracherkennung ein sporadisch auftretendes Rauschen im Hintergrund während des Erkennungsprozesses erzeugt wird, oder wenn das Geräusch beim Öffnen und Schließen in eine Sprache während des Aussprechens eingebracht worden ist, wird eine eingegebene Sprache mit Bezugsmustern verglichen, bei welchen Rauschen vorhanden ist, so daß eine richtige Ähnlichkeit nicht festgestellt werden kann. Wenn, wie oben beschrieben, die Sprache sehr empfindlich bezüglich Rauschen ist, ergibt sich durch das Rauschen ein zusätzliches Problem in einer eingegebenen Sprache; wenn andererseits die Empfindlichkeit bezüglich Rauschen zu gering ist, ist es richtig, daß die Chance, Rauschen aufzunehmen, geringer wird; es ergibt sich jedoch eine weitere Schwierigkeit beim Abtasten eines Teils einer Sprache/Stimme beispielsweise im Falle eines Wortes "Stopp", bei welchem das Wortende ein Konsonant ist, welcher für sich ausgesprochen wird, es oft der Fall ist, daß der letzte Laut /p/ nicht festzustellen ist.
In Fig. 7a und 7b ist der Fall dargestellt, daß der Wortklang für "Stopp" durch Musteranpassung zu erkennen ist. In Fig. 7a ist ein Bezugsmuster und in Fig. 7b ist ein zu identifizierendes eingegebenes Muster dargestellt. Das Bezugsmuster der Fig. 7a hat ein genaues Muster, welches das Wort "Stopp" in seiner Gänze darstellt; jedoch fehlt bei dem eingegebenen Muster der Fig. 7a der letzte Laut /p/. Im Ergebnis wird, wenn diese beiden Muster durch Musteranpassung verglichen werden, das Musterende /p/ des Bezugsmusters von Fig. 7a entsprechend ausgebildet, um dem Musterende /o/ des eingegebenen Musters der Fig. 7b zu entsprechen. Aus diesem Grund wird der Ähnlichkeitsgrad zwischen diesen beiden Mustern geringer, was zu einem fehlerhaften Erkennungsergebnis führt. Eine solche fehlerhafte Übereinstimmung kann durch Verwenden des dynamischen Anpassungsschemas mit einem freien Endpunkt verhindert werden; jedoch gibt es auch Fälle, in welchen ein Teil eines Musters an seinem vorderen oder hinteren Ende verlorengeht oder ein Geräusch hinzugefügt wird, was notwendigerweise die Anzahl Berechnungen erhöhen würde, wobei dieses Verfahren an sich schon eine große Anzahl von Berechnungen erfordert.
Wie oben beschrieben, wird bei dem Musteranpassungsverfahren der Ähnlichkeitsgrad festgestellt, indem ein eingegebenes, unbekanntes Muster mit jeweils einer Anzahl Bezugsmuster verglichen wird, welche in irgendeiner Weise vorher ausgebildet worden sind; dann wird die Identität des eingegebenen Musters mit einem Bezugsmuster festgestellt, welches den höchsten Ähnlichkeitsgrad hat. Folglich ist es äußerst wichtig bei dem Musteranpassungsverfahren, wie genau ein Muster extrahiert werden kann, und diese Wichtigkeit ist nicht nur auf die Anwendung bei Spracherkennung beschränkt. Um zu verhindern, daß Umgebungsrauschen eingebracht wird, wenn eine Sprache/Stimme extrahiert wird oder wenn ein Sprachintervall festzulegen ist, muß daher insbesondere ein Schwellenwertpegel richtig festgelegt werden, um so ein geringes Geräusch nicht aufzunehmen.
Ein übliches Verfahren, um ein Sprachintervall festzustellen ist in Fig. 8 dargestellt, in welcher der Energiepegel einer Sprache verwendet wird, um die Sprache von dem Hintergrundrauschen zu trennen. Bei diesem Verfahren ist ein Sprachenergie-Schwellenwertpegel A zum Beschneiden von Geräuschen vor dem Eingeben einer Sprache festgelegt worden, und ein Sprechintervall L ist als ein Zeitabschnitt von einem Zeitpunkt t₁ an, wenn der Sprachenergiepegel den Schwellenwertpegel A überschritten hat, bis zu einem Zeitpunkt t₂ festgelegt, wenn der Sprachenergiepegel unter den Schwellenwertpegel A abgenommen hat. Dies ist der Grundgedanke beim Ermitteln eines Sprachintervalls; jedoch sind schon verschiedene Verbesserungen gemacht worden, um eine Sprache/Stimme, die von Interesse ist, von Geräuschen zu trennen. Außerdem ist es als eine Merkmalsquantität nicht notwendig, irgendein ganz bestimmtes zu verwenden; vielmehr kann irgendein gewünschtes Merkmal verwendet werden, das besonders typisch ist, wie beispielsweise ein Energiespektrum, ein LPC oder ähnliches Spektrum. Wenn beispielsweise der Fall eines Energiespektrums genommen wird, kann dies durchgeführt werden, indem eine eingegebene Sprache/Stimme an eine Bandpaß-Filterbank angelegt wird, und das Analyseverfahren frei geändert wird, um das charakteristische Merkmal der Bandpaß-Filterbank zu selektieren. Eine Sprechintervall feststellende Einheit und eine die Merkmalsquantität umsetzende Einheit können in irgendeiner Reihenfolge bezüglich des Flusses eines Sprachsignals angeordnet sein, das von einer Spracheingabeeinheit geliefert worden ist. Wenn in einem solchen Fall ein geräuschvoller Konsonant mit geringer Energie, wie beispielsweise der Laut /f/ am Anfang oder Ende eines Ausdruckes vorhanden ist, ist dies sehr schwierig aufzunehmen. In Fig. 9a ist ein Bezugsmuster für die /Familie/ und in Fig. 9b ist ein Eingabemuster für denselben Wortklang (word voice) dargestellt. Wie dargestellt, ist es oft der Fall, daß der Laut verlorengeht. Aus diesem Grund kann keine richtige Anpassung durchgeführt werden, aus welcher sich ein niedrigerer Ähnlichkeitsgrad ergeben würde, der somit zu einer fehlerhaften Erkennung führen würde
Die der Erfindung zugrundeliegende Aufgabe besteht darin, ein Verfahren zur Durchführung eines Sprachmustervergleichs zu schaffen, welches auch zur Herstellung von Bezugs- Sprachmustern verwendet werden kann und welches eine verbesserte bzw. wesentlich erhöhte Sicherheit bei der Sprachmuster- Identifizierung bietet.
Gemäß einem ersten Lösungsvorschlag wird diese Aufgabe erfindungsgemäß durch die im Patentanspruch 1 aufgeführten Merkmale gelöst.
Ein zweckmäßiges Verfahren zur Erstellung von Bezugssprachmustern ergibt sich aus dem Patentanspruch 12.
Besonders vorteilhafte Ausgestaltungen und Weiterbildungen des erfindungsgemäßen Verfahrens ergeben sich aus den Unteransprüchen.
Im folgenden wird die Erfindung anhand von Ausführungsbeispielen unter Hinweis auf die Zeichnung näher erläutert. Es zeigen
Fig. 1 eine schematische, größtenteils in Blockform wie­ dergegebene Darstellung eines Spracherken­ nungssystems gemäß einer Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 2a bis 2c Darstellungen, welche zur Erläuterung der Ar­ beitsweise des in Fig. 1 dargestellten Systems dienen;
Fig. 3 eine schematische Darstellung eines Spracher­ kennungssystems, das bezüglich des Systems in Fig. 1 modifiziert ist;
Fig. 4a bis 4c Darstellungen zur Erläuterung der Arbeitswei­ se des in Fig. 3 wiedergegebenen Systems;
Fig. 5 und 6 in Blockform alternative Spracherkennungssy­ steme gemäß weiterer Ausführungsformen mit Merkmalen nach der Erfindung;
Fig. 7a, 7b, 8, 9a und 9b Darstellungen zum Erläutern der Schwierigkeiten, die durch die Erfindung zu lösen sind, wenn sie zur Spracherkennung ver­ wendet wird;
Fig. 10 eine schematische, größenteils in Blockform wieder­ gegebene Darstellung eines Spracherkennungs­ systems gemäß noch einer weiteren Ausführungs­ form mit Merkmalen nach der Erfindung;
Fig. 11a bis 11c Darstellungen zur Erläuterung der Arbeits­ weise des in Fig. 10 dargestellten Systems;
Fig. 12a und 12b Darstellungen zur Erläuterung der Vorteile einer weiteren Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 13 eine schematische, meist in Blockform wieder­ gegebene Darstellung eines Spracherkenungs­ systems gemäß einer Ausführungsform, mit wel­ cher das in Fig. 12a und 12b dargestellte Sche­ ma durchgeführt wird;
Fig. 14 eine schematische, größtenteils in Blockform wieder­ gegebene Darstellung eines Spracherkennungs­ systems gemäß noch einer weiteren Ausführungs­ form mit Merkmalen nach der Erfindung;
Fig. 15a, 15b und 16 Darstellungen zur Erläuterung der Ar­ beitsweise des in Fig. 14 wiedergegebenen Sy­ stems;
Fig. 17 ein Flußdiagramm eines Bezugsmuster-Bildungs­ verfahrens gemäß noch einer weiteren Ausfüh­ rungsform mit Merkmalen nach der Erfindung;
Fig. 18 eine schematische, größtenteils in Blockform wieder­ gegebene Darstellung eines Bezugsmuster-Bil­ dungssystems zur Durchführung des in Fig. 17 dargestellten Verfahrens;
Fig. 19 eine schematische, größenteils in Blockform wieder­ gegebene Darstellung eines alternativen Be­ zugsmuster-Bildungssystems mit Merkmalen nach der Erfin­ dung;
Fig. 20a, 20b, 21 und 22 Darstellungen zur Erläuterung der Probleme, welche hinsichtlich eines anderen Aspektes der Erfindung zu lösen sind;
Fig. 23 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens gemäß noch einer weiteren Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 24 eine Darstellung, wie Fig. 24a und 24b zu­ sammenzusetzen sind;
Fig. 24a und 24b, wenn sie so wie in 24 dargestellt, zu­ sammengesetzt sind, eine schematische, größenteils in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zur Durchführung des in Fig. 23 wiedergegebenen Verfahrens;
Fig. 25 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens, welches eine Abwandlung des Verfahrens in Fig. 23 ist;
Fig. 26 eine Darstellung, wie Fig. 26a und 26b zusam­ menzusetzen sind;
Fig. 26a und 26b, wenn sie so wie in Fig. 26 dargestellt, zu­ sammengsetzt sind, eine schematische, größtenteils in Blockform wiedergegebene Darstellung ein Spracherkennungssystems zum Durchführen des Verfahrens in Fig. 25;
Fig. 27a und 27b Darstellungen von Sprachmustern zum Erläu­ tern der Vorteile eines Gesichtspunkts der Erfindung;
Fig. 28a und 28b Darstellungen zum Erläutern der Schwierig­ keiten, welche gemäß einem Aspekt der Erfin­ dung zu lösen sind;
Fig. 29 eine schematische, größtenteils in Blockform wieder­ gegebene Darstellung eines Sprachmuster-Ver­ arbeitungssystems;
Fig. 30a bis 30c Darstellungen zum Erläutern der Arbeitsweise des Systems in Fig. 29;
Fig. 31 eine schematische, größtenteils in Blockform wieder­ gegebene Darstellung eines weiteren Sprachmu­ sterverarbeitungssystems;
Fig. 32a bis 32c Darstellungen zum Erläutern der Arbeitsweise des Systems in Fig. 31;
Fig. 33 eine Darstellung, wie Fig. 33a und 33b zusam­ menzusetzen sind;
Fig. 33a und 33b, wenn sie so wie in Fig. 33 dargestellt, zu­ sammengesetzt sind, eine schematische, größtenteils in Blockform wiedergegebene Darstellung eines Spracherkennungssystems gemäß noch einer wei­ teren Ausführung mit Merkmalen nach der Erfindung;
Fig. 34 eine Darstellung, wie Fig. 34a und 34b zusam­ menzusetzen sind;
Fig. 34a und 34b, wenn sie so wie in Fig. 34 dargestellt, zu­ sammengesetzt sind, ein Flußdiagramm zu Er­ läutern der Arbeitsweise des Systems in Fig. 33;
Fig. 35 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens gemäß noch einer weiteren Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 36 eine Darstellung, wie Fig. 36a und 36b zusam­ menzusetzen sind;
Fig. 36a und 36b wenn sie so, wie in Fig. 36 dargestellt, zu­ sammengesetzt sind, eine schematische, größtenteils in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zum Durchführen des Verfahrens in Fig. 35;
Fig. 37 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens gemäß noch einer weiteren Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 38 eine Darstellung, wie Fig. 38a und 38b zusam­ menzusetzen sind;
Fig. 38a und 38b wenn sie, wie in Fig. 38 dargestellt, zusam­ mengesetzt sind, eine schematische, größtenteils in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zum Durchführen des Verfahrens in Fig. 37;
Fig. 39 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens gemäß noch einer weiteren Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 40 eine Darstellung, wie Fig. 40a und 40b zusam­ menzusetzen sind;
Fig. 40a und 40b, wenn sie, wie in Fig. 40 dargestellt, zusam­ mengesetzt sind, eine schematische, größtenteils in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zum Durchführen des in Fig. 39 dargestellten Verfahrens;
Fig. 41a, 41b, 42a und 42b Darstellungen zum Erläutern der Vorteile eines weiteren Aspektes der Erfin­ dung;
Fig. 43a und 43b Darstellungen zum Erläutern der Schwierig­ keiten, welche gemäß einem weiteren Aspekt der Erfindung zu lösen sind;
Fig. 44 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens gemäß noch einer weiteren Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 45 eine Darstellung, wie Fig. 45a und 45b zusam­ menzusetzen sind;
Fig. 45a und 45b wenn sie, wie in Fig. 45 dargestellt, zusam­ mengesetzt sind, eine schematische, größtenteils in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zum Durchführen des in Fig. 44 dargestellten Verfahrens;
Fig. 46 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens gemäß noch einer weiteren Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 47 eine Darstellung, wie Fig. 47a und 47b zusam­ menzusetzen sind;
Fig. 47a und 47b wenn sie, wie in Fig. 47 dargestellt, zusam­ mengesetzt sind, eine schematische, größtenteils in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zum Durchführen des in Fig. 46 dargestellten Verfahrens;
Fig. 48 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens gemäß noch einer weiteren Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 49 eine Darstellung, wie Fig. 49a und 49b zusam­ menzusetzen sind;
Fig. 49a und 49b wenn sie, wie in Fig. 49 dargestellt, zusam­ mengesetzt sind, eine schematische, großteils in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zum Durchführen des in Fig. 48 dargestellten Verfahrens;
Fig. 50 ein Flußdiagramm einer Folge von Schritten eines Mustervergleichsverfahrens gemäß noch einer weiteren Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 51 eine Darstellung, wie Fig. 51a und 51b zusam­ menzusetzen sind;
Fig. 51a und 51b wenn sie, wie in Fig. 51 dargestellt, zusam­ mengesetzt sind, eine schematisch, großteils in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zum Durchführen des in Fig. 50 dargestellten Verfahrens;
Fig. 52 ein Spracherkennungssystem gemäß noch einer weiteren Ausführungsform mit Merkmalen nach der Erfindung,
Fig. 53a und 53b ein Flußdiagramm zum Erläutern der Arbeits­ weise des in Fig. 52 dargestellten Systems;
Fig. 54a, 54b, 55a, 55b, 56a bis 56c, 57a, 57b, 58a bis 58b Darstellungen anhand welcher die Vorteile noch eines weiteren Aspektes der Erfindung erläutert weden, welche nach den in Fig. 52 und 53 dargestellten Ausführungsformen durch­ geführt worden ist;
Fig. 59a, 59b, 60a bis 60c und 61a bis 61c Darstellungen, an­ hand welcher die Schwierigkeiten erläutert werden, die gemäß noch einem weiteren Aspekt der Erfindung zu lösen sind;
Fig. 62 eine schematische, großteils in Blockform wiedergegebene Darstellung eines Spracherken­ nungssystems gemäß noch einer weiteren Aus­ führungsform mit Merkmalen nach der Erfindung;
Fig. 63a und 63b ein Flußdiagramm, anhand welchem die Arbeits­ weise des in Fig. 62 dargestellten Systems er­ läutert wird;
Fig. 64a, 64b, 65a, 65b, 66a, 66b Darstellungen, anhand wel­ cher die Vorteile noch einer weiteren Ausfüh­ rungsform erläutert werden;
Fig. 67 ein Flußdiagramm einer Folge von Schritten eines Spracherkennungsverfahrens gemäß noch einer weiteren Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 68 eine schematische, in Blockform wiedergegebe­ ne Darstellung eines Spracherkennungssystems zum Durchführen des in Fig. 67 dargestellten Verfahrens;
Fig. 69 ein Flußdiagramm einer Folge von Schritten eines Spracherkennungsverfahres gemäß noch einer weiteren Ausführungsform mit Merkmalen nach der Erfindung;
Fig. 70 eine schematische in Blockform wiedergegebene Darstellung eines Spracherkennungssystems zum Durchführen des in Fig. 69 dargestellten Ver­ fahrens, und
Fig. 71 und 72 Darstellungen, anhand welcher die Arbeitswei­ se der in Fig. 69 und 70 dargestellten Ausfüh­ rungsformen erläutert wird.
Gemäß dem Patentanspruch 1 ist ein Mustervergleichsver­ fahren geschaffen, um ein erstes Sprachmuster mit einem zwei­ ten Sprachmuster zu vergleichen, welches im Voraus regi­ striert worden ist. Beim ersten Schritt wird geprüft, ob eines der ersten und zweiten Sprachmuster einen instabilen Bestandteil (Komponente) zum Ausbilden einer Sprache hat oder nicht. Wenn ein solcher instabiler Bestandteil zumindest in einer der beiden Sprachmuster vorhanden ist, wird jedes der beiden Sprachmuster in den instabilen und einen stabilen Bestand­ teil (Komponente) aufgeteilt. Es wird dann nur ein Vergleich zwischen den beiden Sprachmustern zwischen den jeweils stabilen Bestandtei­ len durchgeführt. Oder andererseits, wenn ein solcher insta­ biler Bestandteil in beiden Sprachmustern vorhanden ist, wird jedes der beiden Sprachmuster in einen instabilen und einen stabilen Bestandteil aufgeteilt. Es wird dann ein Ver­ gleich zwischen den beiden Sprachmustern zwischen den je­ weils instabilen Bestandteilen und zwischen den jeweils sta­ bilen Bestandteilen durchgeführt.
In Fig. 1 ist großteils in Blockform ein Mustervergleichssy­ stem gemäß einer Ausführungsform mit Merkmalen nach der Erfindung dargestellt, wenn sie zur Sprachverarbeitung angewendet wird. Das darge­ stellte Sprachmuster-Vergleichssystem hat eine Sprachein­ gabeeinheit 1, eine Energiemeßeinheit 2, eine Merkmalsquan­ tität-Umsetzeinheit 3, eine eine stumme Stelle feststellende Einheit 4, eine eine stumme Stelle (am Ende) feststellende Einheit 8, eine Markierungs-Addiereinheit 6 , eine Bibliothek 7, eine Markierungs-Beurteilungseinheit 8, eine Musterent­ fernungseinheit 9 und eine Musteranpassungseinheit 10. In dieser Ausführungsform wird beim Vergleich von zwei Mustern geprüft, ob ein Energieminimum in einem vorbestimmten Be­ reich vom Anfang oder Ende eines Musters an vorhanden ist oder nicht. Wenn ein solches Energieminimum nur in einem der beiden zu vergleichenden Muster vorhanden ist, wird der Teil des Musters, der ein solches Energieminimum von dem Anfang oder dem Ende an hat, bis zu dem Energieminimum entfernt, und dann werden die beiden Muster verglichen.
Zuerst wird eine Sprache in der Spracheingabeeinheit 1 ein­ gegeben; während die eingegebene Sprache in eine Merkmals­ quantität umgesetzt wird, wird die Energie der eingegebenen Sprache gemessen. Die Spracheneingabeeinheit 1 kann vorzugs­ weise aus einem Mikrophon bestehen, und das Messen der Sprachenergie kann durchgeführt werden, indem Bandpaßfilter, welche den hörbaren Bereich überdecken, verwendet werden und Ausgänge dieser Bandpaßfilter festgestellt werden. Es kann irgendeine Merkmalsqualität, welche auf dem Gebiet der Mu­ ster-(üblicherweise Sprach-)Erkennung bekannt ist, verwendet werden, und beispielsweise kann ein Energiespektrum, welches ohne weiteres von einer Bandpaß-Filterbank erhalten werden kann, in vorteilhafter Weise verwendet werden. Basierend auf der Größe der gemessenen Sprachenergie wird festgestellt, wo ein stimmloser Intervall in der Sprache vorhanden ist. Bei­ spielsweise wird in Abhängigkeit davon, ob dieses stimmlose Intervall in 100 ms von dem hinteren Sprechende festgestellt wird oder nicht, eine vorherbestimmte Markierung zu einem Merkmalquantitäts-Umsetzmuster (Merkmalsmuster oder eingege­ benem Muster) hinzugefügt. Andererseits wird ein Bezugsmu­ ster aus einer Bibliothek herausgenommen und es wird ge­ prüft, ob das Bezugsmuster auch dieselbe Markierung wie die­ jenige des Merkmalsmusters hat oder nicht. Wenn die Markie­ rungen dieselben sind, dann wird in üblicher Weise bei einem Musteranpassnungsschritt fortgefahren. Zu beachten ist, daß, obwohl ein Verfahren zum Erzeugen eines Biblotheksmusters hier im einzelnen nicht erläutert wird, eine vorherbestimmte Markierung zu einem Bibliotheksmuster in ähnlicher Weise während dessen Ausbildung zugeteilt wird, in Abhängigkeit davon, ob ein stimmloses Intervall an dem hinteren Ende vor­ handen ist oder nicht.
Wenn sich dagegen die Markierungen zwischen dem Bibliotheks- und dem eingegebenen Muster unterscheiden, wird dieser Teil des Musters, das ein stimmloses Intervall hat, vom Anfang des stimmlosen Intervalls bis zu dem hinteren Ende des Musters aus dem Muster mit einem stimmlosen Intervall entfernt und dann wird eine Musteranpassung zwischen dem Bezugs- und eingegebe­ nen Muster vom Anfang an bis zu dem stimmlosen Intervall durchgeführt. Anhand von Fig. 2a bis 2c wird im einzelnen der Fall beschrieben, daß das Bezugsmuster eine in Fig. 2a darge­ stellte Zusammensetzung und das eingegebene Muster eine in Fig. 2b dargestellte Zusammensetzung hat, bei welcher der hintere Endteil fehlt. In diesem Fall hat das Bezugsmuster eine Markierung, welche anzeigt, daß es ein stimmloses Inter­ vall an seinem Ende hat, während das eingegebene Muster eine andere Markierung hat, die anzeigt, daß es an seinem hinte­ ren Ende kein stimmloses Intervall hat. Es wird das Bezugsmuster der Fig. 2a verarbeitet, um den hinteren Endteil /p/ zu entfernen, um das Bezugsmu­ ster mit der in Fig. 2c dargestellten Zusammensetzung wieder festzulegen. Es wird dann ein Vergleich zwischen dem einge­ gebenen Muster und Fig. 2b und dem wieder festgelegten Be­ zugsmuster der Fig. 2a vorgenommen. Vorstehend ist der Fall beschrieben worden, daß der hintere Endteil von einem der beiden zu vergleichenden Muster verlorengegangen ist; dieser Aspekt der Erfindung ist genauso gut bei dem Fall anwendbar, daß ein Kopfteil von einem der beiden Muster verlorengegan­ gen ist.
In Fig. 3 ist großteils in Blockform ein Mustervergleichssy­ stem gemäß einer weiteren Ausführungsform für den Fall dargestellt, daß ein Mustervergleich durchzuführen ist, wobei ein Kopfteil von einem der beiden zu vergleichen­ den Sprachmuster verlorengegangen ist. Das in Fig. 3 darge­ stellte System ist in vieler Hinsicht in seinem Aufbau dem in Fig. 1 dargestellten System ähnlich, weshalb ähnliche oder gleiche Elemente mit den gleichen Bezugszeichen bezeichnet sind. Das System der Fig. 3 weist eine ein stimmloses Intervall (am Kopfteil) beurteilende Einrichtung 11 auf, und in dieser Ausführungsform wird ein vorderer oder Kopfteil eines Sprachmusters entfernt, wenn ein stimmloses Intervall entwe­ der in dem Bezugs- oder dem eingegebenen Muster innerhalb von 100 ms von dem Anfang des Musters an vorhanden ist, und dann werden die beiden Muster verglichen oder einander ange­ paßt. In diesem Fall wird angenommen, daß das Bezugsmuster normal und vollständig ist; dagegen weist das eingegebene Muster an seinem Kopfteil einen Geräuschbestandteil infolge eines Geräusches, das beim Öffnen und Schließen des Mundes erzeugt worden ist, oder ein sporadisch erzeugtes Geräusch auf.
Anhand von Fig. 4a bis 4c wird dies im einzelnen erläutert, wenn das Wort /ido/ ausgesprochen wird, das im japanischen "Bewegung" bedeutet; in Fig. 4a ist ein Sprachmuster mit einem zusätzlichen Geräusch /n/ an seinem Kopfende dar­ gestellt, so daß in diesem Fall ein stimmloses Intervall zwi­ schen dem Geräusch /n/ und dem Wort /ido/ vorhanden ist. Folglich kann durch die die stimmlose Stelle feststellende Einheit 4 und die die stimmlose Stelle (am Kopfende) beurtei­ lende Einrichtung 11 festgestellt werden, daß dieses stimmlo­ se Intervall innerhalb von 100 ms von dem Kopfende des Mu­ sters an vorhanden ist. Bei einer Bestätigung wird eine vor­ herbestimmte Markierung, welche das Vorhandensein eines stimmlosen Intervalls an dem Kopfende anzeigt, hinzugefügt. In Fig. 4b ist dagegen ein Bibliotheksmuster dargestellt, welches an seinem Kopfende kein stimmloses Intervall hat. Folglich wird dieser Teil des eingegebenen Musters der Fig. 4 von dem stimmlosen Intervall zurück bis zu dem Kopfende aus dem eingegebenen Muster durch die Entfernungseinheit 9 ent­ fernt, und dann werden die beiden Muster in der Musteranpas­ sungseinheit 10 verglichen. Obwohl irgendein Musteranpas­ sungsschema verwendet werden kann, wird vorzugsweise ein Verfahren angewendet, welches weniger Berechnungsschritte erfordert, in dem beispielsweise die Musterlänge linear ge­ dehnt oder zusammengezogen wird. In diesem Fall wird dann der Anfang zum Bestimmen der zeitlichen Länge des in Fig. 4a dargestellten Musters an der Stelle unmittelbar nach dem stimmlosen Intervall geändert. Außerdem kann die das stimmlose Intervall feststellende Einheit 4 entsprechend ausgeführt werden, um das Hintergrundrauschen unter der Voraussetzung zu überwachen, daß keine Sprache einzugeben ist; beim Einge­ ben einer Sprache wird ein stimmloses Intervallsignal erzeugt, wenn die eingegebene Sprache im Pegel mit dem Hintergrund­ rauschen vergleichbar ist. An der Einheit 11 wird eine stimm­ lose Stelle durch Vergleich mit einem Signal festgestellt, welche das ansteigende oder abfallende Ende eines Sprachin­ tervalls anzeigt.
In den vorstehend beschriebenen Ausführungsformen ist die Aufmerksamkeit auf die Tatsache gerichtet worden, daß das Geräusch, welches beim Öffnen und Schließen des Mundes oder der Lippen erzeugt worden ist, gern am Kopfende eines Aus­ drucks vorhanden ist und in seiner zeitlichen Länge kurz ist und in Form eines Impulses vorliegt, so daß ein stimmloses Intervall gern vor dem Aussprechen eines Ausdrucks vorhanden ist, und daß ein stimmloses Intervall gern am Ende eines Aus­ druckes vorhanden ist, wenn an sich am Ende eines Wortes ein Konsonant auszusprechen ist. Die vorstehend beschriebenen beiden Ausführungsformen sind vorzugsweise in einem einzigen System vereinigt, welches das Zufügen eines Geräuschbestand­ teils am Beginn einer Sprache oder eines Ausdrucks und das Weglassen eines Konsonanten am Ende eines Ausdrucks ausglei­ chen kann. Wie oben beschrieben, wird selbst wenn ein Geräusch infolge des Öffnens und Schließens des Mundes oder der Lippen, welches beim Aus­ sprechen eines Wortes oder Ausdruckes unvermeidlich ist, oder ein sporadisch erzeugtes Hintergrundrauschen vorhanden ist, ein derartiges Rauschen in angemessener Weise vor einer Musteranpassung entfernt werden und selbst wenn der hintere Endteil eines Sprachmusters fehlt, wird eine Musteranpassung durchgeführt. Folglich kann entsprechend dieses Aspekts der Erfindung die Genauigkeit einer Musteranpassung erhöht werden.
In Fig. 5 ist schematisch großteils in Blockform ein Sprach­ erkennungssystem gemäß einer weiteren Ausführungsform dargestellt. Das dargestellte Spracherkennungssy­ stem hat ein Mikrophon 21, eine ein Sprachintervall fest­ stellende Einheit 22, ein Hochpaßfilter 23a, ein Tiefpaßfil­ ter 23b, eine Merkmale extrahierende Einheit 24, eine Mul­ tipliziereinheit 25, einen Vergleicher 26, eine Hinweis- oder Flag-(/f/)Einheit 27, einen Vergleicher 28, ein drittes Register 29 , ein Bibliotheksregister 30, einen Markierungs­ vergleicher 31, eine Registereinheit 32 mit einem ersten und einem zweiten Register 32a bzw. 32b und eine eine Ähnlich­ keit feststellende Einheit 33. Diese Ausführungsform ist entsprechend ausgeführt, um die Aufmerksamkeit auf die Tat­ sache zu lenken, daß ein schwacher Konsonant, wie /f/ ein charakteristisches Merkmal hat, das sich in einem hochfre­ quenten Bereich konzentriert, wenn er einer Frequenzanalyse unterzogen wird. Bei dieser Ausführungsform wird ein Aus­ druck/Wort eingegeben, um ein Sprachsignal zu erzeugen, wel­ ches dann einer Frequenzanalyse unterzogen wird, um das Ver­ hältnis hoch- und niederfrequenten Bestandteilen festzustel­ len. Wenn es mehr hochfrequente Bestandteile gibt, wird die Dauer dieses Zustands festgestellt. Wenn nur eines der bei­ den zu vergleichenden Sprachmuster einen Teil hat, in wel­ chem mehr hochfrequente Bestandteile vorhanden sind, wird dieser Teil entfernt, und für eine Anpassung werden dann die beiden Sprachmuster verglichen.
Anhand von Fig. 5 wird im einzelnen beschrieben, daß Sprache in das Mikrophon 21 eingegeben wird, um ein Sprachsignal zu erzeugen, und dessen Sprachintervall wird mittels der Ein­ heit 22 festgestellt. Das Sprachsignal wird dann mittels der ein Merkmal extrahierenden Einheit 24 in eine Merkmalsquan­ tität umgesetzt, um dadurch ein eingegebenes Muster festzu­ legen, welches dann in dem dritten Register 29 gespeichert wird. Dasselbe Sprachsignal wird mittels der Hoch- und Tief­ paßfilter 23a und 23b einer Frequenzanalyse unterzogen, um hoch- und niederfrequente Bestandteile zu erzeugen, deren Größe durch den Vergleicher 26 verglichen wird. In einem Beispiel überdecken die hochfrequenten Bestandteile einen Hochfrequenzbereich von 1 bis 6 kHz und die niederfrequenten Bestandteile einen niederfrequenten Bereich von 200 Hz bis 1 kHz. In dieser Ausführungsform wird ein Flag /f/ hervorge­ hoben, wenn die hochfrequenten Bestandteile um den Faktor 2 oder mehr, was durch die Multipliziereinheit 25 angezeigt wird, größer als die niederfrequenten Bestandteile sind. Außerdem wird in der das Sprachintervall feststellenden Ein­ heit 22 ein Signal, welches den Beginn und das Ende des Sprachintervalls anzeigt, an den Vergleicher 28 geliefert. Wenn das Flag /f/ für den Beginn oder das Ende des Sprachin­ tervalls eingegeben und hervorgehoben wird, wird eine vorher­ bestimmte Markierung dem dritten Register 29 zugeführt, wo­ durch die Dauer des Flags /f/ aufgezeichnet ist.
Dann wird ein Bezugsmuster aus dem Bibliotheksregister 30 herausgenommen und es wird in dem Markierungsvergleicher 31 geprüft, ob dieses Bezugsmuster eine Markierung hat oder nicht, welche dieselbe wie diejenige des eingegebenen Mu­ sters ist, das nunmehr in dem dritten Register 29 gespei­ chert ist. Wenn die Markierungen dieselben sind, dann werden das eingegebene und das Bezugsmuster an das erste bzw. zwei­ te Register 32a und 32b übertragen; hierauf folgt dann der Schritt der Anpassung der zwei Muster, um den dazwischen bestehenden Ähnlichkeitsgrad zu bestimmen. Wenn dagegen die zwei Markierungen verschieden sind, wenn z. B. das Bezugsmu­ ster eine Markierung hat, welche das Fehlen des Flags /f/ am Anfang anzeigt, und das eingegebene Muster eine andere Markierung hat, welche das Vorhandensein des Flags /f/ am Anfang anzeigt, wird ein Punkt des eingegebenen Musters nach dem Flag /f/ zu Beginn des Musters wieder als der Beginn eines Sprachmusters definiert, und dieses wieder definierte eingegebene Muster wird dann an das erste Register 32a über­ tragen, während das Bezugsmuster unverändert an das zweite Register 32b übertragen wird. Dann werden diese beiden Mu­ ster verglichen, um den Ähnlichkeitsgrad zu bestimmen. Die gleichen Argumente gelten auch für den Fall, daß das Flag /f/ in dem eingegebenen Muster nicht, jedoch in dem Bezugs­ muster vorhanden ist. Folglich wird gemäß der Erfindung, selbst wenn ein Sprachintervall fehlerhaft ausgeführt worden ist, wobei der Laut /f/ am Anfang oder Ende eines Bezugs- oder eingegebenen Musters verlorengegangen ist, dieser Feh­ ler entsprechend korrigiert und folglich kann eine Anpassung zwischen den beiden Mustern genau durchgeführt werden.
In Fig. 6 ist schematisch großteils in Blockform ein Sprach­ erkennungssystem dargestellt, welches in vieler Hinsicht dem System in Fig. 5 ähnlich ist, so daß gleiche Elemente mit den gleichen Bezugszeichen bezeichnet sind. Diese Ausführungs­ form ist für den Fall vorgesehen, daß das Bezugs- und das eingegebene Muster den Laut /f/ an derselben Stelle haben. In Fig. 6 weist das System eine Registereinheit 34 aus einem vierten bzw. fünften Register 34a und 34b auf. Ebenso ist in dem dargestellten System eine erste, eine Ähnlichkeit fest­ stellende Einheit 33, eine zweite, eine Ähnlichkeit feststel­ lende Einheit 35 und ein Addierer 36 vorgesehen.
Wenn beispielsweise der Laut /f/ am Anfang vorhanden ist, wird das Vorhandensein des Lauts /f/ am Anfang jedes der beiden Muster durch Markierungsvergleich herausgefunden, und die Länge der jeweiligen Laute /f/ kann bestimmt werden. Folglich wird dieser Teil des eingegebenen Musters von Anfang an über die durch den Laut /f/ bestimmte Länge in dem ersten Register 32a und der entsprechende Teil des Bezugsmu­ sters in dem zweiten Register 32b gespeichert. Außerdem wird der restliche Teil des eingegebenen Musters in dem Register 34a und der entsprechende Restteil des Bezugsmustes in dem Register 34b gespeichert. Dann wird der Ähnlichkeitsgrad zwischen den beiden Registern 32a und 32 b und auch zwischen den beiden Registern 34a und 34b berechnet. Die Summe dieser berechneten, partiellen Ähnlichkeitsgrade wird in dem Addie­ rer 36 als ein Gesamtähnlichkeitsgrad erhalten. In der dar­ gestellten Ausführungsform sind vier gesonderte Register 32a, 32b, 34a und 34b vorgesehen; normalerweise reichen je­ doch die Register 32a und 32b aus, da die zwei Ähnlichkeits­ grade nacheinander berechnet werden können; d. h. nach der Bestimmung des ersten Ähnlichkeitsgrads wird der Inhalt, welcher in den Registern 34a und 34b zu speichern ist, in den Registern 32a und 32b gespeichert, um den zweiten Ähn­ lichtkeitsgrad zu berechnen, und dann wird der vorher be­ rechnete erste Ähnlichkeitsgrad hinzuaddiert, um so den Ge­ samtähnlichkeitsgrad zu erhalten. Außerdem werden in der vorstehend beschriebenen Ausführungsform zwei partielle Ähnlichkeitsgrade gesondert berechnet, und dann addiert, um den Gesamtähnlichkeitsgrad zu berechnen. Jedoch ist dieser Rechenvorgang nicht nur auf eine Addition beschränkt; viel­ mehr kann der Gesamtähnlichkeitsgrad bestimmt werden, indem ein Element vorgesehen wird, um den Ähnlichkeitsgrad zwi­ schen den Registern 32a und 32b zu berechnen, ein Element vorgesehen wird, um den Ähnlichkeitsgrad zwischen den Regi­ stern 34a und 34b zu berechnen und indem dann diese Elemente summiert werden. Wie vorstehend beschrieben, kann gemäß einer der in Fig. 5 und 6 dargestellten Ausführungsformen eine Anpassung zwischen zwei Mustern richtig durchgeführt werden, selbst wenn ein Teil zumindest eines der beiden Mu­ ster fehlt.
Nunmehr wird die Ausbildung eines Bezugs- oder Bibliotheksmusters beschrie­ ben, das bei einer Mustererkennung verwendbar ist. Das am meisten übliche Mustererkennungsschema ist eines, bei wel­ chem eine Musteranpassung angewendet wird. In diesem Schema sind eine Anzahl Bezugsmuster in einer Bibliothek gespei­ chert, und ein eingegebenes, unbekanntes, zu identifizieren­ des Muster wird mit jedem der Anzahl Bezugsmuster vergli­ chen, um festzustellen, welches der Anzahl Bezugsmuster den höchsten Ähnlichkeitsgrad hat, um dadurch die Identität des eingegebenen Musters zu bestimmen. In diesem Fall hat die Qualität oder das charakteristische Merkmal des registrier­ ten Bezugsmusters einen bedeutenden Einfluß auf die Durch­ führung einer Musteranpassung. Folglich ist es wesentlich, ein Bezugsmuster hoher Qualität zu erzeugen, um eine hohe Erkennungsrate bei der Mustererkennung zu erhalten.
Wenn die Musteranpassung in der Spracherkennung als Beispiel genommen wird, kann die Spracherkennung im allgemeinen in ein begrenztes Sprechersystem und in ein unbegrenztes Spre­ chersystem eingeteilt werden. Im Falle des unbegrenzten Sprechsystems werden Bezugssprachmuster bereits von einem Hersteller gebildet und in ein Spracherkennungssystem einge­ bracht, bevor es auf den Markt gebracht wird. Da in diesem Fall angenommen wird, daß eine beliebige Sprache/Stimme erkannt werden kann, kann das Spracherkennungssystem verwen­ det werden, nachdem geprüft ist, ob die Daten zur Ausbildung von Bezugsmustern normal sind oder nicht. Im Falle des be­ grenzten Sprechersystems muß jedoch ein Benutzer vor einer Benutzung erst Sprachen/Stimmen registrieren und das Spracherkennungssystem kann nach der Durchführung eines Trainings verwendet werden. Aus diesem Grund kann ein zu re­ gistrierendes Sprachmuster nicht auf dessen Normalität ge­ prüft werden, so daß es die Möglichkeit gibt, daß die Quali­ tät von Bezugsmustern schlecht ist. Vorherrschende Ursache im Hinblick auf das Verschlechtern der Qualität von Bezugs­ mustern, wenn diese registriert sind, ist eine falsche Fest­ stellung eines Sprachintervalls. Wenn beispielsweise das Ge­ räusch, das beim Öffnen und Schließen des Mundes, um Sprache auszudrücken, oder ein sporadisches Hintergrundgeräusch er­ zeugt worden ist, unmittelbar vor oder im Anschluß an das Aussprechen eines Ausdrucks erzeugt worden ist, kann das Sprachmuster nicht von einem solchen Geräusch unterschieden werden, so daß ein solches Geräusch in das Sprachmuster ein­ verleibt wird. Außerdem gibt es auch den Fall, daß ein Teil eines Wortes verlorengeht. Aus diesen Gründen kann die Qua­ lität eines Bezugsmusters schlechter werden. Es gibt ein bekanntes Verfahren zum Erzeugen eines Bezugsmusters, bei welchem das Mittel aus einer Anzahl Sprachmuster gebildet wird, indem dasselbe Wort eine Anzahl mal ausgesprochen wird. Bei diesem Mittelungsverfahren können statistische Informationsschwan­ kungen bei der Erzeugung eines Wortes in das sich ergebende gemittelte Sprachmuster eingebracht werden. Da jedoch eine Anzahl Aussprechvorgänge erforderlich sind, um ein Bezugs­ muster zu erzeugen, würde, selbst wenn eine unvollständige Feststellung eines Sprachintervalls einmal aufgetreten ist, dies eine Verschlechterung in der Qualität des sich ergeben­ den Bezugsmusters zur Folge haben.
Dieser Aspekt wird im einzelnen anhand von Fig. 20a und 20b beschrieben; in Fig. 20a ist ein ungewöhnliches Sprachmuster dargestellt, bei welchem an Anfang ein Geräuschbestandteil hinzugefügt worden ist, während in Fig. 20b ein normales Sprachmuster für dasselbe Wort dargestellt ist. Ein Konso­ nantenabschnitt ist mit B bezeichnet. Wenn ein Mittelwert zwischen dem normalen Muster der Fig. 20b und dem annormalen Muster der Fig. 20a, das einen Geräuschbestandteil A hat, ge­ nommen wird, wird die Mittelung durch eine Entsprechung zwi­ schen den jeweiligen vorderen Enden und den jeweiligen hin­ teren Enden durchgeführt, wie durch die gestrichelte Linie angezeigt ist. Im Ergebnis wird dann der Geräuschbestandteil A des anormalen Musters der Fig. 20a zu dem vorderen Teil des Konsonantenteils B des normalen Musters der Fig. 20b hinzuge­ fügt, was ein gemitteltes Muster ergeben würde, das in der Qualität schlechter ist.
Insbesondere im Falle des begrenzten Sprechersystems ändert sich die Erkennbarkeit in Abhängigkeit davon, ob die Regi­ strierung von Bezugsmustern richtig durchgeführt worden ist oder nicht. Folglich ist es für die Worte, welche einen schwachen Laut am Anfang oder am Ende haben, da dieser schwache Laut gern verlorengeht, denkbar, ein Muster zu re­ gistrieren, welches dadurch wieder festgelegt wird, daß ein solcher leicht verlorengegangener Teil aus einem normalen Muster wirksam entfernt wird. Die Ausführung hat, selbst wenn ein schwacher Lautteil eines Wortes verlorengegangen ist, und nicht festgestellt wird, ein solches Sprachmuster, bei welchem ein Teil der ursprünglichen Sprachinformation verlorengegangen ist, einen hohen Ähnlichkeitsgrad mit dem registrierten Muster, so daß eine Erkennung richtig durchge­ führt werden kann. Jedoch wird entsprechend diesem Schema, wenn ein schwacher Laut /h/ von dem englichen Wort /his/ vorlorengegangen ist, ein Laut /is/ erzeugt, welcher ein an­ deres Wort darstellt. Dies führt dann zu einem Durcheinan­ der, wodurch es dann zu einer schlechteren Erkennungsrate kommt.
Im Falle des begrenzten Sprechersystems muß der Benutzer zu­ erst seine eigenen Laute für ausgewählte Worte re­ gistrieren. Beim Registrieren von Lauten als Bezugssprachmu­ ster gibt es ein Verfahren, bei welchem ein Laut nur einmal für ein zu registrierendes Wort ausgesprochen wird und es gibt ein anderes Verfahren, bei welchem eine Vielzahl Laute erzeugt werden, indem dasselbe Wort eine Anzahl Mal ausge­ sprochen wird, und dann die Anzahl Laute gemittelt wird. In Fig. 21 ist hauptsächlich in Blockform ein Spracherkennungs­ system dargestellt, in welchem eine Anzahl Sprachmuster für dasselbe Wort erzeugt werden und dann ein gemitteltes Muster aus der Anzahl Sprachmuster festgelegt wird. Bei der in Fig. 21 dargestellten Ausführung wird das sogenannte binäre Zeit-Spektrum-Muster-(BTSP)-Verfahren angewendet, welches ein Beispiel für die Musteranpassungsverfahren ist. Das dar­ gestellte System weist eine Laute aufnehmende Einheit 21, wie beispielsweise ein Mikrophon 21, eine Filterbank 22, eine Korrektureinheit 23, bei welcher die Methode der klein­ sten Quadrate angewendet ist, eine binäre Umsetzeinheit 54, eine BTSP bildende Einheit 55, einen Addierer 56, um eine Anzahl n Sprachmuster durch lineares Drehen und Zusammenzie­ hen zu addieren, eine Bibliothek 57, eine ein Spitzenwertmu­ ster bildende Einheit 58, eine Einheit 59, bei welcher eine Musterlänge durch lineares Dehnen oder Zusammenziehen ange­ paßt wird, eine die Ähnlichkeit berechnende Einheit 60 und eine Anzeigeeinheit 61 in Form einer Kathodenstrahlröhre auf. Bei dieser Ausführung wird eine in das Mikrophon 21 eingege­ bene Sprache in ein Sprachsignal umgesetzt, welches dann mit Hilfe einer Bandpaß-Filterbank einer Frequenzanalyse unter­ zogen wird, um dadurch ein Zeit-Frequenz- oder ein zeit­ spektrales Verteilungsmuster (TSP) festzulegen. Ein solches zeit-spektrales Muster wird dann binär-bewertet, wobei die Scheitelwerte durch "Einsen" und der Rest durch "Nullen" ge­ kennzeichnet sind, um dadurch ein binäres TSP-(BTSP)-Muster festzulegen. Bei dem Registrierungsmode werden eine Anzahl solcher BTSP-Muster, welche geschaffen worden sind, indem dasselbe Wort eine Anzahl Mal ausgesprochen wird, einander überlagert, um ein Bezugsmuster festzulegen, welches dann als ein Bezugsmuster registriert wird.
In dem Erkennungsmode wird eine zu erkennende, unbekannte Sprache/Stimme eingegeben; ein entsprechendes BTSP-Muster wird in ähnlicher Weise wie dasjenige gebildet, das für den Registrierungsmode beschrieben worden ist, und das auf diese Weise erzeugte, eingegebene BTSP-Muster wird mit jedem der vorher registrierten Bezugsmuster verglichen, um den Ähnlich­ keitsgrad mit jedem der Bezugsmuster festzustellen. In die­ sem Fall kann dann der Ähnlichkeitsgrad beispielsweise da­ durch bestimmt werden, daß die Anzahl von sich überdeckenden Einsen gezählt wird, wenn das eingegebene Muster über ein Bezugsmuster gelegt wird. Normalerweise werden im Falle des unbegrenzten Sprechersystems, welches dazu bestimmt ist, da­ mit die Sprache, die von irgendjemand erzeugt worden ist, erkannt werden kann, eine Anzahl verschiedener Bezugsmuster für ein zu registrierendes Wort gebildet, wodurch die Menge an Rechenvorgängen größer wird. Das dargestellte System hat den Vorteil, daß die Realisierung eines Spracherkennungssy­ stems in der Art des unbegrenzten Sprechersystems erleich­ tert wird, ohne daß die Anzahl an Berechnungen größer wird, wenn ein Bezugsmuster richtig ausgebildet ist. Wenn ein Be­ zugsmuster auf diese Weise erzeugt wird, wird angenommen, daß alle die Muster, aus welchen ein Durchschnittsmuster de­ finiert wird, vollständig sind. Dies ist jedoch in der Pra­ xis nicht immer der Fall; beispielsweise haben ein Laut /v/ am Wortende von "five" und ein Laut /f/ am Wortanfang von "full" eine äußerst niedrige Energie und es ist daher ver­ hältnismäßig schwierig, diese schwachen Laute richtig fest­ zustellen. Folglich ist es schwierig, ein normales Muster für solche Worte zu erhalten, was zu einer Verschlechterung der Qualität eines Bezugsmusters führen könnte.
Folglich ist ein Verfahren zum Ausbilden eines Bezugsmusters dahingehend verbessert, daß der Durch­ schnitt aus einer Anzahl Sprachmuster gebildet wird, in wel­ chen ein unstabiler Bestandteil (Komponente) beim Erzeugen eines Wortes in jedem der Sprachmuster als ein notwendiges Element beim Mitteln der Anzahl Sprachmuster vorgesehen ist. Oder in dem Fall, daß die Anzahl Sprachmuster diese Muster, welche einen unstabilen Bestandteil (Komponente) beim Erzeugen eines Wortes haben, und diese Muster enthalten, welche keinen solchen unstabilen Be­ standteil (Komponente) haben, wird der unstabile Bestandteil eines Mu­ sters, das den unstabilen Bestandteil hat, zu einem Muster addiert, das keinen unstabilen Bestandteil hat und dann wird ein Mittelwert aus den beiden Mustern festgesetzt. Ferner wird bei einer Anzahl Muster, die einen instabilen Bestand­ teil beim Erzeugen eines Wortes haben, das in der Anzahl Sprachmuster vorhanden ist, jedes der Sprachmuster in den unstabilen und einen stabilen Bestandteil (Komponente) aufgeteilt; nach der Mittelung der Muster auf einer Bestandteilbasis werden die beiden Bestandteile zusammengefaßt, um ein Bezugsmuster festzulegen.
In Fig. 10 ist ein großteils in Blockform wiedergegebenes Sy­ stem zur Erzeugung eines Bezugsmusters dargestellt, das in einer Spracherkennungseinrichtung verwendbar ist. Gemäß dem dargestellten System werden eine Anzahl Muster für eine zu registrierende Elementart, wie ein Wort, gebildet, und die Anzahl Muster werden gemittelt oder unabhängig registriert, um ein Bezugsmuster festzulegen. In dieser Ausführungsform wird geprüft, ob ein Energieminimum innerhalb einer vorher­ bestimmten Länge entweder von dem Anfang oder von dem Ende jedes der Anzahl Muster vorhanden ist. Falls dies Muster sind, die kein solches Energieminimum haben, wird der Teil eines Musters, der ein Energieminimum hat, entweder von dem Anfang oder von dem Ende des Musters an bis zu seinem Ener­ gieminimum an einer vorherbestimmten Stelle des Musters ad­ diert, das kein Energieminimum hat, um dadurch ein Bezugsmu­ ster festzulegen.
Das in Fig. 10 dargestellte System weist eine Spracheingabe­ einheit 1, eine Energiemeßeinheit 2, eine Merkmalsquantität- Umsetzeinheit 3, eine ein stimmloses Intervall feststellende Einheit 4, eine ein stimmloses Intervall (am vorderen Ende) feststellende Einheit 11, eine Markierungs-Addiereinheit 6, eine Muster-Speichereinheit 37, eine Markierungs-Beurtei­ lungseinheit 8, eine ein Muster am Kopfende addierende Ein­ heit 39 und eine Überlagerungs- und Mittelungseinheit 40 auf. Zuerst wird die Sprache in ein Mikrophon 1 eingegeben, um in ein Sprachsignal umgesetzt zu werden, welches dann der Energiemeßeinheit 2 zugeführt wird, wo die Sprachenergie ge­ messen wird. Das Sprachsignal wird dann in eine Merkmalsquan­ tität umgesetzt. Als Merkmalsquantität kann irgendeine be­ kannte Merkmalsquantität, beispielsweise ein Energiespektrum LPC-Koeffizienten und ein -Spektrum verwendet werden. Anhand der gemessenen Energie wird geprüft, ob ein stimmloses Inter­ vall vorhanden ist oder nicht und bei ja wird dessen Positi­ on festgestellt. Dann wird geprüft, ob ein stimmloses Inter­ vall in einem vorbestimmten Bereich von dem Beginn des Sprachintervalls her ausfindig gemacht wird oder nicht; in Abhängigkeit von dem Ergebnis dieser Prüfung wird eine vor­ herbestimmte Markierung zu einem Muster addiert, welches durch Merkmalsumsetzung gebildet ist. Hier wird als Beispiel angenommen, daß geprüft wird, ob ein stimmloses Intervall in­ nerhalb von 100 ms von dem Beginn an vorhanden ist oder nicht. Wenn dies der Fall ist, wird eine Markierung -1 hinzu­ addiert, während bei nein eine Markierung +1 addiert wird. Das Muster, zu dem eine solche Markierung addiert ist, wird dann gespeichert. In ähnlicher Weise wird ein anderer Laut für dasselbe Wort ausgesprochen und ein ähnliches Muster wird gebildet und dem vorher gespeicherten Muster überlagert, um eine Mittelwertbildung durchzuführen. In die­ sem Augenblick wird vor einer Überlagerung geprüft, ob das folgende Muster dieselbe Markierung wie diejenige des vor­ hergehenden Musters, welches gespeichert ist, hat oder nicht. Wenn die Markierungen dieselben sind, wird eine Mit­ telwertbildung des folgenden und vorhergehenden Musters in üblicher Weise durchgeführt, und das sich ergebende, gemit­ telte Muster wird gespeichert.
Wenn sich dagegen die beiden Markierungen unterscheiden, dann wird dadurch angezeigt, daß eines der beiden Muster ein stimmloses Intervall und das andere keines hat. In diesem Fall wird der Teil des Musters, das an seinem vorderen Ende (Fig. 11a) ein stimmloses Intervall hat, von dem Anfang an bis zu dem stimmlosen Intervall des Musters an dem vorderen Ende des anderen Musters, das kein stimmloses Intervall hat (Fig. 11b) hinzuaddiert, um dadurch ein anderes in Fig. 11c dargestelltes Muster zu bilden. Das auf diese Weise gebil­ dete Muster der Fig. 11c wird im vorher gespeicherten Muster der Fig. 11a überlagert, um so eine Mittelung durchzuführen. Auf diese Weise wird, nachdem solche Überlagerungen eine vorherbestimmte Anzahl Mal durchgeführt werden, ein Bezugs­ muster festgelegt. Wie bereits ausgeführt, kann gemäß dieser Ausführungsform eine Mittelung bezüglich der Geräusch- und der Signalabschnitte gesondert durchgeführt werden, so daß dadurch verhindert wird, daß der Signalteil in seiner Quali­ tät durch die Mittelung verschlechtert wird. In der vorbe­ schriebenen Ausführungsform ist ein Geräuschbestandteil am Anfang eines Wortes vorhanden. Selbstverständlich ist jedoch diese Technik auch für den Fall anwendbar, daß ein hinteres Ende eines Sprachsignals verlorengegangen ist. Beispiels­ weise ist es bei einem Wort, das einen Doppelkonsonanten an einem Ende hat, wie beispielsweise /Stopp/, oft der Fall, daß ein solcher Doppelkonsonant und das Folgende durch die ein Sprachintervall feststellende Einheit nicht festgestellt werden und verlorengehen. Wenn eine Anzahl Sprachmuster für ein solches Wort diese Muster, bei welchem das hintere Ende verlorengegangen ist, und diese Muster, bei welchen das hintere Ende nicht verlorengegangen ist, enthalten, ist das sich ergebende, gemittelte Muster in seiner Qualität schlechter, wenn es gemittelt worden ist. Das heißt, wie in Fig. 12a und 12b dargestellt ist, wird, wenn eine Mittelung zwischen dem Muster der Fig. 12a, welches am Ende den Laut /p/ hat und zwischen dem anderen Muster der Fig. 12b, bei welchem der hintere Endlaut /p/ verlorengegangen ist, der hintere Laut /p/ des in Fig. 12a dargestellten Musters mit dem hinteren Endlaut /o/ des in Fig. 12b dargestellten Mu­ sters gemittelt.
In Fig. 13 ist großteils in Blockform ein Bezugsmuster-Bil­ dungssystem zur Durchführung des Verfahrens dargestellt, um das Auftreten einer Verschlechterung infolge des Verlusts des hinteren Endlautes zu verhindern. Das in Fig. 13 darge­ stellte System ist im Aufbau in vieler Hinsicht dem System in Fig. 10 ähnlich, so daß gleiche Elemente mit den gleichen Bezugszeichen bezeichnet sind. Das dargestellte System weist eine ein stimmloses Intervall (am hinteren Ende) beurteilende Einrichtung 5 und eine ein hinteres Endmuster addierende Einheit 42 auf. In der Ausführungsform wird geprüft, ob ein stimmloses Intervall innerhalb von 100 ms von dem hinteren En­ de des Sprachintervalls aus vorhanden ist oder nicht; in ähnlicher Weise wie bei der vorher beschriebenen Ausführungs­ form wird eine vorherbestimmte Markierung in Abhängigkeit von dem Ergebnis einer solchen Überprüfung addiert. Bei einer Mittelwertbildung von ähnlichen Mustern können, wenn diese beiden zu mittelnden Muster dieselbe Markierung haben, da beide Muster einen in Fig. 12a dargestellten Aufbau haben, diese beiden Muster mit ihren übereinstimmenden Anfängen und Enden gemittelt werden. Wenn dagegen die zwei Muster unter­ schiedliche Markierung haben, dann hat eines der beiden Mu­ ster einen in Fig. 12a dargestellten Aufbau, während das an­ dere einen in Fig. 12b wiedergegebenen Aufbau hat. Da in die­ sem Fall bei dem in Fig. 12b dargestellten Muster der hintere Endlaut /p/ verlorengegangen ist, wird dieser Teil des in Fig. 12a dargestellten Musters von dem stimmlosen Intervall an bis zu dem hinteren Ende zu dem Ende des in Fig. 12b darge­ stellten Musters addiert und dann wird eine Mittelung zwi­ schen den Mustern durchgeführt. Auf diese Weise kann verhin­ dert werden, daß ein sich ergebendes Muster durch einen Mit­ telungsprozeß verschlechtert wird.
In der dargestellten Ausführungsform kann die Spracheingabe­ einheit 1 durch ein Mikrophon realisiert sein, und die Ener­ giemessung an der Einheit 2 kann durch Messen von Ausgangs­ signalen an tonfrequenten Bandpaßfiltern durchgeführt wer­ den. Üblicherweise wird eine Sprache in einem Abtastab­ schnitt in der Größenordnung von 10 ms abgetastet, so daß die Zuweisung oder Hinzufügung einer Markierung durch Feststel­ len der Tatsache durchgeführt werden kann, daß ein stimmloses Intervall in den ersten 10 Abtastzeitabschnitten aufgetreten ist, oder das Ende einer Sprache innerhalb von 10 Abtast­ zeitabschnitten vom Auftreten eines stimmlosen Intervalls an erreicht ist. Es ist der Fall beschrieben worden, bei wel­ chem die Erfindung zur Spracherkennung angewendet worden ist; jedoch ist die Erfindung nicht auf Spracherkennung beschränkt. Die Geräuschverarbeitung am Anfang sowie am Ende eines Musters, wie sie vorstehend beschrieben ist, kann unabhängig oder in Kombination hiermit durchgeführt werden. Außerdem kann die Feststellung des vor­ deren und hinteren Endes eines Musters auch anders als in 100 ms durchgeführt werden.
In Fig. 14 ist ein Bezugsmuster-Bildungsmuster gemäß einer weiteren Ausführungsform mit Merkmalen nach der Erfindung dargestellt. Gemäß dieser Ausführungsform wird eine Sprache registriert, die in eine Merkmalparameter-Verteilung umgesetzt ist. Das heißt, eine Sprache wird in das Mikrophon 21 eingegeben, um ein entsprechendes Sprachsignal zu erzeugen, welches dann einer Frequenzanalyse unterzogen wird, wobei hochfrequente Be­ standteile in ihrer Größe/Amplitude mit niederfrequenten Be­ standteilen verglichen werden. Wenn die Amplitude der hoch­ frequenten Bestandteile am Anfang oder Ende eines Sprachin­ tervalls größer als die niederfrequenten Bestandteile ist, wird die Dauer dieses Zustands gemessen. Dann wird wieder ein ursprüngliches Sprachmuster durch Entfernen des Teils mit stärkeren hochfrequenten Bestandteilen festgelegt, und das auf diese Weise wieder festgelegte Sprachmuster wird als ein Bezugssprachmuster registriert.
Das in Fig. 14 dargestellte System hat ein Mikrophon 21, eine ein Sprachintervall feststellende Einheit 22, eine Filter­ bank 23, ein Hochpaßfilter 23a, ein Tiefpaßfilter 23b, eine Multipliziereinheit 25, einen Vergleicher 26, ein Register 46, einen Zeitzähler 47, eine Multipliziereinheit 48 und einen Start-Ende-Antrieb 49. Nunmehr wird der Fall der Re­ gistrierung eines Wortes, wie beispielsweise des Wortes "his" betrachtet. Zuerst wird ein Wort wie "his" in das Mikrophon 21 eingegeben, so daß ein Sprachintervall mittels der Einheit 22 festgestellt wird, und die Information, die sich auf das infrage kommende Wort bezieht, wird an die Fil­ terbank 23 geliefert. In dem dargestellten Beispiel ist die Filterbank 23 bezüglich der Informationsflußrichtung hinter der Einheit 22 angeordnet; jedoch können diese Elemente er­ forderlichenfalls in ihrer Lage auch ausgetauscht werden. Das Sprachintervall kann mittels des vorher anhand von Fig. 8 beschriebenen Verfahrens oder durch irgend ein anderes Ver­ fahren festgestellt werden. In der dargestellten Ausfüh­ rungsform wird die Filterbank als eine Methode zum Durchfüh­ ren einer Frequenzanalyse benutzt; jedoch kann auch irgend ein anderes Verfahren, wie beispielsweise ein FFT-Verfahren angewendet werden.
In Fig. 14 hat die Filterbank 23 ein Hochpaß- und ein Tief­ paßfilter 23a bzw. 23b, so daß ein hochfrequentes Ausgangs­ signal mit einem niederfrequenten Ausgangssignal verglichen wird. Beispielsweise kann in einem Bereich von 200 bis 6000 Hz, der normalerweise für eine Frequenzanalyse erfor­ derlich ist, der Bereich von 2000 bis 6000 Hz als der hoch­ frequente Bereich und der Rest als der niederfrequente Be­ reich festgelegt werden. Da insbesondere in dieser Ausfüh­ rungsform dieser Teil des Sprachmusters, welcher einen stärkeren hochfrequenten Ausgang hat, festzustellen ist, wird, wenn die hochfrequente Energie einen Faktor 2 oder mehr am Anfang oder Ende des Sprachintervalls größer als die niederfrequente Energie ist, die Dauer eines solchen Zustan­ des gemessen. In diesem Fall ist die Dauer des hochfrequen­ ten Ausgangs, der stärker als der niederfrequente Ausgang ist, von dem Sprachbeginn an leicht zu messen; ein Messen der Dauer an dem Ende einer Sprache ist nicht so leicht. Aus diesem Grund wird, wie in Fig. 15a und 15b dargestellt ist, während sowohl ein Signal der Fig. 15a, das einen größeren hochfrequenten Ausgang anzeigt als auch ein Signal der Fig. 15b überwacht werden, welches ein Sprachintervall an­ zeigt, ein Zähler zum Zeitpunkt T1 bei dem Ansteigen des hochfrequenten Ausgangssignals der Fig. 15a gestartet und der Zähler wird wieder gestoppt, um zum Zeitpunkt T1 beim Anstei­ gen des hochfrequenten Ausgangssignals gelöscht zu werden. Diese Arbeitsweise wird wiederholt, und der nach der Beendi­ gung des Sprachsignals erhaltene Wert wird als eine auf das hintere hochfrequente Ende bezogene Dauer T3 bestimmt. Hier­ durch ist dann ein neues Muster mit einem Drittel dieser Dauer gebildet, und dieses Muster wird registriert. Dies ist in Fig. 16 dargestellt. In einer Annäherung wird der Laut /h/ wirksam ausgeschieden, um wieder ein zu registrierendes Mu­ ster festzulegen. In diesem Fall können jedoch keine Unter­ scheidungen mit einem anderen Wort /is/ gemacht werden. Un­ ter diesen Umständen kann beim Registrieren eines Musters mit einer Information die zwischen /h/ und /i/ überbrückt, Unterscheidungen zwischen /his/ und /is/ bei der Formungs­ stufe gemacht werden. Der /h/-Teil hat geringe Energie und geht folglich in der das Sprachintervall feststellenden Ein­ heit 22 leicht verloren; jedoch hat der Vokalteil /i/ eine große Energie und geht folglich nicht verloren. Aus diesem Grund geht der Überbrückungsteil von /h/ zu /i/ selten ver­ loren. Das heißt, bei dieser Ausführungsform ist die Muster­ länge einer Fom im wesentlichen gleich dem Fall, bei wel­ chem der Teil von /h/ ausgeschieden ist; aber die Informa­ tion von /h/ wird leicht übriggelassen, um dadurch die Er­ kennungsrate zu erhöhen. Daher kann gemäß dieser Ausfüh­ rungsform, selbst wenn ein Teil eines Sprachmustes verlo­ rengegangen ist, eine Art Form oder Schablohne für eine rich­ tige Spracherkennung registriert werden.
Fig. 17 zeigt ein Flußdiagramm einer Folge von Schritten zum Ausbilden eines zu registrierenden Bezugsmusters gemäß noch einer weiteren Ausführungform mit Merkmalen nach der Erfindung. Fig. 18 zeigt großteils in Blockform ein Bezugsmuster-Bildungssystem zur Durchführung des in Fig. 17 dargestellten Verfahrens. In die­ ser Ausführungsform werden eine Anzahl von Merkmalsquantitä­ ten(-mustern), welche dadurch erhalten werden, daß dasselbe zu registrierende Wort eine Anzahl Mal ausgesprochen wird, verarbeitet, um ein zu registrierendes Bezugsmuster festzu­ legen. Wenn in diesem Fall diese Muster am Anfang oder Ende des Musters einen hochfrequenten Bestandteil und diese Mu­ ster keinen solchen hochfrequenten Bestandteil haben, werden die Muster verarbeitet, während die hochfrequenten Bestand­ teile abgetrennt werden, und dann werden die hochfrequenten Bestandteile zu dem verarbeiteten Ergebnis hinzugefügt.
Das in Fig. 18 dargestellte System hat ein Mikrophon 21, eine ein Sprachintervall feststellende Einheit 22, ein Hochpaß­ filter 23a, ein Tiefpaßfilter 23b, einen Vergleicher 26, Re­ gister 45a und 45b, Mittelungseinheiten 26a und 26b, einen Addierer 47 und ein Musterregister 48. Der Aufbau des in Fig. 18 dargestellten Systems wird anhand des in Fig. 17 dar­ gestellten Flußdiagramms beschrieben; zuerst wird eine Spra­ che eingegeben und es wird geprüft, ob die eingegebene Spra­ che an dem Wortanfang oder -ende einen hochfrequenten Be­ standteil hat oder nicht. Wenn dies der Fall ist, wird der hochfrequente Bestandteil abgetrennt, und eine Anzahl Sprachmuster die erzeugt worden sind, indem dasselbe Wort eine Anzahl Mal ausgesprochen wird, werden für die hochfre­ quenten Bestandteile und die restlichen Teile gesondert ge­ mittelt. Schließlich werden beide Teile zusammengefaßt, um ein gewünschtes Muster festzulegen. Auf diese Weise kann ge­ mäß dieser Ausführungsform, selbst wenn dieser Teil eines Sprachmusters mit einem hochfrequenten Bestandteil einmal oder mehrmals während des wiederholten Aussprechens dessel­ ben Wortes verlorengegangen ist, da die beiden Teile ge­ trennt gemittelt werden und dann die gemittelten Teile ver­ bunden oder zusammengefaßt werden, um ein vollständiges Sprachmuster festzulegen, ein derartiger Verlust einer Teil­ information entsprechend ausgeglichen werden. In Fig. 18 wird in das Mikrophon 21 eingegebene Sprache in ein Sprachsignal umgesetzt, welches dann an die Hoch- und Tiefpaßfilter 23a und 23b angelegt wird. Durch Vergleichen der Ausgänge dieser Hoch- und Tiefpaßfilter 23a und 23b wird bestimmt, ob das Sprachmuster einen hochfrequenten Bestandteil hat oder nicht. Gleichzeitig wird ein Sprachintervall von dem Sprach­ signal her festgelegt, und es wird geprüft, ob der hochfre­ quente Bestandteil am Anfang oder Ende des Sprachintervalls vorhanden ist oder nicht. Wenn ein hochfrequenter Bestand­ teil vorhanden ist, wird ein Schalter S zu dem Register 45b geschaltet, während wenn kein solcher hochfrequenter Be­ standteil vorhanden ist, der Schalter S zu dem Register 45a geschaltet wird. Das heißt, der hochfrequente Bestandteil am Anfang oder Ende des Sprachintervalls wird in dem Register 45b und der Rest in dem Register 45a gespeichert. Beispiels­ weise werden in dem Fall, daß dasselbe Wort dreimal ausge­ sprochen wird, beim Speichern von drei Sprachmustern in den Registern der Inhalt des jeweiligen Registers gemittelt, und dann werden die gemittelten Ergebnisse zusammengefaßt. Wenn in diesem Fall der Inhalt des Registers 45b die Information am Anfang des Sprachintervalls ist, wird der Inhalt des Re­ gisters 45b vor dem gemittelten Ergebnis des Registers 45a angeordnet. Wenn dagegen die hinteren Enddaten in dem Regi­ ster 45b gespeichert werden, werden diese nach dem Inhalt des Registers 45a angeordnet. Folglich kann das Feststellen eines Sprachintervalls mittels eines anhand von Fig. 8 be­ schriebenen Verfahrens oder durch irgendein anderes ge­ wünschtes Verfahren durchgeführt werden. Der Mittelungsvor­ gang kann mittels eines gewünschten Verfahrens in Abhängig­ keit von dem anschließenden Benutzungszweck des Musters durchgeführt werden. Im vorliegenden Fall kann das folgende Verfahren angewendet werden. Bei einer Mittelung von drei Mustern wird die Musterlänge auf das kürzeste Muster einge­ stellt und die Muster werden addiert, indem Daten gleichför­ mig gemacht werden. Ein auf diese Weise gebildetes Muster kann dann ein Bezugsmuster hoher Qualität festlegen, das mit einem Teil vervollständigt ist, welcher gern verlorengeht.
In Fig. 19 ist hauptsächlich in Blockform ein Bezugsmuster- Bildungssystem gemäß noch einer weiteren Ausführungsform mit Merkmalen nach der Erfindung dargestellt. Wenn es in dieser Ausführungsform Mu­ ster gibt, die einen hochfrequenten Anteil am Anfang oder Ende des Merkmalsmusters haben und die keinen solchen hochfrequenten Bestandteil haben, wird der Teil des Musters mit einem hochfrequenten Bestandteil zu dem Teil ohne einen solchen hochfrequenten Bestandteil zugefügt. In Fig. 19 weist das System ein Mikrophon 21, eine ein Sprach­ intervall feststellende Einheit 22, ein Hochpaßfilter 23a, ein Tiefpaßfilter 23b, einen Vergleicher 26, ein Register 45, ein Flag-Prüfeinheit 49, eine Muster-Verbindungseinheit 50, einen Addierer 47 und ein Musterregister 48 auf. Da der Verfahrensablauf bis auf die Prüfung des Fehlens oder Vor­ handenseins eines hochfrequenten Bestandteils in dem Sprach­ signal derselbe wie bei der Ausführungsform in Fig. 17 und 18 ist, wird für die vorliegende Ausführungsform nurmehr der anschließende Ablauf beschrieben. Zuerst wird ein Flag in Abhängigkeit davon aufgestellt bzw. eingebracht, ob ein hochfrequenter Bestandteil am Anfang oder Ende des Sprachin­ tervalls vorhanden ist oder nicht, und das Muster wird dann zusammen mit dem Flag in dem Register 45 gespeichert. Bei Beendigung der Schaffung all der Laute bzw. Aussprechvor­ gänge für dasselbe Wort, wird geprüft, ob es Sprachmuster mit einem unterschiedlichen Flag gibt. In diesem Fall wer­ den, wenn alle die Sprachmuster ein Flag oder kein Flag ha­ ben, eine Mittelung der Sprachmuster, so wie sie sind, durchgeführt. Andernfalls wird der hochfrequente Bestandteil des Musters mit einem Flag zu dem Anfang oder Ende des Mu­ sters oder ein Flag hinzuaddiert, und nach Durchführung eines Mittelungsvorgangs wird das gemittelte Muster in dem Musterregister 48 registiert. Das auf diese Weise erhaltene Muster ist dann bezüglich des verlorengegangenen Teils ausge­ glichen und hat folglich eine hohe Qualität. Es kann ge­ mäß dieser Ausführungsform selbst wenn ein Muster teilweise verlorengegangen ist, ein normales Bezugsmuster hoher Quali­ tät gebildet und registriert werden.
Wie vorstehend beschrieben, gibt es beim Ausbilden eines Sprachmusters einen Fall, bei welchem eine unerwünschte Ge­ räuschkomponente eingebracht wird, und es gibt auch einen Fall, bei welchem ein Teil der Sprachinformation verloren­ geht. Beispielsweise im Falle eines Wortes mit einem Konso­ nanten, welcher unabhängig ausgesprochen wird, wie /Stopp/ geht der letzte Laut /p/ gern verloren und kann nicht auf­ genommen werden. In Fig. 28a und 28b ist ein Beispiel darge­ stellt, um ein Anpassen für ein Wort, wie /Stopp/ durchzu­ führen. In Fig. 28a ist ein Bezugsmuster und in Fig. 28b ist ein eingegebenes Muster dargestellt. Das Bezugsmuster in Fig. 28a legt genau ein Sprachmuster für das ganze Wort fest; andererseits ist bei dem eingegebenen, in Fig. 28b darge­ stellten Muster der letzte Laut /p/ verlorengegangen. Wenn folglich diese beiden Muster für eine Anpassung verglichen werden, wird der letzte Laut /p/ des Bezugsmusters in Fig. 28 in Entsprechung mit dem letzten Laut /o/ des eingegebenen, in Fig. 28b dargestellten Musters gebracht. Aus diesem Grund wird der Ähnlichkeitsgrad zwischen diesen Mustern schlech­ ter, was dann zu einer fehlerhaften Erkennung führen könnte. Um mit dieser Schwierigkeit fertig zu werden, können solche Verfahren und Systeme geschaffen werden, die in Fig. 28 bis 32 dargestellt sind, welche in ihrem Aufbau genau mit den Fig. 1 bis 4 übereinstimmen, welche eingangs im einzelnen be­ schrieben worden sind.
Da das System in Fig. 29 genau mit dem System in Fig. 1 über­ einstimmt und das System in Fig. 31 genau mit dem System in Fig. 3 übereinstimmt, abgsehen davon, daß die Zahl "100" zu den Bezugszeichen hinzugefügt ist, brauchen die Systeme hier nicht noch einmal beschrieben zu werden. Mit Hilfe der Ver­ fahren, welche in den in Fig. 29 und 31 dargestellten Syste­ men durchgeführt werden, kann die Genauigkeit einer Muster­ anpassung erhöht werden. Jedoch können in einem solchen Mu­ ster-Vergleichsverfahren nachteilige Einflüsse für einen Laut erzeugt werden, welcher manchmal einen größeren manch­ mal einen niedrigeren Energiepegel hat, wie beispielsweise der Laut /b/. In Fig. 27a und 27b ist ein Beispiel eines Wor­ tes /onbu/ dargestellt, was im japanischen Sparschwein be­ deutet; das Muster in Fig. 27 hat einen Laut /b/, dessen Energie nicht nennenswert abgenommen hat, während das Mu­ ster in Fig. 27b einen Laut /b/ hat, dessen Energie beträcht­ lich abgenommen hat. In einem solchen Fall wird gemäß dem Verfahren, das bei den in Fig. 29 und 31 dargestellten Syste­ men angewendet ist, der Teil /bu/ dieses Musters durch An­ passung ausgeschieden.
Unter diesen Umständen wird, wenn zwei Muster verglichen werden, geprüft, ob ein Minimum an Energie in der Nähe des Anfangs oder des Endes jedes der Muster vorhanden ist oder nicht; wenn ein derartiges Ener­ gieminimum nur in einem der beiden Muster vorhanden ist, wird dieser Teil eines derartigen Musters, das ein Energie­ minimum hat, zwischen dem Minimum und dem Ende entfernt. Wenn das Ergebnis, das dadurch erhalten worden ist, daß eine reelle Zahl, welche gleich 1 oder kleiner ist, zu der Mu­ sterlänge des Musters mit keinem solchen Energieminimum mul­ tipliziert wird, länger als die Musterlänge des anderen Mu­ sters ist, wird es auf dieselbe Weise behandelt, wie das Mu­ ster mit keinem Energieminimum oder aber wenn das Ergebnis das erhalten worden ist, indem eine reelle Zahl, die gleich 1 oder größer ist zu der Musterlänge des Musters mit einem Energieminimum multipliziert wird, kürzer als die Musterlän­ ge des anderen Musters ist, wird dies in derselben Weise be­ handelt wie das Muster ohne Energieminimum.
In Fig. 23 ist ein Flußdiagramm einer Schrittfolge eines Mu­ stervergleichsverfahrens gemäß noch einer weiteren Ausfüh­ rungsform mit Merkmalen nach der Erfindung dargestellt, und in Fig. 24 ist ein Mustervergleichsverfahren zur Durchführung des in Fig. 23 dargestellten Verfahrens wiedergegeben. Das dargestellte Mu­ stervergleichssystem weist ein Mikrophon 21 , eine ein Sprachintervall bestimmende Einheit 71, eine Bandpaß-Filter­ bank 72, ein Register 73, ein Sprachenergie-Meßeinheit 74, einen Vergleicher 75, eine Schwellenwert erzeugende Einheit 76, einen Zeitzähler 77, einen Vergleicher 78, einen Zähler 79 für lautlose Intervalle, einen Markierungsvergleicher 80, einen Umschalter 81, eine Bibliothek 82, Rahmenlängeneinhei­ ten 83 und 84, eine Multipliziereinheit 85, eine zu multi­ plizierende Konstante setzende Einheit 86, einen Vergleicher 87, einen Umschalter 88, eine Muster-Entfernungseinheit 89, eine Anpassungseinheit 90 und eine Anzeigeeinheit 91 auf. Wenn eine Geräuschkomponente in eine eingegebene Sprache eingebracht worden ist, wird die Musterlänge im Vergleich zu der Musterlänge eines normalen Musters größer; jedoch wird gemäß der Erfindung die Aufmerksamkeit auf die Tatsache ge­ richtet, daß die Musterlänge in dem in Fig. 27 dargestellten Fall nicht größer wird.
Wie in Fig. 23 und 24 dargestellt, wird die Energie einer in das Mikrophon 21 eingegebenen Sprache durch die Meßeinheit 74 gemessen, wodurch die Lage eines stimmlosen Intervalls in der Sprache festgestellt wird. Eine der Sprache zuzuordnende Markierung unterscheidet sich in Abhängigkeit davon, ein solches stimmloses Intervall innerhalb von 100 ms von dem an­ fang des Sprachintervalls an ausfindig zu machen. Beim Her­ ausnehmen eines Bibliotheks- oder Bezugsmusters, welches zu­ sammen mit der Hinzufügung einer solchen Markierung regi­ striert worden ist, wird geprüft, ob die Markierung des Be­ zugsmusters dieselbe ist wie diejenige des eingegebenen Mu­ sters oder nicht. Wenn die beiden Markierungen dieselben sind, wird der Schalter 81 zu einem Kontakt a umgeschaltet, so daß ein gewöhnlicher Musteranpassungsprozeß durchgeführt wird. Wenn andererseits sich die zwei Markierungen unter­ scheiden, wird der Schalter 81 zu einem Kontakt b umgeschal­ tet, um dadurch die beiden Muster den jeweiligen Rahmenlän­ gen-Vergleichern 83 und 84 zuzuführen, in welchen die Rah­ menlänge mit einer dem stimmlosen Intervall entsprechenden Markierung als Fr1 und die Rahmenlänge ohne eine solche Mar­ kierung als Fr2 gesetzt wird. Eine Musterentfernung wird nur dann durchgeführt, wenn der Bedingung, daß Fr1 kleiner als 0,9 × Fr2 genügt worden ist, und dann wird eine Musteranpas­ sung durchgeführt. Wenn hiermit ein notwendiger Laut aus einem solchen Muster entfernt worden ist, wie in Fig. 27 dar­ gestellt ist, wird die Musterlänge kürzer, um dadurch der Bedingung zu genügen, das Fr1 kleiner als 0,9 × Fr2 ist, wo­ durch dann die Muster-Entfernungseinheit 89 umgangen ist. Wenn dagegen eine Geräuschkomponente hinzugefügt worden ist, wird die Musterlänge durch das Hinzufügen einer solchen Ge­ räuschkomponente verlängert, so daß der Bedingung, daß Fr1 kleiner als 0,9 × Fr2 ist, nicht genügt ist, und folglich wird auf die Muster-Entfernungseinheit 89 übergegangen, um vor einer Anpassung eine erforderliche Musterentfernung durchzuführen.
In Fig. 25 und 26 ist eine weitere Ausführungsform mit Merkmalen nach der Er­ findung dargestellt, welche grundsätzlich dieselbe wie die vorhergehende anhand von Fig. 23 und 24 beschriebene Ausfüh­ rungsform ist. In Fig. 25 ist ein Flußdiagramm eines Muster­ vergleichsverfahrens dieser Ausführungsform dargestellt, und in Fig. 26 ist großteils in Blockform ein Mustervergleichsver­ fahren zum Durchführen des in Fig. 25 dargestellten Verfah­ rens wiedergegeben. Da die vorliegende Ausführungsform sehr ähnlich der vorherigen anhand von Fig. 23 und 24 beschriebe­ nen Ausführungsform ist, sind mit den gleichen Bezugszeichen die gleichen Elemente bezeichnet. In der in Fig. 25 und 26 dargestellten Ausführungsform wird eine vorbestimmte re­ elle Zahl, die gleich eins oder größer ist (in der darge­ stellten Ausführungsform ist 1,1 in der die zu multiplizie­ rende Konstante setzende Einheit 86 gesetzt) zu der Muster­ länge des Musters mit einem Energieminimum multipliziert; wenn das Ergebnis einer solchen Multiplikation kleiner als die Musterlänge des anderen Musters ist, wird es in dersel­ ben Weise wie das Muster ohne Energieminimum behandelt. Wenn in der dargestellten Ausführungsform das Ergebnis 1,1 zu einem Muster mit einem stimmlosen Intervall zu multiplizie­ ren, d. h. ein Muster, bei dem möglicherweise ein Rauschbe­ standteil hinzugefügt ist, kürzer als ein Muster ohne ein stimmloses Intervall ist, wird dann bestimmt, daß dieses stimmlose Intervall nicht eine Geräuschkomponente ist, so daß keine Musterentfernung durchgeführt wird. Auf diese Weise wird ein Muster, in welchem Unterschei­ dungen zwischen Geräusch- und Sprachinformation schwierig ist, automatisch unterschieden, um dadurch die Geräuschin­ formation zu entfernen, so daß eine Musteranpassung mit ho­ her Genauigkeit durchgeführt werden kann.
Weiterhin ist ein Mu­ stervergleichsverfahren und ein System geschaffen, in wel­ chem eine Musteranpassung bezüglich eines eingegebenen Mu­ sters mit einem Geräuschbestandteil durchgeführt wird, in­ dem ein solcher Geräuschbestandteil entfernt wird, und es wird dann eine Erkennungsberechnung an einem Zeitpunkt ein­ geleitet, der früher als das Eingeben einer zu erkennenden, eingegebenen Sprache liegt. Das heißt, um ein derartiges Ziel zu erreichen, wird beim Vergleichen von zwei Mustern zuerst geprüft, ob ein Energieminimum in einem vorherbe­ stimmten Bereich von dem vorderen Ende (Anfang) oder von dem rückwärtigen Ende jedes der Muster vorhanden ist oder nicht. Wenn ein derartiges Energieminimum nur in einem der Muster vorhanden ist, wird dieser Teil des Musters, das ein Energie­ minimum hat, zwischen dem Energieminimum und dem vorderen oder hinteren Ende des Musters entfernt und dann werden die beiden Muster verglichen. Zu einem Zeitpunkt nach dem Einge­ ben des Musters für einen vorherbestimmten Zeitabschnitt im Anschluß an das Feststellen des vorderen Endes einer Sprache wird festgelegt, ob ein Energieminimum am vorderen Ende des Musters zu entfernen ist oder nicht; danach wird festgelegt, ob das Energieminimum am hinteren Ende des Musters zu ent­ fernen ist oder nicht.
In Fig. 33 (33a und 33b) ist in Blockform ein Spracherken­ nungssystem gemäß noch einer weiteren Ausführungsform mit Merkmalen nach der Erfindung dargestellt. In Fig. 34 (34a und 34b) ist ein Fluß­ diagramm dargestellt, anhand dessen die Arbeitsweise des in Fig. 33 dargstellten Spracherkennungssystems erläutert wird. Das Spracherkennungssystem weist ein Mikrophon 21, eine Bandpaß-Filterbank 72, eine ein Sprachintervall feststellen­ de Einheit 71, ein Register 73 , eine Sprachenergie feststel­ lende Einheit 124, einen Vergleicher 125, einen Schwellen­ wert erzeugende Einheit 126, einen Zähler 127 für lautlose Intervalle, einen Zeitzähler 128, Vegleicher 129 und 130, eine Zeitrückführeinheit 131 (z. B., um sie zuvor 100 ms zu einem entsprechenden Zeitpunkt zurückzuführen), eine eine vorherbestimmte Zeit erzeugende Einheit 132, eine Markie­ rungs-Zufügungseinheit 133, einen Vergleicher 134, eine Bib­ liothek 135, einen Umschalter 136, eine Muster-Entfernungs­ einheit 137, um etwas bis zu einem lautlosen Abschnitt zu entfernen, eine Anpassungseinheit 138, eine Kanditaten-Aus­ wähleinheit 139 und eine Anzeigeeinheit 140 auf. In dieser Ausführungsform wird festgelegt, ob die Nähe des vorderen oder hinteren Endes eines Musters innerhalb von 100 ms liegt. Zuerst wird Sprache in das Mikrophon 21 eingegeben, um ein Sprachsignal zu erzeugen, welches dann in eine Merkmalsgröße umgesetzt wird. In dieser Ausführungsform wird das Frequenz­ spektrum des Sprachsignals, das durch ein Sprachsignal er­ zeugt worden ist, das durch die Bandpaß-Filterbank 72 verar­ beitet worden ist, als eine Merkmalsgröße verwendet. Dann wird das Sprachintervall festgestellt, und das eingegebene unbekannte Muster wird in dem Register 73 gespeichert. Gleichzeitig wird die Zeit, welche seit dem Feststellungs­ zeitpunkt des vorderen Endes (Anfang) des Sprachintervalls verstrichen ist, durch den Zähler 128 gezählt.
Außerdem wird die Energie eines Sprachsignals festgestellt, und wenn diese Energie kleiner als der Schwellenwert ist, wird dies als ein Teil eines stimmlosen Intervalls betrach­ tet, so daß dessen Lage und Zahl in dem Zähler 127 gespei­ chert werden. Wenn dann der Zeitzähler 127 100 ms erreicht hat, wird eine Markierung von -1 hinzugefügt, soweit ein stimmloses Intervall vorhanden gewesen ist, und es wird eine Markierung von 1 hinzugefügt, soweit kein stimmloses Inter­ vall gewesen ist. Gleichzeitig mit dem Hinzufügen einer Mar­ kierung wird ein Bezugsmuster aus der Bibliothek 135 heraus­ genommen, um so eine vorläufige Anpassung bezüglich der in der Bibliothek 135 gespeicherten Bezugsmuster durchzuführen. Jedes der in der Bibliothek 135 gespeicherten Bezugsmuster hat eine Markierung von -1 oder 1 in Abhängigkeit davon, ob ein stimmloses Intervall am vorderen oder hinteren Ende einer Sprache vorhanden ist oder nicht. Dann wird zuerst vergli­ chen, ob das Bezugsmuster aus der Bibliothek 135 dieselbe Markierung wie diejenige des eingegebenen Musters hat oder nicht. Wenn die zwei Markierungen dieselben sind, da ein stimmloses Intervall in jedem der beiden Muster vorhanden ist, wird eine vorläufige Anpassung durchgeführt. Eine sol­ che vorläufige Anpassung kann beispielsweise durch Verglei­ chen vorherbestimmter Teile der beiden Muster durchgeführt werden. Wenn sich dagegen die beiden Markierungen unterschei­ den wird der Teil des Musters, das ein stimmloses Intervall hat, zwischen dem vorderen Ende und dem stimmlosen Intervall entfernt, und dann wird die vorläufige Anpassung durchge­ führt, um Kandidaten-Bezugsmuster auszuwählen.
Wenn dagegen der vorherbestimmte Zeitabschnitt von 100 ms oder mehr von dem vorderen Ende einer Sprache an verstri­ chen ist, wird der Wert bestimmt, auf welchem von dem augen­ blicklichen Zeitpunkt auf einen Zeitpunkt von über 100 ms zu­ rückgegangen worden ist, und es wird zu derselben Zeit zu­ sammen mit einem Beendigungssignal der Sprache geprüft, ob ein stimmloses Intervall innerhalb der letzten 100 ms vorhan­ den gewesen ist oder nicht; eine Markierung von -1 oder 1 wird dann in Abhängigkeit davon, ob ein stimmloses Intervall vorhanden gewesen ist oder nicht, in ähnlicher Weise wie bei dem vorderen Ende des Musters hinzugefügt. Die restliche Ar­ beitsweise, welche für das vordere Ende des Musters durch­ geführt worden ist, wird dann auch für das hintere Ende des Musters durchgeführt, und es wird erforderlichenfalls ein Teil des Musters entfernt; die endgültige Anpassung wird für die Kandidaten-Bezugsmuster durchgeführt, welche vorher aus­ gewählt worden sind.
In dem vorher beschriebenen Ausführungsbeispiel ist ein Mustervergleichsverfahren und -system vorgese­ hen, in welchen ein Schwellenwert, z. B. 100 ms, verwendet wird, um zu prüfen, ob ein Energieminimum in der Nähe des vorderen Endes (Anfangs) eines Sprachmusters vorhanden ist oder nicht. Wenn ein Energieminimum bei 110 ms vorhanden ist, wird in diesem Fall eine Markierung, welche das Fehlen eines Energieminimums anzeigt, zugeteilt. Wenn dagegen ein Ener­ gieminimum bei 90 ms in dem anderen Muster vorhanden ist, wird dieses Minimum vor einer Anpassung entfernt. Folglich gibt es eine Möglichkeit, eine richtige Anpassung durchzu­ führen. Dies wird nun im einzelnen unter Bezugnahme auf Fig. 43a und 43b beschrieben. Für das in Fig. 43a dargestell­ te Muster wird festgelegt, daß kein Energieminimum in der Nähe des hinteren Endes des Musters vorhanden ist. Für das in Fig. 43b dargestellte Muster wird dagegen festgelegt, daß ein Energieminimum in der Nähe des hinteren Endes des Mu­ sters vorhanden ist. Folglich wird der letzte Laut /p/ des Musters in Fig. 43b entfernt, bevor das Muster in Fig. 43b für ein Anpassen mit dem Muster in Fig. 43a verglichen wird. Dies führt dann zu einer unrichtigen Anpassung.
Ein Aspekt der Erfindung ist insbesondere darauf gerichtet, ein derartiges bei der vorstehend beschriebenen Ausfüh­ rungsform auftretendes Problem zu lösen, damit eine Anpas­ sung zwischen zwei Mustern richtig durchgeführt werden kann. Mit anderen Worten wird beim Vergleich von zwei Mustern zuerst geprüft, ob ein Energieminimum in der Nähe des vorderen oder hinteren Endes jedes der Muster vorhanden ist oder nicht. Wenn ein derartiges Energieminimum nur in einem der Muster vorhanden ist, wird dieser Teil des Musters, 59773 00070 552 001000280000000200012000285915966200040 0002003733659 00004 59654 das ein Energieminimum hat, zwischen dem Minimum und dem vorderen oder hinteren Ende aus dem Muster entfernt und dann wird ein Vergleich zwischen den zwei Mustern durch­ geführt. Wenn dagegen eine Anzahl Minima vorhanden ist, wird die Länge zwischen dem ersten und dem zweiten Minimum eines ersten Musters mit der Länge zwischen dem vorderen Ende und dem ersten Minimum und der Länge zwischen dem ersten und zweiten Minimum eines zweiten Musters verglichen; nur wenn der Musterlängenunterschied bei dem letzteren größer ist, wird dieser Teil des zweiten Musters zwischen dem vorderen Ende und dem ersten Minimum entfernt, und es wird eine An­ passung zwischen dem ersten und zweiten Muster durchgeführt.
In Fig. 35 ist ein Flußdiagramm eines Mustervergleichsverfah­ rens gemäß noch einer weiteren Ausführungsform mit Merkmalen nach der Erfindung dargestellt. In Fig. 36 (36a und 36b) ist großteils in Block­ form ein Spracherkennungssystem zum Durchführen des Verfah­ rens in Fig. 35 dargestellt. Das Spracherkennungssystem weist einen elektroakustischen Wandler 21, wie beispielsweise ein Mikrophon, eine ein Sprachintervall feststellende Einheit 71, eine Bandpaß-Filterbank 72, ein Register 73, eine Sprachenergie-Meßeinheit 242, einen Vergleicher 225, eine Schwellenwert erzeugende Einheit 226, einen Zeitzähler 227, einen Vergleicher 228, einen Zähler 229 für stimmlose Inter­ valle, einen Markierungsvergleicher 230, einen Umschalter 231, eine Bibliothek 232, Recheneinheiten 233 bis 235, einen Vergleicher 236, einen Umschalter 237, eine Musterentfer­ nungseinheit 238, eine Anpassungseinheit 239 und eine Anzei­ geeinheit 240 auf.
In Fig. 41a und 41b sind zwei Beispiele eines Sprachmusters dargestellt, wenn ein Wort "mitaka" auf japanisch ausgespro­ chen wird. In diesem Fall wird eine Länge m2 zwischen dem zweiten und dritten Minimum des Musters der Fig. 41a mit einer Länge n1 zwischen dem vorderen Ende und dem ersten Mi­ nimum des Musters der Fig. 41b und auch mit der Länge n2 zwi­ schen dem ersten und zweiten Minimum des Musters der Fig. 41b verglichen. Wenn der Absolutwert der Differenz (n1-m2) kleiner als der Absolutwert der Differenz (n2-m2) ist, dann wird festgelegt, daß das Minimum, welches innerhalb von 100 ms von dem vorderen Ende vorhanden sein sollte, was als Nähe zu dem vorderen Ende betrachtet werden kann, über den Bereich von 100 ms hinaus ausgedehnt, und folglich werden die zwei Muster als normal festgelegt und so, wie sie sind, mit­ einander verglichen. Wenn dagegen der Absolutwert der Dif­ ferenz (n1-m2) größer als der Absolutwert der Differenz (n2-m2) ist, dann wird festgelegt, daß ein Laut, welcher vor der Länge n1 vorhanden sein sollte, verloren gegangen ist, und daß folglich der vordere Endteil des Musters der Fig. 41a entfernt und erst dann zur Anpassung die beiden Mu­ ster verglichen werden.
Wie unter Bezugnahme auf Fig. 35 und 36 beschrieben wird, wird, wenn ein ausgesprochenes Wort in das Mikrophon 21 ein­ gegeben wird, ein entsprechendes Sprachsignal erzeugt, und dann wird die Energie der Sprache durch die Meßeinheit 224 gemessen, um dadurch ein stimmloses Intervall festzustellen und es wird der Sprache eine andere Markierung zugeteilt in Abhängigkeit davon, ob ein solches stimmloses Intervall in­ nerhalb von 100 ms von dem vorderen Ende (Beginn) der Sprache an vorhanden ist. Ein Bezugsmuster, welches in der Biblio­ thek 232 registriert worden ist, und in welchem eine ähnli­ che Markierung zugeteilt ist, wird aus der Bibliothek 232 entnommen, und es wird geprüft, ob das Bezugsmuster dieselbe Markierung wie das eingegebene Muster hat. Wenn die beiden Muster dieselbe Markierung haben, wird der Schalter 231 zu einem Kontakt a umgeschaltet, um dadurch einen gewöhnlichen Mustervergleich durchzuführen. Wenn dagegen die zwei Markie­ rungen verschieden sind, wird der Schalter 231 zu einem Kon­ takt b umgeschaltet, um dann, wie oben beschrieben, die Be­ rechnungen durchzuführen.
Wenn beispielsweise, wie in Fig. 41 dargestellt, das Bezugs­ muster (z. B. ein in Fig. 41a dargestelltes Muster) sich von dem eingegebenen Muster (z. B. von dem Muster in Fig. 41b) un­ terscheidet, werden Werte von n1, n2 und m2 in den Rechen­ einheiten 233 bis 235 berechnet, und dann wird festgelegt, ob in Abhängigkeit von der Größenbeziehung zwischen den Ab­ solutwerten von (n1-m2) und (n-m2) zu der Musterentfer­ nungseinheit 238 überzugehen ist oder nicht. Vorstehend ist der Fall für das vordere Sprachende beschrieben worden; je­ doch auch in dem Fall, daß eine Geräuschkomponente zu dem hinteren Ende einer Sprache hinzugefügt worden ist oder ein Laut am hinteren Ende einer Sprache (eines Wortes) verloren­ gegangen ist, kann eine derartige Hinzufügung einer Rausch­ komponente oder der Verlust eines Lautes am hinteren Ende eines Wortes auf die folgende Weise durchgeführt werden. Wenn eine Anzahl von m Minima in dem ersten Muster und eine Anzahl von n Minima in dem zweiten Muster vorhanden sind, während die Länge zwischen dem (m-1)ten und dem m-ten Minimum des ersten Musters mit der Länge zwischen dem n-ten Minimum und dem hinteren Ende des zweiten Musters verglichen. Nur wenn der Musterlängen-Unterschied bei letzterem kleiner ist, wird der Teil des zweiten Musters zwischen den bei­ den Mustern entfernt. In dem Beispiel in Fig. 42 hat jedes Muster zwei stimmlose Intervalle; jedoch unterscheidet sich eine zuzuteilende Markierung bei dem Muster der Fig. 42b, in welchem ein stimmloses Intervall innerhalb 100 ms von dem hin­ teren Ende der Sprache aufzufinden ist, von dem Muster der Fig. 42a, in welchem ein stimmloses Intervall nicht innerhalb von 100 ms von dem hinteren Ende der Sprache vorhanden ist.
Aus diesem Grund wird unter normalen Voraussetzungen der letzte Laut /p/ des in Fig. 42b dargestellten Musters ent­ fernt. Gemäß der Erfindung wird jedoch eine Länge m2 des Musters der Fig. 32a mit Längen n2 und n3 des Musters der Fig. 42 verglichen, und nur wenn der Absolutwert der Diffe­ renz (n2-m2) größer als der Absolutwert der Differenz (n3-m2) ist, wird zu der Musterentfernungseinheit 238 übergegangen, in welcher der letzte Laut /p/ des in Fig. 42b dargestellten Musters entfernt wird.
In Fig. 37 ist ein Flußdiagramm dargestellt, welches die Schrittfolge einer Ausführungsform für eine Anpassung zwi­ schen einem Muster mit einem stimmlosen Intervall, das inner­ halb von 100 ms von dem hinteren Ende einer Sprache aufgefun­ den ist, wie es vorstehend beschrieben ist, und einem Mu­ ster ohne ein solches stimmloses Intervall dargestellt. In Fig. 38 ist schematisch ein Spracherkennungssystem zum Durch­ führen des Verfahrens der Fig. 37 dargestellt. Die in Fig. 37 und 38 dargestellte Ausführungsform ist in vieler Hinsicht der in Fig. 35 und 36 dargestellten Ausführungsform ähnlich, so daß nur die Elemente dieser Ausführungsformen, welche sich von den entsprechenden Elementen der vorherigen Ausfüh­ rungsformen unterscheiden, mit Bezugszeichen bezeichnet sind, bei welchen ein Buchstabe "a" hinzugefügt ist. Das heißt, in dieser Ausführungsform werden die Werte von n2, n3 und m2 durch die Recheneinheit 233a bestimmt, und der Abso­ lutwert der Differenz (n3-m2) wird in der Recheneinheit 235a bestimmt. Jedoch gibt es bei einer Sprache, da die Ge­ samtlänge sich dehnt und zusammenzieht, einen Fall, bei wel­ chem eine fehlerhafte Bestimmung vorgenommen wird, wenn nur auf den Absolutwert eines Musters vertraut wird. Unter die­ sen Umständen können in den in Fig. 35 bis 38 dargestellten Ausführungsformen statt der Längen m2, n1, n2 und n3 Werte verwendet werden, welche durch die Sprachlänge normiert sind, d. h. m2/M, n1/N, n2/N und n3/N. Hierbei gegen die Wer­ te M und N die Gesamtlänge der jeweiligen Worte (Sprache) an.
In Fig. 39 ist ein Flußdiagramm einer Ausführungsform darge­ stellt, welches bei solchen normierten Werten Verwendung findet. In Fig. 40 ist schematisch großteils in Blockform ein Spracherkennungssystem zum Durchführen des Verfahrens in Fig. 39 dargestellt. In der Ausführungsform in Fig. 39 und 40 sind die Elemente dieser Ausführungsform, welche sich von denen der vorherigen in Fig. 35 bis 38 dargestellten Ausfüh­ rungsform unterscheiden, mit Bezugszeichen bezeichnet, bei welchen der Buchstabe "b" hinzugefügt ist. Das heißt, in dieser Ausführungsform werden in der Recheneinheit 233b Längen n1, m2, n2 und m3 bestimmt, und die Absolutwerte der normierten Differenzen (n2/N-m2/M) werden in der Rechen­ einheit 234b bestimmt. Außerdem wird der Absolutwert der normierten Differenz (n1/N-n2/M) in der Recheneinheit 235b bestimmt.
Weiterhin ist ein Musteran­ passungsverfahren und -system geschaffen, bei welchem eine Musteranpassung durchführbar ist, selbst wenn ein Energie­ minimum in seiner Position etwas verschoben wird. Das heißt, gemäß der Erfindung wird beim Vergleichen von zwei Mustern zuerst geprüft, ob es ein Energieminimum in der Nähe des vorderen oder hinteren Endes jedes der Muster gibt oder nicht. Wenn ein derartiges Energieminimum nur in einem der beiden Muster vorhanden ist, wird dieser Teil des Musters welches ein solches Energieminimum hat, zwischen dem Ener­ gieminimum und dem vorderen oder hinteren Ende entfernt oder beseitigt, und dann werden die beiden Muster verglichen. Wenn in diesem Fall die beiden Muster eine unterschiedliche Anzahl von Energieminima haben, wird der Teil des Musters, das eine größere Anzahl von Minima hat, zwischen dem vorde­ ren Ende des Musters und dem ersten Minimum oder zwischen dem letzten Minimum und dem hinteren Ende beseitigt. Oder aber es wird geprüft, ob ein Eingangssignal eine Anzahl Energieminima hat oder nicht; wenn eine Anzahl Energieminima vorhanden ist, wird das Verhältnis zwischen der Musterlänge und der Minimumstelle festgestellt, wobei, wenn das sich er­ gebende Verhältnis nahe dem Verhältnis des Bezugsmusters ist und das Energieminimum nur in der Nähe des Endes eines der Muster besteht, eine Anpassung zwischen den Mustern durchgeführt, wobei angenommen wird, daß beide Muster Minima oder keine Minima haben. Ferner wird zuerst geprüft, ob ein Eingangssignal eine Anzahl Energieminima hat oder nicht; wenn eine Anzahl Energieminima vorhanden ist, wird das Ver­ hältnis zwischen der Musterlänge und der Minimumposition festgestellt, wobei, wenn das sich ergebende Verhältnis nahe dem Verhältnis des Bezugsmusters ist, die Musterlänge zwi­ schen dem Energieminimum und dem Musterende jedes der Muster gleich oder kleiner als ein vorherbestimmter Wert ist, und das Energieminimum nur in der Nähe des Endes eines der Mu­ ster vorhanden ist, eine Anpassung zwischen den Mustern durchgeführt wird unter der Annahme, daß beide Muster Minima oder keine Minima haben. Ferner wird alternativ hierzu zu­ erst geprüft, ob ein Eingangssignal eine Anzahl Energiemini­ ma hat oder nicht, und wenn die Anzahl Energieminima sich zwischen dem eingegebenen und dem Bezugsmuster unterschei­ det, wird die Länge zwischen dem Minimum, das dem Musterende am nächsten ist, und einem stimmlosen Intervall des Musters, das eine größere Anzahl von Energieminima hat, von der Mu­ sterlänge des Musters, das eine größere Anzahl von Minima hat, subtrahiert, um einen Wert zu erhalten, welcher dann mit der Musterlänge des anderen Musters verglichen wird, wo­ bei, wenn der auf diese Weise erhaltene Wert näher bei der Musterlänge des anderen Musters liegt, dieser Teil des Mu­ sters, das eine größere Anzahl von Minima hat, zwischen dem Minimum und dem Musterende beseitigt wird; dann erst werden die beiden Muster miteinander verglichen.
In Fig. 44 ist ein Flußdiagramm dargestellt, das eine Schritt­ folge eines Musteranpassungs- oder Vergleichsverfahrens ge­ mäß noch einer weiteren Ausführungsform mit Merkmalen nach der Erfindung dar­ stellt. In Fig. 45 ist ein Spracherkennungssystem zum Durch­ führen des Verfahrens in Fig. 44 dargestellt. Das Spracher­ kennungssystem hat ein Mikrophon 21, eine ein Sprachinter­ vall feststellende Einheit 71, eine Bandpaß-Filtereinheit 72, ein Register 73, eine Sprachenergie-Meßeinheit 224, ei­ nen Vergleicher 225, eine Schwellenwert erzeugende Einheit 226, einen Zeitzähler 227, einen Vergleicher 228, einen Zähler 229 für stimmlose Intervalle, einen Markierungsver­ gleicher 230, einen Umschalter 231, eine Bibliothek 232, eine Musterentfernungseinheit 238, eine Anpassungseinheit 239 und eine Anzeigeeinheit 240. In dieser Ausführungsform wird beim Vergleichen von zwei Mustern, wenn ein Energie­ minimum in der Nähe des vorderen oder hinteren Endes eines Musters vorhanden ist, dieser Teil des Musters, das ein Ener­ gieminimum hat, zwischen dem Energieminimum und dem vor­ deren oder hinteren Ende des Musters entfernt, und dann wer­ den die beiden Muster zur Anpassung miteinander verglichen. Wenn in diesem Fall die Anzahl Minima zwischen den beiden Mustern unterschiedlich ist, wird der Teil des Musters, das eine größere Anzahl Minima hat, zwischen dem ersten oder letzten Minimum und dem Musterende entfernt, und dann werden die beiden Muster verglichen. Hierbei wird angenommen, daß ein Energieminimum in einer Sprache einem stimmlosen Ab­ schnitt in der Sprache (dem Wort) enspricht.
Zuerst wird, wenn die Sprache in das Mikrophon 21 eingegeben wird, ein Sprachsignal erzeugt, und die Energie der Sprache wird durch die Einheit 242 gemessen. Gleichzeitig wird ge­ prüft, ob ein stimmloses Intervall vorhanden ist oder nicht und es wird die Anzahl solcher stimmloser Intervalle aufge­ zeichnet. Dann wird ein Bezugsmuster aus der Bibliothek 232 herausgenommen, und die Anzahl Sprachintervalle in dem Be­ zugsmuster wird mit der Anzahl Sprachintervalle in dem ein­ gegebenen Muster verglichen. Wenn diese Zahlen übereinstim­ men, wird zu einem gewöhnlichen Anpassungsschritt übergegan­ gen, um die zwei Muster, sowie sie sind zu vergleichen. Es wird dann auf einen Schritt übergegangen, um einen Teil eines Musters nur dann zu entfernen, wenn diese Zahlen nicht übereinstimmen. Das heißt, wie im einzelnen noch beschrieben wird, wird die Energie einer in das Mikrophon 21 eingegebenen Sprache mittels der Einheit 224 gemessen, um dadurch die Stelle eines stimmlosen Intervalls festzustellen, und es wird eine andere Marke in Abhängigkeit davon verwendet, ob ein solches stimmloses Intervall innerhalb von 100 ms von dem vor­ deren Ende des Musters aufgefunden wird. Ein Bezugsmuster, indem eine solche Markierung zugeteilt ist, wird aus der Bibliothek 232 herausgenommen, und es wird geprüft, zu se­ hen, ob das eingegebene Muster eine Markierung hat oder nicht, welche mit der Markierung des Bezugsmusters identisch ist. Wenn die zwei Markierungen, dieselben sind, dann wird der Umschalter 231 zu einem Kontakt a umgeschaltet, so daß die beiden Muster so wie sie sind, in üblicher Weise vergli­ chen werden. Wenn dagegen die zwei Markierungen unterschied­ lich sind, dann wird der Schalter 231 zu einem Kontakt b um­ geschaltet, so daß dieser Teil des Musters, welcher eine größere Anzahl von Energieminima hat, zwischen dem ersten oder letzten Minimum und dem Musterende durch die Musterent­ fernungseinheit 238 beseitigt, und danach werden die beiden Muster durch die Anpassungseinheit 239 verglichen. Im Ergeb­ nis kann somit ein fehlerhaftes Muster durch Verschieben ei­ nes stimmlosen Intervalls entsprechend korrigiert werden, und es kann eine Musteranpassung mit hoher Genauigkeit durchge­ führt werden.
In Fig. 46 ist ein Flußdiagramm eines Mustervergleichsver­ fahrens gemäß noch einer weiteren Ausführungsform mit Merkmalen nach der Erfin­ dung dargestellt. In Fig. 47 ist schematisch großteils in Blockform ein Spracherkennungssystem zum Durchführen des Verfahrens in Fig. 46 dargestellt. Diese Ausführungsform ist im Aufbau in vieler Hinsicht der vorstehend anhand von Fig. 44 und 45 beschriebenen Ausführungsform ähnlich, so daß die gleichen Bezugszeichen für die gleichen Elemente verwendet sind. Die Ausführungsform weist einen Vergleicher 241, eine Anzahl stimmlose Intervalle erzeugende Einheit 242, einen Um­ schalter 243, eine Recheneinheit 244, einen Vergleicher 245, eine eine zu multiplizierende Konstante setzende Einheit 246 und einen Umschalter 247 auf. In dieser Ausführungsform wird beim Vergleichen von zwei Mustern zuerst geprüft, ob ein Energieminimum in der Nähe des vorderen oder hinteren En­ des eines Musters vorhanden ist oder nicht. Wenn ein der­ artiges Energieminimum nur in einem der Muster vorhanden ist, wird dieser Teil des Musters, das ein solches Energie­ minium hat, zwischen dem Energieminimum und dem vorderen oder hinteren Ende entfernt, und dann erst werden für eine Anpassung die beiden Muster verglichen. In diesen Fällen wird gemäß der Erfindung geprüft, ob ein Eingangssignal eine Anzahl Energieminima hat oder nicht. Wenn eine Anzahl Ener­ gieminima vorhanden ist, wird das Verhältnis zwischen der Musterlänge und der Position des Energieminimums festge­ stellt. Wenn das sich ergebende Verhältnis im Vergleich zu dem Verhältnis des Bezugsmusters näherliegt und ein Energie­ minimum nur in der Nähe eines der Muster existiert, wird eine Musteranpassung unter der Annahme durchgeführt, daß beide Muster Energieminima oder keine Energieminima haben. Hierbei ist angenommen, daß ein Energieminimum einem stimmlosen Abschnitt einer Sprache entspricht.
Wenn Sprache in das Mikrophon 21 eingegeben wird, wird des­ sen Energie durch die Einheit 224 gemessen, und es wird ge­ prüft, ob es ein stimmloses Intervall in der Sprache gibt oder nicht. Wenn dies der Fall ist, wird deren Lage bestimmt. Wenn ein solches stimmloses Intervall innerhalb von 100 ms von dem vorderen Ende des Sprachmusters aufgefunden wird, wird eine Markierung zugeteilt, welche die Möglichkeit anzeigt, daß eine Rauschkomponente an dem vorderen Ende des Sprach­ musters eingegeben worden ist. Gleichzeitig wird die Anzahl stimmloser Intervalle festgestellt. Wenn zwei oder mehr stimmlose Intervalle in einem der Muster vorliegen, wird geprüft, ob der Unterschied zwischen den Positionsverhältnissen der stimmlosen Intervalle innerhalb 10 Prozent liegt oder nicht. Wenn sie innerhalb 10% liegen, dann wird der Schalter 244 aus der in Fig. 47b dargestellten Schaltung umgeschaltet, um die Musterentfernungseinheit 238 zu umgehen und um folglich einen gewöhnlichen Anpassungsvorgang durchzuführen. Wenn da­ gegen die Differenz 10 Prozent oder mehr ist, dann wird der Schalter 247 in die in Fig. 47b dargestellte Position ge­ bracht und es wird ein Muster mit einer größeren Anzahl von stimmlosen Intervallen der Einheit 238 zugeführt.
Das heißt, gemäß dieser Ausführungsform wird für zwei Mu­ ster mit stimmlosen Intervallen, die bei 110 ms und 90 ms auf­ gefunden worden sind, eine Musteranpassung zwischen den beiden Mustern unter der Annahme durchgeführt, daß kein Geräusch eingebracht ist und keine Information verloren wor­ den ist. Hierbei ist das Verhältnis der Position von stimmlosen Intervallen durch f′/f festgelegt, wobei f eine Muster­ länge (in ms) und f′ eine stimmlose Position (in ms) ist. Wenn die Musterlänge und die Anzahl stimmloser Intervalle groß ist, kann es zu einer Fehlerzunahme grade durch das Verhältnis kommen. Unter diesen Umständen wird dann geprüft, ob ein Eingangssignal eine Anzahl Energieminima hat oder nicht. Wenn eine Anzahl Energieminima bestehen, wird das Ver­ hältnis zwischen der Musterlänge und der Energieminimum- Position bestimmt, und das sich ergebende Verhältnis wird mit dem entsprechenden Verhältnis des Bezugsmusters vergli­ chen. Wenn die beiden Verhältnisse nahe beieinanderliegen und die Länge zwischen dem Energieminimum und dem Musterende jedes der Muster gleich oder kleiner als ein vorherbestimm­ ter Wert ist und wenn darüber hinaus ein Energieminimum nur in der Nähe des Endes eines der Muster vorhanden ist, dann wird eine Musteranpassung unter der Annahme durchgeführt, daß beide Muster Energieminima oder keine Energieminima ha­ ben.
In Fig. 28 ist ein Flußdiagramm der Ausführungsform zur Durchführung einer Musteranpassung dargestellt, wobei ein Verhältnis zwischen der Musterlänge und der Minimumposition festgelegt wird, wenn eine Anzahl Energieminima vorhanden ist. In Fig. 49 (49a und 49b) ist schematisch großteils in Blockform ein Spracherkennungssystem zur Durchführung des Verfahrens in Fig. 48 dargestellt. In dieser Ausführungsform wird nach einer Überprüfung der Differenz des Verhältnisses der Positionen von stimmlosen Intervallen der absolute Ab­ stand oder die entsprechende Zeit eines stimmlosen Abschnitts überprüft, und nur wenn diese Differenz größer als 200 ms ist, wird zu der Musterentfernungseinheit 238 übergegangen. Selbstverständlich sind die speziellen Werte, die hier als 10 Prozent und 200 ms angegeben sind, nur Beispiele und es können auch andere Werte verwendet werden, solange sie die Nähe in geeigneter Weise festlegen können.
In Fig. 50 ist ein Flußdiagramm einer Schrittfolge eines Mustervergleichsverfahrens gemäß noch einer weiteren Aus­ führungsform mit Merkmalen nach der Erfindung dargestellt. In Fig. 51 (51a oder 51b) ist großteils in Blockform ein Spracherkennungssystem mit einem Aufbau zum Durchführen des Verfahrens in Fig. 50 dargestellt. Da diese Ausführungsform in vieler Hinsicht der vorherigen anhand von Fig. 49 beschriebenen Ausführungs­ form ähnlich ist, sind gleiche Bezugszeichen für die glei­ chen Elemente verwendet. In dieser Ausführungsform wird beim Vergleichen von zwei Mustern zuerst geprüft, ob ein Energie­ minimum in der Nähe des vorderen oder hinteren Endes eines Musters vorhanden ist oder nicht. Wenn ein Energieminimum nur in einem der Muster vorhanden ist, wird dieser Teil des Musters, welcher ein solches Energieminimum hat, zwischen dem Energieminimum und dem vorderen oder hinteren Ende ent­ fernt, und danach werden die beiden Muster zur Anpassung miteinander verglichen. In diesem Fall wird bei dieser Aus­ führungsform geprüft, um zu sehen, ob ein Eingangssignal ein Energieminimum hat oder nicht. Wenn die Anzahl Energieminima zwischen dem eingegebenen Muster und dem Bezugsmuster unter­ schiedlich ist, wird die Länge zwischen dem Energieminimum, welches dem Musterende am nächsten ist, und einem stimmlosen Intervall des Musters, das eine größere Anzahl Energiemi­ nima hat, von der Musterlänge des Musters subtrahiert, um einen Wert zu erhalten, welcher dann mit der Musterlänge des anderen Mustes verglichen wird. Wenn der auf diese Weise erhaltene Wert näher bei der Musterlänge des anderen Musters liegt, dann wird dieser Teil des Musters, das eine größere Anzahl Energieminima hat, zwischen dem Energieminimum und dem Musterende entfernt, und dann werden die beiden Muster für ein Anpassen miteinander verglichen. Das heißt, wenn ein stimmloses Intervall am vorderen Ende eines eingegebenen Musters vorhanden ist und es eine Markierung hat, welche sich von der Markierung eines Bezugsmusters unterscheidet, dann wird die Länge von dem vorderen Ende bis zu dem stimm­ losen Intervall des eingegebenen Musters von der Gesamt­ musterlänge Fa des eingegebenen Musters subtrahiert, um die Länge fb zu bestimmen. Dann wird geprüft, welche der Längen fa und fb näher bei der Gesamtmusterlänge Fl des Bezugs­ musters liegt. Nur wenn die Länge Fb näher bei der Länge Fl liegt, wird zu der Musterentfernungseinheit 238 übergegan­ gen.
Nunmehr wird die Ausbildung eines Bezugsmusters beschrieben, das insbesondere bei einer Spracherkennung verwendbar ist. Wie vorstehend beschrieben, ist es äußerst wichtig, ein Bezugssprachmuster mit einer sehr hohen Qualität zu erzeugen, um so eine höhere Erken­ nungsrate zu erhalten. Als Verfahren zum Erzeugen eines der­ artigen Bezugsmusters ist vorgeschlagen worden, dasselbe Wort eine Anzahl Mal auszusprechen, um eine Anzahl Sprach­ muster zu erzeugen, welche dann gemittelt werden, um ein einziges Bezugsmuster festzulegen. Bei dieser Technik kann die statistische Information von Sprachschwankungen auch in dem Bezugsmuster erhalten werden; da jedoch die Aussprache eine Anzahl mal wiederholt werden muß, um ein einziges Be­ zugsmuster zu erzeugen, würde, selbst wenn eine der Ausspra­ chen eine schlechte Feststellung eines Sprachintervalls hat, dies dazu führen, daß das sich ergebende Bezugsintervall in seiner Qualität verschlechtert ist. Ein in Fig. 59a darge­ stelltes Muster hat einen Geräuschanteil, der zu Beginn einer Sprache (eines Wortes) eingebracht worden ist, während ein in Fig. 59b dargestelltes Muster ein normales Muster ist. Wenn ein Durchschnittswert zwischen den beiden Mustern genommen wird, wird eine Übereinstimmung zwischen den bei­ den vorderen Enden und zwischen den beiden hinteren Enden hergestellt. Im Ergebnis wird dann der Geräuschbestand­ teil des Musters in Fig. 59a zu dem vorderen Teil des nor­ malen in Fig. 59b dargestellten Musters hinzugefügt. Daher wird das sich ergebende, gemittelte Muster in der Qualität schlechter.
Um hiermit fertigzuwerden, ist, wie vorstehend beschrieben, gemäß der Erfindung ein Verfahren vorgeschlagen, bei welchem das Vorhandensein oder Fehlen eines Energieminimums inner­ halb einer vorherbestimmten Länge von dem vorderen oder hin­ teren Ende eines Musters geprüft wird, und wenn ein solches Energieminimum nur in einem der beiden zu vergleichenden Muster vorhanden ist, dann wird dieser Teil des Musters, das ein Energieminimum hat, zwischen dem Musterende und dem Energieminimum zu dem Muster hinzugefügt, das kein solches Energieminimum hat. Wenn jedoch gemäß einem derartigen Ver­ fahren, wie in Fig. 60 dargestellt ist, ein Durchschnitts­ wert zwischen dem Muster mit einem Geräuschanteil N, der in Fig. 60a dargestellt ist, und dem Muster ohne einen Geräusch­ anteil, wie in Fig. 60b dargestellt ist gebildet wird, wird der Geräuschanteil N am vorderen Ende des Musters der Fig. 60a zu dem Muster der Fig. 60b hinzugefügt, und dann werden die beiden Muster, die nunmehr beide den Geräuschanteil ha­ ben, gemittelt, wodurch ein in Fig. 60c dargestelltes Mu­ ster erzeugt wird. Gemäß diesem Verfahren wird jedoch in dem Fall, daß ein Energieminimum manchmal erscheint und manchmal auch nicht erscheint, wenn ein bestimmtes Wort ausgesprochen wird, wie es beispielsweise in dem Fig. 61a dargestellten Fall für das japanische Wort "Ido" der Fall ist, das im eng­ lischen "Bewegung" bedeutet oder in dem Fall, daß ein Ener­ gieminimum in seiner Lage bezüglich der Zeitachse nahe dem Schwellenwert verschoben wird, der in Fig. 61b dargestellte Fall wird unnötige Information am vorderen oder hinteren En­ de des Musters hinzugefügt, wie in Fig. 61c dargestellt ist, so daß es einen Fall gibt, bei welchem durch das Anwenden einer Mittelung ein eher schlechteres Bezugsmuster erzeugt wird.
Zur Lösung dieser Geschwindigkeit ist ein Verfahren und ein System geschaffen, um ein Bezugsmuster hoher Qualität zu erzeugen, welche insbesondere bei einer Spracherkennung verwendbar sind. Gemäß der Erfindung werden eine Anzahl Mu­ ster für einen ganz bestimmten interessierenden Fall er­ zeugt, wie beispielsweise für eine Sprache oder ein Wort, und die Anzahl Muster werden verarbeitet, um ein Bezugs­ muster festzulegen. Es wird geprüft, ob es ein Muster ist oder nicht, welches ein Energieminimum innerhalb einer vor­ herbestimmten Länge von dem vorderen oder hinteren Ende des Musters hat. Wenn es ein Muster ohne ein solches Energie­ minimum ist, wird dieser Teil des Musters, das ein Energie­ minimum hat, zwischen dem Energieminimum und dem Musterende zu dem Muster ohne ein derartiges Energieminimum hinzugefügt. In diesem Fall wird gemäß der Erfindung eine erste vorherbe­ stimmte Länge von dem vorderen oder hinteren Ende des Musters an, das kein Energieminimum innerhalb einer zweiten vorherbe­ stimmten Länge von dem vorderen oder hinteren Ende hat, be­ züglich der Ähnlichkeit mit dem Teil des Musters verglichen, das ein Energieminimum zwischen dem vorderen oder hinteren Ende und dem Energieminimum hat, und es wird auch mit einem Block verglichen, der eine große Energie nach oder vor dem Energieminimum aufweist, und das vorstehend erwähnte hin­ zufügen eines Musterbestandteils wird nur dann durchgeführt, wenn die zuerst angeführte Ähnlichkeit kleiner ist als die an zweiter Stelle angeführte Ähnlichkeit.
In Fig. 52 ist schematisch großteils in Blockform ein Sprach­ erkennungssystem gemäß noch einer weiteren Ausführungsform dargestellt, wobei dieses System sich beson­ ders für eine Verwendung in Verbindung mit dem Sprachver­ gleichsverfahren eignet. In Fig. 53 (Fig. 53a und 53b) ist ein Flußdiagramm, anhand welchem die Arbeitsweise des in Fig. 52 dargestellten Systems erläutert wird, dargestellt.
Das dargestellte System weist ein Mikrophon 301, eine Vor­ verarbeitungseinheit 302, eine Merkmal-Extrahiereinheit 303 , einen Puffer 304 für das eingegebene Muster, einen Puffer 305 für das Bibliotheksmuster, eine Sprachenergie-Meßein­ heit 306, eine ein Sprachintervall feststellende Einheit 307, eine ein stimmloses Intervall am Kopfende überprü­ fende Einheit 308, eine ein Sprachintervall am hinteren Ende überprüfende Einheit 309, eine Blockähnlichkeits-Anpassungs­ einheit 310, einen Vergleicher 311, eine Muster-Addierein­ heit 312, eine Registrierungs-Anpassnungseinheit 313 und ei­ nen Bibliotheksspeicher 314 auf. Bei dieser Ausführung wird Sprache in das Mikrophon 301 eingegeben, um ein entsprechen­ des Sprachsignal zu erzeugen, welches dann durch die Vor­ verarbeitungseinheit 301 entsprechend verarbeitet wird; da­ nach wird eine Merkmalsgröße der Sprache durch die Einheit 303 extrahiert. Wie vorstehend beschrieben, kann irgendeine gewünschte Merkmalsgröße oder -Quantität verwendet werden, wie ein Energiespektrum, LPC-Koeffizienten, ein Cepstrum oder igendeine andere Merkmalsgröße.
Gleichzeitig wird die Spracheenergie durch die Einheit 306 gemessen, und ein Sprachintervall wird auch durch die Ein­ heit 307 festgestellt. Die Prüfeinheit 308 überprüft, um zu sehen, ob ein stimmloses Intervall in einer vorherbestimmten Zeitlänge von dem vorderen Ende des Sprachmusters aus vor­ handen ist oder nicht; in ähnlicher Weise überprüft die Prüfeinheit 309, um zu sehen, ob ein stimmloses Intervall in einem vorherbestimmten Zeitintervall von dem hinteren Ende des Sprachmusters aus vorhanden ist oder nicht. Für die erste Aussprache wird das vorstehend beschriebene Verfahren durchgeführt, so daß das sich ergebende Sprachmuster in dem Bibliotheksmuster-Speicher 305 gespeichert wird. Bei der zweiten Aussprache für dasselbe Wort wird das zweite Wort in ähnlicher Weise verarbeitet, und das sich ergebende Muster wird in dem Puffer 304 für eingegebene Muster gespeichert. Dann wird eine Mittelung zwischen dem ersten Muster in dem Puffer 305 und dem zweiten Muster in dem Puffer 304 durchge­ führt, um ein gemitteltes Muster zu erzeugen, welches dann als Bezugsmuster in dem Bibliotheksspeicher 314 gespeichert wird. Für das dritte und folgende Aussprechen desselben Wortes wird die Mittelbildung zwischen dem Bezugsmuster und dem eingegebenen Muster durchgeführt.
Wenn, wie in Fig. 60a dargestellt, ein Geräuschanteil (z. B. das Geräusch beim Öffnen und Schließen des Mundes oder der Lippen oder ein Hintergrundgeräusch) in das Muster an dessen Kopfende eingebracht worden ist, wird ein Zeichen durch die das vordere Ende eines stimmlosen Intervalls überprüfende Einheit für das in Fig. 60a dargestellte Muster gesetzt. Da bei dem nächsten eingegebenen, in Fig. 60a dargestellten Mu­ ster kein Geräuschanteil vorhanden ist, wird der Geräuschan­ teil des Mustes der Fig. 60a zu dem vorderen Ende des Mu­ sters der Fig. 60b hinzugefügt, um das in Fig. 60c darge­ stellte Muster zu erzeugen. Die beiden Muster werden dann gemittelt, um dadurch ein Bezugsmuster hoher Güte festzulegen. Jedoch wird, wie in Fig. 61 dargestellt ist, für den Fall, daß das Muster in Fig. 61a ein stimmloses Intervall inner­ halb einer vorherbestimmten Länge von dem vorderen Ende hat und das Muster in Fig. 61b kein solches stimmloses Intervall hat, ein fehlerhaftes Bezugsmuster erzeugt, wie in Fig. 61c dargestellt ist. In diesem Fall hat das Muster in Fig. 61a keine Rauschkomponente, obwohl ein stimmloses Intervall inner­ halb einer vorherbestimmten Länge hat, ähnlich wie im Fall der Fig. 60a, wobei in diesem Fall der Geräuschanteil N ein­ gebracht worden ist.
Zur Lösung dieses Aspekts der Erfindung wird, wie in Fig. 54 dargestellt, für den Fall, daß ein stimmloses Intervall innerhalb einer vorherbestimmten Länge von dem vorderen Ende aus in einem der Muster vorhanden ist und kein derartiges stimmloses Intervall in dem anderen Muster vorhanden ist, die Ähnlichkeit M0 zwischen den vorderen Enden a und b der je­ weiligen Muster und auch die Ähnlichkeit M1 zwischen dem vor­ deren Teil b des in Fig. 54b dargestellten Musters, das kein stimmloses Intervall hat, und dem Block c nach dem stimmlosen Intervall des in Fig. 54a dargestellten Musters, das ein stimmloses Intervall hat, bestimmt. Da im Falle der Fig. 54 (54a und 54b) die beiden Muster Silben "i" und "do" ohne eine Hinzufügung eines Rauschanteils und ohne Informations­ verlust aufweisen, ist die Ähnlichkeit M0 größer als die Ähn­ lichkeit M1. Wenn in einem solchen Fall die Beziehung gilt, M0 ist größer als M1, dann wird die Mittelung zwischen den beiden Mustern ohne Hinzufügen eines Musterbestandteils durchgeführt. Wenn dagegen ein Geräuschanteil am vorderen Ende eingebracht worden ist, wie in Fig. 55a dargestellt ist, oder der hintere Teil der Sprachinformation verloren­ gegangen ist, wie in Fig. 55b dargestellt ist, sollte die Ähnlichkeit M0 zwischen den Teilen a und b kleiner sein als die Ähnlichkeit M1 zwischen den Teilen b und c. Folglich wird, solange die Bedingung gilt, M0 ist kleiner als M1, der Rauschanteil des Musters der Fig. 55a zu dem vorderen Ende des Mustes der Fig. 55b hinzuaddiert.
In dem in Fig. 56a und 56b dargestellten Fall haben beide Muster ein stimmloses Intervall innerhalb einer vorherbe­ stimmten Länge von dem vorderen Ende aus. In dem Muster der Fig. 56a ist ein Geräuschanteil an dem vorderen Ende ein­ gebracht worden, und die Ähnlichkeit M0 sollte kleiner sein als die Ähnlichkeit M1. Folglich sollte der Rauschanteil des Musters der Fig. 56a vor einer Mittelung an dem vorderen Ende des Musters der Fig. 56b hinzugefügt werden. Folglich werden gemäß der Erfindung für den Fall, daß jedes der bei­ den Muster ein stimmloses Intervall an dem vorderen Ende hat, wenn die Anzahl stimmloser Intervalle zwischen den beiden Mu­ stern verschieden ist, wenn beispielsweise das Muster der Fig. 56a zwei stimmlose Intervalle hat und das Muster der Fig. 56b nur ein stimmloses Intervall hat, die zwei Ähnlich­ keiten zwischen ausgewählten Teil der beiden Muster berech­ net, und es wird bestimmt, ob eine Musteraddition vor einer Mittelung durchzuführen ist oder nicht, wie vorstehend be­ reits beschrieben ist. Und zwar ist dies bezüglich des vor­ deren Ende eines Sprachmusters beschrieben; jedoch kann eine entsprechende Verarbeitung auch für das hintere Ende eines Musters durchgefüht werden. Wenn wie im Falle der Durchführung des vorstehend beschriebenen Verfahrens für das vordere Ende eines der Muster ein stimmloses Intervall innerhalb einer vorherbestimmten Länge von dem hinteren Ende hat, ist es äußerst schwierig festzulegen, ob ein Mu­ sterbestandteil an dem vorderen oder an dem hinteren Ende hinzuzufügen ist. Folglich wird in einem solchen Fall vor­ zugsweise die Verarbeitung bezüglich des vorderen Endes nicht durchgeführt, selbst wenn den vorstehend beschriebe­ nen Bedingungen genügt ist, da das Verarbeitungsergebnis für das vordere Ende noch nicht bekanntgeworden ist (Fig. 57); die vorstehend beschriebene Verarbeitung für das vordere En­ de wird durchgeführt, wenn beide Muster ein stimmloses Inter­ vall innerhalb einer vorbestimmten Länge ausgehend von dem hinteren Ende haben (Fig. 58).
In Fig. 62 ist schematisch großteils in Blockform ein Spracherkennungssystem gemäß noch einer wei­ teren Ausführungsform mit Merkmalen nach der Erfindung dargestellt. Die in Fig. 62 dargestellte Ausführungsform ist in vieler Hinsicht der Ausführungsform in Fig. 52 ähnlich, so daß gleiche Ele­ mente mit den gleichen Bezugszeichen bezeichnet sind. In Fig. 63 (63a und 63b) ist ein Flußdiagramm dargestellt, das zur Erläuterung der Arbeitsweise des in Fig. 62 dargestell­ ten Systems verwendet wird. Dieses Spracherkennungssystem weist ein Mikrophon 301, eine Vorverarbeitungseinheit 302, eine Merkmal-Extrahiereinheit 303, einen Puffer 304 für ein eingegebenes Muster, einen Puffer 305 für ein Bibliotheks­ muster, eine Sprachenergie-Meßeinheit 306, eine ein Sprach­ intervall feststellende Einheit 307, eine ein stimmloses In­ tervall am vorderen Ende überprüfende Einheit 308, eine ein stimmloses Intervall am hinteren Ende überprüfende Einheit 309, eine Rahmenlängen-Berechnungseinheit 320, einen Ver­ gleicher 311, eine Muster-Addiereinheit 312, eine Registrie­ rungs-Anpassungseinheit 313 und einen Bibliotheksspeicher 314 auf.
Die grundsätzliche Arbeitsweise dieser Ausführungsform ist derjenigen sehr ähnlich, welche unter Bezugnahme auf Fig. 52 vorstehend beschrieben worden ist, weshalb auf diese Be­ schreibung Bezug genommen wird. Im Aufbau unterscheidet sich die in Fig. 62 dargestellte Ausführungsform von der in Fig. 52 dargestellten Ausführungsform dadurch, daß zusätzlich eine Rahmenlängen-Berechnungseinheit 320 vorgesehen ist. Wenn bei dieser Ausführungsform, wie in Fig. 64 dargestellt ist, ein stimmloses Intervall innerhalb einer vorherbestimm­ ten Länge ausgehend von dem vorderen Ende in einem der bei­ den zu vergleichenden Muster vorhanden ist, wie in Fig. 64a dargestellt ist, und wenn kein solches stimmloses Intervall in dem anderen Muster vorhanden ist, wie in Fig. 64b darge­ stellt ist, wird der Kopfteil des Musters der Fig. 64a, das ein stimmloses Intervall hat zu dem vorderen Ende des Musters der Fig. 54b, das kein stimmloses Intervall hat, nur dann hinzugefügt, wenn der Absolutwert der Differenz zwischen der gesamten Rahmenlänge (x + nf) des Musters der Fig. 64b zusam­ men mit der Hinzufügung des Kopfteils des Musters 64a und die Rahmenlänge xf des Musters der Fig. 64a kleiner als der Absolutwert der Differenz zwischen der ursprünglichen Rah­ menlänge nf des Musters der Fig. 64 und der Rahmenlänge des Musters der Fig. 64a ist. Diese Bedingung kann auf fol­ gende Weise ausgedrückt werden:
K1 × Absolutwert von (nf-xf) ist größer als
K2 × Abso­ lutwert von (x+nf-xf). (1)
Hierbei sind K1 und K2 Konstante, welche die Differenzgren­ zen festlegen und sind vorzugsweise so gesetzt, daß sie der Bedingung K1/K2 = 1 · 1 genügen.
In Fig. 64 (64a, 64b) ist der Fall dargestellt, daß kein Mu­ sterbestandteil hinzugefügt wird, d. h. K1 × Absolutwert von (xf-nf) ist kleiner als K2 × Absolutwert von (x+nf-xf).
In Fig. 65 (65a, 65b) ist der Fall dargestellt, daß ein Musterbestandteil hinzugefügt werden sollte, d. h. K1 × Absolutwert von (xf-nf) ist größer als K2 × Absolutwert von (x+nf-xf). Auf diese Weise wird ein Teil des Musters zu dem anderen Muster nur dann hinzugefügt, wenn die Län­ gendifferenz zwischen den beiden Mustern mit einer Hinzu­ fügung kleiner ist als ohne eine Hinzufügung. Mit Hilfe dieser Methode kann jederzeit ein Bezugsmuster hoher Quali­ tät erhalten werden.
In dem in Fig. 66 dargestellten Fall haben die beiden Muster ein stimmloses Intervall innerhalb einer vorherbestimmten Länge ausgehend von dem vorderen Ende, und die Anzahl der stimmlosen Intervalle ist bei den beiden Mustern verschieden. Ganz offensichtlich ist durch die vorstehend beschriebene Beziehung den beiden in Fig. 66a und 66b dargestellten Mu­ stern genügt. Folglich wird gemäß der Erfindung dem Kopfteil des Musters der Fig. 66a der Kopfteil des Musters der Fig. 66b hinzugefügt, und dann wird eine Mittelung zwischen den Mustern hindurchgeführt. Es sollte beachtet werden, daß, ob­ wohl es bezüglich des Kopfendes eines Musters beschrieben worden ist, dies genauso bei dem hinteren Teil eines Musters anwendbar ist. Außerdem gelten die Argumente, welche bezüg­ lich der Fig. 57 und 58 in der vorherigen Ausführungsform beschrieben worden sind, auch für die vorliegende Ausfüh­ rungsform.
Nunmehr wird die Erfindung bezüglich einer vorläufigen Mu­ steranpassung beschrieben. Als weiterer Fortschritt auf dem Gebiet der Spracherkennung ist nunmehr ein Spracherkennungs­ system durchführbar, bei dem annähernd 1000 Worte erkannt werden können. Das Grundschema bei dieser Spracherkennung ist beinahe immer eine Musteranpassung. Wenn die Anzahl Worte, welche durch ein Spracherkennungssystem erkannt wer­ den können, zunimmt, nimmt die Anzahl an Bezugssprachmustern zu, welche für eine Anpassung bezüglich eines eingegebenen, unbekannten Sprachmusters zu registrieren sind, was dann eine größere Speicherkapazität erfordert. Außerdem wird die Zeit zum Durchführen einer Musteranpassung länger, da der Ähnlichkeitsgrad zwischen dem eingegebenen unbekannten Muster und jedem der Bezugsmuster berechnet werden muß. Um mit diesem Problem fertigzuwerden, ist vorgeschlagen worden, ein vorläufiges Auswählschema anzuwenden, welches die Be­ zugsmuster auf eine kleinere Anzahl von sogenannten Kandi­ daten-Mustern mit bestimmten Merkmalen beschränkt; es wird dann eine Musteranpassung zwischen dem eingegebenen Muster und jedem der ausgewählten Kandidaten-Muster durchgeführt, deren Anzahl geringer ist. Üblicherweise kann die Anzahl stimmloser Intervalle, die in jedem Muster vorhanden sind, oder die Dauer eines solchen stimmlosen Intervalls als Merk­ mal für eine vorläufige Auswahl benutzt werden.
Jedoch besteht im Falle eines Wortes, wie "Stopp", das in Fig. 71 dargestellt ist, an sich ein Konsonant am vorderen oder hinteren Ende des Wortes, so daß es oft der Fall ist, daß dieser Teil des Wortes nach dem stimmlosen Intervall A2 am hinteren Ende verloren geht und nicht festgestellt wird. Folglich ändert sich die Durchführung des vorläufigen Aus­ wahlschemas in Abhängigkeit davon, ob die Anzahl stimmloser Intervalle oder die Dauer eines stimmlosen Intervalles rich­ tig festgestellt wird oder nicht. Diese Schwierigkeit be­ steht nicht nur für ein Wort wie "Stopp", welches einen unabhängig ausgesprochenen Konsonanten hat, sondern auch für ein Wort, wie "fifteen", welches einen schwach ausgespro­ chenen Laut, wie nämlich /f/ "fifteen" an dem vorderen Ende des Wortes hat, wie in Fig. 72 dargestellt ist.
Zur Lösung dieser Schwierigkeit kann eine vorläufige Auswahl von Bezugsmustern genau durchgeführt werden, selbst wenn ein Sprach- oder Sprechintervall nicht richtig festgestellt wird. In Fig. 67 ist ein Flußdiagramm einer vorläufigen Auswählmethode dargestellt, das in einem Sprach­ erkennungssystem gemäß noch einer weiteren Ausführungsform mit Merkmalen nach der Erfindung anwendbar ist. In Fig. 68 ist in Blockform ein vorläufiges Auswählsystem zur Durchführung des Verfah­ rens in Fig. 67 dargestellt. Das System weist ein Mikro­ phon 401, eine ein Sprechintervall feststellende Einheit 402, eine Filterbank 403, einen Hoch/Tief-Frequenzbereich-Ver­ gleicher 404, einen Vergleicher 405, einen Zähler 406 und eine Anpassungseinheit 407 auf. Bei diesem Aufbau wird eine erste Anzahl Muster auf eine zweite Anzahl beschränkt, wel­ che kleiner als die erste Anzahl Muster ist, um die Anzahl Merkmale, welche die Muster besitzen und/oder die Dauer ei­ nes derartigen Merkmals zu vergleichen. Wenn ein solcher Merkmalteil am vorderen oder hinteren Ende eines Musters vorhanden ist, wird dieser Merkmalsteil aus dem Muster ent­ fernt, und die Anzahl an Merkmalsteilen oder die Dauer eines solchen Merkmalsteils werden festgelegt, um in dem vorläu­ figen Auswahlschema verwendet zu werden. Wie in Fig. 67 dar­ gestellt, wird zuerst geprüft, ob der Laut /f/ an dem vorde­ ren Ende eines eingegebenen Sprachmusters vorhanden ist oder nicht; wenn dies der Fall ist, wird dieser Laut /f/ von dem Kopfende des eingegebenen Musters entfernt. In ähnlicher Weise wird dann geprüft, ob ein anderer Laut /f/ am hinteren Ende des eingegebenen Musters vorhanden ist oder nicht; wenn dies der Fall ist, wird dieser Laut /f/ von dem hinteren Ende des eingegebenen Musters entfernt. Dann wird die Anzahl von /f/-Lauten, die in dem restlichen eingegebenen Muster vorhanden sind, gezählt. Die auf diese Weise gezählte Anzahl von /f/-Lauten wird zusammen mit einem zugeordneten Bezugs­ muster in einer Bibliothek gespeichert. Im Erkennungsmode wird die Anzahl von /f/-Lauten eines eingegebenen Musters, welches, wie oben beschrieben, gezählt worden ist, mit der gespeicherten Anzahl von /f/-Lauten jedes der Bezugsmuster verglichen, um dadurch vorläufig mögliche Kandidaten-Muster aus den in einem Speicher gespeicherten Bezugsmusters aus­ zuwählen.
Dies wird nunmehr im einzelnen anhand von Fig. 68 beschrie­ ben; die Sprache wird in das Mikrophon 401 eingegeben, um entsprechendes Sprachsignal zu erzeugen, welches dann der das Sprechintervall feststellenden Einheit 402 zugeführt wird, in welcher eine Sprachinformation extrahiert wird. Das Sprachsignal wird dann einer Frequenzanalyse in der Fil­ terbank 403 unterzogen. In dieser Ausführungsform folgt auf die Filterbank 403 in der Flußrichtung eines Sprachsignals der Detektor 402. Jedoch kann die Reihenfolge der Anordnung zwischen den beiden Elementen erforderlichenfalls auch umgedreht werden. Außerdem wird in der dargestellten Ausfüh­ rungsform als eine Merkmalsgröße das Ergebnis einer Frequenz­ analyse verwendet, d. h. ein Energiespektrum; jedoch kann auch irgendeine andere gewünschte Größe, wie beispielsweise LPC-Koeffizienten, verwendet werden. Um in der dargestellten Ausführungsform den Laut /f/ festzustellen, wird geprüft, ob der hochfrequente Bestandteil größer als der niederfrequente Bestandteil ist oder nicht. Bei diesem Verfahren werden nicht nur der Laut /f/, sondern auch andere Laute wie /s/, welche eine ähnliche Charakteristik haben festgestellt, je­ doch ist dies kein bedeutsames Problem, da alle diese Laute als eine Einheit behandelt werden können.
Als Alternative hierzu, den Laut /f/ festzustellen, wird ein Muster eines Lautes, das dem Laut /f/ ähnlich ist, regi­ striert, und es kann eine Anpassung zwischen diesem Muster und einem eingegebenen Muster durchgeführt werden. Der Ver­ gleicher 405 legt fest, ob ein Laut, welcher möglicherweise ein /f/-Laut sein kann, bei der Feststellung eines anstei­ genden Endes einer Sprache (eines Wortes) durch die Fühlein­ heit 402 festgestellt wird, oder ob ein Laut, der möglicher­ weise ein /f/-Laut sein kann, fortwährend am Ende eines Wortes vorhanden ist und es werden die Länge eines derar­ tigen Lautes und die Anzahl derartiger Laute durch den Zäh­ ler 406 gezählt. In diesem Fall startet der Zähler 406 beim Feststellen eines /f/-Lautes und der Zähler 406 stoppt beim Feststellen eines anderen Lautes als der /f/-Laut.
In Fig. 69 ist ein Flußdiagramm eines vorläufigen Auswähl­ verfahrens dargstellt, das insbesondere in Verbindung mit einer Spracherkennung verwendbar ist und gemäß noch einer weiteren Ausführungsform mit Merkmalen nach der Erfindung ausgelegt ist. In Fig. 70 ist schematisch in Blockform ein Auswählsystem zur Durchführung des Verfahrens in Fig. 69 dargestellt. Wenn in dieser Ausführungsform ein vorherbestimmter Merkmalsteil in der Nähe des vorderen oder hinteren Endes eines Musters vorhanden ist, wird dieser Merkmalsteil aus dem Muster ent­ fernt, und die Anzahl an anderen Merkmalsteilen oder die Dau­ er eines solchen Merkmalsteils in dem übrigen Teil des Mu­ ster wird festgestellt. Mit Hilfe der auf diese Weise er­ haltenen Information wird dann eine vorläufige Auswahl durch­ geführt, um die Anzahl Bezugsmuster zu begrenzen, welche für eine Musteranpassung zu verwenden sind. Da die in Fig. 70 dargestellte Ausführungsform in vieler Hinsicht der in Fig. 68 dargestellten Ausführungsform ähnlich sind, sind die gleichen Bezugszeichen für die gleichen Elemente verwendet. Im Falle eines solchen Lautes, wie /f/-Lautes, wird dieser oft in der Nähe des vorderen oder hinteren Endes ei­ nes Wortes aufgefunden; wenn ein Konsonant an sich ausge­ sprochen wird, existiert ein stimmloses Intervall vor oder nach einem solchen Konsonanten. In der vorliegenden Ausfüh­ rungsform, wie sie in Fig. 70 dargestellt ist, wird statt des Hoch/Tieffrequenz-Bereichs-Vergleichers 404 der in Fig. 68 dargestellten Ausführungsform eine Energie feststellende Einheit 408 vorgesehen, welche dazu verwendet wird, die Stelle eines stimmlosen Intervalls zu bestimmen. Folglich wird ein stimmloses Intervall auf der Basis der Größe von Sprach­ energie bestimmt. Wenn ein solches stimmloses Intervall in­ nerhalb von 0,1 bis 0,2 s von dem vorderen oder hinteren Ende der Sprache (des Wortes) herausgefunden wird, wird festge­ legt, daß das Sprachmuster einen Aufbau hat, wie er in Fig. 71 dargestellt ist. Folglich wird dieser Teil aus dem Sprachmuster entfernt, und es wird geprüft, wie viele stimmlose Intervalle in dem restlichen Teil des Sprachmusters vorhanden sind, oder wie lang das stimmlose Intervall in dem restlichen Teil des Sprachmusters andauert; dann werden sol­ che Daten zusammen mit dem zugeordneten Sprachmuster ge­ speichert. In dem Erkennungsmode wird ein eingegebenes Mu­ ster in ähnlicher Weise verarbeitet, um die Anzahl an stimmlosen Intervallen und/oder die Dauer eines stimmlosen Inter­ valles festzustellen; diese Daten werden dann verwendet, um sie mit den gespeicherten Daten von registrierten Bezugs­ mustern zu vergleichen, um dadurch die Bezugsmuster zu be­ schränken, um so mögliche Kandidaten-Muster auszuwählen. Jedes dieser Kandidatenmuster wird dann durch eine Musteran­ passung vollständig mit dem eingegebenen Muster verglichen, um so das eine Kandidaten-Muster mit dem höchsten Ähnlich­ keitsgrad auszuwählen. Auf diese Weise kann die Identität des eingegebenen Musters oder der eingegebenen Sprache (Wortes) er­ kannt werden.
Bezugszeichenliste
  1 Spracheingabe
  2 Energie-Messung
  3 Merkmalsgrößen-Umsetzung
  4 Feststellen einer lautlosen Stelle
  5 Liegt lautlose Stelle in 100 ms n. hint. Ende?
  6 Markierungsaddition
  7 Bibliothek
  8 Dieselbe Markierung?
  9 Musterentfernung
 10 Musteranpassung
 11 Liegt lautlose Stelle innerhalb 100 ms vom Kopfende?
 21 Mikrophon
 22 Filterbank
 23 Sprachintervall-Feststellung
 24 Merkmalsextraktion
 26 Vergleich
 27 /f/-Flag
 28 Vergleich
 29 Register 3
 30 Bibliotheksregister
 31 Markierungsvergleich
 32a Register 1
 32b Register 2
 33 Ähnlichkeitsgrad
 34a Register 4
 34b Register 5
 35 Ähnlichkeitsgrad
 36 Addierer
 37 Musterspeicherung
 39 Addition von Kopfende-Muster
 40 Überlagerungs-Mitteilungsvorgang
 42 Addition von dem internen Ende-Muster
 45 Register
 45a Register
 45b Register
 46 Register
 46a Mittelung
 46b Mittelung
 47 Zeitzählen
 48 Musterregister
 49 Flag-Prüfeinheit
 50 Muster-Verbindungseinheit
 54 Binäre Umsetzung
 55 BTSP-Formierung
 56 Addierer von Sprachmustern die n-mal durch lineare Expansion oder Kontraktion erzeugt worden sind
 57 Bibliothek
 58 Scheitelwert-Musterbildung
 59 Musterlängenanpassung durch lineare Expansion oder Kontraktion
 60 Ähnlichkeitsberechnung
 71 Sprachintervall-Festlegung
 72 Bandpaßfilter
 73 Register
 74 Energiemessung
 75 Vergleich
 76 Schwellenwert
 77 Zeitzähler
 78 Vergleich
 79 Zähler für lautlose Intervalle
 80 Markierungsvergleich
 81 Umschalter
 82 Bibliothek
 83 Rahmen-Länge
 84 Rahmen-Länge
 85 Multipliziereinheit
 86 Multiplizierkonstanten-Einstelleinheit
 87 Vergleich
 88 Umschalter
 89 Musterentfernung
 90 Anpassung
 91 Resultatanzeige
101 Spracheingabe
102 Energiemessung
103 Merkmalsgrößen-Umwandlung
104 Lautlose Positionsfeststellung
105 Liegt lautlose Position innerhalb von 100 ms vom hinteren Ende?
106 Markierungsaddition
107 Bibliothek
108 Dieselbe Markierung?
109 Musterentfernung
110 Musteranpassung
111 Liegt lautlose Position innerhalb von 100 ms vom Kopfende?
124 Energie
125 Vergleich
126 Schwellenwert
127 Zähler für lautlose Intervalle
128 Zeitzähler
129 Vergleich
130 Vergleich
131 Zeit - 100 ms
132 Zeiterzeugungseinheit
133 Markierungsaddition
134 Vergleich
135 Bibliothek
137 Musterentfernung an lautloser Position
138 Anpassung
139 Kandidaten
140 Ergebnis
224 Energiemessung
225 Vergleich
226 Schwellenwert
227 Zeitzähler
228 Vergleich
229 Zähler für lautlose Intervalle
230 Markierungsvergleich
232 Bibliothek
233 Recheneinheit
234 Recheneinheit
235 Recheneinheit
236 Vergleich
237 Umschalter
238 Muster-Entfernung
239 Anpassung
240 Resultatanzeige
241 Vergleich
242 Nummer der lautlosen Abschnitte 2
245 Vergleich
246 Multiplizierkonstanten-Einstelleinheit
247 Schalter
249 Vergleich
253 Vergleich
301 Mikrophon
302 Vorverarbeitung
303 Merkmals-Extraktion
304 Puffer für Eingabemuster
305 Puffer für Bibliotheksmuster
306 Sprachenergie-Feststellung
307 Sprachintervall-Feststellung
308 Lautloses Prüfen am Kopfende
309 Lautloses Prüfen am Wortende
310 Blockähnlichkeit
311 Vergleich
312 Muster-Addition
313 Registrierungs-Anpassung
314 Bibliotheksspeicher
320 Rahmenlängen-Berechnung
401 Mikrophon
402 Sprachintervall-Feststellung
403 Filterbank
404 Vergleich von hoch-/niederfrequentem Bereich
405 Vergleich
406 Zähler
407 Anpassung
408 Energiefeststellung

Claims (21)

1. Verfahren zum Vergleichen eines Eingangs-Sprachmusters mit einem registrierten Sprachmuster, welches in einer Bibliothek gespeichert ist, und zum Berechnen des Ähnlichkeitsgrades zwischen den Mustern, dadurch gekennzeichnet, daß
gemäß einem ersten Feststellschritt das Vorhandensein oder Fehlen einer unstabilen Komponente in dem Eingangs-Sprachmuster festgestellt wird,
gemäß einem ersten Teilungsschritt das Eingangs-Sprachmuster in eine unstabile Komponente und eine verbleibende stabile Komponente aufgeteilt wird, wenn gemäß dem ersten Feststellschritt festgestellt wurde, daß das Eingangs-Sprachmuster eine unstabile Komponente enthält,
gemäß einem zweiten Feststellschritt das Vorhandensein oder Fehlen einer unstabilen Komponente in dem gespeicherten Sprachmuster festgestellt wird,
gemäß einem zweiten Teilungsschritt das gespeicherte Sprachmuster in eine unstabile Komponente und eine verbleibende stabile Komponente aufgeteilt wird, wenn gemäß dem zweiten Feststellschritt festgestellt wurde, daß das gespeicherte Sprachmuster eine unstabile Komponente enthält,
dann ein Vergleichsschritt durchgeführt wird, um die stabile Komponente des Eingangs-Sprachmusters, die gemäß dem ersten Teilungsschritt erhalten wurde, mit der stabilen Komponente des gespeicherten Sprachmusters, die bei dem zweiten Teilungsschritt erhalten wurde, zu vergleichen, und ein Schritt zur Berechnung des Ähnlichkeitsgrades durchgeführt wird, um den Ähnlichkeitsgrad zwischen dem Eingangs- Sprachmuster und dem gespeicherten Sprachmuster auf der Grundlage des Ergebnisses des Vergleichsschrittes zu berechnen.
2. Verfahren nach Anpruch 1, dadurch gekennzeichnet, daß dann, wenn die unstabile Komponente sowohl beim ersten als auch beim zweiten Feststellschritt festgestellt worden ist, auch die unstabile Komponente des Eingangs-Sprachmusters, die beim ersten Teilungschritt erhalten wurde, mit der unstabilen Komponente des gespeicherten Sprachmusters, die beim zweiten Teilungsschritt erhalten wurde, verglichen wird.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die unstabile Komponente ein Teil eines Sprachmusters ist, gerechnet vom Anfang desselben bis zu einem stimmlosen Intervall desselben, sofern das stimmlose Intervall innerhalb einer vorbestimmten Zeitdauer, gerechnet vom Anfangsende des Sprachmusters, vorhanden ist.
4. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die unstabile Komponente ein Teil eines Sprachmusters ist, gerechnet von dessen stimmlosen Intervall bis zu seinem hinteren Ende, sofern das stimmlose Intervall innerhalb einer vorbestimmten Zeitdauer bis zum hinteren Ende des Sprachmusters auftritt.
5. Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, daß die vorbestimmte Zeitperiode gleich 100 Millisekunden ist.
6. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die unstabile Komponente einen Teil eines Sprachmusters bildet, der dicht am Anfangsende des Sprachmusters gelegen ist und der einen Unterschied hinsichtlich einer hochfrequenten Komponente und einer niederfrequenten Komponente größer als ein vorbestimmter Wert aufweist.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Hochfrequenzkomponente zwischen 1 KHz und 6 KHz liegt und die Niederfrequenzkomponente zwischen 200 Hz und 1 KHz liegt.
8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß der erste Feststellschritt gleichzeitig mit der Erstellung des Eingangs-Sprachmusters ausgeführt wird.
9. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß der erste Feststellschritt durch Feststellen einer Identifikationsmarke ausgeführt wird, welche das Vorhandensein oder Fehlen der unstabilen Komponente anzeigt, die zum Zeitpunkt der Erstellung des Eingangs-Sprachmusters hinzugefügt wurde.
10. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß der zweite Feststellschritt durch Feststellen einer Identifikationsmarke ausgeführt wird, welche das Vorhandensein oder Fehlen der unstabilen Komponente anzeigt, welche zum Zeitpunkt der Erstellung des Eingangs-Sprachmusters hinzugefügt wurde.
11. Verfahren nach Anspruch 9 oder 10, dadurch gekennzeichnet, daß die Identifikationsmarke Informationen enthält, welche anzeigen, ob die unstabile Komponente nahe dem Anfangsende eines Sprachmusters oder nahe dem hinteren Ende des Sprachmusters gelegen ist, als auch Informationen enthält, welche das Vorhandensein oder Fehlen der unstabilen Komponente anzeigen.
12. Verfahren zur Herstellung eines Bezugs-Sprachmusters, welches in einer Bibliothek abzuspeichern ist, dadurch gekennzeichnet, daß
gemäß einem Feststellschritt das Vorhandensein oder Fehlen einer unstabilen Komponente in jedem einer Vielzahl von Sprachmustern festgestellt wird, die durch mehrmaliges Erzeugen des gleichen Wortes erhalten werden,
dann ein Teilungsschritt durchgeführt wird, um das Sprachmuster in eine unstabile Komponente und eine stabile Komponente aufzuteilen, wenn bei dem Feststellschritt festgetellt wurde, daß das Sprachmuster eine unstabile Komponente enthält, und
dann ein Überlagerungsschritt durchgeführt wird, um ein einzelnes Sprachmuster dadurch herzustellen, daß für jede Gruppe von unstabilen Komponenten und stabilen Komponenten, die bei dem Teilungsschritt erhalten wurde, eine Überlagerung durchgeführt wird.
13. Verfahren nach Anspruch 12, dadurch gekennzeichnet, daß nach dem Teilungsschritt ein Kopierschritt durchgeführt wird, um eine der unstabilen Komponenten, die bei dem Teilungsschritt erhalten wurde, in diejenigen Sprachmuster einzukopieren, die keine unstabilen Komponenten enthalten, sofern die Vielzahl der Sprachmuster solche mit unstabilen Komponenten und solche mit nicht unstabilen Komponenten aufweisen.
14. Verfahren nach Anspruch 12 oder 13, dadurch gekennzeichnet, daß die unstabile Komponente einen Teil eines Sprachmusters vom Anfangsende zu einem stimmlosen Intervall darstellt, sofern der stimmlose Intervall in einem vorbestimmten Zeitabschnitt, gerechnet vom Anfangsende des Sprachmusters, vorhanden ist.
5. Verfahren nach Anspruch 12 oder 13, dadurch gekennzeichnet, daß die unstabile Komponente einen Teil eines Sprachmusters, gerechnet von seinem stimmlosen Intervall bis zu seinem hinteren Ende, darstellt, sofern das stimmlose Intervall innerhalb einer vorbestimmten Zeit bzw. Zeitabschnitt zum hinteren Ende des Sprachmusters auftritt.
16. Verfahren nach Anspruch 13 oder 14, dadurch gekennzeichnet, daß das vorbestimmte Zeitintervall 100 Millisekunden beträgt.
17. Verfahren nach Anspruch 12 oder 13, dadurch gekennzeichnet, daß die unstabile Komponente als ein Abschnitt des Sprachmusters definiert ist, der nahe dem Anfangsende des Sprachmusters gelegen ist und der einen Unterschied hinsichtlich einer hochfrequenten Komponente und einer niederfrequenten Komponente aufweist, der oberhalb eines vorbestimmten Wertes liegt.
18. Verfahren nach Anspruch 17, dadurch gekennzeichnet, daß die Hochfrequenzkomponente in einem Frequenzbereich von 1 KHz und 6 KHz liegt und die niederfrequente Komponente in einem Frequenzbereich zwischen 200 Hz und 1 KHz liegt.
19. Verfahren nach einem der Ansprüche 12 bis 18, dadurch gekennzeichnet, daß der erste Feststellschritt gleichzeitig mit der Erstellung des Eingangs- Sprachmusters durchgeführt wird.
20. Verfahren nach einem der Ansprüche 12 bis 19, dadurch gekennzeichnet, daß der erste Feststellschritt dadurch ausgeführt wird, indem eine Identifikationsmarke festgestellt wird, welche das Vorhandensein oder das Fehlen einer unstabilen Komponente anzeigt, die zum Zeitpunkt der Erstellung des Eingangs-Sprachmusters erzeugt wurde.
21. Verfahren nach Anspruch 20, dadurch gekennzeichnet, daß die Identifikationsmarke Informationen enthält, welche anzeigen, ob die unstabile Komponente nahe dem Anfangsende oder nahe dem hinteren Ende gelegen ist als auch die Informationen enthält, welche das Vorhandensein oder das Fehlen der unstabilen Komponente anzeigen.
DE19873733659 1986-10-03 1987-10-05 Verfahren zum vergleichen von mustern Granted DE3733659A1 (de)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
JP23690286 1986-10-03
JP23690186 1986-10-03
JP61275655A JP2534240B2 (ja) 1986-11-19 1986-11-19 パタ―ン比較方法
JP61275656A JP2534241B2 (ja) 1986-11-19 1986-11-19 パタ―ン比較方法
JP61278054A JP2534242B2 (ja) 1986-11-21 1986-11-21 パタ―ン比較方法
JP61278053A JP2768938B2 (ja) 1986-11-21 1986-11-21 パターン比較方法
JP61290068A JP2534244B2 (ja) 1986-12-05 1986-12-05 標準パタ―ン作成方法
JP61290067A JP2534243B2 (ja) 1986-12-05 1986-12-05 標準パタ―ン作成方法
JP62238336A JP2882791B2 (ja) 1986-10-03 1987-09-21 パターン比較方式
JP62238337A JP2901976B2 (ja) 1987-09-21 1987-09-21 パターン照合予備選択方式
JP62238510A JP2882792B2 (ja) 1986-10-03 1987-09-22 標準パターン作成方式

Publications (2)

Publication Number Publication Date
DE3733659A1 DE3733659A1 (de) 1988-04-21
DE3733659C2 true DE3733659C2 (de) 1993-03-18

Family

ID=27582276

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19873733659 Granted DE3733659A1 (de) 1986-10-03 1987-10-05 Verfahren zum vergleichen von mustern

Country Status (3)

Country Link
US (1) US5033089A (de)
DE (1) DE3733659A1 (de)
GB (2) GB2196460B (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010041435A1 (de) 2010-09-27 2012-03-29 Siemens Medical Instruments Pte. Ltd. Verfahren zum Rekonstruieren eines Sprachsignals und Hörvorrichtung

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4031421C2 (de) * 1989-10-05 1995-08-24 Ricoh Kk Musteranpassungssystem für eine Spracherkennungseinrichtung
JPH07210190A (ja) * 1993-12-30 1995-08-11 Internatl Business Mach Corp <Ibm> 音声認識方法及びシステム
US5657424A (en) * 1995-10-31 1997-08-12 Dictaphone Corporation Isolated word recognition using decision tree classifiers and time-indexed feature vectors
US20030125946A1 (en) * 2002-01-03 2003-07-03 Wen-Hao Hsu Method and apparatus for recognizing animal species from an animal voice
US20030216909A1 (en) * 2002-05-14 2003-11-20 Davis Wallace K. Voice activity detection
DE10232916B4 (de) * 2002-07-19 2008-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals
EP1603116A1 (de) * 2003-02-19 2005-12-07 Matsushita Electric Industrial Co., Ltd. Spracherkennungsanordnung und -verfahren
US8457962B2 (en) * 2005-08-05 2013-06-04 Lawrence P. Jones Remote audio surveillance for detection and analysis of wildlife sounds
US20080256613A1 (en) * 2007-03-13 2008-10-16 Grover Noel J Voice print identification portal
JP5024154B2 (ja) * 2008-03-27 2012-09-12 富士通株式会社 関連付け装置、関連付け方法及びコンピュータプログラム
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
JP5799586B2 (ja) * 2011-05-27 2015-10-28 富士通株式会社 生体認証装置、生体認証方法及び生体認証用コンピュータプログラム
JP5867066B2 (ja) 2011-12-26 2016-02-24 富士ゼロックス株式会社 音声解析装置
JP6031761B2 (ja) 2011-12-28 2016-11-24 富士ゼロックス株式会社 音声解析装置および音声解析システム
US10709388B2 (en) * 2015-05-08 2020-07-14 Staton Techiya, Llc Biometric, physiological or environmental monitoring using a closed chamber

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3418429A (en) * 1965-10-13 1968-12-24 Ibm Speech analysis system
GB1157732A (en) * 1967-06-30 1969-07-09 Standard Telephones Cables Ltd Improvements in apparatus for Recognising Speech
GB1435779A (en) * 1972-09-21 1976-05-12 Threshold Tech Word recognition
US4092493A (en) * 1976-11-30 1978-05-30 Bell Telephone Laboratories, Incorporated Speech recognition system
USRE32172E (en) * 1980-12-19 1986-06-03 At&T Bell Laboratories Endpoint detector
GB2137791B (en) * 1982-11-19 1986-02-26 Secr Defence Noise compensating spectral distance processor
JPS59139099A (ja) * 1983-01-31 1984-08-09 株式会社東芝 音声区間検出装置
JPS6024597A (ja) * 1983-07-21 1985-02-07 日本電気株式会社 音声登録方式
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement
US4821325A (en) * 1984-11-08 1989-04-11 American Telephone And Telegraph Company, At&T Bell Laboratories Endpoint detector
US4833713A (en) * 1985-09-06 1989-05-23 Ricoh Company, Ltd. Voice recognition system
US4827519A (en) * 1985-09-19 1989-05-02 Ricoh Company, Ltd. Voice recognition system using voice power patterns
US4802224A (en) * 1985-09-26 1989-01-31 Nippon Telegraph And Telephone Corporation Reference speech pattern generating method
US4751737A (en) * 1985-11-06 1988-06-14 Motorola Inc. Template generation method in a speech recognition system
GB8608288D0 (en) * 1986-04-04 1986-05-08 Pa Consulting Services Noise compensation in speech recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010041435A1 (de) 2010-09-27 2012-03-29 Siemens Medical Instruments Pte. Ltd. Verfahren zum Rekonstruieren eines Sprachsignals und Hörvorrichtung

Also Published As

Publication number Publication date
GB2233137A (en) 1991-01-02
GB2233137B (en) 1991-06-05
GB2196460B (en) 1991-05-15
US5033089A (en) 1991-07-16
DE3733659A1 (de) 1988-04-21
GB2196460A (en) 1988-04-27
GB9017697D0 (en) 1990-09-26
GB8723297D0 (en) 1987-11-11

Similar Documents

Publication Publication Date Title
DE3733659C2 (de)
DE69615832T2 (de) Sprachsynthese mit wellenformen
DE69433254T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69719270T2 (de) Sprachsynthese unter Verwendung von Hilfsinformationen
DE2626793C3 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
EP0076234B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE3783154T2 (de) Spracherkennungssystem.
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE3878541T2 (de) Verfahren und einrichtung, um ein markov-modell-referenzmuster von woertern zu erzeugen.
DE68924134T2 (de) Spracherkennungssystem.
DE3236834A1 (de) Verfahren und geraet zur sprachanalyse
DE3236832A1 (de) Verfahren und geraet zur sprachanalyse
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE69216648T2 (de) Spracherkennungsgerät zur Berechnung einer korrigierten Ähnlichkeit die kaum abhängig ist von Umständen der Erzeugung von Eingangsmustern
EP0076233A1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
DE4031421C2 (de) Musteranpassungssystem für eine Spracherkennungseinrichtung
DE4010028C2 (de) Spracherkennungsverfahren
DE68914032T2 (de) Spracherkennungssystem.
DE69516455T2 (de) Verfahren zur Sprachkodierung mittels linearer Prädiktion
DE19920501A1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter Sprachsynthese
DE69824613T2 (de) Ein system und verfahren zur prosodyanpassung
DE60110541T2 (de) Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz
DE602004011292T2 (de) Vorrichtung zur Sprachdetektion

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee