DE2918533C2

DE2918533C2 -

Info

Publication number: DE2918533C2
Application number: DE2918533A
Authority: DE
Inventors: John Scottsdale Ariz. Us Marley
Original assignee: Individual
Current assignee: Individual
Priority date: 1978-05-08
Filing date: 1979-05-08
Publication date: 1988-10-20
Also published as: JPS6147440B2; FR2425689B1; GB2020467A; US4181813A; JPS55585A; FR2425689A1; DE2918533A1; GB2020467B

Description

Die Erfindung betrifft ein Verfahren zur Spracherkennung gemäß dem Oberbegriff des Patentanspruches. Insbesondere werden spezifische Geräusche, welche Phonemen zugeordnet sind sowie Übergänge zwischen diesen in der gewöhnlichen Sprache erkannt.

Es werden in jüngster Zeit große Anstrengungen auf dem Gebiet der Stimmen- und Spracherkennung unternommen. Es wurden bereits einige Systeme entwickelt, welche dazu in der Lage sind, eine kleine Gruppe von gesprochenen Worten ohne Pausen zwischen den Worten zu erkennen ("Voice- Recognition Unit For Data Processing Can Handle 120 Words", Electronics, Seite 69, 13. April 1978).

Eine Übersicht über den derzeitigen Stand der Technik auf dem Gebiet der Spracherkennung wurde von D. Raj Reddy gegeben "Speech Recognition by Machine: A Review", Proceedings of the IEEE, 1. April 1976, Seiten 501-531. Einzelheiten besonders relevanter Probleme der Spracherkennung finden sich in den folgenden Artikeln: "Algorithm for Pitch Extraction Using Zero-Crossing Interval Sequence" von Nezih C. Geckinli und Davras Yavuz, IEEE Transactions on Acoustic Speech and Signal Processing, Band ASSP-25, Nr. 6, Dezember, 1977;
"Continuous Speech Recognition by Statistical Methods", von Frederick Jelinek, Proceedings of the IEEE, Band 64, Nr. 4, April 1976;
"Pseudo-Maximum-Likelihood Speech Extraction", David H. Friedman, IEE, Transactions on Acoustics, Speech, and Signal Processing, Volume ASSP-25, Nr. 3, Juni, 1977;
"Practical Applications of Voice Input to Machines", Thomas B. Martin, Proceedings of the IEEE, Volume 64, Nr. 4, April 1976;
"On the Use of Autocorrelation Analysis for Pitch Detection", Lawrence R. Rabiner, IEEE Transactions on Acoustics, Speech, an Signal Processing, Band ASSP-25, Nr. 1, Februar, 1977;
und "Communication Aids for People with Impaired Speech und Hearing", A. F. Newell, Electronics and Power, Oktober 1977.

Herkömmliche Systeme der Spracherkennung sind extrem komplex und teuer. Die Spracherkennung erfolgt anhand charakteristischer Sprachklänge oder -geräusche (Phonetik) aufgrund einer Variabilität in der Aussprache (Phonologie), aufgrund von Betonungsmustern und Intonationsmustern der Sprache (Prosodic), aufgrund von Klangmustern der Worte (Lexikon), aufgrund von grammatischen Strukturen der Sprache (Syntax), aufgrund der Bedeutung der Worte und Sätze (Semantik) und aufgrund des Kontextes der Unterhaltung (Pragmatik). Das Gehirn eines erwachsenen Menschen ist fähig, all diese genannten Erkenntnisquellen zu verarbeiten und zur Spracherkennung zu nutzen. Das menschliche Gehirn arbeitet nach Art eines programmierten Computers. Die bisher entwickelten Computer für die Spracherkennung sind jedoch äußerst teuer. Sie umfassen einen großen Speicher zur Speicherung der Daten und Algorithmen, welche erforderlich sind zur Erzielung auch nur eines begrenzten Maßes der Erkennung von isolierten Worten und von kurzen Gruppen von miteinander verbundenen Worten.

Bekannte Systeme der Spracherkennung digitalisieren und analysieren die eintreffenden Sprachsignale und bilden eine Parameterdarstellung derselben. Bei den meisten bekannten Spracherkennungssystemen werden Referenzmuster gelernt und in Rechnersystemen gespeichert und sodann mit den normalisierten unbekannten Signalmustern verglichen. Falls eine Übereinstimmung zwischen einem solchen unbekannten Signalmuster und einem gespeicherten Signalmuster gefunden wird, so werden Ausgangssignale erzeugt, aufgrund derer die Worte ausgedruckt, angezeigt oder auf andere elektromechanische Weise dargestellt werden. Das bekannteste Verfahren der Sprachdigitalisierung macht von der Pulscodemodulation Gebrauch. Dabei wird ein analoges Signal in eine vorbestimmte Anzahl von Segmenten unterteilt. Bisherige Systeme filtern typischerweise die Sprache in eine relativ große Anzahl von Kanälen zum Zwecke der Isolierung verschiedener Frequenzkomponenten, deren jede der Impulscodemodulation unterworfen wird. Jedes Inkrement einer jeden Kanalwellenform erfordert die Speicherung eines digitalen Wortes. Daher bedingt dieses herkömmliche Spracherkennungssystem die zwischenzeitliche Speicherung und die digitale Verarbeitung einer großen Anzahl von Signalen. Es wurden spezialisierte Algorithmen entwickelt, welche in den digitalen Daten, die aus verschiedenen Frequenzkanälen erhalten werden, bildende Elemente (Spektralregionen hoher Intensität) erkennen. Diese Algorithmen wurden entwickelt zum Zwecke der Erkennung von Konsonanten, Vokalen, flüssigen Konsonanten und scharfen Übergangstönen, welche durch solche Daten dargestellt werden. Ferner wurden auch statistische Techniken verwendet, zur Analyse der bei der Spektralfilterung und Impulscodemodulation der eintreffenden Sprachsignale erhaltenen Daten.

Das Spracherkennungsverfahren nach der Erfindung geht aus von einem Stand der Technik, wie er aus der DE-PS 11 97 638 bekannt ist. Dort ist ebenfalls ein Verfahren zur Umwandlung von analogen Tonsignalen in Zeichensignale durch Erfassung von charakteristischen Merkmalen der Tonsignale in einzelnen Tonsignalzyklen, Vergleich der erfaßten Merkmale mit vorgegebenen Merkmalen, denen Zeichensignale zugeordnet sind, und Erzeugung der entsprechenden Zeichensignale beschrieben. Das bekannte Verfahren ermöglicht die Abtrennung von Lauten, indem ein Schwingungsumschlag durch Vergleich eines jeden Schwingungszugs mit dem unmittelbar vorangehenden erkannt wird und so die Trennung verschiedener Laute durchgeführt wird. Dabei dienen jeweils die Null-Durchgänge der Schwingungen als Kriterien. Der Lauttrennung ist dort eine Filterbank mit entsprechender Auswertelogik nachgeschaltet, die die Zuordnung der einzelnen Laute zu den entsprechenden Zeichen durchführt. Dieses Verfahren hat den Nachteil, daß es nur bei gleichbleibender Tonhöhe, d. h. bei ein und demselben Sprecher, funktionieren wird, denn von Sprecher zu Sprecher unterscheiden sich die Sprachfrequenzen, d. h. die Tonlagen der Stimmen.

Bei einem aus der DE-OS 23 57 949 bekannten Verfahren werden Intervalle, die der Periode der Anregungsfrequenz der Stimmbänder entsprechen, durch Abtastung des analogen Sprachsignals ermittelt, wobei die Signalamplitude quantisiert wird. Ferner wird das Quantisierungssignal codiert, wobei insbesondere die Quantisierung und Codierung der Signalamplitude durch einen adaptiven Deltamodulator erfolgt, der für jeden Abtastzeitpunkt ein Delta-Bit bildet. Bei diesem Verfahren ist eine Echtzeitverarbeitung der Sprachsignale möglich, wobei die Delta-Codierung einen großen wirtschaftlichen Vorteil gegenüber den Autokorrelationstechniken unter Verwendung der Pulscodemodulierung hat. Allerdings lehrt diese Druckschrift nur, die Delta-Modulationstechnik dazu anzuwenden, eine digitale Wiedergabe von Sprachsignalen zu ermöglichen, um diese digital codierten Signale zu übertragen und anschließend eine genaue Rekonstruktion der analogen Sprachsignale aus den digital codierten Signalen zu ermöglichen.

Die US-PS 32 78 685 beschreibt einen Wellenanalysator, mit dessen Hilfe es möglich ist, Neigungsumkehrprodukte und Nullpunkte von akustischen Wellen zu bestimmen.

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren nach dem Oberbegriff des Patentanspruches 1 zu schaffen, das Ergebnisse unabhängig von Frequenzen und somit unabhängig von Tonhöhe und Stimmlage des Sprechers liefert.

Das Verfahren nach der Erfindung zeichnet sich dadurch aus, daß die charakteristischen Merkmale durch Erfassung der Zeitdauern von aufeinanderfolgenden, näherungsweise linearen, kontinuierlichen Abschnitten des Tonsignals und Berechnung von Quotienten mindestens einiger dieser Zeitdauern eines Tonsignalzyklus gebildet werden.

Vorteilhafte Ausgestaltung der Erfindung sind in den Unteransprüchen angegeben.

Im folgenden wird die Erfindung anhand von Zeichnungen näher erläutert. Es zeigt

Fig. 1 eine schematische Darstellung der Anwendung des erfindungsgemäßen Verfahrens in Verbindung mit einem Telefonsystem;

Fig. 2 eine tabellarische Darstellung eines vorgeschlagenen Phonemen-Satzes für das System gemäß Fig. 1;

Fig. 3 ein Blockschaltbild der Schaltungsanordnung zur Durchführung des erfindungsgemäßen Verfahrens;

Fig. 4 ein detailliertes Blockschaltbild der Schaltungsanordnung gemäß Fig. 3;

Fig. 5 ein detailliertes Blockschaltbild des Delta-Modulators der Schaltungsanordnung gemäß Fig. 3;

Fig. 6 Wellenformen zur Erläuterung des Betriebs der Schaltungsanordnung gemäß Fig. 3;

Fig. 7 Wellenformen zur Erläuterung der Arbeitsweise der Schaltungsanordnung gemäß Fig. 3;

Fig. 8 ein Diagramm eines Phonem-Erkennungs-Entscheidungsbaus, welcher durch den Betrieb der Schaltungsanordnung gemäß Fig. 3 verwirklicht wird;

Fig. 9 ein Fließdiagramm zur Erläuterung der grundsätzlichen Wirkungsweise der Schaltungsanordnung gemäß Fig. 3; und

Fig. 10A und 10B detaillierte Fließdiagramme zur Erläuterung der Arbeitsweise eines repräsentativen Teils des Phonem-Klassifizierteils des Betriebsalgorithmus für die Schaltungsanordnung gemäß Fig. 3.

Fig. 1 zeigt die Anwendung des erfindungsgemäßen Spracherkennungsverfahrens in Verbindung mit einem Telefonsystem 10. Eine schwerhörige Person kann entweder hören, daß das Telefon klingelt, oder sie kann dies anhand eines Blinklichtsystems feststellen oder anhand eines besonders lauten Klingelsystems oder eines Schlagklingelsystems. Sodann wird der Telefonhörer 16 in die Aufnahmeschalen eines herkömmlichen akustischen Kopfhörers gelegt, welcher im Telefonsystem 10 vorgesehen ist. Sodann spricht die Person in das Mikrofon 27 und die erzeugten Tonsignale gelangen in eine Audioverstärker- und Wandler-Schaltung 22. Die Wandlerschaltung 22 kanalisiert die Schallwellen 30, welche die Tonsignale darstellen, in das Sendemikrofon des Telefonhörers 16. Umgekehrt werden Tonsignale, welche von der Person am anderen Ende der Leitung abgegeben werden und im Telefonsystem ankommen, mit Hilfe der Hörmuschel des Telefonhörers 16 in Schallwellen umgewandelt und diese werden nun durch einen akustischen Koppler 18 in elektrische Tonsignale umgewandelt. Der akustische Koppler 18 gibt die elektrischen Signale an ein Spracherkennungssystem 20 ab. Schalter 21 A und 21 B sind normalerweise geschlossen und ein Schalter 21 C ist normalerweise geöffnet, falls die Bedienungsperson das Telefonsystem 10 nicht als Diktiergerät verwenden will.

Das Spracherkennungssystem 20 erzeugt Phonem-Signale, welche in einem Phonem-Drucker 12 eingegeben werden. Der Phonem-Drucker druckt Gruppen von Phonemen, welche der vom Telefon am anderen Ende empfangenen Sprache entsprechen, in Realzeit auf einem Papier 26 aus. Die taube oder schwerhörige Person liest die gedruckten Worte auf dem Papier 26 gemäß den Pfeillinien 28. Somit kann die taube oder schwerhörige Person die Konversation sofort anhand der ausgedruckten Phoneme verfolgen anstatt die von der Person am anderen Ende der Telefonleitung geäußerten Worte zu hören. Die taube oder schwerhörige Person kann die Unterhaltung jederzeit unterbrechen, wenn eine Klarstellung der ausgedruckten Phonem- Botschaften erwünscht ist. Dies geschieht einfach durch Hineinsprechen in das Mikrofon 24.

Fig. 2 zeigt einen Vorschlag für ein Phonem-Alphabet. Fig. 2 zeigt zwei Gruppen von Phonem-Symbolen. Bei der ersten Gruppe handelt es sich um Übergangstöne. Diese Übergangstöne umfassen kurze stoßartige Ausdrücke, welche nicht während einer längeren Zeitdauer erhalten bleiben. Tonsignale dieser Art sind z. B. die Buchstaben "D", "C", "B" und "J" mit Tonfrequenzkomponenten. Andererseits sind die verwandten Töne der Buchstaben "T", "K", "P" und "CH" stimmlose Buchstaben. Diese Übergangstöne beeinflussen die Merkmale der einzelnen benachbarten Phoneme unterschiedlich, je nachdem ob sie dem Phonem nachfolgen oder ihm vorausgehen. Die andere Gruppe von Klängen, welche in Fig. 2 als Dauerklänge bezeichnet sind, umfassen zwei Untergruppen, nämlich Vokale und Nichtvokale. Alle signifikanten Sprachklänge der englischen Sprache sind in Fig. 2 enthalten. Es ist möglich, weitere etwa 25 zusätzliche Phoneme hinzuzufügen, welche zusätzliche Klänge der menschlichen Sprachorgane wiedergeben und deren einige in anderen lebenden Sprachen vorkommen. Ferner sind in Fig. 2 jeweils englische Worte angegeben, in denen die einzelnen Phoneme auftreten. In jedem Wort wurden ein oder mehrere Buchstaben unterstrichen, welche den Klang des Phonemsymbols darstellen. Der Phonemdrucker 12 gemäß den Fig. 1 und 3 druckt die Phonemsymbole aus, welche den erkannten Phonemklängen entsprechen.

Fig. 3 zeigt eine Schaltungsanordnung (Spracherkennungssystem) 10′, die als Spracherkennungsteil des Telefonsystems 10 der Fig. 1 verwendet werden kann. Das Spracherkennungssystem 10′ umfaßt ein Mikrofon 24 oder eine andere Quelle von Tonsignalen. Dieses Mikrofon ist mit dem Eingang eines Verstärkers 32 verbunden. Der Ausgang des Verstärkers 32 ist mittels eines Leiters 33 mit einem Analog-zu-seriell-Digital-Wandler 34 verbunden, welcher im folgenden als Delta-Modulator 34 bezeichnet wird. Der Leiter 33 ist ferner auch mit dem Eingang eines Hochfrequenz-Bandpaßfilters 46 mit einem Bandpaß im Bereich von 2 bis 4 kHz verbunden. Bei der Ausführungsform der Fig. 3 ist der Verstärker 32 ein Audiovorverstärker und der Delta-Modulator 34 umfaßt eine negative Rückkopplungsschaltung, welche die Flanken des internen Rampensignals einstellt, und zwar ansprechend auf Änderungen des Eingangs-Audiosignals auf dem Leiter 33, falls der Delta-Modulator 34 durch den Codierteil des Delta-Modulators/ Demodulators mit kontinuierlich variierbarer Steigung gebildet ist. Ein Niederfrequenzfilter 36 ist mit der negativen Rückkopplungsschaltung verbunden und erzeugt ein Amplitudenhüllsignal des Tonsignals. Das Hüllsignal erscheint auf einem Leiter 38. Es muß bemerkt werden, daß im Falle einer Delta-Modulatorschaltung ohne die oben erwähnte negative Rückkopplung und ohne die Rampe mit variabler Steigung eine negative Rückkopplung in dem Audioverstärker 32 vorgesehen sein muß. Bei der Ausführungsform gemäß Fig. 3 kann man sich vorstellen, daß die negative Rückkopplung Teil des Verstärkers 32 ist, da der Delta-Modulator 34 arbeitet als ob das Sprachsignal auf dem Leiter 33 eine konstante Amplitude hätte.

Das serielle digitale Ausgangssignal, welches im folgenden als "Deltasignal" bezeichnet wird, erscheint auf einem Leiter 44. Es bildet eine Repräsentation des Tonsignals auf dem Leiter 33. Das Deltasignal liegt als serielles digitales Realzeit-Eingangssignal für einen Mikrocomputer 52 vor.

Die Amplitudeneinhüllende auf dem Leiter 38 wird in einen zweiten Delta-Modulator 40 eingegeben, welcher ebenfalls ohne weiteres aus dem Codierteil des Delta-Modulators/Demodulators mit kontinuierlich variablem Anstieg gebildet sein kann. Der Delta-Modulator 40 erzeugt eine seriell digitalisierte Wiedergabe des Amplitudeneinhüllungssignals, welches im folgenden als "Amplitudensignal" bezeichnet wird, auf dem Leiter 42. Der Leiter 42 ist mit einem zweiten seriellen Eingang des Mikroprozessors 52 verbunden.

Das Hochfrequenz-Bandpaßfilter 46 erzeugt ein Ausgangssignal für eine Schwellenwertschaltung 48. Diese erzeugt einen binären Ausgangsimpuls, welcher im folgenden als "Zischsignal" bezeichnet wird, auf einem Leiter 50, wenn die Höhe des Bandpaßfilter- Ausgangssignals einen vorbestimmten Schwellenwert überschreitet. Der Leiter 50 dient als dritter serieller Eingang des Mikroprozessors 52. Ein Ausgang 62 des Mikroprozessors 52 ist mit einem Phonem-Drucker oder einem anderen Phonem-Interpretationsgerät 12′ verbunden. Ein Hilfsspeicher 58 ist ebenfalls mit Hilfe eines Datenbusses 60 mit Daten- und Adreß-Ausgängen des Mikrocomputers 52 verbunden und dient der Speicherung zusätzlicher Daten und/oder der Software. Dabei sollte es sich um einen internen Speicher mit wahlfreiem Zugriff und/oder um einen internen Festwertspeicher des Mikroprozessors 52 handeln.

Im folgenden soll zunächst der Aufbau der Schaltungsanordnung des Spracherkennungssystems gemäß Fig. 3 anhand der Fig. 4 und 5 näher erläutert werden, bevor die Arbeitsweise des Sprach- Codiersystems näher erläutert wird. Die Fig. 4 und 5 zeigen Detailblockschaltbilder der primären inneren Bauteile der Delta-Modulatorschaltungen 34 und 40 bzw. des Mikroprozessors 52.

Im folgenden wird zunächst auf Fig. 4 Bezug genommen. Der Mikrocomputer 52 umfaßt einen Grundprozessorteil 64 mit den klassischen Elementen eines Prozessors einschließlich eines internen bidirektionalen Datenbusses 66 A. Letzterer ist mit einem programmierten Zähler 74 verbunden, mit einer Vielzahl von verschiedenen Registern 72 (z. B. Indexregistern, Akkumulatorregistern, temporären Registern oder dgl.) sowie mit einer arithmetischen und logischen Einheit 70, welche mit den Akkumulatorregistern verbunden ist, sowie mit einer Datenbus-Pufferschaltung 82, welche den Datenbus 66 A mit einem externen bidirektionalen Datenbus 66 B verbindet. Die arithmetische Logikeinheit 70, die Register 72 und der Programmzähler 74 sind mit einem internen Adreßbus 68 A verbunden, welcher über eine Pufferschaltung mit einem externen Adreßbus 68 B verbunden ist. Der interne Datenbus 66 A ist mit einer Befehlsregister- und Befehlsdecodier-Schaltung 76 verbunden, deren Ausgangssignale in eine Steuerschaltung 78 eingegeben werden. Die Steuerschaltung 78 erzeugt auf einem Ausgangsbus 80 Steuersignale und verschiedene Leiter des Ausgangsbusses 80 sind mit verschiedenen Datentransfereinrichtungen im Mikrocomputer 52 verbunden zum Zwecke der Ausführung der darin enthaltenen Befehle. Der Aufbau und die Arbeitsweise des Teils 64 des Mikrocomputers 52 ist hinreichend bekannt, und z. B. in der US-PS 39 62 682 von Thomas H. Bennett vom 8. Juni 1976 beschrieben. Zum Zwecke der Offenbarung wird ausdrücklich auf diese US-Patentschrift hingewiesen. Der Mikrocomputer 52 umfaßt ferner einen Speicher 104 mit direktem Zugriff und einen Festwertspeicher 106, deren Datenanschlüsse mit dem Datenbus 66 B und deren Adreßanschlüsse mit dem Adreßbus 68 B verbunden sind. Der Mikrocomputer 52 umfaßt ferner vier Eingabe/Ausgabe- Tore 84, 86, 88 und 90, welche dazu dienen können, Dateninformation von externen Geräten zu empfangen oder an externe Geräte abzugeben. Die Adreßinformation zur Adressierung der peripheren Geräte oder der Speicherorte kann vom Tor Nr. 3 und vom Tor Nr. 4 ausgegeben werden. Ferner können auch Daten von den Toren Nr. 3 und Nr. 4 im parallelen Format ausgegeben werden. Serielle Daten können über das Tor Nr. 2 empfangen werden. Der Mikrocomputer 52 umfaßt eine interne Hochgeschwindigkeits-Zeitgeberschaltung 100, welche durch spezielle Zeitbefehle gesteuert werden kann und die Impulsbreiten- und Zeitintervalle von Impulsen und Übergangszeiten mißt, welche auf verschiedenen der mit dem Tor 86 verbundenen Leitungen empfangen werden. Somit können serielle Hochgeschwindigkeits-Eingangssignaldaten empfangen werden und die Pegelübergänge derselben können präzis mit Hilfe der Zeitgeberschaltung 100 gemessen werden und zum Zwecke der Analyse durch das Betriebsprogramm gespeichert werden.

Die Zeitgeberschaltung 100 dient zur Erzeugung eines Taktsignals von 50 kHz welches über einen Leiter 54 ausgegeben wird. Dieses Taktsignal steuert die Tastrate des Delta- Modulators 34. Ferner ist der Zeitgeber 100 auch so programmiert, daß er ein 200 Hz-Taktsignal erzeugt und über einen Leiter 56 dem Delta-Modulator 40 zuführt. Dieses Taktsignal steuert die Tastrate des Delta-Modulators 40. Der Mikrocomputer 52 ist auch befähigt, einen Schnellmultiplizierbefehl auszuführen. Diese Funktion dient, wie nachfolgend erläutert, dazu, die charakteristischen Verhältnisse der Eingangssignalwellenformen zu errechnen, welche zur Identifizierung und zum Vergleich der Töne mit den gespeicherten charakteristischen Phonem-Verhältnissen, welche im folgenden als Phonem-Verhältnisse bezeichnet werden, dienen.

Im folgenden wird auf Fig. 5 Bezug genommen, welche ein Detail-Blockschaltbild eines Delta-Codierers 34 zeigt. Dieser ist im wesentlichen gleich dem Delta-Codierer 40. Er umfaßt einen Komparator 108, dessen einer Eingang mit dem Leiter 33 und dessen anderer Eingang mit dem Ausgang einer Integrierschaltung 114 verbunden ist. Das Ausgangssignal des Komparators 108 wird dem Eingang einer Tastschaltung 110 zugeführt, welche das vom Mikrocomputer erzeugte 50 kHz-Tastsignal über den Leiter 54 als Takt erhält. Hierdurch wird das Ausgangssignal des Komparators 108 mit einer Rate von 50 kHz abgetastet und man erhält ein Komparator-Tastausgangssignal auf dem Leiter 44. Das Signal auf dem Ausgangsleiter 44 ist entweder eine logische "Eins" oder eine logische "Null", je nachdem ob das Tonsignal auf dem Leiter 33 größer bzw. kleiner als das von der Integrierschaltung 114 erzeugte Ausgangssignal ist. Bei dem Ausgangssignal der Integrierschaltung 114 handelt es sich um ein Rampensignal, dessen Steigung durch eine Steigungs-Polaritäts-Schalteinrichtung 112 gesteuert wird. Die Steigungs-Polaritäts-Schalteinrichtung 112 führt zu einer Umkehr der Polarität der Steigung des vom Integrator 114 erzeugten Rampensignals, und zwar jedesmal wenn der logische Pegel auf dem Ausgangsleiter 44 wechselt. Die Größe der Steigung des vom Integrator 114 erzeugten Rampensignals wird durch eine Steigungsgrößensteuereinrichtung 118 gesteuert. Eine Pegeldetektorschaltung 116 spricht auf die Größe des Tonsignals auf dem Leiter 33 an und bildet eine Rückkopplung über einen Leiter 38 zum Steigungsgrößensteuergerät 118, so daß Änderungen der Amplitude des Tonsignals auf dem Leiter 33 durch die Steigung der Rampenspannung der Integrierschaltung 114 kompensiert werden. Dies hat den gleichen Effekt, den auch eine negative Rückkopplungsschaltung im Verstärker 32 haben würde, und zwar im Sinne einer Normalisierung der Amplitude des Tonsignals auf dem Leiter 33. Das Filter 36 (Fig. 3) ist innerhalb der Pegeldetektorschaltung 116 vorgesehen. Die Pegeldetektorschaltung 116 umfaßt ferner eine Schaltung zur Anpassung des Tonsignals an Änderungen der Gesamtamplitude.

Fig. 7 zeigt eine Probe eines Tonsignals einer Tonwellenform 33 B, welches einen speziellen phonetischen Klang darstellt, sowie eine Rampenspannung 115 A, welche auf dem Leiter 115 durch die Integrierschaltung 114 der Delta-Modulatorschaltung 34 erzeugt wird. Das entsprechende Ausgangssignal (oder Deltasignal), welches auf dem Ausgang 44 des Delta-Modulators 34 erzeugt wird, ist durch die Wellenform 44 B in Fig. 7 dargestellt. Wenn die Wellenform 115 A eine positive Steigung hat, so nimmt sie zu bis zu dem Punkt, an dem sie den jeweiligen Momentanwert des Tonsignals 33 B übersteigt. Nun wird die Polarität des Ausgangssignals der Komparatorschaltung 108 umgekehrt. Die Tastschaltung 110, welche im wesentlichen ein mit dem Tastsignal auf dem Leiter 54 synchronisiertes Flipflop ist, schaltet nun aufgrund der Vorderkante des nächsten Impulses des Tastsignals auf dem Leiter 54 um und veranlaßt den Steigungspolaritätsschalter 112, die Polarität der Steigung des Rampensignals 115 A umzukehren. Das Rampensignal 115 A fällt sodann ab bis zu dem Punkt, an dem es unter dem Momentanwert des Tonsignals 33 B liegt. Nun wechselt wiederum das Ausgangssignal der Komparatorschaltung 108 und die Polarität der Steigung des Rampensignals 115 A der Integrierschaltung wird wiederum umgekehrt. Somit verfolgt das Ausgangsrampensignal 115 A der Integrierschaltung 115 das Tonsignal 33 B sehr genau, und es enthält daher im wesentlichen die gesamte signifikante Phonem-Information desselben. Man erkennt, daß die gesamte signifikante Phonem-Information in der Wellenform 44 B mit wesentlich weniger digitalen Daten enthalten ist, als im Falle der Impulscode-Modulationstechnik erforderlich wären, welche normalerweise bei herkömmlichen Spracherkennungssystemen angewendet wird.

Der Mikrocomputer 52 ist dazu befähigt, Realzeit-Impulsbreitenmessungen durchzuführen. Es ist ein wesentliches Erfordernis des Spracherkennungssystems gemäß Fig. 3, daß Realzeit-Impulsbreitenmessungen vorgenommen werden müssen, wenn die positiven und negativen Übergänge der seriellen digitalen Eingangssignale um sehr geringe Beträge von z. B. 16 μs auseinanderliegen können oder wenn diese um sehr große Beträge, z. B. um mehrere Sekunden, auseinanderliegen können, wobei die Gesamtzahl der Unterbrechungen für Zeitmeßzwecke die Zahl von 30 000/s übersteigen kann. Die Signale auf den Leitern 50 und 42 sind sehr langsam und können jederzeit durch das Hauptbetriebsprogramm getestet werden, wenn es erforderlich sein sollte, die Information auf diesen Leitern abzufragen. Andererseits muß man jedoch bei dem Hochgeschwindigkeits-Deltasignal auf dem Leiter 44, d. h. bei dem Ausgangssignal des Deltamodulators, die Zeit eines jeden Übergangs desselben durch die Zeitgeberschaltung 100 bestimmen, und ein jeder dieser Zeitwerte muß gespeichert werden, um zur sofortigen Verwendung durch das Betriebsprogramm zur Verfügung gehalten zu werden.

Fig. 6 zeigt typische Wellenformen der auf den Leitern 33, 44, 38, 42, auf dem Ausgang des Filters 46 und auf dem Leiter 50 erscheinenden Signale. Zur Bezeichnung der einzelnen Wellenformen werden alphanumerische Symbole verwendet, welche aus einer dem jeweiligen Leiter entsprechenden Zahl und dem nachfolgenden Buchstaben A bestehen. Die Wellenform 33 A zeigt zunächst einen typischen Vokalklang des Eingangstonsignals mit einem allmählichen Übergang und einem Amplitudenanstieg gefolgt von einem Abgleiten in einen Nasalklang. Auf diesen folgt sodann eine Pause oder eine Unterbrechung. Darauf folgt eine Gruppe von Hochfrequenzschwingungen großer Amplitude. Der Vokal und der Nasalklang werden durch den Deltamodulator 34 codiert. Dabei erhält man die Deltasignal-Wellenform 44 A nach dem Verfahren, welches anhand der Fig. 7 und anhand der Arbeitsweise des Deltamodulators erläutert wurde.

Die Deltasignalwellenform 44 A gemäß Fig. 6 zeigt typische Bereiche des Ausgangssignals des Deltamodulators 34 in expandierter Darstellung. Die expandierten Bereiche sind durch die Pfeile 124 A und 128 A bezeichnet. Es handelt sich dabei um Bereiche der Tonsignalwellenform 33 A, welche durch die jeweiligen expandierten Bereiche der Deltasignalwellenform 44 A wiedergegeben wird. Ferner spricht der Deltamodulator auch auf den hochfrequenten Bereich hoher Amplitude der Tonsignalwellenform 33 A, d. h. auf die Zischkomponenten derselben an, wie dies durch das Bezugszeichen 130 A dargestellt ist.

Das Amplitudenhüllsignal, welches der Tonsignalwellenform 33 A entspricht, ist durch die Amplitudensignalwellenform 38 A dargestellt. Dieses Amplitudensignal zeigt einen großen Buckelbereich 124 B, welcher den Anstieg und Abfall am Beginn und am Ende des Vokalklanges darstellt. Ferner stellt der Buckelbereich 124 B auch die Amplitude des Tonsignals 33 A während der Aufrechterhaltung des Vokalklanges dar.

Die Amplitude des Nasalbereichs der Tonsignalwellenform 33 A ist durch das Bezugszeichen 128 B dargestellt und die Amplitude des hochfrequenten Bereichs ist durch das Bezugszeichen 130 B angedeutet. Die einhüllende Wellenform 38 A wird nun wiederum einer Deltamodulation unterworfen, wobei man die Amplitudensignalwellenform 42 A erhält. Diese enthält im wesentlichen die gleiche Phonem-Information wie das Hüllsignal 38 A. Das Ausgangssignal des Bandpaßfilters 46 ist durch die Wellenform 46 A dargestellt. Diese Wellenform spricht auf die hochfrequenten Stöße der Tonwellenform 33 A an, wie dies durch den Impuls 130 C gezeigt ist. Der Schwellenwert der Schaltung 48 ist durch das Bezugszeichen 130 D bezeichnet. Das Ausgangssignal der Schwellenwertschaltung 48 ist durch die Wellenform 50 A wiedergegeben. Dies enthält einen Impuls 130 E.

Die Deltasignal-Wellenform 44 A enthält eine Information, welche ausreicht zur adäquaten Charakterisierung einer Vielzahl von während einer längeren Zeit aufrechterhaltenen Klängen, z. B. von Vokalklängen und Nasalklängen, so daß diese voneinander unterschieden werden können, wobei diese Klänge mit den gespeicherten Charakteristika der verschiedenen Phoneme gemäß Fig. 2 verglichen werden können. Das Ausgangssignal 44 A des Ausgangs 44 des Deltamodulators 34 wird dazu verwendet, Informationen zu gewinnen, welche die wichtigsten Steigungsübergänge in der Tonwellenform wiedergibt. Die wichtigsten Steigungsübergänge sind dabei alle drastischen Änderungen der Steigung der Tonwellenform, z. B. alle Umkehrungen der Steigungspolarität oder alle Änderungen von einem flachen Bereich zu einem steilen Anstieg der Tonwellenform.

Gemäß Fig. 7 wird die letztere Aufgabe durch eine Vielzahl von Betriebsstufen im Mikrocomputer 52 erfüllt. Die erste Stufe besteht in der Erzeugung einer Folge von logischen Zuständen, welche durch die logische Variable S bezeichnet werden und durch die Wellenform 44 C in Fig. 7 dargestellt sind.

Die logische Variable S hat den logischen Wert "Null", solange keines der vom Integrator 114 erzeugten Rampensignale länger als eine vorbestimmte Anzahl von Tastzeitperioden andauert, im vorliegenden Fall zwei Tastzeitperioden. Die logische Variable S verbleibt daher auf dem logischen Wert "Eins", bis eine Flanke entgegengesetzter Polarität während mindestens (in diesem Falle) zwei Tastzeiten aufrechterhalten bleibt. Die S-Wellenform der Fig. 7 identifiziert daher größere Flankenbereiche der Toneingangswellenform 33 B. Zum Beispiel identifiziert der Impuls A der digitalen Wellenform 44 C die Anwesenheit der größeren Flanke A′ des Tonsignals 33 B. In ähnlicher Weise identifiziert der Impuls B der Wellenform 44 C eine andere wesentliche Flanke B′ der Tonwellenform 33 B. Der negative Impuls C identifiziert einen größeren negativen Übergang C′ der Tonwellenform 33 B usw. Man erkennt somit, daß die Serie der positiven und negativen Pegel der S-Wellenform 44 C die größeren positiven und negativen Flanken der Tonwellenform 33 B identifiziert. Die der S-Wellenform 44 C entsprechende Information wird in Ansprechung auf die serielle Ausgangswellenform 44 B des Deltamodulators 34 erzeugt, und zwar durch den Betriebsalgorithmus und den Mikrocomputer 52. Diese Information wird in Form von Binärzuständen von zugeordneten Steuerbits an einem Speicherplatz des Speichers 104 mit direktem Zugriff des Mikrocomputers 52 gespeichert.

In ähnlicher Weise dient eine zweite Wellenform, welche im folgenden als R-Wellenform bezeichnet wird und mit dem Bezugszeichen 44 D bezeichnet ist, dazu, größere flache Bereiche der Tonwellenform 33 B zu identifizieren. Diese zweite Wellenform hat einen logischen "Eins"-Pegel, jedesmal wenn das von der Integrierschaltung 114 (Fig. 5) erzeugte Rampensignal seine Polarität während einer vorbestimmten Anzahl von aufeinanderfolgenden Tastzeiten (in diesem Beispiel während zwei aufeinanderfolgender Tastzeiten) ändert. Es verbleibt auf dem logischen "Eins"-Zustand bis zu dem Zeitpunkt, zu dem das Rampensignal während der vorbestimmten Anzahl von Tastzeiten nicht mehr in seiner Polarität umgekehrt wird. Somit entspricht der positive Impuls D des R-Signals 44 D dem flachen Bereich D′der Wellenform 33 B. in ähnlicher Weise entsprechen das Paar von Impulsen E, die Gruppe der Impulse F, der Impuls G und der Impuls H den "flachen" Bereichen D′, E′, F′, G′ und H′der Tonwellenform 33 B.

Es wurde festgestellt, daß die wesentlichen Flankenübergänge, d. h. die wesentlichen Änderungen der Flankenbereiche von flachen Bereichen der Tonwellenform zu steilen Anstiegs- und Abfallsbereichen derselben im wesentlichen die erforderliche Information zur Charakterisierung der Toneingangswellenform darstellen, welche eine Identifizierung der darin enthaltenen Phoneme erlauben. Diese Flankenübergangspunkte werden in Realzeit lokalisiert und dazu verwendet, die verschiedenen Merkmalsverhältniswerte zu errechnen. Dazu bedarf es eines wesentlich geringeren Codieraufwandes und einer wesentlich weniger aufwendigen "Zahlen-Mühle" als bei dem Stand der Technik.

Die oben genannten charakteristischen Verhältnisse der Tonwellenform werden im folgenden als "Merkmale" bezeichnet. Sie werden aus den Informationen ermittelt, welche in den in Fig. 7 gezeigten Wellenformen der R-Logikvariablen und S-Logikvariablen enthalten sind. Diese Wellenformen entsprechen der Information, welche aus der Ausgangswellenform des Deltamodulators extrahiert wurde, z. B. aus der Wellenform 33 B der Fig. 7.

Das Merkmals-Extraktionsverfahren, bei dem die obigen Merkmale aus dem Ausgangssignal des Deltamodulators extrahiert oder in diesem ermittelt werden, umfaßt die folgenden Stufen. Das serielle Ausgangssignal des Deltamodulators wird durch die Zeitschaltung 100 gemäß Fig. 4 überwacht und die Dauer eines jeden positiven Impulses wird gemessen und zwischenzeitlich gespeichert. Die Zeit zwischen den einzelnen Impulsen wird ebenfalls gemessen und zwischenzeitlich gespeichert. Wie zuvor erläutert, werden diese Informationen verarbeitet zur Erzeugung der durch die logischen Variablen S und R dargestellten Informationen, welche durch die entsprechenden Wellenformen der Fig. 7 dargestellt sind. Sobald einmal die Werte der R-Variablen und der S-Variablen ermittelt und gespeichert sind, müssen die den einzelnen Impulsen der Deltasignalwellenform zugeordneten Daten nicht länger gespeichert werden. Die Information, welche dem Wert der S-Variablen und der R-Variablen zugeordnet ist, wird in zwei Speicherblöcken gespeichert, welche im folgenden als S-Block und R-Block bezeichnet werden. Jeder der Speicherblöcke speichert die 16 jüngsten Segmente der entsprechenden logischen Variablen S bzw. R. Ein jedes dieser "Segmente" entspricht einem Zeitintervall, während dem die entsprechende Variable (S bzw. R) einen besonderen logischen Pegel, und zwar entweder "Eins" oder "Null" einnimmt. Somit entspricht ein positives S-Segment einem Zeitintervall, während dem der Wert der Variablen S eine logische "Eins" ist. Das negative S-Segment entspricht einem Zeitintervall, während dem die logische Variable S eine logische "Null" ist.

Positive und negative R-Segmente sind in ähnlicher Weise definiert. Somit enthält der R-Speicherblock die Information, welche den 16 letzten aufeinanderfolgenden R-Segmenten entspricht, während der S-Speicherblock die Information enthält, die den 16 letzten S-Segmenten entspricht. Zusammengenommen enthalten die beiden Speicherblöcke die Information, welche die hauptsächlichen Übergänge, Steigungen und flachen Bereiche der ursprünglichen Tonwellenform darstellen. Diese Information wird in digitaler Form gespeichert. Sie kann dazu dienen, die zuvor erwähnten "Merkmale" oder die charakteristischen Verhältnisse der normalisierten Tonwellenform zu errechnen.

Die Merkmals-Extraktions-Subroutine des Phonem-Erkennungs algorithmus fragt den S-Speicherblock ab zur Errechnung einer Teilung (Pitch, Periode, Tonsignalzyklus), welche definiert ist als die Periode des Sprachtons, welcher derzeit empfangen und durch das Spracherkennungssystems analysiert wird. Diese Periode (dieser Tonsignalzyklus) wird errechnet durch Befragung des S-Speicherblocks und des R-Speicherblocks zur Ermittlung von verwandten Segmenten, welche identisch oder nahezu identisch mit dem jüngsten S-Segment sind. Nun werden alle S-Segmente summiert, einschließlich des jüngsten S-Segments, welche nach dem ermittelten identischen oder nahezu identischen Segment aufgetreten sind.

Der Algorithmus fragt auch den S-Speicherblock ab, um die längsten und zweitlängsten positiven S-Segmente zu ermitteln, sowie die längsten und zweitlängsten negativen S-Segmente. Ferner fragt der Algorithmus auch den R-Speicherblock ab, um das längste positive R-Segment und das längste negative R-Segment zu ermitteln. Ein jedes dieser Segmente wird durch die jeweilige S-Periode dividiert. Man erhält dabei die gewünschten zeit-normalisierten charakteristischen Verhältnisse oder Merkmale des derzeit analysierten Tons des eintreffenden Realzeit-Tonsignals. Natürlich können auch andere Merkmale als die oben erwähnten errechnet werden, um, falls erforderlich, bestimmte Töne zum Zwecke ihrer Bestimmung zu charakterisieren.

Der Algorithmus speichert laufend die Werte aller oben genannten zeit-normalisierten charakteristischen Verhältnisse oder Merkmale durch zwischenzeitliche Speicherung aller dieser Merkmale und Fortschreibung derselben bei jeder neuen größeren S-Steigung oder bei jedem neuen größeren S-Flachbereich, und zwar im Verlauf der Analyse aufeinanderfolgender Töne.

Die fortgeschriebenen zeit-normalisierten charakteristischen Verhältnisse und Merkmale werden sodann zum Vergleich mit entsprechenden gespeicherten Phonem-Verhältnissen verwendet. Dieser Vergleich erfolgt anhand eines Phonem-Erkennungs-Ent scheidungsbaums.

Die Breiten der verschiedenen Impulse könenn durch die Periode der sich wiederholenden Wellenform dividiert werden, um charakteristische Verhältnisse zu erhalten, welche unabhängig von der Periode (Pitch) sind. Diese charakteristischen Verhältnisse können auch für die Breiten der verschiedenen Impulse zueinander errechnet werden, und zwar für die S-Wellenform oder für die R-Wellenform. Auch können solche Verhältnisse zwischen einem Impuls der S-Wellenform und einem Impuls der R-Wellenform errechnet werden. Alle diese Verhältnisse sind unabhängig von der Periode (Pitch). Bestimmte einzelne der erhaltenen Verhältnisse können zur deutlichen Unterscheidung der einzelnen gesprochenen Töne in der gesprochenen Sprache von anderen Tönen verwendet werden. Es wurde festgestellt, daß die Verhältnisse, welche die drei oder vier signifikantesten Verweilungen oder Übergangsdauern oder relativen Orte in einer Tonwellenform involvieren, zur Charakterisierung der verschiedenen Töne in der gesprochenen Sprache ausreichen. Die den einzelnen Phonemen gemäß Fig. 2 zugeordneten Töne werden durch solche Verhältnisse (im folgenden als Phonem-Verhältnisse bezeichnet) charakterisiert und diese werden im Speicher des Mikrocomputers 52 gespeichert. Diese Verhältnisse werden auf einer Realzeitbasis aus der eintreffenden Tonwellenform errechnet und sodann verglichen, und zwar in einer Reihenfolge, welche durch den Betriebsalgorithmus (nachfolgend besprochen) festgelegt ist. Der Vergleich erfolgt mit den gespeicherten Phonem-Verhältnissen. Auf diese Weise werden die Phonem-Signale ausgewählt, welche ausgegeben werden sollen oder die Phoneme, welche ausgedruckt werden sollen.

Die in obiger Weise errechneten charakteristischen Verhältnisse werden verglichen mit den oben erwähnten gespeicherten Phonem-Verhältnissen, und zwar gemäß einem Phonem-Erkennungsalgorithmus, welcher nachfolgend beschrieben werden soll. Der Phonem-Erkennungsalgorithmus arbeitet gemäß dem Phonem-Erkennungsentscheidungsbaum der Fig. 8. Zur Durchführung einer erfolgreichen Realzeit- Phonem-Klassifizierung und -identifizierung muß der Phonem- Entscheidungsbaum die errechneten Verhältnismerkmale des derzeit empfangenen Phonemklangs in einer effizienten Reihenfolge testen und klassifizieren, damit das Sprach erkennungssystem mit dem Sprecher Schritt halten kann. Darüber hinaus gewinnt man durch den Hochgeschwindigkeits entscheidungsvorgang bei der Klassifizierung und beim Vergleich der Korrelation zusätzliche Rechnerzeit, welche benötigt wird, für die Segmentationsanalyse und für die Steuerung des Ausdruckens.

Die durchschnittliche Entscheidungsgeschwindigkeit wird verbessert, wenn man die Vergleichsprozedur mit dem in der jeweiligen Sprache, z. B. in der amerikanischen Sprache, am häufigsten vorkommende Phonemen beginnt. Gemäß Fig. 8 ist der Phonem-Entscheidungsbaum mit einer Vielzahl von Zweigen angeordnet. Jeder Zweig weist als Startpunkt des Phonem N auf, welches in der gesprochenen englischen Sprache der häufigste Ton ist. Die Größe der Rechtecke, welche die verschiedenen Phoneme darstellen, kann als Maß für die Häufigkeit des Auftretens des jeweiligen Phonems in der englischen Sprache angesehen werden. Phoneme mit herausstechenden Merkmalen werden jeweils in einem einzelnen Zweig des Entscheidungsbaums gruppiert, und zwar in der Reihenfolge der abnehmenden Häufigkeit ihres Auftretens in der Sprache. Es werden daher nicht mehr als sechs Sätze von Tests benötigt, um das noch am wenigstens häufige Phonem zu erkennen und zu identifizieren, z. B. den Ton "WH" im Wort "when". Zum Beispiel bilden die Phoneme mit den Rechtecken 204, 206, 208, 210 und 212 einen Zweig. Der Pfeil 214 deutet ein Ausgangssignal des obigen Zweiges an und somit ferner daß der Algorithmus beim Versuch der Erkennung der getesteten Merkmale während des jeweiligen Durchgangs durch diesen Zweig versagt hat. Die Rechtecke 204, 220 und 224 bilden einen weiteren Zweig. In einigen Fällen erstrecken sich Unterzweige, wie 232, 234 von anderen Zweigen weg.

Die allgemeine Folge von Grundoperationsstufen des Phonem- Erkennungsalgorithmus ist in Form eines Fließdiagramms in Fig. 9 dargestellt. Der Algorithmus beginnt bei 250 und tritt in den Phonem-Klassifizierungs-Entscheidungsbaum ein, wie dies durch den Block 251 dargestellt ist. Die errechneten zeit-normalisierten charakteristischen Verhältnisse der derzeit analysierten Phoneme werden gemäß dem Phonem-Entscheidungsbaum der Fig. 8 getestet. Falls eine adäquate Übereinstimmung zwischen den charakteristischen Verhältnissen des getesteten Phonem-Klangs besteht, so werden diese Charakteristika ferner auch mit der Verhältnischarakteristik des "letzten bekannten" Phonems verglichen, für das eine adäquate Übereinstimmung erhalten werden konnte, wie dies durch die Entscheidungsblöcke 253 und 256 angedeutet ist. Wenn eine adäquate Übereinstimmung der errechneten charakteristischen Verhältnisse mit den gespeicherten Phonem verhältnissen nicht erzielt wird (gemäß dem Entscheidungsblock 253), so tritt der Algorithmus wiederum in den Phonem- Klassifizier-Entscheidungsbaum ein und es folgt nun ein Durchgang durch einen verwandten, aber unterschiedlichen Zweig, und zwar gemäß zusätzlichen Hinweisen (nachfolgend erläutert), welche von vom Mikrocomputer 52 empfangenen hochfrequenten Zischsignalen und/oder seriellen digitalen Amplitudensignalen abgeleitet werden, und zwar zum Zwecke der Erkennung bestimmter Übergänge und Amplitudenmerkmale der Toneingangswellenform.

Wenn die Phonem-Klangverhältnisse in geeigneter Weise überein stimmen, was durch den Entscheidungsblock 253 bestätigt wird und wenn die Phonem-Verhältnisse identisch sind mit dem letztbekannten Phonem, welches zwischenzeitlich an einem vorbestimmten Ort des Speichers gespeichert wurde, (durch den Entscheidungsblock 256 angedeutet), so veranlaßt der Algorithmus gemäß Fig. 9 nicht das Ausdrucken des Phonems, sondern er tritt vielmehr wiederum in den Phonem-Entscheidungsbaum beim Block 251 zur weiteren Analyse ein. Auf diese Weise wird sichergestellt, daß ein lang anhaltender Ton dazu führt, daß das entsprechende Phonem-Symbol nur einmal gedruckt wird und nicht mehrmals je nach der Algorithmus-Ausführungsgeschwindigkeit und je nach der Dauer des Tons. Nur wenn das neue übereinstimmende Phonem nicht mit dem letzten Phonem identisch ist, wird die das letzte bekannte Phonem identifizierende Information der Ausdruckroutine zugeführt. Das neue übereinstimmende Phonem wird nun am Ort des Speichers für das letzte bekannte Phonem gespeichert bis ein neuer Phonemklang wieder übereinstimmt oder erkannt wird, wie dies durch die Entscheidungsblocks 254 und 255 dargestellt ist. Sodann tritt der Algorithmus wieder in den Phonem-Entscheidungsbaum des Blocks 251 ein.

Man erkennt somit, daß der Algorithmus eine Vielzahl von Ausdruckungen des gleichen Phonemsymbols während eines länger anhaltenden oder langgezogenen Tons verhindert. Diese langgezogenen Töne herrschen in den gleitenden Übergängen vor. Letztere sind charakteristisch für die amerikanische Sprechweise, wenn eine Reihe von zwei oder drei länger angehaltenen Tönen miteinander vermischt werden, und zwar in Form eines gleitenden Übergangs im Verlauf einer Zeitdauer von mehreren Sekunden. Hierdurch wird verhindert, daß eine übermäßige Anzahl von Phonem-Symbolen ausgedruckt wird, so daß die gedruckte Phonem-Botschaft leichter lesbar wird.

Die Identifizierung von und die Ausdrucksteuerung für Phonem- Symbole, welche nicht einer anhaltenden Stimminformation entsprechen, geschieht mit Hilfe der Information, welche in einem Amplitudensignal, z. B. der Wellenform 42 A der Fig. 6 enthalten ist. Diese digitalisierte Amplitudeninformation bietet erste Hinweise zur Belegung der Tatsache, daß neue gültige Phonemtöne derzeit geäußert werden und durch die anhaltenden Stimmsignale, welche durch das Deltasignal dargestellt werden, identifiziert werden, und zwar durch Identifizierung der typischen Gleitübergänge, welche normalerweise auftreten, wenn die Sprache von einem sinnvollen Phonemton zu einem anderen fortschreitet. Das Amplitudensignal wird ferner durch den Algorithmus analysiert zum Zwecke der Unterscheidung zwischen Frikativ-Tönen (hochfrequenten Tönen) hoher und niedriger Energie, z. B. des Buchstabens "S" (Hochenergie- Frikativton) und des Buchstabens "F" (Niederenergie-Frikativton). Dabei handelt es sich um rasch oszillierende Wellenformen am oberen Ende des Stimmfrequenzspektrums, z. B. um die Wellenformen 33 A, 44 A, 38 A, und 46 A der Fig. 6. Diese Frikativtöne werden durch das Zischsignal identifiziert, welches am Ausgang des Hochfrequenzbandpaßfilters 46 gemäß Fig. 3 erhalten wird und in den Mikrocomputer 52 eingegeben wird. Hierdurch wird die Identifizierung der Hochfrequenzgeräusche oder Zischsignale unterstützt, wenn diese Töne eine vorgeschriebene minimale Amplitude übersteigen. Es sollte bemerkt werden, daß die Amplitudeneinhüllende (z. B. 38 A der Fig. 6) recht langsam ist. Die Änderungen dieser Einhüllenden geben die Betonungen und die syllabischen oder prosodischen Bewegungen der menschlichen Sprachorgane wieder. Diese Bewegungen begleiten gewöhnlich die Übergänge zwischen sinnvollen Phonemtönen. Eine analoge Umwandlung der Amplitudenhüllwellenform 38 A gelingt mit wesentlich geringerer Abtastzeit als bei dem Hochgeschwindigkeitssignal 33 A. Somit erzeugt der Mikrocomputer 52 einen relativ langsamen Abtastzeittakt von 200 Hz auf dem Leiter 56, mit dessen Hilfe eine Analog-zu-digital-Wandlung des Amplituden einhüllungssignals bewirkt wird.

Der Phonemklassifizierungsentscheidungsbaum ist teilweise in den Flußdiagrammen der Fig. 10 A und 10 B dargestellt. Der Eintritt erfolgt am Punkt 250, nachdem die zuvor beschrie bene Merkmalsextraktion des derzeit analysierten Tonsignals beendet ist.

Der Algorithmus testet zunächst die Amplitudeninformation entsprechend dem derzeit vorliegenden Ton, wie dies durch den Block 262 angedeutet ist. Wenn die Amplitude sehr niedrig ist, und nur ein Hintergrundgeräuschpegel vorliegt, so stellt der Algorithmus fest, ob es sich bei der vorliegenden Stille um eine lange Stilleperiode handelt, und zwar durch Vergleich der derzeitigen Amplitude mit der zuvor gespeicherten Amplitudeninformation, wie dies durch den Entscheidungsblock 264 in Fig. 10 A angedeutet ist. Der Algorithmus druckt sodann eine Reihe von Bindestrichen aus, wie dies durch den Block 266 angedeutet ist. Wenn die Stilleperiode keine lange Stilleperiode ist, so bewirkt der Algorithmus, daß nur ein einziger Bindestrich ausgedruckt wird, wie dies durch den Block 268 dargestellt ist. In jedem Falle kehrt der Algorithmus zum Eingangspunkt A zurück. Wenn die Entscheidung beim Entscheidungsblock 262 "Nein" lautet, so bestimmt der Algorithmus, ob eine hochfrequente Zischkomponente im derzeitigen Ton vorliegt, wie dies durch den Entscheidungsblock 270 dargestellt ist. Falls dies der Fall ist, zweigt der Algorithmus zu einer Subroutine ab, welche verschiedene Tests für die Frikativtöne durchführt, wie dies durch den Block 272 dargestellt ist. Diese Tests werden hier nicht im einzelnen beschrieben. Sie dienen als Hinweise zur Identifizierung der Übergänge und zur Unterscheidung der Phoneme.

Falls kein Zischgeräusch am Entscheidungsblock 270 festgestellt wird, vergleicht der Algorithmus die derzeitige Zeichendichte (Pitch) mit der zuvor gespeicherten Zeichendichteninformation zur Feststellung, ob die Zeichendichte ansteigt, und zwar gemäß dem Entscheidungsblock 274. Wenn die Zeichendichte ansteigt, so führt der Algorithmus Tests zur Ermittlung der Starttöne, z. B. der anfänglichen Tone der Buchstaben "P", "D", "G" und "B" gemäß dem Entscheidungsblock 276 durch. Wenn die Zeichendichte nicht ansteigt, so stellt der Algorithmus fest, ob die Zeichendichte fällt. Hierzu wird die zuvor errechnete Zeichendichte mit der zuvor gespeicherten Zeichendichteninformation verglichen. Wenn festgestellt wird, daß die Zeichendichte fällt (Entscheidungsblock 278), so führt der Algorithmus Tests durch, welche zeigen, ob ein Ton beendet wird, und zwar gemäß den Blöcken 280 und 282. Ferner tritt der Algorithmus in eine Subroutine ein zur Vorbereitung des Druckers zur Erzeugung eines Zwischenraums. Auf diese Weise wird die vorhergehende Phonemgruppe von der nachfolgenden Phonemgruppe getrennt. Wenn die Zeichendichte nicht fällt, was durch den Entscheidungsblock 278 festgestellt wird, so tritt der Algorithmus in den Phonem-Entscheidungsbaumbereich des Algorithmus ein. Dieser arbeitet gemäß dem Phonem-Entscheidungsbaum gemäß Fig. 8. Dieser Teil des Algorithmus ist im Flußdiagramm der Fig. 10 B gezeigt.

Im folgenden wird auf Fig. 10 B Bezug genommen. Der Algorithmus wartet auf die nächste Fortschreibung der Zeichendichte, wie durch den Block 286 angedeutet. Wenn der Algorithmus nun feststellt, daß die Amplitude "weich" ist (dies bedeutet, daß die derzeitige Amplitude geringer als 25% der maximalen Amplitude ist), und zwar gemäß dem Entscheidungsblock 288, so findet ein Durchgang des Algorithmus durch den Zweig des Phonem-Entscheidungsbaums der Fig. 8 statt, welcher die Blöcke 202, 228, 232 und 234 umfaßt und die nasalen Phonem klänge betrifft.

Das Flußdiagramm der Fig. 10 B zeigt nicht das Vergleichs verfahren für alle Zweige des Entscheidungsbaums der Fig. 8. Wenn die Amplitude sich beim Entscheidungsblock 288 nicht als "weich" erweist, so zeigt nun der Block 289, daß der Algorithmus in verschiedene andere Zweige des Phonement scheidungsbaums gemäß Fig. 8 eintritt, und zwar gemäß anderen Prioritäten, welche in dem Algorithmus vorgesehen sind oder auf der Grundlage zusätzlicher Hinweise oder Anhaltspunkte, welche durch den Algorithmus ermittelt werden.

Es soll nun angenommen werden, daß der derzeitige Ton eine "weiche Amplitude" aufweist, was durch den Entscheidungsblock 288 festgestellt wird. Nun vergleicht der Algorithmus das maximale Positive S-Verhältnis (d. h. die Zeit des maximalen positiven S-Segments dividiert durch die Zeichendichte) mit dem maximalen negativen S-Verhältnis zur Feststellung, ob die Wellenform ein akzeptables "Gleichgewicht" zwischen den hauptsächlichen positiven und negativen Steigungen aufweist. Dies ist charakteristisch für die Phoneme "N" oder "NG". Falls dies nicht der Fall ist, tritt der Algorithmus in den Entscheidungsblock 298 ein und stellt fest, ob das maximale negative S-Verhältnis größer als das doppelte des maximalen positiven S-Verhältnisses ist. Falls dies nicht der Fall ist, so zweigt der Algorithmus zum Block 289 ab, und nun werden andere Zweige des Phonementscheidungsbaums durchgetestet. Wenn das Ergebnis des Tests gemäß dem Entscheidungsblock 298 bestätigend ist, so stellt der Algorithmus fest, daß der derzeit getestete Ton wahrscheinlich der Ton des Buchstabens "M" ist (Block 300). Nun wird ein Identifizierwert oder -code, welcher das "M"-Phonem darstellt, an einem Speicherort gespeichert, welcher als "Kandidat" bezeichnet ist. Nunmehr schreitet die Routine von dort zur Ausgaberoutine. Die Ausgabesubroutine vergleicht den Code mit dem zuvor gespeicherten Code, welcher an dem mit "Kandidat" bezeichneten Ort gespeichert ist, wie dies durch den Block 302 angedeutet ist. Falls keine Übereinstimmung vorliegt, kehrt der Algorithmus zum Punkt A der Fig. 10 A zurück und macht einen weiteren Durch gang. Wenn jedoch der Code, welcher dem "M"-Phonem entspricht, gleich dem zuvor gespeicherten Code ist, so hat der Phonem- Klassifizierbereich des Algorithmus das gleiche Phonem zweimal hintereinander gewählt und daraus schließt der Algorithmus, daß wahrscheinlich das richtige Phonem ausgewählt wurde, und ansprechend auf diese Entscheidung wird nun ein Adreßcode für das "M"-Phonem ausgewählt und der Code wird an einem Speicherort gespeichert, welcher mit "letztes bekanntes Phonem" bezeichnet ist, wie dies durch den Block 304 angedeutet ist. Nunmehr tritt der Algorithmus in den Entscheidungs block 306 ein. Hier wird festgestellt, ob ein nachfolgendes gültiges Zeichen identifiziert wird. Ist dies nicht der Fall, so tritt der Algorithmus zum Punkt A der Fig. 10 A zurück. Falls andererseits das nächste gültige Zeichen gefunden wird, so tritt der Algorithmus in den Block 308 ein und nun wird der an dem mit "letztes bekanntes Zeichen" bezeichneten Speicherort gespeicherte Code ausgedruckt und dieses Zeichen wird nun durch das nächste gültige Zeichen ersetzt, wie zuvor anhand der Fig. 9 beschrieben.

Falls der Algorithmus im Entscheidungsblock 290 zur Schlußfolgerung "Ja" gelangt, so wird nun festgestellt, ob der derzeitige Ton nur ein einziges großes maximales negatives R-Verhältnis aufweist. Falls dies der Fall ist, so wird hierdurch erkannt, daß der derzeitige Ton wahrscheinlich ein N-Ton ist. Dies ist durch den Block 296 angedeutet. Nun wird ein identifizierender Code an dem mit "Kandidat" bezeichneten Speicherort gespeichert, worauf der Algorithmus zur Ausgabesubroutine abzweigt. Falls das Ergebnis des Entscheidungsblocks 292 "Nein" ist, so zweigt der Algorithmus zum Block 289 ab, um die Anwesenheit eines "NG"-Phonems zu testen.

Es können verschiedene Methoden angwendet werden zur Herbeiführung der Entscheidung, ob das Papier des Phonemdruckers weitergeschaltet werden soll oder nicht. Bei der oben beschriebenen Ausführungsform, welche in Verbindung mit einem öffentlichen Telefonsystem Verwendung finden kann und es tauben oder schwerhörigen Personen erlaubt, die öffentlichen Telefongeräte zu benutzen, wird vorzugsweise ein schmaler Papierstreifen gewählt, welcher kurze Linien aufweist. Es wird angenommen, daß ein solcher Papierstreifen leicht lesbar ist. Ein Verfahren zur Feststellung des Zeitpunkts der Vorwärtsbewegung des Papiers beruht auf dem Abzählen der Anzahl der Zeichen, der Anzahl der Konsonanten oder der Anzahl der Silben. Kombinationen dieser Verfahren können ebenfalls angewendet werden. Zum Beispiel kann der Papierstreifen stets dann weiterbewegt werden, nachdem die Silbe beendet ist, wobei die Vollständigkeit der Silbe ermittelt wird, nachdem eine bestimmte Anzahl von Zeichen gedruckt sind. Es müssen erhebliche Untersuchungen angestellt werden zur Feststellung der besten Methode der Vorwärtsbewegung des Papiers, ohne Verschwendung übermäßiger Papiermengen und unter gleichzeitiger Verbesserung oder Aufrechterhaltung der Lesbarkeit der ausgedruckten Phoneme.

Das Spracherkennungssystem kann leicht in ein Diktiergerät eingebaut werden, und zwar gemäß Fig. 1 durch die durch eine gestrichelte Linie dargestellte Verbindung, welche mit dem Bezugszeichen 23 bezeichnet ist. Diese verbindet das Mikrofon 24 direkt mit einem Spracherkennungssystem 20. Andererseits wird der Wandler 22 und der akustische Koppler 18 vom Spracherkennungssystem 20 getrennt, wie dies durch die gestrichelten Kreuze "X" 21 angedeutet ist. Der Hauptunterschied zur Ausführungsform gemäß Fig. 1 besteht darin, daß kein akustischer Koppler erforderlich ist. Die Mikrofonsignale werden direkt in das Spracherkennungssystem eingegeben, welches nun die Signale erzeugt, die den Phonemdrucker treiben.

Die Ausgangssignale des Spracherkennungssystems können auch zur direkten Steuerung einer digital gesteuerten Maschine verwendet werden, anstatt einen Phonemdrucker zu treiben. Hierbei wird das Ausgangsdatentor 62 des Mikrocomputers 52 mit einer anderen geeigneten elektromechanischen Vorrichtung mit digitalen Steuereingängen verbunden, wie dies in Fig. 3 angedeutet ist.

Bei einer Abwandlung des zuvor beschriebenen Spracherkennungssystems sind Schalter 21 A, 21 B und 21 C gemäß Fig. 1 vorgesehen. Diese erlauben es der Bedienungsperson, das System entweder als Diktiergerät zu verwenden, oder als Übungsgerät. Eine schwerhörige Person, welche noch nicht in der Lage ist, die durch den Drucker 12 ausgedruckten Phonemsymbole zu lesen, kann einfach den Schalter 21 A und den Schalter 21 B öffnen sowie den Schalter 21 C schließen. Nun kann die Bedie nungsperson in das Mikrofon 24 sprechen und das Lesen der ausgedruckten Phonemsymbole üben.

Claims

1. Verfahren zur Spracherkennung durch Umwandlung von analogen Tonsignalen in Zeichensignale, Erfassung von charakteristischen Merkmalen der Tonsignale in einzelnen Tonsignalzyklen, Vergleich der erfaßten Merkmale mit vorgegebenen Merkmalen, denen Zeichensignale zugeordnet sind, und Erzeugung der entsprechenden Zeichensignale, dadurch gekennzeichnet, daß die charakteristischen Merkmale durch Erfassung der Zeitdauern von aufeinanderfolgenden, näherungsweise linearen, kontinuierlichen Abschnitten (Fig. 7, A′, B′, C′) des Tonsignals (33 B) und Berechnung von Quotienten mindestens einiger dieser Zeitdauern eines Tonsignalzyklus gebildet werden.

2. Verfahren nach Anspruch 1, gekennzeichnet durch die weiteren Schritte:

(a) Vergleich eines Rampensignals (115 A) mit abwechselnd positiver und negativer Steigung mit dem Tonsignal (33 B);
(b) Erfassung des Ergebnisses des Vergleichs des momentanen Pegels des Tonsignals (33 B) mit dem momentanen Pegel des Rampensignals (115 A) bei einer vorbestimmten Abtastrate;
(c) Umkehr der Steigung des Rampensignals (115 A), sobald das Rampensignal (115 A) mit positiver Steigung den momentanen Pegel des Tonsignals (33 B) übersteigt bzw. sobald das Rampensignal (115 A) negativer Steigung den momentanen Pegel des Tonsignals (33 B) unterschreitet; und
(d) Erzeugung digitaler Impulse (44 B) entsprechend der Steigungsumkehr.

3. Verfahren nach Anspruch 2, gekennzeichnet durch eine Erfassung der Anwesenheit oder Abwesenheit einer vorbestimmten Anzahl von aufeinander folgenden Umkehrungen der Steigung des Rampensignals (115 A).

4. Verfahren nach einem der Ansprüche 1 bis 3, gekennzeichnet durch eine Erzeugung eines Amplitudenhüllsignals (38 A), welches Amplitudenänderungen des Tonsignals 33 B darstellt; eine Deltamodulation des Amplitudenhüllsignals (38 A) unter Erzeugung einer zweiten Folge von digitalen Impulsen (42 A), welche die in dem Amplitudenhüllsignal enthaltene Amplitudeninformation darstellen, und eine Erfassung von Übergangsstellen des Tonsignals (33 B) ansprechend auf die zweite Folge von digitalen Impulsen (42 A).

5. Verfahren nach einem der Ansprüche 2 bis 4, gekennzeichnet, durch folgende Schritte:

(a) Erzeugung einer ersten Folge (44 c) von ersten Segmenten einer logischen Variablen (S), wobei jedes Segment definiert ist durch jeweils eines der Zeitintervalle, in denen ein größerer Flankenbereich des Tonsignals (33 B) erfaßt wird, und wobei der logische Zustand durch die Steigung des Rampensignals (115 A) bestimmt ist, wenn sich diese Steigung während einer vorbestimmten Zeitdauer nicht umkehrt;
(b) Speicherung der ersten Folge von ersten Segmenten der logischen Variablen (S);
(c) Erfassung einer Periode des Tonsignals (33 B) durch Summierung der gespeicherten ersten Segmente der logischen Variablen (S) zwischen einem jüngsten gespeicherten Segment der ersten Segmente der logischen Variablen (S) und einem gleichen zuvor gespeicherten Segment der ersten Segmente der logischen Variablen (S) und
(d) Division vorbestimmter erster Segmente der logischen Variablen (S) durch die ermittelte Periode unter Gewinnung von charakteristischen Verhältnissen der Tonwellenform (33 B).

6. Verfahren nach Anspruch 5, gekennzeichnet durch die weiteren Schritte:

(a) Erzeugung einer zweiten Folge (44 D) von zweiten Segmenten einer logischen Variablen (R), deren jedes definiert ist durch ein jeweiliges Intervall der gemessenen Zeitintervalle, wobei der logische Zustand bestimmt wird durch das Auftreten einer vorbestimmten Anzahl von aufeinanderfolgenden Steigungsumkehrungen des Rampensignals (115 A);
(b) Speicherung der Folge von zweiten Segmenten der logischen Variablen (R) und
(c) Division vorbestimmter zweiter Segmente der logischen Variablen durch die ermittelte Periode zur Ermittlung bestimmter anderer charakteristischer Verhältnisse des Tonsignals (33 B).

7. Verfahren nach einem der Ansprüche 1 bis 6, gekennzeichnet durch eine Phonem- Klassifizierung, welche verschiedene der gespeicherten Phonemverhältnisse auswählt zum Vergleich mit den charakteristischen Verhältnissen des Tonsignals (33 B) gemäß einem Phonemklassifizierentscheidungsbaum, wobei der Phonemklassifizierentscheidungsbaum eine Vielzahl von Zweigen umfaßt, von denen jeder eine Vielzahl von Phonemverhältnissen von miteinander verwandten Phonemklängen beinhaltet, und wobei die Phonemverhältnisse des jeweiligen Zweiges in der Reihenfolge der Abnahme ihrer durchschnittlichen Häufigkeit in der jeweiligen gesprochenen Sprache ausgewählt werden.

8. Verfahren nach Anspruch 7, gekennzeichnet durch

(a) eine Erzeugung eines Amplitudenhüllsignals (38 A), welches Amplitudenänderungen des Tonsignals (33 B) darstellt;
(b) eine serielle Codierung des Amplitudenhüllsignals (38 A) zur Erzeugung einer zweiten Folge von seriellen digitalen Impulsen (44 B), welche die Amplitudeninformation des Amplitudenhüllsignals (38 A) darstellen und
(c) eine Analyse der zweiten Folge von seriellen digitalen Impulsen (44 B) zum Zwecke der Erzeugung einer Übergangsinformation, welche die Übergänge und die gleitenden Übergänge des Tonsignals (33 B) darstellt.

9. Verfahren nach einem der Ansprüche 7 oder 8, gekennzeichnet durch die Schritte:

(a) Ermittlung von Frequenzkomponenten im Tonsignal (33 B), welche in einem vorbestimmten Frequenzbereich liegen und eine vorbestimmte Schwellenhöhe übersteigen;
(b) Erzeugung eines digitalen Signals (130 A), welches die erfaßte Frequenzkomponente wiedergibt; und
(c) Auswahl bestimmter einzelner der Zweige des Entscheidungsbaumes aufgrund der die Frequenzkomponenten darstellenden Digitalsignale und Unterscheidung zwischen einzelnen der gespeicherten Phonemverhältnisse und der charakteristischen Verhältnisse des Tonsignals (33 B).

10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß die Phonemsymbole, ansprechend auf die die Phoneme darstellenden Signale, ausgedruckt werden.

11. Verfahren nach Anspruch 10, gekennzeichnet durch folgende Schritte

(a) Vergleichen ausgewählter einzelner der gespeicherten Phonemverhältnisse mit den charakteristischen Verhältnissen des Tonsignals (33 B), bis eine adäquate Übereinstimmung auftritt;
(b) Vergleich der übereinstimmenden Phonemverhältnisse mit einem jeweils jüngsten übereinstimmenden, vorhergehenden Phonemverhältnis, sobald eine adäquate Übereinstimmung bei einer der sequentiellen Vergleichsstufen festgestellt wird und Wiederholung des sequentiellen Vergleichs, falls keine adäquate Übereinstimmung festgestellt wird, und
(c) Erzeugung eines Signals, welches den Phonemton wiedergibt und zum Ausdrucken des Phonemsymbols führt, falls das übereinstimmende Phonemverhältnis gleich einem vorherigen Phonemverhältnis ist, während andererseits der sequentielle Vergleich wiederholt wird, wenn das übereinstimmende Phonemverhältnis nicht gleich dem vorhergehenden Phonemverhältnis ist, wobei das gedruckte Phonemsymbol dem vorhergehenden Phonemverhältnis entspricht.