DE2918533C2 - - Google Patents
Info
- Publication number
- DE2918533C2 DE2918533C2 DE2918533A DE2918533A DE2918533C2 DE 2918533 C2 DE2918533 C2 DE 2918533C2 DE 2918533 A DE2918533 A DE 2918533A DE 2918533 A DE2918533 A DE 2918533A DE 2918533 C2 DE2918533 C2 DE 2918533C2
- Authority
- DE
- Germany
- Prior art keywords
- phoneme
- signal
- ratios
- sequence
- amplitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000007704 transition Effects 0.000 claims abstract description 29
- 238000003066 decision tree Methods 0.000 claims abstract description 19
- 230000004044 response Effects 0.000 claims abstract description 7
- 238000005070 sampling Methods 0.000 claims abstract description 6
- 230000005236 sound signal Effects 0.000 claims description 48
- 238000001514 detection method Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 230000002441 reversible effect Effects 0.000 claims description 2
- 230000004069 differentiation Effects 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 abstract description 60
- 239000004020 conductor Substances 0.000 description 35
- 239000011295 pitch Substances 0.000 description 11
- 238000012360 testing method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 206010011878 Deafness Diseases 0.000 description 4
- 206010048865 Hypoacusis Diseases 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 230000002459 sustained effect Effects 0.000 description 3
- 208000032041 Hearing impaired Diseases 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 230000005923 long-lasting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
- G09B21/009—Teaching or communicating with deaf persons
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Interface Circuits In Exchanges (AREA)
- Electrophonic Musical Instruments (AREA)
Description
Die Erfindung betrifft ein Verfahren zur Spracherkennung gemäß dem Oberbegriff des Patentanspruches.
Insbesondere werden spezifische Geräusche,
welche Phonemen zugeordnet sind sowie
Übergänge zwischen diesen in der gewöhnlichen Sprache erkannt.
Es werden in jüngster Zeit große Anstrengungen auf dem
Gebiet der Stimmen- und Spracherkennung unternommen.
Es wurden bereits einige Systeme entwickelt, welche dazu in
der Lage sind, eine kleine Gruppe von gesprochenen Worten
ohne Pausen zwischen den Worten zu erkennen ("Voice-
Recognition Unit For Data Processing Can Handle 120 Words",
Electronics, Seite 69, 13. April 1978).
Eine Übersicht über den derzeitigen Stand der Technik auf
dem Gebiet der Spracherkennung wurde von D. Raj Reddy gegeben
"Speech Recognition by Machine: A Review", Proceedings
of the IEEE, 1. April 1976, Seiten 501-531. Einzelheiten
besonders relevanter Probleme der Spracherkennung finden
sich in den folgenden Artikeln:
"Algorithm for Pitch Extraction Using Zero-Crossing Interval
Sequence" von Nezih C. Geckinli und Davras Yavuz, IEEE
Transactions on Acoustic Speech and Signal Processing,
Band ASSP-25, Nr. 6, Dezember, 1977;
"Continuous Speech Recognition by Statistical Methods", von Frederick Jelinek, Proceedings of the IEEE, Band 64, Nr. 4, April 1976;
"Pseudo-Maximum-Likelihood Speech Extraction", David H. Friedman, IEE, Transactions on Acoustics, Speech, and Signal Processing, Volume ASSP-25, Nr. 3, Juni, 1977;
"Practical Applications of Voice Input to Machines", Thomas B. Martin, Proceedings of the IEEE, Volume 64, Nr. 4, April 1976;
"On the Use of Autocorrelation Analysis for Pitch Detection", Lawrence R. Rabiner, IEEE Transactions on Acoustics, Speech, an Signal Processing, Band ASSP-25, Nr. 1, Februar, 1977;
und "Communication Aids for People with Impaired Speech und Hearing", A. F. Newell, Electronics and Power, Oktober 1977.
"Continuous Speech Recognition by Statistical Methods", von Frederick Jelinek, Proceedings of the IEEE, Band 64, Nr. 4, April 1976;
"Pseudo-Maximum-Likelihood Speech Extraction", David H. Friedman, IEE, Transactions on Acoustics, Speech, and Signal Processing, Volume ASSP-25, Nr. 3, Juni, 1977;
"Practical Applications of Voice Input to Machines", Thomas B. Martin, Proceedings of the IEEE, Volume 64, Nr. 4, April 1976;
"On the Use of Autocorrelation Analysis for Pitch Detection", Lawrence R. Rabiner, IEEE Transactions on Acoustics, Speech, an Signal Processing, Band ASSP-25, Nr. 1, Februar, 1977;
und "Communication Aids for People with Impaired Speech und Hearing", A. F. Newell, Electronics and Power, Oktober 1977.
Herkömmliche Systeme der Spracherkennung sind extrem
komplex und teuer. Die Spracherkennung erfolgt anhand
charakteristischer Sprachklänge oder -geräusche (Phonetik)
aufgrund einer Variabilität in der Aussprache (Phonologie),
aufgrund von Betonungsmustern und Intonationsmustern der
Sprache (Prosodic), aufgrund von Klangmustern der Worte
(Lexikon), aufgrund von grammatischen Strukturen der
Sprache (Syntax), aufgrund der Bedeutung der Worte und
Sätze (Semantik) und aufgrund des Kontextes der Unterhaltung
(Pragmatik). Das Gehirn eines erwachsenen Menschen
ist fähig, all diese genannten Erkenntnisquellen zu verarbeiten
und zur Spracherkennung zu nutzen. Das menschliche
Gehirn arbeitet nach Art eines programmierten Computers.
Die bisher entwickelten Computer für die Spracherkennung sind
jedoch äußerst teuer. Sie umfassen einen großen Speicher
zur Speicherung der Daten und Algorithmen, welche erforderlich
sind zur Erzielung auch nur eines begrenzten Maßes
der Erkennung von isolierten Worten und von kurzen Gruppen
von miteinander verbundenen Worten.
Bekannte Systeme der Spracherkennung digitalisieren und
analysieren die eintreffenden Sprachsignale und bilden eine
Parameterdarstellung derselben. Bei den meisten bekannten
Spracherkennungssystemen werden Referenzmuster gelernt und
in Rechnersystemen gespeichert und sodann mit den normalisierten
unbekannten Signalmustern verglichen. Falls eine Übereinstimmung
zwischen einem solchen unbekannten Signalmuster
und einem gespeicherten Signalmuster gefunden wird, so werden
Ausgangssignale erzeugt, aufgrund derer die Worte ausgedruckt,
angezeigt oder auf andere elektromechanische Weise dargestellt
werden. Das bekannteste Verfahren der Sprachdigitalisierung
macht von der Pulscodemodulation Gebrauch. Dabei wird ein
analoges Signal in eine vorbestimmte Anzahl von Segmenten
unterteilt. Bisherige Systeme filtern typischerweise die
Sprache in eine relativ große Anzahl von Kanälen zum Zwecke
der Isolierung verschiedener Frequenzkomponenten, deren jede
der Impulscodemodulation unterworfen wird. Jedes Inkrement
einer jeden Kanalwellenform erfordert die Speicherung
eines digitalen Wortes. Daher bedingt dieses herkömmliche
Spracherkennungssystem die zwischenzeitliche Speicherung und
die digitale Verarbeitung einer großen Anzahl von Signalen.
Es wurden spezialisierte Algorithmen entwickelt, welche
in den digitalen Daten, die aus verschiedenen Frequenzkanälen
erhalten werden, bildende Elemente (Spektralregionen hoher
Intensität) erkennen. Diese Algorithmen wurden entwickelt
zum Zwecke der Erkennung von Konsonanten, Vokalen, flüssigen
Konsonanten und scharfen Übergangstönen, welche durch solche
Daten dargestellt werden. Ferner wurden auch statistische
Techniken verwendet, zur Analyse der bei der Spektralfilterung
und Impulscodemodulation der eintreffenden Sprachsignale
erhaltenen Daten.
Das Spracherkennungsverfahren nach der Erfindung geht aus
von einem Stand der Technik, wie er aus der DE-PS 11 97 638
bekannt ist. Dort ist ebenfalls ein Verfahren zur Umwandlung
von analogen Tonsignalen in Zeichensignale durch Erfassung
von charakteristischen Merkmalen der Tonsignale in
einzelnen Tonsignalzyklen, Vergleich der erfaßten Merkmale
mit vorgegebenen Merkmalen, denen Zeichensignale zugeordnet
sind, und Erzeugung der entsprechenden Zeichensignale beschrieben.
Das bekannte Verfahren ermöglicht die Abtrennung
von Lauten, indem ein Schwingungsumschlag durch Vergleich
eines jeden Schwingungszugs mit dem unmittelbar vorangehenden
erkannt wird und so die Trennung verschiedener Laute
durchgeführt wird. Dabei dienen jeweils die Null-Durchgänge
der Schwingungen als Kriterien. Der Lauttrennung ist dort
eine Filterbank mit entsprechender Auswertelogik nachgeschaltet,
die die Zuordnung der einzelnen Laute zu den entsprechenden
Zeichen durchführt. Dieses Verfahren hat den
Nachteil, daß es nur bei gleichbleibender Tonhöhe, d. h.
bei ein und demselben Sprecher, funktionieren wird, denn
von Sprecher zu Sprecher unterscheiden sich die Sprachfrequenzen,
d. h. die Tonlagen der Stimmen.
Bei einem aus der DE-OS 23 57 949 bekannten Verfahren werden
Intervalle, die der Periode der Anregungsfrequenz der
Stimmbänder entsprechen, durch Abtastung des analogen
Sprachsignals ermittelt, wobei die Signalamplitude quantisiert
wird. Ferner wird das Quantisierungssignal codiert,
wobei insbesondere die Quantisierung und Codierung der Signalamplitude
durch einen adaptiven Deltamodulator erfolgt,
der für jeden Abtastzeitpunkt ein Delta-Bit bildet. Bei
diesem Verfahren ist eine Echtzeitverarbeitung der Sprachsignale
möglich, wobei die Delta-Codierung einen großen
wirtschaftlichen Vorteil gegenüber den Autokorrelationstechniken
unter Verwendung der Pulscodemodulierung hat. Allerdings
lehrt diese Druckschrift nur, die Delta-Modulationstechnik
dazu anzuwenden, eine digitale Wiedergabe von
Sprachsignalen zu ermöglichen, um diese digital codierten
Signale zu übertragen und anschließend eine genaue Rekonstruktion
der analogen Sprachsignale aus den digital codierten
Signalen zu ermöglichen.
Die US-PS 32 78 685 beschreibt einen Wellenanalysator, mit
dessen Hilfe es möglich ist, Neigungsumkehrprodukte und Nullpunkte
von akustischen Wellen zu bestimmen.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren nach dem Oberbegriff des Patentanspruches 1
zu schaffen,
das Ergebnisse unabhängig von Frequenzen und somit unabhängig
von Tonhöhe und Stimmlage des Sprechers liefert.
Das Verfahren nach der Erfindung zeichnet sich dadurch aus,
daß die charakteristischen Merkmale durch Erfassung der
Zeitdauern von aufeinanderfolgenden, näherungsweise linearen,
kontinuierlichen Abschnitten des Tonsignals und Berechnung
von Quotienten mindestens einiger dieser Zeitdauern
eines Tonsignalzyklus gebildet werden.
Vorteilhafte Ausgestaltung der Erfindung sind in den Unteransprüchen
angegeben.
Im folgenden wird die Erfindung anhand von Zeichnungen näher
erläutert. Es zeigt
Fig. 1 eine schematische Darstellung der Anwendung des erfindungsgemäßen
Verfahrens in Verbindung mit einem Telefonsystem;
Fig. 2 eine tabellarische Darstellung eines vorgeschlagenen
Phonemen-Satzes für das System gemäß Fig. 1;
Fig. 3 ein Blockschaltbild der Schaltungsanordnung zur Durchführung des
erfindungsgemäßen Verfahrens;
Fig. 4 ein detailliertes Blockschaltbild der Schaltungsanordnung gemäß Fig. 3;
Fig. 5 ein detailliertes Blockschaltbild des Delta-Modulators
der Schaltungsanordnung gemäß Fig. 3;
Fig. 6 Wellenformen zur Erläuterung des Betriebs der Schaltungsanordnung
gemäß Fig. 3;
Fig. 7 Wellenformen zur Erläuterung der Arbeitsweise der Schaltungsanordnung
gemäß Fig. 3;
Fig. 8 ein Diagramm eines Phonem-Erkennungs-Entscheidungsbaus,
welcher durch den Betrieb der Schaltungsanordnung
gemäß Fig. 3 verwirklicht wird;
Fig. 9 ein Fließdiagramm zur Erläuterung der grundsätzlichen
Wirkungsweise der Schaltungsanordnung
gemäß Fig. 3; und
Fig. 10A und 10B detaillierte Fließdiagramme zur Erläuterung
der Arbeitsweise eines repräsentativen Teils des
Phonem-Klassifizierteils des Betriebsalgorithmus für
die Schaltungsanordnung
gemäß Fig. 3.
Fig. 1 zeigt die Anwendung des erfindungsgemäßen Spracherkennungsverfahrens
in Verbindung mit einem Telefonsystem 10.
Eine schwerhörige Person kann entweder hören, daß das
Telefon klingelt, oder sie kann dies anhand eines Blinklichtsystems
feststellen oder anhand eines besonders lauten Klingelsystems
oder eines Schlagklingelsystems. Sodann wird
der Telefonhörer 16 in die Aufnahmeschalen eines herkömmlichen
akustischen Kopfhörers gelegt, welcher im Telefonsystem 10 vorgesehen
ist. Sodann spricht die Person in das Mikrofon 27 und
die erzeugten Tonsignale gelangen in eine Audioverstärker-
und Wandler-Schaltung 22. Die Wandlerschaltung 22 kanalisiert
die Schallwellen 30, welche die Tonsignale darstellen,
in das Sendemikrofon des Telefonhörers 16. Umgekehrt werden
Tonsignale, welche von der Person am anderen Ende der Leitung
abgegeben werden und im Telefonsystem ankommen, mit Hilfe
der Hörmuschel des Telefonhörers 16 in Schallwellen umgewandelt
und diese werden nun durch einen akustischen Koppler
18 in elektrische Tonsignale umgewandelt. Der akustische
Koppler 18 gibt die elektrischen Signale an ein Spracherkennungssystem
20 ab. Schalter 21 A und 21 B sind normalerweise
geschlossen und ein Schalter 21 C ist normalerweise
geöffnet, falls die Bedienungsperson das Telefonsystem 10 nicht
als Diktiergerät verwenden will.
Das Spracherkennungssystem 20 erzeugt Phonem-Signale, welche
in einem Phonem-Drucker 12 eingegeben werden. Der Phonem-Drucker
druckt Gruppen von Phonemen, welche der vom Telefon
am anderen Ende empfangenen Sprache entsprechen, in Realzeit
auf einem Papier 26 aus. Die taube oder schwerhörige Person
liest die gedruckten Worte auf dem Papier 26 gemäß den Pfeillinien
28. Somit kann die taube oder schwerhörige Person
die Konversation sofort anhand der ausgedruckten Phoneme
verfolgen anstatt die von der Person am anderen Ende der
Telefonleitung geäußerten Worte zu hören. Die taube oder
schwerhörige Person kann die Unterhaltung jederzeit unterbrechen,
wenn eine Klarstellung der ausgedruckten Phonem-
Botschaften erwünscht ist. Dies geschieht einfach durch
Hineinsprechen in das Mikrofon 24.
Fig. 2 zeigt einen Vorschlag für ein Phonem-Alphabet. Fig. 2
zeigt zwei Gruppen von Phonem-Symbolen. Bei der ersten Gruppe
handelt es sich um Übergangstöne. Diese Übergangstöne umfassen
kurze stoßartige Ausdrücke, welche nicht während einer längeren
Zeitdauer erhalten bleiben. Tonsignale dieser Art sind
z. B. die Buchstaben "D", "C", "B" und "J" mit Tonfrequenzkomponenten.
Andererseits sind die verwandten Töne der Buchstaben
"T", "K", "P" und "CH" stimmlose Buchstaben. Diese
Übergangstöne beeinflussen die Merkmale der einzelnen benachbarten
Phoneme unterschiedlich, je nachdem ob sie dem Phonem
nachfolgen oder ihm vorausgehen. Die andere Gruppe von
Klängen, welche in Fig. 2 als Dauerklänge bezeichnet sind,
umfassen zwei Untergruppen, nämlich Vokale und Nichtvokale.
Alle signifikanten Sprachklänge der englischen Sprache sind
in Fig. 2 enthalten. Es ist möglich, weitere etwa 25 zusätzliche
Phoneme hinzuzufügen, welche zusätzliche Klänge der
menschlichen Sprachorgane wiedergeben und deren einige in
anderen lebenden Sprachen vorkommen. Ferner sind in Fig. 2
jeweils englische Worte angegeben, in denen die einzelnen
Phoneme auftreten. In jedem Wort wurden ein oder mehrere
Buchstaben unterstrichen, welche den Klang des Phonemsymbols
darstellen. Der Phonemdrucker 12 gemäß den Fig. 1 und 3
druckt die Phonemsymbole aus, welche den erkannten Phonemklängen
entsprechen.
Fig. 3 zeigt eine Schaltungsanordnung (Spracherkennungssystem) 10′, die als
Spracherkennungsteil des Telefonsystems 10 der Fig. 1 verwendet
werden kann. Das Spracherkennungssystem 10′ umfaßt ein
Mikrofon 24 oder eine andere Quelle von Tonsignalen.
Dieses Mikrofon ist mit dem Eingang eines Verstärkers 32
verbunden. Der Ausgang des Verstärkers 32 ist mittels eines
Leiters 33 mit einem Analog-zu-seriell-Digital-Wandler
34 verbunden, welcher im folgenden als Delta-Modulator
34 bezeichnet wird. Der Leiter 33 ist ferner auch mit dem
Eingang eines Hochfrequenz-Bandpaßfilters 46 mit einem
Bandpaß im Bereich von 2 bis 4 kHz verbunden. Bei der Ausführungsform
der Fig. 3 ist der Verstärker 32 ein Audiovorverstärker
und der Delta-Modulator 34 umfaßt eine negative
Rückkopplungsschaltung, welche die Flanken des internen
Rampensignals einstellt, und zwar ansprechend auf Änderungen
des Eingangs-Audiosignals auf dem Leiter 33, falls
der Delta-Modulator 34 durch den Codierteil des Delta-Modulators/
Demodulators mit kontinuierlich variierbarer Steigung
gebildet ist. Ein Niederfrequenzfilter
36 ist mit der negativen Rückkopplungsschaltung
verbunden und erzeugt ein Amplitudenhüllsignal
des Tonsignals. Das Hüllsignal erscheint auf einem Leiter
38. Es muß bemerkt werden, daß im Falle einer Delta-Modulatorschaltung
ohne die oben erwähnte negative Rückkopplung und
ohne die Rampe mit variabler Steigung eine negative Rückkopplung
in dem Audioverstärker 32 vorgesehen sein muß.
Bei der Ausführungsform gemäß Fig. 3 kann man sich vorstellen,
daß die negative Rückkopplung Teil des Verstärkers 32 ist, da
der Delta-Modulator 34 arbeitet als ob das Sprachsignal
auf dem Leiter 33 eine konstante Amplitude hätte.
Das serielle digitale Ausgangssignal, welches im folgenden
als "Deltasignal" bezeichnet wird, erscheint auf einem
Leiter 44. Es bildet eine Repräsentation des Tonsignals
auf dem Leiter 33. Das Deltasignal liegt als serielles
digitales Realzeit-Eingangssignal für einen Mikrocomputer 52
vor.
Die Amplitudeneinhüllende auf dem Leiter 38 wird in einen
zweiten Delta-Modulator 40 eingegeben, welcher ebenfalls
ohne weiteres aus dem Codierteil des Delta-Modulators/Demodulators
mit kontinuierlich variablem Anstieg
gebildet sein kann. Der Delta-Modulator 40 erzeugt
eine seriell digitalisierte Wiedergabe des Amplitudeneinhüllungssignals,
welches im folgenden als "Amplitudensignal"
bezeichnet wird, auf dem Leiter 42. Der Leiter 42 ist mit
einem zweiten seriellen Eingang des Mikroprozessors 52
verbunden.
Das Hochfrequenz-Bandpaßfilter 46 erzeugt ein Ausgangssignal
für eine Schwellenwertschaltung 48. Diese erzeugt einen binären
Ausgangsimpuls, welcher im folgenden als "Zischsignal"
bezeichnet wird, auf einem Leiter 50, wenn die Höhe des Bandpaßfilter-
Ausgangssignals einen vorbestimmten Schwellenwert
überschreitet. Der Leiter 50 dient als dritter serieller
Eingang des Mikroprozessors 52. Ein Ausgang 62 des Mikroprozessors
52 ist mit einem Phonem-Drucker oder einem anderen
Phonem-Interpretationsgerät 12′ verbunden. Ein Hilfsspeicher
58 ist ebenfalls mit Hilfe eines Datenbusses 60 mit Daten-
und Adreß-Ausgängen des Mikrocomputers 52 verbunden und
dient der Speicherung zusätzlicher Daten und/oder der Software.
Dabei sollte es sich um einen internen Speicher mit wahlfreiem
Zugriff und/oder um einen internen Festwertspeicher
des Mikroprozessors 52 handeln.
Im folgenden soll zunächst der Aufbau der Schaltungsanordnung des Spracherkennungssystems
gemäß Fig. 3 anhand der Fig. 4 und 5 näher erläutert
werden, bevor die Arbeitsweise des Sprach-
Codiersystems näher erläutert wird. Die Fig. 4 und 5 zeigen
Detailblockschaltbilder der primären inneren Bauteile der
Delta-Modulatorschaltungen 34 und 40 bzw. des Mikroprozessors
52.
Im folgenden wird zunächst auf Fig. 4 Bezug genommen. Der
Mikrocomputer 52 umfaßt einen Grundprozessorteil 64 mit
den klassischen Elementen eines Prozessors einschließlich
eines internen bidirektionalen Datenbusses 66 A. Letzterer
ist mit einem programmierten Zähler 74 verbunden, mit
einer Vielzahl von verschiedenen Registern 72 (z. B. Indexregistern,
Akkumulatorregistern, temporären Registern oder
dgl.) sowie mit einer arithmetischen und logischen Einheit
70, welche mit den Akkumulatorregistern verbunden ist,
sowie mit einer Datenbus-Pufferschaltung 82, welche den Datenbus
66 A mit einem externen bidirektionalen Datenbus 66 B
verbindet. Die arithmetische Logikeinheit 70, die Register
72 und der Programmzähler 74 sind mit einem internen Adreßbus
68 A verbunden, welcher über eine Pufferschaltung mit einem
externen Adreßbus 68 B verbunden ist. Der interne Datenbus 66 A
ist mit einer Befehlsregister- und Befehlsdecodier-Schaltung
76 verbunden, deren Ausgangssignale in eine Steuerschaltung
78 eingegeben werden. Die Steuerschaltung 78 erzeugt auf einem
Ausgangsbus 80 Steuersignale und verschiedene Leiter des
Ausgangsbusses 80 sind mit verschiedenen Datentransfereinrichtungen
im Mikrocomputer 52 verbunden zum Zwecke der
Ausführung der darin enthaltenen Befehle. Der Aufbau und
die Arbeitsweise des Teils 64 des Mikrocomputers 52 ist
hinreichend bekannt, und z. B. in der US-PS 39 62 682 von
Thomas H. Bennett vom 8. Juni 1976 beschrieben. Zum Zwecke
der Offenbarung wird ausdrücklich auf diese US-Patentschrift
hingewiesen. Der Mikrocomputer 52 umfaßt ferner einen
Speicher 104 mit direktem Zugriff und einen Festwertspeicher
106, deren Datenanschlüsse mit dem Datenbus 66 B und deren
Adreßanschlüsse mit dem Adreßbus 68 B verbunden sind.
Der Mikrocomputer 52 umfaßt ferner vier Eingabe/Ausgabe-
Tore 84, 86, 88 und 90, welche dazu dienen können, Dateninformation
von externen Geräten zu empfangen oder an externe
Geräte abzugeben. Die Adreßinformation zur Adressierung
der peripheren Geräte oder der Speicherorte kann vom Tor
Nr. 3 und vom Tor Nr. 4 ausgegeben werden. Ferner können auch
Daten von den Toren Nr. 3 und Nr. 4 im parallelen Format
ausgegeben werden. Serielle Daten können über das Tor Nr. 2
empfangen werden. Der Mikrocomputer 52 umfaßt eine interne
Hochgeschwindigkeits-Zeitgeberschaltung 100, welche durch
spezielle Zeitbefehle gesteuert werden kann und die Impulsbreiten-
und Zeitintervalle von Impulsen und Übergangszeiten
mißt, welche auf verschiedenen der mit dem Tor 86
verbundenen Leitungen empfangen werden. Somit können serielle
Hochgeschwindigkeits-Eingangssignaldaten empfangen werden
und die Pegelübergänge derselben können präzis mit Hilfe der
Zeitgeberschaltung 100 gemessen werden und zum Zwecke der
Analyse durch das Betriebsprogramm gespeichert werden.
Die Zeitgeberschaltung 100 dient zur Erzeugung eines Taktsignals
von 50 kHz welches über einen Leiter 54 ausgegeben
wird. Dieses Taktsignal steuert die Tastrate des Delta-
Modulators 34. Ferner ist der Zeitgeber 100 auch so programmiert,
daß er ein 200 Hz-Taktsignal erzeugt und über einen
Leiter 56 dem Delta-Modulator 40 zuführt. Dieses Taktsignal
steuert die Tastrate des Delta-Modulators 40. Der Mikrocomputer
52 ist auch befähigt, einen Schnellmultiplizierbefehl
auszuführen. Diese Funktion dient, wie nachfolgend
erläutert, dazu, die charakteristischen Verhältnisse der
Eingangssignalwellenformen zu errechnen, welche zur Identifizierung
und zum Vergleich der Töne mit den gespeicherten
charakteristischen Phonem-Verhältnissen, welche im folgenden
als Phonem-Verhältnisse bezeichnet werden, dienen.
Im folgenden wird auf Fig. 5 Bezug genommen, welche ein
Detail-Blockschaltbild eines Delta-Codierers 34 zeigt.
Dieser ist im wesentlichen gleich dem Delta-Codierer 40.
Er umfaßt einen Komparator 108, dessen einer Eingang
mit dem Leiter 33 und dessen
anderer Eingang mit dem Ausgang einer Integrierschaltung 114
verbunden ist. Das Ausgangssignal des Komparators 108
wird dem Eingang einer Tastschaltung 110 zugeführt, welche
das vom Mikrocomputer erzeugte 50 kHz-Tastsignal über den
Leiter 54 als Takt erhält. Hierdurch wird das Ausgangssignal
des Komparators 108 mit einer Rate von 50 kHz abgetastet
und man erhält ein Komparator-Tastausgangssignal auf dem
Leiter 44. Das Signal auf dem Ausgangsleiter 44 ist
entweder eine logische "Eins" oder eine logische "Null",
je nachdem ob das Tonsignal auf dem Leiter 33 größer bzw.
kleiner als das von der Integrierschaltung 114 erzeugte
Ausgangssignal ist. Bei dem Ausgangssignal der Integrierschaltung
114 handelt es sich um ein Rampensignal, dessen
Steigung durch eine Steigungs-Polaritäts-Schalteinrichtung
112 gesteuert wird. Die Steigungs-Polaritäts-Schalteinrichtung
112 führt zu einer Umkehr der Polarität der Steigung des vom
Integrator 114 erzeugten Rampensignals, und zwar jedesmal wenn
der logische Pegel auf dem Ausgangsleiter 44 wechselt. Die
Größe der Steigung des vom Integrator 114 erzeugten Rampensignals
wird durch eine Steigungsgrößensteuereinrichtung 118
gesteuert. Eine Pegeldetektorschaltung 116 spricht auf die
Größe des Tonsignals auf dem Leiter 33 an und bildet eine
Rückkopplung über einen Leiter 38 zum Steigungsgrößensteuergerät
118, so daß Änderungen der Amplitude des Tonsignals
auf dem Leiter 33 durch die Steigung der Rampenspannung der
Integrierschaltung 114 kompensiert werden. Dies hat den
gleichen Effekt, den auch eine negative Rückkopplungsschaltung
im Verstärker 32 haben würde, und zwar im Sinne einer
Normalisierung der Amplitude des Tonsignals auf dem Leiter
33. Das Filter 36 (Fig. 3) ist innerhalb der Pegeldetektorschaltung
116 vorgesehen. Die Pegeldetektorschaltung 116
umfaßt ferner eine Schaltung zur Anpassung des Tonsignals
an Änderungen der Gesamtamplitude.
Fig. 7 zeigt eine Probe eines Tonsignals einer Tonwellenform 33 B, welches einen
speziellen phonetischen Klang darstellt, sowie eine Rampenspannung
115 A, welche auf dem Leiter 115 durch die Integrierschaltung
114 der Delta-Modulatorschaltung 34 erzeugt wird.
Das entsprechende Ausgangssignal (oder Deltasignal), welches
auf dem Ausgang 44 des Delta-Modulators 34 erzeugt wird,
ist durch die Wellenform 44 B in Fig. 7 dargestellt. Wenn die
Wellenform 115 A eine positive Steigung hat, so nimmt sie zu
bis zu dem Punkt, an dem sie den jeweiligen Momentanwert
des Tonsignals 33 B übersteigt. Nun wird die Polarität
des Ausgangssignals der Komparatorschaltung 108 umgekehrt.
Die Tastschaltung 110, welche im wesentlichen ein mit dem
Tastsignal auf dem Leiter 54 synchronisiertes Flipflop ist,
schaltet nun aufgrund der Vorderkante des nächsten Impulses
des Tastsignals auf dem Leiter 54 um und veranlaßt den
Steigungspolaritätsschalter 112, die Polarität der Steigung
des Rampensignals 115 A umzukehren. Das Rampensignal 115 A
fällt sodann ab bis zu dem Punkt, an dem es unter dem Momentanwert
des Tonsignals 33 B liegt. Nun wechselt wiederum das
Ausgangssignal der Komparatorschaltung 108 und die Polarität
der Steigung des Rampensignals 115 A der Integrierschaltung
wird wiederum umgekehrt. Somit verfolgt das Ausgangsrampensignal
115 A der Integrierschaltung 115 das Tonsignal 33 B
sehr genau, und es enthält daher im wesentlichen die gesamte
signifikante Phonem-Information desselben. Man erkennt, daß
die gesamte signifikante Phonem-Information in der Wellenform
44 B mit wesentlich weniger digitalen Daten enthalten
ist, als im Falle der Impulscode-Modulationstechnik erforderlich
wären, welche normalerweise bei herkömmlichen Spracherkennungssystemen
angewendet wird.
Der Mikrocomputer 52 ist dazu befähigt, Realzeit-Impulsbreitenmessungen
durchzuführen. Es ist ein wesentliches
Erfordernis des Spracherkennungssystems
gemäß Fig. 3, daß Realzeit-Impulsbreitenmessungen vorgenommen
werden müssen, wenn die positiven und negativen Übergänge
der seriellen digitalen Eingangssignale um sehr geringe
Beträge von z. B. 16 μs auseinanderliegen können oder wenn
diese um sehr große Beträge, z. B. um mehrere Sekunden,
auseinanderliegen können, wobei die Gesamtzahl der Unterbrechungen
für Zeitmeßzwecke die Zahl von 30 000/s übersteigen
kann. Die Signale auf den Leitern 50 und 42 sind sehr langsam
und können jederzeit durch das Hauptbetriebsprogramm getestet
werden, wenn es erforderlich sein sollte, die Information
auf diesen Leitern abzufragen. Andererseits muß man
jedoch bei dem Hochgeschwindigkeits-Deltasignal auf dem
Leiter 44, d. h. bei dem Ausgangssignal des Deltamodulators,
die Zeit eines jeden Übergangs desselben durch die Zeitgeberschaltung
100 bestimmen, und ein jeder dieser Zeitwerte
muß gespeichert werden, um zur sofortigen Verwendung durch
das Betriebsprogramm zur Verfügung gehalten zu werden.
Fig. 6 zeigt typische Wellenformen der auf den Leitern 33,
44, 38, 42, auf dem Ausgang des Filters 46 und auf dem Leiter
50 erscheinenden Signale. Zur Bezeichnung der einzelnen Wellenformen
werden alphanumerische Symbole verwendet, welche aus
einer dem jeweiligen Leiter entsprechenden Zahl und dem nachfolgenden
Buchstaben A bestehen. Die Wellenform 33 A zeigt zunächst
einen typischen Vokalklang des Eingangstonsignals
mit einem allmählichen Übergang und einem Amplitudenanstieg
gefolgt von einem Abgleiten in einen Nasalklang. Auf diesen
folgt sodann eine Pause oder eine Unterbrechung. Darauf folgt
eine Gruppe von Hochfrequenzschwingungen großer Amplitude.
Der Vokal und der Nasalklang werden
durch den Deltamodulator 34 codiert. Dabei erhält man die
Deltasignal-Wellenform 44 A nach dem Verfahren, welches anhand
der Fig. 7 und anhand der Arbeitsweise des Deltamodulators
erläutert wurde.
Die Deltasignalwellenform 44 A gemäß Fig. 6 zeigt typische
Bereiche des Ausgangssignals des Deltamodulators 34 in expandierter
Darstellung. Die expandierten Bereiche sind durch
die Pfeile 124 A und 128 A bezeichnet. Es handelt sich dabei
um Bereiche der Tonsignalwellenform 33 A, welche durch die
jeweiligen expandierten Bereiche der Deltasignalwellenform
44 A wiedergegeben wird. Ferner spricht der Deltamodulator
auch auf den hochfrequenten Bereich hoher Amplitude der
Tonsignalwellenform 33 A, d. h. auf die Zischkomponenten
derselben an, wie dies durch das Bezugszeichen 130 A dargestellt
ist.
Das Amplitudenhüllsignal, welches der Tonsignalwellenform
33 A entspricht, ist durch die Amplitudensignalwellenform 38 A
dargestellt. Dieses Amplitudensignal zeigt einen großen
Buckelbereich 124 B, welcher den Anstieg und Abfall am Beginn
und am Ende des Vokalklanges darstellt. Ferner stellt der
Buckelbereich 124 B auch die Amplitude des Tonsignals 33 A
während der Aufrechterhaltung des Vokalklanges dar.
Die Amplitude des Nasalbereichs der Tonsignalwellenform
33 A ist durch das Bezugszeichen 128 B dargestellt und die
Amplitude des hochfrequenten Bereichs ist durch das Bezugszeichen
130 B angedeutet. Die einhüllende Wellenform 38 A
wird nun wiederum einer Deltamodulation unterworfen, wobei man
die Amplitudensignalwellenform 42 A erhält. Diese enthält im
wesentlichen die gleiche Phonem-Information wie das Hüllsignal
38 A. Das Ausgangssignal des Bandpaßfilters 46 ist durch die
Wellenform 46 A dargestellt. Diese Wellenform spricht auf die
hochfrequenten Stöße der Tonwellenform 33 A an, wie dies
durch den Impuls 130 C gezeigt ist. Der Schwellenwert der Schaltung
48 ist durch das Bezugszeichen 130 D bezeichnet. Das Ausgangssignal
der Schwellenwertschaltung 48 ist durch die Wellenform
50 A wiedergegeben. Dies enthält einen Impuls 130 E.
Die Deltasignal-Wellenform 44 A enthält eine Information, welche
ausreicht zur adäquaten Charakterisierung einer Vielzahl von
während einer längeren Zeit aufrechterhaltenen Klängen,
z. B. von Vokalklängen und Nasalklängen, so daß diese voneinander
unterschieden werden können, wobei diese Klänge
mit den gespeicherten Charakteristika der verschiedenen
Phoneme gemäß Fig. 2 verglichen werden können. Das Ausgangssignal
44 A des Ausgangs 44 des Deltamodulators 34 wird dazu
verwendet, Informationen zu gewinnen, welche die wichtigsten
Steigungsübergänge in der Tonwellenform wiedergibt. Die
wichtigsten Steigungsübergänge sind dabei alle drastischen
Änderungen der Steigung der Tonwellenform, z. B. alle
Umkehrungen der Steigungspolarität oder alle Änderungen von
einem flachen Bereich zu einem steilen Anstieg der Tonwellenform.
Gemäß Fig. 7 wird die letztere Aufgabe durch eine Vielzahl
von Betriebsstufen im Mikrocomputer 52 erfüllt. Die erste
Stufe besteht in der Erzeugung einer Folge von logischen
Zuständen, welche durch die logische Variable S bezeichnet
werden und durch die Wellenform 44 C in Fig. 7 dargestellt sind.
Die logische Variable S hat den logischen Wert "Null",
solange keines der vom Integrator 114 erzeugten Rampensignale
länger als eine vorbestimmte Anzahl von Tastzeitperioden
andauert, im vorliegenden Fall zwei Tastzeitperioden.
Die logische Variable S verbleibt daher auf dem logischen
Wert "Eins", bis eine Flanke entgegengesetzter Polarität
während mindestens (in diesem Falle) zwei Tastzeiten aufrechterhalten
bleibt. Die S-Wellenform der Fig. 7 identifiziert
daher größere Flankenbereiche der Toneingangswellenform
33 B. Zum Beispiel identifiziert der Impuls A der
digitalen Wellenform 44 C die Anwesenheit der größeren Flanke
A′ des Tonsignals 33 B. In ähnlicher Weise identifiziert
der Impuls B der Wellenform 44 C eine andere wesentliche Flanke
B′ der Tonwellenform 33 B. Der negative Impuls C identifiziert
einen größeren negativen Übergang C′ der Tonwellenform
33 B usw. Man erkennt somit, daß die Serie der positiven
und negativen Pegel der S-Wellenform 44 C die größeren
positiven und negativen Flanken der Tonwellenform
33 B identifiziert. Die der S-Wellenform 44 C entsprechende
Information wird in Ansprechung auf die serielle Ausgangswellenform
44 B des Deltamodulators 34 erzeugt, und zwar
durch den Betriebsalgorithmus und den Mikrocomputer 52.
Diese Information wird in Form von Binärzuständen von
zugeordneten Steuerbits an einem Speicherplatz des Speichers
104 mit direktem Zugriff des Mikrocomputers 52 gespeichert.
In ähnlicher Weise dient eine zweite Wellenform, welche im
folgenden als R-Wellenform bezeichnet wird und mit dem Bezugszeichen
44 D bezeichnet ist, dazu, größere flache Bereiche
der Tonwellenform 33 B zu identifizieren. Diese zweite
Wellenform hat einen logischen "Eins"-Pegel, jedesmal wenn
das von der Integrierschaltung 114 (Fig. 5) erzeugte Rampensignal
seine Polarität während einer vorbestimmten Anzahl
von aufeinanderfolgenden Tastzeiten (in diesem Beispiel
während zwei aufeinanderfolgender Tastzeiten) ändert.
Es verbleibt auf dem logischen "Eins"-Zustand bis zu dem
Zeitpunkt, zu dem das Rampensignal während der vorbestimmten
Anzahl von Tastzeiten nicht mehr in seiner Polarität umgekehrt
wird. Somit entspricht der positive Impuls D des R-Signals
44 D dem flachen Bereich D′der Wellenform 33 B. in ähnlicher
Weise entsprechen das Paar von Impulsen E, die Gruppe der
Impulse F, der Impuls G und der Impuls H den "flachen"
Bereichen D′, E′, F′, G′ und H′der Tonwellenform 33 B.
Es wurde festgestellt, daß die wesentlichen Flankenübergänge,
d. h. die wesentlichen Änderungen der Flankenbereiche von
flachen Bereichen der Tonwellenform zu steilen Anstiegs-
und Abfallsbereichen derselben im wesentlichen die erforderliche
Information zur Charakterisierung der Toneingangswellenform
darstellen, welche eine Identifizierung der darin
enthaltenen Phoneme erlauben. Diese Flankenübergangspunkte
werden in Realzeit lokalisiert und dazu verwendet, die verschiedenen
Merkmalsverhältniswerte zu errechnen. Dazu bedarf
es eines wesentlich geringeren Codieraufwandes und einer
wesentlich weniger aufwendigen "Zahlen-Mühle" als bei dem
Stand der Technik.
Die oben genannten charakteristischen Verhältnisse der
Tonwellenform werden im folgenden als "Merkmale" bezeichnet.
Sie werden aus den Informationen ermittelt, welche in den
in Fig. 7 gezeigten Wellenformen der R-Logikvariablen und
S-Logikvariablen enthalten sind. Diese Wellenformen entsprechen
der Information, welche aus der Ausgangswellenform des
Deltamodulators extrahiert wurde, z. B. aus der Wellenform
33 B der Fig. 7.
Das Merkmals-Extraktionsverfahren, bei dem die obigen Merkmale
aus dem Ausgangssignal des Deltamodulators extrahiert oder
in diesem ermittelt werden, umfaßt die folgenden Stufen. Das
serielle Ausgangssignal des Deltamodulators wird durch die
Zeitschaltung 100 gemäß Fig. 4 überwacht und die Dauer eines
jeden positiven Impulses wird gemessen und zwischenzeitlich
gespeichert. Die Zeit zwischen den einzelnen Impulsen wird
ebenfalls gemessen und zwischenzeitlich gespeichert. Wie
zuvor erläutert, werden diese Informationen verarbeitet
zur Erzeugung der durch die logischen Variablen S und R
dargestellten Informationen, welche durch die entsprechenden
Wellenformen der Fig. 7 dargestellt sind. Sobald einmal
die Werte der R-Variablen und der S-Variablen ermittelt und
gespeichert sind, müssen die den einzelnen Impulsen der
Deltasignalwellenform zugeordneten Daten nicht länger gespeichert
werden. Die Information, welche dem Wert der S-Variablen
und der R-Variablen zugeordnet ist, wird in zwei
Speicherblöcken gespeichert, welche im folgenden als
S-Block und R-Block bezeichnet werden. Jeder der Speicherblöcke
speichert die 16 jüngsten Segmente der entsprechenden
logischen Variablen S bzw. R. Ein jedes dieser "Segmente"
entspricht einem Zeitintervall, während dem die entsprechende
Variable (S bzw. R) einen besonderen logischen Pegel, und
zwar entweder "Eins" oder "Null" einnimmt. Somit entspricht
ein positives S-Segment einem Zeitintervall, während dem
der Wert der Variablen S eine logische "Eins" ist. Das
negative S-Segment entspricht einem Zeitintervall, während dem
die logische Variable S eine logische "Null" ist.
Positive und negative R-Segmente sind in ähnlicher Weise
definiert. Somit enthält der R-Speicherblock die Information,
welche den 16 letzten aufeinanderfolgenden R-Segmenten entspricht,
während der S-Speicherblock die Information enthält,
die den 16 letzten S-Segmenten entspricht. Zusammengenommen
enthalten die beiden Speicherblöcke die Information, welche
die hauptsächlichen Übergänge, Steigungen und flachen
Bereiche der ursprünglichen Tonwellenform darstellen.
Diese Information wird in digitaler Form gespeichert.
Sie kann dazu dienen, die zuvor erwähnten "Merkmale" oder
die charakteristischen Verhältnisse der normalisierten
Tonwellenform zu errechnen.
Die Merkmals-Extraktions-Subroutine des Phonem-Erkennungs
algorithmus fragt den S-Speicherblock ab zur Errechnung
einer Teilung (Pitch, Periode, Tonsignalzyklus), welche definiert ist als die
Periode des Sprachtons, welcher derzeit empfangen und durch
das Spracherkennungssystems analysiert wird. Diese Periode (dieser Tonsignalzyklus)
wird errechnet durch Befragung des S-Speicherblocks und des
R-Speicherblocks zur Ermittlung von verwandten Segmenten,
welche identisch oder nahezu identisch mit dem jüngsten
S-Segment sind. Nun werden alle S-Segmente summiert, einschließlich
des jüngsten S-Segments, welche nach dem
ermittelten identischen oder nahezu identischen Segment
aufgetreten sind.
Der Algorithmus fragt auch den S-Speicherblock ab, um die
längsten und zweitlängsten positiven S-Segmente zu ermitteln,
sowie die längsten und zweitlängsten negativen S-Segmente.
Ferner fragt der Algorithmus auch den R-Speicherblock ab,
um das längste positive R-Segment und das längste negative
R-Segment zu ermitteln. Ein jedes dieser Segmente wird durch
die jeweilige S-Periode dividiert. Man erhält dabei die
gewünschten zeit-normalisierten charakteristischen Verhältnisse
oder Merkmale des derzeit analysierten Tons des
eintreffenden Realzeit-Tonsignals. Natürlich können
auch andere Merkmale als die oben erwähnten errechnet
werden, um, falls erforderlich, bestimmte Töne zum Zwecke ihrer
Bestimmung zu charakterisieren.
Der Algorithmus speichert laufend die Werte aller oben
genannten zeit-normalisierten charakteristischen Verhältnisse
oder Merkmale durch zwischenzeitliche Speicherung
aller dieser Merkmale und Fortschreibung derselben bei
jeder neuen größeren S-Steigung oder bei jedem neuen
größeren S-Flachbereich, und zwar im Verlauf der Analyse
aufeinanderfolgender Töne.
Die fortgeschriebenen zeit-normalisierten charakteristischen
Verhältnisse und Merkmale werden sodann zum Vergleich mit
entsprechenden gespeicherten Phonem-Verhältnissen verwendet.
Dieser Vergleich erfolgt anhand eines Phonem-Erkennungs-Ent
scheidungsbaums.
Die Breiten der verschiedenen Impulse könenn durch die Periode
der sich wiederholenden Wellenform dividiert werden, um
charakteristische Verhältnisse zu erhalten, welche unabhängig
von der Periode (Pitch) sind. Diese charakteristischen Verhältnisse
können auch für die Breiten der verschiedenen Impulse
zueinander errechnet werden, und zwar für die S-Wellenform
oder für die R-Wellenform. Auch können solche Verhältnisse
zwischen einem Impuls der S-Wellenform und einem Impuls der
R-Wellenform errechnet werden. Alle diese Verhältnisse sind
unabhängig von der Periode (Pitch). Bestimmte einzelne
der erhaltenen Verhältnisse können zur deutlichen Unterscheidung
der einzelnen gesprochenen Töne in der gesprochenen
Sprache von anderen Tönen verwendet werden. Es wurde festgestellt,
daß die Verhältnisse, welche die drei oder vier
signifikantesten Verweilungen oder Übergangsdauern oder
relativen Orte in einer Tonwellenform involvieren,
zur Charakterisierung der verschiedenen Töne in der gesprochenen
Sprache ausreichen. Die
den einzelnen Phonemen gemäß Fig. 2 zugeordneten Töne werden durch
solche Verhältnisse (im folgenden als Phonem-Verhältnisse
bezeichnet) charakterisiert und diese werden im Speicher des
Mikrocomputers 52 gespeichert. Diese Verhältnisse werden auf
einer Realzeitbasis aus der eintreffenden Tonwellenform
errechnet und sodann verglichen, und zwar in einer Reihenfolge,
welche durch den Betriebsalgorithmus (nachfolgend
besprochen) festgelegt ist. Der Vergleich erfolgt mit den
gespeicherten Phonem-Verhältnissen. Auf diese Weise werden
die Phonem-Signale ausgewählt, welche ausgegeben werden
sollen oder die Phoneme, welche ausgedruckt werden sollen.
Die in obiger Weise errechneten charakteristischen Verhältnisse
werden verglichen mit den oben erwähnten gespeicherten
Phonem-Verhältnissen, und zwar gemäß einem
Phonem-Erkennungsalgorithmus, welcher nachfolgend beschrieben
werden soll. Der Phonem-Erkennungsalgorithmus
arbeitet gemäß dem Phonem-Erkennungsentscheidungsbaum
der Fig. 8. Zur Durchführung einer erfolgreichen Realzeit-
Phonem-Klassifizierung und -identifizierung muß der Phonem-
Entscheidungsbaum die errechneten Verhältnismerkmale
des derzeit empfangenen Phonemklangs in einer effizienten
Reihenfolge testen und klassifizieren, damit das Sprach
erkennungssystem mit dem Sprecher Schritt halten kann.
Darüber hinaus gewinnt man durch den Hochgeschwindigkeits
entscheidungsvorgang bei der Klassifizierung und beim Vergleich
der Korrelation zusätzliche Rechnerzeit, welche benötigt
wird, für die Segmentationsanalyse und für die
Steuerung des Ausdruckens.
Die durchschnittliche Entscheidungsgeschwindigkeit wird
verbessert, wenn man die Vergleichsprozedur mit dem
in der jeweiligen Sprache, z. B. in der amerikanischen
Sprache, am häufigsten vorkommende Phonemen beginnt.
Gemäß Fig. 8 ist der Phonem-Entscheidungsbaum mit einer
Vielzahl von Zweigen angeordnet. Jeder Zweig weist als
Startpunkt des Phonem N auf, welches in der gesprochenen
englischen Sprache der häufigste Ton ist. Die Größe der
Rechtecke, welche die verschiedenen Phoneme darstellen,
kann als Maß für die Häufigkeit des Auftretens des
jeweiligen Phonems in der englischen Sprache angesehen
werden. Phoneme mit herausstechenden Merkmalen werden
jeweils in einem einzelnen Zweig des Entscheidungsbaums
gruppiert, und zwar in der Reihenfolge der abnehmenden
Häufigkeit ihres Auftretens in der Sprache. Es werden daher
nicht mehr als sechs Sätze von Tests benötigt, um das
noch am wenigstens häufige Phonem zu erkennen und zu
identifizieren, z. B. den Ton "WH" im Wort "when". Zum
Beispiel bilden die Phoneme mit den Rechtecken 204, 206, 208,
210 und 212 einen Zweig. Der Pfeil 214 deutet ein Ausgangssignal
des obigen Zweiges an und somit ferner daß der
Algorithmus beim Versuch der Erkennung der getesteten Merkmale
während des jeweiligen Durchgangs durch diesen Zweig versagt
hat. Die Rechtecke 204, 220 und 224 bilden einen weiteren
Zweig. In einigen Fällen erstrecken sich Unterzweige, wie
232, 234 von anderen Zweigen weg.
Die allgemeine Folge von Grundoperationsstufen des Phonem-
Erkennungsalgorithmus ist in Form eines Fließdiagramms in
Fig. 9 dargestellt. Der Algorithmus beginnt bei 250 und
tritt in den Phonem-Klassifizierungs-Entscheidungsbaum ein,
wie dies durch den Block 251 dargestellt ist. Die errechneten
zeit-normalisierten charakteristischen Verhältnisse der
derzeit analysierten Phoneme werden gemäß dem Phonem-Entscheidungsbaum
der Fig. 8 getestet. Falls eine adäquate Übereinstimmung
zwischen den charakteristischen Verhältnissen
des getesteten Phonem-Klangs besteht, so werden diese
Charakteristika ferner auch mit der Verhältnischarakteristik
des "letzten bekannten" Phonems verglichen, für das eine
adäquate Übereinstimmung erhalten werden konnte, wie dies
durch die Entscheidungsblöcke 253 und 256 angedeutet ist.
Wenn eine adäquate Übereinstimmung der errechneten charakteristischen
Verhältnisse mit den gespeicherten Phonem
verhältnissen nicht erzielt wird (gemäß dem Entscheidungsblock
253), so tritt der Algorithmus wiederum in den Phonem-
Klassifizier-Entscheidungsbaum ein und es folgt nun ein
Durchgang durch einen verwandten, aber unterschiedlichen
Zweig, und zwar gemäß zusätzlichen Hinweisen (nachfolgend
erläutert), welche von vom Mikrocomputer 52 empfangenen
hochfrequenten Zischsignalen und/oder seriellen digitalen
Amplitudensignalen abgeleitet werden, und zwar zum Zwecke
der Erkennung bestimmter Übergänge und Amplitudenmerkmale
der Toneingangswellenform.
Wenn die Phonem-Klangverhältnisse in geeigneter Weise überein
stimmen, was durch den Entscheidungsblock 253 bestätigt wird
und wenn die Phonem-Verhältnisse identisch sind mit dem letztbekannten
Phonem, welches zwischenzeitlich an einem vorbestimmten
Ort des Speichers gespeichert wurde, (durch den Entscheidungsblock
256 angedeutet), so veranlaßt der Algorithmus gemäß
Fig. 9 nicht das Ausdrucken des Phonems, sondern er tritt
vielmehr wiederum in den Phonem-Entscheidungsbaum beim Block
251 zur weiteren Analyse ein. Auf diese Weise wird sichergestellt,
daß ein lang anhaltender Ton dazu führt, daß das
entsprechende Phonem-Symbol nur einmal gedruckt wird und nicht
mehrmals je nach der Algorithmus-Ausführungsgeschwindigkeit
und je nach der Dauer des Tons. Nur wenn das neue übereinstimmende
Phonem nicht mit dem letzten Phonem identisch ist,
wird die das letzte bekannte Phonem identifizierende Information
der Ausdruckroutine zugeführt. Das neue übereinstimmende
Phonem wird nun am Ort des Speichers für das letzte bekannte
Phonem gespeichert bis ein neuer Phonemklang wieder übereinstimmt
oder erkannt wird, wie dies durch die Entscheidungsblocks
254 und 255 dargestellt ist. Sodann tritt der Algorithmus
wieder in den Phonem-Entscheidungsbaum des Blocks 251 ein.
Man erkennt somit, daß der Algorithmus eine Vielzahl von Ausdruckungen
des gleichen Phonemsymbols während eines länger
anhaltenden oder langgezogenen Tons verhindert. Diese langgezogenen
Töne herrschen in den gleitenden Übergängen vor.
Letztere sind charakteristisch für die amerikanische Sprechweise,
wenn eine Reihe von zwei oder drei länger angehaltenen
Tönen miteinander vermischt werden, und zwar in Form eines
gleitenden Übergangs im Verlauf einer Zeitdauer von mehreren
Sekunden. Hierdurch wird verhindert, daß eine übermäßige
Anzahl von Phonem-Symbolen ausgedruckt wird, so daß die
gedruckte Phonem-Botschaft leichter lesbar wird.
Die Identifizierung von und die Ausdrucksteuerung für Phonem-
Symbole, welche nicht einer anhaltenden Stimminformation
entsprechen, geschieht mit Hilfe der Information, welche in
einem Amplitudensignal, z. B. der Wellenform 42 A der Fig. 6
enthalten ist. Diese digitalisierte Amplitudeninformation
bietet erste Hinweise zur Belegung der Tatsache, daß neue
gültige Phonemtöne derzeit geäußert werden und durch die
anhaltenden Stimmsignale, welche durch das Deltasignal dargestellt
werden, identifiziert werden, und zwar durch Identifizierung
der typischen Gleitübergänge, welche normalerweise
auftreten, wenn die Sprache von einem sinnvollen Phonemton zu
einem anderen fortschreitet. Das Amplitudensignal wird ferner
durch den Algorithmus analysiert zum Zwecke der Unterscheidung
zwischen Frikativ-Tönen (hochfrequenten Tönen) hoher
und niedriger Energie, z. B. des Buchstabens "S" (Hochenergie-
Frikativton) und des Buchstabens "F" (Niederenergie-Frikativton).
Dabei handelt es sich um rasch oszillierende Wellenformen
am oberen Ende des Stimmfrequenzspektrums, z. B. um die Wellenformen
33 A, 44 A, 38 A, und 46 A der Fig. 6. Diese Frikativtöne
werden durch das Zischsignal identifiziert, welches am Ausgang
des Hochfrequenzbandpaßfilters 46 gemäß Fig. 3 erhalten wird
und in den Mikrocomputer 52 eingegeben wird. Hierdurch wird
die Identifizierung der Hochfrequenzgeräusche oder Zischsignale
unterstützt, wenn diese Töne eine vorgeschriebene minimale
Amplitude übersteigen. Es sollte bemerkt werden, daß die Amplitudeneinhüllende
(z. B. 38 A der Fig. 6) recht langsam ist.
Die Änderungen dieser Einhüllenden geben die Betonungen und
die syllabischen oder prosodischen Bewegungen der menschlichen
Sprachorgane wieder. Diese Bewegungen begleiten gewöhnlich
die Übergänge zwischen sinnvollen Phonemtönen. Eine analoge
Umwandlung der Amplitudenhüllwellenform 38 A gelingt mit wesentlich
geringerer Abtastzeit als bei dem Hochgeschwindigkeitssignal
33 A. Somit erzeugt der Mikrocomputer 52 einen relativ
langsamen Abtastzeittakt von 200 Hz auf dem Leiter 56, mit
dessen Hilfe eine Analog-zu-digital-Wandlung des Amplituden
einhüllungssignals bewirkt wird.
Der Phonemklassifizierungsentscheidungsbaum ist teilweise in
den Flußdiagrammen der Fig. 10 A und 10 B dargestellt.
Der Eintritt erfolgt am Punkt 250, nachdem die zuvor beschrie
bene Merkmalsextraktion des derzeit analysierten
Tonsignals beendet ist.
Der Algorithmus testet zunächst die Amplitudeninformation
entsprechend dem derzeit vorliegenden Ton, wie dies durch
den Block 262 angedeutet ist. Wenn die Amplitude sehr niedrig
ist, und nur ein Hintergrundgeräuschpegel vorliegt, so stellt
der Algorithmus fest, ob es sich bei der vorliegenden Stille
um eine lange Stilleperiode handelt, und zwar durch Vergleich
der derzeitigen Amplitude mit der zuvor gespeicherten Amplitudeninformation,
wie dies durch den Entscheidungsblock 264 in
Fig. 10 A angedeutet ist. Der Algorithmus druckt sodann
eine Reihe von Bindestrichen aus, wie dies durch den Block
266 angedeutet ist. Wenn die Stilleperiode keine lange
Stilleperiode ist, so bewirkt der Algorithmus, daß nur ein
einziger Bindestrich ausgedruckt wird, wie dies durch den
Block 268 dargestellt ist. In jedem Falle kehrt der Algorithmus
zum Eingangspunkt A zurück. Wenn die Entscheidung beim Entscheidungsblock
262 "Nein" lautet, so bestimmt der Algorithmus,
ob eine hochfrequente Zischkomponente im derzeitigen Ton vorliegt,
wie dies durch den Entscheidungsblock 270 dargestellt
ist. Falls dies der Fall ist, zweigt der Algorithmus zu einer
Subroutine ab, welche verschiedene Tests für die Frikativtöne
durchführt, wie dies durch den Block 272 dargestellt ist.
Diese Tests werden hier nicht im einzelnen beschrieben.
Sie dienen als Hinweise zur Identifizierung der Übergänge und
zur Unterscheidung der Phoneme.
Falls kein Zischgeräusch am Entscheidungsblock 270 festgestellt
wird, vergleicht der Algorithmus die derzeitige Zeichendichte
(Pitch) mit der zuvor gespeicherten Zeichendichteninformation
zur Feststellung, ob die Zeichendichte ansteigt, und zwar gemäß
dem Entscheidungsblock 274. Wenn die Zeichendichte ansteigt,
so führt der Algorithmus Tests zur Ermittlung der Starttöne,
z. B. der anfänglichen Tone der Buchstaben "P", "D", "G" und
"B" gemäß dem Entscheidungsblock 276 durch. Wenn die Zeichendichte
nicht ansteigt, so stellt der Algorithmus fest, ob die
Zeichendichte fällt. Hierzu wird die zuvor errechnete Zeichendichte
mit der zuvor gespeicherten Zeichendichteninformation
verglichen. Wenn festgestellt wird, daß die Zeichendichte
fällt (Entscheidungsblock 278), so führt der Algorithmus
Tests durch, welche zeigen, ob ein Ton beendet wird, und zwar
gemäß den Blöcken 280 und 282. Ferner tritt der Algorithmus
in eine Subroutine ein zur Vorbereitung des Druckers zur
Erzeugung eines Zwischenraums. Auf diese Weise wird die
vorhergehende Phonemgruppe von der nachfolgenden Phonemgruppe
getrennt. Wenn die Zeichendichte nicht fällt, was durch den
Entscheidungsblock 278 festgestellt wird, so tritt der
Algorithmus in den Phonem-Entscheidungsbaumbereich des
Algorithmus ein. Dieser arbeitet gemäß dem Phonem-Entscheidungsbaum
gemäß Fig. 8. Dieser Teil des Algorithmus ist im
Flußdiagramm der Fig. 10 B gezeigt.
Im folgenden wird auf Fig. 10 B Bezug genommen. Der Algorithmus
wartet auf die nächste Fortschreibung der Zeichendichte,
wie durch den Block 286 angedeutet. Wenn der Algorithmus
nun feststellt, daß die Amplitude "weich" ist (dies bedeutet,
daß die derzeitige Amplitude geringer als 25% der maximalen
Amplitude ist), und zwar gemäß dem Entscheidungsblock 288,
so findet ein Durchgang des Algorithmus durch den Zweig
des Phonem-Entscheidungsbaums der Fig. 8 statt, welcher die
Blöcke 202, 228, 232 und 234 umfaßt und die nasalen Phonem
klänge betrifft.
Das Flußdiagramm der Fig. 10 B zeigt nicht das Vergleichs
verfahren für alle Zweige des Entscheidungsbaums der Fig. 8.
Wenn die Amplitude sich beim Entscheidungsblock 288 nicht
als "weich" erweist, so zeigt nun der Block 289, daß der
Algorithmus in verschiedene andere Zweige des Phonement
scheidungsbaums gemäß Fig. 8 eintritt, und zwar gemäß
anderen Prioritäten, welche in dem Algorithmus vorgesehen
sind oder auf der Grundlage zusätzlicher Hinweise oder
Anhaltspunkte, welche durch den Algorithmus ermittelt werden.
Es soll nun angenommen werden, daß der derzeitige Ton eine
"weiche Amplitude" aufweist, was durch den Entscheidungsblock
288 festgestellt wird. Nun vergleicht der Algorithmus das
maximale Positive S-Verhältnis (d. h. die Zeit des maximalen
positiven S-Segments dividiert durch die Zeichendichte) mit
dem maximalen negativen S-Verhältnis zur Feststellung, ob die
Wellenform ein akzeptables "Gleichgewicht" zwischen den
hauptsächlichen positiven und negativen Steigungen aufweist.
Dies ist charakteristisch für die Phoneme "N" oder "NG". Falls
dies nicht der Fall ist, tritt der Algorithmus in den Entscheidungsblock
298 ein und stellt fest, ob das maximale
negative S-Verhältnis größer als das doppelte des maximalen
positiven S-Verhältnisses ist. Falls dies nicht der Fall ist,
so zweigt der Algorithmus zum Block 289 ab, und nun werden
andere Zweige des Phonementscheidungsbaums durchgetestet.
Wenn das Ergebnis des Tests gemäß dem Entscheidungsblock 298
bestätigend ist, so stellt der Algorithmus fest, daß der derzeit
getestete Ton wahrscheinlich der Ton des Buchstabens
"M" ist (Block 300). Nun wird ein Identifizierwert oder -code,
welcher das "M"-Phonem darstellt, an einem Speicherort gespeichert,
welcher als "Kandidat" bezeichnet ist. Nunmehr
schreitet die Routine von dort zur Ausgaberoutine. Die Ausgabesubroutine
vergleicht den Code mit dem zuvor gespeicherten
Code, welcher an dem mit "Kandidat" bezeichneten Ort gespeichert
ist, wie dies durch den Block 302 angedeutet ist.
Falls keine Übereinstimmung vorliegt, kehrt der Algorithmus
zum Punkt A der Fig. 10 A zurück und macht einen weiteren Durch
gang. Wenn jedoch der Code, welcher dem "M"-Phonem entspricht,
gleich dem zuvor gespeicherten Code ist, so hat der Phonem-
Klassifizierbereich des Algorithmus das gleiche Phonem zweimal
hintereinander gewählt und daraus schließt der Algorithmus,
daß wahrscheinlich das richtige Phonem ausgewählt wurde,
und ansprechend auf diese Entscheidung wird nun ein Adreßcode
für das "M"-Phonem ausgewählt und der Code wird an
einem Speicherort gespeichert, welcher mit "letztes bekanntes
Phonem" bezeichnet ist, wie dies durch den Block 304 angedeutet
ist. Nunmehr tritt der Algorithmus in den Entscheidungs
block 306 ein. Hier wird festgestellt, ob ein nachfolgendes
gültiges Zeichen identifiziert wird. Ist dies nicht der Fall,
so tritt der Algorithmus zum Punkt A der Fig. 10 A zurück.
Falls andererseits das nächste gültige Zeichen gefunden wird,
so tritt der Algorithmus in den Block 308 ein und nun wird der
an dem mit "letztes bekanntes Zeichen" bezeichneten Speicherort
gespeicherte Code ausgedruckt und dieses Zeichen wird nun
durch das nächste gültige Zeichen ersetzt, wie zuvor anhand
der Fig. 9 beschrieben.
Falls der Algorithmus im Entscheidungsblock 290 zur Schlußfolgerung
"Ja" gelangt, so wird nun festgestellt, ob der
derzeitige Ton nur ein einziges großes maximales negatives
R-Verhältnis aufweist. Falls dies der Fall ist, so wird
hierdurch erkannt, daß der derzeitige Ton wahrscheinlich ein
N-Ton ist. Dies ist durch den Block 296 angedeutet. Nun wird
ein identifizierender Code an dem mit "Kandidat" bezeichneten
Speicherort gespeichert, worauf der Algorithmus zur Ausgabesubroutine
abzweigt. Falls das Ergebnis des Entscheidungsblocks
292 "Nein" ist, so zweigt der Algorithmus zum Block
289 ab, um die Anwesenheit eines "NG"-Phonems zu testen.
Es können verschiedene Methoden angwendet werden zur Herbeiführung
der Entscheidung, ob das Papier des Phonemdruckers
weitergeschaltet werden soll oder nicht. Bei der oben beschriebenen
Ausführungsform, welche in Verbindung mit einem
öffentlichen Telefonsystem Verwendung finden kann und es
tauben oder schwerhörigen Personen erlaubt, die öffentlichen
Telefongeräte zu benutzen, wird vorzugsweise ein schmaler
Papierstreifen gewählt, welcher kurze Linien aufweist. Es
wird angenommen, daß ein solcher Papierstreifen leicht lesbar
ist. Ein Verfahren zur Feststellung des Zeitpunkts der Vorwärtsbewegung
des Papiers beruht auf dem Abzählen der Anzahl der
Zeichen, der Anzahl der Konsonanten oder der Anzahl der Silben.
Kombinationen dieser Verfahren können ebenfalls angewendet
werden. Zum Beispiel kann der Papierstreifen stets dann
weiterbewegt werden, nachdem die Silbe beendet ist, wobei
die Vollständigkeit der Silbe ermittelt wird, nachdem eine
bestimmte Anzahl von Zeichen gedruckt sind. Es müssen erhebliche
Untersuchungen angestellt werden zur Feststellung der
besten Methode der Vorwärtsbewegung des Papiers, ohne Verschwendung
übermäßiger Papiermengen und unter gleichzeitiger Verbesserung
oder Aufrechterhaltung der Lesbarkeit der ausgedruckten
Phoneme.
Das Spracherkennungssystem
kann leicht in ein Diktiergerät eingebaut werden, und zwar
gemäß Fig. 1 durch die durch eine gestrichelte Linie dargestellte
Verbindung, welche mit dem Bezugszeichen 23 bezeichnet
ist. Diese verbindet das Mikrofon 24 direkt mit einem
Spracherkennungssystem 20. Andererseits wird der Wandler
22 und der akustische Koppler 18 vom Spracherkennungssystem
20 getrennt, wie dies durch die gestrichelten Kreuze "X"
21 angedeutet ist. Der Hauptunterschied zur Ausführungsform
gemäß Fig. 1 besteht darin, daß kein akustischer Koppler
erforderlich ist. Die Mikrofonsignale werden direkt in das
Spracherkennungssystem eingegeben, welches nun die Signale
erzeugt, die den Phonemdrucker treiben.
Die Ausgangssignale des Spracherkennungssystems können auch
zur direkten Steuerung einer digital gesteuerten Maschine
verwendet werden, anstatt einen Phonemdrucker zu treiben.
Hierbei wird das Ausgangsdatentor 62 des Mikrocomputers 52
mit einer anderen geeigneten elektromechanischen Vorrichtung
mit digitalen Steuereingängen verbunden, wie dies in Fig. 3
angedeutet ist.
Bei einer Abwandlung des zuvor beschriebenen
Spracherkennungssystems sind Schalter 21 A, 21 B und 21 C gemäß
Fig. 1 vorgesehen. Diese erlauben es der Bedienungsperson,
das System entweder als Diktiergerät zu verwenden, oder als
Übungsgerät. Eine schwerhörige Person, welche noch nicht
in der Lage ist, die durch den Drucker 12 ausgedruckten Phonemsymbole
zu lesen, kann einfach den Schalter 21 A und den Schalter
21 B öffnen sowie den Schalter 21 C schließen. Nun kann die Bedie
nungsperson in das Mikrofon 24 sprechen und das Lesen der
ausgedruckten Phonemsymbole üben.
Claims (11)
1. Verfahren zur Spracherkennung durch Umwandlung von analogen Tonsignalen in Zeichensignale,
Erfassung von charakteristischen Merkmalen der Tonsignale
in einzelnen Tonsignalzyklen, Vergleich der
erfaßten Merkmale mit vorgegebenen Merkmalen, denen Zeichensignale
zugeordnet sind, und Erzeugung der entsprechenden
Zeichensignale, dadurch gekennzeichnet, daß die
charakteristischen Merkmale durch Erfassung der
Zeitdauern von aufeinanderfolgenden, näherungsweise linearen,
kontinuierlichen Abschnitten (Fig. 7, A′, B′, C′) des
Tonsignals (33 B) und Berechnung von Quotienten mindestens
einiger dieser Zeitdauern eines Tonsignalzyklus gebildet werden.
2. Verfahren nach Anspruch 1, gekennzeichnet durch die weiteren Schritte:
- (a) Vergleich eines Rampensignals (115 A) mit abwechselnd positiver und negativer Steigung mit dem Tonsignal (33 B);
- (b) Erfassung des Ergebnisses des Vergleichs des momentanen Pegels des Tonsignals (33 B) mit dem momentanen Pegel des Rampensignals (115 A) bei einer vorbestimmten Abtastrate;
- (c) Umkehr der Steigung des Rampensignals (115 A), sobald das Rampensignal (115 A) mit positiver Steigung den momentanen Pegel des Tonsignals (33 B) übersteigt bzw. sobald das Rampensignal (115 A) negativer Steigung den momentanen Pegel des Tonsignals (33 B) unterschreitet; und
- (d) Erzeugung digitaler Impulse (44 B) entsprechend der Steigungsumkehr.
3. Verfahren nach Anspruch 2, gekennzeichnet durch
eine Erfassung der Anwesenheit
oder Abwesenheit einer vorbestimmten Anzahl von aufeinander
folgenden Umkehrungen der Steigung des Rampensignals (115 A).
4. Verfahren nach einem der Ansprüche 1 bis 3, gekennzeichnet
durch eine Erzeugung eines
Amplitudenhüllsignals (38 A), welches Amplitudenänderungen des Tonsignals
33 B darstellt; eine Deltamodulation
des Amplitudenhüllsignals (38 A) unter Erzeugung einer zweiten Folge
von digitalen Impulsen (42 A), welche die in dem Amplitudenhüllsignal
enthaltene Amplitudeninformation darstellen, und
eine Erfassung von Übergangsstellen des
Tonsignals (33 B) ansprechend auf die zweite Folge von digitalen
Impulsen (42 A).
5. Verfahren nach einem der Ansprüche 2 bis 4,
gekennzeichnet,
durch folgende Schritte:
- (a) Erzeugung einer ersten Folge (44 c) von ersten Segmenten einer logischen Variablen (S), wobei jedes Segment definiert ist durch jeweils eines der Zeitintervalle, in denen ein größerer Flankenbereich des Tonsignals (33 B) erfaßt wird, und wobei der logische Zustand durch die Steigung des Rampensignals (115 A) bestimmt ist, wenn sich diese Steigung während einer vorbestimmten Zeitdauer nicht umkehrt;
- (b) Speicherung der ersten Folge von ersten Segmenten der logischen Variablen (S);
- (c) Erfassung einer Periode des Tonsignals (33 B) durch Summierung der gespeicherten ersten Segmente der logischen Variablen (S) zwischen einem jüngsten gespeicherten Segment der ersten Segmente der logischen Variablen (S) und einem gleichen zuvor gespeicherten Segment der ersten Segmente der logischen Variablen (S) und
- (d) Division vorbestimmter erster Segmente der logischen Variablen (S) durch die ermittelte Periode unter Gewinnung von charakteristischen Verhältnissen der Tonwellenform (33 B).
6. Verfahren nach Anspruch 5, gekennzeichnet durch
die weiteren Schritte:
- (a) Erzeugung einer zweiten Folge (44 D) von zweiten Segmenten einer logischen Variablen (R), deren jedes definiert ist durch ein jeweiliges Intervall der gemessenen Zeitintervalle, wobei der logische Zustand bestimmt wird durch das Auftreten einer vorbestimmten Anzahl von aufeinanderfolgenden Steigungsumkehrungen des Rampensignals (115 A);
- (b) Speicherung der Folge von zweiten Segmenten der logischen Variablen (R) und
- (c) Division vorbestimmter zweiter Segmente der logischen Variablen durch die ermittelte Periode zur Ermittlung bestimmter anderer charakteristischer Verhältnisse des Tonsignals (33 B).
7. Verfahren nach einem der Ansprüche 1 bis 6,
gekennzeichnet durch eine Phonem-
Klassifizierung, welche verschiedene der gespeicherten
Phonemverhältnisse auswählt zum Vergleich mit
den charakteristischen Verhältnissen des Tonsignals (33 B)
gemäß einem Phonemklassifizierentscheidungsbaum, wobei der
Phonemklassifizierentscheidungsbaum eine Vielzahl von Zweigen
umfaßt, von denen jeder eine Vielzahl von Phonemverhältnissen
von miteinander verwandten Phonemklängen beinhaltet, und
wobei die Phonemverhältnisse des jeweiligen Zweiges in
der Reihenfolge der Abnahme ihrer durchschnittlichen Häufigkeit
in der jeweiligen gesprochenen Sprache ausgewählt werden.
8. Verfahren nach Anspruch 7, gekennzeichnet durch
- (a) eine Erzeugung eines Amplitudenhüllsignals (38 A), welches Amplitudenänderungen des Tonsignals (33 B) darstellt;
- (b) eine serielle Codierung des Amplitudenhüllsignals (38 A) zur Erzeugung einer zweiten Folge von seriellen digitalen Impulsen (44 B), welche die Amplitudeninformation des Amplitudenhüllsignals (38 A) darstellen und
- (c) eine Analyse der zweiten Folge von seriellen digitalen Impulsen (44 B) zum Zwecke der Erzeugung einer Übergangsinformation, welche die Übergänge und die gleitenden Übergänge des Tonsignals (33 B) darstellt.
9. Verfahren nach einem der Ansprüche 7 oder 8, gekennzeichnet
durch die Schritte:
- (a) Ermittlung von Frequenzkomponenten im Tonsignal (33 B), welche in einem vorbestimmten Frequenzbereich liegen und eine vorbestimmte Schwellenhöhe übersteigen;
- (b) Erzeugung eines digitalen Signals (130 A), welches die erfaßte Frequenzkomponente wiedergibt; und
- (c) Auswahl bestimmter einzelner der Zweige des Entscheidungsbaumes aufgrund der die Frequenzkomponenten darstellenden Digitalsignale und Unterscheidung zwischen einzelnen der gespeicherten Phonemverhältnisse und der charakteristischen Verhältnisse des Tonsignals (33 B).
10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet,
daß die Phonemsymbole,
ansprechend auf die die Phoneme darstellenden Signale, ausgedruckt werden.
11. Verfahren nach Anspruch 10, gekennzeichnet durch
folgende Schritte
- (a) Vergleichen ausgewählter einzelner der gespeicherten Phonemverhältnisse mit den charakteristischen Verhältnissen des Tonsignals (33 B), bis eine adäquate Übereinstimmung auftritt;
- (b) Vergleich der übereinstimmenden Phonemverhältnisse mit einem jeweils jüngsten übereinstimmenden, vorhergehenden Phonemverhältnis, sobald eine adäquate Übereinstimmung bei einer der sequentiellen Vergleichsstufen festgestellt wird und Wiederholung des sequentiellen Vergleichs, falls keine adäquate Übereinstimmung festgestellt wird, und
- (c) Erzeugung eines Signals, welches den Phonemton wiedergibt und zum Ausdrucken des Phonemsymbols führt, falls das übereinstimmende Phonemverhältnis gleich einem vorherigen Phonemverhältnis ist, während andererseits der sequentielle Vergleich wiederholt wird, wenn das übereinstimmende Phonemverhältnis nicht gleich dem vorhergehenden Phonemverhältnis ist, wobei das gedruckte Phonemsymbol dem vorhergehenden Phonemverhältnis entspricht.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US05/903,697 US4181813A (en) | 1978-05-08 | 1978-05-08 | System and method for speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
DE2918533A1 DE2918533A1 (de) | 1979-11-15 |
DE2918533C2 true DE2918533C2 (de) | 1988-10-20 |
Family
ID=25417942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19792918533 Granted DE2918533A1 (de) | 1978-05-08 | 1979-05-08 | Spracherkennungssystem |
Country Status (5)
Country | Link |
---|---|
US (1) | US4181813A (de) |
JP (1) | JPS55585A (de) |
DE (1) | DE2918533A1 (de) |
FR (1) | FR2425689A1 (de) |
GB (1) | GB2020467B (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10220524A1 (de) * | 2002-05-08 | 2003-11-27 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
US7343288B2 (en) | 2002-05-08 | 2008-03-11 | Sap Ag | Method and system for the processing and storing of voice information and corresponding timeline information |
Families Citing this family (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4284846A (en) * | 1978-05-08 | 1981-08-18 | John Marley | System and method for sound recognition |
US4255618A (en) * | 1979-04-18 | 1981-03-10 | Gte Automatic Electric Laboratories, Incorporated | Digital intercept recorder/announcer system |
IT1156544B (it) * | 1982-11-08 | 1987-02-04 | Olivetti & Co Spa | Metodo ed apparecchiatura di riconoscimento fonetico di parole |
US4468813A (en) * | 1982-12-06 | 1984-08-28 | Motorola, Inc. | Digital voice storage system |
US4495647A (en) * | 1982-12-06 | 1985-01-22 | Motorola, Inc. | Digital voice storage mobile |
US4771401A (en) * | 1983-02-18 | 1988-09-13 | Houghton Mifflin Company | Apparatus and method for linguistic expression processing |
US4674066A (en) * | 1983-02-18 | 1987-06-16 | Houghton Mifflin Company | Textual database system using skeletonization and phonetic replacement to retrieve words matching or similar to query words |
US4580241A (en) * | 1983-02-18 | 1986-04-01 | Houghton Mifflin Company | Graphic word spelling correction using automated dictionary comparisons with phonetic skeletons |
DE3317569A1 (de) * | 1983-05-13 | 1984-11-15 | Siemens AG, 1000 Berlin und 8000 München | Auswertung von elektrisch gewandelten schallemissionssignalen |
GB2145864B (en) * | 1983-09-01 | 1987-09-03 | King Reginald Alfred | Voice recognition |
US4991217A (en) * | 1984-11-30 | 1991-02-05 | Ibm Corporation | Dual processor speech recognition system with dedicated data acquisition bus |
US4783758A (en) * | 1985-02-05 | 1988-11-08 | Houghton Mifflin Company | Automated word substitution using numerical rankings of structural disparity between misspelled words & candidate substitution words |
WO1987003127A1 (en) * | 1985-11-08 | 1987-05-21 | John Marley | System and method for sound recognition with feature selection synchronized to voice pitch |
GB2183880A (en) * | 1985-12-05 | 1987-06-10 | Int Standard Electric Corp | Speech translator for the deaf |
JPS62145573A (ja) * | 1985-12-19 | 1987-06-29 | Canon Inc | 情報再生装置 |
US4797929A (en) * | 1986-01-03 | 1989-01-10 | Motorola, Inc. | Word recognition in a speech recognition system using data reduced word templates |
CA1299750C (en) * | 1986-01-03 | 1992-04-28 | Ira Alan Gerson | Optimal method of data reduction in a speech recognition system |
US4935963A (en) * | 1986-01-24 | 1990-06-19 | Racal Data Communications Inc. | Method and apparatus for processing speech signals |
EP0266364A1 (de) * | 1986-03-19 | 1988-05-11 | ZESTERMANN, Hanno | Verfahren und anordnung zur drahtlosen übertragung von informationen |
DE3719490C2 (de) * | 1986-03-19 | 1994-09-15 | Baymak Faruk | Anordnung zur drahtlosen Übertragung von Informationen |
DE3612360A1 (de) * | 1986-04-12 | 1987-10-15 | Grundig Emv | Einrichtung zur untertitelung von fernsehsignalen |
US4837831A (en) * | 1986-10-15 | 1989-06-06 | Dragon Systems, Inc. | Method for creating and using multiple-word sound models in speech recognition |
US4829472A (en) * | 1986-10-20 | 1989-05-09 | Microlytics, Inc. | Spelling check module |
US4910784A (en) * | 1987-07-30 | 1990-03-20 | Texas Instruments Incorporated | Low cost speech recognition system and method |
US4980917A (en) * | 1987-11-18 | 1990-12-25 | Emerson & Stern Associates, Inc. | Method and apparatus for determining articulatory parameters from speech data |
DE3935308C1 (en) * | 1989-10-24 | 1991-01-10 | Gebhard Prof. Dr. 7743 Furtwangen De Radi | Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction |
US5263117A (en) * | 1989-10-26 | 1993-11-16 | International Business Machines Corporation | Method and apparatus for finding the best splits in a decision tree for a language model for a speech recognizer |
JPH0475959U (de) * | 1990-11-15 | 1992-07-02 | ||
JPH07109560B2 (ja) * | 1990-11-30 | 1995-11-22 | 富士通テン株式会社 | 音声認識装置 |
US5388185A (en) * | 1991-09-30 | 1995-02-07 | U S West Advanced Technologies, Inc. | System for adaptive processing of telephone voice signals |
US5481589A (en) * | 1991-11-12 | 1996-01-02 | Microlog Corporation | Detection of TDD signals in an automated telephone system |
US5388146A (en) * | 1991-11-12 | 1995-02-07 | Microlog Corporation | Automated telephone system using multiple languages |
JPH075898A (ja) * | 1992-04-28 | 1995-01-10 | Technol Res Assoc Of Medical & Welfare Apparatus | 音声信号処理装置と破裂性抽出装置 |
US6283760B1 (en) * | 1994-10-21 | 2001-09-04 | Carl Wakamoto | Learning and entertainment device, method and system and storage media therefor |
US5640490A (en) * | 1994-11-14 | 1997-06-17 | Fonix Corporation | User independent, real-time speech recognition system and method |
US6903723B1 (en) | 1995-03-27 | 2005-06-07 | Donald K. Forest | Data entry method and apparatus |
US6160536A (en) * | 1995-03-27 | 2000-12-12 | Forest; Donald K. | Dwell time indication method and apparatus |
US6005549A (en) * | 1995-07-24 | 1999-12-21 | Forest; Donald K. | User interface method and apparatus |
US5999895A (en) * | 1995-07-24 | 1999-12-07 | Forest; Donald K. | Sound operated menu method and apparatus |
US5940476A (en) | 1996-06-28 | 1999-08-17 | Distributed Software Development, Inc. | System and method for identifying an unidentified caller |
ES2297839T3 (es) * | 1996-03-11 | 2008-05-01 | Fonix Corporation | Sistema y metodo para el reconocimiento de voz en tiempo real independiente del usuario. |
US5901203A (en) | 1996-06-28 | 1999-05-04 | Distributed Software Development, Inc. | Computer-based system and method for identifying an unidentified caller |
US6205204B1 (en) | 1996-06-28 | 2001-03-20 | Distributed Software Development, Inc. | System and method for identifying an unidentified person using an ambiguity-resolution criterion |
US6529881B2 (en) * | 1996-06-28 | 2003-03-04 | Distributed Software Development, Inc. | System and method for identifying an unidentified customer at the point of sale |
US7006605B1 (en) * | 1996-06-28 | 2006-02-28 | Ochopee Big Cypress Llc | Authenticating a caller before providing the caller with access to one or more secured resources |
US5774857A (en) * | 1996-11-15 | 1998-06-30 | Motorola, Inc. | Conversion of communicated speech to text for tranmission as RF modulated base band video |
JP4439740B2 (ja) * | 1999-02-16 | 2010-03-24 | 有限会社ジーエムアンドエム | 音声変換装置及び方法 |
JP2001296883A (ja) * | 2000-04-14 | 2001-10-26 | Sakai Yasue | 音声認識方法および装置、音声合成方法および装置、記録媒体 |
US20020082834A1 (en) * | 2000-11-16 | 2002-06-27 | Eaves George Paul | Simplified and robust speech recognizer |
US7089184B2 (en) * | 2001-03-22 | 2006-08-08 | Nurv Center Technologies, Inc. | Speech recognition for recognizing speaker-independent, continuous speech |
EP1286329B1 (de) * | 2001-08-23 | 2006-03-29 | Culturecom Technology (Macau) Ltd. | Verfahren und Vorrichtung zur phonetischen Spracherkennung |
DE10220521B4 (de) * | 2002-05-08 | 2005-11-24 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen |
DE10220520A1 (de) * | 2002-05-08 | 2003-11-20 | Sap Ag | Verfahren zur Erkennung von Sprachinformation |
DE10220522B4 (de) * | 2002-05-08 | 2005-11-17 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse |
US20040221420A1 (en) * | 2003-05-08 | 2004-11-11 | Brian Phillips | Apparatus and method for cleaning soiled, surfaces with reduced environmental impact |
JP3827317B2 (ja) * | 2004-06-03 | 2006-09-27 | 任天堂株式会社 | コマンド処理装置 |
CA2620200A1 (en) * | 2005-09-07 | 2007-03-15 | Biloop Tecnologic, S.L. | Signal recognition method using a low-cost microcontroller |
US20110125300A1 (en) * | 2008-08-25 | 2011-05-26 | International Business Machines Corporation | Non-Intrusive Acoustic Monitoring for Equipment Diagnostic and Fault Reporting |
US10282057B1 (en) * | 2014-07-29 | 2019-05-07 | Google Llc | Image editing on a wearable device |
US9596502B1 (en) | 2015-12-21 | 2017-03-14 | Max Abecassis | Integration of multiple synchronization methodologies |
US9516373B1 (en) | 2015-12-21 | 2016-12-06 | Max Abecassis | Presets of synchronized second screen functions |
US10238341B2 (en) | 2016-05-24 | 2019-03-26 | Graco Children's Products Inc. | Systems and methods for autonomously soothing babies |
US11210337B2 (en) | 2018-10-16 | 2021-12-28 | International Business Machines Corporation | System and method for searching audio data |
US20210390957A1 (en) * | 2020-06-11 | 2021-12-16 | Orcam Technologies Ltd. | Systems and methods for processing audio and video |
US11962306B2 (en) * | 2021-06-29 | 2024-04-16 | Nvidia Corporation | Clock anomaly detection |
US12079028B2 (en) | 2022-01-31 | 2024-09-03 | Nvidia Corporation | Fast clock detection |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3278685A (en) * | 1962-12-31 | 1966-10-11 | Ibm | Wave analyzing system |
GB1012765A (en) * | 1964-03-06 | 1965-12-08 | Standard Telephones Cables Ltd | Apparatus for the analysis of waveforms |
GB1155422A (en) * | 1965-08-24 | 1969-06-18 | Nat Res Dev | Speech Recognition |
CH549849A (de) * | 1972-12-29 | 1974-05-31 | Ibm | Verfahren zum ermitteln des der periode der anregungsfrequenz der stimmbaender entsprechenden intervalls. |
US3962682A (en) * | 1974-10-30 | 1976-06-08 | Motorola, Inc. | Split low order internal address bus for microprocessor |
-
1978
- 1978-05-08 US US05/903,697 patent/US4181813A/en not_active Expired - Lifetime
-
1979
- 1979-05-04 GB GB7915678A patent/GB2020467B/en not_active Expired
- 1979-05-07 FR FR7911507A patent/FR2425689A1/fr active Granted
- 1979-05-07 JP JP5561279A patent/JPS55585A/ja active Granted
- 1979-05-08 DE DE19792918533 patent/DE2918533A1/de active Granted
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10220524A1 (de) * | 2002-05-08 | 2003-11-27 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
DE10220524B4 (de) * | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
US7343288B2 (en) | 2002-05-08 | 2008-03-11 | Sap Ag | Method and system for the processing and storing of voice information and corresponding timeline information |
US7406413B2 (en) | 2002-05-08 | 2008-07-29 | Sap Aktiengesellschaft | Method and system for the processing of voice data and for the recognition of a language |
Also Published As
Publication number | Publication date |
---|---|
JPS6147440B2 (de) | 1986-10-18 |
FR2425689B1 (de) | 1984-09-21 |
GB2020467A (en) | 1979-11-14 |
US4181813A (en) | 1980-01-01 |
JPS55585A (en) | 1980-01-05 |
FR2425689A1 (fr) | 1979-12-07 |
DE2918533A1 (de) | 1979-11-15 |
GB2020467B (en) | 1983-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2918533C2 (de) | ||
DE2613258C2 (de) | Schaltungsanordnung zum Erkennen von einem oder mehreren Schlüsselworten in kontinuierlicher Sprache | |
DE69519328T2 (de) | Verfahren und Anordnung für die Umwandlung von Sprache in Text | |
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE69127818T2 (de) | System zur verarbeitung kontinuierlicher sprache | |
DE69421911T2 (de) | Spracherkennung mit pausedetektion | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE3884880T2 (de) | Billige Spracherkennungseinrichtung und Verfahren. | |
DE69229816T2 (de) | Einrichtung und Verfahren für Sprachmusteridentifizierung | |
DE2953262C2 (de) | ||
DE60004420T2 (de) | Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem | |
DE2626793A1 (de) | Verfahren zur bewertung stimmhafter und stimmloser zustaende eines sprachsignals | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE3149134C2 (de) | Verfahren und Vorrichtung zur Bstimmung von Endpunkten eines Sprachausdrucks | |
DE60034772T2 (de) | Zurückweisungsverfahren in der spracherkennung | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
DE69128582T2 (de) | Methode zur Phonemunterscheidung | |
DE19851287A1 (de) | Datenverarbeitungssystem oder Kommunikationsendgerät mit einer Einrichtung zur Erkennugn gesprochener Sprache und Verfahren zur Erkennung bestimmter akustischer Objekte | |
DE4111781A1 (de) | Computersystem zur spracherkennung | |
DE2357949A1 (de) | Verfahren zum ermitteln des der periode der anregungsfrequenz der stimmbaender entsprechenden intervalls | |
DE1422056A1 (de) | Phonetische Schreibmaschine | |
DE69419846T2 (de) | Sende- und empfangsverfahren für kodierte sprache | |
DE69217952T2 (de) | Echtzeit-spracherkennungsvorrichtung und verfahren |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
8125 | Change of the main classification |
Ipc: G10L 9/00 |
|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |