DE2753277A1 - Spracherkennungseinrichtung - Google Patents
SpracherkennungseinrichtungInfo
- Publication number
- DE2753277A1 DE2753277A1 DE19772753277 DE2753277A DE2753277A1 DE 2753277 A1 DE2753277 A1 DE 2753277A1 DE 19772753277 DE19772753277 DE 19772753277 DE 2753277 A DE2753277 A DE 2753277A DE 2753277 A1 DE2753277 A1 DE 2753277A1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- digit
- identified
- voiced
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012360 testing method Methods 0.000 claims abstract description 42
- 230000015654 memory Effects 0.000 claims description 148
- 230000004044 response Effects 0.000 claims description 20
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 238000000034 method Methods 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 2
- 230000001755 vocal effect Effects 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract description 14
- 239000011159 matrix material Substances 0.000 description 19
- 239000013598 vector Substances 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 241001354498 Dracophyllum minimum Species 0.000 description 5
- 239000008186 active pharmaceutical agent Substances 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 229910052698 phosphorus Inorganic materials 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000000284 resting effect Effects 0.000 description 2
- 101100096502 Danio rerio spring gene Proteins 0.000 description 1
- 101100096504 Mus musculus Spring1 gene Proteins 0.000 description 1
- 102100026459 POU domain, class 3, transcription factor 2 Human genes 0.000 description 1
- 101710133394 POU domain, class 3, transcription factor 2 Proteins 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 101100426090 Rattus norvegicus Trim9 gene Proteins 0.000 description 1
- 235000010716 Vigna mungo Nutrition 0.000 description 1
- 244000042295 Vigna mungo Species 0.000 description 1
- 101100096505 Xenopus laevis spring1 gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Analogue/Digital Conversion (AREA)
- Time-Division Multiplex Systems (AREA)
Description
Patenlconsult Radediestraße 43 8000 München 60 Telefon (089) 883603/883604 Telex 05-2123U Telegramme Patentconsult
Patentconsull Sonnenberger SlcaGe 43 6200 Wiesbaden Telefon (061Π) 562943/561998 Telex 04-186237 Telegramme Palentconsuil
WESTERN ELECTRIC COMPANY Rabiner, L.R.8-2
Incorporated
NEW YORK N.Y. 10038 USA
Spracherkennungseinrichtung
Die Erfindung betrifft eine Spracherkennungseinrichtung.
Auf dem Gebiet der Nachrichtentechnik, Datenverarbeitung und bei Steuersystemen ist es häufig erwünscht, die Sprache zur direkten Eingabe
von Daten, Befehlen oder anderen Informationen zu verwenden. Spracheingabeanordnungen
lassen sich verwenden zur Aufzeichnung von Transaktionen, zur Speicherung und Anforderung von Fernsprechinformationen,
zur Steuerung von Werkzeugmaschinen. Außerdem kann damit die Möglichkeit geschaffen werden, daß eine Person mit einer Datenverarbeitungsund
Steuereinrichtung in Verbindung tritt, ohne daß ihre Aufmerksamkeit durch andere Aktivitäten abgelenkt wird. Wegen der komplizierten Natur
der Sprache, ihre beträchtlichen Variationsbreite von Sprecher zu Sprecher und der Unterschiede selbst für einen bestimmten Sprecher
München: R. Krarncr Dipl.-Ing. . W VVeset Dipl Phys. D' rer. Fit. ■ P. iMsOi Spr-Ing. . H. P. Brehm Dpi -Chem. Dr. chil. not.
Wiesbaden: P. G. ßlumbadi Pipl.-Kg. . P. Bergen Dipl. Ing. Oi ;ji · O. Zwnner Oipl.-lng. DidI.-W. Ing.
lib
ist es schwierig, eine gute Erkennung von Sprachabschnitten zu
erzielen.
Bei einem Typ einer bekannten Spracherkennungsanlage wird ein Eingangssprachsignal in eine Folge von phonetisch begründeten
Merkmalen umgewandelt. Die abgeleiteten Merkmale oder Kennwerte, die im allgemeinen durch eine Spektralanalyse der Sprachabschnitte
gewonnen werden, werden mit einer gespeicherten Gruppe von Bezugsmerkmalen verglichen, die dem zu erkennenden Sprachabschnitt oder
Wort entsprechen. Wenn ein Eingangssprachabschnitt vorgegebene Erkennungskriterien erfüllt, so wird der Abschnitt als der Bezugssprachabschnitt angenommen. Im anderen Fall wird er zurückgewiesen.
Die Zuverlässigkeit des Erkennungssystems hängt also in hohem Maße von der vorgeschriebenen Gruppe von Bezugsmerkmalen und von den
Erkennungskriterien ab. Wenn die Gruppe von Bezugsmerkmalen vom gleichen Sprecher gewonnen wird und das zu erkennende Wort
getrennt ausgesprochen wird, so ist das Spracherkennungssystem verhältnismäßig einfach und kann sehr genau sein.
Ein weiterer Typ eines Spracherkennungssystems, das in einem Aufsatz "Minimum Prediction Residual Principle Applied to Speech
Recognition" von Fumitada Itakura in der Zeitschrift IEEE Transactions
809822/0988
1 U-
on Acoustics, Speech, and Signal Processing, Febr. 1975, Seiten 67-72,
beschrieben ist, beruht nicht auf einer vorgeschriebenen Gruppe von spektral abgeleiteten phonetischen Merkmalen, sondern es wird eine
Folge von Vektoren gewonnen, die die linearen Vorhersagecharakteristiken eines Sprachsignals darstellen, und diese Vektoren für die linearen Vorhersagecharakteristiken
werden mit einer entsprechenden Folge von Bezugsvektoren verglichen, die die linearen Vorhersagecharakteristiken eines
vorhergehenden Ausdrucks eines identifizierten Sprachabschnittes oder Wortes darstellen. In bekannter Weise enthalten lineare Vorhersagecharakteristiken
Kombinationen einer großen Anzahl von Sprachmerkmalen und können daher zu einer verbesserten Erkennung gegenüber Anordnungen führen,
bei denen nur eine begrenzte Anzahl von gewählten, spektral abgeleiteten phonetischen Merkmalen benutzt wird.
Die Erfindung will eine verbesserte Spracherkennungseinrichtung schaffen und ist gekennzeichnet durch eine Anordnung, die folgende
Operationen ausführt:
Aufteilen kontinuierlicher Ketten von verbundenen, identifizierten
Sprachabschnitten in die identifizierten Sprachabschnitte;
Erzeugen einer Gruppe von Bezugssignalen für jeden unterschiedlichen
identifizierten Sprachabschnitt, die die Mittelwerte der Vorhersage-
809822/0988
kennwerte der stimmhaften Signale darstellen, und zwar ausgerichtet
zur mittleren Dauer der stimmhaften Intervalle von Wiederholungen jedes der unterschiedlichen identifizierten Sprachabschnitte, die sich
in den Ketten wiederholen;
Aufteilen einer kontinuierlichen Kette von verbundenen Sprachabschnitten, die wenigstens einen unbekannten Sprachabschnitt enthält,
in ihre Sprachabschnitte;
Erzeugen einer Gruppe von PrUfsignalen, die die Vorhersagekennwerte
des stimmhaften Intervalls des unbekannten Sprachabschnittes darstellen;
Ausrichten der PrUfsignale auf die mittlere Dauer des stimmhaften
Intervalls jedes unterschiedlichen identifizierten Sprach interval Is;
gemeinsames Ansprechen auf die Gruppe von ausgerichteten PrUfsignalen
und jede Gruppe von Bezugssignalen zur Erzeugung eines Signals, das den Grad der Entsprechung zwischen den ausgerichteten PrUfsignalen
für das stimmhafte Intervall und den Bezugssignalen für das stimmhafte Intervall darstellt.
Entsprechend einem weiteren Merkmal der Erfindung ist eine Spracherkennungseinrichtung mit einem Speicher vorgesehen, der eine Gruppe
809822/0988
Ab
von Bezugssignalen enthalt, die je einem unterschiedlichen identifizierten
Sprachabschnitt entsprechen, die Mittelwerte der Vorhersagekennwerte der stimmhaften Intervalle darstellen, und zwar ausgerichtet
zur mittleren Dauer der stimmhaften Intervalle von Wiederholungen jedes der unterschiedlichen identifizierten Sprachabschnitte,
wobei die Spracherkennungseinrichtung so angeordnet ist, daß sie folgende Operationen ausführt:
Aufteilen einer kontinuierlichen Kette von verbundenen Sprachabschnitten,
die wenigstens einen unbekannten Sprachabschnitt aufweisen, in ihre Sprachabschnitte;
Erzeugen einer Gruppe von Prüfsignalen, die die Vorhersageke nnwer te
des stimmhaften Intervalls des unbekannten Sprachabschnittes darstellen;
Ausrichten der Prüfsignale auf die mittlere Dauer des stimmhaften Intervalls
jedes unterschiedlichen identifizierten Sprachabschnittes;
Gemeinsames Ansprechen auf die Gruppe von ausgerichteten PrUfsignalen
und jede Gruppe von Bezugssignalen zur Erzeugung eines Signals, das den Grad der Entsprechung zwischen den ausgerichteten
Prüfsignalen für das stimmhafte Intervall und den Bezugssignalen fUr
das stimmhafte Intervall darstellt.
809822/0988
Entsprechend einem weiteren Merkmal ist die Erfindung auf ein Verfahren
zur Erkennung von Sprache gerichtet und gekennzeichnet durch die Verfah renssch ri tte:
Aufteilen kontinuierlicher Ketten von verbundenen, identifizierten
Sprachabschnitten in die identifizierten Sprachabschnitte;
Erzeugen einer Gruppe von Bezugssignalen fUr jeden unterschiedlichen
identifizierten Sprachabschnitt, die die Mittelwerte der Vorhersagekennwerte der stimmhaften Intervalle darstellen, und zwar ausgerichtet
zur mittleren Dauer der stimmhaften Intervalle von Wiederholungen jedes der unterschiedlichen identifizierten Sprachabschnitte, die sich in
den Ketten wiederholen;
Aufteilen einer kontinuierlichen Kette von verbundenen Sprachabschnitten, die wenigstens einen unbekannten Sprachabschnitt
enthält, in ihre Sprachabschnitte;
Erzeugen einer Gruppe von Prüfsignalen, die die Vorhersagekennwerte des stimmhaften Intervalls des unbekannten Sprachabschnittes darstellen;
809822/0988
Intervalls jedes unterschiedlichen, identifizierten Sprachabschnittes;
gemeinsames Ansprechen auf die Gruppe von ausgerichteten Prüfsignalen
und jede Gruppe von Bezugssignalen zur Erzeugung eines Signals, das den Grad der Entsprechung zwischen den ausgerichteten
Prüfsignalen für das stimmhafte Intervall und den Bezugssignalen für
das stimmhafte Intervall darstellen.
Im Gegensatz dazu ist es bei dem Erkennungssystem mit linearer Vorhersage
nach Itakura erforderlich, daß der gleicheSprecher sowohl den Bezugssprachabschnitt als auch den zu identifizierenden Sprachabschnitt
liefert, und daß außerdem der Sprachabschnitt isoliert gesprochen
wird. In zusammenhängender Sprache hängen jedoch die Vorhersagekennwerte jedes Abschnittes von den vorhergehenden
und nachfolgenden Sprachabschnitten ab. Daher ist die erfolgreiche Erkennung eines identifizierten Sprachabschnittes oder Wortes in
einer kontinuierlichen Sprachfolge begrenzt. Bei dem Verfahren nach Itakura ist außerdem die Verwendung der Vorhersagekennwerte des
vollständigen Sprachabschnittes für die Erkennung erforderlich. Es wurde jedoch gefunden, daß die Verwendung von Vorhersageparametern
des stimmlosen Bereichs für die Erkennung von Sprachabschnitten die Genauigkeit schwerwiegend beeinträchtigt.
8 0 9822/0988
Nachfolgend wird die Erfindung anhand eines bevorzugten Ausführungsbeispiels in Verbindung mit den Zeichnungen näher beschrieben.
Es zeigen:
Fig. IAund IB das Gesamtblockschaltbild eines Ziffern
erkennungssystems nach der Erfindung;
Fig. 2 ein genaueres Blockschaltbild eines Stimmhaft-
Stimmlos-Ruhe-Prozessors zur Verwendung in
der Schaltungsanordnung nach Fig. 1 A;
Fig. 3 ein genaueres Blockschaltbild einer Ziffern
auf teilschal tu ng zur Verwendung in der
Schaltungsanordnung nach Fig. IA;
Fig. 4 ein genaueres Blockschaltbild des Ziffern
detektors für das stimmhafte Intervall gemäß Fig. IA;
Fig. 5 ein genaueres Blockschaltbild der MitteIwert-
bildungsschalrung für den stimmhaften Bereich bei dem Ziffernerkennungssystem nach Fig. 1 A;
809822/0988
Fig. 6 .eine LPC-Ausrichtschaltung , die bei dem
Erkennungssystem nach Fig. IA und 1 B Verwendung finden kann;
Fig. 7 ein genaueres Blockschaltbild der Folgerichtig-
ke its-Detektorschal tu ng nach Fig. IB;
Fig. 8 ein genaueres Blockschaltbild des Speichers
für das ausgerichtete LPC-PrüfsignaI gemäß
Fig. 1 B/
Fig. 9 . das genauere Blockschaltbild der D. -
Minimum -Wählschal tu ng gemäß Fig. 1 B;
Fig. 10 das genauere Blockschaltbild der D^ -
Minimum-Wählschaltung demäß Fig. 1 B;
Fig. Π das Blockschaltbild eines Mikroprozessors
zur Verwendung in dem Erkennungssystem gemäß Fig. 1 A und 1 B.
Das System gemäß Fig. 1 A und 1 B erkennt die Ziffern in einer Kette
von nicht identifizierten, gesprochenen Ziffern auf der Basis einer Über-
809822/0988
einstimmung zwischen den Signalen für die linearen Vorhersagekoeffizienten des stimmhaften Bereichs jeder nicht identifizierten
Ziffer der Kette und einer vorher gespeicherten Bezugsgruppe von Signalen für die linearen Vorhersagekoeffizienten jeder möglichen
Ziffer. Die Bezugsgruppen werden aus einer statistischen Analyse der linearen Vorhersagekennwerte von wiederholten, identifizierten
Ziffernketten abgeleitet, die von einem oder mehreren Sprechern stammen. Die Anlage arbeitet zunächst in einer Übungsbetriebsweise,
bei der Gruppen von Signalen für lineare Vorhersagekoeffizienten aus Sprachabtastwerten von identifizierten Ziffern abgeleitet werden.
Nachdem eine vorbestimmte Anzahl von Signalen für lineare Vorhersagekoeffizienten für die identifizierte Ziffer gespeichert sind, wird eine
Bezugsbetriebsweise eingeleitet, bei der die gespeicherten Übungsgruppen von Signalen für lineare Vorhersagekoeffizienten so kombiniert
werden, daß eine Bezugsgruppe für jede mögliche, zu erkennende Ziffer gebildet wird. Die gespeicherten Bezugsgruppen werden dann in einer
Erkennungsbe triebsweise zur Identifizierung der Ziffern einer Kette von nicht identifizierten Ziffern benutzt.
In der Erkennungsbetriebsweise werden Linearvorhersagekoeffizienten-Signale (LPC-Signale) für den stimmhaften Bereich jeder nicht identifizierten
809822/0988
Ziffer abgeleitet und mit.der Bezugsgruppe für jede mögliche
Ziffer verglichen. Die Ergebnisse des Vergleichs werden gespeichert, und die Identität der Ziffer gewählt, die die genaues te
Übereinstimmung mit der nicht identifizierten Ziffer hat.
Zur Erläuterung sei angenommen, daß die Steuerlogik 180 in Fig. 1 B
das Erkennungssystem gemäß Fig. 1 A und 1 B in seine Übungsbetriebsweise dadurch bringt, daß abhängig vom Zustand des Betriebsartenwählers
178 in Fig. 1 B das Ausgangssignal TR erzeugt wird. Das Signal TR betätigt das Gatter 107, so daß ein Identifiziercode ID
für jede Ziffer in der Übungsgruppenkette in einen Ziffernidentifizierer
109 eingegeben wird. Die Sprachquelle 101 in Fig. 1 A erzeugt ein Sprachsignal, das aus der Kette von identifizierten Ziffern besteht, deren
Identität im Ziffernidentifizierer 109 gespeichert wird. Die Kette ausder
Quelle 101 wird an einen Ana log-Digita !wandler 105 gegeben. Die Sprachquelle 101 kann ein Mikrophon oder ein Fernsprechhörer oder eine
andere elektro-akustische Anordnung sein.
Der Ana log-Digita !wandler 105 in Fig. IA unterwirft das Sprachsignal
aus der Quelle 101 einer Tiefpassfilterung und tastet das gefilterte Sprachsignal mit einer Frequenz von 10 kHz unter Steuerung von
Taktimpulsen PC mit 10 kHz aus der Taktquelle 187 in Fig. 1 B ab.
809822/0988
-Kr 275327V
Das Ausgangssignal des Wandlers 105 ist eine Folge von codierten
Abtastsignalen sn, die an einen Sprachintervalldetektor 111 und an einen
Eingang des Gatters 113 in Fig. 1 A angelegt werden.
Unter Ansprechen auf den Energieinhalt des Sprachsignals, der durch
eine Summierung des Absolutwertes der Abtastausgangssignale des Wandlers 105 gewonnen worden ist, liefert der Sprachintervalldetektor 111 in Fig. IA ein Betätigungssignal an das Gatter 113.
Am Ende des Sprachsignals ändert sich das Ausgangssignal des Detektors 111,
sperrt das Gatter 113 und liefert außerdem ein Betätigungssignal DS an
die Gatter 122A, 126 und 132. Ein zur Verwendung in der Schaltungsanordnung nach Fig. IA geeigneter Sprachintervalldetektor ist in der
US-Patentschrift Nr. 3 909 532 (30. Sept.1975) offenbart.
vom Wandler 105 an den Eingang eines LPC-Generators 122 (Generator
für lineare Vorhersagekoeffizienten) in Fig, IA und den Eingang eines
VUS-Prozessors 115 (Stimmhaft-Stimmlos-Ruhe-Prozessor von voicedujivoiced-silence processor) in Fig. IA angelegt. Im LPC-Generator
werden die Abtastwerte s in Blöcken oder Rahmen von 200 codierten
809822/0988
andere Rahmenanordnungen benutzt werden können. Eine lineare Vorhcrsageanalyse des abgetasteten Sprachsignals erfolgt entsprechend
der Gleichung
8n
(D
Darin bedeuten η = 1, 2 ... ., 200 und ρ die Anzahl von Polen
des Vorhersage-Analysemodells. Die lineare Vorhersageanalyse beruht auf einem bekannten Allpol-Linearvorhersage-Filtermodell, das beschrieben
ist in einem Aufsatz "Speech Analysis and Synthesis by Linear Prediction of the Speech Wave" von B.S. Atal urid S.L. Hanauer in
Journal of Acoustic Society of America, Band 50, 1971 , Seiten 637-655.
Für die Zwecke der Spracherkennung wurde gefunden, daß ein 12-Pol-Filtermode11 brauchbar ist. Es können jedoch auch andere
Polanordnungen benutzt werden.
Die linearen Vorhersagekoeffizienten α (i) sind die Koeffizienten des
abgetasteten Sprachsignals s entsprechend der Darstellung in Gleichung (I). Für das in Fig. Π benutzte 12-Pol-Filtermodell werden
die Koeffizienten a(l) bis a(12) im LPC-Generator 122 in jedem
Rahmen von 200 Abtastwerten durch das Au to-Korrelationsverfahren
der linearen Vorlieisagcanalysc gemäß Gleichungen (2) und (3)
809822/0988
erzeugt:
1Ic -J1Vk8D M, 2,—.P
Ϊ_ ν of α Xy ν—ί ο «% cw
Dabei ist N die Anzahl von Abtastwerten in jedem Rahmen (N = 200) und ρ = 12. In bekannter Weise werden die linearen Vorhersagekoeffizienten
a(i) gemäß Gleichung (1) so gewählt, daß das mittlere Vorhersagefeh lerquadrat entsprechend Gleichung Q) und (3) ein
Minimum wird. Wie in Gleichung (2) angegeben, erfolgt dies durch eine Autokorrelationsanalyse des Blocks von Abtastsignalen s
bis s ^.. Die sich ergebenden linearen Vorhersagekoeffizienten
a(l) bis a (12) werden für jeden Rahmen von N Sprachabtastwerten gewonnen.
Der LPC-Generator 122 kann der Vorhersageparameterrechner sein, der in der US-Patentschrift 3 631 520 (28. Dez. 1971) gezeigt und
beschrieben ist. Dieser Rechner erzeugt lineare Vorhersage parameter
entsprechend dem bekannten Covarianz-Verfahren. Alternativ kann irgendein Rechner verwendet werden, beispielsweise der
809822/0988
PDP 11 oder Nova 800 oder vorzugsweise ein Microprozessor, beispielsweise
der Data-General-Micro-Nova-Rechner, lntel-8080-Microprozessor
oder der Motorola-6800-Microprozessor, auf dem das Fortran-Programm
gemäß Anhang A eines Aufsatzes "Formant Trajector Estimation from α Linear Least Squared Inverse Filter Formulation" von John D. Markel,
Speech Communications Research Laboratory, Inc., Monograph No. 7, Okt,
1971, benutzt werden kann. Dieses Fortran-Programm beruht auf dem bekannten Autokorrelationsverfahren. Jeder Rahmen hat eine Dauer von 20 ms
und , wie man leicht erkennt, die Koeffizienten a(l) bis a (12) des Rahmens
stehen am Ausgang des Generators 122 am Ende des Rahems der entsprechenden Abtastwerte s. bis S^ zur Verfügung. Die Koeffizientensignale
a(l) bis a(12),die entweder nach dem Covarianz- oder dem Autokorrelationsverfahren
abgeleitet worden sind, lassen sich in der Anordnung nach Fig. IA und
1 B verwenden.
Fig. 11 zeigt das Blockschaltbild eines bekannten Mikroprozessors, der
als LPC-Signalgenerator 122 in Fig. IA verwendet werden kann.
Gemäß Fig. 11 erfolgt die Steuerung durch eine Speicherprogrammsteuerung
1109, die einen Festwertspeicher (ROM) aufweist, der so organisiert ist, daß er mit der Fortran-Programm-Liste gemäß Anhang A
des oben angegebenen Aufsatzes von Markel mit Hilfe eines bekannten
809822/0988
275327V 27
Microprozessor-Fortrcm-Compilers zusammenarbeiten kann. Ein
Schreib-Lese-Speicher (PAM) 1107 nimmt Dateninformationen
von einer Speicherdirektzugriffseinrichtung Π05 und einem Schniltstellen-AcJa
ρ te r 1101 über einen Datenbus 1124 und außerdem Adresseninformalionen
von einer Speicherdirektzugiiffsschaltung 1105 und einer
Prozessoreinheit 1103 über einen Adressenbus 1122 auf. Der Prozessor
1103 rechnet entsprechend einem in der Speicherprogrammsteuerung
1109 permanent gespeicherten Programm. Die Steuerung des
Microprozessors erfolgt durch die Prozessoreinheit 1103 über einen Steuerbus 1120, der mit der Speicher-Direktzugriffsschaltung 1105,
dem Schreibe-Lesespe icher 1107, dem Festwertspeicher 1109 der
Speicherprogrammsteuerung und dem Schnittstellen-Adapter 1101
verbunden ist.
Der Schnittstellen-Adapter 1101 nimmt Eingangssteuerinformationen und Daten von Eingangsleitungen 1140 und 1142 zur Verwendung durch
den Schreib-Lesespeicher 1107 und die Prozessoreinheit 1103 auf.
Außerdem überträgt der Adapter 1101 Ausgangsdaten und Ausgangssteuerdaten
vom Schreib-Lesespeicher 1107 und der Prozessoreinheit 1103 zu Ausgangs leitungen 1150 und 1152. Der Microprozessor und
seine Bestandteile sind beschrieben in " Technical Reference Micronova
809822/0988
Computer Systems- 014-000073-00", "User's Manual Programmers
Reference Micronova Computers 015-000050-00" und "Technical
Reference Micronova Integrated Circuits 014-000074-00" ,jeweils
Copyright 1975 von Data General Corporation, oder in "Microprocessor
Applications Manual" von Motorola Semiconductors Products, Inc., veröffentlicht
bei McGraw Hill Book Company, Copyright 1975 von Motorola
Inc.
In dem als LPC-Generator 122 verwendeten Microprozessor werden
die sequentiellen Sprachabtastcodierungen s vom Wandler 105
über das Gatter 113 an die Leitung L40 in Fig. 11 gegeben und zum
Schnittstellen-Adapter 1101 geführt. Ein Signal A vom SprachintervaI!detektor
111 wird zum Schnittstellen-Adapter 1101 über die Leitung 1142 gegeben, so daß der Microprozessor gemäß Fig.
während des Sprachintervalls LPC-SignaIe erzeugt. Diese Signale
werden vom Schnittstellen-Adapter 1101 zum LPC-Speicher 124 in
Fig. 1 A gegeben und zwar über die Leitung 115) Rahmen für Rahmen.
Am Ende jedes Rahmens des Sprach interval Is ist eine Gruppe von
12 Koeffizientensignalen a(l) bis a(12) unter Steuerung von Rahmentaktimpulsen PF vom Taktgeber 187 vom Generator 122 an den Sprach-
809822/0988
intervall-LPC-Spoicher 124 gegeben worden. Auf diese Weise werden
die LPC-Signale des Sprach interval Is, die die Kette von identifizierten
Ziffern bilden, gewonnen und gespeichert. Der Speicher 124 kann ein Schieberegister sein, das eine Gruppe von 12 LPC-Signalen für jeden
Rahmen des Sprach interval Is aufnimmt, das aus der Kette von identifizierten
Ziffern besteht. Der erste und letzte Rahmen des Sprachintervalls kann für eine Bezugnahme durch einen Identifiziercode
im Schieberegisterspeicher 124 markiert werden. Am Ende des Sprach Intervalls stehen die LPC-Signale der Gruppe von Übungsziffern
zur Bildung von Bezugskennwertsignalen zur Verfügung.
Zur Verwendung der LPC-Signale im Speicher 124 für die Ziffernerkennung
ist es erforderlich, das Sprachsignal in seine Komponentenziffernintervalle
aufzuteilen. Außerdem ist es erforderlich, das Auftreten des stimmhaften Abschnitts jedes Ziffernintervalls zu identifizieren.
Die Ziffernaufteilung wird auf der Grundlage einer VUS-(Stimmhaft-Stimmlos-Ruhe)Bereichskontur
des Sprachsignals durchgeführt. Die VUS-Kontur identifiziert jeden Rahmen des Sprachsignals als stimmhaften,
stimmlosen oder Ruhe-Rahmen. Eine Schaltung zur Erzeugung der VUS-Kontur, die auf dem Aufsatz "Pattern Recognition Approach to
Voiced-Unvoiced-Silence Classification with Application to Speech
809822/0988
Recognition" von B.S. Aful und L.R. Rabiner in IEEE Transactions
an Acoustics, Speech and Signal Processing, Band ASSE-24, Nr. 3, Juni 1976,
Seiten 201-212 beruht, ist in Fig. 2 gezeigt.
Gemäß Fig. 2 werden die Sprachabtastwerte s. bis s„„ jedes aufeinanderfolgenden
Rahmens vom Gatter 113 an Arithmetik-Generatoren 201, 203, 205, 207 und 209 angelegt. Der Generator 201 weist eine
bekannte Arithmetik-Einheit auf, die das Signal f. entsprechend der folgenden Gleichung bildet
1 η 2 f„ ■ 10 log,.,, (e + — Σ .s ) (4)
Dabei bedeutete eine kleine Konstante, die hinzugefügt wird, um die Berechnung von loglf)0 zu verhindern. Da €.« als der quadratische
Mittelwert der Sprachabtastwerte ist, stellt das Signal f die logarithmische
Energie E_ des Rahmens dar, der die Sprachabtastwerte s.
bis S^n- enthält. Der Generator 203 weist Zähl- und Logikschaltungen
auf und bildet das Signal f~ , das die Anzahl von Nullinienkreuzungen
des Rahmens mit den Sprachabtastwerten S1 bis s„-_. darstellt.
Der Generator 205 weist eine Arithmetik-Einheit auf, die das
809822/0988
Signal f_ bildet, das den normalisierten Autokorrelations-Koeffizienten
darstellt, und zwar entsprechend der Gleichung
=1
S Vn-1
Der Generator 207 weist eine Arithmetik-Einheit auf, die das Signal
f. erzeugt, das den normalisierten Vorhersagefehler des Rahmens
darstellt, und zwar entsprechend der Gleichung
a(k)$(0,k)
1 η
Dabei }>(i,k)«jj ηΣ^ s n.i Sn-k der (i,k) Term der Covarianz
• u
Matrix der Sprachabtastwerte, und «t (k)'s sind die Vorhersage-Koeffizienten,
die durch Minimieren des mittleren quadratischen Vorhersagefehlers gemäß folgender Gleichung gewonnen werden:
Der Generator 209 weist eine Arithmetik-Einheit auf, die den ersten
LPC-Koeffizienten des Rahmens entsprechend Gleichung (I) bildet.
809822/0988
Der Rechner 211 erzeugt ein Signal Y., das die Korrespondenz
zwischen den Kennwertsignalen f. bis f_ und einer Gruppe von ähnlichen Bezugskennwerten darstellt, die durch eine manuelle Aufteilung
natürlicher Sprache in Ruhebereiche, stimmlose Bereiche und stimmhafte Bereiche gewonnen worden sind. Die manuell erhaltenen
Kennwerte werden in den VUS-Bezugsspeicher 222 gegeben. Ein Vektor
F1 =(fr f2, f3, f4, y (8)
wird im Ruhedistanzrechner 211 gebildet und mit den manuell gewonnenen
Übungskennwerten für den Ruhebereich M verglichen, die im Bezugsspeicher 222 gespeichert sind. Der Vergleich erfolgt
auf der Grundlage der Gleichung
Dabei bedeuten M den mittleren Bezugswert für Ruhe und A
S S
ist die Bezugs-Covarianz-Matrix für Ruhe, die im Bezugswertspeicher
222 gespeichert ist.
Auf ähnliche Weise liefert ein Stimmlos-Distanz-Rechner 213 einen
Vergleich des Vektors F. mit den gespeicherten, manuell gewonnenen
809822/0988
Kennwerten für stimmlose Sprachbereiche im Speicher 222.
Am Ausgang des Stimmlos-Distanz-Rechners 213 wird ein Signal
wie folgt geliefert:
Cl(F1 ,Mu) -
Dabei bedeuten M den mittleren Bezugsvektor für stimmlose Sprache
und Λ die Bezugs-Covarianz-Matrix für stimmlose Sprache, die im
Bezugsspeicher 222 gespeichert ist. Das Signal Y- stellt die Korrespondenz zwischen den Rahmenkennwerten f. bis f_ und den gespeicherten Kennwerten M und A aus dem Speicher 222 dar.
υ "u r
Der Stimmhaft-Distanz-Rechner 215 liefert auf entsprechende Weise
ein Signal
T3 - 0(P1^) . (F1-M )(\ ^fV _M ^t (U)
Dieses Signal stellt die Korrespondenz zwischen den Kennwerten f.
bis f_ und den gespeicherten Kennwerten für stimmhafte Sprache M
und Λ dar, die aus einer manuellen Analyse gewonnen und in den
Speicher 222 gegeben worden sind. Jeder der Distanzrechner und die
809822/0988
arithmetischen Einheiten gemäß Fig. 2 können einer der vorgenannten
Mikroprozessoren gemäß Fig. 11 sein.
Die Signale Y., Y und Y werden von den Rechnern 211, 213 und 215
an den Minimum-Distanz-Wähler 217 gegeben.
Der Distanzwähler 217 weist bekannte logische Schaltungen auf und wählt das minimale Distanzsignal aus Y., Y- und Y aus, das dann an
den Kontur-Code-Generator 219 gegeben wird. Aufgrund dieses Signals
erzeugt dann der Generator 219 einen Ruhecode, einen Stimmlos-Code
und einen Stimmhaft-Code und überragt diese Codierungen an einen
VUS-Konturspeicher 117. Zusätzlich zu der VUS-Kontur des Sprachsignals
im Speicher 117 wird das f. -Signal für jeden Rahmen von 20 ms, das die
logarithmische Energie des Rahmens darstellt, in den Energie-Konturspeicher
120 aus dem Generator 201 gegeben.
Am Ende des Sprach interval Is enthält der VUS-Konturspeicher 117 die
Klassifizierungssignale der Sprachsigna I rahmen, und der Energie-Konturspeicher 120 enthält Signale, die den Energieinhalt jedes der Sprachsignalrahmen
darstellen. Jeder dieser Speicher kann ein Schieberegister aufweisen, das eine genügend große Zahl von Stufen besitzt, um die VUS-Klassifizierung
809822/0988
der Sprachintervallrahmen (typisch 200 Bits) oder Signale zur Darstellung
der Energie der Sprachintervallrahmen zu speichern.
Vorzugsweise kann der VUS-Prozessor 115 einen der oben genannten
Mikroprozessoren gemäß Fig. 11 aufweisen, dereinen Festwertspeicher
zur Speicherprogrammsteuerung besitzt, welcher entsprechend dem Fortran-Programm gemäß Anhang 1 aufgebaut ist. Die sequentiellen
Sprachabtastwert-Codierungen s vom Wandler 105 werden zum Schnittstellen-Adaptermodul 1101 Über das Gatter 113 und die Leitung 1140
unter Steuerung der Prozessoreinheit 1103 gegeben. Das Steuersignal A wird vom Sprachintervalldetektor 111 über die Leitung 1142 zum
Schnittstellen-Adapter 1101 Übertragen, um den VUS-Mikroprozessor
während des festgestellten Sprachintervalls zu betätigen. Der Mikroprozessor gemäß Fig. 11, der im VUS-Prozessor 115 benutzt wird,
erzeugt Rahmen für Rahmen ein Stimmhaft-, Stimmlos- oder Ruhe-Klassifizierungssignal . Die Klassifizierungssignalfolge wird über die
Leitung 1150 zum VUS-Konturspeicher 117 übertragen. Entsprechend
werden die Energiesignale aus dem Mikroprozessor gemäß Fig. 11 über
die Leitung 1152 vom Schnittstellen-Adapter 1101 zum Energie-Konturspeicher
übertragen.
809822/0988
Am Ende des Sprachintervalls wird das Gatter 113 durch den
Sprachintervalldetektor 111 abgeschaltet, und es wird vom Detektor 111 ein Betätigungssignal DS an die Gatter 122, 126 und
132 angelegt. Das Gatter 122A verbindet den Ausgang des VUS-Konturspeichers
117 mit der Ziffernunterteilungseinrichtung 128, und
das Gatter 126 verbindet den Ausgang des Energie-Konturspeichers 120 mit der Ziffernunterteilungseinrichtung.
Die in Fig. 3 dargestellte Ziffernunterteilungseinrichtung 128 unterteilt das Sprachsignal in seine Ziffernintervallkomponenten.
Die Ziffernunterteilung erfolgt durch Lieferung einer Rahmennummer,
die dem Anfang des Sprachsignals entspricht, und der derjenigen Rahmennummern, welche dem Ende der stimmhaften
Bereiche der Ziffern entsprechen. Wenn eine Ziffer keine stimmlosen oder Ruhebereiche aufweist, so wird das Ziffernende aus dem
Energie-Kontursignal gewonnen, das Minima an den Endpunkten
der nur stimmhaften Ziffer besitzt.
Gemäß Fig. 3 wird das vom Sprachintervalldetektor 111 gelieferte
Impulssignal SS über die Verzögerungseinrichtung 302 an das ODER-Gatter 305 und außerdem an den Rahmenabtaster 301 angelegt.
809822/0988
Der Abtaster 301 tastet den VUS-Konturspeicher 117, der in Fig. 3
wiederum gezeigt ist, ab, welcher die aufeinanderfolgenden Rahmenklassifizierungssignale an den Detektor 303 fUr das Ende des stimmhaften
Bereichs gibt. Während der Abtastung behält der Rahmenzähler 307, der auf Taktsignale PF anspricht, eine Aufzeichnung des abgetasteten
Rahmens. Das Ausgangssignal des Zählers 307 wird zusammen mit dem Ausgangssignal des ODER-Gatters 305 an das Gatter 309 angelegt. Zu
Beginn des Abtaste ns unter Ansprechen auf das Abtaststartsignal SS wird also das Gatter 309 betätigt und ein Ziffemgrenzspeicher312
adressiert, so daß derjenige Rahmen, welcher dem Anfang des Sprachsignals entspricht, dort identifiziert ist. Ein Endrahmen fUr den stimmhaften Bereich im Sprachsignal wird im Detektor 303 für das Ende des
stimmhaften Bereichs festgestellt, der ein Ausgangssignal aufgrund eines Übergangs von einem stimmhaften Rahmen auf entweder einen stimmlosen
Rahmen oder einen Ruherahmen liefert. Beim Auftreten eines solchen Übergangs wird das Gatter 309 betätigt und der durch den Zähler 307
definierte (X>ergangsrahmen im Zifferngrenzspeicher 312 identifiziert.
Das Ausgangssignal des Detektors 303 wild außerdem an den Eingang
eines Ziffemgrenzzählers 322 gegeben, der zu Beginn der Abtastung
des VUS-Konturspeichers 117 auf null zurückgestellt wird.
809822/0988
Am Ende der Abtastung des VUS-Konturspeichers erzeugt der Rahmenabtaster
301 das Signal ESl derart, daß der Stand des Zählers 32 über das Gatter 322a an einen Eingang des Komparator 324 übertragen wird.
Das andere Eingangssignal des Kornparators 324 ist ein codiertes Signal,
das sie Anzahl der Ziffern plus eins, also n+1, in der Ziffernkette
des Sprachsignals darstellt. Wenn alle Ziffern in der Kette aufgeteilt worden sind, ist das Ausgangssignal des Zählers 322 gleich n+1, und es
wird ein Betätigungssignal vom Komparator 324 zur Leitung 327 gegeben. Wenn jedoch der Zählwert des Zählers 322 größer als n+1 ist, so ist
die Ziffernaufteilung fehlerhaft. In diesem Fall wird ein Betätigungssignal ER von der Leitung 325 zur Steuerung 180 gegeben, um anzuzeigen,
daß das Sprachsignal wiederholt werden muß.
Wenn eine oder mehrere Ziffern im Sprachsignal den Übergang von einem stimmhaften Bereich auf einen stimmlosen oder einen Ruhe-Bereich
nicht enthalten, so ist das Ausgangssignal des Zählers 322 kleiner als n+1. In diesem Fall wird ein Signal vom Komparator 324 zum
Rahmenabtaster 317 gegeben. Dieser tastet dann den in Fig. 3 gezeigten
Energie-Konturspeicher 120 ab. Das Ausgangssignal des Energie-Konturspeichers
120 wird an einen Minimum-Detektor 319 gegeben, der die Schaltungsanordnung gemäß Fig. 10 enthalten kann und der ein
809822/0988
Ausgangssignal dann liefert, wenn der Minimalwert der Energiekontur
erreicht ist. Die Rahmennummer für den Minimalwert wird vom Detektor 319 zur Abtrennlogik 320 gegeben.
Die Logik 320 liefert ein Ausgangssignal an das ODER-Gatter 305 und den Zifferngrenzzähler 322, wenn der Minimalwertrahmen
außerhalb eines vorbestimmten Zeitintervalls, gerechnet vom letzten festgestellten Minimalwertrahmen lokalisiert wird. Der von der Logik
320 gelieferte Mini ma I wertrahme η wird in einem Zifferngrenzspe icher
312 identifiziert, und der Zifferngrenzzähler 322 wird weitergeschaltet. Am Ende der Abtastung des Energie- Konturspeichers erzeugt der Rahmenabtaster
317 das Signal ES2, so daß die Anzahl der im Zähler 322 gespeicherten Zifferngrenzpunkte mit der Anzahl von Ziffern in der
Kette verglichen werden kann. Wenn die Anzahl der Grenzpunkte gleich n+1 ist, so gibt der Komparator 324 über die Leitung 327 ein
Betätigungssignal an den Detektor 130 für den stimmhaften Bereich einer Ziffer in Fig. IA. Wenn die Anzahl von Grenzpunkten kleiner
als n+1 ist, so wird die Abtastung der Energie-Kontur wiederholt, um
den zweiten Minimalwertrahmen festzustellen, der in den Speicher 312 gegeben wird. Die Abtastung des Energie-Konturspeichers wird
: wiederholt, bis die Anzahl von Grenzpunkten gfeich n+1 ist.
809822/0988
U-O
Insgesamt wird das Sprachsignal, das eine vorbestimmte Anzahl von Ziffern enthält, in seine Ziffernkomponentenintervalle aufgeteilt,
so daß die linearen Vorhersagekennwerte gewählter Bereiche jeder Ziffer im Ziffern-LPC-Speicher 135 gespeichert werden können.
Der Zifferngrenzspeicher 312 kann ein Schieberegister aufweisen, in welchem Zifferngrenzrahmen durch einen speziellen Grenzcode
identifiziert werden, während die anderen Rahmen als zifferninterne Rahmen identifiziert werden. Der Detektor 130 für den stimmhaften
Bereich einer Ziffer in Fig. IA stellt den stimmhaften Bereich jeder
Ziffer fest, um die Eingabe der LPC-Signale für den stimmhaften
Bereich einer Ziffer in den Speicher 135 für LPC-Signale einer identifizierten Ziffer einzugeben. Der in Fig. 4 gezeigte Detektor
130 stellt außerdem die Anzahl von Rahmen NV in jedem stimmhaften Intervall einer aufteilten Ziffer fest. Nachdem die Ziffern des Sprachsignals
aufgeteilt und die Abschnittsgrenzen im Zifferngrenzspeicher 312 Identifiziert sind, wird der identifizierte Zifferncode der ersten
Ziffer des Sprachsignals als codiertes Signal B vom Ziffernidentifizierer
109 zum Speicher 135 übertragen. Das codierte Signal B adressiert einen im voraus zugeordneten Abschnitt des Speichers 135, so daß die LPC-Signale
der identifizierten, aufgeteilten Ziffer des Sprachsignals
809822/0988
vom Speicher 124 in den der identifizierten Ziffer zugeordneten
Abschnitt des Speichers 135 Übertragen werden können.
Das Ausgangssignal des VUS-Konturspeichers 117 wird an einen
Stimmhaft-Bereichdetektor 420 im Detektor 130 gegeben und ein Betätigungssignal vom Detektor 420 während des stimmhaften
Bereichs der identifizierten Ziffer in der Übungsbetriebsweise zum Gatter 132 geliefert. Zu diesem Zeitpunkt wird außerdem das Ausgangssignal des Sprachintervall-LPC-Speichers 124 zum Gatter 132 gegeben.
Die LPC-Signale, die dem stimmhaften Bereich der identifizierten Ziffer entsprechen, werden Über das Gatter 132 in den Speicher
Übertragen, der durch das codierte Signal B vom Ziffemidentifizierer
109 während des stimmhaften Bereichs der identifizierten Ziffer in
der Übungsbetriebsweise adressiert wird. Auf diese Weise werden
die Gruppen vorr LPC-Signalen fUr die Rahmen mit stimmhaften Bereichen des jeweils identifizierten Bereichs für eine spätere Verwendung
bei der Bildung von Bezugsgruppen von LFC-Koeffizientensignalen
während der Bezugsbetriebsweise gespeichert.
Während die LPC-Signale fUr den stimmhaften Bereich vom Speicher
124 zum Speicher 135 Übertragen werden, wird das Ausgangssignal des
809822/0988
des Zifferngrenzspeichers-312 auf der Leitung 316 an den Grenzrahmendetektor
412 gegeben, der unter Ansprechen auf einen Grenzrahmencode vom Speicher 312 ein Ausgangssignal liefert. In dem Intervall
zwischen festgestellten Grenzrahmen zählt der Rahmenzähler 414 die Anzahl von Rahmen (Nv) des stimmhaften Bereichs des Ziffernintervalls
entsprechend dem Ausgangssignal des Detektors 420. Wenn ein Grenzrahmen für die identifizierte Ziffer festgestellt
wird, so wird das Gatter 416 betätigt, derart, daß ein Signal Nv
entsprechend der Anzahl von Rahmen im stimmhaften Intervall der Ziffer vom Zähler 414 über die Gatter 416 und 418 an den Speicher
135 gegeben und die Dauer des stimmhaften Intervalls der identifizierten Ziffer aufgezeichnet wird. Der Zähler 414 wird dann durch das Ausgangssignal
des Detektors 412 zurückgestellt. Das Signal Nv wird vom Ausgang des Gatters 416 über das Gatter 418 übertragen, das nur während der
Ubungsbetriebsweise unter Ansprechen auf das Signal TR betätigt wird. Auf diese Weise werden nur die Signale Nv für identifizierte Ziffern
der Übungsgruppen in den Speicher 135 gegeben. Wenn sowohl die LPC-Signale des stimmhaften Bereiches der identifizierten Ziffer als auch das
Signal Nv, das der Anzahl von Rahmen (Zeitdauer) des stimmhaften Intervalls entspricht, im Speicher 135 aufgenommen sind, so liefert
der Impulsgenerator 422 das Signal ESV, das an den Ziffernidentifizierer
809822/0988
109 gegeben wird und bewirkt, daß dessen Ausgangssignal sich
ändert und der nächsten identifizierten Ziffer des Sprachsignals entspricht.
Wie mit Bezug auf die vorhergehende identifizierte Ziffer beschrieben,
Überträgt der Detektor 130 fUr den stimmhaften Bereich der Ziffer
die LPC-SignaIe des stimmhaften Bereichs der neuen identifizierten
Ziffer in einen vorgeschriebenen Abschnitt des Speichers 135, der durch das neue codierte Signal B adressiert wird. Das Signal
Nv fUr die neue Ziffer wird ebenfalls in den Abschnitt für die identifizierte Ziffer des Speichers 135 Übertragen. Am Ende der letzten
Ziffer des Sprachsignals wird im Speicher 135 das Signal El erzeugt
und an den Sprachintervalldetektor 111 gegeben, um das Signal DS zu beenden, so daß das System gemäß Fig. 1 ein neues Sprachsignal
bearbeiten kann und außerdem an die Steuerung 180 angelegt, um die Übungsbetriebsweise zu beenden. Nach einer vorbestimmten
Anzahl von Sprachsignalen, die je aus einer Kette von spezifizierten Ziffern bestehen, ist eine ausreichende Menge von Daten im Speicher
135 abgespeichert, so daß die Bezugsgruppen fUr jede mögliche, zu identifizierende Ziffer gebildet werden können. Zu diesem Zeitpunkt
809822/0988
kann ein der Bezugsbetriebsweise entsprechendes Betriebsweisensignal
an den Betriebsweisendetektcr 178 gegeben werden, der wiederum veranlaßt, daß die Steuerlogik 180 in ihre Bezugsbetriebsweise
gebracht wird.
In der Bezugsbetriebsweise wird eine Bezugsgruppe von Signalen
für jede identifizierte Ziffer im Speicher 135 dadurch gebildet, daß die Übungsgruppen-LPC-Signale für jede identifizierte
Ziffer zur mittleren Dauer des stimmhaften Bereichs für die Ubungsketten von identifizierten Ziffern zeitlich ausgerichtet
werden. Ein Vektorsignal, das die Mittelwerte der zeitlich ausgerichteten LPC-SignaIe jedes Rahmens darstellt, wird erzeugt und
eine Covarianz-Matrix bezüglich der zeitlich ausgerichteten LPC-Signale dieses Rahmens gebildet. Die Gruppe von Mittelwerten
und Varianz-Werte η für jede identifizierte Ziffer wird zur Verwendung
bei der Erkennung der Ziffern einer unbekannten Ziffernkette während der nachfolgenden Erkennungsbetriebsweisen gespeichert,
In bekannter Weise ist das Ziffernintervall einer bestimmten Ziffer
in hohem Grade variabel und hängt vo nden Eigenheiten des Sprechers, der die Übungsziffern kette spricht, sowie von der Position der Ziffer
in der Übungsgruppe ab. Zur Bereitstellung einer Bezugsgruppe
809822/0988
fUr jede identifizierte Ziffer wird erfindungsgemäß ein Signal entsprechend
der mittleren Anzahl von Rahmen im stimmhaften Bereich der Ziffer erzeugt, und zwar entsprechend der Gleichung
- "A. 1^d 3"η^'···· (12)
Darin bedeutet Nv die Anzahl von Rahmen im stimmhaften Bereich der
j-ten Wiederholung der identifizierten Ziffer.
Der Mittelwert Nv wird in der in Fig. 5 gezeigten Mittelwertbildungseinrichtung
142 für den stimmhaften Bereich gebildet. Beim Start der
Bezugsbetriebsweise wird die Ziffernfolgeschaltung 182 in Fig. IB
durch das Steuersignal REF aus der Steuerung 180 zurückgestellt, um
die erste identifizierte Ziffer zu adressieren. Unter Ansprechen auf das Signal REF wird das Gatter 183 betätigt, so daß das codierte
Singal IDl, das die erste identifizierte Ziffer darstellt, an den
Adressenspeicher 135 gegeben wird. Das Signal IDl bewirkt, daß die Signale Nv der ersten identifizierten Ziffer aus dem Speicher 135 an das
Gatter 141 und die Leitung 140 gegeben werden. Das Gatter 141 wird durch das Signal REF betätigt, wodurch die Signale Nv an das Schieberegister
501 in der Mittelwertbildungseinrichtung 142 fUr den stimmhaften
809822/0988
Bereich angelegt werden. Das Schieberegister 501 (Fig.5)
speichert zeitweilig die Folge von J ankommenden Nv-Signale.
Diese Nv-Signale werden nacheinander aus dem Schieberegister 501
über das Gatter 503 zum Addierer 505 gegeben. Vor dem Intervall, in welchem das erste Nv-Signal an einem Eingang des Gatters 503
erscheint, wird das Schieberegister 507 auf null zurückgestellt.
Auf diese Weise wird das erste Nv-Signal direkt in das Schieberegister
507 eingeschoben. Die nachfolgenden, an den Addierer 505 angelegten Nv-Signale werden zu der zeitweilig im Schieberegister 507 gespeicherten
Teilsumme addiert.
Unter Ansprechen auf jedes, an das Gatter 503 angelegte Nv-Signal erzeugt der Impulsgenerator 520 einen Impuls, der dem Zähler 522
zugeführt wird. Der Zähler 522 zählt die Anzahl von Nv-Signalen.
Wenn der vorbestimmte Zählwert J im Zähler 522 erreicht ist, so wird ein Ausgangssignal über die Verzögerungseinrichtung an das
Gatter 511 angelegt. Dieses Gatter ist dann betätigt, so daß die
Summe von Nv-Signalen aus dem Schieberegister 507 an den Teiler gegeben wird, in welchen die Summe durch den vorbestimmten, im
Zähler 522 gespeicherten Zählwert J dividiert wird. Zu diesem Zeitpunkt wird das Gatter 509 durch ein Signal EC von der
809822/0988
ta
Verzögerungseinrichtung 523 gesperrt, wodurch die im Schieberegister 507 gespeicherte Gesamtsumme gelöscht wird. Das Ausgangssignal des Teilers 513, nämlich ein Code, der die Anzahl Nv von
Rahmen im mittleren stimmhaften Bereich für die identifizierte Ziffer darstellt, wird vom Ausgang des Teilers 513 zum Speicher 515 übertragen.
Die LPC-Signal-Ausrichtschaltung 144 in Fig. IA richtet die J-Wiederholungen der gleichen Ziffer zeitlich aus,so daß das gleiche
Sprachereignis zum gleichen Zeitpunkt für alle Wiederholungen der identifizierten Ziffer auftritt. Nachdem die Sprachereignisse zeitlich
ausgerichtet sind, können die Bezugskennwerte Tür die identifizierten Ziffern aus den im Speicher 135 gespeicherten Übungsgruppen abgeleitet werden. Fig. 6 zeigt eine Interpolator-Tiefpaßfilter-Dezimator-Anordnung bekannter Art, die als LPC-Signal-Ausrichtschaltung 144
arbeiten kann.
Entsprechend Fig. 6 wird das Nv-Signal aus dem Speicher 514 der
Mittelwertbildungseinrichtung 142 für den stimmhaften Bereich über die Leitung 517 in den Nv-Speicher 601 eingegeben, und das Nv-
809822/0988
Signal, das der Dauer des stimmhaften Bereichs für die erste identifizierte
Ziffer der Übungsgruppe entspricht, wird vom Speicher für die identifizierten Ziffern über das Gatter 143 an den Nv-Speicher
603 angelegt. Das Ausgangssignal des Speichers 601 wird an den Interpolator 605 und das Ausgangssignal des Speichers 603 an den
Dezimator 610 angelegt. Die LPC-Signale a(n). der identifizierten
Ziffer werden sequentiell vom Speicher 135 über das Gatter 141a
und die Leitung 600 zum Interpolator 605 übertragen.
Die erste Gruppe von LPC-Signalen besteht aus der Rahmenfolge
der ersten LPC-Signale des identifizierten stimmhaften Bereichs, d.h. a(l)., a(l)„, .... a(l) , wobei die Indices sich auf die Rahmennummer
des stimmhaften Intervalls beziehen. Der Interpolator 605 vergrößert die Anzahl von Rahmenabtastwerten der LPC-Signale auf
(N/).(Nv). In bekannter Weise geschieht dies durch Einfügen von
Abtastwerten mit dem Wert null zwischen jeweils aufeinander folgende Rahmen-LPC-Signale der Gruppe.
Das Ausgangssignal des Interpolators 605 gelangt an ein Tiefpaßfilter
607, das ein stückweise lineares Signal entsprechend der
809822/0988
Ψ*
Ausgangsfolge des Interpolators 605 erzeugt. In bekannter Weise
besteht das stückweise lineare Signal aus Linienabschnitten, die die Werte von a(1).-Abtastwerten vom Interpolator 605 verbinden.
Diese stückweise lineare Folge wird zum Dezimator 610 gegeben, der die Anzahl von Rahmenabtastwerten um den Faktor N ver-
ringert. Das sich ergebende Ausgangssignal des Dezimators 610
besteht aus Nv Abtastwerten a'(l)., a(l) ·. · aO)ri en*~
sprechend den Nv ersten linearen Vorhersagekoeffizientensignalen a(l)w °0)j · · · · qO)kj / die an den Interpolator 605 angelegt
sind. Auf diese Weise wird die Anzahl von Rahmen des stimmhaften
Bereichs der ersten LPC-Signale von Nv auf Nv geändert, so daß
die LPC-Signale auf den Mittelwert der Rahmen des stimmhaften Bereiches ausgerichtet werden. Es sei beispielsweise angenommen,
daß eine in der Übungsbetriebsweise gesprochene Ziffer in einer identifizierten Sprachfolge ein stimmhaftes Intervall (Nv) von 50
Rahmen besitzt und daß das mittlere stimmhafte Intervall(Nv) für die
J Abtastwerte der gesprochenen Ziffer 40 Rahmen beträgt. Der Interpolator 605 fügtNu11-Abtastwerte in die Eingangsabtastfolge a(l).,
a(l)2 ··· a0)co derart ein, daß die Gesamtzahl von Rahmenabtastwerten auf (50) · (40) erhöht wird. Das Tiefpaßfilter 607
809822/0988
liefert ein stückweise lineares Signal, das den ersten linearen Vorhersagekoeffizienten über die Rahmen des stimmhaften Intervalls
der Ziffer darstellt. Der Dezimator 610 verringert die Anzahl von Abtastwerten um den Faktor 50, wodurch man 40 in gleichem Abstand
angeordnete Abtastwerte des stückweise linearen Signals erhält. Auf diese Weise werden alle linearen Vorhersagekoeffizienten des
stimmhaften Intervalls für jede gesprochene Ziffer in der Übungsbetriebsweise normalisiert oder ausgerichtet zum mittleren stimmhaften Intervall
(Nv) für die identifizierte gesprochene Ziffer. Demgemäß liefert unabhängig von der Anzahl von Rahmen (Nv) jedes individuellen
Abtastwertes einer gesprochenen Ziffer die Ausrichteinrichtung eine Folge von Nv (z.B.40) Abtastwerten für jeden linearen Vorhersagekoeffizienten,
die den Koeffizienten über sein stimmhaftes Intervall darstellen.
Die sequentiellen zweiten LPC-Signale 0(2J1, a(2)„ ... a(2)|(,
werden dann an den Interpolator 605 gegeben, so daß die Anzahl von Rahmenabtastwerten der zweiten LPC-Signale ebenfalls auf
(Nv) . (Nv) geändert wird. Nach einer Tiefpaßfilterung und
Dezimierung erhält man zeitlich ausgerichtete Abtastwerte d(2).
Dezimierung erhält man zeitlich ausgerichtete Abtastwerte d(2).
809822/0988
a'C2L ... a'(2)jTj vomDezimator 610. Auf entsprechende Weise
werden die restlichen LPC-Singale zur durchschnittlichen Anzahl von Rahmen Nv des stimmhaften Intervalls der identifizierten Ziffer
ausgerichtet. Das zeitlich ausgerichtete Ausgangssignal jeder identifizierten Übungsgruppenziffer lautet dann:
a'(i2)v .... a'Ctt)^.
Die Operation der Ausrichteinrichtung 144 wird für jede der J-Wiederholungen
der durch den Code IDl angegebenen Ziffer wiederholt.
Die Schaltungsanordnung gemäß Fig. 6 kann irgendeine bekannte Interpolator-Tiefpaßfilter-Dezimatorschaltung in der Anordnung gemäß
Fig. 6 enthalten. Vorzugsweise wird die Interpolator-Dezimator-Schaltung
nach der Deutschen Patentanmeldung P 26 42 139.6 verwendet.
Die Folge von zeitlich ausgerichteten LPC-Signalen gemäß Gleichung (13)
wird an einen LPC-Mittelwert- und Covarianz-Matrix-Prozessor 146
809822/0988
für jede Wiederholung der identifizierten Ziffer angelegt.
Unter Ansprechen auf die LPC-Signale des stimmhaften Bereichs gemäß Gleichung (13) für die J-Wiederholungen der durch den Code
IDl identifizierten Ziffer wird im Prozessor 146 eine Gruppe von Bezugskennwertsignalen gebildet. Für jeden Rahmen i = 1 ...
Nv wird ein Signal für den Mittelwert jedes Koeffizientensignals erzeugt. Beispielsweise ist der Mittelwert m(n). entsprechend
dem Durchschnitt der η zeitlich ausgerichteten linearen Vorhersagesignale über J-Wiederholungen des i-ten Rahmens
04)
Darin bedeuten η = 1, 2 ... 12 die LPC-Signalanzahl i = 1, 2 ... Nv
die Rahmenanzahl und q - 1, 2 .... Q die durch den Code IDl identifizierte Ziffer. Abhängig von den m(n). Signalen jedes Rahmens
für den stimmhaften Bereich der q-ten identifizierten Ziffer wird ein Bezugs gruppe nsigna I
)iq/ — m(l2).q) (15)
erzeugt, das den Mittelwert der ausgerichteten Übungsgruppe η-LPC-Signale
darstellt.
809822/0988
42*
Außerdem wird die Covarianz-Matrix S. mit den Elementen
.T)1, - J J1 .'(,O11 .'(V)13 . «(u)iqD(v)lq de)
erzeugt, und zwar für jeden Rahmen i = 1, 2 ... Nv, wobei
υ = 1, 2 .... 12 und ν = 1, 2 ... 12 der Covarianz-Matrix S.
aus den Mittelwerten m(n). der Gleichung (15) und den Koeffizientensignalen a'(n). jedes Rahmens erzeugt werden.
Die Gruppe von Bezugskenntwertsignaien für die q-te identifizierte
Ziffer besteht aus den Mittelwertsignalen m. und den Covarianz-Matrix-Signalen S. für jeden Rahmen. Diese Bezugskennwertsignale
werden vom Prozessor 146 zum Bezugskennwertspeicher 148 über
Leitungen 147a und 147b übertragen und dort adressiert durch den Code IDl der q-ten identifizierten Ziffer gespeichert. Das N v-Signal
aus der Mittelwertbildungseinrichtung 142 für den stimmhaften Bereich wird ebenfalls in den Speicher 148 eingegeben. Wenn die Bezugskennwertsignale
der Ziffer q gespeichert sind, erzeugt der Speicher 148 das Steuersignal EDO, das die Ziffernfolgeschaltung 182 weiterschaltet,
so daß die Bezugskennwertsignale für die nächste identifizierte Ziffer gebildet werden können, wie mit Bezug auf die Identifizierte Ziffer q
809822/0988
beschrieben. Aufgrund der Einspeicherung der zuletzt identifizierten
Ziffer Q wird ein Steuersignal ERR von der Ziffemfolgeschaltung 182 an die Steuerung 180 gegeben, so daß die Bezugsarbeitsweise durch
Abschaltung des Signals REF in der Steuerung 180 beendet wird.
Der Mittelwert- und Covarianz-Matrix-Prozessor 146 kann arithmetische
und Speichereinheiten bekannter Art aufweisen. Vorzugsweise enthält der Prozessor 146 einen der oben erwähnten Mikroprozessoren mit einer
dauernd in einem Festwertspeicher gespeicherten Programmsteuerung, die entsprechend dem Fortran-Programm im Inhang 2 ausgebildet ist.
Die ausgerichteten LPC-Signale von der Ausrichtschaltung 144 werden
über die Leitung 1140 an den Schnittstellen-Adapter 1101 des Prozessors
146 gegeben. Außerdem wird ein Startsteuersignal SC zur Einleitung der Operation des Mikroprozessors vom Impulsgenerator 615 und der
Ausrichtschaltung 144 über die Leitung 1142 zum Schnittstellen-Adapter 1102
übertragen. Der Mikroprozessor gemäß Fig. 11 erzeugt Mittelwertsignale m(n). und Covarianz-Matrix-Signale S. Rahmen für Rahmen, und diese
Signale werden vom Schnittstellen-Adapter 1101 über die Leitungen
1150 und 1152 zum Bezugskennwertspeicher 148 übertragen und dort
unter Adressierung durch das codierte Signal IDl vom Gatter 183 eingeschrieben.
809822/0988
Nachdem die Bezugskennwertsignale fUr alle möglichen Ziffern 1, 2 ... Q in den Bezugsgruppenspeicher 148 eingeschrieben worden
sind, wird die Bezugsbetriebsweise durch Abschalten des Signals REF beendet, und es kann die Erkennungsbetriebsweise entsprechend
dem an die Leitung 177 angelegten Erkennungsbetriebsweisensignal eingeleitet werden. Der Betriebsweisenwähler 178 bringt die Steuerlogik
180 in ihre Erkennungsbetriebsweise , in der zunächst das Steuersignal
TE erzeugt wird. Ein Sprachsignal, das aus einer Kette von η nicht identifizierten Ziffern besteht, wird an den Analog-Digitalwandler
105 angelegt, in welchem das Signal für die gesprochene Ziffernkette ein Tiefpaßfilter durchläuft und zur Bildung codierter
Abtastsignale s mit einer Frequenz von 10 kHz abgetastet wird. Wie fUr die Übungsbetriebsweise beschrieben, bildet der LPC-Generator
122 in der Erkennungsbetriebsweise wiederum die LPC-Signale fUr jeden Rahmen des durch den Sprachintervall-Detektor 114
bestimmten Sprach interval Is. Die LPC-Signale f Ur die Kette von
nichtidentifizierten Ziffern aus dem Generator 122 werden im Sprach interval I-LPC-Speicher 124 gespeichert.
Die Sprachintervallrahmen-LPC-Signale werden in einer Rahmenfolge
während der Erkennungsbetriebsweise an den Autocorrelationsmatrix-Prozessor 137 gegeben. Der Prozessor 137 spricht auf
809822/0988
275327V
die LPC-Signale jedes aufeinanderfolgenden Rahmens an und erzeugt
eine Gruppe von Rahmen-Autocorrelationsmatrix-Koeffizienten
O^ (InIcI) (17)
08)
entsprechend dem vorgenannten Aufsatz von Atal und Hanauer
in Journal of the Acoustical Society of America, Band 50, Nr. 2, Teil 2, 1971, Seiten 637-655. Der Matrixgenerator 137 kann einen
der obengenannten Mikroprozessoren gemäß Fig. 11 enthalten, der
eine in einem Festwertspeicher permanent enthaltene Programmsteuerung aufweist, die so ausgelegt ist, daß sie das Fortran-Programm
gemäß Anhang 3 ausführen kann.
Wenn der Mikroprozessor gemäß Fig. 11 als Autocorrelations-Generator
137 verwendet wird, so nimmt der Schnittstellen-Adapter 1101 die LPC-Signale vom Speicher 124 über die Leitung 1140
auf und erhält ein Steuersignal ACS vom Speicher 124, nachdem die Speicherung der LPC-Signale beendet ist, um die Operation
809822/0988
Über die Leitung 1142 zu starten. Die Autocorrelations-Koeffizientensignale vom Ausgang des Mikroprozessors gemäß Fig. 11 werden vom
Schnittstellen-Adapter 1101 über die Leitung 1150 zum Speicher 139 gegeben. Die Autocorrelations-Koeffizienten-Ausgangssignale für
jeden Rahmen werden im Sprachintervall-Autocorrelations-Matrixspeicher
139 zur Verwendung in den Distanz-Prozessoren 156 und 170 gespeichert,
die später in der Erkennungsbetriebsweise in Operation treten.
Unter Ansprechen auf das Signal A vom Sprachintervall-Detektor 111
und die abgetasteten Sprachsignale s erzeugt der VUS-Prozessor 115 ein stimmhaftes, stimmloses oder Ruhe-Klassifizierungssignal und
ein Energiesignal für jeden Rahmen von 200 Abtastsignalen s. ... s_v
auf die gleiche Weise wie bei der Übungsbetriebsweise. Die Folge von Klassifizierungssignalen wird im VUS-Konturspeicher 117 und die
Folge von Rahmenenergiesignalen im Energiekonturspeicher 120 gespeichert. Am Ende des Sprachsignalintervalls kehrt das Steuersignal
A in seinen nicht-betätigenden Zustand zurück, so daß der VUS-Prozessor 115 und der LPC-Signalgenerator 122 ausgeschaltet werden.
Zu diesem Zeitpunkt betätigt das Signal DS aus dem Sprach interval I-Detektor 111 die Gatter 122A und 126. Unter Ansprechen auf das
Signal DS werden der VUS-Speicher 117 und der Energiespeicher 120
809822/0988
mit der Ziffernauftei!einrichtung 128 verbunden. Wie mit Bezug auf
die Übungsbetriebsweise beschrieben, werden die Grenzrahmen festgestellt und im Speicher 312 gespeichert. Dann wird der Detektor
für den stimmhaften Ziffernbereich betätigt. Das Nv-Signal vom
Detektor 130 gelangt zum Prüf-Nv-Speicher 133 und wird dort zur Verwendung in der LPC-Zeitausrichteinrichtung 152 gespeichert.
Das Ausgangssignal des Detektors 130 für den stimmhaften Bereich vom
Gatter 430 (VR2) in Fig. 4 definiert den stimmhaften Bereich jeder Ziffer der aufgeteilten Ziffernkette.
Eine unbekannte Ziffer aus einer Kette von verbundenen Ziffern wird erkannt, in dem bestimmt wird, welche Bezugskennwertgruppe
für eine identifizierte Ziffer im Speicher 148 am genauesten den LPC--Kennwerten
für den im Speicher 124 gespeicherten stimmhaften Bereich der unbekannten Ziffer entspricht. Die Korrespondenz zwischen den
linearen Vorhersagekennwerten der unbekannten Ziffer und den gespeicherten Bezugswert-Kennwerten wird Rahmen für Rahmen ausgewertet,
nachdem die LPC-SignaIe für das stimmhafte Intervall der
unbekannten Ziffer zum mittleren stimmhaften Intervall Nv der Bezugsgruppe ausgerichtet sind.
809822/0988
JK
Die Korrespondenz der Bezugswert-Kennwerte der ausgerichteten
Prüfkennwerte wird durch Bildung eines Distanzsignals
-1
für jeden Rahmen des stimmhaften Bereichs der Prüfziffer im Prozessor 156 bestimmt, wobei
und R. die Autocorrelationsmatrix des Rahmens sind, die aus den
Autocorrelations-Koeffizienten r. im Speicher 139 gebildet ist. a{ ist der Vektor, der aus den LPC-Signalen des i-ten Rahmens für
den stimmhaften Bereich der Prüfziffer besteht, die zum mittleren stimmhaften Bereich Nv der Bezugsgruppe ausgerichtet sind.
Dabei ist m. der Vektor, der aus den Mittelwertsignalen des i-ten
Rahmens für den mittleren stimmhaften Bereich Nv der q-ten
809822/0988
Ziffembezugsgruppe im Speicher 148 besteht.
5»iq - (m(Diq, m(2)iqf ...,«(12)^). (22)
Nachdem die Siqnale d.. für die Nv Rahmen des stimmhaften
liq
Intervalls für die q-te Bezugszifferngruppe gebildet sind, wird der
Mittelwert D. entsprechend der nachfolgenden Gleichung erzeugt:
1 Nv
-r- Σ d„. (23)
Nv i 11I
Ein Signal D. , das für jede identifizierte Ziffer abgeleitet ist,
stellt die Korrespondenz zwischen den Kennwerten der unbekannten Ziffer und den Bezugskennwerten der q-ten identifizierten Ziffer dar.
Das Minimum-Signal D. entspricht der Identität der unbekannten
Prüfziffer.
Alternativ kann ein Distanzmaß
fciQ, ~i ~iq iq *—j_ ~iq
Ur, " (S.: „ + "^ 1^1 }
809822/0988
-5er
wobei N = 200 aus den LPC-Signalen der unbekannten Ziffer und
den gespeicherten Bezugswert-Kennwerten jeder identifizierten Ziffer im D_ -Prozessor 170 abgeleitet werden, aus dem das mittlere
Distanz-Signa I
Hv
erzeugt wird. Die Bildung von D_ ist zwar wesentlich komplizierter,
aber D^ ist ein besser geeignetes Distanzmaß, wenn die Ziffernaufteilungsgrenze innerhalb eines stimmhaften Bereichs auftritt.
Dies ist wegen der voraussichtlich großen Koartikulation zwischen Ziffern der Fall. Wenn die Ziffernaufteilungsgrenze an einem
Stimmhaft-Stimmlos-Übergang oder einem Stimmlos-Stimmhaft-Ubergang auftritt, so kann das einfachere Distanzmaß-Signal D. benutzt
werden.
Bei der Anordnung nach Fig. IA und 1B wird zunächst D. fUr jede
identifizierte Ziffer gebildet. Das minimale D. und das nächstgrößere
D1 aus der Gruppe D1n, D10 ... Di werden dann gespeichert.
IC| IU Iz a
Iq Iq
kleiner als ein vorbestimmter Wert, beispielsweise 1,1 ist,
809822/0988
so werden die D„ -Signale gebildet, um eine genauere Bestimmung
für die Identität der Prüfziffern zu erhalten. D- wird außerdem dann
benutzt, wenn ein Konflikt zwischen der VUS-Information des VUS-Speichers
117 und der Identität der unbekannten Ziffer auftritt. Beispielsweise kann die durch das minimale D, identifizierte Ziffer
v iq
eine englisch-sprachige 1, 8 oder 9 sein, die mit stimmhaften Bereichen
beginnen, und der Anfangsgrenzrahmen der Ziffer kann ein stimmloser oder Ruhe-Rahmen sein. Dann tritt ein Konflikt zwischen der VUS-Information
und der durch das minimale D1 -Signal identifizierten
•q
Ziffer auf. Dieser Konflikt wird durch die Bildung der Distanzsignale
D~ gelöst. Wenn auf ähnliche Weise die Ziffer mit einem stimmhaften
Rahmen beginnt und eine englisch-sprachige 0, 2, 3, 4, 5, 6 oder 7
ist, die mit stimmlosen Rahmen beginnen, dann ergibt sich eine Diskrepanz, die durch Verwendung der Distanzsignale D^ gelöst wird.
In der Erkennungsbezriebsweise wird das Signal TEl in der Steuerung
180 bei Beendigung des stimmhaften Bereichs der Ziffer für jede unbekannte Ziffer mittels des Detektors 130 erzeugt. Die Anzahl (Nv) von
Rahmen der unbekannten Ziffern wird vom Gatter 416 im Detektor 130
an den Prüf-Nv-Speicher 133 über das Gatter 130c angelegt. Das
809822/0988
Signal TEl stellt die Ziffernfolgcschaltung 182 auf die erste identifizierte
Ziffer, beispielsweise 0 zurück, wodurch ein Code ID2, der die erste identifizierte Ziffer darstellt, am Ausgang des Gatters 184
zur Verfugung steht. Das Signal ID2 wird an den Bezugskennwertspeicher
148 gegeben, um die Bezugskennwerte der ersten identifizierten Ziffer zu adressieren. Zu diesem Zeitpunkt steht das Signal Nv, das der
ersten identifizierten Ziffer entspricht, aus dem Speicher 148 auf der Leitung 149 zur Verfügung. Die linearen Vorhersagekennwerte der
unbekannten Ziffer aus dem LPC rSigna !speicher 124 stehen auf der
Leitung 123 zur Verfügung. NRv entsprechend der Anzahl von Rahmen im stimmhaften Bereich der unbekannten Ziffer steht ebenfalls aus dem
Prüf-Nv-Speicher 133 zur Verfügung.
Die LPC-Signalausrichtungsschaltung 152, die die in Fig. 6 gezeigte
Schaltung sein kann, bewirkt jetzt eine Ausrichtung oder Normalisierung der LPC-Signale, die auf der Leitung 123 vom Speicher 124 zur Verfügung
stehen, und zwar auf das mittlere, stimmhafte Intervall Nv der identifizierten
Bezugsziffer Das Nv-Signal vom Speicher 148 auf der Leitung wird der Ausrichtungsschaltung 152 über das Gatter 150 α zugeführt. Das
Signal VR2 steht vom Detektor 30 für den stimmhaften Bereich über
809822/0988
#5
das Gatter 430 zur Verfügung. Das Signal VR" ist während des
stimmhaften Signals der unbekannten Ziffer ein Betätigungssignal und wird dem Gatter 15Od zusammen mit den Sprachintervall-LPC-Ausgangssignalen auf der Leitung 123 zugeführt. Die LPC-Signale der unbekannten Ziffer werden der Ausrichtungsschaltung 152 vom Speicher 124 in der nachstehenden Reihenfolge übermittelt:
stimmhaften Signals der unbekannten Ziffer ein Betätigungssignal und wird dem Gatter 15Od zusammen mit den Sprachintervall-LPC-Ausgangssignalen auf der Leitung 123 zugeführt. Die LPC-Signale der unbekannten Ziffer werden der Ausrichtungsschaltung 152 vom Speicher 124 in der nachstehenden Reihenfolge übermittelt:
Außerdem gelangt das Signal NRv, das die Anzahl von Rahmen im
stimmhaften Abschnitt der Ziffer darstellt, vom Speicher 133 zur Ausrichtungsschaltung
152.
Die Ausrichtungsschaltung 152 kann die Interpolator-Tiefpaßfilter-Dezimatoranordnung
gemäß Fig. 6 sein, die zuerst die unbekannten LPC-Signale a (I)., a (I) ··· a0)NR gemäß Gleichung (26) durch
Erhöhung der Abtastfrequenz um den Faktor Nv interpoliert. Dann wird ein stückweise lineares Signal, das die interpolierten LPC-Signale
darstellt, im Tiefpaßfilter gebildet. Das gefilterte Signal wird dann um den Faktor NRv dezimiert, so daß sich eine Folge von LPC-Ausgangssignalen
«TO),, a'(l)2 ...a'O)jqv (27)
809822/0988
die zu der Bezugsgruppe von Signalen m. und S. im
r iq iq
Bezugskennzeichenspeicher 148 ausgerichtet sind. Auf ähnliche Weise
werden die LPC-SignaIgruppen a
(28) die sequentiell in der Ausrichtschaltung 152 erzeugt werden.
Auf diese Weise können die Nv Signale LPC aus der Ausrichtschaltung
152 direkt mit den Nv Mittelwertsignalen m. im Speicher 148 verglichen werden. Wenn die unbekannte, gesprochene Ziffer die identifizierte
Ziffer ist, für die die m. -Signale im Speicher 148 gespeichert sind, so stimmen die zeitlich ausgerichtete η LPC-SignaIe, die für
das stimmhafte Intervall der unbekannten Ziffer gewonnen worden sind, gut mit den m. -Signalen überein. Fur alle anderen identifizierten
^ iq
Ziffern unterscheiden sich dagegen die zeitlich ausgerichteten LPC-Signale,
die für das stimmhafte Intervall der unbekannten Ziffer gewonnen worden sind, stark von den m. -Signalen im Speicher 148, die für die
identifizierten Ziffern in der Ubungsbetriebsweise erhalten wurden.
Die zeitlich ausgerichteten LPC-AusgangssignaIe von der Ausricht-
809822/0988
schaltung 152 werden an den Speicher 154 für ausgerichtete LPC-Prüfsignale
gegeben, der in Fig. 8 dargestellt ist. Gemäß Fig. 8 stellt ein Steuersignal LC vom Impulsgenerator 615A der Ausrichtschaltung
152 das Flip-Flop 831 ein, wenn LPC-Signale von der Ausrichtschaltung 152 zur Verfügung stehen. Vor diesem Zeitpunkt
wird das codierte Nv-Signal, das die Anzahl von Rahmen im stimmhaften
Intervall darstellt, vom Gatter 150a über die Leitung 152b zum Speicher 838 gegeben. Der Nv-Code wird vom Speicher 838 an
den Nv-Rahmenzähler 834 geliefert. Dieser Zähler zählt unter Ansprechen
auf Rahmentaktsignale PF über das Gatter 832 die Rahmen des durchschnittlichen Stimmhaft-Bereichs, für die die zeitliche
Ausrichtschaltung 152 in Betrieb ist. Während der ersten Nv-Rahmen wird das Gatter 801 -1 vom Rahmen zähler 834 betätigt, so daß die
LPC-Signale von der Ausrichtschaltung 152 über die Leitung 152a sequentiell in das Schieberegister 811-1 eingegeben werden.
Das ausgerichtete Koeffizientensignal a'(l). wird zuerst eingegeben,
gefolgt vom Koeffizienten a'(l)«.
Die a'(l).-Koeffizientensignale werden sequentiell im Schieberegister
811 bis zum Nv-ten Rahmen gespeichert, in welchem das Koeffizienten
signal a'(l).-j- eingegeben wird. Zu diesem Zeitpunkt schaltet
809822/0988
der Rahmenzähler 834 das Gatter 801-1 ab und betätigt das Gatter 801 -2 ,
so daß die sequentiell auftretenden zweiten LPC-Signale a'(2)., a'(2)
a'(2)^j in das Schieberegister 811 -2 eingegeben werden. Nachdem das
Koeffizientensignal a'(2).-r in das Schieberegister 812-2 eingegeben
ist, schaltet der Zähler 834 das Gatter 801 -2 ab. Auf entsprechende Weise wird das dritte bis elfte Koeffizientensignal sequentiell in das
entsprechende Register (in Fig.8 nicht gezeigt) eingegeben. Nachdem
der Koeffizient a'(l I)1-T in den Speicher gemäß Fig. 8 eingegeben
worden ist, betätigt ein Signal vom Rahmenzähler 834 das Gatter 801-12,
so daß die zwölften LPC-Signale a'(12)j, a'(12) ... a'02)jq in das
Schiebergister 811-12 gegeben werden.
Nachdem der Koeffizient 0'(12J1-T in das Register 811-12 gegeben worden
ist, stellt ein Ausgangssignal des Rahmenzählers 834 das Flip-Flop 836
ein, um die Beend gung fUr das Einschreiben des LPC-Speichers 154
anzuzeigen. Das Flip-Flop 831 wird dann Über die Verzögerungseinrichtung
842 zurückgestellt. Daraufhin wird der eins-Ausgang des Flip-Flops
836 betätigt und ein entsprechendes Betätigungssignal Über die Leitung
154b zum D. -Prozessor 156 Übertragen, um die Erzeugung der Signale
d.. und des Signals D1 entsprechend Gleichung (19) und (23) einzuliq
Iq
leiten.
809822/0988
Das Eins-Ausgangssignal des Flip-Flops 836 wird außerdem zum Impulsgenrator 839 geführt, der unter Ansprechen auf Signale
vom Prozessor 156 über die Leitung 154c gleichzeitig die Gatter 821-1 bis 821-12 betätigt, so daß die LPC-Signale jedes Rahmens,
nämlich a'(1). , a'(2). ... a'(12)., beginnend mit dem ersten Rahmen
des stimmhaften Intervalls der Ziffer parallel von den Schieberegistern 811 -1 bis 81142 über die Leitung 154a und das Gatter 155 zum Prozessor
156 übertragen werden, und zwar je nach Bedarf durch den Prozessor
156. Nachdem die letzte Gruppe von LPC-Signalen zum Prozessor 156 gelangt ist, wird das Flip-Flop 836 durch ein Signal auf der
Leitung 154d vom Prozessor 156 zurückgestellt.
Der Prozessor 156 spricht auf die LPC-Signale, die über das Gatter
155 aus dem Speicher 154 gewonnen v/orden sind, die über die Leitung
151 aus dem Speicher 148 gelesenen m. -Signale und die über die
Leitung 139a vom Speicher 139 gewonnenen r.-SignaIe an, um die
d,. -Signale gemäß Gleichung (19) für jeden Rahmen des stimmhaften
Intervalls der Ziffer zu bilden und außerdem deren Mittelwert gemäß Gleichung (23) zu erzeugen. Der Prozessor 156 kann einen der oben
genannten Mikroprozessoren gemäß Fig. 11 aufweisen, in welchem ein Steuerprogramm im Festwertspeicher 1109 permanent entsprechend
809822/0988
5ο
dem Fortran-Programm gemäß Anhang 4 vorhanden ist. Die m. -Signale aus dem Speicher 148 werden über die Leitungen 151
und 1130 der direkten Speicherzugriffsschaltung 1105 zugeführt.
Außerdem werden dieser Schaltung die Autocorrelations-Koeffizientensignale aus dem Speicher 139 über die Leitungen 139a und 1130
zugeführt. Die LPC-Signale für die unbekannte Ziffer werden vom Speicher 154 über das Gatter 155 und die Leitung 1150 zum Schnittstellen-Adapter 1101 übertragen. Ein Steuersignal gelangt vom Eins-Ausgang
des Flip-Flops 836 im Speicher 154 über die Leitung 154b und 1142
zum Schnittstellen-Adapter 1101 , um die Erzeugung d.. und D.
einzuleiten. Das Ausgangssignal des Prozessors 156 für die q-te
identifizierte Ziffer ist ein codiertes Signal D1 , das vom Schnittstellen-
lel
Adapter 1101 über die Leitung 1150 zum D. -Minimumwähler 160
gegeben wird.
Der D. -Code für jede identifizierte Ziffer wird so vom Prozessor
156 zum D. -Minimumwähler 160 übertragen, wie er im Prozesser 156 erzeugt wird. Der in Fig. 9 gezeigte Wähler 160 wählt den
D. -Minimumcode und den nächstgrößeren D^ -Code. Vor der
Bildung des D. -Code im Prozessor 156 wird ein Einleitungssignal vom Prozessor 156 an den Impulsgenerator 903 angelegt.
809822/0988
JUT
Abhängig vom Impulsgenerator 903 gelangt ein codiertes Signal
Ij. zum Minimum-Register 921 und zum Register 931 für den
nächstgrößeren Wert, um dort den größtmöglichen Wert D.
einzugeben. Das Signal I... vom Impulsgenerator 903 wird
zum Eingangsregister 917, zum Eingangsidentifizierregister 919, zum Minimum-Identifizierregister 923 und zum Identifizierregister
933 für den nächstgrößeren Wert geführt, um diese Register auf null einzustellen.
Bei Bildung des D, -Code für die erste identifizierte Ziffer führt
der Impulsgenerator 901 das D. -Signal vom Prozessor 156 zum
Eingangsregister 917 und den Identifiziercode ID2 der ersten
identifizierten Ziffer in das Register 919. Der Inhalt des Registers 917 wird dann im Komparator 925 mit dem Inhalt des Minimum-Registers
921 verglichen. Da das Register 921 zu Anfang auf den höchstmöglichen Wert eingestellt worden ist, erzeugt der Komparator
925 ein Betätigungssignal, das angibt, daß das Register 921 einen Code enthält, der größer ist als der D1 -Code im Register 917.
Dieses Betätigungssignal P bewirkt, daß das Ausgangssignal des Registers 921 über die Wählerschaltung 927 zum Eingang des
Registers 931 für den nächstgrößeren Wert geführt wird.
809822/0988
Das Ausgangssignal des Eingangsregisters 917 wird ebenfalls im Komparator 935 wird dem Ausgangssignal des Registers 931 verglichen.
Wenn der Inhalt des Registers 917 kleiner als der Inhalt des Registers 931 ist, so erzeugt der Komparator 935 ein Betätigungssignal
P, , das an einen Eingang des Gatters 907 angelegt wird.
Nach Durchführung der beiden Vergleiche wird ein Impuls aus dem Impulsgenerator 901 Über die Verzögerungseinrichtung 905 an den
anderen Eingang des Gatters 907 gegeben, vorausgesetzt, daß der Inhalt des Registers 917 kleiner ist als der Inhalt des Registers 931.
Das Ausgangssignal des Wählers 927 wird dann in das Register 931 eingegeben, und der entsprechende identifizierte Code über den
Wähler 929 in das Register 933. Im Fall der ersten identifizierten
Ziffer wird der Inhalt des Registers 921 über den Wähler 927 übertragen
und gelangt in das Register 931. Gleichzeitig wird der Identifizier-Code im Register 923 über den Identifizierwähler 929
an das Register 933 übertragen.
Nach der übertragung in das Register 931 wird das Gatter 911
aufgrund des verzögerten Impulses von der Verzögerungseinrichtung 909 und eines Betätigungssignals P eingeschaltet. Das Signal
809822/0 98 8
P bewirkt nur dann eine Betätigung, wenn der Inhalt des Eingangsregisters 917 kleiner als der Inhalt des Minimum-Registers 921 ist.
Dies trifft im Fall der ersten Identifizierziffer zu, so daß der Inhalt des Registers 917 in das Minmum-Register 921 übertragen und der entsprechende
Identifiziercode vom Register 919 zum Register 923 gegeben werden.
Im allgemeinen speichert das Register 921 den aus dem Prozessor 156
gewonnenen Minimum-Code D. , während das Register 931 den nächstgrößeren
Code D. enthält. Der Komarator 925 vergleicht den neu in das Register 917 eingegebenen Code D. mit dem Minimum-Code
D. im Register 921 . Der größere der beiden Codierungen wird über den Wähler 927 zum Eingang des Registers 931 für den nächstgrößeren
Wert übertragen. Der Komparator 935 sorgt für eine Übertragung in das Register 931 nur dann, wenn der Code des Eingangsregisters kleiner
als der nächstgrößere Code D. im Register 931 ist. Auf diese Weise wird, wenn der Code D. im Register größer als der Minimum-Code
D, im Register 921, aber kleiner als der nächstgrößere Code D.
Iq IQ1
im Register 931 ist, der Code im Register 917 als der nächstgrößere Code
D, im Register 931 gespeichert. Wenn jedoch der Code D1 im
Eingangsregister 917 kleiner als der vorher eingespeicherte Minimum-Code
D. im Register 921 ist, so wird der Code' im Register 931
809822/0988
zum Eingang des Registers 931 für den nächstgrößeren Code übertragen
und dort eingegeben, wenn er kleiner als der vorher gespeicherte, nächstgrößere Code im Register 931 ist. Nach der Übertragung
des größeren Code Dj über den Wähler 927 in das Register 931
wird der Code D. des Eingangsregisters über das Gatter 911 nur dann
in das Minimum-Register 921 übertragen, wenn der Code D. des Eingangsregisters kleiner als der Code im Minimum-Register 921 ist.
Der verzögerte Impuls aus der Verzögerungseinrichtung 940 wird als Signal EDl zur Weiterschaltung der Folgeschaltung 182 für die nächste
identifizierte Ziffer benutzt. Die Codierungen D. werden sequentiell für die identifizierten Ziffern 0, 1,2 ... Q gebildet, und der
Minimum-Code und der nächstgrößere Code D. werden im Wähler 160 gespeichert.
Nachdem die letzte identifizierte Ziffer Q im Prozessor 156 verarbeitet
worden ist, enthält das Register 921 im Wähler 160 den für die unbekannte
Ziffer gewonnenen Minimum-Code D. und das Register 923 enthält den entsprechenden Identifiziercode. Das Register 931 enthält den
nächstgrößeren, für die unbekannte Ziffer gewonnenen Code D. und das Register 933 den entsprechenden Identifiziercode.
809822/0988
Unter Ansprechen auf das identifizierte Ziffernsignal ID2, das
die letzte identifizierte Ziffer Q ist, betätigt der Komparator 941 das Gatter 942. Am Ende der Auswahloperation im Wähler 160
triggert ein Impuls vom Gatter 942 den Impulsgenerator 943, so
daß die Gatter 945, 947 und 949 durch einen Ausgangsimpuls des Generators 943 eingeschaltet werden. Das Ausgangssignal
des Gatters 945 ist der D1 -Minimum-Code (X ) aus dem Register
Iq 1
921 . Das Ausgangssignal des Gatters 947 ist der nächstgrößere D. Code
(X,-) und das Ausgangssignal des Gatters 949 ist die Identität
des D -Minimum-Code ID ...
]q mini
]q mini
Nach Bildung des letzten D1 ~-Code für eine unbekannte Eingangsziffer
prüft der Folgerichtigkeitsdetektor 157 die Gültigkeit der gewählten identifizierten Ziffer. Wenn die gewählte identifizierte
Ziffer eine englisch-sprachige 1, 8 oder 9 ist, die alle mit einem
stimmhaften Bereich beginnen, so liefert der Folgerichtigkeitsdetektor 157 ein Ausgangssignal G, wenn der Anfangsgrenzrahmen der
unbekannten Ziffer entweder ein stimmloser Rahmen oder ein Ruherahmen ist. Wenn andererseits die gewählte identifizierte Ziffer
eine englich-sprachige, null, 2, 3, 4, 5, 6 oder 7 ist, die alle
mit stimmlosen Bereichen beginnen, so liefert der Folgerichtigkeits-
809822/0988
(A
7S
detektor 157 ein Ausgangssignal G, wenn der Anfangsgrenzrahmen
der unbekannten Ziffer ein stimmhafter Rahmen ist. Der Folgerichtigkeitsdetektor 157 liefert außerdem dann ein
Ausgangssignal G, wenn das Verhältnis des nächstgrößeren Wertes
D. zum Minimum-Wert D, kleiner als ein vorbestimmter Schwellen-Iq
lcl
wert ist. In einem solchen Fall ist die Identifizierung durch den
Minimum-Wähler 160 zweifelhaft.
Abhängig von einem Ausgangssignal G des Folgerichtigkeitsdetektors 157, das eine Ungültigkeit angibt, werden die ausgerichteten
LPC-Signale für den stimmhaften Bereich der unbekannten Ziffer an den D„ -Prozessor 170 gegeben, der entsprechend Gleichung (24)
und(25) ein genaueres Korrespondenz-Signal liefert. Wenn jedoch im Detektor 157 festgestellt wird, daß die gewählte identifizierte
Ziffer gültig ist, so wird der ID . ^-Code vom Wähler 160 über
das Gatter 165 im Speicher 176 für die erkannten Ziffern übertragen
und die Erkennungsbetriebsweise für die unbekannte Ziffer wird beendet.
809822/0988
Der Folgerichtigkeitsdetektor 157 ist in Fig. 7 gezeigt. Nach der Ziffernaufteilung in der Ziffernaufteilungseinrichtung
128 für die unbekannte Ziffernkette werden die Ausgangssignale des Grenzspeichers 312 und des VUS-Konturspeichers 117 auf der
Leitung 316 bzw. 318 zum Gatter 742 geführt, um den Anfangsrahmen jeder Ziffer als stimmhaften, stimmlosen oder Ruherahmen
zu identifizieren. Der Massifizierungscode für jeden
Anfangsrahmen wird im Register 745 zur Verwendung bei der Folgerichtigkeitsanzeige gespeichert. Nach Wahl des D. Minimum-Code
wird die Klassifizierung der unbekannten Ziffer als stimmhaft oder stimmlos am Ausgang des Register 745 zur Verfügung
gestellt.
Zur Erläuterung sei angenommen, daß die unbekannte Ziffer als eine englisch-sprachige eins identifiziert ist, aber daß der
Anfangsrahmen für die unbekannte Ziffer ein stimmloser Rahmen ist, so daß der Ausgang V des Registers 745 betätigt ist.
Die Komparatoren 701, 703 oder 705 liefern ein Ausgangssignal, wenn die gewählte identifizierte Ziffer ID . , eine eins,
m ml
acht oder neun ist. Wenn es sich um eine eins handelt, so liefert der Komparator 701 über das ODER-Gatter 707 ein Betntigungs-
809822/0988
AS
signal an das Gatter 709. Wenn der Anfangsrahmen der Ziffer als stimmlos klassifiziert worden ist, so betätigt das Signal V außerdem
das Gatter 709. Der Impulsgenerator 750 liefert zu Beginn der Operation des Folgerichtigkeitsdetektors den Impuls P-, wodurch
das Gatter 709 das Flip-Flop 711a einstellt. Diese Einstellung des
Flip-Flops 71 la entspricht einem Widerspruch bei der D. -Identifizierung. Das Eins-Ausgangssignal des Flip-Flops 711a wird dem
Gatter 977 über das ODER-Gatter 732 zugeführt, und beim Auftreten eines nachfolgenden Impulses P~ vom Generator 750 wird das Flip-Flop
735 eingestellt, um den Widerspruch bei der Identifizierung anzuzeigen. Das Ausgangssignal des Gatters 733 wird außerdem
dem Rückstelleingang des Flip-Flops 711a über die Verzögerungseinrichtung
737 zugeführt, um das Flip-Flop 711a für die nächste unbekannte Ziffer vorzubereiten.
Die Komparatoren 711-717 bestimmen, ob die gewählte identifizierte
Ziffer ID . . eine englisch-sprachige null, zwei, drei, vier, fünf,
sechs oder sieben ist. In diesem Fall wird ein Betätigungssignal
über das ODER-Gatter 719 zum UND-Gatter 720 übertragen. Wenn der Anfangsrahmen der unbekannten Z iffer ein stimmhafter
809822/0988
Rahmen ist, so wird das Gatter 720 aufgrund des Impulses P. eingeschaltet und das Flip-Flop 721 eingestellt. Die Einstellung
des Flip-Flops 721 entspricht der Feststellung eines Widerspruchs
bei der Auswahl von ID ... Dann wird das Eins-Ausgangssignal des Flip-Flops 721 über das ODER-Gatter 732 und das UND-Gatter
733 weitergeleitet, um das Flip-Flop 735 einzustellen. Ein Impuls P_ stellt das Flip-Flop 721 über die Verzögerungseinrichtung
vorbereitend auf null zurück.
Die Verhältnisschaltung 723 erzeugt ein Signal, das dem Verhältnis
des nächstgrößeren D. -Signals (x_) zum D. -Minimum-Signal (x.)
entspricht. Das Ausgangssignal der Verhältnisschaltung 723 wird zusammen mit einem vorbestimmten Schwellenwertsignal T zum Komparator 725
gegeben. Dieser Schwellenwert kann beispielswei se 1,1 betragen.
Wenn das Verhältnis von x„ zu x, kleiner als T ist, so liefert der
Komparator 725 ein Ausgangssignal an das Gatter 729. Beim Auftreten
des Impulses P. wird das Flip-Flop 731 eingestellt und dessen Eins-Ausgangsignal
über das ODER-Gatter 732 zum UND-Gatter 733 geführt. Das Flip-Flop 735 wird beim Auftreten des Steuerimpulses
P,., eingestellt, um anzuzeigen, daß die Gültigkeit der D. Identifizieiung
zweifelhaft ist. Der Impulsgenerator 740 liefert
809822/0988
TEl aus und das Signal TE2 ein, um die Erzeugung des D„ -
Korrespondenzsignals einzuleiten.
Wie oben mit Bezug auf die Erzeugung des Signals D. beschrieben, liefern die LPC-Signalausrichtungsschaltung 152 und
der LPC-Signalspeicher 154 abhängig vom Signal TE2 die fUr die
Erzeugung der D_ -Signale im Prozessor 170 benötigten LPC-Kennzeichnungssignale.
Der Prozessor 170 spricht auf die ausgerichteten Vorhersage-KennwertsignaIe vom Gatter 153, die Covarianz-Matrixsignale
S. vom Gatter 169a, die Mittelwertsignale m. vom Gatter 169b und die Autocorrelations-Koeffizientensignale
r. vom Gatter 169c an, um ein D„ -Signal gemäß Gleichung (25)
zu erzeugen. Es wird ein D~ -Signal für ]ede identifizierte
Ziffer erzeugt, die durch das codierte, von der Ziffernfolgeeinrichtung
182 abgeleitete und an den Speicher 148 gegebene Signal 1D3 identifiziert wird. Die Folgeschaltung 182 wird zu Anfang durch
das Steuersignal TE2 zurückgestellt und nach Bildung jedes D_ Signals
durch das Steuersignal ED2 vom Wähler 173 weitergeschaltet.
809822/0988
Der D^ -Prozessor 170 kann einen Mikroprozessor der oben
erwähnten Art gemäß Fig. U umfassen. Entsprechend Gleichung (24) und (25) ist das im Festwertspeicher 1109 des Mikroprozessors gespeicherte
Steuerprogramm so ausgebildet, daß es das Fortran-Programm gemäß Anhang 5 ausführt. Der Prozessor 170 erzeugt ein
codiertes Signal D_ für jede identifizierte Ziffer, die durch die Ziffemfolgeschaltung 182 bestimmt und durch das Gatter 185
als Signal ID3 geliefert wird. Gemäß Fig. 11 werden die Signal m. und S. aus dem Bezugskennwertspeicher 148 über die Leitungen
1130 bzw. 1132 zur direkten Speicherzugriffsschaltung 1105
geführt. Die Autocorrelations-Koeffizientensignale r. werden vom Speicher 139 über das Gatter 169c und die Leitung 1140
zum Schnittstellen-Adapter 1101 übertragen, und die LPC-Signale für die unbekannte Ziffer werden vom Speicher 154 über
das Gatter 153 und die Leitung 1142 zugeführt. Die Signale D^
vom Prozessor 170 gelangen sequentiell über die Leitung 1150
zum D- -Wähler 173. Der Prozessor 170 wird durch einen Impuls vom Eins-Ausgang des Flip-Flops 836 des Speichers 154 gestartet,
der über die Leitungen 154b und 1143 an den Schnittstellen-Adapter
1101 gegeben wird. Der Wähler 173 bestimmt das Minimum-Signal D« und gibt den diesem Signal entsprechenden Identifiziercode
809822/0988
zum Speicher 176 für erkannte Ziffern. Der Wähler 173 ist in Fig. 10 dargestellt.
Gemäß Fig. 10 spricht der Impulsgenerator 1030 auf ein Vorbereitungssignal vom Prozessor 170 vor Bildung des D_ -Signals für die
erste identifizierte Ziffer an und erzeugt die codierten Signale Γ
und Γ · Das Signal Γ wild an das Minimum-Register 1005
ni
gegeben, um dort den größtmöglichen Code einzugeben. Das Signal
V * stellt das Eingangsregister 1001, das Eingangsidentifizierregister 1003 und das Minimum-Indentifizierregister 1007 auf null.
2q.
Eingangsregister 1001 in Abhängigkeit vom Impulsgenerator 1020 eingegeben. Zu diesem Zeitpunkt wird das ID3-Signal vom Gatter
185 als Identifiziercode für die erste identifizierte Ziffer in das
Eingangsidentifizierregister 1003 übertragen.
Das Ausgangssignal des Eingangsregisters 1001 wird mit dem Ausgangssignal des Minimum-Registers 1005 im Komparator 1009
verglichen. Wenn der Inhalt des Registers 1001 kleiner als der Inhalt des Registers 10005 ist, so liefert der Komparator 1009
ein Betätigungssignal an das Gatter 1025. Das Ausgangssignal
809822/0988
des Impulsgenerators 1020 wird über die Verzögerungseinrichtung 1023 dem anderen Eingang des Gatters 1025 zugeführt.
Abhängig vom Gatter 1025 wird der Inhalt des Eingangsregisters 10001 zum Minimum-Register 1005 übertragen und der Identifiziercode
im Register 1003 in das Minimum-Identifizierregister 1007 eingegeben.
Beim Auftreten eines nachfolgenden D_ -Code bewirkt das
Ausgangssignal des Impulsgenerators 1020, daß der neue D„ -Code
in das Eingangsregister 1001 und der entsprechende Identifizier-Code
ID3 in das Eingangsidentifizierregister 1003 gegeben wird. Der Komparator 1009 liefert ein Ausgangssignal nur dann, wenn der
D0 -Code im Eingangsregister 1001 kleiner als der im Minimum-Register
1005 gespeicherte Code ist. In diesem Fall wird der D_ Code
vom Register 1001 zum Register 1005 und der entsprechende Identifiziercode vom Register 1003 zum Register 1007 übertragen.
Wenn der D0 -Code im Register 1001 gleich oder größer als der
vorher bestimmte Minimum-Code im Register 1005 ist, so wird das Gatter 1025 nicht eingeschaltet und der vorher bestimmte Minimum-Code
bleibt im Minimum-Register 1005. Am Ende jedes D_ Vergleichs
wird die Folgeschaltung durch den Impuls ED2 von der
809822/0988
Verzögerungseinrichtung 1028 weitergeschaltet. Wenn der
letzte D~ -Code an den Wähler 123 geliefert wird, speichert
das Minimum-Identifizierregister 1007 den Identifizier-Code, der
demD» -Minimumsignal entspricht.
Der Komparator 1040 vergleicht den im Augenblick auftretenden Identifizier-Code mit dem letzten Identifizier-Code Q. Nachdem
das D^-Signal im Wähler 173 ausgewertet worden ist, wird das
Gatter 1041 eingeschaltet, und der Impulsgenerator 1042 liefert einen Impuls p.r*o an ^as Gatter 1044. Der dem D« -Minimum-Signal
aus dem Register 1007 entsprechende Identifiziercode wird
über das Gatter 1044 zum Gatter 1075 und von dort zum Speicher
176 für erkannte Ziffern übertragen, und zwar unter Ansprechen auf das Steuersignal TE2. Die Erkennung der unbekannten Ziffer
ist damit beendet. Beim Auftreten eines Signals ERM im Speicher wird dieses Signal zum Folgerichtigkeitsdetektor 157 übertragen, um
das Flip-Flop 737 im Detektor 157 zurückzustellen und außerdem zur Steuerung 180 geführt, um das Steuersignal TE2 abzuschalten
und das Steuersignal TEl zur Vorbereitung der Schaltung gemäß Fig. für die Erkennung der nachfolgenden Ziffer einzuschalten. Der
Zähler 177 nimmt bei Erkennung jeder unbekannten Ziffer
809822/0988
ν 7 b 3 2 / 7
die ERM-lmpulse aus dem Speicher 176 auf. Nachdem die n-te
unbekannte Ziffer erkannt ist, erzeugt der Zähler 177 ein Signal EDR,
das die Steuerung 180 veranlaßt, die Erkennungsbetriebsweise durch Abschaltung der Steuersignale TE, TEl und TE2 zu beenden.
809822/0988
A N H A N G 1 SS
Subroutine zur Durchführung der Stimmhaft-Stimmlos-Ruhe-Analyse
eines Blockes von Sprachabtastwerten.
S ist die Anordnung von Sprachabtastwerten, KI ist der Index des ersten Abtastwertes in dem Block,
KL ist der Index des letzten Abtastwertes in dem Block, L ist die endgültige VUS-Entscheidung L = 1 für Ruhe
L = 2 für stimmlos L ss 3 für stimmhaft,
RX ist die Mittelwertanordnung,
gewonnen aus dem VUS-Bezugsspeicher, SD ist die Anordnung für die Standardabweichung,
gewonnen aus dem Bezugsspeicher, COV ist die Kovarianz-Anordnung aus dem Bezugsspeicher.
SUDROUTINE VUb(S,KI,KL,L,RX,SD,COV)
DIMENSION S(I)
DIMENSION RX (5,3),SD(5.3),COV (5,5,3)
DIMENSION P(U) ,C (5) , A(3) ,T(J) ,Q(IS) ,PD(50)
C A 2-POLE LPC ANALYSIS IS USED FOH V/U/S
NP= 2
C COMPUTE ZERO CROSSINGS IN TUE BLOCK—NZEB
CALL ZERCRS (S, KI, KL. NZER)
C COMPUTE CORRELATION COEFFICIENrS—P,C
CALL CRMTEX(S, KI,KL, NP, P,C)
C COMPUTE ENSRGY-PS
CALL INPW)D(C, A (2) ,H, IC) C FOBM 5 PARAMETERS IN Q ARRAY
U(I)=NZER
Q(2) =10.*ALOG10(PS*XN)
Q(5)=C(1)/PP
C MAKE DISTANCE MEASUREMENTS AND SELECT MINIMUM
SMIN=1.E30
DO 20 K=I,J
DO 10 I = I,S
C(I) = (Q(I)-RX(I,K))/SD(1,K)
NSQ=25
SMIN=-SM
L=K
CONTINUE
RETURN
END
809822/0988
- 75·-
UINl1HOD INNER PRODUCT OF TWO VLtIOBS
C JAN 16, 197
DIMENSION A (1) ,B(I)
C PiOU=A(I) *B(1)*A(2) *B(2) ♦ *A(L) *B (L)
PBOD=O.
DOII=I,L PROD= PROD*A (I) *B(I)
RETURN
END
JAN 15, 1973 SUBROUTINE HOVE (X,Y,N)
DIMENSION X(I) ,¥(1) DOII= 1,N Y(I)=X(I)
RETURN END
CZERChS
COMPUTE ZEROCRObSlNGu FOK UNVOICED/VOICED DECISION
NZER=O
SPREV=S(LP-I)
DOIK=LP,NS
SPaES=S(K)
IF (SPRES.GT.0..A ND.SPREV.GT.O.) GOTO
NZER=NZEH*1
BETURN
END
000010IU
ϋΰυοιυ.υ
00001Oj j 0000104 0
OOOOIÜöO
0000107Ü 00001OdQ
οοοοιυ^υ
00001100 00001 11ü 00001120
OOOOIUü
C 121869
C CHECKED 1/6/72
NPP=NP
Κ1»ΚΙ
K2=KL
DOiOI=I,NPP
SHI(I)-O.
DO5J=K1,K2
CONTINUE
PS-O.
DO6J=K1,K2
PS= PS* S (J) *S(J)
DOI11=2,NPP
KII=KI-I
KLL=K2-I*1
11 PHI (I, I) =PHI (1-1,1-1) *S (KII) *S (KII) -S (KLL) *S (KLL)
PHI (1,2)-SHI ( 1) *S(Ki-1)*S(K1-2)-S(K2) *S(K2-1)
PHI(2, 1) =PHI (1,2)
IF(NP.LE.2) BETURN DO12J=3,NPP
KLJ*K2-J*1
PHI (1 ,J) =SHI (J- 1) *S(K1- 1) *S (KIJ) -S (K2) *S (KLJ)
PHI(J, 1)sPHI (1,J)
NPP=NP-I DO151=2,NPP
DO16J=J1,NP
KII=KI-I KIJ=KI-J KLI=K2-I*1 KLJ*K2-J*1
PHI (I, J) =PHI (1-1 ,J-I) *S (KII) »S (KIJ) -S (KLI) *S (KLJ)
16 PHI (J, I)=PHl (I, J)
KETURN
END
809822/0988
- TT-
CPHDPLY SOLVE MAThIX EQUATION AX = Q C 121869
C CHECKED 2/1/714
SUBROUTINE PIiDPLY (A, Q, X, NP, P, M).
DIMENSIONA(Np, NP) ,Q(I) ,X (1) ,P(I)
C PBOGRAM TO SOLVE THE MATKIX EQUATION AX ■ -Q
C A= S(TR) * S
C Q = S(TH) ♦ P
C P = S ♦ X
C M=O MATRIX A IS SINGULAR
C S IS STORED IN THE UPPER HALF OF A
C DIAGONAL TERMS OF S ARE STORED TEMPOBABILY IN X
N=NP
CONTINUE
CONTINUE
IF (N. EQ. 0) UOTO300
LMX=I-I
SMI=O.
SM2=0.
IF(LEQ. 1JGOTO210
DO50L=1,LMX SMI = SMUA(L,!) *A (L.I)
SM2=SM2*A(L,I) *P (L)
SK=A(I,I)-SMI IF (SK.LE.(1.0E-7))G
X (I) "1./SQBT(SK) P(I) = (Q(I)-SM2)*X(I)
JMN=I*1
IF(I.EQ.N) GOlOIUO
IF(I.EQ.N) GOlOIUO
DO6OJ=JMN, N
SM=O.
IF (LMX.EQ.0) GOTO60
DO70K=1,LMX SM=SMfA (K, I) *h (K, J)
A(I, J) = (A(J, I)-SM) *X(I)
continue 809822/0988
- 358--ANHANG 2 £?*
CONTINUE
002001=1,N
NN=N-I*1
SM=O.
JMN=NNH
DO180L=JMN,N
SM=SM-A (NN, L) *X (L* 1)
X(NNtI) = (SH-P (NN) ) *X (NN)
CONTINUE
MN
P(1)=P(1)*P(1)
DO800J=2,N
V (J)=P (J-I) »P (J) *P
IF (N. EQ. NP) HETUBN
J1=N*1
DO HO J=JI,NP
P(J)^P(J-I) MO X(JM)=O.
BETUBN CONTINOE
M»N
GOTOIO «00 N'LMX
GOTO?00
END
809822/0988
ANHANG 3
SUBßOUTINE TU COMPUTE MEANS AND COVAfiIAHCES FOB DATA LNTt)UINJ
C IN THE FOLLOWING WAY--A1(1) , A2(1) ,A3(1) ,...ANL(I)—Al [Z) tA
C 13(2) ,...ANL (2) --...--AI(NP) , A2 (NP) ,...ANL(NP)
C XM IS THE MEAN ARIiA Y OF LENGTH NP*NL
C XCOV IS THE COVARIANCE AR8AY--IT IS 3-DIMENSIONAL—DIMENSIONS
C 1 AND 2 ARE THt ROWS AND COLUMNS — DIMENSION 3 IS THE F&AttE NO
C IT IS ASSUMED INITIALLY THAT XM AND XCOV ABBAYS ABE ZEBOEU OUT
C NP IS THE NUMiJER OF PREDICTOR PA RAMATEBS--TYPICALLY
C XNEW IS THE DATA ENTERING THE ROUTINE C NL IS THE NUMULR OF FRAMES IN THE TIME ALIGNED SIGNAL
C NCT IS A COUNTEK FuIi THE NUMbEB OF BE PETITIONS--NCT IS ASSUMED
C TO BE SET TO O INITIALLY SUÜROUTINE XMXCOV(XM. XCOV, NP, XNtW,NCT,NL)
DIMENSION XM (1) , XCOV (1) ,XNEW(I) NT=NL*NP
DO 10 I= 1,NT XM(I) =XM(I) iXNEW (I) DO 20 K= 1,NL DO 20 I=1,NP
I1 = NL*(I-1) *K DO 20 J=1,NP JI=NL* (J-I) *K
XCOV (I,J,K) =XCOV(I, J,K) *XNEW(I1) 'XNEW(JI)
NCT=NCT*1 '
BETUBN
C THIS ROUTINE IS UJICD AFTEK ALL REPETITIONS HAVE BEEN USEO
C IT PERFORMS THE FINAL AVERAGING OF THE MEAN AND COVAiUANCE ABBA:
SUBBOUTINE XNOUM(XM, XCOV, NP, NCT, NL) DIMENSION XM(I), XCOV(I)
NT=NL*NP DO 10 I=I,NT XM (I) »XM (I)ZFLOAT (NCT)
DO 20 K=1,NL DO 20 I=1,NP H=NL* (1-1) »Κ
DO 20 J-1,HP JI=NL* (J-I) »Κ
XCOV (I, J,K)=XCOV (I, J, K) /FLOAT (NCT) -XM(H) *XM(J1)
RETUBN
END -
809822/0988
ANHANG 4
C A=POLYNoMIAL OF DEGREE LA-I; R=AUTOCOBBELATIOn FN. OF LENGTH LR
C (SUM(R(UABS(I-J)) ^A(J)) ,J=2, LA) =-R (I) ,1=2,LR
C COMPUTE AUTOCORRELATION FUNCTION FOB A GIVEN PREDICTOR C A(K) IS THE COEFFICIENT OF THE TERM Z** (-(K-I))
C T»TEMPOBARY SCRATCH ARRAY
LA-13
C NOBMALIZE FIBST COEFF OF POLY TO UNITY AND STOBE IN B
DO IK«= 2, LA B (K)-A(K) /A(I)
R(I)-L
L-LA*1
C COMPUTE BEFLECTIOU COEFFS ANO STOßE IN B
L-L-1
B(L)-B(L) BLsB (L) BL*ABS (BL)
KL-(L-I)/2
DO 12J= 1,KL
LJ-L-J
BJ»B (J*1)*B(L)*R(UI)
B(J*1)=D»RJ
R (LJ)=D* BLJ
IF(L.GT.3)GOTO2
R2«R(2)
B2*ABS(B2)
R (2)—B (2) ;
T(I)-L
T (2)—B (2)
C ABBAY B CONTAINS THE REFLECTION COEFFICIENTS C COMPUTE PBEDICTOn POLY OF DIFF DES AND STOBE IN T
C COMPUTE AUTOCOBBELATION FUNCTION AND STOfiE INTO B
LM«LA
DOI 5KO, LM KL«K-1
JL«KL/2 DO22J«1,JL KJ»K-J
TJ»T(J*1)-B(K)*T(KJ) TKJsT(KJ)-B(K) *T(J*1)
T(J»1)«TJ T(KJ)-TKJ
-1
D03J-1,KLL KJ-K-J
CONTINUE RETUBN
END
ANHANG 5
2 "I S 3 2 V
'C ' CALCULATES THE DISTANCE Dl DETWEEN THE MEAiI LPC VECTOR A ANU TlJE
C MEASURED VECTOIi AEST.
M= 12
IF (ICONT.EQ. 0) DAV=O-C
C FOBM AUGMENTED VECTOR
MPI=M*1
BA(I)=UO
DO 1 1=2,MPI
BA(I)=B(I-I)
CONTINUE
AD (1) =0.0
DO 2 1 = 1 ,M
11=1*1
AD(II)=A(I)-AEST(I)
CONTINUE
DO 3 I=1,MF1
C FOBM I TH COLUMN OF THE AUGMENTED CORRELATION MATBIX
SUM(I) =C
CONTINUE
CALL DCT(SUK, AD, D, MPI)
C BBES=RESIDUaL ERiiOR
D=D/BRES
BETÜBN
END
C«0.0
DO 1 I=I,M
COOTINUE
RETLiEH
end 609822/0
- βζ -
SUBBOUTINE FOTAT(R,RR,M,I)
C FORMS THE I TH COLUMN OF THE CORRELATION HATBIX
C COLUMN STORED IN RR
K = O
DO 2 J=I,M K=K* 1 RB(J)=R(K)
CONTINUE IF(LEQ. 1) RETURN 11=1-1 K=II*1 DO 1 J=1,II K=K-I BB (K)=B (J* 1) CONTINUE BETUBN END
8 0 9 8 2 2/ δ 9 8
M=12
NANAL=200.0
IF JICONT.EQ.O) DAV=O.O
C FIND DIFFEBENCE VECTOR
DO 1 I=I,M
AD(I)sA(I)-AMEAN(I) C GET COVABIANCE MATRIX OF ESTIMATION EBBOB
DO 99 1*1,M
11=1*1
RB(II)=R(I)
B(I)=LO
DO 9B 1=2,M
B(I)=BB(I)
DO 2 J=I,M
DO 3 K=I,M
1=1*1
SS(I)=BR(K) /RRES
SS(I) =SS (I) «-FLOAT (NANAL) CONTINUE CONTINUE
MSQ=M*M
DO 15 I=1,MSQ SS(I)=TT(I)
I=O
DO 6 J=I,M
DO 7 K=I,M
1=1*1
ss (I)=SS (I) *s (K, J)
CONTINUE «u
Ol
co
IO
uiT gTfäT
ν: ^ | CJD | Ig | |
CQ | Ll- | ||
I CJ U-
I Q- Q- |
|||
UJUJUJ | |||
Λ
f». |
|||
co | |||
809822/0988
σ co οο
ro
ο co α>
VOUI | 231 f 201 | »κ |
Lo a. -
Enei-cjie- 6enet'aiot~ |
||
113 | (203 | |
CSI | ||
ZaIiL et-
F-NuIl- |
'3 | |
r205 | ||
k | ||
Aufo -
Hon-flahous- Oenetafot- |
||
(207 | ||
'5 | ||
LPC-
FeHletqeu. |
||
(209 | ||
6enei-ctfol·
f. 1. LPC- Ko FFi 7ten feu |
7. fr
120
21K
1..
r217
r213
'215
rechuet
VUi-Beiuqsspeicher
222
FIG.2
7. Wf- ,
HOHfUf-
.
speicher
ι>
117
ff"
Claims (8)
- PATENTANSPRÜCHEgekennzeichnet durch eine Anordnung, die folgende Operationen ausführt:Aufteilen kontinuierlicher Ketten von verbundenen, identifizierten Sprachabschnitten in die identifizierten Sprachabschnitte (128);Erzeugen einer Gruppe von Bezugssignalen fUr jeden unterschiedlichen identifizierten Sprachabschnitt, die die Mittelwerte der Vorhersagekennwerte der stimmhaften Intervalle darstellen, und zwar ausgerichtet zur mittleren Dauer der stimmhaften Intervalle von Wiederholungen jedes der unterschiedlichen identifizierten Sprachabschnitte, die sich in den Ketten809822/0988München: R. Kramer Dipl.-Ing. . W. Weser Dipl.-Fliys. Dr. for. net. . P. Hirsch Dipl.-Ing. · H. P. Brehrn Dipl.-Chem. Or. phil. nat. Wiesbaden: P.G. Blumbach Oipl.-Ing'. . P.Bergen Dipl.-Ing. Dt.jur. . G. Zwirnor Dipl.-Ing. Dipl.-W.-Ing.ORIGINAL INSPECTEDΊΊΐϊϊΊΊwiederholen (122, 144 und 146);Aufteilen einer kontinuierlichen Kette von verbundenen Sprachabchnitten, die wenigstens einen unbekannten Sprachabschnitt enthält, in ihre Sprachabschnitte (128);Erzeugen einer Gruppe von Prüfsignalen, die die Vorhersagekennwerte des stimmharten Intervalls des unbekannten Sprachabschnittes darstellen (122);Ausrichten der Prüfsignale auf die mittlere Dauer des stimmhaften Intervalls jedes unterschiedlichen identifizierten Sprachabschnittes (152);Gemeinsames Ansprechen auf die Gruppe von ausgerichteten Prüfsignalen und jede Gruppe von Bezugssignalen zur Erzeugung eines Signals, das den Grad der Entsprechung zwischen den ausgerichteten Prüfsignalen für das stimmhafte Intervall und den Bezugssignalen für das stimmhafte Intervall darstellt (156, 170 ).
- 2. Spracherkennungseinrichtung nach Anspruch 1,gekennzeichnet durch eine Anordnung, die zur Aufteilung der Sprachabschnitte folgende Operationen ausführt:809822/0980ORIGINAL INSPECTEDUnterteilen der kontinuierlichen Kette von verbundenen Sprachabschnitten in vorbestimmte Sprachrahmen (105);Klassifizieren jedes Sprachrahmens als stimmhafte Sprache, stimmlose Sprache oder Ruhe (115);Erzeugen eines Signals fUr jeden Sprachrahmen, das die Energie der Sprache des Rahmens(201) darstellt;Bei Auftreten eines stimmlosen Sprachrahmens oder eines Ruhe-Rahmens unmittelbar nach einem stimmhaften Rahmen Identifizieren dieses stimmlosen Rahmens oder Ruherahmens als Sprachabschnitt-Grenzrahmen (303);Vergleichen der Anzahl von Grenzrahmen mit der Anzahl von Sprachabschnitten (324);Identifizieren von Energie-Mini ma-Rahmen als Sprachabschnitt-Grenzrahmen, wenn die Anzahl von Grenzrahmen kleiner als die Anzahl von Sprachabschnitten ist (320).809822/0988
- 3. Spracherkennungseinrichtung nach Anspruch 2, gekennzeichnet durch eine Anordnung zur Auswahl desjenigen identifizierten Sprachabschnittes, welches das Entsprechungssignal (Korrespondenzsignal) mit dem besten Grad an Entsprechung besitzt (160) und Bildung eines weiteren Entsprechungssignals (170) aus dieser Gruppe von ausgerichteten Prüfungssignalen und jeder Gruppe von Bezugssignalen, wenn der gewählte identifizierte Abschnitt und der unbekannte Abschnitt nicht stimmhaften, stimmlosen oder Ruheanfängen entsprechen.
- 4. Spracherkennungseinrichtung nach einem der vorhergehenden Ansprüche,gekennzeichnet durch eine Anordnung, die folgende Operationen ausführt:Erzeugen einer Gruppe von Bezugssignalen für jede identifizierte Ziffer, die die Mittelwerte m. der linearen Vorhersage-Koeffizienten des durchschnittlichen stimmhaften Intervalls der identifizierten Ziffer und die Covarianz S. der linearen Vorhersage-Koeffizienten darstellen, wobei ! = 1,2 ... Rv der i-te Rahmen des durchschnittlichen stimmhaften Intervalls809822/0988der identifizierten Ziffer von Nv Rahmen und q = 1, 2 ... Q die Identität der identifizierten gesprochenen Ziffer (122 und 146) sind;Erzeugen einer Gruppe von Prüfsignalena(n). , die die linearen Vorhersagekoeffizienten des stimmhaften Intervalls der unbekannten Ziffer darstellen, wobei η = 1, 2 ... ρ die Ordnungsnummer des Koeffizienten, ein Signal R. die Autocorrelations-Koeffizienten der unbekannten Ziffer und i = 1, 2 ... Nv der i-te Rahmen des stimmhaften Intervalls der unbekannten Ziffer mit Nv-Rahmen sind (122 und 137);Bestimmen der Entsprechung zwischen den Prüfsignalen a(n). der unbekannten Ziffer und Bezugssignalen m. für jede identifizierte Ziffer (q = 1, 2 ... Q) durch zeitliches Ausrichten der Prüfsignale a(n). für den Rahmen i = 1, 2 ... Nv des stimmhaften Intervalls der unbekannten Ziffer auf den Rahmen i = 1, 2 ... Nv des durchschnittlichen stimmhaften Intervalls der Bezugsgruppe;Gemeinsames Ansprechen auf die Gruppe von ausgerichteten Prüfsignalen a\, Ri und die q-ten Bezugssignale m. der identifizierten Ziffer zur Bildungeines Signals1 !Tv1, - ir J1809822/0988das die Entsprechung zwischen den Prüfsignalen a' und den q-ten Bezugssignalen rg. der identifizierten Ziffer darstellt (156);Unter Ansprechen auf die E ntsprechungssignale D. identifizieren der unbekannten Ziffer als diejenige identifizierte Ziffer, welche das kleinste Entsprechungssignal D. besitzt (160).
- 5. Spracherkennungseinrichtung nach Anspruch 3 und A1gekennzeichnet durch eine Anordnung (170), die das weitere Entsprechungssignal1 !Tv „ tfür jede q-te Ziffer q = 1, 2 .. . q und zur Identifizierung der unbekannten Ziffer abhängig von den zweiten Entsprechungssignalen als diejenige identifizierte Ziffer, welche das kleinste Entsprechungssignal D- besitzt.
- 6.) Spracherkennungseinrichtung nach einem der vorhergehenden Ansprüche,gekennzeichnet durch eine Anordnung, die folgende Operationen ausführt:809822/0988Erzeugen einer Gruppe von Bezugssignalen für jede identifizierte Ziffer, die die Mittelwerte m. derlinearen Vorhersaqe-iqKoeffizienten des durchschnittlichen stimmhaften Intervalls der identifizierten Ziffer und die Covarianz S. der linearen Vorhersage-Koeffizienten darstellen, wobei i = 1, 2 ... Nv der i-te Rahmen des durchschnittlichen stimmhaften Intervalls der identifizierten Ziffer mit Nv Rahmen und q = 1, 2 ... Q die Identität der identifizierten gesprochenen Ziffer sind (122 und 146);Erzeugen einer Gruppe von Prüfsignalen a(n)., die die linearen Vorhersagekoeffize inten des stimmhaften Intervalls der unbekannten Ziffer darstellen, wobei η = 1, 2 ... ρ die Ordnungsnummer des Koeffizienten ist, ein Signal R. die Autocorrelations-Koeffizienten der unbekannten Ziffer darstellt und i = 1, 2 ... Nv der i-te Rahmen des unbekannten stimmhaften Intervalls von Nv Rahmen ist (122 und 137);Bestimmen der Entsprechung zwischen den Prüfsignalen a(n). der unbekannten Ziffer und Bezugssignalen m. jeder q-ten•qidentifizierten Ziffer (q = 1, 2 ... Q) durch zeitliches Ausrichten der PrUfsignale α (η), für den Rahmen des stimmhaften Intervalls der unbekannten Ziffer i = 1, 2 .. .Nv zum durchschnittlichen809822/0988Rahmen i = 1, 2 ... Nv des stimmhaften Intervalls der Bezugsgruppe;Gemeinsames Ansprechen auf die ausgerichteten Prüfsignalea'. , R. und die Bezuqssiqnale m der q-ten identifizierten Ii iqZiffer zur Bildung eines Signalsdas die Entsprechung zwischen den Prüfsignalen a' und den Bezugssignalen m. der q-ten identifizierten Ziffer für jede q-te Ziffer darstellt (170).
- 7. Spracherkennungseinrichtung,
gekennzeichnet durch:Einen Speicher (148), der eine Gruppe von Bezugssignalen enthält, von denen jede Gruppe einem anderen identifizierten Sprachabschnitt entspricht, die die Mittelwerte der Vorhersagekennwerte der stimmhaften Intervalle darstellen, und zwar ausgerichtet zur mittleren Dauer der stimmhaften Intervalle von Wiederholungen jedes der unterschiedlichen identifizierten Sprachabsch η i tte;809822/0988und eine Anordnung zur Aufteilung einer kontinuierlichen Kette von verbundenen Sprachabschnitten, die wenigstens einen unbekannten Sprachabschnitt enthalten, in ihre Sprachabschnitte (128);zur Erzeugung einer Gruppe von Prüfsignalen, die die Vorhersagekennwerte des stimmhaften Intervalls des unbekannten Sprachabschnittes darstellen (122);Ausrichten der Prüfsignale auf die mittlere Dauer des stimmhaften Inteivalls jedes unterschiedlichen identifizierten Spiachabschnitts 052);Gemeinsames Ansprechen auf die Gruppe von ausgerichteten Prüfsignalen und jede Gruppe von Bezugssignalen zur Erzeugung eines Signals, das den Grad der Entsprechung zwischen den ausgerichteten Prüfsignalen und den Bezugssignalen für das stimmhafte Intervall darstellt (156). - 8. Verfahren zur Erkennung von Sprache, gekennzeichnet durch die Verfahrensschritte:Aufteilen kontinuierlicher Ketten von verbundenen, identifizierten809822/0988Λ ΟSprachabschnitten in die identifizierten Sprachabschnitte;Erzeugen einer Gruppe von Bezugssignalen für jeden unterschiedl ichen identifizierten Sprachabschnitt, die die Mittelwerte der Vorhersagekennweite der stimmhaften Intervalle darstellen, und zwar ausgerichtet zur mittleren Dauer der stimmhaften Intervalle von Wiederholungen jedes der unterschiedlichen identifizierten Sprachabschnitte, die sich in den Ketten wiederholen;Aufteilen einer kontinuierlichen Kette von verbundenen Sprachabschnitten, die wenigstens einen unbekannten Sprachabschnitt enthält, in ihre Sprachabschnitte;Erzeugen einer Gruppe von Prüfsignalen, die die Vorhersagekennwerte des stimmhaften Intervalls des unbekannten Sprachabschnittes darstellen;Ausrichten der Prüfsignale auf die mittlere Dauer des stimmhaften Intervalls jedes unterschiedlichen identifizierten Sprachabschnittes;809822/0988Gemeinsames Ansprechen auf die Gruppe von ausgerichteten Prüfsignalen und jede Gruppe von Bezugssignalen zur
Erzeugung eines Signals, das den Grad der Entsprechung
zwischen den ausgerichteten Prüfsignalen für das stimmhafte Intervall und den Bezugssignalen fü~ das stimmhafte Intervall darstellt.809822/0988
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US05/746,106 US4092493A (en) | 1976-11-30 | 1976-11-30 | Speech recognition system |
Publications (2)
Publication Number | Publication Date |
---|---|
DE2753277A1 true DE2753277A1 (de) | 1978-06-01 |
DE2753277C2 DE2753277C2 (de) | 1986-04-03 |
Family
ID=24999510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2753277A Expired DE2753277C2 (de) | 1976-11-30 | 1977-11-30 | Verfahren und Einrichtung zur Spracherkennung |
Country Status (5)
Country | Link |
---|---|
US (1) | US4092493A (de) |
JP (1) | JPS53105103A (de) |
DE (1) | DE2753277C2 (de) |
FR (1) | FR2372486A1 (de) |
GB (1) | GB1571139A (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3242866A1 (de) * | 1981-11-19 | 1983-08-25 | Western Electric Co., Inc., 10038 New York, N.Y. | Verfahren und vorrichtung zum erzeugen von untereinheit-sprachmustern |
DE3733659A1 (de) * | 1986-10-03 | 1988-04-21 | Ricoh Kk | Verfahren zum vergleichen von mustern |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4164025A (en) * | 1977-12-13 | 1979-08-07 | Bell Telephone Laboratories, Incorporated | Spelled word input directory information retrieval system with input word error corrective searching |
US4181821A (en) * | 1978-10-31 | 1980-01-01 | Bell Telephone Laboratories, Incorporated | Multiple template speech recognition system |
JPS5569880A (en) * | 1978-11-22 | 1980-05-26 | Nec Corp | Pattern recognition unit |
US4277644A (en) * | 1979-07-16 | 1981-07-07 | Bell Telephone Laboratories, Incorporated | Syntactic continuous speech recognizer |
US4383135A (en) * | 1980-01-23 | 1983-05-10 | Scott Instruments Corporation | Method and apparatus for speech recognition |
BR8108616A (pt) * | 1980-05-19 | 1982-04-06 | John S Reid | Aperfeicoamentos em processamento de sinais |
US4831653A (en) * | 1980-11-12 | 1989-05-16 | Canon Kabushiki Kaisha | System for registering speech information to make a voice dictionary |
US4363102A (en) * | 1981-03-27 | 1982-12-07 | Bell Telephone Laboratories, Incorporated | Speaker identification system using word recognition templates |
US4400788A (en) * | 1981-03-27 | 1983-08-23 | Bell Telephone Laboratories, Incorporated | Continuous speech pattern recognizer |
US4468804A (en) * | 1982-02-26 | 1984-08-28 | Signatron, Inc. | Speech enhancement techniques |
JPS59192A (ja) * | 1982-06-25 | 1984-01-05 | 株式会社東芝 | 個人照合装置 |
US4720863A (en) * | 1982-11-03 | 1988-01-19 | Itt Defense Communications | Method and apparatus for text-independent speaker recognition |
US4618984A (en) * | 1983-06-08 | 1986-10-21 | International Business Machines Corporation | Adaptive automatic discrete utterance recognition |
US4720802A (en) * | 1983-07-26 | 1988-01-19 | Lear Siegler | Noise compensation arrangement |
US5131043A (en) * | 1983-09-05 | 1992-07-14 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for speech recognition wherein decisions are made based on phonemes |
US4991216A (en) * | 1983-09-22 | 1991-02-05 | Matsushita Electric Industrial Co., Ltd. | Method for speech recognition |
JPS60181798A (ja) * | 1984-02-28 | 1985-09-17 | 電子計算機基本技術研究組合 | 音声認識装置 |
US4980918A (en) * | 1985-05-09 | 1990-12-25 | International Business Machines Corporation | Speech recognition system with efficient storage and rapid assembly of phonological graphs |
US4799262A (en) * | 1985-06-27 | 1989-01-17 | Kurzweil Applied Intelligence, Inc. | Speech recognition |
US4920568A (en) * | 1985-07-16 | 1990-04-24 | Sharp Kabushiki Kaisha | Method of distinguishing voice from noise |
WO1987002816A1 (en) * | 1985-10-30 | 1987-05-07 | Central Institute For The Deaf | Speech processing apparatus and methods |
US4820059A (en) * | 1985-10-30 | 1989-04-11 | Central Institute For The Deaf | Speech processing apparatus and methods |
USRE34247E (en) * | 1985-12-26 | 1993-05-11 | At&T Bell Laboratories | Digital speech processor using arbitrary excitation coding |
US4827517A (en) * | 1985-12-26 | 1989-05-02 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech processor using arbitrary excitation coding |
US4837830A (en) * | 1987-01-16 | 1989-06-06 | Itt Defense Communications, A Division Of Itt Corporation | Multiple parameter speaker recognition system and methods |
US4961160A (en) * | 1987-04-30 | 1990-10-02 | Oki Electric Industry Co., Ltd. | Linear predictive coding analysing apparatus and bandlimiting circuit therefor |
US4937870A (en) * | 1988-11-14 | 1990-06-26 | American Telephone And Telegraph Company | Speech recognition arrangement |
US5274695A (en) * | 1991-01-11 | 1993-12-28 | U.S. Sprint Communications Company Limited Partnership | System for verifying the identity of a caller in a telecommunications network |
US5526466A (en) * | 1993-04-14 | 1996-06-11 | Matsushita Electric Industrial Co., Ltd. | Speech recognition apparatus |
US5740319A (en) * | 1993-11-24 | 1998-04-14 | Texas Instruments Incorporated | Prosodic number string synthesis |
US5471527A (en) | 1993-12-02 | 1995-11-28 | Dsc Communications Corporation | Voice enhancement system and method |
KR970017456A (ko) * | 1995-09-30 | 1997-04-30 | 김광호 | 음성신호의 무음 및 무성음 판별방법 및 그 장치 |
JP4218982B2 (ja) * | 1996-03-29 | 2009-02-04 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | 音声処理 |
EP0811906B1 (de) * | 1996-06-07 | 2003-08-27 | Hewlett-Packard Company, A Delaware Corporation | Sprachsegmentierung |
US6240299B1 (en) * | 1998-02-20 | 2001-05-29 | Conexant Systems, Inc. | Cellular radiotelephone having answering machine/voice memo capability with parameter-based speech compression and decompression |
US7239321B2 (en) * | 2003-08-26 | 2007-07-03 | Speech Graphics, Inc. | Static and dynamic 3-D human face reconstruction |
US7756709B2 (en) * | 2004-02-02 | 2010-07-13 | Applied Voice & Speech Technologies, Inc. | Detection of voice inactivity within a sound stream |
JP3827317B2 (ja) * | 2004-06-03 | 2006-09-27 | 任天堂株式会社 | コマンド処理装置 |
US7475016B2 (en) * | 2004-12-15 | 2009-01-06 | International Business Machines Corporation | Speech segment clustering and ranking |
FR2881867A1 (fr) * | 2005-02-04 | 2006-08-11 | France Telecom | Procede de transmission de marques de fin de parole dans un systeme de reconnaissance de la parole |
DE102006017278A1 (de) * | 2006-04-12 | 2007-10-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Nachweis des Beginns einer Apnoe |
US8401331B2 (en) * | 2007-12-06 | 2013-03-19 | Alcatel Lucent | Video quality analysis using a linear approximation technique |
US9245529B2 (en) * | 2009-06-18 | 2016-01-26 | Texas Instruments Incorporated | Adaptive encoding of a digital signal with one or more missing values |
US20130090926A1 (en) * | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
JP6836340B2 (ja) * | 2015-09-29 | 2021-02-24 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 不正検知電子制御ユニット、車載ネットワークシステム及び通信方法 |
KR102487323B1 (ko) * | 2021-01-14 | 2023-01-11 | 가톨릭대학교 산학협력단 | 하이브리드 기법을 적용한 소음하 숫자 기반 청력 검사 방법 및 청력 검사 장치 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3225141A (en) * | 1962-07-02 | 1965-12-21 | Ibm | Sound analyzing system |
US3238303A (en) * | 1962-09-11 | 1966-03-01 | Ibm | Wave analyzing system |
US3553372A (en) * | 1965-11-05 | 1971-01-05 | Int Standard Electric Corp | Speech recognition apparatus |
US3499987A (en) * | 1966-09-30 | 1970-03-10 | Philco Ford Corp | Single equivalent formant speech recognition system |
US3816722A (en) * | 1970-09-29 | 1974-06-11 | Nippon Electric Co | Computer for calculating the similarity between patterns and pattern recognition system comprising the similarity computer |
US3700815A (en) * | 1971-04-20 | 1972-10-24 | Bell Telephone Labor Inc | Automatic speaker verification by non-linear time alignment of acoustic parameters |
US3940565A (en) * | 1973-07-27 | 1976-02-24 | Klaus Wilhelm Lindenberg | Time domain speech recognition system |
US3943295A (en) * | 1974-07-17 | 1976-03-09 | Threshold Technology, Inc. | Apparatus and method for recognizing words from among continuous speech |
-
1976
- 1976-11-30 US US05/746,106 patent/US4092493A/en not_active Expired - Lifetime
-
1977
- 1977-11-23 GB GB48720/77A patent/GB1571139A/en not_active Expired
- 1977-11-29 FR FR7735847A patent/FR2372486A1/fr active Granted
- 1977-11-30 DE DE2753277A patent/DE2753277C2/de not_active Expired
- 1977-11-30 JP JP14286277A patent/JPS53105103A/ja active Granted
Non-Patent Citations (1)
Title |
---|
US-Proceedings of the IEEE, Vol. 64, No. 4, 1976, Seiten 487-531 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3242866A1 (de) * | 1981-11-19 | 1983-08-25 | Western Electric Co., Inc., 10038 New York, N.Y. | Verfahren und vorrichtung zum erzeugen von untereinheit-sprachmustern |
DE3733659A1 (de) * | 1986-10-03 | 1988-04-21 | Ricoh Kk | Verfahren zum vergleichen von mustern |
Also Published As
Publication number | Publication date |
---|---|
FR2372486B1 (de) | 1983-03-11 |
GB1571139A (en) | 1980-07-09 |
US4092493A (en) | 1978-05-30 |
JPS53105103A (en) | 1978-09-13 |
FR2372486A1 (fr) | 1978-06-23 |
DE2753277C2 (de) | 1986-04-03 |
JPS5739440B2 (de) | 1982-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2753277A1 (de) | Spracherkennungseinrichtung | |
DE2953262C2 (de) | ||
DE3236834C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE2659083C2 (de) | Verfahren und Vorrichtung zur Sprechererkennung | |
DE2659096C2 (de) | ||
DE2613258C2 (de) | Schaltungsanordnung zum Erkennen von einem oder mehreren Schlüsselworten in kontinuierlicher Sprache | |
DE69420400T2 (de) | Verfahren und gerät zur sprechererkennung | |
DE69705830T2 (de) | Sprachverarbeitung | |
DE3306730C2 (de) | ||
DE69127961T2 (de) | Verfahren zur Spracherkennung | |
DE3878001T2 (de) | Spracherkennungseinrichtung unter anwendung von phonemermittlung. | |
DE3884880T2 (de) | Billige Spracherkennungseinrichtung und Verfahren. | |
DE3236832A1 (de) | Verfahren und geraet zur sprachanalyse | |
DE69416668T2 (de) | Unterscheidung zwischen stationären und nicht-stationären signalen | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE2825110A1 (de) | Verfahren zur erkennung kontinuierlicher sprachsignale | |
DE3236885A1 (de) | Verfahren und geraet zur sprachanalyse | |
DE2825082A1 (de) | Verfahren zur spracherkennung | |
DE4310190A1 (de) | Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn | |
DE2551632C2 (de) | Verfahren zum Zusammensetzen von Sprachnachrichten | |
DE2825186A1 (de) | Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
EP0076233B1 (de) | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung | |
DE2753707A1 (de) | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache | |
DE69121411T2 (de) | Methode und gerät zur codierung von analogen signalen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OD | Request for examination | ||
8125 | Change of the main classification |
Ipc: G10L 9/14 |
|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: AT & T TECHNOLOGIES, INC., NEW YORK, N.Y., US |
|
8328 | Change in the person/name/address of the agent |
Free format text: BLUMBACH, P., DIPL.-ING., 6200 WIESBADEN WESER, W., DIPL.-PHYS. DR.RER.NAT., 8000 MUENCHEN ZWIRNER,G., DIPL.-ING. DIPL.-WIRTSCH.-ING., PAT.-ANW., 6200 WIESBADEN |
|
8339 | Ceased/non-payment of the annual fee |