DE2326517A1 - Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern - Google Patents
Verfahren und schaltungsanordnung zum erkennen von gesprochenen woerternInfo
- Publication number
- DE2326517A1 DE2326517A1 DE2326517A DE2326517A DE2326517A1 DE 2326517 A1 DE2326517 A1 DE 2326517A1 DE 2326517 A DE2326517 A DE 2326517A DE 2326517 A DE2326517 A DE 2326517A DE 2326517 A1 DE2326517 A1 DE 2326517A1
- Authority
- DE
- Germany
- Prior art keywords
- signals
- word
- frequency
- words
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 12
- 230000003044 adaptive effect Effects 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000000737 periodic effect Effects 0.000 claims description 2
- 101100328078 Bos taurus CL46 gene Proteins 0.000 claims 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims 1
- 230000011664 signaling Effects 0.000 claims 1
- 230000007704 transition Effects 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 10
- 230000001360 synchronised effect Effects 0.000 description 8
- 230000035945 sensitivity Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 5
- 239000003990 capacitor Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000036461 convulsion Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephonic Communication Services (AREA)
- Traffic Control Systems (AREA)
- Image Analysis (AREA)
Description
Verfahren und Schaltungsanordnung zum Erkennen von gesprochenen
Wörtern
Die Erfindung betrifft ein ¥erfahren und eine Schaltungsanordnung,
die zusammengesogen oder getrennt ausgesprochene Wörter erkennen kann. Dies beruht auf der Verknüpfung -von Lauten im eingeschtran-"
genen Zustand, die ein Sprecher bei der Aussprache eines Wortes hervorbringt, für das eiae bestimmte Anordnung von Lauten im ein-
geschwungenen Zustand zuvor in einer Lernphase eingespeichert
worden waro Geräte für die automatische Worterkennung müssen
irgendeine Form der Sprachanalyse benutzen„ Eiae solche Sprachanalyse arbeitet mit eimern Lautspektrographexi, der ein sichtbares
Bild der Resonanzen des Stimmbereichs erzeugt, welche eine
Energieverteilung in dem Frequenzbereich liefert, die als Formanten
bekannt sind und zur Sprachanalyse und »synthese benutzt
wurden. Mit diesem Hilfsmittel wurden die Formanten in der Sprache
isoliert„ die zur Erzeugung einer erkennbaren Sprache benutzt
werden können· Dadurch x-iird offensichtlich„ daß ,die wichtigen
informationsträchtigen Elemente tt zumindest vom Standpunkt
des menschlichen Hörens aus, in Kombinationen eindeutiger Formant en liegen.
Mit einem handelsüblichen Frequenzspektrumanalysator, als Sonograph bekannt, kann eine sichtbare Reproduktion (Sonogramm)
der Verteilung von Schallenergie als Funktion der Frequenz, der Zeit und Intensität hergestellt werden.
Das Gerät ist sehr nützlich zur Bestimmung eigenartiger Kehlkopflaute,
der Frequenz/Energieverteilung und der Modulationscharakteristik eines bestimmten Sprechers. Unglücklicherweise
enthält das Schallspektrogramm oder Sonogramm eine solche Unmenge von Information, daß in seinem Verlauf viele verwirrende
Einzelheiten vorhanden sind, so daß das geschulte Auge bestimmte dominierende Merkmale zur weiteren Analyse auswählen
muß. In neuerer Zeit wurden Datenverarbeitungsanlagen so programmiert, daß sie spektrographische Information direkt
aus einem akustischen Signal erstellen. Wie das Sonogramm, liefert dieses Verfahren jedoch mehr Einzelinformation, als
für die Erkennung einzelner Wörter notwendig oder auch nur leicht nutzbar ist.
Um die zur Analyse benutzte Informationsmenge zu reduzieren,
wurden von verschiedenen Forschern die Unterbrechungen oder die abrupten. Frequenzübergangspunkte im Spektrogramm als Hauptmerkmale
für die Analyse benutzt. Während bisher ein gewisser Erfolgsgrad durch Benutzung dieser Übergangspunkte in einem
gesprochenen Wort als Erkennungsmerkmal erreicht wurde, werfen Änderungen in der individuellen Aussprache ein- und desselben
Wortes ein großes Problem bei der Erkennung dieses Wortes auf, wenn von mehreren Sprechern gesprochen wird. Umfangreiche
Speicher- und Vergleichseinrichtungen waren allgemein exforderlich, um die Verschiedenheit der Übergangsfolgen zusammenzufassen
und zu vergleichen, um das gleiche Wort wirksam erkennen zu können, wenn es von verschiedenen Sprechern
gesprochen wird.
309849/0998
RA 9-71-031
Noch größere Probleme entstehen bei der Erkennung von zusammengezogen
gesprochenen Wörtern, weil die Wortgrenzen nicht eindeutig feststellbar sind und oft auch Verschleifungen vorkommen,
in denen das nächste Wort schon begonnen wird, bevor das vorhergehende fertiggesprochen ist. Abhängig vom Zusammenhang
, in welchem es benutzt wird, liefert ein bestimmtes gesprochenes Wort auch unterschiedliche akustische Signale.
Die leichten Unterschiede in der Aussprache, die der Sprecher zum Ausdruck verschiedener Gefühle, unterschiedlicher Bedeutung
oder anderer Grade der Betonung macht„ erzeugen unterschiedliche
akustische Signale auch für dasselbe Wort. Dieses Problem führte verschiedene Forscher dazu, nicht die Erkennung
eines Wortes als solches, sondern die Erkennung einer kleineren Grundeinheit, wie z.B. einer Silbe oder eines Phonems,
anzustreben. Die Erkennung--kleinerer Einheiten erfordert
jedoch die nachfolgende Verbindung solcher Untereinheiten zu Wörtern= Diese bisher bekannte Technik fordert eine
sehr leistungsfähige Datenverarbeitungsanlage zum Vergleich solcher Verknüpfungen mit gespeicherten Mustern zur Identifizierung
eines Wortes.
Die Aufgabe der vorliegenden Erfindung besteht also in.der
Schaffung eines verbesserten Spraeherkennungssystemes, das
eine relativ kleine Bibliothek idealisierter, im eingesehwungenen
Zustand befindlicher Laute benutzt t um damit
entweder· einzeln oder zusammengezogen gesprochene Wörter zu erkennen. Das System soll so an die Eigenarten einer bestimmten
Person anpaßbar sein, daß von dieser Person gesprochene Worte erkennbar sindο
Diese der Erfindung zugrunde liegende Aufgabe wird durch ein
Verfahren zum automatischen Erkennen von gesprochenen Wörtern
gelöst, bei dem in voller Bandbreite vorliegende und elektronisch verstärkte Sprachsignale zur Frequenzanalyse in einem
Analysator in eine Anzahl frequenzmäßig benachbarter Teilfrequenzbereiche unterteilt werden und das.sich durch folgende
309849/0996
RA 9-71-031
Verfahrensschritte auszeichnet:
Periodisches Abtasten der Momentanwerte der eingeschwungenen
Signale in den Teilfreguenzbereichen zur Feststellung, welches der Signale oberhalb eines gleitenden Sehwellwertes liegt.,
zeitweiliges Einspeichern von Mustern von Signalen, die eine Information darüber darstellen, welches der abgetasteten Ausgangssignale
des Analysators oberhalb bzw. unterhalb des Schwellwertes liegt.
Vergleichen der so zeitweise gespeicherten Signalmuster mit vorher in einem Speicher eingespeicherten Signalmustern und
Bestimmen der weitestgehenden Übereinstimmung zwischen den zum
Vergleich stehenden Mustern,
Anzeigen des Vergleichsergebhisses für jeden solchen Vergleich zweier Signalmuster und
sequentielles Abspeichern dieser Signale als Uniphone als
codierte Form der abgetasteten eingeschwungenen Sprachsignale und umwandeln von Folgen solcher sequentiell gespeicherter
codierter Uniphone in Wörter durch eine entsprechende Umwandlungseinrichtung zur Identifizierung der gesprochenen
Wörter.
Ein Äusführungsbeispiel der Erfindung ist in den Zeichnungen
dargestellt und wird anschließend näher beschrieben. Es zeigen:
Fig. 1 schematisch die gesamte Anordnung zur Worterkennung;
Fig. 2 schematisch einen in der in Fig. 1 gezeigten Anordnung benutzten Sprachanalysator;
Fig. 3 eine die Ausgangssignale des in Fig. 2 gezeigten
Sprachanalysators benutzende Auswahlschaltung, die mögliche Uniphonsignale zum Vergleich und zur Identifizierung
erzeugt;
309849/0996
RA 9-71-031
Pig. 4 schematisch einen sprachgesteuerten Taktgeber zur Erzeugung von Synchronisationsimpulsen für die Register
und die Steuerung der Arbeitsweise der Gesamtanlage;
Fig. 5 schematisch ein gesteuertes Schieberegister? das
Merkmalfolgen zum Vergleich und zur Identifizierung von Uniphonen an eine Speicherschaltung abgibt?
Fig. 6 schematisch einen in dem Äusführungsbeispiel der Erfindung
benutzten Speicher zum Speichern und Vergleichen der Merkmale eines personalisierten Satzes
von uniphonen für einen bestimmten Sprecher?
Fig. 7 ein Schieberegister s in dem identifizierte Uniphone
in Wortfolgen für die Weitergabe an Worterkennungs— schaltungen festgehalten werdenι *
Fig. 8 schematisch eine im Äusführungsbeispiel benutzte Schaltung zur Worterkennung und binären Codierung?
Figo 9 die Rückstell-Verriegelungsschaltungen und das
Äusgaberegisterg
Fig= IOä und 1OB weitere Verriegelungsschaltungen und
Steuerungen im einzelnen?
Fig. 11 eine Schalttafel für die Uniphon-Folge-Wortbibliöthek
und
Fig. 1-2 eine willkürlich, gewählt® ünipa.onbi&liot!ielt von
Lauten eines hypothetischen SprecfierSo
Das. Gesamtblockschaltbild der Figo 1 zeigt die gesamte Wort—
erkemrangsschaltung der Erfindung» In das Mikrofon 1 gesprochene
Wörter werden -in elektrische Signale umgewandelt Q
BA 9-71-Ό31
die verstärkt und dann ±n einer Reihe frequenzmäßig benachbarter,
aneinander anschließender Bandpaßfilter im Sprachanalysator 2 analysiert werden. Die von den Filtern kommenden
Ausgangssignale werden gleichgerichtet und weiter gefiltert zur Erzeugung verschiedener Gleichstromsignale an den Ausgängen
des Sprachanalysators 2. Die Ausgangssignale des Sprachanalysators 2 stellen die Signalpegel dar, die durch das Ansprechverhalten
der Sprachbereiche des jeweiligen Sprechers
bei Aussprache eines gegebenen Wortes oder Tones über dem gesamten durch die Bandpaßfilter im Analysator 2 erfaßten Frequenzspektrum
erzeugt werden. Durch jedes Filter wird ein gesondertes Ausgangssignal erzeugt, das der Energieverteilung
in dem von dem betreffenden Filter durchgelassenen Teilfrequenzbereich
oder Frequenzbandes entspricht»
Die Merkmalauswahlschaltungen 3 identifizieren hervorstechende Merkmale oder Pole der Energiekonzentration innerhalb der Einhüllenden
des Frequenzspektrums, die als Spannungssignale am Ausgang des Sprachanalysators 2 auftreten« Die Merkmalauswahlschaltungen
3 sind mit selbstregelnden Schwellwert- und Impulsformeirstufen ausgerüstet, die gut geformte Rechteckimpulse
mit einer Standardamplitude als Eingangssignale für das Merkmalschieberegister 4 erzeugen» Durch, die Merkmal—
auswahlschaltungen 3 werden nur diejenigen Signale von verschiedenen
Bandpaßfiltern zur vorübergehenden Speicherung als ausgewählte Merkmale des analysierten Klanges weitergeleitet, die die selbstregelnden Schwel!werte überschreiten=
Ώα Merkmalschieberegister 4 werden die so identif!gierten
Merkmale vorübergehend zur bildlichen Darstellung auf dem Bildanzeigegerät 5 gespeichert. Diese Merkmale bilden ein
mögliches Uniphon als einer Folge von Einsen und Nullen, die darstellen, wann ein- Ausgangssignal der Merkmal-Auswahlschaltung
unterhalb oder oberhalb eines vorgegebenen Schwellwertes liegt. Während der Anpassung der Anlage an einen bestimmten
Sprecher wird die Anwesenheit dieser eindeutigen Folge von Einsen und Nullen im Schieberegister 4 dazu be-
9-71-031· 30984'9/0996
nutzt, einen Taktgeber solange anzuhalten, bis die Folge von Einsen und Nullen in einen Adaptivspeicher 6 eingegeben ist.
Der Adaptivspeicher 6 umfaßt eine Anzahl von Speichereinheiten,
die als elektronische Schablonen bekannt sind. Diese Einheiten sind genauer beschrieben dm lEEE-Spektrum vom August 1971,
Seiten 57 bis 69, sowie in der US-Patentschrift Nr. 3539994.
Während der Lernphase der Maschine spricht ein Sprecher eine ausgewählte Liste von Wörtern, aus welcher dann die gewünschten
Laute zur willkürlichen Klassifizierung in 10 Konsonanten- und 10 Vokalkategorien erfolgt, die den Satz der Uniphone
eines gegebenen Sprechers bilden. In diesem Beispielsatz sind nur 20 uniphone verwendet worden, bei Bedarf kann jedoch auch
ein erweiterter Satz Uniphone verwendet werden, um den Erkennungsgrad des Systems zu erhöhen. Diese Uniphone werden in
elektronischen Schablonen eines Adaptivspeichers 6 gespeichert.
Während der ersten Vokalerkennung beim Aufbau der Bibliothek werden gesprochene Wörter zur späteren Analyse zuerst im
Sprachanalysator 2 analysiert, die herausragenden Merkmale werden durch Merkmalauswahlschaltungen 3 ermittelt und im
Merkmalschieberegister 4 gespeichert, von wo aus sie mit dem Inhalt des adaptiven Speichers zur Identifizierung des Uniphongehaltes
eines zu analysierenden Wortes verglichen werden können. Die aus dem Adaptivspeicher 6 kommenden Folgen erkannter
Uniphone werden vorübergehend im Uniphonschieberegister 7 zur Darstellung auf einer Anzeigevorrichtung 8
gespeichert. Dann kann damit eine Wortbibliothek bestimmter zu erkennender Wörter durch Verbindung identifizierter Uniphonfolgen
mit zugeordneten Wortdetektoren aufgebaut werden. Dazu wird eine Einrichtung, wie z.B. eine Schalttafel oder
ein gleichwertiger digitaler Speicher, benutzt, so daß die Erzeugung einer gegebenen Folge von Uniphonen ein Signal erregt,
das ein gegebenes Wort in der Worterkennungs— und Codiereinrichtung 10 bezeichnet. Während des automatischen
Betriebes des Systems ergeben in das Mikrofon gesprochene
RA 9-71-031 . 3-0 9849/0 996
Wörter Uniphonfolgen, die im Adaptivspeicher 6 erkannt, im
Schieberegister 7 vorübergehend gespeichert und wahlweise durch, die Schalttafel 9 mit der Worterkennungs— und Codiereinrichtung
10 verbunden werden können. In der Worterkennungsund Codiereinrichtung 10 werden Wörter erkannt und mit einem
Wörtcode zum Speichern im Ausgabeschieberegister 11 codiert, wo sie zur überprüfung vor der Benutzung zur Verfügung gestellt
werden können.
Aus dieser kurzen Beschreibung ist zu ersehen, daß ein gegebenes Wort, das mittels bekannter Codierverfahren bisher zu Zehn—
tausenden den gesamten Frequenzgehalt des Wortes darstellenden Bits codiert werden könnte, schließlich als gültiges Codesignal mit wesentlich weniger Bits am Ausgang des Worterkennungssystems
auftreten kann. Herkömmliche Erkennungssysteme basierten auf ganzen Wortmustern und müssen notwendigerweise
einen um einige Größenordnungen größeren Speicher haben, um die Wortrauster zu speichern, als ein System, welches auf der
Speicherung einer kleinen Anzahl von grundlegenden Sprachmerkmalen aufbaut. Ein großer Vorteil der Erfindung besteht
darin, daß erkannte Wörter zur Übertragung digitalisiert und die Anzahl der zur Übertragung erforderlichen Bits um einige
Größenordnungen verringert werden kann. Weiterhin können auf diese Weise codierte Wörter während der übertragung vor
unberechtigter Erkennung und Abfrage geschützt werden, da jede beliebige Codierung für die Übertragung eines gegebenen
Wortes unter der Voraussetzung, verwendet werden kann, daß
die Codierung an beiden Seiten des übertragungssystemes bekannt
ist. Außerdem kann die Sprachübersetzung leicht angepaßt werden. Wenn ein Wort einmal richtig erkannt und digitalisiert
ist, kann man das im Speicher befindliche digitalisierte Worteinfach in einer anderen Sprache ausgeben. Gesprochene
Wörter können außerdem in gedruckte Wörter umgesetzt werden, indem man einfach einen Drucker oder ein Sichtanzeigegerät
mit der codierten digitalisierten Darstellung eines Wortes ansteuert.
3 0 9 8 4 9/0996
RA 9-71-031
In dem Gesamtsehaltbild der Fig. 1 werden die Funktionen der anderen oben beschriebenen Hauptblocks durch einen sprachgesteuerten
Taktgeber 12 und Verriegelungsschaltungen 13 miteinander verbunden und koordiniert. Diese Teile werden anschließend
genauer beschrieben.
Fig. 2 zeigt den Sprachanalysator 2 der Fig«, I schematisch
dargestellt. Der Analysator 2 arbeitet mit einer Bank relativ breitbandiger Filter, um die vom Mikrofon 1 kommenden Signale
über einen Teil des Frequenzbereiches zu analysieren.
Das vom Mikrofon kommende akustische Signal wird im Vorverstärker 14 verstärkt^ dessen Ausgangssignal dann durch
den logarithmischen Verstärker 15 normalisiert wird. Diese Verstärker sind in ihrer Art allgemein bekannt und können
mit einer nichtlinearen Diodenkennlinie ausgelegt werden. Die im Ausführungsbeispiel verwendeten Verstärker haben eine
Einheitsverstärkung für die Eingangssignale mit 5 Volt Spitze= Signale mit niedrigeren Amplituden werden verstärkt„ während
Signale mit höheren Amplituden gedämpft werden. Der logarithmische
Verstärker 15 wird zwischen den Vorverstärker 14 und einer gemeinsamen Treiberstufe 23 eingeschaltet t wo er
in einem niedrigeren Signalbereieh von O7I bis 1„Q Volt
arbeitet, um die am unteren Ende liegenden Signale auf einen
brauchbaren Pegel zu verstärken= Andere logarithmische Verstärker
16 bis 22 sind an den Ausgängen der Frequenzwähler 25 bis 31 angeschlossen und reduzieren die Ausgangssignale„
deren Spitzenamplitude über 5 Volt liegt» Ein Bereich der
Eingangssignale von Qj7I bis 10 Volt wird durch jeden Verstärker zusammengedrückto Dadurch wird der dynamische Bereich,
in,dem'der Verstärker arbeiten muß r von 100si auf 22si reduziert.
Das Ausgangssignal des Frequenzwählers 24 hat einen relativ
konstanten Wert Spitse/Spitze und liefert SignalSchwankungen
auf der Ausgangsleituag Al, die keinen logarithmischen Ver=ä
RA 9-71-031
stärker brauchen. Eingangsdämpfungsglieder sind in allen Frequenzwählern 24 bis 31 eingebaut, die diese auf. einen
negativen Amplitudenanstieg von 3 db pro Oktave mit zunehmender Frequenz einstellen, was eine Eigenart der menschlichen
Spracherzeugung ist. Der Einfachheit halber sind diese Dämpfungsglieder nicht dargestellt, sie können jedoch Potentiometer
sein.
Ein manuelles Empfindlichkeits-Einstellglied 230 wird so
eingestellt, daß die vom Mikrofon 1 aufgenommenen Raumstörgeräusche unterdrückt werden. Iri einer gestörten Umgebung
neigt der Sprecher naturgemäß dazu, lauter zu sprechen, und
unter diesen Umständen wird daher die Empfindlichkeit herabgesetzt.
Eine Empfindlichkeits-Rückstellverriegelung 33 reduziert die Empfindlichkeit außerdem während der Rückstellung,
Eine Sprache-Anzeigelampe 34· oder eine andere ähnliche Anzeige ist während der Rückstelloperation ausgeschaltet und
wird mit einer Zeitverzögerungr die durch die am Eingang des
Inverters 35 vorgesehene Kondensator-Widerstandskombination bestimmt ist, wieder eingeschaltet, um sicherzustellen, daß
die Verstärkung des Vorverstärkers 14 wieder.in den Normalzustand zurückgekehrt ist, bevor die Anzeigelampe 34 wieder
aufleuchtet.
Auf den:Ausgangsleitungen Al bis A8 auftretende Signale
stellen, momentan genommen, verschiedene Gleichspannungspegel dar. Sie werden in einem ODER-Glied 36 gemischt und
liefern ein Signal zum Start des sprachgesteuerten Taktgebers 12 auf der Leitung 37« Dieses Signal dient auch als
Eingangssignal für Steigungs-Detektor und Verriegelungsschaltung 38, die in der US-Patentschrift Nr. 3236947 näher
besehrieben ist und einen Spraeh-'^toß" anzeigt«. Ein solcher
Sprachstoß ist definiert als ein plötzlicher Intensitätsansta.eg,
der einem Endkonsonanten folgt. Eine Verriegelung in,der Verriegelungsschaltung 38 wird eingeschaltet, bis sie
durch den nächsten Taktimpuls von dem sprachgesteuerten Takfc-
309849/0998
RA■9-71-031'
geber 12 über den Differentialimpulsgenerator 39 wieder ausgeschaltet
wird. Ein Inverter 40 stellt Spannungspegel ein und erzeugt die richtige Phase für das Arbeitsschieberegister 41,
das die Phase der Verriegelungsschaltuhg anzeigt und vorübergehend
speichert. Die Ausgangsleitungen Al bis Ά8 sind mit
den Merkmalauswahlschaltungen 3 verbunden.
Die Frequenzauswahlbereiche der Frequenzwähler 24 bis 31 sind
so ausgelegt, daß sie ein Frequenzspektrum von 0,1 Hz bis 10 kHz optimal überdecken. Nach Darstellung in Fig. 2 erfaßt
der Breitbandfrequenzwähler 24 den Bereich von 4 kHz bis 1OkHz, der die,hochfrequente Störenergie von Reib- und einigen Zischlauten
enthält. Dieser Wähler benutzt ein Tiefpaßfilter und einen Differentialverstärker, um eine breite Hochpaßfilterwirkung
mit einem scharfen Abfall bei 4 kHz zu erzielen. Der nächste Wähler 25 ist ein mäßig breites Bandpaßfilter
üblicher Bauart, das den Frequenzbereich von 2,7 bis 4,1 kHz überdeckt. In diesem Bereich ist die Storenergie von Zischlauten
am stärksten konzentriert. Die übrigen Frequenzwähler haben Frequenzbereiche, die ungefähr gleichen Abstand haben,
wenn sie in einem logarithmischen Frequenzmaßstab aufgezeichnet werden, so daß die überdeckten Bereiche dichter in
der unteren Hälfte des analysierten Spektrums zusammengedrängt sind. Sieben der acht Wähler überdecken das Frequenzspektrum
von 0,1 .kHz bis 4,1 kHz. Der Einfachheit halber sind in Fig. 2 verschiedene derartige Zwischenwähler (27 bis
29) und Verstärker (18 bis 20) weggelassen. Der unterste Frequenzbereich von 0,1 bis 0,41 kHz wird vom Frequenzwähler
31 überdeckt, der als Bandpaßfilter eine breite Durchlaßkurve hat, die die Sprach-Grundschwingungen von männlichen
und weiblichen Sprechern umfaßt.
Das Frequenzspektrum ist in Frequenzbänder unterteilt, die
breit genug sind, um die harmonische Feinlinienstruktur zu entfernen, die in einem Sonogramm der normalen menschlichen
Stimme auftritt. Die von den Wählern 24 bis 31 kommenden
PA9-7X-O3X 309849/0996
Frequenzwähler-Ausgangssignale werden gleichgerichtet und geglättet, um die Umhüllende des Eingangssignales zu ermitteln.
Eine Kurzzeit-Integration des Signales wird beim Durchlauf durch jedes Bandpaßfilter erzeugt, und die Ausgangssignale
der Tiefpaßfilter sind somit langsam sich ändernde. Gleichspannungspegel, deren Amplituden zu einem gegebenen
Zeitpunkt der Einhüllenden des Eingängssignales entsprechen. Die eingangseitige Einstellung der Dämpfung kompensiert den
negativen 3db-Anstieg des AmplitudenVerlaufs der normalen
menschlichen Stimme. Die Ausgangssignale Al bis A8 des Sprachanalysators
stellen frequenzquantisierte Amplitudenwerte der Einhüllenden dar, die die Änderungen der Stimmresonanζ-Hohlräume
eines Sprechers in Echtzeit beschreiben.
Die Ausgangssignale Al bis A8 des Spraehanalysators werden
in einer Dioden-ODER-Schaltung 36 verknüpft und ergeben ein Steuersignal für den sprachgesteuerten Taktgeber 12, wenn
dieses Signal das Ende der Worterkennung im Zeitbasisgenerator steuert.
Die in Fig. 3 gezeigten Merkmalauswahlschaltungen 3 arbeiten
etwa wie ein Auge, das ein Sonogramm nach Merkmalen (Energiekonzentrationen um bestimmte Resonanzfrequenzen) absucht.
Wie ein _Auge Unterschiede im Schwärzungsgrad verschiedener
Teile eines Sonogramms feststellt, so vergleichen die Merkmalauswahlschaltungen 3 die Analysator-Ausgangssignale auf
den Leitungen Al bis, A8 mit Schwellwertspannungen, die an einem Widerstandsnetzwerk abgeleitet werden. Jede Schwell—
wertspannung versucht ihrer eigenen Eingangsleitung Al bis
A8 zu folgen und wird auf einer Spannung gehalten, die nicht niedriger liegt als einige Zehntel Volt unter der Eingahgsspannung.
Über das Widerstandsnetzwerk beeinflußt jedes Eingangssignal alle anderen Schwellwerte, wobei die unmittelbar
benachbarten Schwellwerte am stärksten beeinflußt werden. Somit erzeugen örtliche Maxima der Einhüllenden des Frequenzspektrums
an den Amplitudenvergleichsschaltungen 42 bis 49
RA 9-71-031 309849/099B
Ausgangssignale und verhindern gleichzeitig das Auftreten von Ausgangssignalen an benachbarten Einheiten, an denen
Eingangssignale mit kleinerer Amplitude anliegen. Diese Amplitudenvergleichsschaltungen sind wie Differenzierschaltungen
aufgebaut, wie sie z.B. in "IBM Technical Disclosure Bulletin", November 1968, Volume 11, Nr. 6, Seite 603, beschrieben
sind. Das Widerstandsnetzwerk soll eine gleitende oder selbstnachregelnde SchwelIwertspannung erzeugen, die
nur die Pole oder Energiekonzentrationen innerhalb der Einhüllenden mit größeren Amplituden durch die Amplitudenvergleichsschaltungen
hindurchläßt, ungeachtet der absoluten Amplitude der Einhüllenden. Eine Konstantstromquelle 50 begrenzt
die Zahl der eingeschalteten Amplitudenvergleichsschaltungen 42 bis 49 auf maximal 4. Die Ausgangssignale der
Amplitudenvergleichsschaltungen 42 bis 49 werden getrennten Invertern 51 bis 58 zugeführt, die den Spannungspegeln das
richtige Vorzeichen geben aur Ankopplung der_. Aus gangs signale
an das Merkmalschieberegister 4. Diese Signale treten auf den Leitungen SRI bis SR8 auf» Das Ausgangssignal der Amplitudenvergleiehsschaltung
42 auf der Leitung 59 wird außerdem die Auflösungssteuerung mit Hilfe eines sprachgesteuerten
Taktgebers 12 benutzt. Die gleichartig aufgebauten Differenzierschaltungen 42 bis 49 enthalten Schaltungen mit Hysterese-
und Impulsformung, so daß das endgültige Ausgangssignal auf den Leitungen SRI bis SR8 ein sauberer Reehteckimpuls
mit Einheitsamplitude ist (z.B. von -12 bis 0 VoIt)0 Die Ausgangssignäle
auf den Leitungen SRI bis SR8 sind die Eingangssigeale
für ein® Speiehermatriac, die -Sas Merkmalsehieberegister
4 bildet, das die aus dem Spraehanalysator 2 zu verschiedenen
durch den spraehgesteuerten Taktgeber 12.bestimmten
Zeitpunkten abgeleitete Einhüllende speichert.
Anhand von Fig. 4 soll nunmehr der spr angesteuerte Taktgeber
12 und seine Funktion erläutert„werden. Bei diesem
spraehgesteuerten Taktgeber 12 handelt es sich um ein sehr
wichtiges Merkmal der Erfindung, da die Sprachmerkmale, ge-
RA 9-71-031 " ■ 30984 9/09 96 ;-
steuert durch die Ausgangssignale dieses Taktgebers, im Merkma!schieberegister
4 gespeichert werden. Bisher hat man nichtlineare Schaltungen zur Erzielung einer wünschenswerten Kompression
der Information benutzt bei gleichzeitiger Beseitigung der Unsicherheit bezüglich der Zeitlage bei der Erkennung von Mustern ganzer Wörter. In den Fällen, in denen einzelne
Wörter erkannt werden sollen, wurde beobachtet? daß Laute unmittelbar am Anfang eines Wortes ihre Zeitlage bezüglich
der Punkte genauer einhalten, bei denen Resonanzen in dem Spektrogramm auftreten, als Laute, die näher am Wortende
liegen. Bei einer gleichförmigen Abtastung schien sich die Abweichung der Zeitlage, in der Merkmale abgetastet wurden,
zeitlieh linear mit dem Abstand von Wortanfang zu vergrößern. Durch.Abtastung mit einer Frequenz, die von einem
Anfangswert ausgehend, allmählich kleiner wird„ kann man
die Anzahl der Zeiteinheiten in jedem nachfolgenden Seitabschnitt linear vergrößern. Somit erweitert sich jeder nachfolgende
Zeitabschnitt zur Aufnahme der erwarteten Änderung des in diesem Teil des Spektrogrammes zu findenden wesentlichen
Merkmales. -
Natürlich können Merkmale noch in zwei aufeinanderfolgenden Zeitabschnitten erscheinen, sobald sie an der Grense eines
Zeitabschnittes liegen. Dieser Fall ist jedoch entschieden einer Ausbreitung über 5 oder 6 Zeitabschnitte oder Äbtast-Zeitpunkte
vorzuziehen. Außerdem besteht eine Neigung sur Bündelung der letzten Merkmale eines Wortes, diese wird
jedoch ausgeglichen durch die natürliche Neigung äes Spreehers,
die Wortendenzu dehnen und am Anfang des Wortes die Laute knapp und präzise zu formulieren. Daraus ergibt sich
eine zeitliche Verdichtung und Normalisierung der sprachmerkmale
bei einer unerheblichen Verwischung von Einzelheiten.
Eine nichtlineare Schaltung allein liefert jedoch keine 1;::: reichend genaue Definition einer Grenze, an der Wörter bei
R&9-71-O3X 309849/0996
zusammenhängender Sprache ineinander übergehen. Bei einzelnen Wörtern, wo das Wort vom Nachbarwort einen genügenden zeitlichen
Abstand für eine Rückstelloperation zwischen den Wörtern aufweist, erweist sich eine nichtlineare Zeitbasis als
ganz brauchbar. Bei der Erkennung zusammenhängender Wörter fehlt jedoch die Rucksteilzeit, auch wenn ein Wortende zeitig
genug erkannt würde. Der Taktgeber für dieses System benutzt somit die Sprache selbst als Grundlage für eine Zeitbasis für
die Abtastung. Betrachtet man z.B. das Wort "six", so beginnt und endet es mit einem langen Zischlaut "s". Dem ersten S-Laut
folgt ein kurzes "ih", diesem eine relativ lange Pause oder ein Stopp vor einem sehr kurzen "K"-Laut, der bereits der
'Anfangslaut.des End-x ist. Der Taktgeber tastet die langen
Zischlaute mit einer niedrigen Frequenz ab und den kurzen Vokal mit einer höheren Frequenz, um auf diese Weise nicht
dieses wichtige Klangelement zu verfehlen. Die "Pause" oder der Stopp wird einmal abgetastet, und dann wird der Taktgeber
angehalten, bis die Intonierung mit dem abschließenden "ks"-Laut wieder beginnt. Natürlich liegt auch eine lange
Pause vor dem ersten Wort eines Satzes, so daß der Taktgeber mit dem ersten Laut beginnt. Lange Laute werden somit weniger
häufig abgetastet, womit eine redundante Abtastung vermieden wird, während kurze Laute mindestens einmal abgetastet werden
und nicht ausgelassen werden, was bei einer gleichförmigen Abtastung der Fall wäre.
Die vom Sprachanalysator über die Leitungen Al bis A8 kommenden
Signale werden durch das positive ODER-Glied 36 summiert und an die Leitung 37 abgegeben, um den sprachgesteuerten
Taktgeber 12 zu starten. Im sprachgesteuerten Taktgeber 12 wird das von der Leitung. 37 kommende Signal in einem Tiefpaß-Widerstands-Kondensatorfilter
gefiltert und dann durch den Doppelinverter 60 zweimal invertiert. Das Ausgangssignal des
Doppelinverters wird an die einstellbare Verzögerungsstufe 61 weitergeleitet, die bei einem Spannungsanstieg am Eingang
sofort ein negatives Ausgangssignal liefert, bei einem nega-
ΗΛ9-7Χ-Ο31 309849/0996
tiven Eingangssignal jedoch erst nach einer Zeitverzögerung t
ein positives Ausgangssignal liefert,, die sich durch Einstellen
des Wertes eines Kondensators regeln läßt. Diese Verzögerung (in Millisekunden) ist gleich 10 χ C- (Mikrofarad)
, wenn das Eingangssignal zur einstellbaren Verzogerungsstufe 61 bei D auf Erdpotential liegt. Die Verzögerung
der einstellbaren Verzogerungsstufe 61, mit einer Kapazität,
von 12 Mikrofarad, ist also 120 Millisekunden. Ausfälle oder Unterbrechungen im von den Merkmalauswahlschaltungen 3 über
die Leitung 37 kommenden Summierungssignal mit bis zu 120
Millisekunden Dauer müssen ignoriert werden, und die Stufe bleibt negativ, bis das auf der Leitung 37 liegende Summierungssignal
langer als 120 Millisekunden negativ ist. Diese Zeit wurde aufgrund empirischer Ermittlungen gewählt» Es wird
angenommen, daß eine solche Verzögerung die Pause vor Endkonsonanten isoliert, welche an verschiedenen Punkten in
den Figuren mit "()" bezeichnet ist und vor sog. Endkonsonanten,
wie p, t, k, auftritt. Der Anfang von Tonsignalen schaltet den Taktgeber 12 ein, der dann solange läuft, bis
eine Pause vor einem Endkonsonanten erkannt wird, woraufhin der Taktgeber angehalten wird, bis wieder Sprachlaute auf-.treten.
· '
Als Beispiel für die Arbeitsweise des Taktgebers 12 sollen die Sprachlaute am Beginn eines Satzes betrachtet werden.
Bevor das erste Wort im Satz beginnt, ist das Signal auf der Leitung 37 und das vom Doppelinverter 60 kommende, an der
einstellbaren Verzogerungsstufe 61 liegende Eingangssignal negativ. Das von der Stufe 61 kommende Ausgangssignal ist
daher positiv (0 Volt) und das Ausgangssignal des ODER-Gliedes 62, an dem die Verzogerungsstufe 61 angeschlossen
ist, ist ebenfalls positiv. Dadurch wird die einstellbare Verzogerungsstufe 63, an die das ODER-Glied 62 angeschlossen
ist, an ihrem Ausgang negativ gehalten, und der Impulsgenerator 64 kann keinen Taktimpuls erzeugen. Der Impulsgenerator.
64 kann einfach eine monostabile Kippschaltung sein. Wenn
RA 9-71-031 309849/0996
das Signal auf der Leitung 37 positiv wird, steigt das Eingangssignal
der Stufe 61 auf 0 Volt und ihr Eingangssignal geht direkt in den negativen Bereich.,, so daß auch das ODER-Glied
62 ein negatives Äusgangssignal liefert» Nach einer Zeitspanne,, die durch den 5,6-Mikrof ar ad -Kondensator der Stufe
63 und die Spannung am Eingang D der Stufe 63 bestimmt ist,
wird das Äusgangssignal der einstellbaren Verzögerungsstufe positiv und schaltet den Impulsgenerator 64 ein. Ein positiver
Impuls von kurzer Dauer (5 bis 10 ms) wird vom Generator 64 über die Leitung 65 zur Taktgabe an die verschiedenen
Einheiten abgegeben» Am Ende des Taktimpulses gibt die Differenzierstufe 66 einen positiven Impuls ab„ der zum ODER-Glied
62 zurückläuft-und dessen Äusgangssignal anhebt sowie die Verzögerungseinheit
63 ausschaltet» Der von der Differenzierstufe 66 kommende Impuls dauert etwa 33 msec und an seinem
Ende beginnt die einstellbare Verzögerungsstufe 63 ihren
Verzögerungszyklus,, und ihr Äusgangssignal steigt am E-'-de
der Verzögerungszeit an und löst einen neuen Taktimpuls des
Impulsgenerators 64 aus, .Wenn das Signal am Eingang D der
Stufe 63 nahe bei =12 Volt liegt, böträgt die Anfangsverzö=
gerung für den ersten Taktimpuls etwa 22 msec, und ein zweiter
Impuls tritt etwa 55 msec nach dem Ende des ersten Impulses (der etwa 5 msec dauert! auf» Somit ist die kleinste Taktperiode
etwa SO msec lang., Wenn das Eingangssignal bei D
für die Stufe S3 ungefähr bei Erdpotential liegt, beträgt die gesamte Periode etwa 56 -s- 5 -fr- 33 oder 94 msec. Das ist
die Obergrens® für di© Einstellung der Auflösungss-teuerung7
■die durch die Steuerung S7 am Eingang D der Stufe 63 ge=
liefert wird, die für nichtreibende Laute regelto
Ein voifl Ausgang der Ämplitudenvergleichsschaltung 42 kommendes
Signal auf der Leitung 59 bezeichnet einen Reibelaut oder einen Zischlaut entsprechend der Energiekonzentration im
höherfrequentea Teil des analysierten Spektrums., Dieses Signal
■wird über dea Inverter'SB weitergeleitet, wo es in ein-negatives Signal umgesetzt und an die Verzögerungsstufe 69 ange-
9-71-031 309849/0936
legt wird, die einen Kondensator von 5 Mikrofarad enthält und
hier als Verzögerungsstufe mit fester. Verzögerung benutzt
wird, weil der Eingang D permanent geerdet ist» Nach etwa 50 msee Verzögerung steigt das Äusgangssignal der Verzögerungsstufe
69 an und erregt den Eingang des Inverters 70. Das Ausgangssignal des Inverters 70 fällt dann auf -6 Volt
'ab und das an den Eingang D der Stufe 63 angelegte Auflösungssteuersignal fällt auf -3 Volt, ungeachtet der Einstellung
der Äuflösungssteuerung 67, afoo In der Verzögerungsstufe 63
verdoppelt sich jetzt die Verzögerung auf etwa 112 msec
Die gesamte Periode beträgt somit 112 -§■ 5 -£■ 33 = 150 msec
und ergibt so die Äbtastfrequenz für lange Reibelaute» Sie ist, grob gesehen, doppelt so lang wie die durchschnittliche
Abtastfrequenz für stimmhafte Laute ohne Reibung» Die durch,
die Verzögerung 69 erzeugte 50 msec lange Verzögerung stellt, bevor sich die Äbtastfrequenz ändert, sicher, daß kurze Reibelaute,
wie ZoB= 11T", mit einer höheren Frequenz abgetastet
werden»
Bei Rückstelloperationen wird ein Taktimpuls zum Löschen der Schieberegister benötigt« Ein in Fig„ 4 nicht· dargestellter
Rückstell-Multivibrator ist mit dem ODER-Glied 62 am Eingang C
verbundene Das auf der Leitung 37 liegende Signal ist jedoch
negativ-* weil die Empfindlichkeit des Vorverstärkers 14 während des negativen Rückstellimpulses herabgesetzt xtfurde, der über
die Handeinstellung 32 der Empfindlichkeit an die Verstärkungssteuerung des Vorverstärkers 14 angelegt wurde. Das Ausgangssignal
der Verzögerungsstufe 61 wäre dann positiv, so daß es am Punkt B des ODER-Gliedes 62 die Wirkung des Rückstell-HultivIbratorsignales
für die an die Leitung 71 am Eingang D.der Verzögerungsstufe 61 liegende Rüekstellverblndung
verhindern wurde. Dieses Signal liegt normalerweise etwa auf. Erdpotential, ist bei den Rüekstelloperationen jedoch negativ,
so daß das Ausgangssignal der Verzögerungsstufe 61 in den. negativen Bereich gezwungen wird, wodurch das Rückstell—
Multivibratorsignal am Eingang C der Stufe 62 wirksam werden
30 9849/0996
RA 9-71-O31
4 ^q tiff \f* "fei ^β ^ST
In Fig. 5 ist das Merkmal-Schieberegister 4 gezeigt«, Von der
Merkmalauswahlschaltung 3 kommende>
auf den Leitungen SR 1 bis SR8 auftretende Ausgangssignale werden an die Eingänge der
Merkmal-Schieberegister 79 bis 86, gesteuert durch vom sprachgesteuerten
Taktgeber 12 abgeleitete Synchronisationsimpulse,
angelegt» Die direkten Ausgänge D der Schieberegister 79 bis 86 liefern über Emitterfolgeschaltungen 87 bis 90 Signale
für die elektronischen Schablonen im Adaptivspeicher 6„ '
Die invertierten Ausgänge I der Schieberegister 79 bis 86 liefern auch Ausgangssignale für die Schablonen im Adaptivspeicher
6, so daß beim Fehlen eines Merkmales" negative Merkmale oder Nullen gespeichert werden. Die invertierten
Ausgänge sind auch mit einem ODER-Glied 91 verbunden, das als
negatives UND-Glied arbeitet und das Fehlen von Merkmalen im Register, z.B. bei einer Pause, erkennt. Es handelt sich um
ein negatives Signal von -E-6 Volt bis -6 Volt, so daß ein Reduzierwiderstand
von 4,7 K am Eingang des Inverters 92 benutzt wird. Der Nullinverter 92 liefert eine Anzeige für die
Pause und gibt auch ein entsprechendes Verriegelungssignal
für den Taktgeber an die Leitung 74 ab. Außerdem ist er mit der Position 1 eines Schalters 93 verbunden, der bei der Anpassungsoder
Lernphase zur Auswahl eines gegebenen Uniphons aus einem Wort benutzt wird. Wenn dieser Punkt am Schalter 93
negativ wird, zeigt das an, daß die Pause zwischen den Wörtern durch Eintreten des ersten Lautes des gerade gesprochenen
Wortes beendet wurde. Dieser negative Übergang wird durch den Differenzier-Impulsgenerator 94 in einen positiven
Impuls umgeformt, der die Verriegelungsschaltung 95 einschaltet, die dann ein adaptives Haltesignal 96 und ein Verriegelungssignal
über die Leitung 72 an den ■ Taktgeber' 12 abgibt. Der Rückstellschalter 97 stellt die Verriegelungsschaltung 95 zurück, und der Wählschalter 98 hält sie während der Erkennungsfunktion außer Betrieb.
^9-71-cm 309849/0996
Fig. 6 zeigt den in dieser Erfindung benutzten Adaptivspeicher
mit den elektronischen Schablonen. Die bipolaren Ausgangssignale der Emitterfolgeschaltungen 87 bis 90 des Merkmal-Schieberegisters,
dargestellt in Fig. 5,. sind die Eingangssignale für die Adaptivspeichereinheiten 6, die als elektronische
Schablonen 99 dienen und der Einfachheit halber nicht alle dargestellt sind. Jede vom Merkmalschieberegister 4
kommende Eingangsleitung ist mit allen entsprechenden Einheiten der 20 elektronischen Schablonen 99 verbunden und
bildet so eine Schaltung für die Anpassung der elektronischen Schablonen und den nachfolgenden Vergleich von Eingangs*
mustern mit in den Schablonen gespeicherten Mustern.
Mit dem Anpaßschalter 155 können über den Konsonant-Vokal-Wählschalter
156 und einen der Schablonenwählschalter 152 oder 153 personalisierte Uniphonmuster in den elektronischen
Schablonen eingestellt werden. Das Uniphon Cl z.B., das der
Laut "f!t wie in "fünf" sein kann, wird durch Drücken des Anpaßschalters
155 durch die Bedienungskraft nach Aussprache des Wortes eingegeben. Dadurch wird ein Stromkreis zur Schablone
Nr. 1 geschlossen, wenn die Schalter so eingestellt sind, wie sie in Fig. 6 gezeigt sind. Die entsprechende Löschstufe
154 für die Schablone 1 wird durch den Anpaßimpuls erregt und entfernt augenblicklich die Haltespannung von
-12 Volt von den Speicherelementen in der Schablone 1, wodurch alle vorher gespeicherten Daten gelöscht werden, bevor
neue Daten eingegeben werden.
Für den. ersten Laut eines Wortes wird der Schalter 9 3 gemäß
Darstellung in Fig. 5 geschaltet. Wenn ein anderer Teil des.Wortes benutzt werden soll, z.B. der dritte Laut des
Wortes "drei" zur Erzeugung des "ei"«»Vokals, wird der Schalter
93 in die Stellung 3 geschaltet, die mit dem invertierten Ausgang der zweiten Stufe des Pause-Schieberegisters in
Fig. 7 verbunden ist. Somit wird das Signal für die Anpassungsstoppverriegelung 95 bis zu einem Zeitpunkt verzögert,
309849/0396
$A 9-71-031.
der dritten Merkmalabtastung durch den sprachgesteuerten Taktgeber 12 liegt. Das gewünschte Muster von Einsen und Nullen
erscheint jetzt im Merkmalschieberegister 4» In diesem Beispiel kann der Schalter in Stellung 4 oder 5 geschaltet werden,
da der gewünschte ei·=-Vokal auch in der 4 ooder 5» Abtast—
periode auftreten kann, abhängig von der Aussprache des Sprechers. Die beste Stellung des Schalters zum Abtasten eines
gegebenen Lautes in einem bestimmten Wort kann sich bei einzelnen Bedienungskräften ändern- Die besten Ergebnisse erzielt
man im allgemeinen durch Auswahl von Abtastpositionen-, die relativ früh im Wort liegen. Bei der Anpassung des Uniphons neitt wird der Schalter 156 so umgeschaltet, daß eine
Verbindung zwischen dem Anpaßschalter 155, der Vokalseite des Schalters 156,. einerseits und dem in stellung 1 gestellten
S ciiablonenwähl schal ter 153 andererseits für die Schablone 99 Position 11 besteht* Somit wird der Code für das "ei" in
der Schablone (11) gespeichert e die die Entscheidungs^
einheit 100 für das Uniphon Vl steuerttt In ähnlicher Weise
können andere Konsonanten und Vokale aus geeigneten Wörtern ausgewählt und in anderen Abschnitten der adaptiven elektronischen.
Schablonen gespeichert werden. Der übereinstimmungs-=-
grad zwischen zwei Wustern wird durch die auf den Summierungsleitungen£l
bis^20 am Ausgang der Schablone 99 erscheinende
Spannung angegeben» Diese Summierungssignale dienen als Eingangssignale für die Entseheidungseinheiten 10O7 die so
.modifiziert werden, daß 3 oder 4 Entscheidungseinheiten
gleichzeitig eingeschaltet sein können, wenn mehr als ein oder
zwei, gleiche Übereinstimmungsgrade vorhanden sind» Die Entscßeidungseinheiten
10© sind einfache Sehwellwertdetektoren mit Gefjealcepplungswiderständen im Emitterkreis „ Diese Einrichtung
ein wichtiges Merkmal des adaptiven Uniphonspeichersp
£e eiaa'Bündelung gestattet, doiu ein Eernbestandteil
fcamn aus einer Gruppe von Uniphonen bestehen und in den Schablonen gespeichert werdeno Dann wird der üniphon^Schwellwert festgesetzt
aus Erkennung aller Teil© äieser Gruppe f welche inners
Bestimmten Äbstandes von im allgemeinen einem Bit „
3ÖS349/Q
SK71-O31 "
(Hammingabstand gleich 1) liegen. Ein Beispiel für diese An—
paßart für die Benutzung der obigen Begriffe folgt. Die Tabelle in Fig. 12 zeigt 20 hypothetische Uniphon-Codierungsanordnungen,
zusammen mit einer Liste von 13 allgemeinen Wörtern, die zur Analyse in Vokal-, Konsonanten-, Ruhe- und
Intensitätssprungsegmente unterteilt sind. Eine willkürlich zusammengestellte Liste von Lauten mit 10 Konsonanten und
10 Vokalen erwies sieh zur Beschreibung eines Vokabulars von etwa 50 Wörtern als angemessen. Diese 20 Merkmale oder
Uniphone werden zusammen mit der Ruheanzeige und der Intensitätssprunganzeige für eine.Erkennungsmöglichkeit dieser
Größenordnung benutzt. Wenn größere oder kompliziertere Lautkategorien zu erkennen sind, kann die Uniphonliste und die
Anzahl von Stufen im Uniphonschieberegister zum Speichern identifizierter Uniphone erweitert und auch die Anzahl von
elektronischen Schablonen zur Erfüllung der Uniphonerfordernisse des erweiterten Satzes vergrößert werden. Natürlich
muß dann auch die Sehalttafel 9 vergrößert werden, wenn eine größere Wortmenge erkannt werden soll. In den Tabellen der
Fig. 12 ist" die Uniphoncodierung willkürlich. Sie hängt in
der Praxis in jedem Fall von der Aussprache des einzelnen Sprechers ab. In der äußersten linken Spalte sind in jeder
Hälfte der Tabellen unter der Überschrift "Konsonant" bzw. "Vokal" 10 repräsentative Laute aufgeführt. Rechts von jedem
Vokal oder Konsonant gibt in diesen Spalten mit den Nummern 1 bis 8 eine Eins an, daß ein bestimmtes Merkmal aus diesem
Segment eines Frequenzanalysefilters auf einen Grad heraufgesetzt wurde, der über dem gleitenden Sehwellwert liegte
Wenn keine Eins vorhanden ist, heißt das, daß das Merkmal nicht identifiziert wurde» Die Muster von Einsen und Nullen
für jeden Vokal und Konsonanten werden Uniphone genannt?
die für jeden Spreeher während der Lernperiode des Systems identifiziert werden müssen. Diese Muster werden in den
adaptiven elektronischen Speichersehablonen 99 zum Vergleich
mit hereinkommenden Signalen gespeichert»
9-71-031 309849/0996
Anschließend wird ein Beispiel für das Kern- und Bündelungskonzept,
gegeben» Ein willkürliches Vokaluniphon ist mit Vl bezeichnet und mit 01100001 codiert und stellt z.B. den EE-Laut
oder den zweiten Laut dar, der beim Aussprechen des Wortes
"eight!! oder den dritten Laut? der beim Aussprechen des
Wortes."three" erzeugt wird. Diese Codierung stellt einen Kern
für das Uniphon Vl dar«, Abweichungen von Vl, die innerhalb
des Hammingabstandes von einem Bit liegen,, können ebenfalls
erkannt werden, wenn die Erkennungs-Sehwellwertschaltung in den Entseheidungseinheiten 100 richtig eingestellt ist=
Abweichungen von Vl,, die als gleich erkannt werden können,
wären somit 01100011, 011.10001, 00100001. Ein anderes Vokaluniphon
mit der Bezeichnung V2 kann z„B„ den AA-Laut oder
den erstenKlang .des Wortes "eight" wiedergeben und dargestellt
werden als ΟΘ100011 mit den Abweichungen 01100011 und
00100001. Daraus geht klar hervor, daß die erste Abwandlung von Vl und die erste Abwandlung von V2 gleich sind. Wenn
dieser-Uniphoneode in der Sprache eines Spreehers erscheint,
werden Vl und V2 durch die Entseheidungseinheiten 100 angezeigt.
Damit ist die normale Abwandlung in Lauten möglich, die in verschiedenen Wörtern bei der Aussprache eines Sprechers auftreten. Eine Auswahl ist im wesentlichen insofern
gegeben., als ein bestimmter Laut in einem Wort entweder Vl
oder V2 sein kann. In diesem Fall können beide in einer Wortbibliothek
gespeichert werden, so daß jeder Laut erkannt wird,
der einen Teil eines zu erkennenden Wortes bildet. Eine als
lauter Nmllen vom Merkmalsehieberegister angegebene Pause
oder Ruhe liegt innerhalb des Abstandes von einem Bit von einem Einzelbitmerkmal, wie s.B. das willkürliche Konsonantentmighon
Cl mit 10000000, welches der F-Laut aus "four" Cder erste Laut) usw. sein kann. In ähnlicher Weise kann der
zehnte Konsonant 00000001 sein und den ersten oder fünften Laut im Wort "nine", nämlich das "n" oder den fünften Laut
im Wort "one11 bezeichnen usw. Die Entseheidungseinheiten
sind durch eine Konstantstromquelle 147 verriegelt, die so eingestellt ist, daß die hochstzulässige Anzahl von Ausgangs-
RA 9-71-031 .. 309849/0996
signalen auf beispielsweise 4 begrenzt ist. Diese gemeinsame Verriegelungsleitung liefert auch die Schwellwertspannung
für die Entscheidungseinheiten unter Steuerung der Uniphon-Erkennungssehwellwertsehaltung
148. Diese ist im allgemeinen auf einen Hammingabstand von eins eingestellt. Um den richtigen
Betrieb der Entscheidungseinheiten sieherzustellen, wird
der Sehwellwert abgeschaltet, wenn eine Entscheidung durch die Stromabfühlstufe 149 festgestellt wurde. Diese Schwellwertabs
ehaltung ist genauer besehrieben in "IBM Technical Disclosure Bulletin, Vol. 14, No. 2, July, 1971, pages 493,
494". Die Abschaltung des Sehwellwertes stellt volle Ausgangssignale von allen Entseheidungseinheiten sieher, die
den Schwellwert erreicht haben. Der Inverter 150 hält das Potential der gemeinsamen Verriegelungsleitung in Abhängigkeit
von den vom sprachgesteuerten Taktgeber 12 kommenden Impulsen. Dadurch werden alle Entseheidungseinheiten abgeschaltet,
der Schwellwert zurückgestellt und Entscheidungen unte^r noch zu beschreibenden Umständen verhindert.
Die unmittelbaren Ausgangssignale der Entseheidungseinheiten 100 haben den richtigen Pegel und die richtige Phasenlage
und können unmittelbar an die Uniphonschieberegister 7 angelegt werden.
Fig. 7 zeigt die Uniphonschieberegister 7 zusammen mit den Treiberstufen für die Sehalttafel zur Umwandlung von Uniphonfolgen in Wörter. Die in den adaptiven elektronischen
Speieherschablonen 99 identifizierten Uniphone werden zusammen
mit Ruhe- und Intensitätssprunganzeigern durch eine Reihe von 4 Sehieberegisterstufen verschoben, um Information für
mindestens 4 Uniphonmuster eines gegebenen Wortes zu speichern. Die"Sehieberegisterstufen für die Erkennung eines
Uniphones für ein gegebenes Wort sind mit 1 bis 4 bezeichnet. Jede Entscheidungseinheit 100 ist mit einer vierstufigen
Reihe im Schieberegister 7 verbunden.. Der Inhalt aller Stufen im Schieberegister 7 wird einmal verschoben, wenn ein Uni-
RA 9-71 31 309849/0396
plion erkannt ist» Stufen im Schleberegiater 7, die dem Uniphon
Cl (Konsonant üjr. 1) zugeordnet sind;, erscheinen in Fig„ 7
oben. Zu jeder mit den Zahlen 1 bis 4 bezeichneten Schieberegisterstufe gehört eine Treiberst-ufe 101 „ Es. sind 5 Treiberstufen
lOl vorhanden,, so daß-eine Anzeigestufe φ in einer Zeile
des Registers 7 angegeben werden kann= Diese Treiberstufe wird durch die VlO-Stufe 0 als Treiberstufe für die Cl-Stufe O
bezeichnet. In Fig. ? sind der Kürze halber nur die Zeilen im Schieberegister 7 für den Konsonanten Cl bis zum Vokal VlO1.
die Ruheanzeige und die Intensitätssprunganzeige dargestellt»
Die Treiberstufen 101 sind mit den Eingängen der ersten Stufen in allen Zeilen des Schieberegisters 7 sowie mit den Ausgängen
aller Stufen in jeder Zeile verbunden und liefern Aus- gangssignale
an die Sehalttafel 9, die der Umwandlung von
Uniphonfolgen in Worte für 5 mögliche Phasen oder Zustände der 4 Registerstufen in jeder Zeile dienen» Die 88 Schieberegisterstufen
oder Zellen, die in jeder Zeile des Schieberegisters
7 mit den Nummern 1 bis 4 bezeichnet sind^ liefsrn
110 Ausgangssignaleo Das Merkmalsehieberegister 4 steuert die
Zeiteinteilung der von den elektronischen Schablonen 99 kommenden Ausgangssignalej und das Merkmalsehiebregister 4 sowie
das Uniphonschieberegister 7 werden durch den sprachgesteuerten Taktgeber 12 so gesteuert, daß alle Phasen aller Schieberegister
durch eine Quelle synchronisiert sind» Die im Uniphonsehieberegister.
7 enthaltenen Ruhe-Schieberegister liegen
mit einem invertierten Ausgang an dem Sehalter 93» Edn der
Rtaheanzeige für jede Stufe in der Sehieberegisterzeile zugeordnetes
Ruhs-Sehieberegister arbeitet während der Lern-
und Anpassuagsphase«, - Mit. dem Sehalter 93 wird eine von 5
Lautabtastwertea aus einem gegebenen W©rt ausgewählt,, Der invertierte
Ausgang in Stufe 4 aller Uniphonregisterzeilen?
mit Ausnahme der Ruhezeile und ihres direkten Ausganges,, dient
der Äaseige des Worteades^ welch© im Zusammenhang mit den
Verriegelxängssehaltungen 13 mäher besehrieben wird»
9-71-Ο31 309849/0996
In Fig. 8 ist die Worterkennungs- und Codierschaltung 10
gezeigt. Im vorliegenden Beispiel ist die spezifische Uniphonfolge , die ein gegebenes Wort als durch einen gegebenen Sprecher ausgesprochen besehreibt, im Uniphonschieberegister 7 von den Treiberstufen 101 nach der Worterkennungsund Codierschaltung 10 verdrahtet» Das Wort "ΟΝΕ" ζ»Β. kann mit dem Uniphon ClO oder VlO beginnen, dann folgt "das Uniphon V8, dann'das Uniphon V7 und dann die Uniphone ClO oder VlO, denen eine Endkonsonantenpause oder das Uniphon. ClO
folgt. Wenn ein Wort mit 5 Uniphonen eingegeben wurde, ist das erste Uniphon zur Stufe 4 im Schieberegister 7 weitergelaufen, das zweite Uniphon steht in der Stufe 3,, das dritte in der Stufe 2 und das vierte in der Stufe 1, so daß das
letzte Uniphon sich in der Stufe 0 befindet. Die 8 möglichen Eingangssignale für das Wort "ONE" werden folgendermaßen zur Schalttafel 9 geleitet; Der Konsonant 10 und der Vokal 10, von denen jeder das erste üriiphon des Wortes "ONE" sein kann, werden von der Stufe 4 dem Eingang der Worterkennungsschaltung für das Wort "ONE" zugeführt» V8 wird von der Stufe 3 dem Eingang der Erkennungsschaltung für das Wort "ONE" zugeleitet, V7 von der Stufe 2, ClO und VlO von der Stufe 1
und ClO und die ENDE-PAUSE von der Stufe 0.
gezeigt. Im vorliegenden Beispiel ist die spezifische Uniphonfolge , die ein gegebenes Wort als durch einen gegebenen Sprecher ausgesprochen besehreibt, im Uniphonschieberegister 7 von den Treiberstufen 101 nach der Worterkennungsund Codierschaltung 10 verdrahtet» Das Wort "ΟΝΕ" ζ»Β. kann mit dem Uniphon ClO oder VlO beginnen, dann folgt "das Uniphon V8, dann'das Uniphon V7 und dann die Uniphone ClO oder VlO, denen eine Endkonsonantenpause oder das Uniphon. ClO
folgt. Wenn ein Wort mit 5 Uniphonen eingegeben wurde, ist das erste Uniphon zur Stufe 4 im Schieberegister 7 weitergelaufen, das zweite Uniphon steht in der Stufe 3,, das dritte in der Stufe 2 und das vierte in der Stufe 1, so daß das
letzte Uniphon sich in der Stufe 0 befindet. Die 8 möglichen Eingangssignale für das Wort "ONE" werden folgendermaßen zur Schalttafel 9 geleitet; Der Konsonant 10 und der Vokal 10, von denen jeder das erste üriiphon des Wortes "ONE" sein kann, werden von der Stufe 4 dem Eingang der Worterkennungsschaltung für das Wort "ONE" zugeführt» V8 wird von der Stufe 3 dem Eingang der Erkennungsschaltung für das Wort "ONE" zugeleitet, V7 von der Stufe 2, ClO und VlO von der Stufe 1
und ClO und die ENDE-PAUSE von der Stufe 0.
Für jede der folgenden Versionen des Wortes "ONE" sind dann
5 Eingänge zur Worterkennungsschaltung für das Wort "ONE"
erregti '
erregti '
Stufe 4 | Stufe 3 | Stufe 2 | Stufe 1 | Stufe O |
ClO · | V8 | V7 | ClO | 0 |
VlO | V8 | V7 | ClO | 0 |
VlO | V8 | V7 | VlO | ClO |
ClO | V8 - | V7 | VlO | ClO |
ClO | V8 | V7 | VlO | O |
VlO | V8 | V7 | VlO | 0 |
309849/0996
RA. 9-71-O3I"
Das Löschen oder der Ersatz eines gegebenen Uniphons reduziert die Anzahl der Eingänge auf 4» Diese Anzahl von Eingangssignalen
reicht immer noch zur Erkennung aus. Wie bereits unter dem Oberbegriff
"Bündelung ausgeführt wurde, ergibt eine Variante einer der obigen Laute, die im Bündel liegt, das richtige Ausgangssignal,
möglicherweise jedoch mit einem anderen Ausgangssignal. Dadurch wird d-ie Erkennung des Wortes "ONE" nicht beeinflußte
sie kann jedoch an ein anderes Wort dichter herankommen.
Die Eingangssignale der Worterkennungsschaltungen liefern eine
lineare Summe, die mit einer Schwellwertspannung an dem mit P
bezeichneten Anschluß der Worterkennungsschaltung Wl in Fig. 8 verglichen wird. Eine Konstantstromquelle 102 gestattet das
Einschalten nur eines Wortanzeigers zu einem gegebenen Zeitpunkt. Wenn eine Verknüpfung oder eine Gleichzeitigkeit auftritt,
werden beide festgestellten Wörter zurückgewiesen. Eine Rüekweisung erfolgt ebenfalls, wenn alle Wortsummen
unterhalb des eingestellten Sehwellwertes liegen= Das Wort "Fehler" oder "falsch"1 wird dann vom, Sprecher zur Korrektur
einer Zurückweisung oder eines Ersatzes ausgesprochen. In den Erkennungseinheiten Wl bis W30 erkannte Wörter werden
durch den Binäreodierer 151 für den Wortzahldetektor binär codiert. So kann jedes Wort jeden Ausgangsco.de benutzen»
(Ausgenommen sind Betriebswörter, die nach festen Positionen
verdrahtet sein müssen, wie z.B. Fehler, falsch, Rückstellung
und Dateneingabe, die später genauer beschrieben werden.) Das Wort "(MISTAKE (FEHLER),11 erregt die M-Leitung 103, die
nach dem Äusgaberegister 11 führt. Die durch die Erkennungsschaltungen
Wl bis W30 erkannten Wörter erregen durch ihre codierten Ausgangssignale die übergangsdetektoren 104 und 105,
während-das Signal auf der M-Leitung 103 nur den Übergangsdetektor 1O5"erregt.
Fig. 9 zeigt das aus zwei Teilen bestehende Ausgaberegister 11 mit den Synchrontreiberstufen 106 und 107. Der erste Teil,
Ri 9-71-031 309849/0996
durch eine Null an der rechten Seite der obersten Zeile der
Speicherzellen bezeichnet, ist ein Kurzzextspeicherregister
für den.5-Bit-Code, der von der Worterkennungs- und Codierschaltung
10 kommt. Dieser Teil enthält außerdem ein Register für die M-Leitung 103. Dieser Teil des Registers 11 speichert
den Wortcode und stellt ihn zur Überprüfung durch die
Bedienungskraft bildlich dar. Wenn der Code gültig ist, d.h.
wenn es der richtige Code für das Wort ist und das Wort somit richtig erkannt wurde, spricht der Bediener das nächste Wort,
welches in das Register 0 eingegeben wird. Der für gültig be-
fundene Code wird in die Registerstufe 1 verschoben. Jeder andere Code in höheren Schieberegxsterstufen wird ebenfalls
um eine Position verschoben. Wenn eine Zurückweisung oder ein Fehler im Register 0 erscheinen, spricht die Bedienungskraft
das Wort "MISTAKE (FEHLER)". Jetzt betätigt der Übergangsdetektor 105 nur die Synchrontreiberstufe 1O6 über die
Fortschalt-Kippschaltung 108, die den Impulsgenerator 109 betätigt,
wenn er durch den Taktimpuls nach dem Einschalten von 1O5 ausgeschaltet wird. Der Impulsgenerator 1O9 gibt
einen Impuls ab, der die Synchrontreiberstufe 106 betätigt und das M-Register 110 einschaltet, während gleichzeitig der
jetzt im Register 0 gespeicherte Code gelöscht wird. Da der Übergangsdetektor 104 nicht arbeitet, liegt an der Synchrontreiberstufe
107 kein Eingangssignal und das Ausgaberegister 11 schaltet nicht weiter. Auch schaltet das Ausgaberegister
nicht weiter, wenn die richtigen Daten in das Register 0 eingelesen
werden, weil das M-Register 110 das UND-Glied 111 gesperrt hält. Das -neue Datenwort löscht über den Übergangsdetektor 105 und die Synchrontreiberstufe 106 das M-Register
110 und speichert den neuen Code im Register 0. Die Kippschaltung 108 verzögert das Arbeiten der Synchrontreiberstufe
106 so, daß das M-Register 110 eingeschaltet bleibt und eine Betätigung des Übergangsdetektors 104 sperrt und verhindert
damit eine Verschiebung des Ausgaberegisters 11. Weitere gültige Codes können wie vor eingegeben und verschoben werden,
bis das Ausgaberegister 11 voll ist. Ein in das Register 8
9-71-031 309849/0996
eintretender Code wirkt über das ODER-Glied 112, den Inverter
113, den Null-Inverter 114, das UND-Glied 115 und das ODER-Glied
116 und hält die Synchrontreiberstufen 106 und 107 angepaßt,
wodurch, jede weitere Datenverschiebung verhindert wird.
Das Register 11 kann jederzeit durch die Rucks te lltas'te 117
oder durch. Aussprache des Befehles "RESET" (Rückstellen) gelöscht
werden. Der RückstellBefehl wird so decodiert, daß ein
Signal über die Leitung 118 an das ODER-Glied 119 übertragen wird, das koordinierte Rucksteilsignale abgibt. Jedes Eingangssignal
hekj. den Signalpegel am ODER-Glied 119 an, das
eine Rückstellverriegelung 71 über die Verbindung über den Inverter 12Q zum sprac&gesteuerten Taktgeber 12 bildet. Der
Null-Inverter 121 liefert eine Ruckstellanzeige, die auch
den Multivibrator 122 einschaltet. Dadurch wird vom Impulsgenerator
123 ein Taktimpuls und über das ODER-Glied 116 ein Impuls zum Ausschieben des Inhaltes des Registers 11 geliefert.
Das Rückstell signal 71 h.indert die vollständige Ausgabe vom
Null-Inverter 114 durch, das UND-Glied 115 daran, die Schiebeaktion
zu sperren ? Eine -Ruckstellha!feesch.alfcung wirkt über
den Impulsgenerator 124 auf das opES-TGlied 119 ein, Die Zeitverzögerung
125 kann so eingestellt werden, daß die Rückstelloperation zyklisch, für Datenleitoperationen mit fester oder
vorgegebener Zykluszeit wiederholt werden kann, Die Stufe liefert einen Impuls während der Taktperiocle, die einer Entscheidung zum Halten der Entscheidungsyerriegelung folgt,
und yerhindert so die erneute Erkennung desselben Wortes,
In den Fig. 1OA und 1OB sind die Verriegelungen und Steuerungen
dargestellt. Von den invertierten Ausgängen der SChieberegister 1 bis 4 in jeder Zeile der Uniphonschieberegister 7
kommende Wortende-Ausgangssignale werden in den ODER-Gliedern 127 bis 129 gemischt. Der Inverter 130 und der Null-Inverter
131 stellen Signalpegel und Signalphase zur Betätigung der Verriegelungsschaltung 132 wieder her, die ein Ausgangssignal
73.an den sprachgesteuerten Taktgeber 12 und eine optische
RA 9-71-031 .30 9 849/099 θ
Anzeige liefert. Ein Wortende^Schalter 133 verhindert im ausgeschalteten Zustand das Einstellen dieser Verriegelung. Ein
Ein-Zyklus-Schalter 134 Betätigt eine Tast-Kippschaltung 135,
deren Ausgang über den Impulsgenerator 64 mit dem sprachgesteuerten
Taktgeber 12 verbunden ist. Dadurch ist der Ablauf eines Zyklus möglich, mit Ausnahme der Fälle, in denen
die Verriegelung für' Anpassung halten und Wortende wirksam sind.
Die Befehlswörter "Rückstellen" und "Dateneingabe" werden
aus geeigneten üniphonfolgen für' einen· gegebenen Sprecher
so gesteckt, daß sie von den Wortdetektoren 136 bzw. 137
erkannt" werden. Wenn "Rückstellen" erkannt wird, steigt das
Ausgabesignal des Wortdetektors 136 an und leitet eine Rück—
Stelloperation im Ausgaberegister 11 ein. Außerdem wird dieses Signal mit dem Ausgangssignal der Kippschaltung 108
und dem Ausgangssignal des Wortdetektors 137 (Dateneingabe)
im ODER-Glied 142 gemischt, wodurch die Wortschwellwert—
spannung· abgeschaltet wird. Das äusgangssignal der Kipp-*-
schaltung 108 tritt bei allen Datenwörtern und bei dem Wort "MISTAKE" (Fehler) auf, da es durch den Übergangsdetektor 1O5
in Fig* 8 eingeschaltet wird» Das Ausgangssignal des Inverters
138 verringert die Empfindlichkeit des Sprachvorverstärkers 14 während der Rückstellung. Die Erkennung von
"ENTER DATA" (Dateneingabe)1 durch den Wortdetektor 137
schaltet die Verriegelungsschaltung 139 zur Anzeige "E" am Anzeiger 140 und hält das Ausgaberegister 11 über das über
die Leitung 141 angeschlossene ODER-Glied 116. Die Verriegelungssehaltungen
95, 132 und 139 werden über die Rückstelltaste 97 oder durch die Decodierung des Befehlswortes "RESET"
zurückgestellt,
Das zweite Zyklushaltesignal, gesteuert durch, das Ausgangssignal
der Kippschaltung 126 in Fig. 9, wird im ODER-Glied 145 der Fig. 1OB verknüpft und hält die Verriegelungsleitung
an den Wortdetektoren■, um die Erkennung nach einer Entscheidung
aja. den Eingängen der mit P in Fig. 8 bezeichneten Wort-
RA 9-71-O31 30.9849/0996
detektoren zu verhindern„ Das Schieberegister 143 liefert
einen weiteren Verzögerungszyklus, wobei das Schieberegister für Signalpegel verschoben und dieser durch den Null-Iiiverter
144 umgekehrt und mit dem Signal von der Kippschaltung in Fig. 9 und der einstellbaren Schwellwertspannung im ODER-Glied
145 verknüpft wird= Der auf der Leitung 65 vom Impulsgenerator 64 in Fig, 4 kommende Taktimpuls wird ebenfalls
im ODER-Glied 145 verknüpft, so daß der Schwellwert bei jedem Taktimpuls zurückgestellt wird. Die Diodenverbindung des Rückstellimpulsgenerators
124 in Fig„ 9 im Ausgaberegister ist ebenfalls zu beachten, ' ■
Die obige Verriegelungsschaltung soll sicherstellen, daß eine Wortentscheidung nur dann, wenn das System nicht zurückstellt,
oder zwischen Taktimpulsen getroffen werden kann, und daß diese
Entscheidung nach mindestens zwei Taktperioden nach einer vorhergehenden Entscheidung erfolgt. Aus dieser Überlegung
folgt, daß ein Wort mindestens drei Taktperioden lang sein muß, eine Annahme, die sich in der Praxis bewährt hat.
Einige Wörter können auch nur eine oder zwei Taktperioden lang sein, wenn der oben beschriebene sprachgesteuerte Taktgeber nicht verwendet wird. Darin liegt einer der Vorteile
dieses Systems gegenüber Systemen mit konstantem Takt.
In Fig. 11 ist die Schaltung, die die -Uniphonfolge in ein Wort umwandelt, als Schalttafel 146 dargestellt. Der Raum
auf der gezeigten Schalttafel ist zwar auf 33 Worterkennungen mit 8-Eingängen beschränkt, wenn mehr Wörter benötigt werden,
kann jedoch eine größere Schalttafel benutzt werden. Eine Alternative zur Schalttafel wäre die Speicherung von Uniphonfolgen
als Daten auf einer Plattendatei oder im Speicher einer' Datenverarbeitungsanlage. Der Adaptivspeicher mit
elektronischen Schablonen, der für die Uniphonerkennung benutzt
wurde, kann auch-, als wortadres.sierbarer. Speicher oder
als Assoziativspeicher aufgebaut, sein. Wenn", ein ausreichend
RA 9^71-031
309849/0996 -
-32- " 2328517
großer Speicher zur Verfügung stände, könnte er ebensogut
für die gesamte Wortbibliothek verwendet werden.
Als Beispiel ist die Verdrahtung vom Uniphonschieberegister
nach. Worterkennungsschaltung für das oben bereits erwähnte Wort "ONE11 gegeben. Die oberen Anschlüsse der Schalttafeln
sind die Ausgänge des Uniphonschieberegisters. Alle Anschlüsse sind zur Ermöglichung von Verzweigungen paarweise vorgesehen.
Die Stufenbezeichnung von 0 bis 4 ist rechts und links von jeder Zeile der Steckbuchsenpaare angegeben. Im allgemeinen
wird nur die- untere Steckbuchse eines Paares benutzt, die obere für Prüfzwecke freigelassen. Gewünschte Ausgänge der
Uniphon^Schieberegistersteckbuchsen werden zu einem der 8
Eingänge eines, jeden Wortdetektors verdrahtet. Sie sind' von 1 bis 30 numeriert und die Sonderdetektoren liegen rechts
und sind mit M für "MISTAKE", R für "RESET" und E für "ENTER DATA" beschriftet. Die Ausgangssignale der Detektoren für
M, R und E haben die oben beschriebene feste Funktion. Die Wortdetektoren oder Erkennungsschaltungen Wl bis W30 liefern
binär codierte Ausgangssignale, die den angegebenen Zahlen entsprechen.
RA 9-71-031 309849/0996
Claims (10)
- PATENTANSPRÜCHEVerfahren zum automatischen Erkennen von gesprochenen Wörtern, bei dem in voller Ba-ndbreite vorliegende und elektronisch verstärkte Sprachsignale zur Frequenzanalyse in einem Analysator in eine Anzahl frequenzmäßig benachbarter Teilfrequenzbereiehe unterteilt werden, gekennzeichnet durch folgende Verfahrensschritte:Periodisches Abtasten der Momentanwerte der eingeschwungenen Signale in den Teilfrequenzbereichen zur Feststellung, welches der Signale oberhalb eines gleitenden Sehwellwertes liegt,zeitweiliges Einspeichern von Mustern von Signalen, die eine Information darüber darstellen, welches der abgetasteten Ausgangssignale des Analysators oberhalb bzw. unterhalb des Sehwellwertes liegt,Vergleichen der se seitweise gespeicherten Signalmuster mit vorher Ia einem Speieher eingespeicherten Signal— mustern und Bestimmen der weitestgehenden Übereinstimmung zwischen den zum Vergleich stehenden Mustern, Anzeigen des Vergleiehsergebaisses für jeden solchen Vergleich zweier Signalmuster und sequentielles Abspeichern dieser Signale als üniphone als codierte Form der abgetasteten eingeschwungenen Sprachsignale und umwandeln von Folgen solcher sequentiell gespeicherter codierter üniphon© in Wörter durch eine entsprechende ümwandlungseinrichtung zur Identifizierung der- gesprochenen Wörter. 'RA 9-71-O3I - 309849/0996
- 2. Verfahren nach Anspruch. 1, dadurch, gekennzeichnet, daß die bei der Umwandlung ermittelten Wörter in erkannte Wörtercodes umgesetzt werden.
- 3. Verfahren nach den Ansprüchen 1 und 2, dadurch, gekennzeichnet, daß die Frequenzanalyse, die Speicherung und der Vergleich durch Taktsignale koordiniert undgesteuert wird, die durch einen Taktgenerator erzeugt werden, dessen Takt aus der Frequenz und Intensität der Sprachsignale abgeleitet wird»
- 4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß der Taktgenerator immer dann angehalten wird, wenn immer die Abwesenheit von Sprachsignalen festgestellt wird und immer dann wieder in Betrieb gesetzt wird, wenn.die Sprachsignale wieder auftreten.
- 5. Verfahren nach Anspruch. 3, dadurch gekennzeichnet, daß die taktgesteuerte Ab ta ^ ' u'ig der Sprachsignale dummer dann verlangsamt wird, wenn Reiblaute von mehr als 50 ms Dauer festgestellt werden, um die Anzahl der redundanten Abtastwerte des gleichen Sprachsignals zu vermindern.
- 6. Schaltungsanordnung zur Durchführung eines Verfahrens gebnäß Anspruch 1 — 5 mit einem Mikrofon und einem Frequenzanalysator zum Aufspalten der Sprachsignale in. eine Anzahl von Teilfrequenzbereichen und daran jeweils angeschlossenen Verstärkern, dadurch gekennzeichnet, daß auf den Frequenzanalysator (2; 24 bis 31} eine Anzahl logarithmischer Verstärker (16 bis 22) folgt, denen auf einen gleitenden Schwellwert sich einstellende Merkmalsauswahlschaltungen (3) zur Auswahl der den jeweiligen Schwellwert überschreitenden Signale nachgeschaltet sind, wobei die jeweiligen Schwellwerte für jeden Teilfrequehzbereich entspre—RA S-71-O31 30 98 49/09 96chend dem Energieinhalt In unmittelbar und mittelbar benachbarten Teilfrequenzbereichen durchgelassener Signale schwankenf und daß die so ausgewählten in mehreren Teilfrequenzbereichen durchgelassenen Signale ein typisches Signalmuster bilden, daß ferner eine sprachgesteuerte Synchronisier-"- und Steuerschaltung (12) vorgesehen ist, die, durch den Frequenzanalysator gesteuert r das Arbeiten der ganzen Anordnung koordiniert und steuert. '
- 7. Schaltungsanordnung nach Anspruch 6, dadurch gekennzeichnet, daß eine WORT-Detektor- und Codierschaltung ClO) vorgesehen ist, die mit der Umwandlungseinrichtung C9) verbunden ist und eine taktgesteuerte Ausgabevorrichtung CH) ansteuert und daß die zeitweilig in der Ausgabevorrichtung zwischengespeicherten codierten Wörter taktgesteuert als codierte erkannte Wörter ausgegeben werden können.
- 8. Schaltungsanordnung nach Anspruch 7, dadurch gekennzeichnetf daß zur Frequenzanalyse eine Anzahl frequenzbenachbarter Bandpaßfilter C24 bis 31) vorgesehen sind, deren gesamter Frequenzbereich der menschlichen Sprache weltgehend überdeckt, daß zur Verstärkung der Sprachsignale ein logartthmlscher Verstärker Cl5) am Eingang aller Bandpaßfilter angeschlossen istr daß eine Anzahl logarithmischer Verstärker (16 bis 22) an alle diejenigen Bandpaßfilter angeschlossen ist, deren Teilfrequenzbereiche unterhalb von 4 kHz liegen und daß zur Merkmalsauswahlschaltung und Signalerzeugung mit dem Verstärker-Ausgang jedes Teilfrequenzbereiches eine SChwellwert-Verglelchsschaltung (42) verbunden ist, die eingangsseitig ein Widerstandsnetzwerk zur Verbindung mit den unmittelbar bzw. mittelbar benachbarten Vergleichsstufen aufweist, um den Schwellwert aller der damit verbundenen Vergleichsstufen anzuheben .309849/0996RÄ 9-71-031
- 9. Schaltungsanordnung nach\ Anspruch. 8^ dadurch, zeichnet, daß zum Vergleichen, zur Auswahl und Signalgabe ein adaptiver Speicher C&) dientf der eine Anzahl elektronischer Schablonen enthält,.an die eine Anzahl von Entscheidungsstufen ClOO) angeschlossen sind, die Signale abgeben, welche der elektronischen Schablonen Signalmuster mit der weitestgehenden Übereinstimmung enthalten.
- 10. Schaltungsanordnung nach Anspruch 9f dadurch gekennzeichnet, daß zur Umwandlung eine schalttafel CL46) vorgesehen ist, mit der eine Anzahl von identifizierten Uniphon-Mustern zur Bildung von Wörtern verdrahtet sind, die Ausgangssignale für erkannte gesprochene Wörter liefern.309849/0996
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US25725472A | 1972-05-26 | 1972-05-26 |
Publications (1)
Publication Number | Publication Date |
---|---|
DE2326517A1 true DE2326517A1 (de) | 1973-12-06 |
Family
ID=22975512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2326517A Pending DE2326517A1 (de) | 1972-05-26 | 1973-05-24 | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern |
Country Status (7)
Country | Link |
---|---|
US (1) | US3770892A (de) |
JP (1) | JPS5412003B2 (de) |
CA (1) | CA1005914A (de) |
DE (1) | DE2326517A1 (de) |
FR (1) | FR2187175A5 (de) |
GB (1) | GB1418958A (de) |
IT (1) | IT989203B (de) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2613258A1 (de) * | 1975-04-02 | 1976-10-21 | Rockwell International Corp | System zur automatischen spracherkennung |
DE2824115A1 (de) * | 1977-06-02 | 1978-12-14 | Interstate Electronics Corp | Signalmuster-kodierer und -klassifikator |
DE3226929A1 (de) * | 1981-07-24 | 1983-02-10 | Asulab S.A., 2502 Bienne | Sprachgesteuertes geraet |
DE3790442C2 (de) * | 1986-07-30 | 1996-05-09 | Ricoh Kk | Einrichtung zur Berechnung eines Ähnlichkeitsgrades eines Sprachmusters |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3883850A (en) * | 1972-06-19 | 1975-05-13 | Threshold Tech | Programmable word recognition apparatus |
GB1435779A (en) * | 1972-09-21 | 1976-05-12 | Threshold Tech | Word recognition |
US3943295A (en) * | 1974-07-17 | 1976-03-09 | Threshold Technology, Inc. | Apparatus and method for recognizing words from among continuous speech |
DE2536640C3 (de) * | 1975-08-16 | 1979-10-11 | Philips Patentverwaltung Gmbh, 2000 Hamburg | Anordnung zur Erkennung von Geräuschen |
GB1557286A (en) * | 1975-10-31 | 1979-12-05 | Nippon Electric Co | Speech recognition |
JPS5272504A (en) * | 1975-12-15 | 1977-06-17 | Fuji Xerox Co Ltd | Device for recognizing word audio |
US4087630A (en) * | 1977-05-12 | 1978-05-02 | Centigram Corporation | Continuous speech recognition apparatus |
US4181821A (en) * | 1978-10-31 | 1980-01-01 | Bell Telephone Laboratories, Incorporated | Multiple template speech recognition system |
USRE31188E (en) * | 1978-10-31 | 1983-03-22 | Bell Telephone Laboratories, Incorporated | Multiple template speech recognition system |
US4349700A (en) * | 1980-04-08 | 1982-09-14 | Bell Telephone Laboratories, Incorporated | Continuous speech recognition system |
US4831653A (en) * | 1980-11-12 | 1989-05-16 | Canon Kabushiki Kaisha | System for registering speech information to make a voice dictionary |
JPS5782899A (en) * | 1980-11-12 | 1982-05-24 | Canon Kk | Voice recognition apparatus |
US4454586A (en) * | 1981-11-19 | 1984-06-12 | At&T Bell Laboratories | Method and apparatus for generating speech pattern templates |
GB2126393B (en) * | 1982-08-20 | 1985-12-18 | Asulab Sa | Speech-controlled apparatus |
US4783807A (en) * | 1984-08-27 | 1988-11-08 | John Marley | System and method for sound recognition with feature selection synchronized to voice pitch |
US4797927A (en) * | 1985-10-30 | 1989-01-10 | Grumman Aerospace Corporation | Voice recognition process utilizing content addressable memory |
GB2183880A (en) * | 1985-12-05 | 1987-06-10 | Int Standard Electric Corp | Speech translator for the deaf |
JPH06105394B2 (ja) * | 1986-03-19 | 1994-12-21 | 株式会社東芝 | 音声認識方式 |
AT390685B (de) * | 1988-10-25 | 1990-06-11 | Philips Nv | System zur textverarbeitung |
GB2234078B (en) * | 1989-05-18 | 1993-06-30 | Medical Res Council | Analysis of waveforms |
DE69203186T2 (de) * | 1991-09-20 | 1996-02-01 | Philips Electronics Nv | Verarbeitungsgerät für die menschliche Sprache zum Detektieren des Schliessens der Stimmritze. |
EP0590173A1 (de) * | 1992-09-28 | 1994-04-06 | International Business Machines Corporation | Computersystem zur Spracherkennung |
US5706398A (en) * | 1995-05-03 | 1998-01-06 | Assefa; Eskinder | Method and apparatus for compressing and decompressing voice signals, that includes a predetermined set of syllabic sounds capable of representing all possible syllabic sounds |
US5822728A (en) * | 1995-09-08 | 1998-10-13 | Matsushita Electric Industrial Co., Ltd. | Multistage word recognizer based on reliably detected phoneme similarity regions |
US5684925A (en) * | 1995-09-08 | 1997-11-04 | Matsushita Electric Industrial Co., Ltd. | Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity |
US5825977A (en) * | 1995-09-08 | 1998-10-20 | Morin; Philippe R. | Word hypothesizer based on reliably detected phoneme similarity regions |
US6085162A (en) * | 1996-10-18 | 2000-07-04 | Gedanken Corporation | Translation system and method in which words are translated by a specialized dictionary and then a general dictionary |
JP2000221990A (ja) * | 1999-01-28 | 2000-08-11 | Ricoh Co Ltd | 音声認識装置 |
US7133827B1 (en) | 2002-02-06 | 2006-11-07 | Voice Signal Technologies, Inc. | Training speech recognition word models from word samples synthesized by Monte Carlo techniques |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US9875081B2 (en) * | 2015-09-21 | 2018-01-23 | Amazon Technologies, Inc. | Device selection for providing a response |
US10482904B1 (en) | 2017-08-15 | 2019-11-19 | Amazon Technologies, Inc. | Context driven device arbitration |
FR3109458B1 (fr) * | 2020-04-16 | 2022-08-26 | Intrapreneuriat Bouygues | Système de reconnaissance et d'identification de sources sonores en temps réel |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3172954A (en) * | 1965-03-09 | Acoustic apparatus | ||
US2685615A (en) * | 1952-05-01 | 1954-08-03 | Bell Telephone Labor Inc | Voice-operated device |
US3204030A (en) * | 1961-01-23 | 1965-08-31 | Rca Corp | Acoustic apparatus for encoding sound |
US3234392A (en) * | 1961-05-26 | 1966-02-08 | Ibm | Photosensitive pattern recognition systems |
US3280257A (en) * | 1962-12-31 | 1966-10-18 | Itt | Method of and apparatus for character recognition |
-
1972
- 1972-05-26 US US00257254A patent/US3770892A/en not_active Expired - Lifetime
-
1973
- 1973-04-19 FR FR7315255A patent/FR2187175A5/fr not_active Expired
- 1973-04-24 CA CA170,034A patent/CA1005914A/en not_active Expired
- 1973-04-26 JP JP4685073A patent/JPS5412003B2/ja not_active Expired
- 1973-05-04 IT IT23715/73A patent/IT989203B/it active
- 1973-05-14 GB GB2275673A patent/GB1418958A/en not_active Expired
- 1973-05-24 DE DE2326517A patent/DE2326517A1/de active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2613258A1 (de) * | 1975-04-02 | 1976-10-21 | Rockwell International Corp | System zur automatischen spracherkennung |
DE2824115A1 (de) * | 1977-06-02 | 1978-12-14 | Interstate Electronics Corp | Signalmuster-kodierer und -klassifikator |
DE3226929A1 (de) * | 1981-07-24 | 1983-02-10 | Asulab S.A., 2502 Bienne | Sprachgesteuertes geraet |
DE3790442C2 (de) * | 1986-07-30 | 1996-05-09 | Ricoh Kk | Einrichtung zur Berechnung eines Ähnlichkeitsgrades eines Sprachmusters |
Also Published As
Publication number | Publication date |
---|---|
JPS4950804A (de) | 1974-05-17 |
US3770892A (en) | 1973-11-06 |
CA1005914A (en) | 1977-02-22 |
JPS5412003B2 (de) | 1979-05-19 |
GB1418958A (en) | 1975-12-24 |
FR2187175A5 (de) | 1974-01-11 |
IT989203B (it) | 1975-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE2918533C2 (de) | ||
DE3884880T2 (de) | Billige Spracherkennungseinrichtung und Verfahren. | |
DE2953262C2 (de) | ||
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE2753277C2 (de) | Verfahren und Einrichtung zur Spracherkennung | |
DE69519328T2 (de) | Verfahren und Anordnung für die Umwandlung von Sprache in Text | |
DE3211313C2 (de) | ||
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE3645118C2 (de) | ||
DE2422028C2 (de) | Schaltungsanordnung zur Identifizierung einer Formantfrequenz in einem gesprochenen Wort | |
DE3216800A1 (de) | Anordnung zur eingabe von befehlsworten durch sprache | |
DE10030105A1 (de) | Spracherkennungseinrichtung | |
DE2753707A1 (de) | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache | |
DE4031638C2 (de) | ||
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE3750365T2 (de) | Sprecheridentifizierung. | |
DE4031421C2 (de) | Musteranpassungssystem für eine Spracherkennungseinrichtung | |
DE19920501A1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter Sprachsynthese | |
DE60018690T2 (de) | Verfahren und Vorrichtung zur Stimmhaft-/Stimmlos-Entscheidung | |
DE69026474T2 (de) | System zur Spracherkennung | |
EP1125278B1 (de) | Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte | |
DE1206167B (de) | Schaltung zur Verbesserung der Erkennbarkeit von Lauten bei der Schallanalyse | |
DE1422056A1 (de) | Phonetische Schreibmaschine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OHJ | Non-payment of the annual fee |