DE1965480C3 - Gerat zur Umwandlung eines in graphischen Zeichen gedruckten Textes in gesprochene Worte - Google Patents
Gerat zur Umwandlung eines in graphischen Zeichen gedruckten Textes in gesprochene WorteInfo
- Publication number
- DE1965480C3 DE1965480C3 DE1965480A DE1965480A DE1965480C3 DE 1965480 C3 DE1965480 C3 DE 1965480C3 DE 1965480 A DE1965480 A DE 1965480A DE 1965480 A DE1965480 A DE 1965480A DE 1965480 C3 DE1965480 C3 DE 1965480C3
- Authority
- DE
- Germany
- Prior art keywords
- phonemes
- words
- frequency
- pair
- coded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrically Operated Instructional Devices (AREA)
- Document Processing Apparatus (AREA)
Description
geflüsterter Sprache gut ist, weiche gemäß Definition
kein Linienspektrum umfaßt, da man die dieses Spektrum erzeugenden Stimmbänder abschaltet. Diese
einfache Feststellung zeigt, daß die flüstergefikerte
Stimme über 4000 Hz die Gesamtheit der semantischen Information enthält.
Ein Wort muß als ein Programm von Bewegungen des phonetischen Apparates betrachtet werden. Dieses
Programm findet sich integral in den »Sonagrammen« (Spektrogrammen) geflüsterter Stimmen unter
dem Aspekt einer zeitlichen Struktur wieder, wo man alle Elemente des Arbeitens des phonetischen Apparates
wiederfinden kann. Kurz, das sonographische Bild einer nüstergefilterten Stimme stellt sich als eine
originale Globalform dar, die unmöglich mit einer anderen verwechselt werden kann und genügend
stereotypiert ist, damit sie von einer Person zur anderen ohne jede Mehrdeutigkeit erkannt werden
kann. Dieses Bild ist in der Tat das akustische Skelett des Wortes und stellt .das notwendige und ausreichende
Minimum dar, um es erkennen zu können.
Man muß daran erinnern, daß ein »Sonagramm« eine Darstellung eines Tones in einer Zeit-Frequenzebene ist, wobei die Amplitude durch einen Strich
oder durch mehr oder minder dunkergraue Linien veranschaulicht wird.
Ein Wort verstehen heißt also, eine akustische Form identifizieren. Jede repräsentative Globalform
eines Wortes kann in Elemente verbindbarer Form zerlegt werden. Jedes dieser Formelemente entspricht
nicht einem Phonem, sondern einer Bewegung des phonetischen Apparates zwischen zwei benachbarten
Phonemen. Ein Wort ist also nicht phonetisch in Phoneme, sondern in phonetische Elemente zerlegbar,
welche Vereinigungen von zwei Phonemen sind und welche man, in Anbetracht ihres unteilbaren
Charakters in der Folge »Phonatome« (Phonempaare) nennen wird.
So ist z. B. das französisch gesprochene Wort PARIS nicht die Summe von vier Phonemen
P, A, R, I, sondern die Verkettung von drei Phonatomen PA-AR-RI oder von vier Phonatomen
PA-AR-RI-II, wenn sich das V/ort PARIS allein oder am Ende eines Satzes befindet.
Die analogen Sonagramme der Ponatome, wovon
die digitalisierten Sonagramme abgeleitet werden, welche in dem Gerät der vorliegenden Erfindung benutzt
werden, sind idealisierte und standardisierte Sonagramme. Man geht von einem Sonagramm der
rohen, geflüsterten Stimme aus, die mit einem »Sonagraph« registriert wird. Dieses Sonagramm wird verfeinert,
indem man es für die Verständlichkeit frei macht von al'en seinen nicht bedeutsamen Elementen,
die gerahmt und begrenzt werden in Zeit und Frequenz. Das derart verfeinerte Sonagramm wird
digitalisiert, wie v/eiter unten beschrieben ist, und in dem Gerät der Erfindung erprobt, um seine Verständlichkeit
zu prüfen.
Die Fig. 1, bis I13 veranschaulichen jeweils die
analogen Sonagramme der Phonatome der französischen Sprache NO, SO, BO, TO, RO, NI, SI, BI,
TI, RI, PA, AR, RI, und die Fig. Ix veranschaulicht
das mAogv Sonagramm des Wortes PARIS in französischer
Aussprache.
In einer ähnlichen; Form stellen die Fig. I14 bis I17
die analogen Sonagramme der Phonatome der russischen Sprache RJ, h, ει, Tj' dar und veranschaulicht
die Fi g. 2., das Wort PEY; zeigen die Fig. LH bis I3,, die analogen Sonagramme
der Phonatome der deutschen Sprache DI, Ij, j» ·
PR, RA, AR, Rt und stellt clic F i g, 2., die Wörtci
DIE SPRACHE dar;
veranschaulichen die Fig. l„f, bis L1, die analogen
Sonagramme der Phonatome der italienischen Sprache LA, AP, PA, AR, RD, DL, DD und stellt
die Fig. 24 die Wörter LA PAROLA dar;
veranschaulichen die F i g. 1.,, bis l.,„ die analogen
ίο Sonagramme der Phonatome der japanischen Sprache
KO, OT, TO, OB, BA, und die Fig. 25 stellt das Wort KOBOTA dar;
veranschaulichen die Fig. I37 bis I41 die analogen
Sonagramme der Phonatome der schwedischen
Sprache UU, UR, Df, cT, T , und die Fig. 2(l stellt
das Wort ORDET dar;
veranschaulichen die Fig. I42 bis I48 die analogen
Sonagramme der englischen Sprache AU, UD, DU, UJ, JU, UD, DU, und die Fig.2, stellt die Wörter
a»" How do you do dar.
In der französischen Sprache nimmt man die Existenz von 28 bis 30 Phonemen an. Man hält in der
vorliegenden Beschreibung die Zahl von 28 Phonemen fest, deren Liste die folgende ist:
R | I | M | J |
E | e | an | Z |
L | D | on | OU |
A | O | U | in |
S | K | V | g hart |
T | N | 1 weich | ch |
e | P | B | F |
Es ist möglich, diese Phoneme auf Zeilen und
Spalten zu verteilen und einem Phonem der Zeile und einem Phonem der Spalte ein Phonatom entsprechen
zu lassen, das auf dem Kreuzungspunkt dieser Zeile und dieser Spalte liegt. L -i kann ein Phonatom
durch zwei Adressen mi) Binärziffern de-
liniert werden, deren erste die Adresse des ersten Phonems in der Zeile und deren zweite die Adresse
des zweiten Phone- '. in der Spalts ist.
Die Fig. 3 veranschaulicht die Phoneme in dei
Form einer Matrix. An jedem Kreuzungspunkt der
Matrix entsprechend zwei Phonemen ist die auftretende Frequenz des durch diese zwei Phoneme gebildeten
Phonatoms in °/00 eingetragen.
Zum Beispiel beträgt die Frequenz des Phonatoms ,PA in einem klassischen französischen Text 7 "I110-
Der Erfindung liegt die Aufgabe zugrunde, ein Gerät der eingangs genannten An zu schaffen, das eine
verbesserte Umwandlung eines gedruckten Textes in gesprochene Wörter erlaubt.
Es ist zwar bereits ein Verfahren zur Kodierurjg von Sprachsignalen durch stilisierte Visibie-Speech-Spektrogramme bekanntgeworden, bei welchem eine binärkodierte Bezifferung der Phoneme vorgenommen wird, doch hat dieses Verfahren den Nachteil, daß jedes Spektrogramm in Analogform
Es ist zwar bereits ein Verfahren zur Kodierurjg von Sprachsignalen durch stilisierte Visibie-Speech-Spektrogramme bekanntgeworden, bei welchem eine binärkodierte Bezifferung der Phoneme vorgenommen wird, doch hat dieses Verfahren den Nachteil, daß jedes Spektrogramm in Analogform
gespeichert und dementsprechend auch in Analogform abgelesen wird.
Die gestellte Aufgabe wird erfindungsgemäß dadurch gelöst, daß jedes der Spektrogramme in Form
einer Folge von binärkodierten Wörtern in dem Spei-
cherwerk gespeichert ist, deren jedes die binärkodierte
Übersetzung eines transformierten Spektrogramms darstellt, das aus in der Zsit/Frequenz-Ebene
entlang von Konstantzeitlinien mit gleichmäßi-
gen Frequenzintervallen diskret verteilten Punkten als auch in der Frequenzrichtung vorhanden sind,
besteht, die jeweils einem Amplitudenwert »Eins« Jeder dieser Punkte besitzt eine von zwei physikali-
oder »Null« des Spektrogranims entsprechen, wäh- sehen Bedingungen, welche die Werte »Eins« und
rend jede dieser Linien einem von mit gleichmäßigen »Null« darstellen (und welche schwärze und weiße
' Intervallen in dem Spsktrogramm verteilten Zeit- 5 Punkte sein können, wenn es sich beispielsweise um
punkten entspricht, wodurch das aufeinanderfolgende Sonagramme handelt, die mittels lichtelektrischer
Ablesen dieser Wörter binärkodierte Steuersignale für Wandler abgelesen werden soiieri).
die Steuerung der Wiedergabemittel direkt liefert. Auf Grund dieser Struktur ist es möglich, in einer
die Steuerung der Wiedergabemittel direkt liefert. Auf Grund dieser Struktur ist es möglich, in einer
Das Gerät gemäß der Erfindung benutzt nicht die Speicheranordnung (wie sie,in elektronischen Rechanalogen
Sonagramme des Typs der Fig. I1 bis I48, so nern verwendet wird) alle möglichen Paare von Phosondern
digitalisierte Sonagramme, die daraus abge- riemen in Form einer Folge von kodierten binären
' leitet sind. Die analogen Sonagramme werden durch »Wörtern« zu speichern, von denen jedes in der Freit ,aufgereihte photoelektrische Zellen, vor denen sie quenzkomposition des betrachteten Paares einem der
% -.vorbeiziehen, gelesen, wobei die Zeitachse der Sona- π in gleichem Abstand auftretenden Zeitmomente
gramme die Achse des Vorbeiziehens ist. Das Sona- 15 ihrer Zeitdauer entspricht. Ausgehend von diesem
gramm rückt in Schritten entsprechend einer Zeit Speicherorgan und unter der Steuerung einer Adresse,
' vor, die zwischen 1 und 8 ms geregelt werden kann. die in jedem Zeitmoment das gewünschte Paar von
In jeder erreichten Stellung wird das durch jede Zelle Phonemen individuell kennzeichnet, kann diese Folge
aufgenommene Signal in eine Eins oder in eine Null binärkodierter »Wörter« nacheinander abgelesen und
verwandelt, je nachdem, ob es höher oder niedriger 10 direkt zur Steuerung elektrischer Organe zur akusti-
„als eine bestimmte Bezugsschwelle liegt. sehen Sprachwiedergabe verwendet werden, ohne
Digitalisierte Sonagramme von Phonatomen (es daß eine vorherige Umformung erforderlich wird,
f wird zur Abkürzung von digitalisierten Phonatomen wie es im Gegensatz dazu bei in analoger Form ge-
% gesprochen) sind durch die Fig. 4, 5 und 6 veran- speicherten Sonagrammen der Fall ist.
\ schaulicht a5 Es könnte eingewandt werden, daß die beschrie-
Die digitalisierten Sonagramme der Fig. 4 ent- bene Umwandlung von Sonagrammen nicht die Am-
sprechen den französischen Wörtern DDC, NEUF, plitude berücksichtigt, die jede rrequenzgrundkom-
HUIT, d. h. den Phonatosien: ponente in jedem Moment aufweist Man hat dies-
bezüglich aber in der Praxis festgestellt, daß bei einer
Dl—IS> 30 Anordnung gemäß der Erfindung eine vollkommen
NE — EF, verständliche Wiedergabe der Sprache erreicht wird,
UI —IT. obwohl nur die Amplituden Null und Eins auftreten
können.
Die Sonagramme der F i g. 5 entsprechen den eng- Ein solches Sonagramm kann wegen seines einlischen
Wörtern HOW DO YO DO, d. h. den Phon- 35 fachen geometrischen Aufbaues außerdem leicht entatomen:
worfen und von Hand, fotografisch oder auf andere
Weise abgewandelt und anschließend in binär-AU—UU—UD
— DU—UJ—JU — UD — DU. kodierte Wörter, beispielsweise durch fotoelektrisches
Ablesen, übersetzt werden.
Die Sonagramme der F i g. 6 entsprechen den 40 Die Erfindung wird nunmehr im einzelnen mit Bedeutschen
Wörtern DANKE SCHÖN, d. h. den zug auf die Zeichnungen beschrieben:
Phoiiatemen: Fig, I1 bis i.o, 2. bis 2., 3. A, 5 und 6 beziehen
Phoiiatemen: Fig, I1 bis i.o, 2. bis 2., 3. A, 5 und 6 beziehen
sich auf analoge und digitalisierte Phonatome und DA—-AN—NK—KE — EE—EJ — JE—EN. sind schon in der ^eschreibungseinleitung beschrie-
45 ben worden;
In den F i g. 4, 5 und 6 ist jedes digitalisierte Phon- F i g. 7 veranschaulicht in Form eines Blockschaltatom
eine Folge von »Wörtern« (im Sinne der nume- bildes das sprechende Gerät gemäß der Erfindung;
rischen Rechnung), wobei jedes 44 Binärziffern hat Fig. 8 veranschaulicht das in dem Gerät enthal-
rischen Rechnung), wobei jedes 44 Binärziffern hat Fig. 8 veranschaulicht das in dem Gerät enthal-
In den F i g. ·.-, 5 und 6 ist eine binäre Ziffer »Eins« tene Wortzusammenfassungsgerät, im folgenden
durch zwei aufeinanderfolgende Sterne und eine Zif- 50 »Icophon« genannt;
fer »Null« durch zwei leere Plätze für Sterne darge- Fig. 9 veranschaulicht den in dem Gerät enthal-
stelk. Jedes Phonatom umfaßt 20 nacheinanderfol- tenen Buchstaben-Laut-Umwandler.
gende Wörter. Daraus folgt, daß die Eins durch zwei Unter Bezugnahme auf die F i g. 7 besteht das Gevorhandene Sterne, die Null durch zwei fehlende rät aus einer Kaskadenschaltung, welche ein periphe-Stcrne dargestellt wird. 55 res Gerät in Form einer Schreibmaschine 1 umfaßt,
gende Wörter. Daraus folgt, daß die Eins durch zwei Unter Bezugnahme auf die F i g. 7 besteht das Gevorhandene Sterne, die Null durch zwei fehlende rät aus einer Kaskadenschaltung, welche ein periphe-Stcrne dargestellt wird. 55 res Gerät in Form einer Schreibmaschine 1 umfaßt,
Es sind also digitalisierte Phonatome, welche die sowie einen Buchstiben-Laut-Umwandler 2, eine
Grundinformation darstellen, die in dem Speicher- Schaltung 3, welche die aus dem Umwandler 2 komwerk
des sprechenden Geräts gemäß der Erfindung menden Phoneme paarweise gruppiert, wobei als ereingegeben
wird. stes Phonem einer gegebenen Gruppe das letzte Pho-Mit der Erfindung wird ein wesentlicher techni- 60 nem der unmittelbar vorhergehenden Gruppe wiederscher
Fortschritt durch die Wahl einer besonderen aufgenommen wird, und eine Adressiermatrix 4, die
Struktur der Sonagramme (Sprachspektrogramme) es gestattet, vog den zwei Phonemen einer Gruppe
erzielt, bei welcher die Sonagramme mit einer steti- die Adresse des gebildeten Phonatoms, das durch
gen Änderung der Amplitude bekannter Art so ab- diese Gruppe zustandckonunlt, abzuleiten. Diese
gewandelt sind, daß sie in der Zeit/Frequenz-Ebene 65 Adressiermatrix ist einem Speicherwerk 5 beigesellt,
eine Struktur mit unsteter Amplitude ergeben, die in welchem die digitalisierten Phonatome gespeichert
aus einzelnen Punkten gebildet ist, zwischen welchen werden. Die 20 Wörter von 44 Binärziffern, welche
konstante Zwischenräume sowohl in der Zeitrichtung die Phonatome darstellen, werden in Reihe aus dem
Speichere abgelesen und nach zeitlicher Speiche- gewöhnlichen Regeln für die Aussprache zur Anwenrung
in einen Zwischenspeicher 9 in dem Serie- dung gebracht wird. Das in 201 zur Registrierung
Parallel-Umsetzerö in parallele Wörter umgewandelt. kommende Wort und die verschiedenen Wörter der
Der Umsetzer 6, der 44 Ausgänge umfaßt, ist mit Tabelle 203 werden in einer Vergleichsstufe 205 '.er-■
einem »Icophon« genannten Sprachsynthesegerät 7 5 glichen, und zu diesem Zweck werden die Wörter
verbunden. Dieses Icophon selbst ist mit einem Laut- der Tabelle 203 nacheinander ausgespeichert und in
Sprecher 8 verbunden. das Register 204 übertragen. /
Das Icophon7 umfaßt im wesentlichen (Fig.8)
< Der Vergleich zwischen dem auszusprechenden Sinusoszillatoren 70, bis 7O44, die auf Frequenzen Wort und den Wörtern der Tabelle findet Buchstabe
von 100 bis 4400Hz mit einem mittleren Intervall io ,nach Buchstabe von links aus^statt, wieder bei dem
P I von 100 Hz abgestimmt sind. Jedoch wird das Inter- Aufsuchen in einem Wörterbuch vorgenommen
'* vall zwischen aufeinanderfolgenden Oszillatoren würde. Zu diesem Zwecke werden die Vergleichs-
nicht genau gleich 100 Hz gewählt, um die Überlage- stufe 205, ein Adressenregister 206, das der Tabelle
rung von Harmonischen zu vermeiden. der Ausnahmen 203 beigestellt ist, und ein Zähler
Jeder Oszillator wird durch einen Zufallssignal- 15 208 durch ein Signal auf dem Leiter 207 angelassen,
Generator 71, bis 7J.<4 gesteuert, der auf die Schwin- welche von einem (nicht auf der Zeichnung darge-
Ü gungsfrequenz des entsprechenden Oszillators wirkt. stellten) Programmiergerät kommt. Das erste Wort
ti Diese Maßnahme zielt darauf ab, der geflüsterten der Ausnahmetabelle wird auf das Register 204
Stimme, die aus dem Gerät kommt, eine Flüssigkeit übertragen, und das auszusprechende Wort wird in
,, und eine Natürlichkeit zu geben, durch welche Mono- ao das Register 202 übertragen. Der Zähler 208 gibt an
fl fj tonie vermieden wird. seinem ersten Ausgang ein Signal ab, das die Tore
i Jeder Sinusoszillator wird durch eine Schaltung 209, und 210, öffnet (in Wirklichkeit ist jedes Tor
zum Auslösen und Anhalten 72, bis 12·.. gesteuert, 209, oder 210, aus einer Gruppe von Toren gebildet,
wobei über die Verbindungen 73, bis 7344 die Bi- deren Zahl gleich ist der Zahl der Binärziffern, die
a närziffern der Wörter von 44 Binärziffern vom Um- 95 in dem Gerät zur Darstellung eines Zeichens verwensetzer
6 empfangen werden. Die Auslöseschaltung det wird). Die ersten Buchstaben der zwei in 202 und
regelt die Dauer des Betriebes eines jeden Oszillators. 204 eingeschriebenen Wörter werden verglichen.
Wenn r die Zeit genannt wird, welche die Ablesun- Wenn es sich um denselben Buchstaben handelt, wird
gen von zwei aufeinanderfolgenden parallelen Wör- ein Signal durch den Leiter 211 zum Zähler 208 getern
trennt und τ' die Betriebsdauer der Oszillatoren, 30 sendet, der um einen Schritt vorrückt. Man vergleicht
so ist ersichtlich, daß τ zwischen 1 und 8 Tausendstel- auf dieselbe Weise alle Buchstaben des auszuspresekunden
variiert; was τ' anbetrifft, so kann dies chenden Wortes und des Wortes mit außerordentzwischen
0,24 r und τ geregelt werden. licher Aussprache (es sind nur vier Tore 209 und
In dem Speicherwerk 5 (F i g. 7) ist jedem binären vier Tore 210 dargestellt, aber es gibt selbstverständ-Wort
eines Phonatoms ein Steuerwort zugeordnet, 35 lieh davon ebenso v.ele wie Buchstaben in dein längdas
drei Instruktionen enthält: eine Instruktior: der sten Wort mit einer solchen Aussprache). Jedesmal,
Kadenz der Anwendung der Wörter auf das Icophon wenn die Buchstaben desselben Ranges die gleichen
(Instruktion τ), eine Instruktion der Schwingungs- sind, rückt der Zählet 208 um einen Schritt vor.
dauer τ' und eine Instruktion der Schwingungsampii- Wenn diese Buchstaben verschieden sind, sendet die
tude A. Die τ' und A betreffenden Wörter werden 40 Vergleichsstufe ein Signal für die Nichtidentität auf
in den DigUal-Analog-Umwandlern 10 und Ii in dem Leiter 212, das das Ad'essenregister 206 um
analoge Spannungen umgewandelt und wirken \s- einen Schritt vorrücken laßt, und der Vergleich des
weils auf die Zeitsteuerungen der Schaltungen 72, auszusprechenden Wortes, zunächst mit dem zweibis
7244 und auf die'Amplitudensteuerungen der Os- ten, dann dem dritten usw. Wort der Ausnahmezillatoren
70, bis 7O44 ein. 45 tabelle wird fortgesetzt.
Der Rhythmus des Austrittes der Phonatome aus Wenn ein auszusprechendes Wort nit einem Wort
dem Speicher S ist ein veränderlicher Rhythmus, der der Tabelle der Ausnahmen gleich gefunden worden
von der Lokalisierung der Phonatome im Speicher 5 ist, wird das Tor 213 geöffnet, und ein Signal wird
über den Leiter 214 ausgesandt. Das in 201 einge-
g p g, g wird abhängt. Der Rhyf^Ui IAr des Zuganges der Wörter über den Leiter 214 ausgesandt. Das in 201 eingein
das Icophon 7 hängt von den, den Wörtern des 50 schriebene Wort wird gelöscht.
Phonatoms assoziierten Steuerungswörtern ab. Es ist Der Tabelle der Ausnahmen ist ein Speicherwerk also notwendig, zwischen den Schaltungen 5 und 6 215 beigeordnet, welches dia phonetischen Gleicheinen »Pufferspeicher« 9 vorzusehen. Wertigkeiten der Wörter mit außerordentlicher Aus-
Phonatoms assoziierten Steuerungswörtern ab. Es ist Der Tabelle der Ausnahmen ist ein Speicherwerk also notwendig, zwischen den Schaltungen 5 und 6 215 beigeordnet, welches dia phonetischen Gleicheinen »Pufferspeicher« 9 vorzusehen. Wertigkeiten der Wörter mit außerordentlicher Aus-
Der Umwandler 2 bildet einen buchstäblichen und spräche enthält. Wenn ein Wort von 203 auf das
orthographierten Text in eine Folge von phoneti- 55 Register 204 übertragen wird, so wird gleichzeitig
sehen Symbolen um, welche die in der vorhergehen- das phonetische Äquivalent dieses Wortes auf das
den Tabelle angegebenen Phoneme sind. Register 216 Übertragen. Das Signal, das über den
Jedes buchstäbliche Wort, das als die zwischen Leiter 214 geht, bewirkt die Übertragung des Kodes
zwei weißen Stellen oder zwischen einer weißen Stelle der Phoneme, die das phonetische Äquivalent des
und einem Satzzeichen oder auch zwischen zwei 60 auszusprechenden Wortes darstellen, zum Schal-Satzzeichf
η einbegriffene Folge bestimmt ist, wird tungsten 3 der F i g. T.Buchstabe nach Buchstabe oder allgemeiner Zeichen Wenn das Adressenregister 206 bei seiner letzten
nach Zeichen in ein Speicherwerk 201 eingeschrie- Adresse ist und ein Signal für die Nichtidentität auf
ben, von dem aus es in ein Ableseregister 202 über- dem Leiter 212 erscheint, werden die Tore 217 und
tragen werden kann (Fig."9). Ein Dauerspeicher203 «3 218 geöffnet, und das auszusprechende Wort geht
enthält in kodierter Form eine Tabelle aller Wörter vom Speicherwerk 201 zum Speicher 221 über, welch
der Sprache, in welcher das Gerät funktioniert, wo- letzterer ein Schieberegister ist. Jeder Buchstabe des
bei eine außerordentliche Aussprache gegenüber den auszusprechenden Wortes wird sequentiell nach
einem Kreis für die Erkennung der Phoneme 222 mit Hilfe eines Ableseregisters 223 übertragen. Dieser
Erkennungskreis umfaßt so viele Kombinationsdetektoren, wie es Buchstabenkombinaiionen gibt,
welche Phoneme darstellen, die nicht einem'Buchstäben
allein entsprechen, z. B. IN, ON, PH, QU... We.in beispielsweise das Wort »PHONEME« in
das Schieberegister eingeführt wird, so wird erst der Buchstabe P in den Erkennungskreis 222 übertragen,
sodann in dessen Folge der Buchstabe H. Es besteht ίο
in dem Kreis 222 ein Detektor der Kombination PH, . und^das Ausgangssignal'dieses Detektors1 ist dasPhointm
F. DasJPhdnem T7 (oder, geiiaüerjgesägi, seini
kodierte kombination) wird an Stellender Kombination
PH in das Schieberegister-221 mit Hilfe eines i$
Wiedereinschreiberegisters 224 eingesetzt. Erkennungskreise
für besondere Kombinationen sind in der Technik wohlbekannt und brauchen hier im einzelnen
nicht beschrieben, zu werden. Die Buchstaben, welche in Kombination mit demjenigen, der ihnen
unmittelbar vorausgeht, oder demjenigen, der ihnen unmittelbar folgt, nicht durch deft Kreis 222 erkannte
Paare bilden, werden ohne Veränderung, in das Register 221 wiedereingeschrieben.
Im vorausgegangenen ist unterstellt worden, daß die Oszillatoren 70^bis 7O44 Schwingungsfrequenzen,
mitregelmäßigeri ^b'ständenihatten. iilän kann diese
Schwingun^gsfrequenzenxin einer; unlegelniäßigeni Art
verteilen, z. B. so, wie die Frequerizeni^er^ Vocqiler-"
filter mit spektralen Kanälen;. · · ,-' ;
Hierzu 7 Blatt Zeichnungen
Claims (1)
1 2
Die Erfindung betrifft ein Gerät zur Umwandlung
Patentansprüche: eines in graphischen Zeichen gedruckten Textes in
gesprochene Wörter, mit Mitteln zur Umwandlung je-I.
Gerät zur Umwandlung eines in graphi- des graphischen Zeichens in eine BinUrzifferngruppe, jl
sehen Zeichen gedruckten Textes in gesprochene S die dieses Zeichen sowie das entsprechende Phonem ««
Wörter, mit Mitteln zur Umwandlung jedes gra- in kodierter Form darstellt; mit Mitteln zur Umwandphischen
Zeichens in eine Binärzifferngruppc, die lung jedes Paares von zwei aufeinanderfolgenden kodieses
Zeichen sowie das entsprechende Phonem dierten Phonemen in eine neue Binärzuierngruppe,
in kodierter Form darstellt; mit Mitteln zum Um- die das Phonempaar, das aus diesen zwei Phonemen
Wandlung jedes Paares von zwei aufeinanclerfol- xo besteht, in kodierter Form darstellt; mit einem Speigenden
kodierten Phonemen in eine neue Binrr- cherwerk für aufgezeichnete Spektrogramme, die jezilTcrngruppe,
die das Phonempaar, das aus die- wcils in einer Zeit/Frequenz-Ebene eines der mögsen
zwei Phonemen besteht, in kodierter Form liehen Phonempaare darstellen; mit einer Vergleichsdarstellt;
mit einem Speicherwerk für aufgezeich- stufe, die die Auswahl eines bestimmten aufgezeichnete
Spektrogramme, die jeweils in einer Zeit/ 15 neten Phonempaarspektrogramms unter Steuerung
Frequenz-Ebene eines der möglichen Phonem- jedes kodierten Phonempaares nacheinander bewirkt,
paare darstellen; mit einer Vergleichsstufe, die und nut Wiedergabemitteln, die eine Mehrheit von
die Auswahl eines bestimmten aufgezeichneten Oszillatoren verschiedener Frequenzen einschließen
Phonempaarspektrogramms unter Steuerung jedes und die aufeinanderfolgend die ausgewählten Phokodierten
Phonempaares nacheinander bewirkt; 20 ncmpaarspektrogramme in akustische Signale wäh-
» und mit Wiedergabemittein, die eine Mehrheit rend einer vorbestimmten Zeitdauer umwandeln.
von Oszillatoren verschiedener Frequenzen ein- Es ist bekannt, daß die in einem Sprachsignal ent-
;·. schließen und die aufeinanderfolgend die ausge- haltene Energie hauptsächlich aus zwei verschiedenen
wählten Phonempaarspektrogramme in akusti- Arten von informationen besteht:
sehe Signale während einer vorbestimmten Zeit- 25 1. Eine ästhetische oder musikalische Information, dauer umwandeln, dadurch gekennzeich- Beim Anhören e'n und desselben, von verschiedenen net, daß jedes der Spektrogramme in Form einer Personen ausgesprochenen Wortes unterscheidet man Folge binärkodierter Wörter in dem Speicherwerk warme, klangvolle, dumpfe, scharfe Stimmen usw. gespeichert ist, deren jedes die binärkodierte Dies bringt, soweit es die eigentliche Mitteilung anÜbersetzung eines transformierten Spektrogramms 30 geht, keine Aufklärung über die Mitteilung an sich, darstellt, das aus in der Zeit/Frequenz-Ebene ent- außer in einigen seltenen, besonderen Fällen, wo der lang von Konstantzeitlinien mit gleichmäßigen Sinn des Satzes steh mit dem »Ton«, mit welchem er Frequenzintervallen diskret verteilten Punkten be- gesagt wird, ändern kann. So kann z. B. der Satz: 'Ά steht, die jeweils einem Amplitudenwert »Eins« »Versuche näherzukommen« ebensogut bedeuten: 4; oder »Null« des Spektrogramms entsprechen, 35 »Mach eine Anstrengung, um näher zu kommen«, während jede dieser Linien einem von mit gleich- wie aber auch: »Ich rate Dir dringend, nicht näher ί mäßigen Intervallen in dem Spektrogramm ver- zu kommen«. Dieser Ton ist eine Funktion der Verteilten Zeitpunkten entspricht, wodurch das auf- änderung der Stimmhöhe und des Rhythmus der ij einanderfolgende Ablesen dieser Wörter binär- Wörter. Von diesem Gesichtspunkt aus ist es not- </ kodierte Steuersignale für die Steuerung der Wie- 40 wendig, die Tatsache zu betonen, daß die »Höhe« j dergabemittel direkt liefert (F i g. 4 bis 6). der Stimme zwei ganz verschiedene Aspekte hat: ' 2. Gerät nach Anspruch 1, dadurch gekenn- a) Höhe des von den Stimmbändern ausgehenden zeichnet, daß jedem kodierten Phonempaar ein harmonischen Linienspektrums. Die Erfahrung zeigt, erstes Hilfskodewort (τ) zugeordnet ist, das das daß diese Wahrnehmung nichts zu tun hat mit der Zeitintervall zwischen Auslösen und Anhalten 45 etwaigen Zählung der Grundfrequenz des Wortes, 1, der Oszillatoren (70,... 7O44) durch zwei aufein- und der beste Beweis dafür ist, daß man die Grund-' * anderfolgende Binärworte bestimmt, und daß Ab- frequenz wegschneiden kann, ohne die empfundene lesemittel für das erste Hilfskodewort und Sperr- Höhe eines harmonischen Linienspektrum zu ändern. ' mittel der Steuerung der Oszillatoren vorgesehen b) Höhe der Formanten. Ein Geräuschfrequenzsind, welche durch diese Ablesemittel gesteuert 5" band ruft eine Empfindung von Tonhöhe hervor, die werden (F i g. 8). um so mehr verschwommen ist, als das Frequenz-
sehe Signale während einer vorbestimmten Zeit- 25 1. Eine ästhetische oder musikalische Information, dauer umwandeln, dadurch gekennzeich- Beim Anhören e'n und desselben, von verschiedenen net, daß jedes der Spektrogramme in Form einer Personen ausgesprochenen Wortes unterscheidet man Folge binärkodierter Wörter in dem Speicherwerk warme, klangvolle, dumpfe, scharfe Stimmen usw. gespeichert ist, deren jedes die binärkodierte Dies bringt, soweit es die eigentliche Mitteilung anÜbersetzung eines transformierten Spektrogramms 30 geht, keine Aufklärung über die Mitteilung an sich, darstellt, das aus in der Zeit/Frequenz-Ebene ent- außer in einigen seltenen, besonderen Fällen, wo der lang von Konstantzeitlinien mit gleichmäßigen Sinn des Satzes steh mit dem »Ton«, mit welchem er Frequenzintervallen diskret verteilten Punkten be- gesagt wird, ändern kann. So kann z. B. der Satz: 'Ά steht, die jeweils einem Amplitudenwert »Eins« »Versuche näherzukommen« ebensogut bedeuten: 4; oder »Null« des Spektrogramms entsprechen, 35 »Mach eine Anstrengung, um näher zu kommen«, während jede dieser Linien einem von mit gleich- wie aber auch: »Ich rate Dir dringend, nicht näher ί mäßigen Intervallen in dem Spektrogramm ver- zu kommen«. Dieser Ton ist eine Funktion der Verteilten Zeitpunkten entspricht, wodurch das auf- änderung der Stimmhöhe und des Rhythmus der ij einanderfolgende Ablesen dieser Wörter binär- Wörter. Von diesem Gesichtspunkt aus ist es not- </ kodierte Steuersignale für die Steuerung der Wie- 40 wendig, die Tatsache zu betonen, daß die »Höhe« j dergabemittel direkt liefert (F i g. 4 bis 6). der Stimme zwei ganz verschiedene Aspekte hat: ' 2. Gerät nach Anspruch 1, dadurch gekenn- a) Höhe des von den Stimmbändern ausgehenden zeichnet, daß jedem kodierten Phonempaar ein harmonischen Linienspektrums. Die Erfahrung zeigt, erstes Hilfskodewort (τ) zugeordnet ist, das das daß diese Wahrnehmung nichts zu tun hat mit der Zeitintervall zwischen Auslösen und Anhalten 45 etwaigen Zählung der Grundfrequenz des Wortes, 1, der Oszillatoren (70,... 7O44) durch zwei aufein- und der beste Beweis dafür ist, daß man die Grund-' * anderfolgende Binärworte bestimmt, und daß Ab- frequenz wegschneiden kann, ohne die empfundene lesemittel für das erste Hilfskodewort und Sperr- Höhe eines harmonischen Linienspektrum zu ändern. ' mittel der Steuerung der Oszillatoren vorgesehen b) Höhe der Formanten. Ein Geräuschfrequenzsind, welche durch diese Ablesemittel gesteuert 5" band ruft eine Empfindung von Tonhöhe hervor, die werden (F i g. 8). um so mehr verschwommen ist, als das Frequenz-
3. Gerät nach Anspruch 1, dadurch gekenn- band breiter ist; aber die Variationen der Tonhöhe
f. zeichnet, daß jedem kodierten Phonempaar ein eines Geräuschbandes sind im Gegensatz dazu klar
I- \ ' ■ zweites Hilfskodewort (A) zugeordnet ist, das die vernehmbar.
■ Schwingungsamplitude der Oszillatoren (70,... 55 Die Musikalität einer Stimme wird durch das Li-
^O44) bestimmt, wenn diese digital von kodierten nienspektrum bestimmt, aber die semantische Infor-
b r Phonempaaren angesteuert werden, und daß Mit- mation wird offensichtlich nicht durch das Linien-
; iel für die Ablesung de'; zweiten Hilfskodewortes, speküum übertragen;
. '.·/ iowie Mittel (72,... 7244) für das Auslösen und 2. Eine semantische Information. Die Fernsprech-
Anhaiten der Oszillatoren vorgesehen sind fio erfahrung zeigt, daß man sich mit einem ziemlich
(F i g. 8). engen Frequenzband begnügen kann, ohne die Ver-
4. Gerät nach Anspruch 1, dadurch gekenn- ständlichkeit der Wörter zu zerstören. Alles, was
zeichnet, daß die Oszillatoren (70, ... 7O44) mit 4000 Hz übersteigt, ist nicht notwendig und kann insich
zufällig ändernden Frequenzen in einem folgedessen als Redundanz angesehen werden. Man
entsprechenden Frequenzband arbeiten (F i g. 8), 65 folgert daraus, daß das Wesentliche der semantischen
Information unterhalb dieser Frequenz gelegen ist, was das Problem sehr begrenzt und vereinfacht.
Andererseits weiß man, daß die Verständlichkeit von
Andererseits weiß man, daß die Verständlichkeit von
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR182925 | 1968-12-31 |
Publications (3)
Publication Number | Publication Date |
---|---|
DE1965480A1 DE1965480A1 (de) | 1970-08-20 |
DE1965480B2 DE1965480B2 (de) | 1973-05-17 |
DE1965480C3 true DE1965480C3 (de) | 1973-11-29 |
Family
ID=8659829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE1965480A Expired DE1965480C3 (de) | 1968-12-31 | 1969-12-30 | Gerat zur Umwandlung eines in graphischen Zeichen gedruckten Textes in gesprochene Worte |
Country Status (8)
Country | Link |
---|---|
US (1) | US3632887A (de) |
CH (1) | CH513482A (de) |
DE (1) | DE1965480C3 (de) |
FR (1) | FR1602936A (de) |
GB (1) | GB1257850A (de) |
NL (1) | NL170673C (de) |
SE (1) | SE346637B (de) |
SU (1) | SU401062A3 (de) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4000565A (en) * | 1975-05-05 | 1977-01-04 | International Business Machines Corporation | Digital audio output device |
US4685135A (en) * | 1981-03-05 | 1987-08-04 | Texas Instruments Incorporated | Text-to-speech synthesis system |
US4398059A (en) * | 1981-03-05 | 1983-08-09 | Texas Instruments Incorporated | Speech producing system |
NL8200726A (nl) * | 1982-02-24 | 1983-09-16 | Philips Nv | Inrichting voor het genereren van de auditieve informatie van een verzameling karakters. |
US4731847A (en) * | 1982-04-26 | 1988-03-15 | Texas Instruments Incorporated | Electronic apparatus for simulating singing of song |
US4527274A (en) * | 1983-09-26 | 1985-07-02 | Gaynor Ronald E | Voice synthesizer |
US4695962A (en) * | 1983-11-03 | 1987-09-22 | Texas Instruments Incorporated | Speaking apparatus having differing speech modes for word and phrase synthesis |
US4692941A (en) * | 1984-04-10 | 1987-09-08 | First Byte | Real-time text-to-speech conversion system |
US5197052A (en) * | 1988-03-10 | 1993-03-23 | Grundig E.M.V. | Personal computer dictation system with voice anad text stored on the same storage medium |
US5325462A (en) * | 1992-08-03 | 1994-06-28 | International Business Machines Corporation | System and method for speech synthesis employing improved formant composition |
US5446791A (en) * | 1993-03-17 | 1995-08-29 | Jag Design International Limited | Sound synthesizer system operable by optical data cards |
SE516521C2 (sv) * | 1993-11-25 | 2002-01-22 | Telia Ab | Anordning och förfarande vid talsyntes |
EP0710378A4 (de) * | 1994-04-28 | 1998-04-01 | Motorola Inc | Verfahren und vorrichtung zur umwandlung von text in audiosignale unter verwendung eines neuralen netzwerks |
US5950162A (en) * | 1996-10-30 | 1999-09-07 | Motorola, Inc. | Method, device and system for generating segment durations in a text-to-speech system |
US6639512B1 (en) | 1998-07-15 | 2003-10-28 | Kyu-Woong Lee | Environmental warning system |
US6230135B1 (en) | 1999-02-02 | 2001-05-08 | Shannon A. Ramsay | Tactile communication apparatus and method |
US6178402B1 (en) | 1999-04-29 | 2001-01-23 | Motorola, Inc. | Method, apparatus and system for generating acoustic parameters in a text-to-speech system using a neural network |
US7805307B2 (en) | 2003-09-30 | 2010-09-28 | Sharp Laboratories Of America, Inc. | Text to speech conversion system |
KR100658869B1 (ko) * | 2005-12-21 | 2006-12-15 | 엘지전자 주식회사 | 음악생성장치 및 그 운용방법 |
US7977560B2 (en) * | 2008-12-29 | 2011-07-12 | International Business Machines Corporation | Automated generation of a song for process learning |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2771509A (en) * | 1953-05-25 | 1956-11-20 | Bell Telephone Labor Inc | Synthesis of speech from code signals |
US3234332A (en) * | 1961-12-01 | 1966-02-08 | Rca Corp | Acoustic apparatus and method for analyzing speech |
US3102165A (en) * | 1961-12-21 | 1963-08-27 | Ibm | Speech synthesis system |
US3344239A (en) * | 1962-08-06 | 1967-09-26 | Data translating system having a fast scan address section | |
US3280257A (en) * | 1962-12-31 | 1966-10-18 | Itt | Method of and apparatus for character recognition |
US3319002A (en) * | 1963-05-24 | 1967-05-09 | Clerk Joseph L De | Electronic formant speech synthesizer |
US3492646A (en) * | 1965-04-26 | 1970-01-27 | Ibm | Cross correlation and decision making apparatus |
-
1968
- 1968-12-31 FR FR182925A patent/FR1602936A/fr not_active Expired
-
1969
- 1969-12-29 CH CH1931369A patent/CH513482A/fr not_active IP Right Cessation
- 1969-12-29 SE SE17980/69A patent/SE346637B/xx unknown
- 1969-12-30 DE DE1965480A patent/DE1965480C3/de not_active Expired
- 1969-12-31 GB GB1257850D patent/GB1257850A/en not_active Expired
- 1969-12-31 US US889653A patent/US3632887A/en not_active Expired - Lifetime
- 1969-12-31 SU SU1406116A patent/SU401062A3/ru active
- 1969-12-31 NL NLAANVRAGE6919639,A patent/NL170673C/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
NL6919639A (de) | 1970-07-02 |
CH513482A (fr) | 1971-09-30 |
US3632887A (en) | 1972-01-04 |
FR1602936A (de) | 1971-02-22 |
NL170673C (nl) | 1982-12-01 |
GB1257850A (de) | 1971-12-22 |
SU401062A3 (de) | 1973-10-01 |
SE346637B (de) | 1972-07-10 |
DE1965480A1 (de) | 1970-08-20 |
NL170673B (nl) | 1982-07-01 |
DE1965480B2 (de) | 1973-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE1965480C3 (de) | Gerat zur Umwandlung eines in graphischen Zeichen gedruckten Textes in gesprochene Worte | |
DE3226929C2 (de) | ||
DE2613258C2 (de) | Schaltungsanordnung zum Erkennen von einem oder mehreren Schlüsselworten in kontinuierlicher Sprache | |
DE69718284T2 (de) | Sprachsynthesesystem und Wellenform-Datenbank mit verringerter Redundanz | |
DE10042944C2 (de) | Graphem-Phonem-Konvertierung | |
DE2524497A1 (de) | Phasenvocoder-sprachsynthesesystem | |
DE2212472A1 (de) | Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte | |
DE2752607A1 (de) | Verfahren zur erkennung von sprache | |
DE2850286A1 (de) | Elektronische schlagwerksuhr | |
DE3228756A1 (de) | Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von stimmlosen hoerbaren signalen | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE2946856A1 (de) | Wortspeichergeraet | |
DE2927836A1 (de) | Elektronischer tongenerator mit einer melodieerzeugungseinrichtung | |
DE2954378C2 (de) | ||
DE3006339C2 (de) | Sprachsyntesizer | |
DE1937464C3 (de) | Sprachanalysiergerät | |
DE2701859C2 (de) | ||
DE1811040C3 (de) | Anordnung zum Synthetisieren von Sprachsignalen | |
DE4138016A1 (de) | Einrichtung zur erzeugung einer ansageinformation | |
DE69815062T2 (de) | Verfahren und gerät zur audiorepräsentation von nach dem lpc prinzip kodierter sprache durch hinzufügen von rauschsignalen | |
DE4111781A1 (de) | Computersystem zur spracherkennung | |
DE2051589B2 (de) | Elektrischer Synthesator | |
DE2826570C2 (de) | ||
DE3335026C2 (de) | ||
DE2029582A1 (de) | Gerat zur elektronischen Erzeugung von veränderbaren musikalischen Klangen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C3 | Grant after two publication steps (3rd publication) | ||
E77 | Valid patent as to the heymanns-index 1977 |