DE2524497C3 - Verfahren und Schaltungsanordnung zur Sprachsynthese - Google Patents
Verfahren und Schaltungsanordnung zur SprachsyntheseInfo
- Publication number
- DE2524497C3 DE2524497C3 DE2524497A DE2524497A DE2524497C3 DE 2524497 C3 DE2524497 C3 DE 2524497C3 DE 2524497 A DE2524497 A DE 2524497A DE 2524497 A DE2524497 A DE 2524497A DE 2524497 C3 DE2524497 C3 DE 2524497C3
- Authority
- DE
- Germany
- Prior art keywords
- signals
- pitch
- signal
- parameters
- duration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 10
- 238000003786 synthesis reaction Methods 0.000 title abstract description 9
- 238000001228 spectrum Methods 0.000 claims abstract description 16
- 230000008859 change Effects 0.000 claims abstract description 10
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 5
- 230000004044 response Effects 0.000 claims abstract description 4
- 230000004048 modification Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 2
- 101150000874 11 gene Proteins 0.000 claims 1
- 238000009795 derivation Methods 0.000 claims 1
- 230000009466 transformation Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 32
- 230000005540 biological transmission Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000009499 grossing Methods 0.000 description 3
- CNQCVBJFEGMYDW-UHFFFAOYSA-N lawrencium atom Chemical compound [Lr] CNQCVBJFEGMYDW-UHFFFAOYSA-N 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrophonic Musical Instruments (AREA)
- Error Detection And Correction (AREA)
Description
Die Erfindung betrifft ein Verfahren zum Synthetisieren einer natürlich klingenden Sprachnachricht
gemäß Oberbegriff des Palentanspruchs 1.
In der US-Patentschrift 33 60610 wird die Verwendung von Phasenvocoder-Verfahren auf dem
Gebiet der Sprachübertragung und Bandbreitenverringerung offenbart. Es wird eine Ubertragungsanordnung
beschrieben, bei der zu übertragende Sprachsignale zu einer Vielzahl von schmalbandigen
Komponenten codiert werden, deren kombinierte Bandbreite kleiner als die der nichtcodierten Sprache
ist. Kurz zusammengefaßt wird eine Phasenvocoder-Codierung durchgeführt, in dem Tür jede von einer
Gruppe von vorbestimmten Frequenzen m,, die den
Frequenzbereich eines ankommenden Sprachsignals erfassen, ein Paar von Signalen errechnet wird, die
den Realteil bzw. den Imaginärlcil der Kurzzcit-Fourier-Transformation des ursprünglichen Sprachsignals
darstellen. Aus jedem solchen Signalpaar wird ein Paar von Schmalbandsignalen erzeugt. Das
eine Signal |S, | stellt die Größe der Kurzzeit-Fourier-Transformation
dar, und das andere Signal 1V',- die
zeitliche Ableitung des Phasenwinkcls der Kurzzeil-Fouricr-Transformation.
Bei der oben erläuterten Anordnung werden diese Schmalbandsignale zu einem Empfänger übertragen, in welchem ein Abbild des
ursprünglichen Signals wiederhergestellt wird, indem eine Vielzahl von Kosinus-Signalen erzeugt wird, die
die gleichen vorbestimmten Frequenzen besitzen, bei denen die Kiirzzcil-Foiiricr-Transformation ausgewertet
worden ist. Jedes Kosinus-Signal wird dann bezüglich seiner Amplitude und seines Phasenwinkcls
durch die Schmalband-Signalpaarc moduliert, und die modulierten Signale werden zur Erzeugung des
gewünschten Abbildes summiert.
In einem Aufsatz »Digilalized Phase Vocoder«,
veröffentlicht in Proceedings of the 1967 Conference on Speech Communication and Processing, Seiten 292
bis 296, beschreibt .I.P.Carlson die Digilalisierung
der Schmalbandsignalc |S,· | und </>,- vor der
übertragung und gibt an. daß bei einer Übertragungsgeschwindigkeit
von beispielsweise 9600 Bit/Sekunde die Verschlechterung auf Grund der Digitalisierimg
der Parameter in dem wieder hergestellten Sprachsignal immerkbar ist.
Auf einem gelrennten Gebiet der Technik sind viele
Versuche gemacht worden, natürlich klingende Sprache
aus gespeicherten Sprachsignalen unter Verwendung inner Formant-Codierung von Lauten (oder
Wörtern) ;:u gespeicherten Signalen zu synvhelisieren. Eine solch.; Vorrichtung ist in der deutschen Patentschrift
21 !5 258 beschrieben. Solche Systeme befriedigen Lm allgemeinen. Wenn er aber eine Beeinflussung:
>möglichkeh für die Tonhöhe und Tondauer erforderlich ist, so für den Fall, daß die durch
den Zusammenhang gegebenen Bedingungen für die synthetisierte Sprache vorherrschend sind, werden
diese Systeme kompliziert und erfordern umfangreiche Berechnungen.
Die Erfindung hit sich daher als Aufgabe gestellt,
ein Verfahren zur Synthetisierung natürlich klingender Sprache zu schaffen, bei dem die Sprache aus gespeicherten
Wörtern eines Vokabulars synthetisiert wird, die nach Phasenvocoder-Verfahren codiert worden
sind, sowie eine Vorrichtung zur Durchführung des Verfahrens.
Zur Lösung der Aufgabe geht die Erfindung aus von einem Verfahren der eingangs genannten Art
und ist im kennzeichnenden Teil des Patentanspruchs 1 angegeben. Weitere Ausgestaltungen sind in den Unteransprüchen
2 und 3 gekennzeichnet.
Eine elektrische Schaltungsanordnung zum Durchführen dieses Verfahrens ist durch den Patentanspruch
4 gekennzeichnet. Weitere Ausgestaltungen sind in den Unteransprüchen 5 bis 8 bezeichnet.
Dabei hat das Speichern von Signalen, welche die Kurzzeit- Fourier-TransformationsparameterundPhi;-senablcitparameter
sind, die sich aus einer Phasenvocoder-Codierung des Vokabulars von Wörtern ergeben, als an sich bekannt zu gellen.
Es werden demgemäß Wörter eines Vokabulars zu einer Vielzahl von Kurzzeil-Sprachamplitudensignalen
und Kurzzeit-Phasenableilsignalen codiert, die codierten
Signale in digitales Formal umgewandelt und die digital codierten Signale in einem Speicher gespeichert.
Natürlich klingende Sprache wird dadurch gebildet und synthetisiert, daß aus dem Speicher den gewünschten
Wörtern entsprechende Signale gewonnen, diese Signale verknüpft und die Dauer und Tonhöhe der
verknüpften Signale modifiziert wird. Eine Beeinflussung der Dauer wird durch Einfügen einer vorbestimmten
Anzahl von fabulierten Signalen zwischen aufeinanderfolgend aus dem Speicher gewonnene
unterschiedliche Signale erreicht. Dadurch erzielt man eine wirksame Vcrlangsamung der Sprache in
Abhängigkeil von der Anzahl der eingefügten interpolierten Signale. Eine Beeinflussung der Tonhöhe
wird erzielt, indem die Phascnableitsignale mit einem gewählten Faktor multipliziert werden. Die Sprachsynthese
wird vervollständigt durch eine Umwandlung der modifizierten Signale aus dem digitalen
Format in analoges Formal und durch Decodieren der Signale entsprechend bekannten Phasenvocoder-Verfahren.
In den Zeichnungen zeigl
F i g. 1 das Blockschaltbild eines erfindimgsgemäß
gestalteten Sprachsynthcsesyslems,
F i g. 2 das Kurzzeil-Amplitudenspektrum des /-ten Spektrumsignals |Sf | am Ausgang des Speichers 30
in I·' i g. I,
F i g. 3 das gesamte Sprachspektrum zu einem bestimmten Zeitpunkt und den Einfluß von Tonhöhenänderungen
auf die Spcktralampliludcn des F i g. 4 ein Blockschaltbild der Interpolartorschallung
nach Fig. 1,
F i g. 5 ein Ausführungsbeispiel der Steuerschaltung
40 in Fig. I.
Fig. i zeigt ein Blockschaltbild eines Sprachsynthesesystems,
bei dem gesprochene Wörter zu Phasenvocoder-Steuersignalen codiert und bei dem eine Sprachsynthese erreicht wird, in dem geeignete
Beschreibungssignale aus dem Speicher gelesen, die
Beschreibungssignale verknüpft und modifiziert und die modifizierten Signale zu synthetisierten Sprachsignalen
decodiert und kombiniert werden.
Im einzelnen wird das Vokabular von Wörtern, das für eine betrachtete Sprachsynthese für erforderlieh
erachtet wird, einem Phasenvocoder-Analysaior 10 in F i g. 1 zur Codierung zugeführt. Der Anahsator
10 codiert die Wörter zu einer Vielzahl von Signalpaaren JS, |, '/',; S2. 'lh: ... JS1!. '/',... \S\ \.
<h\. die einen |S I-Vektor und einen '/'-Vektor darstellen,
wobei jeder Wert jS1 -j. '/', das Kurzzeit-Amplitudenspektrum
bzw. das Kurzzeit-Phasenableitspektrum des Sprachsignals bei einer Spektralfrequenz ».*,- darstellen.
Die Analysierfrequenz <·>, sind in Abhängigkeit von den Auslegungsbedingungen mit gleichmäßigem
oder ungleichmäßigem Abstand über das interessierende Frequenzband verteilt. Die zur übertragung
der Signale ISj Iund '/',erforderliche Bandbreite
ist klein im Vergleich zur Sprachbandbreite. Der Phasenvocoder-Analysator 10 läßt sich entsprechend
der Beschreibung in der oben erwähnten US-Patentschrift 33 60 610 verwirklichen.
Nach der Codierung durch den Analysator 10
werden die Analogvektoren \S i und Φ abgetastet
und im Analog-Digilalwandler 20 in digitales Format umgewandelt. Der Wandler 20 kann entsprechend
der Beschreibung in dem oben genannten Aufsatz von Carlson aufgebaut werden, der 160 Bits
mit einer Abtastfrequenz von 60 Hz erzeugt und damit zu einer Gesamt-Bitfrequen/ von 9600 Bits/s führt.
Die umgewandelten Signale werden im Speicher 30 gespeichert und stehen dann für die Synthese zur
Verfügung. Jedes vom Analysator 10 verarbeitete Wort wird mit einer Frequenz von 60 Hz abgetastet,
und da die Dauer jedes Wortes langer als 16 ms ist. wird jedes verarbeitete Wort durch eine Vielzahl von
\S \-Vektoren und zugeordnete '/'-Vektoren dargestellt.
Diese Vektoren können in den Speicher 30 sequentiell in einen zugeordneten Speicherblock eingegeben werden.
Innerhalb des Speichel blocks wird jedes Paar von Vektoren \S I und '/' in einer Speicherstelle gespeichert,
und jede Speicherstelle ist so unterteilt, daß sie die Komponenten |S,- | und
</>,· jedes Vektors enthält.
Zur Sprachsynthese wird eine Kette von Befehlen formuliert und über die Leitung 41 der Steuereinrichtung
40 in F i g. I zugeführt. Die Befehlskettc gibt der Anlage die Folge von Wörtern an, die aus
dem Speicher 30 gewählt und zur Bildung eines .Sprachsignals verknüpft werden sollen. Demgemäß
erfolgt ein sequentieller Zugriff zu gewählten Speicherblöcken und innerhalb jedes Speicherbiocks geht der
Zugriff zu allen Speicherstellen sequentiell vor sich. Jede Fpeichcrstclle liefe; ι am Ausgang des Speichers 30
ein Vektorpaar \S \ und Φ . Die Steuereinrichtung 40
decodiert die Eingangsbefehkfolge uniei Erzeugung
von Adressen für den Speicher 30 und gibt diese Adressen und entsprechende Lesebefehle an den
Speicher. Außerdem aiiii!..iiert die Sleiicreinrichtima
40 auf der Grundlage der angegebenen Folge von
Wörtern die Struktur der Wortkelle und ordnet jeder zugegriffenen Speichcrstellc Dauer- und Tonhöhcnwcrte
K11 (intern in der Steuereinrichtung 40) bzw. K1,
zu, um eine natürlich klingende Sprache zu erzeugen, deren Tonhöhe und -dauer abhängig von der Struktur
der Wortkette ist. Eine genaue Beschreibung der Steuereinrichtung 40 wird im folgenden gegeben.
Zeiidaucr-Sicucrung
Eine Zeitdauer-Steuerung laßt sich durch einen wiederholten Zugriff zu jeder gewählten Speichcrstellc
mit einer festen hohen Taktfrequenz und durch eine Steuerung der Anzahl solcher wiederholter Zugriffsvorgänge erreichen. Auf diese Weise kann die Sprachdaucr
wirksam erhöht werden, indem die Anzahl eier
Zugriffsvorgängc für jede Speicherstelle vergrößert wird. Wenn beispielsweise die Eingangssprache, wie
oben erwähnt, mit einer Frequenz von 60 Hz abgetastet wird, kann der Zugriff zum Speicher zweckmäßig
mit einer Frequenz von 6 kHz (was der Nyquist-Frequenz des synthetisierten Signals entsprechen
kann) erfolgen, und die Regelzahl von Zugriffsvorgängen über jede Speicheradresse kann auf 100 festgelegt
werden. Diese Arbeitsweise führl zu einer getreuen Reproduktion der Sprachdauer des an den
Eingang an der Anlage angelegten Signals. Es ergibt sich selbstverständlich, daß ein wiederholter Zugriff
zu jeder Speicherstelle mehr als lOOmal eine Verlangsamung der synthetisierten Sprache oder eine
Dehnung des Zeitmaßstabes bewirkt. Weniger als 100 Zugriffsvorgänge führen zu einer Beschleunigung
der synthetisierten Sprache oder einem Zusammendrücken des Zeitmaßstabes. Die genaue Anzahl von
Zugriffsvorgängen zu jeder Speicheradresse (angegeben durch das Signal auf der Leitung 42) wird
durch die Steuereinrichtung 40 mit Hilfe wiederholter Lesebefehle auf der Leitung 43 angegeben. Das obenerläuterte
Verfahren zur Beeinflussung der Sprachdauer ist in F i g. 2 angegeben, in der die Amplitude
einer bestimmten Komponente |S,| bezüglich ihrer zeitabhängigen Änderung gezeigt ist.
Die Angabe \S | stellt den Vektor \S | am Ausgang des
Speichers 30 dar. In F i g. 2 gibt das Element 201 den Wert von |5,- [ zu einem bestimmten Zeitpunkt
an. wie er am Ausgang des Speichers 30 beim Zugriff zu einer bestimmten Speicherstelle r auftritt. Das
Element 201 entspricht dem ersten Zugriff zu der ί-ten Speicherstelle. Das Element 202 gibt ebenfalls
den Wert von \S, \ an der Speicherstelle r wieder,
wobei es sich hier aber um den dritten Zugriff zur Speicherstelle r handelt. Das Element 206 entspricht
dem Wert von JS1- |an der nächsten Speicherstelle ν + I,
und zwar beim ersten Zugriff zu dieser Speicherstelle. Wenn beispielsweise die Speicherstelle V + 1 die letzte
Speicherstelle eines Speicherblocks ist. dann gibt das Element 203 den Wert von |5, | beim ersten Zugriff
zu einer ersten Speicherstelle u eines neuen Speicherblocks (Anfang eines neuen Wortes) an.
Die Speicherstellen ν und u können natürlich wesentlich
verschieden sein. Das Element 205 entspricht ebenfalls dem Wert von \S-, | an der Speicherstelle u
bei einem nachfolgenden Zugriff und das Element 204 entspricht dem letzten Zugriff zur Speicherstelle u.
Die Anzahl der Zugriffsvorgänge bei einer Speicherstelle wird bestimmt durch das Zeitdauer-Steuersignal
Kd (innerhalb der Steuereinrichtung 40 — vergleiche
Fig. 5). das über das Signal Kleinen Spektralampüliiden-lnterpolalui
90 in Fi g. 1 steuert. In Fig. I ist nur die /-te Komponente des Vektors Ijjair. Ausgang
des Speichers 30 dargestellt. Andere Komponenten dieses Vektors und die Komponenten de:·
Vektors Φ haben natürlich unterschiedliche Werte aber die Grenzstellen auf Grund von Änderungen dei
Speicherstelle innerhalb eines Speicherblocks (beispielsweise das Zcitelement 206) oder auf Grund von
Änderungen der Spcicherslellc von einem Speichcr-
IU block zu einem anderen (beispielsweise Zeitpunkt
des Elements 205) treten zum gleichen Zeitpunkt auf Das läßt sich leicht erkennen, wenn in einem dreidimensionalen
Raum, der auf übliche Weise durch γ-, v- und z-Koordinaten definiert ist, der Vektor \§
π mit allen seinen Komponenten betrachtet wird. Jede
zeilliche Änderung einer Komponente läßt sich in einer durch die Koordinaten χ und y definierter
Ebene zeichnen, wobei die jc-Achse die Zeit angibt (wie in F i g. 2 gezeigt) und für jeden gewählten Wert
-'» der .v-Achse kann die durch die Koordinaten y und :
definierte Ebene die verschiedenen Komponenten des Vektors \S\ sowie die allgemeine Form des Spektrums
(entsprechend der noch zu erläuternden Darstellung in F i g. 3) in dem jeweiligen Augenblick
2ϊ angeben. Bei einer solchen dreidimensionalen Darstellung
sind die plötzlichen Änderungen des Vektors SI (die zu einem bestimmten Zeitpunkt auftreten |
alle in einer einzigen v-r-Ebene enthalten.
j(| Tonhöhen-Steuerung
In einem Aufsatz »Phase Vocoder« von J. L. F 1 a η a ga η et al. in »Bell System Technical
Journal«, Band 45, Nr. 9, Seite 1493, November 1966
ist gezeigt, daß der '/»-Vektor in enger Beziehung zur
j-, Tonhöhe eines analysierten Sprachsignals steht, wenn
die Analysier-Bandbreite des Phasenvocoders schmal im Vergleich zur gesamten Sprachbandbreite ist.
Im Hinblick darauf wird eine Änderung der Tonhöhe durch_ Bildung und Modifizieren eines Vektorsignals
('" + Φ) erreicht, das die Elemente (<.«, + '/>,), (i>«
+ 'h) (,,,,- + 0,) . . .(,„Λ. + ΦΝ) enthält. Die Modifizierung
kann aus einer Multiplikation des Vektors (ei + Ί>) mit einem Tonhöhenvariationsparameter K1,
bestehen. Wenn also Kn größer als I ist, so wird die
«-, Tonhöhe der synthetisierten Sprache erhöht, und wenn
K1, kleiner als 1 ist, so wird die Tonhöhe der synthetisierten
Sprache erniedrigt.
Die Tonhöhenänderung wird in der Einrichtung 60 in Fig. 1 vorgenommen. Die Einrichtung60 weist
-,n eine Addierschaltung 61-/ für jeden Wert Φ,- auf. um
ein entsprechendes «»,-Signal zu jedem <7>-Signal zu
addieren, und eine Multiplizierschaltung 62-/ für jeden Wert </>,, um das Ausgangssignal jedes Addierers
mit dem Tonhöhen-Variationssteuersignal Kn zu
multiplizieren. Das Signal Kn liegt an der Leitung 44
und wird den Multiplizierern 62 über einen Schalter 64 zugeführt. Die digitalen Addierer 61 und die digitalen
Multiplizierer 62 sind einfache Digitalschaltungen bekannter Art.
bo Bei einem Alternativ-Verfahren zur Tonhöhen-Steuerung nach der Erfindung kann der von der
Steuereinrichtung40 in Fig. I gelieferte K ,-Faktor
die tatsächliche, zu synthetisierende Tonhöhe statt der Tonhöhenänderung angeben. In diesem Fall
b5 muß die Tonhöhe des aus dem Speicher 30 abgeleiteten
synthetisierten Sprachsignals festgestellt und ein interner Tonhöhen-Multiplikationsfaktor errechnet
werden. Demgemäß weist die Einrichtung 60 zu-
sätziich einen auf den Vektor (<->
+ '/>) ansprechenden Tonhöhcndctcktor 63 auf. der die tatsächliche Tonhöhe
errechnet, die den aus dem Speicher 30 abgeleiteten Signalen zugeordnet werden kann. Tonhöhcndetckioren
sind bekannt. Ein Ausführungsbeispicl ist in der US-Patentschrift 26 27 541 beschrieben.
DicTcüersehallung 67 in der Einrichtung 60
berechnet den internen Multiplikationsfaktor, in dem die gewünschte Tonhöhe K1, durch das berechnete
Tonhöhcnsignal dividiert wird. Der berechnete Mulliplikationsfaktor
wird über einen an die Leitung 66 angeschalteten Schalter 64 an die Multiplizierer 62
gegeben. Der Teiler 67 ist ein einfacher Digital-Teuer,
der beispielsweise einen auf das Ausgangssignal des Tonhöhendetcktors 63 ansprechenden Festwertspeicher
(ROM) aufweist, der den Kehrwert des Tonhöhensignals liefert, sowie einen Multiplizierer ähnlich
dem Multiplizierer 62, um das Ausgangssignal des Festwertspeichers mit dem gewünschten Tonhöhensignal
KpZU multiplizieren unddamit den gewünschten
Multiplikationsfaktor zu erzeugen.
Das Ausgangssigjial der Einrichtung 60 ist ein
Signal vektor (m + <?>)*, der ein bezüglich der Zeitdauer
undTonhöhcmodifiziertesAbbildeines(m + <7>)-Signalvektors
ist. (Eine Zeitdauer-Modifizierung liegt vor, weil beide Vektoren |S| und «fr am Ausgang des
Speichers 30 hinsichtlich der Dauer modifiziert sind.) Dieser Vektor wird zusammen mit einem interpolierten
und bezüglich der Zeitdauer modifizierten Vektor \S I*, der nachfolgend beschrieben wird, an einen
Digital-Analogwandler 70 gegeben, der jedes der Digital-Signale
in den beiden Signalvektoren in analoge Form umwandelt. Die Analogsignale werden dann an
einen Phasenvocoder-Synthelisierer 80 angelegt, um ein Signal zu erzeugen, das die gewünschte synthetisierte
Sprache darstellt. Der Phasenvocoder-Synthetisierer 80 kann im wesentlichen auf die gleiche Weise
wie in der oben angegebenen US-Patentschrift 3.160 610 beschrieben, aufgebaut werden.
Interpolation der Form des Spektrums
F i g. 3 zeigt_ die Amplituden der Komponenten des Vektors \s\ zu einem bestimmten Zeitpunkt.
Das Element 100 entspricht dem Signal \S,\, das Element
101 dem Signal \S2 1, das Element 103 dem
Signal |S,|, das Element 104 dem Signal |S,+, | usw.
Das Element 106 kann beispielsweise das Signal \SN\
angeben. Die Frequenzen, mit denen diese Signale auftreten, sind
und
Betrachtet in dem oben beschriebenen dreidimensionalen Raum wäre die Darstellung des Vektors \§\
gemäß F i g. 3 der zweidimensional Querschnitt des
2(i dreidimensionalen Raums parallel zu der durch die
Achsen >· und : definierten Ebene.
Wenn der Vektor (^ + <j>) in der Einrichtung 60 zur
Bildung des Signalvektors («» + </>)* abgeändert wird,
so wird die Frequenz jedes Gliedes des Signalvektors
\SI gleichmäßig verschoben, wie in Fig. 3 beispielsweise
durch die verschobenen Elemente 107 und 108 dargestellt. Fig. 3 zeigt, daß, wenn das Element 108
so beeinflußt wird, daß es (wie dargestellt) der Hüllkurve 109 in Fig. 3 entspricht, die Amplitude des
Elements 103, aus dem das Element 108 abgeleitet ist, verändert werden muß. Demgemäß muß die
Amplitude des Elements 103 mit einer Konstanten multipliziert werden, die aus dem Verhältnis der
Amplituden der Elemente 104 und 103 abgeleitet wird. Es läßt sich zeigen, daß diese Konstante Kx wie
folgt berechnet werden kann:
(1)
Außerdem besteht auf Grund einer Prüfung der F i g. 2 die Möglichkeit, daß die stufenförmige seitliche
Hüllkurve 210 des synthetisierten Spektrums geglättet werden kann. Intuitiv erkennt man, daß
eine solche Glättung der Hüllkurve des Spektrums zu einer angenehmer und natürlicher klingenden
Sprache führt. Diese Glättung der Hüllkurve läßt sich durch »Anpassen« einer Polynom-Kurve_ für jede
Komponente |S, | über die Anfangswerte |S,-1 durchführen,
wenn ein Zugriff zu einer neuen Speicheradresse erfolgt, beispielsweise eine Kurvenanpassung
über die Elemente 201, 206 und 203 und durch Änderung der wiederholten Signale J5,· | derart, daß sie in
diese Kurve passen. Hierbei handelt es sich jedoch um eine komplizierte mathematische Aufgabe, die die
Unterstützung eines Sonderzweck- oder Allzweckrechners erfordert. Aus Gründen einer klareren Darstellung
wird das einfachere geradlinige Interpolationsverfahren beschrieben. Diese Interpolationskurve wird
durch die Kurve 220 in F i g. 2 wiedergegeben. Demgemäß kann der Vektor \S\, dessen Frequenzkomponenten
in einer Ebene und dessen Zeitänderungen in einer zweiten Ebene gesehen werden können, so
interpoliert werden, daß er gleichzeitig auf Änderungen sowohl der Zeit als auch der Frequenz (Tonhöhe)
anspricht.
Demgemäß wird, wenn das Element 203 mit ST>
bezeichnet wird und das Signal \S-, | zum Zeitpunkt Bi1
definiert, das Element 204 mit ST2 und das Element 205
mit STX bezeichnet. Es läßt sich zeigen, daß die interpolierte
Amplitude des Elements 205, das an die Kurve 220 angepaßt ist, wie folgt berechnet werden
kann:
(2)
Nach Berücksichtigung des Faktors Kx gemäß
Gleichung (1) läßt sich die endgültige Amplitude des Elements 205· wie folgt ermitteln
sr']-
(3)
Durch Auswerten der Gleichung (3) kann also jedes Element |S,-1 am Ausgang des Speichers 30 und zu
einem bestimmten Zeitpunkt so abgeändert werden, daß es Änderungen der Tonhöhe und der Zeitdauer
berücksichtigt, um ein Spektrum zu erzeugen, das zu einer natürlich klingenden Sprache führt.
Man bcachlc, daIi die Einrichtung 40 zur Steuerung
der Zeitdauer in Fig. I eine Anzahl von Steuersignalen erzeugt, von denen eines dem Signal
n\ — »i,
/H2 — m,
entspricht. Dieses Signal ist mit K, bezeichnet.
Um die oben beschriebene Glätliing der Hiillkurve
des synthetisierten Spektrums hinsichtlich Zeit und Frequenz zu erzielen, weist die Schaltungsanordnung
gemäß F i g. I einen Speklriim-Amplitudeninterpolator
90 auf, der zwischen dem Speicher 30 und dem Digital-Analogwandler 70 eingefügt ist. Der Interpolator
90 kann einfach au< einer_ Kurzschlußvcrbindung
zwischen jedem Eingang \S, | und dem ent- ι·>
sprechenden interpolierten Ausgang |S;|*. Dies entspricht
einer einfachen konstanten Interpolation in der Zeitebene, die zu einer Hiillkurve entsprechend der
Kurve 210 in F i g. 2 führt, wobei keinerlei Interpolation in der Frequenzebene stattfindet. Andererseits
kann der Interpolator 90 eine Vielzahl von Interpolatorschaltungen
91 umfassen, die in Form hochkomplizierter Sonderzweck- oder Allzweckrechner
verwirklicht sind und eine komplizierte Kurvenanpassung ermöglichen. F i g. 4 zeigt ein Ausführungsbeispiel
einer Interpolatorschaltung 91 für das Verfahren der gradlinigen interpolation gemäß Gleichung
(3).
Die Interpolatorschaltung 91 in F i g. 4 ist die /-te Interpolarschaltung in der Einrichtung 90. Sie spricht
auf zwei Spektrum-Signale beim ersten Speicherzugriff an der augenblicklichen Speicheradresse, nämlich
dieSignale \ST> |und |Si"+'i |an sowie auf das Spektrum-Signal
\S'"2 1 der nächsten Speicheradresse und die
unveränderten und veränderten /-ten Frequenzen (in,- +
<l>j) bzw. (<>i, + '?>,)* sowie die unveränderte
(/+l)-te Frequenz (»); + i + <?', + i). Wenn also ein
Zugriff zu einer neuen Adresse des Speichers 30 erfolgt und die Signale \Sfl I und \S"}i | gewonnen
werden, adressiert die Steuereinrichtung 40 außerdem die nächste Speicherstelle und liefert einen Gatterimpuls
(auf der Leitung 21), um das nächste Signal Sfz
in das Register 910 in F i g. 4 zu leiten. Demgemäß spricht die Subtrahierschaltung 911 auf das Signal
|ST2 |aus dem Register 910 und auf das Signal |Sri|auf
der Leitung 23 an. Das dazwischengelegene Signal, das durch die Gleichung (2) definiert ist, wird durch
den Multiplizierer 912 berechnet, der auf die Subtrahierschaltung 911 und den obenerwähnten Faktor
Kc auf der Leitung 22 anspricht, sowie durch den
Summierer 913, der auf das Ausgangssignal des Multiplizierers 912 und auf das Signal | ST*1 lauf der Leitung
23 anspricht. Der Multiplikationsfaktor Kx wird durch
die Bauteile 914, 915, 916, 917, 918, 919 und 920 berechnet. Der Teiler 914 spricht auf die Signale
|ST' i und ISf-ii I an und erzeugt das Signal
60
IS,
gemäß Gleichung (1). Die Subtrahierschaltungen 915, 916, 917 erzeugen die Signale
65
1)-
Der Multiplizierer 918, der auf die Schaltungen 914 und 915 anspricht, erzeugt das Produktsignal
Der Summierer 919 wird von den Schallungen 916,
918 beaufschlagt, und der Teiler 920 teilt das Ausgangssignal
des Summierers 919 durch das Ausgangssignal der Sublrahierschaliung 919 und erzeugt ein
Signal, das die Konstante Kx entsprechend Gleichung
(I) darstellt. Der Multiplizierer 921, der von
dem Summierer 913 und dem Teiler 920 beaufschlagt wird, erzeugt das interpolierte Signal |S,|*.
Steuereinrichtung 40
F i g. 5 zeigt das Blockschaltbild der Steuereinrichtung 40 gemäß Fig. I. Die Steuereinrichtung40
spricht auf eine Kette von Befehlswörtern auf der Leitung 41 an, die die zu synthetisierende Nachricht
angibt. Die ankommende Befehlskette wird im Speicher 401 aufgenommen und danach an einen Festwertspeicher
(ROM) 402 gegeben, in welchem die Kette von Befehlen in die richtige Adressenfolgc für den
Speicher 30 in Fig. I decodiert wird. Die Decodierung
im Festwertspeicher erfolgt entsprechend der gespeicherten Kenntnis der Speicherstellen für bestimmte
Wörter im Speicher 30. Die gewünschte Wortfolge, die durch die Befehlskette am Eingang
bestimmt wird, kann analysiert werden, um die erwünschte Tonhöhe und -dauer zu bestimmen, und
zwar auf der Grundlage von Regeln bezüglich der Wortstellung, der Syntax und anderer, von der
Nachricht abhängigen Regeln. Nur zur Erläuterung enthält die Schaltungsanordnung gemäß Fig. 5 Einrichtungen
zur Analyse und Formulierung der gewünschten Tonhöhe und Wortdauer für die synthetisierte
Sprache auf der Grundlage der Syntax dieser Sprache. Die Analysiereinrichtung, nämlich die Steuerschaltung
403 für die Tonhöhe und die -dauer spricht gemäß F i g. 5 auf den Festwertspeicher 402 und ein
Fortschaltesignal auf der Leitung 414 an. Eine Einrichtung zur Analyse der Sprache auf der Grundlage
der Syntax und zur Zuordnung von Tonhöhe- und Zeitdauerwerten ist in der US-Patentschrift 3704 345
offenbart. In der genannten Patentschrift ist ein Tonhöhen- und Intensitätsgeneralor, ein Vokaldauer-Generator
und ein Konsonantendauer-Generator gezeigt, die alle im Prinzip von einem Syntax-Analysator
abhängen.
Die Generatoren erzeugen Signale, welche die gewünschte Tonhöhe, Intensität und Dauer beschreiben,
die den in jeder zu lesenden Speicheradresse angegebenen Lauten zugeordnet sind. Es kann an
Stelle eines Laut-Wörterbuches nach der vorgenannten US-Patentschrift 37 04 345 ein Wort-Wörterbuch benutzt
werden, und die Vokal- oder Konsonanten-Generatoren nach der vorgenannten Patentschrift
können zu einem einheitlichen Tonhöhen- und Dauer-Generator kombiniert werden. Demgemäß ist in
F i g. 5 eine Steuerschaltung 403 für die Tonhöhe und -dauer angegeben der Ausgangssignal ein Speicheradressenfeld,
ein Tonhöhensteuerfeld K1, und ein Zeitdauer-Steuerfeld
Kd enthält. Das Ausgangssignal der Steuerschaltung 403 wird im Register 406 gespeichert.
Dessen Ausgangssignal gelangt in ein Register 407. Wenn demgemäß das Register 407 eine bestimmte
Speicheradresse enthält, sagt man, daß das Register 406 die nächste Speicheradresse enthält. Beide Register
sind an eine Wählerschaltung408 angeschlossen,
die die Ausgangssignalc einer der beiden Register wählt und an den Wählerausgang weilergibt.
Die Anzahl der Befehle zum Lesen jeder Speicherstelle
wird durch Eingabe des Wertes Kj am Ausgang
des Wählers 408 auf der Leitung 409 in einen Rückwärlszähler
405 gesteuert. Der Grundtakl fs für den
Speicherzugi iff, der in der Schaltung 412 erzeugt
wird, liefert Impulse, die den Zähler405 rückwärts
laufen lassen, während der Speicher über das ODER-Gattcr413
und die Leitung 43 gelesen wird. Wenn der Zähler 405 Nuii erreicht, erzeugt er einen Fortsehaiteimpi.ils
auf der Leitung 414. Dieser Impuls schalle! die Steuerschaltung 403 auf den nächsten
Speicherzustand weiter, bewirkt, daß das Register 406 den nächsten Speicherznstand speichert und läßt
das Register 407 den neuen Zustand aufnehmen. Gleichzeitig liefert der Wähler 408 unter Steuerung
des Fortschalteimpulscs auf den Leitungen 44 und 42 den Inhalt des Registers 406 und der Impulsgenerator
410 liefert unter Ansprechen auf den Fortschalteimpuls einen weiteren Lesebefehl für den Speicher 30
über das ODER-Gatter 413. Der Ausgangsimpuls des Generators 410 wird außerdem benutzt, um über
die Gatlerleitung 41 das Ausgangssignal des Speichers 30 in das Register 910 der Einrichtung 91 zu führen,
wodurch im Register 90 die oben beschriebenen Signale S'"i gespeichert werden. Wenn das Fortschaltesignal
auf der Leitung 414 verschwindet, schaltet der Wähler 408 das Ausgangssignal des Registers
407 zum Wählerausgang durch und beim nächsten Impuls vom Taktgeber 412 wird ein neuer Wert Kj
in den Zähler 405 gegeben.
Der Stand des Zählers 405 wird zu jedem Zeitpunkt durch das Signal auf der Leitung 415 angegeben.
Dieses Signal stellt den Wert Inx-In1 dar. Die Konstante
K'd,diea!s Eingangssignal für den Zähler 405 auftritt
(Leitung 409), steMr den Wert m, -m, dar. Demgein'Jfl
wird die Konstante K1. durch den Teiler 411
-> berechnet, dit das Signal auf der Leitung 415 durch
das Signal auf der Leitung 409 ieilt.
linier gewissen Umständen ist eine praktische Verwirklichung der Erfindung unter Verwendung
eines Rechnerprogramrns möglich und kann in ge-
Iu wissen Punkten vorteilhaft sein. Wenn beispielsweise
ein Benutzer es für zweckmäßig hall ein Verfahren mit einer sehr komplizierten Spektrum-lnlcrpolation
zu verwenden, kann es einfacher sein, fur den Interpolator 90 in F i«. 1 eine Ausführung mit einem
Rechner statt einer speziell ausgebildeten Schaltungsanordnung zu verwenden. Wenn jedoch ein Rechner
in der Anlage benutzt wird, können zusätzliche Merkmale vom Rechner verwirklicht werden, wodurch
der Umfang der erforderlichen Schaltungsanordnungen kleiner wird. Beispielsweise sind die arithmetischen
Operationen, die in der Einrichtung zur Ton höhenanzeige und zur Tonhöhenänderung benutzt werden,
sehr einfach, und Rechnerprogramme, die zur Verwirklichung der Tonhöhensteuerung benutzt werden,
2r> sind einfach und dem Fachmann bekannt. Auf entsprechende
Weise kann der Speicher 30 in den Rechner übernommen werden. Gleiches gilt für den Phasenvocoder-Analysator
und den größten Teil des Phasenvocoder-Synthetisierers. Talsächlich wird entspre-
jo chend dem eingangs erwähnten Aufsatz von C a r 1-s
ο η ein Rechner zur Verwirklichung des Phasenvocoder-Analysierers und -synthetisierers benutzt. Es wird
dazu auch auf die Rechner-Simulation eines Phasenvocoders Bezug genommen, die in dem oben beschrie-
J5 benen Aufsatz »Phase Vocoder« auf Seite 1496 beschrieben
ist.
Hierzu 3 Blatt Zeichnungen
Claims (8)
1. Verfahren zum Synthetisieren einer natürlich klingenden Sprachnachricht aus gespeicherten,
ein Vokabular von Wörtern darstellenden elektrischen Signalen mit den Verfahrensschritten:
Gewinnen und Verknüpfen gewählter Teile der Signale, Abändern der verknüpften Signale hinsichtlich
ihrer Zeitdauer und bezüglich der Tonhöhe und Umwandeln der abgeänderten Signale in iu
hörbare Sprache, gekennzeichnet durch die Verfahrensschritte Speichern von Signalen,
welche die Kurzzeit-Fourier-Transformationsparameter und Phasenableitparameter sind, die sich
aus einer Phasenvocoder-Codicrung des Vokabulars von Wörtern ergeben. Gewinnen aus den
gespeicherten Signalen von zeitdauerveränderten Signalen, welche die Sprachnachricht darstellen.
Verandern der Phasenableitparameter der verknüpften Signale zur Beeinflussung der Tonhöhe
der hörbaren Sprache.
2. Verfahren nach Anspruch !,dadurch gekennzeichnet,
daß die Signale zur Beeinflussung der Dauer der Sprache mehrfach gewonnen werden.
3. Verfahren nach Anspruch I oder 2, gekennzeichnet durch Interpolieren der Kurzzeit-Fourier-Transformationsparametcr
entsprechend vorgegebenen Regeln unter Ansprechen auf zugeführte Zeitdauer-Steuersignale und die veränderten Phasenableilparameter,
um eine glatte Spektrum- jo Hüllkurve zu erreichen.
4. Elektrische Schaltungsanordnung zum Synthetisieren einer natürlich klingenden Sprachnachricht
entsprechend dem Verfahren nach Anspruch I mit einem Speicher, der ein Vokabular
von Wörtern darstellende Signale speichert, einer Gewinn- und Verknüpfimgseinrichtung für gewählte
Teile der Signale, einer Abänderungseinrichtung für die verknüpften Signale hinsichtlich
ihrer Zeitdauer und bezüglich der Tonhöhe und 41) einer Umwandlungseinrichtung, die die abgeänderten
Signale in hörbare Sprache umwandelt, dadurch gekennzeichnet, daß eine Signalspcieheriin-d
Zugriffseinrichtung (30) vorhanden ist, die Signale (S,-'/>,-) für die Kurzzeit-Fouricr-Trans- 4-,
formationsparameter und Phasenableilparamctci zu speichern, die sich aus einer Phasenvocoder-Codicrung
des Vokabulars von Wörtern ergeben, daß eine Steuerschaltung (40) vorhanden ist, die
einen Interpolator (90) veranlaßt, Signale zu ■-,<> gewinnen und die Dauer der gewählten Signale
zu ändern, und daß eine Tonhöhenvcränderungseinrichtimg
(60) vorhanden ist, die die gewonnenen Signale durch Ändern der Phasenableitparameter
abwandelt, um die Tonhöhe der Sprache zu be- τ,
cintlusseii.
5. Schallungsanordnung nach Anspruch 4, dadurch gekennzeichnet, daß die Steuerschaltung (40)
Schallungen (403 412) enthält, um ein gewähltes
Signal mehrere Male zu gewinnen. bo
6. Schaltungsanordnung nach Anspruch 4 oder 5. dadurch gekennzeichnet, daß die Tonhöhenän
dem ngsei η richtung (60) Addierschal tu 11-gen
(611 aufweist, die zu jedem Phascnableitsignal
ein geeignet zugeordnetes FreqiieiizsignaKoijaddic- ηγ>
ron. und Multiplizierschaltungen (62). die jedes der addierten Signale mit einem zugeführlcn
Tonhöhen-Steuersignal (K,,) multiplizieren.
7. Schaltungsanordnung nach Anspruch 6, dadurch gekennzeichnet, daß Tonhöhen-Mulliplikationsschaltungen
(63, 67) vorhanden sind, die unter Ansprechen auf ein zugeführtes Tonhöhen-Steuersignal
(Kp) und auf die Multiplizierschaltungen
(62) einen Multiplikationsfaktor zur Tonhöhenveränderung errechnen, und daß Multiplizierer
(62) vorhanden sind, um jedes der addierten Signale mit dem Multiplikationsfaktor zu
multiplizieren.
8. Schaltungsanordnung nach einem der Ansprüche 4 bis 7, dadurch gekennzeichnet, daß der
Interpolator (90) sekundäre Interpolatoren (91) zur Abänderung jeder Komponente der Kurzzeit-Fourier-Transformationsparameter
aufweist, um den Tonhöhen- und Zeildaueränderungen in benachbarten
Komponenten der Kurzzeit-Fourier-Transformationsparameter Rechnung zu tragen.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US05/476,577 US3982070A (en) | 1974-06-05 | 1974-06-05 | Phase vocoder speech synthesis system |
Publications (3)
Publication Number | Publication Date |
---|---|
DE2524497A1 DE2524497A1 (de) | 1975-12-18 |
DE2524497B2 DE2524497B2 (de) | 1978-12-14 |
DE2524497C3 true DE2524497C3 (de) | 1979-08-09 |
Family
ID=23892415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2524497A Expired DE2524497C3 (de) | 1974-06-05 | 1975-06-03 | Verfahren und Schaltungsanordnung zur Sprachsynthese |
Country Status (4)
Country | Link |
---|---|
US (1) | US3982070A (de) |
JP (1) | JPS516407A (de) |
CA (1) | CA1046642A (de) |
DE (1) | DE2524497C3 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2551632A1 (de) * | 1974-11-18 | 1976-05-26 | Western Electric Co | Verfahren und vorrichtung zum synthetisieren einer natuerlich klingenden sprache |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4076958A (en) * | 1976-09-13 | 1978-02-28 | E-Systems, Inc. | Signal synthesizer spectrum contour scaler |
US4210781A (en) * | 1977-12-16 | 1980-07-01 | Sanyo Electric Co., Ltd. | Sound synthesizing apparatus |
US4189779A (en) * | 1978-04-28 | 1980-02-19 | Texas Instruments Incorporated | Parameter interpolator for speech synthesis circuit |
JPS5570783A (en) * | 1978-11-22 | 1980-05-28 | Sharp Corp | Sound information clock |
JPS55111995A (en) * | 1979-02-20 | 1980-08-29 | Sharp Kk | Method and device for voice synthesis |
US4281994A (en) * | 1979-12-26 | 1981-08-04 | The Singer Company | Aircraft simulator digital audio system |
US4441201A (en) * | 1980-02-04 | 1984-04-03 | Texas Instruments Incorporated | Speech synthesis system utilizing variable frame rate |
JPS56119909A (en) * | 1980-02-22 | 1981-09-19 | Victor Co Of Japan Ltd | Reproducing device for speed variable digital signal |
JPS5863327A (ja) * | 1981-10-12 | 1983-04-15 | 三菱農機株式会社 | コンバインにおける脱穀部扱胴の変速表示装置 |
US4415767A (en) * | 1981-10-19 | 1983-11-15 | Votan | Method and apparatus for speech recognition and reproduction |
US4624012A (en) | 1982-05-06 | 1986-11-18 | Texas Instruments Incorporated | Method and apparatus for converting voice characteristics of synthesized speech |
US4815135A (en) * | 1984-07-10 | 1989-03-21 | Nec Corporation | Speech signal processor |
US4885790A (en) * | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
US4937873A (en) * | 1985-03-18 | 1990-06-26 | Massachusetts Institute Of Technology | Computationally efficient sine wave synthesis for acoustic waveform processing |
USRE34247E (en) * | 1985-12-26 | 1993-05-11 | At&T Bell Laboratories | Digital speech processor using arbitrary excitation coding |
US4827517A (en) * | 1985-12-26 | 1989-05-02 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech processor using arbitrary excitation coding |
JPH0754440B2 (ja) * | 1986-06-09 | 1995-06-07 | 日本電気株式会社 | 音声分析合成装置 |
US5009143A (en) * | 1987-04-22 | 1991-04-23 | Knopp John V | Eigenvector synthesizer |
US5179626A (en) * | 1988-04-08 | 1993-01-12 | At&T Bell Laboratories | Harmonic speech coding arrangement where a set of parameters for a continuous magnitude spectrum is determined by a speech analyzer and the parameters are used by a synthesizer to determine a spectrum which is used to determine senusoids for synthesis |
US5081681B1 (en) * | 1989-11-30 | 1995-08-15 | Digital Voice Systems Inc | Method and apparatus for phase synthesis for speech processing |
US5388181A (en) * | 1990-05-29 | 1995-02-07 | Anderson; David J. | Digital audio compression system |
US5425130A (en) * | 1990-07-11 | 1995-06-13 | Lockheed Sanders, Inc. | Apparatus for transforming voice using neural networks |
US5226108A (en) * | 1990-09-20 | 1993-07-06 | Digital Voice Systems, Inc. | Processing a speech signal with estimated pitch |
US5216747A (en) * | 1990-09-20 | 1993-06-01 | Digital Voice Systems, Inc. | Voiced/unvoiced estimation of an acoustic signal |
US5664051A (en) * | 1990-09-24 | 1997-09-02 | Digital Voice Systems, Inc. | Method and apparatus for phase synthesis for speech processing |
US5226084A (en) * | 1990-12-05 | 1993-07-06 | Digital Voice Systems, Inc. | Methods for speech quantization and error correction |
US5630011A (en) * | 1990-12-05 | 1997-05-13 | Digital Voice Systems, Inc. | Quantization of harmonic amplitudes representing speech |
US5247579A (en) * | 1990-12-05 | 1993-09-21 | Digital Voice Systems, Inc. | Methods for speech transmission |
US5517511A (en) * | 1992-11-30 | 1996-05-14 | Digital Voice Systems, Inc. | Digital transmission of acoustic signals over a noisy communication channel |
US5715365A (en) * | 1994-04-04 | 1998-02-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
US6246774B1 (en) | 1994-11-02 | 2001-06-12 | Advanced Micro Devices, Inc. | Wavetable audio synthesizer with multiple volume components and two modes of stereo positioning |
AU696092B2 (en) * | 1995-01-12 | 1998-09-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
US5754974A (en) * | 1995-02-22 | 1998-05-19 | Digital Voice Systems, Inc | Spectral magnitude representation for multi-band excitation speech coders |
US5701390A (en) * | 1995-02-22 | 1997-12-23 | Digital Voice Systems, Inc. | Synthesis of MBE-based coded speech using regenerated phase information |
WO1997019444A1 (en) * | 1995-11-22 | 1997-05-29 | Philips Electronics N.V. | Method and device for resynthesizing a speech signal |
US5839099A (en) * | 1996-06-11 | 1998-11-17 | Guvolt, Inc. | Signal conditioning apparatus |
US5928311A (en) * | 1996-09-13 | 1999-07-27 | Intel Corporation | Method and apparatus for constructing a digital filter |
US5870704A (en) * | 1996-11-07 | 1999-02-09 | Creative Technology Ltd. | Frequency-domain spectral envelope estimation for monophonic and polyphonic signals |
US5915237A (en) * | 1996-12-13 | 1999-06-22 | Intel Corporation | Representing speech using MIDI |
US6161089A (en) * | 1997-03-14 | 2000-12-12 | Digital Voice Systems, Inc. | Multi-subframe quantization of spectral parameters |
US6131084A (en) * | 1997-03-14 | 2000-10-10 | Digital Voice Systems, Inc. | Dual subframe quantization of spectral magnitudes |
US6199037B1 (en) | 1997-12-04 | 2001-03-06 | Digital Voice Systems, Inc. | Joint quantization of speech subframe voicing metrics and fundamental frequencies |
US6182042B1 (en) | 1998-07-07 | 2001-01-30 | Creative Technology Ltd. | Sound modification employing spectral warping techniques |
US6324501B1 (en) * | 1999-08-18 | 2001-11-27 | At&T Corp. | Signal dependent speech modifications |
US6526325B1 (en) * | 1999-10-15 | 2003-02-25 | Creative Technology Ltd. | Pitch-Preserved digital audio playback synchronized to asynchronous clock |
US6377916B1 (en) | 1999-11-29 | 2002-04-23 | Digital Voice Systems, Inc. | Multiband harmonic transform coder |
EP1160764A1 (de) | 2000-06-02 | 2001-12-05 | Sony France S.A. | Morphologische Kategorien für Sprachsynthese |
MX339764B (es) * | 2011-02-18 | 2016-06-08 | Ntt Docomo Inc | Descodificador de habla, codificador de habla, metodo para descodificacion de habla, metodo para codificacion de habla, programa para descodificacion de habla, y programa para codificacion de habla. |
US9865247B2 (en) | 2014-07-03 | 2018-01-09 | Google Inc. | Devices and methods for use of phase information in speech synthesis systems |
EP2988300A1 (de) * | 2014-08-18 | 2016-02-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Schalten von Abtastraten bei Audioverarbeitungsvorrichtungen |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3360610A (en) * | 1964-05-07 | 1967-12-26 | Bell Telephone Labor Inc | Bandwidth compression utilizing magnitude and phase coded signals representative of the input signal |
US3369077A (en) * | 1964-06-09 | 1968-02-13 | Ibm | Pitch modification of audio waveforms |
AT258366B (de) * | 1964-10-16 | 1967-11-27 | Ibm Oesterreich Internationale | Anordnung zur Umformung der Kanalwerte eines impulserregten Kanalvocoders |
US3828132A (en) * | 1970-10-30 | 1974-08-06 | Bell Telephone Labor Inc | Speech synthesis by concatenation of formant encoded words |
-
1974
- 1974-06-05 US US05/476,577 patent/US3982070A/en not_active Expired - Lifetime
-
1975
- 1975-06-03 DE DE2524497A patent/DE2524497C3/de not_active Expired
- 1975-06-04 CA CA228,526A patent/CA1046642A/en not_active Expired
- 1975-06-05 JP JP50067135A patent/JPS516407A/ja active Granted
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2551632A1 (de) * | 1974-11-18 | 1976-05-26 | Western Electric Co | Verfahren und vorrichtung zum synthetisieren einer natuerlich klingenden sprache |
Also Published As
Publication number | Publication date |
---|---|
US3982070A (en) | 1976-09-21 |
USB476577I5 (de) | 1976-01-20 |
JPS5533079B2 (de) | 1980-08-28 |
DE2524497B2 (de) | 1978-12-14 |
CA1046642A (en) | 1979-01-16 |
JPS516407A (en) | 1976-01-20 |
DE2524497A1 (de) | 1975-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2524497C3 (de) | Verfahren und Schaltungsanordnung zur Sprachsynthese | |
DE69009545T2 (de) | Verfahren zur Sprachanalyse und -synthese. | |
DE2659096C2 (de) | ||
DE2934489C2 (de) | ||
DE3510660C2 (de) | ||
DE2551632C2 (de) | Verfahren zum Zusammensetzen von Sprachnachrichten | |
DE2404431C3 (de) | Elektronisches Musikinstrument | |
DE2229149A1 (de) | Verfahren zur Übertragung von Sprache | |
DE69128857T2 (de) | Vorrichtung zur Erzeugung eines Tonsignals | |
DE2500839B2 (de) | Elektronisches Musikinstrument mit Sinustabellenspeicher | |
DE2659083A1 (de) | Verfahren und vorrichtung zur sprechererkennung | |
DE69017842T2 (de) | Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate. | |
DE2636032C3 (de) | Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal | |
DE2622423B2 (de) | Elektrische Anordnung zur Übertragung oder Speicherung eines Sprachoder Tonsignals in kodierter Form | |
DE1965480B2 (de) | Geraet zur umwandlung eines in graphischen zeichen gedruckten textes in gesprochene worte | |
DE3019823C2 (de) | ||
DE60016305T2 (de) | Verfahren zum Betrieb eines Sprachkodierers | |
DE69830816T2 (de) | Mehrstufige Audiodekodierung | |
DE68907098T2 (de) | Differentieller Kodierer mit auto-adaptivem Prädiktorfilter und dazugehörigem Dekodierer. | |
DE2513127A1 (de) | Verfahren zum kuenstlichen erzeugen eines musikalischen klangs | |
DE69420200T2 (de) | CELP Koder-Dekoder | |
DE3050742C2 (de) | Tonsyntheseverfahren | |
DE2649540A1 (de) | Verfahren und anordnung zur sprachsynthese | |
DE3115884C2 (de) | ||
DE2826570C2 (de) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C3 | Grant after two publication steps (3rd publication) | ||
8339 | Ceased/non-payment of the annual fee |