DE69615832T2 - Sprachsynthese mit wellenformen - Google Patents
Sprachsynthese mit wellenformenInfo
- Publication number
- DE69615832T2 DE69615832T2 DE69615832T DE69615832T DE69615832T2 DE 69615832 T2 DE69615832 T2 DE 69615832T2 DE 69615832 T DE69615832 T DE 69615832T DE 69615832 T DE69615832 T DE 69615832T DE 69615832 T2 DE69615832 T2 DE 69615832T2
- Authority
- DE
- Germany
- Prior art keywords
- sequence
- step size
- extension
- samples
- waveform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 16
- 238000003786 synthesis reaction Methods 0.000 title claims description 16
- 230000005284 excitation Effects 0.000 claims description 20
- 238000000034 method Methods 0.000 claims description 16
- 230000001360 synchronised effect Effects 0.000 claims description 8
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 239000003550 marker Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Manufacture Of Motors, Generators (AREA)
Description
- Die vorliegende Erfindung bezieht sich auf die Sprachsynthese und betrifft insbesondere die Sprachsynthese, bei der gespeicherte Segmente digitalisierter Signalformen abgerufen und kombiniert werden.
- Ein Beispiel eines Sprachsynthesizers, in dem gespeicherte Segmente digitalisierter Signalformen (Wellenformen) abgerufen und kombiniert werden, ist in einem Artikel von Tomohisa Hirokawa u. a. mit dem Titel "High Quality Speech Synthesis System Based on Waveform Concatenation of Phoneme Segment" in den IEICE Transactions on Fundaments of Electronics, Communications and Computer Sciences, 76a (1993), November, Nr. 11, Tokio, Japan, beschrieben.
- Gemäß der vorliegenden Erfindung wird ein Verfahren zur Sprachsynthese mit den Schritten geschaffen:
- Abrufen einer ersten Abfolge digitaler Proben entsprechend einer ersten gewünschten Sprachwellenform und ersten Schrittweitendaten, die Anregungszeitpunkte der Wellenform definieren;
- Abrufen einer zweiten Abfolge digitaler Proben entsprechend einer zweiten gewünschten Sprachwellenform und zweiten Schrittweitendaten, die Anregungszeitpunkte der zweiten Wellenform definieren;
- Bilden eines Überlappungsbereichs durch Synthetisieren einer Erweiterungsfolge aus zumindest einer Folge, wobei die Erweiterungsfolge so schrittweitenangepaßt ist, daß sie mit den Anregungszeitpunkten der jeweils anderen Folge synchron ist;
- Bilden, für den Überlappungsbereich, gewichteter Summen der Proben der ursprünglichen Folge(n) und der Proben der Erweiterungsfolge(n).
- Gemäß einem weiteren Aspekt der Erfindung wird eine Vorrichtung zur Sprachsynthese geschaffen, die umfaßt:
- eine Einrichtung zum Speichern von Folgen von digitalen Proben entsprechend Bereichen von Sprachwellenformen und Schrittweitendaten, die Anregungszeitpunkte der Wellenformen definieren;
- einer Steuerungseinrichtung, die so steuerbar ist, daß sie von der Speichereinrichtung 1 Folgen digitaler Proben entsprechend den gewünschten Bereichen der Sprachwellenformen und entsprechender Schrittweitendaten, die die Anregungszeitpunkte der Wellenformen definieren, abruft;
- einer Einrichtung zum Verknüpfen der abgerufenen Folgen, wobei die Verknüpfungseinrichtung dazu ausgelegt ist, im Betrieb (a) zumindest aus der ersten von zwei abgerufenen Folgen eine Erweiterungsfolge zu synthetisieren, um die Folge in einen Überlappungsbereich mit der anderen Folge der beiden zu erweitern, wobei die Erweiterungsfolge in ihrer Schrittweite so eingestellt ist, daß sie synchron zu den Anregungszeitpunkten der anderen Folge ist, und (b) für den Überlappungsbereich gewichtete Summen von Proben der ursprünglichen Folge(n) und von Proben der Erweiterungsfolge(n) zu bilden.
- Weitere Aspekte der Erfindung sind in den Unteransprüchen definiert.
- Einige Ausführungsformen der Erfindung werden nun beispielhaft unter Bezugnahme auf die beigefügte Zeichnung beschrieben, worin:
- Fig. 1 ein Blockschaltplan einer Form des Sprachsynthesizers gemäß der Erfindung ist;
- Fig. 2 ein Ablaufplan ist, der den Betrieb der Verknüpfungseinheit 5 der Vorrichtung nach Fig. 1 veranschaulicht; und
- die Fig. 3 bis 9 Signalformendarstellungen sind, die den Betrieb der Verknüpfungseinheit 5 veranschaulichen.
- Im Sprachsynthesizer nach Fig. 1 enthält ein Speicher 1 aus einer digitalisierten Passage der Sprache erzeugte Abschnitte der Sprachsignalform, die ursprünglich von einem menschlichen Sprecher aufgezeichnet wurde, der eine Passage (aus etwa 200 Sätzen) gelesen hat, die so ausgewählte wurde, daß sie alle möglichen verschiedenen Laute (oder wenigstens eine breite Auswahl verschiedener Laute) enthält. Folglich umfaßt jeder Eintrag im Signalformspeicher 1 digitale Abtastwerte eines Bereichs der Sprache, der einem Phonem oder mehreren Phonemen entspricht, wobei er Markierungsinformationen aufweist, die die Grenzen zwischen den Phonemen anzeigen. Begleitend zu jedem Abschnitt sind Daten gespeichert, die die "Schrittweitenmarkierungen" definieren, die die Punkte der Kehlkopfverschlußlaute im Signal anzeigen und die während der ursprünglichen Aufzeichnung in herkömmlicher Weise erzeugt wurden.
- Ein Eingangssignal, das die zu synthetisierende Sprache in Form einer phonetischen Darstellung darstellt, wird in einen Eingang 2 eingespeist. Es kann erwünscht sein, daß diese Eingabe aus einer Texteingabe durch eine (nicht gezeigte) herkömmliche Einrichtung erzeugt wird. Diese Eingabe wird in einer bekannten Weise durch eine Auswahleinheit 3 verarbeitet, die für jede Einheit der Eingabe die Adressen im Speicher 1 eines gespeicherten Signalformabschnitts bestimmt, der dem durch die Einheit dargestellten Klang entspricht. Die Einheit kann, wie oben erwähnt ist, eine Phonem-, Diphon-, Triphon- oder eine andere Subwort-Einheit sein, wobei sich im allgemeinen die Länge einer Einheit entsprechend der Verfügbarkeit im Signalformspeicher eines entsprechenden Signalformabschnitts verändern kann. Wo es möglich ist, ist es bevorzugt, eine Einheit auszuwählen, die eine vorhergehende Einheit um ein Phonemen überlappt. Techniken, um dieses zu erreichen, sind in der ebenfalls anhängigen internationalen Patentanmeldung des gleichen Anmelders Nr. PCT/GB/9401688 und in der US- Patentanmeldung Nr. 166.988 vom 16. Dezember 1993 beschrieben.
- Sobald die Einheiten ausgelesen sind, werden sie jede einzelne einem Amplitudennormierungsprozeß in einer Amplitudeneinstelleinheit 4 unterworfen, deren Betrieb in der ebenfalls anhängigen europäischen Patentanmeldung des gleichen Anmelders Nr. 95301478.4 beschrieben ist.
- Die Einheiten sind dann bei 5 miteinander zu verbinden. In Fig. 2 ist ein Ablaufplan für den Betrieb dieser Vorrichtung gezeigt. In dieser Beschreibung sind eine Einheit und die Einheit, die ihr folgt, als die linke Einheit bzw. die rechte Einheit bezeichnet. Wo sich die Einheiten überlappen - d. h. wenn das letzte Phonem der linken Einheit und das erste Phonem der rechten Einheit denselben Laut darstellen und in der endgültigen Ausgabe lediglich ein einzelnes Phonem darstellen - ist es notwendig, vor der Ausführung einer Verknüpfung vom Typ einer "Verschmelzung" die redundanten Informationen zu verwerfen; ansonsten ist eine Verknüpfung vom Typ des "Aneinanderstoßens" geeignet.
- Im Schritt 10 nach Fig. 2 werden die Einheiten empfangen, wobei entsprechend des Typs der Verschmelzung (Schritt 11) die Kürzung notwendig oder nicht notwendig ist. Im Schritt 12 werden die entsprechenden Schrittweitenanordnungen gekürzt; in der Anordnung, die der linken Einheit entspricht, wird die Anordnung nach der ersten Schrittweitenmarkierung rechts vom Mittelpunkt des letzten Phonems abgeschnitten, so daß alle außer einer der Schrittweitenmarkierungen nach dem Mittelpunkt gelöscht werden, während in der Anordnung für die rechte Einheit die Anordnung vor der letzten Schrittweitenmarkierung links vom Mittelpunkt des ersten Phonems abgeschnitten wird, so daß alle außer einer der Schrittweitenmarkierungen vor dem Mittelpunkt gelöscht werden. Dies ist in Fig. 2 veranschaulicht.
- Bevor weiter fortgefahren wird, müssen die Phoneme auf jeder Seite der Verknüpfung anhand dem Vorhandensein und der Position der Schrittweitenmarkierungen in jedem Phonem als stimmhaft oder stimmlos klassifiziert werden. Es wird angemerkt, daß dieses nach der "Schrittweiten-Abschnitts"-Stufe stattfindet (im Schritt 13), so daß die Entscheidung der Stimmhaftigkeit den Status jedes Phonems nach der möglichen Entfernung einiger Schrittweitenmarkierungen widerspiegelt. Ein Phonem wird als stimmhaft klassifiziert, falls:
- 1. der entsprechende Teil einer Schrittweitenanordnung zwei oder mehr Schrittweitenmarkierungen enthält; und
- 2. der Zeitunterschied zwischen den zwei Schrittweitenmarkierungen, die sich am nächsten zur Verknüpfung befinden, kleiner als ein Schwellenwert ist; und
- 3a. für eine Verknüpfung des Typs einer Verschmelzung der Zeitunterschied zwischen der Schrittweitenmarkierung am nächsten zur Verknüpfung und dem Mittelpunkt des Phonems kleiner als ein Schwellenwert ist;
- 3b. für eine Verknüpfung des Typs des Aneinanderstoßens der Zeitunterschied zwischen der Schrittweitenmarkierung am nächsten zur Verknüpfung und dem Ende der linken Einheit (oder dem Anfang der rechten Einheit) kleiner als ein Schwellenwert ist.
- Ansonsten wird es als stimmlos klassifiziert.
- Die Regeln 3a und 3b sind aufgestellt, um übermäßige Verluste der Sprach-Abtastwerte (Sprachproben) in der nächsten Stufe zu verhindern.
- In dem Fall einer Verknüpfung des Typs einer Verschmelzung (Schritt 14) werden aus den stimmhaften Phonemen Sprach- Abtastwerte wie folgt verworfen (Schritt 15):
- Linke Einheit, letztes Phonem - verwerfe alle Abtastwerte, die der letzten Schrittweitenmarkierung folgen;
- Rechte Einheit, erstes Phonem - verwerfe alle Abtastwerte vor der ersten Schrittweitenmarkierung;
- während sie von den stimmlosen Phonemen verworfen werden, indem alle Abtastwerte rechts oder links vom Mittelpunkt des Phonems (für linke bzw. rechte Einheiten) verworfen werden.
- Im Fall einer Verknüpfung des Typs des Aneinanderstoßens (Schritt 16, 15) besitzen die stimmlosen Phoneme keine Abtastwerte, die entfernt werden, während die stimmhaften Phoneme normalerweise in der gleichen Weise wie für den Fall der Verschmelzung behandelt werden, obwohl weniger Abtastwerte verloren werden, da keine Schrittweitenmarkierungen gelöscht worden sein werden. In dem Fall, daß dies einen Verlust einer übermäßigen Anzahl von Abtastwerten (z. B. mehr als 20 ms) verursachen würde, werden keine Abtastwerte entfernt, wobei das Phonem markiert wird, um in der weiteren Verarbeitung als stimmlos behandelt werden.
- Die Entfernung der Abtastwerte aus stimmhaften Phonemen ist in Fig. 3 veranschaulicht. Die Positionen der Schrittweitenmarkierungen sind durch Pfeile dargestellt. Es wird angemerkt, daß dies Signalformen lediglich zur Veranschaulichung gezeigt sind, wobei sie für echte Sprachsignalformen nicht typisch sind.
- Die Prozedur, die für die Verknüpfung von zwei Phonemen zu verwenden ist, ist ein Überlappungsprozeß. Entsprechend (Schritt 17) ob beide Phoneme stimmhaft sind (eine stimmhafte Verknüpfung) oder ob ein Phonem oder beide Phoneme stimmlos sind (eine stimmlose Verknüpfung), wird jedoch eine verschiedene Prozedur verwendet.
- Die stimmhafte Verknüpfung (Schritt 18) wird zuerst beschrieben. Dies erfordert die folgenden grundlegenden Schritte: die Synthese einer Erweiterung der Phoneme, indem Bereiche aus seiner bestehenden Signalform kopiert werden, aber mit einer Schrittweitenperiodendauer, die dem anderen Phonem entspricht, mit dem es zu verknüpfen ist. Dies erzeugt einen Überlappungsbereich mit jedoch übereinstimmenden Schrittweitenmarkierungen (oder es erzeugt im Falle der Verknüpfung vom Typ einer Verschmelzung erneut einen Überlappungsbereich mit jedoch übereinstimmenden Schrittweitenmarkierungen). Die Abtastwerte werden dann einer gewichteten Addition unterworfen (Schritt 19), um einen glatten Übergang über die Verknüpfung zu erzeugen. Die Überlagerung kann durch die Erweiterung des linken Phonems oder des rechten Phonems erzeugt werden, das bevorzugte Verfahren besteht aber darin, sowohl das linke als auch das rechte Phonem zu erweitern, wie im folgenden beschrieben ist. Ausführlicher:
- 1. Es wird ein Segment der bestehenden Signalform unter Verwendung eines Hanning-Fensters für die Synthese ausgewählt. Die Länge des Fensters wird gewählt, indem die letzten zwei Schrittweitenperiodendauern in der linken Einheit und die ersten zwei Schrittweitenperiodendauern in der rechten Einheit beurteilt werden, um den kleinsten dieser vier Werte festzustellen. Die Breite des Fensters wird - für die Verwendung auf beiden Seiten der Verknüpfung - auf das Zweifache dieses Wertes gesetzt.
- 2. Die Quell-Abtastwerte für die Fensterperiode, die auf die vorletzte Schrittweitenmarkierung der linken Einheit oder die zweite Schrittweitenmarkierung der rechten Einheit zentriert sind, werden extrahiert und mit der Hanning-Fensterfunktion multipliziert, wie in Fig. 4 veranschaulicht ist. Die verschobenen Versionen an Positionen, die mit den Schrittweitenmarkierungen des anderen Phonems synchron sind, werden hinzugefügt, um die synthetisierte Erweiterung der Signalform zu erzeugen. Dies ist in Fig. 5 veranschaulicht. Die letzte Schrittweitenperiodendauer der linken Einheit wird mit der Hälfte der Fensterfunktion multipliziert und dann verschoben, wobei die Fenstersegmente überlappend an der letzten ursprünglichen Position der Schrittweitenmarkierung und an aufeinanderfolgenden Positionen der Schrittweitenmarkierungen der rechten Einheit hinzugefügt werden. Ein ähnlicher Prozeß findet für die rechte Einheit statt.
- 3. Die resultierenden überlappenden Phoneme werden dann verschmolzen; jedes wird mit einem halben Hanning- Fenster multipliziert, dessen Länge gleich der Gesamtlänge der zwei synthetisierten Abschnitte ist, wie in Fig. 6 dargestellt ist, wobei die zwei addiert werden (wobei die letzte Schrittweitenmarkierung der linken Einheit auf die erste Schrittweitenmarkierung der rechten Einheit ausgerichtet ist); die resultierende Signalform sollte dann einen glatten Übergang von der Signalform des linken Phonems zur Signalform des rechten Phonems zeigen, wie in Fig. 7 veranschaulicht ist.
- 4. Die Anzahl der Schrittweitenperiodendauern der Überlappung für den Synthese- und Verschmelzungsprozeß wird wie folgt bestimmt. Die Überlappung erstreckt sich in die Zeit des anderen Phonems, bis eine der folgenden Bedingungen auftritt:
- (a) die Grenze des Phonems wird erreicht;
- (b) die Schrittweitenperiodendauer überschreitet ein definiertes Maximum;
- (c) die Überlappung erreicht ein definiertes Maximum (z. B. 5 Schrittweitenperiodendauern).
- Falls jedoch die Bedingung (a) dazu führen würde, daß die Anzahl der Schrittweitenperiodendauern unter ein definiertes Minimum fällt (z. B. 3), kann sie gelockert werden, um eine zusätzliche Schrittweitenperiodendauer zu erlauben.
- Im Schritt 20 wird eine stimmlose Verknüpfung ausgeführt, indem einfach die zwei Einheiten vorübergehend verschoben werden, um einer Überlappung zu erzeugen, und indem eine gewichtete Hanning-Überlappungsaddition verwendet wird, wie im Schritt 21 und in Fig. 8 gezeigt ist. Die gewählte Dauer der Überlappung ist, falls eines der Phoneme stimmhaft ist, die Dauer der stimmhaften Schrittweitenperiodendauer bei der Verknüpfung, oder, falls beide stimmlos sind, ein fester Wert [typischerweise 5 ms]. Die Überlappung (für das Aneinanderstoßen) sollte jedoch nicht die Hälfte der Länge des kürzeren der zwei Phonemen überschreiten. Sie sollte nicht die Hälfte der verbleibenden Länge überschreiten, falls sie für die Verschmelzung abgeschnitten worden sind. Die Schrittweitenmarkierungen im Überlappungsbereich werden verworfen. Für eine Verknüpfung vom Typ des Aneinanderstoßens wird die Grenze zwischen den zwei Phonemen für den Zweck der späteren Verarbeitung berücksichtigt, so daß sie am Mittelpunkt des Überlappungsbereichs liegt.
- Selbstverständlich verkürzt dieses Verfahren des Verschiebens, um die Überlappung zu erzeugen, die Dauer der Sprache. Im Falle der Verknüpfung durch Verschmelzung kann dies durch das "Abschneiden" vermieden werden, wenn die Abtastwerte nicht am Mittelpunkt, sondern ein wenig nach einer Seite verworfen werden, so daß sich, wenn die (ursprünglichen) Mittelpunkte der Phoneme aufeinander ausgerichtet sind, eine Überlappung ergibt.
- Das beschriebene Verfahren erzeugt gute Ergebnisse; der Phasenabgleich zwischen den Schrittweitenmarkierungen und den gespeicherten Sprachsignalformen kann sich jedoch - abhängig davon, wie die ersteren erzeugt wurden - verändern. Obwohl die Schrittweitenmarkierungen an der Verknüpfung synchronisiert sind, garantiert dies nicht eine kontinuierliche Signalform über die Verknüpfung. Folglich ist es bevorzugt, daß die Abtastwerte der rechten Einheit (falls notwendig) bezüglich ihrer Schrittweitenmarkierungen um einen Betrag verschoben werden, der so gewählt ist, um die Kreuzkorrelation zwischen den zwei Einheiten im Überlappungsbereich zu maximieren. Dies kann durch die Berechnung der Kreuzkorrelation zwischen den zwei Signalformen im Überlappungsbereich mit verschiedenen Probeverschiebungen ausgeführt werden (z. B. ±3 ms in Schritten von 125 us). Sobald dies ausgeführt ist, sollte die Synthese für die Erweiterung der rechten Einheit wiederholt werden.
- Nach der Verknüpfung kann eine Einstellung der Gesamtschrittweite in herkömmlicher Weise ausgeführt werden, wie in Fig. 1 bei 6 gezeigt ist.
- Die Verknüpfungseinheit 5 kann in der Praxis durch eine digitale Verarbeitungseinheit und einen Speicher verwirklicht sein, der eine Folge von Programmbefehlen enthält, um die obenbeschriebenen Schritte zu implementieren.
Claims (7)
1. Verfahren zur Sprachsynthese mit den Schritten:
Abrufen einer ersten Abfolge digitaler Proben entsprechend einer
ersten gewünschten Sprachwellenform und ersten
Schrittweitendaten, die Anregungszeitpunkte der Wellenform definieren;
Abrufen einer zweiten Abfolge digitaler Proben entsprechend einer
zweiten gewünschten Sprachwellenform und zweiten
Schrittweitendaten, die Anregungszeitpunkte der zweiten Wellenform definieren;
Bilden eines Überlappungsbereichs durch Synthetisieren einer
Erweiterungsfolge aus zumindest einer Folge, wobei die
Erweiterungsfolge so schrittweitenangepaßt ist, daß sie mit den
Anregungszeitpunkten der jeweils anderen Folge synchron ist;
Bilden, für den Überlappungsbereich, gewichteter Summen der
Proben der ursprünglichen Folge(n) und der Proben der
Erweiterungsfolge(n).
2. Verfahren zur Sprachsynthese mit den Schritten:
Abrufen einer ersten Abfolge digitaler Proben entsprechend einer
ersten gewünschten Sprachwellenform und ersten
Schrittweitendaten, die Anregungszeitpunkte der Wellenform definieren;
Abrufen einer zweiten Abfolge digitaler Proben entsprechend einer
zweiten gewünschten Sprachwellenform und zweiten
Schrittweitendaten, die Anregungszeitpunkte der zweiten Wellenform definieren;
Synthetisieren einer Erweiterungsfolge aus der ersten Folge am
Ende der ersten Folge, wobei die Erweiterungsfolge so
schrittweitenangepaßt ist, daß sie mit den Anregungszeitpunkten der zweiten
Folge synchron ist,
Synthetisieren einer Erweiterungsfolge aus der zweiten Folge am
Anfang der zweiten Folge, wobei die Erweiterungsfolge so
schrittweiteneingestellt ist, daß sie synchron mit den
Anregungszeitpunkten der ersten Folge ist;
wodurch die erste und die zweite Erweiterungsfolge einen
Überlappungsbereich definieren;
Bilden, für den Überlappungsbereich, gewichteter Summen von
Proben der ersten Folge und von Proben der zweiten
Erweiterungsfolge und gewichteter Summen von Proben der zweiten Folge und
von Proben der ersten Erweiterungsfolge.
3. Verfahren nach Anspruch 2, bei dem die ersten Folge an ihrem Ende
einen Bereich hat, der einem bestimmten Schall entspricht, und die
zweite Folge an ihrem Anfang einen Bereich hat, der dem gleichen
Schall entspricht, mit dem vor der Synthese ausgeführten Schritt
des Entfernens von Proben vom Ende des Bereichs der ersten
Wellenform und vom Anfang des Bereichs der zweiten Wellenform.
4. Verfahren nach Anspruch 1, 2 oder 3, bei dem jeder Syntheseschritt
das Extrahieren einer Unterfolge von Proben von der relevanten
Folge aufweist, Multiplizieren der Unterfolge mit einer
Fensterfunktion und wiederholtes Hinzufügen von Verschiebungen entsprechend
den Anregungszeitpunkten der jeweils anderen der ersten und
zweiten Folgen zu den Unterfolgen.
5. Verfahren nach Anspruch 4, bei dem die Fensterfunktion auf den
vorletzten Anregungszeitpunkt der ersten Folge und auf den zweiten
Anregungszeitpunkt der zweiten Folge zentriert ist und eine Breite
hat, die gleich dem Zweifachen des Minimums der ausgewählten
Schrittweitenperiodendauer der ersten und der zweiten Folgen ist,
wobei die Schrittweitendauer als der Zeitraum zwischen
Anregungszeitpunkten definiert ist.
6. Verfahren nach einem der vorherigen Ansprüche mit den Schritten
des Vergleichens über den Überlappungsbereich hinweg und vor der
Bildung der gewichteten Summen der ersten Folge und ihrer
Erweiterung mit der zweiten Folge und ihrer Erweiterung, um einen
Verschiebungswert herzuleiten, der die Korrelation zwischen ihnen
maximiert, Einstellen der zweiten Schrittweitendaten nach Maßgabe
des hergeleiteten Verschiebungsbetrags und Wiederholen der
Synthese der zweiten Erweiterungsfolge.
7. Vorrichtung zur Sprachsynthese mit
einer Einrichtung (1) zum Speichern von Folgen von digitalen
Proben entsprechend Bereichen von Sprachwellenformen und
Schrittweitendaten, die Anregungszeitpunkte der Wellenformen definieren;
einer Steuerungseinrichtung (2), die so steuerbar ist, daß sie von
der Speichereinrichtung (1) Folgen digitaler Proben entsprechend
den gewünschten Bereichen der Sprachwellenformen und
entsprechender Schrittweitendaten, die die Anregungszeitpunkte der
Wellenformen definieren, abruft;
einer Einrichtung (5) zum Verknüpfen der abgerufenen Folgen,
wobei die Verknüpfungseinrichtung dazu ausgelegt ist, im Betrieb
(a) zumindest aus der ersten von zwei abgerufenen Folgen eine
Erweiterungsfolge zu synthetisieren, um die Folge in einen
Überlappungsbereich mit der anderen Folge der beiden zu erweitern, wobei
die Erweiterungsfolge in ihrer Schrittweite so eingestellt ist, daß sie
synchron zu den Anregungszeitpunkten der andere Folge ist, und (b)
für den Überlappungsbereich gewichtete Summen von Proben der
ursprünglichen Folge(n) und von Proben der Erweiterungsfolge(n) zu
bilden.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP95302474 | 1995-04-12 | ||
PCT/GB1996/000817 WO1996032711A1 (en) | 1995-04-12 | 1996-04-03 | Waveform speech synthesis |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69615832D1 DE69615832D1 (de) | 2001-11-15 |
DE69615832T2 true DE69615832T2 (de) | 2002-04-25 |
Family
ID=8221165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69615832T Expired - Lifetime DE69615832T2 (de) | 1995-04-12 | 1996-04-03 | Sprachsynthese mit wellenformen |
Country Status (11)
Country | Link |
---|---|
US (1) | US6067519A (de) |
EP (1) | EP0820626B1 (de) |
JP (1) | JP4112613B2 (de) |
CN (1) | CN1145926C (de) |
AU (1) | AU707489B2 (de) |
CA (1) | CA2189666C (de) |
DE (1) | DE69615832T2 (de) |
HK (1) | HK1008599A1 (de) |
NO (1) | NO974701L (de) |
NZ (1) | NZ304418A (de) |
WO (1) | WO1996032711A1 (de) |
Families Citing this family (130)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE509919C2 (sv) * | 1996-07-03 | 1999-03-22 | Telia Ab | Metod och anordning för syntetisering av tonlösa konsonanter |
EP1000499B1 (de) * | 1997-07-31 | 2008-12-31 | Cisco Technology, Inc. | Erzeugung von sprachnachrichten |
JP3912913B2 (ja) * | 1998-08-31 | 2007-05-09 | キヤノン株式会社 | 音声合成方法及び装置 |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
WO2002023523A2 (en) * | 2000-09-15 | 2002-03-21 | Lernout & Hauspie Speech Products N.V. | Fast waveform synchronization for concatenation and time-scale modification of speech |
JP2003108178A (ja) * | 2001-09-27 | 2003-04-11 | Nec Corp | 音声合成装置及び音声合成用素片作成装置 |
GB2392358A (en) * | 2002-08-02 | 2004-02-25 | Rhetorical Systems Ltd | Method and apparatus for smoothing fundamental frequency discontinuities across synthesized speech segments |
JP4510631B2 (ja) * | 2002-09-17 | 2010-07-28 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声波形の連結を用いる音声合成 |
KR100486734B1 (ko) * | 2003-02-25 | 2005-05-03 | 삼성전자주식회사 | 음성 합성 방법 및 장치 |
US7643990B1 (en) * | 2003-10-23 | 2010-01-05 | Apple Inc. | Global boundary-centric feature extraction and associated discontinuity metrics |
US7409347B1 (en) * | 2003-10-23 | 2008-08-05 | Apple Inc. | Data-driven global boundary optimization |
FR2884031A1 (fr) * | 2005-03-30 | 2006-10-06 | France Telecom | Concatenation de signaux |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US8977584B2 (en) | 2010-01-25 | 2015-03-10 | Newvaluexchange Global Ai Llp | Apparatuses, methods and systems for a digital conversation management platform |
ES2382319B1 (es) * | 2010-02-23 | 2013-04-26 | Universitat Politecnica De Catalunya | Procedimiento para la sintesis de difonemas y/o polifonemas a partir de la estructura frecuencial real de los fonemas constituyentes. |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
JP5782799B2 (ja) * | 2011-04-14 | 2015-09-24 | ヤマハ株式会社 | 音声合成装置 |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
JP6259911B2 (ja) | 2013-06-09 | 2018-01-10 | アップル インコーポレイテッド | デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008964B1 (de) | 2013-06-13 | 2019-09-25 | Apple Inc. | System und verfahren für durch sprachsteuerung ausgelöste notrufe |
AU2014306221B2 (en) | 2013-08-06 | 2017-04-06 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
JP6171711B2 (ja) * | 2013-08-09 | 2017-08-02 | ヤマハ株式会社 | 音声解析装置および音声解析方法 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
WO2020062217A1 (en) * | 2018-09-30 | 2020-04-02 | Microsoft Technology Licensing, Llc | Speech waveform generation |
CN109599090B (zh) * | 2018-10-29 | 2020-10-30 | 创新先进技术有限公司 | 一种语音合成的方法、装置及设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4802224A (en) * | 1985-09-26 | 1989-01-31 | Nippon Telegraph And Telephone Corporation | Reference speech pattern generating method |
US4820059A (en) * | 1985-10-30 | 1989-04-11 | Central Institute For The Deaf | Speech processing apparatus and methods |
FR2636163B1 (fr) * | 1988-09-02 | 1991-07-05 | Hamon Christian | Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde |
US5175769A (en) * | 1991-07-23 | 1992-12-29 | Rolm Systems | Method for time-scale modification of signals |
KR940002854B1 (ko) * | 1991-11-06 | 1994-04-04 | 한국전기통신공사 | 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치 |
US5490234A (en) * | 1993-01-21 | 1996-02-06 | Apple Computer, Inc. | Waveform blending technique for text-to-speech system |
US5787398A (en) * | 1994-03-18 | 1998-07-28 | British Telecommunications Plc | Apparatus for synthesizing speech by varying pitch |
KR19980702608A (ko) * | 1995-03-07 | 1998-08-05 | 에버쉐드마이클 | 음성 합성기 |
-
1996
- 1996-04-03 NZ NZ304418A patent/NZ304418A/en not_active IP Right Cessation
- 1996-04-03 JP JP53079896A patent/JP4112613B2/ja not_active Expired - Fee Related
- 1996-04-03 WO PCT/GB1996/000817 patent/WO1996032711A1/en active IP Right Grant
- 1996-04-03 CA CA002189666A patent/CA2189666C/en not_active Expired - Fee Related
- 1996-04-03 DE DE69615832T patent/DE69615832T2/de not_active Expired - Lifetime
- 1996-04-03 AU AU51596/96A patent/AU707489B2/en not_active Ceased
- 1996-04-03 CN CNB961931620A patent/CN1145926C/zh not_active Expired - Fee Related
- 1996-04-03 EP EP96908288A patent/EP0820626B1/de not_active Expired - Lifetime
- 1996-04-03 US US08/737,206 patent/US6067519A/en not_active Expired - Lifetime
-
1997
- 1997-10-10 NO NO974701A patent/NO974701L/no not_active Application Discontinuation
-
1998
- 1998-07-28 HK HK98109487A patent/HK1008599A1/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
US6067519A (en) | 2000-05-23 |
WO1996032711A1 (en) | 1996-10-17 |
EP0820626B1 (de) | 2001-10-10 |
CA2189666C (en) | 2002-08-20 |
HK1008599A1 (en) | 1999-05-14 |
JPH11503535A (ja) | 1999-03-26 |
EP0820626A1 (de) | 1998-01-28 |
DE69615832D1 (de) | 2001-11-15 |
CN1181149A (zh) | 1998-05-06 |
AU707489B2 (en) | 1999-07-08 |
CN1145926C (zh) | 2004-04-14 |
NO974701D0 (no) | 1997-10-10 |
JP4112613B2 (ja) | 2008-07-02 |
NO974701L (no) | 1997-10-10 |
NZ304418A (en) | 1998-02-26 |
MX9707759A (es) | 1997-11-29 |
AU5159696A (en) | 1996-10-30 |
CA2189666A1 (en) | 1996-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69615832T2 (de) | Sprachsynthese mit wellenformen | |
DE69521955T2 (de) | Verfahren zur Sprachsynthese durch Verkettung und teilweise Überlappung von Wellenformen | |
DE69718284T2 (de) | Sprachsynthesesystem und Wellenform-Datenbank mit verringerter Redundanz | |
DE3244476C2 (de) | ||
DE3878541T2 (de) | Verfahren und einrichtung, um ein markov-modell-referenzmuster von woertern zu erzeugen. | |
DE69228211T2 (de) | Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals | |
DE69227401T2 (de) | Verfahren zum Kodieren und Dekodieren von Sprachsignalen | |
DE69719270T2 (de) | Sprachsynthese unter Verwendung von Hilfsinformationen | |
DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
DE68919637T2 (de) | Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen. | |
DE60004420T2 (de) | Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem | |
DE69631037T2 (de) | Sprachsynthese | |
DE2740520A1 (de) | Verfahren und anordnung zur synthese von sprache | |
DE69720861T2 (de) | Verfahren zur Tonsynthese | |
EP1214703B1 (de) | Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese | |
DE2115258B2 (de) | Verfahren und anordnung zur sprachsynthese aus darstellungen von individuell gesprochenen woertern | |
DE2753707A1 (de) | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache | |
EP0285221A2 (de) | Verfahren zum Erkennen kontinuierlich gesprochener Wörter | |
DE69618408T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE3733659C2 (de) | ||
DE69521622T2 (de) | System und verfahren zur sprachverarbeitung mittels multipuls-analyse | |
DE60308921T2 (de) | Verfahren und Vorrichtung zur Grundfrequenz-Extraktion mittels Interpolation für Sprachkodierung | |
DE69822618T2 (de) | Beseitigung der periodizität in einem gestreckten audio-signal | |
DE68915353T2 (de) | Einrichtung zur Sprachsynthese. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |