DE69615832T2

DE69615832T2 - Sprachsynthese mit wellenformen

Info

Publication number: DE69615832T2
Application number: DE69615832T
Authority: DE
Inventors: Andrew Lowry
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1995-04-12
Filing date: 1996-04-03
Publication date: 2002-04-25
Anticipated expiration: 2016-04-04
Also published as: US6067519A; WO1996032711A1; EP0820626B1; CA2189666C; HK1008599A1; JPH11503535A; EP0820626A1; DE69615832D1; CN1181149A; AU707489B2; CN1145926C; NO974701D0; JP4112613B2; NO974701L; NZ304418A; MX9707759A; AU5159696A; CA2189666A1

Description

Die vorliegende Erfindung bezieht sich auf die Sprachsynthese und betrifft insbesondere die Sprachsynthese, bei der gespeicherte Segmente digitalisierter Signalformen abgerufen und kombiniert werden.
Ein Beispiel eines Sprachsynthesizers, in dem gespeicherte Segmente digitalisierter Signalformen (Wellenformen) abgerufen und kombiniert werden, ist in einem Artikel von Tomohisa Hirokawa u. a. mit dem Titel "High Quality Speech Synthesis System Based on Waveform Concatenation of Phoneme Segment" in den IEICE Transactions on Fundaments of Electronics, Communications and Computer Sciences, 76a (1993), November, Nr. 11, Tokio, Japan, beschrieben.
Gemäß der vorliegenden Erfindung wird ein Verfahren zur Sprachsynthese mit den Schritten geschaffen:
Abrufen einer ersten Abfolge digitaler Proben entsprechend einer ersten gewünschten Sprachwellenform und ersten Schrittweitendaten, die Anregungszeitpunkte der Wellenform definieren;
Abrufen einer zweiten Abfolge digitaler Proben entsprechend einer zweiten gewünschten Sprachwellenform und zweiten Schrittweitendaten, die Anregungszeitpunkte der zweiten Wellenform definieren;
Bilden eines Überlappungsbereichs durch Synthetisieren einer Erweiterungsfolge aus zumindest einer Folge, wobei die Erweiterungsfolge so schrittweitenangepaßt ist, daß sie mit den Anregungszeitpunkten der jeweils anderen Folge synchron ist;
Bilden, für den Überlappungsbereich, gewichteter Summen der Proben der ursprünglichen Folge(n) und der Proben der Erweiterungsfolge(n).
Gemäß einem weiteren Aspekt der Erfindung wird eine Vorrichtung zur Sprachsynthese geschaffen, die umfaßt:
eine Einrichtung zum Speichern von Folgen von digitalen Proben entsprechend Bereichen von Sprachwellenformen und Schrittweitendaten, die Anregungszeitpunkte der Wellenformen definieren;
einer Steuerungseinrichtung, die so steuerbar ist, daß sie von der Speichereinrichtung 1 Folgen digitaler Proben entsprechend den gewünschten Bereichen der Sprachwellenformen und entsprechender Schrittweitendaten, die die Anregungszeitpunkte der Wellenformen definieren, abruft;
einer Einrichtung zum Verknüpfen der abgerufenen Folgen, wobei die Verknüpfungseinrichtung dazu ausgelegt ist, im Betrieb (a) zumindest aus der ersten von zwei abgerufenen Folgen eine Erweiterungsfolge zu synthetisieren, um die Folge in einen Überlappungsbereich mit der anderen Folge der beiden zu erweitern, wobei die Erweiterungsfolge in ihrer Schrittweite so eingestellt ist, daß sie synchron zu den Anregungszeitpunkten der anderen Folge ist, und (b) für den Überlappungsbereich gewichtete Summen von Proben der ursprünglichen Folge(n) und von Proben der Erweiterungsfolge(n) zu bilden.
Weitere Aspekte der Erfindung sind in den Unteransprüchen definiert.
Einige Ausführungsformen der Erfindung werden nun beispielhaft unter Bezugnahme auf die beigefügte Zeichnung beschrieben, worin:
Fig. 1 ein Blockschaltplan einer Form des Sprachsynthesizers gemäß der Erfindung ist;
Fig. 2 ein Ablaufplan ist, der den Betrieb der Verknüpfungseinheit 5 der Vorrichtung nach Fig. 1 veranschaulicht; und
die Fig. 3 bis 9 Signalformendarstellungen sind, die den Betrieb der Verknüpfungseinheit 5 veranschaulichen.
Im Sprachsynthesizer nach Fig. 1 enthält ein Speicher 1 aus einer digitalisierten Passage der Sprache erzeugte Abschnitte der Sprachsignalform, die ursprünglich von einem menschlichen Sprecher aufgezeichnet wurde, der eine Passage (aus etwa 200 Sätzen) gelesen hat, die so ausgewählte wurde, daß sie alle möglichen verschiedenen Laute (oder wenigstens eine breite Auswahl verschiedener Laute) enthält. Folglich umfaßt jeder Eintrag im Signalformspeicher 1 digitale Abtastwerte eines Bereichs der Sprache, der einem Phonem oder mehreren Phonemen entspricht, wobei er Markierungsinformationen aufweist, die die Grenzen zwischen den Phonemen anzeigen. Begleitend zu jedem Abschnitt sind Daten gespeichert, die die "Schrittweitenmarkierungen" definieren, die die Punkte der Kehlkopfverschlußlaute im Signal anzeigen und die während der ursprünglichen Aufzeichnung in herkömmlicher Weise erzeugt wurden.
Ein Eingangssignal, das die zu synthetisierende Sprache in Form einer phonetischen Darstellung darstellt, wird in einen Eingang 2 eingespeist. Es kann erwünscht sein, daß diese Eingabe aus einer Texteingabe durch eine (nicht gezeigte) herkömmliche Einrichtung erzeugt wird. Diese Eingabe wird in einer bekannten Weise durch eine Auswahleinheit 3 verarbeitet, die für jede Einheit der Eingabe die Adressen im Speicher 1 eines gespeicherten Signalformabschnitts bestimmt, der dem durch die Einheit dargestellten Klang entspricht. Die Einheit kann, wie oben erwähnt ist, eine Phonem-, Diphon-, Triphon- oder eine andere Subwort-Einheit sein, wobei sich im allgemeinen die Länge einer Einheit entsprechend der Verfügbarkeit im Signalformspeicher eines entsprechenden Signalformabschnitts verändern kann. Wo es möglich ist, ist es bevorzugt, eine Einheit auszuwählen, die eine vorhergehende Einheit um ein Phonemen überlappt. Techniken, um dieses zu erreichen, sind in der ebenfalls anhängigen internationalen Patentanmeldung des gleichen Anmelders Nr. PCT/GB/9401688 und in der US- Patentanmeldung Nr. 166.988 vom 16. Dezember 1993 beschrieben.
Sobald die Einheiten ausgelesen sind, werden sie jede einzelne einem Amplitudennormierungsprozeß in einer Amplitudeneinstelleinheit 4 unterworfen, deren Betrieb in der ebenfalls anhängigen europäischen Patentanmeldung des gleichen Anmelders Nr. 95301478.4 beschrieben ist.
Die Einheiten sind dann bei 5 miteinander zu verbinden. In Fig. 2 ist ein Ablaufplan für den Betrieb dieser Vorrichtung gezeigt. In dieser Beschreibung sind eine Einheit und die Einheit, die ihr folgt, als die linke Einheit bzw. die rechte Einheit bezeichnet. Wo sich die Einheiten überlappen - d. h. wenn das letzte Phonem der linken Einheit und das erste Phonem der rechten Einheit denselben Laut darstellen und in der endgültigen Ausgabe lediglich ein einzelnes Phonem darstellen - ist es notwendig, vor der Ausführung einer Verknüpfung vom Typ einer "Verschmelzung" die redundanten Informationen zu verwerfen; ansonsten ist eine Verknüpfung vom Typ des "Aneinanderstoßens" geeignet.
Im Schritt 10 nach Fig. 2 werden die Einheiten empfangen, wobei entsprechend des Typs der Verschmelzung (Schritt 11) die Kürzung notwendig oder nicht notwendig ist. Im Schritt 12 werden die entsprechenden Schrittweitenanordnungen gekürzt; in der Anordnung, die der linken Einheit entspricht, wird die Anordnung nach der ersten Schrittweitenmarkierung rechts vom Mittelpunkt des letzten Phonems abgeschnitten, so daß alle außer einer der Schrittweitenmarkierungen nach dem Mittelpunkt gelöscht werden, während in der Anordnung für die rechte Einheit die Anordnung vor der letzten Schrittweitenmarkierung links vom Mittelpunkt des ersten Phonems abgeschnitten wird, so daß alle außer einer der Schrittweitenmarkierungen vor dem Mittelpunkt gelöscht werden. Dies ist in Fig. 2 veranschaulicht.
Bevor weiter fortgefahren wird, müssen die Phoneme auf jeder Seite der Verknüpfung anhand dem Vorhandensein und der Position der Schrittweitenmarkierungen in jedem Phonem als stimmhaft oder stimmlos klassifiziert werden. Es wird angemerkt, daß dieses nach der "Schrittweiten-Abschnitts"-Stufe stattfindet (im Schritt 13), so daß die Entscheidung der Stimmhaftigkeit den Status jedes Phonems nach der möglichen Entfernung einiger Schrittweitenmarkierungen widerspiegelt. Ein Phonem wird als stimmhaft klassifiziert, falls:
1. der entsprechende Teil einer Schrittweitenanordnung zwei oder mehr Schrittweitenmarkierungen enthält; und
2. der Zeitunterschied zwischen den zwei Schrittweitenmarkierungen, die sich am nächsten zur Verknüpfung befinden, kleiner als ein Schwellenwert ist; und
3a. für eine Verknüpfung des Typs einer Verschmelzung der Zeitunterschied zwischen der Schrittweitenmarkierung am nächsten zur Verknüpfung und dem Mittelpunkt des Phonems kleiner als ein Schwellenwert ist;
3b. für eine Verknüpfung des Typs des Aneinanderstoßens der Zeitunterschied zwischen der Schrittweitenmarkierung am nächsten zur Verknüpfung und dem Ende der linken Einheit (oder dem Anfang der rechten Einheit) kleiner als ein Schwellenwert ist.
Ansonsten wird es als stimmlos klassifiziert.
Die Regeln 3a und 3b sind aufgestellt, um übermäßige Verluste der Sprach-Abtastwerte (Sprachproben) in der nächsten Stufe zu verhindern.
In dem Fall einer Verknüpfung des Typs einer Verschmelzung (Schritt 14) werden aus den stimmhaften Phonemen Sprach- Abtastwerte wie folgt verworfen (Schritt 15):
Linke Einheit, letztes Phonem - verwerfe alle Abtastwerte, die der letzten Schrittweitenmarkierung folgen;
Rechte Einheit, erstes Phonem - verwerfe alle Abtastwerte vor der ersten Schrittweitenmarkierung;
während sie von den stimmlosen Phonemen verworfen werden, indem alle Abtastwerte rechts oder links vom Mittelpunkt des Phonems (für linke bzw. rechte Einheiten) verworfen werden.
Im Fall einer Verknüpfung des Typs des Aneinanderstoßens (Schritt 16, 15) besitzen die stimmlosen Phoneme keine Abtastwerte, die entfernt werden, während die stimmhaften Phoneme normalerweise in der gleichen Weise wie für den Fall der Verschmelzung behandelt werden, obwohl weniger Abtastwerte verloren werden, da keine Schrittweitenmarkierungen gelöscht worden sein werden. In dem Fall, daß dies einen Verlust einer übermäßigen Anzahl von Abtastwerten (z. B. mehr als 20 ms) verursachen würde, werden keine Abtastwerte entfernt, wobei das Phonem markiert wird, um in der weiteren Verarbeitung als stimmlos behandelt werden.
Die Entfernung der Abtastwerte aus stimmhaften Phonemen ist in Fig. 3 veranschaulicht. Die Positionen der Schrittweitenmarkierungen sind durch Pfeile dargestellt. Es wird angemerkt, daß dies Signalformen lediglich zur Veranschaulichung gezeigt sind, wobei sie für echte Sprachsignalformen nicht typisch sind.
Die Prozedur, die für die Verknüpfung von zwei Phonemen zu verwenden ist, ist ein Überlappungsprozeß. Entsprechend (Schritt 17) ob beide Phoneme stimmhaft sind (eine stimmhafte Verknüpfung) oder ob ein Phonem oder beide Phoneme stimmlos sind (eine stimmlose Verknüpfung), wird jedoch eine verschiedene Prozedur verwendet.
Die stimmhafte Verknüpfung (Schritt 18) wird zuerst beschrieben. Dies erfordert die folgenden grundlegenden Schritte: die Synthese einer Erweiterung der Phoneme, indem Bereiche aus seiner bestehenden Signalform kopiert werden, aber mit einer Schrittweitenperiodendauer, die dem anderen Phonem entspricht, mit dem es zu verknüpfen ist. Dies erzeugt einen Überlappungsbereich mit jedoch übereinstimmenden Schrittweitenmarkierungen (oder es erzeugt im Falle der Verknüpfung vom Typ einer Verschmelzung erneut einen Überlappungsbereich mit jedoch übereinstimmenden Schrittweitenmarkierungen). Die Abtastwerte werden dann einer gewichteten Addition unterworfen (Schritt 19), um einen glatten Übergang über die Verknüpfung zu erzeugen. Die Überlagerung kann durch die Erweiterung des linken Phonems oder des rechten Phonems erzeugt werden, das bevorzugte Verfahren besteht aber darin, sowohl das linke als auch das rechte Phonem zu erweitern, wie im folgenden beschrieben ist. Ausführlicher:
1. Es wird ein Segment der bestehenden Signalform unter Verwendung eines Hanning-Fensters für die Synthese ausgewählt. Die Länge des Fensters wird gewählt, indem die letzten zwei Schrittweitenperiodendauern in der linken Einheit und die ersten zwei Schrittweitenperiodendauern in der rechten Einheit beurteilt werden, um den kleinsten dieser vier Werte festzustellen. Die Breite des Fensters wird - für die Verwendung auf beiden Seiten der Verknüpfung - auf das Zweifache dieses Wertes gesetzt.
2. Die Quell-Abtastwerte für die Fensterperiode, die auf die vorletzte Schrittweitenmarkierung der linken Einheit oder die zweite Schrittweitenmarkierung der rechten Einheit zentriert sind, werden extrahiert und mit der Hanning-Fensterfunktion multipliziert, wie in Fig. 4 veranschaulicht ist. Die verschobenen Versionen an Positionen, die mit den Schrittweitenmarkierungen des anderen Phonems synchron sind, werden hinzugefügt, um die synthetisierte Erweiterung der Signalform zu erzeugen. Dies ist in Fig. 5 veranschaulicht. Die letzte Schrittweitenperiodendauer der linken Einheit wird mit der Hälfte der Fensterfunktion multipliziert und dann verschoben, wobei die Fenstersegmente überlappend an der letzten ursprünglichen Position der Schrittweitenmarkierung und an aufeinanderfolgenden Positionen der Schrittweitenmarkierungen der rechten Einheit hinzugefügt werden. Ein ähnlicher Prozeß findet für die rechte Einheit statt.
3. Die resultierenden überlappenden Phoneme werden dann verschmolzen; jedes wird mit einem halben Hanning- Fenster multipliziert, dessen Länge gleich der Gesamtlänge der zwei synthetisierten Abschnitte ist, wie in Fig. 6 dargestellt ist, wobei die zwei addiert werden (wobei die letzte Schrittweitenmarkierung der linken Einheit auf die erste Schrittweitenmarkierung der rechten Einheit ausgerichtet ist); die resultierende Signalform sollte dann einen glatten Übergang von der Signalform des linken Phonems zur Signalform des rechten Phonems zeigen, wie in Fig. 7 veranschaulicht ist.
4. Die Anzahl der Schrittweitenperiodendauern der Überlappung für den Synthese- und Verschmelzungsprozeß wird wie folgt bestimmt. Die Überlappung erstreckt sich in die Zeit des anderen Phonems, bis eine der folgenden Bedingungen auftritt:
(a) die Grenze des Phonems wird erreicht;
(b) die Schrittweitenperiodendauer überschreitet ein definiertes Maximum;
(c) die Überlappung erreicht ein definiertes Maximum (z. B. 5 Schrittweitenperiodendauern).
Falls jedoch die Bedingung (a) dazu führen würde, daß die Anzahl der Schrittweitenperiodendauern unter ein definiertes Minimum fällt (z. B. 3), kann sie gelockert werden, um eine zusätzliche Schrittweitenperiodendauer zu erlauben.
Im Schritt 20 wird eine stimmlose Verknüpfung ausgeführt, indem einfach die zwei Einheiten vorübergehend verschoben werden, um einer Überlappung zu erzeugen, und indem eine gewichtete Hanning-Überlappungsaddition verwendet wird, wie im Schritt 21 und in Fig. 8 gezeigt ist. Die gewählte Dauer der Überlappung ist, falls eines der Phoneme stimmhaft ist, die Dauer der stimmhaften Schrittweitenperiodendauer bei der Verknüpfung, oder, falls beide stimmlos sind, ein fester Wert [typischerweise 5 ms]. Die Überlappung (für das Aneinanderstoßen) sollte jedoch nicht die Hälfte der Länge des kürzeren der zwei Phonemen überschreiten. Sie sollte nicht die Hälfte der verbleibenden Länge überschreiten, falls sie für die Verschmelzung abgeschnitten worden sind. Die Schrittweitenmarkierungen im Überlappungsbereich werden verworfen. Für eine Verknüpfung vom Typ des Aneinanderstoßens wird die Grenze zwischen den zwei Phonemen für den Zweck der späteren Verarbeitung berücksichtigt, so daß sie am Mittelpunkt des Überlappungsbereichs liegt.
Selbstverständlich verkürzt dieses Verfahren des Verschiebens, um die Überlappung zu erzeugen, die Dauer der Sprache. Im Falle der Verknüpfung durch Verschmelzung kann dies durch das "Abschneiden" vermieden werden, wenn die Abtastwerte nicht am Mittelpunkt, sondern ein wenig nach einer Seite verworfen werden, so daß sich, wenn die (ursprünglichen) Mittelpunkte der Phoneme aufeinander ausgerichtet sind, eine Überlappung ergibt.
Das beschriebene Verfahren erzeugt gute Ergebnisse; der Phasenabgleich zwischen den Schrittweitenmarkierungen und den gespeicherten Sprachsignalformen kann sich jedoch - abhängig davon, wie die ersteren erzeugt wurden - verändern. Obwohl die Schrittweitenmarkierungen an der Verknüpfung synchronisiert sind, garantiert dies nicht eine kontinuierliche Signalform über die Verknüpfung. Folglich ist es bevorzugt, daß die Abtastwerte der rechten Einheit (falls notwendig) bezüglich ihrer Schrittweitenmarkierungen um einen Betrag verschoben werden, der so gewählt ist, um die Kreuzkorrelation zwischen den zwei Einheiten im Überlappungsbereich zu maximieren. Dies kann durch die Berechnung der Kreuzkorrelation zwischen den zwei Signalformen im Überlappungsbereich mit verschiedenen Probeverschiebungen ausgeführt werden (z. B. ±3 ms in Schritten von 125 us). Sobald dies ausgeführt ist, sollte die Synthese für die Erweiterung der rechten Einheit wiederholt werden.
Nach der Verknüpfung kann eine Einstellung der Gesamtschrittweite in herkömmlicher Weise ausgeführt werden, wie in Fig. 1 bei 6 gezeigt ist.
Die Verknüpfungseinheit 5 kann in der Praxis durch eine digitale Verarbeitungseinheit und einen Speicher verwirklicht sein, der eine Folge von Programmbefehlen enthält, um die obenbeschriebenen Schritte zu implementieren.

Claims

1. Verfahren zur Sprachsynthese mit den Schritten:

Abrufen einer ersten Abfolge digitaler Proben entsprechend einer ersten gewünschten Sprachwellenform und ersten Schrittweitendaten, die Anregungszeitpunkte der Wellenform definieren;

Abrufen einer zweiten Abfolge digitaler Proben entsprechend einer zweiten gewünschten Sprachwellenform und zweiten Schrittweitendaten, die Anregungszeitpunkte der zweiten Wellenform definieren;

Bilden eines Überlappungsbereichs durch Synthetisieren einer Erweiterungsfolge aus zumindest einer Folge, wobei die Erweiterungsfolge so schrittweitenangepaßt ist, daß sie mit den Anregungszeitpunkten der jeweils anderen Folge synchron ist;

Bilden, für den Überlappungsbereich, gewichteter Summen der Proben der ursprünglichen Folge(n) und der Proben der Erweiterungsfolge(n).

2. Verfahren zur Sprachsynthese mit den Schritten:

Synthetisieren einer Erweiterungsfolge aus der ersten Folge am Ende der ersten Folge, wobei die Erweiterungsfolge so schrittweitenangepaßt ist, daß sie mit den Anregungszeitpunkten der zweiten Folge synchron ist,

Synthetisieren einer Erweiterungsfolge aus der zweiten Folge am Anfang der zweiten Folge, wobei die Erweiterungsfolge so schrittweiteneingestellt ist, daß sie synchron mit den Anregungszeitpunkten der ersten Folge ist;

wodurch die erste und die zweite Erweiterungsfolge einen Überlappungsbereich definieren;

Bilden, für den Überlappungsbereich, gewichteter Summen von Proben der ersten Folge und von Proben der zweiten Erweiterungsfolge und gewichteter Summen von Proben der zweiten Folge und von Proben der ersten Erweiterungsfolge.

3. Verfahren nach Anspruch 2, bei dem die ersten Folge an ihrem Ende einen Bereich hat, der einem bestimmten Schall entspricht, und die zweite Folge an ihrem Anfang einen Bereich hat, der dem gleichen Schall entspricht, mit dem vor der Synthese ausgeführten Schritt des Entfernens von Proben vom Ende des Bereichs der ersten Wellenform und vom Anfang des Bereichs der zweiten Wellenform.

4. Verfahren nach Anspruch 1, 2 oder 3, bei dem jeder Syntheseschritt das Extrahieren einer Unterfolge von Proben von der relevanten Folge aufweist, Multiplizieren der Unterfolge mit einer Fensterfunktion und wiederholtes Hinzufügen von Verschiebungen entsprechend den Anregungszeitpunkten der jeweils anderen der ersten und zweiten Folgen zu den Unterfolgen.

5. Verfahren nach Anspruch 4, bei dem die Fensterfunktion auf den vorletzten Anregungszeitpunkt der ersten Folge und auf den zweiten Anregungszeitpunkt der zweiten Folge zentriert ist und eine Breite hat, die gleich dem Zweifachen des Minimums der ausgewählten Schrittweitenperiodendauer der ersten und der zweiten Folgen ist, wobei die Schrittweitendauer als der Zeitraum zwischen Anregungszeitpunkten definiert ist.

6. Verfahren nach einem der vorherigen Ansprüche mit den Schritten des Vergleichens über den Überlappungsbereich hinweg und vor der Bildung der gewichteten Summen der ersten Folge und ihrer Erweiterung mit der zweiten Folge und ihrer Erweiterung, um einen Verschiebungswert herzuleiten, der die Korrelation zwischen ihnen maximiert, Einstellen der zweiten Schrittweitendaten nach Maßgabe des hergeleiteten Verschiebungsbetrags und Wiederholen der Synthese der zweiten Erweiterungsfolge.

7. Vorrichtung zur Sprachsynthese mit

einer Einrichtung (1) zum Speichern von Folgen von digitalen Proben entsprechend Bereichen von Sprachwellenformen und Schrittweitendaten, die Anregungszeitpunkte der Wellenformen definieren;

einer Steuerungseinrichtung (2), die so steuerbar ist, daß sie von der Speichereinrichtung (1) Folgen digitaler Proben entsprechend den gewünschten Bereichen der Sprachwellenformen und entsprechender Schrittweitendaten, die die Anregungszeitpunkte der Wellenformen definieren, abruft;

einer Einrichtung (5) zum Verknüpfen der abgerufenen Folgen, wobei die Verknüpfungseinrichtung dazu ausgelegt ist, im Betrieb (a) zumindest aus der ersten von zwei abgerufenen Folgen eine Erweiterungsfolge zu synthetisieren, um die Folge in einen Überlappungsbereich mit der anderen Folge der beiden zu erweitern, wobei die Erweiterungsfolge in ihrer Schrittweite so eingestellt ist, daß sie synchron zu den Anregungszeitpunkten der andere Folge ist, und (b) für den Überlappungsbereich gewichtete Summen von Proben der ursprünglichen Folge(n) und von Proben der Erweiterungsfolge(n) zu bilden.