DE10033104C2 - Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese - Google Patents
Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die SprachsyntheseInfo
- Publication number
- DE10033104C2 DE10033104C2 DE10033104A DE10033104A DE10033104C2 DE 10033104 C2 DE10033104 C2 DE 10033104C2 DE 10033104 A DE10033104 A DE 10033104A DE 10033104 A DE10033104 A DE 10033104A DE 10033104 C2 DE10033104 C2 DE 10033104C2
- Authority
- DE
- Germany
- Prior art keywords
- phonemes
- phone
- duration
- clusters
- primary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Description
Die vorliegende Erfindung betrifft ein Verfahren zum Erzeugen
einer Statistik von Phondauern und ein Verfahren zum Ermit
teln der Dauer einzelner Phone für die Sprachsynthese.
Im Sinne der vorliegenden Anmeldung ist ein Phonem die
kleinste bedeutungsunterscheidende, aber nicht selbstbedeu
tungstragende sprachliche Einheit (z. B. b in Bein im Unter
schied zu p in Pein). Ein Phon ist hingegen der ausgesproche
ne Laut eines Phonems.
Verfahren zum Erzeugen einer Statistik von Phondauern, wobei
auf Grundlage dieser Statistik bei der synthetischen Sprach
erzeugung die Phondauern gesteuert werden können, sind be
kannt. Bei derartigen Verfahren wird ein von einem Sprecher
gesprochener Text aufgezeichnet und der aufgezeichnete Text
in einzelne Phone segmentiert. Von den einzelnen Phonen wird
die Lautlänge bestimmt. Diese Phondauer wird in einer Statis
tik erfasst, wobei die Statistik eine Liste von Triphonen
aufweist. Ein Triphon ist ein Kluster von einem oder mehreren
Phonemen mit dem jeweiligen rechten und linken Kontext.
Bei den bekannten Verfahren wird jeweils einem Phonem der
Triphone in ihrem links-rechts Kontext eine mittlere Phonlän
ge bzw. Lautdauer zugeordnet. Diese Phondauer wird aus allen
Phonen des gesprochenen Textes ermittelt, die im gleichen
Kontext im gesprochenen Text wie in dem jeweiligen Triphon
vorkommen, das heißt deren benachbarte Phone korrespondieren
zu den benachbarten Phonemen im Triphon.
Bei den bekannten Verfahren zum Ermitteln der Dauer einzelner
Phone für die Sprachsynthese werden den Phonemen des zu synthetisierenden
Textes die jeweils mittlere Lautdauer des Pho
nems der Statistik zugeordnet, dessen Kontext im Triphon dem
Kontext des Phonems im zu synthetisierenden Textes ent
spricht. Ist z. B. die Phondauer des Phonems "b" des Wortes
"aber" zu Ermitteln, so wird bei dem bekannten Verfahren dem
Phonem "b" diejenige Phondauer zugeordnet, die in der Statis
tik dem Phonem "b" im Triphon "abe" zugeordnet ist. Die Kon
texte des Triphons und im zu synthetisierenden Text sind hier
jeweils identisch.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zum
Erzeugen einer Statistik von Phondauern, wobei auf Grundlage
dieser Statistik bei der synthetischen Spracherzeugung die
Phondauern gesteuert werden können, und ein Verfahren zum Er
mitteln der Dauer einzelner Phone für die Sprachsynthese zu
schaffen, wodurch eine Sprachsynthese mit natürlicherer Aus
sprache als bei bekannten Verfahren erzielt werden soll.
Aus DE 694 20 547 T2 ist eine Sprachsynthese bekannt, bei der
die Phondauer eine Rolle spielt.
Die Aufgabe wird mit einem Verfahren zum Erzeugen einer Sta
tistik von Phondauern mit den Merkmalen des Anspruchs 1 und
durch ein Verfahren zum Ermitteln der Dauer einzelner Phone
mit den Merkmalen des Anspruchs 11 gelöst. Vorteilhafte Aus
gestaltungen der Erfindung sind in den Unteransprüchen ange
geben.
Das erfindungsgemäße Verfahren zum Erzeugen einer Statistik
von Phondauern auf Grundlage derer bei der synthetischen
Spracherzeugung die Phondauern gesteuert werden können, um
fasst folgende Schritte:
- - Zuordnen von Phonen eines in Phone segmentierten gesproche nen und aufgezeichneten Textes zu Phonemen von vorbestimm ten Primärklustern, die aus mehreren Phonemen zusammenge setzt sind, wobei jeweils ein Phon einem Phonem eines Primärklusters zugeordnet wird, wenn es im gesprochenen Text zu einem im Kontext des Phonems des Primärklusters identi schen oder ähnlichen Kontext auftritt,
- - Erstellen einer Primärstatistik, die zumindest die mittlere Phondauer aller Phone, die dem jeweiligen Phonem eines Pri märklusters zugeordnet sind, umfasst,
- - Zuordnen von Phonen des gesprochenen und aufgezeichneten Textes zu Phonemen zu vorbestimmten Sekundärklustern, die aus Phonemen zusammengesetzt sind, wobei zumindest die An zahl Phoneme einiger Sekundärkluster sich von der Anzahl der Phoneme der Primärkluster unterscheidet, wobei jeweils ein Phon einem Phonem eines Sekundärklusters zugeordnet wird, wenn es im gesprochenen Text zu einem im Kontext des Phonems des Sekundärklusters identischen Kontext auftritt,
- - Erstellen einer Sekundärstatistik, die zumindest die mitt lere Phondauer aller Phone, die dem jeweiligen Phonem eines Sekundärklusters zugeordnet sind, umfasst.
Die durch das erfindungsgemäße Verfahren erzeugte Statistik
besteht somit aus einer Primärstatistik und einer Sekundär
statistik. Die Primärstatistik kann auf Primärkluster mit
z. B. jeweils drei Phonemen beruhen, so dass sie der eingangs
erläuterten Statistik auf Basis von Triphonen entspricht. Die
Sekundärstatistik ist eine weitere Statistik auf Basis von
Sekundärklustern, die sich in der Anzahl der Phoneme zumin
dest teilweise von der Anzahl der Phoneme der Primärkluster
unterscheiden. Hierdurch wird eine sprachspezifischere Sta
tistik zur Phondauer erzielt.
So können z. B. die Primärkluster drei Phoneme und die Sekun
därkluster vier Phoneme umfassen, wodurch ein größerer Kon
text (vier Phoneme gegenüber drei Phonemen) bei der Ermitt
lung der mittleren Phondauern berücksichtigt wird, so dass da
durch eine wesentlich sprachspezifischere Auswertung erzielt
wird.
Nach einer bevorzugten Ausführungsform der Erfindung besitzen
die Primärkluster eine konstante Anzahl Phoneme, wohingegen
die Anzahl der Phoneme der Sekundärkluster variabel ist. So
können z. B. die Primärkluster jeweils drei Phoneme und die
Sekundärkluster jeweils alle Phoneme eines Wortes umfassen.
Mit Hilfe dieser Sekundärkluster wird dann eine wortspezifi
sche Auswertung der Phondauern erzielt, die wesentlich präzi
ser ist, als die auf Grundlage der Triphone.
Nach einer bevorzugten Ausführungsform der Erfindung werden
in der Sekundärstatistik nur Sekundärkluster erfasst, deren
Häufigkeit im Text größer oder gleich einer vorbestimmten
Mindesthäufigkeit ist. Hierdurch wird sichergestellt, dass in
der Statistik nicht signifikante Häufigkeiten nicht berück
sichtigt werden. So ist es zweckmäßig, Wörter, die in dem
Text, auf dem die Statistik beruht, lediglich einmal oder
zweimal vorkommen, nicht zu berücksichtigen.
Das erfindungsgemäße Verfahren zum Ermitteln der Dauer ein
zelner Phone für die Sprachsynthese beruht auf einer derarti
gen eine Primärstatistik und eine Sekundärstatistik umfassen
den Statistik von Phondauern. Dieses Verfahren umfasst fol
gende Schritte:
- - Bestimmen, ob das in Sprache umzusetzende Phonem, für das die Phondauer zu ermitteln ist, Bestandteil eines Sekun därklusters ist,
- - Zuordnen der mittleren Phondauer (d), die in der Sekundär statistik dem entsprechenden Phonem in dem jeweiligen Se kundärkluster zugeordnet ist, falls das Phonem Bestandteil eines Sekundärklusters ist, und
- - Zuordnen der mittleren Phondauer (d), die in der Primärsta tistik dem entsprechenden Phonem in dem jeweiligen Pri märkluster zugeordnet ist, falls das Phonem nicht Bestand teil eines Sekundärklusters ist.
Bei diesem Verfahren wird bevorzugt die sprachspezifischere
Sekundärstatistik bei der Ermittlung der Phondauern ausgewer
tet. Hierbei ist zu berücksichtigen, dass beim Erzeugen der
Sekundärstatistik lediglich identische Kontexte zwischen dem
Sekundärkluster und dem entsprechenden Abschnitt in dem ge
sprochenen und aufgezeichneten Text, auf dem die Statistiken
beruhen, berücksichtigt werden, wohingegen bei der Primärsta
tistik auch ähnliche Kluster zu berücksichtigen sind, falls
keine identische Übereinstimmung vorhanden ist. Dies ist ein
weiterer Grund, weshalb zunächst versucht wird, die Sekundär
statistik auszuwerten, bevor auf die Primärstatistik zurück
gegriffen wird.
Gemäß einer bevorzugten Weiterbildung des Verfahrens zum Er
mitteln der Dauer einzelner Phone wird die Standardabweichung
der einzelnen mittleren Phondauer berücksichtigt. Dies be
wirkt eine weitere Anpassung an eine natürliche Aussprache.
Die Erfindung wird nachfolgend beispielhaft anhand der bei
liegenden Zeichnungen näher erläutert. In denen zeigen sche
matisch:
Fig. 1 einen allgemeinen Überblick über die Abläufe bei der
Erzeugung einer Statistik von Phondauern in einem
Flussdiagramm,
Fig. 2 die Verfahrensschritte zur statistischen Auswertung
einer Sprachaufzeichnung zur Erzeugung einer Statis
tik von Phondauern,
Fig. 3 ein Verfahren zum Ermitteln der Dauer einzelner Phone
für die Sprachsynthese in einem Flussdiagramm, und
Fig. 4 ein Computersystem zum Ausführen der erfindungsgemä
ßen Verfahren in einem Blockschaltbild.
Fig. 1 zeigt die grundlegenden Abläufe für ein Verfahren zum
Erzeugen einer Statistik von Phondauern, auf deren Grundlage
bei der synthetischen Spracherzeugung die Phondauer gesteuert
werden kann.
Das Verfahren beginnt mit dem Schritt S1 und im Schritt S2
wird ein vorbestimmter Trainingstext von einem Sprecher ge
sprochen und aufgezeichnet. Die Aufzeichnung erfolgt mittels
eines Mikrofons, das die akustischen Sprachsignale in korres
pondierende elektrische Sprachsignale wandelt.
Das aufgezeichnete Sprachsignal wird im Schritt S3 in einzel
ne Phone segmentiert. Das Segmentieren des Sprachsignals in
die einzelnen Phone wird oftmals von einem Sprachexperten ma
nuell durchgeführt. Es sind auch voll- und teilautomatische
Verfahren bekannt, die in der Regel auf einem HMM (Hidden-
Markow-Model) Algorithmus beruhen.
Im Schritt S4 werden die einzelnen Phone statistisch ausge
wertet, wobei deren Dauer bestimmt wird. Phondauern von Pho
nen, die dem gleichen Phonem im gleichen oder ähnlichen Kon
text zugeordnet sind, werden statistisch ausgewertet, indem
deren Mittelwerte und Standardabweichungen berechnet werden.
Im Schritt S5 wird dieses Verfahren beendet.
Die erfindungsgemäß auszuführenden Verfahrensschritte bei der
statistischen Auswertung (S4) sind in Fig. 2 in einem Fluss
diagramm dargestellt. Mit dem Schritt S6 beginnt das statis
tische Auswerteverfahren. Zunächst werden die einzelnen Phone
des Trainingstextes einem Primärkluster zugeordnet. Im vor
liegenden Ausführungsbeispiel ist das Primärkluster ein aus
drei Phonemen bestehendes Triphon. Ein Phon des Trainingstex
tes wird demjenigen Triphon zugeordnet, dessen mittleres Pho
nem dem Phon des Trainingstextes entspricht und das den glei
chen Kontext wie der Abschnitt des Trainingstextes in dem das
zuzuordnende Phon angeordnet ist, aufweist. Dies bedeutet,
dass die zum mittleren Phonem des Triphons benachbarten Pho
neme den benachbarten Phonen des zuzuordnenden Phones des
Trainingstextes entsprechen. Soll z. B. das Phon des Phonems
"f" des Wortes "Anfang" einem solchen Primärkluster zugeord
net werden, so wird dieses Phon dem Phonem "f" im Triphon
"nfa" zugeordnet, da die beiden benachbarten Phoneme "n"
(links) und "a" (rechts) den entsprechenden Phonen von "n"
und "a" im Trainingstext entsprechen.
Die Primärkluster sind in einer vorab festgelegten Liste ge
speichert. Sind die Primärkluster Triphone, so umfasst eine
solche Liste typischerweise 1500 bis 2000 Triphone. In dieser
Liste sind die am häufigsten auftretenden Permutationen von
drei aufeinanderfolgenden Phonemen enthalten. Selten und ähn
lich klingende Permutationen werden in einem Kluster zusam
mengefasst. So können z. B. die Triphone "ter" und "der" in
einem Kluster zusammengefasst sein.
Bei der Zuordnung nach dem Schritt S7 werden somit die Phone
den jeweiligen Phonemen im gleichen oder ähnlichen Kontext
zugeordnet.
Am Ende dieses Zuordnungsvorganges sind der Liste der Pri
märkluster alle Phone des Trainingstextes zugeordnet, das
heißt, dass eine Liste vorliegt, in der zu jedem Pri
märkluster die entsprechenden Phone des Trainingstextes ge
speichert sind.
Im Schritt S8 wird die mittlere Phondauer d' und die Stan
dardabweichung G für das jeweils mittlere Phonem eines jedem
aus drei Phonemen bestehenden Primärklusters berechnet. Hier
bei werden die Lautdauern der einzelnen einem Primärkluster
zugeordneten Phone gemittelt und als mittlere Lautdauer ge
speichert und die entsprechende Standardabweichung G berech
net.
Mit dem Schritt S8 wird somit eine Primärstatistik erzeugt,
die im wesentlicher der eingangs erörterten, aus dem Stand
der Technik bekannten Statistik entspricht.
Im Schritt S9 werden die einzelnen Phone Sekundärklustern zu
geordnet. Im vorliegenden Ausführungsbeispiel umfassen die
Sekundärkluster jeweils alle Phoneme eines Wortes. Die Länge
der Sekundärkluster ist somit variabel. Bei der Zuordnung der
Phone zu den Sekundärklustern werden die Wörter des Trai
ningstextes ermittelt und die einzelnen Phone dieser Wörter
werden den korrespondierenden Phonemen der entsprechenden Se
kundärkluster zugeordnet. Ein wesentlicher Unterschied gegen
über dem Schritt S7 ist, dass hier nicht nur ein Phon einem
Kluster zugeordnet wird, sondern alle Phone eines Wortes wer
den den entsprechenden Phonemen des Sekundärkluster zugeord
net, das heißt, dass allen Phonemen des Sekundärklusters je
weils ein Phon zugeordnet wird. Im Schritt S10 wird geprüft,
ob den Phonemen der Sekundärkluster jeweils mindestens drei
Phone des Trainingstextes zugeordnet worden sind. Ist dies
nicht der Fall, bedeutet dies, dass das entsprechende Wort im
Trainingstext weniger als dreimal vorkommt und deshalb nicht
statistisch signifikant ist. Sekundärkluster, denen weniger
als drei Wörter des Trainingstextes zugeordnet worden sind,
werden gelöscht.
Im vorliegenden Ausführungsbeispiel beträgt die geforderte
Häufigkeit für die Signifikanz drei. Zur Erzielung einer grö
ßeren statistischen Sicherheit kann es zweckmäßig sein, einen
entsprechend höheren Wert anzusetzen.
Im Schritt S11 wird die mittlere Phondauer d' und die Stan
dardabweichung G für ein jedes Phonem des Sekundärklusters
berechnet und abgespeichert. Als Ergebnis des Schrittes S11
wird eine Sekundärstatistik auf Grundlage der Sekundärkluster
erhalten.
Im Schritt S12 wird das Auswerteverfahren beendet.
Mit dem in Fig. 2 gezeigten Ausführungsbeispiel wird eine
Statistik erhalten, die wesentlich sprachspezifischer ist, da
die einzelnen Phondauern sehr stark von dem entsprechenden
Kontext abhängen und ein wesentlich präziserer Kontext durch
den Kontext eines gesamten Wortes berücksichtigt wird, falls
dies statistisch möglich ist. Wird auf Grundlage einer sol
chen zweistufigen Statistik die Lautdauer für eine Sprachsyn
these bestimmt, so ermöglicht dies eine wesentlich natürli
chere Synthese der Sprache.
Im Rahmen der Erfindung können sowohl andere Primärkluster
und Sekundärkluster verwendet werden. Insbesondere ist es
z. B. möglich Sekundärkluster mit einer konstanten Länge von
z. B. vier Phonemen zu verwenden. Es könnte jedoch auch zweck
mäßig sein, bei bestimmten Anwendungen, wesentlich längere
Sekundärkluster zu verwenden, die z. B. eine vollständige
Phrase, einen vollständigen Satz oder einen ganzen Absatz um
fassen können. Je länger die Sekundärkluster gewählt werden,
desto spezieller sollte das Anwendungsgebiet der Sprachsyn
these sein. Ein typisches Beispiel für ein sehr spezielles
Anwendungsgebiet einer Sprachsynthese ist ein Navigationssys
tem für Kraftfahrzeuge, bei dem wiederholt sehr ähnliche Sät
ze und Satzstrukturen erzeugt werden.
In Fig. 3 ist ein Verfahren zum Ermitteln einzelner Phone für
die Sprachsynthese schematisch in einem Flussdiagramm darge
stellt.
Ausgangspunkt des Verfahrens ist, dass ein Phonem eines zu
synthetisierenden Textes in ein Phon umgesetzt wird und die
Dauer dieses Phons zu bestimmen ist.
Das Verfahren beginnt mit dem Schritt S13. Im Schritt S14
wird der Kontext des Phonems im Ausgangstext bestimmt. Hier
bei wird zweckmäßigerweise der Umfang des Kontextes so ge
wählt, dass er der Länge des Sekundärklusters entspricht. Im
vorliegenden Ausführungsbeispiel wird der Kontext im Umfang
eines Wortes bestimmt.
Im Schritt S15 wird geprüft, ob der im Schritt S14 ermittelte
Kontext als Sekundärkluster in der Sekundärstatistik gespei
chert ist. Ist dies der Fall, geht der Programmablauf auf den
Schritt S16 über, mit dem die mittlere Phondauer d' die dem
Phonem des Sekundärklusters zugeordnet ist, der dem Phonem
des Ausgangstextes entspricht, und die Phondauern und die
Standardabweichung ausgelesen werden. Der Programmablauf geht
dann auf den Schritt S17 über, bei dem die tatsächlich anzu
wendende Phondauer d aus der mittleren Phondauer d' und der
Standardabweichung G gemäß folgender Formel berechnet wird:
d = d' + G.s,
wobei s ein Geschwindigkeitsskalierungsfaktor ist, der gemäß
folgender Formel berechnet wird:
s = Rrel - 1
wobei Rrel das Verhältnis der zu sprechenden Sprechgeschwin
digkeit gegenüber der Sprechgeschwindigkeit ist, mit der der
Text auf dem die Statistik beruht, gesprochen worden ist.
Durch die Berücksichtigung der Standardabweichung werden Pho
ne, die der Sprecher des Trainingstextes mit stark unter
schiedlichen Längen ausgesprochen hat, entsprechend stark bei
der Sprachsynthese variiert. Z. B. werden Plosiv-Laute, wie
z. B. "k" sehr wenig variiert, weshalb sie eine sehr kleine
Standardabweichung besitzen. Sie werden bei der Sprachsynthe
se entsprechend wenig variiert. Vokale, wie z. B. "a" werden
stark variiert, weshalb sie eine entsprechend große Standard
abweichung besitzen. Bei obigen Formeln ist zu berücksichti
gen, dass der Geschwindigkeitsskalierungsfaktor s auch nega
tive Werte annehmen kann, wodurch die Phondauer gegenüber der
mittleren Phondauer entsprechend verkürzt wird.
Ergibt die Abfrage im Schritt S15 hingegen, dass der im
Schritt S14 ermittelte Kontext nicht in der Sekundärstatistik
enthalten ist, so geht der Verfahrensablauf auf den Schritt
S18 über. Im Schritt S18 wird geprüft, ob der Abschnitt des
Kontextes im Bereich des umzusetzenden Phonems identisch zu
einem Primärkluster der Primärstatistik ist. Ist dies der
Fall, geht der Verfahrensablauf auf den Schritt S19 über. Im
Schritt S19 wird die mittlere Phondauer und die Standardab
weichung des mittleren Phonems des entsprechenden Pri
märklusters ausgelesen. Der Verfahrensablauf geht dann auf
den Schritt S17 über, mit dem in der oben erläuterten Weise
die tatsächlich anzuwendende Phondauer berechnet wird.
Ergibt die Abfrage im Schritt S18, dass zu dem Kontext des
Ausgangstextes kein identisches Primärkluster in der Primär
statistik vorhanden ist, so geht der Verfahrensablauf auf den
Schritt S20 über, in dem ein Primärkluster bestimmt wird, das
dem Kontext klanglich möglichst ähnlich ist.
Im darauffolgenden Schritt S21 werden die mittlere Phondauer
und die Standardabweichung des mittleren Phonems dieses Pri
märklusters ausgelesen. Der Verfahrensablauf geht dann auf
den Schritt S17 über.
Nach Ausführung des Schrittes S17 wird das Verfahren zum Er
mitteln der Dauer eines Phons eines Phonems eines Ausgangs
textes im Schritt S18 beendet.
Das erfindungsgemäße Verfahren zum Bestimmen der Phondauern
für die Sprachsynthese ist somit ein zweistufiges Verfahren,
bei dem zunächst versucht wird, mittels der Sekundärstatistik
eine mittlere Phondauer zu ermitteln, die auf einem speziel
len Kontext (hier: Wortlänge) beruht, wodurch eine Lautdauer
ermittelt wird die der natürlichen Sprechweise wesentlich
ähnlicher ist, als die auf Grund der Primärstatistik ermit
telte Phondauer. Sollte diese Phondauerbestimmung mittels der
Sekundärstatistik nicht möglich sein, so wird auf die Primärstatistik
zurückgegriffen, die grundsätzlich immer anwendbar
ist.
Insbesondere die Kombination des Verfahrens zum Erzeugen der
Statistik und des Verfahrens zum Ermitteln der Phondauern
stellt ein im wesentlichen rein statistisches Verfahren zur
Ermittlung der Phondauern dar, das im wesentlichen ohne Ex
pertenwissen erstellt und angewendet werden kann. Bei dem o
ben beschriebenen Ausführungsbeispiel wird z. B. lediglich bei
der Segmentierung der Sprachaufzeichnung Expertenwissen ein
gesetzt, wobei dieser Schritt mittels bekannter Verfahren
auch automatisierbar ist.
Die erfindungsgemäßen Verfahren sind so einfach zu implemen
tieren und zu trainieren. Dennoch haben erste Versuche mit
Prototypen gezeigt, dass sie bei der Sprachsynthese eine we
sentliche Steigerung der Sprachqualität bewirken, da die
Phondauer durch das Vorsehen der Sekundärstatistik sprachspe
zifischer ermittelt wird.
Die oben beschriebenen Verfahren können als Computerprogramme
realisiert werden, die selbständig auf einem Computer zum Er
zeugen der Statistik bzw. zum Ermitteln der Phondauern ablau
fen. Sie stellen somit automatisch ausführbare Verfahren dar.
Die Computerprogramme können auch auf elektrisch lesbaren Da
tenträgern gespeichert werden und so auf andere Computersys
teme übertragen werden.
Ein zur Anwendung des erfindungsgemäßen Verfahrens geeignetes
Computersystem ist in Fig. 4 gezeigt. Das Computersystem 1
weist einen internen Bus 2 auf, der mit einem Speicherbereich
3, einer zentralen Prozessoreinheit 4 und einem Interface 5
verbunden ist. Das Interface 5 stellt über eine Datenleitung
6 eine Datenverbindung zu weiteren Computersystemen her. An
dem internen Bus 2 sind ferner eine akustische Ausgabeeinheit
7, eine grafische Ausgabeeinheit 8 und eine Eingabeeinheit 9
angeschlossen. Die akustische Ausgabeeinheit 7 ist mit einem
Lautsprecher 10, die grafische Ausgabeeinheit 8 mit einem
Bildschirm 11 und die Eingabeeinheit 9 mit einer Tastatur 12
verbunden. An dem Computersystem 1 können über die Datenlei
tung 6 und das Interface 5 Sprachaufzeichnungen eines Textes
übertragen werden, die im Speicherbereich 3 abgespeichert
werden. Der Speicherbereich 3 ist in mehrere Bereiche unter
teilt, in denen Sprachaufzeichnungen, Audiodateien, Anwen
dungsprogramme zum Durchführen der erfindungsgemäßen Verfah
ren und weitere Anwendungs- und Hilfsprogramme gespeichert
sind. Die Sprachdateien werden mit vorbestimmten Programmpa
keten analysiert und in die einzelnen Phone segmentiert. Da
nach wird das erfindungsgemäße Verfahren zum Erzeugen einer
Statistik ausgeführt, wobei als Ergebnis die Primär- und Se
kundärstatistik vorliegen.
Ein beispielsweise über die Datenleitung 6 und das Interface
5 im Speicherbereich 3 abgespeicherter Text kann dann in eine
Audiodatei umgesetzt werden, wobei die Phondauern mittels des
erfindungsgemäßen Verfahrens (Fig. 3) auf Grundlage der Pri
mär- und Sekundärstatistik bestimmt werden.
Eine so erzeugte Audiodatei wird über den internen Bus 2 zur
akustischen Ausgabeeinheit 7 übertragen und von dieser am
Lautsprecher 10 als Sprache ausgegeben.
Claims (15)
1. Verfahren zum Erzeugen einer Statistik von Phondauern, wo
bei auf Grundlage dieser Statistik bei der synthetischen
Spracherzeugung die Phondauern gesteuert werden können, um
fassend folgende Schritte:
- - Zuordnen von Phonen eines in Phone segmentierten gesproche nen und aufgezeichneten Textes zu Phonemen von vorbestimm ten Primärklustern, die aus mehreren Phonemen zusammenge setzt sind, wobei jeweils ein Phon einem Phonem eines Pri märklusters zugeordnet wird, wenn es im gesprochenem Text zu einem dem Kontext des Phonems des Primärklusters identi schen oder ähnlichen Kontext auftritt,
- - Erstellen einer Primärstatistik, die zumindest die mittlere Phondauer aller Phone, die dem jeweiligen Phonem eines Pri märklusters zugeordnet sind, umfasst,
- - Zuordnen von Phonen des gesprochenen und aufgezeichneten Textes zu Phonemen von vorbestimmten Sekundärklustern, die aus Phonemen zusammengesetzt sind, wobei zumindest die An zahl Phoneme einiger Sekundärkluster sich von der Anzahl der Phoneme der Primärkluster unterscheidet, wobei jeweils ein Phon einem Phonem eines Sekundärklusters zugeordnet wird, wenn es im gesprochenem Text zu einem dem Kontext des Phonems des Sekundärklusters identischen Kontext auftritt,
- - Erstellen einer Sekundärstatistik, die zumindest die mitt lere Phondauer aller Phone, die dem jeweiligen Phonem eines Sekundärklusters zugeordnet sind, umfasst.
2. Verfahren zum Erzeugen einer Statistik von Phondauern nach
Anspruch 1,
dadurch gekennzeichnet,
dass die Anzahl der Phoneme der Primärkluster konstant ist
und die Anzahl z. B. gleich 3 ist.
3. Verfahren zum Erzeugen einer Statistik nach Anspruch 1 o
der 2,
dadurch gekennzeichnet,
dass die Anzahl der Phoneme des Sekundärklusters variabel ist
und die Sekundärkluster z. B. jeweils die Phoneme eines Wortes
umfassen.
4. Verfahren zum Erzeugen einer Statistik nach einem der An
sprüche 1 bis 3,
dadurch gekennzeichnet,
dass die Primärstatistik und die Sekundärstatistik jeweils
die Standardabweichung der jeweiligen Phondauer umfassen.
5. Verfahren zum Erzeugen einer Statistik nach einem der An
sprüche 1 bis 4,
dadurch gekennzeichnet,
dass mit der Sekundärstatistik nur Sekundärkluster erfasst
werden, deren Häufigkeit im Text größer oder gleich einer
vorbestimmten Mindesthäufigkeit ist.
6. Verfahren zum Erzeugen einer Statistik nach einem der An
sprüche 1 bis 5,
dadurch gekennzeichnet,
dass die Mindesthäufigkeit zumindest 3 beträgt und vorzugs
weise im Bereich von 3 bis 10 liegt.
7. Verfahren zum Erzeugen einer Statistik nach einem der An
sprüche 1 bis 6,
dadurch gekennzeichnet,
dass die Zuordnung der Phone zu Phonemen der Primärkluster
mittels einer vorbestimmten Liste von in Primärklustern grup
pierten Phonemen erfolgt, wobei die Phone den einzelnen Pho
nemen der Primärkluster der Liste zugeordnet werden und die
einzelnen Zuordnungen abgespeichert werden.
8. Verfahren nach Anspruch 7,
dadurch gekennzeichnet,
dass zu den einzelnen Phonemen der Primärkluster der Liste
auf Grundlage der abgespeicherten Zuordnungen jeweils die
mittlere Phondauer (d) und die Standardabweichung (G) der
mittleren Phondauer berechnet werden.
9. Verfahren nach einem der Ansprüche 1 bis 8,
dadurch gekennzeichnet,
dass die Zuordnung der Phone zu den Phonemen der Sekun
därkluster mittels einer vorbestimmten Liste von in Sekun
därklustern gruppierten Phonemen erfolgt, wobei die Phone den
einzelnen Phonemen der Sekundärkluster der Liste zugeordnet
werden und die einzelnen Zuordnungen abgespeichert werden.
10. Verfahren nach Anspruch 9,
dadurch gekennzeichnet,
dass zu den einzelnen Phonemen der Sekundärkluster der Liste
auf Grundlage der abgespeicherten Zuordnungen jeweils die
mittlere Phondauer (d) und die Standardabweichung (G) der
mittleren Phondauer berechnet werden.
11. Verfahren zum Ermitteln der Dauer einzelner Phone für die
Sprachsynthese, mittels einer Statistik von Phondauern, die
eine Primärstatistik und eine Sekundärstatistik aufweist, wo
bei die Primärstatistik in Primärkluster gruppierte Phoneme
umfasst, und den einzelnen Phonemen der Primärkluster zumin
dest eine mittlere Phondauer zugeordnet ist, und
die Sekundärstatistik in Sekundärkluster gruppierte Phoneme
umfasst, und den einzelnen Phonemen der Sekundärkluster zu
mindest eine mittlere Phondauer zugeordnet ist,
umfassend folgende Schritte:
- - Bestimmen, ob das in Sprache umzusetzende Phonem, für das die Phondauer zu ermitteln ist, Bestandteil eines Sekun därklusters ist,
- - Zuordnen der mittleren Phondauer (d), die in der Sekundär statistik dem entsprechendem Phonem in dem jeweiligen Se kundärkluster zugeordnet ist, falls das Phonem Bestandteil eines Sekundärklusters ist, und
- - Zuordnen der mittleren Phondauer (d), die in der Primär statistik dem entsprechendem Phonem in dem jeweiligen Primärkluster zugeordnet ist, falls das Phonem nicht Bestand teil eines Sekundärklusters ist.
12. Verfahren zum Ermitteln der Dauer der einzelnen Phone bei
der Sprachsynthese mittels einer mit einem Verfah
ren nach einem der Ansprüche 1 bis 10 erzeugten Statistik.
13. Verfahren nach Anspruch 11 oder 12,
dadurch gekennzeichnet,
dass bei der Ermittlung der Dauer (d) der einzelnen Phone die Standardabweichungen (G) der in der Statistik gespeicherten mittleren Phondauern (d') gemäß folgender Formel berücksich tigt werden
d = d' + G.s,
wobei s ein Geschwindigkeitsskalierungsfaktor ist, der gemäß folgender Formel berechnet wird
s = Rrel - 1,
wobei Rrel das Verhältnis der zu sprechenden Sprechgeschwin digkeit gegenüber der Sprechgeschwindigkeit, mit der der Text auf dem die Statistik beruht, gesprochen worden ist.
dass bei der Ermittlung der Dauer (d) der einzelnen Phone die Standardabweichungen (G) der in der Statistik gespeicherten mittleren Phondauern (d') gemäß folgender Formel berücksich tigt werden
d = d' + G.s,
wobei s ein Geschwindigkeitsskalierungsfaktor ist, der gemäß folgender Formel berechnet wird
s = Rrel - 1,
wobei Rrel das Verhältnis der zu sprechenden Sprechgeschwin digkeit gegenüber der Sprechgeschwindigkeit, mit der der Text auf dem die Statistik beruht, gesprochen worden ist.
14. Vorrichtung zum Erzeugen einer Statistik von Phondauern
auf Grundlage derer bei der synthetischen Spracherzeugung die
Phondauern gesteuert werden können, mit
einem Computersystem (1), das einen Speicherbereich (3) auf
weist, in dem ein Programm zum Ausführen eines Verfahrens
nach einem der Ansprüche 1 bis 10 gespeichert ist.
15. Vorrichtung zum Ermitteln der Dauer einzelner Phone für
die Sprachsynthese mit
einem Computersystem (1), das einen Speicherbereich (3) auf
weist, in dem ein Programm zum Ausführen eines Verfahrens
nach einem der Ansprüche 11 bis 13 gespeichert ist.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10033104A DE10033104C2 (de) | 2000-07-07 | 2000-07-07 | Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese |
EP01114696A EP1170723B1 (de) | 2000-07-07 | 2001-06-19 | Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese |
DE50115685T DE50115685D1 (de) | 2000-07-07 | 2001-06-19 | Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese |
US09/899,536 US6934680B2 (en) | 2000-07-07 | 2001-07-06 | Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10033104A DE10033104C2 (de) | 2000-07-07 | 2000-07-07 | Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese |
Publications (2)
Publication Number | Publication Date |
---|---|
DE10033104A1 DE10033104A1 (de) | 2002-01-17 |
DE10033104C2 true DE10033104C2 (de) | 2003-02-27 |
Family
ID=7648160
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10033104A Expired - Fee Related DE10033104C2 (de) | 2000-07-07 | 2000-07-07 | Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese |
DE50115685T Expired - Lifetime DE50115685D1 (de) | 2000-07-07 | 2001-06-19 | Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE50115685T Expired - Lifetime DE50115685D1 (de) | 2000-07-07 | 2001-06-19 | Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese |
Country Status (3)
Country | Link |
---|---|
US (1) | US6934680B2 (de) |
EP (1) | EP1170723B1 (de) |
DE (2) | DE10033104C2 (de) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7328157B1 (en) * | 2003-01-24 | 2008-02-05 | Microsoft Corporation | Domain adaptation for TTS systems |
US9245526B2 (en) * | 2006-04-25 | 2016-01-26 | General Motors Llc | Dynamic clustering of nametags in an automated speech recognition system |
US8924194B2 (en) * | 2006-06-20 | 2014-12-30 | At&T Intellectual Property Ii, L.P. | Automatic translation of advertisements |
US8447609B2 (en) * | 2008-12-31 | 2013-05-21 | Intel Corporation | Adjustment of temporal acoustical characteristics |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69420547T2 (de) * | 1993-01-21 | 2000-07-13 | Apple Computer, Inc. | Wellenform-mischungsverfahren für system zur text-zu-sprache umsetzung |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2296846A (en) * | 1995-01-07 | 1996-07-10 | Ibm | Synthesising speech from text |
DE19508711A1 (de) * | 1995-03-10 | 1996-09-12 | Siemens Ag | Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind |
JP3854713B2 (ja) * | 1998-03-10 | 2006-12-06 | キヤノン株式会社 | 音声合成方法および装置および記憶媒体 |
-
2000
- 2000-07-07 DE DE10033104A patent/DE10033104C2/de not_active Expired - Fee Related
-
2001
- 2001-06-19 DE DE50115685T patent/DE50115685D1/de not_active Expired - Lifetime
- 2001-06-19 EP EP01114696A patent/EP1170723B1/de not_active Expired - Lifetime
- 2001-07-06 US US09/899,536 patent/US6934680B2/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69420547T2 (de) * | 1993-01-21 | 2000-07-13 | Apple Computer, Inc. | Wellenform-mischungsverfahren für system zur text-zu-sprache umsetzung |
Also Published As
Publication number | Publication date |
---|---|
DE10033104A1 (de) | 2002-01-17 |
EP1170723B1 (de) | 2010-11-03 |
DE50115685D1 (de) | 2010-12-16 |
EP1170723A2 (de) | 2002-01-09 |
US20020016709A1 (en) | 2002-02-07 |
EP1170723A3 (de) | 2002-10-30 |
US6934680B2 (en) | 2005-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE68919637T2 (de) | Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen. | |
DE69726526T2 (de) | Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert | |
DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
DE60112512T2 (de) | Kodierung von Ausdruck in Sprachsynthese | |
DE69816221T2 (de) | Sprachschnellheitsveränderungsverfahren und vorrichtung | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
WO2005013261A1 (de) | Verfahren zur spracherkennung und kommunikationsgerät | |
DE112004000187T5 (de) | Verfahren und Vorrichtung der prosodischen Simulations-Synthese | |
DE69224253T2 (de) | Sprachkodiergerät | |
DE10054583A1 (de) | Verfahren und Vorrichtung zur Behandlung von Sprachinformationen | |
EP1282897B1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems | |
EP1264301A1 (de) | Verfahren zur erkennung von sprachäusserungen nicht-mutter-sprachlicher sprecher in einem sprachverarbeitungssystem | |
EP0987682B1 (de) | Verfahren zur Adaption von linguistischen Sprachmodellen | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
DE69413912T2 (de) | Sprachumsetzungsverfahren | |
DE69318209T2 (de) | Verfahren und Anordnung zur Sprachsynthese | |
DE60008893T2 (de) | Sprachgesteuertes tragbares Endgerät | |
DE60307965T2 (de) | Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen | |
DE10033104C2 (de) | Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese | |
DE4111781A1 (de) | Computersystem zur spracherkennung | |
DE69607928T2 (de) | Verfahren und vorrichtung zur bereitstellung und verwendung von diphonen für mehrsprachige text-nach-sprache systeme | |
EP1344211B1 (de) | Vorrichtung und verfahren zur differenzierten sprachausgabe | |
DE60311482T2 (de) | Verfahren zur steuerung der dauer bei der sprachsynthese | |
DE69419846T2 (de) | Sende- und empfangsverfahren für kodierte sprache | |
EP1078354B1 (de) | Verfahren und anordnung zur bestimmung spektraler sprachcharakteristika in einer gesprochenen äusserung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8304 | Grant after examination procedure | ||
8364 | No opposition during term of opposition | ||
8320 | Willingness to grant licences declared (paragraph 23) | ||
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee | ||
R082 | Change of representative |
Representative=s name: FRITZSCHE PATENT, DE |
|
R081 | Change of applicant/patentee |
Owner name: SIEMENS ENTERPRISE COMMUNICATIONS GMBH & CO. K, DE Free format text: FORMER OWNER: SIEMENS AKTIENGESELLSCHAFT, 80333 MUENCHEN, DE Effective date: 20130313 |
|
R082 | Change of representative |
Representative=s name: FRITZSCHE PATENT, DE Effective date: 20130313 |
|
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |
Effective date: 20130201 |