DE69519887T2 - Verfahren und Vorrichtung zur Verarbeitung von Sprachinformation - Google Patents
Verfahren und Vorrichtung zur Verarbeitung von SprachinformationInfo
- Publication number
- DE69519887T2 DE69519887T2 DE69519887T DE69519887T DE69519887T2 DE 69519887 T2 DE69519887 T2 DE 69519887T2 DE 69519887 T DE69519887 T DE 69519887T DE 69519887 T DE69519887 T DE 69519887T DE 69519887 T2 DE69519887 T2 DE 69519887T2
- Authority
- DE
- Germany
- Prior art keywords
- phoneme
- pattern
- statistical processing
- speech
- tone pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
- Die Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur Verarbeitung von Sprachinformationen, wobei bei der Sprachinformationsverarbeitung, wie einer systematischen Sprachsynthese, Spracherkennung oder dergleichen, zur Erzeugung eines natürlichen Metrums einer synthetisierten Sprache oder zur Verbesserung der Spracherkennungsrate eine statistische Verarbeitung von Merkmalen, wie der grundlegenden Frequenz und der Kraft der Sprache und der gleichen unter Berücksichtigung einer Phonemumgebung durchgeführt wird, und ein Tonmustermodell aufgebaut wird, das mit großer Wahrscheinlichkeit eine hohe Zuverlässigkeit hat.
- Sprache ist die natürlichste Form des Informationsaustauschs zwischen Menschen. Andererseits haben Computer derart große Fortschritte gemacht, dass sie nicht nur numerische Berechnungen durchführen, sondern auch verschiedene Arten von Informationen verarbeiten. Demnach besteht das Bedürfnis nach der Verwendung von Sprache als Mittel zum Austauschen von Informationen zwischen Mensch und Maschine.
- Bei einer systematischen Sprachsynthesevorrichtung unter diesen Informationsaustauscheinrichtungen wandelt eine Maschine einen willkürlichen Text in synthetisierte Sprache um. Daher dient eine derartige Vorrichtung als wichtige Einrichtung zur Übertragung von Informationen vom Computer zum Menschen. Allerdings ist die synthetisierte Sprachausgabe von einer herkömmlichen Sprachsynthesevorrichtung verglichen mit der natürlichen Sprache des Menschen unnatürlich und mechanisch. Ein Grund für dieses Problem besteht darin, dass bei der herkömmlichen Technik lediglich ein einfaches Modell für Metrumerzeugungsregeln zur Erzeugung der Betonung und Intonation verwendet wird.
- Demnach klingt durch ein einfaches Modell synthetisierte Sprache für den, der die Sprache hört, mechanisch. Ferner bewirkt eine Spracherkennung, bei der eine Änderung aufgrund einer Phonemumgebung nicht berücksichtigt wird, eine Verschlechterung der Erkennungsrate.
- Die EP-A-0515709 offenbart ein Sprachinformationsverarbeitungsverfahren, bei dem das Tonmuster für jedes Phonem in Abhängigkeit von dem Wort, zu dem jedes Phonem gehört, der Betonungsposition, Dauer und Kontinuitätsbeschränkung bestimmt wird.
- Wenn eine Datei von Merkmalen, wie die Grundfrequenz und die Sprachlautstärke beziehungsweise Kraft der Sprache und dergleichen, und eine Etikettdatei statistisch verarbeitet werden, werden mit der Erfindung die folgenden Punkte erzielt.
- 1) Durch die Verwendung eines kontextabhängigen HMM (Hidden Markov Modell), d. h. abhängig vom Betonungstyp, der Anzahl der Moren und der Moraposition, können Informationen über die Varianz, den Mittelwert und die Übergangswahrscheinlichkeit eines Tonmusters erzeugt werden. Somit kann ein Modell, das mit hoher Wahrscheinlichkeit eine hohe Zuverlässigkeit hat, automatisch erzeugt werden, und Sprache kann synthetisiert werden, die natürlich und nahe der von einem Menschen ausgesprochenen Sprache ist.
- 2) Durch die Verwendung des kontextabhängigen HMM, bei dem die Phonemumgebung (stimmlose Frikative, stimmhafte Verschlusslaute oder dergleichen) des betroffenen Phonems zusätzlich zum Betonungstyp, der Anzahl der Moren und der Moraposition wie in Punkt 1 berücksichtigt werden, werden Informationen über die Varianz, den Mittelwert, die Übergangswahrscheinlichkeit und dergleichen eines Tonmusters für jede Phonemumgebung erzeugt. Daher kann ein Modell, das mit hoher Wahrscheinlichkeit eine hohe Zuverlässigkeit aufweist, automatisch erzeugt werden, und Sprache, die natürlich und nahe an menschlicher Sprache ist, kann synthetisiert werden.
- 3) Für eine Kategorie mit einer großen Datenmenge wird durch Berücksichtigung der Phonemumgebung von Phonemen vor und nach dem betreffenden Phonem und dergleichen zusätzlich zu dem Betonungstyp, der Anzahl von Moren, der Moraposition und der Phonemumgebung des betroffenen Phonems wie in Punkt 2 ein Tonmuster erhalten, das präziser ist, als das in Punkt 2 erhaltene Tonmuster, und Sprache, die natürlich und nahe der menschlichen Sprache ist, kann synthetisiert werden.
- 4) Durch hierarchische Konfiguration und Verwendung der in den Punkten 1, 2 und 3 beschriebenen Informationen kann ein präzises Tonmustermodell, bei dem die Phonemumgebung und dergleichen berücksichtigt ist, aus einem Tonmustermodell, bei dem lediglich eine grobe Struktur gezeigt ist, entsprechend der Datenmenge ausgewählt werden, und Sprache kann synthetisiert werden, die natürlich und nahe der menschlichen Sprache ist.
- 5) Durch die Bereitstellung des hierarchisch konfigurierten Tonmustermodells wie in Punkt 4 und eines Erkennungswörterbuchs mit Betonungsinformationen kann eine Spracherkennung durchgeführt werden, die prosodische Informationen verwendet, und die Erkennungsrate kann erhöht werden.
- Gemäß einer ersten Ausgestaltung der Erfindung ist ein Sprachinformationsverarbeitungsverfahren mit den Schritten ausgestaltet
- Extrahieren von Merkmalen aus den Sprachdaten zur Ausbildung einer Merkmalsdatei und
- Analysieren der Sprachdaten zur Ausbildung einer Etikettdatei,
- gekennzeichnet durch die weiteren Schritte Durchführen einer statistischen Verarbeitung von Merkmalen gespeicherter Sprachdaten für jede Phonemumgebung, die zumindest die Anzahl von Moren und den Akzenttyp enthalten, unter Verwendung der Merkmalsdatei und der Etikettdatei zur Erzeugung von Tonmustermodellen und
- Ausbilden eines Tonmusters unter Verwendung der Tonmustermodelle, die für jede Phonemumgebung als Ergebnis der statistischen Verarbeitung erhalten werden. Gemäß einer zweiten Ausgestaltung der Erfindung ist ein Sprachinformationsverarbeitungsvorrichtung ausgestaltet, mit
- einer Sprachdateispeichereinrichtung zur Speicherung von Sprachdaten,
- einer Merkmalsextraktionseinrichtung zur Ausbildung einer Merkmalsdatei durch Extrahieren von Merkmalen aus den in der Sprachdateispeichereinrichtung gespeicherten Sprachdaten und
- einer Analyseeinrichtung zum Analysieren der zu verarbeitenden Sprachdaten für jede Phonemumgebung, gekennzeichnet durch
- eine statistische Verarbeitungseinrichtung zur Durchführung einer statistischen Verarbeitung für jede Phonemumgebung, die zumindest die Anzahl von Moren und den Akzenttyp enthält, unter Verwendung der von der Merkmalsextraktionseinrichtung erhaltenen Merkmalsdatei und einer durch die Analyseeinrichtung erzeugten Etikettdatei zur Erzeugung von Tonmustermodellen und
- eine Tonmusterausbildungseinrichtung zur Ausbildung eines Tonmusters unter Verwendung der für jede Phonemumgebung von der statistischen Verarbeitungseinrichtung erhaltenen Tonmustermodelle.
- Die vorstehenden und weitere Aufgaben, Vorteile und Merkmale der Erfindung werden aus der folgenden Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung unter Bezugnahme auf die beiliegende Zeichnung ersichtlich. Es zeigen:
- Fig. 1 eine Darstellung des Aufbaus der Funktionseinheiten zur Ausbildung eines Tonmusters,
- Fig. 2 eine Darstellung von Etiketten,
- Fig. 3 eine Darstellung einer Phonemliste,
- Fig. 4 eine Darstellung einer Etikettdatei,
- Fig. 5 eine Darstellung einer Tonmustertabelle unter Verwendung des kontextabhängigen HMMs; d. h. unter Verwendung des Betonungstyps, der Anzahl von Moren und der Moraposition,
- Fig. 6 und 7 Darstellungen, die jeweils ein Beispiel der Ausbildung eines Tonmusters unter Verwendung des kontextabhängigen HMMs darstellen, d. h. des Betonungstyps, der Anzahl von Moren und der Moraposition,
- Fig. 8 eine Darstellung einer Tonmustertabelle unter Verwendung eines Phonem-kontextabhängigen HMMs, bei dem auch die Phonemkategorie berücksichtigt wird,
- Fig. 9 und 10 Darstellungen, die jeweils ein Beispiel der Ausbildung eines Tonmusters unter Verwendung des phonemischen kontextabhängigen HMMs darstellen, d. h. der Phonemkategorie, des Betonungstyps, der Anzahl von Moren und der Moraposition,
- Fig. 11 eine Darstellung einer hierarchischen Struktur eines Tonmusters und
- Fig. 12 ein Blockschaltbild des Aufbaus einer Sprachinformationsverarbeitungsvorrichtung.
- Fig. 12 zeigt ein Blockschaltbild des Aufbaus einer Sprachinformationsverarbeitungsvorrichtung gemäß einem ersten Ausführungsbeispiel der Erfindung.
- Gemäß Fig. 12 steuert eine CPU (Zentralverarbeitungseinrichtung) 1 die Verarbeitung der gesamten Vorrichtung entsprechend in einem ROM (Nur-Lese- Speicher) 2 gespeicherten Programmen. Das ROM 2 speichert Steuerprogramme für eine entsprechende in dem Ausführungsbeispiel beschriebene Verarbeitung. Ein RAM (Speicher mit wahlfreiem Zugriff) 3 enthält einen Abschnitt zur Speicherung von Daten, wie Dateien, Tabellen, und dergleichen, die bei der in dem Ausführungsbeispiel durchgeführten entsprechenden Verarbeitung verwendet werden, und einen Arbeitsspeicherabschnitt zur Speicherung von Daten, die während der Verarbeitung erzeugt werden. Eine Tastatur 4 wird zur Eingabe von Codeinformationen zum Anweisen der jeweiligen Verarbeitung, wie der Bereitstellung von Etiketten für eine Sprachdatei und dergleichen, verwendet. Eine Zeigeeinrichtung 5 wird zur Eingabe von Informationen bezüglich der Koordinaten einer gewünschten Position verwendet. Die Zeigeeinrichtung 5 kann beispielsweise die Form eines Stifts zur Eingabe eines Orts haben. Eine Anzeigeeinrichtung 6 zeigt von der Tastatur 4 oder der Zeigeeinrichtung 5 eingegebene Informationen, in der Vorrichtung empfangene Informationen, Informationen während der Verarbeitung oder ein Verarbeitungsergebnis an. Eine Kathodenstrahlröhre (CRT) oder eine Flüssigkristallanzeige wird als Anzeigeeinrichtung 6 verwendet. Ein Mikrofon 7 wird zur Eingabe von Sprache, die als zu erkennendes Objekt dient, oder zur Eingabe verschiedener Arten von Sprachbefehlen verwendet. Ein Lautsprecher 8 gibt synthetisierte Sprache oder eine Sprachnachricht aus.
- Nachstehend wird das erste Ausführungsbeispiel unter Bezugnahme auf die Darstellung des Aufbaus der in Fig. 1 gezeigten Funktionseinheiten beschrieben.
- Gemäß Fig. 1 speichert eine Sprachdatei 11 eine Sprachdatenbasis und dergleichen. Eine Merkmalsextraktionseinheit extrahiert Merkmale aus den in der Sprachdatei 11 gespeicherten Daten. Eine Etikettbereitstellungseinheit 13 versieht die in der Sprachdatei 11 gespeicherten Daten mit dem Etikett jedes Phonems. Eine Phonemlistenausbildungseinheit 14 bildet eine Phonemliste für die in der Sprachdatei 11 gespeicherten Daten aus. Eine Merkmalsdatei 15 speichert Merkmale der in der Sprachdatei 11 gespeicherten Daten, die durch die Merkmalsextraktionseinheit 12 extrahiert wurden, zusammen mit einer Sprachdateinummer. Eine Etikettdatei 16 speichert Daten für jedes aus Daten gebildete Etikett, die von der Etikettbereitstellungseinheit 13 und der Phonemlistenausbildungseinheit 14 erhalten werden. Eine Statistikverarbeitungseinheit 17 führt eine statistische Verarbeitung beruhend auf in einer inneren Merkmalsdatei 15 und der Etikettdatei 16 gespeicherten Daten durch. Eine Tonmusterausbildungseinheit 18 bildet ein Tonmuster unter Verwendung der Daten aus, die von der Statistikverarbeitungseinheit 17 erhalten werden.
- Jede durch den vorstehend beschriebenen Aufbau durchgeführte Verarbeitung wird nachstehend näher unter Bezugnahme auf die Figuren beschrieben, die während der Verarbeitung erzeugte Daten zeigen.
- Zuerst wird durch ein Verfahren, bei dem der Bediener visuell Etikettdaten für auf der Anzeigeeinrichtung 6 angezeigte Daten über die Tastatur 4 oder dergleichen eingibt, und ein Verfahren, bei dem die Steuerung durch ein Programm durchgeführt wird, wie es in Fig. 2 gezeigt ist, ein Etikett für jedes Phonem der Daten der Sprachdatenbasis oder dergleichen, die in der Sprachdatei 11 gespeichert ist, erzeugt. Da beispielsweise Daten "aki" mit einer Sprachdateinummer 1 (was nachstehend unter Bezugnahme auf Fig. 3 näher beschrieben wird) ein Phonem a, ein Phonem k und Phonem i umfassen, werden Etiketten als Zeiten "100-149" für das Phonem a, Zeiten "150-179" für das Phonem k und Zeiten "180-200" für das Phonem i bestimmt.
- Die Phonemlistenausbildungseinheit 14 bildet, wie in Fig. 3 gezeigt, eine Phonemliste aus dem Betonungstyp, der Anzahl der Moren, der Phonemkategorie und dergleichen für jede Sprachdateinummer aus (beispielsweise in Einheiten eines Worts). Beispielsweise wird die Phonemliste für die Daten "aki" mit der Sprachdateinummer 1 derart bestimmt, dass die Anzahl der Moren 2 ist und der Betonungstyp ein "0-Typ" ist.
- Daten für jedes Etikett, wie es in Fig. 4 gezeigt ist, bei dem die Phonemumgebung aus dem Betonungstyp, der Anzahl der Moren, der Moraposition, der Phonemkategorie und dergleichen berücksichtigt ist, werden aus Daten gebildet, die von der Etikettbereitstellungseinheit 13 und der Phonemlistenausbildungseinheit 14 erhalten werden, und werden in der Etikettdatei 16 gespeichert.
- Die Merkmalsextraktionseinheit 12 zeigt in der Sprachdatei 11 gespeicherte Daten auf der Anzeigeeinrichtung 6 an. Durch eines der Verfahren, bei dem der Bediener Etikettdaten für die angezeigten Daten über die Tastatur 4 oder dgl. visuell eingibt, und das Verfahren, bei dem die Steuerung durch ein Programm durchgeführt wird, werden Merkmale, wie die Grundfrequenz, die Lautstärke, Schwankungen dieser Werte (die Delta-Tonhöhe und die Delta-Lautstärke) und dgl. extrahiert, und die Merkmalsdatei 15 wird ausgebildet.
- Die Merkmalsextraktionseinheit 12 kann ein Verfahren verwenden, bei dem unter Verwendung von durch die Etikettausbildungseinheit 13 bereitgestellte Etikettinformationen die Grundfrequenz bspw. entsprechend einem stimmhaften/stimmlosen Klang/Nicht-Klang durch die Bereitstellung bestimmter Codes für ein stimmloses Intervall und ein klangloses Intervall extrahiert wird.
- Die Statistikverarbeitungseinheit 17 führt eine statistische Verarbeitung beruhend auf in der Merkmalsdatei 15 und der Etikettdatei 16 gespeicherten Daten durch, und die Tonmusterausbildungseinheit 18 bildet ein Tonmuster aus.
- Die Grundfrequenz (oder eine logarithmische Transformation dieser), die Lautstärke, Dauer, Spektralinformationen (Cepstrum, LPC-Koeffizienten und dgl.), lineare Regressionskoeffizienten und quadratische Regressionskoeffizienten dieser Werte und dgl. können als Merkmale darstellende Parameter verwendet werden und die statistische Verarbeitung kann durch willkürliche Kombination dieser Parameter durchgeführt werden.
- Es können auch normalisierte Daten der vorstehend beschriebenen Merkmale, wie die logarithmische Grundfrequenz, die Lautstärke und dgl. für jedes Datum, jede Kategorie oder alle Daten verwendet werden.
- Als Beispiel wird bei dem Ausführungsbeispiel eine Beschreibung eines Falls angeführt, bei dem die Phonemlistenausbildungseinheit 14 eine Phonemliste unter Verwendung des Betonungstyps, der Anzahl der Moren und der Moraposition ausbildet, und die Merkmalsdatei 15 lediglich die logarithmische Grundfrequenz verwendet. Fig. 5 zeigt eine Tonmustertabelle, wenn das kontextabhängige HMM, d. h. der Betonungstyp, die Anzahl der Moren und die Moraposition (ein kontinuierliches HMM mit drei Zuständen / zwei Schleifen pro Mora) verwendet wird. Bei diesem Ausführungsbeispiel wird die Phonemumgebung einer statistischen Verarbeitung durch Klassifizierung entsprechend dem Betonungstyp, der Anzahl der Moren und der Moraposition unterzogen.
- Nachstehend werden Prozeduren zur Ausbildung eines Tonmusters für "AZI" durch die
- Tonmusterausbildungseinheit 18 unter Bezugnahme auf die Fig. 6 und 7 beschrieben.
- 1. Der Phonemumgebung entsprechende Modelle (021, 022) werden ausgewählt. Da die Anzahl der Moren 2 ist und der Betonungstyp der 0-Typ für "AZI" ist, werden Daten mit den Morapositionen 1 und 2 bei dieser Phonemumgebung ausgewählt.
- 2. Die Zustände der ausgewählten Modelle werden entsprechend der Dauer (11, 12, 13) der Phoneme eingestellt.
- 3. Punkttonhöhen werden unter Verwendung der Mittelwerte (u11, u12, P13 und dgl.) der Frequenzen der jeweiligen Zustände bestimmt.
- 4. Die Punkttonhöhen werden interpoliert (die Interpolation für einen stimmhaften Konsonanten wird unter Verwendung zweier an den Konsonanten angrenzender Vokale durchgeführt), und das in Fig. 6 gezeigte Tonmuster wird ausgebildet.
- 5. Werden die Merkmale aus der normalisierten Grundfrequenz, wie in Fig. 7 gezeigt, extrahiert, wird das in Fig. 6 gezeigte Tonmuster mit einer dynamischen Reichweite (d) multipliziert und eine Vorverschiebung (b) wird hinzugefügt.
- Bei dieser Vorgehensweise wird die Zuordnung einer Zeit für drei Zustände (ein Phonem) in jedem Model durch ein Verfahren einer einfachen Teilung der Gesamtzeit in drei gleiche Zeitabschnitte, ein Verfahren zur Verteilung der Zeit proportional zum Verhältnis der Übergangswahrscheinlichkeit, ein Verfahren der Teilung der Zeit proportional zum Verhältnis der statistischen Dauern, die aus dem Viterbi-Dekodieralgorythmus durch Anlegen von Lerndaten an das erhaltene Modell erhalten werden können, oder dergleichen, durchgeführt. Grundfrequenzkonturen können für die Tonmustermodelle ausgebildet werden, für die die Zeit unter Verwendung einer verschiedener Arten von Interpolationsoperationen, wie der linearen Interpolation, Spline-Interpolation und dergleichen, verteilt wurde. Zu diesem Zeitpunkt kann auch eine Tonmusterkorrektur unter Berücksichtigung der Varianz durchgeführt werden.
- Bei dem vorstehend beschriebenem ersten Ausführungsbeispiel umfasst die Phonemumgebung einer durch die Phonemlistenausbildungseinheit 14 ausgebildeten Phonemliste den Betonungstyp, den Moratyp, und die Moraposition. Nachstehend wird ein zweites Ausführungsbeispiel der Erfindung beschrieben, bei dem eine Phonemliste unter Berücksichtigung der Umgebung ausgebildet wird, die ein Phonem oder eine Phonemkategorie (nachstehend als Phonemkategorie einschließlich des Phonems bezeichnet) zusätzlich zu den vorstehend beschriebenen Punkten einschließt, und die Merkmalsdatei 15 lediglich die logarithmische Grundfrequenz verwendet. Fig. 8 zeigt eine Tonmustertabelle, wenn das phonemische kontextabhängige HMM verwendet wird, bei dem der Betonungstyp, die Anzahl der Moren, die Moraposition und die Phonemkategorie berücksichtigt werden (ein kontinuierliches HMM mit drei Zuständen/drei Schleifen pro Mora). Bei diesem Ausführungsbeispiel wird die Phonemumgebung einer statistischen Verarbeitung durch Klassifizierung entsprechend dem Betonungstyp, der Anzahl der Moren, der Moraposition und der Phonemkategorie unterzogen.
- Nachstehend werden Prozeduren zur Ausbildung eines Tonmusters durch die Tonmusterausbildungseinheit 18 aus Fig. 1 unter Bezugnahme auf die Fig. 9 und 10 beschrieben.
- 1. Der Phonemumgebung entsprechende Modelle (V012, V022, Vz022) werden ausgewählt.
- 2. Die Zustände der ausgewählten Modelle werden entsprechend der Dauer (11, 12, 13) der Phoneme eingerichtet.
- 3. Punkttonhöhen werden unter Verwendung der Mittelwerte (u11, u12, u13 und dergleichen) der Frequenzen der jeweiligen Zustände bestimmt.
- 4. Die Punkttonhöhen werden interpoliert, und ein Tonmuster wie in Fig. 9 gezeigt wird ausgebildet.
- 5. Werden die Merkmale aus der normalisierten Grundfrequenz extrahiert, wie es in Fig. 10 gezeigt ist, wird das in Fig. 9 gezeigte Tonmuster mit einer dynamischen Reichweite (d) multipliziert und eine Vorverschiebung (b) wird addiert.
- Die Zeitzuordnung und Interpolation können auf die gleiche Weise wie bei dem vorstehend beschriebenen ersten Ausführungsbeispiel durchgeführt werden.
- Für eine Kategorie mit einer großen Datenmenge kann ein Tonmuster, da es präziser als das bei dem ersten Ausführungsbeispiel ist, beispielsweise durch Berücksichtigung der Phonemumgebung von Phonemen vor und nach dem betreffendem Phonem erzeugt werden.
- Da feine Änderungen im Phonem durch die Einteilung des Phonems in eine große Anzahl feiner Klassen präziser ausgedrückt werden können, kann eine Verbesserung beim Hören erwartet werden. Allerdings kann das HMM in einigen Fällen aufgrund von Begrenzungen bezüglich der Datenmenge nicht für feine Phonemklassen ausgebildet werden. Demnach ist es bei der Durchführung einer systematischen Sprachsynthese unter Verwendung derartiger Phoneme erforderlich, einen multihierarchischen Aufbau anzuwenden, und ein Tonmuster unter Verwendung von Modellen der oberen Hierarchie zu erzeugen, wenn zu synthetisierende Phonemumgebungsmodelle in niedrigen Hierarchien aus feinen Klassen nicht vorhanden sind.
- Durch hierarchische Konfiguration der in den vorstehend beschriebenen ersten, zweiten und dritten Ausführungsbeispielen erhaltenen Tonmustermodellen ist es möglich, ein der Datenmenge entsprechendes Tonmuster auszuwählen und präzisere Tonmustermodelle, wenn die Datenmenge steigt, mit dem gleichen Aufbau ungeachtet der Datenmenge zu verwenden.
- Fig. 11 zeigt die hierarchische Struktur von Tonmustern. In Fig. 11 bezeichnet das Bezugszeichen 21 Klassen eines bei dem ersten Ausführungsbeispiel erzeugten Tonmusters. Das Bezugzeichen 22 bezeichnet Klassen eines Tonmusters, das bei der Klassifizierung des betreffenden Phonems in zwei Arten, d. h. einen stimmhaften Klang und einen stimmlosen Klang, als Phonemumgebung gemäß einem Beispiel des zweiten Ausführungsbeispieles klassifiziert wird. Das Bezugszeichen 23 bezeichnet Klassen eines Tonmusters, das erzeugt wird, wenn die betroffenen Phoneme und das nächste Phonem in zwei Arten, d. h.. einen stimmhaften Klang und einen stimmlosen Klang, als Phonemumgebung gemäß einem Beispiel des dritten Ausführungsbeispieles klassifiziert werden. Das Bezugszeichen 24 bezeichnet Klassen eines Tonmusters, das erzeugt wird, wenn das betroffene Phonem und das nächste Phonem entsprechend Phonemkategorien (stimmloser Frikativ, stimmhafter Verschlusslaut und dergleichen) gemäß einem weiteren Beispiel des dritten Ausführungsbeispieles klassifiziert werden.
- Die in Fig. 11 gezeigte hierarchische Struktur ist lediglich ein Beispiel der Erfindung. Beispielsweise kann die Phonemkategorie des Phonems vor dem betroffenen Phonem berücksichtigt werden. Bei einem anderen Ansatz können verschiedene Modelle für die jeweiligen Klassen angewendet werden, oder ein beliebiges in Fig. 11 gezeigtes Modell kann entfernt werden.
- Bei der Durchführung einer Spracherkennung unter Verwendung prosodischer Informationen durch Vergleich eines Tonmusters gemäß einem der ersten bis vierten Ausführungsbeispiele mit einem ausgesprochenen Tonmuster ist es möglich, das Phonem und den Betonungstyp zu bestimmen, und die Spracherkennungsrate zu verbessern. Dabei ist es erforderlich, ein Wörterbuch zur Erkennung einschließlich der Betonungstypen vorzusehen.
- Bei der Wortspracherkennug von Worten " (hashi, 0- Typ)" und (hashi, 1-Typ)", die gleich geschrieben werden und die gleiche Anzahl von Moren aber eine unterschiedliche Betonung haben, kann der Betonungstyp durch Extrahieren der Grundfrequenz aus der ausgesprochenen Sprache und Durchführen einer Identifizierung unter Verwendung eines Modells mit einem Tonmuster von zwei Moren/0-Typ und zwei Moren/l-Typ aus den bei dem ersten Ausführungsbeispiel erzeugten Tonmustern bestimmt werden.
- Werden gemäß einem anderen Ausführungsbeispiel Worte " (mibun, 1-Typ) " und " (kubun, 1-Typ) " erkannt, die die gleiche Anzahl von Moren und die gleiche Betonung aber unterschiedliche Konsonanten in der ersten Mora haben, wird durch Extrahieren der Grundfrequenz aus der ausgesprochenen Sprache und durch die Verwendung von zwei Modellen mit Kategorien von drei Moren/l-Typ und Konsonanten m und k in dem ersten Mora aus den in dem zweiten und dritten Ausführungsbeispiel erzeugten Tonmustern eine Wahrscheinlichkeit vom Gesichtspunkt des Tonmusters aus erhalten. Durch die Bewertung der Wahrscheinlichkeit zusammen mit den Spektralinformationen ist es möglich, die Spracherkennungsrate zu verbessern.
- Es ist auch möglich, die Grenze zwischen Betonungsphrasen unter Verwendung eines Tonmustermodells zu extrahieren, das bei dem ersten Ausführungsbeispiel erzeugt wird.
- Die einzelnen durch die Blöcke in den Zeichnungen bestimmten Komponenten sind auf dem Gebiet der Sprachinformationsverarbeitung bekannt, und ihr spezieller Aufbau und ihre spezielle Arbeitsweise sind nicht kritisch für den Betrieb bzw. die beste Art und Weise zur Ausführung der Erfindung.
- Obwohl die Erfindung hinsichtlich bevorzugter Ausführungsbeispiele beschrieben wurde, ist es selbstverständlich, dass die Erfindung nicht darauf beschränkt ist. Die Erfindung soll verschiedene Modifikationen und äquivalente Anordnungen abdecken, die im Schutzbereich der beigefügten Ansprüche enthalten sind.
Claims (19)
1. Sprachinformationsverarbeitungsverfahren mit den
Schritten
Extrahieren von Merkmalen aus den Sprachdaten zur
Ausbildung einer Merkmalsdatei und
Analysieren der Sprachdaten zur Ausbildung einer
Etikettdatei,
gekennzeichnet durch die weiteren Schritte
Durchführen einer statistischen Verarbeitung von
Merkmalen gespeicherter Sprachdaten für jede
Phonemumgebung, die zumindest die Anzahl von Moren und den
Akzenttyp enthalten, unter Verwendung der Merkmalsdatei und der
Etikettdatei zur Erzeugung von Tonmustermodellen und
Ausbilden eines Tonmusters unter Verwendung der
Tonmustermodelle, die für jede Phonemumgebung als
Ergebnis der statistischen Verarbeitung erhalten werden.
2. Verfahren nach Anspruch 1, wobei bei der statistischen
Verarbeitung ein kontextabhängiges HMM (Hidden-Markov-
Modell) verwendet wird.
3. Verfahren nach Anspruch 1, wobei bei der Ausbildung
des Tonmusters die Phonemumgebung von Phonemen vor und
nach dem Phonem, dessen Merkmale verarbeitet werden,
berücksichtigt wird.
4. Verfahren nach Anspruch 1, wobei die zur Ausbildung
des Tonmusters verwendeten Tonmustermodelle hierarchisch
konfiguriert werden.
5. Verfahren nach Anspruch 1, wobei das ausgebildete
Tonmuster mit dem Tonmuster der zu erkennenden
Spracheingabe verglichen wird, und ein entsprechendes Tonmuster
als Ergebnis der Erkennung der Spracheingabe ausgegeben
wird.
6. Verfahren nach Anspruch 1, wobei die Moraposition als
Teil der Phonemumgebung berücksichtigt wird.
7. Verfahren nach Anspruch 1, wobei jedes Phonem als Teil
der Phonemumgebung berücksichtigt wird.
8. Verfahren nach Anspruch 1, wobei die Phonemkategorie
als Teil der Phonemumgebung berücksichtigt wird.
9. Verfahren nach einem der vorhergehenden Ansprüche, mit
dem weiteren Schritt
Verwenden des ausgebildeten Tonmusters zur
systematischen Sprachsynthese.
10. Sprachinformationsverarbeitungsvorrichtung mit
einer Sprachdateispeichereinrichtung (11) zur
Speicherung von Sprachdaten,
einer Merkmalsextraktionseinrichtung (12) zur
Ausbildung einer Merkmalsdatei durch Extrahieren von
Merkmalen aus den in der Sprachdateispeichereinrichtung
(11) gespeicherten Sprachdaten und
einer Analyseeinrichtung zum Analysieren der zu
verarbeitenden Sprachdaten für jede Phonemumgebung,
gekennzeichnet durch
eine statistische Verarbeitungseinrichtung (17) zur
Durchführung einer statistischen Verarbeitung für jede
Phonemumgebung, die zumindest die Anzahl von Moren und
den Akzenttyp enthält, unter Verwendung der von der
Merkmalsextraktionseinrichtung erhaltenen Merkmalsdatei
und einer durch die Analyseeinrichtung erzeugten
Etikettdatei zur Erzeugung von Tonmustermodellen und
eine Tonmusterausbildungseinrichtung (18) zur
Ausbildung eines Tonmusters unter Verwendung der für jede
Phonemumgebung von der statistischen
Verarbeitungseinrichtung (17) erhaltenen Tonmustermodelle.
11. Vorrichtung nach Anspruch 10, wobei die statistische
Verarbeitungseinrichtung (17) zur Verwendung eines
kontextabhängigen HHPYs eingerichtet ist.
12. Vorrichtung nach Anspruch 10, wobei die
Tonmusterausbildungseinrichtung (18) zur Ausbildung des Tonmusters
unter Berücksichtigung der Phonemumgebung von Phonemen
vor und nach dem betroffenen Phonem eingerichtet ist.
13. Vorrichtung nach Anspruch 10, wobei die
Tonmusterausbildungseinrichtung (18) zur Ausbildung des Tonmusters
unter Verwendung von Tonmustermodellen eingerichtet ist,
die hierarchisch konfiguriert sind.
14. Vorrichtung nach Anspruch 10, wobei die
Tonmusterausbildungseinrichtung (18) zum Vergleichen des
ausgebildeten Tonmusters mit dem Tonmuster einer Spracheingabe als
zu erkennendes Objekt und zur Ausgabe eines
entsprechenden Tonmusters als Ergebnis der Erkennung der
Spracheingabe eingerichtet ist.
15. Vorrichtung nach Anspruch 10, wobei die statistische
Verarbeitungseinrichtung (17) zum Berücksichtigen der
Moraposition als Teil der Phonemumgebung eingerichtet
ist.
16. Vorrichtung nach Anspruch 10, wobei die statistische
Verarbeitungseinrichtung (17) zur Berücksichtigung der
Phoneme in der Phonemumgebung eingerichtet ist.
17. Vorrichtung nach Anspruch 10, wobei die statistische
Verarbeitungseinrichtung (17) zur Berücksichtigung der
Phonemkategorie als Teil der Phonemumgebung eingerichtet
ist.
18. Vorrichtung nach einem der Ansprüche 10 bis 17, mit
einer Sprachsyntheseeinrichtung, die das ausgebildete
Tonmuster verwendet.
19. Computerprogrammprodukt, das maschinenlesbare Befehle
zur Ausführung eines Verfahrens nach einem der Ansprüche
1 bis 9 speichert.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05041594A JP3450411B2 (ja) | 1994-03-22 | 1994-03-22 | 音声情報処理方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69519887D1 DE69519887D1 (de) | 2001-02-22 |
DE69519887T2 true DE69519887T2 (de) | 2001-07-19 |
Family
ID=12858238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69519887T Expired - Lifetime DE69519887T2 (de) | 1994-03-22 | 1995-03-17 | Verfahren und Vorrichtung zur Verarbeitung von Sprachinformation |
Country Status (4)
Country | Link |
---|---|
US (1) | US5845047A (de) |
EP (1) | EP0674307B1 (de) |
JP (1) | JP3450411B2 (de) |
DE (1) | DE69519887T2 (de) |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE504177C2 (sv) * | 1994-06-29 | 1996-12-02 | Telia Ab | Metod och anordning att adaptera en taligenkänningsutrustning för dialektala variationer i ett språk |
US6366883B1 (en) | 1996-05-15 | 2002-04-02 | Atr Interpreting Telecommunications | Concatenation of speech segments by use of a speech synthesizer |
JPH1039895A (ja) * | 1996-07-25 | 1998-02-13 | Matsushita Electric Ind Co Ltd | 音声合成方法および装置 |
JP3006677B2 (ja) * | 1996-10-28 | 2000-02-07 | 日本電気株式会社 | 音声認識装置 |
JP3576840B2 (ja) * | 1997-11-28 | 2004-10-13 | 松下電器産業株式会社 | 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体 |
US6055566A (en) * | 1998-01-12 | 2000-04-25 | Lextron Systems, Inc. | Customizable media player with online/offline capabilities |
JP3587048B2 (ja) * | 1998-03-02 | 2004-11-10 | 株式会社日立製作所 | 韻律制御方法及び音声合成装置 |
JP2000047696A (ja) | 1998-07-29 | 2000-02-18 | Canon Inc | 情報処理方法及び装置、その記憶媒体 |
JP3361066B2 (ja) | 1998-11-30 | 2003-01-07 | 松下電器産業株式会社 | 音声合成方法および装置 |
JP3841596B2 (ja) * | 1999-09-08 | 2006-11-01 | パイオニア株式会社 | 音素データの生成方法及び音声合成装置 |
JP3969908B2 (ja) | 1999-09-14 | 2007-09-05 | キヤノン株式会社 | 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 |
US20040006473A1 (en) * | 2002-07-02 | 2004-01-08 | Sbc Technology Resources, Inc. | Method and system for automated categorization of statements |
JP2001282278A (ja) * | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理装置及びその方法と記憶媒体 |
US7039588B2 (en) * | 2000-03-31 | 2006-05-02 | Canon Kabushiki Kaisha | Synthesis unit selection apparatus and method, and storage medium |
JP4632384B2 (ja) * | 2000-03-31 | 2011-02-16 | キヤノン株式会社 | 音声情報処理装置及びその方法と記憶媒体 |
JP4054507B2 (ja) | 2000-03-31 | 2008-02-27 | キヤノン株式会社 | 音声情報処理方法および装置および記憶媒体 |
JP2001282279A (ja) | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理方法及び装置及び記憶媒体 |
JP3728173B2 (ja) * | 2000-03-31 | 2005-12-21 | キヤノン株式会社 | 音声合成方法、装置および記憶媒体 |
JP3728172B2 (ja) * | 2000-03-31 | 2005-12-21 | キヤノン株式会社 | 音声合成方法および装置 |
JP3728177B2 (ja) | 2000-05-24 | 2005-12-21 | キヤノン株式会社 | 音声処理システム、装置、方法及び記憶媒体 |
JP2002132287A (ja) * | 2000-10-20 | 2002-05-09 | Canon Inc | 音声収録方法および音声収録装置および記憶媒体 |
US7249018B2 (en) | 2001-01-12 | 2007-07-24 | International Business Machines Corporation | System and method for relating syntax and semantics for a conversational speech application |
DE10120513C1 (de) * | 2001-04-26 | 2003-01-09 | Siemens Ag | Verfahren zur Bestimmung einer Folge von Lautbausteinen zum Synthetisieren eines Sprachsignals einer tonalen Sprache |
JP2003036088A (ja) * | 2001-07-23 | 2003-02-07 | Canon Inc | 音声変換の辞書管理装置 |
JP2003108178A (ja) * | 2001-09-27 | 2003-04-11 | Nec Corp | 音声合成装置及び音声合成用素片作成装置 |
US7266497B2 (en) * | 2002-03-29 | 2007-09-04 | At&T Corp. | Automatic segmentation in speech synthesis |
JP2003295882A (ja) * | 2002-04-02 | 2003-10-15 | Canon Inc | 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム |
EP1363271A1 (de) | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
DE10220524B4 (de) | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
US7280968B2 (en) * | 2003-03-25 | 2007-10-09 | International Business Machines Corporation | Synthetically generated speech responses including prosodic characteristics of speech inputs |
US7774196B2 (en) * | 2003-10-01 | 2010-08-10 | Dictaphone Corporation | System and method for modifying a language model and post-processor information |
EP1524650A1 (de) * | 2003-10-06 | 2005-04-20 | Sony International (Europe) GmbH | Zuverlässigkeitsmass in einem Spracherkennungssystem |
US7885391B2 (en) * | 2003-10-30 | 2011-02-08 | Hewlett-Packard Development Company, L.P. | System and method for call center dialog management |
JP4587160B2 (ja) * | 2004-03-26 | 2010-11-24 | キヤノン株式会社 | 信号処理装置および方法 |
JP4541781B2 (ja) * | 2004-06-29 | 2010-09-08 | キヤノン株式会社 | 音声認識装置および方法 |
JP4544933B2 (ja) * | 2004-07-29 | 2010-09-15 | 東芝テック株式会社 | 音声メモプリンタ |
JP4456537B2 (ja) * | 2004-09-14 | 2010-04-28 | 本田技研工業株式会社 | 情報伝達装置 |
US8189783B1 (en) * | 2005-12-21 | 2012-05-29 | At&T Intellectual Property Ii, L.P. | Systems, methods, and programs for detecting unauthorized use of mobile communication devices or systems |
US20080027725A1 (en) * | 2006-07-26 | 2008-01-31 | Microsoft Corporation | Automatic Accent Detection With Limited Manually Labeled Data |
US8346555B2 (en) | 2006-08-22 | 2013-01-01 | Nuance Communications, Inc. | Automatic grammar tuning using statistical language model generation |
JP4264841B2 (ja) | 2006-12-01 | 2009-05-20 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに、プログラム |
US7844457B2 (en) * | 2007-02-20 | 2010-11-30 | Microsoft Corporation | Unsupervised labeling of sentence level accent |
JP4455610B2 (ja) | 2007-03-28 | 2010-04-21 | 株式会社東芝 | 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法 |
JP2008263543A (ja) * | 2007-04-13 | 2008-10-30 | Funai Electric Co Ltd | 記録再生装置 |
JP4882899B2 (ja) * | 2007-07-25 | 2012-02-22 | ソニー株式会社 | 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム |
US8321222B2 (en) * | 2007-08-14 | 2012-11-27 | Nuance Communications, Inc. | Synthesis by generation and concatenation of multi-form segments |
US8315870B2 (en) | 2007-08-22 | 2012-11-20 | Nec Corporation | Rescoring speech recognition hypothesis using prosodic likelihood |
JP2010190955A (ja) * | 2009-02-16 | 2010-09-02 | Toshiba Corp | 音声合成装置、方法及びプログラム |
JP2011203482A (ja) * | 2010-03-25 | 2011-10-13 | Yamaha Corp | 音声処理装置 |
CN110164437B (zh) * | 2012-03-02 | 2021-04-16 | 腾讯科技(深圳)有限公司 | 一种即时通信的语音识别方法和终端 |
US9972300B2 (en) | 2015-06-11 | 2018-05-15 | Genesys Telecommunications Laboratories, Inc. | System and method for outlier identification to remove poor alignments in speech synthesis |
CN106205622A (zh) * | 2016-06-29 | 2016-12-07 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59226400A (ja) * | 1983-06-07 | 1984-12-19 | 松下電器産業株式会社 | 音声認識装置 |
JPH031200A (ja) * | 1989-05-29 | 1991-01-07 | Nec Corp | 規則型音声合成装置 |
EP0427485B1 (de) * | 1989-11-06 | 1996-08-14 | Canon Kabushiki Kaisha | Verfahren und Einrichtung zur Sprachsynthese |
DE69022237T2 (de) * | 1990-10-16 | 1996-05-02 | Ibm | Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell. |
JP3070127B2 (ja) * | 1991-05-07 | 2000-07-24 | 株式会社明電舎 | 音声合成装置のアクセント成分制御方式 |
EP0515709A1 (de) * | 1991-05-27 | 1992-12-02 | International Business Machines Corporation | Verfahren und Einrichtung zur Darstellung von Segmenteinheiten zur Text-Sprache-Umsetzung |
US5475796A (en) * | 1991-12-20 | 1995-12-12 | Nec Corporation | Pitch pattern generation apparatus |
JPH05181491A (ja) * | 1991-12-30 | 1993-07-23 | Sony Corp | 音声合成装置 |
-
1994
- 1994-03-22 JP JP05041594A patent/JP3450411B2/ja not_active Expired - Fee Related
-
1995
- 1995-03-17 DE DE69519887T patent/DE69519887T2/de not_active Expired - Lifetime
- 1995-03-17 EP EP95301802A patent/EP0674307B1/de not_active Expired - Lifetime
- 1995-03-20 US US08/406,487 patent/US5845047A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US5845047A (en) | 1998-12-01 |
JPH07261778A (ja) | 1995-10-13 |
JP3450411B2 (ja) | 2003-09-22 |
DE69519887D1 (de) | 2001-02-22 |
EP0674307A3 (de) | 1996-04-24 |
EP0674307A2 (de) | 1995-09-27 |
EP0674307B1 (de) | 2001-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69519887T2 (de) | Verfahren und Vorrichtung zur Verarbeitung von Sprachinformation | |
DE10042944C2 (de) | Graphem-Phonem-Konvertierung | |
DE69917415T2 (de) | Sprachsynthese mit Prosodie-Mustern | |
DE69617581T2 (de) | System und Verfahren zur Bestimmung des Verlaufs der Grundfrequenz | |
DE69031165T2 (de) | System und methode zur text-sprache-umsetzung mit hilfe von kontextabhängigen vokalallophonen | |
DE60118874T2 (de) | Prosodiemustervergleich für Text-zu-Sprache Systeme | |
DE60026637T2 (de) | Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems | |
DE69022237T2 (de) | Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell. | |
DE69620399T2 (de) | Sprachsynthese | |
DE69712277T2 (de) | Verfahren und vorrichtung zur automatischen sprachsegmentierung in phonemartigen einheiten | |
DE69506037T2 (de) | Audioausgabeeinheit und Methode | |
DE69821673T2 (de) | Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE60035001T2 (de) | Sprachsynthese mit Prosodie-Mustern | |
DE69424350T2 (de) | Kontextsensitive Methode zum Auffinden von Informationen über ein Wort in einem elektronischen Wörterbuch | |
DE19825205C2 (de) | Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz | |
DE102017124264B4 (de) | Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen | |
DE60020434T2 (de) | Erzeugung und Synthese von Prosodie-Mustern | |
DE69719654T2 (de) | Grundfrequenzmuster enthaltende Prosodie-Datenbanken für die Sprachsynthese | |
DE69427083T2 (de) | Spracherkennungssystem für mehrere sprachen | |
DE69718284T2 (de) | Sprachsynthesesystem und Wellenform-Datenbank mit verringerter Redundanz | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
DE60110315T2 (de) | Trainieren von akustischen Modellen zur Widerstandsfähigkeit gegen Rauschen | |
DE2212472A1 (de) | Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte | |
DE69710525T2 (de) | Verfahren und Vorrichtung zur Sprachsynthese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |