[go: up one dir, main page]

DE69519887T2 - Verfahren und Vorrichtung zur Verarbeitung von Sprachinformation - Google Patents

Verfahren und Vorrichtung zur Verarbeitung von Sprachinformation

Info

Publication number
DE69519887T2
DE69519887T2 DE69519887T DE69519887T DE69519887T2 DE 69519887 T2 DE69519887 T2 DE 69519887T2 DE 69519887 T DE69519887 T DE 69519887T DE 69519887 T DE69519887 T DE 69519887T DE 69519887 T2 DE69519887 T2 DE 69519887T2
Authority
DE
Germany
Prior art keywords
phoneme
pattern
statistical processing
speech
tone pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69519887T
Other languages
English (en)
Other versions
DE69519887D1 (de
Inventor
Takashi Aso
Toshiaki Fukada
Yasuhiro Komori
Yasunori Ohora
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Application granted granted Critical
Publication of DE69519887D1 publication Critical patent/DE69519887D1/de
Publication of DE69519887T2 publication Critical patent/DE69519887T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

  • Die Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur Verarbeitung von Sprachinformationen, wobei bei der Sprachinformationsverarbeitung, wie einer systematischen Sprachsynthese, Spracherkennung oder dergleichen, zur Erzeugung eines natürlichen Metrums einer synthetisierten Sprache oder zur Verbesserung der Spracherkennungsrate eine statistische Verarbeitung von Merkmalen, wie der grundlegenden Frequenz und der Kraft der Sprache und der gleichen unter Berücksichtigung einer Phonemumgebung durchgeführt wird, und ein Tonmustermodell aufgebaut wird, das mit großer Wahrscheinlichkeit eine hohe Zuverlässigkeit hat.
  • Sprache ist die natürlichste Form des Informationsaustauschs zwischen Menschen. Andererseits haben Computer derart große Fortschritte gemacht, dass sie nicht nur numerische Berechnungen durchführen, sondern auch verschiedene Arten von Informationen verarbeiten. Demnach besteht das Bedürfnis nach der Verwendung von Sprache als Mittel zum Austauschen von Informationen zwischen Mensch und Maschine.
  • Bei einer systematischen Sprachsynthesevorrichtung unter diesen Informationsaustauscheinrichtungen wandelt eine Maschine einen willkürlichen Text in synthetisierte Sprache um. Daher dient eine derartige Vorrichtung als wichtige Einrichtung zur Übertragung von Informationen vom Computer zum Menschen. Allerdings ist die synthetisierte Sprachausgabe von einer herkömmlichen Sprachsynthesevorrichtung verglichen mit der natürlichen Sprache des Menschen unnatürlich und mechanisch. Ein Grund für dieses Problem besteht darin, dass bei der herkömmlichen Technik lediglich ein einfaches Modell für Metrumerzeugungsregeln zur Erzeugung der Betonung und Intonation verwendet wird.
  • Demnach klingt durch ein einfaches Modell synthetisierte Sprache für den, der die Sprache hört, mechanisch. Ferner bewirkt eine Spracherkennung, bei der eine Änderung aufgrund einer Phonemumgebung nicht berücksichtigt wird, eine Verschlechterung der Erkennungsrate.
  • Die EP-A-0515709 offenbart ein Sprachinformationsverarbeitungsverfahren, bei dem das Tonmuster für jedes Phonem in Abhängigkeit von dem Wort, zu dem jedes Phonem gehört, der Betonungsposition, Dauer und Kontinuitätsbeschränkung bestimmt wird.
  • Wenn eine Datei von Merkmalen, wie die Grundfrequenz und die Sprachlautstärke beziehungsweise Kraft der Sprache und dergleichen, und eine Etikettdatei statistisch verarbeitet werden, werden mit der Erfindung die folgenden Punkte erzielt.
  • 1) Durch die Verwendung eines kontextabhängigen HMM (Hidden Markov Modell), d. h. abhängig vom Betonungstyp, der Anzahl der Moren und der Moraposition, können Informationen über die Varianz, den Mittelwert und die Übergangswahrscheinlichkeit eines Tonmusters erzeugt werden. Somit kann ein Modell, das mit hoher Wahrscheinlichkeit eine hohe Zuverlässigkeit hat, automatisch erzeugt werden, und Sprache kann synthetisiert werden, die natürlich und nahe der von einem Menschen ausgesprochenen Sprache ist.
  • 2) Durch die Verwendung des kontextabhängigen HMM, bei dem die Phonemumgebung (stimmlose Frikative, stimmhafte Verschlusslaute oder dergleichen) des betroffenen Phonems zusätzlich zum Betonungstyp, der Anzahl der Moren und der Moraposition wie in Punkt 1 berücksichtigt werden, werden Informationen über die Varianz, den Mittelwert, die Übergangswahrscheinlichkeit und dergleichen eines Tonmusters für jede Phonemumgebung erzeugt. Daher kann ein Modell, das mit hoher Wahrscheinlichkeit eine hohe Zuverlässigkeit aufweist, automatisch erzeugt werden, und Sprache, die natürlich und nahe an menschlicher Sprache ist, kann synthetisiert werden.
  • 3) Für eine Kategorie mit einer großen Datenmenge wird durch Berücksichtigung der Phonemumgebung von Phonemen vor und nach dem betreffenden Phonem und dergleichen zusätzlich zu dem Betonungstyp, der Anzahl von Moren, der Moraposition und der Phonemumgebung des betroffenen Phonems wie in Punkt 2 ein Tonmuster erhalten, das präziser ist, als das in Punkt 2 erhaltene Tonmuster, und Sprache, die natürlich und nahe der menschlichen Sprache ist, kann synthetisiert werden.
  • 4) Durch hierarchische Konfiguration und Verwendung der in den Punkten 1, 2 und 3 beschriebenen Informationen kann ein präzises Tonmustermodell, bei dem die Phonemumgebung und dergleichen berücksichtigt ist, aus einem Tonmustermodell, bei dem lediglich eine grobe Struktur gezeigt ist, entsprechend der Datenmenge ausgewählt werden, und Sprache kann synthetisiert werden, die natürlich und nahe der menschlichen Sprache ist.
  • 5) Durch die Bereitstellung des hierarchisch konfigurierten Tonmustermodells wie in Punkt 4 und eines Erkennungswörterbuchs mit Betonungsinformationen kann eine Spracherkennung durchgeführt werden, die prosodische Informationen verwendet, und die Erkennungsrate kann erhöht werden.
  • Gemäß einer ersten Ausgestaltung der Erfindung ist ein Sprachinformationsverarbeitungsverfahren mit den Schritten ausgestaltet
  • Extrahieren von Merkmalen aus den Sprachdaten zur Ausbildung einer Merkmalsdatei und
  • Analysieren der Sprachdaten zur Ausbildung einer Etikettdatei,
  • gekennzeichnet durch die weiteren Schritte Durchführen einer statistischen Verarbeitung von Merkmalen gespeicherter Sprachdaten für jede Phonemumgebung, die zumindest die Anzahl von Moren und den Akzenttyp enthalten, unter Verwendung der Merkmalsdatei und der Etikettdatei zur Erzeugung von Tonmustermodellen und
  • Ausbilden eines Tonmusters unter Verwendung der Tonmustermodelle, die für jede Phonemumgebung als Ergebnis der statistischen Verarbeitung erhalten werden. Gemäß einer zweiten Ausgestaltung der Erfindung ist ein Sprachinformationsverarbeitungsvorrichtung ausgestaltet, mit
  • einer Sprachdateispeichereinrichtung zur Speicherung von Sprachdaten,
  • einer Merkmalsextraktionseinrichtung zur Ausbildung einer Merkmalsdatei durch Extrahieren von Merkmalen aus den in der Sprachdateispeichereinrichtung gespeicherten Sprachdaten und
  • einer Analyseeinrichtung zum Analysieren der zu verarbeitenden Sprachdaten für jede Phonemumgebung, gekennzeichnet durch
  • eine statistische Verarbeitungseinrichtung zur Durchführung einer statistischen Verarbeitung für jede Phonemumgebung, die zumindest die Anzahl von Moren und den Akzenttyp enthält, unter Verwendung der von der Merkmalsextraktionseinrichtung erhaltenen Merkmalsdatei und einer durch die Analyseeinrichtung erzeugten Etikettdatei zur Erzeugung von Tonmustermodellen und
  • eine Tonmusterausbildungseinrichtung zur Ausbildung eines Tonmusters unter Verwendung der für jede Phonemumgebung von der statistischen Verarbeitungseinrichtung erhaltenen Tonmustermodelle.
  • Die vorstehenden und weitere Aufgaben, Vorteile und Merkmale der Erfindung werden aus der folgenden Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung unter Bezugnahme auf die beiliegende Zeichnung ersichtlich. Es zeigen:
  • Fig. 1 eine Darstellung des Aufbaus der Funktionseinheiten zur Ausbildung eines Tonmusters,
  • Fig. 2 eine Darstellung von Etiketten,
  • Fig. 3 eine Darstellung einer Phonemliste,
  • Fig. 4 eine Darstellung einer Etikettdatei,
  • Fig. 5 eine Darstellung einer Tonmustertabelle unter Verwendung des kontextabhängigen HMMs; d. h. unter Verwendung des Betonungstyps, der Anzahl von Moren und der Moraposition,
  • Fig. 6 und 7 Darstellungen, die jeweils ein Beispiel der Ausbildung eines Tonmusters unter Verwendung des kontextabhängigen HMMs darstellen, d. h. des Betonungstyps, der Anzahl von Moren und der Moraposition,
  • Fig. 8 eine Darstellung einer Tonmustertabelle unter Verwendung eines Phonem-kontextabhängigen HMMs, bei dem auch die Phonemkategorie berücksichtigt wird,
  • Fig. 9 und 10 Darstellungen, die jeweils ein Beispiel der Ausbildung eines Tonmusters unter Verwendung des phonemischen kontextabhängigen HMMs darstellen, d. h. der Phonemkategorie, des Betonungstyps, der Anzahl von Moren und der Moraposition,
  • Fig. 11 eine Darstellung einer hierarchischen Struktur eines Tonmusters und
  • Fig. 12 ein Blockschaltbild des Aufbaus einer Sprachinformationsverarbeitungsvorrichtung.
  • Erstes Ausführungsbeispiel
  • Fig. 12 zeigt ein Blockschaltbild des Aufbaus einer Sprachinformationsverarbeitungsvorrichtung gemäß einem ersten Ausführungsbeispiel der Erfindung.
  • Gemäß Fig. 12 steuert eine CPU (Zentralverarbeitungseinrichtung) 1 die Verarbeitung der gesamten Vorrichtung entsprechend in einem ROM (Nur-Lese- Speicher) 2 gespeicherten Programmen. Das ROM 2 speichert Steuerprogramme für eine entsprechende in dem Ausführungsbeispiel beschriebene Verarbeitung. Ein RAM (Speicher mit wahlfreiem Zugriff) 3 enthält einen Abschnitt zur Speicherung von Daten, wie Dateien, Tabellen, und dergleichen, die bei der in dem Ausführungsbeispiel durchgeführten entsprechenden Verarbeitung verwendet werden, und einen Arbeitsspeicherabschnitt zur Speicherung von Daten, die während der Verarbeitung erzeugt werden. Eine Tastatur 4 wird zur Eingabe von Codeinformationen zum Anweisen der jeweiligen Verarbeitung, wie der Bereitstellung von Etiketten für eine Sprachdatei und dergleichen, verwendet. Eine Zeigeeinrichtung 5 wird zur Eingabe von Informationen bezüglich der Koordinaten einer gewünschten Position verwendet. Die Zeigeeinrichtung 5 kann beispielsweise die Form eines Stifts zur Eingabe eines Orts haben. Eine Anzeigeeinrichtung 6 zeigt von der Tastatur 4 oder der Zeigeeinrichtung 5 eingegebene Informationen, in der Vorrichtung empfangene Informationen, Informationen während der Verarbeitung oder ein Verarbeitungsergebnis an. Eine Kathodenstrahlröhre (CRT) oder eine Flüssigkristallanzeige wird als Anzeigeeinrichtung 6 verwendet. Ein Mikrofon 7 wird zur Eingabe von Sprache, die als zu erkennendes Objekt dient, oder zur Eingabe verschiedener Arten von Sprachbefehlen verwendet. Ein Lautsprecher 8 gibt synthetisierte Sprache oder eine Sprachnachricht aus.
  • Nachstehend wird das erste Ausführungsbeispiel unter Bezugnahme auf die Darstellung des Aufbaus der in Fig. 1 gezeigten Funktionseinheiten beschrieben.
  • Gemäß Fig. 1 speichert eine Sprachdatei 11 eine Sprachdatenbasis und dergleichen. Eine Merkmalsextraktionseinheit extrahiert Merkmale aus den in der Sprachdatei 11 gespeicherten Daten. Eine Etikettbereitstellungseinheit 13 versieht die in der Sprachdatei 11 gespeicherten Daten mit dem Etikett jedes Phonems. Eine Phonemlistenausbildungseinheit 14 bildet eine Phonemliste für die in der Sprachdatei 11 gespeicherten Daten aus. Eine Merkmalsdatei 15 speichert Merkmale der in der Sprachdatei 11 gespeicherten Daten, die durch die Merkmalsextraktionseinheit 12 extrahiert wurden, zusammen mit einer Sprachdateinummer. Eine Etikettdatei 16 speichert Daten für jedes aus Daten gebildete Etikett, die von der Etikettbereitstellungseinheit 13 und der Phonemlistenausbildungseinheit 14 erhalten werden. Eine Statistikverarbeitungseinheit 17 führt eine statistische Verarbeitung beruhend auf in einer inneren Merkmalsdatei 15 und der Etikettdatei 16 gespeicherten Daten durch. Eine Tonmusterausbildungseinheit 18 bildet ein Tonmuster unter Verwendung der Daten aus, die von der Statistikverarbeitungseinheit 17 erhalten werden.
  • Jede durch den vorstehend beschriebenen Aufbau durchgeführte Verarbeitung wird nachstehend näher unter Bezugnahme auf die Figuren beschrieben, die während der Verarbeitung erzeugte Daten zeigen.
  • Zuerst wird durch ein Verfahren, bei dem der Bediener visuell Etikettdaten für auf der Anzeigeeinrichtung 6 angezeigte Daten über die Tastatur 4 oder dergleichen eingibt, und ein Verfahren, bei dem die Steuerung durch ein Programm durchgeführt wird, wie es in Fig. 2 gezeigt ist, ein Etikett für jedes Phonem der Daten der Sprachdatenbasis oder dergleichen, die in der Sprachdatei 11 gespeichert ist, erzeugt. Da beispielsweise Daten "aki" mit einer Sprachdateinummer 1 (was nachstehend unter Bezugnahme auf Fig. 3 näher beschrieben wird) ein Phonem a, ein Phonem k und Phonem i umfassen, werden Etiketten als Zeiten "100-149" für das Phonem a, Zeiten "150-179" für das Phonem k und Zeiten "180-200" für das Phonem i bestimmt.
  • Die Phonemlistenausbildungseinheit 14 bildet, wie in Fig. 3 gezeigt, eine Phonemliste aus dem Betonungstyp, der Anzahl der Moren, der Phonemkategorie und dergleichen für jede Sprachdateinummer aus (beispielsweise in Einheiten eines Worts). Beispielsweise wird die Phonemliste für die Daten "aki" mit der Sprachdateinummer 1 derart bestimmt, dass die Anzahl der Moren 2 ist und der Betonungstyp ein "0-Typ" ist.
  • Daten für jedes Etikett, wie es in Fig. 4 gezeigt ist, bei dem die Phonemumgebung aus dem Betonungstyp, der Anzahl der Moren, der Moraposition, der Phonemkategorie und dergleichen berücksichtigt ist, werden aus Daten gebildet, die von der Etikettbereitstellungseinheit 13 und der Phonemlistenausbildungseinheit 14 erhalten werden, und werden in der Etikettdatei 16 gespeichert.
  • Die Merkmalsextraktionseinheit 12 zeigt in der Sprachdatei 11 gespeicherte Daten auf der Anzeigeeinrichtung 6 an. Durch eines der Verfahren, bei dem der Bediener Etikettdaten für die angezeigten Daten über die Tastatur 4 oder dgl. visuell eingibt, und das Verfahren, bei dem die Steuerung durch ein Programm durchgeführt wird, werden Merkmale, wie die Grundfrequenz, die Lautstärke, Schwankungen dieser Werte (die Delta-Tonhöhe und die Delta-Lautstärke) und dgl. extrahiert, und die Merkmalsdatei 15 wird ausgebildet.
  • Die Merkmalsextraktionseinheit 12 kann ein Verfahren verwenden, bei dem unter Verwendung von durch die Etikettausbildungseinheit 13 bereitgestellte Etikettinformationen die Grundfrequenz bspw. entsprechend einem stimmhaften/stimmlosen Klang/Nicht-Klang durch die Bereitstellung bestimmter Codes für ein stimmloses Intervall und ein klangloses Intervall extrahiert wird.
  • Die Statistikverarbeitungseinheit 17 führt eine statistische Verarbeitung beruhend auf in der Merkmalsdatei 15 und der Etikettdatei 16 gespeicherten Daten durch, und die Tonmusterausbildungseinheit 18 bildet ein Tonmuster aus.
  • Die Grundfrequenz (oder eine logarithmische Transformation dieser), die Lautstärke, Dauer, Spektralinformationen (Cepstrum, LPC-Koeffizienten und dgl.), lineare Regressionskoeffizienten und quadratische Regressionskoeffizienten dieser Werte und dgl. können als Merkmale darstellende Parameter verwendet werden und die statistische Verarbeitung kann durch willkürliche Kombination dieser Parameter durchgeführt werden.
  • Es können auch normalisierte Daten der vorstehend beschriebenen Merkmale, wie die logarithmische Grundfrequenz, die Lautstärke und dgl. für jedes Datum, jede Kategorie oder alle Daten verwendet werden.
  • Als Beispiel wird bei dem Ausführungsbeispiel eine Beschreibung eines Falls angeführt, bei dem die Phonemlistenausbildungseinheit 14 eine Phonemliste unter Verwendung des Betonungstyps, der Anzahl der Moren und der Moraposition ausbildet, und die Merkmalsdatei 15 lediglich die logarithmische Grundfrequenz verwendet. Fig. 5 zeigt eine Tonmustertabelle, wenn das kontextabhängige HMM, d. h. der Betonungstyp, die Anzahl der Moren und die Moraposition (ein kontinuierliches HMM mit drei Zuständen / zwei Schleifen pro Mora) verwendet wird. Bei diesem Ausführungsbeispiel wird die Phonemumgebung einer statistischen Verarbeitung durch Klassifizierung entsprechend dem Betonungstyp, der Anzahl der Moren und der Moraposition unterzogen.
  • Nachstehend werden Prozeduren zur Ausbildung eines Tonmusters für "AZI" durch die
  • Tonmusterausbildungseinheit 18 unter Bezugnahme auf die Fig. 6 und 7 beschrieben.
  • 1. Der Phonemumgebung entsprechende Modelle (021, 022) werden ausgewählt. Da die Anzahl der Moren 2 ist und der Betonungstyp der 0-Typ für "AZI" ist, werden Daten mit den Morapositionen 1 und 2 bei dieser Phonemumgebung ausgewählt.
  • 2. Die Zustände der ausgewählten Modelle werden entsprechend der Dauer (11, 12, 13) der Phoneme eingestellt.
  • 3. Punkttonhöhen werden unter Verwendung der Mittelwerte (u11, u12, P13 und dgl.) der Frequenzen der jeweiligen Zustände bestimmt.
  • 4. Die Punkttonhöhen werden interpoliert (die Interpolation für einen stimmhaften Konsonanten wird unter Verwendung zweier an den Konsonanten angrenzender Vokale durchgeführt), und das in Fig. 6 gezeigte Tonmuster wird ausgebildet.
  • 5. Werden die Merkmale aus der normalisierten Grundfrequenz, wie in Fig. 7 gezeigt, extrahiert, wird das in Fig. 6 gezeigte Tonmuster mit einer dynamischen Reichweite (d) multipliziert und eine Vorverschiebung (b) wird hinzugefügt.
  • Bei dieser Vorgehensweise wird die Zuordnung einer Zeit für drei Zustände (ein Phonem) in jedem Model durch ein Verfahren einer einfachen Teilung der Gesamtzeit in drei gleiche Zeitabschnitte, ein Verfahren zur Verteilung der Zeit proportional zum Verhältnis der Übergangswahrscheinlichkeit, ein Verfahren der Teilung der Zeit proportional zum Verhältnis der statistischen Dauern, die aus dem Viterbi-Dekodieralgorythmus durch Anlegen von Lerndaten an das erhaltene Modell erhalten werden können, oder dergleichen, durchgeführt. Grundfrequenzkonturen können für die Tonmustermodelle ausgebildet werden, für die die Zeit unter Verwendung einer verschiedener Arten von Interpolationsoperationen, wie der linearen Interpolation, Spline-Interpolation und dergleichen, verteilt wurde. Zu diesem Zeitpunkt kann auch eine Tonmusterkorrektur unter Berücksichtigung der Varianz durchgeführt werden.
  • Zweites Ausführungsbeispiel
  • Bei dem vorstehend beschriebenem ersten Ausführungsbeispiel umfasst die Phonemumgebung einer durch die Phonemlistenausbildungseinheit 14 ausgebildeten Phonemliste den Betonungstyp, den Moratyp, und die Moraposition. Nachstehend wird ein zweites Ausführungsbeispiel der Erfindung beschrieben, bei dem eine Phonemliste unter Berücksichtigung der Umgebung ausgebildet wird, die ein Phonem oder eine Phonemkategorie (nachstehend als Phonemkategorie einschließlich des Phonems bezeichnet) zusätzlich zu den vorstehend beschriebenen Punkten einschließt, und die Merkmalsdatei 15 lediglich die logarithmische Grundfrequenz verwendet. Fig. 8 zeigt eine Tonmustertabelle, wenn das phonemische kontextabhängige HMM verwendet wird, bei dem der Betonungstyp, die Anzahl der Moren, die Moraposition und die Phonemkategorie berücksichtigt werden (ein kontinuierliches HMM mit drei Zuständen/drei Schleifen pro Mora). Bei diesem Ausführungsbeispiel wird die Phonemumgebung einer statistischen Verarbeitung durch Klassifizierung entsprechend dem Betonungstyp, der Anzahl der Moren, der Moraposition und der Phonemkategorie unterzogen.
  • Nachstehend werden Prozeduren zur Ausbildung eines Tonmusters durch die Tonmusterausbildungseinheit 18 aus Fig. 1 unter Bezugnahme auf die Fig. 9 und 10 beschrieben.
  • 1. Der Phonemumgebung entsprechende Modelle (V012, V022, Vz022) werden ausgewählt.
  • 2. Die Zustände der ausgewählten Modelle werden entsprechend der Dauer (11, 12, 13) der Phoneme eingerichtet.
  • 3. Punkttonhöhen werden unter Verwendung der Mittelwerte (u11, u12, u13 und dergleichen) der Frequenzen der jeweiligen Zustände bestimmt.
  • 4. Die Punkttonhöhen werden interpoliert, und ein Tonmuster wie in Fig. 9 gezeigt wird ausgebildet.
  • 5. Werden die Merkmale aus der normalisierten Grundfrequenz extrahiert, wie es in Fig. 10 gezeigt ist, wird das in Fig. 9 gezeigte Tonmuster mit einer dynamischen Reichweite (d) multipliziert und eine Vorverschiebung (b) wird addiert.
  • Die Zeitzuordnung und Interpolation können auf die gleiche Weise wie bei dem vorstehend beschriebenen ersten Ausführungsbeispiel durchgeführt werden.
  • Drittes Ausführungsbeispiel
  • Für eine Kategorie mit einer großen Datenmenge kann ein Tonmuster, da es präziser als das bei dem ersten Ausführungsbeispiel ist, beispielsweise durch Berücksichtigung der Phonemumgebung von Phonemen vor und nach dem betreffendem Phonem erzeugt werden.
  • Viertes Ausführungsbeispiel
  • Da feine Änderungen im Phonem durch die Einteilung des Phonems in eine große Anzahl feiner Klassen präziser ausgedrückt werden können, kann eine Verbesserung beim Hören erwartet werden. Allerdings kann das HMM in einigen Fällen aufgrund von Begrenzungen bezüglich der Datenmenge nicht für feine Phonemklassen ausgebildet werden. Demnach ist es bei der Durchführung einer systematischen Sprachsynthese unter Verwendung derartiger Phoneme erforderlich, einen multihierarchischen Aufbau anzuwenden, und ein Tonmuster unter Verwendung von Modellen der oberen Hierarchie zu erzeugen, wenn zu synthetisierende Phonemumgebungsmodelle in niedrigen Hierarchien aus feinen Klassen nicht vorhanden sind.
  • Durch hierarchische Konfiguration der in den vorstehend beschriebenen ersten, zweiten und dritten Ausführungsbeispielen erhaltenen Tonmustermodellen ist es möglich, ein der Datenmenge entsprechendes Tonmuster auszuwählen und präzisere Tonmustermodelle, wenn die Datenmenge steigt, mit dem gleichen Aufbau ungeachtet der Datenmenge zu verwenden.
  • Fig. 11 zeigt die hierarchische Struktur von Tonmustern. In Fig. 11 bezeichnet das Bezugszeichen 21 Klassen eines bei dem ersten Ausführungsbeispiel erzeugten Tonmusters. Das Bezugzeichen 22 bezeichnet Klassen eines Tonmusters, das bei der Klassifizierung des betreffenden Phonems in zwei Arten, d. h. einen stimmhaften Klang und einen stimmlosen Klang, als Phonemumgebung gemäß einem Beispiel des zweiten Ausführungsbeispieles klassifiziert wird. Das Bezugszeichen 23 bezeichnet Klassen eines Tonmusters, das erzeugt wird, wenn die betroffenen Phoneme und das nächste Phonem in zwei Arten, d. h.. einen stimmhaften Klang und einen stimmlosen Klang, als Phonemumgebung gemäß einem Beispiel des dritten Ausführungsbeispieles klassifiziert werden. Das Bezugszeichen 24 bezeichnet Klassen eines Tonmusters, das erzeugt wird, wenn das betroffene Phonem und das nächste Phonem entsprechend Phonemkategorien (stimmloser Frikativ, stimmhafter Verschlusslaut und dergleichen) gemäß einem weiteren Beispiel des dritten Ausführungsbeispieles klassifiziert werden.
  • Die in Fig. 11 gezeigte hierarchische Struktur ist lediglich ein Beispiel der Erfindung. Beispielsweise kann die Phonemkategorie des Phonems vor dem betroffenen Phonem berücksichtigt werden. Bei einem anderen Ansatz können verschiedene Modelle für die jeweiligen Klassen angewendet werden, oder ein beliebiges in Fig. 11 gezeigtes Modell kann entfernt werden.
  • Fünftes Ausführungsbeispiel
  • Bei der Durchführung einer Spracherkennung unter Verwendung prosodischer Informationen durch Vergleich eines Tonmusters gemäß einem der ersten bis vierten Ausführungsbeispiele mit einem ausgesprochenen Tonmuster ist es möglich, das Phonem und den Betonungstyp zu bestimmen, und die Spracherkennungsrate zu verbessern. Dabei ist es erforderlich, ein Wörterbuch zur Erkennung einschließlich der Betonungstypen vorzusehen.
  • Bei der Wortspracherkennug von Worten " (hashi, 0- Typ)" und (hashi, 1-Typ)", die gleich geschrieben werden und die gleiche Anzahl von Moren aber eine unterschiedliche Betonung haben, kann der Betonungstyp durch Extrahieren der Grundfrequenz aus der ausgesprochenen Sprache und Durchführen einer Identifizierung unter Verwendung eines Modells mit einem Tonmuster von zwei Moren/0-Typ und zwei Moren/l-Typ aus den bei dem ersten Ausführungsbeispiel erzeugten Tonmustern bestimmt werden.
  • Werden gemäß einem anderen Ausführungsbeispiel Worte " (mibun, 1-Typ) " und " (kubun, 1-Typ) " erkannt, die die gleiche Anzahl von Moren und die gleiche Betonung aber unterschiedliche Konsonanten in der ersten Mora haben, wird durch Extrahieren der Grundfrequenz aus der ausgesprochenen Sprache und durch die Verwendung von zwei Modellen mit Kategorien von drei Moren/l-Typ und Konsonanten m und k in dem ersten Mora aus den in dem zweiten und dritten Ausführungsbeispiel erzeugten Tonmustern eine Wahrscheinlichkeit vom Gesichtspunkt des Tonmusters aus erhalten. Durch die Bewertung der Wahrscheinlichkeit zusammen mit den Spektralinformationen ist es möglich, die Spracherkennungsrate zu verbessern.
  • Es ist auch möglich, die Grenze zwischen Betonungsphrasen unter Verwendung eines Tonmustermodells zu extrahieren, das bei dem ersten Ausführungsbeispiel erzeugt wird.
  • Die einzelnen durch die Blöcke in den Zeichnungen bestimmten Komponenten sind auf dem Gebiet der Sprachinformationsverarbeitung bekannt, und ihr spezieller Aufbau und ihre spezielle Arbeitsweise sind nicht kritisch für den Betrieb bzw. die beste Art und Weise zur Ausführung der Erfindung.
  • Obwohl die Erfindung hinsichtlich bevorzugter Ausführungsbeispiele beschrieben wurde, ist es selbstverständlich, dass die Erfindung nicht darauf beschränkt ist. Die Erfindung soll verschiedene Modifikationen und äquivalente Anordnungen abdecken, die im Schutzbereich der beigefügten Ansprüche enthalten sind.

Claims (19)

1. Sprachinformationsverarbeitungsverfahren mit den Schritten
Extrahieren von Merkmalen aus den Sprachdaten zur Ausbildung einer Merkmalsdatei und
Analysieren der Sprachdaten zur Ausbildung einer Etikettdatei,
gekennzeichnet durch die weiteren Schritte Durchführen einer statistischen Verarbeitung von Merkmalen gespeicherter Sprachdaten für jede Phonemumgebung, die zumindest die Anzahl von Moren und den Akzenttyp enthalten, unter Verwendung der Merkmalsdatei und der Etikettdatei zur Erzeugung von Tonmustermodellen und
Ausbilden eines Tonmusters unter Verwendung der Tonmustermodelle, die für jede Phonemumgebung als Ergebnis der statistischen Verarbeitung erhalten werden.
2. Verfahren nach Anspruch 1, wobei bei der statistischen Verarbeitung ein kontextabhängiges HMM (Hidden-Markov- Modell) verwendet wird.
3. Verfahren nach Anspruch 1, wobei bei der Ausbildung des Tonmusters die Phonemumgebung von Phonemen vor und nach dem Phonem, dessen Merkmale verarbeitet werden, berücksichtigt wird.
4. Verfahren nach Anspruch 1, wobei die zur Ausbildung des Tonmusters verwendeten Tonmustermodelle hierarchisch konfiguriert werden.
5. Verfahren nach Anspruch 1, wobei das ausgebildete Tonmuster mit dem Tonmuster der zu erkennenden Spracheingabe verglichen wird, und ein entsprechendes Tonmuster als Ergebnis der Erkennung der Spracheingabe ausgegeben wird.
6. Verfahren nach Anspruch 1, wobei die Moraposition als Teil der Phonemumgebung berücksichtigt wird.
7. Verfahren nach Anspruch 1, wobei jedes Phonem als Teil der Phonemumgebung berücksichtigt wird.
8. Verfahren nach Anspruch 1, wobei die Phonemkategorie als Teil der Phonemumgebung berücksichtigt wird.
9. Verfahren nach einem der vorhergehenden Ansprüche, mit dem weiteren Schritt Verwenden des ausgebildeten Tonmusters zur systematischen Sprachsynthese.
10. Sprachinformationsverarbeitungsvorrichtung mit einer Sprachdateispeichereinrichtung (11) zur Speicherung von Sprachdaten,
einer Merkmalsextraktionseinrichtung (12) zur Ausbildung einer Merkmalsdatei durch Extrahieren von Merkmalen aus den in der Sprachdateispeichereinrichtung (11) gespeicherten Sprachdaten und
einer Analyseeinrichtung zum Analysieren der zu verarbeitenden Sprachdaten für jede Phonemumgebung, gekennzeichnet durch
eine statistische Verarbeitungseinrichtung (17) zur Durchführung einer statistischen Verarbeitung für jede Phonemumgebung, die zumindest die Anzahl von Moren und den Akzenttyp enthält, unter Verwendung der von der Merkmalsextraktionseinrichtung erhaltenen Merkmalsdatei und einer durch die Analyseeinrichtung erzeugten Etikettdatei zur Erzeugung von Tonmustermodellen und
eine Tonmusterausbildungseinrichtung (18) zur Ausbildung eines Tonmusters unter Verwendung der für jede Phonemumgebung von der statistischen Verarbeitungseinrichtung (17) erhaltenen Tonmustermodelle.
11. Vorrichtung nach Anspruch 10, wobei die statistische Verarbeitungseinrichtung (17) zur Verwendung eines kontextabhängigen HHPYs eingerichtet ist.
12. Vorrichtung nach Anspruch 10, wobei die Tonmusterausbildungseinrichtung (18) zur Ausbildung des Tonmusters unter Berücksichtigung der Phonemumgebung von Phonemen vor und nach dem betroffenen Phonem eingerichtet ist.
13. Vorrichtung nach Anspruch 10, wobei die Tonmusterausbildungseinrichtung (18) zur Ausbildung des Tonmusters unter Verwendung von Tonmustermodellen eingerichtet ist, die hierarchisch konfiguriert sind.
14. Vorrichtung nach Anspruch 10, wobei die Tonmusterausbildungseinrichtung (18) zum Vergleichen des ausgebildeten Tonmusters mit dem Tonmuster einer Spracheingabe als zu erkennendes Objekt und zur Ausgabe eines entsprechenden Tonmusters als Ergebnis der Erkennung der Spracheingabe eingerichtet ist.
15. Vorrichtung nach Anspruch 10, wobei die statistische Verarbeitungseinrichtung (17) zum Berücksichtigen der Moraposition als Teil der Phonemumgebung eingerichtet ist.
16. Vorrichtung nach Anspruch 10, wobei die statistische Verarbeitungseinrichtung (17) zur Berücksichtigung der Phoneme in der Phonemumgebung eingerichtet ist.
17. Vorrichtung nach Anspruch 10, wobei die statistische Verarbeitungseinrichtung (17) zur Berücksichtigung der Phonemkategorie als Teil der Phonemumgebung eingerichtet ist.
18. Vorrichtung nach einem der Ansprüche 10 bis 17, mit einer Sprachsyntheseeinrichtung, die das ausgebildete Tonmuster verwendet.
19. Computerprogrammprodukt, das maschinenlesbare Befehle zur Ausführung eines Verfahrens nach einem der Ansprüche 1 bis 9 speichert.
DE69519887T 1994-03-22 1995-03-17 Verfahren und Vorrichtung zur Verarbeitung von Sprachinformation Expired - Lifetime DE69519887T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05041594A JP3450411B2 (ja) 1994-03-22 1994-03-22 音声情報処理方法及び装置

Publications (2)

Publication Number Publication Date
DE69519887D1 DE69519887D1 (de) 2001-02-22
DE69519887T2 true DE69519887T2 (de) 2001-07-19

Family

ID=12858238

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69519887T Expired - Lifetime DE69519887T2 (de) 1994-03-22 1995-03-17 Verfahren und Vorrichtung zur Verarbeitung von Sprachinformation

Country Status (4)

Country Link
US (1) US5845047A (de)
EP (1) EP0674307B1 (de)
JP (1) JP3450411B2 (de)
DE (1) DE69519887T2 (de)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE504177C2 (sv) * 1994-06-29 1996-12-02 Telia Ab Metod och anordning att adaptera en taligenkänningsutrustning för dialektala variationer i ett språk
US6366883B1 (en) 1996-05-15 2002-04-02 Atr Interpreting Telecommunications Concatenation of speech segments by use of a speech synthesizer
JPH1039895A (ja) * 1996-07-25 1998-02-13 Matsushita Electric Ind Co Ltd 音声合成方法および装置
JP3006677B2 (ja) * 1996-10-28 2000-02-07 日本電気株式会社 音声認識装置
JP3576840B2 (ja) * 1997-11-28 2004-10-13 松下電器産業株式会社 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体
US6055566A (en) * 1998-01-12 2000-04-25 Lextron Systems, Inc. Customizable media player with online/offline capabilities
JP3587048B2 (ja) * 1998-03-02 2004-11-10 株式会社日立製作所 韻律制御方法及び音声合成装置
JP2000047696A (ja) 1998-07-29 2000-02-18 Canon Inc 情報処理方法及び装置、その記憶媒体
JP3361066B2 (ja) 1998-11-30 2003-01-07 松下電器産業株式会社 音声合成方法および装置
JP3841596B2 (ja) * 1999-09-08 2006-11-01 パイオニア株式会社 音素データの生成方法及び音声合成装置
JP3969908B2 (ja) 1999-09-14 2007-09-05 キヤノン株式会社 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
US20040006473A1 (en) * 2002-07-02 2004-01-08 Sbc Technology Resources, Inc. Method and system for automated categorization of statements
JP2001282278A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
JP4632384B2 (ja) * 2000-03-31 2011-02-16 キヤノン株式会社 音声情報処理装置及びその方法と記憶媒体
JP4054507B2 (ja) 2000-03-31 2008-02-27 キヤノン株式会社 音声情報処理方法および装置および記憶媒体
JP2001282279A (ja) 2000-03-31 2001-10-12 Canon Inc 音声情報処理方法及び装置及び記憶媒体
JP3728173B2 (ja) * 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法、装置および記憶媒体
JP3728172B2 (ja) * 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
JP3728177B2 (ja) 2000-05-24 2005-12-21 キヤノン株式会社 音声処理システム、装置、方法及び記憶媒体
JP2002132287A (ja) * 2000-10-20 2002-05-09 Canon Inc 音声収録方法および音声収録装置および記憶媒体
US7249018B2 (en) 2001-01-12 2007-07-24 International Business Machines Corporation System and method for relating syntax and semantics for a conversational speech application
DE10120513C1 (de) * 2001-04-26 2003-01-09 Siemens Ag Verfahren zur Bestimmung einer Folge von Lautbausteinen zum Synthetisieren eines Sprachsignals einer tonalen Sprache
JP2003036088A (ja) * 2001-07-23 2003-02-07 Canon Inc 音声変換の辞書管理装置
JP2003108178A (ja) * 2001-09-27 2003-04-11 Nec Corp 音声合成装置及び音声合成用素片作成装置
US7266497B2 (en) * 2002-03-29 2007-09-04 At&T Corp. Automatic segmentation in speech synthesis
JP2003295882A (ja) * 2002-04-02 2003-10-15 Canon Inc 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
EP1363271A1 (de) 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220524B4 (de) 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
US7280968B2 (en) * 2003-03-25 2007-10-09 International Business Machines Corporation Synthetically generated speech responses including prosodic characteristics of speech inputs
US7774196B2 (en) * 2003-10-01 2010-08-10 Dictaphone Corporation System and method for modifying a language model and post-processor information
EP1524650A1 (de) * 2003-10-06 2005-04-20 Sony International (Europe) GmbH Zuverlässigkeitsmass in einem Spracherkennungssystem
US7885391B2 (en) * 2003-10-30 2011-02-08 Hewlett-Packard Development Company, L.P. System and method for call center dialog management
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
JP4541781B2 (ja) * 2004-06-29 2010-09-08 キヤノン株式会社 音声認識装置および方法
JP4544933B2 (ja) * 2004-07-29 2010-09-15 東芝テック株式会社 音声メモプリンタ
JP4456537B2 (ja) * 2004-09-14 2010-04-28 本田技研工業株式会社 情報伝達装置
US8189783B1 (en) * 2005-12-21 2012-05-29 At&T Intellectual Property Ii, L.P. Systems, methods, and programs for detecting unauthorized use of mobile communication devices or systems
US20080027725A1 (en) * 2006-07-26 2008-01-31 Microsoft Corporation Automatic Accent Detection With Limited Manually Labeled Data
US8346555B2 (en) 2006-08-22 2013-01-01 Nuance Communications, Inc. Automatic grammar tuning using statistical language model generation
JP4264841B2 (ja) 2006-12-01 2009-05-20 ソニー株式会社 音声認識装置および音声認識方法、並びに、プログラム
US7844457B2 (en) * 2007-02-20 2010-11-30 Microsoft Corporation Unsupervised labeling of sentence level accent
JP4455610B2 (ja) 2007-03-28 2010-04-21 株式会社東芝 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法
JP2008263543A (ja) * 2007-04-13 2008-10-30 Funai Electric Co Ltd 記録再生装置
JP4882899B2 (ja) * 2007-07-25 2012-02-22 ソニー株式会社 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
US8315870B2 (en) 2007-08-22 2012-11-20 Nec Corporation Rescoring speech recognition hypothesis using prosodic likelihood
JP2010190955A (ja) * 2009-02-16 2010-09-02 Toshiba Corp 音声合成装置、方法及びプログラム
JP2011203482A (ja) * 2010-03-25 2011-10-13 Yamaha Corp 音声処理装置
CN110164437B (zh) * 2012-03-02 2021-04-16 腾讯科技(深圳)有限公司 一种即时通信的语音识别方法和终端
US9972300B2 (en) 2015-06-11 2018-05-15 Genesys Telecommunications Laboratories, Inc. System and method for outlier identification to remove poor alignments in speech synthesis
CN106205622A (zh) * 2016-06-29 2016-12-07 联想(北京)有限公司 信息处理方法及电子设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59226400A (ja) * 1983-06-07 1984-12-19 松下電器産業株式会社 音声認識装置
JPH031200A (ja) * 1989-05-29 1991-01-07 Nec Corp 規則型音声合成装置
EP0427485B1 (de) * 1989-11-06 1996-08-14 Canon Kabushiki Kaisha Verfahren und Einrichtung zur Sprachsynthese
DE69022237T2 (de) * 1990-10-16 1996-05-02 Ibm Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell.
JP3070127B2 (ja) * 1991-05-07 2000-07-24 株式会社明電舎 音声合成装置のアクセント成分制御方式
EP0515709A1 (de) * 1991-05-27 1992-12-02 International Business Machines Corporation Verfahren und Einrichtung zur Darstellung von Segmenteinheiten zur Text-Sprache-Umsetzung
US5475796A (en) * 1991-12-20 1995-12-12 Nec Corporation Pitch pattern generation apparatus
JPH05181491A (ja) * 1991-12-30 1993-07-23 Sony Corp 音声合成装置

Also Published As

Publication number Publication date
US5845047A (en) 1998-12-01
JPH07261778A (ja) 1995-10-13
JP3450411B2 (ja) 2003-09-22
DE69519887D1 (de) 2001-02-22
EP0674307A3 (de) 1996-04-24
EP0674307A2 (de) 1995-09-27
EP0674307B1 (de) 2001-01-17

Similar Documents

Publication Publication Date Title
DE69519887T2 (de) Verfahren und Vorrichtung zur Verarbeitung von Sprachinformation
DE10042944C2 (de) Graphem-Phonem-Konvertierung
DE69917415T2 (de) Sprachsynthese mit Prosodie-Mustern
DE69617581T2 (de) System und Verfahren zur Bestimmung des Verlaufs der Grundfrequenz
DE69031165T2 (de) System und methode zur text-sprache-umsetzung mit hilfe von kontextabhängigen vokalallophonen
DE60118874T2 (de) Prosodiemustervergleich für Text-zu-Sprache Systeme
DE60026637T2 (de) Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems
DE69022237T2 (de) Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell.
DE69620399T2 (de) Sprachsynthese
DE69712277T2 (de) Verfahren und vorrichtung zur automatischen sprachsegmentierung in phonemartigen einheiten
DE69506037T2 (de) Audioausgabeeinheit und Methode
DE69821673T2 (de) Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
DE69424350T2 (de) Kontextsensitive Methode zum Auffinden von Informationen über ein Wort in einem elektronischen Wörterbuch
DE19825205C2 (de) Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
DE69719654T2 (de) Grundfrequenzmuster enthaltende Prosodie-Datenbanken für die Sprachsynthese
DE69427083T2 (de) Spracherkennungssystem für mehrere sprachen
DE69718284T2 (de) Sprachsynthesesystem und Wellenform-Datenbank mit verringerter Redundanz
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE60110315T2 (de) Trainieren von akustischen Modellen zur Widerstandsfähigkeit gegen Rauschen
DE2212472A1 (de) Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte
DE69710525T2 (de) Verfahren und Vorrichtung zur Sprachsynthese

Legal Events

Date Code Title Description
8364 No opposition during term of opposition