DE69519887T2

DE69519887T2 - Verfahren und Vorrichtung zur Verarbeitung von Sprachinformation

Info

Publication number: DE69519887T2
Application number: DE69519887T
Authority: DE
Inventors: Takashi Aso; Toshiaki Fukada; Yasuhiro Komori; Yasunori Ohora
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1994-03-22
Filing date: 1995-03-17
Publication date: 2001-07-19
Anticipated expiration: 2015-03-18
Also published as: US5845047A; JPH07261778A; JP3450411B2; DE69519887D1; EP0674307A3; EP0674307A2; EP0674307B1

Description

Die Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur Verarbeitung von Sprachinformationen, wobei bei der Sprachinformationsverarbeitung, wie einer systematischen Sprachsynthese, Spracherkennung oder dergleichen, zur Erzeugung eines natürlichen Metrums einer synthetisierten Sprache oder zur Verbesserung der Spracherkennungsrate eine statistische Verarbeitung von Merkmalen, wie der grundlegenden Frequenz und der Kraft der Sprache und der gleichen unter Berücksichtigung einer Phonemumgebung durchgeführt wird, und ein Tonmustermodell aufgebaut wird, das mit großer Wahrscheinlichkeit eine hohe Zuverlässigkeit hat.
Sprache ist die natürlichste Form des Informationsaustauschs zwischen Menschen. Andererseits haben Computer derart große Fortschritte gemacht, dass sie nicht nur numerische Berechnungen durchführen, sondern auch verschiedene Arten von Informationen verarbeiten. Demnach besteht das Bedürfnis nach der Verwendung von Sprache als Mittel zum Austauschen von Informationen zwischen Mensch und Maschine.
Bei einer systematischen Sprachsynthesevorrichtung unter diesen Informationsaustauscheinrichtungen wandelt eine Maschine einen willkürlichen Text in synthetisierte Sprache um. Daher dient eine derartige Vorrichtung als wichtige Einrichtung zur Übertragung von Informationen vom Computer zum Menschen. Allerdings ist die synthetisierte Sprachausgabe von einer herkömmlichen Sprachsynthesevorrichtung verglichen mit der natürlichen Sprache des Menschen unnatürlich und mechanisch. Ein Grund für dieses Problem besteht darin, dass bei der herkömmlichen Technik lediglich ein einfaches Modell für Metrumerzeugungsregeln zur Erzeugung der Betonung und Intonation verwendet wird.
Demnach klingt durch ein einfaches Modell synthetisierte Sprache für den, der die Sprache hört, mechanisch. Ferner bewirkt eine Spracherkennung, bei der eine Änderung aufgrund einer Phonemumgebung nicht berücksichtigt wird, eine Verschlechterung der Erkennungsrate.
Die EP-A-0515709 offenbart ein Sprachinformationsverarbeitungsverfahren, bei dem das Tonmuster für jedes Phonem in Abhängigkeit von dem Wort, zu dem jedes Phonem gehört, der Betonungsposition, Dauer und Kontinuitätsbeschränkung bestimmt wird.
Wenn eine Datei von Merkmalen, wie die Grundfrequenz und die Sprachlautstärke beziehungsweise Kraft der Sprache und dergleichen, und eine Etikettdatei statistisch verarbeitet werden, werden mit der Erfindung die folgenden Punkte erzielt.
1) Durch die Verwendung eines kontextabhängigen HMM (Hidden Markov Modell), d. h. abhängig vom Betonungstyp, der Anzahl der Moren und der Moraposition, können Informationen über die Varianz, den Mittelwert und die Übergangswahrscheinlichkeit eines Tonmusters erzeugt werden. Somit kann ein Modell, das mit hoher Wahrscheinlichkeit eine hohe Zuverlässigkeit hat, automatisch erzeugt werden, und Sprache kann synthetisiert werden, die natürlich und nahe der von einem Menschen ausgesprochenen Sprache ist.
2) Durch die Verwendung des kontextabhängigen HMM, bei dem die Phonemumgebung (stimmlose Frikative, stimmhafte Verschlusslaute oder dergleichen) des betroffenen Phonems zusätzlich zum Betonungstyp, der Anzahl der Moren und der Moraposition wie in Punkt 1 berücksichtigt werden, werden Informationen über die Varianz, den Mittelwert, die Übergangswahrscheinlichkeit und dergleichen eines Tonmusters für jede Phonemumgebung erzeugt. Daher kann ein Modell, das mit hoher Wahrscheinlichkeit eine hohe Zuverlässigkeit aufweist, automatisch erzeugt werden, und Sprache, die natürlich und nahe an menschlicher Sprache ist, kann synthetisiert werden.
3) Für eine Kategorie mit einer großen Datenmenge wird durch Berücksichtigung der Phonemumgebung von Phonemen vor und nach dem betreffenden Phonem und dergleichen zusätzlich zu dem Betonungstyp, der Anzahl von Moren, der Moraposition und der Phonemumgebung des betroffenen Phonems wie in Punkt 2 ein Tonmuster erhalten, das präziser ist, als das in Punkt 2 erhaltene Tonmuster, und Sprache, die natürlich und nahe der menschlichen Sprache ist, kann synthetisiert werden.
4) Durch hierarchische Konfiguration und Verwendung der in den Punkten 1, 2 und 3 beschriebenen Informationen kann ein präzises Tonmustermodell, bei dem die Phonemumgebung und dergleichen berücksichtigt ist, aus einem Tonmustermodell, bei dem lediglich eine grobe Struktur gezeigt ist, entsprechend der Datenmenge ausgewählt werden, und Sprache kann synthetisiert werden, die natürlich und nahe der menschlichen Sprache ist.
5) Durch die Bereitstellung des hierarchisch konfigurierten Tonmustermodells wie in Punkt 4 und eines Erkennungswörterbuchs mit Betonungsinformationen kann eine Spracherkennung durchgeführt werden, die prosodische Informationen verwendet, und die Erkennungsrate kann erhöht werden.
Gemäß einer ersten Ausgestaltung der Erfindung ist ein Sprachinformationsverarbeitungsverfahren mit den Schritten ausgestaltet
Extrahieren von Merkmalen aus den Sprachdaten zur Ausbildung einer Merkmalsdatei und
Analysieren der Sprachdaten zur Ausbildung einer Etikettdatei,
gekennzeichnet durch die weiteren Schritte Durchführen einer statistischen Verarbeitung von Merkmalen gespeicherter Sprachdaten für jede Phonemumgebung, die zumindest die Anzahl von Moren und den Akzenttyp enthalten, unter Verwendung der Merkmalsdatei und der Etikettdatei zur Erzeugung von Tonmustermodellen und
Ausbilden eines Tonmusters unter Verwendung der Tonmustermodelle, die für jede Phonemumgebung als Ergebnis der statistischen Verarbeitung erhalten werden. Gemäß einer zweiten Ausgestaltung der Erfindung ist ein Sprachinformationsverarbeitungsvorrichtung ausgestaltet, mit
einer Sprachdateispeichereinrichtung zur Speicherung von Sprachdaten,
einer Merkmalsextraktionseinrichtung zur Ausbildung einer Merkmalsdatei durch Extrahieren von Merkmalen aus den in der Sprachdateispeichereinrichtung gespeicherten Sprachdaten und
einer Analyseeinrichtung zum Analysieren der zu verarbeitenden Sprachdaten für jede Phonemumgebung, gekennzeichnet durch
eine statistische Verarbeitungseinrichtung zur Durchführung einer statistischen Verarbeitung für jede Phonemumgebung, die zumindest die Anzahl von Moren und den Akzenttyp enthält, unter Verwendung der von der Merkmalsextraktionseinrichtung erhaltenen Merkmalsdatei und einer durch die Analyseeinrichtung erzeugten Etikettdatei zur Erzeugung von Tonmustermodellen und
eine Tonmusterausbildungseinrichtung zur Ausbildung eines Tonmusters unter Verwendung der für jede Phonemumgebung von der statistischen Verarbeitungseinrichtung erhaltenen Tonmustermodelle.
Die vorstehenden und weitere Aufgaben, Vorteile und Merkmale der Erfindung werden aus der folgenden Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung unter Bezugnahme auf die beiliegende Zeichnung ersichtlich. Es zeigen:
Fig. 1 eine Darstellung des Aufbaus der Funktionseinheiten zur Ausbildung eines Tonmusters,
Fig. 2 eine Darstellung von Etiketten,
Fig. 3 eine Darstellung einer Phonemliste,
Fig. 4 eine Darstellung einer Etikettdatei,
Fig. 5 eine Darstellung einer Tonmustertabelle unter Verwendung des kontextabhängigen HMMs; d. h. unter Verwendung des Betonungstyps, der Anzahl von Moren und der Moraposition,
Fig. 6 und 7 Darstellungen, die jeweils ein Beispiel der Ausbildung eines Tonmusters unter Verwendung des kontextabhängigen HMMs darstellen, d. h. des Betonungstyps, der Anzahl von Moren und der Moraposition,
Fig. 8 eine Darstellung einer Tonmustertabelle unter Verwendung eines Phonem-kontextabhängigen HMMs, bei dem auch die Phonemkategorie berücksichtigt wird,
Fig. 9 und 10 Darstellungen, die jeweils ein Beispiel der Ausbildung eines Tonmusters unter Verwendung des phonemischen kontextabhängigen HMMs darstellen, d. h. der Phonemkategorie, des Betonungstyps, der Anzahl von Moren und der Moraposition,
Fig. 11 eine Darstellung einer hierarchischen Struktur eines Tonmusters und
Fig. 12 ein Blockschaltbild des Aufbaus einer Sprachinformationsverarbeitungsvorrichtung.

Erstes Ausführungsbeispiel

Fig. 12 zeigt ein Blockschaltbild des Aufbaus einer Sprachinformationsverarbeitungsvorrichtung gemäß einem ersten Ausführungsbeispiel der Erfindung.
Gemäß Fig. 12 steuert eine CPU (Zentralverarbeitungseinrichtung) 1 die Verarbeitung der gesamten Vorrichtung entsprechend in einem ROM (Nur-Lese- Speicher) 2 gespeicherten Programmen. Das ROM 2 speichert Steuerprogramme für eine entsprechende in dem Ausführungsbeispiel beschriebene Verarbeitung. Ein RAM (Speicher mit wahlfreiem Zugriff) 3 enthält einen Abschnitt zur Speicherung von Daten, wie Dateien, Tabellen, und dergleichen, die bei der in dem Ausführungsbeispiel durchgeführten entsprechenden Verarbeitung verwendet werden, und einen Arbeitsspeicherabschnitt zur Speicherung von Daten, die während der Verarbeitung erzeugt werden. Eine Tastatur 4 wird zur Eingabe von Codeinformationen zum Anweisen der jeweiligen Verarbeitung, wie der Bereitstellung von Etiketten für eine Sprachdatei und dergleichen, verwendet. Eine Zeigeeinrichtung 5 wird zur Eingabe von Informationen bezüglich der Koordinaten einer gewünschten Position verwendet. Die Zeigeeinrichtung 5 kann beispielsweise die Form eines Stifts zur Eingabe eines Orts haben. Eine Anzeigeeinrichtung 6 zeigt von der Tastatur 4 oder der Zeigeeinrichtung 5 eingegebene Informationen, in der Vorrichtung empfangene Informationen, Informationen während der Verarbeitung oder ein Verarbeitungsergebnis an. Eine Kathodenstrahlröhre (CRT) oder eine Flüssigkristallanzeige wird als Anzeigeeinrichtung 6 verwendet. Ein Mikrofon 7 wird zur Eingabe von Sprache, die als zu erkennendes Objekt dient, oder zur Eingabe verschiedener Arten von Sprachbefehlen verwendet. Ein Lautsprecher 8 gibt synthetisierte Sprache oder eine Sprachnachricht aus.
Nachstehend wird das erste Ausführungsbeispiel unter Bezugnahme auf die Darstellung des Aufbaus der in Fig. 1 gezeigten Funktionseinheiten beschrieben.
Gemäß Fig. 1 speichert eine Sprachdatei 11 eine Sprachdatenbasis und dergleichen. Eine Merkmalsextraktionseinheit extrahiert Merkmale aus den in der Sprachdatei 11 gespeicherten Daten. Eine Etikettbereitstellungseinheit 13 versieht die in der Sprachdatei 11 gespeicherten Daten mit dem Etikett jedes Phonems. Eine Phonemlistenausbildungseinheit 14 bildet eine Phonemliste für die in der Sprachdatei 11 gespeicherten Daten aus. Eine Merkmalsdatei 15 speichert Merkmale der in der Sprachdatei 11 gespeicherten Daten, die durch die Merkmalsextraktionseinheit 12 extrahiert wurden, zusammen mit einer Sprachdateinummer. Eine Etikettdatei 16 speichert Daten für jedes aus Daten gebildete Etikett, die von der Etikettbereitstellungseinheit 13 und der Phonemlistenausbildungseinheit 14 erhalten werden. Eine Statistikverarbeitungseinheit 17 führt eine statistische Verarbeitung beruhend auf in einer inneren Merkmalsdatei 15 und der Etikettdatei 16 gespeicherten Daten durch. Eine Tonmusterausbildungseinheit 18 bildet ein Tonmuster unter Verwendung der Daten aus, die von der Statistikverarbeitungseinheit 17 erhalten werden.
Jede durch den vorstehend beschriebenen Aufbau durchgeführte Verarbeitung wird nachstehend näher unter Bezugnahme auf die Figuren beschrieben, die während der Verarbeitung erzeugte Daten zeigen.
Zuerst wird durch ein Verfahren, bei dem der Bediener visuell Etikettdaten für auf der Anzeigeeinrichtung 6 angezeigte Daten über die Tastatur 4 oder dergleichen eingibt, und ein Verfahren, bei dem die Steuerung durch ein Programm durchgeführt wird, wie es in Fig. 2 gezeigt ist, ein Etikett für jedes Phonem der Daten der Sprachdatenbasis oder dergleichen, die in der Sprachdatei 11 gespeichert ist, erzeugt. Da beispielsweise Daten "aki" mit einer Sprachdateinummer 1 (was nachstehend unter Bezugnahme auf Fig. 3 näher beschrieben wird) ein Phonem a, ein Phonem k und Phonem i umfassen, werden Etiketten als Zeiten "100-149" für das Phonem a, Zeiten "150-179" für das Phonem k und Zeiten "180-200" für das Phonem i bestimmt.
Die Phonemlistenausbildungseinheit 14 bildet, wie in Fig. 3 gezeigt, eine Phonemliste aus dem Betonungstyp, der Anzahl der Moren, der Phonemkategorie und dergleichen für jede Sprachdateinummer aus (beispielsweise in Einheiten eines Worts). Beispielsweise wird die Phonemliste für die Daten "aki" mit der Sprachdateinummer 1 derart bestimmt, dass die Anzahl der Moren 2 ist und der Betonungstyp ein "0-Typ" ist.
Daten für jedes Etikett, wie es in Fig. 4 gezeigt ist, bei dem die Phonemumgebung aus dem Betonungstyp, der Anzahl der Moren, der Moraposition, der Phonemkategorie und dergleichen berücksichtigt ist, werden aus Daten gebildet, die von der Etikettbereitstellungseinheit 13 und der Phonemlistenausbildungseinheit 14 erhalten werden, und werden in der Etikettdatei 16 gespeichert.
Die Merkmalsextraktionseinheit 12 zeigt in der Sprachdatei 11 gespeicherte Daten auf der Anzeigeeinrichtung 6 an. Durch eines der Verfahren, bei dem der Bediener Etikettdaten für die angezeigten Daten über die Tastatur 4 oder dgl. visuell eingibt, und das Verfahren, bei dem die Steuerung durch ein Programm durchgeführt wird, werden Merkmale, wie die Grundfrequenz, die Lautstärke, Schwankungen dieser Werte (die Delta-Tonhöhe und die Delta-Lautstärke) und dgl. extrahiert, und die Merkmalsdatei 15 wird ausgebildet.
Die Merkmalsextraktionseinheit 12 kann ein Verfahren verwenden, bei dem unter Verwendung von durch die Etikettausbildungseinheit 13 bereitgestellte Etikettinformationen die Grundfrequenz bspw. entsprechend einem stimmhaften/stimmlosen Klang/Nicht-Klang durch die Bereitstellung bestimmter Codes für ein stimmloses Intervall und ein klangloses Intervall extrahiert wird.
Die Statistikverarbeitungseinheit 17 führt eine statistische Verarbeitung beruhend auf in der Merkmalsdatei 15 und der Etikettdatei 16 gespeicherten Daten durch, und die Tonmusterausbildungseinheit 18 bildet ein Tonmuster aus.
Die Grundfrequenz (oder eine logarithmische Transformation dieser), die Lautstärke, Dauer, Spektralinformationen (Cepstrum, LPC-Koeffizienten und dgl.), lineare Regressionskoeffizienten und quadratische Regressionskoeffizienten dieser Werte und dgl. können als Merkmale darstellende Parameter verwendet werden und die statistische Verarbeitung kann durch willkürliche Kombination dieser Parameter durchgeführt werden.
Es können auch normalisierte Daten der vorstehend beschriebenen Merkmale, wie die logarithmische Grundfrequenz, die Lautstärke und dgl. für jedes Datum, jede Kategorie oder alle Daten verwendet werden.
Als Beispiel wird bei dem Ausführungsbeispiel eine Beschreibung eines Falls angeführt, bei dem die Phonemlistenausbildungseinheit 14 eine Phonemliste unter Verwendung des Betonungstyps, der Anzahl der Moren und der Moraposition ausbildet, und die Merkmalsdatei 15 lediglich die logarithmische Grundfrequenz verwendet. Fig. 5 zeigt eine Tonmustertabelle, wenn das kontextabhängige HMM, d. h. der Betonungstyp, die Anzahl der Moren und die Moraposition (ein kontinuierliches HMM mit drei Zuständen / zwei Schleifen pro Mora) verwendet wird. Bei diesem Ausführungsbeispiel wird die Phonemumgebung einer statistischen Verarbeitung durch Klassifizierung entsprechend dem Betonungstyp, der Anzahl der Moren und der Moraposition unterzogen.
Nachstehend werden Prozeduren zur Ausbildung eines Tonmusters für "AZI" durch die
Tonmusterausbildungseinheit 18 unter Bezugnahme auf die Fig. 6 und 7 beschrieben.
1. Der Phonemumgebung entsprechende Modelle (021, 022) werden ausgewählt. Da die Anzahl der Moren 2 ist und der Betonungstyp der 0-Typ für "AZI" ist, werden Daten mit den Morapositionen 1 und 2 bei dieser Phonemumgebung ausgewählt.
2. Die Zustände der ausgewählten Modelle werden entsprechend der Dauer (11, 12, 13) der Phoneme eingestellt.
3. Punkttonhöhen werden unter Verwendung der Mittelwerte (u11, u12, P13 und dgl.) der Frequenzen der jeweiligen Zustände bestimmt.
4. Die Punkttonhöhen werden interpoliert (die Interpolation für einen stimmhaften Konsonanten wird unter Verwendung zweier an den Konsonanten angrenzender Vokale durchgeführt), und das in Fig. 6 gezeigte Tonmuster wird ausgebildet.
5. Werden die Merkmale aus der normalisierten Grundfrequenz, wie in Fig. 7 gezeigt, extrahiert, wird das in Fig. 6 gezeigte Tonmuster mit einer dynamischen Reichweite (d) multipliziert und eine Vorverschiebung (b) wird hinzugefügt.
Bei dieser Vorgehensweise wird die Zuordnung einer Zeit für drei Zustände (ein Phonem) in jedem Model durch ein Verfahren einer einfachen Teilung der Gesamtzeit in drei gleiche Zeitabschnitte, ein Verfahren zur Verteilung der Zeit proportional zum Verhältnis der Übergangswahrscheinlichkeit, ein Verfahren der Teilung der Zeit proportional zum Verhältnis der statistischen Dauern, die aus dem Viterbi-Dekodieralgorythmus durch Anlegen von Lerndaten an das erhaltene Modell erhalten werden können, oder dergleichen, durchgeführt. Grundfrequenzkonturen können für die Tonmustermodelle ausgebildet werden, für die die Zeit unter Verwendung einer verschiedener Arten von Interpolationsoperationen, wie der linearen Interpolation, Spline-Interpolation und dergleichen, verteilt wurde. Zu diesem Zeitpunkt kann auch eine Tonmusterkorrektur unter Berücksichtigung der Varianz durchgeführt werden.

Zweites Ausführungsbeispiel

Bei dem vorstehend beschriebenem ersten Ausführungsbeispiel umfasst die Phonemumgebung einer durch die Phonemlistenausbildungseinheit 14 ausgebildeten Phonemliste den Betonungstyp, den Moratyp, und die Moraposition. Nachstehend wird ein zweites Ausführungsbeispiel der Erfindung beschrieben, bei dem eine Phonemliste unter Berücksichtigung der Umgebung ausgebildet wird, die ein Phonem oder eine Phonemkategorie (nachstehend als Phonemkategorie einschließlich des Phonems bezeichnet) zusätzlich zu den vorstehend beschriebenen Punkten einschließt, und die Merkmalsdatei 15 lediglich die logarithmische Grundfrequenz verwendet. Fig. 8 zeigt eine Tonmustertabelle, wenn das phonemische kontextabhängige HMM verwendet wird, bei dem der Betonungstyp, die Anzahl der Moren, die Moraposition und die Phonemkategorie berücksichtigt werden (ein kontinuierliches HMM mit drei Zuständen/drei Schleifen pro Mora). Bei diesem Ausführungsbeispiel wird die Phonemumgebung einer statistischen Verarbeitung durch Klassifizierung entsprechend dem Betonungstyp, der Anzahl der Moren, der Moraposition und der Phonemkategorie unterzogen.
Nachstehend werden Prozeduren zur Ausbildung eines Tonmusters durch die Tonmusterausbildungseinheit 18 aus Fig. 1 unter Bezugnahme auf die Fig. 9 und 10 beschrieben.
1. Der Phonemumgebung entsprechende Modelle (V012, V022, Vz022) werden ausgewählt.
2. Die Zustände der ausgewählten Modelle werden entsprechend der Dauer (11, 12, 13) der Phoneme eingerichtet.
3. Punkttonhöhen werden unter Verwendung der Mittelwerte (u11, u12, u13 und dergleichen) der Frequenzen der jeweiligen Zustände bestimmt.
4. Die Punkttonhöhen werden interpoliert, und ein Tonmuster wie in Fig. 9 gezeigt wird ausgebildet.
5. Werden die Merkmale aus der normalisierten Grundfrequenz extrahiert, wie es in Fig. 10 gezeigt ist, wird das in Fig. 9 gezeigte Tonmuster mit einer dynamischen Reichweite (d) multipliziert und eine Vorverschiebung (b) wird addiert.
Die Zeitzuordnung und Interpolation können auf die gleiche Weise wie bei dem vorstehend beschriebenen ersten Ausführungsbeispiel durchgeführt werden.

Drittes Ausführungsbeispiel

Für eine Kategorie mit einer großen Datenmenge kann ein Tonmuster, da es präziser als das bei dem ersten Ausführungsbeispiel ist, beispielsweise durch Berücksichtigung der Phonemumgebung von Phonemen vor und nach dem betreffendem Phonem erzeugt werden.

Viertes Ausführungsbeispiel

Da feine Änderungen im Phonem durch die Einteilung des Phonems in eine große Anzahl feiner Klassen präziser ausgedrückt werden können, kann eine Verbesserung beim Hören erwartet werden. Allerdings kann das HMM in einigen Fällen aufgrund von Begrenzungen bezüglich der Datenmenge nicht für feine Phonemklassen ausgebildet werden. Demnach ist es bei der Durchführung einer systematischen Sprachsynthese unter Verwendung derartiger Phoneme erforderlich, einen multihierarchischen Aufbau anzuwenden, und ein Tonmuster unter Verwendung von Modellen der oberen Hierarchie zu erzeugen, wenn zu synthetisierende Phonemumgebungsmodelle in niedrigen Hierarchien aus feinen Klassen nicht vorhanden sind.
Durch hierarchische Konfiguration der in den vorstehend beschriebenen ersten, zweiten und dritten Ausführungsbeispielen erhaltenen Tonmustermodellen ist es möglich, ein der Datenmenge entsprechendes Tonmuster auszuwählen und präzisere Tonmustermodelle, wenn die Datenmenge steigt, mit dem gleichen Aufbau ungeachtet der Datenmenge zu verwenden.
Fig. 11 zeigt die hierarchische Struktur von Tonmustern. In Fig. 11 bezeichnet das Bezugszeichen 21 Klassen eines bei dem ersten Ausführungsbeispiel erzeugten Tonmusters. Das Bezugzeichen 22 bezeichnet Klassen eines Tonmusters, das bei der Klassifizierung des betreffenden Phonems in zwei Arten, d. h. einen stimmhaften Klang und einen stimmlosen Klang, als Phonemumgebung gemäß einem Beispiel des zweiten Ausführungsbeispieles klassifiziert wird. Das Bezugszeichen 23 bezeichnet Klassen eines Tonmusters, das erzeugt wird, wenn die betroffenen Phoneme und das nächste Phonem in zwei Arten, d. h.. einen stimmhaften Klang und einen stimmlosen Klang, als Phonemumgebung gemäß einem Beispiel des dritten Ausführungsbeispieles klassifiziert werden. Das Bezugszeichen 24 bezeichnet Klassen eines Tonmusters, das erzeugt wird, wenn das betroffene Phonem und das nächste Phonem entsprechend Phonemkategorien (stimmloser Frikativ, stimmhafter Verschlusslaut und dergleichen) gemäß einem weiteren Beispiel des dritten Ausführungsbeispieles klassifiziert werden.
Die in Fig. 11 gezeigte hierarchische Struktur ist lediglich ein Beispiel der Erfindung. Beispielsweise kann die Phonemkategorie des Phonems vor dem betroffenen Phonem berücksichtigt werden. Bei einem anderen Ansatz können verschiedene Modelle für die jeweiligen Klassen angewendet werden, oder ein beliebiges in Fig. 11 gezeigtes Modell kann entfernt werden.

Fünftes Ausführungsbeispiel

Bei der Durchführung einer Spracherkennung unter Verwendung prosodischer Informationen durch Vergleich eines Tonmusters gemäß einem der ersten bis vierten Ausführungsbeispiele mit einem ausgesprochenen Tonmuster ist es möglich, das Phonem und den Betonungstyp zu bestimmen, und die Spracherkennungsrate zu verbessern. Dabei ist es erforderlich, ein Wörterbuch zur Erkennung einschließlich der Betonungstypen vorzusehen.
Bei der Wortspracherkennug von Worten " (hashi, 0- Typ)" und (hashi, 1-Typ)", die gleich geschrieben werden und die gleiche Anzahl von Moren aber eine unterschiedliche Betonung haben, kann der Betonungstyp durch Extrahieren der Grundfrequenz aus der ausgesprochenen Sprache und Durchführen einer Identifizierung unter Verwendung eines Modells mit einem Tonmuster von zwei Moren/0-Typ und zwei Moren/l-Typ aus den bei dem ersten Ausführungsbeispiel erzeugten Tonmustern bestimmt werden.
Werden gemäß einem anderen Ausführungsbeispiel Worte " (mibun, 1-Typ) " und " (kubun, 1-Typ) " erkannt, die die gleiche Anzahl von Moren und die gleiche Betonung aber unterschiedliche Konsonanten in der ersten Mora haben, wird durch Extrahieren der Grundfrequenz aus der ausgesprochenen Sprache und durch die Verwendung von zwei Modellen mit Kategorien von drei Moren/l-Typ und Konsonanten m und k in dem ersten Mora aus den in dem zweiten und dritten Ausführungsbeispiel erzeugten Tonmustern eine Wahrscheinlichkeit vom Gesichtspunkt des Tonmusters aus erhalten. Durch die Bewertung der Wahrscheinlichkeit zusammen mit den Spektralinformationen ist es möglich, die Spracherkennungsrate zu verbessern.
Es ist auch möglich, die Grenze zwischen Betonungsphrasen unter Verwendung eines Tonmustermodells zu extrahieren, das bei dem ersten Ausführungsbeispiel erzeugt wird.
Die einzelnen durch die Blöcke in den Zeichnungen bestimmten Komponenten sind auf dem Gebiet der Sprachinformationsverarbeitung bekannt, und ihr spezieller Aufbau und ihre spezielle Arbeitsweise sind nicht kritisch für den Betrieb bzw. die beste Art und Weise zur Ausführung der Erfindung.
Obwohl die Erfindung hinsichtlich bevorzugter Ausführungsbeispiele beschrieben wurde, ist es selbstverständlich, dass die Erfindung nicht darauf beschränkt ist. Die Erfindung soll verschiedene Modifikationen und äquivalente Anordnungen abdecken, die im Schutzbereich der beigefügten Ansprüche enthalten sind.

Claims

1. Sprachinformationsverarbeitungsverfahren mit den Schritten

Extrahieren von Merkmalen aus den Sprachdaten zur Ausbildung einer Merkmalsdatei und

Analysieren der Sprachdaten zur Ausbildung einer Etikettdatei,

gekennzeichnet durch die weiteren Schritte Durchführen einer statistischen Verarbeitung von Merkmalen gespeicherter Sprachdaten für jede Phonemumgebung, die zumindest die Anzahl von Moren und den Akzenttyp enthalten, unter Verwendung der Merkmalsdatei und der Etikettdatei zur Erzeugung von Tonmustermodellen und

Ausbilden eines Tonmusters unter Verwendung der Tonmustermodelle, die für jede Phonemumgebung als Ergebnis der statistischen Verarbeitung erhalten werden.

2. Verfahren nach Anspruch 1, wobei bei der statistischen Verarbeitung ein kontextabhängiges HMM (Hidden-Markov- Modell) verwendet wird.

3. Verfahren nach Anspruch 1, wobei bei der Ausbildung des Tonmusters die Phonemumgebung von Phonemen vor und nach dem Phonem, dessen Merkmale verarbeitet werden, berücksichtigt wird.

4. Verfahren nach Anspruch 1, wobei die zur Ausbildung des Tonmusters verwendeten Tonmustermodelle hierarchisch konfiguriert werden.

5. Verfahren nach Anspruch 1, wobei das ausgebildete Tonmuster mit dem Tonmuster der zu erkennenden Spracheingabe verglichen wird, und ein entsprechendes Tonmuster als Ergebnis der Erkennung der Spracheingabe ausgegeben wird.

6. Verfahren nach Anspruch 1, wobei die Moraposition als Teil der Phonemumgebung berücksichtigt wird.

7. Verfahren nach Anspruch 1, wobei jedes Phonem als Teil der Phonemumgebung berücksichtigt wird.

8. Verfahren nach Anspruch 1, wobei die Phonemkategorie als Teil der Phonemumgebung berücksichtigt wird.

9. Verfahren nach einem der vorhergehenden Ansprüche, mit dem weiteren Schritt Verwenden des ausgebildeten Tonmusters zur systematischen Sprachsynthese.

10. Sprachinformationsverarbeitungsvorrichtung mit einer Sprachdateispeichereinrichtung (11) zur Speicherung von Sprachdaten,

einer Merkmalsextraktionseinrichtung (12) zur Ausbildung einer Merkmalsdatei durch Extrahieren von Merkmalen aus den in der Sprachdateispeichereinrichtung (11) gespeicherten Sprachdaten und

einer Analyseeinrichtung zum Analysieren der zu verarbeitenden Sprachdaten für jede Phonemumgebung, gekennzeichnet durch

eine statistische Verarbeitungseinrichtung (17) zur Durchführung einer statistischen Verarbeitung für jede Phonemumgebung, die zumindest die Anzahl von Moren und den Akzenttyp enthält, unter Verwendung der von der Merkmalsextraktionseinrichtung erhaltenen Merkmalsdatei und einer durch die Analyseeinrichtung erzeugten Etikettdatei zur Erzeugung von Tonmustermodellen und

eine Tonmusterausbildungseinrichtung (18) zur Ausbildung eines Tonmusters unter Verwendung der für jede Phonemumgebung von der statistischen Verarbeitungseinrichtung (17) erhaltenen Tonmustermodelle.

11. Vorrichtung nach Anspruch 10, wobei die statistische Verarbeitungseinrichtung (17) zur Verwendung eines kontextabhängigen HHPYs eingerichtet ist.

12. Vorrichtung nach Anspruch 10, wobei die Tonmusterausbildungseinrichtung (18) zur Ausbildung des Tonmusters unter Berücksichtigung der Phonemumgebung von Phonemen vor und nach dem betroffenen Phonem eingerichtet ist.

13. Vorrichtung nach Anspruch 10, wobei die Tonmusterausbildungseinrichtung (18) zur Ausbildung des Tonmusters unter Verwendung von Tonmustermodellen eingerichtet ist, die hierarchisch konfiguriert sind.

14. Vorrichtung nach Anspruch 10, wobei die Tonmusterausbildungseinrichtung (18) zum Vergleichen des ausgebildeten Tonmusters mit dem Tonmuster einer Spracheingabe als zu erkennendes Objekt und zur Ausgabe eines entsprechenden Tonmusters als Ergebnis der Erkennung der Spracheingabe eingerichtet ist.

15. Vorrichtung nach Anspruch 10, wobei die statistische Verarbeitungseinrichtung (17) zum Berücksichtigen der Moraposition als Teil der Phonemumgebung eingerichtet ist.

16. Vorrichtung nach Anspruch 10, wobei die statistische Verarbeitungseinrichtung (17) zur Berücksichtigung der Phoneme in der Phonemumgebung eingerichtet ist.

17. Vorrichtung nach Anspruch 10, wobei die statistische Verarbeitungseinrichtung (17) zur Berücksichtigung der Phonemkategorie als Teil der Phonemumgebung eingerichtet ist.

18. Vorrichtung nach einem der Ansprüche 10 bis 17, mit einer Sprachsyntheseeinrichtung, die das ausgebildete Tonmuster verwendet.

19. Computerprogrammprodukt, das maschinenlesbare Befehle zur Ausführung eines Verfahrens nach einem der Ansprüche 1 bis 9 speichert.