DE69607913T2

DE69607913T2 - Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle

Info

Publication number: DE69607913T2
Application number: DE69607913T
Authority: DE
Inventors: Peter Beyerlein; Reinhold Haeb-Umbach; Eric Thelen
Original assignee: Philips Corporate Intellectual Property GmbH; Koninklijke Philips Electronics NV
Current assignee: Philips Intellectual Property and Standards GmbH; Koninklijke Philips NV
Priority date: 1995-05-03
Filing date: 1996-05-02
Publication date: 2000-10-05
Anticipated expiration: 2016-05-03
Also published as: US5873061A; DE69607913D1; CN1153567A; WO1996035207A1; EP0769184A1; CN1130688C; EP0769184B1; JPH10503033A

Description

Verfahren und Vorrichtung zur Spracherkennung auf der Basis neuer Wortmodelle

BEREICH DER ERFINDUNG

Die Erfindung betrifft ein Verfahren zum Repräsentieren eines neuen Wortes für die Spracherkennung, das auf einem gespeicherten Bestand von Modellen von Teilworteinheiten beruht, wobei dieses Verfahren die folgenden Schritte umfasst:
Anbieten einer Vielzahl von Äußerungen, die alle absichtlich dem genannten neuen Wort entsprechen, Repräsentieren der Äußerungen durch eine Sequenz aus Merkmalsvektoren und Aufbauen eines Wortmodells aus den Äußerungen.
Im Rahmen der Erfindung soll unter einem Wort eine linguistische Gesamtheit mehr oder weniger begrenzter Länge verstanden werden und kann somit kurze Sätze, Eigen- und andere Namen einschließen sowie andere Items, die eine machinelle Erkennung gewährleisten, wenn sie in Form von Sprache angeboten werden. Insbesondere richtet sich die Erfindung auf das Problem, eine akustische Darstellung, im Weiteren auch Transkription genannt, eines unbekannten Wortes als Sequenz von Teilworteinheiten zu finden. Dies erfolgt, indem nur einige Probeäußerungen des unbekannten Wortes (der unbekannten Wörter) verschafft werden und weiterhin ein Bestand an sprecherunabhängigen Teilworteinheitenmodellen.
Die Druckschrift EP-A-0344017 beschreibt ein Spracherkennungssystem mit Mitteln zum Lernen zusätzlicher Wörter eines Vokabulars. Das System umfasst einen ersten Worterkennungsabschnitt, der auf Ganzwortabbildung beruht, und einen zweiten Worterkennungsabschnitt, der sprecherunabhängiges phonembasiertes Abbilden verwendet. Das Lernen zusätzlicher Wörter des Vokabulars beruht auf sprecherabhängigen Ganzwortmodellen.
Ein Problem ergibt sich, wenn ein Benutzer ein Wort oder mehrere zusätzliche Wörter des Vokabulars einem sprecherunabhängigen Erkennungssystem hinzufügen möchte, indem es das System mit nur einigen wenigen Äußerungen des neuen Wortes lernen lässt. Sprecherunabhängige Erkennung wird verwendet, wenn die Anzahl Sprecher, die ein speziellen Typ eines Systems nutzen sollen, relativ groß ist und/oder das System relativ preisgünstig ist. Ein typisches Beispiel wäre eine sprachbetätigte Telefoneinrichtung, die normalerweise die zehn Ziffern und einige Standardbegriffe erkennen kann, und die der Benutzer lehren kann, zusätzlich solche Namen oder andere Bezeichnungen zu erkennen, die zu häufig angerufenen Telefonanschlüssen gehören.
Ein anderes Beispiel wäre bei einem sprecherunabhängigen Spracherkennungssystem sinnvoll, das nur eine begrenzte Standardmenge erkennbarer Wörter haben könnte, wie z. B. nur zwanzig. Dieses System sollte dann mit vielen verschiedenen Sprechern gelernt haben. Das System kann jetzt mit zusätzlichen Wörtern erweitert werden müssen, für die nur eine sehr begrenzte Anzahl Lernsprecher, z. B. nicht mehr als drei, zur Verfügung stehen, aber wobei für diese zusätzlichen Wörter die gleiche Erkennungsrobustheit gefordert wird wie für die ursprüngliche Menge.
Noch ein anderes Beispiel wäre bei einer Graphem-Phonem-Wandlung, wo ein neues Wort aus der Tastatureingabe in ein akustisches Modell transkribiert wird. Zur Verbesserung der Zuverlässigkeit wird die Tastatureingabe durch eine akustische Eingabe des gleichen Wortes ergänzt. Die parallelen Repräsentationen verbessern wieder die Robustheit und würden unter speziellen Umständen auch Zuverlässigkeitsprobleme infolge von orthographischen Fehlern oder wegen des Vorliegens zweier korrekter Aussprachen eines einzigen geschriebene Wortes, die dann jeweils unterschiedliche Bedeutung haben würden, lösen.
Insbesondere wird gefordert, dass die minimal notwendige Anzahl Lernäußerungen klein bleiben sollte, d. h. nicht mehr als drei, um bei späterer Erkennung dennoch zuverlässige Leistungen zu erhalten. Das Problem ist auch allgemein auf Systeme beschränkt, die das Hinzufügen nur einer begrenzten Menge Wörter erlauben, z. B. bis zu zehn Wörter. Wenn die Anzahl zugefügter Wörter zu groß wird, könnte die Transkription verwirrende Ergebnisse liefern. Andererseits kann die Menge von Standardwörtern entweder klein oder groß sein.

ZUSAMMENFASSUNG DER ERFINDUNG

Daher liegt der Erfindung unter anderem als Aufgabe zugrunde, ein Verfahren der eingangs erwähnten Art zu verschaffen, bei dem Abweichungen zwischen den verschiedenen Lernäußerungen unschädlich gemacht werden, indem sie nicht dazu führen, dass das System aufgrund einer von dem Benutzer unerwünscht fehlerhaft ausgesprochenen Äußerung lernt. Daher umfasst die Erfindung nach einem ihrer Aspekte erstens, Lernen eines Ganzwortmodells, das unabhängig von den Modellen der Teilworteinheiten ist, unter Verwendung der genannten Äußerungen, wobei das Ganzwortmodell eine Länge hat, die der mittleren Länge der Äußerungen entspricht, wobei das Verfahren gekennzeichnet ist durch
zweitens, Interpretieren einer ersten Sequenz von Markov-Zuständen und zugehörigen Wahrscheinlichkeitsdichten von akustischen Ereignissen des Ganzwortmodells als Referenzschablone, durch eine zweite Sequenz von gemittelten Merkmalsvektoren repäsentiert, und
drittens, Erkennen der genannten zweiten Sequenz durch Abbilden auf Modelle von Teilworteinheiten in dem genannten Bestand und Speicherung eines Erkennungsergebnisses als Modell der genannten Äußerungen.
Im Gegensatz dazu beschreibt eine Veröffentlichung von L.R. Bahl et al., A Method for the Construction of Acoustic Markov Models for Words, IEEE Trans. on Speech and Audio Processing Bd. I, Nr. 4, Oktober 1993, S. 443-452 ein anderes Verfahren zum Erzeugen einer Transkription auf Basis einer Vielzahl von Äußerungen. Gemäß dieser Druckschrift führt jede Äußerung zu ihrer eigenen Transkription. Anschließend werden alle jeweiligen Transkriptionen auf alle Äußerungen abgebildet, um die optimale Transkription zu finden, was auch die beste Äußerung bedeutet. Die vorliegenden Erfinder haben gefunden, dass ein solchen Vorgehen eine übermäßige Menge an Verarbeitung erfordert, wenn alle akustischen Störungen, Zeitverwerfungen, Maßstabsveränderungen und andere Abweichungen zwischen den Äußerungen berücksichtigt werden. Insbesondere in Anbetracht der angestrebten Nutzung der Erfindung in einer Einrichtung mit begrenzten Fähigkeiten, wie z. B., aber nicht begrenzt hierauf, einem Handfunktelefon, würde dies die Einrichtung für einen langen Zeitraum blockieren, in welchem sie dann für andere Funktionen nicht zur Verfügung steht. Die bekannte Prozedur benötigt nämlich eine Verarbeitungzeit, die proportional zum Quadrat der Anzahl Äußerungen ist, während die vorliegende Erfindung nur eine Verarbeitungzeit benötigt, die linear zur Anzahl Äußerungen ist.
Andere relevante Bezugsschriften sind EP-B1-285 222, entsprechend der US-Patentanmeldung Serien-Nr. 07/175,976 (PHD 87.073) zur Modellierung, und EP-A3- 533 260, entsprechend der US-Patentanmeldung Serien-Nr. 07/944,554 (PHD 91.138) zur Ausführung der Baumsuchoperation bei der Spracherkennung, alle auf Namen der Anmelderin der vorliegenden Anmeldung.
Weiterhin wirkt eine vorteilhafte Ausführungsform der vorliegenden Erfindung mit der Lehre von Bahl et al. zusammen, indem die auf der mittleren Äußerung beruhende Transkription, wie in der vorliegenden Erfindung erhalten, in einer nachfolgenden Operation mit den verschiedenen gemäß dem Verfahren von Bahl et al. erzeugten Ein- Äußerungstranskriptionen konkurriert. Unter bestimmten Bedingungen ergibt dies eine weitere Verbesserung für das gemäß dem Vorhergehenden erhaltene Ergebnis.
Die Erfindung bezieht sich auch auf eine Einrichtung zur Implementierung des Verfahrens. Weitere vorteilhafte Aspekte werden in den abhängigen Ansprüchen genannt.

KURZE BESCHREIBUNG DER ZEICHNUNG

Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden im folgenden näher beschrieben. Es zeigen:
Fig. 1 ein System zum Bewirken der Erkennung;
Fig. 2 ein System zum Bewirken der Transkription;
Fig. 3 einen Ablaufplan zum Bewirken der Transkription;
Fig. 4 eine Einrichtung zum Bewirken der Transkription.

GEDANKLICHE BASIS DER AUSFÜHRUNGSFORMEN

Zuerst wird eine kurze Formulierung des erfindungsgemäßen Verfahrens gegeben. Ausgangspunkt der Prozedur ist das Verschaffen eines gespeicherten Bestandes von Modellen von Teilworteinheiten. In dem Verfahren wird jetzt ein separates Ganzwortmodell mit Einzeldichtenemissionswahrscheinlichkeiten aus den n gegebenen Äußerungen abgeleitet, wobei n eine geeignete Anzahl, wie z. B. drei oder fünf sein kann. Dieses Modell kann als eine 'mittlere Äußerung' interpretiert werden, die aus den verschiedenen Äußerungen erhalten wird, wo die Beobachtungsvektoren dieser mittleren Äußerung die mittleren Vektoren der zustandsspezifischen Emissionswahrscheinlichkeitsdichten sind. Die Transkription des unbekannten Wortes wird durch die Teilworteinheitensequenz gegeben, die am wahrscheinlichsten diese mittlere Äußerung erzeugt hat:
Tavg = argmaxs SP( s)
Diese Teilworteinheitensequenz kann ihrerseits durch eine Erkennungsprozedur für kontinuierliche Sprache gefunden werden. Insbesondere kann die selektierte Transkription Tavg aus der Menge S von Teilworteinheitensequenzen stammen.
In etwas weiterenm Zusammenhang nutzt die Erfindung erst die verschiedenen Äußerungen, um ein Ganzwortmodell zu erlernen, das unabhängig von den Modellen der Teilworteinheiten ist und eine Länge hat, die gleich der mittleren Länge der Äußerungen ist. Danach wird das Ganzwortmodell verwendet, um daraus eine Sequenz von Markov-Zuständen und zugehörigen Wahrscheinlichkeitsdichten von akustischen Ereignissen abzuleiten. An sich ist eine solche Repräsentation als verborgener Markov-Prozess in der Spracherkennungstechnologie weit verbreitet. Diese Repräsentation führt auch zur Unterscheidung von Teilworteinheiten in der Äußerung, so dass das Ergebnis der Interpretation als aus einer Sequenz gemittelter Merkmalsvektoren bestehende Schablone verwendet werden kann. Ihrerseits können Elemente dieser letzteren Sequenz auf Modelle der Teilworteinheiten in dem Bestand abgebildet werden, so dass die Erkennungsfolge faktisch ein Modell der gemittelten Äußerungen ist und anschließend zum Erkennen weiterer Äußerungen verwendet werden kann.
Fig. 1 zeigt ein System zum Bewirken der Erkennung gesprochener Wörter. Hierin stellt Block 20 ein zu erkennendes gesprochenes Wort dar, wobei in der Figur die Zeit von links nach rechts läuft und der Inhalt des Blocks die zeitlich variierenden Merkmalsvektoren der abgetasteten Sprache ist. Zuerst wird das Wort in Teilworteinheiten zerlegt, die als kleinere Blöcke gezeigt werden. Verschiedene solche Einheiten können Phone, Diphone, Silbenteile, vollständige Silben, oder sogar einzelne solche Merkmalsvektoren. Eine Teilworteinheit braucht keine akustische Bedeutung zu haben. Diese Zerlegung erfolgt auf Basis verschiedener der obengenannten Merkmalsvektoren und kann in herkömmlicher Weise erfolgen. Die Trennung wird durch vertikale Linien angedeutet, die nicht gleichen Abstand zu haben brauchen, wie in der Figur gezeigt, weil eine Mischung aus längeren und kürzeren Teilworteinheiten möglich ist. Danach werden, ausgehend von einem Ende des betreffenden Wortes, die Teilworteinheiten auf die in dem Bestand 22, der anhand der Analyse eines großen Sprachkörpers aufgebaut worden ist, gespeicherten Items abgebildet. An sich fällt eine solche Analyse nicht in den Rahmen der vorliegenden Erfindung, die den Bestand als vorgegeben betrachtet. Jede folgende Teilworteinheit kann eine Übereinstimmung mit einem oder mehreren der Bestand-Items erzeugen.
Jede Abbildung bringt jetzt auch ein Resultat mit sich, das vom Grad der Nichtübereinstimmung zwischen den beiden abgebildeten Items abhängt, so dass ein niedrigeres Resultat eine bessere Abbildung angibt und umgekehrt. Weiterhin kann das Resultat von einem Sprachenmodell abhängen, das die Wahrscheinlichkeit für eine spezielle Ver kettung von Wörtern angibt. Wiederum ergibt eine geringe Wahrscheinlichkeit ein hohes Resultat und umgekehrt. Gemäß einer bestimmten Strategie wird auf diese Weise aus verschiedenen möglichen Verkettungen erkannter Teilwörter ein Baum aufgebaut, der zweigweise Resultate liefert. Ein Kappmechanismus ist vorgesehen, um solche Zweige des Baumes abzuschließen und wegzuschneiden, die wegen ihres hohen Resultats eine sehr geringe Wahrscheinlichkeit für die zugehörige Erkennung angeben. Wenn es zu einem bestimmten Zeitpunkt keine parallelen Möglichkeiten mehr für eine andere spezielle Zuordnung gibt, ist das betreffende Wort oder der Wortteil erkannt worden, wenn nicht das zugehörige Resultat eine unrealistische geringe Wahrscheinlichkeit angibt. Letzteres führt dazu, dass ein Teil der Sprache als unerkannt verworfen wird und der Resultatstand zurückgesetzt wird. Mittels Symbolisierung sind verschiedene Wege angedeutet worden, wobei jeder Punkt die Zuordnung eines Teilwortes zu einem Item aus der zugehörigen Reihe des Speichersystems 22 symbolisiert. Es sollte deutlich sein, dass die Darstellung in der Figur vollkommen symbolisch ist. Verschiedene andere Resultatfindungs- und Suchstrategien sind möglich.
Fig. 2 zeigt ein System zum Bewirken der Transkription, das auf drei Äußerungen (30, 32, 34) des (vermutlich) gleichen Wortes durch einen Benutzer beruht. Der Benutzer kann gegebenenfalls der gleiche sein. Zuerst werden die Längen der Äußerungen bestimmt, beispielsweise durch Zählen der Anzahl voneinander gleich entfernter Abtastwerte für jede Äußerung, und daraus wird ein Mittelwert berechnet. Danach wird unter Verwendung der verschiedenen Äußerungen ein vom Teilwortmodellbestand unabhängiges Ganzwortmodell (36) bei der mittleren Länge der Äußerungen erlernt. Dieses Lernen kann mit einem Standard-Spracherkennungslernverfahren erfolgen. Danach wird dieses Lernergebnis mit Hilfe einer Sequenz aus Markov-Zuständen und zugehörigen Wahrscheinlichkeitsdichten akustischer Ereignisse des Ganzwortmodells interpretiert. Das Ergebnis (38) ist eine Referenzschablone, die als eine Reihe gemittelter Merkmalsvektoren ausgedrückt wird. Dieses akustische Modell arbeitet dann als Schablone, d. h. als eine Art gemittelte Äußerung. Diese letztere Sequenz wird dann durch Abbilden auf die verschiedenen Teilworteinheitenmodelle im Bestand 22 erkannt, und das Ergebnis (40) ist ein Modell für spätere Äußerungen.
Schließlich wird die Transkription für das neue Wort abgeleitet, indem die Sequenz von Teilworteinheiten gefunden wird, die am besten mit der Sequenz aus gemittelten Merkmalsvektoren übereinstimmt, ähnlich der Prozedur von Fig. 1. Im Unterschied zu Fig. 1 wird jetzt jedoch häufig kein Sprachenmodell verwendet, weil kein A-Priori- Wissen zum Charakter der Äußerung vorzuliegen braucht: Es kann sich um ein einzelnes Wort oder eher einen zusammengesetzten Begriff handeln, wie ein bestimmter Name plus einem Nachnamen der in dem oben betrachteten Telefonsystem anzurufenden Person. In einer anderen Umgebung könnte die Verwendung eines derartigen Sprachenmodells jedoch für mögliche Sequenzen von Teilworteinheiten genutzt werden.
Auch ein akustisches Modell wird für die Erkennung verwendet, weil das akustische Modell im Allgemeinen nicht notwendigerweise von der Bedeutung der zugrundeliegenden Silben abhängt. Wenn das Erkennungsresultat der gemittelten Äußerungen übermäßig hoch ist und daher eine übermäßig geringe Erkennungswahrscheinlichkeit aufweisen würde, wird dem Benutzer mitgeteilt, z. B. durch eine hörbare Nachricht oder eine Leuchtanzeige, dass das Lernen erfolglos war und dass ein erneutes Lernen erfolgen muss. Wenn das Lernen erfolgreich war, wird die erkannte Folge aus Teilworteinheiten in dem Bestand gespeichert, durch Block 40 symbolisiert, woraufhin der Benutzer gebeten wird, ebenfalls mittels einer hörbaren Nachricht oder einer Leuchtanzeige, die Nummer des Telefonanschlusses genau anzugeben, die bei einer späteren Erkennung danach zu der Folge 40 gehören soll. Ein solches Merkmal ermöglicht dann anschließend sprachgesteuertes Wählen, wobei die Transkription zur Erkennung des Wortes verwendet wird, das das System jetzt gelernt hat.
Fig. 3 zeigt einen Ablaufplan zum Bewirken der Transkription. In Block 60 wird das System initialisiert, unter anderem durch Verschaffen des Teilwortmodellbestandes und Rücksetzen von Betriebsparametern. In Block 62 detektiert das System, ob eine Äußerung empfangen worden ist. Falls nicht, dann bringt eine Warteschleife das System wieder zu Block 62 zurück. Im positiven Fall wird in Block 64 die Äußerung abgetastet, und nach Repräsentieren der Abtastwerte als Merkmalsvektoren gespeichert. In Block 66 detektiert das System, ob die Anzahl absichtlich übereinstimmender Äußerungen ein ausreichendes Niveau angenommen hat, z. B. drei. Ein anderer Trick ist, ein 'Ausführ'-Kommando zu detektieren. Im negativen Fall kehrt das System wieder zu Block 62 zurück, um eine weitere Äußerung abzuwarten. In Block 68 wird mit Hilfe der verschiedenen empfangene Äußerungen ein Ganzwortmodell der Äußerungen gelernt, ohne Rückgriff auf den Bestand, bei einer Länge, die der Mittelwert der verschiedenen Äußerungen ist. Anschließend wird in Block 70 das Ganzwortmodell, das als Sequenz aus Markov-Zuständen und zugehörigen Wahrscheinlichkeitsdichten von akustischen Ereignissen repräsentiert wird, als Referenzschablone interpretiert, die als Sequenz von gemittelten Merkmalsvektoren gege ben wird. Nachfolgend wird in Block 72 die letztere Sequenz durch Abbilden auf die Modelle der Teilworteinheiten in dem Bestand erkannt. Dies ermöglicht es, anschließend später empfangene Äußerungen als eine der Äußerungen zu identifizieren, die jetzt von einer Folge von Teilwortmodellen repräsentiert worden sind. Danach detektiert das System in Block 76, ob noch eine neue Äußerung empfangen werden sollte, um ihrerseits verarbeitet zu werden. Falls es noch nicht fertig ist, kehrt das System dann zu Block 62 zurück. Im anderen Fall, oder auch infolge eines 'beendet'-Kommandos, stoppt das System mittels eines abschließenden Blockes 78.
Fig. 4 zeigt eine Einrichtung zum Bewirken der Transkription gemäß der Erfindung. Block 80 ist eine Art Mikrofon oder eine andere Einrichtung zur Spracheingabe. Block 82 bewirkt periodisches Abtasten der empfangenen Äußerung und kann einen Sprachdetektor umfassen, um Abtasten nur dann zu bewirken, wenn wirklich Sprache empfangen wird. Block 84 leitet aus dem Abtastwertestrom Merkmalsvektoren von Sprachkennzeichen ab. Daher umfasst die Einrichtung verschiedene herkömmliche Elemente, wie Bandfilter, A/D-Umsetzer, so dass schließlich die Merkmalsvektoren ein brauchbares Medium für weitere Verarbeitung sind. In Block 86 werden die Merkmalsvektorfolgen der Äußerungen in den jeweiligen Teilblöcken A, B, C gespeichert. Durch kombiniertes Zugreifen auf diesen Speicher wird im Lernblock 88 ein Ganzwortmodell mit einer der mittleren Länge der Äußerungen entsprechenden Länge erlernt. Dies erfordert auch Abgleichen der verschiedenen Äußerungsrepräsentationen. Die Modellierung für eine einzelne Äußerung ist im obengenannten Stand der Technik an sich beschrieben worden. Als Nächstes interpretiert der Block 90 das vom Block 88 empfangene Ganzwortmodell, das insbesondere eine Sequenz aus Markov-Zuständen und zugehörigen Wahrscheinlichkeitsdichteverteilungen von akustischen Ereignissen im Ganzwortmodell umfasst. Das Ergebnis der Interpretation ist eine Referenzschablone mit einer Sequenz aus gemittelten Merkmalsvektoren. Schließlich greift Block 92 auf den gespeicherten Bestand von Teilworteinheitenmodellen im Speicherblock 96 zu und erkennt so die vom Block 90 empfangene Schablone als passend zu einer speziellen Sequenz der gespeicherten Teilworteinheitenmodelle. Block 94 bildet mit verschiedenen anderen Einrichtungen je nach der Notwendigkeit eine Schnittstelle. Er kann beispielsweise zusätzlichen Speicher enthalten, um die Reihe von Teilwortmodellen aus Block 96, die zu der Äußerung für nachfolgende Erkennung gehören, zu speichern, so dass nachfolgender Empfang einer einzelnen Äußerung nach Umsetzung in Merkmalsvektoren direkt auf spezielle Teilworteinheitenmodelle abgebildet werden kann.
Mehrere zusätzliche, aber optionale Benutzerschnittstelleneinrichtungen sind in der Figur gezeigt worden. Block 98 ist eine Tastatur für Telefongebrauch. Dies wird häufig eine Einrichtung mit zwölf Tasten sein. Eintasten einer Telefonanschlussnummer, nach Speicherung der Sequenz von Teilworteinheitenmodellen, die zu einer nachfolgenden Äußerung gehören, verbindet diese Äußerung mit der eingetasteten Nummer und erlaubt daher anschließend diese Nummer gesteuert durch die Spracheingabe der zugehörigen Bezeichnungsäußerung zu aktivieren. Block 100 ist eine alphabetische Tastatur, wie z. B. eine alphanumerische QWERTY-Tastatur. Eingeben eines Textes in Block 102 führt zu Graphem- Phonem-Wandlung, was an sich ein herkömmliches Merkmal ist. Die verwendeten Phoneme sind entsprechend der Modellierung von Teilworteinheiten im Bestandsspeicher 96 modelliert worden. Die Ausgabe des Wandlers 102 wird dem Erkennerblock 92 angeboten. Auf diese Weise kann die Graphem-Phonem-Wandlung durch die erfindungsgemäße Sprache-Phönem-Repräsentation verbessert werden, beispielsweise bei einem fremden Namen, der eine andere Schreibweise hat. Auch ist Verbesserung in der anderen Richtung dadurch möglich, dass ein spezielles Wort sprachlich schwierig erkennbar sein kann.

Bildinschrift:

Fig. 3:
60: Beginn
62 Äußerung
64 Speichern
66 Anzahl o.k.?
68 Lernen
70 Interpretieren
72, 74 Erkennen
76 Fertig?
78 Ende

Claims

1. Verfahren zum Repräsentieren eines neuen Wortes für die Spracherkennung, das auf einem gespeicherten Bestand von Modellen von Teilworteinheiten beruht, wobei dieses Verfahren die folgenden Schritte umfasst:

Anbieten einer Vielzahl von Äußerungen (30, 32, 34), die alle absichtlich dem genannten neuen Wort entsprechen, Repräsentieren der Äußerungen durch eine Sequenz aus Merkmalsvektoren und Aufbauen eines Wortmodells (36) aus den Äußerungen, mit erstens, Lernen eines Ganzwortmodells (36), das unabhängig von den Modellen der Teilworteinheiten ist, unter Verwendung der genannten Äußerungen, wobei das Ganzwortmodell eine Länge hat, die der mittleren Länge der Äußerungen entspricht, wobei das Verfahren gekennzeichnet ist durch

zweitens, Interpretieren einer ersten Sequenz von Markov-Zuständen und zugehörigen Wahrscheinlichkeitsdichten von akustischen Ereignissen des Ganzwortmodells als Referenzschablone (38), durch eine zweite Sequenz von gemittelten Merkmalsvektoren repäsentiert, und

drittens, Erkennen der genannten zweiten Sequenz durch Abbilden auf Modelle von Teilworteinheiten in dem genannten Bestand und Speicherung eines Erkennungsergebnisses als Modell (40) der genannten Äußerungen.

2. Verfahren zum Repäsentieren eines neuen Wortes für die Spracherkennung, wobei eine Modellierungsoperation erfolgt, indem jede Äußerung aus einer Serie von Äußerungen durch ihre eigene Transkription repräsentiert wird, alle jeweiligen Transkriptionen als Kandidaten auf alle Äußerungen abgebildet werden, um die optimale Transkription zu finden, was auch bedeutet die beste Äußerung, und das Ergebnis des Repräsentierens nach Anspruch 1 ein weiterer der Kandidaten ist.

3. Einrichtung zum Repräsentieren eines neuen Wortes für die Spracherkennung, das auf einem gespeicherten Bestand von Modellen von Teilworteinheiten beruht, wobei diese Einrichtung umfasst:

Eingabemittel zum Empfangen einer Vielzahl von Äußerungen (30, 32, 34), die alle absichtlich dem genannten Wort entsprechen, Repräsentationsmittel zum Repräsentieren der Äußerungen durch eine Sequenz aus Merkmalsvektoren und Aufbauen eines Wortmodells (36) aus den Äußerungen, mit

von den genannten Eingabemitteln versorgten Lernmitteln zum Lernen eines Ganzwortmodells (36), das unabhängig von den Modellen der Teilworteinheiten ist, unter Verwendung der genannten Äußerungen, wobei das genannte Ganzwortmodell eine der mittleren Länge der Äußerungen entsprechende Länge hat, wobei die Einrichtung ekennzeichnet ist durch

von den genannten Lernmitteln versorgte Interpretationsmittel zum Interpretieren einer ersten Sequenz aus Markov-Zuständen und und zugehörigen Wahrscheinlichkeitsdichten von akustischen Ereignissen des Ganzwortmodells als Referenzschablone (38), durch eine zweite Sequenz von gemittelten Merkmalsvektoren repräsentiert, und Erkennungsmittel zur Erkennung der genannten zweiten Sequenz durch Abbilden auf Modelle von Teilworteinheiten in dem genannten Bestand und Speicherung eines Erkennungsergebnisses als Modell (40) der genannten Äußerungen,

und von den Erkennungsmitteln versorgte erste Ausgabemittel zum Ausgeben des genannten Erkennungsergebnisses als Basis für einen nachfolgenden Vergleich mit späteren Äußerungen.

4. Einrichtung nach Anspruch 3, die Telefonfunktionalität aufweist und ziffernweise sprachbetätigtes Wählen erlaubt, und wobei die genannte Äußerung eine Bezeichnung für Kurzwahl ist.

5. Einrichtung nach Anspruch 3, wobei der genannte Bestand sprecherunabhängige Erkennung einer Standard-Wortmenge erlaubt, und weiterhin ausgebildet, um das Erkennen des genannten neuen Wortes mit vergleichbarer Robustheit wie die genannte Standard-Wortmenge zu erlauben.

6. Einrichtung nach Anspruch 3, die einen Graphem-Phonem-Wandler mit zweiten Ausgabemitteln hat, die die genannten Erkennungsmittel versorgen, um gemeinschaftlich für einen verbesserten Betrieb des genannten Graphem-Phonem-Wandlers zu sorgen.