DE69607913T2 - Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle - Google Patents
Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelleInfo
- Publication number
- DE69607913T2 DE69607913T2 DE69607913T DE69607913T DE69607913T2 DE 69607913 T2 DE69607913 T2 DE 69607913T2 DE 69607913 T DE69607913 T DE 69607913T DE 69607913 T DE69607913 T DE 69607913T DE 69607913 T2 DE69607913 T2 DE 69607913T2
- Authority
- DE
- Germany
- Prior art keywords
- utterances
- word
- sequence
- recognition
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephonic Communication Services (AREA)
Description
- Die Erfindung betrifft ein Verfahren zum Repräsentieren eines neuen Wortes für die Spracherkennung, das auf einem gespeicherten Bestand von Modellen von Teilworteinheiten beruht, wobei dieses Verfahren die folgenden Schritte umfasst:
- Anbieten einer Vielzahl von Äußerungen, die alle absichtlich dem genannten neuen Wort entsprechen, Repräsentieren der Äußerungen durch eine Sequenz aus Merkmalsvektoren und Aufbauen eines Wortmodells aus den Äußerungen.
- Im Rahmen der Erfindung soll unter einem Wort eine linguistische Gesamtheit mehr oder weniger begrenzter Länge verstanden werden und kann somit kurze Sätze, Eigen- und andere Namen einschließen sowie andere Items, die eine machinelle Erkennung gewährleisten, wenn sie in Form von Sprache angeboten werden. Insbesondere richtet sich die Erfindung auf das Problem, eine akustische Darstellung, im Weiteren auch Transkription genannt, eines unbekannten Wortes als Sequenz von Teilworteinheiten zu finden. Dies erfolgt, indem nur einige Probeäußerungen des unbekannten Wortes (der unbekannten Wörter) verschafft werden und weiterhin ein Bestand an sprecherunabhängigen Teilworteinheitenmodellen.
- Die Druckschrift EP-A-0344017 beschreibt ein Spracherkennungssystem mit Mitteln zum Lernen zusätzlicher Wörter eines Vokabulars. Das System umfasst einen ersten Worterkennungsabschnitt, der auf Ganzwortabbildung beruht, und einen zweiten Worterkennungsabschnitt, der sprecherunabhängiges phonembasiertes Abbilden verwendet. Das Lernen zusätzlicher Wörter des Vokabulars beruht auf sprecherabhängigen Ganzwortmodellen.
- Ein Problem ergibt sich, wenn ein Benutzer ein Wort oder mehrere zusätzliche Wörter des Vokabulars einem sprecherunabhängigen Erkennungssystem hinzufügen möchte, indem es das System mit nur einigen wenigen Äußerungen des neuen Wortes lernen lässt. Sprecherunabhängige Erkennung wird verwendet, wenn die Anzahl Sprecher, die ein speziellen Typ eines Systems nutzen sollen, relativ groß ist und/oder das System relativ preisgünstig ist. Ein typisches Beispiel wäre eine sprachbetätigte Telefoneinrichtung, die normalerweise die zehn Ziffern und einige Standardbegriffe erkennen kann, und die der Benutzer lehren kann, zusätzlich solche Namen oder andere Bezeichnungen zu erkennen, die zu häufig angerufenen Telefonanschlüssen gehören.
- Ein anderes Beispiel wäre bei einem sprecherunabhängigen Spracherkennungssystem sinnvoll, das nur eine begrenzte Standardmenge erkennbarer Wörter haben könnte, wie z. B. nur zwanzig. Dieses System sollte dann mit vielen verschiedenen Sprechern gelernt haben. Das System kann jetzt mit zusätzlichen Wörtern erweitert werden müssen, für die nur eine sehr begrenzte Anzahl Lernsprecher, z. B. nicht mehr als drei, zur Verfügung stehen, aber wobei für diese zusätzlichen Wörter die gleiche Erkennungsrobustheit gefordert wird wie für die ursprüngliche Menge.
- Noch ein anderes Beispiel wäre bei einer Graphem-Phonem-Wandlung, wo ein neues Wort aus der Tastatureingabe in ein akustisches Modell transkribiert wird. Zur Verbesserung der Zuverlässigkeit wird die Tastatureingabe durch eine akustische Eingabe des gleichen Wortes ergänzt. Die parallelen Repräsentationen verbessern wieder die Robustheit und würden unter speziellen Umständen auch Zuverlässigkeitsprobleme infolge von orthographischen Fehlern oder wegen des Vorliegens zweier korrekter Aussprachen eines einzigen geschriebene Wortes, die dann jeweils unterschiedliche Bedeutung haben würden, lösen.
- Insbesondere wird gefordert, dass die minimal notwendige Anzahl Lernäußerungen klein bleiben sollte, d. h. nicht mehr als drei, um bei späterer Erkennung dennoch zuverlässige Leistungen zu erhalten. Das Problem ist auch allgemein auf Systeme beschränkt, die das Hinzufügen nur einer begrenzten Menge Wörter erlauben, z. B. bis zu zehn Wörter. Wenn die Anzahl zugefügter Wörter zu groß wird, könnte die Transkription verwirrende Ergebnisse liefern. Andererseits kann die Menge von Standardwörtern entweder klein oder groß sein.
- Daher liegt der Erfindung unter anderem als Aufgabe zugrunde, ein Verfahren der eingangs erwähnten Art zu verschaffen, bei dem Abweichungen zwischen den verschiedenen Lernäußerungen unschädlich gemacht werden, indem sie nicht dazu führen, dass das System aufgrund einer von dem Benutzer unerwünscht fehlerhaft ausgesprochenen Äußerung lernt. Daher umfasst die Erfindung nach einem ihrer Aspekte erstens, Lernen eines Ganzwortmodells, das unabhängig von den Modellen der Teilworteinheiten ist, unter Verwendung der genannten Äußerungen, wobei das Ganzwortmodell eine Länge hat, die der mittleren Länge der Äußerungen entspricht, wobei das Verfahren gekennzeichnet ist durch
- zweitens, Interpretieren einer ersten Sequenz von Markov-Zuständen und zugehörigen Wahrscheinlichkeitsdichten von akustischen Ereignissen des Ganzwortmodells als Referenzschablone, durch eine zweite Sequenz von gemittelten Merkmalsvektoren repäsentiert, und
- drittens, Erkennen der genannten zweiten Sequenz durch Abbilden auf Modelle von Teilworteinheiten in dem genannten Bestand und Speicherung eines Erkennungsergebnisses als Modell der genannten Äußerungen.
- Im Gegensatz dazu beschreibt eine Veröffentlichung von L.R. Bahl et al., A Method for the Construction of Acoustic Markov Models for Words, IEEE Trans. on Speech and Audio Processing Bd. I, Nr. 4, Oktober 1993, S. 443-452 ein anderes Verfahren zum Erzeugen einer Transkription auf Basis einer Vielzahl von Äußerungen. Gemäß dieser Druckschrift führt jede Äußerung zu ihrer eigenen Transkription. Anschließend werden alle jeweiligen Transkriptionen auf alle Äußerungen abgebildet, um die optimale Transkription zu finden, was auch die beste Äußerung bedeutet. Die vorliegenden Erfinder haben gefunden, dass ein solchen Vorgehen eine übermäßige Menge an Verarbeitung erfordert, wenn alle akustischen Störungen, Zeitverwerfungen, Maßstabsveränderungen und andere Abweichungen zwischen den Äußerungen berücksichtigt werden. Insbesondere in Anbetracht der angestrebten Nutzung der Erfindung in einer Einrichtung mit begrenzten Fähigkeiten, wie z. B., aber nicht begrenzt hierauf, einem Handfunktelefon, würde dies die Einrichtung für einen langen Zeitraum blockieren, in welchem sie dann für andere Funktionen nicht zur Verfügung steht. Die bekannte Prozedur benötigt nämlich eine Verarbeitungzeit, die proportional zum Quadrat der Anzahl Äußerungen ist, während die vorliegende Erfindung nur eine Verarbeitungzeit benötigt, die linear zur Anzahl Äußerungen ist.
- Andere relevante Bezugsschriften sind EP-B1-285 222, entsprechend der US-Patentanmeldung Serien-Nr. 07/175,976 (PHD 87.073) zur Modellierung, und EP-A3- 533 260, entsprechend der US-Patentanmeldung Serien-Nr. 07/944,554 (PHD 91.138) zur Ausführung der Baumsuchoperation bei der Spracherkennung, alle auf Namen der Anmelderin der vorliegenden Anmeldung.
- Weiterhin wirkt eine vorteilhafte Ausführungsform der vorliegenden Erfindung mit der Lehre von Bahl et al. zusammen, indem die auf der mittleren Äußerung beruhende Transkription, wie in der vorliegenden Erfindung erhalten, in einer nachfolgenden Operation mit den verschiedenen gemäß dem Verfahren von Bahl et al. erzeugten Ein- Äußerungstranskriptionen konkurriert. Unter bestimmten Bedingungen ergibt dies eine weitere Verbesserung für das gemäß dem Vorhergehenden erhaltene Ergebnis.
- Die Erfindung bezieht sich auch auf eine Einrichtung zur Implementierung des Verfahrens. Weitere vorteilhafte Aspekte werden in den abhängigen Ansprüchen genannt.
- Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden im folgenden näher beschrieben. Es zeigen:
- Fig. 1 ein System zum Bewirken der Erkennung;
- Fig. 2 ein System zum Bewirken der Transkription;
- Fig. 3 einen Ablaufplan zum Bewirken der Transkription;
- Fig. 4 eine Einrichtung zum Bewirken der Transkription.
- Zuerst wird eine kurze Formulierung des erfindungsgemäßen Verfahrens gegeben. Ausgangspunkt der Prozedur ist das Verschaffen eines gespeicherten Bestandes von Modellen von Teilworteinheiten. In dem Verfahren wird jetzt ein separates Ganzwortmodell mit Einzeldichtenemissionswahrscheinlichkeiten aus den n gegebenen Äußerungen abgeleitet, wobei n eine geeignete Anzahl, wie z. B. drei oder fünf sein kann. Dieses Modell kann als eine 'mittlere Äußerung' interpretiert werden, die aus den verschiedenen Äußerungen erhalten wird, wo die Beobachtungsvektoren dieser mittleren Äußerung die mittleren Vektoren der zustandsspezifischen Emissionswahrscheinlichkeitsdichten sind. Die Transkription des unbekannten Wortes wird durch die Teilworteinheitensequenz gegeben, die am wahrscheinlichsten diese mittlere Äußerung erzeugt hat:
- Tavg = argmaxs SP( s)
- Diese Teilworteinheitensequenz kann ihrerseits durch eine Erkennungsprozedur für kontinuierliche Sprache gefunden werden. Insbesondere kann die selektierte Transkription Tavg aus der Menge S von Teilworteinheitensequenzen stammen.
- In etwas weiterenm Zusammenhang nutzt die Erfindung erst die verschiedenen Äußerungen, um ein Ganzwortmodell zu erlernen, das unabhängig von den Modellen der Teilworteinheiten ist und eine Länge hat, die gleich der mittleren Länge der Äußerungen ist. Danach wird das Ganzwortmodell verwendet, um daraus eine Sequenz von Markov-Zuständen und zugehörigen Wahrscheinlichkeitsdichten von akustischen Ereignissen abzuleiten. An sich ist eine solche Repräsentation als verborgener Markov-Prozess in der Spracherkennungstechnologie weit verbreitet. Diese Repräsentation führt auch zur Unterscheidung von Teilworteinheiten in der Äußerung, so dass das Ergebnis der Interpretation als aus einer Sequenz gemittelter Merkmalsvektoren bestehende Schablone verwendet werden kann. Ihrerseits können Elemente dieser letzteren Sequenz auf Modelle der Teilworteinheiten in dem Bestand abgebildet werden, so dass die Erkennungsfolge faktisch ein Modell der gemittelten Äußerungen ist und anschließend zum Erkennen weiterer Äußerungen verwendet werden kann.
- Fig. 1 zeigt ein System zum Bewirken der Erkennung gesprochener Wörter. Hierin stellt Block 20 ein zu erkennendes gesprochenes Wort dar, wobei in der Figur die Zeit von links nach rechts läuft und der Inhalt des Blocks die zeitlich variierenden Merkmalsvektoren der abgetasteten Sprache ist. Zuerst wird das Wort in Teilworteinheiten zerlegt, die als kleinere Blöcke gezeigt werden. Verschiedene solche Einheiten können Phone, Diphone, Silbenteile, vollständige Silben, oder sogar einzelne solche Merkmalsvektoren. Eine Teilworteinheit braucht keine akustische Bedeutung zu haben. Diese Zerlegung erfolgt auf Basis verschiedener der obengenannten Merkmalsvektoren und kann in herkömmlicher Weise erfolgen. Die Trennung wird durch vertikale Linien angedeutet, die nicht gleichen Abstand zu haben brauchen, wie in der Figur gezeigt, weil eine Mischung aus längeren und kürzeren Teilworteinheiten möglich ist. Danach werden, ausgehend von einem Ende des betreffenden Wortes, die Teilworteinheiten auf die in dem Bestand 22, der anhand der Analyse eines großen Sprachkörpers aufgebaut worden ist, gespeicherten Items abgebildet. An sich fällt eine solche Analyse nicht in den Rahmen der vorliegenden Erfindung, die den Bestand als vorgegeben betrachtet. Jede folgende Teilworteinheit kann eine Übereinstimmung mit einem oder mehreren der Bestand-Items erzeugen.
- Jede Abbildung bringt jetzt auch ein Resultat mit sich, das vom Grad der Nichtübereinstimmung zwischen den beiden abgebildeten Items abhängt, so dass ein niedrigeres Resultat eine bessere Abbildung angibt und umgekehrt. Weiterhin kann das Resultat von einem Sprachenmodell abhängen, das die Wahrscheinlichkeit für eine spezielle Ver kettung von Wörtern angibt. Wiederum ergibt eine geringe Wahrscheinlichkeit ein hohes Resultat und umgekehrt. Gemäß einer bestimmten Strategie wird auf diese Weise aus verschiedenen möglichen Verkettungen erkannter Teilwörter ein Baum aufgebaut, der zweigweise Resultate liefert. Ein Kappmechanismus ist vorgesehen, um solche Zweige des Baumes abzuschließen und wegzuschneiden, die wegen ihres hohen Resultats eine sehr geringe Wahrscheinlichkeit für die zugehörige Erkennung angeben. Wenn es zu einem bestimmten Zeitpunkt keine parallelen Möglichkeiten mehr für eine andere spezielle Zuordnung gibt, ist das betreffende Wort oder der Wortteil erkannt worden, wenn nicht das zugehörige Resultat eine unrealistische geringe Wahrscheinlichkeit angibt. Letzteres führt dazu, dass ein Teil der Sprache als unerkannt verworfen wird und der Resultatstand zurückgesetzt wird. Mittels Symbolisierung sind verschiedene Wege angedeutet worden, wobei jeder Punkt die Zuordnung eines Teilwortes zu einem Item aus der zugehörigen Reihe des Speichersystems 22 symbolisiert. Es sollte deutlich sein, dass die Darstellung in der Figur vollkommen symbolisch ist. Verschiedene andere Resultatfindungs- und Suchstrategien sind möglich.
- Fig. 2 zeigt ein System zum Bewirken der Transkription, das auf drei Äußerungen (30, 32, 34) des (vermutlich) gleichen Wortes durch einen Benutzer beruht. Der Benutzer kann gegebenenfalls der gleiche sein. Zuerst werden die Längen der Äußerungen bestimmt, beispielsweise durch Zählen der Anzahl voneinander gleich entfernter Abtastwerte für jede Äußerung, und daraus wird ein Mittelwert berechnet. Danach wird unter Verwendung der verschiedenen Äußerungen ein vom Teilwortmodellbestand unabhängiges Ganzwortmodell (36) bei der mittleren Länge der Äußerungen erlernt. Dieses Lernen kann mit einem Standard-Spracherkennungslernverfahren erfolgen. Danach wird dieses Lernergebnis mit Hilfe einer Sequenz aus Markov-Zuständen und zugehörigen Wahrscheinlichkeitsdichten akustischer Ereignisse des Ganzwortmodells interpretiert. Das Ergebnis (38) ist eine Referenzschablone, die als eine Reihe gemittelter Merkmalsvektoren ausgedrückt wird. Dieses akustische Modell arbeitet dann als Schablone, d. h. als eine Art gemittelte Äußerung. Diese letztere Sequenz wird dann durch Abbilden auf die verschiedenen Teilworteinheitenmodelle im Bestand 22 erkannt, und das Ergebnis (40) ist ein Modell für spätere Äußerungen.
- Schließlich wird die Transkription für das neue Wort abgeleitet, indem die Sequenz von Teilworteinheiten gefunden wird, die am besten mit der Sequenz aus gemittelten Merkmalsvektoren übereinstimmt, ähnlich der Prozedur von Fig. 1. Im Unterschied zu Fig. 1 wird jetzt jedoch häufig kein Sprachenmodell verwendet, weil kein A-Priori- Wissen zum Charakter der Äußerung vorzuliegen braucht: Es kann sich um ein einzelnes Wort oder eher einen zusammengesetzten Begriff handeln, wie ein bestimmter Name plus einem Nachnamen der in dem oben betrachteten Telefonsystem anzurufenden Person. In einer anderen Umgebung könnte die Verwendung eines derartigen Sprachenmodells jedoch für mögliche Sequenzen von Teilworteinheiten genutzt werden.
- Auch ein akustisches Modell wird für die Erkennung verwendet, weil das akustische Modell im Allgemeinen nicht notwendigerweise von der Bedeutung der zugrundeliegenden Silben abhängt. Wenn das Erkennungsresultat der gemittelten Äußerungen übermäßig hoch ist und daher eine übermäßig geringe Erkennungswahrscheinlichkeit aufweisen würde, wird dem Benutzer mitgeteilt, z. B. durch eine hörbare Nachricht oder eine Leuchtanzeige, dass das Lernen erfolglos war und dass ein erneutes Lernen erfolgen muss. Wenn das Lernen erfolgreich war, wird die erkannte Folge aus Teilworteinheiten in dem Bestand gespeichert, durch Block 40 symbolisiert, woraufhin der Benutzer gebeten wird, ebenfalls mittels einer hörbaren Nachricht oder einer Leuchtanzeige, die Nummer des Telefonanschlusses genau anzugeben, die bei einer späteren Erkennung danach zu der Folge 40 gehören soll. Ein solches Merkmal ermöglicht dann anschließend sprachgesteuertes Wählen, wobei die Transkription zur Erkennung des Wortes verwendet wird, das das System jetzt gelernt hat.
- Fig. 3 zeigt einen Ablaufplan zum Bewirken der Transkription. In Block 60 wird das System initialisiert, unter anderem durch Verschaffen des Teilwortmodellbestandes und Rücksetzen von Betriebsparametern. In Block 62 detektiert das System, ob eine Äußerung empfangen worden ist. Falls nicht, dann bringt eine Warteschleife das System wieder zu Block 62 zurück. Im positiven Fall wird in Block 64 die Äußerung abgetastet, und nach Repräsentieren der Abtastwerte als Merkmalsvektoren gespeichert. In Block 66 detektiert das System, ob die Anzahl absichtlich übereinstimmender Äußerungen ein ausreichendes Niveau angenommen hat, z. B. drei. Ein anderer Trick ist, ein 'Ausführ'-Kommando zu detektieren. Im negativen Fall kehrt das System wieder zu Block 62 zurück, um eine weitere Äußerung abzuwarten. In Block 68 wird mit Hilfe der verschiedenen empfangene Äußerungen ein Ganzwortmodell der Äußerungen gelernt, ohne Rückgriff auf den Bestand, bei einer Länge, die der Mittelwert der verschiedenen Äußerungen ist. Anschließend wird in Block 70 das Ganzwortmodell, das als Sequenz aus Markov-Zuständen und zugehörigen Wahrscheinlichkeitsdichten von akustischen Ereignissen repräsentiert wird, als Referenzschablone interpretiert, die als Sequenz von gemittelten Merkmalsvektoren gege ben wird. Nachfolgend wird in Block 72 die letztere Sequenz durch Abbilden auf die Modelle der Teilworteinheiten in dem Bestand erkannt. Dies ermöglicht es, anschließend später empfangene Äußerungen als eine der Äußerungen zu identifizieren, die jetzt von einer Folge von Teilwortmodellen repräsentiert worden sind. Danach detektiert das System in Block 76, ob noch eine neue Äußerung empfangen werden sollte, um ihrerseits verarbeitet zu werden. Falls es noch nicht fertig ist, kehrt das System dann zu Block 62 zurück. Im anderen Fall, oder auch infolge eines 'beendet'-Kommandos, stoppt das System mittels eines abschließenden Blockes 78.
- Fig. 4 zeigt eine Einrichtung zum Bewirken der Transkription gemäß der Erfindung. Block 80 ist eine Art Mikrofon oder eine andere Einrichtung zur Spracheingabe. Block 82 bewirkt periodisches Abtasten der empfangenen Äußerung und kann einen Sprachdetektor umfassen, um Abtasten nur dann zu bewirken, wenn wirklich Sprache empfangen wird. Block 84 leitet aus dem Abtastwertestrom Merkmalsvektoren von Sprachkennzeichen ab. Daher umfasst die Einrichtung verschiedene herkömmliche Elemente, wie Bandfilter, A/D-Umsetzer, so dass schließlich die Merkmalsvektoren ein brauchbares Medium für weitere Verarbeitung sind. In Block 86 werden die Merkmalsvektorfolgen der Äußerungen in den jeweiligen Teilblöcken A, B, C gespeichert. Durch kombiniertes Zugreifen auf diesen Speicher wird im Lernblock 88 ein Ganzwortmodell mit einer der mittleren Länge der Äußerungen entsprechenden Länge erlernt. Dies erfordert auch Abgleichen der verschiedenen Äußerungsrepräsentationen. Die Modellierung für eine einzelne Äußerung ist im obengenannten Stand der Technik an sich beschrieben worden. Als Nächstes interpretiert der Block 90 das vom Block 88 empfangene Ganzwortmodell, das insbesondere eine Sequenz aus Markov-Zuständen und zugehörigen Wahrscheinlichkeitsdichteverteilungen von akustischen Ereignissen im Ganzwortmodell umfasst. Das Ergebnis der Interpretation ist eine Referenzschablone mit einer Sequenz aus gemittelten Merkmalsvektoren. Schließlich greift Block 92 auf den gespeicherten Bestand von Teilworteinheitenmodellen im Speicherblock 96 zu und erkennt so die vom Block 90 empfangene Schablone als passend zu einer speziellen Sequenz der gespeicherten Teilworteinheitenmodelle. Block 94 bildet mit verschiedenen anderen Einrichtungen je nach der Notwendigkeit eine Schnittstelle. Er kann beispielsweise zusätzlichen Speicher enthalten, um die Reihe von Teilwortmodellen aus Block 96, die zu der Äußerung für nachfolgende Erkennung gehören, zu speichern, so dass nachfolgender Empfang einer einzelnen Äußerung nach Umsetzung in Merkmalsvektoren direkt auf spezielle Teilworteinheitenmodelle abgebildet werden kann.
- Mehrere zusätzliche, aber optionale Benutzerschnittstelleneinrichtungen sind in der Figur gezeigt worden. Block 98 ist eine Tastatur für Telefongebrauch. Dies wird häufig eine Einrichtung mit zwölf Tasten sein. Eintasten einer Telefonanschlussnummer, nach Speicherung der Sequenz von Teilworteinheitenmodellen, die zu einer nachfolgenden Äußerung gehören, verbindet diese Äußerung mit der eingetasteten Nummer und erlaubt daher anschließend diese Nummer gesteuert durch die Spracheingabe der zugehörigen Bezeichnungsäußerung zu aktivieren. Block 100 ist eine alphabetische Tastatur, wie z. B. eine alphanumerische QWERTY-Tastatur. Eingeben eines Textes in Block 102 führt zu Graphem- Phonem-Wandlung, was an sich ein herkömmliches Merkmal ist. Die verwendeten Phoneme sind entsprechend der Modellierung von Teilworteinheiten im Bestandsspeicher 96 modelliert worden. Die Ausgabe des Wandlers 102 wird dem Erkennerblock 92 angeboten. Auf diese Weise kann die Graphem-Phonem-Wandlung durch die erfindungsgemäße Sprache-Phönem-Repräsentation verbessert werden, beispielsweise bei einem fremden Namen, der eine andere Schreibweise hat. Auch ist Verbesserung in der anderen Richtung dadurch möglich, dass ein spezielles Wort sprachlich schwierig erkennbar sein kann.
- Fig. 3:
- 60: Beginn
- 62 Äußerung
- 64 Speichern
- 66 Anzahl o.k.?
- 68 Lernen
- 70 Interpretieren
- 72, 74 Erkennen
- 76 Fertig?
- 78 Ende
Claims (6)
1. Verfahren zum Repräsentieren eines neuen Wortes für die Spracherkennung,
das auf einem gespeicherten Bestand von Modellen von Teilworteinheiten beruht, wobei
dieses Verfahren die folgenden Schritte umfasst:
Anbieten einer Vielzahl von Äußerungen (30, 32, 34), die alle absichtlich dem genannten
neuen Wort entsprechen, Repräsentieren der Äußerungen durch eine Sequenz aus
Merkmalsvektoren und Aufbauen eines Wortmodells (36) aus den Äußerungen, mit
erstens, Lernen eines Ganzwortmodells (36), das unabhängig von den Modellen
der Teilworteinheiten ist, unter Verwendung der genannten Äußerungen, wobei das
Ganzwortmodell eine Länge hat, die der mittleren Länge der Äußerungen entspricht, wobei das
Verfahren gekennzeichnet ist durch
zweitens, Interpretieren einer ersten Sequenz von Markov-Zuständen und
zugehörigen Wahrscheinlichkeitsdichten von akustischen Ereignissen des Ganzwortmodells als
Referenzschablone (38), durch eine zweite Sequenz von gemittelten Merkmalsvektoren
repäsentiert, und
drittens, Erkennen der genannten zweiten Sequenz durch Abbilden auf Modelle
von Teilworteinheiten in dem genannten Bestand und Speicherung eines
Erkennungsergebnisses als Modell (40) der genannten Äußerungen.
2. Verfahren zum Repäsentieren eines neuen Wortes für die Spracherkennung,
wobei eine Modellierungsoperation erfolgt, indem jede Äußerung aus einer Serie von
Äußerungen durch ihre eigene Transkription repräsentiert wird, alle jeweiligen
Transkriptionen als Kandidaten auf alle Äußerungen abgebildet werden, um die optimale Transkription
zu finden, was auch bedeutet die beste Äußerung, und das Ergebnis des Repräsentierens
nach Anspruch 1 ein weiterer der Kandidaten ist.
3. Einrichtung zum Repräsentieren eines neuen Wortes für die
Spracherkennung, das auf einem gespeicherten Bestand von Modellen von Teilworteinheiten beruht,
wobei diese Einrichtung umfasst:
Eingabemittel zum Empfangen einer Vielzahl von Äußerungen (30, 32, 34), die alle
absichtlich dem genannten Wort entsprechen, Repräsentationsmittel zum Repräsentieren der
Äußerungen durch eine Sequenz aus Merkmalsvektoren und Aufbauen eines Wortmodells
(36) aus den Äußerungen, mit
von den genannten Eingabemitteln versorgten Lernmitteln zum Lernen eines
Ganzwortmodells (36), das unabhängig von den Modellen der Teilworteinheiten ist, unter
Verwendung der genannten Äußerungen, wobei das genannte Ganzwortmodell eine der
mittleren Länge der Äußerungen entsprechende Länge hat, wobei die Einrichtung
ekennzeichnet ist durch
von den genannten Lernmitteln versorgte Interpretationsmittel zum Interpretieren
einer ersten Sequenz aus Markov-Zuständen und und zugehörigen
Wahrscheinlichkeitsdichten von akustischen Ereignissen des Ganzwortmodells als Referenzschablone (38),
durch eine zweite Sequenz von gemittelten Merkmalsvektoren repräsentiert, und
Erkennungsmittel zur Erkennung der genannten zweiten Sequenz durch Abbilden
auf Modelle von Teilworteinheiten in dem genannten Bestand und Speicherung eines
Erkennungsergebnisses als Modell (40) der genannten Äußerungen,
und von den Erkennungsmitteln versorgte erste Ausgabemittel zum Ausgeben des
genannten Erkennungsergebnisses als Basis für einen nachfolgenden Vergleich mit späteren
Äußerungen.
4. Einrichtung nach Anspruch 3, die Telefonfunktionalität aufweist und
ziffernweise sprachbetätigtes Wählen erlaubt, und wobei die genannte Äußerung eine
Bezeichnung für Kurzwahl ist.
5. Einrichtung nach Anspruch 3, wobei der genannte Bestand
sprecherunabhängige Erkennung einer Standard-Wortmenge erlaubt, und weiterhin ausgebildet, um das
Erkennen des genannten neuen Wortes mit vergleichbarer Robustheit wie die genannte
Standard-Wortmenge zu erlauben.
6. Einrichtung nach Anspruch 3, die einen Graphem-Phonem-Wandler mit
zweiten Ausgabemitteln hat, die die genannten Erkennungsmittel versorgen, um
gemeinschaftlich für einen verbesserten Betrieb des genannten Graphem-Phonem-Wandlers zu
sorgen.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP95201139 | 1995-05-03 | ||
PCT/IB1996/000396 WO1996035207A1 (en) | 1995-05-03 | 1996-05-02 | Speech recognition methods and apparatus on the basis of the modelling of new words |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69607913D1 DE69607913D1 (de) | 2000-05-31 |
DE69607913T2 true DE69607913T2 (de) | 2000-10-05 |
Family
ID=8220249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69607913T Expired - Fee Related DE69607913T2 (de) | 1995-05-03 | 1996-05-02 | Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle |
Country Status (6)
Country | Link |
---|---|
US (1) | US5873061A (de) |
EP (1) | EP0769184B1 (de) |
JP (1) | JPH10503033A (de) |
CN (1) | CN1130688C (de) |
DE (1) | DE69607913T2 (de) |
WO (1) | WO1996035207A1 (de) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100397435B1 (ko) * | 1996-07-20 | 2003-12-24 | 엘지전자 주식회사 | 음성인식시스템에서새로운등록단어처리가가능한클래식를이용한언어학적모델처리방법 |
DE19751123C1 (de) * | 1997-11-19 | 1999-06-17 | Deutsche Telekom Ag | Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen |
US5927988A (en) * | 1997-12-17 | 1999-07-27 | Jenkins; William M. | Method and apparatus for training of sensory and perceptual systems in LLI subjects |
CN1343337B (zh) | 1999-03-05 | 2013-03-20 | 佳能株式会社 | 用于产生包括音素数据和解码的字的注释数据的方法和设备 |
DE60026637T2 (de) * | 1999-06-30 | 2006-10-05 | International Business Machines Corp. | Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems |
US6434547B1 (en) | 1999-10-28 | 2002-08-13 | Qenm.Com | Data capture and verification system |
US7310600B1 (en) | 1999-10-28 | 2007-12-18 | Canon Kabushiki Kaisha | Language recognition using a similarity measure |
US6882970B1 (en) | 1999-10-28 | 2005-04-19 | Canon Kabushiki Kaisha | Language recognition using sequence frequency |
US7212968B1 (en) | 1999-10-28 | 2007-05-01 | Canon Kabushiki Kaisha | Pattern matching method and apparatus |
DE19952049A1 (de) * | 1999-10-28 | 2001-05-10 | Siemens Ag | Verfahren und Anordnung zur Verifikation eines Sprechers anhand eines Rechners |
GB0011798D0 (en) * | 2000-05-16 | 2000-07-05 | Canon Kk | Database annotation and retrieval |
GB0015233D0 (en) | 2000-06-21 | 2000-08-16 | Canon Kk | Indexing method and apparatus |
US6961703B1 (en) * | 2000-09-13 | 2005-11-01 | Itt Manufacturing Enterprises, Inc. | Method for speech processing involving whole-utterance modeling |
GB0023930D0 (en) | 2000-09-29 | 2000-11-15 | Canon Kk | Database annotation and retrieval |
GB0027178D0 (en) * | 2000-11-07 | 2000-12-27 | Canon Kk | Speech processing system |
GB0028277D0 (en) | 2000-11-20 | 2001-01-03 | Canon Kk | Speech processing system |
US6973427B2 (en) * | 2000-12-26 | 2005-12-06 | Microsoft Corporation | Method for adding phonetic descriptions to a speech recognition lexicon |
GB0204474D0 (en) * | 2002-02-26 | 2002-04-10 | Canon Kk | Speech recognition system |
JP4943335B2 (ja) * | 2004-09-23 | 2012-05-30 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 話者に依存しない堅牢な音声認識システム |
DE102005002474A1 (de) | 2005-01-19 | 2006-07-27 | Obstfelder, Sigrid | Handy und Verfahren zur Spracheingabe in ein solches sowie Spracheingabebaustein und Verfahren zur Spracheingabe in einen solchen |
WO2007097390A1 (ja) * | 2006-02-23 | 2007-08-30 | Nec Corporation | 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム |
DE102012202391A1 (de) * | 2012-02-16 | 2013-08-22 | Continental Automotive Gmbh | Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen |
US9570069B2 (en) * | 2014-09-09 | 2017-02-14 | Disney Enterprises, Inc. | Sectioned memory networks for online word-spotting in continuous speech |
KR102413067B1 (ko) * | 2015-07-28 | 2022-06-24 | 삼성전자주식회사 | 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스 |
CN106548787B (zh) * | 2016-11-01 | 2019-07-09 | 云知声(上海)智能科技有限公司 | 优化生词的评测方法及评测系统 |
EP3698358B1 (de) | 2017-10-18 | 2025-03-05 | Soapbox Labs Ltd. | Verfahren und systeme zur verarbeitung von audiosignalen, die sprachdaten enthalten |
CN113990293B (zh) * | 2021-10-19 | 2025-02-21 | 京东科技信息技术有限公司 | 语音识别方法及装置、存储介质、电子设备 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5165007A (en) * | 1985-02-01 | 1992-11-17 | International Business Machines Corporation | Feneme-based Markov models for words |
US4819271A (en) * | 1985-05-29 | 1989-04-04 | International Business Machines Corporation | Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments |
US5315689A (en) * | 1988-05-27 | 1994-05-24 | Kabushiki Kaisha Toshiba | Speech recognition system having word-based and phoneme-based recognition means |
JP2955297B2 (ja) * | 1988-05-27 | 1999-10-04 | 株式会社東芝 | 音声認識システム |
DE3931638A1 (de) * | 1989-09-22 | 1991-04-04 | Standard Elektrik Lorenz Ag | Verfahren zur sprecheradaptiven erkennung von sprache |
US5129001A (en) * | 1990-04-25 | 1992-07-07 | International Business Machines Corporation | Method and apparatus for modeling words with multi-arc markov models |
US5454062A (en) * | 1991-03-27 | 1995-09-26 | Audio Navigation Systems, Inc. | Method for recognizing spoken words |
DE4130632A1 (de) * | 1991-09-14 | 1993-03-18 | Philips Patentverwaltung | Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal |
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
EP0562138A1 (de) * | 1992-03-25 | 1993-09-29 | International Business Machines Corporation | Methode und Einrichtung zur automatischen Erzeugung von Markov-Modellen von neuen Wörtern zur Aufnahme in einem Wortschatz zur Spracherkennung |
US5502774A (en) * | 1992-06-09 | 1996-03-26 | International Business Machines Corporation | Automatic recognition of a consistent message using multiple complimentary sources of information |
JPH0772840B2 (ja) * | 1992-09-29 | 1995-08-02 | 日本アイ・ビー・エム株式会社 | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 |
US5528728A (en) * | 1993-07-12 | 1996-06-18 | Kabushiki Kaisha Meidensha | Speaker independent speech recognition system and method using neural network and DTW matching technique |
US5621859A (en) * | 1994-01-19 | 1997-04-15 | Bbn Corporation | Single tree method for grammar directed, very large vocabulary speech recognizer |
US5429513A (en) * | 1994-02-10 | 1995-07-04 | Diaz-Plaza; Ruth R. | Interactive teaching apparatus and method for teaching graphemes, grapheme names, phonemes, and phonetics |
US5638487A (en) * | 1994-12-30 | 1997-06-10 | Purespeech, Inc. | Automatic speech recognition |
-
1996
- 1996-05-02 DE DE69607913T patent/DE69607913T2/de not_active Expired - Fee Related
- 1996-05-02 WO PCT/IB1996/000396 patent/WO1996035207A1/en active IP Right Grant
- 1996-05-02 US US08/642,018 patent/US5873061A/en not_active Expired - Fee Related
- 1996-05-02 CN CN96190450A patent/CN1130688C/zh not_active Expired - Fee Related
- 1996-05-02 JP JP8533155A patent/JPH10503033A/ja not_active Abandoned
- 1996-05-02 EP EP96910149A patent/EP0769184B1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US5873061A (en) | 1999-02-16 |
DE69607913D1 (de) | 2000-05-31 |
CN1153567A (zh) | 1997-07-02 |
WO1996035207A1 (en) | 1996-11-07 |
EP0769184A1 (de) | 1997-04-23 |
CN1130688C (zh) | 2003-12-10 |
EP0769184B1 (de) | 2000-04-26 |
JPH10503033A (ja) | 1998-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69607913T2 (de) | Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE69519297T2 (de) | Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen | |
EP0925578B1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
DE69315374T2 (de) | Spracherkennungssystem zur naturgetreuen Sprachübersetzung | |
DE69514382T2 (de) | Spracherkennung | |
DE69908254T2 (de) | System zur Suchoptimierung und Verfahren zur kontinuierlichen Spracherkennung | |
EP1611568B1 (de) | Dreistufige einzelworterkennung | |
DE3876207T2 (de) | Spracherkennungssystem unter verwendung von markov-modellen. | |
DE69324428T2 (de) | Verfahren zur Sprachformung und Gerät zur Spracherkennung | |
EP1466317B1 (de) | Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner | |
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE69933623T2 (de) | Spracherkennung | |
DE20004416U1 (de) | Spracherkennungsvorrichtung unter Verwendung mehrerer Merkmalsströme | |
EP0418711A2 (de) | Verfahren zur sprecheradaptiven Erkennung von Sprache | |
DE60318385T2 (de) | Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm | |
DE602004004310T2 (de) | System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen | |
DE10304460B3 (de) | Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung | |
DE10040063A1 (de) | Verfahren zur Zuordnung von Phonemen | |
DE68914032T2 (de) | Spracherkennungssystem. | |
DE19654549C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
EP2431969A1 (de) | Spracherkennung mit kleinem Rechenaufwand und reduziertem Quantisierungsfehler | |
DE60029456T2 (de) | Verfahren zur Online-Anpassung von Aussprachewörterbüchern | |
EP2034472B1 (de) | Spracherkennungsverfahren und Spracherkennungsvorrichtung | |
WO1993013517A1 (de) | Verfahren zur schnellen sprecheradaption in einem spracherkenner für grossen wortschatz |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: PHILIPS INTELLECTUAL PROPERTY & STANDARDS GMBH, 20 Owner name: KONINKLIJKE PHILIPS ELECTRONICS N.V., EINDHOVEN, N |
|
8339 | Ceased/non-payment of the annual fee |