[go: up one dir, main page]

DE69607913T2 - Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle - Google Patents

Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle

Info

Publication number
DE69607913T2
DE69607913T2 DE69607913T DE69607913T DE69607913T2 DE 69607913 T2 DE69607913 T2 DE 69607913T2 DE 69607913 T DE69607913 T DE 69607913T DE 69607913 T DE69607913 T DE 69607913T DE 69607913 T2 DE69607913 T2 DE 69607913T2
Authority
DE
Germany
Prior art keywords
utterances
word
sequence
recognition
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69607913T
Other languages
English (en)
Other versions
DE69607913D1 (de
Inventor
Peter Beyerlein
Reinhold Haeb-Umbach
Eric Thelen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Koninklijke Philips NV
Original Assignee
Philips Corporate Intellectual Property GmbH
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Corporate Intellectual Property GmbH, Koninklijke Philips Electronics NV filed Critical Philips Corporate Intellectual Property GmbH
Publication of DE69607913D1 publication Critical patent/DE69607913D1/de
Application granted granted Critical
Publication of DE69607913T2 publication Critical patent/DE69607913T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)

Description

    Verfahren und Vorrichtung zur Spracherkennung auf der Basis neuer Wortmodelle BEREICH DER ERFINDUNG
  • Die Erfindung betrifft ein Verfahren zum Repräsentieren eines neuen Wortes für die Spracherkennung, das auf einem gespeicherten Bestand von Modellen von Teilworteinheiten beruht, wobei dieses Verfahren die folgenden Schritte umfasst:
  • Anbieten einer Vielzahl von Äußerungen, die alle absichtlich dem genannten neuen Wort entsprechen, Repräsentieren der Äußerungen durch eine Sequenz aus Merkmalsvektoren und Aufbauen eines Wortmodells aus den Äußerungen.
  • Im Rahmen der Erfindung soll unter einem Wort eine linguistische Gesamtheit mehr oder weniger begrenzter Länge verstanden werden und kann somit kurze Sätze, Eigen- und andere Namen einschließen sowie andere Items, die eine machinelle Erkennung gewährleisten, wenn sie in Form von Sprache angeboten werden. Insbesondere richtet sich die Erfindung auf das Problem, eine akustische Darstellung, im Weiteren auch Transkription genannt, eines unbekannten Wortes als Sequenz von Teilworteinheiten zu finden. Dies erfolgt, indem nur einige Probeäußerungen des unbekannten Wortes (der unbekannten Wörter) verschafft werden und weiterhin ein Bestand an sprecherunabhängigen Teilworteinheitenmodellen.
  • Die Druckschrift EP-A-0344017 beschreibt ein Spracherkennungssystem mit Mitteln zum Lernen zusätzlicher Wörter eines Vokabulars. Das System umfasst einen ersten Worterkennungsabschnitt, der auf Ganzwortabbildung beruht, und einen zweiten Worterkennungsabschnitt, der sprecherunabhängiges phonembasiertes Abbilden verwendet. Das Lernen zusätzlicher Wörter des Vokabulars beruht auf sprecherabhängigen Ganzwortmodellen.
  • Ein Problem ergibt sich, wenn ein Benutzer ein Wort oder mehrere zusätzliche Wörter des Vokabulars einem sprecherunabhängigen Erkennungssystem hinzufügen möchte, indem es das System mit nur einigen wenigen Äußerungen des neuen Wortes lernen lässt. Sprecherunabhängige Erkennung wird verwendet, wenn die Anzahl Sprecher, die ein speziellen Typ eines Systems nutzen sollen, relativ groß ist und/oder das System relativ preisgünstig ist. Ein typisches Beispiel wäre eine sprachbetätigte Telefoneinrichtung, die normalerweise die zehn Ziffern und einige Standardbegriffe erkennen kann, und die der Benutzer lehren kann, zusätzlich solche Namen oder andere Bezeichnungen zu erkennen, die zu häufig angerufenen Telefonanschlüssen gehören.
  • Ein anderes Beispiel wäre bei einem sprecherunabhängigen Spracherkennungssystem sinnvoll, das nur eine begrenzte Standardmenge erkennbarer Wörter haben könnte, wie z. B. nur zwanzig. Dieses System sollte dann mit vielen verschiedenen Sprechern gelernt haben. Das System kann jetzt mit zusätzlichen Wörtern erweitert werden müssen, für die nur eine sehr begrenzte Anzahl Lernsprecher, z. B. nicht mehr als drei, zur Verfügung stehen, aber wobei für diese zusätzlichen Wörter die gleiche Erkennungsrobustheit gefordert wird wie für die ursprüngliche Menge.
  • Noch ein anderes Beispiel wäre bei einer Graphem-Phonem-Wandlung, wo ein neues Wort aus der Tastatureingabe in ein akustisches Modell transkribiert wird. Zur Verbesserung der Zuverlässigkeit wird die Tastatureingabe durch eine akustische Eingabe des gleichen Wortes ergänzt. Die parallelen Repräsentationen verbessern wieder die Robustheit und würden unter speziellen Umständen auch Zuverlässigkeitsprobleme infolge von orthographischen Fehlern oder wegen des Vorliegens zweier korrekter Aussprachen eines einzigen geschriebene Wortes, die dann jeweils unterschiedliche Bedeutung haben würden, lösen.
  • Insbesondere wird gefordert, dass die minimal notwendige Anzahl Lernäußerungen klein bleiben sollte, d. h. nicht mehr als drei, um bei späterer Erkennung dennoch zuverlässige Leistungen zu erhalten. Das Problem ist auch allgemein auf Systeme beschränkt, die das Hinzufügen nur einer begrenzten Menge Wörter erlauben, z. B. bis zu zehn Wörter. Wenn die Anzahl zugefügter Wörter zu groß wird, könnte die Transkription verwirrende Ergebnisse liefern. Andererseits kann die Menge von Standardwörtern entweder klein oder groß sein.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Daher liegt der Erfindung unter anderem als Aufgabe zugrunde, ein Verfahren der eingangs erwähnten Art zu verschaffen, bei dem Abweichungen zwischen den verschiedenen Lernäußerungen unschädlich gemacht werden, indem sie nicht dazu führen, dass das System aufgrund einer von dem Benutzer unerwünscht fehlerhaft ausgesprochenen Äußerung lernt. Daher umfasst die Erfindung nach einem ihrer Aspekte erstens, Lernen eines Ganzwortmodells, das unabhängig von den Modellen der Teilworteinheiten ist, unter Verwendung der genannten Äußerungen, wobei das Ganzwortmodell eine Länge hat, die der mittleren Länge der Äußerungen entspricht, wobei das Verfahren gekennzeichnet ist durch
  • zweitens, Interpretieren einer ersten Sequenz von Markov-Zuständen und zugehörigen Wahrscheinlichkeitsdichten von akustischen Ereignissen des Ganzwortmodells als Referenzschablone, durch eine zweite Sequenz von gemittelten Merkmalsvektoren repäsentiert, und
  • drittens, Erkennen der genannten zweiten Sequenz durch Abbilden auf Modelle von Teilworteinheiten in dem genannten Bestand und Speicherung eines Erkennungsergebnisses als Modell der genannten Äußerungen.
  • Im Gegensatz dazu beschreibt eine Veröffentlichung von L.R. Bahl et al., A Method for the Construction of Acoustic Markov Models for Words, IEEE Trans. on Speech and Audio Processing Bd. I, Nr. 4, Oktober 1993, S. 443-452 ein anderes Verfahren zum Erzeugen einer Transkription auf Basis einer Vielzahl von Äußerungen. Gemäß dieser Druckschrift führt jede Äußerung zu ihrer eigenen Transkription. Anschließend werden alle jeweiligen Transkriptionen auf alle Äußerungen abgebildet, um die optimale Transkription zu finden, was auch die beste Äußerung bedeutet. Die vorliegenden Erfinder haben gefunden, dass ein solchen Vorgehen eine übermäßige Menge an Verarbeitung erfordert, wenn alle akustischen Störungen, Zeitverwerfungen, Maßstabsveränderungen und andere Abweichungen zwischen den Äußerungen berücksichtigt werden. Insbesondere in Anbetracht der angestrebten Nutzung der Erfindung in einer Einrichtung mit begrenzten Fähigkeiten, wie z. B., aber nicht begrenzt hierauf, einem Handfunktelefon, würde dies die Einrichtung für einen langen Zeitraum blockieren, in welchem sie dann für andere Funktionen nicht zur Verfügung steht. Die bekannte Prozedur benötigt nämlich eine Verarbeitungzeit, die proportional zum Quadrat der Anzahl Äußerungen ist, während die vorliegende Erfindung nur eine Verarbeitungzeit benötigt, die linear zur Anzahl Äußerungen ist.
  • Andere relevante Bezugsschriften sind EP-B1-285 222, entsprechend der US-Patentanmeldung Serien-Nr. 07/175,976 (PHD 87.073) zur Modellierung, und EP-A3- 533 260, entsprechend der US-Patentanmeldung Serien-Nr. 07/944,554 (PHD 91.138) zur Ausführung der Baumsuchoperation bei der Spracherkennung, alle auf Namen der Anmelderin der vorliegenden Anmeldung.
  • Weiterhin wirkt eine vorteilhafte Ausführungsform der vorliegenden Erfindung mit der Lehre von Bahl et al. zusammen, indem die auf der mittleren Äußerung beruhende Transkription, wie in der vorliegenden Erfindung erhalten, in einer nachfolgenden Operation mit den verschiedenen gemäß dem Verfahren von Bahl et al. erzeugten Ein- Äußerungstranskriptionen konkurriert. Unter bestimmten Bedingungen ergibt dies eine weitere Verbesserung für das gemäß dem Vorhergehenden erhaltene Ergebnis.
  • Die Erfindung bezieht sich auch auf eine Einrichtung zur Implementierung des Verfahrens. Weitere vorteilhafte Aspekte werden in den abhängigen Ansprüchen genannt.
  • KURZE BESCHREIBUNG DER ZEICHNUNG
  • Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden im folgenden näher beschrieben. Es zeigen:
  • Fig. 1 ein System zum Bewirken der Erkennung;
  • Fig. 2 ein System zum Bewirken der Transkription;
  • Fig. 3 einen Ablaufplan zum Bewirken der Transkription;
  • Fig. 4 eine Einrichtung zum Bewirken der Transkription.
  • GEDANKLICHE BASIS DER AUSFÜHRUNGSFORMEN
  • Zuerst wird eine kurze Formulierung des erfindungsgemäßen Verfahrens gegeben. Ausgangspunkt der Prozedur ist das Verschaffen eines gespeicherten Bestandes von Modellen von Teilworteinheiten. In dem Verfahren wird jetzt ein separates Ganzwortmodell mit Einzeldichtenemissionswahrscheinlichkeiten aus den n gegebenen Äußerungen abgeleitet, wobei n eine geeignete Anzahl, wie z. B. drei oder fünf sein kann. Dieses Modell kann als eine 'mittlere Äußerung' interpretiert werden, die aus den verschiedenen Äußerungen erhalten wird, wo die Beobachtungsvektoren dieser mittleren Äußerung die mittleren Vektoren der zustandsspezifischen Emissionswahrscheinlichkeitsdichten sind. Die Transkription des unbekannten Wortes wird durch die Teilworteinheitensequenz gegeben, die am wahrscheinlichsten diese mittlere Äußerung erzeugt hat:
  • Tavg = argmaxs SP( s)
  • Diese Teilworteinheitensequenz kann ihrerseits durch eine Erkennungsprozedur für kontinuierliche Sprache gefunden werden. Insbesondere kann die selektierte Transkription Tavg aus der Menge S von Teilworteinheitensequenzen stammen.
  • In etwas weiterenm Zusammenhang nutzt die Erfindung erst die verschiedenen Äußerungen, um ein Ganzwortmodell zu erlernen, das unabhängig von den Modellen der Teilworteinheiten ist und eine Länge hat, die gleich der mittleren Länge der Äußerungen ist. Danach wird das Ganzwortmodell verwendet, um daraus eine Sequenz von Markov-Zuständen und zugehörigen Wahrscheinlichkeitsdichten von akustischen Ereignissen abzuleiten. An sich ist eine solche Repräsentation als verborgener Markov-Prozess in der Spracherkennungstechnologie weit verbreitet. Diese Repräsentation führt auch zur Unterscheidung von Teilworteinheiten in der Äußerung, so dass das Ergebnis der Interpretation als aus einer Sequenz gemittelter Merkmalsvektoren bestehende Schablone verwendet werden kann. Ihrerseits können Elemente dieser letzteren Sequenz auf Modelle der Teilworteinheiten in dem Bestand abgebildet werden, so dass die Erkennungsfolge faktisch ein Modell der gemittelten Äußerungen ist und anschließend zum Erkennen weiterer Äußerungen verwendet werden kann.
  • Fig. 1 zeigt ein System zum Bewirken der Erkennung gesprochener Wörter. Hierin stellt Block 20 ein zu erkennendes gesprochenes Wort dar, wobei in der Figur die Zeit von links nach rechts läuft und der Inhalt des Blocks die zeitlich variierenden Merkmalsvektoren der abgetasteten Sprache ist. Zuerst wird das Wort in Teilworteinheiten zerlegt, die als kleinere Blöcke gezeigt werden. Verschiedene solche Einheiten können Phone, Diphone, Silbenteile, vollständige Silben, oder sogar einzelne solche Merkmalsvektoren. Eine Teilworteinheit braucht keine akustische Bedeutung zu haben. Diese Zerlegung erfolgt auf Basis verschiedener der obengenannten Merkmalsvektoren und kann in herkömmlicher Weise erfolgen. Die Trennung wird durch vertikale Linien angedeutet, die nicht gleichen Abstand zu haben brauchen, wie in der Figur gezeigt, weil eine Mischung aus längeren und kürzeren Teilworteinheiten möglich ist. Danach werden, ausgehend von einem Ende des betreffenden Wortes, die Teilworteinheiten auf die in dem Bestand 22, der anhand der Analyse eines großen Sprachkörpers aufgebaut worden ist, gespeicherten Items abgebildet. An sich fällt eine solche Analyse nicht in den Rahmen der vorliegenden Erfindung, die den Bestand als vorgegeben betrachtet. Jede folgende Teilworteinheit kann eine Übereinstimmung mit einem oder mehreren der Bestand-Items erzeugen.
  • Jede Abbildung bringt jetzt auch ein Resultat mit sich, das vom Grad der Nichtübereinstimmung zwischen den beiden abgebildeten Items abhängt, so dass ein niedrigeres Resultat eine bessere Abbildung angibt und umgekehrt. Weiterhin kann das Resultat von einem Sprachenmodell abhängen, das die Wahrscheinlichkeit für eine spezielle Ver kettung von Wörtern angibt. Wiederum ergibt eine geringe Wahrscheinlichkeit ein hohes Resultat und umgekehrt. Gemäß einer bestimmten Strategie wird auf diese Weise aus verschiedenen möglichen Verkettungen erkannter Teilwörter ein Baum aufgebaut, der zweigweise Resultate liefert. Ein Kappmechanismus ist vorgesehen, um solche Zweige des Baumes abzuschließen und wegzuschneiden, die wegen ihres hohen Resultats eine sehr geringe Wahrscheinlichkeit für die zugehörige Erkennung angeben. Wenn es zu einem bestimmten Zeitpunkt keine parallelen Möglichkeiten mehr für eine andere spezielle Zuordnung gibt, ist das betreffende Wort oder der Wortteil erkannt worden, wenn nicht das zugehörige Resultat eine unrealistische geringe Wahrscheinlichkeit angibt. Letzteres führt dazu, dass ein Teil der Sprache als unerkannt verworfen wird und der Resultatstand zurückgesetzt wird. Mittels Symbolisierung sind verschiedene Wege angedeutet worden, wobei jeder Punkt die Zuordnung eines Teilwortes zu einem Item aus der zugehörigen Reihe des Speichersystems 22 symbolisiert. Es sollte deutlich sein, dass die Darstellung in der Figur vollkommen symbolisch ist. Verschiedene andere Resultatfindungs- und Suchstrategien sind möglich.
  • Fig. 2 zeigt ein System zum Bewirken der Transkription, das auf drei Äußerungen (30, 32, 34) des (vermutlich) gleichen Wortes durch einen Benutzer beruht. Der Benutzer kann gegebenenfalls der gleiche sein. Zuerst werden die Längen der Äußerungen bestimmt, beispielsweise durch Zählen der Anzahl voneinander gleich entfernter Abtastwerte für jede Äußerung, und daraus wird ein Mittelwert berechnet. Danach wird unter Verwendung der verschiedenen Äußerungen ein vom Teilwortmodellbestand unabhängiges Ganzwortmodell (36) bei der mittleren Länge der Äußerungen erlernt. Dieses Lernen kann mit einem Standard-Spracherkennungslernverfahren erfolgen. Danach wird dieses Lernergebnis mit Hilfe einer Sequenz aus Markov-Zuständen und zugehörigen Wahrscheinlichkeitsdichten akustischer Ereignisse des Ganzwortmodells interpretiert. Das Ergebnis (38) ist eine Referenzschablone, die als eine Reihe gemittelter Merkmalsvektoren ausgedrückt wird. Dieses akustische Modell arbeitet dann als Schablone, d. h. als eine Art gemittelte Äußerung. Diese letztere Sequenz wird dann durch Abbilden auf die verschiedenen Teilworteinheitenmodelle im Bestand 22 erkannt, und das Ergebnis (40) ist ein Modell für spätere Äußerungen.
  • Schließlich wird die Transkription für das neue Wort abgeleitet, indem die Sequenz von Teilworteinheiten gefunden wird, die am besten mit der Sequenz aus gemittelten Merkmalsvektoren übereinstimmt, ähnlich der Prozedur von Fig. 1. Im Unterschied zu Fig. 1 wird jetzt jedoch häufig kein Sprachenmodell verwendet, weil kein A-Priori- Wissen zum Charakter der Äußerung vorzuliegen braucht: Es kann sich um ein einzelnes Wort oder eher einen zusammengesetzten Begriff handeln, wie ein bestimmter Name plus einem Nachnamen der in dem oben betrachteten Telefonsystem anzurufenden Person. In einer anderen Umgebung könnte die Verwendung eines derartigen Sprachenmodells jedoch für mögliche Sequenzen von Teilworteinheiten genutzt werden.
  • Auch ein akustisches Modell wird für die Erkennung verwendet, weil das akustische Modell im Allgemeinen nicht notwendigerweise von der Bedeutung der zugrundeliegenden Silben abhängt. Wenn das Erkennungsresultat der gemittelten Äußerungen übermäßig hoch ist und daher eine übermäßig geringe Erkennungswahrscheinlichkeit aufweisen würde, wird dem Benutzer mitgeteilt, z. B. durch eine hörbare Nachricht oder eine Leuchtanzeige, dass das Lernen erfolglos war und dass ein erneutes Lernen erfolgen muss. Wenn das Lernen erfolgreich war, wird die erkannte Folge aus Teilworteinheiten in dem Bestand gespeichert, durch Block 40 symbolisiert, woraufhin der Benutzer gebeten wird, ebenfalls mittels einer hörbaren Nachricht oder einer Leuchtanzeige, die Nummer des Telefonanschlusses genau anzugeben, die bei einer späteren Erkennung danach zu der Folge 40 gehören soll. Ein solches Merkmal ermöglicht dann anschließend sprachgesteuertes Wählen, wobei die Transkription zur Erkennung des Wortes verwendet wird, das das System jetzt gelernt hat.
  • Fig. 3 zeigt einen Ablaufplan zum Bewirken der Transkription. In Block 60 wird das System initialisiert, unter anderem durch Verschaffen des Teilwortmodellbestandes und Rücksetzen von Betriebsparametern. In Block 62 detektiert das System, ob eine Äußerung empfangen worden ist. Falls nicht, dann bringt eine Warteschleife das System wieder zu Block 62 zurück. Im positiven Fall wird in Block 64 die Äußerung abgetastet, und nach Repräsentieren der Abtastwerte als Merkmalsvektoren gespeichert. In Block 66 detektiert das System, ob die Anzahl absichtlich übereinstimmender Äußerungen ein ausreichendes Niveau angenommen hat, z. B. drei. Ein anderer Trick ist, ein 'Ausführ'-Kommando zu detektieren. Im negativen Fall kehrt das System wieder zu Block 62 zurück, um eine weitere Äußerung abzuwarten. In Block 68 wird mit Hilfe der verschiedenen empfangene Äußerungen ein Ganzwortmodell der Äußerungen gelernt, ohne Rückgriff auf den Bestand, bei einer Länge, die der Mittelwert der verschiedenen Äußerungen ist. Anschließend wird in Block 70 das Ganzwortmodell, das als Sequenz aus Markov-Zuständen und zugehörigen Wahrscheinlichkeitsdichten von akustischen Ereignissen repräsentiert wird, als Referenzschablone interpretiert, die als Sequenz von gemittelten Merkmalsvektoren gege ben wird. Nachfolgend wird in Block 72 die letztere Sequenz durch Abbilden auf die Modelle der Teilworteinheiten in dem Bestand erkannt. Dies ermöglicht es, anschließend später empfangene Äußerungen als eine der Äußerungen zu identifizieren, die jetzt von einer Folge von Teilwortmodellen repräsentiert worden sind. Danach detektiert das System in Block 76, ob noch eine neue Äußerung empfangen werden sollte, um ihrerseits verarbeitet zu werden. Falls es noch nicht fertig ist, kehrt das System dann zu Block 62 zurück. Im anderen Fall, oder auch infolge eines 'beendet'-Kommandos, stoppt das System mittels eines abschließenden Blockes 78.
  • Fig. 4 zeigt eine Einrichtung zum Bewirken der Transkription gemäß der Erfindung. Block 80 ist eine Art Mikrofon oder eine andere Einrichtung zur Spracheingabe. Block 82 bewirkt periodisches Abtasten der empfangenen Äußerung und kann einen Sprachdetektor umfassen, um Abtasten nur dann zu bewirken, wenn wirklich Sprache empfangen wird. Block 84 leitet aus dem Abtastwertestrom Merkmalsvektoren von Sprachkennzeichen ab. Daher umfasst die Einrichtung verschiedene herkömmliche Elemente, wie Bandfilter, A/D-Umsetzer, so dass schließlich die Merkmalsvektoren ein brauchbares Medium für weitere Verarbeitung sind. In Block 86 werden die Merkmalsvektorfolgen der Äußerungen in den jeweiligen Teilblöcken A, B, C gespeichert. Durch kombiniertes Zugreifen auf diesen Speicher wird im Lernblock 88 ein Ganzwortmodell mit einer der mittleren Länge der Äußerungen entsprechenden Länge erlernt. Dies erfordert auch Abgleichen der verschiedenen Äußerungsrepräsentationen. Die Modellierung für eine einzelne Äußerung ist im obengenannten Stand der Technik an sich beschrieben worden. Als Nächstes interpretiert der Block 90 das vom Block 88 empfangene Ganzwortmodell, das insbesondere eine Sequenz aus Markov-Zuständen und zugehörigen Wahrscheinlichkeitsdichteverteilungen von akustischen Ereignissen im Ganzwortmodell umfasst. Das Ergebnis der Interpretation ist eine Referenzschablone mit einer Sequenz aus gemittelten Merkmalsvektoren. Schließlich greift Block 92 auf den gespeicherten Bestand von Teilworteinheitenmodellen im Speicherblock 96 zu und erkennt so die vom Block 90 empfangene Schablone als passend zu einer speziellen Sequenz der gespeicherten Teilworteinheitenmodelle. Block 94 bildet mit verschiedenen anderen Einrichtungen je nach der Notwendigkeit eine Schnittstelle. Er kann beispielsweise zusätzlichen Speicher enthalten, um die Reihe von Teilwortmodellen aus Block 96, die zu der Äußerung für nachfolgende Erkennung gehören, zu speichern, so dass nachfolgender Empfang einer einzelnen Äußerung nach Umsetzung in Merkmalsvektoren direkt auf spezielle Teilworteinheitenmodelle abgebildet werden kann.
  • Mehrere zusätzliche, aber optionale Benutzerschnittstelleneinrichtungen sind in der Figur gezeigt worden. Block 98 ist eine Tastatur für Telefongebrauch. Dies wird häufig eine Einrichtung mit zwölf Tasten sein. Eintasten einer Telefonanschlussnummer, nach Speicherung der Sequenz von Teilworteinheitenmodellen, die zu einer nachfolgenden Äußerung gehören, verbindet diese Äußerung mit der eingetasteten Nummer und erlaubt daher anschließend diese Nummer gesteuert durch die Spracheingabe der zugehörigen Bezeichnungsäußerung zu aktivieren. Block 100 ist eine alphabetische Tastatur, wie z. B. eine alphanumerische QWERTY-Tastatur. Eingeben eines Textes in Block 102 führt zu Graphem- Phonem-Wandlung, was an sich ein herkömmliches Merkmal ist. Die verwendeten Phoneme sind entsprechend der Modellierung von Teilworteinheiten im Bestandsspeicher 96 modelliert worden. Die Ausgabe des Wandlers 102 wird dem Erkennerblock 92 angeboten. Auf diese Weise kann die Graphem-Phonem-Wandlung durch die erfindungsgemäße Sprache-Phönem-Repräsentation verbessert werden, beispielsweise bei einem fremden Namen, der eine andere Schreibweise hat. Auch ist Verbesserung in der anderen Richtung dadurch möglich, dass ein spezielles Wort sprachlich schwierig erkennbar sein kann.
  • Bildinschrift:
  • Fig. 3:
  • 60: Beginn
  • 62 Äußerung
  • 64 Speichern
  • 66 Anzahl o.k.?
  • 68 Lernen
  • 70 Interpretieren
  • 72, 74 Erkennen
  • 76 Fertig?
  • 78 Ende

Claims (6)

1. Verfahren zum Repräsentieren eines neuen Wortes für die Spracherkennung, das auf einem gespeicherten Bestand von Modellen von Teilworteinheiten beruht, wobei dieses Verfahren die folgenden Schritte umfasst:
Anbieten einer Vielzahl von Äußerungen (30, 32, 34), die alle absichtlich dem genannten neuen Wort entsprechen, Repräsentieren der Äußerungen durch eine Sequenz aus Merkmalsvektoren und Aufbauen eines Wortmodells (36) aus den Äußerungen, mit erstens, Lernen eines Ganzwortmodells (36), das unabhängig von den Modellen der Teilworteinheiten ist, unter Verwendung der genannten Äußerungen, wobei das Ganzwortmodell eine Länge hat, die der mittleren Länge der Äußerungen entspricht, wobei das Verfahren gekennzeichnet ist durch
zweitens, Interpretieren einer ersten Sequenz von Markov-Zuständen und zugehörigen Wahrscheinlichkeitsdichten von akustischen Ereignissen des Ganzwortmodells als Referenzschablone (38), durch eine zweite Sequenz von gemittelten Merkmalsvektoren repäsentiert, und
drittens, Erkennen der genannten zweiten Sequenz durch Abbilden auf Modelle von Teilworteinheiten in dem genannten Bestand und Speicherung eines Erkennungsergebnisses als Modell (40) der genannten Äußerungen.
2. Verfahren zum Repäsentieren eines neuen Wortes für die Spracherkennung, wobei eine Modellierungsoperation erfolgt, indem jede Äußerung aus einer Serie von Äußerungen durch ihre eigene Transkription repräsentiert wird, alle jeweiligen Transkriptionen als Kandidaten auf alle Äußerungen abgebildet werden, um die optimale Transkription zu finden, was auch bedeutet die beste Äußerung, und das Ergebnis des Repräsentierens nach Anspruch 1 ein weiterer der Kandidaten ist.
3. Einrichtung zum Repräsentieren eines neuen Wortes für die Spracherkennung, das auf einem gespeicherten Bestand von Modellen von Teilworteinheiten beruht, wobei diese Einrichtung umfasst:
Eingabemittel zum Empfangen einer Vielzahl von Äußerungen (30, 32, 34), die alle absichtlich dem genannten Wort entsprechen, Repräsentationsmittel zum Repräsentieren der Äußerungen durch eine Sequenz aus Merkmalsvektoren und Aufbauen eines Wortmodells (36) aus den Äußerungen, mit
von den genannten Eingabemitteln versorgten Lernmitteln zum Lernen eines Ganzwortmodells (36), das unabhängig von den Modellen der Teilworteinheiten ist, unter Verwendung der genannten Äußerungen, wobei das genannte Ganzwortmodell eine der mittleren Länge der Äußerungen entsprechende Länge hat, wobei die Einrichtung ekennzeichnet ist durch
von den genannten Lernmitteln versorgte Interpretationsmittel zum Interpretieren einer ersten Sequenz aus Markov-Zuständen und und zugehörigen Wahrscheinlichkeitsdichten von akustischen Ereignissen des Ganzwortmodells als Referenzschablone (38), durch eine zweite Sequenz von gemittelten Merkmalsvektoren repräsentiert, und Erkennungsmittel zur Erkennung der genannten zweiten Sequenz durch Abbilden auf Modelle von Teilworteinheiten in dem genannten Bestand und Speicherung eines Erkennungsergebnisses als Modell (40) der genannten Äußerungen,
und von den Erkennungsmitteln versorgte erste Ausgabemittel zum Ausgeben des genannten Erkennungsergebnisses als Basis für einen nachfolgenden Vergleich mit späteren Äußerungen.
4. Einrichtung nach Anspruch 3, die Telefonfunktionalität aufweist und ziffernweise sprachbetätigtes Wählen erlaubt, und wobei die genannte Äußerung eine Bezeichnung für Kurzwahl ist.
5. Einrichtung nach Anspruch 3, wobei der genannte Bestand sprecherunabhängige Erkennung einer Standard-Wortmenge erlaubt, und weiterhin ausgebildet, um das Erkennen des genannten neuen Wortes mit vergleichbarer Robustheit wie die genannte Standard-Wortmenge zu erlauben.
6. Einrichtung nach Anspruch 3, die einen Graphem-Phonem-Wandler mit zweiten Ausgabemitteln hat, die die genannten Erkennungsmittel versorgen, um gemeinschaftlich für einen verbesserten Betrieb des genannten Graphem-Phonem-Wandlers zu sorgen.
DE69607913T 1995-05-03 1996-05-02 Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle Expired - Fee Related DE69607913T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP95201139 1995-05-03
PCT/IB1996/000396 WO1996035207A1 (en) 1995-05-03 1996-05-02 Speech recognition methods and apparatus on the basis of the modelling of new words

Publications (2)

Publication Number Publication Date
DE69607913D1 DE69607913D1 (de) 2000-05-31
DE69607913T2 true DE69607913T2 (de) 2000-10-05

Family

ID=8220249

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69607913T Expired - Fee Related DE69607913T2 (de) 1995-05-03 1996-05-02 Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle

Country Status (6)

Country Link
US (1) US5873061A (de)
EP (1) EP0769184B1 (de)
JP (1) JPH10503033A (de)
CN (1) CN1130688C (de)
DE (1) DE69607913T2 (de)
WO (1) WO1996035207A1 (de)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100397435B1 (ko) * 1996-07-20 2003-12-24 엘지전자 주식회사 음성인식시스템에서새로운등록단어처리가가능한클래식를이용한언어학적모델처리방법
DE19751123C1 (de) * 1997-11-19 1999-06-17 Deutsche Telekom Ag Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen
US5927988A (en) * 1997-12-17 1999-07-27 Jenkins; William M. Method and apparatus for training of sensory and perceptual systems in LLI subjects
CN1343337B (zh) 1999-03-05 2013-03-20 佳能株式会社 用于产生包括音素数据和解码的字的注释数据的方法和设备
DE60026637T2 (de) * 1999-06-30 2006-10-05 International Business Machines Corp. Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems
US6434547B1 (en) 1999-10-28 2002-08-13 Qenm.Com Data capture and verification system
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
US7212968B1 (en) 1999-10-28 2007-05-01 Canon Kabushiki Kaisha Pattern matching method and apparatus
DE19952049A1 (de) * 1999-10-28 2001-05-10 Siemens Ag Verfahren und Anordnung zur Verifikation eines Sprechers anhand eines Rechners
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
GB0015233D0 (en) 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
US6961703B1 (en) * 2000-09-13 2005-11-01 Itt Manufacturing Enterprises, Inc. Method for speech processing involving whole-utterance modeling
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
GB0027178D0 (en) * 2000-11-07 2000-12-27 Canon Kk Speech processing system
GB0028277D0 (en) 2000-11-20 2001-01-03 Canon Kk Speech processing system
US6973427B2 (en) * 2000-12-26 2005-12-06 Microsoft Corporation Method for adding phonetic descriptions to a speech recognition lexicon
GB0204474D0 (en) * 2002-02-26 2002-04-10 Canon Kk Speech recognition system
JP4943335B2 (ja) * 2004-09-23 2012-05-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 話者に依存しない堅牢な音声認識システム
DE102005002474A1 (de) 2005-01-19 2006-07-27 Obstfelder, Sigrid Handy und Verfahren zur Spracheingabe in ein solches sowie Spracheingabebaustein und Verfahren zur Spracheingabe in einen solchen
WO2007097390A1 (ja) * 2006-02-23 2007-08-30 Nec Corporation 音声認識システム、音声認識結果出力方法、及び音声認識結果出力プログラム
DE102012202391A1 (de) * 2012-02-16 2013-08-22 Continental Automotive Gmbh Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen
US9570069B2 (en) * 2014-09-09 2017-02-14 Disney Enterprises, Inc. Sectioned memory networks for online word-spotting in continuous speech
KR102413067B1 (ko) * 2015-07-28 2022-06-24 삼성전자주식회사 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스
CN106548787B (zh) * 2016-11-01 2019-07-09 云知声(上海)智能科技有限公司 优化生词的评测方法及评测系统
EP3698358B1 (de) 2017-10-18 2025-03-05 Soapbox Labs Ltd. Verfahren und systeme zur verarbeitung von audiosignalen, die sprachdaten enthalten
CN113990293B (zh) * 2021-10-19 2025-02-21 京东科技信息技术有限公司 语音识别方法及装置、存储介质、电子设备

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5165007A (en) * 1985-02-01 1992-11-17 International Business Machines Corporation Feneme-based Markov models for words
US4819271A (en) * 1985-05-29 1989-04-04 International Business Machines Corporation Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments
US5315689A (en) * 1988-05-27 1994-05-24 Kabushiki Kaisha Toshiba Speech recognition system having word-based and phoneme-based recognition means
JP2955297B2 (ja) * 1988-05-27 1999-10-04 株式会社東芝 音声認識システム
DE3931638A1 (de) * 1989-09-22 1991-04-04 Standard Elektrik Lorenz Ag Verfahren zur sprecheradaptiven erkennung von sprache
US5129001A (en) * 1990-04-25 1992-07-07 International Business Machines Corporation Method and apparatus for modeling words with multi-arc markov models
US5454062A (en) * 1991-03-27 1995-09-26 Audio Navigation Systems, Inc. Method for recognizing spoken words
DE4130632A1 (de) * 1991-09-14 1993-03-18 Philips Patentverwaltung Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
EP0562138A1 (de) * 1992-03-25 1993-09-29 International Business Machines Corporation Methode und Einrichtung zur automatischen Erzeugung von Markov-Modellen von neuen Wörtern zur Aufnahme in einem Wortschatz zur Spracherkennung
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
JPH0772840B2 (ja) * 1992-09-29 1995-08-02 日本アイ・ビー・エム株式会社 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
US5528728A (en) * 1993-07-12 1996-06-18 Kabushiki Kaisha Meidensha Speaker independent speech recognition system and method using neural network and DTW matching technique
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
US5429513A (en) * 1994-02-10 1995-07-04 Diaz-Plaza; Ruth R. Interactive teaching apparatus and method for teaching graphemes, grapheme names, phonemes, and phonetics
US5638487A (en) * 1994-12-30 1997-06-10 Purespeech, Inc. Automatic speech recognition

Also Published As

Publication number Publication date
US5873061A (en) 1999-02-16
DE69607913D1 (de) 2000-05-31
CN1153567A (zh) 1997-07-02
WO1996035207A1 (en) 1996-11-07
EP0769184A1 (de) 1997-04-23
CN1130688C (zh) 2003-12-10
EP0769184B1 (de) 2000-04-26
JPH10503033A (ja) 1998-03-17

Similar Documents

Publication Publication Date Title
DE69607913T2 (de) Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE69315374T2 (de) Spracherkennungssystem zur naturgetreuen Sprachübersetzung
DE69514382T2 (de) Spracherkennung
DE69908254T2 (de) System zur Suchoptimierung und Verfahren zur kontinuierlichen Spracherkennung
EP1611568B1 (de) Dreistufige einzelworterkennung
DE3876207T2 (de) Spracherkennungssystem unter verwendung von markov-modellen.
DE69324428T2 (de) Verfahren zur Sprachformung und Gerät zur Spracherkennung
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69933623T2 (de) Spracherkennung
DE20004416U1 (de) Spracherkennungsvorrichtung unter Verwendung mehrerer Merkmalsströme
EP0418711A2 (de) Verfahren zur sprecheradaptiven Erkennung von Sprache
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
DE602004004310T2 (de) System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen
DE10304460B3 (de) Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen
DE68914032T2 (de) Spracherkennungssystem.
DE19654549C2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP2431969A1 (de) Spracherkennung mit kleinem Rechenaufwand und reduziertem Quantisierungsfehler
DE60029456T2 (de) Verfahren zur Online-Anpassung von Aussprachewörterbüchern
EP2034472B1 (de) Spracherkennungsverfahren und Spracherkennungsvorrichtung
WO1993013517A1 (de) Verfahren zur schnellen sprecheradaption in einem spracherkenner für grossen wortschatz

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: PHILIPS INTELLECTUAL PROPERTY & STANDARDS GMBH, 20

Owner name: KONINKLIJKE PHILIPS ELECTRONICS N.V., EINDHOVEN, N

8339 Ceased/non-payment of the annual fee