[go: up one dir, main page]

DE60016722T2 - Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars - Google Patents

Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars Download PDF

Info

Publication number
DE60016722T2
DE60016722T2 DE60016722T DE60016722T DE60016722T2 DE 60016722 T2 DE60016722 T2 DE 60016722T2 DE 60016722 T DE60016722 T DE 60016722T DE 60016722 T DE60016722 T DE 60016722T DE 60016722 T2 DE60016722 T2 DE 60016722T2
Authority
DE
Germany
Prior art keywords
recognition
key
word
vocabulary
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60016722T
Other languages
English (en)
Other versions
DE60016722D1 (de
Inventor
Ugo Di Profio
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Deutschland GmbH
Original Assignee
Sony International Europe GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony International Europe GmbH filed Critical Sony International Europe GmbH
Publication of DE60016722D1 publication Critical patent/DE60016722D1/de
Application granted granted Critical
Publication of DE60016722T2 publication Critical patent/DE60016722T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

  • Die vorliegende Erfindung betrifft Automatische Spracherkennung und -verständnis (Englisch: Autmoatic Speech Recognition and Understanding – ASRU), insbesondere ein Verfahren zur Erkennung von Sprachphrasen und einen Spracherkenner, welcher angepasst ist, gemäß einem solchen Verfahren zu arbeiten.
  • In einem ASRU-System wird das analoge als erstes in ein digitales Sprachsignal umgewandelt, anschließend wird eine Merkmalsextraktion (feature extraction) durchgeführt, um eine Sequenz von Merkmalsvektoren (feature vectors) zu erhalten. Unabhängig von der verwendeten Erkennungs-Technologie versucht ein ASRU-System eines der Wörter, welches es in seinem eigenen Vokabular hat, der Sequenz von erhaltenen Merkmalsvektoren zuzuordnen.
  • 4 zeigt ein funktionales Blockdiagramm, welches ein vereinfachtes Beispiel eines allgemeinen Spracherkennungssystems darstellt. Eine Sprachäußerung wird in das Spracherkennungssystem via eines Mikrofons G 1 eingegeben, welches ein analoges Sprachsignal an einen A/D-Konverter G2 ausgibt. Das digitale Sprachsignal, welches durch den A/D-Konverter G2 generiert wird, wird in ein Merkmalsextrahierungsmodul G3 eingegeben, welches eine Sequenz von Merkmalsvektoren erzeugt. Abhängig davon, ob das Spracherkennungssystem im Trainingsmodus oder im Erkennungsmodus ist, wird die Sequenz von Merkmalsvektoren des Merkmalsextrahierungsmoduls G3 in ein Trainingsmodul G4 oder ein Erkennungsmodul G5 eingegeben. Das Erkennungsmodul G5 ist bidirektional mit einem Teilworterkenner G6 verbunden.
  • Im Trainingsmodus ordnet das Trainingsmodul G4 die Sequenz von Merkmalsvektoren des Merkmalsextrahierungsmodul G3 bekannten Äußerungen zu, d. h. bekannten Wörtern, um ein eigenes Vokabular des Spracherkennungssystems zu erzeugen. In Abhängigkeit des Systems kann ein solches Vokabular allgemein oder Benutzer-abhängig neu erzeugt werden und/oder es kann auf einer vorbestimmten Datenbank basieren.
  • Im Erkennungsmodus versucht das Erkennungsmodul G5 eines der Wörter des eigenen Vokabulars des Spracherkennungssystems der Sequenz von Merkmalsvektoren zuzuordnen, wobei die Merkmalsvektoren von dem Merkmalsextrahierungsmodul G3 erzeugt werden. Der Teilworterkenner G6 dient dazu, das Vokabular für eine folgende Erkennung zu reduzieren, falls die aktuelle Erkennung ein Schlüsselwort erkennen lässt, wie dies im Folgenden diskutiert wird.
  • Aus Sicht der Spracherkennung ist die Aufgabe, eine zuverlässige Zuordnung zu finden, um so schwieriger, je größer das Vokabular ist, da eine Mehrzahl von Wörtern eine vergleichbare Bewertung für die Zuordnung haben können. Aus Sicht des Sprachverständnisses haben nicht alle Wörter in der Äußerung des Benutzers die gleiche Wichtigkeit bzw. Bedeutung, da gewöhnlich nur einige davon in dem bestimmten Kontext relevante Bedeutungen übermitteln.
  • Beliebige Techniken, die die Vokabulargröße reduzieren und/oder Wörter mit relevanten Bedeutungen lokalisieren, können dem ASRU-System zu einer besseren Leistung verhelfen, z. B. sind innerhalb eines ASRU zur Autonavigation Wörter mit einer relevanten Bedeutung Stadtnamen, Straßennamen, Straßennummern, etc. Bei einer gegebenen Benutzeräußerung können Sprach-basierte Parsertechniken verwendet werden, um die wahrscheinlicheren relevanten Wörter gemäß einer Grammatik auszuwählen. Dennoch muss ein großes Vokabular bei der Erkennung verarbeitet werden, z. B. die Liste von allen Stadtnamen plus allen Straßennamen plus Zahlen bzw. Hausnummern. Um das Vokabular so klein wie möglich zu halten, für den Fall, dass ein Wort mittels des Schlüsselworterkenners G6 erkannt werden kann, kann die Erkennung des folgendes Wortes in Abhängigkeit eines begrenzten Kategorie-basierten Vokabulars durchgeführt werden.
  • Eine solche Schlüsselworterkennung kann u. U. Wörter wie „gehen" („to go") und „Strasse" („street") detektieren und anschließend das Vokabular auf Straßennamen begrenzen, jedoch nur bei der Erkennung von anderen Wörtern in der gleichen Äußerung. Schlüsselworterkennung (Englisch: keyword spotting) basiert ebenfalls auf Spracherkennung, wobei die Vokabulargröße jedoch klein ist, d. h., die Liste von Schlüsselwörtern und ähnlich bewerteten Wörtern sind gewöhnlich für die Erkennungsaufgabe für deren Detektion nicht kritisch.
  • Schlüsselworterkennung ist im Wesentlichen ein Verfahren für Taskorientierte ASRU-Systeme, z. B. Fahrplaninformationssysteme (Englisch: timetable information systems), um eine erste Ebene einer Analyse der Benutzereingabe durchzuführen, zur Fokussierung und anschließenden Verbesserung der Erkennungsaufgabe. Die zu Grunde liegende Idee besteht darin, spezielle Wörter in der Benutzeräußerung zu detektieren – herausgenommen aus einer relativ kleinen Liste im Vergleich zum gesamten Vokabular – und anschließend Annahmen bezüglich des informativen Inhalts des Satzes zu treffen. Anschließend kann die Erkennungsaufgabe von Inhaltswörtern (content words) vereinfacht werden, beispielsweise durch die Reduzierung des Vokabulars auf nur diejenigen Wörter, welche mit den Annahmen konsistent sind. EP 0 601 778 offenbart einen Stand der Technik zur Implementierung von Schlüsselworterkennung.
  • Für einige Anwendungen und für isolierte Spracherkennungssysteme könnte Schlüsselworterkennung jedoch nicht ausreichen, um das Vokabular zu reduzieren, welches bei der Erkennung von Inhaltswörtern verwendet wird, auf eine Größe, bei welcher eine zuverlässige Erkennung erreicht werden kann. Beispielsweise kann bei der Anwendung der Autonavigation die begrenzte Vokabulargröße sogar dann für eine zuverlässige Erkennung zu groß sein, wenn bekannt ist, dass das unbekannte Wort ein Straßenname ist, wobei das begrenzte Vokabular eine Liste von allen Straßennamen in einer gegebenen Umgebung enthält. Darüber hinaus kann es sehr schwierig sein, Äußerungen eines Benutzers, welche nur ein einzelnes Wort umfassen, überhaupt zu kategorisieren, da von einem solchen Wort in einem gegebenen Kontext mehr als ein Aspekt bzw. eine Bedeutung gleich wahrscheinlich übermittelt werden kann.
  • Eine bekannte Lösung dieses Problems ist es, einen Dialog zu bestimmen, in welchem das System die Initiative ergreift und den Benutzer nach mehr Informationen befragt, um die Erkennungsaufgabe besser zu fokussieren. Beispielsweise könnte das System im Bereich der Autonavigation den Benutzer fragen, die Postleitzahl des Ziels anzugeben, um das Vokabular auf diejenigen Straßen zu begrenzen, die im Bereich dieser Postleitzahl liegen.
  • Eine weitere Lösung des Problems ist in EP 0 655 732 A2 beschrieben, welche eine weiche Entscheidungs- (Englisch: Soft-Decision) Spracherkennung offenbart, welche die Tatsache ausnutzt, dass ein Benutzer eines gegebenen Spracherkennungssystems eine Phrase wahrscheinlich wiederholt (unabhängig davon, ob er aufgefordert wurde oder nicht), falls eine erste Äußerung der gleichen Phrase durch das gegebene System nicht erkannt wurde. Die erste Äußerung wird mit einem oder mehreren Sprachmodellen verglichen, um eine Ähnlichkeitsmatrix für jeden solchen Vergleich zu bestimmen und das Sprachmodell, welches am besten mit der ersten Äußerung übereinstimmt, wird in Abhängigkeit der einen oder mehreren Ähnlichkeitsmatrizen bestimmt. Anschließend wird die zweite Äußerung mit einem oder mehreren Sprachmodellen verglichen, welche mit dem am besten übereinstimmenden Modell zusammenhängen, um eine zweite Äußerungsähnlichkeitsmatrix für jeden solchen Vergleich zu bestimmen. Das Erkennungsergebnis basiert anschließend auf der zweiten Äußerungsähnlichkeitsmatrix.
  • Eine weitere Lösung wird In US 5,712,957 vorgeschlagen, in der ein Verfahren zur Reparatur von Maschinen-erkannter Sprache vorgeschlagen wird, mittels eines nächstbestem Erkennungsergebnis, welches berechnet wird, falls das erste Erkennungsergebnis als nicht korrekt identifiziert wird.
  • Alle diese vorgeschlagenen Lösungen zur Verbesserung der Erkennungsaufgabe arbeiten jedoch nicht automatisch, sondern benötigen eine Benutzer-Interaktion, welche für den Benutzer mühselig ist.
  • Ein weiterer Ansatz wird in „Adaptive Vocabularies for Transcribing Multilingual Broadcast News" von P. Geutner et al. in Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP '98 beschrieben. In diesem Dokument wird ein Spracherkennungs system mit einem großen Vokabular vorgestellt, wobei der Erkennungsprozess in zwei Schritten durchgeführt wird. In beiden Erkennungsschritten ist die Größe des Vokabulars dabei die gleiche.
  • Weiterhin offenbart das Dokument „Automated Morphosyntactic Analysis of Medical Language" von M. G. Pacak and A. W. Pread, Information Processing and Management, UK, 1976, Band 12, Seiten 71 bis 76 einen automatischen Ablauf zur morphosyntaktischen Analyse von medizinischem Englisch, basierend auf der Erkennung von End-Suffixes als syntaktische Marker. Darüber hinaus übermitteln bestimmte Suffixes semantische Information bezüglich der semantischen Kategorie, zu welcher ein Wort gehören kann. Die Bestimmung von syntaktischen und semantischen Informationen wird dabei auf Wortebene durchgeführt.
  • Der Erfindung liegt die Aufgabe zugrunde, ein verbessertes automatisches Verfahren zur Erkennung von Sprachphrasen bereitzustellen und ein verbessertes Spracherkennungssystem, d. h. ein Spracherkennungssystem, welches fähig ist, die Erkennungsergebnisse ohne Benutzer-Interaktion zu verbessern.
  • Diese Aufgabe wird gelöst durch ein Verfahren zur Erkennung von Sprachphrasen gemäß dem unabhängigen Anspruch 1. Ansprüche 2 bis 4 definieren bevorzugte Ausführungsformen davon.
  • Ein Spracherkenner gemäß der vorliegenden Erfindung ist in dem unabhängigen Anspruch 5 definiert. Bevorzugte Ausführungsformen davon sind in den Ansprüchen 6 und 7 definiert.
  • Um sowohl die Spracherkennung als auch das -verständnis zu unterstützen, werden gemäß der vorliegenden Erfindung Schlüsselteilwort-Erkennungstechniken auf Schlüsselteilwörter angewendet, um eine selektive Anpassung der Vokabulargröße zu erreichen. Bevorzugt wird die Technik auf die Aufgabe der isolierten Worterkennung angewendet. Darüber hinaus kann die Technik unabhängig von der verwendeten Spracherkennungstechnologie angewendet werden. Liegt daher ein unbekanntes Wort vor, so wird eine Mehrzahl von Erkennungsebenen durchgeführt, wobei in einer bestimmten Stufe eine Schlüsselteilwort-Erkennung durchgeführt wird, um die Größe des Vokabulars zu reduzieren, welches in den folgenden Stufen verwendet wird. In anderen Worten werden gemäß der vorliegenden Erfindung Schlüsselteilwörter in dem unbekannten Wort detektiert, und anschließend wird ein Vokabular verwendet, welches nur Wörter enthält, welche diese Schlüsselteilwörter umfassen. Selbstverständlich kann die Prozedur bzw. das Verfahren mehr als einmal angewendet werden.
  • Genauer gesagt kann gemäß einer bevorzugten Ausführungsform der Erfindung bei einem gegebenen unbekannten Wort uw der Erkennungsprozess in zwei Stufen bzw. Schritte aufgeteilt werden:
    • – eine erste Erkennungsstufe wird durchgeführt; anschließend wird die Schlüsselteilwort-Erkennung auf das Ergebnis der Erkennung angewendet, um zu versuchen, die zu usw. zugehörige Kategorie zu bestimmen;
    • – falls eine Kategorie detektiert wird, wird eine zweite Erkennungsstufe mit derselben Spracheingabe durchgeführt, um ein Erkennungsergebnis zu generieren, z. B. auf Basis der zu uw gehörigen Sequenz von Merkmalsvektoren, welche gepuffert bzw. gespeichert werden können, wobei jedoch ein begrenztes Vokabular verwendet wird, welches nur diejenigen Wörter enthält, die zu der im ersten Schritt bestimmten Kategorie gehören;
    • – falls eine Kategorie nicht detektiert wird, wird das Ergebnis der ersten Erkennungsstufe als Erkennungsergebnis verwendet.
  • Alternativ kann die erste Erkennungsstufe ausgelassen werden, falls die Schlüsselteilwort-Erkennung die Funktionalität zur Erkennung von Schlüsselteilwörtern aufweist, z. B. basierend auf einer Ausgabe eines Niedrig-Niveau-Erkennungs-Mechanismus, da in diesem Fall eine erste Erkennungsstufe, welche ein Erkennungsergebnis für die empfangene Äußerung generiert, nicht notwendig ist. In diesem Fall wird die zweite Erkennungsstufe ebenfalls unter Verwendung eines begrenzten Vokabulars durchgeführt.
  • Unter Kategorie wird beispielsweise die Menge an Wörtern verstanden, welche das Schlüsselteilwort umfassen. Beispielsweise könnte im Rahmen der Autonavigation die erste Erkennungsstufe als Ergebnis der Benutzeräuße rung „Zeppelinstrasse" die Menge von Hypothesen {„Zeppelinstrasse", „Zollbergsteige, „Zeppenfeldtgasse", Zimmersteige", „Zepplinstrasse"} erzeugen. Unter Verwendung von Schlüsselteilwort-Erkennung und Detektieren von strasse als Straßentyp, d. h. als Kategorie, wird ein begrenztes Vokabular aus einem allgemeinen Vokabular erzeugt, durch Verwendung aller Wörter, die strasse als Affix enthalten, hier beispielsweise {Zeppelinstrasse", „Zepplinstrasse"}, falls keine weiteren Wörter des allgemeinen Vokabulars dieses Affix haben, wobei das begrenzte Vokabular in der zweiten Erkennungsstufe verwendet werden kann.
  • Alternativ oder zusätzlich kann die Kategorie z. B. die gleiche Domäne bzw. den gleichen Bereich definieren, beispielsweise könnten Schüsselteilwörter, wie „bach", „burg" etc. ein unbekanntes Wort als Stadtname identifizieren und ein lediglich Städte enthaltendes Vokabular wird zur Erkennung verwendet, da „bach" und „burg" gewöhnliche Affixe für deutsche Städtenamen sind.
  • Demgemäß wird Information über eine Wortkategorie verwendet, um die Verständnisaufgabe zu unterstützen, insbesondere im Falle von Einzelwortäußerungen. Beispielsweise in einem Sprachdialogsystem für die Adresseingabe im Bereich der Autonavigation, falls der Kontext des Systems eine Strassennameneingabe ist, d. h., das System erwartet, dass der Nutzer einen Straßennamen eingibt, der Benutzer äußert jedoch das Wort „Fellbach". Gemäß der vorliegenden Erfindung ist es möglich, die Kategorie „bach" zu detektieren und möglicherweise festzustellen (zu verstehen), dass ein Stadtname anstatt eines Straßennamens eingegeben wurde.
  • Gemäß der vorliegenden Erfindung wird also die Leistung aktueller Systeme durch die Reduzierung der benötigten Resourcen verbessert: Insbesondere:
    • – das verkleinerte Vokabular führt zu einem kleineren Suchraum, welcher zusätzlich weniger Speicherplatz benötigt;
    • – ein kleinerer Suchraum benötigt weniger Verarbeitungsleistung und führt zu einer schnelleren Systemantwort.
  • Alternativ kann die Erkennungsgenauigkeit durch Schlüsselteilwort-Erkennung verbessert werden, falls die Systemresourcen konstant gehalten werden.
  • Selbstverständlich kann die vorliegende Erfindung auch mehrmals für dieselbe Sprachphrase angewendet werden, z. B. dadurch, dass zuerst Silben eines Wortes und anschließend das Wort selbst und anschließend ein Satz bestehend aus mehreren Wörtern gemäß dem vorliegenden Verfahren erkannt wird. Gemäß der vorliegenden Erfindung kann im Falle von Phrasen- oder Satzerkennung nicht nur die Umgestaltung/Reduzierung des Vokabulars durchgeführt werden, sondern auch die Umgestaltung oder gezielte Auswahl des verwendeten Sprachmodells, welches von dem Spracherkenner verwendet wird.
  • Da das Spracherkennungssystem gemäß der vorliegenden Erfindung nicht von Niedrig-Niveau-Spracherkennung abhängt, kann es, wie oben erwähnt, vorteilhaft mit anderen Spracherkennungssystemen kombiniert werden, welche Erkennungsergebnisse automatisch bestimmen und/oder Benutzerinteraktiv, um ihre Leistung zu verbessern. Eine solche Kombination kann insbesondere vorteilhaft in der ersten Erkennungsstufe vorgesehen sein.
  • Die Erfindung und das zugrunde liegende Konzept werden anhand der folgenden Beschreibung einer beispielhaften Ausführung davon besser verstanden, in Verbindung mit den Figuren, in welchen
  • 1 das grundlegende Blockdiagramm eines Spracherkenners gemäß der vorliegenden Erfindung zeigt;
  • 2 ein Flussdiagramm eines Spracherkennungsverfahrens gemäß der vorliegenden Erfindung zeigt;
  • 3 ein detailliertes Blockdiagramm eines Spracherkennungssystems gemäß der vorliegenden Erfindung zeigt; und
  • 4 ein Beispiel eines Spracherkennungssystems gemäß dem Stand der Technik zeigt.
  • In der folgenden Beschreibung wird eine beispielhafte Ausführungsform gemäß der vorliegenden Erfindung beschrieben, welche die Erkennung eines unbekannten Wortes zeigt. Demgemäß besteht das allgemeine für den Erkennungsprozess verwendete Vokabular ebenfalls aus Wörtern und die Schlüsselteilwort-Detektierung bzw. -Erkennung gemäß der vorliegenden Erfindung detektiert Teile von Wörtern. In der folgenden Beschreibung werden die gleichen Bezugszeichen für die gleichen oder ähnliche Elemente verwendet.
  • 1 zeigt die wesentliche Funktionalität eines Spracherkenners gemäß der vorliegenden Erfindung. Ein unbekanntes Wort wird in eine erste Erkennungsstufeneinheit 1 eingegeben, welche eine automatische Spracherkennung auf Basis eines allgemeinen Vokabulars 7 durchführt. Das Erkennungsergebnis der ersten Erkennungsstufeneinheit 1 wird als erstes Erkennungsergebnis ausgegeben. Dieses erste Erkennungsergebnis wird in eine Schüsselteilwort-Detektiereinheit 2 eingegeben, um eine zu dem eingegebenen unbekannten Wort gehörige Kategorie zu bestimmen. Wie oben erwähnt, hängt die Kategorie von einem oder mehreren erkannten Schlüsselteilwörtern innerhalb des ersten Erkennungsergebnisses ab. In Abhängigkeit des einen oder der mehreren detektierten Schlüsselteilwörter bestimmt eine Vokabular-Reduzierungseinheit 8 das zu der Kategorie gehörige Vokabular, welches durch die Menge von von der Schlüsselteilwort-Detektiereinheit 2 ausgegebenen Schlüsselteilwörtern definiert ist. Nach der Vokabularreduzierung führt eine zweite Erkennungsstufeneinheit 5 eine zweite automatische Spracherkennung für dieselbe Spracheingabe durch, d. h. für dasselbe unbekannte Wort, auf Basis des reduzierten Vokabulars, um ein zweites Erkennungsergebnis zu erhalten.
  • Selbstverständlich müssen Teile des Erkennungsprozesses, die in der ersten Erkennungsstufeneinheit 1 und der zweiten Erkennungsstufeneinheit 5 identisch sind, nur einmal verarbeitet werden, z. B. muss die Sequenz von dem unbekannten Wort entsprechenden Merkmalsvektoren, die bereits innerhalb der ersten Erkennungsstufeneinheit 1 berechnet wurden, in der zweiten Erkennungsstufeneinheit 5 nicht wiederholt berechnet werden. Auch muss die Vokabularreduzierungseinheit 8 keine Kategorien oder Wörter des allgemeinen Vokabulars 7 speichern, so dass jedes Wort innerhalb einer Kategorie separat und erneut unabhängig für diese Kategorie gespeichert werden müsste, sondern eine Kategorie oder ein Wort kann auch nur durch Referenzen auf das allgemeine Vokabular 7 definiert werden.
  • Gemäß der vorliegenden Erfindung wird das erste Erkennungsergebnis als Erkennungsergebnis ausgegeben, falls keine Kategorie detektiert wird, und das zweite Erkennungsergebnis wird ausgegeben, falls für das bekannte Wort eine Kategorie detektiert wurde. Im ersten Fall können die Schritte zur Reduzierung des Vokabulars und die zweite Erkennungsstufe ausgelassen werden.
  • 2 zeigt ein Ablaufdiagramm des Verfahrens zur Erkennung von Sprachphrasen gemäß der vorliegenden Erfindung. Ein in das System eingegebenes unbekanntes Wort wird in einem ersten Schritt S1 verarbeitet, um seine Merkmalsvektoren zu erhalten, die anschließend gepuffert bzw. gespeichert werden. In einem folgenden Schritt S2 wird die erste Erkennungsstufe durchgeführt auf Basis der gepufferten Merkmalsvektoren des Schrittes S1. Anschließend wird im Schritt S3 die Schlüsselteilwort-Erkennung durchgeführt, um die Kategorie des unbekannten Wortes in Abhängigkeit des ersten Erkennungsergebnisses der im Schritt S2 durchgeführten ersten Erkennungsstufe zu detektieren. Im Schritt S4 wird entschieden, ob eine Kategorie im Schritt S3 detektiert werden konnte. Falls dies der Fall ist, wird im Schritt S5 ein begrenztes Vokabular ausgewählt, d. h. z. B. die Menge von Wörtern, welche alle gefundenen Schlüsselteilwörter umfassen, und/oder die Menge von Wörtern, die zu allen gefundenen Schlüsselteilwörtern in Bezug stehen, wonach im Schritt S6 eine zweite Erkennungsstufe durchgeführt wird, unter Verwendung des begrenzten Vokabulars und der gepufferten Merkmalsvektoren des unbekannten Wortes. Für den Fall, dass eine Kategorie im Schritt S3 detektiert wurde, entspricht die Ausgabe der im Schritt S6 durchgeführten Erkennungsstufe dem gewollten Erkennungsergebnis. Für den Fall, dass im Schritt S3 keine Kategorie detektiert wurde, wird nach dem Schritt S4 direkt das Ergebnis der im Schritt S2 durchgeführten ersten Erkennungsstufe als Erkennungsergebnis ausgegeben.
  • 3 zeigt ein detailliertes Blockdiagramm des Spracherkenners gemäß der vorliegenden Erfindung. Die Merkmalsvektoren eines unbekannten Wortes werden in eine erste Erkennungsstufeneinheit 1 eingegeben und ein Puffer 4 puffert die Merkmalsvektoren zur entsprechenden Versorgung der zweiten Erkennungsstufeneinheit 5. Die erste Erkennungsstufeneinheit 1 bestimmt das erste Erkennungsergebnis in Abhängigkeit des allgemeinen Vokabulars 7 und gibt dieses an einen Ausgabeauswahlschalter 6 und an die Schlüsselteilwort-Detektiereinheit 2. Die Schlüsselteilwort-Detektiereinheit 2 bestimmt eine Kategorie gemäß der detektierten Schlüsselteilwörter und gibt diese Kategorie an einen Vokabularauswähler 8 aus, welcher Wörter aus dem allgemeinen Vokabular 7 auswählt, die die gefundenen Schlüsselteilwörter umfassen oder einen Bezug zu diesen aufweisen. Diese ausgewählten Wörter bilden ein begrenztes Vokabular 9 auf Basis dessen die zweite Erkennungsstufeneinheit 5 das zweite Erkennungsergebnis aus den gepufferten Eingabemerkmalsvektoren des unbekannten Wortes bestimmt, welches ebenso an den Ausgabeauswahlschalter 6 ausgegeben wird. Abhängig davon, ob die Schlüsselteilwort-Detektiereinheit 2 eine Kategorie detektieren konnte, gibt diese ein Kontrollsignal an den Ausgabeauswahlschalter 6 aus, zur Auswahl, welches des ersten und zweiten Erkennungsergebnisses als endgültiges Erkennungsergebnis ausgegeben werden soll.
  • 3 zeigt, dass die erste Erkennungsstufeneinheit 1, die Schlüsselteilwortdetektiereinheit 2 und die zweite Erkennungsstufeneinheit 5 alle jeweils eine entsprechende Erkennung oder Detektion mit Hilfe des Erkennungs-Mechanismus 3 durchführen, der entsprechend bidirektional mit den genannten Einheiten verbunden ist. Wie oben erwähnt, ist die vorliegende Erfindung abhängig von den entsprechenden Niedrig-Niveau-Erkennungsalgorithmen, die von dem Erkennungsmechanismus 3 verwendet werden. Es ist jedoch möglich, separate Erkennungsmechanismen zu verwenden.
  • Wie oben in der allgemeinen Beschreibung des erfindungsgemäßen Konzepts als Alternative zu der bevorzugten Ausführungsform der Erfindung beschrieben, kann die Schlüsselteilwort-Detekierung unabhängig vom ersten Erkennungsstufenergebnis durchgeführt werden, beispielsweise auf Basis der Ausgabe eines Niedrig-Niveau-Erkennungsmechanismus (Englisch: lower level recognition engine), um das Vokabular der zweiten Erkennungsstufeneinheit zu reduzieren, sogar unter Verwendung einer beliebigen ersten Erkennungsstufe, die beispielsweise eine Schlüsselteilwort-Erkennungstechnik beinhaltet. In diesem Fall ist keine erste Erkennungsstufeneinheit, wie im Zusammenhang mit dem oberen Beispiel in Verbindung mit den 1 bis 3 beschrieben, nötig, d. h., es ist nur ein Niedrig-Niveau-Erkennungsmecha nismus nötig, der es dem Schlüsselteilwortdetektor erlaubt, Schüsselteilwörter zu erkennen, und welcher kein Erkennungsergebnis auf Wortbasis generiert. Ein solcher Erkennungsmechanismus kann auch in einem entsprechenden Schüsselteilwortdetektors integriert sein.
  • In diesem Fall kann die Schlüsselteilwort-Detektierung darüber hinaus auch lose mit einer ersten Erkennungsstufeneinheit zur Erzeugung von Erkennungsergebnissen verbunden sein, so dass die beiden Erkennungseinheiten als unabhängig und separat angesehen werden können.

Claims (7)

  1. Verfahren zur Erkennung von Sprachphrasen, umfassend die folgenden Schritte: – Durchführung einer ersten Erkennungsstufe (S2) für ein empfangenes unbekanntes Wort unter Verwendung eines allgemeinen Vokabulars (7), um ein erstes Erkennungsergebnis zu erzeugen, – Durchführung einer Schlüsselteilwort-Erkennung (S3) auf Basis des ersten Erkennungsergebnisses, um eine Kategorie eines empfangenen unbekannten Wortes zu bestimmen – wobei eine Kategorie eine Menge von Wörtern ist, wobei jedes Wort eine Menge von wenigstens einem Schlüsselteilwort umfasst oder einen semantischen Bezug zu einem solchen aufweist, – falls eine Kategorie bestimmt wird (S4): – Durchführen einer zweiten Erkennungsstufe (S6) für das empfangene unbekannte Wort unter Verwendung eines begrenzten Vokabulars (9), welches nur diejenigen Wörter umfasst, welche der bestimmten Kategorie entsprechen, um ein zweites Erkennungsergebnis zu erzeugen, und Ausgeben des zweiten Erkennungsergebnisses als Erkennungsergebnis, – falls keine Kategorie bestimmt wird (S4No): – Ausgeben des ersten Erkennungsergebnisses als Erkennungsergebnis.
  2. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass eine Menge von mehr als einem Schlüsselteilwort während der Schlüsselteilwort-Erkennung gefunden werden kann (S3), um die Kategorie des unbekannten Wortes zu bestimmen.
  3. Verfahren gemäß einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass ein Schlüsselteilwort ein Teil eines Wortes ist, welches erkennbar ist.
  4. Verfahren gemäß einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Vokabular (7) und/oder ein während der ersten Erkennungsstufe (S2) und/oder der zweiten Erkennungsstufe (S6) verwen detes Sprachmodell in Übereinstimmung mit zusätzlichem/externem Wissen über das unbekannte zu erkennende Wort begrenzt ist.
  5. Spracherkenner, gekennzeichnet durch – eine erste Erkennungsstufeneinheit (1) zur Durchführung einer ersten Erkennungsstufe für ein empfangenes unbekanntes Wort unter Verwendung eines allgemeinen Vokabulars und zur Erzeugung eines ersten Erkennungsergebnisses, – einen Schlüsselteilwortdetektor (2) zur Durchführung einer Schlüsselteilwort-Erkennung auf Basis des ersten Erkennungsergebnisses, um eine Kategorie eines empfangenen unbekannten Wortes zu bestimmen; und, – wobei eine Kategorie eine Menge von Wörtern ist, wobei jedes Wort eine Menge von wenigstens einem Schlüsselteilwort umfasst oder einen semantischen Bezug zu einem solchen aufweist, – eine zweite Erkennungsstufeneinheit (5) zur Durchführung einer zweiten Erkennungsstufe für das empfangene unbekannte Wort unter Verwendung eines begrenzten Vokabulars, welches nur die Wörter umfasst, welche der bestimmten Kategorie entsprechen, und zur Erzeugung eines zweiten Erkennungsergebnisses, für den Fall, dass von dem Schlüsselteilwortdetektor (2) eine Kategorie bestimmt wurde.
  6. Spracherkenner nach Anspruch 5, dadurch gekennzeichnet, dass die erste Erkennungsstufeneinheit (1), der Schlüsselteilwortdetektor (2) und/oder die zweite Erkennungsstufeneinheit (6) eine entsprechende Niedrig-Niveau-Spracherkennung unabhängig duchführen, basierend auf wenigstens einem Erkennungs-Mechanismus (3).
  7. Spracherkenner gemäß Anspruch 6, gekennzeichnet durch einen Vokabelauswähler (8), welcher bestimmte Einträge des allgemeinen Vokabulars (7) in Abhängigkeit vorbestimmter Regeln in Übereinstimmung mit in ihn eingegebenen Schlüsselteilwörtern auswählt, um das begrenzte Vokabular (7) zu erzeugen.
DE60016722T 2000-06-07 2000-06-07 Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars Expired - Lifetime DE60016722T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP00112234A EP1162602B1 (de) 2000-06-07 2000-06-07 Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars

Publications (2)

Publication Number Publication Date
DE60016722D1 DE60016722D1 (de) 2005-01-20
DE60016722T2 true DE60016722T2 (de) 2005-12-15

Family

ID=8168937

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60016722T Expired - Lifetime DE60016722T2 (de) 2000-06-07 2000-06-07 Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars

Country Status (4)

Country Link
US (1) US20020013706A1 (de)
EP (1) EP1162602B1 (de)
JP (1) JP2002006878A (de)
DE (1) DE60016722T2 (de)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007033472A1 (de) * 2007-07-18 2009-01-29 Siemens Ag Verfahren zur Spracherkennung
DE102010026708A1 (de) * 2010-07-10 2012-01-12 Volkswagen Ag Verfahren zum Betreiben eines Sprachdialogsystems und Sprachdialogsystem
DE102010040553A1 (de) * 2010-09-10 2012-03-15 Siemens Aktiengesellschaft Spracherkennungsverfahren
DE102010049869A1 (de) * 2010-10-28 2012-05-03 Volkswagen Ag Verfahren zum Bereitstellen einer Sprachschnittstelle in einem Fahrzeug und Vorrichtung dazu
DE102014114845A1 (de) 2014-10-14 2016-04-14 Deutsche Telekom Ag Verfahren zur Interpretation von automatischer Spracherkennung

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10207895B4 (de) 2002-02-23 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
US7042334B2 (en) * 2003-01-31 2006-05-09 General Electric Company Methods for managing access to physical assets
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
EP1361740A1 (de) * 2002-05-08 2003-11-12 Sap Ag Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
EP1363271A1 (de) 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220520A1 (de) * 2002-05-08 2003-11-20 Sap Ag Verfahren zur Erkennung von Sprachinformation
DE10220524B4 (de) 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
JP4072718B2 (ja) * 2002-11-21 2008-04-09 ソニー株式会社 音声処理装置および方法、記録媒体並びにプログラム
DE10306022B3 (de) * 2003-02-13 2004-02-19 Siemens Ag Dreistufige Einzelworterkennung
AU2003273357A1 (en) * 2003-02-21 2004-09-17 Harman Becker Automotive Systems Gmbh Speech recognition system
EP1654727A4 (de) * 2003-07-23 2007-12-26 Nexidia Inc Gesprochenes-wort-erkennungs-anfragen
US20050137877A1 (en) * 2003-12-17 2005-06-23 General Motors Corporation Method and system for enabling a device function of a vehicle
JP4528540B2 (ja) * 2004-03-03 2010-08-18 日本電信電話株式会社 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
US7725318B2 (en) * 2004-07-30 2010-05-25 Nice Systems Inc. System and method for improving the accuracy of audio searching
US20060069563A1 (en) * 2004-09-10 2006-03-30 Microsoft Corporation Constrained mixed-initiative in a voice-activated command system
EP2317508B1 (de) * 2004-10-05 2012-06-27 Inago Corporation Gramatik-Regel-Erzeugung zur Spracherkennung
US7925506B2 (en) 2004-10-05 2011-04-12 Inago Corporation Speech recognition accuracy via concept to keyword mapping
DE102005030965B4 (de) * 2005-06-30 2007-07-19 Daimlerchrysler Ag Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments
DE102005030967B4 (de) * 2005-06-30 2007-08-09 Daimlerchrysler Ag Verfahren und Vorrichtung zur Interaktion mit einem Spracherkennungssystem zur Auswahl von Elementen aus Listen
US8924212B1 (en) * 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
US8751145B2 (en) 2005-11-30 2014-06-10 Volkswagen Of America, Inc. Method for voice recognition
US7752152B2 (en) * 2006-03-17 2010-07-06 Microsoft Corporation Using predictive user models for language modeling on a personal device with user behavior models based on statistical modeling
US8032375B2 (en) * 2006-03-17 2011-10-04 Microsoft Corporation Using generic predictive models for slot values in language modeling
US20070239453A1 (en) * 2006-04-06 2007-10-11 Microsoft Corporation Augmenting context-free grammars with back-off grammars for processing out-of-grammar utterances
US7689420B2 (en) * 2006-04-06 2010-03-30 Microsoft Corporation Personalizing a context-free grammar using a dictation language model
JP4867654B2 (ja) * 2006-12-28 2012-02-01 日産自動車株式会社 音声認識装置、および音声認識方法
US8311828B2 (en) * 2007-08-28 2012-11-13 Nexidia Inc. Keyword spotting using a phoneme-sequence index
EP2081185B1 (de) 2008-01-16 2014-11-26 Nuance Communications, Inc. Spracherkennung von langen Listen mithilfe von Fragmenten
EP2221806B1 (de) * 2009-02-19 2013-07-17 Nuance Communications, Inc. Spracherkennung eines Listeneintrags
WO2010128560A1 (ja) * 2009-05-08 2010-11-11 パイオニア株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
US20110184736A1 (en) * 2010-01-26 2011-07-28 Benjamin Slotznick Automated method of recognizing inputted information items and selecting information items
US10019983B2 (en) 2012-08-30 2018-07-10 Aravind Ganapathiraju Method and system for predicting speech recognition performance using accuracy scores
EP2851896A1 (de) * 2013-09-19 2015-03-25 Maluuba Inc. Spracherkennung unter Verwendung von Phonemanpassung
US9601108B2 (en) 2014-01-17 2017-03-21 Microsoft Technology Licensing, Llc Incorporating an exogenous large-vocabulary model into rule-based speech recognition
US10749989B2 (en) 2014-04-01 2020-08-18 Microsoft Technology Licensing Llc Hybrid client/server architecture for parallel processing
US10032449B2 (en) 2014-09-03 2018-07-24 Mediatek Inc. Keyword spotting system for achieving low-latency keyword recognition by using multiple dynamic programming tables reset at different frames of acoustic data input and related keyword spotting method
DE102014017385B4 (de) * 2014-11-24 2016-06-23 Audi Ag Kraftfahrzeug-Gerätebedienung mit Bedienkorrektur
US10217458B2 (en) * 2016-09-23 2019-02-26 Intel Corporation Technologies for improved keyword spotting
CA3082402A1 (en) * 2017-11-13 2019-05-16 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
US11183194B2 (en) * 2019-09-13 2021-11-23 International Business Machines Corporation Detecting and recovering out-of-vocabulary words in voice-to-text transcription systems
CN112434532B (zh) * 2020-11-05 2024-05-28 西安交通大学 一种支持人机双向理解的电网环境模型及建模方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5208897A (en) * 1990-08-21 1993-05-04 Emerson & Stern Associates, Inc. Method and apparatus for speech recognition based on subsyllable spellings
US5222188A (en) * 1990-08-21 1993-06-22 Emerson & Stern Associates, Inc. Method and apparatus for speech recognition based on subsyllable spellings
JPH06161488A (ja) * 1992-11-17 1994-06-07 Ricoh Co Ltd 音声認識装置
US6311157B1 (en) * 1992-12-31 2001-10-30 Apple Computer, Inc. Assigning meanings to utterances in a speech recognition system
US5623609A (en) * 1993-06-14 1997-04-22 Hal Trust, L.L.C. Computer system and computer-implemented process for phonology-based automatic speech recognition
JP3397372B2 (ja) * 1993-06-16 2003-04-14 キヤノン株式会社 音声認識方法及び装置
JP3311460B2 (ja) * 1994-01-28 2002-08-05 富士通株式会社 音声認識装置
US5805772A (en) * 1994-12-30 1998-09-08 Lucent Technologies Inc. Systems, methods and articles of manufacture for performing high resolution N-best string hypothesization
JP3582159B2 (ja) * 1995-07-28 2004-10-27 マツダ株式会社 車載用地図表示装置
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
US5917891A (en) * 1996-10-07 1999-06-29 Northern Telecom, Limited Voice-dialing system using adaptive model of calling behavior
US5974413A (en) * 1997-07-03 1999-10-26 Activeword Systems, Inc. Semantic user interface
US6571209B1 (en) * 1998-11-12 2003-05-27 International Business Machines Corporation Disabling and enabling of subvocabularies in speech recognition systems
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
US6327566B1 (en) * 1999-06-16 2001-12-04 International Business Machines Corporation Method and apparatus for correcting misinterpreted voice commands in a speech recognition system
US6397186B1 (en) * 1999-12-22 2002-05-28 Ambush Interactive, Inc. Hands-free, voice-operated remote control transmitter

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007033472A1 (de) * 2007-07-18 2009-01-29 Siemens Ag Verfahren zur Spracherkennung
DE102010026708A1 (de) * 2010-07-10 2012-01-12 Volkswagen Ag Verfahren zum Betreiben eines Sprachdialogsystems und Sprachdialogsystem
DE102010040553A1 (de) * 2010-09-10 2012-03-15 Siemens Aktiengesellschaft Spracherkennungsverfahren
DE102010049869A1 (de) * 2010-10-28 2012-05-03 Volkswagen Ag Verfahren zum Bereitstellen einer Sprachschnittstelle in einem Fahrzeug und Vorrichtung dazu
DE102010049869B4 (de) 2010-10-28 2023-03-16 Volkswagen Ag Verfahren zum Bereitstellen einer Sprachschnittstelle in einem Fahrzeug und Vorrichtung dazu
DE102014114845A1 (de) 2014-10-14 2016-04-14 Deutsche Telekom Ag Verfahren zur Interpretation von automatischer Spracherkennung
EP3010014A1 (de) 2014-10-14 2016-04-20 Deutsche Telekom AG Verfahren zur interpretation von automatischer spracherkennung

Also Published As

Publication number Publication date
DE60016722D1 (de) 2005-01-20
EP1162602B1 (de) 2004-12-15
US20020013706A1 (en) 2002-01-31
EP1162602A1 (de) 2001-12-12
JP2002006878A (ja) 2002-01-11

Similar Documents

Publication Publication Date Title
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE60005326T2 (de) Erkennungseinheiten mit komplementären sprachmodellen
DE60032193T2 (de) Verfahren und System zur Auswahl erkannter Wörter bei der Korrektur erkannter Sprache
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE69622565T2 (de) Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
EP1264302B1 (de) Verfahren zur spracheingabe eines zielortes mit hilfe eines definierten eingabedialogs in ein zielführungssystem
DE602004002230T2 (de) Spracherkennungssystem für ein Mobilgerät
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE69923191T2 (de) Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem
EP1611568B1 (de) Dreistufige einzelworterkennung
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
DE60109999T2 (de) Spracherkennung mittels lexikalischer Bäumen
DE20004416U1 (de) Spracherkennungsvorrichtung unter Verwendung mehrerer Merkmalsströme
WO2002045076A1 (de) Verfahren und system zur multilingualen spracherkennung
EP0802522A2 (de) Anordnung und Verfahren zur Aktionsermittlung
WO2006111230A1 (de) Verfahren zur gezielten ermittlung eines vollständigen eingabedatensatzes in einem sprachdialogsystem
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen
EP3152753B1 (de) Assistenzsystem, das mittels spracheingaben steuerbar ist, mit einer funktionseinrichtung und mehreren spracherkennungsmodulen
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
WO2000005709A1 (de) Verfahren und vorrichtung zur erkennung vorgegebener schlüsselwörter in gesprochener sprache
DE69331247T2 (de) Spracherkennungssystem
DE60029456T2 (de) Verfahren zur Online-Anpassung von Aussprachewörterbüchern

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: SONY DEUTSCHLAND GMBH, 50829 KOELN, DE