DE69327188T2 - Einrichtung für automatische Spracherkennung - Google Patents
Einrichtung für automatische Spracherkennung Download PDFInfo
- Publication number
- DE69327188T2 DE69327188T2 DE69327188T DE69327188T DE69327188T2 DE 69327188 T2 DE69327188 T2 DE 69327188T2 DE 69327188 T DE69327188 T DE 69327188T DE 69327188 T DE69327188 T DE 69327188T DE 69327188 T2 DE69327188 T2 DE 69327188T2
- Authority
- DE
- Germany
- Prior art keywords
- word
- new
- database
- spoken
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Navigation (AREA)
Description
- Technisches Gebiet
- Die Erfindung betrifft Vorrichtungen und Verfahren zur Erzeugung von Wortmodellen, die in Spracherkennungssystemen verwendet werden, und insbesondere Wortmodelle, die zur Erkennung gesprochener Wörter verwendet werden.
- Allgemeiner Stand der Technik und Problemstellung
- Spracherkennungssysteme werden zunehmend in Anwendungen zur Erkennung von und zum Antworten auf gesprochene Informationen verwendet. Bei einer typischen Anwendung verwendet ein Kaufhaus bei telefonischen Geschäften ein Spracherkennungssystem zur Information anrufender Kunden über neue Waren und zur Annahme von gesprochenen Bestellungen des Kunden. Eine andere Anwendung kann von einer Finanzmaklerfirma zum Antworten auf eine Sprachanforderung des anrufenden Kunden eines Kurses durch verbales Zitieren aktueller Informationen bezüglich des Kontos des anrufenden Kunden verwendet werden.
- Spracherkennungssysteme weisen gewöhnlich ein Datenbasislexikon auf, das Muster wie zum Beispiel Sprachschablonen oder Modelle speichert, die vollständige Zahlen Wörter und Sätze darstellen, die in verschiedenen Anwendungen verwendet werden. Im Betrieb werden empfangene verbale Informationen mit Schablonen verglichen, um die empfangenen verbalen Informationen als spezifische Zahlen, Wörter oder Sätze zu identifizieren. Ein Beispiel eines solchen Systems wird in "Constructing a Large Size Lexicon for a Continuous Speech Recognition System", von Larsen et al., Eurospeech 89, Seiten 232–235, beschrieben. Die Lexikonschablonen werden in einem Labor von Technikern erzeugt und aktualisiert, die Datenproben von Sprache von einer großen Anzahl von Personen sammeln. Die Sprachdatenproben werden manuell verifiziert und zum Aufbau eines Schablonenmodells einer Zahl, eines Worts oder eines Satzes verwendet. Das Schablonenmodell wird danach dem Datenbasislexikon des entsprechenden Spracherkennungssystems hinzugefügt.
- Ein Problem entsteht dadurch, daß einzelne Spracherkennungssysteme Datenbasislexika von Sprachschablonen benötigen, die oftmals nur vom Eigner des Systems und den Kunden des Eigners verwendet werden und diesen eigen sind. Zum Beispiel erfordert ein Krankenhaus-Spracherkennungssystem ein Lexikon von Sprachschablonen, die sich von denen in einem Lexikon für ein Spracherkennungssystem eines Lebensmittelgroßhändlers unterscheiden und verschieden sind. Somit erfordert jedes Spracherkennungssystem das Sammeln einer großen Zahl von Sprachdatenproben und die manuelle Verifikation der Sprachdatenproben zum Aufbau von Schablonen, die für jede spezifische Spracherkennungssystemanwendung erforderlich sind. Dementsprechend wird eine automatische Spracherkennungsvorrichtung für Spracherkennungssysteme und ein Verfahren zum Betrieb der automatischen Spracherkennungsvorrichtung benötigt, durch die ein Eigner des Systems Informationen in ein Spracherkennungssystem eingeben kann, die in der Geschäftsanwendung des Eigners verwendet werden, ohne daß dabei das Sammeln und Verifizieren großer Zahlen von Sprachdatenproben erforderlich ist.
- Lösungen
- Das obige Problem wird durch Vorrichtungen nach Anspruch 1 und Verfahren nach Anspruch 4 gelöst, die für das Eingeben von Daten in ein Spracherkennungssystem in eine Vokabular-Lexikondatenbasis des Spracherkennungssystems ausgelegt sind, wodurch das System gesprochene Daten als die gespeicherten Daten erkennen kann. Ein Prozessor erzeugt eine phonetische Transkription aus den eingegebenen Daten und zeichnet sowohl die Daten, wie zum Beispiel alphanumerische, als auch die diesen zugeordnete phonetische Transkription auf und speichert diese in einer Vokabular-Lexikondatenbasis. Der Prozessor reagiert auf den Empfang gesprochener Daten, indem er ein Modell konstruiert, das aus einer oder mehreren Folgen aus Teilwörtern besteht, die für die gesprochenen Daten charakteristisch sind, und das konstruierte
- Teilwortmodell mit einzelnen der aufgezeichneten phonetischen Transkriptionen der Vokabular-Lexikondatenbasis vergleicht. Die gesprochenen Daten werden bei einer Übereinstimmung des konstruierten Teilwortmodells mit einer aufgezeichneten und den aufgezeichneten Daten zugeordneten phonetischen Transkription als die aufgezeichneten Daten erkannt.
- Kurze Beschreibung der Zeichnungen
-
1 zeigt ein Spracherkennungssystem, das die Prinzipien der Erfindung realisiert; -
2 stellt die Einzelheiten des Prozessors des in1 gezeigten Spracherkennungssystems gemäß den Prinzipien der Erfindung dar; -
3 stellt beispielhafte Prozessorprogramme und Datenbasisdateien dar, die mit dem in1 und2 dargestellten Spracherkennungssystem verwendet werden; und -
4 und5 zeigen Flußdiagramme der Funktionsweise des in1 dargestellten Spracherkennungssystems gemäß den Prinzipien der Erfindung. Ausführliche Beschreibung - Bei einem Ausführungsbeispiel der Erfindung ist
- das Spracherkennungssystem
1 ,1 , so ausgelegt, daß es gesprochene Daten, wie zum Beispiel alphanumerische Daten, erkennt. In der Regel können solche Systeme in vielfältigen Anwendungen, wie zum Beispiel der Bestellabteilung eines großen Kaufhauses, verwendet werden. Solche Systeme können, müssen aber nicht, mit Telefonleitungen, wie zum Beispiel der Telefonleitung31 , verbunden werden und werden zur Übertragung einer Sprach-Aufforderungsnachricht zu einem anrufenden Kunden verwendet, der den Fernsprecher3 verwendet. Das Spracherkennungssystem1 reagiert auf den anrufenden Kunden, indem es alphanumerische Daten erkennt, die der Kunde bei einer Bestellung in dem Kaufhaus spricht. Bei anderen Anwendungen kann das Spracherkennungssystem1 in Fernsprechvermittlungsanwendungen verwendet werden, um gesprochene Rufnummern von anrufenden Teilnehmern zu erkennen, und von Finanzmaklerfirmen zur Erkennung von - Bestellungen von Kunden und Anforderungen von Informationen. Bei weiteren Anwendungen können die Prinzipien des Spracherkennungssystems
1 mit einem Computer verwendet werden, damit der Computer alphanumerische Daten erkennen kann, die vom Benutzer des Computers gesprochen werden. - Das Spracherkennungssystem
1 kann, muß aber nicht, ein Computer10 sein, wie zum Beispiel ein 386 oder 486 Computer von AT&T sein. Solche Computer,2 , müssen zum Verständnis der Erfindung nicht ausführlich beschrieben werden und weisen im allgemeinen eine CPU101 , eine Speichereinheit102 und eine Schnittstelleneinheit100 auf, die jeweils durch Adressen-, Daten- und Steuerleitungen mit einem Datenbus104 verbunden sind. Die Schnittstelleneinheit100 dient zum Ankoppeln einer Datenstrecke1110 , die mit einem Dateneingabegerät, wie zum Beispiel der Tastatur11 verbunden ist, an einen Datenbus104 , damit alphanumerische Daten, wie zum Beispiel Wörter, Ziffern und Informationen, die in die Tastatur11 eingegeben werden, mit der CPU101 und der Speichereinheit102 ausgetauscht werden können. Der Datenbus104 ist außerdem durch Adressen-, Daten- und Steuerleitungen mit dem Datenspeichergerät103 verbunden, mit dem Datenbasisinfrastrukturen, wie zum Beispiel die Datenbasisinfrastrukturen1030 ,1031 und1032 , gespeichert und aufgezeichnet werden. Der Computer10 ,1 , der als das Spracherkennungssystem1 verwendet wird, kann außerdem ein Videoterminal12 aufweisen, mit dem Daten und Informationen angezeigt werden. - Im Betrieb,
2 , werden Programme, wie zum Beispiel das Programm Erzeugen Teilwortbuchstabierung des neuen Worts1020 , das Algorithmusprogamm1021 der automatischen Spracherkennung (ASR) und das Tastatur-Eingabeprogramm1022 , in der Speichereinheit102 gespeichert und werden zum entsprechenden Zeitpunkt zur Steuerung der Funktionsweise des Spracherkennungsvorrichtungssystems1 gemäß den Prinzipien der Erfindung in die CPU101 geladen. Die Datenbasisinfrastruktur- Wörterbuchdatenbasis1030 , die Vokabular-Lexikondatenbasis1031 und die Teilwortmodelldatenbasis1032 werden in dem Datenspeicher103 gespeichert, und die CPU102 greift auf sie zu, um Informationen daraus zu lesen und Informationen darin zu speichern. - Die Wörterbuchdatenbasis
1030 ,3 , speichert Wörter und eine phonetische Transkription jedes gespeicherten Worts. In der Regel kann es sich bei den Wörtern um diejenigen Wörter handeln, die in einem standardmäßigen Wörterbuch anzutreffen sind, und sie werden in einer Wörterbuchdatenbasis1030 zusammen mit einer phonetischen Transkription des gespeicherten Worts gespeichert oder können durch das Programm Erzeugen Teilwortbuchstabierung des neuen Worts1020 berechnet werden. Zum Beispiel kann das Wort "house" durch die zugeordnete phonetische Transkription "haus" dargestellt werden. Ähnlich können das gespeicherte Wort "car" durch die zugeordnete phonetische Transkription "käar" und das Wort "computer" durch die zugeordnete phonetische Transkription "kempyuter" dargestellt werden. Zusätzlich können Buchstaben wie zum Beispiel "d" und "w" durch die Transiriptionen "diy" und "dahbixlyuw" dargestellt werden. - Mit der Vokabular-Lexikondatenbasis
1031 werden Wörter und Varianten dieser aufgezeichnet und gespeichert, wobei Zeichenketen von phonetischen Transkriptionen die Wörter und die Varianten der aufgezeichneten Wörter darstellen. In einem typischen Beispiel zeichnet das Programm Erzeugen Teilwortbuchstabierung des neuen Worts1020 das Wort "car" und die zugeordnete phonetische Transkriptionszeichenkette "käar" in der Vokabular-Lexikondatenbasis1031 auf. In einem anderen Beispiel können die Varianten der Wörter "rail" und "road" als "railroad" aufgezeichnet werden, wobei die zugeordnete phonetische Transkriptionszeichenkette "reylrowd" ist. - Die Teilwortmodelldatenbasis
1032 speichert Phoneme, die jeweils eine kleine Spracheinheit identifizieren, die zur Unterscheidung einer Äußerung von einer anderen dient. Zum Beispiel wird das Phonem "aa", das den a-Laut wie in "cot" darstellt, in der Teilwortmodelldatenbasis1032 gespeichert. Ähnlich speichert die Datenbasis1032 die Phoneme "ah", "d", "ey", die Laute wie in "buf", "dad" bzw. "bait" darstellen. - Ein Wort oder eine Zahl oder Zeichenkette dieser,
1 , können in das Spracherkennungssystem1 eingegeben werden, indem das Wort oder die Zahl auf den Tasten110 und dem Tastenfeld111 der Tastatur11 eingetippt wird. Bei anderen Anwendungen können neue und zusätzliche Wörter und Zahlen zu dem Spracherkennungssystem1 hinzugefügt werden, indem die Wörter und Zahlen durch Band, Plattenlaufwerke, zusätzlichen Speicher oder ein beliebiges einer Anzahl verschiedener und wohlbekannter Mittel zur Eingabe von Daten in den Computer10 durch Programme wie zum Beispiel das Tastatur-Eingabeprogramm1022 eingegeben werden. Das Programm Erzeugen Teilwortbuchstabierung des neuen Worts1032 ,2 , das die Funktionsweise der CPU101 gemäß einer Ausführungsform der Erfindung steuert, reagiert auf die Eingabe von Wörtern und Zahlen, indem es auf die Wörterbuchdatenbasis1030 zugreift. Wenn das eingegebene Wort gefunden wird, wie zum Beispiel "house",3 , dann erzeugt das Programm Erzeugen Teilwortbuchstabierung des neuen Worts1020 eine phonetische Transkriptionszeichenkette "haus" aus den phonetischen Wörterbuchdaten-Wörterbuchtranskriptionen, die durch das eingegebene Wort identifiziert werden. Wenn eine Variante von in der Wörterbuchdatenbasis1030 gespeicherten Wörtern in das Spracherkennungssystem1 eingegeben wird, wie zum Beispiel ein Wort "railroad", dann greift das Programm Erzeugen Teilwortbuchstabierung des neuen Worts1020 auf die Wörterbuchdatenbasis1030 zu und erzeugt eine phonetische Transkriptionszeichenkette "reylrowd" aus den phonetischen Transkriptionen "reyl" und "rowd" der Wörterbuchdatenbasis1030 , die mit den Wörtern "rail" und "road" gespeichert sind, die durch das eingegebene "railroad" identifiziert werden. Das Programm Erzeugen Teilwortbuchstabierung des neuen Worts1020 zeichnet jedes eingegebene Wort und die zugeordnete erzeugte phonetische Transkriptionszeichenkette in der Vokabular-Lexikondatenbasis1031 auf. Somit werden die eingegebenen Wörter "car" und "railroad" und ihre zugeordneten phonetischen Zeichenketten "käar" und "reylrowd" zur Verwendung bei der Erkennung von gesprochenen Wörtern, die durch das Spracherkennungssystem1 empfangen werden, in der Vokabular-Lexikondatenbasis1031 aufgezeichnet. - Beim Empfang gesprochener alphanumerischer Daten über die Telefonleitung
31 ,1 , greift das Algorithmusprogramm1021 der automatischen Spracherkennung (ASR),3 , auf die Teilwortmodelldatenbasis1032 zu und konstruiert ein Modell, das eine Zeichenkette von Phonemen umfaßt, die jeweils eine kleine Spracheinheit identifizieren, die zur Unterscheidung einer Äußerung von einer anderen dient und die Laute des empfangenen gesprochenen Worts darstellt. Wenn das gesprochene Wort "car" empfangen wird, greift das ASR-Algorithmusprogramm1021 somit auf die Teilwortmodelldatenbasis1032 zu und konstruiert die Phoneme "k", "äa" und "r" als eine Phonemzeichenkette "k äa r", die das empfangene gesprochene Wort "car" identifiziert. Auf gleiche Weise reagiert das ASR-Algorithmusprogramm1021 auf den Empfang des gesprochenen Worts "railroad", indem es auf die Teilwortmodelldatenbasis1032 zugreift und ein Modell konstruiert, das die Zeichenkette von Phonemen "r ey l r ow d" umfaßt, die das empfangene gesprochene Wort "railroad" darstellt. - Nach der Konstruktion eines Zeichenkettenphonemmodells, das das empfangene gesprochene Wort darstellt, greift das ASR-Algorithmusprogramm
1021 auf die Vokabular-Lexikondatenbasis1031 zu und vergleicht das konstruierte Zeichenkettenphonemmodell mit einzelnen der aufgezeichneten phonetischen Transkriptionszeichenketten der Vokabular-Lexikondatenbasis1031 . Wenn das konstruierte Zeichenkettenphonemmodell mit einer in der Vokabular-Lexikondatenbasis1031 aufgezeichneten phonetischen Transkriptionszeichenkette übereinstimmt, wird das gesprochene Wort als das aufgezeichnete Wort erkannt, das der übereinstimmenden phonetischen Transkriptionszeichenkette zugeordnet ist. Wenn das Spracherkennungsvorrichtungssystem1 ,1 , das gesprochene Wort "railroad" empfängt, greift das ASR-Algorithmusprogramm1021 ,3 , somit auf die Teilwortmodelldatenbasis1032 zu und konstruiert ein Zeichenkettenphonemmodell "r ey l r ow d". Das Programm1021 greift dann auf die Vokabular-Lexikondatenbasis1031 zu und vergleicht das konstruierte Zeichenkettenphonemmodell "r ey l r ow d" mit einzelnen der aufgezeichneten phonetischen Transkriptionszeichenketten des Vokabularlexikons. Das gesprochene Wort "railroad" wird als das Wort "railroad" erkannt, das mit der phonetischen Transkriptionszeichenkette "reylrowd" aufgezeichnet wurde, wenn das konstruierte Zeichenkettenphonemmodell "r ey l r ow d" mit der aufgezeichneten phonetischen Transkriptionszeichenkette "reylrowd" übereinstimmt. - Das Spracherkennungssystem
1 ,1 , verfügt normalerweise über eine große Anzahl von Wörtern, die in der Wörterbuch- und der Vokabular-Lexikondatenbasis1030 bzw.1031 gespeichert und aufgezeichnet sind. Zusätzliche Wörter können in das Spracherkennungssystem1 eingegeben und in der Vokabular-Lexikondatenbasis1031 aufgezeichnet werden, damit das System die zusätzlichen Wörter erkennen kann. Solche Wörter können einzigartige Wörter sein, die in spezifischen Anwendungen des Spracherkennungssystems1 verwendet werden. Bei der vorliegenden Ausführungsform der Erfindung wird angenommen, daß ein spezielles Wort "dwd", das für eine spezifische Anwendung einzigartig ist, in das Spracherkennungssystem1 eingegeben werden soll. - Das Verfahren zum Betreiben des Spracherkennungssystems
1 zur Erkennung eines gesprochenen Worts wie zum Beispiel "dwd" umfaßt das Erzeugen einer phonetischen Transkriptionszeichenkette "diydahbixlyuwdiy" aus dem Wort "dwd" und das Aufzeichnen des Worts "dwd" und der erzeugten phonetischen Transkriptionszeichenkette "diydahbixlyuwdiy" in der Vokabular-Lexikondatenbasis1031 ,3 . Beim Empfangen des gesprochenen Worts "dwd" greift die Methode des Betriebs des Spracherkennungssystems1 auf die Teilwortmodelldatenbasis1032 zu und konstruiert eine Modellzeichenkette von Phonemen "d iy d ah b ix l y uw d iy", die für die Laute des gesprochenen Worts "dwd" charakteristisch ist. Das konstruierte Phonemzeichenkettenmodell "d iy d ah b ix l y uw d iy" wird mit einzelnen der aufgezeichneten phonetischen Transkriptionszeichenketten des Lexikonvokabulars verglichen, und wenn eine Übereinstimmung des konstruierten Phonemzeichenkettenmodells "d iy d ah b ix l y uw d iy" mit der aufgezeichneten phonetischen Transkriptionszeichenkette "diydahbixlyuwdiy" der Vokabular-Lexikondatenbasis1031 vorliegt, dann wird das gesprochene Wort als das Wort "dwd" erkannt, das mit der übereinstimmenden phonetischen Transkriptionszeichenkette "diydahbixlyuwdiy" aufgezeichnet wurde. - In der Methode des Betriebs,
1 , wird anfänglich ein Wörterbuch von Standardwörtern und eine phonetische Transkription jedes Standardworts in der Wörterbuchdatenbasis1030 gespeichert. Ähnlich speichert die Teilwortmodelldatenbasis1032 anfänglich Phoneme wie zum Beispiel "d" und "w", die jeweils eine kleine Spracheinheit identifizieren, die zur Unterscheidung einer Äußerung von einer anderen dient. Zur Eingabe eines neuen Worts, wie zum Beispiel des Worts "dwd", in das Spracherkennungssystem1 wird das Wort "dwd" in die Tastatur11 eingetippt und in das Tastatur-Eingabeprogramm1022 , Schritte102200 ,102201 ,4 , eingegeben. Das Programm Erzeugen Teilwortbuchstabierung des neuen Worts1020 ,1 , reagiert auf die Eingabe alphanumerischer Daten und Varianten dieser, wie zum Beispiel des Worts "dwd", indem es auf die Wörterbuchdatenbasis1030 zugreift, Schritte102000 ,102001 ,4 . Wenn sich das eingegebene Wort in der Wörterbuchdatenbasis1030 befindet, Schritt102002 , dann wählt das Programm Erzeugen Teilwortbuchstabierung des neuen Worts1020 das Wort und die zugeordnete phonetische Transkriptionszeichenkette, Schritt102003 , und zeichnet sowohl das Wort als auch die zugeordnete phonetische Transkriptionszeichenkette in der Vokabular-Lexikondatenbasis1031 auf, Schritte102005 ,102006 . - Wenn das eingegebene Wort, zum Beispiel die Wortvariante "dwd", nicht in der Wörterbuchdatenbasis
1030 gefunden wird, Schritt102002 , dann wählt das Programm Erzeugen Teilwortbuchstabierung des neuen Worts1020 die Wortbestandteile,3 , "d" und "w" aus der Wörterbuchdatenbasis1030 und erzeugt die phonetische Transkriptionszeichenkette "diydahbixlyuwdiy", Schritt102004 . Die Wortvariante "dwd" und die erzeugte phonetische Transkriptionszeichenkette "diydahbixlyuwdiy" wird in der Vokabular-Lexikondatenbasis1031 aufgezeichnet, Schritte102005 ,102006 . Wenn weitere Wörter in das Spracherkennungssystem1 eingegeben werden sollen, dann werden der Schritt102007 , der Schritt102201 und die Schritte102000 bis102007 wiederholt, bis alle eingegebenen Wörter in der Vokabular-Lexikondatenbasis1031 aufgezeichnet wurden, und die CPU101 verläßt dann das Programm Erzeugen Teilwortbuchstabierung des neuen Worts1020 , Schritt102008 . - Das Spracherkennungssystem
1 ,1 , das gemäß dem ASR-Algorithmusprogramm1021 arbeitet, reagiert auf ein gesprochenes Wort, wie zum Beispiel das Wort "dwd", das über die Telefonleitung31 empfangen wird,5 , Schritte102100 ,102101 ,102102 , indem es auf die Teilwortmodelldatenbasis1032 zugreift. Als Reaktion auf den Empfang des gesprochenen Worts "dwd" leitet das ASR-Algorithmusprogramm1021 , Schritt102103 , eine Konstruktion eines Modells ein, das eine Zeichenkette von Phonemen umfaßt, die das empfangene gesprochene Wort "dwd" darstellen. Die Konstruktion des Modells erfolgt gemäß dem Klang des empfangenen "dwd", und der Laut "d" führt zu der Auswahl von "d iy" als dem ersten Teil des Zeichenkettenmodells, Schritt102104 . Da das Modell nicht abgeschlossen ist, Schritt102105 , werden die Schritte102101 bis102105 wiederholt, so daß der Laut von "w" zu der Auswahl der Phoneme "d ah b ix l y uw" aus der Teilwortmodelldatenbasis1032 und zu deren Hinzufügung zu dem Modell führt. Das Phonemzeichenkettenmodell ist abgeschlossen, wenn der letzte Laut "d" dazu führt, daß die Phoneme "d iy" zu der Zeichenkette hinzugefügt werden, um die Phonemzeichenkettenmodelldarstellung "d iy d ah b ix l y uw d iy" des gesprochenen Worts "dwd" abzuschließen, Schritt102105 . - Beim Abschluß der konstruierten Phonemzeichenkettenmodelldarstellung "d iy d ah b ix l y uw d iy" des gesprohenen Worts "dwd" greift das ASR-Algorithmusprogramm
1021 auf die Vokabular-Lexikondatenbasis1031 zu und vergleicht das konstruierte Zeichenkettenphonemmodell "d iy d ah b ix l y uw d iy" mit einzelnen der aufgezeichneten phonetischen Transkriptionszeichenketten der Vokabular-Lexikondatenbasis, Schritte102106 ,102107 ,102108 . Wenn eine Übereinstimmung des konstruierten Phonemzeichenkettenmodells "d iy d ah b ix l y uw d iy" mit der aufgezeichneten phonetischen Transkriptionszeichenkette "diydahbixlyuwdiy" vorliegt, Schritt102109 , dann wird das gesprochene Wort "dwd" als das Wort "dwd" erkannt, das in der Vokabular-Lexikondatenbasis1031 aufgezeichnet ist, Schritt102110 . Wenn zusätzliche gesprochene Wörter vorliegen, Schritt102111 , werden die Schritte102101 bis102111 wiederholt, bis alle Wörter erkannt wurden. - Falls keine Übereinstimmung erzielt wird, Schritt
102109 , und der Übereinstimmungsversuch kleiner als eine vorbestimmte Versuchszahl ist, Schritt102113 , vergrößert das ASR-Algorithmusprogramm1021 die Wiederholungsversuchnummer und fordert den Anrufer auf, das gesprochene Wort zu wiederholen, Schritt102114 . Danach werden die Schritte102101 bis102109 wiederholt. Falls die Versuchszahl die vorbestimmte Versuchszahl übersteigt, wird bestimmt, daß ein Fehler aufgetreten ist, Schritt102115 . - Während des Übereinstimmungsprüfungsprozesses, Schritt
102109 , wird der Übereinstimmung des konstruierten Phonemzeichenkettenmodells mit in der Vokabular-Lexikondatenbasis1031 gespeicherten phonetischen Transkriptionszeichenketten ein Konfidenz-Erkennungsfaktor zugewiesen. Wenn der zugewiesene Konfidenz-Erkennungsfaktor einen vorbestimmten Schwellenwert übersteigt, wird bestimmt, daß das dem konstruierten Phonemzeichenkettenmodell zugeordnete gesprochene Wort als das Wort erkannt wird, das in der Vokabular-Lexikondatenbasis1031 aufgezeichnet und der übereinstimmenden phonetischen Transkriptionszeichenkette zugeordnet ist.
Claims (6)
- Spracherkennungssystem mit: einer Vokabulardatenbasis (
1031 ) mit Wörtern in alphanumerischer Form und einer entsprechenden Phonem-Zeichenkette für jedes der Wörter; einer Teilwortdatenbasis (1032 ), die eine Vielzahl von Phonemen speichert, die Wortlaute darstellen; einem Mittel (11 ) zum Empfangen eines neuen, nicht gesprochenen Worts in Wörterbuchform als eine Folge von Zeichen, wobei das neue Wort zuvor nicht in der Vokabulardatenbasis enthalten war; einem Prozessormittel (1020 ) zum Erzeugen einer neuen Phonem-Zeichenkette auf der Grundlage des neuen Worts und Speichern des neuen Worts und der neuen Phonem-Zeichenkette in der Vokabulardatenbasis, wodurch ein nachfolgend gesprochener Eintrag des neuen Worts auf der Grundlage des Erkennens des Vorliegens des neuen Worts in der Vokabulardatenbasis durch Vergleichen der entsprechenden Phonem-Zeichenketten erkannt werden kann. - System nach Anspruch 1, weiterhin mit einem Prozessormittel (
1021 ) zum Bestimmen, ob ein als eine Eingabe empfangenes erstes gesprochenes Wort eines der in der Vokabulardatenbasis enthaltenen Wörter ist, wobei das Prozessormittel auf der Grundlage von in der Teilwortdatenbasis gespeicherten Phonemen eine erste Phonem-Zeichenkette erzeugt, um das erste Wort darzustellen, und bestimmt, welche etwaigen der in der Vokabulardatenbasis enthaltenen Phonem-Zeichenketten mit der ersten Phonem-Zeichenkette übereinstimmen. - System nach Anspruch 1, wobei das Prozessormittel die neue Phonem-Zeichenkette erzeugt, ohne den gleichzeitigen Eintrag des neuen Worts in gesprochener Form zu erfordern.
- Verfahren zur Erkennung gesprochener Worte mit den folgenden Schritten: Erzeugen einer Vokabulardatenbasis, die eine Vielzahl von Wörtern in alphanumerischer Form und eine entsprechende Phonem-Zeichenkette für jedes der Wörter enthält; Erzeugen einer Teilwortdatenbasis, die eine Vielzahl von Phonemen speichert, die Wortlaute darstellen; Empfangen eines neuen, nicht gesprochenen Worts in Wörterbuchform als eine Folge von Zeichen, wobei das neue Wort zuvor nicht in der Vokabulardatenbasis enthalten war; Festlegen, durch Verwendung eines Prozessormittels, einer neuen Phonem-Zeichenkette auf der Grundlage des neuen Worts und Speichern des neuen Worts und der neuen Phonem-Zeichenkette in der Vokabulardatenbasis, um so die Erkennung eines nachfolgenden gesprochenen Eintrags des neuen Worts auf der Grundlage des Erkennens des Vorliegens des neuen Worts in der Vokabulardatenbasis durch Vergleichen der ertsprechenden Phonem-Zeichenketten zu ermöglichen.
- Verfahren nach Anspruch 4, wobei die neue Phonem-Zeichenkette festgelegt wird, ohne den gleichzeitigen Eintrag des neuen Worts in gesprochener Form zu erfordern.
- Verfahren nach Anspruch 4, weiterhin mit der Bestimmung, ob ein erstes gesprochenes Wort, das als eine Eingabe empfangen wurde, eines der in der Vokabulardatenbasis enthaltenen Wörter ist, Erzeugung einer ersten Phonem-Zeichenkette auf der Grundlage von in der Teilwortdatenbasis gespeicherten Phonemen zur Darstellung des ersten Worts und Bestimmung, welche etwaigen der in der Vokabulardatenbasis enthaltenen Phonem-Zeichenketten mit der ersten Phonem-Zeichenkette übereinstimmen.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US86239492A | 1992-04-02 | 1992-04-02 | |
US862394 | 1992-04-02 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69327188D1 DE69327188D1 (de) | 2000-01-13 |
DE69327188T2 true DE69327188T2 (de) | 2004-09-02 |
Family
ID=25338399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69327188T Expired - Lifetime DE69327188T2 (de) | 1992-04-02 | 1993-03-25 | Einrichtung für automatische Spracherkennung |
Country Status (9)
Country | Link |
---|---|
US (1) | US5329608A (de) |
EP (1) | EP0564166B1 (de) |
JP (1) | JPH0612092A (de) |
KR (1) | KR930022267A (de) |
CA (1) | CA2088080C (de) |
DE (1) | DE69327188T2 (de) |
ES (1) | ES2142332T3 (de) |
FI (1) | FI931471A (de) |
HK (1) | HK1004497A1 (de) |
Families Citing this family (199)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1994020952A1 (en) * | 1993-03-12 | 1994-09-15 | Sri International | Method and apparatus for voice-interactive language instruction |
US8027809B2 (en) | 1992-11-17 | 2011-09-27 | Health Hero Network, Inc. | Home power management system |
US6968375B1 (en) | 1997-03-28 | 2005-11-22 | Health Hero Network, Inc. | Networked system for interactive communication and remote monitoring of individuals |
US6330426B2 (en) | 1994-05-23 | 2001-12-11 | Stephen J. Brown | System and method for remote education using a memory card |
US7613590B2 (en) | 1992-11-17 | 2009-11-03 | Health Hero Network, Inc. | Modular microprocessor-based power tool system |
US5832448A (en) | 1996-10-16 | 1998-11-03 | Health Hero Network | Multiple patient monitoring system for proactive health management |
US20030212579A1 (en) * | 2002-05-08 | 2003-11-13 | Brown Stephen J. | Remote health management system |
US7970620B2 (en) * | 1992-11-17 | 2011-06-28 | Health Hero Network, Inc. | Multi-user remote health monitoring system with biometrics support |
US8078407B1 (en) | 1997-03-28 | 2011-12-13 | Health Hero Network, Inc. | System and method for identifying disease-influencing genes |
US9215979B2 (en) | 1992-11-17 | 2015-12-22 | Robert Bosch Healthcare Systems, Inc. | Multi-user remote health monitoring system |
US8095340B2 (en) | 1992-11-17 | 2012-01-10 | Health Hero Network, Inc. | Home power management system |
US6196970B1 (en) | 1999-03-22 | 2001-03-06 | Stephen J. Brown | Research data collection and analysis |
US5951300A (en) | 1997-03-10 | 1999-09-14 | Health Hero Network | Online system and method for providing composite entertainment and health information |
US8078431B2 (en) | 1992-11-17 | 2011-12-13 | Health Hero Network, Inc. | Home power management system |
US5956501A (en) | 1997-01-10 | 1999-09-21 | Health Hero Network, Inc. | Disease simulation system and method |
AU1766201A (en) | 1992-11-17 | 2001-05-30 | Health Hero Network, Inc. | Method and system for improving adherence with a diet program or other medical regimen |
US20010011224A1 (en) | 1995-06-07 | 2001-08-02 | Stephen James Brown | Modular microprocessor-based health monitoring system |
US5307263A (en) | 1992-11-17 | 1994-04-26 | Raya Systems, Inc. | Modular microprocessor-based health monitoring system |
US8626521B2 (en) * | 1997-11-21 | 2014-01-07 | Robert Bosch Healthcare Systems, Inc. | Public health surveillance system |
US7624028B1 (en) | 1992-11-17 | 2009-11-24 | Health Hero Network, Inc. | Remote health monitoring and maintenance system |
US7631343B1 (en) | 1993-03-24 | 2009-12-08 | Endgate LLC | Down-line transcription system using automatic tracking and revenue collection |
US7249026B1 (en) * | 1993-03-24 | 2007-07-24 | Engate Llc | Attorney terminal having outline preparation capabilities for managing trial proceedings |
US5369704A (en) * | 1993-03-24 | 1994-11-29 | Engate Incorporated | Down-line transcription system for manipulating real-time testimony |
US5623578A (en) * | 1993-10-28 | 1997-04-22 | Lucent Technologies Inc. | Speech recognition system allows new vocabulary words to be added without requiring spoken samples of the words |
US5970454A (en) * | 1993-12-16 | 1999-10-19 | British Telecommunications Public Limited Company | Synthesizing speech by converting phonemes to digital waveforms |
US8015033B2 (en) | 1994-04-26 | 2011-09-06 | Health Hero Network, Inc. | Treatment regimen compliance and efficacy with feedback |
US5737723A (en) * | 1994-08-29 | 1998-04-07 | Lucent Technologies Inc. | Confusable word detection in speech recognition |
AU684214B2 (en) * | 1994-09-07 | 1997-12-04 | Motorola, Inc. | System for recognizing spoken sounds from continuous speech and method of using same |
US5594834A (en) * | 1994-09-30 | 1997-01-14 | Motorola, Inc. | Method and system for recognizing a boundary between sounds in continuous speech |
US5596679A (en) * | 1994-10-26 | 1997-01-21 | Motorola, Inc. | Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs |
US5638486A (en) * | 1994-10-26 | 1997-06-10 | Motorola, Inc. | Method and system for continuous speech recognition using voting techniques |
DE69514382T2 (de) * | 1994-11-01 | 2001-08-23 | British Telecommunications P.L.C., London | Spracherkennung |
US5680510A (en) * | 1995-01-26 | 1997-10-21 | Apple Computer, Inc. | System and method for generating and using context dependent sub-syllable models to recognize a tonal language |
US5724481A (en) * | 1995-03-30 | 1998-03-03 | Lucent Technologies Inc. | Method for automatic speech recognition of arbitrary spoken words |
US5822727A (en) * | 1995-03-30 | 1998-10-13 | At&T Corp | Method for automatic speech recognition in telephony |
US5675706A (en) * | 1995-03-31 | 1997-10-07 | Lucent Technologies Inc. | Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition |
JP3741156B2 (ja) * | 1995-04-07 | 2006-02-01 | ソニー株式会社 | 音声認識装置および音声認識方法並びに音声翻訳装置 |
US5745875A (en) * | 1995-04-14 | 1998-04-28 | Stenovations, Inc. | Stenographic translation system automatic speech recognition |
US5852801A (en) * | 1995-10-04 | 1998-12-22 | Apple Computer, Inc. | Method and apparatus for automatically invoking a new word module for unrecognized user input |
US5832439A (en) * | 1995-12-14 | 1998-11-03 | U S West, Inc. | Method and system for linguistic command processing in a video server network |
GB9601925D0 (en) * | 1996-01-31 | 1996-04-03 | British Telecomm | Database access |
US7305348B1 (en) | 1996-02-20 | 2007-12-04 | Health Hero Network, Inc. | Aggregating and pooling health related information in a communication system with feedback |
US6804645B1 (en) * | 1996-04-02 | 2004-10-12 | Siemens Aktiengesellschaft | Dynamic phoneme dictionary for speech recognition |
US5758024A (en) * | 1996-06-25 | 1998-05-26 | Microsoft Corporation | Method and system for encoding pronunciation prefix trees |
US5752230A (en) * | 1996-08-20 | 1998-05-12 | Ncr Corporation | Method and apparatus for identifying names with a speech recognition program |
US6018568A (en) * | 1996-09-25 | 2000-01-25 | At&T Corp. | Voice dialing system |
WO1998014934A1 (en) * | 1996-10-02 | 1998-04-09 | Sri International | Method and system for automatic text-independent grading of pronunciation for language instruction |
US5991712A (en) * | 1996-12-05 | 1999-11-23 | Sun Microsystems, Inc. | Method, apparatus, and product for automatic generation of lexical features for speech recognition systems |
US6151586A (en) * | 1996-12-23 | 2000-11-21 | Health Hero Network, Inc. | Computerized reward system for encouraging participation in a health management program |
US7584108B2 (en) | 1996-12-23 | 2009-09-01 | Health Hero Network, Inc. | Network media access control system for encouraging patient compliance with a treatment plan |
US6032119A (en) | 1997-01-16 | 2000-02-29 | Health Hero Network, Inc. | Personalized display of health information |
JP3373755B2 (ja) | 1997-04-09 | 2003-02-04 | 株式会社鷹山 | 複素型逆拡散処理装置 |
GB2341705B (en) * | 1997-06-26 | 2003-01-29 | Charles Schwab & Co Inc | System and method for automatically providing financial services to a user using speech signals |
US6006181A (en) * | 1997-09-12 | 1999-12-21 | Lucent Technologies Inc. | Method and apparatus for continuous speech recognition using a layered, self-adjusting decoder network |
US6404876B1 (en) | 1997-09-25 | 2002-06-11 | Gte Intelligent Network Services Incorporated | System and method for voice activated dialing and routing under open access network control |
US6108627A (en) * | 1997-10-31 | 2000-08-22 | Nortel Networks Corporation | Automatic transcription tool |
US5983177A (en) * | 1997-12-18 | 1999-11-09 | Nortel Networks Corporation | Method and apparatus for obtaining transcriptions from multiple training utterances |
US6243678B1 (en) * | 1998-04-07 | 2001-06-05 | Lucent Technologies Inc. | Method and system for dynamic speech recognition using free-phone scoring |
US6233553B1 (en) * | 1998-09-04 | 2001-05-15 | Matsushita Electric Industrial Co., Ltd. | Method and system for automatically determining phonetic transcriptions associated with spelled words |
US8005690B2 (en) | 1998-09-25 | 2011-08-23 | Health Hero Network, Inc. | Dynamic modeling and scoring risk assessment |
FR2786600B1 (fr) * | 1998-11-16 | 2001-04-20 | France Telecom | Procede de recherche par le contenu de documents textuels utilisant la reconnaissance vocale |
JP2002532763A (ja) * | 1998-12-17 | 2002-10-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声によって動作される自動問合せシステム |
EP1060471A1 (de) * | 1999-01-05 | 2000-12-20 | Koninklijke Philips Electronics N.V. | Spracherkennungseinrichtung mit einem subwortspeicher |
US20080201168A1 (en) * | 1999-05-03 | 2008-08-21 | Brown Stephen J | Treatment regimen compliance and efficacy with feedback |
US7797730B2 (en) * | 1999-06-24 | 2010-09-14 | Engate Llc | Downline transcription system using automatic tracking and revenue collection |
JP3476008B2 (ja) | 1999-09-10 | 2003-12-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声情報の登録方法、認識文字列の特定方法、音声認識装置、音声情報の登録のためのソフトウエア・プロダクトを格納した記憶媒体、及び認識文字列の特定のためのソフトウエア・プロダクトを格納した記憶媒体 |
US6442520B1 (en) | 1999-11-08 | 2002-08-27 | Agere Systems Guardian Corp. | Method and apparatus for continuous speech recognition using a layered, self-adjusting decoded network |
JP2001249684A (ja) * | 2000-03-02 | 2001-09-14 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7047196B2 (en) | 2000-06-08 | 2006-05-16 | Agiletv Corporation | System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery |
JP2002123283A (ja) * | 2000-10-12 | 2002-04-26 | Nissan Motor Co Ltd | 音声認識操作装置 |
US8095370B2 (en) | 2001-02-16 | 2012-01-10 | Agiletv Corporation | Dual compression voice recordation non-repudiation system |
US20030192688A1 (en) * | 2002-04-10 | 2003-10-16 | Thomson Michael A. | Tubing saver rotator and method for using same |
CA2530899C (en) | 2002-06-28 | 2013-06-25 | Conceptual Speech, Llc | Multi-phoneme streamer and knowledge representation speech recognition system and method |
DE10253786B4 (de) * | 2002-11-19 | 2009-08-06 | Anwaltssozietät BOEHMERT & BOEHMERT GbR (vertretungsberechtigter Gesellschafter: Dr. Carl-Richard Haarmann, 28209 Bremen) | Verfahren zur rechnergestützten Ermittlung einer Ähnlichkeit eines elektronisch erfassten ersten Kennzeichens zu mindestens einem elektronisch erfassten zweiten Kennzeichen sowie Vorrichtung und Computerprogramm zur Durchführung desselben |
US7260480B1 (en) | 2003-04-07 | 2007-08-21 | Health Hero Network, Inc. | Method and system for integrating feedback loops in medical knowledge development and healthcare management |
US7399276B1 (en) | 2003-05-08 | 2008-07-15 | Health Hero Network, Inc. | Remote health monitoring system |
US8954325B1 (en) * | 2004-03-22 | 2015-02-10 | Rockstar Consortium Us Lp | Speech recognition in automated information services systems |
US7831549B2 (en) * | 2004-09-17 | 2010-11-09 | Nokia Corporation | Optimization of text-based training set selection for language processing modules |
KR100679042B1 (ko) * | 2004-10-27 | 2007-02-06 | 삼성전자주식회사 | 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7925677B2 (en) * | 2006-03-16 | 2011-04-12 | Tele Atlas North America, Inc. | Geographic feature name reduction using phonetic algorithms |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8744856B1 (en) | 2011-02-22 | 2014-06-03 | Carnegie Speech Company | Computer implemented system and method and computer program product for evaluating pronunciation of phonemes in a language |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
GB2513821A (en) * | 2011-06-28 | 2014-11-12 | Andrew Levine | Speech-to-text conversion |
US8781825B2 (en) * | 2011-08-24 | 2014-07-15 | Sensory, Incorporated | Reducing false positives in speech recognition systems |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
AU2014214676A1 (en) | 2013-02-07 | 2015-08-27 | Apple Inc. | Voice trigger for a digital assistant |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US8768712B1 (en) * | 2013-12-04 | 2014-07-01 | Google Inc. | Initiating actions based on partial hotwords |
US9953632B2 (en) * | 2014-04-17 | 2018-04-24 | Qualcomm Incorporated | Keyword model generation for detecting user-defined keyword |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
KR102075796B1 (ko) * | 2017-11-14 | 2020-03-02 | 주식회사 엘솔루 | 자동 음성인식 장치 및 방법 |
CN119339712A (zh) | 2018-08-27 | 2025-01-21 | 谷歌有限责任公司 | 故事读者阅读中断的算法确定 |
CN112955861A (zh) | 2018-09-04 | 2021-06-11 | 谷歌有限责任公司 | 用于预缓存特殊效果的故事阅读器进度的检测 |
CN112805779A (zh) * | 2018-09-04 | 2021-05-14 | 谷歌有限责任公司 | 基于语音模糊匹配和置信区间的阅读进度估计 |
US11328712B2 (en) * | 2019-08-02 | 2022-05-10 | International Business Machines Corporation | Domain specific correction of output from automatic speech recognition |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4277644A (en) * | 1979-07-16 | 1981-07-07 | Bell Telephone Laboratories, Incorporated | Syntactic continuous speech recognizer |
USRE32012E (en) * | 1980-06-09 | 1985-10-22 | At&T Bell Laboratories | Spoken word controlled automatic dialer |
USRE33597E (en) * | 1982-10-15 | 1991-05-28 | Hidden Markov model speech recognition arrangement | |
GB8412424D0 (en) * | 1983-10-26 | 1984-06-20 | Marconi Co Ltd | Speech responsive apparatus |
US4980918A (en) * | 1985-05-09 | 1990-12-25 | International Business Machines Corporation | Speech recognition system with efficient storage and rapid assembly of phonological graphs |
US4748670A (en) * | 1985-05-29 | 1988-05-31 | International Business Machines Corporation | Apparatus and method for determining a likely word sequence from labels generated by an acoustic processor |
US4757541A (en) * | 1985-11-05 | 1988-07-12 | Research Triangle Institute | Audio visual speech recognition |
US4882759A (en) * | 1986-04-18 | 1989-11-21 | International Business Machines Corporation | Synthesizing word baseforms used in speech recognition |
JP2815579B2 (ja) * | 1987-03-10 | 1998-10-27 | 富士通株式会社 | 音声認識における単語候補削減装置 |
US5072452A (en) * | 1987-10-30 | 1991-12-10 | International Business Machines Corporation | Automatic determination of labels and Markov word models in a speech recognition system |
JP2955297B2 (ja) * | 1988-05-27 | 1999-10-04 | 株式会社東芝 | 音声認識システム |
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
US5033087A (en) * | 1989-03-14 | 1991-07-16 | International Business Machines Corp. | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system |
DE4022511A1 (de) * | 1990-07-14 | 1992-01-16 | Grundig Emv | Sprachgesteuertes geraet der unterhaltungselektronik insbesondere videorecorder |
-
1993
- 1993-01-26 CA CA002088080A patent/CA2088080C/en not_active Expired - Fee Related
- 1993-03-25 DE DE69327188T patent/DE69327188T2/de not_active Expired - Lifetime
- 1993-03-25 ES ES93302286T patent/ES2142332T3/es not_active Expired - Lifetime
- 1993-03-25 EP EP93302286A patent/EP0564166B1/de not_active Expired - Lifetime
- 1993-03-26 KR KR1019921004783A patent/KR930022267A/ko unknown
- 1993-04-01 FI FI931471A patent/FI931471A/fi unknown
- 1993-04-02 JP JP5098442A patent/JPH0612092A/ja active Pending
- 1993-08-18 US US08/108,839 patent/US5329608A/en not_active Expired - Lifetime
-
1998
- 1998-05-05 HK HK98103837A patent/HK1004497A1/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
FI931471A (fi) | 1993-10-03 |
US5329608A (en) | 1994-07-12 |
EP0564166A2 (de) | 1993-10-06 |
KR930022267A (ko) | 1993-11-23 |
DE69327188D1 (de) | 2000-01-13 |
EP0564166B1 (de) | 1999-12-08 |
JPH0612092A (ja) | 1994-01-21 |
CA2088080C (en) | 1997-10-07 |
CA2088080A1 (en) | 1993-10-03 |
EP0564166A3 (en) | 1995-03-29 |
HK1004497A1 (en) | 1998-11-27 |
ES2142332T3 (es) | 2000-04-16 |
FI931471A0 (fi) | 1993-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69327188T2 (de) | Einrichtung für automatische Spracherkennung | |
DE60215272T2 (de) | Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen | |
DE60004862T2 (de) | Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem | |
DE10040214B4 (de) | Verfahren und System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem | |
DE60203705T2 (de) | Umschreibung und anzeige eines eingegebenen sprachsignals | |
DE60009583T2 (de) | Sprecheradaptation auf der Basis von Stimm-Eigenvektoren | |
DE102017124264B4 (de) | Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen | |
DE69622439T2 (de) | Verfahren und vorrichtung zur ermittlung von kombinierten informationen aus sprachsignalen für adaptive interaktion in unterricht und prüfung | |
DE69704781T2 (de) | Trainingsverfahren und-gerät | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
DE69330427T2 (de) | Spracherkennungssystem für sprachen mit zusammengesetzten wörtern | |
DE60201262T2 (de) | Hierarchische sprachmodelle | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
EP0797185B1 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE69834553T2 (de) | Erweiterbares spracherkennungssystem mit einer audio-rückkopplung | |
DE69725091T2 (de) | Verfahren und System zum Editieren von Sätzen während der kontinuierlichen Spracherkennung | |
EP0925578B1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
DE376501T1 (de) | Spracherkennungssystem. | |
DE102018113034A1 (de) | Stimmenerkennungssystem und stimmenerkennungsverfahren zum analysieren eines befehls, welcher mehrere absichten hat | |
EP0994461A2 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
DE69937854T2 (de) | Verfahren und Vorrichtung zur Spracherkennung unter Verwendung von phonetischen Transkriptionen | |
DE60128372T2 (de) | Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem | |
DE102014107028A1 (de) | Verbesserte biometrische Passwortsicherheit | |
EP1282897B1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |