DE102005030965B4 - Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments - Google Patents
Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments Download PDFInfo
- Publication number
- DE102005030965B4 DE102005030965B4 DE102005030965A DE102005030965A DE102005030965B4 DE 102005030965 B4 DE102005030965 B4 DE 102005030965B4 DE 102005030965 A DE102005030965 A DE 102005030965A DE 102005030965 A DE102005030965 A DE 102005030965A DE 102005030965 B4 DE102005030965 B4 DE 102005030965B4
- Authority
- DE
- Germany
- Prior art keywords
- vocabulary
- recognizer
- speech
- new
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims abstract description 28
- 230000003993 interaction Effects 0.000 claims abstract description 6
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000001303 quality assessment method Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 description 3
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
- Navigation (AREA)
Abstract
Verfahren
zur Interaktion mit einem Spracherkennungssystem, bei welchem das
Spracherkennungssystem durch Interaktion mit einem Systemnutzer
in einen Erweiterungs-Modus geschaltet wird,
wobei in diesem Modus die dem Spracherkennungssystem zugeordnete Liste von Voiceenrollments (Erkennervokabular) um weitere Sprachmuster (Voiceenrollments) ergänzt werden kann,
bei welchem nachfolgend dem System durch den Nutzer ein Sprachmuster zugeführt wird, welches mittels eines Erkenners verarbeitet wird,
bei welchem das vom Erkenner verarbeitete Sprachmuster als neues Voiceenrollment gewertet und hierum das Erkennervokabular erweitert wird,
bei welchem das dem System durch den Nutzer zugeführte Sprachmuster zwischengespeichert wird,
das Sprachmuster in einer Vergleichseinheit 9 mit den Einträgen des Erkennervokabulars 5 auf bestehende Ähnlichkeiten verglichen wird,
und dann wenn das neue Sprachmuster keine zu große Ähnlichkeit zu den Einträgen des Erkennervokabulars 5 aufweist, dieses als neues Voiceenrollment 6 gewertet und zumindest vorläufig das Erkennervokabular 5 hiermit erweitert wird,
wobei nach dieser zumindest vorläufigen Erweiterung ein...
wobei in diesem Modus die dem Spracherkennungssystem zugeordnete Liste von Voiceenrollments (Erkennervokabular) um weitere Sprachmuster (Voiceenrollments) ergänzt werden kann,
bei welchem nachfolgend dem System durch den Nutzer ein Sprachmuster zugeführt wird, welches mittels eines Erkenners verarbeitet wird,
bei welchem das vom Erkenner verarbeitete Sprachmuster als neues Voiceenrollment gewertet und hierum das Erkennervokabular erweitert wird,
bei welchem das dem System durch den Nutzer zugeführte Sprachmuster zwischengespeichert wird,
das Sprachmuster in einer Vergleichseinheit 9 mit den Einträgen des Erkennervokabulars 5 auf bestehende Ähnlichkeiten verglichen wird,
und dann wenn das neue Sprachmuster keine zu große Ähnlichkeit zu den Einträgen des Erkennervokabulars 5 aufweist, dieses als neues Voiceenrollment 6 gewertet und zumindest vorläufig das Erkennervokabular 5 hiermit erweitert wird,
wobei nach dieser zumindest vorläufigen Erweiterung ein...
Description
- Die Erfindung betrifft ein Verfahren und eine zur Durchführung des Verfahrens geeignete Vorrichtung zur Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments nach den Oberbegriffen der Patentansprüche 1 und 7.
- Spracherkennungssysteme umfassen einen Eingangskanal, im Allgemeinen ein Mikrofon, um Sprachsignale aufzunehmen. Diese Sprachsignale werden in Folge so aufbereitet, dass sie einem Spracherkenner zur Erkennung von Einzelwörtern oder Wortfolgen zugeleitet werden können. Das Erkennungsergebnis besteht dabei in einer Zuordnung der im Sprachsignal enthaltenen Einzelwörter oder Wortfolgen zu Einträgen in einer dem Spracherkennungssystem zugeordneten Wortliste. Häufig umfasst diese Wortliste zum einen eine Gruppe von Systemkommandos, mittels welchen das Spracherkennungssystem, insbesondere zur Auslösung von Aktionen, gesteuert werden kann (z.B.: „Starte Navigation" oder „Fahre nach"), und zum anderen, eine Gruppe von Worten (Vokabular), auf welche meist eventuelle Aktionen ausgeübt werden, bzw. welche bestimmte Aktionen näher definieren (z.B.: „Hamburg" → Dieser Vokabulareintrag kann beispielsweise mittels eines Systemkommandos als Navigationsziel ausgewählt werden: ,Fahre nach Hamburg').
- Aus der
US 5,231,670 A1 ist ein Spracherkennungssystem bekannt, bei welchem ein Sprachsignal in Systemkommandos und Textelemente aufgeteilt wird. Hierbei beschreibt ein Systemkommando eine durch das System auszuführende Aktion und das innerhalb des Sprachsignals meist nachfolgende Textelement entspricht dem Text auf den diese Aktion angewandt werden soll. Dazu wird vorgeschlagen, die in den Kommando- und Textelementen enthaltene Information zu trennen und unabhängig voneinander einem Erkenner zu zuleiten und abzuarbeiten. Auf diese Weise fällt es dem Spracherkenner leichter, die in den Sprachsignalen enthaltene Systemkommandos bzw. Textelemente eindeutiger Elementen der jeweiligen Wortlisten zuzuordnen. Auf welcher Grundlage jedoch die Kommando- und Textelemente in dem Sprachsignal vor dessen Aufspaltung identifiziert werden sollen, wird dabei offen gelassen. - Ein Verfahren zur Identifikation von Kommando- und Textelementen in Sprachsignalen beschreibt das europäische Patent
EP 0 785 540 B1 . Zur Unterscheidung wird vorgeschlagen, die Einzelelemente des Sprachsignals auf das Vorliegen einer für Kommandoelemente oder aber Textelemente typischen Struktur hin zu untersuchen. Speziell wird dabei vorgeschlagen, auf die Dauer von Sprechpausen vor oder nach den einzelnen Elementen zu achten, wobei davon ausgegangen wird, dann auf das Vorliegen eines Kommandoelementes zu schließen, wenn vor und/oder nach dem Element eine signifikante Sprechpause zu verzeichnen ist. - Insbesondere bei der Hinzufügung von Voiceenrollments (Sprachmuster, die ein Benutzer selbst zu einem Vokabular des Spracherkennungssystems hinzufügen kann) zu umfangreichen Wortlisten (dynamisches Vokabular) treten häufig Probleme auf. So insbesondere dann, wenn die neu dem dynamischen Voka bular hinzuzufügenden Voiceenrollments zu ähnlich zu bereits in dem vorgegebenen Vokabular enthaltenen Wortelementen sind. Dies führt dazu, dass folglich im Rahmen einer Spracherkennung das bereits ursprünglich im dynamischen Vokabular enthaltene Wortelement bevorzugt erkannt wird, ohne dass dies dem Systemnutzer transparent oder verständlich ist. Auch findet sich bei vielen Gestaltungen von Spracherkennungssystemen der Systemnutzer bei der Eingabe neuer Voiceenrollments in einer dialogischen Sackgasse; denn ist der Systemnutzer einmal in denjenigen Dialogzustand geraten, in welchem er das System mit einem neuen Voiceenrollment trainieren soll, so wird alles, was er in diesem Zustand spricht, als zu trainierendes Voiceenrollment angesehen. Ist der Systemnutzer jedoch durch eine Fehlbedienung in diesen Dialogzustand geraten, so kann er sich normalerweise nicht mehr mittels Spracheingabe aus diesem Zustand befreien, da jedes hierzu verwandte Systemkommando als gewünschte Eingabe eines entsprechenden neuen Voiceenrollments gewertet wird.
- Ein System zur Erweiterung eines Erkennervokabulars zur Spracherkennung wird in der Patentschrift
US 6192337 beschrieben. Hierbei wird zur Erweiterung des Erkennervokabulars direkt eine gesprochene Eingabe genutzt. In diesem Fall liegt sodann das hinzuzufügende Wort nicht als Text, sondern zunächst nur als Sprachsignal vor. Das neu durch Spracheingabe hinzugefügte Wort wird dabei als so genanntes Sprachmuster gespeichert. Das Erkennungssystem wird dann bei zukünftigen Spracheingaben versuchen, ähnliche Sprachsignale zu erkennen und bei erfolgreicher Identifikation ihnen die entsprechenden Wörter zuzuordnen, was einer Erweiterung des Vokabulars um dieses Wort gleich kommt. Diese Erweiterungen des Vokabulars werden als Voiceenrollments bezeichnet und sind, da sie von der Qualität der ursprünglichen Spracheingabe abhängen, häufig sprecherabhängig. - Um ein Erkennervokabular um sprecherunabhängige Voiceenrollments zu ergänzen, wird in der deutschen Offenlegungsschrift
DE 10359624 A1 vorgeschlagen, aus den Spracheingaben phonetische Transkriptionen des Gesagten zu extrahieren. Diese Transkriptionen geben auf lexikalischer Ebene und eben nicht auf Signal- oder Merkmalsebene an, wie die zu erlernenden Worte ausgesprochen wurden. Damit werden die üblichen akustischen Unterschiede sprachlicher Eingaben, wie Stimmhöhe oder Sprechgeschwindigkeit, nicht für die weitere Erkennung übernommen. - Aufgabe der Erfindung ist es, ein neuartiges Verfahren und eine zur Durchführung des Verfahrens geeignete Vorrichtung für ein Spracherkennungssystem zu finden, mittels welchem bei der Eingabe von Voiceenrollments zu dynamischen Vokabularen eindeutig zwischen einem neu hinzuzufügenden Voiceenrollment und einem Systemkommando unterschieden werden kann.
- Die Aufgabe wird durch ein Verfahren und eine Vorrichtung zur Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments mit den Merkmalen der Patentansprüche 1 oder 7 gelöst. Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung werden durch die Unteransprüche beschrieben.
- Das System zur Interaktion mit einem Spracherkennungssystem ist so gestaltet, dass das Spracherkennungssystem durch Interaktion mit einem Systemnutzer in einen Erweiterungs-Modus geschaltet wird, wobei in diesem Modus die dem Spracherkennungssystem zugeordnete Liste von Voiceenrollments (Erkennervokabular) um weitere Sprachmuster (Voiceenrollments) ergänzt werden kann. Befindet sich das System in diesem Erweiterungs-Modus, kann durch den Systemnutzer ein Sprachmuster zugeführt werden, welches sodann mittels eines Erkenners verarbeitet wird. Hierbei wird das von dem Erkenner erkannte Sprachmuster als neues Voiceenrollment dem Erkennervokabular zugeordnet. In erfinderischer Weise wird dabei das durch den Systemnutzer zugeführte Sprachmuster in einem Speicher zwischengespeichert. Es erfolgt sodann eine Überprüfung dahingehend, ob das neue Sprachmuster Ähnlichkeiten mit bereits im Erkennervokabular enthaltenen Voiceenrollments aufweist. Wird hierbei eine große Ähnlichkeit zwischen dem Sprachmuster und bereits im Erkennervokabular vorhandenen Einträgen (Voiceenrollments) festgestellt, so ist es wenig sinnvoll dieses Sprachsignal als neues Voiceenrollment in das Erkennervokabular aufzunehmen, da dies bei einer späteren Spracherkennung häufig zu Erkennungsfehlern führen würde. In diesem Fall, wird von einer Aufnahme des Sprachsignals in das Erkennervokabular abgesehen. Dann aber wenn keine zu große Ähnlichkeit zu den Einträgen des Erkennervokabulars besteht, wird das Sprachmuster als neues Voiceenrollment gewertet und das Erkennervokabular wird zumindest vorläufig um dieses neue Voiceenrollment erweitert. Nach dieser zumindest vorläufigen Erweiterung wird ein temporäres Vokabular gebildet, welches zum einen aus den Systemkommandos und zum anderen entweder aus dem neuen Voiceenrollment oder aus dem erweiterten Erkennervokabular gebildet wird. Nachfolgend wird dem Erkenner das zwischengespeicherte Sprachmuster für einen wiederholten Er kennungsvorgang zugeleitet. Dabei erfolgt dieser wiederholte Erkennungsvorgang auf Basis des temporären Vokabulars. Auf Grundlage des Ergebnisses des neuerlichen Erkennungsvorganges wird beurteilt, inwieweit das Sprachmuster als Systemkommando oder als neues Voiceenrollment bzw. Element des vorläufig erweiterten Erkennervokabulars erkannt wurde. In dem Fall, dass das Sprachmuster mit höherer Wahrscheinlichkeit als Element der Systemkommandos denn als Element des dynamischen Vokabulars bzw. als neues Voiceenrollment erkannt wurde, wird es in Folge durch das Spracherkennungssystem entsprechend als Systemkommando interpretiert und folglich wird das neue Voiceenrollment wieder aus dem erweiterten Erkennervokabular entfernt.
- Die Erfindung besteht folglich darin, dass man in einem ersten Schritt überprüft, ob das durch einen Nutzer dem Spracherkennungssystem zugeführte Sprachsignal eine hohe Ähnlichkeit mit Elementen von bereits dem System zugeordneten Voiceenrollments (Erkennervokabular) aufweist. Ist diese Ähnlichkeit zu groß, ist es nicht sinnvoll das Sprachmuster als neues Voiceenrollment in das Erkennervokabular aufzunehmen, da hierdurch die Qualität der Erkennungsergebnisse negativ beeinflusst würde. Besteht aber eine ausreichende Unähnlichkeit zwischen dem Sprachsignal und den Elementen des Erkennervokabulars, könnte die Aufnahme des Sprachsignals als neues Voiceenrollment in das Erkennervokabular Sinn machen. Es sei denn, dass es sich bei dem Sprachsignal um gar kein neues Voiceenrollment sondern um ein Systemkommando handelt, so dass eine Erweiterung des Erkennervokabulars durch den Nutzer gar nicht beabsichtigt ist. Um dies zu überprüfen wird nach einer vorläufigen Erweiterung des Erkennervokabulars um das potentiell neue Voiceenrollment ein Erkennungsvorgang auf Grundlage des zuvor zwischengespeicherten Sprachsignals gestartet. Das Sprachsignal wird bei diesem Erkennungsvorgang auf Grundlage eines temporären Vokabulars untersucht, welches zum einen durch die Kombination der Systemkommandos und dem neuen potentiellen Voiceenrollment bzw. alternativ dem hierdurch erweiterten Erkennervokabular gebildet wird.
- Wird bei dem Lauf des Erkenners das Sprachmuster mit höherer Wahrscheinlichkeit als das neue Voiceenrollment bzw. als ein Element des dynamischen Vokabulars, denn als Element der Systemkommandos erkannt, kann nun die bisher vorläufige Zuordnung des Voiceenrollments zu dem Erkennervokabular zu einer endgültigen Zuordnung gewandelt werden. In einer alternativen vorteilhaften Ausgestaltung der Erfindung ist es jedoch auch denkbar, vor dieser endgültigen Zuordnung des neuen Voiceenrollments zu dem Erkennervokabular zu prüfen, ob es sich bei dem erkannten Element auch tatsächlich um das vorläufig neu dem Erkennervokabular zugeordnete Voiceenrollment handelt. Nur in diesem Fall soll dann eine endgültige Zuordnung erfolgen. Auf diese besondere Weise eignet sich die Erfindung nun auch zur erweiterten bzw. wiederholten Überprüfung dahingehend, ob ein neu in das Erkennervokabular aufzunehmendes Voiceenrollment ähnlich zu einem bereits in dem dynamischen Erkennervokabular enthaltenen Eintrag ist.
- In vorteilhafter Weise ermöglicht die Erfindung sowohl die Erkennung von Systemkommandos während des Trainings von Voiceenrollments als auch die Erkennung von Systemkommandos im Zusammenspiel mit sehr großem dynamischem Vokabular (Erkennervokabular) im Allgemeinen. Ein entscheidender Vorteil besteht darin, dass durch die Erfindung die Interaktion zwischen Spracherkennungssystem und dessen Nutzer intuitiver erfolgen kann. Es wird gewährleistet, dass der Nutzer den Dialog aus jedem der möglichen Dialogzustände mit rein sprachlichen Mitteln verlassen kann. Darüber hinaus wird es dem Nutzer auch ermöglicht in jedem dieser Dialogzustände Worte, insbesondere Systemkommandos, zu verwenden, welcher er bereits aus anderen Stellen des Spracherkennungssystems kennt.
- Nachfolgend wird die Erfindung mit Hilfe einer Figur detailliert erläutert. Im Allgemeinen wird dem Spracherkennungssystem das Sprachsignal über ein Mikrofon
1 zugeführt; selbstverständlich wäre gleichsam auch eine elektronische Übertragung des Sprachsignals mittels einer geeigneten elektronisch oder software-technisch realisierten Schnittstelle denkbar. Es ist nun in vorteilhafter Weise denkbar, das so in das System gelangende Sprachsignal falls erforderlich mittels eines OOV-Modells2 zu segmentieren. Ein hierfür geeignetes Verfahren wird beispielsweise von T. Schaaf beschrieben (Schaaf, T. (2001). Detection of OOV Words Using Generalized Word Models and a Semantic Class Language Model", EuroSpeech, Aalborg). Ein OOV-Modell wird vom Spracherkennungssystem ähnlich wie ein einzelnes Wort auf Sprachsignale angewandt, mit dem Unterschied, dass es nicht spezifisch auf nur ein einzelnes vordefiniertes Wort ansprechen soll. Damit ist es möglich, eine Vielzahl von gesprochenen Wörtern auf eine einzelnes Sprachsignal hin abzubilden. Die Erkennung eines OOV-Wortes in einer längeren Sprachäußerung ermöglicht die Bestimmung der Zeitgrenzen, wonach in den meisten Fällen dieses OOV-Wort extrahiert und im Sinne eines Einzelwortes im weiteren Verlauf des Spracherkennungsprozesses verwendet werden kann. - Das dem Spracherkennungssystem zugeführte Sprachsignal, bzw. das mittels des OOV-Modells
2 extrahierte OOV-Wort wird zum einen in einem Speicher3 zwischengespeichert und zum anderen einer Vergleichseinheit4 zugeführt. Mittels dieser Vergleichseinheit4 wird das zugeführte Sprachsignal da hingehend untersucht, ob es große Ähnlichkeiten zu bereits dem Spracherkenner zugeordneten Voiceenrollments (Erkennervokabular)5 aufweist. Liegt keine zu große Ähnlichkeit vor, so wird das Sprachsignal als potentiell neues Voiceenrollment6 gewertet und weiterverarbeitet. Im Rahmen dieser Weiterverarbeitung wird unter anderem das bisherige Erkennervokabular5 zumindest vorläufig um das Voiceenrollment6 zu einem neuen Erkennervokabular7 erweitert. Um nun zu untersuchen, ob es sich bei dem potentiell neuen Voiceenrollment6 tatsächlich um eine Voiceenrollment oder ob das Sprachsignal einem Systemkommando zuzuordnen ist, wird für einen nachfolgenden Lauf des Erkenners ein temporäres Vokabular gebildet. Dieses temporäre Erkennervokabular setzt sich aus den Systemkommandos8 und alternativ entweder aus dem neuen Voiceenrollment6 (wie in der Figur gezeigt) oder alternativ dem erweiterten Erkennervokabular7 zusammen. Dem Erkenner9 wird nun das im Speicher3 zwischengespeichert Sprachsignal zugeführt, so dass er auf Basis des temporären Vokabulars ein Erkennungsergebnis10 liefern kann. Selbstverständlich kann der Erkenner9 so gestaltet werden, dass er als Ergebnis10 auch mehrere Einträge des temporären Vokabulars liefert. Hierzu ist es in vorteilhafter Weise denkbar den Erkenner so zu gestalten, dass er um eine bessere Qualitätsbeurteilung zu ermöglichen den einzelnen Erkennungsergebnissen Erkennungswahrscheinlichkeiten, insbesondere Konfidenzmaße, zuordnet. Mit Hilfe dieser Wahrscheinlichkeiten kann dann über geeignete, aus dem Stand der Technik bekannte Verfahren eine Bewertung und gezielte Auswahl von Erkennungsergebnissen erfolgen. Auf Grundlage des Ergebnisses10 des neuerlichen Erkennungsvorganges wird sodann beurteilt, inwieweit das Sprachmuster als Element der Systemkommandos8 oder als das neue Voiceenrollment6 bzw. als Element des erweiterten Erkennervokabulars7 erkannt wurde. Ausgehend von dieser Beurteilung wird das Spracherkennungssystem das Sprachmuster dann, wenn dieses mit höherer Wahrscheinlichkeit als Element der Systemkommandos8 denn als neues Voiceenrollment6 bzw. Element des Erkennervokabulars7 wurde, entsprechend als Systemkommando interpretieren. Ebenso wird es in diesem Fall das Voiceenrollment6 aus dem Erkennervokabular des Systems wieder entfernen. - Besonders gewinnbringend ist es für die intuitive Interaktion des Nutzers mit dem Spracherkennungssystem, wenn dieses den Nutzer darüber informiert, dass es gegebenenfalls ein vorläufig dem Erkennervokabular
5 zugeordnete Voiceenrollment6 aus diesem Vokabular wieder entfernt. Es bietet sich an, diese Informationsstrategie insbesondere dann zu implementieren, wenn die Entfernung aus dem Erkennervokabular aus Gründen zu starker Ähnlichkeit zu bereits in diesem enthaltenen Einträgen erfolgt.
Claims (7)
- Verfahren zur Interaktion mit einem Spracherkennungssystem, bei welchem das Spracherkennungssystem durch Interaktion mit einem Systemnutzer in einen Erweiterungs-Modus geschaltet wird, wobei in diesem Modus die dem Spracherkennungssystem zugeordnete Liste von Voiceenrollments (Erkennervokabular) um weitere Sprachmuster (Voiceenrollments) ergänzt werden kann, bei welchem nachfolgend dem System durch den Nutzer ein Sprachmuster zugeführt wird, welches mittels eines Erkenners verarbeitet wird, bei welchem das vom Erkenner verarbeitete Sprachmuster als neues Voiceenrollment gewertet und hierum das Erkennervokabular erweitert wird, bei welchem das dem System durch den Nutzer zugeführte Sprachmuster zwischengespeichert wird, das Sprachmuster in einer Vergleichseinheit
9 mit den Einträgen des Erkennervokabulars5 auf bestehende Ähnlichkeiten verglichen wird, und dann wenn das neue Sprachmuster keine zu große Ähnlichkeit zu den Einträgen des Erkennervokabulars5 aufweist, dieses als neues Voiceenrollment6 gewertet und zumindest vorläufig das Erkennervokabular5 hiermit erweitert wird, wobei nach dieser zumindest vorläufigen Erweiterung ein temporäres Vokabular gebildet wird, welches zum einen aus den Systemkommandos8 und zum anderen entweder aus dem neuen Voiceenrollment6 oder aus dem vorläufig erweiterten Erkennervokabular7 gebildet wird, und wobei nachfolgend dem Erkenner9 das zwischengespeicherte Sprachmuster für einen wiederholten Erkennungsvorgang zugeleitet wird, wobei dieser wiederholte Erkennungsvorgang auf Basis des temporären Vokabulars erfolgt, wobei auf Grundlage des Ergebnisses10 des neuerlichen Erkennungsvorganges beurteilt wird, inwieweit das Sprachmuster als Systemkommando8 oder als neues Voiceenrollment6 bzw. Element des vorläufig erweiterten Erkennervokabulars7 erkannt wurde, und wobei in dem Fall, dass das Sprachmuster mit höherer Wahrscheinlichkeit als Element der Systemkommandos8 denn als Element des erweiterten Erkennervokabulars7 bzw. des neuen Voiceenrollments6 erkannt wurde, es in Folge durch das Spracherkennungssystem entsprechend als Systemkommando interpretiert wird und es aus dem erweiterten Erkennervokabular7 wieder entfernt wird. - Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass dann wenn das Sprachmuster mit höherer Wahrscheinlichkeit als neues Voiceenrollment
6 bzw. als Element des vorläufig erweiterten Erkennervokabulars7 erkannt wird, es dem Erkennervokabular5 endgültig zugeordnet wird. - Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass dann wenn das Sprachmuster mit höherer Wahrscheinlichkeit als Element des vorläufig erweiterten Erkennervokabulars
7 erkannt wird, es dem Erkennervokabular5 nur dann endgültig zugeordnet wird, wenn es sich bei diesem Element um das vorläufig neu dem Erkennervokabular7 zugeordnete Voiceenrollment6 handelt. - Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Erkenner
9 zur Qualitätsbeurteilung Wahrscheinlichkeiten, insbesondere Konfidenzmaße, hinsichtlich seiner Erkennungsergebnisse bereitstellt. - Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass dem Spracherkennungssystem das Sprachmuster durch Einsprechen in ein Mikrophon
1 zugeführt wird. - Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Systemnutzer darüber informiert wird, wenn das dem Spracherkennungssystem zugeführte Sprachmuster nicht dauerhaft dessen Vokabular zugeordnet wird.
- Vorrichtung zur Interaktion mit einem Spracherkennungssystem, welche so ausgestaltet ist, dass das Spracherkennungssystem einen Erweiterungs-Modus umfasst, welcher durch Interaktion mit einem Systemnutzer aktiviert wird, wobei in diesem Modus das dem Spracherkennungssystem zugeordnete Liste von Voiceenrollments (Erkennervokabular) um weitere Sprachmuster (Voiceenrollments) ergänzt werden kann, wobei hierbei über ein Mikrofon
1 dem System durch den Nutzer ein Sprachmuster zugeführt wird, welches mittels eines Erkenners9 verarbeitet wird, und bei welchem das vom Erkenner9 erkannte Sprachmuster als neues Voiceenrollment dem bisherigen dynamischen Vokabular des Spracherkennungssystem5 zugeordnet wird, wobei das System über einen Speicher3 verfügt, in welchem das durch den Nutzer zugeführte Sprachmuster zwischengespeichert wird, wobei die Vorrichtung einen Vergleichseinheit4 umfasst, mittels welchem das zugeführte Sprachmuster mit den Voiceenrollments des Erkennervokabulars5 verglichen wird, wobei dann wenn keine zu große Ähnlichkeit zu den Einträgen des Erkennervokabulars5 besteht, dieses als neues Voiceenrollment vorläufig dem Erkennervokabular5 zugeordnet wird, so dass ein erweitertes Vokabular7 entsteht, wobei die Vorrichtung ein temporäres Vokabular umfasst, welches zum einen durch die Systemkommandos8 und zum anderen durch das vorläufig erweiterte Erkennervokabular7 oder das neue Voiceenrollment6 gebildet wird, wobei ein Erkenner9 vorgesehen ist, der auf Basis dieses temporären Vokabulars arbeitet, und dem das im Speicher3 zwischengespeicherte Sprachmuster für einen wiederholten Erkennungsvorgang zugeleitet wird, und wobei ein Auswerteeinheit10 vorhanden ist, welche auf Grundlage des Ergebnisses des neuerlichen Erkennungsvorganges beurteilt, inwieweit das Sprachmuster als Systemkommando8 oder als Element des vorläufig erweiterten dynamischen Vokabulars7 bzw. als neues Voiceenrollment6 erkannt wurde, und welche dann, wenn das Sprachmuster mit höherer Wahrscheinlichkeit als Element der Systemkommandos8 denn als Element des dynamischen Vokabulars7 bzw. des neuen Voiceenrollments6 erkannt wurde, es in Folge durch das Spracherkennungssystem entsprechend als Systemkommando interpretiert und es aus dem erweiterten Erkennervokabular wieder entfernt.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102005030965A DE102005030965B4 (de) | 2005-06-30 | 2005-06-30 | Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments |
US11/478,928 US20070005360A1 (en) | 2005-06-30 | 2006-06-30 | Expanding the dynamic vocabulary of a speech recognition system by further voice enrollments |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102005030965A DE102005030965B4 (de) | 2005-06-30 | 2005-06-30 | Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments |
Publications (2)
Publication Number | Publication Date |
---|---|
DE102005030965A1 DE102005030965A1 (de) | 2007-01-04 |
DE102005030965B4 true DE102005030965B4 (de) | 2007-07-19 |
Family
ID=37545079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102005030965A Expired - Fee Related DE102005030965B4 (de) | 2005-06-30 | 2005-06-30 | Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments |
Country Status (2)
Country | Link |
---|---|
US (1) | US20070005360A1 (de) |
DE (1) | DE102005030965B4 (de) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7831431B2 (en) * | 2006-10-31 | 2010-11-09 | Honda Motor Co., Ltd. | Voice recognition updates via remote broadcast signal |
US9045098B2 (en) * | 2009-12-01 | 2015-06-02 | Honda Motor Co., Ltd. | Vocabulary dictionary recompile for in-vehicle audio system |
JP5713963B2 (ja) * | 2012-06-18 | 2015-05-07 | 日本電信電話株式会社 | 音声認識単語追加装置とその方法とプログラム |
US11170762B2 (en) * | 2018-01-04 | 2021-11-09 | Google Llc | Learning offline voice commands based on usage of online voice commands |
CN114822501B (zh) * | 2022-04-18 | 2023-07-25 | 四川虹美智能科技有限公司 | 智能设备语音识别及语义识别的自动化测试方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5231670A (en) * | 1987-06-01 | 1993-07-27 | Kurzweil Applied Intelligence, Inc. | Voice controlled system and method for generating text from a voice controlled input |
US6192337B1 (en) * | 1998-08-14 | 2001-02-20 | International Business Machines Corporation | Apparatus and methods for rejecting confusible words during training associated with a speech recognition system |
EP0785540B1 (de) * | 1995-11-13 | 2005-01-26 | Dragon Systems Inc. | Erkennung kontinuierlich gesprochener Texte und Befehle |
DE10359624A1 (de) * | 2003-12-18 | 2005-07-21 | Daimlerchrysler Ag | Spracherkennung mit sprecherunabhängiger Vokabularerweiterung |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1134703A1 (de) * | 2000-03-14 | 2001-09-19 | BRITISH TELECOMMUNICATIONS public limited company | Gesicherte Dienstleistungen |
US6684201B1 (en) * | 2000-03-31 | 2004-01-27 | Microsoft Corporation | Linguistic disambiguation system and method using string-based pattern training to learn to resolve ambiguity sites |
DE60016722T2 (de) * | 2000-06-07 | 2005-12-15 | Sony International (Europe) Gmbh | Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars |
US7149695B1 (en) * | 2000-10-13 | 2006-12-12 | Apple Computer, Inc. | Method and apparatus for speech recognition using semantic inference and word agglomeration |
US7013276B2 (en) * | 2001-10-05 | 2006-03-14 | Comverse, Inc. | Method of assessing degree of acoustic confusability, and system therefor |
US7260530B2 (en) * | 2002-02-15 | 2007-08-21 | Bevocal, Inc. | Enhanced go-back feature system and method for use in a voice portal |
US7089188B2 (en) * | 2002-03-27 | 2006-08-08 | Hewlett-Packard Development Company, L.P. | Method to expand inputs for word or document searching |
US7293015B2 (en) * | 2002-09-19 | 2007-11-06 | Microsoft Corporation | Method and system for detecting user intentions in retrieval of hint sentences |
US7194455B2 (en) * | 2002-09-19 | 2007-03-20 | Microsoft Corporation | Method and system for retrieving confirming sentences |
US7529678B2 (en) * | 2005-03-30 | 2009-05-05 | International Business Machines Corporation | Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system |
US7826945B2 (en) * | 2005-07-01 | 2010-11-02 | You Zhang | Automobile speech-recognition interface |
-
2005
- 2005-06-30 DE DE102005030965A patent/DE102005030965B4/de not_active Expired - Fee Related
-
2006
- 2006-06-30 US US11/478,928 patent/US20070005360A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5231670A (en) * | 1987-06-01 | 1993-07-27 | Kurzweil Applied Intelligence, Inc. | Voice controlled system and method for generating text from a voice controlled input |
EP0785540B1 (de) * | 1995-11-13 | 2005-01-26 | Dragon Systems Inc. | Erkennung kontinuierlich gesprochener Texte und Befehle |
US6192337B1 (en) * | 1998-08-14 | 2001-02-20 | International Business Machines Corporation | Apparatus and methods for rejecting confusible words during training associated with a speech recognition system |
DE10359624A1 (de) * | 2003-12-18 | 2005-07-21 | Daimlerchrysler Ag | Spracherkennung mit sprecherunabhängiger Vokabularerweiterung |
Non-Patent Citations (2)
Title |
---|
SCHAAF,T.: "Detection of OOV Words Using Generali- zed Word Models and a Semantic Class Language Mo- del". EuroSpeech, Aalborg (2001) |
SCHAAF,T.: "Detection of OOV Words Using Generali-zed Word Models and a Semantic Class Language Mo- del". EuroSpeech, Aalborg (2001) * |
Also Published As
Publication number | Publication date |
---|---|
DE102005030965A1 (de) | 2007-01-04 |
US20070005360A1 (en) | 2007-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE112010005959B4 (de) | Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme | |
EP1466317B1 (de) | Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner | |
EP1611568B1 (de) | Dreistufige einzelworterkennung | |
DE69829235T2 (de) | Registrierung für die Spracherkennung | |
EP1927980B1 (de) | Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen | |
WO2009140781A1 (de) | Verfahren zur klassifizierung und entfernung unerwünschter anteile aus einer äusserung bei einer spracherkennung | |
DE69924596T2 (de) | Auswahl akustischer Modelle mittels Sprecherverifizierung | |
EP3430615B1 (de) | Fortbewegungsmittel, system und verfahren zur anpassung einer länge einer erlaubten sprechpause im rahmen einer spracheingabe | |
WO2001069591A1 (de) | Verfahren zur erkennung von sprachäusserungen nicht-mutter-sprachlicher sprecher in einem sprachverarbeitungssystem | |
DE10246029B4 (de) | Spracherkennungssystem, Computerprogramm, Navigationssystem und Kollationsverfahren | |
DE10119284A1 (de) | Verfahren und System zum Training von jeweils genau einer Realisierungsvariante eines Inventarmusters zugeordneten Parametern eines Mustererkennungssystems | |
DE10304460B3 (de) | Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
DE10040063A1 (de) | Verfahren zur Zuordnung von Phonemen | |
WO2001086634A1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems | |
DE102005030965B4 (de) | Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments | |
DE60029456T2 (de) | Verfahren zur Online-Anpassung von Aussprachewörterbüchern | |
DE102005030967B4 (de) | Verfahren und Vorrichtung zur Interaktion mit einem Spracherkennungssystem zur Auswahl von Elementen aus Listen | |
DE102008024257A1 (de) | Verfahren zur Sprecheridentifikation bei einer Spracherkennung | |
DE10308611A1 (de) | Ermittlung der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung | |
DE10122087C1 (de) | Verfahren zum Training und Betrieb eines Spracherkenners, Spracherkenner und Spracherkenner-Trainingssystem | |
DE102010033117A1 (de) | Spracherkennungsverfahren | |
DE19824450A1 (de) | Verfahren und Vorrichtung zur Verarbeitung von Sprachsignalen | |
DE102008062923A1 (de) | Verfahren und Vorrichtung zur Erzeugung einer Trefferliste bei einer automatischen Spracherkennung | |
DE10359624A1 (de) | Spracherkennung mit sprecherunabhängiger Vokabularerweiterung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8127 | New person/name/address of the applicant |
Owner name: DAIMLERCHRYSLER AG, 70327 STUTTGART, DE |
|
8327 | Change in the person/name/address of the patent owner |
Owner name: DAIMLER AG, 70327 STUTTGART, DE |
|
8364 | No opposition during term of opposition | ||
8320 | Willingness to grant licences declared (paragraph 23) | ||
R081 | Change of applicant/patentee |
Owner name: AUDI AG, DE Free format text: FORMER OWNER: VOLKSWAGEN AG, 38440 WOLFSBURG, DE Effective date: 20130211 Owner name: AUDI AG, DE Free format text: FORMER OWNER: DAIMLER AG, 70327 STUTTGART, DE Effective date: 20130114 |
|
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |