DE10163214A1 - Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes - Google Patents
Verfahren und Steuersystem zur Sprachsteuerung eines GerätesInfo
- Publication number
- DE10163214A1 DE10163214A1 DE10163214A DE10163214A DE10163214A1 DE 10163214 A1 DE10163214 A1 DE 10163214A1 DE 10163214 A DE10163214 A DE 10163214A DE 10163214 A DE10163214 A DE 10163214A DE 10163214 A1 DE10163214 A1 DE 10163214A1
- Authority
- DE
- Germany
- Prior art keywords
- action
- time
- command
- sequence
- speech signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000009471 action Effects 0.000 claims abstract description 118
- 230000035484 reaction time Effects 0.000 claims description 16
- 238000012790 confirmation Methods 0.000 claims description 13
- 230000000875 corresponding effect Effects 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 8
- 230000002441 reversible effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 230000001276 controlling effect Effects 0.000 claims 2
- 238000001514 detection method Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000011664 signaling Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003760 hair shine Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Selective Calling Equipment (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Beschrieben wird ein Verfahren zur Sprachsteuerung eines Geräts, bei dem ein Sprachsignal (S) eines Benutzers einer Spracherkennungseinrichtung zur Erkennung eines Befehls oder einer Befehlssequenz zugeführt wird. Abhängend von dem von der Spracherkennungseinrichtung erkannten Befehl oder der Befehlssequenz wird eine entsprechende Aktion (A) oder Aktionsabfolge (A¶S¶, A¶R¶) des Geräts durchgeführt. In Abhängigkeit vom Auftreten und/oder zeitlichen Verlauf des Sprachsignals (S) wird ein Referenzzeitpunkt (t¶r¶) bestimmt. Die Aktion (A) oder Aktionsabfolge (A¶S¶, A¶R¶) des Geräts erfolgt dann in einem bestimmten Zeitschema, bezogen auf den Referenzzeitpunt (t¶r¶), und/oder es wird in Abhängigkeit von dem Referenzzeitpunkt(t¶r¶) ein Aktionsparameterwert ermittelt, der bei der Aktion (A) oder Aktionsabfolge (A¶S¶, A¶R¶) verwendet wird. Darüber hinaus wird ein entsprechendes Steuersystem beschrieben.
Description
- Die Erfindung betrifft ein Verfahren zur Sprachsteuerung eines Gerätes, bei dem ein Sprachsignal eines Benutzers einer Spracherkennungseinrichtung zur Erkennung eines Befehls oder einer Befehlsequenz zugeführt wird und in Abhängigkeit des von der Spracherkennungseinrichtung erkannten Befehls oder Befehlsequenz eine entsprechende Aktion oder Aktionsabfolge des Gerätes durchgeführt wird. Darüber hinaus betrifft die Erfindung ein Sprachsteuersystem zur Durchführung eines solchen Verfahrens.
- In den verschiedensten Bereichen werden zunehmend Spracherkennungsverfahren eingesetzt, um die unterschiedlichsten Geräte mittels Sprachbefehlen durch den Benutzer zu steuern. Typische bereits heute übliche Einsatzorte sind Steuerungen von Peripheriegeräten in KFZ wie Radios, Mobilfunkgeräte oder Navigationssysteme. Hier macht sich besonders der Vorteil bemerkbar, dass eine Sprachsteuerung eine Freihandbedienung des jeweiligen Geräts ermöglicht und somit der Fahrer des KFZ das Gerät steuern und gleichzeitig seine Hände ohne Beeinträchtigung weiter für die Steuerung des KFZ verwenden kann. Des Weiteren sind solche Steuerungen von besonders großem Nutzen für solche Personen, die beispielsweise in ihrer Bewegung stark eingeschränkt sind und daher nur über die Sprache als Steuerungsmittel verfügen. Eine Sprachsteuerung hat darüber hinaus ganz allgemein den Vorteil, dass, anders als bei den Verfahren, bei denen eine Tastatur oder ähnliches verwendet wird, die Benutzerschnittstelle an das Hauptkommunikationsmittel des Menschen, nämlich die Sprache angepasst ist. Zusätzlich ergibt sich dadurch, dass die Sprachbefehle für die Sprachsteuerung drahtlos zum jeweiligen Gerät übermittelt werden, der Vorteil einer ganz natürlichen - das heißt in der Regel ohne Mehraufwand erreichbaren - kurzreichweitigen Fernsteuerung des Geräts. Es werden deshalb auch allgemein immer mehr Geräte des täglichen Lebens, beispielsweise Küchengeräte oder Geräte der Unterhaltungselektronik, mit Sprachsteuerungen ausgestattet. Eine Sprachsteuerung ist dabei nicht nur bei Einzelgeräten, wie beispielsweise einem Videorecorder oder Fernseher, sondern grundsätzlich bei jeder elektronisch steuerbaren Einrichtung möglich. Insbesondere können auch beliebige komplexe Gerätesysteme, wie beispielsweise eine vernetzte Haus- oder Büroelektronik, hierüber gesteuert werden. Ebenso ist es beispielsweise möglich, mittels Sprachsteuerung über einen Rechner im Internet zu "surfen". Es wird daher ausdrücklich darauf hingewiesen, dass der hier benutzte Begriff "Gerät" insoweit umfassend zu verstehen ist.
- Bei einer Sprachsteuerung wird üblicherweise ein vom Benutzer ausgesprochener Befehl oder eine Befehlssequenz beispielsweise mittels eines Mikrofons als Sprachsignal erfasst. Dieses Sprachsignal wird dann an eine Spracherkennungseinrichtung weitergeleitet, die wiederum, sobald sie aus dem eingegebenen Sprachsignal den Befehl bzw. die Befehlssequenz erkannt hat, diesen Befehl bzw. die Befehlssequenz an eine Steuereinrichtung des jeweiligen Gerätes weiterleitet. Die Steuereinrichtung steuert dann die betreffenden Komponenten des Geräts auf die gewünschte Weise an, so dass der vom Benutzer gegebene Befehl so schnell wie möglich durchgeführt wird. Obwohl sämtliche Komponenten des Sprachsteuerungssystems sehr schnell arbeiten, lässt es sich jedoch nicht vermeiden, dass immer eine gewisse Zeitverzögerung zwischen der Aussprache des Befehls durch den Benutzer und der Ausführung durch das Gerät vorliegt. Der größte Anteil der Zeitverzögerung entsteht hierbei in den meisten Fällen bei der Spracherkennung, weil z. B. ein bestimmter Zeitraum benötigt wird, um sicher feststellen zu können, ob ein Befehl wirklich beendet ist oder noch fortgesetzt wird. So muss beispielsweise nach einer Erkennung des Befehls "Kanal drei" sichergestellt sein, dass nicht noch die Eingabe "zehn" folgt, wodurch sich dann insgesamt der vom Nutzer gewünschte Befehl "Kanal dreizehn" ergeben würde. Ungünstigerweise ist dabei die Zeitspanne zwischen der Aussprache und der Ausführung des Befehls nicht genau definiert, da die Spracherkennungseinrichtung selbst bei identischen Befehlen nicht immer die gleiche Zeit benötigt, um den Befehl zu erkennen. So beeinflussen neben dem Befehl selber viele weitere Parameter, beispielsweise Hintergrundgeräuschanteile bei der Eingabe des Sprachsignals oder - bei komplexeren Systemen, die gleichzeitig mehrere Rechneroperationen ausführen können - die aktuelle Auslastung des Systems, die zur Erkennung eines Befehls benötigte Zeit. Ein derartiges Zeitverhalten des Sprachsteuerungssystems ist zum einen deswegen unvorteilhaft, da unterschiedliche Verzögerungszeiten zu einer Verunsicherung des Benutzers beitragen können. Zum Beispiel ist der Benutzer, wenn die Zeit zur Erkennung länger dauert, oft nicht sicher, ob der Befehl überhaupt empfangen wurde. Dies kann dazu führen, dass der Benutzer unnötigerweise mehrfach den Befehl eingibt. Ein weiterer Nachteil ergibt sich insbesondere auch dann, wenn es sich um einen Befehl für ein Gerät handelt, bei dem das Zeitverhalten kritisch ist. Ein typisches Beispiel hierfür ist das punktgenaue Stoppen eines laufenden Audio- oder Videogerätes an einer bestimmten Position, beispielsweise bei einem bestimmten Bild.
- Eine Möglichkeit, dieses Problem zu umgehen, besteht darin, die Erkennung des Befehls zu beschleunigen. Ein Beispiel für eine relativ einfache und daher schnelle Erkennung eines Befehls wird u. a. in der DE 41 03 913 A1 beschrieben. Hierbei wird vorgeschlagen, anstatt einer vollständigen Spracherkennung aus dem gesprochenen Satz oder dem gesprochenen Befehl ein durch ein Zeitmuster charakterisiertes Messsignal zu erzeugen, wobei das Zeitmuster die Tondauer und Pausendauer des Signals betrifft. Dieses Zeitmuster des Messsignals wird dann mit dem Zeitmuster eines Mustersignals verglichen, und bei Übereinstimmung des Zeitmusters wird dann das dem Mustersignal entsprechende Steuersignal erzeugt. Dieses Verfahren ist jedoch auf einfache Sprachsteuerungen mit einem sehr begrenzten Repertoire an Sprachbefehlen begrenzt, welche sich bezüglich ihres Zeitmusters dementsprechend stark unterscheiden müssen. Im Übrigen ist selbst bei einer erheblichen Reduzierung der Erkennungszeit grundsätzlich immer noch nicht gewährleistet, dass bei jeder Eingabe eines Befehls die Erkennungszeit variiert und zu den genannten Problemen führt.
- Es ist Aufgabe der vorliegenden Erfindung, eine Alternative zu diesem Stand der Technik zu schaffen, welche die genannten Probleme vermeidet.
- Diese Aufgabe wird dadurch gelöst, dass in Abhängigkeit vom Auftreten und/oder zeitlichen Verlauf des Sprachsignals ein Referenzzeitpunkt bestimmt wird und dass die Aktion oder Aktionsabfolge des Geräts in einem bestimmten Zeitschema bezogen auf den Referenzzeitpunkt erfolgt und/oder in Abhängigkeit von dem Referenzzeitpunkt ein Aktionsparameterwert ermittelt wird, der bei der Aktion oder Aktionsabfolge verwendet wird.
- Außerdem wird die Aufgabe durch ein entsprechendes Sprachsteuersystem gelöst, welches eine Analyseeinrichtung für ein erfasstes Sprachsignal zur Bestimmung eines solchen Referenzzeitpunkts aufweist und dessen Steuereinrichtung das Gerät so ansteuert, dass die Aktion oder Aktionsabfolge des Geräts in einem bestimmten Zeitschema bezogen auf den Referenzzeitpunkt erfolgt und/oder dass die Steuereinrichtung in Abhängigkeit von dem Referenzzeitpunkt einen Aktionsparameterwert ermittelt und diesen Aktionsparameterwert bei der Ansteuerung des Geräts verwendet.
- Das Sprachsteuersystem kann dabei Bestandteil des Gerätes selber sein. Es kann sich aber auch um ein separates Sprachsteuersystem handeln, welches diesem Gerät oder auch mehreren Geräten innerhalb eines komplexeren Systems vorgeschaltet ist und lediglich die Steuerbefehle an die einzelnen zu steuernden Geräte bzw. weiteren Systemkomponenten ausgibt.
- Die abhängigen Ansprüche enthalten besonders vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung.
- Die zur Bestimmung des Referenzzeitpunktes notwendige Analyse kann sowohl unabhängig als auch abhängig von der eigentlichen Spracherkennung, beispielsweise vor der Spracherkennung, durchgeführt werden. Das Sprachsteuersystem benötigt dabei im einfachsten Fall nur eine relativ primitive zusätzliche Analyseeinrichtung, die z. B. nur den Anfang und/oder das Ende eines Sprachsignals detektiert. Sofern eine genauere Analyse zur Bestimmung eines Referenzzeitpunktes gewünscht wird, muss dagegen gleichermaßen auch die Analyseeinrichtung komplexer ausgestaltet sein, wobei es sich u. U. anbietet, als Analyseeinrichtung die Spracherkennungseinrichtung bzw. Teile der Spracherkennungseinrichtung mit zu verwenden, um einen geeigneten Referenzzeitpunkt festzulegen. In einem solchen Fall ist es besonders vorteilhaft, wenn die als Analyseeinrichtung verwendete Spracherkennungseinrichtung das Analyseergebnis zur Bestimmung des Referenzzeitpunkts möglichst frühzeitig ausgibt und nicht erst mit der Ausgabe des erkannten Befehls bzw. der Befehlsequenz.
- Anschließend wird erfindungsgemäß die Aktion oder Aktionsabfolge des Gerätes in einem bestimmten Zeitschema - beispielsweise ab einem bestimmten Zeitpunkt - bezogen auf diesen Referenzzeitpunkt durchgeführt. Alternativ oder zusätzlich wird in Abhängigkeit von dem Referenzzeitpunkt ein Aktionsparameterwert ermittelt, der dann bei der Aktion oder Aktionsabfolge verwendet wird. Bei einem solchen Aktionsparameter kann es sich beispielsweise um eine bestimmte Rücklaufzeit bei einem Gerät wie z. B. einem Videorecorder mit einer Vorlauf-/Rücklauf-Funktion handeln. Es kann sich bei einem solchen Aktionsparameter aber auch um eine Zeit handeln, die aus einer Zeitangabe des Benutzers, beispielsweise einem Befehl wie "noch 5 Minuten" berechnet wird, wobei bei der Berechnung der Referenzzeitpunkt berücksichtigt wird, indem die Zeitangabe des Benutzers auf den Referenzzeitpunkt bezogen wird.
- Durch die Festlegung eines - bezogen auf das erfasste Sprachsignal - zeitlich absolut feststehenden Referenzzeitpunktes und den Ablauf der folgenden Aktion bzw. Aktionsabfolge innerhalb eines bestimmten Zeitschemas - bezogen auf diesen Referenzzeitpunkt - wird gewährleistet, dass die für den Benutzer erkennbare Zeit, die das Gerät bzw. das Sprachsteuersystem für die Befehlsausführung benötigt, im Wesentlichen immer gleich ist und nicht davon abhängig, wie schnell jeweils der Spracherkenner in der Lage war, den Befehl oder die Befehlsequenz aus dem Sprachsignal zu extrahieren. Der Benutzer bekommt so automatisch ein Gefühl für das Zeitverhalten des Gerätes und wird nicht durch unterschiedliche Erkennungszeiten irritiert. Durch die Ermittlung eines Aktionsparameterwertes in Abhängigkeit von dem jeweiligen Referenzzeitpunkt ist es möglich, bei solchen Befehlen, bei denen das Zeitverhalten maßgeblich ist, die Zeitverzögerung zwischen Aussprache und Ausführung des Befehls sogar zu kompensieren.
- Als Referenzzeitpunkt bieten sich die verschiedensten Zeitpunkte innerhalb des Zeitablaufes des Sprachsignals an. Besonders einfach festlegbare Referenzzeitpunkte sind beispielsweise der Beginn oder das Ende des Sprachsignals. Diese sind mit einem einfachen Sprachaktivitätsdetektor sehr schnell detektierbar.
- Ebenso ist es möglich, als Referenzzeitpunkt den Zeitpunkt des Auftretens eines bestimmten charakteristischen Merkmals im Sprachsignal auszuwählen. Ein solches charakteristisches Merkmal kann vorzugsweise mit Hilfe des Beginns und/oder des Endes eines bestimmten Phonems oder eines Abschnitts des Sprachsignals ermittelt werden. Dabei kann im einfacheren Fall der Beginn oder das Ende des Phonems oder des Abschnitts des mehrteiligen Sprachsignals selbst als Referenzzeitpunkt dienen. Es ist aber auch möglich, kompliziertere Algorithmen zu verwenden und beispielsweise als Referenzzeitpunkt einen zeitlichen Mittelwert zwischen dem Beginn und dem Ende eines bestimmten Phonems oder Abschnitts zu wählen.
- Die Wahl des Referenzzeitpunktes erfolgt dabei vorzugsweise so, dass er möglichst einfach und sicher in einem bestimmten Befehl detektiert werden kann, so dass bei einer Eingabe dieses Befehls immer derselbe Referenzzeitpunkt gewählt wird. Ein typisches, sehr einfach registrierbares charakteristisches Merkmal ist beispielsweise der Beginn des Vokals "e" in einem Befehl "TV jetzt".
- Bei einem bevorzugten Ausführungsbeispiel erfolgt die Steuerung des Geräts derart, dass ein Aktionszeitpunkt des Gerätes, an dem die Aktion oder Aktionsabfolge der Gerätes beginnt, einen definierten zeitlichen Abstand (d. h. eine definierte Verzögerungszeit) zum Referenzzeitpunkt aufweist.
- Bei einem weiteren bevorzugten Ausführungsbeispiel ist das Zeitschema jeweils abhängig von dem eingegebenen Befehl. So kann beispielsweise bei einem Einschaltbefehl für ein Gerät die Verzögerungszeit immer auf genau eine Sekunde eingestellt sein, wogegen bei einem Stoppbefehl, insbesondere beispielsweise einem Notfallstopp, das Zeitschema so gewählt wird, dass unmittelbar nach der Erkennung des Stoppbefehls das Gerät stoppt.
- Das Zeitschema kann auch so gewählt sein, dass der Befehl innerhalb eines bestimmten Zeitraumes zwischen einer Minimalzeit und einer Maximalzeit ausgeführt werden muss. Die Aktion bzw. Aktionsfolge erfolgt dann frühestens nach Ablauf der Minimalzeit von beispielsweise einer Sekunde. Wenn bis dahin eine Erkennung des Signals nicht möglich war, erfolgt die Ausführung des Befehls unmittelbar nach Erhalt des erkannten Signals. Nach Überschreiten der Maximalzeit, beispielsweise nach 1,5 Sekunden, bricht das Sprachsteuersystem den Vorgang ab und gibt an den Benutzer ein entsprechendes Signal, beispielsweise eine Nachricht "Befehl nicht erkannt", aus.
- Vorzugsweise wird das Zeitschema so gewählt, dass unter normalen Bedingungen eine Erkennung der möglichen Befehle bzw. Befehlssequenzen innerhalb der festen Verzögerungszeit bzw. der Minimalzeit möglich ist, so dass punktgenau nach Ablauf der vorgegebenen Zeit die Aktion oder Aktionsabfolge des Gerätes beginnt.
- Wenn das System erkennt, dass der vorgegebene Zeitpunkt bereits abgelaufen ist, bevor der Befehl oder die Befehlssequenz erkannt ist, so bestehen verschiedene Möglichkeiten, um solche Situationen für die Zukunft zu vermeiden. Eine Möglichkeit besteht darin, das Zeitschema zu verändern und beispielsweise die voreingestellte Verzögerungszeit bzw. Minimalzeit heraufrusetzen. Eine andere Möglichkeit besteht darin, soweit dies möglich ist die Parameter der Spracherkennungseinheit und/oder die Systemressourcen zu variieren, um so beim nächsten Mal die Erkennung schneller durchführen zu können.
- Außerdem kann das System, wenn es feststellt, dass der vorgegebene Zeitpunkt abzulaufen droht, eine Entscheidung unter verschiedenen, bereits aufgestellten Hypothesen der Spracherkennungseinheit erzwingen, um so sofort ein Erkennungsergebnis zu erhalten. Sofern der vorgegebene Zeitpunkt abhängig vom Erkennungsergebnis und somit abhängig von der jeweiligen Hypothese ist, kann das System entsprechend reagieren, sobald für eine der Hypothesen der Zeitpunkt abläuft.
- Bei einem bevorzugten Ausführungsbeispiel wird der Zeitraum bis zu einem Aktionszeitpunkt des Gerätes gemäß Anspruch 6 durch Ausgabe einer Signalempfangsbestätigung an einen Benutzer überbrückt. Bei einer solchen Signalempfangsbestätigung kann es sich beispielsweise um ein akustisches oder optisches Signal wie das Aufleuchten einer Leuchtdiode oder dergleichen handeln. Dabei erfolgt auch die Ausgabe dieser Signalempfangsbestätigung in einem genau definierten Zeitschema.
- Die Ausgabe einer solchen Signalempfangsbestätigung bietet sich insbesondere dann an, wenn die Verzögerungszeit relativ groß eingestellt ist, um genügend Rechenzeit für die Erkennung des Befehls zur Verfügung zu haben. Durch eine solche, für den Benutzer vorhersagbare Empfangsbestätigung nach dem Aussprechen des Sprachbefehls und vor dessen Ausführung wird ein besseres Benutzergefühl erreicht, da der Benutzer hierdurch erfährt, dass sein Sprachbefehl unmittelbar etwas bewirkt, d. h. dass das Gerät bzw. die Sprachsteuerung aufgrund seines Sprachbefehls aktiv ist.
- Das Sprachsteuersystem benötigt hierfür eine Signalisierungseinrichtung, um die Signalempfangsbestätigung an den Benutzer auszugeben, und die Steuereinrichtung muss entsprechend eingerichtet sein, um die Signalisierungseinrichtung gemäß den Vorgaben anzusteuern.
- Bei einem besonders bevorzugten Ausführungsbeispiel wird bezüglich des Referenzzeitpunktes zunächst ein Soll-Aktionszeitpunkt definiert. Bei diesem Soll-Aktionszeitpunkt handelt es sich um den Zeitpunkt, an dem die vom Benutzer gewünschte Aktion durchgeführt werden sollte. Ein typisches Beispiel hierfür ist das Stoppen eines Video- oder DVD- Recorders zu einem ganz genau definierten Zeitpunkt, das heißt bei einem ganz bestimmten Bild. Sobald der Benutzer dieses Bild erkennt, äußert er den Sprachbefehl "Stopp" und erwartet, dass der Recorder genau bei diesem Bild stoppt.
- Als Soll-Aktionszeitpunkt kann dabei im Prinzip der Referenzzeitpunkt selbst definiert werden, insbesondere dann, wenn als Referenzzeitpunkt der Beginn des erfassten Sprachsignals gewählt wird. Vorzugsweise wird jedoch bei der Definition des Soll-Aktionszeitpunktes bezüglich des Referenzzeitpunktes die Reaktionszeit des Benutzers selbst berücksichtigt. Dazu wird beispielsweise als Soll-Aktionszeitpunkt ein Zeitpunkt vor dem Referenzzeitpunkt gewählt, wobei der Abstand zwischen dem Soll-Aktionszeitpunkt und dem Referenzzeitpunkt einer mittleren Benutzer-Reaktionszeit, beispielsweise 0,2 Sekunden, entspricht.
- Es wird dann eine "Reaktionszeit" zwischen dem definierten Soll-Aktionszeitpunkt und dem tatsächlichen Ist-Aktionszeitpunkt des Gerätes ermittelt. Da die Benutzer-Reaktionszeit berücksichtigt wird, handelt es sich hierbei um die Gesamtreaktionszeit des aus dem Benutzer, dem Sprachsteuerungssystem und dem Gerät bestehenden Gesamt-Systems. Anhand dieser Reaktionszeit wird dann ein Aktionsparameterwert für die durchzuführende Aktion oder Aktionsabfolge des Gerätes ermittelt und bei der Durchführung der Aktion oder Aktionsabfolge unter Verwendung dieses Aktionsparameterwertes die Reaktionszeit wieder kompensiert.
- Dieses Verfahren bietet sich insbesondere bei allen Geräten an, welche eine Medienein- und/oder -ausgabeeinheit mit einer Vorlauf und/oder Rücklauffunktion aufweisen. Zu solchen Geräten zählen neben den genannten Videorecordern oder DVD-Recordern auch Geräte wie Tonbandgeräte, CD-Player oder andere beliebige Geräte, die eine Datensequenz optisch und/oder akustisch in einer zeitlichen Abfolge an den Benutzer ausgeben und/oder bei denen der Benutzer entsprechend Daten eingeben kann, wie z. B. bei einer Filmkamera. Zu diesen Geräten zählen folglich auch Computer oder ähnliche Geräte mit entsprechender Software, die beispielsweise über das Internet oder aus einem Speicher, z. B. von der Festplatte oder einem Disketten- oder DVD-Laufwerk eine Abfolge von Vortragsfolien, Suchlisten etc. an den Benutzer ausgeben und bei denen der Benutzer die Möglichkeit haben soll, diese Ausgabe punktgenau zu stoppen.
- In der Regel ist es bei solchen Medienein- und/oder -ausgabeeinheiten möglich, mit der Vorlauf und/oder Rücklauffunktion einen gewünschten Punkt, d. h. beispielsweise einen bestimmten Datensatz, beispielsweise ein Bild, anzufahren. Dabei besteht üblicherweise die Möglichkeit, mit verschiedenen Geschwindigkeiten vor- und rückzulaufen, wobei in unterschiedlichen Modi ein Vorlauf oder Rücklauf ohne Ausgabe von Daten erfolgt und in anderen Modi (Suchlauf oder einfaches Abspielen) dem Benutzer die Daten angezeigt werden. Bei derartigen Geräten kann anhand der ermittelten Reaktionszeit als Aktionsparameterwert ein Rücklaufwert oder Vorlaufwert ermittelt werden, je nachdem, ob der Stoppbefehl erfolgt, um das Gerät während eines Vorlaufs oder eines Rücklaufs zu stoppen. Zu dem gegebenen Aktionszeitpunkt wird die Medienein- und/oder -ausgabeeinheit dann in einer Aktionsabfolge zunächst gestoppt und entsprechend dem ermittelten Rücklauf bzw. Vorlaufwert wieder zurückgefahren bzw. vorgefahren, so dass die Reaktionszeit kompensiert wird.
- Die Durchführung des Verfahrens kann im Prinzip rein softwaremäßig mit einem Computerprogramm beispielsweise mittels entsprechender Softwaremodule auf einem geeigneten Computer erfolgen. Dabei kann die Spracherkennungseinrichtung durch ein Software-Spracherkennungsmodul und die Steuereinrichtung durch ein Software- Steuerungsmodul gebildet werden. Ebenso kann auch eine Sprachausgabeeinrichtung mit einem TTS-Modul (Text to Speech) realisiert werden. Zur Steuerung des Dialogs mit einem Benutzer kann ein Dialogkontrollmodul auf dem Computer installiert sein. Alle diese Module müssen dann in geeigneter Weise, beispielsweise als Unterroutinen und Hauptroutinen, miteinander verknüpft sein, um gemäß dem erfindungsgemäßen Verfahren zusammenzuwirken. Der Computer muß natürlich mit einer geeigneten Einrichtung zur Erfassung eines Sprachsignals des Benutzers, z. B. einem Mikrofon, verbunden sein.
- Die verschiedenen Software-Module können dabei auch statt auf einem einzelnen Computer auf verschiedenen, untereinander vernetzten Computern installiert sein. So kann beispielsweise ein erster Computer das Steuerungsmodul und ein Dialogkontrollmodul aufweisen, wogegen die relativ rechenintensive automatische Spracherkennung bei Bedarf auf einem zweiten Computer durchgeführt wird.
- Die Erfindung wird im Folgenden unter Hinweis auf die beigefügten Figuren anhand von Ausführungsbeispielen näher erläutert. Es zeigen:
- Fig. 1 eine schematische Darstellung des zeitlichen Ablaufs von der Aussprache bis zur Ausführung eines Sprachbefehls bei Einstellung einer festen Verzögerungszeit zwischen dem Referenzzeitpunkt und einem Aktionszeitpunkt,
- Fig. 2 eine schematische Darstellung eines Zeitablaufs wie in Fig. 1, bei dem jedoch die Verzögerungszeit zwischen dem Referenzzeitpunkt und dem Aktionszeitpunkt durch ein Bestätigungssignal überbrückt wird,
- Fig. 3 eine schematische Darstellung des zeitlichen Ablaufes bei einem bildgenauen Stopp eines Videorecorders.
- Aufgetragen sind in den Figuren der zeitliche Ablauf des Auftretens des Sprachsignals S sowie der Aktion A bzw. der Aktionsfolge AS, AR des Gerätes über der Zeit t. In den dargestellten Ausführungsbeispielen beginnt das Sprachsignal S jeweils zum Zeitpunkt t1 und endet zum Zeitpunkt t2.
- Bei den in den ersten beiden Figuren dargestellten Ausführungsbeispielen handelt es sich jeweils um eine Sprachsteuerung eines Fernsehgeräts.
- In Fig. 1 ist eine erste Variante des Verfahrens dargestellt, wobei es sich bei dem Sprachbefehl S um einen Einschaltbefehl für das Fernsehgerät, hier die Wortfolge "TV an" handelt. Das Sprachsignal S umfasst somit zwei Signalabschnitte, welche den beiden Worten "TV" und "an" entsprechen. Als Referenzzeitpunkt tr wurde ein bestimmtes, leicht detektierbares Merkmal in dem zweiten Abschnitt des Sprachsignals S, das heißt im Wort "an" gewählt. Im konkreten Fall wird dabei auf das Ende des Vokals "a" im Wort "an" abgestellt.
- Sobald das Sprachsignal S erfasst wird, wird es an eine Spracherkennungseinrichtung weitergeleitet, welche das Sprachsignal weiter analysiert, um den darin mitgeteilten Befehl bzw. die Befehlssequenz zu erkennen. Die erkannte Befehlssequenz "TV an" wird dann an eine Steuereinrichtung übergeben, welche das Fernsehgerät einschaltet. Diese Einschaltaktion A geschieht jedoch nicht direkt nach der Erkennung der Befehlssequenz durch die Spracherkennungseinrichtung, sondern erst zu einem definierten Aktionszeitpunkt ta, welcher einen festen zeitlichen Abstand Δa zum Referenzzeitpunkt tr aufweist. Die Aktion A erfolgt somit unabhängig von der Zeitdauer der Erkennung immer nach einer festen Verzögerungszeit Δa, nachdem der Benutzer das "a" im Wort "an" gesprochen hat. Hierbei wird vorausgesetzt, dass die Verzögerungszeit Δa zwischen dem Referenzzeitpunkt tr und dem Aktionszeitpunkt ta lang genug ist, dass die Spracherkennungseinrichtung die Befehlssequenz im Sprachsignal S erkennen kann.
- Fig. 2 zeigt eine Variante des Verfahrens. Der Einschaltbefehl ist hierbei ein aus einem Wort bestehender Befehl, nämlich das Wort "Einschalten". Dementsprechend handelt es sich um ein einteiliges Sprachsignal S, welches wieder zu einem Zeitpunkt t1 beginnt und an einem Zeitpunkt t2 endet. Als Referenzzeitpunkt tr wird hier einfach das Ende des Sprachsignals S gewählt. Dieser Ein-Wort-Befehl "Einschalten" ist in Fig. 2 lediglich gewählt, um ein weiteres Beispiel für ein Sprachsignal und einen Referenzzeitpunkt darzustellen. Es ist klar, dass die Erfindung unabhängig vom konkreten Befehl ist und dass im Ausführungsbeispiel gemäß Fig. 2 ebenso der Befehl "TV an" verwendet werden könnte oder in dem Ausführungsbeispiel nach Fig. 1 der Befehl "Einschalten" o. Ä.
- Wie im Fall gemäß Fig. 1 wird das Sprachsignal S einer Spracherkennung zugeführt und anschließend nach einer genau definierten Verzögerungszeit Δa zum Aktionszeitpunkt ta die Aktion A durchgeführt, d. h. das Fernsehgerät eingeschaltet. Anders als bei dem Ausführungsbeispiel gemäß Fig. 1 wird jedoch die Verzögerungszeit Δa zwischen dem Referenzzeitpunkt tr und dem Aktionszeitpunkt ta durch ein Bestätigungssignal B überbrückt, welches an den Benutzer ausgegeben wird. Auch die Ausgabe dieses Bestätigungssignals B erfolgt nach einem genau vorgegebenen Zeitschema in Abhängigkeit vom Referenzzeitpunkt tr. Im vorliegenden Ausführungsbeispiel wird nach einer genau vorgegebenen ersten Zeitspanne Δ1 zu einem Zeitpunkt tb eine Leuchtdiode eingeschaltet, die eine genau definierte zweite Zeitspanne Δb lang leuchtet und die eine genau definierte dritte Zeitspanne Δ2 vor dem definierten Aktionszeitpunkt ta wieder ausgeschaltet wird. Die erste und dritte Zeitspanne Δ1, Δ2 könnten dabei z. B. jeweils 0,2 Sekunden betragen.
- Es ist selbstverständlich auch möglich, diese Zeitspannen Δ1, Δ2 beliebig zu variieren und beispielsweise das Bestätigungssignal B so lange anzuzeigen, bis der Aktionszeitpunkt ta erreicht ist, das heißt, dass die zweite Zeitspanne Δ2 gleich Null gesetzt wird. Ein Ausschalten des Bestätigungssignals B vor dem Beginn der gewünschten Aktion A, das heißt vor dem Aktionszeitpunkt ta ist jedoch insbesondere dann sinnvoll, wenn es sich bei dem Bestätigungssignal nicht um ein optisches Signal, sondern um ein akustisches Signal wie einen Piepton handelt und wenn die Gesamtzeitspanne zwischen dem Referenzzeitpunkt tr und dem Aktionszeitpunkt ta, d. h. die Verzögerungszeit Δa, länger ist. In diesem Fall würde ein länger andauerndes akustische Bestätigungssignal B den Benutzer wahrscheinlich belästigen. Ein kurzzeitiges akustisches Signal, beispielsweise ungefähr in der Mitte der Gesamtzeitspanne Δa zwischen dem Referenzzeitpunkt tr und dem Aktionszeitpunkt ta, wird dagegen als weniger störend empfunden. Es ist selbstverständlich auch möglich, mehrere Bestätigungssignale in genau vorgegebenen Zeitabschnitten auszugeben, beispielsweise ein Bestätigungssignal mehrmals zu wiederholen, bis schließlich der Aktionszeitpunkt ta erreicht ist. Ebenso ist auch eine Kombination von akustischen und optischen oder sonstigen Bestätigungssignalen möglich.
- In Fig. 3 ist schließlich eine weitere Variante der Erfindung dargestellt, bei der die Reaktionszeit Δr zwischen einem Soll-Aktionszeitpunkt tr und einem tatsächlichen Ist- Aktionszeitpunkt ta durch eine definierte Aktionsabfolge AS, AR des Gerätes wieder kompensiert wird. Im vorliegenden Fall geht es darum, einen Videorecorder bildgenau zu stoppen.
- Zum Soll-Aktionszeitpunkt ts sieht der Benutzer das Bild P und möchte den Videorecorder an dieser Position anhalten. Nach einer gewissen Reaktionszeit Δu des Benutzers von beispielsweise 0,2 Sekunden spricht er zum Zeitpunkt t1 den Befehl "Stopp" aus. Das Sprachsignal S beginnt dann zum Zeitpunkt t1 welcher später als der Soll-Aktionszeitpunkt ts liegt, und endet zum Zeitpunkt t2. Als Referenzzeitpunkt tr wird in diesem Beispiel auf den Beginn des Sprachsignals, das heißt auf den Zeitpunkt t1 abgestellt, so dass t1 und tr identisch sind. Es kann aber auch ein beliebiger anderer Referenzzeitpunkt tr gewählt werden.
- Das Sprachsignal S wird dann wie bei den Ausführungsbeispielen gemäß den Fig. 1 und 2 in einer Spracherkennungseinrichtung analysiert und dabei der Befehl "Stopp" erkannt. Nach einer genau definierten Verzögerungszeit Δa nach dem Referenzzeitpunkt tr wird schließlich zu einem Aktionszeitpunkt ta das Gerät tatsächlich gestoppt.
- Aus Fig. 3 wird deutlich, dass zwischen dem tatsächlichen Ist-Aktionszeitpunkt ta und dem Soll-Aktionszeitpunkt ts, an dem das Gerät an sich stoppen sollte, eine erhebliche Zeitdifferenz liegt, welche zum einen durch die Benutzerreaktionszeit Δu und zum anderen durch die eingestellte Verzögerungszeit Δa zwischen dem Referenzzeitpunkt tr und dem Aktionszeitpunkt ta gegeben ist. Während dieser "Gesamtreaktionszeit" Δr des aus Benutzer, Spracherkennungssystem und Gerät bestehenden Gesamt-Systems befindet sich das Gerät die ganze Zeit im Vorlaufmodus V. Das heißt, zum Aktionspunkt ta stoppt das Gerät bei einem völlig anderen Bild als dies der Benutzer wünschte.
- Da die Reaktionszeit Δr jedoch mit Hilfe des Referenzzeitpunkts tr berechnet werden kann - wobei allerdings die Benutzerreaktionszeit Δu nur als Mittelwert für verschiedene Durchschnittsnutzer angenommen werden kann - ist es möglich, anhand der Reaktionszeit Δr einen Rücklaufwert WR zu ermitteln, den das Videoband zurücklaufen muss, um die vom Benutzer gewünschte Position mit dem Bild P zu erreichen.
- Bei diesem Rücklaufwert WR kann es sich entweder um eine Zeit handeln, die das Videoband im Recorder mit einer bestimmten Geschwindigkeit zurücklaufen muss. Es kann sich hierbei aber auch um eine Bandlängenangabe oder um einen ähnlichen Parameter handeln. Bei einem DVD-Recorder oder einem CD-Player kann im Übrigen als Parameter auch die genaue Position auf dem Datenträger ermittelt werden, die dann anschließend angefahren wird.
- Bei dem Ausführungsbeispiel gemäß Fig. 3 wird folglich zum Aktionszeitpunkt ta der Recorder nicht nur einfach gestoppt, sondern es wird eine Aktionsfolge AS, AR ausgelöst, welche aus einer Stopp-Aktion As und einer sofortigen Rücklaufaktion AR des Gerätes besteht, so dass das Gerät am Ende der Aktionsfolge AS, AR tatsächlich an der von dem Benutzer gewünschten Position, d. h. am Bild P, steht.
- Die Erfindung verbessert also zum einen die Benutzererfahrung bei der Steuerung des Gerätes, da der Benutzer durch die Vorhersagbarkeit der Zeitabläufe schon nach kurzer Zeit instinktiv ein Gefühl dafür entwickelt, wann das Gerät ordnungsgemäß funktioniert oder wann es zu Problemen bei der Sprachsteuerung, insbesondere zur Erkennungsproblemen oder Ähnlichem gekommen ist. In speziellen Fällen wie beispielsweise bei einem punktgenauen Stoppen einer Medienein- und/oder -ausgabe ist es sogar möglich, mit Hilfe der Erfindung die Verzögerungszeit des Gerätes und auf Wunsch auch die Reaktionszeit des Benutzers selber zu kompensieren.
Claims (11)
1. Verfahren zur Sprachsteuerung eines Geräts, bei dem ein Sprachsignal (S) eines
Benutzers einer Spracherkennungseinrichtung zur Erkennung eines Befehls oder einer
Befehlssequenz zugeführt wird und in Abhängigkeit des von der
Spracherkennungseinrichtung erkannten Befehls oder einer Befehlssequenz eine
entsprechende Aktion (A) oder Aktionsabfolge (AS, AR) des Geräts veranlasst wird,
dadurch gekennzeichnet,
dass in Abhängigkeit vom Auftreten und/oder zeitlichen Verlauf des Sprachsignals (S) ein Referenzzeitpunkt (tr) bestimmt wird und
dass die Aktion (A) oder Aktionsabfolge (AS, AR) des Geräts in einem bestimmten Zeitschema bezogen auf den Referenzzeitpunkt (tr) erfolgt und/oder in Abhängigkeit von dem Referenzzeitpunkt (tr) ein Aktionsparameterwert (WR) ermittelt wird, der bei der Aktion (A) oder Aktionsabfolge (AS, AR) verwendet wird.
dass in Abhängigkeit vom Auftreten und/oder zeitlichen Verlauf des Sprachsignals (S) ein Referenzzeitpunkt (tr) bestimmt wird und
dass die Aktion (A) oder Aktionsabfolge (AS, AR) des Geräts in einem bestimmten Zeitschema bezogen auf den Referenzzeitpunkt (tr) erfolgt und/oder in Abhängigkeit von dem Referenzzeitpunkt (tr) ein Aktionsparameterwert (WR) ermittelt wird, der bei der Aktion (A) oder Aktionsabfolge (AS, AR) verwendet wird.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
dass als Referenzzeitpunkt (tr) der Beginn (t1) oder das Ende (t2) des Sprachsignals (S)
festgelegt wird.
3. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
dass als Referenzzeitpunkt (tr) der Zeitpunkt des Auftretens eines bestimmten
charakteristischen Merkmals (M) im Sprachsignal (S) festgelegt wird.
4. Verfahren nach Anspruch 3,
dadurch gekennzeichnet,
dass das charakteristische Merkmal mit Hilfe des Beginns und/oder des Endes eines
bestimmten Phonems des Sprachsignals und/oder des Beginns und/oder des Endes eines
bestimmten Abschnittes eines mehrteiligen Sprachsignals ermittelt wird.
5. Verfahren nach einem der Ansprüche 1 bis 4,
dadurch gekennzeichnet,
dass ein Aktionszeitpunkt (ta) des Geräts, an dem die Aktion (A) oder Aktionsabfolge (AS,
AR) des Geräts beginnt, einen definierten zeitlichen Abstand (Δa) zum Referenzzeitpunkt
(tr) aufweist.
6. Verfahren nach einem der Ansprüche 1 bis 5,
dadurch gekennzeichnet,
dass ein Zeitraum bis zu einem Aktionszeitpunkt (ta) des Geräts, an dem die Aktion (A)
oder Aktionsabfolge (AS, AR) des Geräts beginnt, durch Ausgabe einer
Signalempfangsbestätigung (B) an einen Benutzer überbrückt wird, wobei die
Signalempfangsbestätigung (B) zu einem definierten Zeitpunkt (tB) nach dem
Referenzzeitpunkt (tr) beginnt.
7. Verfahren nach einem der Ansprüche 1 bis 6,
dadurch gekennzeichnet,
dass eine Reaktionszeit (Δr) zwischen einem bezüglich des Referenzzeitpunkts (tr)
definierten Soll-Aktionszeitpunkt (ts) und dem tatsächlichen Ist-Aktionszeitpunkt (ta) des
Geräts, an dem die Aktion (A) oder Aktionsabfolge (AS, AR) beginnt, ermittelt wird
und anhand der ermittelten Reaktionszeit (Δr) ein Aktionsparameterwert (WR) für die
durchzuführende Aktion (A) oder Aktionsabfolge (AS, AR) des Geräts ermittelt wird
und bei der Durchführung der Aktion (A) oder Aktionsabfolge (AS, AR) unter Verwendung
dieses Aktionsparameterwerts (WR) die Reaktionszeit (Δr) kompensiert wird.
8. Verfahren nach Anspruch 7,
dadurch gekennzeichnet,
dass bei der Definition des Soll-Aktionszeitpunkts (ts) bezüglich des Referenzzeitpunkts (tr)
eine Benutzerreaktionszeit (Δu) des Benutzers, welcher das Sprachsignal (S) abgibt,
berücksichtigt wird.
9. Verfahren nach Anspruch 7 oder 8,
dadurch gekennzeichnet,
dass das Gerät eine Medienein- und/oder -ausgabeeinheit mit einer Vorlauf und/oder Rücklauffunktion aufweist
und dass bei Eingabe eines Sprachsignals (S), welches einen Stopp-Befehl für die Medienein- und/oder -ausgabeeinheit umfasst, anhand der ermittelten Reaktionszeit (Δr) als Aktionsparameterwert (WR) ein Rücklaufwert (WR) oder Vorlaufwert ermittelt wird, und die Medienein- und/oder -ausgabeeinheit zu einem Aktionszeitpunkt (ta) in einer Aktionsabfolge (AS, AR) stoppt und entsprechend dem ermittelten Rücklaufwert (WR) oder Vorlaufwert wieder zurückläuft oder vorläuft.
dass das Gerät eine Medienein- und/oder -ausgabeeinheit mit einer Vorlauf und/oder Rücklauffunktion aufweist
und dass bei Eingabe eines Sprachsignals (S), welches einen Stopp-Befehl für die Medienein- und/oder -ausgabeeinheit umfasst, anhand der ermittelten Reaktionszeit (Δr) als Aktionsparameterwert (WR) ein Rücklaufwert (WR) oder Vorlaufwert ermittelt wird, und die Medienein- und/oder -ausgabeeinheit zu einem Aktionszeitpunkt (ta) in einer Aktionsabfolge (AS, AR) stoppt und entsprechend dem ermittelten Rücklaufwert (WR) oder Vorlaufwert wieder zurückläuft oder vorläuft.
10. Sprachsteuersystem zur Durchführung eines Verfahrens nach einem der Ansprüche 1
bis 9,
mit Mitteln zur Erfassung eines Sprachsignals (S),
einer Spracherkennungseinrichtung zur Analyse des Sprachsignal (S) zur Erkennung eines Befehls oder einer Befehlssequenz,
und einer Steuereinrichtung zur Steuerung des Geräts in Abhängigkeit des von der Spracherkennungseinrichtung erkannten Befehls oder einer Befehlssequenz, so dass dieses eine dem Befehl oder der Befehlssequenz entsprechende Aktion (A) oder Aktionsabfolge (AS, AR) durchführt,
dadurch gekennzeichnet,
dass das Sprachsteuersystem eine Analyseeinrichtung für ein Sprachsignal (S) zur Bestimmung eines Referenzzeitpunkts (tr) in Abhängigkeit vom Auftreten und/oder zeitlichen Verlauf des Sprachsignals (S) aufweist
und so ausgebildet ist,
dass die Steuereinrichtung das Gerät so ansteuert, dass die Aktion (A) oder Aktionsabfolge (AS, AR) des Geräts in einem bestimmten Zeitschema bezogen auf den Referenzzeitpunkt (tr) erfolgt und/oder dass die Steuereinrichtung in Abhängigkeit von dem Referenzzeitpunkt (tr) einen Aktionsparameterwert (WR) ermittelt und diesen Aktionsparameterwert (WR) bei der Ansteuerung des Geräts verwendet.
mit Mitteln zur Erfassung eines Sprachsignals (S),
einer Spracherkennungseinrichtung zur Analyse des Sprachsignal (S) zur Erkennung eines Befehls oder einer Befehlssequenz,
und einer Steuereinrichtung zur Steuerung des Geräts in Abhängigkeit des von der Spracherkennungseinrichtung erkannten Befehls oder einer Befehlssequenz, so dass dieses eine dem Befehl oder der Befehlssequenz entsprechende Aktion (A) oder Aktionsabfolge (AS, AR) durchführt,
dadurch gekennzeichnet,
dass das Sprachsteuersystem eine Analyseeinrichtung für ein Sprachsignal (S) zur Bestimmung eines Referenzzeitpunkts (tr) in Abhängigkeit vom Auftreten und/oder zeitlichen Verlauf des Sprachsignals (S) aufweist
und so ausgebildet ist,
dass die Steuereinrichtung das Gerät so ansteuert, dass die Aktion (A) oder Aktionsabfolge (AS, AR) des Geräts in einem bestimmten Zeitschema bezogen auf den Referenzzeitpunkt (tr) erfolgt und/oder dass die Steuereinrichtung in Abhängigkeit von dem Referenzzeitpunkt (tr) einen Aktionsparameterwert (WR) ermittelt und diesen Aktionsparameterwert (WR) bei der Ansteuerung des Geräts verwendet.
11. Computerprogramm mit Programmcode-Mitteln, um alle Schritte eines Verfahrens
nach einem der Ansprüche 1 bis 9 auszuführen, wenn das Programm auf einem Computer
ausgeführt wird.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10163214A DE10163214A1 (de) | 2001-12-21 | 2001-12-21 | Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes |
PCT/IB2002/005466 WO2003054858A1 (en) | 2001-12-21 | 2002-12-16 | Method and control system for the voice control of an appliance |
AU2002366898A AU2002366898A1 (en) | 2001-12-21 | 2002-12-16 | Method and control system for the voice control of an appliance |
JP2003555496A JP2005513560A (ja) | 2001-12-21 | 2002-12-16 | 電気機器を音声制御する方法及び制御システム |
US10/498,949 US20050071169A1 (en) | 2001-12-21 | 2002-12-16 | Method and control system for the voice control of an appliance |
EP02790585A EP1459295A1 (de) | 2001-12-21 | 2002-12-16 | Verfahren und regelsystem zur sprachansteuerung eines gerätes |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10163214A DE10163214A1 (de) | 2001-12-21 | 2001-12-21 | Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10163214A1 true DE10163214A1 (de) | 2003-07-10 |
Family
ID=7710343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10163214A Withdrawn DE10163214A1 (de) | 2001-12-21 | 2001-12-21 | Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes |
Country Status (6)
Country | Link |
---|---|
US (1) | US20050071169A1 (de) |
EP (1) | EP1459295A1 (de) |
JP (1) | JP2005513560A (de) |
AU (1) | AU2002366898A1 (de) |
DE (1) | DE10163214A1 (de) |
WO (1) | WO2003054858A1 (de) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050071170A1 (en) * | 2003-09-30 | 2005-03-31 | Comerford Liam D. | Dissection of utterances into commands and voice data |
EP2495212A3 (de) * | 2005-07-22 | 2012-10-31 | QUALCOMM MEMS Technologies, Inc. | MEMS-Vorrichtungen mit Stützstrukturen und Herstellungsverfahren dafür |
US8521537B2 (en) * | 2006-04-03 | 2013-08-27 | Promptu Systems Corporation | Detection and use of acoustic signal quality indicators |
US7933619B2 (en) * | 2007-10-02 | 2011-04-26 | Airvana, Corp. | Wireless control of access points |
JP5053950B2 (ja) * | 2008-07-29 | 2012-10-24 | キヤノン株式会社 | 情報処理方法、情報処理装置、プログラムおよび記憶媒体 |
TWI557722B (zh) * | 2012-11-15 | 2016-11-11 | 緯創資通股份有限公司 | 語音干擾的濾除方法、系統,與電腦可讀記錄媒體 |
US20180166073A1 (en) * | 2016-12-13 | 2018-06-14 | Ford Global Technologies, Llc | Speech Recognition Without Interrupting The Playback Audio |
JP7314102B2 (ja) * | 2020-07-09 | 2023-07-25 | Tvs Regza株式会社 | 制御信号生成回路、受信装置、システム、生成方法、およびプログラム |
US20220165291A1 (en) * | 2020-11-20 | 2022-05-26 | Samsung Electronics Co., Ltd. | Electronic apparatus, control method thereof and electronic system |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19533541C1 (de) * | 1995-09-11 | 1997-03-27 | Daimler Benz Aerospace Ag | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens |
AU7349998A (en) * | 1997-05-19 | 1998-12-11 | Creator Ltd. | Programmable assembly toy |
ES2173596T3 (es) * | 1997-06-06 | 2002-10-16 | Bsh Bosch Siemens Hausgeraete | Aparato domestico, en particular aparato domestico electrico. |
JPH11249692A (ja) * | 1998-02-27 | 1999-09-17 | Nec Saitama Ltd | 音声認識装置 |
EP0951883B1 (de) * | 1998-03-18 | 2005-07-27 | Nippon Telegraph and Telephone Corporation | Tragbares Kommunikationsgerät mit Anordnung zum Knochenleitungshören |
TW495710B (en) * | 1998-10-15 | 2002-07-21 | Primax Electronics Ltd | Voice control module for control of game controller |
US6937984B1 (en) * | 1998-12-17 | 2005-08-30 | International Business Machines Corporation | Speech command input recognition system for interactive computer display with speech controlled display of recognized commands |
US6246986B1 (en) * | 1998-12-31 | 2001-06-12 | At&T Corp. | User barge-in enablement in large vocabulary speech recognition systems |
US20030093281A1 (en) * | 1999-05-21 | 2003-05-15 | Michael Geilhufe | Method and apparatus for machine to machine communication using speech |
US20020193989A1 (en) * | 1999-05-21 | 2002-12-19 | Michael Geilhufe | Method and apparatus for identifying voice controlled devices |
JP2001175281A (ja) * | 1999-12-20 | 2001-06-29 | Seiko Epson Corp | 動作指令処理方法および動作指令処理装置並びに動作指令処理プログラムを記録した記録媒体 |
JP2001319045A (ja) * | 2000-05-11 | 2001-11-16 | Matsushita Electric Works Ltd | 音声マンマシンインタフェースを用いたホームエージェントシステム、及びプログラム記録媒体 |
US6937742B2 (en) * | 2001-09-28 | 2005-08-30 | Bellsouth Intellectual Property Corporation | Gesture activated home appliance |
-
2001
- 2001-12-21 DE DE10163214A patent/DE10163214A1/de not_active Withdrawn
-
2002
- 2002-12-16 JP JP2003555496A patent/JP2005513560A/ja active Pending
- 2002-12-16 EP EP02790585A patent/EP1459295A1/de not_active Ceased
- 2002-12-16 AU AU2002366898A patent/AU2002366898A1/en not_active Abandoned
- 2002-12-16 US US10/498,949 patent/US20050071169A1/en not_active Abandoned
- 2002-12-16 WO PCT/IB2002/005466 patent/WO2003054858A1/en not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
AU2002366898A1 (en) | 2003-07-09 |
WO2003054858A1 (en) | 2003-07-03 |
US20050071169A1 (en) | 2005-03-31 |
EP1459295A1 (de) | 2004-09-22 |
JP2005513560A (ja) | 2005-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60120062T2 (de) | Sprachsteuerung von elektronischen Geräten | |
DE102016212647B4 (de) | Verfahren zum Betreiben eines Sprachsteuerungssystems in einem Innenraum und Sprachsteuerungssystem | |
DE10163213A1 (de) | Verfahren zum Betrieb eines Spracherkennungssystems | |
DE112016002321T5 (de) | Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm | |
DE102011012400A1 (de) | Infotainmentsystemsteuerung | |
DE102014109122A1 (de) | Systeme und Verfahren für ergebnisbezogene Arbitrierung in Sprachdialogsystemen | |
DE102017119762A1 (de) | Ereignis zum Unterbrechen einer gesprochenen Äußerung ausser Pausieren oder Aussetzen in einem Fluss von gesprochenen Äusserungen | |
EP3430615B1 (de) | Fortbewegungsmittel, system und verfahren zur anpassung einer länge einer erlaubten sprechpause im rahmen einer spracheingabe | |
DE10163214A1 (de) | Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes | |
WO2005022511A1 (de) | Unterstützungsverfahren für sprachdialoge zur bedienung von kraftfahrzeugfunktionen | |
DE10251113A1 (de) | Verfahren zum Betrieb eines Spracherkennungssystems | |
EP3108476A1 (de) | Verfahren zur erfassung wenigstens zweier zu erfassender informationen mit zu verknüpfendem informationsgehalt durch eine sprachdialogeinrichtung, sprachdialogeinrichtung und kraftfahrzeug | |
WO2018069027A1 (de) | Multimodaler dialog in einem kraftfahrzeug | |
DE102017206876B4 (de) | Verfahren zum Betreiben eines Sprachsteuerungssystems in einem Kraftfahrzeug undSprachsteuerungssystem | |
DE102017213249A1 (de) | Verfahren und System zum Erzeugen einer auditiven Meldung in einem Innenraum eines Fahrzeugs | |
WO2018010853A1 (de) | Steuervorrichtung und verfahren zum sprachbasierten betreiben eines kraftfahrzeugs | |
EP1121684B1 (de) | Verfahren und vorrichtung zur ausgabe von informationen und/oder meldungen per sprache | |
DE102020130041A1 (de) | Verbergen von phrasen in über luft laufendem audio | |
DE102019126688A1 (de) | System und verfahren zur automatischen untertitelanzeige | |
DE102006045719B4 (de) | Medizinisches System mit einer Spracheingabevorrichtung | |
DE102006035780B4 (de) | Verfahren zur Unterstützung des Bedieners eines Spracheingabesystems | |
DE102007043264A1 (de) | Vorrichtung und Verfahren zur Ausgabe eine Sprachsignals | |
EP3115886A1 (de) | Verfahren zum betreiben eines sprachsteuerungssystems und sprachsteuerungssystem | |
DE102022125547A1 (de) | Kraftfahrzeug und Verfahren zum Zusammenfassen eines Gesprächs in einem Kraftfahrzeug | |
DE102019112412A1 (de) | System und verfahren zur unterstützung des fahrers eines fahrzeugs sowie fahrzeug, insbesondere kraftfahrzeug |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8139 | Disposal/non-payment of the annual fee |