DE10163214A1

DE10163214A1 - Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes

Info

Publication number: DE10163214A1
Application number: DE10163214A
Authority: DE
Inventors: Volker Steinbis
Original assignee: Philips Intellectual Property and Standards GmbH
Current assignee: Philips Intellectual Property and Standards GmbH
Priority date: 2001-12-21
Filing date: 2001-12-21
Publication date: 2003-07-10
Also published as: AU2002366898A1; WO2003054858A1; US20050071169A1; EP1459295A1; JP2005513560A

Abstract

Beschrieben wird ein Verfahren zur Sprachsteuerung eines Geräts, bei dem ein Sprachsignal (S) eines Benutzers einer Spracherkennungseinrichtung zur Erkennung eines Befehls oder einer Befehlssequenz zugeführt wird. Abhängend von dem von der Spracherkennungseinrichtung erkannten Befehl oder der Befehlssequenz wird eine entsprechende Aktion (A) oder Aktionsabfolge (A¶S¶, A¶R¶) des Geräts durchgeführt. In Abhängigkeit vom Auftreten und/oder zeitlichen Verlauf des Sprachsignals (S) wird ein Referenzzeitpunkt (t¶r¶) bestimmt. Die Aktion (A) oder Aktionsabfolge (A¶S¶, A¶R¶) des Geräts erfolgt dann in einem bestimmten Zeitschema, bezogen auf den Referenzzeitpunt (t¶r¶), und/oder es wird in Abhängigkeit von dem Referenzzeitpunkt(t¶r¶) ein Aktionsparameterwert ermittelt, der bei der Aktion (A) oder Aktionsabfolge (A¶S¶, A¶R¶) verwendet wird. Darüber hinaus wird ein entsprechendes Steuersystem beschrieben.

Description

Die Erfindung betrifft ein Verfahren zur Sprachsteuerung eines Gerätes, bei dem ein Sprachsignal eines Benutzers einer Spracherkennungseinrichtung zur Erkennung eines Befehls oder einer Befehlsequenz zugeführt wird und in Abhängigkeit des von der Spracherkennungseinrichtung erkannten Befehls oder Befehlsequenz eine entsprechende Aktion oder Aktionsabfolge des Gerätes durchgeführt wird. Darüber hinaus betrifft die Erfindung ein Sprachsteuersystem zur Durchführung eines solchen Verfahrens.
In den verschiedensten Bereichen werden zunehmend Spracherkennungsverfahren eingesetzt, um die unterschiedlichsten Geräte mittels Sprachbefehlen durch den Benutzer zu steuern. Typische bereits heute übliche Einsatzorte sind Steuerungen von Peripheriegeräten in KFZ wie Radios, Mobilfunkgeräte oder Navigationssysteme. Hier macht sich besonders der Vorteil bemerkbar, dass eine Sprachsteuerung eine Freihandbedienung des jeweiligen Geräts ermöglicht und somit der Fahrer des KFZ das Gerät steuern und gleichzeitig seine Hände ohne Beeinträchtigung weiter für die Steuerung des KFZ verwenden kann. Des Weiteren sind solche Steuerungen von besonders großem Nutzen für solche Personen, die beispielsweise in ihrer Bewegung stark eingeschränkt sind und daher nur über die Sprache als Steuerungsmittel verfügen. Eine Sprachsteuerung hat darüber hinaus ganz allgemein den Vorteil, dass, anders als bei den Verfahren, bei denen eine Tastatur oder ähnliches verwendet wird, die Benutzerschnittstelle an das Hauptkommunikationsmittel des Menschen, nämlich die Sprache angepasst ist. Zusätzlich ergibt sich dadurch, dass die Sprachbefehle für die Sprachsteuerung drahtlos zum jeweiligen Gerät übermittelt werden, der Vorteil einer ganz natürlichen - das heißt in der Regel ohne Mehraufwand erreichbaren - kurzreichweitigen Fernsteuerung des Geräts. Es werden deshalb auch allgemein immer mehr Geräte des täglichen Lebens, beispielsweise Küchengeräte oder Geräte der Unterhaltungselektronik, mit Sprachsteuerungen ausgestattet. Eine Sprachsteuerung ist dabei nicht nur bei Einzelgeräten, wie beispielsweise einem Videorecorder oder Fernseher, sondern grundsätzlich bei jeder elektronisch steuerbaren Einrichtung möglich. Insbesondere können auch beliebige komplexe Gerätesysteme, wie beispielsweise eine vernetzte Haus- oder Büroelektronik, hierüber gesteuert werden. Ebenso ist es beispielsweise möglich, mittels Sprachsteuerung über einen Rechner im Internet zu "surfen". Es wird daher ausdrücklich darauf hingewiesen, dass der hier benutzte Begriff "Gerät" insoweit umfassend zu verstehen ist.
Bei einer Sprachsteuerung wird üblicherweise ein vom Benutzer ausgesprochener Befehl oder eine Befehlssequenz beispielsweise mittels eines Mikrofons als Sprachsignal erfasst. Dieses Sprachsignal wird dann an eine Spracherkennungseinrichtung weitergeleitet, die wiederum, sobald sie aus dem eingegebenen Sprachsignal den Befehl bzw. die Befehlssequenz erkannt hat, diesen Befehl bzw. die Befehlssequenz an eine Steuereinrichtung des jeweiligen Gerätes weiterleitet. Die Steuereinrichtung steuert dann die betreffenden Komponenten des Geräts auf die gewünschte Weise an, so dass der vom Benutzer gegebene Befehl so schnell wie möglich durchgeführt wird. Obwohl sämtliche Komponenten des Sprachsteuerungssystems sehr schnell arbeiten, lässt es sich jedoch nicht vermeiden, dass immer eine gewisse Zeitverzögerung zwischen der Aussprache des Befehls durch den Benutzer und der Ausführung durch das Gerät vorliegt. Der größte Anteil der Zeitverzögerung entsteht hierbei in den meisten Fällen bei der Spracherkennung, weil z. B. ein bestimmter Zeitraum benötigt wird, um sicher feststellen zu können, ob ein Befehl wirklich beendet ist oder noch fortgesetzt wird. So muss beispielsweise nach einer Erkennung des Befehls "Kanal drei" sichergestellt sein, dass nicht noch die Eingabe "zehn" folgt, wodurch sich dann insgesamt der vom Nutzer gewünschte Befehl "Kanal dreizehn" ergeben würde. Ungünstigerweise ist dabei die Zeitspanne zwischen der Aussprache und der Ausführung des Befehls nicht genau definiert, da die Spracherkennungseinrichtung selbst bei identischen Befehlen nicht immer die gleiche Zeit benötigt, um den Befehl zu erkennen. So beeinflussen neben dem Befehl selber viele weitere Parameter, beispielsweise Hintergrundgeräuschanteile bei der Eingabe des Sprachsignals oder - bei komplexeren Systemen, die gleichzeitig mehrere Rechneroperationen ausführen können - die aktuelle Auslastung des Systems, die zur Erkennung eines Befehls benötigte Zeit. Ein derartiges Zeitverhalten des Sprachsteuerungssystems ist zum einen deswegen unvorteilhaft, da unterschiedliche Verzögerungszeiten zu einer Verunsicherung des Benutzers beitragen können. Zum Beispiel ist der Benutzer, wenn die Zeit zur Erkennung länger dauert, oft nicht sicher, ob der Befehl überhaupt empfangen wurde. Dies kann dazu führen, dass der Benutzer unnötigerweise mehrfach den Befehl eingibt. Ein weiterer Nachteil ergibt sich insbesondere auch dann, wenn es sich um einen Befehl für ein Gerät handelt, bei dem das Zeitverhalten kritisch ist. Ein typisches Beispiel hierfür ist das punktgenaue Stoppen eines laufenden Audio- oder Videogerätes an einer bestimmten Position, beispielsweise bei einem bestimmten Bild.
Eine Möglichkeit, dieses Problem zu umgehen, besteht darin, die Erkennung des Befehls zu beschleunigen. Ein Beispiel für eine relativ einfache und daher schnelle Erkennung eines Befehls wird u. a. in der DE 41 03 913 A1 beschrieben. Hierbei wird vorgeschlagen, anstatt einer vollständigen Spracherkennung aus dem gesprochenen Satz oder dem gesprochenen Befehl ein durch ein Zeitmuster charakterisiertes Messsignal zu erzeugen, wobei das Zeitmuster die Tondauer und Pausendauer des Signals betrifft. Dieses Zeitmuster des Messsignals wird dann mit dem Zeitmuster eines Mustersignals verglichen, und bei Übereinstimmung des Zeitmusters wird dann das dem Mustersignal entsprechende Steuersignal erzeugt. Dieses Verfahren ist jedoch auf einfache Sprachsteuerungen mit einem sehr begrenzten Repertoire an Sprachbefehlen begrenzt, welche sich bezüglich ihres Zeitmusters dementsprechend stark unterscheiden müssen. Im Übrigen ist selbst bei einer erheblichen Reduzierung der Erkennungszeit grundsätzlich immer noch nicht gewährleistet, dass bei jeder Eingabe eines Befehls die Erkennungszeit variiert und zu den genannten Problemen führt.
Es ist Aufgabe der vorliegenden Erfindung, eine Alternative zu diesem Stand der Technik zu schaffen, welche die genannten Probleme vermeidet.
Diese Aufgabe wird dadurch gelöst, dass in Abhängigkeit vom Auftreten und/oder zeitlichen Verlauf des Sprachsignals ein Referenzzeitpunkt bestimmt wird und dass die Aktion oder Aktionsabfolge des Geräts in einem bestimmten Zeitschema bezogen auf den Referenzzeitpunkt erfolgt und/oder in Abhängigkeit von dem Referenzzeitpunkt ein Aktionsparameterwert ermittelt wird, der bei der Aktion oder Aktionsabfolge verwendet wird.
Außerdem wird die Aufgabe durch ein entsprechendes Sprachsteuersystem gelöst, welches eine Analyseeinrichtung für ein erfasstes Sprachsignal zur Bestimmung eines solchen Referenzzeitpunkts aufweist und dessen Steuereinrichtung das Gerät so ansteuert, dass die Aktion oder Aktionsabfolge des Geräts in einem bestimmten Zeitschema bezogen auf den Referenzzeitpunkt erfolgt und/oder dass die Steuereinrichtung in Abhängigkeit von dem Referenzzeitpunkt einen Aktionsparameterwert ermittelt und diesen Aktionsparameterwert bei der Ansteuerung des Geräts verwendet.
Das Sprachsteuersystem kann dabei Bestandteil des Gerätes selber sein. Es kann sich aber auch um ein separates Sprachsteuersystem handeln, welches diesem Gerät oder auch mehreren Geräten innerhalb eines komplexeren Systems vorgeschaltet ist und lediglich die Steuerbefehle an die einzelnen zu steuernden Geräte bzw. weiteren Systemkomponenten ausgibt.
Die abhängigen Ansprüche enthalten besonders vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung.
Die zur Bestimmung des Referenzzeitpunktes notwendige Analyse kann sowohl unabhängig als auch abhängig von der eigentlichen Spracherkennung, beispielsweise vor der Spracherkennung, durchgeführt werden. Das Sprachsteuersystem benötigt dabei im einfachsten Fall nur eine relativ primitive zusätzliche Analyseeinrichtung, die z. B. nur den Anfang und/oder das Ende eines Sprachsignals detektiert. Sofern eine genauere Analyse zur Bestimmung eines Referenzzeitpunktes gewünscht wird, muss dagegen gleichermaßen auch die Analyseeinrichtung komplexer ausgestaltet sein, wobei es sich u. U. anbietet, als Analyseeinrichtung die Spracherkennungseinrichtung bzw. Teile der Spracherkennungseinrichtung mit zu verwenden, um einen geeigneten Referenzzeitpunkt festzulegen. In einem solchen Fall ist es besonders vorteilhaft, wenn die als Analyseeinrichtung verwendete Spracherkennungseinrichtung das Analyseergebnis zur Bestimmung des Referenzzeitpunkts möglichst frühzeitig ausgibt und nicht erst mit der Ausgabe des erkannten Befehls bzw. der Befehlsequenz.
Anschließend wird erfindungsgemäß die Aktion oder Aktionsabfolge des Gerätes in einem bestimmten Zeitschema - beispielsweise ab einem bestimmten Zeitpunkt - bezogen auf diesen Referenzzeitpunkt durchgeführt. Alternativ oder zusätzlich wird in Abhängigkeit von dem Referenzzeitpunkt ein Aktionsparameterwert ermittelt, der dann bei der Aktion oder Aktionsabfolge verwendet wird. Bei einem solchen Aktionsparameter kann es sich beispielsweise um eine bestimmte Rücklaufzeit bei einem Gerät wie z. B. einem Videorecorder mit einer Vorlauf-/Rücklauf-Funktion handeln. Es kann sich bei einem solchen Aktionsparameter aber auch um eine Zeit handeln, die aus einer Zeitangabe des Benutzers, beispielsweise einem Befehl wie "noch 5 Minuten" berechnet wird, wobei bei der Berechnung der Referenzzeitpunkt berücksichtigt wird, indem die Zeitangabe des Benutzers auf den Referenzzeitpunkt bezogen wird.
Durch die Festlegung eines - bezogen auf das erfasste Sprachsignal - zeitlich absolut feststehenden Referenzzeitpunktes und den Ablauf der folgenden Aktion bzw. Aktionsabfolge innerhalb eines bestimmten Zeitschemas - bezogen auf diesen Referenzzeitpunkt - wird gewährleistet, dass die für den Benutzer erkennbare Zeit, die das Gerät bzw. das Sprachsteuersystem für die Befehlsausführung benötigt, im Wesentlichen immer gleich ist und nicht davon abhängig, wie schnell jeweils der Spracherkenner in der Lage war, den Befehl oder die Befehlsequenz aus dem Sprachsignal zu extrahieren. Der Benutzer bekommt so automatisch ein Gefühl für das Zeitverhalten des Gerätes und wird nicht durch unterschiedliche Erkennungszeiten irritiert. Durch die Ermittlung eines Aktionsparameterwertes in Abhängigkeit von dem jeweiligen Referenzzeitpunkt ist es möglich, bei solchen Befehlen, bei denen das Zeitverhalten maßgeblich ist, die Zeitverzögerung zwischen Aussprache und Ausführung des Befehls sogar zu kompensieren.
Als Referenzzeitpunkt bieten sich die verschiedensten Zeitpunkte innerhalb des Zeitablaufes des Sprachsignals an. Besonders einfach festlegbare Referenzzeitpunkte sind beispielsweise der Beginn oder das Ende des Sprachsignals. Diese sind mit einem einfachen Sprachaktivitätsdetektor sehr schnell detektierbar.
Ebenso ist es möglich, als Referenzzeitpunkt den Zeitpunkt des Auftretens eines bestimmten charakteristischen Merkmals im Sprachsignal auszuwählen. Ein solches charakteristisches Merkmal kann vorzugsweise mit Hilfe des Beginns und/oder des Endes eines bestimmten Phonems oder eines Abschnitts des Sprachsignals ermittelt werden. Dabei kann im einfacheren Fall der Beginn oder das Ende des Phonems oder des Abschnitts des mehrteiligen Sprachsignals selbst als Referenzzeitpunkt dienen. Es ist aber auch möglich, kompliziertere Algorithmen zu verwenden und beispielsweise als Referenzzeitpunkt einen zeitlichen Mittelwert zwischen dem Beginn und dem Ende eines bestimmten Phonems oder Abschnitts zu wählen.
Die Wahl des Referenzzeitpunktes erfolgt dabei vorzugsweise so, dass er möglichst einfach und sicher in einem bestimmten Befehl detektiert werden kann, so dass bei einer Eingabe dieses Befehls immer derselbe Referenzzeitpunkt gewählt wird. Ein typisches, sehr einfach registrierbares charakteristisches Merkmal ist beispielsweise der Beginn des Vokals "e" in einem Befehl "TV jetzt".
Bei einem bevorzugten Ausführungsbeispiel erfolgt die Steuerung des Geräts derart, dass ein Aktionszeitpunkt des Gerätes, an dem die Aktion oder Aktionsabfolge der Gerätes beginnt, einen definierten zeitlichen Abstand (d. h. eine definierte Verzögerungszeit) zum Referenzzeitpunkt aufweist.
Bei einem weiteren bevorzugten Ausführungsbeispiel ist das Zeitschema jeweils abhängig von dem eingegebenen Befehl. So kann beispielsweise bei einem Einschaltbefehl für ein Gerät die Verzögerungszeit immer auf genau eine Sekunde eingestellt sein, wogegen bei einem Stoppbefehl, insbesondere beispielsweise einem Notfallstopp, das Zeitschema so gewählt wird, dass unmittelbar nach der Erkennung des Stoppbefehls das Gerät stoppt.
Das Zeitschema kann auch so gewählt sein, dass der Befehl innerhalb eines bestimmten Zeitraumes zwischen einer Minimalzeit und einer Maximalzeit ausgeführt werden muss. Die Aktion bzw. Aktionsfolge erfolgt dann frühestens nach Ablauf der Minimalzeit von beispielsweise einer Sekunde. Wenn bis dahin eine Erkennung des Signals nicht möglich war, erfolgt die Ausführung des Befehls unmittelbar nach Erhalt des erkannten Signals. Nach Überschreiten der Maximalzeit, beispielsweise nach 1,5 Sekunden, bricht das Sprachsteuersystem den Vorgang ab und gibt an den Benutzer ein entsprechendes Signal, beispielsweise eine Nachricht "Befehl nicht erkannt", aus.
Vorzugsweise wird das Zeitschema so gewählt, dass unter normalen Bedingungen eine Erkennung der möglichen Befehle bzw. Befehlssequenzen innerhalb der festen Verzögerungszeit bzw. der Minimalzeit möglich ist, so dass punktgenau nach Ablauf der vorgegebenen Zeit die Aktion oder Aktionsabfolge des Gerätes beginnt.
Wenn das System erkennt, dass der vorgegebene Zeitpunkt bereits abgelaufen ist, bevor der Befehl oder die Befehlssequenz erkannt ist, so bestehen verschiedene Möglichkeiten, um solche Situationen für die Zukunft zu vermeiden. Eine Möglichkeit besteht darin, das Zeitschema zu verändern und beispielsweise die voreingestellte Verzögerungszeit bzw. Minimalzeit heraufrusetzen. Eine andere Möglichkeit besteht darin, soweit dies möglich ist die Parameter der Spracherkennungseinheit und/oder die Systemressourcen zu variieren, um so beim nächsten Mal die Erkennung schneller durchführen zu können.
Außerdem kann das System, wenn es feststellt, dass der vorgegebene Zeitpunkt abzulaufen droht, eine Entscheidung unter verschiedenen, bereits aufgestellten Hypothesen der Spracherkennungseinheit erzwingen, um so sofort ein Erkennungsergebnis zu erhalten. Sofern der vorgegebene Zeitpunkt abhängig vom Erkennungsergebnis und somit abhängig von der jeweiligen Hypothese ist, kann das System entsprechend reagieren, sobald für eine der Hypothesen der Zeitpunkt abläuft.
Bei einem bevorzugten Ausführungsbeispiel wird der Zeitraum bis zu einem Aktionszeitpunkt des Gerätes gemäß Anspruch 6 durch Ausgabe einer Signalempfangsbestätigung an einen Benutzer überbrückt. Bei einer solchen Signalempfangsbestätigung kann es sich beispielsweise um ein akustisches oder optisches Signal wie das Aufleuchten einer Leuchtdiode oder dergleichen handeln. Dabei erfolgt auch die Ausgabe dieser Signalempfangsbestätigung in einem genau definierten Zeitschema.
Die Ausgabe einer solchen Signalempfangsbestätigung bietet sich insbesondere dann an, wenn die Verzögerungszeit relativ groß eingestellt ist, um genügend Rechenzeit für die Erkennung des Befehls zur Verfügung zu haben. Durch eine solche, für den Benutzer vorhersagbare Empfangsbestätigung nach dem Aussprechen des Sprachbefehls und vor dessen Ausführung wird ein besseres Benutzergefühl erreicht, da der Benutzer hierdurch erfährt, dass sein Sprachbefehl unmittelbar etwas bewirkt, d. h. dass das Gerät bzw. die Sprachsteuerung aufgrund seines Sprachbefehls aktiv ist.
Das Sprachsteuersystem benötigt hierfür eine Signalisierungseinrichtung, um die Signalempfangsbestätigung an den Benutzer auszugeben, und die Steuereinrichtung muss entsprechend eingerichtet sein, um die Signalisierungseinrichtung gemäß den Vorgaben anzusteuern.
Bei einem besonders bevorzugten Ausführungsbeispiel wird bezüglich des Referenzzeitpunktes zunächst ein Soll-Aktionszeitpunkt definiert. Bei diesem Soll-Aktionszeitpunkt handelt es sich um den Zeitpunkt, an dem die vom Benutzer gewünschte Aktion durchgeführt werden sollte. Ein typisches Beispiel hierfür ist das Stoppen eines Video- oder DVD- Recorders zu einem ganz genau definierten Zeitpunkt, das heißt bei einem ganz bestimmten Bild. Sobald der Benutzer dieses Bild erkennt, äußert er den Sprachbefehl "Stopp" und erwartet, dass der Recorder genau bei diesem Bild stoppt.
Als Soll-Aktionszeitpunkt kann dabei im Prinzip der Referenzzeitpunkt selbst definiert werden, insbesondere dann, wenn als Referenzzeitpunkt der Beginn des erfassten Sprachsignals gewählt wird. Vorzugsweise wird jedoch bei der Definition des Soll-Aktionszeitpunktes bezüglich des Referenzzeitpunktes die Reaktionszeit des Benutzers selbst berücksichtigt. Dazu wird beispielsweise als Soll-Aktionszeitpunkt ein Zeitpunkt vor dem Referenzzeitpunkt gewählt, wobei der Abstand zwischen dem Soll-Aktionszeitpunkt und dem Referenzzeitpunkt einer mittleren Benutzer-Reaktionszeit, beispielsweise 0,2 Sekunden, entspricht.
Es wird dann eine "Reaktionszeit" zwischen dem definierten Soll-Aktionszeitpunkt und dem tatsächlichen Ist-Aktionszeitpunkt des Gerätes ermittelt. Da die Benutzer-Reaktionszeit berücksichtigt wird, handelt es sich hierbei um die Gesamtreaktionszeit des aus dem Benutzer, dem Sprachsteuerungssystem und dem Gerät bestehenden Gesamt-Systems. Anhand dieser Reaktionszeit wird dann ein Aktionsparameterwert für die durchzuführende Aktion oder Aktionsabfolge des Gerätes ermittelt und bei der Durchführung der Aktion oder Aktionsabfolge unter Verwendung dieses Aktionsparameterwertes die Reaktionszeit wieder kompensiert.
Dieses Verfahren bietet sich insbesondere bei allen Geräten an, welche eine Medienein- und/oder -ausgabeeinheit mit einer Vorlauf und/oder Rücklauffunktion aufweisen. Zu solchen Geräten zählen neben den genannten Videorecordern oder DVD-Recordern auch Geräte wie Tonbandgeräte, CD-Player oder andere beliebige Geräte, die eine Datensequenz optisch und/oder akustisch in einer zeitlichen Abfolge an den Benutzer ausgeben und/oder bei denen der Benutzer entsprechend Daten eingeben kann, wie z. B. bei einer Filmkamera. Zu diesen Geräten zählen folglich auch Computer oder ähnliche Geräte mit entsprechender Software, die beispielsweise über das Internet oder aus einem Speicher, z. B. von der Festplatte oder einem Disketten- oder DVD-Laufwerk eine Abfolge von Vortragsfolien, Suchlisten etc. an den Benutzer ausgeben und bei denen der Benutzer die Möglichkeit haben soll, diese Ausgabe punktgenau zu stoppen.
In der Regel ist es bei solchen Medienein- und/oder -ausgabeeinheiten möglich, mit der Vorlauf und/oder Rücklauffunktion einen gewünschten Punkt, d. h. beispielsweise einen bestimmten Datensatz, beispielsweise ein Bild, anzufahren. Dabei besteht üblicherweise die Möglichkeit, mit verschiedenen Geschwindigkeiten vor- und rückzulaufen, wobei in unterschiedlichen Modi ein Vorlauf oder Rücklauf ohne Ausgabe von Daten erfolgt und in anderen Modi (Suchlauf oder einfaches Abspielen) dem Benutzer die Daten angezeigt werden. Bei derartigen Geräten kann anhand der ermittelten Reaktionszeit als Aktionsparameterwert ein Rücklaufwert oder Vorlaufwert ermittelt werden, je nachdem, ob der Stoppbefehl erfolgt, um das Gerät während eines Vorlaufs oder eines Rücklaufs zu stoppen. Zu dem gegebenen Aktionszeitpunkt wird die Medienein- und/oder -ausgabeeinheit dann in einer Aktionsabfolge zunächst gestoppt und entsprechend dem ermittelten Rücklauf bzw. Vorlaufwert wieder zurückgefahren bzw. vorgefahren, so dass die Reaktionszeit kompensiert wird.
Die Durchführung des Verfahrens kann im Prinzip rein softwaremäßig mit einem Computerprogramm beispielsweise mittels entsprechender Softwaremodule auf einem geeigneten Computer erfolgen. Dabei kann die Spracherkennungseinrichtung durch ein Software-Spracherkennungsmodul und die Steuereinrichtung durch ein Software- Steuerungsmodul gebildet werden. Ebenso kann auch eine Sprachausgabeeinrichtung mit einem TTS-Modul (Text to Speech) realisiert werden. Zur Steuerung des Dialogs mit einem Benutzer kann ein Dialogkontrollmodul auf dem Computer installiert sein. Alle diese Module müssen dann in geeigneter Weise, beispielsweise als Unterroutinen und Hauptroutinen, miteinander verknüpft sein, um gemäß dem erfindungsgemäßen Verfahren zusammenzuwirken. Der Computer muß natürlich mit einer geeigneten Einrichtung zur Erfassung eines Sprachsignals des Benutzers, z. B. einem Mikrofon, verbunden sein.
Die verschiedenen Software-Module können dabei auch statt auf einem einzelnen Computer auf verschiedenen, untereinander vernetzten Computern installiert sein. So kann beispielsweise ein erster Computer das Steuerungsmodul und ein Dialogkontrollmodul aufweisen, wogegen die relativ rechenintensive automatische Spracherkennung bei Bedarf auf einem zweiten Computer durchgeführt wird.
Die Erfindung wird im Folgenden unter Hinweis auf die beigefügten Figuren anhand von Ausführungsbeispielen näher erläutert. Es zeigen:
Fig. 1 eine schematische Darstellung des zeitlichen Ablaufs von der Aussprache bis zur Ausführung eines Sprachbefehls bei Einstellung einer festen Verzögerungszeit zwischen dem Referenzzeitpunkt und einem Aktionszeitpunkt,
Fig. 2 eine schematische Darstellung eines Zeitablaufs wie in Fig. 1, bei dem jedoch die Verzögerungszeit zwischen dem Referenzzeitpunkt und dem Aktionszeitpunkt durch ein Bestätigungssignal überbrückt wird,
Fig. 3 eine schematische Darstellung des zeitlichen Ablaufes bei einem bildgenauen Stopp eines Videorecorders.
Aufgetragen sind in den Figuren der zeitliche Ablauf des Auftretens des Sprachsignals S sowie der Aktion A bzw. der Aktionsfolge A_S, A_R des Gerätes über der Zeit t. In den dargestellten Ausführungsbeispielen beginnt das Sprachsignal S jeweils zum Zeitpunkt t₁ und endet zum Zeitpunkt t₂.
Bei den in den ersten beiden Figuren dargestellten Ausführungsbeispielen handelt es sich jeweils um eine Sprachsteuerung eines Fernsehgeräts.
In Fig. 1 ist eine erste Variante des Verfahrens dargestellt, wobei es sich bei dem Sprachbefehl S um einen Einschaltbefehl für das Fernsehgerät, hier die Wortfolge "TV an" handelt. Das Sprachsignal S umfasst somit zwei Signalabschnitte, welche den beiden Worten "TV" und "an" entsprechen. Als Referenzzeitpunkt t_r wurde ein bestimmtes, leicht detektierbares Merkmal in dem zweiten Abschnitt des Sprachsignals S, das heißt im Wort "an" gewählt. Im konkreten Fall wird dabei auf das Ende des Vokals "a" im Wort "an" abgestellt.
Sobald das Sprachsignal S erfasst wird, wird es an eine Spracherkennungseinrichtung weitergeleitet, welche das Sprachsignal weiter analysiert, um den darin mitgeteilten Befehl bzw. die Befehlssequenz zu erkennen. Die erkannte Befehlssequenz "TV an" wird dann an eine Steuereinrichtung übergeben, welche das Fernsehgerät einschaltet. Diese Einschaltaktion A geschieht jedoch nicht direkt nach der Erkennung der Befehlssequenz durch die Spracherkennungseinrichtung, sondern erst zu einem definierten Aktionszeitpunkt t_a, welcher einen festen zeitlichen Abstand Δ_a zum Referenzzeitpunkt t_r aufweist. Die Aktion A erfolgt somit unabhängig von der Zeitdauer der Erkennung immer nach einer festen Verzögerungszeit Δ_a, nachdem der Benutzer das "a" im Wort "an" gesprochen hat. Hierbei wird vorausgesetzt, dass die Verzögerungszeit Δ_a zwischen dem Referenzzeitpunkt t_r und dem Aktionszeitpunkt t_a lang genug ist, dass die Spracherkennungseinrichtung die Befehlssequenz im Sprachsignal S erkennen kann.
Fig. 2 zeigt eine Variante des Verfahrens. Der Einschaltbefehl ist hierbei ein aus einem Wort bestehender Befehl, nämlich das Wort "Einschalten". Dementsprechend handelt es sich um ein einteiliges Sprachsignal S, welches wieder zu einem Zeitpunkt t₁ beginnt und an einem Zeitpunkt t₂ endet. Als Referenzzeitpunkt t_r wird hier einfach das Ende des Sprachsignals S gewählt. Dieser Ein-Wort-Befehl "Einschalten" ist in Fig. 2 lediglich gewählt, um ein weiteres Beispiel für ein Sprachsignal und einen Referenzzeitpunkt darzustellen. Es ist klar, dass die Erfindung unabhängig vom konkreten Befehl ist und dass im Ausführungsbeispiel gemäß Fig. 2 ebenso der Befehl "TV an" verwendet werden könnte oder in dem Ausführungsbeispiel nach Fig. 1 der Befehl "Einschalten" o. Ä.
Wie im Fall gemäß Fig. 1 wird das Sprachsignal S einer Spracherkennung zugeführt und anschließend nach einer genau definierten Verzögerungszeit Δ_a zum Aktionszeitpunkt t_a die Aktion A durchgeführt, d. h. das Fernsehgerät eingeschaltet. Anders als bei dem Ausführungsbeispiel gemäß Fig. 1 wird jedoch die Verzögerungszeit Δ_a zwischen dem Referenzzeitpunkt t_r und dem Aktionszeitpunkt t_a durch ein Bestätigungssignal B überbrückt, welches an den Benutzer ausgegeben wird. Auch die Ausgabe dieses Bestätigungssignals B erfolgt nach einem genau vorgegebenen Zeitschema in Abhängigkeit vom Referenzzeitpunkt t_r. Im vorliegenden Ausführungsbeispiel wird nach einer genau vorgegebenen ersten Zeitspanne Δ₁ zu einem Zeitpunkt t_b eine Leuchtdiode eingeschaltet, die eine genau definierte zweite Zeitspanne Δ_b lang leuchtet und die eine genau definierte dritte Zeitspanne Δ₂ vor dem definierten Aktionszeitpunkt t_a wieder ausgeschaltet wird. Die erste und dritte Zeitspanne Δ₁, Δ₂ könnten dabei z. B. jeweils 0,2 Sekunden betragen.
Es ist selbstverständlich auch möglich, diese Zeitspannen Δ₁, Δ₂ beliebig zu variieren und beispielsweise das Bestätigungssignal B so lange anzuzeigen, bis der Aktionszeitpunkt t_a erreicht ist, das heißt, dass die zweite Zeitspanne Δ₂ gleich Null gesetzt wird. Ein Ausschalten des Bestätigungssignals B vor dem Beginn der gewünschten Aktion A, das heißt vor dem Aktionszeitpunkt t_a ist jedoch insbesondere dann sinnvoll, wenn es sich bei dem Bestätigungssignal nicht um ein optisches Signal, sondern um ein akustisches Signal wie einen Piepton handelt und wenn die Gesamtzeitspanne zwischen dem Referenzzeitpunkt t_r und dem Aktionszeitpunkt t_a, d. h. die Verzögerungszeit Δ_a, länger ist. In diesem Fall würde ein länger andauerndes akustische Bestätigungssignal B den Benutzer wahrscheinlich belästigen. Ein kurzzeitiges akustisches Signal, beispielsweise ungefähr in der Mitte der Gesamtzeitspanne Δ_a zwischen dem Referenzzeitpunkt t_r und dem Aktionszeitpunkt t_a, wird dagegen als weniger störend empfunden. Es ist selbstverständlich auch möglich, mehrere Bestätigungssignale in genau vorgegebenen Zeitabschnitten auszugeben, beispielsweise ein Bestätigungssignal mehrmals zu wiederholen, bis schließlich der Aktionszeitpunkt t_a erreicht ist. Ebenso ist auch eine Kombination von akustischen und optischen oder sonstigen Bestätigungssignalen möglich.
In Fig. 3 ist schließlich eine weitere Variante der Erfindung dargestellt, bei der die Reaktionszeit Δ_r zwischen einem Soll-Aktionszeitpunkt t_r und einem tatsächlichen Ist- Aktionszeitpunkt t_a durch eine definierte Aktionsabfolge A_S, A_R des Gerätes wieder kompensiert wird. Im vorliegenden Fall geht es darum, einen Videorecorder bildgenau zu stoppen.
Zum Soll-Aktionszeitpunkt t_s sieht der Benutzer das Bild P und möchte den Videorecorder an dieser Position anhalten. Nach einer gewissen Reaktionszeit Δ_u des Benutzers von beispielsweise 0,2 Sekunden spricht er zum Zeitpunkt t₁ den Befehl "Stopp" aus. Das Sprachsignal S beginnt dann zum Zeitpunkt t₁ welcher später als der Soll-Aktionszeitpunkt t_s liegt, und endet zum Zeitpunkt t₂. Als Referenzzeitpunkt t_r wird in diesem Beispiel auf den Beginn des Sprachsignals, das heißt auf den Zeitpunkt t₁ abgestellt, so dass t₁ und t_r identisch sind. Es kann aber auch ein beliebiger anderer Referenzzeitpunkt t_r gewählt werden.
Das Sprachsignal S wird dann wie bei den Ausführungsbeispielen gemäß den Fig. 1 und 2 in einer Spracherkennungseinrichtung analysiert und dabei der Befehl "Stopp" erkannt. Nach einer genau definierten Verzögerungszeit Δ_a nach dem Referenzzeitpunkt t_r wird schließlich zu einem Aktionszeitpunkt t_a das Gerät tatsächlich gestoppt.
Aus Fig. 3 wird deutlich, dass zwischen dem tatsächlichen Ist-Aktionszeitpunkt t_a und dem Soll-Aktionszeitpunkt t_s, an dem das Gerät an sich stoppen sollte, eine erhebliche Zeitdifferenz liegt, welche zum einen durch die Benutzerreaktionszeit Δ_u und zum anderen durch die eingestellte Verzögerungszeit Δ_a zwischen dem Referenzzeitpunkt t_r und dem Aktionszeitpunkt t_a gegeben ist. Während dieser "Gesamtreaktionszeit" Δ_r des aus Benutzer, Spracherkennungssystem und Gerät bestehenden Gesamt-Systems befindet sich das Gerät die ganze Zeit im Vorlaufmodus V. Das heißt, zum Aktionspunkt t_a stoppt das Gerät bei einem völlig anderen Bild als dies der Benutzer wünschte.
Da die Reaktionszeit Δ_r jedoch mit Hilfe des Referenzzeitpunkts t_r berechnet werden kann - wobei allerdings die Benutzerreaktionszeit Δ_u nur als Mittelwert für verschiedene Durchschnittsnutzer angenommen werden kann - ist es möglich, anhand der Reaktionszeit Δ_r einen Rücklaufwert W_R zu ermitteln, den das Videoband zurücklaufen muss, um die vom Benutzer gewünschte Position mit dem Bild P zu erreichen.
Bei diesem Rücklaufwert W_R kann es sich entweder um eine Zeit handeln, die das Videoband im Recorder mit einer bestimmten Geschwindigkeit zurücklaufen muss. Es kann sich hierbei aber auch um eine Bandlängenangabe oder um einen ähnlichen Parameter handeln. Bei einem DVD-Recorder oder einem CD-Player kann im Übrigen als Parameter auch die genaue Position auf dem Datenträger ermittelt werden, die dann anschließend angefahren wird.
Bei dem Ausführungsbeispiel gemäß Fig. 3 wird folglich zum Aktionszeitpunkt t_a der Recorder nicht nur einfach gestoppt, sondern es wird eine Aktionsfolge A_S, A_R ausgelöst, welche aus einer Stopp-Aktion A_s und einer sofortigen Rücklaufaktion A_R des Gerätes besteht, so dass das Gerät am Ende der Aktionsfolge A_S, A_R tatsächlich an der von dem Benutzer gewünschten Position, d. h. am Bild P, steht.
Die Erfindung verbessert also zum einen die Benutzererfahrung bei der Steuerung des Gerätes, da der Benutzer durch die Vorhersagbarkeit der Zeitabläufe schon nach kurzer Zeit instinktiv ein Gefühl dafür entwickelt, wann das Gerät ordnungsgemäß funktioniert oder wann es zu Problemen bei der Sprachsteuerung, insbesondere zur Erkennungsproblemen oder Ähnlichem gekommen ist. In speziellen Fällen wie beispielsweise bei einem punktgenauen Stoppen einer Medienein- und/oder -ausgabe ist es sogar möglich, mit Hilfe der Erfindung die Verzögerungszeit des Gerätes und auf Wunsch auch die Reaktionszeit des Benutzers selber zu kompensieren.

Claims

1. Verfahren zur Sprachsteuerung eines Geräts, bei dem ein Sprachsignal (S) eines Benutzers einer Spracherkennungseinrichtung zur Erkennung eines Befehls oder einer Befehlssequenz zugeführt wird und in Abhängigkeit des von der Spracherkennungseinrichtung erkannten Befehls oder einer Befehlssequenz eine entsprechende Aktion (A) oder Aktionsabfolge (A_S, A_R) des Geräts veranlasst wird, dadurch gekennzeichnet,
dass in Abhängigkeit vom Auftreten und/oder zeitlichen Verlauf des Sprachsignals (S) ein Referenzzeitpunkt (t_r) bestimmt wird und
dass die Aktion (A) oder Aktionsabfolge (A_S, A_R) des Geräts in einem bestimmten Zeitschema bezogen auf den Referenzzeitpunkt (t_r) erfolgt und/oder in Abhängigkeit von dem Referenzzeitpunkt (t_r) ein Aktionsparameterwert (W_R) ermittelt wird, der bei der Aktion (A) oder Aktionsabfolge (A_S, A_R) verwendet wird.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass als Referenzzeitpunkt (t_r) der Beginn (t₁) oder das Ende (t₂) des Sprachsignals (S) festgelegt wird.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass als Referenzzeitpunkt (t_r) der Zeitpunkt des Auftretens eines bestimmten charakteristischen Merkmals (M) im Sprachsignal (S) festgelegt wird.

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass das charakteristische Merkmal mit Hilfe des Beginns und/oder des Endes eines bestimmten Phonems des Sprachsignals und/oder des Beginns und/oder des Endes eines bestimmten Abschnittes eines mehrteiligen Sprachsignals ermittelt wird.

5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass ein Aktionszeitpunkt (t_a) des Geräts, an dem die Aktion (A) oder Aktionsabfolge (A_S, A_R) des Geräts beginnt, einen definierten zeitlichen Abstand (Δ_a) zum Referenzzeitpunkt (t_r) aufweist.

6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass ein Zeitraum bis zu einem Aktionszeitpunkt (t_a) des Geräts, an dem die Aktion (A) oder Aktionsabfolge (A_S, A_R) des Geräts beginnt, durch Ausgabe einer Signalempfangsbestätigung (B) an einen Benutzer überbrückt wird, wobei die Signalempfangsbestätigung (B) zu einem definierten Zeitpunkt (t_B) nach dem Referenzzeitpunkt (t_r) beginnt.

7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass eine Reaktionszeit (Δ_r) zwischen einem bezüglich des Referenzzeitpunkts (t_r) definierten Soll-Aktionszeitpunkt (t_s) und dem tatsächlichen Ist-Aktionszeitpunkt (t_a) des Geräts, an dem die Aktion (A) oder Aktionsabfolge (A_S, A_R) beginnt, ermittelt wird und anhand der ermittelten Reaktionszeit (Δ_r) ein Aktionsparameterwert (W_R) für die durchzuführende Aktion (A) oder Aktionsabfolge (A_S, A_R) des Geräts ermittelt wird und bei der Durchführung der Aktion (A) oder Aktionsabfolge (A_S, A_R) unter Verwendung dieses Aktionsparameterwerts (W_R) die Reaktionszeit (Δ_r) kompensiert wird.

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass bei der Definition des Soll-Aktionszeitpunkts (t_s) bezüglich des Referenzzeitpunkts (t_r) eine Benutzerreaktionszeit (Δ_u) des Benutzers, welcher das Sprachsignal (S) abgibt, berücksichtigt wird.

9. Verfahren nach Anspruch 7 oder 8, dadurch gekennzeichnet,
dass das Gerät eine Medienein- und/oder -ausgabeeinheit mit einer Vorlauf und/oder Rücklauffunktion aufweist
und dass bei Eingabe eines Sprachsignals (S), welches einen Stopp-Befehl für die Medienein- und/oder -ausgabeeinheit umfasst, anhand der ermittelten Reaktionszeit (Δ_r) als Aktionsparameterwert (W_R) ein Rücklaufwert (W_R) oder Vorlaufwert ermittelt wird, und die Medienein- und/oder -ausgabeeinheit zu einem Aktionszeitpunkt (t_a) in einer Aktionsabfolge (A_S, A_R) stoppt und entsprechend dem ermittelten Rücklaufwert (W_R) oder Vorlaufwert wieder zurückläuft oder vorläuft.

10. Sprachsteuersystem zur Durchführung eines Verfahrens nach einem der Ansprüche 1 bis 9,
mit Mitteln zur Erfassung eines Sprachsignals (S),
einer Spracherkennungseinrichtung zur Analyse des Sprachsignal (S) zur Erkennung eines Befehls oder einer Befehlssequenz,
und einer Steuereinrichtung zur Steuerung des Geräts in Abhängigkeit des von der Spracherkennungseinrichtung erkannten Befehls oder einer Befehlssequenz, so dass dieses eine dem Befehl oder der Befehlssequenz entsprechende Aktion (A) oder Aktionsabfolge (A_S, A_R) durchführt,
dadurch gekennzeichnet,
dass das Sprachsteuersystem eine Analyseeinrichtung für ein Sprachsignal (S) zur Bestimmung eines Referenzzeitpunkts (t_r) in Abhängigkeit vom Auftreten und/oder zeitlichen Verlauf des Sprachsignals (S) aufweist
und so ausgebildet ist,
dass die Steuereinrichtung das Gerät so ansteuert, dass die Aktion (A) oder Aktionsabfolge (A_S, A_R) des Geräts in einem bestimmten Zeitschema bezogen auf den Referenzzeitpunkt (t_r) erfolgt und/oder dass die Steuereinrichtung in Abhängigkeit von dem Referenzzeitpunkt (t_r) einen Aktionsparameterwert (W_R) ermittelt und diesen Aktionsparameterwert (W_R) bei der Ansteuerung des Geräts verwendet.

11. Computerprogramm mit Programmcode-Mitteln, um alle Schritte eines Verfahrens nach einem der Ansprüche 1 bis 9 auszuführen, wenn das Programm auf einem Computer ausgeführt wird.