[go: up one dir, main page]

DE10163214A1 - Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes - Google Patents

Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes

Info

Publication number
DE10163214A1
DE10163214A1 DE10163214A DE10163214A DE10163214A1 DE 10163214 A1 DE10163214 A1 DE 10163214A1 DE 10163214 A DE10163214 A DE 10163214A DE 10163214 A DE10163214 A DE 10163214A DE 10163214 A1 DE10163214 A1 DE 10163214A1
Authority
DE
Germany
Prior art keywords
action
time
command
sequence
speech signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE10163214A
Other languages
English (en)
Inventor
Volker Steinbis
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Original Assignee
Philips Intellectual Property and Standards GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Intellectual Property and Standards GmbH filed Critical Philips Intellectual Property and Standards GmbH
Priority to DE10163214A priority Critical patent/DE10163214A1/de
Priority to PCT/IB2002/005466 priority patent/WO2003054858A1/en
Priority to AU2002366898A priority patent/AU2002366898A1/en
Priority to JP2003555496A priority patent/JP2005513560A/ja
Priority to US10/498,949 priority patent/US20050071169A1/en
Priority to EP02790585A priority patent/EP1459295A1/de
Publication of DE10163214A1 publication Critical patent/DE10163214A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Selective Calling Equipment (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Beschrieben wird ein Verfahren zur Sprachsteuerung eines Geräts, bei dem ein Sprachsignal (S) eines Benutzers einer Spracherkennungseinrichtung zur Erkennung eines Befehls oder einer Befehlssequenz zugeführt wird. Abhängend von dem von der Spracherkennungseinrichtung erkannten Befehl oder der Befehlssequenz wird eine entsprechende Aktion (A) oder Aktionsabfolge (A¶S¶, A¶R¶) des Geräts durchgeführt. In Abhängigkeit vom Auftreten und/oder zeitlichen Verlauf des Sprachsignals (S) wird ein Referenzzeitpunkt (t¶r¶) bestimmt. Die Aktion (A) oder Aktionsabfolge (A¶S¶, A¶R¶) des Geräts erfolgt dann in einem bestimmten Zeitschema, bezogen auf den Referenzzeitpunt (t¶r¶), und/oder es wird in Abhängigkeit von dem Referenzzeitpunkt(t¶r¶) ein Aktionsparameterwert ermittelt, der bei der Aktion (A) oder Aktionsabfolge (A¶S¶, A¶R¶) verwendet wird. Darüber hinaus wird ein entsprechendes Steuersystem beschrieben.

Description

  • Die Erfindung betrifft ein Verfahren zur Sprachsteuerung eines Gerätes, bei dem ein Sprachsignal eines Benutzers einer Spracherkennungseinrichtung zur Erkennung eines Befehls oder einer Befehlsequenz zugeführt wird und in Abhängigkeit des von der Spracherkennungseinrichtung erkannten Befehls oder Befehlsequenz eine entsprechende Aktion oder Aktionsabfolge des Gerätes durchgeführt wird. Darüber hinaus betrifft die Erfindung ein Sprachsteuersystem zur Durchführung eines solchen Verfahrens.
  • In den verschiedensten Bereichen werden zunehmend Spracherkennungsverfahren eingesetzt, um die unterschiedlichsten Geräte mittels Sprachbefehlen durch den Benutzer zu steuern. Typische bereits heute übliche Einsatzorte sind Steuerungen von Peripheriegeräten in KFZ wie Radios, Mobilfunkgeräte oder Navigationssysteme. Hier macht sich besonders der Vorteil bemerkbar, dass eine Sprachsteuerung eine Freihandbedienung des jeweiligen Geräts ermöglicht und somit der Fahrer des KFZ das Gerät steuern und gleichzeitig seine Hände ohne Beeinträchtigung weiter für die Steuerung des KFZ verwenden kann. Des Weiteren sind solche Steuerungen von besonders großem Nutzen für solche Personen, die beispielsweise in ihrer Bewegung stark eingeschränkt sind und daher nur über die Sprache als Steuerungsmittel verfügen. Eine Sprachsteuerung hat darüber hinaus ganz allgemein den Vorteil, dass, anders als bei den Verfahren, bei denen eine Tastatur oder ähnliches verwendet wird, die Benutzerschnittstelle an das Hauptkommunikationsmittel des Menschen, nämlich die Sprache angepasst ist. Zusätzlich ergibt sich dadurch, dass die Sprachbefehle für die Sprachsteuerung drahtlos zum jeweiligen Gerät übermittelt werden, der Vorteil einer ganz natürlichen - das heißt in der Regel ohne Mehraufwand erreichbaren - kurzreichweitigen Fernsteuerung des Geräts. Es werden deshalb auch allgemein immer mehr Geräte des täglichen Lebens, beispielsweise Küchengeräte oder Geräte der Unterhaltungselektronik, mit Sprachsteuerungen ausgestattet. Eine Sprachsteuerung ist dabei nicht nur bei Einzelgeräten, wie beispielsweise einem Videorecorder oder Fernseher, sondern grundsätzlich bei jeder elektronisch steuerbaren Einrichtung möglich. Insbesondere können auch beliebige komplexe Gerätesysteme, wie beispielsweise eine vernetzte Haus- oder Büroelektronik, hierüber gesteuert werden. Ebenso ist es beispielsweise möglich, mittels Sprachsteuerung über einen Rechner im Internet zu "surfen". Es wird daher ausdrücklich darauf hingewiesen, dass der hier benutzte Begriff "Gerät" insoweit umfassend zu verstehen ist.
  • Bei einer Sprachsteuerung wird üblicherweise ein vom Benutzer ausgesprochener Befehl oder eine Befehlssequenz beispielsweise mittels eines Mikrofons als Sprachsignal erfasst. Dieses Sprachsignal wird dann an eine Spracherkennungseinrichtung weitergeleitet, die wiederum, sobald sie aus dem eingegebenen Sprachsignal den Befehl bzw. die Befehlssequenz erkannt hat, diesen Befehl bzw. die Befehlssequenz an eine Steuereinrichtung des jeweiligen Gerätes weiterleitet. Die Steuereinrichtung steuert dann die betreffenden Komponenten des Geräts auf die gewünschte Weise an, so dass der vom Benutzer gegebene Befehl so schnell wie möglich durchgeführt wird. Obwohl sämtliche Komponenten des Sprachsteuerungssystems sehr schnell arbeiten, lässt es sich jedoch nicht vermeiden, dass immer eine gewisse Zeitverzögerung zwischen der Aussprache des Befehls durch den Benutzer und der Ausführung durch das Gerät vorliegt. Der größte Anteil der Zeitverzögerung entsteht hierbei in den meisten Fällen bei der Spracherkennung, weil z. B. ein bestimmter Zeitraum benötigt wird, um sicher feststellen zu können, ob ein Befehl wirklich beendet ist oder noch fortgesetzt wird. So muss beispielsweise nach einer Erkennung des Befehls "Kanal drei" sichergestellt sein, dass nicht noch die Eingabe "zehn" folgt, wodurch sich dann insgesamt der vom Nutzer gewünschte Befehl "Kanal dreizehn" ergeben würde. Ungünstigerweise ist dabei die Zeitspanne zwischen der Aussprache und der Ausführung des Befehls nicht genau definiert, da die Spracherkennungseinrichtung selbst bei identischen Befehlen nicht immer die gleiche Zeit benötigt, um den Befehl zu erkennen. So beeinflussen neben dem Befehl selber viele weitere Parameter, beispielsweise Hintergrundgeräuschanteile bei der Eingabe des Sprachsignals oder - bei komplexeren Systemen, die gleichzeitig mehrere Rechneroperationen ausführen können - die aktuelle Auslastung des Systems, die zur Erkennung eines Befehls benötigte Zeit. Ein derartiges Zeitverhalten des Sprachsteuerungssystems ist zum einen deswegen unvorteilhaft, da unterschiedliche Verzögerungszeiten zu einer Verunsicherung des Benutzers beitragen können. Zum Beispiel ist der Benutzer, wenn die Zeit zur Erkennung länger dauert, oft nicht sicher, ob der Befehl überhaupt empfangen wurde. Dies kann dazu führen, dass der Benutzer unnötigerweise mehrfach den Befehl eingibt. Ein weiterer Nachteil ergibt sich insbesondere auch dann, wenn es sich um einen Befehl für ein Gerät handelt, bei dem das Zeitverhalten kritisch ist. Ein typisches Beispiel hierfür ist das punktgenaue Stoppen eines laufenden Audio- oder Videogerätes an einer bestimmten Position, beispielsweise bei einem bestimmten Bild.
  • Eine Möglichkeit, dieses Problem zu umgehen, besteht darin, die Erkennung des Befehls zu beschleunigen. Ein Beispiel für eine relativ einfache und daher schnelle Erkennung eines Befehls wird u. a. in der DE 41 03 913 A1 beschrieben. Hierbei wird vorgeschlagen, anstatt einer vollständigen Spracherkennung aus dem gesprochenen Satz oder dem gesprochenen Befehl ein durch ein Zeitmuster charakterisiertes Messsignal zu erzeugen, wobei das Zeitmuster die Tondauer und Pausendauer des Signals betrifft. Dieses Zeitmuster des Messsignals wird dann mit dem Zeitmuster eines Mustersignals verglichen, und bei Übereinstimmung des Zeitmusters wird dann das dem Mustersignal entsprechende Steuersignal erzeugt. Dieses Verfahren ist jedoch auf einfache Sprachsteuerungen mit einem sehr begrenzten Repertoire an Sprachbefehlen begrenzt, welche sich bezüglich ihres Zeitmusters dementsprechend stark unterscheiden müssen. Im Übrigen ist selbst bei einer erheblichen Reduzierung der Erkennungszeit grundsätzlich immer noch nicht gewährleistet, dass bei jeder Eingabe eines Befehls die Erkennungszeit variiert und zu den genannten Problemen führt.
  • Es ist Aufgabe der vorliegenden Erfindung, eine Alternative zu diesem Stand der Technik zu schaffen, welche die genannten Probleme vermeidet.
  • Diese Aufgabe wird dadurch gelöst, dass in Abhängigkeit vom Auftreten und/oder zeitlichen Verlauf des Sprachsignals ein Referenzzeitpunkt bestimmt wird und dass die Aktion oder Aktionsabfolge des Geräts in einem bestimmten Zeitschema bezogen auf den Referenzzeitpunkt erfolgt und/oder in Abhängigkeit von dem Referenzzeitpunkt ein Aktionsparameterwert ermittelt wird, der bei der Aktion oder Aktionsabfolge verwendet wird.
  • Außerdem wird die Aufgabe durch ein entsprechendes Sprachsteuersystem gelöst, welches eine Analyseeinrichtung für ein erfasstes Sprachsignal zur Bestimmung eines solchen Referenzzeitpunkts aufweist und dessen Steuereinrichtung das Gerät so ansteuert, dass die Aktion oder Aktionsabfolge des Geräts in einem bestimmten Zeitschema bezogen auf den Referenzzeitpunkt erfolgt und/oder dass die Steuereinrichtung in Abhängigkeit von dem Referenzzeitpunkt einen Aktionsparameterwert ermittelt und diesen Aktionsparameterwert bei der Ansteuerung des Geräts verwendet.
  • Das Sprachsteuersystem kann dabei Bestandteil des Gerätes selber sein. Es kann sich aber auch um ein separates Sprachsteuersystem handeln, welches diesem Gerät oder auch mehreren Geräten innerhalb eines komplexeren Systems vorgeschaltet ist und lediglich die Steuerbefehle an die einzelnen zu steuernden Geräte bzw. weiteren Systemkomponenten ausgibt.
  • Die abhängigen Ansprüche enthalten besonders vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung.
  • Die zur Bestimmung des Referenzzeitpunktes notwendige Analyse kann sowohl unabhängig als auch abhängig von der eigentlichen Spracherkennung, beispielsweise vor der Spracherkennung, durchgeführt werden. Das Sprachsteuersystem benötigt dabei im einfachsten Fall nur eine relativ primitive zusätzliche Analyseeinrichtung, die z. B. nur den Anfang und/oder das Ende eines Sprachsignals detektiert. Sofern eine genauere Analyse zur Bestimmung eines Referenzzeitpunktes gewünscht wird, muss dagegen gleichermaßen auch die Analyseeinrichtung komplexer ausgestaltet sein, wobei es sich u. U. anbietet, als Analyseeinrichtung die Spracherkennungseinrichtung bzw. Teile der Spracherkennungseinrichtung mit zu verwenden, um einen geeigneten Referenzzeitpunkt festzulegen. In einem solchen Fall ist es besonders vorteilhaft, wenn die als Analyseeinrichtung verwendete Spracherkennungseinrichtung das Analyseergebnis zur Bestimmung des Referenzzeitpunkts möglichst frühzeitig ausgibt und nicht erst mit der Ausgabe des erkannten Befehls bzw. der Befehlsequenz.
  • Anschließend wird erfindungsgemäß die Aktion oder Aktionsabfolge des Gerätes in einem bestimmten Zeitschema - beispielsweise ab einem bestimmten Zeitpunkt - bezogen auf diesen Referenzzeitpunkt durchgeführt. Alternativ oder zusätzlich wird in Abhängigkeit von dem Referenzzeitpunkt ein Aktionsparameterwert ermittelt, der dann bei der Aktion oder Aktionsabfolge verwendet wird. Bei einem solchen Aktionsparameter kann es sich beispielsweise um eine bestimmte Rücklaufzeit bei einem Gerät wie z. B. einem Videorecorder mit einer Vorlauf-/Rücklauf-Funktion handeln. Es kann sich bei einem solchen Aktionsparameter aber auch um eine Zeit handeln, die aus einer Zeitangabe des Benutzers, beispielsweise einem Befehl wie "noch 5 Minuten" berechnet wird, wobei bei der Berechnung der Referenzzeitpunkt berücksichtigt wird, indem die Zeitangabe des Benutzers auf den Referenzzeitpunkt bezogen wird.
  • Durch die Festlegung eines - bezogen auf das erfasste Sprachsignal - zeitlich absolut feststehenden Referenzzeitpunktes und den Ablauf der folgenden Aktion bzw. Aktionsabfolge innerhalb eines bestimmten Zeitschemas - bezogen auf diesen Referenzzeitpunkt - wird gewährleistet, dass die für den Benutzer erkennbare Zeit, die das Gerät bzw. das Sprachsteuersystem für die Befehlsausführung benötigt, im Wesentlichen immer gleich ist und nicht davon abhängig, wie schnell jeweils der Spracherkenner in der Lage war, den Befehl oder die Befehlsequenz aus dem Sprachsignal zu extrahieren. Der Benutzer bekommt so automatisch ein Gefühl für das Zeitverhalten des Gerätes und wird nicht durch unterschiedliche Erkennungszeiten irritiert. Durch die Ermittlung eines Aktionsparameterwertes in Abhängigkeit von dem jeweiligen Referenzzeitpunkt ist es möglich, bei solchen Befehlen, bei denen das Zeitverhalten maßgeblich ist, die Zeitverzögerung zwischen Aussprache und Ausführung des Befehls sogar zu kompensieren.
  • Als Referenzzeitpunkt bieten sich die verschiedensten Zeitpunkte innerhalb des Zeitablaufes des Sprachsignals an. Besonders einfach festlegbare Referenzzeitpunkte sind beispielsweise der Beginn oder das Ende des Sprachsignals. Diese sind mit einem einfachen Sprachaktivitätsdetektor sehr schnell detektierbar.
  • Ebenso ist es möglich, als Referenzzeitpunkt den Zeitpunkt des Auftretens eines bestimmten charakteristischen Merkmals im Sprachsignal auszuwählen. Ein solches charakteristisches Merkmal kann vorzugsweise mit Hilfe des Beginns und/oder des Endes eines bestimmten Phonems oder eines Abschnitts des Sprachsignals ermittelt werden. Dabei kann im einfacheren Fall der Beginn oder das Ende des Phonems oder des Abschnitts des mehrteiligen Sprachsignals selbst als Referenzzeitpunkt dienen. Es ist aber auch möglich, kompliziertere Algorithmen zu verwenden und beispielsweise als Referenzzeitpunkt einen zeitlichen Mittelwert zwischen dem Beginn und dem Ende eines bestimmten Phonems oder Abschnitts zu wählen.
  • Die Wahl des Referenzzeitpunktes erfolgt dabei vorzugsweise so, dass er möglichst einfach und sicher in einem bestimmten Befehl detektiert werden kann, so dass bei einer Eingabe dieses Befehls immer derselbe Referenzzeitpunkt gewählt wird. Ein typisches, sehr einfach registrierbares charakteristisches Merkmal ist beispielsweise der Beginn des Vokals "e" in einem Befehl "TV jetzt".
  • Bei einem bevorzugten Ausführungsbeispiel erfolgt die Steuerung des Geräts derart, dass ein Aktionszeitpunkt des Gerätes, an dem die Aktion oder Aktionsabfolge der Gerätes beginnt, einen definierten zeitlichen Abstand (d. h. eine definierte Verzögerungszeit) zum Referenzzeitpunkt aufweist.
  • Bei einem weiteren bevorzugten Ausführungsbeispiel ist das Zeitschema jeweils abhängig von dem eingegebenen Befehl. So kann beispielsweise bei einem Einschaltbefehl für ein Gerät die Verzögerungszeit immer auf genau eine Sekunde eingestellt sein, wogegen bei einem Stoppbefehl, insbesondere beispielsweise einem Notfallstopp, das Zeitschema so gewählt wird, dass unmittelbar nach der Erkennung des Stoppbefehls das Gerät stoppt.
  • Das Zeitschema kann auch so gewählt sein, dass der Befehl innerhalb eines bestimmten Zeitraumes zwischen einer Minimalzeit und einer Maximalzeit ausgeführt werden muss. Die Aktion bzw. Aktionsfolge erfolgt dann frühestens nach Ablauf der Minimalzeit von beispielsweise einer Sekunde. Wenn bis dahin eine Erkennung des Signals nicht möglich war, erfolgt die Ausführung des Befehls unmittelbar nach Erhalt des erkannten Signals. Nach Überschreiten der Maximalzeit, beispielsweise nach 1,5 Sekunden, bricht das Sprachsteuersystem den Vorgang ab und gibt an den Benutzer ein entsprechendes Signal, beispielsweise eine Nachricht "Befehl nicht erkannt", aus.
  • Vorzugsweise wird das Zeitschema so gewählt, dass unter normalen Bedingungen eine Erkennung der möglichen Befehle bzw. Befehlssequenzen innerhalb der festen Verzögerungszeit bzw. der Minimalzeit möglich ist, so dass punktgenau nach Ablauf der vorgegebenen Zeit die Aktion oder Aktionsabfolge des Gerätes beginnt.
  • Wenn das System erkennt, dass der vorgegebene Zeitpunkt bereits abgelaufen ist, bevor der Befehl oder die Befehlssequenz erkannt ist, so bestehen verschiedene Möglichkeiten, um solche Situationen für die Zukunft zu vermeiden. Eine Möglichkeit besteht darin, das Zeitschema zu verändern und beispielsweise die voreingestellte Verzögerungszeit bzw. Minimalzeit heraufrusetzen. Eine andere Möglichkeit besteht darin, soweit dies möglich ist die Parameter der Spracherkennungseinheit und/oder die Systemressourcen zu variieren, um so beim nächsten Mal die Erkennung schneller durchführen zu können.
  • Außerdem kann das System, wenn es feststellt, dass der vorgegebene Zeitpunkt abzulaufen droht, eine Entscheidung unter verschiedenen, bereits aufgestellten Hypothesen der Spracherkennungseinheit erzwingen, um so sofort ein Erkennungsergebnis zu erhalten. Sofern der vorgegebene Zeitpunkt abhängig vom Erkennungsergebnis und somit abhängig von der jeweiligen Hypothese ist, kann das System entsprechend reagieren, sobald für eine der Hypothesen der Zeitpunkt abläuft.
  • Bei einem bevorzugten Ausführungsbeispiel wird der Zeitraum bis zu einem Aktionszeitpunkt des Gerätes gemäß Anspruch 6 durch Ausgabe einer Signalempfangsbestätigung an einen Benutzer überbrückt. Bei einer solchen Signalempfangsbestätigung kann es sich beispielsweise um ein akustisches oder optisches Signal wie das Aufleuchten einer Leuchtdiode oder dergleichen handeln. Dabei erfolgt auch die Ausgabe dieser Signalempfangsbestätigung in einem genau definierten Zeitschema.
  • Die Ausgabe einer solchen Signalempfangsbestätigung bietet sich insbesondere dann an, wenn die Verzögerungszeit relativ groß eingestellt ist, um genügend Rechenzeit für die Erkennung des Befehls zur Verfügung zu haben. Durch eine solche, für den Benutzer vorhersagbare Empfangsbestätigung nach dem Aussprechen des Sprachbefehls und vor dessen Ausführung wird ein besseres Benutzergefühl erreicht, da der Benutzer hierdurch erfährt, dass sein Sprachbefehl unmittelbar etwas bewirkt, d. h. dass das Gerät bzw. die Sprachsteuerung aufgrund seines Sprachbefehls aktiv ist.
  • Das Sprachsteuersystem benötigt hierfür eine Signalisierungseinrichtung, um die Signalempfangsbestätigung an den Benutzer auszugeben, und die Steuereinrichtung muss entsprechend eingerichtet sein, um die Signalisierungseinrichtung gemäß den Vorgaben anzusteuern.
  • Bei einem besonders bevorzugten Ausführungsbeispiel wird bezüglich des Referenzzeitpunktes zunächst ein Soll-Aktionszeitpunkt definiert. Bei diesem Soll-Aktionszeitpunkt handelt es sich um den Zeitpunkt, an dem die vom Benutzer gewünschte Aktion durchgeführt werden sollte. Ein typisches Beispiel hierfür ist das Stoppen eines Video- oder DVD- Recorders zu einem ganz genau definierten Zeitpunkt, das heißt bei einem ganz bestimmten Bild. Sobald der Benutzer dieses Bild erkennt, äußert er den Sprachbefehl "Stopp" und erwartet, dass der Recorder genau bei diesem Bild stoppt.
  • Als Soll-Aktionszeitpunkt kann dabei im Prinzip der Referenzzeitpunkt selbst definiert werden, insbesondere dann, wenn als Referenzzeitpunkt der Beginn des erfassten Sprachsignals gewählt wird. Vorzugsweise wird jedoch bei der Definition des Soll-Aktionszeitpunktes bezüglich des Referenzzeitpunktes die Reaktionszeit des Benutzers selbst berücksichtigt. Dazu wird beispielsweise als Soll-Aktionszeitpunkt ein Zeitpunkt vor dem Referenzzeitpunkt gewählt, wobei der Abstand zwischen dem Soll-Aktionszeitpunkt und dem Referenzzeitpunkt einer mittleren Benutzer-Reaktionszeit, beispielsweise 0,2 Sekunden, entspricht.
  • Es wird dann eine "Reaktionszeit" zwischen dem definierten Soll-Aktionszeitpunkt und dem tatsächlichen Ist-Aktionszeitpunkt des Gerätes ermittelt. Da die Benutzer-Reaktionszeit berücksichtigt wird, handelt es sich hierbei um die Gesamtreaktionszeit des aus dem Benutzer, dem Sprachsteuerungssystem und dem Gerät bestehenden Gesamt-Systems. Anhand dieser Reaktionszeit wird dann ein Aktionsparameterwert für die durchzuführende Aktion oder Aktionsabfolge des Gerätes ermittelt und bei der Durchführung der Aktion oder Aktionsabfolge unter Verwendung dieses Aktionsparameterwertes die Reaktionszeit wieder kompensiert.
  • Dieses Verfahren bietet sich insbesondere bei allen Geräten an, welche eine Medienein- und/oder -ausgabeeinheit mit einer Vorlauf und/oder Rücklauffunktion aufweisen. Zu solchen Geräten zählen neben den genannten Videorecordern oder DVD-Recordern auch Geräte wie Tonbandgeräte, CD-Player oder andere beliebige Geräte, die eine Datensequenz optisch und/oder akustisch in einer zeitlichen Abfolge an den Benutzer ausgeben und/oder bei denen der Benutzer entsprechend Daten eingeben kann, wie z. B. bei einer Filmkamera. Zu diesen Geräten zählen folglich auch Computer oder ähnliche Geräte mit entsprechender Software, die beispielsweise über das Internet oder aus einem Speicher, z. B. von der Festplatte oder einem Disketten- oder DVD-Laufwerk eine Abfolge von Vortragsfolien, Suchlisten etc. an den Benutzer ausgeben und bei denen der Benutzer die Möglichkeit haben soll, diese Ausgabe punktgenau zu stoppen.
  • In der Regel ist es bei solchen Medienein- und/oder -ausgabeeinheiten möglich, mit der Vorlauf und/oder Rücklauffunktion einen gewünschten Punkt, d. h. beispielsweise einen bestimmten Datensatz, beispielsweise ein Bild, anzufahren. Dabei besteht üblicherweise die Möglichkeit, mit verschiedenen Geschwindigkeiten vor- und rückzulaufen, wobei in unterschiedlichen Modi ein Vorlauf oder Rücklauf ohne Ausgabe von Daten erfolgt und in anderen Modi (Suchlauf oder einfaches Abspielen) dem Benutzer die Daten angezeigt werden. Bei derartigen Geräten kann anhand der ermittelten Reaktionszeit als Aktionsparameterwert ein Rücklaufwert oder Vorlaufwert ermittelt werden, je nachdem, ob der Stoppbefehl erfolgt, um das Gerät während eines Vorlaufs oder eines Rücklaufs zu stoppen. Zu dem gegebenen Aktionszeitpunkt wird die Medienein- und/oder -ausgabeeinheit dann in einer Aktionsabfolge zunächst gestoppt und entsprechend dem ermittelten Rücklauf bzw. Vorlaufwert wieder zurückgefahren bzw. vorgefahren, so dass die Reaktionszeit kompensiert wird.
  • Die Durchführung des Verfahrens kann im Prinzip rein softwaremäßig mit einem Computerprogramm beispielsweise mittels entsprechender Softwaremodule auf einem geeigneten Computer erfolgen. Dabei kann die Spracherkennungseinrichtung durch ein Software-Spracherkennungsmodul und die Steuereinrichtung durch ein Software- Steuerungsmodul gebildet werden. Ebenso kann auch eine Sprachausgabeeinrichtung mit einem TTS-Modul (Text to Speech) realisiert werden. Zur Steuerung des Dialogs mit einem Benutzer kann ein Dialogkontrollmodul auf dem Computer installiert sein. Alle diese Module müssen dann in geeigneter Weise, beispielsweise als Unterroutinen und Hauptroutinen, miteinander verknüpft sein, um gemäß dem erfindungsgemäßen Verfahren zusammenzuwirken. Der Computer muß natürlich mit einer geeigneten Einrichtung zur Erfassung eines Sprachsignals des Benutzers, z. B. einem Mikrofon, verbunden sein.
  • Die verschiedenen Software-Module können dabei auch statt auf einem einzelnen Computer auf verschiedenen, untereinander vernetzten Computern installiert sein. So kann beispielsweise ein erster Computer das Steuerungsmodul und ein Dialogkontrollmodul aufweisen, wogegen die relativ rechenintensive automatische Spracherkennung bei Bedarf auf einem zweiten Computer durchgeführt wird.
  • Die Erfindung wird im Folgenden unter Hinweis auf die beigefügten Figuren anhand von Ausführungsbeispielen näher erläutert. Es zeigen:
  • Fig. 1 eine schematische Darstellung des zeitlichen Ablaufs von der Aussprache bis zur Ausführung eines Sprachbefehls bei Einstellung einer festen Verzögerungszeit zwischen dem Referenzzeitpunkt und einem Aktionszeitpunkt,
  • Fig. 2 eine schematische Darstellung eines Zeitablaufs wie in Fig. 1, bei dem jedoch die Verzögerungszeit zwischen dem Referenzzeitpunkt und dem Aktionszeitpunkt durch ein Bestätigungssignal überbrückt wird,
  • Fig. 3 eine schematische Darstellung des zeitlichen Ablaufes bei einem bildgenauen Stopp eines Videorecorders.
  • Aufgetragen sind in den Figuren der zeitliche Ablauf des Auftretens des Sprachsignals S sowie der Aktion A bzw. der Aktionsfolge AS, AR des Gerätes über der Zeit t. In den dargestellten Ausführungsbeispielen beginnt das Sprachsignal S jeweils zum Zeitpunkt t1 und endet zum Zeitpunkt t2.
  • Bei den in den ersten beiden Figuren dargestellten Ausführungsbeispielen handelt es sich jeweils um eine Sprachsteuerung eines Fernsehgeräts.
  • In Fig. 1 ist eine erste Variante des Verfahrens dargestellt, wobei es sich bei dem Sprachbefehl S um einen Einschaltbefehl für das Fernsehgerät, hier die Wortfolge "TV an" handelt. Das Sprachsignal S umfasst somit zwei Signalabschnitte, welche den beiden Worten "TV" und "an" entsprechen. Als Referenzzeitpunkt tr wurde ein bestimmtes, leicht detektierbares Merkmal in dem zweiten Abschnitt des Sprachsignals S, das heißt im Wort "an" gewählt. Im konkreten Fall wird dabei auf das Ende des Vokals "a" im Wort "an" abgestellt.
  • Sobald das Sprachsignal S erfasst wird, wird es an eine Spracherkennungseinrichtung weitergeleitet, welche das Sprachsignal weiter analysiert, um den darin mitgeteilten Befehl bzw. die Befehlssequenz zu erkennen. Die erkannte Befehlssequenz "TV an" wird dann an eine Steuereinrichtung übergeben, welche das Fernsehgerät einschaltet. Diese Einschaltaktion A geschieht jedoch nicht direkt nach der Erkennung der Befehlssequenz durch die Spracherkennungseinrichtung, sondern erst zu einem definierten Aktionszeitpunkt ta, welcher einen festen zeitlichen Abstand Δa zum Referenzzeitpunkt tr aufweist. Die Aktion A erfolgt somit unabhängig von der Zeitdauer der Erkennung immer nach einer festen Verzögerungszeit Δa, nachdem der Benutzer das "a" im Wort "an" gesprochen hat. Hierbei wird vorausgesetzt, dass die Verzögerungszeit Δa zwischen dem Referenzzeitpunkt tr und dem Aktionszeitpunkt ta lang genug ist, dass die Spracherkennungseinrichtung die Befehlssequenz im Sprachsignal S erkennen kann.
  • Fig. 2 zeigt eine Variante des Verfahrens. Der Einschaltbefehl ist hierbei ein aus einem Wort bestehender Befehl, nämlich das Wort "Einschalten". Dementsprechend handelt es sich um ein einteiliges Sprachsignal S, welches wieder zu einem Zeitpunkt t1 beginnt und an einem Zeitpunkt t2 endet. Als Referenzzeitpunkt tr wird hier einfach das Ende des Sprachsignals S gewählt. Dieser Ein-Wort-Befehl "Einschalten" ist in Fig. 2 lediglich gewählt, um ein weiteres Beispiel für ein Sprachsignal und einen Referenzzeitpunkt darzustellen. Es ist klar, dass die Erfindung unabhängig vom konkreten Befehl ist und dass im Ausführungsbeispiel gemäß Fig. 2 ebenso der Befehl "TV an" verwendet werden könnte oder in dem Ausführungsbeispiel nach Fig. 1 der Befehl "Einschalten" o. Ä.
  • Wie im Fall gemäß Fig. 1 wird das Sprachsignal S einer Spracherkennung zugeführt und anschließend nach einer genau definierten Verzögerungszeit Δa zum Aktionszeitpunkt ta die Aktion A durchgeführt, d. h. das Fernsehgerät eingeschaltet. Anders als bei dem Ausführungsbeispiel gemäß Fig. 1 wird jedoch die Verzögerungszeit Δa zwischen dem Referenzzeitpunkt tr und dem Aktionszeitpunkt ta durch ein Bestätigungssignal B überbrückt, welches an den Benutzer ausgegeben wird. Auch die Ausgabe dieses Bestätigungssignals B erfolgt nach einem genau vorgegebenen Zeitschema in Abhängigkeit vom Referenzzeitpunkt tr. Im vorliegenden Ausführungsbeispiel wird nach einer genau vorgegebenen ersten Zeitspanne Δ1 zu einem Zeitpunkt tb eine Leuchtdiode eingeschaltet, die eine genau definierte zweite Zeitspanne Δb lang leuchtet und die eine genau definierte dritte Zeitspanne Δ2 vor dem definierten Aktionszeitpunkt ta wieder ausgeschaltet wird. Die erste und dritte Zeitspanne Δ1, Δ2 könnten dabei z. B. jeweils 0,2 Sekunden betragen.
  • Es ist selbstverständlich auch möglich, diese Zeitspannen Δ1, Δ2 beliebig zu variieren und beispielsweise das Bestätigungssignal B so lange anzuzeigen, bis der Aktionszeitpunkt ta erreicht ist, das heißt, dass die zweite Zeitspanne Δ2 gleich Null gesetzt wird. Ein Ausschalten des Bestätigungssignals B vor dem Beginn der gewünschten Aktion A, das heißt vor dem Aktionszeitpunkt ta ist jedoch insbesondere dann sinnvoll, wenn es sich bei dem Bestätigungssignal nicht um ein optisches Signal, sondern um ein akustisches Signal wie einen Piepton handelt und wenn die Gesamtzeitspanne zwischen dem Referenzzeitpunkt tr und dem Aktionszeitpunkt ta, d. h. die Verzögerungszeit Δa, länger ist. In diesem Fall würde ein länger andauerndes akustische Bestätigungssignal B den Benutzer wahrscheinlich belästigen. Ein kurzzeitiges akustisches Signal, beispielsweise ungefähr in der Mitte der Gesamtzeitspanne Δa zwischen dem Referenzzeitpunkt tr und dem Aktionszeitpunkt ta, wird dagegen als weniger störend empfunden. Es ist selbstverständlich auch möglich, mehrere Bestätigungssignale in genau vorgegebenen Zeitabschnitten auszugeben, beispielsweise ein Bestätigungssignal mehrmals zu wiederholen, bis schließlich der Aktionszeitpunkt ta erreicht ist. Ebenso ist auch eine Kombination von akustischen und optischen oder sonstigen Bestätigungssignalen möglich.
  • In Fig. 3 ist schließlich eine weitere Variante der Erfindung dargestellt, bei der die Reaktionszeit Δr zwischen einem Soll-Aktionszeitpunkt tr und einem tatsächlichen Ist- Aktionszeitpunkt ta durch eine definierte Aktionsabfolge AS, AR des Gerätes wieder kompensiert wird. Im vorliegenden Fall geht es darum, einen Videorecorder bildgenau zu stoppen.
  • Zum Soll-Aktionszeitpunkt ts sieht der Benutzer das Bild P und möchte den Videorecorder an dieser Position anhalten. Nach einer gewissen Reaktionszeit Δu des Benutzers von beispielsweise 0,2 Sekunden spricht er zum Zeitpunkt t1 den Befehl "Stopp" aus. Das Sprachsignal S beginnt dann zum Zeitpunkt t1 welcher später als der Soll-Aktionszeitpunkt ts liegt, und endet zum Zeitpunkt t2. Als Referenzzeitpunkt tr wird in diesem Beispiel auf den Beginn des Sprachsignals, das heißt auf den Zeitpunkt t1 abgestellt, so dass t1 und tr identisch sind. Es kann aber auch ein beliebiger anderer Referenzzeitpunkt tr gewählt werden.
  • Das Sprachsignal S wird dann wie bei den Ausführungsbeispielen gemäß den Fig. 1 und 2 in einer Spracherkennungseinrichtung analysiert und dabei der Befehl "Stopp" erkannt. Nach einer genau definierten Verzögerungszeit Δa nach dem Referenzzeitpunkt tr wird schließlich zu einem Aktionszeitpunkt ta das Gerät tatsächlich gestoppt.
  • Aus Fig. 3 wird deutlich, dass zwischen dem tatsächlichen Ist-Aktionszeitpunkt ta und dem Soll-Aktionszeitpunkt ts, an dem das Gerät an sich stoppen sollte, eine erhebliche Zeitdifferenz liegt, welche zum einen durch die Benutzerreaktionszeit Δu und zum anderen durch die eingestellte Verzögerungszeit Δa zwischen dem Referenzzeitpunkt tr und dem Aktionszeitpunkt ta gegeben ist. Während dieser "Gesamtreaktionszeit" Δr des aus Benutzer, Spracherkennungssystem und Gerät bestehenden Gesamt-Systems befindet sich das Gerät die ganze Zeit im Vorlaufmodus V. Das heißt, zum Aktionspunkt ta stoppt das Gerät bei einem völlig anderen Bild als dies der Benutzer wünschte.
  • Da die Reaktionszeit Δr jedoch mit Hilfe des Referenzzeitpunkts tr berechnet werden kann - wobei allerdings die Benutzerreaktionszeit Δu nur als Mittelwert für verschiedene Durchschnittsnutzer angenommen werden kann - ist es möglich, anhand der Reaktionszeit Δr einen Rücklaufwert WR zu ermitteln, den das Videoband zurücklaufen muss, um die vom Benutzer gewünschte Position mit dem Bild P zu erreichen.
  • Bei diesem Rücklaufwert WR kann es sich entweder um eine Zeit handeln, die das Videoband im Recorder mit einer bestimmten Geschwindigkeit zurücklaufen muss. Es kann sich hierbei aber auch um eine Bandlängenangabe oder um einen ähnlichen Parameter handeln. Bei einem DVD-Recorder oder einem CD-Player kann im Übrigen als Parameter auch die genaue Position auf dem Datenträger ermittelt werden, die dann anschließend angefahren wird.
  • Bei dem Ausführungsbeispiel gemäß Fig. 3 wird folglich zum Aktionszeitpunkt ta der Recorder nicht nur einfach gestoppt, sondern es wird eine Aktionsfolge AS, AR ausgelöst, welche aus einer Stopp-Aktion As und einer sofortigen Rücklaufaktion AR des Gerätes besteht, so dass das Gerät am Ende der Aktionsfolge AS, AR tatsächlich an der von dem Benutzer gewünschten Position, d. h. am Bild P, steht.
  • Die Erfindung verbessert also zum einen die Benutzererfahrung bei der Steuerung des Gerätes, da der Benutzer durch die Vorhersagbarkeit der Zeitabläufe schon nach kurzer Zeit instinktiv ein Gefühl dafür entwickelt, wann das Gerät ordnungsgemäß funktioniert oder wann es zu Problemen bei der Sprachsteuerung, insbesondere zur Erkennungsproblemen oder Ähnlichem gekommen ist. In speziellen Fällen wie beispielsweise bei einem punktgenauen Stoppen einer Medienein- und/oder -ausgabe ist es sogar möglich, mit Hilfe der Erfindung die Verzögerungszeit des Gerätes und auf Wunsch auch die Reaktionszeit des Benutzers selber zu kompensieren.

Claims (11)

1. Verfahren zur Sprachsteuerung eines Geräts, bei dem ein Sprachsignal (S) eines Benutzers einer Spracherkennungseinrichtung zur Erkennung eines Befehls oder einer Befehlssequenz zugeführt wird und in Abhängigkeit des von der Spracherkennungseinrichtung erkannten Befehls oder einer Befehlssequenz eine entsprechende Aktion (A) oder Aktionsabfolge (AS, AR) des Geräts veranlasst wird, dadurch gekennzeichnet,
dass in Abhängigkeit vom Auftreten und/oder zeitlichen Verlauf des Sprachsignals (S) ein Referenzzeitpunkt (tr) bestimmt wird und
dass die Aktion (A) oder Aktionsabfolge (AS, AR) des Geräts in einem bestimmten Zeitschema bezogen auf den Referenzzeitpunkt (tr) erfolgt und/oder in Abhängigkeit von dem Referenzzeitpunkt (tr) ein Aktionsparameterwert (WR) ermittelt wird, der bei der Aktion (A) oder Aktionsabfolge (AS, AR) verwendet wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass als Referenzzeitpunkt (tr) der Beginn (t1) oder das Ende (t2) des Sprachsignals (S) festgelegt wird.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass als Referenzzeitpunkt (tr) der Zeitpunkt des Auftretens eines bestimmten charakteristischen Merkmals (M) im Sprachsignal (S) festgelegt wird.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass das charakteristische Merkmal mit Hilfe des Beginns und/oder des Endes eines bestimmten Phonems des Sprachsignals und/oder des Beginns und/oder des Endes eines bestimmten Abschnittes eines mehrteiligen Sprachsignals ermittelt wird.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass ein Aktionszeitpunkt (ta) des Geräts, an dem die Aktion (A) oder Aktionsabfolge (AS, AR) des Geräts beginnt, einen definierten zeitlichen Abstand (Δa) zum Referenzzeitpunkt (tr) aufweist.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass ein Zeitraum bis zu einem Aktionszeitpunkt (ta) des Geräts, an dem die Aktion (A) oder Aktionsabfolge (AS, AR) des Geräts beginnt, durch Ausgabe einer Signalempfangsbestätigung (B) an einen Benutzer überbrückt wird, wobei die Signalempfangsbestätigung (B) zu einem definierten Zeitpunkt (tB) nach dem Referenzzeitpunkt (tr) beginnt.
7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass eine Reaktionszeit (Δr) zwischen einem bezüglich des Referenzzeitpunkts (tr) definierten Soll-Aktionszeitpunkt (ts) und dem tatsächlichen Ist-Aktionszeitpunkt (ta) des Geräts, an dem die Aktion (A) oder Aktionsabfolge (AS, AR) beginnt, ermittelt wird und anhand der ermittelten Reaktionszeit (Δr) ein Aktionsparameterwert (WR) für die durchzuführende Aktion (A) oder Aktionsabfolge (AS, AR) des Geräts ermittelt wird und bei der Durchführung der Aktion (A) oder Aktionsabfolge (AS, AR) unter Verwendung dieses Aktionsparameterwerts (WR) die Reaktionszeit (Δr) kompensiert wird.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass bei der Definition des Soll-Aktionszeitpunkts (ts) bezüglich des Referenzzeitpunkts (tr) eine Benutzerreaktionszeit (Δu) des Benutzers, welcher das Sprachsignal (S) abgibt, berücksichtigt wird.
9. Verfahren nach Anspruch 7 oder 8, dadurch gekennzeichnet,
dass das Gerät eine Medienein- und/oder -ausgabeeinheit mit einer Vorlauf und/oder Rücklauffunktion aufweist
und dass bei Eingabe eines Sprachsignals (S), welches einen Stopp-Befehl für die Medienein- und/oder -ausgabeeinheit umfasst, anhand der ermittelten Reaktionszeit (Δr) als Aktionsparameterwert (WR) ein Rücklaufwert (WR) oder Vorlaufwert ermittelt wird, und die Medienein- und/oder -ausgabeeinheit zu einem Aktionszeitpunkt (ta) in einer Aktionsabfolge (AS, AR) stoppt und entsprechend dem ermittelten Rücklaufwert (WR) oder Vorlaufwert wieder zurückläuft oder vorläuft.
10. Sprachsteuersystem zur Durchführung eines Verfahrens nach einem der Ansprüche 1 bis 9,
mit Mitteln zur Erfassung eines Sprachsignals (S),
einer Spracherkennungseinrichtung zur Analyse des Sprachsignal (S) zur Erkennung eines Befehls oder einer Befehlssequenz,
und einer Steuereinrichtung zur Steuerung des Geräts in Abhängigkeit des von der Spracherkennungseinrichtung erkannten Befehls oder einer Befehlssequenz, so dass dieses eine dem Befehl oder der Befehlssequenz entsprechende Aktion (A) oder Aktionsabfolge (AS, AR) durchführt,
dadurch gekennzeichnet,
dass das Sprachsteuersystem eine Analyseeinrichtung für ein Sprachsignal (S) zur Bestimmung eines Referenzzeitpunkts (tr) in Abhängigkeit vom Auftreten und/oder zeitlichen Verlauf des Sprachsignals (S) aufweist
und so ausgebildet ist,
dass die Steuereinrichtung das Gerät so ansteuert, dass die Aktion (A) oder Aktionsabfolge (AS, AR) des Geräts in einem bestimmten Zeitschema bezogen auf den Referenzzeitpunkt (tr) erfolgt und/oder dass die Steuereinrichtung in Abhängigkeit von dem Referenzzeitpunkt (tr) einen Aktionsparameterwert (WR) ermittelt und diesen Aktionsparameterwert (WR) bei der Ansteuerung des Geräts verwendet.
11. Computerprogramm mit Programmcode-Mitteln, um alle Schritte eines Verfahrens nach einem der Ansprüche 1 bis 9 auszuführen, wenn das Programm auf einem Computer ausgeführt wird.
DE10163214A 2001-12-21 2001-12-21 Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes Withdrawn DE10163214A1 (de)

Priority Applications (6)

Application Number Priority Date Filing Date Title
DE10163214A DE10163214A1 (de) 2001-12-21 2001-12-21 Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes
PCT/IB2002/005466 WO2003054858A1 (en) 2001-12-21 2002-12-16 Method and control system for the voice control of an appliance
AU2002366898A AU2002366898A1 (en) 2001-12-21 2002-12-16 Method and control system for the voice control of an appliance
JP2003555496A JP2005513560A (ja) 2001-12-21 2002-12-16 電気機器を音声制御する方法及び制御システム
US10/498,949 US20050071169A1 (en) 2001-12-21 2002-12-16 Method and control system for the voice control of an appliance
EP02790585A EP1459295A1 (de) 2001-12-21 2002-12-16 Verfahren und regelsystem zur sprachansteuerung eines gerätes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10163214A DE10163214A1 (de) 2001-12-21 2001-12-21 Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes

Publications (1)

Publication Number Publication Date
DE10163214A1 true DE10163214A1 (de) 2003-07-10

Family

ID=7710343

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10163214A Withdrawn DE10163214A1 (de) 2001-12-21 2001-12-21 Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes

Country Status (6)

Country Link
US (1) US20050071169A1 (de)
EP (1) EP1459295A1 (de)
JP (1) JP2005513560A (de)
AU (1) AU2002366898A1 (de)
DE (1) DE10163214A1 (de)
WO (1) WO2003054858A1 (de)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071170A1 (en) * 2003-09-30 2005-03-31 Comerford Liam D. Dissection of utterances into commands and voice data
EP2495212A3 (de) * 2005-07-22 2012-10-31 QUALCOMM MEMS Technologies, Inc. MEMS-Vorrichtungen mit Stützstrukturen und Herstellungsverfahren dafür
US8521537B2 (en) * 2006-04-03 2013-08-27 Promptu Systems Corporation Detection and use of acoustic signal quality indicators
US7933619B2 (en) * 2007-10-02 2011-04-26 Airvana, Corp. Wireless control of access points
JP5053950B2 (ja) * 2008-07-29 2012-10-24 キヤノン株式会社 情報処理方法、情報処理装置、プログラムおよび記憶媒体
TWI557722B (zh) * 2012-11-15 2016-11-11 緯創資通股份有限公司 語音干擾的濾除方法、系統,與電腦可讀記錄媒體
US20180166073A1 (en) * 2016-12-13 2018-06-14 Ford Global Technologies, Llc Speech Recognition Without Interrupting The Playback Audio
JP7314102B2 (ja) * 2020-07-09 2023-07-25 Tvs Regza株式会社 制御信号生成回路、受信装置、システム、生成方法、およびプログラム
US20220165291A1 (en) * 2020-11-20 2022-05-26 Samsung Electronics Co., Ltd. Electronic apparatus, control method thereof and electronic system

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19533541C1 (de) * 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
AU7349998A (en) * 1997-05-19 1998-12-11 Creator Ltd. Programmable assembly toy
ES2173596T3 (es) * 1997-06-06 2002-10-16 Bsh Bosch Siemens Hausgeraete Aparato domestico, en particular aparato domestico electrico.
JPH11249692A (ja) * 1998-02-27 1999-09-17 Nec Saitama Ltd 音声認識装置
EP0951883B1 (de) * 1998-03-18 2005-07-27 Nippon Telegraph and Telephone Corporation Tragbares Kommunikationsgerät mit Anordnung zum Knochenleitungshören
TW495710B (en) * 1998-10-15 2002-07-21 Primax Electronics Ltd Voice control module for control of game controller
US6937984B1 (en) * 1998-12-17 2005-08-30 International Business Machines Corporation Speech command input recognition system for interactive computer display with speech controlled display of recognized commands
US6246986B1 (en) * 1998-12-31 2001-06-12 At&T Corp. User barge-in enablement in large vocabulary speech recognition systems
US20030093281A1 (en) * 1999-05-21 2003-05-15 Michael Geilhufe Method and apparatus for machine to machine communication using speech
US20020193989A1 (en) * 1999-05-21 2002-12-19 Michael Geilhufe Method and apparatus for identifying voice controlled devices
JP2001175281A (ja) * 1999-12-20 2001-06-29 Seiko Epson Corp 動作指令処理方法および動作指令処理装置並びに動作指令処理プログラムを記録した記録媒体
JP2001319045A (ja) * 2000-05-11 2001-11-16 Matsushita Electric Works Ltd 音声マンマシンインタフェースを用いたホームエージェントシステム、及びプログラム記録媒体
US6937742B2 (en) * 2001-09-28 2005-08-30 Bellsouth Intellectual Property Corporation Gesture activated home appliance

Also Published As

Publication number Publication date
AU2002366898A1 (en) 2003-07-09
WO2003054858A1 (en) 2003-07-03
US20050071169A1 (en) 2005-03-31
EP1459295A1 (de) 2004-09-22
JP2005513560A (ja) 2005-05-12

Similar Documents

Publication Publication Date Title
DE60120062T2 (de) Sprachsteuerung von elektronischen Geräten
DE102016212647B4 (de) Verfahren zum Betreiben eines Sprachsteuerungssystems in einem Innenraum und Sprachsteuerungssystem
DE10163213A1 (de) Verfahren zum Betrieb eines Spracherkennungssystems
DE112016002321T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm
DE102011012400A1 (de) Infotainmentsystemsteuerung
DE102014109122A1 (de) Systeme und Verfahren für ergebnisbezogene Arbitrierung in Sprachdialogsystemen
DE102017119762A1 (de) Ereignis zum Unterbrechen einer gesprochenen Äußerung ausser Pausieren oder Aussetzen in einem Fluss von gesprochenen Äusserungen
EP3430615B1 (de) Fortbewegungsmittel, system und verfahren zur anpassung einer länge einer erlaubten sprechpause im rahmen einer spracheingabe
DE10163214A1 (de) Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes
WO2005022511A1 (de) Unterstützungsverfahren für sprachdialoge zur bedienung von kraftfahrzeugfunktionen
DE10251113A1 (de) Verfahren zum Betrieb eines Spracherkennungssystems
EP3108476A1 (de) Verfahren zur erfassung wenigstens zweier zu erfassender informationen mit zu verknüpfendem informationsgehalt durch eine sprachdialogeinrichtung, sprachdialogeinrichtung und kraftfahrzeug
WO2018069027A1 (de) Multimodaler dialog in einem kraftfahrzeug
DE102017206876B4 (de) Verfahren zum Betreiben eines Sprachsteuerungssystems in einem Kraftfahrzeug undSprachsteuerungssystem
DE102017213249A1 (de) Verfahren und System zum Erzeugen einer auditiven Meldung in einem Innenraum eines Fahrzeugs
WO2018010853A1 (de) Steuervorrichtung und verfahren zum sprachbasierten betreiben eines kraftfahrzeugs
EP1121684B1 (de) Verfahren und vorrichtung zur ausgabe von informationen und/oder meldungen per sprache
DE102020130041A1 (de) Verbergen von phrasen in über luft laufendem audio
DE102019126688A1 (de) System und verfahren zur automatischen untertitelanzeige
DE102006045719B4 (de) Medizinisches System mit einer Spracheingabevorrichtung
DE102006035780B4 (de) Verfahren zur Unterstützung des Bedieners eines Spracheingabesystems
DE102007043264A1 (de) Vorrichtung und Verfahren zur Ausgabe eine Sprachsignals
EP3115886A1 (de) Verfahren zum betreiben eines sprachsteuerungssystems und sprachsteuerungssystem
DE102022125547A1 (de) Kraftfahrzeug und Verfahren zum Zusammenfassen eines Gesprächs in einem Kraftfahrzeug
DE102019112412A1 (de) System und verfahren zur unterstützung des fahrers eines fahrzeugs sowie fahrzeug, insbesondere kraftfahrzeug

Legal Events

Date Code Title Description
8139 Disposal/non-payment of the annual fee