DE102013016196B4

DE102013016196B4 - Kraftfahrzeugbedienung mittels kombinierter Eingabemodalitäten

Info

Publication number: DE102013016196B4
Application number: DE102013016196.7A
Authority: DE
Inventors: Stefan Mayer; Christine Ullmann; Paul Sprickmann Kerkerinck; Michael MISCHKE; Michael Wittkämper; Manuel Joachim; Marius Spika
Original assignee: Audi AG; Volkswagen AG
Current assignee: Audi AG; Volkswagen AG
Priority date: 2013-09-27
Filing date: 2013-09-27
Publication date: 2023-10-12
Anticipated expiration: 2033-09-28
Also published as: DE102013016196A1

Abstract

Kraftfahrzeug (10) mit einer ersten Bedienschnittstelle (38), durch welche eine Sprachbedienung zumindest eines Geräts (28) des Kraftfahrzeugs (10) bereitgestellt ist, und mit einer weiteren Bedienschnittstelle (44), durch welche eine auf zumindest einer von Sprache verschiedenen, anderen Eingabemodalität basierende Bedienung des zumindest einen Geräts (28) bereitgestellt ist, wobei die erste Bedienschnittstelle (38) dazu ausgelegt ist, in einer Spracheingabe (26) eines Benutzers (20) zumindest einen Referenzbegriff (52) zu erkennen, welcher auf zumindest ein Objekt (18) hinweist, das der Benutzer (20) mittels der zumindest einen anderen Eingabemodalität beschreibt, wobei eine Steuereinrichtung (54) dazu ausgelegt ist, in Abhängigkeit von dem zumindest einen erkannten Referenzbegriff (52) und in Abhängigkeit von einer über die weitere Bedienschnittstelle (38) empfangenen Benutzereingabe (56) das zumindest eine Objekt (18) zu ermitteln und in Abhängigkeit von der Spracheingabe (26) und dem zumindest einen ermittelten Objekt (18) zumindest einen Steuerbefehl zu erzeugen und den zumindest einen Steuerbefehl an das zumindest eine Gerät (28) auszusenden, dadurch gekennzeichnet, dass zumindest ein Umfeldsensor bereitgestellt ist, über welchen die Steuereinrichtung (54) jeweils zumindest einen Ist-Zustand des zumindest einen Objekts (18) zu ermitteln ausgelegt ist, wobei die Steuereinrichtung (54) zusätzlich dazu ausgelegt ist, bei Erkennen einer relativen Angabe in der Spracheingabe (26) in Abhängigkeit von dem Ist-Zustand und der relativen Angabe den Steuerbefehl zu erzeugen.

Description

Die Erfindung betrifft ein Kraftfahrzeug mit zwei Bedienschnittstellen zum Eingeben von Bedieneingaben. Die erste Bedienschnittstelle stellt hierbei eine Sprachbedienung für zumindest ein Gerät des Kraftfahrzeugs bereit. Die zweite Bedienschnittstelle stellt für das zumindest eine Gerät eine Bedienung bereit, die auf einer anderen Eingabemodalität als Sprache, also beispielsweise Gesten oder Tastatureingaben basiert.
Aus der DE 10 2006 055 252 A1 ist hierzu eine Telekommunikationsanwendung bekannt, die eine multimodale Auswahl von Objekten ermöglicht. Hierbei ist es vorgesehen, die Navigation durch Menüs über die Bewegung eines Geräts im Raum und die Auswahl eines Menüpunktes durch mindestens ein Sprachkommando zu steuern. Entsprechend eines Auswahl-Klicks oder Auswahl-Tastendrucks kann mindestens eine sprachliche Äußerung in Kombination mit zumindest einer kurzen Bewegung genutzt werden. Als Steueranweisung, die über Sprache angegeben werden können, sind beispielsweise die Befehle „Halt“, „Stopp“ und „Aktivieren“ vorgesehen. Das Rollen durch Menüoptionen kann hierdurch angehalten werden und eine mit der Option verbundene Funktionalität durch einen gesprochenen Ausführungsbefehl aktiviert werden.
Aus der DE 10 2006 009 291 A1 ist eine Gestenerkennung als Bedienschnittstelle für ein Kraftfahrzeug bekannt. Hierbei kann durch ein spezifisches gesprochenes Wort zunächst eine zu bedienende Funktionskomponente festgelegt werden. Beispielsweise kann der Fahrer das Wort „Audio“ oder „Klima“ aussprechen. Danach werden von dem Fahrer ausgeführte Gesten als Steueranweisung für die ausgewählte Funktionskomponente interpretiert.
Die DE 10 2010 017 931 A1 beschreibt ein Informationssystem zur Bereitstellung von Informationen für einen Anwender in einem Fahrzeug. Das Informationssystem umfasst eine Gestenerfassung, wobei auf Basis einer Richtung einer Anwendergeste jeweilige Informationen abgerufen werden. Das Informationssystem kann durch einen Sprachbefehl bedient werden.
Die US 2002/0135618 A1 beschreibt, wie multi-modale Input-Daten in Programmierumgebungen eingesetzt werden können.
Die US 2011/0115702 A1 beschreibt, wie Sprache und Gestikulieren zur Computerprogrammierung eingesetzt werden können.
Bei Bedienschnittstellen aus dem Stand der Technik ist stets eine scharfe Trennung vorgesehen, indem mit einer ersten Eingabemodalität, beispielsweise Gesten, ein erster Teil einer Bedieneingabe festgelegt wird und mit einer zweiten Eingabemodalität, beispielsweise Sprache, ein ergänzender Befehl, wie beispielsweise „Aktivieren“, gegeben wird.
Dagegen ist im Stand der Technik nicht bekannt, dass der Benutzer frei wählen kann, mit welcher Eingabemodalität er einzelne Elemente eines Steuerbefehls eingibt.
Der Erfindung liegt die Aufgabe zugrunde, in einem Kraftfahrzeug dem Benutzer die Wahlmöglichkeit zu geben, über welche Eingabemodalität er einzelne Elemente eines Steuerbefehls festlegen möchte.
Die Aufgabe wird durch die Gegenstände der unabhängigen Patentansprüche gelöst. Vorteilhafte Weiterbildungen der Erfindung ergeben sich durch die abhängigen Patentansprüche.
Die Erfindung geht von dem eingangs beschriebenen Kraftfahrzeug mit der ersten Bedienschnittstelle für die Sprachbedienung und der weiteren Bedienschnittstelle für die Bedienung durch zumindest eine andere Eingabemodalität, beispielsweise eine Gestenerkennung oder eine Tastatureingabe, aus. Erfindungsgemäß ist bei dem Kraftfahrzeug die erste Bedienschnittstelle (Sprachbedienung) dazu ausgelegt, in einer Spracheingabe eines Benutzers zumindest einen Referenzbegriff zu erkennen, welcher auf zumindest ein Objekt hinweist, dass der Benutzer mittels der zumindest einen anderen Eingabemodalität beschreibt. Beispielsweise kann der Benutzer also folgende Spracheingabe äußern: „Zeige die Uhrzeit dort an!“, um festzulegen, auf welchem Bildschirm eine digitale Uhr angezeigt wird. Der Referenzbegriff stellt insbesondere nur einen Teil der Spracheingabe dar, d.h. zusätzlich zu dem Referenzbegriff umfasst die Sprachäußerung oder Spracheingabe noch weitere Begriffe, die insbesondere zum selben Bedienfehl gehören wie der Referenzbegriff.
Durch die erste Bedienschnittstelle wird der Bedienbefehl erkannt, dass die Uhrzeit angezeigt werden soll. In der Spracheingabe ist aber der Begriff „dort“ enthalten, welcher auf einen Ort hinweist, den der Benutzer nicht ausgesprochen hat. Dafür bildet der Begriff „dort“ einen Referenzbegriff, der darauf hinweist, dass der Benutzer offenbar mit einer anderen Eingabemodalität den Ort beschreibt.
Entsprechend ist bei der Erfindung eine Steuereinrichtung dazu ausgelegt, in Abhängigkeit von dem zumindest einen erkannten Referenzbegriff und in Abhängigkeit von einer über eine weitere Bedienschnittstelle empfangenen Benutzereingabe das zumindest eine Objekt zu ermitteln. In dem beschriebenen Beispiel kann also beispielsweise eine Gestenerkennung ermitteln, wohin der Benutzer gerade zeigt, nämlich z.B. auf einen bestimmten Bildschirm. In Abhängigkeit von der Spracheingabe und dem zumindest einen ermittelten Ort erzeugt dann die Steuereinrichtung zumindest einen Steuerbefehl und sendet den zumindest einen Steuerbefehl an das zumindest eine Gerät aus, welches über die beiden Bedienschnittstellen bedient wird. In dem Beispiel kann also etwa ein Infotainmentsystem durch den zumindest einen Steuerbefehl dazu veranlasst werden, die aktuelle Uhrzeit auf dem durch Zeigen bestimmten Bildschirm anzuzeigen.
Die Erfindung sieht des Weiteren vor, dass bei dem erfindungsgemäßen Kraftfahrzeug zumindest ein Umfeldsensor bereitgestellt ist, über welchen die Steuereinrichtung jeweils zumindest einen Ist-Zustand des zumindest einen Objekts zu ermitteln ausgelegt ist. Ein solcher Umfeldsensor kann beispielsweise ein Temperatursensor sein, eine Kamera, ein Ultraschallsensor, ein Radarsensor. Der Benutzer kann dann beispielsweise die folgende Spracheingabe äußern: „Mach es hier ein bisschen wärmer!“. Diese Sprachangabe enthält zwei Referenzbegriffe, nämlich „hier“ und „wärmer“ der erste Referenzbegriff kann von der Steuereinrichtung als der Aufenthaltsort des Benutzers interpretiert werden, was beispielsweise ein bestimmter Sitz im Kraftfahrzeug sein kann, wenn es um eine zonenspezifische Klimatisierung geht. Der zweite Referenzbegriff „wärmer“ weist darauf hin, dass die aktuelle Temperatur vergrößert werden soll.
Hierdurch ist es der Steuereinrichtung möglich, die aktuelle Temperatur zu erfassen und eine relative Änderung vorzunehmen, beispielsweise die Temperatur um 10% zu erhöhen. Hierzu ist die Steuereinrichtung dazu ausgelegt, bei Erkennen einer relativen Angabe in der Spracheingabe in Abhängigkeit von dem Ist-Zustand und der relativen Angabe den Steuerbefehl zu erzeugen. In dem Beispiel ist also für einen Ist-Zustand von „20°C-Raumtemperatur“ ein Steuerbefehl erzeugbar, der die Temperatur im Bereich des Sitzes des Benutzers auf beispielsweise 22°C erhöht. Ein anderes Beispiel ist die Sitzsteuerung „Stelle die Rückenlehne flacher ein!“
Die Erfindung weist den Vorteil auf, dass nun verschiedene Eingabemodalitäten nicht sequentiell hintereinander abgearbeitet werden, also nicht eine Vorauswahl einer Kategorie mit Sprache erfolgen muss, um dann beispielsweise einen Menüeintrag mittels einer Zeigergeste auszuwählen. Stattdessen kann der Benutzer gezielt durch Verwenden von Referenzbegriffen die Spracheingabe mittels der anderen Eingabemodalität ergänzen.
Bedienungsfehler werden vermieden, wenn als Referenzbegriffe typische, auch in der natürlichen Sprache verwendete Referenzbegriffe genutzt werden. Hierzu sieht eine Weiterbildung der Erfindung vor, dass die erste Bedienschnittstelle dazu ausgelegt ist, als den zumindest einen Referenzbegriff jeweils zumindest ein Adverb des Ortes (beispielsweise „hier“, „dort“) und/oder ein Demonstrativpronomen (z. B. „dies“, „jenes“) und/oder einen Komparativ (z. B. „das größere“, „das kleinere“) und/oder ein Superlativ (z. B. „den größten“, „den kleinsten“) zu erkennen. Eine beispielhafte Spracheingabe mit einem Superlativ kann z.B. lauten: „Nimm aus dieser Liste die obersten drei Lieder“, worin die beiden Referenzbegriffe „dieser“ und „die obersten drei“ erkannt werden können.
Durch die Erfindung ist es problemlos möglich, Sprache mit einer Vielzahl unterschiedlicher Eingabemodalitäten zu kombinieren. Entsprechend weist bei dem erfindungsgemäßen Kraftfahrzeug die weitere Bedienschnittstelle zumindest eine der folgenden Einrichtungen auf: eine Gestenerkennung, eine Handschrifterkennung, ein Touchpad, einen Touchscreen, einen Dreh-Drück-Steller, eine Tastatur, eine Blickrichtungserkennung.
Eine weitere Ausführungsform sieht vor, dass die Steuereinrichtung durch den zumindest einen Steuerbefehl eine Routenplanung in einem Navigationsgerät steuert. Der Benutzer kann also beispielsweise zu einer digitalen Navigationskarte, die auf einem Bildschirm angezeigt wird, die Spracheingabe äußern: „Ich möchte dorthin fahren!“ Mit dem Referenzbegriff „dorthin“ kann der Benutzer wieder beispielsweise auf die aktuelle Stellung eines Mauszeigers verweisen, durch die dann das Navigationsziel festgelegt werden kann.
Eine andere Weiterbildung sieht vor, eine Datenbankabfrage zum Ermitteln von Ortsbeschreibungen zu steuern. Der Benutzer kann dann beispielsweise aus einem Fahrzeugfenster auf ein Gebäude in der Fahrzeugumgebung zeigen und die Spracheingabe äußern: „Was sieht man hier?“ Der Referenzbegriff „hier“ verweist dann wieder auf die Zeigegeste des Benutzers. Hierdurch kann dann für die Datenbankabfrage der Ort festgelegt werden, zu welchem in der Datenbank eine Ortsbeschreibung gefunden werden soll.
Eine andere Weiterbildung sieht vor, dass eine Beschreibung einer Fahrzeugfunktion in einer digitalen Bedienungsanleitung des Kraftfahrzeugs ermittelt wird. Der Benutzer kann also mit der Spracheingabe: „Was bedeutet das?“ festlegen, dass ein Warnsymbol, das gerade angezeigt wird und auf das der Benutzer zeigt, die entsprechenden Beschreibungstexte aus der digitalen Bedienungsanleitung ermittelt werden.
Ein weiterer Vorteil ergibt sich, wenn das Kraftfahrzeug dazu ausgelegt ist, auf einer Anzeigeeinrichtung eine durch den zumindest einen Steuerbefehl ausgelöste Ausgabe des zumindest einen Geräts an einem Ort anzuzeigen, so dass sich aus der Sicht des Benutzers das zumindest eine Objekt, das er mittels des zumindest einen Referenzbegriffs referenziert hat, und diese Ausgabe gemeinsam in einem Blickfeld des Benutzers befinden. Bevorzugt liegen das Objekt und die Ausgabe von einem Auge des Benutzers aus gemessen innerhalb eines Raumwinkels von 45°, insbesondere 30°. Zeigt der Benutzer also beispielsweise auf ein Gebäude im Kraftfahrzeugvorfeld vor dem Kraftfahrzeug und fragt: „Was sehe ich hier?“, so kann ihm beispielsweise in einem Scheibenwurzeldisplay, welches sich quer im Fahrzeug an einer unteren Kante der Frontscheibe zumindest über die halbe Fahrzeugbreite hinweg erstrecken kann, direkt unterhalb des Gebäudes im Blickfeld des Benutzers die Antwort eingeblendet werden. Es kann beispielsweise auch ein Head-up-Display genutzt werden, um direkt neben dem Gebäude im Blickfeld des Benutzers die Informationen zu dem Gebäude einzublenden.
Durch die Erfindung ist auch ein Verfahren bereitgestellt, welches durch die Schritte gekennzeichnet ist, die bereits im Zusammenhang mit dem erfindungsgemäßen Kraftfahrzeug beschrieben worden sind. Gemäß dem Verfahren wird also durch die erste Bedienschnittstelle in einer Spracheingabe eines Benutzers zumindest ein Referenzbegriff erkannt, welcher auf zumindest ein Objekt hinweist, das der Benutzer mittels der zumindest einen anderen Eingabemodalität beschreibt. Eine Steuereinrichtung ermittelt in Abhängigkeit von dem zumindest einen erkannten Referenzbegriff und in Abhängigkeit von einer über die zumindest eine weitere Bedienschnittelle empfangenen Benutzereingabe das zumindest eine Objekt. In Abhängigkeit von der Spracheingabe und dem zumindest einen ermittelten Objekt wird durch die Steuereingabe zumindest ein Steuerbefehl erzeugt und dieser an das zumindest eine Gerät ausgesendet. Zu der Erfindung gehören auch Weiterbildungen des erfindungsgemäßen Verfahrens, welche Merkmale aufweisen, die bereits im Zusammenhang mit den Weiterbildungen des erfindungsgemäßen Kraftfahrzeugs erläutert worden sind. Aus diesem Grund werden die entsprechenden Weiterbildungen des erfindungsgemäßen Verfahrens hier nicht noch einmal erläutert.
Im Folgenden ist anhand der Figuren ein Ausführungsbeispiel der Erfindung erläutert. Es zeigt:

1 eine schematische Darstellung einer Ausführungsform des erfindungsgemäßen Kraftfahrzeugs in einer Umgebung;
2 eine schematische Darstellung von zwei Kamerabildern, die von dem Kraftfahrzeug von 1 erzeugt worden sind; und
3 eine schematische Darstellung eines Fahrzeuginnenraums des Kraftfahrzeugs von 1.

Bei dem im Folgenden erläuterten Ausführungsbeispiel handelt es sich um eine bevorzugte Ausführungsform der Erfindung. Bei dem Ausführungsbeispiel stellen aber die beschriebenen Komponenten der Ausführungsform jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden und damit auch einzeln oder in einer anderen als der gezeigten Kombination als Bestandteil der Erfindung anzusehen sind. Des Weiteren ist die beschriebene Ausführungsform auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.
In 1 ist in vogelperspektivischer Darstellung ein Kraftfahrzeug 10 gezeigt, das beispielsweise ein Kraftwagen, insbesondere einen Personenkraftwagen, sein kann. Das Kraftfahrzeug 10 fährt in dem gezeigten Beispiel beispielsweise auf ein Einkaufszentrum 12 zu. Von dem Einkaufszentrum 12 sind ein Parkhaus 14 und mehrere Einkaufsgebäude 16 dargestellt. Auf das Parkhaus 14 weisen mehrere Hinweisschilder 18. Ein Fahrer 20 (siehe 2) sieht in seinem Blickfeld 22 das Einkaufszentrum 12. Er möchte wissen, ob es dort auch ein Restaurant gibt.
Wie in 2 gezeigt, zeigt der Fahrer 20 mit einer Hand 24 beispielsweise auf die in seinem Blickfeld 22 liegenden Hinweisschilder 18. Er spricht oder äußert hierbei die Spracheingabe „Are there any good restaurants?“ (Gibt es dort gute Restaurants?).
In dem Kraftfahrzeug 10 ist es dem Fahrer 20 ermöglicht, dass er mit dem Zeigen der Hand 24 und der Spracheingabe 26 in Kombination beispielsweise eine Suche in einer Datenbank 28 steuern kann, in welcher beispielsweise auch Informationen betreffend mögliche Fahrziele gespeichert sein können.
Anhand von 3 ist im Folgenden erläutert, wie in dem Kraftfahrzeug 10 dem Fahrer 20 das Steuern der Datenbankabfrage mittels der Kombination aus der Spracheingabe 26 und der Zeigegeste mit der Hand 24 ermöglicht ist. In 3 ist ein Kraftfahrzeuginnenraum 30 aus der Sicht des Fahrers 20 dargestellt. Gezeigt sind ein Lenkrad 32, die frontale Windschutzscheibe 34 und ein unterseitig der Windschutzscheibe 34 bereitgestelltes Scheibenwurzeldisplay 36.
Das Kraftfahrzeug 10 weist eine erste Bedienschnittstelle 38 auf, welche eine Mikrofonanordnung 40 aus wenigstens einem Mikrofon sowie eine Spracherkennungseinrichtung 42 aufweisen kann, die in aus dem Stand der Technik bekannter Weise ausgestaltet sein kann. Eine weitere Bedienschnittstelle 44 des Kraftfahrzeugs 10 kann beispielsweise einen optischen Sensor 46, wie beispielsweise eine Einzelbildkamera, eine Videokamera, eine Time-of-flight-Kamera und/oder eine Infrarotkamera, aufweisen. Der optische Sensor 46 erzeugt beispielsweise Videodaten V die beispielsweise von einer Gestenerkennungseinrichtung 48 empfangen werden können. Durch die Gestenerkennungseinrichtung 48 kann auf Grundlage der Videodaten V eine Gestenerkennung einer vom Fahrer 20 ausgeführt Geste durchgeführt werden. Ein Umgebungssensor 50, beispielsweise ebenfalls eine Kamera, kann mit seinem Erfassungsbereich in das Blickfeld 22 des Fahrers gerichtet sein und Umgebungsdaten U der Kraftfahrzeugumgebung erzeugen. In 2 ist veranschaulicht, was beispielsweise durch die Videodaten V und die Umfelddaten U abgebildet sein kann.
Die Spracherkennungseinrichtung 42 empfängt über die Mikrofoneinrichtung 40 die Spracheingabe 26. In der Spracheingabe 26 wird durch die Spracherkennungseinrichtung 42 erkannt, dass es einen Suchbefehl, hier „Restaurants“, und einen Referenzbegriff 52 gibt, der auf der Grundlage der Spracheingabe 26 allein nicht verstanden werden kann. Der Referenzbegriff „there“ (dort) weist auf ein Objekt hin, dass der Benutzer nicht in der Spracheingabe 26 selbst beschreibt, sondern mittels einer anderen Eingabemodalität, hier der Geste mit der Hand 24.
Die Spracherkennungseinrichtung 42 überträgt die erkannte Spracheingabe 26 an eine Steuereinrichtung 54, welche aus der Spracheingabe 26 einen Steuerbefehl, beispielsweise einen Suchbefehl für die Datenbank 28, erzeugen kann. Die Steuereinrichtung 24 kann beispielsweise durch ein Programmmodul eines Steuergeräts oder einer zentralen Recheneinheit des Kraftfahrzeugs 10 bereitgestellt sein.
Der in der Spracheingabe 26 enthaltene Referenzbegriff 52 muss zunächst inhaltlich übersetzt werden, das heißt in eine konkrete Objektangabe umgewandelt werden. Die Steuereinrichtung 24 empfängt von der Gestenerkennungseinrichtung 48 Koordinatendaten 56, die auf Grundlage der mit der Hand 24 vom Fahrer 20 ausgeführten Geste ermittelt worden sind.
Die Gestenerkennungseinrichtung 48 hat in den Videodaten V mittels einer Gestenerkennung erkannt, dass der Fahrer 20 die Hand 24 mit ausgestreckten Zeigefinger gerade nach vorne gehalten hat und hierdurch eine Zeigelinie 58 auf ein Objekt außerhalb des Kraftfahrzeugs 10 ausgerichtet hat. Die Gestenerkennung kann in an sich aus dem Stand der Technik bekannter Weise durchgeführt werden. Beispielsweise kann hierzu auf die Funktionsbibliothek „Kinect“ des Unternehmens Microsoft zurückgegriffen werden.
Die Gestenerkennungseinrichtung 48 kann die Zeigelinie 58 extrapolieren und auf Grundlage der Umfelddaten U ermitteln, dass die Zeigelinie 58 beispielsweise die in den Umfelddaten U abgebildeten Hinweisschilder 18 schneidet. Für den Schnittbereich, also die in dem Beispiel in den Umfelddaten U abgebildeten Hinweisschilder 18, kann deren geometrische Position XYZ beispielsweise aus der Fahrzeugeigenposition und einer Abstandsmessung ermittelt werden. Die Position XYZ wird durch Koordinaten 56 von der Gestenerkennungseinrichtung 48 an die Steuereinrichtung 54 übertragen. Die Position XYZ steht in der Datenbank 28 für ein ganzes Areal, hier z.B. das ganze Einkaufszentrum 12.
Die Steuereinrichtung 54 kann nun allgemein erfindungsgemäß den Referenzbegriff 52 durch die über die anderen Eingabemodalität empfangene Benutzereingabe, hier also hier die Koordinaten 56, ersetzen und insgesamt einen Steuerbefehl mit folgenden Slots konstruieren: ein Bedienbefehl (hier Suchanfrage), ein Befehlsobjekt (hier der Ort XYZ) und Parameter für den Bedienbefehl (hier Restaurants). Konkret bedeutet dies hier, dass durch eine Suche für den Ort XYZ Informationen zu Restaurants ermittelt werden sollen. Zu dem Ort XYZ sind in der Datenbank 28 die Informationen zu dem Einkaufszentrum 12 gespeichert (sogenannter Point of Interest).
Die anschließend von der Datenbank 28 durch die Steuereinrichtung 24 empfangenen Informationen zu den Restaurants im Einkaufszentrum 12 können den Fahrer 20 beispielsweise in seinem Blickfeld 22 mittels des Scheibenwurzeldisplays 26 als Informationsfelder 60 angezeigt werden.
Ein zweiter möglicher Referenzbegriff 52' kann der Begriff „good“ (gut) durch die Spracherkennungseinrichtung 52 erkannt werden. Die Steuereinrichtung 54 kann dazu ausgelegt sein, in dem Begriff „gut“ eine Referenz auf ein Nutzerprofil des Fahrers 20 zu sehen und dort dessen Vorliebe in Bezug auf Restaurants zu ermitteln oder aber eine Referenz auf ein Ranking und in der Datenbank 28 auch eine Rangliste von Nutzerempfehlungen zu den in dem Einkaufszentrum 12 befindlichen Restaurants ermitteln.
Es kann nun vorgesehen sein, dass der Fahrer 20 zu einem der Informationsfelder 60 die Spracheingabe „Welches Restaurant ist das?“ äußert und hierbei auf eines der Informationsfelder 60 zeigt. Der Referenzbegriff „das“ signalisiert der Steuereinrichtung 54 wieder, dass mittels einer Geste auf ein bestimmtes der Informationsfelder 60 vom Fahrer 20 gezeigt wird.
Genauso kann der Fahrer beispielsweise weitere Bedienfelder 62 auf dem Scheibenwurzeldisplay durch zeigen auswählen und hierzu die Spracheingabe äußern: „Aktiviere das“ oder „Welche Funktion hat dieses Bedienfeld?“.
Insgesamt ist durch die Kombination aus Sprache und einer weiteren Eingabemodalität, wie beispielsweise einer Geste, eine Kreuzmodalität oder Crossmodalität realisiert, indem Sprach- und Gestenbedienung verbunden werden durch Erfassen beider Eingaben also der Spracheingabe 26 und einer Bediengeste mit einer Hand 24, und in Abhängigkeit voneinander interpretiert werden. Der Benutzer kann somit durch einen Referenzbegriff in seiner Spracheingabe darauf hinweisen, dass die Spracheingabe durch Informationen aus der anderen Eingabemodalität zu ergänzen ist. Hierdurch ergibt sich in vorteilhafter Weise eine natürliche Kommunikation mit Sprache und beispielsweise Gestik. Neben der Gestik ist aber eine parallele Auswertung unterschiedlicher Interaktionsmodalitäten (Sprache, Anzeigen, Tasten/Dreh- Drück-Steller, Touchpad/Touchscreen, Gesten, Blicke) zueinander in Beziehung zu setzen, um die Bedeutung der Eingabemodalitäten zu erfassen und eine Ableitung einer einzeigen crossmodalen Äußerung und Handlungsaufforderung zu kombinieren.
Insgesamt ist so durch die Erfindung im automotiven Kontext die Verbindung von Zeigen auf ein realweltliches Objekt, z. B. ein Gebäude, und das Auslösen einer Funktion per Sprache realisiert.

Claims

Kraftfahrzeug (10) mit einer ersten Bedienschnittstelle (38), durch welche eine Sprachbedienung zumindest eines Geräts (28) des Kraftfahrzeugs (10) bereitgestellt ist, und mit einer weiteren Bedienschnittstelle (44), durch welche eine auf zumindest einer von Sprache verschiedenen, anderen Eingabemodalität basierende Bedienung des zumindest einen Geräts (28) bereitgestellt ist, wobei die erste Bedienschnittstelle (38) dazu ausgelegt ist, in einer Spracheingabe (26) eines Benutzers (20) zumindest einen Referenzbegriff (52) zu erkennen, welcher auf zumindest ein Objekt (18) hinweist, das der Benutzer (20) mittels der zumindest einen anderen Eingabemodalität beschreibt, wobei eine Steuereinrichtung (54) dazu ausgelegt ist, in Abhängigkeit von dem zumindest einen erkannten Referenzbegriff (52) und in Abhängigkeit von einer über die weitere Bedienschnittstelle (38) empfangenen Benutzereingabe (56) das zumindest eine Objekt (18) zu ermitteln und in Abhängigkeit von der Spracheingabe (26) und dem zumindest einen ermittelten Objekt (18) zumindest einen Steuerbefehl zu erzeugen und den zumindest einen Steuerbefehl an das zumindest eine Gerät (28) auszusenden, dadurch gekennzeichnet, dass zumindest ein Umfeldsensor bereitgestellt ist, über welchen die Steuereinrichtung (54) jeweils zumindest einen Ist-Zustand des zumindest einen Objekts (18) zu ermitteln ausgelegt ist, wobei die Steuereinrichtung (54) zusätzlich dazu ausgelegt ist, bei Erkennen einer relativen Angabe in der Spracheingabe (26) in Abhängigkeit von dem Ist-Zustand und der relativen Angabe den Steuerbefehl zu erzeugen.
Kraftfahrzeug (10) nach Anspruch 1, wobei die erste Bedienschnittstelle (38) dazu ausgelegt ist, als den zumindest einen Referenzbegriff (52) jeweils zumindest ein Adverb des Ortes und/oder ein Demonstrativpronomen (52) und/oder einen Komparativ und/oder einen Superlativ zu erkennen.
Kraftfahrzeug (10) nach einem der vorhergehenden Ansprüche, wobei die weitere Bedienschnittstelle (44) zumindest eine der folgenden Einrichtungen umfasst: eine Gestenerkennung (48), eine Handschrifterkennung, ein Touchpad, einen Touchscreen, einen Dreh-Drück-Steller, eine Tastatur, eine Blickrichtungserkennung.
Kraftfahrzeug (10) nach einem der vorhergehenden Ansprüche, wobei die Steuereinrichtung (54) dazu ausgelegt ist, durch den zumindest einen Steuerbefehl eine Routenplanung in einem Navigationsgerät und/oder eine Datenbankabfrage zum Ermitteln von Ortsbeschreibungen (60) zu steuern und/oder eine Beschreibung einer Fahrzeugfunktion in einer digitalen Bedienungsanleitung des Kraftfahrzeugs (10) zu ermitteln.
Kraftfahrzeug (10) nach einem der vorhergehenden Ansprüche, wobei das Kraftfahrzeug (10) dazu ausgelegt ist, auf einer Anzeigeeinrichtung (36) eine durch den zumindest einen Steuerbefehl ausgelöste Ausgabe (60) des zumindest einen Geräts (28) in dem Kraftfahrzeug (10) derart an einem Ort angeordnet anzuzeigen, dass sich aus der Sicht des Benutzers (20) das zumindest eine Objekt (18) und die Ausgabe (60) gemeinsam in einem Blickfeld (22) des Benutzer (20) befinden.
Verfahren zum Betreiben eines Kraftfahrzeugs (10), wobei durch eine erste Bedienschnittstelle (38) eine Sprachbedienung zumindest eines Geräts (28) des Kraftfahrzeugs (10) bereitgestellt wird und durch eine weitere Bedienschnittstelle (44) eine auf zumindest einer von Sprache verschiedenen, anderen Eingabemodalität basierende Bedienung des zumindest einen Geräts (28) bereitgestellt wird, wobei die erste Bedienschnittstelle (38) in einer Spracheingabe (26) eines Benutzers (20) zumindest einen Referenzbegriff (52) erkennt, welcher auf zumindest ein Objekt (18) hinweist, das der Benutzer (20) mittels der zumindest einen anderen Eingabemodalität beschreibt, und eine Steuereinrichtung (54) in Abhängigkeit von dem zumindest einen erkannten Referenzbegriff (52) und in Abhängigkeit von einer über die zumindest eine weitere Bedienschnittstelle (44) empfangenen Benutzereingabe (56) das zumindest eine Objekt (18) ermittelt und in Abhängigkeit von der Spracheingabe (26) und dem zumindest einen ermittelten Objekt (18) zumindest einen Steuerbefehl erzeugt und den zumindest einen Steuerbefehl an das zumindest eine Gerät (28) aussendet, dadurch gekennzeichnet, dass zumindest ein Umfeldsensor bereitgestellt ist, über welchen die Steuereinrichtung (54) jeweils zumindest einen Ist-Zustand des zumindest einen Objekts (18) ermittelt, wobei die Steuereinrichtung (54) zusätzlich bei Erkennen einer relativen Angabe in der Spracheingabe (26) in Abhängigkeit von dem Ist-Zustand und der relativen Angabe den Steuerbefehl erzeugt.