DE19962218C2

DE19962218C2 - Verfahren und System zum Autorisieren von Sprachbefehlen

Info

Publication number: DE19962218C2
Application number: DE19962218A
Authority: DE
Inventors: Goetz Roderer; Dirk Groeger
Original assignee: Siemens Corp
Current assignee: Siemens Corp
Priority date: 1999-12-22
Filing date: 1999-12-22
Publication date: 2002-11-14
Anticipated expiration: 2019-12-23
Also published as: DE19962218A1

Description

Die Erfindung betrifft ein Verfahren zum Autorisieren von Sprachbefehlen sowie ein System zum Autorisieren von Sprach befehlen in einer mittels Sprachbefehlen gesteuerten Einrich tung.

Fortschritte auf dem Gebiet der Spracherkennung ermöglichen in zunehmendem Maß eine komfortable Steuerung von Funktions einheiten über Sprachbefehle. Dazu wird über ein Mikrofon aufgenommene Sprache zunächst im Hinblick auf darin enthalte ne typische Laute, Worte oder Wortfolgen analysiert und die festgestellten Laute, Worte oder Wortfolgen werden anschlie ßend mit in einem Befehlsspeicher abgelegten Befehlen vergli chen, die in Form von typischen Lauten, Worten oder Wortfol gen abgelegt sind. Bei Übereinstimmung wird der jeweilige Be fehl aktiviert.

Aus der EP 0 082 304 A1 ist bekannt, Sprache in Verbindung mit Gesichtserkennung als biometrische Merkmalskombination zu verwenden, um eine Person zu identifizieren und dadurch bei spielsweise zu überprüfen, ob eine Person zur Überwindung ei nes Zugangskontrollsystems autorisiert ist. Dazu werden stimmspezifische Merkmale der zu überprüfenden Person, die ein Schlüsselwort in ein Mikrofon spricht, in einem Korrela tionsrechner mit früher gespeicherten stimmspezifischen Merk malen einer bekannten Person verglichen, die dasselbe Schlüs selwort äußert. Dadurch wird eine erste Korrelationsrate er halten. Zur gleichen Zeit und zwar wenn ein Schlüsselereignis in der Äußerung des Schlüsselwortes durch die zu überprüfende Person entsteht, wird ein Momentanbild der Mundregion der Person aufgenommen, auf die vorher ein Gittermuster proji ziert worden ist. Dieses Momentanbild wird mit einem vorher gespeicherten, entsprechenden Momentanbild der bekannten Per son verglichen, um eine zweite Korrelationsrate zu erhalten.

Die beiden Korrelationsraten werden analysiert, um festzu stellen, ob die zu überprüfende Person mit der bekannten Per son übereinstimmt.

Bei Einrichtungen, die über Sprachbefehle gesteuert werden, insbesondere wenn solche Einrichtungen in Kraftfahrzeugen verwendet werden, besteht ein Problem dahingehend, daß eine andere Person als die Fahrerin oder der Fahrer des Fahrzeugs Sprachbefehle spricht, die dann als Befehle erkannt werden und zur Auslösung bestimmter Funktionen führen. Dies kann zu für den Fahrer verwirrenden oder sogar gefährlichen Zuständen führen.

Aus der DE 691 01 527 T2, von der in den Oberbegriffen der unabhängigen Patentansprüche 1 und 4 ausgegangen wird, ist ein System zum Autorisieren von Sprachbefehlen durch Sprach erkennung und zusätzlichen Lokalisieren der den Sprachbefehl sprechenden Person bekannt. Dazu sind wenigstens zwei Mikro fone vorgesehen, denen eine Spracherkennungseinrichtung zum Erkennen von Sprachbefehlen nachgeschaltet ist. Weiter ist den räumlich voneinander entfernten Mikrofonen eine Phasen schiebereinrichtung nachgeschaltet, mit Hilfe derer der Ort bestimmt werden kann, an dem eine einen Befehl sprechende Person sitzt. Auf diese Weise kann jedem erkannten Sprachbe fehl der Ort bzw. bei Verwendung in einem Kraftfahrzeug der Sitz zugeordnet werden, von dem aus der Sprachbefehl gegeben wird. Weiter ist eine Einrichtung vorgesehen, die vorbestimm te Sprachbefehle nur dann autorisiert, wenn sie von einem vorbestimmten Sitz aus gegeben werden. Auf diese Weise kann der Fahrer eines Kraftfahrzeugs davor geschützt werden, dass das Fahrzeug auf bestimmte, vom Beifahrersitz aus gegebene Befehle reagiert und den Fahrer überrascht, was zu Gefahren situationen führen kann.

Eine Eigenart des bekannten Systems liegt darin, dass die a kustischen Bedingungen, beispielsweise durch Fahrgeräusche, das Radio oder sonstige Insassengeräusche, erschwert sein können, so dass insbesondere die Ortserkennung unsicher ist.

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren und ein System zum Autorisieren von Sprachbefehlen zu schaffen, mit denen sowohl der Sprachbefehl als auch der Ort sicher erkannt werden kann, an dem der Sprachbefehl gesprochen wird.

Der auf das Verfahren gerichtete Teil der Erfindungsaufgabe wird mit den Merkmalen des Anspruchs 1 gelöst.

Erfindungsgemäß werden von einer Kamera erfasste Mundbewegun gen mit den akustisch erfassten, typischen Lauten hinsicht lich einer zeitlichen Übereinstimmung verglichen, so dass die Identifizierung des Ortes ein hohes Maß an Sicherheit auf weist.

Gemäß dem Anspruch 2 können die optisch erfassten Mundbewe gungen zusätzlich dazu verwendet werden, akustisch nicht sau ber identifizierte Laute zu ersetzen und auf diese Weise die Befehlserkennungssicherheit zu verbessern.

Der Anspruch 3 kennzeichnet den grundsätzlichen Aufbau des Systems zur Lösung der Erfindungsaufgabe.

In einer Basisausbaustufe ist nur eine Kamera vorgesehen, die die Mundbewegungen einer an einem vorbestimmten Ort befindli chen Person analysiert, so dass beispielsweise nur von diesem vorbestimmten Ort aus gesprochene Befehle, wenn sie erkannt werden, autorisiert werden und zur Erzeugung von Steuersigna len führen.

Der Anspruch 5 kennzeichnet eine Ausführungsform des Systems, bei der mehrere unterschiedliche Orte optisch erfasst werden, denen unterschiedliche zulässige Befehle zugeordnet sind.

Mit den Merkmalen des Anspruchs 6 wird die Sicherheit der Be fehlserkennung verbessert.

Gemäß den Ansprüchen 7 und 8 eignet sich das erfindungsgemä ße System besonders gut zur Verwendung in Kraftfahrzeugen.

Die Erfindung ist überall dort mit Vorteil einsetzbar, wo Sprachsteuersysteme eingesetzt werden, bei denen vorbestimmte Befehle nur dann aktiviert werden sollen, wenn sich eine den Befehl sprechende Person innerhalb eines vorbestimmten örtli chen Bereiches befindet.

Die Erfindung kann in Verbindung mit Personenidentifizie rungssystemen eingesetzt werden, wie sie beispielsweise in der eingangs genannten EP 0 082 304 A1 beschrieben sind. Auf diese Weise kann zusätzlich überprüft werden, ob die in einem vorbestimmten örtlichen Bereich befindliche Person eine auto risierte Person ist.

Die Erfindung wird im folgenden anhand schematischer Zeich nungen beispielsweise und mit weiteren Einzelheiten erläu tert.

Es stellen dar:

Fig. 1 eine Aufsicht auf einen vereinfacht dargstellten Innenraum eines Kraftfahrzeugs, und

Fig. 2 ein Blockschaltbild des erfindungsgemäßen Systems.

Gemäß Fig. 1 sind im Innenraum eines Kraftfahrzeugs ein Fah rersitz 2, ein Beifahrersitz 4 und eine Fondsitzbank 6 ange ordnet.

Im Dachbereich oberhalb der Windschutzscheibe befindet sich eine Kameraeinrichtung 10 mit Kameras 12 und 14. Der Bildwin kel Ω₁ der Kamera 12 überstreicht einen Bereich, in dem sich normalerweise der Kopf des Fahrers befindet. Der Bildwinkel Ω₂ der Kamera 14 überstreicht einen Bereich, in dem sich nor malerweise der Beifahrer befindet.

Im Dachbereich vor dem Fondraum ist eine weitere Kamera 16 angeordnet, deren Bildwinkel Ω₃ den mittleren Bereich des Fondraums überstreicht. Weiter sind Mikrofone 18 und 20 vor gesehen, wobei das Mikrofon 18 dem Fahrer/Beifahrerraum zuge ordnet ist und das Mikrofon 20 dem Fondraum zugeordnet ist.

Fig. 2 zeigt ein Blockschaltbild der Anordnung gemäß Fig. 1.

Das Mikrofon 18 ist an eine Sprachanalyseeinrichtung 22 ange schlossen, in der die empfangene Sprache durch Korrelation mit in einem Sprachspeicher 24 abgelegten typischen Sprach lauten und Worten analysiert wird und an deren Ausgang den analysierten Lauten bzw. Worten entsprechende Signale erzeugt werden.

Die Kamera 12, die das Gesicht der Fahrerin oder des Fahrers 26 erfaßt, ist mit einer Bewegungsanalyseeinrichtung 26 ver bunden, in der die von der Kamera 12 erfaßten Mundbewegungen im Hinblick auf typische Mundbewegungen analysiert werden und auf ihre Korrelation mit typischen Mundbewegungen zugeordne ten, im Sprachspeicher 24 vorher gespeicherten typischen Lau ten oder Worten überprüft werden. Bei positiver Korrelation erscheinen am Ausgang der Bewegungsanalyseeinrichtung 26 den typischen Lauten und/oder Worten entsprechende Signale.

Die Ausgangssignale der Sprachanalyseeinrichtung 22 und der Bewegungsanalyseeinrichtung 26 werden einer Synchronprüfein richtung 30 zugeführt, die nur solche Laute und/oder Worte durchläßt und einer Korrelationseinrichtung 32 zuführt, die zeitgleich aus der Sprachanalyseeinrichtung 22 und der Bewe gungsanalyseeinrichtung 26 ausgegeben werden.

In der Korrelationseinrichtung 32 werden die empfangenen ty pischen Laute und/oder Worte mit in einer Sektion I eines Be fehlsspeichers 34 abgelegten Befehlen verglichen. Bei positi vem Vergleich wird am Ausgang der Korrelationseinrichtung 32 ein entsprechendes Befehlssignal erzeugt und in einer Steuer einrichtung 36 in ein entsprechendes Steuersignal zum Steuern einer Funktion umgewandelt.

Die dem Beifahrer 40 zugeordnete Kamera 14 ist mit einer wei teren Bewegungsanalyseeinrichtung 42 verbunden, der eine Syn chronprüfeinrichtung 44 nachgeschaltet ist, die mit der Sprachanalyseeinrichtung 22 und einer weiteren Korrelations einrichtung 46 verbunden ist, die mit einer Sektion II des Befehlsspeichers 34 und mit der Steuereinrichtung 36 verbun den ist.

Die Kamera 16 des Fondraums ist der Einfachheit halber nicht in das Blockschaltbild eingezeichnet. Sie ist ähnlich ge schaltet wie die Kamera 14 bzw. die Kamera 12. Das Fondraum mikrofon 20 kann unmittelbar an die Sprachanalyseeinrichtung 22 angeschlossen sein.

Die Funktionen der einzelnen entsprechend fortschrittlichen gängigen Verfahren der Spracherkennung, der Bildverarbeitung und der Informationskorrelationen arbeitenden Komponenten so wie deren Aufbau sind an sich bekannt und werden daher nicht erläutert.

Im folgenden wird daher lediglich das erfindungsgemäße Zusam menwirken der Komponenten beschrieben:
Es sei angenommen, der Fahrer 26 spräche das Befehlswort "Scheibenwischer an". Das Sprechen dieses Sprachbefehls wird zum einen vom Mikrofon 18 erfaßt und zum anderen von der Ka mera 12. In der Sprachanalyseeinrichtung 22 wird durch Ver gleich mit im Sprachspeicher 24 abgelegter Information ermit telt, daß die Wortgruppe "Scheibenwischer an" gesprochen wur de und am Ausgang der Sprachanalyseeinrichtung 22 erscheint ein entsprechendes Signal. In der Bewegungsanalyseeinrichtung 26 werden die Mundbewegungen analysiert, die dem Sprechen der Wortfolge "Scheibenwischer an" entsprechen und durch Korrelation mit im Sprachspeicher 24 abgelegten Informationen fest gestellt, daß diese Wortfolge gesprochen wurde, so daß am Ausgang der Bewegungsanalyseeinrichtung 26 ein entsprechendes Signal erzeugt wird. In der Synchronprüfeinrichtung 30 wird überprüft, ob beide Signale synchron zueinander sind, so daß das synchrone Signal zu der Korrelationseinrichtung 32 durch gelassen wird, in der überprüft wird, ob dem Signal ein im Befehlsspeicher 34 abgelegter Befehl entspricht. Ist im Be fehlsspeicher 34 ein entsprechender Befehl "Scheibenwischer an" abgelegt, so sendet die Korrelationseinrichtung 32 ein entsprechendes Signal an die Steuereinrichtung 26, in der ein Steuersignal zum Inbetriebsetzen des Scheibenwischers erzeugt wird.

Wird die Wortfolge "Scheibenwischer an" vom Beifahrer 40 ge sprochen, so läuft der geschilderte Vorgang in der Sprachana lyseeinrichtung 22, der Bewegungsanalyseeinrichtung 42, der Synchronprüfeinrichtung 44 und der Korrelationseinrichtung 46 ab. In der Korrelationseinrichtung 46 erfolgt keine positive Korrelation mit einem in der Sektion II des Befehlsspeichers 34 abgelegten Befehl, da in der Sektion II nur solche Befehle abgelegt sind, die für den Beifahrer erlaubte Befehle sind. Entsprechend wird die Steuereinrichtung 36 nicht aktiv, wenn der Beifahrer 40 den Befehl "Scheibenwischer an" spricht.

Durch Segmentierung der in dem Befehlsspeicher 34 abgelegten Befehle in einzelne Sektionen, die unterschiedlichen Kameras bzw. örtlichen Bereichen im Fahrzeuginneren zugeordnet sind, wird somit ermöglicht, daß Sprachbefehle nur dann ausgeführt werden, wenn sie aus einem, dem jeweiligen Sprachbefehl zuge ordneten räumlichen Bereich des Fahrzeuginnenraums kommen. Dabei können bestimmte Befehle durchaus allen Bereichen des Fahrzeuginnenraums zugeordnet sein beispielsweise "Innenbe leuchtung an" oder "Radio aus" und so weiter. Weiter ist es möglich, daß ein Befehl "Temperatur höher" unterschiedliche Funktionen auslöst, je nachdem, ob er vom Fahrer, Beifahrer oder aus dem Fond gesprochen wird. In einer Heizungs- /Klimaanlage werden dann entsprechende Funktionen ausgelöst, die den örtlichen Bereichen zugeordnet sind.

Es versteht sich weiter, daß der Fahrer beispielsweise mit tels einer nicht dargestellten Bedieneinheit Befehle einzel nen örtlichen Bereichen zuordnen kann; beispielsweise kann er Telefonfunktionen für den gesamten Innenraum freigeben, nur für den Beifahrer freigeben usw.

In der bzw. den Synchronprüfeinrichtungen 30, 44 können ver stümmelte Worte, die bezüglich ihrer Synchronisierung noch erkennbar sind, die aber nicht vollständig aufgenommen sind, beispielsweise weil der Mund der sprechenden Person teilweise verdeckt wird oder ein Geräusch das gesprochene Wort über deckt, durch gegenseitige Korrelation ergänzt werden, so daß die Qualität der der Korrelationseinrichtung 32 zugeordneten Information bzw. Worte verbessert ist.

Die Erfindung kann in vielfältiger Weise abgeändert werden. Beispielsweise können die den unterschiedlichen Kameras zuge ordneten Sprachanalyseeinrichtungen, Synchronprüfeinrichtun gen und Korrelationseinrichtungen in einem gemeinsamen Hard ware-Baustein zusammengefaßt sein, wobei die von der jeweili gen Kamera erfaßte optische Information hinsichtlich ihrer Kamerazuordnung gekennzeichnet wird. Die verschiedenen Sek tionen des Befehlsspeichers 34 können dadurch ausgebildet sein, daß den insgesamt im Befehlsspeicher 34 befindlichen Befehlen Informationen hinsichtlich der jeweiligen örtlichen Bereiche bzw. Kameras zugefügt sind. Die Synchronprüfung zwi schen optischen und akustischen Informationen kann bereits vor der Analyse hinsichtlich vorbestimmter Sprachbausteine erfolgen, da zwischen der gesprochenen Sprache und den erfaß ten Mundbewegungen Grundkorrelationen bestehen beispielsweise zwischen Sprachbeginn und Beginn einer Mundbewegung. Der In nenraum des Fahrzeugs kann in mehrere Bereiche aufgeteilt sein, beispielsweise der Fondraum in drei nebeneinander ange ordnete Bereiche. Das System kann auf den Außenraum erweitert werden, der von einer oder mehreren Kameras bereichsweise überdeckt wird.

In vereinfachter Ausführungsform kann das System dazu verwen det werden festzustellen, ob eine Sprache überhaupt von einer im Sichtfeld einer Kamera befindlichen Person ausgeht, indem eine Synchronizität zwischen akustisch aufgenommener Sprache und optisch erfaßter Mundbewegung festgestellt oder nur fest gestellt wird, ob sich ein Mund bewegt. Liegt keine Mundbewe gung vor, so wird eine Sprachauswertung gar nicht aktiviert, so daß Rechnerleistung eingespart bzw. nicht unnötig ver braucht wird.

Claims

1. Verfahren zum Autorisieren von Sprachbefehlen, wobei vorbestimmten Sprachbefehlen wenigstens ein vorbestimmter Ort zugeordnet wird, an dem sich eine die Befehle sprechende Per son befinden muß, damit die Sprachbefehle ausgeführt werden, Sprache akustisch aufgenommen und hinsichtlich typischer Lau te analysiert wird, um einen Sprachbefehl zu identifizieren, der Ort festgestellt wird, an dem sich die den Sprachbefehl sprechende Person befindet und
die Ausführung des Sprachbefehls freigegeben wird, wenn der identifizierte Sprachbefehl zu dem dem festgestellten Ort zu geordneten, vorbestimmten Sprachbefehlen gehört,
dadurch gekennzeichnet, dass
der Ort festgestellt wird, indem
eine Kamera Mundbewegungen einer an wenigstens einem vorbe stimmten Ort befindlichen Person erfasst,
die erfassten Mundbewegungen hinsichtlich typischer Mundbewegungen analysiert werden,
die typischen Mundbewegungen und die typischen Laute hin sichtlich ihrer zeitlichen Übereinstimmung verglichen werden und
bei positivem Vergleich der Ort der von der Kamera erfassten Person als der Ort identifiziert wird, an dem sich die den Sprachbefehl sprechende Person befindet.

2. Verfahren nach Anspruch 1, wobei typischen Mundbewegungen typische Laute zugeordnet sind und akustisch schlecht aufgenommene Laute durch typische Laute ersetzt werden, die zeitgleich aufgenommenen, typischen Mund bewegungen zugeordnet sind.

3. System zum Autorisieren von Sprachbefehlen in einer mit tels Sprachbefehlen gesteuerten Einrichtung, enthaltend
ein Mikrofon (18, 20) zur Aufnahme von Sprache,
eine dem Mikrofon nachgeschaltete Sprachanalyseeinrichtung (22) zur Analyse der Sprache hinsichtlich typischer Laute und/oder Worte,
eine Korrelationseinrichtung (32, 46) und einen Befehlsspei cher (34), wobei die Korrelationseinrichtung die analysierten typischen Laute und/oder Worte mit in dem Befehlsspeicher ge speicherten Befehlen korreliert, um einen Sprachbefehl zu i dentifizieren und für dessen Ausführung an eine Steuerein richtung (36) weiterzugeben,
gekennzeichnet durch
eine Kameraeinrichtung (12, 14, 16), die Mundbewegungen einer an einem vorbestimmten Ort befindlichen Person aufnimmt, eine der Kamera nachgeschalteten Bewegungsanalyseeinrichtung (28, 42), die die aufgenommenen Mundbewegungen hinsichtlich typischer Mundbewegungen und/oder diesen zugeordneten typi schen Lauten und/oder Worten analysiert,
eine Synchronprüfeinrichtung (30, 44), die die typischen Mundbewegungen und/oder die aus diesen abgeleiteten typischen Laute und/oder Worte hinsichtlich ihrer zeitlichen Überein stimmung mit den aus der Sprachanalyse hergeleiteten typi schen Lauten und/oder Worten vergleicht und die typischen Laute und/oder Worte bei Übereinstimmung zu der Korrelations einrichtung (32, 46) weiterleitet.

4. System nach Anspruch 3, dadurch gekennzeichnet, dass die Kameraeinrichtung (12, 14, 16) derart ausgebildet ist, daß die Mundbewegungen von an unterschiedlichen vorbestimmten Orten befindlichen Personen erfassbar sind und den unter schiedlichen Orten vorbestimmte zulässige Befehle zugeordnet sind.

5. System nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass eine Speichereinrichtung (24) vorgesehen ist, in der typischen Mundbewegungen zugeordnete typische Laute und/oder Worte abgelegt sind, und die Korrelationseinrichtung (32, 46) bei schlechter Qualität der akustisch aufgenommenen typischen Laute und/oder Worte die den zeitgleich aufgenommenen Mundbe wegungen zugeordneten typischen Laute und/oder Worte weiter leitet.

6. System nach einem der Ansprüche 3 bis 5, wobei die Kameraeinrichtung (12, 14, 16) den Fahrer- und Bei fahrerraum in einem Kraftfahrzeug erfaßt und die Steuersigna le zur Steuerung von Funktionen vorgesehen sind.

7. System nach Anspruch 6, wobei eine Kamera (16) den Fond raum des Kraftfahrzeugs erfaßt.