-
Die Erfindung betrifft ein Verfahren zum Aufbereiten eines Erkennungsergebnisses, das von einem automatischen Online-Spracherkenner für ein mobiles Endgerät bereitgestellt wird.
-
Bei einem mobilen Endgerät, beispielsweise einem Smartphone oder aber auch einem Kraftfahrzeug, kann vorgesehen sein, dass eine Sprachbedienung auf der Grundlage einer automatischen Spracherkennung (ASR - Automatic Speech Recognition) ermöglicht oder vorgesehen ist. Ein hierfür verwendeter automatischer Spracherkenner kann außerhalb des mobilen Endgeräts durch einen Server des Internets oder einen Online-Dienst bereitgestellt sein. Ein solcher automatischer Spracherkenner, der über eine Internetverbindung mit einem mobilen Endgerät gekoppelt ist, wird hier als Online-Spracherkenner bezeichnet.
-
Ein Beispiel für eine solche Kopplung eines Kraftfahrzeugs mit einem Online-Spracherkenner ist aus der
DE 10 2015 212 650 A1 bekannt. Aus dieser Druckschrift ist zusätzlich bekannt, dass eine sogenannte hybride Spracherkennung vorgesehen sein kann, bei welcher in dem Kraftfahrzeug selbst ein zusätzlicher Spracherkenner vorgesehen ist, der hier als Onboard-Spracherkenner bezeichnet ist.
-
-
Allgemein kann ein automatischer Spracherkenner ein Audio-Sprachsignal empfangen, das eine von einem Benutzer gesprochenen Phrase repräsentiert oder signalisiert. Eine Phrase kann ein einzelnes Wort oder eine Wortfolge aus mehreren Worten sein. Anhand des Audio-Sprachsignals kann der Spracherkenner einen Text erzeugen, welcher den in der Phrase enthaltenen Sprachinhalt angibt, und zwar so, wie ihn der Spracherkenner erkannt hat. Dieser Text stellt das Erkennungsergebnis des Spracherkenners dar. Eine Möglichkeit, um das Erkennungsergebnis auf Richtigkeit zu überprüfen, ist mit einem sogenannten Sprachmodell gegeben, das alle zulässigen Wortfolgen oder Phrasen beschreibt, die der Benutzer überhaupt nur bei der Bedienung des Spracherkenners verwenden darf. Das Sprachmodell gibt also die zulässigen oder gültigen Phrasen an. Das Sprachmodell kann beispielsweise auf der Grundlage eines mathematischen Graphen gebildet sein, bei welchem jedes zulässige Wort als Knoten repräsentiert ist und durch Verknüpfungen der Knoten zulässige Wortfolgen definiert sind. Jeder gültige Pfad durch diesen Graphen stellt dann eine zulässige Phrase dar.
-
Das Sprachmodell kann sich aber in einem mobilen Endgerät in Abhängigkeit vom aktuellen Bedienkontext ändern. Beispielsweise kann ein Sprachmodell für die Bedienung einer Medienwiedergabe (zum Beispiel das Abspielen von MP3-Dateien) und ein anderes Sprachmodell für die Bedienung beispielsweise eines Kommunikationsprogramms, wie beispielsweise eines E-Mail-Programms, vorgesehen sein. Bei einem Online-Spracherkenner ist es daher schwierig, ein passendes Sprachmodell für ein mobiles Endgerät bereitzustellen, da sich dessen Bedienkontext ändern kann.
-
Aus der
US 2015/0019224 A1 ist ein Spracherkenner bekannt, dem eine Wortverarbeitung nachgeschaltet ist, durch welche Wortabkürzungen im Erkennungsergebnis gesondert verarbeitet werden können.
-
Aus der
US 2013/0289988 A1 ist bekannt, ein Erkennungsergebnis einer Spracherkennungseinrichtung für natürliche Sprache mit einer Liste von zulässigen Phrasen abzugleichen, um das Erkennungsergebnis auf eine zulässige Phrase abzubilden. Falls mehrere zulässige Phrasen infrage kommen, kann ein Konfidenzwert berücksichtigt werden. Falls mehrere Spracherkennungseinrichtungen zur Verfügung stehen, können deren Erkennungsergebnisse auch miteinander verglichen werden, um nur das beste Erkennungsergebnis an eine Anwendung weiterzuleiten.
-
Aus der
US 6,078,886 A ist ein Verfahren zur Spracherkennung bekannt, bei welchem die Spracherkennung in einem Server durchgeführt wird, wobei ein Client, der eine Spracheingabe erkannt haben möchte, die zu verwendende Erkennungsgrammatik an den Server schicken kann, damit dieser die Spracherkennung auf Basis der Erkennungsgrammatik des Clients ausführt.
-
Der Erfindung liegt die Aufgabe zugrunde, für ein mobiles Endgerät eine fehlerrobuste Online-Spracherkennung bereitzustellen.
-
Die Aufgabe wird durch den Gegenstand des unabhängigen Patentanspruchs gelöst. Vorteilhafte Weiterbildungen der Erfindung sind durch die abhängigen Patentansprüche, die folgende Beschreibung sowie die Figur beschrieben.
-
Durch die Erfindung ist ein Verfahren bereitgestellt, mittels welchem eine Nachbearbeitung eines Erkennungsergebnisses eines automatischen Online-Spracherkenners ermöglicht ist. Das Verfahren dient zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät. Das Verfahren kann durch eine Vermittlungsvorrichtung durchgeführt werden, die zwischen den Online-Spracherkenner und das mobile Endgerät geschaltet sein kann. Die Vermittlungsvorrichtung kann aber auch in den Online-Spracherkenner oder in das mobile Endgerät integriert sein oder als verteilte Vorrichtung jeweils zu einem Teil in beiden integriert sein.
-
Das aufzubereitende Erkennungsergebnis gehört zu einer von einem Benutzer gesprochenen Phrase. Es wird durch die Vermittlungsvorrichtung aus dem Online-Spracherkenner als ein Text empfangen. In der eingangs beschriebenen Weise ist man nun daran interessiert, diesen rohen, ungeprüften Text dahin zu überprüfen, ob er eine zulässige Phrase darstellt, die in dem mobilen Endgerät z.B. im aktuellen Bedienkontext zulässig ist, also verarbeitet oder verwendet werden kann. Hierzu wird aus dem mobilen Endgerät ein Sprachmodell der zulässigen Phrasen empfangen. Das Sprachmodell weist hierbei zusätzlich die Besonderheit auf, dass jeder zulässigen Phrase durch das Sprachmodell auch eine Bedeutungsangabe betreffend eine Bedeutung der Phrase zugeordnet ist. Durch die Bedeutungsangabe ist also die Semantik oder der Bedeutungsinhalt der Phrase definiert oder angegeben. Die Bedeutungsangabe gibt also die Intention an, die der Benutzer beim Sprechen der Phrase hatte. Zum Beispiel kann der Phrase „Mir ist heiß!“ die Bedeutungsangabe zugeordnet sein, dass es um die Bedienung einer Klimaanlage geht und bei der Klimaanlage die Kühlleistung vergrößert werden soll. Die gleiche Bedeutungsangabe kann beispielsweise auch der Phrase „Sorge bitte für etwas Erfrischung!“ zugeordnet sein. Für eine solche Bedeutungsangabe kann dann ein spezifischer Steuerbefehl vorgesehen sein. Somit kann der Benutzer also seine Phrase sehr umgangssprachlich oder natürlichsprachlich formulieren, und es kann hierdurch mittels des Sprachmodells dennoch ein Steuerbefehl für eine Komponente des mobilen Endgeräts interpretiert oder ausgelöst werden.
-
In der Vermittlungsvorrichtung liegen also nun sowohl der Text des Erkennungsergebnisses als auch das aktuell für das mobile Endgerät gültige Sprachmodell vor. Durch eine Entscheidungslogik der Vermittlungsvorrichtung wird das Erkennungsergebnis mit den durch das Sprachmodell definierten zulässigen Phrasen verglichen. Zu einer zulässigen Phrase, mit welcher der Text gemäß einem vorbestimmten Übereinstimmungskriterium übereinstimmt, wird dann deren Bedeutungsangabe ermittelt und die Bedeutungsangabe dem mobilen Endgerät bereitgestellt. Das mobile Endgerät bekommt also bereits ein dahingehend aufbereitetes Erkennungsergebnis, dass die Bedeutung der vom Benutzer gesprochenen Phrase mitgeteilt wird und nicht nur der rohe Text, der die Phrase wörtlich wiedergibt. Aus der Bedeutungsangabe kann mit geringerem technischen Aufwand und/oder Berechnungsaufwand ein Steuersignal oder Steuerbefehl für eine Komponente des mobilen Endgeräts erzeugt werden.
-
Durch die Erfindung ergibt sich der Vorteil, dass dem mobilen Endgerät nicht nur ein Text eines Erkennungsergebnisses bereitsteht, das durch das mobile Endgerät selbst noch einmal plausibilisiert oder verifiziert und dann zusätzlich noch in Bezug auf seine Bedeutung interpretiert werden müsste. Stattdessen wird dem mobile Endgerät bereits eine Bedeutungsangabe betreffend die gesprochene Phrase bereitgestellt. Dies verringert den Verarbeitungsaufwand, der in dem mobilen Endgerät zur Verarbeitung einer gesprochenen Phrase nötig ist.
-
Die Vermittlungsvorrichtung kann als ein eigenständiger Computer oder eigenständiger Computerverbund bereitgestellt sein, der beispielsweise über eine jeweilige Kommunikationsverbindung mit dem Online-Spracherkenner einerseits dem mobilen Endgerät andererseits gekoppelt sein kann. Die Entscheidungslogik kann in der Vermittlungsvorrichtung beispielsweise als ein Programmodul realisiert sein. Als integraler Bestandteil des Online-Spracherkenners und/oder des mobilen Endgeräts kann die Vermittlungsvorrichtung selbst aber auch insgesamt als ein Programmodul realisiert sein.
-
Ein Sprachmodell muss nicht ausschließlich durch das mobile Endgerät bereitgestellt sein. Es ist vorgesehen, dass auch der Online-Spracherkenner ein eigenes Online-Sprachmodell verwendet, das dann aber nicht unbedingt an dem aktuellen Bedienkontextes mobilen Endgeräts angepasst ist. Es kann also aus dem Online-Spracherkenner zusätzlich zu dem eigentlichen Text des Erkennungsergebnisses auch eine durch den Online-Spracherkenner ermittelte Online-Bedeutungsangabe empfangen werden, also eine zweite Bedeutungsangabe. Hierbei macht man sich zunutze, dass zu der Online-Bedeutungsangabe in der beschriebenen Weise auch ein Online-Konfidenzwert empfangen werden kann. Der Online-Konfidenzwert gibt also die Übereinstimmung des Textes des Erkennungsergebnisses mit dem Online-Sprachmodell des Online-Spracherkenners an. Nun liegen also in der Vermittlungsvorrichtung zwei Bedeutungsangaben vor, nämlich dasjenige der Vermittlungsvorrichtung selbst und die Online-Bedeutungsangabe aus dem Online-Spracherkenner. Zu jeder Bedeutungsangabe liegt aber auch ein Konfidenzwert vor. Die Bedeutungsangabe, die von der Vermittlungsvorrichtung selbst ermittelt wird, wird dem mobile Endgerät nur bedingt bereitgestellt, und zwar zumindest in dem Fall, dass durch eine Zuteilungslogik oder Arbiterlogik der Vermittlungsvorrichtung erkannt wird, dass der Konfidenzwert der Bedeutungsangabe des Sprachmodells der Vermittlungsvorrichtung größer als der Online-Konfidenzwert der Online-Bedeutungsangabe des Online-Spracherkenners ist. Mit anderen Worten weist in diesem Fall der Text des Erkennungsergebnisses eine größere Übereinstimmung mit dem Sprachmodell des mobilen Endgeräts auf als mit dem Online-Sprachmodell des Online-Spracherkenners. Falls andersherum der Online-Konfidenzwert größer ist, kann vorgesehen sein, dass entweder nur die Online-Bedeutungsangabe bereitgestellt wird oder beide Bedeutungsangaben. Durch diese Weiterentwicklung ergibt sich der Vorteil, dass zwei unterschiedliche Sprachmodelle auf das Erkennungsergebnis angewendet werden und hierdurch auch solche Phrasen erkannt werden können, die durch das Sprachmodell des mobilen Endgeräts nicht modelliert sind. Die Arbiterlogik kann als ein Programmodul in der Vermittlungsvorrichtung bereitgestellt sein.
-
In dem Kraftfahrzeug oder allgemein in dem mobilen Endgerät befindet sich noch ein automatischer Onboard-Spracherkenner, der mittels des erfindungsgemäßen Verfahrens integriert oder mit genutzt wird. In dem mobilen Endgerät wird also zusätzlich durch den automatischen Onboard-Spracherkenner ein Onboard-Erkennungsergebnis ermittelt. Der Onboard-Spracherkenner verwendet hierbei im Vergleich zu dem Online-Spracherkenner einen anderen Erkennungsalgorithmus und/oder ein anderes Vokabular und/oder eine andere Erkennungsgrammatik. Hierdurch ergibt sich der Vorteil, dass aufgrund dieser unterschiedlichen Implementierungsarten eine identische Onboard- und eine Online-Falscherkennung praktisch niemals gleichzeitig vorkommen, also zur selben Phrase. Man kann also sicher sein, dass das Erkennungsergebnis des Online-Spracherkenners oder das Onboard-Erkennungsergebnis richtig ist oder sich Falscherkennungen zumindest unterscheiden, sodass dann zur Sicherheit beim Benutzer nachgefragt werden kann, was er meinte.
-
Die Möglichkeit, um das richtige Erkennungsergebnis aus zweien zu ermitteln, sieht vor, in dem mobilen Endgerät aus dem Onboard-Erkennungsergebnis mittels des Sprachmodells (das ja auch schon der Vermittlungsvorrichtung bereitgestellt wird) eine Onboard-Bedeutungsangabe zu ermitteln und mittels einer Onboard-Arbiterlogik (also einer weiteren Arbiterlogik) zwischen der Onboard-Bedeutungsangabe und der Bedeutungsangabe aus der Vermittlungsvorrichtung auszuwählen. Die Arbiterlogik kann wieder auf der Grundlage eines jeweiligen Konfidenzwerts der Bedeutungsangabe aus der Vermittlungsvorrichtung und der Onboard-Bedeutungsangabe diejenige Bedeutungsangabe mit dem größeren Konfidenzwert auswählen. Dies setzt natürlich voraus, dass die Vermittlungsvorrichtung auch ihre Bedeutungsangabe tatsächlich bereitgestellt hat und nicht deshalb zurückgehalten hat, weil stattdessen die Online-Bedeutungsangabe des Online-Spracherkenners ausgewählt wurde. In diesem Fall wird natürlich durch die Onboard-Arbiterlogik zwischen der Online-Bedeutungsangabe und der Onboard-Bedeutungsangabe in der beschriebenen Weise ausgewählt.
-
Zu der Erfindung gehören Weiterentwicklungen, durch die sich zusätzliche Vorteile ergeben.
-
Das beschriebene Vergleichen des Textes des Erkennungsergebnisses kann mittels eines 1-zu-1-Vergleich erfolgen. Hierbei kann ein Algorithmus für einen String-Vergleich zugrunde gelegt werden, wie er an sich aus dem Stand der Technik bekannt ist (sogenannter String-Matching-Algorithmus). Ein solcher String-Vergleich ist iterativ, sodass bei mehreren zulässigen Phrasen, deren Anfang identisch ist (z.B. „Kannst Du X...“ und „Kannst Du Y...“), dieser Anfang nur einmal mit dem Text des Erkennungsergebnisses verglichen werden muss und dann nur noch der jeweils verbleibende Teil jeder zulässigen Phrase (in dem Beispiel „X...“ und „Y...“) getrennt geprüft werden muss. Hierdurch ergibt der Vorteil, dass der Vergleich mit geringem Rechenaufwand durchgeführt werden kann.
-
Das besagte Übereinstimmungskriterium kann hierbei eine 100-prozentige Übereinstimmung fordern. Es kann aber auch vorkommen, dass das Sprachmodell nicht vollständig ist, also der Benutzer eine Phrase verwendet, die nicht identisch mit einer der zulässigen Phrasen ist. Um dennoch auch eine solche nicht 100-prozentig übereinstimmende Phrase des Benutzers z.B. als einen Sprachbefehl für eine Bedienung des mobilen Endgeräts nutzen zu können, kann vorgesehen sein, dass beim Vergleichen des Erkennungsergebnisses mit den zulässigen Phrasen des Sprachmodells jeweils ein Konfidenzwert ermittelt wird, welcher einen Übereinstimmungsgrad zwischen dem Text und der jeweiligen zulässigen Phrase beschreibt oder angibt. Ein solcher Übereinstimmungsgrad kann auch mit dem beschriebenen Algorithmus für den String-Vergleich berechnet oder angegeben werden. Durch den Konfidenzwert ergibt sich der Vorteil, dass als Übereinstimmungskriterium auch ein Schwellenwert angegeben werden kann, der keine 100-prozentige Übereinstimmung fordert. Beispielsweise kann das Übereinstimmungskriterium eine Übereinstimmung um mehr als 70% oder mehr als 80% oder mehr als 90% fordern. Somit kann ein Sprachbefehl des Benutzers auch bei einer Abweichung vom Sprachmodell erkannt werden.
-
Bei dem Sprachmodell handelt es sich bevorzugt um ein statistisches Sprachmodell. Ein solches statistisches Sprachmodell weist den Vorteil auf, dass zu jeder gültigen Phrase auch eine Häufigkeitswahrscheinlichkeit angegeben ist, die eine relative Häufigkeit der jeweiligen Phrase in Bezug auf alle Phrasen angibt. Die Häufigkeit jeder Phrase kann beispielsweise durch Befragen von Testpersonen ermittelt werden, indem diese gebeten werden, zu einer vorbestimmten Bedeutungsangabe (zum Beispiel „Klimaanlagen-Kühlleistung erhöhen“) eine Phrase anzugeben, wie sie diese Bedeutung ausdrücken würden (z.B. „Mit ist heiß!“ oder „Sorge bitte für etwas Erfrischung!“). Die Summe all dieser von Testpersonen ausgesprochenen Phrasen zu mindestens einer Bedeutungsangabe stellen dann die zulässigen Phrasen dar, die durch das Sprachmodell beschrieben werden. Die relative Häufigkeit jeder Phrase kann beim Vergleichen des Textes des Erkennungsergebnisses mit den zulässigen Phrasen dazu genutzt werden, ein zweideutiges Vergleichsergebnis aufzulösen, indem dasjenige Vergleichsergebnis mit der höheren relativen Häufigkeit der zugehörigen Phrase verwendet wird. Hierdurch kann in vorteilhafter Weise das Vergleichsergebnis plausibilisiert werden. Auch bei dem Online-Sprachmodell kann es sich um ein statistisches Sprachmodell handeln.
-
Bevorzugt handelt es sich bei dem Sprachmodell um ein solches, dass alle gültigen, sprechbaren Formen von Sprachkommandos, die aktuell in dem mobilen Endgerät für eine Sprachbedienung vorgesehen sind, als zulässige Phrasen beschreibt. Somit kann mittels eines Online-Spracherkenners eine Sprachbedienung in dem mobilen Endgerät realisiert werden. Die Anzahl der hierfür verwendbaren Sprachkommandos kann dabei größer als die Anzahl der außenlösbaren Steuerbefehle sein, da mittels des Sprachmodells mehrere Phrasen (d.h. Sprachkommandos) derselben Bedeutungsangabe (Steuerbefehl) zugeordnet werden können.
-
Wie bereits ausgeführt, kann es sich bei dem mobilen Endgerät zum Beispiel um ein Smartphone oder ein Tablett-PC oder eine Smartwatch handeln. Bei einem mobilen Endgerät kann es sich aber auch zum Beispiel um ein Kraftfahrzeug handeln. Somit stellt das mobile Endgerät dann ein Kraftfahrzeug mit Sprachbedienvorrichtung dar. Die Sprachbedienung kann beispielsweise mittels eines Infotainmentsystems (Informations-Unterhaltungssystem) realisiert sein. Hierdurch ergibt sich der Vorteil, dass in dem Kraftfahrzeug keine aufwändige Spracherkennungssoftware betrieben werden muss.
-
Um das erfindungsgemäße Verfahren durchzuführen, ist durch die Erfindung auch eine Vermittlungsvorrichtung bereitgestellt, die in der beschriebenen Weise einen Online-Spracherkenner und ein mobiles Endgerät koppeln kann. Die Vermittlungsvorrichtung weist eine Prozessoreinrichtung auf, die dazu eingerichtet ist, eine Ausführungsform des erfindungsgemäßen Verfahrens mit durchzuführen. Die Vermittlungsvorrichtung kann beispielsweise als ein Router für zwischen dem Online-Spracherkenner und dem mobilen Endgerät zu übertragenden Datenverkehr ausgestaltet sein. Über die Vermittlungsvorrichtung kann auch ein Sprachsignal des Benutzers hin zum Online-Spracherkenner vermittelt oder geroutet oder übertragen werden. Die Prozessoreinrichtung der Vermittlungsvorrichtung- kann zumindest einen Mikrocontroller und/oder zumindest einen Mikroprozessor aufweisen. Die Prozessoreinrichtung kann einen Programmcode aufweisen, der dazu eingerichtet ist, die besagte Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Die Vermittlungsvorrichtung kann beispielsweise als ein Computer oder ein Computerverbund realisiert sein, der an das Internet angeschlossen sein kann.
-
Im Folgenden sind Ausführungsbeispiele der Erfindung beschrieben. Hierzu zeigt die einzige Figur (Fig.) eine schematische Darstellung einer Ausführungsform der erfindungsgemäßen Vermittlungsvorrichtung.
-
Bei den im Folgenden erläuterten Ausführungsbeispielen handelt es sich um bevorzugte Ausführungsformen der Erfindung. Bei den Ausführungsbeispielen stellen die beschriebenen Komponenten der Ausführungsformen jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden und damit auch einzeln oder in einer anderen als der gezeigten Kombination als Bestandteil der Erfindung anzusehen sind. Des Weiteren sind die beschriebenen Ausführungsformen auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.
-
Die Figur zeigt ein Kraftfahrzeug 10, das beispielsweise ein Kraftwagen, insbesondere ein Personenkraftwagen oder Lastkraftwagen, sein kann. Das Kraftfahrzeug 10 repräsentiert ein mobiles Endgerät. Des Weiteren ist ein Online-Spracherkenner 11 dargestellt, der beispielsweise als ein Online-Dienst oder ein Server des Internets realisiert sein kann. In dem Kraftfahrzeug 10 kann mittels einer Mikrofoneinrichtung 12 ein Sprachschall 13 erfasst werden, während der Benutzer eine Phrase 14 ausspricht, beispielsweise ein Kommando oder einen Sprachbefehl für eine Bedienung des Kraftfahrzeugs 10. Ein mittels der Mikrofoneinrichtung 12 erfasstes Sprachsignal 15 kann in digitalisierter Form dem Online-Spracherkenner 11 über eine Kommunikationsverbindung bereitgestellt werden. Die Kommunikationsverbindung kann beispielsweise auf der Grundlage einer Internetverbindung und/oder einer Funkverbindung gebildet sein. Die Funkverbindung kann beispielsweise als eine Mobilfunkverbindung oder eine WLAN-Verbindung (WLAN - Wireless Local Area Network) realisiert sein.
-
Der Online-Spracherkenner 11 kann aus dem Sprachsignal 15 mittels einer automatischen Spracherkennung 16 (ASR - Automatic Speech Recognition) ein Erkennungsergebnis erzeugen, das als Text 18 ausgegeben werden kann. Zusätzlich kann der Online-Spracherkenner 11 aus dem Erkennungsergebnis 17 mittels eines Online-Sprachmodells 18 eine Online-Bedeutungsangabe 19 erzeugen, die zu dem Erkennungsergebnis 17 angibt, welche Bedeutung in Bezug auf die Bedienung des Kraftfahrzeugs und/oder eines Internet-Browsers und/oder eines Online-Dienstes das Erkennungsergebnis aufweist. Das Online-Sprachmodell 18 stellt eine Zuordnungsvorschrift dar, um einem möglichen Erkennungsergebnis 17 eine Bedeutungsangabe 19 zuzuordnen. Dies kann beispielsweise tabellarisch erfolgen oder mittels einer Liste. Lautet das Erkennungsergebnis 17 beispielsweise: „Ich muss mit XY sprechen!“, so kann hieraus mittels des Online-Sprachmodells 18 als Online-Bedeutungsangabe 19 ermittelt werden, dass eine Telefonbedienung gewünscht ist und die Telefonnummer der Person XY gewählt werden soll. Das Online-Sprachmodell 18 kann beispielsweise ein statistisches Sprachmodell SLM sein.
-
Der Text 18 des Erkennungsergebnisses 17 und die zugehörige Online-Bedeutungsangabe 19 können an eine Vermittlungsvorrichtung 20 übermittelt werden, die beispielsweise durch einen weiteren Server des Internets oder einen Online-Dienst realisiert sein kann. Die Vermittlungsvorrichtung 20 kann einen Router darstellt, der den Text 18 und die Online-Bedeutungsangabe 19 an das Kraftfahrzeug 10 weiterleiten soll. In der Vermittlungsvorrichtung 20 kann eine Wrapper-Einrichtung oder Anpassungseinrichtung 21 bereitgestellt sein, die ein Format der Online-Bedeutungsangabe 19 in ein vorgegebenes Format für das Kraftfahrzeug 10 wandeln kann.
-
Beispielsweise kann in dem Kraftfahrzeug 10 ein Onboard-Spracherkenner 22 vorgesehen sein, der ebenfalls mittels einer automatischen Spracherkennung 23 aus dem Sprachsignal 15 ein Erkennungsergebnis erzeugen kann, aus dem mit einem Onboard-Sprachmodell 24 eine Onboard-Bedeutungsangabe 25 in vergleichbarer Weise mittels des Online-Sprachmodells 18 erzeugt werden kann. Die Anpassungseinrichtung 21 kann beispielsweise ein Format der Online-Bedeutungsangabe 19 an ein Format der Onboard-Bedeutungsangabe 25 anpassen.
-
Das Onboard-Sprachmodell 24 kann mittels der Vermittlungsvorrichtung 20 aber auch auf den Text 18 des Erkennungsergebnisses 17 des Online-Spracherkenners 11 angewendet werden. Hierzu kann das Onboard-Sprachmodell 24 an die Vermittlungsvorrichtung 20 übertragen werden. Beispielsweise kann es sich jeweils um dasjenige Onboard-Sprachmodell 24 handeln, das einen aktuellen Bedienkontext beschreibt. Mit anderen Worten kann das Onboard-Sprachmodell 24 bei dem Onboard-Spracherkenner 22 auswechselbar sein.
-
Die Vermittlungsvorrichtung 20 kann eine Entscheidungslogik 26 aufweisen, mittels welcher die durch das Onboard-Sprachmodell 24 definierten zulässige Phrasen mit dem Text 18 verglichen werden kann. Eine zulässige Phrase kann jeweils einem Steuerbefehl oder Steuersignal für eine Komponente des Kraftfahrzeugs 10 entsprechen oder einen solchen Steuerbefehl auslösen.
-
Anhand eines Übereinstimmungskriteriums 27 kann ermittelt werden, mit welcher der zulässigen Phrasen, die durch das Onboard-Sprachmodell 24 definierten, der Text 18 übereinstimmt. Es kann hier eine 100-prozentige Übereinstimmung oder auch eine Übereinstimmung zu einem geringeren Übereinstimmungsgrad als 100% durch das Übereinstimmungskriterium 27 vorgegeben sein. Zusätzlich kann eine Auswahl derjenigen zulässigen Phrase vorgesehen sein, welche den größten Übereinstimmungsgrad aufweist oder es können die N besten Übereinstimmungen verwendet werden, wobei N eine ganze Zahl größer 0 ist. Im Folgenden wird der einfacheren Darstellung halber N = 1 angenommen.
-
Diejenige Phrase des Sprachmodells 24, zu welcher der Text 18 das Übereinstimmungskriterium 27 erfüllt, kann als Bedeutungsangabe 28 ausgegeben oder festgelegt werden. Der Grad der Übereinstimmung kann in einem Konfidenzwert 29 ausgedrückt sein, z.B. als Prozentangabe. Genauso kann zu der Online-Bedeutungsangabe 19 ein Online-Konfidenzwert 30 bereitgestellt sein, z.B. als Prozentangabe.
-
Die Vermittlungsvorrichtung 20 kann eine Arbiterlogik 31 aufweisen, durch welche die Konfidenzwerte 29, 30 verglichen werden können. Die Arbiterlogik 31 kann zumindest diejenige Bedeutungsangabe 19, 28 an das Kraftfahrzeug 10 als finales Erkennungsergebnis 32 weiterleiten, welche den größeren Konfidenzwert 29, 30 aufweist.
-
Somit wird als finales Erkennungsergebnis 32 diejenige Bedeutungsangabe 19, 28 weitergeleitet, welche durch die Arbiterlogik 31 ausgewählt wurde.
-
In dem Kraftfahrzeug 10 kann eine Onboard-Arbiterlogik 33 bereitgestellt sein, welche das finale Erkennungsergebnis 32 mit dem zugehörigen Konfidenzwert 29, 30 empfängt. Des Weiteren kann die Onboard-Arbiterlogik 33 aus dem Onboard-Spracherkenner 22 ebenfalls die von diesem ermittelte Bedeutungsangabe 25 sowie einen zugehöriger Konfidenzwert 34 empfangen. Die Onboard-Arbiterlogik 33 kann nun das Online-Erkennungsergebnis 32 und das Onboard-Erkennungsergebnis 25 anhand der zugehörigen Konfidenzwerte vergleichend bewerten und daraus eine im Kraftfahrzeug 10 als Erkennungsergebnis zu verwendende Bedeutungsangabe 35 auswählen. Anhand dieser Bedeutungsangabe 35 kann dann beispielsweise ein Steuerbefehl oder ein Steuersignal für eine Komponente des Kraftfahrzeugs erzeugt werden.
-
Insgesamt wird also eine Hybrid-Spracherkennung für Kommandos oder allgemein Phrasen 14 immer parallel zur Verarbeitung im Kraftfahrzeug 10 auch an die Online-Erkennung 11 geschickt werden. Der Online-Erkenner 11 ermittelt neben der Funktion oder Bedeutung auch die komplette gesprochene Phrase (Online-Worterkennung) und gibt diese in Textform als Text 18 zurück. Dieses Ergebnis bleibt nicht ungenutzt.
-
Die im Kraftfahrzeug verwendeten Rohdaten der statistischen Onboard-Modelle 24 werden in der Vermittlungsvorrichtung 20 (Voice Router) zwischen Fahrzeug 10 und Online-Erkenner 11 abgelegt und so prozessiert, dass eine eins zu eins Echtzeit-Zuordnung zwischen dem Text 18 der gesprochenen Phrase 14 und den Rohdaten des statistischen Modells 24 möglich ist.
-
Dies passiert, indem der Text 18 der Online-Worterkennung in der Vermittlungsvorrichtung 20 (Voice Router) verwendet wird. In einer Entscheidungs-Logik 26 wird der Text 18 der Online-Worterkennung mit der aus dem Onboard-Prozess verwendeten SLM-Datensammlung verglichen. Hier kann ein 1-zu-1-Vergleich der erkannten Text-Phase 18 mit den gesammelten Daten des Sprachmodells 24 stattfinden, d.h. mit den zulässigen Phrasen.
-
Da nun zwei Ergebnisse in Form der Bedeutungsangaben 19, 28 entstehen, d.h. das Online-Topic (Online-Bedeutungsangabe 19) sowie das neue Worterkennungs-Ergebnis (Bedeutungsangabe 28), müssen diese miteinander verglichen werden, sowie eine Entscheidung getroffen werden, welches Ergebnis gegenüber dem Kraftahrzeug 10 weiterverwendet wird. Die passiert in einem entsprechenden Arbiter 31.
-
Ein Sprachmodell 124 z.B. für das Bedienen einer Klimaanlage per Sprache beinhalten hunderte von möglichen Arten, wie z.B. die Temperatur eingestellt werden kann. Nun gleicht die Entscheidungs-Logik 26 im Voice Router den Text 18 der gesprochenen Phrase 14 mit den Rohdaten des Sprachmodells 24 ab.
-
Kommt z.B. der gesprochene Text „mir ist kalt“ in den Rohdaten des Sprachmodells 24 vor, so kann aufgrund der sehr trennscharfen Worterkennung im Online-Erkenner 11 davon ausgegangen werden, dass der Benutzer das tatsächlich gesprochen hat.
-
Somit lässt sich z.B. entweder das Erkennergebnis 17 des Onboard-Erkenners 11 bestätigen oder sogar ein „Wie bitte?“ bei grenzwertigen Erkennungen verhindern (Lifting der Konfidenz) oder aber gegebenfalls eine Falscherkennung im Kraftfahrzeug 10 verhindern. Da im Regelfall aufgrund unterschiedlicher Implementierungsarten eine Onboard- und eine Online-Falscherkennung praktisch niemals gleichzeitig vorkommen, kann die Erkennrate des beschriebenen Hybrid-Spracherkennungssystems mit Hilfe der beschriebenen Implementierung weit über 95% erhöht werden.
-
Insgesamt zeigen die Beispiele, wie durch die Erfindung eine Erkennung von Onboard-Sprachbefehlen in einem Kraftfahrzeug 10 durch den Einsatz einer Online-Spracherkennung optimiert werden kann.