[go: up one dir, main page]

DE102017213946B4 - Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät - Google Patents

Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät Download PDF

Info

Publication number
DE102017213946B4
DE102017213946B4 DE102017213946.3A DE102017213946A DE102017213946B4 DE 102017213946 B4 DE102017213946 B4 DE 102017213946B4 DE 102017213946 A DE102017213946 A DE 102017213946A DE 102017213946 B4 DE102017213946 B4 DE 102017213946B4
Authority
DE
Germany
Prior art keywords
meaning
online
language model
mobile terminal
onboard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102017213946.3A
Other languages
English (en)
Other versions
DE102017213946A1 (de
Inventor
Christoph Voigt
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Audi AG
Original Assignee
Audi AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Audi AG filed Critical Audi AG
Priority to DE102017213946.3A priority Critical patent/DE102017213946B4/de
Priority to US16/040,632 priority patent/US10783881B2/en
Priority to KR1020180092339A priority patent/KR102152240B1/ko
Priority to CN201810901684.0A priority patent/CN109389983B/zh
Publication of DE102017213946A1 publication Critical patent/DE102017213946A1/de
Application granted granted Critical
Publication of DE102017213946B4 publication Critical patent/DE102017213946B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Telephone Function (AREA)

Abstract

Verfahren zum Aufbereiten eines Erkennungsergebnisses (17) eines automatischen Online-Spracherkenners (11) für ein mobiles Endgerät (10) durch eine Vermittlungsvorrichtung (20), wobei das Erkennungsergebnis (17) zu einer von einem Benutzer gesprochenen Phrase (14) aus dem Online-Spracherkenner (11) als ein Text (18) empfangen wird und aus dem mobilen Endgerät (10) ein Sprachmodell (24) zulässiger Phrasen empfangen wird, wobei durch das Sprachmodell (24) jeder zulässigen Phrase eine Bedeutungsangabe betreffend eine Bedeutung der Phrase (14) zugeordnet ist, und durch eine Entscheidungslogik (26) der Vermittlungsvorrichtung (20) der Text (18) des Erkennungsergebnisses (17) mit den durch das Sprachmodell (24) definierten zulässigen Phrasen verglichen und zu einer gemäß einem vorbestimmten Übereinstimmungskriterium (27) übereinstimmenden zulässigen Phrase deren Bedeutungsangabe (28) ermittelt wird und die Bedeutungsangabe (28) dem mobilen Endgerät (10) bereitgestellt wird, wobei beim Vergleichen des Textes (18) des Erkennungsergebnisses (17) mit den zulässigen Phrasen ein einen Übereinstimmungsgrad beschreibender Konfidenzwert (29) ermittelt wird und wobei aus dem Online-Spracherkenner (11) zusätzlich eine durch den Online-Spracherkenner (11) ermittelte Online-Bedeutungsangabe (19) zusammen mit einem Online-Konfidenzwert (30) empfangen wird und die Bedeutungsangabe (28) aus dem Sprachmodell (24) zumindest in dem Fall dem mobilen Endgerät (10) bereitgestellt wird, dass durch eine Arbiterlogik (31) der Vermittlungsvorrichtung (20) erkannt wird, dass der Konfidenzwert (29) der Bedeutungsangabe (28) des Sprachmodells (24) größer als der Online-Konfidenzwert (30) der Online-Bedeutungsangabe (19) des Online-Spracherkenners (11) ist, dadurch gekennzeichnet, dass in dem mobilen Endgerät (10) zusätzlich durch einen automatischen Onboard-Spracherkenner (22) ein Onboard-Erkennungsergebnis ermittelt wird, wobei der Onboard-Spracherkenner (22) im Vergleich zu dem Online-Spracherkenner (11) einen unterschiedlichen Erkennungsalgorithmus und/oder ein anderes Vokabular und/oder eine andere Erkennungsgrammatik verwendet, wobei in dem mobilen Endgerät (10) aus dem Onboard-Erkennungsergebnis mittels des Sprachmodells (24) eine Onboard-Bedeutungsangabe (25) ermittelt wird und mittels einer Onboard-Arbiterlogik (33) zwischen der Onboard-Bedeutungsangabe (25) und der Bedeutungsangabe (28) aus der Vermittlungsvorrichtung (20) ausgewählt wird, falls die Bedeutungsangabe (28) von der Vermittlungsvorrichtung (20) bereitgestellt wird.

Description

  • Die Erfindung betrifft ein Verfahren zum Aufbereiten eines Erkennungsergebnisses, das von einem automatischen Online-Spracherkenner für ein mobiles Endgerät bereitgestellt wird.
  • Bei einem mobilen Endgerät, beispielsweise einem Smartphone oder aber auch einem Kraftfahrzeug, kann vorgesehen sein, dass eine Sprachbedienung auf der Grundlage einer automatischen Spracherkennung (ASR - Automatic Speech Recognition) ermöglicht oder vorgesehen ist. Ein hierfür verwendeter automatischer Spracherkenner kann außerhalb des mobilen Endgeräts durch einen Server des Internets oder einen Online-Dienst bereitgestellt sein. Ein solcher automatischer Spracherkenner, der über eine Internetverbindung mit einem mobilen Endgerät gekoppelt ist, wird hier als Online-Spracherkenner bezeichnet.
  • Ein Beispiel für eine solche Kopplung eines Kraftfahrzeugs mit einem Online-Spracherkenner ist aus der DE 10 2015 212 650 A1 bekannt. Aus dieser Druckschrift ist zusätzlich bekannt, dass eine sogenannte hybride Spracherkennung vorgesehen sein kann, bei welcher in dem Kraftfahrzeug selbst ein zusätzlicher Spracherkenner vorgesehen ist, der hier als Onboard-Spracherkenner bezeichnet ist.
  • Eine Online-Spracherkennung ist auch aus der DE 10 2010 056 174 A1 bekannt.
  • Allgemein kann ein automatischer Spracherkenner ein Audio-Sprachsignal empfangen, das eine von einem Benutzer gesprochenen Phrase repräsentiert oder signalisiert. Eine Phrase kann ein einzelnes Wort oder eine Wortfolge aus mehreren Worten sein. Anhand des Audio-Sprachsignals kann der Spracherkenner einen Text erzeugen, welcher den in der Phrase enthaltenen Sprachinhalt angibt, und zwar so, wie ihn der Spracherkenner erkannt hat. Dieser Text stellt das Erkennungsergebnis des Spracherkenners dar. Eine Möglichkeit, um das Erkennungsergebnis auf Richtigkeit zu überprüfen, ist mit einem sogenannten Sprachmodell gegeben, das alle zulässigen Wortfolgen oder Phrasen beschreibt, die der Benutzer überhaupt nur bei der Bedienung des Spracherkenners verwenden darf. Das Sprachmodell gibt also die zulässigen oder gültigen Phrasen an. Das Sprachmodell kann beispielsweise auf der Grundlage eines mathematischen Graphen gebildet sein, bei welchem jedes zulässige Wort als Knoten repräsentiert ist und durch Verknüpfungen der Knoten zulässige Wortfolgen definiert sind. Jeder gültige Pfad durch diesen Graphen stellt dann eine zulässige Phrase dar.
  • Das Sprachmodell kann sich aber in einem mobilen Endgerät in Abhängigkeit vom aktuellen Bedienkontext ändern. Beispielsweise kann ein Sprachmodell für die Bedienung einer Medienwiedergabe (zum Beispiel das Abspielen von MP3-Dateien) und ein anderes Sprachmodell für die Bedienung beispielsweise eines Kommunikationsprogramms, wie beispielsweise eines E-Mail-Programms, vorgesehen sein. Bei einem Online-Spracherkenner ist es daher schwierig, ein passendes Sprachmodell für ein mobiles Endgerät bereitzustellen, da sich dessen Bedienkontext ändern kann.
  • Aus der US 2015/0019224 A1 ist ein Spracherkenner bekannt, dem eine Wortverarbeitung nachgeschaltet ist, durch welche Wortabkürzungen im Erkennungsergebnis gesondert verarbeitet werden können.
  • Aus der US 2013/0289988 A1 ist bekannt, ein Erkennungsergebnis einer Spracherkennungseinrichtung für natürliche Sprache mit einer Liste von zulässigen Phrasen abzugleichen, um das Erkennungsergebnis auf eine zulässige Phrase abzubilden. Falls mehrere zulässige Phrasen infrage kommen, kann ein Konfidenzwert berücksichtigt werden. Falls mehrere Spracherkennungseinrichtungen zur Verfügung stehen, können deren Erkennungsergebnisse auch miteinander verglichen werden, um nur das beste Erkennungsergebnis an eine Anwendung weiterzuleiten.
  • Aus der US 6,078,886 A ist ein Verfahren zur Spracherkennung bekannt, bei welchem die Spracherkennung in einem Server durchgeführt wird, wobei ein Client, der eine Spracheingabe erkannt haben möchte, die zu verwendende Erkennungsgrammatik an den Server schicken kann, damit dieser die Spracherkennung auf Basis der Erkennungsgrammatik des Clients ausführt.
  • Der Erfindung liegt die Aufgabe zugrunde, für ein mobiles Endgerät eine fehlerrobuste Online-Spracherkennung bereitzustellen.
  • Die Aufgabe wird durch den Gegenstand des unabhängigen Patentanspruchs gelöst. Vorteilhafte Weiterbildungen der Erfindung sind durch die abhängigen Patentansprüche, die folgende Beschreibung sowie die Figur beschrieben.
  • Durch die Erfindung ist ein Verfahren bereitgestellt, mittels welchem eine Nachbearbeitung eines Erkennungsergebnisses eines automatischen Online-Spracherkenners ermöglicht ist. Das Verfahren dient zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät. Das Verfahren kann durch eine Vermittlungsvorrichtung durchgeführt werden, die zwischen den Online-Spracherkenner und das mobile Endgerät geschaltet sein kann. Die Vermittlungsvorrichtung kann aber auch in den Online-Spracherkenner oder in das mobile Endgerät integriert sein oder als verteilte Vorrichtung jeweils zu einem Teil in beiden integriert sein.
  • Das aufzubereitende Erkennungsergebnis gehört zu einer von einem Benutzer gesprochenen Phrase. Es wird durch die Vermittlungsvorrichtung aus dem Online-Spracherkenner als ein Text empfangen. In der eingangs beschriebenen Weise ist man nun daran interessiert, diesen rohen, ungeprüften Text dahin zu überprüfen, ob er eine zulässige Phrase darstellt, die in dem mobilen Endgerät z.B. im aktuellen Bedienkontext zulässig ist, also verarbeitet oder verwendet werden kann. Hierzu wird aus dem mobilen Endgerät ein Sprachmodell der zulässigen Phrasen empfangen. Das Sprachmodell weist hierbei zusätzlich die Besonderheit auf, dass jeder zulässigen Phrase durch das Sprachmodell auch eine Bedeutungsangabe betreffend eine Bedeutung der Phrase zugeordnet ist. Durch die Bedeutungsangabe ist also die Semantik oder der Bedeutungsinhalt der Phrase definiert oder angegeben. Die Bedeutungsangabe gibt also die Intention an, die der Benutzer beim Sprechen der Phrase hatte. Zum Beispiel kann der Phrase „Mir ist heiß!“ die Bedeutungsangabe zugeordnet sein, dass es um die Bedienung einer Klimaanlage geht und bei der Klimaanlage die Kühlleistung vergrößert werden soll. Die gleiche Bedeutungsangabe kann beispielsweise auch der Phrase „Sorge bitte für etwas Erfrischung!“ zugeordnet sein. Für eine solche Bedeutungsangabe kann dann ein spezifischer Steuerbefehl vorgesehen sein. Somit kann der Benutzer also seine Phrase sehr umgangssprachlich oder natürlichsprachlich formulieren, und es kann hierdurch mittels des Sprachmodells dennoch ein Steuerbefehl für eine Komponente des mobilen Endgeräts interpretiert oder ausgelöst werden.
  • In der Vermittlungsvorrichtung liegen also nun sowohl der Text des Erkennungsergebnisses als auch das aktuell für das mobile Endgerät gültige Sprachmodell vor. Durch eine Entscheidungslogik der Vermittlungsvorrichtung wird das Erkennungsergebnis mit den durch das Sprachmodell definierten zulässigen Phrasen verglichen. Zu einer zulässigen Phrase, mit welcher der Text gemäß einem vorbestimmten Übereinstimmungskriterium übereinstimmt, wird dann deren Bedeutungsangabe ermittelt und die Bedeutungsangabe dem mobilen Endgerät bereitgestellt. Das mobile Endgerät bekommt also bereits ein dahingehend aufbereitetes Erkennungsergebnis, dass die Bedeutung der vom Benutzer gesprochenen Phrase mitgeteilt wird und nicht nur der rohe Text, der die Phrase wörtlich wiedergibt. Aus der Bedeutungsangabe kann mit geringerem technischen Aufwand und/oder Berechnungsaufwand ein Steuersignal oder Steuerbefehl für eine Komponente des mobilen Endgeräts erzeugt werden.
  • Durch die Erfindung ergibt sich der Vorteil, dass dem mobilen Endgerät nicht nur ein Text eines Erkennungsergebnisses bereitsteht, das durch das mobile Endgerät selbst noch einmal plausibilisiert oder verifiziert und dann zusätzlich noch in Bezug auf seine Bedeutung interpretiert werden müsste. Stattdessen wird dem mobile Endgerät bereits eine Bedeutungsangabe betreffend die gesprochene Phrase bereitgestellt. Dies verringert den Verarbeitungsaufwand, der in dem mobilen Endgerät zur Verarbeitung einer gesprochenen Phrase nötig ist.
  • Die Vermittlungsvorrichtung kann als ein eigenständiger Computer oder eigenständiger Computerverbund bereitgestellt sein, der beispielsweise über eine jeweilige Kommunikationsverbindung mit dem Online-Spracherkenner einerseits dem mobilen Endgerät andererseits gekoppelt sein kann. Die Entscheidungslogik kann in der Vermittlungsvorrichtung beispielsweise als ein Programmodul realisiert sein. Als integraler Bestandteil des Online-Spracherkenners und/oder des mobilen Endgeräts kann die Vermittlungsvorrichtung selbst aber auch insgesamt als ein Programmodul realisiert sein.
  • Ein Sprachmodell muss nicht ausschließlich durch das mobile Endgerät bereitgestellt sein. Es ist vorgesehen, dass auch der Online-Spracherkenner ein eigenes Online-Sprachmodell verwendet, das dann aber nicht unbedingt an dem aktuellen Bedienkontextes mobilen Endgeräts angepasst ist. Es kann also aus dem Online-Spracherkenner zusätzlich zu dem eigentlichen Text des Erkennungsergebnisses auch eine durch den Online-Spracherkenner ermittelte Online-Bedeutungsangabe empfangen werden, also eine zweite Bedeutungsangabe. Hierbei macht man sich zunutze, dass zu der Online-Bedeutungsangabe in der beschriebenen Weise auch ein Online-Konfidenzwert empfangen werden kann. Der Online-Konfidenzwert gibt also die Übereinstimmung des Textes des Erkennungsergebnisses mit dem Online-Sprachmodell des Online-Spracherkenners an. Nun liegen also in der Vermittlungsvorrichtung zwei Bedeutungsangaben vor, nämlich dasjenige der Vermittlungsvorrichtung selbst und die Online-Bedeutungsangabe aus dem Online-Spracherkenner. Zu jeder Bedeutungsangabe liegt aber auch ein Konfidenzwert vor. Die Bedeutungsangabe, die von der Vermittlungsvorrichtung selbst ermittelt wird, wird dem mobile Endgerät nur bedingt bereitgestellt, und zwar zumindest in dem Fall, dass durch eine Zuteilungslogik oder Arbiterlogik der Vermittlungsvorrichtung erkannt wird, dass der Konfidenzwert der Bedeutungsangabe des Sprachmodells der Vermittlungsvorrichtung größer als der Online-Konfidenzwert der Online-Bedeutungsangabe des Online-Spracherkenners ist. Mit anderen Worten weist in diesem Fall der Text des Erkennungsergebnisses eine größere Übereinstimmung mit dem Sprachmodell des mobilen Endgeräts auf als mit dem Online-Sprachmodell des Online-Spracherkenners. Falls andersherum der Online-Konfidenzwert größer ist, kann vorgesehen sein, dass entweder nur die Online-Bedeutungsangabe bereitgestellt wird oder beide Bedeutungsangaben. Durch diese Weiterentwicklung ergibt sich der Vorteil, dass zwei unterschiedliche Sprachmodelle auf das Erkennungsergebnis angewendet werden und hierdurch auch solche Phrasen erkannt werden können, die durch das Sprachmodell des mobilen Endgeräts nicht modelliert sind. Die Arbiterlogik kann als ein Programmodul in der Vermittlungsvorrichtung bereitgestellt sein.
  • In dem Kraftfahrzeug oder allgemein in dem mobilen Endgerät befindet sich noch ein automatischer Onboard-Spracherkenner, der mittels des erfindungsgemäßen Verfahrens integriert oder mit genutzt wird. In dem mobilen Endgerät wird also zusätzlich durch den automatischen Onboard-Spracherkenner ein Onboard-Erkennungsergebnis ermittelt. Der Onboard-Spracherkenner verwendet hierbei im Vergleich zu dem Online-Spracherkenner einen anderen Erkennungsalgorithmus und/oder ein anderes Vokabular und/oder eine andere Erkennungsgrammatik. Hierdurch ergibt sich der Vorteil, dass aufgrund dieser unterschiedlichen Implementierungsarten eine identische Onboard- und eine Online-Falscherkennung praktisch niemals gleichzeitig vorkommen, also zur selben Phrase. Man kann also sicher sein, dass das Erkennungsergebnis des Online-Spracherkenners oder das Onboard-Erkennungsergebnis richtig ist oder sich Falscherkennungen zumindest unterscheiden, sodass dann zur Sicherheit beim Benutzer nachgefragt werden kann, was er meinte.
  • Die Möglichkeit, um das richtige Erkennungsergebnis aus zweien zu ermitteln, sieht vor, in dem mobilen Endgerät aus dem Onboard-Erkennungsergebnis mittels des Sprachmodells (das ja auch schon der Vermittlungsvorrichtung bereitgestellt wird) eine Onboard-Bedeutungsangabe zu ermitteln und mittels einer Onboard-Arbiterlogik (also einer weiteren Arbiterlogik) zwischen der Onboard-Bedeutungsangabe und der Bedeutungsangabe aus der Vermittlungsvorrichtung auszuwählen. Die Arbiterlogik kann wieder auf der Grundlage eines jeweiligen Konfidenzwerts der Bedeutungsangabe aus der Vermittlungsvorrichtung und der Onboard-Bedeutungsangabe diejenige Bedeutungsangabe mit dem größeren Konfidenzwert auswählen. Dies setzt natürlich voraus, dass die Vermittlungsvorrichtung auch ihre Bedeutungsangabe tatsächlich bereitgestellt hat und nicht deshalb zurückgehalten hat, weil stattdessen die Online-Bedeutungsangabe des Online-Spracherkenners ausgewählt wurde. In diesem Fall wird natürlich durch die Onboard-Arbiterlogik zwischen der Online-Bedeutungsangabe und der Onboard-Bedeutungsangabe in der beschriebenen Weise ausgewählt.
  • Zu der Erfindung gehören Weiterentwicklungen, durch die sich zusätzliche Vorteile ergeben.
  • Das beschriebene Vergleichen des Textes des Erkennungsergebnisses kann mittels eines 1-zu-1-Vergleich erfolgen. Hierbei kann ein Algorithmus für einen String-Vergleich zugrunde gelegt werden, wie er an sich aus dem Stand der Technik bekannt ist (sogenannter String-Matching-Algorithmus). Ein solcher String-Vergleich ist iterativ, sodass bei mehreren zulässigen Phrasen, deren Anfang identisch ist (z.B. „Kannst Du X...“ und „Kannst Du Y...“), dieser Anfang nur einmal mit dem Text des Erkennungsergebnisses verglichen werden muss und dann nur noch der jeweils verbleibende Teil jeder zulässigen Phrase (in dem Beispiel „X...“ und „Y...“) getrennt geprüft werden muss. Hierdurch ergibt der Vorteil, dass der Vergleich mit geringem Rechenaufwand durchgeführt werden kann.
  • Das besagte Übereinstimmungskriterium kann hierbei eine 100-prozentige Übereinstimmung fordern. Es kann aber auch vorkommen, dass das Sprachmodell nicht vollständig ist, also der Benutzer eine Phrase verwendet, die nicht identisch mit einer der zulässigen Phrasen ist. Um dennoch auch eine solche nicht 100-prozentig übereinstimmende Phrase des Benutzers z.B. als einen Sprachbefehl für eine Bedienung des mobilen Endgeräts nutzen zu können, kann vorgesehen sein, dass beim Vergleichen des Erkennungsergebnisses mit den zulässigen Phrasen des Sprachmodells jeweils ein Konfidenzwert ermittelt wird, welcher einen Übereinstimmungsgrad zwischen dem Text und der jeweiligen zulässigen Phrase beschreibt oder angibt. Ein solcher Übereinstimmungsgrad kann auch mit dem beschriebenen Algorithmus für den String-Vergleich berechnet oder angegeben werden. Durch den Konfidenzwert ergibt sich der Vorteil, dass als Übereinstimmungskriterium auch ein Schwellenwert angegeben werden kann, der keine 100-prozentige Übereinstimmung fordert. Beispielsweise kann das Übereinstimmungskriterium eine Übereinstimmung um mehr als 70% oder mehr als 80% oder mehr als 90% fordern. Somit kann ein Sprachbefehl des Benutzers auch bei einer Abweichung vom Sprachmodell erkannt werden.
  • Bei dem Sprachmodell handelt es sich bevorzugt um ein statistisches Sprachmodell. Ein solches statistisches Sprachmodell weist den Vorteil auf, dass zu jeder gültigen Phrase auch eine Häufigkeitswahrscheinlichkeit angegeben ist, die eine relative Häufigkeit der jeweiligen Phrase in Bezug auf alle Phrasen angibt. Die Häufigkeit jeder Phrase kann beispielsweise durch Befragen von Testpersonen ermittelt werden, indem diese gebeten werden, zu einer vorbestimmten Bedeutungsangabe (zum Beispiel „Klimaanlagen-Kühlleistung erhöhen“) eine Phrase anzugeben, wie sie diese Bedeutung ausdrücken würden (z.B. „Mit ist heiß!“ oder „Sorge bitte für etwas Erfrischung!“). Die Summe all dieser von Testpersonen ausgesprochenen Phrasen zu mindestens einer Bedeutungsangabe stellen dann die zulässigen Phrasen dar, die durch das Sprachmodell beschrieben werden. Die relative Häufigkeit jeder Phrase kann beim Vergleichen des Textes des Erkennungsergebnisses mit den zulässigen Phrasen dazu genutzt werden, ein zweideutiges Vergleichsergebnis aufzulösen, indem dasjenige Vergleichsergebnis mit der höheren relativen Häufigkeit der zugehörigen Phrase verwendet wird. Hierdurch kann in vorteilhafter Weise das Vergleichsergebnis plausibilisiert werden. Auch bei dem Online-Sprachmodell kann es sich um ein statistisches Sprachmodell handeln.
  • Bevorzugt handelt es sich bei dem Sprachmodell um ein solches, dass alle gültigen, sprechbaren Formen von Sprachkommandos, die aktuell in dem mobilen Endgerät für eine Sprachbedienung vorgesehen sind, als zulässige Phrasen beschreibt. Somit kann mittels eines Online-Spracherkenners eine Sprachbedienung in dem mobilen Endgerät realisiert werden. Die Anzahl der hierfür verwendbaren Sprachkommandos kann dabei größer als die Anzahl der außenlösbaren Steuerbefehle sein, da mittels des Sprachmodells mehrere Phrasen (d.h. Sprachkommandos) derselben Bedeutungsangabe (Steuerbefehl) zugeordnet werden können.
  • Wie bereits ausgeführt, kann es sich bei dem mobilen Endgerät zum Beispiel um ein Smartphone oder ein Tablett-PC oder eine Smartwatch handeln. Bei einem mobilen Endgerät kann es sich aber auch zum Beispiel um ein Kraftfahrzeug handeln. Somit stellt das mobile Endgerät dann ein Kraftfahrzeug mit Sprachbedienvorrichtung dar. Die Sprachbedienung kann beispielsweise mittels eines Infotainmentsystems (Informations-Unterhaltungssystem) realisiert sein. Hierdurch ergibt sich der Vorteil, dass in dem Kraftfahrzeug keine aufwändige Spracherkennungssoftware betrieben werden muss.
  • Um das erfindungsgemäße Verfahren durchzuführen, ist durch die Erfindung auch eine Vermittlungsvorrichtung bereitgestellt, die in der beschriebenen Weise einen Online-Spracherkenner und ein mobiles Endgerät koppeln kann. Die Vermittlungsvorrichtung weist eine Prozessoreinrichtung auf, die dazu eingerichtet ist, eine Ausführungsform des erfindungsgemäßen Verfahrens mit durchzuführen. Die Vermittlungsvorrichtung kann beispielsweise als ein Router für zwischen dem Online-Spracherkenner und dem mobilen Endgerät zu übertragenden Datenverkehr ausgestaltet sein. Über die Vermittlungsvorrichtung kann auch ein Sprachsignal des Benutzers hin zum Online-Spracherkenner vermittelt oder geroutet oder übertragen werden. Die Prozessoreinrichtung der Vermittlungsvorrichtung- kann zumindest einen Mikrocontroller und/oder zumindest einen Mikroprozessor aufweisen. Die Prozessoreinrichtung kann einen Programmcode aufweisen, der dazu eingerichtet ist, die besagte Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen. Die Vermittlungsvorrichtung kann beispielsweise als ein Computer oder ein Computerverbund realisiert sein, der an das Internet angeschlossen sein kann.
  • Im Folgenden sind Ausführungsbeispiele der Erfindung beschrieben. Hierzu zeigt die einzige Figur (Fig.) eine schematische Darstellung einer Ausführungsform der erfindungsgemäßen Vermittlungsvorrichtung.
  • Bei den im Folgenden erläuterten Ausführungsbeispielen handelt es sich um bevorzugte Ausführungsformen der Erfindung. Bei den Ausführungsbeispielen stellen die beschriebenen Komponenten der Ausführungsformen jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden und damit auch einzeln oder in einer anderen als der gezeigten Kombination als Bestandteil der Erfindung anzusehen sind. Des Weiteren sind die beschriebenen Ausführungsformen auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.
  • Die Figur zeigt ein Kraftfahrzeug 10, das beispielsweise ein Kraftwagen, insbesondere ein Personenkraftwagen oder Lastkraftwagen, sein kann. Das Kraftfahrzeug 10 repräsentiert ein mobiles Endgerät. Des Weiteren ist ein Online-Spracherkenner 11 dargestellt, der beispielsweise als ein Online-Dienst oder ein Server des Internets realisiert sein kann. In dem Kraftfahrzeug 10 kann mittels einer Mikrofoneinrichtung 12 ein Sprachschall 13 erfasst werden, während der Benutzer eine Phrase 14 ausspricht, beispielsweise ein Kommando oder einen Sprachbefehl für eine Bedienung des Kraftfahrzeugs 10. Ein mittels der Mikrofoneinrichtung 12 erfasstes Sprachsignal 15 kann in digitalisierter Form dem Online-Spracherkenner 11 über eine Kommunikationsverbindung bereitgestellt werden. Die Kommunikationsverbindung kann beispielsweise auf der Grundlage einer Internetverbindung und/oder einer Funkverbindung gebildet sein. Die Funkverbindung kann beispielsweise als eine Mobilfunkverbindung oder eine WLAN-Verbindung (WLAN - Wireless Local Area Network) realisiert sein.
  • Der Online-Spracherkenner 11 kann aus dem Sprachsignal 15 mittels einer automatischen Spracherkennung 16 (ASR - Automatic Speech Recognition) ein Erkennungsergebnis erzeugen, das als Text 18 ausgegeben werden kann. Zusätzlich kann der Online-Spracherkenner 11 aus dem Erkennungsergebnis 17 mittels eines Online-Sprachmodells 18 eine Online-Bedeutungsangabe 19 erzeugen, die zu dem Erkennungsergebnis 17 angibt, welche Bedeutung in Bezug auf die Bedienung des Kraftfahrzeugs und/oder eines Internet-Browsers und/oder eines Online-Dienstes das Erkennungsergebnis aufweist. Das Online-Sprachmodell 18 stellt eine Zuordnungsvorschrift dar, um einem möglichen Erkennungsergebnis 17 eine Bedeutungsangabe 19 zuzuordnen. Dies kann beispielsweise tabellarisch erfolgen oder mittels einer Liste. Lautet das Erkennungsergebnis 17 beispielsweise: „Ich muss mit XY sprechen!“, so kann hieraus mittels des Online-Sprachmodells 18 als Online-Bedeutungsangabe 19 ermittelt werden, dass eine Telefonbedienung gewünscht ist und die Telefonnummer der Person XY gewählt werden soll. Das Online-Sprachmodell 18 kann beispielsweise ein statistisches Sprachmodell SLM sein.
  • Der Text 18 des Erkennungsergebnisses 17 und die zugehörige Online-Bedeutungsangabe 19 können an eine Vermittlungsvorrichtung 20 übermittelt werden, die beispielsweise durch einen weiteren Server des Internets oder einen Online-Dienst realisiert sein kann. Die Vermittlungsvorrichtung 20 kann einen Router darstellt, der den Text 18 und die Online-Bedeutungsangabe 19 an das Kraftfahrzeug 10 weiterleiten soll. In der Vermittlungsvorrichtung 20 kann eine Wrapper-Einrichtung oder Anpassungseinrichtung 21 bereitgestellt sein, die ein Format der Online-Bedeutungsangabe 19 in ein vorgegebenes Format für das Kraftfahrzeug 10 wandeln kann.
  • Beispielsweise kann in dem Kraftfahrzeug 10 ein Onboard-Spracherkenner 22 vorgesehen sein, der ebenfalls mittels einer automatischen Spracherkennung 23 aus dem Sprachsignal 15 ein Erkennungsergebnis erzeugen kann, aus dem mit einem Onboard-Sprachmodell 24 eine Onboard-Bedeutungsangabe 25 in vergleichbarer Weise mittels des Online-Sprachmodells 18 erzeugt werden kann. Die Anpassungseinrichtung 21 kann beispielsweise ein Format der Online-Bedeutungsangabe 19 an ein Format der Onboard-Bedeutungsangabe 25 anpassen.
  • Das Onboard-Sprachmodell 24 kann mittels der Vermittlungsvorrichtung 20 aber auch auf den Text 18 des Erkennungsergebnisses 17 des Online-Spracherkenners 11 angewendet werden. Hierzu kann das Onboard-Sprachmodell 24 an die Vermittlungsvorrichtung 20 übertragen werden. Beispielsweise kann es sich jeweils um dasjenige Onboard-Sprachmodell 24 handeln, das einen aktuellen Bedienkontext beschreibt. Mit anderen Worten kann das Onboard-Sprachmodell 24 bei dem Onboard-Spracherkenner 22 auswechselbar sein.
  • Die Vermittlungsvorrichtung 20 kann eine Entscheidungslogik 26 aufweisen, mittels welcher die durch das Onboard-Sprachmodell 24 definierten zulässige Phrasen mit dem Text 18 verglichen werden kann. Eine zulässige Phrase kann jeweils einem Steuerbefehl oder Steuersignal für eine Komponente des Kraftfahrzeugs 10 entsprechen oder einen solchen Steuerbefehl auslösen.
  • Anhand eines Übereinstimmungskriteriums 27 kann ermittelt werden, mit welcher der zulässigen Phrasen, die durch das Onboard-Sprachmodell 24 definierten, der Text 18 übereinstimmt. Es kann hier eine 100-prozentige Übereinstimmung oder auch eine Übereinstimmung zu einem geringeren Übereinstimmungsgrad als 100% durch das Übereinstimmungskriterium 27 vorgegeben sein. Zusätzlich kann eine Auswahl derjenigen zulässigen Phrase vorgesehen sein, welche den größten Übereinstimmungsgrad aufweist oder es können die N besten Übereinstimmungen verwendet werden, wobei N eine ganze Zahl größer 0 ist. Im Folgenden wird der einfacheren Darstellung halber N = 1 angenommen.
  • Diejenige Phrase des Sprachmodells 24, zu welcher der Text 18 das Übereinstimmungskriterium 27 erfüllt, kann als Bedeutungsangabe 28 ausgegeben oder festgelegt werden. Der Grad der Übereinstimmung kann in einem Konfidenzwert 29 ausgedrückt sein, z.B. als Prozentangabe. Genauso kann zu der Online-Bedeutungsangabe 19 ein Online-Konfidenzwert 30 bereitgestellt sein, z.B. als Prozentangabe.
  • Die Vermittlungsvorrichtung 20 kann eine Arbiterlogik 31 aufweisen, durch welche die Konfidenzwerte 29, 30 verglichen werden können. Die Arbiterlogik 31 kann zumindest diejenige Bedeutungsangabe 19, 28 an das Kraftfahrzeug 10 als finales Erkennungsergebnis 32 weiterleiten, welche den größeren Konfidenzwert 29, 30 aufweist.
  • Somit wird als finales Erkennungsergebnis 32 diejenige Bedeutungsangabe 19, 28 weitergeleitet, welche durch die Arbiterlogik 31 ausgewählt wurde.
  • In dem Kraftfahrzeug 10 kann eine Onboard-Arbiterlogik 33 bereitgestellt sein, welche das finale Erkennungsergebnis 32 mit dem zugehörigen Konfidenzwert 29, 30 empfängt. Des Weiteren kann die Onboard-Arbiterlogik 33 aus dem Onboard-Spracherkenner 22 ebenfalls die von diesem ermittelte Bedeutungsangabe 25 sowie einen zugehöriger Konfidenzwert 34 empfangen. Die Onboard-Arbiterlogik 33 kann nun das Online-Erkennungsergebnis 32 und das Onboard-Erkennungsergebnis 25 anhand der zugehörigen Konfidenzwerte vergleichend bewerten und daraus eine im Kraftfahrzeug 10 als Erkennungsergebnis zu verwendende Bedeutungsangabe 35 auswählen. Anhand dieser Bedeutungsangabe 35 kann dann beispielsweise ein Steuerbefehl oder ein Steuersignal für eine Komponente des Kraftfahrzeugs erzeugt werden.
  • Insgesamt wird also eine Hybrid-Spracherkennung für Kommandos oder allgemein Phrasen 14 immer parallel zur Verarbeitung im Kraftfahrzeug 10 auch an die Online-Erkennung 11 geschickt werden. Der Online-Erkenner 11 ermittelt neben der Funktion oder Bedeutung auch die komplette gesprochene Phrase (Online-Worterkennung) und gibt diese in Textform als Text 18 zurück. Dieses Ergebnis bleibt nicht ungenutzt.
  • Die im Kraftfahrzeug verwendeten Rohdaten der statistischen Onboard-Modelle 24 werden in der Vermittlungsvorrichtung 20 (Voice Router) zwischen Fahrzeug 10 und Online-Erkenner 11 abgelegt und so prozessiert, dass eine eins zu eins Echtzeit-Zuordnung zwischen dem Text 18 der gesprochenen Phrase 14 und den Rohdaten des statistischen Modells 24 möglich ist.
  • Dies passiert, indem der Text 18 der Online-Worterkennung in der Vermittlungsvorrichtung 20 (Voice Router) verwendet wird. In einer Entscheidungs-Logik 26 wird der Text 18 der Online-Worterkennung mit der aus dem Onboard-Prozess verwendeten SLM-Datensammlung verglichen. Hier kann ein 1-zu-1-Vergleich der erkannten Text-Phase 18 mit den gesammelten Daten des Sprachmodells 24 stattfinden, d.h. mit den zulässigen Phrasen.
  • Da nun zwei Ergebnisse in Form der Bedeutungsangaben 19, 28 entstehen, d.h. das Online-Topic (Online-Bedeutungsangabe 19) sowie das neue Worterkennungs-Ergebnis (Bedeutungsangabe 28), müssen diese miteinander verglichen werden, sowie eine Entscheidung getroffen werden, welches Ergebnis gegenüber dem Kraftahrzeug 10 weiterverwendet wird. Die passiert in einem entsprechenden Arbiter 31.
  • Ein Sprachmodell 124 z.B. für das Bedienen einer Klimaanlage per Sprache beinhalten hunderte von möglichen Arten, wie z.B. die Temperatur eingestellt werden kann. Nun gleicht die Entscheidungs-Logik 26 im Voice Router den Text 18 der gesprochenen Phrase 14 mit den Rohdaten des Sprachmodells 24 ab.
  • Kommt z.B. der gesprochene Text „mir ist kalt“ in den Rohdaten des Sprachmodells 24 vor, so kann aufgrund der sehr trennscharfen Worterkennung im Online-Erkenner 11 davon ausgegangen werden, dass der Benutzer das tatsächlich gesprochen hat.
  • Somit lässt sich z.B. entweder das Erkennergebnis 17 des Onboard-Erkenners 11 bestätigen oder sogar ein „Wie bitte?“ bei grenzwertigen Erkennungen verhindern (Lifting der Konfidenz) oder aber gegebenfalls eine Falscherkennung im Kraftfahrzeug 10 verhindern. Da im Regelfall aufgrund unterschiedlicher Implementierungsarten eine Onboard- und eine Online-Falscherkennung praktisch niemals gleichzeitig vorkommen, kann die Erkennrate des beschriebenen Hybrid-Spracherkennungssystems mit Hilfe der beschriebenen Implementierung weit über 95% erhöht werden.
  • Insgesamt zeigen die Beispiele, wie durch die Erfindung eine Erkennung von Onboard-Sprachbefehlen in einem Kraftfahrzeug 10 durch den Einsatz einer Online-Spracherkennung optimiert werden kann.

Claims (5)

  1. Verfahren zum Aufbereiten eines Erkennungsergebnisses (17) eines automatischen Online-Spracherkenners (11) für ein mobiles Endgerät (10) durch eine Vermittlungsvorrichtung (20), wobei das Erkennungsergebnis (17) zu einer von einem Benutzer gesprochenen Phrase (14) aus dem Online-Spracherkenner (11) als ein Text (18) empfangen wird und aus dem mobilen Endgerät (10) ein Sprachmodell (24) zulässiger Phrasen empfangen wird, wobei durch das Sprachmodell (24) jeder zulässigen Phrase eine Bedeutungsangabe betreffend eine Bedeutung der Phrase (14) zugeordnet ist, und durch eine Entscheidungslogik (26) der Vermittlungsvorrichtung (20) der Text (18) des Erkennungsergebnisses (17) mit den durch das Sprachmodell (24) definierten zulässigen Phrasen verglichen und zu einer gemäß einem vorbestimmten Übereinstimmungskriterium (27) übereinstimmenden zulässigen Phrase deren Bedeutungsangabe (28) ermittelt wird und die Bedeutungsangabe (28) dem mobilen Endgerät (10) bereitgestellt wird, wobei beim Vergleichen des Textes (18) des Erkennungsergebnisses (17) mit den zulässigen Phrasen ein einen Übereinstimmungsgrad beschreibender Konfidenzwert (29) ermittelt wird und wobei aus dem Online-Spracherkenner (11) zusätzlich eine durch den Online-Spracherkenner (11) ermittelte Online-Bedeutungsangabe (19) zusammen mit einem Online-Konfidenzwert (30) empfangen wird und die Bedeutungsangabe (28) aus dem Sprachmodell (24) zumindest in dem Fall dem mobilen Endgerät (10) bereitgestellt wird, dass durch eine Arbiterlogik (31) der Vermittlungsvorrichtung (20) erkannt wird, dass der Konfidenzwert (29) der Bedeutungsangabe (28) des Sprachmodells (24) größer als der Online-Konfidenzwert (30) der Online-Bedeutungsangabe (19) des Online-Spracherkenners (11) ist, dadurch gekennzeichnet, dass in dem mobilen Endgerät (10) zusätzlich durch einen automatischen Onboard-Spracherkenner (22) ein Onboard-Erkennungsergebnis ermittelt wird, wobei der Onboard-Spracherkenner (22) im Vergleich zu dem Online-Spracherkenner (11) einen unterschiedlichen Erkennungsalgorithmus und/oder ein anderes Vokabular und/oder eine andere Erkennungsgrammatik verwendet, wobei in dem mobilen Endgerät (10) aus dem Onboard-Erkennungsergebnis mittels des Sprachmodells (24) eine Onboard-Bedeutungsangabe (25) ermittelt wird und mittels einer Onboard-Arbiterlogik (33) zwischen der Onboard-Bedeutungsangabe (25) und der Bedeutungsangabe (28) aus der Vermittlungsvorrichtung (20) ausgewählt wird, falls die Bedeutungsangabe (28) von der Vermittlungsvorrichtung (20) bereitgestellt wird.
  2. Verfahren nach Anspruch 1, wobei das Vergleichen des Textes (18) des Erkennungsergebnisses (17) mit den zulässigen Phrasen mittels eines 1-zu-1-Vergleichs erfolgt.
  3. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Sprachmodell (24) ein SLM, Statistic-Language-Modell, ist.
  4. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Sprachmodell (24) alle gültigen sprechbaren Formen von Sprachkommandos, die in dem mobilen Endgerät (10) für eine Sprachbedienung vorgesehen sind, als die zulässigen Phrasen beschreibt.
  5. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Bedeutungsangabe (28) einem Kraftfahrzeug (10) als mobiles Endgerät bereitgestellt wird.
DE102017213946.3A 2017-08-10 2017-08-10 Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät Active DE102017213946B4 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE102017213946.3A DE102017213946B4 (de) 2017-08-10 2017-08-10 Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät
US16/040,632 US10783881B2 (en) 2017-08-10 2018-07-20 Method for processing a recognition result of an automatic online speech recognizer for a mobile end device as well as communication exchange device
KR1020180092339A KR102152240B1 (ko) 2017-08-10 2018-08-08 모바일 단말기를 위한 자동 온라인-음성 인식기의 인식 결과를 처리하기 위한 방법 및 중개 장치
CN201810901684.0A CN109389983B (zh) 2017-08-10 2018-08-09 用于处理移动终端设备的自动的在线-语音识别器的识别结果的方法以及交换设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102017213946.3A DE102017213946B4 (de) 2017-08-10 2017-08-10 Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät

Publications (2)

Publication Number Publication Date
DE102017213946A1 DE102017213946A1 (de) 2019-02-14
DE102017213946B4 true DE102017213946B4 (de) 2022-11-10

Family

ID=65084488

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102017213946.3A Active DE102017213946B4 (de) 2017-08-10 2017-08-10 Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät

Country Status (4)

Country Link
US (1) US10783881B2 (de)
KR (1) KR102152240B1 (de)
CN (1) CN109389983B (de)
DE (1) DE102017213946B4 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102784024B1 (ko) 2019-09-03 2025-03-21 삼성전자주식회사 전자장치 및 그 제어방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6078886A (en) 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
DE102010056174A1 (de) 2010-12-24 2012-06-28 Daimler Ag Verfahren zum Unterstützen einer Bedienperson beim Bedienen von Funktionseinheiten eines Kraftfahrzeugs mithilfe einer Spracherkennungseinrichtung und Fahrerassistenzsystem
US20130289988A1 (en) 2012-04-30 2013-10-31 Qnx Software Systems Limited Post processing of natural language asr
US20150019224A1 (en) 2012-05-02 2015-01-15 Mitsubishi Electric Corporation Voice synthesis device
DE102015212650A1 (de) 2015-07-07 2017-01-12 Volkswagen Aktiengesellschaft Verfahren und System zum rechnergestützten Verarbeiten einer Spracheingabe

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6311157B1 (en) * 1992-12-31 2001-10-30 Apple Computer, Inc. Assigning meanings to utterances in a speech recognition system
US6868385B1 (en) * 1999-10-05 2005-03-15 Yomobile, Inc. Method and apparatus for the provision of information signals based upon speech recognition
US20040148170A1 (en) * 2003-01-23 2004-07-29 Alejandro Acero Statistical classifiers for spoken language understanding and command/control scenarios
US20060149544A1 (en) * 2005-01-05 2006-07-06 At&T Corp. Error prediction in spoken dialog systems
US8838457B2 (en) * 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US9305548B2 (en) * 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
KR101462932B1 (ko) * 2008-05-28 2014-12-04 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
CN101609672B (zh) * 2009-07-21 2011-09-07 北京邮电大学 一种语音识别语义置信特征提取的方法和装置
JP6317111B2 (ja) * 2011-02-22 2018-04-25 スピーク・ウィズ・ミー・インコーポレイテッドSpeak With Me,Inc. ハイブリッド型クライアントサーバ音声認識
CN102779509B (zh) * 2011-05-11 2014-12-03 联想(北京)有限公司 语音处理设备和语音处理方法
US8942981B2 (en) * 2011-10-28 2015-01-27 Cellco Partnership Natural language call router
CN103152505A (zh) * 2012-10-23 2013-06-12 艾塔斯科技(镇江)有限公司 智慧型扫描仪及操作方法
WO2014060054A1 (de) * 2012-10-16 2014-04-24 Audi Ag Spracherkennung in einem kraftfahrzeug
KR101364774B1 (ko) * 2012-12-07 2014-02-20 포항공과대학교 산학협력단 음성 인식의 오류 수정 방법 및 장치
US9224404B2 (en) * 2013-01-28 2015-12-29 2236008 Ontario Inc. Dynamic audio processing parameters with automatic speech recognition
WO2015005679A1 (ko) * 2013-07-09 2015-01-15 주식회사 윌러스표준기술연구소 음성 인식 방법, 장치 및 시스템
US20150371628A1 (en) * 2014-06-23 2015-12-24 Harman International Industries, Inc. User-adapted speech recognition
US20160071517A1 (en) * 2014-09-09 2016-03-10 Next It Corporation Evaluating Conversation Data based on Risk Factors
DE102014017384B4 (de) * 2014-11-24 2018-10-25 Audi Ag Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung
US10431214B2 (en) * 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US9558740B1 (en) * 2015-03-30 2017-01-31 Amazon Technologies, Inc. Disambiguation in speech recognition
US10325590B2 (en) * 2015-06-26 2019-06-18 Intel Corporation Language model modification for local speech recognition systems using remote sources
CN105096934B (zh) * 2015-06-30 2019-02-12 百度在线网络技术(北京)有限公司 构建语音特征库的方法、语音合成方法、装置及设备
CN105047198B (zh) * 2015-08-24 2020-09-22 百度在线网络技术(北京)有限公司 语音纠错处理方法及装置
CN105810200A (zh) * 2016-02-04 2016-07-27 深圳前海勇艺达机器人有限公司 基于声纹识别的人机对话装置及其方法
US9761227B1 (en) * 2016-05-26 2017-09-12 Nuance Communications, Inc. Method and system for hybrid decoding for enhanced end-user privacy and low latency
US10586535B2 (en) * 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
CN106098063B (zh) * 2016-07-01 2020-05-22 海信集团有限公司 一种语音控制方法、终端设备和服务器
US10360910B2 (en) * 2016-08-29 2019-07-23 Garmin Switzerland Gmbh Automatic speech recognition (ASR) utilizing GPS and sensor data
JP6597527B2 (ja) * 2016-09-06 2019-10-30 トヨタ自動車株式会社 音声認識装置および音声認識方法
US20180101599A1 (en) * 2016-10-08 2018-04-12 Microsoft Technology Licensing, Llc Interactive context-based text completions
KR101700099B1 (ko) * 2016-10-11 2017-01-31 미디어젠(주) 하이브리드 음성인식 복합 성능 자동 평가시스템
US10650810B2 (en) * 2016-10-20 2020-05-12 Google Llc Determining phonetic relationships
US10170110B2 (en) * 2016-11-17 2019-01-01 Robert Bosch Gmbh System and method for ranking of hybrid speech recognition results with neural networks
US10229680B1 (en) * 2016-12-29 2019-03-12 Amazon Technologies, Inc. Contextual entity resolution
US20180275956A1 (en) * 2017-03-21 2018-09-27 Kieran REED Prosthesis automated assistant
KR102398390B1 (ko) * 2017-03-22 2022-05-16 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
KR102369083B1 (ko) * 2017-04-17 2022-03-02 삼성전자주식회사 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
DK201770383A1 (en) * 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10418033B1 (en) * 2017-06-01 2019-09-17 Amazon Technologies, Inc. Configurable output data formats
US10565986B2 (en) * 2017-07-20 2020-02-18 Intuit Inc. Extracting domain-specific actions and entities in natural language commands
US10902848B2 (en) * 2017-07-20 2021-01-26 Hyundai Autoever America, Llc. Method for providing telematics service using voice recognition and telematics server using the same
US20190042560A1 (en) * 2017-08-01 2019-02-07 Intuit Inc. Extracting domain-specific actions and entities in natural language commands
US10572594B2 (en) * 2017-08-01 2020-02-25 Intuit Inc. Extracting domain-specific actions and entities in natural language commands recognized based on edition and recognition scores
US10565982B2 (en) * 2017-11-09 2020-02-18 International Business Machines Corporation Training data optimization in a service computing system for voice enablement of applications

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6078886A (en) 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
DE102010056174A1 (de) 2010-12-24 2012-06-28 Daimler Ag Verfahren zum Unterstützen einer Bedienperson beim Bedienen von Funktionseinheiten eines Kraftfahrzeugs mithilfe einer Spracherkennungseinrichtung und Fahrerassistenzsystem
US20130289988A1 (en) 2012-04-30 2013-10-31 Qnx Software Systems Limited Post processing of natural language asr
US20150019224A1 (en) 2012-05-02 2015-01-15 Mitsubishi Electric Corporation Voice synthesis device
DE102015212650A1 (de) 2015-07-07 2017-01-12 Volkswagen Aktiengesellschaft Verfahren und System zum rechnergestützten Verarbeiten einer Spracheingabe

Also Published As

Publication number Publication date
DE102017213946A1 (de) 2019-02-14
CN109389983B (zh) 2023-07-07
CN109389983A (zh) 2019-02-26
US20190051295A1 (en) 2019-02-14
US10783881B2 (en) 2020-09-22
KR102152240B1 (ko) 2020-09-04
KR20190017674A (ko) 2019-02-20

Similar Documents

Publication Publication Date Title
EP1927980B1 (de) Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
DE102017220266B3 (de) Verfahren zum Überprüfen eines Onboard-Spracherkenners eines Kraftfahrzeugs sowie Steuervorrichtung und Kraftfahrzeug
EP2909833B1 (de) Spracherkennung in einem kraftfahrzeug
DE102018108947A1 (de) Vorrichtung zum Korrigieren eines Äußerungsfehlers eines Benutzers und Verfahren davon
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
EP3152753B1 (de) Assistenzsystem, das mittels spracheingaben steuerbar ist, mit einer funktionseinrichtung und mehreren spracherkennungsmodulen
EP3095114B1 (de) Verfahren und system zur erzeugung eines steuerungsbefehls
EP3735688B1 (de) Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zum verarbeiten einer spracheingabe, kraftfahrzeug und nutzerendgerät mit einer sprachverarbeitung
DE102017213946B4 (de) Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät
DE102018132160A1 (de) System und verfahren zum verstehen von standardsprache und dialekten
EP3989218A1 (de) Bedienungsfreundlicher virtueller sprachassistent
EP4040433B1 (de) Dynamische generierung einer kette von funktionsmodulen eines virtuellen assistenten
WO2018188907A1 (de) Verarbeitung einer spracheingabe
DE102016003903A1 (de) Verfahren zur Spracherkennung in einem Kraftfahrzeug
DE102016005731B4 (de) Verfahren zum Betreiben mehrerer Spracherkenner
DE102016004287A1 (de) Verfahren zur Spracherkennung in einem Kraftfahrzeug
EP3559941B1 (de) Sprachausgabestimme eines sprachbediensystems
DE102016009196B4 (de) Verfahren zum Betreiben mehrerer Spracherkenner
DE102023003428B4 (de) Verfahren zum Betrieb eines fahrzeugintegrierten Sprachassistenten, Sprachassistent und Fahrzeug
EP0519360A2 (de) Einrichtung und Verfahren zum Erkennen von Sprache
DE102017222549A1 (de) Steuerverfahren und Sprachdialogsystem
AT414283B (de) Verfahren zur optimierung von spracherkennungsprozessen
DE102016005629B4 (de) Kraftfahrzeug-Bedienvorrichtung und Verfahren zum Ermitteln zumindest eines Erkennungsergebnisses zu einem Sprachsignal
DE102025000812A1 (de) Verfahren und Bedienvorrichtung zur Auswahl eines Interaktionssystems in einem Fahrzeug
WO2025061219A1 (de) Sprachgesteuertes dialogsystem für ein kraftfahrzeug

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R082 Change of representative

Representative=s name: HOFSTETTER, SCHURACK & PARTNER - PATENT- UND R, DE

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015220000

Ipc: G10L0015300000

R018 Grant decision by examination section/examining division
R020 Patent grant now final