[go: up one dir, main page]

DE102014109122A1 - Systeme und Verfahren für ergebnisbezogene Arbitrierung in Sprachdialogsystemen - Google Patents

Systeme und Verfahren für ergebnisbezogene Arbitrierung in Sprachdialogsystemen Download PDF

Info

Publication number
DE102014109122A1
DE102014109122A1 DE102014109122.1A DE102014109122A DE102014109122A1 DE 102014109122 A1 DE102014109122 A1 DE 102014109122A1 DE 102014109122 A DE102014109122 A DE 102014109122A DE 102014109122 A1 DE102014109122 A1 DE 102014109122A1
Authority
DE
Germany
Prior art keywords
recognition results
confidence level
results
utterance
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102014109122.1A
Other languages
English (en)
Inventor
Robert Sims
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/311,750 external-priority patent/US9715878B2/en
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of DE102014109122A1 publication Critical patent/DE102014109122A1/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)

Abstract

Ein Verfahren zum Arbitrieren von Sprachdialogergebnissen, das ein Empfangen einer Sprachäußerung von einem Nutzer innerhalb einer Umgebung einschließt; Empfangen erster Erkennungsergebnisse und eines ersten Vertrauenslevels, die mit der Sprachäußerung assoziiert sind, von einer ersten Quelle; Empfangen zweiter Erkennungsergebnisse und eines zweiten Vertrauenslevels, die mit der Sprachäußerung assoziiert sind, von einer zweiten Quelle; Empfangen einer Mensch-Maschine-Schnittstellen- bzw. HMI-Information (HMI, human-machine-interface), die mit dem Nutzer assoziiert ist; Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen basierend auf wenigstens einem von dem ersten Vertrauenslevel, dem zweiten Vertrauenslevel und der HMI-Information.

Description

  • Querverweis auf verwandte Anmeldungen
  • Diese Anmeldung beansprucht die Priorität der U. S. Provisional-Patent-Application No. 61/845,798, die am 12. Juli 2013 eingereicht wurde, deren Inhalte durch Bezugnahme hierin aufgenommen sind.
  • Technisches Gebiet
  • Das technische Gebiet bezieht sich im Allgemeinen auf Sprachsysteme und insbesondere bezieht es sich auf Verfahren und Systeme zum Auswählen zwischen verfügbaren Spracherkennungsergebnissen.
  • Hintergrund
  • Fahrzeugsysteme für Sprachdialoge (oder ”Sprachsysteme”) führen unter anderem eine Spracherkennung durch, die auf einer Sprache basiert, welche durch Besitzer eines Fahrzeugs geäußert werden. Die Sprachäußerungsweisen schließen typischerweise Kommandos ein, die mit einem oder mehreren Merkmalen des Fahrzeugs sowie andere(n) Systeme(n), die durch das Fahrzeug zugänglich sind, kommunizieren oder diese steuern. Ein Sprachsystem erzeugt Sprachbefehle in Reaktion auf die Sprachäußerung, und in einigen Fällen werden Sprachbefehle in Reaktion auf die Spracherkennung erzeugt, die weitere Informationen benötigt, um die Spracherkennung durchzuführen.
  • Zunehmend kann eine Spracherkennungsfunktionalität durch multiple Geräte innerhalb der Umgebung des Nutzers sowie auch extern verfügbare Server zur Verfügung gestellt werden. Im Kontext eines Fahrzeugsystems für Sprachdialoge ist es zum Beispiel nicht ungewöhnlich, dass Spracherkennungsergebnisse simultan von dem mobilen Gerät des Nutzers (über eine oder mehrere Applikationen, die auf dem mobilen Gerät vorhanden sind), von dem Sprachsystem an Bord des Fahrzeugs und von externen Servern Dritter (welche über ein Netzwerk mit dem an Bord befindlichen Kommunikationsnetzwerk gekoppelt sind) verfügbar sind. Weiterhin kann die Zeit, die notwendig ist, damit die Systeme Spracherkennungsergebnisse erzeugen, sowie der Konfidenzwert bzw. Vertrauenslevel, der mit derartigen Ergebnissen assoziiert ist, stark variieren.
  • Demgemäß ist es wünschenswert, verbesserte Verfahren und Systeme für das Auswählen oder ”Arbitrieren” von Spracherkennungsergebnissen in einem Sprachsystem bereitzustellen. Überdies werden andere wünschenswerte Merkmale und Kennzeichen der vorliegenden Erfindung durch die nachfolgende detaillierte Beschreibung und die anhängenden Ansprüche in Verbindung mit den begleitenden Zeichnungen und dem vorhergehenden technischen Gebiet und dem Hintergrund verständlich.
  • Beschreibung der Zeichnungen
  • Die beispielhaften Ausführungsformen werden hiernach in Zusammenhang mit den nachfolgenden Zeichnungsfiguren beschrieben, wobei gleiche Nummern gleiche Elemente bezeichnen, und wobei:
  • 1 ein funktionelles Blockdiagramm eines Fahrzeugs ist, das ein Sprachsystem gemäß unterschiedlicher beispielhafter Ausführungsformen einschließt;
  • 2 ein Flussdiagramm ist, das ein Verfahren gemäß einer Ausführungsform zeigt; und
  • 3 ein funktionales Blockdiagramm ist, das ein Spracherkennungs-Arbitrierungssystem gemäß beispielhafter Ausführungsformen zeigt.
  • Kurze Zusammenfassung
  • Ein Verfahren zum Arbitrieren von Sprachdialogergebnissen gemäß einer Ausführungsform umfasst ein Empfangen einer Sprachäußerung von einem Nutzer innerhalb einer Umgebung; Empfangen erster Erkennungsergebnisse und eines ersten Konfidenzwertes bzw. Vertrauenslevels, die mit der Sprachäußerung assoziiert sind, von einer ersten Quelle; Empfangen zweiter Erkennungsergebnisse und eines zweiten Vertrauenslevels, die mit der Sprachäußerung assoziiert sind, von einer zweiten Quelle; Empfangen einer Mensch-Maschine-Schnittstellen- bzw. HMI-Information (HMI, human-machine-interface), die mit dem Nutzer assoziiert ist; Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen basierend auf wenigstens einem von dem ersten Vertrauenslevel, dem zweiten Vertrauenslevel und der HMI-Information.
  • Ein System für ein Arbitrieren von Sprachdialogergebnissen in einem Fahrzeug gemäß einer Ausführungsform umfasst ein semantisches Interpretationsmodul, ein Shortcut- bzw. Verkürzungsmodul und ein Ergebnisauswahlmodul. Das semantische Interpretationsmodul ist konfiguriert, um eine Sprachäußerung von einem Nutzer innerhalb der Umgebung zu empfangen, um erste Erkennungsergebnisse und einen ersten Konfidenzwert bzw. Vertrauenslevel, der mit der Sprachäußerung assoziiert ist, von einer ersten Quelle zu empfangen und um zweite Erkennungsergebnisse und einen zweiten Vertrauenslevel, der mit der Sprachäußerung assoziiert ist, von einer zweiten Quelle zu empfangen. Das Verkürzungsmodul ist konfiguriert, um die ersten Erkennungsergebnisse auszuwählen, wenn der erste Vertrauenslevel über einem Schwellenwert liegt. Das Ergebnisauswahlmodul ist konfiguriert, um die ersten Erkennungsergebnisse auszuwählen, wenn der erste Vertrauenslevel größer ist als der zweite Vertrauenslevel und der erste Vertrauenslevel nicht oberhalb des Schwellenwerts liegt.
  • Detaillierte Beschreibung
  • Die nachfolgende detaillierte Beschreibung ist in ihrer Art nur beispielhaft und es ist nicht beabsichtigt, die Applikation oder den Gebrauch zu limitieren. Ferner besteht keine Absicht, durch irgendeine ausgedrückte oder verwendete Theorie, die in dem vorhergehenden technischen Gebiet, dem Hintergrund, der kurzen Zusammenfassung oder der nachfolgenden detaillierten Beschreibung präsentiert wird, gebunden zu sein. Der hierin verwendete Ausdruck ”Modul” bezieht sich auf eine anwendungsspezifische integrierte Schaltung (ASIC, application specific integrated circuit), einen elektronischen Schaltkreis, einen Prozessor (anteilig, speziell zur Verfügung gestellt, oder als Gruppe) und einen Speicher, der eine oder mehrere Software- oder Firmware-Programme durchführt, eine kombinierte logische Schaltung und/oder andere geeignete Komponenten, welche die beschriebene Funktionalität bereitstellen.
  • Nun auf 1 Bezug nehmend, wird gemäß den beispielhaften Ausführungsformen des hierin beschriebenen Gegenstandes ein Sprachdialogsystem (oder einfach ”Sprachsystem”) 10 innerhalb eines Fahrzeugs 12 bereitgestellt. Im Allgemeinen stellt ein Sprachsystem 10 eine Spracherkennung, ein Dialogmanagement und eine Spracherzeugung für ein oder mehrere Fahrzeugsysteme durch ein Mensch-Maschine-Schnittstellenmodul 14 (HMI, human machine interface) bereit, das konfiguriert ist, um durch einen oder mehrere Nutzer 40 (z. B. einen Fahrer, Beifahrer usw.) betrieben zu werden (oder in anderer Weise mit diesem in Wechselwirkung zu treten). Derartige Fahrzeugsysteme können zum Beispiel ein Telefonsystem 16, ein Navigationssystem 18, ein Mediasystem 20, ein Telematiksystem 22, ein Netzwerksystem 24 und irgendwelche anderen Fahrzeugsysteme einschließen, die eine sprachabhängige Applikation umfassen. In einigen Ausführungsformen sind ein oder mehrere der Fahrzeugsysteme kommunikativ über ein Netzwerk gekoppelt (z. B. ein proprietäres Netzwerk, ein 4G Netzwerk oder dergleichen), die eine Datenkommunikation mit einem oder mehreren Backendservern 26 bereitstellen.
  • Ein oder mehrere mobile Geräte 50 könnten auch innerhalb des Fahrzeugs 12 vorhanden sein, einschließlich unterschiedlicher Smartphones, Tabletcomputern, Ausstattungstelefonen (engl. feature phones) usw. Ein mobiles Gerät 50 kann auch kommunikativ mit der HMI 14 über eine geeignete drahtlose Verbindung gekoppelt sein (z. B. Bluetooth oder WiFi), so dass eine oder mehrere Applikationen, die auf dem mobilen Gerät 50 resident sind, für den Nutzer 40 über das HMI 14 zugänglich sind. Somit kann typischerweise ein Nutzer 40 einen Zugriff auf Applikationen haben, die auf drei unterschiedlichen Plattformen aktiv sind: Applikationen, die innerhalb des Fahrzeugsystems selbst ausgeführt werden, Applikationen, die auf einem mobilen Gerät 50 im Einsatz sind, und Applikationen, die auf einem Abschlussserver 26 residieren bzw. installiert sind. Weiterhin können ein oder mehrere dieser Applikationen gemäß ihrer eigenen jeweiligen Sprachdialogsysteme arbeiten, und somit kann eine Vielzahl von Geräten in der Lage sein, in unterschiedlichem Ausmaß auf die Anfrage, die von einem Nutzer 40 gesprochen wird, zu reagieren.
  • Das Sprachsystem 10 kommuniziert mit den Fahrzeugsystemen 14, 16, 18, 20, 22, 24 und 26 über einen Kommunikations-Bus und/oder über ein anderes Datenkommunikationsnetzwerk 29 (z. B. drahtgebunden, nahbereichsdrahtlos oder fernbereichsdrahtlos). Der Kommunikations-Bus kann zum Beispiel ein CAN-Bus (CAN, controller area network), ein LIN-Bus (LIN, local interconnect network) oder dergleichen sein. Es ist sinnvoll, dass das Sprachsystem 10 in Verbindung sowohl mit fahrzeugbasierenden Umgebungen als auch mit nicht-fahrzeugbasierenden Umgebungen verwendet wird, welche eine oder mehrere sprachabhängige Applikationen aufweisen, und die hier vorgesehenen fahrzeugbasierenden Beispiele werden allgemeingültig dargelegt.
  • Wie dargestellt, umfasst das Sprachsystem 10 ein Sprachverständnismodul 32, ein Dialogmanagermodul 34 und ein Spracherzeugungsmodul 35. Diese funktionalen Module können als separate Systeme oder als ein kombiniertes, integriertes System ausgeführt sein. Im Allgemeinen empfängt das HMI-Modul 14 ein akustisches Signal (oder eine ”Sprachäußerung”) 41 von einem Nutzer 40, welche dem Sprachverständnismodul 32 zur Verfügung gestellt wird.
  • Das Sprachverständnismodul 32 umfasst jede Kombination der Hardware und/oder Software, die konfiguriert ist, um die Sprachäußerung vom HMI-Modul 14 (empfangen über ein oder mehrere Mikrofone 52) zu verarbeiten, und zwar unter Verwenden geeigneter Spracherkennungsverfahren, welche zum Beispiel automatische Spracherkennung und semantische Decodierung (oder Verständnis der gesprochen Sprache (SLU, spoken language understanding)) aufweisen. Unter Verwenden derartiger Techniken erzeugt das Sprachverständnismodul 32 eine Ergebnisliste (oder Listen) 33 möglicher Ergebnisse von der Sprachäußerung. In einer Ausführungsform umfasst die Ergebnisliste 33 einen oder mehrere Satzhypothesen, die eine Wahrscheinlichkeitsverteilung über den Satz der Äußerungen repräsentiert, welche durch den Nutzer 40 gesprochen sein könnten (nämlich die Äußerung 41). Die Liste 33 könnte zum Beispiel die Form einer N-Bestenliste annehmen. In unterschiedlichen Ausführungsformen erzeugt das Sprachverständnismodul 32 eine Liste der Ergebnisse (”Spracherkennungsergebnisse” oder einfach ”Ergebnisse”) 33 unter Verwenden vordefinierter Möglichkeiten, die in einem Datenspeicher gespeichert sind. Zum Beispiel könnten die vordefinierten Möglichkeiten Namen oder Nummern sein, die in einem Telefonbuch gespeichert sind, Namen oder Adressen sein, die in einem Adressbuch gespeichert sind, Namen von Liedern, Alben oder Künstlern sein, die in einem Musikverzeichnis gespeichert sind, usw. In einer Ausführungsform entwickelt das Sprachverständnismodul 32 eine Front-End-Merkmalsextraktion, auf die ein HMM-Modell (Hiden Markov Model) und ein Punktezählmechanismus folgt. Wie weiter unten im Detail beschrieben, kann das Sprachverständnismodul 32 zwischen einer Vielzahl von Spracherkennungsergebnissen arbitrieren, die von einer Vielzahl von Geräten und/oder Systemen empfangen werden, um die endgültige Ergebnisliste 33 zu erzeugen,
  • Das Dialogmanagermodul 34 schließt jede Kombination von Hardware und/oder Software ein, die konfiguriert ist, um eine Interaktionssequenz und eine Auswahl der Sprachaufforderungen 42, die zu dem Nutzer zu sprechen sind, zu managen, basierend auf einer Liste 33. Wenn eine Liste mehr als ein mögliches Ergebnis enthält, verwendet das Dialogmanagermodul 34 Eindeutigkeitsstrategien, um einen Dialog von Aufforderungen mit dem Nutzer zu managen, so dass ein erkanntes Ergebnis bestimmt werden kann. Demgemäß ist in einer beispielhaften Ausführungsform das Dialogmanagermodul 34 in der Lage, Dialogkontexte zu managen, wie es weiter unten beschrieben wird.
  • Das Spracherzeugungsmodul 35 umfasst jede Kombination von Hardware und/oder Software, die konfiguriert ist, um gesprochene Aufforderungen bzw. Sprachaufforderungen 42 an den Nutzer 40 zu erzeugen, und zwar basierend auf dem Dialog, der durch das Dialogmanagermodul 34 bestimmt ist. In dieser Beziehung wird das Spracherzeugungsmodul 35 im Allgemeinen eine natürliche Spracherzeugung (NLG, natural language generation) und eine Sprachsynthese oder eine Text-zu-Sprache (TTS, text-to-speech) bereitstellen.
  • Die Ergebnisliste 33 schließt ein oder mehrere Elemente ein, die ein mögliches Ergebnis repräsentieren. In unterschiedlichen Ausführungsformen umfasst jedes Element der Liste 33 einen oder mehrere ”Ausschnitte” bzw. ”Slots”, die jeweils mit einem linguistischen, von der Applikation abhängigen Slot- bzw. Ausschnitttyp assoziiert sind. Wenn zum Beispiel die Applikation das Telefonieren mit Telefonbuch-Kontakten unterstützt (z. B. ”Ruf John Doe an”), dann kann jedes Element Ausschnitte mit Ausschnitttypen eines Vornamens, eines Mittelnamens und/oder eines Familiennamens einschließen. Wenn in einem anderen Beispiel die Applikation die Navigation unterstützt (z. B. ”Fahre zu 1111 Sunshine Boulevard”), dann kann jedes Element Ausschnitte mit Ausschnitttypen einer Hausnummer und eines Straßennamens usw. einschließen. In unterschiedlichen Ausführungsformen können die Ausschnitte und die Ausschnitttypen in einem Datenspeicher gespeichert sein und von jedem der dargestellten Systeme kann auf sie zugegriffen werden. Jedes Element oder jeder Ausschnitt der Liste 33 ist mit eine Vertrauenslevel bzw. Konfidenzwert assoziiert.
  • Zusätzlich zu einem gesprochenen Dialog könnten die Nutzer 40 auch mit der HMI 14 über unterschiedliche Tasten, Schalter, Touchscreen-Nutzer-Schnittstellenelemente, Gesten (z. B. Handgesten, die durch eine oder mehrere Kameras, die innerhalb des Fahrzeugs 12 bereitgestellt sind) und dergleichen zusammenwirken. In einer Ausführungsform wird eine Taste 54 (z. B. eine ”Drücken-zum-Sprechen”-Taste oder einfach ”Sprechen-Taste”) bereitgestellt, die leicht von einem oder mehreren Nutzern 40 erreichbar ist. Die Taste 54 kann zum Beispiel in einem Lenkrad 56 eingebettet sein.
  • Bezugnehmend nun auf 3 wird ein Arbitrierungssystem 300 gemäß einer Ausführungsform nun in Verbindung mit einem beispielhaften Arbitrierungsverfahren 200 beschrieben, das in 2 gezeigt wird. In einigen Ausführungsformen wird ein System 300 als Teil eines Sprachverständnismoduls 32, das in 1 gezeigt wird, verwendet. In anderen Ausführungsformen befindet sich das System 300 in einem oder mehreren anderen Modulen, die in 1 gezeigt werden.
  • In der gezeigten Ausführungsform umfasst das System 300 ein Ereignis-Zeitgebermodul 308, ein semantisches Interpretationsmodul 310, ein Shortcut- bzw. Verkürzungsmodul 312, ein Ergebnisauswahlmodul 314, eine laufende bzw. aktuelle Mensch-Maschine-Schnittstelle-Zustandsinformation (HMI state information) 306 und ein Ausgabemodul 318. Das Ereignis-Zeitgebermodul 308 ist konfiguriert, um eine Vielzahl von Spracherkennungsergebnissen (oder einfach ”Ergebnisse”) 301305 zu akzeptieren (Schritt 202, 2). Die Spracherkennungsergebnisse 301305 können von vielen Quellen abgeleitet werden und/oder könnten mit Ergebnissen korrespondieren, die durch eine Vielzahl von Spracherkennungsverfahren erzeugt werden. Zum Beispiel könnten die Ergebnisse 301 Ergebnissen entsprechen, die durch eine Applikation eines statistischen Sprachmodells (SLM, statistical language model) erzeugt werden, während die Ergebnisse 302 mit Ergebnissen korrespondieren könnten, die durch eine Applikation einer finiten Statusgrammatik (FSG, finite state grammar) zu der gleichen Sprachäußerung erzeugt wurden. In ähnlicher Weise können die Ergebnisse 303 durch ein On-board- (oder ”eingebettetes”) Spracherkennungssystem erzeugt sein, wie ein Navigationssystem, während die Ergebnisse 305 durch einen externen Server (z. B. Server 26 in 1) erzeugt sein könnten.
  • Das Ereignis-Zeitgebermodul 308 ist konfiguriert, um die unterschiedlichen Ergebnisse 301305 zu empfangen und die Zeit zu bestimmen, zu der jedes der Ergebnisse empfangen wurde (Schritt 204, 2). Das bedeutet zum Beispiel, dass die Ergebnisse 301 bei 200 Millisekunden (ms) nach einer bestimmten Zeit (z. B. der Zeit, in der eine Äußerung zur Interpretation übermittelt wurde) empfangen sein könnten, während die Ergebnisse 305 (von einem externen Server) 3,0 Sekunden nach der spezifizierten Zeit empfangen werden könnten.
  • Das semantische Interpretationsmodul 310 ist konfiguriert, um die Ergebnisse 301305 zusammen mit den Zeitinformationen von dem Ereignis-Zeitgebermodul 308 zu empfangen, und ist konfiguriert, um geeignete Verfahren anzuwenden, um den Dialogkontext und/oder die unterschiedlichen ”Ausschnitte” bzw. ”Slots”, die auf die empfangenen Ergebnisse anwendbar sind, zu bestimmen, wie es oben (Schritt 206, 2) beschrieben ist. Das bedeutet, dass das semantische Interpretationsmodul 310 konfiguriert ist, um die semantische Bedeutung der empfangenen Ergebnisse zu bestimmen und auch den Vertrauenslevel für jede Interpretation festzulegen. Das semantische Interpretationsmodul 310 kann auch vorher interpretierte Ergebnisse von einer oder mehreren Quellen empfangen, z. B. Ergebnisse 305 von einem externen Server.
  • Das Shortcut- bzw. Verkürzungsmodul 312 ist konfiguriert, um die interpretierten Ergebnisse von den unterschiedlichen Quellen zu empfangen und zu bestimmen (Schritt 208), ob eines der interpretierten Ergebnisse von ausreichend hohem Vertrauen ist (nämlich über einem vorbestimmten Schwellenwert). Wenn das so ist, wird das interpretierte Ergebnis direkt zum Ausgangsmodul 318 übertragen (Schritt 210), dadurch wird jede Verzögerung, die durch nachfolgende Prozessschritte eingeführt werden könnten, vermieden. Der vorbestimmte Schwellenwert kann variieren, was für den Fachmann der Technik verständlich ist, in Abhängigkeit von der Natur der Ergebnisse 301302 sowie dem semantischen Interpretationsmodul 310.
  • Wenn beim Schritt 208 bestimmt wird, dass keines der interpretierten Ergebnisse einen Vertrauenslevel über dem vorbestimmten Schwellenwert aufweist, dann wählt das Ergebnisauswahlmodul 314 zwischen den interpretierten Ergebnissen aus, und zwar basierend auf dem Vertrauenslevel, der mit jedem assoziiert ist, zusammen mit HMI-Zustandsinformation 306 (Schritt 211, 2). In diesem Zusammenhang umfasst die HMI-Zustandsinformation jede Information, die sich auf den gegenwärtigen Bearbeitungsmodus des HMI 14 der 1 bezieht. Eine derartige Information könnte zum Beispiel die gegenwärtige Bildschirmdarstellung auf einem Touchscreen, den Status von irgendwelchen Tasten (z. B. Sprachtasten) innerhalb der Umgebung, ob der Nutzer mit bestimmten Internethosts (z. B. Google Maps, Pandora usw.) zusammenwirkt, ob der Nutzer mit Medien zusammenwirkt, den gegenwärtigen Dialogstatus, den Inhalt dessen, was dem Nutzer angezeigt wird, Informationen, die den Zustand des Fahrzeugs betreffen (z. B. stationär oder bewegend) oder dergleichen umfassen. Die Verwendung der HMI-Statusinformation 306 ermöglicht dem Ergebnisauswahlmodus 314 eine intelligentere Auswahl zu treffen. Wenn zum Beispiel der Nutzer mit Google Maps auf einem externen Server zusammenwirkt, dann würde das Ergebnisauswahlmodul 314 typischerweise auf Ergebnisse 305, die empfangen werden sollen, warten, selbst wenn derartige Ergebnisse später empfangen werden als die Ergebnisse von anderen Quellen (da klar ist, dass der Nutzer wünscht, Ergebnisse spezifischerweise von diesem Dienst bzw. Service zu nutzen).
  • Das Ausgabemodul 318 ist konfiguriert, um eine Ausgabe der ausgewählten interpretierten Ergebnisse 330 auszugeben (nämlich entweder die verkürzten Ergebnisse von dem Verkürzungsmodul 312 oder die ausgewählten Ergebnisse von dem Ergebnisauswahlmodul 314). In dieser Beziehung können Ergebnisse 330 mit Ergebnissen der Liste 33, die in 1 gezeigt ist, korrespondieren. Das Ausgabemodul 318 ist weiterhin konfiguriert, um das Ereignis-Zeitgebermodul 308 zurückzusetzen (nämlich den Wartezeitgeber zurück auf Null zu setzen).
  • Gemäß einer Ausführungsform werden historische Daten in Bezug auf den Betrieb des Systems 300 verwendet, um unterschiedliche Komponenten des Systems 300 zu trainieren – zum Beispiel Aktualisieren der Modelle, die für das semantische Interpretationsmodul 310 und für das Ergebnisauswahlmodul 314 verwendet werden.
  • Während wenigstens eine beispielhafte Ausführungsform in der vorhergehenden detaillierten Beschreibung präsentiert wurde, sollte es erwähnt sein, dass eine beträchtliche Anzahl von Variationen existiert. Es sollte auch erwähnt sein, dass die beispielhafte Ausführungsform oder die beispielhaften Ausführungsformen nur Beispiele sind, und es nicht beabsichtigt ist, den Umfang, die Anwendbarkeit oder die Konfiguration der Offenbarung in irgendeiner Weise zu begrenzen. Vielmehr wird die vorhergehende detaillierte Beschreibung dem Fachmann der Technik einen geeigneten Plan zum Ausführen der beispielhaften Ausführungsform oder den beispielhaften Ausführungsformen bereitstellen. Es sollte klar sein, dass unterschiedliche Änderungen in der Funktion und der Anordnung der Elemente durchgeführt werden können, ohne von dem Umfang der Offenbarung, wie er in den anhängenden Ansprüchen und den gesetzlichen Äquivalenten davon festgelegt ist, abzuweichen.
  • Beispiele:
  • Beispiel 1. Ein Verfahren zum Arbitrieren von Sprachdialogergebnissen, wobei das Verfahren umfasst:
    Empfangen einer Sprachäußerung von einem Nutzer innerhalb der Umgebung;
    Empfangen erster Erkennungsergebnisse und eines ersten Vertrauenslevels bzw. Konfidenzwertes, die mit der Sprachäußerung assoziiert sind, von einer ersten Quelle;
    Empfangen zweiter Erkennungsergebnisse und eines zweiten Vertrauenslevels, die mit der Sprachäußerung assoziiert sind, von einer zweiten Quelle;
    Empfangen einer Mensch-Maschine-Schnittstellen- bzw. HMI-Information (HMI, human-machine-interface), die mit dem Nutzer assoziiert ist;
    Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen basierend auf wenigstens einem von dem ersten Vertrauenslevel, dem zweiten Vertrauenslevel und der HMI-Information.
  • Beispiel 2. Das Verfahren von Beispiel 1, wobei das Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen ein Auswählen der ersten Erkennungsergebnisse einschließt, wenn der erste Vertrauenslevel oberhalb eines Schwellenwerts liegt.
  • Beispiel 3. Das Verfahren von einem der Beispiele 1–2, weiterhin umfassend ein Auswählen der ersten Erkennungsergebnisse, wenn der erste Vertrauenslevel nicht über dem Schwellenwert liegt und der erste Vertrauenslevel größer ist als der zweite Vertrauenslevel.
  • Beispiel 4. Das Verfahren von einem der Beispiele 1–3, wobei wenigstens ein Teil der ersten Erkennungsergebnisse vorbestimmte Erkennungsergebnisse sind.
  • Beispiel 5. Das Verfahren von einem der Beispiele 1–4, wobei jedes der ersten Erkennungsergebnisse einen oder mehrere linguistische Slots bzw. Ausschnitte einschließt, die mit entsprechenden Ausschnitttypen assoziiert sind.
  • Beispiel 6. Das Verfahren von Beispiel 5, wobei die linguistischen Ausschnitttypen einen Eigennamen und/oder eine Adresse einschließen.
  • Beispiel 7. Das Verfahren von einem der Beispiele 1–6, wobei das Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen ein Auswählen einschließt, das auf einem Hidden Markov Modell basiert.
  • Beispiel 8. Ein System für ein Arbitrieren von Sprachdialogergebnissen in einem Fahrzeug, wobei das System umfasst:
    ein semantisches Interpretationsmodul, das konfiguriert ist, um eine Sprachäußerung von einem Nutzer innerhalb der Umgebung zu empfangen, um erste Erkennungsergebnisse und einen ersten Vertrauenslevel, der mit der Sprachäußerung assoziiert ist, von einer ersten Quelle zu empfangen und um zweite Erkennungsergebnisse und einen zweiten Vertrauenslevel, der mit der Sprachäußerung assoziiert ist, von einer zweiten Quelle zu empfangen;
    ein Shortcut- bzw. Verkürzungsmodul, das konfiguriert ist, um die ersten Erkennungsergebnisse auszuwählen, wenn der erste Vertrauenslevel über einem Schwellenwert liegt; und
    ein Ergebnisauswahlmodul, das konfiguriert ist, um die ersten Erkennungsergebnisse auszuwählen, wenn der erste Vertrauenslevel größer ist als der zweite Vertrauenslevel und der erste Vertrauenslevel nicht oberhalb des Schwellenwerts liegt.
  • Beispiel 9. Das System von Beispiel 8, wobei das Ergebnisauswahlmodul konfiguriert ist, um eine HMI-Zustandsinformation zu empfangen, und weiter konfiguriert ist, um die ersten Erkennungsergebnisse teilweise basierend auf der HMI-Zustandsinformation auszuwählen.
  • Beispiel 10. Das System von einem der Beispiele 1–9, wobei wenigstens ein Teil der ersten Erkennungsergebnisse vorbestimmte Erkennungsergebnisse sind.
  • Beispiel 11. Das System von einem der Beispiele 8–10, wobei jedes der ersten Erkennungsergebnisse einen oder mehrere linguistische Slots bzw. Ausschnitte einschließt, die mit entsprechenden Ausschnitttypen korrespondieren.
  • Beispiel 12. Das System von Beispiel 11, wobei die linguistischen Ausschnitttypen einen Eigennamen und/oder eine Adresse einschließen.
  • Beispiel 13. Das System von einem der Beispiele 8–12, wobei das Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen ein Auswählen einschließt, das auf einem Hidden Markov Modell basiert.
  • Beispiel 14. Das System von einem der Beispiele 8–13, weiterhin umfassend ein Ereignis-Zeitgebermodul, das konfiguriert ist, um eine erste Zeit festzulegen, die damit assoziiert ist, wann die ersten Erkennungsergebnisse empfangen wurden, um eine zweite Zeit festzulegen, die damit assoziiert ist, wann die zweiten Erkennungsergebnisse empfangen wurden, wobei das Ergebnisauswahlmodul weiterhin konfiguriert ist, um die ersten Erkennungsergebnisse teilweise basierend auf der ersten Zeit und der zweiten Zeit auszuwählen.
  • Beispiel 15. Das System von einem der Beispiele 8–14, weiterhin umfassend ein Ausgabemodul, das konfiguriert ist, um dem Nutzer die ausgewählten ersten Erkennungsergebnisse bereitzustellen und dem Ereignis-Zeitgebermodul ein Rücksetzsignal bereitzustellen.
  • Beispiel 16. Ein nicht-transistorisches computerlesbares Medium trägt Softwareinstruktionen, die konfiguriert sind, um einen Prozessor zu veranlassen, Sprachdialogergebnisse zu arbitrieren bzw. zu vermitteln durch Ausführen der Schritte:
    Empfangen einer Sprachäußerung von einem Nutzer innerhalb der Umgebung;
    Empfangen erster Erkennungsergebnisse und eines ersten Konfidenzwertes bzw. Vertrauenslevels, die mit der Sprachäußerung assoziiert sind, von einer ersten Quelle;
    Empfangen zweiter Erkennungsergebnisse und eines zweiten Vertrauenslevels, die mit der Sprachäußerung assoziiert sind; von einer zweiten Quelle;
    Empfangen einer Mensch-Maschine-Schnittstellen- bzw. HMI-Information (HMI, human-machine-interface), die mit dem Nutzer assoziiert ist;
    Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen basierend auf wenigstens einem von dem ersten Vertrauenslevel, dem zweiten Vertrauenslevel und der HMI-Information.
  • Beispiel 17. Computer-lesbares Medium von Beispiel 16, wobei die Softwareinstruktionen weiterhin den Prozessor veranlassen, zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen zu wählen durch Auswählen der ersten Erkennungsergebnisse, wenn der erste Vertrauenslevel oberhalb eines Schwellenwerts liegt.
  • Beispiel 18. Das computerlesbare Medium von einem der Beispiele 16–17, wobei die Softwareinstruktionen weiterhin den Prozessor veranlassen, die ersten Erkennungsergebnisse zu wählen, wenn der erste Vertrauenslevel nicht oberhalb des Schwellenwerts liegt und der erste Vertrauenslevel größer als der zweite Vertrauenslevel ist.
  • Beispiel 19. Das computerlesbare Medium von einem der Beispiele 16–18, wobei jedes der ersten Erkennungsergebnisse einen oder mehrere linguistische Slots bzw. Ausschnitte einschließt, die mit korrespondierenden Ausschnitttypen assoziiert sind.
  • Beispiel 20. Das computerlesbare Medium von Beispiel 19, wobei die linguistischen Ausschnitttypen einen Eigennamen und/oder eine Adresse einschließen.

Claims (10)

  1. Verfahren zum Arbitrieren von Sprachdialogergebnissen, wobei das Verfahren umfasst: – Empfangen einer Sprachäußerung von einem Nutzer innerhalb einer Umgebung; – Empfangen erster Erkennungsergebnisse und eines ersten Vertrauenslevels, die mit der Sprachäußerung assoziiert sind, von einer ersten Quelle; – Empfangen zweiter Erkennungsergebnissen und eines zweiten Vertrauenslevels, die mit der Sprachäußerung assoziiert sind, von einer zweiten Quelle; – Empfangen einer Mensch-Maschine-Schnittstellen- bzw. HMI-Information (HMI, human-machine-interface), die mit dem Nutzer assoziiert ist; – Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen basierend auf wenigstens einem von dem ersten Vertrauenslevel, dem zweiten Vertrauenslevel und der HMI-Information.
  2. Verfahren nach Anspruch 1, wobei das Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen ein Auswählen der ersten Erkennungsergebnisse einschließt, wenn der erste Vertrauenslevel oberhalb eines Schwellenwerts liegt.
  3. Verfahren nach einem der Ansprüche 1–2, weiterhin umfassend ein Auswählen der ersten Erkennungsergebnisse, wenn der erste Vertrauenslevel nicht über dem Schwellenwert liegt und der erste Vertrauenslevel größer ist als der zweite Vertrauenslevel.
  4. Verfahren nach einem der Ansprüche 1–3, wobei wenigstens ein Teil der ersten Erkennungsergebnisse vorbestimmte Erkennungsergebnisse sind.
  5. Verfahren nach einem der Ansprüche 1–4, wobei jedes der ersten Erkennungsergebnisse einen oder mehrere linguistische Slots bzw. Ausschnitte einschließt, die mit entsprechenden Ausschnittstypen assoziiert sind.
  6. Verfahren nach Anspruch 5, wobei die linguistischen Ausschnitttypen einen Eigennamen und/oder eine Adresse einschließen.
  7. Verfahren nach einem der Ansprüche 1–6, wobei das Auswählen zwischen den ersten Erkennungsergebnissen und den zweiten Erkennungsergebnissen ein Auswählen einschließt, das auf einem Hidden Markov Modell basiert.
  8. System für ein Arbitrieren von Sprachdialogergebnissen in einem Fahrzeug, wobei das System umfasst: – ein semantisches Interpretationsmodul, das konfiguriert ist, um eine Sprachäußerung von einem Nutzer innerhalb der Umgebung zu empfangen, um erste Erkennungsergebnisse und einen ersten Vertrauenslevel, die mit der Sprachäußerung assoziiert sind, von einer ersten Quelle zu empfangen und um zweite Erkennungsergebnisse und einen zweiten Vertrauenslevel, die mit der Sprachäußerung assoziiert sind, von einer zweiten Quelle zu empfangen; – ein Verkürzungsmodul, das konfiguriert ist, um die ersten Erkennungsergebnisse auszuwählen, wenn der erste Vertrauenslevel über einem Schwellenwert liegt; und – ein Ergebnisauswahlmodul, das konfiguriert ist, um die ersten Erkennungsergebnisse auszuwählen, wenn der erste Vertrauenslevel größer ist als der zweite Vertrauenslevel und der erste Vertrauenslevel nicht oberhalb des Schwellenwerts liegt.
  9. System nach Anspruch 8, wobei das Ergebnisauswahlmodul konfiguriert ist, um eine HMI-Zustandsinformation zu empfangen, und weiter konfiguriert ist, um die ersten Erkennungsergebnisse basierend teilweise auf der HMI-Zustandsinformation auszuwählen.
  10. System nach einem der Ansprüche 8–9, wobei wenigstens ein Teil der ersten Erkennungsergebnisse vorbestimmte Erkennungsergebnisse sind.
DE102014109122.1A 2013-07-12 2014-06-30 Systeme und Verfahren für ergebnisbezogene Arbitrierung in Sprachdialogsystemen Withdrawn DE102014109122A1 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201361845798P 2013-07-12 2013-07-12
US61/845,798 2013-07-12
US14/311,750 2014-06-23
US14/311,750 US9715878B2 (en) 2013-07-12 2014-06-23 Systems and methods for result arbitration in spoken dialog systems

Publications (1)

Publication Number Publication Date
DE102014109122A1 true DE102014109122A1 (de) 2015-01-15

Family

ID=52107469

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102014109122.1A Withdrawn DE102014109122A1 (de) 2013-07-12 2014-06-30 Systeme und Verfahren für ergebnisbezogene Arbitrierung in Sprachdialogsystemen

Country Status (2)

Country Link
CN (1) CN104282305B (de)
DE (1) DE102014109122A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113270093A (zh) * 2020-01-29 2021-08-17 丰田自动车株式会社 代理装置、代理系统以及非暂时性记录介质

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10097919B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Music service selection
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10181323B2 (en) * 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10679620B2 (en) * 2018-03-06 2020-06-09 GM Global Technology Operations LLC Speech recognition arbitration logic
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN110737420B (zh) * 2018-07-19 2023-04-28 博泰车联网科技(上海)股份有限公司 语音冲突管理方法、系统、计算机可读存储介质及设备
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (de) 2018-11-15 2020-05-20 Snips Erweiterte konvolutionen und takt zur effizienten schlüsselwortauffindung
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
CN109949817B (zh) * 2019-02-19 2020-10-23 一汽-大众汽车有限公司 基于双操作系统双语音识别引擎的语音仲裁方法及装置
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US12283269B2 (en) 2020-10-16 2025-04-22 Sonos, Inc. Intent inference in audiovisual communication sessions
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
EP4409933A1 (de) 2021-09-30 2024-08-07 Sonos, Inc. Ein- und ausschalten von mikrofonen und sprachassistenten
US12327549B2 (en) 2022-02-09 2025-06-10 Sonos, Inc. Gatekeeping for voice intent processing

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5566272A (en) * 1993-10-27 1996-10-15 Lucent Technologies Inc. Automatic speech recognition (ASR) processing using confidence measures
FI116991B (fi) * 1999-01-18 2006-04-28 Nokia Corp Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja puheella ohjattava langaton viestin
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
DE10339973A1 (de) * 2003-08-29 2005-03-17 Daimlerchrysler Ag Intelligentes akustisches Mikrofon-Frontend mit Spracherkenner-Feedback
JP4680714B2 (ja) * 2005-08-03 2011-05-11 パナソニック株式会社 音声認識装置および音声認識方法
EP1750253B1 (de) * 2005-08-04 2012-03-21 Nuance Communications, Inc. Sprachdialogsystem
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US8515762B2 (en) * 2009-01-22 2013-08-20 Microsoft Corporation Markup language-based selection and utilization of recognizers for utterance processing
JP2011107603A (ja) * 2009-11-20 2011-06-02 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
WO2012001458A1 (en) * 2010-06-29 2012-01-05 Kabushiki Kaisha Toshiba Voice-tag method and apparatus based on confidence score
CN102543071B (zh) * 2011-12-16 2013-12-11 安徽科大讯飞信息科技股份有限公司 用于移动设备的语音识别系统和方法
CN103177721B (zh) * 2011-12-26 2015-08-19 中国电信股份有限公司 语音识别方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113270093A (zh) * 2020-01-29 2021-08-17 丰田自动车株式会社 代理装置、代理系统以及非暂时性记录介质

Also Published As

Publication number Publication date
CN104282305A (zh) 2015-01-14
CN104282305B (zh) 2018-04-24

Similar Documents

Publication Publication Date Title
DE102014109122A1 (de) Systeme und Verfahren für ergebnisbezogene Arbitrierung in Sprachdialogsystemen
DE102014109121B4 (de) Systeme und Verfahren zur Arbitrierung eines Sprachdialogdienstes
DE102019119171A1 (de) Spracherkennung für fahrzeugsprachbefehle
DE102013223036B4 (de) Adaptionsverfahren für Sprachsysteme
DE102014114604B4 (de) Verfahren und Vorrichtung zur Verarbeitung mehrerer Audioströme in einem Bordrechensystem eines Fahrzeugs
DE102019105269B4 (de) Verfahren zur spracherkennung mit spracherkennungs-arbitrierungslogik
DE112016004863T5 (de) Parametersammlung und automatische Dialogerzeugung in Dialogsystemen
DE112017004374T5 (de) System und Verfahren zur Spracherkennung
DE102014203540A1 (de) Systeme und verfahren für das steuern eines dialog-kontextes in sprachsystemen
DE102015203372A1 (de) Begriffsklärung dynamischer befehle
DE102014201676B4 (de) Verfahren für das Steuern des Dialogs von Sprachsystemen
DE102015106280B4 (de) Systeme und Verfahren zum Kompensieren von Sprachartefakten in Spracherkennungssystemen
DE202016008260U1 (de) Erlernen von Aussprachen einer personalisierten Entität
DE102018128006A1 (de) Natürlichsprachliche generierung basierend auf dem benutzersprachstil
DE102015109379A1 (de) Systeme und Verfahren für ein Navigationssystem, das eine Suche mit Diktieren und Teilübereinstimmung verwendet
DE102019105251A1 (de) Dialekt- und sprachenerkennung zur spracherkennung in fahrzeugen
DE102018108947A1 (de) Vorrichtung zum Korrigieren eines Äußerungsfehlers eines Benutzers und Verfahren davon
DE102013222507A1 (de) Adaptionsverfahren und -systeme für Sprachsysteme
US9715878B2 (en) Systems and methods for result arbitration in spoken dialog systems
DE102022133571A1 (de) Vorrichtung zur verarbeitung natürlicher sprache und verfahren zur verarbeitung natürlicher sprache
WO2015185464A1 (de) Assistenzsystem, das mittels spracheingaben steuerbar ist, mit einer funktionseinrichtung und mehreren spracherkennungsmodulen
DE112015003357T5 (de) Verfahren und System zum Erkennen einer eine Wortabfolge enthaltenden Sprachansage
EP3735688B1 (de) Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zum verarbeiten einer spracheingabe, kraftfahrzeug und nutzerendgerät mit einer sprachverarbeitung
DE102018132160A1 (de) System und verfahren zum verstehen von standardsprache und dialekten
EP3115886B1 (de) Verfahren zum betreiben eines sprachsteuerungssystems und sprachsteuerungssystem

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: SCHWEIGER & PARTNER, DE

Representative=s name: SCHWEIGER & PARTNERS, DE

R016 Response to examination communication
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee