[go: up one dir, main page]

DE112018006597B4 - Sprachverarbeitungsvorrichtung und Sprachverarbeitungsverfahren - Google Patents

Sprachverarbeitungsvorrichtung und Sprachverarbeitungsverfahren Download PDF

Info

Publication number
DE112018006597B4
DE112018006597B4 DE112018006597.9T DE112018006597T DE112018006597B4 DE 112018006597 B4 DE112018006597 B4 DE 112018006597B4 DE 112018006597 T DE112018006597 T DE 112018006597T DE 112018006597 B4 DE112018006597 B4 DE 112018006597B4
Authority
DE
Germany
Prior art keywords
voice
user
information
unit
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE112018006597.9T
Other languages
English (en)
Other versions
DE112018006597T5 (de
Inventor
Michitaka Inui
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Mobility Corp Jp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112018006597T5 publication Critical patent/DE112018006597T5/de
Application granted granted Critical
Publication of DE112018006597B4 publication Critical patent/DE112018006597B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Eine Sprachverarbeitungsvorrichtung, umfassend:eine Öffnungszustandserkennungseinheit (2), die ausgestaltet ist, einen Öffnungszustand eines Mundes eines Benutzers zu erkennen (S303); undeine Sprachinformationserfassungseinheit (3), die derart ausgestaltet ist, die Sprachinformationen zu erfassen (S303, S304) wenn festgestellt wurde, dass der Benutzer seinen Mund öffnet, wobei Sprachidentifikationsinformationen zum Identifizieren der Stimme eines bestimmten Benutzers zuvor registriert werden,eine Sprachidentifizierungseinheit (12), die derart ausgestaltet ist, die erfasste Sprachinformation mit den Sprachidentifikationsinformationen zu vergleichen, um zu identifizieren, ob der Benutzer, der die Stimme abgegeben hat, der bestimmte Benutzer ist (S306);eine Spracherkennungseinheit (4), die dazu ausgestaltet ist, Sprache als eine Sprecherstimme zu erkennen, wenn die Sprache in einem Zustand ausgegeben wird, in dem der Benutzer der bestimmte Benutzer ist (S307); undeine Übertragungseinheit (5), die dazu ausgestaltet ist, die Sprecherstimmeninformationen, die Informationen über die in der Spracherkennungseinheit (4) erkannte Sprecherstimme sind, an einen externen Server zu übertragen (S309).

Description

  • Technischer Bereich
  • Die vorliegende Erfindung betrifft eine Sprachverarbeitungsvorrichtung und ein Sprachverarbeitungsverfahren zum Übertragen von Sprachinformationen der von einem Benutzer ausgesendeten Sprache an einen externen Server, insbesondere eine Sprachverarbeitungsvorrichtung und ein Sprachverarbeitungsverfahren zum Übertragen von Sprachinformationen der von einem Benutzer ausgesendeten Sprache an einen externen Server in einem Assistenten für künstliche Intelligenz (KI), in dem der externe Server den Inhalt der vom Benutzer ausgesendeten Sprache interpretiert und als Antwort darauf notwendige Informationen an den Benutzer überträgt.
  • Stand der Technik
  • Es gibt einen KI-Assistenten, der aus einem Terminal besteht, das Sprachinformationen der von einem Benutzer ausgesendeten Sprache an einen externen Server überträgt, und einem externen Server, der den Inhalt der vom Benutzer ausgesendeten Sprache interpretiert und als Antwort darauf notwendige Informationen an den Benutzer überträgt. Das Terminal und der Server sind so miteinander verbunden, dass sie über eine Kommunikationsleitung miteinander kommunizieren können. Im KI-Assistenten, der eine solche Konfiguration annimmt, muss das Terminal nur die Sprachinformationen der vom Benutzer ausgestrahlten Stimme an den externen Server übertragen.
  • Konventionell offenbart ist eine Technik, bei der die Spracherkennungsverarbeitung der durch ein Mikrofon in einer Zeitspanne, in der der Benutzer seinen Mund öffnet, erworbenen Stimme durchgeführt wird, wodurch die Spracherkennungsrate der vom Benutzer abgegebenen Stimme verbessert wird, selbst wenn der Benutzer in einer lauten Umgebung spricht (siehe z.B. Patentdokument 1). Patentdokument 2 betrifft einen automatischen Spracherkenner, der nur auf akustische Sprachäußerungen reagiert, und nur als Reaktion auf akustische Energie aktiviert wird, die ein mit den Sprachäußerungen verbundenes Spektrum und mindestens ein mit den Sprachäußerungen verbundenes Gesichtsmerkmal aufweist. den Sprachäußerungen zugeordnet ist.
  • Patentdokument 3 betrifft Systeme und Verfahren zur Durchführung von Fokuserkennung, referentieller Mehrdeutigkeitsauflösung und Stimmungseinordnung in Übereinstimmung mit multimodalen Eingabedaten, unter unterschiedlichen Betriebsbedingungen, um eine effektive konversationelle Computerumgebung für einen oder mehrere Benutzer bereitzustellen.
  • Dokumente zum Stand der Technik
  • Patent-Dokumente
    • Patentdokument 1: Japanische offengelegte Patentanmeldung JP 2000 - 187 499 A
    • Patentdokument 2: WO 03/ 065 350 A1
    • Patentdokument 3: US 2002 / 0 135 618 A1
  • Zusammenfassung
  • Durch die Erfindung zu lösendes Problem
  • In Patentdokument 1 wird der Zeitraum, in dem der Benutzer den Mund öffnet, als ein Zeitraum erkannt, in dem der Benutzer spricht. Es gibt nachfolgend beschriebene Probleme bei der Anwendung der in Patentdokument 1 beschriebenen Technik auf den oben genannten KI-Assistenten.
  • Erstens, selbst wenn der Benutzer seinen Mund öffnet, aber nicht spricht, d.h. selbst wenn der Benutzer seinen Mund nur öffnet, wird der Zeitraum, in dem der Benutzer seinen Mund öffnet, als der Zeitraum erkannt, in dem der Benutzer spricht. Dementsprechend überträgt das Terminal unnötige Informationen einschließlich Sprachinformationen in einem Zeitraum, in dem der Benutzer nicht mit dem externen Server spricht, so dass das Problem besteht, dass der Kommunikationsverkehr zunimmt.
  • Zweitens, wenn der Benutzer spricht, ist der andere Ton einschließlich der Stimme einer anderen Person als der Benutzer als Geräusch in der Sprachinformation enthalten. Dementsprechend kann der Server in einigen Fällen den Inhalt der vom Benutzer abgegebenen Stimme nicht genau interpretieren. In diesem Fall besteht die Notwendigkeit, den Benutzer erneut zum Sprechen aufzufordern, und es kommt zu einer unnötigen Kommunikation zwischen dem Server und dem Terminal, so dass das Problem besteht, dass der Kommunikationsverkehr zunimmt.
  • Die vorliegende Erfindung wurde daher gemacht, um die oben genannten Probleme zu lösen, und es ist ein Gegenstand, eine Sprachverarbeitungsvorrichtung und ein Sprachverarbeitungsverfahren bereitzustellen, die in der Lage sind, den Kommunikationsverkehr bei einer Kommunikation mit einem externen Server zu reduzieren.
  • Mittel zur Lösung des Problems
  • Um die obigen Probleme zu lösen, enthält eine Sprachverarbeitungsvorrichtung gemäß der vorliegenden Erfindung: eine Öffnungszustandserkennungseinheit, die einen Öffnungszustand eines Mundes eines Benutzers erkennt; und eine Sprachinformationserfassungseinheit, die Sprachinformationen erfasst, wobei Sprachidentifikationsinformationen zum Identifizieren der Stimme eines bestimmten Benutzers zuvor registriert werden, wobei die Sprachverarbeitungsvorrichtung ferner enthält: eine Spracherkennungseinheit, die nur Sprache erkennt, die in einem Zustand ausgegeben wird, in dem der registrierte Benutzer den Mund als Sprecherstimme öffnet, basierend auf dem Öffnungszustand, der in der Öffnungszustandserkennungseinheit erfasst wird, der Sprachinformation, die in der Sprachinformationserfassungseinheit erfasst wird, und der Sprachidentifikationsinformation; und eine Übertragungseinheit, die Sprecherstimmeninformation, die Information der Sprecherstimme ist, die in der Spracherkennungseinheit erkannt wird, an einen externen Server überträgt.
  • Ein Sprachverarbeitungsverfahren gemäß der vorliegenden Erfindung enthält: Erkennen eines Öffnungszustands eines Benutzers; Erfassen von Sprachinformation; Identifikationsinformationen, die zuvor registriert wurden, um die Stimme eines bestimmten Benutzers zu identifizieren; Erkennen der Stimme nur dann, wenn sie in einem Zustand ausgegeben wird, in dem der registrierte Benutzer einen Mund als Sprecherstimme öffnet, auf der Grundlage des Öffnungszustands, der erkannt wird, der Sprachinformation, die erfasst wird, und der Identifikationsinformation; und Übertragen von Sprecherstimmeninformationen, die Informationen der Sprecherstimme sind, die erkannt wird, an einen externen Server.
  • Auswirkungen der Erfindung
  • Gemäß der vorliegenden Erfindung enthält eine Sprachverarbeitungsvorrichtung: eine Öffnungszustandserkennungseinheit, die einen Öffnungszustand eines Mundes eines Benutzers erfasst; und eine Sprachinformationserfassungseinheit, die Sprachinformationen erfasst, wobei Sprachidentifikationsinformationen zum Identifizieren der Stimme eines bestimmten Benutzers zuvor registriert werden, wobei die Sprachverarbeitungsvorrichtung ferner enthält: eine Spracherkennungseinheit, die nur Sprache erkennt, die in einem Zustand ausgegeben wird, in dem der Benutzer, der registriert ist, den Mund als Sprecherstimme öffnet, auf der Grundlage des Öffnungszustands, der in der Öffnungszustandserkennungseinheit erfasst wird, der Sprachinformation, die in der Sprachinformationserfassungseinheit erfasst wird, und der Sprachidentifikationsinformation; und eine Übertragungseinheit, die Sprecherstimmeninformation, die Information der Sprecherstimme ist, die in der Spracherkennungseinheit erkannt wird, an einen externen Server überträgt, wodurch ein Kommunikationsverkehr in einer Kommunikation mit dem externen Server reduziert werden kann.
  • Ein Sprachverarbeitungsverfahren enthält: Erkennen eines Öffnungszustands eines Benutzers; Erfassen von Sprachinformation; Identifikationsinformationen, die zuvor registriert wurden, um die Stimme eines bestimmten Benutzers zu identifizieren; Erkennen der Stimme nur dann, wenn sie in einem Zustand ausgegeben wird, in dem der registrierte Benutzer den Mund als Sprecherstimme öffnet, auf der Grundlage des Öffnungszustands, der erkannt wird, der Sprachinformation, die erfasst wird, und der Identifikationsinformation; und Übertragen von Sprecherstimmeninformationen, die Informationen der Sprecherstimme sind, die erkannt wird, an einen externen Server, so dass ein Kommunikationsverkehr in einer Kommunikation mit dem externen Server reduziert werden kann.
  • Diese und andere Gegenstände, Merkmale, Aspekte und Vorteile der vorliegenden Erfindung werden aus der folgenden detaillierten Beschreibung der vorliegenden Erfindung in Verbindung mit den beigefügten Zeichnungen deutlicher hervorgehen.
  • Figurenliste
    • 1 ist ein Blockdiagramm, das ein Beispiel für eine Konfiguration einer Sprachverarbeitungsvorrichtung gemäß einer Ausführungsform 1 der vorliegenden Erfindung zeigt.
    • 2 ist ein Blockdiagramm, das ein Beispiel für eine Konfiguration der Sprachverarbeitungsvorrichtung gemäß der Ausführungsform 1 der vorliegenden Erfindung zeigt.
    • 3 ist ein Blockdiagramm, das ein Beispiel für eine Konfiguration eines Servers gemäß der Ausführungsform 1 der vorliegenden Erfindung zeigt.
    • 4 ist eine Zeichnung, die ein Beispiel für eine Hardware-Konfiguration der Sprachverarbeitungsvorrichtung gemäß der Ausführungsform 1 der vorliegenden Erfindung und einer Peripherievorrichtung illustriert.
    • 5 ist ein Flussdiagramm, das ein Beispiel für den Betrieb der Sprachverarbeitungsvorrichtung gemäß der Ausführungsform 1 der vorliegenden Erfindung illustriert.
    • 6 ist ein Flussdiagramm, das ein Beispiel für den Betrieb der Sprachverarbeitungsvorrichtung gemäß der Ausführungsform 1 der vorliegenden Erfindung zeigt.
    • 7 ist ein Blockdiagramm, das ein Beispiel für die Konfiguration einer Sprachverarbeitungsvorrichtung gemäß der Ausführungsform 2 der vorliegenden Erfindung zeigt.
    • 8 ist ein Flussdiagramm, das ein Beispiel für die Funktionsweise der Sprachverarbeitungsvorrichtung gemäß der Ausführungsform 2 der vorliegenden Erfindung zeigt.
    • 9 ist ein Blockdiagramm, das ein Beispiel einer Konfiguration eines Sprachverarbeitungssystems gemäß einer Ausführungsform der vorliegenden Erfindung illustriert.
  • Beschreibung der Ausführungsform(en)
  • Ausführungsformen der vorliegenden Erfindung werden im Folgenden anhand der Zeichnungen beschrieben.
  • <Ausführungsform 1>
  • <Konfiguration>
  • 1 ist ein Blockdiagramm, das ein Beispiel einer Konfiguration einer Sprachverarbeitungsvorrichtung 1 gemäß einer Ausführungsform 1 der vorliegenden Erfindung zeigt. 1 veranschaulicht eine minimal notwendige Konfiguration, die eine Sprachverarbeitungsvorrichtung gemäß der vorliegenden Ausführungsform darstellt.
  • Wie in 1 veranschaulicht, enthält die Sprachverarbeitungsvorrichtung 1 eine Öffnungszustandserkennungseinheit 2, eine Sprachinformationserfassungseinheit 3, eine Spracherkennungseinheit 4 und eine Übertragungseinheit 5. Die Öffnungszustandserkennungseinheit 2 erkennt einen Öffnungszustand des Mundes eines Benutzers. Die Sprachinformationserfassungseinheit 3 erfasst die Sprachinformation. Die Spracherkennungseinheit 4 erkennt nur Sprache, die in einem Zustand abgegeben wird, in dem ein registrierter Benutzer seinen Mund als Sprecherstimme öffnet, und zwar auf der Grundlage des Öffnungszustands, der in der Öffnungszustandserkennungseinheit 2 erfasst wird, der in der Sprachinformationserfassungseinheit 3 erfassten Sprachinformation und der Sprachidentifikationsinformation. Die Stimmidentifikationsinformationen sind Informationen, die zuvor registriert wurden, um die Stimme eines bestimmten Benutzers zu identifizieren. Die Übertragungseinheit 5 überträgt Sprecherstimmeninformationen, bei denen es sich um Informationen der in der Spracherkennungseinheit 4 erkannten Sprecherstimme handelt, an einen externen Server. Der externe Server kann ein KI-Assistentenserver sein.
  • Die andere Konfiguration der Sprachverarbeitungsvorrichtung, einschließlich der Sprachverarbeitungsvorrichtung 1 in 1, wird nachfolgend beschrieben.
  • 2 ist ein Blockdiagramm, das ein Beispiel für eine Konfiguration einer Sprachverarbeitungsvorrichtung 6 gemäß der anderen Konfiguration darstellt.
  • Wie in 2 dargestellt, enthält die Sprachverarbeitungsvorrichtung 6 eine Kamerabildinformationserfassungseinheit 7, eine Gesichtsbildinformationserfassungseinheit 8, eine Gesichtsidentifizierungseinheit 9, eine Öffnungsmusterinformationserfassungseinheit 10, die Öffnungszustandserkennungseinheit 2, die Sprachinformationserfassungseinheit 3, eine Sprachmusterinformationserfassungseinheit 11, eine Sprachidentifizierungseinheit 12, eine Steuerung 13 und eine Übertragungs-Empfangseinheit 14.
  • Die Kamerabildinformationserfassungseinheit 7 ist mit einer Kamera 18 verbunden und erfasst Kamerabildinformationen, die Informationen eines von der Kamera 18 aufgenommenen Kamerabildes sind.
  • Die Gesichtsbildinformationserfassungseinheit 8 ist mit einem Gesichtsbildinformationsspeicher 19 verbunden und erfasst Gesichtsbildinformationen aus dem Gesichtsbildinformationsspeicher 19. Der Gesichtsbildinformationsspeicher 19 besteht aus einem Speicher, wie z.B. einem Festplattenlaufwerk (HDD) oder einem Halbleiterspeicher, in dem zuvor Gesichtsidentifikationsinformationen zum Identifizieren des Gesichts eines bestimmten Benutzers registriert wurden. Das heißt, der Gesichtsbildinformationsspeicher 19 speichert ein Gesichtsbild eines registrierten Benutzers als Gesichtsidentifikationsinformation.
  • Die Gesichtsidentifizierungseinheit 9 prüft die in der Kamerabildinformationserfassungseinheit 7 erfassten Kamerabildinformationen gegen die in der Gesichtsbildinformationserfassungseinheit 8 erfassten Gesichtsbildinformationen, um einen im Kamerabild enthaltenen Benutzer zu identifizieren. Das heißt, die Gesichtsidentifizierungseinheit 9 identifiziert, ob der im Kamerabild enthaltene Benutzer derjenige Benutzer ist, dessen Gesichtsbild registriert ist oder nicht.
  • Die Erfassungseinheit für Öffnungsmusterinformationen 10 ist mit einem Öffnungsmusterinformationsspeicher 20 verbunden und erfasst Öffnungsmusterinformationen aus dem Öffnungsmusterinformationsspeicher 20. Bei den Öffnungsmusterinformationen handelt es sich um Informationen zum Identifizieren, ob eine Person ihren Mund öffnet oder nicht. Der Öffnungsmusterinformationsspeicher 20 besteht aus einem Speicher, wie z.B. einem Festplattenlaufwerk oder einem Halbleiterspeicher, und speichert die Öffnungsmusterinformation.
  • Die Öffnungszustandserkennungseinheit 2 erkennt den im Kamerabild enthaltenen Öffnungszustand des Benutzers auf der Grundlage der in der Kamerabildinformationserfassungseinheit 7 erfassten Kamerabildinformationen und der in der Öffnungsmusterinformationserfassungseinheit 10 erfassten Öffnungsmusterinformationen. Das heißt, die Öffnungszustandserkennungseinheit 2 erkennt, ob der im Kamerabild enthaltene Benutzer seinen Mund öffnet oder nicht.
    Die Sprachinformationserfassungseinheit 3 ist mit einem Mikrofon 21 verbunden und erfasst die Sprachinformationen vom Mikrofon 21.
  • Die Sprachmusterinformationserfassungseinheit 11 ist mit einem Sprachmusterinformationsspeicher 22 verbunden und erfasst die Sprachmusterinformationen aus dem Sprachmusterinformationsspeicher 22. Der Sprachmusterinformationsspeicher 22 besteht aus einem Speicher, wie z.B. einem Festplattenlaufwerk oder einem Halbleiterspeicher, und die Sprachidentifikationsinformation zum Identifizieren der Stimme eines bestimmten Benutzers wird zuvor darin registriert. Das heißt, der Sprachmusterinformationsspeicher 22 speichert die Sprachmusterinformation eines registrierten Benutzers als Sprachidentifikationsinformation.
  • Die Sprachidentifizierungseinheit 12 prüft die in der Sprachinformationserfassungseinheit 3 erfasste Sprachinformation gegen die in der Sprachmusterinformationserfassungseinheit 11 erfasste Sprachmusterinformation, um den Benutzer zu identifizieren, der die Stimme abgegeben hat. Das heißt, die Sprachidentifizierungseinheit 12 identifiziert, ob es sich bei dem Benutzer, der die Stimme abgegeben hat, um den Benutzer handelt, dessen Sprachmusterinformation registriert ist oder nicht.
  • Die Steuerung 13 enthält die Spracherkennungseinheit 4, eine Sprachausgabesteuerung 15 und eine Anzeigesteuerung 16. Die Spracherkennungseinheit 4 erkennt nur die Stimme, die in dem Zustand ausgegeben wird, in dem der registrierte Benutzer seinen Mund als Sprecherstimme öffnet. Die Sprachausgabesteuerung 15 ist mit einem Lautsprecher 23 verbunden und steuert den Lautsprecher 23 so, dass der Lautsprecher 23 verschiedene Arten von Stimme ausgibt. Die Anzeigesteuerung 16 ist mit einer Anzeigevorrichtung 24 verbunden und steuert die Steuerung der Anzeigevorrichtung 24, so dass die Anzeigevorrichtung 24 verschiedene Arten von Informationen anzeigt.
  • Die Übertragungs-Empfangseinheit 14 umfasst die Übertragungseinheit 5 und eine Empfangseinheit 17. Die Übertragungseinheit 5 überträgt die Sprecherstimmeninformationen, d.h. die Informationen der in der Spracherkennungseinheit 4 erkannten Sprecherstimme, an den externen Server. Die Empfangseinheit 17 empfängt Antwortinformationen, bei denen es sich um Informationen handelt, die vom externen Server als Antwort auf die Sprechersprachinformationen übertragen werden.
  • 3 ist ein Blockdiagramm, das ein Beispiel für eine Konfiguration eines Servers 25 gemäß der vorliegenden Ausführungsform 1 zeigt.
  • Wie in 3 dargestellt, enthält der Server 25 eine Übertragungs-Empfangseinheit 26 und eine Steuerung 27. Die Übertragungs-Empfangseinheit 26 ist mit der Sprachverarbeitungsvorrichtung 6 verbunden, um über eine Kommunikationsleitung miteinander kommunizieren zu können, und umfasst eine Übertragungseinheit 28 und eine Empfangseinheit 29. Die Übertragungseinheit 28 überträgt die Antwortinformation, d.h. die als Antwort auf die Sprechersprachinformation übertragene Information, an die Sprachverarbeitungsvorrichtung 6. Die Empfangseinheit 29 empfängt die Sprechersprachinformation von der Sprachverarbeitungsvorrichtung 6.
  • Die Steuerung 27 enthält eine Spracherkennungseinheit 30. Die Spracherkennungseinheit 30 analysiert eine Intention des Inhalts der Stimme, die der Benutzer von der Sprechersprachinformation aussendet, die in der Empfangseinheit 29 empfangen wird. Die Steuerung 27 erzeugt die Antwortinformation, d.h. die Information, die als Antwort auf den Inhalt der vom Benutzer ausgesendeten Stimme übertragen wird, die in der Spracherkennungseinheit 30 analysiert wird.
  • 4 ist ein Blockdiagramm, das ein Beispiel für eine Hardware-Konfiguration der in 2 dargestellten Sprachverarbeitungsvorrichtung 6 und einer Peripherievorrichtung darstellt. Dasselbe gilt für die in 1 dargestellte Sprachverarbeitungsvorrichtung 1.
  • In 4 entsprechen eine Zentraleinheit (CPU) 31 und ein Speicher 32 der in 2 dargestellten Sprachverarbeitungsvorrichtung 6. Ein Speicher 33 entspricht dem in 2 dargestellten Gesichtsbildinformationsspeicher 19, dem Öffnungsmusterinformationsspeicher 20 und dem Sprachmusterinformationsspeicher 22. Eine Ausgabevorrichtung 34 entspricht dem in 2 dargestellten Lautsprecher 23 und der Anzeigevorrichtung 24.
  • Jede Funktion der Kamerabildinformationserfassungseinheit 7, der Gesichtsbildinformationserfassungseinheit 8, der Gesichtsidentifizierungseinheit 9, der Öffnungsmusterinformationserfassungseinheit 10, der Öffnungszustandserkennungseinheit 2, der Sprachinformationserfassungseinheit 3, der Sprachmusterinformationserfassungseinheit 11, der Sprachidentifizierungseinheit 12, der Spracherkennungseinheit 4, der Sprachausgabesteuerung 15, der Anzeigesteuerung 16, der Übertragungseinheit 5 und der Empfangseinheit 17 in der Sprachverarbeitungsvorrichtung 6 wird durch eine Verarbeitungsschaltung erreicht. Das heißt, die Sprachverarbeitungsvorrichtung 6 enthält eine Verarbeitungsschaltung zum Erfassen der Kamerabildinformation, Erfassen der Gesichtsbildinformation, Identifizieren des in dem Kamerabild enthaltenen Benutzers, Erfassen der Öffnungsmusterinformation, Erkennen des Öffnungszustands, Erfassen der Sprachinformation, Erfassen der Sprachmusterinformation, Identifizieren des die Stimme aussendenden Benutzers, nur die Stimme zu identifizieren, die in dem Zustand, in dem der registrierte Benutzer seinen Mund öffnet, als Sprecherstimme ausgegeben wird, den Lautsprecher 23 so zu steuern, dass der Lautsprecher 23 die Stimme ausgibt, die Anzeigevorrichtung 24 so zu steuern, dass die Anzeigevorrichtung 24 die Informationen anzeigt, die Sprecherstimmeninformationen an den externen Server zu übertragen und die Antwortinformationen zu empfangen. Die Verarbeitungsschaltung ist die CPU 31 (auch als Zentraleinheit, eine Verarbeitungsvorrichtung, eine arithmetische Vorrichtung, ein Mikroprozessor, ein Mikrocomputer oder ein digitaler Signalprozessor (DSP) bezeichnet), die ein im Speicher 32 gespeichertes Programm ausführt.
  • Jede Funktion der Kamerabildinformationserfassungseinheit 7, der Gesichtsbildinformationserfassungseinheit 8, der Gesichtsidentifizierungseinheit 9, der Öffnungsmusterinformationserkennungseinheit 10, der Öffnungszustandserkennungseinheit 2, der Sprachinformationserfassungseinheit 3, der Sprachmusterinformationserfassungseinheit 11, der Sprachidentifizierungseinheit 12, der Spracherkennungseinheit 4, der Sprachausgabesteuerung 15, der Anzeigesteuerung 16, der Übertragungseinheit 5 und der Empfangseinheit 17 in der Sprachverarbeitungsvorrichtung 6 wird durch Software, Firmware oder eine Kombination aus Software und Firmware erreicht. Die Software oder die Firmware wird als Programm beschrieben und ist im Speicher 32 gespeichert. Die Verarbeitungsschaltung liest das im Speicher 32 gespeicherte Programm aus und führt es aus, wodurch die Funktion jeder Einheit erreicht wird. Das heißt, die Sprachverarbeitungsvorrichtung 6 enthält den Speicher 32, in dem das Programm gespeichert wird, um daraufhin Schritte auszuführen: Erfassen der Kamerabildinformationen; Erfassen der Gesichtsbildinformationen; Identifizieren des in dem Kamerabild enthaltenen Benutzers; Erkennen der Öffnungsmusterinformationen; Erfassen des Öffnungszustands; Erfassen der Sprachinformationen; Erfassen der Sprachmusterinformationen; Identifizieren des Benutzers, der die Stimme ausstrahlt; Identifizieren nur der Stimme, die in dem Zustand ausgestrahlt wird, in dem der registrierte Benutzer seinen Mund öffnet, als Sprecherstimme; Steuern des Lautsprechers 23, so dass der Lautsprecher 23 die Stimme ausgibt, Steuern der Anzeigevorrichtung 24, so dass die Anzeigevorrichtung 24 die Informationen anzeigt; Übertragen der Sprecherstimmeninformationen an den externen Server; und Empfangen der Antwortinformationen. Es wird auch davon ausgegangen, dass diese Programme einen Computer veranlassen, Prozeduren oder Verfahren der Kamerabildinformationserfassungseinheit 7, der Gesichtsbildinformationserfassungseinheit 8, der Gesichtsidentifizierungseinheit 9, der Öffnungsmusterinformationserfassungseinheit 10, der Öffnungszustandserkennungseinheit 2, der Sprachinformationserfassungseinheit 3, der Sprachmusterinformationserfassungseinheit 11, der Sprachidentifizierungseinheit 12, der Spracherkennungseinheit 4, der Sprachausgabesteuerung 15, der Anzeigesteuerung 16, der Übertragungseinheit 5 und der Empfangseinheit 17 auszuführen. Bei dem Speicher kann es sich um einen nichtflüchtigen oder flüchtigen Halbleiterspeicher, wie z.B. einen Speicher mit wahlfreiem Zugriff (RAM), einen Festwertspeicher (ROM), einen Flashspeicher, einen elektrisch programmierbaren Festwertspeicher (EPROM) oder einen elektrisch löschbaren programmierbaren Festwertspeicher (EEPROM), eine Magnetplatte, eine flexible Platte, eine optische Platte, eine Kompaktplatte, eine Minidisc oder eine DVD oder ein beliebiges Speichermedium, das in Zukunft verwendet werden soll, handeln.
  • <Betrieb>
  • 5 ist ein Flussdiagramm, das ein Beispiel für den Betrieb der Sprachverarbeitungsvorrichtung 6 zeigt, und veranschaulicht einen Vorgang der Übertragung der vom Benutzer ausgesendeten Sprache an den Server 25. Die Kamera 18 nimmt ein Bild von nur einem Benutzer auf.
  • In Schritt S101 erfasst die Kamerabildinformationserfassungseinheit 7 die Kamerabildinformationen von der Kamera 18.
  • In Schritt S102 erfasst die Gesichtsbildinformationserfassungseinheit 8 die Gesichtsbildinformationen aus dem Gesichtsbildinformationsspeicher 19.
  • In Schritt S103 prüft die Gesichtsidentifizierungseinheit 9 die in der Kamerabildinformationserfassungseinheit 7 erfassten Kamerabildinformationen mit den in der Gesichtsbildinformationserfassungseinheit 8 erfassten Gesichtsbildinformationen, um zu identifizieren, ob der im Kamerabild enthaltene Benutzer der Benutzer ist, dessen Gesichtsbild registriert ist oder nicht. Wenn festgestellt wird, dass es sich bei dem Benutzer um den Benutzer handelt, dessen Gesichtsbild registriert ist, fährt der Prozess mit Schritt S104 fort. Wenn indessen nicht festgestellt wird, dass es sich bei dem Benutzer, dessen Gesichtsbild registriert ist, um den Benutzer handelt, kehrt der Prozess zu Schritt S101 zurück.
  • In Schritt S104 erfasst die Sprachinformationserfassungseinheit 3 die Sprachinformationen vom Mikrofon 21.
  • In Schritt S105 erfasst die Sprachmusterinformationserfassungseinheit 11 die Sprachmusterinformationen aus dem Sprachmusterinformationsspeicher 22.
  • In Schritt 106 prüft die Sprachidentifizierungseinheit 12 die in der Sprachinformationserfassungseinheit 3 erfasste Sprachinformation gegen die in der Sprachmusterinformationserfassungseinheit 11 erfasste Sprachmusterinformation, um zu identifizieren, ob der Benutzer, der die Stimme abgegeben hat, der Benutzer ist, dessen Sprachmusterinformation registriert ist oder nicht. Wenn festgestellt wird, dass es sich bei dem Benutzer um den Benutzer handelt, dessen Sprachmusterinformation registriert ist, fährt der Prozess mit Schritt S107 fort. Wenn indessen nicht festgestellt wird, dass es sich bei dem Benutzer, dessen Sprachmusterinformationen registriert sind, um den Benutzer handelt, kehrt der Prozess zu Schritt S101 zurück.
  • In Schritt S107 wird bestimmt, ob der in Schritt S103 identifizierte Benutzer mit dem in Schritt S106 identifizierten Benutzer identisch ist oder nicht. Wenn festgestellt wird, dass der Benutzer identisch ist, fährt der Prozess mit Schritt S108 fort. Indessen, wenn festgestellt wird, dass der Benutzer nicht identisch ist, kehrt der Prozess zu Schritt S101 zurück.
  • In Schritt S108 erfasst die Einheit 10 zum Erfassen der Öffnungsmusterinformationen die Öffnungsmusterinformationen aus dem Öffnungsmusterinformationsspeicher 20.
  • Die Öffnungszustandserkennungseinheit 2 bestimmt anhand der in der Kamerabildinformationserfassungseinheit 7 erfassten Kamerabildinformationen und der in der Öffnungsmusterinformationserfassungseinheit 10 erfassten Öffnungsmusterinformationen, ob der im Kamerabild enthaltene Benutzer seinen Mund öffnet. Wenn der Benutzer entschlossen ist, seinen Mund zu öffnen, fährt der Prozess mit Schritt S 110 fort. Indessen, wenn der Benutzer nicht entschlossen ist, seinen Mund zu öffnen, kehrt der Prozess zu Schritt S101 zurück.
  • In Schritt S 110 extrahiert die Spracherkennungseinheit 4 die Sprachdaten in einem Zeitraum, in dem der Benutzer die Stimme abgibt. Konkret extrahiert die Spracherkennungseinheit 4 die Sprachdaten in einem Zeitraum, in dem der Benutzer seinen Mund öffnet, der in der Öffnungszustandserkennungseinheit 2 erkannt wurde, aus der Sprachinformation, die in der Sprachinformationserfassungseinheit 3 erfasst wurde.
  • In Schritt S111 extrahiert die Spracherkennungseinheit 4 nur die vom Benutzer abgegebene Stimme aus den in Schritt S110 extrahierten Sprachdaten. Konkret extrahiert die Spracherkennungseinheit 4 nur die vom Benutzer abgegebene Stimme auf der Grundlage der in Schritt S110 extrahierten Sprachdaten und der Sprachmusterinformation des Benutzers. Zu diesem Zeitpunkt wird z.B. die Stimme einer anderen Person als des Benutzers, die in den Sprachdaten enthalten ist, entfernt.
  • In Schritt S112 überträgt die Übertragungseinheit 5 die in Schritt S111 extrahierte Stimme als Sprecherstimmeninformation gemäß einem Befehl der Steuerung 13 an den Server 25.
  • Dementsprechend wird z.B. bei einem Fahrer nur die Stimme, die in einem Zustand ausgegeben wird, in dem der Fahrer den Mund öffnet, an den Server 25 übertragen. Das Gesichtsbild und die Sprachmusterinformationen des Fahrers werden zuvor registriert, und die Kamera 18 nimmt nur ein Bild des Fahrers auf. Selbst wenn in diesem Fall ein anderer Fahrgast als der Fahrer die Stimme abgibt und die Sprachidentifizierungseinheit 12 feststellt, dass der Fahrgast der registrierte Benutzer ist, ist der Fahrgast in dem Kamerabild nicht enthalten, so dass die vom Fahrgast abgegebene Stimme nicht an den Server 25 übertragen wird. Dementsprechend können nur die vom Fahrer benötigten Informationen an den Server 25 übertragen werden. Beispiele für Inhalte der vom Fahrer ausgesendeten Stimme enthalten auch Inhalte bezüglich des Fahrens.
  • 6 ist ein Flussdiagramm, das ein Beispiel für den Betrieb der Sprachverarbeitungsvorrichtung 6 zeigt, und veranschaulicht einen Vorgang des Empfangs der Antwortinformationen vom Server 25. Als Voraussetzung für den Betrieb in 6 empfängt der Server 25 die Sprechersprachinformation von der Sprachverarbeitungsvorrichtung 6, erzeugt die Antwortinformation, die als Antwort auf den Inhalt der vom Benutzer ausgesendeten Sprache übertragen wird, und überträgt die Antwortinformation an die Sprachverarbeitungsvorrichtung 6.
  • In Schritt S201 empfängt die Empfangseinheit 17 die Antwortinformationen vom Server 25.
  • In Schritt S202 steuert die Sprachausgabesteuerung 15 den Lautsprecher 23, so dass der Lautsprecher 23 eine Sprachausgabe der Antwortinformationen durchführt. Die Steuerung der Anzeigeeinheit 16 steuert die Anzeigeeinheit 24, so dass die Anzeigeeinheit 24 die Antwortinformationen anzeigt. Bei den Antwortinformationen kann es sich sowohl um die Sprachausgabe als auch um die Anzeige oder auch um eine von beiden handeln.
  • Wie oben beschrieben, wird gemäß der vorliegenden Ausführungsform 1 nur die Stimme, die in dem Zustand ausgegeben wird, in dem der registrierte Benutzer den Mund öffnet, an den Server übertragen. Dementsprechend kann ein Kommunikationsverkehr in einer Kommunikation zwischen der Sprachverarbeitungsvorrichtung und dem Server reduziert werden.
  • <Ausführungsform 2>
  • Eine Ausführungsform 2 der vorliegenden Erfindung beschreibt einen Fall, in dem eine Kamera ein Bild von einer Vielzahl von Benutzern aufnimmt und die von der Vielzahl der Benutzer ausgestrahlte Stimme an einen Server übertragen wird. Die vorliegende Ausführungsform 2 wird grob in einen Fall klassifiziert, in dem das Gesicht eines jeden Benutzers nicht identifiziert wird, und in einen Fall, in dem das Gesicht eines jeden Benutzers identifiziert wird.
  • <Fall, in dem das Gesicht eines jeden Benutzers nicht identifiziert wird>
  • 7 ist ein Blockdiagramm, das ein Beispiel für eine Konfiguration einer Sprachverarbeitungsvorrichtung 35 gemäß der vorliegenden Ausführungsform 2 zeigt.
  • Wie in 7 dargestellt, enthält die Sprachverarbeitungsvorrichtung 35 nicht die in 2 dargestellte Gesichtsbildinformationserfassungseinheit 8 und die Gesichtsidentifizierungseinheit 9. Die andere Konfiguration ist ähnlich der in der Ausführungsform 1, daher entfällt hier die Beschreibung. Die Konfiguration und der Betrieb des Servers gemäß der vorliegenden Ausführungsform 2 ähneln denen des Servers 25 in der Ausführungsform 1, weshalb die Beschreibung hier ausgelassen wird.
  • 8 ist ein Flussdiagramm, das ein Beispiel für den Betrieb der Sprachverarbeitungsvorrichtung 35 darstellt und einen Vorgang der Übertragung der vom Benutzer ausgesendeten Sprache an den Server 25 veranschaulicht. Die Kamera 18 nimmt ein Bild von der Vielzahl der Benutzer auf.
  • In Schritt S301 erfasst die Kamerabildinformationserfassungseinheit 7 die Kamerabildinformationen von der Kamera 18. Das Kamerabild enthält das Bild der Vielzahl von Benutzern.
  • In Schritt S302 erfasst die Öffnungsmusterinformationserfassungseinheit 10 die Öffnungsmusterinformationen aus dem Öffnungsmusterinformationsspeicher 20.
  • In Schritt S303 bestimmt die Öffnungszustandserkennungseinheit 2 auf der Grundlage der in der Kamerabildinformationserfassungseinheit 7 erfassten Kamerabildinformationen und der in der Öffnungsmusterinformationserfassungseinheit 10 erfassten Öffnungsmusterinformationen, ob mindestens ein Benutzer aus der Vielzahl der im Kamerabild enthaltenen Benutzer seinen Mund öffnet oder nicht. Wenn mindestens ein Benutzer entschlossen ist, seinen Mund zu öffnen, fährt der Prozess mit Schritt S304 fort. Indessen, wenn keiner von allen Benutzern entschlossen ist, seinen Mund zu öffnen, kehrt der Prozess zu Schritt S301 zurück.
  • In Schritt S304 erfasst die Sprachinformationserfassungseinheit 3 die Sprachinformation vom Mikrofon 21.
  • In Schritt S305 erfasst die Sprachmusterinformationserfassungseinheit 11 die Sprachmusterinformation aus dem Sprachmusterinformationsspeicher 22.
  • In Schritt 306 prüft die Sprachidentifizierungseinheit 12 die in der Sprachinformationserfassungseinheit 3 erfasste Sprachinformation gegen die in der Sprachmusterinformationserfassungseinheit 11 erfasste Sprachmusterinformation, um zu identifizieren, ob der Benutzer, der die Stimme abgegeben hat, der Benutzer ist, dessen Sprachmusterinformation registriert ist oder nicht. Wenn festgestellt wird, dass es sich bei dem Benutzer um den Benutzer handelt, dessen Sprachmusterinformation registriert ist, fährt der Prozess mit Schritt S307 fort. Wenn indessen nicht festgestellt wird, dass es sich bei dem Benutzer, dessen Sprachmusterinformationen registriert sind, um den Benutzer handelt, kehrt der Prozess zu Schritt S301 zurück.
  • In Schritt S307 extrahiert die Spracherkennungseinheit 4 die Sprachdaten in dem Zeitraum, in dem der Benutzer die Stimme abgibt. Konkret extrahiert die Spracherkennungseinheit 4 die Sprachdaten in dem Zeitraum, in dem der Benutzer seinen Mund öffnet, der in der Öffnungszustandserkennungseinheit 2 erkannt wurde, aus der Sprachinformation, die in der Sprachinformationserfassungseinheit 3 erfasst wurde.
  • In Schritt S308 extrahiert die Spracherkennungseinheit 4 aus den in Schritt S307 extrahierten Sprachdaten nur die vom Benutzer abgegebene Stimme. Konkret extrahiert die Spracherkennungseinheit 4 nur die vom Benutzer abgegebene Stimme auf der Grundlage der in Schritt S307 extrahierten Sprachdaten und der Sprachmusterinformationen des Benutzers. Zu diesem Zeitpunkt wird z.B. die in den Sprachdaten enthaltene Stimme einer anderen Person als des Benutzers entfernt.
  • In Schritt S309 überträgt die Übertragungseinheit 5 die in Schritt S308 extrahierte Stimme als Sprecherstimmeninformation an den Server 25 in Übereinstimmung mit einem Befehl der Steuerung 13.
  • Dementsprechend wird, wenn der Fahrer und der Beifahrer auf einem Vordersitz die Benutzer sind und nur die Sprachmusterinformation des Fahrers registriert wird, nur die Stimme, die in dem Zustand ausgesendet wird, in dem der Fahrer den Mund öffnet, an den Server 25 übertragen. Die Kamera 18 nimmt ein Bild nur des Fahrers und des Beifahrers auf dem Vordersitz auf. In diesem Fall wird die Stimme, die der Beifahrer auf dem Vordersitz ausstrahlt, nicht an den Server übertragen.
  • Wenn der Fahrer und der Beifahrer auf dem Vordersitz die Benutzer sind und die Sprachmusterinformationen des Fahrers und des Beifahrers auf dem Vordersitz registriert werden, wird nur die Stimme, die in dem Zustand ausgesendet wird, in dem mindestens einer der beiden, Fahrer und Beifahrer auf dem Vordersitz, den Mund öffnet, an den Server 25 übertragen. Die Kamera 18 nimmt ein Bild von nur dem Fahrer und dem Beifahrer auf dem Vordersitz auf. Wenn der Fahrer und der Beifahrer auf dem Vordersitz die Stimme gleichzeitig abgeben, gilt, dass nur die Stimme mit der vorher festgelegten höheren Priorität an den Server 25 übertragen wird, die Stimme in der Reihenfolge der vorher festgelegten Priorität an den Server 25 übertragen wird und die Stimme des Fahrers und des Beifahrers gleichzeitig an den Server 25 übertragen wird. In diesem Fall kann die nicht nur vom Fahrer, sondern auch vom Beifahrer auf dem Vordersitz abgegebene Stimme an den Server 25 übertragen werden. Der Inhalt der vom Beifahrer auf dem Vordersitz ausgesendeten Stimme kann Inhalte sein, die nicht das Führen des Fahrzeugs betreffen, wie z.B. ein Abspielvorgang von Musik, ein Vorgang des Musikhörens oder eine Fernbedienung der Heimelektronik im Haushalt.
  • <Fall, in dem das Gesicht jedes Benutzers identifiziert wird>
  • Der Aufbau und die Funktionsweise der Sprachverarbeitungsvorrichtung ähneln denen in der Ausführungsform 1, daher wird hier auf die Beschreibung verzichtet.
  • Wenn beispielsweise der Fahrer und der Beifahrer auf dem Vordersitz die Benutzer sind und nur das Gesichtsbild und die Sprachmusterinformationen des Fahrers vorher registriert werden, wird nur die Stimme, die in dem Zustand, in dem der Fahrer den Mund öffnet, ausgesendet wird, an den Server 25 übertragen. Die Kamera 18 nimmt nur das Bild des Fahrers und des Beifahrers auf dem Vordersitz auf. In diesem Fall wird die vom Beifahrer auf dem Vordersitz abgegebene Stimme nicht an den Server übertragen.
  • Wenn der Fahrer und der Beifahrer auf dem Vordersitz die Benutzer sind und die Gesichtsbilder und die Stimmmusterinformationen des Fahrers und des Beifahrers auf dem Vordersitz registriert werden, wird nur die Stimme, die in dem Zustand ausgesendet wird, in dem mindestens einer von Fahrer und Beifahrer auf dem Vordersitz den Mund öffnet, an den Server 25 übertragen. Die Kamera 18 nimmt nur das Bild des Fahrers und des Beifahrers auf dem Vordersitz auf. Wenn der Fahrer und der Beifahrer auf dem Vordersitz die Stimme gleichzeitig abgeben, gilt, dass nur die Stimme mit der vorher festgelegten höheren Priorität an den Server 25 übertragen wird, die Stimme in der Reihenfolge der vorher festgelegten Priorität an den Server 25 übertragen wird und die Stimme des Fahrers und des Beifahrers gleichzeitig an den Server 25 übertragen wird. In diesem Fall kann die nicht nur vom Fahrer, sondern auch vom Beifahrer auf dem Vordersitz abgegebene Stimme an den Server 25 übertragen werden. Die Stimme des Benutzers, dessen Kamerabild nicht enthalten ist, wird nicht an den Server 25 übertragen, selbst wenn das Gesichtsbild und die Sprachmusterinformationen des Benutzers registriert werden.
  • Dementsprechend wird nach der vorliegenden Ausführungsform 2 nur die Stimme in dem Zustand, in dem die Vielzahl der registrierten Benutzer den Mund aufmacht, an den Server übertragen. Dementsprechend kann der Kommunikationsverkehr in der Kommunikation zwischen der Sprachverarbeitungsvorrichtung und dem Server reduziert werden.
  • Der oben beschriebene Fall ist ein Fall, in dem die Kamera 18 das Bild des Fahrers und des Beifahrers auf dem Vordersitz aufnimmt, die Konfiguration ist jedoch nicht darauf beschränkt. Beispielsweise kann die Kamera 18 neben dem Fahrer und dem Beifahrer auf dem Vordersitz auch ein Bild von einem Beifahrer auf einem Rücksitz aufnehmen.
  • Die oben beschriebene Sprachverarbeitungsvorrichtung kann nicht nur auf eine fahrzeuginterne Navigationsvorrichtung, d.h. eine Autonavigationsvorrichtung, angewendet werden, sondern auch auf eine Navigationsvorrichtung wie z.B. eine tragbare Navigationsvorrichtung (PND), die in ein Fahrzeug eingebaut werden kann, und eine als System konstruierte Navigationsvorrichtung in geeigneter Kombination mit einem Server, der z.B. außerhalb des Fahrzeugs bereitgestellt wird, oder eine andere Vorrichtung als die Navigationsvorrichtung. In diesem Fall ist jede Funktion oder jedes konstituierende Element der Sprachverarbeitungsvorrichtung in jeder Funktion, die das oben beschriebene System aufbaut, verstreut angeordnet.
  • Insbesondere kann die Funktion der Sprachverarbeitungsvorrichtung z.B. in einer tragbaren Kommunikationsendvorrichtung angeordnet werden. Zum Beispiel enthält ein tragbares Kommunikationsendgerät 36, wie in 9 dargestellt, die Kamerabildinformationserfassungseinheit 7, die Gesichtsbildinformationserfassungseinheit 8, die Gesichtsidentifizierungseinheit 9, die Öffnungsmusterinformationserfassungseinheit 10, die Öffnungszustandserkennungseinheit 2, die Sprachinformationserfassungseinheit 3, die Sprachmusterinformationserfassungseinheit 11, die Sprachidentifizierungseinheit 12, die Spracherkennungseinheit 4, die Sprachausgabesteuerung 15, die Anzeigesteuerung 16, die Übertragungseinheit 5, die Empfangseinheit 17, die Kamera 18, das Mikrofon 21, den Lautsprecher 23 und die Anzeigevorrichtung 24. Der Gesichtsbildinformationsspeicher 19, der Öffnungsmusterinformationsspeicher 20 und der Sprachmusterinformationsspeicher 22 sind außerhalb des tragbaren Kommunikationsendgerätes 36 vorgesehen. Durch Anwendung einer solchen Konfiguration kann ein Sprachverarbeitungssystem aufgebaut werden. Dasselbe gilt für die in 7 dargestellte Sprachverarbeitungsvorrichtung 35.
  • Wie oben beschrieben, kann der Effekt, der dem in der obigen Verkörperung ähnelt, auch in der Konfiguration erzielt werden, dass jede Funktion des Sprachverarbeitungsgeräts in jeder Funktion, die das System aufbaut, verteilt angeordnet ist.
  • Software, die den Vorgang in der obigen Ausführungsform ausführt, kann z.B. auch in einen Server oder ein tragbares Kommunikationsendgerät integriert werden. Ein Sprachverarbeitungsverfahren, das erreicht wird, wenn der Server oder das tragbare Kommunikationsendgerät die Software ausführt, umfasst: Erkennen des Öffnungszustands des Benutzers; Erfassen der Sprachinformation; Identifikationsinformation, die zuvor registriert wurde, um die Stimme des bestimmten Benutzers zu identifizieren; Erkennen nur der Stimme, die in dem Zustand ausgegeben wird, in dem der registrierte Benutzer seinen Mund öffnet, als Sprecherstimme auf der Grundlage des erfassten Öffnungszustands, der erfassten Sprachinformation und der Identifikationsinformation; und Übertragen der Sprecherstimmeninformation, die die Information der erkannten Sprecherstimme ist, an den externen Server.
  • Wie oben beschrieben, kann, wenn die Software, die den Vorgang in der obigen Ausführungsform ausführt, in den Server oder das tragbare Kommunikationsendgerät integriert und betrieben wird, ein ähnlicher Effekt wie in der obigen Ausführungsform erzielt werden.
  • Nach der vorliegenden Erfindung kann jede Ausführungsform beliebig kombiniert werden, oder jede Ausführungsform kann im Rahmen der Erfindung angemessen variiert oder weggelassen werden.
  • Obwohl die vorliegende Erfindung ausführlich beschrieben wird, ist die vorstehende Beschreibung in allen Aspekten illustrativ und schränkt die Erfindung nicht ein. Es wird daher davon ausgegangen, dass zahlreiche Modifikationen und Variationen entwickelt werden können, ohne den Erfindungsumfang zu verlassen.
  • Bezugszeichenliste
  • 1
    Sprachverarbeitungsvorrichtung,
    2
    Öffnungszustandserkennungseinheit,
    3
    Sprachinformationserfassungseinheit,
    4
    Spracherkennungseinheit,
    5
    Übertragungseinheit,
    6
    Sprachverarbeitungsvorrichtung,
    7
    Kamerabildinformationserfassungseinheit,
    8
    Gesichtsbildinformationserfassungseinheit,
    9
    Gesichtsidentifizierungseinheit,
    10
    Öffnungsmusterinformationserfassungseinheit,
    11
    Sprachmusterinformationserfassungseinheit,
    12
    Sprachidentifizierungseinheit,
    13
    Steuereinheit,
    14
    Übertragungsempfangseinheit,
    15
    Sprachausgabesteuerung,
    16
    Anzeigesteuerung,
    17
    Empfangseinheit,
    18
    Kamera,
    19
    Gesichtsbildinformationsspeicher,
    20
    Öffnungsmusterinformationsspeicher,
    21
    Mikrofon,
    22
    Sprachmusterinformationsspeicher,
    23
    Lautsprecher,
    24
    Anzeigevorrichtung,
    25
    Server,
    26
    Übertragungs-Empfangseinheit,
    27
    Steuerung,
    28
    Übertragungseinheit,
    29
    Empfangseinheit,
    30
    Spracherkennungseinheit,
    31
    CPU,
    32
    Speicher,
    33
    Speicher,
    34
    Ausgabevorrichtung,
    35
    TragbaresKommunikationsendgerät

Claims (6)

  1. Eine Sprachverarbeitungsvorrichtung, umfassend: eine Öffnungszustandserkennungseinheit (2), die ausgestaltet ist, einen Öffnungszustand eines Mundes eines Benutzers zu erkennen (S303); und eine Sprachinformationserfassungseinheit (3), die derart ausgestaltet ist, die Sprachinformationen zu erfassen (S303, S304) wenn festgestellt wurde, dass der Benutzer seinen Mund öffnet, wobei Sprachidentifikationsinformationen zum Identifizieren der Stimme eines bestimmten Benutzers zuvor registriert werden, eine Sprachidentifizierungseinheit (12), die derart ausgestaltet ist, die erfasste Sprachinformation mit den Sprachidentifikationsinformationen zu vergleichen, um zu identifizieren, ob der Benutzer, der die Stimme abgegeben hat, der bestimmte Benutzer ist (S306); eine Spracherkennungseinheit (4), die dazu ausgestaltet ist, Sprache als eine Sprecherstimme zu erkennen, wenn die Sprache in einem Zustand ausgegeben wird, in dem der Benutzer der bestimmte Benutzer ist (S307); und eine Übertragungseinheit (5), die dazu ausgestaltet ist, die Sprecherstimmeninformationen, die Informationen über die in der Spracherkennungseinheit (4) erkannte Sprecherstimme sind, an einen externen Server zu übertragen (S309).
  2. Die Sprachverarbeitungsvorrichtung nach Anspruch 1, wobei Gesichtsidentifikationsinformationen zum Identifizieren eines Gesichts eines bestimmten Benutzers zuvor registriert werden, und wenn ein anhand der Gesichtsidentifikationsinformationen identifizierter Benutzer mit einem anhand der Sprachidentifikationsinformationen identifizierten Benutzer identisch ist, erkennt die Spracherkennungseinheit (4) die Sprecherstimme des Benutzers.
  3. Die Sprachverarbeitungsvorrichtung nach Anspruch 1, wobei der Benutzer eine Vielzahl von Benutzern enthält.
  4. Die Sprachverarbeitungsvorrichtung nach Anspruch 1, wobei der Benutzer ein Fahrer ist.
  5. Die Sprachverarbeitungsvorrichtung nach Anspruch 1, ferner umfassend eine Empfangseinheit (17), die Antwortinformationen empfängt, bei denen es sich um Informationen handelt, die vom externen Server als Antwort auf die Sprachinformationen des Sprechers übertragen werden.
  6. Ein Sprachverarbeitungsverfahren, umfassend: Erkennen eines Öffnungszustands eines Mundes eines Benutzers (S303); Erfassen von Sprachinformationen (S303, S304), wenn festgestellt wurde, dass der Benutzer seinen Mund öffnet; zuvor Registrieren von Sprachidentifikationsinformationen zum Identifizieren der Stimme eines bestimmten Benutzers; Vergleichen der erfassten Sprachinformation mit den Sprachidentifikationsinformationen, um zu identifizieren, ob der Benutzer, der die Stimme abgegeben hat, der bestimmte Benutzer ist (S306); Erkennen der Sprache als Sprecherstimme, wenn die Sprache in einem Zustand ausgegeben wird, in dem der Benutzer der bestimmte Benutzer ist (S307); und Übertragen von Sprecherstimmeninformationen, bei denen es sich um Informationen über die erkannte Sprecherstimme handelt, an einen externen Server (S309).
DE112018006597.9T 2018-03-13 2018-03-13 Sprachverarbeitungsvorrichtung und Sprachverarbeitungsverfahren Active DE112018006597B4 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/009699 WO2019175960A1 (ja) 2018-03-13 2018-03-13 音声処理装置および音声処理方法

Publications (2)

Publication Number Publication Date
DE112018006597T5 DE112018006597T5 (de) 2020-09-03
DE112018006597B4 true DE112018006597B4 (de) 2022-10-06

Family

ID=67906519

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112018006597.9T Active DE112018006597B4 (de) 2018-03-13 2018-03-13 Sprachverarbeitungsvorrichtung und Sprachverarbeitungsverfahren

Country Status (3)

Country Link
US (1) US20210005203A1 (de)
DE (1) DE112018006597B4 (de)
WO (1) WO2019175960A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210042520A (ko) * 2019-10-10 2021-04-20 삼성전자주식회사 전자 장치 및 이의 제어 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000187499A (ja) 1998-12-24 2000-07-04 Fujitsu Ltd 音声入力装置及び音声入力方法
US20020135618A1 (en) 2001-02-05 2002-09-26 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
WO2003065350A1 (en) 2002-01-30 2003-08-07 Koninklijke Philips Electronics N.V. Audio visual detection of voice activity for speech recognition system

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07306692A (ja) * 1994-05-13 1995-11-21 Matsushita Electric Ind Co Ltd 音声認識装置及び音声入力装置
JP2007219207A (ja) * 2006-02-17 2007-08-30 Fujitsu Ten Ltd 音声認識装置
KR20180019752A (ko) * 2008-11-10 2018-02-26 구글 엘엘씨 멀티센서 음성 검출
JP5323770B2 (ja) * 2010-06-30 2013-10-23 日本放送協会 ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
US10875525B2 (en) * 2011-12-01 2020-12-29 Microsoft Technology Licensing Llc Ability enhancement
US9996628B2 (en) * 2012-06-29 2018-06-12 Verisign, Inc. Providing audio-activated resource access for user devices based on speaker voiceprint
US11322159B2 (en) * 2016-01-12 2022-05-03 Andrew Horton Caller identification in a secure environment using voice biometrics
US20210233652A1 (en) * 2017-08-10 2021-07-29 Nuance Communications, Inc. Automated Clinical Documentation System and Method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000187499A (ja) 1998-12-24 2000-07-04 Fujitsu Ltd 音声入力装置及び音声入力方法
US20020135618A1 (en) 2001-02-05 2002-09-26 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
WO2003065350A1 (en) 2002-01-30 2003-08-07 Koninklijke Philips Electronics N.V. Audio visual detection of voice activity for speech recognition system

Also Published As

Publication number Publication date
DE112018006597T5 (de) 2020-09-03
WO2019175960A1 (ja) 2019-09-19
US20210005203A1 (en) 2021-01-07

Similar Documents

Publication Publication Date Title
DE112018005421B4 (de) System und verfahren zum automatischen blockieren von in einem audio-datenstrom enthaltenen sensiblen informationen
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE60005326T2 (de) Erkennungseinheiten mit komplementären sprachmodellen
DE102018113034A1 (de) Stimmenerkennungssystem und stimmenerkennungsverfahren zum analysieren eines befehls, welcher mehrere absichten hat
DE112018002857T5 (de) Sprecheridentifikation mit ultrakurzen Sprachsegmenten für Fern- und Nahfeld-Sprachunterstützungsanwendungen
DE102019119171A1 (de) Spracherkennung für fahrzeugsprachbefehle
DE102014017384B4 (de) Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung
DE60128270T2 (de) Verfahren und System zur Erzeugung von Sprechererkennungsdaten, und Verfahren und System zur Sprechererkennung
DE102014109121A1 (de) Systeme und Verfahren zur Arbitrierung eines Sprachdialogdienstes
DE112018007847B4 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm
DE102018103188A1 (de) Verbesserte Aufgabenerledigung bei der Spracherkennung
DE102014118450A1 (de) Audiobasiertes System und Verfahren zur Klassifikation von fahrzeuginternem Kontext
EP3430615A1 (de) Fortbewegungsmittel, system und verfahren zur anpassung einer länge einer erlaubten sprechpause im rahmen einer spracheingabe
DE112014006795B4 (de) Spracherkennungssystem und Spracherkennungsverfahren
DE10163814A1 (de) Verfahren und Einrichtung zur Nutzeridentifizierung
WO2000005709A1 (de) Verfahren und vorrichtung zur erkennung vorgegebener schlüsselwörter in gesprochener sprache
DE112018006597B4 (de) Sprachverarbeitungsvorrichtung und Sprachverarbeitungsverfahren
DE102020130041A1 (de) Verbergen von phrasen in über luft laufendem audio
EP3735688B1 (de) Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zum verarbeiten einer spracheingabe, kraftfahrzeug und nutzerendgerät mit einer sprachverarbeitung
EP2907048B1 (de) Kraftwagen mit einem sprachübersetzungssystem
DE102019133133B4 (de) Assistenzsystem, durch welches in einem Raum die Ausgabe von zumindest einem Medieninhalt gesteuert wird, Kraftfahrzeug und Betriebsverfahren für das Assistenzsystem
DE102006045719B4 (de) Medizinisches System mit einer Spracheingabevorrichtung
EP4047499A1 (de) Verfahren zur sprachsteuerung, system zur sprachsteuerung sowie fahrzeug mit einem system zur sprachsteuerung
DE102009027253A1 (de) Anordnung und Verfahren zur Bedienung eines Media-Gerätes
DE102017122298A1 (de) Dynamisches Einstellen eines Spracherkennungssystems

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015040000

Ipc: G10L0017000000

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0017000000

Ipc: G10L0017100000

R016 Response to examination communication
R084 Declaration of willingness to licence
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R081 Change of applicant/patentee

Owner name: MITSUBISHI ELECTRIC MOBILITY CORPORATION, JP

Free format text: FORMER OWNER: MITSUBISHI ELECTRIC CORPORATION, TOKYO, JP