DE10063796B4

DE10063796B4 - Verfahren zur Sprechererkennung für Sicherheitssysteme in Kombination mit Spracherkennung

Info

Publication number: DE10063796B4
Application number: DE2000163796
Authority: DE
Inventors: Fritz Dr. Class; Guido Dipl.-Phys. Kolano
Original assignee: DaimlerChrysler AG
Current assignee: Mercedes Benz Group AG
Priority date: 2000-12-21
Filing date: 2000-12-21
Publication date: 2005-06-09
Anticipated expiration: 2020-12-22
Also published as: DE10063796A1

Abstract

Verfahren zur Sprechererkennung in Kombination mit Spracherkennung,
wobei durch einen Spracherkenner die vom Benutzer gesprochene Zugangsberechtigung erkannt wird und durch die Sprechererkennung geprüft wird, wer der Sprecher ist und ob es der richtige Sprecher ist,
und wobei die vom Spracherkenner akzeptierte Zugangsberechtigung durch die Sprechererkennung überprüft wird,
dadurch gekennzeichnet,
dass zur Überprüfung der Zugangsberechtigung ein beliebiger aus mehreren sprecherabhängigen oder sprecherunabhängigen Kombinationen von Sprach- und Sprechererkennern ausgewählt werden kann.

Description

Die Erfindung betrifft ein Verfahren zur Sprechererkennung für Sicherheitssysteme nach dem Oberbegriff des Patentanspruch 1.
Das Themengebiet Sprechererkennung untergliedert sich in die Teilgebiete Sprecherverifikation und Sprecheridentifikation. Bei der Verifikation wird entschieden, ob ein Sprecher derjenige ist, der er zu sein vorgibt. Die Identifikation ermittelt aus einer Gruppe von bekannten Sprechern einen bestimmten Sprecher. Das Themengebiet ist eng verwandt mit der Spracherkennung; d.h. in beiden Fällen ist die Eingabe ein akustisches Signal, das automatisch von einer Maschine (Computer) analysiert und ausgewertet wird.
Die vorliegende Erfindung findet beispielsweise Anwendung bei der Zugangskontrolle für sicherheitskritische Anlagen und Telebanking zum Ausführen von Konto-Transaktionen. Neben anderen Merkmalen wie Fingerabdrücken Gesichtserkennung etc. wird heutzutage auch die menschliche Stimme als zusätzliches Erkennungsmerkmal herangezogen. Dazu muss der Benutzer eine Zugangsberechtigung, z.B. ein Passwort oder eine Identifikationsnummer (PIN) sprechen. Bei derartigen Anwendungen ist es von größter Bedeutung, dass die Falschakzeptanzrate, d.h. das Akzeptieren eines falschen Benutzers, äußerst gering ist.
Bekannte Verfahren sind in der Lage, zwei Sprecher voneinander zu unterscheiden, wenn beide dieselbe Äußerung sprechen, d.h. wenn z.B. das richtige Passwort benutzt wird. Bei fremden Texten, auf die das System nicht eingestellt wurde, steigt die Fehlerrate (Falschakzeptanzrate) zum Teil stark an. Der Grund liegt darin, dass der fremde Text im Merkmalsraum sehr weit vom richtigen Passwort entfernt liegt. Aus einer sehr entfernten Perspektive ist es für das System nur schwer möglich, richtige und falsche Sprecher auseinander zu halten, da die Unterschiede verschwimmen.

Aus der Schrift EP 0 686 297 B1 ist ein Verfahren zur Sprechererkennung für Sicherheitssysteme in Kombination mit Spracherkennung bekannt. Hierbei wird bei einem Spracherkenner die vom Benutzer gesprochene Zugangsberechtigung (zum Beispiel für ein Telekommunikationsnetz) erkannt. Durch die Sprechererkennung wird geprüft, wer der Sprecher ist und ob es der richtige Sprecher ist. Hierbei wird in vorteilhafter Weise die vom Spracherkenner akzeptierte Zugangsberechtigung durch die Sprechererkennung überprüft.

Die deutsche Offenlegungsschrift DE 196 35 754 A1 zeigt ein Sprachverarbeitungssystem, welches eine beliebige Anzahl von Spracherkennungsmodulen und Sprachausgabemodule aufweist. Diese Module können je nach Anwendungssituation ausgewählt werden. Die Spracherkennungsmodule können somit an die unterschiedlichsten, kontextabhängigen Sprachinformationen angepasst. So eignet sich beispielsweise für die Erkennung von Telefonnummern besonders ein Ziffernkettenerkenner oder ein auf fließende Sprache trainierter Erkenner zur Erkennung komplexer Eingaben. Diese Algorithmen sind also den zu erwartenden, kontextspezifischen Sprachinhalt optimierbar.

Der Erfindung liegt deshalb die Aufgabe zugrunde, durch die Kombination von Sprach- und Sprechererkennung die Falschakzeptanzrate zu minimieren und ein Verfahren anzugeben, das für verschiedene Verfahren der Sprechererkennung und Spracherkennung einsetzbar ist.

Die Erfindung ist im Patentanspruch 1 beschrieben. Vorteilhafte Ausgestaltungen und Wieterbildungen sind in den Unteransprüchen angegeben.

Die Erfindung hat den Vorteil, dass bei der Spracherkennung sowohl das Erkennungsergebnis als auch ein Glaubwürdigkeitsmaß für die Entscheidungsfindung herangezogen wird und dadurch die Falschakzeptanzrate erniedrigt wird. Bei Verwendung eines sprecherunabhängigen Spracherkenners wird die Falschakzeptanzrate dadurch verringert, dass die erkannte und auf Glaubwürdigkeit geprüfte Zugangsberechtigung an das Sprechererkennungssystem weitergegeben und durch die Sprecherverifikation überprüft wird. Bei Verwendung eines sprecherabhängigen Spracherkenners ist das System bereits auf einen speziellen Sprecher adaptiert und der Spracherkenner kann sowohl die Richtigkeit der Zugangsberechtigung überprüfen als auch über das Glaubwürdigkeitsmaß eine Vorabsprechererkennung durchführen. Dadurch wird bei der nachfolgenden Sprechererkennung die Erkennungsrate erheblich gesteigert.

Die Erfindung wird im folgenden anhand von Ausführungsbeispielen unter Bezugnahme auf eine schematische Zeichnung beschrieben.
In 1 ist die Kombination von Sprechererkennung, sprecherunabhängigem und sprecherabhängigem Spracherkenner dargestellt.
Ein sprecherunabhängiger Spracherkenner ist so gestaltet, daß er für beliebige Sprecher und beliebiges Vokabular möglichst gleich gute Erkennungsraten hat. Die zu erkennenden Wörter (das Vokabular) müssen jedoch in phonetischer Umschrift in einem Lexikon enthalten sein. Unter einem sprecherabhängigen Spracherkenner soll ein Erkenner verstanden werden, der von einem speziellen Sprecher für spezielle Wörter trainiert wird. Dieser Spracherkenner hat kein vorab integriertes Lexikon. Die zu erkennenden Wörter werden in der Anwendung definiert und durch Vorsprechen trainiert. Es werden sprecherabhängige Referenzmuster gebildet.

1. Wird die Sprechererkennung gemäß 1 mit einem sprecherunabhängigen Spracherkenner kombiniert, wird die eingegebene Zugangsberechtigung im Spracherkenner über ein Steuerprogramm erkannt und auf Glaubwürdigkeit (Konfidenz) geprüft. Das Glaubwürdigkeitsmaß (Konfidenz) wird mit bekannten Verfahren wie z.B. Normalverteilungs-, Polynom- oder Neuronal-Netzwerk-Klassifkatoren bestimmt. Ein erkanntes, segmentiertes Sprachsignal wird an die Sprechererkennung weitergegeben. Über ein Steuerprogramm wird der Sprechererkenner derart gesteuert, daß zuerst ein geeignetes Verifikationsverfahren gewählt wird, dann das Training einmalig und anschließend die Erkennung mit der mehrmals vom Benutzer in einer Trainingsphase eingesprochenen Zugangsberechtigung erfolgt. Das erkannte, segmentierte Sprachsignal des Erkenners wird mit bekannten Verifikationsverfahren, z.B. Gaussmodellen, auf Glaubwürdigkeit (Konfidenz) geprüft. Die Zugangsberechtigung für Benutzer kann auf unterschiedliche Weise vom Sicherheitssystem angefordert werden. 1.1. Es wird eine feste Zugangsberechtigung, z.B. ein Passwort verwendet, das für alle Sprecher gleich oder für jeden Sprecher individuell verschieden sein kann. Das Passwort verändert sich nicht oder wird nur in größeren Zeitabschnitten verändert, z.B. wöchentlich, monatlich. Der Benutzer spricht in einer Trainingsphase für die Verifikation das Passwort mehrfach ein. Dabei ist ihm das Passwort bekannt. Für den Spracherkenner ist kein Training erforderlich. Das Passwort ist im Lexikon eingebaut. 1.1.1. Das Lexikon des Spracherkenners besteht im einfachsten Fall nur aus dem einen Passwort. Die Entscheidung des Spracherkenners, ob das richtige Passwort gesprochen wurde, basiert dann auf einem Glaubwürdigkeitsmaß, das bei der Erkennung berechnet wird. In Abhängigkeit von einem Schwellwert wird das Passwort akzeptiert oder zurückgewiesen. 1.1.2. Das Lexikon besteht aus dem Passwort und zusätzlich aus Garbagewörtern (z.B. Füllwörter wie „bitte", „und", und/oder Geräusche). Durch spezielle Definition dieser Garbagewörter kann der Spracherkenner im Wordspottingmodus betrieben werden, d.h. um das eigentliche Passwort herum können zusätzliche Wörter, Geräusche etc. auftreten. Der Spracherkenner wertet jedoch nur das Passwort aus. Im einfachsten Fall können dadurch Umgebungsgeräusche ausgefiltert werden. Auch hier wird das Glaubwürdigkeitsmaß zur Entscheidung herangezogen. Für die Sprechererkennung wird ebenfalls nur das Passwort verwendet, d.h. der Spracherkenner reicht nur das herausgefilterte Passwort zur Verifikation an den Sprechererkenner weiter. 1.2. Es gibt Anwendungen, wo jedesmal eine neue Zugangsberechtigung, z.B. ein Passwort verlangt wird, um zu verhindern, daß Unbefugte durch das Aufzeichnen von Stimme und Passwort Zugang erlangen können. Dabei wird das Passwort vom System vorgegeben, wobei dieses Passwort, z.B. aus Ziffernfolgen aufgebaut wird. Dies hat den Vorteil, daß der Benutzer für die Verifikation nur einmalig eine Trainingsphase zu absolvieren hat, bei der verschiedene Ziffernkombinationen vorzusprechen sind. Die Spracherkennung ist auch hier sprecherunabhängig. Das Lexikon besteht aus Ziffern und zusätzlichen Garbagewörtern wie in 1.1.2. Werden unterschiedliche Wörter anstatt Ziffernfolgen als Passwort verwendet, sind die nicht benutzten Passwörter im Lexikon als Garbagewörter enthalten. 1.3. Es wird eine vom Benutzer definierte Zugangsberechtigung, z.B. ein Passwort in das System eingegeben. Wenn der Benutzer das Passwort selbst eingibt (z.B. durch Eintippen über Tastatur), ist es nicht möglich, dieses Passwort vorab ins Lexikon des Spracherkenners zu integrieren. In diesem Fall ist das Lexikon dynamisch aufgebaut, entweder durch Zugriff auf ein großes Hintergrundlexikon, in dem das Passwort enthalten ist, oder durch automatische Transkription, d.h. automatische Umsetzung der orthografischen Schreibweise in die phonetische Beschreibung. Ein Training ist auch hier nur für die Verifikation der Sprechererkennung , nicht für die Spracherkennung, nötig.
2. Durch die Kombination der Sprechererkennung mit einem sprecherabhängigen Spracherkenner gemäß 1 läßt sich die Systemleistung noch weiter erhöhen. Da der Spracherkenner auf einen speziellen Sprecher adaptiert ist, wird mit dem Erkenner nicht nur die Richtigkeit der Zugangsberechtigung überprüft, sondern über das Glaubwürdigkeitsmaß wird auch eine gewisse Sprecherverifikation durchgeführt. In Verbindung mit der eigentlichen Sprecherverifikation läßt sich die Erkennungsrate noch erheblich steigern. Das Training erfolgt gleichzeitig für Spracherkenner und Sprechererkenner, d.h. für den Benutzer entsteht kein Mehraufwand. Die Zugangsberechtigung wird bei Eingabe mehrfach gesprochen und das Sprachsignal wird parallel für Spracherkennertraining und Verifikationstraining des Sprechererkenners verwendet, indem das Sprachsignal über den Spracherkenner an den Sprechererkenner weitergeleitet wird. Über ein Steuerprogramm erfolgt die Wahl des Verifikationsverfahrens, das Training, die Erkennung und die Glaubwürdigkeitsprüfung (Konfidenzprüfung) von Spracherkennung und Sprecherverifikation. Die Zugangsberechtigung für Benutzer, z.B. ein Passwort, kann auf unterschiedliche Weise vom Sicherheitssystem angefordert werden. 2.1. Es wird ein vom Benutzer definiertes Passwort eingegeben. Das Passwort wird vom Benutzer selbst gewählt. Es ist keine orthografische Beschreibung (Tastatureingabe) notwendig, da das Passwort für das Sprach- und Sprechererkennertraining bereits eingesprochen wurde. 2.2. Das System gibt das Passwort vor. Training und Erkennung von Sprach- und Sprechererkenner erfolgen wie oben beschrieben, auch unter Auswertung von Glaubwürdigkeitsmaßen. Der Erkenner benötigt dabei kein Lexikon.
3. Das Ergebnis der Sprach- und Sprechererkennung wird über ein Steuerprogramm an die Ausgabe zur Benutzerführung weitergegeben. Die Benutzerführung kann über ein Display oder durch Sprachausgabe, z.B. Text-to Speech oder Sprachwiedergabe, oder einer Kombination von Display und Sprachwiedergabe erfolgen.

Die Erfindung ist nicht auf die angegebenen Ausführungsbeispiele beschränkt, sondern kann abhängig von unterschiedlichen Anforderungen aus der Anwendung verschiedenartig ausgestaltet werden.

Claims

Verfahren zur Sprechererkennung in Kombination mit Spracherkennung, wobei durch einen Spracherkenner die vom Benutzer gesprochene Zugangsberechtigung erkannt wird und durch die Sprechererkennung geprüft wird, wer der Sprecher ist und ob es der richtige Sprecher ist, und wobei die vom Spracherkenner akzeptierte Zugangsberechtigung durch die Sprechererkennung überprüft wird, dadurch gekennzeichnet, dass zur Überprüfung der Zugangsberechtigung ein beliebiger aus mehreren sprecherabhängigen oder sprecherunabhängigen Kombinationen von Sprach- und Sprechererkennern ausgewählt werden kann.
Vorrichtung zur Sprechererkennung in Kombination mit Spracherkennung, umfassend einen Spracherkennungsmodul, welches die vom Benutzer gesprochene Zugangsberechtigung erkennt, sowie ein Modul zur Sprechererkennung, welches prüft, wer der Sprecher ist und ob es der richtige Sprecher ist, und wobei eine Einheit vorgesehen ist, mittels welcher die vom Spracherkenner akzeptierte Zugangsberechtigung durch die Sprechererkennung überprüft wird, dadurch gekennzeichnet, dass die Einheit zur Überprüfung der Zugangsberechtigung auf einen beliebigen aus einer Mehrzahl von in einer Speichereinheit abgelegten sprecherabhängigen oder sprecherunabhängigen Kombinationen von Sprach- und Sprechererkennern zugreifen kann.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß für die Sprechererkennung die Zugangsberechtigung vom Benutzer in einer Trainingsphase in das Verifikationssystem eingesprochen wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß ein sprecherunabhängiger Spracherkenner mit einem Lexikon verwendet wird.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß vom Benutzer eine vom System festvorgegebene Zugangsberechtigung in den Spracherkenner eingegeben wird, und daß ein erkanntes, segmentiertes Sprachsignal an die Sprechererkennung weitergeleitet wird.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß in das Lexikon des Spracherkenners die Zugangsberechtigung eingegeben wird, daß für die vom Spracherkenner erkannte Zugangsberechtigung ein Glaubwürdigkeitsmaß berechnet wird, und daß in Abhängigkeit des Schwellwertes des Glaubwürdigkeitsmaßes die erkannte Zugangsberechtigung akzeptiert oder zurückgewiesen wird.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß bei jedem Zugriff des Benutzers auf das System eine vom System geänderte Zugangsberechtigung eingegeben wird, und ein erkanntes, segmentiertes Sprachsignal an die Sprechererkennung weitergeleitet wird.
Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß vom Benutzer in der Trainingsphase für die Verifikation die aktuelle Zugangsberechtigung eingesprochen wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß in das Lexikon des Spracherkenners die Zugangsberechtigung und Garbagewörter aufgenommen werden, daß die Spracherkennung im Wordspotting Modus durchgeführt wird und lediglich die Zugangsberechtigung über den Spracherkenner ausgewertet wird, daß für die vom Spracherkenner erkannte Zugangsberechtigung ein Glaubwürdigkeitsmaß berechnet wird, und daß in Abhängigkeit des Schwellwertes des Glaubwürdigkeitsmaßes die erkannte Zugangsberechtigung akzeptiert oder zurückgewiesen wird.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß eine Benutzer definierte Zugangsberechtigung in den Spracherkenner eingegeben wird, und daß ein erkanntes, segmentiertes Sprachsignal an die Sprechererkennung weitergeleitet wird.
Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß das Lexikon des Spracherkenners dynamisch aufgebaut wird durch Zugriff auf ein Lexikon, das die Zugangsberechtigung enthält, daß die Spracherkennung im Wordspotting Modus durchgeführt wird und lediglich die Zugangsberechtigung über den Spracherkenner ausgewertet wird, daß für die vom Spracherkenner erkannte Zugangsberechtigung ein Glaubwürdigkeitsmaß berechnet wird, und daß in Abhängigkeit des Schwellwertes des Glaubwürdigkeitsmaßes die erkannte Zugangsberechtigung akzeptiert oder zurückgewiesen wird.
Verfahren nach den Ansprüchen 1 oder 2, dadurch gekennzeichnet, daß ein sprecherabhängiger Spracherkenner verwendet wird, daß das Training für den Spracherkenner und die Sprechererkennung gleichzeitig erfolgt, indem die Zugangsberechtigung mehrfach vom Benutzer in das System eingesprochen wird und das Sprachsignal über den Spracherkenner an den Sprechererkenner weitergeitet wird.
Verfahren nach Anspruch 11, dadurch gekennzeichnet, daß mit dem Spracherkenner über das Glaubwürdigkeitsmaß der Erkennung der Zugangsberechtigung eine Sprecherverifikation durchgeführt wird.
Verfahren nach Anspruch 11, dadurch gekennzeichnet, daß eine Benutzer definierte Zugangangsberechtigung in das System eingegeben wird.
Verfahren nach Anspruch 11, dadurch gekennzeichnet, daß eine vom System fest vorgegebene Zugangsberechtigung in das System eingegeben wird.
Verfahren nach Anspruch 11, dadurch gekennzeichnet, daß bei jedem Zugriff des Benutzers auf das System eine vom System geänderte Zugangsberechtigung in das System eingegeben wird.
Verfahren nach Anspruch 11, dadurch gekennzeichnet, daß über ein Steuerprogramm die Wahl des Verifikationsverfahrens erfolgt und das Training, die Erkennung und die Glaubwürdigkeitsprüfung (Konfidenzprüfung) von Spracherkennung und Sprechererkennung gesteuert wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Benutzerführung des Systems durch Sprachausgabe oder visuell über ein Display erfolgt.