DE60318544T2

DE60318544T2 - Sprachmodell für die Spracherkennung

Info

Publication number: DE60318544T2
Application number: DE60318544T
Authority: DE
Inventors: Kwangil Hwang; Eric Fieleke
Original assignee: Nuance Communications Inc
Current assignee: Nuance Communications Inc
Priority date: 2002-11-15
Filing date: 2003-11-14
Publication date: 2009-01-22
Anticipated expiration: 2023-11-15
Also published as: EP1429313A2; US7584102B2; DE60318544D1; EP1429313A3; US20040098263A1; EP1429313B1

Description

Das vorliegende Dokument richtet sich auf ein Sprachmodell zur Verwendung bei der Spracherkennung.
Ein Spracherkennungssystem analysiert die Rede eines Nutzers zur Bestimmung des Gesprochenen. Die meisten Spracherkennungssysteme arbeiten mit Frames. In einem solchen System teilt ein Prozessor ein Signal, das die zu erkennende Rede beschreibt, in eine Reihe digitaler Abschnitte, d. h. Frames, die jeweils einem kleinen Zeitinkrement des Gesprochenen entsprechen.
Ein Spracherkennungssystem kann ein „diskretes" System mit der Erkennung von abgegrenzten Wörtern oder Phrasen sein, wobei der Nutzer jedoch zwischen jedem Einzelwort bzw. jeder Einzelphrase eine kurze Pause lassen muss. Alternativ dazu kann ein Spracherkennungssystem ein „kontinuierliches" System sein und erkennt gesprochene Wörter bzw. Phrasen unabhängig davon, ob der Nutzer Pausen zwischen diese setzt. Kontinuierliche Spracherkennungssysteme haben typischerweise eine höhere Fehlerrate als diskrete Spracherkennungssysteme, da die Erkennung eines kontinuierlichen Redeflusses komplexer ist.
Der Prozessor eines kontinuierlichen Spracherkennungssystems analysiert generell gesprochene „Äußerungen". Eine Äußerung umfasst eine variable Anzahl von Frames und entspricht beispielsweise einer Sprechperiode, der eine Pause von mindestens vorherbestimmter Dauer folgt.
Der Prozessor bestimmt das vom Nutzer Gesprochene durch das Abrufen akustischer Modelle, die mit den digitalen Frames einer Äußerung am besten übereinstimmen, und durch die Identifizierung von Text, der diesen akustischen Modellen entspricht. Ein akustisches Modell kann einem Wort, einer Phrase oder einem Befehl aus einem Vokabular entsprechen. Ein akustisches Modell kann auch einen Klang oder ein Phonem darstellen, der bzw. das einem Teil eines Wortes entspricht. Die ein Wort konstituierenden Phoneme stellen zusammengenommen die phonetische „Schreibweise" dieses Wortes dar. Akustische Modelle können auch Stille und verschiedene Arten von Umgebungsrauschen abbilden.
Die Wörter bzw. Phrasen, die den am besten übereinstimmenden akustischen Modellen entsprechen, werden als Erkennungskandidaten bezeichnet. Der Prozessor kann für eine Äußerung einen einzelnen Erkennungskandidaten oder eine Liste von Erkennungskandidaten erzeugen. Bei der Erzeugung dieser Wort- bzw. Phrasenkandidaten kann der Prozessor ein Sprachmodell verwenden, das die Häufigkeit (Frequenz) berücksichtigt, in der Wörter typischerweise im Verhältnis zu einem anderen Wort verwendet werden.
Ein wissenschaftlicher Artikel von Nisimura et al („Automatic N-gram Language Model Creation from Web Resources” [Automatische N-gram-Sprachmodellerstellung aus Internetressourcen], Eurospeech 2001, S. 2127–2130) offenbart einen automatischen Aufbau eines Sprachmodells aus im Internet vorliegendem Text zur kontinuierlichen Spracherkennung. In dem offenbarten Verfahren werden Internet-Seiten durch schlüsselwortgestützte Internet-Suchdienste identifiziert. Aus den so identifizierten Internet-Quellen wird Text abgerufen und auf Grundlage dieses Textes wird ein Sprachmodell generiert. Die Hauptansprüche gehen über dieses Dokument hinaus.
Ein Artikel von Ido et al („Robotic Receptionist ASKA: A Research Platform for Human-Robot Interaction” [ASKA-Roboterrezeption: Forschungsplattform für Mensch-Roboter-Interaktion] in Proceedings of the 2002 IEEE Int. Workshop an Robot and Human Interactive Communication, S. 306–311) offenbart ein robotertechnisches Begrüßungssystem inklusive Spracherkenner mit einem Sprachmodell, das auf Grundlage von mit Internet-Suchseiten gesammeltem Text und Text aus Mailing-Listen generiert wird.
Gemäß einem Aspekt der vorliegenden Erfindung wird ein Verfahren zum Aufbau eines Sprachmodells nach Anspruch 1 und ein Verfahren zum Aufbau eines Sprachmodells nach Anspruch 4 zur Verfügung gestellt.
Gemäß einem anderen Aspekt der vorliegenden Erfindung wird ein Computerprogramm zum Aufbau eines Sprachmodells nach Anspruch 10 zur Verfügung gestellt.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein System zum Aufbau eines Sprachmodells zur Verwendung bei der Spracherkennung nach Anspruch 11 und Anspruch 12 zur Verfügung gestellt.
Der Aufbau eines Sprachmodells für den Einsatz bei der Spracherkennung beinhaltet die Identifikation einer auf einen Nutzer bezogenen Textquelle. Aus der identifizierten Textquelle wird Text abgerufen und aus dem abgerufenen Text wird ein auf den Nutzer bezogenes Sprachmodell aufgebaut.
Realisierungen können eines oder mehrere der folgenden Merkmale beinhalten. Beispielsweise lassen sich vom Nutzer gesendete E-Mails ohne Nutzerinteraktion als Textquelle identifizieren. Die E-Mails können durchgescannt werden, um aus diesen E-Mails Wörter zu identifizieren und aus diesen gescannten Wörtern diejenigen auszuwählen, die für den Aufbau des Sprachmodells verwendet werden.
Vom Nutzer erstellte Dokumente, Dokumente, die an einem bestimmten Ort auf einem Computer des Nutzers abgespeichert sind, und/oder Kontaktinformationen des Nutzers werden ohne Interaktion des Nutzers als Textquelle identifiziert. Aus den Kontaktinformationen des Nutzers können Namen abgerufen und gescannt werden, um Namen zu identifizieren, die nicht in einem Vokabular von Wörtern enthalten sind. Die identifizierten Namen können ohne Interaktion des Nutzers in das Vokabular eingetragen werden.
Der abgerufene Text kann gescannt werden, um aus dem Text Wörter zu identifizieren, die nicht in einem Vokabular von Wörtern enthalten sind, und die identifizierten Wörter können ohne Interaktion des Nutzers ins Vokabular eingetragen werden.
Der abgerufene Text kann gescannt werden, um aus dem Text Wörter zu identifizieren, die nicht in einem Vokabular von Wörtern enthalten sind, worauf die identifizierten Wörter dem Nutzer angezeigt werden können. Der Nutzer kann dazu aufgefordert werden, eine Auswahl von ins Vokabular einzutragenden Wörtern zu treffen, und die vom Nutzer ausgewählten Wörter können ins Vokabular eingetragen werden.
Das Sprachmodell kann dadurch aufgebaut werden, dass mit dem abgerufenen Text Unigramme und/oder Bigramme und/oder Trigramme berechnet werden. Die Textquelle kann ohne Interaktion des Nutzers identifiziert werden, der identifizierte Text kann abgerufen werden und das Sprachmodell kann als Teil eines Datenerfassungsprozesses (Enrollment) des Nutzers aufgebaut werden.
Diese allgemeinen und speziellen Aspekte können mit einem System, einem Verfahren oder einem Computerprogramm oder einer Kombination aus Systemen, Verfahren und Computerprogrammen implementiert werden.
Die vorliegende Erfindung wird unter Bezugnahme auf die Begleitzeichnungen beispielhaft beschrieben, wobei gilt:
1 ist ein Blockschaltbild eines Spracherkennungssystems;
2 ist ein Blockschaltbild der Spracherkennungssoftware des Systems von 1;
3 ist ein Flussdiagramm eines beispielhaften Prozesses für den Aufbau eines Sprachmodells;
4 und 5 sind Bildschirmabbilder (Screenshots) von beispielhaften grafischen Nutzerschnittstellen; und
gleiche Verweisziffern in den verschiedenen Zeichnungen können gleiche Elemente anzeigen.
Wie in 1 dargestellt, beinhaltet ein Spracherkennungssystem 100 Eingabe/Ausgabe-Geräte (E/A-Geräte) (beispielsweise ein Mikrofon 102, eine Maus 104, eine Tastatur 106 und ein Anzeigegerät 108) und einen Computer 110 mit einer Zentraleinheit (CPU) 112, einer E/A-Einheit 114 und einer Soundkarte 116. Ein Speicher 118 speichert Daten und Programme wie ein Betriebssystem 120 (z. B. DOS, Windows^®, Windows^® 95, Windows^® 98, Windows^® 2000, Windows^® NT, Windows^® Millennium Edition, Windows^® XP, OS/2^®, Macintosh OS und Linux), ein Anwendungsprogramm 122 und eine Spracherkennungssoftware 124. Andere Beispiele des Systems 100 beinhalten eine Arbeitsstation, einen Server, eine Vorrichtung, eine Komponente, sonstige Ausrüstung oder Kombination derselben mit der Fähigkeit, Anweisungen in festgelegter Weise zu beantworten und auszuführen.
Beispiele von Anwendungsprogrammen 122 sind unter anderem Erstellungsanwendungen (z. B. Textbearbeitungsprogramme, Datenbankprogramme, Tabellenkalkulationsprogramme, Präsentationsprogramme, E-Mail-Programme und Grafikprogramme), die die Erstellung von Dokumenten bzw. sonstigen elektronischen Inhalten ermöglichen, Browser-Anwendungen (z. B. Netscape Navigator und Microsoft Internet Explorer), die die Wiedergabe von Standard-Internetinhalten ermöglichen, PIM-Programme (Personal Information Managers) (z. B. Microsoft^® Gutlook^®, Gutlook^® Express und Lotus Notes^®), die die Verwaltung persönlicher Daten gestatten, und andere Programme (z. B. Kontaktmanagement-Software, Terminverwaltungssoftware, Ausgabenverwaltungssoftware und Fax-Programme). Beispiele für eine geeignete Spracherkennungssoftware 124 sind die verschiedenen Versionen der Software Dragon NaturallySpeaking^®, die bei ScanSoft, Inc. in Peabody, Massachusetts erhältlich ist.
Für die Spracherkennung kann der Computer 110 verwendet werden. In diesem Fall empfängt das Mikrofon 102 die gesprochene Rede des Nutzers und sendet diese in Form eines Analogsignals an die Soundkarte 116, die das Signal durch einen Analog-Digital-Wandler (A/D-Wandler) schickt, damit das Analogsignal in einen Satz digitaler Samples umgewandelt wird. Der vom Betriebssystem 120 und der Spracherkennungssoftware 124 angesteuerte Prozessor 112 identifiziert Äußerungen in der Rede des Nutzers. Äußerungen werden durch eine Pause von ausreichend groß vorgegebener Dauer (beispielsweise 160–250 Millisekunden) voneinander abgegrenzt. Jede Äußerung kann ein Wort oder mehrere Wörter aus der Rede des Nutzers beinhalten.
Das System kann auch einen Analogaufnahme-Anschluss (126) (Analog-Port) und/oder einen Digitalaufnahme-Anschluss 128 (Digital-Port) beinhalten. Der Anschluss 126 für die Analogaufnahme ist mit der Soundkarte 116 verbunden und dient der Übertragung gesprochener Rede, die mit einem analogen oder digitalen Aufnahmehandgerät aufgezeichnet wird, an die Soundkarte. Der Analogaufnahme-Anschluss 126 kann mit einem Line-In-Port realisiert werden. Das Aufnahmehandgerät wird über ein Kabel angeschlossen, das den Line-In-Anschluss und einen Line-Out-Anschluss oder Lautsprecheranschluss des Aufnahmegerätes miteinander verbindet. Der Analogaufnahme-Anschluss 126 kann als Mikrofon realisiert werden, das so positioniert wird, dass es sich in der Nähe des Lautsprechers des Aufnahmehandgerätes befindet, wenn das Aufnahmegerät in den Anschluss 126 eingestöpselt ist, und kann auch mit dem Mikrofon 102 realisiert werden. Alternativ dazu kann der Analogaufnahme-Anschluss 126 als Bandabspielgerät realisiert werden, in das ein mit Aufnahmehandgerät aufgezeichnetes Band eingelegt wird und das die auf dem Band aufgezeichneten Informationen an die Soundkarte 116 übermittelt.
Der Digitalaufnahme-Anschluss 128 kann so realisiert werden, dass er eine digitale Datei überträgt, die mit einem digitalen Aufnahmehandgerät 130 erstellt wurde. Diese Datei kann direkt in den Speicher 118 oder auf ein Speichergerät wie ein Festplattenlaufwerk 132 übertragen werden. Der Anschluss 128 für die digitale Aufnahme kann als Speichergerät (z. B. Diskettenlaufwerk oder CD-ROM-Laufwerk) des Computers 110 oder als E/A-Anschluss (I/O-Port) (z. B. USB-Anschluss) realisiert werden.
2 illustriert Komponenten der Spracherkennungssoftware 124. Zur vereinfachten Erörterung wird in der nachfolgenden Beschreibung davon gesprochen, dass die Komponenten zur Erzielung bestimmter Ergebnisse entsprechende Operationen ausführen. Dies ist jedoch so zu verstehen, dass die einzelnen Komponenten typischerweise den Prozessor 112 zu der jeweiligen Operation in entsprechender Weise veranlassen. Die Spracherkennungssoftware 124 beinhaltet typischerweise ein oder mehrere Module wie ein Frontend-Bearbeitungsmodul 200, ein Erkennungsmodul 215, ein Steuer/Schnittstellenmodul 220, ein Constraint-Grammatik-Modul 225, ein Aktivvokabular-Modul 230, ein Akustikmodell-Modul 235, ein Vorfilterungsmodul 240 und ein Backup-Wörterbuch-Modul 245.
Zu Beginn konvertiert ein Frontend-Bearbeitungsmodul 200 die digitalen Samples 205 von der Soundkarte 116 (oder vom Digitalaufnahme-Anschluss 128) in Parameter-Frames 210, die den Häufigkeitsgehalt einer Äußerung darstellen. Jeder Frame kann 24 Parameter enthalten und stellt einen kurzen Teilabschnitt (beispielsweise 10 Millisekunden) der Äußerung dar.
Ein Erkennungsmodul (Spracherkenner) 215 empfängt und bearbeitet die Frames einer Äußerung, um Text zu identifizieren, der der Äußerung entspricht. Der Spracherkenner 215 unterhält verschiedene Hypothesen in Bezug auf den Text und weist jeder einzelnen Hypothese einen Relevanzwert (Score) zu. Dieser Score stellt die Wahrscheinlichkeit dafür dar, dass eine Hypothese der Nutzerrede entspricht. Zur einfacheren Bearbeitung können Scores als negative logarithmische Werte geführt werden. Dementsprechend zeigt ein niedrigerer Score-Wert eine bessere Übereinstimmung (eine größere Wahrscheinlichkeit) an, während ein höherer Score-Wert eine geringere Übereinstimmung (eine geringere Wahrscheinlichkeit) anzeigt. Nach der Bearbeitung der Äußerung liefert der Spracherkenner 215 die bestbewerteten Hypothesen als Liste von Erkennungskandidaten an das Steuer/Schnittstellenmodul 220, wo jeder Erkennungskandidat einer Hypothese mit entsprechend zugeordnetem Score entspricht. Einige Erkennungskandidaten können Text entsprechen, während andere Erkennungskandidaten Befehlen entsprechen können. Befehle können Wörter, Phrasen oder Sätze beinhalten.
Der Spracherkenner 215 bearbeitet die Frames 210 einer Äußerung im Hinblick auf eine oder mehrere Constraint-Grammatiken 225. Eine Constraint-Grammatik, also eine regelbasierte Grammatik mit entsprechenden Beschränkungen (Constraints), kann die Wörter, die einer Äußerung entsprechen können, oder die Reihenfolge bzw. grammatische Form der Wörter oder beides begrenzen. Beispielsweise kann eine Constraint-Grammatik für Menüführungsbefehle nur Eingaben aus dem Menü (zum Beispiel „Datei", „Bearbeiten") oder Befehlswörter für die Navigation im Menü (zum Beispiel „hoch", „runter", „oben", „unten") enthalten. Dabei können unterschiedliche Constraint-Grammatiken zu unterschiedlichen Zeiten aktiv sein. Beispielsweise kann eine Constraint-Grammatik mit einem besonderen Anwendungsprogramm 122 verknüpft sein und aktiviert werden, wenn der Nutzer das Anwendungsprogramm 122 öffnet, bzw. deaktiviert werden, wenn der Nutzer das Anwendungsprogramm 122 schließt. Der Spracherkenner 215 kann eine Hypothese verwerfen, die nicht mit einer aktiven Constraint-Grammatik übereinstimmt. Darüber hinaus kann der Spracherkenner 215 für eine Hypothese, die mit einer besonderen Constraint-Grammatik verknüpft ist, eine Score-Anpassung aufgrund der Charakteristika der Constraint-Grammatik vornehmen.
Eine weitere Constraint-Grammatik 225, die von der Spracherkennungssoftware 124 verwendet werden kann, ist eine Großvokabular-Diktiergrammatik. Die Großvokabular-Diktiergrammatik identifiziert Wörter, die im aktiven Vokabular 230 enthalten sind, wobei dieses Aktivvokabular die Aufstellung derjenigen Wörter ist, die der Software bekannt sind. Die Großvokabular-Diktiergrammatik beinhaltet auch ein Sprachmodell, das die Häufigkeit des Auftretens von Wörtern angibt.
Weitere Beispiele von Constraint-Grammatiken 225 sind unter anderem eine Inline-Diktiermakro-Grammatik für Diktierbefehle wie im Englischen „CAP" oder „CAPITALIZE" für die Schreibung eines Wortes in Großbuchstaben und „New paragraph" („Neuer Absatz") für den Beginn eines neuen Absatzes; eine XYZ-Auswahlgrammatik für die Verwendung bei der Auswahl von Text; eine Fehlerkorrektur-Befehlsgrammatik; eine Diktatbearbeitungsgrammatik; eine Programmbefehls- und Steuergrammatik, die zur Ansteuerung eines besonderen Anwendungsprogramms 122 verwendet werden kann; eine Globalbefehls- und Steuergrammatik, die zur Ansteuerung des Betriebssystems 120 und der Spracherkennungssoftware 124 verwendet werden kann; eine Menü- und Dialogführungsgrammatik, die zur Menüführung verwendet werden kann; und eine Tastatursteuergrammatik, mit der Eingabegeräte wie Tastatur 106 oder Maus 104 durch den Einsatz der mündlichen Sprache ersetzt werden können.
Das aktive Vokabular 230 verwendet ein Aussprachemodell, in dem jedes Wort durch eine Reihe von Phonemen dargestellt wird, die das Wort phonetisch abbilden. Jedes Phonem lässt sich als Triphon darstellen, das drei Knoten enthält. Ein Triphon ist ein kontextabhängiges Phonem. Beispielsweise stellt das Triphon „abc" das Phonem „b” im Kontext der Phoneme „a" und „c" dar, wobei dem Phonem „b" das Phonem „a" vorangeht und das Phonem „c" folgt.
Jedem Nutzer können eine oder mehrere Vokabulardateien zugeordnet sein. Die Vokabulardateien können alle Wörter, Aussprachen und Sprachmodellinformationen für den Nutzer enthalten. Diktat- und Befehlsgrammatiken können auf Vokabulardateien aufgeteilt werden, um die Sprachmodellinformationen und die Speicherauslastung zu optimieren sowie die einzelnen Vokabulardateien jeweils größenmäßig einzugrenzen. Es gibt auch einen Satz von Systemvokabularen.
Für jeden Nutzer des Systems werden separate akustische Modelle 235 bereitgestellt. Zu Beginn werden sprecherunabhängige akustische Modelle männlicher bzw. weiblicher Sprache über ein Enrollment-Programm auf das Sprechen eines speziellen Nutzers abgestimmt. Die akustischen Modelle können während der Verwendung des Systems weiter abgestimmt werden. Die akustischen Modelle werden in einer Datei getrennt vom aktiven Vokabular 230 geführt.
Die akustischen Modelle 235 stellen Phoneme dar. Im Falle von Triphonen stellen die akustischen Modelle 235 jeden Triphon-Knoten als eine Mischung Gaußscher Wahrscheinlichkeitsdichtefunktionen („WDF” bzw. englisch „PDF" [probability density functions]) dar. Beispielsweise lässt sich der Knoten „i" eines Triphons „abc" als abⁱc darstellen: abic = Σ kwkN(μk,ck)wobei w_k jeweils ein Mischgewicht ist: Σ kwk = 1,
µ_k ist ein mittlerer Vektor für die Wahrscheinlichkeitsdichtefunktion („WDF") N_k und c_k ist die Kovarianzmatrix für die WDF N_k. Wie die Frames in der Frames-Sequenz enthalten die Vektoren µ_k jeweils vierundzwanzig Parameter. Die Matrizen c_k sind vierundzwanzig mal vierundzwanzig Matrizen. Jeder Triphon-Knoten kann als eine Mischung von bis zu beispielsweise sechzehn unterschiedlichen WDF dargestellt werden.
Eine besondere WDF kann bei der Darstellung mehrerer Triphon-Knoten verwendet werden. Dementsprechend stellen die akustischen Modelle 235 jeden Triphon-Knoten als eine Sammlung von Mischgewichten w_k, die mit bis zu sechzehn unterschiedlichen WDF N_k verknüpft sind, und jede einzelne WDF N_k separat mit einem mittleren Vektor µ_k und einer Kovarianzmatrix c_k dar. Die Verwendung einer einzelnen WDF zur Darstellung mehrerer Triphon-Knoten macht es möglich, dass die Modelle weniger WDF enthalten als notwendig wäre, wenn jeder Triphon-Knoten gänzlich separate WDF enthielte. Da sich die englische Sprache grob mit 43 unterschiedlichen Phonemen darstellen lässt, kann es bis zu 79.507 (43³) verschiedene Triphone geben, die zu einer riesigen Anzahl von WDF führen würden, wenn jedes Triphon von einem separaten WDF-Satz dargestellt würde. Durch die Darstellung mehrerer Knoten mit gemeinsamen WDF kann auch ein Datenknappheitsproblem behoben bzw. vermindert werden, das durch das seltene Auftreten einiger Triphone (beispielsweise „tzp" in der englischen Sprache) entsteht. Diese seltenen Triphone können dargestellt werden, indem dafür gesorgt wird, dass eng verwandte Triphone sich den gleichen WDF-Satz teilen.
Eine Großvokabular-Diktiergrammatik kann mehrere Diktierthemen (beispielsweise „Medizin" oder „Recht") mit jeweils eigener Vokabulardatei und eigenem Sprachmodell umfassen. Ein Diktierthema beinhaltet einen Satz Wörter, der das aktive Vokabular 230 darstellt. In einem typischen Beispiel kann ein Thema ca. 30.000 Wörter umfassen, die bei der normalen Erkennung berücksichtigt werden.
Ein komplettes Diktiervokabular besteht aus dem aktiven Vokabular 230 plus einem Backup-Vokabular 245. Das Backup-Vokabular 245 kann Dateien umfassen, die nutzerspezifische Backup-Vokabularwörter und systemweite Backup-Vokabularwörter enthalten.
Nutzerspezifische Backup-Vokabularwörter beinhalten Wörter, die ein Nutzer bei der Verwendung der Spracherkennungssoftware angelegt hat. Diese Wörter werden in Vokabulardateien für den Nutzer und für das Diktierthema gespeichert und sind als Teil des Backup-Wörterbuches für das Diktierthema unabhängig vom Nutzer sowie für den Nutzer unabhängig vom verwendeten Diktierthema verfügbar. Wenn beispielsweise ein Nutzer ein medizinisches Thema verwendet und das Wort „Ganglion" zum Diktiervokabular hinzufügt, so hat jeder andere Nutzer des medizinischen Themas unmittelbaren Zugriff auf das Wort „Ganglion". Zusätzlich dazu wird das Wort in das nutzerspezifische Vokabular geschrieben. Wenn daraufhin der Nutzer bei Verwendung eines Rechtsthemas „Ganglion" sagt, steht das Wort „Ganglion" bei der Korrektur ausgehend vom Backup-Wörterbuch zur Verfügung.
Neben dem oben angegebenen nutzerspezifischen Backup-Vokabular gibt es ein systemweites Backup-Vokabular. Das systemweite Backup-Vokabular enthält alle dem System bekannten Wörter einschließlich der Wörter, die sich aktuell in einem aktiven Vokabular befinden können.
Der Spracherkenner 215 kann parallel zu einer Vorfilterungsprozedur 240 arbeiten. Sobald die Bearbeitung einer Äußerung ausgelöst wird, fordert der Spracherkenner 215 von der Vorfilterungsprozedur 240 eine Liste von Wörtern an, die eventuell als erstes Wort der Äußerung gesprochen wurden (das heißt: die dem ersten und den nachfolgenden Frames der Äußerung entsprechen können). Die Vorfilterungsprozedur 240 führt einen Grobabgleich zwischen der Frame-Sequenz und dem aktiven Vokabular 230 durch, um eine Teilmenge des Vokabulars zu identifizieren, für die ein umfassenderer Vergleich mit dem Spracherkenner gerechtfertigt ist.
Das Steuer/Schnittstellenmodul 220 steuert den Betrieb der Spracherkennungssoftware und stellt eine Schnittstelle zu anderer Software bzw. zum Nutzer zur Verfügung. Das Steuer/Schnittstellenmodul 220 empfängt vom Spracherkenner für jede Äußerung die Liste der Erkennungskandidaten. Erkennungskandidaten können diktiertem Text, Spracherkennungsbefehlen oder externen Befehlen entsprechen. Wenn es sich bei dem bestbewerteten Erkennungskandidaten um diktierten Text handelt, liefert das Steuer/Schnittstellenmodul 220 den Text an eine aktive Anwendung wie eine Textverarbeitung. Das Steuer/Schnittstellenmodul 220 kann den bestbewerteten Erkennungskandidaten auch über eine grafische Nutzerschnittstelle dem Nutzer zur Anzeige bringen. Wenn der bestbewertete Erkennungskandidat ein Befehl ist, realisiert das Steuer/Schnittstellenmodul 220 den Befehl. Beispielsweise kann das Steuer/Schnittstellenmodul 220 den Betrieb der Spracherkennungssoftware 124 in Reaktion auf Spracherkennungsbefehle (beispielsweise „aufwachen", „ausführen") steuern und externe Befehle an die entsprechende Software weiterleiten.
Das Steuer/Schnittstellenmodul 220 kann auch das aktive Vokabular 230, akustische Modelle 235 und Constraint-Grammatiken 225 ansteuern, die vom Spracherkenner 215 verwendet werden. Wenn beispielsweise die Spracherkennungssoftware 124 im Zusammenhang mit einem besonderen Anwendungsprogramm 122 (beispielsweise Microsoft Word) verwendet wird, aktualisiert das Steuer/Schnittstellenmodul 220 das aktive Vokabular 230 zur Einbeziehung von Befehlswörtern, die mit dieser Anwendung verknüpft sind, und aktiviert Constraint-Grammatiken 225, die mit dem Anwendungsprogramm 122 verknüpft sind.
Weitere vom Steuer/Schnittstellenmodul 220 bereitgestellte Funktionen sind u. a. ein Enrollment-Programm, ein Vokabular-Customizer und ein Vokabular-Manager. Das Enrollment-Programm erfasst akustische Informationen eines Nutzers und übernimmt auf Grundlage dieser Informationen das Training bzw. die Anpassung der Nutzermodelle. Der Vokabular-Customizer optimiert das Sprachmodell eines speziellen Themas durch Ausführung des weiter unten in Bezug auf 3 beschriebenen Prozesses 300. Der Vokabular-Manager ist ein Entwickler-Tool für die Navigation in und die Führung von Vokabularen, Grammatiken und Makros. Jede Funktion des Steuer/Schnittstellenmoduls 220 lässt sich als ausführbares Programm getrennt von der Spracherkennungs-Hauptsoftware realisieren.
Das Enrollment-Programm kann in einem interaktiven Modus betrieben werden, der den Nutzer durch den Erfassungs- und Registrierungsprozess führt, oder in einem nicht interaktiven Modus arbeiten, der es dem Nutzer gestattet, das Enrollment unabhängig vom Computer durchzuführen. Im interaktiven Modus bringt das Enrollment-Programm dem Nutzer den Erfassungstext nutzerlesbar zur Anzeige. Während der Nutzer den Text liest, verwendet der Spracherkenner 215 die Enrollment-Grammatik und versucht eine Sequenz von Äußerungen des Nutzers mit sequentiellen Teilabschnitten des Erfassungstextes per Abgleich in Übereinstimmung zu bringen. Wenn der Spracherkenner 215 zu keinem Ergebnis kommt, fordert das Enrollment-Programm den Nutzer zur Wiederholung bestimmter Passagen des Textes auf. Der Spracherkenner nutzt akustische Informationen aus den Äußerungen des Nutzers zum Training bzw. zur Anpassung von akustischen Modellen 235, die den abgeglichenen Teilabschnitten des Erfassungstextes entsprechen.
Das Steuer/Schnittstellenmodul 220 kann ferner Fehlerkorrekturprozeduren und Cursorplatzbedienprozeduren der Software 124 implementieren. Zu den Fehlerkorrekturprozeduren zählen u. a. ein Befehl „Ausführen" und ein Befehl „Buchstabieren". Zu den Prozeduren der Cursorpositionierung gehören u. a. der oben erörterte Befehl „Auswählen" mit entsprechenden Variationen (z. B. „Auswählen [Anfang] bis [Ende]"), die Befehle „Einfügen vor/nach" und ein Befehl „Fortsetzen mit".
Das Steuer/Schnittstellenmodul 220 kann Fehlerkorrekturprozeduren der Spracherkennungssoftware 124 implementieren. Wenn die Spracherkennungssoftware 100 einen Erkennungsfehler begeht, kann der Nutzer den Fehler über einen entsprechenden Korrekturbefehl beheben. Bei der Fehlerkorrektur beginnt eine Wörtersuche des Backup-Wörterbuchs 245 im nutzerspezifischen Backup-Wörterbuch, wonach das systemweite Backup-Wörterbuch geprüft wird. Das Backup-Wörterbuch 245 wird auch durchsucht, wenn im Text neue Wörter auftreten, die ein Nutzer eingetippt hat.
Im Allgemeinen beinhaltet das Backup-Wörterbuch 245 wesentlich mehr Wörter als im aktiven Vokabular 230 enthalten sind. Wenn das aktive Vokabular 230 beispielsweise etwa 60.000 Einträge aufweist, kann das Backup-Wörterbuch 245 grob überschlagen 190.000 Einträge aufweisen. Das aktive Vokabular 230 ist ein dynamisches Vokabular, das heißt, dass im Laufe der Zeit Einträge zum aktiven Vokabular hinzugefügt oder vom aktiven Vokabular abgezogen werden können. Wenn beispielsweise der Nutzer auf eine Fehlerkennung hinweist und das Steuer/Schnittstellenmodul 220 zur Fehlerkorrektur das Backup-Wörterbuch 245 verwendet, kann ein neues Wort vom Backup-Wörterbuch 245 zum aktiven Vokabular 230 hinzugefügt werden, um die Wahrscheinlichkeit eines erneuten Auftretens des Fehlers zu vermindern.
Die effektive Größe des aktiven Vokabulars 230 kann erhöht werden, indem Wörter in Wortbestandteile oder Wortfragmente zerlegt werden. Zu den Wortfragmenten gehören Vorsilben (Präfixe) und Nachsilben (Suffixe), die zusammen als Affixe bezeichnet werden. Ein Präfix ist ein Wortfragment, dem ein anderes Wortfragment oder Wort nachfolgt und das deshalb als „Präfix+" dargestellt werden kann. Ein in der englischen Sprache übliches Präfix ist beispielsweise die Vorsilbe „re+". Im Gegensatz zum Präfix ist ein Suffix ein Wortfragment, das einem anderen Wortfragment oder Wort nachfolgt. Ein Suffix kann als „+Suffix" dargestellt werden. Ein in der englischen Sprache übliches Suffix ist beispielsweise die Nachsilbe „+ed".
Zu den Wortfragmenten zählen auch Wortstämme, die gemeinsam mit einem Präfix oder einem Suffix auftreten können. Ein Wortstamm kann ein echter Wortstamm sein, das heißt, er ist bei Alleinauftreten kein vollständiges Wort und kann deshalb als „+Stamm+" dargestellt werden. Ein Beispiel für einen echten Wortstamm ist im Englischen der Stamm „+crimin+", der das Wort „decriminalize" bilden kann, wenn das Präfix „de+" vorangestellt wird sowie die Suffixe „+al" und „+ize" nacheinander angehängt werden. Ein Stamm kann auch ein Wortstamm sein, der ein Wort ergibt, wenn er allein verwendet wird. Beispielsweise kann der Wortstamm "look" im Englischen als Wort "look" verwendet oder mit anderen Wortfragmenten verbunden werden, um ein anderes Wort zu bilden wie „looked".
Zu Wortfragmenten können auch Trennzeichen (Separatoren) gehören, wie das Fugen-„s” in der deutschen Sprache, durch das Wörter miteinander verbunden werden, oder der Bindestrich, der in der englischen Sprache häufig verwendet wird, sowie Infixe, die als wortinnere Bindeglieder in solchen Sprachen wie Ungarisch, Mon-Khmer verwendet werden. In der Sprache Tagalog bedeutet beispielsweise „tawa" „das Lachen", aber „t -um- awa" bildet das Verb „lachen". Somit könnte -um- in Tagalog ein Infix darstellen. Als weiteres Beispiel lässt sich in der thailändischen Sprache „pak" mit der Bedeutung „Auflage" nennen, wobei „p -n- ak" jedoch „eine Stütze" wie z. B. ein Stuhl bedeutet. Somit könnte -n- in der thailändischen Sprache ein Infix darstellen. Infixe sind selten in der englischen Sprache. Ein Beispiel für ein informelles Infix im Englischen könnte -bloody- sein, wie in „fan -bloody- tastic".
Jedes Wortfragment kann als separater Eintrag in das aktive Vokabular 230 gemeinsam mit einem Satz aktiver Wörter aufgenommen werden, zu denen typischerweise ein großer Teil der zuvor aktiven Wörter gehört. Die Wortfragmente erhöhen die effektive Größe des aktiven Vokabulars durch die Einbeziehung von gegebenenfalls im Backup-Wörterbuch 245 befindlichen, als „zerlegbar" bezeichneten Wörtern, die aus Kombinationen von Wortfragmenten mit anderen Wortfragmenten oder mit aktiven Wörtern gebildet werden können. Wörter des Backup-Wörterbuchs, die sich nicht aus solchen Kombinationen bilden lassen, werden als „nicht zerlegbare" Wörter bezeichnet.
Wenn der Spracherkenner 215 in einer Äußerung ein Wortfragment erkennt, kombiniert das System das Wortfragment mit einem oder mehreren anderen Wortfragmenten oder Wörtern zur Erzeugung eines neuen Wortes, woraufhin es das Backup-Wörterbuch 245 durchsucht oder entsprechende Regeln anwendet, um das neue Wort als gültiges Wort zu bestätigen. Somit kann das Spracherkennungssystem 100 das Backup-Wörterbuch 245 nutzen, ohne dass der Spracherkenner 215 Wörter des Backup-Wörterbuchs bearbeiten muss. Durch die Erhöhung der effektiven Größe des aktiven Vokabulars 230 ohne Erhöhung der tatsächlichen Größe wird die Erkennungsrate des Spracherkennungssystems 100 erweitert, ohne dass sich die dafür erforderliche Speicherkapazität oder Verarbeitungszeit erheblich erhöht.
In einer Realisierungsform kann der Spracherkenner ein oder mehrere Sprachmodelle verwenden. Bei der Bestimmung des für eine Äußerung bestpassenden akustischen Modells kann der Prozessor ein Sprachmodell konsultieren, das eine Wahrscheinlichkeit dafür anzeigt, dass der dem akustischen Modell entsprechende Text in der Rede auftritt. Beispielsweise kann ein Sprachmodell ein Bigramm-Modell enthalten, das die Häufigkeit anzeigt, mit dem ein Wort im Kontext eines vorangehenden Wortes auftritt. Zum Beispiel kann ein Bigramm-Modell anzeigen, dass im Englischen ein Substantiv oder Adjektiv wie „word" mit höherer Wahrscheinlichkeit auf das Wort „the" folgt als auf ein Verb wie „is".
Das Sprachmodell kann ausgehend von einem großen Text-Sample generiert werden. In der Regel ändern sich die vom Sprachmodell erzeugten Wahrscheinlichkeiten während des Einsatzes nicht. Das Sprachmodell kann sich jedoch ändern, wenn Wörter zum Sprachmodell hinzugefügt oder vom Sprachmodell abgezogen werden, da die Wörter zum aktiven Vokabular hinzugefügt bzw. vom aktiven Vokabular abgezogen werden.
Ein mit der Großvokabular-Diktiergrammatik verknüpftes Sprachmodell kann ein Unigramm-Modell sein, das die Häufigkeit anzeigt, mit der ein Wort kontextunabhängig auftritt, oder ein Bigramm-Modell, das die Häufigkeit anzeigt, mit der ein Wort im Kontext eines vorangehenden Wortes auftritt. Beispielsweise kann ein Bigramm-Modell anzeigen, dass auf das Wort mit höherer Wahrscheinlichkeit ein Substantiv oder Adjektiv folgt. Das Sprachmodell kann ferner ein Trigramm-Modell sein, das die Häufigkeit, mit der ein Wort im Kontext von zwei vorangehenden Wörtern auftritt, oder eine andere Variation anzeigt.
Ein weiteres beispielhaftes Sprachmodell ist ein Kategorie-Sprachmodell, das die Häufigkeit anzeigt, mit der ein Wort im Kontext einer vorangehenden Kategorie auftritt. Beispielsweise kann ein einfaches Kategoriemodell solche Kategorien wie „Substantive" oder „Adjektive" enthalten. Zum Beispiel kann ein solches einfaches Kategoriemodell anzeigen, dass das Wort "is" mit höherer Wahrscheinlichkeit nach Wörtern aus der Kategorie der "Substantive" als nach Wörtern aus der Kategorie der „Adjektive" auftritt. Komplexere Kategoriemodelle können solche Kategorien wie „Orte", „Sportadjektive" oder „medizinische Substantive" beinhalten. Wie beim Bigramm-Modell kann das Kategoriemodell aus einem großen Datenbestand erstellt werden und Wahrscheinlichkeiten enthalten, die sich während der Verwendung nicht ändern.
Weitere beispielhafte Sprachmodelle können ein thematisches Unigramm-Sprachmodell, ein thematisches Bigramm-Sprachmodell und ein thematisches Trigramm-Sprachmodell beinhalten, die jeweils auf einer mit einem Nutzer verknüpften Textquelle beruhen können. In einer Realisierung kann das thematische Sprachmodell ein einzelnes mit einem besonderen Nutzer verknüpftes Sprachmodell beinhalten, das Unigramm-, Bigramm- und Trigramm-Informationen enthält.
Die verschiedenen oben erörterten Sprachmodelle können in einem einzelnen Sprachmodell enthalten oder in ein oder mehrere verknüpfte Sprachmodelle aufgeteilt sein. Jeder Nutzer des Spracherkennungssystems kann ein oder mehrere Sprachmodelle haben.
3 illustriert einen Prozess 300 zum Aufbau eines Sprachmodells zur Verwendung bei der Spracherkennung. Prozess 300 beinhaltet typischerweise die Identifizierung einer nutzerbezogenen Textquelle ohne Interaktion des Nutzers (Schritt 310), das Abrufen von Text aus der identifizierten Textquelle ohne Interaktion des Nutzers (Schritt 320) und den Aufbau eines auf den Nutzer bezogenen Sprachmodells anhand des abgerufenen Textes (Schritt 330).
Der Prozess 300 automatisiert den Prozess des Aufbaus eines nutzerbezogenen Sprachmodells und kann ohne Interaktion des Nutzers durchgeführt werden. In einer Realisierungsform wird der Prozess 300 als Teil des Datenerfassungs- und Datenregistrierungsprozesses (Enrollment) eines Nutzers durchgeführt. 4 zeigt einen beispielhaften Screenshot einer grafischen Nutzerschnittstelle (Graphical User Interface – kurz GUI) 400, die während des Enrollment-Prozesses als Bestandteil eines Assistenten zur Einrichtung eines neuen Nutzers (new user wizard) dem Nutzer zur Anzeige gebracht werden kann. Diese Realisierungsform benötigt als einzige Interaktion des Nutzers eine Bestätigungshandlung des Nutzers, mit der der Start des automatisierten Prozesses 300 bestätigt wird. Beispielsweise zeigt die grafische Nutzerschnittstelle (GUI) 400 eine „Start"-Schaltfläche 410, die ein Nutzer zur Auslösung des Prozesses 300 anwählen kann. Nach dieser Einleitungsbestätigung des Prozesses 300 ist keine weitere Interaktion des Nutzers mehr erforderlich. Der Nutzer hat die Option, den Prozess 300 in der Enrollment-Phase zu überspringen, wie durch Ankreuzen des Kästchens 415 mit der Funktion „Skip this Step" („Diesen Schritt überspringen").
In einer anderen Realisierungsform läuft der Prozess 300 zu anderen Zeitpunkten nach erfolgtem Enrollment-Prozess des neuen Nutzers ab. Beispielsweise kann der Nutzer in regelmäßigen oder per Zufallsprinzip bestimmten Zeitabständen zur Auslösung des Prozesses 300 aufgefordert werden. In einer Realisierungsform wird ein Popup-Fenster zur Aufforderung des Nutzers verwendet. Zusätzlich oder alternativ dazu kann der Nutzer die Auslösung des Prozesses 300 selbst anwählen. 5 als Screenshot zeigt eine beispielhafte GUI 500, die einem Nutzer nach erfolgter Einrichtung und Registrierung des neuen Nutzers gelegentlich zur Anzeige gebracht wird. Die einzige Interaktion, die in dieser Realisierungsform vom Nutzer gefordert wird, ist eine Bestätigungshandlung des Nutzers, mit der er den Start des automatisierten Prozesses 300 bestätigt. Zum Beispiel bietet die GUI 500 eine „Start"-Schaltfläche 510, die ein Nutzer zur Auslösung des Prozesses 300 anwählen kann. Wurde der Start des Vorgangs bestätigt, läuft der Prozess ohne weitere Interaktion des Nutzers ab. Somit kann der Prozess 300 viele Male ausgeführt werden, wobei das Sprachmodell für den Nutzer jedes Mal aktualisiert wird und das Leistungsvermögen der Spracherkennung verbessert.
In einer Realisierungsform wird der gesamte Prozess 300 ohne Interaktion des Nutzers ausgeführt. Ohne Interaktion des Nutzers bedeutet, dass nach dem ausgelösten bzw. bestätigten Start des Prozesses 300 keine weitere Interaktion des Nutzers notwendig ist, um den Prozess mit den Schritten Identifizierung einer nutzerbezogenen Textquelle (Schritt 310), Abrufen von Text aus der identifizierten Textquelle (Schritt 320) und Aufbau eines nutzerbezogenen Sprachmodells aus dem abgerufenen Text (Schritt 330) auszuführen.
In einer weiteren beispielhaften Realisierung wird ein Teil des Prozesses 300 ohne Interaktion des Nutzers durchgeführt, während andere Teile des Prozesses 300 mit Interaktion des Nutzers durchgeführt werden. Beispielsweise kann die Identifizierung einer nutzerbezogenen Textquelle (Schritt 310) ohne Interaktion des Nutzers durchgeführt werden. Nach erfolgter Identifizierung der Textquelle (Schritt 310) können andere Teile des Prozesses 300 mit Interaktion des Nutzers erfolgen, wie beispielsweise die Aufforderung an den Nutzer zur Auswahl von aus der Textquelle abgerufenen Wörtern zwecks Übernahme in ein Vokabular.
Als Bestandteil des Prozesses 300 kann eine nutzerbezogene Textquelle ohne Interaktion des Nutzers identifiziert werden (Schritt 310). Eine nutzerbezogene Textquelle kann Dateien umfassen, die mit dem Nutzer verknüpften Text enthalten. In einer Realisierungsform kann der Prozess 300 zur Identifizierung von nutzerbezogenen Textquellen feststellen, welche Anwendungsprogramme auf dem Rechner eines Nutzers gespeichert sind. Beispielsweise kann Prozess 300 ohne Interaktion des Nutzers feststellen, welche PIM-Programme (z. B. Microsoft^® Gutlook^®, Gutlook^® Express und Lotus Notes^®) auf dem Computer des Nutzers installiert sind. Der Prozess 300 kann daraufhin vom Nutzer versendete E-Mails als eine nutzerbezogene Textquelle identifizieren. Beispielsweise kann der Prozess 300 zur Identifizierung der von einem Nutzer versendeten E-Mails die automatisierte Objekteinbettung (OLE-Automation) verwenden. Zusätzlich oder alternativ dazu kann der Prozess 300 die Kontaktinformationen eines Nutzers als eine nutzerbezogene Textquelle identifizieren.
Zusätzlich zu den versendeten E-Mails und Kontaktdaten eines Nutzers können andere nutzerbezogenen Textquellen identifiziert werden, wie beispielsweise vom Nutzer verfasste Dokumente und an einem bestimmten Speicherort auf einem Rechner abgelegte Dokumente (z. B. Dokumente, die in einem Ordner namens „My Dokuments" oder „Eigene Dateien" eines Windows-Nutzers abgelegt sind). Als Textquellen für den Textabruf können unterschiedliche Dokumenttypen (Dateierweiterungen) identifiziert werden, die mit verschiedenen Anwendungsprogrammen (z. B. Anwendungsprogrammen 122 gemäß 1) verknüpft sein können. Beispielsweise kann zur Identifizierung spezieller Dokumenttypen (z. B. .doc, .html, .wpd und .rtf) die OLE-Automatisierung herangezogen werden.
Nach erfolgter Identifizierung nutzerbezogener Textquellen beinhaltet der Prozess 300 den Abruf von Text aus der identifizierten Textquelle (Schritt 320). Der Textabruf aus der identifizierten Textquelle kann den Abruf von Rohtext beinhalten. Als Teil des Abrufvorgangs können unerwünschte Positionen aus der Textquelle herausgefiltert werden. Wenn die Textquelle eine versendete E-Mail eines Nutzers ist, können aus der E-Mail beispielsweise Kopfzeilendaten (Header-Informationen), Adressinformationen und Antwortinformationen herausgefiltert werden. Die Filterung der Antwortinformationen kann dadurch erfolgen, dass ermittelt wird, welcher Text im Dokument neu ist und welcher ursprüngliche Text zur Beantwortung übernommen wurde. Andere Positionen wie Binärdateien und fremdsprachige Dokumente können während des Textabrufvorgangs identifiziert und herausgefiltert werden.
In einer Realisierungsform kann durch Verwendung von Filterregeln bestimmt werden, aus welchen Dokumenten Text abgerufen werden soll. Dabei können eine oder mehrere Filterregeln gleichzeitig verwendet werden. Beispielsweise können in einer Filterregel nur Dokumente erfasst sein, die innerhalb eines bestimmten Zeitabschnitts (z. B. während der letzten neunzig Tage) bearbeitet wurden. Eine andere Filterregel kann ausschließlich Dokumente mit einer bestimmten Textzeichenzahl erfassen (z. B. mehr als 512 Textzeichen).
Nach Abruf des Textes (Schritt 320) wird mit dem abgerufenen Text ein auf den Nutzer bezogenes Sprachmodell aufgebaut (Schritt 330). Mit den abgerufenen Informationen aus dem Text lassen sich ein oder mehrere Sprachmodelle aufbauen. In einer beispielhaften Realisierungsform wird ein Sprachmodell für den speziellen Nutzer mit Wortzählungen aus dem Rohtext aufgebaut. Das Sprachmodell kann ein Unigramm-Sprachmodell, ein Bigramm-Sprachmodell und/oder ein Trigramm-Sprachmodell beinhalten. Die unterschiedlichen Sprachmodelle (z. B. Unigramm, Bigramm und Trigramm) können in einem einzelnen kombinierten Sprachmodell für den speziellen Nutzer enthalten sein oder sich in separaten Sprachmodellen für den speziellen Nutzer befinden.
Das Sprachmodell kann aufgebaut werden, indem die abgerufenen Wörter in ein oder mehrere Vokabulare eingeschrieben werden. Beispielsweise können die abgerufenen Wörter gescannt werden, um die für das Vokabular neuen Wörter gegenüber den im Vokabular bereits enthaltenen Wörtern festzustellen. In einer Realisierungsform können die neuen Wörter ohne Eingreifen des Nutzers in das Vokabular eingeschrieben werden. Wenn Text aus Kontaktinformationen eines Nutzers gewonnen wird, können beispielsweise die in den Kontaktinformationen enthaltenen Namen ohne Interaktion des Nutzers in das Vokabular übernommen werden. Gleicherweise können neue Wörter aus anderen Textquellen, wie zum Beispiel aus versendeten E-Mails des Nutzers, aus vom Nutzer erstellten Dokumenten und aus Dokumenten im Ordner „Meine Dateien" des Nutzers, ohne Interaktion des Nutzers in das Vokabular eingeschrieben werden. Für Wörter, die dem Vokabular hinzugefügt wurden, kann das System mit Hilfe der Punktuationsbestimmung die Aussprache der Wörter ermitteln. Alternativ dazu kann das System die Aussprache der neuen Wörter dadurch bestimmen, dass es den Nutzer dazu auffordert, die neuen Wörter auszusprechen.
In einer weiteren Realisierungsform können die abgerufenen Wörter, die gescannt und als neue Wörter ermittelt wurden, dem Nutzer zur Anzeige gebracht werden. Der Nutzer kann dazu aufgefordert werden, die für die Übernahme ins Vokabular bestimmten Wörter auszuwählen.
In einer beispielhaften Realisierungsform kann die Dauer des Prozesses 300 eingeschränkt werden. Beispielsweise kann der Prozess 300 auf eine maximale Zeitdauer eingestellt werden (z. B. dreißig Minuten). Wenn der Prozess 300 bei Ablauf des eingestellten Zeitlimits noch nicht abgeschlossen ist, werden die bis zu diesem Zeitpunkt erhaltenen Prozessergebnisse abgespeichert und der Prozess wird beendet. Die Zeiteinschränkung kann verwendet werden, um die Zeitdauer einzuschränken, in der der Rechner eines Nutzers eventuell nicht verfügbar ist. Der Prozess 300 kann auch so konfiguriert werden, dass er im Hintergrund abläuft.
In einer anderen beispielhaften Realisierungsform kann der Rohtext, der aus der identifizierten Textquelle abgerufen wird, mengenmäßig eingeschränkt werden. Beispielsweise kann für den Text eine Obergrenze eingestellt werden (z. B. ein Megabyte), so dass der Prozess nur bis zu diesem Mengenlimit läuft.
In einer beispielhaften Realisierungsform kann jeder Nutzer mehrere Vokabulare haben. Der Prozess 300 kann einmalig ausgeführt werden und die erhaltenen Wortzählungen aus dem abgerufenen Text können auf jedes der verschiedenen Vokabulare angewendet werden. Zusätzlich oder alternativ dazu kann der Prozess 300 für jedes Vokabular ausgeführt werden.
Die Spracherkennungsleistung kann erheblich verbessert werden, wenn das Sprachmodell gut auf den diktierten Text abgestimmt wird. Der automatisierte Aspekt des Prozesses 300 gestattet dem Nutzer einen problemloseren Aufbau eines nutzerbezogenen Sprachmodells, indem Textquellen, die vermutlich gut mit dem von einem speziellen Nutzer erstellten Text übereinstimmen, ohne Eingreifen des Nutzers lokalisiert werden. Die Wahrscheinlichkeit, dass ein Nutzer ein Sprachmodell aufbaut, ist geringer, wenn der Nutzer dazu mehrere Schritte ausführen muss. Beispielsweise kann es für den Nutzer mühselig und nicht unbedingt effizient sein, wenn er Textquellen lokalisieren, identifizieren und für den Aufbau eines Sprachmodells vorlegen soll. Eine andere Mühe kann darin bestehen, dass der Nutzer nach erfolgter Lokalisierung, Identifizierung und Vorlage von Textquellen sich an anschließenden Interaktionen beteiligen muss, wie beispielsweise Auswahl oder Bestätigung von Wörtern aus dem vorgelegten Text, die in das Sprachmodell und/oder ins Vokabular zu übernehmen sind.
Die beschriebenen Systeme, Methoden und Techniken können in digitaler und/oder analoger Elektronikschaltung, Hardware, Firmware, Software oder in Kombinationen dieser Elemente realisiert werden. Vorrichtungen zur Realisierung dieser Techniken können geeignete Eingabe- und Ausgabegeräte, einen Computer-Prozessor und ein Computerprogramm-Produkt enthalten, das zwecks Ausführung durch einen programmierbaren Prozessor in einem maschinenlesbaren Speichergerät materiell integriert ist. Ein diese Techniken verkörperndes Verfahren kann durch einen programmierbaren Prozessor realisiert werden, der ein Programm von Anweisungen ausführt, demzufolge gewünschte Funktionen durch Betrieb nach Eingabedaten bei Erzeugung einer entsprechenden Ausgabe auszuführen sind. Die Techniken können in einem oder mehreren Computerprogrammen realisiert werden, die in einem programmierbaren System ausführbar sind, das mindestens einen programmierbaren Prozessor beinhaltet, der so angeschlossen ist, dass er Daten und Anweisungen von einem Datenspeichersystem, wenigstens einem Eingabegerät und wenigstens einem Ausgabegerät empfängt bzw. dorthin sendet. Jedes Computerprogramm kann in einer höheren prozeduralen oder objektorientierten Programmiersprache oder nach Wunsch in Assemblersprache oder Maschinensprache realisiert werden; und die Sprache kann auf jeden Fall eine kompilierte oder interpretierte Sprache sein. Zu geeigneten Prozessoren gehören beispielsweise sowohl allgemeine als auch zweckgebundene Mikroprozessoren. Im Allgemeinen erhält ein Prozessor Anweisungen und Daten aus einem Festspeicher (ROM) und/oder einem Direktzugriffsspeicher (RAM). Geeignete Speichergeräte zur materiellen Realisierung von Computerprogrammdaten und -anweisungen sind alle Formen nichtflüchtiger Speicher, darunter beispielsweise Halbleiterspeichergeräte wie EPROM (Erasable Programmable Read-Only Memory, EEPROM (Electrically Erasable Programmable Read-Only Memory) und Flash-Speichergeräte; Magnetplattenspeicher wie interne Festplatten und Wechselplatten; magnetooptische Speichermedien; und CD-ROM (Compact Disc Read-Only Memory). Alle vorgenannten Speichergeräte können durch speziell entworfene anwendungsspezifische integrierte Schaltungen (ASICs) ergänzt oder in solche eingebaut werden.

Es versteht sich, dass verschiedene Modifikationen möglich sind, ohne vom Umfang der Patentansprüche abzuweichen. Beispielsweise könnten auch dann noch vorteilhafte Ergebnisse erzielt werden, wenn Verfahrensschritte der offenbarten Techniken in einer anderen Reihenfolge durchgeführt und/oder Komponenten in den offenbarten System in anderer Art kombiniert und/oder ersetzt und/oder durch andere Komponenten ergänzt würden. Dementsprechend sind andere Realisierungsformen im Umfang der folgenden Ansprüche mit enthalten. Der Umfang der Erfindung soll allein durch diese Ansprüche begrenzt werden. Fig. 1

108	Anzeigegerät
128	Digitaler Port
132	Festplattenlaufwerk
118	Speicher
120	Betriebssystem
122	Anwendungsprogramm
124	Spracherkennungssoftware
114	E/A-Einheit
116	Soundkarte
112	CPU
126	Analoger Port

Fig. 2

205	Digitale Samples
200	Frontend-Bearbeitungsmodul
210	Parameter-Frames
220	Steuer/Schnittstellen-Modul
control	Steuerung
recognition candidates	Erkennungskandidaten
215	Spracherkenner
requests	Anfragen
lattice of words	Wortgitter
240	Vorfilterungsprozedur
230	Aktives Vokabular
235	Akustische Modelle
225	Constraint-Grammatiken
245	Backup-Wörterbuch

Fig. 3

310	Identifizierung einer nutzerbezogenen Textquelle ohne Interaktion des Nutzers
320	Abrufen von Text aus der ohne Interaktion des Nutzers identifizierten Textquelle
330	Aufbau eines nutzerbezogenen Sprachmodells aus dem abgerufenen Text

Claims

Verfahren zum Aufbau eines Sprachmodells zur Verwendung bei der Spracherkennung, wobei das Sprachmodell eine Wahrscheinlichkeit angibt, dass der dem akustischen Modell entsprechende Text in der Rede auftritt, wobei das Verfahren folgende Schritte beinhaltet: Identifikation einer nutzerbezogenen Textquelle ohne Interaktion des Nutzers; Abrufen von Text aus der identifizierten Textquelle; und Aufbau eines nutzerbezogenen Sprachmodells aus dem abgerufenen Text; DADURCH GEKENNZEICHNET, DASS die Identifikation der Textquelle ohne Interaktion des Nutzers auch beinhaltet, dass vom Nutzer erstellte Dokumente und/oder Dokumente, die an einem bestimmten Ort auf dem Rechner des Nutzers abgespeichert sind, ohne Interaktion des Nutzers identifiziert werden.
Verfahren nach Anspruch 1, wobei die Identifikation der Textquelle auch beinhaltet, dass vom Nutzer gesendete e-Mails ohne Interaktion des Nutzers identifiziert werden.
Verfahren nach Anspruch 2, ferner beinhaltend: Scannen der e-Mails zur Identifikation von Wörtern aus den e-Mails; und Bestimmung derjenigen Wörter aus den gescannten Wörtern, die zum Aufbau des Sprachmodells verwendet werden.
Verfahren zum Aufbau eines Sprachmodells zur Verwendung bei der Spracherkennung, wobei das Sprachmodell eine Wahrscheinlichkeit angibt, dass der dem akustischen Modell entsprechende Text in der Rede auftritt, wobei das Verfahren folgende Schritte beinhaltet: Identifikation einer nutzerbezogenen Textquelle ohne Interaktion des Nutzers; Abrufen von Text aus der identifizierten Textquelle; und Aufbau eines nutzerbezogenen Sprachmodells aus dem abgerufenen Text; DADURCH GEKENNZEICHNET, DASS die Identifikation der Textquelle ohne Interaktion des Nutzers auch beinhaltet, dass Kontaktinformationen des Nutzers ohne Interaktion des Nutzers identifiziert werden.
Verfahren nach Anspruch 4, wobei das Abrufen des Textes auch beinhaltet, dass Namen aus den Kontaktinformationen des Nutzers ohne Interaktion des Nutzers aufgefunden werden, ferner beinhaltend: Scannen der Namen zur Identifikation von Namen, die nicht in einem Vokabular von Wörtern enthalten sind; und Hinzufügen der identifizierten Namen zum Vokabular ohne Interaktion des Nutzers.
Verfahren nach einem der vorhergehenden Ansprüche, enthaltend: Scannen des abgerufenen Textes zur Identifizierung von Wörtern aus dem Text, die nicht in einem Vokabular von Wörtern enthalten sind; und Hinzufügen der identifizierten Wörter zum Vokabular ohne Interaktion des Nutzers.
Verfahren nach einem der Ansprüche 1 bis 5, ferner beinhaltend: Scannen des abgerufenen Textes zur Identifizierung von Wörtern aus dem Text, die nicht in einem Vokabular von Wörtern enthalten sind; Anzeige der identifizierten Wörter für den Nutzer; Aufforderung des Nutzers zur Auswahl von Wörtern, die in das Vokabular aufzunehmen sind; und Hinzufügen der vom Nutzer ausgewählten Wörter zum Vokabular.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Aufbau des Sprachmodells auch beinhaltet, dass mit Hilfe des abgerufenen Textes mindestens eines von Unigrammen, Bigrammen und Trigrammen berechnet wird.
Verfahren nach einem der vorhergehenden Ansprüche, ferner beinhaltend die Durchführung der Identifikation, des Abrufens und des Modellaufbaus als Teil eines Datenerfassungsprozesses des Nutzers.
Computerprogramm zum Aufbau eines Sprachmodells zur Verwendung bei der Spracherkennung, wobei dieses Programm auf einem computerlesbaren Medium abgespeichert ist und wobei das Computerprogramm Codesegmente beinhaltet, die einen Computer dazu veranlassen, die einzelnen Schritte des Verfahrens nach einem der vorhergehenden Ansprüche durchzuführen, wenn dieses Computerprogramm auf diesem Computer ausgeführt wird.
System zum Aufbau eines Sprachmodells zur Verwendung bei der Spracherkennung, beinhaltend: Mittel zur Identifikation einer nutzerbezogenen Textquelle ohne Interaktion des Nutzers; Mittel zum Abrufen von Text aus der identifizierten Textquelle; und Mittel zum Aufbau eines nutzerbezogenen Sprachmodells aus dem abgerufenen Text; DADURCH GEKENNZEICHNET, DASS das Mittel für die Identifikation der Textquelle ohne Interaktion des Nutzers so angeordnet ist, dass es vom Nutzer erstellte Dokumente und/oder Dokumente, die an einem bestimmten Ort auf dem Computer des Nutzers abgespeichert sind, ohne Interaktion des Nutzers identifiziert.
System zum Aufbau eines Sprachmodells zur Verwendung bei der Spracherkennung, beinhaltend: Mittel zur Identifikation einer nutzerbezogenen Textquelle ohne Interaktion des Nutzers; Mittel zum Abrufen von Text aus der identifizierten Textquelle; und Mittel zum Aufbau eines nutzerbezogenen Sprachmodells aus dem abgerufenen Text; DADURCH GEKENNZEICHNET, DASS das Mittel für die Identifikation der Textquelle ohne Interaktion des Nutzers so angeordnet ist, dass es Kontaktinformationen des Nutzers ohne Interaktion des Nutzers identifiziert.