-
Die
vorliegende Erfindung betrifft Automatische Spracherkennung und
-verständnis
(Englisch: Autmoatic Speech Recognition and Understanding – ASRU),
insbesondere ein Verfahren zur Erkennung von Sprachphrasen und einen
Spracherkenner, welcher angepasst ist, gemäß einem solchen Verfahren zu
arbeiten.
-
In
einem ASRU-System wird das analoge als erstes in ein digitales Sprachsignal
umgewandelt, anschließend
wird eine Merkmalsextraktion (feature extraction) durchgeführt, um
eine Sequenz von Merkmalsvektoren (feature vectors) zu erhalten.
Unabhängig
von der verwendeten Erkennungs-Technologie versucht ein ASRU-System
eines der Wörter,
welches es in seinem eigenen Vokabular hat, der Sequenz von erhaltenen
Merkmalsvektoren zuzuordnen.
-
4 zeigt
ein funktionales Blockdiagramm, welches ein vereinfachtes Beispiel
eines allgemeinen Spracherkennungssystems darstellt. Eine Sprachäußerung wird
in das Spracherkennungssystem via eines Mikrofons G 1 eingegeben,
welches ein analoges Sprachsignal an einen A/D-Konverter G2 ausgibt. Das
digitale Sprachsignal, welches durch den A/D-Konverter G2 generiert
wird, wird in ein Merkmalsextrahierungsmodul G3 eingegeben, welches eine
Sequenz von Merkmalsvektoren erzeugt. Abhängig davon, ob das Spracherkennungssystem
im Trainingsmodus oder im Erkennungsmodus ist, wird die Sequenz
von Merkmalsvektoren des Merkmalsextrahierungsmoduls G3 in ein Trainingsmodul
G4 oder ein Erkennungsmodul G5 eingegeben. Das Erkennungsmodul G5
ist bidirektional mit einem Teilworterkenner G6 verbunden.
-
Im
Trainingsmodus ordnet das Trainingsmodul G4 die Sequenz von Merkmalsvektoren
des Merkmalsextrahierungsmodul G3 bekannten Äußerungen zu, d. h. bekannten
Wörtern,
um ein eigenes Vokabular des Spracherkennungssystems zu erzeugen.
In Abhängigkeit
des Systems kann ein solches Vokabular allgemein oder Benutzer-abhängig neu
erzeugt werden und/oder es kann auf einer vorbestimmten Datenbank
basieren.
-
Im
Erkennungsmodus versucht das Erkennungsmodul G5 eines der Wörter des
eigenen Vokabulars des Spracherkennungssystems der Sequenz von Merkmalsvektoren
zuzuordnen, wobei die Merkmalsvektoren von dem Merkmalsextrahierungsmodul G3
erzeugt werden. Der Teilworterkenner G6 dient dazu, das Vokabular
für eine
folgende Erkennung zu reduzieren, falls die aktuelle Erkennung ein
Schlüsselwort
erkennen lässt,
wie dies im Folgenden diskutiert wird.
-
Aus
Sicht der Spracherkennung ist die Aufgabe, eine zuverlässige Zuordnung
zu finden, um so schwieriger, je größer das Vokabular ist, da eine Mehrzahl
von Wörtern
eine vergleichbare Bewertung für
die Zuordnung haben können.
Aus Sicht des Sprachverständnisses
haben nicht alle Wörter
in der Äußerung des
Benutzers die gleiche Wichtigkeit bzw. Bedeutung, da gewöhnlich nur
einige davon in dem bestimmten Kontext relevante Bedeutungen übermitteln.
-
Beliebige
Techniken, die die Vokabulargröße reduzieren
und/oder Wörter
mit relevanten Bedeutungen lokalisieren, können dem ASRU-System zu einer
besseren Leistung verhelfen, z. B. sind innerhalb eines ASRU zur
Autonavigation Wörter
mit einer relevanten Bedeutung Stadtnamen, Straßennamen, Straßennummern,
etc. Bei einer gegebenen Benutzeräußerung können Sprach-basierte Parsertechniken
verwendet werden, um die wahrscheinlicheren relevanten Wörter gemäß einer
Grammatik auszuwählen.
Dennoch muss ein großes
Vokabular bei der Erkennung verarbeitet werden, z. B. die Liste
von allen Stadtnamen plus allen Straßennamen plus Zahlen bzw. Hausnummern.
Um das Vokabular so klein wie möglich
zu halten, für
den Fall, dass ein Wort mittels des Schlüsselworterkenners G6 erkannt
werden kann, kann die Erkennung des folgendes Wortes in Abhängigkeit
eines begrenzten Kategorie-basierten Vokabulars durchgeführt werden.
-
Eine
solche Schlüsselworterkennung
kann u. U. Wörter
wie „gehen" („to go") und „Strasse" („street") detektieren und
anschließend
das Vokabular auf Straßennamen
begrenzen, jedoch nur bei der Erkennung von anderen Wörtern in
der gleichen Äußerung.
Schlüsselworterkennung
(Englisch: keyword spotting) basiert ebenfalls auf Spracherkennung,
wobei die Vokabulargröße jedoch
klein ist, d. h., die Liste von Schlüsselwörtern und ähnlich bewerteten Wörtern sind
gewöhnlich
für die
Erkennungsaufgabe für
deren Detektion nicht kritisch.
-
Schlüsselworterkennung
ist im Wesentlichen ein Verfahren für Taskorientierte ASRU-Systeme,
z. B. Fahrplaninformationssysteme (Englisch: timetable information
systems), um eine erste Ebene einer Analyse der Benutzereingabe
durchzuführen,
zur Fokussierung und anschließenden
Verbesserung der Erkennungsaufgabe. Die zu Grunde liegende Idee besteht
darin, spezielle Wörter
in der Benutzeräußerung zu
detektieren – herausgenommen
aus einer relativ kleinen Liste im Vergleich zum gesamten Vokabular – und anschließend Annahmen
bezüglich
des informativen Inhalts des Satzes zu treffen. Anschließend kann
die Erkennungsaufgabe von Inhaltswörtern (content words) vereinfacht
werden, beispielsweise durch die Reduzierung des Vokabulars auf
nur diejenigen Wörter,
welche mit den Annahmen konsistent sind.
EP 0 601 778 offenbart einen Stand
der Technik zur Implementierung von Schlüsselworterkennung.
-
Für einige
Anwendungen und für
isolierte Spracherkennungssysteme könnte Schlüsselworterkennung jedoch nicht
ausreichen, um das Vokabular zu reduzieren, welches bei der Erkennung
von Inhaltswörtern
verwendet wird, auf eine Größe, bei
welcher eine zuverlässige
Erkennung erreicht werden kann. Beispielsweise kann bei der Anwendung
der Autonavigation die begrenzte Vokabulargröße sogar dann für eine zuverlässige Erkennung
zu groß sein, wenn
bekannt ist, dass das unbekannte Wort ein Straßenname ist, wobei das begrenzte
Vokabular eine Liste von allen Straßennamen in einer gegebenen
Umgebung enthält.
Darüber
hinaus kann es sehr schwierig sein, Äußerungen eines Benutzers, welche nur
ein einzelnes Wort umfassen, überhaupt
zu kategorisieren, da von einem solchen Wort in einem gegebenen
Kontext mehr als ein Aspekt bzw. eine Bedeutung gleich wahrscheinlich übermittelt
werden kann.
-
Eine
bekannte Lösung
dieses Problems ist es, einen Dialog zu bestimmen, in welchem das
System die Initiative ergreift und den Benutzer nach mehr Informationen
befragt, um die Erkennungsaufgabe besser zu fokussieren. Beispielsweise
könnte
das System im Bereich der Autonavigation den Benutzer fragen, die
Postleitzahl des Ziels anzugeben, um das Vokabular auf diejenigen
Straßen
zu begrenzen, die im Bereich dieser Postleitzahl liegen.
-
Eine
weitere Lösung
des Problems ist in
EP 0
655 732 A2 beschrieben, welche eine weiche Entscheidungs-
(Englisch: Soft-Decision) Spracherkennung offenbart, welche die
Tatsache ausnutzt, dass ein Benutzer eines gegebenen Spracherkennungssystems
eine Phrase wahrscheinlich wiederholt (unabhängig davon, ob er aufgefordert
wurde oder nicht), falls eine erste Äußerung der gleichen Phrase durch
das gegebene System nicht erkannt wurde. Die erste Äußerung wird
mit einem oder mehreren Sprachmodellen verglichen, um eine Ähnlichkeitsmatrix
für jeden
solchen Vergleich zu bestimmen und das Sprachmodell, welches am
besten mit der ersten Äußerung übereinstimmt,
wird in Abhängigkeit
der einen oder mehreren Ähnlichkeitsmatrizen
bestimmt. Anschließend
wird die zweite Äußerung mit
einem oder mehreren Sprachmodellen verglichen, welche mit dem am
besten übereinstimmenden
Modell zusammenhängen,
um eine zweite Äußerungsähnlichkeitsmatrix
für jeden
solchen Vergleich zu bestimmen. Das Erkennungsergebnis basiert anschließend auf
der zweiten Äußerungsähnlichkeitsmatrix.
-
Eine
weitere Lösung
wird In
US 5,712,957 vorgeschlagen,
in der ein Verfahren zur Reparatur von Maschinen-erkannter Sprache
vorgeschlagen wird, mittels eines nächstbestem Erkennungsergebnis,
welches berechnet wird, falls das erste Erkennungsergebnis als nicht
korrekt identifiziert wird.
-
Alle
diese vorgeschlagenen Lösungen
zur Verbesserung der Erkennungsaufgabe arbeiten jedoch nicht automatisch,
sondern benötigen
eine Benutzer-Interaktion,
welche für
den Benutzer mühselig ist.
-
Ein
weiterer Ansatz wird in „Adaptive
Vocabularies for Transcribing Multilingual Broadcast News" von P. Geutner et
al. in Proceedings of the 1998 IEEE International Conference on
Acoustics, Speech and Signal Processing, ICASSP '98 beschrieben. In diesem Dokument wird
ein Spracherkennungs system mit einem großen Vokabular vorgestellt,
wobei der Erkennungsprozess in zwei Schritten durchgeführt wird.
In beiden Erkennungsschritten ist die Größe des Vokabulars dabei die
gleiche.
-
Weiterhin
offenbart das Dokument „Automated
Morphosyntactic Analysis of Medical Language" von M. G. Pacak and A. W. Pread, Information
Processing and Management, UK, 1976, Band 12, Seiten 71 bis 76 einen
automatischen Ablauf zur morphosyntaktischen Analyse von medizinischem
Englisch, basierend auf der Erkennung von End-Suffixes als syntaktische
Marker. Darüber
hinaus übermitteln bestimmte
Suffixes semantische Information bezüglich der semantischen Kategorie,
zu welcher ein Wort gehören
kann. Die Bestimmung von syntaktischen und semantischen Informationen
wird dabei auf Wortebene durchgeführt.
-
Der
Erfindung liegt die Aufgabe zugrunde, ein verbessertes automatisches
Verfahren zur Erkennung von Sprachphrasen bereitzustellen und ein
verbessertes Spracherkennungssystem, d. h. ein Spracherkennungssystem,
welches fähig
ist, die Erkennungsergebnisse ohne Benutzer-Interaktion zu verbessern.
-
Diese
Aufgabe wird gelöst
durch ein Verfahren zur Erkennung von Sprachphrasen gemäß dem unabhängigen Anspruch
1. Ansprüche
2 bis 4 definieren bevorzugte Ausführungsformen davon.
-
Ein
Spracherkenner gemäß der vorliegenden
Erfindung ist in dem unabhängigen
Anspruch 5 definiert. Bevorzugte Ausführungsformen davon sind in
den Ansprüchen
6 und 7 definiert.
-
Um
sowohl die Spracherkennung als auch das -verständnis zu unterstützen, werden
gemäß der vorliegenden
Erfindung Schlüsselteilwort-Erkennungstechniken
auf Schlüsselteilwörter angewendet, um
eine selektive Anpassung der Vokabulargröße zu erreichen. Bevorzugt
wird die Technik auf die Aufgabe der isolierten Worterkennung angewendet.
Darüber
hinaus kann die Technik unabhängig
von der verwendeten Spracherkennungstechnologie angewendet werden.
Liegt daher ein unbekanntes Wort vor, so wird eine Mehrzahl von
Erkennungsebenen durchgeführt,
wobei in einer bestimmten Stufe eine Schlüsselteilwort-Erkennung durchgeführt wird,
um die Größe des Vokabulars
zu reduzieren, welches in den folgenden Stufen verwendet wird. In
anderen Worten werden gemäß der vorliegenden
Erfindung Schlüsselteilwörter in
dem unbekannten Wort detektiert, und anschließend wird ein Vokabular verwendet,
welches nur Wörter
enthält,
welche diese Schlüsselteilwörter umfassen.
Selbstverständlich
kann die Prozedur bzw. das Verfahren mehr als einmal angewendet werden.
-
Genauer
gesagt kann gemäß einer
bevorzugten Ausführungsform
der Erfindung bei einem gegebenen unbekannten Wort uw der Erkennungsprozess
in zwei Stufen bzw. Schritte aufgeteilt werden:
- – eine erste
Erkennungsstufe wird durchgeführt; anschließend wird
die Schlüsselteilwort-Erkennung
auf das Ergebnis der Erkennung angewendet, um zu versuchen, die
zu usw. zugehörige
Kategorie zu bestimmen;
- – falls
eine Kategorie detektiert wird, wird eine zweite Erkennungsstufe
mit derselben Spracheingabe durchgeführt, um ein Erkennungsergebnis zu
generieren, z. B. auf Basis der zu uw gehörigen Sequenz von Merkmalsvektoren,
welche gepuffert bzw. gespeichert werden können, wobei jedoch ein begrenztes
Vokabular verwendet wird, welches nur diejenigen Wörter enthält, die
zu der im ersten Schritt bestimmten Kategorie gehören;
- – falls
eine Kategorie nicht detektiert wird, wird das Ergebnis der ersten
Erkennungsstufe als Erkennungsergebnis verwendet.
-
Alternativ
kann die erste Erkennungsstufe ausgelassen werden, falls die Schlüsselteilwort-Erkennung
die Funktionalität
zur Erkennung von Schlüsselteilwörtern aufweist,
z. B. basierend auf einer Ausgabe eines Niedrig-Niveau-Erkennungs-Mechanismus, da in
diesem Fall eine erste Erkennungsstufe, welche ein Erkennungsergebnis
für die
empfangene Äußerung generiert,
nicht notwendig ist. In diesem Fall wird die zweite Erkennungsstufe
ebenfalls unter Verwendung eines begrenzten Vokabulars durchgeführt.
-
Unter
Kategorie wird beispielsweise die Menge an Wörtern verstanden, welche das
Schlüsselteilwort
umfassen. Beispielsweise könnte
im Rahmen der Autonavigation die erste Erkennungsstufe als Ergebnis
der Benutzeräuße rung „Zeppelinstrasse" die Menge von Hypothesen
{„Zeppelinstrasse", „Zollbergsteige, „Zeppenfeldtgasse", Zimmersteige", „Zepplinstrasse"} erzeugen. Unter
Verwendung von Schlüsselteilwort-Erkennung
und Detektieren von strasse als Straßentyp, d. h. als Kategorie,
wird ein begrenztes Vokabular aus einem allgemeinen Vokabular erzeugt,
durch Verwendung aller Wörter,
die strasse als Affix enthalten, hier beispielsweise {Zeppelinstrasse", „Zepplinstrasse"}, falls keine weiteren Wörter des
allgemeinen Vokabulars dieses Affix haben, wobei das begrenzte Vokabular
in der zweiten Erkennungsstufe verwendet werden kann.
-
Alternativ
oder zusätzlich
kann die Kategorie z. B. die gleiche Domäne bzw. den gleichen Bereich definieren,
beispielsweise könnten
Schüsselteilwörter, wie „bach", „burg" etc. ein unbekanntes
Wort als Stadtname identifizieren und ein lediglich Städte enthaltendes
Vokabular wird zur Erkennung verwendet, da „bach" und „burg" gewöhnliche
Affixe für
deutsche Städtenamen
sind.
-
Demgemäß wird Information über eine
Wortkategorie verwendet, um die Verständnisaufgabe zu unterstützen, insbesondere
im Falle von Einzelwortäußerungen.
Beispielsweise in einem Sprachdialogsystem für die Adresseingabe im Bereich
der Autonavigation, falls der Kontext des Systems eine Strassennameneingabe
ist, d. h., das System erwartet, dass der Nutzer einen Straßennamen
eingibt, der Benutzer äußert jedoch
das Wort „Fellbach". Gemäß der vorliegenden
Erfindung ist es möglich,
die Kategorie „bach" zu detektieren und
möglicherweise
festzustellen (zu verstehen), dass ein Stadtname anstatt eines Straßennamens
eingegeben wurde.
-
Gemäß der vorliegenden
Erfindung wird also die Leistung aktueller Systeme durch die Reduzierung
der benötigten
Resourcen verbessert: Insbesondere:
-
- – das
verkleinerte Vokabular führt
zu einem kleineren Suchraum, welcher zusätzlich weniger Speicherplatz
benötigt;
- – ein
kleinerer Suchraum benötigt
weniger Verarbeitungsleistung und führt zu einer schnelleren Systemantwort.
-
Alternativ
kann die Erkennungsgenauigkeit durch Schlüsselteilwort-Erkennung verbessert
werden, falls die Systemresourcen konstant gehalten werden.
-
Selbstverständlich kann
die vorliegende Erfindung auch mehrmals für dieselbe Sprachphrase angewendet
werden, z. B. dadurch, dass zuerst Silben eines Wortes und anschließend das
Wort selbst und anschließend
ein Satz bestehend aus mehreren Wörtern gemäß dem vorliegenden Verfahren
erkannt wird. Gemäß der vorliegenden
Erfindung kann im Falle von Phrasen- oder Satzerkennung nicht nur die Umgestaltung/Reduzierung
des Vokabulars durchgeführt
werden, sondern auch die Umgestaltung oder gezielte Auswahl des
verwendeten Sprachmodells, welches von dem Spracherkenner verwendet
wird.
-
Da
das Spracherkennungssystem gemäß der vorliegenden
Erfindung nicht von Niedrig-Niveau-Spracherkennung abhängt, kann
es, wie oben erwähnt,
vorteilhaft mit anderen Spracherkennungssystemen kombiniert werden,
welche Erkennungsergebnisse automatisch bestimmen und/oder Benutzerinteraktiv,
um ihre Leistung zu verbessern. Eine solche Kombination kann insbesondere
vorteilhaft in der ersten Erkennungsstufe vorgesehen sein.
-
Die
Erfindung und das zugrunde liegende Konzept werden anhand der folgenden
Beschreibung einer beispielhaften Ausführung davon besser verstanden,
in Verbindung mit den Figuren, in welchen
-
1 das
grundlegende Blockdiagramm eines Spracherkenners gemäß der vorliegenden
Erfindung zeigt;
-
2 ein
Flussdiagramm eines Spracherkennungsverfahrens gemäß der vorliegenden
Erfindung zeigt;
-
3 ein
detailliertes Blockdiagramm eines Spracherkennungssystems gemäß der vorliegenden Erfindung
zeigt; und
-
4 ein
Beispiel eines Spracherkennungssystems gemäß dem Stand der Technik zeigt.
-
In
der folgenden Beschreibung wird eine beispielhafte Ausführungsform
gemäß der vorliegenden Erfindung
beschrieben, welche die Erkennung eines unbekannten Wortes zeigt.
Demgemäß besteht
das allgemeine für
den Erkennungsprozess verwendete Vokabular ebenfalls aus Wörtern und
die Schlüsselteilwort-Detektierung
bzw. -Erkennung gemäß der vorliegenden
Erfindung detektiert Teile von Wörtern. In
der folgenden Beschreibung werden die gleichen Bezugszeichen für die gleichen
oder ähnliche
Elemente verwendet.
-
1 zeigt
die wesentliche Funktionalität
eines Spracherkenners gemäß der vorliegenden
Erfindung. Ein unbekanntes Wort wird in eine erste Erkennungsstufeneinheit 1 eingegeben,
welche eine automatische Spracherkennung auf Basis eines allgemeinen
Vokabulars 7 durchführt.
Das Erkennungsergebnis der ersten Erkennungsstufeneinheit 1 wird
als erstes Erkennungsergebnis ausgegeben. Dieses erste Erkennungsergebnis
wird in eine Schüsselteilwort-Detektiereinheit 2 eingegeben,
um eine zu dem eingegebenen unbekannten Wort gehörige Kategorie zu bestimmen.
Wie oben erwähnt,
hängt die
Kategorie von einem oder mehreren erkannten Schlüsselteilwörtern innerhalb des ersten
Erkennungsergebnisses ab. In Abhängigkeit
des einen oder der mehreren detektierten Schlüsselteilwörter bestimmt eine Vokabular-Reduzierungseinheit 8 das
zu der Kategorie gehörige
Vokabular, welches durch die Menge von von der Schlüsselteilwort-Detektiereinheit 2 ausgegebenen
Schlüsselteilwörtern definiert ist.
Nach der Vokabularreduzierung führt
eine zweite Erkennungsstufeneinheit 5 eine zweite automatische Spracherkennung
für dieselbe
Spracheingabe durch, d. h. für
dasselbe unbekannte Wort, auf Basis des reduzierten Vokabulars,
um ein zweites Erkennungsergebnis zu erhalten.
-
Selbstverständlich müssen Teile
des Erkennungsprozesses, die in der ersten Erkennungsstufeneinheit 1 und
der zweiten Erkennungsstufeneinheit 5 identisch sind, nur
einmal verarbeitet werden, z. B. muss die Sequenz von dem unbekannten
Wort entsprechenden Merkmalsvektoren, die bereits innerhalb der
ersten Erkennungsstufeneinheit 1 berechnet wurden, in der
zweiten Erkennungsstufeneinheit 5 nicht wiederholt berechnet
werden. Auch muss die Vokabularreduzierungseinheit 8 keine
Kategorien oder Wörter
des allgemeinen Vokabulars 7 speichern, so dass jedes Wort
innerhalb einer Kategorie separat und erneut unabhängig für diese
Kategorie gespeichert werden müsste,
sondern eine Kategorie oder ein Wort kann auch nur durch Referenzen
auf das allgemeine Vokabular 7 definiert werden.
-
Gemäß der vorliegenden
Erfindung wird das erste Erkennungsergebnis als Erkennungsergebnis ausgegeben,
falls keine Kategorie detektiert wird, und das zweite Erkennungsergebnis
wird ausgegeben, falls für
das bekannte Wort eine Kategorie detektiert wurde. Im ersten Fall
können
die Schritte zur Reduzierung des Vokabulars und die zweite Erkennungsstufe
ausgelassen werden.
-
2 zeigt
ein Ablaufdiagramm des Verfahrens zur Erkennung von Sprachphrasen
gemäß der vorliegenden
Erfindung. Ein in das System eingegebenes unbekanntes Wort wird
in einem ersten Schritt S1 verarbeitet, um seine Merkmalsvektoren
zu erhalten, die anschließend
gepuffert bzw. gespeichert werden. In einem folgenden Schritt S2
wird die erste Erkennungsstufe durchgeführt auf Basis der gepufferten
Merkmalsvektoren des Schrittes S1. Anschließend wird im Schritt S3 die
Schlüsselteilwort-Erkennung
durchgeführt,
um die Kategorie des unbekannten Wortes in Abhängigkeit des ersten Erkennungsergebnisses
der im Schritt S2 durchgeführten
ersten Erkennungsstufe zu detektieren. Im Schritt S4 wird entschieden,
ob eine Kategorie im Schritt S3 detektiert werden konnte. Falls
dies der Fall ist, wird im Schritt S5 ein begrenztes Vokabular ausgewählt, d.
h. z. B. die Menge von Wörtern,
welche alle gefundenen Schlüsselteilwörter umfassen,
und/oder die Menge von Wörtern,
die zu allen gefundenen Schlüsselteilwörtern in
Bezug stehen, wonach im Schritt S6 eine zweite Erkennungsstufe durchgeführt wird,
unter Verwendung des begrenzten Vokabulars und der gepufferten Merkmalsvektoren
des unbekannten Wortes. Für
den Fall, dass eine Kategorie im Schritt S3 detektiert wurde, entspricht
die Ausgabe der im Schritt S6 durchgeführten Erkennungsstufe dem gewollten
Erkennungsergebnis. Für
den Fall, dass im Schritt S3 keine Kategorie detektiert wurde, wird
nach dem Schritt S4 direkt das Ergebnis der im Schritt S2 durchgeführten ersten
Erkennungsstufe als Erkennungsergebnis ausgegeben.
-
3 zeigt
ein detailliertes Blockdiagramm des Spracherkenners gemäß der vorliegenden
Erfindung. Die Merkmalsvektoren eines unbekannten Wortes werden
in eine erste Erkennungsstufeneinheit 1 eingegeben und
ein Puffer 4 puffert die Merkmalsvektoren zur entsprechenden
Versorgung der zweiten Erkennungsstufeneinheit 5. Die erste
Erkennungsstufeneinheit 1 bestimmt das erste Erkennungsergebnis
in Abhängigkeit
des allgemeinen Vokabulars 7 und gibt dieses an einen Ausgabeauswahlschalter 6 und
an die Schlüsselteilwort-Detektiereinheit 2.
Die Schlüsselteilwort-Detektiereinheit 2 bestimmt
eine Kategorie gemäß der detektierten Schlüsselteilwörter und
gibt diese Kategorie an einen Vokabularauswähler 8 aus, welcher
Wörter
aus dem allgemeinen Vokabular 7 auswählt, die die gefundenen Schlüsselteilwörter umfassen
oder einen Bezug zu diesen aufweisen. Diese ausgewählten Wörter bilden
ein begrenztes Vokabular 9 auf Basis dessen die zweite
Erkennungsstufeneinheit 5 das zweite Erkennungsergebnis
aus den gepufferten Eingabemerkmalsvektoren des unbekannten Wortes
bestimmt, welches ebenso an den Ausgabeauswahlschalter 6 ausgegeben
wird. Abhängig
davon, ob die Schlüsselteilwort-Detektiereinheit 2 eine
Kategorie detektieren konnte, gibt diese ein Kontrollsignal an den
Ausgabeauswahlschalter 6 aus, zur Auswahl, welches des
ersten und zweiten Erkennungsergebnisses als endgültiges Erkennungsergebnis
ausgegeben werden soll.
-
3 zeigt,
dass die erste Erkennungsstufeneinheit 1, die Schlüsselteilwortdetektiereinheit 2 und
die zweite Erkennungsstufeneinheit 5 alle jeweils eine
entsprechende Erkennung oder Detektion mit Hilfe des Erkennungs-Mechanismus 3 durchführen, der
entsprechend bidirektional mit den genannten Einheiten verbunden
ist. Wie oben erwähnt,
ist die vorliegende Erfindung abhängig von den entsprechenden
Niedrig-Niveau-Erkennungsalgorithmen, die von dem Erkennungsmechanismus 3 verwendet werden.
Es ist jedoch möglich,
separate Erkennungsmechanismen zu verwenden.
-
Wie
oben in der allgemeinen Beschreibung des erfindungsgemäßen Konzepts
als Alternative zu der bevorzugten Ausführungsform der Erfindung beschrieben,
kann die Schlüsselteilwort-Detekierung unabhängig vom
ersten Erkennungsstufenergebnis durchgeführt werden, beispielsweise
auf Basis der Ausgabe eines Niedrig-Niveau-Erkennungsmechanismus
(Englisch: lower level recognition engine), um das Vokabular der
zweiten Erkennungsstufeneinheit zu reduzieren, sogar unter Verwendung
einer beliebigen ersten Erkennungsstufe, die beispielsweise eine Schlüsselteilwort-Erkennungstechnik
beinhaltet. In diesem Fall ist keine erste Erkennungsstufeneinheit, wie
im Zusammenhang mit dem oberen Beispiel in Verbindung mit den 1 bis 3 beschrieben,
nötig,
d. h., es ist nur ein Niedrig-Niveau-Erkennungsmecha nismus nötig, der
es dem Schlüsselteilwortdetektor
erlaubt, Schüsselteilwörter zu
erkennen, und welcher kein Erkennungsergebnis auf Wortbasis generiert.
Ein solcher Erkennungsmechanismus kann auch in einem entsprechenden
Schüsselteilwortdetektors
integriert sein.
-
In
diesem Fall kann die Schlüsselteilwort-Detektierung
darüber
hinaus auch lose mit einer ersten Erkennungsstufeneinheit zur Erzeugung
von Erkennungsergebnissen verbunden sein, so dass die beiden Erkennungseinheiten
als unabhängig
und separat angesehen werden können.