DE69938374T2

DE69938374T2 - Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle

Info

Publication number: DE69938374T2
Application number: DE69938374T
Authority: DE
Inventors: Luciano c/o Loquendo S.p.A Fissore; Roberto c/o Loquendo S.p.A Gemello; Franco c/o Loquendo S.p.A Ravera
Original assignee: Loquendo SpA
Current assignee: Loquendo SpA
Priority date: 1998-05-07
Filing date: 1999-05-04
Publication date: 2009-04-30
Anticipated expiration: 2019-05-05
Also published as: EP0955628B1; CA2270326A1; JP2000029495A; EP0955628A3; EP0955628A2; ITTO980383A1; JP3078279B2; CA2270326C; DE69938374D1; US6185528B1

Description

Die Erfindung betrifft automatische Spracherkennungssysteme, und sie betrifft insbesondere ein Verfahren und eine Vorrichtung für eine Erkennung isolierter Worte in umfangreichen Vokabularen, wobei Worte durch eine Kombination akustisch-phonetischer Spracheinheiten dargestellt werden und wobei eine Erkennung durch zwei aufeinanderfolgende Schritte bewirkt wird, bei welchen die Verfahren neuronaler Netzwerke bzw. der Markov-Modelle verwendet werden, und die Ergebnisse der beiden Verfahren adäquat kombiniert werden, um so die Erkennungsgenauigkeit zu verbessern.
Neuronale Netzwerke sind parallele Verarbeitungsstrukturen, welche die Organisation der Hirnrinde in sehr vereinfachter Form nachbilden. Ein neuronales Netzwerk wird von zahlreichen Verarbeitungseinheiten gebildet, welche Neuronen genannt werden und durch Verbindungen verschiedener Intensität stark miteinander verbunden sind, welche Synapsen oder Verbindungsgewichte genannt werden. Neuronen sind im Allgemeinen gemäß einer geschichteten Struktur organisiert, welche eine Eingangsschicht, eine oder mehrere Zwischenschichten und eine Ausgangsschicht umfaßt. Angefangen von den Eingangseinheiten, welche das Signal empfangen, welches verarbeitet werden soll, pflanzt sich die Verarbeitung an die nachfolgenden Schichten in dem Netzwerk bis zu den Ausgangseinheiten fort, welche das Ergebnis bereitstellen. Verschiedene Implementierungen neuronaler Netzwerke werden beispielsweise in dem Buch von D. Rumelhart „Parallel Distributed Processing", Bd. 1 – Foundations, MIT Press, Cambridge, Mass., 1986, beschrieben.
Neuronale Netzwerkverfahren sind auf viele Sektoren und insbesondere auf die Spracherkennung anwendbar, bei welcher ein neuronales Netzwerk verwendet wird, um eine Wahrscheinlichkeit P(Q|X) einer phonetischen Einheit Q bei gegebener parametrischer Repräsentation X eines Abschnitts des Eingangssprachsignals abzuschätzen. Worte, welche erkannt werden sollen, werden als eine Verkettung phonetischer Einheiten dargestellt, und ein dynamischer Programmalgorithmus wird verwendet, um das Wort mit der höchsten Wahrscheinlichkeit als das zu identifizieren, welches ausgesprochen wurde.
Verborgene Markov-Modelle sind ein klassisches Spracherkennungsverfahren. Ein Modell dieses Typs wird von einer Anzahl von Zuständen gebildet, welche durch die möglichen Übergänge miteinander verbunden sind. Zu den Übergängen gehört eine Wahrscheinlichkeit des Passierens aus dem Ursprungszustand in den Zielzustand. Weiterhin kann jeder Zustand Symbole eines endlichen Alphabets gemäß einer gegebenen Wahrscheinlichkeitsverteilung ausgeben. Im Fall des Einsatzes zur Spracherkennung repräsentiert jedes Modell eine akustisch-phonetische Einheit durch einen Links-Rechts-Automaten, bei welchem es möglich ist, mit einem zyklischen Übergang in jedem Zustand zu bleiben oder in den nächsten Zustand zu passieren. Weiterhin ist jedem Zustand eine Wahrscheinlichkeitsdichte zugeordnet, welche über X definiert ist, wobei X einen Parametervektor repräsentiert, welcher alle 10 ms aus dem Sprachsignal abgeleitet wird. Die ausgegebenen Symbole sind deshalb gemäß der Wahrscheinlichkeitsdichte, welche dem Zustand zugeordnet ist, die unendlichen möglichen Parametervektoren X. Diese Wahrscheinlichkeitsdichte ist durch eine Mischung aus Gaußschen-Kurven in dem multidimensionalen Raum der Eingangsvektoren gegeben.
Auch in dem Fall der verborgenen Markov-Modelle werden Worte, welche erkannt werden sollen, als eine Verkettung phonetischer Einheiten dargestellt, und es wird ein dynamischer Programmieralgorithmus (Viterbi-Algorithmus) verwendet, um das ausgesprochene Wort bei gegebenem Eingangssprachsignal mit der höchsten Wahrscheinlichkeit herauszufinden.
Weitere Einzelheiten über dieses Erkennungsverfahren können z. B. gefunden werden in: L. Rabiner, B-H. Juang „Fundamentals of speech recognition", Prentice Hall, Englewood Cliffs, New Jersey (USA).
Das Verfahren dieser Erfindung verwendet sowohl das neuronale Netzwerkverfahren als auch das Markov-Modell-Verfahren durch eine zweistufige Erkennung und durch eine Kombination mittels der aus beiden Verfahren erhaltenen Ergebnisse.
Ein Erkennungssystem, bei welchem Punktwerte verschiedener Erkennungseinrichtungen kombiniert werden, um das Leistungsvermögen in Bezug auf die Erkennungsgenauigkeit zu verbessern, wird in dem Papier „Speech recognition using segmental neural nets" von S. Austin, G. Zavaliagkos, J. Makhoul und R. Schwartz, präsentiert auf der ICASSP 92 Conference, San Francisco, 23. bis 26. März 1992, beschrieben.
Dieses bekannte System führt eine erste Erkennung mittels verborgener Markov-Modelle durch, wobei es eine Liste der N besten Erkennungshypothesen (beispielsweise: 20), d. h. der N Sätze, welche die höchste Wahrscheinlichkeit aufweisen, daß sie der Satz sind, welcher tatsächlich gesprochen wurde, zusammen mit ihren Wahrscheinlichkeitspunktwerten bereitstellt. Die Markov-Erkennungsstufe stellt auch eine phonetische Segmentierung jeder Hypothese bereit und überträgt das Segmentierungsergebnis an eine zweite Erkennungsstufe, welche auf einem neuronalen Netzwerk basiert. Diese Stufe führt eine Erkennung durch, welche mit den phonetischen Segmenten beginnt, welche von dem ersten Markov-Schritt geliefert werden, und stellt wiederum eine Liste der Hypothesen, jeweils mit einem zugeordneten Wahrscheinlichkeitspunktwert, gemäß dem neuronalen Erkennungsverfahren bereit. Beide Punktwerte werden dann linear kombiniert, um so eine einzige Liste zu bilden, und die beste Hypothese, welche aus einer derartigen Kombination hervorgeht, wird als erkannte Äußerung ausgewählt.
Ein System dieser Art weist einige Nachteile auf. Ein erster Nachteil besteht aufgrund des zweiten Erkennungsschritts, welcher ausgehend von den phonetischen Segmenten durchgeführt wird, welche von dem ersten Schritt geliefert werden: wenn die Segmentierung durch Zeitfehler beeinträchtigt wird, wird der zweite Schritt wiederum Erkennungsfehler produzieren, welche sich in die abschließende Liste fortpflanzen. Weiterhin ist ein derartiges System für eine Erkennung isolierter Worte innerhalb großer Vokabulare unzulänglich, da es als eine erste Stufe die Markov-Erkennungseinrichtung einsetzt, welche unter derartigen Umständen in Bezug auf die Rechenlast etwas weniger effizient ist als die neuronale. Wenn zusätzlich berücksichtigt wird, daß die Hypothesen, welche von einer Markov-Erkennungseinrichtung bereitgestellt werden, und eine neuronale Netzwerk-Erkennungseinrichtung ziemlich verschiedene Punktwertdynamiken zeigen, kann eine bloße lineare Kombination der Punktwerte zu Ergebnissen führen, welche nicht signifikant sind. Schließlich liefert das bekannte System keine Zuverlässigkeitsinformationen über die ausgeführte Erkennung.
Die Verfügbarkeit dieser Informationen ist bei Systemen, welche eine Erkennung isolierter Worte einsetzen, auf der anderen Seite ein besonders wichtiges Merkmal: Tatsächlich fordern diese Systeme im Allgemeinen den Benutzer auf, das gesprochene Wort zu bestätigen, wobei folglich eine längere Verfahrensdauer bewirkt wird. Wenn Zuverlässigkeitsinformationen bereitgestellt werden, kann das System nur dann zu einer Bestätigung auffordern, wenn die Erkennungszuverlässigkeit unter einen gegebenen Schwellenwert fällt, wobei das Verfahren mit Vorteilen sowohl für den Benutzer als auch für den Systembetreiber beschleunigt wird.
Der Zweck der Erfindung ist es, ein Erkennungsverfahren und eine Vorrichtung des oben stehend beschriebenen Typs bereitzustellen, welche zweckmäßigerweise so entworfen sind, daß sie isolierte Worte innerhalb großer Vokabulare erkennen, und welche ein Verbessern der Erkennungsgenauigkeit und ein Erhalten einer Erkennungszuverlässigkeitsauswertung gestatten.
Insbesondere ist das Verfahren gemäß dieser Erfindung dadurch gekennzeichnet, daß die beiden Erkennungsschritte der Reihe nach an einer gleichen Äußerung, welche erkannt werden soll, auf eine derartige Weise arbeiten, daß der neuronale Schritt das gesamte aktive Vokabular analysiert und der Markov-Schritt nur ein Teilvokabular analysiert, welches von der Liste der Hypothesen repräsentiert wird, welche als das Ergebnis des neuronalen Schritts bereitgestellt werden, sowie dadurch, daß zusätzlich eine Auswertung der Erkennungszuverlässigkeit nach der besten Hypothese der neugeordneten Liste auf der Grundlage der Punktwerte ausgeführt wird, welche aus der Kombination resultieren und einer derartigen besten Hypothese und einer oder mehreren Hypothesen auf nachfolgenden Positionen in der neugeordneten Liste zugeordnet sind, wodurch ein Zuverlässigkeitsindex erzeugt wird, welcher mindestens zwei Werte aufweisen kann, welche einer Erkennung entsprechen, welche als „bestimmt" bzw. als „nicht bestimmt" bewertet wurde.
Eine Erkennungseinrichtung zum Ausführen des Verfahrens ist dadurch gekennzeichnet, daß die neuronale Netz-Erkennungseinheit vor der Erkennungseinheit auf der Grundlage verborgener Markov-Modelle lokalisiert ist und in der Lage ist, ihre Erkennung durch Bearbeitung mit dem gesamten aktiven Vokabular zu bewirken, und die Erkennungseinheit auf der Grundlage verborgener Markov-Modelle in der Lage ist, ihre Erkennung unabhängig von der neuronalen Netz-Erkennungseinheit zu bewirken, indem sie mit einem Teilvokabular arbeitet, welches durch die Hypothesen gebildet wird, welche in der Liste enthalten sind, welche von der neuronalen Netzwerkeinheit geliefert werden; sowie dadurch, daß die Verarbeitungseinheit eine Auswertungseinrichtung zum Auswerten der Erkennungszuverlässigkeit für die Hypothese umfaßt, welche den besten Wahrscheinlichkeitspunktwert in der neugeordneten Liste der Hypothesen aufweist, indem sie die kombinierten Punktwerte verwendet, welche den Hypothesen zugeordnet sind, welche in der neugeordneten Liste enthalten sind, wobei die Auswertungseinrichtung in der Lage ist, einen Zuverlässigkeitsindex zu liefern, welcher mindestens zwei Werte aufweisen kann, welche einer Erkennung entsprechen, welche für eine derartige Hypothese als „bestimmt" bzw. als „nicht bestimmt" bewertet wurde.
Zur weiteren Verdeutlichung wird auf die begleitenden Zeichnungen verwiesen, wobei:
1 ein Blockdiagramm eines Erkennungssystems gemäß der Erfindung ist;
2 ein Ablaufdiagramm des Erkennungsverfahrens gemäß der Erfindung ist;
3 ein Ablaufdiagramm der Vorgänge zur Punktwertkombination ist;
4 ein Ablaufdiagramm der Vorgänge zur Berechnung der Erkennungszuverlässigkeit ist.
Die folgende Beschreibung wird rein mittels eines nicht einschränkenden Beispiels unter der Annahme bereitgestellt, daß die Erfindung für die Erkennung isolierter Worte verwendet wird.
1 stellt das Erkennungssystem gemäß der Erfindung dar, welches von zwei Erkennungseinrichtungen NE, MA, gebildet wird, welche in zwei aufeinanderfolgenden und unabhängigen Erkennungsschritten mit dem Sprachsignal arbeiten, welches über Leitung 1 eintrifft. Wie in der Technik üblich, ist das Signal, welches auf Leitung 1 vorhanden ist, eine geeignete parametrische Repräsentation (beispielsweise eine Cepstrum-Repräsentation) eines von einem Sprecher geäußerten Worts, welche in Verarbeitungsvorrichtungen (nicht gezeigt) erhalten wird und in Frames von einer Dauer von beispielsweise 10 bis 15 ms organisiert wird.
Die Erkennungseinrichtung NE, welche in dem ersten Schritt arbeitet, basiert auf dem neuronalen Netzwerkverfahren und führt eine Erkennung unter Verwendung des ganzen aktiven Vokabulars durch. NE liefert auf Ausgang 2 eine Liste der M(nn) Worte, welche die besten Erkennungshypothesen gemäß dem spezifischen Typ des neuronalen Netzwerks bilden, und ihnen ist jeweils ein entsprechender akustischer Wahrscheinlichkeitspunktwert nn_i zugeordnet.
Der Ausgang 2 von NE ist auch mit der zweiten Erkennungseinrichtung MA verbunden, welche auch das Signal empfangt, welches auf Leitung 1 vorhanden ist, und führt eine Erkennung auf der Grundlage des Verfahrens des verborgenen Markov-Modells (HMM) durch, allerdings unter Begrenzung der Auswahl der möglichen Erkennungshypothesen auf das Vokabular, welches durch die M(nn) Worte repräsentiert wird, welche von der Erkennungseinrichtung NE identifiziert wurden. MA liefert wiederum auf einem Ausgang 3 eine Liste von M(hmm) Worten, welche die besten Erkennungshypothesen gemäß dem Markov-Modell repräsentieren, und ihnen wird jeweils ein entsprechender akustischer Wahrscheinlichkeitspunktwert hmm_j zugeordnet.
Beide Listen werden auf herkömmliche Weise als geordnete Liste ausgegeben. Es muß angemerkt werden, daß sie in dem allgemeinsten Fall verschiedene Langen aufweisen können, und die M(hmm) Worte, welche von MA bereitgestellt werden, dank den Arbeitseigenschaften von MA ein Untersatz der M(nn) Worte sind, welche von NE bereitgestellt werden.
Die Ausgänge 2, 3 der beiden Erkennungseinrichtungen NE, MA sind mit einer Punktwertverarbeitungsvorrichtung EL verbunden, welche zwei Arten Vorgänge auszuführen muß:

1) Verarbeiten der Punktwerte, welche Worte betreffen, welche in den beiden Listen vorhanden sind, durch Normieren der Punktwerte jedes Worts und Kombinieren der normierten Punktwerte und am Ende einer derartigen Verarbeitung Bereitstellen einer neuen Liste, welche gemäß der kombinierten Punktwerte neu geordnet ist, auf einem ersten Ausgang 4 des Systems;
2) wenn beide Erkennungseinrichtungen NE, MA ein gleiches Wort als die beste Erkennungshypothese identifiziert haben, Berechnen eines Zuverlässigkeitsindexes für ein derartiges Wort (welches natürlich die beste Hypothese in der kombinierten Liste ist) und Ausgeben auf einem zweiten Ausgang 5 des Systems durch Verifizieren, daß einige gegebene Bedingungen, welche die Wahrscheinlichkeitspunktwerte innerhalb einer derartigen kombinierten Liste betreffen, erfüllt sind.

Unter Berücksichtigung dieser zweifachen Funktion sind drei funktionale Blöcke UE1, CM, UE2 innerhalb der Punktwertverarbeitungsvorrichtung EL in der Figur dargestellt. UE1 ist eine Verarbeitungseinheit, welche mit der Ausführung der Vorgänge betraut ist, welche die Punktwertnormalisierung der Listen, welche von NE und MA bereitgestellt werden, die Kombination der normierten Punktwerte und die Erzeugung der neugeordneten Liste auf der Grundlage der kombinierten Punktwerte betreffen, welche auf Ausgang 4 ausgegeben wird. CM ist eine Vergleichseinheit, welche dazu dient, zu verifizieren, ob das beste erkannte Wort in beiden Listen gleich ist, und falls dies zutrifft, Einheit UE2 zu aktivieren. Die Letztere wiederum ist eine Verarbeitungseinheit, welche dazu dient, zu verifizieren, ob die erwünschten Bedingungen für kombinierte Punktwerte erfüllt werden, und als eine Konsequenz den Zuverlässigkeitsindex auf Ausgang 5 auszugeben. Bei dem hier beschriebenen Implementierungsbeispiel wird angenommen, daß ein derartiger Index zwei Werte annehmen kann, welche einer Erkennung entsprechen, welche als „bestimmt" bzw. als „nicht bestimmt" bewertet wurde.
Die Weise, auf welche die Einheiten UE1, UE2 die oben stehend beschriebenen Vorgänge durchführen, wird nachfolgend ausführlicher beschrieben.
Die eingeführte Lösung, bei welcher die neuronale Erkennungseinrichtung NE vor der Markov-Erkennungseinrichtung MA angeordnet ist, verbessert die Gesamteffizienz. Tatsächlich gestattet das neuronale Netzwerkverfahren höhere Erkennungsgeschwindigkeiten mit großen Vokabularen, wohingegen das Markov-Modellverfahren ein besseres Leistungsvermögen mit eingeschränkten Vokabularen bietet. Indem die Markov-Erkennungseinrichtung MA bei dem zweiten Erkennungsschritt verwendet wird, bei welchem nur das Vokabular entsprechend der besten M(nn) Hypothesen verwendet wird, welches von der neuronalen Erkennungseinrichtung NE erhalten wurde, ist es möglich, die Gesamterkennungsdauer zu reduzieren.
Die Vorteile in Bezug auf die Geschwindigkeit, welche neuronale Netzwerke bieten, werden insbesondere dann erhalten, wenn die neuronale Erkennungseinrichtung NE von dem Typ ist, bei welchem eine Ausbreitung der Verarbeitungsergebnisse inkrementell erfolgt (d. h. NE weist ein mehrschichtiges Netzwerk auf, bei welchem eine Ausbreitung von einer Schicht zu einer höheren nur signifikante Differenzen unter den Aktivierungswerten von Neuronen zu nachfolgenden Zeitpunkten einbezieht), wie beispielsweise in der europäischen Patentanmeldung EP-A 0 733 982 des gleichen Anmelders beschrieben. Es gibt keine speziellen Anforderungen für die Markov-Erkennungseinrichtung MA, welche von einem beliebigen in der Technik bekannten Typ sein kann.
Es ist wichtig anzumerken, daß 1 ein Funktionsblockdiagramm ist und die Blöcke UE1, CM, UE2 deshalb im Allgemeinen verschiedenen Teilen eines Programms entsprechen, welches in der Verarbeitungsvorrichtung EL gespeichert ist. Unter Berücksichtigung, daß auch die individuellen Erkennungseinrichtungen NE, MA wiederum mittels adäquat programmierter Verarbeitungsvorrichtungen implementiert sind, ist es offensichtlich, daß eine gleiche Verarbeitungsvorrichtung, die Aufgaben von mehr als einem der dargestellten Blöcke durchführen kann.
Das gesamte Erkennungsverfahren, welches von der Vorrichtung in 1 erreicht wird, wird auch in der Form eines Ablaufdiagramms in 2 gezeigt. Mit der vorhergehenden Beschreibung sind keine weiteren Erklärungen erforderlich.
Was die Vorgänge angeht, welche die Punktwertverarbeitung für die Hypothesen betreffen, welche in beiden Listen aufgenommen sind, welche von NE und MA bereitgestellt werden, ist der erste Schritt, welcher von UE1 durchgeführt wird, die Berechnung des Mittelwerts μ(nn), μ(hmm) und der Varianz σ(nn), σ(hmm) der Punktwerte für jede der beiden Listen gemäß der bekannten Formeln:
wobei M(hmm), M(nn), nn_i, hmm_j die oben stehend angegebene Bedeutung aufweisen.
Der nachfolgende Schritt ist die Punktwertnormalisierung hinsichtlich des Mittelwerts und der Varianz, um so zwei Listen NN_i, HMM_j der Punktwerte mit einem Mittelwert von null und einheitlicher Varianz zu erhalten. Zu diesem Zweck führt UE1 Vorgänge aus, welche durch die folgenden Relationen repräsentiert werden:
UE1 führt die Berechnung des Mittelwerts und der Varianz der Punktwerte (und ihre Normalisierung) für eine Liste nur durch, wenn die Anzahl Worte in dieser Liste nicht geringer als ein gegebener Schwellenwert M ist. Bei der bevorzugten Ausführungsform wird M = 3 eingestellt, d. h. der Minimalwert für welchen die Mittelwert- und Varianzberechnung möglich ist. Wenn die Anzahl Worte in einer Liste geringer als der Schwellenwert M ist, verwendet UE1 vordefinierte Punktwerte an Stelle des Punktwerts, welcher von einer jeweiligen Erkennungseinrichtung geliefert wird. Dies wiederum ist eine Art der Normalisierung. Bei bisher durchgeführten Experimenten wurde im Fall nur einer Hypothese ein Punktwert von 3,0 zugeordnet und die Werte 2,0 und 1,0 im Fall von nur zwei Hypothesen. Die Erkennungseinrichtung hat sich als wenig empfindlich für den Wert dieser Parameter gezeigt; folglich kann ein beliebiger Wert entsprechend einer guten Wahrscheinlichkeit verwendet werden.
Schließlich wird die tatsächliche Kombination der Punktwerte IP_h(HMM), IP_k(NN), welche einem gleichen Wort zugeordnet sind, innerhalb der beiden Listen durchgeführt, um die abschließende Liste der möglichen Worte zu erzeugen, welche dann gemäß dem kombinierten Punktwert neugeordnet wird. Es wird eine lineare Kombination durchgeführt, so daß jedes Wort IPx innerhalb der neuen Liste einen kombinierten Punktwert Sx aufweist, welcher gegeben ist durch Sx = α·NNh + β·HMMk wobei α und β Gewichte sind, welche jeder der beiden Erkennungseinrichtungen zugeordnet sind.
Vorzugsweise erfüllen die beiden Gewichte (innerhalb der Einheit UE1 gespeichert) die Beziehung β = 1 – α, wobei α = 0,5 ist, wenn beide Erkennungseinrichtungen ein im Wesentlichen gleiches Leistungsvermögen aufweisen. Im Fall eines ziemlich verschiedenen Leistungsvermögens kann ein geeigneter Bereich für die Werte α und β 0,4 bis 0,6 sein.
Es ist klar, daß die Punktwertkombination im Fall von Worten, welche in nur einer Liste vorhanden sind, nicht durchgeführt wird. Diese Worte (welche im Allgemeinen zu der Liste gehören, welche aus den oben stehend beschriebenen Gründen von dem neuronalen Netzwerk bereitgestellt wird) können verworfen werden, oder ihnen kann ein minimaler Punktwert zugeordnet werden, so daß sie in der abschließenden Liste nach denjenigen eingefügt werden, für welche die Punktwertkombination ausgeführt wurde.
Aufgrund der Normalisierung, welche Listen mit einem Mittelwert von null und einheitlicher Varianz bereitstellt, werden die Wirkungen aufgrund der verschiedenen Dynamiken der Punktwerte, welche von beiden Erkennungseinrichtungen geliefert werden, beseitigt, und die Erkennungszuverlässigkeit wird verbessert.
Dieses Verfahren wird auch in dem Ablaufdiagramm der 3 dargestellt. Mit der gegebenen vorhergehenden Beschreibung erfordert das Ablaufdiagramm keine weiteren Erklärungen.
Wenn UE1 einmal die kombinierten Punktwerte erhalten und die neugeordnete Liste erzeugt hat, kann Block UE2 die Erkennungszuverlässigkeit des ersten Worts in der Liste bestimmen. Wie bereits gesagt, werden die Vorgänge von UE2 durch den Komparator CM ermöglicht, wenn er erkennt, daß ein gleiches Wort die erste Position in den Listen aufweist, welche von NE und MA bereitgestellt werden, d. h. IP1(NN) = P1(HMM) ist. Für eine Zuverlässigkeitsauswertung bewertet UE2 den Punktwert, welcher dem besten Wort zugeordnet ist, und die Punktwertdifferenzen zwischen diesem Wort und einigen der nachfolgenden Worte innerhalb der Liste. Um insbesondere die Erkennung als „bestimmt" zu berücksichtigen, ist es nötig, (gleichzeitig mit der Bedingung, welche die Identität des besten Worts innerhalb der beiden Listen betrifft) auch die folgenden Bedingungen zu erfüllen:

1) der kombinierte Punktwert S1 des ersten Worts in der neugeordneten Liste muß höher als ein erster Schwellenwert T1 sein;
2) die Differenzen zwischen dem kombinierten Punktwert S1, welcher dem ersten Wort in der neugeordneten Liste zugeordnet ist, und den Punktwerten S2, S5, welche dem zweiten und dem fünften Wort zugeordnet sind, sind höher als ein zweiter bzw. als ein dritter Schwellenwert T2, T3.

Die Differenzen S1 – S2 und S1 – S5 werden berechnet und nur mit ihrem jeweiligen Schwellenwert verglichen, wenn eine ausreichende Anzahl Hypothesen vorhanden ist; falls dies nicht der Fall ist, wird Bedingung 2) als erfüllt angesehen.
Die Schwellenwerte werden gemäß der Anwendung gesetzt, in welcher die Erkennungseinrichtung verwendet wird. Beispielsweise wurden bei durchgeführten Experimenten die folgenden Werte eingeführt: T1 = 2,0, T2 = 0,9; T3 = 2,3
Intuitiv ist erkennbar, wie die oben stehend beschriebenen Bedingungen (welche zusätzlich zu der Identität der besten Erkennungshypothese, welche von beiden Listen bereitgestellt wird, auch eine ausreichende Punktwertdifferenz zwischen der besten Hypothese und den nachfolgenden in der Liste erfordern) die tatsächliche Auswertung der Erkennungszuverlässigkeit gestatten.
Die Vorgänge zur Erkennungszuverlässigkeitsauswertung werden auch in der Form eines Ablaufdiagramms in 4 dargestellt. Es muß angemerkt werden, daß in diesem Diagramm die Identität des besten Worts in beiden Listen als eine Bedingung gezeigt wird, welche zusammen mit anderen Bedingungen gemeinsam verifiziert werden muß, statt sie als eine vorläufige Bedingung für die Verifizierung der anderen Bedingungen anzusehen, es ist jedoch offensichtlich, daß dies nur Implementierungsdetails des gleichen Prinzips sind. Auch dieses Diagramm erfordert keine weiteren Erklärungen.
Es ist offensichtlich, daß die obenstehende Beschreibung als rein nicht einschränkendes Beispiel bereitgestellt wird und daß Variationen und/oder Modifikationen möglich sind, ohne dadurch den Schutzumfang der Erfindung selbst zu verlassen. Beispielsweise könnte es zur Zuverlässigkeitsbewertung möglich sein, nur zu verifizieren, ob der beste Wortpunktwert ausreichend höher ist als der des zweiten Worts, wobei folglich der Vergleich mit einem zusätzlichen Wort vermieden wird (welches außerdem nicht das fünfte sein muß, sondern ein anderes Wort, welches ausreichend weit von dem zweiten entfernt ist). Zum Verifizieren der Erkennungszuverlässigkeit könnten die obenstehend gegebenen Bedingungen auf eine verschiedene Weise kombiniert werden – oder es könnten weitere Bedingungen hinzugefügt werden –, so daß ein Zwischenauswertungsgrad zwischen „bestimmt" und „nicht bestimmt" eingeführt werden kann: beispielsweise könnte ein Zwischenauswertungsgrad durch Erfüllen der Bedingungen nur für die Schwellenwerte T1 und T2 nicht aber für T3 repräsentiert werden. Schließlich könnte die Erkennungseinrichtung auch für kontinuierliche Sprache verwendet werden, auch wenn in der Beschreibung auf die Erkennung isolierter Worte verwiesen wurde.

Claims

Verfahren zur Spracherkennung, wobei: zwei Erkennungsschritte (NE, MA) durchgeführt werden, einer unter Verwendung neuronaler Netze, und der andere unter Verwendung verborgener Markov-Modelle, wobei jeder Schritt eine jeweilige Liste von Erkennungshypothesen zuführt, in der jede Hypothese zu einem jeweiligen akustischen Wahrscheinlichkeitspunktwert gehört; die Wahrscheinlichkeitspunktwerte jeder Liste verarbeitet werden; und eine einzelne, auf der Grundlage der verarbeiteten Wahrscheinlichkeitspunkte neugeordnete Liste ausgebildet wird; dadurch gekennzeichnet, dass die zwei Erkennungsschritte (NE, MA) aufeinanderfolgend auf dieselbe zu erkennende Äußerung auf einem derartigen Weg einwirken, dass der neuronale Schritt (NE) das gesamte aktive Vokabular analysiert und der Markov-Schritt (MA) nur ein Teil-Vokabular analysiert, das durch die Liste der als ein Ergebnis des neuronalen Schritts (NE) erhaltenen Hypothesen dargestellt ist; und zusätzlich eine Auswertung einer Erkennungszuverlässigkeit für die beste Hypothese der neugeordneten Liste durchgeführt wird, die sich aus einer Kombination auf der Grundlage der verarbeiteten Wahrscheinlichkeitspunktwerte ergibt und zu einer derartigen besten Hypothese und einer oder mehreren Hypothesen, die nachfolgende Positionen in der neugeordneten Liste erfasst, gehört, wodurch sich ein Zuverlässigkeitsindex ergibt, der zumindest zwei Werte annehmen kann, entsprechend den Fällen einer Erkennung, die als „bestimmt" bzw. „nicht bestimmt" beurteilt ist.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Wahrscheinlichkeitspunktwertverarbeitung die folgenden Vorgänge aufweist: – Berechnen der Mittelwerts und der Varianz der zu den Hypothesen in jeder der Listen gehörigen Punktwerte; – Normieren der zu den Hypothesen in jeder der Liste gehörigen Punktwerte im Hinblick auf den jeweiligen Mittelwert und die Varianz, um derartige Listen in Listen umzuformen, in denen die Punktwerte einen Null-Mittelwert und eine einheitliche Varianz besitzen; – lineares Kombinieren der zu auf beiden Listen vorhandenen Erkennungshypothesen gehörigen normierten Punktwerte.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Mittelwert- und die Varianzberechnung und die Punktwertnormierung für eine Liste nur ausgeführt werden, wenn eine derartige Liste eine Anzahl von Hypothesen enthält, die nicht niedriger als ein Minimum ist.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass für eine Liste, die eine Anzahl von Hypothesen niedriger als ein derartiger Minimalwert enthält, die Punktwerte der in einer derartigen Liste enthaltenen Hypothesen vorbestimmten Werten zugewiesen werden.
Verfahren nach einem der Ansprüche 2 bis 4, dadurch gekennzeichnet, dass für die lineare Kombination die Punktwerte von auf beiden Listen vorhandenen Hypothesen gemäß Gewichten mit einer einheitlichen Summe gewichtet werden.
Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass für die Erzeugung der einzelnen Liste in nur einer Liste vorhandene Hypothesen verworfen werden.
Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass für die Erzeugung einer einzelnen Liste in nur einer Liste vorhandenen Hypothesen ein minimaler Punktwert gegeben wird, der niedriger als der minimale kombinierte Punktwert einer auf beiden Listen vorhandenen Hypothese ist.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Auswertung einer Erkennungszuverlässigkeit für die beste Erkennungshypothese in der einzelnen Liste durchgeführt wird, wenn die Hypothese die beste in beiden Listen war, und die Vorgänge enthält von: – Vergleichen des zur besten Hypothese gehörigen kombinierten Punktwerts mit einem ersten Schwellenwert; – Berechnen einer ersten Punktwertdifferenz, gegeben durch die Differenz zwischen dem zu der besten Hypothese gehörigen kombinierten Punktwert und dem zur Hypothese mit dem nächstniedrigeren Punktwerte gehörigen; und – Vergleichen der ersten Differenz mit einem zweiten Schwellenwert; und dass dem Zuverlässigkeitsindex ein Wert entsprechend einer Erkennung, die als sicher bewertet ist, gegeben wird, wenn der kombinierte Punktwert und die erste Differenz beide höher als ihr jeweiliger Schwellenwert sind.
Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass die Erkennungszuverlässigkeitsauswertung auch die Vorgänge enthält von: – Berechnen einer zweiten Punktwertdifferenz, gegeben durch die Differenz zwischen dem zur besten Hypothese gehörigen kombinierten Punktwert und dem zu einer zusätzlichen Hypothese mit einer nachfolgenden Position gehörigen, der um eine vorbestimmte Anzahl von Positionen in der neugeordneten Liste beabstandet ist; und – Vergleichen der zweiten Differenz mit einem dritten Schwellenwert; und dass dem Zuverlässigkeitsindex der Wert entsprechend einer Erkennung, die als sicher bewertet ist, gegeben wird, wenn auch die zusätzliche Differenz höher als der jeweilige Schwellenwert ist.
Verfahren nach Anspruch 8 oder 9, dadurch gekennzeichnet, dass eine Berechnung der Differenzen nur ausgeführt wird, wenn die Listen eine Anzahl von Hypothesen nicht niedriger als ein minimaler Wert aufweisen.
Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass im Fall von Listen mit einer Anzahl von Hypothesen niedriger als der minimale Wert, die Bedingung eines Überschreitens des zweiten und dritten Schwellenwerts als erfüllt betrachtet wird.
Spracherkennungseinrichtung mit: – einem Paar von in Kaskade verbundenen Erkennungseinheiten (NN, MA), die eine Erkennungstechnik auf der Grundlage neuronaler Netze bzw. eine Erkennungstechnik auf der Grundlage verborgener Markov-Modelle verwenden, und jeweilige Listen von Erkennungs-Hypothesen ausbilden, in denen jede Hypothese zu einem jeweiligen akustischen Wahrscheinlichkeitspunktwert gehört; und – einer Verarbeitungseinheit (EL), die eine Kombinationseinrichtung (UE1) zur Kombination der durch beide Erkennungseinheiten (NN, MA) bestimmten Punktwerte und zur Ausbildung einer neugeordneten Liste auf der Grundlage der kombinierten Punktwerte enthält; dadurch gekennzeichnet, dass die neuronale Netz-Erkennungseinheit (NN) vor der Erkennungseinheit (MA) basierend auf verborgenen Markov-Modellen angeordnet ist und entworfen ist, eine Erkennung durch Einwirkung auf das gesamte aktive Vokabular durchzuführen, und die Erkennungseinheit (MA) basierend auf verborgenen Markov-Modellen entworfen ist, eine Erkennung unabhängig von der neuronalen Netz-Erkennungseinheit (NN) durch Einwirkung auf ein Teilvokabular, das durch die in der durch die neuronale Netz-Einheit zugeführten Liste vorhandenen Hypothesen gebildet ist, durchzuführen; und dadurch, dass die Verarbeitungseinheit (EL) eine Auswertungseinrichtung (CM, UE2) zur Auswertung einer Erkennungszuverlässigkeit der Hypothese, die den besten Wahrscheinlichkeitspunktwert innerhalb der neugeordneten Liste besitzt, durch Verwendung der zu den in der neugeordneten Liste vorhandenen Hypothesen gehörigen kombinierten Punktwerte enthält, wobei die Auswertungseinrichtung (CM, UE2) einen Zuverlässigkeitsindex bilden kann, der zumindest zwei Werte annehmen kann, entsprechend einer Erkennung, die für eine derartige Hypothese als „bestimmt" bzw. als „nicht-bestimmt" bewertet ist.
Spracherkennungseinrichtung nach Anspruch 12, dadurch gekennzeichnet, dass die Kombinationseinrichtung (UE1) angeordnet ist, zu in beiden Listen enthaltenen Erkennungshypothesen gehörige Wahrscheinlichkeitspunktwerte linear zu kombinie ren, nachdem eine Vorverarbeitung davon durchgeführt wurde, die die folgenden Vorgänge enthält: – Berechnen der Mittelwerts und der Varianz der zu den Hypothesen in jeder Liste gehörigen Punktwerte; – Normieren der zu den Hypothesen gehörigen Punktwerte im Hinblick auf den Mittelwert und die Varianz ihrer jeweiligen Liste, um die Listen in Punktwertlisten mit Null-Mittelwert und einheitlicher Varianz umzuwandeln.
Spracherkennungseinrichtung nach Anspruch 13, dadurch gekennzeichnet, dass die derartige Kombinationseinrichtung (UE1) aktiviert ist, die Mittelwert- und die Varianzberechnung und die Normierung der durch jede Erkennungseinheit (NN, MA) zur Verfügung gestellten Punktwerte der Listen nur auszuführen, wenn derartige Listen eine Anzahl von Hypothesen nicht niedriger als ein Minimum enthalten.
Spracherkennungseinrichtung nach einem der Ansprüche 12 bis 14, dadurch gekennzeichnet, dass die Auswertungseinrichtung (CM, UE2) eine erste Vergleichseinrichtung (CM) zum Vergleich der durch die neuronale Netz-Erkennungseinheit (NN) identifizierten besten Erkennungshypothese mit der durch die Erkennungseinheit (MA) auf der Grundlage verborgener Markov-Modelle zugeführten und zur Ausgabe eines Freigabesignals, wenn derartige beste Hypothesen übereinstimmen, und eine zweite Vergleichseinrichtung (UE2), die durch das Freigabesignal freigegeben wird und angeordnet ist, den Punktwerte der besten Hypothese in der neugeordneten Liste und die Differenz zwischen dem zur besten Hypothese in der neugeordneten Liste gehörigen Punktwert und dem zur Hypothese mit einem nächstniedrigeren Punktwerte gehörigen Punktwerte mit jeweiligen Schwellenwerten zu vergleichen, und den Zuverlässigkeitsindex mit einem Wert entsprechend einer Erkennung, die als sicher bewertet ist, wenn ein derartiger Punktwert und die Differenz ihre jeweiligen Schwellenwerte überschreiten, zu er teilen.
Spracherkennungseinrichtung nach Anspruch 15, dadurch gekennzeichnet, dass die zweite Vergleichseinrichtung (UE2) entworfen ist, die Differenz zwischen dem zur besten Hypothese der neugeordneten Liste gehörigen Punktwert und dem zu einer eine nachfolgende Position besitzenden und um eine vorbestimmte Anzahl von Positionen in der neugeordneten Liste beabstandeten Hypothese gehörigen Punktwert mit einem zusätzlichen Schwellenwert zu vergleichen, und den Zuverlässigkeitsindex mit einem Wert entsprechend einer Erkennung, die als „bestimmt" bewertet ist, wenn auch eine derartige Differenz einen derartigen zusätzlichen Schwellenwert überschreitet, zu erteilen.