[go: up one dir, main page]

DE69938374T2 - Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle - Google Patents

Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle Download PDF

Info

Publication number
DE69938374T2
DE69938374T2 DE69938374T DE69938374T DE69938374T2 DE 69938374 T2 DE69938374 T2 DE 69938374T2 DE 69938374 T DE69938374 T DE 69938374T DE 69938374 T DE69938374 T DE 69938374T DE 69938374 T2 DE69938374 T2 DE 69938374T2
Authority
DE
Germany
Prior art keywords
recognition
list
hypotheses
hypothesis
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69938374T
Other languages
English (en)
Other versions
DE69938374D1 (de
Inventor
Luciano c/o Loquendo S.p.A Fissore
Roberto c/o Loquendo S.p.A Gemello
Franco c/o Loquendo S.p.A Ravera
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Loquendo SpA
Original Assignee
Loquendo SpA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Loquendo SpA filed Critical Loquendo SpA
Application granted granted Critical
Publication of DE69938374D1 publication Critical patent/DE69938374D1/de
Publication of DE69938374T2 publication Critical patent/DE69938374T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Description

  • Die Erfindung betrifft automatische Spracherkennungssysteme, und sie betrifft insbesondere ein Verfahren und eine Vorrichtung für eine Erkennung isolierter Worte in umfangreichen Vokabularen, wobei Worte durch eine Kombination akustisch-phonetischer Spracheinheiten dargestellt werden und wobei eine Erkennung durch zwei aufeinanderfolgende Schritte bewirkt wird, bei welchen die Verfahren neuronaler Netzwerke bzw. der Markov-Modelle verwendet werden, und die Ergebnisse der beiden Verfahren adäquat kombiniert werden, um so die Erkennungsgenauigkeit zu verbessern.
  • Neuronale Netzwerke sind parallele Verarbeitungsstrukturen, welche die Organisation der Hirnrinde in sehr vereinfachter Form nachbilden. Ein neuronales Netzwerk wird von zahlreichen Verarbeitungseinheiten gebildet, welche Neuronen genannt werden und durch Verbindungen verschiedener Intensität stark miteinander verbunden sind, welche Synapsen oder Verbindungsgewichte genannt werden. Neuronen sind im Allgemeinen gemäß einer geschichteten Struktur organisiert, welche eine Eingangsschicht, eine oder mehrere Zwischenschichten und eine Ausgangsschicht umfaßt. Angefangen von den Eingangseinheiten, welche das Signal empfangen, welches verarbeitet werden soll, pflanzt sich die Verarbeitung an die nachfolgenden Schichten in dem Netzwerk bis zu den Ausgangseinheiten fort, welche das Ergebnis bereitstellen. Verschiedene Implementierungen neuronaler Netzwerke werden beispielsweise in dem Buch von D. Rumelhart „Parallel Distributed Processing", Bd. 1 – Foundations, MIT Press, Cambridge, Mass., 1986, beschrieben.
  • Neuronale Netzwerkverfahren sind auf viele Sektoren und insbesondere auf die Spracherkennung anwendbar, bei welcher ein neuronales Netzwerk verwendet wird, um eine Wahrscheinlichkeit P(Q|X) einer phonetischen Einheit Q bei gegebener parametrischer Repräsentation X eines Abschnitts des Eingangssprachsignals abzuschätzen. Worte, welche erkannt werden sollen, werden als eine Verkettung phonetischer Einheiten dargestellt, und ein dynamischer Programmalgorithmus wird verwendet, um das Wort mit der höchsten Wahrscheinlichkeit als das zu identifizieren, welches ausgesprochen wurde.
  • Verborgene Markov-Modelle sind ein klassisches Spracherkennungsverfahren. Ein Modell dieses Typs wird von einer Anzahl von Zuständen gebildet, welche durch die möglichen Übergänge miteinander verbunden sind. Zu den Übergängen gehört eine Wahrscheinlichkeit des Passierens aus dem Ursprungszustand in den Zielzustand. Weiterhin kann jeder Zustand Symbole eines endlichen Alphabets gemäß einer gegebenen Wahrscheinlichkeitsverteilung ausgeben. Im Fall des Einsatzes zur Spracherkennung repräsentiert jedes Modell eine akustisch-phonetische Einheit durch einen Links-Rechts-Automaten, bei welchem es möglich ist, mit einem zyklischen Übergang in jedem Zustand zu bleiben oder in den nächsten Zustand zu passieren. Weiterhin ist jedem Zustand eine Wahrscheinlichkeitsdichte zugeordnet, welche über X definiert ist, wobei X einen Parametervektor repräsentiert, welcher alle 10 ms aus dem Sprachsignal abgeleitet wird. Die ausgegebenen Symbole sind deshalb gemäß der Wahrscheinlichkeitsdichte, welche dem Zustand zugeordnet ist, die unendlichen möglichen Parametervektoren X. Diese Wahrscheinlichkeitsdichte ist durch eine Mischung aus Gaußschen-Kurven in dem multidimensionalen Raum der Eingangsvektoren gegeben.
  • Auch in dem Fall der verborgenen Markov-Modelle werden Worte, welche erkannt werden sollen, als eine Verkettung phonetischer Einheiten dargestellt, und es wird ein dynamischer Programmieralgorithmus (Viterbi-Algorithmus) verwendet, um das ausgesprochene Wort bei gegebenem Eingangssprachsignal mit der höchsten Wahrscheinlichkeit herauszufinden.
  • Weitere Einzelheiten über dieses Erkennungsverfahren können z. B. gefunden werden in: L. Rabiner, B-H. Juang „Fundamentals of speech recognition", Prentice Hall, Englewood Cliffs, New Jersey (USA).
  • Das Verfahren dieser Erfindung verwendet sowohl das neuronale Netzwerkverfahren als auch das Markov-Modell-Verfahren durch eine zweistufige Erkennung und durch eine Kombination mittels der aus beiden Verfahren erhaltenen Ergebnisse.
  • Ein Erkennungssystem, bei welchem Punktwerte verschiedener Erkennungseinrichtungen kombiniert werden, um das Leistungsvermögen in Bezug auf die Erkennungsgenauigkeit zu verbessern, wird in dem Papier „Speech recognition using segmental neural nets" von S. Austin, G. Zavaliagkos, J. Makhoul und R. Schwartz, präsentiert auf der ICASSP 92 Conference, San Francisco, 23. bis 26. März 1992, beschrieben.
  • Dieses bekannte System führt eine erste Erkennung mittels verborgener Markov-Modelle durch, wobei es eine Liste der N besten Erkennungshypothesen (beispielsweise: 20), d. h. der N Sätze, welche die höchste Wahrscheinlichkeit aufweisen, daß sie der Satz sind, welcher tatsächlich gesprochen wurde, zusammen mit ihren Wahrscheinlichkeitspunktwerten bereitstellt. Die Markov-Erkennungsstufe stellt auch eine phonetische Segmentierung jeder Hypothese bereit und überträgt das Segmentierungsergebnis an eine zweite Erkennungsstufe, welche auf einem neuronalen Netzwerk basiert. Diese Stufe führt eine Erkennung durch, welche mit den phonetischen Segmenten beginnt, welche von dem ersten Markov-Schritt geliefert werden, und stellt wiederum eine Liste der Hypothesen, jeweils mit einem zugeordneten Wahrscheinlichkeitspunktwert, gemäß dem neuronalen Erkennungsverfahren bereit. Beide Punktwerte werden dann linear kombiniert, um so eine einzige Liste zu bilden, und die beste Hypothese, welche aus einer derartigen Kombination hervorgeht, wird als erkannte Äußerung ausgewählt.
  • Ein System dieser Art weist einige Nachteile auf. Ein erster Nachteil besteht aufgrund des zweiten Erkennungsschritts, welcher ausgehend von den phonetischen Segmenten durchgeführt wird, welche von dem ersten Schritt geliefert werden: wenn die Segmentierung durch Zeitfehler beeinträchtigt wird, wird der zweite Schritt wiederum Erkennungsfehler produzieren, welche sich in die abschließende Liste fortpflanzen. Weiterhin ist ein derartiges System für eine Erkennung isolierter Worte innerhalb großer Vokabulare unzulänglich, da es als eine erste Stufe die Markov-Erkennungseinrichtung einsetzt, welche unter derartigen Umständen in Bezug auf die Rechenlast etwas weniger effizient ist als die neuronale. Wenn zusätzlich berücksichtigt wird, daß die Hypothesen, welche von einer Markov-Erkennungseinrichtung bereitgestellt werden, und eine neuronale Netzwerk-Erkennungseinrichtung ziemlich verschiedene Punktwertdynamiken zeigen, kann eine bloße lineare Kombination der Punktwerte zu Ergebnissen führen, welche nicht signifikant sind. Schließlich liefert das bekannte System keine Zuverlässigkeitsinformationen über die ausgeführte Erkennung.
  • Die Verfügbarkeit dieser Informationen ist bei Systemen, welche eine Erkennung isolierter Worte einsetzen, auf der anderen Seite ein besonders wichtiges Merkmal: Tatsächlich fordern diese Systeme im Allgemeinen den Benutzer auf, das gesprochene Wort zu bestätigen, wobei folglich eine längere Verfahrensdauer bewirkt wird. Wenn Zuverlässigkeitsinformationen bereitgestellt werden, kann das System nur dann zu einer Bestätigung auffordern, wenn die Erkennungszuverlässigkeit unter einen gegebenen Schwellenwert fällt, wobei das Verfahren mit Vorteilen sowohl für den Benutzer als auch für den Systembetreiber beschleunigt wird.
  • Der Zweck der Erfindung ist es, ein Erkennungsverfahren und eine Vorrichtung des oben stehend beschriebenen Typs bereitzustellen, welche zweckmäßigerweise so entworfen sind, daß sie isolierte Worte innerhalb großer Vokabulare erkennen, und welche ein Verbessern der Erkennungsgenauigkeit und ein Erhalten einer Erkennungszuverlässigkeitsauswertung gestatten.
  • Insbesondere ist das Verfahren gemäß dieser Erfindung dadurch gekennzeichnet, daß die beiden Erkennungsschritte der Reihe nach an einer gleichen Äußerung, welche erkannt werden soll, auf eine derartige Weise arbeiten, daß der neuronale Schritt das gesamte aktive Vokabular analysiert und der Markov-Schritt nur ein Teilvokabular analysiert, welches von der Liste der Hypothesen repräsentiert wird, welche als das Ergebnis des neuronalen Schritts bereitgestellt werden, sowie dadurch, daß zusätzlich eine Auswertung der Erkennungszuverlässigkeit nach der besten Hypothese der neugeordneten Liste auf der Grundlage der Punktwerte ausgeführt wird, welche aus der Kombination resultieren und einer derartigen besten Hypothese und einer oder mehreren Hypothesen auf nachfolgenden Positionen in der neugeordneten Liste zugeordnet sind, wodurch ein Zuverlässigkeitsindex erzeugt wird, welcher mindestens zwei Werte aufweisen kann, welche einer Erkennung entsprechen, welche als „bestimmt" bzw. als „nicht bestimmt" bewertet wurde.
  • Eine Erkennungseinrichtung zum Ausführen des Verfahrens ist dadurch gekennzeichnet, daß die neuronale Netz-Erkennungseinheit vor der Erkennungseinheit auf der Grundlage verborgener Markov-Modelle lokalisiert ist und in der Lage ist, ihre Erkennung durch Bearbeitung mit dem gesamten aktiven Vokabular zu bewirken, und die Erkennungseinheit auf der Grundlage verborgener Markov-Modelle in der Lage ist, ihre Erkennung unabhängig von der neuronalen Netz-Erkennungseinheit zu bewirken, indem sie mit einem Teilvokabular arbeitet, welches durch die Hypothesen gebildet wird, welche in der Liste enthalten sind, welche von der neuronalen Netzwerkeinheit geliefert werden; sowie dadurch, daß die Verarbeitungseinheit eine Auswertungseinrichtung zum Auswerten der Erkennungszuverlässigkeit für die Hypothese umfaßt, welche den besten Wahrscheinlichkeitspunktwert in der neugeordneten Liste der Hypothesen aufweist, indem sie die kombinierten Punktwerte verwendet, welche den Hypothesen zugeordnet sind, welche in der neugeordneten Liste enthalten sind, wobei die Auswertungseinrichtung in der Lage ist, einen Zuverlässigkeitsindex zu liefern, welcher mindestens zwei Werte aufweisen kann, welche einer Erkennung entsprechen, welche für eine derartige Hypothese als „bestimmt" bzw. als „nicht bestimmt" bewertet wurde.
  • Zur weiteren Verdeutlichung wird auf die begleitenden Zeichnungen verwiesen, wobei:
  • 1 ein Blockdiagramm eines Erkennungssystems gemäß der Erfindung ist;
  • 2 ein Ablaufdiagramm des Erkennungsverfahrens gemäß der Erfindung ist;
  • 3 ein Ablaufdiagramm der Vorgänge zur Punktwertkombination ist;
  • 4 ein Ablaufdiagramm der Vorgänge zur Berechnung der Erkennungszuverlässigkeit ist.
  • Die folgende Beschreibung wird rein mittels eines nicht einschränkenden Beispiels unter der Annahme bereitgestellt, daß die Erfindung für die Erkennung isolierter Worte verwendet wird.
  • 1 stellt das Erkennungssystem gemäß der Erfindung dar, welches von zwei Erkennungseinrichtungen NE, MA, gebildet wird, welche in zwei aufeinanderfolgenden und unabhängigen Erkennungsschritten mit dem Sprachsignal arbeiten, welches über Leitung 1 eintrifft. Wie in der Technik üblich, ist das Signal, welches auf Leitung 1 vorhanden ist, eine geeignete parametrische Repräsentation (beispielsweise eine Cepstrum-Repräsentation) eines von einem Sprecher geäußerten Worts, welche in Verarbeitungsvorrichtungen (nicht gezeigt) erhalten wird und in Frames von einer Dauer von beispielsweise 10 bis 15 ms organisiert wird.
  • Die Erkennungseinrichtung NE, welche in dem ersten Schritt arbeitet, basiert auf dem neuronalen Netzwerkverfahren und führt eine Erkennung unter Verwendung des ganzen aktiven Vokabulars durch. NE liefert auf Ausgang 2 eine Liste der M(nn) Worte, welche die besten Erkennungshypothesen gemäß dem spezifischen Typ des neuronalen Netzwerks bilden, und ihnen ist jeweils ein entsprechender akustischer Wahrscheinlichkeitspunktwert nni zugeordnet.
  • Der Ausgang 2 von NE ist auch mit der zweiten Erkennungseinrichtung MA verbunden, welche auch das Signal empfangt, welches auf Leitung 1 vorhanden ist, und führt eine Erkennung auf der Grundlage des Verfahrens des verborgenen Markov-Modells (HMM) durch, allerdings unter Begrenzung der Auswahl der möglichen Erkennungshypothesen auf das Vokabular, welches durch die M(nn) Worte repräsentiert wird, welche von der Erkennungseinrichtung NE identifiziert wurden. MA liefert wiederum auf einem Ausgang 3 eine Liste von M(hmm) Worten, welche die besten Erkennungshypothesen gemäß dem Markov-Modell repräsentieren, und ihnen wird jeweils ein entsprechender akustischer Wahrscheinlichkeitspunktwert hmmj zugeordnet.
  • Beide Listen werden auf herkömmliche Weise als geordnete Liste ausgegeben. Es muß angemerkt werden, daß sie in dem allgemeinsten Fall verschiedene Langen aufweisen können, und die M(hmm) Worte, welche von MA bereitgestellt werden, dank den Arbeitseigenschaften von MA ein Untersatz der M(nn) Worte sind, welche von NE bereitgestellt werden.
  • Die Ausgänge 2, 3 der beiden Erkennungseinrichtungen NE, MA sind mit einer Punktwertverarbeitungsvorrichtung EL verbunden, welche zwei Arten Vorgänge auszuführen muß:
    • 1) Verarbeiten der Punktwerte, welche Worte betreffen, welche in den beiden Listen vorhanden sind, durch Normieren der Punktwerte jedes Worts und Kombinieren der normierten Punktwerte und am Ende einer derartigen Verarbeitung Bereitstellen einer neuen Liste, welche gemäß der kombinierten Punktwerte neu geordnet ist, auf einem ersten Ausgang 4 des Systems;
    • 2) wenn beide Erkennungseinrichtungen NE, MA ein gleiches Wort als die beste Erkennungshypothese identifiziert haben, Berechnen eines Zuverlässigkeitsindexes für ein derartiges Wort (welches natürlich die beste Hypothese in der kombinierten Liste ist) und Ausgeben auf einem zweiten Ausgang 5 des Systems durch Verifizieren, daß einige gegebene Bedingungen, welche die Wahrscheinlichkeitspunktwerte innerhalb einer derartigen kombinierten Liste betreffen, erfüllt sind.
  • Unter Berücksichtigung dieser zweifachen Funktion sind drei funktionale Blöcke UE1, CM, UE2 innerhalb der Punktwertverarbeitungsvorrichtung EL in der Figur dargestellt. UE1 ist eine Verarbeitungseinheit, welche mit der Ausführung der Vorgänge betraut ist, welche die Punktwertnormalisierung der Listen, welche von NE und MA bereitgestellt werden, die Kombination der normierten Punktwerte und die Erzeugung der neugeordneten Liste auf der Grundlage der kombinierten Punktwerte betreffen, welche auf Ausgang 4 ausgegeben wird. CM ist eine Vergleichseinheit, welche dazu dient, zu verifizieren, ob das beste erkannte Wort in beiden Listen gleich ist, und falls dies zutrifft, Einheit UE2 zu aktivieren. Die Letztere wiederum ist eine Verarbeitungseinheit, welche dazu dient, zu verifizieren, ob die erwünschten Bedingungen für kombinierte Punktwerte erfüllt werden, und als eine Konsequenz den Zuverlässigkeitsindex auf Ausgang 5 auszugeben. Bei dem hier beschriebenen Implementierungsbeispiel wird angenommen, daß ein derartiger Index zwei Werte annehmen kann, welche einer Erkennung entsprechen, welche als „bestimmt" bzw. als „nicht bestimmt" bewertet wurde.
  • Die Weise, auf welche die Einheiten UE1, UE2 die oben stehend beschriebenen Vorgänge durchführen, wird nachfolgend ausführlicher beschrieben.
  • Die eingeführte Lösung, bei welcher die neuronale Erkennungseinrichtung NE vor der Markov-Erkennungseinrichtung MA angeordnet ist, verbessert die Gesamteffizienz. Tatsächlich gestattet das neuronale Netzwerkverfahren höhere Erkennungsgeschwindigkeiten mit großen Vokabularen, wohingegen das Markov-Modellverfahren ein besseres Leistungsvermögen mit eingeschränkten Vokabularen bietet. Indem die Markov-Erkennungseinrichtung MA bei dem zweiten Erkennungsschritt verwendet wird, bei welchem nur das Vokabular entsprechend der besten M(nn) Hypothesen verwendet wird, welches von der neuronalen Erkennungseinrichtung NE erhalten wurde, ist es möglich, die Gesamterkennungsdauer zu reduzieren.
  • Die Vorteile in Bezug auf die Geschwindigkeit, welche neuronale Netzwerke bieten, werden insbesondere dann erhalten, wenn die neuronale Erkennungseinrichtung NE von dem Typ ist, bei welchem eine Ausbreitung der Verarbeitungsergebnisse inkrementell erfolgt (d. h. NE weist ein mehrschichtiges Netzwerk auf, bei welchem eine Ausbreitung von einer Schicht zu einer höheren nur signifikante Differenzen unter den Aktivierungswerten von Neuronen zu nachfolgenden Zeitpunkten einbezieht), wie beispielsweise in der europäischen Patentanmeldung EP-A 0 733 982 des gleichen Anmelders beschrieben. Es gibt keine speziellen Anforderungen für die Markov-Erkennungseinrichtung MA, welche von einem beliebigen in der Technik bekannten Typ sein kann.
  • Es ist wichtig anzumerken, daß 1 ein Funktionsblockdiagramm ist und die Blöcke UE1, CM, UE2 deshalb im Allgemeinen verschiedenen Teilen eines Programms entsprechen, welches in der Verarbeitungsvorrichtung EL gespeichert ist. Unter Berücksichtigung, daß auch die individuellen Erkennungseinrichtungen NE, MA wiederum mittels adäquat programmierter Verarbeitungsvorrichtungen implementiert sind, ist es offensichtlich, daß eine gleiche Verarbeitungsvorrichtung, die Aufgaben von mehr als einem der dargestellten Blöcke durchführen kann.
  • Das gesamte Erkennungsverfahren, welches von der Vorrichtung in 1 erreicht wird, wird auch in der Form eines Ablaufdiagramms in 2 gezeigt. Mit der vorhergehenden Beschreibung sind keine weiteren Erklärungen erforderlich.
  • Was die Vorgänge angeht, welche die Punktwertverarbeitung für die Hypothesen betreffen, welche in beiden Listen aufgenommen sind, welche von NE und MA bereitgestellt werden, ist der erste Schritt, welcher von UE1 durchgeführt wird, die Berechnung des Mittelwerts μ(nn), μ(hmm) und der Varianz σ(nn), σ(hmm) der Punktwerte für jede der beiden Listen gemäß der bekannten Formeln:
    Figure 00080001
    wobei M(hmm), M(nn), nni, hmmj die oben stehend angegebene Bedeutung aufweisen.
  • Der nachfolgende Schritt ist die Punktwertnormalisierung hinsichtlich des Mittelwerts und der Varianz, um so zwei Listen NNi, HMMj der Punktwerte mit einem Mittelwert von null und einheitlicher Varianz zu erhalten. Zu diesem Zweck führt UE1 Vorgänge aus, welche durch die folgenden Relationen repräsentiert werden:
    Figure 00090001
  • UE1 führt die Berechnung des Mittelwerts und der Varianz der Punktwerte (und ihre Normalisierung) für eine Liste nur durch, wenn die Anzahl Worte in dieser Liste nicht geringer als ein gegebener Schwellenwert M ist. Bei der bevorzugten Ausführungsform wird M = 3 eingestellt, d. h. der Minimalwert für welchen die Mittelwert- und Varianzberechnung möglich ist. Wenn die Anzahl Worte in einer Liste geringer als der Schwellenwert M ist, verwendet UE1 vordefinierte Punktwerte an Stelle des Punktwerts, welcher von einer jeweiligen Erkennungseinrichtung geliefert wird. Dies wiederum ist eine Art der Normalisierung. Bei bisher durchgeführten Experimenten wurde im Fall nur einer Hypothese ein Punktwert von 3,0 zugeordnet und die Werte 2,0 und 1,0 im Fall von nur zwei Hypothesen. Die Erkennungseinrichtung hat sich als wenig empfindlich für den Wert dieser Parameter gezeigt; folglich kann ein beliebiger Wert entsprechend einer guten Wahrscheinlichkeit verwendet werden.
  • Schließlich wird die tatsächliche Kombination der Punktwerte IPh(HMM), IPk(NN), welche einem gleichen Wort zugeordnet sind, innerhalb der beiden Listen durchgeführt, um die abschließende Liste der möglichen Worte zu erzeugen, welche dann gemäß dem kombinierten Punktwert neugeordnet wird. Es wird eine lineare Kombination durchgeführt, so daß jedes Wort IPx innerhalb der neuen Liste einen kombinierten Punktwert Sx aufweist, welcher gegeben ist durch Sx = α·NNh + β·HMMk wobei α und β Gewichte sind, welche jeder der beiden Erkennungseinrichtungen zugeordnet sind.
  • Vorzugsweise erfüllen die beiden Gewichte (innerhalb der Einheit UE1 gespeichert) die Beziehung β = 1 – α, wobei α = 0,5 ist, wenn beide Erkennungseinrichtungen ein im Wesentlichen gleiches Leistungsvermögen aufweisen. Im Fall eines ziemlich verschiedenen Leistungsvermögens kann ein geeigneter Bereich für die Werte α und β 0,4 bis 0,6 sein.
  • Es ist klar, daß die Punktwertkombination im Fall von Worten, welche in nur einer Liste vorhanden sind, nicht durchgeführt wird. Diese Worte (welche im Allgemeinen zu der Liste gehören, welche aus den oben stehend beschriebenen Gründen von dem neuronalen Netzwerk bereitgestellt wird) können verworfen werden, oder ihnen kann ein minimaler Punktwert zugeordnet werden, so daß sie in der abschließenden Liste nach denjenigen eingefügt werden, für welche die Punktwertkombination ausgeführt wurde.
  • Aufgrund der Normalisierung, welche Listen mit einem Mittelwert von null und einheitlicher Varianz bereitstellt, werden die Wirkungen aufgrund der verschiedenen Dynamiken der Punktwerte, welche von beiden Erkennungseinrichtungen geliefert werden, beseitigt, und die Erkennungszuverlässigkeit wird verbessert.
  • Dieses Verfahren wird auch in dem Ablaufdiagramm der 3 dargestellt. Mit der gegebenen vorhergehenden Beschreibung erfordert das Ablaufdiagramm keine weiteren Erklärungen.
  • Wenn UE1 einmal die kombinierten Punktwerte erhalten und die neugeordnete Liste erzeugt hat, kann Block UE2 die Erkennungszuverlässigkeit des ersten Worts in der Liste bestimmen. Wie bereits gesagt, werden die Vorgänge von UE2 durch den Komparator CM ermöglicht, wenn er erkennt, daß ein gleiches Wort die erste Position in den Listen aufweist, welche von NE und MA bereitgestellt werden, d. h. IP1(NN) = P1(HMM) ist. Für eine Zuverlässigkeitsauswertung bewertet UE2 den Punktwert, welcher dem besten Wort zugeordnet ist, und die Punktwertdifferenzen zwischen diesem Wort und einigen der nachfolgenden Worte innerhalb der Liste. Um insbesondere die Erkennung als „bestimmt" zu berücksichtigen, ist es nötig, (gleichzeitig mit der Bedingung, welche die Identität des besten Worts innerhalb der beiden Listen betrifft) auch die folgenden Bedingungen zu erfüllen:
    • 1) der kombinierte Punktwert S1 des ersten Worts in der neugeordneten Liste muß höher als ein erster Schwellenwert T1 sein;
    • 2) die Differenzen zwischen dem kombinierten Punktwert S1, welcher dem ersten Wort in der neugeordneten Liste zugeordnet ist, und den Punktwerten S2, S5, welche dem zweiten und dem fünften Wort zugeordnet sind, sind höher als ein zweiter bzw. als ein dritter Schwellenwert T2, T3.
  • Die Differenzen S1 – S2 und S1 – S5 werden berechnet und nur mit ihrem jeweiligen Schwellenwert verglichen, wenn eine ausreichende Anzahl Hypothesen vorhanden ist; falls dies nicht der Fall ist, wird Bedingung 2) als erfüllt angesehen.
  • Die Schwellenwerte werden gemäß der Anwendung gesetzt, in welcher die Erkennungseinrichtung verwendet wird. Beispielsweise wurden bei durchgeführten Experimenten die folgenden Werte eingeführt: T1 = 2,0, T2 = 0,9; T3 = 2,3
  • Intuitiv ist erkennbar, wie die oben stehend beschriebenen Bedingungen (welche zusätzlich zu der Identität der besten Erkennungshypothese, welche von beiden Listen bereitgestellt wird, auch eine ausreichende Punktwertdifferenz zwischen der besten Hypothese und den nachfolgenden in der Liste erfordern) die tatsächliche Auswertung der Erkennungszuverlässigkeit gestatten.
  • Die Vorgänge zur Erkennungszuverlässigkeitsauswertung werden auch in der Form eines Ablaufdiagramms in 4 dargestellt. Es muß angemerkt werden, daß in diesem Diagramm die Identität des besten Worts in beiden Listen als eine Bedingung gezeigt wird, welche zusammen mit anderen Bedingungen gemeinsam verifiziert werden muß, statt sie als eine vorläufige Bedingung für die Verifizierung der anderen Bedingungen anzusehen, es ist jedoch offensichtlich, daß dies nur Implementierungsdetails des gleichen Prinzips sind. Auch dieses Diagramm erfordert keine weiteren Erklärungen.
  • Es ist offensichtlich, daß die obenstehende Beschreibung als rein nicht einschränkendes Beispiel bereitgestellt wird und daß Variationen und/oder Modifikationen möglich sind, ohne dadurch den Schutzumfang der Erfindung selbst zu verlassen. Beispielsweise könnte es zur Zuverlässigkeitsbewertung möglich sein, nur zu verifizieren, ob der beste Wortpunktwert ausreichend höher ist als der des zweiten Worts, wobei folglich der Vergleich mit einem zusätzlichen Wort vermieden wird (welches außerdem nicht das fünfte sein muß, sondern ein anderes Wort, welches ausreichend weit von dem zweiten entfernt ist). Zum Verifizieren der Erkennungszuverlässigkeit könnten die obenstehend gegebenen Bedingungen auf eine verschiedene Weise kombiniert werden – oder es könnten weitere Bedingungen hinzugefügt werden –, so daß ein Zwischenauswertungsgrad zwischen „bestimmt" und „nicht bestimmt" eingeführt werden kann: beispielsweise könnte ein Zwischenauswertungsgrad durch Erfüllen der Bedingungen nur für die Schwellenwerte T1 und T2 nicht aber für T3 repräsentiert werden. Schließlich könnte die Erkennungseinrichtung auch für kontinuierliche Sprache verwendet werden, auch wenn in der Beschreibung auf die Erkennung isolierter Worte verwiesen wurde.

Claims (16)

  1. Verfahren zur Spracherkennung, wobei: zwei Erkennungsschritte (NE, MA) durchgeführt werden, einer unter Verwendung neuronaler Netze, und der andere unter Verwendung verborgener Markov-Modelle, wobei jeder Schritt eine jeweilige Liste von Erkennungshypothesen zuführt, in der jede Hypothese zu einem jeweiligen akustischen Wahrscheinlichkeitspunktwert gehört; die Wahrscheinlichkeitspunktwerte jeder Liste verarbeitet werden; und eine einzelne, auf der Grundlage der verarbeiteten Wahrscheinlichkeitspunkte neugeordnete Liste ausgebildet wird; dadurch gekennzeichnet, dass die zwei Erkennungsschritte (NE, MA) aufeinanderfolgend auf dieselbe zu erkennende Äußerung auf einem derartigen Weg einwirken, dass der neuronale Schritt (NE) das gesamte aktive Vokabular analysiert und der Markov-Schritt (MA) nur ein Teil-Vokabular analysiert, das durch die Liste der als ein Ergebnis des neuronalen Schritts (NE) erhaltenen Hypothesen dargestellt ist; und zusätzlich eine Auswertung einer Erkennungszuverlässigkeit für die beste Hypothese der neugeordneten Liste durchgeführt wird, die sich aus einer Kombination auf der Grundlage der verarbeiteten Wahrscheinlichkeitspunktwerte ergibt und zu einer derartigen besten Hypothese und einer oder mehreren Hypothesen, die nachfolgende Positionen in der neugeordneten Liste erfasst, gehört, wodurch sich ein Zuverlässigkeitsindex ergibt, der zumindest zwei Werte annehmen kann, entsprechend den Fällen einer Erkennung, die als „bestimmt" bzw. „nicht bestimmt" beurteilt ist.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Wahrscheinlichkeitspunktwertverarbeitung die folgenden Vorgänge aufweist: – Berechnen der Mittelwerts und der Varianz der zu den Hypothesen in jeder der Listen gehörigen Punktwerte; – Normieren der zu den Hypothesen in jeder der Liste gehörigen Punktwerte im Hinblick auf den jeweiligen Mittelwert und die Varianz, um derartige Listen in Listen umzuformen, in denen die Punktwerte einen Null-Mittelwert und eine einheitliche Varianz besitzen; – lineares Kombinieren der zu auf beiden Listen vorhandenen Erkennungshypothesen gehörigen normierten Punktwerte.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Mittelwert- und die Varianzberechnung und die Punktwertnormierung für eine Liste nur ausgeführt werden, wenn eine derartige Liste eine Anzahl von Hypothesen enthält, die nicht niedriger als ein Minimum ist.
  4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass für eine Liste, die eine Anzahl von Hypothesen niedriger als ein derartiger Minimalwert enthält, die Punktwerte der in einer derartigen Liste enthaltenen Hypothesen vorbestimmten Werten zugewiesen werden.
  5. Verfahren nach einem der Ansprüche 2 bis 4, dadurch gekennzeichnet, dass für die lineare Kombination die Punktwerte von auf beiden Listen vorhandenen Hypothesen gemäß Gewichten mit einer einheitlichen Summe gewichtet werden.
  6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass für die Erzeugung der einzelnen Liste in nur einer Liste vorhandene Hypothesen verworfen werden.
  7. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass für die Erzeugung einer einzelnen Liste in nur einer Liste vorhandenen Hypothesen ein minimaler Punktwert gegeben wird, der niedriger als der minimale kombinierte Punktwert einer auf beiden Listen vorhandenen Hypothese ist.
  8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Auswertung einer Erkennungszuverlässigkeit für die beste Erkennungshypothese in der einzelnen Liste durchgeführt wird, wenn die Hypothese die beste in beiden Listen war, und die Vorgänge enthält von: – Vergleichen des zur besten Hypothese gehörigen kombinierten Punktwerts mit einem ersten Schwellenwert; – Berechnen einer ersten Punktwertdifferenz, gegeben durch die Differenz zwischen dem zu der besten Hypothese gehörigen kombinierten Punktwert und dem zur Hypothese mit dem nächstniedrigeren Punktwerte gehörigen; und – Vergleichen der ersten Differenz mit einem zweiten Schwellenwert; und dass dem Zuverlässigkeitsindex ein Wert entsprechend einer Erkennung, die als sicher bewertet ist, gegeben wird, wenn der kombinierte Punktwert und die erste Differenz beide höher als ihr jeweiliger Schwellenwert sind.
  9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass die Erkennungszuverlässigkeitsauswertung auch die Vorgänge enthält von: – Berechnen einer zweiten Punktwertdifferenz, gegeben durch die Differenz zwischen dem zur besten Hypothese gehörigen kombinierten Punktwert und dem zu einer zusätzlichen Hypothese mit einer nachfolgenden Position gehörigen, der um eine vorbestimmte Anzahl von Positionen in der neugeordneten Liste beabstandet ist; und – Vergleichen der zweiten Differenz mit einem dritten Schwellenwert; und dass dem Zuverlässigkeitsindex der Wert entsprechend einer Erkennung, die als sicher bewertet ist, gegeben wird, wenn auch die zusätzliche Differenz höher als der jeweilige Schwellenwert ist.
  10. Verfahren nach Anspruch 8 oder 9, dadurch gekennzeichnet, dass eine Berechnung der Differenzen nur ausgeführt wird, wenn die Listen eine Anzahl von Hypothesen nicht niedriger als ein minimaler Wert aufweisen.
  11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass im Fall von Listen mit einer Anzahl von Hypothesen niedriger als der minimale Wert, die Bedingung eines Überschreitens des zweiten und dritten Schwellenwerts als erfüllt betrachtet wird.
  12. Spracherkennungseinrichtung mit: – einem Paar von in Kaskade verbundenen Erkennungseinheiten (NN, MA), die eine Erkennungstechnik auf der Grundlage neuronaler Netze bzw. eine Erkennungstechnik auf der Grundlage verborgener Markov-Modelle verwenden, und jeweilige Listen von Erkennungs-Hypothesen ausbilden, in denen jede Hypothese zu einem jeweiligen akustischen Wahrscheinlichkeitspunktwert gehört; und – einer Verarbeitungseinheit (EL), die eine Kombinationseinrichtung (UE1) zur Kombination der durch beide Erkennungseinheiten (NN, MA) bestimmten Punktwerte und zur Ausbildung einer neugeordneten Liste auf der Grundlage der kombinierten Punktwerte enthält; dadurch gekennzeichnet, dass die neuronale Netz-Erkennungseinheit (NN) vor der Erkennungseinheit (MA) basierend auf verborgenen Markov-Modellen angeordnet ist und entworfen ist, eine Erkennung durch Einwirkung auf das gesamte aktive Vokabular durchzuführen, und die Erkennungseinheit (MA) basierend auf verborgenen Markov-Modellen entworfen ist, eine Erkennung unabhängig von der neuronalen Netz-Erkennungseinheit (NN) durch Einwirkung auf ein Teilvokabular, das durch die in der durch die neuronale Netz-Einheit zugeführten Liste vorhandenen Hypothesen gebildet ist, durchzuführen; und dadurch, dass die Verarbeitungseinheit (EL) eine Auswertungseinrichtung (CM, UE2) zur Auswertung einer Erkennungszuverlässigkeit der Hypothese, die den besten Wahrscheinlichkeitspunktwert innerhalb der neugeordneten Liste besitzt, durch Verwendung der zu den in der neugeordneten Liste vorhandenen Hypothesen gehörigen kombinierten Punktwerte enthält, wobei die Auswertungseinrichtung (CM, UE2) einen Zuverlässigkeitsindex bilden kann, der zumindest zwei Werte annehmen kann, entsprechend einer Erkennung, die für eine derartige Hypothese als „bestimmt" bzw. als „nicht-bestimmt" bewertet ist.
  13. Spracherkennungseinrichtung nach Anspruch 12, dadurch gekennzeichnet, dass die Kombinationseinrichtung (UE1) angeordnet ist, zu in beiden Listen enthaltenen Erkennungshypothesen gehörige Wahrscheinlichkeitspunktwerte linear zu kombinie ren, nachdem eine Vorverarbeitung davon durchgeführt wurde, die die folgenden Vorgänge enthält: – Berechnen der Mittelwerts und der Varianz der zu den Hypothesen in jeder Liste gehörigen Punktwerte; – Normieren der zu den Hypothesen gehörigen Punktwerte im Hinblick auf den Mittelwert und die Varianz ihrer jeweiligen Liste, um die Listen in Punktwertlisten mit Null-Mittelwert und einheitlicher Varianz umzuwandeln.
  14. Spracherkennungseinrichtung nach Anspruch 13, dadurch gekennzeichnet, dass die derartige Kombinationseinrichtung (UE1) aktiviert ist, die Mittelwert- und die Varianzberechnung und die Normierung der durch jede Erkennungseinheit (NN, MA) zur Verfügung gestellten Punktwerte der Listen nur auszuführen, wenn derartige Listen eine Anzahl von Hypothesen nicht niedriger als ein Minimum enthalten.
  15. Spracherkennungseinrichtung nach einem der Ansprüche 12 bis 14, dadurch gekennzeichnet, dass die Auswertungseinrichtung (CM, UE2) eine erste Vergleichseinrichtung (CM) zum Vergleich der durch die neuronale Netz-Erkennungseinheit (NN) identifizierten besten Erkennungshypothese mit der durch die Erkennungseinheit (MA) auf der Grundlage verborgener Markov-Modelle zugeführten und zur Ausgabe eines Freigabesignals, wenn derartige beste Hypothesen übereinstimmen, und eine zweite Vergleichseinrichtung (UE2), die durch das Freigabesignal freigegeben wird und angeordnet ist, den Punktwerte der besten Hypothese in der neugeordneten Liste und die Differenz zwischen dem zur besten Hypothese in der neugeordneten Liste gehörigen Punktwert und dem zur Hypothese mit einem nächstniedrigeren Punktwerte gehörigen Punktwerte mit jeweiligen Schwellenwerten zu vergleichen, und den Zuverlässigkeitsindex mit einem Wert entsprechend einer Erkennung, die als sicher bewertet ist, wenn ein derartiger Punktwert und die Differenz ihre jeweiligen Schwellenwerte überschreiten, zu er teilen.
  16. Spracherkennungseinrichtung nach Anspruch 15, dadurch gekennzeichnet, dass die zweite Vergleichseinrichtung (UE2) entworfen ist, die Differenz zwischen dem zur besten Hypothese der neugeordneten Liste gehörigen Punktwert und dem zu einer eine nachfolgende Position besitzenden und um eine vorbestimmte Anzahl von Positionen in der neugeordneten Liste beabstandeten Hypothese gehörigen Punktwert mit einem zusätzlichen Schwellenwert zu vergleichen, und den Zuverlässigkeitsindex mit einem Wert entsprechend einer Erkennung, die als „bestimmt" bewertet ist, wenn auch eine derartige Differenz einen derartigen zusätzlichen Schwellenwert überschreitet, zu erteilen.
DE69938374T 1998-05-07 1999-05-04 Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle Expired - Lifetime DE69938374T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
ITTO980383 1998-05-07
IT98TO000383A ITTO980383A1 (it) 1998-05-07 1998-05-07 Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.

Publications (2)

Publication Number Publication Date
DE69938374D1 DE69938374D1 (de) 2008-04-30
DE69938374T2 true DE69938374T2 (de) 2009-04-30

Family

ID=11416735

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69938374T Expired - Lifetime DE69938374T2 (de) 1998-05-07 1999-05-04 Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle

Country Status (6)

Country Link
US (1) US6185528B1 (de)
EP (1) EP0955628B1 (de)
JP (1) JP3078279B2 (de)
CA (1) CA2270326C (de)
DE (1) DE69938374T2 (de)
IT (1) ITTO980383A1 (de)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6148284A (en) 1998-02-23 2000-11-14 At&T Corporation Method and apparatus for automatic speech recognition using Markov processes on curves
DE19842151A1 (de) * 1998-09-15 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Adaption von linguistischen Sprachmodellen
JP4802434B2 (ja) * 2000-02-28 2011-10-26 ソニー株式会社 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体
US6662158B1 (en) * 2000-04-27 2003-12-09 Microsoft Corporation Temporal pattern recognition method and apparatus utilizing segment and frame-based models
US6629073B1 (en) 2000-04-27 2003-09-30 Microsoft Corporation Speech recognition method and apparatus utilizing multi-unit models
US6735562B1 (en) * 2000-06-05 2004-05-11 Motorola, Inc. Method for estimating a confidence measure for a speech recognition system
US7003456B2 (en) * 2000-06-12 2006-02-21 Scansoft, Inc. Methods and systems of routing utterances based on confidence estimates
US6754629B1 (en) * 2000-09-08 2004-06-22 Qualcomm Incorporated System and method for automatic voice recognition using mapping
US7158935B1 (en) * 2000-11-15 2007-01-02 At&T Corp. Method and system for predicting problematic situations in a automated dialog
US7027987B1 (en) * 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
WO2002069137A1 (en) * 2001-02-23 2002-09-06 The Trustees Of The University Of Pennsylvania Dynamical brain model for use in data processing applications
US6772116B2 (en) * 2001-03-27 2004-08-03 International Business Machines Corporation Method of decoding telegraphic speech
FR2825496B1 (fr) * 2001-06-01 2003-08-15 Synomia Procede et systeme d'analyse syntaxique large de corpus, notamment de corpus specialises
WO2003017252A1 (de) * 2001-08-13 2003-02-27 Knittel, Jochen Verfahren und vorrichtung zum erkennen einer phonetischen lautfolge oder zeichenfolge
TW517221B (en) * 2001-08-24 2003-01-11 Ind Tech Res Inst Voice recognition system
ATE400047T1 (de) * 2005-02-17 2008-07-15 Loquendo Spa Verfahren und system zum automatischen bereitstellen linguistischer formulierungen, die ausserhalb einer erkennungsdomäne eines automatischen spracherkennungssystems liegen
EP1889255A1 (de) * 2005-05-24 2008-02-20 Loquendo S.p.A. Automatische textunabhängige, sprachenunabhänige sprecher-voice-print-erzeugung und sprechererkennung
US20100125459A1 (en) * 2008-11-18 2010-05-20 Nuance Communications, Inc. Stochastic phoneme and accent generation using accent class
US8660678B1 (en) * 2009-02-17 2014-02-25 Tonara Ltd. Automatic score following
US8260763B2 (en) * 2010-01-15 2012-09-04 Hewlett-Packard Devlopment Company, L.P. Matching service entities with candidate resources
JPWO2013125203A1 (ja) * 2012-02-21 2015-07-30 日本電気株式会社 音声認識装置、音声認識方法およびコンピュータプログラム
CN103631802B (zh) * 2012-08-24 2015-05-20 腾讯科技(深圳)有限公司 歌曲信息检索方法、装置及相应的服务器
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US20180247640A1 (en) * 2013-12-06 2018-08-30 Speech Morphing Systems, Inc. Method and apparatus for an exemplary automatic speech recognition system
US9324321B2 (en) 2014-03-07 2016-04-26 Microsoft Technology Licensing, Llc Low-footprint adaptation and personalization for a deep neural network
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US9520127B2 (en) * 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
US9430667B2 (en) 2014-05-12 2016-08-30 Microsoft Technology Licensing, Llc Managed wireless distribution network
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9367490B2 (en) 2014-06-13 2016-06-14 Microsoft Technology Licensing, Llc Reversible connector for accessory devices
US9627532B2 (en) * 2014-06-18 2017-04-18 Nuance Communications, Inc. Methods and apparatus for training an artificial neural network for use in speech recognition
US9717006B2 (en) 2014-06-23 2017-07-25 Microsoft Technology Licensing, Llc Device quarantine in a wireless network
US10304440B1 (en) * 2015-07-10 2019-05-28 Amazon Technologies, Inc. Keyword spotting using multi-task configuration
KR102069699B1 (ko) 2016-01-18 2020-01-23 한국전자통신연구원 음성인식 장치 및 방법
US10665111B2 (en) * 2016-08-01 2020-05-26 Honeywell International Inc. Portable datalink equipment for overhearing data or voice communications
JP7326033B2 (ja) * 2018-10-05 2023-08-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者認識装置、話者認識方法、及び、プログラム
US20220246138A1 (en) * 2019-06-07 2022-08-04 Nippon Telegraph And Telephone Corporation Learning apparatus, speech recognition apparatus, methods and programs for the same
WO2021144901A1 (ja) * 2020-01-16 2021-07-22 日本電信電話株式会社 音声認識装置、方法及びプログラム
US11783818B2 (en) * 2020-05-06 2023-10-10 Cypress Semiconductor Corporation Two stage user customizable wake word detection
KR20220010259A (ko) * 2020-07-17 2022-01-25 삼성전자주식회사 음성 신호 처리 방법 및 장치

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2577891B2 (ja) 1986-08-06 1997-02-05 日本電信電話株式会社 単語音声予備選択装置
GB8908205D0 (en) 1989-04-12 1989-05-24 Smiths Industries Plc Speech recognition apparatus and methods
US5278911A (en) * 1989-05-18 1994-01-11 Smiths Industries Public Limited Company Speech recognition using a neural net
GB8911461D0 (en) 1989-05-18 1989-07-05 Smiths Industries Plc Temperature adaptors
JP2964507B2 (ja) * 1989-12-12 1999-10-18 松下電器産業株式会社 Hmm装置
GB2240203A (en) * 1990-01-18 1991-07-24 Apple Computer Automated speech recognition system
IT1270919B (it) 1993-05-05 1997-05-16 Cselt Centro Studi Lab Telecom Sistema per il riconoscimento di parole isolate indipendente dal parlatore mediante reti neurali
US5677990A (en) * 1995-05-05 1997-10-14 Panasonic Technologies, Inc. System and method using N-best strategy for real time recognition of continuously spelled names
JP3039408B2 (ja) 1996-12-27 2000-05-08 日本電気株式会社 音類別方式

Also Published As

Publication number Publication date
EP0955628B1 (de) 2008-03-19
CA2270326A1 (en) 1999-11-07
JP2000029495A (ja) 2000-01-28
EP0955628A3 (de) 2000-07-26
EP0955628A2 (de) 1999-11-10
ITTO980383A1 (it) 1999-11-07
JP3078279B2 (ja) 2000-08-21
CA2270326C (en) 2002-02-26
DE69938374D1 (de) 2008-04-30
US6185528B1 (en) 2001-02-06

Similar Documents

Publication Publication Date Title
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE69815067T2 (de) Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster
DE69421911T2 (de) Spracherkennung mit pausedetektion
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
DE69629763T2 (de) Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM)
DE2953262C2 (de)
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
EP0604476B1 (de) Verfahren zur erkennung von mustern in zeitvarianten messsignalen
DE69726235T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69829187T2 (de) Halbüberwachte Sprecheradaptation
DE69414752T2 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
DE69422097T2 (de) Training von kombinierten Kettenmodellen mit minimaler Fehlerrate
DE69615667T2 (de) Spracherkennung
DE69420842T2 (de) Spracherkennung unter anwendung einer zweidurchgängigen suchmethode
DE69829235T2 (de) Registrierung für die Spracherkennung
DE3242866C2 (de)
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE69229124T2 (de) Mehrteiliger expertsystem
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
EP0797185A2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
EP0836175B1 (de) Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
WO2001069591A1 (de) Verfahren zur erkennung von sprachäusserungen nicht-mutter-sprachlicher sprecher in einem sprachverarbeitungssystem
EP1251489A2 (de) Training von Parametern eines Spracherkennungssystems zur Erkennung von Aussprachevarianten
EP1193689A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern

Legal Events

Date Code Title Description
8364 No opposition during term of opposition