DE2825186A1 - Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale - Google Patents
Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignaleInfo
- Publication number
- DE2825186A1 DE2825186A1 DE19782825186 DE2825186A DE2825186A1 DE 2825186 A1 DE2825186 A1 DE 2825186A1 DE 19782825186 DE19782825186 DE 19782825186 DE 2825186 A DE2825186 A DE 2825186A DE 2825186 A1 DE2825186 A1 DE 2825186A1
- Authority
- DE
- Germany
- Prior art keywords
- pattern
- keyword
- target
- patterns
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000001228 spectrum Methods 0.000 claims abstract description 128
- 238000012360 testing method Methods 0.000 claims abstract description 23
- 230000005236 sound signal Effects 0.000 claims abstract description 22
- 238000003657 Likelihood-ratio test Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 42
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 7
- 206010011224 Cough Diseases 0.000 claims description 2
- 230000008901 benefit Effects 0.000 claims description 2
- 239000002932 luster Substances 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 20
- 238000012545 processing Methods 0.000 abstract description 12
- 230000000875 corresponding effect Effects 0.000 description 22
- 239000013598 vector Substances 0.000 description 22
- 238000005311 autocorrelation function Methods 0.000 description 18
- 230000009466 transformation Effects 0.000 description 17
- 239000011159 matrix material Substances 0.000 description 11
- 230000000694 effects Effects 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 238000009499 grossing Methods 0.000 description 6
- 238000012935 Averaging Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000001944 accentuation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 210000000860 cochlear nerve Anatomy 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Complex Calculations (AREA)
Description
HÖGER - STELLR^CHT - GR1F.SSBACH - HAECKER
A 42 892 b Anmelder: DIALOG SYSTEMS, INC.
u - 163 32 Locust Street,
6.Juni 1978 Belmont, Massachusetts 02178,
USA
Beschreibung
Verfahren zur Verringerung der Falschanzeige in Spracherkennungsverfahren für kontinuierliche
Sprachsignale
Die Erfindung betrifft ein Verfahren zur Erkennung von einem
oder mehreren Schlüsselwörtern in einem kontinuierlichen Audio-Signal.
Verschiedene Spracherkennungssysterne sind bisher vorgeschlagen
worden, mit denen isolierte Laute dadurch erkannt werden, dass ein unbekanntes isoliertes Audio-Signal nach einer geeigneten
Verarbeitung mit einem oder mehreren vorher aufbereiteten Darstellungen des bekannten Schlüsselworts verglichen
werden. In diesem Zusammenhang soll der Ausdruck "Schlüsselwort" sowohl eine verbundene Gruppe von Phonemen oder Tönen umfassen
als auch beispielsweise einen Teil einer Silbe, eines Wortes, einer Phrase etc. Während viele Systeme einen begrenzten
Erfolg erreichen konnten, ist insbesondere ein System mit Erfolg kommerziell zur Erkennung von isolierten Schlüsselwörtern
verwendet worden. Dieses System arbeitet im wesentlichen nach der im US-Patent 4 038 503 derselben Anmelderin (erteilt
am 26.JuIi 1977) beschriebenen Verfahren. Dieses Verfahren liefert eine erfolgreiche Methode zur Erkennung eines Wortes
aus einem beschränkten Schlüsselwortvokabulars, wobei die
Voraussetzung gilt, dass die Begrenzungen der unbekannten Audio-Signaldaten entweder Ruhe oder Hintergrundrauschen sind,
A 42 892 b
u - 163
6. Juni' 1978 - 11 -
welche von dem Erkennungssystern festgestellt werden können.
Dieses System baut auf der Annahme auf, dass das Intervall, in welchem das unbekannte Audio-Signal auftritt, genau definiert
ist und eine einzige Äusserung enthält.
Bei einem kontinuierlichen Audio-Signal, beispielsweise bei einem kontinuierlichen Konversationssignal, bei welchem die
Grenzen der Schlüsselwörter nicht von vorneherein bekannt und markiert sind, ist von verschiedenen Methoden vorgeschlagen
worden, die auftretenden Audiodaten in Segmente zu teilen, d.h. die Grenzen der Spracheinheiten, also der Phoneme, Silben,
Wörter, Sätze etc., zu bestimmen, ehe der Erkennungsprozess eingeleitet wird. Diese früheren Erkennungssysteme für kontinuierliche
Sprache haben jedoch nur einen begrenzten Erfolg gehabt, insbesondere da ein zufriedenstellendes Verfahren zur
Segmentierung nicht gefunden werden konnte. Auch andere wesentliche Probleme sind noch ungelöst. Beispielsweise kann nur ein
begrenztes Vokabular erkannt werden, wenn eine niedrige Fehlerkennungsrate gewünscht wird. Die Erkennung ist ausserordentlich
empfindlich in Bezug auf Unterschiede in den Sprachcharakteristiken verschiedener Sprecher. Ausserdem sind die
Verfahren gegenüber Verzerrungen des Audio-Signals hochempfindlich, wie sie beispielsweise in Audio-Signalen auftreten, die
über eine gewöhnliche Telefonleitung übertragen werden. Obwohl der menschliche Hörer die kontinuierlichen Sprachsignale leicht
erkennen und verstehen kann, hat bei einer maschinellen Erkennung selbst eines begrenzten Schlüsselvrortvokabulars bei
kontinuierlichen Sprachsignalen der entscheidende Durchbruch erst noch zu erfolgen.
909845/0595
Λ 42 892 b "5QOCIQG
6.Juni 1978 - 12 -
Ein Spracherkennungssystem, mit welchem man v/irksam Schlüsselwörter
in einem kontinuierlichen Sprachsignal erkennen kann, ist in der gleichzeitig eingereichten Patentanmeldung
P derselben Anmelderin (Verfahren zur Spracherkennung) beschrieben. Dieses Verfahren verwendet eine Methode,
bei welcher jedes Schlüsselwort durch eine Schablone charakterisiert wird, die aus einer geordneten Folge eines oder mehrerer
Zielmuster besteht, wobei jedes Zielmuster eine Vielzahl von Kurzzeit-Schlüsselwort-Energiespektren aufweist, die zeitlich
im Abstand auftreten. Zusammen decken die Zielmuster alle wichtigen akustischen Ereignisse in dem Schlüsselwort ab. In
dem in der parallelen Anmeldung P beschriebenen Verfahren wird eine Frequenzanalysenmethode beschrieben, bei
welcher wiederholt Parametersätze gebildet werden, die ein Kurzzeit-Energiespektrum des Audio-Signals in jedem Probenabschnitt
einer Vielzahl von gleichlangen Probenabschnitten beschreiben. Man erhält dabei also eine kontinuierliche, zeitlich
geordnete Folge von Kurzzeit-Audio-Energiespektrenabschnitten. Aus diesen Kurzzeit-Energiespektrenabschnitten wählt man
wiederholt einen ersten und mindestens einen später auftretenden Abschnitt aus und bildet aus diesen einen Mustersatz.
Gemäss dem in der Parallelanmeldung beschriebenen Verfahren vergleicht man, vorzugsweise unter Verwendung einer Wahrscheinlichkeitsstatistik,
jeden dieser in der beschriebenen Weise gebildeten Mustersätze mit jedem ersten Zielmuster jeder
Schlüsselwortschablone. Man entscheidet dann, ob jeder Hustersatz einem ersten Zielmuster der Schlüsselv/ortschablonen entspricht.
Für jeden Mustersatz, der sich bei diesem Vergleich als dem ersten Zielmuster eines potentiellen Kandidaten-Schlüsselworts
entsprechend herausstellt, werden später auf-
8098 4^/0595
u- 163 2825 ι 86
6.Juni 1978 - 13 -
tretende Spektrenabschnitte ausgewählt und aus ihnen später auftretende Mustersätze aufgebaut. In ähnlicher Weise wird
dann verglichen, ob die später auftretenden Mustersätze später auftretenden Zielmustern des potentiellen Kandidaten-Schlüsselwortes
entsprechen. Ein Kandidaten-Schlüsselwort vilrd dann als erkannt identifiziert, wenn eine ausgewählte
Folge von Mustersätzen den Zielmustern einer Schlüsselwortschablone entspricht.
Dieses in der Parallelanmeldung beschriebene Verfahren arbeitet bei der Erkennung von Schlüsselwörtern in kontinuierlichen
Sprachsignalen erheblich besser als bekannte Systeme, jedoch sind auch bei diesem Verfahren weitere Verbesserungen möglich.
Der Erfindung liegt die Aufgabe zugrunde, das in der Parallelanmeldung
beschriebene Spracherkennungsverfahren weiter zu verbessern, um eine erhöhte Treffsicherheit zu erzielen. Das
Verfahren soll relativ unempfindlich gegenüber Phasen- und Amplitudenverzerrungen des unbekannten Audio-Eingangssignals
sein und relativ unempfindlich gegenüber Variationen in der
Sprechgeschwindigkeit des unbekannten Audio-Eingangssignals. Es soll Sprachsignale verschiedener Sprecher und damit mit
verschiedenen Sprachcharakteristiken gleich gut erkennen und im Echtzeitbetrieb arbeiten.
Diese Aufgabe wird erfindungsgemäss durch die in den Ansprüchen
beschriebenen Verfahren gelöst.
Bei dem erfindungsgemässen Spracherkennungsverfahren, bei
welchem wenigstens ein vorbestimmtes Schlüsselwort in einem
9 0 9 R '^ / η ς 9 5
u - 163
6.Juni 197 3 - 14 -
Audio-Eingangssignal erkannt v/erden soll, ist jedes Schlüsselwort
durch eine Schablone charakterisiert, die aus einer geordneten Folge von einem oder mehreren Zielmustern besteht.
Jedes Zielmuster umfasst wenigstens ein Kurzzeit-Schlüsselwort-Energiespektrum,
oder einen Spektrenabschnitt. Zusammen decken die Zielmuster alle wichtigen akustischen Ereignisse im
Schlüsselwort ab. Im Rahmen der Erfindung wird eine Frequenzanalysenmethode durchgeführt, bei welcher eine Folge von
Mustersätzen ausgewählt wird, von denen jede aus einem oder mehreren Spektrenabschnitten besteht. Ein Kandidaten-Schlüsselwort
wird dann identifiziert, wenn die Folge der ausgewählten Mustersätze der Folge von Zielmustern einer Schlüsselwortschablone
entspricht, welche als ausgewählte Schlüsselwortschablone bezeichnet wird. Anschliessend wird eine Nachentscheidung
durchgeführt, um die Zahl falscher Anzeigen herabzusetzen.
Diese Nachentscheidung kann einnal darin liegen, dass die
zeitlichen Abstände zwischen ausgewählten Mustersätzen, die den Zielmustern des Kandidaten-Schlüsselworts entsprechen,
normalisiert werden. Auf diese normalisierten Teitabstände wird ein Prosodie-Test angewendet. Die normalisierten Zeitabstände für ein Kandidaten-Schlüsselwort müssen die Zeitkriterien des Prosodie-Testes erfüllen, sonst wird das Kandidaten-Schlüsselwort nicht als erkanntes Schlüsselwort akzeptiert.
In einem bevorzugten Ausführungsbeispiel der Erfindung bestehen die Kriterien darin, dass eine statistische Wahrscheinlichkeitsfunktion auf die normalisierten Zeitabstände angewendet wird und dass das Kandidatenwort dann akzeptiert wird,
wenn der statistische Wahrscheinlichkeitswert einen vorbestimmten Minimalwert überschreitet. Bei einem weiteren Aus-
6.Juni 1978 -15-
führungsbeispiel der Erfindung liegt das Kriterium darin, dass feste, vorbestimmte Begrenzungen für jeden normalisierten
Zeitabstand festgelegt werden und dass das Kandidatenwort dann akzeptiert wird, wenn die normalisierten Abstände in die
fest vorgegebenen Grenzen fallen.
Bei einer weiteren Ausgestaltung der Nachentscheidung ist erfindungsgemäss vorgesehen, dass eine statistische Wahrscheinlichkeitsfunktion
auf die Folge der ausgewählten Mustersätze, die dem Kandidatenwort entsprechen, angewendet wird, so dass
man eine sogenannte Gütezahl für jeden dieser Mustersätze bestimmen kann, dass die Gütezahlen für die Mustersätze
summiert werden und dass das Kandidatenwort dann akzeptiert wird, wenn die Summe der Gütezahlen einen vorbestimmten Minimalwert
überschreitet.
Bei einem bevorzugten Ausführungsbeispiel des erfindungsgemässen,
auf die Erkennung mindestens eines vorbestimmten Schlüsselwortes in einem kontinuierlichen, endlosen Audio-Eingangssignal
gerichteten Verfahrens ist das Schlüsselwort durch eine Schablone gekennzeichnet, die aus einer geordneten
Folge von einem oder mehreren Zielmustern besteht. Jedes Zielmuster umfasst mindestens ein Kurzzeit-Schlüsselwort-Energiespektrum.
Zusammen decken die Zielmuster alle wichtigen akustischen Ereignisse in dem Schlüsselwort ab. Bei dem erfindungsgemässen
Verfahren werden wiederholt Parametersätze gebildet, die in jedem einer Vielzahl von gleichlangen Probenintervallen
ein Kurzzeit-Energiespektrum des Audio-Signales beschreiben, wodurch man eine ununterbrochene, zeitlich geordnete
Folge von Kurzzeit-Audio-Energiespektrenabschnitten erhält. Aus dieser Folge von Kurzzeit-Energiespektrenabschnitten
SO984 5/D5
A 42 892 b OQOC 1QC
u - 163 2825 ι 86
6.Juni 1978 - 16 -
wählt man wiederholt einen ersten und mindestens einen später auftretenden Abschnitt aus und bildet aus diesen einen Mustersatz.
Vorzugsweise unter Verwendung einer statistischen Wahrscheinlichkeitsfunktion wird jeder dieser Mustersätze mit
jedem ersten Zielmuster jeder Schlüsselwortschablone verglichen. Man entscheidet dabei, ob jeder Mustersatz einem der
ersten Zielmuster der Schlüsselwortschablonen entspricht. Bei jedem Mustersatz, der bei diesem Entscheidungsverfahren einem
ersten Zielmuster eines potentiellen Kandidaten-Schlüsselworts entspricht, werden später auftretende Spektrenabschnitte ausgewählt
und aus diesen werden später auftretende Mustersätze gebildet. In gleicher Weise wird dann entschieden, ob die
später auftretenden Mustersätze den folgenden Zielmustern des potentiellen Kandidaten-Schlüsselworts entsprechen. Wenn eine
Folge von ausgewählten Mustersätzen den aufeinanderfolgenden Zielmustern der Schlüsselwortschablone entsprechen, die als
ausgewählte Schlüsselwortschablone bezeichnet wird, dann wird das Schlüsselwort identifiziert. Um die Falschanzeige dieses
Verfahrens herabzusetzen, werden Nachentscheidungen durchgeführt. Bei einem Nachentscheidungsverfahren werden die zeitlichen
Abstände zwischen den dem ausgewählten Kandidaten-Schlüsselwort entsprechenden Mustersätzen normalisiert und
auf diese normalisierten Zeitabstände wird ein Prosodie-Test angewandt, bei welchem die normalisierten Zeitabstände für
das Kandidaten-Schlüsselwort von dem Prosodie-Test vorgegebene Zeitkriterien erfüllen müssen. Wenn dieser Test nicht erfüllt
wird, wird das Kandidaten-Schlüsselwort nicht als erkanntes Wort akzeptiert.
90984R/O59B
« ΜΓ b 2825185
6.Juni 1978 - 17 -
Bei einer anderen Art der Nachentscheidung wird ein Wahrscheinlichkeitsvergleichstest
auf die Folge von ausgewählten, dem Kandidatenwort entsprechenden Mustersätzen angewandt, um
eine Gütezahl für jedes dieser Mustersätze zu bestimmen. Die Gütezahlen der Mustersätze werden daraufhin addiert und das
Kandidatenwort wird akzeptiert, wenn die Summe der Gütezahlen einen vorbestimmten Minimalwert überschreitet.
9 0 9 B 4 5 / Π Β 9 5
u - 163
S.Juni 1978 - 18 -
Die nachfolgende Beschreibung bevorzugter Ausführungsformen der Erfindung dient im Zusammenhang mit der Zeichnung der
näheren Erläuterung. Es zeigen:
Fig. 1 ein Flussdiagramm der wesentlichen Verfahrensschritte des erfindungsgemässen Verfahrens;
Fig. 2 ein schematisches Blockdiagramm einer elektronischen Vorrichtung zur Durchführung einiger
Anfangsoperationen in dem in dem Flussdiagramm der Fig. 1 dargestellten Verfahren;
Fig. 3 ein Flussdiagramm eines digitalen Computerprogramms zur Durchführung einiger weiterer Verfahrensschritte des in Fig. 1 dargestellten Verfahrens
und
Fig. 4 eine graphische Darstellung der Klassifizierungsgenauigkeit bei Verwendung verschiedener Transformationsverfahren
.
Entsprechende Bezugszeichen bezeichnen in sämtlichen Zeichnungen entsprechende Teile.
In dom besonderen bevorzugten Ausführungsbeispiel, welches
hier beschrieben wird, v/ird die Spracherkennung durch eine Vorrichtung erreicht, die sowohl speziell konstruierte elektronische
Systeme zur Durchführung bestimmter analoger und digitaler Prozeduren an den eingehenden Sprachsignalen als auch
einen digitalen Mehrzweckcomputer umfasst, der gemäss der vorliegenden
Erfindung programmiert ist, um bestimmte Daten-
9 0 9 8 4 F / Π 5 9 5
u - 163 _ ίο -
5.Juni 1978
reduktionsschritte und numerische Auswertungen durchzuführen.
Die Aufteilung der Aufgaben zwischen dem Hardware-Teil und dem Software-Teil des Systems ist so durchgeführt, dass man
ein Gesamtsystem erhält, welches Spracherkennung im Echtzeitbetrieb
zu geringen Kosten durchführen kann. Es wird jedoch darauf hingewiesen, dass einige der von den Hardware-Teilen
des besonderen Systems durchgeführten Aufgaben ebenso auch in Software vorliegen können, während einige der durch die Software-Programmierung
durchgeführten Aufgaben dieses Beispiels in einem anderen Ausführungsbeispiel ebenso mittels einer
Vxelzweckschaltungsanordnung gelöst werden können.
Wie bereits erwähnt, ist ein Aspekt der vorliegenden Erfindung die Schaffung einer Vorrichtung, welche bestimmte Wörter in
einer Reihe kontinuierlicher Sprachsignale auch dann noch erkennt, wenn die Signale beispielsweise durch eine Telefonübertragungslinie
verzerrt sind. Das in Fig. 1 dargestellte Spracheingangssignal 10 kann beispielsweise als ein Stimmensignal
verstanden werden, welches von einem Telefonhörer erzeugt und über eine Telefonleitung übertragen wird, die eine beliebige
Distanz überbrücken und eine Anzahl von Schaltstellen aufweisen kann. Eine typische Anwendung der vorliegenden Erfindung
ist also die Erkennung von bestimmten Wörtern in einem Signalfluss, der über ein Telefonsystem von einer unbekannten
Quelle erhalten wird. Das Eingangssignal kann aber auch jedes andere Audiosignal sein, beispielsweise ein gesprochenes Eingangssignal,
das über ein Telekommunikationssystem erhalten wird, beispielsweise über einen kommerziellen Rundfunksender
oder über eine private Funkverbindung.
809845/0595
5.Juni 1978 - 20 -
Wie sich im Verlaufe der folgenden Beschreibung verdeutlichen wird, betreffen das beschriebene Verfahren und die entsprechende
Vorrichtung die Erkennung von Sprachsignalen, welche eine Folge von Tönen, Lauten oder "Phonemen" oder anderen erkennbaren
Eigenschaften enthalten. In der folgenden Beschreibung und in den Ansprüchen werden die Ausdrücke "Schlüsselwort"
(keyword), "Folge von Zielmustern" (sequence of target patterns) "Schablone (nmuster)"(template pattern) oder "Schlüsselwortschablone11
(keyword template) verwendet, die alle als allgemeine und äquivalente Ausdrücke zu betrachten sind. Mit diesen Ausdrücken
soll eine erkennbare Folge von Audiosignalen oder die Darstellung dieser Audiosignale bezeichnet werden, welche mit
dem erfindungsgemässen Verfahren und der erfxndungsgemassen
Vorrichtung erkennbar sind. Diese Ausdrücke sollen so breit und allgemein verstanden werden, dass sie alles von einfachen
Phonemen, Silben oder Lauten bis zu einer Wortreihe (im grammatikalischen Sinne) und auch ein einzelnes Wort umfassen.
Ein Analog-Digital-Converter (A/D) 13 empfängt das analoge Audioeingangssignal über die Leitung 10 und wandelt die Signalamplitude
des Eingangssignals in digitale Form um. Der dargestellte Analog-Digital-Converter wandelt das Eingangssignal
in eine Binärdarstellung mit 12 bit um, wobei die Umwandlungsgeschwindigkeit bei 8000 Umwandlungen pro Sekunde liegt. Der
Analog-Digital-Converter 13 liefert seine Ausgangssignale über Leitungen 15 zu einem Autokorrelator 17. Dieser verarbeitet
die digitalen Eingangssignale und erzeugt 100-mal pro Sekunde eine Kurzzeit-Autokorrelationsfunktion. Die Ausgangssignale
werden Ausgangsleitungen 19 zugeführt. Jede Autokorrelationsfunktion
umfasst 32 Werte oder Kanäle, wobei jeder Wert auf eine
SO9845/0595
5.Juni 1978
30-bit-Auflösung berechnet wird. Der Autokorrelator wird
weiter unten unter Bezugnahme auf Fig. 2 näher beschrieben.
Die über die Leitung 19 weitergegebenen Autokorrelationsfunktionen
werden in einer entsprechenden Anordnung 21 einer Fourier-Transformation unterzogen, wodurch man die entsprechenden
Kurzzeit-Energiespektrenabschnitte an den Leitungen 23 erhält. Die Spektren werden mit derselben Wiederholungsfrequenz
wie die Autokorrelationsfunktion erzeugt, d.h. mit 100 pro
Sekunde. Jedes Kurzzeit-Energiespektrum (power spectrum) hat einunddreissig numerische Terme mit einer Auflösung von 16 bit
pro Term. Jeder dieser einunddreissig Terme im Spektrum repräsentiert die Signalleistung oder -energie innerhalb eines
Frequenzbandes. Die Fourier-Transformationsanordnung umfasst vorzugsweise ein Hamming-Fenster oder eine vergleichbare Einrichtung,
um Korrelationen mit den benachbarten Bändern herabzusetzen.
In dem dargestellten Ausführungsbeispiel werden die Fourier-Transformation
sowie die folgenden Verarbeitungsschritte unter der Aufsicht eines entsprechend programmierten digitalen
Vielzweckcomputers durchgeführt, wobei ein peripherer Array-Processor
verwendet v/ird, um die Rechenoperationen zu beschleunigen, die bei dem erfindungsgemässen Verfahren wiederholt
benötigt werden. Der im speziellen Fall verwendete Computer ist ein PDP-11-Computer, der von der Firma Digital Equipment
Corporation of Maynard, Massachusetts, USA, hergestellt worden ist. Der besondere Array-Processor ist in der deutschen Patentanmeldung
P (US-Patentanmeldung SN 841 390) beschrieben. Das im folgenden unter Bezugnahme auf Fig. 3 beschriebene
Programm ist im v/esentlichen auf die Fähigkeiten
909845/0595
5.Juni 1978
und Eigenschaften dieser im Handel erhältlichen Digital-Verarbeitungseinheiten
abgestimmt.
Die Kurzzeit-Energiespektrenabschnitte werden bei 25 frequenzegalisiert,
wobei diese Frequenzegalisierung als Funktion der Spitzenamplitude durchgeführt wird, die in jedem Frequenzband
oder -kanal auftritt, wie dies im folgenden noch ausführlich beschrieben wird. Die frequenzegalisierten Spektren,
die an der Leitung 26 anfallen, werden mit einer Rate von pro Sekunde erzeugt. Jedes Spektrum umfasst einunddreissig
numerische Terme, die mit einer Genauigkeit von 16 bit vorliegen.
Um die Endauswertung der Audioeingangssignale zu erleichtern,
werden di,e frequenzegalisierten und begrenzten (windowi
Spektren über die Leitung 26 einer Amplitudentransformations-,
vorrichtung 35 zugeführt, in welcher eine nicht-lineare Amplitudentransformation
der Eingangsspektren erfolgt. Diese Transformation wird im folgenden ausführlich beschrieben, jedoch
kann bereits jetzt festgestellt werden, dass diese Amplitudentransformation die Genauigkeit vergrössert, mit welcher das
unbekannte Eingangs-Audiosignal mit Schlüsselwörtern in dem Referenzvokabular verglichen werden kann. In dem dargestellten
Ausführungsbeispiel wird diese Transformation bei allen frequenzegalisierten und begrenzten - - Spektren vor dem Vergleich
der Spektren mit den Schlüsselwortschablonen durchgeführt, welche die Schlüsselwörter in dem Vergleichvokabular darstellen.
Die an der Leitung 38 anstehenden, amplitudentransformierten und egalisierten Kurzzeitspektren werden dann in der Einrichtung
40 mit Schlüsselwortschablonen verglichen. Diese mit dem Bezugszeichen 42 bezeichneten Schlüsselwortschablonen stellen die
S09845/0595
5.Juni 1978
Schlüsselwörter des Referenzvokabulars in einem spektralen
Muster dar, mit welchem die transformierten und egalisierten Spektren verglichen werden kennen. Entsprechend der Nähe bei
dem Vergleich werden auf diese Weise in die engere Wahl fallende Wörter, sogenannte Kandidatenwörter, herausgesucht. In dem
dargestellten Ausführungsbeispiel soll bei diesem Auswahlprozess die Wahrscheinlichkeit eines übersehenen Schlüsselwortes
verkleinert werden, während gleichzeitig unbrauchbare Muster weitgehend unberücksichtigt bleiben sollen. Die Kandidatenwörter
(und gespeicherte statistische Daten, die sich auf die entsprechenden Eingangsdaten beziehen) werden über die
Leitung 44 einer Nachentscheidungseinheit 46 zugeführt, in welcher die Zahl der unrichtigen tibereinstimmungsmeldungen
reduziert wird. Diese Nachentscheidung, welche die Verwendung' einer Prosodie-Maske und/oder eines Testes des Verhältnisses
der Wahrscheinlichkeit bestimmter akustischer Niveaus umfasst, verbessert die Unterscheidung zwischen korrekten Zuordnungen
und falschen Anzeigen, wie dies weiter unten ausführlich beschrieben
wird.
In der in Fig. 2 dargestellten Vorrichtung wird aus dem digitalen Datenstrom, den der Analog-Digital-Converter 13 aus den
analogen Äudioeingangssignalen, in der Regel also aus einem Stimmsignal, erzeugt, eine Autokorrelationsfunktion mit ihrer
zugehörigen Mittelung auf digitalem Wege erzeugt. Der Converter 13 erzeugt an der Leitung 15 ein digitales Eingangssignal. Die
digitalen Verarbeitungsfunktionen und die eingangs erfolgende Analog-Digital-Umwandlung werden mittels eines Zeitgeberoszillators
51 gesteuert. Dieser Zeitgeberoszillator 51 liefert ein
909845/059S
u - 163 - 24 -
5.Juni 1978
Basiszeitsignal mit 256000 Impulsen pro Sekunde, und dieses Signal wird einem Frequenzteiler 52 zugeführt, so dass man
ein zweites Zeitsignal mit 8000 Impulsen pro Sekunde erhält. Das langsamere Zeitsignal steuert den Analog-Digital-Converter
13 und eine Halteschaltung 53, die die 12-bit-Ergebnisse der
letzten Umwandlung festhält, bis die nächste Umwandlung vollendet ist.
Die gewünschten Autokorrelationsprodukte werden von einer
digitalen Multipliziereinheit 56 erzeugt, welche die in der Halt schaltung 53 enthaltene Zahl mit dem Ausgangssignal eines
32-Wort-Schieberegisters 58 multipliziert. Das Schieberegister 58 wird im Zirkuliermode betrieben und von der schnelleren
Zeitgeberfrequenz gesteuert, so dass ein vollständiger Daten-· umlauf während jeder Analog-Digital-Umwandlung vollendet wird.
Ein Eingangssignal für das Schieberegister 58 wird an der Halteschaltung 53 einmal während jedes vollständigen Umlaufes
entnommen. Ein Eingangssignal für die digitale Multipliziereinheit 56 kommt direkt von der Halteschaltung 53, während
das andere Eingangssignal für die Multipliziereinheit (mit einer weiter unten beschriebenen Ausnahme) von dem laufenden Ausgangssignal
des Schieberegisters über einen Multiplexer 59 herangeführt wird. Die Multiplikationen werden mit einer höheren
Zeitgeberfrequenz durchgeführt.
Auf diese Weis-e wird jeder bei der Analog-Digital-Umwandlung
erhaltene Wert mit jedem der vorhergehenden 31 Umwandlungswerte multipliziert. Für den Fachmann ist ersichtlich, dass
die dabei erzeugten Signale einer Multiplikation des Eingangssignals mit sich selbst entsprechen, wobei die Signale selbst
909845/0595
α-163 _25_ 282518S
5.Juni 1978
um 32 verschiedene Zeitintervalle verzögert sind (wobei eines
eine Nullverzögerung ist). Um eine Korrelation mit Nullverzögerung, d.h. ein der Energie des Nullsignals entsprechendes
Signal, zu erzeugen,veranlasst ein Multiplexer 59 die Multiplikation
des laufenden Wertes mit sich selbst, und zwar zu einem Zeitpunkt, an dem der neue Wert in das Schieberegister
eingeführt wird. Diese Zeitfunktion ist bei 60 dargestellt.
Wie sich für den Fachmann auch ergibt, sind die Produkte einer einzigen Umwandlung mit ihren 31 Vorgängern nicht sonderlich
repräsentativ für die Energieverteilung oder das Spektrum des Signals über ein vernünftiges Probenintervall. Daher sieht die
Vorrichtung der Fig. 2 eine Mittelung dieser Sätze von Produkten vor.
Ein diese Mittelung bewirkender Akkumulationsprozess erfolgt durch ein 32-Wort-Schieberegister 63, welches mit einer Addiereinheit
65 verbunden ist und so einen Satz von 32 "Akkumulatoren" bildet. Auf diese Weise kann jedes Wort zirkuliert werden,
nachdem zu ihm das entsprechende Inkrement der digitalen Multipliziereinheit addiert worden ist. Die Zirkulierschleife läuft
durch ein Tor 67, welches von einer mit der niederen Frequenz des Zeitgebers betriebenen Teilerschaltung 69 gesteuert wird.
Der Teiler 69 teilt das niederfrequente Zeitgebersignal durch einen Faktor N, der die Zahl von augenblicklichen Autokorrelationsfunktionen
bestimmt, die akkumuliert und dadurch gemittelt werden sollen, bis das Schieberegister 63 ausgelesen
wird.
In dem bevorzugten Beispiel werden vor der Auslesung 80 Werte
5.Juni 1978 - 26 -
akkumuliert. Mit anderen Worten, N für den durch N dividierenden Teiler ist achtzig. Wenn achtzig Werte auf diese Weise korreliert
und akkumuliert worden sind, triggert die Teilerschaltung 69 eine Computerunterbrecherschaltung 71 über eine Leitung 72.
Zu diesem Zeitpunkt wird der Inhalt des Schieberegisters 63 über eine geeignete Anpass- oder übertragungsschaltung 73
schrittweise in den Speicher des Computers eingelesen, wobei die zweiunddreissig Wörter des Registers über die Schaltung 73
in geordneter Folge dem Computer zugeführt werden. Wie für den Fachmann klar ist, kann die übertragung der Daten von der
peripheren Einheit, dem Autokorrelations-Vorprocessor, in den Computer typischerweise durch einen Prozess mit direktem Zugang
zum Speicher erfolgen. Ausgehend von der Mittelung von achtzig Werten und einer anfänglichen Erzeugungsrate von
8000 Werten pro Sekunde ergibt sich, dass dem Computer in jeder Sekunde 100 gemittelte Autokorrelationsfunktionen zugeführt
werden.
Während der Inhalt des Schieberegisters in den Computer eingelesen
v/ird, ist das Tor 67 geschlossen, so dass jedes der Wörter in dem Schieberegister effektiv auf Null zurückgesetzt
wird, so dass die Akkumulation von neuem beginnen kann.
Mathematisch kann die Operation der in Fig. 2 dargestellten Vorrichtung wie folgt beschrieben werden. Wenn man annimmt,
dass der Analog-Digital-Converter eine Zeitserie S (t) erzeugt, wobei t = 0, T , 2T .... und T das Probenintervall (im beschriebenen
Ausführungsbeispiel 1/8000 see) darstellt, dann kann man annehmen, dass die beschriebene, digitale Korrelationsschaltung der Fig. 2 die folgende Autokorrelationsfunktion
erzeugt, wobei Ungenauigkeiten beim Beginn unberücksichtigt
SD9845/059S
5.Juni 1978
bleiben:
£ S(t-kTo) S(t-(k + j) T0) (Gleichung 1)
k=1
wobei j =0, 1, 2 ..., 31; t = 80 TQ, 160 TQ, ...., 8On To,...
Diese Autokorrelationsfunktionen entsprechen dem korrelierten Ausgangssignal auf der Leitung 19 in Fig. 1.
Die bei 77 in Fig. 3 dargestellte Funktion bedeutet also, dass .der Digitalkorrelator fortlaufend arbeitet und dem Computer
eine Reihe von Datenblöcken übermittelt, wobei alle zehn Millisekunden eine vollständige Autokorrelationsfunktion geliefert
wird. Jeder Datenblock stellt eine Autokorrelationsfunktion dar, die von dem entsprechenden Zeitunterintervall
abgeleitet ist. Wie bereits angegeben, werden diese Autokorrelationsfunktionen dem Computer mit einer Rate von einhundert
32-Wort-Funktionen pro Sekunde übermittelt.
In der beschriebenen Ausführungsform wird die Weiterverarbeitung
von diesem Punkt an durch einen geeigneten programmierten digitalen Mehrzweckcomputer übernommen. In Fig. 3 ist ein
Flussdiagramm dargestellt, welches auch die Funktionen umfasst, die dieses Computerprogramm beisteuert. Es soll jedoch noch
einmal darauf hingewiesen werden, dass verschiedene dieser Schritte ebensogut durch Hardware wie durch Software durchgeführt
werden können, ebenso wie bestimmte von der Vorrichtung der Fig. 2 ausgeführte Funktionen zusätzlich in der Software
enthalten sein können, wobei man dann das Flussdiagramm der Fig. 3 entsprechend abändern müsste.
5.Juni 1978
Obwohl der Digitalkorrelator der Fig. 2 eine gewisse Zeitmittelung
der jeweils augenblicklich erzeugten Autokorrelationsfunktionen durchführt, können die in den Computer eingelesenen
Autokorrelationsfunktionen immer noch einige anomale Unstetigkeiten oder ungleiche Verläufe aufweisen, die einer
ordnungsgemässen Weiterverarbeitung und Auswertung der Werte
entgegenstehen. Aus diesem Grunde wird jeder Datenblock, d.h. jede Autokorrelationsfunktion τ (j,t), zuerst bezüglich der
Zeit geglättet. Dies ist in dem Flussdiagramm der Fig. 3 bei 79 angedeutet. Der bevorzugte Glättungsprozess ist ein Verfahren,
bei welchem das geglättete Ausgangssignal ^ (j,t)
gegeben ist durch den Ausdruck
(Gleichung 2) ψ s (3 't} = 0O^ (j 't} + C1 Y (j ,t - T) + C2 f (j ,t + T)
wobei Y (j,t) die ungeglättete, in Gleichung 1 definierte Eingangsautokorrelation,
^* (j,t) die geglättete Ausgangsautokorrelation, j die Zeitverzögerung, t die Realzeit und T das
Zeitintervall zwischen aufeinanderfolgend erzeugten Autokorrelationsfunktionen (T = 0,01 Sekunden in dem bevorzugten Ausführungsbeispiel)
darstellen. Die Gewichtsfunktionen C0, C.,
C- werden in dem bevorzugten Ausführungsbeispiel vorzugsweise zu 1/2, 1/4 bzw. 1/4 gewählt, obwohl andere Werte gewählt
werden können. Beispielsweise kann in die Computer-Software eine Glättungsfunktion eingearbeitet werden, die einen annähernd
Gauss-förmigen Impuls mit einer Abschneidefrequenz von beispielsweise 20 Hertz ergibt. Versuche haben jedoch ergeben,
dass die vorstehend angegebenen, leichter zu verarbeitenden Werte zu einer Glättungsfunktion führen, die zufriedenstellende
Ergebnisse zeigt. Wie angegeben, wird diese Glättungsfunktion getrennt für jeden Verzögerungswert j angewendet. Wie bei 81
909845/0595
-29- 282518S
u- 163
5.Juni 1978
angedeutet, wird jede Autokorrelationsfunktion V (j-t)
einer Cosinus-Fourier-Transformation unterzogen, so dass sich ein 31-Punkte-Energiespektruiu (power spectrum) ergibt. Das
Spektrum ist durch den folgenden Ausdruck definiert
31
S(f,t) =ψ (0, t) W (0) + 2 Σ V_(j,t) W <j) cos 2/ff j
S(f,t) =ψ (0, t) W (0) + 2 Σ V_(j,t) W <j) cos 2/ff j
i = 1
J 8000
(Gleichung 3}
wobei S (f,t) die spektrale Energie in einem Band angibt,
dessen Zentrum bei f Hz liegt. Die Energie wird zur Zeit t bestimmt. W (j) = 1/2 (1 + cos 2// j) ist die Hamming-Abschneide-
oder Fensterfunktion, mit welcher seitliche Bänder unterdrückt werden, ψ B(j,t) ist die geglättete Autokorrelations- ··
funktion bei einer Verzögerung j und einer Realzeit t. Ausserdem gilt die Beziehung
1/0,063 f = 30 + 1000 (O,O552m + 0,438) Hz; m=1 , 2, ... , 31
(Gleichung 4)
wobei diese Frequenzen in der "mel"-Skala der Tonhöhe (pitch) gleichen Abstand haben. Dies entspricht also einer subjektiven
Tonhöhen-Frequenzachse (mel-Skala) für Frequenzen in der Bandbreite
eines typischen Übertragungskanals zwischen etwa 300 und 3500 Hertz. Es ist auch klar, dass jeder Punkt oder Wert
innerhalb jedes Spektrums ein entsprechendes Frequenzband darstellt. Man kann diese Fourier-Transformation vollständig
innerhalb der konventionellen Computer-Hardware durchführen, das Verfahren kann jedoch wesentlich beschleunigt werden, wenn
man eine externe Hardware-Multipliziereinheit oder eine Schnell-Fourier-Transformationsvorrichtung
(FFT) benutzt. Aufbau und
S0984B/059S
5.Juni 1978
Betriebsweise derartiger Einheiten sind bekannt und werden daher in diesem Zusammenhang nicht ausführlich beschrieben.
Vorzugsweise wird der Hardware-Schnell-Fourier-Transformationsvorrichtung (FPT) eine periphere Einheit mit einer Frequenzglättungsfunktion
zugeordnet, worin jedes der Spektren entsprechend der bevorzugten Haituning-Abschneide-Wichtungsfunktion
W (j), die oben definiert wurde, frequenzmässig geglättet wird.
Dies wird innerhalb des Blockes 85 durch das Bezugszeichen
angedeutet, wobei 85 die Hardware-Fourier-Transformationseinrichtung kennzeichnet.
In dem Maße, wie fortlaufend geglättete Energiespektren von der Schnell-Fourier-Transformationseinheit 85 erhalten werden,
wird eine Übertragungskanal-Egalisierungsfunktion erhalten, indem man ein (im allgemeinen unterschiedliches) Energiespitzenspektrum
(peak power spectrum) für jedes von der Einheit 85 ankommendef begrenzte oder abgeschnittene (windowed) Energiespektrum
bestimmt/
/und~üie Ausgangssignale der Schnell-Fourier-Transformationseinheit in der unten beschriebenen Weise entsprechend modifiziert. Jedes neu gebildete Spitzenamplitudenspektrum y (f,t), welches den ankommenden abgeschnittenen Energiespektren S (f,t) entspricht, wobei f über die Frequenzbänder des Spektrums läuft, ist das Ergebnis einer schnell ansteigenden, langsam abfallenden Spitzenfeststellfunktion für jeden Kanal des Spektrums oder jedes Band des Spektrums. Die abgeschnittenen Energiespektren werden mit Hilfe der jeweiligen Terme des entsprechenden Spitzenamplitudenspektrum normalisiert. Dies wird durch das Bezugszeichen 87 gekennzeichnet.
/und~üie Ausgangssignale der Schnell-Fourier-Transformationseinheit in der unten beschriebenen Weise entsprechend modifiziert. Jedes neu gebildete Spitzenamplitudenspektrum y (f,t), welches den ankommenden abgeschnittenen Energiespektren S (f,t) entspricht, wobei f über die Frequenzbänder des Spektrums läuft, ist das Ergebnis einer schnell ansteigenden, langsam abfallenden Spitzenfeststellfunktion für jeden Kanal des Spektrums oder jedes Band des Spektrums. Die abgeschnittenen Energiespektren werden mit Hilfe der jeweiligen Terme des entsprechenden Spitzenamplitudenspektrum normalisiert. Dies wird durch das Bezugszeichen 87 gekennzeichnet.
Bei dem dargestellten Ausführungsbeispiel werden die Werte des
"alten" Spitzenamplitudenspektrum y (f,t-T), welches vor dem
.909845/0595
u - 163
5.Juni 1978
Empfang eines neuen, abgeschnittenen Spektrum bestimmt worden ist, Frequenzband für Frequenzband mit dem neu eingehenden
Spektrum S(f,t) verglichen. Das neue Spitzenspektrum y (f,t) wird dann entsprechend der folgenden Regeln erhalten. Die
Energieamplitude in jedem Band des "alten" Spitzenamplitudenspektrums
wird mit einem festen Bruch multipliziert, beispielsweise im beschriebenen Ausführungsbeispiel 511. Das entspricht
dem langsam abfallenden Teil der Spitzenauffindfunktion. Wenn
die Energieamplitude in einem Frequenzband f des ankommenden ■Spektrums S (f,t) grosser ist als die Energieamplitude im
entsprechenden Frequenzband des verkleinerten Spitzenamplitudenspektrums,
dann wird der Wert des verkleinerten Spitzenamplitudenspektrums für dieses Frequenzband oder für diese
Frequenzbänder durch den jeweiligen Wert des Spektrums des eingehenden, abgeschnittenen Spektrums in dem entsprechenden
Frequenzband ersetzt. Das gleiche gilt für den schnell ansteigenden Teil der Spitzenauffindfunktion. Mathematisch kann diese
Spitzenauffindfunktion folgendermassen ausgedrückt werden
yCfft) = max J y (f ,t-T) · (1 -E) , S(f,t)V (Gleichung 5)
wobei f über alle Frequenzbänder läuft, y (f,t) das sich ergebende
Spitzenspektrum bezeichnet, y (f,t-T) das "alte" oder
vorhergehende Spitzenspektrum darstellt, S(f,t) das neu ankommende EnergieSpektrum darstellt und E der Abfall- oder
Verkleinerungsparameter ist. Nach der Erzeugung des Spitzenspektrums wird dieses bei 89 frequenzegalisiert, indem man den
Spitzenwert jedes Frequenzbandes mit den Spitzenwerten der benachbarten Frequenzen des neu gebildeten Spitzenspektrums
mittelt, wobei die Breite des Frequenzbandes, welches zu der
S0984B/0S9B
5.Juni 1978
Mittelung beiträgt, etwa gleich dem typischen Frequenzabstand
zwischen Formantfrequenzen ist. Für Fachleute der Spracherkennung ist ersichtlich, dass dieser Abstand in der Grössenordnung
von 1000 Hz liegt. Wenn man in dieser speziellen Weise mittelt, dann wird die nutzbare Information in den Spektren,
d.h. die lokalen Variationen, die die Formantresonanzen zeigen, aufrechterhalten, während eine Insgesamt- oder Bruttobetonung
im Frequenzspektrum unterdrückt wird. Das sich ergebende geglättete
Spitzenamplitudenspektrum y(f,t) wird dann dazu verwendet,
das gerade erhaltene Energiespektrum S(f,t) zu normalisieren und bezüglich der Frequenz zu egalisieren, indem man
den Amplitudenwert jedes Frequenzbandes des eingehenden, geglätteten Spektrums S(f,t) durch den Wert des entsprechenden
Frequenzbandes in dem geglätteten Spitzenspektrum y(f,t) dividiert.
Mathematisch wird das durch die folgende Gleichung angegeben:
Sn (f,t) = S(f,t) / y(f,t) (Gleichung 6)
wobei S (f,t) das mit Hilfe des Spitzenspektrums normalisierte, geglättete Energiespektrum darstellt und f über alle Frequenzbänder
läuft. Dieser Schritt ist mit dem Bezugszeichen 91 gekennzeichnet. Man erzeugt damit eine Folge von frequenzegalisierten,
normalisierten, Kurzzeit-Energiespektren, die Änderungen im Frequenzinhalt des eingehenden Audio-Signals betonen,
während sie allgemeine Frequenzbetonungen oder Verzerrungen unterdrücken. Es hat sich herausgestellt, dass dieses Verfahren
zur Frequenzkompensation bei der Erkennung von über Telefonleitungen übermittelten Sprachsignalen äusserst vorteilhaft
ist gegenüber den gebräuchlicheren Systemen der Frequenzkompensation, bei welcher als Basis der Kompensation der Durch-
.909 845/0596
5.Juni 1978
schnittswert entweder des gesamten Signals oder des entsprechenden
Frequenzbandes genommen wird.
An dieser Stelle soll darauf hingewiesen werden, dass die aufeinanderfolgenden
Spektren zwar auf verschiedene Weise bearbeitet und egalisiert worden sind, dass aber die Daten, die
das gesprochene Wort repräsentieren, immer noch Spektren umfassen, die mit einer Rate von 100 pro Sekunde angeliefert
werden.
Die normalisierten und frequenzegalisierten Spektren, wie sie bei 91 erhalten werden, werden dann einer Amplitudentransformation
unterworfen (Bezugszeichen 93). Dadurch erhält man eine nicht-lineare Skalierung der Amplitudenwerte des Spektrums.
Wenn man die individuellen egalisierten und normalisierten Spektren mit sn(f,t) (aus Gleichung 6) bezeichnet, wobei f über
die verschiedenen Frequenzbänder des Spektrums läuft und t die Realzeit angibt, dann ergibt sich das nicht-linear-skalierte
Spektrum x(f,t) aus der linearen Bruchfunktion
vt* «ο - Sn(fft) " A (Gleichung 7A)
Xir't; ~ Sn(f,t) + A
wobei A der Durchschnittswert des Spektrums S (f,t) ist, der
sich aus der folgenden Beziehung ergibt:
31
A = -jj- Σ Sn(fbft) (Gleichung 7B)
A = -jj- Σ Sn(fbft) (Gleichung 7B)
wobei f, über die Frequenzbänder des Energiespektrums läuft.
30384 5/0 595
5.Juni 1978
Diese Skalierfunktion erzeugt einen sanften Schwell- und einen
allmählichen Sättigungseffekt für die spektralen Intensitäten,
die stark von dem Kurzzeitdurchschnitt A abweichen. Mathematisch ist diese Funktion für Intensitäten in der Nähe des
Durchschnittswertes annähernd linear; für Intensitäten, die weiter von dem Durchschnittswert entfernt sind, ist sie annähernd
logarithmisch; und für Extremwerte der Intensität ist sie im wesentlichen eine Konstante. In einer logarithmischen
Darstellung ist die Funktion x(f,t) zum Nullpunkt symmetrisch und zeigt ein Schwell- oder Ansteigs- sowie ein Sättigungsverhalten,
das in etwa dem Impulserzeugungsverhalten eines Gehörnerves entspricht. In der Praxis arbeitet das Spracherkennungssystem
mit dieser speziellen nicht-linearen Skalierfunktion besser als mit einer linearen oder logarithmischen Skalierfunktion.
Auf diese Weise hat man eine Folge von amplitudentransformierten, frequenzegalisierten, normalisierten Kurzzeitenergiespektren
x(f,t) erzeugt, wobei t die Werte 0,01, 0,02, 0,03, 0,04, ... Sekunden und f die Werte 1 .... 31 (entsprechend den
Frequenzbändern der erzeugten Energiespektren) durchlaufen. Für jedes Spektrum werden zweiunddreissig Wörter erzeugt; und
der Wert A (Gleichung 7B), also der Durchschnittswert des Spektrumwertes, ist in dem zweiunddreissigsten Wort gespeichert.
Das amplitudentransformierte Kurzzeit-Energiespektrum wird,
wie durch das Bezugszeichen 95 gekennzeichnet, in einem sogenannten first-in-first-out-Zirkulierspeicher gespeichert, der
in dem dargestellten Ausführungsbeispiel eine Speicherkapazität von 256 zweiunddreissig-Wort-Spektren aufweist. Für die Analyse
stehen also 2,56 Sekunden des Audio-Eingangssignals zur Ver-
S09845/0B95
5.Juni 1978
fügung. Diese Speicherkapazität versieht das Spracherkennungssystem
mit der Flexibilität, die zur Auswahl von Spektren zu verschiedenen Realzeiten notwendig ist, damit die Analyse und
Auswertung durchgeführt v/erden kann. Es wird dadurch möglich, je nach den Erfordernissen der Analyse in der Zeit vorwärts
und zurückzugehen.
Die amplitudentransformierten Energiespektren für die letzten 2,56 Sekunden sind also in dem Zirkulierspeicher enthalten und
bei Bedarf zugänglich. Beim Betrieb des beschriebenen Ausführungsbeispiels wird jedes amplitudentransformierte Energiespektrum
2,56 Sekunden lang gespeichert. Ein Spektrum, welches zu einer Zeit t, in den Zirkulierspeicher eintritt, wird 2,56
Sekunden später gelöscht oder weitergeleitet, wenn ein neues," der Zeit t. + 2,56 Sekunden entsprechendes transformiertes
Amplitudenspektrum eingespeichert wird.
Die transformierten und egalisierten Kurzzeit-Energiespektren, die durch den Zirkulierspeicher laufen, werden, vorzugsweise
im Echtzeitbetrieb, mit einem bekannten Vokabular von Schlüsselwörtern verglichen, um diese Schlüsselwörter in dem kontinuierlichen
Audiodatenstrom zu entdecken oder herauszufinden.
Jedes Schlüsselwort des Vokabulars wird durch eine Schablone (template pattern) dargestellt, welche in statistischer Weise
eine Vielzahl von verarbeiteten Energiespektren darstellt, die in der Form eines Mehrfachsatzes von nicht-überlappenden
Spektren vorliegen; ein solcher Mehrfachsatz (vorzugsweise drei Spektren) wird im folgenden als "Muster (satz)" (design set
pattern) bezeichnet. Diese Muster werden vorzugsweise so aus-
809345/0598
5.Juni 1978
gewählt, dass sie die bedeutsamen akustischen Ereignisse des Schlüsselwortes am besten darstellen.
Die Spektren, die die Muster bilden, v/erden für Schlüsselwörter erzeugt, die in verschiedenen Kontexten gesprochen werden,
indem man dasselbe System zur Verarbeitung der kontinuierlichen, unbekannten Sprachsignale an der Leitung 10 benützt, welches
oben beschrieben worden ist.
Jedem Schlüsselwort des Vokabulars ist also eine im allgemeinen
mehrfache Folge von Mustern P (i) .. , P(i)~ / zugeordnet,
welche auf der Basis von Kurzzeit-Energiespektren eine Darstellung
des i-ten Schlüsselwortes geben. Die Sammlung der Muster für jedes Schlüsselwort bilden die statistische Basis, aufgrund
welcher die sogenannten "Zielmuster" oder "Zielmustersätze" (target patterns) gebildet werden.
In dem beschriebenen Ausführungsbeispiel der Erfindung können die Muster P(i). jedes als ein Array mit 96 Elementen aufgefasst
werden, welche drei ausgewählte Kurzzeit-Energiespektren enthalten, die in einer Reihe angeordnet sind. Die Energiespektren,
welche die Muster aufbauen, sollten vorzugsweise mindestens 30 Millisekunden voneinander getrennt sein, um Kreuzkorrelationen
infolge der Glattungsprozesse im Zeitbereich auszuschalten. Bei anderen Ausgestaltungen der Erfindung können
auch andere Ausv/ahlkriterien für die Auswahl der Spektren verwendet werden. Vorzugsweise werden jedoch die Spektren so
ausgewählt, dass sie einen konstanten Zeitabstand aufweisen, vorzugsweise 30 Millisekunden, und dass sich die nicht-überlappenden
Muster über das gesamte, das Schlüsselwort definierende Zeitintervall erstrecken. Ein erstes Muster P1 entspricht
S098 4R/Π 59S
«-163 -37- 282518S
5.Juni 1978
also einem Teil des Schlüsselwortes in der Nähe von dessen Anfang, ein zweites Muster P_ entspricht einem in der Zeit
später folgenden Teil des Schlüsselwortes etc. Die Muster P1,
P- ... bilden die statistische Basis für eine Reihe oder Folge von Zielmustern, die ihrerseits wieder die Schlüsselwortschablone
aufbauen, mit welcher die eingehenden Audiodaten verglichen werden. Die Zielmuster oder Zielmustersätze t1, tetc.
umfassen jeweils die statistischen Daten, wobei man annimmt, dass P(i). aus unabhängigen Gauss"sehen Variablen bestehen,
welche es ermöglichen, eine Wahrscheinlichkeitsstatistik zwischen ausgewählten Mustersätzen, die weiter unten definiert
v/erden, und den Zielmustern zu erzeugen. Die Zielmuster bestehen also aus einem Array, deren Glieder auch die mittlere
Standardabweichung und den Flächennormalisierungsfaktor für eine entsprechende Sammlung von Muster-Array-Gesamtheiten umfassen.
Eine verfeinerte Wahrscheinlichkeitsstatistik ist weiter unten beschrieben.
Für den Fachmann ist es klar, dass praktisch alle Schlüsselwörter verschieden ausgesprochen werden können, je nach dem
Kontext und/oder der Stelle, an welcher sie stehen. Es gibt daher mehr als eine "Schreibweise" der Muster. Ein Schlüsselwort
mit dem Muster P1, P_, von dem weiter oben gesprochen
worden ist, kann also tatsächlich geschrieben werden als ρ p(i)2···· i = 1/2 , .... M, wobei jedes der p(i)· mögliche
alternative Schreibweisen der j-ten Klasse von Mustern darstellt, wobei insgesamt M verschiedene Schreibweisen des
Schlüsselwortes möglich sind.
909645/0695
u - 163 - 38 -
5.Juni 1978
Die Zielmuster t.. , t„, ..., t. , .... stellen also im allgemeinsten
Sinn jeweils mehrere statistische Aussprachealternativen für die i-te Gruppe oder Klasse der Muster dar. In dem
beschriebenen Ausführungsbeispiel wird also der Ausdruck "Zielmuster" im allgemeinsten Sinn verwendet, und jedes Zielmuster
kann daher mehr als eine zulässige alternative "statistische Schreibweise" haben.
Die bei 95 gespeicherten, die eingehenden, kontinuierlichen
Audiodaten darstellenden Spektren werden mit den gespeicherten, aus einer Folge von Zielmustern bestehenden Schablonen (Bezugszeichen 96) verglichen, wobei die Schablonen Schlüsselwörter
des Vokabulars darstellen. Dieser Vergleich wird in der im folgenden beschriebenen Weise vorgenommen. Jedes nacheinander
ankommende, transformierte, frequenzegalisierte Spektrum wird als das erste Spektrum eines mehrere Spektren umfassenden
Satzes aufgefasst, im vorliegenden Beispiel eines Satzes mit drei Spektren, der einem Vektor mit 9 6 Elementen entspricht.
Das zweite und dritte Spektrum dieses Satzes entspricht in dem beschriebenen Ausführungsbeispiel Spektren, die (in Realzeit)
30 bzw. 60 Millisekunden später auftreten. In dem sich ergebenden, mit 97 gekennzeichneten Muster bildet also das erste ausgewählte
Spektrum die ersten 32 Elemente des Vektors, das zweite ausgewählte Spektrum die zweiten 32 Elemente des Vektors
und das dritte ausgewählte Spektrum die dritten 32 Elemente des Vektors.
009845/0596
5.Juni 1978
Vorzugsweise wird jeder auf diese Weise gebildete Mustersatz entsprechend den folgenden Methoden transformiert, um Kreuzkorrelationen
herabzusetzen und um die Dimension zu verringern. Ausserdem soll dadurch die Trennung ^wischen Zielmusterklassen
vergrössert werden. Dies wird mit dem Bezugszeichen 99 gekennzeichnet. Die transformierten Muster werden in dem dargestellten
Ausführungsbeispiel dann als Eingangssignale für eine statistische Wahrscheinlichkeitsberechnung verwendet, die mit
dem Bezugszeichen 100 gekennzeichnet ist. Diese Wahrscheinlichkeitsberechnung ergibt ein Maß für die Wahrscheinlichkeit, dass
das transformierte Muster einem Zielmuster entspricht.
glustertransformation
Wenn man zuerst die Mustertransformation betrachtet und dazu eine Matrixschreibweise verwendet, dann kann jeder Mustersatz
durch einen 96-spaltigen Vektor χ = (χ.. , x„ .... Xgß) dargestellt
werden, wobei X1, X2 .··, X39 ^-*-e Elemente x(f,t-) des
ersten Spektrums des Musters, x.,, X34..., x,- die Elemente
x(f,t_) des zweiten Spektrums des Musters und xßc-/ xfif-.... ,Xqß
die Elemente x(f,t-,) des dritten Spektrums des Musters darstellen.
Experimentell stellt man fest, dass die meisten Elemente x. des Vektors χ Wahrscheinlichkeitsverteilungen aufweisen,
so dass sie symmetrisch um ihren Mittelwert angeordnet sind. Eine Gauss'sehe Wahrscheinlichkeitsdichteverteilung
passt sich daher gut der Verteilung jedes χ ^ an, welches über
eine Probe einer bestimmten Mustersammlung läuft, die einem bestimmten Zielmuster entspricht. Viele Paare von Elementen
χ., χ. stellen sich als in erheblicher Weise korreliert heraus, so dass die Annahme, die Elemente des Vektors χ seien gegenseitig
unabhängig und unkorreliert, ungerechtfertigt ist. Die
S09845/0595
5.Juni 1978
Korrelationen zwischen den Elementen der verschiedenen Spektren in dem Mustersatz ergeben weiterhin eine Information über die
Richtung der Bewegung der Formantresonanzen in dem Eingangssprachsignal , und diese Information bleibt relativ konstant
auch dann, wenn die Durchschnittsfrequenzen der Formantresonanzen sich verändern sollten, beispielsweise von einem Sprecher
zum anderen. Wie dies wohl bekannt ist, stellen die Richtungen der Bewegung der Formantresonanzfrequenzen wichtige Schlüssel
für die menschliche Spracherkennung dar. In bekannter Weise kann die Wirkung der Kreuzkorrelation zwischen den Elementen
von χ durch die Verwendung der Gauss'sehen MuItivarrationslog-Wahrscheinlichkeitsstatistik
(multivariata Gaussian log likelihood statistic} berücksichtigt werden.
-L = 1/2(X-X)K"1(x-x)fc + 1/2 ln//K// (Gleichung 8A)"
wobei χ der Summenmittelwert von χ ist und wobei K die Matrix
der Kovarlanzen zwischen allen Elementpaaren von χ ist. Die
Elemente der Matrix K sind in der folgenden Weise definiert:
Kij = (X1-X1) (x.-x.), (Gleichung 8B)
//K// bezeichnet die Determinante der Matrix K. Die Kovarianzmatrix
K kann mit bekannten Methoden in die folgende Eigenvektordarstellung zerlegt werden
K = EVEt (Gleichung 8C)
wobei E die Eigenvektormatrix e. von K ist. V ist die Diagonalmatrix mit den Eigenwerten V1 von K. Diese Grossen sind durch
die folgende Beziehung definiert
SD9845/059S
5.Juni 1978
Ke± t = v±ei t (Gleichung 8D)
Die Multiplikation mit der Matrix E entspricht einer Drehung in dem 96-dimensionalen Raum, in dem die Vektoren χ dargestellt
sind. Wenn man nun einen transformierten Vektor w definiert als
w = E(x-x)t (Gleichung 8E)
dann kann die Wahrscheinlichkeitsstatistik in folgender Form "neu geschrieben werden
L = 1/2 wV~1wfc + 1/2 In //K//
(Gleichung 8F)
Jeder Eigenwert v. ist die statistische Varianz des statistischen Vektors χ gemessen in der Richtung des Eigenvektors e..
Die Parameter K.. und x. werden in dem dargestellten Ausführungsbeispiel
dadurch bestimmt, dass die gebildeten Mustersätze für jede der angegebenen statistischen Funktionen über
eine Anzahl von beobachteten Musterbeispielen gemittelt werden. Dieser Vorgang umfasst statistische Annahmen über die erwarteten
Werte von K.. und x.. Jedoch ist die Zahl der unabhängigen, anzunehmenden Parameter 9 6 Durchschnittswerte plus 9 6x9 7/2 =
4656 Kovarianzen. Da es unpraktisch ist, mehr als einige hundert Mustersatzbeispiele für ein Zielmuster zu verwenden, ist
die erreichbare Zahl von Beispielbeobachtungen pro statistischem Parameter offensichtlich recht klein. Die Wirkung der
909845/0595
„-,«a -«- 2825185
5.Juni 1978
ungenügenden Beispielgrösse liegt darin, dass die zufälligen
Fluktuationen der Parameterannahmen vergleichbar sind mit den angenommenen Parametern. Diese relativ grossen Fluktuationen
führen zu einer starken statistischen Abhängigkeit der Klassifizierungsgenauigkeit
des auf Gleichung 8F gestützten Entscheidungsprocessors, so dass der Processor zwar die Wortbeispiele
mit grosser Genauigkeit klassifizieren kann, die aus seinen eigenen Mustersätzen aufgebaut sind, dass aber der
Erfolg mit unbekannten Datenbeispielen recht schlecht wird.
Es ist bekannt, dass man bei einer Reduzierung der Zahl der
zu bestimmenden statistischen Parameter die Einwirkung der auf die kleine Beispielzahl zurückzuführenden Beschränkung
reduzieren kann. Zu diesem Zweck ist die im folgenden beschriebene Methode allgemein verwendet worden, um die Dimension
eines statistischen Random-Vektors zu reduzieren.
809845/0596
6.Juni 1978
Die oben definierten Eigenvektoren e. werden entsprechend der
abnehmenden Reihenfolge ihrer entsprechenden Eigenwerte ν.
umgeordnet, so dass sich eine umgeordnete Matrix E von umgeordneten Eigenvektoren e ergibt, wobei e , die Richtung der
maximalen Varianz ν -, und ν . ., - vr, . Dann ist der Vektor
x-x entsprechend der Gleichung 8E in einen Vektor w transformiert, wobei man die umgeordnete Matrix E verwendet.
Jedoch werden nur die ersten ρ Elemente von w verwendet, um den Mustervektor χ darzustellen. In dieser Darstellung, die
man manchmal die Hauptkomponentenanalyse (principal component analysis) nennt, liegt die effektive Zahl der zu bestimmenden
statistischen Parameter in der Grössenordnung von 96p anstelle
von 4656. Zur Klassifizierung der Muster wird die Wahrscheinlichkeitsstatistik L entsprechend der Beziehung 8F berechnet,·
jedoch läuft die Summierung nun von 1 bis ρ anstelle von t bis 96. Wenn man die Hauptkomponentenanalyse auf praktische Daten
anwendet, dann beobachtet man, dass die Klassifikationsgenauigkeit
des Processors zunimmt, wenn ρ zunimmt, bis ein kritischer Wert von ρ erreicht wird, bei dem die Genauigkeit ein
Maximum erreicht. Anschliessend nimmt die Genauigkeit wieder ab, wenn ρ weiter ansteigt, bis bei p=96 die oben beschriebenen,
schlechten Ergebnisse erhalten werden Cvgl. Fig. 4, Kurve a (bekannte Versuchswerte) und Kurve b (unbekannte
Eingangsdaten)).
Die mit dieser Hauptkomponentenmethode maximal erzielbare Klassifizierungsgenauigkeit wird immer noch durch die statistischen
Schwankungen aufgrund der geringen Beispielzahl beschränkt, und die Zahl der Komponenten oder Dimensionen, die
man benötigt, ist viel grosser als die Zahl, die man zur Darstellung
der Daten wirklich als notwendig erwarten würde.
$03845/0595
6.Juni 1978
Man kann weiterhin aus der Darstellung der Fig. 4 entnehmen, dass das Ergebnis für vorgegebene, bekannte Muster tatsächlich
schlechter ist als das Ergebnis für unbekannte Beispiele, und zwar gilt dies für einen weiten Bereich von p.
Der Grund der beschriebenen beiden Effekte liegt darin, dass der Probenraum mit ρ Komponenten des transformierten Vektors w
dargestellt wird, wobei der Beitrag der übrigen 9 6-p Komponenten aus der Wahrscheinlichkeitsstatistik L entfällt. Ein Gebiet,
in dem die meisten Muster zu finden sind, ist auf diese Weise beschrieben worden, aber das Gebiet, wo nur wenige Muster
auftreten, ist nicht beschrieben worden. Diese letzteren Bereiche entsprechen den Ausläufern der Wahrscheinlichkeitsverteilung
und damit den Bereichen, in denen eine Überlappung der verschiedenen Zielmusterklassen auftritt. Diese bekannten
Methoden eliminieren also gerade die Information, die man benötigt, um die schwierigsten Klassifizierungsentscheidungen
zu treffen. Unglücklicherweise sind diese Überlappungsbereiche von einer hohen Dimension, so dass es unpraktikabel wäre, das
obige Argument umzukehren und beispielsweise eine kleine Anzahl von Komponenten von w zu benutzen, für welche die Varianz
v. am kleinsten ist statt am grössten.
Gemäss der vorliegenden Erfindung wird der Effekt der nicht
verwendeten Komponenten W+1, . ... wgg dadurch abgeschätzt,
dass man eine Rekonstruktionsstatistik R in der folgenden Weise durchführt. Die aus dem Ausdruck für L (Gleichung 8F)
herausfallenden Terme enthalten die Quadrate der Komponenten w., von denen jedes entsprechend seiner Varianz v. gewichtet
ist. Alle diese Varianzen können durch einen konstanten Parameter c angenähert werden, der dann in der folgenden Weise
909845/0595
u - 163
6.Juni 1978
- 45 -
herausgezogen werden kann
96
1. i=p+1
vi
96 ττ 2
Ew. 1 i=P+1
(Gleichung 83)
Die Summierung auf der rechten Seite ist gerade das Quadrat der euklidischen Norm (Länge) des Vektors
...,Wq,). (Gleichung 8H)
Wenn man einen Vektor w^ definiert
wp =
(Gleichung 81)
dann erhält man
** 2 ■ ■
Σ. Wi = Iw1 / 2 = |w / 2 - J V7P / 2, (Gleichung 8J)
i=p+1
da die Vektoren w, w1 und w^ als ein rechtwinkliges Dreieck
bildend angesehen werden können. Die Eigenvektormatrix E führt zu einer orthogonalen Transformation, so dass die Länge von w
gleich ist wie die Länge von x-x. Es ist daher nicht mehr notwendig, alle Komponenten von w zu berechnen. Die gesuchte
Statistik, die den Effekt der nicht berücksichtigten Komponenten auf die Log-Wahrscheinlichkeitsfunktion L abschätzt, ergibt
sich daher aus der folgenden Beziehung
R = I jx-xS2
P . 2 :
(Gleichung 8K)
S098A5/069S
u - 163
6.Juni 1978
Das ist die Länge der Differenz zwischen dem beobachteten Vektor x-x und dem Vektor, den man erhalten würde, v/enn man x-x als
eine Linearkombination der ersten ρ Eigenvektoren e. von K aufbauen würde. R hat daher den Charakter einer Aufbaufehler-Statistik.
Um R in der Wahrscheinlichkeitsfunktion zu benützen, kann diese Funktion einfach dem Satz der transformierten Vektorkomponenten
hinzugefügt werden, so dass ein neuer Random-Vektor (W1, w-....,w ,R) erzeugt wird, von dem man annimmt,
dass er unabhängige Gauss'sehe Komponenten hat. Unter dieser
Annahme ergibt sich für die neue Wahrscheinlichkeitsstatistik
, —, 2
P (w. -w.) p.
-L1 =1/2 X —-—-— + 1/2^. In var(w±) + M (Gleichung 8L
i=l var (w.) i=l
wobei
(R -R)2
M = 1/2 ._,. + 1/2 In var (R) (Gleichung 8M
var L\)
Die mit einem Querstrich versehenen Variablen sind Mittelwerte (sample means) und var () beschreibt die Varianz der unbeschränkten
Beispiele. In Gleichung 8L sollte der Wert von w. Null sein und var (w.) sollte gleich v. sein". Jedoch können
die Eigenvektoren nicht mit unendlicher arithmetischer Präzision errechnet und angewendet werden, so dass es am besten ist,
die Mittelwerte und Varianzen nach der Transformation noch einmal zu messen, um den systematischen statistischen Fehler
zu berücksichtigen, der sich aufgrund von arithmetischen Abrundungsfehlern ergibt. Dies bezieht sich auch auf die Gleichung
3F.
909845/0595
6.Juni 1978
Die gemessene Leistung der Wahrscheinlichkeitsstatistik L1 mit
demselben Maximalwahrscheinlichkeits-Entscheidungsprocessor
ist in den Kurven (c) und (d) von Fig. 4 dargestellt. Man erkennt, dass mit dem Anstieg von ρ die Klassifizierungsgenauigkeit
wieder ein Maximum erreicht, dass dieses aber in diesem Falle bei einer wesentlich kleineren Dimensionszeit ρ liegt.
Ausserdem ist die maximal erreichbare Genauigkeit deutlich höher als für die Statistik L, welche sich nur durch das
Weglassen des Rekonstruktionsfehlers R unterscheidet.
Als weitere Tests der Wirksamkeit der Rekonstruktionsabweichungs-Statistik
R wurde dasselbe praktische Experiment noch einmal wiederholt, aber in diesem Falle wurde als Wahrscheinlichkeitsfunktion
einfach verwendet
L" = -M. (Gleichung 8N)
Mit anderen Worten heisst es, dass dieses Mal der Bereich, in dem die meisten Probendaten liegen, ignoriert wurde, während
der Bereich, in dem relativ wenige Proben liegen, beschrieben wurde. Die damit erreichte Maximalgenauigkeit (Kurven (e) und
(f) in Fig. 4) ist fast so hoch wie bei Verwendung der Statistik L1, und das Maximum ergibt sich für eine noch kleinere
Dimensionszahl p=3. Dieses Ergebnis kann man in der Weise interpretieren, dass jedes Datenbeispiel oder jede Datenprobe
(data sample), welches im Raum der ersten ρ Eigenvektoren von K liegt, so angesehen werden kann, als gehöre es zu der Zielmusterklasse
und dass sich wenig oder gar kein Vorteil daraus ergibt, dass man innerhalb dieses Raumes detaillierte Wahrscheinlichkeitsabschätzungen
durchführt.
809845/0595
6.Juni 1978
Die transformierten Daten w., die einem mehrere Spektren umfassenden
Mustersatz χ entsprechen, werden als Eingangsdaten der statistischen Wahrscheinlichkeitsrechnung verwendet. Dieser
Processor berechnet - wie oben beschrieben - eine Wahrscheinlichkeit dafür, dass die unbekannten Eingangsdaten, die durch
die nacheinander angelieferten, transformierten, mehrere Spektren umfassenden Mustersätze dargestellt werden, mit jedem
der Zielmuster der Schlüsselwortschablonen in dem Vokabular der Maschine übereinstimmen. Typischerweise v/eist jeder Satz
von Zielmustern eine etwas unterschiedliche Wahrscheinlichkeitsdichte auf, jedoch ist diese statistisch durch eine Normalverteilung
gut angenähert, welche einen Mittelwert w. und eine Varianz var (w·) hat, wobei i die fortlaufende Bezeichnung
der Elemente des k-ten Zielmusters ist. Die einfachste Anwendung des Prozesses nimmt an, dass die verschiedenen Werten
von i und k zugeordneten Daten unkorreliert sind, so dass die vereinigte Wahrscheinlichkeitsdichte (joint probability density)
für den Satz x, der zum Zielmuster k gehört, durch die folgende Beziehung angegeben wird (logarithmisch)
L(t|k) = p(x,k) = Γ
1/2 In 2/, (var (W1)) -1/2{w# _ w>)
var (w.) (Gleichung 9)
Da der Logarithmus eine monotone Funktion ist, reicht diese Statistik aus, um zu bestimmen, ob die Wahrscheinlichkeit
909845/0595
6.Juni 1978
einer Übereinstimmung eines Zielmusters einer Schlüsselwortschablone
grosser ist als die Wahrscheinlichkeit der Übereinstimmung mit irgendeiner anderen Schablone des Vokabulars oder
die/
ob alternativ/Wahrscheinlichkeit der Übereinstimmung mit einem bestimmten Muster ein vorgegebenes Minimalniveau überschreitet. Für jeden eingegebenen Mustersatz wird eine statistische Wahrscheinlichkeitsfunktion L (t|k) für alle Zielmuster der Schlüsselwortschablonendes Vokabulars berechnet. Die sich ergebenden Wahrscheinlichkeitsstatistiken L (ti k) sind als relative Wahrscheinlichkeit dafür zu interpretieren, dass ein Zielmuster mit der Bezeichnung k zur Zeit t auftritt.
ob alternativ/Wahrscheinlichkeit der Übereinstimmung mit einem bestimmten Muster ein vorgegebenes Minimalniveau überschreitet. Für jeden eingegebenen Mustersatz wird eine statistische Wahrscheinlichkeitsfunktion L (t|k) für alle Zielmuster der Schlüsselwortschablonendes Vokabulars berechnet. Die sich ergebenden Wahrscheinlichkeitsstatistiken L (ti k) sind als relative Wahrscheinlichkeit dafür zu interpretieren, dass ein Zielmuster mit der Bezeichnung k zur Zeit t auftritt.
Wie sich für den Fachmann ergibt, stellt diese Umordnung der Wahrscheinlichkeitsstatistik die Spracherkennung insoweit dar,.
als sie ausgehend von einem einzigen Zielmuster durchgeführt werden kann. Diese Wahrscheinlichkeitsstatistiken können in
einem Gesamtsystem in verschiedener Weise eingesetzt werden, dies hängt von der durchzuführenden Funktion ab.
Auswahl von "Kandidaten-Schlüsselwörtern"
Bei einem bevorzugten Ausführungsbeispiel der Erfindung ist vorgesehen, dass die Eingangsdaten weiter untersucht werden,
wenn die Wahrscheinlichkeitsstatistik ergibt, dass der Mustersatz im Vergleich mit einem ersten Zielmuster eine vorgegebene
Schwelle überschreitet. Dieser Vergleich wird bei 101 und 103 durchgeführt. Bei der v/eiteren Untersuchung wird zuerst ein
lokales Maximum für die Wahrscheinlichkeitsstatistik bestimmt, welches dem bestimmten ersten Zielmuster entspricht und dann
wird festgestellt, ob andere Mustersätze existieren, die zu anderen Zielmustern des ausgewählten, potentiellen "Kandidaten-
809845/0595
u - 163 _ 50 -
Schlüsselwortes" passen. Das wird bei 105 angedeutet. Der Prozess des wiederholten Vergleichs von neu geformten Mustersätzen
mit allen ersten Zielnustersätzen wird also -unterbrochen; es setzt eine Suche ein nach einem Mustersatz, der
auf den "ersten" Mustersatz folgt und der bezüglich seiner statistischen Wahrscheinlichkeit am besten dem nächsten (zweiter.
Zielmuster des potentiellen Kandidaten-Schlüsselwortes oder der potentiellen Kandidaten-Schlüsselwörter entspricht.
Wenn ein "zweiter" Mustersatz, der zweiten Zielmustern entsprechen
würde, nicht innerhalb einer vorgegebenen Zeit aufgefunden wird, dann wird diese Untersuchungsfolge beendet und
der Erkennungsprozess beginnt erneut zu einer Zeit unmittelbar nach dem Ende des "ersten" Mustersatzes, v/elcher ein potentielles
Kandidaten-Wort identifiziert hat. Nachdem also der "ersteJI
Mustersatz eine Wahrscheinlichkeit hervorruft, die grosser ist als der erforderliche Schwellv/ert, wird eine feste Zeit
vorgegeben, innerhalb v/elcher ein Mustersatz aufgefunden werden muss, der dem nächsten Zielmuster in der Folge der
Zielmuster bei dem ausgewählten potentiellen Kandidaten-Schlüsse
wort entsprechen muss.
Die Länge des Zeitabschnittes kann variabel sein, beispielsweise kann sie von der Dauer des phonetischen Segmentes des
speziellen potentiellen Kandidaten-Schlüsselwortes abhängen.
Dieser Vorgang setzt sich fort, bis entweder
(1) in den Eingangsdaten Hustersätze identifiziert worden
sind, die allen Zielmustern der Schlüsselwortschablone entsprechen oder
909845/0595
u - 163 - 51 -
6.Juni 1978
(2) kein Zielmuster innerhalb der erlaubten Zeit mit irgendeinem Mustersatz assoziiert v/erden kann.
Wenn die Suche entsprechend (2) beendet wird, dann beginnt die Suche für ein neues "erstes" Spektrum von neuem, wie dies
oben angegeben ist, und zwar bei dem Spektrum, das sich an das Ende des "ersten" vorher identifizierten Mustersatzes anschliesst.
In diesem Stadium des Prozesses müssen mögliche Mustersätze, die Zielmustern entsprechen, verkettet v/erden, um Kandidaten-Wörter
zu bilden (dies ist bei 107 angedeutet). Die Nachweisschwelle wird daher niedrig angesetzt, so dass es sehr unwahrscheinlich
ist, dass ein richtiger Mustersatz zurückgewiesen wird. Hier in diesem akustischen Stadium wird die
Unterscheidung zwischen richtigem Nachweis und falscher Anzeige im wesentlichen durch das Erfordernis erreicht, dass eine Anzahl
von Übereinstimmungen gleichzeitig nachgewiesen werden müssen.
Dieses Verfahren dauert an, bis die Audio-Eingangssignale zu Ende sind. Aber auch nach der Identifizierung eines Schlüsselwortes
mit Hilfe des oben beschriebenen Wahrscheinlichkeitstests werden vorzugsweise noch weitere Nachentscheidungstests
(Bezugszeichen 109) vorgenommen, um die Wahrscheinlichkeit herabzusetzen, ein unrichtiges Schlüsselwort herauszusuchen
(d.h. um die Menge der Falschanzeigen herabzusetzen), während die Wahrscheinlichkeit eines richtigen Nachweises so hoch wie
903 8 AR/059 5
u - 163 co
möglich gehalten werden soll. Aus diesem Grunde wird das Ergebnis des akustischen Processors, d.h., ein mit Hilfe des
Verkettungsprozesses ausgewähltes Kandidaten-Wort, weiter durch eine Maske von der Betonung des Wortes entsprechenden
Zeitfenstern (prosodic relative timing windows) und/oder einen Wahrscheinlichkeitsverhältnistest gefiltert, welcher Informationen
des akustischen Niveauprocessors verwendet, die alle
Zielmusterklassen betreffen.
Wie oben beschrieben erhält man bei der Bestimmung der Wahrscheinlichkeitsstatistik
die Zeit, an v/elcher ein Mustersatz einen Spitzenwert der Wahrscheinlichkeitsfunktion im Vergleich
mit einem Zielmuster eines Schlüsselwortes aufweist. Dieser Zeitpunkt wird in einem bevorzugten Ausführungsbeispiel der
Erfindung für jedes der ausgewählten Mustersätze, die den verschiedenen aufeinanderfolgenden Zielmustern eines Kandidaten-Schlüsselwortes
entsprechen, aufgenommen. Diese Zeiten Pt1, pt_, .... pt für jedes Kandidaten-Schlüsselwort werden
entsprechend einer vorbestimmten Prosodie- oder Betonungsmaske für dieses Schlüsselwort analysiert und ausgewertet,
um festzustellen, ob die Zeitintervalle zwischen aufeinanderfolgenden Wahrscheinlichkeitsspitzen vorbestimmten Kriterien
entsprechen. Bei dieser Methode werden die Zeiten, die zwischen dem Auftreten von aufeinanderfolgenden Wahrscheinlichkeitsspitzen
festgestellt werden, d.h. Pt1-Pt1-1 für i = 2,3 ... η
zunächst dadurch normalisiert, dass jedes Zeitintervall durch pt -Pt1 dividiert wird. Die sich dabei ergebenden normalisierten
Zeitintervalle v/erden dann mit einer Prosodie-Maske verglichen, d.h. mit einer Folge von möglichen Bereichen einer
908 8^5/0595
6.Juni 1973
normalisierten Intervallänge für das Kandidaten-Schlüsselwort. Wenn die festgestellten Intervallängen in die ausgewählten
Bereiche hineinfallen, wird das Kandidatenwort akzeptiert.
Im dargestellten Ausführungsbeispiel werden die Zeitbereiche der Prosodie-Maske dadurch bestimmt, dass man die tatsächlich
auftretenden Zeitintervalle von Probeschlüsselwörtern bestimmt, die von einer möglichst grossen Anzahl von verschiedenen
Sprechern gesprochen worden sind. Das Prosodie-Muster wird dann mit den Zeiten eines statistischen Probeschlüsselworts
verglichen, v/obei eine statistische Berechnung verwendet wird. Darin wird die mittlere Standardabweichung für jede Prosodie-Maske
(die jedem Schlüsselwort entspricht) von den Musterschlüsselwörtern abgeleitet. Anschliessend wird eine Wahrscheinlichkeitsstatistik
berechnet, um entscheiden zu können, ob man ein bestimmtes Prosodie-Muster akzeptieren kann und
damit eine endgültige Entscheidung zugunsten eines bestimmten Kandidaten-Schlüsselwortes treffen kann. Diese Wahrscheinlichkeitsstatistik
bezieht sich auf den Zeitablauf der Ereignisse und darf nicht mit der Wahrscheinlichkeitsstatistik verwechselt
werden, mit v/elcher die Mustersätze mit den Zielmustersätzen verglichen werden.
Bei einer anderen Ausgestaltung der Erfindung werden die Bereiche der normalisierten Zeitintervalle relativ breit, jedoch
unveränderbar festgesetzt. Bei dieser Ausgestaltung wird ein Kandidaten-Schlüsselwort nur dann akzeptiert, wenn das normalisierte
Zeitintervall in die Grenzen des festen Bereiches fällt. Ein Kandidaten-Wort wird also nur akzeptiert,
wenn jede der normalisierten Zeiten innerhalb die vorgegebenen Grenzen fällt.
909845/0595
u - 163 - 54 -
6.Juni 1978
In dem bevorzugten Ausführungsbeispiel der Erfindung wird jedes Kandidaten-Wort auch mit einem Wahrscheinlichkeitsverhältnistest
geprüft, ehe die endgültige Entscheidung zur Annahme des Schlüsselwortes getroffen wird. Dieser Wahrscheinlichkeitsverhältnistest
besteht in der Aufsummierung sogenannter Güteziffern
(figure of merit) über die Folge der ausgewählten
Mustersätze, die mit dem Kandidaten-Schlüsselwort als übereinstimmend herausgefunden worden sind. Die aufsummierte Güte-'ziffer, welche die Summe der Güteziffern für jeden Mustersatz darstellt, wird dann mit einem Entscheidungsschwellwert verglichen.
Mustersätze, die mit dem Kandidaten-Schlüsselwort als übereinstimmend herausgefunden worden sind. Die aufsummierte Güte-'ziffer, welche die Summe der Güteziffern für jeden Mustersatz darstellt, wird dann mit einem Entscheidungsschwellwert verglichen.
Die Güteziffer eines untersuchten Mustersatzes ist die Differenz zwischen der besten logarithmischen Wahrscheinlichkeitsstatistik hinsichtlich eines Zielmusters im Schlüsselwortvokabular
und dem besten Ergebnis relativ zu den Zielmustern, die als Alternativen des Zielmusters zugelassen werden. Wenn also
das am besten abschneidende Zielmuster eine zugelassene Alternative des gesuchten Musters ist, dann ist die Güteziffer
Null. Wenn jedoch das beste Ergebnis einem Zielmuster entspricht, welches nicht in der Liste der zugelassenen Alternativen des ausgewählten Zielmusters des Kandidaten-Wortes ist
(ein gegebenes Zielmuster kann mehrere statistische Darstellungen haben, die vom Akzent etc. abhängen), dann ist die Güteziffer die Differenz zwischen dem besten Ergebnis und dem
besten Ergebnis, das in der Liste der zugelassenen Alternativen auftritt. Der Entscheidungsschwellwert wird optimal gewählt, so dass manden besten Ausgleich zwischen fehlender Erkennung und falscher Anzeige erhält.
Null. Wenn jedoch das beste Ergebnis einem Zielmuster entspricht, welches nicht in der Liste der zugelassenen Alternativen des ausgewählten Zielmusters des Kandidaten-Wortes ist
(ein gegebenes Zielmuster kann mehrere statistische Darstellungen haben, die vom Akzent etc. abhängen), dann ist die Güteziffer die Differenz zwischen dem besten Ergebnis und dem
besten Ergebnis, das in der Liste der zugelassenen Alternativen auftritt. Der Entscheidungsschwellwert wird optimal gewählt, so dass manden besten Ausgleich zwischen fehlender Erkennung und falscher Anzeige erhält.
09 845/0595
6.Juni 1978
Im folgenden wird der Wortwahrscheinlichkeitstest vom mathematischen
Standpunkt aus betrachtet. Die Wahrscheinlichkeit, dass ein Random-Mustersatz χ auftritt, wenn man davon ausgeht,
dass die Eingangssprachsignale einer Zielmusterklasse k entsprechen, ist gleich p(x|k), sprich "Wahrscheinlichkeit von χ
bei gegebenem k". Die logarithmische Wahrscheinlichkeitsstatistik des Eingangs χ relativ zum k-ten Referenzmuster ist dann
L(xlk) und ist gleich In p(x,k), wie dies in Gleichung 9 definiert
ist. Wenn man annimmt, dass das untersuchte Muster von einem aus einer Gruppe von η vorbestimmten Zielmusterklassen
verursacht v/erden muss und wenn man weiter annimmt, dass jede dieser Klassen mit gleicher Frequenz auftritt oder dass die
η möglichen Auswahlen als gleichermassen gültig angesehen werden, dann ist die Wahrscheinlichkeit im Sinne einer rela- '
tiven Frequenz des Auftretens der Beobachtung des Ereignis χ in jedem Fall die Summe der Wahrscheinlichkeitsdichten, welche
durch die folgende Summation definiert ist:
n_ , ι
P (x) = > P(x k) · -■ (Gleichung 10)
k=1 n
Von diesem Auftreten ergibt sich der Teil, der einer bestimmten Klasse zugeordnet werden kann p(kix)) durch folgenden Ausdruck
ι P(xik) ' H
p(kjx) = n
(Gleichung 11A) P-
L P(
L P(
009845/0595
6.Juni 1978
oder logarithmisch
η
In p(k|x) = MxJk) - 1n ]T p(xji) (Gleichung 11b)
In p(k|x) = MxJk) - 1n ]T p(xji) (Gleichung 11b)
Wenn der Entscheidungsprocessor dann auf ein gegebenes χ angewendet
wird und aus einem bestimmten Grund die Klasse k auswählt, dann ergibt die obige Gleichung 11A oder 11B die Wahrscheinlichkeit,
dass die Auswahl richtig ist. Die obigen Gleichungen sind eine Folge der Bayes-Regel:
p(x,k) = p(xjk) p(k) = p(k|x) p(x),
wobei p(k) als die Konstante — angenommen wird.
Wenn man annimmt, dass nur eine Klasse, beispielsweise die Klasse m, sehr wahrscheinlich ist, dann wird die Gleichung
angenähert durch
maxkp(xji) · — V = ρ (xj m) · — (Gleichung 12)
und es ergibt sich
j> (k,m,x) = L (x| k) -L(xjm) = m p(k[x). (Gleichung 13).
Dabei ist zu bemerken, dass dann, wenn die k-te Klasse die wahrscheinlichste ist, die Funktion P ihren Maximalwert Null
annimmt. Wenn man über alle angenommenen, unabhängigen Mustersätze
summiert, dann gibt der auf summierte Viert von r die Wahrscheinlichkeit an, dass das nachgewiesene Wort keine falsche
9OB845/0595
— 3 / —
6.Juni 1978
u - 163 - 57 -
Anzeige ist. Eine Entscheidungsschwelle, die man auf diesen auf summierten Wert von r>
anwendet, steht daher in direkter Beziehung zum Wechsel zwischen Nachweis- und Falschanzeigewahrscheinlichkeiten
und ist die Basis des Wahrscheinlichkeitsverhältnistests. Der auf summierte Wert von t1 entspricht dann
der Gütezahl des Kandidaten-Schlüsselworts.
803845/0 59$
Claims (14)
- DR.-ING. DIPL.-ING. M. SC. H1PL.-"1 IVS. OR LjlPl-.-PHYS.
- HÖGER - STELLRECHT - GRIESSBACH - HAfCKER
- PATENTANWÄLTE IN STUTTGART
- A 42 892 b Anmelder: DIALOG SYSTEMS, INC.
- u - 163 32 Locust Street,
- 6.Juni 1978 Belmont, Massachusetts 02178,USAPatentansprüche :Verfahren zur Analyse von Sprachsystemen zur Erkennung mindestens eines vorbestimmten Schlüsselwortes in einem Audio-Signal, bei welchem jedes dieser Schlüsselwörter durch eine Schablone gekennzeichnet ist, die mindestens ein Zielmuster umfasst, wobei jedes Zielmuster mindestens ein Kurzzeit-Energiespektrum umfasst, dadurch gekennzeichnet,dass man eine Folge von ausgewählten Mustern bildet, ein Kandidaten-Schlüsselwort dann identifiziert, wenn eine Folge dieser ausgewählten Muster einer Folge von Zielmustern der Schlüsselwortschablone entspricht,dass man die zeitlichen Abstände zwischen den ausgewählten Mustern, die dem Kandidatenwort entsprechen, normalisiert unddass man auf die normalisierten zeitlichen Abstände einen Prosodie-Test anwendet, bei welchem die normalisierten Zeitabstände eines Kandidatenwortes mit den zeitlichen Kriterien übereinstimmen müssen, die der Prosodie-Test fordert, ehe man das Kandidatenwort als erkanntes Schlüsselwort akzeptiert.9 0 9 8 4 5 / Π 5 9 5A 42 892 bu- 1636.Juni 1978 - 2 -2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass man jedes zeitnormalisierte !luster mit vorbestimmten Zeitdauergrenzen vergleicht und das Kandidatenwort nur akzeptiert, wenn das normalisierte Muster in die vorgegebenen Zeitgrenzen hineinfällt.3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass man auf die zeitnormalisierten Muster eine Wahrscheinlichkeitsfunktion anwendet und das Kandidatenwort dann anwendet, wenn die Wahrscheinlichkeitsfunktion einen vorbestimmten Mindestschwellwert überschreitet.4. Verfahren nach einem der voranstehenden Ansprüche, dadurch gekennzeichnet, dass man auf die Folge von ausgewählten, dem Kandidaten-Schlüsselwort entsprechenden Muster einen Wahrscheinlichkeitsverhältnistest anwendet, um eine Gütezahl für jedes Muster zu bestimmen,dass man die Gütezahlen dieser Muster addiert und das Kandidatenwort nur dann akzeptiert, wenn die addierte Gütezahl einen vorbestimmten Minimalwert überschreitet.5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass man einen besten Wert der logarithmischen Wahrscheinlichkeitsstatistik für jedes der ausgewählten Muster relativ zu jedem der Zielmuster bestimmt, wobei die besten Werte als die beste Wertzahl bezeichnet v;erden, dass man den besten Viert der logarithmischen Wahrscheinlichkeitsstatistik für jedes der ausgewählten Muster relativ zu den Zielmustarn bestimmt, die gültige Alternativen für6.Juni 1978 - 3 -die entsprechenden Zielmuster des Kandidaten-Schlüsselwortes sind, wobei die besten Werte als die besten
Zielmusterwerte bezeichnet v/erden, und dass man die
Gütezahl für jedes ausgewählte Muster dadurch bestimmt, dass man die arithmetische Differenz zwischen der besten Wertzahl und dem besten Zielmusterv/ert für jedes ausgewählte Muster bestimmt.6. Verfahren zur Sprachanalyse zur Erkennung wenigstens
eines vorbestimmten Schlüsselwortes in einem Audio-Signal, welches Schlüsselwort durch eine Schablone
charakterisiert wird, die mindestens ein Zielmuster umfasst, wobei das Zielmuster mindestens ein Kurzzeit-Energiespektrum darstellt, dadurch gekennzeichnet, dass man eine Folge von ausgewählten Mustern bildet,dass man ein Kandidaten-Schlüsselwort dann identifiziert, wenn die Folge der ausgewählten Muster mit der Folge der Zielmuster der Schlüsselwortschablone entspricht,dass man auf die Folge ausgewählter, dem Kandidatenwort entsprechender Muster einen Wahrscheinlichkeitsverhältnistest anwendet, um eine Gütezahl für jedes derartige
Muster zu bestimmen,dass man die Gütezahlen der Muster addiert unddass man das Kandidatenwort dann akzeptiert, wenn die
addierte Gütezahl einen bestimmten Minimalwert überschreitet.909845/0596ulh 282518S6.Juni 19 78 - 4 - - 7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass man einen besten Wert der logarithmischen Wahrscheinlichkeitsstatistik für jedes der ausgewählten Muster relativ zu jedem der Zielmuster bestimmt, wobei die besten Werte als die beste Wertzahl bezeichnet werden, dass man den besten Wert der logarithmischen Wahrscheinlichkeitsstatistik für jedes der ausgewählten Muster relativ zu den Zielmustern bestimmt, die gültige Alternativen für die entsprechenden Zielmuster des Kandidaten-Schlüsselwortes sind, wobei die besten Werte als die besten Zielmusterwerte bezeichnet werden, und dass man die Gütezahl für jedes ausgewählte Muster dadurch bestimmt, dass man die arithmetische Differenz zwischen der besten Wertzahl und dem besten Zielmusterwert für jedes ausgewählte Muster bestimmt.
- 8. Verfahren zur Sprachanalyse, bei welchem ein Audio-Signal zur Erkennung wenigstens eines vorbestimmten Schlüsselwortes in einem kontinuierlichen Audio-Signal spektral analysiert wird, wobei jedes Schlüsselwort durch eine Schablone mit mindestens einem Zielmuster charakterisiert ist, welche Zielmuster eine Vielzahl von Kurzzeit-Energiespektren umfasst, die im realen Zeitmaßstab im Abstand voneinander auftreten, dadurch gekennzeichnet, dass man für jedes Zeitintervall innerhalb einer Vielzahl von gleichlangen Probenzeitintervallen einen Parametersatz bildet, der das Kurzzeit-Energiespektrum des Audio-Signals innerhalb des Probenintervalls bestimmt, so dass man eine ununterbrochene, zeitlich geordnete Folge von Kurzzeit-Audio-Energiespektrenabschnitten erhält,909845/0 5 956.Juni 1978 - 5 -dass man wiederholt aus dieser Folge von Abschnitten einen ersten Abschnitt und mindestens einen später auftretenden Abschnitt auswählt und daraus einen mehrere Abschnitte enthaltenden Mustersatz bildet,dass man jeden der auf diese Weise gebildeten Mustersätze mit jedem ersten Zielmuster jeder Schlüsselwortschablone vergleicht,dass man entscheidet, ob der Mustersatz einem ersten Zielmuster einer Schlüsselwortschablone entspricht,dass man bei jedem Mustersatz, der aufgrund dieser Entscheidung einem ersten Zielmuster eines potentiellen Kandidaten-Schlüsselwortes entspricht, später auftretende Kurzzeit-Energiespektren auswählt und aus diesen später auftretende Mustersätze bildet,dass man entscheidet, ob die später auftretenden Mustersätze später auftretenden Zielmustern in der Schablone des potentiellen Kandidaten-Schlüsselworts entsprechen,dass man die Schablone eines Kandidaten-Schlüsselwortes dann identifiziert, wenn die ausgewählten Mustersätze den Zielmustern der Schlüsselwortschablone entsprechen,dass man die Zeitabstände zwischen den dem Kandidatenwort entsprechenden Mustersätzen normalisiert unddass man einen Prosodie-Test auf die normalisierten Zeitabstände anwendet, bei dem die normalisierten Zeit-90984 5/0 5 95V-Ml h 282518Θ6.Juni 1978 -G-abstände eines Kandidatenwortes mit den vom Prosodie-Test verlangten Zeitkriterien übereinstimmen müssen, ehe ein Kandidatenwort als erkanntes Schlüsselwort akzeptiert wird.
- 9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass man jedes zeitnormalisierte Muster mit vorbestimmten Zeitdauergrenzen vergleicht und das Kandidatenwort nur akzeptiert, wenn das normalisierte Muster in die vorgegebenen Zeitgrenzen hineinfällt.
- 10. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass man auf die zeitnormalisierten Muster eine Wahrscheinlichkeitsfunktion anwendet und das Kandidatenwort dann akzeptiert*wenn die Wahrscheinlichkeitsfunktion einen vorbestinmten Mindestschwellwert überschreitet.
- 11. Verfahren nach einem der Ansprüche 8,9 oder 10, dadurch gekennzeichnet, dass man auf die Folge von ausgev/ählten, dem Kandidaten-Schlüsselwort entsprechenden Muster einen Wahrscheinlichkeitsverhältnistest anwendet, um eine Gütezahl für jedes Muster zu bestimmen,dass man die Gütezahlen dieser Muster addiert und das Kandidatenwort nur dann akzeptiert, wenn die addierte Gütezahl einen vorbestimmten Minimalwert überschreitet.
- 12. Verfahren nach Anspruch 11, dadurch gekennzeichnet, dass man einen besten Wert der logarithmischen Wahrscheinlichkeitsstatistik für jedes der ausgewählten Muster relativ9098 Α R/0595U — I DJ6. Juni 197 8 - 7 -zu jedem der Zielitiuster bestimmt, wobei die besten Werte als die beste Wertzahl bezeichnet werden', dass man den besten Wert der logarithmischen Wahrscheinlichkeitsstatistik für jedes der ausgewählten Muster relativ zu den Zielmustern bestimmt, die gültige Alternativen für die entsprechenden Zielmuster des Kandidaten-Schlüsselwortes sind, wobei die besten Werte als die besten Zielmusterwerte bezeichnet werden, und dass man die Gütezahl für jedes ausgewählte Muster dadurch bestimmt, dass man die arithmetische Differenz zwischen der besten Wertzahl und dem besten Zielmusterwert für jedes ausgewählte Muster bestimmt.
- 13. Verfahren zur Sprachanalyse, bei welchem ein Audio-Signal zur Erkennung wenigstens eines vorbestimmten Schlüsselwortes in einem kontinuierlichen Audio-Signal spektral analysiert wird, wobei jedes Schlüsselwort durch eine Schablone mit mindestens einem Zielmuster charakterisiert ist, welche Zielmuster eine Vielzahl von Kurzzeit-Energiespektren umfasst, die im realen Zeitmaßstab im Abstand voneinander auftreten, dadurch gekennzeichnet, dass man für jedes Zeitintervall innerhalb einer Vielzahl von gleichlangen Probenzeitintervallen einen Parametersatz bildet, der das Kurzzeit-Energiespektrum des Audio^-Signals innerhalb des Probenintervalls bestimmt, so dass man eine ununterbrochene, zeitlich geordnete Folge von Kurzzeit-Audio-Energiespektrenabschnitte erhält,dass man wiederholt aus dieser Folge von Abschnitten einen ersten Abschnitt und mindestens einen späterS098A5/059SΛ 42 892 b6. Juni 1978 -8- ^uaoiuwauftretenden Abschnitt auswählt und daraus einen mehrere Abschnitte enthaltenden Mustersatz bildet,dass man jeden der auf diese Weise gebildeten Mustersätze mit jedem ersten Zielmuster jeder Schlüsselvortschablone vergleicht,dass man entscheidet, ob der Mustersatz einem ersten Zielmuster einer Schlüsselwortschablone entspricht,dass man bei jedem Mustersatz, der aufgrund dieser Entscheidung einem ersten Zielmuster eines potentiellen Kandidaten-Schlüsselwortes entspricht, später auftretende Kurzzeit-Energiespektren auswählt und aus dieser später auftretende Mustersätze bildet,dass man entscheidet, ob die später auftretenden Mustersätze später auftretenden Zielmustern in der Schablone des potentiellen Kandidaten-Schlüsselwortes entspricht,dass man die Schablone eines Kandidaten-Schlüsselwortes dann identifiziert, wenn die ausgewählten Mustersätze den Zielmustern der Schlüsselwortschablone entsprechen,dass man einen Wahrscheinlichkeitsverhältnistest auf diese Folge von dem Kandidatenwort entsprechenden Mustersätzen anwendet, um eine Gütezahl für jeden Mustersatz zu bestimmen,dass man die Gütezahlen der Mustersätze addiert und dass man das Kandidatenv/ort nur dann akzeptiert, wenn die909845/059SΛ 42 892 bu - 1636.Juni 1978 - 9 -Summe der Gütezahl einen vorbestimmten Minimalwert überschreitet.
- 14. Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass man einen besten Wert der logarithmischen Wahrscheinlichkeitsstatistik für jeden der ausgewählten Mustersätze
relativ zu jedem der Zielmuster bestimmt, wobei die besten Werte als die beste Viertzahl bezeichnet werden, dass man den besten Wert der logarithmischen Wahrscheinlichkeitsstatistik für jeden der ausgewählten Mustersätze relativ zu den Zielmustern bestimmt, die gültige Alternativen
für die entsprechenden Zielmuster des Kandidaten-Schlüsselwortes sind, wobei die besten Werte als die besten Zielmusterwerte bezeichnet werden, und dass man die Gütezahl für jeden ausgewählten Hustersatz dadurch bestimmt, dass man die arithmetische Differenz zwischen der besten
Wertzahl und dem besten Zielmusterwert für jeden ausgewählten Mustersatz bestimmt./059S
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US05/901,005 US4241329A (en) | 1978-04-27 | 1978-04-27 | Continuous speech recognition method for improving false alarm rates |
Publications (1)
Publication Number | Publication Date |
---|---|
DE2825186A1 true DE2825186A1 (de) | 1979-11-08 |
Family
ID=25413457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19782825186 Withdrawn DE2825186A1 (de) | 1978-04-27 | 1978-06-08 | Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale |
Country Status (4)
Country | Link |
---|---|
US (1) | US4241329A (de) |
JP (1) | JPS62201500A (de) |
CA (1) | CA1172364A (de) |
DE (1) | DE2825186A1 (de) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3236832A1 (de) * | 1981-10-05 | 1983-09-01 | Exxon Corp. (eine Gesellschaft n.d. Ges. d. Staates New Jersey), New York, N.Y. | Verfahren und geraet zur sprachanalyse |
DE3236885A1 (de) * | 1981-10-05 | 1983-09-22 | Exxon Corp. (eine Gesellschaft n.d. Ges. d. Staates New Jersey), New York, N.Y. | Verfahren und geraet zur sprachanalyse |
DE3236834A1 (de) * | 1981-10-05 | 1983-10-06 | Exxon Corp | Verfahren und geraet zur sprachanalyse |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4712243A (en) * | 1983-05-09 | 1987-12-08 | Casio Computer Co., Ltd. | Speech recognition apparatus |
WO1986003873A1 (en) * | 1984-12-20 | 1986-07-03 | Gte Laboratories Incorporated | Method and apparatus for encoding speech |
US4817176A (en) * | 1986-02-14 | 1989-03-28 | William F. McWhortor | Method and apparatus for pattern recognition |
DE3685878D1 (de) * | 1986-03-14 | 1992-08-06 | Ant Nachrichtentech | Verfahren zur verringerung der datenmenge bei der bildkodierung. |
US4774682A (en) * | 1986-03-27 | 1988-09-27 | Rockwell International Corporation | Nonlinear statistical signal processor |
US5142593A (en) * | 1986-06-16 | 1992-08-25 | Kabushiki Kaisha Toshiba | Apparatus and method for classifying feature data at a high speed |
US4896358A (en) * | 1987-03-17 | 1990-01-23 | Itt Corporation | Method and apparatus of rejecting false hypotheses in automatic speech recognizer systems |
US5027408A (en) * | 1987-04-09 | 1991-06-25 | Kroeker John P | Speech-recognition circuitry employing phoneme estimation |
US5168524A (en) * | 1989-08-17 | 1992-12-01 | Eliza Corporation | Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation |
FR2659817B1 (fr) * | 1990-03-13 | 1992-05-29 | Thomson Csf | Dispositif de reconnaissance de sequences dans un signal multidimensionnel. |
FR2662526B1 (fr) * | 1990-05-22 | 1994-12-09 | Thomson Csf | Procede de reconnaissance rapide d'objets susceptibles de faire partie d'une collection comportant un grand nombre d'objets a caracteristiques differentes. |
US5193142A (en) * | 1990-11-15 | 1993-03-09 | Matsushita Electric Industrial Co., Ltd. | Training module for estimating mixture gaussian densities for speech-unit models in speech recognition systems |
EP0578432A3 (en) * | 1992-07-06 | 1994-06-22 | Canon Kk | Similarity determination among patterns using affine-invariant features |
US5475768A (en) * | 1993-04-29 | 1995-12-12 | Canon Inc. | High accuracy optical character recognition using neural networks with centroid dithering |
US5539840A (en) * | 1993-10-19 | 1996-07-23 | Canon Inc. | Multifont optical character recognition using a box connectivity approach |
US6314392B1 (en) * | 1996-09-20 | 2001-11-06 | Digital Equipment Corporation | Method and apparatus for clustering-based signal segmentation |
US5933805A (en) * | 1996-12-13 | 1999-08-03 | Intel Corporation | Retaining prosody during speech analysis for later playback |
US6243678B1 (en) * | 1998-04-07 | 2001-06-05 | Lucent Technologies Inc. | Method and system for dynamic speech recognition using free-phone scoring |
US6826350B1 (en) * | 1998-06-01 | 2004-11-30 | Nippon Telegraph And Telephone Corporation | High-speed signal search method device and recording medium for the same |
JP3252815B2 (ja) * | 1998-12-04 | 2002-02-04 | 日本電気株式会社 | 連続音声認識装置及び方法 |
EP1246164A1 (de) * | 2001-03-30 | 2002-10-02 | Sony France S.A. | Audiosignalcharakterisierung und -identifikation basierend auf prosodischen Merkmalen |
US7136813B2 (en) * | 2001-09-25 | 2006-11-14 | Intel Corporation | Probabalistic networks for detecting signal content |
DE10306022B3 (de) * | 2003-02-13 | 2004-02-19 | Siemens Ag | Dreistufige Einzelworterkennung |
US7379875B2 (en) * | 2003-10-24 | 2008-05-27 | Microsoft Corporation | Systems and methods for generating audio thumbnails |
US7580837B2 (en) * | 2004-08-12 | 2009-08-25 | At&T Intellectual Property I, L.P. | System and method for targeted tuning module of a speech recognition system |
US7650281B1 (en) | 2006-10-11 | 2010-01-19 | The U.S. Goverment as Represented By The Director, National Security Agency | Method of comparing voice signals that reduces false alarms |
US9293130B2 (en) * | 2008-05-02 | 2016-03-22 | Nuance Communications, Inc. | Method and system for robust pattern matching in continuous speech for spotting a keyword of interest using orthogonal matching pursuit |
CN104025699B (zh) * | 2012-12-31 | 2018-05-22 | 展讯通信(上海)有限公司 | 适应性音频捕获 |
US9646605B2 (en) | 2013-01-22 | 2017-05-09 | Interactive Intelligence Group, Inc. | False alarm reduction in speech recognition systems using contextual information |
US9390708B1 (en) * | 2013-05-28 | 2016-07-12 | Amazon Technologies, Inc. | Low latency and memory efficient keywork spotting |
CN110414591B (zh) * | 2019-07-24 | 2022-07-12 | 腾讯科技(武汉)有限公司 | 一种数据处理方法以及设备 |
CN112445410B (zh) * | 2020-12-07 | 2023-04-18 | 北京小米移动软件有限公司 | 触控事件识别方法、装置及计算机可读存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3544894A (en) * | 1967-07-10 | 1970-12-01 | Bell Telephone Labor Inc | Apparatus for performing complex wave analysis |
FR2150174A5 (de) * | 1971-08-18 | 1973-03-30 | Dreyfus Jean | |
US4038503A (en) * | 1975-12-29 | 1977-07-26 | Dialog Systems, Inc. | Speech recognition apparatus |
-
1978
- 1978-04-27 US US05/901,005 patent/US4241329A/en not_active Expired - Lifetime
- 1978-06-08 DE DE19782825186 patent/DE2825186A1/de not_active Withdrawn
- 1978-12-21 CA CA000318440A patent/CA1172364A/en not_active Expired
-
1986
- 1986-12-17 JP JP61299067A patent/JPS62201500A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3236832A1 (de) * | 1981-10-05 | 1983-09-01 | Exxon Corp. (eine Gesellschaft n.d. Ges. d. Staates New Jersey), New York, N.Y. | Verfahren und geraet zur sprachanalyse |
DE3236885A1 (de) * | 1981-10-05 | 1983-09-22 | Exxon Corp. (eine Gesellschaft n.d. Ges. d. Staates New Jersey), New York, N.Y. | Verfahren und geraet zur sprachanalyse |
DE3236834A1 (de) * | 1981-10-05 | 1983-10-06 | Exxon Corp | Verfahren und geraet zur sprachanalyse |
Also Published As
Publication number | Publication date |
---|---|
US4241329A (en) | 1980-12-23 |
JPS62201500A (ja) | 1987-09-05 |
CA1172364A (en) | 1984-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2825186A1 (de) | Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale | |
DE2825110A1 (de) | Verfahren zur erkennung kontinuierlicher sprachsignale | |
DE2825082A1 (de) | Verfahren zur spracherkennung | |
DE2659096C2 (de) | ||
DE3878001T2 (de) | Spracherkennungseinrichtung unter anwendung von phonemermittlung. | |
DE3236832C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE69127961T2 (de) | Verfahren zur Spracherkennung | |
DE2613258C2 (de) | Schaltungsanordnung zum Erkennen von einem oder mehreren Schlüsselworten in kontinuierlicher Sprache | |
DE3236885A1 (de) | Verfahren und geraet zur sprachanalyse | |
DE3236834C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE3306730C2 (de) | ||
DE69033084T2 (de) | Schaltung zur Spracherkennung unter Anwendung von nichtlinearer Verarbeitung, Sprachelementmodellierung und Phonembewertung | |
DE60120323T2 (de) | System und Verfahren zur Mustererkennung im sehr hochdimensionalen Raum | |
DE69705830T2 (de) | Sprachverarbeitung | |
DE69725670T2 (de) | Hochgenaue Zeit-Frequenz-Signalanalyse mit niedriger Verzerrung unter Verwendung gedrehter Fensterspektrogramme | |
DE69925479T2 (de) | Dynamisch konfigurierbares akustisches modell für spracherkennungssysteme | |
DE69029001T2 (de) | Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen | |
DE69225371T2 (de) | Schlüsselwörtererkennung in einem zusammenhängenden Text mittels zweier "Hidden Markov" Modelle | |
DE69010941T2 (de) | Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache. | |
DE69529356T2 (de) | Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile | |
DE69726526T2 (de) | Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert | |
DE69127818T2 (de) | System zur verarbeitung kontinuierlicher sprache | |
DE69122017T2 (de) | Verfahren und vorrichtung zur signalerkennung | |
DE69930961T2 (de) | Vorrichtung und verfahren zur sprachsegmentierung | |
DE10030105A1 (de) | Spracherkennungseinrichtung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8141 | Disposal/no request for examination |