DE2524804A1 - Verfahren und vorrichtung zur automatischen spracherkennung - Google Patents
Verfahren und vorrichtung zur automatischen spracherkennungInfo
- Publication number
- DE2524804A1 DE2524804A1 DE19752524804 DE2524804A DE2524804A1 DE 2524804 A1 DE2524804 A1 DE 2524804A1 DE 19752524804 DE19752524804 DE 19752524804 DE 2524804 A DE2524804 A DE 2524804A DE 2524804 A1 DE2524804 A1 DE 2524804A1
- Authority
- DE
- Germany
- Prior art keywords
- characteristic
- parameter
- phoneme
- parameters
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract 4
- 230000007257 malfunction Effects 0.000 claims abstract 2
- 238000000605 extraction Methods 0.000 claims 3
- 238000001514 detection method Methods 0.000 claims 2
- 102000003712 Complement factor B Human genes 0.000 claims 1
- 108090000056 Complement factor B Proteins 0.000 claims 1
- 230000006978 adaptation Effects 0.000 claims 1
- 238000010183 spectrum analysis Methods 0.000 claims 1
- 230000003044 adaptive effect Effects 0.000 abstract 3
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Telephonic Communication Services (AREA)
Description
DR. ING. B. HOFFMANN · DIPL. ING. W. EITLE · OB. RER. NAT. K. HOFFMANN
PATENrl'AlfWliTE
D-BOOO MÖNCHEN 81 · ARABELIASTRASSE 4 - TELEFON (0811) 911087 2 5 2 4 8 0 A
26 876
Fuji Xerox Co., Ltd., Tokyo / Japan
Verfahren und Vorrichtung zur automatischen Spracherkennung
Die vorliegende Erfindung bezieht sich auf ein Verfahren zur automatischen Spracherkennung, entsprechend dem Oberbegriff
des Anspruchs 1, sowie auf eine Vorrichtung zur Durchführung dieses Verfahrens.
Zur Spracherkennung sind bereits verschiedene Verfahren vorgeschlagen worden, bei welchen u.a. ein Schwellwertlogikkreis
mit einem blinden Bereich verwendet wird, der aus analogen Elementen aufgebaut ist. Bei diesem Verfahren
wird von einer, ein bestimmtes Phänomen kennzeichnenden Komponente eine andere Komponente substrahiert, welche ein
eine Fehlfunktaion bewirkendes anderes Phänomen kennzeichnet.
509851/0397
-Z-
252480A
Falls der auf diese Weise gebildete Wert grosser als ein
bestimmter Schwellwert ist/ wird derselbe als charakteristischer Parameter zur Kennzeichnung des Phänomens verwendet.
Mit diesem Verfahren kann eine sehr genaue Erkennung unter Verwendung charakteristischer Parameter erreicht werden.
Bei diesem Verfahren wird ein charakteristischer Parameter entsprechend der folgenden Gleichung extrahiert
_ »fl (t
wobex X. - I
fallsx. > 0
und
' J
x. = "0"; falls ν ^-η ...... r.., (2)
. x
In>der obigen Gleichung ist x. der charakteristische Parameter,
welcher einem Phänomen X. entspricht. F. ist das Ausgangssignal eines Bandpassfilter, Y . ein Schwellwert und
-;£. sowie ß. Wertungsfaktoren.
Die Extraktion von charakteristischen Parametern in Übereinstimmung
mit den Gleichungen (1) und (2) kann sehr zuverlässig für eine bestimmte Person durchgeführt werden, dessen
Wertungsfaktor «£., ß. und der Schwellwert y. vorgegeben sind.
Es zeigt sich jedoch, dass im Hinblick auf unterschiedliche Sprecher diese Zuverlässigkeit der Erkennung nicht erreicht
werden kann.
Im Hinblick auf obigen Stand der Technik ist es demzufolge Aufgabe der vorliegenden Erfindung, ein Verfahren zur Spracherkennung
und Sprachanalyse zu schaffen, gemäss welchem eine Extraktion von charakteristischen Parametern mit hoher Zuverlässigkeit
erreicht werden kann, selbst wenn die Audiosignale unterschiedlicher Sprecher analisiert werden.
509851 /0397
252A80A
Erfindungsgemäss wird dies dadurch erreicht, indem die
im kennzeichnenden Teil des Anspruchs 1 aufgeführten Verfahrensschritte durchgeführt werden.
Eine Vorrichtung zum Durchführen des erfindungsgemässen Verfahrens ergibt sich anhand des Anspruches 2.
Die Erfindung soll nunmehr anhand von Ausführungsbeispielen näher erläutert beschrieben werden, wobei auf die beigefügte
Zeichnung Bezug genommen ist. Es zeigt:
Fig. 1 ein schematische Diagramm eines Extrahierkreises für charakteristische Parameter,
Fig. 2 ein Blockdiagramm einer Vorrichtung zur Spracherkennung gemäss der Erfindung, und
Fig. 3 ein Blockdiagramm einer abgewandelten Ausführungsform der Erfindung.
Das wesentliche ilerk^aal des E^-Jcennurigsverfahrens gemä'js
der Erfindung besteht darin, dass die Wertungsfaktoren
oc. und ß. von Gleichung (1) veränderlich gemacht werden.
Demzufolge werden sie an jeden beliebigen Sprecher angepasst, um Variationen der charakteristischen Parameter,
welche durch unterschiedliche Sprecher bedingt sind, zu verhindern. Dies wird dadurch erreicht, indem Gleichung
(1) wie folgt erweitert wird:
509851/0397
x10, X11, X12
xlk
xi0* xi
Ip-1
j=l
wobei ·■
und xik = "1"! falls xik
> 0 bzw. X1-I-- U fallsX{ι,—
In diesen Gleichungen (3) bis (5) sind ^c., und ß., die Wertungsfaktoren
des K-ten charakLeristischen Parameter x., und
Vik ^er Sc^weHwert von χ·ν· Der K-ten charakteristische Parameter
x.^ bestimmt im Hinblick auf den charakteristischen
Parameter x., welcher dem Phänomen x. zugeordnet ist, jenem Zustand fest, welcher in der K-ten Position von einer Referenz
xi0 in fxi0»xil'xi2 xik *'' xip-l-^ lie?t· Letzterer Ausdruck
ist eine Aggregation von P Stücken von x.-Werten, welche durch graduelle Veränderungen der Werte der Wertungsfaktoren «c. und
ß. in Gleichung (1) erhalten werden. Dieser Parameter entspricht demzufolge dem Wert x.. , welcher in Gleichung (3) auf der rechten
Seite auftritt.
In .der auf diese? Weise expandierten Gleichung (4) ist der
Ausdruck Σ n<^f .. F. die K-te Komponente, welche das Phänomen
J=I 'J J
509851/0397
£ A F
χ charakterisiert. Der Ausdruck j=j JK j ist hingegen die
K-te Komponente, welche das andere Phänomen xe charakterisiert,
das in dem Ausdruck £ "^-jj-FJ die Fehlfunktion auslöst.
3=1
Im Hinblick auf die Eingangssignale von fünf Vokalen a,i, u, e
und ο wurden die entsprechenden Werte der Wertungsfaktoren et.
und ß- der charakteristischen Parameter X1, X2 X5 experimentell
im Hinblick auf einen Sprecher A erweitert, um charakteristische Parameter zu erhalten, welche gemäss Tabelle 1
verschiedene Wertungsfaktoren besitzen. Im Hinblick auf 5o
männliche Erwachsene, welche willkürlich gewählt wurden konnte dann überprüft werden, dass die erweiterten Parameter auch jene
Parameter enthalten, welche den entsprechenden Sprechern zugeordnet sind, wodurch die Wirksamkeit der Erfindung demonstriert
werden konnte.
Veränderungen der Wertungsfaktoren . und ß . der charakteristischen
Parameter
charakteristi sche Parameter xi |
- Veränderungsfaktor : j |
Veränderung tungsfaktors I |
des Wer- |
xl | *mi -1^i+ kVci | ||
X2 | P /3 Xlrv^^ | 2 | |
X3 | |||
X5 | 4 4 | 5 |
= 0, 1, 2, p-1; ρ = 2; r = 0.05
509851/0397
Sow sich dies anhand von Gleichung (4) ergibt, besteht die Möglichkeit einer linearen Berechnung, um die charakteristischen
Parameter abzuleiten, welche entsprechend den Gleichungen (4) und (5) extrahiert worden sind. Beispielsweise
kann gemäss Fig. 1 ein einfacher Kreis mit zwei Addierern 1 verwendet werden, welche analoge Berechnungselemente besitzen,
und welchen ein Schmitt-Triggerkreis 2 nachgeschaltet ist. Das mit Hilfe der Schaltanordnung von Fig. 1 gebildete Ausgangssignal
ist gemäss Gleichung (5) ein Binärsignal mit den Werten "O" und "1", welches für digitale Verarbeitung sehr
geeignet ist.
Im folgenden soll nunmehr beschrieben werden, wie ein einem bestimmten Sprecher angepasster Parameter mit Hilfe der entsprechend
der Schaltanordnung nach Fig. 1 extrahierten charakteristischen Parameter gewählt werden kann. Dabei sei angenommen,
dass eine Mehrzahl von Worten bzw. Ausdrücken eines Referenzsprechers A erkannt bzw. analy siert worden ist. Die
extrahierten, charakteristischen Parameter x., x2 χ. ,
welche im folgenden als Referenzparameter bezeichnet werden, bilden für jedes Wort bzw. für jeden Ausdruck ein Zeit-Serienmuster
mit den Binärwerten "1" und "0". Dieses Muster entspricht der folgenden Gleichung:
Ym "
wobei m = l,2>...jg
In Gleichung (6) entspricht Y dem zu erkennenden Ausdruck.
Dies umfasst beispielsweise Y1 = eins, Y~ = zwei, Y^ = drei,
.Y = mehrfach.
Der Ausdruck Y ist ein Zeit-Serienmuster, welches aus den
charakteristischen Parametern χ (t ), xo(t ) x. (t )
cj ym δ am χ ym
für Y besteht, wobei zusätzlich das Muster für die Zeit t
509851/0397 " 7 -
festgelegt ist. Die Zeit t wird unter Berücksichtigung der charakteristischen Parameter gewählt, weil jeder Parameter
eine Funktion der Zeit t im Rahmen des Musters Y
ist. Das Muster Y (t) wird durch die Ausgangszustände der
entsprechenden charakteristischen Parameter χ (t ), x~(t )
... x.(t ) in Bezug auf die Zeit charakterisiert, indem die sich ergebenden Zustände der charakteristischen Parameter
im Hinblick auf die Dauer der eingegebenen Signalwerte bzw. der eingegebenen Ausdrücke berücksichtigt werden.
Es sei angenommen, dass ein bestimmter Ausdruck extrahiert und mit Hilfe der Gleichung (6) normalisiert werden soll.
Die charakteristischen Parameter werden dabei von demselben Ausdruck, jedoch von einem nicht festgelegten Sprecher extrahiert.
Die charakteristischen Parameter sind dann jene, welche auf der rechten Seite von Gleichung (3) angegeben sind. Diese
werden dann festgestellt, wodurch sich das folgende Muster ergibt.
Ym=
wobei
In Gleichung (7) ist Y1 (t) ein Zeit-Serienmuster, welches
Y entspricht. Dieses Muster enthält Parameter, welche auf
m c
den nicht genauer definierten Sprecher adaptiert sind. Auf diese Weise können bestimmte Phänomene extrahiert werden,
509851/0397
welche in den Folgenden als adaptierte Parameter bezeichnet werden sollen. Sowie dies bereits erwähnt worden ist, werden
bei den einzelnen Parameteransammlungen die adaptierten Parameter
gebildet.
ym>>
*ll<ym>>
*i2fym>
· ■ ·.··' xlp-l<tytni) J
m> ^O-lVmi-'&irfVm^ xil(V m*'
Um diese adaptierten Parameter zu wählen, wird die Ähnlichkeit
im Vergleich zu den Referenzparametern des Sprechers A in der folgenden Weise berechnet: Um die Erläuterung zu vereinfachen,
soll dabei zuerst beschrieben werden, wie die adaptierten Parameter aus der Gruppe von Ix10Oy1n)* χι1^γ'Ώ^12^/n) xlpy
der entsprechenden Parameteraggregationen gewählt werden können Es treten dabei die folgenden Gleichungen auf:
sio= |=f ^VJ- xi(tym>
>
Sll= t
S12= ^
Slk=
sip-i ■ |=1 Ψ
,m), X1Oy111) ) legt die Ähnlichkeit zwischen den
509851/0397
— Q —
den Parametern xioit vn,).^ un<^ X1 (t ) des in Form eines Eingangssignals zugeführten Sprachteiles Y fest. Demzufolge ist der
Ausdruck S1 die Summe der Ähnlichkeit der einzelnen
teile Y1, Y2 Yg. Der Ausdruck ψ (χχ^n), X1y
legt die Ähnlichkeit zwischen den Parametern x- - ^νΐη) und
x-(t) fest, demzufolge der Ausdruck S-- die Summe der Ähnlichkeit
in jedem dieser Sprachteile ist. In der gleichen Weise enspricht der Ausdruck S- - der Summe ////,, Λ- \ γ (t ^V
1P"1 Γ (xlp-l<yni'' ]'ymj '.
Es sei nunmehr angenommen, dass die Summe von Ähnlichkeiten S- , S-- S- - von Gleichung (8) auf diese Weise abgeleitet
worden ist. Falls der Ausdruck S-, den grössten Ähnlichkeitswert besitzt, ist der Parameter x., von S-, , welcher auf den
bestimmten Sprecher angepasst ist, so dass mit demselben ein bestimmtes Phänomen extrahiert werden kann. Der auf diese
Weise gewählte, adaptierte Parameter dient demzufolge dazu, die Ähnlichkeit festzulegen, wobei die gesamten, in Form eines
Eingangssignals zugeführten Sprechteile berücksichtigt wurden. Auf diese Weise können sehr stabile charakteristische Parameter
gleichförmig für jedes Wort oder jeden Sprechteil gewählt werden,
Im Hinblick auf den Ausdruck ^O^y'm^' X21^y'ni X22^Vni^·
' xk2(tyfm)
*xi0<V m>' xil<Vm>' xi2(tym) Xip
werden die adaptierten Parameter in der gleichen Weise von den entsprechenden Parameteraggregationen ausgewählt, indem die
Ähnlichkeiten gegenüber x„(t ) ....x, (t ) .... x^(t ) festgelegt
werden.
- 1o
509851/0397
Für die praktische Berechnung dieser Ähnlichkeiten können verschiedene Verfahren verwendet werden. Da die Parameter
die Binärwerte "1" und "O" besitzen, kann ein Verfahren
verwendet werden, bei welchem der Minimale Abstand als maximale Ähnlichkeit ausgelegt wird. Es sei jedoch verstanden,
dass dieses Verfahren einzig und allein eine Möglichkeit darstellt, so dass die Erfindung dadurch nicht begrenzt wird.
Falls die Summe der Ähnlichkeiten für die Wahl der adaptierten Parameter einander gleich ist, werden innerhalb von Parameteraggregationen
jene Parameter als adaptierte Parameter gewählt, welche den nächst kleineren Index von P besitzen. Entsprechend
diesem Verfahren können die an einen beliebigen Sprecher angepassten, adaptierten Parameter gewählt werden, sobald er mit
seiner Sprache einen bestimmten Satz von Ausdrücken bzw. Sprechteilen wiederholt.
Bei dem entsprechend Gleichung (7) festgelegten, adaptierten Parametern kann das Muster wie folgt neu angeordnet werden:
Ym ss^ftm<t>lxlk<Vm>· x2k<Vm> xik<Vm)
wobei m =1,2,., g
Die Gleichung (9) entspricht einem umgestellten Muster Y (t), welches von der Gleichung (7) abgeleitet worden ist. Die Umstellung
erfolgte dabei derart, dass nur jene adaptierten Parameter festgelegt werden, bei welchen die Ausdrücke
Xlk^y'm^J x2k^V'm^ Xik^Vni^ entsprechende, adaptierte
Parameter sind. Das auf diese Weise erhaltene Muster von Gleichung (9) kann als das zuvor aufzuzeichnende Standardmuster
für den betreffenden Sprecher verwendet werden.
Nach der Aufzeichnung des Standardmusters entsprechend dem
- 11 -
509851/0397
oben beschriebenen Verfahren wird der Erkennungsvorgang durchgeführt, indem das Standardmuster mit einem unbekannten
Sprachmuster zur Durchführung einer Diskrimination zur Abdeckung gebracht wird. Diese Musteranpassung erweist sich als
sehr wirksam, um unter Verwendung des Abstandverfahresn
eine einfache Entscheidung durchzuführen, weil jedes Muster aus Signalen mit den Binärwerten "1" und "O" besteht. Um eine
optimale Anpassung zu erreichen, sollte zuvor eine Verarbeitung des Musters durchgeführt werden. Da das Muster jedoch
eine Zeit-Serienanordnung besitzt, kann eine Einstellung der Zeitbasis bzw. eine Zeitverschiebung durchgeführt werden, um
auf diese Weise eine optimale Anpassung im Rahmen eines äusserst einfachen Vorganges zu erreichen.
Das entsprechend Gleichung (9) gebildete Standardmuster muss für jeden Sprecher ersetzt werden, wobei ein aus mehreren
Worten bestehendes Vokabular zur Erkennung bzw. Analyse verwendet wird, wobei alle diese Worte bereits im voraus gesprochen
werden.
Das aus don Refereuzparatnetern der Gleichung (6) bestehende
Muster Y kann demzufolge anstelle des Musters gemäss Gleichung (9) als Standardmuster verwendet werden. Falls das Muster entsprechend
Gleichung (9) als Standardmuster verwendet wird, erlaubt das teilweise Sprechen einer Mehrzahl von Worten für
die Erkennung bzw. Analyse die Wahl der adaptierten Parameter, wodurch die Lerndauer sehr stark reduziert wird.
In dem Folgenden soll nunmehr eine Ausführungsform der Erfindung
unter Bezugnahme auf Fig. 2 beschrieben werden. Ein von einem Sprecher gesprochenes Wort wird zur Erkennung in
bezug auf den Schalldruckwert normalisiert. Anschliessend daran
509851 /0397
wird das auf diese Weise gebildete Audiosignal einem Frequenzteiler
4 zugeführt, in welchem beispielsweise unter Verwendung eines 13-Kanal-Aktivfliters eine Spektralanalyse vorgenommen
wird. Im Vergleich zu einem Digitalfilter vereinfacht die Verwendung eines Analogfilters den Aufbau, wobei zusätzlich
die Spektralanalyse erleichtert wird.
Das durch Spektralanalyse gebildete Ausgangssignal wird einem Signalamplituden-Detektor 15 zugeführt, innerhalb welcher eine
Abtastung während einer Zeitdauer von beispielsweise Io Millisekunden
vorgenommen wird. Dabei wird der Spitzenwert dieses Signals bestimmt. Der auf diese Weise gebildete Spitzenwert wird
anschliessend daran einem beispielsweise entsprechend Fig. 1 ausgebildeten Extrahierkreis 5 zugeführt, in welchem die charakteristischen
Parameter bestimmt werden.Mit Hilfe dieses Extrahierkreises 5 erfolgt eine genaue Extraktion der Information
bezüglich der erforderlichen Phänomene. Innerhalb des Extrahierkreises 5 werden die charakteristischen Parameter
für ein bestimmtes Phänomen mit Hilfe eines Schwellwertlogikkreises extrahiert. Die Anzahl der entsprechend Gleichung (3)
extrahierten charakteristischer. Parameter kann dabei ?1 betragen,
wobei i = 7 und ρ = 2. Diese Parameter bilden ein Zeit-Serienmuster für ein Eingangsvokabular bzw. eine Stimme.
Da dieses Muster aus Signalen mit den Binärwerten "1" und "O" besteht, werden die Eigenschaften der Phänomene durch Übergänge
des Musters in bezug auf die Zeit festgelegt.
Anschliessend daran wird das Muster über ein Wellgatter 6 einem Speicher 7 zugeführt, in welchem eine Speicherung des
Musters vorgenommen wird. Zusätzlich ist ein Referenzparameterspeicher 9 vorgesehen, in welchen ein Zeit-Serienmuster mit
Signalwerten T1" und "O" entsprechend der Gleichung (6) eingespeichert
worden ist. Dieses Muster basiert dabei auf den
- 13 -
509851/0397
charakteristischen Parametern bzw. Referenzparametern, welche in Abhängigkeitder gesprochenen Worte des ReferenzSprechers A
extrahiert worden sind. Die Muster beider Speicher 7 und 9 werden gleichzeitig einer ersten Ähnlichkeits-Feststelleinheit 8 zugeführt,
in welcher die Ähnlichkeit in Übereinstimmung mit Gleichung (8) bestimmt wird. Das Ausgangssignal dieser ersten
Ähnlichkeitsfeststelleinheit (8) wird einem Diskriminator 1o zugeführt, in welchem ein adaptierter Parameter entsprechend
der grössten Ähnlichkeit gewählt wird. Das auf diese Weise gebildete Wellsignal wird über das Wellgatter 6 dem Speicher 7
zugeführt. Innerhalb des Wellgatters 6 wird das Ausgangsgatter in Richtung des Speichers 7 für den adaptierten Parameter in
Übereinstimmung mit dem Eingangssignal geöffnet, während es für alle anderen Parameter geschlossen ist.
Innerhalb des Speichers 7 wird das Zeit-Serienmuster eines beliebigen Speichers, einschliesslich der adaptierten Parameter
in bezug auf die adaptierten Parameter allein in Übereinstimmung mit dem oben erwähnten Wellsignal neu angeordnet, worauf dann
das neu angeordnete Muster als Standardmuster innerhalb eines StanciardmusterSpeichers 11 gespeichert wird. Nach Durchführung
dieses Vorganges wird die Ähnlichkeit des Ungekannten innerhalb des Speichers 7 gespeicherten Musters innerhalb einer zweiten
Ähnlichkeits-Feststelleinheit 12 festgestellt, indem eine Musterübereinstimmung
gegenüber dem innerhalb des Standardmusterspeichers 11 gespeicherten Standardmusters vorgenommen wird.
Das Ausgangssignal wird dann einem Diskriminator 13 zugeführt,
in welchem das Standardmuster entsprechend der maximalen Ähnlichkeit als Eingangsmuster angesehen wird. Der Diskriminator
13 erzeugt demzufolge ein Ausgangssignal, welches eine Erkennung darstellt.
- 14 -
509851/0397
Gemäss Fig. 3 kann das in dem Referenzparameterspeicher 9
gespeicherte Muster direkt als Standardmuster angesehen werden/ wodurch sich das Vorsehen des Standardmusterspeichers 11 erübrigt.
In diesem Fall wird die Erkennung des Unbekannten innerhalb des Speichers 7 gespeicherten Musters durchgeführt,
indem innerhalb der zweiten Ähnlichkeits-Feststelleinheit 12 eine Anpassung bzw. Übereinstimmung mit dem Muster des Referenzparameterspeichers
9 vorgenommen wird.
Im Rahmen der vorliegenden Erfindung kann sehr zuverlässig eine Extraktion der charakteristischen Parameter vorgenommen
werden, selbst wenn die Audiosignale mit Hilfe von mehr als zwei Sprechern gebildet werden. Da die Standardmuster in dem
Zustand der Auswahl der adaptierten Parameter neu angeordnet und anschliessend gespeichert werden, ist es nicht notwendig,
die Sprechproben mit demselben Vokabular zu wiederholen. Da das Muster Y , welches entsprechend Gleichung (6) aus den
Referenzparametern besteht, als Standardmuster verwendet werden kann, erfolgt die Wahl der adaptierten Parameter einzig
und allein durch partielles Sprechen einer Mehrzahl zu erkennender Sprechteile, wodurch die Lernbelastung des Sprechers sehr
stark reduziert wird. Da das Muster fernerhin aus Signalwerten "O" und "1" besteht, kann die die Endentscheidungen durchführende
Anordnung sehr einfach aufgebaut werden, so dass sich eine sehr wirtschaftliche Lösung ergibt. Durch Erweiterung der
Parameter auf der rechten Seite von Gleichung (3) für Stimmen von Frauen und Kindern ist es fernerhin möglich, eine sehr
genaue Erkennung im Hinblick auf die verschiedensten Sprecher zu erreichen.
- 15 -
509851/0397
Claims (4)
- PatentansprücheVerfahren zur Spracherkennung, dadurch gekennzeichnet , dass die folgenden Schritte durchgeführt werden:a) Normalisieren des Schalldruckwertes einer Eingangsstimme eines unbekannten Sprechers,b) Analysieren des normalisierten Sprechsignals unter Verwendung einer Mehrzahl von Kanälen verschiedener Frequenzen,c) in bezug auf das Ausgangssignal F. jedes analysierten Frequenzbandes Einstellen eines Wertungsfaktors od., welcher einer Charakteristik eines vorgegebenen Phänomens x. entspricht,d) Extrahieren der charakteristischen Komponente x. des Phänomens x. ,e) Einstellen eines Wertungsfaktors B. des AusgangssignalsF., demzufolge eine Charakteristik des Phänomen X zur3 ®Entsprechung gebracht ist, sobald, extrahierte, charakteristische Komponente x. eine Fehlfunktion bzw. einen Fehler aufgrund eines anderen Phänomens X bewirkt,f) gleichzeitiges Extrahieren der charakteristischen Komponente xo des Phänomens X ,g) falls die Differenz der auf diese Weise extrahierten charakteristischen Komponente grosser als ein folgender Schwellwert ^ ist, Verwenden dieser Differenz als charakteristischer Parameter für das Phänomen X.rh) Expandieren des charakteristischen Parameters zur Erzielung einer auf dem charakteristischen Parameter basierenden charakteristischen Parametergruppe, wobei jeder charakteristische Parameter geringfügig unterschiedlich ist.- 16 -509851/0397demzufolge eine Anpassung an die individuellen Eigenschaften von verschiedenen Sprechern möglich ist,i) unter Verwendung der charakteristischen Parametergruppe Extrahieren eines charakteristischen Parameters, welcher eine maximale Ähnlichkeit mit dem zuvor gespeicherten Referenzpararaeter aufweist, demzufolge eine adaptierter Parameter gebildet ist, welcher an den unbekannten Sprecher angepasst ist, undj) Übereinstimmen des von den extrahierten, adaptierten Parametern gebildeten Standardmusters mit einem dem unbekannten Sprecher zugeordneten, unbekannten Muster, wodurch eine Erkennung bzw. Analyse der Stimme durchgeführt wird.
- 2. Vorrichtung zur Durchführung des Verfahrens nach Anspruch 1, dadurch gekennzeichnet , dass dieselbe aus einem eine Spektralanalyse durchführenden Frequenzteiler (4), einem daran angeschlossenen Signalamplitudendetektor (15), einem daran angeschlossenen, der Bildung der charakteristischen Parameter dienenden Extrahierkreis(5),einem daran angeschlossenen Wellgatter £6), sowie einem von diesem gespeisten Speicher (7) besteht, ferner dass das in dem Speicher (7) gespeicherte Signal einer ersten Ähnlichkeits-Feststelleinheit (8) und von dort einem adaptierte Parameter bildenden Diskriminator (1o) zugeführt ist, welcher wiederum das Wellgatter (6) steuert, und dass zusätzlich ein Referenzparameterspeicher (9) eine zweite Ähnlichkeits-Feststelleinheit (12) sowie ein die optimale Übereinstimmung bestimmender Diskriminator (13) vorgesehen sind.
- 3. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass zusätzlich ein Standardmusterspeicher (11) vorgesehen ist, welcher in Abhängigkeit des von dem- 17 -509851/0397Speicher (7) zugeführten Signals ein Ausgangssignal an die zweite Ähnlichkeits-Feststelleinheit (12) abgibt.
- 4. Vorrichtung nach Anspruch 2 oder 3, dadurch g e kennzeic h η e t , dass der die charakteristischen Parameter bildende Extrahierkreis (5) aus zwei hintereinander geschalteten Addierern (1) besteht, welche einen Schmitt-Trigger-Kreis (2) speisen.509851/0397
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP49062526A JPS50155105A (de) | 1974-06-04 | 1974-06-04 |
Publications (1)
Publication Number | Publication Date |
---|---|
DE2524804A1 true DE2524804A1 (de) | 1975-12-18 |
Family
ID=13202704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19752524804 Withdrawn DE2524804A1 (de) | 1974-06-04 | 1975-06-04 | Verfahren und vorrichtung zur automatischen spracherkennung |
Country Status (5)
Country | Link |
---|---|
US (1) | US4060694A (de) |
JP (1) | JPS50155105A (de) |
DE (1) | DE2524804A1 (de) |
FR (1) | FR2274101A1 (de) |
GB (1) | GB1519492A (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0299572A2 (de) * | 1987-07-11 | 1989-01-18 | Philips Patentverwaltung GmbH | Verfahren zur Erkennung von zusammenhängend gesprochenen Wörtern |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2844156A1 (de) * | 1978-10-10 | 1980-04-24 | Philips Patentverwaltung | Verfahren zum verifizieren eines sprechers |
USRE31188E (en) * | 1978-10-31 | 1983-03-22 | Bell Telephone Laboratories, Incorporated | Multiple template speech recognition system |
US4181821A (en) * | 1978-10-31 | 1980-01-01 | Bell Telephone Laboratories, Incorporated | Multiple template speech recognition system |
NL177950C (nl) * | 1978-12-14 | 1986-07-16 | Philips Nv | Spraakanalysesysteem voor het bepalen van de toonhoogte in menselijke spraak. |
US4297528A (en) * | 1979-09-10 | 1981-10-27 | Interstate Electronics Corp. | Training circuit for audio signal recognition computer |
JPS6024994B2 (ja) * | 1980-04-21 | 1985-06-15 | シャープ株式会社 | パタ−ン類似度計算方式 |
JPS5710199A (en) * | 1980-06-21 | 1982-01-19 | Tokyo Shibaura Electric Co | Voice information extractor |
JPS5782896A (en) * | 1980-11-12 | 1982-05-24 | Hitachi Ltd | Continuous voice recognition system |
US4363102A (en) * | 1981-03-27 | 1982-12-07 | Bell Telephone Laboratories, Incorporated | Speaker identification system using word recognition templates |
US4388495A (en) * | 1981-05-01 | 1983-06-14 | Interstate Electronics Corporation | Speech recognition microcomputer |
US4454586A (en) * | 1981-11-19 | 1984-06-12 | At&T Bell Laboratories | Method and apparatus for generating speech pattern templates |
JPS6024597A (ja) * | 1983-07-21 | 1985-02-07 | 日本電気株式会社 | 音声登録方式 |
JPS6057475A (ja) * | 1983-09-07 | 1985-04-03 | Toshiba Corp | パタ−ン認識方式 |
US4817158A (en) * | 1984-10-19 | 1989-03-28 | International Business Machines Corporation | Normalization of speech signals |
US4797927A (en) * | 1985-10-30 | 1989-01-10 | Grumman Aerospace Corporation | Voice recognition process utilizing content addressable memory |
US5129000A (en) * | 1986-04-05 | 1992-07-07 | Sharp Kabushiki Kaisha | Voice recognition method by analyzing syllables |
US4856067A (en) * | 1986-08-21 | 1989-08-08 | Oki Electric Industry Co., Ltd. | Speech recognition system wherein the consonantal characteristics of input utterances are extracted |
US4805225A (en) * | 1986-11-06 | 1989-02-14 | The Research Foundation Of The State University Of New York | Pattern recognition method and apparatus |
US4916743A (en) * | 1987-04-30 | 1990-04-10 | Oki Electric Industry Co., Ltd. | Pattern matching system |
US4949382A (en) * | 1988-10-05 | 1990-08-14 | Griggs Talkwriter Corporation | Speech-controlled phonetic typewriter or display device having circuitry for analyzing fast and slow speech |
US5012517A (en) * | 1989-04-18 | 1991-04-30 | Pacific Communication Science, Inc. | Adaptive transform coder having long term predictor |
AU6785696A (en) * | 1995-09-05 | 1997-03-27 | Frank Uldall Leonhard | Method and system for processing auditory signals |
US6122613A (en) * | 1997-01-30 | 2000-09-19 | Dragon Systems, Inc. | Speech recognition using multiple recognizers (selectively) applied to the same input sample |
EP1205906B1 (de) * | 2000-11-07 | 2003-05-07 | Telefonaktiebolaget L M Ericsson (Publ) | Anwendung von Referenzdaten für Spracherkennung |
CA2735329C (en) | 2002-03-28 | 2016-05-03 | Intellisist, Inc. | Closed-loop command and response system for automatic communications between interacting computer systems over an audio communications channel |
US8239197B2 (en) | 2002-03-28 | 2012-08-07 | Intellisist, Inc. | Efficient conversion of voice messages into text |
EP1394773B1 (de) * | 2002-08-08 | 2006-03-29 | Alcatel | Verfahren zur Signalkodierung mittels einer Vektorquantisierung |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2347738A1 (de) * | 1972-09-21 | 1974-03-28 | Threshold Tech | Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB1261385A (en) * | 1968-07-24 | 1972-01-26 | Matsushita Electric Ind Co Ltd | Speech analyzing apparatus |
US3509280A (en) * | 1968-11-01 | 1970-04-28 | Itt | Adaptive speech pattern recognition system |
US3619509A (en) * | 1969-07-30 | 1971-11-09 | Rca Corp | Broad slope determining network |
US3673331A (en) * | 1970-01-19 | 1972-06-27 | Texas Instruments Inc | Identity verification by voice signals in the frequency domain |
US3816722A (en) * | 1970-09-29 | 1974-06-11 | Nippon Electric Co | Computer for calculating the similarity between patterns and pattern recognition system comprising the similarity computer |
US3700815A (en) * | 1971-04-20 | 1972-10-24 | Bell Telephone Labor Inc | Automatic speaker verification by non-linear time alignment of acoustic parameters |
US3864518A (en) * | 1972-03-20 | 1975-02-04 | Meguer V Kalfaian | Signal conversion apparatus |
US3883850A (en) * | 1972-06-19 | 1975-05-13 | Threshold Tech | Programmable word recognition apparatus |
-
1974
- 1974-06-04 JP JP49062526A patent/JPS50155105A/ja active Pending
-
1975
- 1975-05-27 US US05/581,083 patent/US4060694A/en not_active Expired - Lifetime
- 1975-06-04 FR FR7517404A patent/FR2274101A1/fr active Granted
- 1975-06-04 GB GB24070/75A patent/GB1519492A/en not_active Expired
- 1975-06-04 DE DE19752524804 patent/DE2524804A1/de not_active Withdrawn
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2347738A1 (de) * | 1972-09-21 | 1974-03-28 | Threshold Tech | Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0299572A2 (de) * | 1987-07-11 | 1989-01-18 | Philips Patentverwaltung GmbH | Verfahren zur Erkennung von zusammenhängend gesprochenen Wörtern |
EP0299572A3 (en) * | 1987-07-11 | 1989-12-27 | Philips Patentverwaltung Gmbh | Method for connected word recognition |
Also Published As
Publication number | Publication date |
---|---|
US4060694A (en) | 1977-11-29 |
FR2274101A1 (fr) | 1976-01-02 |
GB1519492A (en) | 1978-07-26 |
JPS50155105A (de) | 1975-12-15 |
FR2274101B1 (de) | 1980-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2524804A1 (de) | Verfahren und vorrichtung zur automatischen spracherkennung | |
DE3236834C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE69414752T2 (de) | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes | |
DE69831991T2 (de) | Verfahren und Vorrichtung zur Sprachdetektion | |
DE69029001T2 (de) | Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen | |
DE3645118C2 (de) | ||
DE2820645A1 (de) | Vorrichtung und verfahren zur spracherkennung | |
DE2626793B2 (de) | Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals | |
DE2753707A1 (de) | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache | |
DE2613258A1 (de) | System zur automatischen spracherkennung | |
DE2347738A1 (de) | Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben | |
DE2422028C2 (de) | Schaltungsanordnung zur Identifizierung einer Formantfrequenz in einem gesprochenen Wort | |
DE2825082A1 (de) | Verfahren zur spracherkennung | |
DE4031638C2 (de) | ||
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE69327997T2 (de) | Gerät zur spracherkennung mit neuronalem netzwerk und lernverfahren dafür | |
DE3878895T2 (de) | Verfahren und einrichtung zur spracherkennung. | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE2357067A1 (de) | Vorrichtung zur sprachanalyse | |
EP0285222B1 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
DE60016305T2 (de) | Verfahren zum Betrieb eines Sprachkodierers | |
DE3882805T2 (de) | Verfahren zur Ermittlung von Merkmalen und Spracherkennung und Erkennungseinrichtung. | |
WO1993002448A1 (de) | Verfahren und anordnung zum erkennen von einzelwörtern gesprochener sprache | |
DE2719175A1 (de) | Schallanalysiereinrichtung | |
DE1206167B (de) | Schaltung zur Verbesserung der Erkennbarkeit von Lauten bei der Schallanalyse |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
8130 | Withdrawal |