DE2233591A1 - Analysator fuer ein spracherkennungsgeraet - Google Patents
Analysator fuer ein spracherkennungsgeraetInfo
- Publication number
- DE2233591A1 DE2233591A1 DE19722233591 DE2233591A DE2233591A1 DE 2233591 A1 DE2233591 A1 DE 2233591A1 DE 19722233591 DE19722233591 DE 19722233591 DE 2233591 A DE2233591 A DE 2233591A DE 2233591 A1 DE2233591 A1 DE 2233591A1
- Authority
- DE
- Germany
- Prior art keywords
- low
- analyzer
- quantizers
- control circuit
- pass
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 239000013598 vector Substances 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000000034 method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
- Analysator für ein Spracherkennungsgerät.
- (Zusatz zu Patent . ... (P 21 50 336.6) ) Die Erfindung betrifft einen Analysator zur Bestimmung der in diskrete Wertebereiche quanbisierten Komponenten eines ein Sprachsignal charakterisierenden Merkmal-Vektors für ein Spracherkennungsgerät mit einer Filterbank, nachgeschalteten Verstärkern mit Gleichrichter und Tiefpaß, einer Steuerschaltung und Quantisierern.
- Jedes Spracherkennungsgerät kann in einem allgemeinen Blockschaltbild in einen Analysator A und einen Klassifikator K unterteilt werden, wie Fig. 1 zeigt. Der Analysator A untersucht das Sprachsignal a hinsichtlich der durch den tonstrikteur des Spracherkennungsgerätes festgelegten Merkmale und bestimmt so die Komponenten eines Merkmal-Vektor b, der das Sprachsignál a charakterisiert. Der Klassifikator K ordnet den Merkmal-Vektor b nach einer Entscheidungsregel einer Bedeutungsklasse c zu.
- Fig. 2 zeigt ein Blockschaltbild des Analysators 1 mit zehn Kanälen. Er enthält eine Höhenanhebung H, einen Leistungsverstärker LV, eine Filterbank P mit zehn Bandpässen F1 bis F10, eine Schaltung S mit zehn Verstärkern mit Gleichrichtern und Tiefpässen Si. bis S10, eine Schaltung VG mit zehn Vergleichsschaltungen V1 bis Val 0, einen Speicher Sp und einen Taktgenerator TG.
- Die Bandbreite der Filter beträgt für alle zehn Kanäle konstant 180 mel. Die Filterbank F und die Schaltung S liefern näherungsweise das Kurzzeit-Leistungsdichtespektrum des Sprachsignals a. Die Integrationszeit wird durch die Tiefpässe bestimmt und iat für die einzelnen Kanäle unterschiedlich eingestellt.
- Sie beträgt maximal 16 ms bei tiefen Prequenz-en (200 bis 390 Hz) und dann abnehmend bis auf 0,7 ms bei hohen Frequenzen (4,6 bis 6,6 kHz).
- Jeder Tiefpaß liefert ein kontinuierliches Ausgangssignal vj(t) mit vj(t) - 0,1 j <- 10. Dieses Signal wird in der jeweils folgenden Vergleichsschaltung VG1 bis VG10 mit einem für alle zehn Kanäle gleich eingestellten Schwellenwert verglichen. Sobald die Tiefpaß-Ausgangsspannung v.(t) den Scnwellenwert überschreitet; wird in die dem Kanal zugehörige erste Speicherzelle der Wert "1" eingeschrieben.
- Vor Beginn der Analyse werden alle Speicherzellen auf den Wert "0" gesetzt. Mit diesem Verfahren werden ausgeprägte Maxima im Kurzzeit-Leistungsdichtespektrum festgestellt und notiert. Allerdings wird nur das erstmalige Überschreiten des Schwellenweries durch eine Tiefpaß-Ausgangsspannung vj(t) registriert. Wird der Schwellenwert von einer Tiefpaß-Ausgangsspannung v.(t) wiederholt überschritten, so J führt dies nicht zu einer Veränderung des Inhaltes der zugehörigen Speicherzelle.
- Ducrch den Taktgenerator TG wird das Sprachsignal a in Zeitbereiche unterteilt, in denen jeweils die beschriebene Analyse durchteführt wird. Am Ende eines Zeitbereiches werden die bisher gewonnenen Analyse-Informationen im Speicher Sp um eine Spalte nach rechts verschoben und die Speicherzellen 1 bis 10 der ersten Spalte wieder auf den Wert "0" gesetzt, so daß diese Speicherzellen bereit sind, die Analyse-Information des folgenden Zeitbereiches aufzunehmen.
- Im Hauptpatent ist ein Spracherkennungsgerät beschrieben, bei dem die Merkmal-Vektoren b von der Lautstärke unabhängig sind. Dies wird durch eine Schwellenschaltung erreicht, die die Schwelle der Vergleichsschaltungen VGl bis VG10 in Abhängigkeit von den Tiefpaß-Ausgangsspannungen steuert.
- Diese Vergleichsschaltungen stellen Quantisierer einfachster Form dar, die eine Quantisierung mit einem Bit ermöglichen.
- Dadurch wird das gemessene Eurzeit-Leistungsdichtespektrum des Sprachsignals a nur grob wiedergegeben.
- Aufgabe der Erfindung ist es, demgegenüber eine feinere Darstellung zu realisieren.
- Ausgehend von einem Analysator der einleitend geschilderten Art wird diese Aufgabe erfindungsgemäß dadurch gelöst, daß Quantisierer zur Erzeugung von jeweils n Bits (n=2,3, ...) mittels einer Treppen-Kennlinie und eine Steuerschaltung zur Erzeugung von 2n-1 Vergleichsspannungen qi(t) vorgesehen sind, die die Stufenhöhen der Treppen-Kennlinie in Abhängigkeit von den Tiefpaß-Ausgangsspannungen v.(t) steuern.
- Diese Steuerschaltung tritt an die Stelle der Schwellenschaltung der Anordnung nach dem Hauptpaent.
- Für die praktische Ausführung des Erfindungsgegenstandes ist es vorteilhaft, wenn eine Steuerschaltung (St) vorgesehen ist, die die Vergleichsspannungen qi(t) aus den Tiefpaß-
Ausgangsspannungen v.(t) nach der Beziehung (1i(t) = ki(3r Vå(t) + - Dabei ist es vorteilhaft, wenn die ersten Konstanten k.
- mit zunehmendem Index größer und derart gewählt sind, daß die Merkmal-Vaktoren b das gesprochene Wort ausreichend charakterisieren.
- Vorteilhaft ist es schließlich, wenn die zweite Konstante vO derart gewählt ist, daß bei fehlendem Sprachsignal a alle Ausgänge der Quantisierer den Binärzustand "O" aufweisen.
- Anhand eines Ausführungsbeispiels wird die Erfindung nachstehend näher-erläutert.
- Fig. 3 zeigt einen Teil des Analysators A für eine zweistufige Quantisierung mit der Filterbank F, enthaltend die Bandpässen y 10, mit der Schaltung S, enthaltend Verstärker mit Gleichrichter und Tiefpaß S1-S10, mit einer Steuerschaltung St und mit Quantisierern Ql-Q10.
- Die Wirkungsweise der Anordnung nach Fig. 3 ist folgende: Das in der Höhe angehobene und verstärkte Spiachkanal a' wird den Eingängen der zehn Bandpässen P1 bis P10 zugeführt.
- Am Ausgang jedes Bandpasses Fl bis F10 erscheint der Teil des Sprachsignals a', der den Durohlaßbereich des Bandpasses passieren konnte. Das Ausgangssignal jedes Bandpasses wird verstärkt, gleichgerichtet und über einen Tiefpaß abgegeben.
- Die Tiefpaß-Ausgangsspannungen v1(t) bis v10(t) sind ein paß für die momentane Leistung in den einzelnen Filterbereichen, während ihre Summe ein Naß für den Sprachsignalpegel ist.
- Die Tiefpaß-Ausgangsspannungen v1(t) bis v10(t) werden in den Quantisierern Q1-Q10 mit den Vergleichsspannungen q1(t), q2(t) und q3(t) verglichen, die in der Steuerschaltung St aus dem Tiefpaß-Ausgangsspannungen v1(t) bis v10(t) abgeleitet wurden.
- Fig. 4 zeigt die Treppen-Kennlinie T der Quantisierer Ql-QlO.
- Auf der Abszissenachse sind die variablen Yergleichsspannungen aufgezeichnet. An der Ordinate sind die zugehörigen Binärzustunde aufgezeichnet, die an den beiden Ausgängen der Quantisierer Q1-Q10 auftreten.
- Eine selbsttätige Anpassung an die Lautstärke erfolgt im Analysator dann, wenn die Gleichung erfüllt ist. Die Grössen ki sind so zu wählen, daß die' Merkmal-Vektoren b das gesprochene Wort ausreichend charakterisieren.
- Es muß gelten k1 k2 < k3. Die Konstante vO ist so zu wählen, daß bei fehlendem Sprachsignal alle Ausgänge der Quantisierer den Wert Null haben.
- 4 Patentansprüche 4 Figuren
Claims (4)
1. Analysator zur Bestimmung der in diskrete Wertebereiche quantisierten
Komponenten eines ein Sprachsignal charakterisierenden M.erkmal-Vektors für ein
Spracherkennungsgerät mit einer Filterbank, nachgeschalteten Verstärkern mit Gleichrichter
und Tiefpaß, einer Steuerschaltung und Quantisierern, nach Patent . ... ... (P 21
50 336.6), d a d u r c h g e k e n n z e i c h n e t , daß Quantisierer (Ql?' bis
QlO) zur Erzeugung von jeweils n Bits (n=2, 3, ...) mittels einer Treppen-Kennlinie
(T) und eine Steuerschaltung (St) zur Erzeugung von 2n-1 Vergleichsspannungen (q1(t)
vorgesehen sind, die die Stufenhöhen der Preppen-Kennlinie (T))in Abhängigkeit von
den Tiefpaß-Ausgangsspannungen (Vj (t) ) steuern.
2. Analysator nach Anspruch 1, d a d u r c h g e k e n n -z e i c
h n e t , daß eine Steuerschaltung (St) vorgesehen ist, die die Vergleichsspannungen
(qi (t) ) aus den Tiefpaß-AusgangssDannungen (vå(t) ) nach der Beziehung
bildet, wobei ki eine Gruppe erster Konstanten und v0 eine zweite Konstante darstellt.
3. Analysator nach Anspruch 2, d a d u r c h g e k e n n -z e i c
h ne t , daß die ersten Konstanten (ki) mit zunehmenden Index größer und derart
gewählt sind, daß die Merkmal-Vektoren (b) das gesprochene Wort ausreichend charakterisieren.
4. Analysator nach Anspruch 2 oder 3, d a d u r c h g e k e n n z
e i c h n e t , daß die zweite Konstante (vO) derart gewählt ist, daß bei fehlendem
Sprachsignal (a) alle Ausgänge der Quantisierer (Ql bis Q10) den Binärzustand "O"
aufweisen.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19722233591 DE2233591A1 (de) | 1971-10-08 | 1972-07-07 | Analysator fuer ein spracherkennungsgeraet |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2150336A DE2150336B2 (de) | 1971-10-08 | 1971-10-08 | Analysator fuer ein spracherkennungsgeraet |
DE19722233591 DE2233591A1 (de) | 1971-10-08 | 1972-07-07 | Analysator fuer ein spracherkennungsgeraet |
Publications (1)
Publication Number | Publication Date |
---|---|
DE2233591A1 true DE2233591A1 (de) | 1974-01-24 |
Family
ID=5850062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19722233591 Ceased DE2233591A1 (de) | 1971-10-08 | 1972-07-07 | Analysator fuer ein spracherkennungsgeraet |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE2233591A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2649259A1 (de) * | 1976-10-29 | 1978-05-03 | Tekade Felten & Guilleaume | Verfahren zur automatischen verarbeitung von gestoerter telefonsprache |
-
1972
- 1972-07-07 DE DE19722233591 patent/DE2233591A1/de not_active Ceased
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2649259A1 (de) * | 1976-10-29 | 1978-05-03 | Tekade Felten & Guilleaume | Verfahren zur automatischen verarbeitung von gestoerter telefonsprache |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1787284A1 (de) | Vorrichtung und verfahren zur robusten klassifizierung von audiosignalen sowie verfahren zu einrichtung und betrieb einer audiosignal-datenbank sowie computer-programm | |
DE2840250C2 (de) | Schaltungsanordnung für eine leitungsgespeiste Lautfernsprechstation | |
DE2406258B1 (de) | Schaltung zur automatischen Dynamik-Kompression oder -Expansion | |
DE3329242A1 (de) | Schaltungsanordnung zum ueberpruefen des zeitlichen abstands von rechtecksignalen | |
DE2021126C3 (de) | Spracherkennungs anordnung | |
US3238301A (en) | Sound actuated devices | |
DE10313310A1 (de) | Verfahren zur sprecherabhängigen Spracherkennung und Spracherkennungssystem dafür | |
DE820022C (de) | Elektrische Amplituden-Kompressionseinrichtung | |
DE2233591A1 (de) | Analysator fuer ein spracherkennungsgeraet | |
DE3008830A1 (de) | Verfahren zum betrieb eines spracherkennungsgeraetes | |
DE1937464A1 (de) | Sprachanalysiergeraet | |
EP1048025A1 (de) | Verfahren zur instrumentellen sprachqualitätsbestimmung | |
DE3025627A1 (de) | Vorrichtung und system zur aufzeichnung von tonfrequenzsignalen auf einem magnetischen aufzeichnungstraeger | |
DE2846234A1 (de) | Einrichtung zur automatischen verstaerkungsregelung eines einseitenband- empfaengers | |
DE2150336A1 (de) | Analysator fuer ein spracherkennungsgeraet | |
DE2109436A1 (de) | Amphtudenregler für elektrische Signale | |
DE2113815A1 (de) | Dynamische Verstaerkungsregelung fuer Magnetbandsysteme | |
DE2517024C3 (de) | Schaltungsanordnung für einen Signalempfänger zum Sperren von Signalen, deren Pegel schwankt | |
DE2357949A1 (de) | Verfahren zum ermitteln des der periode der anregungsfrequenz der stimmbaender entsprechenden intervalls | |
DE2939077A1 (de) | Verfahren und anordnung zum bestimmen charakteristischer werte aus einem geraeuschsignal | |
DE2906192C2 (de) | ||
EP0063306B1 (de) | Nach dem Kondensatorumladeverfahren arbeitender elektronischer Elektrizitätszähler | |
DE1187273B (de) | Verfahren und Anordnung zur digitalen Codierung und Speicherung akustischer Informationen und zur Erzeugung synthetischer Sprache entsprechend den gespeicherten Informationen | |
DE1276740B (de) | Verfahren und Anordnungen zur Verbesserung der Sprachqualitaet von Kanalvocodern | |
DE2024963C3 (de) | Schaltungsanordnung für eine Übertragungsanlage mit Puls-Code-Modulation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8131 | Rejection |