[go: up one dir, main page]

DE1472011C3 - - Google Patents

Info

Publication number
DE1472011C3
DE1472011C3 DE1959K0056183 DEK0056183A DE1472011C3 DE 1472011 C3 DE1472011 C3 DE 1472011C3 DE 1959K0056183 DE1959K0056183 DE 1959K0056183 DE K0056183 A DEK0056183 A DE K0056183A DE 1472011 C3 DE1472011 C3 DE 1472011C3
Authority
DE
Germany
Prior art keywords
maxima
speech
pulses
determined
vibrations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE1959K0056183
Other languages
English (en)
Other versions
DE1472011A1 (de
DE1472011B2 (de
Inventor
Heinz Dipl.-Phys. 7801 Umkirch Kusch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE1959K0056183 priority Critical patent/DE1472011B2/de
Publication of DE1472011A1 publication Critical patent/DE1472011A1/de
Publication of DE1472011B2 publication Critical patent/DE1472011B2/de
Application granted granted Critical
Publication of DE1472011C3 publication Critical patent/DE1472011C3/de
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

Die Erfindung betrifft ein Verfahren gemäß dem Oberbegriff des Anspruches 1.
Die bisher bekannten Verfahren zur automatischen Erkennung der in Sprachschwingungen enthaltenen Informationen beruhen auf der Methode der Frequenzanalyse im Sinne der Bildung und Auswertung von Frequenzen.
Es ist bekannt, die Schwingungsstruktur für einen Beobachter, z. B. mittels eines Oszillografen, sichtbar zu machen. Es ist auch bekannt, während des Zeitverlaufes von Sprachschwingungen in diesen gewisse (nämlich durch den »Pitch« gegebene) Sprungstellen festzustellen, aber ebenfalls wieder nur für den Zweck einer sichtbaren Darstellung in modifizierter Form. Demgegenüber besteht die gemäß vorliegender Erfindung zu lösende Aufgabe darin, Eigenarten bzw. die Struktur der natürlichen Sprachschwingungen selbst als kennzeichnende Kriterien (insbesondere zur Erkennung der Laute usw.) verwendbar zu machen und dementsprechend ein einfaches, frequenzunabhängiges, charakteristisches, Struktureinzelheiten beschreibendes, von Männern, Frauen und Kindern unabhängiges und doch sicheres, auf Sprechvorschriften nicht angewiesenes Verfahren zur automatischen Spracherkennung zu schaffen.
Gemäß der Erfindung wird die gestellte Aufgabe dadurch gelöst, daß als charakterisierende Strukturein- eo zelheiten erste Maxima und zweite Maxima des Sprachsignals bestimmt und gemeinsam ausgewertet werden.
Vorteilhafte Weiterbildungen der Erfindung ergeben sich aus den übrigen Ansprüchen. &■>
Mit Hilfe dieser natürlichen Kriterien, die man in Impulse umwandeln kann, hat man schon alle notwendigen Unterscheidungsmerkmale zur Erkennung der Laute, der Vokale usw.
Weder der Stand der Technik gemäß der deutschen Auslegeschrift 11 89 744, der britischen Patentschrift 9 78 303, noch der ältere Vorschlag gemäß der deutschen Patentschrift 11 97 638 geben die Lehre, als charakterisierende Struktureinzelheiten bei der automatischen Erkennung von Sprachschwingungen erste und zweite Maxima (F i g. 2, F i g. 1) zu verwenden, da es nicht erkannt wurde, mit diesen speziellen Merkmalen die Sprachlaute zu identifizieren. Insbesondere Anspruch 6 der deutschen Patentschrift 11 97 638 beinhaltet zwar die Feststellung der Häufigkeit von »Vorgängen« (z. B. Nulldurchgängen), doch fehlt die Aussage, daß darunter auch die Bestimmung erster und zweiter Maxima fällt :;
Um das vorliegende Verfahren technisch ausführen zu können, gibt es verschiedene Möglichkeiten:
Ein Ausführungsbeispiel soll dies näher erläutern. Zur Unterscheidung der gesprochenen Vokale (s. Fig. 1), d. h. ihrer Schallschwingungen, genügt es schon, wenn man z. B. die Anzahl der ersten Maxima (s. F i g. 2 gleich der gestrichelten Kurve in Fig. 1) feststellt und zählt Als weiteres Kriterium braucht man nur noch ^, festzustellen, ob die natürlichen Sprachschwingungen f, viele zweite Maximas bzw. Amplituden haben (s. F i g. 1). Zur Abtrennung der Perioden der gesprochenen Vokale bzw. Laute genügt es schon, die stärkste Amplitude; d. h. das Maximum der Schwingungsmaxima (s. F i g. 3), welches der Grundfrequenz zugeordnet ist, festzustellen.
Mit Hilfe dieser Vokale (dabei ist »o« nicht erforderlich) und nur zweier weiterer Laute kann man z. B. die gesprochenen zehn Ziffern (automatische Ziffernerkennung) eindeutig erkennen, unterscheiden, bestimmen und feststellen.
In Fig.4 ist ein Blockschema für eine mögliche Ausführung eines einfachen Gerätes zur Verwirklichung des genannten Verfahrens dargestellt
Die Schallschwingungen der gesprochenen Laute werden, wie das Blockschaltbild zeigt, in ein Mikrophon M eingesprochen. Über einen Verstärker V werden diese weitergeleitet zu einer Schaltung A, die einen »Buchstabenabtrennimpuls« erzeugt Dies kann durch Verzerren der Grundfrequenz und Differenzieren der daraus entstandenen Impulse geschehen. Es ist auch { ;■; möglich, die stärkste Anfangsamplitude (Fig.3) zu U.'' benutzen. Eine Schaltung zur Erzeugung derartiger Abtrennimpulse ist auch in F i g. 5 gezeigt, auf die weiter unten nochmals Bezug genommen wird. Außerdem gehen die Schwingungen vom Verstärker K aus zu einer Schaltung B, die es ermöglicht, die ersten Maxima (F i g. 2) festzustellen und in Impulse umzuwandeln. Dies kann man einfach durch einen Tiefpaß erreichen. Weiterhin gehen vom Verstärker V die Schwingungen durch eine gewöhnliche Begrenzerstufe C oder ähnliches, die es ermöglicht, die zweiten Maxima (Fig. 1) mit kleinen und nahe beieinanderliegenden Amplituden festzustellen und in Impulse umzuwandeln. Über eine Codiermatrix D werden die gewonnenen Impulse in weiteren Verarbeitungseinrichtungen F wirksam. Als solche kommen z. B. Wählsysteme für Fernsprechvermittlungen in Frage, weitere Anwendungsmöglichkeiten sind die folgenden: Schreiben der gesprochenen Worte mit Hilfe des Geräts auf eine Schreibmaschine, automatisches Diktiergerät, automatische Erkennung der gesprochenen zehn verschiedenen-Ziffern und danach automatische Vornahme von Einstellfunktionen an Automaten, z. B. Vermittlungssy-
stemen, Sprachverständigung mit Gehörlosen, Frequenzbandkompression in Übertragungssystemen, Übersetzen in Fremdsprachen und Sprachforschung.
Wie bereits erwähnt, gibt es verschiedene Möglichkeiten, die »Buchstabenabtrennimpulse« aus der Schwingungsstruktur zu gewinnen. Gemäß einem bereits vorliegenden Vorschlag (deutsche Patentschrift 11 97 638) werden die Einteilungsimpulse dadurch erhalten, daß aufeinanderfolgende Schwingungszüge der Sprachwelle fortgesetzt miteinander verglichen werden, wobei sich aus den so erhaltenen Differenzwerten Umschlagstellen ergeben, an denen die Amplituden oder Frequenzen der Sprachschwingungen, nachdem sie vorher ab- bzw. zunahmen, plötzlich wieder größer bzw. kleiner werden.
Eine relativ einfach Schaltung zur Gewinnung derartiger Abtrennimpulse IP aus der Schwingungs-
struktur besteht gemäß F i g. 5 aus einem Hochpaß 8 und einem Tiefpaß 9, die jeweils an einem Eingang eines Flipflops 10 angeschlossen sind. Es ergeben sich Wiederholungen des Vorganges, daß bei E eingehende niedrige Frequenzen durch das Filter 9 und hohe Frequenzen durch das Filter 8 gelangen, und diese Wiederholungen ermöglichen die genannten Abtrennungen durch Ausgangsimpulse IP des Flipflops 10. In Kombination damit kann man, wie in F i g. 5 dargestellt, eine Reihe von Filtern 11 vorsehen, durch die die Frequenzen ebenfalls laufen, wobei bei jedem Buchstaben einige bestimmte Filter ansprechen. Dies wird durch Flipflops 12 jeweils festgestellt Deren Ausgangsimpulse werden in Speichereinrichtungen 13 registriert, und über Tore 14 können in Abhängigkeit von den Abtrennimpulsen IP die Inhalte der Speicher 13 ausgegeben und miteinander verknüpft werden.
Hierzu 2 Blatt Zeichnungen

Claims (6)

Patentansprüche:
1. Verfahren zur automatischen Erkennung der in Sprachschwingungen enthaltenden Informationen unter Verwendung von die Sprachschwingungen charakterisierenden Struktureinzelheiten, d a durch gekennzeichnet, daß als charakterisierende Struktureinzelheiten erste Maxima (F i g. 2) und zweite Maxima (Fig. 1) des Sprachsignals bestimmt und gemeinsam ausgewertet werden. ι ο
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Anzahl der ersten Maxima und die Anzahl der zweiten Maxima festgestellt und verglichen werden. .
3. Verfahren nach Anspruch 1 und 2, dadurch "is gekennzeichnet, daß die ersten und die zweiten : Maxima in Impulse umgewandelt werden.
4. Verfahren nach Anspruch 1 bis 3, dadurch gekennzeichnet, daß solche erste und zweite Maxima des Sprachsignals gemeinsam ausgewertet werden, die innerhalb von durch Abtrennimpulsen markierten Schwingungsgruppen liegen.
5. Verfahren nach Anspruch 1 bis 4, dadurch gekennzeichnet, daß die ersten und zweiten Maxima mit Hilfe von Filtern bestimmt werden.
6. Verfahren nach Anspruch 1 bis 4, dadurch gekennzeichnet, daß die ersten und zweiten Maxima des Sprachsignals durch Vergleichen von Amplituden mit Schwingungsdauern oder durch Vergleichen von Schwingungsdauern ermittelt werden.
DE1959K0056183 1959-01-16 1959-01-16 Verfahren zur automatischen erkennung der in sprachschwingungen enthaltenen informationen Granted DE1472011B2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE1959K0056183 DE1472011B2 (de) 1959-01-16 1959-01-16 Verfahren zur automatischen erkennung der in sprachschwingungen enthaltenen informationen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1959K0056183 DE1472011B2 (de) 1959-01-16 1959-01-16 Verfahren zur automatischen erkennung der in sprachschwingungen enthaltenen informationen

Publications (3)

Publication Number Publication Date
DE1472011A1 DE1472011A1 (de) 1969-11-13
DE1472011B2 DE1472011B2 (de) 1978-01-12
DE1472011C3 true DE1472011C3 (de) 1978-10-19

Family

ID=7227746

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1959K0056183 Granted DE1472011B2 (de) 1959-01-16 1959-01-16 Verfahren zur automatischen erkennung der in sprachschwingungen enthaltenen informationen

Country Status (1)

Country Link
DE (1) DE1472011B2 (de)

Also Published As

Publication number Publication date
DE1472011A1 (de) 1969-11-13
DE1472011B2 (de) 1978-01-12

Similar Documents

Publication Publication Date Title
DE4031638C2 (de)
DE1248225B (de) Verfahren und Vorrichtung zum genauen Ermitteln der Herzschlagfrequenz
DE1192257B (de) Verfahren zum zerstoerungsfreien Lesen von elektrischen Zuordnern mit Lerncharakter
DE3802903A1 (de) Einrichtung zur uebertragung von sprache
DE2357067C3 (de) Elektrische Schaltungsanordnung in Verbindung mit einer Spracherkennungseinrichtung
DE2703200A1 (de) Verfahren und vorrichtung zur kontrolle des schwingungszustandes eines schwingungssystems in einem signalgeber
DE3878895T2 (de) Verfahren und einrichtung zur spracherkennung.
EP0508547A2 (de) Schaltungsanordnung zur Spracherkennung
DE3102385C2 (de)
DE1937464B2 (de) Sprachanalysiergeraet
DE1472011C3 (de)
DE1797469A1 (de) Einrichtung zur Extrahierung kennzeichnender Kriterien von Schwingungen,insbesondere Sprachschwingungen
DE3133107A1 (de) Persoenlicher schallschutz
DE3710695A1 (de) Schaltungsanordnung zum erkennen von doppelton-mehrfrequenzsignalen in fernsprechanlagen
DE1487540C3 (de) Verfahren für Analyse und Synthese von elektrischen Akustiksignalen
DE2624173A1 (de) Signal-erkennungsschaltung
DE1122581B (de) Verfahren und Schaltungsanordnung zur angenaeherten Nachbildung der Kurzzeitspektren von nach dem Vocoderverfahren uebertragenen Sprachsignalen
DE1547027B2 (de) Verfahren und anordnung zur konsonantenbestimmung in sprachsignalen
DE2608984A1 (de) Elektronisches hoergeraet
DE586456C (de) Elektroakustischer Apparat
DE2163247B2 (de) Vorrichtung zur beseitigung der in einem eingangssignal enthaltenen stoersignale
DE3645119C2 (de) Einrichtung zum Feststellen eines Sprachintervalis
EP0022558A1 (de) Schaltungsanordnung zur Amplitudenregelung bei einer automatischen adaptiven, zeitlichen Entzerrung der Nachschwinger eines mindestens dreipegeligen Basisbandsignals
DE1276740B (de) Verfahren und Anordnungen zur Verbesserung der Sprachqualitaet von Kanalvocodern
DE1197638B (de) Verfahren zum selbsttaetigen Umsetzen von Lautschwingungen in Lauterkennungs-Signale

Legal Events

Date Code Title Description
BF Willingness to grant licences
C3 Grant after two publication steps (3rd publication)