DE1472011C3

DE1472011C3 -

Info

Publication number: DE1472011C3
Application number: DE1959K0056183
Authority: DE
Inventors: Heinz Dipl.-Phys. 7801 Umkirch Kusch
Original assignee: Individual
Current assignee: Individual
Priority date: 1959-01-16
Filing date: 1959-01-16
Publication date: 1978-10-19
Also published as: DE1472011A1; DE1472011B2

Description

Die Erfindung betrifft ein Verfahren gemäß dem Oberbegriff des Anspruches 1.

Die bisher bekannten Verfahren zur automatischen Erkennung der in Sprachschwingungen enthaltenen Informationen beruhen auf der Methode der Frequenzanalyse im Sinne der Bildung und Auswertung von Frequenzen.

Es ist bekannt, die Schwingungsstruktur für einen Beobachter, z. B. mittels eines Oszillografen, sichtbar zu machen. Es ist auch bekannt, während des Zeitverlaufes von Sprachschwingungen in diesen gewisse (nämlich durch den »Pitch« gegebene) Sprungstellen festzustellen, aber ebenfalls wieder nur für den Zweck einer sichtbaren Darstellung in modifizierter Form. Demgegenüber besteht die gemäß vorliegender Erfindung zu lösende Aufgabe darin, Eigenarten bzw. die Struktur der natürlichen Sprachschwingungen selbst als kennzeichnende Kriterien (insbesondere zur Erkennung der Laute usw.) verwendbar zu machen und dementsprechend ein einfaches, frequenzunabhängiges, charakteristisches, Struktureinzelheiten beschreibendes, von Männern, Frauen und Kindern unabhängiges und doch sicheres, auf Sprechvorschriften nicht angewiesenes Verfahren zur automatischen Spracherkennung zu schaffen.

Gemäß der Erfindung wird die gestellte Aufgabe dadurch gelöst, daß als charakterisierende Strukturein- eo zelheiten erste Maxima und zweite Maxima des Sprachsignals bestimmt und gemeinsam ausgewertet werden.

Vorteilhafte Weiterbildungen der Erfindung ergeben sich aus den übrigen Ansprüchen. &■>

Mit Hilfe dieser natürlichen Kriterien, die man in Impulse umwandeln kann, hat man schon alle notwendigen Unterscheidungsmerkmale zur Erkennung der Laute, der Vokale usw.

Weder der Stand der Technik gemäß der deutschen Auslegeschrift 11 89 744, der britischen Patentschrift 9 78 303, noch der ältere Vorschlag gemäß der deutschen Patentschrift 11 97 638 geben die Lehre, als charakterisierende Struktureinzelheiten bei der automatischen Erkennung von Sprachschwingungen erste und zweite Maxima (F i g. 2, F i g. 1) zu verwenden, da es nicht erkannt wurde, mit diesen speziellen Merkmalen die Sprachlaute zu identifizieren. Insbesondere Anspruch 6 der deutschen Patentschrift 11 97 638 beinhaltet zwar die Feststellung der Häufigkeit von »Vorgängen« (z. B. Nulldurchgängen), doch fehlt die Aussage, daß darunter auch die Bestimmung erster und zweiter Maxima fällt ^:;

Um das vorliegende Verfahren technisch ausführen zu können, gibt es verschiedene Möglichkeiten:

Ein Ausführungsbeispiel soll dies näher erläutern. Zur Unterscheidung der gesprochenen Vokale (s. Fig. 1), d. h. ihrer Schallschwingungen, genügt es schon, wenn man z. B. die Anzahl der ersten Maxima (s. F i g. 2 gleich der gestrichelten Kurve in Fig. 1) feststellt und zählt Als weiteres Kriterium braucht man nur noch ^, festzustellen, ob die natürlichen Sprachschwingungen f, viele zweite Maximas bzw. Amplituden haben (s. F i g. 1). Zur Abtrennung der Perioden der gesprochenen Vokale bzw. Laute genügt es schon, die stärkste Amplitude; d. h. das Maximum der Schwingungsmaxima (s. F i g. 3), welches der Grundfrequenz zugeordnet ist, festzustellen.

Mit Hilfe dieser Vokale (dabei ist »o« nicht erforderlich) und nur zweier weiterer Laute kann man z. B. die gesprochenen zehn Ziffern (automatische Ziffernerkennung) eindeutig erkennen, unterscheiden, bestimmen und feststellen.

In Fig.4 ist ein Blockschema für eine mögliche Ausführung eines einfachen Gerätes zur Verwirklichung des genannten Verfahrens dargestellt

Die Schallschwingungen der gesprochenen Laute werden, wie das Blockschaltbild zeigt, in ein Mikrophon M eingesprochen. Über einen Verstärker V werden diese weitergeleitet zu einer Schaltung A, die einen »Buchstabenabtrennimpuls« erzeugt Dies kann durch Verzerren der Grundfrequenz und Differenzieren der daraus entstandenen Impulse geschehen. Es ist auch { ;■; möglich, die stärkste Anfangsamplitude (Fig.3) zu U.'' benutzen. Eine Schaltung zur Erzeugung derartiger Abtrennimpulse ist auch in F i g. 5 gezeigt, auf die weiter unten nochmals Bezug genommen wird. Außerdem gehen die Schwingungen vom Verstärker K aus zu einer Schaltung B, die es ermöglicht, die ersten Maxima (F i g. 2) festzustellen und in Impulse umzuwandeln. Dies kann man einfach durch einen Tiefpaß erreichen. Weiterhin gehen vom Verstärker V die Schwingungen durch eine gewöhnliche Begrenzerstufe C oder ähnliches, die es ermöglicht, die zweiten Maxima (Fig. 1) mit kleinen und nahe beieinanderliegenden Amplituden festzustellen und in Impulse umzuwandeln. Über eine Codiermatrix D werden die gewonnenen Impulse in weiteren Verarbeitungseinrichtungen F wirksam. Als solche kommen z. B. Wählsysteme für Fernsprechvermittlungen in Frage, weitere Anwendungsmöglichkeiten sind die folgenden: Schreiben der gesprochenen Worte mit Hilfe des Geräts auf eine Schreibmaschine, automatisches Diktiergerät, automatische Erkennung der gesprochenen zehn verschiedenen-Ziffern und danach automatische Vornahme von Einstellfunktionen an Automaten, z. B. Vermittlungssy-

stemen, Sprachverständigung mit Gehörlosen, Frequenzbandkompression in Übertragungssystemen, Übersetzen in Fremdsprachen und Sprachforschung.

Wie bereits erwähnt, gibt es verschiedene Möglichkeiten, die »Buchstabenabtrennimpulse« aus der Schwingungsstruktur zu gewinnen. Gemäß einem bereits vorliegenden Vorschlag (deutsche Patentschrift 11 97 638) werden die Einteilungsimpulse dadurch erhalten, daß aufeinanderfolgende Schwingungszüge der Sprachwelle fortgesetzt miteinander verglichen werden, wobei sich aus den so erhaltenen Differenzwerten Umschlagstellen ergeben, an denen die Amplituden oder Frequenzen der Sprachschwingungen, nachdem sie vorher ab- bzw. zunahmen, plötzlich wieder größer bzw. kleiner werden.

Eine relativ einfach Schaltung zur Gewinnung derartiger Abtrennimpulse IP aus der Schwingungs-

struktur besteht gemäß F i g. 5 aus einem Hochpaß 8 und einem Tiefpaß 9, die jeweils an einem Eingang eines Flipflops 10 angeschlossen sind. Es ergeben sich Wiederholungen des Vorganges, daß bei E eingehende niedrige Frequenzen durch das Filter 9 und hohe Frequenzen durch das Filter 8 gelangen, und diese Wiederholungen ermöglichen die genannten Abtrennungen durch Ausgangsimpulse IP des Flipflops 10. In Kombination damit kann man, wie in F i g. 5 dargestellt, eine Reihe von Filtern 11 vorsehen, durch die die Frequenzen ebenfalls laufen, wobei bei jedem Buchstaben einige bestimmte Filter ansprechen. Dies wird durch Flipflops 12 jeweils festgestellt Deren Ausgangsimpulse werden in Speichereinrichtungen 13 registriert, und über Tore 14 können in Abhängigkeit von den Abtrennimpulsen IP die Inhalte der Speicher 13 ausgegeben und miteinander verknüpft werden.

Hierzu 2 Blatt Zeichnungen

Claims

Patentansprüche:

1. Verfahren zur automatischen Erkennung der in Sprachschwingungen enthaltenden Informationen unter Verwendung von die Sprachschwingungen charakterisierenden Struktureinzelheiten, d a durch gekennzeichnet, daß als charakterisierende Struktureinzelheiten erste Maxima (F i g. 2) und zweite Maxima (Fig. 1) des Sprachsignals bestimmt und gemeinsam ausgewertet werden. ι ο

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Anzahl der ersten Maxima und die Anzahl der zweiten Maxima festgestellt und verglichen werden. .

3. Verfahren nach Anspruch 1 und 2, dadurch "is gekennzeichnet, daß die ersten und die zweiten : Maxima in Impulse umgewandelt werden.

4. Verfahren nach Anspruch 1 bis 3, dadurch gekennzeichnet, daß solche erste und zweite Maxima des Sprachsignals gemeinsam ausgewertet werden, die innerhalb von durch Abtrennimpulsen markierten Schwingungsgruppen liegen.

5. Verfahren nach Anspruch 1 bis 4, dadurch gekennzeichnet, daß die ersten und zweiten Maxima mit Hilfe von Filtern bestimmt werden.

6. Verfahren nach Anspruch 1 bis 4, dadurch gekennzeichnet, daß die ersten und zweiten Maxima des Sprachsignals durch Vergleichen von Amplituden mit Schwingungsdauern oder durch Vergleichen von Schwingungsdauern ermittelt werden.