[go: up one dir, main page]

DE2636032B2 - Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal - Google Patents

Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal

Info

Publication number
DE2636032B2
DE2636032B2 DE2636032A DE2636032A DE2636032B2 DE 2636032 B2 DE2636032 B2 DE 2636032B2 DE 2636032 A DE2636032 A DE 2636032A DE 2636032 A DE2636032 A DE 2636032A DE 2636032 B2 DE2636032 B2 DE 2636032B2
Authority
DE
Germany
Prior art keywords
speech
residual value
period
signal
fundamental
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE2636032A
Other languages
English (en)
Other versions
DE2636032C3 (de
DE2636032A1 (de
Inventor
Shinichiro Dipl.-Ing. Koganei Tokio Hashimoto
Nobuhiko Dipl.-Ing. Kodaira Kitawaki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of DE2636032A1 publication Critical patent/DE2636032A1/de
Publication of DE2636032B2 publication Critical patent/DE2636032B2/de
Application granted granted Critical
Publication of DE2636032C3 publication Critical patent/DE2636032C3/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Television Receiver Circuits (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

Die Erfindung betrifft elektrische Schaltungsanordnungen zum Extrahieren der Gns Ischwingungsperiode aus einem Sprachsignal, die einen wirtschaftlichen Aufbau eines Sprachanalysators gestatten. Die Erfindung geht dabei von einer Schaltungsanordnung aus, bei der die Sprachschwingung einem Filter zugeführt wird, dessen Frequenzkennlinie angenähert invers zu derjenigen eines Sprachsignals verläuft, um einen Restwert zu erhalten, bei der ferner ein Autokorrelator einen Autokorrelationskoeffizienten des Restwertes über Zwischenspeicher errechnet, und bei der die Grundschwingungsperiode der Sprache aus der Lage des Maximalwertes des Autokorrelationskoeffizienten erhalten wird.
Zur Erhöhung des Wirkungsgrades der Kommunikation zwischen einem Sprecher und einem Datenübertragungssystem mit Bandkompression oder einem Informationsprozessor ist ein Verfahren zur Sprachanalyse und -synthese entwickelt worden, das in neuen Datenübertragungsanlagen, telefonischen Platzreservierungsanlagen, Auskunftsdiensten in Flughafen und Bahnhöfen praktisch angewendet wird.
Fine Sprachschwingung ist eine Tonschwingung, die von den Lippen oder der Nase ausgeht, wenn Stimmbandschwingungen (bei stimmhafter Quelle) oder Geräuschschwingungen (bei nicht stimmhafter Quelle) als turbulente Strömung durch die Verengung des Stimmtraktes hindurchgehen und in den Stimmtrakt eintreten. Im Falle einer Sprachsynthese wird eine glottale Sprachquelle durch Erregung eines Impulsgenerators erzeugt und eine Quelle für turbulente Laute durch Erregung eines Generators für weißes Rauschen gebildet. Der Stimmtrakt wird mit einem elektrischen Schaltungsäquivalent bezüglich seiner Übertragungsfunktion nachgebildet und der Strahler durch einen Lautsorecher.
Zur Sprachanalyse gehört eine Analyse der Schallquelle zur quantitativen Erfassung der Eigenschaften der Schallquelle, die den angetriebenen Stimmtrakt enthält sowie eine Analyse des Frequenzganges in bestimmten Zeitintervallen (10 bis 30 Millisekunden), den die Übertragungsfunktion des Stimmtraktes aufweist Die Schallquellenanalyse erfordert eine quantitative Extraktion von drei Faktoren, d.h. ven einem Unterscheidungssignal zwischen einem Impulszug
ίο (einem stimmhaften Ton) und einem Rauschen (einem nicht stimmhaften Ton), ferner der Tonhöhe des Impulszuges (des stimmhaften Tones) und der Amplitude des Impulszuges (des stimmhaften Tones) oder des Rauschens (des nicht stimmhaften Tons). Diese Faktoren verändern sich aber mit recht hoher Geschwindigkeit und lassen sich daher nur sehr schwierig genau analysieren. Besonders die Grundschwingungsdauer der Sprache ist selbst im Fall eines stimmhaften Tones sehr schwierig genau zu extrahieren, weil sie nicht streng periodisch verläuft und sich in jedem Augenblick in Übereinstimmung mit der Intonation der Sprache ändert und da sie Störungen durch den Mechanismus der Stimmerzeugung sowie durch den Einfluß der Übertragungscharakteristik des Stimmtraktes unterliegt
Es sind verschiedene Sprachanalyse-Synthesesysteme bekannt, z. B. eine Kurzzeit-Spektralanalyse unter Verwendung einer Bandpaßfiltergruppe sowie einer Formantfrequenzbestimmung mit Hilfe eines Zählverfahrens für die Nulldurchgänge usw. Aus diesen Systemen ist auch ein partielles Autokorrelationssystem (PARCOR) als eins der günstigsten Mittel für die Datenkompression, für die Qualität der synthetischen Sprache und die automatische Extraktion der charakteristischen Sprachparameter bekannt
Wie oben erwähnt wurde, ist bei der Sprachanalyse und -synthese die Grundschwingungsperiode der Sprache einer der drei wichtigen Srtiallquellenparameter. Wenn man diesen Parameter mit dem Parcorsystem extrahiert, wird ein Restwert der Ausgangsgröße eines Analysators zur Erfassung eines Parcorkoeffizienten einem Autokorrelator zugeführt, um den Autokorrelationskoeffizienten zu extrahieren und eine Verzögerungszeit T, welche dem Spitzenwert dieses Koeffizienten entspricht, wird als die Grundschwingungsperiodendauer der Sprache betrachtet.
Auch bei anderen Sprach-Analyse-Synthesesystemen wird eine Sprachschwingung einem Filter zugeführt, das eine inverse Kennlinie des Frequenzganges aufweist, der denjenigen der Sprachschwingung annähen, und die Schwingung am Ausgang des Filters wird als ein Restwert benutzt, um die Grundschwingungsperiode der Sprache mit Hilfe des oben erwähnten Verfahrens zu erhalten.
5) Da jedoch der Restwert ein Signal ist, welches nur ein Merkmal für einen winzigen Bestandteil des Sprachspektrums ist und einen impulsförmigen Verlauf hat, leiden die oben erwähnten Verfahren des Extrahierens an dem Fehler, daß eine doppelte oder halbe Sehwingungsdauer der Grundschwingung unter Umständen irrtümlich extrahiert wird, wenn nicht die Abtastdauer sehr kurz gewählt wird. Wenn ferner der Restwert durch niedrige Bitzahlen dargestellt wird, ist diese Gefahr besonders groß, und eine Quantisierung des Restwertss durch niedrige Bitzahlen ist schwierig.
Der Autokorrelator muß daher ein Element sehr hoher Geschwindigkeit enthalten, da die Arbeitsweise hoher Präzision in einer kurzen Zeit durchgeführt
werden muS. Hierdurch ergeben sich große Schwierigkeiten bei der praktischen Durchführung des Verfahrens.
Bei dem in der US-PS 37 40 476 beschriebenen Verfahren wird ein von einem Tiefpaßfilter abgeleiteter Restwert einer Einweggleichrichtung unterworfen, um nur die positive Komponente zu erhalten und der Spitzenwert in einer bestimmten Periode wird mit Hilfe eines Spitzenwertermittlers ausgewählt, und die sich ergebende Schwingung wird weiteren Verfahren z. B. der Unterdrückung von Komponenten, die niedriger als ein Schwellwert sind, unterworfen, so daß die Grundschwingungsperiode der Sprache extrahiert wird.
In der Zeitschrift IEEE AU-20-5, 1972 ist ein Verfahren zum Extrahieren der Grundschwingung angegeben, bei dem ein Restwert einer 1/5-Abtastung unterworfen wird und dann einem inversen Filter zugeführt wird, um eine Autokorrelation zu berechnen und dadurch die anfallende Rechenarbeit zu reduzieren. Nachdem die Autokorrelation erhalten ist, wird die Verminderung des Auflösungsvermögens -nfolge der Abtastung interpoliert, um die Grundschwingung der Sprache zu extrahieren. Bei diesem Verfahren ist es jedoch notwendig, den gleichen Vorgang wie beim Extrahieren des Parcorkoeffizienten getrennt durchzuführen.
In der Zeitschrift JA.S.A, Band 56, 1974 ist ein Verfahren angegeben, bei dem das Extrahieren der Grundschwingung nach dem Autokorrelationsverfahren mit einer geeigneten Hardware durchgeführt wird. In diesem Fall ist es jedoch notwendig, da der Schwingungsverl2uf der Sprache selbst der zu verarbeitende Gegenstand ist, eine Mittenbegrenzung durchzuführen, um die Formantkonstruktion der Sprache zu unterdrücken.
Aus der DE-OS 22 33 872 ist ein Signalanalysator bekannt, in dem ein Restwert in einem Halbwellengleichrichter gleichgerichtet wird und das gleichgerichtete Signal einem Spitzenabtrenner zugeführt wird. Die Spitzensignale werden einem Schwellwertdetektor zugeleitet, so daß aufgrund des Abstandes zwischen einer Spitze und der nächsten Spitze die Grundfrequenz bestimmt wird. Von dieser Art der Ermittlung wird bei der Erfindung kein Gebrauch gemacht, da die Erfindung auf einer Anordnung beruht, bei de* die Grundfrequenz mit Hilfe einer Korrelationsschaltung ermittelt wird.
In der DE-OS 20 50 512 ist eine Vorrichtung zur Verarbeitung von Ton- bzw. Sprachsignalen beschrieben, bei der der Korrelationskoeffizient aus dem Restwert abgeleitet wird, wobei sich die weiter unten bei der Erläuterung der Fig. 14 beschriebenen Extraktionsfehler ergeben.
Die Parcor-Sprach-Analyse-Synthese-Anordnung, auf die die Erfindung angewendet wird, wird in einem Datenübertragungssystem mit Bandkompression verwendet, wobei auf der Sendeseite die Sprache in Parameter zerlegt wird, welche die Sprache effektiv darstellen und bei der auf der Empfangsseite die ursprüngliche Sprache aufgrund dieser Parameter wieder zusammengesetzt wird.
In den letzten Jahren sind digitale Signalverarbeitungsverfahren dieser Art entwickelt und in die Praxis eingeführt worden. Diese Verarbeitung jedoch ist so kompliziert, daß die Geräte sehr teuer werden. Insbesondere ist der \ufwand für eine SchallqmUenanalysiereinheit sehr groß und z. B. um eine Größenordnung größer als der Aufwand für eine, den Frequenzgang analysierende Einheit. Daher wäre eine Verminderung der Kosten durch Verwendung von LSI unmöglich, selbst wenn man eine weitere Entwicklung der IC-Technik erwarten kann.
Der Erfindung liegt die Aufgabe zugrunde, einen nach wirtschaftlichen Gesichtspunkten ausgebildeten Sprachanalysator zu schaffen. Dabei soll die Grundschwingungsperiode der Sprache derart extrahiert werden, daß unnötige hochfrequente Komponenten, die in einem Restwert enthalten sind, durch ein Tiefpaßfilter unterdrückt werden, um einen Maximalwert des Autokorrelationskoeffizienten in bestimmter Weise zu erfassen, so daß die Grundschwingungsperiode der Sprache genau und stabil extrahiert wird.
Gemäß der Erfindung wird also bei einer elektrischen Schaltungsanordnung der eingangs genannten Art die Anordnung so getroffen, daß zwischen dem Restwertausgang und dem Zwischenspeicher ein Tiefpaßfilter mit einer Grenzfrequenz von 500Hz bis 1000 Hz vorhanden ist, das die Hochfrequenzkomponenten des Restwertes unterdrückt, und daß <ai das Tiefpaßfilter eine Quantelungsvorrichtung angeschlossen ist Die Quantelung wird vorzugsweise mit einer niedrigen Bitzahl durchgeführt, die z. B. den Wert 1 annehmen kann, wobei lediglich das Vorzeichen des Restwertes festgestellt wird und der Autokorrelator den Autokorrelationskoeffizienten lediglich durch Addition berechnet. Hierbei kann eine Vereinfachung der arithmetischen Schaltung erreicht und das Speichervermögen eines Speichers reduziert werden, der den Restwert aufnimmt Die Ansprechgeschwindigkeit der benötigten Bauelemente ist verhältnismäßig niedrig, so daß die Herstellungskosten vermindert werden.
Die Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode eines Sprachsignals gemäß der Erfindung hat den Vorteil, daß die Genauigkeit beim Extrahieren verbessert wird, wodurch die Qualität der synthetischen Sprache in einem Datenübertragungssystem für die Sprache mit Bandkompression oder in einem Audiowiedergabegerät verbessert wird.
Bei einer bevorzugten Ausführungsform der Erfindung werden unnötige Komponenten eines Restwertes der Sprachschwingung, die dem Filter zugeführt worden ist, das eine umgekehrte Frequenzcharakteristik wie das Sprachsignal hat, entfernt, und die Grundschwingungsperiode der Sprache wird aus dem Korrelationskoeffizienten des Restwertes extrahiert.
Bei einer anderen Ausführungsform der Erfindung werden die unnötigen Komponenten, die in dem Restwert enthalten sind, unterdrückt, und die Grundschwingungsperiovle der Sprache wird aus den Korrelationskoeffizienten eines Signals extrahiert, das den durch niedrige Bits gequantelten Restwert darstellt.
Bti iiner weiteren Ausführungsform werden gemäß der Erfindung die unnötigen Komponenten des Restwertes unterdrückt, und dann wird die Grundschwingungsperiode der Sprache aus dem Korrelationskoeffizienten lediglich aufgrund des Vorzeichens des Restwertes extrahiert.
Die Erfindung wird mit der folgenden Beschreibung von Ausführungsbeispielen, die in den Zeichnungen dargestellt sind, näher erläutert.
F i g. 1 zeigt ein Blockschaltbild eines Sprachanalysators mit einem Partialautokorrelator(PARCOR);
F i g. 2 zeigt ein rusführliches Schaltbild des Sprachanalysatorsnach Fig. 1;
F i g. 3 zeigt eine Schaltungsanordnung eines in F i g. 2 verwendeten Korrelationskoeffizientenrechners;
F i g. 4 ist ein Blockschaltbild, das eine übliche
Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode des Sprachsignals darstellt;
F i g. 5 ist ein Diagramm, das den Verlauf einer Korrelationsschwingung darstellt;
F i g. 6 ist ein Blockschaltbild, das die Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode des Sprachsignals gemäß der Erfindung darstellt;
F i g. 7 zeigt ein Ausfuhrungsbeispiel eines digitalen Filters, das in F i g. 6 verwendet wird;
F i g. 8 ist ein Diagramm, das den Schwingungsverlauf eines Restwertes in einem kurzen Zeitabschnitt bei einem bekannten Gerät darstellt;
Fig. 9 ist ein Diagramm des Schwingungsverlaufs eines Korrelationskoeffizienten, wenn der Schwingungsverlauf des Restwertes bei einem bekannten Gerätdurch 12 Bitsgequantelt ist:
Fig. 10 ist ein Diagramm des Schwingungsverlatifs
pinps Knrrp!ationslcnpffi7ipntpn wrnn Hpr Rpstwprt hpi dem bekannten Gerät durch ein Bit (nur durch das Vorzeichen)gequantelt ist:
Fig. Il ist ein Diagramm des Schwingungsverlaufs eines Restwertes, der durch ein Tiefpaßfilter gemäß der Erfindung erhalten wird;
Fig. 12 ist ein Diagramm des Schwingungsverlaufs eines Korrelationskoeffizienten, wenn der Restwert des Tiefpaßfilters durch 12 Bits gemäß der Erfindung gequantelt ist;
Fig. 13 ist ein Diagramm des Schwingungsverlaufs eines Korrelationskoeffizienten, wenn lediglich das Vorzeichen des Restwertes von dem Tiefpaßfilter benutzt wird (durch ein Bit gequantelt) und
Fig. 14 ist eine Tabelle zum Vergleich der Schaltungsanordnung gemäß der Erfindung mit einer bekannten Anordnung, bei der die Zahl der Bits zur Darstellung der restlichen Schwingung und die Fehler der Grundschwingung angegeben sind.
Als Ausgangssignal einer Parcoranalyse eines Sprachsignals ergibt sich ein Restwert. Das Verfahren zum Extrahieren der Grundschwingungsperiode der Sprache aus dem Korrelationskoeffizienten des Restwertes ist eines der am genauesten arbeitenden Verfahren.
Fig. 1 zeigt ein Blockschaltbild einer Schaltungsanordnung, die nach dem Parcorsystem arbeitet.
Die Schaltungsanordnung der F i g. 1 enthält eine üpracfteingangsklemme 1. einen Analog-Digitalumsetzer 2. ein Gerät zum Extrahieren von Partial-Autokorrelations-Koeffizienten (kurz Parcor-Extraktor genannt), eine Anzahl von Partial-Autokorrelatoren 4. eine Anzahl Ausgangsklemmen 5 für die Partial-Autokorrelationskoeffizienten. einen Restwertanschluß 6. einen Extraktor 7 für die Schallquelleninformation, einen Extraktor 8 für die Grundschwingungsperiode des Sprachsignals, eine Ausgangsklemme 9 des Gerätes 8, einen Rechner 10 zur Erfassung der Amplitude des Sprachsignals, eine Ausgangsklemme 11 dieses Geräts, eine Schaltung 12 zur Unterscheidung von stimmhaften und nicht stimmhaftem Schall und eine Ausgangsklemme 13 für dieses Gerät.
Ein der Eingangsklemme 1 zugeführtes Sprachsignal x (t) wird in dem Umsetzer 2 in ein Digitalsignal umgesetzt, mit einer Abtastfrequenz von 8 kHz und durch ein Vorzeichenbit und 11 weitere Bits quantisiert Das Digitalsignal wird dem Parcorextraktor 3 zugeführt.
Der Parcorextraktor 3 enthält etwa 10 Stufen von partialen Autokorrelatoren 4, die in Kaskade geschaltet sind. In jedem Partial-Autokorrelator 4 wird die Korrelation zwischen dicht benachbarten abgetasteten Werten des Sprachsignals als Partial-Autokorrelationskoeffizient Ar, an der Ausgangsklemme 5 geliefert. Die Korrelationskomponenten, die auf diese Weise zwisehen den dicht benachbarten Abtastwerten extrahiert sind, werden aus dem Sprachsignal entfernt, das der nächsten Stufe zugeführt wird.
Wenn dieser Vorgang wiederholt wird, dann sind die Korrelationen zwischen benachbarten abgetasteten Werten des Sprachsignals alle als Partial-Autokorrelationskoeffizienten entfernt, und an der Ausgangsklemme 6 der letzten Partial-Autokorrelatorstufe treten nur Korrelationskoeffizienten zwischen verhältnismäßig weit auseinanderliegenden Schwingungsformen auf. die die Schallquelleninformation der Sprache betreffen. Die Ausgangsgröße des Parcorextraktors an der Klemme 6 wird im folgenden als Restwert ε ^bezeichnet.
Dpr ParrnrpvtraWtnr 3 der F I σ. ! !St im einzelnen ·Π
Fig. 2 dargestellt. Der Korrelationskoeffizientenrechner der F i g. 2 ist im einzelnen in F i g. 3 dargestellt.
Das digitale Signal wird dem Parcorextraktor 3 von dem Analogdigitalumsetzer 2 zugeführt, und in dem ersten Partial-Autokorrelator 4 wird das digitale Signal in zwei Teile geteilt, von denen der eine Teil einem Korrelationskoeffizientenrechner über eine Verzögerungsschaltung zugeführt wird, während der andere Teil dem Rechner direkt zugeleitet wird, um die Korrelation zwischen unmittelbar benachbarten abgetasteten Werten des digitalen Eingangssignals zu erhalten und einen ersten Korrelationskoeffizienten an der Klemme 5 zur Verfügung zu stellen. Nachdem der Korrelationskoeffizient mit dem Digitalsignal multipliziert ist, das einem Multiplikator über die Verzögerungsschaltung zugeführt wird und das digitale Signal direkt einem anderen Multiplikator zugeleitet worden ist, werden die multiplizierten Ausgangsgrößen je einer Addierschaltung zugeführt, um die Differenz zwischen der multiplizierten Ausgangsgröße und dem anderen Digitalsignal zu erhalten, wobei diese Differenz dem nächsten Partial-Autokorrelator 4 zugeleitet wird. In dem nächsten Partial-Autokorrelator 4 werden die Korrelationen zwischen den jeweils anderen Abtastwerten des digitalen Eingangssignals erhalten, um einen zweiten Korrelationskoeffizienten an der Klemme 5 zur Verfügung zu stellen.
Wie aus F i g. 3 hervorgeht, werden in dem Korrelationskoeffizientenrechner die Summe und die Differenz zwischen den bieden digitalen Eingangssignalen erhalten und quadriert. Dann wird die Summe und Differenz noch einmal gebildet und je einem Tiefpaßflter zugeführt, um die Mittelwerte dieser Eingangsgrößen über einen bestimmten Zeitabschnitt zu ermitteln. Die Ausgangsgrößen der Tiefpaßfilter werden dividiert, um das Verhältnis zwischen ihnen zu bilden, so daß der Korreiationskoeffizient an der Klemme 5 zur Verfügung steht
Wenn man auf diese Weise bei jeder Partial-Autokorrelatorstufe 4 vorgeht, dann wird die Größe, weiche dem Korrelationskoeffizienten zwischen abgetasteten Werten entspricht, die dichter beieinander liegen, als diejenigen der Stufe in der unmittelbar vorhergehenden Stufe eliminiert. Auf diese Weise wird das Frequenzspektrum des digitalen Eingangssignals allmählich flacher, und nach etwa 10 Stufen ist es fast ganz flach. Wenn man den Restwert an der Klemme 6 benutzt, kann man die Grundschwingungsperiode r mit Hilfe des Extraktors 8 erhalten.
In entsprechender Weise wird die Schwingung am
Ausgang eines Filters mit einer zur Sprachschwingung inversen Frequenzkennlinie als Restwert bezeichnet. Die folgende Beschreibung bezieht sich auf ein Verfahren, bei dem der Partial-Autokorrelationskoeffizient verwendet wird.
Die Sprachamplitude L wird mit Hilfe des Sprachamplitur^irechners 10 extrahiert, und stimmhafte sowie nicht stimmhafte Schallkoeffizienten V und UV werden mit Hilfe der Unterscheidungsschaltung 12 extrahiert und an den Klemmen 11 und 13 zur Verfügung gestellt.
Die für die Sprache charakteristischen Parameter k, (7=1 bis 10), T, V, UV und L, die auf diese Weise extrahiert wurden, werden quantisiert und mit einer Gruppenperiode von 5 bis 15 Millisekunden übertragen. Auf der Empfangsseite kann die ursprüngliche Sprache durch ein Pariial-Autokorrelationsgerät zur Synthese der Sprache rekonstruier! werden, das durch die genannten Parameter gesteuert wird.
F i g. 4 zeigt im einzelnen ein Ausführungsbeispiel der Schaltungsanordnung 8 zum Extrahieren der Grundschwingungsperiode der Sprache mit bekanntem Aufbau. Die Anordnung enthält einen Speicher 14, einen ähnlichen Speicher 22, einen Autokorrelator 15, einen Maximalwertselektor 16, eine Ausgangsklemme 17 für den Korrelationskoeffizienten des Restwertes und eine Ausgangsklemme 18 für den Maximalwert. Der Restwert wird in dem Speicher 14 gespeichert. Dann wird ein kurzer Zeitabschnitt (etwa 20 bis 40 Millisekunden), der das Doppelte oder Dreifache der Gruni-'schwingungsperiode der Sprache beträgt, ausgeschnitten, und abgetastete Werte eines Ausschnittes werden in dem Speicher 22 festgehalten. Der Korrelationskoeffizient des Restwertes wird durch den Autokorrelator 15 errechnet, da die Grundschwingungsperiode sich als periodische Wiederholung des Maximalwertes ergibt. Dann wird ein Abtastbereich (2 bis 20 Millisekunden) der Grundschwingungsperiode zur Verfügung gestellt und ein Maximalwert des Korrelationskoeffizienten des Restwertes durch den Maximalwertselektor 16 erfaßt. Die Lage des auf diese Weise festgestellten Maximalwertes wird an der Ausgangsklemme 9 als Grundschwingungsperiode der Sprache zur Verfügung gestellt und ihr Wert an der Klemme 18.
Ls folgt nun eine kurze Erläuterung des Verfahrens zum Extrahieren der Grundschwingungsperiode mit Hilfe der Autokorrelation des oben erwähnten periodischen Signals. Der Autokorrelationskoeffizient R (n) eines diskreten Signals ε (t) wird durch die folgende Gleichung ausgedrückt:
1
R(n) = lim—
Wenn das diskrete Signal ε (t) z. B. eine Sinusschwingung ist, dann wird das· Signal ε (t) und der Autokorrelationskoeffizient R (n) durch die folgenden Gleichungen II und III gegeben:
cos (mo,0t + <9J
1 N
R(n) = — "V1 er„ cos m«>on .
(Π)
(III)
Wie aus der Gleichung III hervorgeht, geht die Phaseninformation der Frequenzkomponenten verloren, und die Maximalwerte der betreffenden Komponenten stimmen vollständig miteinander bei einer Periode, die ein ganzzahliges Vielfaches η der Grundschwingungsperiode ist, überein, so daß der Wert des Autokorrelationskoeffizienten R (n) auch seinen Maximalwert darstellt, aber immer kleiner wird als bei anderen Perioden. Infolgedessen kann die Grundschwingungsperiode durch Feststellen des Maximalwertes erhalten werden.
in Wenn in der Praxis die Signalperiode in jedem Augenblick schwankt und die zeitabhängige Veränderung ein wichtiger Parameter ist. wie dies bei der Sprache der Falle ist, ist das unbestimmte Integral der Gleichung I ohne Bedeutung, so daß von einem
|-, Kurzzeitautokorrelationskoeffizientcn nach der folgenden Gleichung IV Gebrauch gemacht wird oder von einem Wert, der durch die Signalleistung nach der folgenden Gleichung V normiert ist.
Kv!")= ' Σ'ί"'ί*ι . CV)
" ι= ι
Fig. 5 ist ein Diagramm, welches schematisch eine solche Korrelationsschwingung zeigt. Die Grundschwingungsperiode r in F i g. 5 hat die Beziehung der Gleichung Vl zu einer Sprachabtastperiode rs:
T=-- ITTS. (VI)
In F i g. 5 bezeichnet das Bezugszeichen 7Ό den Abtastzeitraum des Maximalwertes jeder Frequenz-
j-, komponente.
Auf diese Weise wird bei der bekannten Anordnung der Einfluß des Formanten, der auf der Übertragungseigenschaft des Stimmtraktes beruht, durch die Parcoranalyse eliminiert, und die Grundschwingungsperiode wird mit hoher Genauigkeit extrahiert. Die dabei benötigten Vorgänge sind jedoch kompliziert, und der Aufwand ist groß, so daß sehr schnell arbeitende Elemente für eine Realzeitverarbeitung erforderlich sind und die Kosten des Analysators sich dadurch erhöhen. Die Arbeitsgenauigkeit zur Darstellung des Restwertes erfordert etwa i2 Bits. Wenn z. B. eine kurze Periode von 20 Millisekunden aus dem Sprachsignal ausgeschnitten wird und in ein digitales Signal umgesetzt wird, das durch 12 Bits dargestellt ist und eine Abtastfrequenz von 8 kHz hat und der Autokorrelatioi.skoeffizient (n=0 bis 100) der Gleichung IV berechnet ist, ist es notwendig, das Produkt (etwa 12 Bits χ 12 Bits) 16 OOOmal zu berechnen und die Summe (24 Bits + 24 Bits) in einer kurzen Zeit von 10 Millisekunden 16 OOOmal zu bilden. Die Verwirklichung eines Extrahiergerätes zur Durchführung dieser Vorgänge ist nur möglich, wenn Bauelemente sehr hoher Geschwindigkeit, wie z. B. Schottky TTLs zur Verfügungstehen.
Durch die Erfindung sollen die Schwierigkeiten der bekannten Anordnungen beseitigt werden. Eine Ausführungsform der Erfindung ist als Blockschaltbild in F i g. 6 dargestellt Die Anordnung der Fig.6 enthält eine Eingangsklemme 6 für den Restwert, ein Tiefpaßfilter
b5 13, eine Quantisieranordnung 20, eine Ausgangskiemme 21 für diese Anordnung, einen Speicher 14, einen weiteren Speicher 22 und einen Autokorrelator 15. Ferner ist eine Ausgangsklemme 17 für den Korrelator
vorgesehen, ein Maximalwertselektor 16, eine Ausgangsklemme 9 für die Grundschwingungsperiode der Sprache und eine Ausgangsklemme 18 für den Maximalwert des Korrelationskoeffizienten.
Bei dem Extrahieren der Grundschwingungsperiode der Sprache ist eine Periode von 20 bis 40 Millisekunden, die das zweifache bzw. Dreifache der Grundschwingungsperiode ist, gewöhnlich ein Gegenstand der Analyse, und die Extraktion der Grundschwingungsperiode wird mil einer Verschiebung der Analysenperiode in im Bereich von 5 bis 15 Millisekunden durchgeführt. Es wird nun ein Fall beschrieben, bei dem die Grundschwingungsperiode aus einem Restwert extrahiert wird, der in ein digitales Signal umgewandelt ist, das eine Abtastfrequenz von 8 kHz hat und ein Vorzeichenbit r> und 11 weitere Bits enthält. Es wird weiter angenommen, daß die Länge des in einer Analyse zu ciiiaiysicrcriucn ucrciCiiS i.0 M;iii3CKur;Gcri unc! Dczugücn des abgetasteten Werts 160 beträgt und daß die Grundschwingungsperiode extrahiert wird, wobei der Bereich um 10 Millisekunden und 80 abgetastete Werte verschoben wird.
Der der Eingangsklemme 6 in Zeitintervallen von 125 Mikrosekunden zugeführte Restwert wird dem Tiefpaßfilter 19 zugeführt, um die unnötigen Hochfrequenzkomponenten zu entfernen und dann dem Quantisiergerät 20 zugeleitet. In dem Quantisierer 20 wird das Signal einer Spitzenbegrenzung unterworfen bzw. einer Quantisierung od. dgl., um es durch wenige Bits darzustellen. Das quantisierte Signal, welches 80 so abgetasteten Werten entspricht, wird in dem Speicher 14 gespeichert. Der Speicher 14 hat die Form eines Schieberegisters od. dgl. und eine Kapazität im vorliegenden Fall von 1 Bit χ 80 Worten. Wenn die 80 abgetasteten Werte in den Speicher 14 eingeschrieben sind, wird der Inhalt des Speichers 14 dem nächsten Speicher 22 zugeführt, bevor die nachfolgenden abgetasteten Werte an dem Speicher 14 eintreffen, d. h. vor dem Ablauf von 125 Mikrosekunden, worauf die Einspeicherung der neuen abgetasteten Werte im Speicher 14 beginnt. Der Speicher 22 hat eine Kapazität für die Speicherung der abgetasteten Werte eines Bereiches, und zwar im vorliegenden Beispiel von 1 Bit χ 160 Worten. Die abgetasteten Werte des unmittelbar vorhergehenden Bereiches und die 80 abgetasteten Werte, die neu von dem Speicher 14 übertragen werden, d.h., eine Gesamtzahl von 160 abgetasteten Werten bilden einen Bereich oder Rahmen in dem Speicher 22. Der Speicher 22 ist als Schieberegister od. dgl. ausgebildet. Als nächstes wird in dem Autokorrelator 15 der Autokorrelatorkoeffizient auf eine Verzögerung von etwa der hundertsten Ordnung berechnet. In dem Maximalwertselektor 16 wird die Grundschwingungsperiode der Sprache als die Lage des maximalen Autokorrelationskoeffizienten im Abtastbereich (To) von Verzögerungen der 20. bis 100. Ordnung erfaßt und steht am Ausgangspunkt 9 zur Verfügung. Der Maximalwert des Autokorrelationskoeffizienten kann am Ausgang 18 abgenommen werden.
Da die Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode der Sprache gemäß der Erfindung nach dem oben beschriebenen Beispiel so ausgeführt ist, daß die unnötigen Hochfrequenzkomponenten, die in dem Restwert enthalten sind, durch ein Tiefpaßfilter abgeschnitten werden, ist es möglich, den Maximalwert des Korrelationskoeffizienten des Restwertes War zu erkennen. Infolgedessen ist der am Tiefpaßfilter abgenommene Restwert durch ein niedriges Bit dargestellt, so daß bei Ausnutzung des beschriebenen Effektes die Verarbeitungsvorgänge wesentlich vermindert werden können.
Im Fall der Berechnung der Gleichung IV unter den gleichen Bedingungen, wie beim eben genannten Beispiel, erfordern die Vorgänge des bisher bekannten Verfahrens 16 000 Multiplikationen von 12 Bits χ 12 Bits und 16 000 Additionen von 24 Bits + 24 Bits in 10 Millisekunden. Jedoch wird bei Ausführung nach der Erfindung nur eine Zahl von 16 000 Additionen von 1 Bit erforderlich, so daß es sich um eine erhebliche Einsparung handelt. Bei dem bekannten Verfahren mußte der Speicher 14 eine Speicherkapazität von 12 Bits χ 80 Worten haben und der Speicher 22 eine Speicherkapazität von 12 Bits χ 160 Worten. BH Anwendung der Erfindung ist die erforderliche Speicherkapazität dieser Speicher nur 1 Bit χ 80 u/Qyiorj κζ.Λ/ ι η;; ;.; jgn V/rjrion Hierdurch ergeben sich beträchtliche Einsparungen bezüglich der Schaltungsausführung. Die Anordnung der bekannten Art zum Extrahieren der Grundschwingungsperiode benötigte etwa 10 000 Tore, jedoch kommt man bei der Schaltungsanordnung gemäß der Erfindung mit etwa 2000 Toren aus, d. h., der Schaltungsaufwand beträgt nur 1/5. Auch die Ansprechzeit der Elemente beträgt nur 1/5 derjenigen bei den bekannten Extraktoren, so daß bei der bekannten Schaltungsanordnung die Verwendung von Schottky TTL-Transistoren erforderlich ist, während bei der Schaltungsanordnung gemäß der Erfindung mit MOS-Elementen gearbeitet wird. Die Schaltungsanordnung gemäß der Erfindung kann daher mit LSI durchgeführt werden.
Das in Fig. 6 dargestellte Tiefpaßfilter 19 kann ein digitales Filter sein, das beispielsweise in F i g. 7 dargestellt ist.
Das digitale Filter enthält als Hauptschaltungskomponente eine digitale Addierschaltung, einen Multiplikator und ein Verzögerungselement zur Durchführung der Operationen, die durch die folgende lineare Differentialgleichung mit konstantem Koeffizienten gegeben sind.
y(nT) = 2αμχ{(η - r,)T\ b,y{(n - ,)T), (VI!)
wobei χ (nT) und y(nT) Eingangs- und Ausgangssignalreihen sind und a* und b, reelle Zahlen sind.
F i g. 7 zeigt ein Rekursivfilter erster Ordnung. Wenn eine Größe χ der Eingangsklemme zugeführt wird, werden die Eingangs- und Ausgangsgrößen eines Multiplikators durch eine Addierschaltung voneinander abgezogen, so daß sich die resultierende Differenz als Ausgangssignal am Ausgang der Schaltung ergibt. Gleichzeitig wird diese Differenz einer Verzögerungsschaltung zugeführt und einem Multiplikator mit dem Faktor a, so daß sich eine Ausgangsgröße ax ergibt, die der Addierschaltung zur Subtraktion mit dem nächsten Eingangssignal zugeleitet wird. Danach wird dieser Vorgang wiederholt Wenn man das obige Filter als ein lineares System betrachtet, nehmen die Ausgangswerte mit dem Koeffizienten a des Multiplikators ab und werden schließlich Null in dem Bereich von \ a\ < 1. Im Fall eines nichtlinearen Systems konvergiert der Ausgangswert nach Null nur in dem Bereich von I a I < 03, und bei anderen Werten ist das System unstabil.
In der erfindungsgemäßen Anordnung ist jedoch die Ausbildung des digitalen Filters nicht so wichtig, und ein Filter so einfachen Aufbaus wie das in F i g. 7
dargestellte genügt, solange die Grenzfrequenz im Bereich von 500 bis 1000 Hz liegt.
In den Fig. 8 bis 14 wird die Erfindung mit den bekannten Verfahren verglichen. F i g. 8 aeigt den Schwingungsverlauf eines Restwertes mit einer Länge von 20 Millisekunden, und Fig.9 und 10 zeigen verschiedene Schwingungsverläufe für den Korrelationskoeffizienten bei einem bekannten Verfahren, wenn der Restwert nach Fig.8 mit 12 Bits bzw. 1 Bit gequantelt wird. F i g. 11 zeigt den Schwingiingsverlauf. wenn das Restsignal einem digitalen Filter mit einer Grenzfrequenz von 500 Hz zugeführt wird und Fig. 12 und 13 zeigen den Verlauf des Korrelationskoeffizienten gemäß der Erfindung, wenn die Schwingung nach Fig. 11 mit 12 Bitsund 1 Bit (nur dem Vorzeichen nach) quantisiert wird. Die Schwingungsverläufe der F i g. 8 und 11, 9 und 12 sowie 10 und 13 entsprechen dabei pinanHpr
Wenn bei dem bekannten System der Schwingungsverlauf dui h 12 Bits nach Fig. 9 dargestellt wird, kann man Maximalwerte des Korrelationskoeffizienten erkennen. Wenn jedoch der Restwert mit einer niedrigen Bitzahl (1 Bit) nach Fig. 10 dargestellt wird, kann ein zweiter Maximalwert bei diesem Beispiel nicht erkannt werden, so daß fälschlicherweise eine Periode extrahiert wird, die dem doppelten der Grundschwingungsperiode entspricht.
Andrerseits hat gemäß der Erfindung ein quantisiertes Rauschen die gleiche Periode wie ein periodisches Signal, so daß beim Extrahieren der Grundschwingungsperiode die Quantisierung des Signals nicht wesentlich ist. Wie sich aus Fig. 13 ergibt, ist es möglich, die Grundschwingungsperiode mit genügender Genauigkeit aus dem Korrelationskoeffizienten lediglich aus dem Vorzeichen des Restwertes zu bestimmen, nachdem dieser dem Tiefpaßfilter zugeführt ist.
Um die Betriebsgenauigkeit zu erhalten, die für den in F i g. 6 gezeigten Quantisiercr (einen D-D-Umsetzer) zu bestimmen, wurde die Grundschwingungsperiode der Sprache mit einer Schaltungsanordnung gemäß der Erfindung ermittelt, wobei die Stimmen von 3 Frauen beim Ablesen eines Textes für etwa 3,5 Sekunden zugrunde gelegt wurde. In Fig. 14 sind Fehlerwerte bei der Extraktion von Grundschwingungsperioden dargestellt, wobei eine Betriebsgenauigkeit von 12 bis 1 Bit verwendet wurde, und zwar in Prozent der Zahl sämtlicher Bereiche in der Sprachperiode. Fig. 14 zeigt, daß der Fehler etwa 10% bei dem üblichen Verfahren der Extraktion betrug, jedoch weniger als 1% bei der Schaltungsanordnung gemäß der Erfindung. Sogar im
ίο Fall der Korrelation mit einem Bit (lediglich mit dem Vorzeichen) wurde eine ausreichende Präzision erhalten.
Die obige Beschreibung wurde im Zusammenhang mit einem System der Sprachanalyse gegeben, bei dem
υ eine Sprachschwingungsform dargestellt wird, wobei ein Partialautokorrelationskoeffizient als Parameter benutzt wird. Es ist jedoch klar, daß die Erfindung auch auf einen Restwert einer Sprachschwingung anwendbar ist, der von einem Filter abgeleitet wird, das eine inverse Kennlinie des Frequenzganges im Vergleich mit der Sprachschwingung hat.
Wie oben angegeben, kann gemäß der Erfindung ein Maximalwert des Korrelationskoeffizienten eines Restwertes deutlich erfaßt werden, indem der Restwert
r> einem Tiefpaßfilter zugeführt wird, so daß die Grundschwingungsperiode der Sprache genau und stetig extrahiert werden kann. Besonders da die Korrelation lediglich des Vorzeichens eines Signals zur Extraktion genügt, brauchen nur Addiervorgänge
jo durchgeführt zu werden, während bei dem bekannten Verfahren Multiplikationen und additive Operationen erforderlich sind. Die Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode gemäß der Erfindung ist daher wesentlich einfacher als die
j) bekannten Geräte. Außerdem kann die Genauigkeit der Bestimmung der Grundschwingungsperiode der Sprache in der oben beschriebenen Weise verbessert werden, so daß die Qualität der synthetischen Sprache bei der Übertragung der Sprache mit Bandkompression oder bei der Wiedergabe im Hörbereich wesentlich verbessert wird.
Hierzu 7 Blatt Zeichnunsen

Claims (2)

  1. Patentansprüche:
    !. Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal, bei der die Sprachschwingung einem Filter zugeführt wird, dessen Frequenzkennlinie angenähert invers zu derjenigen eines Sprachsignals verläuft, um einen Restwert zu erhalten, bei der ferner ein Autokorrelator einen Autokorrelationskoeffizienten des Restwertes über Zwischenspeicher errechnet und bei der die Grundschwingungsperiode der Sprache aus der Lage des Maximalwertes des Autokorrelationskoeffizienten erhalten wird, dadurch gekennzeichnet, daß zwischen dem Restwertausgang (6) und dem Zwischenspeicher (14) ein Tiefpaßfilter (19) mit einer Grenzfrequenz von 500 Hz bis 1000 Hz vorhanden ist das die Hochfrequenzkomnonenten des Restwerts unterdrückt, und daß an dss Tiefpaßfilter (19) eine Quantelungsvorrichtung (20) angeschlossen ist
  2. 2. Elektrische Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet daß die Quantelungsvorrichtung (20) mit so niedriger Bitzahl arbeitet (z. B. 1 Bit), daß lediglich das Vorzeichen des Reitwertes festgestellt wird, und daß der Autokorrelator den Autokorrelationskoeffizienten lediglich durch Addition berechnet
DE2636032A 1975-08-22 1976-08-11 Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal Expired DE2636032C3 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP50102473A JPS6051720B2 (ja) 1975-08-22 1975-08-22 音声の基本周期抽出装置

Publications (3)

Publication Number Publication Date
DE2636032A1 DE2636032A1 (de) 1977-02-24
DE2636032B2 true DE2636032B2 (de) 1979-05-10
DE2636032C3 DE2636032C3 (de) 1984-07-19

Family

ID=14328408

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2636032A Expired DE2636032C3 (de) 1975-08-22 1976-08-11 Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal

Country Status (6)

Country Link
US (1) US4081605A (de)
JP (1) JPS6051720B2 (de)
CA (1) CA1061906A (de)
DE (1) DE2636032C3 (de)
FR (1) FR2321738A1 (de)
GB (1) GB1555254A (de)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS597120B2 (ja) * 1978-11-24 1984-02-16 日本電気株式会社 音声分析装置
US4220819A (en) * 1979-03-30 1980-09-02 Bell Telephone Laboratories, Incorporated Residual excited predictive speech coding system
JPS5857758B2 (ja) * 1979-09-28 1983-12-21 株式会社日立製作所 音声ピッチ周期抽出装置
JPS58143394A (ja) * 1982-02-19 1983-08-25 株式会社日立製作所 音声区間の検出・分類方式
US4486900A (en) * 1982-03-30 1984-12-04 At&T Bell Laboratories Real time pitch detection by stream processing
US4561102A (en) * 1982-09-20 1985-12-24 At&T Bell Laboratories Pitch detector for speech analysis
US4731846A (en) * 1983-04-13 1988-03-15 Texas Instruments Incorporated Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
JPS61134000A (ja) * 1984-12-05 1986-06-21 株式会社日立製作所 音声分析合成方式
JPH0690638B2 (ja) * 1986-06-25 1994-11-14 松下電工株式会社 音声分析方式
US4980917A (en) * 1987-11-18 1990-12-25 Emerson & Stern Associates, Inc. Method and apparatus for determining articulatory parameters from speech data
FR2670313A1 (fr) * 1990-12-11 1992-06-12 Thomson Csf Procede et dispositif pour l'evaluation de la periodicite et du voisement du signal de parole dans les vocodeurs a tres bas debit.
US5715365A (en) * 1994-04-04 1998-02-03 Digital Voice Systems, Inc. Estimation of excitation parameters
DE19616103A1 (de) * 1996-04-23 1997-10-30 Philips Patentverwaltung Verfahren zum Ableiten charakteristischer Werte aus einem Sprachsignal
AU2001258298A1 (en) * 2000-04-06 2001-10-23 Telefonaktiebolaget Lm Ericsson (Publ) Pitch estimation in speech signal
AU2001273904A1 (en) * 2000-04-06 2001-10-23 Telefonaktiebolaget Lm Ericsson (Publ) Estimating the pitch of a speech signal using a binary signal
JP3827317B2 (ja) * 2004-06-03 2006-09-27 任天堂株式会社 コマンド処理装置
JP4935280B2 (ja) * 2006-09-29 2012-05-23 カシオ計算機株式会社 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム
TWI728632B (zh) * 2019-12-31 2021-05-21 財團法人工業技術研究院 特定音源的定位方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3662115A (en) * 1970-02-07 1972-05-09 Nippon Telegraph & Telephone Audio response apparatus using partial autocorrelation techniques
US3740476A (en) * 1971-07-09 1973-06-19 Bell Telephone Labor Inc Speech signal pitch detector using prediction error data
US3975587A (en) * 1974-09-13 1976-08-17 International Telephone And Telegraph Corporation Digital vocoder

Also Published As

Publication number Publication date
DE2636032C3 (de) 1984-07-19
CA1061906A (en) 1979-09-04
DE2636032A1 (de) 1977-02-24
JPS5226107A (en) 1977-02-26
GB1555254A (en) 1979-11-07
JPS6051720B2 (ja) 1985-11-15
US4081605A (en) 1978-03-28
FR2321738A1 (fr) 1977-03-18
FR2321738B1 (de) 1979-09-28

Similar Documents

Publication Publication Date Title
DE2636032C3 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
DE69901606T2 (de) Breitbandsprachsynthese von schmalbandigen sprachsignalen
DE69417445T2 (de) Verfahren und system zur detektion und erzeugung von übergangsbedingungen in tonsignalen
DE2919085C2 (de) Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung
DE69529356T2 (de) Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile
DE2233872C2 (de) Verfahren zur Bestimmung der Grundwellenperiode eines Sprachsignals
DE69619284T2 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
DE69121312T2 (de) Geräuschsignalvorhersagevorrichtung
DE60303214T2 (de) Verfahren zur reduzierung von aliasing-störungen, die durch die anpassung der spektralen hüllkurve in realwertfilterbanken verursacht werden
DE2626793C3 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
DE3101851C2 (de) Vorrichtung zum Erkennen von Sprache
DE69329511T2 (de) Verfahren und Einrichtung zum Unterscheiden zwischen stimmhaften und stimmlosen Lauten
DE3510660C2 (de)
DE3012771C2 (de)
DE3236834A1 (de) Verfahren und geraet zur sprachanalyse
DE10030105A1 (de) Spracherkennungseinrichtung
DE69720134T2 (de) Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten
DE69616724T2 (de) Verfahren und System für die Spracherkennung
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE69017842T2 (de) Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate.
DE2622423A1 (de) Vocodersystem
DE69706650T2 (de) System und verfahren zur fehlerkorrektur in einer auf korrelation basierenden grundfrequenzschätzvorrichtung
DE69411817T2 (de) Verfahren und vorrichtung zur kodierung/dekodierung von hintergrundgeräuschen
DE4491015C2 (de) Verfahren zum Erzeugen eines Spektralrauschbewertungsfilters zur Verwendung in einem Sprachcoder
DE69611607T2 (de) Quantisierung einer aufgeteilten vorhersagematrix mit spektralparametern zur wirksamen sprachkodierung

Legal Events

Date Code Title Description
C3 Grant after two publication steps (3rd publication)
8327 Change in the person/name/address of the patent owner

Owner name: NIPPON TELEGRAPH AND TELEPHONE CORP., TOKIO/TOKYO,

8328 Change in the person/name/address of the agent

Free format text: REICHEL, W., DIPL.-ING. LIPPERT, H., DIPL.-ING., PAT.-ANW., 6000 FRANKFURT

8339 Ceased/non-payment of the annual fee