DE2636032B2 - Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal - Google Patents
Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem SprachsignalInfo
- Publication number
- DE2636032B2 DE2636032B2 DE2636032A DE2636032A DE2636032B2 DE 2636032 B2 DE2636032 B2 DE 2636032B2 DE 2636032 A DE2636032 A DE 2636032A DE 2636032 A DE2636032 A DE 2636032A DE 2636032 B2 DE2636032 B2 DE 2636032B2
- Authority
- DE
- Germany
- Prior art keywords
- speech
- residual value
- period
- signal
- fundamental
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010355 oscillation Effects 0.000 title claims description 25
- 238000013139 quantization Methods 0.000 claims description 7
- 238000000034 method Methods 0.000 description 23
- 238000004458 analytical method Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 238000000605 extraction Methods 0.000 description 11
- 238000005070 sampling Methods 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 7
- 230000001755 vocal effect Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 230000000737 periodic effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000007792 addition Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 208000019300 CLIPPERS Diseases 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 208000021930 chronic lymphocytic inflammation with pontine perivascular enhancement responsive to steroids Diseases 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000004304 visual acuity Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Time-Division Multiplex Systems (AREA)
- Television Receiver Circuits (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
Die Erfindung betrifft elektrische Schaltungsanordnungen
zum Extrahieren der Gns Ischwingungsperiode
aus einem Sprachsignal, die einen wirtschaftlichen Aufbau eines Sprachanalysators gestatten. Die Erfindung
geht dabei von einer Schaltungsanordnung aus, bei der die Sprachschwingung einem Filter zugeführt wird,
dessen Frequenzkennlinie angenähert invers zu derjenigen eines Sprachsignals verläuft, um einen Restwert zu
erhalten, bei der ferner ein Autokorrelator einen Autokorrelationskoeffizienten des Restwertes über
Zwischenspeicher errechnet, und bei der die Grundschwingungsperiode der Sprache aus der Lage des
Maximalwertes des Autokorrelationskoeffizienten erhalten wird.
Zur Erhöhung des Wirkungsgrades der Kommunikation zwischen einem Sprecher und einem Datenübertragungssystem
mit Bandkompression oder einem Informationsprozessor ist ein Verfahren zur Sprachanalyse
und -synthese entwickelt worden, das in neuen Datenübertragungsanlagen, telefonischen Platzreservierungsanlagen,
Auskunftsdiensten in Flughafen und Bahnhöfen praktisch angewendet wird.
Fine Sprachschwingung ist eine Tonschwingung, die von den Lippen oder der Nase ausgeht, wenn
Stimmbandschwingungen (bei stimmhafter Quelle) oder Geräuschschwingungen (bei nicht stimmhafter Quelle)
als turbulente Strömung durch die Verengung des Stimmtraktes hindurchgehen und in den Stimmtrakt
eintreten. Im Falle einer Sprachsynthese wird eine glottale Sprachquelle durch Erregung eines Impulsgenerators
erzeugt und eine Quelle für turbulente Laute durch Erregung eines Generators für weißes Rauschen
gebildet. Der Stimmtrakt wird mit einem elektrischen Schaltungsäquivalent bezüglich seiner Übertragungsfunktion
nachgebildet und der Strahler durch einen Lautsorecher.
Zur Sprachanalyse gehört eine Analyse der Schallquelle zur quantitativen Erfassung der Eigenschaften
der Schallquelle, die den angetriebenen Stimmtrakt enthält sowie eine Analyse des Frequenzganges in
bestimmten Zeitintervallen (10 bis 30 Millisekunden), den die Übertragungsfunktion des Stimmtraktes aufweist
Die Schallquellenanalyse erfordert eine quantitative Extraktion von drei Faktoren, d.h. ven einem
Unterscheidungssignal zwischen einem Impulszug
ίο (einem stimmhaften Ton) und einem Rauschen (einem
nicht stimmhaften Ton), ferner der Tonhöhe des Impulszuges (des stimmhaften Tones) und der Amplitude
des Impulszuges (des stimmhaften Tones) oder des Rauschens (des nicht stimmhaften Tons). Diese Faktoren
verändern sich aber mit recht hoher Geschwindigkeit und lassen sich daher nur sehr schwierig genau
analysieren. Besonders die Grundschwingungsdauer der Sprache ist selbst im Fall eines stimmhaften Tones sehr
schwierig genau zu extrahieren, weil sie nicht streng periodisch verläuft und sich in jedem Augenblick in
Übereinstimmung mit der Intonation der Sprache ändert und da sie Störungen durch den Mechanismus
der Stimmerzeugung sowie durch den Einfluß der Übertragungscharakteristik des Stimmtraktes unterliegt
Es sind verschiedene Sprachanalyse-Synthesesysteme bekannt, z. B. eine Kurzzeit-Spektralanalyse unter
Verwendung einer Bandpaßfiltergruppe sowie einer Formantfrequenzbestimmung mit Hilfe eines Zählverfahrens
für die Nulldurchgänge usw. Aus diesen Systemen ist auch ein partielles Autokorrelationssystem
(PARCOR) als eins der günstigsten Mittel für die Datenkompression, für die Qualität der synthetischen
Sprache und die automatische Extraktion der charakteristischen Sprachparameter bekannt
Wie oben erwähnt wurde, ist bei der Sprachanalyse und -synthese die Grundschwingungsperiode der
Sprache einer der drei wichtigen Srtiallquellenparameter.
Wenn man diesen Parameter mit dem Parcorsystem extrahiert, wird ein Restwert der Ausgangsgröße eines
Analysators zur Erfassung eines Parcorkoeffizienten einem Autokorrelator zugeführt, um den Autokorrelationskoeffizienten
zu extrahieren und eine Verzögerungszeit T, welche dem Spitzenwert dieses Koeffizienten
entspricht, wird als die Grundschwingungsperiodendauer der Sprache betrachtet.
Auch bei anderen Sprach-Analyse-Synthesesystemen wird eine Sprachschwingung einem Filter zugeführt, das
eine inverse Kennlinie des Frequenzganges aufweist, der denjenigen der Sprachschwingung annähen, und die
Schwingung am Ausgang des Filters wird als ein Restwert benutzt, um die Grundschwingungsperiode
der Sprache mit Hilfe des oben erwähnten Verfahrens zu erhalten.
5) Da jedoch der Restwert ein Signal ist, welches nur ein
Merkmal für einen winzigen Bestandteil des Sprachspektrums ist und einen impulsförmigen Verlauf hat,
leiden die oben erwähnten Verfahren des Extrahierens an dem Fehler, daß eine doppelte oder halbe
Sehwingungsdauer der Grundschwingung unter Umständen irrtümlich extrahiert wird, wenn nicht die
Abtastdauer sehr kurz gewählt wird. Wenn ferner der Restwert durch niedrige Bitzahlen dargestellt wird, ist
diese Gefahr besonders groß, und eine Quantisierung des Restwertss durch niedrige Bitzahlen ist schwierig.
Der Autokorrelator muß daher ein Element sehr hoher Geschwindigkeit enthalten, da die Arbeitsweise
hoher Präzision in einer kurzen Zeit durchgeführt
werden muS. Hierdurch ergeben sich große Schwierigkeiten
bei der praktischen Durchführung des Verfahrens.
Bei dem in der US-PS 37 40 476 beschriebenen Verfahren wird ein von einem Tiefpaßfilter abgeleiteter
Restwert einer Einweggleichrichtung unterworfen, um nur die positive Komponente zu erhalten und der
Spitzenwert in einer bestimmten Periode wird mit Hilfe eines Spitzenwertermittlers ausgewählt, und die sich
ergebende Schwingung wird weiteren Verfahren z. B. der Unterdrückung von Komponenten, die niedriger als
ein Schwellwert sind, unterworfen, so daß die Grundschwingungsperiode der Sprache extrahiert wird.
In der Zeitschrift IEEE AU-20-5, 1972 ist ein Verfahren zum Extrahieren der Grundschwingung
angegeben, bei dem ein Restwert einer 1/5-Abtastung unterworfen wird und dann einem inversen Filter
zugeführt wird, um eine Autokorrelation zu berechnen und dadurch die anfallende Rechenarbeit zu reduzieren.
Nachdem die Autokorrelation erhalten ist, wird die Verminderung des Auflösungsvermögens -nfolge der
Abtastung interpoliert, um die Grundschwingung der Sprache zu extrahieren. Bei diesem Verfahren ist es
jedoch notwendig, den gleichen Vorgang wie beim Extrahieren des Parcorkoeffizienten getrennt durchzuführen.
In der Zeitschrift JA.S.A, Band 56, 1974 ist ein
Verfahren angegeben, bei dem das Extrahieren der Grundschwingung nach dem Autokorrelationsverfahren
mit einer geeigneten Hardware durchgeführt wird. In diesem Fall ist es jedoch notwendig, da der
Schwingungsverl2uf der Sprache selbst der zu verarbeitende Gegenstand ist, eine Mittenbegrenzung durchzuführen,
um die Formantkonstruktion der Sprache zu unterdrücken.
Aus der DE-OS 22 33 872 ist ein Signalanalysator
bekannt, in dem ein Restwert in einem Halbwellengleichrichter
gleichgerichtet wird und das gleichgerichtete Signal einem Spitzenabtrenner zugeführt wird. Die
Spitzensignale werden einem Schwellwertdetektor zugeleitet, so daß aufgrund des Abstandes zwischen
einer Spitze und der nächsten Spitze die Grundfrequenz bestimmt wird. Von dieser Art der Ermittlung wird bei
der Erfindung kein Gebrauch gemacht, da die Erfindung auf einer Anordnung beruht, bei de* die Grundfrequenz
mit Hilfe einer Korrelationsschaltung ermittelt wird.
In der DE-OS 20 50 512 ist eine Vorrichtung zur Verarbeitung von Ton- bzw. Sprachsignalen beschrieben,
bei der der Korrelationskoeffizient aus dem Restwert abgeleitet wird, wobei sich die weiter unten
bei der Erläuterung der Fig. 14 beschriebenen Extraktionsfehler ergeben.
Die Parcor-Sprach-Analyse-Synthese-Anordnung, auf die die Erfindung angewendet wird, wird in einem
Datenübertragungssystem mit Bandkompression verwendet, wobei auf der Sendeseite die Sprache in
Parameter zerlegt wird, welche die Sprache effektiv darstellen und bei der auf der Empfangsseite die
ursprüngliche Sprache aufgrund dieser Parameter wieder zusammengesetzt wird.
In den letzten Jahren sind digitale Signalverarbeitungsverfahren
dieser Art entwickelt und in die Praxis eingeführt worden. Diese Verarbeitung jedoch ist so
kompliziert, daß die Geräte sehr teuer werden. Insbesondere ist der \ufwand für eine SchallqmUenanalysiereinheit
sehr groß und z. B. um eine Größenordnung größer als der Aufwand für eine, den Frequenzgang
analysierende Einheit. Daher wäre eine Verminderung der Kosten durch Verwendung von LSI unmöglich,
selbst wenn man eine weitere Entwicklung der IC-Technik erwarten kann.
Der Erfindung liegt die Aufgabe zugrunde, einen nach
wirtschaftlichen Gesichtspunkten ausgebildeten Sprachanalysator zu schaffen. Dabei soll die Grundschwingungsperiode
der Sprache derart extrahiert werden, daß unnötige hochfrequente Komponenten, die in
einem Restwert enthalten sind, durch ein Tiefpaßfilter unterdrückt werden, um einen Maximalwert des
Autokorrelationskoeffizienten in bestimmter Weise zu erfassen, so daß die Grundschwingungsperiode der
Sprache genau und stabil extrahiert wird.
Gemäß der Erfindung wird also bei einer elektrischen
Schaltungsanordnung der eingangs genannten Art die Anordnung so getroffen, daß zwischen dem Restwertausgang
und dem Zwischenspeicher ein Tiefpaßfilter mit einer Grenzfrequenz von 500Hz bis 1000 Hz
vorhanden ist, das die Hochfrequenzkomponenten des Restwertes unterdrückt, und daß <ai das Tiefpaßfilter
eine Quantelungsvorrichtung angeschlossen ist Die Quantelung wird vorzugsweise mit einer niedrigen
Bitzahl durchgeführt, die z. B. den Wert 1 annehmen kann, wobei lediglich das Vorzeichen des Restwertes
festgestellt wird und der Autokorrelator den Autokorrelationskoeffizienten
lediglich durch Addition berechnet. Hierbei kann eine Vereinfachung der arithmetischen
Schaltung erreicht und das Speichervermögen eines Speichers reduziert werden, der den Restwert
aufnimmt Die Ansprechgeschwindigkeit der benötigten Bauelemente ist verhältnismäßig niedrig, so daß die
Herstellungskosten vermindert werden.
Die Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode eines Sprachsignals gemäß
der Erfindung hat den Vorteil, daß die Genauigkeit beim Extrahieren verbessert wird, wodurch die Qualität der
synthetischen Sprache in einem Datenübertragungssystem für die Sprache mit Bandkompression oder in
einem Audiowiedergabegerät verbessert wird.
Bei einer bevorzugten Ausführungsform der Erfindung werden unnötige Komponenten eines Restwertes
der Sprachschwingung, die dem Filter zugeführt worden ist, das eine umgekehrte Frequenzcharakteristik wie das
Sprachsignal hat, entfernt, und die Grundschwingungsperiode der Sprache wird aus dem Korrelationskoeffizienten
des Restwertes extrahiert.
Bei einer anderen Ausführungsform der Erfindung werden die unnötigen Komponenten, die in dem
Restwert enthalten sind, unterdrückt, und die Grundschwingungsperiovle der Sprache wird aus den Korrelationskoeffizienten
eines Signals extrahiert, das den durch niedrige Bits gequantelten Restwert darstellt.
Bti iiner weiteren Ausführungsform werden gemäß
der Erfindung die unnötigen Komponenten des Restwertes unterdrückt, und dann wird die Grundschwingungsperiode
der Sprache aus dem Korrelationskoeffizienten lediglich aufgrund des Vorzeichens des
Restwertes extrahiert.
Die Erfindung wird mit der folgenden Beschreibung von Ausführungsbeispielen, die in den Zeichnungen
dargestellt sind, näher erläutert.
F i g. 1 zeigt ein Blockschaltbild eines Sprachanalysators mit einem Partialautokorrelator(PARCOR);
F i g. 2 zeigt ein rusführliches Schaltbild des Sprachanalysatorsnach
Fig. 1;
F i g. 3 zeigt eine Schaltungsanordnung eines in F i g. 2 verwendeten Korrelationskoeffizientenrechners;
F i g. 4 ist ein Blockschaltbild, das eine übliche
Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode des Sprachsignals darstellt;
F i g. 5 ist ein Diagramm, das den Verlauf einer Korrelationsschwingung darstellt;
F i g. 6 ist ein Blockschaltbild, das die Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode des Sprachsignals gemäß der Erfindung darstellt;
F i g. 7 zeigt ein Ausfuhrungsbeispiel eines digitalen Filters, das in F i g. 6 verwendet wird;
F i g. 8 ist ein Diagramm, das den Schwingungsverlauf
eines Restwertes in einem kurzen Zeitabschnitt bei einem bekannten Gerät darstellt;
Fig. 9 ist ein Diagramm des Schwingungsverlaufs eines Korrelationskoeffizienten, wenn der Schwingungsverlauf
des Restwertes bei einem bekannten Gerätdurch 12 Bitsgequantelt ist:
Fig. 10 ist ein Diagramm des Schwingungsverlatifs
pinps Knrrp!ationslcnpffi7ipntpn wrnn Hpr Rpstwprt hpi
dem bekannten Gerät durch ein Bit (nur durch das Vorzeichen)gequantelt ist:
Fig. Il ist ein Diagramm des Schwingungsverlaufs eines Restwertes, der durch ein Tiefpaßfilter gemäß der
Erfindung erhalten wird;
Fig. 12 ist ein Diagramm des Schwingungsverlaufs
eines Korrelationskoeffizienten, wenn der Restwert des Tiefpaßfilters durch 12 Bits gemäß der Erfindung
gequantelt ist;
Fig. 13 ist ein Diagramm des Schwingungsverlaufs
eines Korrelationskoeffizienten, wenn lediglich das Vorzeichen des Restwertes von dem Tiefpaßfilter
benutzt wird (durch ein Bit gequantelt) und
Fig. 14 ist eine Tabelle zum Vergleich der Schaltungsanordnung
gemäß der Erfindung mit einer bekannten Anordnung, bei der die Zahl der Bits zur
Darstellung der restlichen Schwingung und die Fehler der Grundschwingung angegeben sind.
Als Ausgangssignal einer Parcoranalyse eines Sprachsignals ergibt sich ein Restwert. Das Verfahren
zum Extrahieren der Grundschwingungsperiode der Sprache aus dem Korrelationskoeffizienten des Restwertes ist eines der am genauesten arbeitenden
Verfahren.
Fig. 1 zeigt ein Blockschaltbild einer Schaltungsanordnung,
die nach dem Parcorsystem arbeitet.
Die Schaltungsanordnung der F i g. 1 enthält eine üpracfteingangsklemme 1. einen Analog-Digitalumsetzer
2. ein Gerät zum Extrahieren von Partial-Autokorrelations-Koeffizienten (kurz Parcor-Extraktor genannt),
eine Anzahl von Partial-Autokorrelatoren 4. eine Anzahl Ausgangsklemmen 5 für die Partial-Autokorrelationskoeffizienten.
einen Restwertanschluß 6. einen Extraktor 7 für die Schallquelleninformation,
einen Extraktor 8 für die Grundschwingungsperiode des Sprachsignals, eine Ausgangsklemme 9 des Gerätes 8,
einen Rechner 10 zur Erfassung der Amplitude des Sprachsignals, eine Ausgangsklemme 11 dieses Geräts,
eine Schaltung 12 zur Unterscheidung von stimmhaften und nicht stimmhaftem Schall und eine Ausgangsklemme
13 für dieses Gerät.
Ein der Eingangsklemme 1 zugeführtes Sprachsignal x (t) wird in dem Umsetzer 2 in ein Digitalsignal
umgesetzt, mit einer Abtastfrequenz von 8 kHz und durch ein Vorzeichenbit und 11 weitere Bits quantisiert
Das Digitalsignal wird dem Parcorextraktor 3 zugeführt.
Der Parcorextraktor 3 enthält etwa 10 Stufen von partialen Autokorrelatoren 4, die in Kaskade geschaltet
sind. In jedem Partial-Autokorrelator 4 wird die
Korrelation zwischen dicht benachbarten abgetasteten Werten des Sprachsignals als Partial-Autokorrelationskoeffizient Ar, an der Ausgangsklemme 5 geliefert. Die
Korrelationskomponenten, die auf diese Weise zwisehen den dicht benachbarten Abtastwerten extrahiert
sind, werden aus dem Sprachsignal entfernt, das der nächsten Stufe zugeführt wird.
Wenn dieser Vorgang wiederholt wird, dann sind die
Korrelationen zwischen benachbarten abgetasteten Werten des Sprachsignals alle als Partial-Autokorrelationskoeffizienten
entfernt, und an der Ausgangsklemme 6 der letzten Partial-Autokorrelatorstufe treten nur
Korrelationskoeffizienten zwischen verhältnismäßig weit auseinanderliegenden Schwingungsformen auf. die
die Schallquelleninformation der Sprache betreffen. Die Ausgangsgröße des Parcorextraktors an der Klemme 6
wird im folgenden als Restwert ε ^bezeichnet.
Dpr ParrnrpvtraWtnr 3 der F I σ. ! !St im einzelnen ·Π
Fig. 2 dargestellt. Der Korrelationskoeffizientenrechner
der F i g. 2 ist im einzelnen in F i g. 3 dargestellt.
Das digitale Signal wird dem Parcorextraktor 3 von dem Analogdigitalumsetzer 2 zugeführt, und in dem
ersten Partial-Autokorrelator 4 wird das digitale Signal in zwei Teile geteilt, von denen der eine Teil einem
Korrelationskoeffizientenrechner über eine Verzögerungsschaltung zugeführt wird, während der andere Teil
dem Rechner direkt zugeleitet wird, um die Korrelation
zwischen unmittelbar benachbarten abgetasteten Werten des digitalen Eingangssignals zu erhalten und einen
ersten Korrelationskoeffizienten an der Klemme 5 zur
Verfügung zu stellen. Nachdem der Korrelationskoeffizient mit dem Digitalsignal multipliziert ist, das einem
Multiplikator über die Verzögerungsschaltung zugeführt wird und das digitale Signal direkt einem anderen
Multiplikator zugeleitet worden ist, werden die multiplizierten Ausgangsgrößen je einer Addierschaltung
zugeführt, um die Differenz zwischen der multiplizierten Ausgangsgröße und dem anderen
Digitalsignal zu erhalten, wobei diese Differenz dem nächsten Partial-Autokorrelator 4 zugeleitet wird. In
dem nächsten Partial-Autokorrelator 4 werden die Korrelationen zwischen den jeweils anderen Abtastwerten
des digitalen Eingangssignals erhalten, um einen zweiten Korrelationskoeffizienten an der Klemme 5 zur
Verfügung zu stellen.
Wie aus F i g. 3 hervorgeht, werden in dem Korrelationskoeffizientenrechner
die Summe und die Differenz zwischen den bieden digitalen Eingangssignalen erhalten
und quadriert. Dann wird die Summe und Differenz noch einmal gebildet und je einem Tiefpaßflter
zugeführt, um die Mittelwerte dieser Eingangsgrößen über einen bestimmten Zeitabschnitt zu ermitteln. Die
Ausgangsgrößen der Tiefpaßfilter werden dividiert, um das Verhältnis zwischen ihnen zu bilden, so daß der
Korreiationskoeffizient an der Klemme 5 zur Verfügung steht
Wenn man auf diese Weise bei jeder Partial-Autokorrelatorstufe 4 vorgeht, dann wird die Größe, weiche
dem Korrelationskoeffizienten zwischen abgetasteten Werten entspricht, die dichter beieinander liegen, als
diejenigen der Stufe in der unmittelbar vorhergehenden Stufe eliminiert. Auf diese Weise wird das Frequenzspektrum des digitalen Eingangssignals allmählich
flacher, und nach etwa 10 Stufen ist es fast ganz flach. Wenn man den Restwert an der Klemme 6 benutzt,
kann man die Grundschwingungsperiode r mit Hilfe des Extraktors 8 erhalten.
Ausgang eines Filters mit einer zur Sprachschwingung inversen Frequenzkennlinie als Restwert bezeichnet.
Die folgende Beschreibung bezieht sich auf ein Verfahren, bei dem der Partial-Autokorrelationskoeffizient
verwendet wird.
Die Sprachamplitude L wird mit Hilfe des Sprachamplitur^irechners
10 extrahiert, und stimmhafte sowie nicht stimmhafte Schallkoeffizienten V und UV werden
mit Hilfe der Unterscheidungsschaltung 12 extrahiert und an den Klemmen 11 und 13 zur Verfügung gestellt.
Die für die Sprache charakteristischen Parameter k,
(7=1 bis 10), T, V, UV und L, die auf diese Weise
extrahiert wurden, werden quantisiert und mit einer Gruppenperiode von 5 bis 15 Millisekunden übertragen.
Auf der Empfangsseite kann die ursprüngliche Sprache durch ein Pariial-Autokorrelationsgerät zur Synthese
der Sprache rekonstruier! werden, das durch die genannten Parameter gesteuert wird.
F i g. 4 zeigt im einzelnen ein Ausführungsbeispiel der Schaltungsanordnung 8 zum Extrahieren der Grundschwingungsperiode
der Sprache mit bekanntem Aufbau. Die Anordnung enthält einen Speicher 14, einen
ähnlichen Speicher 22, einen Autokorrelator 15, einen Maximalwertselektor 16, eine Ausgangsklemme 17 für
den Korrelationskoeffizienten des Restwertes und eine Ausgangsklemme 18 für den Maximalwert. Der
Restwert wird in dem Speicher 14 gespeichert. Dann wird ein kurzer Zeitabschnitt (etwa 20 bis 40
Millisekunden), der das Doppelte oder Dreifache der Gruni-'schwingungsperiode der Sprache beträgt, ausgeschnitten,
und abgetastete Werte eines Ausschnittes werden in dem Speicher 22 festgehalten. Der Korrelationskoeffizient
des Restwertes wird durch den Autokorrelator 15 errechnet, da die Grundschwingungsperiode
sich als periodische Wiederholung des Maximalwertes ergibt. Dann wird ein Abtastbereich (2
bis 20 Millisekunden) der Grundschwingungsperiode zur Verfügung gestellt und ein Maximalwert des
Korrelationskoeffizienten des Restwertes durch den Maximalwertselektor 16 erfaßt. Die Lage des auf diese
Weise festgestellten Maximalwertes wird an der Ausgangsklemme 9 als Grundschwingungsperiode der
Sprache zur Verfügung gestellt und ihr Wert an der Klemme 18.
Ls folgt nun eine kurze Erläuterung des Verfahrens zum Extrahieren der Grundschwingungsperiode mit
Hilfe der Autokorrelation des oben erwähnten periodischen Signals. Der Autokorrelationskoeffizient R (n)
eines diskreten Signals ε (t) wird durch die folgende Gleichung ausgedrückt:
1
R(n) = lim—
R(n) = lim—
Wenn das diskrete Signal ε (t) z. B. eine Sinusschwingung
ist, dann wird das· Signal ε (t) und der Autokorrelationskoeffizient R (n) durch die folgenden
Gleichungen II und III gegeben:
cos (mo,0t + <9J
1 N
R(n) = — "V1 er„ cos m«>on .
(Π)
(III)
Wie aus der Gleichung III hervorgeht, geht die Phaseninformation der Frequenzkomponenten verloren,
und die Maximalwerte der betreffenden Komponenten stimmen vollständig miteinander bei einer
Periode, die ein ganzzahliges Vielfaches η der Grundschwingungsperiode ist, überein, so daß der Wert
des Autokorrelationskoeffizienten R (n) auch seinen Maximalwert darstellt, aber immer kleiner wird als bei
anderen Perioden. Infolgedessen kann die Grundschwingungsperiode durch Feststellen des Maximalwertes
erhalten werden.
in Wenn in der Praxis die Signalperiode in jedem Augenblick schwankt und die zeitabhängige Veränderung
ein wichtiger Parameter ist. wie dies bei der Sprache der Falle ist, ist das unbestimmte Integral der
Gleichung I ohne Bedeutung, so daß von einem
|-, Kurzzeitautokorrelationskoeffizientcn nach der folgenden
Gleichung IV Gebrauch gemacht wird oder von einem Wert, der durch die Signalleistung nach der
folgenden Gleichung V normiert ist.
Kv!")= ' Σ'ί"'ί*ι . CV)
" ι= ι
Fig. 5 ist ein Diagramm, welches schematisch eine
solche Korrelationsschwingung zeigt. Die Grundschwingungsperiode r in F i g. 5 hat die Beziehung der
Gleichung Vl zu einer Sprachabtastperiode rs:
T=-- ITTS.
(VI)
In F i g. 5 bezeichnet das Bezugszeichen 7Ό den
Abtastzeitraum des Maximalwertes jeder Frequenz-
j-, komponente.
Auf diese Weise wird bei der bekannten Anordnung der Einfluß des Formanten, der auf der Übertragungseigenschaft
des Stimmtraktes beruht, durch die Parcoranalyse eliminiert, und die Grundschwingungsperiode
wird mit hoher Genauigkeit extrahiert. Die dabei benötigten Vorgänge sind jedoch kompliziert, und der
Aufwand ist groß, so daß sehr schnell arbeitende Elemente für eine Realzeitverarbeitung erforderlich
sind und die Kosten des Analysators sich dadurch erhöhen. Die Arbeitsgenauigkeit zur Darstellung des
Restwertes erfordert etwa i2 Bits. Wenn z. B. eine kurze Periode von 20 Millisekunden aus dem Sprachsignal
ausgeschnitten wird und in ein digitales Signal umgesetzt wird, das durch 12 Bits dargestellt ist und eine
Abtastfrequenz von 8 kHz hat und der Autokorrelatioi.skoeffizient (n=0 bis 100) der Gleichung IV
berechnet ist, ist es notwendig, das Produkt (etwa 12 Bits χ 12 Bits) 16 OOOmal zu berechnen und die Summe
(24 Bits + 24 Bits) in einer kurzen Zeit von 10 Millisekunden 16 OOOmal zu bilden. Die Verwirklichung
eines Extrahiergerätes zur Durchführung dieser Vorgänge ist nur möglich, wenn Bauelemente sehr hoher
Geschwindigkeit, wie z. B. Schottky TTLs zur Verfügungstehen.
Durch die Erfindung sollen die Schwierigkeiten der bekannten Anordnungen beseitigt werden. Eine Ausführungsform
der Erfindung ist als Blockschaltbild in F i g. 6 dargestellt Die Anordnung der Fig.6 enthält eine
Eingangsklemme 6 für den Restwert, ein Tiefpaßfilter
b5 13, eine Quantisieranordnung 20, eine Ausgangskiemme
21 für diese Anordnung, einen Speicher 14, einen weiteren Speicher 22 und einen Autokorrelator 15.
Ferner ist eine Ausgangsklemme 17 für den Korrelator
vorgesehen, ein Maximalwertselektor 16, eine Ausgangsklemme
9 für die Grundschwingungsperiode der Sprache und eine Ausgangsklemme 18 für den
Maximalwert des Korrelationskoeffizienten.
Bei dem Extrahieren der Grundschwingungsperiode der Sprache ist eine Periode von 20 bis 40 Millisekunden,
die das zweifache bzw. Dreifache der Grundschwingungsperiode ist, gewöhnlich ein Gegenstand der
Analyse, und die Extraktion der Grundschwingungsperiode wird mil einer Verschiebung der Analysenperiode in
im Bereich von 5 bis 15 Millisekunden durchgeführt. Es
wird nun ein Fall beschrieben, bei dem die Grundschwingungsperiode aus einem Restwert extrahiert
wird, der in ein digitales Signal umgewandelt ist, das eine Abtastfrequenz von 8 kHz hat und ein Vorzeichenbit r>
und 11 weitere Bits enthält. Es wird weiter angenommen,
daß die Länge des in einer Analyse zu ciiiaiysicrcriucn ucrciCiiS i.0 M;iii3CKur;Gcri unc! Dczugücn
des abgetasteten Werts 160 beträgt und daß die Grundschwingungsperiode extrahiert wird, wobei der
Bereich um 10 Millisekunden und 80 abgetastete Werte verschoben wird.
Der der Eingangsklemme 6 in Zeitintervallen von 125 Mikrosekunden zugeführte Restwert wird dem Tiefpaßfilter
19 zugeführt, um die unnötigen Hochfrequenzkomponenten zu entfernen und dann dem Quantisiergerät
20 zugeleitet. In dem Quantisierer 20 wird das Signal einer Spitzenbegrenzung unterworfen bzw. einer
Quantisierung od. dgl., um es durch wenige Bits darzustellen. Das quantisierte Signal, welches 80 so
abgetasteten Werten entspricht, wird in dem Speicher 14 gespeichert. Der Speicher 14 hat die Form eines
Schieberegisters od. dgl. und eine Kapazität im vorliegenden Fall von 1 Bit χ 80 Worten. Wenn die 80
abgetasteten Werte in den Speicher 14 eingeschrieben sind, wird der Inhalt des Speichers 14 dem nächsten
Speicher 22 zugeführt, bevor die nachfolgenden abgetasteten Werte an dem Speicher 14 eintreffen, d. h.
vor dem Ablauf von 125 Mikrosekunden, worauf die Einspeicherung der neuen abgetasteten Werte im
Speicher 14 beginnt. Der Speicher 22 hat eine Kapazität für die Speicherung der abgetasteten Werte eines
Bereiches, und zwar im vorliegenden Beispiel von 1 Bit χ 160 Worten. Die abgetasteten Werte des
unmittelbar vorhergehenden Bereiches und die 80 abgetasteten Werte, die neu von dem Speicher 14
übertragen werden, d.h., eine Gesamtzahl von 160 abgetasteten Werten bilden einen Bereich oder Rahmen
in dem Speicher 22. Der Speicher 22 ist als Schieberegister od. dgl. ausgebildet. Als nächstes wird in
dem Autokorrelator 15 der Autokorrelatorkoeffizient auf eine Verzögerung von etwa der hundertsten
Ordnung berechnet. In dem Maximalwertselektor 16 wird die Grundschwingungsperiode der Sprache als die
Lage des maximalen Autokorrelationskoeffizienten im Abtastbereich (To) von Verzögerungen der 20. bis 100.
Ordnung erfaßt und steht am Ausgangspunkt 9 zur Verfügung. Der Maximalwert des Autokorrelationskoeffizienten
kann am Ausgang 18 abgenommen werden.
Da die Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode der Sprache gemäß der
Erfindung nach dem oben beschriebenen Beispiel so ausgeführt ist, daß die unnötigen Hochfrequenzkomponenten,
die in dem Restwert enthalten sind, durch ein Tiefpaßfilter abgeschnitten werden, ist es möglich, den
Maximalwert des Korrelationskoeffizienten des Restwertes War zu erkennen. Infolgedessen ist der am
Tiefpaßfilter abgenommene Restwert durch ein niedriges Bit dargestellt, so daß bei Ausnutzung des
beschriebenen Effektes die Verarbeitungsvorgänge wesentlich vermindert werden können.
Im Fall der Berechnung der Gleichung IV unter den gleichen Bedingungen, wie beim eben genannten
Beispiel, erfordern die Vorgänge des bisher bekannten Verfahrens 16 000 Multiplikationen von 12 Bits χ 12
Bits und 16 000 Additionen von 24 Bits + 24 Bits in 10 Millisekunden. Jedoch wird bei Ausführung nach der
Erfindung nur eine Zahl von 16 000 Additionen von 1 Bit
erforderlich, so daß es sich um eine erhebliche Einsparung handelt. Bei dem bekannten Verfahren
mußte der Speicher 14 eine Speicherkapazität von 12 Bits χ 80 Worten haben und der Speicher 22 eine
Speicherkapazität von 12 Bits χ 160 Worten. BH Anwendung der Erfindung ist die erforderliche
Speicherkapazität dieser Speicher nur 1 Bit χ 80 u/Qyiorj κζ.Λ/ ι η;; ;.; jgn V/rjrion Hierdurch ergeben
sich beträchtliche Einsparungen bezüglich der Schaltungsausführung. Die Anordnung der bekannten Art
zum Extrahieren der Grundschwingungsperiode benötigte etwa 10 000 Tore, jedoch kommt man bei der
Schaltungsanordnung gemäß der Erfindung mit etwa 2000 Toren aus, d. h., der Schaltungsaufwand beträgt nur
1/5. Auch die Ansprechzeit der Elemente beträgt nur 1/5 derjenigen bei den bekannten Extraktoren, so daß bei
der bekannten Schaltungsanordnung die Verwendung von Schottky TTL-Transistoren erforderlich ist, während
bei der Schaltungsanordnung gemäß der Erfindung mit MOS-Elementen gearbeitet wird. Die Schaltungsanordnung
gemäß der Erfindung kann daher mit LSI durchgeführt werden.
Das in Fig. 6 dargestellte Tiefpaßfilter 19 kann ein
digitales Filter sein, das beispielsweise in F i g. 7 dargestellt ist.
Das digitale Filter enthält als Hauptschaltungskomponente eine digitale Addierschaltung, einen Multiplikator
und ein Verzögerungselement zur Durchführung der Operationen, die durch die folgende lineare Differentialgleichung
mit konstantem Koeffizienten gegeben sind.
y(nT) = 2αμχ{(η - r,)T\ -£ b,y{(n - ,)T), (VI!)
wobei χ (nT) und y(nT) Eingangs- und Ausgangssignalreihen
sind und a* und b, reelle Zahlen sind.
F i g. 7 zeigt ein Rekursivfilter erster Ordnung. Wenn eine Größe χ der Eingangsklemme zugeführt wird,
werden die Eingangs- und Ausgangsgrößen eines Multiplikators durch eine Addierschaltung voneinander
abgezogen, so daß sich die resultierende Differenz als Ausgangssignal am Ausgang der Schaltung ergibt.
Gleichzeitig wird diese Differenz einer Verzögerungsschaltung zugeführt und einem Multiplikator mit dem
Faktor a, so daß sich eine Ausgangsgröße ax ergibt, die der Addierschaltung zur Subtraktion mit dem nächsten
Eingangssignal zugeleitet wird. Danach wird dieser Vorgang wiederholt Wenn man das obige Filter als ein
lineares System betrachtet, nehmen die Ausgangswerte mit dem Koeffizienten a des Multiplikators ab und
werden schließlich Null in dem Bereich von \ a\ < 1. Im Fall eines nichtlinearen Systems konvergiert der
Ausgangswert nach Null nur in dem Bereich von I a I
< 03, und bei anderen Werten ist das System
unstabil.
In der erfindungsgemäßen Anordnung ist jedoch die Ausbildung des digitalen Filters nicht so wichtig, und ein
Filter so einfachen Aufbaus wie das in F i g. 7
dargestellte genügt, solange die Grenzfrequenz im
Bereich von 500 bis 1000 Hz liegt.
In den Fig. 8 bis 14 wird die Erfindung mit den bekannten Verfahren verglichen. F i g. 8 aeigt den
Schwingungsverlauf eines Restwertes mit einer Länge von 20 Millisekunden, und Fig.9 und 10 zeigen
verschiedene Schwingungsverläufe für den Korrelationskoeffizienten bei einem bekannten Verfahren,
wenn der Restwert nach Fig.8 mit 12 Bits bzw. 1 Bit gequantelt wird. F i g. 11 zeigt den Schwingiingsverlauf.
wenn das Restsignal einem digitalen Filter mit einer Grenzfrequenz von 500 Hz zugeführt wird und Fig. 12
und 13 zeigen den Verlauf des Korrelationskoeffizienten gemäß der Erfindung, wenn die Schwingung nach
Fig. 11 mit 12 Bitsund 1 Bit (nur dem Vorzeichen nach)
quantisiert wird. Die Schwingungsverläufe der F i g. 8 und 11, 9 und 12 sowie 10 und 13 entsprechen dabei
pinanHpr
Wenn bei dem bekannten System der Schwingungsverlauf dui h 12 Bits nach Fig. 9 dargestellt wird, kann
man Maximalwerte des Korrelationskoeffizienten erkennen. Wenn jedoch der Restwert mit einer niedrigen
Bitzahl (1 Bit) nach Fig. 10 dargestellt wird, kann ein zweiter Maximalwert bei diesem Beispiel nicht erkannt
werden, so daß fälschlicherweise eine Periode extrahiert wird, die dem doppelten der Grundschwingungsperiode
entspricht.
Andrerseits hat gemäß der Erfindung ein quantisiertes
Rauschen die gleiche Periode wie ein periodisches Signal, so daß beim Extrahieren der Grundschwingungsperiode
die Quantisierung des Signals nicht wesentlich ist. Wie sich aus Fig. 13 ergibt, ist es möglich, die
Grundschwingungsperiode mit genügender Genauigkeit aus dem Korrelationskoeffizienten lediglich aus
dem Vorzeichen des Restwertes zu bestimmen, nachdem dieser dem Tiefpaßfilter zugeführt ist.
Um die Betriebsgenauigkeit zu erhalten, die für den in F i g. 6 gezeigten Quantisiercr (einen D-D-Umsetzer) zu
bestimmen, wurde die Grundschwingungsperiode der Sprache mit einer Schaltungsanordnung gemäß der
Erfindung ermittelt, wobei die Stimmen von 3 Frauen beim Ablesen eines Textes für etwa 3,5 Sekunden
zugrunde gelegt wurde. In Fig. 14 sind Fehlerwerte bei
der Extraktion von Grundschwingungsperioden dargestellt, wobei eine Betriebsgenauigkeit von 12 bis 1 Bit
verwendet wurde, und zwar in Prozent der Zahl sämtlicher Bereiche in der Sprachperiode. Fig. 14 zeigt,
daß der Fehler etwa 10% bei dem üblichen Verfahren der Extraktion betrug, jedoch weniger als 1% bei der
Schaltungsanordnung gemäß der Erfindung. Sogar im
ίο Fall der Korrelation mit einem Bit (lediglich mit dem
Vorzeichen) wurde eine ausreichende Präzision erhalten.
Die obige Beschreibung wurde im Zusammenhang mit einem System der Sprachanalyse gegeben, bei dem
υ eine Sprachschwingungsform dargestellt wird, wobei
ein Partialautokorrelationskoeffizient als Parameter benutzt wird. Es ist jedoch klar, daß die Erfindung auch
auf einen Restwert einer Sprachschwingung anwendbar ist, der von einem Filter abgeleitet wird, das eine inverse
Kennlinie des Frequenzganges im Vergleich mit der Sprachschwingung hat.
Wie oben angegeben, kann gemäß der Erfindung ein Maximalwert des Korrelationskoeffizienten eines Restwertes deutlich erfaßt werden, indem der Restwert
r> einem Tiefpaßfilter zugeführt wird, so daß die Grundschwingungsperiode der Sprache genau und
stetig extrahiert werden kann. Besonders da die Korrelation lediglich des Vorzeichens eines Signals zur
Extraktion genügt, brauchen nur Addiervorgänge
jo durchgeführt zu werden, während bei dem bekannten
Verfahren Multiplikationen und additive Operationen erforderlich sind. Die Schaltungsanordnung zum Extrahieren
der Grundschwingungsperiode gemäß der Erfindung ist daher wesentlich einfacher als die
j) bekannten Geräte. Außerdem kann die Genauigkeit der
Bestimmung der Grundschwingungsperiode der Sprache in der oben beschriebenen Weise verbessert
werden, so daß die Qualität der synthetischen Sprache bei der Übertragung der Sprache mit Bandkompression
oder bei der Wiedergabe im Hörbereich wesentlich verbessert wird.
Hierzu 7 Blatt Zeichnunsen
Claims (2)
- Patentansprüche:!. Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal, bei der die Sprachschwingung einem Filter zugeführt wird, dessen Frequenzkennlinie angenähert invers zu derjenigen eines Sprachsignals verläuft, um einen Restwert zu erhalten, bei der ferner ein Autokorrelator einen Autokorrelationskoeffizienten des Restwertes über Zwischenspeicher errechnet und bei der die Grundschwingungsperiode der Sprache aus der Lage des Maximalwertes des Autokorrelationskoeffizienten erhalten wird, dadurch gekennzeichnet, daß zwischen dem Restwertausgang (6) und dem Zwischenspeicher (14) ein Tiefpaßfilter (19) mit einer Grenzfrequenz von 500 Hz bis 1000 Hz vorhanden ist das die Hochfrequenzkomnonenten des Restwerts unterdrückt, und daß an dss Tiefpaßfilter (19) eine Quantelungsvorrichtung (20) angeschlossen ist
- 2. Elektrische Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet daß die Quantelungsvorrichtung (20) mit so niedriger Bitzahl arbeitet (z. B. 1 Bit), daß lediglich das Vorzeichen des Reitwertes festgestellt wird, und daß der Autokorrelator den Autokorrelationskoeffizienten lediglich durch Addition berechnet
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP50102473A JPS6051720B2 (ja) | 1975-08-22 | 1975-08-22 | 音声の基本周期抽出装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
DE2636032A1 DE2636032A1 (de) | 1977-02-24 |
DE2636032B2 true DE2636032B2 (de) | 1979-05-10 |
DE2636032C3 DE2636032C3 (de) | 1984-07-19 |
Family
ID=14328408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2636032A Expired DE2636032C3 (de) | 1975-08-22 | 1976-08-11 | Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal |
Country Status (6)
Country | Link |
---|---|
US (1) | US4081605A (de) |
JP (1) | JPS6051720B2 (de) |
CA (1) | CA1061906A (de) |
DE (1) | DE2636032C3 (de) |
FR (1) | FR2321738A1 (de) |
GB (1) | GB1555254A (de) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS597120B2 (ja) * | 1978-11-24 | 1984-02-16 | 日本電気株式会社 | 音声分析装置 |
US4220819A (en) * | 1979-03-30 | 1980-09-02 | Bell Telephone Laboratories, Incorporated | Residual excited predictive speech coding system |
JPS5857758B2 (ja) * | 1979-09-28 | 1983-12-21 | 株式会社日立製作所 | 音声ピッチ周期抽出装置 |
JPS58143394A (ja) * | 1982-02-19 | 1983-08-25 | 株式会社日立製作所 | 音声区間の検出・分類方式 |
US4486900A (en) * | 1982-03-30 | 1984-12-04 | At&T Bell Laboratories | Real time pitch detection by stream processing |
US4561102A (en) * | 1982-09-20 | 1985-12-24 | At&T Bell Laboratories | Pitch detector for speech analysis |
US4731846A (en) * | 1983-04-13 | 1988-03-15 | Texas Instruments Incorporated | Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal |
JPS61134000A (ja) * | 1984-12-05 | 1986-06-21 | 株式会社日立製作所 | 音声分析合成方式 |
JPH0690638B2 (ja) * | 1986-06-25 | 1994-11-14 | 松下電工株式会社 | 音声分析方式 |
US4980917A (en) * | 1987-11-18 | 1990-12-25 | Emerson & Stern Associates, Inc. | Method and apparatus for determining articulatory parameters from speech data |
FR2670313A1 (fr) * | 1990-12-11 | 1992-06-12 | Thomson Csf | Procede et dispositif pour l'evaluation de la periodicite et du voisement du signal de parole dans les vocodeurs a tres bas debit. |
US5715365A (en) * | 1994-04-04 | 1998-02-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
DE19616103A1 (de) * | 1996-04-23 | 1997-10-30 | Philips Patentverwaltung | Verfahren zum Ableiten charakteristischer Werte aus einem Sprachsignal |
AU2001258298A1 (en) * | 2000-04-06 | 2001-10-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Pitch estimation in speech signal |
AU2001273904A1 (en) * | 2000-04-06 | 2001-10-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Estimating the pitch of a speech signal using a binary signal |
JP3827317B2 (ja) * | 2004-06-03 | 2006-09-27 | 任天堂株式会社 | コマンド処理装置 |
JP4935280B2 (ja) * | 2006-09-29 | 2012-05-23 | カシオ計算機株式会社 | 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム |
TWI728632B (zh) * | 2019-12-31 | 2021-05-21 | 財團法人工業技術研究院 | 特定音源的定位方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3662115A (en) * | 1970-02-07 | 1972-05-09 | Nippon Telegraph & Telephone | Audio response apparatus using partial autocorrelation techniques |
US3740476A (en) * | 1971-07-09 | 1973-06-19 | Bell Telephone Labor Inc | Speech signal pitch detector using prediction error data |
US3975587A (en) * | 1974-09-13 | 1976-08-17 | International Telephone And Telegraph Corporation | Digital vocoder |
-
1975
- 1975-08-22 JP JP50102473A patent/JPS6051720B2/ja not_active Expired
-
1976
- 1976-08-11 DE DE2636032A patent/DE2636032C3/de not_active Expired
- 1976-08-11 CA CA258,894A patent/CA1061906A/en not_active Expired
- 1976-08-13 FR FR7624788A patent/FR2321738A1/fr active Granted
- 1976-08-18 US US05/715,399 patent/US4081605A/en not_active Expired - Lifetime
- 1976-08-19 GB GB34670/76A patent/GB1555254A/en not_active Expired
Also Published As
Publication number | Publication date |
---|---|
DE2636032C3 (de) | 1984-07-19 |
CA1061906A (en) | 1979-09-04 |
DE2636032A1 (de) | 1977-02-24 |
JPS5226107A (en) | 1977-02-26 |
GB1555254A (en) | 1979-11-07 |
JPS6051720B2 (ja) | 1985-11-15 |
US4081605A (en) | 1978-03-28 |
FR2321738A1 (fr) | 1977-03-18 |
FR2321738B1 (de) | 1979-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2636032C3 (de) | Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal | |
DE69901606T2 (de) | Breitbandsprachsynthese von schmalbandigen sprachsignalen | |
DE69417445T2 (de) | Verfahren und system zur detektion und erzeugung von übergangsbedingungen in tonsignalen | |
DE2919085C2 (de) | Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung | |
DE69529356T2 (de) | Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile | |
DE2233872C2 (de) | Verfahren zur Bestimmung der Grundwellenperiode eines Sprachsignals | |
DE69619284T2 (de) | Vorrichtung zur Erweiterung der Sprachbandbreite | |
DE69121312T2 (de) | Geräuschsignalvorhersagevorrichtung | |
DE60303214T2 (de) | Verfahren zur reduzierung von aliasing-störungen, die durch die anpassung der spektralen hüllkurve in realwertfilterbanken verursacht werden | |
DE2626793C3 (de) | Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals | |
DE3101851C2 (de) | Vorrichtung zum Erkennen von Sprache | |
DE69329511T2 (de) | Verfahren und Einrichtung zum Unterscheiden zwischen stimmhaften und stimmlosen Lauten | |
DE3510660C2 (de) | ||
DE3012771C2 (de) | ||
DE3236834A1 (de) | Verfahren und geraet zur sprachanalyse | |
DE10030105A1 (de) | Spracherkennungseinrichtung | |
DE69720134T2 (de) | Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten | |
DE69616724T2 (de) | Verfahren und System für die Spracherkennung | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE69017842T2 (de) | Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate. | |
DE2622423A1 (de) | Vocodersystem | |
DE69706650T2 (de) | System und verfahren zur fehlerkorrektur in einer auf korrelation basierenden grundfrequenzschätzvorrichtung | |
DE69411817T2 (de) | Verfahren und vorrichtung zur kodierung/dekodierung von hintergrundgeräuschen | |
DE4491015C2 (de) | Verfahren zum Erzeugen eines Spektralrauschbewertungsfilters zur Verwendung in einem Sprachcoder | |
DE69611607T2 (de) | Quantisierung einer aufgeteilten vorhersagematrix mit spektralparametern zur wirksamen sprachkodierung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C3 | Grant after two publication steps (3rd publication) | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: NIPPON TELEGRAPH AND TELEPHONE CORP., TOKIO/TOKYO, |
|
8328 | Change in the person/name/address of the agent |
Free format text: REICHEL, W., DIPL.-ING. LIPPERT, H., DIPL.-ING., PAT.-ANW., 6000 FRANKFURT |
|
8339 | Ceased/non-payment of the annual fee |