DE69232904T2 - Sprachkodierer/-dekodierer und Kodierungs-/Dekodierungsverfahren - Google Patents
Sprachkodierer/-dekodierer und Kodierungs-/DekodierungsverfahrenInfo
- Publication number
- DE69232904T2 DE69232904T2 DE69232904T DE69232904T DE69232904T2 DE 69232904 T2 DE69232904 T2 DE 69232904T2 DE 69232904 T DE69232904 T DE 69232904T DE 69232904 T DE69232904 T DE 69232904T DE 69232904 T2 DE69232904 T2 DE 69232904T2
- Authority
- DE
- Germany
- Prior art keywords
- signals
- frequency
- speech
- pitch
- harmonics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 44
- 230000009466 transformation Effects 0.000 claims description 39
- 238000004458 analytical method Methods 0.000 claims description 23
- 230000015572 biosynthetic process Effects 0.000 claims description 15
- 238000003786 synthesis reaction Methods 0.000 claims description 15
- 230000005540 biological transmission Effects 0.000 claims description 14
- 230000001186 cumulative effect Effects 0.000 claims description 14
- 238000001228 spectrum Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 5
- 238000007670 refining Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 239000011295 pitch Substances 0.000 claims 61
- 230000006978 adaptation Effects 0.000 claims 2
- 238000011084 recovery Methods 0.000 claims 2
- 238000001514 detection method Methods 0.000 claims 1
- 238000009499 grossing Methods 0.000 claims 1
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 9
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 230000002441 reversible effect Effects 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 206010040844 Skin exfoliation Diseases 0.000 description 3
- 230000035618 desquamation Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
- Diese Erfindung betrifft einen Codierer für und ein Verfahren der Codierung von eingegebenen Sprachsignalen für die Übertragung zu einem Sprachdecodierer, der von dem Sprachcodierer entfernt ist. Die Erfindung bezieht sich auch auf einen Sprachdecodierer für und ein Verfahren der Decodierung von den codierten Sprachsignalen, die von dem Sprachcodierer übertragen werden. Die Vorrichtungen und Verfahren mit den Merkmalen der Präambeln der Ansprüche 1, 16, 21, 36 sind bekannt von ICASS 90, Albuquerque, New Mexiko, USA, 3.-6. April 1990, Band 1, Seiten 17-20, Marques J. S. et al. "Harmonic Coding at 4.8 kb/s".
- Mikroprozessoren werden in einer Sendestation verwendet, um Daten für die Übertragung zu einer entfernten Position in digitale Form umzuwandeln, an der die Daten in digitaler Form erkannt und in ihre ursprüngliche Form umgewandelt werden. Obgleich die Mikroprozessoren klein sind, haben sie gewaltige Verarbeitungsleistungen. Dieses hat ermöglicht, dass anspruchsvolle Techniken von dem Mikroprozessor in der Sendestation verwendet werden, um die Daten in digitale Form zu codieren, und von dem Mikroprozessor in der Empfangsstation verwendet werden, um die digitalen Daten zu decodieren und die digitalen Daten in ihre ursprüngliche Form zu wandeln. Die Daten können durch Faksimilegeräte an der Sendestation und der Empfangsstation übertragenen werden, und können in einem Fernsehgerät an der Empfangsstation wiedergegeben werden. Mit der Vergrößerung der Verarbeitungsleistung der Mikroprozessoren selbst bei einer Verkleinerung der Ausmaße der Mikroprozessoren wurde die Verfeinerung der Codierungs- und Decodierungstechniken und die sich daraus ergebende Auflösung der Daten in der Empfangsstation verbessert.
- Mit der in den vergangenen Jahren erfolgten stetigen Zunahme der Verfeinerung der Datenverarbeitungsfähigkeit der Mikroprozessoren ist es zunehmend wünschenswert geworden, zusätzlich zu den Daten auch Sprachinformation zu übertragen. Z. B. in Telefonkonferenzen ist es wünschenswert geworden, Dokumente, wie etwa Briefe und handgeschriebene Berichte und Analysen, zu übertragen und eine Diskussion solcher Berichte vorzusehen.
- Es wurde erkannt, dass es schwierig ist, Sprachdaten in eine komprimierte digitale Form umzuwandeln, die zu einer Empfangsstation übertragen werden kann, um eine treue Wiedergabe der Stimme des Sprechers an der Empfangsstation zu erreichen. Dies ergibt sich aus der Tatsache, dass die Frequenzen und Amplituden des Sprachsignals des Sprechers sich ständig verändern. Dieses gilt selbst während des Zeitraums, in dem ein Sprecher einen Vokal ausspricht, wie etwa der Buchstabe "a", besonders da die Dauer solcher Vokale dazu neigt, länger zu werden, und die Sprecher nicht dazu neigen, monoton zu reden.
- In den vergangenen Jahren wurde eine beachtliche Anstrengung unternommen, und ein beachtlicher Geldbetrag ausgegeben, um Systeme und Verfahren der Codierung von Sprachsignalen in eine komprimierte digitale Form in einer Sendestation vorzusehen, solche digitalen Signale zu einer Empfangsstation zu übertragen und solche digitalen Signale in der Empfangsstation zu decodieren, um die Sprachsignale wiederherzustellen. Als ein Ergebnis solcher Anstrengungen und Geldausgabe ist eine beachtlicher Fortschritt bei dem Vorsehen einer getreuen Wiedergabe der Sprachsignale in der Empfangsstation erreicht worden. Trotz solcher Fortschritte ist jedoch die getreue Wiedergabe von Sprachsignalen in der Empfangsstation schwer erreichbar geblieben. Die Zuhörer in der Empfangsstation hören nicht die Stimme des Sprechers in der Sendestation ohne ein inneres Gefühl oder eine äußere Bemerkung, dass eine beträchtliche Verzerrung in der Stimme des Sprechers vorliegt. Dies hat häufig von der Möglichkeit der Teilnehmer an den zwei (2) voneinander entfernt gelegenen Stationen abgeschreckt, sinnvoll miteinander zu kommunizieren.
- Diese Erfindung, wie in den unabhängigen Ansprüchen der Anspruch erhoben wird, sieht ein System vor, welches Sprachsignale in einem Sprachcodierer in eine komprimierte digitale Form wandelt, um Stimmhöhenfrequenz und Stimmhöhenamplitude und die Amplituden und Phasen der harmonischen Signale darzustellen, so dass die Sprachsignale von einem Sprachdecodierer ohne Verzerrung wiedergegeben werden können. Die Erfindung sieht auch einen Sprachdecodierer vor, der die digitalen Signale verarbeitet, um solch eine treue Wiedergabe der Sprachsignale vorzusehen. Die Sprachsignale werden in dem Sprachcodierer in Echtzeit codiert, und werden in dem Sprachdecodierer in Echtzeit decodiert.
- In einer Ausführungsform der Erfindung codiert ein neuer, anpassungsfähiger Fouriertransformationscodierer periodische Komponenten der Sprachsignale und decodiert die codierten Signale. In dem Apparat kann die Stimmhöhenfrequenz der Sprachsignale in aufeinander folgenden Zeitrahmen in dem Sprachcodierer bestimmt werden durch (1) eine CEPSTRUM- Analyse (d. h. der Zeit zwischen aufeinanderfolgenden Spitzenamplituden in jedem Zeitrahmen), durch (2) eine Abstandsanalyse der Harmonischen (d. h. der Amplitudendifferenzen zwischen den Spitzen und Tälern der Spitzenamplitudensignale des Frequenzspektrums), durch (3) Anpassung der Harmonischen, durch (4) Filtern der Frequenzsignale in aufeinander folgenden Paaren von Zeitrahmen, und durch Durchführung der Schritte (1), (2) und (3) über den gefilterten Signalen, um eine Stimmhöheninterpolation an dem ersten Rahmen in dem Paar vorzusehen, und durch (5) Stimmhöhenanpassung.
- Die Amplitude und Phase des Stimmhöhenfrequenzsignals und der harmonischen Signale werden durch Techniken nach dem Stand der Technik bestimmt, die im Vergleich zum Stand der Technik verfeinert wurden, um Amplituden- und Phasensignale mit verbesserter Auflösung zu erreichen. Solche Amplituden können in eine vereinfachte digitale Form gewandelt werden, durch (a) Berechnung des Logarithmus der Frequenzsignale, (b) Auswählendes Signals mit der Spitzenamplitude, (c) Versetzen der Amplituden der logarithmischen Signale relativ zu solchen Spitzenamplituden, (d) Stauchen der versetzten Signale, (e) Reduzieren der Anzahl der Harmonischen auf ein bestimmtes Maß durch Beseitigen abwechselnder, hochfrequenter Harmonischer, (f) Berechnen einer diskreten Kosinustransformation der verbleibenden Signale und (g) Digitalisieren solcher Transformationen. Falls die Stimmhöhenfrequenz eine Kontinuität innerhalb bestimmter Grenzen in aufeinanderfolgenden Zeitrahmen hat, wird die Phasendifferenz der Signale zwischen aufeinanderfolgenden Zeitrahmen vorgesehen.
- In dem entfernt gelegenen Sprachdecodierer werden die Signalamplituden bestimmt durch Durchführung, in dieser Reihenfolge, der Umkehrung der Schritte (g) bis (a). Diese Signale und die Signale, welche die Stimmhöhenfrequenz und -phase darstellen, werden verarbeitet, um die Sprachsignale ohne Verzerrung wiederherzustellen.
- Im Folgenden wird die Erfindung mit Bezug auf die Zeichnungen beschrieben, in denen:
- Fig. 1 ein vereinfachtes Blockdiagramm eines Systems in einem Sprachcodierer für die Codierung von Sprachsignalen in eine digitale Form für die Übertragung zu einem Sprachdecodierer ist;
- Fig. 2 ein vereinfachtes Blockdiagramm eines Systems in einem Sprachdecodierer für den Empfang der digitalen Signale von dem Sprachcodierer und für die Decodierung der digitalen Signale ist, um die Sprachsignale wiederherzustellen;
- Fig. 3 ein Blockdiagramm mit größerem Detail eines Abschnitts des in Fig. 1 gezeigten Sprachcodierers ist und zeigt, wie der Sprachcodierer die Amplituden und Phasen der Harmonischen in aufeinander folgenden Zeitrahmen codiert;
- Fig. 4 ein Blockdiagramm eines anderen Abschnitts des Sprachcodierers ist und zeigt, wie der Sprachcodierer die Stimmhöhe der Sprachsignale in den aufeinander folgenden Zeitrahmen bestimmt;
- Fig. 5 ein Blockdiagramm des in Fig. 2 gezeigten Sprachdecoders ist und das Decodierungssystem in größerem Detail zeigt als dem in Fig. 2 gezeigten;
- Fig. 6 ein schematisches Diagramm der in aufeinander folgenden Zeitrahmen zu codierenden Sprachsignale ist und weiter zeigt, wie die Zeitrahmen sich überlappen;
- Fig. 7 ein Diagramm ist, das schematisch die Signale veranschaulicht, die in einem typischen Zeitrahmen erzeugt werden, um verschiedene Frequenzen darzustellen, nachdem die Sprachsignale in dem Zeitrahmen durch eine Fourierfrequenzanalyse in der Frequenz transformiert worden sind;
- Fig. 8 die Charakteristiken eines Tiefpassfilters für die Verarbeitung der Frequenzsignale veranschaulicht, wie sie in Fig. 7 gezeigt wurden;
- Fig. 9 ein Diagramm ist, das schematisch ein Spektrum von Frequenzsignalen veran schaulicht, nachdem die Frequenzsignale von Fig. 7 ein Tiefpassfilter mit den in Fig. 8 gezeigten Charakteristiken durchlaufen haben;
- Fig. 10 ein Diagramm ist, das einen Schritt mit der Verwendung eine Hamming-Fenster- Analyse bei der präzisen Bestimmung der Charakteristiken jeder harmonischen Frequenz in den Sprachsignalen in jedem Zeitrahmen betrifft;
- Fig. 11 das Amplitudenmuster einer individuellen Frequenz als Ergebnis der Verwendung der in Fig. 10 gezeigten Hamming-Fenster-Analyse bezeichnet;
- Fig. 12 die Techniken veranschaulicht, die für die Bestimmung der Amplitude und Phase einer jeden Harmonischen in den Sprachsignalen in jedem Zeitrahmen mit größerer Präzision als nach dem Stand der Technik verwendet werden;
- Fig. 13 die relativen Amplitudenwerte der Logarithmen der unterschiedlichen Harmonischen in den Sprachsignalen in jedem Zeitrahmen und die Auswahl der Harmonischen mit der Spitzenamplitude veranschaulicht;
- Fig. 14 die logarithmischen Harmonischen-Signale von Fig. 13 bezeichnet, nachdem die Amplituden der unterschiedlichen Harmonischen umgewandelt worden sind, um ihre Amplitudendifferenz relativ zu der in Fig. 13 gezeigten Spitzenamplitude zu bezeichnen;
- Fig. 15 schematisch die Wirkung einer Stauchungsoperation auf die in Fig. 14 gezeigten Signale anzeigt; und
- Fig. 16 veranschaulicht, wie die Frequenzsignale in unterschiedlichen Frequenzschlitzen oder -fächern in jedem Zeitrahmen analysiert werden, um gesprochene (binäre "1") und ungesprochene ("binäre "0") Signale in solchen Zeitrahmen vorzusehen.
- In einer Ausführungsform der Erfindung werden Sprachsignale in I = ig. 6 mit 10 bezeichnet. Wie gezeigt werden wird, sind Sprachsignale allgemein mit der Zeit veränderlich, und sie haben allgemein kein sich vollständig wiederholendes Muster. Dass System dieser Erfindung umfasst eine Blocksegmentierungsstufe 12 (Fig. 1), welches die Signale in Zeitrahmen 14 (Fig. 6) aufteilt, wobei jeder Zeitrahmen eine passende Zeitdauer hat, wie angenähert zwei- unddreißig Millisekunden (32 ms). Vorzugsweise überlappen sich die Zeitrahmen 14 um eine passende Zeitspanne, wie etwa um angenähert zwölf Millisekunden (12 ms), wie bei 16 in Fig. 1 bezeichnet. Die Überlappung 16 wird in den Zeitrahmen 14 vorgesehen, weil Abschnitte der Sprachsignale am Anfang und am Ende eines jeden Zeitrahmens bei der Verarbeitung der Signale in den Zeitrahmen relativ zu den Abschnitten der Signale in der Mitte des Zeitrahmens zu einer Verzerrung neigen.
- Die Blocksegmentierungsstufe 12 in Fig. 1 ist in einem Sprachdecodierer enthalten, der in Fig. 1 allgemein mit 18 bezeichnet ist. Eine Stimmhöhenschätzstufe, die allgemein mit 20 bezeichnet ist, schätzt die Stimmhöhenfrequenz oder Fundamentalfrequenz des Sprachsignals in jedem der Zeitrahmen 14 auf eine Anzahl unterschiedlicher Weisen, deren jede einen zusätzlichen Grad der Genauigkeit und/oder des Vertrauens in die Schätzung liefert. Die Stufen, welche die Stimmhöhenfrequenz auf unterschiedliche Weise schätzen, sind in Fig. 4 gezeigt.
- Die Sprachsignale in jedem der Zeitrahmen 14 laufen auch durch die Stufe 22, welche eine Frequenztransformation der Signale vorsieht, wie etwa eine Fourierfrequenztransformation. Die sich ergebenden Frequenzsignale sind in Fig. 7 allgemein mit 24 bezeichnet. Die Signale 24 in jedem der Zeitrahmen 14 laufen dann durch die Stufe 26. Die Codiererstufe 26 bestimmt die Amplitude und Phase der unterschiedlichen Frequenzkomponenten in den Sprachsignalen in jedem der Zeitrahmen 14 und wandelt diese Bestimmungen für die Übertragung zu einem Sprachdecodierer in ein binäres Format um, wie in Fig. 2 und 5 gezeigt. Die Stufen für das Vorsehen der Bestimmung von Amplituden und Phasen und für die Umwandlung dieser Bestimmungen in eine Form für die Übertragung zum Sprachdecodierer von Fig. 2 sind in Fig. 3 gezeigt.
- Fig. 4 veranschaulicht in zusätzlichem Detail die in Fig. 1 gezeigte Stimmhöhenschätzstufe 20. Die Stimmhöhenschätzstufe 20 umfasst eine Stufe 30 für den Empfang der Sprachsignale über eine Leitung 32 in einem ersten Zeitrahmen der Zeitrahmen 14 und für die Durchführung einer Frequenztransformation über solchen Sprachsignalen, wie etwa durch eine Fourierfrequenztransformation. Auf ähnliche Weise empfängt eine Stufe 34 die Sprachsignale über eine Leitung 36 in dem nächsten Zeitrahmen der Zeitrahmen 14 und führt eine Frequenztransformation über solchen Sprachsignalen durch, wie etwa durch eine Fourierfrequenztransformation. Auf diese Weise führt die Stufe 30 Frequenztransformation über den Sprachsignalen in jeden zweiten Zeitrahmen der Zeitrahmen 14 durch, und die Stufe 34 führt Frequenztransformation über den Sprachsignalen in den jeweils anderen Zeitrahmen durch. Die Stufen 30 und 34 führen Frequenztransformationen, wie etwa Fourierfrequenztransformationen, durch, um Signale bei unterschiedlichen Frequenzen zu erzeugen, die mit den Signalen 24 in Fig. 7 korrespondieren.
- Die Frequenzsignale von der Stufe 30 laufen zu einer Stufe 38, die eine logarithmische Berechnung über den Größen dieser Frequenzsignale durchführt. Dies bewirkt, dass die Größen der Spitzenamplituden der Signale 24 näher beieinander liegen als wenn die logarithmische Berechnung nicht vorgesehen worden wäre. Abstandsmessungen der Harmonischen werden über den logarithmischen Signalen von der Stufe 38 in der Stufe 40 vorgesehen. Die Abstandsmessungen der Harmonischen betreffen eine Bestimmung der Amplitudendifferenz zwischen der Spitze eines jeden Frequenzsignals und dem Tal, das dem Signal folgt. Dies wird in Fig. 8 veranschaulicht bei 42 für eine Spitzenamplitude für ein Frequenzsignal 24 und bei 44 für ein Tal, das der Spitzenamplitude folgt. Bei der Bestimmung der Differenz zwischen den Spitzenamplituden, wie etwa der Amplitude 42, und den Tälern, wie etwa dem Tal 44, werden die Positionen in dem Frequenzspektrum um die Spitzenamplitude herum und dem Tal ebenfalls in der Bestimmung berücksichtigt. Das Frequenzsignal; das die größte Differenz zwischen der Spitzenamplitude und dem nachfolgenden Tal in den Frequenzsignalen 24 bietet, stellt eine Schätzung der Stimmhöhenfrequenz der Sprachsignale in dem Zeitrahmen 14 dar. Diese Schätzung ist die Frequenz, an der die Spitzenamplitude solcher Frequenzsignale auftritt.
- Wie zu erkennen ist, haben weibliche Stimmen eine höhere Stimmhöhenfrequenz als männliche Stimmen. Dies führt dazu, dass die Anzahl der harmonischen Frequenzen in den Sprachsignalen von weiblichen Stimmen niedriger ist als jene in den Sprachsignalen von männlichen Stimmen. Da jedoch die Stimmhöhenfrequenz in den Sprachsignalen einer männlichen Stimme niedrig ist, kann der zeitliche Abstand zwischen aufeinanderfolgenden Signalen bei der Stimmhöhenfrequenz in jedem Zeitrahmen 14 ziemlich groß sein. Deshalb brauchen nur zwei (2) oder drei (3) Perioden bei der Stimmhöhenfrequenz in jedem Zeitrahmen 14 für eine männliche Stimme aufzutreten. Dies begrenzt die Fähigkeit, eine ge naue Bestimmung der Stimmhöhenfrequenz für eine männliche Stimme zu liefern.
- Bei dem Vorsehen einer Abstandsberechnung der Harmonischen liefert die Stufe 40 immer eine Bestimmung hinsichtlich der Sprachfrequenzen, ob die Stimme eine männliche Stimme oder eine weibliche Stimme ist. Wenn die Stimme jedoch eine weibliche Stimme ist, liefert die Stufe 40 eine zusätzliche Berechnung mit besonderer Berücksichtigung der Stimmhöhenfrequenzen, die normalerweise weiblichen Stimmen zugeordnet sind. Diese zusätzliche Berechnung ist vorteilhaft, weil es eine zunehmende Anzahl von Signalen bei der Stimmhöhenfrequenz weiblicher Stimmen in jedem Zeitrahmen 14 gibt, wodurch eine Verbesserung der Schätzung der Stimmhöhenfrequenz gegeben wird, wenn eine zusätzliche Berechnung in der Stufe 40 für weibliche Stimmen vorgesehen wird.
- Die Signale von der Stufe 40 für die Durchführung der Abstandsberechnung der Harmonischen durchlaufen eine Stufe 46 für einen Stimmhöhenfrequenzabgleich mit einer Synthese wiederhergestellter Harmonischen. Diese Synthese wiederhergestellter Harmonischen wird nachfolgend im Detail beschrieben in Verbindung mit der Beschreibung der Transformationscodiererstufe 26, welche in Blockform in Fig. 1 und in einer detaillierten Blockform in Fig. 3 gezeigt wird. Die Stufe 46 arbeitet so, dass die Bestimmung der Stimmhöhenfrequenz von der Stufe 40 über einen relativ kleinen Bereich oberhalb und unterhalb der bestimmten Stimmhöhenfrequenz verschoben wird, um einen optimalen Abgleich mit solcher Synthese der Harmonischen vorzusehen. Auf diese Weise wird die Bestimmung der Stimmhöhenfrequenz in jedem Zeitrahmen 14 verfeinert, falls in dieser Bestimmung noch immer eine Mehrdeutigkeit auftritt. Wie zu erkennen ist, kann eine Folge von 512 aufeinanderfolgenden Frequenzen in einer Binärfolge von neun (9) binären Bit dargestellt werden. Ferner fällt die Stimmhöhenfrequenz männlicher und weiblicher Stimmen allgemein in diesen Binärbereich von 512 diskreten Frequenzen. Wie unten zu sehen sein wird, wird die Stimmhöhenfrequenz eines Sprachsignals in jedem Zeitrahmen 14 durch neun (9) binäre Bit bezeichnet.
- Die Signale von der Stufe 46 werden an eine Stufe 48 für die Bestimmung des Abstands der Harmonischen übergeben. In der Stufe 48 werden die Spitzenamplituden aller ungeraden Harmonischen addiert, um einen kumulativen Wert zu ergeben, und die Spitzenamplituden aller geraden Harmonischen werden addiert, um einen anderen kumulativen Wert zu ergeben. Die zwei kumulativen Werte werden dann miteinander verglichen. Wenn der kumulati ve Wert für die geraden Harmonischen den kumulativen Wert für die ungeraden Harmonischen um einen bestimmten Wert, wie angenähert fünfzehn Prozent (15%), übersteigt, wird die niedrigste der geraden Harmonischen als die Stimmhöhenfrequenz ausgewählt. Andernfalls wird die niedrigste der ungeraden Harmonischen ausgewählt.
- Die Sprachsignale auf der Leitung 32 (für jeden zweiten Zeitrahmen 14) und auf der Leitung 36 (für die restlichen Zeitrahmen 14) werden in ein Tiefpassfilter 52 eingegeben. Das Filter 52 hat eine Charakteristik, die vollen Amplituden der Signalkomponenten in den Paaren aufeinanderfolgender Zeitrahmen mit Frequenzen von weniger als angenähert eintausend Hertz (1000 Hz) durchzulassen. Dies wird in Fig. 8 bei 54a veranschaulicht. Mit Zunahme der Frequenzkomponenten oberhalb von eintausend Hertz (1000 Hz) werden zunehmend Teile dieser Frequenzkomponenten herausgefiltert. Dies wird in Fig. 8 bei 54b veranschaulicht. Wie aus Fig. 8 zu erkennen ist, hat das Filter eine flache Kennlinie 54a bis ungefähr eintausend Hertz (1000 Hz), und die Kennlinie fällt dann relativ schnell bis zu einem Bereich von Frequenzen wie ungefähr achtzehnhundert Hertz (1800 Hz) ab. Das durch das Tiefpassfilter gefilterte Signal wird durch einen Faktor von zwei unterabgetastet, d. h. jeder zweite Wert wird verworfen. Dies ist konsistent mit der Theorie, da die Frequenzen oberhalb von 2000 Hz nahezu verschwunden sind.
- Die Signale, die das Tiefpassfilter 52 in Fig. 4 durchlaufen, werden in die Stufe 56 für das Durchführen einer Frequenztransformation, wie etwa einer Fourierfrequenztransformation, eingebracht. Durch Filterung zunehmender Amplituden der Signale mit fortschreitende Zu- nahme bei Frequenzen oberhalb von eintausend Hertz (1000 Hz) werden die frequenztransformierten Signale, die in Fig. 9 allgemein mit 58 bezeichnet sind, stärker im Frequenzspektrum ausgebreitet als die Signale in Fig. 7. Dies kann erkannt werden durch Vergleich des Frequenzspektrums der in Fig. 9 als Ergebnis der Filterung produzierten Signale mit dem Frequenzspektrum in Fig. 7. Das Ausweiten des Frequenzspektrums in Fig. 9 bewirkt eine Verbesserung der Auflösung in den Signalen. Z. B. kann die Frequenzauflösung um einen Faktor von zwei (2) vergrößert werden.
- Die Signale von dem Tiefpassfilter 52 werden auch in eine Stufe 60 für die Durchführung einer CEPSTRUM-Berechnung oder -Analyse eingegeben. Stufen, die eine CEPSTRUM- Berechnung oder -Analyse durchführen, sind nach dem Stand der Technik wohlbekannt. In solch einer Stufe wird die höchste Spitzenamplitude der gefilterten Signale in jedem Paar von aufeinander folgenden Zeitrahmen 14 bestimmt. Dieses Signal wird in Fig. 6 mit 62 bezeichnet. Die Zeit zwischen diesem Signal 62 und einem Signal 64 mit der nächsten Spitzenamplitude in dem Paar der nachfolgenden Zeitrahmen 14 kann dann bestimmt werden. Diese Zeitspanne wird in Fig. 6 mit 66 bezeichnet. Die Zeitspanne 66 wird dann in eine Stimmhöhenfrequenz für die Signale in den aufeinander folgenden Zeitrahmen 14 übersetzt.
- Die Bestimmung der Stimmhöhenfrequenz in der Stufe 60 wird in eine Stufe 66 in Fig. 4 eingebracht. Die Stufe 66 nimmt die Signale von einer Stufe 68 auf, die logarithmische Berechnungen über den Amplituden der Frequenzsignale von der Stufe 56 in einer Weise durchführt, welche ähnlich ist der oben für die Stufe 38 beschriebenen Weise. Die Stufe 66 führt Abstandsberechnungen der Harmonischen bei der Stimmhöhenfrequenz in einer Weise ähnlich der oben für die Stufe 40 beschriebenen Weise durch. Die Stufe 66 modifiziert dementsprechend (oder liefert eine Verfeinerung) der Bestimmung der Frequenz von der Stufe 60, falls es irgendeine Mehrdeutigkeit bei solch einer Bestimmung gibt. Alternativ kann die Stufe 60 angesehen werden als eine Modifizierung (oder Verfeinerung) der Signale von der Stufe 66. Wie zu erkennen ist, kann es eine Mehrdeutigkeit in der Bestimmung der Stimmhöhenfrequenz von der Stufe 60 geben, falls die Zeitbestimmung aus unterschiedlichen Spitzenamplituden als der höchsten Spitzenamplitude in den zwei (2) aufeinanderfolgenden Zeitrahmen durchgeführt wird, oder falls die Zeitspanne zwischen den aufeinander folgenden Spitzen keine präzise Anzeige der Stimmhöhenfrequenz liefert.
- Wie zuvor beschrieben, führt die Stufe 34 eine Frequenztransformation wie etwa eine Fourierfrequenztransformation über den Signalen auf der Leitung 36 durch, welche die Sprachsignale in den zweiten der jeweils zwei (2) aufeinander folgenden Zeitrahmen 14 in jedem Paar aufnimmt. Die Frequenzsignale von der Stufe 34 gehen zu einer Stufe 70, die eine logarithmische Größenberechnung oder -Analyse ergibt, welche mit den logarithmischen Größenberechnungen oder -Analysen korrespondiert, die von den Stufen 38 und 68 durchgeführt werden. Die Signale von der Stufe 70 gehen wiederum zu der Stufe 66, um eine weitere Verfeinerung der Bestimmung der Stimmhöhenfrequenz für die Sprachsignale in jedem Paar von zwei (2) aufeinander folgenden Zeitrahmen 14 vorsehen.
- Die Signale von der Stufe 66 gehen zu einer Stufe 74, welche einen Stimmhöhenfrequenz abgleich mit einer Synthese wiederhergestellter Harmonischer liefert. Diese Synthese wiederhergestellter Harmonischer wird im Detail anschließend in Verbindung mit der Beschreibung der Transformationscodiererstufe 26 beschrieben werden, welche in Blockform in Fig. 1 und in detaillierter Blockform in Fig. 3 gezeigt ist. Der von der Stufe 74 durchgeführte Stimmhöhenfrequenzabgleich korrespondiert mit dem von der Stufe 46 durchgeführte Stimmhöhenfrequenzabgleich. Die Stufe 74 arbeitet so, dass die Bestimmung der Stimmhöhenfrequenz von der Stufe 66 über einen relativ kleinen Bereich oberhalb und unterhalb der bestimmten Stimmhöhenfrequenz verschoben wird, um einen optimalen Abgleich mit solcher Synthese der Harmonischen vorzusehen. Auf diese Weise wird die Bestimmung der Stimmhöhenfrequenz in jedem Zeitrahmen 14 verfeinert, falls in dieser Bestimmung noch immer eine Mehrdeutigkeit auftritt.
- Eine Stufe 78 nimmt die verfeinerte Bestimmung der Stimmhöhenfrequenz von der Stufe 74 auf. Die Stufe 78 liefert eine weitere Verfeinerung der Bestimmung der Stimmhöhenfrequenz in jedem Zeitrahmen, falls in solch einer Bestimmung immer noch eine Mehrdeutigkeit liegt. Die Stufe 78 funktioniert so, dass sie die Summe der Amplituden aller ungeraden Harmonischen in den Frequenztransformationssignalen aufsammelt, welche durch die Stufe 74 ermittelt wurden, und die Summe der Amplituden aller geraden Harmonischen in den Frequenztransformationssignalen. Falls die aufgesammelte Summe aller geraden Harmonischen die aufgesammelte Summe aller ungeraden Harmonischen um einen bestimmten Wert, wie fünfzehn Prozent (15%) der aufgesammelten Summe aller ungeraden Harmonischen übersteigt, wird die niedrigste Frequenz der geraden Harmonischen als die Stimmhöhenfrequenz ausgewählt. Falls die aufgesammelte Summe aller geraden Harmonischen die aufgesammelte Summe aller ungeraden Harmonischen um diesen Schwellwert nicht übersteigt, wird die niedrigste Frequenz der ungeraden Harmonischen als die Stimmhöhenfrequenz ausgewählt. Die Arbeitsweise der Stufe 78 der Differenz der Harmonischen korrespondiert mit der Arbeitsweise der Stufe 48 der Differenz der Harmonischen.
- Die Signale von der Stufe 78 laufen zu einer Stimmhöheninterpolationsstufe 80. Die Stimmhöheninterpolationsstufe 80 nimmt über eine Leitung 82 auch Signale auf, welche die Signale repräsentieren, die von der Stufe 78 für einen (1) vorangegangenen Rahmen ermittelt wurden. Falls z. B. die Signale, die von der Stufe 78 zu der Stufe 80 laufen, die Stimmhöhenfrequenz repräsentieren, welche in den Zeitrahmen 1 und 2 bestimmt werden, repräsen tieren die Signale auf der Leitung 82 die Stimmhöhenfrequenz, die für den Rahmen 0 bestimmt wurde. Die Stufe 80 interpoliert zwischen der Stimmhöhenfrequenz, die für den Zeitrahmen 0 bestimmt wurde, und den Zeitrahmen 1 und 2, und produziert Information, welche die Stimmhöhenfrequenz für den Zeitrahmen 1 repräsentiert. Diese Information wird in die Stufe 40 eingebracht, um die Bestimmung der Stimmhöhenfrequenz in jener Stufe für den Zeitrahmen 1 zu verfeinern.
- Die Stimmhöheninterpolationsstufe 80 setzt auch heuristische Techniken ein, um die Bestimmung der Stimmhöhenfrequenz für den Zeitrahmen 1 zu verfeinern. Z. B. kann die Stufe 80 die Größe der Leistung in den Frequenzsignalen für tiefe Frequenzen in den Zeitrahmen 1 und 2 und dem Zeitrahmen 0 bestimmen. Die Stufe 80 kann auch das Verhältnis der kumulativen Größe der Leistung in den Frequenzsignalen bei tiefen Frequenzen (oder der kumulativen Größe der Amplituden solcher Signale) in solchen Zeitrahmen relativ zu der kumulativen Größe der Leistung in den Frequenzsignalen bei hohen Frequenzen (oder der kumulativen Größe der Amplituden solcher Signale) in solchen Zeitrahmen bestimmen. Diese Faktoren, wie auch andere Faktoren, können in der Stufe 80 bei der Verfeinerung der Stimmhöhenfrequenz für den Zeitrahmen 1 verwendet werden.
- Die Ausgabe von der Stimmhöheninterpolationsstufe 80 wird in die Stufe 40 der Abstandsberechnung der Harmonischen eingebracht, um die Bestimmung der Stimmhöhenfrequenz in der Stufe 38 zu verfeinern. Wie oben beschrieben, wird diese Bestimmung weiter verfeinert durch die Stimmhöhenabgleichstufe 46 und die Stufe 48 der Differenz der Harmonischen. Die Ausgabe der Stufe 48 der Differenz der Harmonischen bezeichnet in neun (9) binären Bits die verfeinerte Bestimmung der Stimmhöhenfrequenz für den Zeitrahmen 1. Diese sind die ersten neun Bits, welche zu dem in Fig. 2 gezeigten Sprachdecodierer übertragen werden, um dem Sprachdecodierer die Parameter anzuzeigen, welche die Charakteristiken der Sprachsignale in dem Zeitrahmen 1 identifizieren. Auf gleiche Weise zeigt die Stufe 78 der Differenz der Harmonischen in neun (9) binären Bits die verfeinerte Schätzung der Stimmhöhenfrequenz für den Zeitrahmen 2 an. Diese sind die ersten neun Bits, welche zu dem in Fig. 2 gezeigten Sprachdecodierer übertragen werden, um dem Sprachdecodierer die Parameter anzuzeigen, welche die Charakteristiken der Sprachsignale in dem Zeitrahmen 2 identifizieren. Wie zu erkennen ist, funktioniert das in Fig. 4 gezeigte und oben beschriebene System auf ähnliche Weise, um die Stimmhöhenfrequenz in aufeinander fol genden Paaren von Zeitrahmen, wie den Zeitrahmen 3 und 4, 5 und 6, u. s. w. zu bestimmen und zu codieren.
- Der Transformationscodierer 26 in Fig. 1 wird im Detail in Fig. 3 gezeigt. Der Transformationscodierer 26 umfasst eine Stufe 86 für die Bestimmung der Amplitude und Phase der Signale bei der Fundamentalfrequenz (Stimmhöhenfrequenz) und der Amplitude und Phase jeder der Harmonischen-Signale. Diese Bestimmung wird in einem Bereich von Frequenzen bis zu einer Bandbreite von angenähert vier Kilohertz (4 kHz) vorgesehen. Die Bestimmung wird auf ungefähr 4 Kilohertz (4 kHz) begrenzt, weil die Grenze von vier Kilohertz (4 kHz) mit der Grenze der Frequenzen korrespondiert, die in dem Telefonnetzwerk als Folge angenommener Standards angetroffen wird.
- Als ein erster Schritt bei der Bestimmung der Amplitude und Phase der Stimmhöhenfrequenz und der Harmonischen in jedem Zeitrahmen 14 teilt die Stufe 86 den Frequenzbereich bis viertausend Hertz (4000 Hz) in eine Anzahl von Frequenzblöcken auf, wie etwa zweiunddreißig (32). Die Stufe 86 teilt dann jeden Frequenzblock in eine bestimmte Anzahl von Gittern auf, wie etwa sechzehn (16). Mehrere Frequenzblöcke 9E3 und die Gitter 98 für einen der Frequenzblöcke sind in Fig. 12 gezeigt. Die Stufe 86 kennt aus der Bestimmung der Stimmhöhenfrequenz in jedem Zeitrahmen 14 den Frequenzblock, in dem jede harmonische Frequenz liegt. Die Stufe 86 bestimmt dann das bestimmte Gitter aus den sechzehn (16) Gittern, in welchem jede Harmonische in ihrem jeweiligen Frequenzblock liegt. Durch genaue Bestimmung der Frequenz eines jeden Harmonischen-Signals kann die Amplitude und Phase eines jeden Harmonischen-Signals mit einiger Genauigkeit bestimmt werden, wie im Detail nachfolgend beschrieben wird.
- Als ein erster Schritt bei der Bestimmung mit einiger Genauigkeit der Frequenz eines jeden Harmonischen-Signals in der Fourierfrequenztransformation, die in jedem Zeitrahmen 14 produziert wird, liefert die Stufe 86 eine Hamming-Fenster-Analyse der Sprachsignale in jedem Zeitrahmen 14. Eine Hamming-Fenster-Analyse ist in der Technik wohl bekannt. In einer Hamming-Fenster-Analyse werden die Sprachsignale 92 (Fig. 10) in jedem Zeitrahmen 14 durch eine Kurve modifiziert, die ein kuppelförmiges Muster 94 in Fig. 10 aufweist. Wie zu erkennen ist, hat das kuppelförmige Muster 94 eine größere Amplitude bei fortschreitenden Positionen zur Mitte des Zeitrahmens 14 hin als zu den Rändern der Zeitrah men. Diese relative Abschwächung der Sprachsignale an den gegenüberliegenden Rändern eines jeden Zeitrahmens 14 ist ein Grund, warum die Zeitrahmen sich überlappen, wie in Fig. 6 gezeigt.
- Wenn das Hamming-Muster 94 verwendet wird, um die Sprachsignale in jedem Zeitrahmen 14 zu modifizieren, und eine Fourierfrequenztransformation über dem sich ergebenden Muster für eine individuelle Frequenz durchgeführt wird, wird ein Frequenzmuster produziert, wie in Fig. 11 gezeigt. Dieses Frequenzmuster kann für eine der sechzehn (16) Gitter in dem Frequenzblock produziert werden, in dem die Existenz einer Harmonischen festgestellt wird: Ähnliche Frequenzmuster werden für die anderen fünfzehn (15) Gitter in dem Frequenzblock bestimmt. Das Gitter, welches am nächsten zu der Stelle einer gegebenen Harmonischen liegt, wird ausgewählt. Durch Bestimmung des ausgezeichneten Gitters der sechzehn (16) Gitter, in dem die Harmonische liegt, wird die Frequenz der Harmonischen mit größerer Genauigkeit bestimmt als nach dem Stand der Technik.
- Auf diese Weise werden die Amplitude und die Phase für eine jede Harmonische in jedem der Zeitrahmen 14 bestimmt. Die Phase einer jeden Harmonischen wird für jeden Zeitrahmen 14 durch Vergleich der Harmonischen-Frequenz in jedem Zeitrahmen 14 mit der Harmonischen-Frequenz der benachbarten Zeitrahmen codiert. Wie zu erkennen ist, ergeben sich Veränderungen in der Phase eines Harmonischen-Signals aus Veränderungen der Frequenz des Harmonischen-Signals. Da die Periode in jedem Zeitrahmen 14 relativ kurz ist, und da es eine zeitliche Überlappung zwischen benachbarten Zeitrahmen gibt, kann eine jede Veränderung in der Stimmhöhenfrequenz in aufeinander folgenden Zeitrahmen angesehen werden, dass sie zu einer Veränderung in der Phase führt.
- Als ein Ergebnis der oben dargestellten Analyse werden Paare von Signalen für jede Harmonischen-Frequenz erzeugt, wobei eines dieser Signale die Amplitude darstellt, und das andere die Phase darstellt. Diese Signale können dargestellt werden als a&sub1;&sub1;, a&sub2;&sub2;, a&sub3;&sub3;, u. s. w. In dieser Folge stellen
- a&sub1;, a&sub2;, a&sub3;, u. s. w. die Amplituden der Signale bei der Fundamentalfrequenz und die zweite, die dritte, u. s. w. Harmonischen in jedem Zeitrahmen 14 dar; und
- &sub1;, &sub2;, &sub3;, u. s. w. stellen die Phasen der Signale bei der Fundamentalfrequenz und die zweite, die dritte, u. s. w. Harmonischen in jedem Zeitrahmen 14 dar.
- Obgleich die Amplitudenwerte a&sub1;, a&sub2;, a&sub3;, u. s. w. und die Phasenwerte &sub1;, &sub2;, &sub3;, u. s. w. die Parameter der Signale bei der Fundamentalfrequenz (Stimmhöhenfrequenz) und den verschiedenen Harmonischen in jedem Zeitrahmen mit einiger Genauiglkeit repräsentieren können, liegen diese Werte nicht in einer Form vor, die von dem in Fig. 1 gezeigten Sprachcodierer zu einem allgemein in Fig. 2 mit 100 bezeichneten Sprachdecodierer übertragen werden kann. Die in Fig. 3 gezeigten Schaltkreise liefern eine Umwandlung der Amplitudenwerte a&sub1;, a&sub2;, a&sub3;, u. s. w. und der Phasenwerte &sub1;, &sub2;, &sub3;, u. s. w. in ein sinnvolles Binärformat für die Übertragung zu dem Sprachdecodierer 100 in Fig. 2 und für die Decodierung in dem Sprachdecodierer.
- Um solch eine Umwandlung zu erreichen, werden die Signale von der Stufe 86 für die Analyse der Harmonischen in Fig. 3 einer Stufe 104 übergeben, welche mit "Berechnung der Spektrumsform" bezeichnet ist. Die Stufe 104 empfängt auch die Signale von einer Stufe 102, die mit "Hole Bandamplitude" bezeichnet ist. Die Eingabe in die Stufe 102 korrespondiert mit der Eingabe in die Stufe 86. Die Stufe 102 bestimmt das Frequenzband, in dem die Amplitude des Signals auftritt.
- Als ein erster Schritt der Umwandlung der Amplituden a&sub1;, a&sub2;, a&sub3;, u. s. w. in sinnvolle und vereinfachte Binärwerte für die Übertragung zu einem Sprachdecodierer 100 werden die Logarithmen der Amplitudenwerte a&sub1;, a&sub2;, a&sub3;, u. s. w. in der Stufe 104 in Fig. 3 bestimmt. Die Verwendung der Logarithmen dieser Amplitudenwerte ist wünschenswert, weil die sich ergebenden Werte relativ zueinander komprimiert werden, ohne ihre Signifikanz mit Hinsicht zueinander zu verlieren. Die Logarithmen können hinsichtlich eines jeden passenden Basiswertes berechnet werden, wie etwa eines Basiswertes von zwei (2) oder eines Basiswertes von zehn (10).
- Die Logarithmuswerte der Amplituden werden dann in der Stufe 104 in Fig. 3 verglichen, um den Spitzenwert von allen diesen Amplituden auszuwählen. Dies wird in Fig. 13 schematisch angezeigt, indem die unterschiedlichen Frequenzsignale und die Amplituden dieser Signale schematisch angezeigt werden, und die Spitzenamplitude des Signals mit der größten Amplitude mit 106 bezeichnet ist. Die Amplituden aller anderen Frequenzsignale werden dann auf die Spitzenamplitude 106 als ein Basiswert skaliert. Mit anderen Worten:
- die Differenz zwischen der Spitzenamplitude 106 und der Größe einer jeden der verbleibenden Amplitudenwerte a&sub1;, a&sub2;, a&sub3;, u. s. w. wird bestimmt. Diese Differenzwerte werden in Fig. 14 schematisch bei 108 angezeigt.
- Die Differenzwerte 108 in Fig. 14 werden als Nächstes gestaucht. Eine Stauchungsoperation ist in der Technik wohl bekannt. In einer Stauchungsoperation werden die in Fig. 14 gezeigten Differenzwerte bei Werten am oberen Ende des Amplitudenbereichs zunehmend komprimiert. Dies wird in Fig. 15 schematisch bei 110 angezeigt. Die Amplitudenwerte in der Nähe der Spitzenwerte in Fig. 13 werden durch die Stauchungsoperation relativ zu den Amplituden mit niedrigem Wert in Fig. 13 betont.
- Als nächster Schritt bei der Umwandlung der Amplitudenwerte a&sub1;, a&sub2;, a&sub3;, u. s. w. in ein sinnvolles und vereinfachtes Binärformat wird die Anzahl solcher Werte in der Stufe 104 auf einen bestimmten Wert, wie etwa fünfundvierzig (45) begrenzt, falls die Anzahl der Amplitudenwerte fünfundvierzig (45) übersteigt. Diese Grenze wird auferlegt durch Verwerfen der Harmonischen mit den höchsten Frequenzwerten. Ein Verwerfen der Harmonischen mit den höchsten Frequenzen führt nicht zu einer Verschlechterung der getreuen Wiedergabe von Klängen, da die meiste, den Klang betreffende Information in den unteren Frequenzen liegt.
- Als ein nächster Schritt wird die Anzahl der Harmonischen in der Stufe 104 auf eine passende Anzahl wie etwa sechzehn (16) begrenzt, falls die Anzahl der Harmonischen zwischen sechzehn (16) und zwanzig (20) liegt. Dies wird erreicht durch Verwerfen jeder zweiten der Harmonischen am oberen Ende des Frequenzbereichs, falls die Anzahl der Harmonischen zwischen sechzehn (16) und zwanzig (20) liegt. Falls die Anzahl der Harmonischen kleiner als sechzehn (16) ist, wird die Anzahl der Harmonischen auf sechzehn (16) erhöht durch Paaren aufeinanderfolgender Harmonischer am oberen Frequenzende, um zusätzliche Harmonische zwischen den gepaarten Harmonischen zu bilden und durch Interpolation der Amplituden der zusätzlichen Harmonischen entsprechend den Amplituden der gepaarten Harmonischen.
- Falls die Anzahl der Harmonischen größer als vierundzwanzig (24) ist, wird auf gleiche Weise jede zweite der Harmonischen am oberen Ende des Frequenzbereichs beseitigt, bis die Anzahl der Harmonischen auf vierundzwanzig (24) reduziert ist. Falls die Anzahl der Har monischen zwischen einundzwanzig (21) und vierundzwanzig (24) liegt, wird die Anzahl der Harmonischen auf vierundzwanzig (24) erhöht durch Paaren aufeinanderfolgender Harmonischer am oberen Frequenzende, um zusätzliche Harmonische zwischen den gepaarten Harmonischen zu bilden und durch Interpolation der Amplituden der zusätzlichen Harmonischen entsprechend den Amplituden der gepaarten Harmonischen.
- Nachdem die Anzahl der Harmonischen auf sechzehn (16) oder vierundzwanzig (24) abhängig von der Anzahl der in der Fourierfrequenztransformation erzeugten Harmonischen begrenzt worden ist, wird in der Stufe 104 über der begrenzten Anzahl von Harmonischen eine diskrete Kosinustransformation durchgeführt. Die diskrete Kosinustransformation ist in der Technik wohl bekannt als vorteilhaft für die Kompression korrelierter Signale, wie etwa in einer Spektrumsform. Die diskrete Kosinustransformation wird über den vollständigen Bereich der sechzehn (16) oder vierundzwanzig (24) Harmonischen durchgeführt. Die ist unterschiedlich zu dem Stand der Technik, weil nach dem Stand der Technik verschiedene diskrete Kosinustransformationen der Harmonischen ermittelt werden, deren jede auf angenähert acht (8) Harmonische begrenzt ist. Jedoch wird nach dem Stand der Technik die Gesamtzahl der Frequenzen in der Transformation nicht begrenzt, wie in dem System dieser Erfindung vorgesehen wird, wenn die Anzahl auf sechzehn (16) oder vierundzwanzig (24) begrenzt wird.
- Die Ergebnisse, welche von der im vorangehenden Absatz diskutierten diskreten Kosinustransformation erreicht wurden, werden anschließend durch eine Stufe 110 in eine bestimmte Anzahl von Binärbits umgewandelt, um diese Ergebnisse zu repräsentieren. Z. B. können die Ergebnisse in achtundvierzig (48), vierundsechzig (64) oder achtzig (80) Binärbits umgewandelt werden. Die Anzahl der Binärbits wird vorbestimmt, so dass der Sprachdecodierer 100 weiß, wie solche Binärbits zu decodieren sind. Bei der Codierung der Ergebnisse der diskreten Kosinustransformation wird vorzugsweise ein größeres Gewicht auf die niedrigeren Frequenzkomponenten der diskreten Kosinustransformation rellativ zu den höheren Frequenzkomponenten gelegt. Z. B. kann zur Veranschaulichung die Anzahl der Binärbits, die verwendet werden, um aufeinanderfolgende Werte von der diskreten Kosinustransformation zu bezeichnen, eine Folge von 5, 5, 4, 4, 3, 3, 3, . . ., 2, 2, . . ., 0, 0, 0 sein. In dieser Folge repräsentiert jede folgende Zahl von links eine Komponente mit fortschreitend höherer Frequenz. Die 48, 64 oder 80 Binärbits, welche die Ergebnisse der diskreten Kosi nustransformation darstellen, werden zum Sprachdecodierer 100 in Fig. 2 nach der Übertragung der neun (9) Binärbits übertragen, welche die Stimmhöhenfrequenz oder Fundamentalfrequenz repräsentieren.
- Eine Stufe 112 in Fig. 3 empfängt von der Stufe 104 die Signale, welche die diskrete Kosinustransformation repräsentieren, und rekonstruiert diese Signale in eine Form, die mit den Fourierfrequenztransformationssignalen korrespondiert, welche in die Stufe 86 eingebracht wurden. In einem ersten Schritt dieser Rekonstruktion empfängt die Stufe 112 die Signale von der Stufe 104 und liefert eine Umkehrung der diskreten Kosinustransformation. Die Stufe 112 weitet dann die Anzahl der Harmonischen aus, um mit den Anzahl der Harmonischen in den Fourierfrequenztransformationssignalen übereinzustimmen, welche in die Stufe 86 eingebracht wurden. Die Stufe 112 erreicht dies durch Interpolation zwischen den Amplituden aufeinander folgender Paare von Harmonischen am oberen Ende des Frequenzbereichs. Die Stufe 112 führt dann eine Entstauchungsoperation durch, in der die Umkehrung der Stauchungsoperation durch die Stufe 110 durchgeführt wird. Die Signale sind nun in einer Form, die mit der in Fig. 14 gezeigten Form korrespondiert.
- Um die Signale in die Form umzuwandeln, die in Fig. 13 gezeigt ist, wird eine Differenz zwischen der in Fig. 13 gezeigten Spitzenamplitude 106 für jede Harmonische und der in Fig. 14 gezeigten Amplitude für jede Harmonische bestimmt. Die sich erlebenden Amplituden korrespondieren mit denjenigen, die in Fig. 13 gezeigt sind, unter der Annahme, dass jeder Schritt in der von der Stufe 112 gegebenen erneuten Umwandlung ideale Berechnungen liefert. Die Signale, die mit den in Fig. 13 gezeigten Signalen korrespondieren, werden dann in der Stufe 112 verarbeitet, um die logarithmischen Werte zu beseitigen, und um Fourierfrequenztransformationssignale zu ermitteln, welche mit den in die Stufe 86 eingebrachten Signalen korrespondieren.
- Die von der Stufe 112 erneut konstruierten Fourierfrequenztransformationssignale werden in eine Stufe 116 eingebracht. Die Fourierfrequenztransformationssignale, welche zur Stufe 86 gehen, werden auch in die Stufe 116 eingebracht für den Vergleich mit den erneut konstruierten Fourierfrequenztransformationssignalen in der Stufe 116. Um diesen Vergleich durchzuführen, werden die Fourierfrequenztransformationssignale von jeder der Stufen 86 und 112 angesehen als in zwölf (12) Frequenzschlitzen oder -fächern angeordnet, wie in Fig. 16 gezeigt. Jede der zwölf Frequenzschlitze oder -fächer hat einen unterschiedlichen Bereich von Frequenzen als die anderen Frequenzschlitze oder -fächer. Die Anzahl der Frequenzschlitze oder -fächer ist willkürlich, aber zwölf (12) ist vorzuziehen. Es ist zu erkennen, dass mehr als eine (1) Harmonische in jedem Frequenzschlitz oder -fach 118 liegen kann.
- Die Stufe 116 vergleicht die Amplituden der Fourierfrequenztransformationssignale von der Stufe 112 in jedem Frequenzschlitz oder -fach 118 und die Signale, die in die Stufe 86 für jenen Frequenzschlitz oder -fach 118 eingebracht wurden. Falls der Amplitudenvergleich innerhalb eines bestimmten Faktors für einen individuellen Frequenzschlitz oder -fach 118 liegt, produziert die Stufe 116 eine binäre "1" für den Frequenzschlitz oder -fach 118. Falls der Amplitudenvergleich nicht innerhalb eines bestimmten Faktors für einen individuellen Frequenzschlitz oder -fach 118 liegt, produziert die Stufe 116 eine binäre "0" für den Frequenzschlitz oder -fach 118. Der bestimmte Faktor kann von der Stimmhöhenfrequenz und von anderen Qualitätsfaktoren abhängen.
- Fig. 16 veranschaulicht, wann eine binäre "1" in einem Frequenzschlitz oder -fach 118 erzeugt wird, und wann eine binäre "0" in einem Frequenzschlitz oder -fach 118 erzeugt wird. Wie zu erkennen ist, wird eine binäre "1" in einem Frequenzschlitz oder -fach 118 erzeugt, wenn die Korrelation zwischen den Signalen in den Stufen 86 und 112 hoch ist, wie durch ein Signal großer Amplitude angezeigt. Wenn jedoch die Korrelation gering ist, wie durch ein Signal niedriger Amplitude angezeigt wird, wird eine binäre "0" für einen Frequenzschlitz oder -fach 118 erzeugt. Die Stufe 116 liefert eine binäre "1" nur in den Frequenzschlitzen oder -fächern 118, in denen die Stufe 104 erfolgreich war bei der Umwandlung der Frequenzanzeichen in der Stufe 86 in eine Form, die eng den Anzeichen in der Stufe 86 folgt. In den Frequenzschlitzen oder -fächern 118, in denen solch eine Umwandlung nicht erfolgreich war, liefert die Stufe 116 eine binäre "0".
- In der Stufe 116 kann eine Nachverarbeitung vorgesehen werden, um zu überprüfen, ob der Binärwert für einen Frequenzschlitz oder -fach 118 eine binäre "1" oder eine binäre "0" ist. Falls z. B. die Binärwerte aufeinanderfolgender Frequenzschlitze oder -fächer "00100" ist, kann der Binärwert "1" in dieser Folge in dem betrachteten Zeitrahmen 14 in der Stufe 116 auf der Basis von Heuristik überdacht werden. Unter diesen Umständen könnte der Binärwert für diesen Frequenzschlitz oder -fach 118 in benachbarten Zeitrahmen 14 ebenfalls analysiert werden, um zu überprüfen, ob der Binärwert für diesen Frequenzschlitz oder -fach 118 in dem betrachteten Zeitrahmen 14 tatsächlich eine binäre "0" statt einer binären "1" sein sollte.
- Die zwölf (12) Binärbits, die eine binäre "1" oder eine binäre "0" in jedem der zwölf (12) Frequenzschlitze oder -fächer 118 in jedem der Zeitrahmen 14 repräsentieren, werden der Stufe 110 in Fig. 3 für die Übertragung zu dem in Fig. 2 gezeigten Sprachdecodierer 100 übergeben. Diese zwölf (12) Binärbits in jedem Zeitrahmen können unmittelbar stach den neun (9) Binärbits erzeugt werden, welche die Stimmhöhenfrequenz repräsentieren, und können gefolgt werden von den 48, 64 oder 80 Binärbits, welche die Amplituden der unterschiedlichen Harmonischen repräsentieren. Eine binäre "1" in irgendeinem dieser zwölf (12) Frequenzschlitze oder -fächer 118 kann angesehen werden als Repräsentant der gesprochenen Signale für solche Frequenzschlitze oder -fächer. Eine bitte "0" in irgendeinem dieser zwölf (12) Frequenzschlitze oder -fächer 118 kann angesehen werden als Repräsentant der ungesprochenen Signale für solche Frequenzschlitze oder -fächer. Für einen Frequenzschlitz oder -fach, in dem ungesprochene Signale erzeugt werden, kann die Amplitude der Harmonischen oder der mehreren Harmonischen betrachtet werden als Repräsentant von Rauschen mit einem Durchschnitt des Amplitudenpegels der Harmonischen oder der mehreren Harmonischen in solchen Frequenzschlitz oder -fach.
- Die Binärwerte, welche die gesprochenen (binäre "1") oder ungesprochenen (binäre "0") Signale von der Stufe 116 repräsentieren, werden der Stufe 104 zugeführt. Für die Frequenzschlitze oder -fächer 118, in denen eine binäre "1" durch die Stufe 116 erzeugt wurde, erzeugt die Stufe 104 Binärsignale, welche die Amplituden in den Frequenzschlitzen oder -fächern repräsentieren. Diese Signale werden durch die Stufe 110 codiert, und über eine Leitung 124 zu dem in Fig. 2 gezeigten Decodierer übertragen. Wenn von der Stufe 116 für einen Frequenzschlitz oder -fach 118 eine binäre "0" erzeugt wird, erzeugt die Stufe 104 "Rausch"-Signale mit einer Amplitude, welche die Durchschnittsamplitude der Signale in dem Frequenzschlitz oder -fach repräsentiert. Diese Signale werden durch die Stufe 110 in eine binäre Form codiert und über die Leitung 124 zu dem Sprachdecodierer übertragen.
- Die Phasensignale &sub1;, &sub2;, &sub3;, u. s. w. für aufeinander folgende Harmonische in jedem Zeitrahmen 14 werden in einer Stufe 120 in Fig. 3 in eine Form für die Übertragung zu dem Sprachdecodierer 100 umgewandelt. Falls die Phase der Signale für eine Harmonische mindestens eine bestimmte Kontinuität in einem bestimmten Zeitrahmen 14 mit der Phase der Signale für die Harmonische in dem vorangehenden Zeitrahmen hat, wird die Phase des Signals für die Harmonische in dem bestimmten Zeitrahmen aus der Phase der Signale für die Harmonische in dem vorangehenden Zeitrahmen vorhergesagt. Die Differenz zwischen der tatsächlichen Phase und dieser Vorhersage ist es, was für die Phase des Signals für die Harmonische in dem bestimmten Zeitrahmen übertragen wird. Für eine bestimmte Anzahl von Binärbits zur Repräsentation solcher Harmonischen kann diese Differenzvorhersage mit größerer Genauigkeit zu dem Sprachdecodierer 100 übertragen werden als die Information, welche die Phase des Signals repräsentiert, die solche Harmonische in solchem bestimmten Zeitrahmen bildet. Falls die Phase des Signals für solche Harmonische in solchem bestimmten Zeitrahmen jedoch nicht die bestimmte Kontinuität mit der Phase des Signals für solche Harmonische in dem vorangehenden Zeitrahmen hat, wird die Phase des Signals für solche Harmonische in solchen bestimmten Zeitrahmen zu dem Sprachdecodierer 100 übertragen.
- Wie bei der Amplitudeninformation ist eine bestimmte Anzahl von Binärbits vorgesehen, um die Phase oder die Differenzvorhersage der Phase für jede Harmonische in jedem Zeitrahmen zu repräsentieren. Die Anzahl der Binärbits, welche die Phase oder die Differenzvorhersage der Phase für jede Harmonische in jedem Zeitrahmen repräsentieren, wird berechnet als die Gesamtzahl der Bits, die für den Zeitrahmen verfügbar ist, minus der für die zuerst genannte Information verwendete Anzahl. Die Phasen oder die Differenzvorhersagen der Phasen der Signale mit niedrigeren harmonischen Frequenzen werden repräsentiert durch eine größere Anzahl von Binärwerten als die Phasen oder die Differenzvorhersagen der Phasen der Signale mit höheren Frequenzen.
- Die Binärbits, welche die Phasen oder die Differenzvorhersagen der Phasen für die Signale der verschiedenen Harmonischen in jedem Zeitrahmen 14 repräsentieren, werden in einer Stufe 130 in Fig. 3 erzeugt, wobei diese Stufe als "Phasencodierung" bezeichnet wird. Die Binärbits, welche die Phasen oder die Differenzvorhersagen der Phasen für die Signale der verschiedenen Harmonischen in jedem Zeitrahmen 14 repräsentieren, werden über eine Leitung 132 in jedem Zeitrahmen 14 nach den Binärbits übertragen, welche die Amplituden der Signale bei den verschiedene Harmonischen in jedem Zeitrahmen 14 repräsentieren.
- Der Sprachdecodierer 100 wird in einer vereinfachten Blockform in Fig. 2 gezeigt. Der Sprachdecodierer 100 umfasst ein Leitung 140, welche die codierten Sprachsignale von dem Sprachcodierer 18 empfängt. Eine Transformationsdecodiererstufe, die allgemein mit 142 bezeichnet ist, verarbeitet diese Signale, welche die Stimmhöhenfrequenz und die Amplituden und Phasen der Stimmhöhenfrequenz und der Harmonischen anzeigen, um die Signale wiederherzustellen, welche die Stimmhöhenfrequenz und die Harmonischen repräsentieren. Eine Stufe 144 führt eine Umkehrung einer Fourierfrequenztransformation über den wiederhergestellten Signalen durch, welche die Stimmhöhenfrequenz und die Harmonischen repräsentieren, um die Signale in Zeitbereichsform wiederherzustellen. Diese Signale werden in der Stufe 144 durch Kompensation der Effekte des in Fig. 10 gezeigten Hamming-Fensters weiterverarbeitet. Die Stufe 144 teilt durch das Hamming-Fenster 94, um die Multiplikation mit dem Hamming-Fenster in dem Sprachcodierer 18 zu kompensieren. Die Signale in der Zeitbereichsform werden dann in einer Stufe 146 in Sprachsignale in aufeinander folgenden Zeitrahmen 14 getrennt durch Berücksichtigung der Zeitüberlappung, welche immer noch in den Signalen von der Stufe 144 verblieben sind. Diese Zeitüberlappung ist in Fig. 6 mit 16 bezeichnet.
- Die Transformationsdecodiererstufe 142 wird in Blockform mit zusätzlichem Detail in Fig. 5 gezeigt. Der Transformationsdecodierer 142 umfasst eine Stufe 150 für den Empfang der 48, 64 oder 80 Bits, welche die Amplituden der Stimmhöhenfrequenz und der Harmonischen repräsentieren, und für die Decodierung dieser Signale, um die Amplituden der Stimmhöhenfrequenz und der Harmonischen zu bestimmen. Bei der Decodierung solcher Signale führt die Stufe 150 eine Folge von Schritten aus, welche in umgekehrter Reihenfolge sind zu den Schritten, die während der Codierungsoperation durchgeführt wurden, und welche die Umkehrungen solcher Schritte sind. Als ein erster Schritt bei solcher Decodierung führt die Stufe 150 die Umkehrung einer diskreten Kosinustransformation über solchen Signalen aus, um die Frequenzkomponenten der Sprachsignale in jedem Zeitrahmen 14 zu ermitteln.
- Wie zu erkennen ist, hängt die Anzahl der als Ergebnis der umgekehrten diskreten Kosinustransformation erzeugten Signale von der Anzahl der Harmonischen in den Sprachsignalen beim Sprachcodierer 18 in Fig. 1 ab. Die Anzahl der Harmonischen wird dann ausgeweitet oder komprimiert auf die Anzahl der Harmonischen beim Sprachcodierer 18 durch Interpo lation zwischen aufeinander folgenden Paaren von harmonischen am oberen Ende des Frequenzbereichs. Die Anzahl der Harmonischen in den Sprachsignalen beim Sprachcodierer 18 in jedem Zeitrahmen kann bestimmt werden aus der Stimmhöhenfrequenz der Sprachsignale in dem Zeitrahmen. Falls eine Ausweitung der Anzahl der Harmonischen vorkommt, kann die Amplitude eines jeden dieser interpolierten Signale bestimmt werden durch Mittelwertbildung der Amplituden der Harmonischen-Signale mit Frequenzen unmittelbar über und unter der Frequenz dieses interpolierten Signals.
- Eine Entstauchungsoperation wird dann über der erweiterten Anzahl von Harmonischen- Signalen durchgeführt. Diese Entstauchungsoperation ist die Umkehrung der Stauchungsoperation, welche in der in Hg. 1 und im Detail in Fig. 3 gezeigten Transformationscodiererstufe 26 durchgeführt und schematisch in Fig. 15 gezeigt wird. Die entstauchten Signale werden dann auf eine Basis von Null (0) als Bezug wiederhergestellt von der Spitzenamplitude aller Harmonischen-Signale als eine Referenz. Dies korrespondiert mit einer Umwandlung der Signale von der in Fig. 14 gezeigten Form zu einer in Fig. 13 gezeigten Form.
- Eine Phasendecodiererstufe 152 in Fig. 5 empfängt die Signale von der Amplitudendecodiererstufe 150. Die Phasendecodiererstufe 152 bestimmt die Phasen &sub1;, &sub2;, &sub3;, u. s. w. für die aufeinanderfolgenden Harmonischen in jedem Zeitrahmen 14. Die Phasendecodiererstufe 152 erreicht dies durch Decodierung der Binärbits, welche die Phase einer jeden Harmonischen in jedem Zeitrahmen 14 anzeigen, oder durch Decodierung der Binärbits, welche die Differenzvorhersagen der Phase für solche Harmonischen in solchen Zeitrahmen 14 anzeigen. Wenn die Phasendecodiererstufe 152 die Differenzvorhersage der Phase einer Harmonischen in einem bestimmten Zeitrahmen 14 decodiert, erreicht sie dies durch Bestimmung der Phase für solche Harmonische in dem vorangehenden Zeitrahmen 14 und durch Modifizieren solcher Phase in dem bestimmten Zeitrahmen 14 entsprechend der Phasenvorhersage für solchen Zeitrahmen.
- Die decodierten Phasensignale von der Phasendecodiererstufe 152 werden in eine Harmonischen-Rekonstruktionsstufe 154 eingebracht, wie auch die Signale von der Amplitudendecodiererstufe 150. Die Harmonischen-Rekonstruktionsstufe 154 verarbeitet die Amplitudensignale von der Amplitudendecodiererstufe 150 und die Phasensignale von der Phasendecodiererstufe 152 für jeden Zeitrahmen 14, um die Harmonischen-Signale in solchem Zeitrahmen wiederherzustellen. Die Harmonischen-Rekonstruktionsstufe 154 rekonstruiert die Harmonischen in jedem Zeitrahmen 14 durch Bereitstellen des Frequenzmusters (Fig. 11) bei verschiedenen Frequenzen, um das Muster bei solchen verschiedenen Frequenzen der in die Stufe 154 eingebrachten Signale zu bestimmen.
- Die Signale von der Harmonischen-Rekonstruktionsstufe 154 werden einer Harmonischen- Synthesestufe 158 zugeführt. Die Stufe 158 arbeitet, um die Fourierfrequenzkoeffizienten durch Positionierung der Harmonischen und Multiplizieren dieser Harmonischen mit der Fourierfrequenztransformation des in Fig. 10 gezeigten Hamming-Fensters 94 zu synthetisieren. Die Signale von der Harmonischen-Synthesestufe 158 laufen zu einer Stufe 160, in der die ungesprochenen Signale (binäre "0") in den Frequenzschlitzen oder -fächern 118 (Fig. 16) auf einer Leitung 167 zugeführt und verarbeitet werden. In diesen Frequenzschlitzen oder -fächern 118 werden Signale mit einem Rauschpegel, der durch den durchschnittlichen Amplitudenpegel der Harmonischen-Signale in solchen Frequenzschlitzen oder fächern 118 repräsentiert wird, auf der Leitung 168 zugeführt. Diese Signale werden in der Stufe 160 verarbeitet, um die Frequenzkomponenten in solchen Frequenzschlitzen wiederherzustellen. Wie vorstehend dargestellt, werden die Signale von der Stufe 160 in der Stufe 144 in Fig. 2 der Umkehrung der Fourierfrequenztransformation unterzogen. Die sich ergebenden Signale liegen im Zeitbereich, und werden durch die Umkehrung des in Fig. 10 gezeigten Hamming-Fensters 94 modifiziert. Diese Signale von der Stufe 144 repräsentieren dementsprechend die SprachsignaUe in den aufeinander folgenden Zeitrahmen 14. Die Überlappung in den aufeinander folgenden Zeitrahmen 14 wird in der Stufe 146 entfernt, um die Sprachsignale in einem kontinuierlichen Muster wiederherzustellen.
- Der Apparat und die Verfahren, welche oben beschrieben wurden, haben bestimmte wichtige Vorteile. Sie wenden eine Vielzahl unterschiedlicher Techniken an, um die Stimmhöhenfrequenz in jedem einer Folge sich überlappender Zeitrahmen zu bestimmen und dann die Bestimmung zu verfeinern. Sie wenden verfeinerte Techniken an, um die Amplitude und Phase der Stimmhöhenfrequenzsignale und der Harmonischen-Signale in den Sprachsignalen eines jeden Zeitrahmens zu bestimmen. Sie wenden auch verfeinerte Techniken an, um die Amplituden und Phasen der Stimmhöhenfrequenzsignale und der Harmonischen- Signale in eine binäre Form umzuwandeln, welche die Amplituden und Phasen solcher Signale genau repräsentiert.
- Der Apparat und die Verfahren, welche in dem vorangehenden Absatz beschrieben wurden, werden in dem Sprachcodierer angewandt. Der Sprachdecodierer verwendet verfeinerte Techniken, welche die Umkehrung jener sind, und welche in umgekehrter Reihenfolge wie jene im Sprachdecodierer ausgeführt werden, um die Sprachsignale wiederherzustellen. Der Apparat und die Verfahren, welche in dem Sprachdecodierer angewendet werden, sind verfeinert, um in umgekehrter Reihenfolge und auf einer umgekehrten Basis die codierten Signale zu verarbeiten, um die in den Sprachcodierer eingegebenen Sprachsignale wiederherzustellen.
- Obgleich diese Erfindung mit Bezug auf bestimmte Ausführungsformen offengelegt und veranschaulicht wurde, sind die betroffenen Grundsätze verwendbar in zahlreichen anderen Ausführungsformen, was den in der Technik bewanderten offensichtlich ist. Diese Erfindung wird deshalb nur begrenzt, wie durch den Umfang der angefügten Ansprüche angezeigt.
Claims (40)
1. Codierer (18) für die Codierung von eingegebenen Sprachsignalen mit einer
Blocksegmentierungseinrichtung (12) für die Aufteilung der Sprachsignale in aufeinander
folgende Zeitrahmen (14), einer Stimmhöhenschätzeinrichtung (20), die auf die
Blocksegmentierungseinrichtung (12) folgt, für die Schätzung der Stimmhöhe der Sprachsignale in jedem
der Zeitrahmen (14), einer Frequenztransformationseinrichtung (22), die auf die
Stimmhöhenschätzeinrichtung (20) folgt, für die Bereitstellung einer Frequenztransformation der
Sprachsignale in jedem der Zeitrahmen (14) und einer
Transformationscodierungseinrichtung (26), die auf die Stimmhöhenschätzeinrichtung (20) und
Frequenztransformationseinrichtung (22) folgt, für die Bestimmung der Amplitude und Phase der unterschiedlichen
Frequenzkomponenten in dem Sprachsignal in jedem der Zeitrahmen (14) und für die
Umwandlung dieser Bestimmungen in binäre Form, wobei die Stimmhöhenschätzeinrichtung
(20)
gekennzeichnet ist durch
eine Empfangseinrichtung (32, 36) für die Kombinierung der Sprachsignale in aufeinander
folgenden Paaren von Zeitrahmen (14), um eine verbesserte Auflösung der Sprachsignale
in jedem der Zeitrahmen (14) zu erreichen,
eine Transformationseinrichtung (30, 34), die auf die Empfangseinrichtung (32, 36) folgt, für
die Ermittlung einer Frequenztransformation der Sprachsignale in Frequenzsignale in jedem
der aufeinander folgenden Paare von Zeitrahmen (14),
eine Logarithmiereinrichtung (38,70), die auf die Frequenztransformationseinrichtung (30,
34) folgt, für die Durchführung einer Logarithmusberechnung der Größen der
Frequenzsignale,
eine Filtereinrichtung (52), die auf die Empfangseinrichtung (32, 36) folgt, für das
Durchlassen der Sprachsignale in einem ersten, bestimmten Bereich von Frequenzen in jedem der
aufeinander folgenden Paare der Rahmen und für das Vorsehen einer zunehmenden
Filterung solcher Sprachsignale für ansteigende Frequenzen oberhalb des ersten, bestimmten
Bereichs in jedem der aufeinander folgenden Paare der Zeitrahmen, und
eine Frequenztransformationseinrichtung (56), die auf die Filtereinrichtung (52) folgt, für die
Verarbeitung der Signale zur Bestimmung der Stimmhöhenfrequenz der Sprachsignale in
jedem der aufeinander folgenden Paare der Zeitrahmen (14).
2. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach Anspruch 1,
wobei die Stimmhöhenschätzeinrichtung (20) ferner
gekennzeichnet ist durch
eine CEPSTRUM-Berechnungseinrichtung (60), die auf die Filtereinrichtung (52) folgt, für
das Vorsehen einer CEPSTRUM-Bestimmung der Sprachstimmhöhenfrequenz in den
aufeinander folgenden Zeitrahmen (14), und
eine erste Berechnungseinrichtung des Abstands der Harmonischen (66), die auf die
CEPSTRUM-Berechnungseinrichtung (60) folgt, für die Bestimmung der Differenz in der
Amplitude zwischen der Spitze (42) des Frequenzsignals und des Tals (44), das dem
Frequenzsignal folgt.
3. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach Anspruch 2,
wobei die Stimmhöhenschätzeinrichtung (20) ferner
gekennzeichnet ist durch
eine Stimmhöheninterpolationseinrichtung (80), die auf die durch die
CEPSTRUM-Berechnungseinrichtung (60) und die erste Berechnungseinrichtung des Abstands der
Harmonischen (66) ermittelte Erkennung reagiert, für die Anwendung heuristischer Techniken auf
die CEPSTRUM-Bestimmung und die Differenz in der Amplitude zwischen einem
Spitzenwert (42) des Frequenzsignals und einem nachfolgendem Talwert (44) des Frequenzsignals
für die Verfeinerung der Bestimmung der Sprachstimmhöhenfrequenz.
4. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach Anspruch 3,
wobei die Stimmhöheninterpolationseinrichtung (80) ferner
gekennzeichnet ist durch
eine Einrichtung für die Bestimmung der Größe der Leistung bei niedrigen Frequenzen in
der Sprache in aufeinander folgenden Zeitrahmen (14), und
eine Einrichtung für die Bestimmung des Verhältnisses der kumulativen Größe der Leistung
des niederfrequenten Signals relativ zu der kumulativen Größe der Leistung des
hochfrequenten Signals in aufeinander folgenden Zeitrahmen (14).
5. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach irgendeinem
der Ansprüche 2 bis 4, wobei die Stimmhöhenschätzeinrichtung (20) ferner
gekennzeichnet ist durch
eine Einrichtung für die Auswahl einer bestimmten Anzahl von Signalen mit den höchsten
Spitzenamplituden (62) in jedem folgenden Zeitrahmen (14), und
eine zweite Berechnungseinrichtung des Abstands der Harmonischen (40) für die
Bestimmung der Differenz in der Amplitude zwischen den Spitzenamplituden und den Tälern
zwischen den Spitzenamplituden und der Spitzenamplitude der benachbarten Harmonischen in
jedem nachfolgenden Zeitrahmen (14), um die Bestimmung der Spitzenfrequenz durch die
CEPSTRUM-Berechnungseinrichtung (60) zu verfeinern.
6. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach irgendeinem
der Ansprüche 2 bis 5, wobei
die CEPSTRUM-Berechnungseinrichtung (60) den Ort und die Amplituden der Spitzen der
Signale in aufeinander folgenden Zeitrahmen bestimmt.
7. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach irgendeinem
der Ansprüche 5 bis 6, wobei die zweite Berechnungseinrichtung des Abstands der
Harmonischen (40) ferner
gekennzeichnet ist durch
eine Einrichtung für die Bestimmung der Stimmhöhenfrequenzen durch die Analyse des
Abstands der Harmonischen in dem Stimmhöhenbereich von Sprache mit niedriger
Stimmhöhe, ob die Sprache eine niedrige oder eine hohe Stimmhöhe hat, und
eine Einrichtung für die Bestimmung des Stimmhöhenfrequenzen in dem
Stimmhöhenfrequenzbereich hoher Stimmhöhen durch die Analyse des Abstands der Harmonischen, wenn
die Sprache eine hohe Stimmhöhe hat.
8. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach irgendeinem
der Ansprüche 5 bis 7, wobei die Stimmhöhenschätzeinrichtung (20) ferner
gekennzeichnet ist durch
eine Stimmhöhenanpassungseinrichtung (46, 74), die auf die erste bzw. zweite
Berechnungseinrichtung des Abstands der Harmonischen (40, 66) folgt, für die Verschiebung der
Bestimmung der Stimmhöhenfrequenz von
der logarithmischen Größenberechnungseinrichtung (38, 70, 68) um eine kleine Spanne
oberhalb und unterhalb der bestimmten Stimmhöhenfrequenz, um eine optimale Anpassung
an die Synthese der Harmonischen zu erreichen.
9. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach Anspruch 8,
wobei die Stimmhöhenschätzeinrichtung (20) ferner
gekennzeichnet ist durch
eine Berechnungseinrichtung der Differenz der Harmonischen (48, 78), die auf die
Stimmhöhenanpassungseinrichtung (46, 74) folgt, für die Sammlung der Amplituden der
ungeraden und geraden Harmonischen in den Frequenztransformationssignalen.
10. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach irgendeinem
der Ansprüche 1 bis 9, wobei die Transformationscodierungseinrichtung (26) ferner
gekennzeichnet ist durch
eine Analyseeinrichtung der Harmonischen (86) für die Erzeugung von Paaren von Signalen
für jede harmonische Frequenz, deren eines Signal die Amplitude und das andere Signal
die Phase repräsentiert, und
eine Umwandlungseinrichtung, die auf die Analyseeinrichtung der Harmonischen (86) folgt,
für die Umwandlung des Paars von Signalen in eine binäre Form für die Übertragung.
11. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach Anspruch
10, wobei die Analyseeinrichtung der Harmonischen (86) ferner
gekennzeichnet ist durch
die Erzeugung eines Bereichs von Frequenzen mit einer Bandbreite von angenähert 4 kHz.
12. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach Anspruch
10 oder 11, wobei die Analyseeinrichtung der Harmonischen (86) ferner
gekennzeichnet ist durch
eine Einrichtung für die Bestimmung der Anordnung einer jeden Harmonischen in den
Frequenzsignalen in individuellen Zeitblöcken einer Vielzahl von Zeitblöcken und in
individuellen Gittern einer Vielzahl von Gittern innerhalb eines jeden Zeitblocks.
13. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach Anspruch
12, wobei die Analyseeinrichtung der Harmonischen (86) ferner
gekennzeichnet ist durch
eine Hamming-Muster-Analyseeinrichtung (94) für die Durchführung einer Hamming-
Fenster-Analyse und Frequenztransformation derart, dass ein Frequenzmuster für ein
individuelles Gitter innerhalb des Zeitblocks erzeugt wird.
14. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach irgendeinem
der Ansprüche 10 bis 13, wobei die Umwandlungseinrichtung ferner
gekennzeichnet ist durch
eine Hole-Band-Einrichtung (102) für die Bestimmung des Frequenzbandes, in dem die
Amplitude der Signale vorkommt,
eine Spektrumsformberechnungseinrichtung (104), die auf die Analyseeinrichtung der
Harmonischen (86) folgt, für die Durchführung einer diskreten Kosinustransformation über einer
begrenzten Anzahl von Harmonischen der Signale,
eine Amplitudencodierungseinrichtung (110), die auf die
Spektrumsformberechnungseinrichtung (104) folgt, für die Umwandlung der diskreten Kosinustransformation in eine binäre
Form,
eine Phasenberechnungseinrichtung (120), die auf die Analyseeinrichtung der
Harmonischen (86) folgt, für die Umwandlung der Phasensignale in ein binäres Format, und
eine Phasencodierungseinrichtung (130), die auf die Phasenberechnungseinrichtung (120)
und die Amplitudenberechnungseinrichtung (110) folgt, für die Erzeugung binärer Bits,
welche die Phasen für das Signal der unterschiedlichen Harmonischen in jedem der
Zeitrahmen (14) darstellt.
15. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach Anspruch
14, wobei die Umwandlungseinrichtung ferner
gekennzeichnet ist durch
eine Syntheseeinrichtung der Harmonischen (112), die auf die
Spektrumsformberechnungseinrichtung (104) folgt, für die Rekonstruktion des diskreten Kosinustransformationssignals
in eine Form, die mit den Frequenztransformationssignalen korrespondiert, und
eine Korrelationseinrichtung der Harmonischen (116), die auf die Syntheseeinrichtung der
Harmonischen (112), die Stimmhöhenschätzeinrichtung (20) und die
Frequenztransformationseinrichtung (22) folgt, und die mit der Spektrumsformberechnungseinrichtung (104), mit
der Amplitudencodierungseinrichtung (110) und mit der Phasencodierungseinrichtung (130)
gekoppelt ist, füc die Korrelation der Amplituden der Frequenztransformationssignale, der
Frequenztransformation der Sprachsignale in jedem der Zeitrahmen (14) und der
geschätzten Stimmhöhe der Sprachsignale in jedem der Zeitrahmen (14).
16. Sprachdecodierer (100) für die Wiedergewinnung von Sprachsignalen, die einem
Sprachcodierer (18) zugeführt werden, wobei die Sprachsignale in aufeinander folgenden
Zeitrahmen (14) verarbeitet werden, und wobei die Sprachsignale in jedem Zeitrahmen
einer ersten Frequenztransformation (22) unterworfen werden, um Frequenzsignale in jedem
Zeitrahmen zu erzeugen, und wobei Inversionssignale erzeugt werden, welche die Differenz
zwischen der Spitzenamplitude der Frequenzsignale in jedem Zeitrahmen und der
Amplitude der Frequenzsignale in solchen Zeitrahmen (20) darstellen, und wobei die Amplituden
der Inversionssignale gestaucht werden, und wobei eine zweite Frequenztransformation
über den gestauchten Signalen durchgeführt wird, und wobei die Amplituden der Signale in
der zweiten Frequenztransformation in digitale Signale (26) umgewandelt werden, und der
Sprachdecodierer umfasst: eine Eingabeeinrichtung (140) für den Empfang codierter
Sprachsignale, eine Transformatiensdecodierungseinrichtung (142), die mit der
Eingabeeinrichtung (140) verbunden ist, für die Wiederherstellung der codierten Sprachsignale, welche
die Stimmhöhenfrequenz und die Harmonischen repräsentieren, eine inverse
Transformati
onseinrichtung (144), die mit der Transformationsdecodierungseinrichtung (142) verbunden
ist, für die Bereitstellung einer inversen Transformation, um die Signale in einer
Zeitbereichsform wieder herzustellen, und eine Glättungseinrichtung (146), die mit der inversen
Transformationseinrichtung (144) verbunden ist, für die Trennung der Signale in der
Zeitbereichsform in Sprachsignale, wobei die Transformationsdecodierungseinrichtung (142)
gekennzeichnet ist durch
eine Amplitudendecodierungseinrichtung (150) für die Decodierung der Amplituden der
Stimmhöhenfrequenz und der Harmonischen,
eine Phasendecodierungseinrichtung (152), die mit der Amplitudendecodierungseinrichtung
(150) verbunden ist, für die Bestimmung der Phasen für aufeinander folgende Harmonische
in jedem Zeitrahmen,
eine Harmonischenwiederherstellungseinrichtung (154), die mit der
Amplitudendecodierungseinrichtung (150) und der Phasendecodierungseinrichtung (152) verbunden ist, für die
Wiederherstellung der Harmonischen in jedem Zeitrahmen,
eine Harmonischensyntheseeinrichtung (158), die mit der
Harmonischenwiederherstellungseinrichtung (154) verbunden ist, für die Synthese der transformierten
Frequenzkoeffizienten durch Positionierung der Harmonischen und Multiplizieren der Harmonischen mit der
Frequenztransformation, und
eine ungesprochene Syntheseeinrichtung (160), die mit der
Harmonischensyntheseeinrichtung (158) verbunden ist, für die Verarbeitung ungesprochener Signale in den
Frequenzschlitzen (118), um die Frequenzkomponenten in jedem der Frequenzschlitze (118)
wiederherzustellen.
17. Sprachdecodierer (100) nach Anspruch 16, wobei die Anzahl der
Frequenzharmonischen in jedem Zeitrahmen in dem Sprachcodierer (18) auf einen bestimmten Wert
eingeschränkt oder ausgeweitet wird durch Beseitigen oder Hinzufügen bestimmter
Frequenzsignale bei hohen Frequenzen, und wobei die Transfomiationsdecodierungseinrichtung (142)
ferner
dadurch gekennzeichnet ist, dass
eine Amplitudendecodierungseinrichtung (150) betrieben wird, um die beschränkte Anzahl
von Frequenzsignalen auszuweiten.
18. Sprachdecodierer (100) entweder nach Anspruch 16 oder nach Anspruch 17, wobei
der Sprachcodierer (18) gesprochene Signale in bestimmten Zeitblöcken in jedem
Zeitrahmen (14) und ungesprochene Signale in den anderen Zeitblöcken in jedem Zeitrahmen
(188) vorsieht, und die Transformationsdecodierungseinrichtung (142) ferner
dadurch gekennzeichnet ist, dass
die Harmonischenwiederherstellungseinrichtung (154) die Signale synthetisiert, um die
Amplituden der Harmonischensignale in den gesprochenen und ungesprochenen Zeitblöcken in
jedem Zeitrahmen (14, 118) zu bestimmen.
19. Sprachdecodierer (100) nach irgendeinem der Ansprüche 16 bis 18, wobei Signale
von dem Sprachcodierer (18) bereitgestellt werden, um die Phasen der Frequenzsignale in
jedem Zeitrahmen (14) zu repräsentieren, und die Transformationsdecodierungseinrichtung
(142) ferner
gekennzeichnet ist durch
eine Einrichtung für die Wiederherstellung der Sprachsignale in jedem Zeitrahmen
entsprechend der Stimmhöhenfrequenz und der Signale, welche die Amplituden und Phasen der
Frequenzsignale in jedem Zeitrahmen (14) repräsentieren.
20. Sprachdecodierer (100) nach irgendeinem der Ansprüche 16 bis 19, wobei die
Zeitrahmen (14) bei dem Sprachcodierer (18) sich überlappen, und die
Transformationsdecodierungseinrichtung (142) ferner
dadurch gekennzeichnet ist, dass
die ungesprochene Syntheseeinrichtung (160) die Überlappung in aufeinander folgenden
Zeitrahmen (14) beseitigt, um die Sprachsignale in einem kontinuierlichen Muster
wiederherzustellen.
21. Verfahren der Codierung von eingegebenen Sprachsignalen mit einer Aufteilung (12)
der Sprachsignale in aufeinander folgende Zeitrahmen (14), einer Schätzung (20) der
Stimmhöhen der Sprachsignale in jedem der Zeitrahmen (14), einer Bereitstellung (22) einer
Frequenztransformation der Sprachsignale in jedem der Zeitrahmen (14) und einer
Bestimmung (26) der Amplitude und Phase der unterschiedlichen Frequenzkomponenten in dem
Sprachsignal in jedem der Zeitrahmen (14) und einer Umwandlung dieser Bestimmungen in
binäre Form, wobei der Schritt der Schätzung der Stimmhöhen in jedem der Zeitrahmen
(14)
gekennzeichnet ist, durch
die Kombinierung (32, 36) der Sprachsignale in aufeinander folgenden Paaren von
Zeitrahmen (14), um eine verbesserte Auflösung der Sprachsignale in jedem der Zeitrahmen (14)
zu erreichen,
die Ermittlung (30, 34) einer Frequenztransformation der Sprachsignale in Frequenzsignale
in jedem der aufeinander folgenden Paare von Zeitrahmen (14);
die Durchführung (38,70) einer Logarithmusberechnung der Größen der Frequenzsignale,
das Durchlassen (52) der Sprachsignale in jedem der aufeinander folgenden Paare der
Rahmen in einem ersten, bestimmten Bereich von Frequenzen und für das Vorsehen einer
zunehmenden Filterung solcher Sprachsignale für ansteigende Frequenzen oberhalb des
ersten, bestimmten Bereichs in jedem der aufeinander folgenden Zeitrahmen, und
die Frequenztransformation (56) der Signale von dem Schritt des Durchlassens (52), um die
Stimmhöhenfrequenz der Sprachsignale in jedem der aufeinander folgenden Paare der
Zeitrahmen (14) zu bestimmen.
22. Verfahren der Codierung von eingegebenen Sprachsignalen nach Anspruch 21,
wobei der Schritt der Schätzung der Stimmhöhen der Sprachsignale in jedem Zeitrahmen (14)
ferner
gekennzeichnet ist durch
das Vorsehen (60) einer CEPSTRUM-Bestimmung der Sprachstimmhöhenfrequenz in den
aufeinander folgenden Zeitrahmen (14), und
die Bestimmung (66) der Differenz in der Amplitude zwischen der Spitze (42) des
Frequenzsignals und des Tals (44), das dem Frequenzsignal folgt.
23. Verfahren der Codierung von eingegebenen Sprachsignalen nach Anspruch 22,
wobei der Schritt der Schätzung der Stimmhöhen in jedem der Zeitrahmen (14) ferner
gekennzeichnet ist durch
die Anwendung (80) heuristischer Techniken auf die CEPSTRUM-Bestimmung und die
Differenz in der Amplitude zwischen einem Spitzenwert (42) des Frequenzsignals und einem
nachfolgendem Tatwert (44) des Frequenzsignals für die Verfeinerung der Bestimmung der
Sprachstimmhöhenfrequenz.
24. Verfahren der Codierung von eingegebenen Sprachsignalen nach Anspruch 23,
wobei der Schritt der Anwendung (80) heuristischer Techniken auf die
CEPSTRUM-Bestimmung und die Differenz in der Amplitude zwischen einem Spitzenwert (42) des
Frequenzsignals und einem nachfolgendem Talwert (44) des Frequenzsignals für die Verfeinerung der
Bestimmung der Sprachstimmhöhenfrequenz ferner
gekennzeichnet ist durch
die Bestimmung der Größe der Leistung bei niedrigen Frequenzen in der Sprache in
aufeinander folgenden Zeitrahmen (14), und
die Bestimmung des Verhältnisses der kumulativen Größe der Leistung des
niederfrequenten Signals relativ zu der kumulativen Größe der Leistung des hochfrequenten Signals in
aufeinander folgenden Zeitrahmen (14).
25. Verfahren der Codierung von eingegebenen Sprachsignalen nach irgendeinem der
Ansprüche 22 bis 24, wobei der Schritt der Schätzung der Stimmhöhen der Sprachsignale in
jedem der Zeitrahmen (14) ferner
gekennzeichnet ist durch
die Auswahl einer bestimmten Anzahl von Signalen mit den höchsten Spitzenamplituden
(62) in jedem der aufeinander folgenden Zeitrahmen (14), und
die Bestimmung (40) der Differenz in der Amplitude zwischen den Spitzenamplituden und
den Tälern zwischen den Spitzenamplituden und der Spitzenamplitude der benachbarten
Harmonischen in jedem der aufeinander folgenden Zeitrahmen (14), um die Bestimmung
der Spitzenfrequenz durch die CEPSTRUM-Berechnungseinrichtung (60) zu verfeinern.
26. Verfahren der Codierung von eingegebenen Sprachsignalen nach irgendeinem der
Ansprüche 22 bis 25, wobei der Schritt der Schätzung der Stimmhöhen der Sprachsignale in
jedem der aufeinander folgenden Zeitrahmen (14) ferner
gekennzeichnet ist durch
die Bestimmung (60) des Ort und der Amplituden der Spitzen der Signale in aufeinander
folgenden Zeitrahmen.
27. Verfahren der Codierung von eingegebenen Sprachsignalen nach irgendeinem der
Ansprüche 25 bis 26, wobei der Schritt der Bestimmung (40) der Amplitudendifferenz
zwischen den Spitzenamplituden und den Tälern zwischen den Spitzenamplituden und der
Spitzenamplitude der benachbarten Harmonischen für die Verfeinerung der Bestimmung der
Spitzenfrequenz durch die CEPSTRUM-Berechnungseinrichtung (60) ferner
gekennzeichnet ist durch
die Bestimmung der Stimmhöhenfrequenzen durch die Analyse des Abstands der
Harmonischen in dem Stimmhöhenfrequenzbereich von Sprache mit niedriger Stimmhöhe, ob die
Sprache eine niedrige oder eine hohe Stimmhöhe hat, und
die Bestimmung des Stimmhöhenfrequenzen in dem Stimmhöhenfrequenzbereich hoher
Stimmhöhen durch die Analyse des Abstands der Harmonischen, wenn die Sprache eine
hohe Stimmhöhe hat.
28. Verfahren der Codierung von eingegebenen Sprachsignalen nach irgendeinem der
Ansprüche 25 bis 27, wobei der Schritt der Schätzung der Stimmhöhen der Sprachsignale in
jedem der aufeinander folgenden Zeitrahmen (14) ferner
gekennzeichnet ist durch
die Verschiebung (46, 74) der Bestimmung der Stimmhöhenfrequenz von der
logarithmischen Größenberechnungseinrichtung (38, 70, 68) um eine kleine Spanne oberhalb und
unterhalb der bestimmten Stimmhöhenfrequenz, um eine optimale Anpassung an die
Synthese der Harmonischen zu erreichen.
29. Verfahren der Codierung von eingegebenen Sprachsignalen nach Anspruch 28,
wobei der Schritt der Schätzung der Stimmhöhen der Sprachsignale in jedem der aufeinander
folgenden Zeitrahmen (14) ferner
gekennzeichnet ist durch
die Sammlung (48, 78) der Summe der Amplituden der ungeraden und geraden
Harmonischen in den Frequenztransformationssignalen.
30. Verfahren der Codierung von eingegebenen Sprachsignalen nach irgendeinem der
Ansprüche 21 bis 29, wobei der Schritt der Bestimmung (26) der Amplitude und der Phase
der unterschiedlichen Frequenzkomponenten in dem Sprachsignal in jedem Zeitrahmen (14)
und der Wandlung dieser Bestimmungen in binäre Form ferner
gekennzeichnet ist durch
die Erzeugung (86) von Paaren von Signalen für jede harmonische Frequenz, deren eines
Signal die Amplitude und das andere Signal die Phase repräsentiert, und
die Umwandlung des Paars von Signalen in eine binäre Form für die Übertragung.
31. Verfahren der Codierung von eingegebenen Sprachsignalen nach Anspruch 30,
wobei der Schritt der Erzeugung (86) von Paaren von Signalen für jede harmonische
Frequenz, deren eines Signal die Amplitude und das andere Signal die Phase repräsentiert,
ferner
gekennzeichnet ist durch
die Erzeugung eines Bereichs von Frequenzen mit einer Bandbreite von angenähert 4 kHz.
32. Verfahren der Codierung von eingegebenen Sprachsignalen nach Anspruch 30 oder
31, wobei der Schritt der Erzeugung (86) von Paaren von Signalen für jede harmonische
Frequenz, deren eines Signal die Amplitude und das andere Signal die Phase repräsentiert,
ferner
gekennzeichnet ist durch
die Bestimmung der Anordnung einer jeden Harmonischen in den Frequenzsignalen in
individuellen Zeitblöcken einer Vielzahl von Zeitblöcken und in individuellen Gittern einer
Vielzahl von Gittern innerhalb eines jeden Zeitblocks.
33. Verfahren der Codierung von eingegebenen Sprachsignalen nach Anspruch 32,
wobei der Schritt der Erzeugung (86) von Paaren von Signalen für jede harmonische
Frequenz, deren eines Signal die Amplitude und das andere Signal die Phase repräsentiert,
ferner
gekennzeichnet ist durch
die Durchführung (94) einer Hamming = Fenster-Analyse und Frequenztransformation derart,
dass ein Frequenzmuster für ein individuelles Gitter innerhalb des Zeitblocks erzeugt wird.
34. Verfahren der Codierung von eingegebenen Sprachsignalen nach irgendeinem der
Ansprüche 30 bis 33, wobei der Schritt der Umwandlung des Paares von Signalen in binäre
form für die Übertragung ferner
gekennzeichnet ist durch
die Bestimmung (102) des Frequenzbandes, in dem die Amplitude der Signale vorkommt,
die Durchführung (104) einer diskreten Kosinustransformation über einer begrenzten Anzahl
von Harmonischen der Signale,
die Umwandlung (110) der diskreten Kosinustransformation in eine binäre Form,
die Umwandlung (120) der Phasensignale in ein binäres Format, und
die Erzeugung (130) binärer Bits, welche die Phasen für das Signal der unterschiedlichen
Harmonischen in jedem der Zeitrahmen (14) repräsentiert.
35. Verfahren der Codierung von eingegebenen Sprachsignalen nach Anspruch 34,
wobei der Schritt der Umwandlung des Paares von Signalen in binäre Form für die
Übertragung ferner
gekennzeichnet ist durch
die Rekonstruktion (112) des diskreten Kosinustransformationssignals in eine Form, die mit
den Frequenztransformationssignalen korrespondiert, und
die Korrelation (116) der Amplituden der Frequenztransformationssignale, der
Frequenztransformation der Sprachsignale in jedem der Zeitrahmen (14) und der geschätzten
Stimmhöhe der Sprachsignale in jedem der Zeitrahmen (14).
36. Verfahren der Sprachdecodierung (100) für die Wiedergewinnung von
Sprachsignalen, die einem Sprachcodierer (18) zugeführt werden, wobei die Sprachsignale in
aufeinander folgenden Zeitrahmen (14) verarbeitet werden, und wobei die Sprachsignale in jedem
Zeitrahmen einer ersten Frequenztransformation (22) unterworfen werden, um
Frequenzsignale in jedem Zeitrahmen zu erzeugen, und wobei Inversionssignale erzeugt werden,
welche die Differenz zwischen der Spitzenamplitude der Frequenzsignale in jedem Zeitrahmen
und der Amplitude der Frequenzsignale in solchen Zeitrahmen (20) darstellen, und wobei
die Amplituden der Inversionssignale gestaucht werden, und wobei eine zweite
Frequenztransformation über den gestauchten Signalen durchgeführt wird, und wobei die Amplituden
der Signale in der zweiten Frequenztransformation in digitale Signale (26) umgewandelt
werden, und das Verfahren umfasst: Empfang codierter Sprachsignale (140),
Wiederherstellung der codierten Sprachsignale (142), welche die Stimmhöhenfrequenz und die
Harmonischen repräsentieren, Vorsehen einer inversen Transformation (144), um die Signale in
einer Zeitbereichsform wiederherzustellen, und Trennung der Signale in der
Zeitbereichsform in Sprachsignale (146), wobei der Schritt der Wiederherstellung der codierten
Sprachsignale (142), welche die Stimmhöhenfrequenz und die Harmonischen repräsentieren,
gekennzeichnet ist durch
die Decodierung (152) der Amplituden der Stimmhöhenfrequenz und der Harmonischen,
die Bestimmung (152) der Phasen für aufeinander folgende Harmonische in jedem
Zeitrahmen,
die Wiederherstellung (154) der Harmonischen in jedem Zeitrahmen,
die Synthese (158) der transformierten Frequenzkoeffizienten durch Positionierung der
Harmonischen und Multiplizieren der Harmonischen mit der Frequenztransformation, und
die Verarbeitung (160) ungesprochener Signale in den Frequenzschlitzen (118), um die
Frequenzkomponenten in solchen Frequenzschlitzen wiederherzustellen.
37. Verfahren der Sprachdecodierung (100) nach Anspruch 36, wobei die Anzahl der
Frequenzharmonischen in jedem Zeitrahmen in dem Sprachcodierer (18) auf einen
bestimmten Wert eingeschränkt oder ausgeweitet wird durch Beseitigen oder Hinzufügen
bestimmter Frequenzsignale bei hohen Frequenzen, und wobei der Schritt der
Wiederherstellung (142) der codierten Sprachsignale, welche die Stimmhöhenfrequenz und die
Harmonischen repräsentieren, ferner
dadurch gekennzeichnet ist, dass
die beschränkte Anzahl von Frequenzsignalen ausgeweitet wird.
38. Verfahren der Sprachdecodierung (100) entweder nach Anspruch 36 oder nach
Anspruch 37, wobei der Sprachcodierer (18) gesprochene Signale in bestimmten Zeitblöcken
in jedem Zeitrahmen (14) und ungesprochene Signale in anderen Zeitblöcken in jedem
Zeitrahmen (188) vorsieht, und der Schritt der Wiederherstellung (142) der codierten
Sprachsignale, welche die Stimmhöhenfrequenz und die Harmonischen repräsentieren,
ferner
dadurch gekennzeichnet ist, dass
die Harmonischenwiederherstellungseinrichtung (154) die Signale synthetisiert, um die
Amplituden der Harmonischensignale in den gesprochenen und ungesprochenen Zeitblöcken in
jedem Zeitrahmen (14, 118) zu bestimmen.
39. Verfahren der Sprachdecodierung (100) nach irgendeinem der Ansprüche 36 bis 38,
wobei Signale von dem Sprachcodierer (18) bereitgestellt werden, um die Phasen der
Frequenzsignale in jedem Zeitrahmen (14) zu repräsentieren, und
der Schritt der Wiederherstellung (142) der codierten Sprachsignale, welche die
Stimmhöhenfrequenz und die Harmonischen repräsentieren, ferner
gekennzeichnet ist durch
die Wiederherstellung der Sprachsignale in jedem Zeitrahmen entsprechend der
Stimmhöhenfrequenz und der Signale, welche die Amplituden und Phasen der Frequenzsignale in
jedem Zeitrahmen (14) repräsentieren.
40. Verfahren der Sprachdecodierung (100) nach irgendeinem der Ansprüche 36 bis 39,
wobei die Zeitrahmen (14) bei dem Sprachcodierer (18) sich überlappen, und der Schritt der
Wiederherstellung (142) der codierten Sprachsignale, welche die Stimmhöhenfrequenz und
die Harmonischen repräsentieren, ferner
gekennzeichnet ist durch
die Beseitigung der Überlappung (160) in aufeinander folgenden Zeitrahmen (14), um die
Sprachsignale in einem kontinuierlichen Muster wiederherzustellen.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/782,669 US5189701A (en) | 1991-10-25 | 1991-10-25 | Voice coder/decoder and methods of coding/decoding |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69232904D1 DE69232904D1 (de) | 2003-02-27 |
DE69232904T2 true DE69232904T2 (de) | 2003-06-18 |
Family
ID=25126805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69232904T Expired - Fee Related DE69232904T2 (de) | 1991-10-25 | 1992-10-23 | Sprachkodierer/-dekodierer und Kodierungs-/Dekodierungsverfahren |
Country Status (3)
Country | Link |
---|---|
US (1) | US5189701A (de) |
EP (1) | EP0538877B1 (de) |
DE (1) | DE69232904T2 (de) |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5787387A (en) * | 1994-07-11 | 1998-07-28 | Voxware, Inc. | Harmonic adaptive speech coding method and system |
JPH08211895A (ja) * | 1994-11-21 | 1996-08-20 | Rockwell Internatl Corp | ピッチラグを評価するためのシステムおよび方法、ならびに音声符号化装置および方法 |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
US6591240B1 (en) * | 1995-09-26 | 2003-07-08 | Nippon Telegraph And Telephone Corporation | Speech signal modification and concatenation method by gradually changing speech parameters |
US6044147A (en) * | 1996-05-16 | 2000-03-28 | British Teledommunications Public Limited Company | Telecommunications system |
KR100217372B1 (ko) * | 1996-06-24 | 1999-09-01 | 윤종용 | 음성처리장치의 피치 추출방법 |
IL120788A (en) * | 1997-05-06 | 2000-07-16 | Audiocodes Ltd | Systems and methods for encoding and decoding speech for lossy transmission networks |
US6240141B1 (en) | 1998-05-09 | 2001-05-29 | Centillium Communications, Inc. | Lower-complexity peak-to-average reduction using intermediate-result subset sign-inversion for DSL |
DE69932786T2 (de) * | 1998-05-11 | 2007-08-16 | Koninklijke Philips Electronics N.V. | Tonhöhenerkennung |
JP2002515610A (ja) * | 1998-05-11 | 2002-05-28 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 位相変化からの雑音寄与度の決定に基づく音声符号化 |
KR100434538B1 (ko) * | 1999-11-17 | 2004-06-05 | 삼성전자주식회사 | 음성의 천이 구간 검출 장치, 그 방법 및 천이 구간의음성 합성 방법 |
EP1143413A1 (de) * | 2000-04-06 | 2001-10-10 | Telefonaktiebolaget L M Ericsson (Publ) | Schätzung der Grundfrequenz eines Sprachsignal mittels eines Durchschnitts- Abstands zwischen Spitzen |
AU2001258298A1 (en) | 2000-04-06 | 2001-10-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Pitch estimation in speech signal |
CN1216361C (zh) | 2000-04-06 | 2005-08-24 | 艾利森电话股份有限公司 | 利用二进制信号估计语音信号的音调 |
US7397867B2 (en) * | 2000-12-14 | 2008-07-08 | Pulse-Link, Inc. | Mapping radio-frequency spectrum in a communication system |
US6937674B2 (en) * | 2000-12-14 | 2005-08-30 | Pulse-Link, Inc. | Mapping radio-frequency noise in an ultra-wideband communication system |
US6876965B2 (en) * | 2001-02-28 | 2005-04-05 | Telefonaktiebolaget Lm Ericsson (Publ) | Reduced complexity voice activity detector |
KR100347188B1 (en) * | 2001-08-08 | 2002-08-03 | Amusetec | Method and apparatus for judging pitch according to frequency analysis |
US7225135B2 (en) * | 2002-04-05 | 2007-05-29 | Lectrosonics, Inc. | Signal-predictive audio transmission system |
JP4451665B2 (ja) * | 2002-04-19 | 2010-04-14 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声を合成する方法 |
CN1689070A (zh) * | 2002-10-14 | 2005-10-26 | 皇家飞利浦电子股份有限公司 | 信号滤波 |
JP3963850B2 (ja) * | 2003-03-11 | 2007-08-22 | 富士通株式会社 | 音声区間検出装置 |
US20050065787A1 (en) * | 2003-09-23 | 2005-03-24 | Jacek Stachurski | Hybrid speech coding and system |
WO2005094183A2 (en) * | 2004-03-30 | 2005-10-13 | Guy Fleishman | Apparatus and method for digital coding of sound |
KR100608062B1 (ko) * | 2004-08-04 | 2006-08-02 | 삼성전자주식회사 | 오디오 데이터의 고주파수 복원 방법 및 그 장치 |
KR100750115B1 (ko) * | 2004-10-26 | 2007-08-21 | 삼성전자주식회사 | 오디오 신호 부호화 및 복호화 방법 및 그 장치 |
KR100770839B1 (ko) * | 2006-04-04 | 2007-10-26 | 삼성전자주식회사 | 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치 |
KR100735343B1 (ko) * | 2006-04-11 | 2007-07-04 | 삼성전자주식회사 | 음성신호의 피치 정보 추출장치 및 방법 |
KR100827153B1 (ko) * | 2006-04-17 | 2008-05-02 | 삼성전자주식회사 | 음성 신호의 유성음화 비율 검출 장치 및 방법 |
CN105103230B (zh) * | 2013-04-11 | 2020-01-03 | 日本电气株式会社 | 信号处理装置、信号处理方法、信号处理程序 |
US9565493B2 (en) | 2015-04-30 | 2017-02-07 | Shure Acquisition Holdings, Inc. | Array microphone system and method of assembling the same |
US9554207B2 (en) | 2015-04-30 | 2017-01-24 | Shure Acquisition Holdings, Inc. | Offset cartridge microphones |
US9965685B2 (en) * | 2015-06-12 | 2018-05-08 | Google Llc | Method and system for detecting an audio event for smart home devices |
JP6758890B2 (ja) * | 2016-04-07 | 2020-09-23 | キヤノン株式会社 | 音声判別装置、音声判別方法、コンピュータプログラム |
US10367948B2 (en) | 2017-01-13 | 2019-07-30 | Shure Acquisition Holdings, Inc. | Post-mixing acoustic echo cancellation systems and methods |
JP6891736B2 (ja) * | 2017-08-29 | 2021-06-18 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
WO2019231632A1 (en) | 2018-06-01 | 2019-12-05 | Shure Acquisition Holdings, Inc. | Pattern-forming microphone array |
US11297423B2 (en) | 2018-06-15 | 2022-04-05 | Shure Acquisition Holdings, Inc. | Endfire linear array microphone |
WO2020061353A1 (en) | 2018-09-20 | 2020-03-26 | Shure Acquisition Holdings, Inc. | Adjustable lobe shape for array microphones |
CN118803494A (zh) | 2019-03-21 | 2024-10-18 | 舒尔获得控股公司 | 具有抑制功能的波束形成麦克风瓣的自动对焦、区域内自动对焦、及自动配置 |
US11558693B2 (en) | 2019-03-21 | 2023-01-17 | Shure Acquisition Holdings, Inc. | Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality |
US11303981B2 (en) | 2019-03-21 | 2022-04-12 | Shure Acquisition Holdings, Inc. | Housings and associated design features for ceiling array microphones |
TW202101422A (zh) | 2019-05-23 | 2021-01-01 | 美商舒爾獲得控股公司 | 可操縱揚聲器陣列、系統及其方法 |
TWI862596B (zh) | 2019-05-31 | 2024-11-21 | 美商舒爾獲得控股公司 | 整合語音及雜訊活動偵測之低延時自動混波器 |
WO2021041275A1 (en) | 2019-08-23 | 2021-03-04 | Shore Acquisition Holdings, Inc. | Two-dimensional microphone array with improved directivity |
WO2021087377A1 (en) | 2019-11-01 | 2021-05-06 | Shure Acquisition Holdings, Inc. | Proximity microphone |
US11552611B2 (en) | 2020-02-07 | 2023-01-10 | Shure Acquisition Holdings, Inc. | System and method for automatic adjustment of reference gain |
US11706562B2 (en) | 2020-05-29 | 2023-07-18 | Shure Acquisition Holdings, Inc. | Transducer steering and configuration systems and methods using a local positioning system |
JP2024505068A (ja) | 2021-01-28 | 2024-02-02 | シュアー アクイジッション ホールディングス インコーポレイテッド | ハイブリッドオーディオビーム形成システム |
EP4460983A1 (de) | 2022-01-07 | 2024-11-13 | Shure Acquisition Holdings, Inc. | Audiostrahlformung mit nullungssteuerungssystem und verfahren |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3566035A (en) * | 1969-07-17 | 1971-02-23 | Bell Telephone Labor Inc | Real time cepstrum analyzer |
US4076960A (en) * | 1976-10-27 | 1978-02-28 | Texas Instruments Incorporated | CCD speech processor |
US4667340A (en) * | 1983-04-13 | 1987-05-19 | Texas Instruments Incorporated | Voice messaging system with pitch-congruent baseband coding |
AU2944684A (en) * | 1983-06-17 | 1984-12-20 | University Of Melbourne, The | Speech recognition |
CA1255802A (en) * | 1984-07-05 | 1989-06-13 | Kazunori Ozawa | Low bit-rate pattern encoding and decoding with a reduced number of excitation pulses |
US4885790A (en) * | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
US4827516A (en) * | 1985-10-16 | 1989-05-02 | Toppan Printing Co., Ltd. | Method of analyzing input speech and speech analysis apparatus therefor |
US4827517A (en) * | 1985-12-26 | 1989-05-02 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech processor using arbitrary excitation coding |
US4771465A (en) * | 1986-09-11 | 1988-09-13 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech sinusoidal vocoder with transmission of only subset of harmonics |
US4797926A (en) * | 1986-09-11 | 1989-01-10 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech vocoder |
US5054072A (en) * | 1987-04-02 | 1991-10-01 | Massachusetts Institute Of Technology | Coding of acoustic waveforms |
US5179626A (en) * | 1988-04-08 | 1993-01-12 | At&T Bell Laboratories | Harmonic speech coding arrangement where a set of parameters for a continuous magnitude spectrum is determined by a speech analyzer and the parameters are used by a synthesizer to determine a spectrum which is used to determine senusoids for synthesis |
CA1333425C (en) * | 1988-09-21 | 1994-12-06 | Kazunori Ozawa | Communication system capable of improving a speech quality by classifying speech signals |
-
1991
- 1991-10-25 US US07/782,669 patent/US5189701A/en not_active Expired - Lifetime
-
1992
- 1992-10-23 EP EP92118176A patent/EP0538877B1/de not_active Expired - Lifetime
- 1992-10-23 DE DE69232904T patent/DE69232904T2/de not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP0538877B1 (de) | 2003-01-22 |
EP0538877A3 (de) | 1994-02-09 |
US5189701A (en) | 1993-02-23 |
EP0538877A2 (de) | 1993-04-28 |
DE69232904D1 (de) | 2003-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69232904T2 (de) | Sprachkodierer/-dekodierer und Kodierungs-/Dekodierungsverfahren | |
DE3789476T2 (de) | Digitaler Vocoder. | |
DE69518452T2 (de) | Verfahren für die Transformationskodierung akustischer Signale | |
DE69006011T3 (de) | Transformationscodierer, -decodierer und -codierer/decodierer mit niedriger bitrate für audio-anwendungen hoher qualität. | |
DE2934489C2 (de) | ||
DE69915400T2 (de) | Vorrichtung zur Kodierung und Dekodierung von Audiosignalen | |
DE69332057T2 (de) | Digitalsignaldekodierungsvorrichtung | |
DE69623360T2 (de) | Schätzung von Anregungsparametern | |
DE69521176T2 (de) | Verfahren zur Dekodierung kodierter Sprachsignale | |
DE69331428T2 (de) | Kodierung und Dekodierung digitaler Signale | |
DE69329511T2 (de) | Verfahren und Einrichtung zum Unterscheiden zwischen stimmhaften und stimmlosen Lauten | |
DE69013738T2 (de) | Einrichtung zur Sprachcodierung. | |
DE69614782T2 (de) | Verfahren und Einrichtung zur Wiedergabe von Sprachsignalen und Verfahren zu seiner Übertragung | |
DE68916944T2 (de) | Verfahren zur schnellen Bestimmung der Grundfrequenz in Sprachcodierern mit langfristiger Prädiktion. | |
DE69005010T2 (de) | Einrichtung zur Sprachkodierung und -Dekodierung. | |
DE3883701T2 (de) | Verfahren und Vorrichtung für multiplexierte Vektorquantifizierung. | |
DE69712230T2 (de) | Verfahren und gerät zur frequenzdomäneabwärtsumsetzung mit zwangblockschaltung für audiodekoderfunktionen | |
DE112010005020B4 (de) | Sprachsignal-Wiederherstellungsvorrichtung und Sprachsignal-Wiederherstellungsverfahren | |
DE60122397T2 (de) | Frequenzinterpolationseinrichtung und Frequenzinterpolationsverfahren | |
DE3784942T2 (de) | Duplex-datenuebertragung. | |
DE69425935T2 (de) | Verfahren zur Unterscheidung zwischen stimmhaften und stimmlosen Lauten | |
EP1741039B1 (de) | Informationssignalverarbeitung durch modifikation in der spektral-/modulationsspektralbereichsdarstellung | |
DE3736193C2 (de) | ||
DE60017825T2 (de) | Verfahren und Vorrichtung zur Kodierung und Dekodierung von Audiosignalen und Aufzeichnungsträger mit Programmen dafür | |
DE68921949T2 (de) | System zur Kodierung eines Bildsignals. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |