DE69232904T2

DE69232904T2 - Sprachkodierer/-dekodierer und Kodierungs-/Dekodierungsverfahren

Info

Publication number: DE69232904T2
Application number: DE69232904T
Authority: DE
Inventors: Jaswant R. Jain
Original assignee: Nortel Networks Inc
Current assignee: Nortel Networks Inc
Priority date: 1991-10-25
Filing date: 1992-10-23
Publication date: 2003-06-18
Anticipated expiration: 2012-10-24
Also published as: EP0538877B1; EP0538877A3; US5189701A; EP0538877A2; DE69232904D1

Description

Diese Erfindung betrifft einen Codierer für und ein Verfahren der Codierung von eingegebenen Sprachsignalen für die Übertragung zu einem Sprachdecodierer, der von dem Sprachcodierer entfernt ist. Die Erfindung bezieht sich auch auf einen Sprachdecodierer für und ein Verfahren der Decodierung von den codierten Sprachsignalen, die von dem Sprachcodierer übertragen werden. Die Vorrichtungen und Verfahren mit den Merkmalen der Präambeln der Ansprüche 1, 16, 21, 36 sind bekannt von ICASS 90, Albuquerque, New Mexiko, USA, 3.-6. April 1990, Band 1, Seiten 17-20, Marques J. S. et al. "Harmonic Coding at 4.8 kb/s".
Mikroprozessoren werden in einer Sendestation verwendet, um Daten für die Übertragung zu einer entfernten Position in digitale Form umzuwandeln, an der die Daten in digitaler Form erkannt und in ihre ursprüngliche Form umgewandelt werden. Obgleich die Mikroprozessoren klein sind, haben sie gewaltige Verarbeitungsleistungen. Dieses hat ermöglicht, dass anspruchsvolle Techniken von dem Mikroprozessor in der Sendestation verwendet werden, um die Daten in digitale Form zu codieren, und von dem Mikroprozessor in der Empfangsstation verwendet werden, um die digitalen Daten zu decodieren und die digitalen Daten in ihre ursprüngliche Form zu wandeln. Die Daten können durch Faksimilegeräte an der Sendestation und der Empfangsstation übertragenen werden, und können in einem Fernsehgerät an der Empfangsstation wiedergegeben werden. Mit der Vergrößerung der Verarbeitungsleistung der Mikroprozessoren selbst bei einer Verkleinerung der Ausmaße der Mikroprozessoren wurde die Verfeinerung der Codierungs- und Decodierungstechniken und die sich daraus ergebende Auflösung der Daten in der Empfangsstation verbessert.
Mit der in den vergangenen Jahren erfolgten stetigen Zunahme der Verfeinerung der Datenverarbeitungsfähigkeit der Mikroprozessoren ist es zunehmend wünschenswert geworden, zusätzlich zu den Daten auch Sprachinformation zu übertragen. Z. B. in Telefonkonferenzen ist es wünschenswert geworden, Dokumente, wie etwa Briefe und handgeschriebene Berichte und Analysen, zu übertragen und eine Diskussion solcher Berichte vorzusehen.
Es wurde erkannt, dass es schwierig ist, Sprachdaten in eine komprimierte digitale Form umzuwandeln, die zu einer Empfangsstation übertragen werden kann, um eine treue Wiedergabe der Stimme des Sprechers an der Empfangsstation zu erreichen. Dies ergibt sich aus der Tatsache, dass die Frequenzen und Amplituden des Sprachsignals des Sprechers sich ständig verändern. Dieses gilt selbst während des Zeitraums, in dem ein Sprecher einen Vokal ausspricht, wie etwa der Buchstabe "a", besonders da die Dauer solcher Vokale dazu neigt, länger zu werden, und die Sprecher nicht dazu neigen, monoton zu reden.
In den vergangenen Jahren wurde eine beachtliche Anstrengung unternommen, und ein beachtlicher Geldbetrag ausgegeben, um Systeme und Verfahren der Codierung von Sprachsignalen in eine komprimierte digitale Form in einer Sendestation vorzusehen, solche digitalen Signale zu einer Empfangsstation zu übertragen und solche digitalen Signale in der Empfangsstation zu decodieren, um die Sprachsignale wiederherzustellen. Als ein Ergebnis solcher Anstrengungen und Geldausgabe ist eine beachtlicher Fortschritt bei dem Vorsehen einer getreuen Wiedergabe der Sprachsignale in der Empfangsstation erreicht worden. Trotz solcher Fortschritte ist jedoch die getreue Wiedergabe von Sprachsignalen in der Empfangsstation schwer erreichbar geblieben. Die Zuhörer in der Empfangsstation hören nicht die Stimme des Sprechers in der Sendestation ohne ein inneres Gefühl oder eine äußere Bemerkung, dass eine beträchtliche Verzerrung in der Stimme des Sprechers vorliegt. Dies hat häufig von der Möglichkeit der Teilnehmer an den zwei (2) voneinander entfernt gelegenen Stationen abgeschreckt, sinnvoll miteinander zu kommunizieren.
Diese Erfindung, wie in den unabhängigen Ansprüchen der Anspruch erhoben wird, sieht ein System vor, welches Sprachsignale in einem Sprachcodierer in eine komprimierte digitale Form wandelt, um Stimmhöhenfrequenz und Stimmhöhenamplitude und die Amplituden und Phasen der harmonischen Signale darzustellen, so dass die Sprachsignale von einem Sprachdecodierer ohne Verzerrung wiedergegeben werden können. Die Erfindung sieht auch einen Sprachdecodierer vor, der die digitalen Signale verarbeitet, um solch eine treue Wiedergabe der Sprachsignale vorzusehen. Die Sprachsignale werden in dem Sprachcodierer in Echtzeit codiert, und werden in dem Sprachdecodierer in Echtzeit decodiert.
In einer Ausführungsform der Erfindung codiert ein neuer, anpassungsfähiger Fouriertransformationscodierer periodische Komponenten der Sprachsignale und decodiert die codierten Signale. In dem Apparat kann die Stimmhöhenfrequenz der Sprachsignale in aufeinander folgenden Zeitrahmen in dem Sprachcodierer bestimmt werden durch (1) eine CEPSTRUM- Analyse (d. h. der Zeit zwischen aufeinanderfolgenden Spitzenamplituden in jedem Zeitrahmen), durch (2) eine Abstandsanalyse der Harmonischen (d. h. der Amplitudendifferenzen zwischen den Spitzen und Tälern der Spitzenamplitudensignale des Frequenzspektrums), durch (3) Anpassung der Harmonischen, durch (4) Filtern der Frequenzsignale in aufeinander folgenden Paaren von Zeitrahmen, und durch Durchführung der Schritte (1), (2) und (3) über den gefilterten Signalen, um eine Stimmhöheninterpolation an dem ersten Rahmen in dem Paar vorzusehen, und durch (5) Stimmhöhenanpassung.
Die Amplitude und Phase des Stimmhöhenfrequenzsignals und der harmonischen Signale werden durch Techniken nach dem Stand der Technik bestimmt, die im Vergleich zum Stand der Technik verfeinert wurden, um Amplituden- und Phasensignale mit verbesserter Auflösung zu erreichen. Solche Amplituden können in eine vereinfachte digitale Form gewandelt werden, durch (a) Berechnung des Logarithmus der Frequenzsignale, (b) Auswählendes Signals mit der Spitzenamplitude, (c) Versetzen der Amplituden der logarithmischen Signale relativ zu solchen Spitzenamplituden, (d) Stauchen der versetzten Signale, (e) Reduzieren der Anzahl der Harmonischen auf ein bestimmtes Maß durch Beseitigen abwechselnder, hochfrequenter Harmonischer, (f) Berechnen einer diskreten Kosinustransformation der verbleibenden Signale und (g) Digitalisieren solcher Transformationen. Falls die Stimmhöhenfrequenz eine Kontinuität innerhalb bestimmter Grenzen in aufeinanderfolgenden Zeitrahmen hat, wird die Phasendifferenz der Signale zwischen aufeinanderfolgenden Zeitrahmen vorgesehen.
In dem entfernt gelegenen Sprachdecodierer werden die Signalamplituden bestimmt durch Durchführung, in dieser Reihenfolge, der Umkehrung der Schritte (g) bis (a). Diese Signale und die Signale, welche die Stimmhöhenfrequenz und -phase darstellen, werden verarbeitet, um die Sprachsignale ohne Verzerrung wiederherzustellen.
Im Folgenden wird die Erfindung mit Bezug auf die Zeichnungen beschrieben, in denen:
Fig. 1 ein vereinfachtes Blockdiagramm eines Systems in einem Sprachcodierer für die Codierung von Sprachsignalen in eine digitale Form für die Übertragung zu einem Sprachdecodierer ist;
Fig. 2 ein vereinfachtes Blockdiagramm eines Systems in einem Sprachdecodierer für den Empfang der digitalen Signale von dem Sprachcodierer und für die Decodierung der digitalen Signale ist, um die Sprachsignale wiederherzustellen;
Fig. 3 ein Blockdiagramm mit größerem Detail eines Abschnitts des in Fig. 1 gezeigten Sprachcodierers ist und zeigt, wie der Sprachcodierer die Amplituden und Phasen der Harmonischen in aufeinander folgenden Zeitrahmen codiert;
Fig. 4 ein Blockdiagramm eines anderen Abschnitts des Sprachcodierers ist und zeigt, wie der Sprachcodierer die Stimmhöhe der Sprachsignale in den aufeinander folgenden Zeitrahmen bestimmt;
Fig. 5 ein Blockdiagramm des in Fig. 2 gezeigten Sprachdecoders ist und das Decodierungssystem in größerem Detail zeigt als dem in Fig. 2 gezeigten;
Fig. 6 ein schematisches Diagramm der in aufeinander folgenden Zeitrahmen zu codierenden Sprachsignale ist und weiter zeigt, wie die Zeitrahmen sich überlappen;
Fig. 7 ein Diagramm ist, das schematisch die Signale veranschaulicht, die in einem typischen Zeitrahmen erzeugt werden, um verschiedene Frequenzen darzustellen, nachdem die Sprachsignale in dem Zeitrahmen durch eine Fourierfrequenzanalyse in der Frequenz transformiert worden sind;
Fig. 8 die Charakteristiken eines Tiefpassfilters für die Verarbeitung der Frequenzsignale veranschaulicht, wie sie in Fig. 7 gezeigt wurden;
Fig. 9 ein Diagramm ist, das schematisch ein Spektrum von Frequenzsignalen veran schaulicht, nachdem die Frequenzsignale von Fig. 7 ein Tiefpassfilter mit den in Fig. 8 gezeigten Charakteristiken durchlaufen haben;
Fig. 10 ein Diagramm ist, das einen Schritt mit der Verwendung eine Hamming-Fenster- Analyse bei der präzisen Bestimmung der Charakteristiken jeder harmonischen Frequenz in den Sprachsignalen in jedem Zeitrahmen betrifft;
Fig. 11 das Amplitudenmuster einer individuellen Frequenz als Ergebnis der Verwendung der in Fig. 10 gezeigten Hamming-Fenster-Analyse bezeichnet;
Fig. 12 die Techniken veranschaulicht, die für die Bestimmung der Amplitude und Phase einer jeden Harmonischen in den Sprachsignalen in jedem Zeitrahmen mit größerer Präzision als nach dem Stand der Technik verwendet werden;
Fig. 13 die relativen Amplitudenwerte der Logarithmen der unterschiedlichen Harmonischen in den Sprachsignalen in jedem Zeitrahmen und die Auswahl der Harmonischen mit der Spitzenamplitude veranschaulicht;
Fig. 14 die logarithmischen Harmonischen-Signale von Fig. 13 bezeichnet, nachdem die Amplituden der unterschiedlichen Harmonischen umgewandelt worden sind, um ihre Amplitudendifferenz relativ zu der in Fig. 13 gezeigten Spitzenamplitude zu bezeichnen;
Fig. 15 schematisch die Wirkung einer Stauchungsoperation auf die in Fig. 14 gezeigten Signale anzeigt; und
Fig. 16 veranschaulicht, wie die Frequenzsignale in unterschiedlichen Frequenzschlitzen oder -fächern in jedem Zeitrahmen analysiert werden, um gesprochene (binäre "1") und ungesprochene ("binäre "0") Signale in solchen Zeitrahmen vorzusehen.
In einer Ausführungsform der Erfindung werden Sprachsignale in I = ig. 6 mit 10 bezeichnet. Wie gezeigt werden wird, sind Sprachsignale allgemein mit der Zeit veränderlich, und sie haben allgemein kein sich vollständig wiederholendes Muster. Dass System dieser Erfindung umfasst eine Blocksegmentierungsstufe 12 (Fig. 1), welches die Signale in Zeitrahmen 14 (Fig. 6) aufteilt, wobei jeder Zeitrahmen eine passende Zeitdauer hat, wie angenähert zwei- unddreißig Millisekunden (32 ms). Vorzugsweise überlappen sich die Zeitrahmen 14 um eine passende Zeitspanne, wie etwa um angenähert zwölf Millisekunden (12 ms), wie bei 16 in Fig. 1 bezeichnet. Die Überlappung 16 wird in den Zeitrahmen 14 vorgesehen, weil Abschnitte der Sprachsignale am Anfang und am Ende eines jeden Zeitrahmens bei der Verarbeitung der Signale in den Zeitrahmen relativ zu den Abschnitten der Signale in der Mitte des Zeitrahmens zu einer Verzerrung neigen.
Die Blocksegmentierungsstufe 12 in Fig. 1 ist in einem Sprachdecodierer enthalten, der in Fig. 1 allgemein mit 18 bezeichnet ist. Eine Stimmhöhenschätzstufe, die allgemein mit 20 bezeichnet ist, schätzt die Stimmhöhenfrequenz oder Fundamentalfrequenz des Sprachsignals in jedem der Zeitrahmen 14 auf eine Anzahl unterschiedlicher Weisen, deren jede einen zusätzlichen Grad der Genauigkeit und/oder des Vertrauens in die Schätzung liefert. Die Stufen, welche die Stimmhöhenfrequenz auf unterschiedliche Weise schätzen, sind in Fig. 4 gezeigt.
Die Sprachsignale in jedem der Zeitrahmen 14 laufen auch durch die Stufe 22, welche eine Frequenztransformation der Signale vorsieht, wie etwa eine Fourierfrequenztransformation. Die sich ergebenden Frequenzsignale sind in Fig. 7 allgemein mit 24 bezeichnet. Die Signale 24 in jedem der Zeitrahmen 14 laufen dann durch die Stufe 26. Die Codiererstufe 26 bestimmt die Amplitude und Phase der unterschiedlichen Frequenzkomponenten in den Sprachsignalen in jedem der Zeitrahmen 14 und wandelt diese Bestimmungen für die Übertragung zu einem Sprachdecodierer in ein binäres Format um, wie in Fig. 2 und 5 gezeigt. Die Stufen für das Vorsehen der Bestimmung von Amplituden und Phasen und für die Umwandlung dieser Bestimmungen in eine Form für die Übertragung zum Sprachdecodierer von Fig. 2 sind in Fig. 3 gezeigt.
Fig. 4 veranschaulicht in zusätzlichem Detail die in Fig. 1 gezeigte Stimmhöhenschätzstufe 20. Die Stimmhöhenschätzstufe 20 umfasst eine Stufe 30 für den Empfang der Sprachsignale über eine Leitung 32 in einem ersten Zeitrahmen der Zeitrahmen 14 und für die Durchführung einer Frequenztransformation über solchen Sprachsignalen, wie etwa durch eine Fourierfrequenztransformation. Auf ähnliche Weise empfängt eine Stufe 34 die Sprachsignale über eine Leitung 36 in dem nächsten Zeitrahmen der Zeitrahmen 14 und führt eine Frequenztransformation über solchen Sprachsignalen durch, wie etwa durch eine Fourierfrequenztransformation. Auf diese Weise führt die Stufe 30 Frequenztransformation über den Sprachsignalen in jeden zweiten Zeitrahmen der Zeitrahmen 14 durch, und die Stufe 34 führt Frequenztransformation über den Sprachsignalen in den jeweils anderen Zeitrahmen durch. Die Stufen 30 und 34 führen Frequenztransformationen, wie etwa Fourierfrequenztransformationen, durch, um Signale bei unterschiedlichen Frequenzen zu erzeugen, die mit den Signalen 24 in Fig. 7 korrespondieren.
Die Frequenzsignale von der Stufe 30 laufen zu einer Stufe 38, die eine logarithmische Berechnung über den Größen dieser Frequenzsignale durchführt. Dies bewirkt, dass die Größen der Spitzenamplituden der Signale 24 näher beieinander liegen als wenn die logarithmische Berechnung nicht vorgesehen worden wäre. Abstandsmessungen der Harmonischen werden über den logarithmischen Signalen von der Stufe 38 in der Stufe 40 vorgesehen. Die Abstandsmessungen der Harmonischen betreffen eine Bestimmung der Amplitudendifferenz zwischen der Spitze eines jeden Frequenzsignals und dem Tal, das dem Signal folgt. Dies wird in Fig. 8 veranschaulicht bei 42 für eine Spitzenamplitude für ein Frequenzsignal 24 und bei 44 für ein Tal, das der Spitzenamplitude folgt. Bei der Bestimmung der Differenz zwischen den Spitzenamplituden, wie etwa der Amplitude 42, und den Tälern, wie etwa dem Tal 44, werden die Positionen in dem Frequenzspektrum um die Spitzenamplitude herum und dem Tal ebenfalls in der Bestimmung berücksichtigt. Das Frequenzsignal; das die größte Differenz zwischen der Spitzenamplitude und dem nachfolgenden Tal in den Frequenzsignalen 24 bietet, stellt eine Schätzung der Stimmhöhenfrequenz der Sprachsignale in dem Zeitrahmen 14 dar. Diese Schätzung ist die Frequenz, an der die Spitzenamplitude solcher Frequenzsignale auftritt.
Wie zu erkennen ist, haben weibliche Stimmen eine höhere Stimmhöhenfrequenz als männliche Stimmen. Dies führt dazu, dass die Anzahl der harmonischen Frequenzen in den Sprachsignalen von weiblichen Stimmen niedriger ist als jene in den Sprachsignalen von männlichen Stimmen. Da jedoch die Stimmhöhenfrequenz in den Sprachsignalen einer männlichen Stimme niedrig ist, kann der zeitliche Abstand zwischen aufeinanderfolgenden Signalen bei der Stimmhöhenfrequenz in jedem Zeitrahmen 14 ziemlich groß sein. Deshalb brauchen nur zwei (2) oder drei (3) Perioden bei der Stimmhöhenfrequenz in jedem Zeitrahmen 14 für eine männliche Stimme aufzutreten. Dies begrenzt die Fähigkeit, eine ge naue Bestimmung der Stimmhöhenfrequenz für eine männliche Stimme zu liefern.
Bei dem Vorsehen einer Abstandsberechnung der Harmonischen liefert die Stufe 40 immer eine Bestimmung hinsichtlich der Sprachfrequenzen, ob die Stimme eine männliche Stimme oder eine weibliche Stimme ist. Wenn die Stimme jedoch eine weibliche Stimme ist, liefert die Stufe 40 eine zusätzliche Berechnung mit besonderer Berücksichtigung der Stimmhöhenfrequenzen, die normalerweise weiblichen Stimmen zugeordnet sind. Diese zusätzliche Berechnung ist vorteilhaft, weil es eine zunehmende Anzahl von Signalen bei der Stimmhöhenfrequenz weiblicher Stimmen in jedem Zeitrahmen 14 gibt, wodurch eine Verbesserung der Schätzung der Stimmhöhenfrequenz gegeben wird, wenn eine zusätzliche Berechnung in der Stufe 40 für weibliche Stimmen vorgesehen wird.
Die Signale von der Stufe 40 für die Durchführung der Abstandsberechnung der Harmonischen durchlaufen eine Stufe 46 für einen Stimmhöhenfrequenzabgleich mit einer Synthese wiederhergestellter Harmonischen. Diese Synthese wiederhergestellter Harmonischen wird nachfolgend im Detail beschrieben in Verbindung mit der Beschreibung der Transformationscodiererstufe 26, welche in Blockform in Fig. 1 und in einer detaillierten Blockform in Fig. 3 gezeigt wird. Die Stufe 46 arbeitet so, dass die Bestimmung der Stimmhöhenfrequenz von der Stufe 40 über einen relativ kleinen Bereich oberhalb und unterhalb der bestimmten Stimmhöhenfrequenz verschoben wird, um einen optimalen Abgleich mit solcher Synthese der Harmonischen vorzusehen. Auf diese Weise wird die Bestimmung der Stimmhöhenfrequenz in jedem Zeitrahmen 14 verfeinert, falls in dieser Bestimmung noch immer eine Mehrdeutigkeit auftritt. Wie zu erkennen ist, kann eine Folge von 512 aufeinanderfolgenden Frequenzen in einer Binärfolge von neun (9) binären Bit dargestellt werden. Ferner fällt die Stimmhöhenfrequenz männlicher und weiblicher Stimmen allgemein in diesen Binärbereich von 512 diskreten Frequenzen. Wie unten zu sehen sein wird, wird die Stimmhöhenfrequenz eines Sprachsignals in jedem Zeitrahmen 14 durch neun (9) binäre Bit bezeichnet.
Die Signale von der Stufe 46 werden an eine Stufe 48 für die Bestimmung des Abstands der Harmonischen übergeben. In der Stufe 48 werden die Spitzenamplituden aller ungeraden Harmonischen addiert, um einen kumulativen Wert zu ergeben, und die Spitzenamplituden aller geraden Harmonischen werden addiert, um einen anderen kumulativen Wert zu ergeben. Die zwei kumulativen Werte werden dann miteinander verglichen. Wenn der kumulati ve Wert für die geraden Harmonischen den kumulativen Wert für die ungeraden Harmonischen um einen bestimmten Wert, wie angenähert fünfzehn Prozent (15%), übersteigt, wird die niedrigste der geraden Harmonischen als die Stimmhöhenfrequenz ausgewählt. Andernfalls wird die niedrigste der ungeraden Harmonischen ausgewählt.
Die Sprachsignale auf der Leitung 32 (für jeden zweiten Zeitrahmen 14) und auf der Leitung 36 (für die restlichen Zeitrahmen 14) werden in ein Tiefpassfilter 52 eingegeben. Das Filter 52 hat eine Charakteristik, die vollen Amplituden der Signalkomponenten in den Paaren aufeinanderfolgender Zeitrahmen mit Frequenzen von weniger als angenähert eintausend Hertz (1000 Hz) durchzulassen. Dies wird in Fig. 8 bei 54a veranschaulicht. Mit Zunahme der Frequenzkomponenten oberhalb von eintausend Hertz (1000 Hz) werden zunehmend Teile dieser Frequenzkomponenten herausgefiltert. Dies wird in Fig. 8 bei 54b veranschaulicht. Wie aus Fig. 8 zu erkennen ist, hat das Filter eine flache Kennlinie 54a bis ungefähr eintausend Hertz (1000 Hz), und die Kennlinie fällt dann relativ schnell bis zu einem Bereich von Frequenzen wie ungefähr achtzehnhundert Hertz (1800 Hz) ab. Das durch das Tiefpassfilter gefilterte Signal wird durch einen Faktor von zwei unterabgetastet, d. h. jeder zweite Wert wird verworfen. Dies ist konsistent mit der Theorie, da die Frequenzen oberhalb von 2000 Hz nahezu verschwunden sind.
Die Signale, die das Tiefpassfilter 52 in Fig. 4 durchlaufen, werden in die Stufe 56 für das Durchführen einer Frequenztransformation, wie etwa einer Fourierfrequenztransformation, eingebracht. Durch Filterung zunehmender Amplituden der Signale mit fortschreitende Zu- nahme bei Frequenzen oberhalb von eintausend Hertz (1000 Hz) werden die frequenztransformierten Signale, die in Fig. 9 allgemein mit 58 bezeichnet sind, stärker im Frequenzspektrum ausgebreitet als die Signale in Fig. 7. Dies kann erkannt werden durch Vergleich des Frequenzspektrums der in Fig. 9 als Ergebnis der Filterung produzierten Signale mit dem Frequenzspektrum in Fig. 7. Das Ausweiten des Frequenzspektrums in Fig. 9 bewirkt eine Verbesserung der Auflösung in den Signalen. Z. B. kann die Frequenzauflösung um einen Faktor von zwei (2) vergrößert werden.
Die Signale von dem Tiefpassfilter 52 werden auch in eine Stufe 60 für die Durchführung einer CEPSTRUM-Berechnung oder -Analyse eingegeben. Stufen, die eine CEPSTRUM- Berechnung oder -Analyse durchführen, sind nach dem Stand der Technik wohlbekannt. In solch einer Stufe wird die höchste Spitzenamplitude der gefilterten Signale in jedem Paar von aufeinander folgenden Zeitrahmen 14 bestimmt. Dieses Signal wird in Fig. 6 mit 62 bezeichnet. Die Zeit zwischen diesem Signal 62 und einem Signal 64 mit der nächsten Spitzenamplitude in dem Paar der nachfolgenden Zeitrahmen 14 kann dann bestimmt werden. Diese Zeitspanne wird in Fig. 6 mit 66 bezeichnet. Die Zeitspanne 66 wird dann in eine Stimmhöhenfrequenz für die Signale in den aufeinander folgenden Zeitrahmen 14 übersetzt.
Die Bestimmung der Stimmhöhenfrequenz in der Stufe 60 wird in eine Stufe 66 in Fig. 4 eingebracht. Die Stufe 66 nimmt die Signale von einer Stufe 68 auf, die logarithmische Berechnungen über den Amplituden der Frequenzsignale von der Stufe 56 in einer Weise durchführt, welche ähnlich ist der oben für die Stufe 38 beschriebenen Weise. Die Stufe 66 führt Abstandsberechnungen der Harmonischen bei der Stimmhöhenfrequenz in einer Weise ähnlich der oben für die Stufe 40 beschriebenen Weise durch. Die Stufe 66 modifiziert dementsprechend (oder liefert eine Verfeinerung) der Bestimmung der Frequenz von der Stufe 60, falls es irgendeine Mehrdeutigkeit bei solch einer Bestimmung gibt. Alternativ kann die Stufe 60 angesehen werden als eine Modifizierung (oder Verfeinerung) der Signale von der Stufe 66. Wie zu erkennen ist, kann es eine Mehrdeutigkeit in der Bestimmung der Stimmhöhenfrequenz von der Stufe 60 geben, falls die Zeitbestimmung aus unterschiedlichen Spitzenamplituden als der höchsten Spitzenamplitude in den zwei (2) aufeinanderfolgenden Zeitrahmen durchgeführt wird, oder falls die Zeitspanne zwischen den aufeinander folgenden Spitzen keine präzise Anzeige der Stimmhöhenfrequenz liefert.
Wie zuvor beschrieben, führt die Stufe 34 eine Frequenztransformation wie etwa eine Fourierfrequenztransformation über den Signalen auf der Leitung 36 durch, welche die Sprachsignale in den zweiten der jeweils zwei (2) aufeinander folgenden Zeitrahmen 14 in jedem Paar aufnimmt. Die Frequenzsignale von der Stufe 34 gehen zu einer Stufe 70, die eine logarithmische Größenberechnung oder -Analyse ergibt, welche mit den logarithmischen Größenberechnungen oder -Analysen korrespondiert, die von den Stufen 38 und 68 durchgeführt werden. Die Signale von der Stufe 70 gehen wiederum zu der Stufe 66, um eine weitere Verfeinerung der Bestimmung der Stimmhöhenfrequenz für die Sprachsignale in jedem Paar von zwei (2) aufeinander folgenden Zeitrahmen 14 vorsehen.
Die Signale von der Stufe 66 gehen zu einer Stufe 74, welche einen Stimmhöhenfrequenz abgleich mit einer Synthese wiederhergestellter Harmonischer liefert. Diese Synthese wiederhergestellter Harmonischer wird im Detail anschließend in Verbindung mit der Beschreibung der Transformationscodiererstufe 26 beschrieben werden, welche in Blockform in Fig. 1 und in detaillierter Blockform in Fig. 3 gezeigt ist. Der von der Stufe 74 durchgeführte Stimmhöhenfrequenzabgleich korrespondiert mit dem von der Stufe 46 durchgeführte Stimmhöhenfrequenzabgleich. Die Stufe 74 arbeitet so, dass die Bestimmung der Stimmhöhenfrequenz von der Stufe 66 über einen relativ kleinen Bereich oberhalb und unterhalb der bestimmten Stimmhöhenfrequenz verschoben wird, um einen optimalen Abgleich mit solcher Synthese der Harmonischen vorzusehen. Auf diese Weise wird die Bestimmung der Stimmhöhenfrequenz in jedem Zeitrahmen 14 verfeinert, falls in dieser Bestimmung noch immer eine Mehrdeutigkeit auftritt.
Eine Stufe 78 nimmt die verfeinerte Bestimmung der Stimmhöhenfrequenz von der Stufe 74 auf. Die Stufe 78 liefert eine weitere Verfeinerung der Bestimmung der Stimmhöhenfrequenz in jedem Zeitrahmen, falls in solch einer Bestimmung immer noch eine Mehrdeutigkeit liegt. Die Stufe 78 funktioniert so, dass sie die Summe der Amplituden aller ungeraden Harmonischen in den Frequenztransformationssignalen aufsammelt, welche durch die Stufe 74 ermittelt wurden, und die Summe der Amplituden aller geraden Harmonischen in den Frequenztransformationssignalen. Falls die aufgesammelte Summe aller geraden Harmonischen die aufgesammelte Summe aller ungeraden Harmonischen um einen bestimmten Wert, wie fünfzehn Prozent (15%) der aufgesammelten Summe aller ungeraden Harmonischen übersteigt, wird die niedrigste Frequenz der geraden Harmonischen als die Stimmhöhenfrequenz ausgewählt. Falls die aufgesammelte Summe aller geraden Harmonischen die aufgesammelte Summe aller ungeraden Harmonischen um diesen Schwellwert nicht übersteigt, wird die niedrigste Frequenz der ungeraden Harmonischen als die Stimmhöhenfrequenz ausgewählt. Die Arbeitsweise der Stufe 78 der Differenz der Harmonischen korrespondiert mit der Arbeitsweise der Stufe 48 der Differenz der Harmonischen.
Die Signale von der Stufe 78 laufen zu einer Stimmhöheninterpolationsstufe 80. Die Stimmhöheninterpolationsstufe 80 nimmt über eine Leitung 82 auch Signale auf, welche die Signale repräsentieren, die von der Stufe 78 für einen (1) vorangegangenen Rahmen ermittelt wurden. Falls z. B. die Signale, die von der Stufe 78 zu der Stufe 80 laufen, die Stimmhöhenfrequenz repräsentieren, welche in den Zeitrahmen 1 und 2 bestimmt werden, repräsen tieren die Signale auf der Leitung 82 die Stimmhöhenfrequenz, die für den Rahmen 0 bestimmt wurde. Die Stufe 80 interpoliert zwischen der Stimmhöhenfrequenz, die für den Zeitrahmen 0 bestimmt wurde, und den Zeitrahmen 1 und 2, und produziert Information, welche die Stimmhöhenfrequenz für den Zeitrahmen 1 repräsentiert. Diese Information wird in die Stufe 40 eingebracht, um die Bestimmung der Stimmhöhenfrequenz in jener Stufe für den Zeitrahmen 1 zu verfeinern.
Die Stimmhöheninterpolationsstufe 80 setzt auch heuristische Techniken ein, um die Bestimmung der Stimmhöhenfrequenz für den Zeitrahmen 1 zu verfeinern. Z. B. kann die Stufe 80 die Größe der Leistung in den Frequenzsignalen für tiefe Frequenzen in den Zeitrahmen 1 und 2 und dem Zeitrahmen 0 bestimmen. Die Stufe 80 kann auch das Verhältnis der kumulativen Größe der Leistung in den Frequenzsignalen bei tiefen Frequenzen (oder der kumulativen Größe der Amplituden solcher Signale) in solchen Zeitrahmen relativ zu der kumulativen Größe der Leistung in den Frequenzsignalen bei hohen Frequenzen (oder der kumulativen Größe der Amplituden solcher Signale) in solchen Zeitrahmen bestimmen. Diese Faktoren, wie auch andere Faktoren, können in der Stufe 80 bei der Verfeinerung der Stimmhöhenfrequenz für den Zeitrahmen 1 verwendet werden.
Die Ausgabe von der Stimmhöheninterpolationsstufe 80 wird in die Stufe 40 der Abstandsberechnung der Harmonischen eingebracht, um die Bestimmung der Stimmhöhenfrequenz in der Stufe 38 zu verfeinern. Wie oben beschrieben, wird diese Bestimmung weiter verfeinert durch die Stimmhöhenabgleichstufe 46 und die Stufe 48 der Differenz der Harmonischen. Die Ausgabe der Stufe 48 der Differenz der Harmonischen bezeichnet in neun (9) binären Bits die verfeinerte Bestimmung der Stimmhöhenfrequenz für den Zeitrahmen 1. Diese sind die ersten neun Bits, welche zu dem in Fig. 2 gezeigten Sprachdecodierer übertragen werden, um dem Sprachdecodierer die Parameter anzuzeigen, welche die Charakteristiken der Sprachsignale in dem Zeitrahmen 1 identifizieren. Auf gleiche Weise zeigt die Stufe 78 der Differenz der Harmonischen in neun (9) binären Bits die verfeinerte Schätzung der Stimmhöhenfrequenz für den Zeitrahmen 2 an. Diese sind die ersten neun Bits, welche zu dem in Fig. 2 gezeigten Sprachdecodierer übertragen werden, um dem Sprachdecodierer die Parameter anzuzeigen, welche die Charakteristiken der Sprachsignale in dem Zeitrahmen 2 identifizieren. Wie zu erkennen ist, funktioniert das in Fig. 4 gezeigte und oben beschriebene System auf ähnliche Weise, um die Stimmhöhenfrequenz in aufeinander fol genden Paaren von Zeitrahmen, wie den Zeitrahmen 3 und 4, 5 und 6, u. s. w. zu bestimmen und zu codieren.
Der Transformationscodierer 26 in Fig. 1 wird im Detail in Fig. 3 gezeigt. Der Transformationscodierer 26 umfasst eine Stufe 86 für die Bestimmung der Amplitude und Phase der Signale bei der Fundamentalfrequenz (Stimmhöhenfrequenz) und der Amplitude und Phase jeder der Harmonischen-Signale. Diese Bestimmung wird in einem Bereich von Frequenzen bis zu einer Bandbreite von angenähert vier Kilohertz (4 kHz) vorgesehen. Die Bestimmung wird auf ungefähr 4 Kilohertz (4 kHz) begrenzt, weil die Grenze von vier Kilohertz (4 kHz) mit der Grenze der Frequenzen korrespondiert, die in dem Telefonnetzwerk als Folge angenommener Standards angetroffen wird.
Als ein erster Schritt bei der Bestimmung der Amplitude und Phase der Stimmhöhenfrequenz und der Harmonischen in jedem Zeitrahmen 14 teilt die Stufe 86 den Frequenzbereich bis viertausend Hertz (4000 Hz) in eine Anzahl von Frequenzblöcken auf, wie etwa zweiunddreißig (32). Die Stufe 86 teilt dann jeden Frequenzblock in eine bestimmte Anzahl von Gittern auf, wie etwa sechzehn (16). Mehrere Frequenzblöcke 9E3 und die Gitter 98 für einen der Frequenzblöcke sind in Fig. 12 gezeigt. Die Stufe 86 kennt aus der Bestimmung der Stimmhöhenfrequenz in jedem Zeitrahmen 14 den Frequenzblock, in dem jede harmonische Frequenz liegt. Die Stufe 86 bestimmt dann das bestimmte Gitter aus den sechzehn (16) Gittern, in welchem jede Harmonische in ihrem jeweiligen Frequenzblock liegt. Durch genaue Bestimmung der Frequenz eines jeden Harmonischen-Signals kann die Amplitude und Phase eines jeden Harmonischen-Signals mit einiger Genauigkeit bestimmt werden, wie im Detail nachfolgend beschrieben wird.
Als ein erster Schritt bei der Bestimmung mit einiger Genauigkeit der Frequenz eines jeden Harmonischen-Signals in der Fourierfrequenztransformation, die in jedem Zeitrahmen 14 produziert wird, liefert die Stufe 86 eine Hamming-Fenster-Analyse der Sprachsignale in jedem Zeitrahmen 14. Eine Hamming-Fenster-Analyse ist in der Technik wohl bekannt. In einer Hamming-Fenster-Analyse werden die Sprachsignale 92 (Fig. 10) in jedem Zeitrahmen 14 durch eine Kurve modifiziert, die ein kuppelförmiges Muster 94 in Fig. 10 aufweist. Wie zu erkennen ist, hat das kuppelförmige Muster 94 eine größere Amplitude bei fortschreitenden Positionen zur Mitte des Zeitrahmens 14 hin als zu den Rändern der Zeitrah men. Diese relative Abschwächung der Sprachsignale an den gegenüberliegenden Rändern eines jeden Zeitrahmens 14 ist ein Grund, warum die Zeitrahmen sich überlappen, wie in Fig. 6 gezeigt.
Wenn das Hamming-Muster 94 verwendet wird, um die Sprachsignale in jedem Zeitrahmen 14 zu modifizieren, und eine Fourierfrequenztransformation über dem sich ergebenden Muster für eine individuelle Frequenz durchgeführt wird, wird ein Frequenzmuster produziert, wie in Fig. 11 gezeigt. Dieses Frequenzmuster kann für eine der sechzehn (16) Gitter in dem Frequenzblock produziert werden, in dem die Existenz einer Harmonischen festgestellt wird: Ähnliche Frequenzmuster werden für die anderen fünfzehn (15) Gitter in dem Frequenzblock bestimmt. Das Gitter, welches am nächsten zu der Stelle einer gegebenen Harmonischen liegt, wird ausgewählt. Durch Bestimmung des ausgezeichneten Gitters der sechzehn (16) Gitter, in dem die Harmonische liegt, wird die Frequenz der Harmonischen mit größerer Genauigkeit bestimmt als nach dem Stand der Technik.
Auf diese Weise werden die Amplitude und die Phase für eine jede Harmonische in jedem der Zeitrahmen 14 bestimmt. Die Phase einer jeden Harmonischen wird für jeden Zeitrahmen 14 durch Vergleich der Harmonischen-Frequenz in jedem Zeitrahmen 14 mit der Harmonischen-Frequenz der benachbarten Zeitrahmen codiert. Wie zu erkennen ist, ergeben sich Veränderungen in der Phase eines Harmonischen-Signals aus Veränderungen der Frequenz des Harmonischen-Signals. Da die Periode in jedem Zeitrahmen 14 relativ kurz ist, und da es eine zeitliche Überlappung zwischen benachbarten Zeitrahmen gibt, kann eine jede Veränderung in der Stimmhöhenfrequenz in aufeinander folgenden Zeitrahmen angesehen werden, dass sie zu einer Veränderung in der Phase führt.
Als ein Ergebnis der oben dargestellten Analyse werden Paare von Signalen für jede Harmonischen-Frequenz erzeugt, wobei eines dieser Signale die Amplitude darstellt, und das andere die Phase darstellt. Diese Signale können dargestellt werden als a&sub1;&sub1;, a&sub2;&sub2;, a&sub3;&sub3;, u. s. w. In dieser Folge stellen
a&sub1;, a&sub2;, a&sub3;, u. s. w. die Amplituden der Signale bei der Fundamentalfrequenz und die zweite, die dritte, u. s. w. Harmonischen in jedem Zeitrahmen 14 dar; und
&sub1;, &sub2;, &sub3;, u. s. w. stellen die Phasen der Signale bei der Fundamentalfrequenz und die zweite, die dritte, u. s. w. Harmonischen in jedem Zeitrahmen 14 dar.
Obgleich die Amplitudenwerte a&sub1;, a&sub2;, a&sub3;, u. s. w. und die Phasenwerte &sub1;, &sub2;, &sub3;, u. s. w. die Parameter der Signale bei der Fundamentalfrequenz (Stimmhöhenfrequenz) und den verschiedenen Harmonischen in jedem Zeitrahmen mit einiger Genauiglkeit repräsentieren können, liegen diese Werte nicht in einer Form vor, die von dem in Fig. 1 gezeigten Sprachcodierer zu einem allgemein in Fig. 2 mit 100 bezeichneten Sprachdecodierer übertragen werden kann. Die in Fig. 3 gezeigten Schaltkreise liefern eine Umwandlung der Amplitudenwerte a&sub1;, a&sub2;, a&sub3;, u. s. w. und der Phasenwerte &sub1;, &sub2;, &sub3;, u. s. w. in ein sinnvolles Binärformat für die Übertragung zu dem Sprachdecodierer 100 in Fig. 2 und für die Decodierung in dem Sprachdecodierer.
Um solch eine Umwandlung zu erreichen, werden die Signale von der Stufe 86 für die Analyse der Harmonischen in Fig. 3 einer Stufe 104 übergeben, welche mit "Berechnung der Spektrumsform" bezeichnet ist. Die Stufe 104 empfängt auch die Signale von einer Stufe 102, die mit "Hole Bandamplitude" bezeichnet ist. Die Eingabe in die Stufe 102 korrespondiert mit der Eingabe in die Stufe 86. Die Stufe 102 bestimmt das Frequenzband, in dem die Amplitude des Signals auftritt.
Als ein erster Schritt der Umwandlung der Amplituden a&sub1;, a&sub2;, a&sub3;, u. s. w. in sinnvolle und vereinfachte Binärwerte für die Übertragung zu einem Sprachdecodierer 100 werden die Logarithmen der Amplitudenwerte a&sub1;, a&sub2;, a&sub3;, u. s. w. in der Stufe 104 in Fig. 3 bestimmt. Die Verwendung der Logarithmen dieser Amplitudenwerte ist wünschenswert, weil die sich ergebenden Werte relativ zueinander komprimiert werden, ohne ihre Signifikanz mit Hinsicht zueinander zu verlieren. Die Logarithmen können hinsichtlich eines jeden passenden Basiswertes berechnet werden, wie etwa eines Basiswertes von zwei (2) oder eines Basiswertes von zehn (10).
Die Logarithmuswerte der Amplituden werden dann in der Stufe 104 in Fig. 3 verglichen, um den Spitzenwert von allen diesen Amplituden auszuwählen. Dies wird in Fig. 13 schematisch angezeigt, indem die unterschiedlichen Frequenzsignale und die Amplituden dieser Signale schematisch angezeigt werden, und die Spitzenamplitude des Signals mit der größten Amplitude mit 106 bezeichnet ist. Die Amplituden aller anderen Frequenzsignale werden dann auf die Spitzenamplitude 106 als ein Basiswert skaliert. Mit anderen Worten:
die Differenz zwischen der Spitzenamplitude 106 und der Größe einer jeden der verbleibenden Amplitudenwerte a&sub1;, a&sub2;, a&sub3;, u. s. w. wird bestimmt. Diese Differenzwerte werden in Fig. 14 schematisch bei 108 angezeigt.
Die Differenzwerte 108 in Fig. 14 werden als Nächstes gestaucht. Eine Stauchungsoperation ist in der Technik wohl bekannt. In einer Stauchungsoperation werden die in Fig. 14 gezeigten Differenzwerte bei Werten am oberen Ende des Amplitudenbereichs zunehmend komprimiert. Dies wird in Fig. 15 schematisch bei 110 angezeigt. Die Amplitudenwerte in der Nähe der Spitzenwerte in Fig. 13 werden durch die Stauchungsoperation relativ zu den Amplituden mit niedrigem Wert in Fig. 13 betont.
Als nächster Schritt bei der Umwandlung der Amplitudenwerte a&sub1;, a&sub2;, a&sub3;, u. s. w. in ein sinnvolles und vereinfachtes Binärformat wird die Anzahl solcher Werte in der Stufe 104 auf einen bestimmten Wert, wie etwa fünfundvierzig (45) begrenzt, falls die Anzahl der Amplitudenwerte fünfundvierzig (45) übersteigt. Diese Grenze wird auferlegt durch Verwerfen der Harmonischen mit den höchsten Frequenzwerten. Ein Verwerfen der Harmonischen mit den höchsten Frequenzen führt nicht zu einer Verschlechterung der getreuen Wiedergabe von Klängen, da die meiste, den Klang betreffende Information in den unteren Frequenzen liegt.
Als ein nächster Schritt wird die Anzahl der Harmonischen in der Stufe 104 auf eine passende Anzahl wie etwa sechzehn (16) begrenzt, falls die Anzahl der Harmonischen zwischen sechzehn (16) und zwanzig (20) liegt. Dies wird erreicht durch Verwerfen jeder zweiten der Harmonischen am oberen Ende des Frequenzbereichs, falls die Anzahl der Harmonischen zwischen sechzehn (16) und zwanzig (20) liegt. Falls die Anzahl der Harmonischen kleiner als sechzehn (16) ist, wird die Anzahl der Harmonischen auf sechzehn (16) erhöht durch Paaren aufeinanderfolgender Harmonischer am oberen Frequenzende, um zusätzliche Harmonische zwischen den gepaarten Harmonischen zu bilden und durch Interpolation der Amplituden der zusätzlichen Harmonischen entsprechend den Amplituden der gepaarten Harmonischen.
Falls die Anzahl der Harmonischen größer als vierundzwanzig (24) ist, wird auf gleiche Weise jede zweite der Harmonischen am oberen Ende des Frequenzbereichs beseitigt, bis die Anzahl der Harmonischen auf vierundzwanzig (24) reduziert ist. Falls die Anzahl der Har monischen zwischen einundzwanzig (21) und vierundzwanzig (24) liegt, wird die Anzahl der Harmonischen auf vierundzwanzig (24) erhöht durch Paaren aufeinanderfolgender Harmonischer am oberen Frequenzende, um zusätzliche Harmonische zwischen den gepaarten Harmonischen zu bilden und durch Interpolation der Amplituden der zusätzlichen Harmonischen entsprechend den Amplituden der gepaarten Harmonischen.
Nachdem die Anzahl der Harmonischen auf sechzehn (16) oder vierundzwanzig (24) abhängig von der Anzahl der in der Fourierfrequenztransformation erzeugten Harmonischen begrenzt worden ist, wird in der Stufe 104 über der begrenzten Anzahl von Harmonischen eine diskrete Kosinustransformation durchgeführt. Die diskrete Kosinustransformation ist in der Technik wohl bekannt als vorteilhaft für die Kompression korrelierter Signale, wie etwa in einer Spektrumsform. Die diskrete Kosinustransformation wird über den vollständigen Bereich der sechzehn (16) oder vierundzwanzig (24) Harmonischen durchgeführt. Die ist unterschiedlich zu dem Stand der Technik, weil nach dem Stand der Technik verschiedene diskrete Kosinustransformationen der Harmonischen ermittelt werden, deren jede auf angenähert acht (8) Harmonische begrenzt ist. Jedoch wird nach dem Stand der Technik die Gesamtzahl der Frequenzen in der Transformation nicht begrenzt, wie in dem System dieser Erfindung vorgesehen wird, wenn die Anzahl auf sechzehn (16) oder vierundzwanzig (24) begrenzt wird.
Die Ergebnisse, welche von der im vorangehenden Absatz diskutierten diskreten Kosinustransformation erreicht wurden, werden anschließend durch eine Stufe 110 in eine bestimmte Anzahl von Binärbits umgewandelt, um diese Ergebnisse zu repräsentieren. Z. B. können die Ergebnisse in achtundvierzig (48), vierundsechzig (64) oder achtzig (80) Binärbits umgewandelt werden. Die Anzahl der Binärbits wird vorbestimmt, so dass der Sprachdecodierer 100 weiß, wie solche Binärbits zu decodieren sind. Bei der Codierung der Ergebnisse der diskreten Kosinustransformation wird vorzugsweise ein größeres Gewicht auf die niedrigeren Frequenzkomponenten der diskreten Kosinustransformation rellativ zu den höheren Frequenzkomponenten gelegt. Z. B. kann zur Veranschaulichung die Anzahl der Binärbits, die verwendet werden, um aufeinanderfolgende Werte von der diskreten Kosinustransformation zu bezeichnen, eine Folge von 5, 5, 4, 4, 3, 3, 3, . . ., 2, 2, . . ., 0, 0, 0 sein. In dieser Folge repräsentiert jede folgende Zahl von links eine Komponente mit fortschreitend höherer Frequenz. Die 48, 64 oder 80 Binärbits, welche die Ergebnisse der diskreten Kosi nustransformation darstellen, werden zum Sprachdecodierer 100 in Fig. 2 nach der Übertragung der neun (9) Binärbits übertragen, welche die Stimmhöhenfrequenz oder Fundamentalfrequenz repräsentieren.
Eine Stufe 112 in Fig. 3 empfängt von der Stufe 104 die Signale, welche die diskrete Kosinustransformation repräsentieren, und rekonstruiert diese Signale in eine Form, die mit den Fourierfrequenztransformationssignalen korrespondiert, welche in die Stufe 86 eingebracht wurden. In einem ersten Schritt dieser Rekonstruktion empfängt die Stufe 112 die Signale von der Stufe 104 und liefert eine Umkehrung der diskreten Kosinustransformation. Die Stufe 112 weitet dann die Anzahl der Harmonischen aus, um mit den Anzahl der Harmonischen in den Fourierfrequenztransformationssignalen übereinzustimmen, welche in die Stufe 86 eingebracht wurden. Die Stufe 112 erreicht dies durch Interpolation zwischen den Amplituden aufeinander folgender Paare von Harmonischen am oberen Ende des Frequenzbereichs. Die Stufe 112 führt dann eine Entstauchungsoperation durch, in der die Umkehrung der Stauchungsoperation durch die Stufe 110 durchgeführt wird. Die Signale sind nun in einer Form, die mit der in Fig. 14 gezeigten Form korrespondiert.
Um die Signale in die Form umzuwandeln, die in Fig. 13 gezeigt ist, wird eine Differenz zwischen der in Fig. 13 gezeigten Spitzenamplitude 106 für jede Harmonische und der in Fig. 14 gezeigten Amplitude für jede Harmonische bestimmt. Die sich erlebenden Amplituden korrespondieren mit denjenigen, die in Fig. 13 gezeigt sind, unter der Annahme, dass jeder Schritt in der von der Stufe 112 gegebenen erneuten Umwandlung ideale Berechnungen liefert. Die Signale, die mit den in Fig. 13 gezeigten Signalen korrespondieren, werden dann in der Stufe 112 verarbeitet, um die logarithmischen Werte zu beseitigen, und um Fourierfrequenztransformationssignale zu ermitteln, welche mit den in die Stufe 86 eingebrachten Signalen korrespondieren.
Die von der Stufe 112 erneut konstruierten Fourierfrequenztransformationssignale werden in eine Stufe 116 eingebracht. Die Fourierfrequenztransformationssignale, welche zur Stufe 86 gehen, werden auch in die Stufe 116 eingebracht für den Vergleich mit den erneut konstruierten Fourierfrequenztransformationssignalen in der Stufe 116. Um diesen Vergleich durchzuführen, werden die Fourierfrequenztransformationssignale von jeder der Stufen 86 und 112 angesehen als in zwölf (12) Frequenzschlitzen oder -fächern angeordnet, wie in Fig. 16 gezeigt. Jede der zwölf Frequenzschlitze oder -fächer hat einen unterschiedlichen Bereich von Frequenzen als die anderen Frequenzschlitze oder -fächer. Die Anzahl der Frequenzschlitze oder -fächer ist willkürlich, aber zwölf (12) ist vorzuziehen. Es ist zu erkennen, dass mehr als eine (1) Harmonische in jedem Frequenzschlitz oder -fach 118 liegen kann.
Die Stufe 116 vergleicht die Amplituden der Fourierfrequenztransformationssignale von der Stufe 112 in jedem Frequenzschlitz oder -fach 118 und die Signale, die in die Stufe 86 für jenen Frequenzschlitz oder -fach 118 eingebracht wurden. Falls der Amplitudenvergleich innerhalb eines bestimmten Faktors für einen individuellen Frequenzschlitz oder -fach 118 liegt, produziert die Stufe 116 eine binäre "1" für den Frequenzschlitz oder -fach 118. Falls der Amplitudenvergleich nicht innerhalb eines bestimmten Faktors für einen individuellen Frequenzschlitz oder -fach 118 liegt, produziert die Stufe 116 eine binäre "0" für den Frequenzschlitz oder -fach 118. Der bestimmte Faktor kann von der Stimmhöhenfrequenz und von anderen Qualitätsfaktoren abhängen.
Fig. 16 veranschaulicht, wann eine binäre "1" in einem Frequenzschlitz oder -fach 118 erzeugt wird, und wann eine binäre "0" in einem Frequenzschlitz oder -fach 118 erzeugt wird. Wie zu erkennen ist, wird eine binäre "1" in einem Frequenzschlitz oder -fach 118 erzeugt, wenn die Korrelation zwischen den Signalen in den Stufen 86 und 112 hoch ist, wie durch ein Signal großer Amplitude angezeigt. Wenn jedoch die Korrelation gering ist, wie durch ein Signal niedriger Amplitude angezeigt wird, wird eine binäre "0" für einen Frequenzschlitz oder -fach 118 erzeugt. Die Stufe 116 liefert eine binäre "1" nur in den Frequenzschlitzen oder -fächern 118, in denen die Stufe 104 erfolgreich war bei der Umwandlung der Frequenzanzeichen in der Stufe 86 in eine Form, die eng den Anzeichen in der Stufe 86 folgt. In den Frequenzschlitzen oder -fächern 118, in denen solch eine Umwandlung nicht erfolgreich war, liefert die Stufe 116 eine binäre "0".
In der Stufe 116 kann eine Nachverarbeitung vorgesehen werden, um zu überprüfen, ob der Binärwert für einen Frequenzschlitz oder -fach 118 eine binäre "1" oder eine binäre "0" ist. Falls z. B. die Binärwerte aufeinanderfolgender Frequenzschlitze oder -fächer "00100" ist, kann der Binärwert "1" in dieser Folge in dem betrachteten Zeitrahmen 14 in der Stufe 116 auf der Basis von Heuristik überdacht werden. Unter diesen Umständen könnte der Binärwert für diesen Frequenzschlitz oder -fach 118 in benachbarten Zeitrahmen 14 ebenfalls analysiert werden, um zu überprüfen, ob der Binärwert für diesen Frequenzschlitz oder -fach 118 in dem betrachteten Zeitrahmen 14 tatsächlich eine binäre "0" statt einer binären "1" sein sollte.
Die zwölf (12) Binärbits, die eine binäre "1" oder eine binäre "0" in jedem der zwölf (12) Frequenzschlitze oder -fächer 118 in jedem der Zeitrahmen 14 repräsentieren, werden der Stufe 110 in Fig. 3 für die Übertragung zu dem in Fig. 2 gezeigten Sprachdecodierer 100 übergeben. Diese zwölf (12) Binärbits in jedem Zeitrahmen können unmittelbar stach den neun (9) Binärbits erzeugt werden, welche die Stimmhöhenfrequenz repräsentieren, und können gefolgt werden von den 48, 64 oder 80 Binärbits, welche die Amplituden der unterschiedlichen Harmonischen repräsentieren. Eine binäre "1" in irgendeinem dieser zwölf (12) Frequenzschlitze oder -fächer 118 kann angesehen werden als Repräsentant der gesprochenen Signale für solche Frequenzschlitze oder -fächer. Eine bitte "0" in irgendeinem dieser zwölf (12) Frequenzschlitze oder -fächer 118 kann angesehen werden als Repräsentant der ungesprochenen Signale für solche Frequenzschlitze oder -fächer. Für einen Frequenzschlitz oder -fach, in dem ungesprochene Signale erzeugt werden, kann die Amplitude der Harmonischen oder der mehreren Harmonischen betrachtet werden als Repräsentant von Rauschen mit einem Durchschnitt des Amplitudenpegels der Harmonischen oder der mehreren Harmonischen in solchen Frequenzschlitz oder -fach.
Die Binärwerte, welche die gesprochenen (binäre "1") oder ungesprochenen (binäre "0") Signale von der Stufe 116 repräsentieren, werden der Stufe 104 zugeführt. Für die Frequenzschlitze oder -fächer 118, in denen eine binäre "1" durch die Stufe 116 erzeugt wurde, erzeugt die Stufe 104 Binärsignale, welche die Amplituden in den Frequenzschlitzen oder -fächern repräsentieren. Diese Signale werden durch die Stufe 110 codiert, und über eine Leitung 124 zu dem in Fig. 2 gezeigten Decodierer übertragen. Wenn von der Stufe 116 für einen Frequenzschlitz oder -fach 118 eine binäre "0" erzeugt wird, erzeugt die Stufe 104 "Rausch"-Signale mit einer Amplitude, welche die Durchschnittsamplitude der Signale in dem Frequenzschlitz oder -fach repräsentiert. Diese Signale werden durch die Stufe 110 in eine binäre Form codiert und über die Leitung 124 zu dem Sprachdecodierer übertragen.
Die Phasensignale &sub1;, &sub2;, &sub3;, u. s. w. für aufeinander folgende Harmonische in jedem Zeitrahmen 14 werden in einer Stufe 120 in Fig. 3 in eine Form für die Übertragung zu dem Sprachdecodierer 100 umgewandelt. Falls die Phase der Signale für eine Harmonische mindestens eine bestimmte Kontinuität in einem bestimmten Zeitrahmen 14 mit der Phase der Signale für die Harmonische in dem vorangehenden Zeitrahmen hat, wird die Phase des Signals für die Harmonische in dem bestimmten Zeitrahmen aus der Phase der Signale für die Harmonische in dem vorangehenden Zeitrahmen vorhergesagt. Die Differenz zwischen der tatsächlichen Phase und dieser Vorhersage ist es, was für die Phase des Signals für die Harmonische in dem bestimmten Zeitrahmen übertragen wird. Für eine bestimmte Anzahl von Binärbits zur Repräsentation solcher Harmonischen kann diese Differenzvorhersage mit größerer Genauigkeit zu dem Sprachdecodierer 100 übertragen werden als die Information, welche die Phase des Signals repräsentiert, die solche Harmonische in solchem bestimmten Zeitrahmen bildet. Falls die Phase des Signals für solche Harmonische in solchem bestimmten Zeitrahmen jedoch nicht die bestimmte Kontinuität mit der Phase des Signals für solche Harmonische in dem vorangehenden Zeitrahmen hat, wird die Phase des Signals für solche Harmonische in solchen bestimmten Zeitrahmen zu dem Sprachdecodierer 100 übertragen.
Wie bei der Amplitudeninformation ist eine bestimmte Anzahl von Binärbits vorgesehen, um die Phase oder die Differenzvorhersage der Phase für jede Harmonische in jedem Zeitrahmen zu repräsentieren. Die Anzahl der Binärbits, welche die Phase oder die Differenzvorhersage der Phase für jede Harmonische in jedem Zeitrahmen repräsentieren, wird berechnet als die Gesamtzahl der Bits, die für den Zeitrahmen verfügbar ist, minus der für die zuerst genannte Information verwendete Anzahl. Die Phasen oder die Differenzvorhersagen der Phasen der Signale mit niedrigeren harmonischen Frequenzen werden repräsentiert durch eine größere Anzahl von Binärwerten als die Phasen oder die Differenzvorhersagen der Phasen der Signale mit höheren Frequenzen.
Die Binärbits, welche die Phasen oder die Differenzvorhersagen der Phasen für die Signale der verschiedenen Harmonischen in jedem Zeitrahmen 14 repräsentieren, werden in einer Stufe 130 in Fig. 3 erzeugt, wobei diese Stufe als "Phasencodierung" bezeichnet wird. Die Binärbits, welche die Phasen oder die Differenzvorhersagen der Phasen für die Signale der verschiedenen Harmonischen in jedem Zeitrahmen 14 repräsentieren, werden über eine Leitung 132 in jedem Zeitrahmen 14 nach den Binärbits übertragen, welche die Amplituden der Signale bei den verschiedene Harmonischen in jedem Zeitrahmen 14 repräsentieren.
Der Sprachdecodierer 100 wird in einer vereinfachten Blockform in Fig. 2 gezeigt. Der Sprachdecodierer 100 umfasst ein Leitung 140, welche die codierten Sprachsignale von dem Sprachcodierer 18 empfängt. Eine Transformationsdecodiererstufe, die allgemein mit 142 bezeichnet ist, verarbeitet diese Signale, welche die Stimmhöhenfrequenz und die Amplituden und Phasen der Stimmhöhenfrequenz und der Harmonischen anzeigen, um die Signale wiederherzustellen, welche die Stimmhöhenfrequenz und die Harmonischen repräsentieren. Eine Stufe 144 führt eine Umkehrung einer Fourierfrequenztransformation über den wiederhergestellten Signalen durch, welche die Stimmhöhenfrequenz und die Harmonischen repräsentieren, um die Signale in Zeitbereichsform wiederherzustellen. Diese Signale werden in der Stufe 144 durch Kompensation der Effekte des in Fig. 10 gezeigten Hamming-Fensters weiterverarbeitet. Die Stufe 144 teilt durch das Hamming-Fenster 94, um die Multiplikation mit dem Hamming-Fenster in dem Sprachcodierer 18 zu kompensieren. Die Signale in der Zeitbereichsform werden dann in einer Stufe 146 in Sprachsignale in aufeinander folgenden Zeitrahmen 14 getrennt durch Berücksichtigung der Zeitüberlappung, welche immer noch in den Signalen von der Stufe 144 verblieben sind. Diese Zeitüberlappung ist in Fig. 6 mit 16 bezeichnet.
Die Transformationsdecodiererstufe 142 wird in Blockform mit zusätzlichem Detail in Fig. 5 gezeigt. Der Transformationsdecodierer 142 umfasst eine Stufe 150 für den Empfang der 48, 64 oder 80 Bits, welche die Amplituden der Stimmhöhenfrequenz und der Harmonischen repräsentieren, und für die Decodierung dieser Signale, um die Amplituden der Stimmhöhenfrequenz und der Harmonischen zu bestimmen. Bei der Decodierung solcher Signale führt die Stufe 150 eine Folge von Schritten aus, welche in umgekehrter Reihenfolge sind zu den Schritten, die während der Codierungsoperation durchgeführt wurden, und welche die Umkehrungen solcher Schritte sind. Als ein erster Schritt bei solcher Decodierung führt die Stufe 150 die Umkehrung einer diskreten Kosinustransformation über solchen Signalen aus, um die Frequenzkomponenten der Sprachsignale in jedem Zeitrahmen 14 zu ermitteln.
Wie zu erkennen ist, hängt die Anzahl der als Ergebnis der umgekehrten diskreten Kosinustransformation erzeugten Signale von der Anzahl der Harmonischen in den Sprachsignalen beim Sprachcodierer 18 in Fig. 1 ab. Die Anzahl der Harmonischen wird dann ausgeweitet oder komprimiert auf die Anzahl der Harmonischen beim Sprachcodierer 18 durch Interpo lation zwischen aufeinander folgenden Paaren von harmonischen am oberen Ende des Frequenzbereichs. Die Anzahl der Harmonischen in den Sprachsignalen beim Sprachcodierer 18 in jedem Zeitrahmen kann bestimmt werden aus der Stimmhöhenfrequenz der Sprachsignale in dem Zeitrahmen. Falls eine Ausweitung der Anzahl der Harmonischen vorkommt, kann die Amplitude eines jeden dieser interpolierten Signale bestimmt werden durch Mittelwertbildung der Amplituden der Harmonischen-Signale mit Frequenzen unmittelbar über und unter der Frequenz dieses interpolierten Signals.
Eine Entstauchungsoperation wird dann über der erweiterten Anzahl von Harmonischen- Signalen durchgeführt. Diese Entstauchungsoperation ist die Umkehrung der Stauchungsoperation, welche in der in Hg. 1 und im Detail in Fig. 3 gezeigten Transformationscodiererstufe 26 durchgeführt und schematisch in Fig. 15 gezeigt wird. Die entstauchten Signale werden dann auf eine Basis von Null (0) als Bezug wiederhergestellt von der Spitzenamplitude aller Harmonischen-Signale als eine Referenz. Dies korrespondiert mit einer Umwandlung der Signale von der in Fig. 14 gezeigten Form zu einer in Fig. 13 gezeigten Form.
Eine Phasendecodiererstufe 152 in Fig. 5 empfängt die Signale von der Amplitudendecodiererstufe 150. Die Phasendecodiererstufe 152 bestimmt die Phasen &sub1;, &sub2;, &sub3;, u. s. w. für die aufeinanderfolgenden Harmonischen in jedem Zeitrahmen 14. Die Phasendecodiererstufe 152 erreicht dies durch Decodierung der Binärbits, welche die Phase einer jeden Harmonischen in jedem Zeitrahmen 14 anzeigen, oder durch Decodierung der Binärbits, welche die Differenzvorhersagen der Phase für solche Harmonischen in solchen Zeitrahmen 14 anzeigen. Wenn die Phasendecodiererstufe 152 die Differenzvorhersage der Phase einer Harmonischen in einem bestimmten Zeitrahmen 14 decodiert, erreicht sie dies durch Bestimmung der Phase für solche Harmonische in dem vorangehenden Zeitrahmen 14 und durch Modifizieren solcher Phase in dem bestimmten Zeitrahmen 14 entsprechend der Phasenvorhersage für solchen Zeitrahmen.
Die decodierten Phasensignale von der Phasendecodiererstufe 152 werden in eine Harmonischen-Rekonstruktionsstufe 154 eingebracht, wie auch die Signale von der Amplitudendecodiererstufe 150. Die Harmonischen-Rekonstruktionsstufe 154 verarbeitet die Amplitudensignale von der Amplitudendecodiererstufe 150 und die Phasensignale von der Phasendecodiererstufe 152 für jeden Zeitrahmen 14, um die Harmonischen-Signale in solchem Zeitrahmen wiederherzustellen. Die Harmonischen-Rekonstruktionsstufe 154 rekonstruiert die Harmonischen in jedem Zeitrahmen 14 durch Bereitstellen des Frequenzmusters (Fig. 11) bei verschiedenen Frequenzen, um das Muster bei solchen verschiedenen Frequenzen der in die Stufe 154 eingebrachten Signale zu bestimmen.
Die Signale von der Harmonischen-Rekonstruktionsstufe 154 werden einer Harmonischen- Synthesestufe 158 zugeführt. Die Stufe 158 arbeitet, um die Fourierfrequenzkoeffizienten durch Positionierung der Harmonischen und Multiplizieren dieser Harmonischen mit der Fourierfrequenztransformation des in Fig. 10 gezeigten Hamming-Fensters 94 zu synthetisieren. Die Signale von der Harmonischen-Synthesestufe 158 laufen zu einer Stufe 160, in der die ungesprochenen Signale (binäre "0") in den Frequenzschlitzen oder -fächern 118 (Fig. 16) auf einer Leitung 167 zugeführt und verarbeitet werden. In diesen Frequenzschlitzen oder -fächern 118 werden Signale mit einem Rauschpegel, der durch den durchschnittlichen Amplitudenpegel der Harmonischen-Signale in solchen Frequenzschlitzen oder fächern 118 repräsentiert wird, auf der Leitung 168 zugeführt. Diese Signale werden in der Stufe 160 verarbeitet, um die Frequenzkomponenten in solchen Frequenzschlitzen wiederherzustellen. Wie vorstehend dargestellt, werden die Signale von der Stufe 160 in der Stufe 144 in Fig. 2 der Umkehrung der Fourierfrequenztransformation unterzogen. Die sich ergebenden Signale liegen im Zeitbereich, und werden durch die Umkehrung des in Fig. 10 gezeigten Hamming-Fensters 94 modifiziert. Diese Signale von der Stufe 144 repräsentieren dementsprechend die SprachsignaUe in den aufeinander folgenden Zeitrahmen 14. Die Überlappung in den aufeinander folgenden Zeitrahmen 14 wird in der Stufe 146 entfernt, um die Sprachsignale in einem kontinuierlichen Muster wiederherzustellen.
Der Apparat und die Verfahren, welche oben beschrieben wurden, haben bestimmte wichtige Vorteile. Sie wenden eine Vielzahl unterschiedlicher Techniken an, um die Stimmhöhenfrequenz in jedem einer Folge sich überlappender Zeitrahmen zu bestimmen und dann die Bestimmung zu verfeinern. Sie wenden verfeinerte Techniken an, um die Amplitude und Phase der Stimmhöhenfrequenzsignale und der Harmonischen-Signale in den Sprachsignalen eines jeden Zeitrahmens zu bestimmen. Sie wenden auch verfeinerte Techniken an, um die Amplituden und Phasen der Stimmhöhenfrequenzsignale und der Harmonischen- Signale in eine binäre Form umzuwandeln, welche die Amplituden und Phasen solcher Signale genau repräsentiert.
Der Apparat und die Verfahren, welche in dem vorangehenden Absatz beschrieben wurden, werden in dem Sprachcodierer angewandt. Der Sprachdecodierer verwendet verfeinerte Techniken, welche die Umkehrung jener sind, und welche in umgekehrter Reihenfolge wie jene im Sprachdecodierer ausgeführt werden, um die Sprachsignale wiederherzustellen. Der Apparat und die Verfahren, welche in dem Sprachdecodierer angewendet werden, sind verfeinert, um in umgekehrter Reihenfolge und auf einer umgekehrten Basis die codierten Signale zu verarbeiten, um die in den Sprachcodierer eingegebenen Sprachsignale wiederherzustellen.
Obgleich diese Erfindung mit Bezug auf bestimmte Ausführungsformen offengelegt und veranschaulicht wurde, sind die betroffenen Grundsätze verwendbar in zahlreichen anderen Ausführungsformen, was den in der Technik bewanderten offensichtlich ist. Diese Erfindung wird deshalb nur begrenzt, wie durch den Umfang der angefügten Ansprüche angezeigt.

Claims

1. Codierer (18) für die Codierung von eingegebenen Sprachsignalen mit einer Blocksegmentierungseinrichtung (12) für die Aufteilung der Sprachsignale in aufeinander folgende Zeitrahmen (14), einer Stimmhöhenschätzeinrichtung (20), die auf die Blocksegmentierungseinrichtung (12) folgt, für die Schätzung der Stimmhöhe der Sprachsignale in jedem der Zeitrahmen (14), einer Frequenztransformationseinrichtung (22), die auf die Stimmhöhenschätzeinrichtung (20) folgt, für die Bereitstellung einer Frequenztransformation der Sprachsignale in jedem der Zeitrahmen (14) und einer Transformationscodierungseinrichtung (26), die auf die Stimmhöhenschätzeinrichtung (20) und Frequenztransformationseinrichtung (22) folgt, für die Bestimmung der Amplitude und Phase der unterschiedlichen Frequenzkomponenten in dem Sprachsignal in jedem der Zeitrahmen (14) und für die Umwandlung dieser Bestimmungen in binäre Form, wobei die Stimmhöhenschätzeinrichtung (20)

gekennzeichnet ist durch

eine Empfangseinrichtung (32, 36) für die Kombinierung der Sprachsignale in aufeinander folgenden Paaren von Zeitrahmen (14), um eine verbesserte Auflösung der Sprachsignale in jedem der Zeitrahmen (14) zu erreichen,

eine Transformationseinrichtung (30, 34), die auf die Empfangseinrichtung (32, 36) folgt, für die Ermittlung einer Frequenztransformation der Sprachsignale in Frequenzsignale in jedem der aufeinander folgenden Paare von Zeitrahmen (14),

eine Logarithmiereinrichtung (38,70), die auf die Frequenztransformationseinrichtung (30, 34) folgt, für die Durchführung einer Logarithmusberechnung der Größen der Frequenzsignale,

eine Filtereinrichtung (52), die auf die Empfangseinrichtung (32, 36) folgt, für das Durchlassen der Sprachsignale in einem ersten, bestimmten Bereich von Frequenzen in jedem der aufeinander folgenden Paare der Rahmen und für das Vorsehen einer zunehmenden Filterung solcher Sprachsignale für ansteigende Frequenzen oberhalb des ersten, bestimmten Bereichs in jedem der aufeinander folgenden Paare der Zeitrahmen, und

eine Frequenztransformationseinrichtung (56), die auf die Filtereinrichtung (52) folgt, für die Verarbeitung der Signale zur Bestimmung der Stimmhöhenfrequenz der Sprachsignale in jedem der aufeinander folgenden Paare der Zeitrahmen (14).

2. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach Anspruch 1, wobei die Stimmhöhenschätzeinrichtung (20) ferner

gekennzeichnet ist durch

eine CEPSTRUM-Berechnungseinrichtung (60), die auf die Filtereinrichtung (52) folgt, für das Vorsehen einer CEPSTRUM-Bestimmung der Sprachstimmhöhenfrequenz in den aufeinander folgenden Zeitrahmen (14), und

eine erste Berechnungseinrichtung des Abstands der Harmonischen (66), die auf die CEPSTRUM-Berechnungseinrichtung (60) folgt, für die Bestimmung der Differenz in der Amplitude zwischen der Spitze (42) des Frequenzsignals und des Tals (44), das dem Frequenzsignal folgt.

3. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach Anspruch 2, wobei die Stimmhöhenschätzeinrichtung (20) ferner

gekennzeichnet ist durch

eine Stimmhöheninterpolationseinrichtung (80), die auf die durch die CEPSTRUM-Berechnungseinrichtung (60) und die erste Berechnungseinrichtung des Abstands der Harmonischen (66) ermittelte Erkennung reagiert, für die Anwendung heuristischer Techniken auf die CEPSTRUM-Bestimmung und die Differenz in der Amplitude zwischen einem Spitzenwert (42) des Frequenzsignals und einem nachfolgendem Talwert (44) des Frequenzsignals für die Verfeinerung der Bestimmung der Sprachstimmhöhenfrequenz.

4. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach Anspruch 3, wobei die Stimmhöheninterpolationseinrichtung (80) ferner

gekennzeichnet ist durch

eine Einrichtung für die Bestimmung der Größe der Leistung bei niedrigen Frequenzen in der Sprache in aufeinander folgenden Zeitrahmen (14), und

eine Einrichtung für die Bestimmung des Verhältnisses der kumulativen Größe der Leistung des niederfrequenten Signals relativ zu der kumulativen Größe der Leistung des hochfrequenten Signals in aufeinander folgenden Zeitrahmen (14).

5. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach irgendeinem der Ansprüche 2 bis 4, wobei die Stimmhöhenschätzeinrichtung (20) ferner

gekennzeichnet ist durch

eine Einrichtung für die Auswahl einer bestimmten Anzahl von Signalen mit den höchsten Spitzenamplituden (62) in jedem folgenden Zeitrahmen (14), und

eine zweite Berechnungseinrichtung des Abstands der Harmonischen (40) für die Bestimmung der Differenz in der Amplitude zwischen den Spitzenamplituden und den Tälern zwischen den Spitzenamplituden und der Spitzenamplitude der benachbarten Harmonischen in jedem nachfolgenden Zeitrahmen (14), um die Bestimmung der Spitzenfrequenz durch die CEPSTRUM-Berechnungseinrichtung (60) zu verfeinern.

6. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach irgendeinem der Ansprüche 2 bis 5, wobei

die CEPSTRUM-Berechnungseinrichtung (60) den Ort und die Amplituden der Spitzen der Signale in aufeinander folgenden Zeitrahmen bestimmt.

7. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach irgendeinem der Ansprüche 5 bis 6, wobei die zweite Berechnungseinrichtung des Abstands der Harmonischen (40) ferner

gekennzeichnet ist durch

eine Einrichtung für die Bestimmung der Stimmhöhenfrequenzen durch die Analyse des Abstands der Harmonischen in dem Stimmhöhenbereich von Sprache mit niedriger Stimmhöhe, ob die Sprache eine niedrige oder eine hohe Stimmhöhe hat, und

eine Einrichtung für die Bestimmung des Stimmhöhenfrequenzen in dem Stimmhöhenfrequenzbereich hoher Stimmhöhen durch die Analyse des Abstands der Harmonischen, wenn die Sprache eine hohe Stimmhöhe hat.

8. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach irgendeinem der Ansprüche 5 bis 7, wobei die Stimmhöhenschätzeinrichtung (20) ferner

gekennzeichnet ist durch

eine Stimmhöhenanpassungseinrichtung (46, 74), die auf die erste bzw. zweite Berechnungseinrichtung des Abstands der Harmonischen (40, 66) folgt, für die Verschiebung der Bestimmung der Stimmhöhenfrequenz von

der logarithmischen Größenberechnungseinrichtung (38, 70, 68) um eine kleine Spanne oberhalb und unterhalb der bestimmten Stimmhöhenfrequenz, um eine optimale Anpassung an die Synthese der Harmonischen zu erreichen.

9. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach Anspruch 8, wobei die Stimmhöhenschätzeinrichtung (20) ferner

gekennzeichnet ist durch

eine Berechnungseinrichtung der Differenz der Harmonischen (48, 78), die auf die Stimmhöhenanpassungseinrichtung (46, 74) folgt, für die Sammlung der Amplituden der ungeraden und geraden Harmonischen in den Frequenztransformationssignalen.

10. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach irgendeinem der Ansprüche 1 bis 9, wobei die Transformationscodierungseinrichtung (26) ferner

gekennzeichnet ist durch

eine Analyseeinrichtung der Harmonischen (86) für die Erzeugung von Paaren von Signalen für jede harmonische Frequenz, deren eines Signal die Amplitude und das andere Signal die Phase repräsentiert, und

eine Umwandlungseinrichtung, die auf die Analyseeinrichtung der Harmonischen (86) folgt, für die Umwandlung des Paars von Signalen in eine binäre Form für die Übertragung.

11. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach Anspruch 10, wobei die Analyseeinrichtung der Harmonischen (86) ferner

gekennzeichnet ist durch

die Erzeugung eines Bereichs von Frequenzen mit einer Bandbreite von angenähert 4 kHz.

12. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach Anspruch 10 oder 11, wobei die Analyseeinrichtung der Harmonischen (86) ferner

gekennzeichnet ist durch

eine Einrichtung für die Bestimmung der Anordnung einer jeden Harmonischen in den Frequenzsignalen in individuellen Zeitblöcken einer Vielzahl von Zeitblöcken und in individuellen Gittern einer Vielzahl von Gittern innerhalb eines jeden Zeitblocks.

13. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach Anspruch 12, wobei die Analyseeinrichtung der Harmonischen (86) ferner

gekennzeichnet ist durch

eine Hamming-Muster-Analyseeinrichtung (94) für die Durchführung einer Hamming- Fenster-Analyse und Frequenztransformation derart, dass ein Frequenzmuster für ein individuelles Gitter innerhalb des Zeitblocks erzeugt wird.

14. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach irgendeinem der Ansprüche 10 bis 13, wobei die Umwandlungseinrichtung ferner

gekennzeichnet ist durch

eine Hole-Band-Einrichtung (102) für die Bestimmung des Frequenzbandes, in dem die Amplitude der Signale vorkommt,

eine Spektrumsformberechnungseinrichtung (104), die auf die Analyseeinrichtung der Harmonischen (86) folgt, für die Durchführung einer diskreten Kosinustransformation über einer begrenzten Anzahl von Harmonischen der Signale,

eine Amplitudencodierungseinrichtung (110), die auf die Spektrumsformberechnungseinrichtung (104) folgt, für die Umwandlung der diskreten Kosinustransformation in eine binäre Form,

eine Phasenberechnungseinrichtung (120), die auf die Analyseeinrichtung der Harmonischen (86) folgt, für die Umwandlung der Phasensignale in ein binäres Format, und

eine Phasencodierungseinrichtung (130), die auf die Phasenberechnungseinrichtung (120) und die Amplitudenberechnungseinrichtung (110) folgt, für die Erzeugung binärer Bits, welche die Phasen für das Signal der unterschiedlichen Harmonischen in jedem der Zeitrahmen (14) darstellt.

15. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach Anspruch 14, wobei die Umwandlungseinrichtung ferner

gekennzeichnet ist durch

eine Syntheseeinrichtung der Harmonischen (112), die auf die Spektrumsformberechnungseinrichtung (104) folgt, für die Rekonstruktion des diskreten Kosinustransformationssignals in eine Form, die mit den Frequenztransformationssignalen korrespondiert, und

eine Korrelationseinrichtung der Harmonischen (116), die auf die Syntheseeinrichtung der Harmonischen (112), die Stimmhöhenschätzeinrichtung (20) und die Frequenztransformationseinrichtung (22) folgt, und die mit der Spektrumsformberechnungseinrichtung (104), mit der Amplitudencodierungseinrichtung (110) und mit der Phasencodierungseinrichtung (130) gekoppelt ist, füc die Korrelation der Amplituden der Frequenztransformationssignale, der Frequenztransformation der Sprachsignale in jedem der Zeitrahmen (14) und der geschätzten Stimmhöhe der Sprachsignale in jedem der Zeitrahmen (14).

16. Sprachdecodierer (100) für die Wiedergewinnung von Sprachsignalen, die einem Sprachcodierer (18) zugeführt werden, wobei die Sprachsignale in aufeinander folgenden Zeitrahmen (14) verarbeitet werden, und wobei die Sprachsignale in jedem Zeitrahmen einer ersten Frequenztransformation (22) unterworfen werden, um Frequenzsignale in jedem Zeitrahmen zu erzeugen, und wobei Inversionssignale erzeugt werden, welche die Differenz zwischen der Spitzenamplitude der Frequenzsignale in jedem Zeitrahmen und der Amplitude der Frequenzsignale in solchen Zeitrahmen (20) darstellen, und wobei die Amplituden der Inversionssignale gestaucht werden, und wobei eine zweite Frequenztransformation über den gestauchten Signalen durchgeführt wird, und wobei die Amplituden der Signale in der zweiten Frequenztransformation in digitale Signale (26) umgewandelt werden, und der Sprachdecodierer umfasst: eine Eingabeeinrichtung (140) für den Empfang codierter Sprachsignale, eine Transformatiensdecodierungseinrichtung (142), die mit der Eingabeeinrichtung (140) verbunden ist, für die Wiederherstellung der codierten Sprachsignale, welche die Stimmhöhenfrequenz und die Harmonischen repräsentieren, eine inverse Transformati onseinrichtung (144), die mit der Transformationsdecodierungseinrichtung (142) verbunden ist, für die Bereitstellung einer inversen Transformation, um die Signale in einer Zeitbereichsform wieder herzustellen, und eine Glättungseinrichtung (146), die mit der inversen Transformationseinrichtung (144) verbunden ist, für die Trennung der Signale in der Zeitbereichsform in Sprachsignale, wobei die Transformationsdecodierungseinrichtung (142)

gekennzeichnet ist durch

eine Amplitudendecodierungseinrichtung (150) für die Decodierung der Amplituden der Stimmhöhenfrequenz und der Harmonischen,

eine Phasendecodierungseinrichtung (152), die mit der Amplitudendecodierungseinrichtung (150) verbunden ist, für die Bestimmung der Phasen für aufeinander folgende Harmonische in jedem Zeitrahmen,

eine Harmonischenwiederherstellungseinrichtung (154), die mit der Amplitudendecodierungseinrichtung (150) und der Phasendecodierungseinrichtung (152) verbunden ist, für die Wiederherstellung der Harmonischen in jedem Zeitrahmen,

eine Harmonischensyntheseeinrichtung (158), die mit der Harmonischenwiederherstellungseinrichtung (154) verbunden ist, für die Synthese der transformierten Frequenzkoeffizienten durch Positionierung der Harmonischen und Multiplizieren der Harmonischen mit der Frequenztransformation, und

eine ungesprochene Syntheseeinrichtung (160), die mit der Harmonischensyntheseeinrichtung (158) verbunden ist, für die Verarbeitung ungesprochener Signale in den Frequenzschlitzen (118), um die Frequenzkomponenten in jedem der Frequenzschlitze (118) wiederherzustellen.

17. Sprachdecodierer (100) nach Anspruch 16, wobei die Anzahl der Frequenzharmonischen in jedem Zeitrahmen in dem Sprachcodierer (18) auf einen bestimmten Wert eingeschränkt oder ausgeweitet wird durch Beseitigen oder Hinzufügen bestimmter Frequenzsignale bei hohen Frequenzen, und wobei die Transfomiationsdecodierungseinrichtung (142) ferner

dadurch gekennzeichnet ist, dass

eine Amplitudendecodierungseinrichtung (150) betrieben wird, um die beschränkte Anzahl von Frequenzsignalen auszuweiten.

18. Sprachdecodierer (100) entweder nach Anspruch 16 oder nach Anspruch 17, wobei der Sprachcodierer (18) gesprochene Signale in bestimmten Zeitblöcken in jedem Zeitrahmen (14) und ungesprochene Signale in den anderen Zeitblöcken in jedem Zeitrahmen (188) vorsieht, und die Transformationsdecodierungseinrichtung (142) ferner

dadurch gekennzeichnet ist, dass

die Harmonischenwiederherstellungseinrichtung (154) die Signale synthetisiert, um die Amplituden der Harmonischensignale in den gesprochenen und ungesprochenen Zeitblöcken in jedem Zeitrahmen (14, 118) zu bestimmen.

19. Sprachdecodierer (100) nach irgendeinem der Ansprüche 16 bis 18, wobei Signale von dem Sprachcodierer (18) bereitgestellt werden, um die Phasen der Frequenzsignale in jedem Zeitrahmen (14) zu repräsentieren, und die Transformationsdecodierungseinrichtung (142) ferner

gekennzeichnet ist durch

eine Einrichtung für die Wiederherstellung der Sprachsignale in jedem Zeitrahmen entsprechend der Stimmhöhenfrequenz und der Signale, welche die Amplituden und Phasen der Frequenzsignale in jedem Zeitrahmen (14) repräsentieren.

20. Sprachdecodierer (100) nach irgendeinem der Ansprüche 16 bis 19, wobei die Zeitrahmen (14) bei dem Sprachcodierer (18) sich überlappen, und die Transformationsdecodierungseinrichtung (142) ferner

dadurch gekennzeichnet ist, dass

die ungesprochene Syntheseeinrichtung (160) die Überlappung in aufeinander folgenden Zeitrahmen (14) beseitigt, um die Sprachsignale in einem kontinuierlichen Muster wiederherzustellen.

21. Verfahren der Codierung von eingegebenen Sprachsignalen mit einer Aufteilung (12) der Sprachsignale in aufeinander folgende Zeitrahmen (14), einer Schätzung (20) der Stimmhöhen der Sprachsignale in jedem der Zeitrahmen (14), einer Bereitstellung (22) einer Frequenztransformation der Sprachsignale in jedem der Zeitrahmen (14) und einer Bestimmung (26) der Amplitude und Phase der unterschiedlichen Frequenzkomponenten in dem Sprachsignal in jedem der Zeitrahmen (14) und einer Umwandlung dieser Bestimmungen in binäre Form, wobei der Schritt der Schätzung der Stimmhöhen in jedem der Zeitrahmen (14)

gekennzeichnet ist, durch

die Kombinierung (32, 36) der Sprachsignale in aufeinander folgenden Paaren von Zeitrahmen (14), um eine verbesserte Auflösung der Sprachsignale in jedem der Zeitrahmen (14) zu erreichen,

die Ermittlung (30, 34) einer Frequenztransformation der Sprachsignale in Frequenzsignale in jedem der aufeinander folgenden Paare von Zeitrahmen (14);

die Durchführung (38,70) einer Logarithmusberechnung der Größen der Frequenzsignale,

das Durchlassen (52) der Sprachsignale in jedem der aufeinander folgenden Paare der Rahmen in einem ersten, bestimmten Bereich von Frequenzen und für das Vorsehen einer zunehmenden Filterung solcher Sprachsignale für ansteigende Frequenzen oberhalb des ersten, bestimmten Bereichs in jedem der aufeinander folgenden Zeitrahmen, und

die Frequenztransformation (56) der Signale von dem Schritt des Durchlassens (52), um die Stimmhöhenfrequenz der Sprachsignale in jedem der aufeinander folgenden Paare der Zeitrahmen (14) zu bestimmen.

22. Verfahren der Codierung von eingegebenen Sprachsignalen nach Anspruch 21, wobei der Schritt der Schätzung der Stimmhöhen der Sprachsignale in jedem Zeitrahmen (14) ferner

gekennzeichnet ist durch

das Vorsehen (60) einer CEPSTRUM-Bestimmung der Sprachstimmhöhenfrequenz in den aufeinander folgenden Zeitrahmen (14), und

die Bestimmung (66) der Differenz in der Amplitude zwischen der Spitze (42) des Frequenzsignals und des Tals (44), das dem Frequenzsignal folgt.

23. Verfahren der Codierung von eingegebenen Sprachsignalen nach Anspruch 22, wobei der Schritt der Schätzung der Stimmhöhen in jedem der Zeitrahmen (14) ferner

gekennzeichnet ist durch

die Anwendung (80) heuristischer Techniken auf die CEPSTRUM-Bestimmung und die Differenz in der Amplitude zwischen einem Spitzenwert (42) des Frequenzsignals und einem nachfolgendem Tatwert (44) des Frequenzsignals für die Verfeinerung der Bestimmung der Sprachstimmhöhenfrequenz.

24. Verfahren der Codierung von eingegebenen Sprachsignalen nach Anspruch 23, wobei der Schritt der Anwendung (80) heuristischer Techniken auf die CEPSTRUM-Bestimmung und die Differenz in der Amplitude zwischen einem Spitzenwert (42) des Frequenzsignals und einem nachfolgendem Talwert (44) des Frequenzsignals für die Verfeinerung der Bestimmung der Sprachstimmhöhenfrequenz ferner

gekennzeichnet ist durch

die Bestimmung der Größe der Leistung bei niedrigen Frequenzen in der Sprache in aufeinander folgenden Zeitrahmen (14), und

die Bestimmung des Verhältnisses der kumulativen Größe der Leistung des niederfrequenten Signals relativ zu der kumulativen Größe der Leistung des hochfrequenten Signals in aufeinander folgenden Zeitrahmen (14).

25. Verfahren der Codierung von eingegebenen Sprachsignalen nach irgendeinem der Ansprüche 22 bis 24, wobei der Schritt der Schätzung der Stimmhöhen der Sprachsignale in jedem der Zeitrahmen (14) ferner

gekennzeichnet ist durch

die Auswahl einer bestimmten Anzahl von Signalen mit den höchsten Spitzenamplituden (62) in jedem der aufeinander folgenden Zeitrahmen (14), und

die Bestimmung (40) der Differenz in der Amplitude zwischen den Spitzenamplituden und den Tälern zwischen den Spitzenamplituden und der Spitzenamplitude der benachbarten Harmonischen in jedem der aufeinander folgenden Zeitrahmen (14), um die Bestimmung der Spitzenfrequenz durch die CEPSTRUM-Berechnungseinrichtung (60) zu verfeinern.

26. Verfahren der Codierung von eingegebenen Sprachsignalen nach irgendeinem der Ansprüche 22 bis 25, wobei der Schritt der Schätzung der Stimmhöhen der Sprachsignale in jedem der aufeinander folgenden Zeitrahmen (14) ferner

gekennzeichnet ist durch

die Bestimmung (60) des Ort und der Amplituden der Spitzen der Signale in aufeinander folgenden Zeitrahmen.

27. Verfahren der Codierung von eingegebenen Sprachsignalen nach irgendeinem der Ansprüche 25 bis 26, wobei der Schritt der Bestimmung (40) der Amplitudendifferenz zwischen den Spitzenamplituden und den Tälern zwischen den Spitzenamplituden und der Spitzenamplitude der benachbarten Harmonischen für die Verfeinerung der Bestimmung der Spitzenfrequenz durch die CEPSTRUM-Berechnungseinrichtung (60) ferner

gekennzeichnet ist durch

die Bestimmung der Stimmhöhenfrequenzen durch die Analyse des Abstands der Harmonischen in dem Stimmhöhenfrequenzbereich von Sprache mit niedriger Stimmhöhe, ob die Sprache eine niedrige oder eine hohe Stimmhöhe hat, und

die Bestimmung des Stimmhöhenfrequenzen in dem Stimmhöhenfrequenzbereich hoher Stimmhöhen durch die Analyse des Abstands der Harmonischen, wenn die Sprache eine hohe Stimmhöhe hat.

28. Verfahren der Codierung von eingegebenen Sprachsignalen nach irgendeinem der Ansprüche 25 bis 27, wobei der Schritt der Schätzung der Stimmhöhen der Sprachsignale in jedem der aufeinander folgenden Zeitrahmen (14) ferner

gekennzeichnet ist durch

die Verschiebung (46, 74) der Bestimmung der Stimmhöhenfrequenz von der logarithmischen Größenberechnungseinrichtung (38, 70, 68) um eine kleine Spanne oberhalb und unterhalb der bestimmten Stimmhöhenfrequenz, um eine optimale Anpassung an die Synthese der Harmonischen zu erreichen.

29. Verfahren der Codierung von eingegebenen Sprachsignalen nach Anspruch 28, wobei der Schritt der Schätzung der Stimmhöhen der Sprachsignale in jedem der aufeinander folgenden Zeitrahmen (14) ferner

gekennzeichnet ist durch

die Sammlung (48, 78) der Summe der Amplituden der ungeraden und geraden Harmonischen in den Frequenztransformationssignalen.

30. Verfahren der Codierung von eingegebenen Sprachsignalen nach irgendeinem der Ansprüche 21 bis 29, wobei der Schritt der Bestimmung (26) der Amplitude und der Phase der unterschiedlichen Frequenzkomponenten in dem Sprachsignal in jedem Zeitrahmen (14) und der Wandlung dieser Bestimmungen in binäre Form ferner

gekennzeichnet ist durch

die Erzeugung (86) von Paaren von Signalen für jede harmonische Frequenz, deren eines Signal die Amplitude und das andere Signal die Phase repräsentiert, und

die Umwandlung des Paars von Signalen in eine binäre Form für die Übertragung.

31. Verfahren der Codierung von eingegebenen Sprachsignalen nach Anspruch 30, wobei der Schritt der Erzeugung (86) von Paaren von Signalen für jede harmonische Frequenz, deren eines Signal die Amplitude und das andere Signal die Phase repräsentiert, ferner

gekennzeichnet ist durch

32. Verfahren der Codierung von eingegebenen Sprachsignalen nach Anspruch 30 oder 31, wobei der Schritt der Erzeugung (86) von Paaren von Signalen für jede harmonische Frequenz, deren eines Signal die Amplitude und das andere Signal die Phase repräsentiert, ferner

gekennzeichnet ist durch

die Bestimmung der Anordnung einer jeden Harmonischen in den Frequenzsignalen in individuellen Zeitblöcken einer Vielzahl von Zeitblöcken und in individuellen Gittern einer Vielzahl von Gittern innerhalb eines jeden Zeitblocks.

33. Verfahren der Codierung von eingegebenen Sprachsignalen nach Anspruch 32, wobei der Schritt der Erzeugung (86) von Paaren von Signalen für jede harmonische Frequenz, deren eines Signal die Amplitude und das andere Signal die Phase repräsentiert, ferner

gekennzeichnet ist durch

die Durchführung (94) einer Hamming = Fenster-Analyse und Frequenztransformation derart, dass ein Frequenzmuster für ein individuelles Gitter innerhalb des Zeitblocks erzeugt wird.

34. Verfahren der Codierung von eingegebenen Sprachsignalen nach irgendeinem der Ansprüche 30 bis 33, wobei der Schritt der Umwandlung des Paares von Signalen in binäre form für die Übertragung ferner

gekennzeichnet ist durch

die Bestimmung (102) des Frequenzbandes, in dem die Amplitude der Signale vorkommt,

die Durchführung (104) einer diskreten Kosinustransformation über einer begrenzten Anzahl von Harmonischen der Signale,

die Umwandlung (110) der diskreten Kosinustransformation in eine binäre Form,

die Umwandlung (120) der Phasensignale in ein binäres Format, und

die Erzeugung (130) binärer Bits, welche die Phasen für das Signal der unterschiedlichen Harmonischen in jedem der Zeitrahmen (14) repräsentiert.

35. Verfahren der Codierung von eingegebenen Sprachsignalen nach Anspruch 34, wobei der Schritt der Umwandlung des Paares von Signalen in binäre Form für die Übertragung ferner

gekennzeichnet ist durch

die Rekonstruktion (112) des diskreten Kosinustransformationssignals in eine Form, die mit den Frequenztransformationssignalen korrespondiert, und

die Korrelation (116) der Amplituden der Frequenztransformationssignale, der Frequenztransformation der Sprachsignale in jedem der Zeitrahmen (14) und der geschätzten Stimmhöhe der Sprachsignale in jedem der Zeitrahmen (14).

36. Verfahren der Sprachdecodierung (100) für die Wiedergewinnung von Sprachsignalen, die einem Sprachcodierer (18) zugeführt werden, wobei die Sprachsignale in aufeinander folgenden Zeitrahmen (14) verarbeitet werden, und wobei die Sprachsignale in jedem Zeitrahmen einer ersten Frequenztransformation (22) unterworfen werden, um Frequenzsignale in jedem Zeitrahmen zu erzeugen, und wobei Inversionssignale erzeugt werden, welche die Differenz zwischen der Spitzenamplitude der Frequenzsignale in jedem Zeitrahmen und der Amplitude der Frequenzsignale in solchen Zeitrahmen (20) darstellen, und wobei die Amplituden der Inversionssignale gestaucht werden, und wobei eine zweite Frequenztransformation über den gestauchten Signalen durchgeführt wird, und wobei die Amplituden der Signale in der zweiten Frequenztransformation in digitale Signale (26) umgewandelt werden, und das Verfahren umfasst: Empfang codierter Sprachsignale (140), Wiederherstellung der codierten Sprachsignale (142), welche die Stimmhöhenfrequenz und die Harmonischen repräsentieren, Vorsehen einer inversen Transformation (144), um die Signale in einer Zeitbereichsform wiederherzustellen, und Trennung der Signale in der Zeitbereichsform in Sprachsignale (146), wobei der Schritt der Wiederherstellung der codierten Sprachsignale (142), welche die Stimmhöhenfrequenz und die Harmonischen repräsentieren,

gekennzeichnet ist durch

die Decodierung (152) der Amplituden der Stimmhöhenfrequenz und der Harmonischen,

die Bestimmung (152) der Phasen für aufeinander folgende Harmonische in jedem Zeitrahmen,

die Wiederherstellung (154) der Harmonischen in jedem Zeitrahmen,

die Synthese (158) der transformierten Frequenzkoeffizienten durch Positionierung der Harmonischen und Multiplizieren der Harmonischen mit der Frequenztransformation, und

die Verarbeitung (160) ungesprochener Signale in den Frequenzschlitzen (118), um die Frequenzkomponenten in solchen Frequenzschlitzen wiederherzustellen.

37. Verfahren der Sprachdecodierung (100) nach Anspruch 36, wobei die Anzahl der Frequenzharmonischen in jedem Zeitrahmen in dem Sprachcodierer (18) auf einen bestimmten Wert eingeschränkt oder ausgeweitet wird durch Beseitigen oder Hinzufügen bestimmter Frequenzsignale bei hohen Frequenzen, und wobei der Schritt der Wiederherstellung (142) der codierten Sprachsignale, welche die Stimmhöhenfrequenz und die Harmonischen repräsentieren, ferner

dadurch gekennzeichnet ist, dass

die beschränkte Anzahl von Frequenzsignalen ausgeweitet wird.

38. Verfahren der Sprachdecodierung (100) entweder nach Anspruch 36 oder nach Anspruch 37, wobei der Sprachcodierer (18) gesprochene Signale in bestimmten Zeitblöcken in jedem Zeitrahmen (14) und ungesprochene Signale in anderen Zeitblöcken in jedem Zeitrahmen (188) vorsieht, und der Schritt der Wiederherstellung (142) der codierten Sprachsignale, welche die Stimmhöhenfrequenz und die Harmonischen repräsentieren, ferner

dadurch gekennzeichnet ist, dass

39. Verfahren der Sprachdecodierung (100) nach irgendeinem der Ansprüche 36 bis 38, wobei Signale von dem Sprachcodierer (18) bereitgestellt werden, um die Phasen der Frequenzsignale in jedem Zeitrahmen (14) zu repräsentieren, und

der Schritt der Wiederherstellung (142) der codierten Sprachsignale, welche die Stimmhöhenfrequenz und die Harmonischen repräsentieren, ferner

gekennzeichnet ist durch

die Wiederherstellung der Sprachsignale in jedem Zeitrahmen entsprechend der Stimmhöhenfrequenz und der Signale, welche die Amplituden und Phasen der Frequenzsignale in jedem Zeitrahmen (14) repräsentieren.

40. Verfahren der Sprachdecodierung (100) nach irgendeinem der Ansprüche 36 bis 39, wobei die Zeitrahmen (14) bei dem Sprachcodierer (18) sich überlappen, und der Schritt der Wiederherstellung (142) der codierten Sprachsignale, welche die Stimmhöhenfrequenz und die Harmonischen repräsentieren, ferner

gekennzeichnet ist durch

die Beseitigung der Überlappung (160) in aufeinander folgenden Zeitrahmen (14), um die Sprachsignale in einem kontinuierlichen Muster wiederherzustellen.