[go: up one dir, main page]

DE69232904T2 - Sprachkodierer/-dekodierer und Kodierungs-/Dekodierungsverfahren - Google Patents

Sprachkodierer/-dekodierer und Kodierungs-/Dekodierungsverfahren

Info

Publication number
DE69232904T2
DE69232904T2 DE69232904T DE69232904T DE69232904T2 DE 69232904 T2 DE69232904 T2 DE 69232904T2 DE 69232904 T DE69232904 T DE 69232904T DE 69232904 T DE69232904 T DE 69232904T DE 69232904 T2 DE69232904 T2 DE 69232904T2
Authority
DE
Germany
Prior art keywords
signals
frequency
speech
pitch
harmonics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69232904T
Other languages
English (en)
Other versions
DE69232904D1 (de
Inventor
Jaswant R. Jain
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nortel Networks Inc
Original Assignee
Nortel Networks Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nortel Networks Inc filed Critical Nortel Networks Inc
Application granted granted Critical
Publication of DE69232904D1 publication Critical patent/DE69232904D1/de
Publication of DE69232904T2 publication Critical patent/DE69232904T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Diese Erfindung betrifft einen Codierer für und ein Verfahren der Codierung von eingegebenen Sprachsignalen für die Übertragung zu einem Sprachdecodierer, der von dem Sprachcodierer entfernt ist. Die Erfindung bezieht sich auch auf einen Sprachdecodierer für und ein Verfahren der Decodierung von den codierten Sprachsignalen, die von dem Sprachcodierer übertragen werden. Die Vorrichtungen und Verfahren mit den Merkmalen der Präambeln der Ansprüche 1, 16, 21, 36 sind bekannt von ICASS 90, Albuquerque, New Mexiko, USA, 3.-6. April 1990, Band 1, Seiten 17-20, Marques J. S. et al. "Harmonic Coding at 4.8 kb/s".
  • Mikroprozessoren werden in einer Sendestation verwendet, um Daten für die Übertragung zu einer entfernten Position in digitale Form umzuwandeln, an der die Daten in digitaler Form erkannt und in ihre ursprüngliche Form umgewandelt werden. Obgleich die Mikroprozessoren klein sind, haben sie gewaltige Verarbeitungsleistungen. Dieses hat ermöglicht, dass anspruchsvolle Techniken von dem Mikroprozessor in der Sendestation verwendet werden, um die Daten in digitale Form zu codieren, und von dem Mikroprozessor in der Empfangsstation verwendet werden, um die digitalen Daten zu decodieren und die digitalen Daten in ihre ursprüngliche Form zu wandeln. Die Daten können durch Faksimilegeräte an der Sendestation und der Empfangsstation übertragenen werden, und können in einem Fernsehgerät an der Empfangsstation wiedergegeben werden. Mit der Vergrößerung der Verarbeitungsleistung der Mikroprozessoren selbst bei einer Verkleinerung der Ausmaße der Mikroprozessoren wurde die Verfeinerung der Codierungs- und Decodierungstechniken und die sich daraus ergebende Auflösung der Daten in der Empfangsstation verbessert.
  • Mit der in den vergangenen Jahren erfolgten stetigen Zunahme der Verfeinerung der Datenverarbeitungsfähigkeit der Mikroprozessoren ist es zunehmend wünschenswert geworden, zusätzlich zu den Daten auch Sprachinformation zu übertragen. Z. B. in Telefonkonferenzen ist es wünschenswert geworden, Dokumente, wie etwa Briefe und handgeschriebene Berichte und Analysen, zu übertragen und eine Diskussion solcher Berichte vorzusehen.
  • Es wurde erkannt, dass es schwierig ist, Sprachdaten in eine komprimierte digitale Form umzuwandeln, die zu einer Empfangsstation übertragen werden kann, um eine treue Wiedergabe der Stimme des Sprechers an der Empfangsstation zu erreichen. Dies ergibt sich aus der Tatsache, dass die Frequenzen und Amplituden des Sprachsignals des Sprechers sich ständig verändern. Dieses gilt selbst während des Zeitraums, in dem ein Sprecher einen Vokal ausspricht, wie etwa der Buchstabe "a", besonders da die Dauer solcher Vokale dazu neigt, länger zu werden, und die Sprecher nicht dazu neigen, monoton zu reden.
  • In den vergangenen Jahren wurde eine beachtliche Anstrengung unternommen, und ein beachtlicher Geldbetrag ausgegeben, um Systeme und Verfahren der Codierung von Sprachsignalen in eine komprimierte digitale Form in einer Sendestation vorzusehen, solche digitalen Signale zu einer Empfangsstation zu übertragen und solche digitalen Signale in der Empfangsstation zu decodieren, um die Sprachsignale wiederherzustellen. Als ein Ergebnis solcher Anstrengungen und Geldausgabe ist eine beachtlicher Fortschritt bei dem Vorsehen einer getreuen Wiedergabe der Sprachsignale in der Empfangsstation erreicht worden. Trotz solcher Fortschritte ist jedoch die getreue Wiedergabe von Sprachsignalen in der Empfangsstation schwer erreichbar geblieben. Die Zuhörer in der Empfangsstation hören nicht die Stimme des Sprechers in der Sendestation ohne ein inneres Gefühl oder eine äußere Bemerkung, dass eine beträchtliche Verzerrung in der Stimme des Sprechers vorliegt. Dies hat häufig von der Möglichkeit der Teilnehmer an den zwei (2) voneinander entfernt gelegenen Stationen abgeschreckt, sinnvoll miteinander zu kommunizieren.
  • Diese Erfindung, wie in den unabhängigen Ansprüchen der Anspruch erhoben wird, sieht ein System vor, welches Sprachsignale in einem Sprachcodierer in eine komprimierte digitale Form wandelt, um Stimmhöhenfrequenz und Stimmhöhenamplitude und die Amplituden und Phasen der harmonischen Signale darzustellen, so dass die Sprachsignale von einem Sprachdecodierer ohne Verzerrung wiedergegeben werden können. Die Erfindung sieht auch einen Sprachdecodierer vor, der die digitalen Signale verarbeitet, um solch eine treue Wiedergabe der Sprachsignale vorzusehen. Die Sprachsignale werden in dem Sprachcodierer in Echtzeit codiert, und werden in dem Sprachdecodierer in Echtzeit decodiert.
  • In einer Ausführungsform der Erfindung codiert ein neuer, anpassungsfähiger Fouriertransformationscodierer periodische Komponenten der Sprachsignale und decodiert die codierten Signale. In dem Apparat kann die Stimmhöhenfrequenz der Sprachsignale in aufeinander folgenden Zeitrahmen in dem Sprachcodierer bestimmt werden durch (1) eine CEPSTRUM- Analyse (d. h. der Zeit zwischen aufeinanderfolgenden Spitzenamplituden in jedem Zeitrahmen), durch (2) eine Abstandsanalyse der Harmonischen (d. h. der Amplitudendifferenzen zwischen den Spitzen und Tälern der Spitzenamplitudensignale des Frequenzspektrums), durch (3) Anpassung der Harmonischen, durch (4) Filtern der Frequenzsignale in aufeinander folgenden Paaren von Zeitrahmen, und durch Durchführung der Schritte (1), (2) und (3) über den gefilterten Signalen, um eine Stimmhöheninterpolation an dem ersten Rahmen in dem Paar vorzusehen, und durch (5) Stimmhöhenanpassung.
  • Die Amplitude und Phase des Stimmhöhenfrequenzsignals und der harmonischen Signale werden durch Techniken nach dem Stand der Technik bestimmt, die im Vergleich zum Stand der Technik verfeinert wurden, um Amplituden- und Phasensignale mit verbesserter Auflösung zu erreichen. Solche Amplituden können in eine vereinfachte digitale Form gewandelt werden, durch (a) Berechnung des Logarithmus der Frequenzsignale, (b) Auswählendes Signals mit der Spitzenamplitude, (c) Versetzen der Amplituden der logarithmischen Signale relativ zu solchen Spitzenamplituden, (d) Stauchen der versetzten Signale, (e) Reduzieren der Anzahl der Harmonischen auf ein bestimmtes Maß durch Beseitigen abwechselnder, hochfrequenter Harmonischer, (f) Berechnen einer diskreten Kosinustransformation der verbleibenden Signale und (g) Digitalisieren solcher Transformationen. Falls die Stimmhöhenfrequenz eine Kontinuität innerhalb bestimmter Grenzen in aufeinanderfolgenden Zeitrahmen hat, wird die Phasendifferenz der Signale zwischen aufeinanderfolgenden Zeitrahmen vorgesehen.
  • In dem entfernt gelegenen Sprachdecodierer werden die Signalamplituden bestimmt durch Durchführung, in dieser Reihenfolge, der Umkehrung der Schritte (g) bis (a). Diese Signale und die Signale, welche die Stimmhöhenfrequenz und -phase darstellen, werden verarbeitet, um die Sprachsignale ohne Verzerrung wiederherzustellen.
  • Im Folgenden wird die Erfindung mit Bezug auf die Zeichnungen beschrieben, in denen:
  • Fig. 1 ein vereinfachtes Blockdiagramm eines Systems in einem Sprachcodierer für die Codierung von Sprachsignalen in eine digitale Form für die Übertragung zu einem Sprachdecodierer ist;
  • Fig. 2 ein vereinfachtes Blockdiagramm eines Systems in einem Sprachdecodierer für den Empfang der digitalen Signale von dem Sprachcodierer und für die Decodierung der digitalen Signale ist, um die Sprachsignale wiederherzustellen;
  • Fig. 3 ein Blockdiagramm mit größerem Detail eines Abschnitts des in Fig. 1 gezeigten Sprachcodierers ist und zeigt, wie der Sprachcodierer die Amplituden und Phasen der Harmonischen in aufeinander folgenden Zeitrahmen codiert;
  • Fig. 4 ein Blockdiagramm eines anderen Abschnitts des Sprachcodierers ist und zeigt, wie der Sprachcodierer die Stimmhöhe der Sprachsignale in den aufeinander folgenden Zeitrahmen bestimmt;
  • Fig. 5 ein Blockdiagramm des in Fig. 2 gezeigten Sprachdecoders ist und das Decodierungssystem in größerem Detail zeigt als dem in Fig. 2 gezeigten;
  • Fig. 6 ein schematisches Diagramm der in aufeinander folgenden Zeitrahmen zu codierenden Sprachsignale ist und weiter zeigt, wie die Zeitrahmen sich überlappen;
  • Fig. 7 ein Diagramm ist, das schematisch die Signale veranschaulicht, die in einem typischen Zeitrahmen erzeugt werden, um verschiedene Frequenzen darzustellen, nachdem die Sprachsignale in dem Zeitrahmen durch eine Fourierfrequenzanalyse in der Frequenz transformiert worden sind;
  • Fig. 8 die Charakteristiken eines Tiefpassfilters für die Verarbeitung der Frequenzsignale veranschaulicht, wie sie in Fig. 7 gezeigt wurden;
  • Fig. 9 ein Diagramm ist, das schematisch ein Spektrum von Frequenzsignalen veran schaulicht, nachdem die Frequenzsignale von Fig. 7 ein Tiefpassfilter mit den in Fig. 8 gezeigten Charakteristiken durchlaufen haben;
  • Fig. 10 ein Diagramm ist, das einen Schritt mit der Verwendung eine Hamming-Fenster- Analyse bei der präzisen Bestimmung der Charakteristiken jeder harmonischen Frequenz in den Sprachsignalen in jedem Zeitrahmen betrifft;
  • Fig. 11 das Amplitudenmuster einer individuellen Frequenz als Ergebnis der Verwendung der in Fig. 10 gezeigten Hamming-Fenster-Analyse bezeichnet;
  • Fig. 12 die Techniken veranschaulicht, die für die Bestimmung der Amplitude und Phase einer jeden Harmonischen in den Sprachsignalen in jedem Zeitrahmen mit größerer Präzision als nach dem Stand der Technik verwendet werden;
  • Fig. 13 die relativen Amplitudenwerte der Logarithmen der unterschiedlichen Harmonischen in den Sprachsignalen in jedem Zeitrahmen und die Auswahl der Harmonischen mit der Spitzenamplitude veranschaulicht;
  • Fig. 14 die logarithmischen Harmonischen-Signale von Fig. 13 bezeichnet, nachdem die Amplituden der unterschiedlichen Harmonischen umgewandelt worden sind, um ihre Amplitudendifferenz relativ zu der in Fig. 13 gezeigten Spitzenamplitude zu bezeichnen;
  • Fig. 15 schematisch die Wirkung einer Stauchungsoperation auf die in Fig. 14 gezeigten Signale anzeigt; und
  • Fig. 16 veranschaulicht, wie die Frequenzsignale in unterschiedlichen Frequenzschlitzen oder -fächern in jedem Zeitrahmen analysiert werden, um gesprochene (binäre "1") und ungesprochene ("binäre "0") Signale in solchen Zeitrahmen vorzusehen.
  • In einer Ausführungsform der Erfindung werden Sprachsignale in I = ig. 6 mit 10 bezeichnet. Wie gezeigt werden wird, sind Sprachsignale allgemein mit der Zeit veränderlich, und sie haben allgemein kein sich vollständig wiederholendes Muster. Dass System dieser Erfindung umfasst eine Blocksegmentierungsstufe 12 (Fig. 1), welches die Signale in Zeitrahmen 14 (Fig. 6) aufteilt, wobei jeder Zeitrahmen eine passende Zeitdauer hat, wie angenähert zwei- unddreißig Millisekunden (32 ms). Vorzugsweise überlappen sich die Zeitrahmen 14 um eine passende Zeitspanne, wie etwa um angenähert zwölf Millisekunden (12 ms), wie bei 16 in Fig. 1 bezeichnet. Die Überlappung 16 wird in den Zeitrahmen 14 vorgesehen, weil Abschnitte der Sprachsignale am Anfang und am Ende eines jeden Zeitrahmens bei der Verarbeitung der Signale in den Zeitrahmen relativ zu den Abschnitten der Signale in der Mitte des Zeitrahmens zu einer Verzerrung neigen.
  • Die Blocksegmentierungsstufe 12 in Fig. 1 ist in einem Sprachdecodierer enthalten, der in Fig. 1 allgemein mit 18 bezeichnet ist. Eine Stimmhöhenschätzstufe, die allgemein mit 20 bezeichnet ist, schätzt die Stimmhöhenfrequenz oder Fundamentalfrequenz des Sprachsignals in jedem der Zeitrahmen 14 auf eine Anzahl unterschiedlicher Weisen, deren jede einen zusätzlichen Grad der Genauigkeit und/oder des Vertrauens in die Schätzung liefert. Die Stufen, welche die Stimmhöhenfrequenz auf unterschiedliche Weise schätzen, sind in Fig. 4 gezeigt.
  • Die Sprachsignale in jedem der Zeitrahmen 14 laufen auch durch die Stufe 22, welche eine Frequenztransformation der Signale vorsieht, wie etwa eine Fourierfrequenztransformation. Die sich ergebenden Frequenzsignale sind in Fig. 7 allgemein mit 24 bezeichnet. Die Signale 24 in jedem der Zeitrahmen 14 laufen dann durch die Stufe 26. Die Codiererstufe 26 bestimmt die Amplitude und Phase der unterschiedlichen Frequenzkomponenten in den Sprachsignalen in jedem der Zeitrahmen 14 und wandelt diese Bestimmungen für die Übertragung zu einem Sprachdecodierer in ein binäres Format um, wie in Fig. 2 und 5 gezeigt. Die Stufen für das Vorsehen der Bestimmung von Amplituden und Phasen und für die Umwandlung dieser Bestimmungen in eine Form für die Übertragung zum Sprachdecodierer von Fig. 2 sind in Fig. 3 gezeigt.
  • Fig. 4 veranschaulicht in zusätzlichem Detail die in Fig. 1 gezeigte Stimmhöhenschätzstufe 20. Die Stimmhöhenschätzstufe 20 umfasst eine Stufe 30 für den Empfang der Sprachsignale über eine Leitung 32 in einem ersten Zeitrahmen der Zeitrahmen 14 und für die Durchführung einer Frequenztransformation über solchen Sprachsignalen, wie etwa durch eine Fourierfrequenztransformation. Auf ähnliche Weise empfängt eine Stufe 34 die Sprachsignale über eine Leitung 36 in dem nächsten Zeitrahmen der Zeitrahmen 14 und führt eine Frequenztransformation über solchen Sprachsignalen durch, wie etwa durch eine Fourierfrequenztransformation. Auf diese Weise führt die Stufe 30 Frequenztransformation über den Sprachsignalen in jeden zweiten Zeitrahmen der Zeitrahmen 14 durch, und die Stufe 34 führt Frequenztransformation über den Sprachsignalen in den jeweils anderen Zeitrahmen durch. Die Stufen 30 und 34 führen Frequenztransformationen, wie etwa Fourierfrequenztransformationen, durch, um Signale bei unterschiedlichen Frequenzen zu erzeugen, die mit den Signalen 24 in Fig. 7 korrespondieren.
  • Die Frequenzsignale von der Stufe 30 laufen zu einer Stufe 38, die eine logarithmische Berechnung über den Größen dieser Frequenzsignale durchführt. Dies bewirkt, dass die Größen der Spitzenamplituden der Signale 24 näher beieinander liegen als wenn die logarithmische Berechnung nicht vorgesehen worden wäre. Abstandsmessungen der Harmonischen werden über den logarithmischen Signalen von der Stufe 38 in der Stufe 40 vorgesehen. Die Abstandsmessungen der Harmonischen betreffen eine Bestimmung der Amplitudendifferenz zwischen der Spitze eines jeden Frequenzsignals und dem Tal, das dem Signal folgt. Dies wird in Fig. 8 veranschaulicht bei 42 für eine Spitzenamplitude für ein Frequenzsignal 24 und bei 44 für ein Tal, das der Spitzenamplitude folgt. Bei der Bestimmung der Differenz zwischen den Spitzenamplituden, wie etwa der Amplitude 42, und den Tälern, wie etwa dem Tal 44, werden die Positionen in dem Frequenzspektrum um die Spitzenamplitude herum und dem Tal ebenfalls in der Bestimmung berücksichtigt. Das Frequenzsignal; das die größte Differenz zwischen der Spitzenamplitude und dem nachfolgenden Tal in den Frequenzsignalen 24 bietet, stellt eine Schätzung der Stimmhöhenfrequenz der Sprachsignale in dem Zeitrahmen 14 dar. Diese Schätzung ist die Frequenz, an der die Spitzenamplitude solcher Frequenzsignale auftritt.
  • Wie zu erkennen ist, haben weibliche Stimmen eine höhere Stimmhöhenfrequenz als männliche Stimmen. Dies führt dazu, dass die Anzahl der harmonischen Frequenzen in den Sprachsignalen von weiblichen Stimmen niedriger ist als jene in den Sprachsignalen von männlichen Stimmen. Da jedoch die Stimmhöhenfrequenz in den Sprachsignalen einer männlichen Stimme niedrig ist, kann der zeitliche Abstand zwischen aufeinanderfolgenden Signalen bei der Stimmhöhenfrequenz in jedem Zeitrahmen 14 ziemlich groß sein. Deshalb brauchen nur zwei (2) oder drei (3) Perioden bei der Stimmhöhenfrequenz in jedem Zeitrahmen 14 für eine männliche Stimme aufzutreten. Dies begrenzt die Fähigkeit, eine ge naue Bestimmung der Stimmhöhenfrequenz für eine männliche Stimme zu liefern.
  • Bei dem Vorsehen einer Abstandsberechnung der Harmonischen liefert die Stufe 40 immer eine Bestimmung hinsichtlich der Sprachfrequenzen, ob die Stimme eine männliche Stimme oder eine weibliche Stimme ist. Wenn die Stimme jedoch eine weibliche Stimme ist, liefert die Stufe 40 eine zusätzliche Berechnung mit besonderer Berücksichtigung der Stimmhöhenfrequenzen, die normalerweise weiblichen Stimmen zugeordnet sind. Diese zusätzliche Berechnung ist vorteilhaft, weil es eine zunehmende Anzahl von Signalen bei der Stimmhöhenfrequenz weiblicher Stimmen in jedem Zeitrahmen 14 gibt, wodurch eine Verbesserung der Schätzung der Stimmhöhenfrequenz gegeben wird, wenn eine zusätzliche Berechnung in der Stufe 40 für weibliche Stimmen vorgesehen wird.
  • Die Signale von der Stufe 40 für die Durchführung der Abstandsberechnung der Harmonischen durchlaufen eine Stufe 46 für einen Stimmhöhenfrequenzabgleich mit einer Synthese wiederhergestellter Harmonischen. Diese Synthese wiederhergestellter Harmonischen wird nachfolgend im Detail beschrieben in Verbindung mit der Beschreibung der Transformationscodiererstufe 26, welche in Blockform in Fig. 1 und in einer detaillierten Blockform in Fig. 3 gezeigt wird. Die Stufe 46 arbeitet so, dass die Bestimmung der Stimmhöhenfrequenz von der Stufe 40 über einen relativ kleinen Bereich oberhalb und unterhalb der bestimmten Stimmhöhenfrequenz verschoben wird, um einen optimalen Abgleich mit solcher Synthese der Harmonischen vorzusehen. Auf diese Weise wird die Bestimmung der Stimmhöhenfrequenz in jedem Zeitrahmen 14 verfeinert, falls in dieser Bestimmung noch immer eine Mehrdeutigkeit auftritt. Wie zu erkennen ist, kann eine Folge von 512 aufeinanderfolgenden Frequenzen in einer Binärfolge von neun (9) binären Bit dargestellt werden. Ferner fällt die Stimmhöhenfrequenz männlicher und weiblicher Stimmen allgemein in diesen Binärbereich von 512 diskreten Frequenzen. Wie unten zu sehen sein wird, wird die Stimmhöhenfrequenz eines Sprachsignals in jedem Zeitrahmen 14 durch neun (9) binäre Bit bezeichnet.
  • Die Signale von der Stufe 46 werden an eine Stufe 48 für die Bestimmung des Abstands der Harmonischen übergeben. In der Stufe 48 werden die Spitzenamplituden aller ungeraden Harmonischen addiert, um einen kumulativen Wert zu ergeben, und die Spitzenamplituden aller geraden Harmonischen werden addiert, um einen anderen kumulativen Wert zu ergeben. Die zwei kumulativen Werte werden dann miteinander verglichen. Wenn der kumulati ve Wert für die geraden Harmonischen den kumulativen Wert für die ungeraden Harmonischen um einen bestimmten Wert, wie angenähert fünfzehn Prozent (15%), übersteigt, wird die niedrigste der geraden Harmonischen als die Stimmhöhenfrequenz ausgewählt. Andernfalls wird die niedrigste der ungeraden Harmonischen ausgewählt.
  • Die Sprachsignale auf der Leitung 32 (für jeden zweiten Zeitrahmen 14) und auf der Leitung 36 (für die restlichen Zeitrahmen 14) werden in ein Tiefpassfilter 52 eingegeben. Das Filter 52 hat eine Charakteristik, die vollen Amplituden der Signalkomponenten in den Paaren aufeinanderfolgender Zeitrahmen mit Frequenzen von weniger als angenähert eintausend Hertz (1000 Hz) durchzulassen. Dies wird in Fig. 8 bei 54a veranschaulicht. Mit Zunahme der Frequenzkomponenten oberhalb von eintausend Hertz (1000 Hz) werden zunehmend Teile dieser Frequenzkomponenten herausgefiltert. Dies wird in Fig. 8 bei 54b veranschaulicht. Wie aus Fig. 8 zu erkennen ist, hat das Filter eine flache Kennlinie 54a bis ungefähr eintausend Hertz (1000 Hz), und die Kennlinie fällt dann relativ schnell bis zu einem Bereich von Frequenzen wie ungefähr achtzehnhundert Hertz (1800 Hz) ab. Das durch das Tiefpassfilter gefilterte Signal wird durch einen Faktor von zwei unterabgetastet, d. h. jeder zweite Wert wird verworfen. Dies ist konsistent mit der Theorie, da die Frequenzen oberhalb von 2000 Hz nahezu verschwunden sind.
  • Die Signale, die das Tiefpassfilter 52 in Fig. 4 durchlaufen, werden in die Stufe 56 für das Durchführen einer Frequenztransformation, wie etwa einer Fourierfrequenztransformation, eingebracht. Durch Filterung zunehmender Amplituden der Signale mit fortschreitende Zu- nahme bei Frequenzen oberhalb von eintausend Hertz (1000 Hz) werden die frequenztransformierten Signale, die in Fig. 9 allgemein mit 58 bezeichnet sind, stärker im Frequenzspektrum ausgebreitet als die Signale in Fig. 7. Dies kann erkannt werden durch Vergleich des Frequenzspektrums der in Fig. 9 als Ergebnis der Filterung produzierten Signale mit dem Frequenzspektrum in Fig. 7. Das Ausweiten des Frequenzspektrums in Fig. 9 bewirkt eine Verbesserung der Auflösung in den Signalen. Z. B. kann die Frequenzauflösung um einen Faktor von zwei (2) vergrößert werden.
  • Die Signale von dem Tiefpassfilter 52 werden auch in eine Stufe 60 für die Durchführung einer CEPSTRUM-Berechnung oder -Analyse eingegeben. Stufen, die eine CEPSTRUM- Berechnung oder -Analyse durchführen, sind nach dem Stand der Technik wohlbekannt. In solch einer Stufe wird die höchste Spitzenamplitude der gefilterten Signale in jedem Paar von aufeinander folgenden Zeitrahmen 14 bestimmt. Dieses Signal wird in Fig. 6 mit 62 bezeichnet. Die Zeit zwischen diesem Signal 62 und einem Signal 64 mit der nächsten Spitzenamplitude in dem Paar der nachfolgenden Zeitrahmen 14 kann dann bestimmt werden. Diese Zeitspanne wird in Fig. 6 mit 66 bezeichnet. Die Zeitspanne 66 wird dann in eine Stimmhöhenfrequenz für die Signale in den aufeinander folgenden Zeitrahmen 14 übersetzt.
  • Die Bestimmung der Stimmhöhenfrequenz in der Stufe 60 wird in eine Stufe 66 in Fig. 4 eingebracht. Die Stufe 66 nimmt die Signale von einer Stufe 68 auf, die logarithmische Berechnungen über den Amplituden der Frequenzsignale von der Stufe 56 in einer Weise durchführt, welche ähnlich ist der oben für die Stufe 38 beschriebenen Weise. Die Stufe 66 führt Abstandsberechnungen der Harmonischen bei der Stimmhöhenfrequenz in einer Weise ähnlich der oben für die Stufe 40 beschriebenen Weise durch. Die Stufe 66 modifiziert dementsprechend (oder liefert eine Verfeinerung) der Bestimmung der Frequenz von der Stufe 60, falls es irgendeine Mehrdeutigkeit bei solch einer Bestimmung gibt. Alternativ kann die Stufe 60 angesehen werden als eine Modifizierung (oder Verfeinerung) der Signale von der Stufe 66. Wie zu erkennen ist, kann es eine Mehrdeutigkeit in der Bestimmung der Stimmhöhenfrequenz von der Stufe 60 geben, falls die Zeitbestimmung aus unterschiedlichen Spitzenamplituden als der höchsten Spitzenamplitude in den zwei (2) aufeinanderfolgenden Zeitrahmen durchgeführt wird, oder falls die Zeitspanne zwischen den aufeinander folgenden Spitzen keine präzise Anzeige der Stimmhöhenfrequenz liefert.
  • Wie zuvor beschrieben, führt die Stufe 34 eine Frequenztransformation wie etwa eine Fourierfrequenztransformation über den Signalen auf der Leitung 36 durch, welche die Sprachsignale in den zweiten der jeweils zwei (2) aufeinander folgenden Zeitrahmen 14 in jedem Paar aufnimmt. Die Frequenzsignale von der Stufe 34 gehen zu einer Stufe 70, die eine logarithmische Größenberechnung oder -Analyse ergibt, welche mit den logarithmischen Größenberechnungen oder -Analysen korrespondiert, die von den Stufen 38 und 68 durchgeführt werden. Die Signale von der Stufe 70 gehen wiederum zu der Stufe 66, um eine weitere Verfeinerung der Bestimmung der Stimmhöhenfrequenz für die Sprachsignale in jedem Paar von zwei (2) aufeinander folgenden Zeitrahmen 14 vorsehen.
  • Die Signale von der Stufe 66 gehen zu einer Stufe 74, welche einen Stimmhöhenfrequenz abgleich mit einer Synthese wiederhergestellter Harmonischer liefert. Diese Synthese wiederhergestellter Harmonischer wird im Detail anschließend in Verbindung mit der Beschreibung der Transformationscodiererstufe 26 beschrieben werden, welche in Blockform in Fig. 1 und in detaillierter Blockform in Fig. 3 gezeigt ist. Der von der Stufe 74 durchgeführte Stimmhöhenfrequenzabgleich korrespondiert mit dem von der Stufe 46 durchgeführte Stimmhöhenfrequenzabgleich. Die Stufe 74 arbeitet so, dass die Bestimmung der Stimmhöhenfrequenz von der Stufe 66 über einen relativ kleinen Bereich oberhalb und unterhalb der bestimmten Stimmhöhenfrequenz verschoben wird, um einen optimalen Abgleich mit solcher Synthese der Harmonischen vorzusehen. Auf diese Weise wird die Bestimmung der Stimmhöhenfrequenz in jedem Zeitrahmen 14 verfeinert, falls in dieser Bestimmung noch immer eine Mehrdeutigkeit auftritt.
  • Eine Stufe 78 nimmt die verfeinerte Bestimmung der Stimmhöhenfrequenz von der Stufe 74 auf. Die Stufe 78 liefert eine weitere Verfeinerung der Bestimmung der Stimmhöhenfrequenz in jedem Zeitrahmen, falls in solch einer Bestimmung immer noch eine Mehrdeutigkeit liegt. Die Stufe 78 funktioniert so, dass sie die Summe der Amplituden aller ungeraden Harmonischen in den Frequenztransformationssignalen aufsammelt, welche durch die Stufe 74 ermittelt wurden, und die Summe der Amplituden aller geraden Harmonischen in den Frequenztransformationssignalen. Falls die aufgesammelte Summe aller geraden Harmonischen die aufgesammelte Summe aller ungeraden Harmonischen um einen bestimmten Wert, wie fünfzehn Prozent (15%) der aufgesammelten Summe aller ungeraden Harmonischen übersteigt, wird die niedrigste Frequenz der geraden Harmonischen als die Stimmhöhenfrequenz ausgewählt. Falls die aufgesammelte Summe aller geraden Harmonischen die aufgesammelte Summe aller ungeraden Harmonischen um diesen Schwellwert nicht übersteigt, wird die niedrigste Frequenz der ungeraden Harmonischen als die Stimmhöhenfrequenz ausgewählt. Die Arbeitsweise der Stufe 78 der Differenz der Harmonischen korrespondiert mit der Arbeitsweise der Stufe 48 der Differenz der Harmonischen.
  • Die Signale von der Stufe 78 laufen zu einer Stimmhöheninterpolationsstufe 80. Die Stimmhöheninterpolationsstufe 80 nimmt über eine Leitung 82 auch Signale auf, welche die Signale repräsentieren, die von der Stufe 78 für einen (1) vorangegangenen Rahmen ermittelt wurden. Falls z. B. die Signale, die von der Stufe 78 zu der Stufe 80 laufen, die Stimmhöhenfrequenz repräsentieren, welche in den Zeitrahmen 1 und 2 bestimmt werden, repräsen tieren die Signale auf der Leitung 82 die Stimmhöhenfrequenz, die für den Rahmen 0 bestimmt wurde. Die Stufe 80 interpoliert zwischen der Stimmhöhenfrequenz, die für den Zeitrahmen 0 bestimmt wurde, und den Zeitrahmen 1 und 2, und produziert Information, welche die Stimmhöhenfrequenz für den Zeitrahmen 1 repräsentiert. Diese Information wird in die Stufe 40 eingebracht, um die Bestimmung der Stimmhöhenfrequenz in jener Stufe für den Zeitrahmen 1 zu verfeinern.
  • Die Stimmhöheninterpolationsstufe 80 setzt auch heuristische Techniken ein, um die Bestimmung der Stimmhöhenfrequenz für den Zeitrahmen 1 zu verfeinern. Z. B. kann die Stufe 80 die Größe der Leistung in den Frequenzsignalen für tiefe Frequenzen in den Zeitrahmen 1 und 2 und dem Zeitrahmen 0 bestimmen. Die Stufe 80 kann auch das Verhältnis der kumulativen Größe der Leistung in den Frequenzsignalen bei tiefen Frequenzen (oder der kumulativen Größe der Amplituden solcher Signale) in solchen Zeitrahmen relativ zu der kumulativen Größe der Leistung in den Frequenzsignalen bei hohen Frequenzen (oder der kumulativen Größe der Amplituden solcher Signale) in solchen Zeitrahmen bestimmen. Diese Faktoren, wie auch andere Faktoren, können in der Stufe 80 bei der Verfeinerung der Stimmhöhenfrequenz für den Zeitrahmen 1 verwendet werden.
  • Die Ausgabe von der Stimmhöheninterpolationsstufe 80 wird in die Stufe 40 der Abstandsberechnung der Harmonischen eingebracht, um die Bestimmung der Stimmhöhenfrequenz in der Stufe 38 zu verfeinern. Wie oben beschrieben, wird diese Bestimmung weiter verfeinert durch die Stimmhöhenabgleichstufe 46 und die Stufe 48 der Differenz der Harmonischen. Die Ausgabe der Stufe 48 der Differenz der Harmonischen bezeichnet in neun (9) binären Bits die verfeinerte Bestimmung der Stimmhöhenfrequenz für den Zeitrahmen 1. Diese sind die ersten neun Bits, welche zu dem in Fig. 2 gezeigten Sprachdecodierer übertragen werden, um dem Sprachdecodierer die Parameter anzuzeigen, welche die Charakteristiken der Sprachsignale in dem Zeitrahmen 1 identifizieren. Auf gleiche Weise zeigt die Stufe 78 der Differenz der Harmonischen in neun (9) binären Bits die verfeinerte Schätzung der Stimmhöhenfrequenz für den Zeitrahmen 2 an. Diese sind die ersten neun Bits, welche zu dem in Fig. 2 gezeigten Sprachdecodierer übertragen werden, um dem Sprachdecodierer die Parameter anzuzeigen, welche die Charakteristiken der Sprachsignale in dem Zeitrahmen 2 identifizieren. Wie zu erkennen ist, funktioniert das in Fig. 4 gezeigte und oben beschriebene System auf ähnliche Weise, um die Stimmhöhenfrequenz in aufeinander fol genden Paaren von Zeitrahmen, wie den Zeitrahmen 3 und 4, 5 und 6, u. s. w. zu bestimmen und zu codieren.
  • Der Transformationscodierer 26 in Fig. 1 wird im Detail in Fig. 3 gezeigt. Der Transformationscodierer 26 umfasst eine Stufe 86 für die Bestimmung der Amplitude und Phase der Signale bei der Fundamentalfrequenz (Stimmhöhenfrequenz) und der Amplitude und Phase jeder der Harmonischen-Signale. Diese Bestimmung wird in einem Bereich von Frequenzen bis zu einer Bandbreite von angenähert vier Kilohertz (4 kHz) vorgesehen. Die Bestimmung wird auf ungefähr 4 Kilohertz (4 kHz) begrenzt, weil die Grenze von vier Kilohertz (4 kHz) mit der Grenze der Frequenzen korrespondiert, die in dem Telefonnetzwerk als Folge angenommener Standards angetroffen wird.
  • Als ein erster Schritt bei der Bestimmung der Amplitude und Phase der Stimmhöhenfrequenz und der Harmonischen in jedem Zeitrahmen 14 teilt die Stufe 86 den Frequenzbereich bis viertausend Hertz (4000 Hz) in eine Anzahl von Frequenzblöcken auf, wie etwa zweiunddreißig (32). Die Stufe 86 teilt dann jeden Frequenzblock in eine bestimmte Anzahl von Gittern auf, wie etwa sechzehn (16). Mehrere Frequenzblöcke 9E3 und die Gitter 98 für einen der Frequenzblöcke sind in Fig. 12 gezeigt. Die Stufe 86 kennt aus der Bestimmung der Stimmhöhenfrequenz in jedem Zeitrahmen 14 den Frequenzblock, in dem jede harmonische Frequenz liegt. Die Stufe 86 bestimmt dann das bestimmte Gitter aus den sechzehn (16) Gittern, in welchem jede Harmonische in ihrem jeweiligen Frequenzblock liegt. Durch genaue Bestimmung der Frequenz eines jeden Harmonischen-Signals kann die Amplitude und Phase eines jeden Harmonischen-Signals mit einiger Genauigkeit bestimmt werden, wie im Detail nachfolgend beschrieben wird.
  • Als ein erster Schritt bei der Bestimmung mit einiger Genauigkeit der Frequenz eines jeden Harmonischen-Signals in der Fourierfrequenztransformation, die in jedem Zeitrahmen 14 produziert wird, liefert die Stufe 86 eine Hamming-Fenster-Analyse der Sprachsignale in jedem Zeitrahmen 14. Eine Hamming-Fenster-Analyse ist in der Technik wohl bekannt. In einer Hamming-Fenster-Analyse werden die Sprachsignale 92 (Fig. 10) in jedem Zeitrahmen 14 durch eine Kurve modifiziert, die ein kuppelförmiges Muster 94 in Fig. 10 aufweist. Wie zu erkennen ist, hat das kuppelförmige Muster 94 eine größere Amplitude bei fortschreitenden Positionen zur Mitte des Zeitrahmens 14 hin als zu den Rändern der Zeitrah men. Diese relative Abschwächung der Sprachsignale an den gegenüberliegenden Rändern eines jeden Zeitrahmens 14 ist ein Grund, warum die Zeitrahmen sich überlappen, wie in Fig. 6 gezeigt.
  • Wenn das Hamming-Muster 94 verwendet wird, um die Sprachsignale in jedem Zeitrahmen 14 zu modifizieren, und eine Fourierfrequenztransformation über dem sich ergebenden Muster für eine individuelle Frequenz durchgeführt wird, wird ein Frequenzmuster produziert, wie in Fig. 11 gezeigt. Dieses Frequenzmuster kann für eine der sechzehn (16) Gitter in dem Frequenzblock produziert werden, in dem die Existenz einer Harmonischen festgestellt wird: Ähnliche Frequenzmuster werden für die anderen fünfzehn (15) Gitter in dem Frequenzblock bestimmt. Das Gitter, welches am nächsten zu der Stelle einer gegebenen Harmonischen liegt, wird ausgewählt. Durch Bestimmung des ausgezeichneten Gitters der sechzehn (16) Gitter, in dem die Harmonische liegt, wird die Frequenz der Harmonischen mit größerer Genauigkeit bestimmt als nach dem Stand der Technik.
  • Auf diese Weise werden die Amplitude und die Phase für eine jede Harmonische in jedem der Zeitrahmen 14 bestimmt. Die Phase einer jeden Harmonischen wird für jeden Zeitrahmen 14 durch Vergleich der Harmonischen-Frequenz in jedem Zeitrahmen 14 mit der Harmonischen-Frequenz der benachbarten Zeitrahmen codiert. Wie zu erkennen ist, ergeben sich Veränderungen in der Phase eines Harmonischen-Signals aus Veränderungen der Frequenz des Harmonischen-Signals. Da die Periode in jedem Zeitrahmen 14 relativ kurz ist, und da es eine zeitliche Überlappung zwischen benachbarten Zeitrahmen gibt, kann eine jede Veränderung in der Stimmhöhenfrequenz in aufeinander folgenden Zeitrahmen angesehen werden, dass sie zu einer Veränderung in der Phase führt.
  • Als ein Ergebnis der oben dargestellten Analyse werden Paare von Signalen für jede Harmonischen-Frequenz erzeugt, wobei eines dieser Signale die Amplitude darstellt, und das andere die Phase darstellt. Diese Signale können dargestellt werden als a&sub1;&sub1;, a&sub2;&sub2;, a&sub3;&sub3;, u. s. w. In dieser Folge stellen
  • a&sub1;, a&sub2;, a&sub3;, u. s. w. die Amplituden der Signale bei der Fundamentalfrequenz und die zweite, die dritte, u. s. w. Harmonischen in jedem Zeitrahmen 14 dar; und
  • &sub1;, &sub2;, &sub3;, u. s. w. stellen die Phasen der Signale bei der Fundamentalfrequenz und die zweite, die dritte, u. s. w. Harmonischen in jedem Zeitrahmen 14 dar.
  • Obgleich die Amplitudenwerte a&sub1;, a&sub2;, a&sub3;, u. s. w. und die Phasenwerte &sub1;, &sub2;, &sub3;, u. s. w. die Parameter der Signale bei der Fundamentalfrequenz (Stimmhöhenfrequenz) und den verschiedenen Harmonischen in jedem Zeitrahmen mit einiger Genauiglkeit repräsentieren können, liegen diese Werte nicht in einer Form vor, die von dem in Fig. 1 gezeigten Sprachcodierer zu einem allgemein in Fig. 2 mit 100 bezeichneten Sprachdecodierer übertragen werden kann. Die in Fig. 3 gezeigten Schaltkreise liefern eine Umwandlung der Amplitudenwerte a&sub1;, a&sub2;, a&sub3;, u. s. w. und der Phasenwerte &sub1;, &sub2;, &sub3;, u. s. w. in ein sinnvolles Binärformat für die Übertragung zu dem Sprachdecodierer 100 in Fig. 2 und für die Decodierung in dem Sprachdecodierer.
  • Um solch eine Umwandlung zu erreichen, werden die Signale von der Stufe 86 für die Analyse der Harmonischen in Fig. 3 einer Stufe 104 übergeben, welche mit "Berechnung der Spektrumsform" bezeichnet ist. Die Stufe 104 empfängt auch die Signale von einer Stufe 102, die mit "Hole Bandamplitude" bezeichnet ist. Die Eingabe in die Stufe 102 korrespondiert mit der Eingabe in die Stufe 86. Die Stufe 102 bestimmt das Frequenzband, in dem die Amplitude des Signals auftritt.
  • Als ein erster Schritt der Umwandlung der Amplituden a&sub1;, a&sub2;, a&sub3;, u. s. w. in sinnvolle und vereinfachte Binärwerte für die Übertragung zu einem Sprachdecodierer 100 werden die Logarithmen der Amplitudenwerte a&sub1;, a&sub2;, a&sub3;, u. s. w. in der Stufe 104 in Fig. 3 bestimmt. Die Verwendung der Logarithmen dieser Amplitudenwerte ist wünschenswert, weil die sich ergebenden Werte relativ zueinander komprimiert werden, ohne ihre Signifikanz mit Hinsicht zueinander zu verlieren. Die Logarithmen können hinsichtlich eines jeden passenden Basiswertes berechnet werden, wie etwa eines Basiswertes von zwei (2) oder eines Basiswertes von zehn (10).
  • Die Logarithmuswerte der Amplituden werden dann in der Stufe 104 in Fig. 3 verglichen, um den Spitzenwert von allen diesen Amplituden auszuwählen. Dies wird in Fig. 13 schematisch angezeigt, indem die unterschiedlichen Frequenzsignale und die Amplituden dieser Signale schematisch angezeigt werden, und die Spitzenamplitude des Signals mit der größten Amplitude mit 106 bezeichnet ist. Die Amplituden aller anderen Frequenzsignale werden dann auf die Spitzenamplitude 106 als ein Basiswert skaliert. Mit anderen Worten:
  • die Differenz zwischen der Spitzenamplitude 106 und der Größe einer jeden der verbleibenden Amplitudenwerte a&sub1;, a&sub2;, a&sub3;, u. s. w. wird bestimmt. Diese Differenzwerte werden in Fig. 14 schematisch bei 108 angezeigt.
  • Die Differenzwerte 108 in Fig. 14 werden als Nächstes gestaucht. Eine Stauchungsoperation ist in der Technik wohl bekannt. In einer Stauchungsoperation werden die in Fig. 14 gezeigten Differenzwerte bei Werten am oberen Ende des Amplitudenbereichs zunehmend komprimiert. Dies wird in Fig. 15 schematisch bei 110 angezeigt. Die Amplitudenwerte in der Nähe der Spitzenwerte in Fig. 13 werden durch die Stauchungsoperation relativ zu den Amplituden mit niedrigem Wert in Fig. 13 betont.
  • Als nächster Schritt bei der Umwandlung der Amplitudenwerte a&sub1;, a&sub2;, a&sub3;, u. s. w. in ein sinnvolles und vereinfachtes Binärformat wird die Anzahl solcher Werte in der Stufe 104 auf einen bestimmten Wert, wie etwa fünfundvierzig (45) begrenzt, falls die Anzahl der Amplitudenwerte fünfundvierzig (45) übersteigt. Diese Grenze wird auferlegt durch Verwerfen der Harmonischen mit den höchsten Frequenzwerten. Ein Verwerfen der Harmonischen mit den höchsten Frequenzen führt nicht zu einer Verschlechterung der getreuen Wiedergabe von Klängen, da die meiste, den Klang betreffende Information in den unteren Frequenzen liegt.
  • Als ein nächster Schritt wird die Anzahl der Harmonischen in der Stufe 104 auf eine passende Anzahl wie etwa sechzehn (16) begrenzt, falls die Anzahl der Harmonischen zwischen sechzehn (16) und zwanzig (20) liegt. Dies wird erreicht durch Verwerfen jeder zweiten der Harmonischen am oberen Ende des Frequenzbereichs, falls die Anzahl der Harmonischen zwischen sechzehn (16) und zwanzig (20) liegt. Falls die Anzahl der Harmonischen kleiner als sechzehn (16) ist, wird die Anzahl der Harmonischen auf sechzehn (16) erhöht durch Paaren aufeinanderfolgender Harmonischer am oberen Frequenzende, um zusätzliche Harmonische zwischen den gepaarten Harmonischen zu bilden und durch Interpolation der Amplituden der zusätzlichen Harmonischen entsprechend den Amplituden der gepaarten Harmonischen.
  • Falls die Anzahl der Harmonischen größer als vierundzwanzig (24) ist, wird auf gleiche Weise jede zweite der Harmonischen am oberen Ende des Frequenzbereichs beseitigt, bis die Anzahl der Harmonischen auf vierundzwanzig (24) reduziert ist. Falls die Anzahl der Har monischen zwischen einundzwanzig (21) und vierundzwanzig (24) liegt, wird die Anzahl der Harmonischen auf vierundzwanzig (24) erhöht durch Paaren aufeinanderfolgender Harmonischer am oberen Frequenzende, um zusätzliche Harmonische zwischen den gepaarten Harmonischen zu bilden und durch Interpolation der Amplituden der zusätzlichen Harmonischen entsprechend den Amplituden der gepaarten Harmonischen.
  • Nachdem die Anzahl der Harmonischen auf sechzehn (16) oder vierundzwanzig (24) abhängig von der Anzahl der in der Fourierfrequenztransformation erzeugten Harmonischen begrenzt worden ist, wird in der Stufe 104 über der begrenzten Anzahl von Harmonischen eine diskrete Kosinustransformation durchgeführt. Die diskrete Kosinustransformation ist in der Technik wohl bekannt als vorteilhaft für die Kompression korrelierter Signale, wie etwa in einer Spektrumsform. Die diskrete Kosinustransformation wird über den vollständigen Bereich der sechzehn (16) oder vierundzwanzig (24) Harmonischen durchgeführt. Die ist unterschiedlich zu dem Stand der Technik, weil nach dem Stand der Technik verschiedene diskrete Kosinustransformationen der Harmonischen ermittelt werden, deren jede auf angenähert acht (8) Harmonische begrenzt ist. Jedoch wird nach dem Stand der Technik die Gesamtzahl der Frequenzen in der Transformation nicht begrenzt, wie in dem System dieser Erfindung vorgesehen wird, wenn die Anzahl auf sechzehn (16) oder vierundzwanzig (24) begrenzt wird.
  • Die Ergebnisse, welche von der im vorangehenden Absatz diskutierten diskreten Kosinustransformation erreicht wurden, werden anschließend durch eine Stufe 110 in eine bestimmte Anzahl von Binärbits umgewandelt, um diese Ergebnisse zu repräsentieren. Z. B. können die Ergebnisse in achtundvierzig (48), vierundsechzig (64) oder achtzig (80) Binärbits umgewandelt werden. Die Anzahl der Binärbits wird vorbestimmt, so dass der Sprachdecodierer 100 weiß, wie solche Binärbits zu decodieren sind. Bei der Codierung der Ergebnisse der diskreten Kosinustransformation wird vorzugsweise ein größeres Gewicht auf die niedrigeren Frequenzkomponenten der diskreten Kosinustransformation rellativ zu den höheren Frequenzkomponenten gelegt. Z. B. kann zur Veranschaulichung die Anzahl der Binärbits, die verwendet werden, um aufeinanderfolgende Werte von der diskreten Kosinustransformation zu bezeichnen, eine Folge von 5, 5, 4, 4, 3, 3, 3, . . ., 2, 2, . . ., 0, 0, 0 sein. In dieser Folge repräsentiert jede folgende Zahl von links eine Komponente mit fortschreitend höherer Frequenz. Die 48, 64 oder 80 Binärbits, welche die Ergebnisse der diskreten Kosi nustransformation darstellen, werden zum Sprachdecodierer 100 in Fig. 2 nach der Übertragung der neun (9) Binärbits übertragen, welche die Stimmhöhenfrequenz oder Fundamentalfrequenz repräsentieren.
  • Eine Stufe 112 in Fig. 3 empfängt von der Stufe 104 die Signale, welche die diskrete Kosinustransformation repräsentieren, und rekonstruiert diese Signale in eine Form, die mit den Fourierfrequenztransformationssignalen korrespondiert, welche in die Stufe 86 eingebracht wurden. In einem ersten Schritt dieser Rekonstruktion empfängt die Stufe 112 die Signale von der Stufe 104 und liefert eine Umkehrung der diskreten Kosinustransformation. Die Stufe 112 weitet dann die Anzahl der Harmonischen aus, um mit den Anzahl der Harmonischen in den Fourierfrequenztransformationssignalen übereinzustimmen, welche in die Stufe 86 eingebracht wurden. Die Stufe 112 erreicht dies durch Interpolation zwischen den Amplituden aufeinander folgender Paare von Harmonischen am oberen Ende des Frequenzbereichs. Die Stufe 112 führt dann eine Entstauchungsoperation durch, in der die Umkehrung der Stauchungsoperation durch die Stufe 110 durchgeführt wird. Die Signale sind nun in einer Form, die mit der in Fig. 14 gezeigten Form korrespondiert.
  • Um die Signale in die Form umzuwandeln, die in Fig. 13 gezeigt ist, wird eine Differenz zwischen der in Fig. 13 gezeigten Spitzenamplitude 106 für jede Harmonische und der in Fig. 14 gezeigten Amplitude für jede Harmonische bestimmt. Die sich erlebenden Amplituden korrespondieren mit denjenigen, die in Fig. 13 gezeigt sind, unter der Annahme, dass jeder Schritt in der von der Stufe 112 gegebenen erneuten Umwandlung ideale Berechnungen liefert. Die Signale, die mit den in Fig. 13 gezeigten Signalen korrespondieren, werden dann in der Stufe 112 verarbeitet, um die logarithmischen Werte zu beseitigen, und um Fourierfrequenztransformationssignale zu ermitteln, welche mit den in die Stufe 86 eingebrachten Signalen korrespondieren.
  • Die von der Stufe 112 erneut konstruierten Fourierfrequenztransformationssignale werden in eine Stufe 116 eingebracht. Die Fourierfrequenztransformationssignale, welche zur Stufe 86 gehen, werden auch in die Stufe 116 eingebracht für den Vergleich mit den erneut konstruierten Fourierfrequenztransformationssignalen in der Stufe 116. Um diesen Vergleich durchzuführen, werden die Fourierfrequenztransformationssignale von jeder der Stufen 86 und 112 angesehen als in zwölf (12) Frequenzschlitzen oder -fächern angeordnet, wie in Fig. 16 gezeigt. Jede der zwölf Frequenzschlitze oder -fächer hat einen unterschiedlichen Bereich von Frequenzen als die anderen Frequenzschlitze oder -fächer. Die Anzahl der Frequenzschlitze oder -fächer ist willkürlich, aber zwölf (12) ist vorzuziehen. Es ist zu erkennen, dass mehr als eine (1) Harmonische in jedem Frequenzschlitz oder -fach 118 liegen kann.
  • Die Stufe 116 vergleicht die Amplituden der Fourierfrequenztransformationssignale von der Stufe 112 in jedem Frequenzschlitz oder -fach 118 und die Signale, die in die Stufe 86 für jenen Frequenzschlitz oder -fach 118 eingebracht wurden. Falls der Amplitudenvergleich innerhalb eines bestimmten Faktors für einen individuellen Frequenzschlitz oder -fach 118 liegt, produziert die Stufe 116 eine binäre "1" für den Frequenzschlitz oder -fach 118. Falls der Amplitudenvergleich nicht innerhalb eines bestimmten Faktors für einen individuellen Frequenzschlitz oder -fach 118 liegt, produziert die Stufe 116 eine binäre "0" für den Frequenzschlitz oder -fach 118. Der bestimmte Faktor kann von der Stimmhöhenfrequenz und von anderen Qualitätsfaktoren abhängen.
  • Fig. 16 veranschaulicht, wann eine binäre "1" in einem Frequenzschlitz oder -fach 118 erzeugt wird, und wann eine binäre "0" in einem Frequenzschlitz oder -fach 118 erzeugt wird. Wie zu erkennen ist, wird eine binäre "1" in einem Frequenzschlitz oder -fach 118 erzeugt, wenn die Korrelation zwischen den Signalen in den Stufen 86 und 112 hoch ist, wie durch ein Signal großer Amplitude angezeigt. Wenn jedoch die Korrelation gering ist, wie durch ein Signal niedriger Amplitude angezeigt wird, wird eine binäre "0" für einen Frequenzschlitz oder -fach 118 erzeugt. Die Stufe 116 liefert eine binäre "1" nur in den Frequenzschlitzen oder -fächern 118, in denen die Stufe 104 erfolgreich war bei der Umwandlung der Frequenzanzeichen in der Stufe 86 in eine Form, die eng den Anzeichen in der Stufe 86 folgt. In den Frequenzschlitzen oder -fächern 118, in denen solch eine Umwandlung nicht erfolgreich war, liefert die Stufe 116 eine binäre "0".
  • In der Stufe 116 kann eine Nachverarbeitung vorgesehen werden, um zu überprüfen, ob der Binärwert für einen Frequenzschlitz oder -fach 118 eine binäre "1" oder eine binäre "0" ist. Falls z. B. die Binärwerte aufeinanderfolgender Frequenzschlitze oder -fächer "00100" ist, kann der Binärwert "1" in dieser Folge in dem betrachteten Zeitrahmen 14 in der Stufe 116 auf der Basis von Heuristik überdacht werden. Unter diesen Umständen könnte der Binärwert für diesen Frequenzschlitz oder -fach 118 in benachbarten Zeitrahmen 14 ebenfalls analysiert werden, um zu überprüfen, ob der Binärwert für diesen Frequenzschlitz oder -fach 118 in dem betrachteten Zeitrahmen 14 tatsächlich eine binäre "0" statt einer binären "1" sein sollte.
  • Die zwölf (12) Binärbits, die eine binäre "1" oder eine binäre "0" in jedem der zwölf (12) Frequenzschlitze oder -fächer 118 in jedem der Zeitrahmen 14 repräsentieren, werden der Stufe 110 in Fig. 3 für die Übertragung zu dem in Fig. 2 gezeigten Sprachdecodierer 100 übergeben. Diese zwölf (12) Binärbits in jedem Zeitrahmen können unmittelbar stach den neun (9) Binärbits erzeugt werden, welche die Stimmhöhenfrequenz repräsentieren, und können gefolgt werden von den 48, 64 oder 80 Binärbits, welche die Amplituden der unterschiedlichen Harmonischen repräsentieren. Eine binäre "1" in irgendeinem dieser zwölf (12) Frequenzschlitze oder -fächer 118 kann angesehen werden als Repräsentant der gesprochenen Signale für solche Frequenzschlitze oder -fächer. Eine bitte "0" in irgendeinem dieser zwölf (12) Frequenzschlitze oder -fächer 118 kann angesehen werden als Repräsentant der ungesprochenen Signale für solche Frequenzschlitze oder -fächer. Für einen Frequenzschlitz oder -fach, in dem ungesprochene Signale erzeugt werden, kann die Amplitude der Harmonischen oder der mehreren Harmonischen betrachtet werden als Repräsentant von Rauschen mit einem Durchschnitt des Amplitudenpegels der Harmonischen oder der mehreren Harmonischen in solchen Frequenzschlitz oder -fach.
  • Die Binärwerte, welche die gesprochenen (binäre "1") oder ungesprochenen (binäre "0") Signale von der Stufe 116 repräsentieren, werden der Stufe 104 zugeführt. Für die Frequenzschlitze oder -fächer 118, in denen eine binäre "1" durch die Stufe 116 erzeugt wurde, erzeugt die Stufe 104 Binärsignale, welche die Amplituden in den Frequenzschlitzen oder -fächern repräsentieren. Diese Signale werden durch die Stufe 110 codiert, und über eine Leitung 124 zu dem in Fig. 2 gezeigten Decodierer übertragen. Wenn von der Stufe 116 für einen Frequenzschlitz oder -fach 118 eine binäre "0" erzeugt wird, erzeugt die Stufe 104 "Rausch"-Signale mit einer Amplitude, welche die Durchschnittsamplitude der Signale in dem Frequenzschlitz oder -fach repräsentiert. Diese Signale werden durch die Stufe 110 in eine binäre Form codiert und über die Leitung 124 zu dem Sprachdecodierer übertragen.
  • Die Phasensignale &sub1;, &sub2;, &sub3;, u. s. w. für aufeinander folgende Harmonische in jedem Zeitrahmen 14 werden in einer Stufe 120 in Fig. 3 in eine Form für die Übertragung zu dem Sprachdecodierer 100 umgewandelt. Falls die Phase der Signale für eine Harmonische mindestens eine bestimmte Kontinuität in einem bestimmten Zeitrahmen 14 mit der Phase der Signale für die Harmonische in dem vorangehenden Zeitrahmen hat, wird die Phase des Signals für die Harmonische in dem bestimmten Zeitrahmen aus der Phase der Signale für die Harmonische in dem vorangehenden Zeitrahmen vorhergesagt. Die Differenz zwischen der tatsächlichen Phase und dieser Vorhersage ist es, was für die Phase des Signals für die Harmonische in dem bestimmten Zeitrahmen übertragen wird. Für eine bestimmte Anzahl von Binärbits zur Repräsentation solcher Harmonischen kann diese Differenzvorhersage mit größerer Genauigkeit zu dem Sprachdecodierer 100 übertragen werden als die Information, welche die Phase des Signals repräsentiert, die solche Harmonische in solchem bestimmten Zeitrahmen bildet. Falls die Phase des Signals für solche Harmonische in solchem bestimmten Zeitrahmen jedoch nicht die bestimmte Kontinuität mit der Phase des Signals für solche Harmonische in dem vorangehenden Zeitrahmen hat, wird die Phase des Signals für solche Harmonische in solchen bestimmten Zeitrahmen zu dem Sprachdecodierer 100 übertragen.
  • Wie bei der Amplitudeninformation ist eine bestimmte Anzahl von Binärbits vorgesehen, um die Phase oder die Differenzvorhersage der Phase für jede Harmonische in jedem Zeitrahmen zu repräsentieren. Die Anzahl der Binärbits, welche die Phase oder die Differenzvorhersage der Phase für jede Harmonische in jedem Zeitrahmen repräsentieren, wird berechnet als die Gesamtzahl der Bits, die für den Zeitrahmen verfügbar ist, minus der für die zuerst genannte Information verwendete Anzahl. Die Phasen oder die Differenzvorhersagen der Phasen der Signale mit niedrigeren harmonischen Frequenzen werden repräsentiert durch eine größere Anzahl von Binärwerten als die Phasen oder die Differenzvorhersagen der Phasen der Signale mit höheren Frequenzen.
  • Die Binärbits, welche die Phasen oder die Differenzvorhersagen der Phasen für die Signale der verschiedenen Harmonischen in jedem Zeitrahmen 14 repräsentieren, werden in einer Stufe 130 in Fig. 3 erzeugt, wobei diese Stufe als "Phasencodierung" bezeichnet wird. Die Binärbits, welche die Phasen oder die Differenzvorhersagen der Phasen für die Signale der verschiedenen Harmonischen in jedem Zeitrahmen 14 repräsentieren, werden über eine Leitung 132 in jedem Zeitrahmen 14 nach den Binärbits übertragen, welche die Amplituden der Signale bei den verschiedene Harmonischen in jedem Zeitrahmen 14 repräsentieren.
  • Der Sprachdecodierer 100 wird in einer vereinfachten Blockform in Fig. 2 gezeigt. Der Sprachdecodierer 100 umfasst ein Leitung 140, welche die codierten Sprachsignale von dem Sprachcodierer 18 empfängt. Eine Transformationsdecodiererstufe, die allgemein mit 142 bezeichnet ist, verarbeitet diese Signale, welche die Stimmhöhenfrequenz und die Amplituden und Phasen der Stimmhöhenfrequenz und der Harmonischen anzeigen, um die Signale wiederherzustellen, welche die Stimmhöhenfrequenz und die Harmonischen repräsentieren. Eine Stufe 144 führt eine Umkehrung einer Fourierfrequenztransformation über den wiederhergestellten Signalen durch, welche die Stimmhöhenfrequenz und die Harmonischen repräsentieren, um die Signale in Zeitbereichsform wiederherzustellen. Diese Signale werden in der Stufe 144 durch Kompensation der Effekte des in Fig. 10 gezeigten Hamming-Fensters weiterverarbeitet. Die Stufe 144 teilt durch das Hamming-Fenster 94, um die Multiplikation mit dem Hamming-Fenster in dem Sprachcodierer 18 zu kompensieren. Die Signale in der Zeitbereichsform werden dann in einer Stufe 146 in Sprachsignale in aufeinander folgenden Zeitrahmen 14 getrennt durch Berücksichtigung der Zeitüberlappung, welche immer noch in den Signalen von der Stufe 144 verblieben sind. Diese Zeitüberlappung ist in Fig. 6 mit 16 bezeichnet.
  • Die Transformationsdecodiererstufe 142 wird in Blockform mit zusätzlichem Detail in Fig. 5 gezeigt. Der Transformationsdecodierer 142 umfasst eine Stufe 150 für den Empfang der 48, 64 oder 80 Bits, welche die Amplituden der Stimmhöhenfrequenz und der Harmonischen repräsentieren, und für die Decodierung dieser Signale, um die Amplituden der Stimmhöhenfrequenz und der Harmonischen zu bestimmen. Bei der Decodierung solcher Signale führt die Stufe 150 eine Folge von Schritten aus, welche in umgekehrter Reihenfolge sind zu den Schritten, die während der Codierungsoperation durchgeführt wurden, und welche die Umkehrungen solcher Schritte sind. Als ein erster Schritt bei solcher Decodierung führt die Stufe 150 die Umkehrung einer diskreten Kosinustransformation über solchen Signalen aus, um die Frequenzkomponenten der Sprachsignale in jedem Zeitrahmen 14 zu ermitteln.
  • Wie zu erkennen ist, hängt die Anzahl der als Ergebnis der umgekehrten diskreten Kosinustransformation erzeugten Signale von der Anzahl der Harmonischen in den Sprachsignalen beim Sprachcodierer 18 in Fig. 1 ab. Die Anzahl der Harmonischen wird dann ausgeweitet oder komprimiert auf die Anzahl der Harmonischen beim Sprachcodierer 18 durch Interpo lation zwischen aufeinander folgenden Paaren von harmonischen am oberen Ende des Frequenzbereichs. Die Anzahl der Harmonischen in den Sprachsignalen beim Sprachcodierer 18 in jedem Zeitrahmen kann bestimmt werden aus der Stimmhöhenfrequenz der Sprachsignale in dem Zeitrahmen. Falls eine Ausweitung der Anzahl der Harmonischen vorkommt, kann die Amplitude eines jeden dieser interpolierten Signale bestimmt werden durch Mittelwertbildung der Amplituden der Harmonischen-Signale mit Frequenzen unmittelbar über und unter der Frequenz dieses interpolierten Signals.
  • Eine Entstauchungsoperation wird dann über der erweiterten Anzahl von Harmonischen- Signalen durchgeführt. Diese Entstauchungsoperation ist die Umkehrung der Stauchungsoperation, welche in der in Hg. 1 und im Detail in Fig. 3 gezeigten Transformationscodiererstufe 26 durchgeführt und schematisch in Fig. 15 gezeigt wird. Die entstauchten Signale werden dann auf eine Basis von Null (0) als Bezug wiederhergestellt von der Spitzenamplitude aller Harmonischen-Signale als eine Referenz. Dies korrespondiert mit einer Umwandlung der Signale von der in Fig. 14 gezeigten Form zu einer in Fig. 13 gezeigten Form.
  • Eine Phasendecodiererstufe 152 in Fig. 5 empfängt die Signale von der Amplitudendecodiererstufe 150. Die Phasendecodiererstufe 152 bestimmt die Phasen &sub1;, &sub2;, &sub3;, u. s. w. für die aufeinanderfolgenden Harmonischen in jedem Zeitrahmen 14. Die Phasendecodiererstufe 152 erreicht dies durch Decodierung der Binärbits, welche die Phase einer jeden Harmonischen in jedem Zeitrahmen 14 anzeigen, oder durch Decodierung der Binärbits, welche die Differenzvorhersagen der Phase für solche Harmonischen in solchen Zeitrahmen 14 anzeigen. Wenn die Phasendecodiererstufe 152 die Differenzvorhersage der Phase einer Harmonischen in einem bestimmten Zeitrahmen 14 decodiert, erreicht sie dies durch Bestimmung der Phase für solche Harmonische in dem vorangehenden Zeitrahmen 14 und durch Modifizieren solcher Phase in dem bestimmten Zeitrahmen 14 entsprechend der Phasenvorhersage für solchen Zeitrahmen.
  • Die decodierten Phasensignale von der Phasendecodiererstufe 152 werden in eine Harmonischen-Rekonstruktionsstufe 154 eingebracht, wie auch die Signale von der Amplitudendecodiererstufe 150. Die Harmonischen-Rekonstruktionsstufe 154 verarbeitet die Amplitudensignale von der Amplitudendecodiererstufe 150 und die Phasensignale von der Phasendecodiererstufe 152 für jeden Zeitrahmen 14, um die Harmonischen-Signale in solchem Zeitrahmen wiederherzustellen. Die Harmonischen-Rekonstruktionsstufe 154 rekonstruiert die Harmonischen in jedem Zeitrahmen 14 durch Bereitstellen des Frequenzmusters (Fig. 11) bei verschiedenen Frequenzen, um das Muster bei solchen verschiedenen Frequenzen der in die Stufe 154 eingebrachten Signale zu bestimmen.
  • Die Signale von der Harmonischen-Rekonstruktionsstufe 154 werden einer Harmonischen- Synthesestufe 158 zugeführt. Die Stufe 158 arbeitet, um die Fourierfrequenzkoeffizienten durch Positionierung der Harmonischen und Multiplizieren dieser Harmonischen mit der Fourierfrequenztransformation des in Fig. 10 gezeigten Hamming-Fensters 94 zu synthetisieren. Die Signale von der Harmonischen-Synthesestufe 158 laufen zu einer Stufe 160, in der die ungesprochenen Signale (binäre "0") in den Frequenzschlitzen oder -fächern 118 (Fig. 16) auf einer Leitung 167 zugeführt und verarbeitet werden. In diesen Frequenzschlitzen oder -fächern 118 werden Signale mit einem Rauschpegel, der durch den durchschnittlichen Amplitudenpegel der Harmonischen-Signale in solchen Frequenzschlitzen oder fächern 118 repräsentiert wird, auf der Leitung 168 zugeführt. Diese Signale werden in der Stufe 160 verarbeitet, um die Frequenzkomponenten in solchen Frequenzschlitzen wiederherzustellen. Wie vorstehend dargestellt, werden die Signale von der Stufe 160 in der Stufe 144 in Fig. 2 der Umkehrung der Fourierfrequenztransformation unterzogen. Die sich ergebenden Signale liegen im Zeitbereich, und werden durch die Umkehrung des in Fig. 10 gezeigten Hamming-Fensters 94 modifiziert. Diese Signale von der Stufe 144 repräsentieren dementsprechend die SprachsignaUe in den aufeinander folgenden Zeitrahmen 14. Die Überlappung in den aufeinander folgenden Zeitrahmen 14 wird in der Stufe 146 entfernt, um die Sprachsignale in einem kontinuierlichen Muster wiederherzustellen.
  • Der Apparat und die Verfahren, welche oben beschrieben wurden, haben bestimmte wichtige Vorteile. Sie wenden eine Vielzahl unterschiedlicher Techniken an, um die Stimmhöhenfrequenz in jedem einer Folge sich überlappender Zeitrahmen zu bestimmen und dann die Bestimmung zu verfeinern. Sie wenden verfeinerte Techniken an, um die Amplitude und Phase der Stimmhöhenfrequenzsignale und der Harmonischen-Signale in den Sprachsignalen eines jeden Zeitrahmens zu bestimmen. Sie wenden auch verfeinerte Techniken an, um die Amplituden und Phasen der Stimmhöhenfrequenzsignale und der Harmonischen- Signale in eine binäre Form umzuwandeln, welche die Amplituden und Phasen solcher Signale genau repräsentiert.
  • Der Apparat und die Verfahren, welche in dem vorangehenden Absatz beschrieben wurden, werden in dem Sprachcodierer angewandt. Der Sprachdecodierer verwendet verfeinerte Techniken, welche die Umkehrung jener sind, und welche in umgekehrter Reihenfolge wie jene im Sprachdecodierer ausgeführt werden, um die Sprachsignale wiederherzustellen. Der Apparat und die Verfahren, welche in dem Sprachdecodierer angewendet werden, sind verfeinert, um in umgekehrter Reihenfolge und auf einer umgekehrten Basis die codierten Signale zu verarbeiten, um die in den Sprachcodierer eingegebenen Sprachsignale wiederherzustellen.
  • Obgleich diese Erfindung mit Bezug auf bestimmte Ausführungsformen offengelegt und veranschaulicht wurde, sind die betroffenen Grundsätze verwendbar in zahlreichen anderen Ausführungsformen, was den in der Technik bewanderten offensichtlich ist. Diese Erfindung wird deshalb nur begrenzt, wie durch den Umfang der angefügten Ansprüche angezeigt.

Claims (40)

1. Codierer (18) für die Codierung von eingegebenen Sprachsignalen mit einer Blocksegmentierungseinrichtung (12) für die Aufteilung der Sprachsignale in aufeinander folgende Zeitrahmen (14), einer Stimmhöhenschätzeinrichtung (20), die auf die Blocksegmentierungseinrichtung (12) folgt, für die Schätzung der Stimmhöhe der Sprachsignale in jedem der Zeitrahmen (14), einer Frequenztransformationseinrichtung (22), die auf die Stimmhöhenschätzeinrichtung (20) folgt, für die Bereitstellung einer Frequenztransformation der Sprachsignale in jedem der Zeitrahmen (14) und einer Transformationscodierungseinrichtung (26), die auf die Stimmhöhenschätzeinrichtung (20) und Frequenztransformationseinrichtung (22) folgt, für die Bestimmung der Amplitude und Phase der unterschiedlichen Frequenzkomponenten in dem Sprachsignal in jedem der Zeitrahmen (14) und für die Umwandlung dieser Bestimmungen in binäre Form, wobei die Stimmhöhenschätzeinrichtung (20)
gekennzeichnet ist durch
eine Empfangseinrichtung (32, 36) für die Kombinierung der Sprachsignale in aufeinander folgenden Paaren von Zeitrahmen (14), um eine verbesserte Auflösung der Sprachsignale in jedem der Zeitrahmen (14) zu erreichen,
eine Transformationseinrichtung (30, 34), die auf die Empfangseinrichtung (32, 36) folgt, für die Ermittlung einer Frequenztransformation der Sprachsignale in Frequenzsignale in jedem der aufeinander folgenden Paare von Zeitrahmen (14),
eine Logarithmiereinrichtung (38,70), die auf die Frequenztransformationseinrichtung (30, 34) folgt, für die Durchführung einer Logarithmusberechnung der Größen der Frequenzsignale,
eine Filtereinrichtung (52), die auf die Empfangseinrichtung (32, 36) folgt, für das Durchlassen der Sprachsignale in einem ersten, bestimmten Bereich von Frequenzen in jedem der aufeinander folgenden Paare der Rahmen und für das Vorsehen einer zunehmenden Filterung solcher Sprachsignale für ansteigende Frequenzen oberhalb des ersten, bestimmten Bereichs in jedem der aufeinander folgenden Paare der Zeitrahmen, und
eine Frequenztransformationseinrichtung (56), die auf die Filtereinrichtung (52) folgt, für die Verarbeitung der Signale zur Bestimmung der Stimmhöhenfrequenz der Sprachsignale in jedem der aufeinander folgenden Paare der Zeitrahmen (14).
2. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach Anspruch 1, wobei die Stimmhöhenschätzeinrichtung (20) ferner
gekennzeichnet ist durch
eine CEPSTRUM-Berechnungseinrichtung (60), die auf die Filtereinrichtung (52) folgt, für das Vorsehen einer CEPSTRUM-Bestimmung der Sprachstimmhöhenfrequenz in den aufeinander folgenden Zeitrahmen (14), und
eine erste Berechnungseinrichtung des Abstands der Harmonischen (66), die auf die CEPSTRUM-Berechnungseinrichtung (60) folgt, für die Bestimmung der Differenz in der Amplitude zwischen der Spitze (42) des Frequenzsignals und des Tals (44), das dem Frequenzsignal folgt.
3. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach Anspruch 2, wobei die Stimmhöhenschätzeinrichtung (20) ferner
gekennzeichnet ist durch
eine Stimmhöheninterpolationseinrichtung (80), die auf die durch die CEPSTRUM-Berechnungseinrichtung (60) und die erste Berechnungseinrichtung des Abstands der Harmonischen (66) ermittelte Erkennung reagiert, für die Anwendung heuristischer Techniken auf die CEPSTRUM-Bestimmung und die Differenz in der Amplitude zwischen einem Spitzenwert (42) des Frequenzsignals und einem nachfolgendem Talwert (44) des Frequenzsignals für die Verfeinerung der Bestimmung der Sprachstimmhöhenfrequenz.
4. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach Anspruch 3, wobei die Stimmhöheninterpolationseinrichtung (80) ferner
gekennzeichnet ist durch
eine Einrichtung für die Bestimmung der Größe der Leistung bei niedrigen Frequenzen in der Sprache in aufeinander folgenden Zeitrahmen (14), und
eine Einrichtung für die Bestimmung des Verhältnisses der kumulativen Größe der Leistung des niederfrequenten Signals relativ zu der kumulativen Größe der Leistung des hochfrequenten Signals in aufeinander folgenden Zeitrahmen (14).
5. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach irgendeinem der Ansprüche 2 bis 4, wobei die Stimmhöhenschätzeinrichtung (20) ferner
gekennzeichnet ist durch
eine Einrichtung für die Auswahl einer bestimmten Anzahl von Signalen mit den höchsten Spitzenamplituden (62) in jedem folgenden Zeitrahmen (14), und
eine zweite Berechnungseinrichtung des Abstands der Harmonischen (40) für die Bestimmung der Differenz in der Amplitude zwischen den Spitzenamplituden und den Tälern zwischen den Spitzenamplituden und der Spitzenamplitude der benachbarten Harmonischen in jedem nachfolgenden Zeitrahmen (14), um die Bestimmung der Spitzenfrequenz durch die CEPSTRUM-Berechnungseinrichtung (60) zu verfeinern.
6. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach irgendeinem der Ansprüche 2 bis 5, wobei
die CEPSTRUM-Berechnungseinrichtung (60) den Ort und die Amplituden der Spitzen der Signale in aufeinander folgenden Zeitrahmen bestimmt.
7. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach irgendeinem der Ansprüche 5 bis 6, wobei die zweite Berechnungseinrichtung des Abstands der Harmonischen (40) ferner
gekennzeichnet ist durch
eine Einrichtung für die Bestimmung der Stimmhöhenfrequenzen durch die Analyse des Abstands der Harmonischen in dem Stimmhöhenbereich von Sprache mit niedriger Stimmhöhe, ob die Sprache eine niedrige oder eine hohe Stimmhöhe hat, und
eine Einrichtung für die Bestimmung des Stimmhöhenfrequenzen in dem Stimmhöhenfrequenzbereich hoher Stimmhöhen durch die Analyse des Abstands der Harmonischen, wenn die Sprache eine hohe Stimmhöhe hat.
8. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach irgendeinem der Ansprüche 5 bis 7, wobei die Stimmhöhenschätzeinrichtung (20) ferner
gekennzeichnet ist durch
eine Stimmhöhenanpassungseinrichtung (46, 74), die auf die erste bzw. zweite Berechnungseinrichtung des Abstands der Harmonischen (40, 66) folgt, für die Verschiebung der Bestimmung der Stimmhöhenfrequenz von
der logarithmischen Größenberechnungseinrichtung (38, 70, 68) um eine kleine Spanne oberhalb und unterhalb der bestimmten Stimmhöhenfrequenz, um eine optimale Anpassung an die Synthese der Harmonischen zu erreichen.
9. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach Anspruch 8, wobei die Stimmhöhenschätzeinrichtung (20) ferner
gekennzeichnet ist durch
eine Berechnungseinrichtung der Differenz der Harmonischen (48, 78), die auf die Stimmhöhenanpassungseinrichtung (46, 74) folgt, für die Sammlung der Amplituden der ungeraden und geraden Harmonischen in den Frequenztransformationssignalen.
10. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach irgendeinem der Ansprüche 1 bis 9, wobei die Transformationscodierungseinrichtung (26) ferner
gekennzeichnet ist durch
eine Analyseeinrichtung der Harmonischen (86) für die Erzeugung von Paaren von Signalen für jede harmonische Frequenz, deren eines Signal die Amplitude und das andere Signal die Phase repräsentiert, und
eine Umwandlungseinrichtung, die auf die Analyseeinrichtung der Harmonischen (86) folgt, für die Umwandlung des Paars von Signalen in eine binäre Form für die Übertragung.
11. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach Anspruch 10, wobei die Analyseeinrichtung der Harmonischen (86) ferner
gekennzeichnet ist durch
die Erzeugung eines Bereichs von Frequenzen mit einer Bandbreite von angenähert 4 kHz.
12. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach Anspruch 10 oder 11, wobei die Analyseeinrichtung der Harmonischen (86) ferner
gekennzeichnet ist durch
eine Einrichtung für die Bestimmung der Anordnung einer jeden Harmonischen in den Frequenzsignalen in individuellen Zeitblöcken einer Vielzahl von Zeitblöcken und in individuellen Gittern einer Vielzahl von Gittern innerhalb eines jeden Zeitblocks.
13. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach Anspruch 12, wobei die Analyseeinrichtung der Harmonischen (86) ferner
gekennzeichnet ist durch
eine Hamming-Muster-Analyseeinrichtung (94) für die Durchführung einer Hamming- Fenster-Analyse und Frequenztransformation derart, dass ein Frequenzmuster für ein individuelles Gitter innerhalb des Zeitblocks erzeugt wird.
14. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach irgendeinem der Ansprüche 10 bis 13, wobei die Umwandlungseinrichtung ferner
gekennzeichnet ist durch
eine Hole-Band-Einrichtung (102) für die Bestimmung des Frequenzbandes, in dem die Amplitude der Signale vorkommt,
eine Spektrumsformberechnungseinrichtung (104), die auf die Analyseeinrichtung der Harmonischen (86) folgt, für die Durchführung einer diskreten Kosinustransformation über einer begrenzten Anzahl von Harmonischen der Signale,
eine Amplitudencodierungseinrichtung (110), die auf die Spektrumsformberechnungseinrichtung (104) folgt, für die Umwandlung der diskreten Kosinustransformation in eine binäre Form,
eine Phasenberechnungseinrichtung (120), die auf die Analyseeinrichtung der Harmonischen (86) folgt, für die Umwandlung der Phasensignale in ein binäres Format, und
eine Phasencodierungseinrichtung (130), die auf die Phasenberechnungseinrichtung (120) und die Amplitudenberechnungseinrichtung (110) folgt, für die Erzeugung binärer Bits, welche die Phasen für das Signal der unterschiedlichen Harmonischen in jedem der Zeitrahmen (14) darstellt.
15. Codierer (18) für die Codierung von eingegebenen Sprachsignalen nach Anspruch 14, wobei die Umwandlungseinrichtung ferner
gekennzeichnet ist durch
eine Syntheseeinrichtung der Harmonischen (112), die auf die Spektrumsformberechnungseinrichtung (104) folgt, für die Rekonstruktion des diskreten Kosinustransformationssignals in eine Form, die mit den Frequenztransformationssignalen korrespondiert, und
eine Korrelationseinrichtung der Harmonischen (116), die auf die Syntheseeinrichtung der Harmonischen (112), die Stimmhöhenschätzeinrichtung (20) und die Frequenztransformationseinrichtung (22) folgt, und die mit der Spektrumsformberechnungseinrichtung (104), mit der Amplitudencodierungseinrichtung (110) und mit der Phasencodierungseinrichtung (130) gekoppelt ist, füc die Korrelation der Amplituden der Frequenztransformationssignale, der Frequenztransformation der Sprachsignale in jedem der Zeitrahmen (14) und der geschätzten Stimmhöhe der Sprachsignale in jedem der Zeitrahmen (14).
16. Sprachdecodierer (100) für die Wiedergewinnung von Sprachsignalen, die einem Sprachcodierer (18) zugeführt werden, wobei die Sprachsignale in aufeinander folgenden Zeitrahmen (14) verarbeitet werden, und wobei die Sprachsignale in jedem Zeitrahmen einer ersten Frequenztransformation (22) unterworfen werden, um Frequenzsignale in jedem Zeitrahmen zu erzeugen, und wobei Inversionssignale erzeugt werden, welche die Differenz zwischen der Spitzenamplitude der Frequenzsignale in jedem Zeitrahmen und der Amplitude der Frequenzsignale in solchen Zeitrahmen (20) darstellen, und wobei die Amplituden der Inversionssignale gestaucht werden, und wobei eine zweite Frequenztransformation über den gestauchten Signalen durchgeführt wird, und wobei die Amplituden der Signale in der zweiten Frequenztransformation in digitale Signale (26) umgewandelt werden, und der Sprachdecodierer umfasst: eine Eingabeeinrichtung (140) für den Empfang codierter Sprachsignale, eine Transformatiensdecodierungseinrichtung (142), die mit der Eingabeeinrichtung (140) verbunden ist, für die Wiederherstellung der codierten Sprachsignale, welche die Stimmhöhenfrequenz und die Harmonischen repräsentieren, eine inverse Transformati onseinrichtung (144), die mit der Transformationsdecodierungseinrichtung (142) verbunden ist, für die Bereitstellung einer inversen Transformation, um die Signale in einer Zeitbereichsform wieder herzustellen, und eine Glättungseinrichtung (146), die mit der inversen Transformationseinrichtung (144) verbunden ist, für die Trennung der Signale in der Zeitbereichsform in Sprachsignale, wobei die Transformationsdecodierungseinrichtung (142)
gekennzeichnet ist durch
eine Amplitudendecodierungseinrichtung (150) für die Decodierung der Amplituden der Stimmhöhenfrequenz und der Harmonischen,
eine Phasendecodierungseinrichtung (152), die mit der Amplitudendecodierungseinrichtung (150) verbunden ist, für die Bestimmung der Phasen für aufeinander folgende Harmonische in jedem Zeitrahmen,
eine Harmonischenwiederherstellungseinrichtung (154), die mit der Amplitudendecodierungseinrichtung (150) und der Phasendecodierungseinrichtung (152) verbunden ist, für die Wiederherstellung der Harmonischen in jedem Zeitrahmen,
eine Harmonischensyntheseeinrichtung (158), die mit der Harmonischenwiederherstellungseinrichtung (154) verbunden ist, für die Synthese der transformierten Frequenzkoeffizienten durch Positionierung der Harmonischen und Multiplizieren der Harmonischen mit der Frequenztransformation, und
eine ungesprochene Syntheseeinrichtung (160), die mit der Harmonischensyntheseeinrichtung (158) verbunden ist, für die Verarbeitung ungesprochener Signale in den Frequenzschlitzen (118), um die Frequenzkomponenten in jedem der Frequenzschlitze (118) wiederherzustellen.
17. Sprachdecodierer (100) nach Anspruch 16, wobei die Anzahl der Frequenzharmonischen in jedem Zeitrahmen in dem Sprachcodierer (18) auf einen bestimmten Wert eingeschränkt oder ausgeweitet wird durch Beseitigen oder Hinzufügen bestimmter Frequenzsignale bei hohen Frequenzen, und wobei die Transfomiationsdecodierungseinrichtung (142) ferner
dadurch gekennzeichnet ist, dass
eine Amplitudendecodierungseinrichtung (150) betrieben wird, um die beschränkte Anzahl von Frequenzsignalen auszuweiten.
18. Sprachdecodierer (100) entweder nach Anspruch 16 oder nach Anspruch 17, wobei der Sprachcodierer (18) gesprochene Signale in bestimmten Zeitblöcken in jedem Zeitrahmen (14) und ungesprochene Signale in den anderen Zeitblöcken in jedem Zeitrahmen (188) vorsieht, und die Transformationsdecodierungseinrichtung (142) ferner
dadurch gekennzeichnet ist, dass
die Harmonischenwiederherstellungseinrichtung (154) die Signale synthetisiert, um die Amplituden der Harmonischensignale in den gesprochenen und ungesprochenen Zeitblöcken in jedem Zeitrahmen (14, 118) zu bestimmen.
19. Sprachdecodierer (100) nach irgendeinem der Ansprüche 16 bis 18, wobei Signale von dem Sprachcodierer (18) bereitgestellt werden, um die Phasen der Frequenzsignale in jedem Zeitrahmen (14) zu repräsentieren, und die Transformationsdecodierungseinrichtung (142) ferner
gekennzeichnet ist durch
eine Einrichtung für die Wiederherstellung der Sprachsignale in jedem Zeitrahmen entsprechend der Stimmhöhenfrequenz und der Signale, welche die Amplituden und Phasen der Frequenzsignale in jedem Zeitrahmen (14) repräsentieren.
20. Sprachdecodierer (100) nach irgendeinem der Ansprüche 16 bis 19, wobei die Zeitrahmen (14) bei dem Sprachcodierer (18) sich überlappen, und die Transformationsdecodierungseinrichtung (142) ferner
dadurch gekennzeichnet ist, dass
die ungesprochene Syntheseeinrichtung (160) die Überlappung in aufeinander folgenden Zeitrahmen (14) beseitigt, um die Sprachsignale in einem kontinuierlichen Muster wiederherzustellen.
21. Verfahren der Codierung von eingegebenen Sprachsignalen mit einer Aufteilung (12) der Sprachsignale in aufeinander folgende Zeitrahmen (14), einer Schätzung (20) der Stimmhöhen der Sprachsignale in jedem der Zeitrahmen (14), einer Bereitstellung (22) einer Frequenztransformation der Sprachsignale in jedem der Zeitrahmen (14) und einer Bestimmung (26) der Amplitude und Phase der unterschiedlichen Frequenzkomponenten in dem Sprachsignal in jedem der Zeitrahmen (14) und einer Umwandlung dieser Bestimmungen in binäre Form, wobei der Schritt der Schätzung der Stimmhöhen in jedem der Zeitrahmen (14)
gekennzeichnet ist, durch
die Kombinierung (32, 36) der Sprachsignale in aufeinander folgenden Paaren von Zeitrahmen (14), um eine verbesserte Auflösung der Sprachsignale in jedem der Zeitrahmen (14) zu erreichen,
die Ermittlung (30, 34) einer Frequenztransformation der Sprachsignale in Frequenzsignale in jedem der aufeinander folgenden Paare von Zeitrahmen (14);
die Durchführung (38,70) einer Logarithmusberechnung der Größen der Frequenzsignale,
das Durchlassen (52) der Sprachsignale in jedem der aufeinander folgenden Paare der Rahmen in einem ersten, bestimmten Bereich von Frequenzen und für das Vorsehen einer zunehmenden Filterung solcher Sprachsignale für ansteigende Frequenzen oberhalb des ersten, bestimmten Bereichs in jedem der aufeinander folgenden Zeitrahmen, und
die Frequenztransformation (56) der Signale von dem Schritt des Durchlassens (52), um die Stimmhöhenfrequenz der Sprachsignale in jedem der aufeinander folgenden Paare der Zeitrahmen (14) zu bestimmen.
22. Verfahren der Codierung von eingegebenen Sprachsignalen nach Anspruch 21, wobei der Schritt der Schätzung der Stimmhöhen der Sprachsignale in jedem Zeitrahmen (14) ferner
gekennzeichnet ist durch
das Vorsehen (60) einer CEPSTRUM-Bestimmung der Sprachstimmhöhenfrequenz in den aufeinander folgenden Zeitrahmen (14), und
die Bestimmung (66) der Differenz in der Amplitude zwischen der Spitze (42) des Frequenzsignals und des Tals (44), das dem Frequenzsignal folgt.
23. Verfahren der Codierung von eingegebenen Sprachsignalen nach Anspruch 22, wobei der Schritt der Schätzung der Stimmhöhen in jedem der Zeitrahmen (14) ferner
gekennzeichnet ist durch
die Anwendung (80) heuristischer Techniken auf die CEPSTRUM-Bestimmung und die Differenz in der Amplitude zwischen einem Spitzenwert (42) des Frequenzsignals und einem nachfolgendem Tatwert (44) des Frequenzsignals für die Verfeinerung der Bestimmung der Sprachstimmhöhenfrequenz.
24. Verfahren der Codierung von eingegebenen Sprachsignalen nach Anspruch 23, wobei der Schritt der Anwendung (80) heuristischer Techniken auf die CEPSTRUM-Bestimmung und die Differenz in der Amplitude zwischen einem Spitzenwert (42) des Frequenzsignals und einem nachfolgendem Talwert (44) des Frequenzsignals für die Verfeinerung der Bestimmung der Sprachstimmhöhenfrequenz ferner
gekennzeichnet ist durch
die Bestimmung der Größe der Leistung bei niedrigen Frequenzen in der Sprache in aufeinander folgenden Zeitrahmen (14), und
die Bestimmung des Verhältnisses der kumulativen Größe der Leistung des niederfrequenten Signals relativ zu der kumulativen Größe der Leistung des hochfrequenten Signals in aufeinander folgenden Zeitrahmen (14).
25. Verfahren der Codierung von eingegebenen Sprachsignalen nach irgendeinem der Ansprüche 22 bis 24, wobei der Schritt der Schätzung der Stimmhöhen der Sprachsignale in jedem der Zeitrahmen (14) ferner
gekennzeichnet ist durch
die Auswahl einer bestimmten Anzahl von Signalen mit den höchsten Spitzenamplituden (62) in jedem der aufeinander folgenden Zeitrahmen (14), und
die Bestimmung (40) der Differenz in der Amplitude zwischen den Spitzenamplituden und den Tälern zwischen den Spitzenamplituden und der Spitzenamplitude der benachbarten Harmonischen in jedem der aufeinander folgenden Zeitrahmen (14), um die Bestimmung der Spitzenfrequenz durch die CEPSTRUM-Berechnungseinrichtung (60) zu verfeinern.
26. Verfahren der Codierung von eingegebenen Sprachsignalen nach irgendeinem der Ansprüche 22 bis 25, wobei der Schritt der Schätzung der Stimmhöhen der Sprachsignale in jedem der aufeinander folgenden Zeitrahmen (14) ferner
gekennzeichnet ist durch
die Bestimmung (60) des Ort und der Amplituden der Spitzen der Signale in aufeinander folgenden Zeitrahmen.
27. Verfahren der Codierung von eingegebenen Sprachsignalen nach irgendeinem der Ansprüche 25 bis 26, wobei der Schritt der Bestimmung (40) der Amplitudendifferenz zwischen den Spitzenamplituden und den Tälern zwischen den Spitzenamplituden und der Spitzenamplitude der benachbarten Harmonischen für die Verfeinerung der Bestimmung der Spitzenfrequenz durch die CEPSTRUM-Berechnungseinrichtung (60) ferner
gekennzeichnet ist durch
die Bestimmung der Stimmhöhenfrequenzen durch die Analyse des Abstands der Harmonischen in dem Stimmhöhenfrequenzbereich von Sprache mit niedriger Stimmhöhe, ob die Sprache eine niedrige oder eine hohe Stimmhöhe hat, und
die Bestimmung des Stimmhöhenfrequenzen in dem Stimmhöhenfrequenzbereich hoher Stimmhöhen durch die Analyse des Abstands der Harmonischen, wenn die Sprache eine hohe Stimmhöhe hat.
28. Verfahren der Codierung von eingegebenen Sprachsignalen nach irgendeinem der Ansprüche 25 bis 27, wobei der Schritt der Schätzung der Stimmhöhen der Sprachsignale in jedem der aufeinander folgenden Zeitrahmen (14) ferner
gekennzeichnet ist durch
die Verschiebung (46, 74) der Bestimmung der Stimmhöhenfrequenz von der logarithmischen Größenberechnungseinrichtung (38, 70, 68) um eine kleine Spanne oberhalb und unterhalb der bestimmten Stimmhöhenfrequenz, um eine optimale Anpassung an die Synthese der Harmonischen zu erreichen.
29. Verfahren der Codierung von eingegebenen Sprachsignalen nach Anspruch 28, wobei der Schritt der Schätzung der Stimmhöhen der Sprachsignale in jedem der aufeinander folgenden Zeitrahmen (14) ferner
gekennzeichnet ist durch
die Sammlung (48, 78) der Summe der Amplituden der ungeraden und geraden Harmonischen in den Frequenztransformationssignalen.
30. Verfahren der Codierung von eingegebenen Sprachsignalen nach irgendeinem der Ansprüche 21 bis 29, wobei der Schritt der Bestimmung (26) der Amplitude und der Phase der unterschiedlichen Frequenzkomponenten in dem Sprachsignal in jedem Zeitrahmen (14) und der Wandlung dieser Bestimmungen in binäre Form ferner
gekennzeichnet ist durch
die Erzeugung (86) von Paaren von Signalen für jede harmonische Frequenz, deren eines Signal die Amplitude und das andere Signal die Phase repräsentiert, und
die Umwandlung des Paars von Signalen in eine binäre Form für die Übertragung.
31. Verfahren der Codierung von eingegebenen Sprachsignalen nach Anspruch 30, wobei der Schritt der Erzeugung (86) von Paaren von Signalen für jede harmonische Frequenz, deren eines Signal die Amplitude und das andere Signal die Phase repräsentiert, ferner
gekennzeichnet ist durch
die Erzeugung eines Bereichs von Frequenzen mit einer Bandbreite von angenähert 4 kHz.
32. Verfahren der Codierung von eingegebenen Sprachsignalen nach Anspruch 30 oder 31, wobei der Schritt der Erzeugung (86) von Paaren von Signalen für jede harmonische Frequenz, deren eines Signal die Amplitude und das andere Signal die Phase repräsentiert, ferner
gekennzeichnet ist durch
die Bestimmung der Anordnung einer jeden Harmonischen in den Frequenzsignalen in individuellen Zeitblöcken einer Vielzahl von Zeitblöcken und in individuellen Gittern einer Vielzahl von Gittern innerhalb eines jeden Zeitblocks.
33. Verfahren der Codierung von eingegebenen Sprachsignalen nach Anspruch 32, wobei der Schritt der Erzeugung (86) von Paaren von Signalen für jede harmonische Frequenz, deren eines Signal die Amplitude und das andere Signal die Phase repräsentiert, ferner
gekennzeichnet ist durch
die Durchführung (94) einer Hamming = Fenster-Analyse und Frequenztransformation derart, dass ein Frequenzmuster für ein individuelles Gitter innerhalb des Zeitblocks erzeugt wird.
34. Verfahren der Codierung von eingegebenen Sprachsignalen nach irgendeinem der Ansprüche 30 bis 33, wobei der Schritt der Umwandlung des Paares von Signalen in binäre form für die Übertragung ferner
gekennzeichnet ist durch
die Bestimmung (102) des Frequenzbandes, in dem die Amplitude der Signale vorkommt,
die Durchführung (104) einer diskreten Kosinustransformation über einer begrenzten Anzahl von Harmonischen der Signale,
die Umwandlung (110) der diskreten Kosinustransformation in eine binäre Form,
die Umwandlung (120) der Phasensignale in ein binäres Format, und
die Erzeugung (130) binärer Bits, welche die Phasen für das Signal der unterschiedlichen Harmonischen in jedem der Zeitrahmen (14) repräsentiert.
35. Verfahren der Codierung von eingegebenen Sprachsignalen nach Anspruch 34, wobei der Schritt der Umwandlung des Paares von Signalen in binäre Form für die Übertragung ferner
gekennzeichnet ist durch
die Rekonstruktion (112) des diskreten Kosinustransformationssignals in eine Form, die mit den Frequenztransformationssignalen korrespondiert, und
die Korrelation (116) der Amplituden der Frequenztransformationssignale, der Frequenztransformation der Sprachsignale in jedem der Zeitrahmen (14) und der geschätzten Stimmhöhe der Sprachsignale in jedem der Zeitrahmen (14).
36. Verfahren der Sprachdecodierung (100) für die Wiedergewinnung von Sprachsignalen, die einem Sprachcodierer (18) zugeführt werden, wobei die Sprachsignale in aufeinander folgenden Zeitrahmen (14) verarbeitet werden, und wobei die Sprachsignale in jedem Zeitrahmen einer ersten Frequenztransformation (22) unterworfen werden, um Frequenzsignale in jedem Zeitrahmen zu erzeugen, und wobei Inversionssignale erzeugt werden, welche die Differenz zwischen der Spitzenamplitude der Frequenzsignale in jedem Zeitrahmen und der Amplitude der Frequenzsignale in solchen Zeitrahmen (20) darstellen, und wobei die Amplituden der Inversionssignale gestaucht werden, und wobei eine zweite Frequenztransformation über den gestauchten Signalen durchgeführt wird, und wobei die Amplituden der Signale in der zweiten Frequenztransformation in digitale Signale (26) umgewandelt werden, und das Verfahren umfasst: Empfang codierter Sprachsignale (140), Wiederherstellung der codierten Sprachsignale (142), welche die Stimmhöhenfrequenz und die Harmonischen repräsentieren, Vorsehen einer inversen Transformation (144), um die Signale in einer Zeitbereichsform wiederherzustellen, und Trennung der Signale in der Zeitbereichsform in Sprachsignale (146), wobei der Schritt der Wiederherstellung der codierten Sprachsignale (142), welche die Stimmhöhenfrequenz und die Harmonischen repräsentieren,
gekennzeichnet ist durch
die Decodierung (152) der Amplituden der Stimmhöhenfrequenz und der Harmonischen,
die Bestimmung (152) der Phasen für aufeinander folgende Harmonische in jedem Zeitrahmen,
die Wiederherstellung (154) der Harmonischen in jedem Zeitrahmen,
die Synthese (158) der transformierten Frequenzkoeffizienten durch Positionierung der Harmonischen und Multiplizieren der Harmonischen mit der Frequenztransformation, und
die Verarbeitung (160) ungesprochener Signale in den Frequenzschlitzen (118), um die Frequenzkomponenten in solchen Frequenzschlitzen wiederherzustellen.
37. Verfahren der Sprachdecodierung (100) nach Anspruch 36, wobei die Anzahl der Frequenzharmonischen in jedem Zeitrahmen in dem Sprachcodierer (18) auf einen bestimmten Wert eingeschränkt oder ausgeweitet wird durch Beseitigen oder Hinzufügen bestimmter Frequenzsignale bei hohen Frequenzen, und wobei der Schritt der Wiederherstellung (142) der codierten Sprachsignale, welche die Stimmhöhenfrequenz und die Harmonischen repräsentieren, ferner
dadurch gekennzeichnet ist, dass
die beschränkte Anzahl von Frequenzsignalen ausgeweitet wird.
38. Verfahren der Sprachdecodierung (100) entweder nach Anspruch 36 oder nach Anspruch 37, wobei der Sprachcodierer (18) gesprochene Signale in bestimmten Zeitblöcken in jedem Zeitrahmen (14) und ungesprochene Signale in anderen Zeitblöcken in jedem Zeitrahmen (188) vorsieht, und der Schritt der Wiederherstellung (142) der codierten Sprachsignale, welche die Stimmhöhenfrequenz und die Harmonischen repräsentieren, ferner
dadurch gekennzeichnet ist, dass
die Harmonischenwiederherstellungseinrichtung (154) die Signale synthetisiert, um die Amplituden der Harmonischensignale in den gesprochenen und ungesprochenen Zeitblöcken in jedem Zeitrahmen (14, 118) zu bestimmen.
39. Verfahren der Sprachdecodierung (100) nach irgendeinem der Ansprüche 36 bis 38, wobei Signale von dem Sprachcodierer (18) bereitgestellt werden, um die Phasen der Frequenzsignale in jedem Zeitrahmen (14) zu repräsentieren, und
der Schritt der Wiederherstellung (142) der codierten Sprachsignale, welche die Stimmhöhenfrequenz und die Harmonischen repräsentieren, ferner
gekennzeichnet ist durch
die Wiederherstellung der Sprachsignale in jedem Zeitrahmen entsprechend der Stimmhöhenfrequenz und der Signale, welche die Amplituden und Phasen der Frequenzsignale in jedem Zeitrahmen (14) repräsentieren.
40. Verfahren der Sprachdecodierung (100) nach irgendeinem der Ansprüche 36 bis 39, wobei die Zeitrahmen (14) bei dem Sprachcodierer (18) sich überlappen, und der Schritt der Wiederherstellung (142) der codierten Sprachsignale, welche die Stimmhöhenfrequenz und die Harmonischen repräsentieren, ferner
gekennzeichnet ist durch
die Beseitigung der Überlappung (160) in aufeinander folgenden Zeitrahmen (14), um die Sprachsignale in einem kontinuierlichen Muster wiederherzustellen.
DE69232904T 1991-10-25 1992-10-23 Sprachkodierer/-dekodierer und Kodierungs-/Dekodierungsverfahren Expired - Fee Related DE69232904T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US07/782,669 US5189701A (en) 1991-10-25 1991-10-25 Voice coder/decoder and methods of coding/decoding

Publications (2)

Publication Number Publication Date
DE69232904D1 DE69232904D1 (de) 2003-02-27
DE69232904T2 true DE69232904T2 (de) 2003-06-18

Family

ID=25126805

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69232904T Expired - Fee Related DE69232904T2 (de) 1991-10-25 1992-10-23 Sprachkodierer/-dekodierer und Kodierungs-/Dekodierungsverfahren

Country Status (3)

Country Link
US (1) US5189701A (de)
EP (1) EP0538877B1 (de)
DE (1) DE69232904T2 (de)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5787387A (en) * 1994-07-11 1998-07-28 Voxware, Inc. Harmonic adaptive speech coding method and system
JPH08211895A (ja) * 1994-11-21 1996-08-20 Rockwell Internatl Corp ピッチラグを評価するためのシステムおよび方法、ならびに音声符号化装置および方法
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US6591240B1 (en) * 1995-09-26 2003-07-08 Nippon Telegraph And Telephone Corporation Speech signal modification and concatenation method by gradually changing speech parameters
US6044147A (en) * 1996-05-16 2000-03-28 British Teledommunications Public Limited Company Telecommunications system
KR100217372B1 (ko) * 1996-06-24 1999-09-01 윤종용 음성처리장치의 피치 추출방법
IL120788A (en) * 1997-05-06 2000-07-16 Audiocodes Ltd Systems and methods for encoding and decoding speech for lossy transmission networks
US6240141B1 (en) 1998-05-09 2001-05-29 Centillium Communications, Inc. Lower-complexity peak-to-average reduction using intermediate-result subset sign-inversion for DSL
DE69932786T2 (de) * 1998-05-11 2007-08-16 Koninklijke Philips Electronics N.V. Tonhöhenerkennung
JP2002515610A (ja) * 1998-05-11 2002-05-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 位相変化からの雑音寄与度の決定に基づく音声符号化
KR100434538B1 (ko) * 1999-11-17 2004-06-05 삼성전자주식회사 음성의 천이 구간 검출 장치, 그 방법 및 천이 구간의음성 합성 방법
EP1143413A1 (de) * 2000-04-06 2001-10-10 Telefonaktiebolaget L M Ericsson (Publ) Schätzung der Grundfrequenz eines Sprachsignal mittels eines Durchschnitts- Abstands zwischen Spitzen
AU2001258298A1 (en) 2000-04-06 2001-10-23 Telefonaktiebolaget Lm Ericsson (Publ) Pitch estimation in speech signal
CN1216361C (zh) 2000-04-06 2005-08-24 艾利森电话股份有限公司 利用二进制信号估计语音信号的音调
US7397867B2 (en) * 2000-12-14 2008-07-08 Pulse-Link, Inc. Mapping radio-frequency spectrum in a communication system
US6937674B2 (en) * 2000-12-14 2005-08-30 Pulse-Link, Inc. Mapping radio-frequency noise in an ultra-wideband communication system
US6876965B2 (en) * 2001-02-28 2005-04-05 Telefonaktiebolaget Lm Ericsson (Publ) Reduced complexity voice activity detector
KR100347188B1 (en) * 2001-08-08 2002-08-03 Amusetec Method and apparatus for judging pitch according to frequency analysis
US7225135B2 (en) * 2002-04-05 2007-05-29 Lectrosonics, Inc. Signal-predictive audio transmission system
JP4451665B2 (ja) * 2002-04-19 2010-04-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声を合成する方法
CN1689070A (zh) * 2002-10-14 2005-10-26 皇家飞利浦电子股份有限公司 信号滤波
JP3963850B2 (ja) * 2003-03-11 2007-08-22 富士通株式会社 音声区間検出装置
US20050065787A1 (en) * 2003-09-23 2005-03-24 Jacek Stachurski Hybrid speech coding and system
WO2005094183A2 (en) * 2004-03-30 2005-10-13 Guy Fleishman Apparatus and method for digital coding of sound
KR100608062B1 (ko) * 2004-08-04 2006-08-02 삼성전자주식회사 오디오 데이터의 고주파수 복원 방법 및 그 장치
KR100750115B1 (ko) * 2004-10-26 2007-08-21 삼성전자주식회사 오디오 신호 부호화 및 복호화 방법 및 그 장치
KR100770839B1 (ko) * 2006-04-04 2007-10-26 삼성전자주식회사 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
KR100735343B1 (ko) * 2006-04-11 2007-07-04 삼성전자주식회사 음성신호의 피치 정보 추출장치 및 방법
KR100827153B1 (ko) * 2006-04-17 2008-05-02 삼성전자주식회사 음성 신호의 유성음화 비율 검출 장치 및 방법
CN105103230B (zh) * 2013-04-11 2020-01-03 日本电气株式会社 信号处理装置、信号处理方法、信号处理程序
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US9965685B2 (en) * 2015-06-12 2018-05-08 Google Llc Method and system for detecting an audio event for smart home devices
JP6758890B2 (ja) * 2016-04-07 2020-09-23 キヤノン株式会社 音声判別装置、音声判別方法、コンピュータプログラム
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
JP6891736B2 (ja) * 2017-08-29 2021-06-18 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
WO2019231632A1 (en) 2018-06-01 2019-12-05 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
WO2020061353A1 (en) 2018-09-20 2020-03-26 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
CN118803494A (zh) 2019-03-21 2024-10-18 舒尔获得控股公司 具有抑制功能的波束形成麦克风瓣的自动对焦、区域内自动对焦、及自动配置
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
US11303981B2 (en) 2019-03-21 2022-04-12 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
TW202101422A (zh) 2019-05-23 2021-01-01 美商舒爾獲得控股公司 可操縱揚聲器陣列、系統及其方法
TWI862596B (zh) 2019-05-31 2024-11-21 美商舒爾獲得控股公司 整合語音及雜訊活動偵測之低延時自動混波器
WO2021041275A1 (en) 2019-08-23 2021-03-04 Shore Acquisition Holdings, Inc. Two-dimensional microphone array with improved directivity
WO2021087377A1 (en) 2019-11-01 2021-05-06 Shure Acquisition Holdings, Inc. Proximity microphone
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
US11706562B2 (en) 2020-05-29 2023-07-18 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
JP2024505068A (ja) 2021-01-28 2024-02-02 シュアー アクイジッション ホールディングス インコーポレイテッド ハイブリッドオーディオビーム形成システム
EP4460983A1 (de) 2022-01-07 2024-11-13 Shure Acquisition Holdings, Inc. Audiostrahlformung mit nullungssteuerungssystem und verfahren

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3566035A (en) * 1969-07-17 1971-02-23 Bell Telephone Labor Inc Real time cepstrum analyzer
US4076960A (en) * 1976-10-27 1978-02-28 Texas Instruments Incorporated CCD speech processor
US4667340A (en) * 1983-04-13 1987-05-19 Texas Instruments Incorporated Voice messaging system with pitch-congruent baseband coding
AU2944684A (en) * 1983-06-17 1984-12-20 University Of Melbourne, The Speech recognition
CA1255802A (en) * 1984-07-05 1989-06-13 Kazunori Ozawa Low bit-rate pattern encoding and decoding with a reduced number of excitation pulses
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
US4827516A (en) * 1985-10-16 1989-05-02 Toppan Printing Co., Ltd. Method of analyzing input speech and speech analysis apparatus therefor
US4827517A (en) * 1985-12-26 1989-05-02 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech processor using arbitrary excitation coding
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
US5179626A (en) * 1988-04-08 1993-01-12 At&T Bell Laboratories Harmonic speech coding arrangement where a set of parameters for a continuous magnitude spectrum is determined by a speech analyzer and the parameters are used by a synthesizer to determine a spectrum which is used to determine senusoids for synthesis
CA1333425C (en) * 1988-09-21 1994-12-06 Kazunori Ozawa Communication system capable of improving a speech quality by classifying speech signals

Also Published As

Publication number Publication date
EP0538877B1 (de) 2003-01-22
EP0538877A3 (de) 1994-02-09
US5189701A (en) 1993-02-23
EP0538877A2 (de) 1993-04-28
DE69232904D1 (de) 2003-02-27

Similar Documents

Publication Publication Date Title
DE69232904T2 (de) Sprachkodierer/-dekodierer und Kodierungs-/Dekodierungsverfahren
DE3789476T2 (de) Digitaler Vocoder.
DE69518452T2 (de) Verfahren für die Transformationskodierung akustischer Signale
DE69006011T3 (de) Transformationscodierer, -decodierer und -codierer/decodierer mit niedriger bitrate für audio-anwendungen hoher qualität.
DE2934489C2 (de)
DE69915400T2 (de) Vorrichtung zur Kodierung und Dekodierung von Audiosignalen
DE69332057T2 (de) Digitalsignaldekodierungsvorrichtung
DE69623360T2 (de) Schätzung von Anregungsparametern
DE69521176T2 (de) Verfahren zur Dekodierung kodierter Sprachsignale
DE69331428T2 (de) Kodierung und Dekodierung digitaler Signale
DE69329511T2 (de) Verfahren und Einrichtung zum Unterscheiden zwischen stimmhaften und stimmlosen Lauten
DE69013738T2 (de) Einrichtung zur Sprachcodierung.
DE69614782T2 (de) Verfahren und Einrichtung zur Wiedergabe von Sprachsignalen und Verfahren zu seiner Übertragung
DE68916944T2 (de) Verfahren zur schnellen Bestimmung der Grundfrequenz in Sprachcodierern mit langfristiger Prädiktion.
DE69005010T2 (de) Einrichtung zur Sprachkodierung und -Dekodierung.
DE3883701T2 (de) Verfahren und Vorrichtung für multiplexierte Vektorquantifizierung.
DE69712230T2 (de) Verfahren und gerät zur frequenzdomäneabwärtsumsetzung mit zwangblockschaltung für audiodekoderfunktionen
DE112010005020B4 (de) Sprachsignal-Wiederherstellungsvorrichtung und Sprachsignal-Wiederherstellungsverfahren
DE60122397T2 (de) Frequenzinterpolationseinrichtung und Frequenzinterpolationsverfahren
DE3784942T2 (de) Duplex-datenuebertragung.
DE69425935T2 (de) Verfahren zur Unterscheidung zwischen stimmhaften und stimmlosen Lauten
EP1741039B1 (de) Informationssignalverarbeitung durch modifikation in der spektral-/modulationsspektralbereichsdarstellung
DE3736193C2 (de)
DE60017825T2 (de) Verfahren und Vorrichtung zur Kodierung und Dekodierung von Audiosignalen und Aufzeichnungsträger mit Programmen dafür
DE68921949T2 (de) System zur Kodierung eines Bildsignals.

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee