DE69631728T2

DE69631728T2 - Verfahren und Vorrichtung zur Sprachkodierung

Info

Publication number: DE69631728T2
Application number: DE69631728T
Authority: DE
Inventors: Jun Shinagawa-ku Matsumoto; Shiro Shinagawa-ku Omori; Masayuki Shinagawa-ku Nishiguchi; Kazuyuki Shinagawa-ku Iijima
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1995-10-26
Filing date: 1996-10-25
Publication date: 2005-02-10
Anticipated expiration: 2016-10-26
Also published as: EP1262956A3; TW321810B; AU7037396A; EP0770985B1; BR9605251A; DE69631728D1; US5819212A; DE69634645D1; AU725251B2; EP0770985A2; CN1154013A; EP0770985A3; KR970024629A; EP1262956A2; EP1262956B1; CN1096148C; DE69634645T2

Description

Diese Erfindung betrifft ein Verfahren und Gerät (Vorrichtung) zur Codierung eines Eingabesignals wie beispielsweise eines Breitbereich-Sprachsignals. Insbesondere betrifft sie ein Signalcodierungsverfahren und -gerät, bei dem das Frequenzspektrum in ein Telefonband, für das eine ausreichende Klarheit als Sprache erhalten werden kann, und das verbleibende Band geteilt ist, und bei dem eine Signalcodierung durch einen unabhängigen Codec (Codierer und Decodierer) realisiert werden kann, solange das Telefonband betroffen ist.
Es gibt eine Vielfalt von zur Komprimierung von Audiosignalen inklusive Sprachsignalen und akustischen Signalen bekannten Verfahren durch Ausnutzung statistischer Eigenschaften der Audiosignale und psychoakustischer Charakteristiken des Menschen. Die Codierungsverfahren können grob in eine Codierung auf der Zeitachse, Codierung auf der Frequenzachse und Analyse-Synthese-Codierung klassifiziert werden.
Unter den bekannten Techniken zur hocheffizienten Codierung für Sprachsignale oder dgl. gibt es eine Oberwellencodierung bzw. harmonische Codierung, eine sinusanalytische Codierung wie beispielsweise eine Mehrbandanregungscodierung (multi-band-excitation (MBE) encoding), eine Subbandcodierung (sub-band encoding (SBC)), eine Linearvorhersage- bzw. Linearprädiktivcodierung (linear predictive coding (LPC)), eine diskrete Cosinustransformation (discrete cosine transform (DCT)), eine modifizierte DCT (modified DCT (MDCT)) und eine schnelle Fourier-Transformation (fast Fourier transform (FFT)).
Es sind auch bisher eine Vielfalt von Codierungstechniken zum Teilen eines Eingabesignals vor der Codierung in mehrere Bänder bekannt gewesen. Da jedoch die Codierung für den niedrigeren Frequenzbereich durch das gleiche vereinheitliche Verfahren wie das für den höheren Frequenzbereich ausgeführt wird, gibt es Fälle, bei denen ein für die Niedrigfrequenzbereichssignale geeignetes Codierungsverfahren eine nur schlechte Codierungseffizienz für die Codierung der Hochfrequenzbereichsignale oder umgekehrt aufweist. Insbesondere kann gelegentlich nicht eine optimale Codierung ausgeführt werden, wenn das Signal mit einer niedrigen Bitrate übertragen wird.
Obgleich die nun in Gebrauch stehenden Signaldecodierungseinrichtungen ausgebildet sind, mit verschiedenen differenten Bitraten zu operieren bzw. arbeiten, ist es ungünstig, verschiedene bzw. differente Einrichtungen für die differenten Bitraten zu verwenden. Das heißt, es ist wünschenswert bzw. vorteilhaft, dass eine einzige Einrichtung Signale mehrerer differenter Bitraten codieren oder decodieren kann.
Indessen besteht neuerdings ein Bedürfnis dafür, dass ein Bitstrom selbst eine Skalierbarkeit derart aufweist, dass ein Bitstrom, der eine hohe Bitrate aufweist, empfangen wird, und, wenn der Bitstrom direkt codiert wird, Qualitäts- bzw. Hochqualitätssignale erzeugt werden, während wenn ein spezifizierter Abschnitt des Bitstroms decodiert wird, Signale einer niedrigen Tonqualität erzeugt werden.
Bislang wird ein zu verarbeitendes Signal auf der Codierungsseite grob quantisiert, um einen Bitstrom mit einer niedrigen Bitrate zu erzeugen. Für diesen Bitstrom wird der bei der Quantisierung erzeugte Quantisierungsfehler weiter quantisiert und zum Bitstrom der niedrigen Bitrate addiert, um einen Hochbitraten-Bitstrom zu erzeugen. In diesem Fall kann, wenn das Codierungsverfahren im Wesentlichen das gleiche bleibt, der Bitstrom eine wie oben beschriebene Skalierbarkeit aufweisen, das heißt, ein Hochqualitätssignal kann durch direkte Decodierung des Hochbitraten-Bitstroms erhalten werden, während ein Niedrigbitratensignal durch Entfernen bzw. Entnehmen und Decodieren eines Abschnitts des Bitstroms wiedergegeben werden kann.
Jedoch kann die vorstehend erwähnte vollständige Inklusivrelation nicht leicht gebildet werden, wenn gewünscht wird, die Sprache bei beispielsweise drei Bitraten von 2 kbps, 6 kbps und 16 kbps zu codieren, während die Skalierbarkeit aufrechterhalten wird.
Das heißt, zur Codierung mit einer so hohen Signalqualität wie möglich wird vorzugsweise eine Wellenformcodierung mit einer hohen Bitrate ausgeführt. Wenn eine Wellenformcodierung nicht stufenlos bzw. glatt erreicht werden kann, muss die Codierung unter Verwendung eines Modells für eine niedrige Bitrate ausgeführt werden. Die vorstehende Inklusivrelation, bei der die hohe Bitrate die niedrige Bitrate enthält, kann wegen der Differenz in der Information für die Codierung nicht erreicht werden.
EP-A-0 396 121, auf welcher der Oberbegriff des Anspruchs 1 basiert, offenbart ein Verfahren und Gerät zur Codierung von Weitband-Audiosignalen. Das zu codierende Signal wird in zwei Subbänder gespalten. Jedes Subband weist einen Codierer auf, der entsprechend Analyse-durch-Synthese-Techniken arbeitet.
Es ist deshalb eine Aufgabe der wie in den Ansprüchen 1 – 10 beanspruchten vorlirgenden Erfindung, ein Sprachcodierungsverfahren und -gerät bereitzustellen, bei dem, bei einem Bandaufspalten bzw. -teilen zur Codierung, die Wiedergabesprache mit einer hohen Qualität mit einer kleineren Zahl von Bits erzeugt werden kann, und eine Signalcodierung für ein voreingestelltes Band wie beispielsweise ein Telefonband durch einen unabhängigen Codec realisiert werden kann.
Es ist eine andere Aufgabe der vorliegenden Erfindung, ein Verfahren zum Multiplexen codierter Signale, in denen mehrere Signale, die wegen einer signifikanten Differenz in den Bitraten durch das gleiche Verfahren nicht codiert werden können, adaptiert sind, um zur Sicherstellung von Skalierbarkeit soviel gemeinsame Information wie möglich und durch im Wesentlichen verschiedene bzw. differente Verfahren codiert zu haben, bereitzustellen.
Es ist noch eine andere Aufgabe der vorliegenden Erfindung, ein Signalcodierungsgerät bereitzustellen, welches das Multiplexverfahren zum Multiplexen des codierten Signals verwendet.
Unter einem Aspekt ist ein Signalcodierungsgerät bereitgestellt, das aufweist:

eine Bandteilungseinrichtung zum Aufspalten bzw. Teilen eines Eingabesignals in mehrere Frequenzbänder zur Bereitstellung mehrerer geteilter Frequenzbänder, und
eine Codierungseinrichtung zum Codieren von Signalen jedes der mehreren Frequenzbänder in auf jeweilige Signalcharakteristiken jedes der mehreren Frequenzbänder reagierenden jeweiligen Weisen, dadurch gekennzeichnet, dass
die Codierungseinrichtung zusätzlich zum Multiplexen eines ersten Signals eines der mehreren geteilten Frequenzbänder und eines Abschnitts eines zweiten Signals eines anderen der mehreren Frequenzbänder, das nicht gemeinsam mit dem ersten Signal ist, ist.

Das Eingabesignal wird in mehrere Bänder geteilt, und Signale der auf diese Weise geteilten Bänder sind abhängig von Signalcharakteristiken der geteilten Bänder auf differente Weise codiert. Auf diese Weise ist eine Decodiereroperation mit differenten Raten ermöglicht, und eine Codierung kann für jedes Band mit einer optimalen Effizienz ausgeführt und so die Codierungseffizienz verbessert werden.
Durch Ausführen einer kurzfristigen Vorhersage bzw. Prädiktion (short-term prediction) bei den Signalen eines niedrigerseitigen der Bänder zum Finden von kurzfristigen Prädiktionsresten, Ausführen einer langfristigen Prädiktion (long-term prediction) bei den so gefundenen kurzfristigen Prädiktionsresten und durch Orthogonaltransformieren der so gefundenen langfristigen Prädiktionsreste können eine höhere Codierungseffizienz und eine wiedergegebene Sprache überragender Qualität erreicht werden.
Auch wird gemäß der vorliegenden Erfindung wenigstens ein Band des Eingabesignals entnommen, und das Signal des so entnommenen Bandes wird in ein Frequenzbereichssignal orthogonaltransformiert. Das orthogonal transformierte Signal wird auf der Frequenzachse zu einer anderen Position oder einem anderen Band verschoben und danach in Zeitbereichssignale, die codiert werden, invers orthogonaltransformiert. Auf diese Weise wird das Signal eines beliebigen Frequenzbandes entnommen und in eine Niedrigbereichseite zur Codierung mit einer niedrigen Abtastfrequenz umgewandelt.
Außerdem kann ein Subband einer beliebigen Frequenzweite von einer beliebigen Frequenz erzeugt werden, um mit einer Abtastfrequenz zweimal die Frequenzweite verarbeitet zu werden und so eine mit Flexibilität zu behandelnde Anwendung zu ermöglichen.
Die vorliegende Erfindung wird aus der nur beispielhaft gegebenen folgenden Beschreibung klarer verstanden, bei Bezugnahme auf die beigefügten Zeichnungen, in denen:
1 ein Blockschaltbild ist, das eine grundlegende Struktur eines Sprachsignalscodierungsgeräts zur Ausführung des die vorliegende Erfindung verkörpernden Codierungsverfahrens zeigt;
2 ein Blockschaltbild zur Illustration der grundlegenden Struktur des Sprachsignaldecodierungsverfahrens ist;
3 ein Blockschaltbild der Struktur eines anderen Sprachsignalcodierungsgeräts ist;
4 eine Skalierbarkeit eines Bitstroms übertragener codierter Daten illustriert;
5 ein schematisches Blockschaltbild ist, welches das ganze System der Codierungsseite gemäß der vorliegenden Erfindung zeigt;
6A, 6B und 6C die Periode und die Phase von Hauptoperationen zur Codierung und Decodierung illustrieren;
7A und 7B eine Vektorquantisierung von MDCT-Koeffizienten illustrieren;
8A und 8B Beispiele von Fenstertechnikfunktionen illustrieren, die auf eine Nachfilterausgabe angewendet werden;
9 eine illustrative Vektorquantisierungseinrichtung zeigt, die zwei Arten von Codebüchern aufweist;
10 ein Blockschaltbild ist, das eine detaillierte Struktur eines Vektorquantisierungsgeräts zeigt, das zwei Arten von Codebüchern aufweist;
11 ein Blockschaltbild ist, das eine andere detaillierte Struktur eines Vektorquantisierungsgeräts zeigt, das zwei Arten von Codebüchern aufweist;
12 ein Blockschaltbild ist, das die Struktur eines Codierers zur Frequenzumwandlung zeigt;
13A, 13B Rahmenteilungs- und Überlapp-und-Addier-Operationen illustrieren;
14A, 14B und 14C ein Beispiel einer Frequenzverschiebung auf der Frequenzachse illustrieren;
15A und 15B eine Datenverschiebung auf der Frequenzachse illustrieren;
16 ein Blockschaltbild ist, das die Struktur eines Decodierers zur Frequenzumwandlung zeigt;
17A und 17C ein anderes Beispiel einer Frequenzverschiebung auf der Frequenzachse illustrieren;
18 ein Blockschaltbild ist, das die Struktur einer Übertragungsseite eines ein Sprachcodierungsgerät der vorliegenden Erfindung anwendenden portablen bzw. tragbaren Endgeräts zeigt;
19 ein Blockschaltbild ist, das die Struktur einer Empfangsseite eines ein der 18 zugeordnetes Sprachsignaldecodierungsgerät anwendenden portablen bzw, tragbaren Endgeräts zeigt.
Bevorzugte Ausführungsformen der vorliegenden Erfindung werden nun im Detail erläutert.
1 zeigt ein Codierungsgerät (Codierer) für Breitbereich-Sprachsignale zur Ausführung des Sprachcodierungsverfahrens gemäß der vorliegenden Erfindung.
Das grundlegende Konzept des in 1 gezeigten Codierers ist, dass das Eingabesignal in mehrere Bänder gesplittet bzw. aufgespalten bzw. geteilt wird und die Signale der geteilten Bänder in einer von Signalcharakteristiken der jeweiligen Bänder abhängigen differenten Weise codiert werden. Insbesondere wird das Frequenzspektrum der Breitbereich- Eingabesprachsignale in mehrere Bänder geteilt, nämlich in das Telefonband, für das ausreichende Klarheit als Sprache erreicht werden kann, und ein Band auf der relativ zum Telefonband höheren Seite. Die Signale des niedrigeren Bandes, das heißt des Telefonbands, werden nach einer kurzfristigen Prädiktion wie beispielsweise einer Linearprädiktivcodierung (LPC), gefolgt von einer langfristigen Prädiktion wie beispielsweise einer Tonhöhenprädiktion orthogonaltransformiert, und die bei der orthogonalen Transformation erhaltenen Koeffizienten werden mit einer wahrnehmungsgewichteten bzw. perzeptiv gewichteten Vektorquantisierung verarbeitet. Die Information betreffend die langfristige Prädiktion, beispielsweise Tonhöhe oder Ton- bzw. Tonhöhenverstärkung, oder die kurzfristigen Prädiktionskoeffizienten darstellende Parameter, beispielsweise die LPC-Koeffizienten, werden auch quantisiert. Die Signale des Bandes höher als das Telefonband werden mit kurzfristiger Prädiktion verarbeitet und dann direkt auf der Zeitachse vektorquantisiert.
Die modifizierte DCT (MDCT) wird als die orthogonale Transformation verwendet. Die Umwandlungslänge wird zur Erleichterung einer Gewichtung zur Vektorquantisierung gekürzt. Außerdem wird die Umwandlungslänge auf 2^N eingestellt, das heißt auf einen Wert gleich Potenzen von 2, um eine hohe Verarbeitungsgeschwindigkeit durch Anwendung einer schnellen Fourier-Transformation (FFT) zu ermöglichen. Die LPC-Koeffzienten zur Berechnung der Gewichtung zur Vektorquantisierung der Orthogonaltransformationskoeffizienten und zur Berechnung der Reste zur kurzfristigen Prädiktion (ähnlich für ein Nachfilter) sind die von den im laufenden Rahmen gefundenen und den im vergangenen Rahmen gefundenen LPC-Koeffizienten glatt interpolierten LPC-Koeffizienten, so dass die verwendeten LPC-Koeffizienten für jeden analysierten Subrahmen ein Optimum bzw. optimal sind. Bei Ausführung der langfristigen Prädiktion wird eine Prädiktion oder Interpolation für jeden Rahmen eine Zahl von Malen ausgeführt, und die resultierende Tonhöhenverzögerung bzw. der resultierende Tonhöhenversatz oder die Tonhöhenverstärkung wird direkt oder nach Finden der Differenz quantisiert. Alternativ dazu wird ein das Verfahren zur Interpolation spezifizierendes Kennzeichen übertragen. Für Prädiktionsreste, deren Varianz mit einer zunehmenden Zahl von Malen (Häufigkeit bzw. Frequenz) einer Prädiktion kleiner wird, wird eine Mehrstufen-Vektorquantisierung zur Quantisierung der Differenz der Orthogonaltransformationskoeffizienten ausgeführt. Alternativ dazu werden nur die Parameter für ein einzelnes Band unter den geteilten Bändern verwendet, um mehrere Decodierungsoperationen mit differenten Bitraten durch den ganzen oder einen Teil eines einzelnen codierten Bitstroms zu ermöglichen.
Es wird auf 1 Bezug genommen.
Einem Eingangsanschluss 101 der 1 werden Breitband-Sprachsignale in einem Bereich beispielsweise von 0 bis 8 kHz mit einer Abtastfrequenz Fs von beispielsweise 16 kHz zugeführt. Die Breitband-Sprachsignale vom Eingangsanschluss 101 werden von einem Tiefpassfilter 102 und einem Subtrahierer 106 in Niedrigbereich-Telefonbandsignale von beispielsweise 0 bis 3,8 kHz und Hochbereichsignale wie beispielsweise Signale in einem Bereich beispielsweise von 3,8 kHz bis 8 kHz aufgespalten bzw. geteilt. Die Niedrigbereichsignale werden durch einen Abtastfrequenzwandler 103 in einen das Abtasttheorem erfüllenden Bereich dezimiert, um beispielsweise 8 kHz-Abtastsignale bereitzustellen.
Die Niedrigbereichssignale werden durch eine LPC-Analysequantisierungseinheit 130 mit einem Hamming-Fenster mit einer Analyselänge in der Ordnung von beispielsweise 256 Abtastwerten bzw. Samples pro Block multipliziert. Die LPC-Koeffizienten von beispielsweise einer Ordnung 10, das heißt α-Parameter, werden gefunden, und LPC-Reste werden von einem LPC-Invertiertfilter 111 gefunden. Während dieser LPC-Analyse werden 96 von 256 Samples jedes Blocks, der als eine Einheit zur Analyse fungiert, mit dem nächsten Block überlappt, so dass das Rahmenintervall gleich 160 Samples wird. Dieses Rahmenintervall beträgt 20 ms für eine 8 kHz-Abtastung. Eine LPC-Analysequantisierungseinheit 130 wandelt die α-Parameter als LPC-Koeffizienten in Linearspektralpaar-Parameter (LSP-Parameter) um, die dann quantisiert und übertragen werden.
Insbesondere wendet eine LPC-Analyseschaltung 132 in der LPC-Analysequantisierungseinheit 130, der die Niedrigbereichsignale vom Abtastfrequenzwandler 103 zugeführt wird, ein Hamming-Fenster auf die Eingabesignalwellenform mit der Länge der Ordnung von 256 Samples der Eingabesignalwellenform als ein einzelner Block an, um Linearprädiktionskoeffizienten, die sogenannte α-Parameter sind, durch ein Autokorrelationsverfahren zu finden. Das Rahmenbildungsintervall als eine Datenausgabeeinheit ist beispielsweise 20 ms oder 160 Samples.
Die α-Parameter von der LPC-Analyseschaltung 132 werden zu einer α-LSP-Umwandlungsschaltung 133 zur Umwandlung in Linearspektralpaar-Parameter (LSP-Parameter) gesendet. Das heißt, die als Direkttyp-Filterkoeffizienten gefundenen α-Parameter werden in beispielsweise 10 LSP-Parameter oder 5 Paare von LSP-Parametern umgewandelt. Diese Umwandlung wird unter Verwendung beispielsweise des Newton-Rhapson-Verfahrens ausgeführt. Der Grund für die Umwandlung in die LSP-Parameter ist, dass die LSP-Parameter in Interpolationscharakteristiken den übergeordnet α-Parametern sind.
Die LSP-Parameter von der α-LSP-Umwandlungsschaltung 133 werden von einem LSP-Quantisierer 134 vektor- oder matrixquantisiert. Die Vektorquantisierung kann nach einem Finden der Interrahmendifferenz ausgeführt werden, während eine Matrixquantisierung bei mehreren zusammengruppierten Rahmen ausgeführt werden kann. Bei der vorliegenden Ausführungsform sind 20 ms ein einzelner Rahmen, und zwei Rahmen der jeweils alle 20 ms berechneten LSP-Parameter werden zusammengruppiert und durch eine Matrixquantisierung quantisiert.
Eine Quantisierungsausgabe des LSP-Quantisierers 134, das heißt die Indizes des LSP-Vektorquantisierung, wird über einen Anschluss 131 ausgegeben, während quantisierte LSP-Parameter oder ent- bzw. dequantisierte Ausgaben zu einer LSP-Interpolationsschaltung 136 gesendet werden.
Die Funktion der LSP-Interpolationsschaltung 136 ist, einen Satz aus dem laufenden Rahmen und einem vorhergehenden Rahmen der vom LSP-Quantisierer 134 alle 20 ms vektorquantisierten LSP-Vektoren zu interpolieren, um eine zur nachfolgenden Verarbeitung erforderliche Rate bereitzustellen. Bei der vorliegenden Ausführungsform werden eine Achtertupel- bzw. Oktotupel-Rate und eine Fünfertupel- bzw. Quintupel-Rate verwendet. Mit der Oktotupel-Rate werden die LSP-Parameter alle 2,5 ms aktualisiert. Der Grund ist, dass, da eine Analyse-Synthese-Verarbeitung der Restwellenform zu einer extrem glatten Wellenform der Enveloppe der synthetisierten Wellenform führt, externe Töne erzeugt werden können, wenn die LPC-Koeffizienten alle 20 ms schnell geändert werden. Das heißt, wenn die LPC-Koeffizienten alle 2,5 ms graduell geändert werden, kann verhindert werden, dass solche externen Töne erzeugt werden.
Zur invertierten Filterung der Eingabesprache unter Verwendung der alle 2,5 ms auftretenden interpolierten LSP-Vektoren werden die LSP-Parameter von einer LSP-in-α-Umwandlungsschaltung 137 in α-Parameter umgewandelt, welche die Koeffizienten des Direkttypfilters von beispielsweise annähernd 10 Ordnungen sind. Eine Ausgabe der LSP-in-α-Umwandlungsschaltung 137 wird zu einer LPC-Invertiertfilterschaltung 111 zum Finden der LPC-Reste gesendet. Die LPC-Invertiertfilterschaltung 111 führt bei den alle 2,5 ms aktualisierten α-Parametern eine invertierte Filterung zur Erzeugung einer glatten Ausgabe aus.
Die LSP-Koeffizienten bei einem Intervall von 4 ms, von der LSP-Interpolationsschaltung 136 bei einer Quintupelrate interpoliert, werden zu einer LSP-in-α-Umwandlungsschaltung 138 gesendet, wo sie in α-Parameter umgewandelt werden. Diese α-Parameter werden zu einer Vektorquantisierungs-Gewichtungsberechnungsschaltung (VQ-Gewichtungsberechnungsschaltung) 139 zur Berechnung der zur Quantisierung von MDCT-Koeffizienten verwendeten Bewertung bzw. Gewichtung gesendet.
Eine Ausgabe des LPC-Invertiertfilters 111 wird zu Tonhöhen-Invertiertfiltern 112, 122 zur Tonhöhenvorhersage bzw. -prädiktion zur langfristigen Prädiktion gesendet.
Die langsfristige Prädiktion bzw. Langfristprädiktion wird nun erläutert. Die Langsfristprädiktion wird durch Finden der Tonhöhenprädiktionsreste durch Subtrahieren von der originalen Wellenform die auf der Zeitachse in einem mit dem Tonhöhenversatz oder der Tonhöhenperiode, wie sie durch die Tonhöhenanalyse gefunden wird, korrespondierenden Betrag verschobenen Wellenform ausgeführt. Bei der vorliegenden Ausführungsform wird die Langfristprädiktion durch eine Dreipunkt-Tonhöhenprädiktion ausgeführt. Indessen bedeutet der Tonhöhenversatz die Zahl von mit der Tonhöhenperiode der abgetasteten Zeitbereichsdaten korrespondierenden Samples.
Das heißt, die Tonhöhenanalyseschaltung 115 führt eine Tonhöhenanalyse einmal für jeden Rahmen, das heißt mit der Analyselänge eines einzelnen Rahmens, aus. Von den Resultaten der Tonhöhenanalyse wird ein Tonhöhenversatz L1 zum Tonhöhen-Invertiertfilter 112 und zu einem Ausgangsanschluss 142 gesendet, während eine Tonhöhenverstärkung zu einer Tonhöhenverstärkungs-Vektorquantisierungsschaltung (Tonhöhenverstärkung-VQ-Schaltung) 116 gesendet wird. In der Tonhöhenverstärkung-VQ-Schaltung 116 werden die Tonhöhenverstärkungswerte bei drei Punkten der Dreipunkt-Prädiktion vektorquantisiert, und ein Codebuchindex g₁ wird bei einem Ausgangsanschluss 143 entnommen, während ein Repräsentativwertvektor oder eine Dequantisierungsausgabe zu jedem vom Invertierttonhöhenfilter 115, einem Subtrahierer 117 und einem Addierer 127 gesendet wird. Das Invertierttonhöhenfilter 112 gibt einen Tonhöhenprädiktionsrest der Dreipunkt-Prädiktion auf der Basis der Resultate der Tonhöhenanalyse aus. Der Prädiktionsrest wird zu beispielsweise einer MDCT-Schaltung 113 als Orthogonaltransformationseinrichtung gesendet. Die resultierende MDCT-transformierte Ausgabe wird mit einer wahrnehmungsgewichteten bzw. perzeptiv gewichteten Vektorquantisierung durch eine Vektorquantisierungsschaltung (VQ-Schaltung) 114 quantisiert. Die MDCT-transformierte Ausgabe wird mit einer perzeptiv bewerteten bzw. gewichteten Vektorquantisierung durch die Vektorquantisierungsschaltung (VQ-Schaltung) 114 durch eine Ausgabe der VQ-Gewichtungsberechnungsschaltung 139 quantisiert.
Eine Ausgabe der VQ-Schaltung 114, das heißt ein Index IdxVq₁, wird an einem Ausgangsanschluss 141 ausgegeben.
Bei der vorliegenden Ausführungsform sind ein Tonhöheninvertiertfilter 122, eine Tonhöhenanalyseschaltung 124 und eine Tonhöhenverstärkungs-VQ-Schaltung 126 als ein separater Tonhöhenprädiktionskanal vorgesehen. Das heißt, ein Analysezentrum ist bei einer Zwischenposition jedes Tonhöhenanalysezentrums vorgesehen, so dass eine Tonhöhenanalyse durch eine Tonhöhenanalyseschaltung 125 bei einer halben Rahmenperiode ausgeführt wird. Die Tonhöhenanalyseschaltung 125 leitet einen Tonhöhenversatz L₂ zum Invertierttonhöhenfilter 122 und zu einem Ausgangsanschluss 145, während die Tonhöhenverstärkung zu einer Tonhöhenverstärkungs-VQ-Schaltung 126 geleitet wird. Die Tonhöhenverstärkungs-VQ-Schaltung 126 vektorquantisiert den Dreipunkt-Tonhöhenverstärkungsvektor und sendet einen Index g₂ der Tonhöhenverstärkung als eine Quantisierungsausgabe an einen Ausgangsanschluss 144, während ihr repräsentativer Vektor oder eine Dequantisierungsausgabe zu einem Subtrahierer 117 geleitet wird. Da die Tonhöhenverstärkung beim Analysezentrum der originalen Rahmenperiode als nahe bei der Tonhöhenverstärkung von der Tonhöhenverstärkungs-VQ-Schaltung 116 angenommen ist, wird eine Differenz zwischen Dequantisierungsausgaben der Tonhöhenverstärkungs-VQ-Schaltungen 116, 126 von einem Subtrahierer 117 als eine Tonhöhenverstärkung bei der obigen Analysezentrumsposition genommen. Diese Differenz wird von einer Tonhöhenverstärkungs-VQ-Schaltung 118 vektorquantisiert, um einen Index g_1d der Tonhöhenverstärkungsdifferenz zu erzeugen, der zu einem Ausgangsanschluss 146 gesendet wird. Der repräsentative Vektor oder die dequantisierte Ausgabe der Tonhöhenverstärkungsdifferenz wird zu einem Addierer 127 gesendet und zum repräsentativen Vektor oder zur dequantisierten Ausgabe aus der Tonhöhenverstärkungs-VQ-Schaltung 126 summiert. Die resultierende Summe wird als Tonhöhenverstärkung zum Invertierttonhöhenfilter 122 gesendet. Indessen ist der Index g₂ der am Ausgangsanschluss 143 erhaltenen Tonhöhenverstärkung ein Index der Tonhöhenverstärkung bei der oben erwähnten Mittelposition. Die Tonhö henprädiktionsreste vom Invertierttonhöhenfilter 122 werden von einer MDCT-Schaltung 123 MDCT-transformiert und zu einem Subtrahierer 128 gesendet, wo der repräsentative Vektor oder die dequantisierte Ausgabe aus der Vektorquantisierungsschaltung (VQ-Schaltung) 114 von der MDCT-transformierten Ausgabe subtrahiert wird. Die resultierende Differenz wird zur VQ-Schaltung 124 zur Vektorquantisierung gesendet, um einen Index IdxVq2 zu erzeugen, der zu einem Ausgangsanschluss 147 gesendet wird. Diese VQ-Schaltung quantisiert das Differenzsignal durch eine perzeptiv gewichtete Vektorquantisierung mit einer Ausgabe einer VQ-Gewichtungsberechnungsschaltung 139.
Die Hochbereichssignalverarbeitung wird nun erläutert.
Die Signalverarbeitung für die Hochbereichssignale besteht grundsätzlich in einem Teilen (Splitting) des Frequenzspektrums der Eingabesignale in mehrere Bänder, einer Frequenzumwandlung des Signals wenigstens eines einzelnen Hochbereichbandes zur Niedrigbereichseite, einer Erniedrigung der Abtastrate der zur Niedrigfrequenzseite umgewandelten Signale und einer Codierung der in der Abtastrate erniedrigten Signale durch prädiktive Codierung.
Das dem Eingangsanschluss 101 der 1 zugeführte Breitbereichsignal wird dem Subtrahierer 106 zugeführt. Das vom Tiefpassfilter (TPF)) 102 ausgegebene Niedrigbereichseitesignal wie beispielsweise das Telefonbandsignal in einem Bereich beispielsweise von 0 bis 3,8 kHz wird vom Breitbandsignal subtrahiert. Infolgedessen gibt der Subtrahierer 106 ein Hochbereichseitesignal wie beispielsweise ein Signal in einem Bereich von beispielsweise von 3,8 bis 8 kHz aus. Jedoch aufgrund von Charakteristiken des tatsächlichen TPF 102 werden die Komponenten niedriger als 3,8 kHz in einem kleinen Betrag in der Ausgabe des Subtrahierers 106 belassen. Infolgedessen wird die Hochbereichseitesignalverarbeitung bei den Komponenten nicht niedriger als 3,5 kHz oder Komponenten nicht niedriger als 3,4 kHz ausgeführt.
Dieses Hochbereichsignal weist eine Frequenzweite von 3,5 kHz bis 8 kHz vom Subtrahierer 106, das heißt eine Weite von 4,5 kHz auf. Da jedoch die Frequenz beispielsweise durch Niederabtasten zu einer Niedrigbereichseite verschoben oder umgewandelt wird, ist es notwendig, den Frequenzbereich auf beispielsweise 4 kHz zu schmälern. Unter Berücksichtigung, dass das Hochbereichsignal später mit dem Niedrigbereichsignal kombiniert wird, wird der wahrnehmungssensitive bzw. perzeptiv sensitive Bereich von 3,5 kHz bis 4 kHz nicht abgeschnitten, und der 0,5 kHz-Bereich von 7,5 kHz bis 8 kHz, der in der Leistung niedriger und psychoakustisch weniger kritisch als Sprachsignale ist, wird vom TPF oder dem Bandpassfilter 107 abgeschnitten.
Die Frequenzumwandlung zur Niedrigbereichseite, die dann ausgeführt wird, wird durch Umwandlung der Daten in Frequenzbereichsdaten unter Verwendung einer Orthogonaltransformationseinrichtung wie beispielsweise einer schnellen Fourier-Transformationsschaltung (FFT-Schaltung) 161, Verschieben der Frequenzbereichsdaten durch eine Frequenzverschiebeschaltung 162 und durch inverses FFT-Transformieren der resultierenden frequenzverschobenen Daten durch eine inverse FFT-Schaltung 164 als inverse Orthogonaltransformationseinrichtung realisiert.
Von der inversen FFT-Schaltung 164 wird die Hochbereichseite des Eingabesignals, beispielsweise das von 3,5 kHz bis 7,5 kHz reichende, in eine Niedrigbereichsseite von 0 bis 4 kHz umgewandelte Signal, entnommen. Da die Abtastfrequenz dieses Signals durch 8 kHz repräsentiert werden kann, wird sie von einer Niederabtastschaltung 164 niederabgetastet, um ein Signal eines Bereichs von 3,5 kHz bis 7,5 kHz mit der Abtastfrequenz von 8 kHz zu bilden. Eine Ausgabe der Niederabtastschaltung 164 wird zum LPC-Invertiertfilter 171 und zu einer LPC-Analyseschaltung 182 einer LPC-Analysequantisierungseinheit 180 jeweils gesendet.
Die LPC-Analysequantisierungseinheit 180, die ähnlich konfiguriert ist wie die LPC-Analysequantisierungseinheit 130 der Niedrigbereichseite, wird nun nur kurz erläutert.
In der LPC-Analysequantisierungseinheit 180 wendet die LPC-Analyseschaltung 182, der ein Signal von der Niederab tastschaltung 164, das in den Niedrigbereich umgewandelt ist, zugeführt wird, ein Hamming-Fenster mit einer Länge der Ordnung von 256 Samples der Eingabesignalwellenform als ein einzelner Block an und findet Linearprädiktionskoeffizienten, das heißt α-Parameter, durch beispielsweise ein Autokorrelationsverfahren. Die α-Parameter von der LPC-Analyseschaltung 182 werden zu einer α-zu-LSP-Umwandlungsschaltung 183 zur Umwandlung in Linearspektralpaar-Parameter (LSP-Parameter) gesendet. Die LSP-Parameter von der α-in-LSP-Umwandlungsschaltung 183 werden von einem LSP-Quantisierer 184 vektor- oder matrixquantisiert. Zu dieser Zeit kann eine Interrahmendifferenz vor der Vektorquantisierung gefunden werden. Alternativ dazu können mehrere Rahmen zusammengruppiert und durch Matrixquantisierung quantisiert werden. Bei der vorliegenden Ausführungsform werden die LSP-Parameter, berechnet alle 20 ms, vektorquantisiert, mit 20 ms als ein einzelner Rahmen.
Eine Quantisierungsausgabe des LSP-Quantisierers 184, das heißt ein Index LSPidx_H, wird bei einem Anschluss 181 entnommen, während ein quantisierter LSP-Vektor oder die dequantisierte Ausgabe zu einer LSP-Interpolationsschaltung 186 gesendet wird.
Die Funktion der LSP-Interpolationsschaltung 186 ist, einen Satz aus dem vorhergehenden Rahmen und dem laufenden Rahmen der LSP-Vektoren, die vom LSP-Quantisierer 184 alle 20 ms vektorquantisiert sind, zu interpolieren, um eine zur nachfolgenden Verarbeitung notwendige Rate bereitzustellen. Bei der vorliegenden Ausführungsform wird die Vierertupel- bzw. Quadrupelrate verwendet.
Zur invertierten Filterung des Eingabesprachsignals unter Verwendung der interpolierten LSP-Vektoren, die beim Intervall von 5 ms auftreten, werden die LSP-Parameter durch eine LSP-in-α-Umwandlungsschaltung 187 in α-Parameter als LPS-Synthesefilterkoeffizienten umgewandelt. Eine Ausgabe der LSP-zu-α-Umwandlungsschaltung 187 wird zu einer LPS-Invertiertfilterschaltung 171 zum Finden der LPC-Reste gesendet. Dieses LPC-Invertiertfilter 171 führt eine invertierte Filte rung durch die alle 5 ms aktualisierten α-Parameter zur Erzeugung einer glatten Ausgabe aus.
Der vom LPC-Invertiertfilter 171 ausgegebene LPC-Prädiktionsrest wird zu einer LPC-Rest-Vektorquantisierungsschaltung (LPC-Rest-VQ-Schaltung) 172 zu einer Vektorquantisierung gesendet. Das LPC-Invertiertfilter 171 gibt einen Index LPCidx der LPC-Reste aus, die an einem Ausgangsanschluss 173 ausgegeben werden.
Bei dem oben beschriebenen Signalcodierer ist ein Teil der Niedrigbereichseitekonfiguration als ein unabhängiger Codec-Codierer ausgebildet, oder der ganze ausgegebene Bitstrom wird zu einem Abschnitt desselben umgeschaltet oder umgekehrt, um eine Signalübertragung oder Decodierung mit verschiedenen bzw. differenten Bitraten zu ermöglichen.
Das heißt, bei einem Übertragen aller Daten von den jeweiligen Ausgangsanschlüssen zur Konfiguration von 1 wird die Übertragungsbitrate gleich 16 kbps (k Bits/s). Wenn Daten vom Teil des Anschlusses übertragen werden, wird die Übertragungsbitrate gleich 6 kbps.
Wenn alternativ dazu alle Daten von allen der Anschlüsse von 1 übertragen, d.h. gesendet oder aufgezeichnet werden, und alle Daten von 16 kbps auf der Empfangs- oder Wiedergabeseite decodiert werden, können Qualitäts- bzw. Hochqualitäts-Sprachsignale von 16 kbps erzeugt werden. Wenn andererseits Daten von 6 kbps decodiert werden, können Sprachsignale, die eine mit 6 kbps korrespondierende Tonqualität aufweisen, erzeugt werden.
Bei der Konfiguration von 1 korrespondieren Ausgabedaten bei den Ausgangsanschlüssen 131 und 141 bis 143 mit 6 kbps-Daten. Wenn Ausgabedaten bei den Ausgangsanschlüssen 144 bis 147, 173 und 181 dazu addiert werden, können Daten von 16 kbps erhalten werden.
Bezugnehmend auf die 2 wird ein Signaldecodierungsgerät (Decodierer) als Gegenstück des in 1 gezeigten Codierers erläutert.
Bezugnehmend auf die 2 wird eine Vektorquantisierungsausgabe des LSP, die zu einer Ausgabe des Ausgangsan schlusses 131 von 1 äquivalent ist, das heißt ein Index LSPidx eines Codebuchs, einem Eingangsanschluss 200 zugeführt.
Der LSP-Index LSPidx wird zu einer inversen Vektorquantisierungsschaltung (inverse VQ-Schaltung) 241 für LSPs einer LSP-Parameter-Wiedergabeeinheit 240 zu einer inversen Vektorquantisierung oder inversen Matrixquantisierung in Linearspektralpaar-Daten (LSP-Daten) gesendet. Der so quantisierte LSP-Index wird zu einer LSP-Interpolationsschaltung 242 zu einer LSP-Interpolation gesendet. Die interpolierten Daten werden in einer LSP-in-α-Umwandlungsschaltung 243 in α-Parameter als LPC-Koeffizienten umgewandelt, die dann zu LPC-Synthesefiltern 215, 225 und zu Tonhöhenspektralnachfiltern 216, 226 gesendet werden.
Eingangsanschlüssen 201, 202 und 203 von 4 werden der Index IsxVq₁ zur Vektorquantisierung der MDCT-Koeffizienten, ein Tonhöhenversatz L₁ und eine Tonhöhenverstärkung g₁ von den Ausgangsanschlüssen 141, 142 bzw. 143 von 1 jeweils zugeführt.
Der Index zur Vektorquantisierung für die MDCT-Koeffizienten IsxVg₁ vom Eingangsanschluss 201 wird einer inversen VQ-Schaltung 211 zu inverser VQ zugeführt und dann einer inversen MDCT-Schaltung 212 zu inverser MDCT zugeführt, um dann von einer Überlapp-und-Addier-Schaltung 213 überlapp-addiert und zu einem Tonhöhensynthesefilter 214 gesendet zu werden. Der Tonhöhensyntheseschaltung 214 werden der Tonhöhenversatz L₁ und die Tonhöhenverstärkung g₁ von den Eingangsanschlüssen 202 bzw. 203 zugeführt. Die Tonhöhensyntheseschaltung 214 führt eine inverse Operation der vom Tonhöhen-Invertfilter 215 von 1 ausgeführten Tonhöhenprädiktionscodierung aus. Das resultierende Signal wird zu einem LPC-Synthesefilter 215 gesendet und mit LPC-Synthese verarbeitet. Die LPC-Syntheseausgabe wird zu einem Tonhöhenspektralnachfilter 216 zur Nachfilterung gesendet, um dann bei einem Ausgangsanschluss 219 als mit einer Bitrate von 6 kbps korrespondierendes Sprachsignal entnommen zu werden.
Den Eingangsanschlüssen 204, 205, 206 und 207 von 4 werden eine Tonhöhenverstärkung g₂, ein Tonhöhenversatz L₂, ein Index IsgVq₂ und eine Tonhöhenverstärkung g_1d zur Vektorquantisierung der MDCT-Koeffizienten von jeweiligen Ausgangsanschlüssen 144, 145, 146 bzw. 147 jeweils zugeführt.
Der Index IsxV_g2 zur Vektorquantisierung der MDCT-Koeffizienten vom Einganganschluss 207 wird einer inversen VQ-Schaltung 220 zur Vektorquantisierung zugeführt und dann einem Addierer 221 zugeführt, um zu den invers vektorquantisieren MDCT-Koeffizienten von der Invers-VQ-Schaltung 211 summiert zu werden. Das resultierende Signal wird von einer inversen MDCT-Schaltung 222 invers MDCT-transformiert und in einer Überlapp- und-Addier-Schaltung 223 überlapp-addiert, um dann einem Tonhöhensynthesefilter 214 zugeführt zu werden. Diesem Tonhöhensynthesefilter 224 werden der Tonhöhenversatz L₁, die Tonhöhenverstärkung g₂ und der Tonhöhenversatz L₂ von den Eingangsanschlüssen 2O2, 204 bzw. 205 und ein Summensignal der Tonhöhenverstärkung g₁ vom Eingangsanschluss 203, das bei einem Addierer 217 zu der Tonhöhenverstärkung g_1d vom Eingangsanschluss 206 summiert ist, zugeführt. Das Tonhöhensynthesefilter 224 synthetisiert Tonhöhenreste. Eine Ausgabe des Tonhöhensynthesefilters wird zu einem LPC-Synthesefilter 225 zu einer LPC-Synthese gesendet. Die LPC-synthetisierte Ausgabe wird zu einem Tonhöhenspektralnachfilter 226 zu einer Nachfilterung gesendet. Das resultierende nachgefilterte Signal wird einer Hochabtastungsschaltung 227 zu einer Hochabtastung der Abtastfrequenz von beispielsweise 8 kHz zu 16 kHz gesendet und dann einem Addierer 228 zugeführt.
Dem Eingangsanschluss 207 wird auch ein LSP-Index LSPidx_h der Hochbereichseite vom Ausgangsanschluss 181 von 1 zugeführt. Dieser LSP-Index LSPidx_h wird zu einer inversen VQ-Schaltung 246 für das LSP einer LSP-Parameter-Wiedergabeeinheit 245 gesendet, um in LSP-Daten invers vektorquantisiert zu werden. Diese LSP-Daten werden zu einer LSP-Interpolationsschaltung 247 zu einer LSP-Interpolation gesendet. Diese interpolierten Daten werden von einer LSP-inα-Umwandlungsschaltung 248 in einen α-Parameter der LPC- Koeffizienten umgewandelt. Dieser α-Parameter wird zu einem Hochbereichseite-LPC-Synthesefilter 232 gesendet.
Einem Eingangsanschluss 209 wird auch ein Index LPCidx, das heißt eine vektorquantisierte Ausgabe der Hochbereichseite-LPC-Reste aus dem Ausgangsanschluss 173 von 1, zugeführt. Dieser Index wird von einer inversen Hochbereichseite-VQ-Schaltung 231 invers vektorquantisiert und dann einem Hochbereichseite-LPC-Synthesefilter 232 zugeführt. Die Abtastfrequenz der LPC-synthetisierten Ausgabe des Hochbereichseite-LPC-Synthesefilters wird von einer Hochabtastungsschaltung 233 von beispielsweise 8 kHz zu 16 kHz hochabgetastet und durch eine schnelle FFT von einer FFT-Schaltung 234 als Orthogonaltransformationseinrichtung in Frequenzbereichsdaten umgewandelt. Das resultierende Frequenzbereichssignal wird dann von einer Frequenzverschiebeschaltung 235 zu einer Hochbereichseite frequenzverschoben und von einer inversen FFT-Schaltung 236 in hochbereichseitige Zeitbereichssignale invers FFT-transformiert, die dann über eine Überlapp-und-Addier-Schaltung 237 dem Addierer 28 zugeführt werden.
Die Zeitbereichssignale aus der Überlapp-und-Addier-Schaltung werden vom Addierer 228 zum Signal von der Hochabtastungsschaltung 227 summiert. Infolgedessen wird eine Ausgabe am Ausgangsanschluss 229 als Sprachsignale, die mit einem Abschnitt der Bitrate von 16 kbps korrespondieren, entnommen. Das ganze 16 kbps-Bitratensignal wird nach Summierung zum Signal vom Ausgangsanschluss 219 entnommen.
Nun wird Skalierbarkeit erläutert.
Bei der in den 1 und 2 gezeigten Konfiguration werden zwei Übertragungsbitraten von 6 kbps und 16 kbps mit im Wesentlichen zueinander ähnlichen Codierungs/Decodierungs-Systemen zur Realisierung einer Skalierbarkeit, bei der ein 6 kbps-Bitstrom vollständig im 16 kbps-Bitstrom enthalten ist, realisiert. Wenn eine Codierung/Decodierung mit einer drastisch differenten Bitrate von 2 kbps gewünscht wird, ist diese vollständige Inklusivrelation schwierig zu erreichen.
Wenn das gleiche Codierungs/Decodierungs-System nicht angewendet werden kann, ist es wünschenswert bzw, günstig, eine möglichst gemeinschaftliche Eignerschaftsrelation bei der Realisierung von Skalierbarkeit aufrechtzuerhalten.
Zu diesem Zweck wird der wie in 3 konfigurierte Codierer zu einer 2 kbps-Codierung verwendet, und ein maximaler gemeinschaftlich gehörender Abschnitt oder maximale gemeinschaftlich gehörende Daten werden bei der Konfiguration von 1 gemeinsschaftlich benutzt. Der 16 kbps-Bitstrom auf dem Ganzen wird flexibel verwendet, so dass die Gesamtheit von 16 kbps, 6 kbps oder 2 kbps abhängig von der Benutzung verwendet wird.
Insbesondere die Gesamtheit der Information von 2 kbps wird für 2 kbps-Codierung verwendet, während im 6 kbps-Modus die Information von 6 kbps und die Information von 5,65 kbps verwendet wird, wenn der Rahmen als eine Codierungseinheit stimmhaft (voiced (V)) bzw. stimmlos (unvoiced (UV)) ist. Im 16 kpbs-Modus wird die Information von 15,2 kbps und die Information von 14,85 kbps verwendet, wenn der Rahmen als eine Codierungseinheit stimmhaft (V) bzw. stimmlos (UV) ist.
Die Struktur und der Betrieb bzw. die Operation der in 3 gezeigten Codierungskonfiguration für 2 kbps wird erläutert.
Das grundlegende Konzept des in 3 gezeigten Codierers beruht darauf, dass der Codierer eine erste Codierungseinheit 310 zum Finden von kurzfristen Prädiktionsresten des Eingabesprachsignals, beispielsweise LPC-Resten, zum Ausführen einer Sinusanalysecodierung, wie beispielsweise harmonische Codierung bzw. Oberwellencodierung, und eine zweite Codierungseinheit 320 zur Codierung des Eingabesprachsignals durch Wellenformcodierung durch Phasenübertragung aufweist. Die erste Codierungseinheit 310 und die zweite Codierungseinheit 320 werden zur Codierung des stimmhaften Abschnitts des Eingabesignals bzw. zur Codierung des stimmlosen Abschnitts des Eingabesignals verwendet.
Die erste Codierungseinheit 310 verwendet die Konfiguration einer Codierung der LPC-Reste durch Sinusanalysecodierung wie beispielsweise Oberwellencodierung oder Mehrbandcodierung (multi-band encoding (MBE)). Die zweite Codierungs einheit 320 verwendet die Konfiguration einer Codeanregungs-Linearprädiktion (code excitation linear prediction (CELP)), unter Verwendung einer Vektorquantisierung durch Geschlossenschleifesuche (closed loop search) des optimalen Vektors mit Hilfe des Analyse-durch-Synthese-Verfahrens (analysis-bysynthesis method).
Bei der Ausführungsform von 3 wird das einem Eingangsanschluss 301 zugeführte Sprachsignal zu einem LPC-Invertiertfilter 311 und zu einer LPC-Analysequantisierungseinheit 313 der ersten Codierungseinheit 310 gesendet. Die von der LPC-Analysequantisierungseinheit 313 erhaltenen LPC-Koeffizienten oder die sogenannten α-Parameter werden zum LPC-Invertiertfilter 311 zum Ausgeben von Linearprädiktionsresten (LPC-Reste) des Eingabesprachsignals gesendet. Die LPC-Analysequantisierungseinheit 313 gibt, wie später erläutert, eine quantisierte Ausgabe der Linearspektralpaare (LSPs) aus. Die quantisierte Ausgabe wird zu einem Ausgangsanschluss 302 gesendet. Die LPC-Reste vom LPC-Invertiertfilter 311 werden zu einer Sinusanalysecodierungseinheit 314 gesendet, wo die Tonhöhe detektiert und die Spektralenveloppeamplituden berechnet werden. Außerdem wird von einer V/UV-Unterscheidungseinheit 315 eine U/UV-Unterscheidung gemacht. Die Spektralenveloppeamplitudendaten aus der Sinusanalysecodierungseinheit 314 werden zu einem Vektorquantisierer 316 gesendet. Der Codebuchindex vom Vektorquantisierer 316 wird als eine Vektorquantisierungsausgabe der Spektralenveloppe über einen Schalter 317 zu einem Ausgangsanschluss 303 gesendet. Eine Ausgabe der Sinusanalysecodierungseinheit 314 wird über einen Schalter 318 zu einem Ausgangsanschluss 304 gesendet. Die V/W-Unterscheidungsausgabe der V/UV-Unterscheidungseinheit 315 wird zu einem Ausgangsanschluss 305 gesendet, während sie als ein Steuersignal zu Schaltern 317, 318 gesendet wird. Wenn das Eingabesignal das stimmhafte Signal (V) ist, werden der Index und die Tonhöhe gewählt und jeweils am Ausgangsanschluss 303 bzw. 304 ausgegeben.
Die zweite Codierungseinheit 320 von 3 weist bei der vorliegenden Ausführungsform die CELP-Codierungskonfigu ration auf und führt eine Vektorquantisierung der Zeitbereichswellenform unter Verwendung einer Geschlossenschleifesuche durch ein Analyse-durch-Syntheseverfahren, bei dem eine Ausgabe eines Rauschcodebuchs 321 durch ein gewichteten Synthesefilter 322 synthetisiert wird, aus, wobei die resultierende gewichtete Sprache zu einem Subtrahierer 323 gesendet wird, wo ein Fehler von der Sprache, die beim Passieren des dem Eingangsanschluss 301 durch ein Perzeptivgewichtungsfilter 325 zugeführten Sprachsignals erhalten wird, gefunden wird, wobei der resultierende Fehler zu einer Distanzberechnungsschaltung 324 für eine Distanzberechnung gesendet wird, und ein Vektor, der den Fehler minimiert, vom Rauschcodebuch 321 gesucht wird. Diese CELP-Codierung wird zur Codierung des wie oben beschriebenen stimmlosen Abschnitts derart verwendet, dass der Codebuchindex als die UV-Daten vom Rauschcodebuch 321 bei einem Ausgangsanschluss 307 über einen Schalter 327, der eingeschaltet wird, wenn das Resultat der V/UV-Unterscheidung von der V/UV-Unterscheidungseinheit 315 UV anzeigt, ausgegeben wird.
Die oben beschriebene LPC-Analysequantisierungseinheit 313 des Codierers kann als ein Teil der LPC-Analysequantisierungseinheit 130 von 1 derart verwendet werden, dass eine Ausgabe beim Anschluss 302 als eine Ausgabe der Tonhöhenanalyseschaltung 115 von 1 verwendet wird. Diese Tonhöhenanalyseschaltung 115 kann zusammen mit einem Tonhöhenausgabeabschnitt in der Sinusanalysecodierungseinheit 314 verwendet werden.
Obgleich die Codierungseinheit von 3 auf diese Weise von dem Codierungssystem von 1 differiert, weisen beide Systeme die wie in 4 gezeigte gemeinsame Information und Skalierbarkeit auf.
Bezugnehmend auf 4 weist der Bitstrom S2 von 2 kbps eine innere Struktur für den stimmlosen Analyse-Synthese-Rahmen, der von einem für den stimmhaften Analyse-Syhtese-Rahmen different ist, auf. So ist ein Bitstrom S2v von 2 kbps für V aus zwei Abschnitten S2_vc und S2_va gebildet, während ein Bitstrom S2u von 2 kbps für UV aus zwei Abschnit ten S2_ua und S2_ua gebildet ist. Der Abschnitt S2_vc weist einen Tonhöhenversatz, der gleich ein Bit pro 160 Samples pro Rahmen (ein Bit/160 Samples) ist, und eine Amplitude Am von 15 Bits/160 Samples, insgesamt 16 Bits/160 Samples auf. Dies korrespondiert mit Daten einer 0,8 kbps-Bitrate für die Abtastfrequenz von 8 kHz. Der Abschnitt S2_uc ist aus LPC-Resten von 11 Bits/80 Samples und einer Reserve von 1 Bit/160 Samples, insgesamt 23 Bits/160 Samples, zusammengesetzt. Dies korrespondiert mit Daten, die eine Bitrate von 1,15 kbps-Bitrate aufweisen. Die verbleibenden Abschnitte S2_va und S2_ua stellen gemeinsame Abschnitte oder gemeinsam gehörende Abschnitte mit den 6 kbps und 16 kbps dar. Der Abschnitt S2_va ist aus den LSP-Daten von 32 Bits/320 Samples, U/UV-Unterscheidungsdaten von 1 Bit/160 Samples und einem Tonhöhenversatz von 7 Bit/160 Samples, insgesamt 24 Bits/160 Samples gebildet. Dies korrespondiert mit Daten, die eine Bitrate von 1,2 kbps-Bitrate aufweisen. Die Abschnitte S2_ua sind aus den LSP-Daten von 32 Bits/320 Samples und U/UV-Unterscheidungsdaten von 1 Bit/160 Samples, insgesamt 17 Bits/160 Samples gebildet. Dies korrespondiert mit Daten, die eine Bitrate von 0,85 kbps-Bitrate aufweisen.
Ähnlich zum Bitstrom S2 ist ein Rahmen, der teilweise von einem für den stimmhaften Analyserahmen different ist. Der Bitstrom S6v von 6 kbps für V ist aus zwei Abschnitten S6_va und S6_vb gebildet, während der Bitstrom S6u von 6 kbps für UV aus zwei Abschnitten S6_ua und S6_ub gebildet ist. Der Abschnitt S6_va weist, wie vorstehend erläutert, Dateninhalte gemeinsam mit dem Abschnitt S2_va auf. Der Abschnitt S6_vb ist aus einer Tonhöhenverstärkung von 6 Bit/160 Samples und Tonhöhenresten von 18 Bits/32 Samples, insgesamt 96 Bits/160 Samples gebildet. Dies korrespondiert mit Daten einer 4,8 kbps-Bitrate. Der Abschnitt S6_ua weist Dateninhalte gemeinsam mit dem Abschnitt S2_ua auf, während der Abschnitt S6_ub Dateninhalte gemeinsam mit dem Abschnitt S6_ub aufweist.
Ähnlich zu den Bitströmen S2 und 56 weist der Bitstrom S16 von 16 kbps eine innere Struktur für den stimmlosen Analyserahmen, die teilweise von einer für den Stimmhaftanalyse rahmen different ist, auf. Ein Bitstrom S16v von 16 kbps für V ist aus vier Abschnitten S16_va, S16_vb, S16_vc und S16_vd gebildet, während ein Bitstrom S16u von 16 kbps für UV aus vier Abschnitten S16_ua, S16_ub, S16_uc und S6_ud gebildet ist. Der Abschnitt S16_va weist Dateninhalte gemeinsam mit den Abschnitten S2_va, S6_va auf, während der Abschnitt S16_vb Dateninhalte gemeinsam mit den Abschnitten S6_vb, S6_ub aufweist. Der Abschnitt S16_vc ist aus einem Tonhöhenversatz von 2 Bits/160 Samples, einer Tonhöhenverstärkung von 11 Bits/160 Samples, Tonhöhenresten von 18 Bits/32 Samples und S/M-Modusdaten von 1 Bit/160 Samples, insgesamt 104 Bits/160 Samples gebildet. Dies korrespondiert mit einer 5,2 kbps-Bitrate. Die S/M-Modusdaten werden zu einem Schalten zwischen zwei differenten Arten von Codebüchern für die Sprache und für Musik durch die VQ-Schaltung 124 verwendet. Der Abschnitt S16_vd ist aus Hochbereich-LPC-Daten von 5 Bits/160 Samples und Hochbereich-LPC-Resten von 15 Bits/32 Samples, insgesamt 80 Bits/160 Samples gebildet. Dies korrespondiert mit einer Bitrate von 4 kbps. Der Abschnitt S16_ub weist Dateninhalte gemeinsam mit den Abschnitten S2_ua und S6_ua auf, während der Abschnitt S16_ub Dateninhalte gemeinsam mit den Abschnitten S16_vb, das heißt den Abschnitten S6_ub und S6_ub, aufweist. Außerdem weist der Abschnitt S16_uc Dateninhalte gemeinsam mit dem Abschnitt S16_vc auf, während der Abschnitt S16_ud Dateninhalte gemeinsam mit dem Abschnitt S16_vd aufweist.
Die Konfigurationen der 1 und 3 zur Gewinnung des oben erwähnten Bitstroms sind schematisch in 5 gezeigt.
Bezugnehmend auf 5 korrespondiert ein Eingangsanschluss 11 mit dem Eingangsanschluss 101 der 1 und 3. Das in den Eingangsanschluss 11 eintretende Sprachsignal wird zu einer Bandteilungsschaltung 12, die mit dem TPF 102, dem Abtastfrequenzwandler 103, dem Subtrahierer 106 und dem BPF 107 von 1 korrespondiert, gesendet, um in ein Niedrigbereichssignal und ein Hochbereichssignal geteilt zu werden. Das Niedrigbereichssignal von der Bandteilungsschaltung 12 wird zu einer 2k-Codierungseinheit 21 und einer Gemeinsamab schnittcodierungseinheit 22, äquivalent zu der Konfiguration von 3, gesendet. Die Gemeinsamabschnittcodierungseinheit 22 ist grob äquivalent zur LPC-Analysequantisierungseinheit 130 von 1 oder der LPC-Analysequantisierungseinheit 310 von 3. Außerdem kann auch der Tonhöhenextraktionsabschnitt in der Sinusanalysecodierungseinheit von 3 oder der Tonhöhenanalyseschaltung 115 von 1 in der Gemeinsamabschnittcodierungseinheit 22 enthalten sein.
Das Niedrigbereichsseitesignal von der Bandteilungsschaltung 12 wird zu einer 6k-Codierungseinheit 20 und zu einer 12k-Codierungseinheit 24 gesendet. Die 6k-Codierungseinheit 23 und die 12k-Codierungseinheit sind grob äquivalent zu den Schaltungen 101 bis 116 von 1 bzw. zu den Schaltungen 117, 118 und 121 bis 128 von 1.
Die Hochbereichsseitesignale von der Bandteilungsschaltung 12 werden zu einer Hochbereich-4k-Codierungseinheit 25 gesendet. Diese Hochbereich-4k-Codierungseinheit 25 korrespondiert grob mit den Schaltungen 161 bis 164, 171 und 172.
Der Relation der von den Ausgangsanschlüssen 31 bis 35 von 5 und verschiedenen Teilen von 4 ausgegebenen Bitströme wird nun erläutert. Das heißt, Daten der Abschnitte S2_vc oder S2_uc von 4 werden über den Ausgangsanschluss 31 der 2k-Codierungseinheit 21 ausgegeben, während Daten der Abschnitte S2_va (= S6_va = S16_va) oder S2_ua (= S6_ua = S16_ua) von 4 über den Ausgangsanschluss 32 der Gemeinsamabschnittcodierungseinheit 21 ausgegeben werden. Überdies werden Daten der Abschnitte S6_vb (= S16_vb) oder S6_ub (= S16_ub) der 4 über den Ausgangsanschluss 33 der 6k-Codierungseinheit 23 ausgegeben, während Daten der Abschnitte S16_vd oder S16_ud von 4 über den Ausgangsanschluss 34 der 12k-Codierungseinheit 24 ausgegeben werden und Daten der Abschnitte S16_vd oder S16_ud von 4 über den Ausgangsanschluss 35 der Hochbereich-4k-Codierungseinheit 25 ausgegeben werden.
Die oben beschriebene Technik zur Realisierung von Skalierbarkeit kann wie folgt generalisiert werden: Das heißt, wenn ein bei einer ersten Codierung eines Eingabesignals er haltenes erstes codiertes Signal und ein bei einer zweiten Codierung des Eingabesignals erhaltenes zweites codiertes Signal gemultiplext werden, um einen mit einem Teil des ersten codierten Signals gemeinsamen Abschnitt und einen mit dem ersten codierten Signal nicht gemeinsamen anderen Abschnitt zu haben, wird das erste codierte Signal mit dem Abschnitt des den mit dem ersten codierten Signal gemeinsamen Abschnitt ausschließenden zweiten codierten Signals gemultiplext.
Auf diese Weise gehören, wenn zwei Codierungssysteme im Wesentlichen differente Codierungssysteme sind, die Abschnitte, die gemeinsam behandelt werden können, zusammen zu den zwei Systemen zur Erzielung von Skalierbarkeit.
Die Operationen der Komponenten der 1 und 2 werden spezifischer erläutert.
Es sei angenommen, dass das Rahmenintervall gleich N Samples wie beispielsweise 160 Samples ist und, wie in 6A gezeigt, eine Analyse einmal pro Rahmen ausgeführt wird.
Wenn mit dem Zentrum der Tonhöhenanalyse gleich t = kN, wobei k = 0, 1, 2, 3,..., ist, der Vektor mit den N Dimensionen, gebildet aus in t = kN – N/2 bis kN + N/2 vorhandenen Komponenten der LPC-Prädiktionsreste aus dem LPC-Invertiertfilter 111, gleich X ist und die Vektoren mit N Dimensionen, gebildet aus in t = kN – N/2 + L bis kN + N/2 – L vorhandenen Komponenten, verschoben um L Samples entlang der Zeitachse nach vorne mit X _L bezeichnet werden, wird zur Minimierung von ∥X – BKL∥2 L = L_opt gesucht, wobei dieses L_opt als ein optimaler Tonhöhenversatz L₁ für diesen Bereich verwendet wird.
Alternativ dazu kann der nach der Tonhöhennachführung erhaltene Wert als ein optimaler Tonhöhenversatz L₁ zur Vermeidung abrupter Tonhöhenänderungen verwendet werden.
Als nächstes wird für diesen optimalen Tonhöhenversatz L₁ ein Satz von g_i, der
minimiert, gelöst für
wobei i = –1, 0, 1 ist, um einen Tonhöhenverstärkungsvektor g ₁ zu finden. Der Tonhöhenverstärkungsvektor g ₁ wird vektorquantisiert, um einen Codeindex g₁ zu ergeben.
Zu einem weiteren Anheben der Prädiktionsgenauigkeit wird ins Auge gefasst, das Analysezentrum zusätzlich bei t = (k–1/2)N zu setzen. Es sei angenommen, dass der Tonhöhenversatz und die Tonhöhenverstärkung für t = kN und t = (k–1)N vorher gefunden worden sind.
Im Fall eines Sprachsignals kann angenommen werden, dass sein Formant bzw. seine Fundamentalfrequenz bzw. Grundfrequenz graduell geändert wird, so dass es keine signifikante Änderung zwischen dem Tonhöhenversatz L(kN) für t = kN und dem Tonhöhenversatz L((k–1)N) für t = (k–1)N gibt, wobei die Änderung linear ist. Deshalb können dem Wert, der durch den Tonhöhenversatz L((k–1/2)N) für t = (k–1/2)N angenommen werden kann, Beschränkungen auferlegt werden. Infolgedessen gilt bei der vorliegenden Ausführungsform L((k–1/2)N) = L(kN) = (L(kN) + L((k–1)N)/2 = L((k–1)N)
Welcher dieser Werte benutzt wird, wird durch Berechnung der Energie bzw. Leistung der mit den jeweiligen Versätzen korrespondierenden Tonhöhenreste bestimmt.
Das heißt, es wird angenommen, dass der Vektor mit der Dimensionenzahl N/2 von t = (k–1/2)N – N/4 – (k–1/2)N + N/4 zentriert um t = (k–1/2)N herum gleich X ist, die Vektoren mit der Dimensionenzahl N/2 verzögert um L(kN), (L(kN) + L((k–1)N))/2 und L((k–1)N) gleich X ₀ ⁽⁰⁾, X ₁ ⁽⁰⁾ bzw. X ₂ ⁽⁰⁾ sind, und die Vektoren in der Nachbarschaft dieser Vektoren X ₀ ⁽⁰⁾, X ₁ ⁽⁰⁾, X ₂ ⁽⁰⁾ gleich X ₀ ^(–1), X ₀ ⁽¹⁾, X ₁ ^(–1), X ₁ ⁽¹⁾, X ₂ ^(–1), X ₂ ⁽¹⁾ sind.
Auch für die Tonhöhenverstärkungen g₀, g₁ und g₂, die diesen Vektoren X ₀ ⁽ⁱ⁾, X ₁ ⁽ⁱ⁾, X ₂ ⁽ⁱ⁾ mit i = –1, 0, 1 zugeordnet sind, wird angenommen, dass der Versatz für wenigstens ein D_j von
ein optimaler Versatz L₂ bei t = (k–1/2)N ist, und die korrespondierende Tonhöhenverstärkung g_j ⁽ⁱ⁾ mit i= –1, 0, 1 wird vektorquantisiert, um die Tonhöhenverstärkung zu finden. Indessen kann L₂ drei Werte annehmen, die vom laufenden und vergangenen Wert von L₁ gefunden werden können. Deshalb kann ein ein Interpolationsschema repräsentierendes Kennzeichen als ein Interpolationsindex anstelle eines geraden Wertes gesendet werden. Wenn entschieden wird, dass irgendeiner von L(kN) und L((k–1)N) gleich 0 ist, das heißt, es einer Tonhöhe ermangelt und die Tonhöhenprädiktionsverstärkung nicht erhalten werden kann, wird das oben erwähnte (L(kN) + L((k–1)N))/2 als ein Kandidat für L((k–1/2)N) fallen gelassen.
Wenn die Zahl von Dimensionen bzw. Dimensionenzahl des Vektors X, der zur Berechnung des Tonhöhenversatzes verwendet wird, um ein Halbes oder auf N/2 reduziert wird, kann L_k für t = kN als das Analysezentrum direkt verwendet werden. Jedoch muss die Verstärkung wieder berechnet werden, um die resultierenden Daten zu übertragen, trotz der Tatsache, dass die Tonhöhenverstärkung für die Zahl N von Dimensionen von X erhältlich ist. Hier wird g 1d = g 1' – ĝ 1 zur Reduzierung der Zahl von Bits quantisiert, wobei ĝ ₁ die quantisierte Tonhöhenverstärkung (Vektor), wie sie für die Analyselänge = N gefunden wird, ist, und g' die nicht quantisierte Tonhöhenverstärkung, wie sie für die Analyselänge = N/2 gefunden wird, ist.
Von den Elementen (g₀, g₁, g₂) des Vektors g ist g₁ das Größte, während g₀ und g₂ nahezu null sind, wobei der Vektor g die stärkste Korrelation zwischen den drei Punkten aufweist. Infolgedessen wird der Vektor g _1d so abgeschätzt bzw. berechnet, dass er eine kleinere Varianz als der originale Vektor g aufweist, so dass eine Quantisierung mit einer kleineren Zahl von Bits erreicht werden kann.
Deshalb gibt es fünf Tonhöhenparameter, die in einem einzelnen Rahmen zu übertragen werden, nämlich L₁, g₁, L₂, g₂ und g_1d.
6B zeigt die Phase der LPC-Koeffizienten, die mit einer Rate, die acht Mal so hoch wie die Rahmenfrequenz ist, interpoliert sind. Die LPC-Koeffizienten werden zur Berechnung von Prädiktionsresten durch das invertierte LPC-Filter 111 von 1 und auch für die LPC-Synthesefilter 215, 225 von 2 und für die Tonhöhenspektralnachfilter 216, 226 verwendet.
Die Vektorquantisierung von Tonhöhenresten, wie sie vom Tonhöhenversatz und von der Tonhöhenverstärkung gefunden werden, wird nun erläutert.
Zur erleichterten und hochpräzisen perzeptiven Gewichtung der Vektorquantisierung werden Tonhöhenreste mit 50% Überlappung gefenstert und mit MDCT übertragen. Eine Gewichtungsvektorquantisierung wird im resultierenden Bereich ausgeführt. Obgleich die Übertragungslänge beliebig eingestellt werden kann, wird bei der vorliegenden Ausführungsform eine kleinere Zahl von Dimensionen in Anbetracht der folgenden Punkte verwendet.

(1) Wenn eine Vektorquantisierung von einer größeren Zahl von Dimensionen ist, werden die Verarbeitungsoperationen voluminös, was eine Aufspaltung bzw. Teilung oder Umordnung im MDCT-Bereich erfordert.
(2) Aufspaltung bzw. Teilung macht es schwierig, eine genaue Bitzuteilung zwischen den von der Teilung resultierenden Bändern genau auszuführen.
(3) Wenn die Dimensionenzahl nicht eine Potenz von 2 ist, können schnelle Operationen einer FFT verwendenden MDCT nicht benutzt werden.

Da die Rahmenlänge auf 20 ms (= 160 Samples/8 kHz) eingestellt ist, gilt 160/5 = 32 = 2⁵, und folglich ist für eine mögliche Lösung der obigen Punkte (1) bis (3) die MDCT- Transformationsgröße in Hinsicht auf 50% Überlappung auf 64 eingestellt.
Der Zustand einer Rahmenbildung ist wie in 6C gezeigt.
Das heißt, in 6C sind Tonhöhenreste r_p(n) in einem Rahmen von 20 ms = 160 Samples mit n = 0, 1,...,191 in fünf Subrahmen geteilt, und die Tonhöhenreste r_pi(n) des i-ten der fünf Subrahmen mit i = 0, 1,...,4 sind auf rpi(n) = rp(32i + n) eingestellt, wobei n = 160,...,191 die 0,...,31 des nächsten Rahmens impliziert. Die Tonhöhenreste r_pi(n) dieses Subrahmens werden mit einer Fenstertechnikfunktion w(n) multipliziert, die das MDCT-Aliasing beseitigen kann, um w(n)·r_pi(n) zu erzeugen, das mit einer MDCT-Transformation verarbeitet wird. Für die Fenstertechnikfunktion w(n) kann beispielsweise
verwendet werden.
Da die MDCT-Transformation von der Transformationslänge von 64 (=2⁶) ist, können die Transformationsberechnungen unter Verwendung einer FFT ausgeführt werden durch:

(1) Setzen x (n) = w(n)·r_pi·exp((–2πj/64) (n/2));
(2) Verarbeiten von x(n) mit einer 64-Punkt-FFT, um y(k) zu erzeugen; und
(3) Nehmen eines Realteils von y(k)·exp((–2πj/64)(k+1/2+64/4)) und Setzen des Realteils als einen MDCT-Koeffizienten c_j(k) mit k = 0, 1,...,31.

Der MDCT-Koeffizient c_j(k) jedes Subrahmens wird mit einer Gewichtung vektorquantisiert, was nun erläutert wird. Wenn die Tonhöhenreste r_pi(n) als ein Vektor r _i gesetzt werden, wird die auf die Synthese folgende Distanz durch
dargestellt, wobei H eine Synthesefiltermatrix ist, M eine MDCT-Matrix ist, c _i eine Vektordarstellung von c_j ^(k) ist, und ĉ _i eine Vektordarstellung von quantisierten ĉ_j ^(k) ist.
Da M dazu vorgesehen ist, H^tH, wobei H^t eine transponierte Matrix von H ist, durch ihre Eigenschaften zu diagonalisieren, gilt
wobei n = 64 und h_i als eine Frequenzantwort bzw. ein Frequenzgang des Synthesefilters gesetzt ist. Deshalb gilt
Wenn h_k direkt zur Gewichtung zur Quantisierung von c_i(k) verwendet wird, wird das Rauschen nach der Synthese flach, das heißt, es wird eine 100-Rauschformung erreicht. Infolgedessen wird die perzeptive Gewichtung W zur Steuerung verwendet, so dass der Formant ein Rauschen einer ähnlichen Form wird.
(n = 64).
Indessen können h_i ² und w_i ² als ein FFT-Leistungsspektrum der Impulsantwort
des Synthesefilters H(z) und des perzeptiven Gewichtungsfilters W(z) gefunden werden, wobei P die Analysezahl und λ_a, λ_b Koeffizienten zur Gewichtung sind.
In den obigen Gleichungen ist α_ij ein mit dem i-ten Subrahmen korrespondierender LPC-Koeffizient und kann vom interpolierten LPC-Koeffizienten gefunden werden. Das heißt, ein durch die Analyse des vorhergehenden Rahmens erhaltenes LSP₀(j) und ein LSP₁(j) des laufenden Rahmens werden intern geteilt, und bei der vorliegenden Ausführungsform wird das LSP des i-ten Subrahmens auf
gesetzt, wobei i = 0, 1, 2, 3, 4 gilt, um LSP⁽ⁱ⁾(j) zu finden. α_(ij) wird dann durch eine LSP-in-α-Umwandlung gefunden. Für das so gefundene H und das so gefundene W wird W' zur Verwendung als ein Maß der Distanz zur Vektorquantisierung so gesetzt, dass es gleich WH ist (W' = WH).
Die Vektorquantisierung wird durch eine Form- und Verstärkungsquantisierung ausgeführt. Die optimalen Codierungs- und Decodierungsbedingungen während eines Lernens werden nun erläutert.
Wenn das Formcodebuch bei einem gewissen Zeitpunkt während des Lernens s ist, das Verstärkungscodebuch gleich g ist, die Eingabe während des Trainings, das heißt der MDCT-Koeffizient in jedem Subrahmen gleich x ist, und das Gewicht für jeden Subrahmen gleich W' ist, ist die Leistung D ² für die Verzerrung zu dieser Zeit definiert durch die folgende Gleichung: D 2 = ∥W' ( x – gs )∥2
Die optimale Codierungsbedingung ist die Wahl von (g, s), das D ² minimiert.
Deshalb wird als ein erster Schritt s _opt, das
maximiert, für das Formcodebuch gesucht, und wird, für das Verstärkungscodebuch, für ein Formcodebuch gesucht, und wird g_opt, das
am nächsten ist, für das Verstärkungscodebuch für dieses s_opt gesucht.
Als nächstes wird die optimale Decodierungsbedingung gefunden.
Als der zweite Schritt wird, da die Summe von E_S für die Verzerrung für einen Satz x _k (k=0,..., N–1) von einem im Formcodebuch s bei einem gewissen Punkt während des Lernens codierten x gleich
ist, s, das die Summe minimiert, durch
gefunden.
Was das Verstärkungscodebuch betrifft, so ist die Summe der Verzerrungen E_g eines Satzes x _k mit einem Gewicht W'_k und der Form s _k eines im Verstärkungscodebuch g codierten x gleich
so dass sich aus
ergibt.
Das Form- und Verstärkungscodebuch können durch einen generalisierten LLoyd-Algorithmus erzeugt werden, während der obige erste und zweite Schritt wiederholt gefunden werden.
Da bei der vorliegenden Ausführungsform dem Rauschen für den niedrigen Signalpegel Wichtigkeit gegeben ist, wird Lernen unter Verwendung des mit einem Kehrwert des Pegels gewichteten W'/∥x∥ anstelle von W' selbst ausgeführt.
Die MDCT-transformierten Tonhöhenreste werden unter Verwendung des so präparierten Codebuchs vektorquantisiert, und der dadurch erhaltene Index wird zusammen mit der LPC (tatsächlich dem LSP), der Tonhöhe und der Tonhöhenverstärkung übertragen. Die Decodiererseite führt die inverse VQ und die Tonhöhen-LPC-Synthese aus, um den wiedergegebenen Ton zu erzeugen. Bei der vorliegenden Ausführungsform wird die Zahl der Male der Tonhöhenverstärkungsberechnungen erhöht, und die Tonhöhenrest-MDCT und Vektorquantisierung werden in mehrfachen Stufen ausgeführt, um eine Höherratenoperation zu ermöglichen.
Ein illustratives Beispiel ist in 7A gezeigt, wobei die Zahl von Stufen gleich zwei ist und die Vektorquantisierung eine sequentielle Mehrstufen-VQ ist. Eine Eingabe in die zweite Stufe ist das decodierte Resultat der ersten Stufe subtrahiert von Tonhöhenresten höherer Präzision, die von L₂, g₂ und g_1d erzeugt werden. Das heißt, eine Ausgabe der erststufigen MDCT-Schaltung 113 wird von der VQ-Schaltung 114 vektorquantisiert, um den repräsentativen Vektor oder eine dequantisierte Ausgabe zu finden, der bzw. die von einer inversen MDCT-Schaltung 113a invers MDCS-transformiert wird. Die resultierende Ausgabe wird zu einem Subtrahierer 128' zur Subtraktion von den Resten der zweiten Stufe (Ausgabe des Invertierttonhöhenfilters 122 von 1) gesendet. Eine Ausgabe des Subtrahierers 128' wird zu einer MDCT-Schaltung 123' gesendet, und die resultierende MDCT-transformierte Ausgabe wird von der VQ-Schaltung 124 quantisiert. Dies kann zu der äquivalenten Konfiguration der 7B, bei der eine MDCT nicht ausgeführt wird, ähnlich konfiguriert sein. 1 verwendet die Konfiguration von 7B.
Wenn eine Decodierung durch den in 2 gezeigten Decodierer unter Verwendung sowohl der Indizes I_dxV_g1 und I_dxV_g2 der MDCT-Koeffizienten ausgeführt wird, wird die Summe von Resultaten einer inversen VQ der Indizes I_dxV_g1 und I_dxV_g2 invers MDCT-transformiert und überlappt addiert. Danach werden eine Tonhöhensynthese und LPC-Synthese ausgeführt, um den wiedergegebenen Ton zu erzeugen. Natürlich ist die Tonhöhenversatz- und Tonhöhenverstärkungs-Aktualisierungsfrequenz während der Tonhöhensynthese gleich zweimal die der Einzelstufenkonfiguration. Infolgedessen wird bei der vorliegenden Erfindung das Tonhöhensynthesefilter so betrieben, dass es alle 80 Samples umgeschaltet wird.
Die Nachfilter 216, 226 des Decodierers von 2 werden nun erläutert.
Die Nachfilter realisieren Nachfiltercharakteristiken p(Z) durch Tonhöhenhervorhebung, Hochbereichhervorhebung und eine Tandemverbindung von Spektrumhervorhebungsfiltern.
Bei der obigen Gleichung sind g_i und L die Tonhöhenverstärkung und der Tonhöhenversatz, wie sie durch Tonhöhenprädiktion gefunden werden, während v ein die Intensität einer Tonhöhenhervorhebung spezifierender Parameter wie beispielsweise v = 0,5 ist. Andererseits ist v_b ein eine Hochbereichhervorhebung spezifierender Parameter wie beispielsweise v_b = 0,4, während v_n und v_d die Intensität einer Spektrumhervorhebung spezifierende Parameter wie beispielsweise v_b = 0,5, v_d = 0,8 sind.
Die Verstärkungskorrektur wird dann an der Ausgabe s(n) des LPC-Synthesefilters und der Ausgabe s_p(n) des Nachfilters mit dem Koeffizienten k_adj derart gemacht, dass
gilt, wobei N = 80 oder 160 ist. Indessen ist k_adj nicht in einem Rahmen fixiert und wird auf der Samplesbasis variiert, nachdem es durch das TPF gegangen ist. Beispielsweise wird p gleich 0,1 verwendet. kadj(n) = (1 – p)kadj(n – 1) + pkadj
Zur Glättung der Verbindung zwischen Rahmen werden zwei Tonhöhenhervorhebungsfilter verwendet, und das überblendete Resultat der Filterung wird als eine endgültige Ausgabe verwendet.
sout(n) = (1 – f(n))·sp0(n)·sp(n)
In der f(n) ein beispielsweise in 8 gezeigtes Fenster ist. Die 8A und 8B zeigen Fenstertechnikfunktionen für die Niedrigratenoperation bzw. für die Hochratenoperation. Das Fenster mit einer Weite von 80 Samples von 8B wird während der Synthese von 160 Samples (20 ms) zweimal verwendet.
Die in 1 gezeigte Codiererseiten-FQ-Schaltung 124 wird erläutert.
Diese VQ-Schaltung 124 weist zwei verschiedene Arten von Codebüchern für Sprache und für Musik auf, die in Reaktion auf das Eingabesignal geschaltet und gewählt werden. Das heißt, wenn die Quantisiererkonfiguration für eine Quantisierung von musikalischen Tonsignalen fixiert ist, wird das zum Quantisierer gehörende Codebuch mit den Eigenschaften der Sprache und des musikalischen Tons, wie sie während des Lernens verwendet werden, ein Optimum. Wenn infolgedessen die Sprache und der musikalische Ton zusammen gelernt werden, und wenn die zwei in ihren Eigenschaften signifikant different sind, weist das so gelernte Codebuch eine mittlere Eigenschaft der zwei auf, als ein Resultat von welchem bzw. welcher angenommen werden kann, dass der Performance- bzw. Leistungs- oder Mittel-S/N-Wert in dem Fall, bei dem der Quantisierer mit einem einzigen Codebuch konfiguriert ist, nicht erhöht ist.
Infolgedessen werden bei der vorliegenden Ausführungsform die unter Verwendung der Lerndaten für differente Eigenschaften aufweisende mehrere Signale präparierten Codevolumen zur Verbesserung der Quantisiererperformance bzw. -leistung geschaltet.
9 zeigt eine schematische Struktur eines solche zwei Arten von Codebüchern CB_A, CB_B aufweisenden Vektorquantisierers.
Bezugnehmend auf die 9 wird ein einem Eingangsanschluss 501 zugeführtes Eingabesignal zu den Vektorquantisie rern 511, 512 gesendet. Zu diesen Vektorquantisierern 511, 512 gehören die Codebücher CB_A, CB_B. Die repräsentativen Vektoren oder dequantisierten Ausgaben der Vektorquantisierer 511, 512 werden zu Subtrahierern 513 bzw. 514 gesendet, wo die Differenzen vom originalen Eingabesignal gefunden werden, um Fehlerkomponenten zu erzeugen, die zu einem Komparator 515 gesendet werden. Der Komparator 515 vergleicht die Fehlerkomponenten und wählt durch einen Umschaltschalter 516 eine kleinere von Quantisierungsausgaben der Vektorquantisierer 511, 512. Der gewählte Index wird zu einem Ausgangsanschluss 502 gesendet.
Die Schaltungsperiode des Umschaltschalters 516 wird länger als die Periode oder die Quantisierungseinheitszeit jedes der Vektorquantisierer 511, 512 gewählt. Wenn beispielsweise die Quantisierungseinheit ein durch Teilen eines Rahmens durch acht erhaltener Subrahmen ist, wird der Umschaltschalter 516 auf der Rahmenbasis umgeschaltet.
Es sei angenommen, dass die nur die Sprache bzw. nur den musikalischen Ton gelernt habenden Codebücher CB_A und CB_B von der gleichen Größe N und von der gleichen Zahl M von Dimensionen sind. Es sei auch angenommen, dass, wenn die von L Daten eines Rahmens gebildeten L-Dimensionsdaten X mit einer Subrahmenlänge M (= L/n) vektorquantisiert werden, die auf die Quantisierung folgende Verzerrung gleich E_A(k) und E_B(k) sind, wenn die Codebücher CB_A bzw. CB_B verwendet werden. Wenn die Indizes i und j gewählt werden, werden diese Verzerrungen E_A(k) und E_B(k) durch EA(k) = ∥Wk(X –C Aj)∥ EB(k) = ∥Wk(X –C Bj)∥ repräsentiert, wobei W_k eine gewichtete Matrix beim Subrahmen k ist und C _Aj, C _Bj repräsentative Vektoren, die den Indizes i und j der Codebücher CB_A bzw. CB_B zugeordnet sind, bezeichnen.
Was die so erhaltenen zwei Verzerrungen betrifft, werden die für einen gegebenen Rahmen geeignesten Codebücher durch Was die so erhaltenen zwei Verzerrungen betrifft, werden die für einen gegebenen Rahmen geeignesten Codebücher durch die Verzerrungssumme im Rahmen verwendet. Die folgenden zwei Verfahren können für eine solche Wahl verwendet werden.
Das erste Verfahren ist, eine Quantisierung unter Verwendung nur der Codebücher CB_A, CB_B zu verwenden, um die Summe Σ_kE_A(k) und Σ_kE_B(k) der Verzerrungen im Rahmen zu finden, und das Codebuch CB_A oder CB_B, das eine kleinere der Summen der Verzerrungen des ganzen Rahmens ergibt, zu verwenden.
10 zeigt eine Konfiguration zur Implementierung des ersten Verfahrens, bei dem die mit den in 9 gezeigten korrespondierenden Teile oder Komponenten mit den gleichen Bezugszeichen bzw. -zahlen bezeichnet sind und Anfügungsbuchstaben wie beispielsweise a, b,... mit dem Subrahmen k korrespondieren. Was das Codebuch CB_A betrifft, so wird die Summe für den Rahmen von Subtraktoren 513a, 513b,...513n, welche die Subrahmen-basierten Verzerrungen ergeben, bei einem Addierer 517 gefunden. Was das Codebuch CB_B betrifft, so wird die Summe für den Rahmen der Subrahmen-basierten Verzerrungen bei einem Addierer 518 gefunden. Diese Summen werden vom Komparator 515 miteinander verglichen, um ein Steuersignal oder ein Wählsignal zur Codebuchschaltung beim Anschluss 503 zu erhalten.
Das zweite Verfahren ist, die Verzerrungen E_A(k) und E_B(k) für jeden Subrahmen zu vergleichen und die Resultate des Vergleichs für die Gesamtheit der Subrahmen im Rahmen zur Schaltung der Codebuchwahl abzuschätzen bzw. zu bestimmen.
11 zeigt eine Konfiguration zur Implementierung des zweiten Verfahrens, bei der eine Ausgabe des Komparators 516 zum Subrahmen-basierten Vergleich zu einer Entscheidungslogik 519 zum Treffen einer Entscheidung durch eine Majoritätsentscheidung zur Erzeugung eines Ein-Bit-Codebuchschaltungs-Wählkennzeichens bei einem Anschluss 503 gesendet wird.
Dieses Wählkennzeichen wird als die oben erwähnten S/M-Modusdaten (Sprach/Musik-Modusdaten) übertragen.
Auf diese Weise können mehrere Signale differenter Eigenschaften unter Verwendung nur eines Quantisierers effizient quantisiert werden.
Die Frequenzumwandlungsoperation durch die FFT-Einheit 161, die Frequenzverschiebeschaltung 162 und die inverse FFT-Schaltung 163 der 1 wird nun erläutert.
Die Frequenzumwandlungsverarbeitung umfasst einen Bandextraktionsschritt zum Ausgeben wenigstens eines einzelnen Bandes des Eingabesignals, einen Orthogonaltransformationsschritt zum Transformieren des Signals wenigstens eines extrahierten Bandes in ein Frequenzbereichssignal, einen Verschiebeschritt zum Verschieben des orthogonaltransformierten Signals auf dem Frequenzbereich zu einer anderen Position oder einem anderen Band, und einen inversen Orthogonaltransformationsschritt zur Umwandlung des auf dem Frequenzbereich verschobenen Signals durch eine inverse orthogonale Transformation in Zeitbereichssignale.
12 zeigt die Struktur für die oben erwähnte Frequenztransformation detaillierter. In 12 sind Teile oder Komponenten, die mit denen der 1 korrespondieren, durch die gleichen Zeichen bzw. Zahlen bezeichnet. In 12 werden Breitbereich-Sprachsignale, die Komponenten von 0 bis 8 kHz mit der Abtastfrequenz von 16 kHz aufweisen, dem Eingangsanschluss 101 zugeführt. Vom Breitband-Sprachsignal vom Eingangsanschluss 101 wird das Band von beispielsweise 0 bis 3,8 kHz durch das Tiefpassfilter 102 als das Niedrigbereichssignal separiert, und die durch Subtraktion des Niedrigbereichsseitesignals vom originalen Breitbandsignal durch den Subtraktor 151 erhaltenen verbleibenden Frequenzkomponenten werden als die Hochfrequenzkomponente separiert. Diese Niedrigbereichs- und Hochbereichssignale werden separat verarbeitet.
Das Hochbereichsseitesignal weise eine Frequenzweite von 4,5 kHz in einem Bereich von 3,5 kHz bis 8 kHz auf, das nach Durchgang durch das TPF 102 noch belassen wird. Diese Bandbreite muss in Hinsicht auf eine Signalverarbeitung mit Niederabtastung auf 4 kHz reduziert werden. Bei der vorliegenden Ausführungsform wird das von 7,5 kHz bis 8 kHz reichende Band von 0,5 kHz durch ein Bandpassfilter (BPF) 107 oder ein TPF abgeschnitten.
Dann wird eine schnelle Fourier-Transformation (FFT) zur Frequenzumwandlung zu einer Niedrigbereichsseite verwendet. Jedoch vor der FFT wird die Zahl von Samples bei einem Intervall einer Zahl von Samples gleich Potenzen von 2, beispielsweise 512 Samples wie beispielsweise für das Beispiel in 13A gezeigt geteilt. Jedoch werden die Samples zur Erleichterung der nachfolgenden Verarbeitung alle 80 Samples vorbewegt.
Ein Hamming-Fenster einer Länge von 320 Samples wird dann von einer Hamming-Fenstertechnikschaltung 109 angewendet. Die Sampleszahl von 320 ist viermal so groß wie 80 gewählt, das die Zahl ist, durch welche die Samples zur Zeit der Rahmenteilung vorbewegt werden. Dies erlaubt, dass vier Wellenformen später bei der Überlagerung zur Zeit der wie in 13B gezeigten Rahmensynthese durch Überlappen-und-Addieren addiert werden.
Die 512-Samplesdaten werden dann von der FFT-Schaltung 161 zur Umwandlung in Frequenzbereichsdaten FFT-transformiert.
Die Frequenzbereichsdaten werden dann von der Frequenzverschiebeschaltung 162 zu einer anderen Position oder zu einem anderen Bereich auf der Frequenzachse verschoben. Das Prinzip der Erniedrigung der Abtastfrequenz durch diese Verschiebung auf der Frequenzachse ist, das in der 14A schraffiert gezeigte Hochbereichsseitesignal zu einer wie in 14B angedeuteten Niedrigbereichsseite zu verschieben und das Signal, wie in 14C gezeigt, niederzusampeln. Die mit fs/2 als Zentrum zur Zeit der Verschiebung auf der Frequenzachse von 14A nach 14B aliasierten Frequenzkomponenten werden in der entgegengesetzten Richtung verschoben. Dies erlaubt, dass die Abtastfrequenz auf fs/n erniedrigt wird, wenn der Bereich des Subbandes niedriger als fs/2n ist.
Es reicht für die Frequenzverschiebeschaltung 162 aus, die in 15 schraffiert gezeigten Hochbereichsseite- Frequenzbereichsdaten zu einer Niedrigbereichsseiteposition oder einem Niedrigbereichsseiteband auf der Frequenzachse zu verschieben. Insbesondere werden bei der FFT-Transformation von 512 Zeitbereichsdaten erhaltene 512 Frequenzbereichsdaten so verarbeitet, dass 127 Daten, nämlich 113-te bis 239-te zur ersten bis 127-ten Position oder zum ersten bis 127-ten Band verschoben werden, während 127 Daten, nämlich die 273-ten bis 399-ten Daten jeweils zur 395-ten bis 511-ten Position oder zum 395-ten bis 511-ten Band verschoben werden. Zu dieser Zeit ist es kritisch, dass die 112-ten Frequenzbereichsdaten nicht zur 0-ten Position oder zum 0-ten Band verschoben werden. Der Grund ist, dass die 0-ten Daten des Frequenzbereichssignals eine Gleichsignal- bzw. DC-Komponente und frei von einer Phasenkompenente sind, so dass Daten bei dieser Position eine reelle Zahl derart sein müssen, dass die Frequenzkomponente, die generell eine komplexe Zahl ist, nicht in diese Position eingebracht werden kann. Außerdem sind die fs/2 darstellenden 256-ten Daten, generell die N/2-ten Daten, auch ungültig und werden nicht benutzt. Das heißt, der Bereich von 0 bis 4 kHz sollte korrekter als 0 < f < 4 kHz dargestellt sein.
Die verschobenen Daten werden von der inversen FFT-Schaltung 163 zur Wiederherstellung der Frequenzbereichsdaten in Zeitbereichsdaten invers FFT-transformiert. Dies ergibt Zeitbereichsdaten alle 512 Samples. Diese 512-Sample-basierten Zeitbereichssignale werden von der Überlapp-und-Addier-Schaltung 166, wie in 13B gezeigt, alle 80 Samples überlappt, zur Summierung der überlappten Abschnitte.
Das von der Überlapp-und-Addier-Schaltung 166 erhaltene Signal wird durch eine 16 kHz-Abtastung auf 0 bis 4 kHz begrenzt und wird folglich von der Niederabtastschaltung 164 niederabgetastet. Dies ergibt ein Signal von 0 bis 4 kHz durch Frequenzverschiebung mit 8 kHz-Abtastung. Dieses Signal wird an einem Ausgangsanschluss 169 ausgegeben und dann der LPC-Analysequantisierungseinheit 130 und dem LPC-Invertiertfilter 171, die in 1 gezeigt sind, zugeführt.
Die Decodierungsoperation auf der Decodiererseite wird durch eine in 16 gezeigte Konfiguration implementiert.
Die Konfiguration von 16 korrespondiert mit der Konfiguration stromabwärts der Hochabtastschaltung 233 in 2, und folglich sind die korrespondierenden Abschnitte mit den gleichen Zahlen bezeichnet. Wenn in 2 der FFT-Verarbeitung die Hochabtastung vorausgeht, so folgt bei der Ausführungsform von 16 der FFT-Verarbeitung die Hochabtastung.
In 16 wird das durch 8 kHz-Abtastung zu 0 bis 4 kHz verschobene Hochbereichsseitesignal wie beispielsweise ein Ausgabesignal des Hochbereichsseite-LPC-Synthesefilters 232 von 2 dem Anschluss 241 von 16 zugeführt.
Dieses Signal wird von der Rahmenteilungsschaltung 242 in Signale, die eine Rahmenlänge von 256 Samples mit einer Vorbringungsdistanz von 80 Samples aus dem gleichen Grund wie das zur Rahmenteilung auf der Codiererseite geteilt. Jedoch ist die Zahl von Samples halbiert, da die Abtastfrequenz halbiert ist. Das Signal von der Rahmenteilungsschaltung 242 wird durch eine Hamming-Fenstertechnikschaltung 243 mit einem 160 Samples langen Hamming-Fenster in der gleichen Weise wie für die Codiererseite (die Zahl Samples ist jedoch die Hälfte) multipliziert.
Das resultierende Signal wird dann durch die FFT-Schaltung 234 zur Umwandlung des Signals von der Zeitachse auf die Frequenzachse mit einer Länge von 256 Samples FFT-transformiert. Die nächste Hochabtastungsschaltung 244 erzeugt von der Rahmenlänge von 216 Samples eine 512-Sample-Rahmenlänge durch wie in 15B gezeigtes Nullstopfen. Dies korrespondiert mit einer Umwandlung von 14C in 14B.
Die Frequenzverschiebungsschaltung 235 verschiebt dann die Frequenzbereichsdaten zu einer anderen Position oder einem anderen Band auf der Frequenzachse zur Frequenzverschiebung um + 3,5 kHz. Dies korrespondiert mit einer Umwandlung von 14B in 14A.
Die resultierenden Frequenzbereichssignale werden zur Wiederherstellung von Zeitbereichssignalen durch eine inverse FFT-Schaltung 236 invers FFT-transformiert. Die Signale von der inversen FFT-Schaltung 236 reichen von 3,5 kHz bis 7,5 kHz mit einer 16 kHz-Abtastung.
Die nächste Überlapp-und-Addier-Schaltung 237 überlappaddiert die Zeitbereichssignale alle 80 Samples für jeden 212-Samplerahmen zur Wiederherstellung kontinuierlicher Zeitbereichssignale. Das resultierende Hochbereichsseitesignal wird von einem Addierer 228 zum Niedrigbereichseitesignal summiert, und das resultierende Summensignal wird am Ausgangsanschluss 229 ausgegeben.
Zur Frequenzumwandlung sind spezifische Figuren oder Werte nicht auf die bei den oben beschriebenen Ausführungsformen beschränkt. Außerdem ist die Zahl von Bändern nicht auf eins beschränkt.
Wenn beispielsweise die Schmalbandsignale von 300 kHz bis 3,4 kHz und die Breitbandsignale von 0 bis 7 kHz wie in 17 gezeigt durch 16 kHz-Abtastung erzeugt werden, ist das Niedrigbereichsignal von 0 bis 300 kHz nicht im schmalen Band enthalten. Die Hochbereichsseite von 3,4 kHz bis 7 kHz ist zu einem Bereich von 300 kHz bis 3,9 kHz verschoben, damit es mit der Niedrigbereichsseite kontaktiert ist, wobei das resultierende Signal von 0 bis 3,9 kHz reicht, so dass die Abtastfrequenz fs halbiert sein kann, das heißt 8 kHz sein kann.
Allgemeiner ausgedrückt, wenn ein Breitbandsignal mit einem im Breitbandsignal enthaltenden Schmalbandsignal gemultiplext wird, wird das Schmalbandsignal vom Breitbandsignal subtrahiert, und Hochbereichkomponenten im restlichen Signal werden zur Erniedrigung der Samplingrate zur Niedrigbereichsseite verschoben.
Auf diese Weise kann ein Subband einer beliebigen Frequenz von einer anderen beliebigen Frequenz erzeugt und mit einer Abtastfrequenz zweimal die Frequenzweite für flexibles Kopieren mit gegebenen Anwendungen verarbeitet werden.
Wenn der Quantisierungsfehler aufgrund einer niedrigen Bitrate größer ist, wird in der Nachbarschaft der Bandteilungsfrequenz mit der Verwendung einer QMF üblicherweise das Aliasingrauschen erzeugt. Ein solches Aliasingrauschen kann mit dem vorliegenden Verfahren zur Frequenzumwandlung vermieden werden.
Die vorliegende Erfindung ist nicht auf die oben beschriebenen Ausführungsformen beschränkt. Beispielsweise können die Konfiguration des Sprachcodierers von 1 oder die Konfiguration des Sprachdecodierers von 2, die durch Hardware repräsentiert sind, auch durch ein einen Digitalsignalprozessor (digital signal processor (DSP)) verwendendes Softwareprogramm implementiert sein. Auch können mehrere Rahmen von Daten gesammelt und mit Matrixquantisierung anstelle mit Vektorquantisierung quantisiert werden. Außerdem ist das Sprachcodierungs- oder -decodierungsverfahren gemäß der vorliegenden Erfindung nicht auf die oben beschriebene besondere Konfiguration beschränkt. Auch kann die vorliegende Erfindung auf eine Vielfalt von Verwendungen wie beispielsweise Tonhöhen- oder Geschwindigkeitsumwandlung, computerisierte Sprachsynthese oder Rauschunterdrückung angewendet werden, ohne auf Übertragung oder Aufzeichnung/Wiedergabe beschränkt zu sein.
Der oben beschriebene Signalcodierer und -decodierer kann als ein in einem tragbaren Kommunikationsendgerät oder einem tragbaren Telefon, wie sie beispielsweise in den 18 und 19 gezeigt sind, verwendeter Sprach-Codec verwendet werden.
18 zeigt die Konfiguration eines Senders des eine wie beispielsweise in 1 und 3 gezeigt konfigurierte Sprachcodierungseinheit 160 verwendenden Endgeräts. Das von einem Mikrofon 661 in 18 gesammelte bzw. aufgenommene Sprachsignal wird von einem Verstärker 662 verstärkt und von einem A/D-Wandler 663 in ein digitales Signal umgewandelt, das zu einer Sprachcodierungseinheit 660 gesendet wird. Diese Sprachcodierungseinheit 660 ist wie in den 1 und 3 gezeigt konfiguriert. Dem Eingangsanschluss 101 der Codierungseinheit 660 wird das digitale Signal vom A/D-Wandler 663 zugeführt. Die Sprachcodierungseinheit 660 führt eine wie in Verbindung mit den 1 und 3 erläuterte Co dierung aus. Ausgangssignale der Ausgangsanschlüsse der 1 und 3 werden als Ausgabesignale der Sprachcodierungseinheit 660 zu einer Übertragungspfad-Codierungseinheit 664 gesendet, wo eine Kanaldecodierung ausgeführt wird, und die resultierenden Ausgabesignale werden zu einer Modulationsschaltung 665 gesendet und demoduliert, um über einen D/A-Wandler 666 und einen RF-Verstärker 667 zu einer Antenne 668 gesendet zu werden.
19 zeigt eine Konfiguration einer Empfangsseite des eine wie in 2 gezeigt konfigurierte Sprachcodierungseinheit 760 verwendenden tragbaren Endgeräts. Das von der Antenne 761 der 19 empfangene Sprachsignal wird von einem HF- bzw. RF-Verstärker 762 verstärkt und über einen A/D-Wandler 763 zu einer Demodulationsschaltung 764 gesendet, so dass demodulierte Signale einer Übertragungspfad-Decodierungseinheit 765 zugeführt werden. Ein Ausgabesignal der Demodulationsschaltung 764 wird zu einer wie in 2 gezeigt konfigurierten Sprachcodierungseinheit 760 gesendet. Die Sprachcodierungseinheit 760 führt eine wie in Verbindung mit 2 erläuterte Signaldecodierung aus. Ein Ausgabesignal des Ausgangsanschlusses 201 von 2 wird als ein Signal der Sprachcodierungseinheit 760 zu einem D/A-Wandler 766 gesendet. Ein analoges Sprachsignal vom D/A-Wandler 766 wird über einen Verstärker 767 zu einem Lautsprecher 768 gesendet.

Claims

Signalcodierungsgerät, aufweisend: eine Bandteilungseinrichtung (12) zum Teilen eines Eingabesignals in mehrere Frequenzbänder zur Bereitstellung mehrerer geteilter Frequenzbänder, und eine Codierungseinrichtung (21, 22, 23, 24, 25) zum Codieren der Signale jedes der mehreren geteilten Frequenzbänder in auf jeweilige Signalcharakteristiken jedes der mehreren Frequenzbänder reagierenden jeweiligen Weisen, dadurch gekennzeichnet, dass die Codierungseinrichtung zusätzlich zum Multiplexen eines eine erste Bitrate aufweisenden und mit einer der mehreren Codierungsweisen korrespondierenden Bitstroms eines ersten codierten Signals (31, 33, 34, 35) und eines eine von der ersten Bitrate verschiedene zweite Bitrate aufweisenden und mit einer nicht zum Bitstrom des ersten codierten Signals gemeinsam gehörenden anderen der mehreren Codierungsweisen korrespondierenden Abschnitts eines Bitstroms eines zweiten codierten Signals (32) ist.
Signalcodierungsgerät nach Anspruch 1, wobei die Bandteilungseinrichtung (12) ein Breitbandeingabesignal in wenigstens ein Signal eines Telefonbandes und ein Signal auf einer Seite höher als das Telefonband teilt.
Signalcodierungsgerät nach Anspruch 1 oder 2, wobei die Codierungseinrichtung (21, 22, 23, 24, 25) aufweist: eine Einrichtung (111) zum Finden kurzfristiger Prädiktionsreste durch eine am Signal der niedrigeren Seite der geteilten Frequenzbänder ausgeführte kurzfristige Prädiktion, eine Einrichtung (112) zum Finden langfristiger Prädiktionsreste durch Ausführen einer langfristigen Prädiktion an den so gefundenen kurzfristigen Prädiktionsresten, und eine Orthogonaltransformationseinrichtung (113) zum Orthogonaltransformieren der so gefundenen langfristigen Prädiktionsreste.
Portables Radioendgerät mit einer Antenne (668), wobei das Gerät aufweist: eine erste Verstärkereinrichtung (662) zum Verstärken eines Eingabesprachsignals zur Bereitstellung eines ersten verstärkten Signals, eine A/D-Wandlereinrichtung (663) zum A/D-Wandeln des ersten verstärkten Signals, eine Sprachcodierungseinrichtung (660) zum Codieren eines Ausgabesignals der A/D-Wandlereinrichtung zur Bereitstellung eines codierten Signals, eine Übertragungspfad-Codierungseinrichtung (664) zum Kanaldecodieren des codierten Signals, eine Modulationseinrichtung (665) zum Modulieren eines Ausgabesignals der Übertragungspfad-Codierungseinrichtung zur Bereitstellung eines modulierten Signals, eine D/A-Wandlereinrichtung (666) zum D/A-Wandeln des modulierten Signals, und eine zweite Verstärkereinrichtung (667) zum Verstärken eines Signals aus der D/A-Wandlereinrichtung zur Bereitstellung eines zweiten verstärkten Signals und zum Zuführen des zweiten verstärkten Signals zur Antenne, wobei die Sprachcodierungseinrichtung ein Signalcodierungsgerät nach Anspruch 1, 2 oder 3 aufweist.
Verfahren zum Multiplexen eines codierten Signals, aufweisend die Schritte: Codieren (21) eines Eingabesignals mit einer eine erste Bitrate verwendenden ersten Codierung zur Bereitstellung eines Bitstroms eines ersten codierten Signals (31), und Codieren (22) des Eingabesignals mit einer zweiten Codierung zur Bereitstellung eines Bitstroms eines zweiten codierten Signals, wobei der Bitstrom des zweiten codierten Signals (32) einen mit einem Abschnitt eines ersten codierten Signals gemeinsamen ersten Abschnitt und einen mit dem ersten codieren Signal nicht gemeinsamen zweiten Abschnitt aufweist, wobei die zweite Codierung eine von der ersten Bitrate verschiedene zweite Bitrate anwendet, und gekennzeichnet durch den zusätzlichen Schritt: Multiplexen des Bitstroms des ersten codierten Signals und des nicht zum Bitstrom des ersten codierten Signals gemeinsam gehörenden zweiten Abschnitts des Bitstroms des zweiten codierten Signals.
Multiplexverfahren nach Anspruch 5, wobei das zweite codierte Signal durch Codieren eines in ein Signal eines Telefonbandes und ein Signal in der Frequenz höher als das Telefonband geteiltes Breitbandeingabesignal erhalten wird.
Multiplexverfahren nach Anspruch 5 oder 6, wobei der gemeinsame Abschnitt das von linearen Prädiktionsparametern des Eingabesignals abgeleitete codierte Signal ist.
Multiplexverfahren nach Anspruch 5, 6 oder 7, wobei der gemeinsame Abschnitt Daten sind, die bei einer linearen prädiktiven Analyse des Eingabesignals gefolgt von einer Quantisierung (130) von lineare Prädiktionskoeffizienten darstellenden Parametern erhalten werden.
Gerät zum Multiplexen eines codierten Signals, aufweisend: eine Einrichtung zum Multiplexen eines Bitstroms eines bei einer ersten Codierung (21) eines eine erste Bitrate verwendenden Eingabesignals erhaltenen ersten codierten Signals (31) und eines Bitstroms eines bei einer zweiten Codierung (22) des Eingabesignals erhaltenen zweiten codierten Signals (32), wobei der Bitstrom des zweiten codierten Signals einen mit nur einem Abschnitt des Bitstroms des ersten codierten Signals gemeinsamen ersten Abschnitt und einen nicht mit dem Bitstrom des ersten codierten Signals gemeinsamen zweiten Abschnitt aufweist, wobei die zweite Codierung (22) eine von einer Bitrate der ersten Codierung verschiedene zweite Bitrate verwendet, wobei der Bitstrom des ersten codierten Signals (31) mit dem zweiten Abschnitt des Bitstroms zweiten codierten Signals (32), der den zum Bitstrom des ersten codierten Signals (31) gemeinsam gehörenden ersten Abschnitt desselben ausschließt, gemultiplext ist.
Portables Radioendgerät mit einer Antenne (668), aufweisend: eine erste Verstärkereinrichtung (662) zur Verstärkung eines Eingabesprachsignals zur Bereitstellung eines ersten verstärkten Signals, eine A/D-Wandlereinrichtung (663) zum A/D-Wandeln des verstärkten Signals, eine Sprachcodierungseinrichtung (660) zum Codieren eines Ausgangssignals der A/D-Wandlereinrichtung zur Bereitstellung eines codierten Signals, eine Übertragungspfad-Codierungseinrichtung (664) zur Kanalcodierung des codierten Signals, eine Modulationseinrichtung (665) zum Modulieren eines Ausgangssignals der Übertragungspfad-Codierungseinrichtung zur Bereitstellung eines modulierten Signals, eine D/A-Wandlereinrichtung (666) zum D/A-Wandeln des modulierten Signals, und eine zweite Verstärkereinrichtung (667) zum Verstärken eines Signals aus der D/A-Wandlereinrichtung zur Bereitstellung eines zweiten verstärkten Signals und zum Zuführen des zweiten verstärkten Signals der Antenne, wobei die Sprachcodierungseinrichtung außerdem aufweist: ein Gerät nach Anspruch 9.