DE60026660T2

DE60026660T2 - Fehlererkennung und Fehlerverdeckung für kodierte Sprachdaten

Info

Publication number: DE60026660T2
Application number: DE60026660T
Authority: DE
Inventors: Yuuji Shinagawa-ku Maeda
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1999-06-17
Filing date: 2000-06-15
Publication date: 2006-12-07
Anticipated expiration: 2020-06-16
Also published as: KR20010007417A; CN100512022C; JP2000357999A; CN1604483A; EP1596364B1; EP1596364A1; CN1201288C; US6658378B1; TW466843B; DE60026660D1; EP1061503A3; CN1283007A; JP4218134B2; DE60038913D1; EP1061503B1; KR100718712B1; EP1061503A2

Description

Die Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zum Decodieren von Codierungsparametern, die selektiv vor Fehlern geschützt sind, welche auf einem Übertragungsweg bzw. -pfad erzeugt werden, sowie auf ein Computerprogramm zur Realisierung des Verfahrens und der Vorrichtung.
Es ist eine Vielfalt von Codierungsverfahren zur Vornahme einer Signalkompression durch Ausnutzen von statistischen Eigenschaften im Zeitbereich und im Frequenzbereich von Audiosignalen, welche die Sprache und akustische Signale umfassen, sowie von psychoakustischen Eigenschaften des Menschen bekannt. Hinsichtlich dieser Codierungsverfahren ziehen das VSELP-(Vector Sum Excited Linear Prediction)-Codierungsverfahren oder das PSI-CELP (Pitch Synchronous Innovation-CELP)-System, das unter dem so genannten CELP-(Code Excited Linear Prediction)-Codierungssystem klassifiziert ist, als Sprachcodierungssystem mit niedriger Bitrate die Aufmerksamkeit auf sich.
Bei dem Wellenform-Codierungssystem, wie bei diesem CELP-Codierungssystem, werden eingangsseitige Sprachsignale in Blöcke oder Rahmen mit einer zuvor festgelegten Anzahl von Abtastproben der eingangsseitigen Sprachsignale als Codierungseinheit gebildet, und eine Suche in einer geschlossenen Schleife wird nach einem optimalen Vektor ausgeführt, indem ein Analyseverfahren durch eine Synthese hinsichtlich der block- oder rahmenbasierten Zeitbereichs-Sprachwellenform herangezogen wird, um eine Vektorquantisierung der Wellenform zur Abgabe des Vektorindex auszuführen.
Unterdessen werden die Codebits, welche mit dem Sprachcodierungssystem bei niedriger Bitrate erhalten werden, wie bei 2kbps oder 4kbps, in weitem Umfang in der Kommunikation, im Computer oder bei der Übertragung genutzt, da generell ein Audiosignal durch spezifizierte Audioinformationsinhalte nicht beschränkt ist. Daher müssen diese Codebits gegen Fehler, die auf dem Übertragungsweg bzw. -pfad hervorgerufen werden, kräftig geschützt werden.
Falls ein Fehler in der Folge auf dem Übertragungsweg hervorgerufen wird, tritt ein Tonaussetzer in der Folge über eine lange Zeit bei der Sprachcodierung auf, was die Sprachqualität vermindert.
Die Erfinder dieser Anmeldung haben in dem offengelegten japanischen Patent H-11-122120 ein Codierungsverfahren und eine Codierungsvorrichtung sowie ein Decodierungsverfahren und eine Decodierungsvorrichtung angegeben, die gegenüber Fehlern stabil sind, welche auf dem Übertragungsweg auftreten, um zu ermöglichen, dass die Tonqualität beträchtlich verbessert ist.
Bei diesem Codierungsverfahren und bei dieser Codierungsvorrichtung wird das eingangsseitige Sprachsignal auf der Zeitachse in eine jeweils zuvor festgelegte Codierungseinheit aufgeteilt und von einer Codierungseinheit zu einer weiteren Codierungseinheit codiert, um eine Vielzahl von Arten von Codierungssprachparametern abzugeben. Aus dieser Vielzahl von Arten der Codierungssprachparameter wird eine psychoakustisch entscheidende Bitgruppe ausgewählt, und aus dieser entscheidenden Bitgruppe wird ein Fehlerprüfcode erzeugt. Dieser Fehlerprüfcode und die entscheidende Bitgruppe werden einer Faltungscodierung unterzogen, um einen Schutz der psychoakustisch entscheidenden Bitgruppen vor Fehlern zu ermöglichen, die auf dem Übertragungsweg auftreten.
Zur Decodierung der übertragenen codierten Daten, die auf eine Faltungscodierung des Fehlerprüfcodes und der entscheidenden Bitgruppe sowie auf Vereinigen mit der Bitgruppe ausschließlich der entscheidenden Bitgruppe erzeugt werden, verarbeiten das Verfahren und die Vorrichtung das durch Faltungscodierung codierte Ausgangssignal mittels einer Faltungsdecodierung, wobei die entscheidende Bitgruppe einer Faltungsdecodierung unterzogen wird und einen Fehlerprüfcode hinzugefügt erhält. Die Bitgruppe ausschließlich der entscheidenden Bitgruppe gibt das einer Faltung unterzogenen decodierte Ausgangssignal ab, und es erfolgt eine Überprüfung auf einen Übertragungsfehler unter Heranziehung des Fehlerprüfcodes, der dem durch Faltungsdecodierung decodierten Ausgangssignal angehängt ist. Das durch Faltungsdecodierung decodierte Ausgangssignal wird in Abhängigkeit vom Ergebnis der Fehlerprüfung eingestellt, und das eingestellte, durch Faltungsdecodierung decodierte Ausgangssignal wird mittels einer Sprachdecodierung verarbeitet. Damit ist eine solche Decodierung der Sprache ermöglicht, dass die Absenkung der Tonqualität infolge von Fehlern, die auf Übertragungswegen auftreten, unterdrückt bzw. abgestellt ist.
Unterdessen ist es bei dem oben beschriebenen Decodierungsverfahren und bei der oben beschriebenen Decodierungsvorrichtung notwendig, eine Signalkontinuität hinsichtlich der Sprachsignale auf die Sprachdecodierung hin aufrecht zu erhalten, wenn das decodierte Ausgangssignal eingestellt wird, welches auf die Ergebnisse einer Fehlerermittlung hinsichtlich Übertragungsfehler unter Heranziehung des Fehlerprüfcodes anspricht, der dem durch Faltungsdecodierung decodierten Ausgangssignal angehängt ist.
Es wäre wünschenswert, ein Decodierungsverfahren und eine Decodierungsvorrichtung sowie einen ein Programm bereitstellenden Aufzeichnungsträger zu schaffen, durch die eine Signalkontinuität hinsichtlich der Sprachsignale soweit wie möglich aufrecht erhalten werden kann, um eine Decodierung mit hoher Sprachqualität zu ermöglichen.
In US 5.473.727 ist ein Codierungs- und Decodierungsverfahren angegeben, bei dem Daten codiert und sodann entsprechend den psychoakustischen Eigenschaften der Daten klassifiziert werden. In Abhängigkeit von Fehlern, die aus einer Übertragung resultieren, erfolgt sodann eine Rahmenmaskierung.
Die vorliegende Erfindung umfasst die Merkmale, wie sie im Patentanspruch angegeben sind.
Unter Bezugnahme auf die Zeichnungen werden bevorzugte Ausführungsformen der vorliegenden Erfindung im Einzelnen erläutert, auf die die Erfindung indessen nicht beschränkt ist. In den Zeichnungen zeigen
1 in einem Blockdiagramm die Struktur eines die vorliegende Erfindung verkörpernden tragbaren Telefongerätes,
2 in einem Blockdiagramm eine grundsätzliche Struktur eines das tragbare Telefongerät bildenden Sprachcodierers,
3 in einem Blockdiagramm einen detaillierten Aufbau des Sprachcodierers,
4 Parameter, die für Bitraten von 2kbps und 4kbps gemeinsam vorgesehen sind,
5 Parameter, die lediglich für 4kbps geeignet sind,
6 eine Klassenaufteilung von stimmhaften Sprachparametern bei der Bitrate von 2kbps,
7 eine Klassenaufteilung von stimmlosen Parametern bei der Bitrate von 2kbps,
8 eine Klassenaufteilung von stimmhaften Sprachparametern bei der Bitrate von 4kbps,
9 eine Klassenaufteilung stimmlosen Sprach- bzw. Tonparametern bei der Bitrate von 4kbps,
10 eine eingangsseitige Folge von stimmhaften Sprachparametern für einen Kanalcodierer mit einer Bitrate von 2kbps,
11 eine eingangsseitige Folge von stimmlosen Ton- bzw. Sprachparametern für einen Kanalcodierer mit der Bitrate von 2kbps,
12 eine eingangsseitige Folge von stimmhaften Sprachparametern für einen Klasse-I-Bit-Kanalcodierer mit der Bitrate von 4kbps,
13 eine eingangsseitige Folge von stimmhaften Sprachparametern für eine Klasse-II- bis -V-Bit-Kanalcodierer mit der Bitrate von 4kbps,
14 eine eingangsseitige Folge von stimmhaften Sprachparametern für einen Klasse-VI- und Klasse-VII-Bit-Kanalcodierer mit der Bitrate von 4kbps,
15 eine eingangsseitige Folge von stimmlosen Ton- bzw. Sprachparametern für einen Klasse-I-Bit-Kanalcodierer mit der Bitrate von 4kbps,
16 eine eingangsseitige Folge von stimmlosen Ton- bzw. Sprachparametern für einen Klasse-II- bis Klasse-V-Bit-Kanalcodierer mit der Bitrate von 4kbps,
17 eine eingangsseitige Folge von stimmlosen Tonparametern für einen Klasse-VI- und Klasse-VII-Kanalcodierer mit der Bitrate von 4kbps,
18 eine Bitzuweisung der Klasse I bis Klasse VI des stimmhaften Klanges von 2kbps und der Klasse II bis Klasse VII des stimmhaften Klanges von 4kbps,
19 einen Zustandsübergang zur Veranschaulichung der Arbeitsweise eines das tragbare Telefongerät darstellenden Übertragungsweg-Decoders,
20 die Werte von Interpolationskoeffizienten P, die in einer Gleichung (7) benutzt werden,
21 die Festlegung einer dämpfungsvariablen bzw. variablen Dämpfung, die zur Steuerung der Tonlautstärke einer Abgabesprache in Abhängigkeit vom Wert der Zustandsvariablen Zustand herangezogen wird,
22 Werte von s[i], die in einer Gleichung (10) verwendet werden,
23 in einem Blockdiagramm einen Grundaufbau des Sprachdecoders,
24 in einem Blockdiagramm einen detaillierten Ausbau des Sprachdecoders,
25 ein Ablaufdiagramm zur Veranschaulichung des Codierungsverfahrens, welches durch das tragbare Telefongerät ausgeführt wird,
26 ein Ablaufdiagramm zur Veranschaulichung des Decodierungsverfahrens, welches von dem tragbaren Telefongerät ausgeführt wird,
27 ein Blockdiagramm eines Übertragungssystems, bei dem die vorliegende Erfindung angewandt werden kann,
28 ein Blockdiagramm eines Servers, der das obige Übertragungssystem darstellt, und
29 ein Blockdiagramm, welches ein Client-Terminal veranschaulicht, welche das Übertragungssystem darstellt.
Die dargestellte Ausführungsform ist auf ein tragbares Telefongerät gerichtet, welches eine Decodierungsvorrichtung als spezifiziertes Beispiel des Decodierungsverfahrens und der Decodierungsvorrichtung gemäß der vorliegenden Erfindung aufweist, wie dies in 1 veranschaulicht ist. Das tragbare Telefongerät enthält außerdem eine Codierungsvorrichtung zum Codieren der Sprache mit einer niedrigen Bitrate von beispielsweise 2kbps oder 4kbps.
Die Codierungsvorrichtung teilt ein eingangsseitiges Sprachsignal in jeweils eine Codierungseinheit auf der Zeitachse auf und codiert das Sprachsignal von einer Codierungseinheit zur anderen, um eine Vielzahl von Arten von Sprachcodierungsparametern zu erzeugen. Die Bits werden einer Vielzahl von Schutzklassen in Abhängigkeit von der psychoakustischen Empfindlichkeit von Bits auf Übertragungswegfehler der Sprachcodierungsparameter zugewiesen. Wenn beispielsweise die Bitrate gegeben ist mit 2kbps oder 4kbps, werden die Bits 6 bzw. 7 Klassen zugewiesen. Die Klassenzuweisung und die Sprachcodierungsparameter werden anschließend im Einzelnen erläutert.
Zunächst weist die Codierungsvorrichtung des vorliegenden tragbaren Telefongeräts einen Sprachcodierer 3, eine Klassenaufteilungs- und Eingabefolgen-Entscheidungseinheit 23 sowie einen Übertragungsweg-Codierer 4 auf. Der Sprachcodierer 3 teilt das eingangsseitige Sprachsignal auf der Zeitachse hinsichtlich einer zuvor festgelegten Codierungseinheit auf und codiert das eingangsseitige Signal jeder Codierungseinheit, um eine Vielzahl von Arten von Sprachcodierungsparametern abzugeben. Die Klassenaufteilungs- und Eingabefolgen-Entscheidungseinheit 23 klassifiziert die Vielzahl von Arten der Sprachcodierungsparameter von dem Sprachcodierer 3 in sechs bzw. sieben Klassen, falls die Bitrate 2kbps oder 4kbps beträgt, und zwar in Abhängigkeit von der psychoakustischen Empfindlichkeit der Bits auf Übertragungswegfehler, während die Biteingabefolge für den Übertragungsweg-Codierer 4 der nächsten Stufe bestimmt wird. Der Übertragungsweg-Codierer 4 erzeugt CRC-(zyklische Redundanzprüf-)-Codes in Abhängigkeit von den Klassen, die von der Klassenaufteilungs- und Eingabefolgen-Entscheidungseinheit 23 erhalten werden, und der Bit-Eingabefolge, und er wendet die CRC-Codes auf die Bits an. Der Übertragungsweg-Codierer 4 wendet gelegentlich eine Faltungscodierung auf die Bits zusätzlich zu den CRC-Codes im Zuge eines Schutzes an. Der Übertragungsweg-Codierer 4 nimmt gelegentlich keinen Schutz vor.
Die Klassenaufteilungs- und Eingabefolgen-Entscheidungseinheit 23 enthält eine Bit-Steuereinrichtung 23a und einen RAM-Speicher 23b. Die Bit-Steuereinrichtung 23a klassifiziert die Vielzahl von Arten der Sprachcodierungsparameter von dem Sprachcodierer 3 in Abhängigkeit von der psychoakustischen Empfindlichkeit der Bits auf Übertragungswegfehler, und zwar unter Heranziehung des RAM-Speichers 23b als Arbeitsbereich, während die Biteingabefolge bestimmt wird.
Der Übertragungsweg-Codierer 4 enthält eine CRC-Code-Recheneinheit bzw. Berechnungseinheit 5 und einen Faltungscodierer 6. Die CRC-Code-Recheneinheit 5 erzeugt einen CRC-(zyklischen Redundanz-Prüf-)-Code. Der Faltungscodierer 6 wendet gelegentlich bzw. zeitweise die Faltungscodierung auf die Bitgruppe an, der der CRC-Code in der CRC-Code-Recheneinheit 5 angehängt worden ist. Der Übertragungsweg-Codierer 4 gibt gelegentlich einfach die Bitgruppe ab, welcher der CRC-Code von der CRC-Code-Recheneinheit 5 angehängt worden ist. Der Übertragungsweg-Codierer 4 kann außerdem in Abhängigkeit von der Klasse die Bitgruppe ohne irgendeine Verarbeitung daran übertragen.
In dem tragbaren Telefongerät enthält die das Decodierungsverfahren und die Decodierungsvorrichtung gemäß der vorliegenden Erfindung anwendende Decodierungsvorrichtung einen Faltungsdecoder 16, der für eine Faltungsdecodierung der entscheidenden Bitgruppe, welcher der Fehlerkorrekturcode einfach angehängt ist, und der Bitgruppe ausschließlich der entscheidenden Bitgruppe geeignet ist; der betreffende Decoder gibt das Ergebnis der Faltungsdecodierung ab. Ferner enthält die betreffende Decodierungsvorrichtung eine CRC-Code-Komparator-Rahmenmaskierungseinheit 15 zum Vergleichen des CRC-Codes, der dem einer Faltungsdecodierung unterzogenen decodierten Ausgangssignal des Faltungsdecoders 16 angehängt ist, mit dem CRC-Code, der aus der Bitgruppe ausschließlich der entscheidenden Bitgruppe berechnet wird bzw. ist, um das der Faltungsdecodierung unterzogene decodierte Ausgangssignal einzustellen. Die Decodierungsvorrichtung weist außerdem einen Sprachdecoder 17 für eine Sprachdecodierung des einer Faltung unterzogenen decodierten Ausgangssignals der CRC-Code-Komparator- und Rahmenmaskierungseinheit 15 auf.
In dem vorliegenden tragbaren Telefongerät werden die Sprachsignale, die im Zuge der Übertragung in ein Mikrofon 1 eingegeben werden, mittels eines A/D-Wandlers 2 in digitale Signale umgesetzt, welche sodann mittels des Sprachcodierers 3 in codierte Parameter einer niedrigen Bitrate von 2kbps/4kbps codiert werden. Diese codierten Parameter werden durch die Klassenaufteilungs- und Eingabefolgen-Entscheidungseinheit 23 zur Klassifizierung und Eingabe der Folgeentscheidung verarbeitet. Die Parameter von der Klassenaufteilungs- und Eingabefolgen-Entscheidungseinheit 23 werden zu dem Übertragungsweg-Codierer 4 hin geleitet, in welchem sie derart codiert werden, dass die Qualität des Übertragungsweges weniger verantwortlich ist für eine Beeinflussung der Sprachqualität. Die codierten Parameter werden dann mittels eines Modulators 7 moduliert und dadurch zu Ausgangsbits verarbeitet, die über eine gemeinsame Antennen-Nutzungs- bzw. -Umschalteinrichtung 9 von einer Antenne 10 gesendet werden.
Während eines Empfangs werden die von der Antenne 10 aufgenommenen elektrischen Wellen über die Antennen-Umschalteinrichtung bzw. Antennenweiche 9 von einem Empfänger 11 empfangen und mittels eines Demodulators 13 derart demoduliert, dass sie sodann hinsichtlich Übertragungsfehler durch den Sprachcodierer 17 korrigiert und mittels eines D/A-Wandlers 18 in analoge Sprachsignale zurück umgesetzt werden, die von einem Lautsprecher 19 abgegeben werden.
Eine Steuereinrichtung 20 steuert die oben erwähnten verschiedenen Teile, während eine Synthesiziereinrichtung bzw. ein Synthesizer 12 einem Sender 8 und dem Empfänger 11 die Sende-/Empfangsfrequenz mitteilt. Eine Tastatur 21 und eine LCD-Anzeigeeinrichtung 22 werden als Mensch-Maschine-Schnittstelle genutzt.
In dem oben beschriebenen tragbaren Telefongerät wählt die CRC-Code-Recheneinheit 5, die den Übertragungsweg-Codierer 4 darstellt, einen Teil oder sämtliche der Linienspektrumspaar-LSP-Parameter, die generell die Form des Frequenzspektrums der Sprachsignale festlegen, welche in der Klassenaufteilungs- und Eingabefolgen-Entscheidungseinheit 23 klassifiziert und hinsichtlich ihrer Eingangsfolge festgelegt sind, sämtliche stimmhaften (V)/stimmlosen (UV) Entscheidungsparameter, die angeben, ob die Sprachsignale stimmhaft (V) oder stimmlos (UV) sind, einen Teil oder sämtliche der Tonhöhenparameter, wenn die Sprachsignale stimmhafte Sprachsignale sind, einen Teil oder sämtliche der Spektrums-Codebuchindices und Verstärkungsindices, welche die Spektrums-Hüllkurve von Restsignalen einer linearen Prädiktionscodierung (LPC) angeben, wenn Sprachsignale stimmhafte Sprachsignale sind, und einen Teil oder sämtliche der Rausch-Codebuch-Indices und der Verstärkungs-Codebuch-Indices von Restsignalen der linearen Prädiktionscodierung (LPC) aus, wenn die Sprachsignale stimmlose Sprachsignale sind, um daraus CRC-Codes zu erzeugen.
Diese Sprachcodierungsparameter werden in dem Sprachcodierer 3 gewinnen. Das Sprachcodierungsverfahren, welches durch den Sprachcodierer 3 ausgeführt wird, umfasst einen kurzen Prädiktionsrest-Berechnungsschritt zur Ermittlung von kurzen Prädiktionsresten des eingangsseitigen Sprachsignals, einen Sinuswellenanalyse-Codierungsschritt zur Sinuswellenanalyse und Codierung der berechneten Kurzterm-Prädiktionsfehler und einen Wellenform-Codierungsschritt zum Codieren des eingangsseitigen Sprachsignals durch eine Wellenformcodierung. Dieser Sprachcodierer 3 wird nunmehr unter Bezugnahme auf 2 und 3 erläutert.
Das Grundkonzept des Sprachcodierers 3 gemäß 2 liegt in der Anwendung einer ersten Codiereinheit 110 zur Ermittlung von Kurzterm-Prädiktionsfehlern, wie LPC-(linearen Prädiktionscodierungs-)-Resten von eingangsseitigen Sprachsignalen, um eine sinusförmige Analyse-Codierung auszuführen, wie eine Oberwellen-Codierung, und einer zweiten Codierungseinheit 120 zum Codieren des eingangsseitigen Sprachsignals durch eine Wellenformcodierung, die eine Phasenreproduzierbarkeit in Bezug auf das eingangsseitige Sprachsignal zeigt, sowie in der Anwendung der ersten Codierungseinheit 110 und der zweiten Codierungseinheit 120 zum Codieren des stimmhaften (V) Anteiles bzw. des stimmlosen (UV) Anteiles des eingangsseitigen Sprachsignals.
Die erste Codierungseinheit 110 benutzt eine Konfiguration zur Ausführung einer sinusförmigen Analyse-Codierung, wie einer Oberwellencodierung oder einer Mehrband-Erregungs-(MBE)-Codierung bezüglich der LPC-Reste. Die zweite Codierungseinheit 120 benutzt die Konfiguration der Code-Erregungs-Linear-Prädiktions-(CELP)-Codierung, die die Vektorquantisierung durch eine Suche in einer geschlossenen Schleife nach einem optimalen Vektor benutzt, beispielsweise durch eine Analyse nach einem Syntheseverfahren.
Beim Beispiel von 2 wird das einem Eingangsanschluss 101 zugeführte Sprachsignal zu einem LPC-Invers-Filter 111 und einer LPC-Analyse-Quantisierungseinheit 113 der ersten Codierungseinheit 110 hingeleitet. Die LPC-Koeffizienten oder der sogenannte α-Parameter, der von der LPC-Analyse-Quantisierungseinheit 113 erhalten wird, wird dem LPC-Invers-Filter 111 zugeführt, von dem lineare Prädiktionsreste (LPC-Reste) des eingangsseitigen Sprachsignals wiedergewonnen werden. Von der LPC-Analyse-Quantisierungseinheit 113 wird ein quantisiertes Ausgangssignal des Linienspektrumspaares (LSP) entnommen und einem Ausgangsanschluss 102 zugeführt. Die LPC-Reste von dem LPC-Invers-Filter 111 werden einer mit einer sinusförmige Analyse arbeitenden Codierungseinheit 114 zugeführt, die imstande ist, eine Tonhöhenermittlung, Berechnungen der Spektral- Hüllkurvenamplituden und eine V/UV-Entscheidung durch eine V/UV-(stimmhaft/stimmlos)-Entscheidungseinheit 115 auszuführen. Die Spektralhüllkurven-Amplitudendaten von der mit einer sinusförmigen Analyse arbeitenden Codierungseinheit 114 werden an eine Vektor-Quantisierungseinheit 116 abgegeben. Der Codebuchindex von der Vektor-Quantisierungseinheit 116 als ein Vektor-Quantisierungsausgangssignal der Spektralhüllkurve wird über einen Schalter 117 an den Ausgangsanschluss 103 abgegeben. Ein Ausgangssignal der mit einer sinusförmigen Analyse arbeitenden Codierungseinheit 114 wird über einen Schalter 118 an den Ausgangsanschluss 103 abgegeben. Ein V/UV-Entscheidungs-Ausgangssignal von der V/UV-Entscheidungseinheit 115 wird dem Ausgangsanschluss 105 zugeführt, während es außerdem an die Schalter 117, 118 als deren Steuersignale abgegeben wird, so dass in dem Fall, dass das eingangsseitige Sprachsignal stimmhaft (V) ist, der Index und die Tonhöhe ausgewählt und an den Ausgangsanschlüssen 103 bzw. 104 abgenommen werden.
Die zweite Codierungseinheit 120 gemäß 2 weist eine Code-Erregungs-Linear-Prädiktions-(CELP)-Codierungsstruktur auf, und sie führt eine Vektor-Quantisierung der Zeitbereichs-Wellenform durch ein Suchverfahren mit geschlossener Schleife aus, welches aus dem Synthetisieren eines Ausgangssignals eines Rausch-Codebuches 121 mittels eines gewichteten Synthesefilters 122, dem Weiterleiten der resultierenden gewichteten Sprache zu einer Subtrahiereinrichtung 123, um davon einen Fehler aus der Sprache heranzuziehen, welche dem Eingangsanschluss 101 zugeführt und durch ein psychoakustisches Gewichtungsfilter 125 geleitet ist, und der Abgabe des Fehlers an eine Distanz-Rechenschaltung 124 besteht, um die Distanz zu berechnen und einen Vektor zu suchen, der den Fehler minimiert. Die CELP-Codierung wird zum Codieren des sprachlosen Sprachanteiles des Codebuchindex benutzt, wenn die UV-Daten von der CELP-Codierung an einem Ausgangsanschluss 107 über einen Schalter 127 entnommen werden, der eingeschaltet ist, wenn das Ergebnis der V/UV-Entscheidung von der V/UV-Entscheidungseinheit 115 einen stimmlosen (UV) Klang bzw. Ton angibt.
3 zeigt einen detailierteren Aufbau des Sprachcodierers 3. In 3 sind solche Teile oder Komponenten, die jenen von 2 entsprechen, mit denselben Bezugszeichen wie dort bezeichnet.
Bei dem in 3 dargestellten Sprachcodierer 3 wird das dem Eingangssignal 101 zugeführte Sprechsignal mittels eines Hochpassfilters (HPF) 109 gefiltert, um Signale eines nicht benötigten Frequenzbereiches zu entfernen. Das gefilterte Ausgangssignal wird einer LPC-Analyseschaltung 132 einer LPC-(lineare Prädiktionscodierungs-)- Analyse-Quantisierungseinheit 113 und einer LPC-Nachfilterungsschaltung 111 zugeführt.
Die LPC-Analyseschaltung 132 der LPC-Analyse-Quantisierungseinheit 113 wendet ein Hamming-Fenster bei einer Länge der Eingangssignal-Wellenform in der Größenordnung von 256 Abtastproben als einen Block an, um lineare Prädiktionskoeffizienten durch ein Autokorrelationsverfahren zu ermitteln, das sind sogenannte α-Parameter. Das Rahmenintervall als Datenabgabe- bzw. Datenausgabeeinheit liegt in der Größenordnung von 160 Abtastproben. Bei der Abtastfrequenz fs von beispielsweise 8 kHz umfasst das Rahmenintervall 160 Abtastproben oder 20 ms.
Der α-Parameter von der LPC-Analyseschaltung 132 wird an eine α-LSP-Umsetzungsschaltung 133 zur Umsetzung in einen Linienspektrumspaar-(LSP)-Parameter abgegeben. Diese Umsetzungsschaltung setzt die α-Parameter, die als Filterkoeffizienten eines direkten Typs ermittelt sind, beispielsweise in 10 Parameter um, das heißt in fünf Paare von LSP-Parametern. Die Umsetzung erfolgt beispielsweise nach dem Newton-Rhapson-Verfahren. Der Grund für die Vornahme der Umsetzung in LSP-Parameter liegt darin, dass die LSP-Parameter hinsichtlich der Interpolationscharakteristiken den α-Parametern überlegen sind.
Die LSP-Parameter von der α-LSP-Umsetzungsschaltung 133 erfahren durch die LSP-Quantisierungseinrichtung 134 eine Matrix- oder Vektor-Quantisierung. In diesem Fall wird die Zwischenrahmendifferenz vor einer Vektor-Quantisierung herangezogen, oder es wird eine Vielzahl von Rahmen gemeinsam herangezogen und einer Matrix-Quantisierung unterzogen. Hier werden zwei Rahmen von LSP-Parametern, die bei einem Rahmen von 20 ms alle 20 ms berechnet werden, zusammen herangezogen und einer Matrix-Quantisierung und einer Vektor-Quantisierung unterzogen.
Ein quantisiertes Ausgangssignal einer LSP-Quantisierungseinrichtung 134, das heißt der Index der LSP-Quantisierung, wird an einem Ausgangsanschluss 102 abgenommen, während der quantisierte LSP-Vektor an eine LSP-Interpolationsschaltung 136 abgegeben wird.
Die LSP-Interpolationsschaltung 136 interpoliert den LSP-Vektor, der alle 20 ms oder alle 40 ms quantisiert ist, um die Abtastrate um einen Faktor von 8 zu erhöhen, so dass der LSP-Vektor alle 2,5 ms aktualisiert wird. Der Grund hierfür liegt darin, dass dann, wenn die Rest-Wellenform nach dem Oberwellen-Codierungs-/-Decodierungsverfahren einer Analyse-Synthese unterzogen wird, die Hüllkurve der synthetisierten Wellenform extrem gleichmäßig verläuft, so dass dann, wenn die LPC-Koeffizienten extrem schnell geändert werden, die Neigung zur Erzeugung von Fremdtönen besteht. Dies bedeutet, dass dann, wenn die LPC-Koeffizienten lediglich graduell alle 2,5 ms geändert werden, die Erzeugung eines derartigen Fremdtones verhindert werden kann.
Zur Ausführung der Nachfilterung in dem Fall, dass die eingangsseitige Sprache den auf 2,5 ms basierten interpolierten LSP-Vektor verwendet, wird der LSP-Parameter durch eine LSP-α-Umsetzungsschaltung 137 in α-Parameter umgesetzt, bei denen es sich um Koeffizienten eines Filters vom direkten Typ mit einer Ordnung in der Größenordnung von 10 handelt. Ein Ausgangssignal der LSP-α-Umsetzungsschaltung 137 wird der LPC-Nachfilterungsschaltung 111 zugeführt, in der eine Nachfilterung mit dem alle 2,5 ms aktualisierten α-Parameter ausgeführt wird, um ein gleichmäßiges Ausgangssignal zu realisieren. Ein Ausgangssignal der LPC-Nachfilterungsschaltung 111 wird an eine eine orthogonale Umsetzung vornehmende Umsetzungsschaltung 145 abgegeben, wie an eine eine diskrete Fouriertransformation vornehmende Transformationsschaltung der mit einer sinusförmigen Analyse arbeitenden Codierungseinheit 114, insbesondere einer Oberwellen-Codierungsschaltung.
Der α-Parameter von der LPC-Analyseschaltung 132 der LPC-Analyse-Quantisierungseinheit 113 wird an eine ein psychoakustisches Gewichtungsfilter umfassende Berechnungsschaltung 139 abgegeben, in der Daten für die psychoakustische Empfindlichkeit ermittelt werden. Diese gewichteten Daten werden an die psychoakustisch gewichtete Vektor-Quantisierungseinheit 116, an das psychoakustisch gewichtete Filter 125 der zweiten Codierungseinheit 120 und an das psychoakustisch gewichtete Synthesefilter 122 abgegeben.
In der mit einer sinusförmigen Analyse arbeitenden Codierungseinheit 114, wie in der Oberwellen-Codierungsschaltung wird ein Ausgangssignal der LPC-Nachfilterungsschaltung 111 nach einem Oberwellen-Codierungsverfahren analysiert. Dies bedeutet, dass die mit einer sinusförmigen Analyse arbeitenden Codierungseinheit 114 die Tonhöhe ermittelt, die Amplitude Am der jeweiligen Oberwellen berechnet und eine V/UV-Unterscheidung vornimmt. Die mit einer sinusförmigen Analyse arbeitende Codierungseinheit 114 nimmt auch eine dimensionsmäßige Umsetzung der Zahl der Amplituden Am oder der Hüllkurve von Oberwellen, die sich mit der Tonhöhe ändert, in eine konstante Zahl vor.
Bei einem bestimmten Beispiel der mit einer sinusförmigen Analyse arbeitenden Codierungseinheit 114, wie sie in 3 dargestellt ist, wird eine Routine- Oberwellencodierung vorausgesetzt. Insbesondere bei einer Mehrband-Erregungs-(MBE)-Codierung wird eine Modellierung unter der Annahme ausgeführt, dass ein stimmhafter Anteil und ein stimmloser Anteil in jedem Frequenzbereich oder -band gleichzeitig vorhanden sind, das heißt im selben Block oder Rahmen. Bei anderen Formen der Oberwellencodierung erfolgt eine alternative Entscheidung darüber, ob die Sprache in einem Block oder Rahmen stimmhaft oder stimmlos ist. Bei der folgenden Erläuterung bedeutet V/UV auf der Rahmenbasis, dass V/TV eines bestimmten gegebenen Rahmens angewandt wird bzw. ist, wenn das gesamte Band im Falle der MBE-Codierung gegeben ist mit UV. Unterdessen ist in dem offengelegten japanischen Patent H-5-265487 von der Anmelderin der vorliegenden Anmeldung ein spezifiziertes Beispiel für die Synthese durch ein Analyseverfahren von MBE angegeben worden.
Eine Tonhöhen-Sucheinheit 141 mit offener Schleife der mit sinusförmiger Analyse arbeitenden Codierungseinheit 114 gemäß 3 erhält ein eingangsseitiges Sprachsignal von dem Eingangsanschluss 101 zugeführt, während ein Nulldurchgangs-Zähler 142 ein Signal von einem Hochpassfilter (HPF) 109 zugeführt erhält. Die eine orthogonale Umsetzung vornehmende Umsetzungsschaltung 145 der mit sinusförmiger Analyse arbeitenden Codierungseinheit 114 werden LPC-Reste oder lineare Prädiktionsreste von der LPC-Nachfilterungsschaltung 111 zugeführt. Die Tonhöhen-Sucheinheit 141 mit offener Schleife zieht die LPC-Reste des Eingangssignals dazu heran, um eine relativ grobe Tonhöhensuche unter Heranziehung der LPC-Reste des Eingangssignals vorzunehmen. Die extrahierten groben Tonhöhendaten werden einer hochgenauen Tonhöhen-Sucheinheit 146 zugeführt, in der eine hochgenaue Tonhöhen-Suche durch die geschlossene Schleife ausgeführt wird, wie dies später erläutert wird (feine Tonhöhensuche). Von der Tonhöhen-Sucheinheit 141 mit offener Schleife wird der maximale normierte Autokorrelationswert r(p), der auf eine Normierung des Maximalwertes der Autokorrelation der LPC-Reste erhalten wird, zusammen mit den groben Tonhöhendaten entnommen und der V/UV-Entscheidungseinheit 115 zugeführt.
Die Orthogonal-Umsetzungsschaltung 145 führt eine orthogonale Transformationsverarbeitung, wie eine diskrete Cosinus-Transformation (DCT) aus, um LPC-Reste auf der Zeitachse in Spektral-Amplitudendaten zu transformieren. Ein Ausgangssignal der Orthogonal-Umsetzungsschaltung 145 wird zu der hochgenauen Tonhöhen-Sucheinheit 146 und zu einer Spektrums-Bewertungseinheit 148 übertragen.
Der hochgenauen (Fein)-Tonhöhen-Sucheinheit 146 werden Daten einer relativ groben Tonhöhe zugeführt, die durch die Tonhöhen-Sucheinheit 141 mit offener Schleife extrahiert sind, sowie Daten im Frequenzbereich, die durch die Tonhöhen-Sucheinheit 141 mit offener Schleife extrahiert sind. In dieser hochgenauen Tonhöhen-Sucheinheit 146 werden Tonhöhendaten um ± mehrere Abtastproben zum Hin- und Herschwingen gebracht, und zwar mit dem Datenwert der groben Tonhöhe als Mitte, um sich an Werte von feinen Tonhöhendaten anzunähern, die einen optimalen Dezimalpunkt (Gleiten) aufweisen. Als Fein-Suchverfahren wird das sogenannte Verfahren der Analyse durch Synthese angewandt, und die Tonhöhe wird so gewählt, dass das synthetisierte Leistungsspektrum am dichtesten bei dem Leistungsspektrum der Originalsprache liegt. Die Tonhöhendaten von der hochgenauen Tonhöhen-Sucheinheit 146 mit der geschlossenen Schleife werden über den Schalter 118 zu dem Ausgangsanschluss 104 übertragen.
In der Spektrums-Bewertungseinheit 148 werden die Größe bzw. Höhe der jeweiligen Oberwellen und eine Spektralhüllkurve, wie sie festgelegt ist, auf der Grundlage der Tonhöhe und der Spektralamplitude bezüglich eines orthogonalen Transformations-Ausgangssignals der LPC-Reste bewertet. Das Ergebnis der Bewertung wird zu der hochgenauen Tonhöhen-Sucheinheit 146, zu der V/UV-Entscheidungseinheit 115 und zu der psychoakustisch gewichteten Vektor-Quantisierungseinheit 116 übertragen.
In der V/UV-Entscheidungseinheit 115 erfolgt eine V/UV-Entscheidung bzw. -Bestimmung bezüglich eines fraglichen Rahmens auf der Grundlage eines Ausgangssignals der Orthogonal-Umsetzungsschaltung 145, eines optimalen Tonhöhensignals von der hochgenauen Tonhöhen-Sucheinheit 146, den Amplitudendaten von der Spektrums-Bewertungseinheit 148, eines maximal normierten Autokorrelationswertes r(p) von der Tonhöhen-Sucheinheit 141 mit offener Schleife und des Wertes von Nulldurchgängen von dem Nulldurchgangs-Zähler 142. Die Grenzlage des Ergebnisses der bandbasierten V/UV-Bestimmung im Falle der MBE-Codierung kann auch als Zustand bzw. Bedingung der V/UV-Bestimmung bzw. -Entscheidung des in Frage stehenden Rahmens herangezogen werden. Ein Entscheidungs- bzw. Bestimmungs-Ausgangssignal der V/UV-Entscheidungseinheit 115 wird über den Ausgangsanschluss 105 abgenommen.
Ein Ausgangssignal der Spektrums-Bewertungseinheit 148 oder ein Eingangssignal der Vektor-Quantisierungseinheit 116 wird mit einer Zahl der Datenumsetzungseinheit 119 bereitgestellt, bei der es sich um eine Art einer Abtastraten-Umsetzungseinheit handelt. Diese Zahl der Datenumsetzeinheit wird zur Festlegung der Amplitudendaten |A_m| der Hüllkurve auf eine konstante Zahl betrieben, und zwar unter Berücksichtigung des Umstandes, dass die Anzahl der Bänder, die im Frequenzbereich aufgeteilt sind, mit der Tonhöhe variiert und dass folglich die Anzahl an Daten variiert. Dies bedeutet, dass dann, wenn das effektive Band bis zu 3400kHz reicht, dieses effektive Band in 8 bis 63 Bänder aufgeteilt ist, und zwar in Abhängigkeit von der Tonhöhe, so dass die Anzahl m_MX+1 der Amplitudendaten |A_m|, welche von Band zu Band erhalten werden, ebenfalls in einem Bereich von 8 bis 63 variiert. Somit setzt die Zahl der Datenumsetzeinheit 119 diese variable Zahl m_MX+1 von Amplitudendaten in eine konstante Zahl M, beispielsweise in 44 Daten um.
Die oben erwähnte konstante Zahl M, wie 44 Amplitudendaten oder Hüllkurvendaten von der Zahl der Datenumsetzeinheit, die am Ausgang der Spektrums-Bewertungseinheit 148 oder an einem Eingang der Vektor-Quantisierungseinheit 116 vorgesehen ist, wird hinsichtlich einer zuvor festgelegten Zahl von Daten, wie von 44 Daten, als Vektoren gemeinsam herangezogen, welche einer gewichteten Vektor-Quantisierung unterzogen werden. Diese Gewichtung wird durch ein Ausgangssignal der psychoakustisch gewichteten Filter-Rechenschaltung 139 erteilt. Ein Index idS der oben erwähnten Hüllkurve von der Vektor-Quantisierungseinheit 116 wird an dem Ausgangsanschluss 103 über einen Schalter 117 abgegeben. Unterdessen kann eine Zwischenrahmen- bzw. Interframe-Differenz unter Anwendung eines geeigneten Verlustkoeffizienten für einen Vektor herangezogen werden, der aus einer vorher festgelegten Anzahl von Daten besteht, bevor die gewichtete Vektor-Quantisierung erfolgt.
Nachstehend wird die zweite Codierungseinheit 120 erläutert. Die zweite Codierungseinheit 120 ist von der sogenannten CELP-(Code Excited Linear Prediction)-Prädiktion, und sie wird speziell zur Codierung des stimmlosen Anteils des eingangsseitigen Sprachsignals herangezogen. Bei dieser CELP-Codierungskonfiguration für den stimmlosen Sprachanteil wird ein Rausch-Ausgangssignal entsprechend den LPC-Resten der stimmlosen Sprache als kennzeichnendes Ausgangssignal des Rausch-Codebuchs oder eines so genannten stochastischen Codebuchs 121 durch eine Verstärkungsschaltung 126 zu dem psychoakustisch gewichteten Synthesefilter 122 übertragen. Das gewichtete Synthesefilter 122 nimmt eine LPC-Synthese des eingangsseitigen Rauschens vor, um das resultierende Signal der gewichteten stimmlosen Sprache an eine Subtrahiereinrichtung 123 abzugeben. Der Subtrahiereinrichtung werden Sprachsignale zugeführt, die von dem Eingangsanschluss 101 über ein Hochpassfilter (HPF) 109 geliefert werden und die durch ein psychoakustisches Gewichtungsfilter 125 psychoakustisch gewichtet werden, um eine Differenz oder einen Fehler aus einem Signal von dem Synthesefilter 122 zu entfernen. Es sei darauf hingewiesen, dass eine Null-Eingangsantwort des psychoakustischen Gewichtungs-Synthesefilters am Anfang von einem Ausgangssignals des psychoakustischen Gewichtungsfilters 125 zu subtrahieren ist. Dieser Fehler wird zu einer Distanz-Rechenschaltung 124 übertragen, um Distanzberechnungen zum Zwecke der Ermittlung eines repräsentativen Wertevektors vorzunehmen, der den Fehler durch das Rausch-Codebuch 121 minimiert. Es ist die Zeitbereichs-Wellenform, welche die Suche mit geschlossener Schleife anwendet, die wiederum das Verfahren der Analyse durch Synthese anwendet, welche vektor-quantisiert ist.
Als Daten für den UV-Anteil (stimmlos) von der zweiten Codierungseinheit 120, welche die CELP-Codierungskonfiguration anwendet, werden der Formindex idSI des Codebuches von dem Rausch-Codebuch 121 und der Verstärkungsindex idGI des Codebuches von einer Verstärkungsschaltung 126 herausgenommen. Der Formindex idSI, bei dem es sich um die UV-Daten von dem Rausch-Codebuch 121 handelt, werden über einen Schalter 127s zu einem Ausgangsanschluss 107s übertragen, während der Verstärkungsindex idGI, bei dem es sich um die UV-Daten der Verstärkungsschaltung 126 handelt, über einen Schalter 127g zu einem Ausgangsanschluss 107g übertragen werden.
Diese Schalter 127s, 127g und die oben erwähnten Schalter 117, 118 werden auf der Grundlage der Ergebnisse der V/UV-Unterscheidung von der V/UV-Entscheidungseinheit 115 her hinsichtlich des EIN/AUS-Zustands gesteuert. Die Schalter 117, 118 werden bzw. sind eingeschaltet, wenn die Ergebnisse der V/UV-Entscheidung der Sprachsignale des Rahmens, der nunmehr zu übertragen ist, einen stimmhaften Ton (V) angeben, während die Schalter 127s, 127g eingeschaltet werden bzw. sind, wenn die Sprachsignale des Rahmens, der nunmehr zu übertragen ist, einen stimmlosen Ton (UV) angeben.
Die durch den oben beschriebenen Sprachcodierer 3 abgegebenen Parameter, das sind LSP-Parameter LSP, Stimmhaft-/Stimmlos-Unterscheidungsparameter V/UV, Tonhöhen-Parameter PCH, der Codebuch-Parameter idS und der Verstärkungsindex idG der Spektralhüllkurve, Rausch-Codebuch-Parameter idSI und der Verstärkungsindex idGI, werden in eine 2/4-kbps-Codierung klassifiziert, und außerdem werden die Zahlen von zugeteilten Bits angegeben, wie dies in 4 und 5 veranschaulicht ist. 4 zeigt Parameter, die für 2kbps und für 4kbps gemeinsam vorgesehen sind, während 5 Parameter zeigt, die lediglich für 4kbps geeignet sind. Die in 4 und 5 gezeigten Parameter sind jene pro Rahmen.
Die LSP-Parameter sind in LSP0, LSP2, LSP3, LSP4 und LSP5 klassifiziert. Der Parameter LSP0 stellt den Codebuch-Index des LSP-Parameters zehnter Ordnung dar, und er wird als Basisparameter der Hüllkurve verwendet. In einem Rahmen von 20 ms sind dem Parameter LSP0 5 Bits zugewiesen. Beim Parameter LSP2 handelt es sich um einen Codebuch-Index eines LSP-Parameters für eine Fehlerkorrektur des niedrigen Frequenzbereichs fünfter Ordnung; dem betreffenden Parameter sind 7 Bits zugewiesen. Beim Parameter LSP3 handelt es sich um einen Codebuch-Index eines LSP-Parameters für eine Fehlerkorrektur des hohen Frequenzbereichs fünfter Ordnung, und dem betreffenden Parameter sind 5 Bits zugewiesen. Beim Parameter LSP5 handelt es sich um einen Codebuch-Index eines LSP-Parameters für eine Fehlerkorrektur des vollen Frequenzbereiches zehnter Ordnung, und dem betreffenden Parameter sind 8 Bits zugewiesen. Von diesen Parametern stellen die Parameter LSP2, LSP3 und LSP5 Indices dar, die zur Kompensation des Fehlers der vorhergehenden Stufe verwendet werden und die zusätzlich benutzt werden, wenn der Parameter LSP0 nicht imstande gewesen ist, die Hüllkurve ausreichend darzustellen. Beim Parameter LSP4 handelt es sich um ein 1-Bit-Auswahlkennzeichen zur Vornahme einer Auswahl in Abhängigkeit davon, ob der Codierungsmodus zur Zeit der Codierung der direkte Modus oder der Differenzmodus ist. Genauer gesagt gibt dies die Auswahl eines Modus mit einer kleineren LSP-Differenz zwischen dem LSP-Parameter des direkten Modus, wie er durch Quantisierung ermittelt wird bzw. ist, und dem LSP-Parameter an, der durch die quantisierte Differenz ermittelt wird bzw. ist. Falls LSP4 gegeben ist mit 0 oder 1, ist der Modus der direkte Modus bzw. der Differenzmodus.
Der VUV-Parameter stellt ein Kennzeichen dar, welches angibt, ob die codierten Sprachdaten in einem zuvor festgelegten Rahmen stimmhaft oder stimmlos sind (stimmhaft/stimmlos), und ihm sind 2 Bits zugewiesen.
Der PCH-Parameter stellt einen Tonhöhen-Parameter dar, bei dem es sich um Tonhöhendaten von der hochgenauen Tonhöhen-Sucheinheit 146 durch die geschlossene Schleife handelt, wie dies oben erörtert worden ist. Dazu sind dem Tonhöhen-Parameter 7 Bits zugewiesen.
Falls der Codebuch-Parameter idS der Spektral-Hüllkurve 2kbps betrifft, ist der Codebuch-Parameter in einen nullten LPC-Restspektral-Codebuch-Index, der als idS0 angegeben ist, und in den ersten LPC-Rest-Codebuch-Index aufgeteilt, der durch idSI angegeben ist. Die nullten und ersten LPC-Restspektral-Codebuch-Indices stellen Indices dar, die den entsprechenden Codebüchern zugehörig sind. Das LPC-Restspektrum wird durch Hinzufügung der beiden daraus ausgewählten Codebücher gebildet. Die Größe idG stellt den LPC-Restspektrumsverstärkungs-Codebuch-Index dar, dem 5 Bits zugewiesen sind. Falls der Codebuch-Parameter idS der Spektral-Hüllkurve 4kbps betrifft, erfolgt eine Aufteilung in den durch idS0_4k angegebenen LPC-Restspektral-Codebuch-Index nullter Erweiterung, in den durch idS1_4k angegebenen LPC-Restspektral-Codebuchindex erster Erweiterung, in dem durch idS2_4k angegebenen zweiten Erweiterungs-LPC-Restspektral-Codebuchindex und in den durch idS3_4k angegebenen dritten Erweiterungs-LPC-Restspektral-Codebuch-Index. Den Indices idS0_4k, idS1_4k, idS2_4k und idS3_4k werden 7, 10, 9 bzw. 6 Bits zugewiesen.
Es sei darauf hingewiesen, dass die Indices idS0_4k und so weiter Fehlerkomponenten zwischen dem quantisierten LPC-Restspektrum korrigieren, welches mit idS0, idS1 und idG erhalten wird, und der Korrekturbereich ist vom Bereich niedriger Frequenz bis zum Bereich hoher Frequenz in Richtung zu idS3_4k zugewiesen.
Die übrigen Parameter werden für einen stimmlosen Ton bzw. Klang benutzt. Genauer gesagt bezeichnen die Parameter mit SL, wie idSL00 oder idSL11 Rausch-Codebuchindices, während jene mit GL, wie idGL00 oder idGL11 die Rauschcodebuch-Verstärkungscodebuch-Indices angeben. Dazu sind den Parametern idSL00, idSL01, idGL00 und idGL01 hier 6, 6, 4 bzw. 4 Bits zugewiesen. 5 Bits sind den Parametern idSL10, idSL11, idSL12 und idSL13 zugewiesen, während 3 Bits den Parametern idGL10, idGL11, idGL12 und idGL13 zugewiesen sind.
Die in 4 und 5 dargestellten Parameter sind durch die Klassenaufteilungs- und Eingabefolgen-Entscheidungseinheit 23 in eine Vielzahl von Klassen aufgeteilt und zwar in Abhängigkeit von der psychoakustischen Empfindlichkeit der Bits auf Übertragungswegfehler.
Falls die Bitrate 2kbps beträgt, und zwar bei der Übertragungsrate von 3,5kbps, dann teilt die Klassenaufteilungs- und Eingabefolgen-Entscheidungseinheit 23 den stimmhaften Ton und den stimmlosen Ton in beispielsweise sechs Klassen ein bzw. auf, wie dies in 6 und 7 veranschaulicht ist, in denen die Sufffixe „p" und „c" die vorhergehenden bzw. die gerade vorliegenden Rahmen bezeichnen. Dies bedeutet, dass hier zwei Rahmen berücksichtigt werden, das sind der vorhergehende Rahmen p und der gegenwärtige Rahmen c. Je kleiner die Klassenzahl ist, umso entscheidender ist das Bit.
Unter Bezugnahme auf 6 wird der Fall der stimmhaften Sprache erläutert. Mit dem Codebuchindex LSP0 der zehnten Ordnung der LSP-Parameter sind die gesamten 5 Bits sowohl des vorhergehenden Rahmens p als des auch des gegenwärtigen Rahmens c von der Klasse I. Sowohl im vorhergehenden Rahmen p als auch im gegenwärtigen Rahmen c sind von dem Codebuchindex LSP2 der Fehlerkorrektur des Bereiches niedriger Frequenz der fünften Ordnung des LSP-Parameters 2 Bits von der
Klasse I, und die übrigen 5 Bits sind von der Klasse VI. Bei dem Codebuchindex LSP3 der Fehlerkorrektur des Bereiches hoher Frequenz der fünften Ordnung der LSP-Parameter ist ein Bit der 5 Bits sowohl des vorhergehenden Rahmens p als des auch des gegenwärtigen Rahmens c von der Klasse I, und die übrigen 4 Bits sind von der Klasse VI. Bei dem Auswahlkennzeichen bzw. -Flag LSP4 des LSP-Parameters sind beim direkten Modus/Differenzmodus sowohl der vorhergehende Rahmen p als auch der gegenwärtige Rahmens c durch die Klasse I geschützt.
Die beiden Bits des stimmhaften/stimmlosen Kennzeichens bzw. Flags sind sowohl beim vorhergehenden Rahmen p als auch beim gegenwärtigen Rahmen c durch die Klasse I geschützt. Hinsichtlich des Tonhöhenparameters sind 6 der 7 Bits von der Klasse I sowohl für den vorhergehenden Rahmen p als auch für den gegenwärtigen Rahmen c, und das übrige 1 Bit ist von der Klasse VI.
Die 5 Bits des LPC-Rest-Spektral-Verstärkungscodebuch-Index idG sind als von der Klasse I sowohl für den vorhergehenden Rahmen p als auch für den gegenwärtigen Rahmen c geschützt. Der nullte LPC-Restspektral-Codebuchindex idS0 des vorhergehenden Rahmens p und des gegenwärtigen Rahmens c ist jeweils von der Klasse II; der nullte LPC-Restspektral-Codebuchindex idS0 des gegenwärtigen Rahmens c ist jeweils von der Klasse IV. Demgegenüber sind die 4 Bits des ersten LPC-Restspektral-Codebuchindex idSI des vorhergehenden Rahmens p alle von der Klasse III; 4 Bits des ersten LPC-Restspektral-Codebuchindex idSI des gegenwärtigen Rahmens c sind jedoch alle von der Klasse V.
Unter Bezugnahme auf 7 wird nachstehend der Fall der Bitrate von 2kbps erläutert, wobei die Übertragungsrate 3,5 kbps beträgt und wobei der Ton bzw. Klang stimmlos ist.
In dem Codebuchindex LPS2 zur Korrektur des Fehlers des Bereiches nidriger Frequenz der fünften Ordnung des LSP-Parameters sind 4 der 7 Bits sowohl des vorhergehenden Rahmens p als auch des gegenwärtigen Rahmens c von der Klasse I, und die Übrigen 3 Bits sind von der Klasse VI. Bei dem Codebuchindex LSP3 zur Korrektur eines Fehlers im Bereich hoher Frequenz der fünften Ordnung des LSP-Parameters sind 2 der 5 Bits sowohl des vorhergehenden Rahmens p als auch des gegenwärtigen Rahmens c von der Klasse I, und die übrigen 3 Bits sind von der Klasse VI. Das Auswahlkennzeichen im direkten Modus/Differenzmodus ist mit der Klasse I sowohl bezüglich des vorhergehenden Rahmens c als auch bezüglich des gegenwärtigen Rahmens c geschützt.
Die Anzahl von Pixeln und die Form des Vorhersagewert-Berechnungsblocks sind nicht auf die oben beschriebenen wie auf die Anzahl von Pixeln und die Form des Klassifikationsblocks beschränkt. Jedoch ist es wünschenswert, dass die Anzahl von Pixeln, welche den Vorhersagewert-Berechnungsblock bilden, größer ist als die Anzahl von Pixeln, welche den Klassifikationsblock bilden.
Beim Bilden von Blöcken in der oben beschriebenen Weise (auch bei Verarbeitungen abweichend von der Verarbeitung zum Bilden von Blöcken) besteht die Möglichkeit eines Nichtvorhandenseins von umformbaren Pixeln im Rahmenrand eines Bilds. In einem solchen Fall wird Verarbeitung unter der Annahme durchgeführt, dass die gleichen Pixel wie die, welche den Rahmenrand bilden, außerhalb des Rahmensrands existieren.
Die Klassifikations- und Adaptionsverarbeitungsschaltung 43 besteht aus einer adaptiven Dynamikbereichcodierungs-Verarbeitungsschaltung (ADRC)-Schaltung, einer Klassifikationsschaltung 45, einem Vorhersagekoeffizienten-ROM 46 und einer Vorhersageschaltung 47, und ist eingerichtet, Klassifikations- und Adaptionsverarbeitung auszuführen.
Die Klassifikations- und Adaptionsverarbeitung wird durchgeführt, um Eingangssignale in mehrere Klassen gemäß Zeichen der Eingangssignale zu klassifizieren und um Adaptionsverarbeitung durchzuführen, welche für jede Klasse geeignet ist, und besteht hauptsächlich aus Klassifikationsverarbeitung und Adaptionsverarbeitung.
Die Klassifikationsverarbeitung und die Adaptionsverarbeitung werden nun kurz beschrieben.
Zunächst wird die Klassifikationsverarbeitung beschrieben.
Wie beispielsweise in 9A gezeigt ist, bilden ein beobachtetes Pixel und drei benachbarte Pixel, welche dem beobachteten Pixel benachbart sind, einen Block aus 2 × 2 Pixel (Klassifikationsblock), und jedes Pixel wird durch ein Bit ausgedrückt (welches eine oder zwei Ebenen von 0 und 1 hat). In einer solchen Situation gibt es 16 (= (2¹)⁴) Muster für den Block, der aus 4 Pixeln geformt ist, in der 2 × 2-Matrix, die das beobachtete Pixel enthält, in Bezug auf Verteilungen der Ebenen der Pixel, wie in 9B gezeigt ist. In diesem Beispiel kann das beobachtete Pixel in eines von 16 Mustern klassifiziert werden. Die Klassifikation unter Verwendung dieser Muster wird als Klassifikationsverarbeitung in der Klassifikationsschaltung 45 durchgeführt.
Die Klassifikationsverarbeitung kann auch durch Betrachtung der Aktivität eines Bilds (Bild in einem Block) (Komplexität des Bilds) (die Intensität der Änderung) usw. durchgeführt werden.
Die 2 Bits des Stimmhaft/Stimmlos-Tonkennzeichens VUV sind mit der Klasse I sowohl für den vorhergehenden Rahmen p als auch für den gegenwärtigen Rahmen c geschützt.
Die 4 Bits des Rauschcodebuch-Verstärkungscodebuch-Index idG00 sind mit der Klasse I sowohl für den vorhergehenden Rahmen p als auch für den gegenwärtigen Rahmen c geschützt. Die 4 Bits des Rauschcodebuch-Verstärkungscodebuch-Index idG01 sind mit der Klasse I sowohl für den vorhergehenden Rahmen p als auch für den gegenwärtigen Rahmen c geschützt. Die 6 Bits des Rauschcodebuch-Verstärkungscodebuch-Index idG00 sind auf die Klasse VI sowohl für den vorhergehenden Rahmen p als auch für den gegenwärtigen Rahmen c festgelegt. Die 6 Bits des Rauschcodebuch-Verstärkungscodebuch-Index idG01 sind sowohl für den vorhergehenden Rahmen p als auch für den gegenwärtigen Rahmen c auf die Klasse I festgelegt.
Bei dieser stimmlosen Sprache ist ein Teil der Bits der Klasse VI als Bits der Klassen II bis V geschützt. Falls ein Fehler ermittelt wird, werden jedoch keinerlei Maßnahmen getroffen wie im Falle der Bits der anderen Klasse VI.
Falls die Bitrate 4kbps (und die Übertragungsrate 6,2kbps) beträgt, nimmt die Klassenaufteilungs- und Eingabefolgen-Entscheidungseinheit 23 eine Aufteilung des stimmhaften Tones und des stimmlosen Tones in beispielsweise 7 Klassen vor, wie dies in 8 und 9 veranschaulicht ist. In diesen Figuren geben die Suffixe „p" und „c" wieder die vorherigen Rahmen bzw. die gegenwärtigen Rahmen an. Dies bedeutet, dass hier zwei Rahmen, das sind der vorherige Rahmen p und der gegenwärtige Rahmen c berücksichtigt werden. Auch hier gilt, dass das Bit umso entscheidender ist, je kleiner die Klassenzahl ist.
Unter Bezugnahme auf 8 wird der Fall erläutert, dass der Ton stimmhaft ist. Bei dem Codebuchindex LSP0 zehnter Ordnung des LSP-Parameters sind 5 Bits sowohl des vorherigen Rahmens p als auch des gegenwärtigen Rahmens c von der Klasse I. Beim Codebuchindex LSP2 zur Korrektur des Fehlers des Bereiches niedriger Frequenz der fünften Ordnung des LSP-Parameters sind 4 der 7 Bits des vorherigen Rahmens p und des gegenwärtigen Rahmens c von der Klasse I, und die übrigen 3 Bits sind von der Klasse VII. Bei dem Codebuch-Index LSP3 zur Korrektur des Fehlers im Bereich hoher Frequenz der fünften Ordnung des LSP-Parameters ist jeweils ein Bit von 5 Bits des vorherigen Rahmens p und des gegenwärtigen Rahmens c von der Klasse I, und die übrigen 4 Bits sind von der Klasse VII. Das Auswahlkennzeichen LSP4 des LSP-Parameters des direkten Modus/Differenzmodus wird mit der Klasse I sowohl bezüglich des vorherigen Rahmens p als auch bezüglich des gegenwärtigen Rahmens c geschützt.
Die beiden Bits des Stimmhaft/Stimmlos-Tonkennzeichens VUV sind mit der Klasse I sowohl für den vorherigen Rahmen p als auch für den gegenwärtigen Rahmen c geschützt bzw. gesichert. Demgegenüber sind 6 von 7 Bits des Tonhöhen-Parameters PCH sowohl für den vorherigen Rahmen p als auch für den gegenwärtigen Rahmen c auf die Klasse I festgelegt und das übrige 1 Bit ist von der Klasse VII.
Darüber hinaus sind 5 Bits des LPC-Restspektrum-Verstärkungscodebuchs idG auf die Klasse I festgelegt und geschützt. Demgegenüber sind sämtliche 4 Bits des nullten LPC-Restspektral-Codebuchindex idS0 des vorherigen Rahmens p auf die Klasse III festgelegt, während sämtliche 4 Bits des nullten LPC-Restspektral-Codebuchindex idS0 des gegenwärtigen Rahmens c auf die Klasse V festgelegt sind. Die 4 Bits des ersten LPC-Restspektral-Codebuchindex idSI des vorherigen Rahmens p sind alle auf die Klasse IV festgelegt; die 4 Bits des ersten LPC-Rest-Spektral-Verstärkungscodebuchindex idS1 des gegenwärtigen Rahmens sind jedoch alle auf die Klasse VI festgelegt.
Andererseits sind 5 von 7 Bits des nullten erweiterten LPC-Restspektral-Codebuchindex idS0_4k sowohl für den vorherigen Rahmen p als auch für den gegenwärtigen Rahmen c auf die Klasse I festgelegt; die übrigen 2 Bits sind jedoch auf die Klasse VII festgelegt. Jedes Bits von 10 Bits des ersten erweiterten LPC-Restspektral-Codebuchindex idS1_4k sowohl für den vorherigen Rahmen p als auch für den gegenwärtigen Rahmen c ist auf die Klasse II festgelegt; die übrigen 9 Bits sind jedoch auf die Klasse II festgelegt. 1 Bit von 9 Bits des ersten erweiterten LPC-Restspektral-Codebuchindex idS2_4k sowohl für den vorherigen Rahmen p als auch für den gegenwärtigen Rahmen c ist auf die Klasse I festgelegt, während die übrigen Bits auf die Klasse II festgelegt sind. Ein Bit von 6 Bits des dritten erweiterten LPC-Restspektral-Codebuchindex idS3_4k ist sowohl für den vorherigen Rahmen p als auch für den gegenwärtigen Rahmen c auf die Klasse I festgelegt, während die übrigen 8 Bits auf die Klasse II festgelegt sind. Darüber hinaus ist jeweils 1 Bit von 6 Bits des dritten erweiterten LPC-Restspektral-Codebuchindex idS3_4k sowohl für den vorherigen Rahmen p als auch für den gegenwärtigen Rahmen c auf die Klasse I festgelegt, während die übrigen 5 Bits auf die Klasse II festgelegt sind.
Unter Bezugnahme auf 9 wird der Fall erläutert, dass der Ton stimmlos ist, und zwar bei der Bitrate von 4kbps (Übertragungsrate von 6,2kbps). In dem Codebuchindex LSP0 der zehnten Ordnung der LSP-Parameter sind sämtliche 5 Bits des vorherigen Rahmens p und des gegenwärtigen Rahmens c auf die Klasse I festgelegt.
In dem Codebuch-Index LSP2 für die Korrektur des Fehlers des Bereiches niedriger Frequenz der LSP-Parameter sind 4 von 7 Bits sowohl für den vorherigen Rahmen p als auch für den gegenwärtigen Rahmen c auf die Klasse I festgelegt, und die übrigen 3 Bits sind auf die Klasse VII festgelegt. In dem Codebuchindex LSP3 für die Korrektur des Fehlers des Frequenzbereiches hoher Frequenz der fünften Ordnung der LSP-Parameter ist 1 Bit von 5 Bits sowohl des vorherigen Rahmens p und des gegenwärtigen Rahmens c auf die Klasse I festgelegt, und die übrigen 4 Bits sind auf die Klasse VII festgelegt. Bei dem Auswahlkennzeichen LSP4 der LSP-Parameter im direkten Modus/Differenzmodus ist das Auswahlkennzeichen LSP4 sowohl des direkten Modus als auch des Differenzmodus mit der Klasse I geschützt. In dem Codebuchindex LSP5 für die Fehlerkorrektur des Gesamtbereiches der zehnten Ordnung ist 1 Bit von 8 Bits sowohl des vorherigen Rahmens p als auch des gegenwärtigen Rahmens c auf die Klasse I festgelegt, und die übrigen 7 Bits sind auf die Klasse VII festgelegt.
Die entsprechenden 2 Bits des Stimmhaft/Stimmlos-Tonkennzeichens VUV sind sowohl für den vorherigen Rahmen p als auch für den gegenwärtigen Rahmen c mit der bzw. durch die Klasse I geschützt.
Die entsprechenden 2 Bits des Stimmhaft/Stimmlos-Tonkennzeichens VUV sind sowohl für den vorherigen Rahmen p als auch für den gegenwärtigen Rahmen c auf die Klasse I festgelegt und geschützt. Die 4 Bits des Rauschcodebuch-Verstärkungscodebuch-Index idGL01 sind alle auf die Klasse I sowohl für den vorherigen Rahmen p als auch für den gegenwärtigen Rahmen c festgelegt und geschützt.
Andererseits sind 6 Bits des Rauschcodebuch-Index idSL00 sowohl für den vorherigen Rahmen p als auch für den gegenwärtigen Rahmen c auf die Klasse VII festgelegt und geschützt, während 6 Bits des Rauschcodebuch-Verstärkungscodebuch-Index idGL01 auf die Klasse VII sowohl für den vorherigen Rahmen p als auch für den gegenwärtigen Rahmen c festgelegt sind.
3 Bits des Rauschcodebuch-Verstärkungscodebuch-Index idGL10 sind sowohl für den vorherigen Rahmen p als auch für den gegenwärtigen Rahmen c auf die Klasse II festgelegt und geschützt. Außerdem sind 3 Bits des Rauschcodebuch-Index idGL11 als Klasse I sowohl für den vorherigen Rahmen p als auch für den gegenwärtigen Rahmen c geschützt. 3 Bits Rauschcodebuch-Verstärkungscodebuch-Index idGL12 sind sowohl für den vorherigen Rahmen p als auch für den gegenwärtigen Rahmen c auf die Klasse I festgelegt. Die 2 der 3 Bits des Rauschcodebuch-Index idGL13 sind alle auf die Klasse I sowohl für den vorherigen Rahmen p als auch für den gegenwärtigen Rahmen c festgelegt; das übrige 1 Bit ist jedoch auf die Klasse VII festgelegt.
Sämtliche 5 Bits des Rauschcodebuch-Index idSL10 sind auf die Klasse VII sowohl für den vorherigen Rahmen p als auch für den gegenwärtigen Rahmen c festgelegt. 5 Bits des Rauschcodebuch-Index idSL11 sind alle auf die Klasse VII sowohl für den vorherigen Rahmen p als auch für den gegenwärtigen Rahmen c festgelegt, während 5 Bits des Rauschcodebuch-Index idGL13 auf die Klasse VII sowohl für den vorherigen Rahmen p als auch für den gegenwärtigen Rahmen c festgelegt sind.
Auch hier ist ein Teil der Bits der Klasse VII als Bits der Klasse II bis Klasse VI geschützt. Falls die Bits fehlerhaft sind, werden keinerlei Maßnahmen getroffen, so dass die fehlerhaften Bits in derselben Weise verarbeitet werden wie Bits der anderen Klasse VII.
Die Eingabefolge der entsprechenden Parameter des stimmhaften und stimmlosen Tones von 2kbps von der Klasse I bis zur Klasse VI für den Übertragungsweg-Codierer (Kanalcodierer) 4 wird unter Bezugnahme auf 10 und 11 erläutert. Die Eingabefolge wird, wie oben erörtert, wieder durch die Klassenaufteilungs- und Eingabefolgen-Entscheidungseinheit 23 bestimmt bzw. festgelegt. Die Bitanordnungsfolge hängt von der psychoakustischen Empfindlichkeit der Bits auf Übertragungswegfehler ab. Auch in diesen Figuren bezeichnen die Suffixe „p" und „c" die vorherigen Rahmen bzw. die gegenwärtigen Rahmen, während das Bit 0 das niederwertigste Bit LSB angibt.
In 10 ist die Eingabefolge der Klasse I des stimmhaften Tones das erste Bit des Stimmhaft/Stimmlos-Tonkennzeichens VUV des vorherigen Rahmen p, gefolgt von dem nullten Bit des Stimmhaft/Stimmlos-Tonkennzeichens VUV des vorherigen Rahmens p, gefolgt von dem nullten Bit des Auswahlkennzeichens LSP4 des direkten Modus/Differenzmodus des vorherigen Rahmens p, gefolgt von den vierten, dritten, zweiten, ersten und nullten Bits des LPC-Restspektral-Verstärkungscodebuch-Index idG des vorherigen Rahmens p, den vierten, dritten, zweiten, ersten und nullten Bits des Codebuch-Index LSP0 der zehnten Ordnung des LSP-Parameters des vorherigen Rahmens p, gefolgt von den sechsten, fünften, vierten, dritten, zweiten, ersten und nullten Bits des Tonhöhen-Parameters PCH des vorherigen Rahmens p in dieser Reihenfolge. Die Eingabefolge bis zu diesem Punkt erfolgt von der Nummer 0 bis zur Nummer 18 zu dem Übertragungsweg-Codierer 4. Von der Nummer 19 an setzt sich die Eingabefolge in der Folge bzw. Sequenz des sechsten Bits des Codebuch-Index LSP2 der Korrektur des Frequenzbereiches der niedrigen Frequenz fünfter Ordnung des LSP-Parameters des vorherigen Rahmen p als Nummer 19, des vierten Bits des Codebuch-Index LSP3 der Korrektur des Frequenzfehlers hoher Frequenz fünfter Ordnung des LSP-Parameters des vorherigen Rahmens als Nummer 20, und des fünften Bits des Codebuch-Index LSP2 des LSP-Parameters des vorherigen Rahmens p als Nummer 21 fort. Die Eingabefolge setzt sich ferner durch die Parameter des gegenwärtigen Rahmens c in einer solchen Weise fort, dass die Folge von Nummer 0 bis Nummer 21 als Nummer 22 bis Nummer 43 wiederholt wird.
Die Eingabefolge der Bits der Klasse II der stimmhaften Sprache (Nummern 44 bis 47) der Klasse-II-Bits des stimmhaften Tones sind 4 Bits von den dritten bis nullten Bits des nullten LPC-Restspektral-Codebuch-Index idS0 des vorherigen Rahmens p, wie dies gemäß der Darstellung in 10 festgelegt ist.
Die Eingabefolge der Klasse-III-Bits der stimmhaften Sprache (Nummern 48 bis 51) der Klasse-III-Bits des stimmhaften Tones sind 4 Bits vom dritten bis nullten Bit des ersten LPC-Restspektral-Codebuch-Index idS1 des vorherigen Rahmens p, festgelegt, wie dies in 10 veranschaulicht ist.
Die Eingabefolge der Klasse-IV-Bits der stimmhaften Sprache (Nummern 52 bis 55) der Klasse-IV-Bits des stimmhaften Tones sind 4 Bits vom dritten bis nullten Bit des nullten LPC-Restspektral-Codebuch-Index idS0 des vorherigen Rahmens p, wie dies in der Darstellung gemäß 10 festgelegt ist.
Die Eingabefolge der Klasse-V-Bits der stimmhaften Sprache (Nummern 56 bis 59) der Klasse V-Bits des stimmhaften Tones weist 4 Bits vom dritten Bit bis zum nullten Bit des ersten LPC-Restspektral-Codebuchindices idS1 des gegenwärtigen Rahmens c auf, der, wie in 10 veranschaulicht, festgelegt ist.
Die Eingabefolge der Klasse-VI-Bits der stimmhaften Sprache (von Nummer 60 bis 79) umfasst die vierten, dritten, zweiten, ersten und nullten Bits des Codebuch-Index LSP2 der Fehlerkorrektur des niedrigen Frequenzbereichs der Ordnung 5 des LSP-Parameters des vorhergehenden Rahmens P in dieser Reihenfolge. Die Eingangsfolge bis zu diesem Punkt ist jene für die Nummern 60 bis 64 für den Übertragungsweg-Codierer 4. Die Eingabefolge wird durch die dritten, zweiten, ersten und nullten Bits des Codebuch-Index LSP3 der Fehlerkorrektur des hohen Frequenzbereichs der Ordnung 5 des LSP-Parameters des vorherigen Rahmens P als Nummer 60 bis 64 in dieser Reihenfolge fortgesetzt. Die Eingabefolge wird ferner durch die dritten, zweiten, ersten und nullten Bits des Codebuch-Index LSP3 der Fehlerkorrektur des hohen Frequenzbereichs der Ordnung 5 des LSP-Parameters des vorherigen Rahmens P als Nummer 65 bis Nummer 68 in dieser Reihenfolge fortgesetzt. Das Nummer-69-Bit ist das nullte Bit des Tonhöhen-Parameters PCH des vorherigen Rahmens p. Die Eingabefolge wird ferner durch die vierten, dritten, zweiten, ersten und nullten Bits des Codebuch-Index LSP2 der Fehlerkorrektur des hohen Frequenzbereichs der Ordnung 5 des LSP-Parameters des vorherigen Rahmens p als Nummer 70 bis Nummer 74 in dieser Reihenfolge fortgesetzt. Die Eingabefolge wird ferner durch die vierten, dritten, zweiten, ersten und nullten Bits des Codebuchindex LSP3 der Fehlerkorrektur des hohen Frequenzbereichs der Ordnung 5 des LSP-Parameters des gegenwärtigen Rahmens c als Nummer 5 bis Nummer 78 in dieser Reihenfolge fortgesetzt. Das letzte Nummer-79-Bit ist das nullte Bit des Tonhöhen-Parameters PCH des gegenwärtigen Rahmens c.
Gemäß 11 ist die Eingabefolge bzw. Eingangsfolge des stimmlosen Tones gegeben durch das erste Bit und das nullte Bit des Stimmhaft/Stimmlos-Tonkennzeichens VUV des vorherigen Rahmens p, gefolgt vom nullten Bit des Direktmodus-/Differenzmodus-Auswahlkennzeichens LSP4 des vorherigen Rahmens p, den dritten, zweiten, ersten und nullten Bits des Rauschcodebuch-Verstärkungscodebuch-Index idGL00 des vorherigen Rahmens p, den dritten, zweiten, ersten und nullten Bits des Rauschcodebuch-Verstärkungscodebuch-Index idGL01 des vorherigen Rahmens p und den vierten, dritten, zweiten, ersten und nullten Bits des Codebuch-Index LSP0 der zehnten Ordnung des LSP-Parameters des vorherigen Rahmens p in dieser Reihenfolge. Die Eingabefolge bis zu diesem Punkt ist jene von Nummer 0 bis Nummer 15 für den Übertragungsweg-Codierer 4. Die Bits von Nummer 16 bis Nummer 19 sind die sechsten, fünften, vierten und dritten Bits des Codebuch-Index LSP2 der Fehlerkorrektur des niedrigen Frequenzbereichs der Ordnung 5 der LSP-Parameter des vorherigen Rahmens p. Die Bits von Nummer 20 und Nummer 21 sind die dritten und vierten Bits des Codebuch-Index LSP3 der Fehlerkorrektur des niedrigen Frequenzbereichs der Ordnung 5 der LSP-Parameter des vorherigen Rahmens p. Bei Nummer 22 bis Nummer 43 werden die Parameter des gegenwärtigen Rahmens als Wiederholung der oben erwähnten Folge der Nummern 0 bis 21 eingegeben.
Die Eingangs- bzw. Eingabefolge der Klasse II des stimmlosen Tones umfasst 3 Bits vom zweiten Bit bis zum nullten Bit, also insgesamt 3 Bits des Codebuch-Index LSP2 der Fehlerkorrektur des niedrigen Frequenzbereichs der Ordnung 5 der LSP-Parameter des vorherigen Rahmens p und das zweite Bit des Codebuch-Index LSP3 der Fehlerkorrektur des niedrigen Frequenzbereichs der Ordnung 5 der LSP-Parameter des vorherigen Rahmens (von Nummer 44 bis Nummer 47).
Die Eingangsfolge der Klasse III des stimmlosen Tones sind das erste Bit (Nummer 48) und das nullte Bit (Nummer 49) des Codebuch-Index LSP3 der Fehlerkorrektur des niedrigen Frequenzbereichs der Ordnung 5 der LSP-Parameter des vorherigen Rahmens p, also insgesamt 3 Bits, das fünfte Bit (Nummer 50) und das vierte Bit (Nummer 51) des Rauschcodebuch-Index idSL00 des vorherigen Rahmens p.
Die Eingangsfolge der Klasse IV des stimmlosen Tones sind die zweiten bis nullten Bits der Fehlerkorrektur des niedrigen Frequenzbereichs der Ordnung 5 der LSP-Parameter des gegenwärtigen Rahmens c, also insgesamt 3 Bits, sowie das zweite Bit des Codebuch-Index LSP3 der Fehlerkorrektur des niedrigen Frequenzbereichs der Ordnung 5 (Nummern 52 bis 55).
Die Eingangsfolge der Klasse V des stimmlosen Tones ist gegeben durch das erste Bit (Nummer 56) und das nullte Bit (Nummer 57) des Codebuch-Index LSP3 der Fehlerkorrektur des niedrigen Frequenzbereichs der Ordnung 5 der LSP-Parameter des gegenwärtigen Rahmens c. Die Nummer 58 und die Nummer 59 stellen das fünfte Bit bzw. das vierte Bit des Rauschcodebuch-Index idSL00 des gegenwärtigen Rahmens c dar.
Die Eingangsfolge der Klasse-IV-Bits des stimmlosen Tones (von Nummer 60 bis Nummer 79) ist gegeben durch die dritten, zweiten, ersten und nullten Bits des Rauschcodebuch-Index idSL00 des vorherigen Rahmens p. Die Eingangsfolge bis zu diesem Punkt ist jene für die Nummer 60 bis Nummer 63 für den Übertragungsweg-Codierer 4. Die Eingangsfolge von Nummer 64 bis Nummer 69 umfasst die fünften, vierten, dritten, zweiten, ersten und nullten Bits des Rauschcodebuch-Index idSL00 des vorherigen Rahmens p. Die Eingangsfolge wird durch die dritten, zweiten, ersten und nullten Bits des Rauschcodebuch-Index idSL00 des gegenwärtigen Rahmens c als Nummer 70 bis Nummer 73 fortgesetzt. Die Eingangsfolge wird ferner durch die fünften, vierten, dritten, zweiten, ersten und nullten Bits des gegenwärtigen Rahmens c als Nummer 74 bis Nummer 79 fortgesetzt.
Die Eingangsfolge für den Übertragungsweg-Codierer 4 (Kanalcodierer) der jeweiligen Parameter der stimmhaften und stimmlosen Töne von der Klasse I bis zur Klasse VII von 4kbps ist in 12 bis 14 und in 15 bis 17 veranschaulicht. Die Eingangsfolge wird hier durch die Klassenaufteilungs- und Eingangsfolgen-Bestimmungseinheit 23, wie oben beschrieben, festgelegt. Die Bitanordnungsfolge ist verantwortlich für die psychoakustische Empfindlichkeit der Bits gegenüber Übertragungswegfehlern. In diesen Figuren bezeichnen die Suffixe „p" und „c" wieder die vorherigen bzw. gegenwärtigen Rahmen, während mit dem Bit Null die Größe LSB bezeichnet ist.
12 veranschaulicht die Eingabe bzw. Eingangsfolge der Klasse I des stimmhaften Tones. Die Eingangsfolge der Gesamtsumme von 66 Bits von Nummer 0 bis Nummer 65 ist festgelegt. Diese Eingangsfolge umfasst das erste Bit des Stimmhaft/Stimmlos-Tonkennzeichens VUV des vorherigen Rahmens p, gefolgt vom nullten Bit des Stimmhaft/Stimmlos-Tonkennzeichens VUV des vorherigen Rahmens p, vom nullten Bit des Direktmodus-/Differenzmodus-Auswahlkennzeichens VUV des vorherigen Rahmens p, vom nullten Bit des Direktmodus-/Differenzmodus-Auswahlkennzeichens LSP4 des LSP-Parameters des vorherigen Rahmens p und von den vierten, dritten, zweiten, ersten und nullten Bits des LPC-Restspektral-Verstärkungscodebuch-Index idG0 des vorherigen Rahmens p in dieser Reihenfolge. Die Eingangsfolge wird durch die vierten, dritten, zweiten, ersten und nullten Bits des Codebuch-Index LSP0 der Ordnung 10 des LSP-Parameters des vorherigen Rahmens fortgesetzt. Die Eingangsfolge wird ferner durch die sechsten, fünften, vierten, dritten, zweiten und ersten Bits des Tonhöhen-Parameters PCH des vorherigen Rahmens p fortgesetzt. Die Eingangsfolge bis zu diesem Punkt ist jene, welche die Nummern 0 bis 18 für den Übertragungsweg-Codierer 4 umfasst. Von der Nummer 19 an wird die Eingangsfolge durch das sechste, fünfte (Nummer 20), vierte (Nummer 21) und dritte Bit (Nummer 22) des Codebuch-Index LSP2 der Korrektur des Fehlers des niedrigen Frequenzbereichs des LSP-Parameters des vorherigen Rahmens fortgesetzt. Die Eingangsfolge wird ferner durch die sechsten, fünften, vierten und dritten Bits des nullten erweiterten LPC-Restspektral-Codebuch-Index idS3_4k des vorherigen Rahmens p als Nummer 23 bis Nummer 27 fortgesetzt. Für die Nummer 28 und die Nummer 29 werden bzw. sind das vierte Bit des Codebuch-Index LSP3 der Korrektur des Bereichsfehlers des hohen Frequenzbereichs der Ordnung 5 des vorherigen Rahmens p und das siebte Bit des Codebuch-Index LSP5 des LSP-Parameters der Korrektur der Gesamtbereichs-Fehlerkorrektur der Ordnung 10 des vorherigen Rahmens p angeordnet. Für die Nummer 30 bis Nummer 32 werden bzw. sind das neunte Bit des ersten erweiterten LPC-Restspektral-Codebuch-Index idS3_4k, das achte Bit des zweiten erweiterten LPC-Restspektral-Codebuch-Index idS3_4k und das fünfte Bit des dritten erweiterten LPC-Restspektral-Codebuch-Index idS3_4k vorgesehen. Für die Nummer 33 bis Nummer 65 werden bzw. sind die Parameter des gegenwärtigen bzw. vorliegenden Rahmens c in einer Weise eingegeben, welche die Folge von Nummer 0 bis Nummer 32 wiederholt.
Die Eingabe- bzw. Eingangsfolge von der Klasse II bis zur Klasse V der stimmhaften Sprache ist in 13 veranschaulicht. Eine Gesamtsumme von 44 Bits der Klasse II wird bzw. ist in der Reihenfolge von Nummer 66 bis Nummer 109 eingegeben. Für die Nummer 66 bis Nummer 74 werden bzw. sind die achten, siebten, sechsten, fünften, vierten, dritten, zweiten, ersten und nullten Bits des ersten erweiterten LPC-Restspektral-Codebuch-Index idS3_4k des vorherigen Rahmens angeordnet. Für die Nummer 75 bis Nummer 82 werden bzw. sind die siebten, sechsten, fünften, vierten, dritten, zweiten, ersten und nullten Bits des zweiten erweiterten LPC-Restspektral-Codebuch-Index idS3_4k des vorherigen Rahmens angeordnet. Für die Nummer 83 bis Nummer 87 werden bzw. sind die vierten, dritten, zweiten, ersten und nullten Bits des dritten erweiterten LPC-Restspektral-Codebuch-Index idS3_4k des vorherigen Rahmens angeordnet. Für Nummer 88 bis Nummer 109 werden Bits, die für den gegenwärtigen Rahmen c in einer Gesamtsumme von 22 Bits relevant sind, von Nummer 66 bis Nummer 87 wiederholt.
Für 4 Bits der Klasse III werden bzw. sind die dritten, zweiten, ersten und nullten Bits des nullten LPC-Restspektral-Codebuch-Index idS0 des vorherigen Rahmens p als Nummer 110 bis Nummer 113 angeordnet.
Für 4 Bits der Klasse IV werden bzw. sind die dritten, zweiten, ersten und nullten Bits des nullten LPC-Restspektral-Codebuch-Index idS1 des vorherigen Rahmens p als Nummer 114 bis Nummer 117 angeordnet.
Für 4 Bits der Klasse V werden bzw. sind die dritten, zweiten, ersten und nullten Bits des nullten LPC-Restspektral-Codebuch-Index idS0 des gegenwärtigen Rahmens c als Nummer 118 bis Nummer 121 angeordnet.
Die Eingangsfolge der Klassen VI und VII des stimmhaften Tones sind in 14 veranschaulicht. Eine Gesamtsumme von 4 Bits der Klasse VI für Nummer 122 bis Nummer 125 ist in der Folge der dritten, zweiten, ersten und nullten Bits des ersten LPC-Restspektral-Codebuch-Index idS1 des gerade vorliegenden Rahmens c angeordnet.
Eine Gesamtsumme von 34 Bits der Klasse VII ist Nummer 126 bis Nummer 159 wie folgt zugewiesen: Dies bedeutet, dass für Nummer 126 bis Nummer 128 die zweiten, ersten und nullten Bits des Codebuch-Index LSP2 der Fehlerkorrektur des niedrigen Frequenzbereichs der Ordnung 5 des vorherigen Rahmens p angeordnet sind. Für Nummer 129 bis Nummer 132 sind die dritten, zweiten, ersten und nullten Bits des Codebuch-Index LSP3 der Fehlerkorrektur des niedrigen Frequenzbereichs der Ordnung 5 des vorherigen Rahmens p angeordnet. Für Nummer 133 bis Nummer 139 sind die sechsten, fünften, vierten, dritten, zweiten, ersten und nullten Bits des Codebuch-Index LSP5 der LSP-Parameter der Fehlerkorrektur des Gesamtbandes der Ordnung 10 angeordnet. Bezüglich Nummer 141 ist bzw. wird das nullte Bit des Tonhöhen-Parameters PCH des vorherigen Rahmens zugeordnet. Bezüglich Nummer 140 und Nummer 142 werden die ersten und nullten Bits des nullten Erweiterungs-LPC-Restspektrum-Codebuch-Index idS0_4k zugeordnet bzw. zugewiesen. Bezüglich Nummer 143 bis Nummer 159 werden Bits, die für den gerade vorliegenden Rahmen c aus einer Gesamtsumme von 17 Bits relevant sind, von Nummer 126 bis Nummer 142 wiederholt.
Die Eingangsfolge der Klassen VI und VII des stimmhaften Tones sind in 15 veranschaulicht. Die Eingangsfolge aus einer Gesamtsumme von 66 Bits von Nummer 0 bis Nummer 65 werden bzw. sind festgelegt. Die Eingangsfolge besteht aus den ersten und nullten Bits des Stimmhaft/Stimmlos-Tonkennzeichens VUV des vorherigen Rahmens p, gefolgt von dem nullten Bit des Stimmhaft/Stimmlos-Tonkennzeichens VUV des vorherigen Rahmens p, gefolgt von dem nullten Bit des Direktmodus/Differenzmodus-Auswahlkennzeichens LSP4 des LSP-Parameters des vorherigen Rahmens und den dritten, zweiten, ersten und nullten Bits des Rauschcodebuch-Verstärkungscodebuch-Index idGL00 des vorherigen Rahmens, von den dritten, zweiten, ersten und nullten Bits des Rauschcodebuch-Verstärkungscodebuch-Index idGL01 des vorherigen Rahmens und von den vierten, dritten, zweiten, ersten und nullten Bits des Codebuch-Index LSP0 der Ordnung 10 des LSP-Parameters des vorherigen Rahmens p. Die Eingangsfolge bis zu diesem Punkt reicht von Nummer 0 bis Nummer 15 für den Übertragungsweg-Codierer 4. Die Bits Nummer 16 bis Nummer 19 sind die sechsten, fünften, vierten und dritten Bits des Codebuch-Index LSP2 der Korrektur des Fehlers des niedrigen Frequenzbereichs der LSP-Parameter des vorherigen Rahmens p. Bezüglich der Bits Nummer 20 und Nummer 21 sind das vierte Bit der Fehlerkorrektur des hohen Frequenzbereichs der Ordnung 5 des vorherigen Rahmens p und das siebte Bit des Codebuch-Index LSP5 des LSP-Parameters der Korrektur des Gesamtwellenfehlers der Ordnung 10 des vorherigen Rahmens p angeordnet. Bezüglich der Bits Nummer 22 bis Nummer 24 sind die zweiten, ersten und nullten Bits des Rauschcodebuch-Verstärkungscodebuch-Index idGL10 des vorherigen Rahmens p angeordnet. Bezüglich der Bits Nummer 25 bis Nummer 27 sind die zweiten, ersten und nullten Bits des Rauschcodebuch-Verstärkungscodebuch-Index idGL11 des vorherigen Rahmens p angeordnet. Bezüglich der Bits Nummer 28 bis Nummer 30 sind die zweiten, ersten und nullten Bits des Rauschcodebuch-Verstärkungscodebuch-Index idGL12 des vorherigen Rahmens p angeordnet.
Für die Bits Nummer 31 und Nummer 32 sind die zweiten und ersten Bits des Rauschcodebuch-Verstärkungscodebuch-Index idGL13 des vorherigen Rahmens p angeordnet. Für die Bits Nummer 33 bis Nummer 65 werden die Parameter des vorliegenden Rahmens c eingegeben, um die Folge der Bits von Nummer 0 bis Nummer 32 zu wiederholen.
Die Eingangsfolge der Klassen II und III des stimmhaften Tones sind in 16 veranschaulicht. Obwohl in 9 nicht dargestellt, ist ein Teil der Klasse VII mit dem CRC-Code als Bits der Klassen II bis VI geschützt; falls ein Fehler auftritt, werden jedoch keinerlei Maßnahmen getroffen, und die Bits werden in entsprechender Weise wie die Bits der Klasse VII behandelt. Zuerst wird als Bit Nummer 66 das nullte Bit des Rauschcodebuch-Verstärkungscodebuch-Index idGL13 des vorherigen Rahmens p eingegeben. Für die Bits Nummer 67 bis Nummer 69 werden bzw. sind die zweiten, ersten und nullten Bits des Codebuch-Index LSP2 der Korrektur des Fehlers des niedrigen Frequenzbereichs der Ordnung 5 des vorherigen Rahmens p angeordnet. Für die Bits Nummer 70 bis Nummer 73 werden bzw. sind die dritten, zweiten, ersten und nullten Bits des Codebuch-Index LSP3 der Korrektur des Fehlers des hohen Frequenzbereichs der Ordnung 5 des vorherigen Rahmens p angeordnet. Für die Bits Nummer 74 bis Nummer 80 sind die sechsten, fünften, vierten, dritten, zweiten, ersten und nullten Bits des Codebuch-Index LSP3 der Korrektur des Fehlers des gesamten Frequenzbereichs des vorherigen Rahmens p angeordnet. Für die Bits Nummer 81 bis Nummer 86 sind die sechsten, fünften, vierten, dritten, zweiten, ersten und nullten Bits des Rauschcodebuch-Verstärkungscodebuch-Index idGL00 des vorherigen Rahmens p angeordnet. Für das Bit Nummer 87 ist das fünfte Bit des Rauschcodebuch-Verstärkungscodebuch-Index idGL01 des vorherigen Rahmens p angeordnet. Für die Bits Nummer 88 bis Nummer 109 werden bzw. sind die Parameter des gegenwärtigen Rahmens c eingegeben, um die Folge der Bits Nummer 66 bis Nummer 87 zu wiederholen.
Als Gesamtzahl von 4 Bits der Klasse III des stimmlosen Tones sind die vierten, dritten, zweiten und ersten Bits des Rauschcodebuch-Verstärkungscodebuch-Index idGL01 des vorherigen Rahmens p für die Bits Nummer 110 bis Nummer 113 angeordnet.
Die Eingangsfolge einer Gesamtzahl von 46 Bits von der Klasse IV bis zur Klasse VII des stimmlosen Tones ist in 17 veranschaulicht. Obwohl in 9 nicht dargestellt, ist ein Teil der Klasse VII mit dem CRC-Code als Bits der Klassen II bis VI geschützt; falls ein Fehler auftritt, werden jedoch keinerlei Maßnahmen getroffen, und die Bits werden in entsprechender Weise wie die Bits der Klasse VII behandelt.
Zuerst wird als Bit Nummer 114 der Klasse IV das nullte Bit des Rauschcodebuch-Verstärkungscodebuch-Index idGL01 des vorherigen Rahmens p als Bit Nummer 114 der Klasse IV angeordnet. Für die Bits Nummer 115 bis Nummer 117 werden die vierten, dritten und zweiten Bits des Rauschcodebuch-Verstärkungscodebuch-Index idGL01 des vorherigen Rahmens p angeordnet.
Für eine Gesamtzahl von 4 Bits der Klasse V sind die vierten, dritten, zweiten und ersten Bits des Rauschcodebuch-Verstärkungscodebuch-Index idSL10 des vorherigen Rahmens p als Bits Nummer 115 bis Nummer 117 angeordnet.
Als Bit Nummer 122 der Klasse VI ist das nullte Bit des Rauschcodebuch-Verstärkungscodebuch-Index idSL10 des gegenwärtigen Rahmens c angeordnet. Für die Bits Nummer 123 bis Nummer 125 sind die vierten, dritten und zweiten Bits des Rauschcodebuch-Verstärkungscodebuch-Index idSL10 des gegenwärtigen Rahmens angeordnet.
Eine Gesamtsumme von 34 Bits der Klasse VII ist als Nummer 126 bis Nummer 159 wie folgt zugewiesen:
Für die Bits Nummer 128 bis Nummer 132 sind die vierten, dritten, zweiten, ersten und nullten Bits des Rauschcodebuch-Verstärkungscodebuch-Index idSL10 des vorherigen Rahmens p angeordnet. Für die Bits Nummer 133 bis Nummer 137 sind die vierten, dritten, zweiten, ersten und nullten Bits des Rauschcodebuch-Verstärkungscodebuch-Index idSL12 des vorherigen Rahmens p angeordnet. Für die Bits Nummer 138 bis Nummer 142 sind die vierten, dritten, zweiten, ersten und nullten Bits des Rauschcodebuch-Verstärkungscodebuch-Index idSL13 des vorherigen Rahmens p angeordnet. Für die Bits Nummer 143 bis Nummer 159 werden die für den gegenwärtigen Rahmen c von 17 Bits relevanten Bits von Nummer 126 bis Nummer 142 wiederholt.
Die Codierungsparameter der stimmhaften und stimmlosen Töne mit der Bitrate von 2kbps werden in einer Eingangsfolge, wie in 10 und 11 veranschaulicht, dem in 1 dargestellten Übertragungsweg-Codierer 4 eingangsseitig zugeführt.
Andererseits werden die Codierungsparameter der stimmhaften und stimmlosen Töne mit der Bitrate von 4kbps in der in 12 bis 17 veranschaulichten Eingangs- bzw. Eingabefolge dem Übertragungsweg-Codierer 4 gemäß 1 eingangsseitig zugeführt.
Die CRC-Code-Recheneinheit 5 des Übertragungsweg-Codierers 4 ermittelt sodann den CRC-Code CRC[i], falls erforderlich, durch ein CRC-Polynom, wie es in der folgenden Gleichung (1) angegeben ist,
für die Klasse I in Abhängigkeit von der Differenz in der Bitrate von 2kbps/4kbps und auf die Klassifizierung hin. In der Klasse II und so weiter werden die CRC-Codes in ähnlicher bzw. entsprechender Weise unter Heranziehung von geeigneten CRC-Polynomen erhalten.
In der obigen Gleichung
und GCRC(x) = 1 + x2 + x3 + x5 + x6 (3)
Die CRC-Code-Recheneinheit 5 erlangt den CRC-Code CRC[i] unter Heranziehung der obigen Gleichungen (1) bis (3) lediglich für die Klassen I, II, IV und V für 2kbps. Obwohl sowohl die stimmhaften Töne als auch die stimmlosen Töne verarbeitet werden können, wird hauptsächlich bei der vorliegenden Erfindung in Betracht gezogen, das Ausgangssignal in der Decodierungsvorrichtung dadurch einzustellen, dass ein Fehler berücksichtigt wird, der in Abhängigkeit von dem CRC-Code ermittelt wird, welcher auf die relevanten Klassen des stimmhaften Tones ausschließlich der Klasse I angewandt ist.
Die Gesamtzahl der Bits von der Klasse I bis zur Klasse VI der stimmhaften Sprache von 2kbps ist in 18 veranschaulicht, in der auch die Gesamtzahl der Bits von der Klasse I bis zur Klasse VII des Sprachtones von 4kbps dargestellt ist.
Bei der Klasse I des stimmhaften Tones mit 2kbps als einem Objekt berechnet die CRC-Code-Recheneinheit 5 des Audiorahmens mit 44 Bits auf 6 Bits des CRC-Codes CRC[i] (CRC-Parität). Wenn die Klasse II ein Objekt ist, berechnet die CRC-Code- Recheneinheit 5 die 1-Bit-CRC-Parität aus 4-Bits des Audiorahmens. Falls die Klasse VI ein Objekt ist, wird die CRC-Parität nicht berechnet.
Unter Heranziehung des CRC-Codes CRC[i], wie er durch die Gleichungen (1) bis (3) erhalten wird, und der Eingangsfolge P[i], wie sie in 10 veranschaulicht ist, wird die Bitfolge CVin[i] gebildet, wie dies durch die Gleichung (4) angegeben ist:
Bei der Klasse I des stimmhaften Tones von 4kbps als einem Objekt berechnet die CRC-Code-Recheneinheit 5 eine 6-Bit-CRC-Parität aus 66 Bits des Audiorahmens. Bei der Klasse II als einem Objekt berechnet die CRC-Code-Recheneinheit 5 die 6-Bit-CRC-Parität aus 44 Bits des Audiorahmens. Bei den Klassen III bis VI als einem Objekt berechnet die CRC-Code-Recheneinheit 5 eine 1-Bit-CRC-Parität aus 4 Bits des Audiorahmens. Falls die Klasse VII ein Objekt ist bzw. umfasst, wird die CRC-Parität nicht berechnet.
Unter Heranziehung des CRC-Codes CRC[i], wie er durch die Gleichungen (1) bis (3) ermittelt wird, und der Eingangsfolge P[i], wie sie in 12 bis 14 veranschaulicht ist, wird die Bitfolge CVin[i] gebildet, wie dies durch die Gleichung (4) angegeben ist.
Der Faltungscodierer 6 wendet eine Faltungscodierung auf den Bitsatz an, auf den der CRC-Code erforderlichenfalls angewandt ist, der von der CRC-Code-Recheneinheit 5 abgegeben wird, das ist die Bitfolge CVin[i]. In dieser Codierungsvorrichtung wird die Faltungscodierung lediglich auf die Bitfolge CVin[i] angewandt, die mit dem Klasse-I-Bit der Bitrahmen von 2kbps und 4kbps zum Schutz konsistent ist.
Der Faltungscodierer 6 wendet die Faltungscodierung ohne die Notwendigkeit eines Endbits, wie die SRCPC-Codierung (Systematic Rate Compatible Punctured Convulation Code) an, die beispielsweise im H.233-Anhang C herangezogen ist, auf die Bitfolge CVIN[I] an, die mit dem Klasse-I-Bit der Bitraten von 2kbps und 4kbps konsistent ist. Die Faltungscodierung wird in diesem Faltungscodierer 6 mit einer doppelten Coderate ausgeführt, wie sie als 8/16 in 18 veranschaulicht ist. Somit beträgt die Gesamtzahl der Bits der 2-kbps-Klasse I (Audiorahmen 44 Bits + CRC-Parität von 6 Bits) × 2 = 100 Bits, während die Gesamtzahl der Bits der 4kbps-Klasse I (Audiorahmen 66 Bits + CRC-Parität 6 Bits) × 2 = 144 Bits beträgt.
Für die Klasse II bis zur Klasse V von 2kbps wird lediglich der CRC-Code ohne die Ausführung der Faltungscodierung angewandt. Daher beträgt die Gesamtzahl der Bits (Audiorahmen 4 Bits + CRC-Parität 1 Bit) × 1 = 5 Bits. Da in der Klasse VI kein CRC-Code erzeugt wird, stellen andererseits lediglich 20 Bits des Audiorahmens die Gesamtzahl der Bits dar.
Da für die Klasse II bis zur Klasse VI von 4kbps keine Faltungscodierung angewandt wird, beträgt die Gesamtzahl der Bits der Klasse II (Audiorahmen 44 Bits + CRC-Parität 6 Bits) × 1 = 50 Bits, wie dies in 18 veranschaulicht ist, wobei die Anzahl der Bits der Klasse III bis zur Klasse VI (Audiorahmen 4 Bits + CRC-Parität 1 Bit) × 1 = 5 Bits beträgt. Für die Klasse VII, in der kein CRC-Code erzeugt wird, liefern lediglich 34 Bits des Audiorahmens die Gesamtzahl der Bits.
Daher beträgt bei dem 2kbps-Quellcodierer, bei dem die Summe der gesamten Klassen 140 Bits umfasst, die Bitrate 3,5kbps.
Bei dem 4kbps-Quellcodierer, bei dem die Summe der gesamten Klassen 248 Bits umfasst, beträgt die Bitrate 6,2kbps.
Die Vielzahl von Arten von Codierungsparametern, die durch die Klassenaufteilungs- und Eingabefolgen-Bestimmungseinheit 23 in Abhängigkeit von der psychoakustischen Empfindlichkeit der Bits gegenüber Übertragungswegfehlern klassifiziert und in dem Übertragungsweg-Codierer 4 in Abhängigkeit von den Klassen geschützt sind, werden durch den Modulator 7 moduliert. Die Abgabe- bzw. Ausgangsbits des Modulators 7 werden für eine Übertragung durch den Sender 8 verarbeitet und durch die Antenne 10 gesendet.
Auf der Seite der Decodierungsvorrichtung wird die Bitfolge als ein über die Antennenweiche 9, den Empfänger 11 und den Demodulator 13 demoduliertes codiertes Ausgangssignal mittels des Faltungs-Decoders 16 einer Faltungsdecodierung unterzogen. Die decodierte Bitfolge wird der CRC-Code-Komparator-Rahmenmaskierungseinheit 15 zugeführt, in der der CRC-Code, welchem dem Faltungs-Decodierungsausgangssignal des Faltungsdecoders 16 angehängt ist, mit dem CRC-Fehlerkorrekturcode verglichen, der aus der Bitgruppe ausschließlich der entscheidenden Bitgruppe berechnet ist, um das Faltungs-Decodierungsausgangssignal in Abhängigkeit von den Ergebnissen des Vergleichs einzustellen.
Die CRC-Code-Komparator-Rahmenmaskierungseinheit 15 führt den Fehlerdetektierprozess zur Überprüfung des Vorliegens eines Übertragungsfehlers unter Heranziehung des Fehlerkorrekturcodes, der dem Faltungs-Decodierungsausgangssignal von dem bzw. durch den Faltungs-Decodierungsschritt angehängt ist, welcher durch den Faltungs-Decoder 16 ausgeführt ist, sowie einen Abgabe-Einstellschritt zur Einstellung des Faltungs-Decodierungsausgangssignals in Abhängigkeit vom Ergebnis der Fehlerüberprüfung beim Fehlerüberprüfungsschritt aus.
Insbesondere in dem Fall, dass der CRC-Code nicht koinzident ist, das heißt in dem Fall, dass der CRC-Fehler ermittelt wird und die Sprache unter Heranziehung von Daten des in Frage stehenden Rahmens decodiert wird, ist die Sprachqualität erheblich verschlechtert. Daher wird eine Fehlerschutzverarbeitung (Rahmenmaskierung) in Abhängigkeit vom Ausmaß der Fehlerverknüpfung bzw. -verkettung ausgeführt.
Der Rahmenmaskierungszustand des gegenwärtigen Rahmens wird in Abhängigkeit von den CRC-Decodierungsergebnissen der Klasse I aktualisiert. 19 veranschaulicht den Zustandsübergang durch die Rahmenmaskierungsverarbeitung. Die jeweiligen Zustände (Zustand 0 bis Zustand 7) erfahren einen Übergang in der durch einen Pfeil bezeichneten Richtung. Der Übergang erfolgt vom Zustand 0. Bei einer Übergangslinie geben „1" und „0" die Richtung des Übergangs im Falle eines durch einen Fehler beeinträchtigten Rahmens bzw. die Richtung des Übergangs im Falle eines fehlerfreien Rahmens an.
In Abhängigkeit von den Zustandswerten wird die folgende Parameterersetzung ausgeführt. In einem fehlerfreien Zustand ist der Zustandswert gegeben mit 0, und die empfangenen Sprachrahmenbits werden verarbeitet. Der Zustand 7 bezeichnet den Zustand einer Wiederherstellung.
Falls bei der Decodierung der obigen LSP-Parameter der zustandsveränderliche Zustand gegeben ist durch den „Zustand 1" bis zum „Zustand 6", werden die LSP-Parameter durch jene des vorherigen Rahmens ersetzt.
Falls beim Zustand 7 der Wiederherstellung durch LSP = 0 angegeben wird, dass der LSP-Modus vom direkten Typ ist, werden die LSP-Parameter aus den gesamten LSP-Codes berechnet. Falls LSP = 4 angibt, dass der LSP-Modus vom Differenztyp ist, werden die LSP-Parameter aus der folgenden Gleichung (5) berechnet: LSPBasis = p LSPvorher(n) + (1 – p)LSPU/V(n)für n = 1... 10, (5) so dass im Differenzmodus die LSP-Parameter von dem LSP0-Code mit jenen des vorherigen Rahmens interpoliert werden.
In der obigen Gleichung (5) stellt LSP_basis(n) den LSP-Parameter der Basisschicht dar; LSP_vorher(n) stellt den LSP-Parameter des vorherigen Rahmens dar, und LSP_0-ter(n) stellt den Parameter dar, der aus dem LSP0-Code decodiert ist. Andererseits stellt P einen Interpolationskoeffizienten dar und wird in einem Bereich 0,7 bis 0,0 um jeweils 0,1 durch die Zahl (Rahmen) der CRC-Fehlerrahmen unmittelbar vor der Klasse I geändert. Falls beispielsweise die Anzahl der vergangenen Fehler-Rahmen gegeben ist mit 0, wird P = 0,7 herangezogen, wobei LSP_Basis(n) der Basisschicht gegeben ist mit 0,7·LSP_vorher(n) + 0,3·LSP_0-ter(n). Die LSP2-, LSP3- und LSP5-Codes werden nicht berücksichtigt und LSP_Basis(n) wird als gegenwärtiger LSP-Parameter genutzt.
Eine Dämpfungs-Variable Dämpfung steuert die Tonlautstärke des Abgabetones in Abhängigkeit vom Wert der Zustandsvariablen Zustand, wie dies in 21 festgelegt ist. Falls beispielsweise die Zustandsvariable Zustand gegeben ist mit 0, wird die Dämpfungs-Variable Dämpfung auf 1000 festgelegt. Falls die Zustandsvariable Zustand gegeben ist mit 6, wird die Dämpfungs-Variable Dämpfung auf 0,000 festgelegt. Bei der Zustandsvariablen Zustand = 7 wird die Dämpfungs-Variable Dämpfung als Mittelwert von 1,0 und einen Mittelwert des vorherigen Rahmens verwendet. Falls der Mittelwert den Wert von 0,8 überschreitet, wird jedoch 0,8 verwendet.
Der Ersatz des stimmhaften Ton-Parameters und die Verstärkungssteuerung werden wie folgt ausgeführt:
Falls der Stimmhaft/Stimmlos-Entscheidungsparameter VUV gegeben ist mit V und falls die Zustandsvariable Zustand gegeben ist mit 1 bis 6, werden die Codebuch-Parameter idS0, idS1, der LPC-Restspektral-Codebuch-Index idG und die Spektral-Parameter idS0_4k bis idS3_4k für 4kbps durch jene Werte des vorherigen Rahmens ersetzt. Zur Steuerung der Tonlautstärke der Abgabesprache werden die Oberwellenpegel-Parameter Am[00..127] der LPC-Restsignale einer Verstärkungssteuerung unterzogen, wie dies in der folgenden Gleichung (6) angegeben ist: Am[i] = Dämpfung·Am(org)[i] für i = 0...127 (6)
Hierbei ist Am_org [i] aus den Spektral-Parametern berechnet worden.
Falls beim Zustand 7 der unmittelbar vorangehende Rahmen auf die Wiederherstellung der stimmhaften Sprache stimmlos ist, gilt die folgende Gleichung (7): Am[i] = 0,6·stumm Am(org)[i] (7),wobei diese Gleichung anstelle der Gleichung (6) verwendet wird, um die Verstärkung zu unterdrücken, damit Kontinuität aufrechterhalten wird. Mit anderen Worten ausgedrückt heißt dies, dass die Störung der Wellenform durch einen Unterschied in den vorderen und hinteren Seitenspektralanteilen unterdrückt wird.
Unterdessen sind 4 Bits des vorherigen Rahmens p und des gegenwärtigen Rahmens c des nullten LPC-Restspektral-Codebuch-Index idS0 und des ersten LPC-Restspektral-Codebuch-Index idS1 jeweils von anderen Klassen als der Klasse I und der Klasse VI von 2kbps, wie dies in 6 veranschaulicht ist, so dass diese Bits, wie aus 18 ersichtlich ist, individuell durch das 1-CRC-Bit geschützt sind. Falls im Zustand 0 oder im Zustand 7, das heißt während des normalen Zustands oder auf eine Wiederherstellung hin CRC-Fehler dieser Klassen für denselben Rahmen gleichzeitig ermittelt werden, werden die quantisierten Oberwellenpegel-Parameter Am[00...44] der festliegenden Dimension aus dem Ursprungswert Am_qnt(org)[1...44] zur Unterdrückung des Pegels des niederfrequenten Bereiches umgesetzt, wie dies durch die folgende Gleichung (8) angegeben ist: Amqnt[i] = s[i]·Amqnt(org)[i] (8)
In dieser Gleichung (8) stellt s[i] einen Koeffizienten zur Unterdrückung von Am_qnt(org) dar, und er wird so festgelegt, wie dies in 22 veranschaulicht ist.
Bei 4kbps sind nahezu sämtliche Bits des ersten Erweiterungs-LPC-Restspektral-Codeindex idS1_4k, des zweiten Erweiterungs-LPC-Restspektral-Codeindex idS2_4k und des dritten Erweiterungs-LPC-Restspektral-Codeindex idS3_4k als Klasse-II-Bits durch eine Vielzahl von CRC-Bits geschützt. Falls in der Klasse II ein Fehler ermittelt wird, wird eine Spektral-Hüllkurve der Erweiterungsschicht unberücksichtigt gelassen.
Falls beispielsweise der VUV-Entscheidungsparameter gegeben ist mit UV und falls die Zustandsvariable Zustand = 1 bis 6 gegeben ist, werden die Rausch-Codebuch-Verstärkungs-Parameter idGL00, idGL01 und die Rausch-Codebuch-Verstärkungs-Parameter idGL10 bis idGL13 von 4kbps durch jene Werte des vorherigen Rahmens ersetzt. In einem entsprechenden Fall können die Rausch-Codebuch-Verstärkungs-Parameter idGL00, idGL01 durch idGL01 des vorherigen Rahmens ersetzt werden, während die Rausch-Codebuch-Verstärkungs-Parameter idGL10 bis idGL13 für 4kbps durch idGL13 des vorherigen Rahmens ersetzt werden können. Die Rausch-Codebuch-Verstärkungs-Parameter idGL00, idGL01 und die Rausch-Codebuch-Verstärkungs-Parameter idGL10 bis idGL13 für 4kbps, die verwendet sind, sind jene Parameter, die auf die Erzeugung von gleichmäßig zufällig verteilten Zahlen innerhalb des Bereichs der betreffenden Zahlen von Bits erzeugt werden.
Zur Steuerung der Tonlautstärke des Abgabetones wird das LPC-Restsignal res[00..159] einer Verstärkungssteuerung unterzogen, wie dies durch die folgende Gleichung (9) angegeben ist: res[i] = Dämpfung·resorg[i] (0 ≤ i ≤ 159) (9)hierbei ist res[i] aus dem Rausch-Codebuch-Parameter ermittelt.
Das Faltungscodierungs-Ausgangssignal, welches durch die CRC-Code-Komparator-Rahmenmaskierungseinheit 15 einer Rahmenmaskierung unterzogen ist, wird zu dem Sprach-Decoder 17 hingeleitet.
23, 24 veranschaulichen den Aufbau des Sprach-Decoders 17. Von der CRC-Code-Komparator-Rahmenmaskierungseinheit 15 werden die Codebuch-Indices entsprechend dem quantisierten Ausgangssignal der LSP (Linienspektrumspaare) über den Ausgangsanschluss 202 abgenommen, während der Index, die Tonhöhe und die VUV-Parameter als Hüllkurven-Quantisierungs-Ausgangssignal über die Anschlüsse 203 bis 205 und die Indices der UV-(Stimmlos-)-Daten über den Anschluss 207 abgenommen werden. Die CRC-Fehlersignale, die auf eine CRC-Verarbeitung in der CRC-Code-Komparator-Rahmenmaskierungseinheit 15 erhalten werden, werden zu einer Stimmlos-Ton-Syntheseeinheit 220 hingeleitet.
Der Index als Hüllkurven-Quantisierungs-Ausgangssignal von dem Anschluss 203 wird zu einer Vektor-Dequantisierungseinrichtung 212 für eine Vektor-Quantisierung übertragen, um eine Spektral-Hüllkurve der LPC-Reste zu ermitteln, die zu einer Stimmhaft-Ton-Syntheseeinheit 211 übertragen werden. Die Stimmhaft-Ton-Syntheseeinheit 211 synthetisiert die LPC-Reste des stimmhaften Tonanteils durch eine sinusförmige Synthese und wird mit den Tonhöhen- sowie Stimmhaft/Stimmlos-Entscheidungsausgangssignal von den Anschlüssen 204, 205 gespeist. Die LPC-Reste des stimmhaften Tones von der Stimmhaft-Ton-Syntheseeinheit 211 werden zu einem LPC-Synthesefilter 214 übertragen. Der Index der UV-Daten vom Anschluss 207 wird zu der Stimmlos-Ton-Syntheseeinheit 220 übertragen, in der auf das Rauschcodebuch Bezug genommen wird, um die LPC-Reste als Erregungsvektor des stimmlosen Teiles heranzuziehen. Diese LPC-Reste werden außerdem zu dem LPC-Synthesefilter 214 übertragen, in welchem die LPC-Reste des stimmhaften Anteils und jene des stimmlosen Anteils mittels einer LPC-Synthese unabhängig verarbeitet werden. Alternativ kann die LPC-Synthese auf die Summe der LCP-Reste des stimmhaften Anteils und jener des stimmlosen Anteils ausgeführt werden. Der LSP-Index von dem Anschluss 202 wird zu einer LPC-Parameter-Wiedergabeeinheit 213 übertragen, um α-Parameter der LPC-Größe heranzuziehen, die an das LPC-Synthesefilter 214 übertragen werden. Die Sprachsignale, die auf eine LPC-Synthese durch das LPC-Synthesefilter 214 erhalten werden, werden an einem Ausgangsanschluss 201 abgenommen.
24 veranschaulicht einen spezifizierteren Aufbau des Sprach-Decoders 17, wie er in 23 veranschaulicht ist. In 24, die im folgenden beschrieben wird, sind Einzelteile oder Komponenten, welche dieselben sind wie jene, die in 23 veranschaulicht sind, mit denselben Bezugszeichen bezeichnet.
Dem Eingangsanschluss 202 wird das Vektor-Quantisierungsausgangssignal von LSP durch die CRC-Code-Komparator-Rahmenmaskierungseinheit 15 zugeführt, das ist der sogenannte Codebuch-Index.
Der LSP-Index wird einer Vektor-Dequantisierungseinrichtung 231 der LPC-Parameter-Wiedergabeeinheit 213 zugeführt, in der die LSP-Daten mittels einer Vektor-Dequantisierung verarbeitet werden. Die resultierenden Daten werden zu LSP-Interpolationsschaltungen 232, 233 für eine LSP-Interpolation übertragen und sodann an LSP→α-Umsetzer 234, 235 zur Umsetzung in α-Parameter von LPC (Linien-Prädiktionscodierung) übertragen. Diese α-Parameter werden zu dem LPC-Synthesefilter 214 übertragen. Die LSP-Interpolationsschaltung 232 und der LSP→α-Umsetzer 234 sind für den stimmhaften Ton (V) vorgesehen, während die LSP-Interpolationsschaltung 233 und der LSP→α-Umsetzer 235 für den stimmlosen Ton (UV) vorgesehen sind. Das LPC-Synthesefilter 214 weist getrennt ein LPC-Synthesefilter 236 für einen stimmhaften Ton und ein LPC-Synthesefilter 237 für einen stimmlosen Ton auf. Dies bedeutet, dass die LPC-Koeffizienteninterpolation unabhängig für die stimmhaften und stimmlosen Anteile ausgeführt wird, um nachteilige Auswirkungen zu verhindern, die ansonsten aufgrund der Interpolation der LSP-Werte von gänzlich unterschiedlichen Eigenschaften an einem Übergangspunkt von stimmhaften zu stimmlosen Anteilen oder von stimmlosen zu stimmhaften Anteilen hervorgerufen werden.
Dem Eingangsanschluss 203 werden durch einen Gewichtungs-Vektor quantisierte Code-Indexdaten der Spektral-Hüllkurve Am durch die CRC-Code-Komparator-Rahmenmaskierungseinheit 15 zugeführt. Dem Eingangsanschluss 204 werden Daten des Tonhöhen-Parameters PCH durch die CRC-Code-Komparator-Rahmenmaskierungseinheit 15 zugeführt, während dem Eingangsanschluss 205 Stimmhaft/Stimmlos-Entscheidungsdaten durch die CRC-Code-Komparator-Rahmenmaskierungseinheit 15 zugeführt werden.
Die vektor-quantisierten Indexdaten der Spektral-Hüllkurve Am von dem Eingangsanschluss 203 her werden der Vektor-Dequantisierungseinrichtung 212 zur Vektor-Dequantisierung zugeführt, bei der es sich um die Rückumwandlung entsprechend der Datenanzahlumwandlung handelt. Die resultierenden Daten der Spektral-Hüllkurve werden einer eine sinusförmige Synthese vornehmenden Syntheseschaltung 215 der Stimmhaft-Ton-Syntheseeinheit 211 zugeführt.
Falls der Unterschied von Rahmen zu Rahmen vor der Vektor-Dequantisierung bei der Codierung herangezogen wird, wird die Decodierung einer Differenz von Rahmen zu Rahmen nach der Vektor-Dequantisierung vorgenommen, gefolgt von der Datenzahlumwandlung, um Spektral-Hüllkurvendaten zu erzeugen.
Der eine sinusförmige Synthese vornehmenden Syntheseschaltung 215 werden die Tonhöhe bzw. die Tonhöhen-Daten von dem Eingangsanschluss 204 und die V/UV-Entscheidungsdaten von dem Eingangsanschluss 205 zugeführt. Von der eine sinusförmige Synthese vornehmenden Syntheseschaltung 215 werden LPC-Restdaten, die dem Ausgangssignal des LPC-Rückfilters 111 gemäß 2 und 3 entsprechen, abgenommen und einem Addierer 218 zugeführt. Das besondere Verfahren dieser sinusförmigen Synthese ist in dem offengelegten japanischen Patent H-5-265487 und in dem offengelegten japanischen Patent H-8-063197 angegeben, die im Namen der Anmelderin des vorliegenden Patents eingereicht worden sind.
Die Hüllkurven-Daten von der Vektor-Dequantisierungseinrichtung 212 sowie die Tonhöhen- und V/UV-Entscheidungsdaten von den Eingangsanschlüssen 204, 205 werden zu einer Rausch-Syntheseschaltung 216 hingeleitet, um das Rauschen des stimmhaften (V)-Anteiles hinzuzufügen. Ein Ausgangssignal der Rausch-Syntheseschaltung 216 wird dem Addierer 218 über eine Addierschaltung 217 mit einem gewichteten Gewicht zugeführt. Der Grund für diese Maßnahme liegt darin, dass mit Rücksicht darauf, dass eine Speisung bzw. Erregung; welche ein Eingangssignal für das LPC-Filter des stimmhaften Tones durch eine sinusförmige Synthese bestätigt, einen gefüllten Eindruck beim Ton niedriger Tonhöhe liefert, wie bei der Sprache eines Mannes, und dass die Tonqualität plötzlich zwischen dem stimmhaften (V) und dem stimmlosen (UV) Ton wechselt, was zu einem unnatürlichen Eindruck führt; das Rauschen, welches die aus den codierten Sprachdaten abgeleiteten Parameter berücksichtigt, wie die Tonhöhe, die Spektral-Hüllkurvenamplitude, die maximale Amplitude in einem Rahmen oder den Pegel des Restsignals, wird dem stimmhaften Anteil der LPC-Restsignale des LPC-Synthesefilter-Eingangssignals hinzuaddiert, das ist die Speisung bzw. Erregung des stimmhaften Anteils.
Das Summen-Ausgangssignal des Addierers 218 wird einem Synthesefilter 236 für stimmhafte Sprache des LPC-Synthesefilters 214 zugeführt, um einer LPC-Syntheseverarbeitung unterzogen zu werden, damit ein Zeitbereichs-Wellenformsignal erzeugt wird, welches dann durch ein Nachfilter 238v für die stimmhafte Sprache gefiltert und sodann zu einem Addierer 239 hin geleitet wird.
Der Formindex und der Verstärkungsindex als UV-Daten werden zu Eingangsschlüssen 207s bzw. 207g hin geleitet, wie dies in 24 veranschaulicht ist, und sodann werden sie an die Stimmlos-Ton-Syntheseeinheit 220 abgegeben. Der Formindex von dem Anschluss 207s wird zu einem Rauschcodebuch 221 der Stimmlos-Ton-Syntheseeinheit 220 übertragen, während der Verstärkungsindex von dem Anschluss 207g zu einer Verstärkungsschaltung 222 übertragen wird. Ein aus dem Rauschcodebuch 221 ausgelesener repräsentativer Wert ist die Rauschsignalkomponente, die den LPC-Resten des stimmlosen Tones entspricht und die von einer durch eine zuvor festgelegte Verstärkung in der Verstärkungsschaltung 222 bestimmten Amplitude ist. Die Rauschsignalkomponente wird dann zu einer Fensterschaltung 223 hingeleitet, in der sie durch eine Fenstertechnik aus der Verbindung mit dem stimmhaften Klanganteil beseitigt wird.
Ein Ausgangssignal der Fensterschaltung 223 als Ausgangssignal der Stimmlos-Klang-Syntheseeinheit 220 wird zu einem Synthesefilter für den stimmlosen (UV) Klang 237 hingeleitet, in welchem das betreffende Signal mit einer LPC-Synthese verarbeitet wird, um Zeit-Wellenformdaten für den stimmlosen Anteil zu bestätigen, der durch das Nachfilter für den stimmlosen Anteil 238u gefiltert und sodann an den Addierer 239 abgegeben wird.
In dem Addierer 239 wird das Zeit-Wellenformsignal des stimmhaften Anteils von dem Nachfilter 238v für den stimmhaften Anteil zu den Zeit-Wellenformdaten des stimmlosen Anteiles von dem Nachfilter 238u für den stimmlosen Anteil summiert. Die resultierenden Daten werden an einem Ausgangsanschluss 201 abgenommen.
Das decodierte Sprachausgangssignal, welches an diesem Ausgangsanschluss 201 abgenommen wird, wird mittels des D/A-Wandlers 18 in Analogsignale umgesetzt, die über einen Lautsprecher 19 als Sprache ausgegeben werden.
25 und 26 zeigen ein Ablaufdiagramm zur gemeinsamen Veranschaulichung des Codierungsverfahrens und des Sprachdecodierungsverfahrens, die von dem tragbaren Telefongerät ausgeführt werden.
Genauer gesagt handelt es sich bei dem Sprachcodierungsverfahren, welches von der Codierungsvorrichtung des tragbaren Telefongeräts ausgeführt wird, um die Codierungsverarbeitung eines eingangsseitigen Sprachsignals durch einen Sprachcodierungsprozess gemäß dem Schritt S1, um die Auswahl eines entscheidenden Bitsatzes aus der Vielzahl von Arten der Sprachcodierungsparameter vom Schritt S1 mit hoher psychoakustischer Empfindlichkeit in Bezug auf den Übertragungsweg-Fehler, um eine Berechnung eines CRC-Codes aus dem entscheidenden Bitsatz und um eine Faltungscodierung des beim Schritt S2 berechneten CRC-Codes für den entscheidenden Bitsatz beim Schritt des Sprachcodierers 3.
Die durch die Decodierungsvorrichtung des tragbaren Telefongeräts ausgeführte Sprachdecodierungsverarbeitung stellt die Verarbeitung einer Faltungsdecodierung des Faltungscodierungs-Ausgangssignals von einem anderen tragbaren Telefongerät beim Schritt S11 sowie die Ermittlung von Fehlern durch einen CRC-Code-Vergleich beim Schritt S12 für Klassen mit CRC-Schutzbits dar. Beim Schritt S13 wird die eine Rahmenmaskierung betreffende Zustandsvariable Zustand in Abhängigkeit von dem CRC-Code-Vergleich aktualisiert.
Falls beim Schritt S13 kein Fehler ermittelt worden ist, geht das Programm weiter zum Schritt S16. Falls die Variable in den Zustand = 7 aktualisiert wird, geht das Programm weiter zum Schritt S17, um beim Schritt S18 zu überprüfen, ob die Variable Dämpfung als Ergebnis der Mittelung der Variablen Dämpfung (p) der gesamten Rahmen und 1 den Wert von 0,8 überschritten hat oder nicht. Falls die Variable nicht den Wert von 0,8 überschritten hat, geht das Programm weiter zum Schritt S19, um Dämpfung = 0,8 festzulegen.
Falls beim Schritt S20 überprüft wird, dass LSP = 1 gegeben ist, wobei der Modus der Differenzmodus ist, geht das Programm weiter zum Schritt S21, um einen Interpolationskoeffizienten festzulegen, der auf die Anzahl von Fehlern in der unmittelbar vorangehenden Klasse I anspricht. Beim Schritt S22 erfolgt eine LSP- Decodierung. Die Komponenten LSP2, LSP3 und LSP5, welche Fehlerkomponenten entsprechen, werden nicht summiert. Falls LSP beim Schritt S20 nicht gegeben ist mit 1, geht das Programm weiter zum Schritt S23, um eine Routine der LSP-Decodierung auszuführen.
Falls die Zustandsvariable Zustand mit 0 oder 7 und falls der Rahmen der stimmhafte Rahmen (VUV > 0) beim Schritt S24 ist, geht das Programm weiter zum Schritt S25, um das LPC-Restspektrum Am mittels idS0, idS1 und idG zu decodieren. Falls beim Schritt S26 Fehler gleichzeitig von den CRC-Bits ermittelt werden, die zu idS0 und idS1 individuell hinzuaddiert sind, wird beim Schritt S27 eine Unterdrückung des unteren Bereichs angewandt.
Da Am in die festliegende Dimension umgesetzt worden ist, wird unterdessen beim Schritt S28 eine Dimensionsumsetzung bewirkt, um die tonhöhen-basierte inhärente Dimension wieder herzustellen.
Falls beim Schritt S29 die Rate gegeben ist mit 4kbps, geht das Programm weiter zum Schritt S30, bei dem die CRC-Bits, welche idS2_4k, idS3_4k und idS4_4k als Erweiterungskomponenten von Am abdecken, überprüft werden. Die Erweiterungskomponenten werden beim Schritt S31 lediglich dann summiert, wenn kein Fehler ermittelt worden ist.
Falls beim Schritt S32 der Zustand = 7 gegeben ist und falls vorher VUV (VUV des vorherigen Rahmens) = 0 gegeben ist, was einen stimmlosen Klang angibt, geht das Programm weiter zum Schritt S33, um Am zu unterdrücken.
Das tragbare Telefongerät, welches über den Übertragungsweg-Codierer 4 und den Codierer 3 als Codierungsvorrichtung auf der Sendungsseite verfügt, ist imstande, Codierungsdaten abzugeben, die gegenüber Übertragungswegfehlern stabil sind.
Außerdem ist das tragbare Telefongerät, welches über den Übertragungsweg-Decoder und den Sprachdecoder verfügt, die das Decodierungsverfahren und die Decodierungsvorrichtung der vorliegenden Erfindung auf der Empfangsseite verkörpern, imstande, die Absenkung der Tonqualität zu unterdrücken, die ansonsten durch die Übertragungswegfehler hervorgerufen wird.
Das tragbare Telefongerät, das über die Decodierungsvorrichtung und das Decodierungsverfahren verfügt, welche die vorliegende Erfindung verkörpern, ist oben erläutert worden. Die vorliegende Erfindung ist indessen auf eine Decodierungsvorrichtung eines tragbaren Telefongeräts nicht beschränkt, sondern sie ist beispielsweise auf ein bzw. bei einem Übertragungssystem anwendbar.
27 zeigt eine veranschaulichende Struktur einer Ausführungsform eines die vorliegende Erfindung verkörpernden Übertragungssystems. Unterdessen bedeutet das System eine logische Anordnung aus einer Vielzahl von Geräten ohne Bezug darauf, ob die jeweiligen Geräte im selben Gehäuse untergebracht sind oder nicht.
Bei diesem Übertragungssystem besitzt ein Client-Terminal bzw. -Endgerät 63 die Decodierungsvorrichtung, während ein Server 61 die Codierungsvorrichtung besitzt. Das Client-Terminal 63 und der Server 61 sind über ein Netzwerk 62, beispielsweise das Internet, ISDN (Integriertes Dienste Digitales Netzwerk), ein LAN (lokales Bereichsnetzwerk) oder ein PSTN-Netzwerk (öffentliches Vermittlungs-Telefonnetzwerk) miteinander verbunden.
Falls eine Anforderung nach Audiosignalen, wie nach Musiknummern vom Client-Terminal 63 an den Server 1 über das Netzwerk 62 erfolgt, werden die Codierungsparameter der den angeforderten Musiknummern entsprechenden Audiosignale in Abhängigkeit von der psychoakustischen Empfindlichkeit von Bits gegenüber Übertragungswegfehlern in dem Netzwerk 62 geschützt und zu dem Client-Terminal 63 übertragen, welches dann die gegenüber Übertragungswegfehlern geschützten Codierungsparameter von dem Server 61 nach dem Decodierungsverfahren decodiert, um das decodierte Signal als Sprache von einer Ausgabevorrichtung, wie einem Lautsprecher abzugeben.
28 zeigt eine veranschaulichende Hardwarestruktur eines Servers 61 gemäß 27.
In einem Festspeicher bzw. ROM-Speicher 71 ist beispielsweise ein IPL-(Anfangsprogramm-Lade-)-Programm gespeichert. Die zentrale Verarbeitungseinheit bzw. CPU 72 führt ein Betriebssystem- bzw. OS-Programm entsprechend dem in dem ROM-Speicher 71 gespeicherten IPL-Programm aus. Unter der OS-Steuerung wird ein in einer externen Speichervorrichtung 76 gespeichertes, zuvor festgelegtes Anwendungsprogramm ausgeführt, um die Codierungsverarbeitung von Audiosignalen und die Codierung zu schützen, die auf eine Codierung zur Ausführung einer Übertragungsverarbeitung der zu dem Client-Terminal 63 erhalten wird. Ein RAM-Speicher 73 mit wahlfreiem Zugriff speichert Programme oder Daten, die für den Betrieb der CPU 72 benötigt werden. Eine Eingabevorrichtung 74 besteht beispielsweise aus einer Tastatur, einer Maus, einem Mikrofon oder einem externen Interface, und auf die betreffende Eingabevorrichtung wird eingewirkt, wenn notwendige Daten oder Befehle eingegeben werden. Die Eingabevorrichtung 74 ist außerdem imstande, als Interface für die Annahme von Eingaben von außenseitigen digitalen Audiosignalen zu wirken, die an das Client-Terminal 63 geliefert werden. Eine Ausgabe- bzw. Abgabevorrichtung 74 ist beispielsweise durch ein Display, einen Lautsprecher oder einen Drucker gebildet und nimmt eine Anzeige und Ausgabe der notwendigen Informationen vor. Ein externer Speicher 76 umfasst beispielsweise eine Festplatte, auf der das oben erwähnte OS-Programm oder das zuvor festgelegte Anwendungsprogramm gespeichert sind. Eine Kommunikationsvorrichtung 77 führt die für eine Kommunikation über das Netzwerk 62 notwendige Steuerung aus.
Bei dem in dem externen Speicher 76 gespeicherten, zuvor festgelegten Anwendungsprogramm handelt es sich um ein Programm, welches bewirkt, dass die Funktionen des Sprachcodierers 3, des Übertragungsweg-Codierers 4 oder des Modulators 7 von der CPU 72 auszuführen sind.
29 zeigt eine veranschaulichende Hardware-Struktur des in 27 dargestellten Client-Terminals 63.
Das Client-Terminal 63 besteht aus einem ROM-Speicher 81 bis zu einer Kommunikationsvorrichtung 87 und ist grundsätzlich in entsprechender Weise aufgebaut wie der Server 61, der aus dem ROM-Speicher 71 bis zur Kommunikationsvorrichtung 77 besteht.
Es sei darauf hingewiesen, dass in einem externen Speicher 86 ein Programm, wie ein Anwendungsprogramm, zur Ausführung des Decodierungsverfahrens gemäß der vorliegenden Erfindung zum Decodieren der decodierten Daten von dem Server 61 oder ein Programm zum Ausführen einer anderen Verarbeitung gespeichert sind, wie dies nunmehr erläutert wird. Durch Ausführen dieser Anwendungsprogramme nimmt die CPU 82 eine Decodierung oder Wiedergabe der gegenüber Übertragungswegfehlern geschützten codierten Daten vor.
Genauer gesagt ist in dem externen Speicher 86 ein Anwendungsprogramm gespeichert, welches bewirkt, dass die CPU 82 die Funktionen des Demodulators 13, des Übertragungsweg-Decoders 14 und des Sprachdecoders 17 ausführt.
Somit ist das Client-Terminal 63 imstande, das in dem externen Speicher 86 als Software gespeicherte Decodierungsverfahren zu realisieren, ohne dass der in 1 dargestellte Hardwareaufbau erforderlich ist.
Es ist außerdem für das Client-Terminal 63 möglich, die von dem Server 61 übertragenen Codierungsdaten in dem externen Speicher 86 zu speichern und die codierten Daten zu einem gewünschten Zeitpunkt auszulesen, um das Codierungsverfahren zur Ausgabe der Sprache zu einem gewünschten Zeitpunkt auszuführen. Die codierten Daten können außerdem in einem anderen externen Speicher, wie auf einer magnetooptischen Disk oder einem anderen Aufzeichnungsträger gespeichert werden.
Darüber hinaus können als externer Speicher 76 des Servers 61 Aufzeichnungsträger, auf denen aufgezeichnet werden kann, wie eine magnetooptische Disk oder ein magnetischer Aufzeichnungsträger zur Aufzeichnung der codierten Daten auf diesen Aufzeichnungsträgern verwendet werden.
28 und 29 zeigen die logische Anordnung der verschiedenen Elemente, die physikalisch so angeordnet werden, wie dies für Anwendungsfälle geeignet ist.

Claims

Decodierungsvorrichtung zum Decodieren von übertragenen codierten Parametern, die eingangsseitigen Sprachsignalen entsprechen, welche durch eine Codierungsvorrichtung von einer zuvor festgelegten Zeiteinheit auf der Zeitachse in eine andere codiert worden sind und welche in Abhängigkeit von der psychoakustischen Empfindlichkeit von Bits bezüglich Übertragungspfadfehler klassifiziert worden sind, umfassend: eine Übertragungspfad-Decodierungseinrichtung (14), die zur Ermittlung eines Fehlers unter Heranziehung eines Fehlerprüfcodes dient, der an die genannten Codierungsparameter einer zuvor festgelegten Klasse angehängt ist, und die für eine unterschiedliche Rahmenmaskierungsverarbeitung in Abhängigkeit von Fehlern in den Codierungsparametern sorgt, die in der genannten Codierungseinheit erzeugt sind, wobei die Codierungsverarbeitung in der Codierungsvorrichtung unter Heranziehung einer mehrstufigen Vektor-Quantisierungseinrichtung ausgeführt wird, welche durch abwechselndes Lernen vorbereitet ist, wobei ein den jeweiligen Codevektor darstellender Index entsprechend der psychoakustischen Empfindlichkeit von Bits gegenüber Übertragungspfadfehlern klassifiziert und in diesem klassifizierten Zustand übertragen wird und wobei die betreffende Übertragungspfad-Decodierungseinrichtung (14) die an den genannten Index einer zuvor festgelegten Klasse angehängten Fehlerprüfcodes ermittelt, um für eine unterschiedliche Rahmenmaskierungsverarbeitung in Abhängigkeit davon zu sorgen, ob ein Fehler in einer Vielzahl von Indices ermittelt worden ist oder nicht, dadurch gekennzeichnet, dass die Codierungsverarbeitung in der Codierungsvorrichtung die Codierungsverarbeitung des Quantisierens und Übertragens der Spektralinformation der Sprache mittels einer zweistufigen Vektor-Quantisierungseinrichtung durch abwechselndes Lernen ist und wobei die genannte Übertragungspfad-Decodierungseinrichtung (14) eine Rahmenmaskierungsverarbeitung ausführt, welche den Bereich niedriger Frequenz unterdrückt, wenn die von zwei Vektor-Quantisierungseinrichtungen abgegebenen, Codevektoren darstellenden Indices gleichzeitig fehlerhaft sind.