DE4236315C1

DE4236315C1 - Verfahren zur Sprachcodierung

Info

Publication number: DE4236315C1
Application number: DE19924236315
Authority: DE
Inventors: Bertram Dipl Ing Waechter
Original assignee: ANT Nachrichtentechnik GmbH
Current assignee: Bosch Telecom GmbH
Priority date: 1992-10-28
Filing date: 1992-10-28
Publication date: 1994-02-10
Anticipated expiration: 2012-10-29
Also published as: AU5174293A; WO1994010682A1

Description

Die Erfindung geht aus von einem Verfahren zur Sprachcodierung unter Verwendung der Analyse-durch-Synthese-Methode gemäß Oberbegriff des Anspruches 1. Solche Sprachcodierverfahren sind bekannt, beispielsweise durch die deutsche Patentschrift 38 34 871.

Den Sprachcodierungsverfahren gemein ist eine Prädiktionsanalyse des Eingangssignals (Linear Prediction- Coder, LPC). Dabei wird das Sprachsignal am Eingang des Encoders im Rahmen einer bestimmten Dauer von z. B. 20-30 ms unterteilt. Jeder Sprachrahmen wird im Encoder einer linearen Prädiktionsanalyse unterworfen, welche lineare Abhängigkeiten im Sprachsignal entfernt. Die lineare Prädiktion wird mit Hilfe von FIR-Filtern (Finite Impulse Response) durchgeführt. Die Koeffizienten dieser linearen Filter werden in jedem Rahmen neu ermittelt, d. h., es handelt sich hier um adaptive Filter.

Die heutigen Sprachcodierer, welche bei Bitraten zwischen 4 und 16 kBit/sec arbeiten, benutzen in der Regel die Analyse- durch-Synthese-Methode, wobei im Sender die oben angeführten Filterkoeffizienten und eine dazu gehörige Anregung so bestimmt werden, daß die Energie des gewichteten Fehlers e(n) zwischen Originalsprache und der synthetisierten Sprache möglichst klein wird.

Zum Empfänger übertragen werden müssen Parameter, welche die Anregung beschreiben, und die schon weiter oben erwähnten Koeffizienten des linearen Filters. Auf die Ermittlung der Koeffizienten des linearen Filters soll hier nicht näher eingegangen werden. Als Ergebnis erhält man ein nichtrekursives Filter vom Grade P mit der Übertragungsfunktion

Die inverse Übertragungsfunktion H(z)-1/A(z) wandelt das Fehlersignal (die Anregung) in das (synthetisierte) Sprachsignal um:

Das nach dieser Methode berechnete Filter H(z) ist ohne Quantisierung der Filterkoeffizienten a_i in jedem Fall stabil.

Die Filterkoeffizienten a_i weisen jedoch eine große Dynamik auf und sind deshalb für die Quantisierung und Übertragung schlecht geeignet. Außerdem besteht nicht eine einfache Möglichkeit, im Empfänger die Stabilität des rekursiven Filters zu prüfen.

Bekannt ist es, daß die sogenannten Line-Spectrum-Parameter LSP für die Quantisierung und Übertragung, also zur Beschreibung des Prädikatorfilters H(z) geeignet sind. Man erhält diese Parameter als Nullstellen eines symmetrischen Polynoms

F₁(z) = A(z) + Z^-(P+1) A(z^-1)

und eines antisymmetrischen Polynoms

F₂(z) = A(z) - Z^-(P+1) A(z^-1).

Die Nullstellen z_0i von F₁ und F₂ haben folgende Eigenschaften

- alle Nullstellen liegen auf dem Einheitskreis, sind also durch die Angabe einer Phase ω_i ausreichend beschrieben,
- alle Nullstellen sind einfach,
- auf dem Einheitskreis liegt abwechselnd eine Nullstelle von F₁ und F₂.

In Fig. 2 sind die Nullstellen von F₁(z) und F₂(z) für die Fälle P=6 und P=5 dargestellt. Alle Nullstellen z_i können durch die Argumente ω_i oder durch den daraus abgeleiteten Frequenzwert

dargestellt werden.

Da die Nullstellen in konjugiert komplexen Paaren auftreten und Nullstellen bei ±1 in jedem Fall vorliegen, sind die Polynome F₁ und F₂ durch die Angabe von P Werten ω_i vollständig bestimmt.

Nach den oben beschriebenen Eigenschaften muß gelten

ω₁ < ω₂ < . . . < ω_P.

Diese Monotonie-Eigenschaft ist zwingend notwendig, damit das rekursive Filter H(z) stabil ist. Man hat damit ein Kriterium, um die Stabilität des Filters zu überprüfen.

Bei Änderung der Charakteristik des Spektrums des Eingangssignals ändert sich die Verteilung einzelner LSPs stark. Als Beispiel ist in Fig. 1 die Verteilung der LSP für Filtergrad P=10 dargestellt. Im oberen Bild, Fig. 1a, ist die Eingangssprache nur tiefpaßgefiltert, im unteren Bild, Fig. 1b, IRS gefiltert (bandbegrenzt) nach CCITT P.48.

Ein übliches Verfahren ist die skalare Quantisierung jedes einzelnen LSP, beispielsweise werden in 4,8 kBit/sec CELP- Sprachcode nach dem Federal Standard 1016 des US- Verteidigungsministerium US die Line Spectrum Parameter skalar mit insgesamt 34 Bit quantisiert.

Zu beachten ist bei der Quantisierung, daß auch nach der Quantisierung die Monotonie-Eigenschaft erhalten werden muß, damit das rekursive Filter stabil ist; d. h., es muß gelten:

Da sich die Werte-Bereiche der Quantisierer für ω_i und 2_i+1 überlappen, sind nach der Quantisierung von ω_i alle Quantisierungsstufen von ω_i+1 ausgeschlossen, welche diese strenge Monotonie verletzen (siehe Fig. 3). Umgekehrt sind auch nach der Quantisierung von ω_i+1 auch Werte aus dem Quantisierer ω_i nicht mehr zulässig. Dies bedeutet, daß ein Teil der Bits, welche für die Quantisierung der Parameter LSP zur Verfügung stehen, nicht vollständig genutzt werden. Nach Fig. 3 werden von 8 möglichen Stufen für ω_i+1 tatsächlich nur 5 benutzt.

Ein weiterer Nachteil dieses Verfahrens ist, daß eine Adaption an unterschiedliche Eingangsspektren des Sprachsignals nicht möglich ist. Soll der Quantisierer hierfür eingesetzt werden können, so vergrößert sich der Wertebereich einzelner Line- Spectrum-Paramter. Dies führt zu einer Erhöhung der Bitrate.

In den Literaturstellen [5] und [6] wird eine Reduzierung der Bitrate für die Übertragung der Line-Spectrum-Parameter durch Quantisierung deren Differenzen vorgeschlagen. Dabei wird der erste LSP wie oben skalar quantisiert

Für alle weiteren LSP wird die Differenz zum vorangegangenen Wert berechnet und diese dann quantisiert.

Dieses Verfahren adaptiert sich gut an unterschiedlichen Eingangsspektren des Sprachsignals, da nur der Wertebereich des ersten LSP ausreichend groß gewählt werden muß. Ein Nachteil dieses Verfahrens besteht in der Fortpflanzung von Fehlern. Tritt bei der Übertragung von _x ein Fehler auf, so werden alle _i für i=x bis P falsch dekodiert.

Durch die europäische Patentanmeldung EP 0 483 882 A2 ist ein Sprachparameter-Codierverfahren zum Codieren eines Eingangssprachsignals in eine Sequenz von codierten Signalen zur Übertragung von Spektrumparametern mit einer reduzierten Anzahl von Bits bekanntgeworden. Dieses Verfahren benutzt eine mehrstufige vektorielle Quantisierung der Line-Spectrum- Parameter. Durch die Vektorquantisierung wird eine Reduzierung der Bitrate erreicht, was allerdings auf Kosten einer deutlichen Erhöhung des Speicher- und Rechenaufwandes geht.

Der vorliegenden Erfindung lag die Aufgabe zugrunde, ein Verfahren der eingangs genannten Art anzugeben, welches in der Lage ist bei gleichbleibender Bitrate eine Verbesserung der Sprachqualität zu erreichen oder aber bei gleichbleibender Sprachqualität eine Verringerung der Bitrate zu erzielen. Außerdem soll eine Verringerung der Empfindlichkeit des Sprachcodes gegenüber Sprachsignalen mit unterschiedlichen Eingangscharakteristika erreicht werden. Der benötigte Schaltungsaufwand soll dabei nicht allzu hoch sein.

Diese Aufgabe wurde gelöst durch die Merkmale des Anspruches 1. Vorteilhafte Ausgestaltungen ergeben sich durch die Unteransprüche.

Das erfindungsgemäße Verfahren erzielt die Vorteile einer Verbesserung der Sprachqualität bei gleichbleibender Bitrate bzw. einer Verringerung der Bitrate bei gleichbleibender Sprachqualität. Außerdem weist das erfindungsgemäße Verfahren eine verringerte Empfindlichkeit des Sprachcodes gegenüber Sprachsignalen mit sehr unterschiedlichen Eingangsspektren auf. Ein weiterer Vorteil besteht darin, daß sich ein Übertragungsfehler bei einem LSP nur auf maximal zwei weitere LSP-Werte auswirkt.

Die Erfindung geht aus von der Idee, weder alle LSP-Parameter skalar zu quantisieren noch nur einen einzigen der insgesamt P Parameter skalar zu quantisieren, sondern nur jeden n-ten der P Parameter skalar zu quantisieren und die dazwischenliegenden Parameter zu transformieren bzw. abzubilden und danach zu quantisieren.

Das Verfahren wird im folgenden anhand eines Ausführungsbeispieles näher beschrieben, wobei angenommen wird, daß P eine gerade Zahl ist.

In einem ersten Schritt wird jeder zweite LSP skalar quantisiert.

Nun muß auf Grund der strengen Monotonie gelten

wobei der fiktive Wert ω_P+1 auf den maximal möglichen Wert für ω_P gesetzt wird. Dieser Wertebereich für ω_i ändert sich von Rahmen zu Rahmen mit und . Ideal wäre es nun, für jede Kombination von und einen eigenen Quantisierer für ω_i zu verwenden, was aus Gründen des Realisierungsaufwandes nicht möglich ist. Stattdessen wird der Wertebereich durch folgende Transformation auf das Intervall [0, 1] abgebildet:

Jeder Wert x_i kann nun mit einem Quantisierer quantisiert und übertragen werden. Die Rücktransformation erfolgt gemäß

Das Verfahren funktioniert entsprechend, wenn man die Parameter, die absolut quantisiert werden, mit denen vertauscht, die nach Normierung quantisiert werden, d. h.

quantisiere absolut:
ω_i i = 2, (2), P
quantisiere nach Transformation:	ω_i i = 1, (2), P - 1

Statt der Transformation der LSP in den Bildbereich ist es auch möglich, den Quantisierer aus dem Bildbereich nach (13) in den ω-Bereich abzubilden.

In ähnlicher Weise wird bei dem zweiten Ausführungsbeispiel jeder dritte LSP skalar quantisiert.

Die Abbildungsfunktion für die dazwischenliegenden Paramter sind beispielsweise

oder

da ω_i ja nun bekannt ist.

Diese Lösung erbringt noch eine weitere Reduzierung der Bitrate bei gleichzeitiger Qualität oder eine höhere Qualität bei gleichbleibender Bitrate; allerdings wirkt sich ein Übertragungsfehler hier auf max. drei weitere LSP-Werte aus.

In entsprechender Weise kann auch verfahren werden, indem nur jeder vierte LSP skalar quantisiert und die dazwischenliegenden LSP entsprechend transformiert und dann quantisiert übertragen werden.

Claims

1. Verfahren zur Sprachcodierung unter Verwendung der Analyse- durch-Synthese-Methode, wobei das Sprachsignal abgetastet, aus einer festgelegten Anzahl Abtastproben ein Rahmen gebildet und aus den Abtastproben rahmenweise die Koeffizienten eines Sprach-Synthese-Filters mit dem Grad P bestimmt werden, wobei mittels dieser Koeffizienten eine Anzahl P sogenannter Line- Spectrum-Parameter LSP ermittelt und quantisiert werden, zur Übertragung über einen Kanal mit begrenzter Übertragungskapazität, dadurch gekennzeichnet, daß jeder n-te Line-Spectrum-Parameter LSP skalar (absolut) quantisiert wird und daß die dazwischenliegenden Line-Spectrum-Parameter LSPω_i für i=1, P und i m, (n), Ptransformiert (normiert) und anschließend quantisiert werden.

2. Verfahren nach Anspruch 1 mit n=2, dadurch gekennzeichnet, daß die Transformation nach der Funktion erfolgt.

3. Verfahren nach Anspruch 1 mit n=3, dadurch gekennzeichnet, daß die Transformation nach den Abbildungsfunktionen oder erfolgt.