[go: up one dir, main page]

DE69608947T2 - Verfahren zur Analyse eines Audiofrequenzsignals durch lineare Prädiktion, und Anwendung auf ein Verfahren zur Kodierung und Dekodierung eines Audiofrequenzsignals - Google Patents

Verfahren zur Analyse eines Audiofrequenzsignals durch lineare Prädiktion, und Anwendung auf ein Verfahren zur Kodierung und Dekodierung eines Audiofrequenzsignals

Info

Publication number
DE69608947T2
DE69608947T2 DE69608947T DE69608947T DE69608947T2 DE 69608947 T2 DE69608947 T2 DE 69608947T2 DE 69608947 T DE69608947 T DE 69608947T DE 69608947 T DE69608947 T DE 69608947T DE 69608947 T2 DE69608947 T2 DE 69608947T2
Authority
DE
Germany
Prior art keywords
signal
stage
audio frequency
filter
transfer function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69608947T
Other languages
English (en)
Other versions
DE69608947D1 (de
Inventor
Alain Le Guyader
Catherine Quinquis
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of DE69608947D1 publication Critical patent/DE69608947D1/de
Application granted granted Critical
Publication of DE69608947T2 publication Critical patent/DE69608947T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zur Analyse eines Tonfrequenzsignals durch lineare Prädiktion. Dieses Verfahren findet eine besondere, jedoch nicht ausschließliche Anwendung bei Prädiktionstoncodierern, insbesondere bei Synthese-Analyse-Codierern, deren am meisten verbreitete Art der CELP-Codierer ("Code-Exited Linear Prediction") ist.
  • Gegenwärtig sind die Prädiktionscodierverfahren mit Synthese- Analyse weit verbreitet für die Sprachcodierung im Telefonieband (300-3400 Hz) bei Datenraten, die bis zu 8 kbit/s gehen können, unter gleichzeitiger Beibehaltung der Telefoniequalität. Für das Audioband (in der Größenordnung von 20 kHz) werden die Techniken der Transformationscodierung für Anwendungen des Sendens und der Speicherung von Sprach- und Musiksignalen verwendet. Diese Techniken bringen jedoch relativ große Codierverzögerungen (mehr als 100 ms) mit sich, was Schwierigkeiten insbesondere bei der Teilnahme an Kommunikationen in der Gruppe hervorruft, wo das wechselseitige Aktivwerden sehr wichtig ist. Die Prädiktionstechniken bewirken eine geringere, im wesentlichen von der Länge der durch lineare Prädiktion zu analysierenden Blöcke abhängige Verzögerung (typischerweise 10 bis 20 ms) und finden aus diesem Grund Anwendung auch bei der Codierung von Sprach- und/oder Musiksignalen mit einer Bandbreite, die größer als das Telefonieband ist.
  • Die für die Kompression der Datenrate eingesetzten Prädiktionscodierer führen eine Modellierung der spektralen Einhüllenden des Signals durch. Diese Modellierung resultiert aus einer linearen Prädiktionsanalyse der Ordnung M (übli cherweise M 10 im Schmalband), die die Ermittlung von M linearen Prädiktionskoeffizienten ai des Eingangssignals beinhaltet. Diese Koeffizienten kennzeichnen ein im Decodierer verwendetes Synthesefilter, dessen Übertragungsfunktion die Form 1/A(z) mit
  • besitzt.
  • Die Analyse durch lineare Prädiktion hat einen generellen Anwendungsbereich, der größer als der der Sprachcodierung ist. Bei einigen Anwendungen bildet die Ordnung M der Prädiktion eine der Variablen, die die lineare Prädiktionsanalyse zu erhalten sucht, wobei diese Variable durch die Anzahl der Peaks beeinflußt wird, die im Spektrum des analysierten Signals vorhanden sind (siehe US-A-5 142 581).
  • Das im Rahmen der linearen Prädiktionsanalyse berechnete Filter kann verschiedene Strukturen haben, die zu einer unterschiedlichen Wahl der Parameter für die Darstellung der Koeffizienten führen (die Koeffizienten ai selbst, die Parameter LAR, LSF, LSP, die Reflexions- oder PARCOR-Koeffizienten...). Vor dem Aufkommen digitaler Signalprozessoren (DSP) war es üblich, rekursive Strukturen für das berechnete Filter zu verwenden, beispielsweise auf die PARCOR-Koeffizienten zurückgreifende Strukturen des im Artikel von F. ITAKURA und S. SAlTO: "Digital Filtering Techniques for Speech Analysis and Synthesis", Proc. of the 7th International Congress on Acoustics, Budapest 1971, Seiten 261-264, beschriebenen Typs (siehe FR-A-2 284 946 oder US-A-3 975 587).
  • Bei den Synthese-Analyse-Codierern dienen die Koeffizienten ai auch zur Konstruktion eines Wahrnehmungswichtungsfilters, welches vom Codierer zur Bestimmung des Anregungssignals verwendet wird, das an das Kurzzeitsynthesefilter anzulegen ist, um ein für das Sprachsignal repräsentatives Synthesesignal zu erhalten. Diese Wahrnehmungswichtung hebt diejenigen Spektralbereiche hervor, wo die Codierfehler am stärksten wahrnehmbar sind, also die Interformantzonen. Die Übertragungsfunktion W(z) des Wahrnehmungswichtungsfilters hat üblicherweise die Form
  • wobei γ&sub1; und γ&sub2; zwei spektrale Ausdehnungskoeffizienten mit 0 ≤ γ&sub2; ≤ y&sub1; ≤ 1 sind. Eine Verbesserung der Rauschüberdeckung brachten E. Ordentlich und Y. Shoham in ihrem Artikel "Low- Delay Code-Excited Linear Predictive Coding of Wideband Speech at 32 kbps", Proc. ICASSP, Toronto, Mai 1991, Seiten 9-12. Diese Verbesserung besteht darin, für die Wahrnehmungswichtung das Filter W(z) mit einem weiteren Filter zu kombinieren, welches die Steilheit des Spektrums modelliert. Diese Verbesserung ist insbesondere im Fall der Codierung von Signalen mit hoher spektraler Dynamik (Breitband oder Audioband) beachtenswert, für die die Autoren eine erheblich Verbesserung der subjektiven Qualität des rekonstruierten Signals aufgezeigt haben.
  • Bei den meisten gegenwärtigen CELP-Decodierern werden die linearen Prädiktionskoeffizienten ai darüber hinaus zur Bildung eines Nachfilters verwendet, welches zur Dämpfung der Frequenzzonen zwischen den Formanten und den Harmonischen des Sprachsignals dient, ohne die spektrale Steilheit des Signals zu ändern. Eine geläufige Form der Übertragungsfunktion dieses Nachfilters ist:
  • wobei GP ein Verstärkungsfaktor ist, der die Dämpfung der Filter kompensiert, β&sub1; und β&sub2; Koeffizienten mit 0 ≤ 1 β&sub1; ≤ β&sub2; ≤ 1 sind, u eine positive Konstante ist und r, den von dem Koeffizienten ai abhängigen ersten Reflexionskoeffizienten bezeichnet.
  • Die Modellierung der spektralen Einhüllenden des Signals mittels der Koeffizienten ai bildet demnach ein wesentliches Element der Codier- und Decodierverfahren, in dem Sinn, daß sie den spektralen Gehalt des im Decodierer rückzugewinnenden Signals darstellen muß und daß sie sowohl die Überdeckung des Quantisierungsrauschens wie auch die Nachfilterung im Decodierer regelt.
  • Bei Signalen mit hoher spektraler Dynamik gelingt es mit der üblicherweise angewandten linearen Prädiktionsanalyse nicht, die Einhüllende des Spektrums zuverlässig zu modellieren. Oftmals sind die Sprachsignale bei tiefen Frequenzen wesentlich energiereicher als bei hohen Frequenzen, so daß die lineare Prädiktionsanalyse sicher zu einer präzisen Modellierung bei tiefen Frequenzen führt, jedoch zu Ungunsten der Modellierung des Spektrums bei höheren Frequenzen. Dieser Nachteil wird insbesondere im Fall der Codierung im Breitband störend.
  • Das Patent US 5142581 beschreibt ein mehrstufiges lineares Prädiktionsfilter, bei dem die in jeder Stufe verwendete Prädiktionsordnung ein variabler Parameter ist.
  • Ein Ziel der vorliegenden Erfindung ist es, die Modellierung des Spektrums eines Tonfrequenzsignals in einem System zu verbessern, das auf ein Verfahren zur Analyse durch lineare Prädiktion zurückgreift. Ein weiteres Ziel ist es, das Verhalten eines solchen Systems für verschiedene Eingangssignale (Sprache, Musik, sinusförmig, DTMF-Signale...), verschiedene Bandbreiten (Telefonieband, Breitband, HiFi-Band...), verschiedene Aufnahmebedingungen (Richtmikrofon, Akustikantenne ...) und verschiedene Filterungsbedingungen homogener zu machen.
  • Die Erfindung schlägt nun ein Verfahren zur Analyse eines Tonfrequenzsignals durch lineare Prädiktion der Ordnung M vor, um Spektralparameter abhängig von einem Kurzzeitspektrum des Tonfrequenzsignals zu bestimmen, wobei dieses Verfahren unterteilt ist in q aufeinanderfolgende Prädiktionsstufen, wobei q eine ganze Zahl größer als 1 ist. In jeder Prädiktionsstufe p (1 ≤ p ≤ q) bestimmt man Parameter, welche eine im voraus festgelegte Zahl Mp von linearen Prädiktionskoeffizienten a&sub1;p, ... aMpp eines Eingangssignals der Stufe repräsentieren, wobei das analysierte Tonfrequenzsignal das Eingangssignal der ersten Stufe bildet und das Eingangssignal einer Stufe p + 1 von dem mittels eines Filters der Übertragungsfunktion
  • gefilterten Eingangssignal der Stufe p gebildet ist, wobei für die Prädiktionsordnung M gilt:
  • Die Zahl Mp der linearen Prädiktionskoeffizienten kann insbesondere von einer Stufe zur nächsten zunehmen. So kann die erste Stufe hinreichend zuverlässig der allgemeinen Steilheit des Spektrums oder des Signals Rechnung tragen, während die folgenden Stufen die Darstellung der Formanten des Signals verfeinern. Im Fall hochdynamischer Signale vermeidet man es so, die energiereichsten Bereiche auf die Gefahr einer nur mittelmäßigen Modellierung der übrigen Frequenzbereiche, die für die Wahrnehmung wichtig sein können, zu stark herauszustellen.
  • Ein zweiter Aspekt der Erfindung betrifft eine Anwendung dieses Verfahrens zur linearen Prädiktionsanalyse in einem "Vorwärts"-adaptiven Tonfrequenzcodierer mit Synthese- Analyse. Die Erfindung schlägt demnach ein Verfahren zur Codierung eines Tonfrequenzsignals vor, umfassen die folgenden Schritte:
  • - Analysieren eines in aufeinanderfolgende Blöcke digitalisierten Tonfrequenzsignals durch lineare Prädiktion zur Be stimmung von Parametern, welche ein Kurzzeitsynthesefilter definieren,
  • - Bestimmen von Anregungsparametern, welche ein Anregungssignal definieren, das zur Erzeugung eines das Tonfrequenzsignal repräsentierenden Synthesesignals an das Kurzzeitsynthesefilter anzulegen ist, und
  • - Erzeugen von Quantisierungswerten der das Kurzzeitsynthesefilter definierenden Parameter und der Anregungsparameter, wobei diese Analyse durch lineare Prädiktion ein Vorgang in q aufeinanderfolgenden Stufen ist, wie sie oben definiert wurden, und wobei das Kurzzeitprädiktionsfilter eine Übertragungsfunktion der Form 1/A(z) mit
  • besitzt.
  • Die so erhaltene Übertragungsfunktion A(z) kann auch dazu verwendet werden, gemäß Gleichung (2) die Übertragungsfunktion des Wahrnehmungswichtungsfilters zu definieren, sofern der Codierer ein Synthese-Analyse-Codierer mit geschlossenschleifiger Bestimmung des Anregungssignals ist. Eine weitere interessante Möglichkeit ist es, spektrale Ausdehnungskoeffizienten γ&sub1; und γ&sub2; zu verwenden, die von einer Stufe zur nächsten variieren können, dem Wahrnehmungswichtungsfilter also eine Übertragungsfunktion der Form
  • zu geben, wobei γ&sub1;p, γ&sub2;p Paare von spektralen Ausdehnungskoeffizienten mit 0 ≤ γ&sub2;p ≤ γ&sub1;p ≤ 1 für 1 ≤ p ≤ q bezeichnen.
  • Die Erfindung ist ferner bei einem zugeordneten Decodierer anwendbar. Das erfindungsgemäß ausgeführte Decodierverfahren umfaßt die folgenden Schritte:
  • - man erhält Quantisierungswerte von Parametern, welche ein Kurzzeitsynthesefilter definieren, und von Anregungsparame tern, wobei die das Kurzzeitsynthesefilter definierenden Parameter eine Zahl q > 1 von Sätzen von linearen Prädiktionskoeffizienten umfassen, wobei jeder Satz eine im voraus festgelegte Zahl von Koeffizienten umfaßt,
  • - man erzeugt auf Grundlage der Quantisierungswerte der Anregungsparameter ein Anregungssignal und
  • - man erzeugt ein synthetisiertes Tonfrequenzsignal, indem das Anregungssignal mittels eines Synthesefilters mit einer Übertragungsfunktion der Form 1/A(z) mit
  • gefiltert wird, wobei die Koeffizienten a&sub1;p..., aMpp dem p- ten Satz von linearen Prädiktionskoeffizienten entsprechen, wobei 1 ≤ p ≤ q.
  • Diese Übertragungsfunktion A(z) kann ferner dazu verwendet werden, um ein Nachfilter zu definieren, dessen Übertragungsfunktion - wie in obiger Gleichung (3) - einen Term der Form A(z/β&sub1;)/A(z/β&sub2;) umfaßt, wobei β&sub1; und β&sub2; Koeffizienten bezeichnen, für die 0 ≤ β&sub1; ≤ β&sub2; ≤ 1 gilt.
  • Eine interessante Variante besteht darin, diesen Term der Übertragungsfunktion des Nachfilters zu ersetzen durch:
  • wobei β&sub1;p, β&sub2;p Paare von Koeffizienten bezeichnen, für die 0 ≤ β&sub1;p ≤ β&sub2;p ≤ 1 für 1 ≤ p ≤ q gilt.
  • Die Erfindung läßt sich zudem bei "Rückwärts"-adaptiven Tonfrequenzcodierern anwenden. Die Erfindung schlägt daher ein Verfahren zur Codierung eines ersten, in aufeinanderfolgende Blöcke digitalisierten Tonfrequenzsignals vor, umfassend die folgenden Schritte:
  • - Analysieren eines zweiten Tonfrequenzsignals durch lineare Prädiktion zur Bestimmung von Parametern, welche ein Kurzzeitsynthesefilter definieren,
  • - Bestimmen von Anregungsparametern, welche ein Anregungssignal definieren, das zur Erzeugung eines für das erste Tonfrequenzsignal repräsentativen Synthesesignals an das Kurzzeitsynthesefilter anzulegen ist, wobei dieses Synthesesignal für mindestens einen nachfolgenden Block das zweite Tonfrequenzsignal bildet, und
  • - Erzeugen von Quantisierungswerten der Anregungsparameter, wobei die Analyse durch lineare Prädiktion ein Vorgang in q aufeinanderfolgenden Stufen ist, wie sie oben definiert wurden, und wobei das Kurzzeitprädiktionsfilter eine Übertragungsfunktion der Form 1/A(z) mit
  • besitzt.
  • Zum Einsatz in einem zugehörigen Decodierer schlägt die Erfindung ein Verfahren zur Decodierung eines binären Stroms zur Erzeugung eines durch den binären Strom codierten Tonfrequenzsignals in aufeinanderfolgenden Blöcken vor, umfassend die folgenden Schritte:
  • - man erhält Quantisierungswerte von Anregungsparametern,
  • - man erzeugt auf Grundlage der Quantisierungswerte der Anregungsparameter ein Anregungssignal,
  • - man erzeugt durch Filterung des Anregungssignals mittels eines Kurzzeitsynthesefilters ein synthetisiertes Tonfrequenzsignal,
  • - man nimmt eine Analyse des synthetisierten Signals durch lineare Prädiktion vor, um für mindestens einen nachfolgenden Block Koeffizienten des Kurzzeitsynthesefilters zu erhalten, wobei die Analyse durch lineare Prädiktion ein Vorgang in q aufeinanderfolgenden Stufen ist, wie sie oben definiert wurden, und wobei das Kurzzeitprädiktionsfilter eine Übertragungsfunktion der Form 1/A(z) mit
  • besitzt.
  • Die Erfindung erlaubt es außerdem, gemischte Tonfrequenzcodierer/-decodierer zu realisieren, die also sowohl "Vorwärts"- als auch "Rückwärts"-adaptierende Konzepte aufgreifen, wobei die erste oder die ersten Stufen der linearen Prädiktion einer "Vorwärts"-Analyse entsprechen und die letzte oder die letzten Stufen einer "Rückwärts"-Analyse entsprechen. Die Erfindung schlägt demnach ein Verfahren zur Codierung eines ersten, in aufeinanderfolgende Blöcke digitalisierten Tonfrequenzsignals vor, umfassend die folgenden Schritte:
  • - Analysieren des ersten Tonfrequenzsignals durch lineare Prädiktion zur Bestimmung von Parametern, welche einen ersten Bestandteil eines Kurzzeitsynthesefilters definieren,
  • - Bestimmen von Anregungsparametern, welche ein Anregungssignal definieren, das zur Erzeugung eines das erste Tonfrequenzsignal repräsentierenden Synthesesignals an das Kurzzeitsynthesefilter anzulegen ist,
  • - Erzeugen von Quantisierungswerten der den ersten Bestandteil des Kurzzeitsynthesefilters definierenden Parameter und der Anregungsparameter,
  • - Filtern des Synthesesignals mittels eines Filters mit einer Übertragungsfunktion, die der Inversen der Übertragungsfunktion des ersten Bestandteils des Kurzzeitsynthesefilters entspricht, und
  • - Analysieren des gefilterten Synthesesignals durch lineare Prädiktion, um Koeffizienten eines zweiten Bestandteils des Kurzzeitsynthesefilters für mindestens einen nachfolgenden Block zu erhalten,
  • wobei die Analyse des ersten Tonfrequenzsignals durch lineare Prädiktion ein Vorgang in qF aufeinanderfolgenden Stufen ist, wobei qF eine ganze Zahl ist, die zumindest gleich 1 ist, wobei dieser qF-stufige Vorgang in jeder Prädiktionsstufe p (1 ≤ p ≤ qF) die Bestimmung von Parametern umfaßt, welche eine im voraus festgelegte Zahl MFp von linearen Prädiktionskoeffizienten a&sub1;F,p, ..., aMFpF,p eines Eingangssignals der Stufe repräsentieren, wobei das erste Tonfrequenzsignal das Eingangssignal der ersten Stufe bildet und das Eingangssignal einer Stufe p + 1 von dem mittels eines Filters der Übertragungsfunktion
  • gefilterten Eingangssignal der Stufe p gebildet ist, wobei der erste Bestandteil des Kurzzeitsynthesefilters eine Übertragungsfunktion der Form 1/AF(z) mit
  • besitzt und wobei die Analyse des gefilterten Synthesesignals durch lineare Prädiktion ein Vorgang in qB aufeinanderfolgenden Stufen ist, wobei gB eine ganze Zahl ist, die wenigstens gleich 1 ist, wobei dieser qB-stufige Vorgang in jeder Prädiktionsstufe p (1 ≤ p ≤ gB) die Bestimmung von Parametern umfaßt, welche eine im voraus festgelegte Zahl MBp von linearen Prädiktionskoeffizienten a1B,p, ..., aMBpB,p eines Eingangssignals der Stufe repräsentieren, wobei das gefilterte Synthesesignal das Eingangssignal der ersten Stufe bildet und das Eingangssignal einer Stufe p + 1 von dem mittels eines Filters der Übertragungsfunktion
  • gefilterten Eingangssignal der Stufe p gebildet ist, wobei der zweite Bestandteil des Kurzzeitsynthesefilters eine Übertragungsfunktion der Form 1/AB(z) mit
  • besitzt und das Kurzzeitsynthesefilter eine Übertragungsfunktion der Form 1/A(z) mit A(z) = AF(z) · AB(z) besitzt.
  • Zum Einsatz in einem zugeordneten gemischten Decodierer schlägt die Erfindung ein Verfahren zur Decodierung eines binären Stroms zur Erzeugung eines durch den binären Strom codierten Tonfrequenzsignals in aufeinanderfolgenden Blöcken vor, umfassend die folgenden Schritte:
  • - man erhält Quantisierungswerte von Parametern, welche einen ersten Bestandteil eines Kurzzeitsynthesefilters definieren, und von Anregungsparametern, wobei die den ersten Bestandteil des Kurzzeitsynthesefilters definierenden Parameter eine Zahl qF, die wenigstens gleich 1 ist, von Sätzen von linearen Prädiktionskoeffizienten a&sub1;F,p, ..., aMFpF,p für 1 ≤ p ≤ qF repräsentieren, wobei jeder Satz p eine im voraus festgelegte Zahl MFp von Koeffizienten umfaßt, wobei der erste Bestandteil des Kurzzeitsynthesefilters eine Übertragungsfunktion der Form 1/AF(z) mit
  • besitzt,
  • - man erzeugt auf Grundlage der Quantisierungswerte der Anregungsparameter ein Anregungssignal,
  • - man erzeugt ein synthetisiertes Tonfrequenzsignal, in dem das Anregungssignal mittels eines Kurzzeitsynthesefilters der Übertragungsfunktion 1/A(z) mit A(z) = AF(z) · AB(z) gefiltert wird, wobei 1/AB(z) die Übertragungsfunktion eines zweiten Bestandteils des Kurzzeitsynthesefilters repräsentiert,
  • - man filtert das synthetisierte Signal mittels eines Filters der Übertragungsfunktion AF(z) und
  • - man führt eine Analyse des gefilterten synthetisierten Signals durch lineare Prädiktion durch, um für mindestens einen nachfolgenden Block Koeffizienten des zweiten Bestandteils des Kurzzeitsynthesefilters zu erhalten, wobei die Analyse des gefilterten synthetisierten Signals durch lineare Prädiktion ein Vorgang in qB-Stufen ist, wie sie oben definiert wurden, und wobei das Kurzzeitsynthesefilter eine Übertragungsfunktion der Form 1/A(z) = 1/[AF(z) · AB(z)] mit
  • besitzt.
  • Obgleich den Anwendungen der Erfindung im Bereich der Codierung/Decodierung mit Synthese-Analyse eine besondere Bedeutung zuzumessen ist, sei es erlaubt anzumerken, daß das erfindungsgemäß vorgeschlagene mehrstufige Verfahren zur linearen Prädiktionsanalyse zahlreiche andere Anwendungen bei der Verarbeitung von Audiosignalen, beispielsweise bei Transformations-Prädiktionscodierern, in Systemen zur Spracherkennung, in Systemen zur Sprachbetonung ("speech enhancement")... umfaßt.
  • Weitere Besonderheiten und Vorteile der vorliegenden Erfindung werden aus der folgenden Beschreibung von bevorzugten, jedoch nicht beschränkenden Ausführungsbeispielen unter Bezugnahme auf die beigefügten Zeichnungen hervorgehen, in denen:
  • Fig. 1 ein Flußdiagramm eines erfindungsgemäßen Verfahrens zur Analyse durch lineare Prädiktion ist,
  • Fig. 2 ein Frequenzdiagramm ist, das die Ergebnisse eines erfindungsgemäßen Verfahrens mit denen eines herkömmlichen Verfahrens zur Analyse durch lineare Prädiktion vergleicht,
  • Fig. 3 und 4 Blockschaltbilder eines CELP-Decodierers und eines CELP-Codierers sind, die die Erfindung ausführen können,
  • Fig. 5 und 6 Blockschaltbilder von Varianten eines CELP- Decodierers und eines CELP-Codierers sind, die die Erfindung ausführen können, und
  • Fig. 7 und 8 Blockschaltbilder weiterer Varianten eines CELP-Decodierers und eines CELP-Codierers sind, die die Erfindung ausführen können.
  • Das zu analysierende Tonfrequenzsignal in dem in Fig. 1 dargestellten Verfahren ist mit s&sup0;(n) bezeichnet. Es wird angenommen, daß es in Form digitaler Abtastwerte verfügbar ist, wobei die ganze Zahl n die aufeinanderfolgenden Abtastzeitpunkte angibt. Das Verfahren zur Analyse durch lineare Prädiktion umfaßt q aufeinanderfolgende Stufen 5&sub1;, ..., 5p, ..., 5q. In jeder Prädiktionsstufe 5p (1 ≤ p ≤ q) wird eine lineare Prädiktion der Ordnung Mp eines Eingangssignals sp-1(n) bewirkt. Das Eingangssignal der ersten Stufe 5&sub1; wird von dem zu analysierenden Tonfrequenzsignal s&sup0;(n) gebildet, während das Eingangssignal einer Stufe 5p+1 (1 ≤ p ≤ q) von dem Signal sp(n) gebildet wird, das in einer mit 6p bezeichneten Stufe erhalten wird, indem auf das Eingangssignal sp-1(n) der p-ten Stufe 5p eine Filterung mittels eines Filters mit der Übertragungsfunktion
  • angewendet wird, wobei die Koeffizienten aiP (1 ≤ i ≤ Mp) die in der Stufe 5p erhaltenen linearen Prädiktionskoeffizienten sind.
  • Die Methoden zur Analyse durch lineare Prädiktion, die in den verschiedenen Stufen 5&sub1;, ..., 5q angewandt werden können, sind im Stand der Technik wohlbekannt.
  • Man kann sich beispielsweise auf die Arbeiten "Digital Processing of Speech Signals" von L. R. Rabiner und R. W. Shafer, Prentice-Hall Int., 1978, und "Linear Prediction of Speech" von J. D. Markel und A. H. Gray, Springer Verlag Berlin Heidelberg, 1976, beziehen. Man kann insbesondere den Algorithmus von Levinson-Durbin verwenden, der die folgenden Schritte (für jede Stufe 5p) umfaßt:
  • - Ermittlung von Mp Autokorrelationen R(i) (0 ≤ i ≤ Mp) des Eingangssignals sp-1(n) der Stufe in einem Analysefenster von Q Abtastwerten:
  • mit s*(n) = sp-1(n) · f(n), wobei f(n) eine Fensterfunktion der Länge Q bezeichnet, beispielsweise eine Rechteckfunktion oder eine Hamming-Funktion,
  • - rekursive Ermittlung der Koeffizienten ai:
  • E(0) = R(0)
  • Für i von 1 bis Mp gilt:
  • aip,i = -rip
  • E(i) =[1-(rip)²] · E(i-1)
  • Für j von 1 bis i-1 gilt:
  • ajp,i = ajp,i-1 - rip · ai-jp,i--1
  • Die Koeffizienten aip (i = 1, ..., Mp) werden gleich den in der letzten Iteration erhaltenen aip,MP genommen. Die Größe E(Mp) ist die Energie des Prädiktionsrestfehlers der Stufe p. Die Koeffizienten riP, die zwischen -1 und 1 liegen, werden Reflexionskoeffizienten genannt. Sie können durch die logarithmischen Verhältnisse (log-area-ratios") LARip = LAR(rip) dargestellt werden, wobei die Funktion LAR durch LAR(r) = log&sub1;&sub0;[(1-r)/(1+r)] definiert ist.
  • Bei einer gewissen Zahl von Anwendungen muß man eine Quantisierung der erhaltenen Prädiktionskoeffizienten vornehmen. Die Quantisierung kann unmittelbar an den Koeffizienten aip vorgenommen werden, an den zugehörigen Reflexionskoeffizienten rip oder an den logarithmischen Verhältnissen LARip. Eine weitere Möglichkeit ist es, Spektrallinienparameter zu quan tisieren (LSP für "line spectrum pairs" oder LSF für "line spectrum frequencies"). Die zwischen 0 und π normierten Mp Spektrallinienfrequenzen ωip (1 ≤ i ≤ Mp) sind derart, daß die komplexen Zahlen 1, exp(jω2p), exp(jω4p), ..., exp(jωMpp) die Wurzeln des Polynoms Pp(z)=Ap(z)-z-(Mp+1)Ap(z&supmin;¹) sind und die komplexen Zahlen exp (jω1p), exp(jω3p), ..., exp(jωpMp-1) sowie -1 die Wurzeln des Polynoms Qp(z) = Ap(z) + z-1(Mp+1)Ap(z&supmin;¹). Die Quantisierung kann sich auf die normierten Frequenzen ωip oder auf deren Kosinus stützen.
  • Die Analyse kann in jeder Prädiktionsstufe 5p gemäß dem vorstehend angesprochenen klassischen Algorithmus von Levinson- Durbin vorgenommen werden. Andere Algorithmen, die in jüngerer Zeit entwickelt wurden und die gleichen Ergebnisse liefern, können vorteilhafterweise angewendet werden, insbesondere der aufgesplitterte Algorithmus von Levinson (siehe "A new Efficient Algorithm to Compute the LSP Parameters for Speech Coding" von S. Saoudi, J. M. Boucher und A. Le Guyader, Signal Processing, Band 28, 1992, Seiten 201-212), oder die Verwendung von Chebyshev-Polynomen (siehe "The Computation of Line Spectrum Frequencies Using Chebyshev Polynomials" von P. Kabal und R. P. Ramachandran, IEEE Trans. on Acoustics, Speech and Signal Processing, Bd. ASSP-34, Nr. 6, Seiten 1419-1426, Dezember 1986).
  • Wenn die in Fig. 1 dargestellte mehrstufige Analyse durchgeführt wird, um ein Kurzzeitsynthesefilter für das Tonfrequenzsignal s&sup0;(n) zu definieren, gibt man der Übertragungsfunktion A(z) dieses Filters die Form
  • Man erkennt, daß diese Übertragungsfunktion der durch die Formel (1) gegebenen klassischen Grundform folgt, mit M = M1 + ... + Mq. Die mit dem mehrstufigen Prädiktionsverfahren erhaltenen Koeffizienten ai der Funktion unterscheiden sich jedoch im allgemeinen von denen, die die klassischen Prädiktionsverfahren in einer einzigen Stufe hervorbringen.
  • Die Ordnungen Mp der vorgenommenen linearen Prädiktionen nehmen vorzugsweise von einer Stufe zur nächsten zu: M1 < M2 < ... < Mq. Der Verlauf der spektralen Einhüllenden des analysierten Signals wird so in der ersten Stufe 5&sub1; (M1 = 2 beispielsweise) relativ grob modelliert, wobei sich diese Modellierung von Stufe zu Stufe verfeinert, ohne die durch die erste Stufe gelieferten Globalinformationen zu verlieren. Man vermeidet auf diese Weise, daß Parameter, wie etwa die allgemeine Steilheit des Spektrums, die insbesondere im Fall von breitbandigen Signalen und/oder von Signalen mit hoher spektraler Dynamik für die Wahrnehmung wichtig sind, unzureichend berücksichtigt werden.
  • Bei einer typischen Realisierung ist die Zahl q der aufeinanderfolgenden Prädiktionsstufen gleich 2. Wenn man sich ein Synthesefilter der Ordnung M als Ziel setzt, so kann man dann M1 = 2 und M2 = M - 2 nehmen, wobei die Koeffizienten ai des Filters (Gleichung (1)) gegeben sind durch:
  • - a&sub1; = a&sub1;¹ + a&sub1;² (9)
  • - a&sub2; = a&sub2;¹ + a&sub1;¹ a&sub1;² + a&sub2;² (10)
  • - ak = a&sub2;¹ ak-2² + a&sub1;¹ ak-1² + ak² für 2 < k &le; M-2 (11)
  • - aM-1 = a&sub2;¹ aM-3² + a&sub1;¹ aM-2² (12)
  • - aM = a&sub2;¹ aM-2² (13)
  • Für die Darstellung und schließlich die Quantisierung des Kurzzeitspektrums ist es möglich, einen der zuvor angesprochenen Spektralparametersätze (aip, rip, LARip, &omega;ip oder cos &omega;ip für 1 &le; i &le; Mp) für jede der Stufen (1 &le; p &le; q) zu verwenden, oder auch die gleichen spektralen Parameter, jedoch für das nach den Beziehungen (9) bis (13) berechnete zusammengesetzte Filter (ai, ri, LARi, &omega;i oder cos &omega;i für 1 &le; i &le; M). Die Wahl zwischen diesen Darstellungsparametern oder auch anderen hängt von den Bedingungen der jeweiligen speziellen Anwendung ab.
  • Die Graphik der Fig. 2 zeigt einen Vergleich der spektralen Einhüllenden eines 30 ms langen Abschnitts eines Sprachsignals, modelliert mittels eines klassischen linearen Prädiktionsverfahrens mit einer Stufe mit M = 15 (Kurve II) und mittels eines erfindungsgemäßen linearen Prädiktionsverfahrens mit q = 2 Stufen mit M1 = 2 und M2 = 13 (Kurve III). Die Abtastfrequenz Fe des Signals betrug 16 kHz. Das Spektrum des Signals (Betrag seiner Fourier-Transformierten) ist durch die Kurve I dargestellt. Dieses Spektrum ist repräsentativ für Tonfrequenzsignale, die im Mittel mehr Energie bei tiefen Frequenzen als bei hohen Frequenzen haben. Mitunter ist die spektrale Dynamik höher als in Fig. 2 (60 dB). Die Kurven (II) und (III) entsprechen den modellierten spektralen Einhüllenden 1/A(e2j&pi;f/Fe) . Man erkennt, daß das erfindungsgemäße Analyseverfahren die Modellierung des Spektrums wesentlich verbessert, insbesondere bei hohen Frequenzen (f > 4 kHz). Die allgemeine Steilheit des Spektrums und dessen hochfrequente Formanten werden durch das mehrstufige Analyseverfahren besser wiedergegeben.
  • Nachstehend wird die Erfindung bei ihrer Anwendung in einem Sprachcodierer vom Typ CELP beschrieben.
  • Das in einem CELP-Codierer und -Decodierer eingesetzte Verfahren zur Sprachsynthese ist in Fig. 3 dargestellt. Ein Anregungsgenerator 10 liefert in Antwort auf einen Index k einen einem vorbestimtem Repertoir zugehörigen Anregungscode ck. Ein Verstärker 12 multipliziert diesen Anregungscode mit einem Anregungsverstärkungsfaktor &beta;, und das resultierende Signal wird in ein Langzeitsynthesefilter 14 eingegeben. Das Ausgangssignal u des Filters 14 wird wiederum in ein Kurzzeitsynthesefilter 16 eingegeben, dessen Ausgabe das bildet, was hier als synthetisches Sprachsignal betrachtet wird. Dieses Synthesesignal wird an ein Nachfilter 17 ange legt, das zur Verbesserung der subjektiven Qualität der rekonstruierten Sprache bestimmt ist. Die Techniken zur Nachfilterung sind im Bereich der Sprachcodierung wohlbekannt (siehe J. H. Chen und A. Gersho: "Adaptive postfiltering for quality enhancement of coded speech", IEEE Trans. on Speech and Audio Processing, Band 3-1, Seiten 59-71, Januar 1995). Im dargestellten Beispiel werden die Koeffizienten des Nachfilters 17 aus LPC-Parametern erhalten, welche das Kurzzeitsynthesefilter 16 charakterisieren. Es versteht sich, daß das Nachfilter 17 - wie bei einigen aktuellen CELP-Decodierern - auch einen Langzeit-Nachfilterungsbestandteil beinhalten kann.
  • Die zuvor genannten Signale sind digitale Signale, die beispielsweise durch 16 Bit breite Wörter bei einer Abtastfrequenz Fe von beispielweise gleich 16 kHz für einen Breitband-Codierer (50-7000 Hz) dargestellt sind. Die Synthesefilter 14, 16 sind im allgemeinen rein rekursive Filter. Das Langzeitsynthesefilter 14 besitzt typischerweise eine Übertragungsfunktion 1/B(z) mit B(z) = 1 - Gz-T. Die Verzögerung T und die Verstärkung G bilden die Langzeitprädiktionsparameter (LTP), die vom Codierer in adaptiver Weise bestimmt werden. Die das Kurzzeitsynthesefilter 16 definierenden Parameter LPC werden im Codierer mittels eines Verfahrens der Analyse des Sprachsignals durch lineare Prädiktion bestimmt. Bei gängigen CELP-Codierern und -Decodierern ist die Übertragungsfunktion des Filters 16 im allgemeinen von der Form 1/A(z), wobei A(z) die Form (1) besitzt. Die vorliegende Erfindung schlägt vor, eine ähnliche Form der Übertragungsfunktion zu wählen, bei der A(z) gemäß (7) zerlegt ist, wie zuvor angegeben. Als Beispiel können die Parameter der verschiedenen Stufen q = 2, M1 = 2, M2 = 13 (M = M1 + M2 = 15) sein.
  • Als "Anregungssignal" wird hier das Signal u(n) bezeichnet, das an das Kurzzeitsynthesefilter 14 angelegt wird. Dieses Anregungssignal weist einen LTP-Bestandteil G · u(n-T) sowie einen Restbestandteil - oder eine Neuheitssequenz - &beta;ck(n) auf. Bei einem Synthese-Analyse-Codierer werden die den Restbestandteil und optional den LTP-Bestandteil charakterisierenden Parameter unter Verwendung eines Wahrnehmungswichtungsfilters in geschlossener Schleife ermittelt.
  • Fig. 4 zeigt das Schema eines CELP-Codierers. Das Sprachsignal s(n) ist ein digitales Signal, das beispielsweise von einem Analog-Digital-Wandler 20 geliefert wird, welcher das verstärkte und gefilterte Ausgangssignal eines Mikrofons 22 verarbeitet. Das Signal s(n) wird in aufeinanderfolgende Blöcke von &Lambda; Abstastwerten digitalisiert, die ihrerseits in Unterblöcke - oder Anregungsblöcke - von L Abtastwerten unterteilt sind (beispielsweise &Lambda; = 160, L = 32).
  • Die Paramter LPC, LTP und EXC (Index k und Anregungsverstärkung &beta;) werden im Codierer mittels dreier Analysemodule 24, 26 bzw. 28 erhalten. Diese Parameter werden anschließend im Hinblick auf eine effiziente digitale Übertragung in bekannter Weise quantisiert und sodann in einen Multiplexer 30 eingegeben, der das Ausgangssignal des Codierers bildet. Die Parameter werden außerdem an ein Modul 32 zur Berechnung der Anfangszustände einiger Filter des Codierers geliefert. Dieses Modul 32 umfaßt im wesentlichen eine Decodierkette, wie sie etwa in Fig. 3 dargestellt ist. Wie der Decodierer arbeitet das Modul 32 auf Grundlage der quantisierten Parameter LPC, LTP und EXC. Falls im Decodierer eine Interpolation der Parameter LPC vorgenommen wird, wie es häufig geschieht, wird die gleiche Interpolation vom Modul 32 vorgenommen. Das Modul 32 ermöglicht es, auf Seiten des Codierers die früheren Zustände der Synthesefilter 14, 16 des Decodierers zu kennen, bestimmt in Abhängigkeit von den Synthese- und Anregungsparametern vor dem betrachteten Unterblock.
  • In einem ersten Schritt des Codierverfahrens bestimmt das Kurzzeitanalysemodul 24 die das Kurzzeitsynthesefilter definierenden Parameter LPC, indem es die Kurzzeitkorrelationen des Sprachsignals s(n) analysiert. Diese Bestimmung wird beispielsweise einmal pro Block von &Lambda; Abtastwerten durchgeführt, um sich so an die Entwicklung des spektralen Gehalts des Sprachsignals anzupassen. Sie beeinhaltet es gemäß der Erfindung, das in Fig. 1 dargestellte Analyseverfahren mit s&sup0;(n) = s(n) anzuwenden.
  • Der folgende Codierschritt besteht in der Bestimmung der Langzeitprädiktionsparameter LTP. Diese werden beispielsweise einmal pro Unterblock von L Abtastwerten bestimmt. Ein Subtrahierer 34 subtrahiert vom Sprachsignal s(n) die Antwort auf ein Null-Eingangssignal des Kurzzeitsynthesefilters 16. Diese Antwort wird mittels eines Filters 36 der Übertragungsfunktion 1/A(z) bestimmt, dessen Koeffizienten durch die Parameter LPC gegeben sind, die vom Modul 24 bestimmt wurden, und dessen Anfangszustände vom Modul 32 derart geliefert werden, daß sie den M = M1 + ... + Mq letzten Abtastwertendes Synthesesignals entsprechen. Das Ausgangssignal des Subtrahierers 34 wird in ein Wahrnehmungswichtungsfilter 38 eingegeben, dessen Aufgabe es ist, diejenigen Bereiche des Spektrums zu betonen, wo die Fehler am stärksten wahrnehmbar sind, also die Interformantzonen.
  • Die Übertragungsfunktion W(z) des Wahrnehmungswichtungsfilters 38 besitzt die Form W(z) = AN(z)/AP(z), wobei AN(z) und AP(z) Übertragungsfunktionen der Ordnung M vom Typ FIR (endliche Impulsantwort) sind. Die jeweiligen Koeffizienten bi und ci (1 &le; i &le; M) der Funktionen AN(z) und AP(z) werden für jeden Block mittels eines Wahrnehmungswichtungsevaluationsmoduls 39 berechnet, das sie an das Filter 38 liefert. Eine erste Möglichkeit ist, AN(z) = A(z/&gamma;&sub1;) und AP(z) = A(z/&gamma;&sub2;) mit 0 &le; &gamma;&sub2; &le; &gamma;&sub1; &le; 1 zu setzen, was auf die geläufige Form (2) mit A(z) von der Form (7) zurückführt. Im Fall eines breitbandigen Signals mit q = 2, M1 = 2 und M2 = 13 hat sich gezeigt, daß die Wahl &gamma;&sub1; = 0,92 und &gamma;&sub2; = 0,6 gute Ergebnisse liefert.
  • Die Erfindung erlaubt es jedoch, mit einem sehr geringen Rechenmehraufwand eine größere Weichheit zu erzielen, was die Gestaltung des Quantisierungsrauschens anbelangt, indem die Form (6) für W(z) gewählt wird, nämlich:
  • Im Fall eines breitbandigen Signals mit q = 2, M1 = 2 und M2 = 13 hat sich gezeigt, daß die Wahl &gamma;&sub1;¹ = 0,9, &gamma;&sub2;¹ = 0,65, &gamma;&sub1;² = 0,95 und &gamma;&sub2;² = 0,75 gute Ergebnisse liefert. Der Term A¹ (z/&gamma;&sub1;¹)/A¹(z/&gamma;&sub2;¹) erlaubt es, die allgemeine Steilheit des Filters 38 einzustellen, wohingegen der Term A²(z/&gamma;&sub1;²)/A²(z/&gamma;&sub2;²) die Überdeckung im Bereich der Formanten einzustellen erlaubt.
  • Die vom Modul 26 durchgeführte LTP-Analyse in geschlossener Schleife besteht in klassischer Weise darin, für jeden Unterblock die Verzögerung T zu wählen, die die normierte Korrelation maximiert:
  • wobei x'(n) das Ausgangssignal des Filters 38 während des betrachteten Unterblocks bezeichnet und yT(n) das Faltungsprodukt u(n-T)·h'(n) bezeichnet. Im obigen Ausdruck bezeichnet h'(0), h'(1), ... h'(L-1) die Impulsantwort des gewichteten Synthesefilters mit der Übertragungsfunktion W(z)/A(z). Diese Impulsantwort h' wird mittels eines Impulsantwortberechnungsmoduls 40 in Abhängigkeit der von dem Modul 39 gelieferten Koeffizienten bi und ci und der LPC-Parameter erhalten, die für den Unterblock bestimmt wurden, gegebenenfalls nach Quantisierung und Interpolation. Die Abtastwerte u(n-T) sind die vom Modul 32 gelieferten früheren Zustände des Langzeitsynthesefilters 14. Für die Verzögerungen T, die kleiner als die Länge eines Unterblocks sind, werden die fehlenden Abtastwerte u(n-T) durch Interzolation auf Grundlage der früheren Abtastwerte oder aus dem Sprachsignal erhalten. Die Verzögerungen T, die ganzzahlig oder Bruchzahlen sind, werden in einem bestimmten Fenster gewählt. Zur Verkleinerung des Suchbereichs bei geschlossener Schleife und demnach zur Verringerung der Zahl der zu berechnenden Faltungen yT(n) kann man zunächst eine Verzögerung T' bei offener Schleife, beispielsweise einmal pro Block, bestimmen und sodann die Verzögerungen bei geschlossener Schleife für jeden Unterblock in einem verkleinerten Intervall um T' wählen. Die Suche bei offener Schleife besteht einfacher darin, die Verzögerung T' zu bestimmen, die die Autokorrelation des gegebenenfalls mittels des inversen Filters der Übertragungsfunktion A(z) gefilterten Sprachsignals s(n) maximiert. Sobald die Verzögerung T bestimmt ist, wird die Langzeitprädiktionsverstärkung G erhalten durch:
  • Um die CELP-Anregung in Bezug auf einen Unterblock zu suchen, wird das Signal GyT(n), das vom Modul 26 für die optimale Verzögerung T berechnet wurde, zunächst mittels des Subtrahierers 42 vom Signal x'(n) subtrahiert. Das resultierende Signal x(n) wird in ein Rückwärtsfilter 44 eingegeben, welches ein Signal D(n) liefert, das gegeben ist durch:
  • wobei h(0), h(1), ..., h(L-1) die vom Modul 40 berechnete Impulsantwort des aus den Synthesefiltern und dem Wahrnehmungswichtungsfilter zusammengesetzten Filters bezeichnet. Mit anderen Worten besitzt das zusammengesetzte Filter als Übertragungsfunktion W(z)/[A(z) · B(z)]. In Matrizenschreibweise ergibt sich demnach:
  • D = (D(0), D(1), ..., D(L-1)) x · H
  • mit x = (x(0), x(1), ..., x(L-1)
  • und
  • Der Vektor D bildet einen Zielvektor für das Anregungssuchmodul 28. Dieses Modul 28 bestimmt ein Codewort des Repertoires, das die normierte Korrelation Pk²/&alpha;k² maximiert, in der:
  • Pk = D·ckT
  • &alpha;k² = ck·HT·H·ckT = ck·U·ckT
  • Sobald der optimale Index k bestimmt ist, wird die Anregungsverstärkung &beta; gleich &beta; = Pk/&alpha;k² gesetzt.
  • Bezugnehmend auf Fig. 3 umfaßt der CELP-Decodierer einen Demultiplexer 8, der den vom Codierer ausgegebenen binären Strom erhält. Die quantisierten Werte der EXC-Anregungsparameter und der LTP- und LPC-Syntheseparameter werden an den Generator 10, den Verstärker 12 und die Filter 14, 16 geliefert, um das Synthesesignal zu rekonstruieren, das in das Nachfilter 17 eingegeben wird und sodann vom Wandler 18 analogisiert wird, bevor es verstärkt wird und anschließend an einen Lautsprecher 19 angelegt wird, um die ursprüngliche Sprache wiederherzustellen.
  • Im Fall des Decodierers der Fig. 3 werden die LPC-Parameter beispielsweise von den Quantizierungsindizes der Reflexionskoeffizienten rip (auch genannt Teilkorrelations- oder PARCOR-Koeffizienten) in Bezug auf die verschiedenen Stufen der linearen Prädiktion gebildet. Ein Modul 15 gewinnt die quantisierten Werte der rip anhand der Quantisierungsindizes und wandelt diese um, um die q Sätze von linearen Prädiktionskoeffizienten bereitzustellen. Diese Umwandlung erfolgt beispielsweise nach der gleichen rekursiven Methode wie im Algorithmus von Levinson-Durbin.
  • Die Sätze von Koeffizienten aip werden an das Kurzzeitsynthesefilter 16 geliefert, das von einer Aufeinanderfolge von q Filtern/Stufen mit den Übertragungsfunktionen 1/A¹(z), ..., 1/Aq(z) - gegeben durch die Beziehung (4) - gebildet ist. Das Filter 16 kann auch einstufig mit der durch die Beziehung (1) gegebenen Übertragungsfunktion 1/A(z) sein, wobei die Koeffizienten ai gemäß den Beziehungen (9) bis (13) berechnet werden.
  • Die Sätze von Koeffizienten aip werden außerdem an das Nachfilter 17 geliefert, das im betrachteten Beispiel eine Übertragungsfunktion der Form
  • besitzt, wobei APN(z) und APP(z) Übertragungsfunktionen der Ordnung M vom Typ FIR sind, Gp ein konstanter Verstärkungsfaktor ist, u eine positive Konstante ist und r&sub1; den ersten Reflexionskoeffizienten bezeichnet. Der Reflexionskoeffizient r&sub1; kann der sein, der den Koeffizienten ai des zusammengesetzten Synthesefilters zugeordnet ist und der dann noch berechnet werden muß. Man kann für r&sub1; aber auch den ersten Reflexionskoeffizienten der ersten Prädiktionsstufe (r&sub1; = r&sub1;¹) unter Mittelung einer evtl. Anpassung der Konstante u nehmen. Für den Term APN(z)/APP(z) besteht eine erste Möglichkeit darin, APN(z) = A(z/&beta;&sub1;) und APP(z) = A(z/&beta;&sub2;) mit 0 &le; &beta;&sub1; &le; &beta;&sub2; &le; 1 zu setzen, was auf die gewohnte Form (3) mit A(z) gemäß der Form (7) zurückführt.
  • Wie im Fall des Wahrnehmungswichtungsfilters des Codierers erlaubt es die Erfindung, von einer Stufe zur nächsten unterschiedliche Koeffizienten &beta;&sub1; und &beta;&sub2; zu verwenden (Formel (8)), nämlich:
  • Im Fall eines breitbandigen Signals mit q = 2, M1 = 2 und M2 = 13 hat sich gezeigt, daß die Wahl &beta;&sub1;¹ = 0,7, &beta;&sub2;¹ = 0,9, &beta;&sub1;² = 0,95 und &beta;&sub2;² = 0,97 gute Ergebnisse liefert.
  • Die Erfindung wurde vorstehend in ihrer Anwendung bei einem "Vorwärts"-adaptiven Prädiktionscodierer, bei dem also das Tonfrequenzsignal, das Gegenstand der Analyse durch lineare Prädiktion ist, das Eingangssignal des Codierers ist, beschrieben. Die Erfindung läßt sich aber auch bei "Rückwärts"-adaptiven Prädiktionscodierern/-decodierern anwenden, bei denen das Synthesesignal Gegenstand der Analyse durch lineare Prädiktion im Codierer und im Decodierer ist (siehe J. H. Chen et al.: "A Low-Delay CELP Coder for the CCITT 16 kbit/s Speech Coding Standard", IEEE J. SAC, Band 10, Nr. 5, Seiten 830-848, Juni 1992). Die Fig. 5 und 6 zeigen einen CELP-Decodierer bzw. einen CELP-Codierer mit "Rückwärts"- Adaption, die die vorliegende Erfindung ausführen. Zur Bezeichnung analoger Elemente wurden Bezugszeichen verwendet, die identisch zu denen der Fig. 3 und 4 sind.
  • Der "Rückwärts"-adaptierende Decodierer erhält lediglich die Quantisierungswerte der Parameter, die das an das Kurzzeitsynthesefilter 16 anzulegende Anregungssignal u(n) definieren. Im betrachteten Beispiel sind diese Parameter der Index k und der zugeordnete Verstärkungsfaktor &beta; sowie die LTP- Parameter. Das Synthesesignal (n) wird mittels eines zum Modul 24 der Fig. 3 identischen Modul 124 zur Analyse durch mehrstufige lineare Prädiktion verarbeitet. Das Modul 124 liefert die LPC-Parameter an das Filter 16 für einen oder mehrere nachfolgende Blöcke des Anregungssignals und an das Nachfilter 17, dessen Koeffizienten wie zuvor beschrieben erhalten werden.
  • Der entsprechende Codierer, der in Fig. 6 dargestellt ist, bewirkt die mehrstufige lineare Prädiktionsanalyse an dem lokal erzeugten Synthesesignal und nicht an dem Audiosignal s(n). Er umfaßt einen lokalen Decodierer 132, der im wesentlichen aus den mit 10, 12, 14, 16 und 124 bezeichneten Elementen des Decodierers der Fig. 5 besteht. Neben den Abtastwerten u des adaptiven Verzeichnisses und den Anfangszuständen des Filters 36 liefert der lokale Decodierer 132 die durch Analyse des Synthesesignals erhaltenen LPC- Parameter, die vom Wahrnehmungswichtungsevaluationsmodul 39 und vom Modul 40 zur Berechnung der Impulsantworten h und h' verwendet werden. Im übrigen ist die Funktion des Codierers identisch zu der des mit Bezug auf Fig. 4 beschriebenen Codierers, mit der Ausnahme, daß das LPC-Analysemodul 24 nicht mehr notwendig ist. Lediglich die EXC- und LTP- Parameter werden zum Decodierer geschickt.
  • Die Fig. 7 und 8 sind Blockschaltbilder eines CELP- Decodierers und eines CELP-Codierers mit Mischadaption. Die linearen Prädiktionskoeffizienten der ersten Stufe(n) ergeben sich aus einer "Vorwärts"-Analyse des Tonfrequenzsignals, die vom Codierer durchgeführt wird, wohingegen die linearen Prädiktionskoeffizienten der letzten Stufe(n) aus einer "Rückwärts"-Analyse des Synthesesignals resultieren, die vom Decodierer (und von einem im Codierer vorgesehen lokalen Decodierer) durchgeführt wird. Zur Bezeichnung analoger Elemente wurden Bezugszeichen verwendet, die identisch zu denen der Fig. 3 bis 6 sind.
  • Der in Fig. 7 dargestellte Misch-Decodierer erhält die Quantisierungswerte der Parameter EXC, LTP, die das an das Kurzzeitsynthesefilter 16 anzulegende Anregungssignal u(n) definieren, sowie die Quantisierungswerte der Parameter LPC/F, die durch die vom Codierer durchgeführte "Vorwärts"- Analyse bestimmt werden. Diese Parameter LPC/F repräsentieren qF Sätze von linearen Prädiktionskoeffizienten a&sub1;F,p, ..., aMFpF,p mit 1 &le; p &le; qF und definieren einen ersten Bestandteil 1/AF(z) der Übertragungsfunktion 1/A(z) des Filters 16:
  • Um diese Parameter LPC/F zu erhalten, umfaßt der in Fig. 8 dargestellte Misch-Codierer ein Modul 224/F, das das zu codierende Tonfrequenzsignal s(n) in der mit Bezug auf Fig. 1 beschriebenen Weise analysiert, falls qF > 1, oder in einer einzigen Stufe, falls qF = 1.
  • Der andere Bestandteil 1/AB(z) des Kurzzeitsynthesefilters 16 mit der Übertragungsfunktion 1/A(z) = 1/[AF(z) · AB(z)] ist gegeben durch
  • Zur Bestimmung der Koeffizienten aiB,p umfaßt der Misch- Decodierer ein inverses Filter 200 der Übertragungsfunktion AF(z), das das von dem Kurzzeitsynthesefilter 16 erzeugte Synthesesignal (n) filtert, um ein gefiltertes Synthesesignal &sup0;(n) zu erzeugen. Ein Modul 224/B führt die Analyse dieses Signals &sup0;(n) durch lineare Prädiktion in der mit Bezug auf Fig. 1 beschriebenen Weise durch, falls qB > 1, oder in einer einzigen Stufe, falls qB = 1. Die so erhaltenen Koeffizienten LPC/B werden an das Synthesefilter 16 geliefert, um dessen zweiten Bestandteil für den folgenden Block zu definieren. Sie werden außerdem - wie auch die Koeffizienten LPC/F - an das Nachfilter 17 geliefert, dessen Bestandteile APN(z) und APP(z) entweder die Form APN(z) - A(z(&beta;&sub1;), APP(z) = A(z/&beta;&sub2;) besitzen oder die Form:
  • wobei die Paare von Koeffizienten &beta;&sub1;F,p, &beta;&sub2;F,p und &beta;&sub1;B,p &beta;&sub2;B,p getrennt optimierbar sind, wobei 0 &le; &beta;&sub1;F,p &le; &beta;&sub2;F,p &le; 1 und 0 &le; &beta;&sub1;B,p &le; &beta;&sub2;B,p &le; 1.
  • Der im Misch-Codierer vorgesehene lokale Decodierer 232 besteht im wesentlichen aus den mit 10, 12, 14, 16, 200 und 224/B bezeichneten Elementen des Decodierers der Fig. 7. Neben den Abtastwerten u des adaptiven Verzeichnisses und den Anfangszuständen des Filters 36 liefert der lokale Decodierer 232 die Parameter LPC/B, die zusammen mit den Vom Analysemodul 224/F gelieferten Parametern LPC/F vom Wahrnehmungswichtungsevaluationsmodul 39 und vom Modul 40 zur Berechnung der Impulsantworten h und h' verwendet werden.
  • Die vom Modul 39 ermittelte Übertragungsfunktion des Wahrnehmungswichtungsfilters 38 besitzt entweder die Form W(z) = A(z/&gamma;&sub1;)/A(z/&gamma;&sub2;) oder die Form
  • wobei die Paare von Koeffizienten &gamma;&sub1;F,p, &gamma;&sub2;F,p und &gamma;&sub1;B,p, &gamma;&sub2;B,p getrennt optimierbar sind, wobei 0 &le; &gamma;&sub2;F,p &le; &gamma;&sub2;F,p &le; 1 und 0 &le; &gamma;&sub2;B,p &le; &gamma;&sub1;B,p &le; 1.
  • Im übrigen ist die Funktion des Misch-Codierers identisch zu der des mit Bezug auf Fig. 4 beschriebenen Codierers. Ledig lich die Parameter EXC, LTP und LPC/F werden zum Decodierer geschickt.

Claims (1)

1. Verfahren zur Analyse eines Tonfrequenzsignals (s&sup0;(n)) durch lineare Prädiktion der Ordnung M zur Bestimmung von Spektralparametern abhängig von einem Kurzzeitspektrum des Tonfrequenzsignals,
dadurch gekennzeichnet, daß das Verfahren unterteilt ist in q aufeinanderfolgende Prädiktionsstufen (5p), wobei q eine ganze Zahl größer als 1 ist, und daß man in jeder Prädiktionsstufe p (1 &le; p &le; a) Parameter bestimmt, welche eine für die jeweilige Stufe p im voraus festgelegte Zahl Mp von linearen Prädiktionskoeffizienten a&sub1;p, ..., aMpp eines Eingangssignals der Stufe repräsentieren, wobei das zu analysierende Tonfrequenzsignal das Eingangssignal (s&sup0;(n)) der ersten Stufe bildet und das Eingangssignal (sp(n)) einer Stute p+1 von dem mittels eines Filters der Übertragungsfunktion
gefilterten Eingangssignal (sp-1(n)) der Stufe p gebildet ist, wobei für die Prädiktionsordnung M
gilt.
2. Analyseverfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Zahl Mp der linearen Prädiktionskoeffizienten von eine. Stufe zur nächsten zunimmt.
3. Verfahren zur Codierung eines Tonfrequenzsignals, umfassend die folgenden Schritte:
- Analysieren des in aufeinanderfolgende Blöcke digitalisierten Tonfrequenzsignals (s(n)) durch lineare Prädiktion zur Bestimmung von Parametern (LPC), welche ein Kurzzeitsynthesefilter (16) definieren,
Bestimmen von Anregungsparametern (k, &beta;, LTP), welche ein Anregungssignal (u(n)) definieren, das zur Erzeugung eines das Tonfrequenzsignal repräsentierenden Synthesesignals ( (n)) an das Kurzzeitsynthesefilter (16) anzulegen ist, und
- Erzeugen von Quantisierungswerten der das Kurzzeitsynthesefilter definierenden Parameter und der Anregungsparameter, dadurch gekennzeichnet, daß die Analyse durch lineare Prädiktion ein Vorgang in q aufeinanderfolgenden Stufen (5p) ist, wobei q eine ganze Zahl größer als 1 ist, wobei dieser Vorgang in jeder Prädiktionsstufe p (1 &le; p &le; q) die Bestimmung von Parametern umfaßt, welche eine für die jeweilige Stufe p im voraus festgelegte Zahl Mp vom linearen Prädiktionskoeffizienten a&sub1;p, ..., aMpp eines Eingangssignals der Stufe repräsentieren, wobei das zu codierende Tonfrecuenzsignal (s(n)) das Eingangssignal (s&sup0;(n)) der ersten Stufe bildet und das Eingangssignal (sp(n)) einer Stufe p+1 vor, dem mittels eines Filters der Übertragungsfunktion
gefilterten Eingangssignal (sp-1(n)) der Stufe p gebildet ist, wobei das Kurzzeitsynthesefilter (16) eine Übertragungsfunktion dei Form 1/A(z) mit
besitzt.
4. Codierverfahren nach Anspruch 3, dadurch gekennzeichnet, daß die Zahl Mp der linearen Prädiktionskoeffizienten von einer Stufe zur nächsten zunimmt.
5. Codierverfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, daß zumindest einige der Anregungsparameter bestimmt werden, indem die Energie eines Fehlersignals minimiert wird, welches aus der Filterung der Differenz zwischen dem Tonfrequenzsignal (s(n)) und dem Synthesesignal ( (n)) mittels mindestens eines Wahrnehmungswichtungsfilters (38) resultiert, dessen Übertragungsfunktion die Form W(z) = A(z/&gamma;&sub1;)/A(z/&gamma;&sub2;) besitzt, wobei &gamma;&sub1; und &gamma;&sub2; spektrale Ausdehnungskoeffizienten mit 0 &le; &gamma;&sub2; &le; &gamma;&sub1; &le; 1 bezeichnen.
6. Codierverfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, daß zumindest einige der Anregungsparameter bestimmt werden, indem die Energie eines Fehlersignals minimiert wird, welches aus der Filterung der Differenz zwischen dem Tonfrequenzsignal (s(n)) und dem Synthesesignal ( (n)) mittels mindestens eines Wahrnehmungswichtungsfilters (38) resultiert, dessen Übertragungsfunktion die Form
besitzt, wobei &gamma;&sub1;p, &gamma;&sub2;p paare von spektralen Ausdehnungskoeffizienten mit 0 &le; &gamma;2p &le; &gamma;&sub1;p &le; 1 für 1 &le; p &le; q bezeichnen.
7. Verfahren zur Decodierung eines binären Stroms zur Erzeugung eines durch den binären Strom codierten Tonfrequenzsignals,
dadurch gekennzeichnet, daß man:
- Quantisierungswerte von Parametern (LPC), welche ein Kurzzeitsynthesefilter (16) definieren, und von Anregungsparametern (k, &beta;, LTP) erhält, wobei die das Synthesefilter definierenden Parameter eine Zahl q, die größer als 1 ist, von Sätzen von linearen Prädiktionskoeffizienten (aip) repräsentieren, wobei jeder Satz p eine im voraus festgelegte Zahl Mp von Koeffizienten umfaßt,
- auf Grundlage der Quantisierungswerte der Anregungsparameter ein Anregungssignal (u(n)) erzeugt und
- ein synthetisiertes Tonfrequenzsignal ( (n)) erzeugt, indem das Anregungssignal mittels eines Synthesefilters (16) mit einer übertragungsfunktion der Form 1/A(z) mit
gefiltert wird, wobei die Koeffizienten a&sub1;p, ..., aMpp dem pten Satz von linearen Prädiktionskoeffizienten entsprechen, wobei 1 &le; p &le; q.
3. Decodierverfahren nach Anspruch 7, dadurch gekennzeichnet, daß das synthetisierte Tonfrequenzsignal ( (n)) an ein Nachfilter (17) angelegt wird, dessen Übertragungsfunktion (HPF(z)) einen Term der Form A(z/&beta;&sub1;)/A(z/&beta;&sub2;) umfaßt, wobei &beta;&sub1; und &beta;&sub2; Koeffizienten bezeichnen, für die 0 &le; &beta;&sub1; &le; &beta;2 &le; 1 gilt.
9. Decodierverfahren nach Anspruch 7, dadurch gekennzeichnet, daß das synthetisierte Tonfrequenzsignal ( (n)) an ein Nach filter (17) angelegt wird, dessen Übertragungsfunktion (HPF(z)) einen Term der Form
umfaßt, wobei &beta;&sub1;p, &beta;&sub2;p Paare von Koeffizienten bezeichnen, für die 0 &le; &beta;&sub1;p &le; &beta;&sub2;p &le; 1 für 1 &le; p &le; q gilt, und wobei Ap(z) für den p-ten Satz von linearen Prädiktionskoeffizienten die Funktion
repräsentiert.
10. Verfahren zur Codierung eines ersten, in aufeinanderfolgende Blöcke digitalisierten Tonfrequenzsignals, umfassend die folgenden Schritte:
- Analysieren eines zweiten Tonfrequenzsignals ( (n)) durch lineare Prädiktion zur Bestimmung von Parametern (LPC), welche ein Kurzzeitsynthesefilter (16) definieren,
- Bestimmen von Anregungsparametern (k, &beta;, LTP), welche ein Anregungssignal (u(n)) definieren, das zur Erzeugung eines das erste Tonfrequenzsignal repräsentierenden Synthesesignals ( (n)) an das Kurzzeitsynthesefilter (16) anzulegen ist, wobei dieses Synthesesignal für mindestens einen nachfolgenden Block das zweite Tonfrequenzsignal bildet, und
- Erzeugen von Quantisierungswerten der Anregungsparameter, dadurch gekennzeichnet, daß die Analyse durch lineare Prädiktion ein Vorgang in q aufeinanderfolgenden Stufen (5p) ist, wobei q eine ganze Zahl größer als 1 ist, wobei dieser Vorgang in jeder Prädiktionsstufe p (1 &le; p &le; q) die Bestimmung von Parametern umfaßt, welche eine für die jeweilige Stufe p im voraus festgelegte Zahl Mp von linearen Prädiktionskoeffizienten a&sub1;p, ..., aMpp eines Eingangssignals der Stufe repräsentieren, wobei das zweite Tonfrequenzsignal ( (n)) das Eingangssignal (s&sup0;(n)) der ersten Stufe bildet und das Eingangssignal (sp(n)) einer Stufe p+1 von dem mittels eines Filters der Übertragungsfunktion
gefilterten Eingangssignal (sp-1(n)) der Stufe p gebildet ist, wobei das Kurzzeitsynthesefilter (16) eine Übertragungsfunktion der Form 1/A(z) mit
besitzt.
11. Codierverfahren nach Anspruch 10, dadurch gekennzeichnet, daß die Zahl Mp von linearen Prädiktionskoeffizienten von einer Stufe zur nächsten zunimmt.
12. Codierverfahren nach Anspruch 10 oder 11, dadurch gekennzeichnet, daß zumindest einige der Anregungsparameter bestimmt werden, indem die Energie eines Fehlersignals minimiert wird, welches aus der Filterung der Differenz zwischen dem ersten Tonfrequenzsignal (s(n)) und dem Synthesesignal ( (n)) mittels mindestens eines Wahrnehmungswichtungsfilters (38) resultiert, dessen Übertragungsfunktion die vorm W(z) = A(z/&gamma;&sub1;)/A(z/&gamma;&sub2;) besitzt, wobei &gamma;&sub1; und &gamma;&sub2; spektrale Ausdehnungskoeffizienten bezeichnen, für die 0 &le; &gamma;&sub2; &le; &gamma;1 &le; 1 gilt.
13. Codierverfahren nach Anspruch 10 oder 11, dadurch gekennzeichnet, daß zumindest einige der Anregungsparameter be stimmt werden, indem die Energie Fehlersignals minimiert wird welches aus der Filterung der Differenz zwischen dem ersten Tonfrequenzsignal (s(n)) und dem Synthesesignal ( (n)) mittels mindestens eines Wahrnehmungswichtungsfilters (33) resultiert, dessen Übertragungsfunktion die Form
besitzt, wobei &gamma;&sub1;p, &gamma;&sub2;p Paare von spektralen Ausdehnungskoeffizienten bezeichnen, für die 0 &le; &gamma;&sub2;p &le; &gamma;&sub1;p &le; 1 für 1 &le; p &le; q gilt.
14. Verfahren zur Decodierung eines binären Stroms zur Erzeugung eines durch den binären Strom codierten Tonfrequenzsignals in aufeinanderfolgenden Blöcken,
dadurch gekennzeichnet, daß man:
- Quantisierungswerte von Anregungsparametern (k, &beta;, LTP) erhält,
- auf Grundlage der Quantisierungswerte der Anregungsparameter ein Anregungssignal (u(n)) erzeugt,
- durch Filterung des Anregungssignals mittels eines Kurzzeitsynthesefilters (16) ein synthetisiertes Tonfrequenzsignal ( (n)) erzeugt,
- eine Analyse des synthetisierten Signals ( (n)) durch lineare Prädiktion vornimmt, um für mindestens einen nachfolgenden Block Koeffizienten des Kurzzeitsynthesefilters (16) zu erhalten,
und daß die Analyse durch lineare Prädiktion ein Vorgang in c aufeinanderfolgenden Stufen (5p) ist, wobei q eine ganze Zahl größer als 1 ist, wobei dieser Vorgang in jeder Prädiktionsstufe p (1 &le; p &le; q) die Bestimmung von Parametern umfaßt, welche eine für die jeweilige Stufe p im voraus festgelegte Zahl Mp von linearen Prädiktionskoeffizienten a&sub1;p, ..., aMpp eines Eingangssignals der Stufe repräsentierten, wobei das synthetisierte Signal ( (n)) das Eingangssignal (s&sup0;(n)) der ersten Stufe bildet und das Eingangssignal (sp(n)) einer Stufe p+1 von dem mittels eines Filters der Übertragungsfunktion
gefilterten Eingangssignal (sp-1(n)) der Stufe p gebildet ist, wobei das Kurzzeitsynthesefilter (16) eine Übertragungsfunktion der Form 1/A(z) mit
besitzt.
15. Decodierverfahren nach Anspruch 14, dadurch gekennzeichnet, daß das synthetisierte Tonfrequenzsignal (s(n)) an ein Nachfilter (17) angelegt wird, dessen Übertragungsfunktion (HPF(z)) einen Term der Form A(z/&beta;&sub1;)/A(z/&beta;&sub2;) umfaßt, wobei &beta;&sub1; und &beta;&sub2; Koeffizienten bezeichnen, für die 0 &le; &beta;&sub1; < &beta;&sub2; &le; 1 gilt.
16. Decodierverfahren nach Anspruch 14, dadurch gekennzeichnet, daß das synthetisierte Tonfrequenzsignal ( (n)) an ein Nachfilter (17) angelegt wird, dessen Übertragungsfunktion (HPF(z)) einen Term der Form
umfaßt, wobei &beta;&sub1;p, &beta;&sub2;p Paare von Koeffizienten bezeichnen, für die 0 &le; &beta;&sub1;p &le; &beta;&sub2;p &le; 1 für 1 &le; p &le; q gilt.
17. Verfahren zur Codierung eines ersten, in aufeinanderfolgende Blöcke digitalisierten Tonfrequenzsignals, dadurch gekennzeichnet, daß es die folgenden Schritte umfaßt:
- Analysieren des ersten Tonfrequenzsignals (s(n)) durch lineare Prädiktion zur Bestimmung von Parametern (LPC/F), welche einen ersten Bestandteil eines Kurzzeitsynthesefilters (16) definieren,
- Bestimmen von Anregungsparametern (k, &beta;, LEE), welche ein Anregungssignal (u(n)) definieren, das zur Erzeugung eines das erste Tonfrequenzsignal repräsentierenden Synthesesignals ( (n)) an das Kurzzeitsynthesefilter (16) anzulegen ist,
- Erzeugen von Quantisierungswerten der den ersten Bestandteil des Kurzzeitsynthesefilters definierenden Parameter und der Anregungsparameter,
- Filtern des Synthesesignals ( (n)) mittels eines Filters mit einer Übertragungsfunktion, die der Inversen der Übertragungsfunktion des ersten Bestandteils des Kurzzeitsynthesefilters entspricht, und
- Analysieren des gefilterten Synthesesignals ( &sup0;(n)) um für mindestens einen nachfolgenden Block Koeffizienten eines zweiten Bestandteils des Kurzzeitsynthesefilters zu erhalten, und daß die Analyse des ersten Tonfrequenzsignals (s(n)) durch lineare Prädiktion ein Vorgang in qF aufeinanderfolgenden Stufen (5p) ist, wobei qF eine ganze Zahl ist, die zumindest gleich 1 ist, wobei dieser qF-stufige Vorgang in jeder Prädiktionsstufe p (1 &le; p &le; qF) die Bestimmung von Parametern umfaßt, welche eine für die jeweilige Stufe p im voraus festgelegte Zahl MFp von linearen Prädiktionskoeffizienten a&sub1;F,p, ..., aMFpF,p eines Eingangssignals der Stufe repräsentieren, wobei das erste Tonfrequenzsignal (s(n)) das Eingangssignal (s&sup0;(n)) der ersten Stufe des qF-stufigen Vorgangs bildet und das Eingangssignal (sp(n)) einer Stufe p+1 des qF- stufigen Vorgangs von dem mittels eines Filters der Übertragungsfuntkion
gefilterten Eingangssignal (sp-1(n)) der Stufe p des qF- stufigen Vorgangs gebildet ist, wobei der erste Bestandteil des Kurzzeitsynthesefilters (16) eine Übertragungsfunktion der Form 1/AF(z) mit
besitzt,
und daß die Analyse des gefilterten Synthesesignals durch lineare Prädiktion ein Vorgang in qB aufeinanderfolgenden Stufen (5p) ist, wobei qB eine ganze Zahl ist, die wenigstens gleich 1 ist, wobei dieser qB-stufige Vorgang in jeder Prädiktionsstufe p (1 &le; p &le; qB) die Bestimmung von Parametern umfaßt, welche eine für die jeweilige Stufe p im voraus festgelegte Zahl MBp von Linearen Prädiktionskoeffizienten a&sub1;B,p, ..., aMBpB,p eines Eingangssignals der Stufe repräsentieren, wobei das gefilterte Synthesesignal ( &sup0;(n)) das Eingangssignal (s&sup0;(n)) der ersten Stufe des qB-stufigen Vorgangs bildet und das Eingangssignal (sp(n)) einer Stufe p+1 des qB- stufigen Vorgangs von dem mittels eines Filters der Übertragungsfunktion
gefilterten Eingangssignal (sp-1(n)) der stufe p des qB- stufigen Vorgangs gebildet ist, wobei der zweite Bestandteil des Kurzzeitsynthesefilters (16) eine Übertragungsfunktion der Form 1/Aa(z) mit
besitzt und das Kurzzeitsynthesefilter (16) eine Übertragungsfunktion der Form 1/A(z) mit A(z) = AF(z) · AB(z) besitzt.
18. Codierverfahren nach Anspruch 17, dadurch gekennzeichnet, daß zumindest einige der Anregungsparameter bestimmt werden, indem die Energie eines Fehlersignals minimiert wird, welches aus der Filterung der Differenz zwischen dem ersten Tonfrequenzsignal (s(n)) und dem Synthesesignal ( (n)) mittels mindestens eines Wahrnehmungswichtungsfilters (38) resultiert, dessen Übertragungsfunktion die Form W(z) = A(z/&gamma;&sub1;)/A(z/&gamma;&sub2;) besitzt, wobei &gamma;&sub1; und &gamma;&sub2; spektrale Ausdehnungskoeffizienten bezeichnen, für die 0 &le; &gamma;&sub2; &le; &gamma;&sub1; &le; 1 gilt.
19. Codierverfahren nach Anspruch 17, dadurch gekennzeichnet, daß zumindest einige der Anregungsparameter bestimmt werden, indem die Energie eines Fehlersignals minimiert wird, welches aus der Filterung der Differenz zwischen dem ersten Tonfrequenzsignal (s(n)) und dem Synthesesignal ( (n)) mittels mindestens eines Wahrnehmungswichtungsfilters (38) resultiert, dessen Übertragungsfunktion die Form
besitzt, wobei &gamma;&sub1;F,p, &gamma;&sub2;F,p Paare von spektralen Ausdehnungskoeffizienten bezeichnen, für die 0 &le; &gamma;&sub2;F,p &le; &gamma;&sub1;F,p &le; 1 für 1 &le; p &le; qF gilt, und &gamma;1B,p, &gamma;&sub2;B,p Paare von spektralen Ausdehnungskoeffizienten bezeichnen, für die 0 &le; &gamma;&sub2;B,p &le; &gamma;&sub1;B,p &le; 1 für 1 &le; p &le; qB gilt.
20. Verfahren zur Decodierung eines binären Stroms zur Erzeugung eines durch den binären Strom codierten Tonfrequenzsignals in aufeinanderfolgenden Blöcken,
dadurch gekennzeichnet, daß man:
- Quantisierungswerte von Parametern (LPC/F), welche einen ersten Bestandteil eines Kurzzeitsynthesefilters (16) definieren, und von Anregungsparametern (k, &beta;, LTP) erhält, wobei die den ersten Bestandteil des Kurzzeitsynthesefilters definierenden Parameter eine Zahl qF, die wenigstens gleich 1 ist, von Sätzen von linearen Prädiktionskoeffizienten a&sub1;F,p, ..., aMFpF,p für 1 &le; p &le; qF repräsentieren, wobei jeder Satz p eine im voraus festgelegte Zahl MFp von Koeffizienten umfaßt, wobei der erste Bestandteil des Kurzzeitsynthesefilters (16) eine Übertragungsfunktion der Form 1/AF(z) mit
besitzt,
- auf Grundlage der Quantisierungswerte der Anregungsparameter ein Anregungssignal (u(n)) erzeugt,
- ein synthetisiertes Tonfrequenzsignal ( (n)) erzeugt, indem das Anregungssignal mittels eines Kurzzeitsynthesefilters
(16) der Übertragungsfunktion 1/A(z) mit A(z) = AF(z) · AB(z), gefiltert wird, wobei 1/AB(z) die Übertragungsfunktion eines zweiten Bestandteils des Kurzzeitsynthesefilters (16) repräsentiert,
- das Synthetisierte Signal ( (n)) mittels eines Filters der Übertragungsfunktion AF(z) filtert und
- eine Analyse des gefilterten Synthetisierten Signals ( &sup0;(n)) durch lineare Prädiktion durchführt, um für mindestens einen nachfolgenden Block Koeffizienten des zweiten Bestandteils des Kurzzeitsynthesefilters (16) zu erhalten, und daß die Analyse des gefilterten synthetisierten Signals durch lineare Prädiktion ein Vorgang in qB aufeinanderfolgenden Stufen (5p) ist, wobei qB eine ganze Zahl ist, die wenigstens gleich 1 ist, wobei dieser Vorgang in jeder Prädiktionsstufe p (1 &le; p qB) die Bestimmung von Parametern umfaßt, welche eine für die jeweilige Stufe p im voraus festgelegte Zahl MBp von linearen Prädiktionskoeffizienten a&sub1;B,p, ..., aMBpB,p eines Eingangssignals der Sture repräsentieren, wobei das gefilterte synthetisierte Signal ( &sup0;(n)) das Eingangssignal (s&sup0;(n)) der ersten Stufe bildet und das Eingangssignal (s&sup0;(n)) einer Stufe p+1 von dem mittels eines Filters der Übertragungsfunktion
gefilterten Eingangssignal (sp-1(n)) der Stufe p gebildet ist, Wobei der zweite Bestandteil des Kurzzeitsynthesefilters (16) eine Übertragungsfunktion der Form 1/AB(z) mit
besitzt.
21. Decodierverfahren nach Anspruch 20, dadurch gekennzeichnet, daß das synthetisierte Tonfrequenzsignal ( (n)) an ein Nachfilter (17) angelegt wird, dessen Übertragungsfunktion (HPF(z)) einen Term der Form A(z/&beta;&sub1;)/A(z/&beta;&sub2;) umfaßt, wobei &beta;&sub1; und &beta;&sub2; Koeffizienten bezeichnen, für die 0 &le; &beta;&sub1; < &beta;&sub2; &le; 1 gilt.
22. Decodierverfahren nach Anspruch 20, dadurch gekennzeichnet, daß das synthetisierte Tonfrequenzsignal ( (n)) an ein Nachfilter (17) angelegt wird, dessen Übertragungsfunktion (HPF(z)) einen Term der Form
besitzt, wobei &beta;&sub1;F,p &beta;&sub2;F,p Paare von Koeffizienten bezeichnen, für die 0 &le; &beta;&sub1;F,p &le; &beta;&sub2;F,p &le; für 1 &le; p &le; qF gilt, und &beta;&sub1;B,p, &beta;&sub2;B,p Paare von Koeffizienten bezeichnen, für die 0 &le; &beta;&sub1;B,p &le; &beta;&sub2;B,p &le; 1 für 1 &le; p &le; gB gilt.
DE69608947T 1995-12-15 1996-12-12 Verfahren zur Analyse eines Audiofrequenzsignals durch lineare Prädiktion, und Anwendung auf ein Verfahren zur Kodierung und Dekodierung eines Audiofrequenzsignals Expired - Lifetime DE69608947T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR9514925A FR2742568B1 (fr) 1995-12-15 1995-12-15 Procede d'analyse par prediction lineaire d'un signal audiofrequence, et procedes de codage et de decodage d'un signal audiofrequence en comportant application

Publications (2)

Publication Number Publication Date
DE69608947D1 DE69608947D1 (de) 2000-07-27
DE69608947T2 true DE69608947T2 (de) 2001-02-01

Family

ID=9485565

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69608947T Expired - Lifetime DE69608947T2 (de) 1995-12-15 1996-12-12 Verfahren zur Analyse eines Audiofrequenzsignals durch lineare Prädiktion, und Anwendung auf ein Verfahren zur Kodierung und Dekodierung eines Audiofrequenzsignals

Country Status (7)

Country Link
US (1) US5787390A (de)
EP (1) EP0782128B1 (de)
JP (1) JP3678519B2 (de)
KR (1) KR100421226B1 (de)
CN (1) CN1159691A (de)
DE (1) DE69608947T2 (de)
FR (1) FR2742568B1 (de)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5621852A (en) * 1993-12-14 1997-04-15 Interdigital Technology Corporation Efficient codebook structure for code excited linear prediction coding
FR2729247A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
JPH10124088A (ja) * 1996-10-24 1998-05-15 Sony Corp 音声帯域幅拡張装置及び方法
JP3064947B2 (ja) * 1997-03-26 2000-07-12 日本電気株式会社 音声・楽音符号化及び復号化装置
FI973873A7 (fi) * 1997-10-02 1999-04-03 Nokia Mobile Phones Ltd Puhekoodaus
FR2774827B1 (fr) 1998-02-06 2000-04-14 France Telecom Procede de decodage d'un flux binaire representatif d'un signal audio
US6223157B1 (en) * 1998-05-07 2001-04-24 Dsc Telecom, L.P. Method for direct recognition of encoded speech data
US6148283A (en) * 1998-09-23 2000-11-14 Qualcomm Inc. Method and apparatus using multi-path multi-stage vector quantizer
US6778953B1 (en) * 2000-06-02 2004-08-17 Agere Systems Inc. Method and apparatus for representing masked thresholds in a perceptual audio coder
US7346499B2 (en) * 2000-11-09 2008-03-18 Koninklijke Philips Electronics N.V. Wideband extension of telephone speech for higher perceptual quality
KR100852610B1 (ko) * 2000-12-06 2008-08-18 코닌클리케 필립스 일렉트로닉스 엔.브이. 필터 장치들 및 방법들
WO2002067246A1 (en) * 2001-02-16 2002-08-29 Centre For Signal Processing, Nanyang Technological University Method for determining optimum linear prediction coefficients
US6590972B1 (en) * 2001-03-15 2003-07-08 3Com Corporation DTMF detection based on LPC coefficients
US7062429B2 (en) * 2001-09-07 2006-06-13 Agere Systems Inc. Distortion-based method and apparatus for buffer control in a communication system
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US20030216921A1 (en) * 2002-05-16 2003-11-20 Jianghua Bao Method and system for limited domain text to speech (TTS) processing
EP1383109A1 (de) * 2002-07-17 2004-01-21 STMicroelectronics N.V. Verfahren und Vorrichtung für breitbandige Sprachkodierung
JP4676140B2 (ja) 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
US7254533B1 (en) * 2002-10-17 2007-08-07 Dilithium Networks Pty Ltd. Method and apparatus for a thin CELP voice codec
US20040260540A1 (en) * 2003-06-20 2004-12-23 Tong Zhang System and method for spectrogram analysis of an audio signal
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
US8027242B2 (en) 2005-10-21 2011-09-27 Qualcomm Incorporated Signal coding and decoding based on spectral dynamics
US8417185B2 (en) * 2005-12-16 2013-04-09 Vocollect, Inc. Wireless headset and method for robust voice data communication
US7773767B2 (en) 2006-02-06 2010-08-10 Vocollect, Inc. Headset terminal with rear stability strap
US7885419B2 (en) * 2006-02-06 2011-02-08 Vocollect, Inc. Headset terminal with speech functionality
US8392176B2 (en) 2006-04-10 2013-03-05 Qualcomm Incorporated Processing of excitation in audio coding and decoding
CN101114415B (zh) * 2006-07-25 2011-01-12 元太科技工业股份有限公司 双稳态显示器的驱动装置及其方法
WO2008032828A1 (fr) * 2006-09-15 2008-03-20 Panasonic Corporation Dispositif de codage audio et procédé de codage audio
US8330745B2 (en) 2007-01-25 2012-12-11 Sharp Kabushiki Kaisha Pulse output circuit, and display device, drive circuit, display device, and pulse output method using same circuit
US8428957B2 (en) 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
TWI346465B (en) * 2007-09-04 2011-08-01 Univ Nat Central Configurable common filterbank processor applicable for various audio video standards and processing method thereof
USD605629S1 (en) 2008-09-29 2009-12-08 Vocollect, Inc. Headset
FR2938688A1 (fr) 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
WO2010102446A1 (zh) 2009-03-11 2010-09-16 华为技术有限公司 一种线性预测分析方法、装置及系统
US8160287B2 (en) 2009-05-22 2012-04-17 Vocollect, Inc. Headset with adjustable headband
US8438659B2 (en) 2009-11-05 2013-05-07 Vocollect, Inc. Portable computing device and headset interface
US9093068B2 (en) * 2010-03-23 2015-07-28 Lg Electronics Inc. Method and apparatus for processing an audio signal
KR101257776B1 (ko) * 2011-10-06 2013-04-24 단국대학교 산학협력단 상태-체크 코드를 이용한 부호화 방법 및 부호화 장치
CN102638846B (zh) * 2012-03-28 2015-08-19 浙江大学 一种基于最优量化策略的wsn通信负载降低方法
EP3098813B1 (de) * 2014-01-24 2018-12-12 Nippon Telegraph And Telephone Corporation Linear-prädiktive analysevorrichtung, verfahren, programm und aufzeichnungsmedium
JP6250072B2 (ja) * 2014-01-24 2017-12-20 日本電信電話株式会社 線形予測分析装置、方法、プログラム及び記録媒体
US9626983B2 (en) * 2014-06-26 2017-04-18 Qualcomm Incorporated Temporal gain adjustment based on high-band signal characteristic
EP4020995B1 (de) 2015-07-16 2024-12-11 Dolby Laboratories Licensing Corporation Signalumformung und -codierung für signale mit hohem dynamikbereich und breitem farbtonbereich

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3975587A (en) * 1974-09-13 1976-08-17 International Telephone And Telegraph Corporation Digital vocoder
US4398262A (en) * 1981-12-22 1983-08-09 Motorola, Inc. Time multiplexed n-ordered digital filter
CA1245363A (en) * 1985-03-20 1988-11-22 Tetsu Taguchi Pattern matching vocoder
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
JP2625998B2 (ja) * 1988-12-09 1997-07-02 沖電気工業株式会社 特徴抽出方式
GB2235354A (en) * 1989-08-16 1991-02-27 Philips Electronic Associated Speech coding/encoding using celp
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
FI98104C (fi) * 1991-05-20 1997-04-10 Nokia Mobile Phones Ltd Menetelmä herätevektorin generoimiseksi ja digitaalinen puhekooderi
IT1257065B (it) * 1992-07-31 1996-01-05 Sip Codificatore a basso ritardo per segnali audio, utilizzante tecniche di analisi per sintesi.
US5706395A (en) * 1995-04-19 1998-01-06 Texas Instruments Incorporated Adaptive weiner filtering using a dynamic suppression factor
US5692101A (en) * 1995-11-20 1997-11-25 Motorola, Inc. Speech coding method and apparatus using mean squared error modifier for selected speech coder parameters using VSELP techniques

Also Published As

Publication number Publication date
EP0782128B1 (de) 2000-06-21
FR2742568B1 (fr) 1998-02-13
FR2742568A1 (fr) 1997-06-20
DE69608947D1 (de) 2000-07-27
JPH09212199A (ja) 1997-08-15
EP0782128A1 (de) 1997-07-02
JP3678519B2 (ja) 2005-08-03
KR100421226B1 (ko) 2004-07-19
CN1159691A (zh) 1997-09-17
KR970050107A (ko) 1997-07-29
US5787390A (en) 1998-07-28

Similar Documents

Publication Publication Date Title
DE69608947T2 (de) Verfahren zur Analyse eines Audiofrequenzsignals durch lineare Prädiktion, und Anwendung auf ein Verfahren zur Kodierung und Dekodierung eines Audiofrequenzsignals
DE69604526T2 (de) Verfahren zur Anpassung des Rauschmaskierungspegels in einem Analyse-durch-Synthese-Sprachkodierer mit einem wahrnehmunggebundenen Kurzzeitfilter
DE3856211T2 (de) Verfahren zur adaptiven Filterung von Sprach- und Audiosignalen
DE69613910T2 (de) Adaptives, auf der Grundlage eines Kodebuchs arbeitendes Sprachkompressionssystem
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE69613908T2 (de) Stimmhaft/stimmlos-Klassifizierung von Sprache für Sprachdekodierung bei Verlust von Datenrahmen
DE69317958T2 (de) Kodierer von Audiosignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken
DE69518452T2 (de) Verfahren für die Transformationskodierung akustischer Signale
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE69132885T2 (de) CELP-Kodierung niedriger Verzögerung und 32 kbit/s für ein Breitband-Sprachsignal
DE69634179T2 (de) Verfahren und Vorrichtung zur Sprachkodierung und -dekodierung
DE69613907T2 (de) Veränderte Grundfrequenzverzögerung bei Verlust von Datenrahmen
EP2022043B1 (de) Informationssignalcodierung
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE69023402T2 (de) Verfahren zur Sprachkodierung und -dekodierung.
DE69522979T2 (de) Erzeugung von linearen Prädiktionskoeffizienten bei Ausfall von Datenrahmen oder Verlust von Datenpaketen
DE69934608T3 (de) Adaptive kompensation der spektralen verzerrung eines synthetisierten sprachresiduums
DE602004007786T2 (de) Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate
DE3853916T2 (de) Digitaler-sprachkodierer mit verbesserter vertoranregungsquelle.
DE69609099T2 (de) Verfahren zur Modifikation von LPC-Koeffizienten von akustischen Signalen
DE602004006211T2 (de) Verfahren zur Maskierung von Paketverlusten und/oder Rahmenausfall in einem Kommunikationssystem
DE69618422T2 (de) Verfahren zur Sprachdekodierung und tragbares Endgerät
DE69521164T2 (de) System zum Kodieren und Dekodieren von Signalen
DE69625874T2 (de) Verfahren und Vorrichtung zur Wiedergabe von Sprachsignalen, zur Dekodierung, zur Sprachsynthese und tragbares Funkendgerät
DE69619054T2 (de) Verfahren und Vorrichtung zur Sprachkodierung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: FRANCE TELECOM, S.A., PARIS, FR