[go: up one dir, main page]

DE69412294T2 - System zur prädiktiven Kodierung/Dekodierung eines digitalen Sprachsignals mittels einer adaptiven Transformation mit eingebetteten Kodes - Google Patents

System zur prädiktiven Kodierung/Dekodierung eines digitalen Sprachsignals mittels einer adaptiven Transformation mit eingebetteten Kodes

Info

Publication number
DE69412294T2
DE69412294T2 DE69412294T DE69412294T DE69412294T2 DE 69412294 T2 DE69412294 T2 DE 69412294T2 DE 69412294 T DE69412294 T DE 69412294T DE 69412294 T DE69412294 T DE 69412294T DE 69412294 T2 DE69412294 T2 DE 69412294T2
Authority
DE
Germany
Prior art keywords
signal
module
transformation
speech signal
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69412294T
Other languages
English (en)
Other versions
DE69412294D1 (de
Inventor
Bruno F-77170 Servon Lozach
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gula Consulting LLC
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Application granted granted Critical
Publication of DE69412294D1 publication Critical patent/DE69412294D1/de
Publication of DE69412294T2 publication Critical patent/DE69412294T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0003Backward prediction of gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die vorliegende Erfindung betrifft ein System zur prädiktiven Kodierung-Dekodierung eines digitalen Sprachsignals durch adaptive Transformation mit eingebetteten Kodes.
  • Bei den momentan verwendeten prädiktiven Transformationskodierern, deren Typ in Fig. 1 dargestellt ist, versucht man, ein synthetisches Signal n zu erzeugen, welches dem zu kodierenden digitalen Sprachsignal Sn möglichst ähnlich ist, wobei diese Ähnlichkeit im Sinne eines Wahrnehmungskriteriums ist.
  • Das zu kodierende digitale Signal Sn, welches aus einem analogen Quellen-Sprachsignal geliefert ist, wird einem Kurzzeit-Prädiktionsverfahren, einer LPC-Analyse unterworfen, wobei die Prädiktionskoeffizienten durch Prädiktion des Sprachsignals auf Fenstern mit M Proben erhalten werden. Das zu kodierende digitale Sprachsignal Sn wird mittels eines aus den vorerwähnten Prädiktionskoeffizienten abgeleiteten Wahrnehmungsbewertungsfilters W(z) gefiltert, um das Wahrnehmungssignal pn zu erhalten.
  • Ein Langzeit-Prädiktionsverfahren erlaubt anschließend, die Periodizität des Residuums für die Schallgeräusche auf allen Unterfenstern von N Proben, N < M, in Gestalt eines Beitrags n zu berücksichtigen, welcher vom Wahrnehmungssignal pn subtrahiert wird, um das Signal p'n in Gestalt eines Vektors P' RN zu erhalten.
  • Eine Transformation und eine nachfolgende Quantisierung werden anschließend mit obigem Vektor P' realisiert, um eine digitale Übertragung zu bewirken. Nach der Übertragung erlauben die inversen Operationen die Modellierung des synthetischen Signals n.
  • Um gemäß den üblichen, durch die Erfahrung etablierten Kriterien, ein gutes Wahrnehmungsverhalten zu erhalten, ist es notwendig, ein Transformationsverfahren mittels orthonormierter Transformation F und ein Quantisierungsverfahren des Vektors P' einzurichten, wobei Verstärkungswerte G wohlbestimmte Eigenschaften überprüfen, G = FT · P', wobei FT die transponierte Matrix der Matrix F bezeichnet.
  • Eine erste von G. Davidson und A. Gersho in der Veröffentlichung "Multiple-Stage Vector Excitation Coding of Speech Wave forms", ICASSP 88, Vol. 1, S. 163-166, vorgeschlagene Lösung besteht in der Verwendung einer nicht singulären Transformationsmatrix V = HC, wobei H eine untere Dreiecksmatrix und C ein nicht singuläres Verzeichnis ist, welches durch Erlernen gebildet ist, wodurch die Invertierbarkeit der Transformationsmatrix V für alle Unterfenster gewährleistet ist.
  • Um gewisse Dekorrelations- und Ordnungseigenschaften der Komponenten des Koeffizientenvektors der Transformation G im Quantisierungsabschnitt ausnützen zu können, sind mehrere, orthonormierte Transformationen verwendende Lösungen vorgeschlagen worden.
  • Die Karhunen-Loeve-Transformation, die erhalten wird ausgehend von den Eigenvektoren der Autokorrelationsmatrix
  • wobei I die Anzahl der im Erlernkörper enthaltenen Vektoren ist, erlaubt die Maximierung des Ausdrucks
  • in dem K eine ganze Zahl mit K &le; N ist. Man zeigt, daß der mittlere quadratische Fehler der Karhunen-Loeve- Transformation kleiner als derjenige jeder anderen Transformation bei gegebenem Modellierungsgrad K ist, so daß diese Transformation in diesem Sinne optimal ist. Dieser Transformationstyp ist in einen prädiktiven Kodierer mit orthogonaler Transformation durch N. Moreau und P. Dymarski, vergleiche die Veröffentlichung "Successive Orthogonalisations in the Multistage CELP Coder", ICASSP 92 Vol. 1, S. I-61 - I-64, eingeführt worden.
  • Um die Komplexität der Berechnung des Verstärkungsvektors G zu verringern, ist es jedoch möglich, suboptimale Transformationen zu verwenden, wie z. B. die schnelle Fvurier- Transformation (FFT), die diskrete Kosinustransformation (TCD), die diskrete Hadamard-Transformation (DHT) oder die diskrete Walsh-Hadamard-Transformation (DWHT).
  • Eine andere Methode zur Konstruktion einer orthonormierten Transformation besteht darin, die untere Toeplitz- Dreiecksmatrix H in singuläre Werte zu zerlegen, wobei H definiert ist durch:
  • in welcher Matrix h(n) die Impulsantwort des Kurzzeit- Prädiktionsfilters 1/A(z) des momentanen Fensters ist.
  • Die Matrix H kann dann in eine Summe von Matrizen mit Rang l zerlegt werden:
  • Da die Matrix U unitär ist, kann sie als orthonormierte Transformation verwendet werden. Eine solche Konstruktion ist vorgeschlagen worden von B. S. Atal in der Veröffentlichung "A Modul of LPC Excitation in Terms of Eigenvectors of the Autocorrelation Matrix of the Impulse Response of the LPC Filter", ICASSP 89, Vol. 1, S. 45-48 und von E. Ofer in der Veröffentlichung "A Unified Framework for LPC Excitation Representation in Residual Speech Coders" ICASSP 89, Vol. 1 S. 41-44.
  • Die momentan bekannten Kodierer mit eingebetteten Kodes erlauben die Übertragung von Daten mittels Flugs von binären Elementen, die auf dem Übertragungskanal normalerweise der Sprache zugewiesen sind, und dies in einer für den Kodierer, welcher das Sprachsignal bei maximaler Rate kodiert, transparenten Weise.
  • Unter diesem Typ von Kodierern ist ein Kodierer mit 64 kbit/s mit skalarem Quantisierer mit eingebetteten Kodes 1986 durch die von der CCITT etablierte Norm G 722 genormt worden. Dieser Kodierer, der im Sprachbereich im Breitband arbeitet (Audiosignal der Bandbreite von 50 Hz bis 7 kHz, mit 16 kHz abgetastet), basiert auf einer Kodierung in zwei Subbändern, die jeweils einen Kodierer mit Modulation durch Impulse und adaptive differentielle Kodierung enthalten (MICDA- Kodierung). Diese Kodiertechnik erlaubt die Übertragung von Sprachsignalen im Breitband und gegebenenfalls von Daten auf einem Kanal mit 64 kbit/s mit drei verschiedenen Raten 64-56- 48 kbit/s und 0-8-16 kbit/s für die Daten.
  • Im Rahmen der Benutzung von durch Kodes angeregten Kodierern (oder CELP-Kodierern) haben M. Johnson und T. Tanigushi ferner einen vielstufigen CELP-Kodierer mit eingebetteten Kodes beschrieben. Vergleiche die Veröffentlichung der oben genannten Autoren mit dem Titel "Pitch Orthogonal Code- Excited LPC", Globecom 90, Vol. 1, S. 542-546.
  • Schließlich haben R. Drogo De Iacovo und D. Sereno einen modifizierten Kodierer des Typs CELP beschrieben, der es erlaubt, eingebettete Kodes zu erhalten, oder der das Anregungssignal des LPC-Analysefilters durch eine Summe verschiedener Beiträge modelliert und der nur den ersten von ihnen für die Aktualisierung des Speichers des Synthesefilters verwendet, vergleiche die Veröffentlichung dieser Autoren "Embedded CELP Coding for Variable Bit-Rate Between 6.4 and 9.6 kbit/s" ICASSP 91 Vol. 1, S. 681-684.
  • Die oben genannten prädiktiven Transformationskodierer des Stands der Technik erlauben es nicht, Daten zu übertragen, und können daher nicht die Funktion des Kodierers mit eingebetteten Kodes erfüllen. Ferner verwenden die Kodierer mit eingebetteten Kodes des Stands der Technik nicht die Technik der orthonormierten Transformation, wodurch es nicht möglich ist, eine optimale Transformationskodierung anzustreben oder zu erreichen.
  • Die vorliegende Erfindung hat das Ziel, den oben genannten Nachteil durch die Bereitstellung eines Systems zur prädiktiven Kodierung-Dekodierung eines digitalen Sprachsignals mittels adaptiver Transformation mit eingebetteten Kodes zu beseitigen.
  • Ein anderes Ziel der vorliegenden Erfindung ist die Bereitstellung eines Systems zur prädiktiven Kodierung- Dekodierung eines digitalen Sprachsignals und von Daten, um eine Übertragung bei verringerten und flexiblen Raten zu erlauben.
  • Das erfindungsgemäße System zur prädiktiven Kodierung eines digitalen Signals in ein digitales Signal mit eingebetteten Kodes, wobei das kodierte digitale Signal aus einem kodierten Sprachsignal und gegebenenfalls aus einem Hilfsdatensignal gebildet ist, welches in das kodierte Sprachsignal nach Kodierung des letztgenannten eingefügt wird, enthält einen Wahrnehmungsbewertungsfilter, welcher durch eine die Erzeugung eines Wahrnehmungssignals erlaubende Kurzzeit- Prädiktionsschleife gesteuert wird, und einen ein geschätztes Wahrnehmungssignal liefernden Langzeit-Prädiktionskreis, wobei dieser Langzeit-Prädiktionskreis eine Langzeit- Prädiktionsschleife bildet, die es erlaubt, vom Wahrnehmungssignal und vom geschätzten vergangenen Anregungssignal ausgehend ein modelliertes Wahrnehmungsanregungssignal zu liefern, und enthält Kreise zur adaptiven Transformation und Quantisierung, die es erlauben, vom Wahrnehmungsanregungssignal ausgehend das kodierte Sprachsignal zu erzeugen.
  • Es ist dadurch ausgezeichnet, daß der Wahrnehmungsbewertungsfilter aus einem Kurzzeit- Prädiktionsfilter für das zu kodierende Sprachsignal besteht, um eine Frequenzverteilung des Quantisierungsrauschens zu bewirken, daß es einen Kreis zur Subtraktion des Beitrags des vergangenen Anregungssignals vom Wahrnehmungssignal umfaßt, um ein aktualisiertes Wahrnehmungssignal zu liefern, daß der Langzeit-Prädiktionskreis als geschlossene Schleife ausgehend von einem Verzeichnis ausgebildet ist, welches durch die der geringsten Rate entsprechende modellierte vergangene Anregung aktualisiert wird, was es erlaubt, eine optimale Wellenform und eine geschätzte mit dieser verbundene Verstärkung zu liefern, welche wesentlich sind für das geschätzte Wahrnehmungssignal. Der Transformationskreis ist durch ein Modul zur orthonormierten Transformation gebildet, das ein Modul zur adaptiven orthogonalen Transformation und ein Modul zum progressiven Modellieren mittels orthogonaler Vektoren umfaßt. Das Modul zum progressiven Modellieren und der Langzeit-Prädiktionskreis erlauben es, für das kodierte Sprachsignal repräsentative Indizes zu liefern. Ein Kreis zum Einfügen von Hilfsdaten ist an den Übertragungskanal angehängt.
  • Das System zur prädiktiven Dekodierung mittels adaptiver Transformation eines kodierten digitalen Signals mit eingebetteten Kodes, wobei das kodierte digitale Signal aus einem kodierten digitalen Signal und gegebenenfalls aus einem Hilfsdatensignal gebildet ist, welches in das kodierte Sprachsignal nach Kodierung dieses letztgenannten eingefügt wird, ist dadurch ausgezeichnet, daß es einen Kreis zum Auslesen des Datensignals umfaßt, der einerseits das Auslesen der Daten in Hinsicht auf eine Hilfsnutzung und andererseits die Übertragung der repräsentativen Indizes des kodierten Sprachsignals erlaubt. Es umfaßt ferner einen Kreis zum Modellieren des Sprachsignals bei minimaler Rate und einen Kreis zum Modellieren des Sprachsignals bei wenigstens einer Rate, die höher als die minimale Rate ist.
  • Das erfindungsgemäße System zur prädiktiven Kodierung- Dekodierung eines digitalen Sprachsignals mittels adaptiver Transformation mit eingebetteten Kodes findet allgemein Verwendung bei der Übertragung von Sprache und von Daten bei flexiblen Raten und insbesondere bei audiovisuellen Konferenzprotokollen, beim Bildtelefon, beim Telefonieren mit Lautsprechern, beim Speichern und beim Transport audiodigitaler Signale über Weitverkehrsverbindungen, und auf die Übertragung mit mobilen Systemen und mit Systemen mit Kanalkonzentration.
  • Eine detailliertere Beschreibung des erfindungsgemäßen Kodier-Dekodiersystems wird anschließend in Verbindung mit den Zeichnungen gegeben werden, in denen, über die Fig. 1 hinaus, die sich auf den Stand der Technik betreffend einen prädiktiven Transformationskodierer bezieht,
  • - Fig. 2 ein prinzipielles Schema des erfindungsgemäßen Systems zur prädiktiven Kodierung eines Sprachsignals mittels adaptiver Transformation mit eingebetteten Kodes darstellt,
  • - Fig. 3 ein Ausführungsdetail eines Langzeit- Prädiktionsmoduls als geschlossene Schleife darstellt, welches in dem in Fig. 2 dargestellten Kodiersystem verwendet wird,
  • - die Fig. 4a und 4b ein Teilschema eines prädiktiven Transformationskodierers und ein dem Teilschema der Fig. 4a äquivalentes Schema darstellen,
  • - Fig. 5a ein Flußdiagramm eines durch Erlernen konstruierten Verfahrens zur orthonormierten Transformation darstellt,
  • - Fig. 5b zwei Vergleichsdiagramme der normierten Verstärkungswerte darstellt, die durch Zerlegung in singuläre Werte bzw. durch Erlernen erhalten wurden,
  • - die Fig. 6a und 6b schematisch das auf das Wahrnehmungssignal angewandte Verfahren zur Householder- Transformation darstellen,
  • - Fig. 7 ein Modul zur adaptiven Transformation darstellt, welches eine Householder-Transformation durchführt,
  • - Fig. 8a ein normiertes Verstärkungskriterium als Funktion der Anzahl der Komponenten des Verstärkungsvektors zum Zweck der Zerlegung in singuläre Werte bzw. der Konstruktion durch Erlernen darstellt,
  • - Fig. 8b ein prinzipielles Schema der vielstufigen vektoriellen Quantisierung darstellt, in welchem der Verstärkungsvektor durch Linearkombination von aus stochastischen Verzeichnissen hervorgegangenen Vektoren erhalten wird,
  • - Fig. 9 eine geometrische Darstellung der Projektion des Verstärkungsvektors G in einen Unterraum von aus stochastischen Verzeichnissen hervorgegangenen Vektoren ist,
  • - die Fig. 10a und 10b das prinzipielle Schema eines Verfahrens zur vektoriellen Quantisierung der Verstärkung durch progressive orthogonale Modellierung darstellen, entsprechend einer optimalen Projektion dieses in Fig. 9 dargestellten Verstärkungsvektors, im Falle eines einzigen bzw. mehrerer stochastischer Verzeichnisse,
  • - Fig. 11 eine Ausführungsart der Modellierung der der geringsten Rate entsprechenden Anregung des Synthesefilters darstellt,
  • - Fig. 12 ein prinzipielles Schema eines erfindungsgemäßen Systems zur prädiktiven Dekodierung eines Sprachsignals mittels adaptiver Transformation mit eingebetteten Kodes darstellt,
  • - Fig. 13a ein prinzipielles Schema eines Moduls zum Modellieren des Sprachsignals bei der geringsten Rate darstellt,
  • - Fig. 13b eine Ausführungsart eines Moduls zur inversen orthonormierten Transformation darstellt,
  • - Fig. 14a ein Schema eines Moduls zur Modellierung des Sprachsignals bei anderen Raten als der geringsten Rate darstellt,
  • - Fig. 14b ein zu dem in Fig. 14a dargestellten Modul zur Modellierung äquivalentes Schema darstellt,
  • - Fig. 15 die Bereitstellung eines adaptiven Filters zur Nachfilterung darstellt, der dazu bestimmt ist, die Wahrnehmungsqualität des Synthese-Sprachsignals n zu verbessern.
  • Eine detailliertere Beschreibung eines Systems zur prädiktiven Kodierung eines digitalen Sprachsignals mittels adaptiver Transformation in ein digitales Signal mit eingebetteten Kodes wird nun in Verbindung mit Fig. 2 und den folgenden Figuren gegeben werden.
  • Man beachte allgemein, daß das durch die Benutzung des erfindungsgemäßen Kodiersystems kodierte digitale Signal aus einem kodierten Sprachsignal und gegebenenfalls aus einem Hilfsdatensignal gebildet ist, welches nach der Kodierung des digitalen Sprachsignals in das kodierte Sprachsignal eingefügt wird.
  • Selbstverständlich kann das erfindungsgemäße Kodiersystem ausgehend von einem Transducer, der das analoge Sprachsignal liefert, einen Analog-Digital-Wandler und einen Eingangs- Speicherkreis oder Eingangspuffer umfassen, die es erlauben, das zu kodierende digitale Signal Sn zu liefern.
  • Das erfindungsgemäße Kodiersystem umfaßt ebenfalls einen Wahrnehmungsbewertungsfilter 11, welcher durch eine die Erzeugung eines als n bezeichneten Wahrnehmungssignals erlaubende Kurzzeit-Prädiktionsschleife gesteuert wird.
  • Es umfaßt ebenfalls einen Langzeit-Prädiktionskreis, als 13 bezeichnet, der ein geschätztes Wahrnehmungssignal liefert, das als 1n bezeichnet ist.
  • Der Langzeit-Prädiktionskreis 13 bildet eine Langzeit- Prädiktionsschleife, die es erlaubt, vom Wahrnehmungssignal und vom geschätzten vergangenen Anregungssignal, als 0n bezeichnet, ausgehend ein modelliertes Wahrnehmungsanregungssignal zu liefern.
  • Das erfindungsgemäße, in Fig. 2 dargestellte Kodiersystem umfaßt ferner einen Kreis zur adaptiven Transformation und Quantisierung, der es erlaubt, vom Wahrnehmungsanregungssignal Pn ausgehend das kodierte Sprachsignal zu erzeugen, wie im folgenden in der Beschreibung beschrieben wird.
  • Gemäß einem ersten, besonders vorteilhaften Aspekt des erfindungsgemäßen Kodiersystems besteht der Wahrnehmungsbewertungsfilter 11 aus einem Kurzzeit- Prädiktionsfilter für das zu kodierende Sprachsignal, um eine Frequenzverteilung des Quantisierungsrauschens zu bewirken. Während der Wahrnehmungsbewertungsfilter 11 das Wahrnehmungssignal n liefert, umfaßt die erfindungsgemäße Kodiervorrichtung, wie in der gleichen Fig. 2 gezeigt, einen Kreis 120 zur Subtraktion des Beitrags des vergangenen Anregungssignals 0n vom Wahrnehmungssignal, um ein aktualisiertes Wahrnehmungssignal zu liefern, welches aktualisierte Wahrnehmungssignal als Pn bezeichnet wird.
  • Gemäß einer anderen besonders vorteilhaften Eigenschaft der erfindungsgemäßen Kodiervorrichtung ist der Langzeit- Prädiktionskreis 13 als geschlossene Schleife ausgehend von einem Verzeichnis ausgebildet, welches durch die der geringsten Rate entsprechende modellierte vergangene Anregung aktualisiert wird, wodurch dieses Verzeichnis erlaubt, eine optimale Wellenform und eine geschätzte, mit dieser verbundene Verstärkung zu liefern. In Fig. 2 ist die der geringsten Rate entsprechende modellierte vergangene Anregung als 1n bezeichnet. Man beachte ferner, daß die optimale Wellenform und die geschätzte, mit dieser verbundene Verstärkung wesentlich sind für das geschätzte Wahrnehmungssignal 1n, welches vom Langzeit-Prädiktionskreis 13 geliefert wird.
  • Gemäß einer anderen Eigenschaft des erfindungsgemäßen Kodiersystems ist, wie in Fig. 2 dargestellt, der Transformationsmodulkreis, genannt MT, durch ein Modul zur orthonormierten Transformation 14 gebildet, welches genau gesagt ein Modul zur adaptiven orthogonalen Transformation und ein Modul zum progressiven Modellieren mittels orthogonaler Vektoren, als 16 bezeichnet, umfaßt.
  • Gemäß einem besonders vorteilhaften Aspekt des erfindungsgemäßen Kodiersystems erlauben es das Modul zum progressiven Modellieren 16 und der Langzeit-Prädiktionskreis 13, für das kodierte Sprachsignal repräsentative Indizes zu liefern, welche Indizes in Fig. 2 als i(0), j(0) bzw. i(l), j(l) mit l [1,L] bezeichnet sind.
  • Schließlich umfaßt das erfindungsgemäße Kodiersystem ferner einen Kreis 19 zum Einfügen von Hilfsdaten, welcher an den als 18 bezeichneten Übertragungskanal angehängt ist.
  • Die Funktionsweise der erfindungsgemäßen Kodiervorrichtung kann auf die nachfolgende Weise erläutert werden.
  • Wie oben angegeben, versucht man, ein synthetisches Signal n wieder herzustellen, welches in der Wahrnehmung dem zu kodierenden digitalen Signal Sn möglichst ähnlich ist.
  • Das synthetische Signal n ist selbstverständlich das beim Empfang, d. h. im Bereich der Dekodierung nach der Übertragung wiederhergestellte Signal, wie weiter unten in der Beschreibung beschrieben werden wird.
  • Eine Kurzzeit-Prädiktionsanalyse, die durch den Analysekreis 10 vom Typ LPC für "Linear Predictive Coding" und durch den Wahrnehmungsbewertungsfilter 11 gebildet ist, wird für das zu kodierende digitale Signal mittels einer klassischen Prädiktionstechnik auf Fenstern mit beispielsweise M Proben durchgeführt. Der Analysekreis 10 liefert dann die Koeffizienten ai, wobei die genannten Koeffizienten ai die Koeffizienten der linearen Prädiktion sind.
  • Das zu kodierende Sprachsignal Sn wird anschließend durch den Wahrnehmungsbewertungsfilter 11 als Transferfunktion W(z) gefiltert, was es genau gesagt erlaubt, das als n bezeichnete Wahrnehmungssignal zu liefern.
  • Die Koeffizienten des Wahrnehmungsbewertungsfilters werden ausgehend von einer Kurzzeit-Prädiktionsanalyse auf den ersten Korrelationskoeffizienten der Folge von Koeffizienten ai des Analysefilters A(z) des Kreises 10 für das momentane Fenster erhalten. Diese Operation erlaubt es, eine gute Frequenzverteilung des Quantisierungsrauschens zu realisieren. Tatsächlich toleriert das gelieferte Wahrnehmungssignal ein höheres Kodierrauschen in Bereichen hoher Energien, wo das Rauschen weniger hörbar ist, da es in der Frequenz vom Signal überdeckt ist. Man beachte, daß die Operation der Wahrnehmungsfilterung sich in zwei Abschnitte unterteilt, wobei das zu kodierende digitale Signal Sn ein erstes Mal durch den vom Analysekreis gebildeten Filter gefiltert wird, um das zu modellierende Residuum zu erhalten, anschließend ein zweites Mal durch den Wahrnehmungsbewertungsfilter 11, um das Wahrnehmungssignal n zu liefern.
  • Im Prozeß des Betriebs der erfindungsgemäßen Kodiervorrichtung besteht die zweite Operation darin, anschließend den Beitrag der vergangenen Anregung, oder des geschätzten vergangenen Anregungssignals, genannt 0n, vom genannten Wahrnehmungssignal abzuziehen. Tatsächlich zeigt man, daß:
  • In dieser Relation ist hn die Impulsantwort der vom Kreis 10 und vom Wahrnehmungsbewertungsfilter 11 im momentanen Fenster durchgeführten Doppelfilterung und 1n ist die der geringsten Rate entsprechende modellierte vergangene Anregung, wie weiter unten in der Beschreibung beschrieben werden wird.
  • Die Arbeitsweise des Langzeit-Prädiktionskreises 13 als geschlossene Schleife ist anschließend wie folgt. Dieser Kreis erlaubt es, die Periodizität des Residuums für die Schallgeräusche zu berücksichtigen, wobei diese Langzeit- Prädiktion auf allen Unterfenstern von N Proben durchgeführt wird, wie in Verbindung mit Fig. 3 beschrieben werden wird.
  • Der als geschlossene Schleife ausgelegte Langzeit- Prädiktionskreis 13 umfaßt eine erste Stufe, die durch ein adaptives Verzeichnis 130 gebildet ist, welches bei allen oben genannten Unterfenstern durch die vom weiter unten in der Beschreibung beschriebenen Modul 17 gelieferte, als 1n bezeichnete modellierte Anregung wieder auf den neuesten Stand gebracht wird. Das adaptive Verzeichnis 130 erlaubt die Minimierung des Fehlers
  • hinsichtlich der zwei Parameter g&sub0; und q.
  • Eine solche Operation entspricht im Frequenzbereich einer Filterung durch den Transferfunktionsfilter:
  • Diese Operation ist einer Suche nach der optimalen Wellenform fj(0) und ihrer zugeordneten Verstärkung g&sub0; in einem vernünftig konstruierten Verzeichnis äquivalent. Vergleiche den von R. Rose und T. Barnwell veröffentlichten Artikel mit dem Titel "Design and Performance of an Analysis by Synthesis Class of Predictive Speech Coders", IEEE Trans. on Acoustic Speech Signal Processing, September 1990.
  • Die Form der Welle mit dem Index j,
  • die aus dem adaptiven Verzeichnis hervorgegangen ist, wird durch einen Filter 131 gefiltert und entspricht der Anregung, die bei der durch den genannten Filter um q Proben verzögerten niedrigsten Rate 1n modelliert ist. Die optimale Wellenform f1n wird durch das adaptive gefilterte Verzeichnis 133 geliefert.
  • Ein Modul 132 zur Berechnung und Quantisierung der Prädiktionsverstärkung erlaubt es, ausgehend vom Wahrnehmungssignal Pn und von der Gesamtheit der Wellenformen fj(0)n, eine Quantisierungsberechnung der Prädiktionsverstärkung durchzuführen und einen für die Nummer des Quantisierungsbereichs repräsentativen Index i(0) ebenso wie seine zugeordnete quantisierte Verstärkung g(0) zu liefern.
  • Ein Multiplikatorkreis 134 liefert ausgehend vom gefilterten adaptiven Verzeichnis 133, d. h. vom Ergebnis der Filterung der Wellenform mit dem Index j Cjn, oder fjn, und ausgehend von der zugeordneten quantisierten Verstärkung g(0) die modellierte und Wahrnehmungs-gefilterte Langzeit- Prädiktionsanregung 1n.
  • Ein Subtraktionskreis 135 erlaubt anschließend, eine Minimierung bezüglich en = Pn - 1n durchzuführen, wobei dieser Ausdruck das Fehlersignal repräsentiert. Ein Modul 136 erlaubt die Berechnung der Euklidischen Norm en ².
  • Ein Modul 137 erlaubt es, die dem minimalen Wert der genannten Euklidischen Norm entsprechende optimale Wellenform zu suchen und den Index j(0) zu liefern. Die vom erfindungsgemäßen Kodiersystem für die Modellierung des Langzeit-Prädiktionssignals übertragenen Parameter sind dann der Index j(0) der optimalen Wellenform fj(0) sowie die Nummer i(0) des Quantisierungsbereichs ihrer quantisierten zugeordneten Verstärkung g(0).
  • Eine detailliertere Beschreibung des Moduls zur adaptiven orthogonalen Transformation MT in Fig. 2 wird in Verbindung mit den Fig. 4a und 4b gegeben werden.
  • Im Rahmen der Benutzung des erfindungsgemäßen Systems zur prädiktiven Kodierung mittels orthonormierter Transformation entspricht die für die Konstruktion dieser Transformation verwendete Methode der von B. S. Atal und E. Ofer vorgeschlagenen, wie im vorhergehenden in der Beschreibung erwähnt.
  • Gemäß der Ausführungsform des erfindungsgemäßen Kodiersystems besteht dieses darin, nicht die Kurzzeitprädiktions- Filtermatrix zu zerlegen, sondern die Wahrnehmungsbewertungsmatrix W, die durch eine untere Toeplitz-Dreiecksmatrix gebildet ist, welche durch die Relation (4) definiert ist:
  • In dieser Relation bezeichnet w(n) die Impulsantwort des Wahrnehmungsbewertungsfilters W(z) des erwähnten momentanen Fensters.
  • In Fig. 4a ist das Teilschema eines prädiktiven Transformationskodierers und in Fig. 4b das äquivalente Schema dargestellt, in welchem die Matrix oder der Wahrnehmungsbewertungsfilter W, als 140 bezeichnet, hervorgehoben ist, wobei allerdings ein inverser Wahrnehmungsbewertungsfilter 121 zwischen dem Langzeit- Prädiktionsmodul 13 und dem Substraktionskreis 120 eingefügt worden ist. Man beachte, daß der Filter 140 eine Linearkombination der Basisvektoren durchführt, die ausgehend von einer Zerlegung der darstellenden Matrix des Wahrnehmungsbewertungsfilters W in singuläre Werte erhalten worden sind.
  • Wie in Fig. 4b gezeigt, ist das Signal S', entsprechend dem zu kodierenden Sprachsignal Sn, von dem der vom Modul 12 gelieferte Beitrag der vergangenen Anregung sowie jener der von einem inversen Wahrnehmungsbewertungsmodul mit Transferfunktion (W(z))&supmin;¹ gefilterten Langzeitprädiktion 1n subtrahiert worden sind, durch den Wahrnehmungsbewertungsfilter mit Transferfunktion W(z) gefiltert, um den Vektor P' zu erhalten. Diese Filteroperation schreibt sich:
  • P' = WS'
  • und kann ausgedrückt werden als eine Linearkombination von Basisvektoren unter Verwendung der Zerlegung der Matrix W in singuläre Werte.
  • Bezüglich der Ausführungsform des Wahrnehmungsbewertungsfilters 140 beachte man, daß dieser für jede darstellende Matrix W des Wahrnehmungsbewertungsfilters ein erstes Matrixmodul U = (U&sub1;, ..., UN) und ein zweites Matrixmodul V = (V&sub1;, ..., VN) umfaßt. Das erste und das zweite Matrixmodul erfüllen die Relation:
  • UTWV = D
  • in welcher Relation:
  • - UT das transponierte Matrixmodul des Moduls U bezeichnet,
  • - D ein diagonales Matrixmodul ist, dessen Koeffizienten die genannten singulären Werte bilden,
  • - Ui und Vj den i-ten singulären linken Vektor bzw. den j- ten singulären rechten Vektor bezeichnen, wobei die singulären rechten Vektoren {Vj} eine Orthonormalbasis bilden.
  • Eine solche Zerlegung erlaubt es, den Vorgang der Filterung mittels Faltungsprodukt durch einen Vorgang der Filterung mittels einer Linearkombination zu ersetzen.
  • Man beachte, daß die Zerlegung der Wahrnehmungsfilterungsmatrix W in singuläre Werte es erlaubt, die beiden unitären Matrizen U und V zu erhalten, die die obige Relation erfüllen, worin
  • UTWV = diag(d&sub1;, ..., dN)
  • mit der Ordnungseigenschaft di &ge; di+1 > 0. Die Elemente di werden singuläre Werte genannt und die Vektoren Ui und Vj i- ter singulärer linker Vektor bzw. j-ter singulärer rechter Vektor.
  • Die Matrix W läßt sich dann in eine Summe von Matrizen mit Rang l zerlegen und erfüllt die Relation:
  • Da die Matrix V unitär ist, bilden die singulären rechten Vektoren {Vi} eine Orthonormalbasis, und das Signal S', ausgedrückt in der Form:
  • erlaubt es, den Vektor P' zu erhalten, der die Relation erfüllt:
  • Man beachte, daß durch das Verfahren zur Zerlegung in singuläre Werte eine Veränderung in einer Komponente der Anregung S', die einem kleinen singulären Wert zugeordnet ist, eine kleine Änderung am Ausgang des Filters 140 erzeugt und umgekehrt für die Operation der inversen Wahrnehmungsfilterung, die durch das Modul 121 ausgeführt wird.
  • Um diese Eigenschaften auszunützen, kann die unitäre Matrix U als orthonormierte Transformation verwendet werden, welche die Relation erfüllt:
  • F = [f1orth, ..., fNorth], (8) d. h.:
  • fiorth = Ui für i = 1 bis N.
  • Das bewertete Wahrnehmungssignal P' wird anschließend auf die folgende Weise zerlegt:
  • G = UTP'. (9)
  • Nach vektorieller Quantisierung der Verstärkungen G wird das modellierte bewertete Wahrnehmungssignal P auf folgende Weise berechnet:
  • Man beachte, daß die singulären linken Vektoren, die den größten singulären Werten zugeordnet sind, eine entscheidende Rolle bei der Modellierung des bewerteten Wahrnehmungssignals P' spielen. Um dieses letztere zu modellieren, ist es folglich möglich, nur die den K größten singulären Werten zugeordneten Komponenten zu behalten, K < N, d. h. die K ersten Komponenten des Verstärkungsvektors G, die die Relation erfüllen:
  • G = (g&sub1;, g&sub2; ... gK, 0, ... 0). (11)
  • Da der Kurzzeit-Analysefilterkreis 10 auf Fenstern mit M Proben aktualisiert wird, erfolgt die Zerlegung der Wahrnehmungsbewertungsmatrix W in singuläre Werte mit der gleichen Frequenz.
  • Eine schnelle Behandlung erlaubende Verfahren zur Zerlegung einer beliebigen Matrix in singuläre Werte sind entwickelt worden, aber die Rechnungen bleiben verhältnismäßig kompliziert.
  • Um die genannten Behandlungsvorgänge zu vereinfachen, wird gemäß einem Ziel der vorliegenden Erfindung vorgeschlagen, eine feste suboptimale orthonormierte Transformation zu konstruieren, welche dennoch gute Wahrnehmungseigenschaften besitzt, unabhängig vom momentanen Fenster.
  • In einer ersten, in Fig. 5 dargestellten Ausführungsform wird das Verfahren der orthonormierten Transformation durch Erlernen konstruiert. In einem solchen Fall kann das Modul zur orthonormierten Transformation aus einem zur Initialisierung durch Ziehung einer Gauss'schen Zufallsvariablen gebildeten Submodul zur stochastischen Transformation aufgebaut sein, wobei dieses Submodul in Fig. 5 die Verfahrensschritte 1000, 1001, 1002 und 1003 umfaßt und als SMTS bezeichnet ist. Der Abschnitt 1002 kann aus der Anwendung des Algorithmus des K-Mittels auf den genannten Vektorkörper bestehen.
  • Auf das Submodul SMTS folgen nacheinander ein Modul 1004 zur Konstruktion der Mitten, ein Modul 1005 zur Konstruktion der Klassen und, um einen Vektor G zu erhalten, dessen Komponenten relativ zueinander geordnet sind, ein Modul 1006 zur Neuanordnung der Transformation gemäß der Kardinalzahl jeder Klasse.
  • Auf das genannte Modul 1006 folgt ein Modul 1007a zur Berechnung nach Gram-Schmidt, um eine orthonormierte Transformation zu erhalten. Dem genannten Modul 1007a ist ein Modul 1007b zur Berechnung des Fehlers unter den klassischen Umständen der Benutzung des Verfahrens der Behandlung nach Gram-Schmidt zugeordnet.
  • Auf das Modul 1007a wiederum folgt ein Modul 1008 zum Testen der Zahl der Iterationen, um es zu ermöglichen, eine orthonormierte Transformation zu erhalten, die außerhalb der Reihe durch Erlernen ausgeführt ist. Schließlich erlaubt der Speicher 1009 vom Typ Lesespeicher, die orthonormierte Transformation in Gestalt transformierter Vektoren zu speichern. Man beachte, daß die relative Ordnung der Komponenten des Verstärkungsvektors G zueinander durch das Verfahren der Orthogonalisation hervorgehoben wird. Wenn das Verfahren der Konstruktion durch Erlernen konvergiert ist, erhält man eine orthonormierte Transformation, deren Wellenformen schrittweise korreliert sind mit dem Lernkörper der vom Abschnitt 1001 der Anfangstransformation gelieferten Vektoren.
  • Fig. 5b zeigt die Anordnung der Komponenten des Verstärkungsvektors G, d. h. des normierten mittleren Werts G für eine Transformation, die einerseits durch Zerlegung der Wahrnehmungsbewertungsmatrix W in singuläre Werte und andererseits durch Erlernen erhalten ist. Die Transformation F ist durch diese letztgenannte Methode für die orthonormierten Wellenformen erhalten, deren Frequenzspektren Bandpässe und relativ zueinander als Funktion von k geordnet sind, was es erlaubt, dieser Transformation Pseudo- Frequenzeigenschaften zuzuweisen. Eine Auswertung der Qualität der Transformation, ausgedrückt als Energiekonzentration, hat es erlaubt zu zeigen, daß beispielsweise auf einem Körper von 38.000 Wahrnehmungsvektoren P' die Transformationsverstärkung 10,35 Dezibel für die optimale Transformation nach Karhunen-Loeve und 10,29 Dezibel für eine durch Erlernen konstruierte Transformation beträgt, so daß die letztere also hinsichtlich der Energiekonzentration der optimalen Transformation nahekommt.
  • Wie in der Beschreibung vorstehend erwähnt, kann die orthonormierte Transformation F auf zwei verschiedene Methoden erhalten werden.
  • Berücksichtigt man, daß allgemein die am stärksten mit dem Wahrnehmungssignal P korrelierte Wellenform jene ist, die aus dem adaptiven Verzeichnis ausgegeben ist, so kann man die Durchführung einer adaptiven orthonormierten Transformation F' vorsehen, bei der f'1orth gleich der optimalen Wellenform ist, die aus dem normierten adaptiven Verzeichnis fj(0) ausgegeben ist, wobei die erste Komponente des Verstärkungsvektors G folglich gleich der normierten Langzeit-Prädiktionsverstärkung g(0) ist, welche nicht erneut berechnet werden muß, da sie bei dieser Prädiktion quantisiert worden ist. Die neue Dimension des Verstärkungsvektors G beträgt dann N-1, was es erlaubt, die Zahl binärer Elemente pro Probe bei seiner vektoriellen Quantisierung und somit die Qualität seiner Modellierung zu erhöhen.
  • Eine erste Lösung zur Berechnung der Transformation F' kann dann darin bestehen, eine Langzeit-Prädiktionsanalyse vorzunehmen, die durch Erlernen erhaltene Transformation um eine Stufe zu verschieben, den Langzeitprädiktor an die erste Position zu stellen und dann den Algorithmus nach Gram- Schmidt anzuwenden, um eine neue Transformation F' zu erhalten.
  • Eine zweite, vorteilhaftere Lösung besteht darin, eine Transformation zu verwenden, die es erlaubt, die Orthonormalbasis zu drehen, damit die erste Wellenform mit dem Langzeitprädiktor zusammenfällt, d. h.:
  • F' = TF
  • mit
  • Um die Eigenschaft der Orthogonalität zu erhalten, muß die verwendete Transformation das Skalarprodukt erhalten. Eine besonders geeignete Transformation ist die Householder- Transformation, die die Relation erfüllt:
  • mit
  • B = fj(0) - fj(0) - f1orth. (13)
  • Eine geometrische Darstellung der genannten Transformation ist in den Fig. 6a und 6b gegeben.
  • Für eine detailliertere Definition dieses Transformationstyps wird auf die Veröffentlichung von Alan O. Steinhardt mit dem Titel "Householder Transforms in Signal Processing" IEEE ASSP Magazine, Juli 1988, S. 4-12 verwiesen.
  • Durch Verwendung dieser Transformation kann man die Komplexität der Berechnungen verringern und die Projektion des Wahrnehmungssignals P in dieser neuen Basis lautet:
  • G = F'TP = FTTP = FTP" (14)
  • mit P' = TP = (P - B [wBTP]).
  • In dieser Relation bezeichnet w einen Skalar w = 2/BTB.
  • Man beachte, daß bei dieser Ausführungsform der orthonormierten Transformation die Transformation nur auf das Wahrnehmungssignal P angewandt wird, und daß das modellierte Wahrnehmungssignal dann durch die inverse Transformation berechnet werden kann.
  • Eine besonders vorteilhafte Ausführungsform des Moduls zur orthonormierten Transformation 14 im Fall der Verwendung einer Householder-Transformation wird nun in Verbindung mit Fig. 7 beschrieben werden.
  • Wie in der genannten Fig. 7 dargestellt, kann das adaptive Transformationsmodul ein Householder-Transformationsmodul 140 umfassen, welches das aus der optimalen Wellenform und der geschätzten Verstärkung gebildete geschätzte Wahrnehmungssignal und das Wahrnehmungssignal P empfängt, um ein transformiertes Wahrnehmungssignal P" zu erzeugen. Man beachte, daß das Householder-Transformationsmodul 140 ein Modul 1401 zur Berechnung der vorstehend in der Relation 13 definierten Parameter B und wB umfaßt. Es umfaßt ebenfalls ein Modul 1402, welches einen Multiplikator und einen Subtrahierer umfaßt, die genau gesagt die Durchführung der Transformation nach Relation 14 erlauben. Man beachte, daß das transformierte Wahrnehmungssignal P" in Gestalt eines Vektors des transformierten Wahrnehmungssignals mit Komponenten P"k mit k [0, N - 1] geliefert wird.
  • Das in Fig. 7 gezeigte adaptive Transformationsmodul 14 umfaßt ebenfalls eine Mehrzahl N von Registern zur Speicherung der orthonormierten Wellenformen, wobei das momentane Register als r mit r [1, N] bezeichnet ist. Man beachte, daß die genannten N Register zur Speicherung den vorstehend in der Beschreibung beschriebenen Lesespeicher bilden, jedes Register N Speicherzellen umfaßt und jede als f1orth(k) bezeichnete Komponente vom Rang k jedes Vektors in einer Zelle entsprechenden Rangs des betrachteten momentanen Registers r gespeichert ist.
  • Wie man in Fig. 7 beobachtet, umfaßt das Modul 14 ferner eine die Mehrzahl der vorstehend genannten Speicherregister bildende Mehrzahl von N jedem Register vom Rang r zugeordneten Multiplikatorkreisen. Ferner empfängt jedes Multiplikatorregister vom Rang k einerseits die Komponente vom Rang k des gespeicherten Vektors und andererseits die Komponente P"k des Vektors des transformierten Wahrnehmungssignals vom entsprechenden Rang k. Der Multiplikatorkreis Mrk liefert das Produkt P"k · fkorth(k) der Komponenten des transformierten Wahrnehmungssignals.
  • Schließlich ist eine Mehrzahl von N - 1 Summierkreisen jedem Register vom Rang r zugeordnet, wobei jeder Summierkreis vom Rang k, als Srk bezeichnet, das Produkt des vorhergehenden Rangs k - 1 und das durch den Multiplikatorkreis Mrk des gleichen Rangs k gelieferte Produkt des entsprechenden Rangs k empfängt. Der Summierkreis des höchsten Rangs, SrN - 1, liefert dann eine in Gestalt des Verstärkungsvektors G ausgedrückte Komponente g(r) der geschätzten Verstärkung.
  • Man beachte, daß das System zur prädiktiven Kodierung unter Verwendung der adaptiven orthonormierten Transformation, die durch Erlernen konstruiert ist, zur Abgabe besserer Ergebnisse geeignet ist, während die Householder- Transformation erlaubt, eine geringere Komplexität zu erhalten.
  • Wie man in Fig. 2 beobachten wird, umfaßt das Modul zum progressiven Modellieren mittels orthogonaler Vektoren tatsächlich ein Modul 15 zur Normierung des Verstärkungsvektors, um mittels Vergleichs des normierten Werts des Verstärkungsvektors G hinsichtlich eines Schwellenwerts einen normierten Verstärkungsvektor Gk zu erzeugen. Dieses Modul zur Normierung 15 erlaubt es, als Funktion des Grads des Modellierens ferner ein Signal von der Länge des normierten Verstärkungsvektors, der mit diesem Grad des Modellierens k verbunden ist, in Richtung des Dekodiersystems zu erzeugen.
  • Das Modul zum progressiven Modellieren mittels orthogonaler Vektoren umfaßt ferner in Kaskade mit dem Modul 15 zum Normieren des Verstärkungsvektors eine Stufe 16 zum progressiven Modellieren mittels orthogonaler Vektoren. Diese Stufe zum Modellieren 16 empfängt den normierten Vektor Gk und liefert die repräsentativen Indizes des codierten Sprachsignals, welche Indizes als I(l), J(l) bezeichnet sind, wobei diese Indizes für die ausgewählten Vektoren und ihre zugeordnete Verstärkung repräsentativ sind. Die Übertragung der durch die Indizes gebildeten Hilfsdaten wird durch Auslöschung der Teile des Rasters bewirkt, die den Indizes und Bereichsnummern zum Bilden des Hilfsdatensignals zugewiesen sind.
  • Die Funktionsweise des Moduls zur Normierung 15 ist wie folgt.
  • Die Energie des Wahrnehmungssignals, gegeben durch P' ² = G ²
  • ist für ein gegebenes Unterfenster konstant. Unter diesen Umständen ist eine Maximierung dieser Energie einer Minimierung des folgenden Ausdrucks äquivalent:
  • wobei Gk = (0, g&sub2;, g&sub3;, ..., gk, 0, ... 0).
  • Man beachte, daß bei einer solchen Operation eine weitere Methode zur Erhöhung der Zahl der binären Elemente pro Probe bei der vektoriellen Quantisierung des Vektors G darin besteht, das folgende normierte Kriterium zu verwenden, bestehend in einer Auswahl von K gemäß:
  • mit 0 &le; s &le; 1 (16)
  • Der derart erhaltene Verstärkungsvektor GK wird dann quantisiert und seine Länge k durch das erfindungsgemäße Kodiersystem übertragen, um durch das entsprechende Dekodiersystem berücksichtigt zu werden, wie nachfolgend in der Beschreibung beschrieben wird.
  • Das mittlere normierte Kriterium als Funktion des Grads des Modellierens K ist in Fig. 8a für eine orthonormierte Transformation gegeben, die einerseits durch Zerlegung der Wahrnehmungsbewertungsmatrix W in singuläre Werte und andererseits durch Erlernen erhalten ist.
  • Eine besonders vorteilhafte Ausführungsform des Moduls zum progressiven Modellieren mittels orthogonaler Vektoren 16 wird nun in Verbindung mit Fig. 8b gegeben. Das genannte Modul erlaubt tatsächlich die Durchführung einer vielstufigen vektoriellen Quantisierung.
  • Der Verstärkungsvektor wird erhalten durch Linearkombination von Vektoren, geschrieben als
  • &Psi;jk = (0, &Psi;j2, &Psi;j3, ..., &Psi;jk, 0,0 ... 0) (17)
  • Diese Vektoren sind aus stochastischen Verzeichnissen 161, 162, 16L ausgegeben, gebildet entweder durch Ziehung einer Gauss'schen Zufallsvariablen oder durch Erlernen. Der geschätzte Verstärkungsvektor erfüllt die Relation:
  • In dieser Relation ist &theta;&sub1; die Verstärkung, die dem optimalen Vektor &Psi;Kj(l) zugeordnet ist, welcher aus dem stochastischen Verzeichnis mit Rang l, als 16l bezeichnet, ausgegeben ist.
  • Allerdings sind die iterativ ausgewählten Vektoren im allgemeinen nicht linear unabhängig und bilden daher keine Basis. In diesem Fall besitzt der von den L optimalen Vektoren &Psi;Kj(L) gebildete Unterraum eine Dimension, die kleiner als L ist.
  • In Fig. 9 ist die Projektion des Vektors G auf den durch die optimalen Vektoren des Rangs l bzw. l-1 erzeugten Unterraum gezeigt, wobei diese Projektion optimal ist, wenn die genannten Vektoren orthogonal sind.
  • Es ist daher besonders vorteilhaft, das stochastische Verzeichnis des Rangs l bezüglich des optimalen Vektors der Stufe des vorhergehenden Rangs &Psi;Kj(l-1) zu orthogonalisieren.
  • Unabhängig vom optimalen Vektor des Rangs l, der aus dem neuen Verzeichnis oder Stufe des entsprechenden Rangs l ausgegeben ist, wird dieser folglich orthogonal zum optimalen Vektor &Psi;Kj(l-1) des vorhergehenden Rangs sein und man erhält:
  • In dieser Relation beachte man, daß:
  • der Energie der in Stufe l gewählten Welle entspricht, daß
  • die gegenseitige Korrelation der optimalen Vektoren des Rangs j und des Rangs j(l) darstellt, und daß
  • die Orthogonalisierungsmatrix darstellt.
  • Die vorhergehende Operation erlaubt es, den Beitrag der vorher ausgewählten Welle vom Verzeichnis abzuziehen und bewirkt somit für jeden optimalen Vektor des zwischen l+1 und L enthaltenen Rangs i eine lineare Unabhängigkeit bezüglich der optimalen Vektoren niedrigeren Rangs.
  • Prinzipielle Schemata der vektoriellen Quantisierung mittels progressiven orthogonalen Modellierens sind in den Fig. 10a und 10b gegeben, gemäß denen ein oder mehrere stochastische Verzeichnisse existieren.
  • Man beachte, daß zur Verringerung der Komplexität des Verfahrens der vektoriellen Quantisierung der modifizierte rekursive Algorithmus nach Gram-Schmidt verwendet werden kann, wie vorgeschlagen worden ist von N. Moreau, P. Dymarski, A. Vigier in der Veröffentlichung mit dem Titel: "Optimal and Suboptimal Algorithms for Selecting the Excitation in Linear Predictive Products", Proc. ICASSP 90, S. 485-488.
  • Unter Berücksichtigung der Orthogonalisierungseigenschaften zeigt man, daß:
  • Unter Berücksichtigung dieses Ausdrucks kann der modifizierte rekursive Algorithmus nach Gram-Schmidt, wie vorstehend vorgeschlagen, verwendet werden.
  • Es ist somit nicht mehr erforderlich, die Verzeichnisse bei jeder Stufe der Orthogonalisierung explizit neu zu berechnen.
  • Das genannte Berechnungsverfahren kann in Matrixform ausgedrückt werden, ausgehend von der Matrix
  • Man beachte, daß Q eine orthonormierte Matrix ist und daß R eine obere Dreiecksmatrix ist, bei der alle Elemente der Hauptdiagonalen positiv sind, was die Eindeutigkeit der Zerlegung gewährleistet.
  • Der Verstärkungsvektor G erfüllt die Matrixrelation:
  • G = Q = A&theta; = QR&theta; (25)
  • was R&theta; = impliziert.
  • Die obere Dreiecksmatrix R erlaubt somit die rekursive Berechnung der Verstärkungen &theta;(k) bezüglich der Ausgangsbasis. Der Beitrag der optimalen Vektoren zur orthonormierten Basis, als {&Psi;j(l)orth(L)} bezeichnet, beim Modellieren des Verstärkungsvektors GK neigt zum Abnehmen, und die Verstärkungen { l} sind in abnehmender Weise geordnet. Das Residuum kann auf die nachfolgende Weise schrittweise modelliert werden, wobei codk die Verstärkung bezeichnet, die dem quantisierten optimalen orthogonalen Vektor &Psi;j(k)orth(k) zugeordnet ist, unter Berücksichtigung der Relationen:
  • mit 1 &le; L&sub1; &le; L&sub2; &le; L.
  • Man erhält somit die orthogonalen Verstärkungsvektoren ¹, ² , ³, deren Beitrag beim Modellieren des Verstärkungsvektors G abnimmt, was auf wirksame Weise die schrittweise Modellierung des Residuums rn erlaubt. Die vom erfindunsgemäßen Kodiersystem für das Modellieren des Verstärkungsvektors G übertragenen Parameter sind somit die Indizes j(l) der ausgewählten Vektoren sowie die Bereichsnummern i(l) der Quantisierung ihrer zugeordneten Verstärkungen, l. Die Übertragung der Daten erfolgt somit durch Auslöschung der Teile des Rasters, die den Indizes und Bereichsnummern j(l), i(l) zugewiesen sind, mit l [L1, L2- 1] und [L2, L] gemäß den Bedürfnissen der Kommunikation.
  • Das vorstehend erwähnte Behandlungsverfahren verwendet den modifizierten rekursiven Algorithmus nach Gram-Schmidt, um den Verstärkungsvektor G zu kodieren. Da die vom erfindungsgemäßen Kodiersystem übertragenen Parameter die genannten Indizes j(0) bis j(L) der verschiedenen Verzeichnisse sowie die quantisierten Verstärkungen g(0) und { k} sind, müssen die verschiedenen genannten Verstärkungen g(0) und { k} kodiert werden. Eine Untersuchung hat gezeigt, daß die Verstärkungen bezüglich der Orthogonalbasis {&Psi;j(l)orth(L)} gute Eigenschaften für ihre Quantisierung besitzen, wenn sie dekorreliert sind. Ferner sind die Verstärkungen { l} relativ abnehmend geordnet, da der Beitrag der optimalen Vektoren beim Modellieren des Verstärkungsvektors G zur Abnahme neigt, und man kann diese Eigenschaft dadurch ausnützen, daß man nicht die genannten Verstärkungen, sondern ihr durch l/ l-1 gegebenes Verhältnis kodiert. Mehrere Lösungen können zum Kodieren der genannten Verhältnisse verwendet werden.
  • Wie man in Fig. 2 bemerken wird, umfaßt die erfindungsgemäße Kodiervorrichtung ein Modul zum Modellieren der Anregung des Synthesefilters entsprechend der niedrigsten Rate, welches Modul in der genannten Figur als 17 bezeichnet ist.
  • Das prinzipielle Schema der Berechnung des Signals der Anregung des Synthesefilters entsprechend der niedrigsten Rate ist in Fig. 11 gegeben. Eine inverse Transformation wird auf die modellierten Verstärkungsvektoren ¹ angewandt, wobei diese adaptive inverse Transformation beispielsweise einer inversen Householder-Transformation entsprechen kann, die nachfolgend in der Beschreibung in Verbindung mit der erfindungsgemäßen Dekodiervorrichtung beschrieben wird. Das nach der adaptiven inversen Transformation erhaltene Signal wird mittels eines Summierers 171 zum Langzeit- Prädiktionssignal B'1n addiert, wobei das geschätzte Wahrnehmungssignal oder Langzeit-Prädiktionssignal durch den Langzeit-Prädiktionskreis 13 in geschlossener Schleife geliefert ist. Das vom Summierer 171 gelieferte resultierende Signal wird durch einen Filter 172 gefiltert, welcher unter dem Gesichtspunkt der Transferfunktion dem Filter 131 in Fig. 3 entspricht. Der Filter 172 liefert das modellierte Residuumssignal 1n.
  • Ein System zur prädiktiven Dekodierung mittels adaptiver Transformation mit eingebetteten Kodes eines kodierten digitalen Signals, welches aus einem kodierten Sprachsignal und gegebenenfalls aus einem Hilfsdatensignal besteht, welches in das kodierte Sprachsignal nach Kodierung dieses letztgenannten eingefügt wird, wird nun in Verbindung mit Fig. 12 beschrieben.
  • Gemäß der genannten Figur umfaßt das Dekodiersystem einen Kreis 20 zum Auslesen des Datensignals, der einerseits das Auslesen der Daten in Hinsicht auf eine Hilfsnutzung durch einen Hilfsdatenausgang und andererseits die Übertragung der repräsentativen Indizes des kodierten Sprachsignals erlaubt. Man versteht selbstverständlich, daß die genannten Indizes die Indizes i(l) und j(l) sind, die für zwischen 0 und L&sub1;-1 enthaltenes l vorstehend in der Beschreibung beschrieben sind und bei denen l unter nachfolgend beschriebenen Umständen zwischen l&sub1; und L enthalten ist. Wie in Fig. 12 ferner dargestellt, umfaßt das erfindungsgemäße Dekodiersystem einen Kreis 21 zum Modellieren des Sprachsignals bei minimaler Rate sowie einen Kreis 22 oder 23 zum Modellieren des Sprachsignals bei wenigstens einer Rate, die höher als die genannte minimale Rate ist.
  • In einer in Fig. 12 dargestellten bevorzugten Ausführungsform umfaßt das erfindungsgemäße Dekodiersystem zusätzlich zum System zum Auslesen der Daten 20 ein erstes Modul 21 zum Modellieren des Sprachsignals bei minimaler Rate, welches direkt das kodierte Signal empfängt und ein erstes geschätztes Sprachsignal 1n liefert und ein zweites Modul 22 zum Modellieren des Sprachsignals bei einer mittleren Rate, welches mit dem System zum Datenauslesen 20 mit Hilfe eines Kreises 27 zur bedingten Kommutation nach dem Kriterium der reellen, dem Sprachsignal zugewiesenen Rate verbunden ist und ein zweites geschätztes Sprachsignal 2n liefert.
  • Das in Fig. 12 dargestellte Dekodiersystem umfaßt ebenfalls ein drittes Modul 23 zum Modellieren des Sprachsignals bei einer maximalen Rate, welches mit dem System zum Datenauslesen 20 mit Hilfe eines Kreises 28 zur bedingten Kommutation nach dem Kriterium der reellen, der Sprache zugewiesenen Rate verbunden ist und ein drittes geschätztes Sprachsignal 3n liefert.
  • Ferner empfängt ein Summierkreis 24 das erste, das zweite und das dritte geschätzte Sprachsignal und liefert an seinem Ausgang ein resultierendes geschätztes Sprachsignal n. Am Ausgang des Summierkreises 24 ist in Kaskade ein adaptiver Filterkreis 25 verbunden, der das resultierende geschätzte Sprachsignal n empfängt und ein wiederhergestelltes geschätztes Sprachsignal 'n liefert. Ein Digital-Analog- Wandler 26 kann vorgesehen sein, um das wiederhergestellte Sprachsignal zu empfangen und ein wiederhergestelltes Audiofrequenz-Sprachsignal zu liefern.
  • Gemäß einer besonders vorteilhaften Eigenschaft der erfindungsgemäßen Dekodiervorrichtung umfaßt jedes der Module zum Modellieren des Sprachsignals bei minimaler, mittlerer und maximaler Rate, d. h. die Module 21, 22 und 23 der Fig. 12, ein Submodul zur inversen adaptiven Transformation, auf das ein inverser Wahrnehmungsbewertungsfilter folgt.
  • Das prinzipielle Schema des Moduls zum Modellieren des Sprachsignals bei minimaler Rate ist in Fig. 13a gegeben.
  • Das erfindungsgemäße Dekodiersystem berücksichtigt allgemein die Zwangsbedingungen, die durch die Datenübertragung im Bereich des Kodiersystems und insbesondere im Bereich des adaptiven Verzeichnisses auferlegt werden, sowie den Beitrag der vergangenen Anregung.
  • Der Kreis zum Modellieren des Sprachsignals bei minimaler Rate 21 ist jenem identisch, der mit Bezug auf den Kreis 17 des erfindungsgemäßen Kodiersystems beschrieben ist, ausgehend von einem Modul zur adaptiven inversen Transformation, welches dem in Zusammenhang mit Fig. 11 beschriebenen Modul 170 ähnlich ist. Man beachte einfach, daß in Fig. 13a der Erhalt des Wahrnehmungssignals 1n ausgehend von den Indizes {i(0), j(0)}, vom Grad des Modellierens K und von den Indizes i(l), j(l) für l = 1 bis L1-1 ausgedrückt ist.
  • Eine vorteilhafte Ausführungsform der inversen adaptiven Transformation ist in Fig. 13b dargestellt. Man beachte, daß die in Fig. 13b gezeigte Ausführungsform einer Transformation vom inversen Householder-Typ entspricht, die Elemente verwendet, die der in Fig. 7 dargestellten Householder-Transformation identisch sind. Man beachte einfach, daß für ein vom Langzeit-Prädiktionskreis 13 geliefertes Wahrnehmungssignal ¹, welches in ein ähnliches Modul 140 eintritt, die jeweils im Bereich der jedem Register zugeordneten Multiplikatoren in das Modul 1402 eintretenden Signale invertiert sind. Das von dem dem Summierer 171 in Fig. 11 entsprechenden Summierer gelieferte Signal wird durch einen Filter mit einer zur Transferfunktion der Wahrnehmungsbewertungsmatrix inversen Transferfunktion gefiltert, der dem Filter 172 der gleichen Fig. 11 entspricht.
  • Die Module zum Modellieren des Sprachsignals bei mittlerer oder maximaler Rate, die Module 22 oder 23, sind in den Fig. 14a und 14b dargestellt.
  • Wie in den Fig. 14a und 14b dargestellt, ist es aus Gründen der Komplexität selbstverständlich möglich, die verschiedenen, den anderen Raten entsprechenden Modellierungen des Sprachsignals in einem einzigen Block neu zu gruppieren. Wie in Fig. 14b dargestellt, werden gemäß der der Sprache zugewiesenen reellen Rate die modellierten Verstärkungsvektoren ², ³ durch einen Summierer 220 addiert, einem adaptiven inversen Transformationsverfahren in einem zum Modul 210 der Fig. 13a identischen Modul 221 unterworfen, anschließend durch den als 222 bezeichneten, vorstehend erwähnten inversen Bewertungsfilter W&supmin;¹(z) gefiltert, wobei die Filterung von Null-Anfangszuständen ausgeht, was die Durchführung einer zur Multiplikation mit der inversen Matrix W&supmin;¹ äquivalenten Operation erlaubt, um ein progressives Modellieren des Synthesesignals n zu erhalten. Man beachte in Fig. 14b die Anwesenheit von Kommutationsvorrichtungen, die nichts anderes sind als die in Fig. 12 dargestellten Kommutationsvorrichtungen 24 und 28 und die als Funktion der reellen Rate der übertragenen Daten gesteuert werden.
  • Was schließlich den adaptiven Filter 25 betrifft, so ist eine besonders vorteilhafte Ausführungsform in Fig. 15 gegeben. Dieser adaptive Filter erlaubt die Verbesserung der Wahrnehmungsqualität des infolge der Summation durch den Summierer 24 erhaltenen Synthesesignals n. Ein solcher Filter umfaßt beispielsweise ein Langzeit-Nachfilterungsmodul 250, auf das ein Kurzzeit-Nachfilterungsmodul und ein Modul 252 zur Energiekontrolle folgen, welches durch ein Modul 253 zur Berechnung des Skalenfaktors gesteuert wird. Somit liefert der adaptive Filter 25 das gefilterte Signal 'n, welches Signal dem Signal entspricht, in dem das vom Kodierer in das synthetisierte Sprachsignal eingeführte Quantisierungsrauschen an den Stellen des Spektrums gefiltert ist, wo dies möglich ist. Man beachte, daß das in Fig. 15 dargestellte Schema den Veröffentlichungen von J. H. Chen und A. Gersho, "Real Time Vector APC Speech Coding at 4800 Bps with Adaptative Postfiltering", ICASSP 87, Vol. 3, S. 2185- 2188, entspricht.
  • Somit ist ein System zur prädiktiven Kodierung mittels orthonormierter Transformation mit eingebetteten Kodes beschrieben worden, welches neuartige Lösungen auf dem Gebiet der Kodierer mit eingebetteten Kodes erlaubt. Man beachte allgemein, daß das erfindungsgemäße Kodiersystem eine Kodierung im Breitband mit Sprach/Daten-Raten von 32/0 kbit/s, 24/8 kbit/s und 16/16 kbit/s erlaubt.

Claims (10)

1. System zur prädiktiven Kodierung eines digitalen Signals in ein digitales Signal mit eingebetteten Kodes, welches durch adaptive Transformation mit eingebetteten Kodes kodiert ist, wobei das kodierte digitale Signal aus einem kodierten Sprachsignal und gegebenenfalls aus einem Hilfsdatensignal gebildet ist, welches in das kodierte Sprachsignal nach Kodierung dieses letztgenannten eingefügt wird, wobei das System einen Wahrnehmungsbewertungsfilter (11) enthält, welcher durch eine die Erzeugung eines Wahrnehmungssignals erlaubende Kurzzeit- Prädiktionsschleife gesteuert wird, und einen ein geschätztes Wahrnehmungssignal 1n liefernden Langzeit-Prädiktionskreis enthält, wobei dieser Langzeit-Prädiktionskreis eine Langzeit-Prädiktionsschleife bildet, die es erlaubt, vom Wahrnehmungssignal und vom geschätzten vergangenen Anregungssignal ausgehend ein modelliertes Wahrnehmungsanregungssignal zu liefern, und Mittel zur adaptiven Transformation und Quantisierung enthält, die es erlauben, vom Wahrnehmungsanregungssignal ausgehend das kodierte Sprachsignal zu erzeugen, dadurch gekennzeichnet, daß der Wahrnehmungsbewertungsfilter aus einem Kurzzeit-Prädiktionsfilter für das zu kodierende Sprachsignal besteht, um eine Frequenzverteilung des Quantisierungsrauschens zu bewirken, daß es Mittel (12) zur Subtraktion des Beitrags des vergangenen Anregungssignals 0n vom Wahrnehmungssignal umfaßt, um ein aktualisiertes Wahrnehmungssignal Pn zu liefern, daß der Langzeit-Prädiktionskreis als geschlossene Schleife ausgehend von einem Verzeichnis ausgebildet ist, welches durch die der geringsten Rate entsprechende modellierte vergangene Anregung aktualisiert wird, was es erlaubt, eine optimale Wellenform und eine geschätzte mit dieser verbundene Verstärkung zu liefern, welche wesentlich sind für das geschätzte Wahrnehmungssignal, und daß die Transformationsmittel durch ein Modul zur orthonormierten Transformation gebildet sind, das ein Modul zur adaptiven orthogonalen Transformation und ein Modul zum progressiven Modellieren mittels orthogonaler Vektoren umfaßt, wobei diese Mittel zum progressiven Modellieren und der Langzeit- Prädiktionskreis es erlauben, für das kodierte Sprachsignal repräsentative Indizes zu liefern, wobei das System ferner Mittel (19) zum Einfügen angehängter Hilfsdaten in den Übertragungskanal umfaßt.
2. Kodiersystem nach Anspruch 1, dadurch gekennzeichnet, daß das Modul zur adaptiven orthogonalen Transformation umfaßt:
- einen Filter, der eine Linearkombination der Basisvektoren bewirkt, die ausgehend von einer Zerlegung der darstellenden Matrix des Wahrnehmungsbewertungsfilters in singuläre Werte erhalten werden.
3. Kodiersystem nach Anspruch 2, dadurch gekennzeichnet, daß der Filter für jede darstellende Matrix W des Wahrnehmungsbewertungsfilters umfaßt:
- ein erstes Matrixmodul U = (U&sub1;, ..., UN) und
- ein zweites Matrixmodul V = (V&sub1;, ..., VN), wobei das erste und das zweite Matrixmodul die Relation UTWV = D erfüllen, worin UT das transponierte Matrixmodul des Moduls U bezeichnet, und worin D ein diagonales Matrixmodul ist, dessen Koeffizienten die singulären Werte bilden, wobei Ui und Vj den i-ten singulären linken Vektor beziehungsweise den j-ten singulären rechten Vektor bezeichnen, wobei die singulären rechten Vektoren {Vj} eine Orthonormalbasis bilden, was es erlaubt, den Vorgang der Filterung mittels Faltungsprodukt durch einen Vorgang der Filterung mittels einer Linearkombination zu transformieren.
4. Kodiersystem nach Anspruch 1, dadurch gekennzeichnet, daß das Modul zur orthonormierten Transformation aufgebaut ist aus:
- einem zur Initialisierung durch Ziehung einer gaußschen Zufallsvariablen gebildeten Submodul zur stochastischen Transformation,
- einem Modul zur globalen Mittelung über eine Mehrzahl von Vektoren, die aus einem prädiktiven Transformationskodierer stammen,
- einem Modul zur Neuanordnung,
- einem Modul zur Behandlung nach Gram-Schmidt, wobei eine Reiteration der Behandlungen durch die vorhergehenden Module es erlaubt, eine orthonormierte, außerhalb der Reihe durchgeführte, durch Erlernen gebildete Transformation zu erhalten,
- aus einem Speicher vom Typ Lesespeicher, der es erlaubt, die orthonormierte Transformation in Gestalt transformierter Vektoren zu speichern.
5. Kodiersystem nach Anspruch 4, dadurch gekennzeichnet, daß die Transformation durch orthonormierte Wellenformen gebildet ist, deren Frequenzspektren Bandpässe und relativ zueinander geordnet sind, wobei die erste Wellenform aus den orthonormierten, relativ zueinander geordneten Wellenformen gleich der optimalen normierten Wellenform ist, die aus dem adaptiven Verzeichnis stammt, und daß die erste Komponente der geschätzten Verstärkung gleich der normierten Langzeitprädiktions- Verstärkung ist.
6. Kodiersystem nach Anspruch 2 und 5, dadurch gekennzeichnet, daß das adaptive Transformationsmodul umfaßt:
- ein Householder-Transformationsmodul, welches das aus der optimalen Wellenform und der geschätzten Verstärkung gebildete geschätzte Wahrnehmungssignal 11 und das Wahrnehmungssignal empfängt, um ein transformiertes Wahrnehmungssignal P" in Gestalt eines Vektors des transformierten Wahrnehmungssignals mit Komponenten P"k zu erzeugen,
- eine Mehrzahl von N Registern zur Speicherung der orthonormierten Wellenformen, wobei die Mehrzahl der Register den Lesespeicher bildet, jedes Register vom Rang r N Speicherzellen umfaßt, und eine Komponente vom Rang k jedes Vektors in einer Zelle entsprechenden Rangs gespeichert ist,
- eine die Mehrzahl von Speicherregistern bildende Mehrzahl von N jedem Register zugeordneten Multiplikatorkreisen, wobei jeder Multiplikatorkreis vom Rang k einerseits die Komponente vom Rang k des gespeicherten Vektors und andererseits die Komponente P"k des Vektors des transformierten Wahrnehmungssignals vom Rang k empfängt, und das Produkt P"k · fkorth(k) der Komponenten des Vektors des transformierten Wahrnehmungssignals liefert,
- eine Mehrzahl von N - 1 jedem Register vom Rang r zugeordneten Summierkreisen, wobei jeder Summierkreis vom Rang k das durch den Multiplikatorkreis des vorhergehenden Rangs gelieferte Produkt des vorhergehenden Rangs k - 1 und das durch den Multiplikatorkreis des vorhergehenden Rangs gelieferte Produkt des entsprechenden Rangs k und das durch den Multiplikatorkreis vom gleichen Rang k gelieferte Produkt des entsprechenden Rangs k empfängt, wobei der Summierkreis des höchsten Rangs, N - 1, eine Komponente g(r) der als Verstärkungsvektor G ausgedrückten geschätzten Verstärkung liefert.
7. System nach Anspruch 1, dadurch gekennzeichnet, daß das Modul zum progressiven Modellieren mittels orthogonaler Vektoren umfaßt:
- ein Modul zur Normierung des Verstärkungsvektors, um mittels Vergleichs des normierten Werts des Verstärkungsvektors G hinsichtlich eines Schwellenwerts einen normierten Verstärkungsvektor Gk zu erzeugen, wobei das Modul zur Normierung es erlaubt, als Funktion des Grads des Modellierens ferner ein Signal von der Länge des normierten Verstärkungsvektors Gk in Richtung des Dekodiersystems zu erzeugen,
- eine Stufe zum progressiven Modellieren mittels orthogonaler Vektoren, die genau gesagt den normierten Vektor Gk empfängt und die repräsentativen Indizes des kodierten Sprachsignals liefert, wobei die Indizes für die ausgewählten Vektoren und ihre zugeordneten Verstärkungen repräsentativ sind, wobei die Übertragung der durch die Indizes gebildeten Hilfsdaten durch Auslöschung der Teile des Rasters bewirkt wird, die den Indizes und Bereichsnummern zum Bilden des Hilfsdatensignals zugewiesen sind.
8. System zur prädiktiven Dekodierung mittels adaptiver Transformation eines kodierten digitalen Signals mit eingebetteten Kodes, wobei das kodierte digitale Signal aus einem kodierten Sprachsignal und gegebenenfalls aus einem Hilfsdatensignal besteht, welches in das kodierte Sprachsignal nach Kodierung dieses letztgenannten eingefügt wird, dadurch gekennzeichnet, daß es umfaßt:
- Mittel zum Auslesen des Datensignals, die einerseits das Auslesen der Daten in Hinsicht auf eine Hilfsnutzung und andererseits die Übertragung der repräsentativen Indizes des kodierten Sprachsignals erlauben,
- Mittel zum Modellieren des Sprachsignals bei minimaler Rate,
- Mittel zum Modellieren des Sprachsignals bei wenigstens einer Rate, die höher als die minimale Rate ist.
9. Dekodiersystem nach Anspruch 8, dadurch gekennzeichnet, daß dieser Dekodierer außer dem System zum Datenauslesen umfaßt
- ein erstes Modul zum Modellieren des Sprachsignals bei minimaler Rate, welches direkt das kodierte Signal empfängt und ein erstes geschätzes Sprachsignal 1n liefert,
- ein zweites Modul zum Modellieren des Sprachsignals bei einer mittleren Rate, welches mit dem System zum Datenauslesen mit Hilfe von Mitteln zur bedingten Kommutation nach dem Kriterium des Werts der Indizes verbunden ist und ein zweites geschätztes Sprachsignal 2n liefert,
- ein drittes Modul zum Modellieren des Sprachsignals bei einer maximalen Rate, welches mit dem System zum Datenauslesen mit Hilfe von Mitteln zur bedingten Kommutation nach dem Kriterium des Werts der Indizes verbunden ist und ein drittes geschätztes Sprachsignal 3n liefert,
- einen Summierkreis, der an seinen Summiereingängen das erste, das zweite beziehungsweise das dritte geschätzte Sprachsignal empfängt und an seinem Ausgang ein resultierendes geschätztes Sprachsignal liefert, und mit dem Ausgang des Summierkreises in Kaskade verbunden
- einen adaptiven Filterkreis, der das resultierende geschätzte Sprachsignal empfängt und ein wiederhergestelltes geschätztes Sprachsignal liefert, und einen Digital/Analog-Konverter, der das wiederhergestellte geschätzte Sprachsignal empfängt und ein wiederhergestelltes Audiofrequenz- Sprachsignal liefert.
10. Dekodiersystem nach Anspruch 9, dadurch gekennzeichnet, daß jedes der Module zum Modellieren des Sprachsignals bei minimaler, mittlerer oder maximaler Rate ein Submodul zur inversen adaptiven Transformation umfaßt, auf das ein inverser Wahrnehmungsbewertungsfilter folgt.
DE69412294T 1993-01-21 1994-01-18 System zur prädiktiven Kodierung/Dekodierung eines digitalen Sprachsignals mittels einer adaptiven Transformation mit eingebetteten Kodes Expired - Lifetime DE69412294T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR9300601A FR2700632B1 (fr) 1993-01-21 1993-01-21 Système de codage-décodage prédictif d'un signal numérique de parole par transformée adaptative à codes imbriqués.

Publications (2)

Publication Number Publication Date
DE69412294D1 DE69412294D1 (de) 1998-09-17
DE69412294T2 true DE69412294T2 (de) 1999-04-15

Family

ID=9443261

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69412294T Expired - Lifetime DE69412294T2 (de) 1993-01-21 1994-01-18 System zur prädiktiven Kodierung/Dekodierung eines digitalen Sprachsignals mittels einer adaptiven Transformation mit eingebetteten Kodes

Country Status (4)

Country Link
US (1) US5583963A (de)
EP (1) EP0608174B1 (de)
DE (1) DE69412294T2 (de)
FR (1) FR2700632B1 (de)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5822436A (en) * 1996-04-25 1998-10-13 Digimarc Corporation Photographic products and methods employing embedded information
FR2722631B1 (fr) * 1994-07-13 1996-09-20 France Telecom Etablissement P Procede et systeme de filtrage adaptatif par egalisation aveugle d'un signal telephonique numerique et leurs applications
FR2729245B1 (fr) * 1995-01-06 1997-04-11 Lamblin Claude Procede de codage de parole a prediction lineaire et excitation par codes algebriques
JP3046213B2 (ja) * 1995-02-02 2000-05-29 三菱電機株式会社 サブバンド・オーディオ信号合成装置
IT1277194B1 (it) * 1995-06-28 1997-11-05 Alcatel Italia Metodo e relativi apparati di codifica e di decodifica di un segnale vocale campionato
US5781882A (en) * 1995-09-14 1998-07-14 Motorola, Inc. Very low bit rate voice messaging system using asymmetric voice compression processing
MX9708203A (es) * 1996-02-26 1997-12-31 At & T Corp Cuantificacion de señales vocales usando modelos de publico humano en sistemas de codificacion predictivas.
US6107430A (en) * 1996-03-14 2000-08-22 The Dow Chemical Company Low application temperature hot melt adhesive comprising ethylene α-olefin
JP3878254B2 (ja) * 1996-06-21 2007-02-07 株式会社リコー 音声圧縮符号化方法および音声圧縮符号化装置
US6038528A (en) * 1996-07-17 2000-03-14 T-Netix, Inc. Robust speech processing with affine transform replicated data
JP3263347B2 (ja) * 1997-09-20 2002-03-04 松下電送システム株式会社 音声符号化装置及び音声符号化におけるピッチ予測方法
JP2000197054A (ja) * 1998-12-24 2000-07-14 Hudson Soft Co Ltd 動画像符号方法及びそのプログラムを記録した記録媒体並びに装置
WO2001075660A1 (en) * 2000-04-03 2001-10-11 Flint Hills Scientific, L.L.C. Method, computer program, and system for automated real-time signal analysis for detection, quantification, and prediction of signal changes
US6768969B1 (en) 2000-04-03 2004-07-27 Flint Hills Scientific, L.L.C. Method, computer program, and system for automated real-time signal analysis for detection, quantification, and prediction of signal changes
SE522261C2 (sv) * 2000-05-10 2004-01-27 Global Ip Sound Ab Kodning och avkodning av en digital signal
US6993477B1 (en) * 2000-06-08 2006-01-31 Lucent Technologies Inc. Methods and apparatus for adaptive signal processing involving a Karhunen-Loève basis
US9001702B2 (en) 2000-12-26 2015-04-07 Polycom, Inc. Speakerphone using a secure audio connection to initiate a second secure connection
US7864938B2 (en) 2000-12-26 2011-01-04 Polycom, Inc. Speakerphone transmitting URL information to a remote device
US8964604B2 (en) 2000-12-26 2015-02-24 Polycom, Inc. Conference endpoint instructing conference bridge to dial phone number
US8977683B2 (en) * 2000-12-26 2015-03-10 Polycom, Inc. Speakerphone transmitting password information to a remote device
US7339605B2 (en) 2004-04-16 2008-03-04 Polycom, Inc. Conference link between a speakerphone and a video conference unit
US8948059B2 (en) 2000-12-26 2015-02-03 Polycom, Inc. Conference endpoint controlling audio volume of a remote device
US8934382B2 (en) 2001-05-10 2015-01-13 Polycom, Inc. Conference endpoint controlling functions of a remote device
US8976712B2 (en) 2001-05-10 2015-03-10 Polycom, Inc. Speakerphone and conference bridge which request and perform polling operations
JP4231698B2 (ja) 2001-05-10 2009-03-04 ポリコム イスラエル リミテッド 多地点マルチメディア/音声システムの制御ユニット
US8885523B2 (en) 2001-12-31 2014-11-11 Polycom, Inc. Speakerphone transmitting control information embedded in audio information through a conference bridge
US8223942B2 (en) * 2001-12-31 2012-07-17 Polycom, Inc. Conference endpoint requesting and receiving billing information from a conference bridge
US7978838B2 (en) 2001-12-31 2011-07-12 Polycom, Inc. Conference endpoint instructing conference bridge to mute participants
US7787605B2 (en) 2001-12-31 2010-08-31 Polycom, Inc. Conference bridge which decodes and responds to control information embedded in audio information
US8144854B2 (en) * 2001-12-31 2012-03-27 Polycom Inc. Conference bridge which detects control information embedded in audio information to prioritize operations
US8102984B2 (en) * 2001-12-31 2012-01-24 Polycom Inc. Speakerphone and conference bridge which receive and provide participant monitoring information
US8934381B2 (en) * 2001-12-31 2015-01-13 Polycom, Inc. Conference endpoint instructing a remote device to establish a new connection
US8947487B2 (en) 2001-12-31 2015-02-03 Polycom, Inc. Method and apparatus for combining speakerphone and video conference unit operations
US8705719B2 (en) 2001-12-31 2014-04-22 Polycom, Inc. Speakerphone and conference bridge which receive and provide participant monitoring information
US7742588B2 (en) * 2001-12-31 2010-06-22 Polycom, Inc. Speakerphone establishing and using a second connection of graphics information
DE602005014288D1 (de) * 2004-03-01 2009-06-10 Dolby Lab Licensing Corp Mehrkanalige Audiodekodierung
US7796565B2 (en) * 2005-06-08 2010-09-14 Polycom, Inc. Mixed voice and spread spectrum data signaling with multiplexing multiple users with CDMA
US8199791B2 (en) * 2005-06-08 2012-06-12 Polycom, Inc. Mixed voice and spread spectrum data signaling with enhanced concealment of data
US8126029B2 (en) * 2005-06-08 2012-02-28 Polycom, Inc. Voice interference correction for mixed voice and spread spectrum data signaling
US8190251B2 (en) * 2006-03-24 2012-05-29 Medtronic, Inc. Method and apparatus for the treatment of movement disorders
US20070249956A1 (en) * 2006-04-21 2007-10-25 Medtronic, Inc. Method and apparatus for detection of nervous system disorders
US7761145B2 (en) * 2006-04-21 2010-07-20 Medtronic, Inc. Method and apparatus for detection of nervous system disorders
US7761146B2 (en) * 2006-04-21 2010-07-20 Medtronic, Inc. Method and apparatus for detection of nervous system disorders
US8165683B2 (en) * 2006-04-21 2012-04-24 Medtronic, Inc. Method and apparatus for detection of nervous system disorders
US7764989B2 (en) * 2006-04-21 2010-07-27 Medtronic, Inc. Method and apparatus for detection of nervous system disorders
US20070249953A1 (en) * 2006-04-21 2007-10-25 Medtronic, Inc. Method and apparatus for detection of nervous system disorders
US8532984B2 (en) * 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
US8108438B2 (en) * 2008-02-11 2012-01-31 Nir Asher Sochen Finite harmonic oscillator
GB2495468B (en) 2011-09-02 2017-12-13 Skype Video coding
GB2495469B (en) 2011-09-02 2017-12-13 Skype Video coding
GB2495467B (en) * 2011-09-02 2017-12-13 Skype Video coding
KR101691549B1 (ko) 2012-10-05 2016-12-30 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 자기상관 영역에서 acelp를 이용하는 음성 신호 인코딩 장치

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8802291A (nl) * 1988-09-16 1990-04-17 Koninkl Philips Electronics Nv Inrichting voor het verzenden van datawoorden welke een gedigitaliseerde analoog signaal vertegenwoordigen en een inrichting voor het ontvangen van de verzonden datawoorden.
EP0443548B1 (de) * 1990-02-22 2003-07-23 Nec Corporation Sprachcodierer
JPH0451199A (ja) * 1990-06-18 1992-02-19 Fujitsu Ltd 音声符号化・復号化方式
IT1241358B (it) * 1990-12-20 1994-01-10 Sip Sistema di codifica del segnale vocale con sottocodice annidato
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith

Also Published As

Publication number Publication date
EP0608174B1 (de) 1998-08-12
FR2700632A1 (fr) 1994-07-22
FR2700632B1 (fr) 1995-03-24
EP0608174A1 (de) 1994-07-27
DE69412294D1 (de) 1998-09-17
US5583963A (en) 1996-12-10

Similar Documents

Publication Publication Date Title
DE69412294T2 (de) System zur prädiktiven Kodierung/Dekodierung eines digitalen Sprachsignals mittels einer adaptiven Transformation mit eingebetteten Kodes
DE69518452T2 (de) Verfahren für die Transformationskodierung akustischer Signale
DE19647298C2 (de) Kodiersystem
DE19609170B4 (de) Verfahren zur Durchführung einer &#34;Tiefe-Zuerst&#34;-Suche in einem Codebuch zur Codierung eines Geräusch- bzw. Klangsignales, Vorrichtung zur Durchführung dieses Verfahrens sowie zellulares Kommunikationssystem mit einer derartigen Vorrichtung
DE69608947T2 (de) Verfahren zur Analyse eines Audiofrequenzsignals durch lineare Prädiktion, und Anwendung auf ein Verfahren zur Kodierung und Dekodierung eines Audiofrequenzsignals
DE69129329T2 (de) Sprachkodierungsystem
DE3853916T2 (de) Digitaler-sprachkodierer mit verbesserter vertoranregungsquelle.
DE69604729T2 (de) Verfahren zur sprachkodierung mittels linearer prädiktion und anregung durch algebraische kodes
DE19604273C5 (de) Verfahren und Vorrichtung zum Durchführen einer Suche in einem Kodebuch im Hinblick auf das Kodieren eines Klangsignales, Zellkommunikationssystem, Zellnetzwerkelement und mobile Zell-Sender-/Empfänger-Einheit
DE69029232T2 (de) System und Methode zur Sprachkodierung
DE69619054T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE3115859C2 (de)
DE69029120T2 (de) Stimmenkodierer
DE69317958T2 (de) Kodierer von Audiosignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken
DE68916944T2 (de) Verfahren zur schnellen Bestimmung der Grundfrequenz in Sprachcodierern mit langfristiger Prädiktion.
DE69331079T2 (de) CELP-Vocoder
DE69726525T2 (de) Verfahren und Vorrichtung zur Vektorquantisierung und zur Sprachkodierung
DE69529356T2 (de) Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile
DE69804121T2 (de) Sprachkodierung
DE69609099T2 (de) Verfahren zur Modifikation von LPC-Koeffizienten von akustischen Signalen
DE69930848T2 (de) Skalierbarer audiokodierer und dekodierer
DE69328410T2 (de) Auf interpolation basierende, zeitveränderliche spektralanalyse für sprachkodierung
DE69633944T2 (de) Verfahren und gerät zum kodieren von digitalen daten
WO2002017303A1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
DE69121411T2 (de) Methode und gerät zur codierung von analogen signalen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: FRANCE TELECOM SA, PARIS, FR

8327 Change in the person/name/address of the patent owner

Owner name: GULA CONSULTING LLC, DOVER, DEL., US