DE69412294T2 - System zur prädiktiven Kodierung/Dekodierung eines digitalen Sprachsignals mittels einer adaptiven Transformation mit eingebetteten Kodes - Google Patents
System zur prädiktiven Kodierung/Dekodierung eines digitalen Sprachsignals mittels einer adaptiven Transformation mit eingebetteten KodesInfo
- Publication number
- DE69412294T2 DE69412294T2 DE69412294T DE69412294T DE69412294T2 DE 69412294 T2 DE69412294 T2 DE 69412294T2 DE 69412294 T DE69412294 T DE 69412294T DE 69412294 T DE69412294 T DE 69412294T DE 69412294 T2 DE69412294 T2 DE 69412294T2
- Authority
- DE
- Germany
- Prior art keywords
- signal
- module
- transformation
- speech signal
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000009466 transformation Effects 0.000 title claims description 106
- 230000003044 adaptive effect Effects 0.000 title claims description 48
- 239000013598 vector Substances 0.000 claims description 111
- 239000011159 matrix material Substances 0.000 claims description 47
- 230000008447 perception Effects 0.000 claims description 37
- 230000007774 longterm Effects 0.000 claims description 35
- 230000005284 excitation Effects 0.000 claims description 32
- 238000011156 evaluation Methods 0.000 claims description 29
- 238000013139 quantization Methods 0.000 claims description 24
- 230000005540 biological transmission Effects 0.000 claims description 18
- 238000001914 filtration Methods 0.000 claims description 15
- 230000000750 progressive effect Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 14
- 238000000354 decomposition reaction Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000011282 treatment Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims 1
- 230000008707 rearrangement Effects 0.000 claims 1
- 238000000034 method Methods 0.000 description 28
- 230000000875 corresponding effect Effects 0.000 description 19
- 238000004458 analytical method Methods 0.000 description 11
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 238000012546 transfer Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 101100311330 Schizosaccharomyces pombe (strain 972 / ATCC 24843) uap56 gene Proteins 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 101150018444 sub2 gene Proteins 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0002—Codebook adaptations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0003—Backward prediction of gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0004—Design or structure of the codebook
- G10L2019/0005—Multi-stage vector quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0011—Long term prediction filters, i.e. pitch estimation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
- Die vorliegende Erfindung betrifft ein System zur prädiktiven Kodierung-Dekodierung eines digitalen Sprachsignals durch adaptive Transformation mit eingebetteten Kodes.
- Bei den momentan verwendeten prädiktiven Transformationskodierern, deren Typ in Fig. 1 dargestellt ist, versucht man, ein synthetisches Signal n zu erzeugen, welches dem zu kodierenden digitalen Sprachsignal Sn möglichst ähnlich ist, wobei diese Ähnlichkeit im Sinne eines Wahrnehmungskriteriums ist.
- Das zu kodierende digitale Signal Sn, welches aus einem analogen Quellen-Sprachsignal geliefert ist, wird einem Kurzzeit-Prädiktionsverfahren, einer LPC-Analyse unterworfen, wobei die Prädiktionskoeffizienten durch Prädiktion des Sprachsignals auf Fenstern mit M Proben erhalten werden. Das zu kodierende digitale Sprachsignal Sn wird mittels eines aus den vorerwähnten Prädiktionskoeffizienten abgeleiteten Wahrnehmungsbewertungsfilters W(z) gefiltert, um das Wahrnehmungssignal pn zu erhalten.
- Ein Langzeit-Prädiktionsverfahren erlaubt anschließend, die Periodizität des Residuums für die Schallgeräusche auf allen Unterfenstern von N Proben, N < M, in Gestalt eines Beitrags n zu berücksichtigen, welcher vom Wahrnehmungssignal pn subtrahiert wird, um das Signal p'n in Gestalt eines Vektors P' RN zu erhalten.
- Eine Transformation und eine nachfolgende Quantisierung werden anschließend mit obigem Vektor P' realisiert, um eine digitale Übertragung zu bewirken. Nach der Übertragung erlauben die inversen Operationen die Modellierung des synthetischen Signals n.
- Um gemäß den üblichen, durch die Erfahrung etablierten Kriterien, ein gutes Wahrnehmungsverhalten zu erhalten, ist es notwendig, ein Transformationsverfahren mittels orthonormierter Transformation F und ein Quantisierungsverfahren des Vektors P' einzurichten, wobei Verstärkungswerte G wohlbestimmte Eigenschaften überprüfen, G = FT · P', wobei FT die transponierte Matrix der Matrix F bezeichnet.
- Eine erste von G. Davidson und A. Gersho in der Veröffentlichung "Multiple-Stage Vector Excitation Coding of Speech Wave forms", ICASSP 88, Vol. 1, S. 163-166, vorgeschlagene Lösung besteht in der Verwendung einer nicht singulären Transformationsmatrix V = HC, wobei H eine untere Dreiecksmatrix und C ein nicht singuläres Verzeichnis ist, welches durch Erlernen gebildet ist, wodurch die Invertierbarkeit der Transformationsmatrix V für alle Unterfenster gewährleistet ist.
- Um gewisse Dekorrelations- und Ordnungseigenschaften der Komponenten des Koeffizientenvektors der Transformation G im Quantisierungsabschnitt ausnützen zu können, sind mehrere, orthonormierte Transformationen verwendende Lösungen vorgeschlagen worden.
- Die Karhunen-Loeve-Transformation, die erhalten wird ausgehend von den Eigenvektoren der Autokorrelationsmatrix
- wobei I die Anzahl der im Erlernkörper enthaltenen Vektoren ist, erlaubt die Maximierung des Ausdrucks
- in dem K eine ganze Zahl mit K ≤ N ist. Man zeigt, daß der mittlere quadratische Fehler der Karhunen-Loeve- Transformation kleiner als derjenige jeder anderen Transformation bei gegebenem Modellierungsgrad K ist, so daß diese Transformation in diesem Sinne optimal ist. Dieser Transformationstyp ist in einen prädiktiven Kodierer mit orthogonaler Transformation durch N. Moreau und P. Dymarski, vergleiche die Veröffentlichung "Successive Orthogonalisations in the Multistage CELP Coder", ICASSP 92 Vol. 1, S. I-61 - I-64, eingeführt worden.
- Um die Komplexität der Berechnung des Verstärkungsvektors G zu verringern, ist es jedoch möglich, suboptimale Transformationen zu verwenden, wie z. B. die schnelle Fvurier- Transformation (FFT), die diskrete Kosinustransformation (TCD), die diskrete Hadamard-Transformation (DHT) oder die diskrete Walsh-Hadamard-Transformation (DWHT).
- Eine andere Methode zur Konstruktion einer orthonormierten Transformation besteht darin, die untere Toeplitz- Dreiecksmatrix H in singuläre Werte zu zerlegen, wobei H definiert ist durch:
- in welcher Matrix h(n) die Impulsantwort des Kurzzeit- Prädiktionsfilters 1/A(z) des momentanen Fensters ist.
- Die Matrix H kann dann in eine Summe von Matrizen mit Rang l zerlegt werden:
- Da die Matrix U unitär ist, kann sie als orthonormierte Transformation verwendet werden. Eine solche Konstruktion ist vorgeschlagen worden von B. S. Atal in der Veröffentlichung "A Modul of LPC Excitation in Terms of Eigenvectors of the Autocorrelation Matrix of the Impulse Response of the LPC Filter", ICASSP 89, Vol. 1, S. 45-48 und von E. Ofer in der Veröffentlichung "A Unified Framework for LPC Excitation Representation in Residual Speech Coders" ICASSP 89, Vol. 1 S. 41-44.
- Die momentan bekannten Kodierer mit eingebetteten Kodes erlauben die Übertragung von Daten mittels Flugs von binären Elementen, die auf dem Übertragungskanal normalerweise der Sprache zugewiesen sind, und dies in einer für den Kodierer, welcher das Sprachsignal bei maximaler Rate kodiert, transparenten Weise.
- Unter diesem Typ von Kodierern ist ein Kodierer mit 64 kbit/s mit skalarem Quantisierer mit eingebetteten Kodes 1986 durch die von der CCITT etablierte Norm G 722 genormt worden. Dieser Kodierer, der im Sprachbereich im Breitband arbeitet (Audiosignal der Bandbreite von 50 Hz bis 7 kHz, mit 16 kHz abgetastet), basiert auf einer Kodierung in zwei Subbändern, die jeweils einen Kodierer mit Modulation durch Impulse und adaptive differentielle Kodierung enthalten (MICDA- Kodierung). Diese Kodiertechnik erlaubt die Übertragung von Sprachsignalen im Breitband und gegebenenfalls von Daten auf einem Kanal mit 64 kbit/s mit drei verschiedenen Raten 64-56- 48 kbit/s und 0-8-16 kbit/s für die Daten.
- Im Rahmen der Benutzung von durch Kodes angeregten Kodierern (oder CELP-Kodierern) haben M. Johnson und T. Tanigushi ferner einen vielstufigen CELP-Kodierer mit eingebetteten Kodes beschrieben. Vergleiche die Veröffentlichung der oben genannten Autoren mit dem Titel "Pitch Orthogonal Code- Excited LPC", Globecom 90, Vol. 1, S. 542-546.
- Schließlich haben R. Drogo De Iacovo und D. Sereno einen modifizierten Kodierer des Typs CELP beschrieben, der es erlaubt, eingebettete Kodes zu erhalten, oder der das Anregungssignal des LPC-Analysefilters durch eine Summe verschiedener Beiträge modelliert und der nur den ersten von ihnen für die Aktualisierung des Speichers des Synthesefilters verwendet, vergleiche die Veröffentlichung dieser Autoren "Embedded CELP Coding for Variable Bit-Rate Between 6.4 and 9.6 kbit/s" ICASSP 91 Vol. 1, S. 681-684.
- Die oben genannten prädiktiven Transformationskodierer des Stands der Technik erlauben es nicht, Daten zu übertragen, und können daher nicht die Funktion des Kodierers mit eingebetteten Kodes erfüllen. Ferner verwenden die Kodierer mit eingebetteten Kodes des Stands der Technik nicht die Technik der orthonormierten Transformation, wodurch es nicht möglich ist, eine optimale Transformationskodierung anzustreben oder zu erreichen.
- Die vorliegende Erfindung hat das Ziel, den oben genannten Nachteil durch die Bereitstellung eines Systems zur prädiktiven Kodierung-Dekodierung eines digitalen Sprachsignals mittels adaptiver Transformation mit eingebetteten Kodes zu beseitigen.
- Ein anderes Ziel der vorliegenden Erfindung ist die Bereitstellung eines Systems zur prädiktiven Kodierung- Dekodierung eines digitalen Sprachsignals und von Daten, um eine Übertragung bei verringerten und flexiblen Raten zu erlauben.
- Das erfindungsgemäße System zur prädiktiven Kodierung eines digitalen Signals in ein digitales Signal mit eingebetteten Kodes, wobei das kodierte digitale Signal aus einem kodierten Sprachsignal und gegebenenfalls aus einem Hilfsdatensignal gebildet ist, welches in das kodierte Sprachsignal nach Kodierung des letztgenannten eingefügt wird, enthält einen Wahrnehmungsbewertungsfilter, welcher durch eine die Erzeugung eines Wahrnehmungssignals erlaubende Kurzzeit- Prädiktionsschleife gesteuert wird, und einen ein geschätztes Wahrnehmungssignal liefernden Langzeit-Prädiktionskreis, wobei dieser Langzeit-Prädiktionskreis eine Langzeit- Prädiktionsschleife bildet, die es erlaubt, vom Wahrnehmungssignal und vom geschätzten vergangenen Anregungssignal ausgehend ein modelliertes Wahrnehmungsanregungssignal zu liefern, und enthält Kreise zur adaptiven Transformation und Quantisierung, die es erlauben, vom Wahrnehmungsanregungssignal ausgehend das kodierte Sprachsignal zu erzeugen.
- Es ist dadurch ausgezeichnet, daß der Wahrnehmungsbewertungsfilter aus einem Kurzzeit- Prädiktionsfilter für das zu kodierende Sprachsignal besteht, um eine Frequenzverteilung des Quantisierungsrauschens zu bewirken, daß es einen Kreis zur Subtraktion des Beitrags des vergangenen Anregungssignals vom Wahrnehmungssignal umfaßt, um ein aktualisiertes Wahrnehmungssignal zu liefern, daß der Langzeit-Prädiktionskreis als geschlossene Schleife ausgehend von einem Verzeichnis ausgebildet ist, welches durch die der geringsten Rate entsprechende modellierte vergangene Anregung aktualisiert wird, was es erlaubt, eine optimale Wellenform und eine geschätzte mit dieser verbundene Verstärkung zu liefern, welche wesentlich sind für das geschätzte Wahrnehmungssignal. Der Transformationskreis ist durch ein Modul zur orthonormierten Transformation gebildet, das ein Modul zur adaptiven orthogonalen Transformation und ein Modul zum progressiven Modellieren mittels orthogonaler Vektoren umfaßt. Das Modul zum progressiven Modellieren und der Langzeit-Prädiktionskreis erlauben es, für das kodierte Sprachsignal repräsentative Indizes zu liefern. Ein Kreis zum Einfügen von Hilfsdaten ist an den Übertragungskanal angehängt.
- Das System zur prädiktiven Dekodierung mittels adaptiver Transformation eines kodierten digitalen Signals mit eingebetteten Kodes, wobei das kodierte digitale Signal aus einem kodierten digitalen Signal und gegebenenfalls aus einem Hilfsdatensignal gebildet ist, welches in das kodierte Sprachsignal nach Kodierung dieses letztgenannten eingefügt wird, ist dadurch ausgezeichnet, daß es einen Kreis zum Auslesen des Datensignals umfaßt, der einerseits das Auslesen der Daten in Hinsicht auf eine Hilfsnutzung und andererseits die Übertragung der repräsentativen Indizes des kodierten Sprachsignals erlaubt. Es umfaßt ferner einen Kreis zum Modellieren des Sprachsignals bei minimaler Rate und einen Kreis zum Modellieren des Sprachsignals bei wenigstens einer Rate, die höher als die minimale Rate ist.
- Das erfindungsgemäße System zur prädiktiven Kodierung- Dekodierung eines digitalen Sprachsignals mittels adaptiver Transformation mit eingebetteten Kodes findet allgemein Verwendung bei der Übertragung von Sprache und von Daten bei flexiblen Raten und insbesondere bei audiovisuellen Konferenzprotokollen, beim Bildtelefon, beim Telefonieren mit Lautsprechern, beim Speichern und beim Transport audiodigitaler Signale über Weitverkehrsverbindungen, und auf die Übertragung mit mobilen Systemen und mit Systemen mit Kanalkonzentration.
- Eine detailliertere Beschreibung des erfindungsgemäßen Kodier-Dekodiersystems wird anschließend in Verbindung mit den Zeichnungen gegeben werden, in denen, über die Fig. 1 hinaus, die sich auf den Stand der Technik betreffend einen prädiktiven Transformationskodierer bezieht,
- - Fig. 2 ein prinzipielles Schema des erfindungsgemäßen Systems zur prädiktiven Kodierung eines Sprachsignals mittels adaptiver Transformation mit eingebetteten Kodes darstellt,
- - Fig. 3 ein Ausführungsdetail eines Langzeit- Prädiktionsmoduls als geschlossene Schleife darstellt, welches in dem in Fig. 2 dargestellten Kodiersystem verwendet wird,
- - die Fig. 4a und 4b ein Teilschema eines prädiktiven Transformationskodierers und ein dem Teilschema der Fig. 4a äquivalentes Schema darstellen,
- - Fig. 5a ein Flußdiagramm eines durch Erlernen konstruierten Verfahrens zur orthonormierten Transformation darstellt,
- - Fig. 5b zwei Vergleichsdiagramme der normierten Verstärkungswerte darstellt, die durch Zerlegung in singuläre Werte bzw. durch Erlernen erhalten wurden,
- - die Fig. 6a und 6b schematisch das auf das Wahrnehmungssignal angewandte Verfahren zur Householder- Transformation darstellen,
- - Fig. 7 ein Modul zur adaptiven Transformation darstellt, welches eine Householder-Transformation durchführt,
- - Fig. 8a ein normiertes Verstärkungskriterium als Funktion der Anzahl der Komponenten des Verstärkungsvektors zum Zweck der Zerlegung in singuläre Werte bzw. der Konstruktion durch Erlernen darstellt,
- - Fig. 8b ein prinzipielles Schema der vielstufigen vektoriellen Quantisierung darstellt, in welchem der Verstärkungsvektor durch Linearkombination von aus stochastischen Verzeichnissen hervorgegangenen Vektoren erhalten wird,
- - Fig. 9 eine geometrische Darstellung der Projektion des Verstärkungsvektors G in einen Unterraum von aus stochastischen Verzeichnissen hervorgegangenen Vektoren ist,
- - die Fig. 10a und 10b das prinzipielle Schema eines Verfahrens zur vektoriellen Quantisierung der Verstärkung durch progressive orthogonale Modellierung darstellen, entsprechend einer optimalen Projektion dieses in Fig. 9 dargestellten Verstärkungsvektors, im Falle eines einzigen bzw. mehrerer stochastischer Verzeichnisse,
- - Fig. 11 eine Ausführungsart der Modellierung der der geringsten Rate entsprechenden Anregung des Synthesefilters darstellt,
- - Fig. 12 ein prinzipielles Schema eines erfindungsgemäßen Systems zur prädiktiven Dekodierung eines Sprachsignals mittels adaptiver Transformation mit eingebetteten Kodes darstellt,
- - Fig. 13a ein prinzipielles Schema eines Moduls zum Modellieren des Sprachsignals bei der geringsten Rate darstellt,
- - Fig. 13b eine Ausführungsart eines Moduls zur inversen orthonormierten Transformation darstellt,
- - Fig. 14a ein Schema eines Moduls zur Modellierung des Sprachsignals bei anderen Raten als der geringsten Rate darstellt,
- - Fig. 14b ein zu dem in Fig. 14a dargestellten Modul zur Modellierung äquivalentes Schema darstellt,
- - Fig. 15 die Bereitstellung eines adaptiven Filters zur Nachfilterung darstellt, der dazu bestimmt ist, die Wahrnehmungsqualität des Synthese-Sprachsignals n zu verbessern.
- Eine detailliertere Beschreibung eines Systems zur prädiktiven Kodierung eines digitalen Sprachsignals mittels adaptiver Transformation in ein digitales Signal mit eingebetteten Kodes wird nun in Verbindung mit Fig. 2 und den folgenden Figuren gegeben werden.
- Man beachte allgemein, daß das durch die Benutzung des erfindungsgemäßen Kodiersystems kodierte digitale Signal aus einem kodierten Sprachsignal und gegebenenfalls aus einem Hilfsdatensignal gebildet ist, welches nach der Kodierung des digitalen Sprachsignals in das kodierte Sprachsignal eingefügt wird.
- Selbstverständlich kann das erfindungsgemäße Kodiersystem ausgehend von einem Transducer, der das analoge Sprachsignal liefert, einen Analog-Digital-Wandler und einen Eingangs- Speicherkreis oder Eingangspuffer umfassen, die es erlauben, das zu kodierende digitale Signal Sn zu liefern.
- Das erfindungsgemäße Kodiersystem umfaßt ebenfalls einen Wahrnehmungsbewertungsfilter 11, welcher durch eine die Erzeugung eines als n bezeichneten Wahrnehmungssignals erlaubende Kurzzeit-Prädiktionsschleife gesteuert wird.
- Es umfaßt ebenfalls einen Langzeit-Prädiktionskreis, als 13 bezeichnet, der ein geschätztes Wahrnehmungssignal liefert, das als 1n bezeichnet ist.
- Der Langzeit-Prädiktionskreis 13 bildet eine Langzeit- Prädiktionsschleife, die es erlaubt, vom Wahrnehmungssignal und vom geschätzten vergangenen Anregungssignal, als 0n bezeichnet, ausgehend ein modelliertes Wahrnehmungsanregungssignal zu liefern.
- Das erfindungsgemäße, in Fig. 2 dargestellte Kodiersystem umfaßt ferner einen Kreis zur adaptiven Transformation und Quantisierung, der es erlaubt, vom Wahrnehmungsanregungssignal Pn ausgehend das kodierte Sprachsignal zu erzeugen, wie im folgenden in der Beschreibung beschrieben wird.
- Gemäß einem ersten, besonders vorteilhaften Aspekt des erfindungsgemäßen Kodiersystems besteht der Wahrnehmungsbewertungsfilter 11 aus einem Kurzzeit- Prädiktionsfilter für das zu kodierende Sprachsignal, um eine Frequenzverteilung des Quantisierungsrauschens zu bewirken. Während der Wahrnehmungsbewertungsfilter 11 das Wahrnehmungssignal n liefert, umfaßt die erfindungsgemäße Kodiervorrichtung, wie in der gleichen Fig. 2 gezeigt, einen Kreis 120 zur Subtraktion des Beitrags des vergangenen Anregungssignals 0n vom Wahrnehmungssignal, um ein aktualisiertes Wahrnehmungssignal zu liefern, welches aktualisierte Wahrnehmungssignal als Pn bezeichnet wird.
- Gemäß einer anderen besonders vorteilhaften Eigenschaft der erfindungsgemäßen Kodiervorrichtung ist der Langzeit- Prädiktionskreis 13 als geschlossene Schleife ausgehend von einem Verzeichnis ausgebildet, welches durch die der geringsten Rate entsprechende modellierte vergangene Anregung aktualisiert wird, wodurch dieses Verzeichnis erlaubt, eine optimale Wellenform und eine geschätzte, mit dieser verbundene Verstärkung zu liefern. In Fig. 2 ist die der geringsten Rate entsprechende modellierte vergangene Anregung als 1n bezeichnet. Man beachte ferner, daß die optimale Wellenform und die geschätzte, mit dieser verbundene Verstärkung wesentlich sind für das geschätzte Wahrnehmungssignal 1n, welches vom Langzeit-Prädiktionskreis 13 geliefert wird.
- Gemäß einer anderen Eigenschaft des erfindungsgemäßen Kodiersystems ist, wie in Fig. 2 dargestellt, der Transformationsmodulkreis, genannt MT, durch ein Modul zur orthonormierten Transformation 14 gebildet, welches genau gesagt ein Modul zur adaptiven orthogonalen Transformation und ein Modul zum progressiven Modellieren mittels orthogonaler Vektoren, als 16 bezeichnet, umfaßt.
- Gemäß einem besonders vorteilhaften Aspekt des erfindungsgemäßen Kodiersystems erlauben es das Modul zum progressiven Modellieren 16 und der Langzeit-Prädiktionskreis 13, für das kodierte Sprachsignal repräsentative Indizes zu liefern, welche Indizes in Fig. 2 als i(0), j(0) bzw. i(l), j(l) mit l [1,L] bezeichnet sind.
- Schließlich umfaßt das erfindungsgemäße Kodiersystem ferner einen Kreis 19 zum Einfügen von Hilfsdaten, welcher an den als 18 bezeichneten Übertragungskanal angehängt ist.
- Die Funktionsweise der erfindungsgemäßen Kodiervorrichtung kann auf die nachfolgende Weise erläutert werden.
- Wie oben angegeben, versucht man, ein synthetisches Signal n wieder herzustellen, welches in der Wahrnehmung dem zu kodierenden digitalen Signal Sn möglichst ähnlich ist.
- Das synthetische Signal n ist selbstverständlich das beim Empfang, d. h. im Bereich der Dekodierung nach der Übertragung wiederhergestellte Signal, wie weiter unten in der Beschreibung beschrieben werden wird.
- Eine Kurzzeit-Prädiktionsanalyse, die durch den Analysekreis 10 vom Typ LPC für "Linear Predictive Coding" und durch den Wahrnehmungsbewertungsfilter 11 gebildet ist, wird für das zu kodierende digitale Signal mittels einer klassischen Prädiktionstechnik auf Fenstern mit beispielsweise M Proben durchgeführt. Der Analysekreis 10 liefert dann die Koeffizienten ai, wobei die genannten Koeffizienten ai die Koeffizienten der linearen Prädiktion sind.
- Das zu kodierende Sprachsignal Sn wird anschließend durch den Wahrnehmungsbewertungsfilter 11 als Transferfunktion W(z) gefiltert, was es genau gesagt erlaubt, das als n bezeichnete Wahrnehmungssignal zu liefern.
- Die Koeffizienten des Wahrnehmungsbewertungsfilters werden ausgehend von einer Kurzzeit-Prädiktionsanalyse auf den ersten Korrelationskoeffizienten der Folge von Koeffizienten ai des Analysefilters A(z) des Kreises 10 für das momentane Fenster erhalten. Diese Operation erlaubt es, eine gute Frequenzverteilung des Quantisierungsrauschens zu realisieren. Tatsächlich toleriert das gelieferte Wahrnehmungssignal ein höheres Kodierrauschen in Bereichen hoher Energien, wo das Rauschen weniger hörbar ist, da es in der Frequenz vom Signal überdeckt ist. Man beachte, daß die Operation der Wahrnehmungsfilterung sich in zwei Abschnitte unterteilt, wobei das zu kodierende digitale Signal Sn ein erstes Mal durch den vom Analysekreis gebildeten Filter gefiltert wird, um das zu modellierende Residuum zu erhalten, anschließend ein zweites Mal durch den Wahrnehmungsbewertungsfilter 11, um das Wahrnehmungssignal n zu liefern.
- Im Prozeß des Betriebs der erfindungsgemäßen Kodiervorrichtung besteht die zweite Operation darin, anschließend den Beitrag der vergangenen Anregung, oder des geschätzten vergangenen Anregungssignals, genannt 0n, vom genannten Wahrnehmungssignal abzuziehen. Tatsächlich zeigt man, daß:
- In dieser Relation ist hn die Impulsantwort der vom Kreis 10 und vom Wahrnehmungsbewertungsfilter 11 im momentanen Fenster durchgeführten Doppelfilterung und 1n ist die der geringsten Rate entsprechende modellierte vergangene Anregung, wie weiter unten in der Beschreibung beschrieben werden wird.
- Die Arbeitsweise des Langzeit-Prädiktionskreises 13 als geschlossene Schleife ist anschließend wie folgt. Dieser Kreis erlaubt es, die Periodizität des Residuums für die Schallgeräusche zu berücksichtigen, wobei diese Langzeit- Prädiktion auf allen Unterfenstern von N Proben durchgeführt wird, wie in Verbindung mit Fig. 3 beschrieben werden wird.
- Der als geschlossene Schleife ausgelegte Langzeit- Prädiktionskreis 13 umfaßt eine erste Stufe, die durch ein adaptives Verzeichnis 130 gebildet ist, welches bei allen oben genannten Unterfenstern durch die vom weiter unten in der Beschreibung beschriebenen Modul 17 gelieferte, als 1n bezeichnete modellierte Anregung wieder auf den neuesten Stand gebracht wird. Das adaptive Verzeichnis 130 erlaubt die Minimierung des Fehlers
- hinsichtlich der zwei Parameter g&sub0; und q.
- Eine solche Operation entspricht im Frequenzbereich einer Filterung durch den Transferfunktionsfilter:
- Diese Operation ist einer Suche nach der optimalen Wellenform fj(0) und ihrer zugeordneten Verstärkung g&sub0; in einem vernünftig konstruierten Verzeichnis äquivalent. Vergleiche den von R. Rose und T. Barnwell veröffentlichten Artikel mit dem Titel "Design and Performance of an Analysis by Synthesis Class of Predictive Speech Coders", IEEE Trans. on Acoustic Speech Signal Processing, September 1990.
- Die Form der Welle mit dem Index j,
- die aus dem adaptiven Verzeichnis hervorgegangen ist, wird durch einen Filter 131 gefiltert und entspricht der Anregung, die bei der durch den genannten Filter um q Proben verzögerten niedrigsten Rate 1n modelliert ist. Die optimale Wellenform f1n wird durch das adaptive gefilterte Verzeichnis 133 geliefert.
- Ein Modul 132 zur Berechnung und Quantisierung der Prädiktionsverstärkung erlaubt es, ausgehend vom Wahrnehmungssignal Pn und von der Gesamtheit der Wellenformen fj(0)n, eine Quantisierungsberechnung der Prädiktionsverstärkung durchzuführen und einen für die Nummer des Quantisierungsbereichs repräsentativen Index i(0) ebenso wie seine zugeordnete quantisierte Verstärkung g(0) zu liefern.
- Ein Multiplikatorkreis 134 liefert ausgehend vom gefilterten adaptiven Verzeichnis 133, d. h. vom Ergebnis der Filterung der Wellenform mit dem Index j Cjn, oder fjn, und ausgehend von der zugeordneten quantisierten Verstärkung g(0) die modellierte und Wahrnehmungs-gefilterte Langzeit- Prädiktionsanregung 1n.
- Ein Subtraktionskreis 135 erlaubt anschließend, eine Minimierung bezüglich en = Pn - 1n durchzuführen, wobei dieser Ausdruck das Fehlersignal repräsentiert. Ein Modul 136 erlaubt die Berechnung der Euklidischen Norm en ².
- Ein Modul 137 erlaubt es, die dem minimalen Wert der genannten Euklidischen Norm entsprechende optimale Wellenform zu suchen und den Index j(0) zu liefern. Die vom erfindungsgemäßen Kodiersystem für die Modellierung des Langzeit-Prädiktionssignals übertragenen Parameter sind dann der Index j(0) der optimalen Wellenform fj(0) sowie die Nummer i(0) des Quantisierungsbereichs ihrer quantisierten zugeordneten Verstärkung g(0).
- Eine detailliertere Beschreibung des Moduls zur adaptiven orthogonalen Transformation MT in Fig. 2 wird in Verbindung mit den Fig. 4a und 4b gegeben werden.
- Im Rahmen der Benutzung des erfindungsgemäßen Systems zur prädiktiven Kodierung mittels orthonormierter Transformation entspricht die für die Konstruktion dieser Transformation verwendete Methode der von B. S. Atal und E. Ofer vorgeschlagenen, wie im vorhergehenden in der Beschreibung erwähnt.
- Gemäß der Ausführungsform des erfindungsgemäßen Kodiersystems besteht dieses darin, nicht die Kurzzeitprädiktions- Filtermatrix zu zerlegen, sondern die Wahrnehmungsbewertungsmatrix W, die durch eine untere Toeplitz-Dreiecksmatrix gebildet ist, welche durch die Relation (4) definiert ist:
- In dieser Relation bezeichnet w(n) die Impulsantwort des Wahrnehmungsbewertungsfilters W(z) des erwähnten momentanen Fensters.
- In Fig. 4a ist das Teilschema eines prädiktiven Transformationskodierers und in Fig. 4b das äquivalente Schema dargestellt, in welchem die Matrix oder der Wahrnehmungsbewertungsfilter W, als 140 bezeichnet, hervorgehoben ist, wobei allerdings ein inverser Wahrnehmungsbewertungsfilter 121 zwischen dem Langzeit- Prädiktionsmodul 13 und dem Substraktionskreis 120 eingefügt worden ist. Man beachte, daß der Filter 140 eine Linearkombination der Basisvektoren durchführt, die ausgehend von einer Zerlegung der darstellenden Matrix des Wahrnehmungsbewertungsfilters W in singuläre Werte erhalten worden sind.
- Wie in Fig. 4b gezeigt, ist das Signal S', entsprechend dem zu kodierenden Sprachsignal Sn, von dem der vom Modul 12 gelieferte Beitrag der vergangenen Anregung sowie jener der von einem inversen Wahrnehmungsbewertungsmodul mit Transferfunktion (W(z))&supmin;¹ gefilterten Langzeitprädiktion 1n subtrahiert worden sind, durch den Wahrnehmungsbewertungsfilter mit Transferfunktion W(z) gefiltert, um den Vektor P' zu erhalten. Diese Filteroperation schreibt sich:
- P' = WS'
- und kann ausgedrückt werden als eine Linearkombination von Basisvektoren unter Verwendung der Zerlegung der Matrix W in singuläre Werte.
- Bezüglich der Ausführungsform des Wahrnehmungsbewertungsfilters 140 beachte man, daß dieser für jede darstellende Matrix W des Wahrnehmungsbewertungsfilters ein erstes Matrixmodul U = (U&sub1;, ..., UN) und ein zweites Matrixmodul V = (V&sub1;, ..., VN) umfaßt. Das erste und das zweite Matrixmodul erfüllen die Relation:
- UTWV = D
- in welcher Relation:
- - UT das transponierte Matrixmodul des Moduls U bezeichnet,
- - D ein diagonales Matrixmodul ist, dessen Koeffizienten die genannten singulären Werte bilden,
- - Ui und Vj den i-ten singulären linken Vektor bzw. den j- ten singulären rechten Vektor bezeichnen, wobei die singulären rechten Vektoren {Vj} eine Orthonormalbasis bilden.
- Eine solche Zerlegung erlaubt es, den Vorgang der Filterung mittels Faltungsprodukt durch einen Vorgang der Filterung mittels einer Linearkombination zu ersetzen.
- Man beachte, daß die Zerlegung der Wahrnehmungsfilterungsmatrix W in singuläre Werte es erlaubt, die beiden unitären Matrizen U und V zu erhalten, die die obige Relation erfüllen, worin
- UTWV = diag(d&sub1;, ..., dN)
- mit der Ordnungseigenschaft di ≥ di+1 > 0. Die Elemente di werden singuläre Werte genannt und die Vektoren Ui und Vj i- ter singulärer linker Vektor bzw. j-ter singulärer rechter Vektor.
- Die Matrix W läßt sich dann in eine Summe von Matrizen mit Rang l zerlegen und erfüllt die Relation:
- Da die Matrix V unitär ist, bilden die singulären rechten Vektoren {Vi} eine Orthonormalbasis, und das Signal S', ausgedrückt in der Form:
- erlaubt es, den Vektor P' zu erhalten, der die Relation erfüllt:
- Man beachte, daß durch das Verfahren zur Zerlegung in singuläre Werte eine Veränderung in einer Komponente der Anregung S', die einem kleinen singulären Wert zugeordnet ist, eine kleine Änderung am Ausgang des Filters 140 erzeugt und umgekehrt für die Operation der inversen Wahrnehmungsfilterung, die durch das Modul 121 ausgeführt wird.
- Um diese Eigenschaften auszunützen, kann die unitäre Matrix U als orthonormierte Transformation verwendet werden, welche die Relation erfüllt:
- F = [f1orth, ..., fNorth], (8) d. h.:
- fiorth = Ui für i = 1 bis N.
- Das bewertete Wahrnehmungssignal P' wird anschließend auf die folgende Weise zerlegt:
- G = UTP'. (9)
- Nach vektorieller Quantisierung der Verstärkungen G wird das modellierte bewertete Wahrnehmungssignal P auf folgende Weise berechnet:
- Man beachte, daß die singulären linken Vektoren, die den größten singulären Werten zugeordnet sind, eine entscheidende Rolle bei der Modellierung des bewerteten Wahrnehmungssignals P' spielen. Um dieses letztere zu modellieren, ist es folglich möglich, nur die den K größten singulären Werten zugeordneten Komponenten zu behalten, K < N, d. h. die K ersten Komponenten des Verstärkungsvektors G, die die Relation erfüllen:
- G = (g&sub1;, g&sub2; ... gK, 0, ... 0). (11)
- Da der Kurzzeit-Analysefilterkreis 10 auf Fenstern mit M Proben aktualisiert wird, erfolgt die Zerlegung der Wahrnehmungsbewertungsmatrix W in singuläre Werte mit der gleichen Frequenz.
- Eine schnelle Behandlung erlaubende Verfahren zur Zerlegung einer beliebigen Matrix in singuläre Werte sind entwickelt worden, aber die Rechnungen bleiben verhältnismäßig kompliziert.
- Um die genannten Behandlungsvorgänge zu vereinfachen, wird gemäß einem Ziel der vorliegenden Erfindung vorgeschlagen, eine feste suboptimale orthonormierte Transformation zu konstruieren, welche dennoch gute Wahrnehmungseigenschaften besitzt, unabhängig vom momentanen Fenster.
- In einer ersten, in Fig. 5 dargestellten Ausführungsform wird das Verfahren der orthonormierten Transformation durch Erlernen konstruiert. In einem solchen Fall kann das Modul zur orthonormierten Transformation aus einem zur Initialisierung durch Ziehung einer Gauss'schen Zufallsvariablen gebildeten Submodul zur stochastischen Transformation aufgebaut sein, wobei dieses Submodul in Fig. 5 die Verfahrensschritte 1000, 1001, 1002 und 1003 umfaßt und als SMTS bezeichnet ist. Der Abschnitt 1002 kann aus der Anwendung des Algorithmus des K-Mittels auf den genannten Vektorkörper bestehen.
- Auf das Submodul SMTS folgen nacheinander ein Modul 1004 zur Konstruktion der Mitten, ein Modul 1005 zur Konstruktion der Klassen und, um einen Vektor G zu erhalten, dessen Komponenten relativ zueinander geordnet sind, ein Modul 1006 zur Neuanordnung der Transformation gemäß der Kardinalzahl jeder Klasse.
- Auf das genannte Modul 1006 folgt ein Modul 1007a zur Berechnung nach Gram-Schmidt, um eine orthonormierte Transformation zu erhalten. Dem genannten Modul 1007a ist ein Modul 1007b zur Berechnung des Fehlers unter den klassischen Umständen der Benutzung des Verfahrens der Behandlung nach Gram-Schmidt zugeordnet.
- Auf das Modul 1007a wiederum folgt ein Modul 1008 zum Testen der Zahl der Iterationen, um es zu ermöglichen, eine orthonormierte Transformation zu erhalten, die außerhalb der Reihe durch Erlernen ausgeführt ist. Schließlich erlaubt der Speicher 1009 vom Typ Lesespeicher, die orthonormierte Transformation in Gestalt transformierter Vektoren zu speichern. Man beachte, daß die relative Ordnung der Komponenten des Verstärkungsvektors G zueinander durch das Verfahren der Orthogonalisation hervorgehoben wird. Wenn das Verfahren der Konstruktion durch Erlernen konvergiert ist, erhält man eine orthonormierte Transformation, deren Wellenformen schrittweise korreliert sind mit dem Lernkörper der vom Abschnitt 1001 der Anfangstransformation gelieferten Vektoren.
- Fig. 5b zeigt die Anordnung der Komponenten des Verstärkungsvektors G, d. h. des normierten mittleren Werts G für eine Transformation, die einerseits durch Zerlegung der Wahrnehmungsbewertungsmatrix W in singuläre Werte und andererseits durch Erlernen erhalten ist. Die Transformation F ist durch diese letztgenannte Methode für die orthonormierten Wellenformen erhalten, deren Frequenzspektren Bandpässe und relativ zueinander als Funktion von k geordnet sind, was es erlaubt, dieser Transformation Pseudo- Frequenzeigenschaften zuzuweisen. Eine Auswertung der Qualität der Transformation, ausgedrückt als Energiekonzentration, hat es erlaubt zu zeigen, daß beispielsweise auf einem Körper von 38.000 Wahrnehmungsvektoren P' die Transformationsverstärkung 10,35 Dezibel für die optimale Transformation nach Karhunen-Loeve und 10,29 Dezibel für eine durch Erlernen konstruierte Transformation beträgt, so daß die letztere also hinsichtlich der Energiekonzentration der optimalen Transformation nahekommt.
- Wie in der Beschreibung vorstehend erwähnt, kann die orthonormierte Transformation F auf zwei verschiedene Methoden erhalten werden.
- Berücksichtigt man, daß allgemein die am stärksten mit dem Wahrnehmungssignal P korrelierte Wellenform jene ist, die aus dem adaptiven Verzeichnis ausgegeben ist, so kann man die Durchführung einer adaptiven orthonormierten Transformation F' vorsehen, bei der f'1orth gleich der optimalen Wellenform ist, die aus dem normierten adaptiven Verzeichnis fj(0) ausgegeben ist, wobei die erste Komponente des Verstärkungsvektors G folglich gleich der normierten Langzeit-Prädiktionsverstärkung g(0) ist, welche nicht erneut berechnet werden muß, da sie bei dieser Prädiktion quantisiert worden ist. Die neue Dimension des Verstärkungsvektors G beträgt dann N-1, was es erlaubt, die Zahl binärer Elemente pro Probe bei seiner vektoriellen Quantisierung und somit die Qualität seiner Modellierung zu erhöhen.
- Eine erste Lösung zur Berechnung der Transformation F' kann dann darin bestehen, eine Langzeit-Prädiktionsanalyse vorzunehmen, die durch Erlernen erhaltene Transformation um eine Stufe zu verschieben, den Langzeitprädiktor an die erste Position zu stellen und dann den Algorithmus nach Gram- Schmidt anzuwenden, um eine neue Transformation F' zu erhalten.
- Eine zweite, vorteilhaftere Lösung besteht darin, eine Transformation zu verwenden, die es erlaubt, die Orthonormalbasis zu drehen, damit die erste Wellenform mit dem Langzeitprädiktor zusammenfällt, d. h.:
- F' = TF
- mit
- Um die Eigenschaft der Orthogonalität zu erhalten, muß die verwendete Transformation das Skalarprodukt erhalten. Eine besonders geeignete Transformation ist die Householder- Transformation, die die Relation erfüllt:
- mit
- B = fj(0) - fj(0) - f1orth. (13)
- Eine geometrische Darstellung der genannten Transformation ist in den Fig. 6a und 6b gegeben.
- Für eine detailliertere Definition dieses Transformationstyps wird auf die Veröffentlichung von Alan O. Steinhardt mit dem Titel "Householder Transforms in Signal Processing" IEEE ASSP Magazine, Juli 1988, S. 4-12 verwiesen.
- Durch Verwendung dieser Transformation kann man die Komplexität der Berechnungen verringern und die Projektion des Wahrnehmungssignals P in dieser neuen Basis lautet:
- G = F'TP = FTTP = FTP" (14)
- mit P' = TP = (P - B [wBTP]).
- In dieser Relation bezeichnet w einen Skalar w = 2/BTB.
- Man beachte, daß bei dieser Ausführungsform der orthonormierten Transformation die Transformation nur auf das Wahrnehmungssignal P angewandt wird, und daß das modellierte Wahrnehmungssignal dann durch die inverse Transformation berechnet werden kann.
- Eine besonders vorteilhafte Ausführungsform des Moduls zur orthonormierten Transformation 14 im Fall der Verwendung einer Householder-Transformation wird nun in Verbindung mit Fig. 7 beschrieben werden.
- Wie in der genannten Fig. 7 dargestellt, kann das adaptive Transformationsmodul ein Householder-Transformationsmodul 140 umfassen, welches das aus der optimalen Wellenform und der geschätzten Verstärkung gebildete geschätzte Wahrnehmungssignal und das Wahrnehmungssignal P empfängt, um ein transformiertes Wahrnehmungssignal P" zu erzeugen. Man beachte, daß das Householder-Transformationsmodul 140 ein Modul 1401 zur Berechnung der vorstehend in der Relation 13 definierten Parameter B und wB umfaßt. Es umfaßt ebenfalls ein Modul 1402, welches einen Multiplikator und einen Subtrahierer umfaßt, die genau gesagt die Durchführung der Transformation nach Relation 14 erlauben. Man beachte, daß das transformierte Wahrnehmungssignal P" in Gestalt eines Vektors des transformierten Wahrnehmungssignals mit Komponenten P"k mit k [0, N - 1] geliefert wird.
- Das in Fig. 7 gezeigte adaptive Transformationsmodul 14 umfaßt ebenfalls eine Mehrzahl N von Registern zur Speicherung der orthonormierten Wellenformen, wobei das momentane Register als r mit r [1, N] bezeichnet ist. Man beachte, daß die genannten N Register zur Speicherung den vorstehend in der Beschreibung beschriebenen Lesespeicher bilden, jedes Register N Speicherzellen umfaßt und jede als f1orth(k) bezeichnete Komponente vom Rang k jedes Vektors in einer Zelle entsprechenden Rangs des betrachteten momentanen Registers r gespeichert ist.
- Wie man in Fig. 7 beobachtet, umfaßt das Modul 14 ferner eine die Mehrzahl der vorstehend genannten Speicherregister bildende Mehrzahl von N jedem Register vom Rang r zugeordneten Multiplikatorkreisen. Ferner empfängt jedes Multiplikatorregister vom Rang k einerseits die Komponente vom Rang k des gespeicherten Vektors und andererseits die Komponente P"k des Vektors des transformierten Wahrnehmungssignals vom entsprechenden Rang k. Der Multiplikatorkreis Mrk liefert das Produkt P"k · fkorth(k) der Komponenten des transformierten Wahrnehmungssignals.
- Schließlich ist eine Mehrzahl von N - 1 Summierkreisen jedem Register vom Rang r zugeordnet, wobei jeder Summierkreis vom Rang k, als Srk bezeichnet, das Produkt des vorhergehenden Rangs k - 1 und das durch den Multiplikatorkreis Mrk des gleichen Rangs k gelieferte Produkt des entsprechenden Rangs k empfängt. Der Summierkreis des höchsten Rangs, SrN - 1, liefert dann eine in Gestalt des Verstärkungsvektors G ausgedrückte Komponente g(r) der geschätzten Verstärkung.
- Man beachte, daß das System zur prädiktiven Kodierung unter Verwendung der adaptiven orthonormierten Transformation, die durch Erlernen konstruiert ist, zur Abgabe besserer Ergebnisse geeignet ist, während die Householder- Transformation erlaubt, eine geringere Komplexität zu erhalten.
- Wie man in Fig. 2 beobachten wird, umfaßt das Modul zum progressiven Modellieren mittels orthogonaler Vektoren tatsächlich ein Modul 15 zur Normierung des Verstärkungsvektors, um mittels Vergleichs des normierten Werts des Verstärkungsvektors G hinsichtlich eines Schwellenwerts einen normierten Verstärkungsvektor Gk zu erzeugen. Dieses Modul zur Normierung 15 erlaubt es, als Funktion des Grads des Modellierens ferner ein Signal von der Länge des normierten Verstärkungsvektors, der mit diesem Grad des Modellierens k verbunden ist, in Richtung des Dekodiersystems zu erzeugen.
- Das Modul zum progressiven Modellieren mittels orthogonaler Vektoren umfaßt ferner in Kaskade mit dem Modul 15 zum Normieren des Verstärkungsvektors eine Stufe 16 zum progressiven Modellieren mittels orthogonaler Vektoren. Diese Stufe zum Modellieren 16 empfängt den normierten Vektor Gk und liefert die repräsentativen Indizes des codierten Sprachsignals, welche Indizes als I(l), J(l) bezeichnet sind, wobei diese Indizes für die ausgewählten Vektoren und ihre zugeordnete Verstärkung repräsentativ sind. Die Übertragung der durch die Indizes gebildeten Hilfsdaten wird durch Auslöschung der Teile des Rasters bewirkt, die den Indizes und Bereichsnummern zum Bilden des Hilfsdatensignals zugewiesen sind.
- Die Funktionsweise des Moduls zur Normierung 15 ist wie folgt.
- Die Energie des Wahrnehmungssignals, gegeben durch P' ² = G ²
- ist für ein gegebenes Unterfenster konstant. Unter diesen Umständen ist eine Maximierung dieser Energie einer Minimierung des folgenden Ausdrucks äquivalent:
- wobei Gk = (0, g&sub2;, g&sub3;, ..., gk, 0, ... 0).
- Man beachte, daß bei einer solchen Operation eine weitere Methode zur Erhöhung der Zahl der binären Elemente pro Probe bei der vektoriellen Quantisierung des Vektors G darin besteht, das folgende normierte Kriterium zu verwenden, bestehend in einer Auswahl von K gemäß:
- mit 0 ≤ s ≤ 1 (16)
- Der derart erhaltene Verstärkungsvektor GK wird dann quantisiert und seine Länge k durch das erfindungsgemäße Kodiersystem übertragen, um durch das entsprechende Dekodiersystem berücksichtigt zu werden, wie nachfolgend in der Beschreibung beschrieben wird.
- Das mittlere normierte Kriterium als Funktion des Grads des Modellierens K ist in Fig. 8a für eine orthonormierte Transformation gegeben, die einerseits durch Zerlegung der Wahrnehmungsbewertungsmatrix W in singuläre Werte und andererseits durch Erlernen erhalten ist.
- Eine besonders vorteilhafte Ausführungsform des Moduls zum progressiven Modellieren mittels orthogonaler Vektoren 16 wird nun in Verbindung mit Fig. 8b gegeben. Das genannte Modul erlaubt tatsächlich die Durchführung einer vielstufigen vektoriellen Quantisierung.
- Der Verstärkungsvektor wird erhalten durch Linearkombination von Vektoren, geschrieben als
- Ψjk = (0, Ψj2, Ψj3, ..., Ψjk, 0,0 ... 0) (17)
- Diese Vektoren sind aus stochastischen Verzeichnissen 161, 162, 16L ausgegeben, gebildet entweder durch Ziehung einer Gauss'schen Zufallsvariablen oder durch Erlernen. Der geschätzte Verstärkungsvektor erfüllt die Relation:
- In dieser Relation ist θ&sub1; die Verstärkung, die dem optimalen Vektor ΨKj(l) zugeordnet ist, welcher aus dem stochastischen Verzeichnis mit Rang l, als 16l bezeichnet, ausgegeben ist.
- Allerdings sind die iterativ ausgewählten Vektoren im allgemeinen nicht linear unabhängig und bilden daher keine Basis. In diesem Fall besitzt der von den L optimalen Vektoren ΨKj(L) gebildete Unterraum eine Dimension, die kleiner als L ist.
- In Fig. 9 ist die Projektion des Vektors G auf den durch die optimalen Vektoren des Rangs l bzw. l-1 erzeugten Unterraum gezeigt, wobei diese Projektion optimal ist, wenn die genannten Vektoren orthogonal sind.
- Es ist daher besonders vorteilhaft, das stochastische Verzeichnis des Rangs l bezüglich des optimalen Vektors der Stufe des vorhergehenden Rangs ΨKj(l-1) zu orthogonalisieren.
- Unabhängig vom optimalen Vektor des Rangs l, der aus dem neuen Verzeichnis oder Stufe des entsprechenden Rangs l ausgegeben ist, wird dieser folglich orthogonal zum optimalen Vektor ΨKj(l-1) des vorhergehenden Rangs sein und man erhält:
- In dieser Relation beachte man, daß:
- der Energie der in Stufe l gewählten Welle entspricht, daß
- die gegenseitige Korrelation der optimalen Vektoren des Rangs j und des Rangs j(l) darstellt, und daß
- die Orthogonalisierungsmatrix darstellt.
- Die vorhergehende Operation erlaubt es, den Beitrag der vorher ausgewählten Welle vom Verzeichnis abzuziehen und bewirkt somit für jeden optimalen Vektor des zwischen l+1 und L enthaltenen Rangs i eine lineare Unabhängigkeit bezüglich der optimalen Vektoren niedrigeren Rangs.
- Prinzipielle Schemata der vektoriellen Quantisierung mittels progressiven orthogonalen Modellierens sind in den Fig. 10a und 10b gegeben, gemäß denen ein oder mehrere stochastische Verzeichnisse existieren.
- Man beachte, daß zur Verringerung der Komplexität des Verfahrens der vektoriellen Quantisierung der modifizierte rekursive Algorithmus nach Gram-Schmidt verwendet werden kann, wie vorgeschlagen worden ist von N. Moreau, P. Dymarski, A. Vigier in der Veröffentlichung mit dem Titel: "Optimal and Suboptimal Algorithms for Selecting the Excitation in Linear Predictive Products", Proc. ICASSP 90, S. 485-488.
- Unter Berücksichtigung der Orthogonalisierungseigenschaften zeigt man, daß:
- Unter Berücksichtigung dieses Ausdrucks kann der modifizierte rekursive Algorithmus nach Gram-Schmidt, wie vorstehend vorgeschlagen, verwendet werden.
- Es ist somit nicht mehr erforderlich, die Verzeichnisse bei jeder Stufe der Orthogonalisierung explizit neu zu berechnen.
- Das genannte Berechnungsverfahren kann in Matrixform ausgedrückt werden, ausgehend von der Matrix
- Man beachte, daß Q eine orthonormierte Matrix ist und daß R eine obere Dreiecksmatrix ist, bei der alle Elemente der Hauptdiagonalen positiv sind, was die Eindeutigkeit der Zerlegung gewährleistet.
- Der Verstärkungsvektor G erfüllt die Matrixrelation:
- G = Q = Aθ = QRθ (25)
- was Rθ = impliziert.
- Die obere Dreiecksmatrix R erlaubt somit die rekursive Berechnung der Verstärkungen θ(k) bezüglich der Ausgangsbasis. Der Beitrag der optimalen Vektoren zur orthonormierten Basis, als {Ψj(l)orth(L)} bezeichnet, beim Modellieren des Verstärkungsvektors GK neigt zum Abnehmen, und die Verstärkungen { l} sind in abnehmender Weise geordnet. Das Residuum kann auf die nachfolgende Weise schrittweise modelliert werden, wobei codk die Verstärkung bezeichnet, die dem quantisierten optimalen orthogonalen Vektor Ψj(k)orth(k) zugeordnet ist, unter Berücksichtigung der Relationen:
- mit 1 ≤ L&sub1; ≤ L&sub2; ≤ L.
- Man erhält somit die orthogonalen Verstärkungsvektoren ¹, ² , ³, deren Beitrag beim Modellieren des Verstärkungsvektors G abnimmt, was auf wirksame Weise die schrittweise Modellierung des Residuums rn erlaubt. Die vom erfindunsgemäßen Kodiersystem für das Modellieren des Verstärkungsvektors G übertragenen Parameter sind somit die Indizes j(l) der ausgewählten Vektoren sowie die Bereichsnummern i(l) der Quantisierung ihrer zugeordneten Verstärkungen, l. Die Übertragung der Daten erfolgt somit durch Auslöschung der Teile des Rasters, die den Indizes und Bereichsnummern j(l), i(l) zugewiesen sind, mit l [L1, L2- 1] und [L2, L] gemäß den Bedürfnissen der Kommunikation.
- Das vorstehend erwähnte Behandlungsverfahren verwendet den modifizierten rekursiven Algorithmus nach Gram-Schmidt, um den Verstärkungsvektor G zu kodieren. Da die vom erfindungsgemäßen Kodiersystem übertragenen Parameter die genannten Indizes j(0) bis j(L) der verschiedenen Verzeichnisse sowie die quantisierten Verstärkungen g(0) und { k} sind, müssen die verschiedenen genannten Verstärkungen g(0) und { k} kodiert werden. Eine Untersuchung hat gezeigt, daß die Verstärkungen bezüglich der Orthogonalbasis {Ψj(l)orth(L)} gute Eigenschaften für ihre Quantisierung besitzen, wenn sie dekorreliert sind. Ferner sind die Verstärkungen { l} relativ abnehmend geordnet, da der Beitrag der optimalen Vektoren beim Modellieren des Verstärkungsvektors G zur Abnahme neigt, und man kann diese Eigenschaft dadurch ausnützen, daß man nicht die genannten Verstärkungen, sondern ihr durch l/ l-1 gegebenes Verhältnis kodiert. Mehrere Lösungen können zum Kodieren der genannten Verhältnisse verwendet werden.
- Wie man in Fig. 2 bemerken wird, umfaßt die erfindungsgemäße Kodiervorrichtung ein Modul zum Modellieren der Anregung des Synthesefilters entsprechend der niedrigsten Rate, welches Modul in der genannten Figur als 17 bezeichnet ist.
- Das prinzipielle Schema der Berechnung des Signals der Anregung des Synthesefilters entsprechend der niedrigsten Rate ist in Fig. 11 gegeben. Eine inverse Transformation wird auf die modellierten Verstärkungsvektoren ¹ angewandt, wobei diese adaptive inverse Transformation beispielsweise einer inversen Householder-Transformation entsprechen kann, die nachfolgend in der Beschreibung in Verbindung mit der erfindungsgemäßen Dekodiervorrichtung beschrieben wird. Das nach der adaptiven inversen Transformation erhaltene Signal wird mittels eines Summierers 171 zum Langzeit- Prädiktionssignal B'1n addiert, wobei das geschätzte Wahrnehmungssignal oder Langzeit-Prädiktionssignal durch den Langzeit-Prädiktionskreis 13 in geschlossener Schleife geliefert ist. Das vom Summierer 171 gelieferte resultierende Signal wird durch einen Filter 172 gefiltert, welcher unter dem Gesichtspunkt der Transferfunktion dem Filter 131 in Fig. 3 entspricht. Der Filter 172 liefert das modellierte Residuumssignal 1n.
- Ein System zur prädiktiven Dekodierung mittels adaptiver Transformation mit eingebetteten Kodes eines kodierten digitalen Signals, welches aus einem kodierten Sprachsignal und gegebenenfalls aus einem Hilfsdatensignal besteht, welches in das kodierte Sprachsignal nach Kodierung dieses letztgenannten eingefügt wird, wird nun in Verbindung mit Fig. 12 beschrieben.
- Gemäß der genannten Figur umfaßt das Dekodiersystem einen Kreis 20 zum Auslesen des Datensignals, der einerseits das Auslesen der Daten in Hinsicht auf eine Hilfsnutzung durch einen Hilfsdatenausgang und andererseits die Übertragung der repräsentativen Indizes des kodierten Sprachsignals erlaubt. Man versteht selbstverständlich, daß die genannten Indizes die Indizes i(l) und j(l) sind, die für zwischen 0 und L&sub1;-1 enthaltenes l vorstehend in der Beschreibung beschrieben sind und bei denen l unter nachfolgend beschriebenen Umständen zwischen l&sub1; und L enthalten ist. Wie in Fig. 12 ferner dargestellt, umfaßt das erfindungsgemäße Dekodiersystem einen Kreis 21 zum Modellieren des Sprachsignals bei minimaler Rate sowie einen Kreis 22 oder 23 zum Modellieren des Sprachsignals bei wenigstens einer Rate, die höher als die genannte minimale Rate ist.
- In einer in Fig. 12 dargestellten bevorzugten Ausführungsform umfaßt das erfindungsgemäße Dekodiersystem zusätzlich zum System zum Auslesen der Daten 20 ein erstes Modul 21 zum Modellieren des Sprachsignals bei minimaler Rate, welches direkt das kodierte Signal empfängt und ein erstes geschätztes Sprachsignal 1n liefert und ein zweites Modul 22 zum Modellieren des Sprachsignals bei einer mittleren Rate, welches mit dem System zum Datenauslesen 20 mit Hilfe eines Kreises 27 zur bedingten Kommutation nach dem Kriterium der reellen, dem Sprachsignal zugewiesenen Rate verbunden ist und ein zweites geschätztes Sprachsignal 2n liefert.
- Das in Fig. 12 dargestellte Dekodiersystem umfaßt ebenfalls ein drittes Modul 23 zum Modellieren des Sprachsignals bei einer maximalen Rate, welches mit dem System zum Datenauslesen 20 mit Hilfe eines Kreises 28 zur bedingten Kommutation nach dem Kriterium der reellen, der Sprache zugewiesenen Rate verbunden ist und ein drittes geschätztes Sprachsignal 3n liefert.
- Ferner empfängt ein Summierkreis 24 das erste, das zweite und das dritte geschätzte Sprachsignal und liefert an seinem Ausgang ein resultierendes geschätztes Sprachsignal n. Am Ausgang des Summierkreises 24 ist in Kaskade ein adaptiver Filterkreis 25 verbunden, der das resultierende geschätzte Sprachsignal n empfängt und ein wiederhergestelltes geschätztes Sprachsignal 'n liefert. Ein Digital-Analog- Wandler 26 kann vorgesehen sein, um das wiederhergestellte Sprachsignal zu empfangen und ein wiederhergestelltes Audiofrequenz-Sprachsignal zu liefern.
- Gemäß einer besonders vorteilhaften Eigenschaft der erfindungsgemäßen Dekodiervorrichtung umfaßt jedes der Module zum Modellieren des Sprachsignals bei minimaler, mittlerer und maximaler Rate, d. h. die Module 21, 22 und 23 der Fig. 12, ein Submodul zur inversen adaptiven Transformation, auf das ein inverser Wahrnehmungsbewertungsfilter folgt.
- Das prinzipielle Schema des Moduls zum Modellieren des Sprachsignals bei minimaler Rate ist in Fig. 13a gegeben.
- Das erfindungsgemäße Dekodiersystem berücksichtigt allgemein die Zwangsbedingungen, die durch die Datenübertragung im Bereich des Kodiersystems und insbesondere im Bereich des adaptiven Verzeichnisses auferlegt werden, sowie den Beitrag der vergangenen Anregung.
- Der Kreis zum Modellieren des Sprachsignals bei minimaler Rate 21 ist jenem identisch, der mit Bezug auf den Kreis 17 des erfindungsgemäßen Kodiersystems beschrieben ist, ausgehend von einem Modul zur adaptiven inversen Transformation, welches dem in Zusammenhang mit Fig. 11 beschriebenen Modul 170 ähnlich ist. Man beachte einfach, daß in Fig. 13a der Erhalt des Wahrnehmungssignals 1n ausgehend von den Indizes {i(0), j(0)}, vom Grad des Modellierens K und von den Indizes i(l), j(l) für l = 1 bis L1-1 ausgedrückt ist.
- Eine vorteilhafte Ausführungsform der inversen adaptiven Transformation ist in Fig. 13b dargestellt. Man beachte, daß die in Fig. 13b gezeigte Ausführungsform einer Transformation vom inversen Householder-Typ entspricht, die Elemente verwendet, die der in Fig. 7 dargestellten Householder-Transformation identisch sind. Man beachte einfach, daß für ein vom Langzeit-Prädiktionskreis 13 geliefertes Wahrnehmungssignal ¹, welches in ein ähnliches Modul 140 eintritt, die jeweils im Bereich der jedem Register zugeordneten Multiplikatoren in das Modul 1402 eintretenden Signale invertiert sind. Das von dem dem Summierer 171 in Fig. 11 entsprechenden Summierer gelieferte Signal wird durch einen Filter mit einer zur Transferfunktion der Wahrnehmungsbewertungsmatrix inversen Transferfunktion gefiltert, der dem Filter 172 der gleichen Fig. 11 entspricht.
- Die Module zum Modellieren des Sprachsignals bei mittlerer oder maximaler Rate, die Module 22 oder 23, sind in den Fig. 14a und 14b dargestellt.
- Wie in den Fig. 14a und 14b dargestellt, ist es aus Gründen der Komplexität selbstverständlich möglich, die verschiedenen, den anderen Raten entsprechenden Modellierungen des Sprachsignals in einem einzigen Block neu zu gruppieren. Wie in Fig. 14b dargestellt, werden gemäß der der Sprache zugewiesenen reellen Rate die modellierten Verstärkungsvektoren ², ³ durch einen Summierer 220 addiert, einem adaptiven inversen Transformationsverfahren in einem zum Modul 210 der Fig. 13a identischen Modul 221 unterworfen, anschließend durch den als 222 bezeichneten, vorstehend erwähnten inversen Bewertungsfilter W&supmin;¹(z) gefiltert, wobei die Filterung von Null-Anfangszuständen ausgeht, was die Durchführung einer zur Multiplikation mit der inversen Matrix W&supmin;¹ äquivalenten Operation erlaubt, um ein progressives Modellieren des Synthesesignals n zu erhalten. Man beachte in Fig. 14b die Anwesenheit von Kommutationsvorrichtungen, die nichts anderes sind als die in Fig. 12 dargestellten Kommutationsvorrichtungen 24 und 28 und die als Funktion der reellen Rate der übertragenen Daten gesteuert werden.
- Was schließlich den adaptiven Filter 25 betrifft, so ist eine besonders vorteilhafte Ausführungsform in Fig. 15 gegeben. Dieser adaptive Filter erlaubt die Verbesserung der Wahrnehmungsqualität des infolge der Summation durch den Summierer 24 erhaltenen Synthesesignals n. Ein solcher Filter umfaßt beispielsweise ein Langzeit-Nachfilterungsmodul 250, auf das ein Kurzzeit-Nachfilterungsmodul und ein Modul 252 zur Energiekontrolle folgen, welches durch ein Modul 253 zur Berechnung des Skalenfaktors gesteuert wird. Somit liefert der adaptive Filter 25 das gefilterte Signal 'n, welches Signal dem Signal entspricht, in dem das vom Kodierer in das synthetisierte Sprachsignal eingeführte Quantisierungsrauschen an den Stellen des Spektrums gefiltert ist, wo dies möglich ist. Man beachte, daß das in Fig. 15 dargestellte Schema den Veröffentlichungen von J. H. Chen und A. Gersho, "Real Time Vector APC Speech Coding at 4800 Bps with Adaptative Postfiltering", ICASSP 87, Vol. 3, S. 2185- 2188, entspricht.
- Somit ist ein System zur prädiktiven Kodierung mittels orthonormierter Transformation mit eingebetteten Kodes beschrieben worden, welches neuartige Lösungen auf dem Gebiet der Kodierer mit eingebetteten Kodes erlaubt. Man beachte allgemein, daß das erfindungsgemäße Kodiersystem eine Kodierung im Breitband mit Sprach/Daten-Raten von 32/0 kbit/s, 24/8 kbit/s und 16/16 kbit/s erlaubt.
Claims (10)
1. System zur prädiktiven Kodierung eines digitalen Signals in ein digitales
Signal mit eingebetteten Kodes, welches durch adaptive Transformation mit
eingebetteten Kodes kodiert ist, wobei das kodierte digitale Signal aus einem
kodierten Sprachsignal und gegebenenfalls aus einem Hilfsdatensignal
gebildet ist, welches in das kodierte Sprachsignal nach Kodierung dieses
letztgenannten eingefügt wird, wobei das System einen
Wahrnehmungsbewertungsfilter (11) enthält, welcher durch eine die
Erzeugung eines Wahrnehmungssignals erlaubende Kurzzeit-
Prädiktionsschleife gesteuert wird, und einen ein geschätztes
Wahrnehmungssignal 1n liefernden Langzeit-Prädiktionskreis enthält, wobei
dieser Langzeit-Prädiktionskreis eine Langzeit-Prädiktionsschleife bildet, die
es erlaubt, vom Wahrnehmungssignal und vom geschätzten vergangenen
Anregungssignal ausgehend ein modelliertes
Wahrnehmungsanregungssignal zu liefern, und Mittel zur adaptiven
Transformation und Quantisierung enthält, die es erlauben, vom
Wahrnehmungsanregungssignal ausgehend das kodierte Sprachsignal zu
erzeugen, dadurch gekennzeichnet, daß der
Wahrnehmungsbewertungsfilter aus einem Kurzzeit-Prädiktionsfilter für das
zu kodierende Sprachsignal besteht, um eine Frequenzverteilung des
Quantisierungsrauschens zu bewirken, daß es Mittel (12) zur Subtraktion
des Beitrags des vergangenen Anregungssignals 0n vom
Wahrnehmungssignal umfaßt, um ein aktualisiertes Wahrnehmungssignal Pn
zu liefern, daß der Langzeit-Prädiktionskreis als geschlossene Schleife
ausgehend von einem Verzeichnis ausgebildet ist, welches durch die der
geringsten Rate entsprechende modellierte vergangene Anregung
aktualisiert wird, was es erlaubt, eine optimale Wellenform und eine
geschätzte mit dieser verbundene Verstärkung zu liefern, welche wesentlich
sind für das geschätzte Wahrnehmungssignal, und daß die
Transformationsmittel durch ein Modul zur orthonormierten Transformation
gebildet sind, das ein Modul zur adaptiven orthogonalen Transformation und
ein Modul zum progressiven Modellieren mittels orthogonaler Vektoren
umfaßt, wobei diese Mittel zum progressiven Modellieren und der Langzeit-
Prädiktionskreis es erlauben, für das kodierte Sprachsignal repräsentative
Indizes zu liefern, wobei das System ferner Mittel (19) zum Einfügen
angehängter Hilfsdaten in den Übertragungskanal umfaßt.
2. Kodiersystem nach Anspruch 1, dadurch gekennzeichnet, daß das Modul
zur adaptiven orthogonalen Transformation umfaßt:
- einen Filter, der eine Linearkombination der Basisvektoren bewirkt, die
ausgehend von einer Zerlegung der darstellenden Matrix des
Wahrnehmungsbewertungsfilters in singuläre Werte erhalten werden.
3. Kodiersystem nach Anspruch 2, dadurch gekennzeichnet, daß der Filter für
jede darstellende Matrix W des Wahrnehmungsbewertungsfilters umfaßt:
- ein erstes Matrixmodul U = (U&sub1;, ..., UN) und
- ein zweites Matrixmodul V = (V&sub1;, ..., VN), wobei das erste und das zweite
Matrixmodul die Relation UTWV = D erfüllen, worin UT das transponierte
Matrixmodul des Moduls U bezeichnet, und worin D ein diagonales
Matrixmodul ist, dessen Koeffizienten die singulären Werte bilden, wobei Ui
und Vj den i-ten singulären linken Vektor beziehungsweise den j-ten
singulären rechten Vektor bezeichnen, wobei die singulären rechten
Vektoren {Vj} eine Orthonormalbasis bilden, was es erlaubt, den Vorgang der
Filterung mittels Faltungsprodukt durch einen Vorgang der Filterung mittels
einer Linearkombination zu transformieren.
4. Kodiersystem nach Anspruch 1, dadurch gekennzeichnet, daß das Modul
zur orthonormierten Transformation aufgebaut ist aus:
- einem zur Initialisierung durch Ziehung einer gaußschen Zufallsvariablen
gebildeten Submodul zur stochastischen Transformation,
- einem Modul zur globalen Mittelung über eine Mehrzahl von Vektoren, die
aus einem prädiktiven Transformationskodierer stammen,
- einem Modul zur Neuanordnung,
- einem Modul zur Behandlung nach Gram-Schmidt, wobei eine Reiteration
der Behandlungen durch die vorhergehenden Module es erlaubt, eine
orthonormierte, außerhalb der Reihe durchgeführte, durch Erlernen gebildete
Transformation zu erhalten,
- aus einem Speicher vom Typ Lesespeicher, der es erlaubt, die
orthonormierte Transformation in Gestalt transformierter Vektoren zu
speichern.
5. Kodiersystem nach Anspruch 4, dadurch gekennzeichnet, daß die
Transformation durch orthonormierte Wellenformen gebildet ist, deren
Frequenzspektren Bandpässe und relativ zueinander geordnet sind, wobei
die erste Wellenform aus den orthonormierten, relativ zueinander geordneten
Wellenformen gleich der optimalen normierten Wellenform ist, die aus dem
adaptiven Verzeichnis stammt, und daß die erste Komponente der
geschätzten Verstärkung gleich der normierten Langzeitprädiktions-
Verstärkung ist.
6. Kodiersystem nach Anspruch 2 und 5, dadurch gekennzeichnet, daß das
adaptive Transformationsmodul umfaßt:
- ein Householder-Transformationsmodul, welches das aus der optimalen
Wellenform und der geschätzten Verstärkung gebildete geschätzte
Wahrnehmungssignal 11 und das Wahrnehmungssignal empfängt, um ein
transformiertes Wahrnehmungssignal P" in Gestalt eines Vektors des
transformierten Wahrnehmungssignals mit Komponenten P"k zu erzeugen,
- eine Mehrzahl von N Registern zur Speicherung der orthonormierten
Wellenformen, wobei die Mehrzahl der Register den Lesespeicher bildet,
jedes Register vom Rang r N Speicherzellen umfaßt, und eine Komponente
vom Rang k jedes Vektors in einer Zelle entsprechenden Rangs gespeichert
ist,
- eine die Mehrzahl von Speicherregistern bildende Mehrzahl von N jedem
Register zugeordneten Multiplikatorkreisen, wobei jeder Multiplikatorkreis
vom Rang k einerseits die Komponente vom Rang k des gespeicherten
Vektors und andererseits die Komponente P"k des Vektors des
transformierten Wahrnehmungssignals vom Rang k empfängt, und das
Produkt P"k · fkorth(k) der Komponenten des Vektors des transformierten
Wahrnehmungssignals liefert,
- eine Mehrzahl von N - 1 jedem Register vom Rang r zugeordneten
Summierkreisen, wobei jeder Summierkreis vom Rang k das durch den
Multiplikatorkreis des vorhergehenden Rangs gelieferte Produkt des
vorhergehenden Rangs k - 1 und das durch den Multiplikatorkreis des
vorhergehenden Rangs gelieferte Produkt des entsprechenden Rangs k und
das durch den Multiplikatorkreis vom gleichen Rang k gelieferte Produkt des
entsprechenden Rangs k empfängt, wobei der Summierkreis des höchsten
Rangs, N - 1, eine Komponente g(r) der als Verstärkungsvektor G
ausgedrückten geschätzten Verstärkung liefert.
7. System nach Anspruch 1, dadurch gekennzeichnet, daß das Modul zum
progressiven Modellieren mittels orthogonaler Vektoren umfaßt:
- ein Modul zur Normierung des Verstärkungsvektors, um mittels Vergleichs
des normierten Werts des Verstärkungsvektors G hinsichtlich eines
Schwellenwerts einen normierten Verstärkungsvektor Gk zu erzeugen, wobei
das Modul zur Normierung es erlaubt, als Funktion des Grads des
Modellierens ferner ein Signal von der Länge des normierten
Verstärkungsvektors Gk in Richtung des Dekodiersystems zu erzeugen,
- eine Stufe zum progressiven Modellieren mittels orthogonaler Vektoren, die
genau gesagt den normierten Vektor Gk empfängt und die repräsentativen
Indizes des kodierten Sprachsignals liefert, wobei die Indizes für die
ausgewählten Vektoren und ihre zugeordneten Verstärkungen repräsentativ
sind, wobei die Übertragung der durch die Indizes gebildeten Hilfsdaten
durch Auslöschung der Teile des Rasters bewirkt wird, die den Indizes und
Bereichsnummern zum Bilden des Hilfsdatensignals zugewiesen sind.
8. System zur prädiktiven Dekodierung mittels adaptiver Transformation eines
kodierten digitalen Signals mit eingebetteten Kodes, wobei das kodierte
digitale Signal aus einem kodierten Sprachsignal und gegebenenfalls aus
einem Hilfsdatensignal besteht, welches in das kodierte Sprachsignal nach
Kodierung dieses letztgenannten eingefügt wird, dadurch gekennzeichnet,
daß es umfaßt:
- Mittel zum Auslesen des Datensignals, die einerseits das Auslesen der
Daten in Hinsicht auf eine Hilfsnutzung und andererseits die Übertragung der
repräsentativen Indizes des kodierten Sprachsignals erlauben,
- Mittel zum Modellieren des Sprachsignals bei minimaler Rate,
- Mittel zum Modellieren des Sprachsignals bei wenigstens einer Rate, die
höher als die minimale Rate ist.
9. Dekodiersystem nach Anspruch 8, dadurch gekennzeichnet, daß dieser
Dekodierer außer dem System zum Datenauslesen umfaßt
- ein erstes Modul zum Modellieren des Sprachsignals bei minimaler Rate,
welches direkt das kodierte Signal empfängt und ein erstes geschätzes
Sprachsignal 1n liefert,
- ein zweites Modul zum Modellieren des Sprachsignals bei einer mittleren
Rate, welches mit dem System zum Datenauslesen mit Hilfe von Mitteln zur
bedingten Kommutation nach dem Kriterium des Werts der Indizes
verbunden ist und ein zweites geschätztes Sprachsignal 2n liefert,
- ein drittes Modul zum Modellieren des Sprachsignals bei einer maximalen
Rate, welches mit dem System zum Datenauslesen mit Hilfe von Mitteln zur
bedingten Kommutation nach dem Kriterium des Werts der Indizes
verbunden ist und ein drittes geschätztes Sprachsignal 3n liefert,
- einen Summierkreis, der an seinen Summiereingängen das erste, das
zweite beziehungsweise das dritte geschätzte Sprachsignal empfängt und
an seinem Ausgang ein resultierendes geschätztes Sprachsignal liefert, und
mit dem Ausgang des Summierkreises in Kaskade verbunden
- einen adaptiven Filterkreis, der das resultierende geschätzte Sprachsignal
empfängt und ein wiederhergestelltes geschätztes Sprachsignal liefert, und
einen Digital/Analog-Konverter, der das wiederhergestellte geschätzte
Sprachsignal empfängt und ein wiederhergestelltes Audiofrequenz-
Sprachsignal liefert.
10. Dekodiersystem nach Anspruch 9, dadurch gekennzeichnet, daß jedes der
Module zum Modellieren des Sprachsignals bei minimaler, mittlerer oder
maximaler Rate ein Submodul zur inversen adaptiven Transformation
umfaßt, auf das ein inverser Wahrnehmungsbewertungsfilter folgt.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR9300601A FR2700632B1 (fr) | 1993-01-21 | 1993-01-21 | Système de codage-décodage prédictif d'un signal numérique de parole par transformée adaptative à codes imbriqués. |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69412294D1 DE69412294D1 (de) | 1998-09-17 |
DE69412294T2 true DE69412294T2 (de) | 1999-04-15 |
Family
ID=9443261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69412294T Expired - Lifetime DE69412294T2 (de) | 1993-01-21 | 1994-01-18 | System zur prädiktiven Kodierung/Dekodierung eines digitalen Sprachsignals mittels einer adaptiven Transformation mit eingebetteten Kodes |
Country Status (4)
Country | Link |
---|---|
US (1) | US5583963A (de) |
EP (1) | EP0608174B1 (de) |
DE (1) | DE69412294T2 (de) |
FR (1) | FR2700632B1 (de) |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5822436A (en) * | 1996-04-25 | 1998-10-13 | Digimarc Corporation | Photographic products and methods employing embedded information |
FR2722631B1 (fr) * | 1994-07-13 | 1996-09-20 | France Telecom Etablissement P | Procede et systeme de filtrage adaptatif par egalisation aveugle d'un signal telephonique numerique et leurs applications |
FR2729245B1 (fr) * | 1995-01-06 | 1997-04-11 | Lamblin Claude | Procede de codage de parole a prediction lineaire et excitation par codes algebriques |
JP3046213B2 (ja) * | 1995-02-02 | 2000-05-29 | 三菱電機株式会社 | サブバンド・オーディオ信号合成装置 |
IT1277194B1 (it) * | 1995-06-28 | 1997-11-05 | Alcatel Italia | Metodo e relativi apparati di codifica e di decodifica di un segnale vocale campionato |
US5781882A (en) * | 1995-09-14 | 1998-07-14 | Motorola, Inc. | Very low bit rate voice messaging system using asymmetric voice compression processing |
MX9708203A (es) * | 1996-02-26 | 1997-12-31 | At & T Corp | Cuantificacion de señales vocales usando modelos de publico humano en sistemas de codificacion predictivas. |
US6107430A (en) * | 1996-03-14 | 2000-08-22 | The Dow Chemical Company | Low application temperature hot melt adhesive comprising ethylene α-olefin |
JP3878254B2 (ja) * | 1996-06-21 | 2007-02-07 | 株式会社リコー | 音声圧縮符号化方法および音声圧縮符号化装置 |
US6038528A (en) * | 1996-07-17 | 2000-03-14 | T-Netix, Inc. | Robust speech processing with affine transform replicated data |
JP3263347B2 (ja) * | 1997-09-20 | 2002-03-04 | 松下電送システム株式会社 | 音声符号化装置及び音声符号化におけるピッチ予測方法 |
JP2000197054A (ja) * | 1998-12-24 | 2000-07-14 | Hudson Soft Co Ltd | 動画像符号方法及びそのプログラムを記録した記録媒体並びに装置 |
WO2001075660A1 (en) * | 2000-04-03 | 2001-10-11 | Flint Hills Scientific, L.L.C. | Method, computer program, and system for automated real-time signal analysis for detection, quantification, and prediction of signal changes |
US6768969B1 (en) | 2000-04-03 | 2004-07-27 | Flint Hills Scientific, L.L.C. | Method, computer program, and system for automated real-time signal analysis for detection, quantification, and prediction of signal changes |
SE522261C2 (sv) * | 2000-05-10 | 2004-01-27 | Global Ip Sound Ab | Kodning och avkodning av en digital signal |
US6993477B1 (en) * | 2000-06-08 | 2006-01-31 | Lucent Technologies Inc. | Methods and apparatus for adaptive signal processing involving a Karhunen-Loève basis |
US9001702B2 (en) | 2000-12-26 | 2015-04-07 | Polycom, Inc. | Speakerphone using a secure audio connection to initiate a second secure connection |
US7864938B2 (en) | 2000-12-26 | 2011-01-04 | Polycom, Inc. | Speakerphone transmitting URL information to a remote device |
US8964604B2 (en) | 2000-12-26 | 2015-02-24 | Polycom, Inc. | Conference endpoint instructing conference bridge to dial phone number |
US8977683B2 (en) * | 2000-12-26 | 2015-03-10 | Polycom, Inc. | Speakerphone transmitting password information to a remote device |
US7339605B2 (en) | 2004-04-16 | 2008-03-04 | Polycom, Inc. | Conference link between a speakerphone and a video conference unit |
US8948059B2 (en) | 2000-12-26 | 2015-02-03 | Polycom, Inc. | Conference endpoint controlling audio volume of a remote device |
US8934382B2 (en) | 2001-05-10 | 2015-01-13 | Polycom, Inc. | Conference endpoint controlling functions of a remote device |
US8976712B2 (en) | 2001-05-10 | 2015-03-10 | Polycom, Inc. | Speakerphone and conference bridge which request and perform polling operations |
JP4231698B2 (ja) | 2001-05-10 | 2009-03-04 | ポリコム イスラエル リミテッド | 多地点マルチメディア/音声システムの制御ユニット |
US8885523B2 (en) | 2001-12-31 | 2014-11-11 | Polycom, Inc. | Speakerphone transmitting control information embedded in audio information through a conference bridge |
US8223942B2 (en) * | 2001-12-31 | 2012-07-17 | Polycom, Inc. | Conference endpoint requesting and receiving billing information from a conference bridge |
US7978838B2 (en) | 2001-12-31 | 2011-07-12 | Polycom, Inc. | Conference endpoint instructing conference bridge to mute participants |
US7787605B2 (en) | 2001-12-31 | 2010-08-31 | Polycom, Inc. | Conference bridge which decodes and responds to control information embedded in audio information |
US8144854B2 (en) * | 2001-12-31 | 2012-03-27 | Polycom Inc. | Conference bridge which detects control information embedded in audio information to prioritize operations |
US8102984B2 (en) * | 2001-12-31 | 2012-01-24 | Polycom Inc. | Speakerphone and conference bridge which receive and provide participant monitoring information |
US8934381B2 (en) * | 2001-12-31 | 2015-01-13 | Polycom, Inc. | Conference endpoint instructing a remote device to establish a new connection |
US8947487B2 (en) | 2001-12-31 | 2015-02-03 | Polycom, Inc. | Method and apparatus for combining speakerphone and video conference unit operations |
US8705719B2 (en) | 2001-12-31 | 2014-04-22 | Polycom, Inc. | Speakerphone and conference bridge which receive and provide participant monitoring information |
US7742588B2 (en) * | 2001-12-31 | 2010-06-22 | Polycom, Inc. | Speakerphone establishing and using a second connection of graphics information |
DE602005014288D1 (de) * | 2004-03-01 | 2009-06-10 | Dolby Lab Licensing Corp | Mehrkanalige Audiodekodierung |
US7796565B2 (en) * | 2005-06-08 | 2010-09-14 | Polycom, Inc. | Mixed voice and spread spectrum data signaling with multiplexing multiple users with CDMA |
US8199791B2 (en) * | 2005-06-08 | 2012-06-12 | Polycom, Inc. | Mixed voice and spread spectrum data signaling with enhanced concealment of data |
US8126029B2 (en) * | 2005-06-08 | 2012-02-28 | Polycom, Inc. | Voice interference correction for mixed voice and spread spectrum data signaling |
US8190251B2 (en) * | 2006-03-24 | 2012-05-29 | Medtronic, Inc. | Method and apparatus for the treatment of movement disorders |
US20070249956A1 (en) * | 2006-04-21 | 2007-10-25 | Medtronic, Inc. | Method and apparatus for detection of nervous system disorders |
US7761145B2 (en) * | 2006-04-21 | 2010-07-20 | Medtronic, Inc. | Method and apparatus for detection of nervous system disorders |
US7761146B2 (en) * | 2006-04-21 | 2010-07-20 | Medtronic, Inc. | Method and apparatus for detection of nervous system disorders |
US8165683B2 (en) * | 2006-04-21 | 2012-04-24 | Medtronic, Inc. | Method and apparatus for detection of nervous system disorders |
US7764989B2 (en) * | 2006-04-21 | 2010-07-27 | Medtronic, Inc. | Method and apparatus for detection of nervous system disorders |
US20070249953A1 (en) * | 2006-04-21 | 2007-10-25 | Medtronic, Inc. | Method and apparatus for detection of nervous system disorders |
US8532984B2 (en) * | 2006-07-31 | 2013-09-10 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of active frames |
US8108438B2 (en) * | 2008-02-11 | 2012-01-31 | Nir Asher Sochen | Finite harmonic oscillator |
GB2495468B (en) | 2011-09-02 | 2017-12-13 | Skype | Video coding |
GB2495469B (en) | 2011-09-02 | 2017-12-13 | Skype | Video coding |
GB2495467B (en) * | 2011-09-02 | 2017-12-13 | Skype | Video coding |
KR101691549B1 (ko) | 2012-10-05 | 2016-12-30 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 자기상관 영역에서 acelp를 이용하는 음성 신호 인코딩 장치 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL8802291A (nl) * | 1988-09-16 | 1990-04-17 | Koninkl Philips Electronics Nv | Inrichting voor het verzenden van datawoorden welke een gedigitaliseerde analoog signaal vertegenwoordigen en een inrichting voor het ontvangen van de verzonden datawoorden. |
EP0443548B1 (de) * | 1990-02-22 | 2003-07-23 | Nec Corporation | Sprachcodierer |
JPH0451199A (ja) * | 1990-06-18 | 1992-02-19 | Fujitsu Ltd | 音声符号化・復号化方式 |
IT1241358B (it) * | 1990-12-20 | 1994-01-10 | Sip | Sistema di codifica del segnale vocale con sottocodice annidato |
US5371853A (en) * | 1991-10-28 | 1994-12-06 | University Of Maryland At College Park | Method and system for CELP speech coding and codebook for use therewith |
-
1993
- 1993-01-21 FR FR9300601A patent/FR2700632B1/fr not_active Expired - Fee Related
-
1994
- 1994-01-18 DE DE69412294T patent/DE69412294T2/de not_active Expired - Lifetime
- 1994-01-18 EP EP94400109A patent/EP0608174B1/de not_active Expired - Lifetime
- 1994-01-21 US US08/184,186 patent/US5583963A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP0608174B1 (de) | 1998-08-12 |
FR2700632A1 (fr) | 1994-07-22 |
FR2700632B1 (fr) | 1995-03-24 |
EP0608174A1 (de) | 1994-07-27 |
DE69412294D1 (de) | 1998-09-17 |
US5583963A (en) | 1996-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69412294T2 (de) | System zur prädiktiven Kodierung/Dekodierung eines digitalen Sprachsignals mittels einer adaptiven Transformation mit eingebetteten Kodes | |
DE69518452T2 (de) | Verfahren für die Transformationskodierung akustischer Signale | |
DE19647298C2 (de) | Kodiersystem | |
DE19609170B4 (de) | Verfahren zur Durchführung einer "Tiefe-Zuerst"-Suche in einem Codebuch zur Codierung eines Geräusch- bzw. Klangsignales, Vorrichtung zur Durchführung dieses Verfahrens sowie zellulares Kommunikationssystem mit einer derartigen Vorrichtung | |
DE69608947T2 (de) | Verfahren zur Analyse eines Audiofrequenzsignals durch lineare Prädiktion, und Anwendung auf ein Verfahren zur Kodierung und Dekodierung eines Audiofrequenzsignals | |
DE69129329T2 (de) | Sprachkodierungsystem | |
DE3853916T2 (de) | Digitaler-sprachkodierer mit verbesserter vertoranregungsquelle. | |
DE69604729T2 (de) | Verfahren zur sprachkodierung mittels linearer prädiktion und anregung durch algebraische kodes | |
DE19604273C5 (de) | Verfahren und Vorrichtung zum Durchführen einer Suche in einem Kodebuch im Hinblick auf das Kodieren eines Klangsignales, Zellkommunikationssystem, Zellnetzwerkelement und mobile Zell-Sender-/Empfänger-Einheit | |
DE69029232T2 (de) | System und Methode zur Sprachkodierung | |
DE69619054T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE3115859C2 (de) | ||
DE69029120T2 (de) | Stimmenkodierer | |
DE69317958T2 (de) | Kodierer von Audiosignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken | |
DE68916944T2 (de) | Verfahren zur schnellen Bestimmung der Grundfrequenz in Sprachcodierern mit langfristiger Prädiktion. | |
DE69331079T2 (de) | CELP-Vocoder | |
DE69726525T2 (de) | Verfahren und Vorrichtung zur Vektorquantisierung und zur Sprachkodierung | |
DE69529356T2 (de) | Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile | |
DE69804121T2 (de) | Sprachkodierung | |
DE69609099T2 (de) | Verfahren zur Modifikation von LPC-Koeffizienten von akustischen Signalen | |
DE69930848T2 (de) | Skalierbarer audiokodierer und dekodierer | |
DE69328410T2 (de) | Auf interpolation basierende, zeitveränderliche spektralanalyse für sprachkodierung | |
DE69633944T2 (de) | Verfahren und gerät zum kodieren von digitalen daten | |
WO2002017303A1 (de) | Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen | |
DE69121411T2 (de) | Methode und gerät zur codierung von analogen signalen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: FRANCE TELECOM SA, PARIS, FR |
|
8327 | Change in the person/name/address of the patent owner |
Owner name: GULA CONSULTING LLC, DOVER, DEL., US |