DE69326492T2 - Verfahren zur Auswahl des Codier Modus für Stereo Audio-Signale unter Benutzung von Hörbarkeitsmodellen - Google Patents
Verfahren zur Auswahl des Codier Modus für Stereo Audio-Signale unter Benutzung von HörbarkeitsmodellenInfo
- Publication number
- DE69326492T2 DE69326492T2 DE69326492T DE69326492T DE69326492T2 DE 69326492 T2 DE69326492 T2 DE 69326492T2 DE 69326492 T DE69326492 T DE 69326492T DE 69326492 T DE69326492 T DE 69326492T DE 69326492 T2 DE69326492 T2 DE 69326492T2
- Authority
- DE
- Germany
- Prior art keywords
- signals
- signal
- channel
- sets
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 59
- 230000005236 sound signal Effects 0.000 title claims description 45
- 230000003595 spectral effect Effects 0.000 claims description 30
- 238000013139 quantization Methods 0.000 claims description 24
- 238000001228 spectrum Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 description 54
- 230000000873 masking effect Effects 0.000 description 40
- 238000004458 analytical method Methods 0.000 description 31
- 238000005192 partition Methods 0.000 description 25
- 230000006870 function Effects 0.000 description 17
- 230000008569 process Effects 0.000 description 16
- 230000000875 corresponding effect Effects 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 10
- 230000002123 temporal effect Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 9
- 230000004807 localization Effects 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 230000007480 spreading Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 210000005069 ears Anatomy 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000007493 shaping process Methods 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- BSYNRYMUTXBXSQ-UHFFFAOYSA-N Aspirin Chemical compound CC(=O)OC1=CC=CC=C1C(O)=O BSYNRYMUTXBXSQ-UHFFFAOYSA-N 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 210000000721 basilar membrane Anatomy 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000593 degrading effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/02—Analogue recording or reproducing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H20/00—Arrangements for broadcast or for distribution combined with broadcast
- H04H20/86—Arrangements characterised by the broadcast information itself
- H04H20/88—Stereophonic broadcast systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
- H04B1/665—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
- Die vorliegende Erfindung betrifft Verfahren zur Codierungsbetriebsartenauswahl einer Eingangsmenge von Stereo-Audiosignalen.
- Die Nachfrage nach Unterhaltungs-, Industrie-, Studio- und Laborprodukten zur Speicherung, Verarbeitung und Übermittlung qualitativ hochwertiger Audiosignale ist groß. Zum Beispiel haben Aufzeichnungen mit der sogenannten Compact Disk ("CD") und dem digitalen Tonband ("DAT") für Musik im wesentlichen die lange beliebt gewesenen Schallplatten und Kassetten ersetzt. Ähnlich versprechen in jüngster Zeit verfügbare Aufzeichnungen auf digitalem Tonband ("DAT") eine größere Flexibilität und hohe Speicherdichte für qualitativ hochwertige Audiosignale. Siehe außerdem Tan und Vermeulen, "Digital audio tape for data storage", IEEE Spectrum, Seiten 34-38 (Oktober 1989). Außerdem steigt der Bedarf nach Rundsendeanwendungen von digitaler Technologie, die CD- Qualität bieten.
- Obwohl diese neuen digitalen Techniken in der Lage sind, qualitativ hochwertige Signale zu erzeugen, wird eine solche Leistung häufig nur zu Rosten einer beträchtlichen Datenspeicherkapazität oder Übertragungsbandbreite erzielt. Dementsprechend haben viele Bemühungen darauf abgezielt, qualitativ hochwertige Audiosignale zur Speicherung und Übertragung zu komprimieren.
- Der größte Teil der an die Komprimierung von Signalen zur Übertragung und Speicherung gerichteten Arbeit versuchte, die Redundanzen zu vermindern, die die Quelle der Signale dem Signal auferlegt. Somit versuchten Verfahren wie zum Beispiel ADPCM, Teilbandcodierung und Transformationscodierung, die zum Beispiel in N. S. Jayant und P. Noll, "Digital Coding of Waveforms", Prentice-Hall, Inc., 1984, beschrieben werden, Redundanzen zu beseitigen, die andernfalls in den Quellensignalen vorliegen würden.
- Bei anderen Ansätzen wird versucht, die irrelevanten Informationen in Quellensignalen zu beseitigen, indem Verfahren auf der Grundlage von Modellen des menschlichen Wahrnehmungssystems verwendet werden. Solche Verfahren werden zum Beispiel in E. F. Schroeder und J. J. Platte, "'MSC': Stereo Audio Coding with CD-Quality and 256 kBIT/SEC", IEEE Trans. on Consumer Electronics, Band CE-33, Nr. 4, November 1987; und Johnston, Transform Coding of Audio Signals Using Noise Criteria, Band 6, Nr. 2, IEEE J. S. C. A. (Februar 1988), beschrieben.
- Die wahrnehmungsbezogene Codierung, die zum Beispiel in der Arbeit von Johnston beschrieben wird, betrifft ein Verfahren zur Verkleinerung der erforderlichen Bitraten (oder Umverteilung verfügbarer Bit) oder der Gesamtzahl von Bit bei der Darstellung von Audiosignalen. Bei dieser Form der Codierung wird ein Maskierungsschwellenwert für unerwünschte Signale als eine Funktion der Frequenz des gewünschten Signals identifiziert. Danach wird u. a. die Grobheit der zur Darstellung einer Signalkomponente des erwünschten Signals verwendeten Quantisierung so gewählt, daß das durch die Codierung eingeführte Quantisierungsrauschen nicht über den Rauschschwellenwert steigt, obwohl es aber recht nahe bei diesem Schwellenwert liegen kann. Das eingeführte Rauschen wird deshalb bei dem Wahrnehmungsprozeß maskiert. Während konventionelle Signal/Rauschverhältnisse für solche wahrnehmungsbezogen codierten Signale relativ niedrig sein können, ist die Qualität dieser Signale bei der Decodierung, so wie sie durch einen menschlichen Zuhörer wahrgenommen wird, dennoch hoch.
- Das US-Patent 5,040,217 für Brandenburg et al., ausgegeben am 13.8.1991, beschreibt ein System zur effizienten Codierung und Decodierung qualitativ hochwertiger Audiosignale unter Verwendung solcher wahrnehmungsbezogenen Betrachtungen. Insbesondere liefern die in dem letzteren System beschriebenen Ausführungsformen unter Verwendung eines Maßes der "rauschartigen" oder "tonartigen" Beschaffenheit der Eingangssignale eine sehr effiziente Codierung für Mono-Audiosignale.
- Es ist natürlich wichtig, daß die zur Komprimierung von Audiosignalen verwendeten Codierungsverfahren nicht selbst ungehörige Komponenten oder Artefakte einführen. Dies ist insbesondere bei der Codierung von Stereo-Audioinformationen wichtig, bei der codierte Informationen, die einem Stereokanal entsprechen, bei der Decodierung zur Wiedergabe Codierungsinformationen, die dem anderen Stereokanal entsprechen, stören können oder mit diesen in Wechselwirkung treten können. Die Wahl der Implementierung zur Codierung zweier Stereokanäle schließt sogenannte "Doppel-Mono"-Codierer ein, die zwei unabhängige Codierer verwenden, die mit festen Bitraten arbeiten. Im Gegensatz dazu verwenden "Gemeinsam-Mono"-Codierer zwei Mono-Codierer, verwenden aber gemeinsam eine kombinierte Bitrate, d. h. die Bitrate für die beiden Codierer wird so eingeschränkt, daß sie kleiner oder gleich einer festen Rate ist, es können aber Kompromisse zwischen den Bitraten für einzelne Codierer erfolgen. "Gemeinsam- Stereo"-Codierer sind diejenigen, die versuchen, Zwischenkanaleigenschaften für das Stereopaar zur Realisierung eines zusätzlichen Codierungsgewinns zu verwenden.
- Es wurde festgestellt, daß die unabhängige Codierung der zwei Kanäle eines Stereopaars insbesondere bei niedrigen Bitraten zu einer Anzahl unerwünschter psychoakustischer Artefakte führen kann. Zu diesen gehören solche, die mit der Lokalisierung von Codierungsrauschen zusammenhängen, die nicht mit der Lokalisierung des dynamisch abgebildeten Signals übereinstimmt. Somit scheint es, daß der menschliche Stereo-Wahrnehmungsprozeß dem Codierungsprozeß Beschränkungen auferlegt, wenn solche fehlangepaßte Lokalisierung vermieden werden soll. Diese Feststellung ist im Einklang mit Berichten über Differenzen des binauralen Maskierungspegels, die scheinbar zumindest für niedrige Frequenzen existieren, so daß Rauschen räumlich isoliert werden kann. Es wird vermutet, daß solche Differenzen des binauralen Maskierungspegels eine Rauschkomponente entmaskieren, die bei einem Mono-System maskiert werden würde. Siehe zum Beispiel B. C. J. Morre, "An Introduction to the Psychology of Hearing, Zweite Auflage", insbesondere Kapitel 5, Academic Press, Orlando, Florida, 1982.
- Ein Verfahren zur Verminderung psychoakustischer Artefakte im Stereo-Kontext verwendet das [ISO]-Modell ISO-WG11-MPEG-Audio-Psychoacoustic II. Bei diesem Modell wird eine zweite Grenze des Signal/Rauschverhältnisses ("SNR") auf Signal/Rauschverhältnisse in dem psychoakustischen Modell angewandt. Solche zusätzlichen SNR-Beschränkungen erfordern in der Regel jedoch die Verwendung zusätzlicher Kanalkapazität oder (bei Speicheranwendungen) die Verwendung zusätzlicher Speicherkapazität bei niedrigen Frequenzen, während außerdem die Mono-Leistung der Codierung verschlechtert wird.
- Johnston: Perceptual Transform Coding of Wideband Stereo Signals, ICASSP (1989) betrifft ein wahrnehmungsbezogenes Codierungsverfahren für Stereosignale. Es wird ein einziger wahrnehmungsbezogener Schwellenwert entwickelt, indem zwei Spektren (L+R und L-R) verarbeitet werden, wobei deren Leistungsspektren addiert werden, um den Schwellenwert zu erzeugen. Es wird derselbe wahrnehmungsbezogene Schwellenwert auf beide angewandt.
- Gemäß der vorliegenden Erfindung wird ein Verfahren nach Anspruch 1 bereitgestellt.
- Bei einem Verfahren und einer Vorrichtung zur Codierung eines Stereopaars qualitativ hochwertiger Audiokanäle wird die Zwischenkanal-Redundanz und Irrelevanz ausgenutzt, um niedrigere Bitraten zu erzielen, während nach der Decodierung eine qualitativ hochwertige Wiedergabe aufrechterhalten wird. Obwohl sie insbesondere für die Stereo-Codierung und -Decodierung geeignet sind, können die Vorteile der vorliegenden Erfindung auch in herkömmlichen Doppel- Mono-Stereocodierern realisiert werden.
- Eine beispielhafte Ausführungsform setzt eine Filterbankarchitektur ein, die eine modifizierte diskrete Cosinustransformation (MDCT) verwendet. Um den vollen Umfang von Signalen zu codieren, die dem System vorgelegt werden können, verwendet die beispielhafte Ausführungsform vorteilhafterweise sowohl L/R-Codierung (Links und Rechts) als auch M/S-Codierung (Summen/Differenzen), die sowohl frequenz- als auch zeitmäßig auf eine signalabhängige Weise gewechselt werden. Ein neues Stereo-Rauschmaskierungsmodell erkennt und vermeidet vorteilhafterweise binaurale Artefakte in dem codierten Stereosignal. Die Zwischenkanalredundanz wird ausgenutzt, um eine verbesserte Komprimierung zu ergeben, ohne die Audio- Qualität zu verschlechtern.
- Das zeitliche Verhalten sowohl der rechten als auch linken Audiokanäle wird vorteilhafterweise genau überwacht, und die Ergebnisse werden zur Steuerung der zeitlichen Auflösung des Codierungsprozesses verwendet. Somit stellt eine beispielhafte Ausführungsform die Verarbeitung von Eingangssignalen über entweder ein normales MDCT Fenster oder kürzere Fenster, wenn Signalzustände dies anzeigen, bereit. Außerdem wird sowohl Zeit- als auch frequenzmäßig eine dynamische Umschaltung zwischen den Codierungsbetriebsarten RECHTS/LINKS oder SUMME/DIFFERENZ bereitgestellt, um unerwünschte binaurale Rauschlokalisierung zu steuern, um die Notwendigkeit einer Übercodierung von SUMME/DIFFERENZ-Signalen zu verhindern und den globalen Codierungsgewinn zu maximieren.
- Eine typische Bitstromdefinition und eine Ratenregelschleife werden beschrieben, die nützliche Flexibilität bei der Bildung des Codiererausgangssignals liefern. Zwischenkanal-Irrelevanzen werden vorteilhafterweise beseitigt und die Stereo- Rauschmaskierung wird verbessert, um dadurch eine verbesserte wiedergegebene Audioqualität bei zusammen codierten Stereo-Paaren zu erzielen. Das bei einer beispielhaften Ausführungsform verwendete Ratensteuerverfahren verwendet eine Interpolation zwischen absoluten Schwellenwerten und einem Maskierungsschwellenwert für Signale unterhalb der Ratengrenze des Codierers und eine Schwellenwart- Aufwertungsstrategie unter ratenbegrenzten Bedingungen.
- Es erweist sich als vorteilhaft, einen verbesserten Entropiecodierer/Decodierer des Huffman- Typs einzusetzen, um die Kanal-Bitratenanforderungen oder die Speicherkapazität für Speicheranwendungen weiter zu reduzieren. Das beispielhaft eingesetzte Verfahren der rauschlosen Komprimierung verwendet Huffman-Codierung zusammen mit einem Frequenzaufteilungsverfahren zur effizienten Codierung der Frequenzabtastwerte für L, R, M und S, sowie es durch den wahrnehmungsbezogenen Schwellenwert vorgeschrieben werden kann.
- Es wird ein Mechanismus zur Bestimmung der bei der Quantisierung des Audiosignals (d. h. den aus der Analysefilterbank ausgegebenen MDCT-Koeffizienten) zu verwendenden Skalierungsfaktoren durch Verwendung eines vom Stand der Technik verschiedenen Ansatzes und unter Vermeidung vieler der Beschränkungen und Kosten von herkömmlichen Quantisierer/Raten-Schleifen bereitgestellt. Die somit quantisierten Audiosignale verursachen weniger Rauschen und werden zu weniger Bit als im Stand der Technik codiert.
- Diese Ergebnisse werden bei einer beispielhaften Ausführungsform erzielt, wodurch der eingesetzte Skalierungsfaktor iterativ abgeleitet wird, indem zwischen einem Skalierungsfaktor, der aus einem berechneten Hör-Schwellenwert bei der Frequenz abgeleitet wird, die der Frequenz des entsprechenden zu quantisierenden Spektralkoeffizienten entspricht, und einem Skalierungsfaktor, der aus dem absoluten Hör-Schwellenwert bei der besagten Frequenz abgeleitet wird, solange interpoliert wird, bis die quantisierten Spektralkoeffizienten innerhalb der zulässigen Grenzen codiert werden können.
- Fig. 1 zeigt ein beispielhaftes Audio- Kommunikations/Speichersystem des Stands der Technik eines Typs, bei dem Aspekte der vorliegenden Erfindung Anwendung finden und Verbesserungen und Erweiterungen liefern.
- Fig. 2 zeigt einen beispielhaften wahrnehmungsbezogenen Audiocodierer (PAC), bei dem die Fortschritte und Lehren der vorliegenden Erfindung Anwendung finden und Verbesserungen und Erweiterungen liefern.
- Fig. 3 zeigt eine Darstellung eines nützlichen Maskierungspegeldifferenzfaktors, der bei Schwellenwertberechnungen verwendet wird.
- Fig. 4 zeigt eine beispielhafte Analysefilterbank;
- Fig. 5(a) bis 5(e) zeigen die Funktionsweisen verschiedener Fensterfunktionen.
- Fig. 6 ist ein Flußdiagramm der Fensterwechselfunktionalität.
- Fig. 7 ist ein Block/Flußdiagramm, das die gesamte Verarbeitung von Eingangssignalen zur Ableitung des Ausgangsbitstroms zeigt.
- Fig. 8 zeigt bestimmte Schwellenwertveränderungen.
- Fig. 9 ist eine Flußdiagrammdarstellung bestimmter Bitzuteilungsfunktionalität.
- Fig. 10 zeigt Bitstromorganisation.
- Fig. 11a bis 11c zeigen bestimmte Huffman- Codierungsoperationen.
- Fig. 12 zeigt Operationen in einem Decodierer, die denen für einen Codierer komplementär sind.
- Fig. 13 ist ein Flußdiagramm bestimmter Quantisierungsoperationen;
- Fig. 14 (a) bis 14 (g) sind beispielhafte Fenster zur Verwendung mit der Filterbank von Fig. 4.
- Zur Vereinfachung der vorliegenden Beschreibung werden die folgenden Patente, Patentanmeldungen und Publikationen erwähnt: US-Patent 5,040,217, ausgegeben am 13.8.1991, von K. Brandenburg et al.; US-Patent 5341457 mit dem Titel Perceptual Coding of Audio Signals; J. D. Johnston, Transform Coding of Audio Signals Using Perceptual Noise Criteria, IEEE Journal on Selected Areas in Communications, Band 6, Nr. 2 (Februar 1988); EP-A-287578; EP-A-446037; Brandenburg et al., Aspec: Adaptive Spectral Entropy Coding of High Quality Music Signals, AES 90th Convention (1991); Johnston, J., Estimation of Perceptual Entropy Using Noise Masking Criteria, ICASSP, (1988); J. D. Johnston, Perceptual Transform _Coding of Wideband Stereo Signals, ICASSP (1989); E. F. Schroeder und J. J. Platte, "'MSC': Stereo Audio Coding with CD-Quality and 256 kBIT/SEC", IEEE Trans. on Consumer Electronics, Band CE-33, Nr. 4, November 1987; und Johnston, Transformn Coding of Audio Signals Using Noise Criteria, Band 6, Nr. 2, IEEE J. S. C. A. (Februar 1988).
- Der Klarheit der Erläuterung halber wird die beispielhafte Ausführungsform als einzelne Funktionsblöcke umfassend dargestellt (darunter als "Prozessoren" gekennzeichnete Funktionsblöcke). Die Funktionen, die diese Blöcke darstellen, können durch Verwendung entweder von gemeinsam benutzter oder fest zugeordneter Hardware bereitgestellt werden, darunter u. a. Hardware, die in der Lage ist, Software auszuführen. (Die Verwendung des Ausdrucks "Prozessor" sollte nicht als sich ausschließlich auf Hardware, die in der Lage ist, Software auszuführen, beziehend aufgefaßt werden.) Beispielhafte Ausführungsformen können Hardware für digitale Signalverarbeitung (DSP) wie zum Beispiel den DSP16 oder DSP32C von AT&T und Software umfassen, die die nachfolgend besprochenen Operationen ausführt. Höchstintegrierte Hardwareausführungsformen (VLSI-Ausführungsformen), sowie hybride DSP/VLSI-Ausführungsformen können ebenfalls bereitgestellt werden.
- Fig. 1 ist ein Ubersichts-Blockschaltbild eines Systems, das zur Integration einer beispielhaften Ausführungsform nützlich ist. Auf der gezeigten Ebene zeigt das System von Fig. 1 im Stand der Technik bekannte Systeme, Modifikationen und Erweiterungen, die hier beschrieben werden, werden jedoch die Beiträge der vorliegenden Erfindung klarstellen. In Fig. 1 wird ein analoges Audiosignal 101 in einen Vorprozessor 102 eingespeist, in dem es (in der Regel mit 48 kHz) abgetastet und in ein digitales Pulscodemodulationssignal ("PCM"-Signal) 103 (mit in der Regel 16 Bit) auf standardmäßige Weise umgesetzt wird. Das PCM-Signal 103 wird in einen wahrnehmungsbezogenen Audiocodierer 104 ("PAC") eingespeist, der das PCM-Signal komprimiert und das komprimierte PAC-Signal in einen Kommunikationskanal bzw. ein Speichermedium 106 ausgibt. Von dem Kommunikationskanal bzw. dem Speichermedium aus wird das komprimierte PAC-Signal 105 in einen wahrnehmungsbezogenen Audiodecodierer 108 eingespeist, der das komprimierte PAC-Signal dekomprimiert und ein PCM-Signal 107 ausgibt, das das komprimierte PAC-Signal 105 darstellt. Von dem wahrnehmungsbezogenen Audiodecodierer aus wird das PCM-Signal 107 in einen Nachprozessor 110 eingespeist, der eine analoge Darstellung des PCM-Signals 107 erzeugt.
- Eine beispielhafte Ausführungsform des wahrnehmungsbezogenen Audiocodierers 104 ist als Blockdiagramm in Fig. 2 gezeigt. Wie im Fall des in Fig. 1 gezeigten Systems kann das System von Fig. 2 ohne Weiteres gleichermaßen bestimmte Systeme des Stands der Technik, z. B. das aus dem US-Patent 5,040,217 von Brandenburg et al. bekannte System, beschreiben. Mit den hier beschriebenen Erweiterungen und Modifikationen werden jedoch wichtige neue Ergebnisse erzielt. Der wahrnehmungsbezogene Audiocodierer von Fig. 2 kann vorteilhafterweise als eine Analysefilterbank 202, einen wahrnehmungsbezogenen Modellprozessor 204, einen Quantisierer/Raten- Schleifenprozessor 206 und einen Entropiecodierer 208 umfassend betrachtet werden.
- Die Filterbank 202 in Fig. 2 transformiert vorteilhafterweise ein Eingangs-Audiosignal zeit-/frequenzmäßig dergestalt, daß sowohl ein bestimmtes Maß des Signalverarbeitungsgewinns (d. h. Redundanzextraktion) als auch eine Abbildung der Filterbankeingangssignale auf eine im Hinblick auf das menschliche Wahrnehmungssystem bedeutungsvolle Weise bereitgestellt wird. Vorteilhafterweise kann die wohlbekannte modifizierte diskrete Cosinustransformation (MDCT), die zum Beispiel in J. P. Princen und A. B. Bradley, "Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation", IEEE Trans. ASSP, Band 34, Nr. 5, Oktober 1986, beschrieben wird, so angepaßt werden, daß sie eine solche Transformation der Eingangssignale durchführt.
- Merkmale der MDCT, durch die diese beim vorliegenden Kontext nützlich wird, sind zum Beispiel ihre kritische Abtastkennlinie, d. h. es werden für alle n Abtastwerte, die in die Filterbank eintreten, n Abtastwerte aus der Filterbank gewonnen. Zusätzlich liefert die MDCT in der Regel eine Halb-Überlappung, d. h. die Transformationslänge ist genau zweimal die Länge der Anzahl von Abtastwerten n, die in die Filterbank hineingeschoben werden. Die Halb-Überlappung liefert ein gutes Verfahren zur Behandlung der Steuerung von Rauschen, das unabhängig in jeden Filterabgriff injiziert wird, und liefert außerdem einen guten Analysefensterfrequenzgang. Zusätzlich liefert bei Abwesenheit von Quantisierung die MDCT eine genaue Rekonstruktion der Eingangsabtastwerte, die nur einer Verzögerung von einer ganzen Zahl von Abtastwerten unterworfen ist.
- Ein Aspekt, bei dem die MDCT vorteilhafterweise zur Verwendung in Verbindung mit einem höchsteffizienten Stereo-Audiocodierer modifiziert wird, ist die Bereitstellung der Möglichkeit, die Länge des Analysefensters für Signalabschnitte zu wechseln, die stark nicht-stationäre Komponenten aufweisen, so daß es die kritisch abgetasteten und exakten Rekonstruktionseigenschaften beibehält. Die US-Patentanmeldung 07/844819, aufgegeben, Ursprungsdokument des US-Patents Nr. 5592584 (die im folgenden als die "Filterbankanmeldung" bezeichnet wird), die am gleichen Datum wie die vorliegende Anmeldung registriert wurde, beschreibt eine Filterbank, die sich zur Durchführung der Funktionen des Elements 202 in Fig. 2 eignet.
- Der in Fig. 2 gezeigte wahrnehmungsbezogene Modellprozessor 204 berechnet eine Abschätzung der wahrnehmungsbezogenen Bedeutsamkeit, von Rauschmaskierungseigenschaften oder des gerade wahrnehmbaren Grundrauschens der verschiedenen Signalkomponenten in der Analysebank. Signale, die diese Größen darstellen, werden dann anderen Systemelementen zugeführt, um eine verbesserte Steuerung der Filteroperationen zu liefern und die zu dem Kanal oder dem Speichermedium zu sendenden Daten zu organisieren. Anstatt die für jedes kritische Band erfolgende Analyse zu verwenden, die in J. D. Johnston, "Transform Coding of Audio Signals Using Perceptual Noise Criteria", IEEE J. on Selected Areas in Communications, Februar 1988, beschrieben wird, verwendet eine beispielhafte Ausführungsform vorteilhafterweise bei der Berechnung von Schwellenwerten eine feinere Frequenzauflösung. Statt der Verwendung einer Gesamt-Tonalitätsmetrik, wie in der zuletzt zitierten Arbeit von Johnston, liefert somit ein Tonalitätsverfahren, das auf dem in K. Brandenburg und J. D. Johnston, "Second Generation Perceptual Audio Coding: The Hybrid Coder", AES 89th Convention, 1990, erwähnten basiert, eine Tonalitätsabschätzung, die sich über die Frequenz hinweg ändert und somit eine bessere Anpassung für komplexe Signale liefert.
- Die in dem wahrnehmungsbezogenen Modellprozessor 204 durchgeführte psychoakustische Analyse liefert einen Rauschschwellenwert für die Kanäle h (Links), R (Rechts), M (Summe) und S (Differenz), je nach Gegebenheit sowohl für das normale MDCT-Fenster als auch die kürzeren Fenster. Die Verwendung der kürzeren Fenster wird vorteilhafterweise völlig durch den psychoakustischen Modellprozessor gesteuert.
- Im Betrieb wertet eine beispielhafte Ausführungsform des wahrnehmungsbezogenen Modellprozessors 204 Schwellenwerte für die Kanäle links und rechts aus, die als THRl und THRr bezeichnet werden. Die beiden Schwellenwerte werden dann in jeder der beispielsweise 35 Codierer-Frequenzpartitionen (56 Partitionen im Fall eines aktiven Blocks mit Fensterwechsel) verglichen. In jeder Partition, in der die beiden Schwellenwerte zwischen links und rechts um weniger als einen bestimmten Betrag, in der Regel 2 dB, schwanken, wird der Codierer in die Betriebsart M/S umgeschaltet. Das heißt, das linke Signal für dieses Frequenzband wird durch M = (L+R)/2 ersetzt, und das rechte Signal wird durch S = (L-R)/2 ersetzt. Der tatsächliche Betrag der Differenz, der die zuletzt erwähnte Ersetzung auslöst, ändert sich mit Bitratenbeschränkungen und anderen Systemparametern.
- Dieselbe Schwellenwertberechnung, die für die L- und R-Schwellenwerte verwendet wird, wird außerdem für die M- und S-Schwellenwerte verwendet, wobei der Schwellenwert mit den tatsächlichen M- und S-Signalen berechnet wird. Als erstes werden die Grundschwellenwerte, die mit BTHRm und MLDs bezeichnet werden, berechnet. Danach werden die folgenden Schritte verwendet, um den Stereo-Maskierungsbeitrag der Signale M und S zu berechnen.
- 1. Für jeden der M- und S-Schwellenwerte wird ein zusätzlicher Faktor berechnet. Dieser Faktor, der MLDm und MLDs genannt wird, wird berechnet, indem die gespreizte Signalenergie (z. B. entsprechend J. D. Johnston, "Transform Coding of Audio Signals Using Perceptual Noise Criteria", IEEE J. on Selected Areas in Communications, Februar 1988; K. Brandenburg und J. D. Johnston, "Second Generation Perceptual Audio Coding: The Hybrid Coder", AES 89th Convention, 1990; und Brandenburg et al., US-Patent 5,040,217 abgeleitet) mit einem als Beispiel in Fig. 3 gezeigten Maskierungspegeldifferenzfaktor multipliziert wird. Dies berechnet einen zweiten Pegel der Erkennbarkeit von Rauschen über die Frequenz hinweg in den Kanälen M und S auf der Grundlage der in verschiedenen Quellen gezeigten Maskierungspegeldifferenzen.
- 2. Der tatsächliche Schwellenwert für M (THRm) wird als THRm = max(BTHRm,min(BTHRs,MLDs)) berechnet, und der Schwellenwert m = max(BTHRm,min(BTHRs,MLDs)) und der Schwellenwert für S wird als THRs = max(BTHRs,min(BTHRm,MLDm)) berechnet.
- Effektiv ersetzt das MLD-Signal das BTHR-Signal in Fällen, bei denen die Wahrscheinlichkeit der Stereo- Entmaskierung besteht. Es ist nicht notwendig, das Problem der M- und S-Schwellenwertunterdrückung aufgrund ungleicher L- und R-Schwellenwerte zu betrachten, weil von den h- und R-Schwellenwerten bekannt ist, daß sie gleich sind.
- Der in dem beispielhaften Codierer von Fig. 2 verwendete Quantisierer/Ratenschleifenprozessor 206 nimmt die Ausgangssignale aus der Analysebank und dem wahrnehmungsbezogenen Modell an und teilt Bit, Rauschen zu und steuert andere Systemparameter so, daß die erforderliche Bitrate für die gegebene Anwendung erfüllt wird. Bei manchen beispielhaften Codierern kann es sich dabei um nicht mehr als Quantisierung handeln, so daß die gerade wahrnehmbare Differenz des wahrnehmungsbezogenen Modells niemals überschritten wird, wobei die Bitrate nicht (explizit) beachtet wird; bei manchen Codierern kann es sich dabei um eine komplexe Menge von Iterationsschleifen handeln, die die Verzerrung und Bitrate einstellt, um ein Gleichgewicht zwischen Bitrate und Codierungsrauschen zu erzielen.
- Außerdem wird die Funktion des Empfangens von Informationen aus dem quantisierten analysierten Signal und etwaiger erforderlicher Nebeninformationen, des Einfügens von Synchronisations- und Rahmeninformationen durch den Ratenschleifenprozessor 206 wünschenswerterweise durchgeführt und in der Ratenschleifenanmeldung beschrieben. Wiederum werden diese selben Funktionen allgemein in dem US-Patent 5,040,217 von Brandenburg et al. beschrieben.
- Mit dem Entropiecodierer 208 wird zusammen mit dem Ratenschleifenprozessor 206 eine weitere rauschlose Komprimierung erzielt. Insbesondere empfängt der Entropiecodierer 208 vorteilhafterweise Eingangssignale, darunter eine quantisierte Audiosignalausgabe aus der Quantisierer/Ratenschleife 206, führt an dem quantisierten Audiosignal eine verlustlose Codierung durch und gibt ein komprimiertes Audiosignal an den Kommunikationskanal bzw. das Speichermedium 106 aus.
- Der beispielhafte Entropiecodierer 208 umfaßt vorteilhafterweise eine neuartige Variante des Minimalredundanz-Huffman-Codierungsverfahrens zur Codierung jedes quantisierten Audiosignals. Die Huffman-Codes werden z. B. in D. A. Huffman, "A Method for the Construction of Minimum Redundancy Codes", Proc. IRE, 40 : 1098-1101 (1952) und T. M. Cover und J. A. Thomas, us Elements of Information Theory, Seiten 92-101 (1991) beschrieben. Die nützlichen Anpassungen der Huffman-Codes, die vorteilhafterweise im Kontext des Codierers von Fig. 2 verwendet werden, werden ausführlicher in dem US-Patent 5227788 (im folgenden die "Entropiecodiereranmeldung") beschrieben, die am gleichen Datum wie die vorliegende Anmeldung registriert und an den Halter der vorliegenden Anmeldung übertragen wurde. Fachleuten auf dem Gebiet der Datenkommunikation wird ohne weiteres klar sein, wie alternative Ausführungsformen des Entropiecodierers 208 zu implementieren sind, die andere rauschlose Datenkomprimierungsverfahren, darunter die wohlbekannten Lempel-Ziv-Komprimierungsverfahren, verwenden.
- Die Verwendung jedes der in Fig. 2 gezeigten Elemente wird im Kontext der gesamten Systemfunktionalität ausführlicher beschrieben; Einzelheiten der Funktionsweise werden für den wahrnehmungsbezogenen Modellprozessor 204 gegeben.
- Die Analysefilterbank 202 des wahrnehmungsbezogenen Audiocodierers 104 empfängt als Eingangssignal pulscodemodulierte digitale Audiosignale ("PCM") (in der Regel 16-Bit-Signale, die mit 48 kHz abgetastet werden), und gibt eine Darstellung des Eingangssignals aus, die die individuellen Frequenzkomponenten des Eingangssignals identifiziert. Spezifisch umfaßt ein Ausgangssignal der Analysefilterbank 202 eine modifizierte diskrete Cosinustransformation ("MDCT") des Eingangssignals. Siehe J. Princen et al., "Sub-band Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation," IEEE ICASSP, Seiten 2161-2164 (1987).
- Eine beispielhafte Analysefilterbank 202 ist in Fig. 4 dargestellt. Die Analysefilterbank 202 umfaßt einen Eingangssignalpuffer 302, einen Fenstermultiplizierer 304, einen Fensterspeicher 306, einen FFT-Prozessor 308, einen MDCT-Prozessor 310, einen Verketter 311, einen Verzögerungsspeicher 312 und einer Datenselektor 314.
- Die Analysefilterbank 202 arbeitet mit Rahmen. Ein Rahmen wird zweckmäßigerweise als die 2N PCM-Eingangs-Audiosignalabtastwerte gewählt, die durch den Eingangssignalpuffer 302 gehalten werden. Wie bereits erwähnt, wird jeder PCM-Eingangs-Audiosignalabtastwert durch M Bit dargestellt. Beispielsweise ist N = 512 und M = 16.
- Der Eingangssignalpuffer 302 umfaßt zwei Abschnitte: einen ersten Abschnitt, der N Abtastwerte in Pufferspeicherstellen 1 bis N umfaßt, und einen zweiten Abschnitt, der N Abtastwerte in Pufferspeicherstellen N+1 bis 2N umfaßt. Jeder durch den wahrnehmungsbezogenen Audiocodierer 104 zu codierende Rahmen wird definiert, indem N aufeinanderfolgende Abtastwerte des Eingangsaudiosignals in den Eingangssignalpuffer 302 geschoben werden. Ältere Abtastwerte befinden sich in höheren Pufferspeicherstellen als neuere Abtastwerte.
- Unter der Annahme, daß zu einem gegebenen Zeitpunkt der Eingangssignalpuffer 302 einen Rahmen von 2N Audiosignalabtastwerten enthält, wird der nachfolgende Rahmen gewonnen, indem (1) die N Audiosignalabtastwerte in den Pufferspeicherstellen 1 bis N jeweils in Pufferspeicherstellen N+1 bis 2N geschoben werden (die vorherigen Audiosignalabtastwerte in den Speicherstellen N+1 bis 2N können entweder überschrieben oder gelöscht werden) und (2) N neue Audiosignalabtastwerte aus dem Vorprozessor 102 an den Pufferspeicherstellen 1 bis N in den Eingangssignalpuffer 302 geschoben werden. Deshalb ist ersichtlich, daß aufeinanderfolgende Rahmen N gemeinsame Abtastwerte enthalten: der erste der aufeinanderfolgenden Rahmen mit den gemeinsamen Abtastwerten in den Pufferspeicherstellen 1 bis N und der zweite der aufeinanderfolgenden Rahmen mit den gemeinsamen Abtastwerten in den Pufferspeicherstellen N+1 bis 2N. Die Analysefilterbank 202 ist ein kritisch abgetastetes System (d. h. die Analysefilterbank 202 gibt für alle N Audiosignalabtastwerte, die durch den Eingangssignalpuffer 302 empfangen werden, einen Vektor von N Skalierern an die Quantisierer/Ratenschleife 206 aus).
- Jeder Rahmen des Eingangsaudiosignals wird durch den Eingangssignalpuffer 302 dem Fenstermultiplizierer 304 zugeführt, so daß der Fenstermultiplizierer 304 sieben verschiedene Datenfenster auf den Rahmen anwenden kann. Jedes Datenfenster ist ein Vektor von Skalierern, die "Koeffizienten" genannt werden. Obwohl alle sieben Datenfenster 2N Koeffizienten aufweisen (d. h. dieselbe Anzahl wie Audiosignalabtastwerte in dem Rahmen vorliegen), weisen vier der sieben nur N/2 von null verschiedene Koeffizienten auf (d. h. ein Viertel der Anzahl von Audiosignalabtastwerten in dem Rahmen). Wie nachfolgend besprochen wird, können die Datenfensterkoeffizienten vorteilhafterweise so gewählt werden, daß die wahrnehmungsbezogene Entropie des Ausgangssignals des MDCT Prozessors 310 reduziert wird.
- Die Informationen für die Datenfensterkoeffizienten werden in dem Fensterspeicher 306 gespeichert. Der Fensterspeicher 306 kann beispielsweise einen Direktzugriffsspeicher ("RAM"), einen Nur-Lese-Speicher ("ROM") oder ein anderes magnetisches oder optisches Medium umfassen. Fig. 14 zeigt Zeichnungen von sieben beispielhaften Datenfenstern, die durch den Fenstermultiplizierer 304 angewandt werden. Typische Vektoren von Koeffizienten für jedes der sieben Datenfenster werden in Fig. 14 dargestellt. Wie aus Fig. 14 ersichtlich ist, können einige der Datenfensterkoeffizienten gleich null sein.
- Unter Berücksichtigung, daß das Datenfenster ein Vektor von 2N Skalierern ist und der Audiosignalrahmen ebenfalls ein Vektor von 2N Skalierern ist, werden die Datenfensterkoeffizienten durch punktweise Multiplikation auf die Audiosignalrahmenskalierer angewandt (d. h. der erste Audiosignalrahmenskalierer wird mit dem ersten Datenfensterkoeffizienten multipliziert, der zweite Audiosignalrahmenskalierer wird mit dem zweiten Datenfensterkoeffizienten multipliziert usw.). Der Fenstermultiplizierer 304 kann deshalb sieben Mikroprozessoren umfassen, die parallel arbeiten, wobei jeder Prozessor 2N Multiplikationen durchführt, um eins der sieben Datenfenster auf den durch den Eingangssignalpuffer 302 gehaltenen Audiosignalrahmen anzuwenden. Das Ausgangssignal des Fenstermultiplizierers 304 sind sieben Vektoren von 2N Skalierern, die als "gefensterte Rahmenvektoren" bezeichnet werden sollen.
- Die sieben gefensterten Rahmenvektoren werden durch den Fenstermultiplizierer 304 dem FFT Prozessor 308 zugeführt. Der FFT Prozessor 308 führt eine FFT ungerader Frequenzen an jedem der sieben gefensterten Rahmenvektoren durch. Die FFT ungerader Frequenzen ist eine diskrete Fourier-Transformation, die bei den folgenden Frequenzen ausgewertet wird:
- kfH/2N
- wobei k = 1, 3, 5, ..., 2N und fH gleich die halbe Abtastrate ist. Der beispielhafte FFT Prozessor 308 kann sieben herkömmliche Zeitdezimierungs-FFT-Prozessoren umfassen, die parallel arbeiten, wobei jeder Prozessor an einem anderen gefensterten Rahmenvektor arbeitet. Ein Ausgangssignal des FFT Prozessors 308 sind sieben Vektoren von 2N komplexen Elementen, die zusammen als "FFT-Vektoren" bezeichnet werden sollen.
- Der FFT Prozessor 308 führt die sieben FFT Vektoren sowohl dem wahrnehmungsbezogenen Modellprozessor 204 als auch dem MDCT Prozessor 310 zu. Der wahrnehmungsbezogene Modellprozessor 204 verwendet die FFT Vektoren zur Lenkung der Funktionsweise des Datenselektors 314 und des Quantisierers/Ratenschleifenprozessors 206. Einzelheiten bezüglich der Funktionsweise des Datenselektors 314 und des wahrnehmungsbezogenen Modellprozessors 204 werden nachfolgend dargestellt.
- Der MDCT Prozessor 310 führt auf der Grundlage der reellen Komponenten jedes der sieben aus dem FFT Prozessor 308 empfangenen FFT Vektoren eine MDCT durch. Der MDCT Prozessor 310 kann sieben parallel arbeitende Mikroprozessoren umfassen. Jeder solche Mikroprozessor bestimmt einen der sieben "MDCT Vektoren" von N reellen Skalaren auf der Grundlage eines der sieben entsprechenden FFT Vektoren. Für jeden FFT Vektor F(k) wird der resultierende MDCT Vektor X(k) folgendermaßen gebildet:
- Die Prozedur muß aufgrund der Redundanz in dem Ergebnis k nur bis N, nicht bis 2N, laufen lassen. Nämlich gilt für N < k ≤ 2N:
- X(k) = -X(2N-k).
- Der MDCT Prozessor 310 führt die sieben MDCT Vektoren dem Verketter 311 und dem Verzögerungsspeicher 312 zu.
- Wie oben mit bezug auf den Fenstermultiplizierer 304 besprochen, weisen vier der sieben Datenfenster N/2 von null verschiedene Koeffizienten auf (siehe Fig. 14c-14f). Dies bedeutet, daß vier der gefensterten Rahmenvektoren nur N/2 von null verschiedene Werte enthalten. Deshalb können die von null verschiedenen Werte dieser vier Vektoren bei der Ausgabe aus dem MDCT Prozessor 310 durch den Verketter 311 zu einem einzigen Vektor der Länge 2N verkettet werden. Die resultierende Verkettung dieser Vektoren wird für spätere Zwecke als ein einziger Vektor behandelt. Somit werden dem Verzögerungsspeicher 312 statt sieben vier MDCT Vektoren vorgelegt.
- Der Verzögerungsspeicher 312 empfängt die vier MDCT Vektoren aus dem MDCT Prozessor 310 und dem Verketter 311 zum Zweck der Bereitstellung einer vorübergehenden Speicherung. Der Verzögerungsspeicher 312 liefert eine Verzögerung von einem Audiosignalrahmen (die durch den Eingangssignalpuffer 302 definiert wird), die sich auf den Fluß der vier MDCT Vektoren durch die Filterbank 202 auswirkt. Diese Verzögerung wird bereitgestellt, indem (i) die zwei neusten aufeinanderfolgenden Mengen von MDCT Vektoren gespeichert werden, die aufeinanderfolgende Audiosignalrahmen darstellen, und (ii) als ein Eingangssignal für den Datenselektor 314 die ältere der aufeinanderfolgenden Mengen von Vektoren vorgelegt wird. Der Verzögerungsspeicher 312 kann einen Direktzugriffsspeicher (RAM) der folgenden Größe umfassen:
- M · 2 · 4 · N
- wobei 2 die Anzahl aufeinanderfolgender Mengen von Vektoren, 4 die Anzahl von Vektoren in einer Menge, N die Anzahl von Elementen in einem MDCT Vektor und M die Anzahl von Bit ist, mit denen ein MDCT Vektorelement dargestellt wird.
- Der Datenselektor 314 wählt einen der vier durch den Verzögerungsspeicher 312 bereitgestellten MDCT Vektoren, die aus der Filterbank 202 an die Quantisierer/Ratenschleife 206 ausgegeben werden sollen. Wie bereits erwähnt, lenkt der wahrnehmungsbezogene Modellprozessor 204 die Funktionsweise des Datenselektors 314 auf der Grundlage der FFT Vektoren, die durch den FFT Prozessor 308 bereitgestellt werden. Aufgrund der Wirkung des Verzögerungsspeichers 312 basieren die sieben FFT Vektoren, die dem wahrnehmungsbezogenen Modellprozessor 204 bereitgestellt werden, und die vier MDCT Vektoren, die gleichzeitig dem Datenselektor 314 bereitgestellt werden, nicht auf demselben Audioeingangsrahmen, sondern auf zwei aufeinanderfolgenden Eingangssignalrahmen - den MDCT Vektoren auf der Grundlage des früheren der Rahmen und den FFT Vektoren auf der Grundlage des späteren der Rahmen. Somit basiert die Auswahl eines spezifischen MDCT Vektors auf Informationen, die in dem nächsten folgenden Audiosignalrahmen enthalten sind. Die Kriterien, gemäß derer der wahrnehmungsbezogene Modellprozessor 204 die Auswahl eines MDCT Vektors lenkt, wird nachfolgend im Abschnitt 2.2 beschrieben.
- Für die Zwecke einer beispielhaften Stereo- Ausführungsform wird die obige Analysefilterbank 202 für jeden der Kanäle links und rechts bereitgestellt.
- Ein wahrnehmungsbezogener Codierer erzielt Erfolge bei der Reduzierung der Anzahl von Bit, die erforderlich sind, um qualitativ hochwertige Audiosignale genau darzustellen, teilweise durch Einführung von Rauschen, das der Quantisierung von informationsführenden Signalen, wie zum Beispiel den MDCT Informationen aus der Filterbank 202, zugeordnet ist. Das Ziel ist natürlich, dieses Rauschen auf eine nicht wahrnehmbare oder milde Weise einzuführen. Diese Rauschformung ist hauptsächlich ein Frequenzanalyseinstrument, und es ist somit zweckmäßig, ein Signal in eine spektrale Darstellung (z. B. die durch die Filterbank 202 gelieferten MDCT Vektoren) umzusetzen, die Form und das Ausmaß des Rauschens zu berechnen, das durch diese Signale maskiert wird, und es durch Quantisieren der Spektralwerte einzuspeisen. Diese und andere grundlegende Operationen werden in der in Fig. 2 gezeigten Struktur des wahrnehmungsbezogenen Codierers dargestellt.
- Der wahrnehmungsbezogene Modellprozessor 204 des wahrnehmungsbezogenen Audiocodierers 104 empfängt beispielsweise seine Eingangssignale aus der Analysefilterbank 202, die mit aufeinanderfolgenden Rahmen arbeitet. Die Eingangssignale des wahrnehmungsbezogenen Modellprozessors umfassen dann in der Regel sieben Vektoren der schnellen Fouriertransformation (FFT) aus der Analysefilterbank 202. Diese sind die Ausgaben des FFT Prozessors 308 in der Form von sieben Vektoren von 2N komplexen Elementen, die jeweils einem der gefensterten Rahmenvektoren entsprechen.
- Um das Quantisierungsrauschen durch das Signal zu maskieren, muß man die Spektralinhalte des Signals und die Dauer eines bestimmten Spektralmusters des Signals betrachten. Diese zwei Aspekte haben mit der Maskierung im Frequenzbereich zu tun, wobei Signal und Rauschen ungefähr stationär sind (bei gegebener Integrationsperiode des Gehörs) und außerdem mit der Maskierung im Zeitbereich, wobei Signal und Rauschen verschiedenen Schneckengangfiltern unterworfen werden. Die Form und Länge dieser Filter ist frequenzabhängig.
- Die Maskierung im Frequenzbereich wird durch das Konzept der gleichzeitigen Maskierung beschrieben. Die Maskierung im Zeitbereich wird durch das Konzept der Vormaskierung und Nachmaskierung charakterisiert. Diese Konzepte werden ausführlich in der Literatur erläutert; siehe zum Beispiel E. Zwicker und H. Fastl, "Psychoacoustics, Facts and Models", Springer-Verlag, 1990. Um diese Konzepte für die wahrnehmungsbezogene Codierung nutzbar zu machen, werden sie auf verschiedene Weisen realisiert.
- Die gleichzeitige Maskierung wird durch wahrnehmungsbezogene Rauschformungsmodelle bewertet. Bei gegebenem Spektralinhalt des Signals und seiner Beschreibung hinsichtlich des rauschartigen oder tonartigen Verhaltens erzeugen diese Modelle einen hypothetischen Maskierungsschwellenwert, der den Quantisierungspegel jeder Spektralkomponente bestimmt. Diese Rauschformung stellt das maximale Ausmaß von Rauschen dar, das in das Originalsignal eingeführt werden kann, ohne wahrnehmbare Unterschiede zu verursachen. Ein Maß, das als die WAHRNEHMUNGSBEZOGENE ENTROPIE (PE - Perceptual Entropy) bezeichnet wird, verwendet diesen hypothetischen Maskierungsschwellenwert zur Abschätzung der theoretischen unteren Grenze der Bitrate für die transparente Codierung. J. D. Jonston, Estimation of Perceptual Entropy Using Noise Masking Criteria", ICASSP, 1989.
- Die Vormaskierung charakterisiert die (Un)Hörbarkeit eines Rauschens, das eine bestimmte Zeit vor dem Maskierersignal startet, das lauter als das Rauschen ist. Die Rauschamplitude muß stärker gedämpft werden, wenn die Verzögerung zunimmt. Dieser Dämpfungspegel ist außerdem frequenzabhängig. Wenn das Rauschen das durch die erste Hälfte des Synthesefensters gedämpfte Quantisierungsrauschen ist, zeigen experimentelle Ergebnisse, daß die maximale annehmbare Verzögerung etwa 1 Millisekunde beträgt.
- Dieses Problem ist sehr empfindlich und kann direkt mit der Erzielung eines guten Codierungsgewinns in Konflikt kommen. Unter Annahme stationärer Bedingungen - einer falschen Voraussetzung - ist der Codierungsgewinn größer für größere Transformationen, der Quantisierungsfehler breitet sich jedoch bis zum Anfang des rekonstruierten Zeitsegments aus. Wenn somit eine Transformationslänge von 1024 Punkten verwendet wird, wobei ein digitales Signal mit einer Rate von 48000 Hz abgetastet wird, erscheint das Rauschen höchstens 21 Millisekunden vor dem Signal. Dieses Szenario ist besonders kritisch, wenn das Signal die Form einer schnellen Transiente im Zeitbereich annimmt, die üblicherweise als ein "Anschlag" bekannt ist. In diesem Fall ist das Quantisierungsrauschen vor dem Anschlag hörbar. Dieser Effekt ist als Vorecho bekannt.
- Somit ist eine Filterbank mit fester Länge keine gute wahrnehmungsbezogene Lösung und auch keine Signalverarbeitungslösung für nicht-stationäre Bereiche des Signals. Später soll gezeigt werden, daß eine mögliche Weise zur Umgehung dieses Problems darin besteht, die zeitliche Auflösung des Codierers zu verbessern, indem die Analyse/Synthese-Fensterlänge reduziert wird. Dies wird als ein Fensterwechselmechanismus implementiert, wenn Anschlagzustände erkannt werden. Auf diese Weise wird der durch die Verwendung eines langen Analyse/Synthese-Fensters erzielte Codierungsgewinn nur dann beeinflußt, wenn eine solche Erkennung auftritt und zu einer späteren Notwendigkeit des Wechsels zu einem kürzeren Analyse/Synthese-Fenster führt.
- Die Nachmaskierung charakterisiert die (Un)Hörbarkeit eines Rauschens, wenn es nach dem Ende eines stärkeren Maskierersignals verbleibt. In diesem Fall liegen die akzeptablen Verzögerungen in der Größenordnung von 20 Millisekunden. Angesichts der Tatsache, daß das größere transformierte Zeitsegment 21 Millisekunden (1024 Abtastwerte) dauert, ist bei der Behandlung dieser Situation keine besondere Sorgfalt notwendig.
- Das Maß der WAHRNEHMUNGSBEZOGENEN ENTROPIE (PE) eines bestimmten Transformationssegments ergibt die theoretische Untergrenze von Bit/Abtastwert zur transparenten Codierung dieses Segments. Aufgrund seiner Speichereigenschaften, die mit der Vormaskierungsprotektion zusammenhängen, zeigt dieses Maß eine bedeutsame Zunahme des PE Werts auf seinen vorherigen Wert - der das vorherige Segment betrifft - wenn bestimmte Situationen einer starken nicht-stationären Eigenschaft des Signals (z. B. eines Anschlags) vorgelegt werden. Diese wichtige Eigenschaft wird verwendet, um den Fensterwechselmechanismus zu aktivieren, um das Vorecho zu vermindern. Dieser Fensterwechselmechanismus ist keine neue Strategie und wurde bereits z. B. in dem ASPEC Codierer verwendet, der in dem ISO/MPEG Audio Coding Report, 1990, beschrieben wird, die zugrunde liegende Entscheidungstechnik ist jedoch neu und verwendet die PE Informationen zur genauen Lokalisierung der nicht-stationären Eigenschaft und zur Definition des richtigen Moments zur Aktivierung des Wechsels.
- Es werden zwei grundlegende Fenstergrößen verwendet: 1024 Abtastwerte und 256 Abtastwerte. Die erstere entspricht einer Segmentdauer von etwa 21 Millisekunden, und die letztere einer Segmentdauer von etwa 5 Millisekunden. Kürzere Fenster sind in Mengen von 4 zugeordnet, um genauso viele Spektraldaten wie ein großes Fenster darzustellen (sie stellen jedoch eine "andere" Anzahl von zeitlichen Abtastwerten dar). Um den Übergang von einem großen zu kurzen Fenstern und umgekehrt durchzuführen, erweist es sich als zweckmäßig, mehr Arten von Fenstern zu verwenden. Ein START-Fenster bewirkt den Übergang von einem großen (normalen) zu kurzen Fenstern, und ein STOP-Fenster bewirkt den umgekehrten Übergang (siehe Fig. 5b). Siehe die oben genannte Literaturstelle von Princen für nützliche Informationen zu diesem Thema. Beide Fenster sind 1024 Abtastwerte breit. Sie sind nützlich, um das System kritisch abgetastet zu halten und außerdem den Zeit-alias-Auslöschungsprozeß im Übergangsbereich zu garantieren.
- Um Zwischenkanal-Redundanz und Irrelevanz auszunutzen, wird in jedem Segment dieselbe Art von Fenster für die Kanäle RECHTS und LINKS verwendet.
- Das Stationär-Verhalten des Signals wird auf zwei Ebenen überwacht. Als erstes durch große normale Fenster, und dann gegebenenfalls durch kurze Fenster. Dementsprechend wird die PE eines großen (normalen) Fensters für jedes Segment berechnet, während die PE kurzer Fenster nur dann berechnet wird, wenn sie benötigt wird. Die Tonalitätsinformationen für beide Arten werden jedoch für jedes Segment aktualisiert, um der stetigen Variation des Signals zu folgen.
- Wenn nicht anders angegeben, sind an einem Segment 1024 Abtastwerte beteiligt, d. h. die Länge eines großen normalen Fensters.
- Das Diagramm von Fig. 5a zeigt alle Überwachungsmöglichkeiten, wenn das Segment von dem Punkt N/2 bis zum Punkt 3N/2 analysiert wird. Mit dem Diagramm von Fig. 5 hängt das Flußdiagramm von Fig. 6 zusammen, das die Überwachungssequenz und die Entscheidungstechnik beschreibt. Drei Hälften eines Segments müssen gepuffert bleiben, um in der Lage zu sein, gegebenenfalls ein START-Fenster vor einer Sequenz kurzer Fenster einzufügen. Fig. 5a-e betrachten explizit die 50%-Überlappung zwischen aufeinanderfolgenden Segmenten.
- Der Prozeß beginnt mit der Analyse eines "neuen" Segments mit 512 neuen zeitlichen Abtastwerten (die übrigen 512 Abtastwerte gehören zu dem vorherigen Segment). Wie in Fig. 6 gezeigt, werden die PE dieses neuen Segments und die Differenz-PE mit dem vorherigen Segment berechnet (607). Wenn der letztere Wert einen vordefinierten Schwellenwert erreicht (602), dann wird das Vorliegen einer nicht-stationären Eigenschaft in dem aktuellen Segment deklariert, und es werden Einzelheiten gewonnen, indem vier kurze Fenster mit in Fig. 5 dargestellten Positionen verarbeitet werden. Der PE Wert jedes kurzen Fensters wird berechnet (603), was zu der folgenden geordneten Sequenz führt: PE1, PE2, PE3 und PE4. Aus diesen Werten wird der genaue Anfang der starken nicht-stationären Eigenschaft des Signals abgeleitet. Es sind nur fünf Positionen möglich. Diese sind in Fig. 5a als L1, L2, L3, L4 und L5 identifiziert. Aus dem folgenden wird klar, daß, wenn die nicht-stationäre Eigenschaft an einem bestimmten Punkt von dem Punkt N/2 bis zum Punkt 15N/16 stattgefunden hätte, diese Situation in dem vorherigen Segment erkannt worden wäre. Es folgt, daß der PE1 Wert keine relevanten Informationen über die stationäre Eigenschaft des aktuellen Segments enthält. Die mittlere PE der kurzen Fenster wird mit der PE des großen Fensters desselben Segments verglichen (605). Eine kleinere PE zeigt eine effizientere Codierungssituation. Wenn somit der erstere Wert nicht kleiner als der letztere ist, dann wird angenommen, daß man einer degenerierten Situation gegenübersteht, und der Fensterwechselprozeß wird abgebrochen.
- Es wurde beobachtet, daß bei kurzen Fenstern die Informationen über stationäre Eigenschaften mehr in ihrem PE Wert als in der Differenz mit dem PE Wert des vorangegangenen Fensters liegen. Dementsprechend wird das erste Fenster erkannt, das einen größeren PE Wert als ein vordefinierter Schwellenwert aufweist. PE2 wird mit der Position L1, PE3 mit L2 und PE4 mit der Position L3 identifiziert. In jedem Fall wird ein START-Fenster (608) vor dem aktuellen Segment plaziert, das mit kurzen Fenstern codiert wird. Zum Abschluß des Prozesses wird ein STOP-Fenster benötigt (610). Es gibt jedoch zwei Möglichkeiten. Wenn die identifizierte Position, an der die starke nicht-stationäre Eigenschaft des Signals beginnt, L1 oder L2 ist, dann liegt dies gut in der kurzen Fenstersequenz, es resultieren keine Codierungsartefakte und die Codierungssequenz ist in Fig. 5b abgebildet. Wenn die Position L4 (612), dann kann die nicht-stationäre Eigenschaft im schlechtesten Fall in nächster Nähe der rechten Flanke des letzten kurzen Fensters liegen. Existierende Ergebnisse haben konsequent gezeigt, daß das Plazieren eines STOP-Fensters - bei Codierungssituationen - in diesen Umständen die Rekonstruktion des Signals in diesem Wechselpunkt bedeutsam verschlechtert. Aus diesem Grund wird eine weitere Menge von vier kurzen Fenstern vor einem STOP-Fenster plaziert (614). Die resultierende Codierungssequenz ist in Fig. 5e dargestellt.
- Wenn keine der kurzen PE5 über dem Schwellenwert liegt, sind die verbleibenden Möglichkeiten L4 oder L5. In diesem Fall liegt das Problem vor der Reichweite der kurzen Fenstersequenz, und es kann das erste Segment in dem Puffer unmittelbar unter Verwendung eines normalen großen Fensters codiert werden.
- Zur Identifizierung der korrekten Position muß ein weiteres kurzes Fenster verarbeitet werden. Es ist in Fig. 5a durch eine gepunktete Kurve dargestellt, und sein PE Wert, PE1n+1, wird ebenfalls berechnet. Es ist leicht zu sehen, daß dieses kurze Fenster bereits zu dem nächsten Segment gehört. Wenn PE1n+1 über dem Schwellenwert liegt (611), dann ist die Position L4, und es kann ein STOP-Fenster (615) einem START-Fenster (613) folgen (siehe Fig. 5c). In diesem Fall ist die Verbreitung des Quantisierungsrauschens auf die Länge eines kurzen Fensters begrenzt, und es wird ein besserer Codierungsgewinn erzielt. In der seltenen Situation, in der die Position L5 ist, erfolgt die Codierung gemäß der Sequenz von Fig. 5d. Der Beweis, daß dies in diesem Fall die richtige Lösung ist, erfolgt durch Bestätigung, daß PE2n+1 über dem Schwellenwert liegt. PE2n+1 ist die PE des kurzen Fensters (in Fig. 5 nicht dargestellt), das dem durch PE1n+1 identifizierten Fenster unmittelbar folgt.
- Wie bereits erwähnt, verwenden die Kanäle RECHTS und LINKS für jedes Segment dieselbe Art von Analyse/Synthese-Fenster. Dies bedeutet, daß ein Wechsel für beide Kanäle vorgenommen wird, wenn mindestens ein Kanal dies erfordert.
- Es wurde beobachtet, daß bei Anwendungen mit niedrigen Bitraten die Lösung von Fig. 5c zwar eine gute lokale psychoakustische Lösung darstellt, aber eine unvernünftig große Anzahl von Bit erfordert, die die Codierungsqualität nachfolgender Segmente beeinträchtigen kann. Aus diesem Grund wird diese Codierungslösung möglicherweise letztendlich gesperrt werden.
- Außerdem ist offensichtlich, daß die Einzelheiten des rekonstruierten Signals bei der Verwendung kurzer Fenster näher bei dem Originalsignal liegen, als wenn nur normale große Fenster verwendet werden. Dies ist so, weil der Anschlag im Grunde ein Signal mit großer Bandbreite ist und nur für sehr kurze Zeitdauern als stationär angesehen werden kann. Da kurze Fenster eine größere zeitliche Auflösung als große Fenster aufweisen, sind sie in der Lage, die schwankenden Muster des Spektrums mit größerer Wiedergabetreue zu verfolgen und zu reproduzieren. Anders ausgedrückt, ist dies die Differenz zwischen einer präziseren (zeitlich) lokalen Quantisierung des Signals und einer (frequenzmäßigen) globalen Quantisierung des Signals.
- Der letztendliche Maskierungsschwellenwert des Stereo-Codierers wird unter Verwendung einer Kombination von Mono- und Stereo-Schwellenwerten berechnet. Obwohl der Mono-Schwellenwert unabhängig für jeden Kanal berechnet wird, berücksichtigt der für Stereo beide Kanäle.
- Der unabhängige Maskierungsschwellenwert für die Kanäle RECHTS oder LINKS wird unter Verwendung eines psychoakustischen Modells berechnet, das einen Ausdruck für tonmaskierendes Rauschen und rauschmaskierenden Ton enthält. Der letzere wird als eine vorsichtige Approximation für einen Ausdruck für rauschmaskierendes Rauschen verwendet. Der Mono- Schwellenwert wird mit derselben Prozedur wie in bisherigen Arbeiten berechnet. Insbesondere berücksichtigt ein Tonalitätsmaß die Evolution der Leistung und der Phase jedes Frequenzkoeffizienten über die letzten drei Segmente hinweg, um das Signal als mehr tonartig oder rauschartig zu identifizieren. Dementsprechend wird jeder psychoakustische Ausdruck mehr oder weniger gewichtet als der andere. Diese Ausdrücke, die in der Literatur zu finden sind, wurden für eine bessere Leistung aktualisiert. Sie sind folgendermaßen definiert:
- TMNdB = 19,5+bark · 18,0/26,0
- NMTdB = 6,56-bark · 3,06/26,0
- wobei bark die Frequenz auf der Barkschen Skala ist. Diese Skala hängt mit dem zusammen, was hier als Schneckengangfilter oder kritische Bänder bezeichnet werden kann. Diese werden wiederum mit Segmenten konstanter Länge der Basilarmembran identifiziert. Der letzte Schwellenwert wird so eingestellt, daß absolute Schwellenwerte der Maskierung und auch eine teilweise Vormaskierungsprotektion berücksichtigt wird.
- Eine kurze Beschreibung der vollständigen Mono- Schwellenwertberechnung folgt. Zur Vereinfachung der Beschreibung der beteiligten Operationen muß einige Terminologie eingeführt werden.
- Das Spektrum jedes Segments ist auf drei verschiedene Arten organisiert, die jeweils einem anderen Zweck folgen.
- 1. Als erstes kann es in Partitionen organisiert werden. Jeder Partition ist ein einziger Bark-Wert zugeordnet. Diese Partitionen liefern eine Auflösung von ungefähr entweder einer MDCT-Linie oder 1/3 eines kritischen Bands, je nachdem, was breiter ist. Bei niedrigen Frequenzen bildet eine einzige Linie des MDCT eine Codiererpartition. Bei hohen Frequenzen werden viele Linien kombiniert, um eine Codiererpartition zu bilden. In diesem Fall ist der zugeordnete Bark-Wert der Median-Barkpunkt der Partition. Diese Partitionierung des Spektrums ist notwendig, um eine akzeptable Auflösung für die Spreizungsfunktion sicherzustellen. Später wird gezeigt, daß diese Funktion den Maskierungseinfluß auf benachbarte kritische Bänder darstellt.
- 2. Zweitens kann das Spektrum in Bänder organisiert werden. Bänder werden durch eine Parameterdatei definiert. Jedes Band gruppiert eine Anzahl von Spektrallinien, die einem einzigen Skalierungsfaktor zugeordnet sind, der sich aus dem letzten Maskierungsschwellenwertvektor ergibt.
- 3. Als letztes kann das Spektrum auch in Abschnitte organisiert werden. Später wird gezeigt, daß bei Abschnitten eine ganze Zahl von Bändern beteiligt ist und die Abschnitte einen Bereich des Spektrums darstellen, der mit demselben Huffman-Codebuch codiert wird.
- Es werden drei Indizes für Datenwerte verwendet. Dies sind die folgenden:
- ω → zeigt an, daß die Berechnung durch die Frequenz in dem MDCT-Linienbereich indiziert wird.
- b → zeigt an, daß die Berechnung im Schwellenwertberechnungs-Partitionsbereich indiziert wird. Falls in diesem Bereich eine Faltung oder Summe durchgeführt wird, wird bb als die Summationsvariable verwendet.
- n → zeigt an, daß die Berechnung im Codiererbandbereich indiziert wird.
- Zusätzlich werden einige Symbole verwendet:
- 1. Der Index der Berechnungspartition b.
- 2. Die Linie mit der niedrigsten Frequenz in der Partition, ωlowb.
- 3. Die Linie mit der höchsten Frequenz in der Partition, ωhighb.
- 4. Der Median-Bark-Wert der Partition, bvalb.
- 5. Der Wert für das tonmaskierende Rauschen (in dB) für die Partition, TMNb.
- 6. Der Wert für den rauschmaskierenden Ton (in dB) für die Partition, NMTb.
- Mehrere Punkte in der folgenden Beschreibung beziehen sich auf die "Spreizungsfunktion". Sie wird durch das folgende Verfahren berechnet:
- tmpx = 1,05(j - i)
- Wobei i der Barkwert für das gespreizte Signal, j der Barkwert des Bandes, in das hinein gespreizt wird, und tmpx eine temporäre Variable ist.
- x = 8 minimum((tmpx - 0,5)² - 2(tmpx - 0,5),0)
- Wobei x eine temporäre Variable ist und minimum(a,b) eine Funktion ist, die das negativere von a oder b zurückgibt.
- tmpy = 15,811389 + 7,5(tmpx + 0,474) - 17,5(1,+(tmpx + 0,474)²)0,5
- wobei tmpy eine weitere temporäre Variable ist.
- if (tmpy < -100)then{(sprdngf(i,j) = 0}else{sprdngf (i,j) = 10(x+tmpy)/10,0}.
- Die folgenden Schritte sind die notwendigen Schritte zur Berechnung des SMRn, das im Codierer verwendet wird.
- 1. Verketten von 512 neuen Abtastwerten des Eingangssignals zur Bildung eines weiteren Segments mit 1024 Abtastwerten. Siehe bitte Fig. 5a.
- 2. Berechnen des komplexen Spektrums des Eingangssignals unter Verwendung der O-FFT und unter Verwendung eines Sinusfensters.
- 3. Berechnen eines prädizierten r und φ.
- Die polare Darstellung der Transformation wird berechnet. rω, und φω, stellen die Betrags- und Phasenkomponenten einer Spektrallinie des transformierten Segments dar.
- Ein prädizierter Betrag ω und eine prädizierte Phase ω, werden aus den r und φ der vorherigen beiden Schwellenwertberechnungsblöcke berechnet:
- w = 2rw(t-1)-rw(t-2)
- ω = 2φω(t-1)-φω(t-2)
- wobei t die aktuelle Blocknummer darstellt, t-1 die Daten des vorherigen Blocks indiziert und t-2 die Daten aus dem Schwellenwertberechnungsblock vor diesem indiziert.
- 4. Berechnen des Unvorhersehbarkeitsmaßes cω cω, das Unvorhersehbarkeitsmaß, ist:
- 5. Berechnen der Energie und Unvorhersehbarkeit bei den Schwellenwertberechnungspartitionen.
- Die Energie in jeder Partition, eb, ist:
- und die gewichtete Unvorhersehbarkeit, cb, ist:
- 6. Falten der partitionierten Energie und Unvorhersehbarkeit mit der Spreizungsfunktion.
- Da ctb durch die Signalenergie gewichtet wird, muß sie auf cbb umnormiert werden.
- cbb = ctb/ecbb
- Zur gleichen Zeit sollte aufgrund der unnormierten Beschaffenheit der Spreizungsfunktion ecbb umnormiert und die normierte Energie enb berechnet werden.
- enb = ecbb/rnormb
- Der Normierungskoeffizient rnormb ist:
- 7. Konvertieren von cbb in tbb.
- tbb = -0,299-0,43 loge(cbb)
- Jedes tbb ist auf das Intervall 0 ≤ tbb ≤ 1 beschränkt.
- 8. Berechnen des erforderlichen SNR in jeder Partition.
- TMNb = 19,5+bvalb · 18,0/26,0
- NMTb = 6,56bvalb · 3,06/26,0
- Wobei TMNb das tonmaskierende Rauschen in dB und NMTb der rauschmaskierende Tonwert in dB ist. Das erforderliche Signal/Rauschverhältnis, SNRb, ist:
- SNRb = tbbTMNb+(1-tbb)NMTb
- 9. Berechnen des Leistungsverhältnisses. Das Leistungsverhältnis, bcb, ist:
- 10. Berechnen des tatsächlichen Energieschwellenwerts nbb.
- nbb = enbbcb
- 11. Spreizen der Schwellenwertenergie über MDCT-Linien, wodurch sich nbω ergibt
- nbω = nbb/ωhighb - ωlowb + 1
- 12. Hinzufügen absoluter Schwellenwerte, wodurch sich der letzte Energieschwellenwert der Hörbarkeit thrω ergibt
- thrω, = max (nbω,absthrω).
- Die dB-Werte müssen nach der Berücksichtigung der tatsächlich verwendeten MDCT-Normierung in den Energiebereich konvertiert werden.
- 13. Vorechosteuerung
- 14. Berechnen der Signal/Maskierungsverhältnisse SMRn.
- Die Tabelle "Bänder des Codierers" zeigt folgendes:
- 1. Den Index n des Bands.
- 2. Den oberen Index ωhighn des Bands n. Der untere Index ωlown wird aus dem vorherigen Band als ωhighn-1+1 berechnet.
- Um jedes Band weiter zu klassifizieren, wird eine weitere Variable erzeugt. Der Breitenindex widthn nimmt einen Wert widthn=1 an, wenn n ein wahrnehmungsbezogen schmales Band ist, und widthn=0, wenn n ein wahrnehmungsbezogen breites Band ist. Der erstere Fall tritt ein, wenn
- bvalwhighb - bvalwlowb < bandlength
- bandlength ist ein Parameter, der bei der Initialisierungsroutine gesetzt wird. Andernfalls wird der letztere Fall angenommen.
- Wenn (widthn=1) ist, dann wird der Rauschpegel in dem Codiererband nbandn folgendermaßen berechnet:
- andernfalls
- nbandn = minimum (thrwlown, ···, thrwhighn)
- Wobei in diesem Fall minimum(a, ..., z) eine Funktion ist, die das negativste oder kleinste positive Argument der Argumente a...z zurückgibt.
- Die zu dem Decodierer zu sendenden Verhältnisse SMRn werden folgendermaßen berechnet:
- Es ist wichtig, zu betonen, daß das Analysefenster für alle Fälle von großen oder kurzen Segmenten eine Sinusform aufweist, da das Tonalitätsmaß die Ausgabe eines Spektralanalyseprozesses ist. Wenn gewählt wird, ein Segment als ein START- oder STOP-Fenster zu codieren, dann werden insbesondere seine Tonalitätsinformationen durch Berücksichtigung eines Sinusfensters gewonnen; die übrigen Operationen, z. B. die Schwellenwertberechnung und die Quantisierung der Koeffizienten, berücksichtigen das mit dem entsprechenden Fenster gewonnene Spektrum.
- Der Stereo-Schwellenwert hat mehrere Ziele. Bekanntlich klingen die beiden Kanäle die meiste Zeit "gleich". Somit besteht eine bestimmte Korrelation, die in einen Codierungsgewinn umgesetzt werden kann. Bei Betrachtung der zeitlichen Darstellung der beiden Kanäle ist diese Korrelation nicht offensichtlich. Die spektrale Darstellung besitzt jedoch eine Anzahl interessanter Merkmale, die vorteilhafterweise ausgenutzt werden können. Tatsächlich besteht eine sehr praktische und nützliche Möglichkeit darin, zur Darstellung der beiden Kanäle eine neue Basis zu erzeugen. Diese Basis umfaßt zwei orthogonale Vektoren, den durch die folgende lineare Kombination definierten Vektor SUMME und den Vektor DIFFERENZ:
- Diese Vektoren, die die Länge des verwendeten Fensters aufweisen, werden im Frequenzbereich erzeugt, da der Transformationsprozeß definitionsgemäß eine lineare Operation ist. Dies hat den Vorteil, die rechnerische Last zu vereinfachen.
- Das erste Ziel besteht darin, über eine dekorreliertere Darstellung der beiden Signale zu verfügen. Die Konzentration des größten Teils der Energie in einem dieser neuen Kanäle ist eine Folge der Redundanz, die zwischen den Kanälen RECHTS und LINKS besteht und führt im Mittel immer zu einem Codierungsgewinn.
- Ein zweites Ziel besteht darin, das Quantisierungsrauschen der Kanäle RECHTS und LINKS zu korrelieren und die Lokalisierung des Rauschens oder den Entmaskierungseffekt zu steuern. Dieses Problem tritt auf, wenn die Kanäle RECHTS und LINKS unabhängig quantisiert und codiert werden. Dieses Konzept wird durch den folgenden Kontext exemplifiziert: unter der Annahme, daß der Schwellenwert der Maskierung für ein bestimmtes Signal berechnet wurde, können zwei Situationen erzeugt werden. Als erstes wird dem Signal ein Ausmaß von Rauschen hinzugefügt, das dem Schwellenwert entspricht. Wenn dieses selbe Signal mit diesem selben Rauschen den beiden Ohren vorgelegt wird, dann wird das Rauschen maskiert. Wenn jedoch dem Signal ein Ausmaß von Rauschen hinzugefügt wird, das dem Schwellenwert entspricht, und diese Kombination einem Ohr vorgelegt wird, derselbe Vorgang für das andere Ohr vorgenommen wird, wobei das Rauschen aber unkorreliert mit dem vorherigen ist, dann wird das Rauschen nicht maskiert. Um Maskierungsgewinn zu erzielen, muß das Rauschen an beiden Ohren um einen Pegel reduziert werden, der durch die Maskierungspegeldifferenzen (MLD) gegeben wird.
- Das Entmaskierungsproblem kann auf die folgende Form verallgemeinert werden: das Quantisierungsrauschen wird nicht maskiert, wenn es nicht der Lokalisierung des Maskierungssignals folgt. Daher bestehen insbesondere zwei Grenzfälle: Zentrumslokalisierung des Signals, wobei die Entmaskierung an den Seiten des Zuhörers stärker wahrnehmbar ist und Seitenlokalisierung des Signals, wobei die Entmaskierung auf der Mittellinie stärker wahrnehmbar ist.
- Die neuen Vektoren SUMME und DIFFERENZ sind sehr zweckmäßig, weil sie das Signal ausdrücken, das auf der Mitte und auch zu beiden Seiten des Zuhörers lokalisiert ist. Außerdem ermöglichen sie die Steuerung des Quantisierungsrauschens mit dem Mitten- und Seitenbild. Somit wird das Entmaskierungsproblem gelöst, indem der Protektionspegel für die MLD durch diese Vektoren gesteuert wird. Auf der Grundlage bestimmter psychoakustischer Informationen und anderer Experimente und Ergebnisse ist die MLD-Protektion besonders kritisch für sehr niedrige Frequenzen bis zu etwa 3 kHz. Sie scheint nur von der Signalleistung und nicht von dessen Tonalitätseigenschaften abzuhängen. Der folgende Ausdruck für die MLD hat zu guten Ergebnissen geführt:
- MLDdB(i) = 25,5[cos · πb(i)/32,0]²
- wobei i der Partitionsindex des Spektrums ist (siehe [7)] und b(i) die bark-Frequenz der Mitte der Partition i ist. Dieser Ausdruck gilt nur für b(i) ≤ 16,0, d.h für Frequenzen unterhalb 3 kHz. Der Ausdruck für den MLD-Schwellenwert wird folgendermaßen gegeben:
- THRMLD(i) = C(i)10-MLDdB(i)/10
- C(i) ist die Verbreitungssignalenergie auf der Basilarmembran, die nur der Partition i entspricht.
- Ein drittes und letztes Ziel besteht darin, ein bestimmtes Stereo-Signalbild so auszunutzen, daß Irrelevanz aus Richtungen des Signals entnommen wird, die durch dieses Bild maskiert werden. Im Prinzip erfolgt dies nur dann, wenn das Stereobild stark in einer Richtung definiert ist, um die Reichheit des Stereosignals nicht zu beeinträchtigen. Auf der Grundlage der Vektoren SUMME und DIFFERENZ wird dieses Ziel implementiert, indem die folgenden beiden dualen Prinzipien postuliert werden:
- 1. Wenn eine starke Unterdrückung des Signals (und damit des Rauschens) zu beiden Seiten des Zuhörers besteht, dann wird eine Zunahme des Rauschens auf der Mittellinie (Mittenbild) wahrnehmungsbezogen toleriert. Die obere Grenze ist das Seitenrauschen.
- 2. Wenn eine starke Lokalisierung des Signals (und damit des Rauschens) auf der Mittellinie besteht, dann wird eine Zunahme des (korrelierten) Rauschens auf beiden Seiten wahrnehmungsbezogen toleriert. Die obere Grenze ist das Mittenrauschen.
- Jede Zunahme des Rauschpegels muß jedoch durch den MLD-Schwellenwert korrigiert werden.
- Entsprechend diesen Zielen wird der letztendliche Stereo-Schwellenwert folgendermaßen berechnet. Als erstes werden die Schwellenwerte für die Kanäle SUMME und DIFFERENZ unter Verwendung der Mono-Modelle für rauschmaskierenden Ton und tonmaskierendes Rauschen berechnet. Die Prozedur ist genau die gleiche wie die oben in dem Abschnitt mit dem Titel Schritte der Schwellenwertberechnung beschriebene. An diesem Punkt gewinnt man den tatsächlichen Energieschwellenwert pro Band, nbb, für beide Kanäle. Diese werden zweckmäßigerweise THRnSUM und THRnDIF für den Kanal SUMME bzw. den Kanal DIFFERENZ bezeichnet.
- Als zweites wird der MLD-Schwellenwert für beide Kanäle, d. h. THRnMLD,SUM und THRnMLD,DIF ebenfalls folgendermaßen berechnet:
- THRnMLD,SUM = enb.SUM10-MLDndB/10
- THRnMLD,DIF = enb.DIF10-MLDdB/10
- Die MLD-Protektion und die Stereo-Irrelevanz werden berücksichtigt, indem folgendes berechnet wird:
- nthrSUM = MAX[THRnSUM, MIN(THRnDIF, THRnMLD,DIF)]
- nthrDIF = MAX[THRnDIF, MIN(THRnSUM, THRnMLD,SUM)]
- Nach diesen Operationen werden die übrigen Schritte nach dem 11. Schritt des Abschnitts Schritte bei der Schwellenwertberechnung ebenfalls für beide Kanäle unternommen. Im wesentlichen werden diese letzten Schwellenwerte weiter eingestellt, damit der absolute Schwellenwert und auch eine partielle Vormaskierungsprotektion berücksichtigt werden. Es muß beachtet werden, daß diese Vormaskierungsprotektion einfach aus dem Mono-Fall übernommen wurde. Sie berücksichtigt eine monoaurale zeitliche Auflösung von etwa 2 Millisekunden. Die binaurale zeitliche Auflösung ist jedoch sogar 6 Mikrosekunden genau! Das zweckmäßige Codieren von Stereosignalen mit einem relevanten Stereobild auf der Grundlage von Zwischenkanal- Zeitdifferenzen ist ein Thema, das weiter untersucht werden muß. Fig. 8 zeigt diesbezügliche Daten.
- Eine vereinfachte Struktur des Stereocodierers ist in Fig. 7 gezeigt. Für jedes analysierte Datensegment können ausführliche Informationen über das unabhängige und relative Verhalten beider Signalkanäle durch die Informationen verfügbar sein, die durch große und kurze Transformationen gegeben werden. Diese Informationen werden entsprechend der erforderlichen Anzahl von Schritten zur Codierung eines bestimmten Segments verwendet. Diese Schritte umfassen im wesentlichen die Auswahl des Analysefensters, die bandweise Definition der Codierungsbetriebsart (R/L oder S/D), die Quantisierung (704) und Huffman-Codierung (705) der Koeffizienten (708) und Skalierungsfaktoren (707) und schließlich die Zusammensetzung des Bitstroms.
- Wenn ein neues Segment gelesen wird, wird die Tonalitätsaktualisierung für große und kurze Analysefenster durchgeführt. Mono-Schwellenwerte und die PE Werte werden gemäß dem oben in dem Abschnitt mit dem Titel Schritte bei der Schwellenwertberechnung beschriebenen Verfahren berechnet. Dies ergibt die erste Entscheidung über die Art des für beide Kanäle zu verwendenden Fensters.
- Wenn die Fenstersequenz gewählt wurde, wird anschließend eine orthogonale Codierungsentscheidung ins Auge gefaßt. Dabei wird zwischen unabhängiger Codierung der Kanäle, der Betriebsart RECHTS/LINKS (R/L) und gemeinsamer Codierung unter Verwendung der Kanäle SUMME und DIFFERENZ (S/D) ausgewählt. Die Entscheidung erfolgt bandweise des Codierers. Dies basiert auf der Annahme, daß die binaurale Wahrnehmung an den beiden Ohren eine Funktion der Ausgabe derselben kritischen Bänder ist. Wenn der Schwellenwert an den beiden Kanälen sehr verschieden ist, dann besteht keine Notwendigkeit der MLD-Protektion, und die Signale sind nicht entkorrelierter, wenn die Kanäle SUMME und DIFFERENZ berücksichtigt werden. Wenn die Signale dergestalt sind, daß sie ein Stereobild erzeugen, dann muß eine MLD Protektion aktiviert werden, und zusätzliche Gewinne können ausgenutzt werden, indem die Codierungsbetriebsart S/D gewählt wird. Zur Erkennung dieser letzteren Situation kann zweckmäßigerweise der Mono-Schwellenwert zwischen den Kanälen RECHTS und LINKS verglichen werden. Wenn sich die Schwellenwerte in einem bestimmten Band nicht um mehr als einen vordefinierten Wert, z. B. 2 dB, unterscheiden, dann wird die Codierungsbetriebsart S/D gewählt. Andernfalls wird die unabhängige Betriebsart R/L angenommen. Jedem Band ist ein Bitflag zugeordnet, das die Codierungsbetriebsart dieses Bands angibt und zu dem Decodierer als Nebeninformationen gesendet werden muß. Es wird von nun an als ein Codierungsbetriebsartflag bezeichnet.
- Die Codierungsbetriebsartentscheidung ist zeitlich adaptiv, da sie sich für dasselbe Band in nachfolgenden Segmenten unterscheiden kann, und ist außerdem frequenzmäßig adaptiv, da die Codierungsbetriebsart für nachfolgende Bänder für dasselbe Segment verschieden sein kann. Ein Beispiel einer Codierungsentscheidung ist in Fig. 13 gezeigt. Dieses Beispiel gilt sowohl für lange als auch kurze Segmente.
- Zu diesem Punkt ist klar, daß, da der Fensterwechselmechanismus nur Mono-Maße beteiligt, die maximale Anzahl von PE-Maßen pro Segment 10 beträgt (2 Kanäle · [1 großes Fenster + 4 kleine Fenster]). Die maximale Anzahl von Schwellenwerten, die man möglicherweise pro Segment berechnen muß, beträgt dagegen 20, und es müssen deshalb immer 20 Tonalitätsmaße pro Segment aktualisiert werden (4 Kanäle · [1 großes Fenster + 4 kurze Fenster]).
- Es wurde bereits erwähnt, daß die Entscheidungen für Fensterwechsel und für Codierungsbetriebsartenauswahl in dem Sinne orthogonal sind, als sie nicht voneinander abhängen. Außerdem ist der letzte Schritt des Codierungsprozesses, bei dem Quantisierung, Huffman-Codierung und Bitstromzusammensetzung erfolgt, von diesen Entscheidungen unabhängig; d. h. es besteht kein Rückkopplungsweg. Dieser Umstand hat den Vorteil, die gesamte Codierungsverzögerung auf einen Minimalwert zu reduzieren (1024/48000 = 21,3 Millisekunden), und außerdem Unstabilitäten aufgrund von unorthodoxen Codierungssituationen zu vermeiden.
- Der Quantisierungsprozeß beeinflußt sowohl spektrale Koeffizienten als auch Skalierungsfaktoren. Spektrale Koeffizienten sind in Bändern geclustert, wobei jedes Band dieselbe Schrittgröße bzw. denselben Skalierungsfaktor aufweist. Jede Schrittgröße wird direkt aus dem Maskierungsschwellenwert berechnet, der ihrem Band entspricht. Die ganzzahligen quantisierten Werte werden dann in Codes variabler Wortlänge oder Huffman-Codes umgesetzt. Die Gesamtzahl von Bit zur Codierung des Segments unter Berücksichtigung zusätzlicher Felder des Bitstroms wird berechnet. Da die Bitrate konstant gehalten werden muß, muß der Quantisierungsprozeß iterativ durchgeführt werden, bis diese Anzahl von Bit in vordefinierten Grenzen liegt. Nach der Anzahl von erforderlichen Bit zur Codierung des gesamten Segments unter Berücksichtigung des grundlegenden Maskierungsschwellenwerts wird der Grad der Einstellung durch eine Puffersteuereinheit vorgeschrieben. Diese Steuereinheit verteilt das Defizit oder den Kredit zusätzlicher Bit über mehrere Segmente entsprechend der Bedürfnisse jedes dieser.
- Die Technik der Bitrateneinstellungsroutine wird durch das Flußdiagramm von Fig. 9 dargestellt. Es ist ersichtlich, daß nach der Berechnung der Gesamtzahl verfügbarer Bit zur Verwendung durch das aktuelle Segment eine iterative Prozedur versucht, einen Faktor α so zu finden, daß, wenn alle anfänglichen Schwellenwerte mit diesem Faktor multipliziert werden, die letztliche Gesamtzahl von Bit kleiner als die Anzahl verfügbarer Bit ist und innerhalb eines Fehlers δ liegt. Sogar dann, wenn die Approximationskurve so ungünstig ist, daß α nicht innerhalb der maximalen Anzahl von Iterationen gefunden wird, ist eine akzeptable Lösung immer verfügbar.
- Die Hauptschritte dieser Routine sind folgendermaßen in Fig. 7 und Fig. 9 abgebildet. Als erstes wird ein Intervall gefunden, das die Lösung enthält. Dann versucht eine Schleife, schnell auf diese Lösung zu konvergieren. In jeder Iteration wird die beste Lösung aktualisiert.
- Um dieselbe Prozedur für mit großen und kurzen Fenstern codierte Segmente zu verwenden, werden in diesem letzteren Fall die Koeffizienten der 4 kurzen Fenster durch Verkettung homologer Bänder geclustert.
- Skalierungsfaktoren werden gleichermaßen geclustert. Die Bitrateneinstellungsroutine (704) ruft eine weitere Routine auf, die die Gesamtzahl von Bit zur Darstellung aller Huffman-codierten Wörter (705) berechnet (Koeffizienten und Skalierungsfaktoren). Diese letztere Routine führt eine Spektrumspartionierung gemäß der Amplitudenverteilung der Koeffizienten durch. Das Ziel besteht darin, vordefinierte Huffman-Codebücher Abschnitten des Spektrums zuzuweisen. Jeder Abschnitt gruppiert eine variable Anzahl von Bändern, und deren Koeffizienten werden mit einem zweckmäßigen Buch Huffman-codiert. Die Grenzen des Abschnitts und der Bezug auf das Codebuch müssen als Nebeninformationen zu dem Decodierer gesendet werden. Siehe in diesem Zusammenhang Fig. 11.
- Die Spektrumspartionierung erfolgt unter Verwendung einer Minimalkostenstrategie. Die Hauptschritte sind folgendermaßen. Als erstes werden alle möglichen Abschnitte definiert - die Grenze ist ein Abschnitt pro Band - die jeweils das Codebuch aufweisen, das am besten mit der Amplitudenverteilung der Koeffizienten in diesem Abschnitt übereinstimmt. Da der Anfang und das Ende des gesamten Spektrums bekannt ist, gibt es, wenn K die Anzahl von Abschnitten ist, K-1 Trennungen zwischen Abschnitten. Der Preis zur Beseitigung jeder Trennung wird berechnet. Die Trennung mit dem niedrigeren Preis wird beseitigt (anfängliche Preise können negativ sein). Preise werden vor der nächsten Iteration erneut berechnet. Dieser Prozeß wird wiederholt, bis eine maximal zulässige Anzahl von Abschnitten erreicht wird und der kleinste Preis zur Beseitigung einer weiteren Trennung höher als ein vordefinierter Wert ist. Siehe in diesem Zusammenhang Fig. 10.
- Aspekte der durch die Quantisierer/Ratenschleife 206 in Fig. 2 erzielten Verarbeitung werden nun vorgestellt. Im Stand der Technik enthielten Raten-Schleifen-Mechanismen Annahmen bezüglich des Mono-Falles. Mit dem Übergang von wahrnehmungsbezogenen Mono-zu-Stereo-Codierern haben die an die Ratenschleife gestellten Anforderungen zugenommen.
- Die Eingaben für die Quantisierer/Ratenschleife 206 in Fig. 2 umfassen Spektralkoeffizienten (d. h. die MDCT Koeffizienten), die durch die Analysefilterbank 202 abgeleitet werden, und Ausgaben des wahrnehmungsbezogenen Modells 204, darunter berechnete Schwellenwerte, die den Spektralkoeffizienten entsprechen.
- Die Quantisierer/Ratenschleife 206 quantisiert die Spektralinformationen auf der teilweisen Grundlage der berechneten Schwellenwerte und der absoluten Schwellenwerte des Gehörs und liefert dem Entropiecodierer 208 dabei einen Bitstrom. Der Bitstrom enthält Signale, die in drei Teile aufgeteilt werden: (1) einen ersten Teil, der die standardisierten Nebeninformationen enthält; (2) einen zweiten Teil, der die Skalierungsfaktoren für die 35 oder 56 Bänder und zusätzliche Nebeninformationen, die für das sogenannte adaptive Fensterwechseln verwendet werden, wenn dieses benutzt wird, enthält (die Länge dieses Teils kann abhängig von den Informationen in dem ersten Teil schwanken) und (3) einen dritten Teil, der die quantisierten Spektralkoeffizienten umfaßt.
- Ein "benutzter Skalierungsfaktor" Δ wird iterativ abgeleitet, indem zwischen einem berechneten Skalierungsfaktor und einem Skalierungsfaktor interpoliert wird, der aus dem absoluten Schwellenwert des Gehörs bei der Frequenz abgeleitet wird, die der Frequenz des entsprechenden zu quantisierenden Spektralkoeffizienten entspricht, bis die quantisierten Spektralkoeffizienten innerhalb zulässiger Grenzen codiert werden können.
- Eine beispielhafte Ausführungsform ist in Fig. 13 zu sehen. Bei 1301 empfängt die Quantisierer/Ratenschleife einen Spektralkoeffizienten Cf und einen Energieschwellenwert E, der diesem Spektralkoeffizienten entspricht. Wie bei 1303 gezeigt, wird ein "Schwellenwert-Skalierungsfaktor" Δ&sub0; folgendermaßen berechnet:
- Δ&sub0; = 12E
- Außerdem wird ein "absoluter Skalierungsfaktor" ΔA auf der Grundlage des absoluten Schwellenwerts des Gehörs berechnet (d. h. des leisesten Geräuschs, das mit der dem Skalierungsfaktor entsprechenden Frequenz hörbar ist). Vorteilhafterweise werden eine Interpolationskonstante α und Interpolationsgrenzen αhigh und αlow so initialisiert, daß die Einstellung des benutzten Skalierungsfaktors unterstützt wird.
- αhigh = 1
- αlow = 0
- α = αhigh
- Wie bei 1305 gezeigt, wird als nächstes der benutzte Skalierungsfaktor aus dem folgenden Ausdruck bestimmt:
- Δ = Δ&sub0;a·ΔA(1-alpha)
- Wie in 1307 gezeigt, wird als nächstes der benutzte Skalierungsfaktor selbst quantisiert, da der oben berechnete benutzte Skalierungsfaktor nicht diskret ist, aber bei der Sendung und Verwendung vorteilhafterweise diskret ist.
- Δ = Q&supmin;¹(Q(Δ))
- Wie in 1309 gezeigt, wird als nächstes der Spektralkoeffizient unter Verwendung des benutzten Skalierungsfaktors quantisiert, um einen "quantisierten Spektralkoeffizienten" Q(Cf, Δ) zu erzeugen.
- Q(Cf,Δ) = NINT (Cf/Δ)
- wobei "NINT" die Funktion der nächsten ganzen Zahl ist. Da die Quantisierer/Ratenschleife 206 sowohl den quantisierten Spektralkoeffizienten als auch den benutzten Skalierungsfaktor senden muß, wird ein Kostenparameter C berechnet, der damit zusammenhängt, wieviele Bit benötigt werden, um beide diese zu senden. Der Kostenparameter C wird folgendermaßen berechnet:
- C = FOO(Q(Cf, Δ),Q(Δ))
- wobei FOO eine Funktion ist, die abhängig von der spezifischen Ausführungsform ohne weiteres von Durchschnittsfachleuten auf dem Gebiet der Datenkommunikation bestimmt werden kann. Wie in 1313 gezeigt, wird der Kostenparameter C geprüft, um zu bestimmen, ob er in einem zulässigen Bereich PR liegt. Wenn der Kostenparameter in dem zulässigen Bereich liegt, dann werden Q(Cf, Δ) und Q(Δ) zu dem Entropiecodierer 208 gesendet.
- Vorteilhafterweise und abhängig von der Beziehung des Kostenparameters C zu dem zulässigen Bereich PR werden die Interpolationskonstante und die Grenzen eingestellt, bis der benutzte Skalierungsfaktor einen quantisierten Spektralkoeffizienten ergibt, dessen Kostenparameter in dem zulässigen Bereich liegt.
- Wie in Fig. 13 bei 1315 gezeigt, werden die Interpolationsgrenzen beispielsweise so manipuliert, daß eine binäre Suche erzeugt wird. Genauer gesagt gilt:
- wenn C > PR, αhigh = α,
- und als Alternative,
- wenn C < PR, αlow = α.
- In jedem Fall wird die Interpolationskonstante folgendermaßen berechnet:
- α = αlow + αhigh/2
- Der Prozeß fährt dann bei 1305 iterativ fort, bis das C in den zulässigen Bereich PR eintritt.
- Der Stereo-Decodierer hat eine sehr einfache Struktur, die in Fig. 12 gezeigt ist. Seine Hauptfunktionen sind das Lesen des ankommenden Bitstroms (1202), Decodieren aller Daten (1203), Umkehrung der Quantisierung und Rekonstruktion der Kanäle RECHTS und LINKS (1204). Die Technik ist in Fig. 12 dargestellt.
- Beispielhafte Ausführungsformen können Hardware für digitale Signalverarbeitung (DSP), wie zum Beispiel den DSP16 oder DSP32C von ATZT und Software, die die Operationen durchführt, umfassen. Außerdem können höchstintegrierte Hardwareausführungsformen (VLSI-Hardware-Ausführungsformen) sowie hybride DSP/VLSI-Ausführungsformen bereitgestellt werden.
Claims (10)
1. Verfahren zur Codierungsbetriebsartenauswahl
einer Eingangsmenge von Stereo-Audiosignalen mit
Signalmengen für den linken bzw. rechten Kanal, wobei
Daten bearbeiten werden, die abgeleitet werden,
indem für die Signalmengen für den linken bzw. rechten
Kanal jeweils eine den Frequenzinhalt (308) der
Eingangsfolge darstellende Menge von ersten Signalen
gebildet wird, wobei die Menge von ersten Signalen
Signale umfaßt, die Amplituden- und Phaseninformationen
für jedes einer Mehrzahl von Frequenzbändern
darstellen,
Mengen von Summen- und Differenz-Kanalsignalen,
die der Summe von bzw. Differenz zwischen
entsprechenden der Menge von ersten Signalen für den
linken Kanal und der Menge von ersten Signalen für den
rechten Kanal entsprechen, gebildet werden,
die Zufälligkeitsmetrik für jedes der
Frequenzbänder für jede der Mengen von ersten Signalen
gebildet wird,
auf der Grundlage der frequenzmäßigen
Leistungsverteilung für jede der Mengen von ersten
Signalen und der Zufälligkeitsmetriken für jede der
Mengen von ersten Signalen, eine Tonalitätsfunktion als
eine Funktion der Frequenz gebildet wird, wobei die
Codierungsbetriebsartenauswahl durch die folgenden
Schritte gekennzeichnet ist:
auf der Grundlage der Zufälligkeitsmetrik,
Bestimmen eines ersten wahrnehmungsbezogenen
Schwellenwerts für jede der Signalmengen für den linken
und rechten Kanal, und
für jedes der Mehrzahl von Frequenzbändern,
Auswählen zwischen (i) den Summen- und Differenz-
Kanalsignalen oder (ii) den Signalen für den linken und
rechten Kanal, wobei die Auswahl auf der Grundlage der
bestimmten Schwellenwerte von linken und rechten
Kanälen für jedes der Mehrzahl von Frequenzbändern
erfolgt.
2. Verfahren nach Anspruch 1, wobei das Bilden
einer Menge von ersten Signalen das Bilden von
folgendem umfaßt:
Signale, die Amplituden- und
Phaseninformationen darstellen, die mit dem linken Kanal in
Zusammenhang stehen, für jedes einer Mehrzahl von
Frequenzbändern, und
Signale, die Amplituden- und
Phaseninformationen darstellen, die mit dem rechten Kanal in
Zusammenhang stehen, für jedes einer Mehrzahl von
Frequenzbändern.
3. Verfahren nach Anspruch 1, wobei das Bilden der
Mengen von ersten Signalen das Ableiten diskreter
Kurzzeitspektren für jede der Signalmengen für den
linken bzw. rechten Kanal umfaßt.
4. Verfahren nach Anspruch 1, mit dem Schritt des
Quantisierens der Mengen von ersten Signalen jeweils
für den linken Kanal und den rechten Kanal, so daß
durch das Quantisieren eingeführtes Rauschen auf einem
Pegel unterhalb des wahrnehmungsbezogenen
Schwellenwerts für entsprechende der Mengen von ersten Signalen
liegt.
5. Verfahren nach Anspruch 3, wobei die
Signalmengen für den linken und rechten Kanal N Signale
umfassen und das Ableiten der diskreten
Kurzzeitspektren das Ableiten von N Spektralwerten für jedes
der N Signale für den linken Kanal und der N Signale
für den rechten Kanal umfaßt.
6. Verfahren nach Anspruch. 5, wobei die
Signalmengen für den linken und rechten Kanal als
Alternative N/k Signale umfassen und das Ableiten der
diskreten Kurzzeitspektren als Alternative das Ableiten
von N/k Spektralwerten für jedes der N/k Signale für
den linken Kanal und der N/k Signale für den rechten
Kanal umfaßt, wobei N/k eine ganze Zahl ist, wobei k
ein ausgewählter ganzzahliger Teiler von N ist, und
das Verfahren folgendes umfaßt:
Ableiten eines Maßes der wahrnehmungsbezogenen
Entropie für jede der Mengen von Signalen für den
linken Kanal und den rechten Kanal, und
Auswählen zwischen den alternativen Mengen von
Signalen für den rechten Kanal und den linken Kanal und
entsprechenden Spektralwerten auf der Grundlage von
Werten für die wahrnehmungsbezogene Entropie.
7. Verfahren nach Anspruch 1, bei dem die Summen-
und Differenz-Kanalsignale für diejenigen
Frequenzbänder ausgewählt werden, für die sich die bestimmten
Schwellenwerte des linken und rechten Kanals um weniger
als einen vorbestimmten Betrag unterscheiden.
8. Verfahren nach Anspruch 7, wobei der
vorbestimmte Betrag im wesentlichen gleich 2 dB ist.
9. Verfahren nach Anspruch 7, wobei Li das i-te
erste Signal für den linken Kanal und Ri das i-te erste
Signal für den rechten Kanal ist und das
Kanalsummensignal durch Mi (Li+Ri)/2 gegeben wird.
10. Verfahren nach Anspruch 6, wobei k = 4 ist.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/844,804 US5285498A (en) | 1992-03-02 | 1992-03-02 | Method and apparatus for coding audio signals based on perceptual model |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69326492D1 DE69326492D1 (de) | 1999-10-28 |
DE69326492T2 true DE69326492T2 (de) | 2000-05-04 |
Family
ID=25293673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69326492T Expired - Lifetime DE69326492T2 (de) | 1992-03-02 | 1993-02-25 | Verfahren zur Auswahl des Codier Modus für Stereo Audio-Signale unter Benutzung von Hörbarkeitsmodellen |
Country Status (6)
Country | Link |
---|---|
US (2) | US5285498A (de) |
EP (1) | EP0559383B1 (de) |
JP (1) | JP3258424B2 (de) |
KR (1) | KR970007661B1 (de) |
CA (1) | CA2090159C (de) |
DE (1) | DE69326492T2 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10297751B4 (de) * | 2002-06-27 | 2005-12-22 | Samsung Electronics Co., Ltd., Suwon | Audiocodierverfahren und Vorrichtung, die die Harmonischen-Extraktion verwenden |
Families Citing this family (229)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
USRE40280E1 (en) | 1988-12-30 | 2008-04-29 | Lucent Technologies Inc. | Rate loop processor for perceptual encoder/decoder |
US5434948A (en) * | 1989-06-15 | 1995-07-18 | British Telecommunications Public Limited Company | Polyphonic coding |
US5040217A (en) * | 1989-10-18 | 1991-08-13 | At&T Bell Laboratories | Perceptual coding of audio signals |
US5632005A (en) * | 1991-01-08 | 1997-05-20 | Ray Milton Dolby | Encoder/decoder for multidimensional sound fields |
US5642437A (en) * | 1992-02-22 | 1997-06-24 | Texas Instruments Incorporated | System decoder circuit with temporary bit storage and method of operation |
EP0559348A3 (de) * | 1992-03-02 | 1993-11-03 | AT&T Corp. | Rateurregelschleifenprozessor für einen wahrnehmungsgebundenen Koder/Dekoder |
US5285498A (en) * | 1992-03-02 | 1994-02-08 | At&T Bell Laboratories | Method and apparatus for coding audio signals based on perceptual model |
JP3446216B2 (ja) * | 1992-03-06 | 2003-09-16 | ソニー株式会社 | 音声信号処理方法 |
JP2693893B2 (ja) * | 1992-03-30 | 1997-12-24 | 松下電器産業株式会社 | ステレオ音声符号化方法 |
US5495552A (en) * | 1992-04-20 | 1996-02-27 | Mitsubishi Denki Kabushiki Kaisha | Methods of efficiently recording an audio signal in semiconductor memory |
US5703999A (en) * | 1992-05-25 | 1997-12-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Process for reducing data in the transmission and/or storage of digital signals from several interdependent channels |
US5495555A (en) * | 1992-06-01 | 1996-02-27 | Hughes Aircraft Company | High quality low bit rate celp-based speech codec |
DE4222623C2 (de) * | 1992-07-10 | 1996-07-11 | Inst Rundfunktechnik Gmbh | Verfahren zum Übertragen oder Speichern von digitalisierten Tonsignalen |
US6252909B1 (en) * | 1992-09-21 | 2001-06-26 | Aware, Inc. | Multi-carrier transmission system utilizing channels of different bandwidth |
US5517511A (en) * | 1992-11-30 | 1996-05-14 | Digital Voice Systems, Inc. | Digital transmission of acoustic signals over a noisy communication channel |
US5729556A (en) * | 1993-02-22 | 1998-03-17 | Texas Instruments | System decoder circuit with temporary bit storage and method of operation |
US5408270A (en) * | 1993-06-24 | 1995-04-18 | Massachusetts Institute Of Technology | Advanced television system |
US5632003A (en) * | 1993-07-16 | 1997-05-20 | Dolby Laboratories Licensing Corporation | Computationally efficient adaptive bit allocation for coding method and apparatus |
DE4331376C1 (de) * | 1993-09-15 | 1994-11-10 | Fraunhofer Ges Forschung | Verfahren zum Bestimmen der zu wählenden Codierungsart für die Codierung von wenigstens zwei Signalen |
KR100269213B1 (ko) * | 1993-10-30 | 2000-10-16 | 윤종용 | 오디오신호의부호화방법 |
US5774844A (en) * | 1993-11-09 | 1998-06-30 | Sony Corporation | Methods and apparatus for quantizing, encoding and decoding and recording media therefor |
US6614914B1 (en) * | 1995-05-08 | 2003-09-02 | Digimarc Corporation | Watermark embedder and reader |
US5748763A (en) * | 1993-11-18 | 1998-05-05 | Digimarc Corporation | Image steganography system featuring perceptually adaptive and globally scalable signal embedding |
US6983051B1 (en) * | 1993-11-18 | 2006-01-03 | Digimarc Corporation | Methods for audio watermarking and decoding |
US6449377B1 (en) * | 1995-05-08 | 2002-09-10 | Digimarc Corporation | Methods and systems for watermark processing of line art images |
US6944298B1 (en) * | 1993-11-18 | 2005-09-13 | Digimare Corporation | Steganographic encoding and decoding of auxiliary codes in media signals |
US5768426A (en) * | 1993-11-18 | 1998-06-16 | Digimarc Corporation | Graphics processing system employing embedded code signals |
US6611607B1 (en) * | 1993-11-18 | 2003-08-26 | Digimarc Corporation | Integrating digital watermarks in multimedia content |
US5488665A (en) * | 1993-11-23 | 1996-01-30 | At&T Corp. | Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels |
JP3404837B2 (ja) * | 1993-12-07 | 2003-05-12 | ソニー株式会社 | 多層符号化装置 |
WO1995017745A1 (en) * | 1993-12-16 | 1995-06-29 | Voice Compression Technologies Inc. | System and method for performing voice compression |
JP2655063B2 (ja) * | 1993-12-24 | 1997-09-17 | 日本電気株式会社 | 音声符号化装置 |
KR960012475B1 (ko) * | 1994-01-18 | 1996-09-20 | 대우전자 주식회사 | 디지탈 오디오 부호화장치의 채널별 비트 할당 장치 |
KR0134318B1 (ko) * | 1994-01-28 | 1998-04-29 | 김광호 | 채널간의 마스킹특성을 고려한 비트할당장치 및 그 방법과 복호화장치 |
US5761636A (en) * | 1994-03-09 | 1998-06-02 | Motorola, Inc. | Bit allocation method for improved audio quality perception using psychoacoustic parameters |
US5732391A (en) * | 1994-03-09 | 1998-03-24 | Motorola, Inc. | Method and apparatus of reducing processing steps in an audio compression system using psychoacoustic parameters |
US5404377A (en) * | 1994-04-08 | 1995-04-04 | Moses; Donald W. | Simultaneous transmission of data and audio signals by means of perceptual coding |
JP3277699B2 (ja) * | 1994-06-13 | 2002-04-22 | ソニー株式会社 | 信号符号化方法及び装置並びに信号復号化方法及び装置 |
TW295747B (de) * | 1994-06-13 | 1997-01-11 | Sony Co Ltd | |
US5625743A (en) * | 1994-10-07 | 1997-04-29 | Motorola, Inc. | Determining a masking level for a subband in a subband audio encoder |
DE4437287C2 (de) * | 1994-10-18 | 1996-10-24 | Fraunhofer Ges Forschung | Verfahren zur Messung der Erhaltung stereophoner Audiosignale und Verfahren zur Erkennung gemeinsam codierter stereophoner Audiosignale |
US6560349B1 (en) | 1994-10-21 | 2003-05-06 | Digimarc Corporation | Audio monitoring using steganographic information |
KR970011727B1 (en) * | 1994-11-09 | 1997-07-14 | Daewoo Electronics Co Ltd | Apparatus for encoding of the audio signal |
JP2776277B2 (ja) * | 1994-12-08 | 1998-07-16 | 日本電気株式会社 | 音声符号化装置 |
JPH10511472A (ja) * | 1994-12-08 | 1998-11-04 | ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア | 言語障害者間の語音の認識を向上させるための方法および装置 |
EP0720316B1 (de) * | 1994-12-30 | 1999-12-08 | Daewoo Electronics Co., Ltd | Adaptive Kodiervorrichtung für Digitaltonsignale und Bitverteilungsverfahren dafür |
US5701389A (en) * | 1995-01-31 | 1997-12-23 | Lucent Technologies, Inc. | Window switching based on interblock and intrablock frequency band energy |
US5625745A (en) * | 1995-01-31 | 1997-04-29 | Lucent Technologies Inc. | Noise imaging protection for multi-channel audio signals |
JP3046213B2 (ja) * | 1995-02-02 | 2000-05-29 | 三菱電機株式会社 | サブバンド・オーディオ信号合成装置 |
US5699479A (en) * | 1995-02-06 | 1997-12-16 | Lucent Technologies Inc. | Tonality for perceptual audio compression based on loudness uncertainty |
US5682463A (en) * | 1995-02-06 | 1997-10-28 | Lucent Technologies Inc. | Perceptual audio compression based on loudness uncertainty |
US5727119A (en) * | 1995-03-27 | 1998-03-10 | Dolby Laboratories Licensing Corporation | Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase |
JP2809126B2 (ja) * | 1995-03-30 | 1998-10-08 | 日本電気株式会社 | 音声信号処理回路および音声信号処理方法 |
US6760463B2 (en) * | 1995-05-08 | 2004-07-06 | Digimarc Corporation | Watermarking methods and media |
US5771073A (en) * | 1995-06-07 | 1998-06-23 | Massachusetts Institute Of Technology | Advanced television system using a different encoding technique for non-image areas |
US5790759A (en) * | 1995-09-19 | 1998-08-04 | Lucent Technologies Inc. | Perceptual noise masking measure based on synthesis filter frequency response |
KR100346734B1 (ko) * | 1995-09-22 | 2002-11-23 | 삼성전자 주식회사 | 고속분석필터및합성필터를구비한오디오부호화기및복호화기 |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US5826227A (en) * | 1995-12-18 | 1998-10-20 | Lucent Technologies Inc. | Hiding a source identifier within a signal |
US5732189A (en) * | 1995-12-22 | 1998-03-24 | Lucent Technologies Inc. | Audio signal coding with a signal adaptive filterbank |
JP3265962B2 (ja) * | 1995-12-28 | 2002-03-18 | 日本ビクター株式会社 | 音程変換装置 |
US5781888A (en) | 1996-01-16 | 1998-07-14 | Lucent Technologies Inc. | Perceptual noise shaping in the time domain via LPC prediction in the frequency domain |
US6138051A (en) * | 1996-01-23 | 2000-10-24 | Sarnoff Corporation | Method and apparatus for evaluating an audio decoder |
US6035177A (en) * | 1996-02-26 | 2000-03-07 | Donald W. Moses | Simultaneous transmission of ancillary and audio signals by means of perceptual coding |
US5852806A (en) * | 1996-03-19 | 1998-12-22 | Lucent Technologies Inc. | Switched filterbank for use in audio signal coding |
US5812971A (en) * | 1996-03-22 | 1998-09-22 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
US5848391A (en) * | 1996-07-11 | 1998-12-08 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Method subband of coding and decoding audio signals using variable length windows |
US6272634B1 (en) | 1996-08-30 | 2001-08-07 | Regents Of The University Of Minnesota | Digital watermarking to resolve multiple claims of ownership |
US6031914A (en) * | 1996-08-30 | 2000-02-29 | Regents Of The University Of Minnesota | Method and apparatus for embedding data, including watermarks, in human perceptible images |
US6061793A (en) * | 1996-08-30 | 2000-05-09 | Regents Of The University Of Minnesota | Method and apparatus for embedding data, including watermarks, in human perceptible sounds |
US6282299B1 (en) | 1996-08-30 | 2001-08-28 | Regents Of The University Of Minnesota | Method and apparatus for video watermarking using perceptual masks |
US6226387B1 (en) | 1996-08-30 | 2001-05-01 | Regents Of The University Of Minnesota | Method and apparatus for scene-based video watermarking |
US6252965B1 (en) * | 1996-09-19 | 2001-06-26 | Terry D. Beard | Multichannel spectral mapping audio apparatus and method |
JP3622365B2 (ja) * | 1996-09-26 | 2005-02-23 | ヤマハ株式会社 | 音声符号化伝送方式 |
US5845251A (en) * | 1996-12-20 | 1998-12-01 | U S West, Inc. | Method, system and product for modifying the bandwidth of subband encoded audio data |
US5864813A (en) * | 1996-12-20 | 1999-01-26 | U S West, Inc. | Method, system and product for harmonic enhancement of encoded audio signals |
US6463405B1 (en) | 1996-12-20 | 2002-10-08 | Eliot M. Case | Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband |
US6782365B1 (en) | 1996-12-20 | 2004-08-24 | Qwest Communications International Inc. | Graphic interface system and product for editing encoded audio data |
US5864820A (en) * | 1996-12-20 | 1999-01-26 | U S West, Inc. | Method, system and product for mixing of encoded audio signals |
US6477496B1 (en) | 1996-12-20 | 2002-11-05 | Eliot M. Case | Signal synthesis by decoding subband scale factors from one audio signal and subband samples from different one |
US6516299B1 (en) | 1996-12-20 | 2003-02-04 | Qwest Communication International, Inc. | Method, system and product for modifying the dynamic range of encoded audio signals |
WO1998046045A1 (fr) * | 1997-04-10 | 1998-10-15 | Sony Corporation | Procede et dispositif de codage, procede et dispositif de decodage et support d'enregistrement |
US6109107A (en) * | 1997-05-07 | 2000-08-29 | Scientific Learning Corporation | Method and apparatus for diagnosing and remediating language-based learning impairments |
GB2326572A (en) * | 1997-06-19 | 1998-12-23 | Softsound Limited | Low bit rate audio coder and decoder |
DE19730130C2 (de) | 1997-07-14 | 2002-02-28 | Fraunhofer Ges Forschung | Verfahren zum Codieren eines Audiosignals |
WO1999010719A1 (en) | 1997-08-29 | 1999-03-04 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
WO1999016614A1 (en) * | 1997-09-30 | 1999-04-08 | Ranpak Corp. | Method, machine and stock material for making folded strips |
US5913191A (en) * | 1997-10-17 | 1999-06-15 | Dolby Laboratories Licensing Corporation | Frame-based audio coding with additional filterbank to suppress aliasing artifacts at frame boundaries |
US6091773A (en) * | 1997-11-12 | 2000-07-18 | Sydorenko; Mark R. | Data compression method and apparatus |
US5927988A (en) * | 1997-12-17 | 1999-07-27 | Jenkins; William M. | Method and apparatus for training of sensory and perceptual systems in LLI subjects |
US6019607A (en) * | 1997-12-17 | 2000-02-01 | Jenkins; William M. | Method and apparatus for training of sensory and perceptual systems in LLI systems |
US6159014A (en) * | 1997-12-17 | 2000-12-12 | Scientific Learning Corp. | Method and apparatus for training of cognitive and memory systems in humans |
EP1050113B1 (de) * | 1997-12-27 | 2002-03-13 | STMicroelectronics Asia Pacific Pte Ltd. | Verfahren und gerät zur schätzung von koppelparametern in einem transformationskodierer für hochwertige tonsignale |
US6243424B1 (en) | 1998-03-27 | 2001-06-05 | Ibiguity Digital Corporation | Method and apparatus for AM digital broadcasting |
DE19829284C2 (de) * | 1998-05-15 | 2000-03-16 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Verarbeiten eines zeitlichen Stereosignals und Verfahren und Vorrichtung zum Decodieren eines unter Verwendung einer Prädiktion über der Frequenz codierten Audiobitstroms |
DE69933119T2 (de) * | 1998-05-27 | 2007-09-13 | Microsoft Corp., Redmond | Verfahren und vorrichtung zur maskierung des quantisierungsrauschens von audiosignalen |
US6307899B1 (en) * | 1998-06-16 | 2001-10-23 | Ameritech Corporation | Method and system for optimizing coding gain |
US6161088A (en) * | 1998-06-26 | 2000-12-12 | Texas Instruments Incorporated | Method and system for encoding a digital audio signal |
CA2246532A1 (en) | 1998-09-04 | 2000-03-04 | Northern Telecom Limited | Perceptual audio coding |
US6463410B1 (en) * | 1998-10-13 | 2002-10-08 | Victor Company Of Japan, Ltd. | Audio signal processing apparatus |
JP4831118B2 (ja) * | 1998-10-13 | 2011-12-07 | 日本ビクター株式会社 | 音声符号化方法及び音声復号方法 |
US6304865B1 (en) | 1998-10-27 | 2001-10-16 | Dell U.S.A., L.P. | Audio diagnostic system and method using frequency spectrum and neural network |
US6600908B1 (en) | 1999-02-04 | 2003-07-29 | Hark C. Chan | Method and system for broadcasting and receiving audio information and associated audio indexes |
DE19907729C2 (de) * | 1999-02-23 | 2001-02-22 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Erzeugen eines Datenstroms aus Codeworten variabler Länge und Verfahren und Vorrichtung zum Lesen eines Datenstroms aus Codeworten variabler Länge |
US6539357B1 (en) * | 1999-04-29 | 2003-03-25 | Agere Systems Inc. | Technique for parametric coding of a signal containing information |
US6961432B1 (en) * | 1999-04-29 | 2005-11-01 | Agere Systems Inc. | Multidescriptive coding technique for multistream communication of signals |
US6678653B1 (en) | 1999-09-07 | 2004-01-13 | Matsushita Electric Industrial Co., Ltd. | Apparatus and method for coding audio data at high speed using precision information |
DE19947877C2 (de) * | 1999-10-05 | 2001-09-13 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Einbringen von Informationen in einen Datenstrom sowie Verfahren und Vorrichtung zum Codieren eines Audiosignals |
US6549544B1 (en) | 1999-11-10 | 2003-04-15 | Ibiquity Digital Corporation | Method and apparatus for transmission and reception of FM in-band on-channel digital audio broadcasting |
US6523147B1 (en) | 1999-11-11 | 2003-02-18 | Ibiquity Digital Corporation | Method and apparatus for forward error correction coding for an AM in-band on-channel digital audio broadcasting system |
DE19959156C2 (de) * | 1999-12-08 | 2002-01-31 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Verarbeiten eines zu codierenden Stereoaudiosignals |
US6567781B1 (en) | 1999-12-30 | 2003-05-20 | Quikcat.Com, Inc. | Method and apparatus for compressing audio data using a dynamical system having a multi-state dynamical rule set and associated transform basis function |
US20020009000A1 (en) * | 2000-01-18 | 2002-01-24 | Qdesign Usa, Inc. | Adding imperceptible noise to audio and other types of signals to cause significant degradation when compressed and decompressed |
US6968564B1 (en) | 2000-04-06 | 2005-11-22 | Nielsen Media Research, Inc. | Multi-band spectral audio encoding |
US6678647B1 (en) * | 2000-06-02 | 2004-01-13 | Agere Systems Inc. | Perceptual coding of audio signals using cascaded filterbanks for performing irrelevancy reduction and redundancy reduction with different spectral/temporal resolution |
US7110953B1 (en) * | 2000-06-02 | 2006-09-19 | Agere Systems Inc. | Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction |
US6754618B1 (en) * | 2000-06-07 | 2004-06-22 | Cirrus Logic, Inc. | Fast implementation of MPEG audio coding |
US6879652B1 (en) | 2000-07-14 | 2005-04-12 | Nielsen Media Research, Inc. | Method for encoding an input signal |
US6732180B1 (en) | 2000-08-08 | 2004-05-04 | The University Of Tulsa | Method to inhibit the identification and retrieval of proprietary media via automated search engines utilized in association with computer compatible communications network |
WO2004084176A1 (ja) * | 2000-08-15 | 2004-09-30 | Yoichi Ando | 音響評価方法およびそのシステム |
KR100438447B1 (ko) * | 2000-10-20 | 2004-07-03 | 삼성전자주식회사 | 이동통신시스템에서 버스트 파일롯 송신장치 및 방법 |
WO2002037688A1 (en) * | 2000-11-03 | 2002-05-10 | Koninklijke Philips Electronics N.V. | Parametric coding of audio signals |
SE0004187D0 (sv) * | 2000-11-15 | 2000-11-15 | Coding Technologies Sweden Ab | Enhancing the performance of coding systems that use high frequency reconstruction methods |
JP4618873B2 (ja) * | 2000-11-24 | 2011-01-26 | パナソニック株式会社 | オーディオ信号符号化方法、オーディオ信号符号化装置、音楽配信方法、および、音楽配信システム |
WO2002056297A1 (en) * | 2001-01-11 | 2002-07-18 | Sasken Communication Technologies Limited | Adaptive-block-length audio coder |
JP2002217740A (ja) * | 2001-01-19 | 2002-08-02 | Sakai Yasue | 圧縮方法及び装置、伸長方法及び装置、圧縮伸長システム、記録媒体 |
US7447639B2 (en) | 2001-01-24 | 2008-11-04 | Nokia Corporation | System and method for error concealment in digital audio transmission |
US7069208B2 (en) * | 2001-01-24 | 2006-06-27 | Nokia, Corp. | System and method for concealment of data loss in digital audio transmission |
SE0101175D0 (sv) * | 2001-04-02 | 2001-04-02 | Coding Technologies Sweden Ab | Aliasing reduction using complex-exponential-modulated filterbanks |
US20030187798A1 (en) * | 2001-04-16 | 2003-10-02 | Mckinley Tyler J. | Digital watermarking methods, programs and apparatus |
CA2382786A1 (en) * | 2001-04-30 | 2002-10-30 | The Government Of The United States Of America, As Represented By The Se Cretary, Department Of Health And Human Services, Centers For Disease Co | Auscultatory training system |
EP1421579B1 (de) * | 2001-08-21 | 2006-04-05 | Koninklijke Philips Electronics N.V. | Audio kodierer mit unregelmässiger filterbank |
US6732071B2 (en) * | 2001-09-27 | 2004-05-04 | Intel Corporation | Method, apparatus, and system for efficient rate control in audio encoding |
US6950794B1 (en) * | 2001-11-20 | 2005-09-27 | Cirrus Logic, Inc. | Feedforward prediction of scalefactors based on allowable distortion for noise shaping in psychoacoustic-based compression |
US7181071B2 (en) * | 2001-11-27 | 2007-02-20 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding key value data of orientation interpolator node |
US7240001B2 (en) | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US6934677B2 (en) * | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
KR100472442B1 (ko) * | 2002-02-16 | 2005-03-08 | 삼성전자주식회사 | 웨이브렛 패킷 변환을 이용한 오디오 압축 방법 및 그시스템 |
US20100042406A1 (en) * | 2002-03-04 | 2010-02-18 | James David Johnston | Audio signal processing using improved perceptual model |
US20030215013A1 (en) * | 2002-04-10 | 2003-11-20 | Budnikov Dmitry N. | Audio encoder with adaptive short window grouping |
US7050965B2 (en) * | 2002-06-03 | 2006-05-23 | Intel Corporation | Perceptual normalization of digital audio signals |
KR20050025583A (ko) * | 2002-07-08 | 2005-03-14 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 처리 |
WO2004008806A1 (en) * | 2002-07-16 | 2004-01-22 | Koninklijke Philips Electronics N.V. | Audio coding |
US7299190B2 (en) | 2002-09-04 | 2007-11-20 | Microsoft Corporation | Quantization and inverse quantization for audio |
US7502743B2 (en) | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
JP4676140B2 (ja) | 2002-09-04 | 2011-04-27 | マイクロソフト コーポレーション | オーディオの量子化および逆量子化 |
KR100467617B1 (ko) * | 2002-10-30 | 2005-01-24 | 삼성전자주식회사 | 개선된 심리 음향 모델을 이용한 디지털 오디오 부호화방법과그 장치 |
US6813661B2 (en) | 2003-03-20 | 2004-11-02 | Bing Li | Portable audio system |
US20040165734A1 (en) * | 2003-03-20 | 2004-08-26 | Bing Li | Audio system for a vehicle |
JP2004309921A (ja) * | 2003-04-09 | 2004-11-04 | Sony Corp | 符号化装置、符号化方法及びプログラム |
US7739105B2 (en) * | 2003-06-13 | 2010-06-15 | Vixs Systems, Inc. | System and method for processing audio frames |
US7725324B2 (en) * | 2003-12-19 | 2010-05-25 | Telefonaktiebolaget Lm Ericsson (Publ) | Constrained filter encoding of polyphonic signals |
US7809579B2 (en) * | 2003-12-19 | 2010-10-05 | Telefonaktiebolaget Lm Ericsson (Publ) | Fidelity-optimized variable frame length encoding |
SE527670C2 (sv) * | 2003-12-19 | 2006-05-09 | Ericsson Telefon Ab L M | Naturtrogenhetsoptimerad kodning med variabel ramlängd |
SE527713C2 (sv) * | 2003-12-19 | 2006-05-23 | Ericsson Telefon Ab L M | Kodning av polyfoniska signaler med villkorsbegränsade filter |
US20050175972A1 (en) * | 2004-01-13 | 2005-08-11 | Neuroscience Solutions Corporation | Method for enhancing memory and cognition in aging adults |
US20050153267A1 (en) * | 2004-01-13 | 2005-07-14 | Neuroscience Solutions Corporation | Rewards method and apparatus for improved neurological training |
US7460990B2 (en) * | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
US8406341B2 (en) * | 2004-01-23 | 2013-03-26 | The Nielsen Company (Us), Llc | Variable encoding and detection apparatus and methods |
US6980933B2 (en) * | 2004-01-27 | 2005-12-27 | Dolby Laboratories Licensing Corporation | Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients |
DE102004009949B4 (de) * | 2004-03-01 | 2006-03-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes |
US7392195B2 (en) * | 2004-03-25 | 2008-06-24 | Dts, Inc. | Lossless multi-channel audio codec |
WO2007075098A1 (en) * | 2005-12-26 | 2007-07-05 | Intel Corporation | Generalized multi-threshold decoder for low-density parity check codes |
WO2005096509A1 (en) * | 2004-03-31 | 2005-10-13 | Intel Corporation | Multi-threshold message passing decoding of low-density parity check codes |
AU2004319556A1 (en) * | 2004-05-17 | 2005-11-24 | Nokia Corporation | Audio encoding with different coding frame lengths |
DE602004020936D1 (de) | 2004-06-07 | 2009-06-10 | Agency Science Tech & Res | Systeme und verfahren zur skalierbaren codierung und decodierung von daten |
US7630902B2 (en) * | 2004-09-17 | 2009-12-08 | Digital Rise Technology Co., Ltd. | Apparatus and methods for digital audio coding using codebook application ranges |
US8744862B2 (en) * | 2006-08-18 | 2014-06-03 | Digital Rise Technology Co., Ltd. | Window selection based on transient detection and location to provide variable time resolution in processing frame-based data |
US7937271B2 (en) | 2004-09-17 | 2011-05-03 | Digital Rise Technology Co., Ltd. | Audio decoding using variable-length codebook application ranges |
WO2006037014A2 (en) | 2004-09-27 | 2006-04-06 | Nielsen Media Research, Inc. | Methods and apparatus for using location information to manage spillover in an audience monitoring system |
US7720013B1 (en) * | 2004-10-12 | 2010-05-18 | Lockheed Martin Corporation | Method and system for classifying digital traffic |
JP5100124B2 (ja) * | 2004-10-26 | 2012-12-19 | パナソニック株式会社 | 音声符号化装置および音声符号化方法 |
KR100668319B1 (ko) * | 2004-12-07 | 2007-01-12 | 삼성전자주식회사 | 오디오 신호의 변환방법 및 장치와 오디오 신호에적응적인 부호화방법 및 장치, 오디오 신호의 역변환 방법및 장치와 오디오 신호에 적응적인 복호화 방법 및 장치 |
US7609904B2 (en) * | 2005-01-12 | 2009-10-27 | Nec Laboratories America, Inc. | Transform coding system and method |
CN101124740B (zh) * | 2005-02-23 | 2012-05-30 | 艾利森电话股份有限公司 | 多声道音频信号编码和解码的方法和装置和音频传送系统 |
US9626973B2 (en) * | 2005-02-23 | 2017-04-18 | Telefonaktiebolaget L M Ericsson (Publ) | Adaptive bit allocation for multi-channel audio encoding |
US7627481B1 (en) * | 2005-04-19 | 2009-12-01 | Apple Inc. | Adapting masking thresholds for encoding a low frequency transient signal in audio data |
JP4850827B2 (ja) * | 2005-04-28 | 2012-01-11 | パナソニック株式会社 | 音声符号化装置および音声符号化方法 |
JP4907522B2 (ja) * | 2005-04-28 | 2012-03-28 | パナソニック株式会社 | 音声符号化装置および音声符号化方法 |
KR100851970B1 (ko) * | 2005-07-15 | 2008-08-12 | 삼성전자주식회사 | 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치 |
TWI311856B (en) * | 2006-01-04 | 2009-07-01 | Quanta Comp Inc | Synthesis subband filtering method and apparatus |
US7831434B2 (en) * | 2006-01-20 | 2010-11-09 | Microsoft Corporation | Complex-transform channel coding with extended-band frequency coding |
US8190425B2 (en) * | 2006-01-20 | 2012-05-29 | Microsoft Corporation | Complex cross-correlation parameters for multi-channel audio |
TWI297488B (en) * | 2006-02-20 | 2008-06-01 | Ite Tech Inc | Method for middle/side stereo coding and audio encoder using the same |
US8064608B2 (en) * | 2006-03-02 | 2011-11-22 | Qualcomm Incorporated | Audio decoding techniques for mid-side stereo |
JPWO2007116809A1 (ja) * | 2006-03-31 | 2009-08-20 | パナソニック株式会社 | ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法 |
US8281210B1 (en) * | 2006-07-07 | 2012-10-02 | Aquantia Corporation | Optimized correction factor for low-power min-sum low density parity check decoder (LDPC) |
WO2008035949A1 (en) * | 2006-09-22 | 2008-03-27 | Samsung Electronics Co., Ltd. | Method, medium, and system encoding and/or decoding audio signals by using bandwidth extension and stereo coding |
US8041042B2 (en) * | 2006-11-30 | 2011-10-18 | Nokia Corporation | Method, system, apparatus and computer program product for stereo coding |
SE0602813L (sv) * | 2006-12-27 | 2008-06-28 | Sandvik Intellectual Property | Korrosionsresistent verktyg för kallbearbetningsoperationer |
US10885543B1 (en) | 2006-12-29 | 2021-01-05 | The Nielsen Company (Us), Llc | Systems and methods to pre-scale media content to facilitate audience measurement |
FR2911228A1 (fr) * | 2007-01-05 | 2008-07-11 | France Telecom | Codage par transformee, utilisant des fenetres de ponderation et a faible retard. |
US7885819B2 (en) | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
CN101802907B (zh) * | 2007-09-19 | 2013-11-13 | 爱立信电话股份有限公司 | 多信道音频的联合增强 |
JP4973422B2 (ja) * | 2007-09-28 | 2012-07-11 | ソニー株式会社 | 信号記録再生装置及び方法 |
US8249883B2 (en) * | 2007-10-26 | 2012-08-21 | Microsoft Corporation | Channel extension coding for multi-channel source |
GB2454190A (en) * | 2007-10-30 | 2009-05-06 | Cambridge Silicon Radio Ltd | Minimising a cost function in encoding data using spectral partitioning |
US20100324708A1 (en) * | 2007-11-27 | 2010-12-23 | Nokia Corporation | encoder |
US20090210222A1 (en) * | 2008-02-15 | 2009-08-20 | Microsoft Corporation | Multi-Channel Hole-Filling For Audio Compression |
KR101221919B1 (ko) * | 2008-03-03 | 2013-01-15 | 연세대학교 산학협력단 | 오디오 신호 처리 방법 및 장치 |
CN102007534B (zh) * | 2008-03-04 | 2012-11-21 | Lg电子株式会社 | 用于处理音频信号的方法和装置 |
US8630848B2 (en) | 2008-05-30 | 2014-01-14 | Digital Rise Technology Co., Ltd. | Audio signal transient detection |
CN102177542B (zh) * | 2008-10-10 | 2013-01-09 | 艾利森电话股份有限公司 | 能量保留多通道音频编码 |
US20100223061A1 (en) * | 2009-02-27 | 2010-09-02 | Nokia Corporation | Method and Apparatus for Audio Coding |
US9311925B2 (en) * | 2009-10-12 | 2016-04-12 | Nokia Technologies Oy | Method, apparatus and computer program for processing multi-channel signals |
WO2011046329A2 (ko) * | 2009-10-14 | 2011-04-21 | 한국전자통신연구원 | 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법 |
US8855101B2 (en) | 2010-03-09 | 2014-10-07 | The Nielsen Company (Us), Llc | Methods, systems, and apparatus to synchronize actions of audio source monitors |
US8374858B2 (en) * | 2010-03-09 | 2013-02-12 | Dts, Inc. | Scalable lossless audio codec and authoring tool |
ES2914474T3 (es) * | 2010-04-13 | 2022-06-13 | Fraunhofer Ges Forschung | Método de decodificación de una señal de audio estéreo codificada usando una dirección de predicción variable |
US8886523B2 (en) | 2010-04-14 | 2014-11-11 | Huawei Technologies Co., Ltd. | Audio decoding based on audio class with control code for post-processing modes |
EP2626856B1 (de) | 2010-10-06 | 2020-07-29 | Panasonic Corporation | Verschlüsselungsvorrichtung, entschlüsselungsvorrichtung, verschlüsselungsverfahren und entschlüsselungsverfahren |
US8885842B2 (en) | 2010-12-14 | 2014-11-11 | The Nielsen Company (Us), Llc | Methods and apparatus to determine locations of audience members |
EP2705516B1 (de) * | 2011-05-04 | 2016-07-06 | Nokia Technologies Oy | Kodierung von stereophonen signalen |
JP5799707B2 (ja) * | 2011-09-26 | 2015-10-28 | ソニー株式会社 | オーディオ符号化装置およびオーディオ符号化方法、オーディオ復号装置およびオーディオ復号方法、並びにプログラム |
US8666753B2 (en) * | 2011-12-12 | 2014-03-04 | Motorola Mobility Llc | Apparatus and method for audio encoding |
US9021516B2 (en) | 2013-03-01 | 2015-04-28 | The Nielsen Company (Us), Llc | Methods and systems for reducing spillover by measuring a crest factor |
US9118960B2 (en) | 2013-03-08 | 2015-08-25 | The Nielsen Company (Us), Llc | Methods and systems for reducing spillover by detecting signal distortion |
US9219969B2 (en) | 2013-03-13 | 2015-12-22 | The Nielsen Company (Us), Llc | Methods and systems for reducing spillover by analyzing sound pressure levels |
US9191704B2 (en) | 2013-03-14 | 2015-11-17 | The Nielsen Company (Us), Llc | Methods and systems for reducing crediting errors due to spillover using audio codes and/or signatures |
US9219928B2 (en) | 2013-06-25 | 2015-12-22 | The Nielsen Company (Us), Llc | Methods and apparatus to characterize households with media meter data |
US9426525B2 (en) | 2013-12-31 | 2016-08-23 | The Nielsen Company (Us), Llc. | Methods and apparatus to count people in an audience |
US9594765B2 (en) | 2014-12-27 | 2017-03-14 | Ascava, Inc. | Performing keyword-based search and retrieval on data that has been losslessly reduced using a prime data sieve |
US9924224B2 (en) | 2015-04-03 | 2018-03-20 | The Nielsen Company (Us), Llc | Methods and apparatus to determine a state of a media presentation device |
US9848222B2 (en) | 2015-07-15 | 2017-12-19 | The Nielsen Company (Us), Llc | Methods and apparatus to detect spillover |
TWI720086B (zh) * | 2015-12-10 | 2021-03-01 | 美商艾斯卡瓦公司 | 儲存在區塊處理儲存系統上的音頻資料和資料的縮減 |
US10678828B2 (en) | 2016-01-03 | 2020-06-09 | Gracenote, Inc. | Model-based media classification service using sensed media noise characteristics |
US9917952B2 (en) * | 2016-03-31 | 2018-03-13 | Dolby Laboratories Licensing Corporation | Evaluation of perceptual delay impact on conversation in teleconferencing system |
JP7257975B2 (ja) * | 2017-07-03 | 2023-04-14 | ドルビー・インターナショナル・アーベー | 密集性の過渡事象の検出及び符号化の複雑さの低減 |
CN110191076A (zh) * | 2019-05-23 | 2019-08-30 | 武汉恒泰通技术有限公司 | 一种fbmc系统中数据的传输方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0451879B1 (de) * | 1983-09-06 | 1995-07-05 | Mitsubishi Denki Kabushiki Kaisha | Vektor-Quantisierer |
DE3629434C2 (de) * | 1986-08-29 | 1994-07-28 | Karlheinz Dipl Ing Brandenburg | Digitales Codierverfahren |
GB8628046D0 (en) * | 1986-11-24 | 1986-12-31 | British Telecomm | Transmission system |
JP2754741B2 (ja) * | 1989-06-09 | 1998-05-20 | キヤノン株式会社 | 符号化装置 |
US5040217A (en) * | 1989-10-18 | 1991-08-13 | At&T Bell Laboratories | Perceptual coding of audio signals |
US5285498A (en) * | 1992-03-02 | 1994-02-08 | At&T Bell Laboratories | Method and apparatus for coding audio signals based on perceptual model |
-
1992
- 1992-03-02 US US07/844,804 patent/US5285498A/en not_active Expired - Lifetime
-
1993
- 1993-02-23 CA CA002090159A patent/CA2090159C/en not_active Expired - Lifetime
- 1993-02-25 EP EP93301435A patent/EP0559383B1/de not_active Expired - Lifetime
- 1993-02-25 DE DE69326492T patent/DE69326492T2/de not_active Expired - Lifetime
- 1993-02-27 KR KR1019930003050A patent/KR970007661B1/ko not_active IP Right Cessation
- 1993-03-02 JP JP06482593A patent/JP3258424B2/ja not_active Expired - Lifetime
- 1993-09-01 US US08/115,500 patent/US5481614A/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10297751B4 (de) * | 2002-06-27 | 2005-12-22 | Samsung Electronics Co., Ltd., Suwon | Audiocodierverfahren und Vorrichtung, die die Harmonischen-Extraktion verwenden |
Also Published As
Publication number | Publication date |
---|---|
EP0559383A1 (de) | 1993-09-08 |
JPH0675590A (ja) | 1994-03-18 |
EP0559383B1 (de) | 1999-09-22 |
US5481614A (en) | 1996-01-02 |
KR970007661B1 (ko) | 1997-05-15 |
CA2090159A1 (en) | 1993-09-03 |
KR930020409A (ko) | 1993-10-19 |
JP3258424B2 (ja) | 2002-02-18 |
DE69326492D1 (de) | 1999-10-28 |
US5285498A (en) | 1994-02-08 |
CA2090159C (en) | 1999-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69326492T2 (de) | Verfahren zur Auswahl des Codier Modus für Stereo Audio-Signale unter Benutzung von Hörbarkeitsmodellen | |
DE69323106T2 (de) | Verfahren und Vorrichtung für perceptuelles Kodieren von Audio-Signalen | |
DE69107841T2 (de) | Transformationskodierer und -dekodierer mit adaptiver blocklänge, adaptiver transformation und adaptivem fenster für hochwertige tonsignale. | |
DE69731677T2 (de) | Verbessertes Kombinationsstereokodierverfahren mit zeitlicher Hüllkurvenformgebung | |
DE69331428T2 (de) | Kodierung und Dekodierung digitaler Signale | |
DE69432012T2 (de) | Wahrnehmungsgebundene Kodierung von Audiosignalen | |
DE69015613T2 (de) | Transformationscodierer, -decodierer und -codierer/decodierer mit kurzer zeitverzögerung für audio-anwendungen hoher qualität. | |
KR970007663B1 (ko) | 신호 양자화 장치 및 방법 | |
DE69028675T2 (de) | Wahrnehmungsgebundene Kodierung von Audiosignalen | |
EP0290581B1 (de) | Verfahren zum übertragen digitalisierter tonsignale | |
DE69633633T2 (de) | Mehrkanaliger prädiktiver subband-kodierer mit adaptiver, psychoakustischer bitzuweisung | |
DE69116476T2 (de) | Digitaler Signalverschlüssler | |
DE69232251T2 (de) | Digitaler Kodierer mit dynamischer Quantisierungsbitverteilung | |
DE69515907T2 (de) | Verfahren und gerät zum anwenden von wellenformprädiktion auf teilbänder in einem perzeptiven kodiersystem | |
DE4320990B4 (de) | Verfahren zur Redundanzreduktion | |
DE69026278T2 (de) | Adaptiv Bitzuordnung für Audio-Koder und Dekoder | |
DE69401514T2 (de) | Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und kodiereinrichtung | |
DE69429499T2 (de) | Verfahren und vorrichtung zum kodieren oder dekodieren von signalen und aufzeichnungsmedium | |
DE60225276T2 (de) | Codierungsvorrichtung und -verfahren, decodierungsvorrichtung und -verfahren und programm | |
DE69428030T2 (de) | Digitales signalkodierungsgerät, dazugehöriges dekodiergerät und aufzeichnungsträger | |
DE69821089T2 (de) | Verbesserung von quellenkodierung unter verwendung von spektralbandreplikation | |
DE69333786T2 (de) | Verfahren zum Kodieren und Dekodieren von Audiodaten | |
DE69311569T2 (de) | Adaptive Rematrixierung von matrixförmigen Audiosignalen | |
DE19811039B4 (de) | Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen | |
DE69320872T2 (de) | Kompression und Dehnung von digitalen Signalen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
R071 | Expiry of right |
Ref document number: 559383 Country of ref document: EP |