DE60000412T2

DE60000412T2 - Datenrahmen strukturierung für adaptive blocklängenkodierung

Info

Publication number: DE60000412T2
Application number: DE60000412T
Authority: DE
Inventors: Dunn Fielder; Mead Truman
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 1999-01-28
Filing date: 2000-01-20
Publication date: 2003-08-07
Anticipated expiration: 2020-01-21
Also published as: CA2354396A1; JP4540232B2; ATE223612T1; AU771332B2; CN1338104A; HK1043429B; WO2000045389A1; US6226608B1; MY128069A; EP1151435B1; AU2621500A; CA2354396C; BR0007775A; TW519629B; MXPA01007547A; HK1043429A1; KR20010101749A; AR022335A1; EP1151435A1; ES2179018T3

Description

TECHNISCHES GEBIET

Die vorliegende Erfindung bezieht sich auf Audiosignalverarbeitung, bei der Audioinformationsströme codiert und zu Rahmen codierter Information zusammengesetzt werden. Insbesondere betrifft die Erfindung die Verbesserung der Qualität von Audioinformationsströmen, die mittels der Rahmen codierter Information übertragen und von diesen wiedergewonnen werden.

STAND DER TECHNIK

Bei vielen Video/Audiosystemen wird Video/Audioinformation in Informationsströmen übertragen, die Rahmen codierter Audioinformation umfassen, welche mit Rahmen von Videoinformation ausgerichtet sind, was bedeutet, daß der Tongehalt der Audioinformation, der in einem gegebenen Audiorahmen codiert wurde, in Beziehung steht zu dem Bildgehalt eines Videorahmens, der entweder mit dem gegebenen Audiorahmen im wesentlichen koinzident ist oder dem gegebenen Audiorahmen um einen spezifizierten Betrag voreilt oder nacheilt. Typischerweise wird die Audioinformation in codierter Form übertragen, welche verringerte Informationskapazitätsanforderungen aufweist, so daß eine gewünschte Anzahl von Kanälen von Audioinformation, sagen wir zwischen drei und acht Kanälen, in der verfügbaren Bandbreite übertragen werden kann.
Die Video/Audioinformationsströme unterliegen häufig einer Vielfalt von Editier- und Signalverarbeitungsoperationen. Eine übliche Editieroperation schneidet einen oder mehrere Ströme von Video/Audioinformation in Abschnitte und verbindet und oder klebt die Enden von zwei Abschnitten zur Bildung eines neuen Informationsstroms zusammen. Typischerweise erfolgen die Schnitte an Punkten, die mit der Videoinformation ausgerichtet sind, so daß die Videosynchronisation in dem neuen Informationsstrom erhalten bleibt. Ein einfaches Editierparadigma ist der Prozeß des Schneidens und Klebens eines Films. Die zwei Abschnitte des zu klebenden Materials können von unterschiedlichen Quellen stammen, zum Beispiel unterschiedlichen Informationskanälen, oder sie können von derselben Quelle stammen. In beiden Fällen erzeugt das Kleben generell eine Diskontinuität in der Audioinformation, die wahrnehmbar sein kann oder nicht.

A. Audiocodierung

Die wachsende Verwendung von digitalem Audio trägt dazu bei, daß es schwieriger wird, Audioinformation zu editieren, ohne hörbare Artefakte in der verarbeiteten Information zu erzeugen. Diese Schwierigkeit beruht zum Teil darauf, daß digitales Audio häufig in Segmenten oder Blöcken digitaler Abtastwerte verarbeitet oder codiert wird, die als eine komplette Einheit verarbeitet werden müssen. Viele perzeptuelle oder psychoakustisch-basierte Audiocodiersysteme verwenden Filterbänke oder Transformationen zur Umsetzung von Segmenten von Signalabtastwerten zu Blöcken codierter Teilbandsignalabtastwerte oder Transformationskoeffizienten, die als komplette Blöcke synthesegefiltert werden müssen oder invers transformiert werden müssen, um eine Replik des ursprünglichen Signalsegments wieder herzustellen. Editieroperationen sind schwieriger, weil eine Editierung des verarbeiteten Audiosignals zwischen den Blöcken erfolgen muß. Anderenfalls kann Audioinformation, die von einem Teilblock auf beiden Seiten eines Schnitts repräsentiert wird, nicht richtig wiedergewonnen werden.
Eine zusätzliche Beschränkung wird dem Editieren durch Codiersysteme auferlegt, die überlappende Segmente von Programmaterial verarbeiten. Wegen der überlappenden Natur der von den codierten Blöcken dargestellten Information kann ein Originalsignalssegment nicht einmal von einem kompletten Block codierter Abtastwerte oder Koeffizienten richtig wiedergewonnen werden.
Diese Beschränkung zeigt sich deutlich bei einer üblicher Weise verwendeten Transformation überlappter Blöcke, einer modifizierten diskreten Kosinustransformation (DCT), die beschrieben ist in Princen, Johnson, and Bradley, "Subband/Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation, "ICASSP 1987 Conf. Proc., Mai 1987, Seiten 2161-64. Diese spezielle Zeitbereich-Alias-Auslösch-(TDAC)-Transformation ist das Zeitbereichsäquivalent eines ungeradzahlig gestapelten, kritisch abgetasteten Einseitenband-Analyse-Synthesesystems und wird hier als ungeradzahlig gestapelte Zeitbereich-Alias-Auslöschung (O-TDAC) bezeichnet.
Die Vorwärts- oder Analysetransformation wird auf Segmente von Abtastwerten angewendet, die mittels einer Analysefensterfunktion gewichtet wurden und einander um die halbe Segmentlänge überlappen. Die Analysetransformation erreicht kritische Abtastung durch Dezimieren der resultierenden Transformationskoeffizienten um zwei. Der durch dieses Dezimieren verursachte Informationsverlust führt jedoch im wiedergewonnenen Signal zu Zeitbereich-Aliasing. Der Syntheseprozeß kann dieses Aliasing dadurch auslöschen, daß eine inverse oder Synthesetransformation auf Blöcke von Transformationskoeffizienten angewendet wird, um Segmente synthetisierter Abtastwerte zu erzeugen, eine geeignet geformte Synthesefensterfunktion auf die Segmente synthetisierter Abtastwerte angewendet wird und die gefensterten Segmente überlappt und addiert werden. Wenn beispielsweise ein TDAC-Analysetransformationssystem eine Folge von Blöcken B&sub1;-B&sub2; erzeugt, aus denen Segmente S&sub1;-S&sub2; wiedergewonnen werden sollen, dann werden die Artefakte in der letzten Hälfte des Segments S&sub1; und diejenigen in der ersten Hälfte S&sub2; einander aufheben.
Wenn zwei codierte Informationsströme von einem TDAC-Codiersystem an einem Punkt zwischen Blöcken geklebt werden, werden jedoch die Segmente auf beiden Seiten der Klebstelle die gegenseitigen Aliasartefakte nicht aufheben. Man nehme beispielsweise an, daß ein codierter Informationsstrom so geschnitten wird, daß er an einem Punkt zwischen Blöcken B&sub1;-B&sub2; endet, und ein anderer codierter Informationsstrom so geschnitten wird, daß er an einem Punkt zwischen Blöcken B&sub3;-B&sub4; beginnt. Wenn diese beiden codierten Informationsströme geklebt werden, so daß der Block B&sub1; unmittelbar dem Block B&sub4; vorangeht, werden sich im allgemeinen die Aliasartefakte in der letzten Hälfte des Segments S&sub1;, das von dem Block B&sub1; wiedergewonnen wird, und in der erste Hälfte des Segments S&sub4; das von dem Block B&sub4; wiedergewonnen wird, nicht gegenseitig aufheben.

B. Audio- und Videosynchronisation

Noch größere Beschränkungen werden Editieranwendungen auferlegt, die sowohl Audio- als auch Videoinformation verarbeiten, und zwar wenigsten aus zwei Gründen. Ein Grund ist, daß die Videorahmenlänge im allgemeinen nicht gleich der Audioblocklänge ist. Der zweite Grund betrifft lediglich bestimmte Videostandards wie NTSC mit Videorahmenraten (Videobildfrequenzen), die kein ganzzahliges Vielfaches der Audioabtastrate sind. Beispiele in der folgenden Erörterung gehen von einer Audioabtastrate von 48 k Abtastwerten pro Sekunde aus. Die meisten professionellen Anlagen verwenden diese Rate. Ähnliche Erwägungen gelten für andere Abtastraten, wie 44,1 k Abtastwerte pro Sekunde, die typischerweise in Consumer-Anlagen verwendet wird.
Die Rahmen- und Blocklänge für verschiedene Video- und Audiocodierstandards sind in Tabelle 1 bzw. Tabelle II gezeigt. Einträge in der Tabelle für "MPEG II" und "MPEG III" beziehen sich auf MPEG-2 Schicht II und MPEG-2 Schicht III Codiertechniken, die im Standard ISO/IEC 13818-3 der Motion Picture Experts Group der Internationalen Norm Organisation spezifiziert sind. Der Eintrag für "AC-3" bezieht sich auf eine von den Dolby Laboratories, Inc. entwickelte Codiertechnik, die im Standard A-52 von den Advanced Television Systems Committee spezifiziert ist. Die "Blocklänge" für 48 kHz PCM ist das Zeitintervall zwischen benachbarten Abtastwerten. Tabelle I Videorahmen Tabelle II Audiorahmen
Bei Anwendungen, die Video und Audioinformation zusammenbündeln, die irgendwelchen dieser Standards entsprechen, sind Audioblöcke und Videorahmen selten synchronisiert. Das minimale Zeitintervall zwischen dem Auftreten einer Video/Audiosynchronisation ist in Tabelle III gezeigt. Beispielsweise zeigt die Tabelle, daß ein Film mit 24 Bildern pro Sekunde nur alle drei Sekunden mit einer MPEG Audioblockgrenze synchronisiert ist und nur alle vier Sekunden mit einem AC-3- Audioblock synchronisiert ist. Tabelle III Minimales Zeitintervall zwischen Video/Audio-Synchronisation
Das minimale Intervall zwischen dem Auftreten von Synchronisation, ausgedrückt als Anzahl von Audioblöcken zu Videorahmen, ist in Tabelle IV gezeigt. Beispielsweise tritt Synchronisation zwischen AC-3-Blöcken und PAL-Rahmen nur einmal innerhalb eines Intervalls auf, das sich über 5 Audioblöcke und 4 Videorahmen erstreckt. Tabelle IV Anzahl von Rahmen zwischen Video/Audio-Synchronisation
Wenn Video- und Audioinformation zusammengebündelt wird, wird gewöhnlich an einer Videorahmengrenze editiert. Aus der in den Tabellen III und IV gezeigten Information ist erkennbar, daß solch eine Editierstelle selten an einer Audiorahmengrenze liegt. Für NTSC-Video und AC-3-Audio ist beispielsweise die Wahrscheinlichkeit, daß eine Editierstelle an einer Videogrenze zugleich auch an einer Audioblockgrenze auftritt, nicht mehr als etwa 1/960 oder annähernd 0,1%. Natürlich müssen die Editierstellen für beide Informationsströme, die geschnitten und geklebt werden sollen, auf diese Weise synchronisiert sein, da anderenfalls Audioinformation verloren geht. Somit ist nahezu sicher, daß eine Klebung von NTSC/AC-3-Information für zwei zufällige Editierstellen außerhalb einer Audioblockgrenze erfolgt und zu einem oder zwei Blöcken mit verlorener Audioinformation führt. Da AC-3 eine TDAC-Transformation einsetzt, führen aber selbst Fälle, in denen keine Informationsblöcke verloren gehen, aus den oben erörterten Gründen zu unausgelöschten Aliasartefakten.

C. Berücksichtigung von Segment- und Blocklänge

Zusätzlich zu den obigen, die Video/Audiosynchronisation beeinflussenden Erwägungen sind zusätzliche Erwägungen bezüglich der Länge der codierten Audioinformationssegmente erforderlich, weil diese Länge die Leistungsfähigkeit von Video/Audiosystemen in verschiedener Weise beeinflußt.
Ein Effekt der Segment- und Blocklänge ist der Betrag der System-"Latenz" oder -Verzögerung beim Informationsdurchlauf durch ein System. Verzögerungen treten beim Codieren auf, um Audioinformationssegmente zu empfangen und zu puffern und den gewünschten Codierungsprozeß an den gepufferten Segmenten auszuführen, der Blöcke codierter Information erzeugt. Bei der Decodierung treten Verzögerungen auf zum Empfangen und Puffern der Blöcke codierter Information zur Durchführung des gewünschten Decodierungsprozesses an den gepufferten Blöcken, der Audioinformationssegmente wiedergewinnt und ein Audioausgangssignal erzeugt. Durchlaufverzögerungen bei der Audiocodierung und -decodierung sind unerwünscht, da sie die Beibehaltung der Ausrichtung zwischen Video- und Audioinformation erschweren.
Ein weiterer Effekt der Segment- und Blocklänge bei solchen Systemen, die Blocktransformationen und Quantisierungscodieren einsetzen, ist die Qualität des nach den Codier- und Decodierprozessen wiedergewonnenen Audiosignals. Auf der einen Seite erlaubt die Verwendung großer Segmentlängen, daß Blocktransformationen eine hohe Frequenzselektivität aufweisen, die für wahrnehmungsbezogene Codierungsprozesse erwünscht ist, da sie wahrnehmungsbezogene Codierentscheidungen, wie etwa eine Bitzuweisung, genauer macht. Auf der anderen Seite führt die Verwendung großer Segmentlängen bei Blocktransformationen zu einer geringen zeitlichen Selektivität, die für wahrnehmungsbezogene Codierprozesse unerwünscht ist, da sie verhindert, daß wahrnehmungsbezogene Codierentscheidungen, wie die Bitzuweisung, rasch genug erfolgt, um die psychoakustischen Eigenschaften des menschlichen Gehörsystems voll auszunützen. Insbesondere die Codierartefakte stark unstationärer Signalereignisse, wie von Transienten, kann in dem wiedergewonnenen Audiosignal hörbar sein, wenn die Segmentlänge das prätemporale Maskierungsintervall des menschlichen Gehörsystems überschreitet. Codierprozesse mit festen Längen müssen daher bezüglich der Segmentlänge einen Kompromiß finden, der die Forderungen nach hoher zeitlicher Auflösung und nach hoher Frequenzauflösung ins Gleichgewicht bringt.
Ein Lösung besteht darin, die Segmentlänge abhängig von einer oder mehreren Eigenschaften der zu codierenden Audioinformation anzupassen. Wenn beispielsweise eine Transiente mit ausreichender Amplitude festgestellt wird, kann ein Blockcodierprozeß seine Zeitauflösung und Frequenzauflösung für das transiente Ereignis durch vorübergehendes Verschieben zu einer kürzeren Segmentlänge optimieren. Dieser adaptive Prozeß ist etwas komplizierter bei Systemen mit einer TDAC- Transformation, weil gewisse Beschränkungen beachtet werden müssen, um die Aliasauslöscheigenschaften der Transformation aufrecht zu erhalten. Eine Anzahl von zu berücksichtigenden Punkten bei der Anpassung der Länge von TDAC-Transformationen werden in dem US-Patent 5,394,473 erörtert.

OFFENBARUNG DER ERFINDUNG

Angesichts der oben erwähnten vielfältigen zu berücksichtigenden Punkte besteht eine Aufgabe der vorliegenden Erfindung darin, eine Codierung und Decodierung von Audioinformation bereitzustellen, die in mit Videoinformationsrahmen ausgerichteten Rahmen übertragen wird, wobei Blockcodierprozesse einschließlich von Zeitbereich-Alias-Auslösch-Transformationen ermöglichen, Segment- und Blocklängen abhängig von Signaleigenschaften anzupassen.
Verschiedene Vorteile können aus verschiedenen Aspekten der vorliegenden Erfindung realisiert werden, einschließlich des Vermeidens oder zumindest Minimierens von hörbaren Artefakten, die von Editiervorgängen wie dem Kleben herrühren, so wie des Steuerns der Verarbeitungslatenz zur leichteren Beibehaltung der Video/Audio-Synchronisation.
Gemäß den Lehren eines Aspekts der vorliegenden Erfindung umfaßt ein Verfahren zur Codierung von Audioinformation das Empfangen eines Referenzsignals, das die Ausrichtung von Videoinformationsrahmen in einer Folge von Videoinformationsrahmen überträgt; das Empfangen eines Audiosignals, das Audioinformation überträgt; das Analysieren des Audiosignals zur Identifizierung von Eigenschaften der Audioinformation; das Erzeugen eines Steuersignals in Reaktion auf die Eigenschaften der Audioinformation; das Anwenden eines adaptiven Blockcodierprozesses auf überlappende Segmente des Audiosignals zur Erzeugung einer Vielzahl von Blöcken codierter Information, wobei die Blöcke codierter Information die Segmentlängen in Antwort auf das Steuersignal anpassen; und das Zusammenfügen der Vielzahl von Blöcken codierter Information und von Steuerinformation, das diese Segmentlängen überträgt, zur Bildung eines codierten Informationsrahmens, der mit dem Referenzsignal ausgerichtet ist.
Gemäß den Lehren eines anderen Aspekts der vorliegenden Erfindung umfaßt ein Verfahren zum Decodieren von Audioinformation das Empfangen eines Referenzsignals, welches die Ausrichtung von Videoinformationsrahmen in einer Folge von Videoinformationsrahmen überträgt; das Empfangen von codierten Informationsrahmen, die mit dem Referenzsignal ausgerichtet sind und Steuerinformation sowie Blöcke codierter Audioinformation umfassen; das Erzeugen eines Steuersignals als Antwort auf die Steuerinformation; und das Anwenden eines adaptiven Blockdecodierprozesses auf die Vielzahl von Blöcken codierter Audioinformation in einem jeweiligen codierten Informationsrahmen, wobei der Blockdecodierprozeß als Antwort auf das Steuersignal adaptiv arbeitet, um eine Folge überlappender Segmente von Audioinformation zu erzeugen.
Gemäß den Lehren noch eines anderen Aspekts der vorliegenden Erfindung trägt ein Informationsspeichermedium, etwa eine optische Platte, eine Magnetplatte oder ein Band, Videoinformation, die in Videorahmen angeordnet ist, und codierte Audioinformation, die in codierten Informationsrahmen angeordnet ist, wobei ein jeweiliger codierter Informationsrahmen einem jeweiligen Videorahmen entspricht und Steuerinformation enthält, die Längen von Audioinformationssegmenten in einer Folge überlappender Segmente überträgt, wobei ein jeweiliges Segment ein jeweiliges Überlappungsintervall mit einem benachbarten Segment aufweist und die Sequenz eine Länge gleich dem Rahmenintervall plus einem Rahmenüberlappungsintervall besitzt, sowie Blöcke codierter Audioinformation, von denen ein jeweiliger Block eine jeweilige Länge und einen jeweiligen Gehalt hat der, wenn durch einen adaptiven Blockdecodierprozeß verarbeitet, zu einem jeweiligen Audioinformationssegment in der Folge überlappender Segmente führt.
In diesem gesamten Text bezeichnen Begriffe wie "Codieren" und "Codierer" verschiedene Verfahren und Vorrichtungen zur Signalverarbeitung und andere Bezeichnungen wie "codiert" und "decodiert" die Ergebnisse solcher Verarbeitung. Diese Begriffe werden häufig als Bezugnahme auf oder Implikation von Prozessen wie wahrnehmungsbasierten Codierprozessen verstanden, die ermöglichen, daß zu übertragende oder speichernde Audioinformation reduzierte Informationskapazitätsanforderungen aufweist. So wie diese Begriffe hier benutzt werden, implizieren sie jedoch nicht solche Verarbeitung. Beispielsweise umfaßt der Begriff "Codieren" allgemeinere Prozesse, wie das Erzeugen von Pulscode-Modulations-(PCM)-Abtastwerten zur Darstellung eines Signals und das Anordnen oder Zusammensetzen von Information zu Formaten nach Maßgabe bestimmter Spezifikationen.
Begriffe wie "Segment", "Block" und " Rahmen", wie sie in diesem Text verwendet werden, beziehen sich auf Gruppen oder Intervalle von Information, die sich von jenen unterscheiden, auf die sich die gleichen Begriffe an anderer Stelle wie dem ANSI S4.40-1992 Standard beziehen, der auch als AES- 3/EBU-Digitalaudiostandard bekannt ist.
Begriffe wie "Filter" und "Filterbank", wie sie hier benutzt werden, schließen im wesentlichen jede Form rekursiver und nicht rekursiver Filterung wie Quadraturspiegelfilter (QMF) ein. Wenn nicht der Kontext der Ausführungen anderes ergibt, werden diese Bezeichnungen hier auch als Bezugnahme auf Transformationen benutzt. Der Begriff "gefilterte" Information bezieht sich auf das Ergebnis der Anwendung von Analyse"filtern".
Die verschiedenen Merkmale der vorliegenden Erfindung und ihre bevorzugten Ausführungsformen mögen besser verständlich sein durch Bezugnahme auf die folgende Beschreibung und die begleitenden Zeichnungen, in denen Bezugszahlen in den verschiedenen Figuren auf gleiche Elemente verweisen.
Die Zeichnungen, die verschiedene Vorrichtungen darstellen, zeigen Hauptkomponenten, die zum Verständnis der vorliegenden Erfindung hilfreich sind. Aus Gründen der Klarheit fehlen in diesen Zeichnungen viele andere Merkmale, die in praktischen Ausführungsformen wichtig sein mögen, aber nicht für das Verständnis der Konzepte der vorliegenden Erfindung wesentlich sind.
Die zur Praktizierung der vorliegenden Erfindung erforderliche Signalverarbeitung kann auf verschiedenste Weise erzielt werden, einschließlich von Programmen, die von Mikroprozessoren, digitalen Signalprozessoren, Logikarrays oder ändern Formen von Rechenschaltungskreisen ausgeführt werden. Maschinenausführbare Programme von Befehlen, die verschiedene Aspekte der vorliegenden Erfindung implementieren, können im wesentlichen in jedem beliebigen maschinenlesbaren Medium verkörpert sein, einschließlich magnetischer und optischer Medien wie optischer Platten, magnetischer Platten und Bänder, sowie auch Festkörperbauelementen, wie programmierbaren Nur-Lese-Speichern. Signalfilter können im wesentlichen in jeder beliebigen Weise einschließlich rekursiver, nicht rekursiver und Gitterdigitalfilter implementiert sein. Digitale und analoge Techniken können in verschiedenen Kombinationen abhängig von den Erfordernissen und Eigenschaften der Anwendung benutzt werden.
Besondere Erwähnung finden Bedingungen, die sich auf die Verarbeitung von Audio- und Videoinformationsströmen beziehen. Aspekte der vorliegenden Erfindung können jedoch in Anwendungen praktiziert werden, die keine Verarbeitung von Videoinformation umfassen.
Der Inhalt der folgenden Beschreibung und der Zeichnungen stellen lediglich Beispiele dar und sollten nicht als Beschränkungen des Rahmens der vorliegenden Erfindung verstanden werden.

KURZE BESCHREIBUNG DER ZEICHNUNGEN

Fig. 1 ist eine schematische Darstellung von in Segmenten angeordneter Audioinformation und von in Blöcken, die mit einem Referenzsignal ausgerichtet sind, angeordneter codierter Information.
Fig. 2 ist eine schematische Darstellung von Audioinformationssegmenten, die in einem Rahmen angeordnet sind, und Blöcken codierter Information, die in einem Rahmen angeordnet sind, der mit einem Referenzsignal synchronisiert ist.
Fig. 3 ist ein Blockdiagramm einer Ausführungsform eines Audiocodierers, der einen adaptiven Blockcodierprozeß auf Audioinformationssegmente anwendet.
Fig. 4 ist ein Blockdiagramm einer Ausführungsform eines Audiodecoders, der Audioinformationssegmente dadurch erzeugt, daß er einen adaptiven Blockdecodierprozeß auf Rahmen codierter Information anwendet.
Fig. 5 ist ein Blockdiagramm einer Ausführungsform eines Blockcodierers, der eine einer Vielzahl von Filterbänken auf Audioinformationssegmente anwendete.
Fig. 6 ist ein Blockdiagramm einer Ausführungsform eines Blockdecoders, der eine einer Vielzahl von Synthesefilterbänken auf Blöcke codierter Audioinformation anwendet.
Fig. 7 ist ein Blockdiagramm eines Transientendetektors, der zur Analyse von Audioinformationssegmenten verwendet werden kann.
Fig. 8 zeigt eine hierarchische Struktur von Blöcken und Teilblöcken, die von dem Transientendetektor von Fig. 7 verwendet wird.
Fig. 9 zeigt Schritte in einem Verfahren zur Implementierung des Komparators in dem Transientendetektor von Fig. 7.
Fig. 10 zeigt Schritte in einem Verfahren zur Steuerung eines Blockcodierprozesses.
Fig. 11 ist ein Blockdiagramm eines Zeitbereich-Alias-Auslösch-Analyse-Synthesesystems.
Fig. 12 bis 15 zeigen die Verstärkungsprofile von Analyse und Synthesefensterfunktionen für verschiedene Muster von Segmenten gemäß zweier Steuerschemata.
Fig. 16A bis 16C zeigen eine Zusammensetzung von Steuerinformation und codierter Audioinformation zu einem ersten Rahmenformat.
Fig. 17A bis 17C zeigen eine Zusammensetzung von Steuerinformation und codierter Audioinformation zu einem zweiten Rahmenformat.

ARTEN ZUR AUSFÜHRUNG DER ERFINDUNG

A. Signale und Verarbeitung

1. Segmente, Blöcke und Rahmen

Die vorliegende Erfindung bezieht sich auf das Codieren und Decodieren von Audioinformation, die mit Bildern in Verbindung steht, welche in Videoinformationsrahmen übermittelt werden. Bezugnehmend auf Fig. 1, ist ein Abschnitt eines Audiosignals 10 für einen Audioinformationskanal als in überlappende Segmente 11 bis 18 unterteilt dargestellt. Gemäß der vorliegenden Erfindung werden Segmente eines oder mehrerer Audioinformationskanäle von einem Blockcodierprozeß verarbeitet, um einen codierten Informationsstrom 20 zu erzeugen, der Blöcke 21 bis 28 codierter Information umfaßt. Beispielsweise wird eine Folge von codierten Blöcken 22 bis 25 erzeugt durch Anwenden eines Blockcodierprozesses auf die Folge von Audiosegmenten 12 bis 15 für einen Audioinformationskanal. Wie in der Figur gezeigt eilt ein jeweiliger codierter Block dem entsprechenden Audiosegment nach, weil der Blockcodierprozeß eine Verzögerung beinhaltet, die wenigstens so lang ist, wie die zum Empfangen und Puffern eines kompletten Audiosegments erforderliche Zeit. Der in der Figur dargestellte Betrag an Nacheilung soll nicht signifikant sein.
Jedes Audiosignalselement 10 ist in Fig. 1 durch eine Form dargestellt, welche ein Zeitbereich- "Verstärkungsprofil" einer Analysefensterfunktion impliziert, die bei einem Blockcodierprozeß, etwa bei einer Transformationscodierung, verwendet werden kann. Das Verstärkungsprofil einer Analysefensterfunktion ist die Verstärkung der Fensterfunktion als Funktion der Zeit. Das Verstärkungsprofil der Fensterfunktion für ein Segment überlappt das Verstärkungsprofil der Fensterfunktion für ein nachfolgendes Segment um einen Betrag, der hier als Segmentüberlappungsintervall bezeichnet wird. Obwohl abzusehen ist, daß bei bevorzugten Ausführungsformen die Transformationscodierung zum Einsatz kommt, kann die vorliegende Erfindung mit im wesentlichen jeder Art von Blockcodierprozeß verwendet werden, die einen Block codierter Information als Antwort auf ein Audioinformationssegment erzeugt.
Ein Referenzsignal 30 übermittelt die Ausrichtung der Videorahmen in einem Videoinformationsstrom. Bei dem gezeigten Beispiel übermitteln Rahmenreferenzen 31 und 32 die Ausrichtung zweier benachbarter Videorahmen. Die Referenzen können den Beginn oder irgendeinen anderen gewünschten Punkt eines Videorahmens markieren. Ein üblicherweise verwendeter Ausrichtungspunkt für NTSC-Video ist die zehnte Zeile im ersten Teilbild eines jeweiligen Videorahmens bzw. -bildes.
Die vorliegende Erfindung kann in Video/Audiosystemen verwendet werden, bei denen Audioinformation mit Videoinformationsrahmen übermittelt wird. Die Video/Audioinformationsströme unterliegen häufig einer Vielfalt von Editieroperationen und Signalverarbeitungsoperationen. Diese Operationen schneiden häufig einen oder mehrere Video/Audioinformationsströme an Punkten, die mit den Videorahmen ausgerichtet sind, in Abschnitte. Daher ist es wünschenswert, die codierte Audioinformation in eine Form zusammenzusetzen, die mit den Videorahmen ausgerichtet ist, so daß diese Operationen keinen Schnitt innerhalb eines codierten Blocks ausführen.
Bezugnehmend auf Fig. 2 wird eine Folge bzw. ein Rahmen 19 aus Segmenten für einen Audioinformationskanal verarbeitet, um eine Mehrzahl codierter Blöcke zu erzeugen, die zu einem Rahmen 29 zusammengesetzt werden, der mit einer Referenz 31 ausgerichtet ist. In dieser Figur stellen gestrichelte Linien die Grenzen einzelner Segmente und Blöcke dar, während ausgezogene Linien die Grenzen von Segmentrahmen und codierten Blockrahmen darstellen. Insbesondere die Form der ausgezogenen Linie für den Segmentrahmen 19 impliziert das resultierende Zeitbereichs-Verstärkungsprofil der Analysefensterfunktionen für eine Folge überlappender Segmente innerhalb des Rahmens. Der Betrag, um den das Verstärkungsprofil für einen Segmentrahmen, etwa den Rahmen 19, mit dem Verstärkungsprofil eines nachfolgenden Segmentrahmens überlappt, wird hier als Rahmenüberlappungsintervall bezeichnet.
Bei Ausführungsformen, die Analysefensterfunktionen und Transformationen verwenden, beeinflußt die Form der Analysefensterfunktion die Zeitbereichsverstärkung des Systems sowie die Frequenzantwort- bzw. Frequenzgangseigenschaften der Transformation. Die Wahl der Fensterfunktion kann einen merklichen Effekt auf die Leistungsfähigkeit eines Codiersystems haben. Prinzipiell ist jedoch keine spezielle Fensterform für die Praxis der vorliegenden Erfindung kritisch. Information über die Wirkungen von Fensterfunktionen erschließen sich aus dem US-Patent 5,109,417, dem US-Patent 5,394,473, dem US-Patent 5,913,191 und dem US-Patent 5,903,872.
Bei praktischen Ausführungsformen wird ein Spalt oder "Schutzband" zwischen codierten Informationsrahmen gebildet, um etwas Toleranz für Editierungen und Schnitte zu lassen. Zusätzliche Information über die Bildung dieser Schutzbänder ergeben sich aus der internationalen Patentanmeldung mit der Nummer PCT/US99/05249, die am 11 März 1999 eingereicht wurde. Wege, wie Nutzinformation in diesen Schutzbändern übertragen werden kann, sind in der internationalen Patentanmeldung mit der Nummer PCT/US99/26324 beschrieben, die am 11. November 1999 eingereicht wurde.

2. Überblick über die Signalverarbeitung

Audiosignale sind gewöhnlich nicht stationär, obwohl einige Audiopassagen im wesentlichen stationär sein können. Diese Passagen können oft wirkungsvoller mit längeren Segmentlängen blockcodiert werden. Beispielsweise können Codierprozesse wie blockkompandiertes PCM stationäre Audiopassagen mit einer bestimmten Genauigkeit unter Einsatz weniger Bits durch Codierung langer Abtastwertsegmente codieren. Bei psychoakustisch basierten Transformationscodiersystemen erhöht die Verwendung längerer Segmente die Frequenzauflösung der Transformation zur genaueren Trennung einzelner Spektralkomponenten und genauerer psychoakustischer Codierentscheidungen.
Leider ergeben sich diese Vorteile nicht für Audiopassagen, die stark nicht-stationär sind. In Passagen, die eine transiente großer Amplitude enthalten ist beispielsweise blockkompandierte PCM-Codierung eines langen Segments sehr ineffizient. Bei psychoakustisch basierten Transformationscodiersystemen breiten sich Artefakte, die durch Quantisierung transienter Spektralkomponenten verursacht werden, über das Segment aus, das von der Synthesetransformation wiedergewonnen wird. Wenn das Segment lang genug ist, breiten sich diese Artefakte über ein Intervall aus, das das prätemporale Maskierungsintervall des menschlichen Gehörsystems überschreitet. Folglich werden kürzere Segmentlängen normalerweise für stark nicht-stationäre Audiopassagen bevorzugt.
Die Leistungsfähigkeit des Codiersystems kann durch Adaptieren des Codierprozesses zum Codieren und Decodieren von Segmenten variierender Länge verbessert werden. Für einige Codierprozesse müssen Änderungen der Segmentlänge jedoch einer oder mehreren Beschränkungen genügen. Beispielsweise muß die Adaption eines Codierprozesses, der eine Zeitbereich-Alias- Auslösch-(TDAC)-Transformation verwendet, etlichen Beschränkungen entsprechen, wenn Alias- Auslöschung erreicht werden soll. Ausführungsformen der vorliegenden Erfindung, die die TDAC- Beschränkungen erfüllen, werden hier beschrieben.

a. Codierung

Fig. 3 zeigt eine Ausführungsform eines Audiocodierers 40, der einen Blockcodierprozeß auf einer Folge bzw. einen Rahmen von Audioinformationssegmenten für einen oder mehrere Audiokanäle anwendet, um Blöcke codierter Audioinformation zu erzeugen, die zu Rahmen codierter Information zusammengesetzt werden. Diese blockcodierten Rahmen können mit Videoinformationsrahmen kombiniert oder in diese eingebettet werden.
Bei dieser Ausführungsform identifiziert Analyse 45 Eigenschaften eines oder mehrerer Audiosignals, die mit der Audioinformation übertragen und auf Weg 44 zugeführt werden. Beispiele dieser Eigenschaften schließen schnelle Amplitudenänderungen oder Energieänderungen für alle oder einen Teil der Bandbreite des jeweiligen Audiosignals, Signalenergiekomponenten, die einer raschen Frequenzänderung unterliegen, sowie die Zeit oder relative Lage innerhalb eines Signalabschnitts, wo solche Ereignisse auftreten, ein. Als Antwort auf diese festgestellten Eigenschaften erzeugt Steuerung 46 längs Weg 47 ein Steuersignal, das die Segmentlängen in einem Rahmen aus für den jeweiligen Audiokanal zu verarbeitenden Segmenten übermittelt. Codieren 50 paßt einen Blockcodierprozeß als Antwort auf das vom Weg 47 empfangene Steuersignal an und wendet den angepaßten Blockcodierprozeß auf die Audioinformation an, die vom Weg 44 empfangen wird, um Blöcke codierter Audioinformation zu erzeugen. Formatierung 48 setzt die Blöcke codierter Information und eine Darstellung des Steuersignals zu einem Rahmen codierter Information zusammen, der mit einem Referenzsignal ausgerichtet ist, welches vom Weg 42 empfangen wird und die Ausrichtung von Videoinformationsrahmen übermittelt. Umsetzung 43 ist ein optionale Komponente, die unten im einzelnen beschrieben wird.
Bei Ausführungsformen des Codierers 40, die mehr als einen Audioinformationskanal verarbeiten, kann Codieren 50 einen Signalcodierprozeß anpassen und auf einige oder alle Audiokanäle anwenden. Bei bevorzugten Ausführungsformen arbeiten jedoch Analyse 45, Steuerung 46 und Codieren 50 zum Anpassen und Anwenden eines unabhängigen Codierprozesses für jeden Audiokanal. Bei einer bevorzugten Ausführungsform paßt der Codierer 40 beispielsweise die Blocklänge des von Codieren 50 eingesetzten Codierprozesses nur bei einem Audiokanal als Antwort auf die Erfassung des Auftretens einer Transienten in diesem Audiokanal an. Bei diesen bevorzugten Ausführungsformen wird die Erfassung einer Transienten in einem Audiokanal nicht zur Anpassung des Codierprozesses eines anderen Kanals verwendet.

b. Decodierung

Fig. 4 zeigt eine Ausführungsform eines Audiodecoders 60, der Audioinformationssegmente für einen oder mehrere Audiokanäle durch Anwenden eines adaptiven Blockdecodierprozesses auf Rahmen codierter Information erzeugt, die von Signalen stammen können, die Rahmen aus Videoinformation führen.
Bei dieser Ausführungsform empfängt Deformatierung 63 Rahmen codierter Information, die mit einer Videoreferenz, welche vom Weg 62 empfangen wird, ausgerichtet sind. Die Rahmen codierter Information übertragen Steuerinformation sowie Blöcke codierter Audioinformation. Steuerung 65 erzeugt längs Weg 67 ein Steuersignal, das die Längen von Audioinformationssegmenten in einem Rahmen von Segmenten überträgt, die aus den Blöcken codierter Audioinformation wiederzugewinnen sind. Optional erfaßt Steuerung 65 auch Diskontinuitäten in den Rahmen codierter Information und erzeugt längs Weg 66 ein "Klebstelle erkannt" Signal das zur Adaption der Arbeitsweise von Decodieren 70 verwendet werden kann. Decodieren 70 adaptiert einen Blockdecodierprozeß als Antwort auf das vom Weg 67 empfangene Steuersignal und, optional, das vom Weg 66 empfangene "Klebstelle erkannt" Signal und wendet den adaptierten Blockdecodierprozeß auf die Blöcke codierter Audioinformation an, die vom Weg 64 empfangen werden, um Audioinformationssegmente mit Längen zu erzeugen, die den in dem Steuersignal übertragenen Längen entsprechen. Umwandlung 68 ist eine optionale Komponente, die unten genauer beschrieben wird.

B. Transformationscodierimplementationen

1. Blockcodierer

Wie oben erwähnt kann Codieren 50 eine große Vielfalt von Blockcodierprozessen einschließlich blockkompandiertem PCM, Deltamodulation, Filterung, wie die von Quadraturspiegelfiltern (QMF) gelieferte, und eine Vielfalt von rekursiven, nicht rekursiven und Gitterfiltern, Blocktransformationen wie sie von TDAC-Transformationen ausgeführt werden, diskrete Fouriertransformationen (DFT) und diskrete Kosinustransformationen (DCT) sowie Wavelet-Transformationen und Blockquantisierung nach Maßgabe adaptiver Bitzuweisung ausführen. Obwohl kein spezieller Blockcodierprozeß für das grundlegende Konzept der vorliegenden Erfindung wesentlich ist, wird hier insbesondere auf Prozesse eingegangen, die TDAC-Transformationen anwenden, und zwar wegen der zusätzlichen Erfordernisse, die zum Erhalt von Alias-Auslöschung nötig sind.
Fig. 5 zeigt eine Ausführungsform von Codieren 50, die eine einer Vielzahl von Filterbänken, implementiert durch TDAC-Transformationen, auf Segmente von Audioinformation für einen Audiokanal anwendet. Bei dieser Ausführungsform empfängt Puffer 51 Audioinformation vom Weg 44 und setzt die Audioinformation zu Rahmen aus überlappenden Segmenten mit Längen zusammen, die nach Maßgabe des vom Weg 47 empfangenen Steuersignals adaptiert werden. Der Betrag, um den ein Segment ein benachbartes Segment überlappt, wird hier als Segmentüberlappungsintervall bezeichnet. Schalter 52 wählt eine einer Vielzahl von Filterbänken zur Anwendung auf die Segmente in dem Rahmen als Antwort auf das vom Weg 47 empfangene Steuersignal aus. Die in der Figur dargestellte Ausführungsform zeigt drei Filterbänke, es kann jedoch im wesentlichen jede beliebige Anzahl von Filterbänken benutzt werden.
Bei einer Implementation wählt Schalter 51 Filterbank 54 zur Anwendung auf das erste Segment in dem Rahmen, wählt Filterbank 56 zur Anwendung auf das letzte Segment in dem Rahmen und wählt Filterbank 55 zur Anwendung auf alle anderen Segmente in dem Rahmen. Zusätzliche Filterbänke können in die Ausführungsform integriert werden und zur Anwendung auf Segmente nahe dem ersten und dem letzten Segment in dem Rahmen ausgewählt werden. Einige der Vorteile, die durch adaptive Auswahl von Filterbänken in dieser Weise erreicht werden, werden unten erörtert. Die von den Filterbänken erhaltene Information wird in Puffer 58 zur Bildung von Blöcken codierter Information zusammengesetzt, welche längs Weg 59 zu Formatierung 48 weitergeleitet werden. Die Größe der Blöcke variiert nach Maßgabe des vom Weg 47 empfangenen Steuersignals.
Eine Vielfalt von Komponenten für psychoakustische Wahrnehmungsmodelle, adaptive Bitzuweisung und Quantisierung kann bei praktischen Systemen nötig sein, sie sind aber aus Gründen der Darstellungsklarheit in der Figur nicht enthalten. Komponenten wie diese können benutzt werden, sind aber nicht erforderlich zur Praktizierung der vorliegenden Erfindung.
Bei einer alternativen Ausführungsform von Codieren 50 wird eine einzelne Filterbank adaptiert und auf die im Puffer 51 gebildeten Audioinformationssegmente angewendet. Bei anderen Ausführungsformen von Codieren 50, die Blockcodierprozesse mit nicht überlappenden Blöcken verwenden, wie blockcodiertes PCM oder einige Filter, brauchen sich benachbarte Segmente nicht zu überlappen.
Die in Fig. 5 dargestellten Komponenten oder die Komponenten verschiedener alternativer Ausführungsformen können zur Schaffung einer Parallelverarbeitung für viele Audiokanäle mehrfach vorgesehen werden, oder diese Komponenten können dazu verwendet werden, mehrere Audiokanäle in Serie oder in verschachtelter Weise zu verarbeiten.

2. Blockdecoder

Wie oben erwähnt, kann Decodieren 70 eine große Vielfalt von Blockdecodierprozessen ausführen. Bei einem praktischen System sollte der Decodierprozeß zu dem Blockcodierprozeß komplementär sein, der zur Erstellung der zu decodierenden Information verwendet wurde. Wie oben erwähnt, werden hier insbesondere Prozesse erwähnt, die TDAC-Transformationen anwenden, und zwar wegen der zusätzlichen Erwägungen, die zur Erzielung einer Alias-Auslöschung erforderlich sind.
Fig. 6 zeigt eine Ausführungsform von Decodieren 70, die eine einer Vielzahl inverser oder Synthesefilterbänken, implementiert durch TDAC-Transformationen, auf Blöcke codierter Audioinformation für einen Audiokanal anwendet. Bei dieser Ausführungsform empfängt Puffer 71 Blöcke codierter Audioinformation von Weg 64, die Längen aufweisen, die nach Maßgabe des von Weg 67 empfangenen Steuersignals variieren. Schalter 72 wählt eine einer Vielzahl von Synthesefilterbänken zur Anwendung auf die Blöcke codierter Audioinformation nach Maßgabe des von Weg 67 empfangenen Steuersignals und, optional, als Antwort auf ein "Klebstelle erkannt" Signal aus, das von Weg 67 empfangen wird. Die in der Figur dargestellte Ausführungsform zeigt drei Synthesefilterbänke; es kann aber im wesentlichen jede beliebige Anzahl von Filterbänken eingesetzt werden.
Bei einer Implementation wählt Schalter 71 Synthesefilterbank 74 zur Anwendung auf den Block, der das erste Audiosegment in einem Rahmen von Segmenten darstellt, wählt Synthesefilterbank 56 zur Anwendung auf den Block, der das letzte Segment in dem Rahmen darstellt, und wählt Filterbank 55 zur Anwendung auf die Blöcke, die alle anderen Segmente in dem Rahmen darstellen. Zusätzliche Filterbänke können in die Ausführungsform integriert werden und für Anwendungen auf Blöcke ausgewählt werden, die Segmente darstellen, welche nahe bei dem ersten bzw. dem letzten Segment in dem Rahmen liegen. Einige der durch adaptive Auswahl von Synthesefilterbänken auf diese Weise erzielten Vorteile werden unten beschrieben. Die von den Synthesefilterbänken gewonnene Information wird in Puffer 78 zur Bildung überlappender Audioinformationssegmente in dem Rahmen von Segmenten zusammengesetzt. Die Längen der Segmente variieren nach Maßgabe des Steuersignals, das vom Weg 67 empfangen wird. Benachbarte Segmente können in dem Segmentüberlappungsintervall aufaddiert werden, um einen Audioinformationsstrom längs Weg 79 zu erzeugen. Die Audioinformation kann beispielsweise längs Weg 79 zu Umwandlung 68 weitergeleitet werden bei Ausführungsformen, die Umwandlung 68 enthalten.
Eine Vielfalt von Komponenten zur adaptiven Bitzuweisung und Dequantisierung kann in praktischen Systemen nötig sein, ist aber aus Gründen der Darstellungsklarheit in den Figuren nicht enthalten. Merkmale wie diese können eingesetzt werden, sind aber zur Praktizierung der vorliegenden Erfindung nicht erforderlich.
Bei einer alternativen Ausführungsform von Decodieren 70 wird eine einzige inverse Filterbank adaptiert und auf Blöcke codierter Information angewendet, die im Puffer 71 gebildet werden. Bei anderen Ausführungsformen von Decodieren 70 brauchen benachbarte, von dem Decodierprozeß erzeugte Segmente einander nicht zu überlappen.
Die in Fig. 6 dargestellten Komponenten oder die Komponenten verschiedener alternativer Ausführungsformen können mehrfach vorgesehen werden, um eine Parallelverarbeitung für mehrere Audiokanäle zu schaffen, oder diese Komponenten können benutzt werden, um mehrere Audiokanäle in einer seriellen oder verschachtelten Weise zu verarbeiten.

C. Hauptkomponenten- und Merkmale

Spezielle Ausführungsformen der Hauptkomponenten in dem Codierer 40 und dem Decoder 60, die in den Fig. 3 bzw. 4 dargestellt sind, werden nachfolgend in größeren Einzelheiten beschrieben. Diese besonderen Ausführungsformen werden unter Bezugnahme auf einen Audiokanal beschrieben, sie können jedoch auf die Verarbeitung mehrerer Audiokanäle in einer Anzahl von Weisen erweitert werden, einschließlich beispielsweise der Replikation von Komponenten oder der Anwendung von Komponenten in serieller oder verschachtelter Weise.
Bei den folgenden Beispielen wird davon ausgegangen, daß ein Rahmen oder eine Sequenz von Audioinformationssegmenten eine Länge von 2048 Abtastwerten und daß ein Rahmenüberlappungsintervall mit einem nachfolgenden Rahmen 256 Abtastwerte lang ist. Diese Rahmenlänge und dieses Überlappungsintervall sind für Systeme bevorzugt, die Information für Videorahmen mit einer Rahmenfrequenz von etwa 30 Hz oder weniger aufweisen.

1. Audiosignal-Analyse

Analyse 45 kann in verschiedenster Weise implementiert werden, um im wesentlichen jegliche gewünschte Signalcharakteristik zu identifizieren. Bei einer in Fig. 7 dargestellten Ausführungsform ist Analyse 45 ein Transientendetektor mit vier Hauptabschnitten, die das Auftreten und die Position von "Transienten" oder raschen Änderungen der Signalamplitude identifizieren. Bei dieser Ausführungsform sind Rahmen mit 2048 Abtastwerten von Audioinformation in 32 nicht-überlappende Blöcke à 64 Abtastwerte aufgeteilt, jeder Block wird analysiert, um festzustellen, ob eine Transiente in dem Block vorhanden ist oder nicht.
Der erste Abschnitt des Transientendetektors ist Hochpaßfilter (HPF) 101, das Signalkomponenten niedriger Frequenz von dem Signalanalyseprozeß ausschließt. Bei einer bevorzugten Ausführungsform ist HPF 101 durch ein Infinite Impulse Response (IIR) Filter zweiter Ordnung mit einer nominalen 3 dB Grenzfrequenz bei etwa 7 kHz implementiert. Die optimale Grenzfrequenz kann von diesem nominalen Wert abhängig von persönlichen Präferenzen abweichen. Falls gewünscht, kann die nominale Grenzfrequenz empirisch durch Hörtests neu bestimmt werden.
Der zweite Abschnitt des Transientendetektors ist Teilblock 102, der Rahmen gefilterter Audioinformation von HPF 101 in Blöcken und Teilblöcken hierarchischer Struktur anordnet. Teilblock 102 bildet Blöcke mit 64 Abtastwerten in Ebene 1 der Hierarchie und unterteilt die Blöcke mit 64 Abtastwerten in Blöcke mit 32 Abtastwerten in Ebene 2 der Hierarchie.
Diese hierarchische Struktur ist in Fig. 8 dargestellt. Block B111 ist ein 64-Abtastwert-Block in Ebene 1. Teilblöcke B121 und B122 in Ebene 2 sind 32-Abtastwert-Teile von Block B111. Block B110 stellt einen 64-Abtastwert-Block gefilterter Audioinformation dar, der dem Block B111 unmittelbar vorangeht. In diesem Zusammenhang ist Block B111 ein "momentaner" Block und Block B110 ist ein "vorheriger" Block. In ähnlicher Weise ist Block 120 ein 32-Abtastwert-Teilblock von Block 110 der dem Teilblock B121 unmittelbar vorangeht. In Fällen, wo der momentane Block der erste Block in einem Rahmen ist, stellt der vorherige Block den letzten Block im vorherigen Rahmen dar. Wie nachfolgend erläutert, wird eine Transiente durch Vergleich von Signalpegeln in einem momentanen Block mit Signalpegeln in einem vorherigen Block erfaßt.
Der dritte Abschnitt des Transientendetektors ist Spitzendetektor 103. Beginnend in Ebene 2 identifiziert Spitzendetektor 103 den Abtastwert mit der größten Größe in Teilblock B121 als Spitzenwert P121 und identifiziert den Abtastwert mit der größten Größe in Teilblock B122 als Spitzenwert P122. In Ebene 1 identifiziert der Spitzendetektor dann den größeren der Spitzenwerte P121 und P122 als den Spitzenwert P111 des Blocks P111. Die Spitzenwerte P110 und P120 für die Blöcke B110 bzw. B120 wurden vom Spitzendetektor 103 vorher ermittelt, als Block B110 der momentane Block war.
Der vierte Abschnitt des Transientendetektors ist Komparator 104, der Spitzenwerte untersucht um festzustellen, ob in einem jeweiligen Block eine Transiente auftritt. Eine Art, wie Komparator 104 implementiert werden kann, ist in Fig. 9 dargestellt. Schritt S451 untersucht die Spitzenwerte der Teilblöcke B120 und B121 in Ebene 2. Schritt S452 untersucht die Spitzenwerte der Teilblöcke B121 und B122. Schritt S453 untersucht die Spitzenwerte der Blöcke in Ebene 1. Diese Untersuchungen werden durchgeführt, indem das Verhältnis der beiden Spitzenwerte mit einem Schwellenwert verglichen wird, der für die hierarchische Ebene geeignet ist. Für die Teilblöcke B120 und B121 in Ebene 2 beispielsweise kann dieser Vergleich in Schritt S451 ausgedrückt werden als
wobei TH2 = Schwellenwert für Ebene 2. Falls erforderlich, erfolgt ein ähnlicher Vergleich in Schritt S452 für die Spitzenwerte der Teilblöcke B121 und B122.
Wenn der Vergleich weder in Schritt S451 noch S452 für benachbarte Teilblöcke in Ebene 2 wahr ergibt, erfolgt ein Vergleich in Schritt S453 für die Spitzenwerte der Blöcke B110 und B111 in Ebene 1. Dies kann ausgedrückt werden als
wobei TH1 = Schwellenwert für Ebene 1.
Bei einer Ausführungsform ist TH2 0,15 und TH1 0,25. Diese Schwellenwerte können jedoch abhängig von persönlichen Präferenzen variiert werden. Falls gewünscht können diese Werte empirisch durch Hörtests neu definiert werden.
Bei einer bevorzugten Implementierung werden diese Vergleiche ohne Teilung durchgeführt, da ein Quotient von Spitzenwerten Undefiniert ist, wenn der Spitzenwert im Nenner null ist. Für das oben angegebene Beispiel für die Teilblöcke B120 und B121 kann der Vergleich in Schritt S451 ausgedrückt werden als
P120 < TH2·P121 (2)
Wenn keiner der in den Schritten S451 bis S453 durchgeführten Vergleiche wahr ergibt, erzeugt Schritt S457 ein Signal, welches angibt, das in dem momentanen 64-Abtastwert-Block, bei diesem Beispiel Block B111, keine Transiente auftritt. Die Signalanalyse für den 64-Abtastwert-Block ist damit beendet.
Wenn irgendeiner der in den Schritten S451 bis S453 durchgeführten Vergleiche wahr ergibt, ermitteln die Schritte S454 und S455, ob das Signal in den momentanen 64-Abtastwert-Block groß genug ist, um eine Adaption des Blockcodierprozesses zur Änderung der Segmentlänge zu rechtfertigen. Schritt S454 vergleicht den Spitzenwert P111 für Block B111 mit einer minimalen Spitzenwertschwelle. Bei einer Ausführungsform ist diese Schwelle auf -70 dB relativ zum maximal möglichen Spitzenwert gesetzt.
Wenn die in Schritt S454 geprüfte Bedingung wahr ist, vergleicht Schritt S455 zwei Signalenergiemaße für die Blöcke B110 und B111. Bei einer Ausführungsform ist das Signalenergiemaß für einen Block der Mittelwert der Quadrate der 64 Abtastwerte in dem Block. Das Signalenergiemaß für den momentanen Block B111 wird mit einem Wert gleich dem doppelten desselben Signalenergiemaßes für den vorherigen Block B110 verglichen. Wenn der Spitzenwert und das Signalenergiemaß für den momentanen Block die beiden in den Schritten S454 und S455 durchgeführten Prüfungen bestehen, erzeugt Schritt S457 ein Signal, das anzeigt, das in dem momentanen Block B111 eine Transiente auftritt. Wenn dagegen eine der Prüfung fehlschlägt, erzeugt Schritt S457 ein Signal, das anzeigt, das in dem momentanen Block B111 keine Transiente auftritt.
Dieser Transientendetektorprozeß wird für alle interessierenden Blöcke in jedem Rahmen wiederholt.

2. Segmentlängensteuerung

Ausführungsformen von Steuerung 46 und Steuerung 65 werden nun beschrieben. Diese Ausführungsformen eignen sich für den Einsatz in Systemen, die TDAC-Filterbänke zur Verarbeitung codierter Audioinformation nach Maßgabe des zweiten der beiden unten beschriebenen Formate einsetzen. Wie unten erläutert, wird die Verarbeitung gemäß dem zweiten Format bei Systemen bevorzugt, die Audioinformation verarbeiten, welche mit Videorahmen zusammengesetzt oder in diese eingebettet ist, welche für eine Übertragung mit einer Videorahmenfrequenz von etwa 30 Hz oder weniger gedacht sind. Nach Maßgabe des zweiten Formats wird die Verarbeitung jeder Sequenz von Audiosegmenten, die einem Videorahmen entspricht, in gesonderte, aber zusammenhängende Prozesse unterteilt, die auf zwei Teilsequenzen oder Teilrahmen angewendet werden.
Die Steuerschemata für Systeme, die Audioinformationsrahmen nach Maßgabe des ersten Formats verarbeiten, können sehr ähnlich den Steuerschemata für Systeme sein, die Audioinformationsrahmen nach Maßgabe des zweiten Formats verarbeiten, die nachfolgend erläutert werden. Bei diesen Systemen für das erste Format ist die Verarbeitung von Audiosegmenten entsprechend einem Videorahmen im wesentlichen die gleiche wie eine des Prozesses, der auf eine jeweilige Teilsequenz oder einen Teilrahmen im zweiten Format angewendet wird.

a. Codierer

Bei der Ausführungsform von Codierer 40, die oben beschrieben wurde und in Fig. 3 dargestellt ist, empfängt Steuerung 46 ein Signal von Analyse 45, welches das Vorhandsein und den Ort von Transienten übermittelt, die in einem Audioinformationsrahmen festgestellt wurden. Als Antwort auf dieses Signal erzeugt Steuerung 46 ein Steuersignal, welches die Längen von Segmenten übermittelt, welche den Rahmen in zwei Teilrahmen überlappender Segmente zur Verarbeitung durch einen Blockcodierprozeß unterteilen.
Zwei Schemata zur Anpassung eines Blockcodierprozesses werden unten beschrieben. Bei jedem Schema werden Rahmen mit 2048 Abtastwerten in überlappende Segmente mit Längen unterteilt, die zwischen einer minimalen Länge von 256 Abtastwerten und einer effektiven maximalen Länge von 1152 Abtastwerten variieren.
Ein grundlegendes Steuerverfahren, wie etwa jenes, das in Fig. 10 dargestellt ist, kann zur Steuerung beider Schemata verwendet werden. Die einzigen Unterschiede bei den Verfahren zur Steuerung der beiden Schemata sind die Block- oder Rahmenintervalle, in denen das Auftreten einer Transienten geprüft wird. Die Intervalle für die beiden Schemata sind in Tabelle V aufgelistet. Bei dem ersten Schema erstreckt sich beispielsweise Intervall-2 von Abtastwert 128 zu Abtastwert 831, was einer Folge von 64-Abtastwert-Blöcken von Block Nummer 2 zu Block Nummer 12 entspricht. Bei dem zweiten Schema erstreckt sich Intervall-2 von Abtastwert 128 zu Abtastwert 895, was den Blocknummern 2 bis 13 entspricht. Tabelle V Rahmenintervalle für Codiersteuerung
Bezugnehmend auf Fig. 10 prüft Schritt S461 das von Analyse 45 empfangene Signal um festzustellen, ob eine Transiente oder irgendein anderes Triggerereignis in irgendeinem Block innerhalb Intervall-3 auftritt. Wenn diese Bedingung wahr ist, erzeugt Schritt S462 ein Steuersignal, welches angibt, das der erste Teilrahmen unterteilt ist in Segmente entsprechend einem "Kurz-1"-Muster von Segmenten, und Schritt S463 erzeugt ein Signal das angibt, daß der zweite Teilrahmen in Segmente entsprechend einem "Kurz-2"-Muster von Segmenten unterteilt ist.
Wenn die in Schritt S461 geprüfte Bedingung nicht wahr ist, prüft Schritt S464 das von Analyse 45 empfangene Signal um festzustellen, ob eine Transiente oder ein anderes Triggerereignis in irgendeinem Block innerhalb Intervall-2 auftritt. Wenn diese Bedingung wahr ist, erzeugt Schritt S465 ein Steuersignal, welches angibt, daß der erste Teilrahmen in Segmente nach Maßgabe eines "Brücke-1"-Musters von Segmenten unterteilt ist. Wenn die in Schritt S463 geprüfte Bedingung nicht wahr ist, erzeugt Schritt S466 ein Steuersignal, welches angibt, daß der erste Teilrahmen unterteilt ist in Segmente entsprechend einem "Lang-1"-Muster von Segmenten.
Schritt S467 prüft das von Analyse 45 empfangene Signal um festzustellen, ob eine Transiente oder ein anderes Triggerereignis in irgendeinem Block innerhalb von Intervall-4 auftritt. Wenn diese Bedingung wahr ist, erzeugt Schritt S468 ein Steuersignal, welches angibt, daß der zweite Teilrahmen in Segmente entsprechend einem "Brücke-2"-Muster von Segmenten unterteilt ist. Wenn die in Schritt S467 geprüfte Bedingung nicht wahr ist, erzeugt Schritt S469 ein Steuersignal, welches angibt, daß der zweite Teilrahmen in Segmente entsprechend einem "Lang-2"-Muster von Segmenten unterteilt ist.
Die oben erwähnten Muster von Segmenten werden unten näher beschrieben.

b. Decoder

Bei der oben beschriebenen und in Fig. 4 dargestellten Ausführungsform von Decoder 60 empfängt Steuerung 65 Steuerinformation von Rahmen codierter Information, die von Weg 64 empfangen werden, und erzeugt als Antwort ein Steuersignal längs Weg 67, das die Längen von Audioinformationssegmenten übermittelt, die von einem Blockdecodierprozeß aus Blöcken codierter Audioinformation wiederzugewinnen sind. Bei einer alternativen Ausführungsform ermittelt Steuerung 65 auch Diskontinuitäten in den Rahmen codierter Information und erzeugt ein "Klebstelle erkannt" Signal längs Weg 66, das zur Adaption des Blockdecodierprozesses verwendet werden kann. Dieses optionale Merkmal wird unten erörtert.
Im allgemeinen erzeugt Steuerung 65 ein Steuersignal, welches angibt, welches mehrerer Muster von Segmenten von zwei Teilrahmen codierter Blöcke wiederzugewinnen ist. Diese Muster von Segmenten entsprechen den oben in Verbindung mit dem Codierer angesprochenen Mustern und werden unten detaillierter beschrieben.

3. Adaptive Filterbänke

Es werden nun Ausführungsformen von Codieren 50 und Decodieren 70 beschrieben, die TDAC- Filterbänke zur Analyse und Synthese überlappender Audioinformationssegmente anwenden. Die unten beschriebenen Ausführungsformen verwenden TDAC-Transformationssysteme, die als O- TDAC (Oddly-Stacked Time-Domain-Aliasing Cancellation) bekannt sind. Bei diesen Ausführungsformen werden Fensterfunktionen und Transformations-Kernel-Funktionen angepaßt, um Sequenzen oder Teilrahmen von Segmenten zu verarbeiten, bei denen die Segmentlängen abhängig von irgendeinem der verschiedenen oben erwähnten Muster variieren können. Die Segmentlänge, Fensterfunktion und Transformations-Kernel-Funktion, die für ein jeweiliges Segment bei den verschiedenen Mustern verwendet werden, werden nachfolgend im Anschluß an eine allgemeine Einführung in die TDAC-Transformation beschrieben.

a. TDAC Überblick

(1) Transformationen

Wie durch Princen et al. angegeben und in Fig. 11 dargestellt umfaßt ein TDAC-Transformations- Analyse-Synthesesystem eine Analysefensterfunktion 131, die auf überlappende Segmente von Signalabtastwerten angewendet wird, eine Analysetransformation 132, die auf die gefensterten Segmente angewendet wird, eine Synthesetransformation 133, die auf von der Analysetransformation gewonnene Koeffizientenblöcke angewendet wird, eine Synthesefensterfunktion 134, die auf Segmente von Abtastwerten angewendet wird, welche aus der Synthesetransformation resultieren, und einen Überlappungs-Addierungsprozeß 135, der entsprechende Abtastwerte überlappender gefensterter Segmente addiert, um Zeitbereichaliasing zu beseitigen und das ursprüngliche Signal wiederzugewinnen.
Die Vorwärts- oder Analyse-O-TDAC-Transformation kann ausgedrückt werden als
und die inverse oder Synthese-O-TDAC-Transformation kann ausgedrückt werden als
wobei k = Frequenzindex,
n = Signalabtastwertnummer,
G = Skalierungskonstante,
N = Segmentlänge,
n&sub0; = Term für Aliasingauslöschung,
x(n) = gefensterter Eingangssignalabtastwert n, und
X(k) = Transformationskoeffizient k.
Diese Transformationen sind durch die Parameter G, N und n&sub0; charakterisiert. Der Parameter G ist ein Verstärkungsparameter, der zur Erzielung einer gewünschten Gesamtverstärkung über das gesamte Analyse-Synthese-System verwendet wird. Der Parameter N bezieht sich auf die Anzahl von Abtastwerten in jedem Segment, das heißt die Segmentlänge, und wird allgemein als Transformationslange bezeichnet. Wie oben erwähnt, kann diese Länge variieren, um einen Ausgleich zwischen der Frequenz- und der Zeitauflösung der Transformationen zu finden. Der Parameter n&sub0; steuert die Eigenschaften der Alias-Erzeugung und Alias-Auslöschung der Transformationen.
Zeitbereich-Alias-Artefakte, die von dem Analyse-Synthese-System erzeugt werden, sind im wesentlichen zeitverkehrte Repliken des Originalsignals. Der Term n&sub0; bei den Analyse- und Synthese-Transformationen steuert den "Reflexions"-Punkt in jedem Segment, an dem sich die Artefakte umkehren oder reflektiert werden. Durch Steuerung des Reflexionspunkts und des Vorzeichens der Aliasartefakte können diese Artefakte dadurch ausgelöscht werden, daß benachbarte Segmente überlappt und addiert werden. Weitere Information zur Alias-Auslöschung kann dem US-Patent 5,394,473 entnommen werden.

(2) Fensterfunktionen

Bei bevorzugten Ausführungsformen sind die Analyse- und Synthese-Fensterfunktionen aus einer oder mehreren Elementarfunktionen aufgebaut, die von Basisfensterfunktionen abgeleitet sind. Einige dieser Elementarfunktionen sind von der Rechteckfensterbasisfunktion abgeleitet:
ø(n, p, N) = p für 0 ≤ n < N (4)
Andere Elementarfunktionen sind von anderen Basisfensterfunktionen unter Einsatz einer Technik abgeleitet, die in den folgenden Absätzen beschrieben wird. Jede Funktion mit den geeigneten Überlappungs-Addierungs-Eigenschaften für TDAC kann als solche Basisfensterfunktion dienen. Bei einer bevorzugten Ausführungsform sind die Basisfensterfunktionen jedoch die Kaiser-Bessel- Fensterfunktion. Der erste Teil dieser Fensterfunktion kann ausgedrückt werden als:
wobei α = Kaiser-Bessel-Fensterfunktionsalphafaktor,
n = Fensterabtastwertnummer,
v = Segmentüberlappungsintervall für die abgeleitete Fensterfunktion, und
Der letzte Teil dieser Fensterfunktion ist eine zeitverkehrte Replik, d. h. eine Replik, die bezüglich der Zeit umgekehrt ist, der ersten v Abtastwerte von Ausdruck 5.
Eine Kaiser-Bessel-abgeleitete (KBD = Kaiser-Bessel-Derived) Fensterfunktion WKBD(n, α, N) wird von der Kaiser-Bessel-Fensterkernfunktion WKB(n, α, N) abgeleitet. Der erste Teil der KBD-Fensterfunktion wird abgeleitet entsprechend
Der letzte Teil der KBD-Fensterfunktion ist eine zeitverkehrte Replik von Ausdruck 6.

(a) Analysefensterfunktionen

Jede bei dieser speziellen Ausführungsform verwendete Analysefensterfunktion wird durch Aneinanderhängen von zwei oder mehr der in Tabelle VI-A gezeigten Elementarfunktionen gewonnen. Tabelle VI-A Elementarfensterfunktionen
Die Analysefensterfunktionen für etliche Segmentmuster, die in zwei verschiedenen Steuerungsschemata verwendet werden, sind in einer unten beschriebenen Weise aus diesen Elementarfunktionen aufgebaut.

(b) Synthesefensterfunktionen

Bei herkömmlichen TDAC-Systemen werden identische Analyse- und Synthesefensterfunktionen auf alle Segmente angewendet. Bei dem hier beschriebenen Ausführungsformen werden grundsätzlich identische Analyse- und Synthesefensterfunktionen für die einzelnen Segmente verwendet, jedoch wird eine alternative oder "modifizierte" Synthesefensterfunktion für einige Segmente verwendet, um die Gesamtleistungsfähigkeit des Analyse-Synthese-Systems zu verbessern. Im allgemeinen werden alternative oder modifizierte Synthesefensterfunktionen für Segmente an den Enden der "Kurz"- und "Brücken"-Segmentmuster eingesetzt, um ein Gesamtrahmenverstärkungsprofil für ein Rahmenüberlappungsintervall gleich 256 Abtastwerten zu erhalten.
Das Anwenden alternativer Synthesefensterfunktionen, kann durch eine Ausführungsform von Blockdecodieren 70 gemäß Darstellung in Fig. 6 vorgesehen werden, welche verschiedene Synthesefilterbänke auf verschiedene Segmente innerhalb eines Rahmens als Antwort auf Steuersignale anwendet, die von Weg 67 und optional von Weg 66 empfangen werden. Beispielsweise können Filterbänke 74 und 76, die alternative Synthesefensterfunktionen verwenden, auf Segmente an den Enden der Rahmen angewendet werden, und Filterbank 75 mit herkömmlichen Synthesefensterfunktionen kann auf Segmente im Inneren der Rahmen angewendet werden.

(i) Änderung des Frequenzgangs

Durch Verwendung alternativer Synthesefensterfunktionen für "End"-Segmente in den Rahmenüberlappungsintervallen, kann ein Blockdecodierprozeß eine gewünschte Gesamt-(Ende-zu-Ende)- Analyse-Synthesesystem-Frequenzbereich-Antwort oder -Zeitbereichantwort (Verstärkungsprofil) für die Segmente an den Enden der Rahmen erhalten. Die Gesamtantwort für jedes Segment ist im wesentlich gleich der Antwort der Fensterfunktion, die sich aus dem Produkt der Analysefensterfunktion und der Synthesefensterfunktion ergibt, angewendet auf das Segment. Dies kann algebraisch dargestellt werden als:
WP(n) = WA(n) WS(n) (7)
wobei WA(n) = Analysefensterfunktion
WS(n) = Synthesefensterfunktion, und
WP(n) = Produktfensterfunktion.
Wenn eine Synthesefensterfunktion modifiziert wird, um den Gesamtfrequenzgang zu irgendeinem anderen gewünschten Frequenzgang zu ändern, wird sie so modifiziert, daß ihr Produkt mit der Analysefensterfunktion gleich der Produktfensterfunktion ist, die den gewünschten Frequenzgang aufweist. Wenn ein Frequenzgang entsprechend WPD erwünscht ist und Analysefensterfunktion WA für die Signalanalyse verwendet wird, kann diese Beziehung ausgedrückt werden als
WPD(n) = WA(n) WSX(n) (8)
wobei WSX(n) die zur Umsetzung des Frequenzgangs erforderliche Synthesefensterfunktion ist.
Dies kann umgeschrieben werden zu:
Die tatsächliche Form der Fensterfunktion WSX für das Endsegment in einem Rahmen ist etwas komplizierter, wenn sich das Rahmenüberlappungsintervall zu einem benachbarten Segment erstreckt, welches das Endsegment überlappt. In jedem Fall repräsentiert Ausdruck 9 zutreffend, was als Fensterfunktion WSX in dem Teil des Endsegments erforderlich ist, der kein anderes Segment in dem Rahmen überlappt. Für O-TDAC verwendende Systeme ist dieser Teil gleich der halben Segmentlänge oder 0 ≤ n < ¹/&sub2; N.
Wenn der Alphafaktor für die KBD-Produktfensterfunktion WPD deutlich höher als der Alphafaktor für die KBD-Analysefensterfunktion WA ist, muß die Synthesefensterfunktion WSX, die zur Modifikation des Gesamtfrequenzgangs dient, nahe der Rahmengrenze sehr hohe Werte aufweisen. Unglücklicherweise weist eine Synthesefensterfunktion mit solch einer Form einen sehr schlechten Frequenzgang auf und wird die Tonqualität des wiedergewonnenen Signals beeinträchtigen.
Dieses Problem kann minimiert oder vermieden werden, wenn man an der Rahmengrenze, wo die Analysefensterfunktion die kleinsten Werte besitzt, ein paar Abtastwerte wegfallen läßt. Die weggefallenen Abtastwerte können auf Null gesetzt oder auf andere Weise von der Verarbeitung ausgenommen werden.
Systeme, die KBD-Fensterfunktionen mit kleineren Werten von Alpha für normale Codierung verwenden, erfordern generell eine geringere Modifikation der Synthesefensterfunktion, und weniger Abtastwerte brauchen am Rahmenende wegzufallen.
Zusätzliche Information über die Modifizierung einer Synthesefensterfunktion zur Änderung des Gesamtfrequenzgangs und der Zeitbereich-Verstärkungsprofileigenschaften eines Analyse-Synthesesystems kann man dem US-Patent 5,903,872 entnehmen.
Die gewünschte Produktfensterfunktion WPD(n) sollte auch eine gewünschte Zeitbereichantwort oder ein gewünschtes Verstärkungsprofil bewirken. Ein Beispiel eines gewünschten Verstärkungsprofils für das Produktfenster ist in Ausdruck 10 angegeben und wird in dem nachfolgenden Absätzen erörtert.

(ii) Änderung des Rahmenverstärkungsprofils

Die Verwendung alternativer Synthesefensterfunktionen erlaubt es einem Blockdecodierprozeß auch, für jeden Rahmen ein gewünschtes Zeitbereichverstärkungsprofil zu erhalten. Eine alternative oder modifizierte Synthesefensterfunktion wird für Segmente in dem Rahmenüberlappungsintervall verwendet, wenn das gewünschte Verstärkungsprofil für einen Rahmen sich von dem Verstärkungsprofil unterscheidet, das sich bei Verwendung einer herkömmlichen, unmodifizierten Synthesefensterfunktion ergeben würde.
Ein "anfängliches" Verstärkungsprofil für einen Rahmen vor Modifizierung der Synthesefensterfunktion kann ausgedrückt werden als
wobei x = Anzahl von an der Rahmengrenze wegfallenden Abtastwerten, und
v = Rahmenüberlappungsintervall.

(iii) Elementarfunktionen

Jede bei dieser speziellen Ausführungsform verwendete Synthesefensterfunktion wird durch Aneinanderfügen von zwei oder mehr Elementarfunktionen gebildet, die in den Tabellen VI-A und VI- B gezeigt sind. Tabelle VI-B Elementarfensterfunktionen
Die in Tabelle VI-B gezeigte Funktion WA&sub0;(n) ist eine 256-Abtastwerte-Fensterfunktion, die aus dem Aneinanderhängen von drei Elementarfunktionen EA&sub0;(n) + EA&sub1;(-n) + E0&sub6;&sub4;(n) gebildet ist. Die Funktion WA&sub1;(n) ist eine 256-Abtastwerte-Fensterfunktion, die aus dem Aneinanderfügen der Elementarfunktionen EA&sub1;(n) und EA&sub1;(-n) gebildet ist.
Die Synthesefensterfunktionen für etliche Segmentmuster, die bei zwei verschiedenen Steuerschemata verwendet werden, werden aus diesen Elementarfunktionen in einer unten beschriebenen Weise aufgebaut.

b. Steuerschemata für Blockcodierung

Zwei Schemata zur Adaption eines Blockcodierprozesses werden nun beschrieben. Bei jedem Schema werden Rahmen aus 2048 Abtastwerten in überlappende Segmente mit Längen aufgeteilt, die zwischen einer minimalen Länge von 256 Abtastwerten und einer effektiven maximalen Länge von 1152 Abtastwerten variieren. Bei bevorzugten Ausführungsformen des Systems, die Information in Rahmen mit einer Rahmenfrequenz von etwa 30 Hz oder weniger verarbeiten, werden zwei Teilrahmen innerhalb jedes Rahmens in überlappende Segmente variierender Länge unterteilt. Jeder Teilrahmen wird nach Maßgabe eines mehrerer Segmentmuster in Segmente unterteilt. Jedes Muster spezifiziert eine Folge von Segmenten, in der jedes Segment mit einer speziellen Analysefensterfunktion gefenstert und mit einer speziellen Analysetransformation transformiert wird. Die speziellen Analysefensterfunktionen und Analysetransformationen, die auf verschiedene Segmente in einem jeweiligen Segmentmuster angewendet werden, sind in Tabelle VII aufgelistet. Tabelle VII Analysesegmenttypen
Jeder Tabelleneintrag beschreibt einen jeweiligen Segmenttyp durch Spezifizierung der auf ein Segment von Abtastwerten anzuwendenden Analysefensterfunktion und der auf das gefensterte Segment von Abtastwerten anzuwendenden Analysetransformation. Die Analysefensterfunktionen, die in der Tabelle aufgeführt sind, sind in Form einer Aneinanderreihung von Elementarfensterfunktionen dargestellt, wie oben beschrieben. Die Analysetransformationen sind in Form der Parameter G, N und n&sub0; dargestellt, die oben beschrieben sind.

(1) Erstes Schema

Bei dem ersten Schema sind die Segmente in jedem Muster darauf beschränkt, eine Länge gleich einer ganzzahligen Potenz von zwei aufzuweisen. Diese Beschränkung verringert die Verarbeitungsressourcen, die zur Verwirklichung der Analyse- und Synthesetransformationen erforderlich sind.
Das Kurz-1-Muster umfaßt acht Segmente, von denen das erste Segment ein A256-A-Segment und die folgenden sieben Segmente A256-B-Segmente sind. Das Kurz-2-Muster umfaßt acht Segmente, von denen die ersten sieben Segmente Segmente des Typs A256-B und das letzte Segment ein Segment des Typs A256-C sind.
Das Brücke-1-Muster umfaßt sieben Segmente, von denen das erste Segment ein Segment des Typs A256-A ist, die mittleren fünf Segmente Segmente des Typs A256-B sind, und das letzte Segment ein Segment des Typs A512-A ist. Das Brücke-2-Muster umfaßt sieben Segmente, von denen das erste Segment ein Segment eines Typs A512-B ist, die mittleren fünf Segmente Segmente des Typs A256-B sind, und das letzte Segment ein Segment eines Typs A256-C ist.
Das Lang-1-Muster umfaßt ein einziges Segment des Typs A2048-A. Obwohl dieses Segment tatsächlich 2048 Abtastwerte lang ist, beträgt seine effektive Länge bezogen auf die temporale Auflösung nur 1152 Abtastwerte, weil nur 1152 Abtastwerte der Analysefensterfunktion von Null verschieden sind. Das Lang-2-Muster umfaßt ein einziges Segment des Typs A2048-B. Die effektive Länge dieses Segments beträgt 1152.
Alle diese Segmentmuster sind in Tabelle VIII-A zusammengefaßt. Tabelle VIII-A Analysesegmentmuster für erstes Steuerschema
Verschiedene Kombinationen der Segmentmuster, die von Steuerung 46 gemäß dem ersten Steuerschema spezifiziert werden können, sind in Fig. 12 dargestellt. Die Zeile mit der Benennung "Kurz-Kurz" zeigt die Verstärkungsprofile der Analysefensterfunktionen für die Kurz-1 zu Kurz-2 Kombination von Segmentmustern. Die Zeile mit der Beschriftung "Lang-Brücke" zeigt die Verstärkungsprofile der Analysefensterfunktionen für die Lang-1 zu Brücke-2 Kombination von Segmentmustern. Die anderen Zeilen in der Figur zeigen die Verstärkungsprofile der Analysefensterfunktionen für andere Kombinationen aus den Brücken- und Lang-Segmentmustern.

(2) Zweites Schema

Bei dem zweiten Schema haben einige wenige Segmente in einigen der Muster eine Länge von 384, was keine ganzzahlige Potenz von zwei ist. Die Verwendung dieser Segmentlänge verursacht zusätzlichen Aufwand, bietet im Vergleich zum ersten Steuerschema jedoch einen Vorteil. Der zusätzliche Aufwand entsteht durch die erforderlichen zusätzlichen Verarbeitungsressourcen zur Realisierung einer Transformation für ein Segment mit 384 Abtastwerten. Dieser zusätzliche Aufwand kann dadurch verringert werden, daß jedes Segment aus 384 Abtastwerten in drei Teilsegmente à 128 Abtastwerte aufgeteilt wird, Abtastwertpaare in jedem Segment zur Erzeugung von 32 komplexen Werten kombiniert werden, eine komplexe schnelle Fouriertransformation (FFT) auf jedes Segment aus komplexwertigen Abtastwerten angewendet wird und die Ergebnisse kombiniert werden, um die gewünschten Transformationskoeffizienten zu erhalten. Zusätzliche Information über diese Verarbeitungstechnik kann man dem US-Patent 5,394,473, dem US-Patent 5,297,236, dem US-Patent 5,890,106 sowie Oppenheim und Schafer, "Digital Signal Processing" Englewood Cliffs, N. J.: Prentice-Hall, Inc., 1975, Seiten 307 bis 314 entnehmen. Die aus der Verwendung von Blöcken mit 384 Abtastwerten resultierenden Vorteile ergeben sich daraus, daß der Einsatz von Fensterfunktionen ermöglicht wird, die bessere Frequenzgangseigenschaften aufweisen, sowie aus der Verringerung von Verarbeitungsverzögerungen.
Das Kurz-1-Muster umfaßt acht Segmente, von denen das erste Segment eines des Typs A384-A ist und die folgenden sieben Segmente Segmente des Typs A256-B sind. Die effektive Länge des A384-A-Segments ist 256. Das Kurz-2-Muster umfaßt sieben Segmente, von denen die ersten sechs Segmente solche des Typs A256-B sind und das letzte Segment ein solches des Typs A384-D ist. Die effektive Länge des A384-D-Segments beträgt 256. Anders als bei anderen Kombinationen von Segmentmustern sind die Längen der beiden Teilrahmen für diese Kombination von Mustern nicht gleich.
Das Brücke-1-Muster umfaßt sieben Segmente, von denen das erste Segment ein Segment des Typs A384-A ist, die fünf mittleren Segmente solche des Typs A256-B sind und das letzte Segment ein Segment eines Typs A384-C ist. Das Brücke-2-Muster umfaßt sieben Segmente, von denen das erste Segment ein Segment eines Typs A384-B ist, die mittleren fünf Segmente Segmente des Typs A256-B sind, und das letzte Segment ein solches des Typs A384-D ist.
Das Lang-1-Muster umfaßt ein einziges Segment des Typs A2048-A. Die effektive Länge dieses Segments beträgt 1152. Das Lang-2-Muster umfaßt ein einziges Segment des Typs A2048-B. Die effektive Länge dieses Segments beträgt 1152. Alle diese Segmentmuster sind in Tabelle VIII-B zusammengefaßt. Tabelle VIII-B Analysesegmentmuster für zweites Steuerschema
Verschiedene Kombinationen der Segmentmuster, die von Steuerung 46 gemäß dem zweiten Steuerschema spezifiziert werden können, sind in Fig. 13 gezeigt. Die Zeile mit der Bezeichnung "Kurz-Kurz" zeigt die Verstärkungsprofile der Analysefensterfunktionen für die Kurz-1 zu Kurz-2 Kombination von Segmentmustern. Die Zeile mit der Beschriftung "Lang-Brücke" zeigt die Verstärkungsprofile der Analysefensterfunktionen für die Lang-1 zu Brücke-2 Kombination von Segmentmustern. Die anderen Zeilen in der Figur zeigen die Verstärkungsprofile der Analysefensterfunktionen für andere Kombinationen von Brücke- und Lang-Segmentmustern. Die Brücke-1 zu Brücke-2 Kombination ist nicht gezeigt, aber eine gültige Kombination für dieses Steuerschema.

c. Steuerschemata für Blockdecodierung

Zwei Schemata zur Adaption eines Blockdecodierprozesses werden nun beschrieben. Bei jedem Schema werden Rahmen codierter Information zur Erzeugung von Rahmen mit 2048 Abtastwerten decodiert, die in überlappende Segmente mit Längen unterteilt werden, welche zwischen einer minimalen Länge von 256 Abtastwerten und einer effektiven maximalen Länge von 1152 Abtastwerten variieren. Bei bevorzugen Ausführungsformen von Systemen, die Information in Rahmen mit einer Rahmenfrequenz von etwa 30 Hz oder weniger verarbeiten, werden zwei Teilrahmen innerhalb jedes Rahmens in überlappende Segmente variierender Länge aufgeteilt.
Jeder Teilrahmen wird nach Maßgabe eines verschiedener Segmentmuster in Segmente unterteilt. Jedes Muster spezifiziert eine Folge von Segmenten, von denen jedes Segment durch eine spezielle Synthesetransformation erzeugt wird und die Ergebnisse der Transformation durch eine spezielle Synthesefensterfunktion gefenstert werden. Die speziellen Synthesetransformationen und Synthesefensterfunktionen sind in Tabelle IX aufgelistet. Tabelle IX Synthesesegmenttypen
Jeder Tabelleneintrag beschreibt einen jeweiligen Segmenttyp durch Spezifizieren der Synthesetransformation, die auf einen Block codierter Information zur Erzeugung eines Segments von Abtastwerten anzuwenden ist, und der Synthesefensterfunktion, die auf das resultierende Segment anzuwenden ist, um ein gefenstertes Segment von Abtastwerten zu erzeugen. Die Synthesetransformationen sind durch die oben erörterten Parameter N und n&sub0; beschrieben. Die Synthesefensterfunktionen, die in der Tabelle aufgeführt sind, sind in Form einer Aneinanderkettung der oben erörterten Elementarfensterfunktionen beschrieben. Einige der bei dem Decodierprozeß eingesetzten Synthesefensterfunktionen sind modifizierte Formen der in der Tabelle aufgelisteten Funktionen.
Diese modifizierten oder alternativen Fensterfunktionen werden zur Verbesserung der Gesamt- (Ende-zu-Ende)-Systemleistungsfähigkeit verwendet.

(1) Erstes Schema

Bei dem ersten Schema sind die Segmentlängen in jedem Muster auf eine ganzzahlige Potenz von zwei beschränkt. Diese Beschränkung verringert die Verarbeitungsressourcen, die zur Verwirklichung der Analyse- und Synthesetransformationen erforderlich sind.
Das Kurz-1-Muster umfaßt acht Segmente, von denen das erste Segment ein Segment des Typs S256-A ist, das zweite Segment ein Segment des Typs S256-D1 ist, das dritte Segment ein Segment des Typs S256-D3 ist und die folgenden fünf Segmente Segmente des Typs S256-B sind. Das Kurz- 2-Muster umfaßt acht Segmente, von denen die ersten fünf Segmente Segmente des Typs S256-B sind, das sechste Segment ein Segment des Typs S256-D4 ist, das siebte Segment ein Segment des Typs S256-D2 ist und das letzte Segment ein Segment des Typs S256-C ist.
Die Form der Analyse- und Synthesefensterfunktionen und die Parameter N und n&sub0; für die Analyse- und Synthesefensterfunktionen für das erste Segment in dem Kurz-1-Muster sind so ausgelegt, daß die Audioinformation für dieses erste Segment unabhängig von anderen Segmenten ohne Aliasartefakte in den ersten 64 Abtastwerten des Segments wiedergewonnen werden kann. Dies erlaubt, einen Informationsrahmen, der in Segmente gemäß dem Kurz-1-Muster unterteilt ist, an einen beliebigen Informationsstrom anzuhängen, und zwar ohne Bedenken bezüglich der Alias-Auslöschung.
Die Analyse- und Synthesefensterfunktionen und die Analyse- und Synthesetransformationen für das letzte Segment in dem Kurz-2-Muster sind so ausgelegt, daß die Audioinformation für dieses letzte Segment unabhängig von anderen Segmenten ohne Aliasartefakte in den letzten 64 Abtastwerten des Segments wiedergewonnen werden kann. Dies ermöglicht es, daß ein Informationsrahmen, der in Segmente nach Maßgabe des Kurz-2-Musters unterteilt ist, von jedem beliebigen Informationsstrom gefolgt werden kann, ohne daß Bedenken bezüglich der Alias-Auslöschung bestehen.
Verschiedene Berücksichtigungen für die Auslegung der Fensterfunktion und der Transformation sind mehr im einzelnen im US-Patent 5,913,191 beschrieben.
Das Brücke-1-Muster umfaßt sieben Segmente, von denen das erste Segment ein Segment des Typs S256-A, das zweite Segment ein Segment des Typs S256-D1 ist, das dritte Segment ein Segment des Typs S256-D3 ist, die nächsten drei Segmente Segmente des Typs S256-B sind und das letzte Segment ein Segment des Typs S512-A ist. Das Brücke-2-Muster umfaßt sieben Segmente, von denen das erste Segment ein Segment des Typs S512-B ist, die nächsten drei Segmente Segmente des Typs S256-B sind, das fünfte Segment ein Segment des Typs S256-D4 ist, das sechste Segment ein Segment des Typs S256-D2 ist und das letzte Segment ein Segment des Typs S256-C ist.
Das erste Segment in dem Brücke-1-Muster und das letzte Segment in dem Brücke-2-Muster können unabhängig von anderen Segmenten ohne Aliasartefakte in den ersten bzw. letzten 64 Abtastwerten wiedergewonnen werden. Dies erlaubt, daß ein Brücke-1-Muster von Segmenten einem beliebigen Informationsstrom folgt, ohne daß Bedenken bezüglich der Alias-Auslöschung bestünden, und erlaubt ferner, daß einem Brücke-2-Muster von Segmenten jeder beliebige Informationsstrom folgt, ohne daß Bedenken bezüglich der Alias-Auslöschung bestünden.
Das Lang-1-Muster umfaßt ein einziges Segment des Typs S2048-A. Obwohl dieses Segment tatsächlich 2048 Abtastwerte lang ist, beträgt seine effektive Länge im Hinblick auf die temporale Auflösung nur 1152 Abtastwerte, weil nur 1152 Punkte der Synthesefensterfunktion von Null verschieden sind. Das Lang-2-Muster umfaßt ein einziges Segment des Typs S2048-B. Die effektive Länge dieses Segments beträgt 1152.
Die Segmente in den Lang-1- und Lang-2-Mustern können unabhängig von anderen Segmenten ohne Aliasartefakte in der ersten bzw. letzten 256 Abtastwerten wiedergewonnen werden. Dies erlaubt es einem Lang-1-Muster von Segmenten, einem beliebigen Informationsstrom zu folgen, ohne daß Bedenken bezüglich der Alias-Auslöschung bestünden, und erlaubt es, daß einem Lang- 2-Muster von Segmenten jeder beliebige Informationsstrom folgt, ohne daß Bedenken bezüglich der Alias-Auslöschung bestünden.
Alle diese Segmentmuster ist in der Tabelle X-A zusammengefaßt. Tabelle X-A Synthesesegmentmuster für erstes Steuerschema
Verschiedene Kombinationen der Segmentmuster, die von Steuerung 65 gemäß dem ersten Steuerschema spezifiziert werden können, sind in Fig. 14 dargestellt. Die Zeile mit der Bezeichnung "Kurz-Kurz" zeigt die Verstärkungsprofile der Synthesefensterfunktionen für die Kurz-1 zu Kurz-2 Kombination von Segmentmustern. Die Zeile mit der Bezeichnung "Lang-Brücke" zeigt die Verstärkungsprofile der Synthesefensterfunktionen für die Lang-1 zu Brücke-2 Kombination von Segmentmustern. Die anderen Zeilen in der Figur zeigen die Verstärkungsprofile der Synthesefensterfunktionen für andere Kombinationen von Brücke und Lang Segmentmustern.

(2) Zweites Schema

Bei dem zweiten Schema weisen einige der Segmente eine Länge von 384 auf, was keine ganzzahlige Potenz von 2 ist. Vorteile und Nachteile dieses Schemas werden nachfolgend erörtert. Das Kurz-1-Muster umfaßt 8 Segmente, von denen das erste Segment ein Segment des Typs S384-A ist, das zweite Segment ein Segment des Typs S256-E1 ist, und die folgenden sechs Segmente Segmente des Typs S256-B sind. Das Kurz-2-Muster umfaßt sieben Segmente, von denen die ersten fünf Segmente Segmente des Typs S256-B sind, das sechste Segment ein Segment des Typs S256-E2 ist und das letzte Segment ein Segment des Typs S384-D ist. Anders als bei anderen Kombinationen von Segmentmustern sind die Längen der beiden Teilrahmen für diese Kombination von Mustern nicht gleich.
Das erste Segment in dem Kurz-1-Muster und das letzte Segment in dem Kurz-2-Muster können unabhängig von anderen Segmenten ohne Aliasartefakte in den ersten bzw. letzten 128 Abtastwerten wiedergewonnen werden. Dies ermöglicht es einem Rahmen, der in Segmente nach Maßgabe der Kurz-1 und Kurz-2-Muster unterteilt ist, ohne Berücksichtigung der Alias-Auslöschung einem beliebigen Informationsstrom zu folgen bzw. von ihm gefolgt zu werden.
Das Brücke-1-Muster umfaßt sieben Segmente, von das erste Segment ein Segment des Typs S384-A ist, die fünf mittleren Segmente Segmente des Typs S256B sind und das letzte Segment ein Segment des Typs S348-C ist. Das Brücke-2-Muster umfaßt sieben Segmente, von denen das erste Segment ein Segment des Typs S384-B ist, die fünf mittleren Segmente Segmente des Typs S256B sind und das letzte Segment ein Segment des TypsS384-D ist. Die effektiven Längen der Segmente der Typen S384-A, S384-B, S384-C und S384-D beträgt 256.
Das erste Segment in dem Brücke-1-Muster und das letzte Segment in dem Brücke-2-Muster können unabhängig von anderen Segmenten ohne Aliasartefakte in den ersten bzw. letzten 128 Abtastwerten wiedergewonnen werden. Dies erlaubt es einem Brücke-1-Muster von Segmenten, ohne Berücksichtigung von Alias-Auslöschung einem beliebigen Informationsstrom zu folgen, und erlaubt es einem Brücke-2-Muster von Segmenten, von einem beliebigen Informationsstrom ohne Berücksichtigung von Alias-Auslöschung gefolgt zu werden.
Das Lang-1-Muster umfaßt ein einziges Segment des Typs S2048-A. Die effektive Länge dieses Segments beträgt 1152. Das Lang-2-Muster umfaßt ein einziges Segment des Typs S2048-B. Die effektive Länge dieses Segments beträgt 1152. Die Lang-1- und Lang-2-Muster für das zweite Steuerschema sind identisch zu den Lang-1- und Lang-2-Mustern für das erste Steuerschema.
Alle diese Segmentmuster sind in der Tabelle X-B zusammengefaßt. Tabelle X-B Synthesesegmentmuster für zweites Steuerschema
Verschiedene Kombinationen von Segmentmustern, die von Steuerung 65 nach Maßgabe des zweiten Steuerschemas spezifiziert werden können, sind in Fig. 15 dargestellt. Die Zeile mit der Bezeichnung "Kurz-Kurz" zeigt die Verstärkungsprofile der Synthesefensterfunktionen für die Kurz-1 zu Kurz-2 Kombination von Segmentmustern. Die Zeile mit der Bezeichnung "Lang-Brücke" zeigt die Verstärkungsprofile der Synthesefensterfunktionen für die Lang-1 zu Brücke-2 Kombination von Segmentmustern. Die anderen Zeilen in der Figur zeigen die Verstärkungsprofile der Synthesefensterfunktionen für andere Kombinationen der Brücke und Lang Segmentmuster. Die Brücke-1 zu Brücke-2 Kombination ist nicht gezeigt, ist aber eine gültige Kombination für dieses Steuerschema.

4. Rahmenformatierung

Formatierung 48 kann codierte Information nach Maßgabe einer großen Vielfalt von Formaten zu Rahmen zusammensetzen. Zwei alternative Formate werden hier beschrieben. Bei diesen beiden Formaten überträgt jeder Rahmen codierte Information für gleichzeitige Segmente eines oder mehrerer Audiokanäle, die unabhängig von anderen Rahmen decodiert werden können. Vorzugsweise wird die Information in jedem Rahmen durch eines oder mehrere digitale "Wörter" fester Bitlänge übertragen, die in Abschnitten angeordnet sind. Vorzugsweise kann die Wortlänge, die für einen speziellen Rahmen verwendet wird, aus dem Inhalt des Rahmens ermittelt werden, so daß ein Decoder seine Verarbeitung an diese Länge anpassen kann. Wenn der codierte Informationsstrom Übertragungs- oder Speicherfehlern ausgesetzt ist, kann ein Fehlererkennungscode wie ein zyklischer Redundanzprüfcode (CRC) oder eine Fletcher-Prüfsumme in jedem Rahmenabschnitt und/oder für den gesamten Rahmen enthalten sein.

Erstes Format

Das erste Rahmenformat ist in Fig. 16A dargestellt. Wie in der Figur gezeigt, umfaßt ein mit 80 bezeichneter codierter Audioinformationsstrom Rahmen mit Information, die nach Maßgabe eines ersten Formats zusammengesetzt sind. Benachbarte Rahmen sind durch Spalte oder Schutzbänder voneinander getrennt, die einen Abstand schaffen, in welchem Editierungen oder Schnitte ohne Informationsverlust ausgeführt werden können. Wie in der Figur gezeigt, ist beispielsweise ein jeweiliger Rahmen von benachbarten Rahmen durch Schutzbänder, sogenannte Guard-Bands, 81 und 88 getrennt.
Nach Maßgabe des ersten Formats überträgt ein Rahmenabschnitt 82 ein Synchronisationswort mit einem unterscheidungskräftigen Datenmuster, welches Signalverarbeitungsanlagen für einen Synchronisationsvorgang mit dem Inhalt des Informationsstroms nutzen können. Rahmenabschnitt 83 überträgt Steuerinformation, die sich auf die codierte Audioinformation bezieht, welche in Rahmenabschnitt 84 übertragen wird, aber nicht Teil der codierten Audioinformation selbst ist. Rahmenabschnitt 84 überträgt codierte Audioinformation für einen oder mehrere Audiokanäle. Rahmenabschnitt 87 kann dazu verwendet werden, den Rahmen zu einer gewünschten Gesamtlänge aufzufüllen. Alternativ kann Rahmenabschnitt 87 dazu verwendet werden, Information anstelle von oder zusätzlich zur Rahmenauffüllung zu übertragen. Diese Information kann Eigenschaften des Audiosignals übermitteln, welches von der codierten Audioinformation dargestellt wird, wie etwa beispielsweise analoge Meßinstrumentablesungen, die sich schwierig von der codierten digitalen Audioinformation ableiten lassen.
Bezugnehmend auf Fig. 16B überträgt Rahmenabschnitt 83 Steuerinformation, die in verschiedenen Teilabschnitten angeordnet ist. Teilabschnitt 83-1 überträgt einen Identifizierer für den Rahmen und eine Angabe des Rahmenformats. Der Rahmenidentifizierer kann eine 8-Bit Zahl mit einem Wert sein, der sich mit jedem nachfolgenden Rahmen um eins erhöht und bei Erreichen des Werts 256 auf den Wert Null zurückgeht. Die Angabe des Rahmenformats identifiziert die Lage und die Ausdehnung der in dem Rahmen übertragenen Information. Teilabschnitt 83-2 überträgt einen oder mehrere Parameter, die zur richtigen Decodierung der codierten Audioinformation im Rahmenabschnitt 84 nötig sind. Teilabschnitt 83-3 überträgt die Anzahl an Audiokanälen und die Programmgestalt dieser Kanäle, die durch die codierte Audioinformation im Rahmenabschnitt 84 dargestellt wird. Diese Programmgestalt kann beispielsweise angeben: einen oder mehr monaurale Programme, einen oder mehrere Zweikanalprogramme oder ein Programm mit Drei-Kanal Links-Mitte-Rechts und Zweikanal-Surround. Teilabschnitt 84-4 überträgt einen CRC-Code oder anderen Fehlererkennungscode für Rahmenabschnitt 83.
Bezugnehmend auf Fig. 16C überträgt Rahmenabschnitt 84 codierte Audioinformation, die in einem oder mehreren Teilabschnitten angeordnet ist, die je codierte Information übertragen, welche gleichzeitige Segmente jeweiliger Audiokanäle bis zu einem Maximum von acht Kanälen darstellt. In Teilabschnitten 84-1, 84-2 und 84-8 beispielsweise überträgt Rahmenabschnitt 84 codierte Audioinformation, die gleichzeitige Audiosegmente für Kanal Nummer 1, 2 bzw. 8 darstellt. Teilabschnitt 84- 9 überträgt einen CRC-Code oder anderen Fehlererkennungscode für Rahmenabschnitt 84.

b. Zweites Format

Das zweite Rahmenformat ist in Fig. 17A dargestellt. Dieses zweite Format ist dem ersten Format ähnlich, aber bei Video/Audio-Anwendungen vorzuziehen, die eine Videorahmenfrequenz von etwa 30 Hz oder weniger besitzen. Benachbarte Rahmen sind durch Spalte oder Schutzbänder wie Schutzbänder 91 und 98 getrennt, die ein Intervall schaffen, in welchem Editierungen oder Schnitte ohne Informationsverlust ausgeführt werden können.
Gemäß dem zweiten Format, überträgt der Rahmenabschnitt 92 ein Synchronisationswort. Rahmenabschnitte 93 und 94 Obertragen Steuerinformation und codierte Audioinformation ähnlich der oben im Zusammenhang mit dem ersten Format für Rahmenabschnitte 83 bzw. 84 beschriebenen. Rahmenabschnitt 87 kann dazu verwendet werden, den Rahmen auf eine gewünschte Gesamtlänge aufzufüllen und/oder Information wie beispielsweise analoge Meßinstrumentablesungen zu übertragen.
Das zweite Format unterscheidet sich von dem ersten Format darin, daß Audioinformation auf zwei Teilrahmen aufgeteilt ist. Rahmenabschnitt 94 überträgt den ersten Teilrahmen codierter Audioinformation, der den ersten Teil eines Rahmens gleichzeitiger Segmente für einen oder mehrere Audiokanäle darstellt. Rahmenabschnitt 96 überträgt den zweiten Teilrahmen codierter Audioinformation, der den zweiten Teil des Rahmens gleichzeitiger Segmente darstellt. Durch Aufteilen der Audioinformation auf zwei Teilrahmen können, wie unten erläutert, bei dem Blockdecodierprozeß auftretende Verzögerungen vermindert werden.
Bezugnehmend auf Fig. 17B überträgt der Rahmenabschnitt 95 zusätzliche Steuerinformation, die sich auf codierte Information bezieht, welche im Rahmenabschnitt 96 übertragen wird. Teilabschnitt 95-1 überträgt eine Angabe des Rahmenformats. Teilabschnitt 94-4 überträgt einen CRC Code oder anderen Fehlererkennungscode für Rahmenabschnitt 95.
Bezugnehmend auf Fig. 17C überträgt Rahmenabschnitt 96 den zweiten Teilrahmen codierter Audioinformation, die in einem oder mehreren Teilabschnitten angeordnet ist, welche je codierte Information für einen jeweiligen Audiokanal übertragen. In Teilabschnitten 96-1, 96-2 und 96-8 beispielsweise überträgt Rahmenabschnitt 96 codierte Audioinformation, die den Teilrahmen für Audiokanalnummer 1, 2 bzw. 8 repräsentieren. Teilabschnitt 96-9 überträgt einen CRC Code oder anderen Fehlererkennungscode für Rahmenabschnitt 96.

c. Zusätzliche Merkmale

Bei einigen Codier/Decodiersystemen kann es wünschenswert sein, das Auftreten bestimmter Datenmuster in der von einem Rahmen übertragenen codierten Information zu verhindern. Beispielsweise hat das oben erwähnte Synchronisationswort ein unterscheidungskräftiges Datenmuster, das nirgendwo anders in einem Rahmen auftreten sollte. Sollte diese unterscheidungskräftige Datenmuster anderswo auftreten, könnte solch ein Auftreten fälschlicherweise als gültiges Synchronisationswort identifiziert werden, was verursachen würde, daß die Anlage die Synchronisation mit dem Informationsstrom verlöre. Als anderes Beispiel reservieren einige Audioanlagen, die 16-Bit PCM-Daten-Wörter verarbeiten, den Datenwert -32768 (ausgedrückt in Hexadezimalnotation als 0x8000) zur Übertragung von Steuer- oder Signalisierinformation. Daher ist es bei einigen Systemen wünschenswert, auch das Auftreten dieses Werts zu vermeiden. Verschiedene Techniken zur Vermeidung "reservierter" oder "verbotener" Datenmuster sind in der internationalen Patentanmel dung mit der Nummer PCT/US99/22410 offenbart, die am 27. September 1999 eingereicht wurde. Diese Techniken modifizieren oder codieren Information zur Vermeidung jeglicher spezieller Datenmuster und geben mit der codierten Information einen Schlüssel oder andere Steuerinformation weiter, die zur Wiedergewinnung der Originalinformation durch Umkehrung der Modifikation oder Codierung benutzt werden kann. Bei bevorzugten Ausführungsformen wird der Schlüssel oder die Steuerinformation, die sich auf Information in einem bestimmten Rahmenabschnitt bezieht, in dem jeweiligen Rahmenabschnitt übertragen. Alternativ wird ein Schlüssel oder Steuerinformation, die sich auf den gesamten Rahmen bezieht, irgendwo in dem jeweiligen Rahmen übermittelt.

5. Klebstellenerkennung

Die beiden oben erörterten Steuerschemata adaptieren Signalanalyse- und Signalsyntheseprozesse zur Verbesserung der Gesamtsystemperformance zur Codierung und Decodierung von Audiosignalen, die manchmal im wesentlichen stationär und dann wieder sehr nicht-stationär sind. Bei bevorzugten Ausführungsformen können jedoch zusätzliche Merkmale weitere Verbesserungen zur Codierung von Audioinformation herbeiführen, die Editiervorgängen wie Kleben unterliegt.
Wie oben beschrieben, erzeugt ein Klebung generell eine Diskontinuität in einem Strom von Audioinformation, die wahrnehmbar sein kann oder auch nicht. Wenn herkömmliche TDAC-Analyse- Syntheseprozesse verwendet werden, werden Aliasartefakte auf beiden Seiten einer Klebstelle nahezu sicher nicht ausgelöscht. Beide oben erwähnten Steuerschemata vermeiden dieses Problem durch Wiedergewinnung einzelner Audioinformationsrahmen, die frei von Aliasartefakten sind. Als Ergebnis können Audioinformationsrahmen, die nach Maßgabe des einen oder des anderen Steuerschemas codiert und decodiert werden, geklebt und miteinander verbunden werden, ohne daß der Alias-Auslöschung Rechnung getragen werden müßte.
Außerdem sind durch Verwendung alternativer oder modifizierter Synthesefensterfunktionen für Endsegmente innerhalb der "Kurz" und "Brücke" Segmentmuster, die oben beschrieben wurden, beide Steuerschemata in der Lage Folgen von Segmentrahmen wiederzugewinnen, die Verstärkungsprofile aufweisen, welche innerhalb 256-Abtastwert-Rahmenüberlappungsintervallen überlappen und sich addieren zum Erhalt einer im wesentlichen konstanten Zeitbereichsverstärkung. Folglich sind die Rahmenverstärkungsprofile in den Rahmenüberlappungsintervallen für beliebige Paare von Rahmen über eine Klebung korrekt.
Die soweit beschriebenen Merkmale sind für perzeptive Codierprozesse im wesentlichen optimiert durch Implementierung von Filterbänken mit Frequenzgangseigenschaften mit erhöhter Dämpfung in den Filtersperrbändern im Austausch für ein breiteres Filterdurchlaßband. Unglücklicherweise neigen Klebeeditierungen dazu, deutliche Spektralartefakte oder "Spektralspritzer" innerhalb eines Frequenzbereichs zu erzeugen, der nicht innerhalb dessen liegt, was normalerweise als das Filtersperrband angesehen wird. Filterbänke, die entsprechend den oben besprochenen Merkmalen implementiert sind, sind ausgelegt, die allgemeine perzeptive Codierperformance zu optimieren, bieten jedoch nicht genug Dämpfung, um diese Spektralartefakte, die an Klebeeditierungen entstehen, unhörbar zu machen.
Die Systemperformance kann dadurch verbessert werden, daß das Auftreten einer Klebstelle erkannt und als Antwort der Frequenzgang der Synthesefilterbank zur Dämpfung dieses spektralen Spritzers angepaßt wird. Ein Weg dies zu tun wird unten beschrieben. Zusätzliche Information kann dem US-Patent 5,903,872 entnommen werden.
Bezugnehmend auf Fig. 4 kann Steuerung 65 eine Klebstelle dadurch erkennen, daß gewisse Steuerinformation oder "Rahmenidentifizierer", der von jedem Rahmen gewonnen wird, welcher von Weg 61 empfangen wird, untersucht wird. Beispielsweise kann Codierer 40 einen Rahmenidentifizierer durch Implementieren einer Zahl oder durch Erzeugen einer Angabe von Zeit und Datum für jeden aufeinanderfolgenden Rahmen liefern und diesen Identifizierer in den jeweiligen Rahmen einbauen. Wenn Steuerung 65 eine Diskontinuität in einer Folge von Rahmenidentifizierern feststellt, die von einem Rahmenstrom gewonnen werden, wird ein "Klebstelle erkannt" Signal längs Weg 66 erzeugt. Als Antwort auf das "Klebstelle erkannt" Signal, das vom Weg 66 empfangen wird, kann Decodieren 70 den Frequenzgang einer Synthesefilterbank anpassen oder eine alternative Filterbank mit dem gewünschten Frequenzgang wählen, um einen oder mehrere Segmente auf beiden Seiten der Grenze zwischen Rahmen zu verarbeiten, wo angenommen wird, daß eine Klebstelle vorhanden ist.
Bei einer bevorzugten Ausführungsform wird der gewünschte Frequenzgang für Rahmen auf beiden Seiten einer erkannten Klebstelle durch Anwenden eines Klebstellen-Fensterprozesses erhalten. Dies kann erreicht werden durch Anwenden einer Rahmenklebstellenfensterfunktion auf einen vollständigen Rahmen von Segmenten, wie er von den oben beschriebenen Steuerschemata erhalten wird, oder kann erreicht werden innerhalb der Steuerschemata durch Anwenden von Segmentklebstellenfensterfunktionen auf jedes Segment, das von der Synthesetransformation erhalten wird. Prinzipiell sind diese beiden Prozesse äquivalent.
Eine Segmentklebstellenfensterfunktion für ein jeweiliges Segment kann durch Multiplizieren der normalen Synthesefensterfunktion für das jeweilige Segment, wie sie in Tabelle IX gezeigt sind, mit einem Abschnitt einer Rahmenklebstellenfensterfunktion gewonnen werden, der mit dem jeweiligen Segment ausgerichtet ist. Die Rahmenklebstellenfensterfunktionen gewinnt man durch Aneinanderketten von zwei oder mehr Elementarfunktionen, wie sie in Tabelle VI-C gezeigt sind. Tabelle VI-C Elementarfensterfunktionen
Die Rahmenklebstellenfensterfunktionen für drei Rahmentypen sind in Tabelle XI aufgeführt. Tabelle XI Rahmenklebstellenfensterfunktionen
Durch Verwendung der oben aufgeführten Rahmenklebstellenfensterfunktionen ändert der Klebstellenfensterprozeß im wesentlichen die Gesamt-, d. h. Ende-zu-Ende-Analyse-Synthesefensterfunktionen für die Segmente im Rahmenüberlappungsintervall von KBD-Fensterfunktionen mit einem Alphawert von 3 zu KBD-Fensterfunktionen mit einem Alphawert von 1. Diese Änderung verringert die Breite des Filterdurchlaßbandes im Austausch für eine Absenkung des Pegels der Dämpfung im Sperrband, wodurch sich ein Frequenzgang ergibt, der effektiver hörbare spektrale Spritzer unterdrückt.

6. Signalumwandlung

Die oben besprochenen Ausführungsformen von Audiocodierern und -decodern können bei Anwendungen eingesetzt werden, die Audioinformation im wesentlichen beliebigen Formats und beliebiger Abtastrate verarbeiten. Beispielsweise wird bei professionellen Anlagen normalerweise eine Audioabtastrate von 48 kHz verwendet, während eine Abtastrate von 44,1 kHz bei sogenannten Consumeranlagen eingesetzt wird. Außerdem können die oben besprochenen Ausführungsformen bei Anwendungen eingesetzt werden, die Videoinformation in Rahmenformaten und Rahmenraten bzw. Frequenzen verarbeiten, die einem weiten Bereich von Normen entsprechen. Vorzugsweise wird bei Anwendungen, deren Videorahmenfrequenz bei etwa 30 Hz oder niedriger liegt, Audioinformation nach Maßgabe des oben beschriebenen zweiten Formats verarbeitet.
Die Realisierung praktischer Einrichtungen kann durch Umsetzung von Audioinformation zu einer internen Audioabtastrate vereinfacht werden, so daß die Audioinformation unabhängig von der externen Audioabtastrate oder der Videorahmenrate in der gleichen Struktur codiert werden kann.
Bezugnehmend auf die Fig. 3 und 4 wird Umsetzung 43 dazu verwendet, Audioinformation zu einer geeigneten internen Abtastrate umzusetzen, während Umsetzung 68 dazu verwendet wird, die Audioinformation von der internen Abtastrate zu der gewünschten externen Audioabtastrate umzusetzen. Die Umsetzungen werden so ausgeführt, daß die interne Audioabtastrate ein ganzzahliges Vielfaches der Videorahmenrate ist. Beispiele geeigneter interner Abtastraten für verschiedene Videorahmenraten sind in Tabelle XII gezeigt. Die Umsetzung erlaubt, die gleiche Anzahl von Audioabtastwerten zu codieren und mit einem Videorahmen zu übertragen. Tabelle XII Interne Abtastraten
Die internen Abtastraten, die in der Tabelle für NTSC (29,97 Hz) und DTV (23,976 Hz) gezeigt sind, gelten nur annähernd. Die Raten für diese beiden Videonormen gleichen 53.760.000/1001 bzw. 43,008.000/1001.
Nahezu jede beliebige Technik kann für die Umsetzung der Abtastrate eingesetzt werden. Verschiedene Erwägungen und Implementationen für Abtastratenumwandlung sind offenbart in Adams und Kwan, "Theory and VLSI Architectures for Asynchronous Sample Rate Converters," J. of Audio Engr. Soc., Juli 1993, Band 41, Nr. 7/8, Seiten 539 bis 555.
Wenn die Abtastratenumsetzung eingesetzt wird, kann es erforderlich sein, daß die Filterkoeffizienten für HPF 101 im oben beschriebenen Transientendetektor für Analyse 45 modifiziert werden, um eine konstante Grenzfrequenz beizubehalten. Der Nutzen dieses Merkmals kann empirisch ermittelt werden.

D. Verarbeitungsverzögerungen

Die von Blockcodieren 50 und Blockdecodieren 70 ausgeführten Prozesse weisen Verzögerungen auf, die durch Empfangen und Puffern von Segmenten und Informationsblöcken bedingt sind. Auch die beiden oben beschriebenen Schemata zur Steuerung des Blockcodierprozesses bewirken eine zusätzliche Verzögerung, die für das Empfangen und Puffern der Audioabtastwertblöcke benötigt wird, die von Analyse 45 für die Segmentlängensteuerung analysiert werden.
Wenn das zweite Format verwendet wird, muß das erste Steuerschema 1344 Audioabtastwerte oder einundzwanzig Audioinformationsblöcke à 64 Abtastwerten empfangen und puffern, bevor der erste Schritt S461 des in Fig. 10 gezeigten Segmentlängensteuerverfahrens beginnen kann. Das zweite Steuerschema beinhaltet eine etwas geringere Verzögerung, die zum Empfang und Puffern von nur 1280 Audioabtastwerten oder zwanzig Audioinformationsblöcken à 64 Abtastwerten erforderlich ist.
Wenn Codierer 40 seine Verarbeitung in Echtzeit ausführen soll, muß er den Blockcodierprozeß in der für einen jeweiligen Rahmen verbleibenden Zeit, nachdem der Teil des Rahmens empfangen, gepuffert und zur Segmentlängensteuerung analysiert wurde, abschließen. Da das erste Steuer schema eine längere Verzögerung zu Beginn der Analyse der Blöcke beinhaltet, macht es erforderlich, daß Codieren 50 seine Verarbeitung in geringerer Zeit abschließt, als dies beim zweiten Steuerschema der Fall ist.
Bei bevorzugten Ausführungsformen wird die Gesamtverarbeitungsverzögerung, die vom Codierer 40 bewirkt wird, gleich dem Intervall zwischen benachbarten Videorahmen eingestellt. Codierer 40 kann eine Komponente enthalten, die bedarfsweise eine zusätzliche Verzögerung bewirkt. Wenn eine Gesamtverzögerung eines Rahmenintervalls nicht möglich ist, kann die Gesamtverzögerung auf ein ganzzahliges Vielfaches des Videorahmenintervalls eingestellt werden.
Beide Steuerschemata stellen im wesentlichen gleiche Rechenanforderungen an Decoder 60. Die maximale in Decoder 60 bewirkte Verzögerung ist schwierig in allgemeiner Weise anzugeben, da sie von einer Anzahl von Faktoren abhängt, wie etwa dem genauen codierten Rahmenformat und der Anzahl von Bits, die zur Übertragung codierter Audioinformation und Steuerinformation verwendet wird.
Wenn das erste Format benutzt wird, muß ein vollständiger Rahmen empfangen und gepuffert werden, bevor das Segmentsteuerverfahren beginnen kann. Da die Codier- und Signalabtastratenumsetzungsprozesse nicht sofort ausgeführt werden können, ist eine Verzögerung um einen Rahmen für Codierer 40 nicht möglich. In diesem Fall wird eine Gesamtverzögerung von zwei Rahmenraten bevorzugt. Eine ähnliche Beschränkung gilt für Decoder 60.

Claims

1. Verfahren zur Audiocodierung, das Schritte zur Durchführung folgender Handlungen umfaßt:

Empfangen eines Referenzsignals, das eine Ausrichtung von Videoinformationsrahmen in einer Folge von Videoinformationsrahmen übermittelt, bei der benachbarte Rahmen durch ein Rahmenintervall getrennt sind,

Empfangen eines Audiosignals, das Audioinformation übermittelt,

Analysieren des Audiosignals zur Identifizierung von Eigenschaften der Audioinformation,

Erzeugen eines Steuersignals, das Segmentlängen für Segmente der Audioinformation in einer Folge überlappender Segmente übermittelt, wobei ein jeweiliges Segment mit einem benachbarten Segment ein jeweiliges Überlappungsintervall aufweist und die Folge eine Länge besitzt, die gleich dem Rahmenintervall plus einem Rahmenüberlappungsintervall ist, und die Segmentlängen abhängig von den Eigenschaften der Audioinformation angepaßt werden,

Anwenden eines adaptiven Blockcodierprozesses auf die überlappenden Segmente in der Folge zur Erzeugung einer Mehrzahl von Blöcken codierter Information, wobei der Blockcodierprozeß nach Maßgabe des Steuersignals angepaßt wird, und

Zusammenfügen der Vielzahl von Blöcken codierter Information und der Steuerinformation, die die Segmentlängen übermittelt, zur Bildung eines codierten Informationsrahmens, der mit dem Referenzsignal ausgerichtet ist.

2. Verfahren zur Audiocodierung nach Anspruch 1, bei dem der Blockcodierprozeß eine Bank aus Bandpaßfiltern oder eine Transformation auf die Segmente der Audioinformation anwendet, um Blöcke von Teilbandsignalen bzw. Transformationskoeffizienten zu erzeugen.

3. Verfahren zur Audiocodierung nach Anspruch 1, bei dem der Blockcodierprozeß eine jeweilige Analysefensterfunktion auf jedes Segment der Audioinformation anwendet, um gefensterte Segmente zu erzeugen, und eine Zeitbereichaliasauslösch-Analysetransformation auf die gefensterten Segmente anwendet, um Blöcke von Transformationskoeffizienten zu erzeugen.

4. Verfahren zur Audiocodierung nach Anspruch 3, welches die Analysefensterfunktion und die Zeitbereichaliasauslösch-Analysetransformation anpaßt, um einen Block zu erzeugen, der ein Endsegment in der Folge von Segmenten für einen jeweiligen codierten Informationsrahmen erzeugt, welcher die Anwendung einer komplementären Synthesetransformation und Synthesefensterfunktion zur Wiedergewinnung von Audioinformation im wesentlichen ohne Zeitbereichalias im Überlappungsintervall des Endsegments in der Folge zuläßt.

5. Verfahren zur Audiocodierung nach einem der Ansprüche 1 bis 4, bei dem der Blockcodierprozeß die Segmentlängen auf eine ganzzahlige Potenz von zwei begrenzt.

6. Verfahren zur Audiocodierung nach einem der Ansprüche 1 bis 4, bei dem der Blockcodierprozeß die Segmentlängen zwischen einer maximalen Segmentlänge und einer minimalen Segmentlänge anpaßt und für einen jeweiligen codierten Informationsrahmen anwendet entweder:

eine Lang-Lang-Folge von Analysefensterfunktionen auf eine Folge von Segmenten, deren Längen gleich der maximalen Segmentlänge sind,

eine Kurz-Kurz-Folge von Analysefensterfunktionen auf eine Folge von Segmenten, deren effektive Längen gleich der minimalen Segmentlänge sind,

eine Brücken-Lang-Folge von Analysefensterfunktionen auf eine Folge von Segmenten, deren Längen von der minimalen Segmentlänge zur maximalen Segmentlänge übergehen, wobei die Brücken-Lang-Folge eine erste Brückenfolge von Fensterfunktionen gefolgt von einer Fensterfunktion für ein Segment mit einer Länge gleich der maximalen Segmentlänge umfaßt,

eine Lang-Brücken-Folge von Analysefensterfunktionen auf eine Folge von Segmenten mit Längen, die von der maximalen Segmentlänge zur minimalen Segmentlänge übergehen, wobei die Lang-Brücken-Folge eine Fensterfunktion für ein Segment mit einer Länge gleich der maximalen Segmentlänge gefolgt von einer zweiten Brückenfolge von Fensterfunktionen umfaßt, oder

eine Brücken-Brücken-Folge von Analysefensterfunktionen auf eine Folge von Segmenten mit variierenden Längen, wobei die Brücken-Brücken-Folge die erste Brückenfolge gefolgt von der zweiten Brückenfolge umfaßt.

7. Verfahren zur Audiocodierung nach Anspruch 6, bei dem alle Segmente in der Kurz- Kurz-Folge identische Längen besitzen.

8. Verfahren zur Audiocodierung nach Anspruch 6, bei dem alle Analysefensterfunktionen in der Kurz-Kurz-Folge von Null verschiedene Abschnitte aufweisen, die in Form und Länge identisch sind, und eine oder mehrere Analysefensterfunktionen einen Nullabschnitt aufweisen.

9. Verfahren zur Audiocodierung nach einem der Ansprüche 1 bis 8, welches die Umsetzung der Audioinformation von einer Eingangsaudioabtastrate zu einer internen Audioabtastrate vor Anwenden des Blockcodierprozesses umfaßt, wobei das Referenzsignal eine Videoinformationsrahmenrate übermittelt und die interne Audioabtastrate gleich einem ganzzahligen Vielfachen der Videoinformationsrahmenrate ist.

10. Verfahren zur Audiodecodierung, das Schritte zur Durchführung folgender Handlungen umfaßt:

Empfangen codierter Informationsrahmen, die mit dem Referenzsignal ausgerichtet sind und je Steuerinformation und eine Mehrzahl von Blöcken codierter Audioinformation umfassen,

Erzeugen eines Steuersignals, das Segmentlängen für Segmente von Audioinformation in einer Folge überlappender Segmente übermittelt, wobei ein jeweiliges Segment ein jeweiliges Überlappungsintervall mit einem benachbarten Segment aufweist und die Folge eine Länge gleich dem Rahmenintervall plus einem Rahmenüberlappungsintervall besitzt, wobei die Segmentlängen nach Maßgabe der Steuerinformation angepaßt werden,

Anwenden eines adaptiven Blockdecodierprozesses auf die Mehrzahl von Blöcken codierter Audioinformation in einem jeweiligen codierten Informationsrahmen,

wobei sich der Blockdecodierprozeß nach Maßgabe des Steuersignals anpaßt, um die Folge überlappender Segmente von Audioinformation zu erzeugen.

11. Verfahren zur Audiodecodierung nach Anspruch 10, bei dem der Blockdecodierprozeß eine Bank von Bandpaßsynthesefiltern oder eine Synthesetransformation auf die Mehrzahl von Blöcken codierter Information anwendet, um die überlappenden Segmente von Audioinformation zu erzeugen.

12. Verfahren zur Audiodecodierung nach Anspruch 10, bei dem der Blockdecodierprozeß eine Zeitbereichaliasauslösch-Synthesetransformation auf die Mehrzahl von Blöcken codierter Information anwendet und eine jeweilige Synthesefensterfunktion auf die Ergebnisse der Synthesetransformation anwendet, um die überlappenden Segmente von Audioinformation zu erzeugen.

13. Verfahren zur Audiodecodierung nach Anspruch 12, das die Zeitbereichaliasauslösch- Synthesetransformation anpaßt und eine Synthesefensterfunktion auf die Ergebnisse der Transformation anwendet, um ein Endsegment in der Folge für den jeweiligen codierten Informationsrahmen im wesentlichen ohne Zeitbereichalias im Überlappungsbereich des Endsegments in der Folge wiederzugewinnen.

14. Verfahren zur Audiodecodierung nach einem der Ansprüche 10 bis 13, bei dem der Blockdecodierprozeß auf die Erzeugung von Segmenten mit Längen, die eine ganzzahlige Potenz von zwei sind, beschränkt ist.

15. Verfahren zur Audiodecodierung nach einem der Ansprüche 10 bis 13, bei dem der Blockdecodierprozeß Blöcke decodiert, welche Segmente von Audioinformation mit verschiedenen Längen zwischen einer maximalen Segmentlänge und einer minimalen Segmentlänge decodiert und für einen jeweiligen codierten Informationsrahmen anwendet entweder:

eine Lang-Lang-Folge von Synthesefensterfunktionen auf eine Folge von Segmenten, deren Längen gleich der maximalen Segmentlänge sind,

eine Kurz-Kurz-Folge von Synthesefensterfunktionen auf eine Folge von Segmenten, deren effektive Längen gleich der minimalen Segmentlänge sind,

eine Brücken-Lang-Folge von Synthesefensterfunktionen auf eine Folge von Segmenten, deren Längen von der minimalen Segmentlänge zur maximalen Segmentlänge übergehen, wobei die Brücken-Lang-Folge eine erste Brückenfolge von Fensterfunktionen gefolgt von einer Fensterfunktion für ein Segment mit einer Länge gleich der maximalen Segmentlänge umfaßt,

eine Lang-Brücken-Folge von Synthesefensterfunktionen auf eine Folge von Segmenten mit Längen, die von der maximalen Segmentlänge zur minimalen Segmentlänge übergehen, wobei die Lang-Brücken-Folge eine Fensterfunktion für ein Segment mit einer Länge gleich der maximalen Segmentlänge gefolgt von einer zweiten Brückenfolge von Fensterfunktionen umfaßt, oder

eine Brücken-Brücken-Folge von Synthesefensterfunktionen auf eine Folge von Segmenten mit variierenden Längen, wobei die Brücken-Brücken-Folge die erste Brückenfolge gefolgt von der zweiten Brückenfolge umfaßt.

16. Verfahren zur Audiodecodierung nach Anspruch 15, bei dem alle von der Kurz-Kurz- Folge erzeugten Segmente identische Längen aufweisen.

17. Verfahren zur Audiodecodierung nach Anspruch 15, bei dem alle Synthesefensterfunktionen in der Kurz-Kurz-Folge von Null verschiede Abschnitte identischer Form und Länge aufweisen und eine oder mehrere der Analysefensterfunktionen einen Nullabschnitt aufweisen.

18. Verfahren zur Audiodecodierung nach einem der Ansprüche 10 bis 17, das Steuerinformation analysiert, welche von zwei codierten Informationsrahmen gewonnen wird, um eine Diskontinuität zu ermitteln und daraufhin, den Frequenzgang des Blockdecodierprozesses bei der Wiedergewinnung erster oder letzter Segmente von Audioinformation in einer jeweiligen Folge von Segmenten für beide codierte Informationsrahmen anpaßt.

19. Informationsspeichermedium, das trägt:

Videoinformation, die in Videorahmen angeordnet ist, und

codierte Audioinformation, die in codierten Informationsrahmen angeordnet ist, wobei ein jeweiliger codierter Informationsrahmen einem jeweiligen Videorahmen entspricht und enthält

Steuerinformation, die variable Segmentlängen für Segmente von Audioinformation in einer Folge überlappender Segmente übermittelt, wobei ein jeweiliges Segment ein jeweiliges Überlappungsintervall mit einem benachbarten Segment besitzt und die Folge eine Länge gleich dem Rahmenintervall plus einem Rahmenüberlappungsintervall aufweist, und

Blöcke codierter Audioinformation, wobei ein jeweiliger Block eine jeweilige Länge und einen jeweiligen Gehalt hat, der bei Verarbeitung durch einen adaptiven Blockdecodierprozeß zu einem jeweiligen Segment von Audioinformation in der Folge überlappender Segmente führt.

20. Informationsspeichermedium nach Anspruch 19, bei dem der jeweilige Block codierter Information einen jeweiligen Inhalt besitzt, der in dem jeweiligen Segment von Audioinformation resultiert, wenn er von einem adaptiven Decodierprozeß verarbeitet wird, welcher das Anwenden einer Zeitbereichauslösch-Synthesetransformation und das Anwenden einer Synthesefensterfunktion umfaßt.

21. Informationsspeichermedium nach Anspruch 20, bei dem der adaptive Blockdecodierprozeß die Zeitbereichaliasauslösch-Synthesetransformation anpaßt und die Synthesefensterfunktion anpaßt, um die Folge überlappender Segmente von Audioinformation zu erzeugen, die unabhängig im wesentlichen kein Zeitbereichalias besitzen.

22. Informationsspeichermedium nach einem der Ansprüche 19 bis 21, bei dem alle Blöcke codierter Audioinformation Segmente von Audioinformation repräsentieren, die jeweilige Längen besitzen, welche eine ganzzahlige Potenz von zwei sind.

23. Informationsspeichermedium nach einem der Ansprüche 19 bis 22, bei dem die Steuerinformation eine Angabe der Ordnung des jeweiligen codierten Informationsrahmens innerhalb einer Folge codierter Informationsrahmen beinhaltet.

24. Vorrichtung zur Audiocodierung, die umfaßt:

Mittel zum Empfangen eines Referenzsignals, das eine Ausrichtung von Videoinformationsrahmen in einer Folge von Videoinformationsrahmen übermittelt, bei der benachbarte Rahmen durch ein Rahmenintervall getrennt sind,

Mittel zum Empfangen eines Audiosignals, das Audioinformation übermittelt,

Mittel zum Analysieren des Audiosignals zur Identifizierung von Eigenschaften der Audioinformation,

Mittel zum Erzeugen eines Steuersignals, das Segmentlängen für Segmente der Audioinformation in einer Folge überlappender Segmente übermittelt, wobei ein jeweiliges Segment mit einem benachbarten Segment ein jeweiliges Überlappungsintervall aufweist und die Folge eine Länge besitzt, die gleich dem Rahmenintervall plus einem Rahmenüberlappungsintervall ist, und die Segmentlängen abhängig von den Eigenschaften der Audioinformation angepaßt werden,

Mittel zum Anwenden eines adaptiven Blockcodierprozesses auf die überlappenden Segmente in der Folge zur Erzeugung einer Mehrzahl von Blöcken codierter Information, wobei der Blockcodierprozeß nach Maßgabe des Steuersignals angepaßt wird, und

Mittel zum Zusammenfügen der Vielzahl von Blöcken codierter Information und der Steuerinformation, die die Segmentlängen übermittelt, zur Bildung eines codierten Informationsrahmens, der mit dem Referenzsignal ausgerichtet ist.

25. Vorrichtung zum Audiocodieren nach Anspruch 24, bei der der Blockcodierprozeß eine Bank aus Bandpaßfiltern oder eine Transformation auf die Segmente der Audioinformation anwendet, um Blöcke von Teilbandsignalen bzw. Transformationskoeffizienten zu erzeugen.

26. Vorrichtung zum Audiocodieren nach Anspruch 24, bei der der Blockcodierprozeß eine jeweilige Analysefensterfunktion auf jedes Segment der Audioinformation anwendet, um gefensterte Segmente zu erzeugen, und eine Zeitbereichaliasauslösch-Analysetransformation auf die gefensterten Segmente anwendet, um Blöcke von Transformationskoeffizienten zu erzeugen.

27. Vorrichtung zum Audiocodieren nach Anspruch 26, die Mittel umfaßt zum Adaptieren der Analysefensterfunktion und der Zeitbereichaliasauslösch-Analysetransformation zum Erzeugen eines Blocks, der ein Endsegment in der Folge von Segmenten für einen jeweiligen codierten Informationsrahmen repräsentiert, der eine Anwendung einer komplementären Synthesetransformation und Synthesefensterfunktion zur Wiedergewinnungen von Audioinformation im wesentlichen ohne Zeitbereichalias in dem Überlappungsintervall des Endsegments in der Folge zuläßt.

28. Vorrichtung zum Audiocodieren nach einem der Ansprüche 24 bis 27, bei der der Blockcodierprozeß die Segmentlängen auf eine ganzzahlige Potenz von zwei begrenzt.

29. Vorrichtung zum Audiocodieren nach einem der Ansprüche 24 bis 27, bei der der Blockcodierprozeß die Segmentlängen zwischen einer maximalen Segmentlänge und einer minimalen Segmentlänge anpaßt und für einen jeweiligen codierten Informationsrahmen anwendet entweder:

30. Vorrichtung zum Audiocodieren nach Anspruch 29, bei der alle Segmente in der Kurz- Kurz-Folge identische Längen besitzen.

31. Vorrichtung zum Audiocodieren nach Anspruch 29, bei der alle Analysefensterfunktionen in der Kurz-Kurz-Folge von null verschiedene Abschnitte aufweisen, die in Form und Länge identisch sind, und das eine oder mehrere Analysefensterfunktionen einen Nullabschnitt aufweisen.

32. Vorrichtung zum Audiocodieren nach einem der Ansprüche 24 bis 31, die Mittel umfaßt zum Umsetzen der Audioinformation von einer Eingangsaudioabtastrate zu einer internen Audioabtastrate vor Anwenden des Blockcodierprozesses, wobei das Referenzsignal eine Videoinformationsrahmenrate übermittelt und die interne Audioabtastrate gleich einem ganzzahligen Vielfachen der Videoinformationsrahmenrate ist.

33. Vorrichtung zum Audiodecodieren, die Schritte zur Durchführung folgender Handlungen umfaßt:

Mittel zum Empfangen codierter Informationsrahmen, die mit dem Referenzsignal ausgerichtet sind und je Steuerinformation und eine Mehrzahl von Blöcken codierter Audioinformation umfassen,

Mittel zum Erzeugen eines Steuersignals, das Segmentlängen für Segmente von Audioinformation in einer Folge überlappender Segmente übermittelt, wobei ein jeweiliges Segment ein jeweiliges Überlappungsintervall mit einem benachbarten Segment aufweist und die Folge eine Länge gleich dem Rahmenintervall plus einem Rahmenüberlappungsintervall besitzt, wobei die Segmentlängen nach Maßgabe der Steuerinformation angepaßt werden,

Mittel zum Anwenden eines adaptiven Blockdecodierprozesses auf die Mehrzahl von Blöcken codierter Audioinformation in einem jeweiligen codierten Informationsrahmen,

34. Vorrichtung zum Audiodecodieren nach Anspruch 33, bei der der Blockdecodierprozeß eine Bank von Bandpaßsynthesefiltern oder eine Synthesetransformation auf die Mehrzahl von Blöcken codierter Information anwendet, um die überlappenden Segmente von Audioinformation zu erzeugen.

35. Vorrichtung zum Audiodecodieren nach Anspruch 33, bei der der Blockdecodierprozeß eine Zeitbereichaliasauslösch-Synthesetransformation auf die Mehrzahl von Blöcken codierter Information anwendet und eine jeweilige Synthesefensterfunktion auf die Ergebnisse der Synthesetransformation anwendet, um die überlappenden Segmente von Audioinformation zu erzeugen.

36. Vorrichtung zum Audiodecodieren nach Anspruch 35, die Mittel umfaßt zum Anpassen der Zeitbereichaliasauslösch-Synthesetransformation und die eine Synthesefensterfunktion auf die Ergebnisse der Transformation anwendet, um ein Endsegment in der Folge für den jeweiligen codierten Informationsrahmen im wesentlichen ohne Zeitbereichalias im Überlappungsintervall des Endsegments in der Folge wiederzugewinnen.

37. Vorrichtung zum Audiodecodieren nach einem der Ansprüche 33 bis 36, bei der der Blockdecodierprozeß beschränkt ist, Segmente mit Längen zu erzeugen, die eine ganzzahlige Potenz von zwei sind.

38. Vorrichtung zum Audiodecodieren nach einem der Ansprüche 33 bis 36, bei der der Blockdecodierprozeß Blöcke decodiert, welche Segmente von Audioinformation mit verschiedenen Längen zwischen einer maximalen Segmentlänge und einer minimalen Segmentlänge decodiert und für einen jeweiligen codierten Informationsrahmen anwendet entweder:

39. Vorrichtung zum Audiodecodieren nach Anspruch 38, bei der alle von der Kurz-Kurz- Folge erzeugten Segmente identische Längen aufweisen.

40. Vorrichtung zum Audiodecodieren nach Anspruch 38, bei der alle Synthesefensterfunktionen in der Kurz-Kurz-Folge von Null verschiede Abschnitte identischer Form und Länge aufweisen und eine oder mehrere der Analysefensterfunktionen einen Nullabschnitt aufweisen.

41. Vorrichtung zum Audiodecodieren nach einem der Ansprüche 33 bis 40, die Mittel umfaßt zum Analysieren von Steuerinformation, die von zwei codierten Informationsrahmen gewonnen wird, um eine Diskontinuität zu ermitteln, und daraufhin den Frequenzgang des Blockdecodierprozesses bei der Wiedergewinnung erster oder letzter Segmente von Audioinformation in einer jeweiligen Folge von Segmenten für jeden der beiden codierten Informationsrahmen anzupassen.