DE60012860T2

DE60012860T2 - Verfahren zur Verarbeitung mehrerer digitaler Audiodatenströme

Info

Publication number: DE60012860T2
Application number: DE60012860T
Authority: DE
Inventors: Abdellatif Benjelloun Toumi; Yannick Mahieux; Claude Lamblin
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 1999-12-08
Filing date: 2000-11-22
Publication date: 2005-08-18
Anticipated expiration: 2020-11-23
Also published as: JP2001202097A; FR2802329B1; US20010027393A1; CA2327627C; EP1107230A1; US6807526B2; FR2802329A1; CA2327627A1; EP1107230B1; DE60012860D1

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Bearbeitung wenigstens eines codierten digitalen Audiodatenstroms, der in Form von Rahmen organisiert ist. Dieser Strom wird oder diese Ströme werden zum einen durch Algorithmen zur Codierung vom Frequenztyp, welche die psychoakustischen Eigenschaften des menschlichen Gehörs zur Herabsetzung der Datenrate ausnutzen, und zum anderen durch Algorithmen zur Quantisierung der auf diese Weise codierten Signale erhalten. Insbesondere findet die vorliegende Erfindung Anwendung, wenn in den betrachteten Audiodatenströmen keine Bitzuweisungsdaten, die für die Quantisierung verwendet werden, explizit vorliegen.
Ein derartiges Verfahren kann benutzt werden, um einen codierten Audiodatenstrom mit einer ersten Rate in einen anderen Strom mit einer zweiten Rate umzusetzen. Außerdem kann es benutzt werden, um mehrere codierte Audiodatenströme miteinander zu kombinieren, beispielsweise in einem Fernsprechkonferenzsystem.
Eine mögliche Anwendung des Verfahrens der vorliegenden Erfindung betrifft die Fernsprechkonferenz, insbesondere im Fall einer zentralisierten Kommunikationsarchitektur, die auf einer Mehrpunkt-Steuereinheit (MCU: Multipoint Control Unit (engl.)) beruht, die unter anderem die Rolle einer Audio-Überleiteinrichtung spielt, die das Kombinieren (oder Mischen) der Audioströme und danach ihre Leitweglenkung zu den betreffenden Endeinrichtungen ausführt.
Es wird jedoch angemerkt, dass das Verfahren der vorliegenden Erfindung auf ein Fernsprechkonferenzsystem angewendet werden kann, dessen Architektur mit Endeinrichtungen vermascht ist, die dann in einer Punkt-zu-Punkt-Verbindung sind.
Es sind weitere Anwendungen denkbar, vor allem in weiteren multimedialen Umgebungen, beispielsweise bei der Abfrage von Datenbankservern, die Audio-Objekte für die Gestaltung von virtuellen Szenen enthalten.
Außerdem bilden die Klangmontage und -aufbereitung, die in der Bearbeitung eines oder mehrerer komprimierter Bitströme bestehen, um daraus einen neuen Bitstrom zu erzeugen, einen Anwendungsbereich des Verfahrens der vorliegenden Erfindung.
Eines der Hauptprobleme, die für die Bearbeitung von codierten Audiodatenströmen zu lösen sind, ist jenes der Verringerung des Berechnungsaufwands, den diese Bearbeitung darstellt. Im Allgemeinen werden diese Bearbeitungen im Zeitbereich ausgeführt, so dass es erforderlich ist, eine Transformation der Audiodatenströme aus dem Frequenzbereich in den Zeitbereich auszuführen und dann, nach der Verarbeitung der zeitlichen Ströme, eine Rücktransformation aus dem Zeitbereich in den Frequenzbereich auszuführen. Diese Transformationen gehen mit einer Verzögerung durch den Algorithmus sowie einem erheblicher Rechenaufwand einher, was sich als hinderlich erweisen kann.
Insbesondere im Fall der Fernsprechkonferenz hat man versucht, die Gesamtverzögerung der Nachrichtenübermittlung zu verringern und folglich ihre Qualität hinsichtlich einer Interaktivität zu verbessern. Es wird hervorgehoben, dass die oben erwähnten Probleme im Fall der Fernsprechkonferenz auf Grund der hohen Anzahl an Zugriffen, die eine Mehrpunkt-Steuereinheit bieten kann, noch größer sind.
Für die Fernsprechkonferenz können die Audiodatenströme mittels mehrerer genormter Typen von Codierungsalgorithmen codiert sein. So gibt die Norm H.320, die für die Übertragung über das ISDN mit geringer Bandbreite spezifisch ist, mehrere Codierungsalgorithmen an (G.711, G.722, G.728). Genauso gibt die Norm H.323 mehrere Codierungsalgorithmen an (G.723.1, G.729 und MPEG-1).
Außerdem sieht die Norm G.722 im Kontext einer qualitativ hochwertigen Fernsprechkonferenz einen Codierungsalgorithmus vor, der über einer Bandbreite von 7 kHz und mit einer Unterteilung des Spektrums in zwei Unterbänder arbeitet. Es wird dann eine Codierung vom Typ Pulscode-Modulation mit differenzierter Anpassung über dem Signal jedes Bands ausgeführt.
Um das Problem der Verzögerung und der Komplexität, das durch die Bänke von um 90° phasenverschobenen spiegelbildlichen Filtern auf der Ebene der Mehrpunkt-Steuereinheit eingeführt wird, zu lösen, spezifiziert die Norm G.722 in ihrem Anhang ein Verfahren zur direkten Rekombination anhand der Signale der Unterbänder. Dieses Verfahren besteht darin, eine der Pulscode-Modulation mit differenzierter Anpassung entsprechende Decodierung zweier Abtastwerte, die jeweils aus den Unterbändern jedes Rahmens am Eingang der Mehrpunkt-Steuereinheit stammen, zu verwirklichen, über die Gesamtheit der betrachteten Eingangspfade zu summieren und schließlich eine Pulscode-Modulation mit differenzierter Anpassung auszuführen, bevor der Ausgangsrahmen konstruiert wird.
Eine der Lösungen, die vorgeschlagen wurden, um die Komplexität zu verringern, besteht darin, die Anzahl der Decodierer auf der Ebene der Mehrpunkt-Steuereinheit zu vermindern und folglich das Kombinieren der codierten Audiodatenströme nur über einem Teil der empfangenen Ströme auszuführen. Es gibt mehrere Strategien, um die zu berücksichtigenden Eingangspfade zu bestimmen. Beispielsweise erfolgt das Kombinieren mit den N' Signalen, die die höchsten Leistungen aufweisen, oder N' ist im Voraus definiert und fest, wobei die Leistung direkt anhand der Eingangscodewörter bestimmt wird. Das Kombinieren wird beispielsweise auch nur über aktive Ströme ausgeführt, so dass dann die Anzahl der zu berücksichtigenden Eingänge variabel ist.
Es wird angemerkt, dass diese Verfahren keine Lösungen zu dem Problem der Verringerung der Verzögerung liefern.
Eine weitere Anwendung des Verfahrens der vorliegenden Erfindung ist die Umsetzung eines Stroms codierter Audio- bzw. Tonsignale mit einer ersten Rate in einen anderen Strom mit einer zweiten Rate.
Eine solche Anwendung ist bei der Übertragung über verschiedene heterogene Netze, wobei die Datenrate an die von dem benutzten Übertragungsmedium bereitgestellte Bandbreite angepasst werden muss, interessant. Dies ist bei Netzen mit nicht gewährleisteter (oder unzuverlässiger) Dienstgüte der Fall, wo die Bandbreitenzuteilung von den Verkehrsbedingungen abhängt. Ein typisches Beispiel tritt beim Übergang aus einer Intranet-Umgebung (beispielsweise einem lokalen Ethernet mit 10 Mbits/s), wo die Bandbreitenbegrenzung weniger streng ist, in ein stärker gesättigtes Netz (Internet) auf. Die neue Fernsprechkonferenznorm H.323, die eine Interoperabilität zwischen Endeinrichtungen über Netze verschiedener Art (LAN mit nicht gewährleisteter Dienstgüte, ISDN, Breitband-ISDN, öffentliches Fernsprechnetz mit Vermittlung,...) ermöglicht, stellt ebenfalls ein Anwendungsfeld dar. Ein weiterer interessanter Fall tritt bei der Abfrage von Audio-Servern (beispielsweise Tonsignal auf Anforderung) auf. Die Audiodaten sind nämlich häufig in codierter Form, jedoch mit einem Kompressionsgrad gespeichert, der gering genug ist, um eine hohe Qualität zu bewahren, wobei die Übertragung über ein Netz eine weitere Verringerung der Datenrate erfordern kann.
Außerdem ist das Verfahren bekannt, das in dem Dokument US-A-5 570 363 beschrieben ist. Dieses Verfahren ist ein Verfahren zur Bearbeitung wenigstens eines codierten digitalen Audiodatenstroms, der in Form von Rahmen organisiert ist, die aus digitalen Audio- bzw. Tonsignalen gebildet sind, die von wenigstens einer Audio-Endeinrichtung codiert worden sind, um die bearbeiteten Rahmen auszugeben, die dann an einen nachfolgenden Verwendungsschritt geliefert, werden, wobei die Codierung der digitalen Tonsignale einen Schritt der Transformation aus dem Zeitbereich in den Frequenzbereich, um die Transformationskoeffizienten zu berechnen, und dann eine Quantisierung und eine Codierung der Transformationskoeffizienten gemäß einem Satz Quantisierer umfasst.
Das Problem, dessen Lösung die Erfindung anstrebt, ist die Verarbeitung unterschiedlicher digitaler Audiodatenströme, die mit unterschiedlichen Quantisierern quantisiert sein können. Die Lösung, die beschrieben ist, besteht darin, Klassen zu schaffen, die mit der Gesamtheit der bei der Codierung benutzten Quantisierer in Beziehung stehen, und nur die Signale ein und derselben Klasse zu dequantisieren und zu verarbeiten. Diese Klassen sind festgelegte Parameter des Systems, jedoch keine für das zu verarbeitende Signal spezifischen Parameter. Aus einem solchen Verfahren resultiert ein gewisser Mangel an Flexibilität, da zwei Ströme nur dann verarbeitet werden können, wenn sie der gleichen Klasse angehören. Die vorliegende Erfindung hat zum Ziel, dieses besondere Problem zu lösen.
Dazu ist ein Verfahren gemäß der vorliegenden Erfindung, wie es durch die beigefügten unabhängigen Ansprüche definiert ist, dadurch gekennzeichnet, dass

– der Satz Quantisierer anhand von Auswahlparametern bestimmt wird, die aus den digitalen Tonsignalen gewonnen werden, wobei die Rahmen außerdem die Auswahlparameter enthalten, und dass das Verfahren für wenigstens einen Audiodatenstrom, der von einer Endeinrichtung empfangen wird; die folgenden Schritte
– Gewinnen der Auswahlparameter aus den Rahmen des Audiodatenstroms und anhand der Auswahlparameter Bestimmen des Satzes Quantisierer, die während des von der Endeinrichtung durchgeführten Quantisierungsschritts verwendet wurden,
– teilweises Decodieren und Dequantisieren der Rahmen unter Verwendung des im vorhergehenden Schritt ermittelten Satzes Quantisierer, um die dequantisierten Werte der Transformationskoeffizienten, die von der Endeinrichtung berechnet wurden, wiederzugewinnen,
– Anwenden der eigentlichen Bearbeitung im Frequenzbereich auf die dequantisierten Transformationskoeffizienten, die im vorhergehenden Schritt erhalten worden sind, um bearbeitete Rahmen zu erzeugen,
– Übergeben der bearbeiteten Rahmen an den nachfolgenden Verwendungsschritt.

Das Ziel der vorliegenden Erfindung ist die Schaffung eines Verfahrens für die Bearbeitung wenigstens eines codierten digitalen Audiosignalstroms, das ermöglicht, die oben erwähnten Probleme zu lösen.
Sie betrifft folglich ein Verfahren zur Verarbeitung wenigstens eines codierten digitalen Audiodatenstroms, der in Form von Rahmen organisiert ist, die aus digitalen Audio- bzw. Tonsignalen gebildet sind, die codiert worden sind, indem sie zuerst einer Transformation aus dem Zeitbereich in den Frequenzbereich unterworfen wurden, um die Transformationskoeffizienten zu berechnen, und anschließend einem Schritt der Quantisierung und Codierung der Transformationskoeffizienten gemäß einem Satz Quantisierer, der anhand von Auswahlparametern bestimmt ist, die aus den digi talen Tonsignalen gewonnen wurden, wobei die Auswahlparameter ebenfalls in den Rahmen vorliegen.
Gemäß einem wesentlichen Merkmal der vorliegenden Erfindung umfasst das Verfahren, um die aus der Codierung hervorgegangenen Transformationskoeffizienten wiederzugewinnen, einen Schritt, um anhand der in den Rahmen des oder jedes codierten Audiodatenstroms enthaltenen Auswahlparameter den Satz Quantisierer zu bestimmen, der während des Quantisierungsschritts verwendet worden ist, einen Schritt einer teilweisen Decodierung, der darin besteht, den oder jeden codierten digitalen Audiodatenstrom unter Verwendung des auf diese Weise bestimmten Satzes Quantisierer zu decodieren und anschließend zu dequantisieren, um die aus der Codierung hervorgegangenen Transformationskoeffizienten wiederzugewinnen, und einen Schritt zur Bearbeitung der auf diese Weise wiedergewonnenen Transformationskoeffizienten im Frequenzbereich, um sie an einen nachfolgenden Schritt der Verwendung der verarbeiteten Rahmen zu liefern.
Gemäß einer ersten Ausführungsform besteht der nachfolgende Verwendungsschritt darin, die so bearbeiteten Rahmen in einem Schritt der Umquantisierung und Umcodierung der so bearbeiteten Transformationskoeffizienten teilweise umzucodieren.
Gemäß einem weiteren Merkmal der Erfindung besteht die Bearbeitung darin, die Transformationskoeffizienten, die aus der teilweisen Decodierung jedes der Rahmenströme hervorgegangen sind, zu summieren und das Ergebnis der Summation an den Umcodierungsschritt zu liefern.
Außerdem betrifft die vorliegende Erfindung ein Verfahren, wie es soeben beschrieben worden ist, das jedoch dafür vorgesehen ist, in einem Fernsprechkonferenzsystem mit mehreren Endeinrichtungen durchgeführt zu werden. Die Bearbeitung besteht dann darin, die Transformationskoeffizien ten, die jeweils aus den teilweisen Decodierungen der Rahmenströme von den Endeinrichtungen hervorgegangen sind, zu summieren und an den Schritt der Umcodierung, die einer Endeinrichtung zugeordnet ist, das Ergebnis der Summation zu liefern, wovon die Transformationskoeffizienten, die aus der teilweisen Decodierung der Rahmenströme von der Endeinrichtung hervorgegangen sind, subtrahiert werden.
Gemäß einer weiteren Ausführungsform der Erfindung ist das Verfahren der vorliegenden Erfindung dadurch gekennzeichnet, dass der nachfolgende Verwendungsschritt ein Schritt der Transformation aus dem Frequenzbereich in den Zeitbereich mit dem Ziel der Wiedergabe des Tonsignals ist. Ein derartiges Verfahren wird beispielsweise in einem Fernsprechkonferenzsystem mit mehreren Endeinrichtungen durchgeführt. Es ist dann dadurch gekennzeichnet, dass die Bearbeitung darin besteht, die Transformationskoeffizienten, die jeweils aus den teilweisen Decodierungen der von den Endeinrichtungen kommenden Rahmenströme hervorgegangen sind, zu summieren.
Gemäß einem weiteren Merkmal der Erfindung werden die Werte der Parameter für die Auswahl des Satzes Quantisierer ebenfalls der Bearbeitung unterworfen.
Wenn die Auswahlparameter für den Satz Quantisierer, die in den Audiodatenrahmen des Stroms oder jedes Stroms enthalten sind, Energiewerte der Tonsignale in im Voraus festgelegten Frequenzbändern sind, wobei die Gesamtheit als spektrale Einhüllende bezeichnet wird, besteht die Bearbeitung beispielsweise darin, die Transformationskoeffizienten, die aus der teilweisen Decodierung jedes Rahmenstroms hervorgegangen sind, zu summieren und das Ergebnis der Summation an den Umcodierungsschritt zu liefern und anschließend die Gesamtenergie in jedem Frequenzband durch Summieren der Energien der Rahmen zu bestimmen und das Ergebnis der Summation an den Umcodierungsschritt zu liefern.
Ein derartiges Verfahren, das in einem Fernsprechkonferenzsystem mit mehreren Endeinrichtung durchgeführt wird, ist dadurch gekennzeichnet, dass die Bearbeitung darin besteht, die Transformationskoeffizienten, die aus der teilweisen Codierung jedes der Rahmenströme hervorgegangen sind, die jeweils von den Endeinrichtungen stammen, zu summieren und an den Schritt der Umcodierung, die einer Endeinrichtung zugeordnet ist, das Ergebnis der Summation zu liefern, wovon die Transformationskoeffizienten, die aus der teilweisen Decodierung des von der Endeinrichtung kommenden Datenstroms hervorgegangen sind, subtrahiert werden, und dass sie darin besteht, die Gesamtenergie in jedem Frequenzband durch Summieren der Energien der von den Endeinrichtungen kommenden Rahmen zu bestimmen und an den Schritt der einer Endeinrichtung zugeordneten Umcodierung das Ergebnis der Summation zu liefern, wovon die Energie, die aus dem Rahmen hervorgegangen ist, der von der Endeinrichtung kommt, subtrahiert wird.
Gemäß einem weiteren Merkmal der Erfindung, wobei die Audiodatenrahmen des Stroms oder jedes Stroms eine Information zum Stimmhaftmachen des entsprechenden Tonsignals enthalten, bestimmt dann die Bearbeitung die Information zum Stimmhaftmachen des Tonsignals, das durch die Bearbeitung entsteht. Um diese Information zum Stimmhaftmachen des aus der Bearbeitung resultierenden Tonsignals zu bestimmen, kann das Verfahren beispielsweise darin bestehen, falls alle Rahmen aller Ströme den gleichen Zustand der Stimmhaftigkeit aufweisen, diesen Zustand der Stimmhaftigkeit als den aus der Bearbeitung resultierenden Zustand des Tonsignals anzusehen und andernfalls die Gesamtenergie der Gesamtheit der Tonsignale der Obertöne aufweisenden Rahmen zu bestimmen und die Energie der Gesamtheit der Tonsignale der keine Obertöne aufweisenden Rahmen zu bestimmen, dann den Zustand der Stimmhaftigkeit der Gesamtheit zu betrachten, deren Energie die Größe wie im Zustand der Stimmhaftigkeit des aus der Bearbeitung entstehenden Tonsignals hat.
Wenn die Audiodatenrahmen des Stroms oder jedes Stroms eine Information über den Klangcharakter des entsprechenden Tonsignals enthalten, kann die Bearbeitung, wenn alle Rahmen von der gleichen Art sind, die Information über den Klangcharakter aus dem aus der Bearbeitung resultierenden Tonsignal als Zustand der Signale der Rahmen bestimmen.
Gemäß einem weiteren Merkmal der Erfindung besteht das Verfahren darin, unter allen zu bearbeitenden Rahmen jenen zu suchen, der in einem gegebenen Band die maximale Energie aufweist, und die Koeffizienten des Ausgangsrahmens an den Koeffizienten des Rahmens in dem Band anzugleichen, wenn die Koeffizienten der Eingangsrahmen, die von jenem, der die maximale Energie in einem vorgegebenen Band aufweist, verschieden sind, durch die Mithörschwelle des Rahmens in dem Band verdeckt sind. Die Energien des Ausgangsrahmens in dem Band werden beispielsweise an die Maximalenergie des Eingangsrahmens in dem Band angeglichen.
Gemäß einem weiteren Merkmal der Erfindung ist, wenn der Schritt der Umquantisierung eine Vektorquantisierung mit größenverschachtelten Wörterbüchern ist, das Codewort des Bands am Ausgang gleich dem Codewort des Bands am Eingang, wenn das entsprechende Wörterbuch am Eingang des Bands in dem ausgewählten Wörterbuch am Ausgang enthalten ist, oder im gegenteiligen Fall, wenn das Ausgangswörterbuch in dem Eingangswörterbuch enthalten ist, aber der quantisierte Vektor, Element des Eingangswörterbuchs, auch ein Element des Ausgangswörterbuchs ist, andernfalls wird das Umkehrverfahren der Quantisierung und anschließend die Umquantisierung in dem Ausgangswörterbuch ausgeführt.
Beispielsweise ist der Schritt der Umquantisierung eine Vektorquantisierung mit größenverschachtelten Wörterbü chern, wobei die Wörterbücher aus einer Vereinigung von Permutationscodes zusammengestellt sind. Wenn dann das entsprechende Wörterbuch am Eingang des Bands in dem ausgewählten Wörterbuch am Ausgang enthalten ist, oder im gegenteiligen Fall, wenn das Ausgangswörterbuch in dem Eingangswörterbuch enthalten ist, aber der quantisierte Vektor, Element des Eingangswörterbuchs, außerdem ein Element des Ausgangswörterbuchs ist, ist das Codewort des Bands am Ausgang dem Codewort des Band am Eingang gleich, andernfalls werden das Umkehrverfahren der Quantisierung und dann die Umquantisierung in dem Ausgangswörterbuch ausgeführt, wobei das Umquantisierungsverfahren vorteilhaft dadurch beschleunigt wird, dass der nächste Nachbar des führenden Elements eines Vektors des Eingangswörterbuchs ein führendes Element des Ausgangswörterbuchs ist.
Die oben erwähnten sowie weitere Merkmale der Erfindung werden deutlicher beim Lesen der folgenden Beschreibung eines Ausführungsbeispiels, wobei die Beschreibung auf die beigefügte Zeichnung Bezug nimmt, worin
1 ein Übersichtsschema eines Fernsprechkonferenzsystems mit zentralisierter Architektur ist, das so beschaffen ist, dass es ein Verfahren gemäß der vorliegenden Erfindung ausführt;
2 ein Übersichtsschema einer Einheit zur Codierung im Frequenzbereich ist, die die psychoakustischen Eigenschaften des menschlichen Gehörs ausnutzt;
3 ein Übersichtsschema einer Codiereinheit ist, die in einer Quelle für codierte Audio- bzw. Tonsignale wie etwa einer Endeinrichtung eines Fernsprechkonferenzsystems verwendet wird;
4 ein Übersichtsschema einer Einheit für eine teilweise Codierung ist, die für die Durchführung eines Verfah rens gemäß der vorliegenden Erfindung verwendet wird;
5 ein Übersichtsschema einer Einheit für eine teilweise Umcodierung ist, die für die Durchführung eines Verfahrens gemäß der vorliegenden Erfindung verwendet wird;
6 ein Übersichtsschema einer Verarbeitungseinheit ist, die so beschaffen ist, dass sie das Verfahren der vorliegenden Erfindung ausführt; und
7 ein Übersichtsschema eines Fernsprechkonferenzsystems mit vermaschter Architektur ist, das ein Verfahren gemäß der vorliegenden Erfindung ausführt.
Das in 1 gezeigte Fernsprechkonferenzsystem ist im Wesentlichen aus N Endeinrichtungen 10₁ bis 10_N gebildet, die jeweils mit einer Mehrpunkt-Steuereinheit (MCU: Multipoint Control Unit (engl.)) verbunden sind.
Genauer ist jede Endeinrichtung 10 aus einem Codierer 11 gebildet, dessen Eingang die an die anderen Endeinrichtungen zu übertragenden Audiodaten empfängt und dessen Ausgang mit einem Eingang der Mehrpunkt-Steuereinheit 20 verbunden ist. Jede Endeinrichtung 10 umfasst außerdem einen Decodierer 12, dessen Eingang mit einem Ausgang der Mehrpunkt-Steuereinheit 20 verbunden ist und dessen Ausgang die Daten ausgibt, die von den übrigen Endeinrichtungen zu der betrachteten Endeinrichtung übertragen werden.
Im Allgemeinen ist der Codierer 11, wie etwa jener, der in 2 gezeigt ist, vom Frequenzwahrnehmungstyp. Er umfasst dann einerseits eine Einheit 110, die vorgesehen ist, um die Eingangsdaten einer Transformation aus dem Zeitbereich in den Frequenzbereich zu unterwerfen, und andererseits eine Quantisierungs- und Codiereinheit 111, um die Quantisierung und die anschließende Codierung der Koeffizienten, die aus der von der Einheit 110 ausgeführten Transformation hervorgegangenen sind, sicherzustellen.
Im Allgemeinen erfolgt die Quantisierung gemäß einem Satz Quantisierer, wobei jeder Quantisierer beispielsweise von einer bestimmten Anzahl von Werten abhängt, die von der Einheit 112 aus den zu codierenden Signalen gewonnen werden. Diese Werte bilden Auswahlparameter des Satzes Quantisierer.
Schließlich werden die quantisierten und codierten Koeffizienten von der Einheit 113 in Audiodatenrahmen formatiert.
Es wird angemerkt, dass, wie in der Folge zu sehen sein wird, der Codierer 11 auch Daten ausgeben kann, die die Werte betreffen, die Auswahlparameter der Quantisierer bilden. Es wird angemerkt, dass diese Werte die Energien der Tonsignale in festgelegten Frequenzbändern, die eine spektrale Einhüllende der eingehenden Tonsignale bilden, betreffen können.
Der Codierer 11 kann außerdem Daten mit Informationen über ein Stimmhaftmachen und Daten mit Informationen über den Klangcharakter senden.
Hingegen gibt der Codierer 11 im Rahmen der vorliegenden Erfindung keine expliziten Informationen aus, die die Quantisierer betreffen, die von dem von der Einheit 111 ausgeführten Quantisierungs- und Codierungsverfahren benutzt werden.
Was den Decodierer 12 jeder Endeinrichtung 10 anbelangt, so ist er so beschaffen, dass er die Umkehroperationen zu jenen ausführt, die von dem Codierer 11 ausgeführt werden. Er ist folglich so beschaffen, dass er die Koeffizienten, die in den Audiodatenrahmen enthalten sind, die von der Mehrpunkt-Steuereinheit 20 erhalten werden, dequantisiert (Umkehroperation der Quantisierung) und anschließend die Rücktrans formation zu jener ausführt, die von dem Codierer 11 ausgeführt wird, um Daten im Zeitbereich auszugeben. Der Dequantisierungsschritt erfordert die Kenntnis der Quantisierer, die bei dem Quantisierungsverfahren benutzt worden sind, wobei diese Kenntnis durch die Werte der Auswahlparameter, die in dem Rahmen vorliegen, gegeben ist. Außerdem kann er die Informationen über das Stimmhaftmachen und die Informationen über den Klangcharakter der von der Mehrpunkt-Steuereinheit 20 erhaltenen Daten nutzen.
Die in 1 gezeigte Mehrpunkt-Steuereinheit 20 gemäß der vorliegenden Erfindung ist im Wesentlichen aus einer Kombinationseinheit 21 gebildet, die so beschaffen ist, dass sie die an ihren Eingängen anliegenden Signale kombiniert und an den Eingang des Decodierers 12 einer Endeinrichtung 10_m die Summe der Signale, die jeweils von allen Codierern 11 der N Endeinrichtungen ausgegeben werden, ausgenommen das von der Endeinrichtung 10_m kommende Signal, ausgibt.
Genauer umfasst die Mehrpunkt-Steuereinheit 20 noch N Teil-Decodierer 22₁ bis 22_n , die vorgesehen sind, um jeweils die von den Endeinrichtungen 10₁ bis 10_n erzeugten Audiodatenrahmen zu empfangen, um sie zu decodieren und sie so an die Eingänge der Kombinationseinheit 21 zu liefern. Die Mehrpunkt-Steuereinheit 20 umfasst N Umcodierer 23₁ bis 23_n , deren Ausgänge jeweils mit Eingängen der Decodierer 12 der Endeinrichtungen 10₁ bis 10_N verbunden sind und deren Eingänge jeweils mit Ausgängen der Kombinationseinheit 21 verbunden sind.
Gemäß der Erfindung ist die Decodierung, die von jedem Decodierer 22 ausgeführt wird, eine teilweise Decodierung, die im Wesentlichen darin besteht, die wesentlichen Informationen, die in den Audiodatenrahmen enthalten sind, die an seinem Eingang anliegen, zu gewinnen und so die Koeffizienten der Transformation in den Frequenzbereich auszugeben.
Eventuell gibt jeder Decodierer 22 auch die Gesamtheit der Parameterwerte für die Auswahl des Quantisierers wie etwa die spektrale Einhüllende sowie die Informationen über das Stimmhaftmachen und den Klangcharakter an die Kombinationseinheit 21 aus.
Zur Vereinfachung wird im weiteren Verlauf der Beschreibung nur die spektrale Einhüllende betrachtet, wobei jedoch klar ist, dass die vorliegende Erfindung auch auf jeden Typ einer Gesamtheit von Parameterwerten, der ermöglicht, die Quantisierer auszuwählen, die zu benutzen sind oder die von dem betreffenden Verfahren benutzt worden sind, Anwendung findet.
In 1 ist mit
der Transformationskoeffizient vom Rang k des Rahmens, der an dem mit der Endeinrichtung 10_m verbundenen Eingang E_m anliegt, mit
die Energie des Audio- bzw. Tonsignals, das dem Rahmen entspricht, der über dem Eingang E_m in dem Frequenzband mit dem Index j anliegt, mit
die Information über das Stimmhaftmachen dieses Signals und mit
die Information über den Klangcharakter ebenfalls dieses Signals bezeichnet. In der Folge wird die Gesamtheit der Energien
für alle Bänder j mit j von 1 bis M, wobei M die Gesamtzahl der Bänder ist, als „spektrale Einhüllende" bezeichnet. Sie wird als {e(j)} geschrieben.
Es wird angemerkt, dass im Stand der Technik die Decodierer 22 vorgesehen wurden, um die von den Endeinrichtungen 10₁ bis 10_n kommenden Audiodatenrahmen zu decodieren und um sie zu bearbeiten, um die Synthese eines zeitlichen Signals zu verwirklichen, das dann im Zeitbereich von der Kombinationseinheit 21 verarbeitet wurde, was gemäß der vorliegenden Erfindung nicht der Fall ist, da die von der Einheit 21 ausgeführte Verarbeitung im Frequenzbereich verwirklicht wird. Die Kombinationseinheit 21 führt nämlich die Rekombi nation der von den Decodierern 22₁ bis 22_N kommenden dequantisierten Rahmen aus, indem sie alle Transformationskoeffizienten
mit i ≠ m summiert und über jeden Ausgang S_m die neuen dequantisierten Koeffizienten
ausgibt, deren Wert durch die folgende Relation gegeben ist:
Wenn der Audiodatenrahmen, der von den Decodierern 22₁ bis 22_N ausgegeben wird, ein Signal der spektralen Einhüllenden {e(j)} enthält, berechnet die Kombinationseinheit 21 für jeden Ausgang S_m ein neues Signal der spektralen Einhüllenden
indem sie die Energie
für jedes Band j unter Verwendung der folgenden Relation
neu berechnet.
Gegebenenfalls bestimmt die Kombinationseinheit 21 die Parameter, die für die Auswahl des Typs der Codierung und der Eigenschaften der Quantisierung der spektralen Einhüllenden
verwendet werden.
Außerdem werden die Stimmhaftigkeit/Stimmlosigkeit und der tonale/nicht tonale Charakter des über jeden Ausgang S_m zu liefernden Rahmens anhand der Stimmhaftigkeit und der Energie der Signale bestimmt, die den an den Eingängen E₁ bis E_N anliegenden Rahmen entsprechen, die verwendet worden sind, um ihn zu konstruieren.
Was die Umcodierer 23₁ bis 23_N betrifft, so gehen sie umgekehrt zu den Teil-Decodierern 22₁ bis 22_N vor, wobei sie gegebenenfalls die neue Übertragungsgeschwindigkeit DS_m berücksichtigen, die für den betrachteten Pfad m erforderlich ist.
In 3 ist ein Codierer 30 des Typs gezeigt, der mit dem System der vorliegenden Erfindung als Codierer 11 einer Endeinrichtung 10 benutzt werden könnte. Es ist selbstverständlich, dass die vorliegende Erfindung nicht auf diesen Codierertyp beschränkt ist, sondern dass jeder Audiocodierertyp, der im Stande ist, Transformationskoeffizienten und Parameter für die Auswahl der Quantisierer auszugeben, geeignet sein könnte, wie etwa der von der internationalen Fernmeldeunion (ITU) unter der Bezeichnung „G-722.1" genormte Codierer oder jener, der von der internationalen Organisation für Normung (ISO) unter der Bezeichnung "MPEG-4 AAC" genormt worden ist. Die folgende Beschreibung stellt lediglich ein Ausführungsbeispiel dar.
Die am Eingang dieses Codierers 30 anliegenden Rahmen x(n) sind zunächst Gegenstand einer Transformation aus dem Zeitbereich in den Frequenzbereich, etwa einer modifizierten diskreten Cosinus-Transformation, in einer Einheit 31, die so beschaffen ist, dass sie die Koeffizienten dieser Transformation y(k) ausgibt. Der Codierer 30 umfasst außerdem eine Stimmhaftigkeits-Erfassungseinrichtung, die ermittelt, ob das Eingangssignal stimmhaft ist oder nicht, und eine digitale Stimmhaftigkeitsinformation ν ausgibt. Er umfasst außerdem eine Klangcharakter-Erfassungseinrichtung 33, die anhand der der von der Einheit 31 ausgegebenen Transformationskoeffizienten abschätzt, ob das Eingangssignal x(n) tonal ist oder nicht, und eine digitale Klangcharakter-Information t ausgibt. Außerdem umfasst er eine Maskierungseinheit 34, die auf der Grundlage der von der Einheit 31 ausgegebenen Transformationskoeffizienten, je nach ihrem Wert, der mit einem im Voraus festgelegten Schwellenwert verglichen wird, eine Maskierungsinformation ausgibt oder nicht.
Auf der Grundlage dieser Maskierungsinformation, die von der Einheit 34 ausgegeben wird, aber auch auf der Grundlage des Stimmhaftigkeitssignals ν und des Klangcharaktersignals t bestimmt eine Einheit 35 die Energie e(j) in jedem Band j einer Vielzahl von Bändern (im Allgemeinen einer Anzahl von 32) und gibt quantisiert und codiert ein Signal der spektralen Einhüllenden des laufenden Rahmens aus, der im Folgenden auf Grund der Tatsache, dass er quantisiert ist, mit {e_q(j)} mit j = 1 bis M, wobei M die Gesamtzahl der Bänder ist, bezeichnet wird.
Schließlich wird für die Frequenzbänder, die nicht vollständig maskiert sind, von einer Einheit 36 im Hinblick auf eine Quantisierung der Transformationskoeffizienten, die in einer Quantisierungs- und Codiereinheit 37 erfolgt, eine dynamische Bitzuweisung vorgenommen.
Es wird angemerkt, dass die Bitzuweisungseinheit 36 die von der Einheit 35 ausgegebene spektrale Einhüllende benutzt.
Die Transformationskoeffizienten werden folglich in der Einheit 37 quantisiert, die dazu sowie zur Verringerung des Dynamikbereichs der Quantisierung die von der Einheit 31 kommenden Koeffizienten, die von der Einheit 34 ausgegebene Maskierungsinformation sowie die von der Einheit 35 ausgegebene spektrale Einhüllende {e_q(j)} und das von der Einheit 36 ausgegebene Bitzuweisungssignal benutzt.
Die quantisierten Transformationskoeffizienten y_q(k), die quantisierte Energie e_q(j) in jedem Band, das Klangcharaktersignal t, das Stimmhaftigkeitssignal ν werden anschließend in einem Multiplexer 38 multiplexiert, um Audiodatenrahmen des codierten Signals zu bilden.
In 4 ist das Blockschema eines Teil-Decodierers 40 gezeigt, etwa desjenigen, der als Decodierer 22 einer Mehrpunkt-Steuereinheit 20 gemäß der Erfindung benutzt wird, für den Fall, dass auf der Ebene der Endeinrichtung ein Codierer, wie etwa jener, der in 3 gezeigt ist, benutzt wird.
Der in 4 gezeigte Teil-Decodierer ist im Wesentlichen aus einem Demultiplexer 41 gebildet, der die Eingangsrahmen demultiplexiert und so die quantisierten Koeffizienten y_q(k), die Energie in jedem der Bänder e_q(j), das Stimmhaftigkeitsinformationssignal ν und das Klangcharakterinformationssignal t ausgibt.
Das Energiesignal e_q(j) in jedem der Bänder wird in einer Einheit 42 decodiert und dequantisiert, die dazu das Stimmhaftigkeitsinformationssignal ν und das Klangcharakterinformationssignal t benutzt. Es wird die Energie e(j) in jedem der Bänder j ausgegeben.
Von einer Einheit 43 wird eine Maskierungskurve pro Band bestimmt, die von einer Einheit 44 zur dynamischen Bitzuweisung benutzt wird, die zudem das Energiesignal e(j) in jedem der Bänder j benutzt, um ein Signal für die dynamische Bitzuweisung an eine Einheit 45 zur inversen Quantisierung auszugeben. Die Einheit 45 zur inversen Quantisierung ist so beschaffen, dass sie jeden der Transformationskoeffizienten y_q(k) dequantisiert und außerdem das Energiesignal e(j) in jedem der entsprechenden Bänder benutzt.
So gibt der Teil-Decodierer für jeden Rahmen an seinem Eingang die Transformationskoeffizienten y(k), die Signale der Energien e(j) in jedem der Bänder, ein Stimmhaftigkeitsinformationssignal ν und ein Klangcharakterinformationssignal t aus.
Die Teil-Decodiereinheit 40 ermöglicht, für jeden Rahmen über den zu kombinierenden Pfad mit dem Index n, die Gesamtheit der K quantisierten Transformationskoeffizienten mit dem Index
mit k = 1 bis K, die Gesamtheit
der quantisierten Werte der Energien in den M Bändern j mit j = 1 bis M, die Klangcharakterinformation
und die Stimmhaftigkeitsinformation
zu verfügen.
Die Kombinationseinheit 20 hat zur Aufgabe, für eine Eingabe mit dem Index n die übrigen N-1 Eingaben zu kombinieren und am Ausgang mit dem Index n das aus dieser Kombination resultierende Signal auszugeben.
Genauer ist das Kombinationsverfahren, das von der Kombinationseinheit 21 ausgeführt wird, vorteilhaft folgendes:
Zuerst werden die Zwischenvariablen bestimmt, die der Summe der Transformationskoeffizienten mit dem Index
für alle Eingangsgrößen E_n und der Summe der Energien e^En(j) der quantisierten Werte der Energien in jedem Band j für alle Eingangsgrößen E_n entsprechen, mit
Dann werden die jedem Ausgangspfad S_m entsprechenden Werte abgeleitet, indem von den Zwischenvariablen y(k) und e(j) die Eingangssignale des Eingangs mit dem Index m subtrahiert werden:
Es wird angemerkt, dass die Anzahl der Bänder M sowie die Anzahl K der Transformationskoeffizienten, die bei den oben angegebenen Berechnungen benutzt werden, von der Übertragungsgeschwindigkeit des betrachteten Ausgangspfads abhängen. So ist beispielsweise, wenn die Übertragungsgeschwindigkeit für einen Pfad 16 kbits/s beträgt, die Anzahl der Bänder M = 26 statt 32.
Die Kombinationseinheit 21 führt außerdem die Bestimmung der Stimmhaftigkeit
des Rahmens über jedem Ausgang S_m aus. Dazu stützt sie sich auf den Zustand der Stimmhaftigkeit
der Rahmen der N-1 Eingänge mit den Indizes n (n ≠ m) sowie auf ihre Energie
Wenn alle Rahmen über den Eingangspfaden mit den Indizes n (n ≠ m) von der gleichen Art sind (Obertöne aufweisend oder keine Obertöne aufweisend), wird folglich der Rahmen über dem Ausgangspfad mit dem Index m als im gleichen Zustand angesehen. Wenn hingegen diese Eingangsrahmen nicht von der gleichen Art sind, dann werden die Gesamtenergie der Obertöne aufweisenden Rahmen sowie die Gesamtenergie der keine Obertöne aufweisenden Rahmen unabhängig voneinander berechnet. Dann ist der Zustand des Rahmens des Ausgangs mit dem Index m der gleiche wie jener der Gruppe von Rahmen, deren auf diese Weise berechnete Gesamtenergie am größten ist.
Es wird angemerkt, dass die Berechnung der Energie jedes Eingangsrahmens durch ein einfaches Kombinieren der Energien seiner Bänder, die aus der decodierten spektralen Einhüllenden gewonnen werden, erfolgt.
Außerdem führt die Kombinationseinheit 20 die Bestimmung des Klangcharakters
des Rahmens über jedem Ausgang S_m aus, wenn alle Eingangsrahmen mit dem Index n, die zur Berechnung des Rahmens über dem Ausgangspfad mit dem Index m beitragen, von der gleichen Art sind. In diesem besonderen Fall nimmt der Ausgangsrahmen mit dem Index m den gleichen Klangcharakterzustand an. Andernfalls wird die Bestimmung des Klangcharakters auf die Phase der teilweisen Umcodierung verschoben.
In 5 ist das Blockschema einer Einheit 50 zur teilweisen Umcodierung gezeigt, die in dem Anwendungsfall als Codierer 11 einer Endeinrichtung, nämlich als ein solcher Codierer, wie er in 3 gezeigt ist, verwendet wird.
Der in 5 gezeigte Teil-Umcodierer 50 ist so beschaffen, dass er an jedem Ausgang S_m der Kombinationseinheit 20 Transformationskoeffizienten
Energiesignale
in den Bändern j, ein Klangcharakterinformationssignal
und ein Stimmhaftigkeitsinformationssignal
ausgibt.
Die Neuberechnung des Klangcharakterinformationssignals
über dem Ausgang mit dem Index m erfolgt mittels einer Einheit 51, die über einen ersten Eingang das Klangcharakterinformationssignal
des Ausgangs mit dem Index m empfängt, wenn das Signal von der Kombinationseinheit 20 erfasst worden ist, und über einen zweiten Eingang alle Transformationskoeffizienten
für eine erneute Berechnung empfängt, wenn die Kombinationseinheit 20 sie nicht durchgeführt hat.
Das von der Einheit 51 kommende Klangcharakterinformationssignal
wird an einen Eingang eines Multiplexers 52 abgegeben. Außerdem wird es an eine Einheit 53 zur Codierung der spektralen Einhüllenden abgegeben, die außerdem das Stimmhaftigkeitssignal
über dem Ausgang S_m der Einheit 20 benutzt, um die Energien in allen betrachteten Bändern
zu codieren und zu quantisieren. Die quantisierten Energiesignale
werden an einen Eingang des Multiplexers 52 abgegeben.
Außerdem werden die (nicht quantisierten) Energiesignale
von einer Einheit 54 zur Bestimmung der Maskierungskurven genutzt, die für jedes Band j Maskierungssignale an eine dynamisch zuweisende Einheit 55 sowie an eine Maskierungseinheit 56 liefert.
Die Einheit 55 zur dynamischen Bitzuweisung empfängt außerdem die quantisierten Energiesignale
und bestimmt die Bitanzahl, die von einer Umquantisierungseinheit 57 benutzt wird, um die Transformationskoeffizienten
die von der Maskierungseinheit 56 nicht maskiert worden sind, zu quantisieren und um die Signale der quantisierten Transformationskoeffizienten
an den Multiplexer 52 abzugeben.
Die Umquantisierungseinheit 57 benutzt außerdem die quantisierten Energiesignale
in den Bändern j.
Der Multiplexer 52 ist so beschaffen, dass er die Gesamtheit dieser Signale in Form eines Ausgangsrahmens ausgibt.
Um die Komplexität, die auf den Vorgang der inversen Vektorquantisierung, der von der Einheit 45 jedes Decodierers 40 ausgeführt wird, und die anschließende Umquantisierung der Bänder bei Betrieb des Umcodieres 50, insbesondere der Einheit 57 des Umcodierers 50, zurückzuführen ist, zu verringern, benutzt das Verfahren der vorliegenden Erfindung eine Methode der Zwischensignalmaskierung in den Bändern j, um nach Möglichkeit nur die Koeffizienten und die Energie eines einzigen Eingangssignals in einem gegebenen Band zu bewahren. So wird für die Bestimmung des Signals über dem Band j , j = 1 bis M, des über dem Ausgang mit dem Index m anliegenden Rahmens zunächst unter allen Eingangsrahmen n ≠ m jener gesucht, der die maximale Energie
in dem Band j besitzt:
Anschließend wird getestet, ob die Koeffizienten der Rahmen
des Eingangs n ≠ m und n ≠ n₀ in dem Band j alle mittels der Maskierungsschwelle
des Rahmens n₀ in dem Band j maskiert sind. Es wird angemerkt, dass diese Schwelle
während der Phase der teilweisen Decodierung bestimmt worden ist, die von der Einheit 44 des Decodierers 40 ausgeführt worden ist.
Wenn die Koeffizienten
mittels der Schwelle
maskiert sind, d.h.
wenn
∀ n ≠ m, n₀ und ∀ k ∈ Band (j), dann sind folglich die Koeffizienten der Ausgangsrahmen
sind dem Koeffizienten
des Rahmens des Eingangs n₀, nämlich:
für k ∈ Band (j)
Genauso sind in diesem Fall die Energien
der Ausgangsrahmen in dem betrachteten Band j gleich der Maximalenergie
nämlich:
Die Koeffizienten der auf diese Weise berechneten Bänder des Ausgangsrahmens m werden während der Phase der teilweisen Umcodierung nicht einem Verfahren zu inversen Quantisierung/vollständigen Umquantisierung unterworfen.
Wenn die oben angegebene Bedingung nicht erfüllt ist, sind die Terme
durch die vorhergehenden Gleichungen gegeben.
Wenn eine Quantisierung vom algebraischen Vektortyp benutzt wird, um die Transformationskoeffizienten umzuquantisieren, stellt das Codewort m_i, das für jedes Band i des Eingangsrahmens übertragen wird, den Index des quantisierten Vektors in einem Wörterbuch, mit C(b_i,d_i) bezeichnet, von quantisierten Führungsvektoren mit der Bitzahl b_i und der Dimension d_i dar. Aus diesem Codewort m_i kann man den Vektor der Vorzeichen sign(i), in dem Wörterbuch C(b_i, d_i) die Nummer L_i des quantisierten Führungsvektors, der dem benachbarten Führungsvektor Ỹ(i) am nächsten ist, und r_i des quantisierten Vektors Yq(i) in der Klasse des Führungsvektors Ỹq(i) gewinnen.
Das Umcodieren über dem Band i, um das Ausgangscodewort m_i' zu erhalten, geschieht dann wie folgt:
Man decodiert das Codewort m_i des Bands i und gewinnt die Nummer L_i des quantisierten Führungsvektors Ỹq(i), den Rang r_i und das Vorzeichen sign(i). Je nach der Anzahl der Bits b_i und b_i', die dem Band i am Eingang bzw. am Ausgang zugewiesen sind, sowie nach der Position des eingehenden quantisierten Führungsvektors sind in Bezug auf das neue Wör terbuch C (b'_i, d_i) zwei Fälle zu betrachten.
Wenn die Bitanzahl am Ausgang b'_i größer oder gleich der Bitanzahl am Eingang b_i ist, dann ist das Codewort m'_i des Ausgangsrahmens jenem des Eingangsrahmens m_i gleich. Das Gleiche gilt, wenn die Bitanzahl am Ausgang b'_i kleiner als die Bitanzahl am Eingang b_i ist, aber gleichzeitig die Nummer L_i des quantisierten Führungsvektors Ỹq(i) kleiner oder gleich der Kardinalzahl NL(b'_i,d_i) des für die Quantisierung des Ausgangsrahmens verwendeten Wörterbuches ist.
Folglich gilt:
Wenn (b'_i ≥ b_i) oder (b'_i < b_i und L_i ≤ NL (b'_i, d_i)), dann ist m'_i = m_i
In allen anderen Fällen decodiert man den Rahmen, um perm(i) (der Bestimmung von Yq(i) äquivalent) aus der Nummer L_i und dem Rang r_i wiederzugewinnen. Dieser Schritt kann schon bei der Operation der teilweisen Decodierung durchgeführt worden sein.
Man sucht dann in dem Wörterbuch C(b'_i,d_i) den Vektor Ỹ'q(i) , der Ỹq(i) am nächsten ist, wobei L'_i seine Nummer ist.
Anschließend wird der Rang r'_i von Y'q(i), dem neuen quantisierten Vektor von Y(i), in der Klasse des führenden Elements Ỹ'q(i) unter Verwendung von perm(i) gesucht. Danach wird das Codewort m'_i des Bands i des Ausgangsrahmens anhand der Nummer L'_i, des Ranges r'_i und des Vorzeichens sign(i) gesucht.
Außerdem findet die vorliegende Erfindung in jedem Verfahren zur Verarbeitung von digitalen Tonsignalen Anwendung.
In 6 ist ein Übersichtsschema einer derartigen Anwendung gezeigt.
Die codierten Signale, die von einer Endeinrichtung wie etwa einer Endeinrichtung 10 (siehe 1) kommen, werden in einer Einheit 60 einer teilweisen Decodierung unterzogen, wie etwa jener, die in einer Decodiereinheit 40 (siehe auch 4) ausgeführt wird. Die auf diese Weise teilweise decodierten Signale werden dann in einer Einheit 61 einer besonderen anzuwendenden Verarbeitung unterzogen.
Schließlich werden sie nach einer Bearbeitung in einer Einheit 62, die vom Typ der Einheit 50 ist, die in 5 gezeigt ist, umcodiert.
Beispielsweise ist die besondere Bearbeitung, von der hier die Rede ist, eine Audiocodeumsetzung, um die codierten Ton- bzw. Audiosignale mit einer ersten Datenrate (von beispielsweise 24 kbits/s) auf eine zweite Datenrate (beispielsweise 16 kbits/s) umzusetzen. In diesem besonderen Fall besteht die Verarbeitung, die in der Einheit 61 ausgeführt wird, im Wesentlichen aus einer neuen Zuweisung der Bits auf der Grundlage der zur Verfügung stehenden, zweiten Datenrate. Es wird angemerkt, dass in diesem Fall der Rahmen am Ausgang der Einheit 62 die gleichen Nebeninformationen zum Klancharakter, zum Stimmhaftmachen und zur codierten spektralen Einhüllenden wie der Rahmen, der am Eingang. der Einheit 60 vorlieg, aufweist.
In 7 ist das Übersichtsschema einer Fernsprechkonferenzendeinrichtung vermaschter Architektur gezeigt. Es umfasst genau so viele Teil-Codierer 70 wie Eingänge für die Rahmen, die von anderen Endeinrichtungen kommen. Diese Teil-Codierer 70 besitzen Ausgänge, die jeweils mit den Eingängen einer Kombinationseinheit 71 verbunden sind, welche dann einen summierten Rahmen im Frequenzbereich liefert. Die Transformation dieses Rahmens in den Zeitbereich erfolgt dann durch eine Einheit 72, die ein digitales Ton- bzw. Audiosignal ausgibt.

Claims

Verfahren für die Ausführung einer Bearbeitung wenigstens eines codierten digitalen Audiodatenstroms, der in Form von Rahmen organisiert ist, die aus digitalen Tonsignalen gebildet sind, die von wenigstens einer Audio-Endeinrichtung codiert worden sind, um die bearbeiteten Rahmen einem nachfolgenden Verwendungsschritt zu übergeben, wobei die Codierung der digitalen Tonsignale zunächst die Transformation der digitalen Tonsignale aus dem Zeitbereich in den Frequenzbereich umfasst, um die Transformationskoeffizienten zu berechnen, und dann einen Schritt der Quantisierung und Codierung der Transformationskoeffizienten gemäß einem Satz Quantisierer umfasst, wobei die Rahmen die auf diese Weise codierten Transformationskoeffizienten enthalten, dadurch gekennzeichnet, dass – der Satz Quantisierer anhand von Auswahlparametern bestimmt wird, die aus den digitalen Tonsignalen gewonnen werden, wobei die Rahmen außerdem die Auswahlparameter enthalten, und dass das Verfahren für wenigstens einen Audiodatenstrom, der von einer Endeinrichtung empfangen wird, die folgenden Schritte umfasst: – Gewinnen der Auswahlparameter aus den Rahmen des Audiodatenstroms und anhand der Auswahlparameter Bestimmen des Satzes Quantisierer, die während des von der Endeinrichtung durchgeführten Quantisierungsschritts verwendet wurden, – teilweises Decodieren und Dequantisieren der Rahmen unter Verwendung des im vorhergehenden Schritt ermittelten Satzes Quantisierer, um die dequantisierten Werte der Transformationskoeffizienten, die von der Endeinrichtung berechnet wurden, abzudecken, – Anwenden der eigentlichen Bearbeitung im Frequenzbereich auf die dequantisierten Transformationskoeffizienten, die im vorhergehenden Schritt erhalten worden sind, um bearbeitete Rahmen zu erzeugen, – Übergeben der bearbeiteten Rahmen an den nachfolgenden Verwendungsschritt.
Verfahren für die Ausführung einer Bearbeitung wenigstens eines codierten digitalen Audiodatenstroms nach Anspruch 1, dadurch gekennzeichnet, dass der nachfolgende Verwendungsschritt umfasst, die so bearbeiteten Rahmen in einem Schritt der Umquantisierung und Umcodierung der so bearbeiteten Transformationskoeffizienten teilweise umzucodieren.
Verfahren für die Ausführung einer Bearbeitung wenigstens eines codierten digitalen Audiodatenstroms nach Anspruch 2, dadurch gekennzeichnet, dass die Bearbeitung umfasst, die Transformationskoeffizienten, die aus der teilweisen Decodierung der Rahmen hervorgegangen sind, die Rahmenströmen angehören, die von mehreren Audio-Endeinrichtungen erzeugt sind, zu summieren und das Ergebnis der Summation an den Umcodierungsschritt zu liefern.
Verfahren für die Ausführung einer Bearbeitung wenigstens eines codierten digitalen Audiodatenstroms nach Anspruch 3, das dafür bestimmt ist, in einem Fernsprechkonferenzsystem mit mehreren Endeinrichtungen benutzt zu werden, dadurch gekennzeichnet, dass die Bearbeitung umfasst, die dequantisierten Transformationskoeffizienten, die durch den Schritt der teilweisen Decodierung der Rahmen erhalten worden sind, die Rahmenströmen angehören, die von mehreren Audio-Endeinrichtungen kommen, zu summieren, von den summierten Koeffizienten die dequantisierten Transformationskoeffizienten, die aus der teilweisen Decodierung des Rahmenstroms hervorgegangen sind, der von einer der Audio-Endeinrichtungen kommt, zu subtrahieren und das auf diese weise erhaltene Ergebnis an den nachfolgenden Verwendungsschritt, der die Audio-Endeinrichtung betrifft, zu liefern.
Verfahren für die Ausführung einer Bearbeitung wenigstens eines codierten digitalen Audiodatenstroms nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass der nachfolgende Verwendungsschritt ein Schritt der Transformation aus dem Frequenzbereich in den Zeitbereich mit dem Ziel der Wiedergabe des Tonsignals ist.
Verfahren für die Ausführung einer Bearbeitung wenigstens eines codierten digitalen Audiodatenstroms nach Anspruch 5, das dazu bestimmt ist, in einem Fernsprechkonferenzsystem mit mehreren Endeinrichtungen benutzt zu werden, dadurch gekennzeichnet, dass die Bearbeitung umfasst, die Transformationskoeffizienten, die jeweils aus den teilweisen Decodierungen der von den Endeinrichtungen kommenden Rahmenströme hervorgegangen sind, zu summieren.
Verfahren für die Ausführung einer Bearbeitung wenigstens eines codierten digitalen Audiodatenstroms nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Werte der Parameter für die Auswahl des Satzes Quantisierer ebenfalls der Bearbeitung unterworfen werden.
Verfahren für die Ausführung einer Bearbeitung wenigstens eines codierten digitalen Audiodatenstroms nach Anspruch 7, bei dem die Parameter für die Auswahl des Satzes Quantisierer, die in den Audiodatenrahmen des Stroms oder jedes Stroms enthalten sind, die Gesamtheit der Energiewerte der Tonsignale in im Voraus festgelegten Frequenzbändern sind, wobei die Gesamtheit als spektrale Einhüllende bezeichnet wird, dadurch gekennzeichnet, das die Bearbeitung umfasst, die Transformationskoeffizienten, die aus der teilweisen Decodierung jedes Rahmenstroms hervorgegangen sind, zu summieren und das Ergebnis der Summation an den Schritt der Umcodierung zu liefern, und dass sie umfasst, die Gesamtenergie in jedem Frequenzband durch Summieren der Energien der Rahmen zu bestimmen und das Ergebnis der Summation an den Schritt der Umcodierung zu liefern.
Verfahren für die Ausführung einer Bearbeitung wenigstens eines codierten digitalen Audiodatenstroms nach Anspruch 8, das dafür bestimmt ist, in einem Fernsprechkonferenzsystem mit mehreren Endeinrichtungen benutzt zu werden, dadurch gekennzeichnet, dass die Bearbeitung umfasst, die Transformationskoeffizienten, die aus der teilweisen Codierung jedes der Rahmenströme hervorgegangen sind, die jeweils von den Endeinrichtungen kommen, zu summieren und an den Schritt der einer Endeinrichtung zugeordneten Umcodierung das Ergebnis der Summation zu liefern, von dem die Transformationskoeffizienten, die aus der teilweisen Decodierung des von der Endeinrichtung kommenden Rahmenstroms hervorgegangen sind, subtrahiert werden, und dass sie umfasst, die Gesamtenergie in jedem Frequenzband durch Summieren der Energien der von den Endeinrichtungen kommenden Rahmen zu bestimmen und an den Schritt der einer Endeinrichtung zugeordneten Umcodierung das Ergebnis der Summation zu liefern, von dem die Energie, die aus dem Rahmen hervorgegangen ist, der von der Endeinrichtung kommt, subtrahiert wird.
Verfahren für die Ausführung einer Bearbeitung wenigstens eines codierten digitalen Audiodatenstroms nach einem der vorhergehenden Ansprüche, wobei die Audiodatenrahmen des Stroms oder jedes Stroms eine Information zum Stimmhaftmachen des entsprechenden Tonsignals enthalten, dadurch gekennzeichnet, dass die Bearbeitung die Information zum Stimmhaftmachen des Tonsignals bestimmt, das durch die Bearbeitung entsteht.
Verfahren für die Ausführung einer Bearbeitung wenigstens eines codierten digitalen Audiodatenstroms nach Anspruch 10, dadurch gekennzeichnet, dass es hinsichtlich der Bestimmung der Information zum Stimmhaftmachen des aus der Bearbeitung entstehenden Tonsignals umfasst, wenn alle Rahmen aller Ströme den gleichen Zustand der Stimmhaftigkeit aufweisen, diesen Zustand der Stimmhaftigkeit als Zustand des. durch die Bearbeitung entstehenden Tonsignals zu betrachten, und andernfalls die Gesamtenergie aus der Gesamtheit der Tonsignale der Obertöne aufweisenden Rahmen und die Energie der Gesamtheit der Tonsignale der keine Obertöne aufweisenden Rahmen zu bestimmen, dann den Zustand der Stimmhaftigkeit der Gesamtheit zu betrachten, deren Energie die Größe wie im Zustand der Stimmhaftigkeit- des aus der Bearbeitung entstehenden Tonsignals hat.
Verfahren für die Ausführung einer Bearbeitung wenigstens eines codierten digitalen Audiodatenstroms nach einem der Ansprüche 1 bis 11, bei dem die Audiodatenrahmen des Stroms oder jedes Stroms eine Information über den Klangcharakter des entsprechenden Audiodatensignals enthalten, dadurch gekennzeichnet, dass die Bearbeitung, wenn alle Rahmen von der gleichen Art sind, die Information über den Klang charakter des aus der Bearbeitung entstehenden Tonsignals als Zustand der Signale der Rahmen bestimmt.
Verfahren für die Ausführung einer Bearbeitung wenigstens eines codierten digitalen Audiodatenstroms nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass es umfasst, unter allen zu bearbeitenden Rahmen jenen zu suchen, der in einem gegebenen Band die maximale Energie aufweist, und die Koeffizienten des Ausgangsrahmens an den Koeffizienten des Rahmens in dem Band anzugleichen, wenn die Koeffizienten der Eingangsrahmen, die von jenem, der die maximale Energie in einem vorgegebenen Band aufweist, verschieden sind, durch die Mithörschwelle des Rahmens in dem Band verdeckt sind.
Verfahren für die Ausführung einer Bearbeitung wenigstens eines codierten digitalen Audiodatenstroms nach Anspruch 13, dadurch gekennzeichnet, dass die Energien des Ausgangsrahmens in dem Band an die Maximalenergie des Eingangsrahmens in dem Band angeglichen werden.
Verfahren für die Ausführung einer Bearbeitung wenigstens eines codierten digitalen Audiodatenstroms nach einem der vorhergehenden Ansprüche, wobei der Schritt der Umquantisierung eine Vektorquantisierung mit größenverschachtelten Wörterbüchern ist, dadurch gekennzeichnet, dass, wenn das entsprechende Wörterbuch am Eingang des Bands in dem ausgewählten Wörterbuch am Ausgang enthalten ist, oder im gegenteiligen Fall, wenn das Ausgangswörterbuch in dem Eingangswörterbuch enthalten ist, aber der quantifizierte Vektor, Element des Eingangswörterbuchs, auch ein Element des Ausgangswörterbuchs ist, das Codewort des Bands am Ausgang gleich dem Codewort des Bands am Eingang ist, andernfalls das Umkehrverfahren der Quantisierung und anschließend die Umquantisierung in dem Ausgangswörterbuch ausgeführt wird.
Verfahren für die Ausführung einer Bearbeitung wenigstens eines codierten digitalen Audiodatenstroms nach Anspruch 15, bei dem der Schritt der Umquantisierung eine Vektorquantifizierung mit größenverschachtelten Wörterbüchern ist, wobei die Wörterbücher aus einer Vereinigung von Permutationscodes zusammengestellt sind, dadurch gekennzeichnet, dass, wenn das entsprechende Wörterbuch am Eingang des Bands in dem ausgewählten Wörterbuch am Ausgang enthalten ist, oder im gegenteiligen Fall, wenn das Ausgangswörterbuch in dem Eingangswörterbuch enthalten ist, aber der quantisierte Vektor, Element des Eingangswörterbuchs, außerdem ein Element des Ausgangswörterbuchs ist, das Codewort des Bands am Ausgang dem Codewort des Bands am Eingang gleich ist, andernfalls das Umkehrverfahren der Quantisierung und dann die Umquantisierung in dem Ausgangswörterbuch ausgeführt wird, wobei das Umquantisierungsverfahren vorteilhaft dadurch beschleunigt wird, dass der nächste Nachbar des führenden Elements eines Vektors des Eingangswörterbuchs ein führendes Element des Ausgangswörterbuchs ist.
Vorrichtung für die Ausführung einer Bearbeitung wenigstens eines codierten digitalen Audiodatenstroms, die Mittel umfasst, um jeden der Schritte eines Verfahrens gemäß einem der vorhergehenden Ansprüchen auszuführen.