[go: up one dir, main page]

DE602004010188T2 - Synthese eines mono-audiosignals aus einem mehrkanal-audiosignal - Google Patents

Synthese eines mono-audiosignals aus einem mehrkanal-audiosignal Download PDF

Info

Publication number
DE602004010188T2
DE602004010188T2 DE602004010188T DE602004010188T DE602004010188T2 DE 602004010188 T2 DE602004010188 T2 DE 602004010188T2 DE 602004010188 T DE602004010188 T DE 602004010188T DE 602004010188 T DE602004010188 T DE 602004010188T DE 602004010188 T2 DE602004010188 T2 DE 602004010188T2
Authority
DE
Germany
Prior art keywords
audio signal
multiple channels
frequency band
signal
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE602004010188T
Other languages
English (en)
Other versions
DE602004010188D1 (de
Inventor
Ari Lakaniemi
Pasi Ojala
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Inc
Original Assignee
Nokia Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Inc filed Critical Nokia Inc
Publication of DE602004010188D1 publication Critical patent/DE602004010188D1/de
Application granted granted Critical
Publication of DE602004010188T2 publication Critical patent/DE602004010188T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Description

  • GEBIET DER ERFINDUNG
  • Die Erfindung betrifft ein Verfahren zur Synthese eines Monoaudiosignals, basierend auf einem verfügbaren, kodierten Mehrkanalaudiosignal, wobei das kodierte Mehrkanalaudiosignal zumindest für einen Teil eines Audiofrequenzbands für jeden Kanal des Mehrkanalaudiosignals separate Parameterwerte umfasst. Gleicherweise betrifft die Erfindung einen entsprechenden Audiodecoder, ein entsprechendes Kodierungssystem und ein entsprechendes Softwareprogrammprodukt.
  • HINTERGRUND DER ERFINDUNG
  • Audiokodierungssysteme sind aus dem Stand der Technik wohl bekannt. Sie werden insbesondere zum Übertragen oder Speichern von Audiosignalen verwendet.
  • Ein Audiokodierungssystem, das zur Übertragung von Audiosignalen eingesetzt wird, umfasst einen Codierer auf einer Sendeseite und einen Decoder auf einer Empfangsseite. Die Sendeseite und die Empfangsseite können zum Beispiel mobile Endgeräte sein. Ein zu sendendes Audiosignal wird zum Codierer geliefert. Der Codierer ist dafür zuständig, die ankommende Audiodatenrate auf ein Bitratenniveau anzupassen, bei dem die Bandbreitenbedingungen im Übertragungskanal nicht verletzt werden. Idealerweise verwirft der Codierer bei diesem Kodierprozess nur irrelevante Informationen aus dem Audiosignal. Das kodierte Audiosignal wird dann durch die Sendeseite des Audiokodierungssystems gesendet und an der Empfangsseite des Audiokodierungssystems empfangen. Der Decoder an der Empfangsseite kehrt den Kodierungsprozess um, um ein dekodiertes Audiosignal mit geringer oder keiner hörbaren Verschlechterung zu erlangen.
  • Wird das Audiokodierungssystem zum Archivieren von Audiodaten eingesetzt, werden die kodierten Audiodaten, die durch den Codierer geliefert werden, in einer Speichereinheit gespeichert, und der Decoder dekodiert Audiodaten, die aus dieser Speichereinheit abgerufen werden, zum Beispiel zur Präsentation durch einen Media-Player. Bei dieser Alternative ist es das Ziel, dass der Codierer eine Bitrate erreicht, die so niedrig wie möglich ist, um Speicherplatz zu sparen.
  • Abhängig von der zulässigen Bitrate können unterschiedliche Kodierungsverfahren auf ein Audiosignal angewendet werden.
  • In den meisten Fällen korrelieren ein niedrigeres Frequenzband und ein höheres Frequenzband eines Audiosignals miteinander. Audiocodec-Bandbreitenerweiterungs-Algorithmen teilen daher typischerweise zuerst die Bandbreite des zu kodierenden Audiosignals in zwei Frequenzbänder. Das niedrigere Frequenzband wird dann unabhängig durch einen so genannten Kerncodec verarbeitet, während das höhere Frequenzband unter Verwendung der Kenntnis über die Kodierungsparameter und die Signale aus dem niedrigeren Frequenzband verarbeitet wird. Die Verwendung von Parametern aus der Niederfrequenzband-Kodierung in der Hochfrequenzband-Kodierung reduziert die Bitrate erheblich, die sich bei der Hochbandkodierung ergibt.
  • 1 stellt ein typisches Teilband-Kodierungs- und Dekodierungssystem dar. Das System umfasst einen Audiocodierer 10 und einen Audiodecoder 20. Der Audiocodierer 10 beinhaltet eine Zwei-Band-Analysefilterbank 11, einen Niederbandcodierer 12 und einen Hochbandcodierer 13. Der Audiodecoder 20 beinhaltet einen Niederbanddecoder 21, einen Hochbanddecoder 22 und eine Zwei-Band-Synthesefilterbank 23. Der Niederbandcodierer 12 und -decoder 21 können beispielsweise Codierer und Decoder nach dem "adaptive Multiraten-Breitband" (AMR-WB: Adaptive-Multi-Rate-Wideband) Standard sein, während der Hochbandcodierer 13 und -decoder 22 entweder einen unabhängigen Kodierungsalgorithmus, einen Bandbreitenerweiterungs-Algorithmus oder eine Kombination beider aufweisen können. Als Beispiel wird angenommen, dass das dargestellte System den erweiterten AMR-WB-Codec (AMR-WB+) als Teilband-Kodierungsalgorithmus verwendet.
  • Ein Eingangsaudiosignal 1 wird zuerst durch die Zwei-Band-Analysefilterbank 11 verarbeitet, in der das Audiofrequenzband in ein niedrigeres Frequenzband und ein höheres Frequenzband geteilt wird. Zur Veranschaulichung stellt 2 ein Beispiel einer Frequenzantwort einer Zwei-Band-Filterbank für den Fall von AMR-WB+ dar. Ein 12-kHz-Audioband wird auf ein Band L von 0 kHz bis 6,4 kHz und ein Band H von 6,4 kHz bis 12 kHz aufgeteilt. In der Zwei-Band-Analysefilterbank 11 werden die sich ergebenden Frequenzbänder außerdem kritisch heruntergetaktet. Das heißt, das Niederfrequenzband wird auf 12,8 kHz heruntergetaktet und das Hochfrequenzband wird auf 11,2 kHz neu getaktet.
  • Das Niederfrequenzband und das Hochfrequenzband werden dann unabhängig voneinander durch den Niederbandcodierer 12 bzw. den Hochbandcodierer 13 kodiert.
  • Der Niederbandcodierer 12 umfasst zu diesem Zweck vollständige Quellsignal-Kodierungs-Algorithmen. Die Algorithmen beinhalten einen Algorithmus des ACELP-Typs (Algebraic Code Excitation Linear Prediction) und einen transformationsbasierten Algorithmus. Der tatsächlich eingesetzte Algorithmus wird auf den Signalcharakteristika des jeweiligen Eingangsaudiosignals basierend ausgewählt. Der ACELP-Algorithmus wird typischerweise zur Kodierung von Sprachsignalen und Transienten ausgewählt, während der transformationsbasierte Algorithmus typischerweise zur Kodierung von Musik und tonähnlichen Signalen ausgewählt wird, um die Frequenzauflösung besser zu handhaben.
  • Bei einem AMR-WB+-Codec nutzt der Hochbandcodierer 13 eine lineare Prädiktionskodierung (LPC), um die Spektraleinhüllende des Hochfrequenzbandsignals zu modellieren. Das Hochfrequenzband kann dann mittels LPC-Synthesefilterkoeffizienten, welche die Spektralcharakteristika des synthetisierten Signals definieren, und Verstärkungsfaktoren für ein Erregersignal beschrieben werden, welche die Amplitude des synthetisierten Hochfrequenzband-Audiosignals steuern. Das Hochbanderregersignal wird vom Niederbandcodierer 12 kopiert. Nur die LPC-Koeffizienten und die Verstärkungsfaktoren werden zur Übertragung bereitgestellt.
  • Die Ausgabe des Niederbandcodierers 12 und die des Hochbandcodierers 13 werden zu einem einzelnen Bitstrom 2 gemultiplext.
  • Der gemultiplexte Bitstrom 2 wird beispielsweise durch einen Kommunikationskanal zum Audiodecoder 20 gesendet, in dem das Niederfrequenzband und das Hochfrequenzband getrennt dekodiert werden.
  • Im Niederbanddecoder 21 wird die Verarbeitung im Niederbandcodierer 12 zur Synthese des Niederfrequenzband-Audiosignals umgekehrt.
  • Im Hochbanddecoder 22 wird durch Neutakten einer Niederfrequenzband-Erregung, die durch den Niederbanddecoder 21 geliefert wird, auf die Abtastrate, die im Hochfrequenzband verwendet wird, ein Erregersignal generiert. Das heißt, dass das Niederfrequenzband-Erregersignal zur Dekodierung des Hochfrequenzbands wieder verwendet wird, indem das Niederfrequenzbandsignal auf das Hochfrequenzband transponiert wird. Alternativ könnte zur Rekonstruktion des Hochfrequenzbandsignals ein zufälliges Erregersignal generiert werden. Das Hochfrequenzbandsignal wird dann durch Filtern des skalierten Erregersignals durch das Hochband-LPC-Modell rekonstruiert, das durch die LPC-Koeffizienten definiert ist.
  • In der Zwei-Band-Synthesefilterbank 23 werden die dekodierten Niederfrequenzbandsignale und die Hochfrequenzbandsignale auf die ursprüngliche Abtastfrequenz heraufgetaktet und zu einem synthetisierten Ausgangsaudiosignal 3 kombiniert.
  • Das Eingangsaudiosignal 1, das zu kodieren ist, kann ein Monoaudiosignal oder ein Mehrkanalaudiosignal sein, das zumindest ein erstes und ein zweites Kanalsignal enthält. Ein Beispiel eines Mehrkanalaudiosignals ist ein Stereoaudiosignal, das aus einem Signal eines linken Kanals und einem Signal eines rechten Kanals zusammengesetzt ist.
  • Bei Stereobetrieb eines AMR-WB+-Codecs wird das Eingangsaudiosignal in der Zwei-Band-Analysefilterbank 11 ebenfalls in ein Niederfrequenzbandsignal und ein Hochfrequenzbandsignal geteilt. Der Niederbandcodierer 12 generiert ein Monosignal durch Kombinieren der Signale des linken Kanals und der Signale des rechten Kanals im Niederfrequenzband. Das Monosignal wird wie oben beschrieben kodiert. Darüber hinaus verwendet der Niederbandcodierer 12 zur Kodierung der Differenzen der Signale des linken und der des rechten Kanals zum Monosignal eine parametrische Kodierung. Der Hochbandcodierer 13 kodiert den linken Kanal und den rechten Kanal getrennt durch Bestimmen separater LPC-Koeffizienten und Verstärkungsfaktoren für jeden Kanal.
  • In dem Fall, dass das Eingangsaudiosignal 1 ein Mehrkanalaudiosignal ist, aber das Gerät, dem das synthetisierte Audiosignal 3 präsentiert wird, eine Mehrkanalaudioausgabe nicht unterstützt, muss der ankommende Mehrkanalbitstrom 2 durch den Audiodecoder 20 in ein Monoaudiosignal umgewandelt werden. Im Niederfrequenzband ist die Wandlung des Mehrkanalsignals in ein Monosignal unkompliziert, da der Niederbanddecoder 21 einfach die Stereoparameter im empfangenen Bitstrom übergehen und nur den Monoanteil dekodieren kann. Für das Hochfrequenzband aber ist mehr Verarbeitung erforderlich, da im Bitstrom kein separater Monosignalanteil des Hochfrequenzbands verfügbar ist.
  • In herkömmlicher Weise wird der Stereobitstrom für das Hochfrequenzband getrennt für Signale des linken und des rechten Kanals dekodiert, und das Monosignal wird dann durch Kombinieren der Signale des linken und des rechten Kanals in einem Reduktionsprozess kombiniert. Dieser Ansatz ist in 3 dargestellt.
  • 3 stellt Einzelheiten des Hochbanddecoders 22 nach 1 für eine Monoaudiosignal-Ausgabe prinzipartig dar. Der Hochbanddecoder umfasst zu diesem Zweck einen Verarbeitungsteil für den linken Kanal 30 und einen Verarbeitungsteil für den rechten Kanal 33. Der Verarbeitungsteil für den linken Kanal 30 beinhaltet einen Mischer 31, der mit einem LPC-Synthesefilter 32 verbunden ist. Der Verarbeitungsteil für den rechten Kanal 33 beinhaltet gleicherweise einen Mischer 34, der mit einem LPC-Synthesefilter 35 verbunden ist. Der Ausgang beider LPC-Synthesefilter 32, 35 ist mit einem weiteren Mischer 36 verbunden.
  • Ein Niederfrequenzband-Erregersignal, das durch den Niederbanddecoder 21 bereitgestellt wird, wird jedem der beiden Mischer 31 und 34 zugeführt. Der Mischer 31 wendet die Verstärkungsfaktoren für den linken Kanal auf das Niederfrequenzband-Erregersignal an. Das Hochbandsignal des linken Kanals wird dann durch den LPC-Synthesefilter 32 durch Filtern des skalierten Erregersignals durch das Hochband-LPC-Modell rekonstruiert, das durch die LPC-Koeffizienten für den linken Kanal definiert ist. Der Mischer 34 wendet die Verstärkungsfaktoren für den rechen Kanal auf das Niederfrequenzband-Erregersignal an. Das Hochbandsignal des rechten Kanals wird dann durch den LPC-Synthesefilter 35 durch Filtern des skalierten Erregersignals durch das Hochband-LPC-Modell rekonstruiert, das durch die LPC-Koeffizienten für den rechten Kanal definiert ist.
  • Das rekonstruierte Hochfrequenzbandsignal des linken Kanals und das rekonstruierte Hochfrequenzbandsignal des rechten Kanals werden dann durch den Mischer 36 in ein Mono-Hochfrequenzbandsignal umgewandelt, indem deren Mittelwert im Zeitbereich berechnet wird.
  • Dies ist prinzipiell ein einfacher und funktionierender Ansatz. Jedoch erfordert er eine getrennte Synthese mehrerer Kanäle, obgleich letztendlich nur ein einzelnes Kanalsignal benötigt wird.
  • Dokument US 5,274,740 beschreibt ein Verfahren, bei dem die Parameterwerte mehrerer Kanäle vor der Synthese kombiniert werden, wodurch die Notwendigkeit separater Synthetisierung mehrerer Kanäle vermieden wird.
  • Wenn das Mehrkanal-Audioeingangssignal 1 in solch einer Weise unbalanciert ist, dass die meiste Energie des Mehrkanalaudiosignals auf einem der Kanäle liegt, ergibt ein direktes Mischen mehrerer Kanäle durch Berechnen ihres Mittelwerts eine Dämpfung im kombinierten Signal. In einem Extremfall ist einer der Kanäle völlig still, was zu einem Energieniveau des kombinierten Signals führt, das gleich der Hälfte des Energieniveaus des ursprünglichen aktiven Eingangskanals ist.
  • Dokument EP-A-1 377 123 beschreibt ein Verfahren, das es ermöglicht, dass das Energie- und/oder Lautstärkeniveau der Ausgangssignale eines Mischers mit dem Energie- und/oder Lautstärkesignal der Eingangssignale eines Mischers übereinstimmt.
  • KURZDARSTELLUNG DER ERFINDUNG
  • Es ist eine Aufgabe der Erfindung, die Verarbeitungslast zu reduzieren, die zur Synthese eines Monoaudiosignals, basierend auf einem kodierten Mehrkanalaudiosignal, erforderlich ist.
  • Vorgeschlagen wird ein Verfahren zur Synthese eines Monoaudiosignals, basierend auf einem verfügbaren, kodierten Mehrkanalaudiosignal, wie in unabhängigem Anspruch 1 beansprucht.
  • Vorgeschlagen wird darüber hinaus ein Audiodecoder zur Synthese eines Monoaudiosignals, basierend auf einem verfügbaren kodierten Mehrkanalaudiosignal, wie in unabhängigem Anspruch 9 beansprucht.
  • Vorgeschlagen wird darüber hinaus ein Kodierungssystem, das zusätzlich zum vorgeschlagenen Decoder einen Audiocodierer umfasst, der das kodierte Mehrkanalaudiosignal liefert, wie in unabhängigem Anspruch 17 beansprucht.
  • Vorgeschlagen wird schließlich ein Softwareprogrammprodukt, in dem ein Softwarecode zur Synthese eines Monoaudiosignals, basierend auf einem verfügbaren kodierten Mehrkanalaudiosignal, gespeichert ist, wie in unabhängigem Anspruch 19 beansprucht. Das kodierte Mehrkanalaudiosignal umfasst zumindest für einen Teil des Frequenzbands eines ursprünglichen Mehrkanalaudiosignals verschiedene Parameterwerte für jeden Kanal des Mehrkanalaudiosignals. Der vorgeschlagene Softwarecode realisiert die Schritte des vorgeschlagenen Verfahrens bei Ausführung in einem Audiodecoder.
  • Das kodierte Mehrkanalaudiosignal kann insbesondere, wenn auch nicht ausschließlich, ein kodiertes Stereoaudiosignal sein.
  • Die Erfindung geht von der Erwägung aus, dass zum Erlangen eines Monoaudiosignals eine getrennte Dekodierung verfügbarer mehrerer Kanäle vermieden werden kann, wenn Parameterwerte, die für diese mehreren Kanäle verfügbar sind, bereits im Parameterbereich vor der Dekodierung kombiniert werden. Die kombinierten Parameterwert können dann für die Dekodierung eines einzelnen Kanals verwendet werden, wie in US 5,274,740 .
  • Diese Technik ermöglicht das Einsparen von Verarbeitungslast an einem Decoder und verringert die Komplexität des Decoders. Wenn beispielsweise die mehreren Kanäle Stereokanäle sind, die in einem Teilbandsystem verarbeitet werden, kann verglichen mit dem für beide Kanäle getrennten Durchführen der Hochfrequenzband-Synthesefilterung und dem Mischen der sich ergebenen Signale des linken und der des rechten Kanals näherungsweise die Hälfte der Verarbeitungslast eingespart werden, die für eine Hochfrequenzband-Synthesefilterung erforderlich ist.
  • In einer Ausführungsform der Erfindung umfassen die Parameter Verstärkungsfaktoren für jeden der mehreren Kanäle und lineare Vorhersagekoeffizienten für jeden der mehreren Kanäle.
  • Das Kombinieren der Parameterwerte kann in statischer Art und Weise realisiert werden, zum Beispiel durch allgemeines Berechnen des Mittelwerts der verfügbaren Parameterwerte über alle Kanäle. Vorteilhafterweise wird jedoch das Kombinieren der Parameterwerte für zumindest einen Parameter basierend auf Informationen über die jeweilige Aktivität in den mehreren Kanälen gesteuert. Dies ermöglicht es, ein Monoaudiosignal mit Spektralcharakteristika und mit einem Signalpegel so dicht wie möglich an den Spektralcharakteristika und dem Signalpegel in einem jeweiligen aktiven Kanal und somit eine verbesserte Audioqualität des synthetisierten Monoaudiosignals zu erreichen.
  • Wenn die Aktivität in einem ersten Kanal wesentlich höher als in einem zweiten Kanal ist, kann der erste Kanal als aktiver Kanal angenommen werden, während der zweite Kanal als stiller Kanal angenommen werden kann, der im Grunde genommen keinen hörbaren Beitrag zum ursprünglichen Audiosignal liefert. In dem Fall, dass ein stiller Kanal vorhanden ist, werden die Parameterwerte zumindest eines Parameters beim Kombinieren der Parameterwerte vorteilhafterweise komplett nicht berücksichtigt. Als Folge davon wird das synthetisierte Monosignal dem aktiven Kanal ähnlich sein. In allen anderen Fällen können die Parameterwerte beispielsweise durch Bilden des Mittelwerts oder eines gewichteten Mittelwerts über alle Kanäle kombiniert werden. Bei einem gewichteten Mittelwert steigt die Gewichtung, die einem Kanal zugeordnet ist, mit seiner relativen Aktivität im Vergleich zum anderen Kanal oder zu den anderen Kanälen an. Andere Verfahren können ebenso zum Realisieren des Kombinierens verwendet werden. In gleicher Weise können Parameterwerte für einen stillen Kanal, die nicht zu verwerfen sind, mit den Parameterwerten eines aktiven Kanals durch Mitteln oder irgendein anderes Verfahren kombiniert werden.
  • Verschiedene Arten von Information können die Information über die jeweilige Aktivität in den mehreren Kanälen bilden. Sie kann beispielsweise durch einen Verstärkungsfaktor für jeden der mehreren Kanäle, durch eine Kombination von Verstärkungsfaktoren über einen kurzen Zeitabschnitt für jeden der mehreren Kanäle oder durch lineare Vorhersagekoeffizienten für jeden der mehreren Kanäle gegeben sein. Die Aktivitätsinformation kann gleicherweise durch das Energieniveau in zumindest einem Teil des Frequenzbandes des Mehrkanalaudiosignals für jeden der mehreren Kanäle oder durch separate Nebeninformation über die Aktivität gegeben sein, die von einem Codierer empfangen wird, welcher das kodierte Mehrkanalaudiosignal liefert.
  • Zum Erlangen des kodierten Mehrkanalaudiosignals kann ein ursprüngliches Mehrkanalaudiosignal beispielsweise in ein Niederfrequenzbandsignal und ein Hochfrequenzbandsignal geteilt werden. Das Niederfrequenzbandsignal kann dann in herkömmlicher Art und Weise kodiert werden. Auch kann das Hochfrequenzbandsignal für die mehreren Kanäle in herkömmlicher Art und Weise getrennt kodiert werden, was Parameterwerte für jeden der mehreren Kanäle ergibt. Zumindest der kodierte Hochfrequenzbandanteil des kodierten Mehrkanalaudiosignals kann dann gemäß der Erfindung behandelt werden.
  • Es versteht sich jedoch, dass in gleicher Weise Mehrkanal-Parameterwerte eines Niederfrequenzbandanteils des gesamten Signals gemäß der Erfindung behandelt werden können, um ein Ungleichgewicht zwischen dem Niederfrequenzband und dem Hochfrequenzband, beispielsweise ein Ungleichgewicht im Signalpegel, zu verhindern. Alternativ könnten die Parameterwerte für stille Kanäle im Hochfrequenzband, die den Signalpegel beeinflussen, nicht prinzipiell verworfen werden, sondern nur die Parameterwerte für stille Kanäle, welche die Spektralcharakteristika des Signals beeinflussen.
  • Die Erfindung kann beispielsweise, wenn auch nicht ausschließlich, in einem AMR-WB+-basierten Kodierungssystem implementiert werden.
  • Andere Aufgaben und Merkmale der vorliegenden Erfindung werden aus der nachstehenden detaillierten Beschreibung, betrachtet in Verbindung mit den beiliegenden Zeichnungen, offensichtlich.
  • KURZBESCHREIBUNG DER FIGUREN
  • 1 ist ein schematisches Blockschaltbild eines Teilband-Kodierungssystems;
  • 2 ist ein Diagramm der Frequenzantwort einer Zwei-Band-Filterbank;
  • 3 ist ein Schematisches Blockschaltbild eines herkömmlichen Hochbanddecoders für Stereo-Mono-Wandlung;
  • 4 ist ein Schematisches Blockschaltbild eines Hochbanddecoders für Stereo-Mono-Wandlung;
  • 5 ist ein Diagramm, das die Frequenzantwort für Stereosignale und für das Monosignal darstellt, das sich mit dem Hochbanddecoder nach 4 ergibt;
  • 6 ist ein Schematisches Blockschaltbild eines Hochbanddecoders für Stereo-Mono-Wandlung gemäß einer Ausführungsform der Erfindung;
  • 7 ist ein Ablaufdiagramm, das den Betrieb in einem System unter Verwendung des Hochbanddecoders nach 6 darstellt;
  • 8 ist ein Ablaufdiagramm, das eine erste Option für die Parameterkombinierung im Ablaufdiagramm nach 7 darstellt; und
  • 9 ist ein Ablaufdiagramm, das eine zweite Option für die Parameterkombinierung im Ablaufdiagramm nach 7 darstellt.
  • DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
  • Es wird angenommen, dass die Erfindung im System nach 1 implementiert ist, worauf daher auch nachstehend Bezug genommen wird. Ein Stereoeingangsaudiosignal 1 wird dem Audiocodierer 10 zur Kodierung bereitgestellt, während durch den Audiodecoder 20 ein dekodiertes Monoaudiosignal 3 zur Präsentation bereitzustellen ist.
  • Um ein derartiges Monoaudiosignal 3 mit geringer Verarbeitungslast bereitstellen zu können, kann der Hochbanddecoder 22 des Systems wie folgt realisiert sein.
  • 4 ist ein Schematisches Blockschaltbild dieses Hochbanddecoders 22. Ein Niederbanderregereingang des Hochbanddecoders 22 ist über einen Mischer 40 und einen LPC-Synthesefilter 41 mit dem Ausgang des Hochbanddecoders 22 verbunden. Der Hochbanddecoder 22 umfasst zusätzlich einen Verstärkungsmittelwert-Berechnungsblock 42, der mit dem Mischer verbunden ist, und einen LPC-Mittelwert-Berechnungsblock 43, der mit dem LPC-Synthesefilter 41 verbunden ist.
  • Das System arbeitet wie folgt.
  • Eine Stereosignaleingabe in den Audiocodierer 10 wird durch die Zwei-Band-Analysefilterbank 11 in ein Niederfrequenzband und ein Hochfrequenzband geteilt. Ein Niederbandcodierer 11 kodiert das Niederfrequenzband-Audiosignal wie oben beschrieben. Ein AMR-WB+-Hochbandcodierer 12 kodiert das Hochbandstereosignal getrennt für linke und rechte Kanäle. Genauer gesagt bestimmt er Verstärkungsfaktoren und lineare Vorhersagekoeffizienten für jeden Kanal wie oben beschrieben.
  • Das kodierte Mono-Niederfrequenzbandsignal, die Stereo-Niederfrequenzband-Parameterwerte und die Stereo-Hochfrequenzband-Parameterwerte werden in einem Bitstrom 2 zum Audiodecoder 20 gesendet.
  • Der Niederbanddecoder 21 empfängt den Niederfrequenzbandanteil des Bitstroms zur Dekodierung. Bei dieser Dekodierung lässt er die Stereoparameter aus und dekodiert nur den Monoanteil. Das Ergebnis ist ein Mono-Niederfrequenzband-Audiosignal.
  • Der Hochbanddecoder 22 empfängt einerseits die Hochfrequenzband-Parameterwerte aus dem gesendeten Bitstrom und andererseits das Niederbanderregersignal, das durch den Niederbanddecoder 21 ausgegeben wird.
  • Die Hochfrequenzband-Parameter umfassen jeweils einen Verstärkungsfaktor des linken Kanals, einen Verstärkungsfaktor des rechten Kanals, LPC-Koeffizienten des linken Kanals und LPC-Koeffizienten des rechten Kanals. Im Verstärkungsmittelwert-Berechnungsblock 42 werden die jeweiligen Verstärkungsfaktoren für den linken Kanal und den rechten Kanal gemittelt, und der mittlere Verstärkungsfaktor wird durch den Mischer 40 zum Skalieren des Niederbanderregersignals verwendet. Das sich ergebene Signal wird zur Filterung an den LPC-Synthesefilter 41 geliefert.
  • Im LPC-Mittelwert-Berechnungsblock 43 werden die jeweiligen linearen Vorhersagekoeffizienten für den linken Kanal und den rechten Kanal kombiniert. Bei AMR-WB+ kann die Kombination der LPC-Koeffizienten von beiden Kanälen zum Beispiel durch Berechnen des Mittelwerts über die empfangenen Koeffizienten im Immittanzspektralpaar (ISP: Immittance Spectral Pair)-Bereich erfolgen. Die gemittelten Koeffizienten werden dann zum Konfigurieren des LPC-Synthesefilters 41 verwendet, von dem das Niederbanderregersignal behandelt wird.
  • Das skalierte und gefilterte Niederbanderregersignal bildet das gewünschte Mono-Hochbandaudiosignal.
  • Das Mono-Niederbandaudiosignal und das Mono-Hochbandaudiosignal werden in der Zwei-Band-Synthesefilterbank 23 kombiniert, und das sich ergebende synthetisierte Signal 3 wird zur Präsentation ausgegeben.
  • Verglichen mit einem System, das den Hochbandcodierer nach 3 verwendet, weist ein System, das den Hochbandcodierer nach 4 verwendet, den Vorteil auf, dass es nur näherungsweise die halbe Verarbeitungsleistung zum Generieren des synthetisierten Signals benötigt, da dieses nur einmal generiert wird. Es ist zu beachten, dass im Falle eines Stereoaudioeingangs, der ein aktives Signal in nur einem der Kanäle aufweist, das oben erwähnte Problem einer möglichen Dämpfung im kombinierten Signal allerdings bestehen bleibt.
  • Außerdem bringt bei Stereo-Audioeingangssignalen mit nur einem aktiven Kanal das Mitteln linearer Vorhersagekoeffizienten die unerwünschte Nebenwirkung des „Abflachens" des Spektrums im sich ergebenden kombinierten Signal mit sich. Statt die Spektralcharakteristika des aktiven Kanals aufzuweisen, weist das kombinierte Signal aufgrund der Kombination des „realen" Spektrums des aktiven Kanals und eines praktisch flachen oder zufallsähnlichen Spektrums des stillen Kanals etwas verzerrte Spektralcharakteristika auf.
  • Dieser Effekt ist in 5 dargestellt. 5 ist ein Diagramm, das die Amplitude über der Frequenz für drei unterschiedliche LPC-Synthesefilter-Frequenzantworten abbildet, berechnet über einen Rahmen von 80 ms. Eine durchgezogene Linie repräsentiert die LPC-Synthesefilter-Frequenzantwort eines aktiven Kanals. Eine gepunktete Linie repräsentiert die LPC-Synthesefilter-Frequenzantwort eines stillen Kanals. Eine gestrichelte Linie repräsentiert die LPC-Synthesefilter-Frequenzantwort, die sich beim Mitteln der LPC-Module aus beiden Kanälen im ISP-Bereich ergibt. Man sieht, dass der gemittelte LPC-Filter ein Spektrum erzeugt, das keines der realen Spektren genau wiedergibt. In der Praxis ist dieses Phänomen als verringerte Audioqualität im Hochfrequenzband zu hören.
  • Um in der Lage zu sein, nicht nur ein Monoaudiosignal 3 bei geringer Verarbeitungslast bereitzustellen, sondern ferner die Einschränkungen zu vermeiden, die mit dem Hochbanddecoder nach 4 nicht gelöst werden, kann der Hochbanddecoder 22 des Systems nach 1 gemäß einer Ausführungsform der Erfindung ausgeführt sein.
  • 6 ist ein Schematisches Blockschaltbild eines derartigen Hochbanddecoders 22. Ein Niederbanderregereingang des Hochbanddecoders 22 ist über einen Mischer 60 und einen LPC-Synthesefilter 61 mit dem Ausgang des Hochbanddecoders 22 verbunden. Der Hochbanddecoder 22 umfasst zusätzlich eine Verstärkungsauswahllogik 62, die mit dem Mischer 60 verbunden ist, und eine LPC-Auswahllogik 63, die mit dem LPC-Synthesefilter 61 verbunden ist.
  • Die Verarbeitung in einem System, das den Hochbandcodierer 22 nach 6 verwendet, wird nun unter Bezug auf 7 beschrieben. 7 ist ein Ablaufdiagramm, das in seinem oberen Teil die Verarbeitung im Audiocodierer 10 und in seinem unteren Teil die Verarbeitung im Audiodecoder 20 des Systems abbildet. Der obere Teil und der untere Teil sind durch eine horizontale gestrichelte Linie geteilt.
  • Eine Stereoaudiosignaleingabe 1 in den Codierer wird durch die Zwei-Band-Analysefilterbank 11 in ein Niederfrequenzband und ein Hochfrequenzband geteilt. Ein Niederbandcodierer 12 kodiert das Niederfrequenzband. Ein AMR-WB+-Hochbandcodierer 13 kodiert das Hochfrequenzband getrennt für linke und rechte Kanäle. Genauer gesagt bestimmt er dedizierte Verstärkungsfaktoren und lineare Vorhersagekoeffizienten für beide Kanäle als Hochfrequenzband-Parameter.
  • Das kodierte Mono-Niederfrequenzbandsignal, die Stereo-Niederfrequenzband-Parameterwerte und die Stereo-Hochfrequenzband-Parameterwerte werden in einem Bitstrom 2 zum Audiodecoder 20 gesendet.
  • Der Niederbanddecoder 21 empfängt den auf das Niederfrequenzband bezogenen Anteil des Bitstroms 2 und dekodiert diesen Anteil. Bei der Dekodierung lässt der Niederbanddecoder 21 die empfangenen Stereoparameter aus und dekodiert nur den Monoanteil. Das Ergebnis ist ein Mono-Niederbandaudiosignal.
  • Der Hochbanddecoder 22 empfängt einerseits einen Verstärkungsfaktor des linken Kanals, einen Verstärkungsfaktor des rechten Kanals, lineare Vorhersagekoeffizienten für den linken Kanal und lineare Vorhersagekoeffizienten für den rechten Kanal und andererseits das Niederbanderregersignal, das durch den Niederbanddecoder 21 ausgegeben wird. Die Verstärkung des linken Kanals und die Verstärkung des rechten Kanals werden gleichzeitig als Kanalaktivitätsinformation verwendet. Es ist zu beachten, dass stattdessen irgendeine andere Kanalaktivitätsinformation, welche die Aktivitätsverteilung im Hochfrequenzband auf den linken Kanal und den rechten Kanal anzeigt, als zusätzlicher Parameter durch den Hochbandcodierer 13 bereitgestellt werden könnte.
  • Die Kanalaktivitätsinformation wird ausgewertet, und die Verstärkungsfaktoren für den linken Kanal und den rechten Kanal werden durch die Verstärkungsauswahllogik 62 gemäß der Auswertung zu einem einzigen Verstärkungsfaktor kombiniert. Die ausgewählte Verstärkung wird dann mittels des Mischers 60 auf das Niederfrequenzband-Erregersignal angewendet, das durch den Niederbanddecoder 21 bereitgestellt wird.
  • Darüber hinaus werden die LPC-Koeffizienten für den linken Kanal und den rechten Kanal durch die LPC-Modellauswahllogik 63 gemäß der Auswertung zu einem einzigen Satz von LPC-Koeffizienten kombiniert. Das kombinierte LPC-Modell wird zum LPC-Synthesefilter 61 geliefert. Der LPC-Synthesefilter 61 wendet das ausgewählte LPC-Modell auf das skalierte Niederfrequenzband-Erregersignal an, das durch den Mischer 60 bereitgestellt wird.
  • Das sich ergebende Hochfrequenzband-Audiosignal wird dann in der Zwei-Band-Synthesefilterbank 23 mit dem Mono-Niederfrequenzband-Audiosignal zu einem Mono-Vollbandaudiosignal kombiniert, das zur Präsentation durch ein Gerät oder eine Anwendung ausgegeben werden kann, das nicht zur Verarbeitung von Stereoaudiosignalen fähig ist.
  • Die vorgeschlagene Auswertung der Kanalaktivitätsinformation und die nachfolgende Kombination der Parameterwerte, die im Ablaufdiagramm nach 7 als Block mit Doppellinien angegeben sind, können auf unterschiedliche Weisen implementiert sein. Zwei Optionen werden unter Bezug auf die Ablaufdiagramme nach 8 und 9 vorgestellt.
  • Bei der ersten Option, die in 8 dargestellt ist, werden die Verstärkungsfaktoren für den linken Kanal zuerst über die Dauer eines Rahmens gemittelt, und in gleicher Weise werden die Verstärkungsfaktoren für den rechten Kanal über die Dauer eines Rahmens gemittelt.
  • Die gemittelte Verstärkung des rechten Kanals wird dann von der gemittelten Verstärkung des linken Kanals subtrahiert, woraus sich für jeden Rahmen eine gewisse Verstärkungsdifferenz ergibt.
  • In dem Fall, dass die Verstärkungsdifferenz kleiner als ein erster Schwellwert ist, werden die kombinierten Verstärkungsfaktoren für diesen Rahmen gleich den Verstärkungsfaktoren gesetzt, die für den rechten Kanal bereitgestellt sind. Darüber hinaus werden die kombinierten LPC-Modelle für diesen Rahmen als den LPC-Modellen gleich gesetzt, die für den rechten Kanal bereitgestellt sind.
  • In dem Fall, dass die Verstärkungsdifferenz größer als ein zweiter Schwellwert ist, werden die kombinierten Verstärkungsfaktoren für diesen Rahmen gleich den Verstärkungsfaktoren gesetzt, die für den linken Kanal bereitgestellt sind. Darüber hinaus werden die kombinierten LPC-Modelle für diesen Rahmen als den LPC-Modellen gleich gesetzt, die für den linken Kanal bereitgestellt sind.
  • In allen anderen Fällen werden die kombinierten Verstärkungsfaktoren für diesen Rahmen gleich dem Mittelwert über den jeweiligen Verstärkungsfaktor für den linken Kanal und den jeweiligen Verstärkungsfaktor für den rechten Kanal gesetzt. Die kombinierten LPC-Modelle für diesen Rahmen werden als dem Mittelwert über das jeweilige LPC-Modell für den linken Kanal und das jeweilige LPC-Modell für den rechten Kanal gleich gesetzt.
  • Der erste Schwellwert und der zweite Schwellwert werden abhängig von der geforderten Empfindlichkeit und der Art der Anwendung ausgewählt, für die die Stereo-Mono-Wandlung benötigt wird. Geeignete Werte sind beispielsweise –20 dB für den ersten Schwellwert und 20 dB für den zweiten Schwellwert.
  • Somit werden, wenn während eines jeweiligen Rahmens aufgrund der großen Differenzen in den mittleren Verstärkungsfaktoren einer der Kanäle als stiller Kanal angesehen werden kann, während der andere Kanal als aktiver Kanal angesehen werden kann, die Verstärkungsfaktoren und LPC-Modelle des stillen Kanals für die Dauer des Rahmens nicht berücksichtigt. Dies ist möglich, da der stille Kanal keinen hörbaren Beitrag zur gemischten Audioausgabe aufweist. Eine derartige Kombination von Parameterwerten stellt sicher, dass die Spektralcharakteristika und die Signalpegel so nahe wie möglich am jeweiligen aktiven Kanal liegen.
  • Es ist zu beachten, dass statt des Auslassens der Stereoparameter auch der Niederbanddecoder kombinierte Parameterwerte bilden und sie auf den Monoanteil des Signals anwenden könnte, genauso, wie es für die Hochfrequenzband-Verarbeitung beschrieben ist.
  • Bei der zweiten Option des Kombinierens von Parameterwerten, die in 9 dargestellt ist, werden die Verstärkungsfaktoren für den linken Kanal und die Verstärkungsfaktoren den rechten Kanal jeweils ebenfalls über die Dauer eines Rahmens gemittelt.
  • Die gemittelte Verstärkung des rechten Kanals wird dann von der gemittelten Verstärkung des linken Kanals subtrahiert, woraus sich für jeden Rahmen eine gewisse Verstärkungsdifferenz ergibt.
  • In dem Fall, dass die Verstärkungsdifferenz kleiner als ein erster, niedriger Schwellwert ist, werden die kombinierten LPC-Modelle für diesen Rahmen als den bereitgestellten LPC-Modellen für den rechten Kanal gleich gesetzt.
  • In dem Fall, dass die Verstärkungsdifferenz größer als ein zweiter, hoher Schwellwert ist, werden die kombinierten LPC-Modelle für diesen Rahmen als den bereitgestellten LPC-Modellen für den linken Kanal gleich gesetzt.
  • In allen anderen Fällen werden die kombinierten LPC-Modelle für diesen Rahmen als dem Mittelwert über das jeweilige LPC-Modell für den linken Kanal und das jeweilige LPC-Modell für den rechten Kanal gleich gesetzt.
  • Die kombinierten Verstärkungsfaktoren für den Rahmen werden in jedem Fall gleich dem Mittelwert über den jeweiligen Verstärkungsfaktor für den linken Kanal und den jeweiligen Verstärkungsfaktor für den rechten Kanal gesetzt.
  • Die LPC-Koeffizienten weisen eine direkte Wirkung nur auf die Spektralcharakteristika des synthetisierten Signals auf. Das Kombinieren lediglich der LPC-Koeffizienten ergibt somit die gewünschten Spektralcharakteristika, löst aber das Problem der Signaldämpfung nicht. Dies hat jedoch den Vorteil, dass das Gleichgewicht zwischen dem Niederfrequenzband und dem Hochfrequenzband bewahrt wird, falls das Niederfrequenzband nicht gemäß der Erfindung gemischt wird. Das Bewahren des Signalpegels im Hochfrequenzband würde das Gleichgewicht zwischen den Niederfrequenzbändern und den Hochfrequenzbändern durch Einführen relativ zu lauter Signale in das Hochfrequenzband ändern, was zu einer möglicherweise reduzierten subjektiven Audioqualität führt.

Claims (19)

  1. Verfahren zur Synthese eines Monoaudiosignals basierend auf einem verfügbaren, kodierten Mehrkanalaudiosignal, wobei das kodierte Mehrkanalaudiosignal zumindest für einen Teil eines Audiofrequenzbands für jeden Kanal des Mehrkanalaudiosignals separate Parameterwerte umfasst, wobei das Verfahren zumindest für einen Teil eines Audiofrequenzbands umfasst: – Kombinieren von Parameterwerten der mehreren Kanäle im Parameterbereich; und – Verwenden der kombinierten Parameterwerte zur Synthese eines Monoaudiosignals; wobei das Kombinieren der Parameterwerte für zumindest einen Parameter basierend auf Informationen über die jeweilige Aktivität in den mehreren Kanälen gesteuert wird.
  2. Verfahren nach Anspruch 1, wobei die Parameter Verstärkungsfaktoren für jeden der mehreren Kanäle umfassen, und lineare Vorhersagekoeffizienten für jeden der mehreren Kanäle.
  3. Verfahren nach einem der vorgehenden Ansprüche, wobei die Information über die jeweilige Aktivität auf den mehreren Kanälen zumindest eines der Folgenden aufweist: – einen Verstärkungsfaktor für jeden der mehreren Kanäle; – eine Kombination von Verstärkungsfaktoren über einen kurzen Zeitteil für jeden der mehreren Kanäle; – lineare Vorhersagekoeffizienten für jeden der mehreren Kanäle; – das Energieniveau zumindest in einem Teil des Frequenzbands des Mehrkanalaudiosignals für jeden der mehreren Kanäle; und – separate Nebeninformation über die Aktivität, die von Kodierungsseite empfangen wird, welche das kodierte Mehrkanalaudiosignal liefert.
  4. Verfahren nach einem der vorgehenden Ansprüche, wobei im Fall, dass die Information über die Aktivität auf den mehreren Kanälen anzeigt, dass die Aktivität auf einem ersten der mehreren Kanäle wesentlich niedriger ist, als auf zumindest einem anderen der mehreren Kanäle, der Wert von zumindest einem Parameter nicht berücksichtigt wird, der für den ersten Kanal verfügbar ist.
  5. Verfahren nach Anspruch 4, wobei im Fall, dass die Information über die Aktivität auf den mehreren Kanälen anzeigt, dass die Aktivität auf einem ersten der mehreren Kanäle wesentlich niedriger ist, als auf zumindest einem anderen der mehreren Kanäle, ein Durchschnitt der Werte von zumindest einem anderen Parameter gebildet wird, die für die mehreren Kanäle zur Verfügung stehen.
  6. Verfahren nach einem der vorgehenden Ansprüche, wobei im Fall, dass die Information über die Aktivität auf den mehrene Kanälen nicht anzeigt, dass die Aktivität auf einem der mehreren Kanäle wesentlich niedriger ist, als auf zumindest einem anderen der mehreren Kanäle, ein Durchschnitt der Werte der Parameter gebildet wird, die für die mehreren Kanäle verfügbar sind.
  7. Verfahren nach einem der vorgehenden Ansprüche, wobei das Mehrkanalsignal ein Stereosignal ist.
  8. Verfahren nach einem der vorgehenden Ansprüche, umfassend die vorgelagerten Schritte: Aufteilen eines ursprünglichen Mehrkanalaudiosignals in ein Niederfrequenzbandsignal und ein Hochfrequenzbandsignal, Kodieren des Niederfrequenzbandsignals und Kodieren des Hochfrequenzbandsignals getrennt für die mehreren Kanäle, was die Parameterwerte für jeden der mehreren Kanäle ergibt, wobei zumindest die Parameterwerte, die für das Hochfrequenzbandsignal entstehen, zur Synthese des Monoaudiosignals kombiniert werden.
  9. Audiodecoder zur Synthese eines Monoaudiosignals, basierend auf einem verfügbaren kodierten Mehrkanalaudiosignal, wobei das kodierte Mehrkanalaudiosignal zumindest für einen Teil des Frequenzbands eines ursprünglichen Mehrkanalaudiosignals getrennte Parameterwerte für jeden Kanal des Mehrkanalaudiosignals umfasst, wobei der Audiodecoder umfasst: – zumindest einen Parameterauswahlteil, der dazu angepasst ist, Parameterwerte der mehreren Kanäle im Parameterbereich zumindest für einen Teil des Frequenzbands des Multikanalaudiosignals zu kombinieren; und – einen Audiosignalsyntheseteil, der dazu angepasst ist, ein Monoaudiosignal zumindest für einen Teil des Frequenzbands des Mehrkanalaudiosignals basierend auf kombinierten Parameterwerten zu synthetisieren, die von zumindest einem Parameterauswahlteil zur Verfügung gestellt werden; wobei der Parameterauswahlteil dazu angepasst ist, die Parameterwerte für zumindest einen Parameter basierend auf Information über die jeweilige Aktivität auf den mehreren Kanälen zu kombinieren.
  10. Audiodecoder nach Anspruch 9, wobei die Parameter Verstärkungsfaktoren für jeden der mehreren Kanäle und lineare Vorhersagekoeffiezienten für jeden der mehreren Kanäle umfassen.
  11. Audiodecoder nach einem der Ansprüche 9 bis 10, wobei die Information über die betreffende Aktivität auf den mehreren Kanälen zumindest eines der Folgenden umfasst: – einen Verstärkungsfaktor für jeden der mehreren Kanäle; – eine Kombination von Verstärkungsfaktoren über einen kurzen Zeitteil für jeden der mehreren Kanäle; – lineare Vorhersagekoeffizienten für jeden der mehreren Kanäle; – das Energieniveau in zumindest einem Teil des Frequenzbands des Mehrkanalaudiosignals für jeden der mehreren Kanäle; und – getrennte Nebeninformationen über die Aktivität, empfangen von der Kodierungsseite, welche das kodierte Mehrkanalaudiosignal liefert.
  12. Audiodecoder gemäß einem der Ansprüche 9 bis 11, wobei der Parameterauswahlteil dazu angepasst ist, beim Kombinieren den Wert von zumindest einem Parameter, der für einen ersten der mehreren Kanäle verfügbar ist, nicht zu berücksichtigen, falls die Information über die Aktivität auf den mehreren Kanälen anzeigt, dass die Aktivität auf dem ersten Kanal wesentlich niedriger ist, als auf zumindest einem anderen der mehreren Kanäle.
  13. Audiodecoder nach Anspruch 12, wobei der Parameterauswahlteil dazu angepasst ist, in der Kombination einen Durchschnitt aus den Werten zumindest eines anderen Parameters zu bilden, die für die genannten mehreren Kanäle verfügbar sind, falls die Information über die Aktivität auf den mehreren Kanälen anzeigt, dass die Aktivität auf einem ersten der mehreren Kanäle wesentlich niedriger ist, als auf zumindest einem anderen der mehreren Kanäle.
  14. Audiodecoder nach zumindest einem der Ansprüche 9 bis 13, wobei der Parameterauswahlteil dazu angepasst ist, einen Durchschnitt der Werte der Parameter zu bilden, die für die mehreren Kanäle verfügbar sind, falls die Information über die Aktivität auf den mehreren Kanälen nicht anzeigt, dass die Aktivität auf einem der mehreren Kanäle wesentlich niedriger ist, als auf zumindest einem anderen der mehreren Kanäle.
  15. Audiodecoder gemäß einem der Ansprüche 9 bis 14, wobei das genannte Mehrkanalsignal ein Stereosignal ist.
  16. Mobiles Endgerät, umfassend eine Audiodecoder nach einem der Ansprüche 9 bis 15.
  17. Kodierungssystem enthaltend einen Audiocodierer, der ein kodiertes Mehrkanalaudiosignal liefert, wobei das kodierte Mehrkanalaudiosignal zumindest für einen Teil des Frequenzbands eines ursprünglichen Mehrkanalaudiosignals verschiedene Parameterwerte für jeden Kanal des Mehrkanalaudiosignals umfasst, und einen Audiodecoder gemäß einem der Ansprüche 9 bis 15.
  18. Codierungssystem nach Anspruch 17, wobei der Audiocodierer eine Auswertungskomponente umfasst, die dazu angepasst ist, Informationen über die Aktivität auf den mehreren Kanälen zu bestimmen, und die dazu angepasst ist, diese Informationen zur Verwendung durch den Audiodecoder bereitzustellen.
  19. Softwareprogrammprodukt, in dem ein Softwarecode zur Synthese eines Monoaudiosignals basierend auf einem verfügbaren kodierten Mehrkanalaudiosignal gespeichert ist, wobei das kodierte Mehrkanalaudiosignal zumindest für einen Teil des Frequenzbands eines ursprünglichen Mehrkanalaudiosignals getrennte Parameterwerte für jeden Kanal des Mehrkanalaudiosignals umfasst, wobei der Softwarecode die Schritte des Verfahrens nach einem der Ansprüche 1 bis 8 ausführt, wenn er auf einem Audiodecoder abläuft.
DE602004010188T 2004-03-12 2004-03-12 Synthese eines mono-audiosignals aus einem mehrkanal-audiosignal Expired - Lifetime DE602004010188T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2004/000715 WO2005093717A1 (en) 2004-03-12 2004-03-12 Synthesizing a mono audio signal based on an encoded miltichannel audio signal

Publications (2)

Publication Number Publication Date
DE602004010188D1 DE602004010188D1 (de) 2007-12-27
DE602004010188T2 true DE602004010188T2 (de) 2008-09-11

Family

ID=34957094

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602004010188T Expired - Lifetime DE602004010188T2 (de) 2004-03-12 2004-03-12 Synthese eines mono-audiosignals aus einem mehrkanal-audiosignal

Country Status (12)

Country Link
US (1) US7899191B2 (de)
EP (1) EP1723639B1 (de)
JP (1) JP4495209B2 (de)
CN (1) CN1926610B (de)
AT (1) ATE378677T1 (de)
AU (1) AU2004317678C1 (de)
BR (1) BRPI0418665B1 (de)
CA (1) CA2555182C (de)
DE (1) DE602004010188T2 (de)
ES (1) ES2295837T3 (de)
RU (1) RU2381571C2 (de)
WO (1) WO2005093717A1 (de)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4832305B2 (ja) * 2004-08-31 2011-12-07 パナソニック株式会社 ステレオ信号生成装置およびステレオ信号生成方法
JP4842147B2 (ja) * 2004-12-28 2011-12-21 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
US8271872B2 (en) * 2005-01-05 2012-09-18 Apple Inc. Composite audio waveforms with precision alignment guides
US8036390B2 (en) * 2005-02-01 2011-10-11 Panasonic Corporation Scalable encoding device and scalable encoding method
EP1872364B1 (de) * 2005-03-30 2010-11-24 Nokia Corporation Quellencodierung und/oder -decodierung
FR2891098B1 (fr) * 2005-09-16 2008-02-08 Thales Sa Procede et dispositif de mixage de flux audio numerique dans le domaine compresse.
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
US9515843B2 (en) * 2006-06-22 2016-12-06 Broadcom Corporation Method and system for link adaptive Ethernet communications
PL2038878T3 (pl) 2006-07-07 2012-06-29 Fraunhofer Ges Forschung Urządzenie i sposób do łączenia wielu zakodowanych parametrycznie źródeł audio
KR101393298B1 (ko) * 2006-07-08 2014-05-12 삼성전자주식회사 적응적 부호화/복호화 방법 및 장치
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
KR20080052813A (ko) * 2006-12-08 2008-06-12 한국전자통신연구원 채널별 신호 분포 특성을 반영한 오디오 코딩 장치 및 방법
KR101379263B1 (ko) * 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
US8655650B2 (en) * 2007-03-28 2014-02-18 Harris Corporation Multiple stream decoder
US8392198B1 (en) * 2007-04-03 2013-03-05 Arizona Board Of Regents For And On Behalf Of Arizona State University Split-band speech compression based on loudness estimation
JP5448850B2 (ja) * 2008-01-25 2014-03-19 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
KR101452722B1 (ko) 2008-02-19 2014-10-23 삼성전자주식회사 신호 부호화 및 복호화 방법 및 장치
ES2796552T3 (es) 2008-07-11 2020-11-27 Fraunhofer Ges Forschung Sintetizador de señales de audio y codificador de señales de audio
CA2871268C (en) 2008-07-11 2015-11-03 Nikolaus Rettelbach Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
KR101381513B1 (ko) 2008-07-14 2014-04-07 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
CN101662688B (zh) * 2008-08-13 2012-10-03 韩国电子通信研究院 音频信号的编码和解码方法及其装置
KR20100115215A (ko) * 2009-04-17 2010-10-27 삼성전자주식회사 가변 비트율 오디오 부호화 및 복호화 장치 및 방법
JP5565914B2 (ja) * 2009-10-23 2014-08-06 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置およびこれらの方法
CN102667920B (zh) 2009-12-16 2014-03-12 杜比国际公司 Sbr比特流参数缩混
US12002476B2 (en) 2010-07-19 2024-06-04 Dolby International Ab Processing of audio signals during high frequency reconstruction
SG10202107800UA (en) * 2010-07-19 2021-09-29 Dolby Int Ab Processing of audio signals during high frequency reconstruction
TWI450266B (zh) * 2011-04-19 2014-08-21 Hon Hai Prec Ind Co Ltd 電子裝置及音頻資料的解碼方法
CN103188595B (zh) * 2011-12-31 2015-05-27 展讯通信(上海)有限公司 处理多声道音频信号的方法和系统
CN103220058A (zh) * 2012-01-20 2013-07-24 旭扬半导体股份有限公司 音频数据与视觉数据同步装置及其方法
ES2555136T3 (es) 2012-02-17 2015-12-29 Huawei Technologies Co., Ltd. Codificador paramétrico para codificar una señal de audio multicanal
EP2830051A3 (de) * 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierer, Audiodecodierer, Verfahren und Computerprogramm mit gemeinsamen codierten Restsignalen
CN104517610B (zh) * 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
US11308928B2 (en) 2014-09-25 2022-04-19 Sunhouse Technologies, Inc. Systems and methods for capturing and interpreting audio
EP3198247B1 (de) 2014-09-25 2021-03-17 Sunhouse Technologies, Inc. Vorrichtung zur erfassung von schwingungen von einem objekt, und system zur erfassung von schwingungen von einer trommel.
KR101935183B1 (ko) 2014-12-12 2019-01-03 후아웨이 테크놀러지 컴퍼니 리미티드 멀티-채널 오디오 신호 내의 음성 성분을 향상시키는 신호 처리 장치
JP6864378B2 (ja) * 2016-01-22 2021-04-28 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 改良されたミッド/サイド決定を持つ包括的なildを持つmdct m/sステレオのための装置および方法
US10109284B2 (en) 2016-02-12 2018-10-23 Qualcomm Incorporated Inter-channel encoding and decoding of multiple high-band audio signals
CN109155803B (zh) * 2016-08-26 2021-07-20 荣耀终端有限公司 音频数据处理方法、终端设备和存储介质
GB2576769A (en) * 2018-08-31 2020-03-04 Nokia Technologies Oy Spatial parameter signalling
CN113316941B (zh) * 2019-01-11 2022-07-26 博姆云360公司 声场保存音频通道求和
US11140483B2 (en) 2019-03-05 2021-10-05 Maxim Integrated Products, Inc. Management of low frequency components of an audio signal at a mobile computing device
WO2021004049A1 (zh) * 2019-07-09 2021-01-14 海信视像科技股份有限公司 显示装置、音频数据传输方法及装置
CN112218020B (zh) * 2019-07-09 2023-03-21 海信视像科技股份有限公司 一种多声道平台音频数据传输方法及其装置
CN113192523B (zh) * 2020-01-13 2024-07-16 华为技术有限公司 一种音频编解码方法和音频编解码设备
CN113223539B (zh) * 2020-01-20 2023-05-26 维沃移动通信有限公司 一种音频传输方法及电子设备
CN111654745B (zh) * 2020-06-08 2022-10-14 海信视像科技股份有限公司 多声道的信号处理方法及显示设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2077662C (en) * 1991-01-08 2001-04-17 Mark Franklin Davis Encoder/decoder for multidimensional sound fields
US5274740A (en) * 1991-01-08 1993-12-28 Dolby Laboratories Licensing Corporation Decoder for variable number of channel presentation of multidimensional sound fields
ATE309644T1 (de) * 1996-02-08 2005-11-15 Koninkl Philips Electronics Nv Mit 2-kanal- und 1-kanal-übertragung kompatible n-kanalübertragung
US5899969A (en) * 1997-10-17 1999-05-04 Dolby Laboratories Licensing Corporation Frame-based audio coding with gain-control words
US6757659B1 (en) * 1998-11-16 2004-06-29 Victor Company Of Japan, Ltd. Audio signal processing apparatus
US6765930B1 (en) * 1998-12-11 2004-07-20 Sony Corporation Decoding apparatus and method, and providing medium
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US7447321B2 (en) * 2001-05-07 2008-11-04 Harman International Industries, Incorporated Sound processing system for configuration of audio signals in a vehicle
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
US7039204B2 (en) * 2002-06-24 2006-05-02 Agere Systems Inc. Equalization for audio mixing
CN1233163C (zh) * 2002-08-21 2005-12-21 中山正音数字技术有限公司 多声道数字音频信号的压缩编码和解码设备及其方法
CN100349207C (zh) * 2003-01-14 2007-11-14 北京阜国数字技术有限公司 高频耦合的伪小波5声道音频编/解码方法

Also Published As

Publication number Publication date
US20070208565A1 (en) 2007-09-06
ES2295837T3 (es) 2008-04-16
CN1926610B (zh) 2010-10-06
JP2007529031A (ja) 2007-10-18
JP4495209B2 (ja) 2010-06-30
AU2004317678B2 (en) 2009-02-05
WO2005093717A1 (en) 2005-10-06
BRPI0418665B1 (pt) 2018-08-28
WO2005093717A8 (en) 2006-04-13
DE602004010188D1 (de) 2007-12-27
US7899191B2 (en) 2011-03-01
EP1723639B1 (de) 2007-11-14
BRPI0418665A (pt) 2007-06-05
CA2555182C (en) 2011-01-04
ATE378677T1 (de) 2007-11-15
CN1926610A (zh) 2007-03-07
RU2381571C2 (ru) 2010-02-10
CA2555182A1 (en) 2005-10-06
AU2004317678C1 (en) 2009-09-24
RU2006131451A (ru) 2008-04-20
AU2004317678A1 (en) 2005-10-06
EP1723639A1 (de) 2006-11-22

Similar Documents

Publication Publication Date Title
DE602004010188T2 (de) Synthese eines mono-audiosignals aus einem mehrkanal-audiosignal
EP1025646B1 (de) Verfahren und vorrichtung zum codieren von audiosignalen sowie verfahren und vorrichtungen zum decodieren eines bitstroms
DE60310716T2 (de) System für die audiokodierung mit füllung von spektralen lücken
DE60214599T2 (de) Skalierbare audiokodierung
DE60214027T2 (de) Kodiervorrichtung und dekodiervorrichtung
DE60013785T2 (de) VERBESSERTE SUBJEKTIVE QUALITäT VON SBR (SPECTRAL BAND REPLICATION)UND HFR (HIGH FREQUENCY RECONSTRUCTION) KODIERVERFAHREN DURCH ADDIEREN VON GRUNDRAUSCHEN UND BEGRENZUNG DER RAUSCHSUBSTITUTION
DE69317958T2 (de) Kodierer von Audiosignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken
DE69333394T2 (de) Hochwirksames Kodierverfahren und -gerät
DE69731677T2 (de) Verbessertes Kombinationsstereokodierverfahren mit zeitlicher Hüllkurvenformgebung
DE19959156C2 (de) Verfahren und Vorrichtung zum Verarbeiten eines zu codierenden Stereoaudiosignals
DE102008015702B4 (de) Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
EP1145227B1 (de) Verfahren und vorrichtung zum verschleiern eines fehlers in einem codierten audiosignal und verfahren und vorrichtung zum decodieren eines codierten audiosignals
DE60117471T2 (de) Breitband-signalübertragungssystem
DE19549621B4 (de) Vorrichtung zum Codieren von Audiosignalen
DE60129072T2 (de) Multimodale Sprachkodierung und Geräuschunterdrückung
DE69123500T2 (de) 32 Kb/s codeangeregte prädiktive Codierung mit niedrigen Verzögerung für Breitband-Sprachsignal
DE60128121T2 (de) Wahrnehmungsbezogen verbesserte aufbesserung kodierter akustischer signale
DE69515907T2 (de) Verfahren und gerät zum anwenden von wellenformprädiktion auf teilbänder in einem perzeptiven kodiersystem
WO2003088212A1 (de) Vorrichtung und verfahren zum codieren eines zeitdiskreten audiosignals und vorrichtung und verfahren zum decodieren von codierten audiodaten
EP1016319B1 (de) Verfahren und vorrichtung zum codieren eines zeitdiskreten stereosignals
DE10328777A1 (de) Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals
DE102004043521A1 (de) Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
DE60131766T2 (de) Wahrnehmungsbezogen verbesserte codierung akustischer signale
DE69533259T2 (de) Nichtlineares quantisieren eines informationssignales
DE60124079T2 (de) Sprachverarbeitung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition