-
GEBIET DER ERFINDUNG
-
Die
Erfindung betrifft ein Verfahren zur Synthese eines Monoaudiosignals,
basierend auf einem verfügbaren,
kodierten Mehrkanalaudiosignal, wobei das kodierte Mehrkanalaudiosignal
zumindest für
einen Teil eines Audiofrequenzbands für jeden Kanal des Mehrkanalaudiosignals
separate Parameterwerte umfasst. Gleicherweise betrifft die Erfindung
einen entsprechenden Audiodecoder, ein entsprechendes Kodierungssystem
und ein entsprechendes Softwareprogrammprodukt.
-
HINTERGRUND DER ERFINDUNG
-
Audiokodierungssysteme
sind aus dem Stand der Technik wohl bekannt. Sie werden insbesondere
zum Übertragen
oder Speichern von Audiosignalen verwendet.
-
Ein
Audiokodierungssystem, das zur Übertragung
von Audiosignalen eingesetzt wird, umfasst einen Codierer auf einer
Sendeseite und einen Decoder auf einer Empfangsseite. Die Sendeseite
und die Empfangsseite können
zum Beispiel mobile Endgeräte
sein. Ein zu sendendes Audiosignal wird zum Codierer geliefert.
Der Codierer ist dafür
zuständig, die
ankommende Audiodatenrate auf ein Bitratenniveau anzupassen, bei
dem die Bandbreitenbedingungen im Übertragungskanal nicht verletzt
werden. Idealerweise verwirft der Codierer bei diesem Kodierprozess
nur irrelevante Informationen aus dem Audiosignal. Das kodierte
Audiosignal wird dann durch die Sendeseite des Audiokodierungssystems
gesendet und an der Empfangsseite des Audiokodierungssystems empfangen.
Der Decoder an der Empfangsseite kehrt den Kodierungsprozess um,
um ein dekodiertes Audiosignal mit geringer oder keiner hörbaren Verschlechterung
zu erlangen.
-
Wird
das Audiokodierungssystem zum Archivieren von Audiodaten eingesetzt,
werden die kodierten Audiodaten, die durch den Codierer geliefert
werden, in einer Speichereinheit gespeichert, und der Decoder dekodiert
Audiodaten, die aus dieser Speichereinheit abgerufen werden, zum
Beispiel zur Präsentation
durch einen Media-Player.
Bei dieser Alternative ist es das Ziel, dass der Codierer eine Bitrate erreicht,
die so niedrig wie möglich
ist, um Speicherplatz zu sparen.
-
Abhängig von
der zulässigen
Bitrate können unterschiedliche
Kodierungsverfahren auf ein Audiosignal angewendet werden.
-
In
den meisten Fällen
korrelieren ein niedrigeres Frequenzband und ein höheres Frequenzband eines
Audiosignals miteinander. Audiocodec-Bandbreitenerweiterungs-Algorithmen
teilen daher typischerweise zuerst die Bandbreite des zu kodierenden
Audiosignals in zwei Frequenzbänder.
Das niedrigere Frequenzband wird dann unabhängig durch einen so genannten
Kerncodec verarbeitet, während das
höhere
Frequenzband unter Verwendung der Kenntnis über die Kodierungsparameter
und die Signale aus dem niedrigeren Frequenzband verarbeitet wird.
Die Verwendung von Parametern aus der Niederfrequenzband-Kodierung
in der Hochfrequenzband-Kodierung reduziert die Bitrate erheblich,
die sich bei der Hochbandkodierung ergibt.
-
1 stellt
ein typisches Teilband-Kodierungs- und Dekodierungssystem dar. Das
System umfasst einen Audiocodierer 10 und einen Audiodecoder 20.
Der Audiocodierer 10 beinhaltet eine Zwei-Band-Analysefilterbank 11,
einen Niederbandcodierer 12 und einen Hochbandcodierer 13.
Der Audiodecoder 20 beinhaltet einen Niederbanddecoder 21,
einen Hochbanddecoder 22 und eine Zwei-Band-Synthesefilterbank 23.
Der Niederbandcodierer 12 und -decoder 21 können beispielsweise Codierer
und Decoder nach dem "adaptive
Multiraten-Breitband" (AMR-WB:
Adaptive-Multi-Rate-Wideband)
Standard sein, während
der Hochbandcodierer 13 und -decoder 22 entweder
einen unabhängigen
Kodierungsalgorithmus, einen Bandbreitenerweiterungs-Algorithmus oder
eine Kombination beider aufweisen können. Als Beispiel wird angenommen,
dass das dargestellte System den erweiterten AMR-WB-Codec (AMR-WB+) als Teilband-Kodierungsalgorithmus
verwendet.
-
Ein
Eingangsaudiosignal 1 wird zuerst durch die Zwei-Band-Analysefilterbank 11 verarbeitet,
in der das Audiofrequenzband in ein niedrigeres Frequenzband und
ein höheres
Frequenzband geteilt wird. Zur Veranschaulichung stellt 2 ein
Beispiel einer Frequenzantwort einer Zwei-Band-Filterbank für den Fall
von AMR-WB+ dar. Ein 12-kHz-Audioband wird auf ein Band L von 0
kHz bis 6,4 kHz und ein Band H von 6,4 kHz bis 12 kHz aufgeteilt.
In der Zwei-Band-Analysefilterbank 11 werden die sich ergebenden
Frequenzbänder
außerdem
kritisch heruntergetaktet. Das heißt, das Niederfrequenzband
wird auf 12,8 kHz heruntergetaktet und das Hochfrequenzband wird
auf 11,2 kHz neu getaktet.
-
Das
Niederfrequenzband und das Hochfrequenzband werden dann unabhängig voneinander durch
den Niederbandcodierer 12 bzw. den Hochbandcodierer 13 kodiert.
-
Der
Niederbandcodierer 12 umfasst zu diesem Zweck vollständige Quellsignal-Kodierungs-Algorithmen.
Die Algorithmen beinhalten einen Algorithmus des ACELP-Typs (Algebraic
Code Excitation Linear Prediction) und einen transformationsbasierten
Algorithmus. Der tatsächlich
eingesetzte Algorithmus wird auf den Signalcharakteristika des jeweiligen
Eingangsaudiosignals basierend ausgewählt. Der ACELP-Algorithmus
wird typischerweise zur Kodierung von Sprachsignalen und Transienten
ausgewählt,
während
der transformationsbasierte Algorithmus typischerweise zur Kodierung
von Musik und tonähnlichen
Signalen ausgewählt
wird, um die Frequenzauflösung
besser zu handhaben.
-
Bei
einem AMR-WB+-Codec nutzt der Hochbandcodierer 13 eine
lineare Prädiktionskodierung (LPC),
um die Spektraleinhüllende
des Hochfrequenzbandsignals zu modellieren. Das Hochfrequenzband
kann dann mittels LPC-Synthesefilterkoeffizienten,
welche die Spektralcharakteristika des synthetisierten Signals definieren,
und Verstärkungsfaktoren
für ein
Erregersignal beschrieben werden, welche die Amplitude des synthetisierten
Hochfrequenzband-Audiosignals steuern. Das Hochbanderregersignal
wird vom Niederbandcodierer 12 kopiert. Nur die LPC-Koeffizienten
und die Verstärkungsfaktoren
werden zur Übertragung
bereitgestellt.
-
Die
Ausgabe des Niederbandcodierers 12 und die des Hochbandcodierers 13 werden
zu einem einzelnen Bitstrom 2 gemultiplext.
-
Der
gemultiplexte Bitstrom 2 wird beispielsweise durch einen
Kommunikationskanal zum Audiodecoder 20 gesendet, in dem
das Niederfrequenzband und das Hochfrequenzband getrennt dekodiert werden.
-
Im
Niederbanddecoder 21 wird die Verarbeitung im Niederbandcodierer 12 zur
Synthese des Niederfrequenzband-Audiosignals umgekehrt.
-
Im
Hochbanddecoder 22 wird durch Neutakten einer Niederfrequenzband-Erregung,
die durch den Niederbanddecoder 21 geliefert wird, auf
die Abtastrate, die im Hochfrequenzband verwendet wird, ein Erregersignal
generiert. Das heißt,
dass das Niederfrequenzband-Erregersignal
zur Dekodierung des Hochfrequenzbands wieder verwendet wird, indem das
Niederfrequenzbandsignal auf das Hochfrequenzband transponiert wird.
Alternativ könnte
zur Rekonstruktion des Hochfrequenzbandsignals ein zufälliges Erregersignal
generiert werden. Das Hochfrequenzbandsignal wird dann durch Filtern
des skalierten Erregersignals durch das Hochband-LPC-Modell rekonstruiert,
das durch die LPC-Koeffizienten definiert ist.
-
In
der Zwei-Band-Synthesefilterbank 23 werden die dekodierten
Niederfrequenzbandsignale und die Hochfrequenzbandsignale auf die
ursprüngliche Abtastfrequenz
heraufgetaktet und zu einem synthetisierten Ausgangsaudiosignal 3 kombiniert.
-
Das
Eingangsaudiosignal 1, das zu kodieren ist, kann ein Monoaudiosignal
oder ein Mehrkanalaudiosignal sein, das zumindest ein erstes und
ein zweites Kanalsignal enthält.
Ein Beispiel eines Mehrkanalaudiosignals ist ein Stereoaudiosignal,
das aus einem Signal eines linken Kanals und einem Signal eines
rechten Kanals zusammengesetzt ist.
-
Bei
Stereobetrieb eines AMR-WB+-Codecs wird das Eingangsaudiosignal
in der Zwei-Band-Analysefilterbank 11 ebenfalls in ein
Niederfrequenzbandsignal und ein Hochfrequenzbandsignal geteilt. Der
Niederbandcodierer 12 generiert ein Monosignal durch Kombinieren
der Signale des linken Kanals und der Signale des rechten Kanals
im Niederfrequenzband. Das Monosignal wird wie oben beschrieben
kodiert. Darüber
hinaus verwendet der Niederbandcodierer 12 zur Kodierung
der Differenzen der Signale des linken und der des rechten Kanals
zum Monosignal eine parametrische Kodierung. Der Hochbandcodierer 13 kodiert
den linken Kanal und den rechten Kanal getrennt durch Bestimmen
separater LPC-Koeffizienten
und Verstärkungsfaktoren
für jeden
Kanal.
-
In
dem Fall, dass das Eingangsaudiosignal 1 ein Mehrkanalaudiosignal
ist, aber das Gerät,
dem das synthetisierte Audiosignal 3 präsentiert wird, eine Mehrkanalaudioausgabe
nicht unterstützt,
muss der ankommende Mehrkanalbitstrom 2 durch den Audiodecoder 20 in
ein Monoaudiosignal umgewandelt werden. Im Niederfrequenzband ist
die Wandlung des Mehrkanalsignals in ein Monosignal unkompliziert,
da der Niederbanddecoder 21 einfach die Stereoparameter
im empfangenen Bitstrom übergehen und
nur den Monoanteil dekodieren kann. Für das Hochfrequenzband aber
ist mehr Verarbeitung erforderlich, da im Bitstrom kein separater
Monosignalanteil des Hochfrequenzbands verfügbar ist.
-
In
herkömmlicher
Weise wird der Stereobitstrom für
das Hochfrequenzband getrennt für
Signale des linken und des rechten Kanals dekodiert, und das Monosignal
wird dann durch Kombinieren der Signale des linken und des rechten Kanals
in einem Reduktionsprozess kombiniert. Dieser Ansatz ist in 3 dargestellt.
-
3 stellt
Einzelheiten des Hochbanddecoders 22 nach 1 für eine Monoaudiosignal-Ausgabe
prinzipartig dar. Der Hochbanddecoder umfasst zu diesem Zweck einen
Verarbeitungsteil für
den linken Kanal 30 und einen Verarbeitungsteil für den rechten
Kanal 33. Der Verarbeitungsteil für den linken Kanal 30 beinhaltet
einen Mischer 31, der mit einem LPC-Synthesefilter 32 verbunden
ist. Der Verarbeitungsteil für
den rechten Kanal 33 beinhaltet gleicherweise einen Mischer 34,
der mit einem LPC-Synthesefilter 35 verbunden ist. Der
Ausgang beider LPC-Synthesefilter 32, 35 ist mit
einem weiteren Mischer 36 verbunden.
-
Ein
Niederfrequenzband-Erregersignal, das durch den Niederbanddecoder 21 bereitgestellt
wird, wird jedem der beiden Mischer 31 und 34 zugeführt. Der
Mischer 31 wendet die Verstärkungsfaktoren für den linken
Kanal auf das Niederfrequenzband-Erregersignal an. Das Hochbandsignal
des linken Kanals wird dann durch den LPC-Synthesefilter 32 durch
Filtern des skalierten Erregersignals durch das Hochband-LPC-Modell
rekonstruiert, das durch die LPC-Koeffizienten
für den
linken Kanal definiert ist. Der Mischer 34 wendet die Verstärkungsfaktoren
für den
rechen Kanal auf das Niederfrequenzband-Erregersignal an. Das Hochbandsignal
des rechten Kanals wird dann durch den LPC-Synthesefilter 35 durch
Filtern des skalierten Erregersignals durch das Hochband-LPC-Modell
rekonstruiert, das durch die LPC-Koeffizienten für den rechten Kanal definiert
ist.
-
Das
rekonstruierte Hochfrequenzbandsignal des linken Kanals und das
rekonstruierte Hochfrequenzbandsignal des rechten Kanals werden
dann durch den Mischer 36 in ein Mono-Hochfrequenzbandsignal
umgewandelt, indem deren Mittelwert im Zeitbereich berechnet wird.
-
Dies
ist prinzipiell ein einfacher und funktionierender Ansatz. Jedoch
erfordert er eine getrennte Synthese mehrerer Kanäle, obgleich
letztendlich nur ein einzelnes Kanalsignal benötigt wird.
-
Dokument
US 5,274,740 beschreibt
ein Verfahren, bei dem die Parameterwerte mehrerer Kanäle vor der
Synthese kombiniert werden, wodurch die Notwendigkeit separater
Synthetisierung mehrerer Kanäle
vermieden wird.
-
Wenn
das Mehrkanal-Audioeingangssignal 1 in solch einer Weise
unbalanciert ist, dass die meiste Energie des Mehrkanalaudiosignals
auf einem der Kanäle
liegt, ergibt ein direktes Mischen mehrerer Kanäle durch Berechnen ihres Mittelwerts
eine Dämpfung
im kombinierten Signal. In einem Extremfall ist einer der Kanäle völlig still,
was zu einem Energieniveau des kombinierten Signals führt, das gleich
der Hälfte
des Energieniveaus des ursprünglichen
aktiven Eingangskanals ist.
-
Dokument
EP-A-1 377 123 beschreibt
ein Verfahren, das es ermöglicht,
dass das Energie- und/oder Lautstärkeniveau der Ausgangssignale
eines Mischers mit dem Energie- und/oder
Lautstärkesignal
der Eingangssignale eines Mischers übereinstimmt.
-
KURZDARSTELLUNG DER ERFINDUNG
-
Es
ist eine Aufgabe der Erfindung, die Verarbeitungslast zu reduzieren,
die zur Synthese eines Monoaudiosignals, basierend auf einem kodierten Mehrkanalaudiosignal,
erforderlich ist.
-
Vorgeschlagen
wird ein Verfahren zur Synthese eines Monoaudiosignals, basierend
auf einem verfügbaren,
kodierten Mehrkanalaudiosignal, wie in unabhängigem Anspruch 1 beansprucht.
-
Vorgeschlagen
wird darüber
hinaus ein Audiodecoder zur Synthese eines Monoaudiosignals, basierend
auf einem verfügbaren
kodierten Mehrkanalaudiosignal, wie in unabhängigem Anspruch 9 beansprucht.
-
Vorgeschlagen
wird darüber
hinaus ein Kodierungssystem, das zusätzlich zum vorgeschlagenen
Decoder einen Audiocodierer umfasst, der das kodierte Mehrkanalaudiosignal
liefert, wie in unabhängigem
Anspruch 17 beansprucht.
-
Vorgeschlagen
wird schließlich
ein Softwareprogrammprodukt, in dem ein Softwarecode zur Synthese
eines Monoaudiosignals, basierend auf einem verfügbaren kodierten Mehrkanalaudiosignal,
gespeichert ist, wie in unabhängigem
Anspruch 19 beansprucht. Das kodierte Mehrkanalaudiosignal umfasst
zumindest für
einen Teil des Frequenzbands eines ursprünglichen Mehrkanalaudiosignals
verschiedene Parameterwerte für
jeden Kanal des Mehrkanalaudiosignals. Der vorgeschlagene Softwarecode realisiert
die Schritte des vorgeschlagenen Verfahrens bei Ausführung in
einem Audiodecoder.
-
Das
kodierte Mehrkanalaudiosignal kann insbesondere, wenn auch nicht
ausschließlich,
ein kodiertes Stereoaudiosignal sein.
-
Die
Erfindung geht von der Erwägung
aus, dass zum Erlangen eines Monoaudiosignals eine getrennte Dekodierung
verfügbarer
mehrerer Kanäle vermieden
werden kann, wenn Parameterwerte, die für diese mehreren Kanäle verfügbar sind,
bereits im Parameterbereich vor der Dekodierung kombiniert werden.
Die kombinierten Parameterwert können dann
für die
Dekodierung eines einzelnen Kanals verwendet werden, wie in
US 5,274,740 .
-
Diese
Technik ermöglicht
das Einsparen von Verarbeitungslast an einem Decoder und verringert die
Komplexität
des Decoders. Wenn beispielsweise die mehreren Kanäle Stereokanäle sind,
die in einem Teilbandsystem verarbeitet werden, kann verglichen mit
dem für
beide Kanäle
getrennten Durchführen
der Hochfrequenzband-Synthesefilterung und dem Mischen der sich
ergebenen Signale des linken und der des rechten Kanals näherungsweise
die Hälfte
der Verarbeitungslast eingespart werden, die für eine Hochfrequenzband-Synthesefilterung
erforderlich ist.
-
In
einer Ausführungsform
der Erfindung umfassen die Parameter Verstärkungsfaktoren für jeden der
mehreren Kanäle
und lineare Vorhersagekoeffizienten für jeden der mehreren Kanäle.
-
Das
Kombinieren der Parameterwerte kann in statischer Art und Weise
realisiert werden, zum Beispiel durch allgemeines Berechnen des
Mittelwerts der verfügbaren
Parameterwerte über
alle Kanäle.
Vorteilhafterweise wird jedoch das Kombinieren der Parameterwerte
für zumindest
einen Parameter basierend auf Informationen über die jeweilige Aktivität in den
mehreren Kanälen
gesteuert. Dies ermöglicht
es, ein Monoaudiosignal mit Spektralcharakteristika und mit einem
Signalpegel so dicht wie möglich
an den Spektralcharakteristika und dem Signalpegel in einem jeweiligen
aktiven Kanal und somit eine verbesserte Audioqualität des synthetisierten Monoaudiosignals
zu erreichen.
-
Wenn
die Aktivität
in einem ersten Kanal wesentlich höher als in einem zweiten Kanal
ist, kann der erste Kanal als aktiver Kanal angenommen werden, während der
zweite Kanal als stiller Kanal angenommen werden kann, der im Grunde
genommen keinen hörbaren
Beitrag zum ursprünglichen
Audiosignal liefert. In dem Fall, dass ein stiller Kanal vorhanden
ist, werden die Parameterwerte zumindest eines Parameters beim Kombinieren
der Parameterwerte vorteilhafterweise komplett nicht berücksichtigt.
Als Folge davon wird das synthetisierte Monosignal dem aktiven Kanal ähnlich sein.
In allen anderen Fällen können die
Parameterwerte beispielsweise durch Bilden des Mittelwerts oder
eines gewichteten Mittelwerts über
alle Kanäle
kombiniert werden. Bei einem gewichteten Mittelwert steigt die Gewichtung,
die einem Kanal zugeordnet ist, mit seiner relativen Aktivität im Vergleich
zum anderen Kanal oder zu den anderen Kanälen an. Andere Verfahren können ebenso zum
Realisieren des Kombinierens verwendet werden. In gleicher Weise
können
Parameterwerte für
einen stillen Kanal, die nicht zu verwerfen sind, mit den Parameterwerten
eines aktiven Kanals durch Mitteln oder irgendein anderes Verfahren
kombiniert werden.
-
Verschiedene
Arten von Information können die
Information über
die jeweilige Aktivität
in den mehreren Kanälen
bilden. Sie kann beispielsweise durch einen Verstärkungsfaktor
für jeden
der mehreren Kanäle,
durch eine Kombination von Verstärkungsfaktoren über einen
kurzen Zeitabschnitt für
jeden der mehreren Kanäle
oder durch lineare Vorhersagekoeffizienten für jeden der mehreren Kanäle gegeben
sein. Die Aktivitätsinformation
kann gleicherweise durch das Energieniveau in zumindest einem Teil
des Frequenzbandes des Mehrkanalaudiosignals für jeden der mehreren Kanäle oder
durch separate Nebeninformation über
die Aktivität
gegeben sein, die von einem Codierer empfangen wird, welcher das
kodierte Mehrkanalaudiosignal liefert.
-
Zum
Erlangen des kodierten Mehrkanalaudiosignals kann ein ursprüngliches
Mehrkanalaudiosignal beispielsweise in ein Niederfrequenzbandsignal und
ein Hochfrequenzbandsignal geteilt werden. Das Niederfrequenzbandsignal
kann dann in herkömmlicher
Art und Weise kodiert werden. Auch kann das Hochfrequenzbandsignal
für die
mehreren Kanäle
in herkömmlicher
Art und Weise getrennt kodiert werden, was Parameterwerte für jeden
der mehreren Kanäle
ergibt. Zumindest der kodierte Hochfrequenzbandanteil des kodierten
Mehrkanalaudiosignals kann dann gemäß der Erfindung behandelt werden.
-
Es
versteht sich jedoch, dass in gleicher Weise Mehrkanal-Parameterwerte
eines Niederfrequenzbandanteils des gesamten Signals gemäß der Erfindung
behandelt werden können,
um ein Ungleichgewicht zwischen dem Niederfrequenzband und dem Hochfrequenzband,
beispielsweise ein Ungleichgewicht im Signalpegel, zu verhindern.
Alternativ könnten
die Parameterwerte für
stille Kanäle
im Hochfrequenzband, die den Signalpegel beeinflussen, nicht prinzipiell
verworfen werden, sondern nur die Parameterwerte für stille
Kanäle,
welche die Spektralcharakteristika des Signals beeinflussen.
-
Die
Erfindung kann beispielsweise, wenn auch nicht ausschließlich, in
einem AMR-WB+-basierten Kodierungssystem implementiert werden.
-
Andere
Aufgaben und Merkmale der vorliegenden Erfindung werden aus der
nachstehenden detaillierten Beschreibung, betrachtet in Verbindung mit
den beiliegenden Zeichnungen, offensichtlich.
-
KURZBESCHREIBUNG DER FIGUREN
-
1 ist
ein schematisches Blockschaltbild eines Teilband-Kodierungssystems;
-
2 ist
ein Diagramm der Frequenzantwort einer Zwei-Band-Filterbank;
-
3 ist
ein Schematisches Blockschaltbild eines herkömmlichen Hochbanddecoders für Stereo-Mono-Wandlung;
-
4 ist
ein Schematisches Blockschaltbild eines Hochbanddecoders für Stereo-Mono-Wandlung;
-
5 ist
ein Diagramm, das die Frequenzantwort für Stereosignale und für das Monosignal darstellt,
das sich mit dem Hochbanddecoder nach 4 ergibt;
-
6 ist
ein Schematisches Blockschaltbild eines Hochbanddecoders für Stereo-Mono-Wandlung
gemäß einer
Ausführungsform
der Erfindung;
-
7 ist
ein Ablaufdiagramm, das den Betrieb in einem System unter Verwendung
des Hochbanddecoders nach 6 darstellt;
-
8 ist
ein Ablaufdiagramm, das eine erste Option für die Parameterkombinierung
im Ablaufdiagramm nach 7 darstellt; und
-
9 ist
ein Ablaufdiagramm, das eine zweite Option für die Parameterkombinierung
im Ablaufdiagramm nach 7 darstellt.
-
DETAILLIERTE BESCHREIBUNG
DER ERFINDUNG
-
Es
wird angenommen, dass die Erfindung im System nach 1 implementiert
ist, worauf daher auch nachstehend Bezug genommen wird. Ein Stereoeingangsaudiosignal 1 wird
dem Audiocodierer 10 zur Kodierung bereitgestellt, während durch
den Audiodecoder 20 ein dekodiertes Monoaudiosignal 3 zur
Präsentation
bereitzustellen ist.
-
Um
ein derartiges Monoaudiosignal 3 mit geringer Verarbeitungslast
bereitstellen zu können, kann
der Hochbanddecoder 22 des Systems wie folgt realisiert
sein.
-
4 ist
ein Schematisches Blockschaltbild dieses Hochbanddecoders 22.
Ein Niederbanderregereingang des Hochbanddecoders 22 ist über einen Mischer 40 und
einen LPC-Synthesefilter 41 mit dem Ausgang des Hochbanddecoders 22 verbunden.
Der Hochbanddecoder 22 umfasst zusätzlich einen Verstärkungsmittelwert-Berechnungsblock 42,
der mit dem Mischer verbunden ist, und einen LPC-Mittelwert-Berechnungsblock 43,
der mit dem LPC-Synthesefilter 41 verbunden ist.
-
Das
System arbeitet wie folgt.
-
Eine
Stereosignaleingabe in den Audiocodierer 10 wird durch
die Zwei-Band-Analysefilterbank 11 in ein Niederfrequenzband
und ein Hochfrequenzband geteilt. Ein Niederbandcodierer 11 kodiert
das Niederfrequenzband-Audiosignal
wie oben beschrieben. Ein AMR-WB+-Hochbandcodierer 12 kodiert das
Hochbandstereosignal getrennt für
linke und rechte Kanäle.
Genauer gesagt bestimmt er Verstärkungsfaktoren
und lineare Vorhersagekoeffizienten für jeden Kanal wie oben beschrieben.
-
Das
kodierte Mono-Niederfrequenzbandsignal, die Stereo-Niederfrequenzband-Parameterwerte und
die Stereo-Hochfrequenzband-Parameterwerte werden
in einem Bitstrom 2 zum Audiodecoder 20 gesendet.
-
Der
Niederbanddecoder 21 empfängt den Niederfrequenzbandanteil
des Bitstroms zur Dekodierung. Bei dieser Dekodierung lässt er die
Stereoparameter aus und dekodiert nur den Monoanteil. Das Ergebnis
ist ein Mono-Niederfrequenzband-Audiosignal.
-
Der
Hochbanddecoder 22 empfängt
einerseits die Hochfrequenzband-Parameterwerte aus dem gesendeten
Bitstrom und andererseits das Niederbanderregersignal, das durch
den Niederbanddecoder 21 ausgegeben wird.
-
Die
Hochfrequenzband-Parameter umfassen jeweils einen Verstärkungsfaktor
des linken Kanals, einen Verstärkungsfaktor
des rechten Kanals, LPC-Koeffizienten des linken Kanals und LPC-Koeffizienten
des rechten Kanals. Im Verstärkungsmittelwert-Berechnungsblock 42 werden
die jeweiligen Verstärkungsfaktoren
für den
linken Kanal und den rechten Kanal gemittelt, und der mittlere Verstärkungsfaktor
wird durch den Mischer 40 zum Skalieren des Niederbanderregersignals
verwendet. Das sich ergebene Signal wird zur Filterung an den LPC-Synthesefilter 41 geliefert.
-
Im
LPC-Mittelwert-Berechnungsblock 43 werden die jeweiligen
linearen Vorhersagekoeffizienten für den linken Kanal und den
rechten Kanal kombiniert. Bei AMR-WB+ kann die Kombination der LPC-Koeffizienten
von beiden Kanälen
zum Beispiel durch Berechnen des Mittelwerts über die empfangenen Koeffizienten
im Immittanzspektralpaar (ISP: Immittance Spectral Pair)-Bereich
erfolgen. Die gemittelten Koeffizienten werden dann zum Konfigurieren des
LPC-Synthesefilters 41 verwendet, von dem das Niederbanderregersignal
behandelt wird.
-
Das
skalierte und gefilterte Niederbanderregersignal bildet das gewünschte Mono-Hochbandaudiosignal.
-
Das
Mono-Niederbandaudiosignal und das Mono-Hochbandaudiosignal werden in der Zwei-Band-Synthesefilterbank 23 kombiniert,
und das sich ergebende synthetisierte Signal 3 wird zur Präsentation
ausgegeben.
-
Verglichen
mit einem System, das den Hochbandcodierer nach 3 verwendet,
weist ein System, das den Hochbandcodierer nach 4 verwendet,
den Vorteil auf, dass es nur näherungsweise
die halbe Verarbeitungsleistung zum Generieren des synthetisierten
Signals benötigt,
da dieses nur einmal generiert wird. Es ist zu beachten, dass im
Falle eines Stereoaudioeingangs, der ein aktives Signal in nur einem
der Kanäle
aufweist, das oben erwähnte Problem
einer möglichen
Dämpfung
im kombinierten Signal allerdings bestehen bleibt.
-
Außerdem bringt
bei Stereo-Audioeingangssignalen mit nur einem aktiven Kanal das
Mitteln linearer Vorhersagekoeffizienten die unerwünschte Nebenwirkung
des „Abflachens" des Spektrums im
sich ergebenden kombinierten Signal mit sich. Statt die Spektralcharakteristika
des aktiven Kanals aufzuweisen, weist das kombinierte Signal aufgrund
der Kombination des „realen" Spektrums des aktiven
Kanals und eines praktisch flachen oder zufallsähnlichen Spektrums des stillen
Kanals etwas verzerrte Spektralcharakteristika auf.
-
Dieser
Effekt ist in 5 dargestellt. 5 ist
ein Diagramm, das die Amplitude über
der Frequenz für
drei unterschiedliche LPC-Synthesefilter-Frequenzantworten abbildet,
berechnet über
einen Rahmen von 80 ms. Eine durchgezogene Linie repräsentiert
die LPC-Synthesefilter-Frequenzantwort
eines aktiven Kanals. Eine gepunktete Linie repräsentiert die LPC-Synthesefilter-Frequenzantwort eines
stillen Kanals. Eine gestrichelte Linie repräsentiert die LPC-Synthesefilter-Frequenzantwort,
die sich beim Mitteln der LPC-Module aus beiden Kanälen im ISP-Bereich
ergibt. Man sieht, dass der gemittelte LPC-Filter ein Spektrum erzeugt,
das keines der realen Spektren genau wiedergibt. In der Praxis ist dieses
Phänomen
als verringerte Audioqualität
im Hochfrequenzband zu hören.
-
Um
in der Lage zu sein, nicht nur ein Monoaudiosignal 3 bei
geringer Verarbeitungslast bereitzustellen, sondern ferner die Einschränkungen
zu vermeiden, die mit dem Hochbanddecoder nach 4 nicht
gelöst
werden, kann der Hochbanddecoder 22 des Systems nach 1 gemäß einer
Ausführungsform
der Erfindung ausgeführt
sein.
-
6 ist
ein Schematisches Blockschaltbild eines derartigen Hochbanddecoders 22.
Ein Niederbanderregereingang des Hochbanddecoders 22 ist über einen
Mischer 60 und einen LPC-Synthesefilter 61 mit
dem Ausgang des Hochbanddecoders 22 verbunden. Der Hochbanddecoder 22 umfasst
zusätzlich
eine Verstärkungsauswahllogik 62,
die mit dem Mischer 60 verbunden ist, und eine LPC-Auswahllogik 63,
die mit dem LPC-Synthesefilter 61 verbunden ist.
-
Die
Verarbeitung in einem System, das den Hochbandcodierer 22 nach 6 verwendet,
wird nun unter Bezug auf 7 beschrieben. 7 ist
ein Ablaufdiagramm, das in seinem oberen Teil die Verarbeitung im
Audiocodierer 10 und in seinem unteren Teil die Verarbeitung
im Audiodecoder 20 des Systems abbildet. Der obere Teil
und der untere Teil sind durch eine horizontale gestrichelte Linie
geteilt.
-
Eine
Stereoaudiosignaleingabe 1 in den Codierer wird durch die
Zwei-Band-Analysefilterbank 11 in ein Niederfrequenzband
und ein Hochfrequenzband geteilt. Ein Niederbandcodierer 12 kodiert
das Niederfrequenzband. Ein AMR-WB+-Hochbandcodierer 13 kodiert
das Hochfrequenzband getrennt für linke
und rechte Kanäle.
Genauer gesagt bestimmt er dedizierte Verstärkungsfaktoren und lineare
Vorhersagekoeffizienten für
beide Kanäle
als Hochfrequenzband-Parameter.
-
Das
kodierte Mono-Niederfrequenzbandsignal, die Stereo-Niederfrequenzband-Parameterwerte und
die Stereo-Hochfrequenzband-Parameterwerte werden
in einem Bitstrom 2 zum Audiodecoder 20 gesendet.
-
Der
Niederbanddecoder 21 empfängt den auf das Niederfrequenzband
bezogenen Anteil des Bitstroms 2 und dekodiert diesen Anteil.
Bei der Dekodierung lässt
der Niederbanddecoder 21 die empfangenen Stereoparameter
aus und dekodiert nur den Monoanteil. Das Ergebnis ist ein Mono-Niederbandaudiosignal.
-
Der
Hochbanddecoder 22 empfängt
einerseits einen Verstärkungsfaktor
des linken Kanals, einen Verstärkungsfaktor
des rechten Kanals, lineare Vorhersagekoeffizienten für den linken
Kanal und lineare Vorhersagekoeffizienten für den rechten Kanal und andererseits
das Niederbanderregersignal, das durch den Niederbanddecoder 21 ausgegeben
wird. Die Verstärkung
des linken Kanals und die Verstärkung
des rechten Kanals werden gleichzeitig als Kanalaktivitätsinformation
verwendet. Es ist zu beachten, dass stattdessen irgendeine andere
Kanalaktivitätsinformation,
welche die Aktivitätsverteilung
im Hochfrequenzband auf den linken Kanal und den rechten Kanal anzeigt,
als zusätzlicher
Parameter durch den Hochbandcodierer 13 bereitgestellt
werden könnte.
-
Die
Kanalaktivitätsinformation
wird ausgewertet, und die Verstärkungsfaktoren
für den
linken Kanal und den rechten Kanal werden durch die Verstärkungsauswahllogik 62 gemäß der Auswertung
zu einem einzigen Verstärkungsfaktor
kombiniert. Die ausgewählte
Verstärkung
wird dann mittels des Mischers 60 auf das Niederfrequenzband-Erregersignal
angewendet, das durch den Niederbanddecoder 21 bereitgestellt
wird.
-
Darüber hinaus
werden die LPC-Koeffizienten für
den linken Kanal und den rechten Kanal durch die LPC-Modellauswahllogik 63 gemäß der Auswertung
zu einem einzigen Satz von LPC-Koeffizienten kombiniert. Das kombinierte
LPC-Modell wird zum LPC-Synthesefilter 61 geliefert. Der
LPC-Synthesefilter 61 wendet das ausgewählte LPC-Modell auf das skalierte Niederfrequenzband-Erregersignal
an, das durch den Mischer 60 bereitgestellt wird.
-
Das
sich ergebende Hochfrequenzband-Audiosignal wird dann in der Zwei-Band-Synthesefilterbank 23 mit
dem Mono-Niederfrequenzband-Audiosignal
zu einem Mono-Vollbandaudiosignal
kombiniert, das zur Präsentation
durch ein Gerät
oder eine Anwendung ausgegeben werden kann, das nicht zur Verarbeitung
von Stereoaudiosignalen fähig
ist.
-
Die
vorgeschlagene Auswertung der Kanalaktivitätsinformation und die nachfolgende
Kombination der Parameterwerte, die im Ablaufdiagramm nach 7 als
Block mit Doppellinien angegeben sind, können auf unterschiedliche Weisen
implementiert sein. Zwei Optionen werden unter Bezug auf die Ablaufdiagramme
nach 8 und 9 vorgestellt.
-
Bei
der ersten Option, die in 8 dargestellt
ist, werden die Verstärkungsfaktoren
für den
linken Kanal zuerst über
die Dauer eines Rahmens gemittelt, und in gleicher Weise werden
die Verstärkungsfaktoren
für den
rechten Kanal über
die Dauer eines Rahmens gemittelt.
-
Die
gemittelte Verstärkung
des rechten Kanals wird dann von der gemittelten Verstärkung des linken
Kanals subtrahiert, woraus sich für jeden Rahmen eine gewisse
Verstärkungsdifferenz
ergibt.
-
In
dem Fall, dass die Verstärkungsdifferenz kleiner
als ein erster Schwellwert ist, werden die kombinierten Verstärkungsfaktoren
für diesen
Rahmen gleich den Verstärkungsfaktoren
gesetzt, die für
den rechten Kanal bereitgestellt sind. Darüber hinaus werden die kombinierten
LPC-Modelle für
diesen Rahmen als den LPC-Modellen
gleich gesetzt, die für den
rechten Kanal bereitgestellt sind.
-
In
dem Fall, dass die Verstärkungsdifferenz größer als
ein zweiter Schwellwert ist, werden die kombinierten Verstärkungsfaktoren
für diesen
Rahmen gleich den Verstärkungsfaktoren
gesetzt, die für den
linken Kanal bereitgestellt sind. Darüber hinaus werden die kombinierten
LPC-Modelle für
diesen Rahmen als den LPC-Modellen
gleich gesetzt, die für den
linken Kanal bereitgestellt sind.
-
In
allen anderen Fällen
werden die kombinierten Verstärkungsfaktoren
für diesen
Rahmen gleich dem Mittelwert über
den jeweiligen Verstärkungsfaktor
für den
linken Kanal und den jeweiligen Verstärkungsfaktor für den rechten
Kanal gesetzt. Die kombinierten LPC-Modelle für diesen Rahmen werden als
dem Mittelwert über
das jeweilige LPC-Modell für
den linken Kanal und das jeweilige LPC-Modell für den rechten Kanal gleich
gesetzt.
-
Der
erste Schwellwert und der zweite Schwellwert werden abhängig von
der geforderten Empfindlichkeit und der Art der Anwendung ausgewählt, für die die
Stereo-Mono-Wandlung
benötigt wird.
Geeignete Werte sind beispielsweise –20 dB für den ersten Schwellwert und
20 dB für
den zweiten Schwellwert.
-
Somit
werden, wenn während
eines jeweiligen Rahmens aufgrund der großen Differenzen in den mittleren
Verstärkungsfaktoren
einer der Kanäle als
stiller Kanal angesehen werden kann, während der andere Kanal als
aktiver Kanal angesehen werden kann, die Verstärkungsfaktoren und LPC-Modelle
des stillen Kanals für
die Dauer des Rahmens nicht berücksichtigt.
Dies ist möglich,
da der stille Kanal keinen hörbaren
Beitrag zur gemischten Audioausgabe aufweist. Eine derartige Kombination
von Parameterwerten stellt sicher, dass die Spektralcharakteristika
und die Signalpegel so nahe wie möglich am jeweiligen aktiven
Kanal liegen.
-
Es
ist zu beachten, dass statt des Auslassens der Stereoparameter auch
der Niederbanddecoder kombinierte Parameterwerte bilden und sie
auf den Monoanteil des Signals anwenden könnte, genauso, wie es für die Hochfrequenzband-Verarbeitung
beschrieben ist.
-
Bei
der zweiten Option des Kombinierens von Parameterwerten, die in 9 dargestellt
ist, werden die Verstärkungsfaktoren
für den
linken Kanal und die Verstärkungsfaktoren
den rechten Kanal jeweils ebenfalls über die Dauer eines Rahmens
gemittelt.
-
Die
gemittelte Verstärkung
des rechten Kanals wird dann von der gemittelten Verstärkung des linken
Kanals subtrahiert, woraus sich für jeden Rahmen eine gewisse
Verstärkungsdifferenz
ergibt.
-
In
dem Fall, dass die Verstärkungsdifferenz kleiner
als ein erster, niedriger Schwellwert ist, werden die kombinierten
LPC-Modelle für
diesen Rahmen als den bereitgestellten LPC-Modellen für den rechten
Kanal gleich gesetzt.
-
In
dem Fall, dass die Verstärkungsdifferenz größer als
ein zweiter, hoher Schwellwert ist, werden die kombinierten LPC-Modelle
für diesen
Rahmen als den bereitgestellten LPC-Modellen für den linken Kanal gleich gesetzt.
-
In
allen anderen Fällen
werden die kombinierten LPC-Modelle
für diesen
Rahmen als dem Mittelwert über
das jeweilige LPC-Modell für
den linken Kanal und das jeweilige LPC-Modell für den rechten Kanal gleich
gesetzt.
-
Die
kombinierten Verstärkungsfaktoren
für den
Rahmen werden in jedem Fall gleich dem Mittelwert über den
jeweiligen Verstärkungsfaktor
für den linken
Kanal und den jeweiligen Verstärkungsfaktor für den rechten
Kanal gesetzt.
-
Die
LPC-Koeffizienten weisen eine direkte Wirkung nur auf die Spektralcharakteristika
des synthetisierten Signals auf. Das Kombinieren lediglich der LPC-Koeffizienten
ergibt somit die gewünschten Spektralcharakteristika,
löst aber
das Problem der Signaldämpfung
nicht. Dies hat jedoch den Vorteil, dass das Gleichgewicht zwischen
dem Niederfrequenzband und dem Hochfrequenzband bewahrt wird, falls
das Niederfrequenzband nicht gemäß der Erfindung
gemischt wird. Das Bewahren des Signalpegels im Hochfrequenzband
würde das
Gleichgewicht zwischen den Niederfrequenzbändern und den Hochfrequenzbändern durch
Einführen
relativ zu lauter Signale in das Hochfrequenzband ändern, was
zu einer möglicherweise
reduzierten subjektiven Audioqualität führt.