[go: up one dir, main page]

DE60224005T2 - Verfahren und vorrichtung zur verarbeitung von mehreren audiobitströmen - Google Patents

Verfahren und vorrichtung zur verarbeitung von mehreren audiobitströmen Download PDF

Info

Publication number
DE60224005T2
DE60224005T2 DE60224005T DE60224005T DE60224005T2 DE 60224005 T2 DE60224005 T2 DE 60224005T2 DE 60224005 T DE60224005 T DE 60224005T DE 60224005 T DE60224005 T DE 60224005T DE 60224005 T2 DE60224005 T2 DE 60224005T2
Authority
DE
Germany
Prior art keywords
audio
flow
flows
missing data
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60224005T
Other languages
English (en)
Other versions
DE60224005D1 (de
Inventor
Abdellatif Benjelloun Touimi
Cedric Boisseau
Claude Lamblin
Franck Bouteille
David Deleam
Roland Patard
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of DE60224005D1 publication Critical patent/DE60224005D1/de
Application granted granted Critical
Publication of DE60224005T2 publication Critical patent/DE60224005T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/20Arrangements for detecting or preventing errors in the information received using signal quality detector
    • H04L1/208Arrangements for detecting or preventing errors in the information received using signal quality detector involving signal re-encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/20Arrangements for detecting or preventing errors in the information received using signal quality detector
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die vorliegende Erfindung betrifft allgemein ein Verfahren und eine Vorrichtung zur Verarbeitung eines Audiosignals. Genauer bezieht sich die vorliegende Erfindung auf ein Verfahren und eine Vorrichtung zur Verarbeitung mehrerer binärer Audioflüsse, die Diskontinuitäten aufweisen können. Die vorliegende Erfindung findet insbesondere Anwendung auf dem Gebiet der Telekonferenz.
  • Nachfolgend wird Audiobitstrom oder kurz Audiofluss jede Folge von Audiorahmen genannt, wie sie von einem Audioquellen-Codierer geliefert werden. Dieser Bitstrom wird allgemein über ein Netz befördert, ehe er in einem Audioempfänger decodiert wird, wodurch die Reproduktion des Signals der Audioquelle ermöglicht wird.
  • Da die Qualität der Übertragungsnetze und der Typ der Sender von der Gestaltung der Empfänger unabhängig sind, kann es vorkommen, dass Daten eines Audioflusses in dem Moment nicht vorhanden sind, in dem sie decodiert werden sollen und in dem das entsprechende Signal reproduziert werden soll. Dann tritt eine Diskontinuität im empfangenen Audiofluss auf. Das Problem tritt besonders akut in den Einrichtungen auf, die mehrere Audioflüsse verarbeiten sollen, wie die Telekonferenzbrücken, die Gateways oder auch die Telekonferenz-Terminals. Diese Einrichtungen müssen in der Lage sein, mehrere Flüsse zu verwalten, die von Codierern unterschiedlichen Typs kommen können und möglicherweise über heterogene, synchrone (ISDN, RTC, ..) oder asynchrone Netze (PP, ATM, Frame Relay ...) gegangen sind.
  • Allgemein kann eine Diskontinuität in einem Audiofluss durch einen Verlust eines Teils der Daten des Audioflusses, das Jitter und/oder durch einen Asynchronismus zwischen dem Sender und dem Empfänger oder auch durch eine unterbrochene Sendung des Senders entstehen. Die drei oben erwähnten Situationen werden nacheinander in Betracht gezogen.
  • Der Verlust eines Teils des Audioflusses entspricht im Allgemeinen dem Verlust eines oder mehrerer Rahmen, wobei die Länge der Rahmen von der Codierung und dem für jedes Netz spezifischen Übertragungsmodus abhängt. Zum Beispiel in einem Netz mit Paketvermittlung (Fall der IP-Netze) ist die Dienstqualität im Allgemeinen nicht garantiert. Das Netz gewährleistet keinen Mindestschwellwert bezüglich der für den Transport der Pakete angebotenen Bitrate. Die verfügbare Bandbreite hängt von den Bedingungen des Verkehrs im Netz ab. Im Fall einer starken Überlastung ist die flüssige Übertragung nicht mehr möglich. Ein Überlauf der Pufferspeicher der Router kann also auftreten und bestimmte Pakete können zurückgewiesen werden.
  • Das Jitter entspricht der Veränderung der Übertragungsverzögerung zwischen der Sendereinrichtung und der Empfängereinrichtung. Da der Audiofluss kontinuierlich verarbeitet oder reproduziert werden muss, kann diese Verzögerungsveränderung die Abwesenheit von Daten im vom Empfänger geforderten Moment nach sich ziehen. Diese Abwesenheit kann ebenfalls durch den Asynchronismus zwischen dem Empfänger und dem Sender verursacht werden, zum Beispiel, wenn der Taktgeber des Senders eine schwächere Frequenz hat als derjenige des Empfängers.
  • Bestimmte Audiosender umfassen ein System der Komprimierung der Pausen, das einem diskontinuierlichen Sendemechanismus zugeordnet ist, um die während der Pausenintervalle übertragene Bitrate zu reduzieren und so die der Kommunikation zugeteilte Bandbreite zu erhalten. Diese Systeme basieren auf einer Struktur VAD/DTX/CNG (Voice Activity Detector/Discontinuous Transmission/Comfort Noise Generator). Senderseitig klassifiziert ein Sprachaktivitätsdetektor (VAD) jeden Rahmen als aktiv oder nicht aktiv. Bei einem nicht aktiven Rahmen entscheidet ein Modul der unterbrochenen Übertragung entweder, die Sprachaktivität zu verlängern ("hangover"), um eine zu abrupte Unterbrechung am Ende einer aktiven Periode zu vermeiden, oder einen Rahmen SID zu senden oder nicht (Silence Insertion Descriptor). Dieser Rahmen SID enthält codierte Informationen, die die Merkmale des Hintergrundrauschens beschreiben, um im Empfänger während der Inaktivitätsperioden die Einfügung von künstlichem Rauschen zu erlauben. Je nachdem können die Merkmale des Hintergrundrauschens während der Periode der Sprachinaktivität aktualisiert werden oder nicht. Die Aktualisierungsfrequenz (Senden von Rahmen von SID) hängt auch vom System der unterbrochenen Übertragung DTX ab: Bestimmte DTX senden einen Rahmen SID in regelmäßigen Abständen (GSM), andere senden einen Rahmen SID nur, wenn das Rauschleistungsspektrum sich verändert hat (UIT-T G.723.1). Wenn das System die Merkmale des Hintergrundrauschens nicht aktualisiert, kann die Information des Endes einer Sprachaktivitätsperiode im letzten gesendeten Rahmen angezeigt werden oder nicht. Schließlich senden bestimmte Audiosender, die im Modus DTX arbeiten, weder einen Rahmen SID, noch liefern sie eine Information über das Ende einer Sprachaktivitätsperiode. Der Empfänger muss dann in der Lage sein, die Abwesenheit einer Sprachaktivität durch Analyse der empfangenen Flüsse zu erfassen.
  • Der Fall, in dem eine Information SID tatsächlich übertragen wird, ist der einzige Fall, in dem der Empfänger den wahrscheinlichen Grund der Diskontinuität des Audioflusses kennt. In den anderen Fällen (Verlust, Jitter, unterbrochene Sendung ohne Senden einer Information SID) kennt der Empfänger nicht den Grund der Diskontinuität in dem Moment, in dem er das entsprechende Signal verarbeiten oder reproduzieren soll. Manche Protokolle ermöglichen es aber, bei der Wiederaufnahme des Empfangs zu wissen, ob die Diskontinuität durch einen Verlust von Paketen, das Jitter oder eine unterbrochene Sendung verursacht wurde. Zum Beispiel das Protokoll RTP (Real time Transport Protocol) enthält in seiner "Kontroll"-Kopfzeile eine Sequenznummer und einen Zeitstempel (Time Stamp). Die Untersuchung der Hilfsinformationen der zu beiden Seiten der Diskontinuität empfangenen Pakete ermöglicht es, den Grund für letztere zu identifizieren. Nicht aufeinanderfolgende Sequenznummern zeigen an, dass die Diskontinuität wahrscheinlich durch einen Paketverlust verursacht wurde (es sei denn, es ist ein großes Jitter vorhanden). Die Zeitpunkte der Erzeugung von von den Zeitstempeln gelieferten Daten ermöglichen es, zwischen einem Jitter und einer Diskontinuität der Sendung zu unterscheiden.
  • Im Stand der Technik wurden mehrere Lösungen erbracht, um das durch eine Diskontinuität in einem Audiofluss erzeuge Problem zu lösen.
  • Eine triviale Lösung ist es, die fehlenden Rahmen nicht zu regenerieren, zum Preis einer starken Qualitätsverschlechterung des wiederhergestellten Tonsignals, die sich durch Knackgeräusche äußert, die das Verständnis der Sprache schwierig und das Hören der Musik unangenehm machen.
  • Andere Lösungen bestehen darin, alle fehlenden Rahmen zu regenerieren.
  • Wenn die Fluss-Diskontinuität durch einen Verlust von IP-Paketen verursacht wird, gibt der Artikel von C. Perkins et al. mit dem Titel "A survey of packet loss recovery techniques for streaming audio", veröffentlicht in IEEE Network, Sept.-Okt. 1998, eine Übersicht über existierende Techniken der Regenerierung.
  • Allgemeiner gesagt, wenn ein Audiofluss bei seinem Empfang eine Diskontinuität aufgrund eines Paketverlusts oder eines starken Jitters im Übertragungsnetz aufweist, ist es bekannt, die verlorenen oder exzessiv verzögerten Daten zu regenerieren, entweder durch Zuhilfenahme des Senders und/oder der Zwischenknoten des Netzes, oder direkt in Höhe des Empfängers. Unter den Verfahren des ersten Typs kann man insbesondere dasjenige erwähnen, das von Yao et al. in dem Artikel mit dem Titel "Experiment with error-correcting RTP gateways", veröffentlicht in IEEE 3rd Workshop an Multimedia Signal Processing, Seiten 15–20 vorgeschlagen wird, das durch Fehlerkorrektur FEC (Forward Error Correction) und Anforderungen mit automatischer Wiederholung (ARQ) an Zwischenknoten des Netzes vorgeht. Diese Technik hat aber den Nachteil, eine redundante Information der Fehlererfassung/Fehlerkorrektur zu benötigen und daher zusätzliche Übertragungsressourcen zu mobilisieren. Die in Höhe des Empfängers angewendeten Regenerierungsverfahren können durch Interpolation zwischen den decodierten Signalen vor und nach der Diskontinuität, oder auch durch Synthese ausgehend von einer Schätzung der Parameter des Codierers vorgehen. Diese letzteren Verfahren setzen voraus, dass die Regenerierungsvorrichtung den Codieralgorithmus kennen.
  • Wenn die Diskontinuität des empfangenen Flusses als Ursprung eine Sendepause hat, verwenden die geläufigsten Regenerierungsverfahren die Erzeugung eines Komfortrauschens ausgehend von einer Information, die die Merkmale des Hintergrundrauschens beschreibt (SID). Sie können vom verwendeten Codetyp abhängen (UIT-T G.723.1, UIT-T G.729, Codierer GSM) oder von diesem letzteren unabhängig sein (Anhang II von G.711).
  • Die Durchführung der oben beschriebenen Regenerierungstechniken erhöht die Komplexität der Vorrichtungen zur Audioverarbeitung und genauer der Mehrfluss-Verarbeitungsvorrichtungen. Außerdem führt die systematische Regenerierung aller nicht empfangenen Flüsse nicht nur zu einer Erhöhung der Komplexität, sondern läuft auch Gefahr, die Qualität zu verschlechtern, wenn der Codierer wenig leistungsfähig für Mehrfachquellen-Signale ist, oder wenn er den Kaskaden der Umcodierung schlecht widersteht. Dies ist insbesondere der Fall, wenn die verwendete Codierung vom Typ CELP (Code Excited Linear Predictive) mit geringer Bitrate ist.
  • Allgemein empfängt eine Vorrichtung zur Mehrfluss-Verarbeitung mehrere binäre Audioflüsse, die zum Beispiel von verschiedenen Quellen stammen, und erzeugt einen oder mehrere Ausgangsaudioflüsse ausgehend von den Eingangsflüssen. Die von einer solchen Vorrichtung durchgeführte Verarbeitung kann in nicht einschränkender Weise ein Misch- oder Multiplexiervorgang im codierten oder nicht codierten Bereich, ein Decodier-, Umcodiervorgang oder auch eine Kombination der oben erwähnten Vorgänge sein; siehe z. B. Dokument JP11284582 .
  • Nachfolgend werden zwei Beispiele einer Mehrfluss-Verarbeitungsvorrichtung vorgestellt, die auf dem Gebiet der Telekonferenz verwendet werden, nämlich eine Audiobrücke und ein Audioterminal.
  • In Zusammenhang mit der Telekonferenz, die eine zentralisierte Architektur verwendet, führt die Mehrpunkt-Kontrolleinheit (MCU), auch Audiobrücke genannt, die Kombination (oder das Mischen) mehrerer Audioflüsse und dann das Routen zu den betroffenen Terminals durch. 1 veranschaulicht eine solche Audiobrücke. Ausgehend von K empfangenen Eingangsaudioflüssen E1, ..., EK liefert die Brücke K Ausgangsaudioflüsse S1, ..., SK durch Kombination der Eingangsflüsse im Modul (130). Für einen gegebenen Ausgangsindex m wird die Summe der (K – 1) Eingangsflüsse (Ep), p ≠ m zum Ausgang Sm geleitet. Vor ihrer Kombination werden die Eingangsflüsse in den Decodierern 1101 , 1102 , ..., 110K decodiert oder teilweise decodiert. Umgekehrt erfahren die Ausgangsflüsse eine Neucodierung oder eine teilweise Neucodierung in den Codierern 1201 , 1202 , ..., 120K . Die Eingangsflüsse Ep bestehen aus Rahmen von codierten Audiodaten.
  • Die verwendete Codierung kann eine Wahrnehmungscodierung sein, die eine veränderte diskrete Cosinustransformation (TCDM) an den digitalen Rahmen des Audiosignals, gefolgt von einer Quantisierung der erhaltenen Frequenzkomponenten mit dynamischer Zuweisung von Bits in Abhängigkeit von den Pegeln der Verdeckung durch Subbänder durchführt. Ein auf diesem Prinzip basierender Wahrnehmungscodierer, der Codierer TDAC von FT R&D, wurde in dem Vorschlag "High level description for ITU-T wideband (7 kHz) ATCELP speech coding algorithm of Deutsche Telekom, Aachen University of Technology (RWTH) and France Telecom (CNET)", delayed contribution COM 16–129/130, ITU Study Group 16, Q.20, Genf, Januar 1998 beschrieben. Die Struktur dieses Wahrnehmungscodierers ist in 2 veranschaulicht. Die zu codierenden Audiorahmen x(n) sind zunächst Gegenstand einer veränderten diskreten Cosinustransformation (TCDM) in der Einheit 200, die vorgesehen ist, um die Koeffizienten y(k) dieser Transformation zu liefern. Der Codierer weist ebenfalls einen Stimmhaftigkeits-Detektor 210 auf, der bestimmt, ob der Eingangsrahmen stimmhaft ist oder nicht und eine binäre Stimmhaftigkeitsinformation v liefert. Er weist auch einen Tondetektor 220 auf, der ausgehend von den von der Einheit 200 gelieferten Transformationskoeffizienten bestimmt, ob der Eingangsrahmen tonal ist oder nicht, und eine binäre Toninformation t liefert. Eine Verdeckungseinheit 230 empfängt die Transformationskoeffizienten y(k), berechnet eine Verdeckungskurve und liefert für jeden Koeffizienten eine Verdeckungsinformation, je nachdem, ob er über der Verdeckungsschwelle liegt oder nicht. Auf der Basis dieser Verdeckungsinformation sowie derjenigen der Ton- und Stimmhaftigkeitsinformationen bestimmt eine Einheit 240 die Energie in jedem der Bänder j = 1, ..., M mehrerer unregelmäßiger Spektralbänder M und liefert, quantisiert und codiert, ein spektrales Hüllkurvensignal des Eingangsrahmens, nämlich {eq(j)}, j = 1, ..., M. Dieses Hüllkurvensignal wird von der Einheit 260 verwendet, um dynamisch eine Anzahl von Quantisierungsbits pro Subband zuzuweisen. Die Einheit 250 normalisiert jeden Transformationskoeffizient y(k) durch die Energie eq(j) des Subbands, zu dem er gehört, und quantisiert jeden so normalisierten Koeffizienten in Abhängigkeit von der Anzahl von zugewiesenen Bits. Die verwendete Quantisierung kann skalar oder vektoriell sein. Die quantisierten Transformationskoeffizienten yq(k), das quantisierte spektrale Hüllkurvensignal eq(j), sowie die binären Stimmhaftigkeits- und Toninformationen v und t werden in einem Multiplexer 270 multiplexiert, um einen Rahmen von codierten Audiodaten zu bilden.
  • Wenn man nun wieder zur Audiobrücke der 1 zurückkommt, kann man in Betracht ziehen, in 110p die codierten Audiorahmen zu decodieren und die Audiosignale im Zeitbereich wiederherzustellen. Die in 130 durchgeführte Kombination der Signale wird dann ebenfalls im Zeitbereich durchgeführt, und die kombinierten Signale sind erneut Gegenstand einer Codierung in 120m gemäß dem oben beschriebenen Codierverfahren. Eine Teildecodierung wird aber bevorzugt, wobei dann nur bestimmte Parameter der Audiosignale aus diesen Rahmen entnommen werden. Die Kombination der Eingangsflüsse in der Einheit 130 erfolgt im Frequenzbereich, ohne dass eine vollständige Rekonstruktion der Signale im Zeitbereich durchgeführt werden muss. Eine solche Audiobrücke, die eine teilweise Decodierung/Neucodierung verwendet, wurde in der französischen Patentanmeldung Nr. 99 15574 beschrieben, die am 8.12.1999 im Namen der Anmelderin angemeldet wurde. Die Teildecodierer 110p haben die in 3A angezeigte Struktur, und die Teilcodierer 120m haben die in 3C veranschaulichte Struktur. Die Rekombinationseinheit 130 wurde schematisch in 3B dargestellt.
  • Der Teildecodierer der 3A weist am Eingang einen Demultiplexer 301 auf, der die quantisierten Koeffizienten yq(k), die quantisierten und codierten Energien {eq(j)} der verschiedenen Subbänder, die binären Stimmhaftigkeits- und Toninformationen v und t liefert. Die Werte der Energien werden in der Einheit 331 decodiert und dequantisiert, die hierzu die Stimmhaftigkeits- und Toninformationen v und t verwendet. Ausgehend von den so erhaltenen Werten der Energien e(j) bestimmt die Einheit 341 eine Verdeckungskurve. Die Einheit 321 führt eine dynamische Zuweisung von Bits in Abhängigkeit von den Energiewerten e(j) und der Verdeckungskurve durch, die von der Einheit 341 geliefert wird. Die Einheit 311 führt dann eine inverse Quantisierung jedes Koeffizienten yq(k) in Abhängigkeit von der Anzahl von zugewiesenen Bits und dann eine Multiplikation mit der Energie e(j) des Subbands durch, zu dem er gehört. So liefert der Teildecodierer für jeden Eingangsrahmen die Transformationskoeffizienten y(k), die Energiesignale e(j) der Subbänder und die Stimmhaftigkeits- und Ton-Binärinformationen v und t. Nachfolgend werden mit yP(k), eP(j), vP und tP die jeweiligen Ausgänge des Decodierers 110p bezeichnet.
  • Die in 3B veranschaulichte Mischeinheit 130 hat die Funktion, für einen gegebenen Indexausgang m die Eingangssignale mit den Indices p, wie zum Beispiel p ≠ m, zu kombinieren. Genauer gesagt, weist die Mischeinheit K Module 390m , m = I..K, auf, von denen nur einer dargestellt wurde. Der Modul 390m empfängt die Ausgänge der Teildecodierer 110p , p ≠ m, und führt die Berechnungen von Zwischenwerten für den Indexausgang m durch. Die Einheit 370m des Moduls 390m berechnet den Ausdruck von kombinierten Werten y m / c(k) durch y m / c(k) =Y (k) – ym(k), wobei gilt
    Figure 00100001
    In gleicher Weise berechnet die Einheit 375m des Moduls 390m den Ausdruck der kombinierten Werte
    Figure 00100002
    wobei gilt
    Figure 00100003
    Die Einheit 380m führt die Kombination der Stimmhaftigkeitsinformationen vP folgendermaßen durch: Wenn alle Eingangsrahmen p, p ≠ m, von gleicher Beschaffenheit sind, stimmhaft oder nicht stimmhaft, zeigt die kombinierte Stimmhaftigkeitsinformation v m / c die Stimmhaftigkeit oder die Nicht-Stimmhaftigkeit an. Wenn die Eingangsrahmen p, p ≠ m, von unterschiedlicher Beschaffenheit sind, berechnet die Einheit 380m die Summe der Energien der stimmhaften Rahmen einerseits und die Summe der Energien der nicht stimmhaften Rahmen andererseits, und bestimmt die kombinierte Stimmhaftigkeitsinformation v m / c durch Vergleich dieser zwei Summen. Schließlich bestimmt die Einheit 385m die kombinierte Toninformation t m / c folgendermaßen: Wenn alle Eingangsrahmen p, p ≠ m, die gleiche Toninformation haben, nimmt die kombinierte Toninformation den gemeinsamen Wert an. Wenn dagegen die Toninformationen sich unterscheiden, wird die Bestimmung der kombinierten Information in die Phase der Teilcodierung verschoben.
  • Der in 3C veranschaulichte Recodierer empfängt vom Mischmodul 130 die kombinierten Werte y m / c(k), e m / c(j), v m / c und t m / c von einem Ausgang m des Mischmoduls. Der Index m wird weggelassen, um die Begriffe zu vereinfachen. Die Toninformation wird von der Einheit 362 ausgehend von den Koeffizienten yc(k) berechnet, wenn sie nicht vom Mischmodul 130 bestimmt werden konnte. Die Werte der Energien e m / c(j) sowie die Stimmhaftigkeitsinformation vc werden von einer Codiereinheit 332 einer spektralen Hüllkurve verwendet, um die Energien der verschiedenen Subbänder zu quantisieren und zu codieren. Die Werte der Energien ec(j) werden ebenfalls von der Einheit 342 zur Berechnung der Verdeckungskurve verwendet. Letztere liefert an die Einheit zur dynamischen Zuweisung 322 sowie an die Verdeckungseinheit 352 die Verdeckungspegel für die verschiedenen Subbänder j. Die dynamische Zuweisungseinheit 322 führt eine dynamische Zuweisung von Quantisierungsbits für die verschiedenen Subbänder in Abhängigkeit von den Energien ec(j) und den Verdeckungspegeln durch. Die nicht durch die Verdeckungseinheit 352 verdeckten Koeffizienten yc(k) werden von der Requantisierungseinheit 312 in Abhängigkeit von der den verschiedenen Subbändern zugewiesenen Anzahl von Bits quantisiert. Die requantisierten Koeffizienten, die quantisierten Werte der Energien, sowie die Stimmhaftigkeits- und Toninformationen werden anschließend vom Multiplexer 302 in recodierte Audiodatenrahmen multiplexiert.
  • Nun wird ein anderes Beispiel einer Vorrichtung zur Mehrfluss-Verarbeitung beschrieben, nämlich ein Mehrfluss-Audioterminal, das für ein Telekonferenzsystem mit zentralisierter Architektur mit Audiobrücke mit Multiplex oder auch für ein Telekonferenzsystem mit vermaschter Architektur (in einer vermaschten Architektur sind alle Audioterminals punktweise verbunden) dienen kann.
  • 4 stellt ein Mehrfluss-Audioterminal dar. Es weist K – 1 Eingänge auf, wobei K die Gesamtanzahl der Terminals ist. Jeder Eingang empfängt einen Audiofluss in Form von codierten Audiodatenrahmen. Üblicherweise werden die Flüsse in Decodierern 4101 , ..., 410K-1 decodiert, ehe sie summiert werden. Wenn die verwendete Codierung einer Codierung durch Transformation ist, wie die Wahrnehmungscodierung des oben beschriebenen Typs, ist es vorteilhafter, in den Decodierern 4101 , ..., 410K-1 eine Teildecodierung durchzuführen, in 420 die Summierung im Frequenzbereich und dann die Frequenz/Zeit-Umwandlung in 460 am summierten Signal durchzuführen. Man vermeidet so eine Frequenz/Zeit-Umwandlung an jedem der Signale.
  • Wie weiter oben bereits erwähnt, können die Mehrfluss-Verarbeitungsvorrichtungen zum Beheben des Problems von Diskontinuitäten in den Audioflüssen entweder die fehlenden Daten regenerieren, zum Preis einer hohen Komplexität, oder diese Daten nicht regenerieren, indem sie im Gegenzug eine deutliche Verschlechterung des wiederhergestellten Signals akzeptieren.
  • Die vorliegende Erfindung hat zum Ziel, eine Vorrichtung mit mehreren Audioflüssen anzubieten, die fähig ist, zum Preis einer geringen Komplexität die Diskontinuitäten zu korrigieren und gleichzeitig eine hohe Wiedergabequalität zu gewährleisten.
  • Zu diesem Zweck wird die Erfindung, wie sie in den Ansprüchen 1, 7, 8 und 13 beansprucht wird, durch ein Verfahren zur Verarbeitung eines Audiosignals definiert, das mindestens einen Ausgangsaudiofluss ausgehend von mehreren Eingangsaudioflüssen erzeugt, wobei mindestens einer der Eingangsaudioflüsse, erster Fluss genannt, fehlende Daten aufweisen kann, wobei das Verfahren einen Schritt der Entscheidung über die Regenerierung mindestens eines Teils der fehlenden Daten des ersten Flusses ausgehend von mindestens einem Merkmal mindestens eines zweiten Eingangsaudioflusses aufweist.
  • Vorteilhafterweise ist das Merkmal ein Wahrnehmungsmerkmal, zum Beispiel ein Verdeckungspegel.
  • Gemäß einer Ausführungsform wird, nachdem für ein gegebenes Audio-Spektralband ein Verdeckungspegel bestimmt wurde, der von dem zweiten Fluss in das Band induziert wird, die Entscheidung zur Regenerierung der fehlenden Daten im Band in Abhängigkeit von der geschätzten Leistung des ersten Flusses im Band und des Verdeckungspegels getroffen.
  • Wenn die fehlenden Daten des ersten Flusses durch eine Sendepause verursacht werden, werden die Daten nicht regeneriert, wenn die anderen Eingangsflüsse als der erste Fluss keine fehlenden Daten haben oder wenn ihre fehlenden Daten, die nicht durch eine Sendepause verursacht wurden, regeneriert wurden.
  • Wenn die fehlenden Daten des ersten Flusses durch eine Sendepause verursacht werden und die anderen Flüsse ebenfalls fehlende Daten aufgrund einer Sendepause besitzen, wird die Entscheidung zur Regenerierung der fehlenden Daten des ersten Flusses in Abhängigkeit von der geschätzten Leistung des ersten Flusses im Band und von einem Verdeckungspegel in diesem Band getroffen. Die fehlenden Daten werden dann in Form eines Komfortrauschens regeneriert.
  • Die Regenerierung der fehlenden Daten kann für nur ein Spektralband oder für mehrere vorbestimmte Spektralbänder des Spektrums des Audiosignals durchgeführt werden.
  • Wenn eine erste Einheit von Eingangsaudioflüssen fehlende Daten aufweist, wird die Regenerierung der fehlenden Daten eines Flusses der ersten Einheit in Abhängigkeit von mindestens einem Merkmal einer zweiten Einheit von Audioflüssen, die aus allen Flüssen besteht, die keine fehlenden Daten aufweisen, oder einer dritten Einheit, die die zweite Einheit sowie mindestens einen Audiofluss der ersten Einheit enthält, dessen fehlende Daten regeneriert wurden, oder auch aller aktiven Audioflüsse veranlasst.
  • Wenn der oder die Eingangsaudioflüsse aus mehreren Rahmen bestehen, und wenn die Rahmen der verschiedenen Flüsse asynchron empfangen werden, wird, wenn eine erste Einheit von Eingangsaudioflüssen fehlende Daten aufweist, die Regenerierung der fehlenden Daten eines laufenden Rahmens eines Flusses der ersten Einheit in Abhängigkeit von mindestens einem Merkmal mindestens eines früheren Rahmens und/oder des laufenden Rahmens oder eines späteren Rahmens mindestens des zweiten Audioflusses veranlasst.
  • Die Erfindung wird ebenfalls durch eine Vorrichtung zur Verarbeitung eines Audiosignals definiert, die ausgelegt ist, um mehrere Eingangsaudioflüsse zu empfangen und um mindestens einen Ausgangsaudiofluss ausgehend von den Eingangsaudioflüssen zu liefern, wobei mindestens einer der Eingangsaudioflüsse, erster Fluss genannt, fehlende Daten aufweisen kann, wobei die Vorrichtung Entscheidungsmittel aufweist, um über die Regenerierung oder nicht mindestens eines Teils der fehlenden Daten des ersten Flusses ausgehend von mindestens einem Merkmal mindestens eines zweiten Eingangsaudioflusses zu entscheiden.
  • Die Erfindung wird noch durch eine Audiobrücke für ein Telekonferenzsystem definiert, die ausgelegt ist, um mehrere Eingangsaudioflüsse zu empfangen und zu mischen und/oder zu multiplexieren, um mehrere Ausgangsaudioflüsse zu liefern, wobei die Eingangsaudioflüsse fehlende Daten aufweisen können, wobei die Audiobrücke mehrere Teildecodierungsmittel, die teilweise decodierte Datenflüsse ausgehend von den Eingangsaudioflüssen liefern, Mittel zur Entscheidung über die Regenerierung, die an den teilweise decodierten Datenflüssen wirken und über die Regenerierung oder nicht der fehlenden Daten durch Regenerierungsmittel entscheiden, Mittel zur teilweisen Recodierung der teilweise decodierten oder regenerierten Daten aufweist, wobei die Entscheidungsmittel ausgelegt sind, um über die Regenerierung mindestens eines Teils der fehlenden Daten eines ersten Eingangsflusses ausgehend von mindestens einem Merkmal mindestens eines zweiten Eingangsaudioflusses zu bestimmen.
  • Wenn die Eingangsaudioflüsse aus Datenrahmen bestehen, die durch Codierung vom Typ TCDM von Audiosignalen erhalten werden, dequantisieren die Mittel zur teilweisen Decodierung die Frequenzkomponenten der Audiosignale in Subbänder, die Regenerierungs-Entscheidungsmittel berechnen die Energie in jedem Subband jedes Audiosignals und bestimmen für jedes Subband das Signal mit der größten Energie und einen Verdeckungspegel, den es in das Subband induziert, wobei die Erzeugung von fehlenden Daten eines Audiosignals in dem Subband aus einem Vergleich, späterer Vergleich genannt, der Energie der Frequenzkomponenten dieses Signals in dem Subband mit dem Verdeckungspegel resultiert.
  • Vorteilhafterweise sind die Entscheidungsmittel ausgelegt, um ebenfalls für jedes Subband das Signal, das die zweitstärkste Energie aufweist, und einen zweiten Verdeckungspegel zu bestimmen, der von diesem Signal in das Subband induziert wird, wobei die Nicht-Regenerierung von fehlenden Daten eines Audiosignals in dem Subband aus einem vorhergehenden Vergleich der Energie der Frequenzkomponenten dieses Signals in dem Subband mit dem zweiten Verdeckungspegel resultiert.
  • Wenn, für ein gegebenes Band, der vorhergehende Vergleich nicht auf die Nicht-Regenerierung schließt und der spätere Vergleich auf die Regenerierung der fehlenden Daten schließt, werden diese letzteren tatsächlich von den Regenerierungsmitteln regeneriert, und die regenerierten Daten werden nur für den oder die Ausgangsflüsse berücksichtigt, in dem oder denen das Signal stärkster Leistung im Subband nicht interveniert.
  • Gemäß einer Variante sind die Entscheidungsmittel ausgelegt, zu bestimmen, ob die fehlenden Daten eines Eingangsflusses sich auf eine Sendepause beziehen, und wenn dies der Fall ist, für jeden ausgehend von diesem Eingangsfluss erhaltenen Ausgangsfluss die Einheit der aktiven Eingangsflüsse zu bestimmen, die ebenfalls zur Zusammensetzung des Ausgangsflusses gehören, und die Erzeugung eines Komfortrauschens zu veranlassen, wenn für einen der ausgehend von diesem Eingangsfluss erhaltenen Ausgangsflüsse diese Einheit leer ist, und wenn in diesem Fall das Komfortrauschen, das regeneriert würde, nicht von einem anderen Komfortrauschen verdeckt würde, das für einen anderen nicht aktiven Eingangsfluss regeneriert wird.
  • Schließlich wird die Erfindung durch ein Audioterminal für ein Telekonferenzsystem definiert, das ausgelegt ist, um mehrere Eingangsaudioflüsse zu empfangen und zu mischen, um ein Ausgangsaudiosignal zu liefern, wobei die Eingangsaudioflüsse fehlende Daten aufweisen können, wobei das Terminal mehrere Mittel zur teilweisen Decodierung, die teilweise decodierte Datenflüsse ausgehend von den Eingangsaudioflüssen liefern, Mittel zur Entscheidung über die Regenerierung, die auf die teilweise decodierten Datenflüssen wirken und über die Regenerierung oder nicht der fehlenden Daten durch Regenerierungsmittel entscheiden, Summiermittel der teilweise decodierten oder regenerierten Daten und Mittel zur Frequenz/Zeit-Umwandlung aufweist, die das Ausgangsaudiosignal ausgehend von den summierten Werten liefern, die von den Summiermitteln geliefert werden, wobei die Entscheidungsmittel ausgelegt sind, um über die Regenerierung mindestens eines Teils der fehlenden Daten eines ersten Eingangsflusses ausgehend von mindestens einem Merkmal mindestens eines zweiten Eingangsaudioflusses zu entscheiden.
  • Wenn die Eingangsdatenflüsse aus Datenrahmen bestehen, die durch Codierung vom Typ TCDM von Audiosignalen erhalten werden, dequantisieren die Mittel zur teilweisen Decodierung die Frequenzkomponenten der Audiosignale in Subbänder, die Regenerierungs-Entscheidungsmittel berechnen die Energie in jedem Subband jedes Audiosignals und bestimmen für jedes Subband das Signal, das die stärkste Energie aufweist, und einen Verdeckungspegel, den es in das Subband induziert, wobei die Erzeugung von fehlenden Daten eines Audiosignals in dem Subband aus dem Vergleich der Energie der Frequenzkomponenten dieses Signals in dem Subband mit dem Verdeckungspegel resultiert.
  • Vorteilhafterweise sind die Entscheidungsmittel ausgelegt, zu bestimmen, ob die fehlenden Daten eines Eingangsflusses sich auf eine Sendepause beziehen. Wenn dies der Fall ist, veranlassen die Entscheidungsmittel die Erzeugung eines Komfortrauschens, wenn die anderen Eingangsflüsse nicht aktiv sind, und wenn in diesem Fall das Komfortrauschen, das regeneriert würde, nicht von einem anderen Komfortrauschen verdeckt würde, das für einen anderen nicht aktiven Eingangsfluss regeneriert wird.
  • Die oben erwähnten Merkmale der Erfindung sowie andere gehen klarer aus der nachfolgenden Beschreibung in Verbindung mit den beiliegenden Zeichnungen hervor.
  • 1 stellt schematisch eine aus dem Stand der Technik bekannte Telekonferenz-Audiobrücke dar;
  • 2 stellt schematisch die Struktur eines aus dem Stand der Technik bekannten Wahrnehmungs-Audiocodierers dar;
  • 3A stellt schematisch die Struktur eines Teildecodierers dar, der in der in 1 veranschaulichten Audiobrücke verwendet werden kann;
  • 3B stellt schematisch ein Beispiel eines Mischmoduls für die in 1 veranschaulichte Audiobrücke dar;
  • 3C stellt schematisch ein Beispiel eines Teilcodierers für die in 1 veranschaulichte Audiobrücke dar;
  • 4 stellt schematisch ein aus dem Stand der Technik bekanntes Telekonferenz-Audioterminal dar;
  • 5 stellt schematisch eine erste Ausführungsform der Erfindung dar;
  • 6 stellt schematisch eine zweite Ausführungsform der Erfindung dar.
  • Die allgemeine Grundidee der Erfindung ist es, im Fall einer Diskontinuität eines Audioflusses die Regenerierung der fehlenden Daten gemäß einem Entscheidungskriterium durchzuführen. Dieses Kriterium kann insbesondere ein Wahrnehmungskriterium, das auf den Eigenschaften der Verdeckung zwischen Signalen gründet, oder ein Kriterium sein, das von der Komplexität des Regenerierungsvorgangs und der Betriebsressourcen im Moment der Entscheidung abhängt.
  • Die Erfindung wird nachfolgend in nicht einschränkender Weise durch ihre Anwendung an eine Audiobrücke und an ein Audioterminal einer Telekonferenz veranschaulicht.
  • 5 veranschaulicht eine Audiobrücke mit bedingter Regenerierung der fehlenden Daten, wenn ein Eingangsfluss eine Diskontinuität aufweist.
  • Die Eingänge E1, ..., EK empfangen je einen Audiofluss bestehend aus Rahmen von codierten Audiodaten. Die verwendete Codierung kann eine Codierung durch Transformation oder eine Codierung durch Subbänder sein. Es wird zum Beispiel angenommen, dass die Rahmen von einem Wahrnehmungs-Audiocodierer TDAC codiert wurden, wie er in 2 veranschaulicht ist.
  • In 5001 , ..., 500K ist die Tatsache symbolisch dargestellt, dass die K Eingangsflüsse Diskontinuitäten aufweisen können, unabhängig davon, ob diese durch einen Datenverlust, ein Jitter oder eine Sendepause verursacht werden. Wenn der Fluss von Ep kontinuierlich ist, wird er zu einem Teildecodierer 510p geleitet. Die teilweise decodierten Rahmen werden zu einem Entscheidungsmodul der bedingten Regenerierung gelenkt, wo sie in Rahmenregistern oder -speichern gespeichert werden. Jedes Register speichert die dequantisierten Komponenten yP(k), die dequantisierten Energiewerte eP(j), sowie die Stimmhaftigkeits- und Toninformationen vP und tP bezüglich eines Flusses p. Der Entscheidungsmodul erfasst die Abwesenheit von Daten oder die Sendepause und entscheidet, die fehlenden Daten zu regenerieren oder nicht. Wenn der Fluss von Ep diskontinuierlich ist und der Modul 540 eine Regenerierungsentscheidung getroffen hat, werden die fehlenden Daten ganz oder teilweise in der Regenerierungseinheit 550p regeneriert, ehe der Rahmen an die Mischeinheit 530 übertragen wird. Wenn dagegen der Fluss Ep kontinuierlich ist, wird der teilweise decodierte Rahmen direkt an die Mischeinheit übertragen. In beiden Fällen werden die von den verschiedenen Flüssen stammenden Rahmen im Mischmodul 530 kombiniert, und die kombinierten Flüsse werden in den Teilcodierern 520i bis 520K recodiert, um die Ausgangsaudioflüsse in S1, ..., SK zu erzeugen.
  • Es wird angenommen, dass in einem gegebenen Zeitpunkt t ein Eingangsfluss mit dem Index p0 eine Diskontinuität aufweist, und die Einheit der Indices der im Zeitpunkt t empfangenen Flüsse wird mit
    Figure 00190001
    bezeichnet.
  • Der Entscheidungsmodul 540 entscheidet zunächst, ob die fehlenden Daten des Flusses p0 nicht empfangene Daten (verloren oder exzessiv verzögert durch das Jitter) sind, oder ob sie durch eine Sendepause verursacht werden.
  • Im Fall der nicht empfangenen Daten verwendet der Modul 540 ein Wahrnehmungskriterium, um über die Regenerierung zu entscheiden. Hierzu schätzt er die Energien der verschiedenen Subbänder für den Fluss mit dem Index p0, nämlich eP0(j), j = 1, ..., M, sowie die Komponenten yP0(k). Diese Schätzung wird vorteilhafterweise ausgehend von dem Rahmen mit dem Index p0 durchgeführt, der im Zeitpunkt t – 1 gespeichert wird, oder auch, wenn der Rahmenspeicher ein FIFO-Buffer ist und man eine Verarbeitungsverzögerung toleriert, ausgehend von den Rahmen mit dem Index p0, die in den Zeitpunkten t – 1 und t + 1 gespeichert werden. Allgemein können die fehlenden Daten ausgehend von einem oder mehreren der vorhergehenden Rahmen und/oder einem oder mehreren der folgenden Rahmen geschätzt werden. Andererseits bestimmt der Modul 540 für jedes der Bänder j = 1, ..., M die Flüsse, die verdeckend sein können: Zu diesem Zweck bestimmt der Modul 540 für jedes Band j, für welchen Index
    Figure 00200001
    die Energie eP(j) maximal ist. Es sei pmax(j) dieser Index, emax(j) der maximale Energiewert und MT(j) die Verdeckungsschwelle, die vom Signal mit dem Index pmax(j) der Energie emax(j) in dem Band j induziert wird. Aus Gründen, die weiter unten klar werden, bestimmt der Modul 540 ebenfalls in der Einheit
    Figure 00200002
    den Index des zweiten Maximums von eP(j). Es sei pmax2(j) dieser Index, emax2(j) das zweite Maximum und MT2(j) die Verdeckungsschwelle, die vom Signal mit dem Index pmax2(j) der Energie emax2(j) im Band j induziert wird. Der Modul 540 testet dann, ob gilt: (yp0(k))2 < MT(j) ∀k∊ Band j (1)
  • Wenn die Bedingung (1) nicht erfüllt ist, anders gesagt, wenn das nicht empfangene geschätzte Signal nicht im Band j von einem der empfangenen Signale verdeckt wird, entscheidet der Modul 540, das Band j des nicht empfangenen Signals zu regenerieren.
  • Wenn die Bedingung (1) erfüllt ist, anders gesagt, wenn das nicht empfangene Signal im Band j von dem Signal mit dem Index pmax(j) verdeckt wird, muss gemäß dem Index m des Ausgangsflusses unterschieden werden. Ein Eingangsfluss mit dem Index m nimmt nämlich nicht am Ausgangsfluss m teil und kann also nicht für eine mögliche Verdeckung in Höhe dieses Ausgangs berücksichtigt werden. Anders gesagt, für m ⇒ pmax(j) muss das Band j des nicht empfangenen Flusses nicht regeneriert werden. Dagegen für m = pmax(j) muss geprüft werden, ob das nicht empfangene Signal noch verdeckt ist, d. h. bestimmt werden, ob: (yp0(k))2 < MT2(j) ∀k∊ Band j (2)
  • Wenn die Bedingung (2) nicht erfüllt ist, anders gesagt, wenn das nicht empfangene Signal nicht mehr verdeckt ist, wird das Band j regeneriert. Umgekehrt ist das nicht empfangene Signal noch verdeckt, und es muss keine Regenerierung durchgeführt werden.
  • In der Praxis und vorteilhafterweise führt der Modul 540 zunächst den Test der Bedingung (2) durch. Wenn letztere erfüllt ist, wird die Regenerierung des Bands j nicht durchgeführt. Im gegenteiligen Fall wird das Band j des nicht empfangenen Flusses regeneriert, und die Bedingung (1) wird getestet. Wenn die Bedingung (1) nicht erfüllt ist, wird das regenerierte Band dann nur für den Ausgangsfluss mit dem Index pmax(j) berücksichtigt. Umgekehrt, wenn die Bedingung (1) noch erfüllt ist, wird das regenerierte Band für alle Ausgangsflüsse berücksichtigt, außer natürlich demjenigen mit dem Index p0.
  • Wenn die Diskontinuität im Zeitpunkt t des Flusses p0 durch eine Sendepause verursacht wird, bestimmt der Modul 540 für jeden Ausgangsindex m ≠ p0, ob mindestens einer der zur Zusammensetzung des Ausgangsflusses m gehörenden Eingangsflüsse p aktiv ist, unabhängig davon, ob er empfangen oder regeneriert wird. Wenn es für jeden Index m ≠ p0 einen solchen aktiven Fluss gibt, wird das Komfortrauschen nicht erzeugt. Wenn es dagegen einen derartigen Index m ≠ p0 gibt, dass keiner der zur Zusammensetzung des Ausgangsflusses m gehörenden Eingangsflüsse aktiv ist, wird die Prozedur der bedingten Erzeugung pro Band, wie sie oben erläutert wird, angewendet. Anders gesagt, für jedes Band j prüft der Modul 540, ob das Komfortrauschen p0 von dem Verdeckungspegel verdeckt wird, der durch ein anderes Komfortrauschen induziert wird, und wenn dies der Fall ist, entscheidet er, das Komfortrauschen p0 im fraglichen Band nicht zu erzeugen. Der Ausgangsfluss m trägt dann die Rahmeninformation SID.
  • 6 veranschaulicht ein Audioterminal vom in 4 dargestellten Typ mit bedingter Regenerierung der fehlenden Daten, wenn ein Eingangsfluss eine Diskontinuität aufweist.
  • Die Eingänge E1, ..., EK-1 empfangen je einen Audiofluss bestehend aus codierten Audiodatenrahmen. Die verwendete Codierung kann eine Codierung durch Transformation oder eine Codierung durch Subbänder sein. Auch hier wird angenommen, dass die Rahmen vom Wahrnehmungscodierer codiert wurden, wie er in 2 veranschaulicht ist.
  • In 6001 , ..., 600K-1 ist die Tatsache symbolisch dargestellt, dass die K – 1 Eingangsflüsse Diskontinuitäten aufweisen können, unabhängig davon, ob diese durch einen Verlust, ein Jitter oder eine Sendepause verursacht werden. Wenn der Fluss von Ep kontinuierlich ist, wird er zu einem Teildecodierer 610p gelenkt. Die teilweise decodierten Rahmen werden zu einem Entscheidungsmodul der bedingten Regenerierung 640 gelenkt, wo sie in Rahmenregistern oder -speichern gespeichert werden. Jedes Register speichert die dequantisierten Komponenten yP(k), die dequantisierten Energiewerte eP(j) sowie die Stimmhaftigkeits- und Toninformationen vP und tP bezüglich eines Flusses p. Der Entscheidungsmodul erfasst die Abwesenheit von Daten oder die Sendepause und entscheidet, die fehlenden Daten zu regenerieren oder nicht. Wenn der Fluss von Ep diskontinuierlich ist und der Modul 640 eine Regenerierungsentscheidung getroffen hat, werden die fehlenden Daten vollständig oder teilweise in der Regenerierungseinheit 650p regeneriert, dann wird der regenerierte Rahmen an den Summierer 630 übertragen. Nach der Summierung der K – 1 empfangenen oder regenerierten Rahmen führt die Einheit 660 eine Umwandlung des (komprimierten) Frequenzbereichs in den Zeitbereich durch. Das resultierende Audiosignal kann zum Beispiel von einem Lautsprecher reproduziert werden.
  • Es wird erneut angenommen, dass in einem gegebenen Zeitpunkt t ein Eingangsfluss mit dem Index p0 eine Diskontinuität aufweist, und die Gesamtheit der Indices der im Zeitpunkt t empfangenen Flüsse wird mit
    Figure 00230001
    bezeichnet.
  • Der Entscheidungsmodul 640 bestimmt zunächst, ob die fehlenden Daten des Flusses p0 nicht empfangene Daten (verloren oder exzessiv verzögert) sind oder aber durch eine Sendepause verursacht werden.
  • Im Fall von nicht empfangenen Daten verwendet der Modul 640 ein Wahrnehmungskriterium, um über die Regenerierung zu entscheiden. Hierzu schätzt er, wie man oben gesehen hat, die Energien der verschiedenen Subbänder für den Fluss mit dem Index p0, nämlich ep0(j), j = 1, ..., M, sowie die Komponenten yp0(k), und bestimmt für jede die Flüsse, die verdeckend sein können. Für jedes Band t bestimmt der Modul 640, für welchen Index
    Figure 00240001
    die Energie eP(j) maximal ist. Es sei pmax(j) dieser Index, emax(j) der maximale Energiewert und MT(j) die Verdeckungsschwelle, die vom Signal mit dem Index pmax(j) der Energie emax(j) im Band j induziert wird. Der Modul 640 testet dann, ob gilt: (yp0(k))2 < MT(j) ∀k∊ Band j (1')
  • Wenn die Bedingung (1') nicht erfüllt ist, anders gesagt, wenn das nicht empfangene geschätzte Signal nicht im Band j von einem der empfangenen Signale verdeckt wird, entscheidet dann der Modul 640, das Band j des nicht empfangenen Signals zu regenerieren.
  • In dem Fall, in dem die Diskontinuität im Zeitpunkt t des Flusses p0 durch eine Sendepause verursacht wird, bestimmt der Modul 640, ob mindestens einer der anderen Eingangsflüsse p aktiv ist, unabhängig davon, ob er tatsächlich empfangen oder regeneriert wird. Wenn ein solcher aktiver Fluss existiert, wird das Komfortrauschen des Flusses p0 nicht erzeugt. Wenn dagegen kein Eingangsfluss aktiv ist, wird die oben erläuterte Prozedur der bedingten Erzeugung pro Band an das Komfortrauschen angewendet. Anders gesagt, für jedes Band j prüft der Modul 640, ob die Komfortpause p0 von dem Verdeckungspegel verdeckt wird, der von einer anderen Komfortpause induziert wird, wenn dies der Fall ist, entscheidet er, die Komfortpause p0 im dem betreffenden Band nicht zu erzeugen. Das in 660 reproduzierte Signal ist dann ein Komfortrauschen.
  • Obwohl bisher angenommen wurde, dass die Audiocodierung vom Typ mit TCDM-Transformation ist, betrifft die Erfindung allgemein jeden Typ von Codierung, und insbesondere eine Wahrnehmungscodierung durch Subbänder, wie sie zum Beispiel in UIT-T G.722.1 definiert ist. Die Erfindung betrifft ebenfalls eine Codierung CELP (Code Excited Linear Predictive), zum Beispiel eine CELP Wahrnehmungscodierung.
  • Man stellt fest, dass, wenn die Audioflüsse durch eine Codierung codiert wurden, die Zustandsvariable verwendet, die nicht empfangenen Daten, die nach (Jitter) ihrer Regenerierung ankommen, trotzdem zur Aktualisierung dieser Variablen dienen können.
  • Schließlich kann man sich in allen Fällen aus Gründen der Ausführungsvereinfachung auf eine Regenerierung in einem reduzierten Band oder nur in bestimmten Subbändern des Spektrums beschränken. Zum Beispiel, obwohl die empfangenen Signale ein breites Spektrum [0–8 kHz] aufweisen, kann die Regenerierung nur im reduzierten Band [0–4 kHz] stattfinden. Wenn die Regenerierung nur in bestimmten Subbändern durchgeführt wird, verwendet man vorteilhafterweise das Zerschneiden in unregelmäßige Bänder, das für die Codierung verwendet wird.

Claims (15)

  1. Verfahren zur Verarbeitung eines Audiosignals, das mindestens einen Ausgangsaudiofluss ausgehend von mehreren Eingangsaudioflüssen erzeugt, wobei mindestens einer der Eingangsaudioflüsse, erster Fluss genannt, fehlende Daten aufweisen kann, dadurch gekennzeichnet, dass es einen Entscheidungsschritt für die Regenerierung mindestens eines Teils der Daten aufweist, die im ersten Fluss fehlen, wobei der Schritt für ein gegebenes Audio-Spektralband darin besteht, einen Verdeckungspegel zu bestimmen, der von einem zweiten Fluss in das Band induziert wird, und die Entscheidung zur Regenerierung der fehlenden Daten im Band in Abhängigkeit von der geschätzten Leistung des ersten Flusses im Band und des Verdeckungspegels zu treffen.
  2. Verfahren zur Verarbeitung eines Audiosignals nach Anspruch 1, dadurch gekennzeichnet, dass, wenn die fehlenden Daten des ersten Flusses durch eine Sendepause verursacht werden und die anderen Flüsse ebenfalls fehlende Daten aufgrund einer Sendepause besitzen, die Entscheidung der Regenerierung der fehlenden Daten des ersten Flusses in Abhängigkeit von der geschätzten Leistung des ersten Flusses im Band und von einem Verdeckungspegel in diesem Band getroffen wird.
  3. Verfahren zur Verarbeitung eines Audiosignals nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die fehlenden Daten in Form eines Komfortrauschens regeneriert werden.
  4. Verfahren zur Verarbeitung eines Audiosignals nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Regenerierung der fehlenden Daten nur für ein Spektralband oder für mehrere vorbestimmte Spektralbänder des Spektrums des Audiosignals durchgeführt wird.
  5. Verfahren zur Verarbeitung eines Audiosignals nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass, da eine erste Einheit von Eingangsaudioflüssen fehlende Daten aufweisen kann, die Regenerierung der fehlenden Daten eines Flusses der ersten Einheit in Abhängigkeit von mindestens einem Merkmal einer zweiten Einheit von Audioflüssen, die aus allen Flüssen besteht, die keine fehlenden Daten aufweisen, oder einer dritten Einheit, die die zweite Einheit sowie mindestens einen Audiofluss der ersten Einheit enthält, dessen fehlende Daten regeneriert wurden, oder auch aller aktiven Audioflüsse veranlasst wird.
  6. Verfahren zur Verarbeitung eines Audiosignals nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass, da jeder Eingangsaudiofluss aus mehreren Rahmen besteht, wobei die Rahmen der verschiedenen Flüsse asynchron empfangen werden können, wobei eine erste Einheit von Eingangsaudioflüssen fehlende Daten aufweisen kann, die Regenerierung der fehlenden Daten eines laufenden Rahmens eines Flusses der ersten Einheit in Abhängigkeit von mindestens einem Merkmal mindestens eines früheren Rahmens und/oder des laufenden Rahmens oder eines späteren Rahmens mindestens des zweiten Audioflusses veranlasst wird.
  7. Vorrichtung zur Verarbeitung eines Audiosignals, die ausgelegt ist, um mehrere Eingangsaudioflüsse zu empfangen und um mindestens einen Ausgangsaudiofluss ausgehend von den Eingangsaudioflüssen zu liefern, wobei mindestens einer der Eingangsaudioflüsse, erster Fluss genannt, fehlende Daten aufweisen kann, dadurch gekennzeichnet, dass sie Entscheidungsmittel aufweist, um über die Regenerierung oder nicht mindestens eines Teils der fehlenden Daten des ersten Flusses zu entscheiden, wobei die von den Entscheidungsmitteln getroffene Entscheidung dem Verfahren des Anspruchs 1 entspricht.
  8. Audiobrücke für ein Telekonferenzsystem, die ausgelegt ist, um mehrere Eingangsaudioflüsse zu empfangen und zu mischen und/oder zu multiplexieren, um mehrere Ausgangsaudioflüsse zu liefern, wobei die Eingangsaudioflüsse fehlende Daten aufweisen können, dadurch gekennzeichnet, dass sie mehrere Teildecodierungsmittel (510p ), die teilweise decodierte Datenflüsse ausgehend von den Eingangsaudioflüssen liefern, Mittel (540) zur Entscheidung über die Regenerierung, die an den teilweise decodierten Datenflüssen wirken und über die Regenerierung oder nicht der fehlenden Daten durch Regenerierungsmittel (550p ) entscheiden, Mittel (520p ) zur teilweisen Neucodierung der teilweise decodierten oder regenerierten Daten aufweist, wobei die Entscheidungsmittel ausgelegt sind, um für ein gegebenes Audio-Spektralband einen Verdeckungspegel zu bestimmen, der von einem zweiten Fluss in das Band induziert wird, und über die Regenerierung der fehlenden Daten eines ersten Eingangsflusses in dem Band in Abhängigkeit von der geschätzten Leistung des ersten Flusses in dem Band und des Verdeckungspegels zu bestimmen.
  9. Audiobrücke nach Anspruch 8, dadurch gekennzeichnet, dass, da die Eingangsaudioflüsse aus Datenrahmen bestehen, die durch Codierung vom Typ TCDM von Audiosignalen erhalten werden, die Mittel zur teilweisen Decodierung die Frequenzkomponenten der Audiosignale in Subbänder dequantisieren, die Regenerierungs- Entscheidungsmittel die Energie in jedem Subband jedes Audiosignals berechnen, für jedes Subband das Signal mit der größten Energie und einen Verdeckungspegel bestimmen, den es in das Subband induziert, wobei die Erzeugung von fehlenden Daten eines Audiosignals in dem Subband aus einem Vergleich, späterer Vergleich genannt, der Energie der Frequenzkomponenten dieses Signals in dem Subband mit dem Verdeckungspegel resultiert.
  10. Audiobrücke nach Anspruch 9, dadurch gekennzeichnet, dass die Entscheidungsmittel ausgelegt sind, um ebenfalls für jedes Subband das Signal, das die zweitstärkste Energie aufweist, und einen zweiten Verdeckungspegel zu bestimmen, der von diesem Signal in das Subband induziert wird, wobei die Nicht-Regenerierung von fehlenden Daten eines Audiosignals in dem Subband aus einem vorhergehenden Vergleich der Energie der Frequenzkomponenten dieses Signals in dem Subband mit dem zweiten Verdeckungspegel resultiert.
  11. Audiobrücke nach Anspruch 10, dadurch gekennzeichnet, dass für ein gegebenes Band, wenn der vorhergehende Vergleich nicht auf die Nicht-Regenerierung schließt und der spätere Vergleich auf die Regenerierung der fehlenden Daten schließt, diese letzteren tatsächlich von den Regenerierungsmitteln regeneriert werden und die regenerierten Daten nur für den oder die Ausgangsflüsse berücksichtigt werden, in dem oder denen das Signal stärkster Leistung im Subband nicht interveniert.
  12. Audiobrücke nach einem der Ansprüche 8 bis 11, dadurch gekennzeichnet, dass die Entscheidungsmittel ausgelegt sind zu bestimmen, ob die fehlenden Daten eines Eingangsflusses sich auf eine Sendepause beziehen, und wenn dies der Fall ist, für jeden ausgehend von diesem Eingangsfluss erhaltenen Ausgangsfluss die Einheit der aktiven Eingangsflüsse zu bestimmen, die ebenfalls zur Zusammensetzung des Ausgangsflusses gehören, und die Erzeugung eines Komfortrauschens zu veranlassen, wenn für einen der ausgehend von diesem Eingangsfluss erhaltenen Ausgangsflüsse diese Einheit leer ist, und wenn in diesem Fall das Komfortrauschen, das regeneriert würde, nicht von einem anderen Komfortrauschen verdeckt würde, das für einen anderen nicht aktiven Eingangsfluss regeneriert wird.
  13. Audioterminal für ein Telekonferenzsystem, das ausgelegt ist, um mehrere Eingangsaudioflüsse zu empfangen und zu mischen, um ein Ausgangsaudiosignal zu liefern, wobei die Eingangsaudioflüsse fehlende Daten aufweisen können, dadurch gekennzeichnet, dass es mehrere Mittel (610p ) zur teilweisen Decodierung, die teilweise decodierte Datenflüsse ausgehend von den Eingangsaudioflüssen liefern, Mittel (640) zur Entscheidung über die Regenerierung, die auf die teilweise decodierten Datenflüssen wirken und über die Regenerierung oder nicht der fehlenden Daten durch Regenerierungsmittel (650p ) entscheiden, Summiermittel (630) der teilweise decodierten oder regenerierten Daten und Mittel zur Frequenz/Zeit-Umwandlung (660) aufweist, die das Ausgangsaudiosignal ausgehend von den summierten Werten liefern, die von den Summiermitteln geliefert werden, wobei die Entscheidungsmittel ausgelegt sind, um für ein gegebenes Audio-Spektralband einen Verdeckungspegel zu bestimmen, der von einem zweiten Fluss in das Band induziert wird, und um über die Regenerierung der fehlenden Daten eines ersten Eingangsflusses in dem Band in Abhängigkeit von der geschätzten Leistung des ersten Flusses in dem Band und dem Verdeckungspegel zu entscheiden.
  14. Audioterminal nach Anspruch 13, dadurch gekennzeichnet, dass, da die Eingangsdatenflüsse aus Datenrahmen bestehen, die durch Codierung vom Typ TCDM von Audiosignalen erhalten werden, die Mittel zur teilweisen Decodierung die Frequenzkomponenten der Audiosignale in Subbänder dequantisieren, die Regenerierungs-Entscheidungsmittel die Energie in jedem Subband jedes Audiosignals berechnen und für jedes Subband das Signal, das die stärkste Energie aufweist, und einen Verdeckungspegel bestimmen, den es in das Subband induziert, wobei die Erzeugung von fehlenden Daten eines Audiosignals in dem Subband aus dem Vergleich der Energie der Frequenzkomponenten dieses Signals in dem Subband mit dem Verdeckungspegel resultiert.
  15. Audioterminal nach Anspruch 14, dadurch gekennzeichnet, dass die Entscheidungsmittel ausgelegt sind, zu bestimmen, ob die fehlenden Daten eines Eingangsflusses sich auf eine Sendepause beziehen, und wenn dies der Fall ist, die Erzeugung eines Komfortrauschens zu veranlassen, wenn die anderen Eingangsflüsse nicht aktiv sind, und wenn in diesem Fall das Komfortrauschen, das regeneriert würde, nicht von einem anderen Komfortrauschen verdeckt würde, das für einen anderen nicht aktiven Eingangsfluss regeneriert wird.
DE60224005T 2001-02-02 2002-01-31 Verfahren und vorrichtung zur verarbeitung von mehreren audiobitströmen Expired - Lifetime DE60224005T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0101662 2001-02-02
FR0101662A FR2820573B1 (fr) 2001-02-02 2001-02-02 Methode et dispositif de traitement d'une pluralite de flux binaires audio
PCT/FR2002/000366 WO2002063609A1 (fr) 2001-02-02 2002-01-31 Methode et dispositif de traitement d'une pluralite de flux binaires audio

Publications (2)

Publication Number Publication Date
DE60224005D1 DE60224005D1 (de) 2008-01-24
DE60224005T2 true DE60224005T2 (de) 2009-01-22

Family

ID=8859733

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60224005T Expired - Lifetime DE60224005T2 (de) 2001-02-02 2002-01-31 Verfahren und vorrichtung zur verarbeitung von mehreren audiobitströmen

Country Status (4)

Country Link
EP (1) EP1356455B1 (de)
DE (1) DE60224005T2 (de)
FR (1) FR2820573B1 (de)
WO (1) WO2002063609A1 (de)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004073178A2 (en) * 2003-02-06 2004-08-26 Dolby Laboratories Licensing Corporation Continuous backup audio
CA2525942C (en) 2003-05-28 2015-04-07 Dolby Laboratories Licensing Corporation Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal
US7460684B2 (en) 2003-06-13 2008-12-02 Nielsen Media Research, Inc. Method and apparatus for embedding watermarks
CN1993700B (zh) 2004-07-02 2012-03-14 尼尔逊媒介研究股份有限公司 用于进行压缩数字位流的混合的方法及装置
AU2005299410B2 (en) 2004-10-26 2011-04-07 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US8199933B2 (en) 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
CN101410892B (zh) 2006-04-04 2012-08-08 杜比实验室特许公司 改进的离散余弦变换域中的音频信号响度测量及修改
US8144881B2 (en) 2006-04-27 2012-03-27 Dolby Laboratories Licensing Corporation Audio gain control using specific-loudness-based auditory event detection
EP2095560B1 (de) 2006-10-11 2015-09-09 The Nielsen Company (US), LLC Verfahren und vorrichtung zur einbettung von codes in komprimierte audiodatenströme
MX2009004175A (es) 2006-10-20 2009-04-30 Dolby Lab Licensing Corp Procesamiento de dinamica de audio que utiliza una reposicion.
US8521314B2 (en) 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
FR2916079A1 (fr) * 2007-05-10 2008-11-14 France Telecom Procede de codage et decodage audio, codeur audio, decodeur audio et programmes d'ordinateur associes
BRPI0813723B1 (pt) 2007-07-13 2020-02-04 Dolby Laboratories Licensing Corp método para controlar o nível de intensidade do som de eventos auditivos, memória legível por computador não transitória, sistema de computador e aparelho
CN102017402B (zh) 2007-12-21 2015-01-07 Dts有限责任公司 用于调节音频信号的感知响度的系统
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006173A (en) * 1991-04-06 1999-12-21 Starguide Digital Networks, Inc. Method of transmitting and storing digitized audio signals over interference affected channels
US5570363A (en) * 1994-09-30 1996-10-29 Intel Corporation Transform based scalable audio compression algorithms and low cost audio multi-point conferencing systems

Also Published As

Publication number Publication date
WO2002063609A1 (fr) 2002-08-15
FR2820573B1 (fr) 2003-03-28
EP1356455A1 (de) 2003-10-29
FR2820573A1 (fr) 2002-08-09
DE60224005D1 (de) 2008-01-24
EP1356455B1 (de) 2007-12-12

Similar Documents

Publication Publication Date Title
DE60224005T2 (de) Verfahren und vorrichtung zur verarbeitung von mehreren audiobitströmen
DE60012860T2 (de) Verfahren zur Verarbeitung mehrerer digitaler Audiodatenströme
DE69631318T2 (de) Verfahren und Vorrichtung zur Erzeugung von Hintergrundrauschen in einem digitalen Übertragungssystem
DE3688980T2 (de) Verfahren zur Multigeschwindigkeitskodierung von Signalen und Einrichtung zur Durchführung dieses Verfahrens.
DE60121592T2 (de) Kodierung und dekodierung eines digitalen signals
DE69833834T2 (de) Skalierbares Audiokodier-und Dekodierverfahren und Gerät
DE69834010T2 (de) Skalierbares stereo Tonkodierungs- und Tondekodierungsverfahren und Vorrichtung dafür
DE69636859T2 (de) Taktrückgewinnungsschema für Paketsprache in multiplexender Umgebung von Sprache mit Datenanwendungen
DE60218252T2 (de) Verfahren und Vorrichtung zur Sprachtranskodierung
DE60319590T2 (de) Verfahren zur codierung und decodierung von audio mit variabler rate
DE69735097T2 (de) Verfahren und vorrichtung zur verbesserung der sprachqualität in tandem-sprachkodierern
DE3883519T2 (de) Verfahren und Einrichtung zur Sprachkodierung mit mehreren Datenraten.
DE69603743T2 (de) Verfahren und gerät zum kodieren, behandeln und dekodieren von audiosignalen
DE69730473T2 (de) System zur Kodierung und Übertragung von Sprachsignalen
DE60117471T2 (de) Breitband-signalübertragungssystem
DE2818505C2 (de) Verfahren und Anlage zur Paketübertragung von Sprache
DE69018989T2 (de) Polyphonische kodierung.
DE69534140T2 (de) Verfahren und vorrichtung zur signalkodierung und -dekodierung, aufzeichnungsmedium und signalübertragungsverfahren
EP1338004B1 (de) Verfahren und vorrichtung zum erzeugen bzw. decodieren eines skalierbaren datenstroms unter berücksichtigung einer bitsparkasse, codierer und skalierbarer codierer
EP3217583B1 (de) Decodierer und verfahren zum decodieren einer folge von datenpaketen
DE69024033T2 (de) Kodierungssystem mit variabler Bitrate.
EP0978172B1 (de) Verfahren zum verschleiern von fehlern in einem audiodatenstrom
EP2119078B1 (de) Vorrichtung und verfahren zum erzeugen eines zu sendenden signals oder eines decodierten signals
EP2245621B1 (de) Verfahren und mittel zur enkodierung von hintergrundrauschinformationen
DE60129325T2 (de) Übertragung über paketvermittelte netze

Legal Events

Date Code Title Description
8364 No opposition during term of opposition